JP2018045531A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2018045531A
JP2018045531A JP2016180928A JP2016180928A JP2018045531A JP 2018045531 A JP2018045531 A JP 2018045531A JP 2016180928 A JP2016180928 A JP 2016180928A JP 2016180928 A JP2016180928 A JP 2016180928A JP 2018045531 A JP2018045531 A JP 2018045531A
Authority
JP
Japan
Prior art keywords
message
information processing
notification message
user
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016180928A
Other languages
English (en)
Other versions
JP6333329B2 (ja
Inventor
晃平 菅原
Kohei Sugawara
晃平 菅原
隼人 小林
Hayato Kobayashi
隼人 小林
達洋 丹羽
Tatsuhiro Niwa
達洋 丹羽
清水 徹
Toru Shimizu
徹 清水
伸裕 鍜治
Nobuhiro Kaji
伸裕 鍜治
伸幸 清水
Nobuyuki Shimizu
伸幸 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016180928A priority Critical patent/JP6333329B2/ja
Publication of JP2018045531A publication Critical patent/JP2018045531A/ja
Application granted granted Critical
Publication of JP6333329B2 publication Critical patent/JP6333329B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】通知用情報に基づいてユーザの端末装置へ通知するメッセージを自動的に生成する情報処理装置、情報処理方法、およびプログラムを提供すること。
【解決手段】情報処理装置は、生成部と、通知部とを備える。生成部は、強化学習により学習されたメッセージ生成用強化学習モデルを用いて、ユーザの端末装置へ通知するメッセージを生成する。通知部は、通知用情報に基づいて、生成部によって生成されたメッセージを端末装置へ通知する。
【選択図】図1

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
従来、ユーザの端末装置に送信する固定対話ノードの間に、動的対話ノードを挿入する際に、強化学習を用いて動的対話ノードの挿入行動を制御する情報処理装置が知られている(特許文献1参照)。
特開2015−125198号公報
上記情報処理装置では、動的対話ノードは、固定対話ノードの文に対し類似確率の高いものが選択され、シナリオの進行に沿って挿入される。
上記情報処理装置では、シナリオの進行に沿って動的対話ノードが挿入されるが、通知用情報に基づいて情報処理装置からユーザの端末装置へ、対話ノードなどのメッセージを通知する場合がある。すなわち、プッシュ型の通知を情報処理装置からユーザの端末装置へ行う場合がある。
プッシュ型の通知を行う場合には、上記情報処理装置で存在するシナリオがなく、また固定対話ノードに対応するメッセージがないため、ユーザの端末装置へ通知するメッセージを生成することが困難である。
本願は、上記に鑑みてなされたものであって、通知用情報に基づいてユーザの端末装置へ通知するメッセージを自動的に生成する情報処理装置、情報処理方法、およびプログラムを提供することを目的とする。
本願にかかる情報処理装置は、生成部と、通知部とを備える。生成部は、強化学習により学習されたメッセージ生成用強化学習モデルを用いて、ユーザの端末装置へ通知するメッセージを生成する。通知部は、通知用情報に基づいて、生成部によって生成されたメッセージを端末装置へ通知する。
実施形態の一態様によれば、通知用情報に基づいてユーザの端末装置へ通知するメッセージを自動的に生成する情報処理装置、情報処理方法、およびプログラムを提供することができる。
図1は、実施形態に係る情報処理の説明図である。 図2は、情報処理システムの構成例を示す図である。 図3は、情報処理装置の構成例を示す図である。 図4は、スコアの一例を示す図である。 図5は、実施形態に係る通知メッセージ生成処理の一例を示すフローチャートである。 図6は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願にかかる情報処理装置、情報処理方法、およびプログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願にかかる情報処理装置、情報処理方法、およびプログラムが限定されるものではない。
[1.情報処理]
実施形態に係る情報処理の一例について説明する。図1は、実施形態に係る情報処理の説明図である。ここでは、情報処理装置1によって情報処理が実行される。
情報処理装置1は、強化学習モデル(メッセージ生成用強化学習モデル、学習モデル)を用いてキーワードを選択する(ステップS1)。
強化学習モデルは、詳しくは後述するが、ユーザの端末装置2へプッシュ通知されるメッセージ(以下、通知メッセージという。)を生成する際に、報酬の積算値(以下、スコアという。)が大きいキーワードを選択するモデルである。
強化学習モデルは、ユーザの端末装置2へ送信された通知メッセージに対し、ユーザの応答が良い通知メッセージに関するキーワードのスコアが大きくなるように学習される。
例えば、ユーザが、キーワード「野球」に関する通知メッセージよりも、キーワード「サッカー」に関する通知メッセージに対して応答が良い場合、キーワード「サッカー」のスコアが、キーワード「野球」のスコアよりも大きくなるように、強化学習モデルは、学習される。
情報処理装置1は、選択したキーワードに基づいて、対話モデルを用いて通知メッセージを生成する(ステップS2)。なお、通知メッセージは、通知用情報に基づいたプッシュ通知を行うタイミングで生成されてもよく、また、プッシュ通知を行うタイミングよりも前に生成されてもよい。通知用情報は、ユーザにプッシュ通知を行うための情報であり、正午、19時など予め設定された時間である。
対話モデルは、キーワードと、キーワードにおける通知メッセージとを対として学習されたモデルである。学習に用いられる通知メッセージは、例えば、人手によって生成されてもよく、ウェブや、ツイッター(登録商標)などから得られる文章から収集されてもよい。対話モデルは、通知メッセージを自然文として生成するモデルである。
情報処理装置1は、対話モデルを用いてキーワードに関する通知メッセージを生成する。例えば、選択されたキーワードが「サッカー」であった場合、対話モデルを用いて「サッカー」に関する「サッカーの試合結果知っていますか?」などの通知メッセージを生成する。
情報処理装置1は、通知用情報に基づいてプッシュ通知を行うタイミングとなると、生成した通知メッセージをユーザの端末装置2に送信する(ステップS3)。
このように、情報処理装置1は、強化学習モデルを用いて、ユーザの端末装置2にプッシュ通知する通知メッセージを自動的に生成することができる。また、通知メッセージは、強化学習モデルに基づいたキーワードに関する内容であるため、ユーザの満足度を向上させることができる。
[2.情報処理システム5の構成]
図2は、情報処理システム5の構成例を示す図である。図2に示すように、実施形態に係る情報処理システム5は、情報処理装置1と、端末装置2と、音声認識サーバ3と、音声合成サーバ4とを備える。
端末装置2、音声認識サーバ3、音声合成サーバ4、および情報処理装置1は、ネットワークNを介して無線または有線で互いに通信可能に接続される。ネットワークNは、例えば、LAN(Local Area Network)や、インターネットなどのWAN(Wide Area Network)である。
端末装置2は、スマートフォンや、タブレット型端末や、デスクトップ型PC(Personal Computer)や、ノート型PCや、PDA(Personal Digital Assistant)等により実現される。
音声認識サーバ3は、音声情報に対して自然言語処理を実行し、音声データをテキストデータに変換する装置である。音声認識サーバ3は、端末装置2から発話の音声データを受信すると、音声データをテキストデータに変換する。音声認識サーバ3は、音声データを変換したテキストデータを情報処理装置1に送信する。
音声合成サーバ4は、情報処理装置1によって生成された通知メッセージなどのテキストデータを音声データに変換する。音声合成サーバ4は、テキストデータを変換した音声データを、端末装置2に送信する。
情報処理装置1は、端末装置2へ送信する通知メッセージのテキストデータを生成する。また、情報処理装置1は、端末装置2から送信されたテキストデータ、または音声認識サーバ3を介して音声データが変換されたテキストデータに基づいて、通知メッセージのテキストデータを生成する。情報処理装置1は、生成した通知メッセージや、その他のメッセージのテキストデータを、音声合成サーバ4、および端末装置2に送信する。
なお、音声認識サーバ3や音声合成サーバ4を、情報処理装置1と一体的に構成してもよい。また、端末装置2が、音声認識機能や、音声合成機能を有する場合には、これらの機能を用いて、音声データとテキストデータとを変換してもよい。
[3.情報処理装置1の構成]
次に、実施形態に係る情報処理装置1について、図3を参照し説明する。図3は、情報処理装置1の構成例を示す図である。
情報処理装置1は、受信部10と、送信部20と、記憶部30と、処理部40とを備える。
受信部10は、ネットワークNを介して、ユーザの端末装置2から操作情報を受信する。操作情報には、ユーザの応答履歴情報(応答履歴)や、行動履歴情報が含まれる。
応答履歴情報は、通知メッセージに対するユーザの応答履歴に関する情報である。応答履歴情報には、通知メッセージに対するユーザの応答の有無が含まれる。また、通知メッセージに対するユーザの応答には、通知メッセージに対するユーザの発話などに基づく応答メッセージや、通知メッセージに対するユーザの端末装置2の操作(クリック情報や、タッチ情報)が含まれる。また、応答履歴情報には、今回の通知メッセージに対する応答履歴情報、および過去の通知メッセージに対する応答履歴情報が含まれる。
行動履歴情報には、ユーザの発話履歴情報、ユーザの検索履歴情報、ユーザの閲覧履歴情報などが含まれる。
ユーザの発話履歴情報は、ユーザが端末装置2を介して他のユーザとの間で行った対話や発話の内容や、情報処理装置1との間で行った対話や発話の内容に関する情報である。なお、ここでは、ユーザの発話履歴情報には、通知メッセージに対するユーザの応答メッセージは含まれない。
ユーザの検索履歴情報は、ユーザが端末装置2を介して行った検索によって入力された単語情報や、ユーザによりクリックされたコンテンツ情報、例えば、ユーザにクリックされた記事中の単語情報である。
ユーザの閲覧履歴情報は、ユーザが端末装置2によって閲覧したウェブページの情報や、ユーザの商品購入履歴に関する情報である。
また、受信部10は、ネットワークNを介して外部に設置されたサーバなどからデータを受信する。
記憶部30は、対話モデル記憶部31と、強化学習モデル記憶部32と、単語記憶部33とを備える。記憶部30は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
対話モデル記憶部31は、対話モデルを記憶する。対話モデルは、ネットワークNを介して新たに取得され、更新されてもよい。
強化学習モデル記憶部32は、キーワードを選択するための強化学習モデルを記憶する。強化学習モデルは、強化学習、例えば、Q−learningにより生成され、学習される。
強化学習とは、或る状態に対して行動を与えた場合に、与えた行動によって将来的に得られる報酬が最大となるような行動を優先的に選択する学習方法である。状態に対し、様々な行動が試され、試された行動に応じた報酬を受け取ることで強化学習モデルが更新される。
実施形態に係る強化学習は、直近の行動履歴情報における単語集合を「状態」とし、キーワードを「行動」とし、キーワードに関する通知メッセージに対するユーザの応答を「報酬」として行われる。
例えば、通知メッセージに対してユーザの応答があった場合の報酬は、「+1」である。また、例えば、通知メッセージに対してユーザの応答がなかった場合の報酬は、「0」である。また、例えば、通知メッセージに対して、ユーザが発話を行い、発話内容が通知メッセージに対して肯定的な内容であった場合の報酬は、「+1」であり、否定的な内容であった場合の報酬は、「−1」である。また、通知メッセージに対して、所定回数以上の対話が続いた場合の報酬は、「+5」である。所定回数は、予め設定された回数である。
直近の行動履歴情報とは、プッシュ通知を行う前、第1所定時間内の行動履歴情報である。第1所定時間は、予め設定された時間であり、例えば、24時間、1週間である。
強化学習モデルでは、各キーワードに対する報酬の積算値であるスコアが付されており、プッシュ通知によるメッセージを生成する際に、直近の行動履歴情報によって抽出される単語であり、スコアが最も大きいキーワードが選択される。
なお、強化学習モデルにおけるスコアの初期値は、例えば、一般的なキーワードランキングや、或るキーワードについて応答を行うシステムにおけるユーザの応答率に基づいて設定される。例えば、ランキングが高いキーワードに対するスコアの初期値が大きくなる。
これにより、強化学習の初期段階でも、話題性が低いキーワードに関する通知メッセージが生成されることを抑制し、そのような通知メッセージがユーザの端末装置2へ送信されることを抑制することができる。
単語記憶部33は、直近の行動履歴情報から、後述する解析部41によって抽出された単語を一時的に記憶する。具体的には、単語記憶部33は、解析部41によって抽出された単語を第2所定時間記憶する。第2所定時間は、予め設定された時間であり、第1所定時間と同じ時間でもよく、第1所定時間よりも長い時間であってもよい。
処理部40は、解析部41と、選択部42と、生成部43と、学習部44とを備える。
解析部41は、通知メッセージに対するユーザの応答の有無を判定する。解析部41は、通知メッセージに対して、第3所定時間内に応答、例えば、通知メッセージに対する端末装置2の操作情報、または応答メッセージを受信した場合には、通知メッセージに対するユーザの応答が有ったと判定する。また、解析部41は、通知メッセージに対して、第3所定時間内に応答がない場合には、通知メッセージに対するユーザの応答が無かったと判定する。第3所定時間は、予め設定された時間である。
また、解析部41は、通知メッセージに対して応答メッセージを受信した場合には、応答メッセージのテキストデータに対して、形態素解析等を用いて、応答メッセージを解析し、応答メッセージに含まれる単語群を抽出する。そして、解析部41は、応答メッセージが通知メッセージに対して肯定的な内容であるか、否定的な内容であるかを特定する。
また、解析部41は、ユーザの行動履歴情報から、行動履歴情報に含まれる単語を抽出する。例えば、ユーザが「昨日のサッカー楽しかったね」と発話した場合、解析部41は、「昨日」、「サッカー」といった単語を抽出する。
選択部42は、通知用情報に基づいてプッシュ通知を行うタイミングとなると、強化学習モデルを用いてキーワードを選択する。選択部42は、強化学習モデルを用いて、単語記憶部33に記憶された単語の中から、スコアが最も大きい単語をキーワードとして選択する。すなわち、選択部42は、直近の行動履歴情報から抽出された単語の中から、強化学習モデルにおいて最もスコアが大きい単語をキーワードとして選択する。
例えば、強化学習により得られたスコアが、図4に示すスコアであり、単語記憶部33に「スポーツ」、「サッカー」、および「野球」が記憶されている場合、選択部42は、「サッカー」をキーワードとして選択する。図4は、スコアの一例を示す図である。
生成部43は、選択部42によって選択されたキーワードに基づいて、対話モデルを用いて、通知メッセージを生成する。すなわち、生成部43は、強化学習モデルを用い、さらに対話モデルを用いて通知メッセージを生成する。生成部43は、キーワードに対し、キーワードに関する自然文を通知メッセージとして生成する。
例えば、選択部42によって選択されたキーワードが「サッカー」である場合、対話モデルを用いて「サッカーの試合結果知っていますか?」や、「日本代表の試合が○月○○日にあります」などとする通知メッセージを自動的に生成する。
なお、生成部43は、対話モデルを用いて、キーワードに対して、複数の通知メッセージ候補を生成してもよい。この場合、生成部43は、複数の通知メッセージ候補の中から所定の確率で通知メッセージを選択する。所定の確率は、予め設定された確率であり、例えば同一の確率である。
送信部20は、ネットワークNを介して、端末装置2や、音声合成サーバ4(図2参照)に、生成部43によって生成された通知メッセージを、通知用情報に基づいて送信し、プッシュ通知する。
学習部44は、通知メッセージに対するユーザの応答に基づいて、キーワードに対する報酬を与え、強化学習モデルを学習する。学習部44は、過去に送信された通知メッセージに対するユーザの応答履歴に基づいて、強化学習モデルを学習する。
例えば、通知メッセージに対してユーザの応答が有った場合には、学習部44は通知メッセージを生成した際に選択されたキーワードに報酬「+1」を与え、強化学習モデルを学習する。また、通知メッセージに対してユーザの応答が無かった場合には、学習部44は通知メッセージを生成した際に選択されたキーワードに報酬「0」を与え、強化学習モデルを学習する。また、通知メッセージに対して、所定回数以上の対話が続いた場合には、学習部44は、通知メッセージを生成した際に選択されたキーワードに報酬「+5」を与え、強化学習モデルを学習する。
[4.通知メッセージ生成処理]
次に、通知メッセージ生成処理について図5を参照し説明する。図5は、実施形態に係る通知メッセージ生成処理の一例を示すフローチャートである。
選択部42は、通知用情報に基づいてプッシュ通知を行うタイミングとなると、単語記憶部33に記憶された単語の中から、強化学習モデルを用いて、キーワードを選択する(ステップS10)。
生成部43は、選択部42によって選択されたキーワードに基づいて、対話モデルを用いて通知メッセージを生成する(ステップS11)。
送信部20は、生成部43によって生成された通知メッセージを、ユーザの端末装置2へ送信する(ステップS12)。
受信部10は、通知メッセージに対するユーザの応答を受信し(ステップS13)、解析部41は、ユーザの応答を解析する(ステップS14)。
学習部44は、通知メッセージに対するユーザの応答内容に基づいて、選択部42によって選択されたキーワードに対して報酬を与え、スコアを更新し、強化学習モデルを学習する(ステップS15)。
[5.変形例]
上記実施形態に加えて、以下の変形例を適用することも可能である。
上記実施形態では、強化学習モデルの「状態」を直近の行動履歴情報における単語集合とし、「行動」を単語集合の中の1つの単語としたキーワードとしたが、「行動」を別途用意されたキーワード集合から選択されたキーワードとしてもよい。
また、この場合、対話モデルは、キーワードに関連する文章から、通知メッセージを生成するモデルである。例えば、情報処理装置1が、ニュース記事について、プッシュ通知する場合には、対話モデルは、ニュース記事と、ニュース記事のサマリとを対として学習される。すなわち、この場合の対話モデルは、選択されたキーワードのニュースから、そのニュース記事のサマリを選択し、通知メッセージとして生成するモデルである。
なお、キーワードに関するニュースは、人気順に選択されてもよく、また、既存の推薦エンジンを用いて選択されてもよい。ニュース記事のサマリを通知メッセージとして通知することで、端末装置2の狭い通知領域に可読性を向上させた通知メッセージを表示させることができる。
選択部42は、ユーザの行動履歴情報に応じて、別途用意されたキーワード集合から、強化学習モデルにおいて最もスコアが大きいキーワードを選択する。
生成部43は、選択部42によって選択された、キーワードに基づいて、対話モデルを用いて、通知メッセージを生成する。
例えば、ニュース記事で、「ヨシノリ、今季6度目の猛打賞で3割復帰!通算3000安打で歴代25位浮上!」があり、選択部42によって、キーワードとして「野球」が選択された場合、生成部43は、対話モデルにより、上記ニュース記事のサマリ「ヨシノリ「猛打賞」打率3割に!」を通知メッセージとして生成する。そして、送信部20は、生成した通知メッセージをプッシュ通知する。
なお、対話モデルは、通知メッセージに特定のキーワード(例えば、「ヨシノリ」)が含まれるように学習されてもよい。
また、対話モデルの代わりに、RNN Encoder−Decoderモデルを用いてもよい。このRNN Encoder−Decoderモデルは、ニュース記事をエンコード用のRNNモデルで実数ベクトルに変換した後、そのベクトルを入力とするデコード用のRNNモデルでニュース記事のサマリを通知メッセージとして生成するモデルである。
なお、「行動」を別途用意されたカテゴリー集合から選択されたカテゴリー、例えば、ニュース記事であれば、「野球」、「アイドル」、「株」などとしてもよい。
また、「行動」をツイッターなどから抽出されたバズワードとしてもよく、生成部43は、対話モデルを用いて、ツイッターなどの盛り上がりのサマリを通知メッセージとして生成してもよい。
このように、情報処理装置1は、キーワード集合から選択されたキーワードに関連する通知メッセージを自動的に生成することができる。したがって、通知メッセージに対するユーザの満足度を向上させることができる。
上記実施形態では、強化学習モデルを用いてキーワードを選択したが、通知メッセージを生成する対話モデルを強化学習により選択してもよい。
情報処理装置1においては、対話モデル記憶部31は、対話モデルを複数記憶し、選択部42は、強化学習によって学習され、対話モデルを選択するための強化学習モデル(以下、強化対話モデルという。)を用いて、通話メッセージを選択する。すなわち、対話モデルが強化学習における「行動」となる。なお、強化対話モデルは、記憶部30に記憶される。
対話モデル記憶部31は、対話モデルの種類として、例えば、主に問いかけの通知メッセージを生成するモデルや、主に結果などを直接通知する通知メッセージを生成するモデルなどを記憶する。このような対話モデルは、モデルを生成する際の文章として、例えば、問いかけの内容の文章、および結果などを直接通知する内容の文章が用いられる。
生成部43は、強化学習モデルによって選択したキーワードと、強化対話モデルによって選択された対話モデルとを用いて、通知メッセージを生成する。
情報処理装置1では、同じキーワードに対し、用いられる対話モデルに応じて異なる通知メッセージを生成することができる。
例えば、キーワードが「サッカー」である場合に、主に問いかけの通知メッセージを生成する対話モデルを用いると通知メッセージとして「サッカーの試合結果知っていますか?」が生成され、主に結果などを直接通知する対話モデルを用いると通知メッセージとして「○○チームは勝ちました!」が生成される。
学習部44は、通知メッセージに対するユーザの応答に基づいて、キーワードに対して報酬を与えて強化学習モデルを学習し、さらに対話モデルに対して報酬を与えて強化対話モデルを学習する。
例えば、「サッカーの試合結果知っていますか?」の通知メッセージが、「○○チームは勝ちました!」の通知メッセージよりも、ユーザの応答率などが良い場合には、強化対話モデルでは、「サッカーの試合結果知っていますか?」を生成する対話モデルに対するスコアが大きくなる。
情報処理装置1は、キーワードに対し、ユーザの応答率などが良い通知メッセーを生成することができる。したがって、通知メッセージに対するユーザの満足度を向上させることができる。
なお、情報処理装置1は、他のユーザに通知メッセージを送信し、その応答に基づいて、対話モデルに報酬を与えてもよい。すなわち、情報処理装置1は、他のユーザの応答履歴情報に基づいて、強化対話モデルを学習してもよい。
これにより、情報処理装置1は、多くのユーザの応答率などが良い通知メッセージを生成することができる。
なお、選択部42は、強化学習モデルによって選択されたキーワードを含め、強化対話モデルを用いて、対話モデルを選択してもよい。すなわち、選択部42は、キーワード別、またはキーワードが属するカテゴリー別に対話モデルを選択してもよい。
これにより、情報処理装置1は、キーワードなどに応じて、ユーザの応答率などが良い通知メッセージを自動的に生成することができる。したがって、通知メッセージに対するユーザの満足度を向上させることができる。
また、上記変形例に加えて、以下の変形例を適用することが可能である。
対話モデルは、問いかけの内容の通知メッセージを生成するように学習されてもよい。
これにより、情報処理装置1は、ユーザの応答率を高くすることができる。
選択部42は、キーワードとして、例えば、ツイッターなどで話題となっている単語をキーワードとして選択してもよい。
これにより、情報処理装置1は、通知メッセージを多様化させることができる。また、情報処理装置1は、新たなキーワードに関する通知メッセージに対してユーザの応答を得ることができ、得られた応答に基づいて強化学習モデルを学習することができる。
また、選択部42は、周期的にキーワードのスコアを大きくしてもよい。例えば、オリンピックの開催年には、オリンピックに関するキーワードのスコアを大きくする。
これにより、情報処理装置1は、話題性のある通知メッセージを自動的に生成し、ユーザの端末装置2へ送信することができる。
また、学習部44は、クラウドソーシングによって得られる文章に基づいて対話モデルを学習してもよい。
これにより、情報処理装置1は、通知メッセージを多様化させることができる。
なお、学習部44を情報処理装置1の外部の装置に設け、情報処理装置1は、異なる装置が生成した強化学習モデルを、ネットワークNを介して受信部10によって受信し、用いてもよい。
また、情報処理装置1は、ゲーミフィケーションのシステムを適用しても良い。例えば、ユーザの応答回数を「ポイント」とし、応答回数が予め設定された値よりも大きくなると、「レベル」を高くする。そして、生成部43は、レベルに応じて通知メッセージを変更する。例えば、レベルが高くなると、生成部43は、より親密な通知メッセージ、例えば個人的な内容を通知メッセージとして生成する。また、情報処理装置1は、レベルが高くなると、プッシュ通知回数を増やしてもよい。なお、連続する対話回数や、応答内容が肯定的な場合には、ポイントを大きくしてもよい。
これにより、ユーザと情報処理装置1との親密性を向上させ、通知メッセージに対するユーザの応答率を高くすることができる。
また、通知用情報は、ユーザの行動履歴情報を含んでもよい。情報処理装置1は、ユーザの発話内容に基づいたタイミングで通知メッセージを生成し、ユーザの端末装置2に通知メッセージを送信する。
例えば、ユーザが「休日にサッカーをした」と発話した場合に、情報処理装置1は、そのタイミングで、強化学習モデルを用いてキーワードとして「サッカー」を選択し、例えば、「サッカーといえば、オリンピックの試合は見た?」などと通知メッセージを生成し、通知メッセージをユーザの端末装置2へ送信する。
これにより、情報処理装置1は、ユーザの行動履歴に基づいて、ユーザが興味を示すタイミングで、通知メッセージをユーザの端末装置2へ送信するとともに、ユーザとの自然な対話を行うことができる。
また、通知用情報は、ユーザのコンテキストに基づくタイミングに関する情報であってもよい。コンテキストは、ユーザの属性情報や、ユーザの位置情報や、ユーザの運動状態情報などの情報である。
例えば、情報処理装置1は、ユーザの端末装置2から得られる位置情報に基づいて、ユーザが帰宅したタイミングで、通知メッセージを送信する。
これにより、情報処理装置1は、ユーザの応答率が高くなるタイミングで、通知メッセージを送信することができる。
また、通知用情報は、ユーザの発話に対して応答するメッセージを送信するタイミングに関する情報であってもよい。
この場合、生成部43は、対話モデルとして、ユーザの発話を入力文とし、対応する通知メッセージを生成するRNN Encoder−Decoderモデルを用いてもよい。このRNN Encoder−Decoderモデルは、入力文をエンコード用のRNNモデルで実数ベクトルに変換した後、そのベクトルを入力とするデコード用のRNNモデルで出力文を生成するモデルである。生成部43は、RNN Encoder−Decoderモデルを用いてキーワードを含む通知メッセージを生成する。
例えば、ユーザの発話が「今日の話題は?」であり、キーワードが「サッカー」である場合に、生成部43は、「今日の話題は?」を入力文として、RNN Encoder−Decoderモデルを用いて生成確率の高い順に通知メッセージ候補を生成する。通知メッセージ候補の生成には、ビーム探索などの近似解法を用いてもよい。
そして、生成部43は、生成した通知メッセージ候補の中で、キーワード「サッカー」を含むメッセージのみを選択し、さらにその中から生成確率が予め設定された閾値以上のメッセージを通知メッセージとして選択する。生成部43は、例えば、複数の通知メッセージから所定の確率で通知メッセージを選択する。このようにして、生成部43は、通知メッセージを生成してもよい。
情報処理装置1は、ユーザの発話に対して応答するメッセージを、強化学習モデルを用いて自動的に生成することができる。
また、行動履歴情報から抽出される単語や、キーワードを実数ベクトルで示す分散表現を用いてもよい。この場合、生成部43は、強化学習モデルと対話モデルとを1つにした学習モデルを用いて、通知メッセージを生成してもよい。生成部43は、キーワードの分散表現に対し、例えばコサイン類似度が高い分散表現の通知メッセージを選択し、通知メッセージを生成する。
学習部44は、キーワードにおける分散表現と、通知メッセージにおける分散表現とが、分散表現空間上で近くに存在するように学習モデルを学習する。学習モデルは、例えば、LSTM(Long Short-Term Memory)を備えたRNN(Recurrent Neural Network)の技術を用いて学習され、生成される。
これにより、情報処理装置1は、例えば、ユーザの直近の行動履歴情報における単語に、強化学習モデルにおけるキーワードと一致する単語が無い場合でも、類似するキーワードに対して、通知メッセージを自動的に生成することができる。
また、生成部43は、言語モデルを用いて、通知メッセージを生成してもよい。言語モデルは、一般的なメッセージの出現率を統計的にまとめたモデルである。生成部43によって、キーワードに基づいて複数の通知メッセージ候補が生成された場合には、言語モデルを用いて、一般的なメッセージとなる通知メッセージ候補が通知メッセージとして選択される確率を低くする。
これにより、情報処理装置1は、一般的なメッセージが通知メッセージとして選択されることを抑制し、一般的なメッセージがユーザの端末装置2へ送信されることを抑制することができる。そのため、通知メッセージに対するユーザの満足度が低下することを抑制することができる。
[6.効果]
情報処理装置1は、生成部43と、送信部20とを備える。生成部43は、強化学習により学習された強化学習モデルを用いて、ユーザの端末装置2へ送信する通知メッセージを生成する。送信部20は、通知用情報に基づいて、生成部43によって生成された通知メッセージをユーザの端末装置2へ送信する。
これにより、情報処理装置1は、ユーザの端末装置2へ送信する通知メッセージを、強化学習モデルを用いて自動的に生成することができる。また、情報処理装置1は、ユーザの応答率などが良い通知メッセージを自動的に生成することができる。
学習部44は、過去に送信された通知メッセージに対する応答履歴情報に基づいて、強化学習モデルを学習する。
これにより、情報処理装置1は、ユーザの応答率などが良い通知メッセージを自動的に生成することができる。
学習部44は、過去に送信された通知メッセージに対するユーザの応答の有無に基づいて、強化学習モデルを学習する。
これにより、情報処理装置1は、ユーザの応答、例えば、ユーザの応答率が高い通知メッセージを自動的に生成することができる。
学習部44は、過去に送信された通知メッセージに基づく対話回数に基づいて、強化学習モデルを学習する。
これにより、情報処理装置1は、例えば、対話が続いた通知メッセージに関するキーワードのスコアを大きくし、ユーザの応答率などが良い通知メッセージを自動的に生成することができる。
生成部43は、強化学習モデルを用いて選択されたキーワードに基づいて、対話モデルを用いて通知メッセージを生成する。
これにより、情報処理装置1は、キーワードに関する自然な文を通知メッセージとして自動的に生成することができる。
学習部44は、他のユーザの応答履歴に基づいて、強化学習により対話モデルを学習する。
これにより、情報処理装置1は、ユーザの応答率などが良い通知メッセージを自動的に生成することができる。
送信部20は、ユーザのコンテキストに基づいて、通知メッセージを送信する。
これにより、情報処理装置1は、通知メッセージに対するユーザの応答率を高くすることができる。
送信部20は、通知メッセージをユーザの端末装置2へプッシュ通知する。
これにより、情報処理装置1は、例えば、端末装置2におけるニュースなどの通知機能を有するアプリケーションの利用率を向上させることができる。
生成部43は、直近の行動履歴情報から抽出される単語に対して、単語をキーワードとして選択する強化学習モデルを用いて、通知メッセージを生成する。
これにより、情報処理装置1は、例えば、直近の行動履歴情報から抽出される単語と同一の単語がキーワードとして選択され、キーワードの単語と関連性が高い通知メッセージを、正確に生成することができる。
生成部43は、単語に対応したベクトルに対して、学習モデルを用いて、通知メッセージを生成する。
これにより、情報処理装置1は、例えば、ユーザの直近の行動履歴情報における単語に、学習モデルにおけるキーワードと一致する単語が無い場合でも、類似するキーワードに対して、通知メッセージを生成することができる。
[7.ハードウェアの構成]
上記してきた実施形態に係る情報処理装置1は、例えば図6に示すような構成のコンピュータ1000によって実現される。図6は、情報処理装置1の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が決定したデータをネットワークNを介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、決定したデータを入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る情報処理装置1として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、処理部40の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
以上、本願の実施形態及び変形例のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
[8.その他]
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、生成部43は、生成手段や生成回路に読み替えることができる。
1 情報処理装置
2 端末装置
10 受信部
20 送信部(通知部)
30 記憶部
40 処理部
41 解析部
42 選択部
43 生成部
44 学習部

Claims (11)

  1. 強化学習により学習されたメッセージ生成用強化学習モデルを用いて、ユーザの端末装置へ通知するメッセージを生成する生成部と、
    通知用情報に基づいて、前記生成部によって生成された前記メッセージを前記端末装置へ通知する通知部と
    を備えることを特徴とする情報処理装置。
  2. 過去に通知されたメッセージに対する応答履歴に基づいて、前記メッセージ生成用強化学習モデルを学習する学習部
    を備えることを特徴とする請求項1に記載の情報処理装置。
  3. 前記学習部は、
    前記過去に通知されたメッセージに対する応答の有無を含む応答履歴に基づいて、前記メッセージ生成用強化学習モデルを学習する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記学習部は、
    前記過去に通知されたメッセージに対する対話回数を含む応答履歴に基づいて、前記メッセージ生成用強化学習モデルを学習する
    ことを特徴とする請求項2または3に記載の情報処理装置。
  5. 前記生成部は、
    前記メッセージ生成用強化学習モデルを用いて選択されたキーワードに基づいて、メッセージ生成モデルを用いて前記メッセージを生成する
    ことを特徴とする請求項2から4のいずれか一つに記載の情報処理装置。
  6. 前記学習部は、
    他のユーザの応答履歴を含む応答履歴に基づいて、前記メッセージ生成モデルを強化学習により学習する
    ことを特徴とする請求項5に記載の情報処理装置。
  7. 前記通知部は、
    前記ユーザのコンテキストに基づいて、前記生成部によって生成された前記メッセージを前記端末装置へ通知する
    ことを特徴とする請求項1から6のいずれか一つに記載の情報処理装置。
  8. 前記生成部は、
    前記強化学習により生成され、入力される単語に対して、単語を出力する学習モデルを用いて前記端末装置へ通知する前記メッセージを生成する
    ことを特徴とする請求項1から7のいずれか一つに記載の情報処理装置。
  9. 前記生成部は、
    前記強化学習により生成され、入力される単語に対応した入力ベクトルに対して、出力ベクトルを出力する学習モデルを用いて前記端末装置へ通知する前記メッセージを生成する
    ことを特徴とする請求項1から7のいずれか一つに記載の情報処理装置。
  10. 情報処理装置が実行する情報処理方法であって、
    強化学習により学習されたメッセージ生成用強化学習モデルを用いて、ユーザの端末装置へ通知するメッセージを生成する生成工程と、
    通知用情報に基づいて、前記生成工程によって生成された前記メッセージを前記端末装置へ通知する通知工程と
    を含むことを特徴とする情報処理方法。
  11. 強化学習により学習されたメッセージ生成用強化学習モデルを用いて、ユーザの端末装置へ通知するメッセージを生成する生成手順と、
    通知用情報に基づいて、前記生成手順によって生成された前記メッセージを前記端末装置へ通知する通知手順と
    をコンピュータに実行させることを特徴とするプログラム。
JP2016180928A 2016-09-15 2016-09-15 情報処理装置、情報処理方法、およびプログラム Active JP6333329B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016180928A JP6333329B2 (ja) 2016-09-15 2016-09-15 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016180928A JP6333329B2 (ja) 2016-09-15 2016-09-15 情報処理装置、情報処理方法、およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018050127A Division JP6884722B2 (ja) 2018-03-16 2018-03-16 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2018045531A true JP2018045531A (ja) 2018-03-22
JP6333329B2 JP6333329B2 (ja) 2018-05-30

Family

ID=61694890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016180928A Active JP6333329B2 (ja) 2016-09-15 2016-09-15 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6333329B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147435A (zh) * 2019-01-24 2019-08-20 腾讯科技(深圳)有限公司 对话生成方法、装置、设备及存储介质
JP2019215483A (ja) * 2018-06-14 2019-12-19 Zホールディングス株式会社 学習装置、学習方法および学習プログラム
JP2020009330A (ja) * 2018-07-11 2020-01-16 株式会社野村総合研究所 作成支援装置および作成支援方法
JPWO2020026643A1 (ja) * 2018-08-03 2021-11-04 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6884722B2 (ja) * 2018-03-16 2021-06-09 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141149A (ja) * 2001-10-31 2003-05-16 Nippon Soken Holdings:Kk 対話型配信システムおよび方法
JP2006106962A (ja) * 2004-10-01 2006-04-20 Ntt Docomo Inc インタラクション制御システムおよび端末装置並びにインタラクション制御方法
JP2013257815A (ja) * 2012-06-14 2013-12-26 Sony Corp 情報処理装置、情報処理方法およびプログラム
US20150026267A1 (en) * 2013-07-18 2015-01-22 International Business Machines Corporation Targeted message response
US20160086086A1 (en) * 2014-09-18 2016-03-24 Victor Ferdinand Gabillon Multi-media content-recommender system that learns how to elicit user preferences

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141149A (ja) * 2001-10-31 2003-05-16 Nippon Soken Holdings:Kk 対話型配信システムおよび方法
JP2006106962A (ja) * 2004-10-01 2006-04-20 Ntt Docomo Inc インタラクション制御システムおよび端末装置並びにインタラクション制御方法
JP2013257815A (ja) * 2012-06-14 2013-12-26 Sony Corp 情報処理装置、情報処理方法およびプログラム
US20150026267A1 (en) * 2013-07-18 2015-01-22 International Business Machines Corporation Targeted message response
US20160086086A1 (en) * 2014-09-18 2016-03-24 Victor Ferdinand Gabillon Multi-media content-recommender system that learns how to elicit user preferences

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019215483A (ja) * 2018-06-14 2019-12-19 Zホールディングス株式会社 学習装置、学習方法および学習プログラム
JP7013329B2 (ja) 2018-06-14 2022-01-31 ヤフー株式会社 学習装置、学習方法および学習プログラム
JP2020009330A (ja) * 2018-07-11 2020-01-16 株式会社野村総合研究所 作成支援装置および作成支援方法
JP7303614B2 (ja) 2018-07-11 2023-07-05 株式会社野村総合研究所 作成装置
JPWO2020026643A1 (ja) * 2018-08-03 2021-11-04 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7380567B2 (ja) 2018-08-03 2023-11-15 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN110147435A (zh) * 2019-01-24 2019-08-20 腾讯科技(深圳)有限公司 对话生成方法、装置、设备及存储介质
CN110147435B (zh) * 2019-01-24 2023-08-22 腾讯科技(深圳)有限公司 对话生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP6333329B2 (ja) 2018-05-30

Similar Documents

Publication Publication Date Title
JP6884722B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US10832008B2 (en) Computerized system and method for automatically transforming and providing domain specific chatbot responses
US11394667B2 (en) Chatbot skills systems and methods
WO2021012645A1 (zh) 推送信息的生成方法及装置
JP6333329B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20190103111A1 (en) Natural Language Processing Systems and Methods
US11250839B2 (en) Natural language processing models for conversational computing
CN111837116B (zh) 自动构建或更新对话式ai系统的对话流管理模型的方法
JP2019504413A (ja) 絵文字を提案するためのシステムおよび方法
JP2017515134A (ja) 模写によるデジタル携帯情報端末の対話、および応答時のリッチなマルチメディア
US11586689B2 (en) Electronic apparatus and controlling method thereof
WO2017112423A1 (en) Method and system for automatic formality classification
JP2013235507A (ja) 情報処理方法、装置、コンピュータプログラムならびに記録媒体
KR101891498B1 (ko) 대화형 ai 에이전트 시스템에서 멀티 도메인 인텐트의 혼재성을 해소하는 멀티 도메인 서비스를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
JP2019514120A (ja) ユーザ中心の文書要約のための技術
US11043215B2 (en) Method and system for generating textual representation of user spoken utterance
KR102104294B1 (ko) 디스플레이 장치로 읽을 수 있는 저장매체에 저장된 수화 영상 챗봇 애플리케이션
WO2018170876A1 (en) A voice-based knowledge sharing application for chatbots
KR101950387B1 (ko) 학습 데이터 중 식별 가능하지만 학습 가능성이 없는 데이터의 레이블화를 통한, 대화형 ai 에이전트 시스템을 위한 지식베이스 모델의 구축 또는 갱신 방법, 컴퓨터 장치, 및 컴퓨터 판독 가능 기록 매체
CN108306813B (zh) 会话消息的处理方法、服务器及客户端
EP4060517A1 (en) System and method for designing artificial intelligence (ai) based hierarchical multi-conversation system
Arora et al. Artificial intelligence and virtual assistant—working model
KR101959292B1 (ko) 문맥 기반으로 음성 인식의 성능을 향상하기 위한 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
JP6697373B2 (ja) 文生成装置、文生成方法及びプログラム
KR101932263B1 (ko) 적시에 실질적 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180327

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180424

R150 Certificate of patent or registration of utility model

Ref document number: 6333329

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250