JP6884722B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP6884722B2
JP6884722B2 JP2018050127A JP2018050127A JP6884722B2 JP 6884722 B2 JP6884722 B2 JP 6884722B2 JP 2018050127 A JP2018050127 A JP 2018050127A JP 2018050127 A JP2018050127 A JP 2018050127A JP 6884722 B2 JP6884722 B2 JP 6884722B2
Authority
JP
Japan
Prior art keywords
message
user
information processing
generation
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018050127A
Other languages
English (en)
Other versions
JP2018129068A (ja
Inventor
晃平 菅原
晃平 菅原
隼人 小林
隼人 小林
達洋 丹羽
達洋 丹羽
清水 徹
徹 清水
伸裕 鍜治
伸裕 鍜治
伸幸 清水
伸幸 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018050127A priority Critical patent/JP6884722B2/ja
Publication of JP2018129068A publication Critical patent/JP2018129068A/ja
Application granted granted Critical
Publication of JP6884722B2 publication Critical patent/JP6884722B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
従来、ユーザの端末装置に送信する固定対話ノードの間に、動的対話ノードを挿入する際に、強化学習を用いて動的対話ノードの挿入行動を制御する情報処理装置が知られている(特許文献1参照)。
特開2015−125198号公報
上記情報処理装置では、動的対話ノードは、固定対話ノードの文に対し類似確率の高いものが選択され、シナリオの進行に沿って挿入される。
上記情報処理装置では、シナリオの進行に沿って動的対話ノードが挿入されるが、通知用情報に基づいて情報処理装置からユーザの端末装置へ、対話ノードなどのメッセージを通知する場合がある。すなわち、プッシュ型の通知を情報処理装置からユーザの端末装置へ行う場合がある。
プッシュ型の通知を行う場合には、上記情報処理装置で存在するシナリオがなく、また固定対話ノードに対応するメッセージがないため、ユーザの端末装置へ通知するメッセージを生成することが困難である。
本願は、上記に鑑みてなされたものであって、通知用情報に基づいてユーザの端末装置へ通知するメッセージを自動的に生成する情報処理装置、情報処理方法、およびプログラムを提供することを目的とする。
本願にかかる情報処理装置は、学習部と、生成部と、通知部とを備える。学習部は、過去に通知されたメッセージに対するユーザの応答履歴に基づいて、前記ユーザに対するメッセージ生成用強化学習モデルを強化学習により学習する。生成部は、メッセージ生成用強化学習モデルを用いて、ユーザの端末装置へ通知するメッセージを生成する。通知部は、ユーザにプッシュ通知を行うための情報に基づいて、生成部によって生成されたメッセージを端末装置へ通知する。
実施形態の一態様によれば、通知用情報に基づいてユーザの端末装置へ通知するメッセージを自動的に生成する情報処理装置、情報処理方法、およびプログラムを提供することができる。
図1は、実施形態に係る情報処理の説明図である。 図2は、情報処理システムの構成例を示す図である。 図3は、情報処理装置の構成例を示す図である。 図4は、スコアの一例を示す図である。 図5は、実施形態に係る通知メッセージ生成処理の一例を示すフローチャートである。 図6は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願にかかる情報処理装置、情報処理方法、およびプログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願にかかる情報処理装置、情報処理方法、およびプログラムが限定されるものではない。
[1.情報処理]
実施形態に係る情報処理の一例について説明する。図1は、実施形態に係る情報処理の説明図である。ここでは、情報処理装置1によって情報処理が実行される。
情報処理装置1は、強化学習モデル(メッセージ生成用強化学習モデル、学習モデル)を用いてキーワードを選択する(ステップS1)。
強化学習モデルは、詳しくは後述するが、ユーザの端末装置2へプッシュ通知されるメッセージ(以下、通知メッセージという。)を生成する際に、報酬の積算値(以下、スコアという。)が大きいキーワードを選択するモデルである。
強化学習モデルは、ユーザの端末装置2へ送信された通知メッセージに対し、ユーザの応答が良い通知メッセージに関するキーワードのスコアが大きくなるように学習される。
例えば、ユーザが、キーワード「野球」に関する通知メッセージよりも、キーワード「サッカー」に関する通知メッセージに対して応答が良い場合、キーワード「サッカー」のスコアが、キーワード「野球」のスコアよりも大きくなるように、強化学習モデルは、学習される。
情報処理装置1は、選択したキーワードに基づいて、対話モデルを用いて通知メッセージを生成する(ステップS2)。なお、通知メッセージは、通知用情報に基づいたプッシュ通知を行うタイミングで生成されてもよく、また、プッシュ通知を行うタイミングよりも前に生成されてもよい。通知用情報は、ユーザにプッシュ通知を行うための情報であり、正午、19時など予め設定された時間である。
対話モデルは、キーワードと、キーワードにおける通知メッセージとを対として学習されたモデルである。学習に用いられる通知メッセージは、例えば、人手によって生成されてもよく、ウェブや、ツイッター(登録商標)などから得られる文章から収集されてもよい。対話モデルは、通知メッセージを自然文として生成するモデルである。
情報処理装置1は、対話モデルを用いてキーワードに関する通知メッセージを生成する。例えば、選択されたキーワードが「サッカー」であった場合、対話モデルを用いて「サッカー」に関する「サッカーの試合結果知っていますか?」などの通知メッセージを生成する。
情報処理装置1は、通知用情報に基づいてプッシュ通知を行うタイミングとなると、生成した通知メッセージをユーザの端末装置2に送信する(ステップS3)。
このように、情報処理装置1は、強化学習モデルを用いて、ユーザの端末装置2にプッシュ通知する通知メッセージを自動的に生成することができる。また、通知メッセージは、強化学習モデルに基づいたキーワードに関する内容であるため、ユーザの満足度を向上させることができる。
[2.情報処理システム5の構成]
図2は、情報処理システム5の構成例を示す図である。図2に示すように、実施形態に係る情報処理システム5は、情報処理装置1と、端末装置2と、音声認識サーバ3と、音声合成サーバ4とを備える。
端末装置2、音声認識サーバ3、音声合成サーバ4、および情報処理装置1は、ネットワークNを介して無線または有線で互いに通信可能に接続される。ネットワークNは、例えば、LAN(Local Area Network)や、インターネットなどのWAN(Wide Area Network)である。
端末装置2は、スマートフォンや、タブレット型端末や、デスクトップ型PC(Personal Computer)や、ノート型PCや、PDA(Personal Digital Assistant)等により実現される。
音声認識サーバ3は、音声情報に対して自然言語処理を実行し、音声データをテキストデータに変換する装置である。音声認識サーバ3は、端末装置2から発話の音声データを受信すると、音声データをテキストデータに変換する。音声認識サーバ3は、音声データを変換したテキストデータを情報処理装置1に送信する。
音声合成サーバ4は、情報処理装置1によって生成された通知メッセージなどのテキストデータを音声データに変換する。音声合成サーバ4は、テキストデータを変換した音声データを、端末装置2に送信する。
情報処理装置1は、端末装置2へ送信する通知メッセージのテキストデータを生成する。また、情報処理装置1は、端末装置2から送信されたテキストデータ、または音声認識サーバ3を介して音声データが変換されたテキストデータに基づいて、通知メッセージのテキストデータを生成する。情報処理装置1は、生成した通知メッセージや、その他のメッセージのテキストデータを、音声合成サーバ4、および端末装置2に送信する。
なお、音声認識サーバ3や音声合成サーバ4を、情報処理装置1と一体的に構成してもよい。また、端末装置2が、音声認識機能や、音声合成機能を有する場合には、これらの機能を用いて、音声データとテキストデータとを変換してもよい。
[3.情報処理装置1の構成]
次に、実施形態に係る情報処理装置1について、図3を参照し説明する。図3は、情報処理装置1の構成例を示す図である。
情報処理装置1は、受信部10と、送信部20と、記憶部30と、処理部40とを備える。
受信部10は、ネットワークNを介して、ユーザの端末装置2から操作情報を受信する。操作情報には、ユーザの応答履歴情報(応答履歴)や、行動履歴情報が含まれる。
応答履歴情報は、通知メッセージに対するユーザの応答履歴に関する情報である。応答履歴情報には、通知メッセージに対するユーザの応答の有無が含まれる。また、通知メッセージに対するユーザの応答には、通知メッセージに対するユーザの発話などに基づく応答メッセージや、通知メッセージに対するユーザの端末装置2の操作(クリック情報や、タッチ情報)が含まれる。また、応答履歴情報には、今回の通知メッセージに対する応答履歴情報、および過去の通知メッセージに対する応答履歴情報が含まれる。
行動履歴情報には、ユーザの発話履歴情報、ユーザの検索履歴情報、ユーザの閲覧履歴情報などが含まれる。
ユーザの発話履歴情報は、ユーザが端末装置2を介して他のユーザとの間で行った対話や発話の内容や、情報処理装置1との間で行った対話や発話の内容に関する情報である。なお、ここでは、ユーザの発話履歴情報には、通知メッセージに対するユーザの応答メッセージは含まれない。
ユーザの検索履歴情報は、ユーザが端末装置2を介して行った検索によって入力された単語情報や、ユーザによりクリックされたコンテンツ情報、例えば、ユーザにクリックされた記事中の単語情報である。
ユーザの閲覧履歴情報は、ユーザが端末装置2によって閲覧したウェブページの情報や、ユーザの商品購入履歴に関する情報である。
また、受信部10は、ネットワークNを介して外部に設置されたサーバなどからデータを受信する。
記憶部30は、対話モデル記憶部31と、強化学習モデル記憶部32と、単語記憶部33とを備える。記憶部30は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
対話モデル記憶部31は、対話モデルを記憶する。対話モデルは、ネットワークNを介して新たに取得され、更新されてもよい。
強化学習モデル記憶部32は、キーワードを選択するための強化学習モデルを記憶する。強化学習モデルは、強化学習、例えば、Q−learningにより生成され、学習される。
強化学習とは、或る状態に対して行動を与えた場合に、与えた行動によって将来的に得られる報酬が最大となるような行動を優先的に選択する学習方法である。状態に対し、様々な行動が試され、試された行動に応じた報酬を受け取ることで強化学習モデルが更新される。
実施形態に係る強化学習は、直近の行動履歴情報における単語集合を「状態」とし、キーワードを「行動」とし、キーワードに関する通知メッセージに対するユーザの応答を「報酬」として行われる。
例えば、通知メッセージに対してユーザの応答があった場合の報酬は、「+1」である。また、例えば、通知メッセージに対してユーザの応答がなかった場合の報酬は、「0」である。また、例えば、通知メッセージに対して、ユーザが発話を行い、発話内容が通知メッセージに対して肯定的な内容であった場合の報酬は、「+1」であり、否定的な内容であった場合の報酬は、「−1」である。また、通知メッセージに対して、所定回数以上の対話が続いた場合の報酬は、「+5」である。所定回数は、予め設定された回数である。
直近の行動履歴情報とは、プッシュ通知を行う前、第1所定時間内の行動履歴情報である。第1所定時間は、予め設定された時間であり、例えば、24時間、1週間である。
強化学習モデルでは、各キーワードに対する報酬の積算値であるスコアが付されており、プッシュ通知によるメッセージを生成する際に、直近の行動履歴情報によって抽出される単語であり、スコアが最も大きいキーワードが選択される。
なお、強化学習モデルにおけるスコアの初期値は、例えば、一般的なキーワードランキングや、或るキーワードについて応答を行うシステムにおけるユーザの応答率に基づいて設定される。例えば、ランキングが高いキーワードに対するスコアの初期値が大きくなる。
これにより、強化学習の初期段階でも、話題性が低いキーワードに関する通知メッセージが生成されることを抑制し、そのような通知メッセージがユーザの端末装置2へ送信されることを抑制することができる。
単語記憶部33は、直近の行動履歴情報から、後述する解析部41によって抽出された単語を一時的に記憶する。具体的には、単語記憶部33は、解析部41によって抽出された単語を第2所定時間記憶する。第2所定時間は、予め設定された時間であり、第1所定時間と同じ時間でもよく、第1所定時間よりも長い時間であってもよい。
処理部40は、解析部41と、選択部42と、生成部43と、学習部44とを備える。
解析部41は、通知メッセージに対するユーザの応答の有無を判定する。解析部41は、通知メッセージに対して、第3所定時間内に応答、例えば、通知メッセージに対する端末装置2の操作情報、または応答メッセージを受信した場合には、通知メッセージに対するユーザの応答が有ったと判定する。また、解析部41は、通知メッセージに対して、第3所定時間内に応答がない場合には、通知メッセージに対するユーザの応答が無かったと判定する。第3所定時間は、予め設定された時間である。
また、解析部41は、通知メッセージに対して応答メッセージを受信した場合には、応答メッセージのテキストデータに対して、形態素解析等を用いて、応答メッセージを解析し、応答メッセージに含まれる単語群を抽出する。そして、解析部41は、応答メッセージが通知メッセージに対して肯定的な内容であるか、否定的な内容であるかを特定する。
また、解析部41は、ユーザの行動履歴情報から、行動履歴情報に含まれる単語を抽出する。例えば、ユーザが「昨日のサッカー楽しかったね」と発話した場合、解析部41は、「昨日」、「サッカー」といった単語を抽出する。
選択部42は、通知用情報に基づいてプッシュ通知を行うタイミングとなると、強化学習モデルを用いてキーワードを選択する。選択部42は、強化学習モデルを用いて、単語記憶部33に記憶された単語の中から、スコアが最も大きい単語をキーワードとして選択する。すなわち、選択部42は、直近の行動履歴情報から抽出された単語の中から、強化学習モデルにおいて最もスコアが大きい単語をキーワードとして選択する。
例えば、強化学習により得られたスコアが、図4に示すスコアであり、単語記憶部33に「スポーツ」、「サッカー」、および「野球」が記憶されている場合、選択部42は、「サッカー」をキーワードとして選択する。図4は、スコアの一例を示す図である。
生成部43は、選択部42によって選択されたキーワードに基づいて、対話モデルを用いて、通知メッセージを生成する。すなわち、生成部43は、強化学習モデルを用い、さらに対話モデルを用いて通知メッセージを生成する。生成部43は、キーワードに対し、キーワードに関する自然文を通知メッセージとして生成する。
例えば、選択部42によって選択されたキーワードが「サッカー」である場合、対話モデルを用いて「サッカーの試合結果知っていますか?」や、「日本代表の試合が○月○○日にあります」などとする通知メッセージを自動的に生成する。
なお、生成部43は、対話モデルを用いて、キーワードに対して、複数の通知メッセージ候補を生成してもよい。この場合、生成部43は、複数の通知メッセージ候補の中から所定の確率で通知メッセージを選択する。所定の確率は、予め設定された確率であり、例えば同一の確率である。
送信部20は、ネットワークNを介して、端末装置2や、音声合成サーバ4(図2参照)に、生成部43によって生成された通知メッセージを、通知用情報に基づいて送信し、プッシュ通知する。
学習部44は、通知メッセージに対するユーザの応答に基づいて、キーワードに対する報酬を与え、強化学習モデルを学習する。学習部44は、過去に送信された通知メッセージに対するユーザの応答履歴に基づいて、強化学習モデルを学習する。
例えば、通知メッセージに対してユーザの応答が有った場合には、学習部44は通知メッセージを生成した際に選択されたキーワードに報酬「+1」を与え、強化学習モデルを学習する。また、通知メッセージに対してユーザの応答が無かった場合には、学習部44は通知メッセージを生成した際に選択されたキーワードに報酬「0」を与え、強化学習モデルを学習する。また、通知メッセージに対して、所定回数以上の対話が続いた場合には、学習部44は、通知メッセージを生成した際に選択されたキーワードに報酬「+5」を与え、強化学習モデルを学習する。
[4.通知メッセージ生成処理]
次に、通知メッセージ生成処理について図5を参照し説明する。図5は、実施形態に係る通知メッセージ生成処理の一例を示すフローチャートである。
選択部42は、通知用情報に基づいてプッシュ通知を行うタイミングとなると、単語記憶部33に記憶された単語の中から、強化学習モデルを用いて、キーワードを選択する(ステップS10)。
生成部43は、選択部42によって選択されたキーワードに基づいて、対話モデルを用いて通知メッセージを生成する(ステップS11)。
送信部20は、生成部43によって生成された通知メッセージを、ユーザの端末装置2へ送信する(ステップS12)。
受信部10は、通知メッセージに対するユーザの応答を受信し(ステップS13)、解析部41は、ユーザの応答を解析する(ステップS14)。
学習部44は、通知メッセージに対するユーザの応答内容に基づいて、選択部42によって選択されたキーワードに対して報酬を与え、スコアを更新し、強化学習モデルを学習する(ステップS15)。
[5.変形例]
上記実施形態に加えて、以下の変形例を適用することも可能である。
上記実施形態では、強化学習モデルの「状態」を直近の行動履歴情報における単語集合とし、「行動」を単語集合の中の1つの単語としたキーワードとしたが、「行動」を別途用意されたキーワード集合から選択されたキーワードとしてもよい。
また、この場合、対話モデルは、キーワードに関連する文章から、通知メッセージを生成するモデルである。例えば、情報処理装置1が、ニュース記事について、プッシュ通知する場合には、対話モデルは、ニュース記事と、ニュース記事のサマリとを対として学習される。すなわち、この場合の対話モデルは、選択されたキーワードのニュースから、そのニュース記事のサマリを選択し、通知メッセージとして生成するモデルである。
なお、キーワードに関するニュースは、人気順に選択されてもよく、また、既存の推薦エンジンを用いて選択されてもよい。ニュース記事のサマリを通知メッセージとして通知することで、端末装置2の狭い通知領域に可読性を向上させた通知メッセージを表示させることができる。
選択部42は、ユーザの行動履歴情報に応じて、別途用意されたキーワード集合から、強化学習モデルにおいて最もスコアが大きいキーワードを選択する。
生成部43は、選択部42によって選択された、キーワードに基づいて、対話モデルを用いて、通知メッセージを生成する。
例えば、ニュース記事で、「ヨシノリ、今季6度目の猛打賞で3割復帰!通算3000安打で歴代25位浮上!」があり、選択部42によって、キーワードとして「野球」が選択された場合、生成部43は、対話モデルにより、上記ニュース記事のサマリ「ヨシノリ「猛打賞」打率3割に!」を通知メッセージとして生成する。そして、送信部20は、生成した通知メッセージをプッシュ通知する。
なお、対話モデルは、通知メッセージに特定のキーワード(例えば、「ヨシノリ」)が含まれるように学習されてもよい。
また、対話モデルの代わりに、RNN Encoder−Decoderモデルを用いてもよい。このRNN Encoder−Decoderモデルは、ニュース記事をエンコード用のRNNモデルで実数ベクトルに変換した後、そのベクトルを入力とするデコード用のRNNモデルでニュース記事のサマリを通知メッセージとして生成するモデルである。
なお、「行動」を別途用意されたカテゴリー集合から選択されたカテゴリー、例えば、ニュース記事であれば、「野球」、「アイドル」、「株」などとしてもよい。
また、「行動」をツイッターなどから抽出されたバズワードとしてもよく、生成部43は、対話モデルを用いて、ツイッターなどの盛り上がりのサマリを通知メッセージとして生成してもよい。
このように、情報処理装置1は、キーワード集合から選択されたキーワードに関連する通知メッセージを自動的に生成することができる。したがって、通知メッセージに対するユーザの満足度を向上させることができる。
上記実施形態では、強化学習モデルを用いてキーワードを選択したが、通知メッセージを生成する対話モデルを強化学習により選択してもよい。
情報処理装置1においては、対話モデル記憶部31は、対話モデルを複数記憶し、選択部42は、強化学習によって学習され、対話モデルを選択するための強化学習モデル(以下、強化対話モデルという。)を用いて、通話メッセージを選択する。すなわち、対話モデルが強化学習における「行動」となる。なお、強化対話モデルは、記憶部30に記憶される。
対話モデル記憶部31は、対話モデルの種類として、例えば、主に問いかけの通知メッセージを生成するモデルや、主に結果などを直接通知する通知メッセージを生成するモデルなどを記憶する。このような対話モデルは、モデルを生成する際の文章として、例えば、問いかけの内容の文章、および結果などを直接通知する内容の文章が用いられる。
生成部43は、強化学習モデルによって選択したキーワードと、強化対話モデルによって選択された対話モデルとを用いて、通知メッセージを生成する。
情報処理装置1では、同じキーワードに対し、用いられる対話モデルに応じて異なる通知メッセージを生成することができる。
例えば、キーワードが「サッカー」である場合に、主に問いかけの通知メッセージを生成する対話モデルを用いると通知メッセージとして「サッカーの試合結果知っていますか?」が生成され、主に結果などを直接通知する対話モデルを用いると通知メッセージとして「○○チームは勝ちました!」が生成される。
学習部44は、通知メッセージに対するユーザの応答に基づいて、キーワードに対して報酬を与えて強化学習モデルを学習し、さらに対話モデルに対して報酬を与えて強化対話モデルを学習する。
例えば、「サッカーの試合結果知っていますか?」の通知メッセージが、「○○チームは勝ちました!」の通知メッセージよりも、ユーザの応答率などが良い場合には、強化対話モデルでは、「サッカーの試合結果知っていますか?」を生成する対話モデルに対するスコアが大きくなる。
情報処理装置1は、キーワードに対し、ユーザの応答率などが良い通知メッセーを生成することができる。したがって、通知メッセージに対するユーザの満足度を向上させることができる。
なお、情報処理装置1は、他のユーザに通知メッセージを送信し、その応答に基づいて、対話モデルに報酬を与えてもよい。すなわち、情報処理装置1は、他のユーザの応答履歴情報に基づいて、強化対話モデルを学習してもよい。
これにより、情報処理装置1は、多くのユーザの応答率などが良い通知メッセージを生成することができる。
なお、選択部42は、強化学習モデルによって選択されたキーワードを含め、強化対話モデルを用いて、対話モデルを選択してもよい。すなわち、選択部42は、キーワード別、またはキーワードが属するカテゴリー別に対話モデルを選択してもよい。
これにより、情報処理装置1は、キーワードなどに応じて、ユーザの応答率などが良い通知メッセージを自動的に生成することができる。したがって、通知メッセージに対するユーザの満足度を向上させることができる。
また、上記変形例に加えて、以下の変形例を適用することが可能である。
対話モデルは、問いかけの内容の通知メッセージを生成するように学習されてもよい。
これにより、情報処理装置1は、ユーザの応答率を高くすることができる。
選択部42は、キーワードとして、例えば、ツイッターなどで話題となっている単語をキーワードとして選択してもよい。
これにより、情報処理装置1は、通知メッセージを多様化させることができる。また、情報処理装置1は、新たなキーワードに関する通知メッセージに対してユーザの応答を得ることができ、得られた応答に基づいて強化学習モデルを学習することができる。
また、選択部42は、周期的にキーワードのスコアを大きくしてもよい。例えば、オリンピックの開催年には、オリンピックに関するキーワードのスコアを大きくする。
これにより、情報処理装置1は、話題性のある通知メッセージを自動的に生成し、ユーザの端末装置2へ送信することができる。
また、学習部44は、クラウドソーシングによって得られる文章に基づいて対話モデルを学習してもよい。
これにより、情報処理装置1は、通知メッセージを多様化させることができる。
なお、学習部44を情報処理装置1の外部の装置に設け、情報処理装置1は、異なる装置が生成した強化学習モデルを、ネットワークNを介して受信部10によって受信し、用いてもよい。
また、情報処理装置1は、ゲーミフィケーションのシステムを適用しても良い。例えば、ユーザの応答回数を「ポイント」とし、応答回数が予め設定された値よりも大きくなると、「レベル」を高くする。そして、生成部43は、レベルに応じて通知メッセージを変更する。例えば、レベルが高くなると、生成部43は、より親密な通知メッセージ、例えば個人的な内容を通知メッセージとして生成する。また、情報処理装置1は、レベルが高くなると、プッシュ通知回数を増やしてもよい。なお、連続する対話回数や、応答内容が肯定的な場合には、ポイントを大きくしてもよい。
これにより、ユーザと情報処理装置1との親密性を向上させ、通知メッセージに対するユーザの応答率を高くすることができる。
また、通知用情報は、ユーザの行動履歴情報を含んでもよい。情報処理装置1は、ユーザの発話内容に基づいたタイミングで通知メッセージを生成し、ユーザの端末装置2に通知メッセージを送信する。
例えば、ユーザが「休日にサッカーをした」と発話した場合に、情報処理装置1は、そのタイミングで、強化学習モデルを用いてキーワードとして「サッカー」を選択し、例えば、「サッカーといえば、オリンピックの試合は見た?」などと通知メッセージを生成し、通知メッセージをユーザの端末装置2へ送信する。
これにより、情報処理装置1は、ユーザの行動履歴に基づいて、ユーザが興味を示すタイミングで、通知メッセージをユーザの端末装置2へ送信するとともに、ユーザとの自然な対話を行うことができる。
また、通知用情報は、ユーザのコンテキストに基づくタイミングに関する情報であってもよい。コンテキストは、ユーザの属性情報や、ユーザの位置情報や、ユーザの運動状態情報などの情報である。
例えば、情報処理装置1は、ユーザの端末装置2から得られる位置情報に基づいて、ユーザが帰宅したタイミングで、通知メッセージを送信する。
これにより、情報処理装置1は、ユーザの応答率が高くなるタイミングで、通知メッセージを送信することができる。
また、通知用情報は、ユーザの発話に対して応答するメッセージを送信するタイミングに関する情報であってもよい。
この場合、生成部43は、対話モデルとして、ユーザの発話を入力文とし、対応する通知メッセージを生成するRNN Encoder−Decoderモデルを用いてもよい。このRNN Encoder−Decoderモデルは、入力文をエンコード用のRNNモデルで実数ベクトルに変換した後、そのベクトルを入力とするデコード用のRNNモデルで出力文を生成するモデルである。生成部43は、RNN Encoder−Decoderモデルを用いてキーワードを含む通知メッセージを生成する。
例えば、ユーザの発話が「今日の話題は?」であり、キーワードが「サッカー」である場合に、生成部43は、「今日の話題は?」を入力文として、RNN Encoder−Decoderモデルを用いて生成確率の高い順に通知メッセージ候補を生成する。通知メッセージ候補の生成には、ビーム探索などの近似解法を用いてもよい。
そして、生成部43は、生成した通知メッセージ候補の中で、キーワード「サッカー」を含むメッセージのみを選択し、さらにその中から生成確率が予め設定された閾値以上のメッセージを通知メッセージとして選択する。生成部43は、例えば、複数の通知メッセージから所定の確率で通知メッセージを選択する。このようにして、生成部43は、通知メッセージを生成してもよい。
情報処理装置1は、ユーザの発話に対して応答するメッセージを、強化学習モデルを用いて自動的に生成することができる。
また、行動履歴情報から抽出される単語や、キーワードを実数ベクトルで示す分散表現を用いてもよい。この場合、生成部43は、強化学習モデルと対話モデルとを1つにした学習モデルを用いて、通知メッセージを生成してもよい。生成部43は、キーワードの分散表現に対し、例えばコサイン類似度が高い分散表現の通知メッセージを選択し、通知メッセージを生成する。
学習部44は、キーワードにおける分散表現と、通知メッセージにおける分散表現とが、分散表現空間上で近くに存在するように学習モデルを学習する。学習モデルは、例えば、LSTM(Long Short-Term Memory)を備えたRNN(Recurrent Neural Network)の技術を用いて学習され、生成される。
これにより、情報処理装置1は、例えば、ユーザの直近の行動履歴情報における単語に、強化学習モデルにおけるキーワードと一致する単語が無い場合でも、類似するキーワードに対して、通知メッセージを自動的に生成することができる。
また、生成部43は、言語モデルを用いて、通知メッセージを生成してもよい。言語モデルは、一般的なメッセージの出現率を統計的にまとめたモデルである。生成部43によって、キーワードに基づいて複数の通知メッセージ候補が生成された場合には、言語モデルを用いて、一般的なメッセージとなる通知メッセージ候補が通知メッセージとして選択される確率を低くする。
これにより、情報処理装置1は、一般的なメッセージが通知メッセージとして選択されることを抑制し、一般的なメッセージがユーザの端末装置2へ送信されることを抑制することができる。そのため、通知メッセージに対するユーザの満足度が低下することを抑制することができる。
[6.効果]
情報処理装置1は、生成部43と、送信部20とを備える。生成部43は、強化学習により学習された強化学習モデルを用いて、ユーザの端末装置2へ送信する通知メッセージを生成する。送信部20は、通知用情報に基づいて、生成部43によって生成された通知メッセージをユーザの端末装置2へ送信する。
これにより、情報処理装置1は、ユーザの端末装置2へ送信する通知メッセージを、強化学習モデルを用いて自動的に生成することができる。また、情報処理装置1は、ユーザの応答率などが良い通知メッセージを自動的に生成することができる。
学習部44は、過去に送信された通知メッセージに対する応答履歴情報に基づいて、強化学習モデルを学習する。
これにより、情報処理装置1は、ユーザの応答率などが良い通知メッセージを自動的に生成することができる。
学習部44は、過去に送信された通知メッセージに対するユーザの応答の有無に基づいて、強化学習モデルを学習する。
これにより、情報処理装置1は、ユーザの応答、例えば、ユーザの応答率が高い通知メッセージを自動的に生成することができる。
学習部44は、過去に送信された通知メッセージに基づく対話回数に基づいて、強化学習モデルを学習する。
これにより、情報処理装置1は、例えば、対話が続いた通知メッセージに関するキーワードのスコアを大きくし、ユーザの応答率などが良い通知メッセージを自動的に生成することができる。
生成部43は、強化学習モデルを用いて選択されたキーワードに基づいて、対話モデルを用いて通知メッセージを生成する。
これにより、情報処理装置1は、キーワードに関する自然な文を通知メッセージとして自動的に生成することができる。
学習部44は、他のユーザの応答履歴に基づいて、強化学習により対話モデルを学習する。
これにより、情報処理装置1は、ユーザの応答率などが良い通知メッセージを自動的に生成することができる。
送信部20は、ユーザのコンテキストに基づいて、通知メッセージを送信する。
これにより、情報処理装置1は、通知メッセージに対するユーザの応答率を高くすることができる。
送信部20は、通知メッセージをユーザの端末装置2へプッシュ通知する。
これにより、情報処理装置1は、例えば、端末装置2におけるニュースなどの通知機能を有するアプリケーションの利用率を向上させることができる。
生成部43は、直近の行動履歴情報から抽出される単語に対して、単語をキーワードとして選択する強化学習モデルを用いて、通知メッセージを生成する。
これにより、情報処理装置1は、例えば、直近の行動履歴情報から抽出される単語と同一の単語がキーワードとして選択され、キーワードの単語と関連性が高い通知メッセージを、正確に生成することができる。
生成部43は、単語に対応したベクトルに対して、学習モデルを用いて、通知メッセージを生成する。
これにより、情報処理装置1は、例えば、ユーザの直近の行動履歴情報における単語に、学習モデルにおけるキーワードと一致する単語が無い場合でも、類似するキーワードに対して、通知メッセージを生成することができる。
[7.ハードウェアの構成]
上記してきた実施形態に係る情報処理装置1は、例えば図6に示すような構成のコンピュータ1000によって実現される。図6は、情報処理装置1の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が決定したデータをネットワークNを介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、決定したデータを入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る情報処理装置1として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、処理部40の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
以上、本願の実施形態及び変形例のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
[8.その他]
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、生成部43は、生成手段や生成回路に読み替えることができる。
1 情報処理装置
2 端末装置
10 受信部
20 送信部(通知部)
30 記憶部
40 処理部
41 解析部
42 選択部
43 生成部
44 学習部

Claims (7)

  1. 過去に通知されたメッセージに対するユーザの応答履歴に基づいて、前記ユーザに対するメッセージ生成用強化学習モデルを強化学習により学習する学習部と、
    前記メッセージ生成用強化学習モデルを用いて、前記ユーザの端末装置へ通知するメッセージを生成する生成部と、
    前記ユーザにプッシュ通知を行うための情報に基づいて、前記生成部によって生成された前記メッセージを前記端末装置へ通知する通知部と
    を備え、
    前記生成部は、
    前記メッセージ生成用強化学習モデルを用いて選択されたキーワードに対して周期的に大きくなるスコアに基づき、他のユーザの応答履歴を含む応答履歴に基づいて強化学習されたメッセージ生成モデルを用いて前記メッセージを生成し、かつ前記ユーザの応答回数が予め設定された値よりも大きくなると、レベルを高くし、前記レベルに応じて前記メッセージを生成する
    ことを特徴とする情報処理装置。
  2. 前記学習部は、
    前記過去に通知されたメッセージに対する応答の有無を含む応答履歴に基づいて、前記メッセージ生成用強化学習モデルを学習する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記通知部は、
    前記ユーザのコンテキストに基づいて、前記生成部によって生成された前記メッセージを前記端末装置へ通知する
    ことを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記生成部は、
    前記強化学習により生成され、入力される単語に対して、単語を出力する学習モデルを用いて前記端末装置へ通知する前記メッセージを生成する
    ことを特徴とする請求項1から3のいずれか一つに記載の情報処理装置。
  5. 前記生成部は、
    前記強化学習により生成され、入力される単語に対応した入力ベクトルに対して、出力ベクトルを出力する学習モデルを用いて前記端末装置へ通知する前記メッセージを生成する
    ことを特徴とする請求項1から4のいずれか一つに記載の情報処理装置。
  6. 情報処理装置が実行する情報処理方法であって、
    過去に通知されたメッセージに対するユーザの応答履歴に基づいて、前記ユーザに対するメッセージ生成用強化学習モデルを強化学習により学習する学習工程と、
    前記メッセージ生成用強化学習モデルを用いて、前記ユーザの端末装置へ通知するメッセージを生成する生成工程と、
    前記ユーザにプッシュ通知を行うための情報に基づいて、前記生成工程によって生成された前記メッセージを前記端末装置へ通知する通知工程と
    を含み、
    前記生成工程は、
    前記メッセージ生成用強化学習モデルを用いて選択されたキーワードに対して周期的に大きくなるスコアに基づき、他のユーザの応答履歴を含む応答履歴に基づいて強化学習されたメッセージ生成モデルを用いて前記メッセージを生成し、かつ前記ユーザの応答回数が予め設定された値よりも大きくなると、レベルを高くし、前記レベルに応じて前記メッセージを生成する
    ことを特徴とする情報処理方法。
  7. 過去に通知されたメッセージに対するユーザの応答履歴に基づいて、前記ユーザに対するメッセージ生成用強化学習モデルを強化学習により学習する学習手順と、
    前記メッセージ生成用強化学習モデルを用いて、前記ユーザの端末装置へ通知するメッセージを生成する生成手順と、
    前記ユーザにプッシュ通知を行うための情報に基づいて、前記生成手順によって生成された前記メッセージを前記端末装置へ通知する通知手順と
    をコンピュータに実行させ、
    前記生成手順は、
    前記メッセージ生成用強化学習モデルを用いて選択されたキーワードに対して周期的に大きくなるスコアに基づき、他のユーザの応答履歴を含む応答履歴に基づいて強化学習されたメッセージ生成モデルを用いて前記メッセージを生成し、かつ前記ユーザの応答回数が予め設定された値よりも大きくなると、レベルを高くし、前記レベルに応じて前記メッセージを生成する
    ことを特徴とするプログラム。
JP2018050127A 2018-03-16 2018-03-16 情報処理装置、情報処理方法、およびプログラム Active JP6884722B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018050127A JP6884722B2 (ja) 2018-03-16 2018-03-16 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018050127A JP6884722B2 (ja) 2018-03-16 2018-03-16 情報処理装置、情報処理方法、およびプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016180928A Division JP6333329B2 (ja) 2016-09-15 2016-09-15 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2018129068A JP2018129068A (ja) 2018-08-16
JP6884722B2 true JP6884722B2 (ja) 2021-06-09

Family

ID=63174536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018050127A Active JP6884722B2 (ja) 2018-03-16 2018-03-16 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6884722B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147435B (zh) * 2019-01-24 2023-08-22 腾讯科技(深圳)有限公司 对话生成方法、装置、设备及存储介质
JP6962964B2 (ja) * 2019-04-15 2021-11-05 ファナック株式会社 機械学習装置、画面予測装置、及び制御装置
JP7380691B2 (ja) * 2019-09-05 2023-11-15 日本電信電話株式会社 情報提示装置、学習装置、情報提示方法、学習方法、情報提示プログラム、及び学習プログラム
JP7250057B2 (ja) * 2021-03-15 2023-03-31 ヤフー株式会社 学習装置、学習方法及び学習プログラム
WO2023238341A1 (ja) * 2022-06-09 2023-12-14 日本電信電話株式会社 音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3379443B2 (ja) * 1998-08-21 2003-02-24 日本電気株式会社 情報通知装置及び情報通知方法並びにプログラムを記録した機械読み取り可能な記録媒体
JP3533371B2 (ja) * 2000-12-01 2004-05-31 株式会社ナムコ 模擬会話システム、模擬会話方法、および情報記憶媒体
JP2003141149A (ja) * 2001-10-31 2003-05-16 Nippon Soken Holdings:Kk 対話型配信システムおよび方法
JP2004090109A (ja) * 2002-08-29 2004-03-25 Sony Corp ロボット装置およびロボット装置の対話方法
JP5698105B2 (ja) * 2011-11-16 2015-04-08 日本電信電話株式会社 対話モデル構築装置、方法、及びプログラム
US9282066B2 (en) * 2013-07-18 2016-03-08 International Business Machines Corporation Targeted message response
JP2015219582A (ja) * 2014-05-14 2015-12-07 日本電信電話株式会社 対話方法、対話装置、対話プログラム及び記録媒体
JP2016038601A (ja) * 2014-08-05 2016-03-22 日本放送協会 Cgキャラクタ対話装置及びcgキャラクタ対話プログラム
US20160203290A1 (en) * 2015-01-09 2016-07-14 The Regents Of The University Of Michigan Smart messaging system for medication adherence
JP6333329B2 (ja) * 2016-09-15 2018-05-30 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2018129068A (ja) 2018-08-16

Similar Documents

Publication Publication Date Title
JP6884722B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US10832008B2 (en) Computerized system and method for automatically transforming and providing domain specific chatbot responses
WO2021012645A1 (zh) 推送信息的生成方法及装置
US11315546B2 (en) Computerized system and method for formatted transcription of multimedia content
US11081106B2 (en) Contextual spoken language understanding in a spoken dialogue system
US20200342181A1 (en) Method and system for automatic formality classification
US20190103111A1 (en) Natural Language Processing Systems and Methods
JP6333329B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US11586689B2 (en) Electronic apparatus and controlling method thereof
US10346546B2 (en) Method and system for automatic formality transformation
JP2017515134A (ja) 模写によるデジタル携帯情報端末の対話、および応答時のリッチなマルチメディア
JP2019514120A (ja) ユーザ中心の文書要約のための技術
US20230282218A1 (en) Near real-time in-meeting content item suggestions
US20160055533A1 (en) Response generation device, response generation method, and non-transitory computer readable storage medium
US11875125B2 (en) System and method for designing artificial intelligence (AI) based hierarchical multi-conversation system
KR101891498B1 (ko) 대화형 ai 에이전트 시스템에서 멀티 도메인 인텐트의 혼재성을 해소하는 멀티 도메인 서비스를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
JP6370962B1 (ja) 生成装置、生成方法および生成プログラム
JP6310796B2 (ja) 制御装置、制御方法および制御プログラム
US20200312312A1 (en) Method and system for generating textual representation of user spoken utterance
WO2018170876A1 (en) A voice-based knowledge sharing application for chatbots
CN108306813B (zh) 会话消息的处理方法、服务器及客户端
JP6697373B2 (ja) 文生成装置、文生成方法及びプログラム
US20230409615A1 (en) Systems and Methods for Providing User Experiences on Smart Assistant Systems
JP6205039B1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2021012660A (ja) 情報処理装置、情報処理方法および情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181113

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201012

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210128

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210128

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210205

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210512

R150 Certificate of patent or registration of utility model

Ref document number: 6884722

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250