JP6429819B2 - 情報提供装置および情報提供方法 - Google Patents

情報提供装置および情報提供方法 Download PDF

Info

Publication number
JP6429819B2
JP6429819B2 JP2016055544A JP2016055544A JP6429819B2 JP 6429819 B2 JP6429819 B2 JP 6429819B2 JP 2016055544 A JP2016055544 A JP 2016055544A JP 2016055544 A JP2016055544 A JP 2016055544A JP 6429819 B2 JP6429819 B2 JP 6429819B2
Authority
JP
Japan
Prior art keywords
response
content
information providing
providing apparatus
conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016055544A
Other languages
English (en)
Other versions
JP2017173873A (ja
Inventor
祐 宮崎
祐 宮崎
隼人 小林
隼人 小林
香里 谷尾
香里 谷尾
正樹 野口
正樹 野口
晃平 菅原
晃平 菅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016055544A priority Critical patent/JP6429819B2/ja
Publication of JP2017173873A publication Critical patent/JP2017173873A/ja
Application granted granted Critical
Publication of JP6429819B2 publication Critical patent/JP6429819B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報提供装置および情報提供方法に関する。
従来、入力された情報の解析結果に基づいて、入力された情報と関連する情報を検索もしくは生成し、検索もしくは生成した情報を応答として出力する技術が知られている。このような技術の一例として、入力されたテキストに含まれる単語、文章、文脈を多次元ベクトルに変換して解析し、解析結果に基づいて、入力されたテキストと類似するテキストや、入力されたテキストに続くテキストを類推し、類推結果を出力する自然言語処理の技術が知られている。
特開2015−28625号公報
"FastSLAM: A Factored Solution to the Simultaneous Localization and Mapping Problem",Michael Montemerlo, Sebastian Thrun, Daphne Koller, Ben Wegbreit, "、[online]、[平成28年3月9日検索]、インターネット<http://ai.stanford.edu/~koller/Papers/Montemerlo+al:AAAI02.pdf>
しかしながら、上記の従来技術を会議の補助として適用した場合、会議を効率的に進めることができない場合がある。
例えば、上述した従来技術を用いて、会議等の発言に対応する発言をロボット等から出力するといった技術が考えられる。しかしながら、上記の従来技術では、入力されたテキストと類似するテキストや、入力されたテキストに続くテキスト等、利用者が予測しうる情報を出力しているに過ぎない。このため、例えば、上記の従来技術では、会議を効率的に進めることができないおそれがある。
本願は、上記に鑑みてなされたものであって、会議を効率的に進めることを目的とする。
本願にかかる情報提供装置は、会議における発言内容を取得する取得部と、後続する利用者の発言内容を前記会議の目的に近づけるようにする応答を深層強化学習により学習した学習器を用いて、前記取得された発言内容に対する応答を決定する決定部と、前記決定した応答を出力する出力部とを有することを特徴とする。
実施形態の一態様によれば、会議を効率的に進めることができる。
図1は、実施形態に係る情報提供装置の一例を示す図である。 図2は、実施形態に係る情報提供装置が有する機能構成の一例を示す図である。 図3は、実施形態に係る情報提供装置が会議を誘導する方向を特定する処理の一例を示す図である。 図4は、実施形態に係る情報提供装置が会議を誘導する道筋の一例を示す図である。 図5は、実施形態に係る情報提供装置が実行する深層強化学習の一例を説明する図である。 図6は、実施形態に係る情報提供装置が実行する応答処理の流れを説明するフローチャートである。 図7は、ハードウェア構成の一例を示す図である。
以下に、本願にかかる情報提供装置および情報提供方法を実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願にかかる情報提供装置および情報提供方法が限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.情報提供装置の一例〕
まず、図1を用いて、情報提供装置10が実行する応答処理の一例について説明する。図1は、実施形態に係る情報提供装置の一例を示す図である。例えば、図1に示す例では、応答処理の一例を、複数の利用者がブレインストーミング等の会議を行っている際に、利用者の発言を入力情報として取得し、取得した入力情報に基づいて、会議に参加した個々の意見や会議における話題の方向性を深層強化学習(DQN:Deep Q-Network)により学習することで、会議に参加した利用者の集団的知能の学習を行う学習処理と、会議における発言内容をベクトル空間上にマッピングし、自動運転等で用いられているSLAM(Simultaneous Localization and Mapping)の技術を用いて、会議における話題の方向性を誘導する誘導処理とに分けて説明する。
より具体的には、以下の説明では、学習処理として、会議に参加した利用者の集団的知能の学習を行い、学習結果に基づいて、会議における現在の状況をコントロールするための応答を出力する処理の一例について説明する。また、以下の説明では、誘導処理として、会議において過去に行われた議論を避けたり、過去に会議が盛り上がった話題等に会議の内容を誘導する処理の一例について説明する。
図1に示した情報提供装置10は、サーバ装置等の情報処理装置により実現される。なお、情報提供装置10は、単一の情報処理装置に実現されてもよく、例えば、クラウドネットワーク上に存在する複数の情報処理装置が協調して実現されてもよい。このような、情報提供装置10は、利用者の発言をテキストデータに変換し、テキストデータを自然言語処理により解析する。そして、情報提供装置10は、解析結果に基づいて、会議や利用者の思考を支援する発言を生成し、生成した発言を出力する。
〔1−1.応答処理の一例〕
ここで、従来技術では、入力されたテキストを構成する複数次元の単語ベクトルで示す分散表現を用いて、入力されたテキストと類似するテキストや、入力されたテキストに続くテキストを類推する。このような従来技術を用いて、会議等の発言に対応する発言をロボット等から出力することで、会議の進行を補助するといった技術が考えられる。しかしながら、上記の従来技術では、入力されたテキストと類似するテキストや、入力されたテキストに続くテキスト等、利用者が予測しうる情報を出力しているに過ぎない。このため、例えば、上記の従来技術では、会議の内容を停滞させたり、会議の内容を発散させたりしてしまい、会議を効率的に進めることができないおそれがある。そこで、情報提供装置10は、応答処理として、集団知能の学習を行う学習処理と、会議の内容を誘導する誘導処理とを実行する。なお、以下の説明では、学習処理と誘導処理とをそれぞれ個別に説明するが、実際には、情報提供装置10により学習処理と誘導処理とが同時並行的に実行されることとなる。
〔1−1−1.学習処理〕
まず、情報提供装置10が実行する学習処理の一例について説明する。まず、情報提供装置10は、会議における利用者の発言内容を取得する。続いて、情報提供装置10は、入力された発言内容に対する応答であって、後続する他の発言の内容を会議の目的に近づくように誘導する応答を決定する。より具体的には、情報提供装置10は、取得された発言内容に対して出力された応答に後続する発言が、会議の目的に近づくようにする応答を決定する。例えば、情報提供装置10は、ある発言内容に後続する発言が会議の目的に近づくように、発言に対する応答を深層強化学習により学習した学習器を用いて、応答を決定する。そして、情報提供装置10は、決定した応答を発言に対する応答として出力する。
ここで、深層強化学習とは、所謂ディープラーニング等の深層学習と、前回の出力結果による現在の状況を観測し、観測結果に応じて取るべき行動を決定する強化学習とを組み合わせた学習手法である。より具体的には、情報提供装置10は、入力層と、複数の中間層と、出力層とを有するニューラルネットワークであるDNN(Deep Neural Network)を学習器として保持し、入力情報を入力層から入力した際に出力層から出力される情報に基づいて、応答を決定する。さらに、情報提供装置10は、決定した応答を出力した後における環境、すなわち、応答に対する利用者の評価や反応、会議の内容等を取得し、取得した評価等を報酬として取得し、取得した報酬に基づいて、学習器の修正(再学習)を行う。すなわち、情報提供装置10は、会議における利用者の発言を深層強化学習における状態Sとし、状態Sと方策πとに基づいて、方策aを決定する。そして、情報提供装置10は、後述する利用者の発言を深層強化学習における方策πの結果(すなわち、報酬R)として状態価値関数を算出し、算出した状態価値関数に基づいて、方策πの更新を行う。
例えば、情報提供装置10は、出力した応答に対する利用者の発言内容を新たに取得する。そして、情報提供装置10は、新たに取得された利用者の発言内容に基づいて、応答を評価する値、すなわち、状態価値関数を算出し、算出した状態価値関数に基づいて、新たに取得された利用者の発言内容に対する応答を決定する。
ここで、情報提供装置10は、利用者の発言が会議の目的に近づくように、報酬Rの値を設定する。例えば、情報提供装置10は、前回取得した発言内容と、新たに取得した発言内容とのブレが少ない程、報酬Rの値を大きくする。ここで、報酬Rの値は、例えば、形態素解析等の文章解析技術に基づいて、前回の発言内容と、新たな発言内容との比較を行い、前回の発言内容と新たな発言内容との差分が大きい程、報酬Rの値を小さくするといった手段により実現される。
また、報酬Rの値は、例えば、発言後において、会議に参加する利用者が入力した評価の値に基づいて決定されてもよい。例えば、情報提供装置10は、応答の出力後に、会議に参加する利用者から、会議の内容が目的に近づいているか否かの評価を受付ける。このような評価は、例えば、各利用者に与えられたスライダ等の入力装置や、BMI(Brain-machine Interface)等によって取得される。そして、情報提供装置10は、取得された評価に基づいて、報酬Rの値を設定し、設定した報酬Rの値に基づいて、学習器の修正を行う。
〔1−1−2.誘導処理〕
ここで、利用者の発言が単純に会議の目的に近づくような応答を出力したとしても、会議を適切に誘導することができない場合もある。例えば、会議等においては、各利用者に前回とは異なるアイデアを出させたり、過去に盛り上がった話題等に誘導することで、会議を円滑に進めたい場合等が考えられる。
そこで、情報提供装置10は、以下の誘導処理を実行する。例えば、情報提供装置10は、会議における複数の利用者の発言内容を取得する。そして、情報提供装置10は、取得された利用者の発言内容をベクトル空間上に投影する。例えば、情報提供装置10は、W2V(Word 2 Vector)等、単語や文章等が有する意味や概念を複数次元の量(分散表現)に変換する任意の技術を用いて、利用者の発言内容が有する意味をベクトル空間上に投影する。すなわち、情報提供装置10は、同じ話題の発言内容が、ベクトル空間のうち所定の範囲内に収まるように、発言内容の投影を行う。そして、情報提供装置10は、ベクトル空間上に投影された発言内容の履歴の位置と、ベクトル空間上に投影された新たな発言内容の位置とに基づいて、会議を誘導する方向を決定する。
すなわち、情報提供装置10は、発言内容の意味をベクトル空間上の位置に置き換えることで、過去の会議の内容と、現在の会議内容との関係性を、ベクトル空間上の位置に置き換える。そして、情報提供装置10は、自動運転等に用いられるSLAM等の技術を用いて、ベクトル空間上において会議を誘導する方向を特定し、特定した方向に会議を誘導する応答を出力する。すなわち、情報提供装置10は、発言内容の意味をベクトル空間上に投影することで、発言内容の意味やアイデアの近さを距離空間上にマッピングしたアイデアマップを生成する。そして、情報提供装置10は、最新の発言内容や、それまでの発言内容を投影したベクトルの合成をベクトル空間上に投影することで、アイデアマップ中における会議の現状を示す位置を特定することで、議論の中心の位置を議論全体の中から俯瞰できるようにする。
その後、情報提供装置10は、特定した方向へ会議を誘導する応答を生成して出力する。例えば、情報提供装置10は、上述した学習処理において、利用者の発言内容がベクトル空間上において特定した方向へ向かうように学習器の更新を行うことで、特定した方向へ会議を誘導する応答を出力する。より具体的には、情報提供装置10は、応答に続く利用者の新たな発言内容をベクトル空間上に投影し、新たな発言内容を投影した位置が前回の発言内容を投影した位置よりも特定した方向に近づいている場合には、報酬Rの値をより大きな値に更新し、学習器の修正を行う。
ここで、情報提供装置10は、会議を誘導する方向として任意の方向を特定してよい。例えば、情報提供装置10は、過去に会議が盛り上がった際における利用者の発言内容が投影された方向を特定し、特定した方向へ会議を誘導する応答を出力する。この結果、情報提供装置10は、会議の停滞等を防ぎ、会議を円滑に進めることができる。また、他の例では、情報提供装置10は、過去の会議における発言内容が投影された位置、すなわち、発言内容の履歴が投影された位置から離れる方向を特定し、特定した方向へ会議を誘導する応答を出力する。この結果、情報提供装置10は、会議が同じ話題で堂々巡りする等といった事態を防ぎ、会議を目的に沿った方向へ進めることができる。
なお、会議を誘導する方向を特定する処理については、会議の目的や会議の現状、過去における会議の内容などに基づいて、任意の設定や戦略が適用可能である。例えば、情報提供装置10は、会議が盛り上がらなかった際における利用者の発言内容が投影されたベクトル空間上の領域を障害物と見做し、SLAMの技術を用いて障害物をよけるベクトル空間上の経路を特定し、会議を特定した経路に沿うように誘導してもよい。
また、情報提供装置10は、高次元なベクトル空間を高速に処理するため、各点間の距離を保持するように次元数を圧縮するMDS(Multi Dimensional Scaling)(多次元距離尺度)等の技術を用いて、ベクトル空間の次元を圧縮してから、誘導方向を特定する処理を実行してもよい。
〔1−2.応答処理の一例〕
次に、図1を用いて、情報提供装置10が実行する応答処理の一例について説明する。例えば、図1に示す例では、情報提供装置10は、会議における利用者の発言Aや発言Bを入力として受付ける(ステップS1)。より具体的には、情報提供装置10は、利用者が発声した発言Aをテキストデータに変換し、変換後のテキストデータを入力情報として取得する。
かかる場合、情報提供装置10は、応答処理を実行する(ステップS2)。まず、情報提供装置10は、発言内容をベクトル空間上に投影する(ステップS3)。そして、情報提供装置10は、ベクトル空間上における過去の発言内容の位置と、新たな発言内容の位置との位置関係を特定する(ステップS4)。そして、情報提供装置10は、特定した位置関係に基づいて、SLAM等の技術を用いて、会議を誘導する方向を特定する(ステップS5)。
続いて、情報提供装置10は、会議の目的に近づけるように深層強化学習を行った学習器を用いて、発言内容に対する応答を生成する(ステップS6)。そして、情報提供装置10は、生成した応答を出力する(ステップS7)。例えば、情報提供装置10は、生成した応答を発言Cとしてロボット等に読み出させることで、会議の誘導を行う。
また、情報提供装置10は、発言Cに対する利用者の評価を受付ける(ステップS8)。例えば、会議に参加する利用者は、発言Cにより会議が目的へと近づいたと感じた場合等には、発言Cが有用である旨の評価を入力する。すると、情報提供装置10は、入力された評価を現在の方策に対する報酬として、深層強化学習を行う(ステップS9)。すなわち、情報提供装置10は、より良い報酬を得ることができるように、学習器の修正を行う。
なお、上述した例では、応答処理として、学習処理と誘導処理との実行結果を応答として出力する処理の一例について記載した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、上述した誘導処理のみを実行して得られる応答を出力してもよく、誘導処理を実行せず、深層強化学習の結果得られる学習器を用いて生成した応答を出力してもよい。
〔2.情報提供装置の構成〕
次に、図2を用いて、図1に示した学習処理および誘導処理を実行する情報提供装置10の構成について説明する。図2は、実施形態に係る情報提供装置が有する機能構成の一例を示す図である。図2に示すように、情報提供装置10は、入力装置30および出力装置31と接続されている。また、情報提供装置10は、通信部11、記憶部12、および制御部16を有する。
通信部11は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部11は、マイクやキーボード等の入力装置30と、モニタやプリンタ、音声を発声することができるロボット等の出力装置31と接続され、各種情報の送受信を行う。
記憶部12は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部12は、モデルデータベース13およびベクトル空間データベース14を有する。
モデルデータベース13には、学習処理によって学習されるモデル、すなわち、深層強化学習により、後続する利用者の発言内容を会議の目的に近づけるようにする応答を学習した学習器のデータが登録されている。例えば、モデルデータベース13には、学習器に含まれるニューロン間の接続関係や、接続係数等が登録されている。
ベクトル空間データベース14には、会議における利用者の発言内容が投影されたベクトル空間が登録されている。例えば、ベクトル空間データベース14には、W2Vの技術等を用いて、複数次元の量に変換された利用者の発言内容の履歴が登録されている。なお、各発言内容を示すベクトル(分散表現)は、各発言内容の関係性に基づいて生成されるため、各発言内容の向きや距離は、各発言内容が有する意味、概念および共起性の類似度に対応することとなる。
制御部16は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部16は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図2に示すように、制御部16は、取得部17、投影部18、位置特定部19、誘導方向特定部20、応答決定部21、応答出力部22、評価取得部23、およびモデル更新部24を有する。なお、各部17〜20は、上述した誘導処理を実現するための機能構成であり、各部21〜24は、学習処理を実現するための機能構成である。このため、情報提供装置10は、例えば、各部17〜20を有する誘導装置と、各部21〜24有する学習装置とが協調して動作することにより、実現されてもよい。
〔2−1.誘導処理を実現する構成例〕
取得部17は、会議における利用者の発言内容を取得する。例えば、取得部17は、マイクやキーボード等により実現される入力装置30から、会議における利用者の発言を取得する。かかる場合、取得部17は、受付けた利用者の発言をテキストデータに変換する。
投影部18は、取得された利用者の発言内容をベクトル空間上に投影する。例えば、投影部18は、形態素解析等の技術を用いて、テキストデータに含まれる単語群を抽出し、抽出した単語群が有する概念や意味、すなわち、発言内容が有する概念や意味を複数次元の量に変換することで、発言内容をベクトル空間上に投影する。そして、投影部18は、変換後の発言内容をベクトル空間データベース14に登録する。
位置特定部19は、ベクトル空間上に投影された発言内容の履歴の位置と、ベクトル空間上に投影された新たな発言内容の位置との関係を特定する。例えば、位置特定部19は、ベクトル空間データベース14を参照し、現在の会議の状態を示す位置と、過去の発言内容が投影されたベクトル空間上の位置との位置関係を特定する。例えば、位置特定部19は、最後に出力された発言内容(最新の発言内容)が投影されたベクトル空間上の位置や、会議における発言内容を投影したベクトルの合計等を現在の会議の状態を示すベクトル空間上の位置として、過去の発言内容が投影されたベクトル空間上の位置との関係を特定する。
誘導方向特定部20は、位置特定部19によって特定された位置関係に基づいて、会議を誘導する方向を特定する。例えば、誘導方向特定部20は、最後に出力された発言内容が投影されたベクトル空間上の位置を現在の位置とし、過去の発言内容が投影されたベクトル空間上の位置を過去の位置として、SLAMの技術を用いて、会議を誘導する方向を特定する。例えば、誘導方向特定部20は、会議を誘導する方向として、発言内容の履歴が投影された位置から離れる方向や、会議が盛り上がった際における発言内容が投影された方向を特定する。
例えば、図3は、実施形態に係る情報提供装置が会議を誘導する方向を特定する処理の一例を示す図である。例えば、投影部18は、図3中(A)に示すように、会議における利用者の発言内容をベクトル空間上に投影することで、発言内容の意味や概念の関係性を距離空間に投影したアイデアマップを生成する。より具体的には、投影部18は、図3中(B)に示すように、発言内容を、その発言内容の意味や概念を相対的に示す位置に投影する。そこで、誘導方向特定部20は、SLAMの技術を用いて、図3中(A)に示すアイデアマップにおいて、どのように移動するかを特定することで、どのように会議を誘導するかを決定する。
例えば、誘導方向特定部20は、図3中(C)に示すように、過去の会議における利用者の発言内容が投影された領域を障害物として特定する。そして、誘導方向特定部20は、会議における過去の話題とは異なる話題の方向へ会議を誘導する場合には、図3中(D)に示すように、障害物をよけるように、アイデアマップ上の経路を特定することで、会議を誘導する方向を特定する。すなわち、誘導方向特定部20は、会議における利用者の発言内容を投影したアイデアマップを作成しつつ、過去の会議の内容とは異なる道筋で、会議を目的へと誘導する。
例えば、図4は、実施形態に係る情報提供装置が会議を誘導する道筋の一例を示す図である。例えば、誘導方向特定部20は、図4中(A)に示すように、利用者の発言Sを取得した場合、図4中(B)に示すように、会議の目的へと各利用者の発言S〜Sが行われ、会議の目的から離れた発言z〜zが行われないように、各利用者の発言を誘導する方向を特定する。また、誘導方向特定部20は、会議の目的から離れた発言θ、θ、u〜u等が行われた場合には、各利用者の発言s〜sが行われる方向を、各利用者の発言を誘導する方向とする。
ここで、誘導方向特定部20がSLAMの技術を用いて、会議を誘導する方向を決定する手法の一例について説明する。例えば、誘導方向特定部20は、誘導対象となる会議の時刻「t」におけるベクトル空間上の位置を「s」とする。例えば、誘導方向特定部20は、会議における全発言内容をベクトル空間上に投影したベクトルの和や、最後の発言内容を投影したベクトルを「s」とする。また、誘導方向特定部20は、誘導するベクトル空間上の方向を「θ」とする。また誘導方向特定部20は、ベクトル空間上にマッピングした発言内容のベクトル位置を「z」(計量に対応)とし、会議における所定期間内の利用者の発言内容の合成ベクトルを「u」(制御に対応)とし、ベクトル空間上における移動距離を「n」とする。このような場合、誘導方向特定部20は、以下の式(1)を用いて、SLAMの技術に基づき、次の時刻における誘導方向を特定する。
Figure 0006429819
なお、例えば、誘導方向特定部20は、ベクトル空間上に投影した発言内容の位置に基づいて、会議に参加する各利用者の立場を明確化してもよい。また、誘導方向特定部20は、ベクトル空間上に発言内容を投影することで、各利用者の発言内容が同じことを異なる表現で言っているだけであるか否かを判定してもよく、会議における議論がループしているか否かを判定してもよい。そして、誘導方向特定部位20は、判定結果に基づいて、会議を誘導する方向を特定してもよい。
〔2−2.DQNを用いた学習処理を実現する構成例〕
図2に戻り、説明を続ける。応答決定部21は、後続する利用者の発言内容を会議の目的に近づけるようにする応答を深層強化学習により学習した学習器を用いて、取得された発言内容に対する応答を決定する。例えば、応答決定部21は、モデルデータベース13から深層強化学習が行われた学習器を取得し、取得された利用者の発言内容を学習器に入力し、学習器の出力に応じて、会議における利用者の発言に対する応答を決定する。そして、応答出力部22は、応答決定部21によって決定された応答をスピーカー等の出力装置31から出力する。
なお、後述する様に、モデルデータベース13に登録される学習器は、応答が出力される度に、評価取得部23によって取得された評価に基づいて、モデル更新部24により順次更新が行われる。このため、応答決定部21は、新たな発言内容が取得された場合には、前回の発言内容に対応する応答に基づいて更新された学習器を用いて、新たな応答を出力することとなる。
評価取得部23は、スライダやBMIなどの所定のインターフェースを有する入力装置30を介して、応答出力部22が出力した応答に対する評価を取得する。なお、評価取得部23は、例えば、応答を出力した際における利用者の発言内容を取得し、取得した発言内容を解析することで、応答に対する利用者の評価を取得してもよい。すなわち、評価取得部23は、応答が出力された後における会議の状態を取得する。
なお、評価取得部23は、応答の前に取得した利用者の発言内容と、応答の後に取得した利用者の発言内容とに基づいて、会議が目的に近づいているか否かを判定し、判定結果に応じた評価を取得してもよい。例えば、評価取得部23は、応答の前に取得した利用者の発言内容の意味と、応答の後に取得した利用者の発言内容の意味とを比較し、各発言内容の意味がブレていない場合や、誘導方向特定部20により特定された方向、すなわち、会議の目的の方向に向かっている場合には、応答が有益である旨の評価を取得してもよい。
モデル更新部24は、応答が出力された後の会議の状態に基づいて、学習器の更新を行う。すなわち、モデル更新部24は、学習器によって応答が出力された後の会議の状態に基づいて、後続する利用者の発言内容を会議の目的に近づけるようにする応答を学習するように、学習器の深層強化学習を行う。具体的には、モデル更新部24は、応答出力部22が前回応答を出力した後で評価取得部23が取得した評価に基づいて、学習器の深層強化学習を行う。
例えば、図5は、実施形態に係る情報提供装置が実行する深層強化学習の一例を説明する図である。例えば、会議において利用者の発言を「s」、学習器が発言に対してどのような応答を出力するかを示す方策を「π」、利用者の発言「s」があった際に方策「π」で出力される応答を「π(s)」と記載すると、会議における利用者の発言と応答とは、図5中(A)に示す図で模式的に示すことができる。より具体的には、利用者Aの発言「S」があった場合、情報提供装置10は、応答「π(s)」を出力する。このような応答「π(s)」に対して利用者Bの発言「S」があった場合、情報提供装置10は、応答「π(s)」を出力し、応答「π(s)」に対して利用者Cの発言「S」があった場合、応答「π(s)」を出力する。
このような発言および応答があった場合、情報提供装置10は、図5中(B)に示すように、方策「π」に対して、評価に基づく状態行動価値関数「Qπ(s,a)」を算出する。そして、情報提供装置10は、状態行動価値関数「Qπ(s,a)」に基づいて、方策「π」を更新する。より具体的には、情報提供装置10は、状態行動価値関数「Qπ(s,a)」の値を最大化するように、方策「π」の値を更新する。このような応答の出力と、出力に対する評価に基づいた方策の更新とを繰り返し実行することで、情報提供装置10は、学習器の深層強化学習を実現する。
より具体的には、情報提供装置10は、以下の式(2)に示すように、方策に対する応答「π(s)」の値の「a」と見做すと、以下の式(3)に示すように、報酬に応じた次の方策「π(s)」を、状態行動価値関数の値の最大化に基づいて決定する。すなわち、情報提供装置10は、報酬に応じて、次に得られるであろう報酬の値が最大化するように、状態行動価値関数を算出し、算出した状態行動価値関数に基づいて、方策の更新を行う。
Figure 0006429819
Figure 0006429819
ここで、状態行動価値関数は、以下の式(4)にて求めることができる。ここで、R(S、a、s)とは、前回の応答に対する報酬を示す変数である。なお、「s」および「a」の添え字は、方策および方策に対する応答の時間(順番)を示す値である。例えば「s」は、時刻「t」における「s」の値であり、「st+1」は、時刻「t+1」における「s」の値である。
Figure 0006429819
このように、情報提供装置10は、出力した応答に対する利用者の評価に基づいて、学習器の更新を行い、更新後の学習器を用いて、会議を目的となる方向に誘導するような応答を出力する。このため、情報提供装置10は、会議を効率的に進めることができる。
〔3.情報提供装置10が実行する応答処理の流れ〕
次に、図6を用いて、情報提供装置10が実行する応答処理の流れについて説明する。図6は、実施形態に係る情報提供装置が実行する応答処理の流れを説明するフローチャートである。なお、情報提供装置10は、以下に説明するステップS101〜ステップS108の処理を繰り返し実行する。
まず、情報提供装置10は、利用者の発言内容を取得する(ステップS101)。そして、情報提供装置10は、取得した発言内容をベクトル空間上に投影し(ステップS102)、発言内容の履歴の位置と現在の発言内容の位置との関係を特定する(ステップS103)。そして、情報提供装置10は、SLAMの技術を用いて、会議を誘導する方向を特定する(ステップS104)。
また、情報提供装置10は、利用者の発言内容を会議の目的となる方向に誘導するための応答を深層強化学習により学習した学習器を用いて、発言内容に対する応答を決定し(ステップS105)、決定した応答を出力する(ステップS106)。また、情報提供装置10は、応答に対する利用者の評価に基づく報酬を設定し(ステップS107)、設定した報酬に基づく深層強化学習を実行する(ステップS108)。
〔4.変形例〕
上記では、図1に例示した態様を用いながら、情報提供装置10が実行する処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する抽出処理のバリエーションについて説明する。
〔4−1.処理の実行形態について〕
上述した例では、情報提供装置10は、会議を効率的に進めるため、発言内容をベクトル空間上に投影し、各発言内容の位置関係に基づいて、会議を誘導する方向を特定するとともに、利用者の発言を会議の目的となる方向に誘導させる応答を深層強化学習により学習した学習器を用いて、応答を生成、出力した。しかしながら、実施形態は、これに限定されるものではない。
例えば、情報提供装置10は、上述した誘導処理の結果、会議を誘導する方向を特定し、特定した方向を示す情報を出力してもよい。また、情報提供装置10は、上述した学習器を用いて、応答を生成して出力してもよい。すなわち、情報提供装置10は、上述した学習処理や誘導処理を、それぞれ独立に実行し、実行結果を出力する装置であってもよい。
〔4−2.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔4−3.ハードウェア構成について〕
また、上述してきた実施形態に係る情報提供装置10は、例えば図7に示すような構成のコンピュータ1000によって実現される。図7は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一時的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部16の機能を実現する。
〔5.効果〕
上述したように、情報提供装置10は、会議における発言内容を取得し、後続する利用者の発言内容を会議の目的に近づけるようにする応答を深層強化学習により学習した学習器を用いて、取得された発言内容に対する応答を決定し、決定した応答を出力する。すなわち、情報提供装置10は、利用者の発言内容を会議の目的に近づけるようにする応答をDQNにより随時学習する学習器を用いて、応答を決定するので、会議を効率的に進めることができる。
また、情報提供装置10は、応答が出力された後の会議の状態に基づいて、学習器の更新を行い、応答に対する利用者の発言内容を新たに取得し、更新された学習器を用いて、新たに取得された利用者の発言内容に対する新たな応答を決定する。このため、情報提供装置10は、現在の会議の状態をその都度反映させながら、利用者の発言を会議の目的に近づけるように応答を出力することができるので、会議を効率的に進めることができる。
また、情報提供装置10は、応答が出力された後で利用者が入力した評価に基づいて、学習器の更新を行う。また、情報提供装置10は、応答を出力する前に取得した発言内容と、応答を取得した後に取得した発言内容とのブレに基づいて、学習器の更新を行う。このため、情報提供装置10は、利用者の発言を適切に誘導し、会議を効率的に進めることができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、制御部は、制御手段や制御回路に読み替えることができる。
10 情報提供装置
11 通信部
12 記憶部
13 モデルデータベース
14 ベクトル空間データベース
16 制御部
17 取得部
18 投影部
19 位置特定部
20 誘導方向特定部
21 応答決定部
22 応答出力部
23 評価取得部
24 モデル更新部
30 入力装置
31 出力装置

Claims (5)

  1. 会議における発言内容を取得する取得部と、
    前記発言内容をベクトル空間上に投影した場合の投影位置の変化に基づいて、前記会議を誘導する方向を特定する特定部と、
    後続する利用者の発言内容が前記ベクトル空間上に投影した際に前記特定部により特定された方向に近づようにする応答を深層強化学習により学習した学習器を用いて、前記取得された発言内容に対する応答を決定する決定部と、
    前記決定した応答を出力する出力部と
    を有することを特徴とする情報提供装置。
  2. 前記応答が出力された後の前記会議の状態に基づいて、前記学習器の更新を行う更新部
    を有し、
    前記取得部は、前記出力部により出力された応答に対する利用者の発言内容を新たに取得し、
    前記決定部は、前記更新部により更新された学習器を用いて、前記新たに取得された利用者の発言内容に対する新たな応答を決定する
    ことを特徴とする請求項1に記載の情報提供装置。
  3. 前記更新部は、前記応答が出力された後で前記利用者が入力した評価に基づいて、前記学習器の更新を行う
    ことを特徴とする請求項2に記載の情報提供装置。
  4. 前記更新部は、前記応答を出力する前に取得した発言内容と、前記応答を取得した後に取得した発言内容とのブレに基づいて、前記学習器の更新を行う
    ことを特徴とする請求項2または3に記載の情報提供装置。
  5. 情報提供装置が実行する情報提供方法であって、
    会議における発言内容を取得する取得工程と、
    前記発言内容をベクトル空間上に投影した場合の投影位置の変化に基づいて、前記会議を誘導する方向を特定する特定工程と、
    後続する利用者の発言内容が前記ベクトル空間上に投影した際に前記特定工程により特定された方向に近づようにする応答を深層強化学習により学習した学習器を用いて、前記取得された発言内容に対する応答を決定する決定工程と、
    前記決定した応答を出力する出力工程と
    を含むことを特徴とする情報提供方法。
JP2016055544A 2016-03-18 2016-03-18 情報提供装置および情報提供方法 Active JP6429819B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016055544A JP6429819B2 (ja) 2016-03-18 2016-03-18 情報提供装置および情報提供方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016055544A JP6429819B2 (ja) 2016-03-18 2016-03-18 情報提供装置および情報提供方法

Publications (2)

Publication Number Publication Date
JP2017173873A JP2017173873A (ja) 2017-09-28
JP6429819B2 true JP6429819B2 (ja) 2018-11-28

Family

ID=59972020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016055544A Active JP6429819B2 (ja) 2016-03-18 2016-03-18 情報提供装置および情報提供方法

Country Status (1)

Country Link
JP (1) JP6429819B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697282B (zh) * 2017-10-20 2023-06-06 阿里巴巴集团控股有限公司 一种语句的用户意图识别方法和装置
CN109711871B (zh) * 2018-12-13 2021-03-12 北京达佳互联信息技术有限公司 一种潜在客户确定方法、装置、服务器及可读存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1195231A4 (en) * 2000-03-31 2006-01-25 Sony Corp ROBOTIC DEVICE, ROBOTIC DEVICE ACTION CONTROL METHOD, EXTERNAL FORCE DETECTION DEVICE, AND EXTERNAL FORCE DETECTION METHOD
JP2003285285A (ja) * 2002-03-27 2003-10-07 Nec Corp ソフトウェアエージェントを有するロボット装置及びその制御方法とプログラム
JP2005070169A (ja) * 2003-08-20 2005-03-17 Kokichi Tanihira 学習支援システム、学習支援プログラム、および学習支援サービスの提供方法
JP4508757B2 (ja) * 2004-07-16 2010-07-21 富士通株式会社 応答生成プログラム、応答生成方法、および応答生成装置
US8073681B2 (en) * 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
JP2011053629A (ja) * 2009-09-04 2011-03-17 Sharp Corp 会議中継装置及びコンピュータプログラム
JP2012181697A (ja) * 2011-03-01 2012-09-20 Nec Corp 対話システム、対話制御方法およびプログラム
JP6115074B2 (ja) * 2012-10-25 2017-04-19 株式会社リコー 情報提示システム、情報提示装置、プログラムおよび情報提示方法
US9008283B2 (en) * 2013-03-15 2015-04-14 Genesys Telecommunications Laboratories, Inc. Customer portal of an intelligent automated agent for a contact center
US10666696B2 (en) * 2014-09-05 2020-05-26 Minerva Project, Inc. System and method for a virtual conference interactive timeline

Also Published As

Publication number Publication date
JP2017173873A (ja) 2017-09-28

Similar Documents

Publication Publication Date Title
JP6854921B2 (ja) タスク固有のポリシーおよび共有ポリシーをもつマルチタスクニューラルネットワークシステム
US20240070392A1 (en) Computing numeric representations of words in a high-dimensional space
US10417566B2 (en) Self-learning technique for training a PDA component and a simulated user component
US20200334420A1 (en) Contextual language generation by leveraging language understanding
EP3523759B1 (en) Image processing neural networks with separable convolutional layers
KR102535411B1 (ko) 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
CN111712834B (zh) 用于推断现实意图的人工智能系统
US20210142181A1 (en) Adversarial training of machine learning models
US10679006B2 (en) Skimming text using recurrent neural networks
JP7483751B2 (ja) 教師なしデータ拡張を使用した機械学習モデルのトレーニング
JP2014529787A (ja) 固有表現の認識方法及び装置
JP2018097397A (ja) ルールセットを選択可能な推論エンジンを有するプログラム、装置及び方法
JP6679360B2 (ja) 情報提供装置および情報提供方法
JP6824795B2 (ja) 修正装置、修正方法および修正プログラム
JP6429819B2 (ja) 情報提供装置および情報提供方法
CN110059164B (zh) 用于呈现对话系统的用户界面的方法和系统
JP2018159992A (ja) パラメータ調整装置、学習システム、パラメータ調整方法、およびプログラム
Hwang et al. End-to-end dialogue system with multi languages for hospital receptionist robot
KR20230071673A (ko) 언어 모델을 이용한 개방형 도메인 대화 모델 구축을 위한 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
JP7013329B2 (ja) 学習装置、学習方法および学習プログラム
Sagar et al. Dialog management system based on user persona
CN115398446A (zh) 使用符号编程的机器学习算法搜索
US11900222B1 (en) Efficient machine learning model architecture selection
JP7013332B2 (ja) 学習装置、学習方法および学習プログラム
JP7013331B2 (ja) 抽出装置、抽出方法および抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170919

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181030

R150 Certificate of patent or registration of utility model

Ref document number: 6429819

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350