JP2017203808A - 対話処理プログラム、対話処理方法および情報処理装置 - Google Patents

対話処理プログラム、対話処理方法および情報処理装置 Download PDF

Info

Publication number
JP2017203808A
JP2017203808A JP2016093921A JP2016093921A JP2017203808A JP 2017203808 A JP2017203808 A JP 2017203808A JP 2016093921 A JP2016093921 A JP 2016093921A JP 2016093921 A JP2016093921 A JP 2016093921A JP 2017203808 A JP2017203808 A JP 2017203808A
Authority
JP
Japan
Prior art keywords
utterance
user
response
dialogue
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016093921A
Other languages
English (en)
Other versions
JP6651973B2 (ja
Inventor
哲朗 高橋
Tetsuro Takahashi
哲朗 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016093921A priority Critical patent/JP6651973B2/ja
Priority to EP17167922.8A priority patent/EP3244403A1/en
Publication of JP2017203808A publication Critical patent/JP2017203808A/ja
Application granted granted Critical
Publication of JP6651973B2 publication Critical patent/JP6651973B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】自然な対話を行うことを課題とする。【解決手段】スマートフォンは、発話に含まれる単語と、発話に対して応答される応答発話に含まれる単語との組み合わせに対応する複数の確信度を記憶する。スマートフォンは、ユーザの発話を示すユーザ発話を検出し、ユーザ発話に対する応答発話を示すユーザ応答発話に対応する複数の応答候補を、複数の異なる対話機能から取得する。スマートフォンは、ユーザ発話に含まれる単語と、複数の応答候補に含まれる単語との複数の組み合わせを抽出する。スマートフォンは、抽出された複数の組み合わせに対応付けられる確信度に基づいて、複数の応答候補から、ユーザ応答発話を選択して出力する。【選択図】図2

Description

本発明は、対話処理プログラム、対話処理方法および情報処理装置に関する。
コンピュータシステムのインタフェースとして、ボタンやコマンドなどが一般的であったが、近年では、日常的に使用される言語などを用いた対話システムにより、コンピュータシステムへの情報入力やコンピュータシステムからの情報提示が行われている。
例えば、音声認識、言語理解、対話シナリオを有する複数の対話システムを備え、ユーザからの音声入力に応じて対話システムを切り替え、切り替えた対話システムを用いてユーザとの対話を行う技術が知られている。また、ユーザの嗜好と対話シナリオとを対応付けて管理し、ユーザに対応した対話シナリオを用いて、ユーザとの対話を行う技術が知られている。
特開2007−47488号公報 特開2015−22134号公報 特開2004−310034号公報 特開2008−83100号公報 特開2005−202035号公報
しかしながら、上記技術では、予め予測した対話ペアを保持し、ユーザの発話に対応する応答を対話ペアから検索して応答するので、対話における文脈上の情報や対話している相手の情報を加味した発話ができず、対話が不自然になる。
例えば、上記技術では、「発話、応答」として「こんにちは、こんにちは」や「疲れた、大変でしたね」などの対話ペアを用意しておくので、対話ペアの範囲内でしか応答できない。このため、シチュエーション等に関係なく、決まった応答になるので対話が不自然になる場合がある。また、対話ペアに登録されていない発話に対しては、応答することが難しい。
1つの側面では、自然な対話を行うことができる対話処理プログラム、対話処理方法および情報処理装置を提供することを目的とする。
第1の案では、対話処理プログラムは、コンピュータに、発話に含まれる単語と、前記発話に対して応答される応答発話に含まれる単語との組み合わせに対応する複数の確信度を記憶する処理を実行させる。対話処理プログラムは、コンピュータに、ユーザの発話を示すユーザ発話を検出する処理と、前記ユーザ発話に対する前記応答発話を示すユーザ応答発話に対応する複数の応答候補を、複数の異なる対話機能から取得する処理を実行させる。対話処理プログラムは、コンピュータに、前記ユーザ発話に含まれる前記単語と、複数の前記応答候補に含まれる前記単語との複数の前記組み合わせを抽出する処理を実行させる。対話処理プログラムは、コンピュータに、抽出された複数の前記組み合わせに対応付けられる前記確信度に基づいて、複数の前記応答候補から、前記ユーザ応答発話を選択して出力する処理を実行させる。
一実施形態によれば、自然な対話を行うことができる。
図1は、実施例1にかかる対話システムを説明する図である。 図2は、実施例1にかかるスマートフォンの機能構成を示す機能ブロック図である。 図3は、発話履歴DBに記憶される情報の例を示す図である。 図4は、終了表現DBに記憶される情報の例を示す図である。 図5は、制御表現DBに記憶される情報の例を示す図である。 図6は、ユーザモデルDBに記憶される情報の例を示す図である。 図7は、学習処理を説明する図である。 図8は、発話選択を説明する図である。 図9は、対話処理の全体の流れを示すフローチャートである。 図10は、学習処理の流れを示すフローチャートである。 図11は、発話候補取得処理の流れを示すフローチャートである。 図12は、発話選択処理の流れを示すフローチャートである。 図13は、学習前の応答の具体例を説明する図である。 図14は、対話機能の選択および学習の具体例を説明する図である。 図15は、同一対話機能内による発話および学習の具体例1を説明する図である。 図16は、同一対話機能内による発話および学習の具体例2を説明する図である。 図17は、ハードウェア構成例を説明する図である。
以下に、本願の開示する対話処理プログラム、対話処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
[対話システムの説明]
図1は、実施例1にかかる対話システムを説明する図である。本実施例では、一例として、スマートフォン10を例にして説明するが、これに限定されるものではなく、パーソナルコンピュータ、ノートパソコン、携帯電話などの移動体端末、サーバなどのコンピュータ機器についても同様に処理することができる。
図1に示すように、スマートフォン10は、対話機能A、対話機能B、対話機能C、対話機能Dの複数の対話システムを有する。なお、対話機能の例については後述するが、例えば定型表現を応答する機能や挨拶を応答する機能など公知の様々な対話アプリケーションを採用することができる。なお、ここでは、4つの対話機能を図示したが、これに限定されるものではなく、任意の数を採用することができる。
また、スマートフォン10は、人間すなわちユーザとの対話を通じて、対話の中からユーザの関心事を推測して情報を蓄積するユーザモデルを保持する。なお、ユーザモデルは、1人のユーザとの対話から学習するものに限らず、複数人のユーザつまり人間との対話から学習するものも含む。
このようなスマートフォン10は、ユーザ1の発話をマイク等で検出すると、検出した発話の内容を対話機能AからDのそれぞれに入力する。そして、スマートフォン10は、対話機能Aからの応答候補A、対話機能Bからの応答候補B、対話機能Cからの応答候補C、対話機能Dからの応答候補Dのそれぞれを抽出する。例えば、各対話機能は、入力されたユーザの発話に対する応答候補を抽出する処理を実行し、応答候補を絞りこんで、確信度が最も高い発話候補を確信度付きで抽出する。なお、本実施例では、ユーザの発話をユーザ発話と記載する場合があり、確信度をスコアと記載する場合がある。
そして、スマートフォン10は、ユーザモデルを用いて各応答候補の確信度を算出する。その後、スマートフォン10は、応答候補AからDの中から、算出された確信度が最も高い応答候補を選択し、システム発話として応答候補をユーザ1に応答する。
このようにして、スマートフォン10は、過去のユーザとの発話履歴やユーザ1の発話などから対話の継続性、対話リピート性、対話の終了制御などを推定し、各対話機能から出力された各応答候補の各確信度を更新して、応答候補を絞りこんで応答する。この結果、スマートフォン10は、対話における文脈上の情報や対話している相手の情報を加味した発話を行うことができるので、自然な対話を行うことができる。
[機能構成]
図2は、実施例1にかかるスマートフォン10の機能構成を示す機能ブロック図である。図2に示すように、スマートフォン10は、通信部11、記憶部12、制御部20を有する。通信部11は、他の装置の通信を制御してデータの送受信を実行する処理部であり、例えば無線インタフェースなどである。
記憶部12は、制御部20が実行するプログラムや各種データを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部12は、発話履歴DB13、終了表現DB14、制御表現DB15、ユーザモデルDB16を記憶する。
発話履歴DB13は、ユーザ1とスマートフォン10との間の対話履歴を記憶するデータベースである。具体的には、発話履歴DB13は、スマートフォン10が検出したユーザの発話と、当該発話に対するスマートフォン10の応答とを記憶する。
図3は、発話履歴DB13に記憶される情報の例を示す図である。図3に示すように、発話履歴DB13は、「タイムスタンプ、話者、発話内容」を対応付けて記憶する。ここで記憶される「タイムスタンプ」は、発話が実行された時間である。「話者」は、発話した人またはスマートフォン10であり、人による発話の場合は「ユーザ」が記憶され、スマートフォン10による発話の場合は「システム」が記憶される。「発話内容」は、検出された発話の内容が記憶され、ユーザによる発話の場合は、検出された発話内容がそのまま記憶され、システムによる発話の場合は、発話内容と当該発話内容を抽出した対話機能とが対応付けて記憶される。
図3の例の場合、「10:29:04」に「ユーザ」によって「今日の天気は何?」が発話され、「10:29:06」に「システム」によって「挨拶」の対話機能すなわち対話アプリケーションを用いて、「こんにちは」が発話されたことを示す。
終了表現DB14は、対話の終了を示唆する発話の内容を記憶するデータベースである。具体的には、終了表現DB14は、ユーザが強制的にシステムとの対話を終了するために使用すると推測される発話の内容を記憶する。
図4は、終了表現DB14に記憶される情報の例を示す図である。図4に示すように、終了表現DB14は、「もういい、使えない、だめだ」などを記憶する。つまり、スマートフォン10は、「もういい、使えない、だめだ」などの発話を検出した場合に、ユーザが対話を強制的に終了し、対話が自然に続かなかった可能性が高いと判定する。
制御表現DB15は、対話を制御する発話の内容を記憶するデータベースである。具体的には、制御表現DB15は、ユーザが対話の流れに逆らって何らかの制御を行っていると予想される発話の内容を記憶する。
図5は、制御表現DB15に記憶される情報の例を示す図である。図5に示すように、制御表現DB15は、「もう一度、何?、だめだ」などを記憶する。つまり、スマートフォン10は、「もう一度、何?、だめだ」などの発話を検出した場合に、ユーザが対話の流れに関係なく、同じ質問を再度行う制御やシステム発話を聞き直す制御などをユーザが望んでいる可能性が高いと判定する。
ユーザモデルDB16は、人間すなわちユーザ1との対話を通じて、対話の中からユーザの関心事を推測して情報を蓄積するデータベースである。具体的には、ユーザモデルDB16は、スマートフォン10がこれまでに対話した各ユーザとの発話履歴に基づいて、人間が望んでいると予想される対話内容とその対話内容のスコアを学習して記憶する。なお、ここで記憶される情報は、後述する学習部25によって更新される。
図6は、ユーザモデルDB16に記憶される情報の例を示す図である。図6に示すように、ユーザモデルDB16は、「モデル,スコア」を対応付けて記憶する。ここで記憶される「モデル」は、ユーザの発話、システムの発話、ユーザとシステムとの対話の内容を特定する情報が記憶される。「スコア」は、モデルの確からしさ、確信度や信頼度などを示す情報であり、数字が大きいほど対話が成り立つ可能性が高いと推測される。
図6の例では、ユーザモデルDB16は、モデル「U1_今日,S1_[挨拶]」のスコアを「−0.3」と記憶し、モデル「U1_今日,S1_こんにちは」のスコアを「0.1」と記憶する例を示す。ここで、モデルには、「発話者+発話順_発話内容」もしくは「発話者+発話順_[対話機能]」の形式で情報が記憶される。例えば、図6の1行目は、ユーザによる1番目の発話内容に含まれる単語「今日」と、システムによる1番目の発話に使用された対話機能「挨拶」との組み合わせのスコアが「−0.3」であることを示す。また、図6の2行目は、ユーザによる1番目の発話内容に含まれる単語「今日」と、システムによる1番目の発話内容に含まれる単語「こんにちは」との組み合わせのスコアが「0.1」であることを示す。
制御部20は、スマートフォン10全体の処理を司る処理部であり、例えばプロセッサなどである。この制御部20は、発話記録部21、学習部25、候補取得部30、発話選択部35を有する。なお、発話記録部21、学習部25、候補取得部30、発話選択部35は、例えばプロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例などである。
発話記録部21は、ユーザの発話やスマートフォン10による発話を検出した場合に、発話履歴DB13に格納する処理部である。例えば、発話記録部21は、図示しないマイクなどの集音部を介して、「10:12:10」に「元気ですか」の発話を検出した場合、「タイムスタンプ=10:12:10、話者=ユーザ、発話内容=元気ですか」を発話履歴DB13に格納する。また、発話記録部21は、スマートフォン10が対話機能「挨拶」を用いて「10:12:15」に「はい」の発話を行った場合、「タイムスタンプ=10:12:15、話者=システム、発話内容=はい[挨拶]」を発話履歴DB13に格納する。なお、発話記録部21は、検出部の一例である。
学習部25は、対話評価部26、抽出部27、更新部28を有し、ユーザとシステムとの対話の履歴に基づいて、ユーザモデルDB16を学習する処理部である。具体的には、学習部25は、ユーザの発話内容が発話履歴DB13に登録された場合に、予め定められた数の発話を発話履歴DB13から読み出し、読み出した発話に含まれる単語の組み合わせ等から、ユーザの関心事等を推測してユーザモデルDB16を学習する。なお、学習部25は、抽出部の一例である。
対話評価部26は、対話の継続性、対話リピート性、対話制御性の観点から、対話を評価する処理部である。例えば、対話の継続性とは、ユーザの発話とシステムの発話とが意味をなして継続しているかどうかを判定するものである。対話リピート性は、同じ発話が必要以上に繰り返されていないかを判定するものである。対話制御性は、ユーザが対話をある方向に強制的に導こうとしているかを判定するものである。
そして、対話評価部26は、対話の継続性、対話リピート性、対話制御性の観点から、ユーザの最新の発話に対して評価値を算出し、抽出部27や更新部28などに出力する。
(対話の継続性判定)
具体的には、対話評価部26は、発話記録部21によって検出された最新のユーザ発話を発話履歴DB13から読み出し、発話内容が終了表現DB14に登録されているか否かを判定する。そして、対話評価部26は、終了表現DB14に登録される単語が最新のユーザ発話に含まれる場合は、評価値に「−1」を加算し、終了表現DB14に登録される単語が最新のユーザ発話に含まれない場合は、評価値に「1」を加算する。
(対話リピート性判定)
具体的には、対話評価部26は、対象の最新のユーザ発話(u1)と、1つ前のユーザ発話(u2)とを発話履歴DB13から読み出し、類似度(sim(u1,u2))を算出する。そして、対話評価部26は、この類似度を用いて、「1−sim(u1,u2)×2」を算出して、算出した値を評価値に加算する。この評価値「1−sim(u1,u2)×2」は、類似度が高いほど「−1」に近くなる。
ここで類似度(sim(u1,u2))については公知の様々な手法を採用することができる。例えば、u1とu2とでどのくらい同じ単語が使われているかなどを用いて類似度を判定することができる。
(対話接続性判定)
具体的には、対話評価部26は、発話記録部21によって検出された最新のユーザ発話を発話履歴DB13から読み出し、発話内容が制御表現DB15に登録されているか否かを判定する。そして、対話評価部26は、制御表現DB15に登録される単語が最新のユーザ発話に含まれる場合は、評価値に「−1」を加算し、制御表現DB15に登録される単語が最新のユーザ発話に含まれない場合は、評価値に「1」を加算する。
図2に戻り、抽出部27は、対話の履歴から、ユーザ発話に出現する場所や日時などのトピック、システム発話に用いられた対話機能やその発話に出現するトピックなどを含む対話トピックを抽出する処理部である。具体的には、抽出部27は、予め定めた件数に該当するユーザ発話とシステム発話とを含む対話を発話履歴DB13から読み出す。続いて、抽出部27は、各発話について、形態素解析等により単語を抽出する。そして、抽出部27は、抽出した各単語について、ユーザ発話から抽出されたのかシステム発話から抽出されたのかが特定できるとともにユーザモデルDB16に記憶されるモデルと同形式となるように記号化し、記号化した情報を更新部28に出力する。
更新部28は、抽出部27に抽出された各記号化された情報と、対話評価部26によって算出された評価値とを用いて、ユーザモデルDB16に記憶される各モデルのスコア値を更新する処理部である。具体的には、更新部28は、各記号化された情報から要素を取り出し、当該要素と同じモデルをユーザモデルDB16から検索する。そして、更新部28は、該当するモデルのスコアに、対話評価部26によって算出された評価値を加算する。このようにして、ユーザモデルDB16のモデルが更新される。
(学習処理)
ここで、学習処理について具体的に説明する。図7は、学習処理を説明する図である。図7に示すように、ユーザ発話とシステム発話とが発話履歴DB13に登録されている状態で、「10:29:12」にユーザ発話「だから天気は何?」が新たに登録されたとする。そして、この発話に対して、対話評価部26が評価値として「0.2」を算出したとする。
この状態で、抽出部27は、予め指定された過去2件の対話に該当する発話「10:29:06、システム、こんにちは[挨拶]」と「10:29:04、ユーザ、今日の天気は?」を読み出す(S1)。続いて、抽出部27は、読み出したユーザ発話の発話内容「今日の天気は?」から単語として「今日」と「天気」を抽出し、同様に、システム発話の発話内容「こんにちは」から単語「こんにちは」と利用した対話機能「[挨拶]」を抽出する(S2)。
そして、抽出部27は、ユーザ発話の単語「今日、天気」とシステム発話の単語「こんにちは、[挨拶]」とを記号化する(S3)。具体的には、抽出部27は、話者を示す情報と発話順と単語とを組み合わせて、「U1_今日、U1_天気、S1_こんにちは、S1_[挨拶]」を生成する。ここで、「U」は、ユーザ発話を示し、「S」は、システム発話を示し、「1」は発話順を示す。なお、最新にユーザ発話から1つ前の対話(ユーザ発話およびシステム発話)については「1」が設定され、2つ前の対話(ユーザ発話およびシステム発話)については「2」が設定される。
続いて、抽出部27は、記号化された各記号の組み合わせを生成して要素を抽出し(S4)、各要素に対話評価部26が算出した評価値「0.2」を対応付ける(S5)。具体的には、抽出部27は、記号「U1_今日、U1_天気、S1_こんにちは、S1_[挨拶]」から、要素「U1_今日」、要素「U1_天気」、要素「S1_こんにちは」、要素「S1_[挨拶]」、要素「U1_今日,S1_[挨拶]」、要素「U1_天気,S1_[挨拶]」、要素「U1_今日,S1_こんにちは」、要素「U1_天気,S1_こんにちは」を生成する。そして、抽出部27は、生成した各要素に評価値「0.2」を付与する。なお、組み合わせの手法は、U1とS1の組み合わせだけや全ての組み合わせを含めるなど任意に設定することができる。
その後、更新部28は、抽出部27によって生成された各要素と評価値とに基づいて、ユーザモデルDB16を更新する(S6)。例えば、更新部28は、抽出された要素「U1_今日,S1_[挨拶]」がユーザモデルDB16に記憶されているので、記憶されるスコア「−0.3」に評価値「0.2」を加算して、新たなスコア「−0.1」に更新する。また、更新部28は、抽出された要素「U1_今日」がユーザモデルDB16に記憶されていないので、モデル「U1_今日」と評価値「0.2」とを有するレコードを、ユーザモデルDB16に格納する。
このようにして、学習部25は、ユーザ発話を検出するたびに、評価値の算出、対話のトピックの抽出、要素の抽出を行って、該当するモデルのスコアを更新する。
図2に戻り、候補取得部30は、挨拶処理部31、会話表現処理部32、定義処理部33、天気処理部34などの複数の対話機能それぞれを用いて、複数の発話候補を取得する処理部である。具体的には、候補取得部30は、ユーザ発話を各対話機能に入力して、各対話機能から発話候補を取得して発話選択部35に出力する。なお、候補取得部30は、取得部の一例である。
ここで、図2に示した挨拶処理部31、会話表現処理部32、定義処理部33、天気処理部34などの対話機能は、一般的な対話アプリケーションに該当する。したがって、図示した機能や数に限定されるものではなく、任意の機能や任意の機能数を採用することができる。
例えば、挨拶処理部31は、挨拶に関する応答を行う対話アプリケーションに該当する。例を挙げると、挨拶処理部31は、「入力発話、応答発話、スコア値」として「おはよう、おはよう、1.0」や「おはよう、こんにちは、−0.7」などを対応付けて記憶する。そして、挨拶処理部31は、発話記録部21によって検出された最新のユーザ発話を入力発話として検索し、該当する「応答発話、スコア値」を発話候補として選択する。
また、会話表現処理部32は、成り立つと想定される会話を応答する対話アプリケーションに該当する。例を挙げると、会話表現処理部32は、「入力発話、応答発話、スコア値」として「よい天気ですね、そうですね、0.2」や「よい天気ですね、そうでしょうか、−0.2」などを対応付けて記憶する。そして、会話表現処理部32は、発話記録部21によって検出された最新のユーザ発話を入力発話として検索し、該当する「応答発話、スコア値」を発話候補として選択する。
また、定義処理部33は、定義を応答する対話アプリケーションに該当する。例を挙げると、定義処理部33は、「入力発話、応答発話、スコア値」として「天気は?、天気とはある地点の・・・、−0.7」などを対応付けて記憶する。そして、会話表現処理部32は、発話記録部21によって検出された最新のユーザ発話を入力発話として検索し、該当する「応答発話、スコア値」を発話候補として選択する。
また、天気処理部34は、外部サーバから現在地の天気情報を取得して応答する対話アプリケーションに該当する。例を挙げると、天気処理部34は、発話記録部21によって検出された最新のユーザ発話を受け付けると、当該ユーザ発話を受け付けた位置をGPS(Global Positioning System)などで特定する。そして、天気処理部34は、特定した位置の天気を外部サーバから取得して、取得した天気情報を発話候補として選択する。
発話選択部35は、候補取得部30によって取得された各発話候補を、ユーザモデルDB16に記憶されるスコア値によって評価し、最も評価値が高い発話候補を選択してユーザ1に応答する処理部である。なお、発話選択部35は、出力部の一例である。
具体的には、発話選択部35は、各発話候補について、学習部25と同様の処理である対話トピックの抽出と要素の抽出を行う。そして、発話選択部35は、各発話候補について抽出された複数の要素それぞれに対応するスコアを、ユーザモデルDB16から特定し、スコアの合計値を算出する。その後、発話選択部35は、要素のスコアの合計値が最も高い発話候補を選択して応答するとともに、システム発話として発話履歴DB13に登録する。
ここで、発話選択について具体的に説明する。図8は、発話選択を説明する図である。なお、ここでは対話機能として、定義処理部33と天気処理部34の2つの対話機能を有している例で説明する。
図8に示すように、候補取得部30は、発話記録部21によって検出されたユーザ発話「だから天気は何?」が入力されると、天気処理部34から「スコア、発話候補」として(1)「0.3、今日の天気は晴れです」と取得し、定義処理部33から(2)「0.2、天気とはある地点に〜」を取得する(S10)。
続いて、発話選択部35は、(1)について形態素解析を行って単語と使用した対話機能を抽出して、(1)「今日、天気、晴れ、・・・、[天気]」を抽出し、(2)について(2)「天気、ある、地点、・・・、[定義]」を抽出する(S11)。
そして、発話選択部35は、ユーザ発話と(1)の組と、ユーザ発話と(2)の組のそれぞれについて上述した記号化を行って、(1)「U1_だから、U1_天気、S1_今日、S1_[天気]、・・・」を抽出し、(2)「U1_だから、U1_天気、S1_天気、S1_地点、S1_[定義]、・・・」を抽出する(S12)。
続いて、発話選択部35は、(1)と(2)について上述した要素の抽出を行う(S13)。例えば、発話選択部35は、(1)について(1)要素「{U1_だから}、{S1_[天気]}、・・・、{U1_だから,S1_[天気]}、・・・」を抽出する。同様に、発話選択部35は、(2)について、(2)要素「{U1_だから}、{S1_[定義]}、・・・」を抽出する。
さらに、発話選択部35は、(1)と(2)について、ユーザモデルDB16を参照して、各要素のスコアの抽出を行う(S14)。例えば、発話選択部35は、(1)の要素{U1_だから}についてスコア「0.2」、要素{U1_だから,S1_[天気]}についてスコア「0.2」などを抽出する。同様に、発話選択部35は、(2)の要素{U1_だから}についてスコア「0.2」、要素{S1_[定義]}についてスコア「−0.2」などを抽出する。ここで、ユーザモデルDB16に記憶されていない要素についてはスコアを「0」とすることもできる。
その後、発話選択部35は、(1)と(2)のそれぞれについて、要素のスコアの合計値を算出する(S15)。例えば、発話選択部35は、(1)について、『(要素{U1_だから}のスコア「0.2」)+(要素{S1_[天気]}のスコア「0.3」)+(要素{U1_だから,S1_[天気]}のスコア「0.2」)+・・・』を計算して合計値「4.2」を算出する。同様に、発話選択部35は、(2)について、『(要素{U1_だから}のスコア「0.2」)+(要素{S1_[定義]}のスコア「−0.2」)+・・・』を計算して合計値「−0.7」を算出する。
この結果、発話選択部35は、合計値が大きい(1)の「今日の天気は晴れです」を応答として選択し、ユーザ1に発話する(S16)。
また、合計値が最大の候補を選択する方法以外に、候補の合計値に応じた確率分布によって候補を選択する方法を取ることもできる。こうすることにより、新しく追加された対話機能から出力された候補や、これまでは好まれなかった発話が再度使われて再学習されるチャンスを得ることができ、システムの応答が局所的に偏ることを防ぐことができる。
[処理の流れ]
次に、図9から図13を用いて、スマートフォン10が実行する対話処理を説明する。ここでは、対話処理の全体的な流れ、学習処理、発話候補の取得処理、発話選択処理について説明する。
(全体的な処理の流れ)
図9は、対話処理の全体の流れを示すフローチャートである。図9に示すように、スマートフォン10の発話記録部21は、ユーザ1の発話を検出すると(S101:Yes)、発話履歴DB13に発話を記録する(S102)。
続いて、学習部25が学習処理を実行してユーザモデルDB16を学習し(S103)、候補取得部30が発話候補取得処理を実行して、各対話機能から発話候補を取得し(S104)、発話選択部35が発話選択処理を実行して複数の発話候補の中から1つの発話を選択する(S105)。
その後、発話選択部35は、選択した発話候補を発話として発話履歴DB13に記録し(S106)、応答としてユーザ1に発話する(S107)。そして、対話を終了する処理等を受け付けずに、対話を継続する場合(S108:No)、S101以降を繰り返し、対話を終了する場合(S108:Yes)、処理を終了する。
(学習処理の流れ)
図10は、学習処理の流れを示すフローチャートである。図10に示す学習処理は、対話評価処理(S201からS205)とトピック抽出処理(S206からS209)とモデル学習処理(S210からS213)とを含む。
具体的には、図10に示すように、対話評価部26は、最新のユーザ発話を取得すると(S201)、対話の継続性を判定し(S202)、対話のリピート性を判定し(S203)、対話の制御性を判定して(S204)、最新のユーザ発話の評価値を算出する(S205)。なお、各判定は順不同である。
続いて、抽出部27は、過去X件の発話を発話履歴DB13から取得し(S206)、各発話を単語に分割し(S207)、各発話を記号化し(S208)、対話トピックを抽出する(S209)。なお、過去X件は、任意に設定することができるが、ユーザとシステムとの対話を抽出する意図から2件以上が好ましい。
その後、更新部28は、各対話トピックから要素を抽出する(S210)。例えば、更新部28は、各発話から取得されて記号化された情報から要素を抽出する。そして、更新部28は、要素を1つ選択し(S211)、ユーザモデルDB16で当該要素に対応するスコアに、S205で算出された評価値を加算して学習する(S212)。なお、更新部28は、S210からS212までの処理を、S206で抽出された全発話について実行する。そして、更新部28は、全要素について学習が終了するまで(S213:No)、S211以降を繰り返し、全要素について学習が終了すると(S213:Yes)、処理を終了する。
(発話候補取得処理の流れ)
図11は、発話候補取得処理の流れを示すフローチャートである。図11に示すように、候補取得部30は、最新のユーザ発話を取得すると(S301)、最新のユーザ発話を各対話機能に入力する(S302)。
そして、候補取得部30は、各対話機能についてスコア値が最大の応答を抽出し(S303)、各対話機能ごとに応答とスコア値とを対応付けた発話候補を出力する(S304)。
(発話選択処理の流れ)
図12は、発話選択処理の流れを示すフローチャートである。図12に示すように、発話選択部35は、発話候補を取得すると(S401:Yes)、各発話候補について単語に分割し(S402)、各発話候補について単語を記号化して対話トピックを抽出する(S403)。
続いて、発話選択部35は、各発話候補の対話トピックを用いて要素を抽出し(S404)、要素のスコアをユーザモデルDB16から抽出して、各発話候補について要素のスコアの合計値を算出する(S405)。その後、発話選択部35は、最も合計値が高い発話候補を選択して出力する(S406)。
[具体的な処理イメージ]
次に、図13から図16を用いて、学習処理等の具体的な処理のイメージを説明する。
(学習前の対話イメージ)
図13は、学習前の応答の具体例を説明する図である。図13に示すように、スマートフォン10は、「天気を教えて」のユーザ発話を検出すると、当該発話の内容を発話履歴DB13に格納する。このとき、スマートフォン10は、発話履歴DB13にシステム発話が記録されていないことから、学習を行わない。
そして、スマートフォン10は、ユーザ発話「天気を教えて」を各対話機能に入力して発話候補を抽出する。その結果、スマートフォン10は、「スコア、発話内容、機能名」として「0.1、天気という操作はありません、[操作]」、「0.3、今日の天気は晴れです、[天気予報]」、「0.3、天気とはある場所における気象状態、[定義]」を抽出する。
ここで、スマートフォン10は、ユーザモデルDB16に十分なモデルが学習されていないので、抽出した3つの発話候補の中から最もスコアが高い発話候補を選択する。なお、ここでは、最も高いスコアが複数ある場合は、ランダムに選択される。この結果、スマートフォン10は、ランダムに選択した発話候補「今日の天気は晴れです」をシステム発話として出力し、発話履歴DB13に記録する。
(対話機能による学習イメージ)
図14は、対話機能の選択および学習の具体例を説明する図である。図14では、選択された対話機能によって学習結果が異なる例を説明する。
図14の一例では、発話履歴DB13に、「タイムスタンプ、話者、発話内容」として「10:29:04、ユーザ、天気を教えて」と「10:29:08、システム、今日の天気は晴れです[天気予報]」が記録されている状態で、ユーザ発話として「ありがとう」が検出された例である。
この場合、スマートフォン10は、ユーザ発話「ありがとう」を発話履歴DB13に記録し、上述した学習処理を実行する。そして、スマートフォン10は、対話として(1)ユーザ発話「天気を教えて」、(2)システム発話「今日の天気は晴れです」、(3)ユーザ発話「ありがとう」を検出することになり、対話として成立していると学習する。この結果、スマートフォン10は、対話機能[天気予報]の選択が正しかったと学習し、ユーザモデルDB16に記憶されるモデル「U1_天気,S1_[天気予報]」のスコアを高い値に更新する。
また、図14の別例では、発話履歴DB13に、「タイムスタンプ、話者、発話内容」として「10:29:04、ユーザ、天気を教えて」と「10:29:08、システム、天気とはある場所における気象状態[定義]」が記録されている状態で、ユーザ発話として「そうじゃなくて今日の天気を教えて」が検出された例である。
この場合、スマートフォン10は、ユーザ発話「そうじゃなくて今日の天気を教えて」を発話履歴DB13に記録し、上述した学習処理を実行する。そして、スマートフォン10は、対話として(1)ユーザ発話「天気を教えて」、(2)システム発話「天気とはある場所における気象状態」、(3)ユーザ発話「そうじゃなくて今日の天気を教えて」を検出することになり、対話が成立していないと学習する。この結果、スマートフォン10は、対話機能[定義]の選択が正しくなかったと学習し、ユーザモデルDB16に記憶されるモデル「U1_天気,S1_[定義]」のスコアを低い値に更新する。
このように、スマートフォン10は、対話の自然さを検証して、対話機能の選択結果を判定する。そして、スマートフォン10は、自然な対話の場合は使用された対話機能のスコアをより高い値に更新し、不自然な対話の場合は使用された対話機能のスコアをより低い値に更新する。
(同一対話機能による学習イメージ1)
図15は、同一対話機能内による発話および学習の具体例1を説明する図である。図15では、同じ対話機能を使用しても、対話の自然さによって学習結果が異なる例を説明する。
図15の一例では、発話履歴DB13に、「タイムスタンプ、話者、発話内容」として「10:29:04、ユーザ、こんにちは」と「10:29:08、システム、こんにちは[挨拶]」が記録されている状態で、ユーザ発話として「名前は何?」が検出された例である。
この場合、スマートフォン10は、ユーザ発話「名前は何?」を発話履歴DB13に記録し、上述した学習処理を実行する。そして、スマートフォン10は、対話として(1)ユーザ発話「こんにちは」、(2)システム発話「こんにちは」、(3)ユーザ発話「名前は何?」を検出することになり、対話として成立していると学習する。この結果、スマートフォン10は、対話機能[挨拶]による発話内容「こんにちは」の選択が正しかったと学習し、ユーザモデルDB17に記憶されるモデル「U1_こんにちは,S1_こんにちは」のスコアを高い値に更新する。
また、図15の別例では、発話履歴DB13に、「タイムスタンプ、話者、発話内容」として「10:29:04、ユーザ、こんにちは」と「10:29:08、システム、ごきげんよう[挨拶]」が記録されている状態で、ユーザ発話として「さよなら」が検出された例である。
この場合、スマートフォン10は、ユーザ発話「さよなら」を発話履歴DB13に記録し、上述した学習処理を実行する。そして、スマートフォン10は、対話として(1)ユーザ発話「こんにちは」、(2)システム発話「ごきげんよう」、(3)ユーザ発話「さよなら」を検出することになり、制御表現が発話されており、対話として成立していないと学習する。この結果、スマートフォン10は、対話機能[挨拶]による発話内容「ごきげんよう」の選択が正しくなかったと学習し、ユーザモデルDB17に記憶されるモデル「U1_こんにちは,S1_ごきげんよう」のスコアを低い値に更新する。
このように、スマートフォン10は、同じ対話機能を用いた場合でも、発話された内容によって対話の自然さを検証するので、ユーザの嗜好を考慮して、ユーザモデルの構築や学習を実行できる。
(同一対話機能による学習イメージ2)
図16は、同一対話機能内による発話および学習の具体例2を説明する図である。図16では、同じ対話機能を使用しても、発話内容に基づいた学習が実行される例を説明する。
図16の一例では、発話履歴DB13に、「タイムスタンプ、話者、発話内容」として「10:29:04、ユーザ、スペインに行きます」と「10:29:08、システム、バルセロナの名産はアーモンドです[名産]」が記録されている状態で、ユーザ発話として「バルセロナには行きません」が検出された例である。なお、[名産]は、地名を入力として名産を応答する対話アプリケーションの一例である。
この場合、スマートフォン10は、ユーザ発話「バルセロナには行きません」を発話履歴DB13に記録し、上述した学習処理を実行する。そして、スマートフォン10は、最新のユーザ発話が「バルセロナには行きません」であることから、ユーザの意図とは全く異なるシステム発話が実行されたと想定する。この結果、スマートフォン10は、対話機能[名産]による発話内容「バルセロナの名産はアーモンドです」の選択が正しくなかったと学習し、ユーザモデルDB17に記憶されるモデル「U1_スペイン,S1_バルセロナ[名産]」のスコアを十分に低い値に更新する。
また、図16の別例では、発話履歴DB13に、「タイムスタンプ、話者、発話内容」として「10:29:04、ユーザ、スペインに行きます」と「10:29:08、システム、スペインの名産は生ハムです[名産]」が記録されている状態で、ユーザ発話として「他にも名産はありますか?」が検出された例である。
この場合、スマートフォン10は、ユーザ発話「他にも名産はありますか?」を発話履歴DB13に記録し、上述した学習処理を実行する。そして、スマートフォン10は、最新のユーザ発話が「他にも名産はありますか?」であることから、ユーザの意図とは大きく異ならないが、ユーザが満足するシステム発話ではないと想定する。この結果、スマートフォン10は、対話機能[名産]による発話内容「スペインの名産は生ハムです」の選択については改良の余地があると学習し、ユーザモデルDB17に記憶されるモデル「U1_スペイン,S1_スペイン[名産]」のスコアを少し低い値に更新する。
このように、スマートフォン10は、同じ対話機能を用いた場合でも、発話された内容によって対話の継続性を判定するので、ユーザの嗜好を考慮して、ユーザモデルの構築や学習を実行できる。
[効果の一側面]
上述したように、スマートフォン10は、複数の対話機能を同時に用い、すべてで回答候補を生成する。そして、スマートフォン10は、システムがユーザと対話をしながら、ユーザのモデルを構築し更新し続ける。このようにして、スマートフォン10は、システムが発話する際にはまず発話の候補を用意し、その中からユーザのモデルを用いることで、そのユーザにとって望ましい発話を生成する。
したがって、スマートフォン10は、ユーザのモデルとして「対話トピック」と「ユーザの選好」の情報を用いて、「対話トピック」から「ユーザの選好」を推定する推定モデルを機械学習の手法により構築することができる。また、スマートフォン10は、全ユーザに共通なモデルと、個別のユーザに特化したモデルの両方を学習することができる。
この結果、スマートフォン10は、ユーザにとって自然な対話でシステム発話を応答できる。スマートフォン10は、ユーザの対話に対する好みや対話中に得られた情報によってシステム発話を選択することができるので、ユーザにとって親しみやすく使いやすいインタフェースを提供できる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[対話機能]
上記実施例では、天気、定義、挨拶などの対話機能を例示したが、これに限定されるものではなく、公知の様々な対話アプリケーションを採用することができる。また、スマートフォン10が実行する対話機能の数も任意に設定することができる。また、評価値の算出方法も加点方式や減点方式など任意の手法を採用することができる。
[評価手法]
前記実施例では、対話の継続性、対話リピート性、対話制御性のそれぞれを用いて、評価値を算出したが、これに限定されるものではなく、任意の組み合わせを採用することができる。例えば、いずれか1つだけを用いてもよく、いずれか2つだけを用いてもよい。
[記号化、要素、ユーザモデル]
上記実施例では、ユーザ発話を単語に分類して「U1_天気」などのように記号化する例を説明したが、記号化の手法等は一例であり、任意に変更することができる。例えば、記号化された情報とユーザモデルDB16に記憶されるモデルとの間で共通のルールや仕様を決めておくことこともでき、任意の手法を採用することができる。
また、記号化された情報を組み合わせた要素の生成手法についても、任意に変更することができる。例えば、ユーザ発話の単語とシステム発話の単語との組み合わせだけを要素として抽出することもできる。また、単語を記号化する場合も、意味のある単語を登録した単語帳を予め保持し、単語帳に記載される単語だけに絞りこんで記号化することもできる。また、学習する時の過去2件の発話履歴を採用する例を説明したが、過去4件などのように任意に変更することができる。
[システム]
また、図2に示した各装置の各構成は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、任意の単位で分散または統合して構成することができる。例えば、学習部25と発話選択部35を統合することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)および当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともできる。あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[ハードウェア]
上記スマートフォン10は、例えば、次のようなハードウェア構成を有するコンピュータにより実現することができる。図17は、ハードウェア構成例を説明する図である。図17に示すように、スマートフォン10は、マイク10a、スピーカ10b、HDD(Hard Disk Drive)10c、メモリ10d、プロセッサ10eを有する。なお、これ以外にも、ネットワークインタフェースカードや無線インタフェースなどを有していてもよい。
マイク10aは、ユーザの発話などを集音する集音器の一例である。スピーカ10bは、発話などを出力する出力器の一例である。HDD10cは、プログラムやデータなどを記憶する記憶装置の一例である。
メモリ10dの一例としては、SDRAM(Synchronous Dynamic Random Access Memory)等のRAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等が挙げられる。プロセッサ10eの一例としては、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、PLD(Programmable Logic Device)等が挙げられる。
また、スマートフォン10は、プログラムを読み出して実行することで対話処理方法を実行する情報処理装置として動作する。つまり、スマートフォン10は、発話記録部21、学習部25、候補取得部30、発話選択部35と同様の機能を実行するプログラムを実行する。この結果、スマートフォン10は、発話記録部21、学習部25、候補取得部30、発話選択部35と同様の機能を実行するプロセスを実行することができる。なお、この他の実施例でいうプログラムは、スマートフォン10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO(Magneto−Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
10 スマートフォン
11 通信部
12 記憶部
13 発話履歴DB
14 終了表現DB
15 制御表現DB
16 ユーザモデルDB
20 制御部
21 発話記録部
25 学習部
26 対話評価部
27 抽出部
28 更新部
30 候補取得部
31 挨拶処理部
32 会話表現処理部
33 定義処理部
34 天気処理部
35 発話選択部

Claims (9)

  1. コンピュータに、
    発話に含まれる単語と、前記発話に対して応答される応答発話に含まれる単語との組み合わせに対応する複数の確信度を記憶し、
    ユーザの発話を示すユーザ発話を検出し、
    前記ユーザ発話に対する前記応答発話を示すユーザ応答発話に対応する複数の応答候補を、複数の異なる対話機能から取得し、
    前記ユーザ発話に含まれる前記単語と、複数の前記応答候補に含まれる前記単語との複数の前記組み合わせを抽出し、
    抽出された複数の前記組み合わせに対応付けられる前記確信度に基づいて、複数の前記応答候補から、前記ユーザ応答発話を選択して出力する
    処理を実行させることを特徴とする対話処理プログラム。
  2. 前記取得する処理は、複数の前記応答候補を、前記ユーザ発話に対して挨拶に関する前記ユーザ応答発話を応答する第1の対話機能、前記ユーザ発話に対して成り立つと想定される会話に関する前記ユーザ応答発話を応答する第2の対話機能、前記ユーザ発話に対して定義に関する前記ユーザ応答発話を応答する第3の対話機能、前記ユーザ発話に対して前記ユーザの現在地の天気予報に関する前記ユーザ応答発話を応答する第4の対話機能から取得することを特徴とする請求項1に記載の対話処理プログラム。
  3. 前記出力する処理は、複数の前記組み合わせに対応付けられる前記確信度を用いて、複数の前記応答候補を評価し、評価結果に基づいて、複数の前記応答候補から前記ユーザ応答発話を選択して出力することを特徴とする請求項1に記載の対話処理プログラム。
  4. 前記出力する処理は、複数の前記応答候補について、前記ユーザ発話との間で抽出される複数の前記組み合わせに対応する前記確信度を合計した合計値を算出し、算出された前記合計値が最も高い前記応答候補を、前記ユーザ応答発話に選択して出力することを特徴とする請求項2に記載の対話処理プログラム。
  5. 前記ユーザ発話と前記ユーザ応答発話とを含む対話の履歴を記憶し、
    前記ユーザ発話に、対話の終了を表現する単語が含まれているか否かによって評価値を算出し、
    前記対話に含まれる前記ユーザ発話と前記ユーザ応答発話とから前記組み合わせを抽出し、
    抽出された前記組み合わせと対応付けられる前記確信度を、前記評価値を用いて更新する処理を、前記コンピュータにさらに実行させることを特徴とする請求項1から3のいずれか一つに記載の対話処理プログラム。
  6. 前記ユーザ発話と前記ユーザ応答発話とを含む対話の履歴を記憶し、
    前記ユーザ発話と1つ前の前記ユーザ発話との類似度によって評価値を算出し、
    前記対話に含まれる前記ユーザ発話と前記ユーザ応答発話とから前記組み合わせを抽出し、
    抽出された前記組み合わせと対応付けられる前記確信度を、前記評価値を用いて更新する処理をさらに実行させることを特徴とする請求項1から3のいずれか一つに記載の対話処理プログラム。
  7. 前記ユーザ発話と前記ユーザ応答発話とを含む対話の履歴を記憶し、
    前記ユーザ発話に、対話を強制的に制御する単語が含まれているか否かによって評価値を算出し、
    前記対話に含まれる前記ユーザ発話と前記ユーザ応答発話とから前記組み合わせを抽出し、
    抽出された前記組み合わせと対応付けられる前記確信度を、前記評価値を用いて更新する処理をさらに実行させることを特徴とする請求項1から3のいずれか一つに記載の対話処理プログラム。
  8. コンピュータが、
    発話に含まれる単語と、前記発話に対して応答される応答発話に含まれる単語との組み合わせに対応する複数の確信度を記憶し、
    ユーザの発話を示すユーザ発話を検出し、
    前記ユーザ発話に対する前記応答発話を示すユーザ応答発話に対応する複数の応答候補を、複数の異なる対話機能から取得し、
    前記ユーザ発話に含まれる前記単語と、複数の前記応答候補に含まれる前記単語との複数の前記組み合わせを抽出し、
    抽出された複数の前記組み合わせに対応付けられる前記確信度に基づいて、複数の前記応答候補から、前記ユーザ応答発話を選択して出力する
    処理を実行することを特徴とする対話処理方法。
  9. 発話に含まれる単語と、前記発話に対して応答される応答発話に含まれる単語との組み合わせに対応する複数の確信度を記憶する記憶部と、
    ユーザの発話を示すユーザ発話を検出する検出部と、
    前記ユーザ発話に対する前記応答発話を示すユーザ応答発話に対応する複数の応答候補を、複数の異なる対話機能から取得する取得部と、
    前記ユーザ発話に含まれる前記単語と、複数の前記応答候補に含まれる前記単語との複数の前記組み合わせを抽出する抽出部と、
    抽出された複数の前記組み合わせに対応付けられる前記確信度に基づいて、複数の前記応答候補から、前記ユーザ応答発話を選択して出力する出力部と
    を有することを特徴とする情報処理装置。
JP2016093921A 2016-05-09 2016-05-09 対話処理プログラム、対話処理方法および情報処理装置 Expired - Fee Related JP6651973B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016093921A JP6651973B2 (ja) 2016-05-09 2016-05-09 対話処理プログラム、対話処理方法および情報処理装置
EP17167922.8A EP3244403A1 (en) 2016-05-09 2017-04-25 Dialogue processing program, dialogue processing method, and information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016093921A JP6651973B2 (ja) 2016-05-09 2016-05-09 対話処理プログラム、対話処理方法および情報処理装置

Publications (2)

Publication Number Publication Date
JP2017203808A true JP2017203808A (ja) 2017-11-16
JP6651973B2 JP6651973B2 (ja) 2020-02-19

Family

ID=58632273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016093921A Expired - Fee Related JP6651973B2 (ja) 2016-05-09 2016-05-09 対話処理プログラム、対話処理方法および情報処理装置

Country Status (2)

Country Link
EP (1) EP3244403A1 (ja)
JP (1) JP6651973B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019155716A1 (ja) * 2018-02-08 2019-08-15 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2019215490A (ja) * 2018-06-14 2019-12-19 Zホールディングス株式会社 抽出装置、抽出方法および抽出プログラム
JP2019215786A (ja) * 2018-06-14 2019-12-19 Zホールディングス株式会社 評価装置、評価方法および評価プログラム
JP2019215830A (ja) * 2018-06-14 2019-12-19 Zホールディングス株式会社 評価装置、評価方法および評価プログラム
JP2019215493A (ja) * 2018-06-14 2019-12-19 Zホールディングス株式会社 学習装置、学習方法および学習プログラム
JP2019215808A (ja) * 2018-06-14 2019-12-19 Zホールディングス株式会社 評価装置、評価方法および評価プログラム
JP2019215823A (ja) * 2018-06-14 2019-12-19 Zホールディングス株式会社 抽出装置、評価装置、抽出方法および抽出プログラム
CN111540350A (zh) * 2020-03-31 2020-08-14 北京小米移动软件有限公司 一种智能语音控制设备的控制方法、装置及存储介质
JP2020177373A (ja) * 2019-04-16 2020-10-29 学校法人早稲田大学 情報伝達システムおよびプログラム
WO2021059771A1 (ja) * 2019-09-25 2021-04-01 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2021051172A (ja) * 2019-09-24 2021-04-01 学校法人早稲田大学 対話システムおよびプログラム
JP2021193619A (ja) * 2020-12-24 2021-12-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 対話生成方法、装置、電子機器及び記憶媒体

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6964558B2 (ja) * 2018-06-22 2021-11-10 株式会社日立製作所 音声対話システムとモデル作成装置およびその方法
CN113129887B (zh) * 2019-12-31 2024-07-05 华为技术有限公司 一种语音控制方法及装置
CN115640392B (zh) * 2022-12-06 2023-04-07 杭州心识宇宙科技有限公司 一种对话系统优化的方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044088A (ja) * 2001-07-27 2003-02-14 Sony Corp プログラム、記録媒体、並びに音声対話装置および方法
JP2012221480A (ja) * 2011-04-06 2012-11-12 L Is B Corp メッセージ処理システム
WO2015098306A1 (ja) * 2013-12-27 2015-07-02 シャープ株式会社 応答制御装置、制御プログラム
JP2015138147A (ja) * 2014-01-22 2015-07-30 シャープ株式会社 サーバ、対話装置、対話システム、対話方法および対話プログラム
JP2015155936A (ja) * 2014-02-19 2015-08-27 シャープ株式会社 情報処理装置、音声対話装置、および制御プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374859B2 (en) * 2008-08-20 2013-02-12 Universal Entertainment Corporation Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method
US9772994B2 (en) * 2013-07-25 2017-09-26 Intel Corporation Self-learning statistical natural language processing for automatic production of virtual personal assistants

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044088A (ja) * 2001-07-27 2003-02-14 Sony Corp プログラム、記録媒体、並びに音声対話装置および方法
JP2012221480A (ja) * 2011-04-06 2012-11-12 L Is B Corp メッセージ処理システム
WO2015098306A1 (ja) * 2013-12-27 2015-07-02 シャープ株式会社 応答制御装置、制御プログラム
JP2015138147A (ja) * 2014-01-22 2015-07-30 シャープ株式会社 サーバ、対話装置、対話システム、対話方法および対話プログラム
JP2015155936A (ja) * 2014-02-19 2015-08-27 シャープ株式会社 情報処理装置、音声対話装置、および制御プログラム

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019155716A1 (ja) * 2018-02-08 2019-08-15 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP7057229B2 (ja) 2018-06-14 2022-04-19 ヤフー株式会社 評価装置、評価方法および評価プログラム
JP2019215808A (ja) * 2018-06-14 2019-12-19 Zホールディングス株式会社 評価装置、評価方法および評価プログラム
JP2019215786A (ja) * 2018-06-14 2019-12-19 Zホールディングス株式会社 評価装置、評価方法および評価プログラム
JP7013331B2 (ja) 2018-06-14 2022-01-31 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム
JP7013332B2 (ja) 2018-06-14 2022-01-31 ヤフー株式会社 学習装置、学習方法および学習プログラム
JP2019215823A (ja) * 2018-06-14 2019-12-19 Zホールディングス株式会社 抽出装置、評価装置、抽出方法および抽出プログラム
JP7160571B2 (ja) 2018-06-14 2022-10-25 ヤフー株式会社 評価装置、評価方法および評価プログラム
JP2019215490A (ja) * 2018-06-14 2019-12-19 Zホールディングス株式会社 抽出装置、抽出方法および抽出プログラム
JP7042701B2 (ja) 2018-06-14 2022-03-28 ヤフー株式会社 評価装置、評価方法および評価プログラム
JP2019215493A (ja) * 2018-06-14 2019-12-19 Zホールディングス株式会社 学習装置、学習方法および学習プログラム
JP2019215830A (ja) * 2018-06-14 2019-12-19 Zホールディングス株式会社 評価装置、評価方法および評価プログラム
JP7244910B2 (ja) 2019-04-16 2023-03-23 学校法人早稲田大学 情報伝達システムおよびプログラム
JP2020177373A (ja) * 2019-04-16 2020-10-29 学校法人早稲田大学 情報伝達システムおよびプログラム
JP2021051172A (ja) * 2019-09-24 2021-04-01 学校法人早稲田大学 対話システムおよびプログラム
JP7274210B2 (ja) 2019-09-24 2023-05-16 学校法人早稲田大学 対話システムおよびプログラム
WO2021059771A1 (ja) * 2019-09-25 2021-04-01 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
CN111540350A (zh) * 2020-03-31 2020-08-14 北京小米移动软件有限公司 一种智能语音控制设备的控制方法、装置及存储介质
CN111540350B (zh) * 2020-03-31 2024-03-01 北京小米移动软件有限公司 一种智能语音控制设备的控制方法、装置及存储介质
JP2021193619A (ja) * 2020-12-24 2021-12-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 対話生成方法、装置、電子機器及び記憶媒体
JP7264963B2 (ja) 2020-12-24 2023-04-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 対話生成方法、装置、電子機器及び記憶媒体
US11954449B2 (en) 2020-12-24 2024-04-09 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for generating conversation reply information using a set of historical conversations, electronic device, and storage medium

Also Published As

Publication number Publication date
JP6651973B2 (ja) 2020-02-19
EP3244403A1 (en) 2017-11-15

Similar Documents

Publication Publication Date Title
JP6651973B2 (ja) 対話処理プログラム、対話処理方法および情報処理装置
KR102100389B1 (ko) 개인화된 엔티티 발음 학습
US20210312930A1 (en) Computer system, speech recognition method, and program
JP6084654B2 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
CN111344717B (zh) 交互行为预测方法、智能装置和计算机可读存储介质
CN113314119B (zh) 语音识别智能家居控制方法及装置
JP6980411B2 (ja) 情報処理装置、対話処理方法、及び対話処理プログラム
US11895269B2 (en) Determination and visual display of spoken menus for calls
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
WO2018043137A1 (ja) 情報処理装置及び情報処理方法
US11425072B2 (en) Inline responses to video or voice messages
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
JP6254504B2 (ja) 検索サーバ、及び検索方法
KR20190074508A (ko) 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법
KR102536944B1 (ko) 음성 신호 처리 방법 및 장치
US20200050519A1 (en) Restoring automated assistant sessions
EP2913822B1 (en) Speaker recognition
CN118284930A (zh) 用于装置特征分析以改善用户体验的方法和系统
US11990136B2 (en) Speech recognition device, search device, speech recognition method, search method, and program
CN113763921B (zh) 用于纠正文本的方法和装置
JP2015036826A (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP2019035897A (ja) 決定装置、決定方法、及び決定プログラム
WO2023036283A1 (zh) 一种在线课堂交互的方法及在线课堂系统
KR20210094727A (ko) 전자 장치 및 이의 제어 방법
WO2023027833A1 (en) Determination and visual display of spoken menus for calls

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200106

R150 Certificate of patent or registration of utility model

Ref document number: 6651973

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees