JP6797338B2

JP6797338B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP6797338B2
Application number: JP2020539991A
Authority: JP
Inventors: 文王; 悠介小路; 岡登　洋平; 洋平岡登; 相川　勇之; 勇之相川
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2020-12-09
Anticipated expiration: 2038-08-31
Also published as: WO2020044543A1; CN112585674A; JPWO2020044543A1; DE112018007847T5; US20210183362A1; DE112018007847B4

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

従来、カーナビ（ａｕｔｏｍｏｔｉｖｅｎａｖｉｇａｔｉｏｎｓｙｓｔｅｍ）を音声認識により操作する場合、運転者が明示的に発話スイッチを押下する等の操作を行って、音声認識開始を指示することが主流であった。しかし、このような操作を、音声認識を利用するたびに行うことは煩わしく、明示的に音声認識開始を指示することなく音声認識を利用できるようにすることが望ましい。

特許文献１には、運転者を音声命令入力対象者として、音源方向及び画像を使って運転者による発声の有無を判定する第１の判定手段と、同乗者の発声の有無を判定する第２の判定手段とを設けて、運転者が発声したことを利用して、音声命令認識開始を判断する音声認識装置が記載されている。

特許文献１に記載されている音声認識装置では、運転者による発声直後に同乗者が発声していないことを音声命令認識の開始条件とすることで、車両内に同乗者がいる場合でも、別の人間に話し掛けているのか、音声入力のためにマイクロフォンに向かって声を発しているのか、を区別することが可能となる。

特開２００７−２１９２０７号公報

しかしながら、特許文献１に記載されている音声認識装置では、助手席の同乗者が電話している場合、又は、他の同乗者と話している場合に、運転手がカーナビに話かけても、運転手の音声を認識しないので、運転手の音声命令を実行できない問題があった。

具体的には、以下の、第１の場合及び第２の場合に、特許文献１に記載されている音声認識装置は、運転手の音声命令を実行できない。
第１の場合：助手席の同乗者が後部座席同乗者と会話していて、運転手が命令を発声している。
第２の場合：助手席の同乗者が電話しており、運転手が命令を発声している。

そこで、本発明の１又は複数の態様は、複数のユーザがいる場合でも、あるユーザによる発話が、音声命令を入力するための発話かどうかを判定できるようにすることを目的とする。

本発明の１態様に係る情報処理装置は、１又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得する音声取得部と、前記音声信号から前記音声を認識し、前記認識された音声を文字列に変換して、前記複数の発話を特定するとともに、前記複数の発話の各々に対応する時刻を特定する音声認識部と、前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識する話者認識部と、複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を記憶する発話履歴記憶部と、前記複数の発話の各々の意図を推定する意図推定部と、前記発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の１又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定する判定処理を行う命令判定部と、前記命令判定部が、前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御する命令実行部と、を備えることを特徴とする。

本発明の１態様に係る情報処理方法は、音声取得部が、１又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得し、音声認識部が、前記音声信号から前記音声を認識し、前記音声認識部が、前記認識された音声を文字列に変換して、前記複数の発話を特定し、前記音声認識部が、前記複数の発話の各々に対応する時刻を特定し、話者認識部が、前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識し、意図推定部が、前記複数の発話の各々の意図を推定し、命令判定部が、複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の１又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定し、命令実行部が、前記命令判定部が前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御することを特徴とする。

本発明の１態様に係るプログラムは、コンピュータを、１又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得する音声取得部と、前記音声信号から前記音声を認識し、前記認識された音声を文字列に変換して、前記複数の発話を特定するとともに、前記複数の発話の各々に対応する時刻を特定する音声認識部と、前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識する話者認識部と、複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を記憶する発話履歴記憶部と、前記複数の発話の各々の意図を推定する意図推定部と、前記発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の１又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定する判定処理を行う命令判定部と、前記命令判定部が、前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御する命令実行部として機能させることを特徴とする。

本発明の１又は複数の態様によれば、複数のユーザがいる場合でも、あるユーザによる発話が、音声命令を入力するための発話かどうかを判定することができる。

実施の形態１に係る意図理解装置の構成を概略的に示すブロック図である。実施の形態１における命令判定部の構成を概略的に示すブロック図である。実施の形態１における文脈適合率推定部の構成を概略的に示すブロック図である。実施の形態１における対話モデル学習部の構成を概略的に示すブロック図である。意図理解装置のハードウェア構成の第１例を概略的に示すブロック図である。意図理解装置のハードウェア構成の第２例を概略的に示すブロック図である。実施の形態１における意図理解装置による意図推定処理での動作を示すフローチャートである。発話履歴情報の一例を示す概略図である。実施の形態１におけるカーナビ向け命令判定処理の動作を示すフローチャートである。文脈適合率推定処理の動作を示すフローチャートである。文脈適合率の第１の計算例を示す概略図である。文脈適合率の第２の計算例を示す概略図である。対話モデルを学習する処理の動作を示すフローチャートである。対話の特定例を示す概略図である。学習データの生成例を示す概略図である。実施の形態２に係る意図理解装置の構成を概略的に示すブロック図である。実施の形態２における命令判定部の構成を概略的に示すブロック図である。第１のパターンであると識別される発話群例を示す概略図である。第２のパターンであると識別される発話群例を示す概略図である。第３のパターンであると識別される発話群例を示す概略図である。第４のパターンであると識別される発話群例を示す概略図である。実施の形態２における文脈適合率推定部の構成を概略的に示すブロック図である。実施の形態２における対話モデル学習部の構成を概略的に示すブロック図である。実施の形態２に係る意図理解装置による意図推定処理での動作を示すフローチャートである。実施の形態２におけるカーナビ向け命令判定処理の動作を示すフローチャートである。

以下の実施の形態では、情報処理装置としての意図理解装置をカーナビに適用した例を説明する。

実施の形態１．
図１は、実施の形態１に係る意図理解装置１００の構成を概略的に示すブロック図である。
意図理解装置１００は、取得部１１０と、処理部１２０と、命令実行部１５０とを備える。

取得部１１０は、音声及び映像を取得するインタフェースである。
取得部１１０は、音声取得部１１１と、映像取得部１１２とを備える。
音声取得部１１１は、１又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得する。例えば、音声取得部１１１は、図示されていないマイク等の音声入力装置から音声信号を取得する。

映像取得部１１２は、１又は複数のユーザがいる空間の映像を示す映像信号を取得する。例えば、映像取得部１１２は、図示されていないカメラ等の映像入力装置から、撮像された映像を示す映像信号を取得する。ここでは、映像取得部１１２は、意図理解装置１００が搭載されている車両（図示せず）の車内の映像である車内映像を示す映像信号を取得する。

処理部１２０は、取得部１１０からの音声信号及び映像信号を用いて、ユーザからの発話が、対象であるカーナビを制御するための音声命令であるか否かを判定する。
処理部１２０は、音声認識部１２１と、話者認識部１２２と、意図推定部１２３と、発話履歴登録部１２４と、発話履歴記憶部１２５と、乗車人数判定部１２６と、命令判定部１３０とを備える。

音声認識部１２１は、音声取得部１１１で取得された音声信号で示される音声を認識し、認識された音声を文字列に変換して、ユーザからの発話を特定する。そして、音声認識部１２１は、特定された発話を示す発話情報を生成する。
また、音声認識部１２１は、特定された発話に対応する時刻、例えば、その発話に対応する音声を認識した時刻を特定する。そして、音声認識部１２１は、特定された時刻を示す時刻情報を生成する。

なお、音声認識部１２１における音声認識は、公知の技術を利用するものとする。例えば、鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄編著、「ＩＴＴｅｘｔ音声認識システム」、株式会社オーム社、２００１年、３章（４３ページ〜５０ページ）に記載された技術を利用することで音声認識の処理は実現可能である。
具体的には、音素毎に学習された時系列の統計モデルである隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：ＨＭＭ）を用いて、観測された音声特徴量の系列を最も高い確率で出力することで、音声を認識すればよい。

話者認識部１２２は、音声取得部１１１で取得された音声信号で示される音声から、発話を発したユーザを話者として認識する。そして、話者認識部１２２は、認識された話者を示す話者情報を生成する。
なお、話者認識部１２２における話者認識処理は、公知の技術を利用するものとする。例えば、古井貞熙著、「音声情報処理」、森北出版株式会社、１９９８年、６章（１３３ページ〜１４６ページ）に記載された技術を利用することで話者認識の処理は実現可能である。
具体的には、予め複数の話者の音声の標準パターンを登録しておいて、登録された標準パターンの内、最も類似度（尤度）の高い話者を選択すればよい。

意図推定部１２３は、音声認識部１２１で生成された発話情報で示される発話から、ユーザの意図を推定する。
ここで、意図推定の手法は、テキスト分類に関する公知の技術を利用するものとする。例えば、Ｐａｎｇ-ｎｉｎｇＴａｎ、ＭｉｃｈａｅｌＳｔｅｉｎｂａｃｈ、ＶｉｐｉｎＫｕｍａｒ著、「ＩｎｔｒｏｄｕｃｔｉｏｎＴｏＤａｔａＭｉｎｉｎｇ」、ＰｅｒｓｏｎＥｄｕｃａｔｉｏｎ，Ｉｎｃ、２００６年、５章（２５６ページ〜２７６ページ）に記載されたテキスト分類技術を利用することで、意図推定処理は実現可能である。
具体的には、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を利用して、学習データから複数のクラス（意図）を分類する線を得て、音声認識部１２１で生成された発話情報で示される発話を、いずれかのクラス（意図）へ分類すればよい。

発話履歴登録部１２４は、音声認識部１２１で生成された発話情報で示される発話、その発話情報に対応する時刻情報で示される時刻、及び、その発話情報に対応する話者情報で示される話者を１つの項目として、発話履歴記憶部１２５に記憶されている発話履歴情報に登録する。

発話履歴記憶部１２５は、複数の項目を含む発話履歴情報を記憶する。複数の項目の各々は、発話と、その発話に対応する時刻と、その発話に対応する話者とを示す。

乗車人数判定部１２６は、映像取得部１１２からの映像信号で示される車内映像を用いて、乗車人数を判定する人数判定部である。
なお、乗車人数判定部１２６における人数判定は、顔認識に関する公知の技術を利用するものとする。例えば、酒井幸市著、「画像処理とパターン認識入門」、森北出版株式会社、２００６年、７章（１１９ページ〜１２２ページ）に記載された顔認識技術を利用することで乗車人数判定の処理は実現可能である。
具体的には、顔画像のパターンマッチングにより、乗車している人の顔を認識することで、乗車人数を判定することができる。

命令判定部１３０は、音声認識部１２１で生成された発話情報と、話者認識部１２２で生成された話者情報と、発話履歴記憶部１１０に記憶されている発話履歴情報における直前の項目とを利用して、現在入力されたユーザの発話が、カーナビ向け音声命令かどうかを判定する。

具体的には、命令判定部１３０は、発話履歴情報を参照して、複数の発話の内の最後の発話、言い換えると、発話情報で示される発話と、複数の発話の内の、最後の発話の直前の１又は複数の発話とが対話であるか否かを判定する。そして、命令判定部１３０は、対話ではないと判定した場合に、最後の発話を、対象を制御するための音声命令であると判定する。

図２は、命令判定部１３０の構成を概略的に示すブロック図である。
命令判定部１３０は、発話履歴抽出部１３１と、文脈適合率推定部１３２と、一般対話モデル記憶部１３５と、判定実行部１３６と、判定ルール記憶部１３７と、対話モデル学習部１４０とを備える。

発話履歴抽出部１３１は、発話履歴記憶部１２５に記憶されている発話履歴情報から、最後の発話の直前の１又は複数の項目を抽出する。

文脈適合率推定部１３２は、一般対話モデル記憶部１３５に記憶されている一般対話モデル情報を利用して、最後の発話である現在のユーザの発話と、発話履歴記憶部１２５から抽出された項目に含まれている発話との文脈適合率を推定する。文脈適合率は、それらの発話の文脈としての適合性の度合いを示す。このため、文脈適合率が高い場合には、対話が行われていると判定することができ、文脈適合率が低い場合には、対話が行われていないと判定することができる。

図３は、文脈適合率推定部１３２の構成を概略的に示すブロック図である。
文脈適合率推定部１３２は、文脈適合率計算部１３３と、文脈適合率出力部１３４とを備える。
文脈適合率計算部１３３は、一般対話モデル記憶部１３５に記憶されている一般対話モデル情報を参照して、音声取得部１１１に入力された発話と、発話履歴抽出部１３１に記憶されている発話履歴情報の直前の項目に含まれている発話との文脈適合率を計算する。
なお、文脈適合率計算部１３３における文脈適合率の計算は、ＩｌｙａＳｕｔｓｋｅｖｅｒ、ＯｒｉｏｌＶｉｎｙａｌｓ、ＱｕｏｃＶ．ｌｅ著、「ＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅＬｅａｒｎｉｎｇｗｉｔｈＮｅｕｒａｌＢｅｔｗｏｒｋｓ」（Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ）、２０１４年に記載されているＥｎｃｏｄｅｒＤｅｃｏｄｅｒＭｏｄｅｌ技術で実現できる。

具体的には、発話履歴情報からの直前の項目に含まれている発話を入力文Ｘとし、音声取得部１１１に入力された発話を出力文Ｙとして、入力文Ｘが出力文Ｙになる確率Ｐ（Ｙ｜Ｘ）を、学習された一般対話モデル情報を用いて、ＬＳＴＭ−ＬＭ（Ｌｏｎｇｓｈｏｒｔ −ＴｅｒｍＭｅｍｏｒｙ−ＬａｎｇｕａｇｅＭｏｄｅｌ）の公式に従って計算することで、その確率Ｐを文脈適合率とすればよい。
言い換えると、文脈適合率計算部１３３は、直前の発話から、現在のユーザの発話に至る確率を文脈適合率として計算する。

文脈適合率出力部１３４は、文脈適合率計算部１３３により算出された確率Ｐを、文脈適合率として、判定実行部１３６に与える。

図２に戻り、一般対話モデル記憶部１３５は、複数のユーザが行う一般の対話で学習された対話モデルである一般対話モデルを示す一般対話モデル情報を記憶する。
判定実行部１３６は、判定ルール記憶部１３７に記憶されている判定ルールに従って、現在のユーザの発話がカーナビ向けの命令かどうかを判定する。
判定ルール記憶部１３７は、現在のユーザの発話がカーナビ向けの命令かどうかを判定するための判定ルールを記憶するデータベースである。

対話モデル学習部１４０は、一般の対話から対話モデルを学習する。
図４は、対話モデル学習部１４０の構成を概略的に示すブロック図である。
対話モデル学習部１４０は、一般対話記憶部１４１と、学習データ生成部１４２と、モデル学習部１４３とを備える。

一般対話記憶部１４１は、複数のユーザが一般的に行う対話を示す一般対話情報を記憶する。
学習データ生成部１４２は、一般対話記憶部１４１に記憶されている一般対話情報から、最後の発話と、直前の発話とを分離し、学習データのフォーマットに変更する。

モデル学習部１４３は、学習データ生成部１４２によって生成された学習データを利用して、ＥｎｃｏｄｅｒＤｅｃｏｄｅｒＭｏｄｅｌを学習し、学習されたモデルを一般対話モデルとして示す一般対話モデル情報を、一般対話モデル記憶部１３５に記憶させる。なお、モデル学習部１４３での処理については、上述の「ＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅＬｅａｒｎｉｎｇｗｉｔｈＮｅｕｒａｌＢｅｔｗｏｒｋｓ」に記載されている手法が用いられればよい。

図１に戻り、命令実行部１５０は、音声命令に対する動作を実行する。具体的には、命令実行部１５０は、命令判定部１３０が、最後の発話を音声命令であると判定した場合に、その最後の発話から推定された意図に従って、対象を制御する。

図５は、意図理解装置１００のハードウェア構成の第１例を概略的に示すブロック図である。
意図理解装置１００は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のプロセッサ１６０と、メモリ１６１と、マイク、キーボード及びカメラ等のセンサインタフェース（センサＩ／Ｆ）１６２と、記憶装置としてのハードディスク１６３と、図示してはいないスピーカ（音声出力装置）又はディスプレイ（表示装置）に映像、音声又は指示を出力するための出力インタフェース（出力Ｉ／Ｆ）１６４とを備えている。

具体的には、取得部１１０は、プロセッサ１６０がセンサＩ／Ｆ１６２を利用することにより実現することができる。処理部１２０は、ハードディスク１６３に記憶されているプログラム及びデータを、プロセッサ１６０がメモリ１６１に読み出して実行及び利用することにより実現することができる。命令実行部１５０は、ハードディスク１６３に記憶されているプログラム及びデータを、プロセッサ１６０がメモリ１６１に読み出して実行及び利用するとともに、必要に応じて出力Ｉ／Ｆ１６４から他の機器に映像、音声又は指示を出力することにより実現することができる。

このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。

図６は、意図理解装置１００のハードウェア構成の第２例を概略的に示すブロック図である。
図５に示されているプロセッサ１６０及びメモリ１６１の代わりに、図６に示されているように、処理回路１６５が備えられていてもよい。
処理回路１６５は、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ）又はＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等により構成することができる。

図７は、意図理解装置１００による意図推定処理での動作を示すフローチャートである。
まず、音声取得部１１１は、図示しないマイクから、ユーザが発話した音声を示す音声信号を取得する（Ｓ１０）。音声取得部１１１は、音声信号を処理部１２０に渡す。

次に、話者認識部１２２は、音声信号から、話者認識処理を行う（Ｓ１１）。話者認識部１２２は、認識した話者を示す話者情報を発話履歴登録部１２４及び命令判定部１３０に渡す。

次に、音声認識部１２１は、音声信号で示される音声を認識し、認識した音声を文字列に変換することで、変換された文字列からなる発話を示す発話情報と、そのような音声認識を行った時刻を示す時刻情報とを生成する（Ｓ１２）。音声認識部１２１は、その発話情報及び時刻情報を、意図推定部１２３、発話履歴登録部１２４及び命令判定部１３０に渡す。なお、音声認識部１２１で最後に生成された発話情報で示される発話を、現在のユーザの発話とする。

次に、発話履歴登録部１２４は、発話情報で示される発話と、その発話情報に対応する時刻情報で示される時刻と、その発話情報に対応する話者情報で示される話者とを示す項目を、発話履歴記憶部１２５に記憶されている発話履歴情報に登録する（Ｓ１３）。

図８は、発話履歴情報の一例を示す概略図である。
図８に示されている発話履歴情報１７０は、複数の行を備えており、複数の行の各々が、発話情報で示される発話と、その発話情報に対応する時刻情報で示される時刻と、その発話情報に対応する話者情報で示される話者とを示す１つの項目になっている。
例えば、図８に示されている発話履歴情報１７０は、二人の話者が話した内容となっている。

図７に戻り、次に、意図推定部１２３は、音声認識の結果である発話情報から、ユーザの意図を推定する（Ｓ１４）。
意図推定部１２３における意図推定は、テキスト分類問題となる。意図を予め定義しておき、意図推定部１２３は、現在のユーザの発話を、いずれかの意図へ分類する。

例えば、「エアコンをつけて」という現在のユーザの発話は、空調機器を起動することを意味する「ＴＵＲＮ＿ＯＮ＿ＡＩＲ＿ＣＯＮＤＩＴＩＯＮＥＲ」という意図に分類される。
また、「今日は雨だね」という現在のユーザの発話は、意図が不明であることを示す「ＵＮＫＮＯＷＮ」という意図へ分類される。
即ち、意図推定部１２３は、現在のユーザの発話を、予め定められた特定の意図に分類できる場合には、その意図に分類し、予め定められた特定の意図に分類できない場合には、意図が不明であることを示す「ＵＮＫＮＯＷＮ」に分類する。

次に、意図推定部１２３は、意図推定結果が「ＵＮＫＮＯＷＮ」か否かを判定する（Ｓ１５）。意図推定結果がＵＮＫＮＯＷＮではない場合（Ｓ１５でＹｅｓ）には、意図推定結果を命令判定部１３０の命令実行部１５０へ渡し、処理はステップＳ１６に進む。意図推定結果が「ＵＮＫＮＯＷＮ」である場合（Ｓ１５でＮｏ）には、処理は終了する。

ステップＳ１６では、映像取得部１１２は、カメラから車内映像を示す映像信号を取得し、その映像信号を乗車人数判定部１２６に渡す。

次に、乗車人数判定部１２６は、車内映像から乗車人数を判定し、判定された乗車人数を示す乗車人数情報を命令判定部１３０に渡す（Ｓ１７）。

次に、命令判定部１３０は、乗車人数情報で示される乗車人数が１人であるか否かを判定する（Ｓ１８）。乗車人数が１人である場合（Ｓ１８でＹｅｓ）には、処理はステップＳ２１に進み、乗車人数が１人ではない場合、言い換えると、乗車人数が複数である場合（Ｓ１８でＮｏ）には、処理はステップＳ１９に進む。

ステップＳ１９では、命令判定部１３０は、意図推定結果がカーナビ向け命令である音声命令か否かを判定する。ステップＳ１９での処理については、図９を用いて詳細に説明する。
そして、意図推定結果が音声命令である場合（Ｓ２０でＹｅｓ）には、処理はステップＳ２１に進み、意図推定結果が音声命令ではない場合（Ｓ２０でＮｏ）には、処理は終了する。

ステップＳ２１では、命令判定部１３０は、意図推定結果を命令実行部１５０に渡し、
命令実行部１５０は、その意図推定結果に対する動作を実行する。
例えば、意図推定結果が「ＴＵＲＮ＿ＯＮ＿ＡＩＲ＿ＣＯＮＤＩＴＩＯＮＥＲ」である場合、命令実行部１５０は、指示を出力することで、車内の空調機器を起動させる。

図９は、カーナビ向け命令判定処理の動作を示すフローチャートである。
まず、発話履歴抽出部１３１は、発話履歴記憶部１２５に記憶されている発話履歴情報から直前の項目を抽出する（Ｓ３０）。発話履歴抽出部１３１は、例えば、過去１０秒間の項目、又は、過去１０件の項目等、予め定められた基準で項目を抽出することとする。そして、発話履歴抽出部１３１は、現在のユーザの発話を示す発話情報とともに、抽出された項目を文脈適合率推定部１３２に渡す。

次に、文脈適合率推定部１３２は、一般対話モデル記憶部１３５に記憶されている一般対話モデル情報を用いて、現在のユーザの発話と、直前の項目に含まれている発話との文脈適合率を推定する（Ｓ３１）。なお、ここでの処理の詳細は、図１０を用いて詳細に説明する。文脈適合率推定部１３２は、推定結果を判定実行部１３６に渡す。

次に、判定実行部１３６は、判定ルール記憶部１３７に記憶されている判定ルール情報で示される判定ルールに従って、意図推定結果を実行するかどうかを判定する（Ｓ３２）。

例えば、判定ルール１として、「文脈適合率が閾値０．５よりも大きい場合、ナビ向けコマンドではないと判定」する判定ルールが使用される。この判定ルールによれば、文脈適合率が閾値である０．５以下の場合には、判定実行部１３６は、意図推定結果を音声命令であるナビ向けコマンドと判定し、文脈適合率が０．５よりも大きい場合には、判定実行部１３６は、意図推定結果をナビ向けコマンドではないと判定する。

また、判定ルール２として、直前の発話からの経過時間を利用して、文脈適合率に重みを付けた重み付き文脈適合率を算出するルールが使用されてもよい。判定実行部１３６は、この重み付き文脈適合率を用いて、判定ルール１の判定を行うことで、現在のユーザの発話までの経過時間が長いほど文脈適合率を低くすることができる。

なお、判定ルール２については、必ずしも使用しなくてもよい。
判定ルール２を使用しない場合には、判定ルール１により、文脈適合率を閾値と比較することで、判定を行うことができる。
一方、判定ルール２を使用する場合には、算出された文脈適合率を重みにより修正した値を閾値と比較することで、判定を行うことができる。

図１０は、文脈適合率推定処理の動作を示すフローチャートである。
まず、文脈適合率計算部１３３は、一般対話モデル記憶部１３５に記憶されている一般対話モデル情報を用いて、現在のユーザの発話と、直前の項目に含まれている発話との適合性の度合いであるの確率を、文脈適合率として計算する（Ｓ４０）。

例えば、図１１に示されている例１のように、現在のユーザの発話が「気温が下がってほしいな」である場合、直前の発話とのつながりが強いので、文脈適合率は、０．９と計算される。
一方、図１２に示されている例２のように、現在のユーザの発話が「次は右だっけ？」である場合、直前の発話とのつながりが弱いので、文脈適合率は、０．１と計算される。

そして、文脈適合率計算部１３３は、算出した文脈適合率を、判定実行部１３６に渡す（Ｓ４１）。
例えば、図１１の例１に示されているように、文脈適合率が０．９である場合、判定ルール１では、意図推定結果はカーナビ向け命令ではないと判定される。
一方、図１１の例２に示されているように、文脈適合率が０．１である場合、判定ルール１では、意図推定結果はカーナビ向け命令と判定される。

なお、図１１の例１において、現在のユーザの発話までの経過時間が４秒である場合、図１１の例１に、判定ルール２を適用することで、重み付き文脈適合率は、１／４×０．９=０．２２５になる。この場合、判定ルール１により、判定結果はカーナビ向け命令となる。

図１３は、対話モデルを学習する処理の動作を示すフローチャートである。
まず、学習データ生成部１４２は、一般対話記憶部１４１に記憶されている一般対話情報を抽出し、対話毎に、最後の発話と、他の発話とを分離して、学習データを生成する（Ｓ５０）。

例えば、学習データ生成部１４２は、図１４に示されているように、一般対話記憶部１４１に記憶されている一般対話情報から、１つの対話を特定する。
そして、学習データ生成部１４２は、例えば、図１５に示されているように、１つの対話の最後の発話を現在のユーザの発話とし、他の発話を直前の発話として、学習データを生成する。
学習データ生成部１４２は、生成された学習データをモデル学習部１４３に渡す。

図１３に戻り、次に、モデル学習部１４３は、学習データによって、深層学習手法により、ＥｎｃｏｄｅｒＤｅｃｏｄｅｒＭｏｄｅｌを作成する（Ｓ５１）。そして、モデル学習部１４３は、作成されたＥｎｃｏｄｅｒＤｅｃｏｄｅｒＭｏｄｅｌを示す一般モデル情報を一般対話モデル記憶部１３５に記憶させる。

以上の実施の形態では、モデル学習部１４３での処理について、ＥｎｃｏｄｅｒＤｅｃｏｄｅｒＭｏｄｅｌを学習手法として説明したが、他の手法を利用することもできる。例えば、ＳＶＭ等の教師あり機械学習手法を利用することもできる。
しかし、ＳＶＭ等の一般的な教師あり機械学習手法を利用する場合、学習データに文脈に合致しているか合致していないかというラベルを付ける作業が必要であるため、学習データの作成コストが高くなる傾向がある。ＥｎｃｏｄｅｒＤｅｃｏｄｅｒＭｏｄｅｌの場合、学習データにラベルがいらない点で優れている。

実施の形態２．
図１６は、実施の形態２に係る情報処理装置としての意図理解装置２００の構成を概略的に示すブロック図である。
意図理解装置２００は、取得部２１０と、処理部２２０と、命令実行部１５０とを備える。
実施の形態２に係る意図理解装置２００の命令実行部１５０は、実施の形態１に係る意図理解装置１００の命令実行部１５０と同様である。

取得部２１０は、音声、映像及び発着信履歴を取得するインタフェースである。
取得部２１０は、音声取得部１１１と、映像取得部１１２と、発着信情報取得部２１３とを備える。
実施の形態２における取得部２１０の音声取得部１１１及び映像取得部１１２は、実施の形態１における取得部１１０の音声取得部１１１及び映像取得部１１２と同様である。

発着信情報取得部２１３は、ユーザが有する携帯端末から、通話の発着信の履歴を示す発着信情報を取得する。発着信情報取得部２１３は、発着信情報を処理部２２０に渡す。

処理部２２０は、取得部２１０からの音声信号、映像信号及び発着信情報を用いて、ユーザの音声が、対象であるカーナビを制御するための音声命令であるか否かを判定する。
処理部２２０は、音声認識部１２１と、話者認識部１２２と、意図推定部１２３と、発話履歴登録部１２４と、発話履歴記憶部１２５と、乗車人数判定部１２６と、トピック判定部２２７と、命令判定部２３０とを備える。
実施の形態２における処理部２２０の音声認識部１２１、話者認識部１２２、意図推定部１２３、発話履歴登録部１２４、発話履歴記憶部１２５及び乗車人数判定部１２６は、実施の形態１における処理部１２０の音声認識部１２１、話者認識部１２２、意図推定部１２３、発話履歴登録部１２４、発話履歴記憶部１２５及び乗車人数判定部１２６と同様である。

トピック判定部２２７は、音声認識部１２１の音声認識結果である発話情報で示される発話に関するトピックを判定する。
ここでのトピックの判定は、ＳＶＭ等の教師あり機械学習手法を利用することで実現可能である。

そして、トピック判定部２２７は、判定されたトピックが、予め定められたトピックリストに載っている特定のトピックである場合には、現在のユーザの発話をカーナビ向け命令としての音声命令であると判定する。
予め定められたトピックリストに載っている特定のトピックは、例えば、人間同士に向けた発話か、カーナビに向けた発話かの判定が難しい曖昧性のある発話に関するトピックであるものとする。例えば、その特定のトピックとしては、「道案内」又は「エアコン操作」といったトピックがある。

そして、トピック判定部２２７が、例えば、現在のユーザの発話である「あと何分で着くの？」を「道案内」というトピックに判定した場合、判定されたトピック「道案内」は予め定められたトピックリストに載っているので、トピック判定部２２７は、それをカーナビ向けの命令と判定する。

上述のように構成することで、人間同士に向けた発話かカーナビに向けた発話か判定が難しい発話を必ずカーナビに向けた命令と判定することができ、誤って人間同士に向けた発話と判定することを抑制できる。

命令判定部２３０は、音声認識部１２１で生成された発話情報と、話者認識部１２２で生成された話者情報と、発着信情報取得部２１３で取得された発着信情報と、発話履歴記憶部１１０に記憶されている発話履歴情報における直前の項目と、トピック判定部２２７で判定されたトピックとを利用して、現在入力されたユーザの発話が、カーナビ向けの命令である音声命令かどうかを判定する。

図１７は、命令判定部２３０の構成を概略的に示すブロック図である。
命令判定部２３０は、発話履歴抽出部１３１と、文脈適合率推定部２３２と、一般対話モデル記憶部１３５と、判定実行部１３６と、判定ルール記憶部１３７と、発話パターン識別部２３８と、特定対話モデル記憶部２３９と、対話モデル学習部２４０とを備える。
実施の形態２における命令判定部２３０の発話履歴抽出部１３１、一般対話モデル記憶部１３５、判定実行部１３６及び判定ルール記憶部１３７は、実施の形態１における命令判定部１３０の発話履歴抽出部１３１、一般対話モデル記憶部１３５、判定実行部１３６及び判定ルール記憶部１３７と同様である。

発話パターン識別部２３８は、発話履歴記憶部１２５に記憶されている発話履歴情報及び発着信情報取得部２１３から得られる発着信情報を利用して、発話群のパターンを識別する。
例えば、発話パターン識別部２３８は、発話履歴情報から現在の発話群を特定し、特定された発話群を、以下の第１のパターン〜第４のパターンの何れであるかを識別する。

第１のパターンは、ドライバのみが話しているパターンである。例えば、図１８に示されている発話群例は、第１のパターンであると識別される。
第２のパターンは、同乗者とドライバが発話しているパターン。例えば、図１９に示されている発話群例は、第２のパターンであると識別される。
第３のパターンは、同乗者が電話で話している時に、ドライバが話しているパターンである。例えば、図２０に示されている発話群例は、第３のパターンであると識別される。
第４のパターンは、その他のパターンである。例えば、図２１に示されている発話群例は、第４のパターンである。

具体的には、発話パターン識別部２３８は、発話履歴情報から、過去一定時間内の項目を抽出して、取得された項目に含まれている各発話に対応する話者から、ドライバのみが話しているかどうかを判定する。
もし話者がドライバのみである場合には、発話パターン識別部２３８は、現在の発話群を、第１のパターンと識別する。

また、取得された項目に含まれている話者情報から、複数の話者がある場合、発話パターン識別部２３８は、同乗者の携帯端末をＢｌｕｅｔｏｏｔｈ又は無線等を用いて、発着信情報取得部２１３に接続してもらい、発着信情報を取得する。この場合、発話パターン識別部２３８は、命令実行部１５０を介して、音声又は画像等で同乗者に携帯端末を接続するように通知すればよい。

対応する時間に同乗者が通話を行っている場合には、発話パターン識別部２３８は、現在の発話群を第３のパターンと識別する。
一方、対応する時間に同乗者が通話を行っていない場合には、発話パターン識別部２３８は、現在の発話群を第２のパターンと識別する。

そして、現在の発話群が第１のパターン〜第３のパターンの何れでもない場合には、発話パターン識別部２３８は、現在の発話群を第４のパターンと識別する。
なお、発話履歴情報から項目を抽出する一定時間については、実験により、最適値が決められればよい。

さらに、発話パターン識別部２３８は、現在の発話群が第１のパターンであると識別した場合には、現在のユーザの発話をカーナビ向けの音声命令であると判定する。
一方、発話パターン識別部２３８は、現在の発話群が第４のパターンであると識別した場合には、現在のユーザの発話をカーナビ向けの音声命令ではないと判定する。

特定対話モデル記憶部２３９は、現在の発話群が、同乗者が電話で話している時に、ドライバが話している第３のパターンと識別された場合に使用される対話モデルである特定対話モデルを示す特定対話モデル情報を記憶する。
同乗者が電話をしている時、話し相手の声を認識することができないため、一般対話モデル情報を利用すると誤判定するおそれがある。従って、このような場合に、特定対話モデル情報に切り替えることによって、カーナビ向け命令の判定精度を向上させることができる。

文脈適合率推定部２３２は、一般対話モデル記憶部１３５に記憶されている一般対話モデル情報又は特定対話モデル記憶部２３９に記憶されている特定対話モデル情報を利用して、現在のユーザの発話と、発話履歴記憶部１２５から抽出された項目に含まれている発話との文脈適合率を推定する。

図２２は、文脈適合率推定部２３２の構成を概略的に示すブロック図である。
文脈適合率推定部２３２は、文脈適合率計算部２３３と、文脈適合率出力部１３４とを備える。
実施の形態２における文脈適合率推定部２３２の文脈適合率出力部１３４は、実施の形態１における文脈適合率推定部１３２の文脈適合率出力部１３４と同様である。

文脈適合率計算部２３３は、発話パターン識別部２３８が現在の発話群を第２のパターンと識別した場合には、一般対話モデル記憶部１３５に記憶されている一般対話モデル情報を参照して、音声取得部１１１に入力された発話と、発話履歴抽出部１３１に記憶されている発話履歴情報の直前の項目に含まれている発話との文脈適合率を計算する。
また、文脈適合率計算部２３３は、発話パターン識別部２３８が現在の発話群を第３のパターンと識別した場合には、特定対話モデル記憶部２３９に記憶されている特定対話モデル情報を参照して、音声取得部１１１に入力された発話と、発話履歴抽出部１３１に記憶されている発話履歴情報の直前の項目に含まれている発話との文脈適合率を計算する。

図１７に戻り、対話モデル学習部２４０は、一般の対話から一般対話モデルを学習し、特定の対話から特定対話モデルを学習する。
図２３は、対話モデル学習部２４０の構成を概略的に示すブロック図である。
対話モデル学習部２４０は、一般対話記憶部１４１と、学習データ生成部２４２と、モデル学習部２４３と、特定対話記憶部２４４とを備える。
実施の形態２における対話モデル学習部２４０の一般対話記憶部１４１は、実施の形態１における対話モデル学習部１４０の一般対話記憶部１４１と同様である。

特定対話記憶部２４４は、同乗者が電話をしているときに、ドライバが話している場合の対話を示す特定対話情報を記憶する。

学習データ生成部２４２は、一般対話記憶部１４１に記憶されている一般対話情報から、最後の発話と、直前の発話とを分離し、一般対話用の学習データのフォーマットに変更する。
また、学習データ生成部２４２は、特定対話記憶部２４４に記憶されている特定対話情報から、最後の発話と、直前の発話とを分離し、特定対話用の学習データのフォーマットに変更する。

モデル学習部２４３は、学習データ生成部２４２によって生成された一般対話用の学習データを利用して、ＥｎｃｏｄｅｒＤｅｃｏｄｅｒＭｏｄｅｌを学習し、学習されたモデルを一般対話モデルとして示す一般対話モデル情報を、一般対話モデル記憶部１３５に記憶させる。

また、モデル学習部２４３は、学習データ生成部２４２によって生成された特定対話用の学習データを利用して、ＥｎｃｏｄｅｒＤｅｃｏｄｅｒＭｏｄｅｌを学習し、学習されたモデルを特定対話モデルとして示す特定対話モデル情報を、特定対話モデル記憶部２３９に記憶させる。

図２４は、意図理解装置２００による意図推定処理での動作を示すフローチャートである。
なお、図２４に示されているフローチャートに含まれている処理の内、図７に示されている実施の形態１のフローチャートと同様の処理については、図７と同様の符号を付して、詳細な説明を省略する。

図２４に示されているステップＳ１０からＳ１８までの処理は、図７に示されているステップＳ１０からＳ１８までの処理と同様である。但し、ステップＳ１８でＮｏの場合には、処理はステップＳ６０に進む。

ステップＳ６０では、トピック判定部２２７は、現在のユーザの発話に関するトピックを判定する。例えば、現在のユーザの発話が「次は右ですか？」の場合、トピック判定部２２７は、「道案内」というトピックと判定する。また、現在のユーザの発話が「エアコンをつけてください。」の場合、トピック判定部２２７は、「エアコン操作」というトピックと判定する。

次に、トピック判定部２２７は、ステップＳ６０で判定されたトピックが、予め用意されたトピックリストにあるか否かを確認する（Ｓ６１）。トピックがトピックリストに有る場合（Ｓ６１でＹｅｓ）には、処理はステップＳ２１に進み、トピックがトピックリストにない場合（Ｓ６１でＮｏ）には、処理はステップＳ６２に進む。

ステップＳ６２では、命令判定部２３０は、意図推定結果がカーナビ向け命令か否かを判定する。ステップＳ６２での処理については、図２５を用いて詳細に説明する。そして、処理はステップＳ２０に進む。

図２４におけるステップＳ２０及びＳ２１での処理は、図７におけるステップＳ２０及びＳ２１での処理と同様である。

以上のように、実施の形態２では、人間同士に向けた発話か、カーナビに向けた発話か判定が難しい発話を、必ずカーナビに向けた音声命令であると判定とすることができ、誤って人間同士に向けた発話と判定することを抑制することができる。

図２５は、カーナビ向け命令判定処理の動作を示すフローチャートである。
なお、図２５に示されているフローチャートに含まれている処理の内、図９に示されている実施の形態１のフローチャートと同様の処理については、図９と同様の符号を付して、詳細な説明を省略する。

まず、発話履歴抽出部１３１は、発話履歴記憶部１２５に記憶されている発話履歴情報から直前の項目を抽出する（Ｓ７０）。発話履歴抽出部１３１は、例えば、過去１０秒間の項目、又は、過去１０件の項目等、予め定められた基準で項目を抽出することとする。そして、発話履歴抽出部１３１は、現在のユーザの発話を示す発話情報とともに、抽出された項目を発話パターン識別部２３８及び文脈適合率推定部２３２に渡す。

次に、発話パターン識別部２３８は、直前の項目に含まれている発話と、現在のユーザの発話とを合わせて、発話群パターンを識別する（Ｓ７１）。

次に、発話パターン識別部２３８は、識別された発話群パターンが、ドライバのみが話している第１のパターンか否かを判定する（Ｓ７２）。識別された発話群パターンが第１のパターンである場合（Ｓ７２でＹｅｓ）には、処理はステップＳ７３に進み、識別された発話群パターンが第１のパターンではない場合（Ｓ７２でＮｏ）には、処理はステップＳ７４に進む。

ステップＳ７３では、ドライバのみが話している発話群パターンになっているため、発話パターン識別部２３８は、現在のユーザの発話を、カーナビ向けの音声命令と判定する。

ステップＳ７４では、発話パターン識別部２３８は、識別された発話群パターンが、同乗者とドライバが対話している第２のパターンであるか否かを判定する。識別された発話群パターンが第２のパターンである場合（Ｓ７４でＹｅｓ）には、処理はステップＳ３１に進む。識別された発話群パターンが第２のパターンではない場合（Ｓ７４でＮｏ）には、処理はステップＳ７５に進む。

図２５に示されているステップＳ３１及びステップＳ３２の処理については、図９に示されているステップＳ３１及びステップＳ３２の処理と同様である。

ステップＳ７５では、発話パターン識別部２３８は、識別された発話群パターンが、同乗者が電話で話している時に、ドライバが話す第３のパターンであるか否かを判定する。識別された発話群パターンが第３のパターンである場合（Ｓ７５でＹｅｓ）には、処理はステップＳ７６に進む。識別された発話群パターンが第３のパターンではない場合（Ｓ７５でＮｏ）には、処理はステップＳ７７に進む。

ステップＳ７６では、文脈適合率推定部２３２は、特定対話モデル記憶部２３９に記憶されている特定対話モデル情報を用いて、現在のユーザの発話と、直前の項目に含まれている発話との文脈適合率を推定する。なお、ここでの処理は、特定対話モデル記憶部２３９に記憶されている特定対話モデル情報を用いる点を除いて、図１０に示されているフローチャートに従って行われる。そして、文脈適合率推定部２３２は、推定結果を判定実行部１３６に渡し、処理はステップＳ３２に進む。

ステップＳ７７では、発話パターン識別部２３８は、第４の発話群パターンになっているため、現在のユーザの発話をカーナビ向けの音声命令ではないと判定する。

なお、特定対話モデル情報を作成する処理については、特定対話記憶部２４４に記憶されている特定対話情報が使用される点を除いて、図１３に示されているフローチャートに従って行われる。なお、詳細な説明は省略する。

以上のように、実施の形態２では、予め定められた複数のパターンから、最後の発話である現在のユーザの発話を含む発話群のパターンを発話パターン識別部で識別し、識別されたパターンに応じて、現在のユーザの発話が音声命令であるか否かを判定する方法を変えることができる。

また、実施の形態２では、現在のユーザの発話のトピックをトピック判定部２２７で判定する。そして、判定されたトピックが予め定められた特定のトピックである場合に、現在のユーザの発話を音声命令と判定することができる。このため、判定されたトピックが予め定められた特定のトピックではない場合にのみ、命令判定部２３０が、現在のユーザの発話が音声命令であるか否かを判定する判定処理を行うようにすることで、計算コストを削減することができる。

以上に記載された実施の形態１及び２は、カーナビを適用対象として説明したが、適用対象はカーナビと限らない。実施の形態１及び２は、音声で機械を操作する装置であれば、どのような装置にも適用することができる。例えば、実施の形態１及び２は、スマートスピーカー、空調機等に適用することができる。

なお、以上に記載した実施の形態１及び２では、意図理解装置１００、２００内に対話モデル学習部１４０、２４０が備えられているが、対話モデル学習部１４０、２４０の機能は、他の装置（コンピュータ等）で実行され、一般対話モデル情報又は特定対話モデル情報が、図示しないネットワーク又は記録媒体を介して、意図理解装置１００、２００に読み込まれるようにしてもよい。このような場合、図５及び図６のハードウェア構成として、ネットワークに接続するためのＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）等の通信装置、又は、記録媒体から情報を読み込むための入力装置といったインタフェースを追加し、図１又は図１６の取得部１１０、２１０で情報を取得すればよい。

１００，２００意図理解装置、１１０，２１０取得部、１１１音声取得部、１１２映像取得部、２１３発着信情報取得部、１２０，２２０処理部、１２１音声認識部、１２２話者認識部、１２３意図推定部、１２４発話履歴登録部、１２５発話履歴記憶部、１２６乗車人数判定部、２２７トピック判定部、１３０，２３０命令判定部、１３１発話履歴抽出部、１３２，２３２文脈適合率推定部、１３３，２３３文脈適合率計算部、１３４文脈適合率出力部、１３５一般対話モデル記憶部、１３６判定実行部、１３７判定ルール記憶部、２３８発話パターン識別部、２３９特定対話モデル記憶部、１４０，２４０対話モデル学習部、１４１一般対話記憶部、１４２，２４２学習データ生成部、１４３，２４３モデル学習部、２４４特定対話記憶部、１５０命令実行部。

Claims

１又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得する音声取得部と、
前記音声信号から前記音声を認識し、前記認識された音声を文字列に変換して、前記複数の発話を特定するとともに、前記複数の発話の各々に対応する時刻を特定する音声認識部と、
前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識する話者認識部と、
複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を記憶する発話履歴記憶部と、
前記複数の発話の各々の意図を推定する意図推定部と、
前記発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の１又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定する判定処理を行う命令判定部と、
前記命令判定部が、前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御する命令実行部と、を備えること
を特徴とする情報処理装置。
前記命令判定部は、前記最後の発話と、前記１又は複数の発話との間の、文脈としての適合性の度合いを示す文脈適合率を計算し、前記文脈適合率が予め定められた閾値以下である場合に、前記最後の発話と、前記１又は複数の発話とが前記対話ではないと判定すること
を特徴とする請求項１に記載の情報処理装置。
前記命令判定部は、前記最後の発話と、前記１又は複数の発話との間の、文脈としての適合性の度合いを示す文脈適合率を計算し、前記最後の発話と、前記最後の発話の１つ前の発話との間の時間が長くなれば長くなるほど前記文脈適合率を低くする重みを特定し、前記重みにより前記文脈適合率を修正した値が予め定められた閾値以下である場合に、前記１又は複数の発話とが前記対話ではないと判定すること
を特徴とする請求項１に記載の情報処理装置。
前記命令判定部は、複数のユーザが行った対話から学習された対話モデルを参照することで、前記１又は複数の発話から前記最後の発話に至る確率を前記文脈適合率として計算すること
を特徴とする請求項２又は３に記載の情報処理装置。
予め定められた複数のパターンから、前記最後の発話を含む発話群のパターンを識別する発話パターン識別部をさらに備え、
前記識別されたパターンに応じて、前記最後の発話を前記音声命令であるか否かを判定する方法が異なること
を特徴とする請求項１に記載の情報処理装置。
前記１又は複数のユーザがいる空間の映像を示す映像信号を取得する映像取得部と、
前記映像から、前記１又は複数のユーザの数を判定する人数判定部と、をさらに備え、
前記命令判定部は、前記判定された数が２以上である場合に、前記判定処理を行うこと
を特徴とする請求項１から５の何れか一項に記載の情報処理装置。
前記命令実行部は、前記判定された数が１である場合にも、前記最後の発話から推定された前記意図に従って、前記対象を制御すること
を特徴とする請求項６に記載の情報処理装置。
前記最後の発話のトピックを判定し、前記判定されたトピックが予め定められた特定のトピックであるか否かを判定するトピック判定部をさらに備え、
前記命令判定部は、前記判定されたトピックが前記予め定められた特定のトピックではない場合に、前記判定処理を行うこと
を特徴とする請求項１から７の何れか一項に記載の情報処理装置。
前記命令実行部は、前記判定されたトピックが前記予め定められた特定のトピックである場合にも、前記最後の発話から推定された前記意図に従って、前記対象を制御すること
を特徴とする請求項８に記載の情報処理装置。
音声取得部が、１又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得し、
音声認識部が、前記音声信号から前記音声を認識し、
前記音声認識部が、前記認識された音声を文字列に変換して、前記複数の発話を特定し、
前記音声認識部が、前記複数の発話の各々に対応する時刻を特定し、
話者認識部が、前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識し、
意図推定部が、前記複数の発話の各々の意図を推定し、
命令判定部が、複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の１又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定し、
命令実行部が、前記命令判定部が前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御すること
を特徴とする情報処理方法。
コンピュータを、
１又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得する音声取得部と、
前記音声信号から前記音声を認識し、前記認識された音声を文字列に変換して、前記複数の発話を特定するとともに、前記複数の発話の各々に対応する時刻を特定する音声認識部と、
前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識する話者認識部と、
複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を記憶する発話履歴記憶部と、
前記複数の発話の各々の意図を推定する意図推定部と、
前記発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の１又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定する判定処理を行う命令判定部と、
前記命令判定部が、前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御する命令実行部として機能させること
を特徴とするプログラム。