JP7020390B2

JP7020390B2 - 制御装置、音声対話装置、音声認識サーバ及びプログラム

Info

Publication number: JP7020390B2
Application number: JP2018238287A
Authority: JP
Inventors: 生聖渡部
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2022-02-16
Anticipated expiration: 2038-12-20
Also published as: JP2020101610A; CN111354351B; US11587554B2; CN111354351A; US20200202842A1

Description

本発明は、制御装置、音声対話装置、音声認識サーバ及びプログラムに関する。

対話する相手である対象者（ユーザ）の発話を解析して意味内容を把握し、発話のタイプに応じた応答を生成して音声またはテキストにより対象者に提示する音声対話システムが知られている。特許文献１や特許文献２には、このような音声対話システムにおいて、対話処理を、音声認識の精度が高いサーバ側と、応答が速いローカル（端末装置）側と、で分割処理する技術が開示されている。

特開２０１８－１０９６６３号公報特開２０１８－０４５１９０号公報

特許文献１や特許文献２に開示された技術において、応答の精度を重視する場合、サーバ側で音声認識及び応答生成をする必要があるが、この場合、端末装置とサーバとの間の通信速度の制約により応答するまでに比較的長い時間がかかるという問題がある。特許文献２では、対象者が発話してからサーバで生成した応答を返すまでに要する期間（遅延期間）中に、適当な相づちや対象者の発話と同一内容の繰り返しといった簡易な応答を行って時間稼ぎを行う。しかしながら、遅延期間のたびにこのような時間稼ぎの応答を行うようにするのは、対話が不自然なものとなり、遅延期間中の対象者のストレスが十分に解消されない恐れがある。

本発明は、以上の背景に鑑みなされたものであり、応答までに要する時間を短縮し、かつ、対話の不自然さを軽減することが可能になる、音声対話装置の制御装置、音声対話装置、音声認識サーバ及びプログラムを提供することを目的とする。

本発明の一実施態様に係る制御装置は、複数の音声認識モデルを有する音声対話装置を制御する演算部を備え、前記演算部は、対象者との対話開始時に、前記音声対話装置に対し、まず、前記複数の音声認識モデルの中から暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行うよう指示し、音声認識サーバにおける前記対象者の発話についての音声認識の結果に基づいて前記音声対話装置で保有する複数の音声認識モデルのうち最適と推定される音声認識モデルを決定し、当該最適と推定される音声認識モデルと前記暫定的に選択した１つの音声認識モデルとが相違する場合には、前記音声対話装置に対し、前記最適と推定される音声認識モデルに切替えして音声認識及び応答生成を行うよう指示するものである。

制御装置の演算部は、対象者との対話開始時に、音声対話装置に対し、まず、音声対話装置の有する複数の音声認識モデルの中から暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行うよう指示する。このようにすることで音声対話装置の応答までに要する時間を短縮することができる。そして、演算部は、音声認識サーバにおける対象者の発話についての音声認識の結果に基づいて音声対話装置で保有する複数の音声認識モデルのうち最適と推定される音声認識モデルを決定する。暫定的に選択した１つの音声認識モデルを、音声認識精度の高い音声認識サーバの音声認識結果に基づいて決定した最適と推定される音声認識モデルに切替えることで、応答の不自然さを軽減することが可能になる。

また、前記暫定的に選択した１つの音声認識モデルは、前記音声対話装置が有する複数の音声認識モデルのうち、過去の会話情報に基づいて最も使用頻度が高いと判定された音声認識モデルであることが好ましい。このようにすることで、暫定的に選択した１つの音声認識モデルによる応答が、対象者に違和感を与える程度を軽減させることができる。

さらに、前記演算部は、前記音声対話装置に対し、前記最適と推定される音声認識モデルへの切替えにおいて、前記暫定的に選択した１つの音声認識モデルとの類似の程度が高い音声認識モデルから段階的に前記最適と推定される音声認識モデルへと切替えするようにするのが好ましい。このようにすることで、いきなり最適と推定される音声認識モデルに切替えするよりも、対話において対象者に与える違和感を軽減することができる。

さらに、前記演算部は、前記最適と推定される音声認識モデルの決定において、前記対象者に関する音声以外の情報を考慮することが好ましい。最適と推定される音声認識モデルの決定にあたって、これらの情報を考慮することで、決定した音声認識モデルが最適である確立を高めることができる。

本発明の一実施態様に係る音声対話装置は、複数の音声認識モデルと制御部とを有し、前記制御部において、対象者との対話開始時に、まず、前記複数の音声認識モデルの中から暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行い、音声認識サーバにおける前記対象者の発話に対する音声認識の結果に基づいて前記複数の音声認識モデルのうち最適と推定される音声認識モデルを決定し、当該最適と推定される音声認識モデルと前記暫定的に選択した１つの音声認識モデルとが相違する場合には、前記最適と推定される音声認識モデルに切替えして音声認識及び応答生成を行うものである。これにより、応答までに要する時間を短縮し、かつ、対話の不自然さを軽減することが可能になる。

本発明の一実施態様に係る音声認識サーバは、制御部を有し、前記制御部において、対象者との対話開始時に、複数の音声認識モデルを有する音声対話装置に対し、まず、前記複数の音声認識モデルの中から暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行うよう指示し、前記対象者の発話に対して音声認識した結果に基づいて前記音声対話装置で保有する複数の音声認識モデルのうち最適と推定される音声認識モデルを決定し、当該最適と推定される音声認識モデルと前記暫定的に選択した１つの音声認識モデルとが相違する場合には、前記音声対話装置に対し、前記最適と推定される音声認識モデルに切替えして音声認識及び応答生成を行うよう指示するものである。これにより、応答までに要する時間を短縮し、かつ、対話の不自然さを軽減することが可能になる。

本発明の一実施態様に係るプログラムは、複数の音声認識モデルを有する音声対話装置を制御するための処理手順をコンピュータに実行させるプログラムであって、前記音声対話装置に対し、対象者との対話開始時に、前記音声対話装置に対し、まず、前記複数の音声認識モデルの中から暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行うよう指示する処理手順と、音声認識サーバにおける前記対象者の発話に対する音声認識の結果に基づいて前記音声対話装置で保有する複数の音声認識モデルのうち最適と推定される音声認識モデルを決定する処理手順と、当該最適と推定される音声認識モデルと前記暫定的に選択した１つの音声認識モデルとが相違する場合には、前記音声対話装置に対し、前記最適と推定される音声認識モデルに切替えして音声認識及び応答生成を行うよう指示する処理手順と、を有するものである。これにより、応答までに要する時間を短縮し、かつ、対話の不自然さを軽減することが可能になる。

本発明によれば、応答までに要する時間を短縮し、かつ、対話の不自然さを軽減することが可能になる。

実施の形態１に係る制御装置を含む音声対話システムの構成について説明するブロック図である。実施の形態１に係る制御装置が内部に組み込まれた音声対話ロボットの外観の一例を示す模式図である。音声対話システムに含まれる音声対話装置の記憶部に格納されたデータベースの一例について示す模式図である。音声対話システムに含まれる音声認識サーバの記憶部に格納されたデータベースの一例について示す模式図である。実施の形態１に係る制御装置の処理の流れを示すフローチャートである。実施の形態２に係る音声対話装置を含む音声対話システムの構成について説明するブロック図である。実施の形態３に係る音声認識サーバを含む音声対話システムの構成について説明するブロック図である。

以下、発明の実施の形態を通じて本発明を説明するが、特許請求の範囲に係る発明を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

[実施の形態１]
まず、実施の形態１に係る制御装置を含む音声対話システムの構成について説明する。
図１は、実施の形態１に係る制御装置３０を含む音声対話システム１の構成について説明するブロック図である。図１に示すように、音声対話システム１は、音声対話ロボット１０と、音声認識サーバ４０と、を有する。

音声対話ロボット１０には、音声対話装置２０及び制御装置３０が組み込まれている。また、音声対話ロボット１０は、マイク１１と、スピーカ１２と、通信部１３と、を有している。

図２は、図１に示した音声対話装置２０及び制御装置３０が内部に組み込まれた音声対話ロボット１０の外観の一例を示す模式図である。図２に示すように、音声対話ロボット１０は、外観として動物を模しており、頭部１０ａと胴体部１０ｂを有する。頭部１０ａのいずれかの位置には、マイク１１が隠されて配置されている。音声対話ロボット１０の口の位置には、スピーカ１２が隠されて配置されている。

マイク１１は、音声対話ロボット１０が対話する相手である対象者の発話音声を音声対話装置２０に入力する入力部としての機能を担う。具体的には、マイク１１は、対象者の発話音声を集音し、集音した音声を音声信号に変換して音声対話装置２０へ引き渡す。

スピーカ１２は、音声対話装置２０が生成した音声を発する出力部としての機能を担う。具体的には、スピーカ１２は、音声対話装置２０が生成した応答の音声信号を受け取り、音声として出力する。

再び図１を参照し、音声対話装置２０は、制御部２１と、記憶部２６と、を有する。

制御部２１は、例えばＣＰＵによって構成され、機能ごとに実行を担う機能実行部としても動作する。制御部２１は、主に、発話解析部２２、応答生成部２３、発話制御部２４及び発話解析要求部２５として動作する。

発話解析部２２は、記憶部２６に格納された音声認識モデルを用いて音声認識及び発話内容の解析を行う。具体的には、発話解析部２２は、記憶部２６に格納された音声認識モデルを用いて、マイク１１から受け取った音声信号について音声認識を行ってテキスト化し、得られたテキストデータについて音声分析（形態素解析、係り受け解析等の自然言語処理）し、発話内容を解析する。記憶部２６は、例えばハードディスクドライブの記憶媒体によって構成されている。

応答生成部２３は、発話解析部２２において音声認識及び発話内容の解析を行った結果を受け取り、記憶部２６に格納された応答生成モデルを用いて対象者の発話に対する応答生成（応答文のテキストを生成）する。発話制御部２４は、応答生成部２３より受け取った応答文のテキストを音声信号に変換してスピーカ１２へ引き渡す。

図３は、音声対話装置２０の記憶部２６に格納されたデータベースの一例について示す模式図である。図３に示すように、記憶部２６には、複数の音声認識モデル（図３に示す例では、音声認識モデル２７ａ、２７ｂ、２７ｃ、２７ｄ、２７ｅ）がデータベースとして格納されている。複数の異なる音声認識モデルは、例えば、性別、年齢、出身地、音声を採取した場所（例えば室内、屋外）などで層別されたものである。

また、記憶部２６には、複数の異なる音声認識モデルにそれぞれ対応する複数の応答生成モデル（図３に示す例では、応答生成モデル２８ａ、２８ｂ、２８ｃ、２８ｄ、２８ｅ）がデータベースとして格納されている。つまり、音声認識モデル２７ａに応答生成モデル２８ａが対応している。同様に、音声認識モデル２７ｂに応答生成モデル２８ｂが、音声認識モデル２７ｃに応答生成モデル２８ｃが、音声認識モデル２７ｄに応答生成モデル２８ｄが、音声認識モデル２７ｅに応答生成モデル２８ｅが、それぞれ対応している。応答生成部２３は、発話解析部２２における音声認識及び発話内容の解析の際に用いた音声認識モデルに対応する応答生成モデルを用いて応答生成を行う。

再び図１を参照し、発話解析要求部２５は、音声認識サーバ４０に対し、対象者の発話についての音声認識及び発話内容の解析を要求する。音声認識サーバ４０に対し、音声認識及び発話内容の解析を要求するためには、音声対話ロボット１０と音声認識サーバ４０との間で通信する必要がある。発話解析要求部２５は、通信部１３を介して、音声認識サーバ４０に対し、対象者の発話についての音声認識及び発話内容の解析を要求する指令及び対象者の発話の音声データを送信する。通信部１３は、後述する音声認識サーバ４０の通信部４３との間で制御信号や音声データの授受を行うための通信インターフェースであり、例えば無線ＬＡＮユニットである。

音声認識サーバ４０は、制御部４１と、記憶部４２と、通信部４３と、を備えている。通信部４３は、上述した音声対話ロボット１０の通信部１３との間で制御信号や音声データの授受を行うための通信インターフェースであり、例えば無線ＬＡＮユニットである。制御部４１は、例えばＣＰＵによって構成され、発話解析部４１ａを有する。通信部４３において、対象者の発話についての音声認識及び発話内容の解析を要求する指令及び対象者の発話の音声データを受信した場合、発話解析部４１ａにおいて、記憶部４２に格納された音声認識モデルを用いて、対象者の発話についての音声認識及び発話内容の解析を行う。音声認識サーバ４０の発話解析部４１ａは、音声対話装置２０の発話解析部２２に対して演算処理能力も高い。

図４は、音声認識サーバ４０の記憶部４２に格納されたデータベースの一例について示す模式図である。図４に示すように、記憶部４２には、複数の音声認識モデル（図４に示す例では、音声認識モデル４２ａ、４２ｂ、４２ｃ、４７ｄ、・・・、４２ｚ）がデータベースとして格納されている。複数の異なる音声認識モデルは、例えば、性別、年齢、出身地、音声を採取した場所（例えば室内、屋外）などで層別されたものである。記憶部４２は、上述した音声対話装置２０の記憶部２６に対して記憶容量が大きく、音声対話装置２０の記憶部２６（図３参照）より多くの音声認識モデルが格納されている。

再び図１を参照し、音声認識サーバ４０の発話解析部４１ａでは、記憶部４２に格納された複数の音声認識モデル（図４参照）のそれぞれを用いて、対象者の発話についての音声認識及び発話内容の解析をそれぞれ行い、音声認識モデルごとに音声認識結果及びその音声認識結果の尤もらしさ（尤度）を出力する。上述したように、音声認識サーバ４０の発話解析部４１ａは、音声対話装置２０の発話解析部２２に対して演算処理能力が高い。このため、音声認識サーバ４０における発話解析部４１ａでは、複数の音声認識モデルを用いて対象者の発話についての音声認識及び発話内容の解析を行うことができる。音声認識サーバ４０で得られた、音声認識モデルごとの音声認識結果及び対応する尤度のデータは、通信部１３を介して制御装置３０に送られる。

制御装置３０は、演算部３１を有する。演算部３１は、対象者との対話開始時に、音声対話装置２０の発話解析部２２に対し、まず、記憶部２６に格納された複数の音声認識モデルの中から暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行うよう指示する。暫定的に選択した１つの音声認識モデルは、音声対話装置が保有する複数の音声認識モデルのうち、過去の会話情報に基づいて最も使用頻度が高いと判定された音声認識モデルとするのが好ましい。このようにすることで、暫定的に選択した１つの音声認識モデルによる応答が、対象者に違和感を与える程度を軽減させることができる。

演算部３１において、音声認識サーバにおける対象者の発話に対する音声認識の結果に基づいて音声対話装置２０で保有する複数の音声認識モデルのうち最適と推定される音声認識モデルを決定する。具体的には、音声対話装置２０が保有する音声認識モデルのうち、音声認識サーバ４０から送られてきた音声認識結果のうちで尤度が最も高いものに用いた音声認識モデルに最も類似しているものを最適と推定される音声認識モデルと決定する。

演算部３１では、最適と推定される音声認識モデルの決定において、対象者に関する音声以外の情報を考慮するようにするのが好ましい。ここで、対象者に関する音声以外の情報とは、例えば、音声対話ロボット１０にカメラが設置されている場合、当該カメラで撮像した対象者を含む画像から認識された対象者の顔や装着物等の情報である。これらの情報から対象者の性別や年齢層などの推定が可能である。よって、最適と推定される音声認識モデルの決定にあたって、これらの情報を考慮することで、決定した音声認識モデルが最適である確立を高めることができる。

制御装置３０の演算部３１は、決定した最適と推定される音声認識モデルと暫定的に選択した１つの音声認識モデルとが相違する場合には、音声対話装置２０の発話解析部２２に対し、当該最適と推定される音声認識モデルに切替えして音声認識及び応答生成を行うよう指示する。演算部３１は、音声対話装置２０に対し、最適と推定される音声認識モデルへの切替えにおいて、暫定的に選択した１つの音声認識モデルとの類似の程度が高い音声認識モデルから段階的に最適と推定される音声認識モデルへと切替えするように指示するのが好ましい。

例えば、図３において、音声認識モデル２７ａが年齢層１０代未満の音声認識モデル、音声認識モデル２７ｂが年齢層１０代の音声認識モデル、音声認識モデル２７ｃが年齢層２０代・３０代の音声認識モデルとする。また、音声認識モデル２７ｄが年齢層４０代・５０代の音声認識モデル、音声認識モデル２７ｅが年齢層６０代以上の音声認識モデルであるとする。暫定的に選択した１つの音声認識モデルが音声認識モデル２７ｂであるとし、音声認識モデル２７ｅが最適と推定される音声認識モデルに決定されたとする。このような場合に、暫定的に選択した１つの音声認識モデルである音声認識モデル２７ｂとの類似の程度が高い（年齢的に近い）順に、音声認識モデル２７ｃ、音声認識モデル２７ｄ、音声認識モデル２７ｅと、段階的に切替えする。このようにすることで、いきなり最適と推定される音声認識モデルに切替えするよりも、対話において対象者に与える違和感を軽減することができる。

次に、制御装置３０が実行する音声対話装置２０を制御するための処理の流れについて説明する。なお、以下の説明では、図１についても適宜参照する。
図５は、制御装置３０の処理の流れを示すフローチャートである。図５に示すように、対象者との対話開始時に、音声対話装置２０に対し、まず、記憶部２６に格納された複数の音声認識モデルの中から暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行うよう指示する（ステップＳ１０１）。続いて、音声認識サーバにおける対象者の発話についての音声認識の結果に基づいて音声対話装置２０で保有する複数の音声認識モデルのうち最適と推定される音声認識モデルを決定する（ステップＳ１０２）。続いて、当該最適と推定される音声認識モデルと暫定的に選択した１つの音声認識モデルとが相違する場合には、音声対話装置２０に対し、最適と推定される音声認識モデルに切替えして音声認識及び応答生成を行うよう指示する（ステップＳ１０３）。

以上より、本実施の形態に係る、音声対話装置２０の制御装置３０は、対象者との対話開始時に、音声対話装置２０に対し、まず、音声対話装置２０の有する複数の音声認識モデルの中から暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行うよう指示する。そして、暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行っている間に音声認識サーバにおいて対象者の発話についての音声認識を行う。このようにすることで応答までに要する時間を短縮することができる。そして、音声認識サーバにおける対象者の発話についての音声認識の結果に基づいて音声対話装置２０で保有する複数の音声認識モデルのうち最適と推定される音声認識モデルを決定する。このようにすることで、対話の不自然さを軽減することが可能になる。

[実施の形態２]
以下、図面を参照して本発明の実施の形態２について説明する。
図６は、実施の形態２に係る音声対話装置１２０を含む音声対話システム１０１の構成について説明するブロック図である。図６に示すように、音声対話システム１０１は、音声対話ロボット１１０と、音声認識サーバ４０と、を有する。

音声対話ロボット１１０の構成は、制御装置を有していない点が、実施の形態１の図１で説明した音声対話システム１における音声対話ロボット１０の構成との相違である。音声対話装置１２０の構成は、制御部１２１において音声認識モデル切替え制御部１２５をさらに有している点が、実施の形態１の図１で説明した音声対話システム１における音声対話装置２０の構成との相違である。制御部１２１は、例えばＣＰＵによって構成される。音声対話システム１０１において、実施の形態１に係る制御装置の役割は、音声対話装置１２０の制御部２１における音声認識モデル切替え制御部１２５が担う。

すなわち、音声認識モデル切替え制御部１２５は、対象者との対話開始時に、まず、複数の音声認識モデルの中から暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行う。そして、音声認識モデル切替え制御部１２５は、音声認識サーバ４０における対象者の発話に対する音声認識の結果に基づいて複数の音声認識モデルのうち最適と推定される音声認識モデルを決定する。さらに、音声認識モデル切替え制御部１２５は、最適と推定される音声認識モデルと暫定的に選択した１つの音声認識モデルとが相違する場合には、最適と推定される音声認識モデルに切替えして音声認識及び応答生成を行うよう、発話解析部２２に指示する。

このように、実施の形態２に係る音声対話装置１２０によれば、応答までに要する時間を短縮し、かつ、対話の不自然さを軽減することが可能になる。

[実施の形態３]
以下、図面を参照して本発明の実施の形態３について説明する。
図７は、実施の形態３に係る音声認識サーバ２４０を含む音声対話システム２０１の構成について説明するブロック図である。図７に示すように、音声対話システム２０１は、音声対話ロボット２１０と、音声認識サーバ２４０と、を有する。

音声対話ロボット２１０の構成は、制御装置を有していない点が、実施の形態１の図１で説明した音声対話システム１における音声対話ロボット１０の構成との相違である。音声認識サーバ２４０の構成は、制御部２４１において音声認識モデル切替え制御部２４１ａをさらに有している点が、実施の形態１の図１で説明した音声対話システム１における音声認識サーバ４０の構成との相違である。制御部２４１は、例えばＣＰＵによって構成される。音声対話システム２０１において、実施の形態１に係る制御装置の役割は、音声認識サーバ２４０の制御部２４１における音声認識モデル切替え制御部２４１ｂが担う。

すなわち、音声認識モデル切替え制御部２４１ｂは、対象者との対話開始時に、まず、音声対話装置２０の発話解析部２２に対し、複数の音声認識モデルの中から暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行うよう指示する。そして、音声認識モデル切替え制御部２４１ｂは、対象者の発話に対して音声認識した結果に基づいて音声対話装置２０で保有する複数の音声認識モデルのうち最適と推定される音声認識モデルを決定する。さらに、最適と推定される音声認識モデルと暫定的に選択した１つの音声認識モデルとが相違する場合には、音声対話装置２０の発話解析部２２に対し、通信部４３及び通信部１３を介して最適と推定される音声認識モデルに切替えして音声認識及び応答生成を行うよう指示する。

このように、実施の形態３に係る音声認識サーバ２４０によれば、応答までに要する時間を短縮し、かつ、対話の不自然さを軽減することが可能になる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

本発明にかかる処理は、コンピュータなどにプログラムを実行させることによって実現できる。より具体的には、制御装置、音声対話装置、音声認識サーバのいずれか一つが備えるコンピュータにおいて、プログラムメモリに格納されたプログラムを主記憶装置にロードし、ＣＰＵの制御によって当該プログラムを実行して実現する。ここで、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１、１０１、２０１音声対話システム
１０、１１０、２１０音声対話ロボット
１０ａ頭部
１０ｂ胴体部
１１マイク
１２スピーカ
１３、４３通信部
２０、１２０音声対話装置
２１、４１、１２１、２４１制御部
２２、４１ａ発話解析部
２３応答生成部
２４発話制御部
２５発話解析要求部
２６、４２記憶部
３０制御装置
３１演算部
４０、２４０音声認識サーバ
１２５、２４１ｂ音声認識モデル切替え制御部

Claims

複数の音声認識モデルを有する音声対話装置を制御する演算部を備え、
前記演算部は、対象者との対話開始時に、前記音声対話装置に対し、まず、前記複数の音声認識モデルの中から暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行うよう指示し、音声認識サーバにおける前記対象者の発話についての音声認識の結果に基づいて前記音声対話装置で保有する複数の音声認識モデルのうち最適と推定される音声認識モデルを決定し、当該最適と推定される音声認識モデルと前記暫定的に選択した１つの音声認識モデルとが相違する場合には、前記音声対話装置に対し、前記最適と推定される音声認識モデルに切替えして音声認識及び応答生成を行うよう指示する、制御装置。
前記暫定的に選択した１つの音声認識モデルは、前記音声対話装置が有する複数の音声認識モデルのうち、過去の会話情報に基づいて最も使用頻度が高いと判定された音声認識モデルである、請求項１に記載の制御装置。
前記演算部は、前記音声対話装置に対し、前記最適と推定される音声認識モデルへの切替えにおいて、前記暫定的に選択した１つの音声認識モデルとの類似の程度が高い音声認識モデルから段階的に前記最適と推定される音声認識モデルへと切替えするようにする、請求項２に記載の制御装置。
前記演算部は、前記最適と推定される音声認識モデルの決定において、前記対象者に関する音声以外の情報を考慮する、請求項１に記載の制御装置。
複数の音声認識モデルと制御部とを有し、
前記制御部において、対象者との対話開始時に、まず、前記複数の音声認識モデルの中から暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行い、音声認識サーバにおける前記対象者の発話に対する音声認識の結果に基づいて前記複数の音声認識モデルのうち最適と推定される音声認識モデルを決定し、当該最適と推定される音声認識モデルと前記暫定的に選択した１つの音声認識モデルとが相違する場合には、前記最適と推定される音声認識モデルに切替えして音声認識及び応答生成を行う、音声対話装置。
制御部を有し、
前記制御部において、対象者との対話開始時に、複数の音声認識モデルを有する音声対話装置に対し、まず、前記複数の音声認識モデルの中から暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行うよう指示し、前記対象者の発話に対して音声認識した結果に基づいて前記音声対話装置で保有する複数の音声認識モデルのうち最適と推定される音声認識モデルを決定し、当該最適と推定される音声認識モデルと前記暫定的に選択した１つの音声認識モデルとが相違する場合には、前記音声対話装置に対し、前記最適と推定される音声認識モデルに切替えして音声認識及び応答生成を行うよう指示する、音声認識サーバ。
複数の音声認識モデルを有する音声対話装置を制御するための処理手順をコンピュータに実行させるプログラムであって、
前記音声対話装置に対し、対象者との対話開始時に、前記音声対話装置に対し、まず、前記複数の音声認識モデルの中から暫定的に選択した１つの音声認識モデルにより音声認識及び応答生成を行うよう指示する処理手順と、
音声認識サーバにおける前記対象者の発話に対する音声認識の結果に基づいて前記音声対話装置で保有する複数の音声認識モデルのうち最適と推定される音声認識モデルを決定する処理手順と、
当該最適と推定される音声認識モデルと前記暫定的に選択した１つの音声認識モデルとが相違する場合には、前記音声対話装置に対し、前記最適と推定される音声認識モデルに切替えして音声認識及び応答生成を行うよう指示する処理手順と、を有するプログラム。