JP2020101603A

JP2020101603A - 制御装置、音声対話装置、音声認識サーバ及びプログラム

Info

Publication number: JP2020101603A
Application number: JP2018238093A
Authority: JP
Inventors: 生聖渡部; Seisho Watabe
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2020-07-02
Anticipated expiration: 2038-12-20
Also published as: CN111354358B; JP7131362B2; CN111354358A; US11081114B2; US20200202865A1

Abstract

【課題】通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる、音声対話装置の制御装置を提供する。【解決手段】制御装置は、取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置を制御する演算部を備え、演算部は、音声認識サーバより、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、音声対話装置に対し、発話区間検出器の識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で音声認識サーバとの通信を行うよう指示する。【選択図】図１

Description

本発明は、制御装置、音声対話装置、音声認識サーバ及びプログラムに関する。

対話する相手である対象者（ユーザ）の発話を解析して意味内容を把握し、発話のタイプに応じた応答を生成して音声またはテキストにより対象者に提示する音声対話システムが知られている。特許文献１には、このような音声対話システムにおいて、ローカル側からサーバ側に対象者の発話を含む音声のデータを送信し、サーバ側で音声認識を行って音声認識結果をローカル側に返すようにする技術が開示されている。

特開２０１８−１０９６６３号公報

特許文献１などの音声対話システムにおいて、サーバ側で音声認識を行うためには、ローカル側とサーバ側との間での通信が必要になる。音声対話システムにおいて、屋外などの雑音が多い環境にいる対象者と対話を行う場合、対象者の発話以外の雑音も多く集音される。集音された音声のデータを、ローカル側からサーバ側へ常時伝送して、サーバ側で音声認識するようにした場合、対象者の発話が行われていないときには、意味のない雑音がサーバ側に送られることになり通信コスト及び電力消費が無駄に増大する。

こういったことから、ローカル側で発話区間の検出を行い、集音された音声のうちで対象者が発話していると推定される区間の音声データのみをサーバ側に伝送し、当該区間の音声についてサーバ側で音声認識を行うようにする技術の開発が進められている。しかしながら、発話区間の検出精度が十分でないため、雑音が大きい場合などに、対象者の発話と雑音との識別がうまくいかないことがある。このため、発話区間の検出を行ってサーバ側に音声を送る期間を制限すると、サーバ側に送られてきた音声データにおいて対象者の発話の一部が欠落していたり、対象者の発話の全てが雑音と誤認されサーバ側へ送られなかったりすることもある。こういったことから、発話区間の検出を行ってサーバ側に音声を送る期間を制限すると、結果として、音声認識精度が低下してしまうという問題があった。

本発明は、以上の背景に鑑みなされたものであり、通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる音声対話装置の制御装置、音声対話装置、音声認識サーバ及びプログラムを提供することを目的とする。

本発明の一実施態様に係る制御装置は、取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置を制御する演算部を備え、前記演算部は、音声認識サーバより、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示するものである。

対象者が発話を開始した後、しばらくの間は対話が継続するのが一般的である。つまり、音声対話装置が、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバより取得した場合、その後、しばらくの間は対話が継続すると考えられる。このため、音声対話装置が当該推定結果を音声認識サーバより取得した場合に、発話区間検出の識別レベルが高く設定されていると、対象者の発話の取りこぼしが懸念される。よって、音声対話装置が当該推定結果を音声認識サーバより取得した場合、発話区間検出器の識別レベルを下げて対象者の発話の取りこぼしを低減するようにする。これにより、音声認識サーバにおける音声認識精度を向上させることができる。一方、音声対話装置が当該推定結果を音声認識サーバより取得しない場合は、発話区間検出器の識別レベルの設定変更をしない。このため、発話区間検出器において当初の識別レベルのままで発話区間検出が継続され、意味のない雑音が音声認識サーバに送られることが抑制される。これにより、通信コスト及び電力消費が無駄に増大するのを抑制することができる。

また、前記演算部は、前記取得された音声における雑音混入の程度に応じて、前記発話区間検出器の前記識別レベルを下げる程度を決定することが好ましい。取得された音声における雑音混入の程度が高い場合、発話区間検出器において発話区間検出を精度良く行うことは困難である。このような場合、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバより取得したときに識別レベルの下げる程度を相対的に大きくする。例えば、発話区間検出を行わない最も下のレベルに設定変更し、音声対話装置と音声認識サーバとの通信接続を常時維持する。これに対し、取得された音声における雑音混入の程度が低い場合、発話区間検出器において発話区間検出を精度良く行うことができる。このような場合、識別レベルの下げる程度を相対的に小さくし、通信コスト及び電力消費の増大を抑制しつつ、対象者の発話の取りこぼしを低減するようにする。

さらに、前記演算部は、前記音声対話装置と前記対象者との距離に応じて、前記発話区間検出器の前記識別レベルを下げる程度を決定することが好ましい。音声対話装置と対象者との距離が遠い場合、発話区間検出器において発話区間検出を精度良く行うことは困難である。このような場合、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバより取得したときに識別レベルの下げる程度を相対的に大きくする。例えば、発話区間検出を行わない最も下のレベルに設定変更し、音声対話装置と音声認識サーバとの通信接続を常時維持する。これに対し、音声対話装置と対象者との距離が近い場合、発話区間検出器において発話区間検出を精度良く行うことができる。このような場合、識別レベルの下げる程度を相対的に小さくし、通信コスト及び電力消費の増大を抑制しつつ、対象者の発話の取りこぼしを低減するようにする。

さらに、前記演算部は、前記識別レベルの設定変更を行った後、所定の期間、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を前記音声認識サーバより取得しない場合、前記音声対話装置に対し、前記識別レベルを設定変更する前の設定に戻すように指示することが好ましい。このようにすることで、対象者の発話がないときに、意味のない雑音が音声認識サーバに送られることが抑制される。これにより、通信コスト及び電力消費が無駄に増大するのを抑制することができる。

本発明の一実施態様に係る音声対話装置は、取得された音声について、対象者の発話であるか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を含む制御部を有し、前記制御部において、音声認識サーバより、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記発話区間検出器における前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うようにするものである。これにより、通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる。

本発明の一実施態様に係る音声認識サーバは、取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置より、通信で送られてきた前記取得された音声の音声認識を行う音声認識サーバであって、制御部を有し、前記制御部において、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果が得られた場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示するものである。これにより、通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる。

本発明の一実施態様に係るプログラムは、取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置を制御するための処理手順をコンピュータに実行させるプログラムであって、音声認識サーバより、前記音声対話装置から送られてきた音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示する処理手順を有するものである。これにより、通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる。

本発明によれば、通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる。

実施の形態１に係る制御装置を含む音声対話システムの構成について説明するブロック図である。実施の形態１に係る制御装置が内部に組み込まれた音声対話ロボットの外観の一例を示す模式図である。音声対話システムに含まれる音声対話装置の記憶部に格納されたデータベースの一例について示す模式図である。発話区間検出器における発話区間検出の識別レベルについて説明する模式図である。音声対話システムに含まれる音声認識サーバの記憶部に格納されたデータベースの一例について示す模式図である。実施の形態１に係る制御装置の処理の流れを示すフローチャートである。実施の形態２に係る音声対話装置を含む音声対話システムの構成について説明するブロック図である。実施の形態３に係る音声認識サーバを含む音声対話システムの構成について説明するブロック図である。

以下、発明の実施の形態を通じて本発明を説明するが、特許請求の範囲に係る発明を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

[実施の形態１]
まず、実施の形態１に係る制御装置を含む音声対話システムの構成について説明する。
図１は、実施の形態１に係る制御装置３０を含む音声対話システム１の構成について説明するブロック図である。図１に示すように、音声対話システム１は、音声対話ロボット１０と、音声認識サーバ４０と、を有する。

音声対話ロボット１０には、音声対話装置２０及び制御装置３０が組み込まれている。また、音声対話ロボット１０は、マイク１１と、スピーカ１２と、通信部１３と、を有している。

図２は、図１に示した音声対話装置２０及び制御装置３０が内部に組み込まれた音声対話ロボット１０の外観の一例を示す模式図である。図２に示すように、音声対話ロボット１０は、外観として動物を模しており、頭部１０ａと胴体部１０ｂを有する。頭部１０ａのいずれかの位置には、マイク１１が隠されて配置されている。音声対話ロボット１０の口の位置には、スピーカ１２が隠されて配置されている。

マイク１１は、音声を音声対話装置２０に入力する入力部としての機能を担う。具体的には、マイク１１は、音声を集音し、集音した音声を音声信号に変換して音声対話装置２０へ引き渡す。スピーカ１２は、音声対話装置２０が生成した音声を発する出力部としての機能を担う。具体的には、スピーカ１２は、音声対話装置２０が生成した応答の音声信号を受け取り、音声として出力する。

再び図１を参照し、音声対話装置２０は、制御部２１と、記憶部２６と、を有する。

制御部２１は、例えばＣＰＵによって構成され、機能ごとに実行を担う機能実行部としても動作する。制御部２１は、主に、発話解析部２２、応答生成部２３、発話制御部２４及び発話区間検出器２５として動作する。

発話解析部２２は、記憶部２６に格納された音声認識モデルを用いて音声認識及び発話内容の解析を行う。具体的には、発話解析部２２は、記憶部２６に格納された音声認識モデルを用いて、マイク１１から受け取った音声信号について音声認識を行ってテキスト化し、得られたテキストデータについて音声分析（データマイニング）し、発話内容を解析する。記憶部２６は、例えばハードディスクドライブの記憶媒体によって構成されている。

応答生成部２３は、発話解析部２２において音声認識及び発話内容の解析を行った結果を受け取り、記憶部２６に格納された応答生成モデルを用いて音声対話ロボット１０が対話する相手である対象者の発話に対する応答生成（応答文のテキストを生成）する。

図３は、音声対話装置２０の記憶部２６に格納されたデータベースの一例について示す模式図である。図３に示すように、記憶部２６には、音声認識モデル２７ａがデータベースとして格納されている。また、記憶部２６には、音声認識モデル２７ａに対応する応答生成モデル２８ａがデータベースとして格納されている。ここで、音声認識モデル２７ａは、例えばある特定の年齢層や出身地の人の音声のみ認識することができるような、限定的な音声認識モデルである。また、応答生成モデル２８ａは、例えば適当な相づちや対象者の発話と同一内容の繰り返しといった、簡易な応答を生成するためのものである。よって、基本的に、対象者の発話は後述する音声認識サーバ４６で音声認識を行い、対象者の発話に対する応答の生成についても音声認識サーバ４６で行う。

再び図１を参照し、発話制御部２４は、応答生成部２３または後述する音声認識サーバ４０より受け取った応答文のテキストを音声信号に変換してスピーカ１２へ引き渡す。

発話区間検出器２５は、取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行うものである。発話区間検出とは、音声信号の波形に対し、信号強度、周波数特性、時間変化などの予め設定された特徴量を用いて対象者の発話を識別し、対象者が発話している区間を検出するものである。発話区間検出の識別レベルとは、音声が対象者の発話であるか否かを識別するための基準である。識別レベルが高く設定された場合識別レベルが低く設定された場合よりも発話区間検出を厳密に行う。つまり、識別レベルが高く設定された場合、設定された特徴量における、取得された音声と予め取得された対象者の発話との一致する程度が、識別レベルが低く設定された場合よりも高いときに、当該音声は対象者の発話であると推定される。

図４は、発話区間検出器２５における発話区間検出の識別レベルについて説明する模式図である。図４に示すように、識別レベルは、例えば“レベル５”から“レベル０”のいずれかに設定される。識別レベルが最も高い“レベル５”に設定されている場合、発話区間検出を最も厳密に行う。これに対し、識別レベルが最も低い“レベル０”に設定されている場合、発話区間検出器２５は、発話区間検出を行わずに、マイク１１により集音された音声の全てを音声認識サーバ４０（図１参照）に送るようにする。

再び図１を参照し、発話区間検出器２５は、通信部１３を介して、音声認識サーバ４０に対し、音声データを送信する。通信部１３は、後述する音声認識サーバ４０の通信部４３との間で制御信号や音声データの授受を行うための通信インターフェースであり、例えば無線ＬＡＮユニットである。

音声認識サーバ４０は、制御部４１と、記憶部４２と、通信部４３と、を備えている。通信部４３は、上述した音声対話ロボット１０の通信部１３との間で制御信号や音声データの授受を行うための通信インターフェースであり、例えば無線ＬＡＮユニットである。制御部４１は、例えばＣＰＵによって構成され、発話解析部４１ａと、応答生成部４１ｂと、を有する。通信部４３において、対象者の発話についての音声認識及び発話内容の解析を要求する指令及び対象者の発話の音声データを受信した場合、発話解析部４１ａにおいて、記憶部４２に格納された音声認識モデルを用いて、対象者の発話についての音声認識及び発話内容の解析を行う。応答生成部４１ｂは、発話解析部４１ａにおいて音声認識及び発話内容の解析を行った結果を受け取り、記憶部４２に格納された応答生成モデルを用いて対象者の発話に対する応答生成（応答文のテキストを生成）する。音声認識サーバ４０における、発話解析部４１ａ、応答生成部４１ｂは、音声対話装置２０の発話解析部２２、応答生成部２３に対して演算処理能力が高い。

図５は、音声認識サーバ４０の記憶部４２に格納されたデータベースの一例について示す模式図である。図５に示すように、記憶部４２には、複数の音声認識モデル（図４に示す例では、音声認識モデル４３ａ、４３ｂ、４３ｃ、４３ｄ、・・・、４３ｚ）がデータベースとして格納されている。複数の異なる音声認識モデルは、例えば、性別、年齢、出身地、音声を採取した場所（例えば室内、屋外）などで層別されたものである。複数の異なる音声認識モデルは、例えば、性別、年齢、出身地、音声を採取した場所（例えば室内、屋外）などで層別されたものである。

また、記憶部４２には、複数の異なる音声認識モデルにそれぞれ対応する複数の応答生成モデル（図５に示す例では、応答生成モデル４４ａ、４４ｂ、４４ｃ、４４ｄ、・・・、４４ｚ）がデータベースとして格納されている。つまり、音声認識モデル４３ａに応答生成モデル４４ａが対応している。同様に、音声認識モデル４３ｂに応答生成モデル４４ｂが、音声認識モデル４３ｃに応答生成モデル４４ｃが、音声認識モデル４３ｄに応答生成モデル４４ｄが、音声認識モデル４３ｚに応答生成モデル４４ｚが、それぞれ対応している。制御部４１の応答生成部４１ｂ（図１参照）は、音声認識モデルに対応する応答生成モデルを用いて応答生成を行う。

再び図１を参照し、制御装置３０は、演算部３１を有する。演算部３１は、音声認識サーバ４０より、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、音声対話装置２０に対し、発話区間検出器２５の識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で音声認識サーバ４０との通信を行うよう指示する。上述した例のように、識別レベルが、“レベル５”から“レベル０”に設定できるとして、現在の設定が例えば“レベル５”であるとする。演算部３１は、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバ４０より取得したとき、音声対話装置２０の発話区間検出器２５に対し、識別レベルを、“レベル４”から“レベル０”のいずれかに設定変更するよう指示する。

演算部３１は、取得された音声における雑音混入の程度に応じて、発話区間検出器の識別レベルを下げる程度を決定するようにしてもよい。取得された音声における雑音混入の程度が高い（すなわち、雑音が多い）場合、発話区間検出器２５において発話区間検出を精度良く行うことは困難である。このような場合、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバ４０より取得したときに識別レベルを“レベル０”に設定変更し、発話区間検出器２５で発話区間検出を行わないようにする。つまり、音声対話装置２０と音声認識サーバ４０との通信接続を常時維持する。これに対し、取得された音声における雑音混入の程度が低い（すなわち、雑音が少ない）場合、発話区間検出器２５において発話区間検出を精度良く行うことができる。このような場合、識別レベルを“レベル４”か“レベル３”に設定変更し、通信コスト及び電力消費の増大を抑制しつつ、対象者の発話の取りこぼしを低減するようにする。

演算部３１は、音声対話装置２０と対象者との距離に応じて、発話区間検出器２５の識別レベルを下げる程度を決定するようにしてもよい。音声対話装置２０と対象者との距離が遠い場合、発話区間検出器２５において発話区間検出を精度良く行うことは困難である。このような場合、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバ４０より取得したときに識別レベルを“レベル０”に設定変更し、発話区間検出器２５で発話区間検出を行わないようにする。つまり、音声対話装置２０と音声認識サーバ４０との通信接続を常時維持する。これに対し、音声対話装置２０と対象者との距離が近い場合、発話区間検出器２５において発話区間検出を精度良く行うことができる。このような場合、識別レベルを“レベル４”か“レベル３”に設定変更し、通信コスト及び電力消費の増大を抑制しつつ、対象者の発話の取りこぼしを低減するようにする。

発話区間検出器２５の識別レベルの設定変更を行った後、所定の期間、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバ４０より取得しない場合、識別レベルを設定変更する前の設定に戻すようにする。このようにすることで、対象者の発話がないときに、意味のない雑音が音声認識サーバ４０に送られることが抑制される。これにより、通信コスト及び電力消費が無駄に増大するのを抑制することができる。なお、所定の期間は、過去の会話情報に基づいて決定するようにする。

次に、制御装置３０が実行する音声対話装置２０を制御するための処理の流れについて説明する。なお、以下の説明では、図１についても適宜参照する。
図６は、制御装置３０の処理の流れを示すフローチャートである。図６に示すように、音声認識サーバ４０より、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を取得したか、監視する（ステップＳ１０１）。ステップＳ１０１において、音声認識サーバ４０より、音声対話装置２０から送られてきた音声に対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、音声対話装置２０に対し、発話区間検出器２５の識別レベルを下げるように設定変更するよう指示する（ステップＳ１０２）。続いて、音声対話装置２０に対し、変更後の識別レベルに応じた発話区間検出で音声認識サーバ４０との通信を行うよう指示する（ステップＳ１０３）。

以上より、本実施の形態に係る制御装置３０は、演算部３１が、音声認識サーバ４０より、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、音声対話装置２０に対し、発話区間検出器２５の識別レベルを下げるよう指示する。そして、演算部３１が、音声対話装置２０に対し、音声対話装置２０に設定変更後の識別レベルに応じた発話区間検出で音声認識サーバ４０との通信を行うよう指示する。

対象者が発話を開始した後、しばらくの間は対話が継続するのが一般的である。つまり、音声対話装置２０が、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバ４０より取得した場合、その後、しばらくの間は対話が継続すると考えられる。このため、音声対話装置２０が当該推定結果を音声認識サーバ４０より取得した場合に、発話区間検出の識別レベルが高く設定されていると、対象者の発話の取りこぼしが懸念される。よって、音声対話装置２０が当該推定結果を音声認識サーバ４０より取得した場合、発話区間検出器２５の識別レベルを下げて対象者の発話の取りこぼしを低減するようにする。これにより、音声認識サーバ４０における音声認識精度を向上させることができる。一方、音声対話装置２０が当該推定結果を音声認識サーバ４０より取得しない場合は、発話区間検出器２５の識別レベルの設定変更をしない。このため、発話区間検出器２５において当初の識別レベルのままで発話区間検出が継続され、意味のない雑音が音声認識サーバ４０に送られることが抑制される。これにより、通信コスト及び電力消費が無駄に増大するのを抑制することができる。

[実施の形態２]
以下、図面を参照して本発明の実施の形態２について説明する。
図７は、実施の形態２に係る音声対話装置１２０を含む音声対話システム１０１の構成について説明するブロック図である。図７に示すように、音声対話システム１０１は、音声対話ロボット１１０と、音声認識サーバ４０と、を有する。

音声対話ロボット１１０の構成は、制御装置を有していない点が、実施の形態１の図１で説明した音声対話システム１における音声対話ロボット１０の構成との相違である。音声対話装置１２０の構成は、制御部１２１において識別レベル設定変更部１２５をさらに有している点が、実施の形態１の図１で説明した音声対話システム１における音声対話装置２０の構成との相違である。制御部１２１は、例えばＣＰＵによって構成される。音声対話システム１０１において、実施の形態１に係る制御装置の役割は、音声対話装置１２０の制御部１２１における識別レベル設定変更部１２５が担う。

すなわち、識別レベル設定変更部１２５は、音声認識サーバ４０より、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、発話区間検出器２５における識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で音声認識サーバ４０との通信を行うようにする。

このように、実施の形態２に係る音声対話装置１２０によれば、通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる。

[実施の形態３]
以下、図面を参照して本発明の実施の形態３について説明する。
図８は、実施の形態３に係る音声認識サーバ２４０を含む音声対話システム２０１の構成について説明するブロック図である。図８に示すように、音声対話システム２０１は、音声対話ロボット２１０と、音声認識サーバ２４０と、を有する。

音声対話ロボット２１０の構成は、制御装置を有していない点が、実施の形態１の図１で説明した音声対話システム１における音声対話ロボット１０の構成との相違である。音声認識サーバ２４０の構成は、制御部２４１において識別レベル設定変更部２４１ｃをさらに有している点が、実施の形態１の図１で説明した音声対話システム１における音声認識サーバ４０の構成との相違である。制御部２４１は、例えばＣＰＵによって構成される。音声対話システム２０１において、実施の形態１に係る制御装置の役割は、音声認識サーバ２４０の制御部２４１における識別レベル設定変更部２４１ｃが担う。

すなわち、識別レベル設定変更部２４１ｃは、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果が得られた場合に、音声対話装置２０に対し、発話区間検出器２５の識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で音声認識サーバ２４０との通信を行うよう指示する。

このように、実施の形態３に係る音声認識サーバ２４０によれば、通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

本発明にかかる処理は、コンピュータなどにプログラムを実行させることによって実現できる。より具体的には、制御装置、音声対話装置、音声認識サーバのいずれか一つが備えるコンピュータにおいて、プログラムメモリに格納されたプログラムを主記憶装置にロードし、ＣＰＵの制御によって当該プログラムを実行して実現する。ここで、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１、１０１、２０１音声対話システム
１０、１１０、２１０音声対話ロボット
１０ａ頭部
１０ｂ胴体部
１１マイク
１２スピーカ
１３、４３通信部
２０、１２０音声対話装置
２１、４１、１２１、２４１制御部
２２、４１ａ発話解析部
２３、４１ｂ応答生成部
２４発話制御部
２５発話区間検出器
２６、４２記憶部
３０制御装置
３１演算部
４０、２４０音声認識サーバ
１２５、２４１ｃ識別レベル設定変更部

Claims

取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置を制御する演算部を備え、
前記演算部は、音声認識サーバより、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示する、制御装置。
前記演算部は、前記取得された音声における雑音混入の程度に応じて、前記発話区間検出器の前記識別レベルを下げる程度を決定する、請求項１に記載の制御装置。
前記演算部は、前記音声対話装置と前記対象者との距離に応じて、前記発話区間検出器の前記識別レベルを下げる程度を決定する、請求項１に記載の制御装置。
前記演算部は、前記識別レベルの設定変更を行った後、所定の期間、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を前記音声認識サーバより取得しない場合、前記音声対話装置に対し、前記識別レベルを設定変更する前の設定に戻すよう指示する、請求項１から３のいずれか一項に記載の制御装置。
取得された音声について、対象者の発話であるか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を含む制御部を有し、
前記制御部において、
音声認識サーバより、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記発話区間検出器における前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うようにする、音声対話装置。
取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置より、通信で送られてきた前記取得された音声の音声認識を行う音声認識サーバであって、
制御部を有し、
前記制御部において、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果が得られた場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示する、音声認識サーバ。
取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置を制御するための処理手順をコンピュータに実行させるプログラムであって、
音声認識サーバより、前記音声対話装置から送られてきた音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示する処理手順を有するプログラム。