JP2020101603A - 制御装置、音声対話装置、音声認識サーバ及びプログラム - Google Patents

制御装置、音声対話装置、音声認識サーバ及びプログラム Download PDF

Info

Publication number
JP2020101603A
JP2020101603A JP2018238093A JP2018238093A JP2020101603A JP 2020101603 A JP2020101603 A JP 2020101603A JP 2018238093 A JP2018238093 A JP 2018238093A JP 2018238093 A JP2018238093 A JP 2018238093A JP 2020101603 A JP2020101603 A JP 2020101603A
Authority
JP
Japan
Prior art keywords
voice
utterance
identification level
recognition server
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018238093A
Other languages
English (en)
Other versions
JP7131362B2 (ja
Inventor
生聖 渡部
Seisho Watabe
生聖 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2018238093A priority Critical patent/JP7131362B2/ja
Priority to US16/717,229 priority patent/US11081114B2/en
Priority to CN201911299430.7A priority patent/CN111354358B/zh
Publication of JP2020101603A publication Critical patent/JP2020101603A/ja
Application granted granted Critical
Publication of JP7131362B2 publication Critical patent/JP7131362B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

【課題】通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる、音声対話装置の制御装置を提供する。【解決手段】制御装置は、取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置を制御する演算部を備え、演算部は、音声認識サーバより、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、音声対話装置に対し、発話区間検出器の識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で音声認識サーバとの通信を行うよう指示する。【選択図】図1

Description

本発明は、制御装置、音声対話装置、音声認識サーバ及びプログラムに関する。
対話する相手である対象者(ユーザ)の発話を解析して意味内容を把握し、発話のタイプに応じた応答を生成して音声またはテキストにより対象者に提示する音声対話システムが知られている。特許文献1には、このような音声対話システムにおいて、ローカル側からサーバ側に対象者の発話を含む音声のデータを送信し、サーバ側で音声認識を行って音声認識結果をローカル側に返すようにする技術が開示されている。
特開2018−109663号公報
特許文献1などの音声対話システムにおいて、サーバ側で音声認識を行うためには、ローカル側とサーバ側との間での通信が必要になる。音声対話システムにおいて、屋外などの雑音が多い環境にいる対象者と対話を行う場合、対象者の発話以外の雑音も多く集音される。集音された音声のデータを、ローカル側からサーバ側へ常時伝送して、サーバ側で音声認識するようにした場合、対象者の発話が行われていないときには、意味のない雑音がサーバ側に送られることになり通信コスト及び電力消費が無駄に増大する。
こういったことから、ローカル側で発話区間の検出を行い、集音された音声のうちで対象者が発話していると推定される区間の音声データのみをサーバ側に伝送し、当該区間の音声についてサーバ側で音声認識を行うようにする技術の開発が進められている。しかしながら、発話区間の検出精度が十分でないため、雑音が大きい場合などに、対象者の発話と雑音との識別がうまくいかないことがある。このため、発話区間の検出を行ってサーバ側に音声を送る期間を制限すると、サーバ側に送られてきた音声データにおいて対象者の発話の一部が欠落していたり、対象者の発話の全てが雑音と誤認されサーバ側へ送られなかったりすることもある。こういったことから、発話区間の検出を行ってサーバ側に音声を送る期間を制限すると、結果として、音声認識精度が低下してしまうという問題があった。
本発明は、以上の背景に鑑みなされたものであり、通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる音声対話装置の制御装置、音声対話装置、音声認識サーバ及びプログラムを提供することを目的とする。
本発明の一実施態様に係る制御装置は、取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置を制御する演算部を備え、前記演算部は、音声認識サーバより、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示するものである。
対象者が発話を開始した後、しばらくの間は対話が継続するのが一般的である。つまり、音声対話装置が、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバより取得した場合、その後、しばらくの間は対話が継続すると考えられる。このため、音声対話装置が当該推定結果を音声認識サーバより取得した場合に、発話区間検出の識別レベルが高く設定されていると、対象者の発話の取りこぼしが懸念される。よって、音声対話装置が当該推定結果を音声認識サーバより取得した場合、発話区間検出器の識別レベルを下げて対象者の発話の取りこぼしを低減するようにする。これにより、音声認識サーバにおける音声認識精度を向上させることができる。一方、音声対話装置が当該推定結果を音声認識サーバより取得しない場合は、発話区間検出器の識別レベルの設定変更をしない。このため、発話区間検出器において当初の識別レベルのままで発話区間検出が継続され、意味のない雑音が音声認識サーバに送られることが抑制される。これにより、通信コスト及び電力消費が無駄に増大するのを抑制することができる。
また、前記演算部は、前記取得された音声における雑音混入の程度に応じて、前記発話区間検出器の前記識別レベルを下げる程度を決定することが好ましい。取得された音声における雑音混入の程度が高い場合、発話区間検出器において発話区間検出を精度良く行うことは困難である。このような場合、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバより取得したときに識別レベルの下げる程度を相対的に大きくする。例えば、発話区間検出を行わない最も下のレベルに設定変更し、音声対話装置と音声認識サーバとの通信接続を常時維持する。これに対し、取得された音声における雑音混入の程度が低い場合、発話区間検出器において発話区間検出を精度良く行うことができる。このような場合、識別レベルの下げる程度を相対的に小さくし、通信コスト及び電力消費の増大を抑制しつつ、対象者の発話の取りこぼしを低減するようにする。
さらに、前記演算部は、前記音声対話装置と前記対象者との距離に応じて、前記発話区間検出器の前記識別レベルを下げる程度を決定することが好ましい。音声対話装置と対象者との距離が遠い場合、発話区間検出器において発話区間検出を精度良く行うことは困難である。このような場合、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバより取得したときに識別レベルの下げる程度を相対的に大きくする。例えば、発話区間検出を行わない最も下のレベルに設定変更し、音声対話装置と音声認識サーバとの通信接続を常時維持する。これに対し、音声対話装置と対象者との距離が近い場合、発話区間検出器において発話区間検出を精度良く行うことができる。このような場合、識別レベルの下げる程度を相対的に小さくし、通信コスト及び電力消費の増大を抑制しつつ、対象者の発話の取りこぼしを低減するようにする。
さらに、前記演算部は、前記識別レベルの設定変更を行った後、所定の期間、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を前記音声認識サーバより取得しない場合、前記音声対話装置に対し、前記識別レベルを設定変更する前の設定に戻すように指示することが好ましい。このようにすることで、対象者の発話がないときに、意味のない雑音が音声認識サーバに送られることが抑制される。これにより、通信コスト及び電力消費が無駄に増大するのを抑制することができる。
本発明の一実施態様に係る音声対話装置は、取得された音声について、対象者の発話であるか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を含む制御部を有し、前記制御部において、音声認識サーバより、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記発話区間検出器における前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うようにするものである。これにより、通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる。
本発明の一実施態様に係る音声認識サーバは、取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置より、通信で送られてきた前記取得された音声の音声認識を行う音声認識サーバであって、制御部を有し、前記制御部において、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果が得られた場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示するものである。これにより、通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる。
本発明の一実施態様に係るプログラムは、取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置を制御するための処理手順をコンピュータに実行させるプログラムであって、音声認識サーバより、前記音声対話装置から送られてきた音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示する処理手順を有するものである。これにより、通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる。
本発明によれば、通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる。
実施の形態1に係る制御装置を含む音声対話システムの構成について説明するブロック図である。 実施の形態1に係る制御装置が内部に組み込まれた音声対話ロボットの外観の一例を示す模式図である。 音声対話システムに含まれる音声対話装置の記憶部に格納されたデータベースの一例について示す模式図である。 発話区間検出器における発話区間検出の識別レベルについて説明する模式図である。 音声対話システムに含まれる音声認識サーバの記憶部に格納されたデータベースの一例について示す模式図である。 実施の形態1に係る制御装置の処理の流れを示すフローチャートである。 実施の形態2に係る音声対話装置を含む音声対話システムの構成について説明するブロック図である。 実施の形態3に係る音声認識サーバを含む音声対話システムの構成について説明するブロック図である。
以下、発明の実施の形態を通じて本発明を説明するが、特許請求の範囲に係る発明を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。
[実施の形態1]
まず、実施の形態1に係る制御装置を含む音声対話システムの構成について説明する。
図1は、実施の形態1に係る制御装置30を含む音声対話システム1の構成について説明するブロック図である。図1に示すように、音声対話システム1は、音声対話ロボット10と、音声認識サーバ40と、を有する。
音声対話ロボット10には、音声対話装置20及び制御装置30が組み込まれている。また、音声対話ロボット10は、マイク11と、スピーカ12と、通信部13と、を有している。
図2は、図1に示した音声対話装置20及び制御装置30が内部に組み込まれた音声対話ロボット10の外観の一例を示す模式図である。図2に示すように、音声対話ロボット10は、外観として動物を模しており、頭部10aと胴体部10bを有する。頭部10aのいずれかの位置には、マイク11が隠されて配置されている。音声対話ロボット10の口の位置には、スピーカ12が隠されて配置されている。
マイク11は、音声を音声対話装置20に入力する入力部としての機能を担う。具体的には、マイク11は、音声を集音し、集音した音声を音声信号に変換して音声対話装置20へ引き渡す。スピーカ12は、音声対話装置20が生成した音声を発する出力部としての機能を担う。具体的には、スピーカ12は、音声対話装置20が生成した応答の音声信号を受け取り、音声として出力する。
再び図1を参照し、音声対話装置20は、制御部21と、記憶部26と、を有する。
制御部21は、例えばCPUによって構成され、機能ごとに実行を担う機能実行部としても動作する。制御部21は、主に、発話解析部22、応答生成部23、発話制御部24及び発話区間検出器25として動作する。
発話解析部22は、記憶部26に格納された音声認識モデルを用いて音声認識及び発話内容の解析を行う。具体的には、発話解析部22は、記憶部26に格納された音声認識モデルを用いて、マイク11から受け取った音声信号について音声認識を行ってテキスト化し、得られたテキストデータについて音声分析(データマイニング)し、発話内容を解析する。記憶部26は、例えばハードディスクドライブの記憶媒体によって構成されている。
応答生成部23は、発話解析部22において音声認識及び発話内容の解析を行った結果を受け取り、記憶部26に格納された応答生成モデルを用いて音声対話ロボット10が対話する相手である対象者の発話に対する応答生成(応答文のテキストを生成)する。
図3は、音声対話装置20の記憶部26に格納されたデータベースの一例について示す模式図である。図3に示すように、記憶部26には、音声認識モデル27aがデータベースとして格納されている。また、記憶部26には、音声認識モデル27aに対応する応答生成モデル28aがデータベースとして格納されている。ここで、音声認識モデル27aは、例えばある特定の年齢層や出身地の人の音声のみ認識することができるような、限定的な音声認識モデルである。また、応答生成モデル28aは、例えば適当な相づちや対象者の発話と同一内容の繰り返しといった、簡易な応答を生成するためのものである。よって、基本的に、対象者の発話は後述する音声認識サーバ46で音声認識を行い、対象者の発話に対する応答の生成についても音声認識サーバ46で行う。
再び図1を参照し、発話制御部24は、応答生成部23または後述する音声認識サーバ40より受け取った応答文のテキストを音声信号に変換してスピーカ12へ引き渡す。
発話区間検出器25は、取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行うものである。発話区間検出とは、音声信号の波形に対し、信号強度、周波数特性、時間変化などの予め設定された特徴量を用いて対象者の発話を識別し、対象者が発話している区間を検出するものである。発話区間検出の識別レベルとは、音声が対象者の発話であるか否かを識別するための基準である。識別レベルが高く設定された場合識別レベルが低く設定された場合よりも発話区間検出を厳密に行う。つまり、識別レベルが高く設定された場合、設定された特徴量における、取得された音声と予め取得された対象者の発話との一致する程度が、識別レベルが低く設定された場合よりも高いときに、当該音声は対象者の発話であると推定される。
図4は、発話区間検出器25における発話区間検出の識別レベルについて説明する模式図である。図4に示すように、識別レベルは、例えば“レベル5”から“レベル0”のいずれかに設定される。識別レベルが最も高い“レベル5”に設定されている場合、発話区間検出を最も厳密に行う。これに対し、識別レベルが最も低い“レベル0”に設定されている場合、発話区間検出器25は、発話区間検出を行わずに、マイク11により集音された音声の全てを音声認識サーバ40(図1参照)に送るようにする。
再び図1を参照し、発話区間検出器25は、通信部13を介して、音声認識サーバ40に対し、音声データを送信する。通信部13は、後述する音声認識サーバ40の通信部43との間で制御信号や音声データの授受を行うための通信インターフェースであり、例えば無線LANユニットである。
音声認識サーバ40は、制御部41と、記憶部42と、通信部43と、を備えている。通信部43は、上述した音声対話ロボット10の通信部13との間で制御信号や音声データの授受を行うための通信インターフェースであり、例えば無線LANユニットである。制御部41は、例えばCPUによって構成され、発話解析部41aと、応答生成部41bと、を有する。通信部43において、対象者の発話についての音声認識及び発話内容の解析を要求する指令及び対象者の発話の音声データを受信した場合、発話解析部41aにおいて、記憶部42に格納された音声認識モデルを用いて、対象者の発話についての音声認識及び発話内容の解析を行う。応答生成部41bは、発話解析部41aにおいて音声認識及び発話内容の解析を行った結果を受け取り、記憶部42に格納された応答生成モデルを用いて対象者の発話に対する応答生成(応答文のテキストを生成)する。音声認識サーバ40における、発話解析部41a、応答生成部41bは、音声対話装置20の発話解析部22、応答生成部23に対して演算処理能力が高い。
図5は、音声認識サーバ40の記憶部42に格納されたデータベースの一例について示す模式図である。図5に示すように、記憶部42には、複数の音声認識モデル(図4に示す例では、音声認識モデル43a、43b、43c、43d、・・・、43z)がデータベースとして格納されている。複数の異なる音声認識モデルは、例えば、性別、年齢、出身地、音声を採取した場所(例えば室内、屋外)などで層別されたものである。複数の異なる音声認識モデルは、例えば、性別、年齢、出身地、音声を採取した場所(例えば室内、屋外)などで層別されたものである。
また、記憶部42には、複数の異なる音声認識モデルにそれぞれ対応する複数の応答生成モデル(図5に示す例では、応答生成モデル44a、44b、44c、44d、・・・、44z)がデータベースとして格納されている。つまり、音声認識モデル43aに応答生成モデル44aが対応している。同様に、音声認識モデル43bに応答生成モデル44bが、音声認識モデル43cに応答生成モデル44cが、音声認識モデル43dに応答生成モデル44dが、音声認識モデル43zに応答生成モデル44zが、それぞれ対応している。制御部41の応答生成部41b(図1参照)は、音声認識モデルに対応する応答生成モデルを用いて応答生成を行う。
再び図1を参照し、制御装置30は、演算部31を有する。演算部31は、音声認識サーバ40より、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、音声対話装置20に対し、発話区間検出器25の識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で音声認識サーバ40との通信を行うよう指示する。上述した例のように、識別レベルが、“レベル5”から“レベル0”に設定できるとして、現在の設定が例えば“レベル5”であるとする。演算部31は、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバ40より取得したとき、音声対話装置20の発話区間検出器25に対し、識別レベルを、“レベル4”から“レベル0”のいずれかに設定変更するよう指示する。
演算部31は、取得された音声における雑音混入の程度に応じて、発話区間検出器の識別レベルを下げる程度を決定するようにしてもよい。取得された音声における雑音混入の程度が高い(すなわち、雑音が多い)場合、発話区間検出器25において発話区間検出を精度良く行うことは困難である。このような場合、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバ40より取得したときに識別レベルを“レベル0”に設定変更し、発話区間検出器25で発話区間検出を行わないようにする。つまり、音声対話装置20と音声認識サーバ40との通信接続を常時維持する。これに対し、取得された音声における雑音混入の程度が低い(すなわち、雑音が少ない)場合、発話区間検出器25において発話区間検出を精度良く行うことができる。このような場合、識別レベルを“レベル4”か“レベル3”に設定変更し、通信コスト及び電力消費の増大を抑制しつつ、対象者の発話の取りこぼしを低減するようにする。
演算部31は、音声対話装置20と対象者との距離に応じて、発話区間検出器25の識別レベルを下げる程度を決定するようにしてもよい。音声対話装置20と対象者との距離が遠い場合、発話区間検出器25において発話区間検出を精度良く行うことは困難である。このような場合、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバ40より取得したときに識別レベルを“レベル0”に設定変更し、発話区間検出器25で発話区間検出を行わないようにする。つまり、音声対話装置20と音声認識サーバ40との通信接続を常時維持する。これに対し、音声対話装置20と対象者との距離が近い場合、発話区間検出器25において発話区間検出を精度良く行うことができる。このような場合、識別レベルを“レベル4”か“レベル3”に設定変更し、通信コスト及び電力消費の増大を抑制しつつ、対象者の発話の取りこぼしを低減するようにする。
発話区間検出器25の識別レベルの設定変更を行った後、所定の期間、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバ40より取得しない場合、識別レベルを設定変更する前の設定に戻すようにする。このようにすることで、対象者の発話がないときに、意味のない雑音が音声認識サーバ40に送られることが抑制される。これにより、通信コスト及び電力消費が無駄に増大するのを抑制することができる。なお、所定の期間は、過去の会話情報に基づいて決定するようにする。
次に、制御装置30が実行する音声対話装置20を制御するための処理の流れについて説明する。なお、以下の説明では、図1についても適宜参照する。
図6は、制御装置30の処理の流れを示すフローチャートである。図6に示すように、音声認識サーバ40より、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を取得したか、監視する(ステップS101)。ステップS101において、音声認識サーバ40より、音声対話装置20から送られてきた音声に対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、音声対話装置20に対し、発話区間検出器25の識別レベルを下げるように設定変更するよう指示する(ステップS102)。続いて、音声対話装置20に対し、変更後の識別レベルに応じた発話区間検出で音声認識サーバ40との通信を行うよう指示する(ステップS103)。
以上より、本実施の形態に係る制御装置30は、演算部31が、音声認識サーバ40より、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、音声対話装置20に対し、発話区間検出器25の識別レベルを下げるよう指示する。そして、演算部31が、音声対話装置20に対し、音声対話装置20に設定変更後の識別レベルに応じた発話区間検出で音声認識サーバ40との通信を行うよう指示する。
対象者が発話を開始した後、しばらくの間は対話が継続するのが一般的である。つまり、音声対話装置20が、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を音声認識サーバ40より取得した場合、その後、しばらくの間は対話が継続すると考えられる。このため、音声対話装置20が当該推定結果を音声認識サーバ40より取得した場合に、発話区間検出の識別レベルが高く設定されていると、対象者の発話の取りこぼしが懸念される。よって、音声対話装置20が当該推定結果を音声認識サーバ40より取得した場合、発話区間検出器25の識別レベルを下げて対象者の発話の取りこぼしを低減するようにする。これにより、音声認識サーバ40における音声認識精度を向上させることができる。一方、音声対話装置20が当該推定結果を音声認識サーバ40より取得しない場合は、発話区間検出器25の識別レベルの設定変更をしない。このため、発話区間検出器25において当初の識別レベルのままで発話区間検出が継続され、意味のない雑音が音声認識サーバ40に送られることが抑制される。これにより、通信コスト及び電力消費が無駄に増大するのを抑制することができる。
[実施の形態2]
以下、図面を参照して本発明の実施の形態2について説明する。
図7は、実施の形態2に係る音声対話装置120を含む音声対話システム101の構成について説明するブロック図である。図7に示すように、音声対話システム101は、音声対話ロボット110と、音声認識サーバ40と、を有する。
音声対話ロボット110の構成は、制御装置を有していない点が、実施の形態1の図1で説明した音声対話システム1における音声対話ロボット10の構成との相違である。音声対話装置120の構成は、制御部121において識別レベル設定変更部125をさらに有している点が、実施の形態1の図1で説明した音声対話システム1における音声対話装置20の構成との相違である。制御部121は、例えばCPUによって構成される。音声対話システム101において、実施の形態1に係る制御装置の役割は、音声対話装置120の制御部121における識別レベル設定変更部125が担う。
すなわち、識別レベル設定変更部125は、音声認識サーバ40より、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、発話区間検出器25における識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で音声認識サーバ40との通信を行うようにする。
このように、実施の形態2に係る音声対話装置120によれば、通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる。
[実施の形態3]
以下、図面を参照して本発明の実施の形態3について説明する。
図8は、実施の形態3に係る音声認識サーバ240を含む音声対話システム201の構成について説明するブロック図である。図8に示すように、音声対話システム201は、音声対話ロボット210と、音声認識サーバ240と、を有する。
音声対話ロボット210の構成は、制御装置を有していない点が、実施の形態1の図1で説明した音声対話システム1における音声対話ロボット10の構成との相違である。音声認識サーバ240の構成は、制御部241において識別レベル設定変更部241cをさらに有している点が、実施の形態1の図1で説明した音声対話システム1における音声認識サーバ40の構成との相違である。制御部241は、例えばCPUによって構成される。音声対話システム201において、実施の形態1に係る制御装置の役割は、音声認識サーバ240の制御部241における識別レベル設定変更部241cが担う。
すなわち、識別レベル設定変更部241cは、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果が得られた場合に、音声対話装置20に対し、発話区間検出器25の識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で音声認識サーバ240との通信を行うよう指示する。
このように、実施の形態3に係る音声認識サーバ240によれば、通信コスト及び電力消費が無駄に増大するのを抑えつつ、音声認識精度を向上させることができる。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
本発明にかかる処理は、コンピュータなどにプログラムを実行させることによって実現できる。より具体的には、制御装置、音声対話装置、音声認識サーバのいずれか一つが備えるコンピュータにおいて、プログラムメモリに格納されたプログラムを主記憶装置にロードし、CPUの制御によって当該プログラムを実行して実現する。ここで、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
1、101、201 音声対話システム
10、110、210 音声対話ロボット
10a 頭部
10b 胴体部
11 マイク
12 スピーカ
13、43 通信部
20、120 音声対話装置
21、41、121、241 制御部
22、41a 発話解析部
23、41b 応答生成部
24 発話制御部
25 発話区間検出器
26、42 記憶部
30 制御装置
31 演算部
40、240 音声認識サーバ
125、241c 識別レベル設定変更部

Claims (7)

  1. 取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置を制御する演算部を備え、
    前記演算部は、音声認識サーバより、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示する、制御装置。
  2. 前記演算部は、前記取得された音声における雑音混入の程度に応じて、前記発話区間検出器の前記識別レベルを下げる程度を決定する、請求項1に記載の制御装置。
  3. 前記演算部は、前記音声対話装置と前記対象者との距離に応じて、前記発話区間検出器の前記識別レベルを下げる程度を決定する、請求項1に記載の制御装置。
  4. 前記演算部は、前記識別レベルの設定変更を行った後、所定の期間、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を前記音声認識サーバより取得しない場合、前記音声対話装置に対し、前記識別レベルを設定変更する前の設定に戻すよう指示する、請求項1から3のいずれか一項に記載の制御装置。
  5. 取得された音声について、対象者の発話であるか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を含む制御部を有し、
    前記制御部において、
    音声認識サーバより、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記発話区間検出器における前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うようにする、音声対話装置。
  6. 取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置より、通信で送られてきた前記取得された音声の音声認識を行う音声認識サーバであって、
    制御部を有し、
    前記制御部において、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果が得られた場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示する、音声認識サーバ。
  7. 取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置を制御するための処理手順をコンピュータに実行させるプログラムであって、
    音声認識サーバより、前記音声対話装置から送られてきた音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示する処理手順を有するプログラム。
JP2018238093A 2018-12-20 2018-12-20 制御装置、音声対話装置及びプログラム Active JP7131362B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018238093A JP7131362B2 (ja) 2018-12-20 2018-12-20 制御装置、音声対話装置及びプログラム
US16/717,229 US11081114B2 (en) 2018-12-20 2019-12-17 Control method, voice interaction apparatus, voice recognition server, non-transitory storage medium, and control system
CN201911299430.7A CN111354358B (zh) 2018-12-20 2019-12-17 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018238093A JP7131362B2 (ja) 2018-12-20 2018-12-20 制御装置、音声対話装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020101603A true JP2020101603A (ja) 2020-07-02
JP7131362B2 JP7131362B2 (ja) 2022-09-06

Family

ID=71097152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018238093A Active JP7131362B2 (ja) 2018-12-20 2018-12-20 制御装置、音声対話装置及びプログラム

Country Status (3)

Country Link
US (1) US11081114B2 (ja)
JP (1) JP7131362B2 (ja)
CN (1) CN111354358B (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210829A (ja) * 2008-03-04 2009-09-17 Nippon Hoso Kyokai <Nhk> 音響モデル学習装置およびプログラム
JP2016033530A (ja) * 2014-07-30 2016-03-10 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
JP2017097330A (ja) * 2015-11-19 2017-06-01 パナソニック株式会社 音声認識方法及び音声認識装置
JP2018109663A (ja) * 2016-12-28 2018-07-12 シャープ株式会社 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100705563B1 (ko) * 2004-12-07 2007-04-10 삼성전자주식회사 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법
WO2007118029A2 (en) * 2006-04-03 2007-10-18 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US9595271B2 (en) * 2013-06-27 2017-03-14 Getgo, Inc. Computer system employing speech recognition for detection of non-speech audio
US10540979B2 (en) * 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
US10223696B2 (en) * 2014-04-25 2019-03-05 Avago Technologies International Sales Pte. Limited Adaptive biometric and environmental authentication system
JP6614080B2 (ja) 2016-09-16 2019-12-04 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
JP6553111B2 (ja) * 2017-03-21 2019-07-31 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
WO2019135755A1 (en) * 2018-01-04 2019-07-11 Xinova, LLC Dynamic workstation assignment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210829A (ja) * 2008-03-04 2009-09-17 Nippon Hoso Kyokai <Nhk> 音響モデル学習装置およびプログラム
JP2016033530A (ja) * 2014-07-30 2016-03-10 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
JP2017097330A (ja) * 2015-11-19 2017-06-01 パナソニック株式会社 音声認識方法及び音声認識装置
JP2018109663A (ja) * 2016-12-28 2018-07-12 シャープ株式会社 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法

Also Published As

Publication number Publication date
US11081114B2 (en) 2021-08-03
JP7131362B2 (ja) 2022-09-06
US20200202865A1 (en) 2020-06-25
CN111354358B (zh) 2023-04-25
CN111354358A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN108351872B (zh) 用于响应用户语音的方法和系统
KR102293063B1 (ko) 사용자 정의 가능한 웨이크업 음성 명령
US10699702B2 (en) System and method for personalization of acoustic models for automatic speech recognition
US11887582B2 (en) Training and testing utterance-based frameworks
CN102708855B (zh) 利用话音识别器反馈来进行语音活动检测
US9293134B1 (en) Source-specific speech interactions
BR102018070673A2 (pt) Gerar diálogo baseado em pontuações de verificação
KR20170046294A (ko) 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체
KR102217917B1 (ko) 음성대화 시스템, 음성대화 방법 및 프로그램
US20230360650A1 (en) Response orchestrator for natural language interface
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP2020101603A (ja) 制御装置、音声対話装置、音声認識サーバ及びプログラム
JP2021076715A (ja) 音声取得装置、音声認識システム、情報処理方法、及び情報処理プログラム
CN111354351B (zh) 控制装置、语音交互装置、语音识别服务器以及存储介质
JP2017122815A (ja) 会話支援システム、会話支援装置及び会話支援プログラム
US20240079004A1 (en) System and method for receiving a voice command
US20230306986A1 (en) Systems and methods for dynamically adjusting a listening time of a voice assistant device
JP2005122194A (ja) 音声認識対話装置および音声認識対話処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220808

R151 Written notification of patent or utility model registration

Ref document number: 7131362

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151