JP6748565B2

JP6748565B2 - 音声対話システム及び音声対話方法

Info

Publication number: JP6748565B2
Application number: JP2016233103A
Authority: JP
Inventors: 康貴田中; 美智子小川; 西蔵羽山
Original assignee: SOHGO SECURITY SERVICES CO.,LTD.
Current assignee: SOHGO SECURITY SERVICES CO.,LTD.
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2020-09-02
Anticipated expiration: 2036-11-30
Also published as: JP2018091911A

Description

この発明は、音声の入力を受け付け、受け付けた音声に応じて音声の出力を行う音声対話システム及び音声対話方法に関する。

従来、ユーザの音声を認識し、認識の結果に対応した内容の音声を出力することでユーザとの音声対話を行う音声対話システムが知られている。かかる音声対話システムは、通信回線を介した自動応答や、携帯端末上でのユーザ支援などに用いることができる他、ロボットへの搭載も可能である。音声対話システムを搭載したロボットは、会話をユーザとのインタフェースとして利用可能であり、警備、店舗スタッフの補助、個人の生活支援やエンターテインメントなど、多様なシチュエーションにおいて運用することができる。

ここで、ユーザとの音声対話を行う場合には、出力音声と入力音声の分離が重要となる。システム側からの出力音声が入力音声に含まれると、自システムの出力音声をユーザの音声と誤認識するという問題が生じるためである。そこで、システム側が音声を出力する発話モードとユーザ音声を認識する音声認識モードとを切り替えることで、自システムの出力音声による誤認識を防ぐことが行われている。

発話モードと音声認識モードとを切り替える構成では、システム側の発話モード中にユーザが発言をしてもその発言は認識されない。そのため、ユーザはシステム側からの音声の出力が完了するのを待って発言することになる。しかし、ユーザが音声対話システムに不慣れである場合等には、システム側からの音声の出力中に発言を行うことがある。

そこで、特許文献１は、発話中にもユーザの音声を認識する音声認識装置を備えたロボットを開示している。特許文献１が開示する音声認識装置は、音声の出力開始から所定時間後にユーザの音声認識を開始するとともに、マイクで集音した音声から自装置の出力音声相当分を相関演算により除去する出力音声除去部を設けることで、音声の出力を音声の認識を並行して行っている。

特開２００７−１５５９８６号公報

しかしながら、上記特許文献１に代表される従来の技術を用いたとしても、ユーザとの対話を円滑に行うことは困難であった。上記特許文献１のように、出力音声相当分を相関演算により除去するよう構成しても、音の反射環境、ノイズ状況、ひずみなどの要因によって出力音声の除去を完全に行うことはできず、誤認識を充分に防ぐことはできないのである。

また、音声の出力と音声の認識を並行して行った場合には、ユーザは自身の発言がシステム側で認識されているかを把握できず、発言を続けるべきか、システム側からの音声の出力の完了を待つべきかを判断することができない。特に、対話が高度化し、システム側から出力される音声が長くなると、システム側からの音声の出力が完了するまでユーザに待機させることは、円滑な対話を大きく損なうこととなる。

これらのことから、ユーザとの円滑な音声対話をいかにして実現するかが重要な課題となっていた。かかる課題は、マイクとスピーカを離して設置することが困難なロボットに音声対話システムを搭載するケースで顕著となるが、通信回線を介した自動応答や携帯端末上でのユーザ支援などに音声対話システムを用いる場合にも同様に生ずる。

本発明は、上記の従来技術の課題を解決するためになされたものであって、ユーザと円滑な音声対話を行う音声対話システム及び音声対話方法を提供することを目的とする。

上述した課題を解決し、目的を達成するため、本発明は、音声の入力を受け付ける入力受付部と、前記入力受付部により受け付けた入力音声に応じて音声の出力を行う出力処理部とを備えた音声対話システムであって、前記出力処理部により出力される出力音声を自己音声として登録する登録部と、前記出力処理部による音声の出力中に、前記入力音声と前記自己音声との類似度を算出する類似度算出部と、前記類似度算出部により算出された類似度に基づいて、前記出力処理部による音声の出力を停止するか否かを制御する動作制御部とを備え、前記登録部は、前記自己音声以外の所定の音声を他者音声としてさらに登録し、前記動作制御部は、前記入力音声と前記自己音声との類似度が閾値以下となった場合に、前記入力音声と前記他者音声との類似度に応じて前記出力処理部による音声の出力を停止するか否かを決定することを特徴とする。

また、本発明は、上記に記載の発明において、前記入力受付部により受け付けた入力音声に対して音声認識を行う音声認識部をさらに備え、前記出力処理部は、前記音声認識部による音声認識の結果に応じて出力する音声の内容を決定し、前記動作制御部は、前記音声認識部による音声認識を行う音声認識モードと、前記出力処理部による音声の出力を行う発話モードとを切り替える制御を行うことを特徴とする。

また、本発明は、上記に記載の発明において、前記動作制御部は、前記出力処理部による音声の出力が完了するか、前記類似度に基づいて前記音声の出力を停止した場合に前記発話モードから前記音声認識モードに切り替えることを特徴とする。

また、本発明は、上記に記載の発明において、前記出力処理部は、前記類似度に基づいて前記音声の出力を停止する場合に、音声の出力の停止に対応する特定の音声を出力した上で音声の出力を停止することを特徴とする。

また、本発明は、上記に記載の発明において、前記登録部は、前記出力音声の周波数に係る特徴を分析して生成した特徴データを前記自己音声として登録し、前記類似度算出部は、前記入力音声の周波数に係る特徴を分析して生成した特徴データと前記自己音声として登録した特徴データとの類似度を算出することを特徴とする。

また、本発明は、上記に記載の発明において、前記入力受付部と同一の筐体に設けられ、物理的な動作を行うアクチュエータをさらに備え、前記登録部は、前記アクチュエータの動作によって生じる音を前記他者音声として登録することを特徴とする。

また、本発明は、上記に記載の発明において、前記入力受付部と同一の筐体に設けられ、物理的な動作を行うアクチュエータをさらに備え、前記登録部は、前記アクチュエータの動作によって生じる音と前記出力処理部により出力される出力音声とが合成された音声を自己音声として登録することを特徴とする。

また、本発明は、音声の入力を受け付ける入力受付部と、前記入力受付部により受け付けた入力音声に応じて音声の出力を行う出力処理部とを備えた音声対話システムの音声対話方法であって、前記出力処理部により出力される出力音声を自己音声として登録する登録ステップと、前記出力処理部による音声の出力中に、前記入力音声と前記自己音声との類似度を算出する類似度算出ステップと、前記類似度算出ステップにより算出された類似度に基づいて、前記出力処理部による音声の出力を停止するか否かを制御する動作制御ステップとを含み、前記登録ステップは、前記自己音声以外の所定の音声を他者音声としてさらに登録し、前記動作制御ステップは、前記入力音声と前記自己音声との類似度が閾値以下となった場合に、前記入力音声と前記他者音声との類似度に応じて前記出力処理部による音声の出力を停止するか否かを決定することを特徴とする。

本発明によれば、ユーザと円滑な音声対話を行うことができる。

図１は、本実施例１に係る音声対話システムの概念の説明図である。図２は、図１に示した音声対話ロボットの構成を示す構成図である。図３は、ユーザの発話による類似度の低下についての説明図である。図４は、自己音声特徴データの登録処理の処理手順を示すフローチャートである。図５は、音声認識モードの処理手順を示すフローチャートである。図６は、発話モードの処理手順を示すフローチャートである。図７は、本実施例２に係る音声対話ロボットの動作についての説明図である。図８は、図７に示した音声対話ロボットの構成を示す構成図である。図９は、本実施例２における発話モードの処理手順を示すフローチャートである。

以下に、添付図面を参照して、本発明に係る音声対話システム及び音声対話方法の好適な実施例を詳細に説明する。

まず、本実施例１に係る音声対話システムの概念について説明する。図１は、本実施例１に係る音声対話システムの概念の説明図である。本実施例１では、音声対話システムを搭載したロボットである音声対話ロボット１０が、ユーザの音声を認識し、認識の結果に対応した内容の音声を出力することでユーザとの音声対話を行う。

音声対話ロボット１０は、後述するようにスピーカ１１とマイク１２を備えており、スピーカ１１から音声の出力を行う発話モードと、ユーザの音声をマイク１２により集音して音声認識する音声認識モードとを切り替えて動作する。

発話モードにおいては、音声対話ロボット１０は、スピーカ１１から音声の出力を行い、音声の出力が完了した場合に発話モードを終了して音声認識モードに移行する。音声対話ロボット１０は、発話モードではユーザの音声認識は行わないが、マイク１２により集音を行い、事前に登録した自装置の音声の特徴データとの類似度を算出する。

音声対話ロボット１０が音声を出力し、ユーザが発話していない状態では、マイク１２は音声対話ロボット１０の音声を集音することになり、事前に登録した自装置の音声の特徴データとの類似度は高い値となる。

一方、音声対話ロボット１０による音声の出力中にユーザが発話を行うと、マイク１２が集音する音声は、音声対話ロボット１０の音声とユーザの音声とが混じった合成音声となるので、事前に登録した自装置の音声の特徴データとの類似度が低下する。

音声対話ロボット１０は、音声の出力の完了前に類似度が閾値以下となった場合には、ユーザの発話を検知したとして、音声の出力を途中で停止し、発話モードを終了する。すなわち、この場合には、発話モードは中断により終了して音声認識モードに移行することになる。

このように、音声対話ロボット１０は、スピーカ１１により出力される自装置の音声の特徴データを事前に登録し、発話モードにおける音声の出力中にマイク１２により集音した音声と自装置の音声の特徴データとの類似度を算出し、類似度が閾値以下となった場合には発話モードを中断して音声認識モードに移行する。このため、ユーザが発話した場合には、速やかに音声認識モードに移行してユーザの音声を認識することができ、円滑な音声対話を行うことができる。

また、音声認識モードでは自装置の音声を集音することがないため、自装置の音声による誤認識を防止することができる。さらに、ユーザは自身の発言が音声対話ロボット１０により認識されていることを把握できるため、ストレス無く発言を行うことができる。音声対話ロボット１０からの音声の出力と、ユーザの発話とが同時に行われると、ユーザにとって自身の発言が音声対話ロボット１０に認識されているか否かがが不明確となるが、音声対話ロボット１０が音声の出力を中断すればユーザの発話を認識する状態に移行したとユーザが認識するからである。

次に、図１に示した音声対話ロボット１０の構成について説明する。図２は、図１に示した音声対話ロボット１０の構成を示す構成図である。図２に示すように、音声対話ロボット１０は、スピーカ１１、マイク１２、操作部１３、アクチュエータ１４、記憶部１５及び制御部１６を有する。

スピーカ１１は、音声対話ロボット１０による音声の出力に用いられる。マイク１２は、周囲の音を集音することで、ユーザの音声の入力を受け付ける入力受付部として機能する。操作部１３は、ボタン等により操作入力の受付を行う。なお、ボタンの操作入力に限らず、タブレットなどからの遠隔操作や、ジェスチャーの認識による操作受付を可能としてもよい。

アクチュエータ１４は、音声対話ロボット１０に物理的な動作を行わせるために用いられる。具体的には、音声対話ロボット１０の腕や首に相当する部材の動作、表情を示す部材の動作がアクチュエータ１４の駆動により制御される。ここでは、人型や動物型のロボットを想定しているが、音声対話ロボット１０の形状は任意に設計可能であり、アクチュエータ１４は、音声対話ロボット１０の物理的な動作に広く用いることができる。

記憶部１５は、ハードディスク装置や不揮発性メモリ等からなる記憶デバイスである。記憶部１５は、スピーカ１１により出力される自装置の音声の特徴データを自己音声特徴データ１５ａとして記憶する。

制御部１６は、音声対話ロボット１０の全体を制御する制御部であり、音声認識部１６ａ、発話処理部１６ｂ、音声登録部１６ｃ、類似度算出部１６ｄ、類似度判定部１６ｅ、状態遷移部１６ｆ及びアクチュエータ駆動処理部１６ｇを有する。

音声認識部１６ａは、音声認識モードにおいてユーザの音声を認識する処理を行う処理部である。具体的には、マイク１２が集音した入力音声からユーザの音声を抽出して分析し、ユーザによる発話の内容を特定する。

発話処理部１６ｂは、発話モードにおいて音声の出力を行う出力処理部である。具体的には、音声認識部１６ａによりユーザの発話の内容が特定された場合に、特定された発話の内容に対して適切な応答の内容を決定し、決定した内容の出力音声をスピーカ１１から出力する。また、ユーザによる発話が行われていない状態で、特定の内容の出力音声をスピーカ１１から出力することも可能である。

音声登録部１６ｃは、スピーカ１１から出力される自装置の音声、すなわち出力音声の特徴データを自己音声特徴データ１５ａとして記憶部１５に格納する処理を行う。特徴データは、例えば出力音声を周波数分析してその特徴を示すデータを生成することで得られる。具体的には、ＬＰＣ（Linear Predictive Coding）ケプストラム係数や、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）等の任意の手法を用いることができる。

類似度算出部１６ｄは、発話モードにおいてマイク１２が集音した入力音声と自己音声特徴データ１５ａとの類似度を算出する処理部である。具体的には、音声登録部１６ｃが出力音声から自己音声特徴データ１５ａを生成する際と同様の処理を入力音声に対して行うことで入力音声の特徴データを生成し、入力音声の特徴データと自己音声特徴データ１５ａとの類似度を算出することになる。

ここで、類似度算出部１６ｄは、マイク１２が集音した入力音声に対して周波数フィルタを施すことで、音声以外の音の影響を低減し、音声部分を抽出した上で、入力音声の特徴データを生成する。また、入力音声の特徴データの生成時には、入力音声から所定時間の部分音声を音声フレームとして複数切り出し、音声フレームごとに特徴データを生成する。従って、自己音声特徴データ１５ａとの類似度についても、複数の音声フレームについてそれぞれ算出される。

類似度判定部１６ｅは、類似度算出部１６ｄにより算出された類似度が閾値以下であるか否かを判定する処理を行う。類似度判定部１６ｅは、類似度が閾値以下となる音声フレームが一定数連続した場合に、ユーザの発話を検知したものとする。１つの音声フレームの長さと、ユーザの発話を検知するための音声フレームの数とを調整することで、突発的なノイズを除去し、適切にユーザの発話を検知することが可能である。

状態遷移部１６ｆは、発話モードと音声認識モードの切り替えを制御する動作制御部である。具体的には、状態遷移部１６ｆは、発話モードにおいて、発話処理部１６ｂが決定した内容の出力音声の出力が完了するか、ユーザの発話が検知された場合に、発話モードを終了して音声認識モードに移行させる。

ユーザの発話により発話モードを終了する場合には、発話処理部１６ｂが決定した内容の出力音声の出力を途中で停止させて発話モードを終了する。なお、発話処理部１６ｂが決定した内容の出力音声の出力を途中で停止した後、特定の音声を出力させた上で発話モードを終了しても良い。この特定の音声には、例えば「どうされましたか？」などのように、音声対話ロボット１０がユーザの音声を認識する状態に移行することをユーザに伝え、ユーザの発話を促す内容の音声を用いる。

また、状態遷移部１６ｆは、音声認識モードにおいて、ユーザの発話の終了を検知した場合に、音声認識モードを終了して発話モードに移行させる。ユーザの発話の終了は、例えば「無音の状態が所定時間連続した」などの条件により検知すればよい。

アクチュエータ駆動処理部１６ｇは、アクチュエータ１４の駆動を制御する処理部である。アクチュエータ１４は、例えば音声対話ロボット１０の発話の内容などに合わせて駆動される。かかるアクチュエータ１４の制御により、発話時の身振りや表情の変化を摸した動作を行わせることができる。この他、ユーザの発話に対する相槌や、音声対話ロボット１０の移動にもアクチュエータ１４の駆動制御を用いることができる。

図３は、ユーザの発話による類似度の低下についての説明図である。図３に示すように、音声対話ロボット１０が発話している区間では、音声対話ロボット１０の出力音声が入力音声に含まれ、ユーザが発話している区間では、ユーザの音声が入力音声に含まれる。このため、音声対話ロボット１０の発話区間とユーザの発話区間が重複する区間では、出力音声とユーザの音声の双方が入力音声に含まれることになる。

従って、入力音声の特徴データと自己音声特徴データ１５ａとの類似度を算出すると、音声対話ロボット１０のみが発話している区間では類似度は閾値を超えた値となるが、ユーザが発話している区間では、類似度が低下して閾値以下となる。

次に、音声対話ロボット１０の処理手順について説明する。図４は、自己音声特徴データ１５ａの登録処理の処理手順を示すフローチャートである。まず、音声登録部１６ｃは、操作部１３への操作入力などにより、登録モードを開始する（ステップＳ１０１）。

登録モードの開始後、音声登録部１６ｃは、登録対象の音声を取得する（ステップＳ１０２）。この登録対象の音声の取得は、例えばスピーカ１１から音声の出力を行い、マイク１２により集音することで行う。また、予め他の装置で取得された音声データを受け付けても良い。

スピーカ１１から音声の出力を行ってスピーカ１１により集音する場合には、ノイズの少ない環境で行うことが望ましい。若しくは、音声対話ロボット１０を運用する実環境で登録対象の音声の取得を行ってもよい。さらに、アクチュエータ１４を動作させつつ登録対象の音声の取得を行えば、アクチュエータ１４の駆動音と出力音とが合成された音声を登録することができる。

音声登録部１６ｃは、取得した音声の特徴データを算出し（ステップＳ１０３）、自己音声特徴データ１５ａとして記憶部１５に登録して（ステップＳ１０４）、登録モードを終了する（ステップＳ１０５）。

図５は、音声認識モードの処理手順を示すフローチャートである。まず、状態遷移部１６ｆにより音声認識モードが開始されると（ステップＳ２０１）、音声認識部１６ａは、マイク１２が集音した音を入力音声として取得する（ステップＳ２０２）。その後、状態遷移部１６ｆは、ユーザの発話が終了したか否かを判定する（ステップＳ２０３）。ユーザの発話の終了は、例えば「無音の状態が所定時間連続した」などの条件により検知すればよい。

ユーザの発話が終了していなければ（ステップＳ２０３；Ｎｏ）、音声認識部１６ａは、ステップＳ２０２に移行し、入力音声の取得を継続する。一方、ユーザの発話が終了したならば（ステップＳ２０３；Ｙｅｓ）、音声認識部１６ａは、取得した入力音声に対して音声認識処理を行う（ステップＳ２０４）。この音声認識処理により、ユーザによる発話の内容が特定される。発話処理部１６ｂは、特定されたユーザの発話の内容に対して適切な応答の内容を決定する（ステップＳ２０５）。

その後、音声認識部１６ａは音声認識モードを終了し（ステップＳ２０６）、状態遷移部１６ｆは音声認識モードから発話モードへの移行を行う（ステップＳ２０７）。

図６は、発話モードの処理手順を示すフローチャートである。まず、状態遷移部１６ｆにより発話モードが開始されると（ステップＳ３０１）、発話処理部１６ｂは、スピーカ１１からの音声の出力を行う（ステップＳ３０２）。スピーカ１１から出力する音声の内容は、ユーザの発話の内容に応じて決定される。若しくは、ユーザによる発話が行われていない状態での出力用に予め用意した特定の内容を用いることもできる。

また、類似度算出部１６ｄは、マイク１２が集音した音を入力音声として取得し（ステップＳ３０３）、入力音声の特徴データと自己音声特徴データ１５ａとの類似度を算出する（ステップＳ３０４）。

類似度判定部１６ｅは、類似度算出部１６ｄにより算出された類似度が閾値以下であるか否かを判定する（ステップＳ３０５）。その結果、類似度が閾値以下である場合（ステップＳ３０６；Ｙｅｓ）、より詳細には、類似度が閾値以下となる音声フレームが一定数連続した場合、状態遷移部１６ｆは、発話処理部１６ｂが決定した内容の出力音声の出力を途中で停止させる（ステップＳ３１０）。停止後に、発話を途中で停止したことに対応する特定の音声を出力させてもよい。

類似度が閾値以下でない場合（ステップＳ３０６；Ｎｏ）、より詳細には、類似度が閾値以下となる音声フレームの一定数の連続が生じていない場合、発話処理部１６ｂは、音声の出力を完了したか否かを判定する（ステップＳ３０７）。その結果、音声の出力が完了していなければ（ステップＳ３０７；Ｎｏ）、ステップＳ３０２に移行し、音声の出力を継続する。

音声の出力が完了した場合（ステップＳ３０７；Ｙｅｓ）、若しくはステップＳ３１０で音声の出力を途中で停止した場合、発話処理部１６ｂは発話モードを終了し（ステップＳ３０８）、状態遷移部１６ｆは発話モードから音声認識モードへの移行を行って（ステップＳ３０９）、処理を終了する。

上述してきたように、本実施例１に係る音声対話ロボット１０は、自装置がスピーカ１１から出力する音声の特徴を示す自己音声特徴データ１５ａを記憶部１５に登録し、発話モードにおける音声の出力中にマイク１２により集音した入力音声の特徴データと自己音声特徴データ１５ａとの類似度を算出し、類似度が閾値以下となった場合には発話モードを中断して音声認識モードに移行する。このため、ユーザが発話した場合には、速やかに音声認識モードに移行してユーザの音声を認識することができ、円滑な音声対話を行うことができる。

また、音声認識モードでは自装置の音声を集音することがないため、自装置の音声による誤認識を防止することができる。さらに、ユーザは自身の発言が音声対話ロボット１０により認識されていることを把握できるため、ストレス無く発言を行うことができる。

実施例１では、自装置がスピーカ１１から出力する音声の特徴を示す自己音声特徴データ１５ａを記憶部１５に登録し、自己音声特徴データ１５ａを用いて発話の中断に係る制御を行う構成について説明を行ったが、自装置がスピーカ１１から出力する音声以外の音声をさらに登録して発話の中断に係る制御を行ってもよい。

例えば、音声対話ロボット１０がユーザとの対話を行っている場合に、館内放送や背景音楽（ＢＧＭ：background music）がマイク１２により集音されると、館内放送や背景音楽により類似度の低下が生じ、ユーザが発話したと誤認識して音声の出力を中断する可能性がある。

そこで、本実施例２では、発生が予測される音声を除外対象として予め登録しておき、類似度の低下が除外対象により生じている場合には音声の出力を継続する構成について説明を行う。

図７は、本実施例２に係る音声対話ロボット１１０の動作についての説明図である。図７に示す音声対話ロボット１１０は、自己音声特徴データ１５ａに加え、除外対象とするべき音声の特徴を除外対象音声特徴データとして登録している。

音声対話ロボット１１０は、発話モードで音声を出力中に、入力音声の特徴データと自己音声特徴データ１５ａとの類似度を算出し、類似度の比較により他者（ユーザ又は除外対象）の発話を検知する。

他者の発話を検知したならば、音声対話ロボット１１０は、入力音声の特徴データと除外対象音声特徴データとの類似度を算出し、除外対象に該当するか否かを判定する。その結果、除外対象に該当する場合には、音声の出力を停止せず、発話モードを継続する。一方、場外対象に該当する場合には、音声の出力を停止し、発話モードを中断して音声認識モードに移行する。

次に、図８を参照し、図７に示した音声対話ロボット１１０の構成について説明する。図８は、図７に示した音声対話ロボット１１０の構成を示す構成図である。図８に示すように、音声対話ロボット１１０は、記憶部１５に除外対象音声特徴データ１５ｂをさらに記憶する。また、制御部１６における音声登録部１１６ｃ、類似度算出部１１６ｄ、類似度判定部１１６ｅ、状態遷移部１１６ｆの動作が図２に示した音声対話ロボット１０と異なる。その他の構成及び動作は図２に示した音声対話ロボット１０と同様であるので、同一の構成要素には同一の符号を付して説明を省略する。

除外対象音声特徴データ１５ｂは、除外対象とするべき音声の特徴を示すデータである。例えば、館内放送や背景音楽を除外対象音声特徴データ１５ｂとして登録することができる。また、特定の人物の音声を登録することも可能である。

音声登録部１１６ｃは、自己音声特徴データ１５ａの登録処理に加え、除外対象音声特徴データ１５ｂの登録処理を行う。具体的には、登録モードの開始時などに、自己音声特徴データ１５ａを登録するか除外対象音声特徴データ１５ｂを登録するかを選択する操作を受け付けて登録を行えばよい。

類似度算出部１１６ｄは、入力音声と自己音声特徴データ１５ａとの類似度の算出に加え、入力音声と除外対象音声特徴データ１５ｂとの類似度の算出を行う。類似度の算出に係る処理については、実施例１と同様であるが、除外対象音声特徴データ１５ｂが複数登録されている場合には、それぞれの除外対象音声特徴データ１５ｂについて類似度を算出する。

類似度判定部１１６ｅは、入力音声の特徴データと自己音声特徴データ１５ａとの類似度と閾値との比較に加え、入力音声の特徴データと除外対象音声特徴データ１５ｂとの類似度と閾値との比較を行う。入力音声の特徴データと自己音声特徴データ１５ａとの類似度と閾値との比較は、他者の音声の検知に用いられる。入力音声の特徴データと除外対象音声特徴データ１５ｂとの類似度と閾値との比較は、検知した他者の音声が除外対象であるか否かを識別するために用いる。これらの閾値は同一の値ではなく、それぞれ適切に設定する。

状態遷移部１１６ｆは、発話モードにおいて、他者の音声を検知し、検知した他者の音声が除外対象に該当しない場合に発話モードを中断するが、検知した他者の音声が除外対象である場合には発話モードを継続する。なお、音声の出力が完了した場合の発話モードの終了と、音声認識モードの終了については実施例１と同様である。

図９は、本実施例２における発話モードの処理手順を示すフローチャートである。まず、状態遷移部１１６ｆにより発話モードが開始されると（ステップＳ４０１）、発話処理部１６ｂは、スピーカ１１からの音声の出力を行う（ステップＳ４０２）。スピーカ１１から出力する音声の内容は、ユーザの発話の内容に応じて決定される。若しくは、ユーザによる発話が行われていない状態での出力用に予め用意した特定の内容を用いることもできる。

また、類似度算出部１１６ｄは、マイク１２が集音した音を入力音声として取得し（ステップＳ４０３）、入力音声の特徴データと自己音声特徴データ１５ａとの類似度を算出する（ステップＳ４０４）。

類似度判定部１１６ｅは、類似度算出部１１６ｄにより算出された類似度が閾値以下であるか否かを判定する（ステップＳ４０５）。その結果、類似度が閾値以下である場合（ステップＳ４０６；Ｙｅｓ）、より詳細には、類似度が閾値以下となる音声フレームが一定数連続した場合、類似度算出部１１６ｄは、入力音声の特徴データと除外対象音声特徴データ１５ｂとの類似度を算出する（ステップＳ４１０）。

入力音声の特徴データと除外対象音声特徴データ１５ｂとの類似度が閾値未満であれば、除外対象ではないとして（ステップＳ４１１；Ｎｏ）、状態遷移部１１６ｆは、発話処理部１６ｂが決定した内容の出力音声の出力を途中で停止させる（ステップＳ４１２）。停止後に、発話を途中で停止したことに対応する特定の音声を出力させてもよい。

自己音声特徴データとの類似度が閾値以下でない場合（ステップＳ４０６；Ｎｏ）、もしくは、自己音声特徴データとの類似度が閾値以下でかつ除外対象音声特徴データ１５ｂとの類似度が閾値以上である場合（ステップＳ４１１；Ｙｅｓ）、発話処理部１６ｂは、音声の出力を完了したか否かを判定する（ステップＳ４０７）。その結果、音声の出力が完了していなければ（ステップＳ４０７；Ｎｏ）、ステップＳ４０２に移行し、音声の出力を継続する。

音声の出力が完了した場合（ステップＳ４０７；Ｙｅｓ）、若しくはステップＳ４１２で音声の出力を途中で停止した場合、発話処理部１６ｂは発話モードを終了し（ステップＳ４０８）、状態遷移部１１６ｆは発話モードから音声認識モードへの移行を行って（ステップＳ４０９）、処理を終了する。

上述してきたように、本実施例２に係る音声対話ロボット１１０は、自己音声特徴データ１５ａを登録するとともに、除外対象とするべき音声の特徴を示す除外対象音声特徴データ１５ｂをさらに登録し、入力音声の特徴データと自己音声特徴データ１５ａとの類似度の低下が除外対象により生じている場合には音声の出力を継続する。このため、館内放送や背景音楽をユーザの発話と誤認識して音声の出力を中断する事態を防止できる。

なお、本実施例２では、除外対象とするべき音声の特徴を登録する場合を例に説明を行ったが、警備員や医師の音声など、優先して認識するべき音声を優先対象として登録する構成としてもよい。また、他の音声対話ロボットの音声を優先対象として登録すれば、音声認識を用いて複数の音声対話ロボットを連携させることができる。また、ユーザとの対話の開始時にユーザの音声を優先対象として登録してもよい。さらに、自装置のアクチュエータの駆動音を除外対象音声特徴データ１５ｂとして登録してもよい。

また、上記実施例１及び２では、音声対話システムをロボットに搭載する場合について説明を行ったが、本発明はこれに限定されるものではなく、通信回線を介した自動応答や、携帯端末上でのユーザ支援など、任意の音声対話システムに用いることができる。

以上のように、本発明に係る音声対話システム及び音声対話方法は、ユーザとの円滑な音声対話の実現に適している。

１０、１１０音声対話ロボット
１１スピーカ
１２マイク
１３操作部
１４アクチュエータ
１５記憶部
１５ａ自己音声特徴データ
１５ｂ除外対象音声特徴データ
１６制御部
１６ａ音声認識部
１６ｂ発話処理部
１６ｃ、１１６ｃ音声登録部
１６ｄ、１１６ｄ類似度算出部
１６ｅ、１１６ｅ類似度判定部
１６ｆ、１１６ｆ状態遷移部
１６ｇアクチュエータ駆動処理部

Claims

音声の入力を受け付ける入力受付部と、前記入力受付部により受け付けた入力音声に応じて音声の出力を行う出力処理部とを備えた音声対話システムであって、
前記出力処理部により出力される出力音声を自己音声として登録する登録部と、
前記出力処理部による音声の出力中に、前記入力音声と前記自己音声との類似度を算出する類似度算出部と、
前記類似度算出部により算出された類似度に基づいて、前記出力処理部による音声の出力を停止するか否かを制御する動作制御部と
を備え、
前記登録部は、前記自己音声以外の所定の音声を他者音声としてさらに登録し、
前記動作制御部は、前記入力音声と前記自己音声との類似度が閾値以下となった場合に、前記入力音声と前記他者音声との類似度に応じて前記出力処理部による音声の出力を停止するか否かを決定する
ことを特徴とする音声対話システム。
前記入力受付部により受け付けた入力音声に対して音声認識を行う音声認識部をさらに備え、
前記出力処理部は、前記音声認識部による音声認識の結果に応じて出力する音声の内容を決定し、
前記動作制御部は、前記音声認識部による音声認識を行う音声認識モードと、前記出力処理部による音声の出力を行う発話モードとを切り替える制御を行う
ことを特徴とする請求項１に記載の音声対話システム。
前記動作制御部は、前記出力処理部による音声の出力が完了するか、前記類似度に基づいて前記音声の出力を停止した場合に前記発話モードから前記音声認識モードに切り替えることを特徴とする請求項２に記載の音声対話システム。
前記出力処理部は、前記類似度に基づいて前記音声の出力を停止する場合に、音声の出力の停止に対応する特定の音声を出力した上で音声の出力を停止することを特徴とする請求項１〜３のいずれか一つに記載の音声対話システム。
前記登録部は、前記出力音声の周波数に係る特徴を分析して生成した特徴データを前記自己音声として登録し、
前記類似度算出部は、前記入力音声の周波数に係る特徴を分析して生成した特徴データと前記自己音声として登録した特徴データとの類似度を算出する
ことを特徴とする請求項１〜４のいずれか一つに記載の音声対話システム。
前記入力受付部と同一の筐体に設けられ、物理的な動作を行うアクチュエータをさらに備え、
前記登録部は、前記アクチュエータの動作によって生じる音を前記他者音声として登録する
ことを特徴とする請求項１〜５のいずれか一つに記載の音声対話システム。
前記入力受付部と同一の筐体に設けられ、物理的な動作を行うアクチュエータをさらに備え、
前記登録部は、前記アクチュエータの動作によって生じる音と前記出力処理部により出力される出力音声とが合成された音声を自己音声として登録する
ことを特徴とする請求項１〜５のいずれか一つに記載の音声対話システム。
音声の入力を受け付ける入力受付部と、前記入力受付部により受け付けた入力音声に応じて音声の出力を行う出力処理部とを備えた音声対話システムの音声対話方法であって、
前記出力処理部により出力される出力音声を自己音声として登録する登録ステップと、
前記出力処理部による音声の出力中に、前記入力音声と前記自己音声との類似度を算出する類似度算出ステップと、
前記類似度算出ステップにより算出された類似度に基づいて、前記出力処理部による音声の出力を停止するか否かを制御する動作制御ステップと
を含み、
前記登録ステップは、前記自己音声以外の所定の音声を他者音声としてさらに登録し、
前記動作制御ステップは、前記入力音声と前記自己音声との類似度が閾値以下となった場合に、前記入力音声と前記他者音声との類似度に応じて前記出力処理部による音声の出力を停止するか否かを決定する
ことを特徴とする音声対話方法。