JP6531776B2

JP6531776B2 - 音声対話システムおよび音声対話方法

Info

Publication number: JP6531776B2
Application number: JP2017086257A
Authority: JP
Inventors: 池野　篤司; 篤司池野; 智水摩; 快矢統坂本; 裕人今野; 西島　敏文; 敏文西島; 刀根川　浩巳; 浩巳刀根川; 倫秀梅山; 佐々木　悟; 悟佐々木
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-04-25
Filing date: 2017-04-25
Publication date: 2019-06-19
Anticipated expiration: 2037-04-25
Also published as: US10629202B2; CN108735207A; US20180308478A1; JP2018185401A; CN108735207B

Description

本発明は、音声対話システムに関する。

音声対話システムが音声認識に失敗する原因として、スピーカーから出力中の音声をマイクが拾い、拾った音声を対象として音声認識処理を開始することが挙げられる。これに対処するために、音声対話システムは、音声出力中にはマイクをオフにしたりゲインを下げたりする音声スイッチ機能を有する。

ここで、音声対話システムが２つの音声出力を比較的短い間隔で連続して行う場合、その間はマイクが通常通り機能する。この間にユーザが発話を開始することが想定され、その場合、２つ目の音声出力によってマイクがオフにされた時点でユーザ発話の入力が打ち切られるため、途中までの発話に基づいて音声認識が行われることになり正しく動作しない。また、音声対話システムは、音声データを発話し、その後わずかな時間をおいてユーザの音声入力を受け付け可能であることを示す信号（例えば「ピコッ」という音）を出力する場合もある。このとき、発話データの出力中および信号音の出力中には音声を拾わないが、２つの出力の間には不要な音声（入力を意図しないユーザの声や周囲の雑音）を拾ってしまうという問題が生じる。

従来技術（特許文献１−５）には、目的音声以外が入力されることを防止するために、非目的音声を減衰させることが行われている。これらの文献では、以下のような処理が行われる。まず、目的とする話者の入力音声信号が目的方向から到来している目的音声区間と、話者以外の音声以外である妨害音声（話者以外の音声）やそれに重畳された周辺雑音等の非目的音声区間を判別する。そして、非目的音声区間では、マイクのゲインを下げることで非目的音声を減衰させている。

しかしながら、これらの従来技術では、上述した問題は解消できない。

特開２０１３−１２５０８５号公報特開２０１３−１８２０４４号公報特開２０１４−７５６７４号公報国際公開第２０１４／０５４３１４号公報特開２００５−２５１００号公報

本発明の目的は、音声対話システムが短時間に複数回音声を出力する場合に、不要な音声入力を受け付けて想定外の動作が発生してしまうことを防止することにある。

本発明の一態様に係る音声対話システムは、
スピーカーと、
前記スピーカーから音声を出力している間はマイクゲインが低く設定されるマイクと、
前記マイクから入力される入力音声データに対して音声認識処理を施す音声認識部と、
出力音声データを前記スピーカーから出力する音声出力部と、
複数の音声出力を閾値以下の時間間隔で出力する場合に、少なくとも前記複数の音声出力の間に非可聴音を前記スピーカーから出力する非可聴音出力部と、
を備える。

本態様の音声対話システムにおいて、スピーカーから音声を出力している間はそうでない場合よりもマイクゲインが低く設定される。マイクゲインを低く設定することには、マイク機能をオフにすることも含まれる。

本態様におけるスピーカーは非可聴音を出力可能である。非可聴音は、可聴音よりも高くてもよいし低くてもよい。可聴音は一般に２０Ｈｚ〜２０ｋＨｚといわれるが、１７ｋＨｚ程度以上であれば聞き取れないユーザが十分多いので、非可聴音として１７ｋＨｚあるいはそれ以上の音を採用してもよい。また、非可聴音は、通常の使用態様においてユーザが聞き取れないような音であればよく、可聴音周波数の音成分を一部に含んでいてもかまわない。本態様におけるマイクは、スピーカーが出力する非可聴音を取得できてもよいし取得できなくてもよい。

本態様における非可聴音出力部は、音声対話システムが複数の音声出力を閾値以下の時間間隔で出力する場合に、少なくともその間に非可聴音をスピーカーから出力する。時間間隔閾値は、例えば、２つの音声出力が連続するものでありその間にユーザが発話することが想定されないような時間間隔とすればよい。出力する非可聴音はどのようなものであってもよく、例えば、非可聴音対域内でのホワイトノイズや単一周波数音を採用できる。非可聴音が出力されるタイミングは、先の音声出力の終了時点から後の音声出力の開示時点までを含めばよい。例えば、非可聴音が出力されるタイミングは、先の音声出力の開始時点から後の音声出力の終了時点までとしてもよい。

本態様において、第１の音声と第２の音声を前記閾値以下の時間間隔で出力する場合に、以下に記載の処理を行う制御部を有することも好ましい。すなわち、制御部は、第１の音声の再生開始を指示するとともに、非可聴音の連続再生開始を指示し、第１の音声の再生終了後に、第２の音声の再生開始および非可聴音の連続再生終了を指示する。非可聴音の連続再生終了の指示は、第２の音声の再生開始指示と同時またはその後に行われることが好ましい。あるいは、制御部は、第１の音声の再生開始を指示するとともに前記非可聴音の連続再生開始を指示し、第１の音声の再生終了後に第２の音声の再生開始を指示し、第２の音声の再生終了後に非可聴音の連続再生終了を指示してもよい。

本態様における音声認識部は、マイクから入力される入力音声データに対して音声認識処理を施す。この際、音声認識部は、入力音声データの可聴周波数帯における音量が所定値以上である場合に音声認識処理を行うとよい。また、音声認識部は、フィルタ処理によって非可聴音が除去された音声データを認識対象とするとよい。

なお、本発明は、上記手段の少なくとも一部を備える音声対話システムとして捉えることもできる。本発明は、また、上記処理の少なくとも一部を実行する音声対話方法あるいは発話出力方法として捉えることができる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば、音声対話システムが短時間に複数回音声を出力する場合に、不要な音声入力を受け付けて生じる予期しない動作が発生することを防止できる。

図１は、実施形態に係る音声対話システムのシステム構成を示す図である。図２は、実施形態に係る音声対話システムの機能構成を示す図である。図３は、実施形態に係る音声対話システムにおける音声対話方法の全体的な処理の流れを示すフローチャートである。図４は、実施形態に係る音声対話システムにおける対話処理（発話処理）の流れの例を示す図である。図５は、実施形態に係る音声対話システムにおける対話処理（発話処理）を説明する図である。

以下に図面を参照して、この発明の好適な実施の形態を例示的に詳しく説明する。以下で説明される実施形態は音声対話ロボットをローカルの音声対話端末として用いたシステムであるが、ローカルの音声対話端末はロボットである必要はなく任意の情報処理装置や音声対話インタフェースなどを用いることができる。

＜システム構成＞
図１は本実施形態に係る音声対話システムのシステム構成を示す図であり、図２は機能構成を示す図である。本実施形態に係る音声対話システムは、図１、図２に示すように、ロボット１００、スマートフォン１１０、音声認識サーバ２００、対話サーバ３００から構成される。

ロボット（音声対話ロボット）１００は、マイク（音声入力部）１０１、スピーカー（音声出力部）１０２、音声スイッチ制御部１０３、非可聴音ノイズ出力部１０４、コマンド送受信部１０５、通信部（ＢＴ：Bluetooth（登録商標））１０６を含む。図示は省略
しているが、ロボット１００は、画像入力部（カメラ）、可動関節（顔、腕、足等）、当該可動関節の駆動制御部、各種のライト、当該ライトの点灯・消灯などの制御部などを有している。

ロボット１００は、マイク１０１によってユーザからの音声を取得し、画像入力部によってユーザを写した画像を取得する。ロボット１００は、通信部１０５を介して入力音声と入力画像をスマートフォン１１０に送信する。ロボット１００は、スマートフォン１１０からコマンドを取得すると、それに応じてスピーカー１０２から音声を出力したり、可動関節部を駆動したりする。

音声スイッチ制御部１０３は、スピーカー１０２から音声が出力されている間、マイク１０１のゲインを低下させる処理を行う。後述するように、本実施形態においては入力音声の音量が閾値以上である場合に音声認識処理が行われる。したがって、音声スイッチ制御部１０３は、音声認識処理が開始されない程度の音量となるようにマイクのゲインを低下させればよい。音声スイッチ制御部１０３は、ゲインをゼロに設定してもよい。本実施形態では、ロボット１００はマイク１０１やスピーカー１０２をオン／オフ制御は行わず、これらのオン／オフ制御はスマートフォン１１０からの指示によって行われる。ロボット１００は、音声スイッチ制御部１０３によってスピーカー１０２から出力される音声がマイク１０１に入力されることを防止している。

非可聴音ノイズ出力部１０４は、非可聴音帯域のホワイトノイズを、スピーカー１０２から出力するよう制御する。後述するように、非可聴音ノイズ出力部１０４の出力は、音声出力コマンドを受信したコマンド送受信部１０５からの指示によって行われる。

コマンド送受信部１０５は、通信部（ＢＴ）１０６を介してスマートフォン１１０から
コマンドを受け取り当該コマンドにしたがって、ロボット１００を制御する。また、コマンド送受信部１０５は、通信部（ＢＴ）１０６を介してスマートフォン１１０にコマンドを送信する。

通信部（ＢＴ）１０６は、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格にしたがって、スマートフォン１１０とのあいだで通信を行う。

スマートフォン１１０は、マイクロプロセッサなどの演算装置、メモリなどの記憶部、タッチスクリーンなどの入出力装置、通信装置などを含むコンピュータである。スマートフォン１００は、マイクロプロセッサがプログラムを実行することにより、入力音声処理部１１１、音声合成処理部１１２、制御部１１３、通信部（ＢＴ）１１７、通信部（ＴＣＰ／ＩＰ）１１８を備える。

入力音声処理部１１１は、ロボット１００からの音声データを受け取り、通信部１１８を介して音声認識サーバ２００に送信して音声認識処理を依頼する。なお、入力音声処理部１１１が一部の前処理（雑音除去・話者分離等）を行ってから、音声認識サーバ２００へ音声認識処理を依頼してもよい。入力音声処理部１１１は、音声認識サーバ２００による音声認識結果を通信部１１８を介して対話サーバ３００へ送信し、ユーザ発話に応答する応答文のテキスト（ロボット１００に発話させる文章）の生成を依頼する。

音声合成処理部１１２は、応答文のテキストを取得して、音声合成処理を行ってロボット１００に発話させる音声データを生成する。

制御部１１３は、スマートフォン１１０の全体的な処理を司る。通信部（ＢＴ）１１７は、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格にしたがって、ロボット１００とのあいだで通信を行う。通信部（ＴＣＰ／ＩＰ）１１８は、ＴＣＰ／ＩＰ規格にしたがって音声認識サーバ２００や対話サーバ３００とのあいだで通信を行う。

音声認識サーバ２００は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、通信部２０１および音声認識処理部２０２を備える。音声認識サーバ２００は、従来技術に係る非目的音声の除去技術を用いることも好ましい。音声認識サーバ２００は、豊富な資源を有しており、高精度な音声認識が可能である。

対話サーバ３００は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、通信部３０１、応答作成部３０２、情報記憶部３０３を備える。情報記憶部３０３には、応答作成のための対話シナリオが格納される。応答作成部３０２は、情報記憶部３０３の対話シナリオを参照して、ユーザ発話に対する応答を作成する。対話サーバ３００は、豊富な資源（高速な演算部や、大容量の対話シナリオＤＢなど）を有しており、高度な応答を生成可能である。

＜全体処理＞
図３を参照して、本実施形態に係る音声対話システムにおける全体的な処理の流れを説明する。図３に示すフローチャートの処理は、繰り返し実行される。

ステップＳ１０において、ロボット１００がマイク１０１からユーザの発話の音声の入力を受けると、ロボット１００は通信部１０６を介して入力音声データをスマートフォン１１０の入力音声処理部１１１に送信する。そして、入力音声処理部１１１が当該入力音声データを音声認識サーバ２００へ送信する。

ステップＳ１１において、音声認識サーバ２００の音声認識処理部２０２が音声認識処
理を実施する。

なお、ステップＳ１１の音声認識処理は、ユーザの発話の音量（可聴周波数帯域における音量）が所定値以上である場合に実施するようにする。そのために、スマートフォン１１０の入力音声処理部１１１は、入力音声データから可聴周波数帯成分をフィルタ処理によって抽出し、抽出後の音声データ音量を確認してもよい。入力音声処理部１１１は、この音量が所定値以上である場合のみ音声認識サーバ２００に音声データを送信する。音声認識サーバ２００に送信する音声データは、フィルタ処理後の音声データとするとよいが、入力音声データをそのまま送信してもよい。

ステップＳ１２において、スマートフォン１１０の入力音声処理部１１１が音声認識サーバ２００による認識結果を取得する。入力音声処理部１１１は、音声認識結果を対話サーバ３００へ送信して、応答文の作成を依頼する。なお、この際、音声認識結果以外の情報、例えば、ユーザの顔画像や現在位置などの情報を対話サーバ３００に送信してもよい。また、ここではスマートフォン１１０を介して音声認識結果を音声認識サーバ２００から対話サーバ３００へ送っているが、音声認識サーバ２００から対話サーバ３００へ直接音声認識結果を送ってもよい。

ステップＳ１３において、対話サーバ３００の応答作成部３０２は、音声認識結果に対する応答のテキストを生成する。この際、情報記憶部３０３に記憶されている対話シナリオを参照する。対話サーバ３００によって生成された応答文テキストはスマートフォン１１０に送信される。

ステップＳ１４において、スマートフォン１１０が対話サーバ３００から応答文テキストを受信すると、音声合成処理部１１２が音声合成処理により応答文テキストの音声データを生成する。

ステップＳ１５において、スマートフォン１１０からの指示に従ってロボット１００が応答文の音声を出力する。具体的には、スマートフォン１１０の制御部１１３が音声データを含む音声出力コマンドを生成してロボット１００に送信し、ロボット１００がこのコマンドに基づいてスピーカー１０２から応答文の音声データを出力する。本実施形態においては、ロボット１００からの音声出力は、基本的に、対話サーバ３００が生成した応答文とユーザに発話を促す信号音とを、短い時間間隔を開けて連続して出力することにより行われる。すなわち、ロボット１００から何らかの発話を行う場合には、応答文の出力の後に、システム発話の完了と音声認識の開始をユーザに伝えるための信号音（例えば、「ピコ」という音）を出力する。この際、本実施形態では、システム発話の間のユーザ発話を取得して音声認識処理の対象としないための処理を実施する。詳細は、以下で説明する。

＜音声出力処理＞
図４は、本実施形態に係る音声対話システムにおいてロボット１００から音声を出力する際の処理（図３のステップＳ１５）を説明する図である。上述したように、本実施形態では、対話サーバ３００が生成した応答文とユーザに発話を促す信号音とを、短い時間間隔で連続してロボット１００から出力する。図４は、このように２つの音声出力を閾値以下の時間間隔で連続して出力する場合の処理である。単一の音声出力を行う場合や、閾値以上の時間間隔を空けて複数の音声出力を行い場合には、図４に示す処理に従う必要は無い。

ステップＳ２０において、スマートフォン１１０の制御部１１３は、音声合成処理部１１２によって生成された応答文の音声データを取得する。

ステップＳ２１において、制御部１１３は、（１）応答文音声の再生開始と、（２）非可聴音ノイズのループ再生開始（連続再生開始）と、を指示する音声出力コマンドを生成して、ロボット１００に送信する。

ロボット１００がこのコマンドを受信すると、スピーカー１０２から応答文の音声データの再生を開始する（Ｓ３１）とともに、非可聴音ノイズのループ再生も開始する（Ｓ３２）。非可聴音ノイズのループ再生は、非可聴音ノイズ出力部１０４が非可聴音ノイズの音声データをスピーカー１０２に繰り返し出力することにより行われる。これにより、スピーカー１０２からは、応答文音声と非可聴音ノイズを重畳した音声が出力され、応答文音声の再生終了後は非可聴音ノイズのみが出力される。非可聴音ノイズの音声データはロボット１００にあらかじめ記憶しておけばよいが、ロボット１００が動的に生成したり、スマートフォン１１０からロボット１００に渡したりしてもよい。

ここで、非可聴音ノイズはユーザが聞き取れないように、非可聴音帯域（２０Ｈｚ〜２０ｋＨｚ以外）の音であればよい。また、非可聴音ノイズの出力は、音声スイッチ制御部１０３のマイクゲイン低減処理が有効となるように行う。例えば、マイクゲイン低減処理が有効になるために閾値以上の音量（強度）での出力が必要であれば、その閾値以上の音量で非可聴音ノイズを出力する。

ロボット１００が音声出力を行っている間は、音声スイッチ制御部１０３がマイク１０１のゲインを下げる制御を行う。したがって、音声出力中は、出力中の音声やユーザ発話などがマイク１０１から取得されて音声認識処理の対象となることを防止できる。

ロボット１００における応答文の再生（Ｓ３１）は、所定の時間がたつと終了する。ここで、ロボット１００のコマンド送受信部１０５は、応答文の再生が完了したことを通信によりスマートフォン１１０に通知してもよい。一方、非可聴音ノイズはループ再生されているので、明示的な停止指示を受けない限り再生が継続する。

応答文の再生完了の通知を受けると、スマートフォン１１０は、ユーザに発話を促すための信号音の再生開始を指示する音声出力コマンドを送信する（Ｓ２２）。再生完了通知に基づかずに、応答文の出力コマンド送信から所定時間後（応答文の長さによって定まる）に、信号音の再生開始を指示する音声出力コマンドを送信してもよい。

また、スマートフォン１１０は、信号音の再生開始コマンド送信の直後に、非可聴音ノイズのループ再生の停止を指示する音声出力コマンドを送信する（Ｓ２３）。なお、信号音の再生開始指示と非可聴音ノイズのループ再生停止指示は同時にロボット１００に送ってもよい。

ロボット１００は、信号音の再生開始指示を受け付けると、スピーカー１０２から信号音を出力する（Ｓ３３）。信号音の音声データは、音声出力コマンド内に格納されてスマートフォン１１０からロボット１００に渡されてもよいし、ロボット１００にあらかじめ格納されている音声データを利用してもよい。また、ロボット１００は、非可聴音ノイズのループ再生停止指示を受け付けると、非可聴音ノイズの出力を停止する。

上記の処理において、非可聴音ノイズのループ再生停止指示は、信号音の再生開始指示と同時またはその後であればよい。したがって、例えば、スマートフォン１１０が、ロボット１００から信号音の再生完了通知を受け取った後に、非可聴音ノイズのループ再生指示をロボット１００に送信してもよい。また、信号音の再生完了をロボット１１０が検知した段階でロボット１１０が非可聴音ノイズの連続再生を停止してもよい。これらの手法
の場合、厳密には信号音の再生が完了してから非可聴音ノイズの再生が停止するが、ユーザにとっては信号音と非可聴音ノイズの再生はほぼ同時にて終了することになる。

＜作用・効果＞
図５（Ａ）、図５（Ｂ）を参照して、本実施形態における音声出力処理の作用・効果を説明する。図５（Ａ）は本実施形態による音声出力を行うときの、出力音声とマイクゲインの関係を示す図である。図５（Ｂ）は比較例として、非可聴音ノイズの出力を行わずに２つの音声（応答文と信号音）を連続して出力するときの、出力音声とマイクゲインの関係を示す図である。図中のタイミングａ，ｂは応答文の出力開始および終了タイミングであり、タイミングｃ，ｄは信号音の出力開始および終了タイミングである。

いずれの手法であっても、応答文の出力中（タイミングａ〜ｂ）および信号音の出力中（タイミングｃ〜ｄ）は、音声スイッチ制御部１０３によってマイクゲインが下げられる。したがって、その間のユーザ発話やスピーカー１０２の出力音声が音声認識処理の対象となることを避けられる。

ここで、非可聴音ノイズを用いない手法（図５（Ｂ））の場合、応答文の出力終了時点ｂから信号音の出力開始時点ｃの間はスピーカー１０２から音声が出力されない。すなわち、タイミングｂ〜ｃのあいだは、音声スイッチ制御部１０３は機能せずマイクゲインは通常の値に設定される。したがって、この間に、入力を意図しないユーザの声や周囲の雑音などの不要な音声が入力されてしまう事態が起こりうる。そして、場合によっては、この間に取得した音声に対して音声認識処理が実行され、意図しない動作が発生する恐れがある。

これに対して、本実施形態の手法（図５（Ａ））の場合、応答文を出力した後も非可聴音ノイズのループ再生が継続される。すなわち、タイミングｂ〜ｃの間も音声スイッチ制御部１０３によってマイクゲインが低く設定される。したがって、この間に、入力を意図しないユーザの声や周囲の雑音などの不要な音声が入力されて音声認識処理が実行されることはなく、意図しない動作の発生を抑制できる。

また、本実施形態においては、スマートフォン１１０とロボット１００は無線通信により接続されており、ロボット１００からの音声出力のタイミングは制御遅延・通信遅延などが原因となってスマートフォン１１０において厳密は把握できない場合もある。本実施形態では、スマートフォン１１０において応答文音声や信号音の再生開始・終了の厳密なタイミングが把握できなくても、応答文と信号音の再生の合間に非可聴音ノイズが出力されることを保証でき、したがって、この間に不要な音声が入力されることを抑制できる。

＜変形例＞
上記の実施形態および変形例の構成は、本発明の技術的思想を逸脱しない範囲内で、適宜組み合わせて利用することができる。また、本発明は、その技術的思想を逸脱しない範囲で適宜変更を加えて実現しても構わない。

上記の説明では、２つの音声を短い時間間隔で連続して出力する場合の処理に焦点を当てて説明した。１つのみの音声出力を行う場合や、複数の音声出力を閾値以上の時間間隔を空けて出力する場合は、上記で説明したような図４に示す処理を行う必要は無い。したがって、スマートフォン１１０は、複数の音声出力を閾値以下の時間間隔で行うか否かを判断して、そうである場合のみ図４に示す処理を実行するようにしてもよい。あるいは、何らかの音声を出力する場合には必ず閾値以下の時間間隔で別の音声を出力する場合には、判断処理を挟まずに常に図４に示す処理を実行してもよい。

上記の説明では、連続して出力する音声として応答文と信号音の組み合わせを例示したが、出力音声の内容は特に限定されない。また、連続する音声は２つである必要はなく、３つ以上の音声を連続して出力してもよい。

音声対話システムは、上記の実施形態のようにロボット、スマートフォン、音声認識サーバ、対話サーバなどにより構成する必要は無い。上記の機能が実現できれば、システム全体をどのように構成してもよい。例えば、全ての機能を１つの装置で実行してもよい。あるいは、上記実施形態において１つの装置で実施している機能を複数の装置で分担して実行してもよい。また、各機能は上述の装置で実行する必要は無い。例えば、スマートフォンで実行している処理の一部をロボットにおいて実行するように構成してもかまわない。

１００：ロボット
１０１：マイク
１０２：スピーカー
１０３：音声スイッチ制御部
１０４：非可聴音ノイズ出力部
１０５：コマンド送受信部
１１０：スマートフォン
１１１：入力音声処理部
１１２：音声合成処理部
１１３：制御部
２００：音声認識サーバ
３００：対話サーバ

Claims

スピーカーと、
前記スピーカーから音声を出力している間はマイクゲインが低く設定されるマイクと、
前記マイクから入力される入力音声データに対して音声認識処理を施す音声認識部と、
出力音声データを前記スピーカーから出力する音声出力部と、
複数の音声出力を閾値以下の時間間隔で出力する場合に、少なくとも前記複数の音声出力の間に非可聴音を前記スピーカーから出力する非可聴音出力部と、
を備える、音声対話システム。
制御部をさらに備え、当該制御部は、
第１の音声と第２の音声を前記閾値以下の時間間隔で出力する場合に、
前記第１の音声の再生開始を指示するとともに、前記非可聴音の連続再生開始を指示し、
前記第１の音声の再生終了後に、前記第２の音声の再生開始および前記非可聴音の連続再生終了を指示する、
請求項１に記載の音声対話システム。
制御部をさらに備え、当該制御部は、
第１の音声と第２の音声を前記閾値以下の時間間隔で出力する場合に、
前記第１の音声の再生開始を指示するとともに、前記非可聴音の連続再生開始を指示し、
前記第１の音声の再生終了後に、前記第２の音声の再生開始を指示し、
前記第２の音声の再生終了後に、前記非可聴音の連続再生終了を指示する、
請求項１に記載の音声対話システム。
前記音声認識部は、前記入力音声データの可聴周波数帯における音量が所定値以上である場合に、音声認識処理を行う、
請求項１から３のいずれか１項に記載の音声対話システム。
スピーカーと、前記スピーカーから音声を出力している間はマイクゲインが低く設定されるマイクと、を備える音声対話システムが実行する音声対話方法であって、
第１の出力音声データを前記スピーカーから出力する第１音声出力ステップと、
第２の出力音声データを、前記第１の出力音声データの出力から閾値以下の時間間隔で前記スピーカーから出力する第２音声出力ステップと、
少なくとも前記第１の出力音声データの出力と前記第２の出力音声データの出力の間に非可聴音を前記スピーカーから出力する非可聴音出力ステップと、
を含む、音声対話方法。
請求項５に記載の方法の各ステップをコンピュータに実行させるためのプログラム。