JP2007072331A

JP2007072331A - 音声対話方法および音声対話システム

Info

Publication number: JP2007072331A
Application number: JP2005261548A
Authority: JP
Inventors: Akira Mochizuki; 亮望月; Kazuya Nomura; 和也野村
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-09-09
Filing date: 2005-09-09
Publication date: 2007-03-22

Abstract

【課題】ユーザが音声対話システムからの案内音声再生中に割り込んで発声する頻度を低減して、音声認識精度の向上した音声対話方法および音声対話システムを提供する。
【解決手段】音声出力する音声出力部と、ユーザからの音声を音声信号に変換する音声入力部と、音声出力部からの音声出力中に音声入力部から入力された音声信号を検出するタイミング検出部と、そのタイミング検出部が検出した割り込みタイミングを記録し、休止区間を挿入する位置を学習する割り込み学習部と、入力された音声信号に対して音声認識を行う音声認識部と、その音声認識部による音声認識結果に基づいて応答文を決定する対話シーケンス部と、その対話シーケンス部で決定した応答文に、割り込み学習部が当該応答文について学習して決定した休止位置に休止区間を挿入し、応答音声を生成する応答音声生成部とを備える。
【選択図】図１

Description

本発明は、音声対話システムとユーザとが互いに音声を用いて情報伝達を行う音声対話方法およびその音声対話システムに関する。

従来より、音声対話システムとしては、ユーザと音声対話システムとの間で音声による円滑な対話を実現するために、例えば、特許文献１に記載されているようなものがあった。

特許文献１に記載されている音声対話システムは、ユーザに対して案内音声を再生している最中に、マイクから入力した音声対話システムからの回り込み音声のみをキャンセルしてユーザの音声のみを音声認識することで、音声対話システムとユーザとが同時に発話されたときのユーザの音声を精度良く認識できるようにしたものである。

また、ユーザの発話開始時点を正しく検出することにより、音声認識の精度を高める方法として、特許文献２に記載されているようなものがあった。図１１は従来の音声対話システムの構成を示した図である。

図１１において、アナウンス発声装置１１１０は、システムアナウンス中に無音区間を設けてユーザの発話開始時刻を制御し、それに対応して事前に用意した発話開始時刻の予測分布１１０１から演算部１１０２で第１の発話開始点らしさを算出する。一方、発話検出用音響分析部１１０３が入力音声から特徴パラメータを抽出し、演算部１１０４で第２の発話開始点らしさを算出する。これらから演算部１１０５が第３の発話開始点らしさを算出し、それと基準値との比較により発話開始時刻を決定して音声認識を開始するものであった。
特開２００４−３３３７０４号公報（第６−８頁、第１図）特開平８−６５９０号公報（第８―９頁、第１図）

しかしながら、特許文献１に記載の音声対話システムでは、回り込み音声の伝達特性が変わりやすい空間で利用した場合、安定した音声認識結果を得ることができないという課題を有していた。また、特許文献２に記載の音声対話システムでは、発話開始時刻の決定にあらかじめ用意した予測分布を用いていたため、ユーザ毎の個人差による発話開始タイミングの違いや、同一ユーザにおいても音声対話システムに対する習熟度による発話開始タイミングの変化を反映することが困難であった。

本発明は、このような課題を解決するためになされ、ユーザが音声対話システムからの案内音声再生中に割り込んで発声する頻度を低減することにより、ユーザからの音声と音声対話システムからの回り込み音声とが混在することを減少させて、音声認識精度が向上した音声対話方法および音声対話システムを提供することを目的とする。

本発明の音声対話方法は、ユーザの発声した音声を検出して音声認識し、ユーザの所望する情報を音声で回答する音声対話システムに用いる音声対話方法であって、音声対話システムが音声出力中にユーザからの入力音声を検出し、割り込みタイミングとして記録する。そして、音声対話システムがその割り込みタイミングの記録からユーザによる音声入力の割り込み予測タイミングを算出する。その後、音声対話システムが、ユーザから割り込まれた音声出力と同一の音声出力をするときに、割り込み予測タイミングより以前に音声出力を停止する休止区間を挿入する。そして、音声対話システムが、その休止区間中にユーザからの入力音声を検出したとき、当該入力音声に対して音声認識を実行する。

これにより、音声対話システムからの音声が再生されている最中にユーザが発声した場合、音声対話システムは、ユーザの割り込み発声のタイミングを学習し、それ以降の対話場面においてシステムから同じ内容の音声を再生する場合は、ユーザの割り込み位置を予測して休止区間を挿入するので、ユーザの発声をこの休止区間で促すことになり、音声認識を精度良く行うことが可能となる。

また、本発明の音声対話方法において、休止区間を挿入する位置は、出力音声中に休止可能な休止位置候補の中で、割り込み予測タイミングの直前に位置する休止位置候補である。

これにより、音声対話システムは、ユーザの割り込みタイミングの学習結果を反映した、システムからの応答音声の区切りの良い位置に休止区間を挿入することが可能となる。

また、本発明の音声対話方法において、休止位置候補は、文節、あるいは呼気段落の区切りである。

これにより、音声対話システムは、案内文や応答文などに対する言語解析処理を行うことで、自動的に休止位置候補を設定することが可能となる。

また、本発明の音声対話方法において、割り込み予測タイミングは、前回の同じ応答音声に対する割り込みタイミングである。

これにより、音声対話システムは、ユーザが割り込み発声する直近の傾向を強く反映して、休止区間を挿入することが可能となる。

また、本発明の音声対話方法において、割り込み予測タイミングは、記録されている同じ応答案内に対する割り込みタイミングの統計値を利用する。

これにより、音声対話システムは、ユーザが割り込み発声する傾向の時間変化を徐々に反映しながら、音声応答に休止区間を挿入することが可能となる。

また、本発明の音声対話方法において、応答音声に挿入される休止区間の時間長は、割り込み予測タイミングと、休止区間の挿入位置との時間差に基づいて決定する。

これにより、音声応答中に挿入する休止区間のタイミングだけでなく、休止区間長もユーザの割り込み発声の傾向に基づいて動的に変化させることが可能となる。

また、本発明の音声対話方法は、音声認識を実行中に音声出力を行わない。

これにより、音声対話システムは、自己の発する音声の回り込みノイズが、ユーザの発声に混在することを防止できる。

また、本発明の音声対話方法は、音声対話システムが話者であるユーザを特定する処理をさらに有する。そして、音声対話システムは、割り込みタイミングの記録と、割り込み予測タイミングの算出とをユーザ毎に行い、休止区間を特定したユーザの割り込み予測タイミングに基づいて挿入する。

これにより、音声対話システムは、ユーザ毎に学習した休止区間を案内文や応答文に挿入するので、ユーザ個々のばらつきを反映した音声対話を実現することが可能になる。

また、本発明の音声対話システムは、音声出力する音声出力部と、ユーザからの音声を音声信号に変換する音声入力部と、音声出力部からの音声出力中に音声入力部から入力された音声信号を検出するタイミング検出部と、そのタイミング検出部が検出した割り込みタイミングを記録し、音声出力を停止する休止区間を挿入する位置を学習する割り込み学習部と、入力された音声信号に対して音声認識を行う音声認識部と、その音声認識部による音声認識結果に基づいて応答文を決定する対話シーケンス部と、その対話シーケンス部で決定した応答文に、割り込み学習部が当該応答文について学習して決定した休止位置に休止区間を挿入し、応答音声を生成する応答音声生成部とを備えている。

この構成により、音声対話システムは、ユーザが発声するタイミングを過去の対話履歴から予測し、その予測タイミングではシステムからの応答音声が休止されるようにして音声認識が行いやすい環境を作るので、ユーザと音声対話システムとの円滑な情報交換を行う音声対話を実現することが可能となる。

また、本発明の音声対話システムは、休止区間を挿入する位置が、応答文中の休止可能な休止位置候補の中で、割り込みタイミングの直前に位置する休止位置候補である。

この構成により、音声対話システムは、ユーザの割り込みタイミングの学習結果を反映した、システムからの応答音声の区切りの良い位置に休止区間を挿入することが可能となる。

また、本発明の音声対話システムは、休止位置候補が文節、あるいは呼気段落の区切りである。

この構成により、音声対話システムは、案内文や応答文などに対する言語解析処理を行うことで、自動的に休止位置候補を設定することが可能となる。

また、本発明の音声対話システムは、割り込み学習部が割り込みタイミングの統計値を使用して休止位置と休止区間長とを決定する。

この構成により、音声対話システムは、ユーザが割り込み発声する傾向の時間変化を徐々に反映しながら、音声応答に休止区間を挿入することが可能となる。

また、本発明の音声対話システムは、音声認識部が音声認識を実行中に音声出力を行わない。

この構成により、音声対話システムは、自己の発する音声の回り込みノイズが、ユーザの発声に混在することを防止できる。

また、本発明の音声対話システムは、話者であるユーザを特定するユーザ管理部をさらに有し、割り込み学習部がユーザ管理部の特定したユーザごとに割り込みタイミングを学習して休止位置を決定し、応答音声生成部が応答文にユーザごとに決定された休止位置に休止区間を挿入するものである。

この構成により、音声対話システムはユーザごとに割り込み発声の傾向を学習し、ユーザごとにカスタマイズされた応答音声を再生するので、ユーザ個々のばらつきを反映した音声対話を実現することが可能となる。

本発明により、音声対話システムは、ユーザと音声対話システムからの同時発声の頻度を低減させることができるので、音声認識率を向上させることが可能になる。

以下、本発明の実施の形態について、図面を用いて説明する。

（実施の形態１）
本発明の第１の実施の形態における音声対話システムのブロック図を図１に示す。

図１において、音声出力部１０１は、ユーザに対して案内や応答など音声対話システム側からの案内音声を出力するスピーカである。

音声入力部１０２は、ユーザの発声した音声を電気信号に変換するためのマイクロフォン、または複数のマイクロフォンからなるマイクロフォンアレイによって構成されている。

タイミング検出部１０３は、音声出力部１０１から音声が再生されているか否かを監視しながら、音声入力部１０２からの音声信号の有無を判別し、その音声信号の入力が開始されたタイミング（割り込みタイミング）を検出するものである。

具体的には、タイミング検出部１０３は、案内音声の出力を停止する休止タイミング（休止位置候補）から、ユーザ発声の音声信号を検出するまでの時間（遅れ時間）を計測するタイマーを有している。そして、タイミング検出部１０３は、後述する応答音声生成部１１０から音声出力部１０１へ音声信号が出力される出力開始タイミングと休止位置候補のタイミング情報とを受け取り、出力開始タイミングでそのタイマーを起動し、休止位置候補のタイミングの度にそのタイマーをリセットする。これにより、タイミング検出部１０３は、休止位置候補の時点から、ユーザ発声の音声信号の検出までの時間（遅れ時間）を計測する。この計測を開始した休止位置候補と計測時間（遅れ時間）とが、割り込みタイミング情報となる。なお、応答音声生成部１１０が通知する休止位置候補のタイミング情報は、出力開始タイミングから最初の休止位置候補までの時間と、休止位置候補間の時間とから構成されている。

また、タイミング検出部１０３は、音声出力部１０１からの音声再生が無い区間においては、あらかじめ設定してある閾値を超えたパワーを持つ入力信号を検出したときに、ユーザからの音声入力が行われたと判定する。

一方、音声対話システムからの音声再生中である区間においては、その回り込みによる音声信号の予測パワーに、あらかじめ設定してある閾値（音声再生が無い区間で使った閾値）を加えたものを新たな閾値とし、その新たな閾値を超えた入力信号が検出されたときに、ユーザからの音声入力が行われたと判定する。ここで、回り込みによる音声信号の予測パワーは、音声出力部１０１に入力される信号に対して、事前に求めた回り込みによる減衰比率をかけ合わせたものである。

割り込み学習部１０４は、タイミング検出部１０３によって検出された割り込みタイミング情報を案内音声ごとに学習し、案内文等に休止区間を挿入する休止位置とその休止区間長と挿入位置とを決定するものである。

割り込みタイミングデータベース１０５は、割り込み学習部１０４で得られた学習結果である休止位置と休止区間長とを案内音声毎に保存する記憶装置である。

図７（ａ）は、割り込みタイミングデータベース１０５に保存される休止情報を示すデータ構造図である。

図７（ａ）において、案内文ＩＤ７０１毎に、割り込み学習部１０４の学習結果である、休止位置７０２と休止区間長７０３とが保存されている。

また、音声認識部１０６は、音声信号を分析して時系列の特徴ベクトルに変換し、あらかじめ登録されているテンプレートパターンとのマッチングを行うことによりその発話内容を決定するものである。代表的な音声認識方法としては、入力音声をＬＰＣケプストラム（線形予測係数ケプストラム）等の特徴ベクトルに変換し、この特徴ベクトルによってあらかじめ学習された音素や音素連鎖のＨＭＭ（隠れマルコフモデル）を用いて、尤度が最も高くなる音素系列を持つ単語を単語辞書から選択するものがある。なお、音声認識方法はこれに限らず、ユーザの発話内容が決定できればどのような方法であっても構わない。

対話制御部１０７は、音声対話システムの状態や音声認識部１０６の結果に基づいて対話の進め方、すなわち対話シーケンスを決定するものである。

応答音声データベース１０８は、ユーザとの各場面の対話を想定してあらかじめ用意した応答文とその音声データを保存している記憶装置である。

応答文決定部１０９は、対話制御部１０７で決定した対話シーケンスに基づいて応答音声データベース１０８から適切な応答文を選択するものである。すなわち、応答文決定部１０９は、あらかじめ登録されているテンプレート文を応答音声データベース１０８から選択し、必要なキーワードを組み込むことによって応答文を生成する。例えば、ユーザが指定した地域より更に詳細な地域情報の入力を促す対話の場面では、応答文決定部１０９が、「○○のどこですか？」というテンプレート文を選択し、空白部へ「横浜市」といった情報を加えることで「横浜市のどこですか？」という応答文を生成する。

なお、これら対話制御部１０７、応答音声データベース１０８、および応答文決定部１０９が、本発明にかかる対話シーケンス部に相当する。

応答音声生成部１１０は、応答文決定部１０９で決定した応答文に対して、割り込みタイミングデータベース１０５を参照して休止区間を挿入したのち、音声に変換するものである。あるいは、応答音声生成部１１０は、あらかじめ応答音声データベース１０８に登録されている音声データの中から該当する音声データを選択し、割り込みタイミングデータベース１０５に記録された予測タイミングに近い休止位置に、所定の休止区間を挿入するものである。さらに、応答音声生成部１１０は、音声出力の出力開始タイミングと休止位置候補のタイミング情報をタイミング検出部１０３へ通知するものである。なお、応答音声生成部１１０が音声合成プログラムによって実現されている場合は、応答音声データベース１０８にすべての音声データを保存しておく必要はない。

以上のように構成された本発明の音声対話方法および音声対話システムの動作、作用を、図面に基づき以下に説明する。

図８は、音声対話システムの動作を示すフローチャートである。

図８において、まず、対話制御部１０７は、初期状態であることを認識し、初期の音声対話シーケンスを応答文決定部１０９へ通知する（ステップＳ８０１）。

次に、応答文決定部１０９は、応答音声データベース１０８から通知された音声対話シーケンスに適合する案内文を抽出し、応答音声生成部１１０へ通知する（ステップＳ８０２）。

次に、応答音声生成部１１０は、割り込みタイミングデータベース１０５を参照し、通知された案内文に挿入すべき休止区間の登録が有るか否かをチェックする。今回は初期状態であるため挿入すべき休止区間の登録がないので、応答音声生成部１１０は通知された案内文をそのまま音声に変換し（ステップＳ８０３）、音声出力部１０１を介して音声出力を開始する（ステップＳ８０４）。

次に、タイミング検出部１０３は、応答音声生成部１１０からの出力開始タイミングの通知を監視するとともに、音声入力部１０２からの音声信号の有無をチェックする（ステップＳ８０５）。そして、タイミング検出部１０３は音声信号を検出すると、案内文の休止区間中であるか否かをチェックする（ステップＳ８０６）。今回は休止区間がないので、タイミング検出部１０３は、検出した割り込みタイミング情報を割り込み学習部１０４へ通知する。割り込み学習部１０４は通知された割り込みタイミング情報を記録し、蓄積された記録を統計処理して、休止位置と休止区間長とを決定する（ステップＳ８０７）。そして、割り込み学習部１０４は割り込みタイミングデータベース１０５へ学習結果である、最新の休止位置と休止区間長とを登録あるいは更新する（ステップＳ８０８）。

その後、音声認識部１０６はタイミング検出部１０３からの音声信号を受け取っても、案内音声の出力中であるため音声認識を行わない。そして、音声認識部１０６から対話制御部１０７へその旨が通知されると、対話制御部１０７は対話が不成立であると判断し、再度、初期の音声対話シーケンスの開始を応答文決定部１０９へ通知する（ステップＳ８０１）。

次に、応答文決定部１０９は、前回と同様に応答音声データベース１０８から通知された音声対話シーケンスに適合する案内文を抽出し、応答音声生成部１１０へ通知する（ステップＳ８０２）。

次に、応答音声生成部１１０は、割り込みタイミングデータベース１０５を参照し、通知された案内文に休止位置の登録が有るか否かをチェックする。今回は休止位置が登録されているため、応答音声生成部１１０は通知された案内文の登録された休止位置に所定の休止区間を挿入する。そして、応答音声生成部１１０は休止区間が挿入された案内文を音声に変換し（ステップＳ８０３）、音声出力部１０１を介して音声の出力を再び開始する（ステップＳ８０４）。

次に、タイミング検出部１０３は音声入力部１０２からの音声信号の有無をチェックし（ステップＳ８０５）、案内文の出力中にユーザからの音声信号を検知した場合、休止区間中であるか否かをチェックする（ステップＳ８０６）。休止区間中でない場合、タイミング検出部１０３は再びステップＳ８０７、Ｓ８０８を行い、ステップＳ８０１へ戻る。

一方、休止区間中であった場合、タイミング検出部１０３は音声認識部１０６へ検出した音声信号を送出する。音声認識部１０６はこれを受けて音声認識を行い、認識結果を対話制御部１０７へ通知する（ステップＳ８０９）。その後、対話制御部１０７は認識結果に基づいて音声対話シーケンスを決定する（ステップＳ８０１）。その後、対話動作が継続される。

また、タイミング検出部１０３が案内文の出力が終了するまでユーザからの音声信号を検出しなかった場合（ステップＳ８１０）、引き続き所定時間中、ユーザからの音声信号の入力をチェックする（ステップＳ８１１）。そして、タイミング検出部１０３は音声信号を検出すると、音声認識部１０６へ検出した音声信号を送出する。音声認識部１０６はこれを受けて音声認識を行い、認識結果を対話制御部１０７へ通知する（ステップＳ８０９）。

一方、対話制御部１０７は所定時間中に音声認識部１０６から認識結果を受けなかった場合（ステップＳ８１２）、音声対話シーケンスを初期状態へ戻す（ステップＳ８０１）。その後、対話動作が継続される。

以上のように音声対話システムは、ユーザの応答に合わせて、案内文や応答文の学習した休止位置に休止区間を設けながら対話を進めることができる。

以下に、本発明の音声対話方法について、具体的な案内文を用いて説明する。

図２（ａ）は、初期状態（学習前）の音声対話システムの動作を示すタイムチャートである。

図２（ａ）において、ユーザの発声を促すための案内音声２０１が音声対話システムの音声出力部１０１から再生される。ここで音声対話システムは、案内音声２０１が完全に再生し終わったあとにユーザからの応答発声があることを期待している。案内音声２０１が再生中は、音声認識部１０６が未起動状態２３１である。

しかしながら、ユーザの回答音声２１１が、音声対話システムからの案内音声２０１再生中に入力された場合、タイミング検出部１０３はこのユーザからの回答音声２１１を音声対話システムの案内音声２０１と重なる発声であると判断し、割り込みタイミング２２１を検出する。そして、その割り込みタイミング情報を割り込み学習部１０４へ送る。

また、この音声対話システムからの案内音声２０１が再生されている最中は、音声認識部１０６が未起動状態２３１であるため、ユーザの回答音声２１１に対して音声認識は行われない。対話制御部１０７は、音声認識部１０６からの音声認識が行われなかったという情報に基づいて次の対話場面を決定する。ここでは、対話制御部１０７がユーザの発声をもう１度促すという対話の場面を選択し、応答文決定部１０９に通知する。なお、音声認識部１０６は引き続き未起動状態２３１を継続する。

そして、応答文決定部１０９は、もう１度ユーザに対して発声を促すための文を応答音声データベース１０８から選択し、再案内音声２０２を音声出力部１０１から再生する。

ここで、タイミング検出部１０３が行う、割り込みタイミングの検出処理と、割り込み学習部１０４が行う、休止位置と休止区間長の学習処理について図面を用いて説明する。

図３は、音声対話システムの行う割り込みタイミングの学習動作を示すタイムチャートである。

図３（ａ）において、案内音声２０１が音声出力部１０１から再生開始されると、タイミング検出部１０３が休止位置候補３１１乃至３１３から割り込みタイミングの計測用のタイマーを起動する。そして、タイミング検出部１０３は、ユーザの回答音声２１１の入力を検出すると、休止位置候補３１１から検出時点３２２までの遅れ時間３３１を測定し、割り込み学習部１０４へ直前の休止位置候補３１１とともに通知する。なお、図３（ａ）では、遅れ時間３１１は、１５０ｍｓとしている。

以上のようにして、タイミング検出部１０３は遅れ時間を計測し、休止位置候補とともに割り込み学習部１０４へ通知する。

割り込み学習部１０４は通知された休止位置候補と遅れ時間を蓄積し、休止区間長を算出する。

本実施の形態においては、この休止区間長は、ユーザの発声を促すのに十分な時間として、蓄積された遅れ時間３３１の平均値の２倍の時間とする。

図３（ｂ）は、学習後のタイムチャートを示す図である。

図３（ｂ）において、割り込み学習部１０４は休止位置を休止位置候補３１１とし、その休止区間長を３００ｍｓに設定している。この休止区間の長さとしては、案内音声２０１が不自然にならないようにすることも考慮して、平均遅れ時間３３１のおよそ１〜３倍に設定するのが妥当である。

また、図６は、割り込み学習部１０４が統計的に休止位置を決定する方法を示す図である。

図６において、頻度分布６０１は、案内音声２０１に対して、過去に割り込みが発生した位置とその発生率との関係を記録したものである。この割り込み発生率は、ある位置における割り込み発生回数／全体の割り込み回数で表すことができる。また、頻度閾値６０２は、頻度分布６０１が多いか否かを判断するためにあらかじめ設けられた基準値（％）である。頻度分布ピーク６１１、６１２は、頻度分布６０１の中で頻度閾値６０２を超えた区間における極大点であり、休止位置６２１、６２２は、頻度分布ピーク６１１、６１２の直前にある休止候補位置である。

割り込み学習部１０４は、タイミング検出部１０３から案内音声２０１に対して割り込みが発生した位置とその発生率との頻度分布６０１を保存する。そして、割り込み学習部１０４は、新たな割り込みタイミング情報が通知されると、更新された頻度分布６０１に基づいて、あらかじめ指定されている頻度閾値６０２を超えている極大点６１１、６１２を割り込み位置として抽出する。そして、割り込み学習部１０４は、その直前にある休止候補位置６２１、６２２を、このときの案内音声２０１に対する休止位置とし、そこからの遅れ時間を用いて休止区間長を決定する。そして、その結果を割り込みタイミングデータベース１０５に登録する。

なお、上記では頻度閾値６０２を越えた極大点すべてを有効な割り込み位置としたが、これに限らず、頻度閾値６０２を用いず、過去に発生した割り込み頻度分布６０１の中で最も頻度分布の高い頻度分布ピーク６１１のみを有効な割り込みと判断し、上記の方法で休止位置を決定することも可能である。

また、頻度分布６０１として、「割り込み発生率＝ある位置における割り込み発生回数／全体の割り込み回数」で定義したが、全体の割り込み回数は、例えば過去２０回までと設定し、それより古い記録は割り込み学習部１０４から削除することも可能である。

以上のようにして、割り込み学習部１０４は、蓄積された割り込みタイミング情報を案内音声毎に統計処理する。

次に、割り込みタイミングを学習した後の、音声対話システムの動作について図面を用いて説明する。

図２（ｂ）、（ｃ）は、学習後の音声対話システムの動作を示すタイムチャートである。

図２（ｂ）において、応答音声生成部１１０は割り込みタイミングデータベース１０５を参照して、該当の案内文に休止区間の登録があることを検出する。そして、応答音声生成部１１０は、案内音声前半２０５、案内音声後半２０６、休止区間２０３によって構成される案内音声を生成し、音声出力部１０１から案内音声前半２０５を再生出力する。このとき、音声認識部１０６は未起動状態２３１となる。その後、案内音声が休止区間２０３になると、音声認識部１０６は起動状態２３２となる。しかし、この休止区間２０３が終了すると、案内音声後半２０６の再生が開始され、音声認識部１０６は再び、未起動状態２３３となる。そして、案内音声後半２０６の再生が終わると同時に、音声認識部１０６は再び起動状態２３４となり、ユーザの発声待ちとなる。その後、タイミング検出部１０３がユーザの回答音声２１２を検出すると正常入力２２２と判断し、音声認識部１０６が正常に音声認識を行う。

また、図２（ｃ）に示すように、案内音声前半２０５の再生後の休止区間中に、ユーザが回答音声２１３を発声した場合、タイミング検出部１０３はユーザからの回答音声２１３が音声対話システムからの音声と重ならないため、正常入力２２３と判定する。そして、音声認識部１０６が音声認識を実行する。対話制御部１０７は、この認識結果を受け取り、当初予定していた案内音声後半２０６の再生を中止する。そして、対話制御部１０７は次の対話場面へ対話を進め、応答文決定部１０９へ次の対話シーケンスを通知する。

応答文決定部１０９は、これを受けて、ユーザの回答音声２１３に相応しい応答内容を応答音声データベース１０８から選択する。そして、応答音声生成部１１０が案内音声２０８を生成し、音声出力部１０１が再生する。

以上のようにして、本実施の形態における音声対話方法は、ユーザの発話の割り込みタイミングを記録し、次回の案内音声においてユーザが応答する可能性の高い位置に休止区間を設けるので、音声対話システムからの音声とユーザの音声とが重なる可能性を減少させることができる。さらに、本実施の形態における音声対話方法は、ユーザの発話のタイミングを学習するので、ユーザの習熟度に合わせて休止区間を設ける位置をより適当なものとすることが可能になる。

なお、本実施の形態においては、休止位置候補は、あらかじめ案内音声ごとに設定されていたが、これに限らず、応答音声生成部１１０が言語解析を行い、これによって得られる文節区切りを休止位置候補として用いることも可能である。

図４は、応答音声生成部１１０が休止位置候補を設定する方法を説明する図である。

図４において、まず、応答音声生成部１１０は、案内音声２０１に対して、例えば形態素解析を施して形態素単位に分割し、各形態素の品詞情報を付与する。応答音声生成部１１０は、ここで付与した品詞の結合規則を利用し、複数の形態素から文節単位４０１〜４０５を生成する。

次に、応答音声生成部１１０は、文節４０１〜４０５に対して構文の係り受け解析を行う。この係り受け解析は、各文節の修飾・非修飾関係を推定するものである。そして、この係り受け関係は、一般的に当該文節の係り先が次の文節であればその結合は強く、係り先が次の文節よりさらに後方に存在する文節である場合、次の文節との結合は弱くなる。

応答音声生成部１１０は、係り受け解析の結果、文節間の結合強度４１１〜４１６を得たとき、結合強度の強い文節間に休止を挿入することは困難であると判定する。すなわち、図４における例では、応答音声生成部１１０は、文節４０４と文節４０５との結合強度４１５が特に強いため、ここに休止を挿入することは望ましくないと判断する。その結果、応答音声生成部１１０は、休止位置候補３１１〜３１３を設定する。このように、応答音声生成部１１０は、言語解析によって休止位置候補を設定することも可能である。

また、本実施の形態においては、ユーザの割り込み発声のタイミングと、その直前の休止位置候補のタイミングとの差分時間に基づいて休止区間長を決定したが、これに限らず、あらかじめ休止位置候補ごとに休止長候補を設定しておくことも可能である。

さらに、応答音声生成部１１０が、言語解析によって得られる文節間の結合強度を用いて休止区間長を設定することも可能である。

図５は、応答音声生成部１１０が結合度を基に休止区間長を決定する方法を説明する図である。

図５において、まず、応答音声生成部１１０は、図４と同様に、案内音声２０１に対して、例えば言語解析を行い、各文節間の結合強度４１１〜４１６を推定する。

次に、応答音声生成部１１０は、事前に用意した（表１）を参照し、各結合強度に対応する休止区間長５０１〜５０６を決定する。この（表１）は、文節間の結合強度とその結合強度で挿入可能な休止区間長との対応表である。

応答音声生成部１１０は、このように簡易な方法で、休止区間長を決定することも可能である。

また、本実施の形態では、タイミング検出部１０３、割り込み学習部１０４、音声認識部１０６、対話制御部１０７、応答文決定部１０９、および応答音声生成部１１０は、ハードウェア構成としたが、これに限らず、プログラムによるソフトウェア構成とすることも可能である。

以上のように、本発明の第１の実施の形態である音声対話方法および音声対話システムは、音声対話システムからの音声再生中にユーザが発声した割り込みタイミングを学習し、同じ案内文等が再生される場合、ユーザの割り込み位置を予測して休止区間を挿入する。これにより、音声対話システムは、ユーザが発声をしやすい状態にすることで、音声対話システムの音声と重なりにくくなるので、ユーザの発話を正しく音声認識することができる。

（実施の形態２）
図９は、本発明の第２の実施の形態における音声対話システムの構成を示すブロック図である。

図９において、本発明の第１の実施の形態における音声対話システムとの相違は、ユーザの判別と管理を行うユーザ管理部９０１を備えていることである。

ユーザ管理部９０１は、音声を入力したユーザを識別し、ユーザ登録と管理を行うものである。具体的には、ユーザ管理部９０１は、氏名やそれに順ずる識別単語をユーザに問いかけ、それに対する応答を音声認識することにより、すでに登録されているユーザか否かを判定する。そして、ユーザ管理部９０１は、登録済みユーザと一致しない場合は新たにユーザ登録し、一致した場合は、ユーザを特定する。

また、ユーザが特定された場合、音声認識部１０６はあらかじめそのユーザの認識用に指定された音響辞書を用いて音声認識を行う。

また、割り込み学習部１０４は、新たに通知された割り込みタイミング情報と、特定されたユーザの過去から蓄積した割り込みタイミング情報とから休止位置や休止区間情報を学習し、割り込みタイミングデータベース１０５を更新する。

図７（ｂ）は、割り込みタイミングデータベース１０５に保存される休止情報を示すデータ構造図であり、実施の形態１における図７（ａ）に示した休止情報とは、ユーザＩＤ７０４を付加されている点が異なる。なお、このユーザＩＤは、ユーザを特定するために用いる識別子である。

また、応答音声生成部１１０は、特定されたユーザＩＤの休止位置７０２と休止区間長７０３とを案内文毎に、割り込みタイミングデータベース１０５から抽出し、休止区間を含めた音声を生成する。

以上のように構成された本発明の第２の実施の形態である音声対話システムの動作、作用を、図面を用いて以下に説明する。

図１０は、本実施の形態における音声対話システムのユーザ特定の動作を示すフローチャートである。

図１０において、まず、対話制御部１０７は、音声対話システムの起動時、またはユーザの変更時に、ユーザを特定するための対話シーケンスを応答文決定部１０９へ通知する（ステップＳ８０１）。

次に、応答文決定部１０９はこれを受けて、ユーザを特定するための質問文を応答音声データベース１０８から抽出し、応答音声生成部１１０へ通知を行う（ステップＳ８０２）。これ以降、音声認識処理（ステップＳ８０９）までの動作は、実施の形態１における音声対話の動作と同一である。

音声認識部１０６によるユーザからの応答音声を認識した後、ユーザ管理部９０１は、認識されたユーザの氏名あるいはＩＤなどの識別情報が既に登録済みのものであるか否かをチェックする（ステップＳ１００１）。すでに登録されていた場合、ユーザ管理部９０１はユーザを特定し、音声認識部１０６と割り込み学習部１０４へユーザＩＤを通知する（ステップＳ１００３）。一方、未登録であると判定した場合、ユーザ管理部９０１はユーザ登録を行った後（ステップＳ１００２）、ステップＳ１００３へ移行する。

以上のようにして、音声対話システムは、ユーザの特定を行う。

次に、音声対話動作について説明する。この音声対話動作は、図８に示した実施の形態１の動作と同様に行われるが、音声認識部１０６、割り込み学習部１０４、および応答音声生成部１１０が、それぞれ、特定されたユーザＩＤにより指定された音響辞書や休止位置や休止区間長を用いる点が異なる。

すなわち、案内・応答音声の生成処理（ステップＳ８０３）において、応答音声生成部１１０は、割り込み学習部１０４から通知されたユーザＩＤを基に、割り込みタイミングデータベース１０５から案内文等の休止位置７０２と休止区間長７０３とを抽出し、通知された案内文に休止区間を挿入して音声を生成する。ここで、通知されたユーザＩＤの休止情報が保存されていなかった場合、応答音声生成部１１０は、休止区間を設けずに音声を生成する。

また、ユーザからの割り込み音声を検出したときの学習処理（ステップＳ８０７）と、休止位置と休止区間長の登録、更新処理（ステップＳ８０８）において、割り込み学習部１０４はタイミング検出部１０３から通知された割り込みタイミング情報をユーザＩＤに対応付けて記録し、当該ユーザＩＤのものとして蓄積された記録を統計処理して、割り込みタイミングを決定する（ステップＳ８０７）。そして、割り込み学習部１０４は、割り込みタイミングデータベース１０５へ当該ユーザＩＤの最新の学習結果である、休止位置と休止区間長とを登録あるいは更新する（ステップＳ８０８）。

また、音声認識処理（ステップＳ８０９）において、音声認識部１０６は通知されたユーザＩＤで指定される音響辞書を用いて音声認識処理を行う。

なお、ユーザ特定の処理において、ユーザから応答が得られなかった場合は、以降の案内音声を再生しないことも可能であるが、割り込み学習部１０４が不特定話者用の割り込みタイミング学習を行い、応答音声部１１０が不特定話者用の学習結果を用いて案内音声等の生成処理を行うことも可能である。

以上のように本実施の形態によれば、休止位置と休止区間長とは、ユーザ毎に学習され案内文に挿入されることにより、ユーザ個々の特性が反映できるので、案内音声とユーザによる応答音声とが重なる機会をより減少させることが可能になる。これにより、音声対話システムは、案内音声の回り込みのない、ユーザの応答音声のみを認識することになるので、音声認識の精度を向上することができる。

さらに、音声認識処理は、ユーザ毎に適した音響辞書を使うので、不特定話者の音声認識を行った場合に比べ、より認識精度の良い音声認識が可能となる。

本発明は、音声対話システムとユーザとが互いに音声を用いて情報伝達を行う音声対話方法およびその音声対話システムに有用であり、ユーザと音声対話システムからの同時発声の頻度を低減させるのに適している。

本発明の第１の実施の形態における音声対話システムの構成を示すブロック図本発明の第１の実施の形態における音声対話システムの動作を示すタイムチャート本発明の第１の実施の形態におけるユーザの割り込みタイミングの学習動作を示すタイムチャート本発明の第１の実施の形態における休止位置候補の設定方法を示す図本発明の第１の実施の形態における休止区間長の設定方法を示す図本発明の第２の実施の形態における休止位置を決定する方法を示す図（ａ）本発明の第１の実施の形態における割り込みタイミングデータベースに保存される休止情報を示すデータ構造図（ｂ）本発明の第２の実施の形態における割り込みタイミングデータベースに保存される休止情報を示すデータ構造図本発明の第１の実施の形態における音声対話システムの動作を示すフローチャート本発明の第２の実施の形態における音声対話システムの構成を示すブロック図本発明の第２の実施の形態における音声対話システムの動作を示すフローチャート従来の音声対話システムの構成を示したブロック図

符号の説明

１０１音声出力部
１０２音声入力部
１０３タイミング検出部
１０４割り込み学習部
１０５割り込みタイミングデータベース
１０６音声認識部
１０７対話制御部
１０８応答音声データベース
１０９応答文決定部
１１０応答音声生成部
９０１ユーザ管理部

Claims

音声対話システムが、音声出力中にユーザからの入力音声を検出し、割り込みタイミングとして記録するステップと、
前記音声対話システムが前記割り込みタイミングの記録からユーザによる音声入力の割り込み予測タイミングを算出するステップと、
前記音声対話システムが、ユーザから割り込まれた前記音声出力と同一の音声出力をするときに、前記割り込み予測タイミングより以前に音声出力を停止する休止区間を挿入するステップと、
前記音声対話システムが、前記休止区間中にユーザからの入力音声を検出したとき、当該入力音声に対して音声認識を実行するステップと
を有する音声対話方法。
前記休止区間を挿入する位置は、出力音声中に休止可能な休止位置候補の中で、前記割り込み予測タイミングの直前に位置する前記休止位置候補であることを特徴とする請求項１に記載の音声対話方法。
前記休止位置候補は、文節、あるいは呼気段落の区切りであることを特徴とする請求項２に記載の音声対話方法。
前記割り込み予測タイミングは、前回の同じ音声出力で検出した割り込みタイミングであることを特徴とする請求項２に記載の音声対話方法。
前記割り込み予測タイミングは、前記記録されている同じ音声出力に対する割り込みタイミングの統計値を使用することを特徴とする請求項２に記載の音声対話方法。
前記休止区間の時間長は、前記割り込み予測タイミングと、前記休止区間の挿入位置との時間差に基づいて決定することを特徴とする請求項１乃至５のいずれかに記載の音声対話方法。
前記音声対話システムは、前記音声認識を実行中に音声出力を行わないことを特徴とする請求項２に記載の音声対話方法。
前記音声対話システムは、話者であるユーザを特定するステップをさらに有し、
前記割り込みタイミングの記録と、前記割り込み予測タイミングの算出とをユーザ毎に行い、前記休止区間を特定したユーザの割り込み予測タイミングに基づいて挿入することを特徴とする請求項２に記載の音声対話方法。
音声出力する音声出力部と、
ユーザからの音声を音声信号に変換する音声入力部と、
前記音声出力部からの音声出力中に、前記音声入力部から入力された音声信号を検出するタイミング検出部と、
前記タイミング検出部が検出した割り込みタイミングを記録し、音声出力を停止する休止区間を挿入する位置を学習する割り込み学習部と、
入力された前記音声信号に対して音声認識を行う音声認識部と、
前記音声認識部による音声認識結果に基づいて応答文を決定する対話シーケンス部と、
前記対話シーケンス部で決定した前記応答文に、前記割り込み学習部が当該応答文について学習して決定した休止位置に休止区間を挿入し、応答音声を生成する応答音声生成部と
を備える音声対話システム。
前記休止区間を挿入する位置は、応答文中の休止可能な休止位置候補の中で、前記割り込みタイミングの直前に位置する前記休止位置候補であることを特徴とする請求項９に記載の音声対話システム。
前記休止位置候補は、文節、あるいは呼気段落の区切りであることを特徴とする請求項１０に記載の音声対話システム。
前記割り込み学習部は、前記割り込みタイミングの統計値を使用して休止位置と休止区間長とを決定することを特徴とする請求項９に記載の音声対話システム。
前記音声出力部は、前記音声認識部が音声認識を実行中に音声出力を行わないことを特徴とする請求項９に記載の音声対話システム。
話者であるユーザを特定するユーザ管理部をさらに有し、
前記割り込み学習部が前記ユーザ管理部の特定したユーザごとに割り込みタイミングを学習して休止位置を決定し、前記応答音声生成部が応答文にユーザごとに決定された休止位置に休止区間を挿入することを特徴とする請求項９に記載の音声対話システム。