JP2007072331A - 音声対話方法および音声対話システム - Google Patents
音声対話方法および音声対話システム Download PDFInfo
- Publication number
- JP2007072331A JP2007072331A JP2005261548A JP2005261548A JP2007072331A JP 2007072331 A JP2007072331 A JP 2007072331A JP 2005261548 A JP2005261548 A JP 2005261548A JP 2005261548 A JP2005261548 A JP 2005261548A JP 2007072331 A JP2007072331 A JP 2007072331A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- user
- pause
- interrupt
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】ユーザが音声対話システムからの案内音声再生中に割り込んで発声する頻度を低減して、音声認識精度の向上した音声対話方法および音声対話システムを提供する。
【解決手段】音声出力する音声出力部と、ユーザからの音声を音声信号に変換する音声入力部と、音声出力部からの音声出力中に音声入力部から入力された音声信号を検出するタイミング検出部と、そのタイミング検出部が検出した割り込みタイミングを記録し、休止区間を挿入する位置を学習する割り込み学習部と、入力された音声信号に対して音声認識を行う音声認識部と、その音声認識部による音声認識結果に基づいて応答文を決定する対話シーケンス部と、その対話シーケンス部で決定した応答文に、割り込み学習部が当該応答文について学習して決定した休止位置に休止区間を挿入し、応答音声を生成する応答音声生成部とを備える。
【選択図】図1
【解決手段】音声出力する音声出力部と、ユーザからの音声を音声信号に変換する音声入力部と、音声出力部からの音声出力中に音声入力部から入力された音声信号を検出するタイミング検出部と、そのタイミング検出部が検出した割り込みタイミングを記録し、休止区間を挿入する位置を学習する割り込み学習部と、入力された音声信号に対して音声認識を行う音声認識部と、その音声認識部による音声認識結果に基づいて応答文を決定する対話シーケンス部と、その対話シーケンス部で決定した応答文に、割り込み学習部が当該応答文について学習して決定した休止位置に休止区間を挿入し、応答音声を生成する応答音声生成部とを備える。
【選択図】図1
Description
本発明は、音声対話システムとユーザとが互いに音声を用いて情報伝達を行う音声対話方法およびその音声対話システムに関する。
従来より、音声対話システムとしては、ユーザと音声対話システムとの間で音声による円滑な対話を実現するために、例えば、特許文献1に記載されているようなものがあった。
特許文献1に記載されている音声対話システムは、ユーザに対して案内音声を再生している最中に、マイクから入力した音声対話システムからの回り込み音声のみをキャンセルしてユーザの音声のみを音声認識することで、音声対話システムとユーザとが同時に発話されたときのユーザの音声を精度良く認識できるようにしたものである。
また、ユーザの発話開始時点を正しく検出することにより、音声認識の精度を高める方法として、特許文献2に記載されているようなものがあった。図11は従来の音声対話システムの構成を示した図である。
図11において、アナウンス発声装置1110は、システムアナウンス中に無音区間を設けてユーザの発話開始時刻を制御し、それに対応して事前に用意した発話開始時刻の予測分布1101から演算部1102で第1の発話開始点らしさを算出する。一方、発話検出用音響分析部1103が入力音声から特徴パラメータを抽出し、演算部1104で第2の発話開始点らしさを算出する。これらから演算部1105が第3の発話開始点らしさを算出し、それと基準値との比較により発話開始時刻を決定して音声認識を開始するものであった。
特開2004−333704号公報(第6−8頁、第1図)
特開平8−6590号公報(第8―9頁、第1図)
しかしながら、特許文献1に記載の音声対話システムでは、回り込み音声の伝達特性が変わりやすい空間で利用した場合、安定した音声認識結果を得ることができないという課題を有していた。また、特許文献2に記載の音声対話システムでは、発話開始時刻の決定にあらかじめ用意した予測分布を用いていたため、ユーザ毎の個人差による発話開始タイミングの違いや、同一ユーザにおいても音声対話システムに対する習熟度による発話開始タイミングの変化を反映することが困難であった。
本発明は、このような課題を解決するためになされ、ユーザが音声対話システムからの案内音声再生中に割り込んで発声する頻度を低減することにより、ユーザからの音声と音声対話システムからの回り込み音声とが混在することを減少させて、音声認識精度が向上した音声対話方法および音声対話システムを提供することを目的とする。
本発明の音声対話方法は、ユーザの発声した音声を検出して音声認識し、ユーザの所望する情報を音声で回答する音声対話システムに用いる音声対話方法であって、音声対話システムが音声出力中にユーザからの入力音声を検出し、割り込みタイミングとして記録する。そして、音声対話システムがその割り込みタイミングの記録からユーザによる音声入力の割り込み予測タイミングを算出する。その後、音声対話システムが、ユーザから割り込まれた音声出力と同一の音声出力をするときに、割り込み予測タイミングより以前に音声出力を停止する休止区間を挿入する。そして、音声対話システムが、その休止区間中にユーザからの入力音声を検出したとき、当該入力音声に対して音声認識を実行する。
これにより、音声対話システムからの音声が再生されている最中にユーザが発声した場合、音声対話システムは、ユーザの割り込み発声のタイミングを学習し、それ以降の対話場面においてシステムから同じ内容の音声を再生する場合は、ユーザの割り込み位置を予測して休止区間を挿入するので、ユーザの発声をこの休止区間で促すことになり、音声認識を精度良く行うことが可能となる。
また、本発明の音声対話方法において、休止区間を挿入する位置は、出力音声中に休止可能な休止位置候補の中で、割り込み予測タイミングの直前に位置する休止位置候補である。
これにより、音声対話システムは、ユーザの割り込みタイミングの学習結果を反映した、システムからの応答音声の区切りの良い位置に休止区間を挿入することが可能となる。
また、本発明の音声対話方法において、休止位置候補は、文節、あるいは呼気段落の区切りである。
これにより、音声対話システムは、案内文や応答文などに対する言語解析処理を行うことで、自動的に休止位置候補を設定することが可能となる。
また、本発明の音声対話方法において、割り込み予測タイミングは、前回の同じ応答音声に対する割り込みタイミングである。
これにより、音声対話システムは、ユーザが割り込み発声する直近の傾向を強く反映して、休止区間を挿入することが可能となる。
また、本発明の音声対話方法において、割り込み予測タイミングは、記録されている同じ応答案内に対する割り込みタイミングの統計値を利用する。
これにより、音声対話システムは、ユーザが割り込み発声する傾向の時間変化を徐々に反映しながら、音声応答に休止区間を挿入することが可能となる。
また、本発明の音声対話方法において、応答音声に挿入される休止区間の時間長は、割り込み予測タイミングと、休止区間の挿入位置との時間差に基づいて決定する。
これにより、音声応答中に挿入する休止区間のタイミングだけでなく、休止区間長もユーザの割り込み発声の傾向に基づいて動的に変化させることが可能となる。
また、本発明の音声対話方法は、音声認識を実行中に音声出力を行わない。
これにより、音声対話システムは、自己の発する音声の回り込みノイズが、ユーザの発声に混在することを防止できる。
また、本発明の音声対話方法は、音声対話システムが話者であるユーザを特定する処理をさらに有する。そして、音声対話システムは、割り込みタイミングの記録と、割り込み予測タイミングの算出とをユーザ毎に行い、休止区間を特定したユーザの割り込み予測タイミングに基づいて挿入する。
これにより、音声対話システムは、ユーザ毎に学習した休止区間を案内文や応答文に挿入するので、ユーザ個々のばらつきを反映した音声対話を実現することが可能になる。
また、本発明の音声対話システムは、音声出力する音声出力部と、ユーザからの音声を音声信号に変換する音声入力部と、音声出力部からの音声出力中に音声入力部から入力された音声信号を検出するタイミング検出部と、そのタイミング検出部が検出した割り込みタイミングを記録し、音声出力を停止する休止区間を挿入する位置を学習する割り込み学習部と、入力された音声信号に対して音声認識を行う音声認識部と、その音声認識部による音声認識結果に基づいて応答文を決定する対話シーケンス部と、その対話シーケンス部で決定した応答文に、割り込み学習部が当該応答文について学習して決定した休止位置に休止区間を挿入し、応答音声を生成する応答音声生成部とを備えている。
この構成により、音声対話システムは、ユーザが発声するタイミングを過去の対話履歴から予測し、その予測タイミングではシステムからの応答音声が休止されるようにして音声認識が行いやすい環境を作るので、ユーザと音声対話システムとの円滑な情報交換を行う音声対話を実現することが可能となる。
また、本発明の音声対話システムは、休止区間を挿入する位置が、応答文中の休止可能な休止位置候補の中で、割り込みタイミングの直前に位置する休止位置候補である。
この構成により、音声対話システムは、ユーザの割り込みタイミングの学習結果を反映した、システムからの応答音声の区切りの良い位置に休止区間を挿入することが可能となる。
また、本発明の音声対話システムは、休止位置候補が文節、あるいは呼気段落の区切りである。
この構成により、音声対話システムは、案内文や応答文などに対する言語解析処理を行うことで、自動的に休止位置候補を設定することが可能となる。
また、本発明の音声対話システムは、割り込み学習部が割り込みタイミングの統計値を使用して休止位置と休止区間長とを決定する。
この構成により、音声対話システムは、ユーザが割り込み発声する傾向の時間変化を徐々に反映しながら、音声応答に休止区間を挿入することが可能となる。
また、本発明の音声対話システムは、音声認識部が音声認識を実行中に音声出力を行わない。
この構成により、音声対話システムは、自己の発する音声の回り込みノイズが、ユーザの発声に混在することを防止できる。
また、本発明の音声対話システムは、話者であるユーザを特定するユーザ管理部をさらに有し、割り込み学習部がユーザ管理部の特定したユーザごとに割り込みタイミングを学習して休止位置を決定し、応答音声生成部が応答文にユーザごとに決定された休止位置に休止区間を挿入するものである。
この構成により、音声対話システムはユーザごとに割り込み発声の傾向を学習し、ユーザごとにカスタマイズされた応答音声を再生するので、ユーザ個々のばらつきを反映した音声対話を実現することが可能となる。
本発明により、音声対話システムは、ユーザと音声対話システムからの同時発声の頻度を低減させることができるので、音声認識率を向上させることが可能になる。
以下、本発明の実施の形態について、図面を用いて説明する。
(実施の形態1)
本発明の第1の実施の形態における音声対話システムのブロック図を図1に示す。
本発明の第1の実施の形態における音声対話システムのブロック図を図1に示す。
図1において、音声出力部101は、ユーザに対して案内や応答など音声対話システム側からの案内音声を出力するスピーカである。
音声入力部102は、ユーザの発声した音声を電気信号に変換するためのマイクロフォン、または複数のマイクロフォンからなるマイクロフォンアレイによって構成されている。
タイミング検出部103は、音声出力部101から音声が再生されているか否かを監視しながら、音声入力部102からの音声信号の有無を判別し、その音声信号の入力が開始されたタイミング(割り込みタイミング)を検出するものである。
具体的には、タイミング検出部103は、案内音声の出力を停止する休止タイミング(休止位置候補)から、ユーザ発声の音声信号を検出するまでの時間(遅れ時間)を計測するタイマーを有している。そして、タイミング検出部103は、後述する応答音声生成部110から音声出力部101へ音声信号が出力される出力開始タイミングと休止位置候補のタイミング情報とを受け取り、出力開始タイミングでそのタイマーを起動し、休止位置候補のタイミングの度にそのタイマーをリセットする。これにより、タイミング検出部103は、休止位置候補の時点から、ユーザ発声の音声信号の検出までの時間(遅れ時間)を計測する。この計測を開始した休止位置候補と計測時間(遅れ時間)とが、割り込みタイミング情報となる。なお、応答音声生成部110が通知する休止位置候補のタイミング情報は、出力開始タイミングから最初の休止位置候補までの時間と、休止位置候補間の時間とから構成されている。
また、タイミング検出部103は、音声出力部101からの音声再生が無い区間においては、あらかじめ設定してある閾値を超えたパワーを持つ入力信号を検出したときに、ユーザからの音声入力が行われたと判定する。
一方、音声対話システムからの音声再生中である区間においては、その回り込みによる音声信号の予測パワーに、あらかじめ設定してある閾値(音声再生が無い区間で使った閾値)を加えたものを新たな閾値とし、その新たな閾値を超えた入力信号が検出されたときに、ユーザからの音声入力が行われたと判定する。ここで、回り込みによる音声信号の予測パワーは、音声出力部101に入力される信号に対して、事前に求めた回り込みによる減衰比率をかけ合わせたものである。
割り込み学習部104は、タイミング検出部103によって検出された割り込みタイミング情報を案内音声ごとに学習し、案内文等に休止区間を挿入する休止位置とその休止区間長と挿入位置とを決定するものである。
割り込みタイミングデータベース105は、割り込み学習部104で得られた学習結果である休止位置と休止区間長とを案内音声毎に保存する記憶装置である。
図7(a)は、割り込みタイミングデータベース105に保存される休止情報を示すデータ構造図である。
図7(a)において、案内文ID701毎に、割り込み学習部104の学習結果である、休止位置702と休止区間長703とが保存されている。
また、音声認識部106は、音声信号を分析して時系列の特徴ベクトルに変換し、あらかじめ登録されているテンプレートパターンとのマッチングを行うことによりその発話内容を決定するものである。代表的な音声認識方法としては、入力音声をLPCケプストラム(線形予測係数ケプストラム)等の特徴ベクトルに変換し、この特徴ベクトルによってあらかじめ学習された音素や音素連鎖のHMM(隠れマルコフモデル)を用いて、尤度が最も高くなる音素系列を持つ単語を単語辞書から選択するものがある。なお、音声認識方法はこれに限らず、ユーザの発話内容が決定できればどのような方法であっても構わない。
対話制御部107は、音声対話システムの状態や音声認識部106の結果に基づいて対話の進め方、すなわち対話シーケンスを決定するものである。
応答音声データベース108は、ユーザとの各場面の対話を想定してあらかじめ用意した応答文とその音声データを保存している記憶装置である。
応答文決定部109は、対話制御部107で決定した対話シーケンスに基づいて応答音声データベース108から適切な応答文を選択するものである。すなわち、応答文決定部109は、あらかじめ登録されているテンプレート文を応答音声データベース108から選択し、必要なキーワードを組み込むことによって応答文を生成する。例えば、ユーザが指定した地域より更に詳細な地域情報の入力を促す対話の場面では、応答文決定部109が、「○○のどこですか?」というテンプレート文を選択し、空白部へ「横浜市」といった情報を加えることで「横浜市のどこですか?」という応答文を生成する。
なお、これら対話制御部107、応答音声データベース108、および応答文決定部109が、本発明にかかる対話シーケンス部に相当する。
応答音声生成部110は、応答文決定部109で決定した応答文に対して、割り込みタイミングデータベース105を参照して休止区間を挿入したのち、音声に変換するものである。あるいは、応答音声生成部110は、あらかじめ応答音声データベース108に登録されている音声データの中から該当する音声データを選択し、割り込みタイミングデータベース105に記録された予測タイミングに近い休止位置に、所定の休止区間を挿入するものである。さらに、応答音声生成部110は、音声出力の出力開始タイミングと休止位置候補のタイミング情報をタイミング検出部103へ通知するものである。なお、応答音声生成部110が音声合成プログラムによって実現されている場合は、応答音声データベース108にすべての音声データを保存しておく必要はない。
以上のように構成された本発明の音声対話方法および音声対話システムの動作、作用を、図面に基づき以下に説明する。
図8は、音声対話システムの動作を示すフローチャートである。
図8において、まず、対話制御部107は、初期状態であることを認識し、初期の音声対話シーケンスを応答文決定部109へ通知する(ステップS801)。
次に、応答文決定部109は、応答音声データベース108から通知された音声対話シーケンスに適合する案内文を抽出し、応答音声生成部110へ通知する(ステップS802)。
次に、応答音声生成部110は、割り込みタイミングデータベース105を参照し、通知された案内文に挿入すべき休止区間の登録が有るか否かをチェックする。今回は初期状態であるため挿入すべき休止区間の登録がないので、応答音声生成部110は通知された案内文をそのまま音声に変換し(ステップS803)、音声出力部101を介して音声出力を開始する(ステップS804)。
次に、タイミング検出部103は、応答音声生成部110からの出力開始タイミングの通知を監視するとともに、音声入力部102からの音声信号の有無をチェックする(ステップS805)。そして、タイミング検出部103は音声信号を検出すると、案内文の休止区間中であるか否かをチェックする(ステップS806)。今回は休止区間がないので、タイミング検出部103は、検出した割り込みタイミング情報を割り込み学習部104へ通知する。割り込み学習部104は通知された割り込みタイミング情報を記録し、蓄積された記録を統計処理して、休止位置と休止区間長とを決定する(ステップS807)。そして、割り込み学習部104は割り込みタイミングデータベース105へ学習結果である、最新の休止位置と休止区間長とを登録あるいは更新する(ステップS808)。
その後、音声認識部106はタイミング検出部103からの音声信号を受け取っても、案内音声の出力中であるため音声認識を行わない。そして、音声認識部106から対話制御部107へその旨が通知されると、対話制御部107は対話が不成立であると判断し、再度、初期の音声対話シーケンスの開始を応答文決定部109へ通知する(ステップS801)。
次に、応答文決定部109は、前回と同様に応答音声データベース108から通知された音声対話シーケンスに適合する案内文を抽出し、応答音声生成部110へ通知する(ステップS802)。
次に、応答音声生成部110は、割り込みタイミングデータベース105を参照し、通知された案内文に休止位置の登録が有るか否かをチェックする。今回は休止位置が登録されているため、応答音声生成部110は通知された案内文の登録された休止位置に所定の休止区間を挿入する。そして、応答音声生成部110は休止区間が挿入された案内文を音声に変換し(ステップS803)、音声出力部101を介して音声の出力を再び開始する(ステップS804)。
次に、タイミング検出部103は音声入力部102からの音声信号の有無をチェックし(ステップS805)、案内文の出力中にユーザからの音声信号を検知した場合、休止区間中であるか否かをチェックする(ステップS806)。休止区間中でない場合、タイミング検出部103は再びステップS807、S808を行い、ステップS801へ戻る。
一方、休止区間中であった場合、タイミング検出部103は音声認識部106へ検出した音声信号を送出する。音声認識部106はこれを受けて音声認識を行い、認識結果を対話制御部107へ通知する(ステップS809)。その後、対話制御部107は認識結果に基づいて音声対話シーケンスを決定する(ステップS801)。その後、対話動作が継続される。
また、タイミング検出部103が案内文の出力が終了するまでユーザからの音声信号を検出しなかった場合(ステップS810)、引き続き所定時間中、ユーザからの音声信号の入力をチェックする(ステップS811)。そして、タイミング検出部103は音声信号を検出すると、音声認識部106へ検出した音声信号を送出する。音声認識部106はこれを受けて音声認識を行い、認識結果を対話制御部107へ通知する(ステップS809)。
一方、対話制御部107は所定時間中に音声認識部106から認識結果を受けなかった場合(ステップS812)、音声対話シーケンスを初期状態へ戻す(ステップS801)。その後、対話動作が継続される。
以上のように音声対話システムは、ユーザの応答に合わせて、案内文や応答文の学習した休止位置に休止区間を設けながら対話を進めることができる。
以下に、本発明の音声対話方法について、具体的な案内文を用いて説明する。
図2(a)は、初期状態(学習前)の音声対話システムの動作を示すタイムチャートである。
図2(a)において、ユーザの発声を促すための案内音声201が音声対話システムの音声出力部101から再生される。ここで音声対話システムは、案内音声201が完全に再生し終わったあとにユーザからの応答発声があることを期待している。案内音声201が再生中は、音声認識部106が未起動状態231である。
しかしながら、ユーザの回答音声211が、音声対話システムからの案内音声201再生中に入力された場合、タイミング検出部103はこのユーザからの回答音声211を音声対話システムの案内音声201と重なる発声であると判断し、割り込みタイミング221を検出する。そして、その割り込みタイミング情報を割り込み学習部104へ送る。
また、この音声対話システムからの案内音声201が再生されている最中は、音声認識部106が未起動状態231であるため、ユーザの回答音声211に対して音声認識は行われない。対話制御部107は、音声認識部106からの音声認識が行われなかったという情報に基づいて次の対話場面を決定する。ここでは、対話制御部107がユーザの発声をもう1度促すという対話の場面を選択し、応答文決定部109に通知する。なお、音声認識部106は引き続き未起動状態231を継続する。
そして、応答文決定部109は、もう1度ユーザに対して発声を促すための文を応答音声データベース108から選択し、再案内音声202を音声出力部101から再生する。
ここで、タイミング検出部103が行う、割り込みタイミングの検出処理と、割り込み学習部104が行う、休止位置と休止区間長の学習処理について図面を用いて説明する。
図3は、音声対話システムの行う割り込みタイミングの学習動作を示すタイムチャートである。
図3(a)において、案内音声201が音声出力部101から再生開始されると、タイミング検出部103が休止位置候補311乃至313から割り込みタイミングの計測用のタイマーを起動する。そして、タイミング検出部103は、ユーザの回答音声211の入力を検出すると、休止位置候補311から検出時点322までの遅れ時間331を測定し、割り込み学習部104へ直前の休止位置候補311とともに通知する。なお、図3(a)では、遅れ時間311は、150msとしている。
以上のようにして、タイミング検出部103は遅れ時間を計測し、休止位置候補とともに割り込み学習部104へ通知する。
割り込み学習部104は通知された休止位置候補と遅れ時間を蓄積し、休止区間長を算出する。
本実施の形態においては、この休止区間長は、ユーザの発声を促すのに十分な時間として、蓄積された遅れ時間331の平均値の2倍の時間とする。
図3(b)は、学習後のタイムチャートを示す図である。
図3(b)において、割り込み学習部104は休止位置を休止位置候補311とし、その休止区間長を300msに設定している。この休止区間の長さとしては、案内音声201が不自然にならないようにすることも考慮して、平均遅れ時間331のおよそ1〜3倍に設定するのが妥当である。
また、図6は、割り込み学習部104が統計的に休止位置を決定する方法を示す図である。
図6において、頻度分布601は、案内音声201に対して、過去に割り込みが発生した位置とその発生率との関係を記録したものである。この割り込み発生率は、ある位置における割り込み発生回数/全体の割り込み回数で表すことができる。また、頻度閾値602は、頻度分布601が多いか否かを判断するためにあらかじめ設けられた基準値(%)である。頻度分布ピーク611、612は、頻度分布601の中で頻度閾値602を超えた区間における極大点であり、休止位置621、622は、頻度分布ピーク611、612の直前にある休止候補位置である。
割り込み学習部104は、タイミング検出部103から案内音声201に対して割り込みが発生した位置とその発生率との頻度分布601を保存する。そして、割り込み学習部104は、新たな割り込みタイミング情報が通知されると、更新された頻度分布601に基づいて、あらかじめ指定されている頻度閾値602を超えている極大点611、612を割り込み位置として抽出する。そして、割り込み学習部104は、その直前にある休止候補位置621、622を、このときの案内音声201に対する休止位置とし、そこからの遅れ時間を用いて休止区間長を決定する。そして、その結果を割り込みタイミングデータベース105に登録する。
なお、上記では頻度閾値602を越えた極大点すべてを有効な割り込み位置としたが、これに限らず、頻度閾値602を用いず、過去に発生した割り込み頻度分布601の中で最も頻度分布の高い頻度分布ピーク611のみを有効な割り込みと判断し、上記の方法で休止位置を決定することも可能である。
また、頻度分布601として、「割り込み発生率=ある位置における割り込み発生回数/全体の割り込み回数」で定義したが、全体の割り込み回数は、例えば過去20回までと設定し、それより古い記録は割り込み学習部104から削除することも可能である。
以上のようにして、割り込み学習部104は、蓄積された割り込みタイミング情報を案内音声毎に統計処理する。
次に、割り込みタイミングを学習した後の、音声対話システムの動作について図面を用いて説明する。
図2(b)、(c)は、学習後の音声対話システムの動作を示すタイムチャートである。
図2(b)において、応答音声生成部110は割り込みタイミングデータベース105を参照して、該当の案内文に休止区間の登録があることを検出する。そして、応答音声生成部110は、案内音声前半205、案内音声後半206、休止区間203によって構成される案内音声を生成し、音声出力部101から案内音声前半205を再生出力する。このとき、音声認識部106は未起動状態231となる。その後、案内音声が休止区間203になると、音声認識部106は起動状態232となる。しかし、この休止区間203が終了すると、案内音声後半206の再生が開始され、音声認識部106は再び、未起動状態233となる。そして、案内音声後半206の再生が終わると同時に、音声認識部106は再び起動状態234となり、ユーザの発声待ちとなる。その後、タイミング検出部103がユーザの回答音声212を検出すると正常入力222と判断し、音声認識部106が正常に音声認識を行う。
また、図2(c)に示すように、案内音声前半205の再生後の休止区間中に、ユーザが回答音声213を発声した場合、タイミング検出部103はユーザからの回答音声213が音声対話システムからの音声と重ならないため、正常入力223と判定する。そして、音声認識部106が音声認識を実行する。対話制御部107は、この認識結果を受け取り、当初予定していた案内音声後半206の再生を中止する。そして、対話制御部107は次の対話場面へ対話を進め、応答文決定部109へ次の対話シーケンスを通知する。
応答文決定部109は、これを受けて、ユーザの回答音声213に相応しい応答内容を応答音声データベース108から選択する。そして、応答音声生成部110が案内音声208を生成し、音声出力部101が再生する。
以上のようにして、本実施の形態における音声対話方法は、ユーザの発話の割り込みタイミングを記録し、次回の案内音声においてユーザが応答する可能性の高い位置に休止区間を設けるので、音声対話システムからの音声とユーザの音声とが重なる可能性を減少させることができる。さらに、本実施の形態における音声対話方法は、ユーザの発話のタイミングを学習するので、ユーザの習熟度に合わせて休止区間を設ける位置をより適当なものとすることが可能になる。
なお、本実施の形態においては、休止位置候補は、あらかじめ案内音声ごとに設定されていたが、これに限らず、応答音声生成部110が言語解析を行い、これによって得られる文節区切りを休止位置候補として用いることも可能である。
図4は、応答音声生成部110が休止位置候補を設定する方法を説明する図である。
図4において、まず、応答音声生成部110は、案内音声201に対して、例えば形態素解析を施して形態素単位に分割し、各形態素の品詞情報を付与する。応答音声生成部110は、ここで付与した品詞の結合規則を利用し、複数の形態素から文節単位401〜405を生成する。
次に、応答音声生成部110は、文節401〜405に対して構文の係り受け解析を行う。この係り受け解析は、各文節の修飾・非修飾関係を推定するものである。そして、この係り受け関係は、一般的に当該文節の係り先が次の文節であればその結合は強く、係り先が次の文節よりさらに後方に存在する文節である場合、次の文節との結合は弱くなる。
応答音声生成部110は、係り受け解析の結果、文節間の結合強度411〜416を得たとき、結合強度の強い文節間に休止を挿入することは困難であると判定する。すなわち、図4における例では、応答音声生成部110は、文節404と文節405との結合強度415が特に強いため、ここに休止を挿入することは望ましくないと判断する。その結果、応答音声生成部110は、休止位置候補311〜313を設定する。このように、応答音声生成部110は、言語解析によって休止位置候補を設定することも可能である。
また、本実施の形態においては、ユーザの割り込み発声のタイミングと、その直前の休止位置候補のタイミングとの差分時間に基づいて休止区間長を決定したが、これに限らず、あらかじめ休止位置候補ごとに休止長候補を設定しておくことも可能である。
さらに、応答音声生成部110が、言語解析によって得られる文節間の結合強度を用いて休止区間長を設定することも可能である。
図5は、応答音声生成部110が結合度を基に休止区間長を決定する方法を説明する図である。
図5において、まず、応答音声生成部110は、図4と同様に、案内音声201に対して、例えば言語解析を行い、各文節間の結合強度411〜416を推定する。
次に、応答音声生成部110は、事前に用意した(表1)を参照し、各結合強度に対応する休止区間長501〜506を決定する。この(表1)は、文節間の結合強度とその結合強度で挿入可能な休止区間長との対応表である。
応答音声生成部110は、このように簡易な方法で、休止区間長を決定することも可能である。
また、本実施の形態では、タイミング検出部103、割り込み学習部104、音声認識部106、対話制御部107、応答文決定部109、および応答音声生成部110は、ハードウェア構成としたが、これに限らず、プログラムによるソフトウェア構成とすることも可能である。
以上のように、本発明の第1の実施の形態である音声対話方法および音声対話システムは、音声対話システムからの音声再生中にユーザが発声した割り込みタイミングを学習し、同じ案内文等が再生される場合、ユーザの割り込み位置を予測して休止区間を挿入する。これにより、音声対話システムは、ユーザが発声をしやすい状態にすることで、音声対話システムの音声と重なりにくくなるので、ユーザの発話を正しく音声認識することができる。
(実施の形態2)
図9は、本発明の第2の実施の形態における音声対話システムの構成を示すブロック図である。
図9は、本発明の第2の実施の形態における音声対話システムの構成を示すブロック図である。
図9において、本発明の第1の実施の形態における音声対話システムとの相違は、ユーザの判別と管理を行うユーザ管理部901を備えていることである。
ユーザ管理部901は、音声を入力したユーザを識別し、ユーザ登録と管理を行うものである。具体的には、ユーザ管理部901は、氏名やそれに順ずる識別単語をユーザに問いかけ、それに対する応答を音声認識することにより、すでに登録されているユーザか否かを判定する。そして、ユーザ管理部901は、登録済みユーザと一致しない場合は新たにユーザ登録し、一致した場合は、ユーザを特定する。
また、ユーザが特定された場合、音声認識部106はあらかじめそのユーザの認識用に指定された音響辞書を用いて音声認識を行う。
また、割り込み学習部104は、新たに通知された割り込みタイミング情報と、特定されたユーザの過去から蓄積した割り込みタイミング情報とから休止位置や休止区間情報を学習し、割り込みタイミングデータベース105を更新する。
図7(b)は、割り込みタイミングデータベース105に保存される休止情報を示すデータ構造図であり、実施の形態1における図7(a)に示した休止情報とは、ユーザID704を付加されている点が異なる。なお、このユーザIDは、ユーザを特定するために用いる識別子である。
また、応答音声生成部110は、特定されたユーザIDの休止位置702と休止区間長703とを案内文毎に、割り込みタイミングデータベース105から抽出し、休止区間を含めた音声を生成する。
以上のように構成された本発明の第2の実施の形態である音声対話システムの動作、作用を、図面を用いて以下に説明する。
図10は、本実施の形態における音声対話システムのユーザ特定の動作を示すフローチャートである。
図10において、まず、対話制御部107は、音声対話システムの起動時、またはユーザの変更時に、ユーザを特定するための対話シーケンスを応答文決定部109へ通知する(ステップS801)。
次に、応答文決定部109はこれを受けて、ユーザを特定するための質問文を応答音声データベース108から抽出し、応答音声生成部110へ通知を行う(ステップS802)。これ以降、音声認識処理(ステップS809)までの動作は、実施の形態1における音声対話の動作と同一である。
音声認識部106によるユーザからの応答音声を認識した後、ユーザ管理部901は、認識されたユーザの氏名あるいはIDなどの識別情報が既に登録済みのものであるか否かをチェックする(ステップS1001)。すでに登録されていた場合、ユーザ管理部901はユーザを特定し、音声認識部106と割り込み学習部104へユーザIDを通知する(ステップS1003)。一方、未登録であると判定した場合、ユーザ管理部901はユーザ登録を行った後(ステップS1002)、ステップS1003へ移行する。
以上のようにして、音声対話システムは、ユーザの特定を行う。
次に、音声対話動作について説明する。この音声対話動作は、図8に示した実施の形態1の動作と同様に行われるが、音声認識部106、割り込み学習部104、および応答音声生成部110が、それぞれ、特定されたユーザIDにより指定された音響辞書や休止位置や休止区間長を用いる点が異なる。
すなわち、案内・応答音声の生成処理(ステップS803)において、応答音声生成部110は、割り込み学習部104から通知されたユーザIDを基に、割り込みタイミングデータベース105から案内文等の休止位置702と休止区間長703とを抽出し、通知された案内文に休止区間を挿入して音声を生成する。ここで、通知されたユーザIDの休止情報が保存されていなかった場合、応答音声生成部110は、休止区間を設けずに音声を生成する。
また、ユーザからの割り込み音声を検出したときの学習処理(ステップS807)と、休止位置と休止区間長の登録、更新処理(ステップS808)において、割り込み学習部104はタイミング検出部103から通知された割り込みタイミング情報をユーザIDに対応付けて記録し、当該ユーザIDのものとして蓄積された記録を統計処理して、割り込みタイミングを決定する(ステップS807)。そして、割り込み学習部104は、割り込みタイミングデータベース105へ当該ユーザIDの最新の学習結果である、休止位置と休止区間長とを登録あるいは更新する(ステップS808)。
また、音声認識処理(ステップS809)において、音声認識部106は通知されたユーザIDで指定される音響辞書を用いて音声認識処理を行う。
なお、ユーザ特定の処理において、ユーザから応答が得られなかった場合は、以降の案内音声を再生しないことも可能であるが、割り込み学習部104が不特定話者用の割り込みタイミング学習を行い、応答音声部110が不特定話者用の学習結果を用いて案内音声等の生成処理を行うことも可能である。
以上のように本実施の形態によれば、休止位置と休止区間長とは、ユーザ毎に学習され案内文に挿入されることにより、ユーザ個々の特性が反映できるので、案内音声とユーザによる応答音声とが重なる機会をより減少させることが可能になる。これにより、音声対話システムは、案内音声の回り込みのない、ユーザの応答音声のみを認識することになるので、音声認識の精度を向上することができる。
さらに、音声認識処理は、ユーザ毎に適した音響辞書を使うので、不特定話者の音声認識を行った場合に比べ、より認識精度の良い音声認識が可能となる。
本発明は、音声対話システムとユーザとが互いに音声を用いて情報伝達を行う音声対話方法およびその音声対話システムに有用であり、ユーザと音声対話システムからの同時発声の頻度を低減させるのに適している。
101 音声出力部
102 音声入力部
103 タイミング検出部
104 割り込み学習部
105 割り込みタイミングデータベース
106 音声認識部
107 対話制御部
108 応答音声データベース
109 応答文決定部
110 応答音声生成部
901 ユーザ管理部
102 音声入力部
103 タイミング検出部
104 割り込み学習部
105 割り込みタイミングデータベース
106 音声認識部
107 対話制御部
108 応答音声データベース
109 応答文決定部
110 応答音声生成部
901 ユーザ管理部
Claims (14)
- 音声対話システムが、音声出力中にユーザからの入力音声を検出し、割り込みタイミングとして記録するステップと、
前記音声対話システムが前記割り込みタイミングの記録からユーザによる音声入力の割り込み予測タイミングを算出するステップと、
前記音声対話システムが、ユーザから割り込まれた前記音声出力と同一の音声出力をするときに、前記割り込み予測タイミングより以前に音声出力を停止する休止区間を挿入するステップと、
前記音声対話システムが、前記休止区間中にユーザからの入力音声を検出したとき、当該入力音声に対して音声認識を実行するステップと
を有する音声対話方法。 - 前記休止区間を挿入する位置は、出力音声中に休止可能な休止位置候補の中で、前記割り込み予測タイミングの直前に位置する前記休止位置候補であることを特徴とする請求項1に記載の音声対話方法。
- 前記休止位置候補は、文節、あるいは呼気段落の区切りであることを特徴とする請求項2に記載の音声対話方法。
- 前記割り込み予測タイミングは、前回の同じ音声出力で検出した割り込みタイミングであることを特徴とする請求項2に記載の音声対話方法。
- 前記割り込み予測タイミングは、前記記録されている同じ音声出力に対する割り込みタイミングの統計値を使用することを特徴とする請求項2に記載の音声対話方法。
- 前記休止区間の時間長は、前記割り込み予測タイミングと、前記休止区間の挿入位置との時間差に基づいて決定することを特徴とする請求項1乃至5のいずれかに記載の音声対話方法。
- 前記音声対話システムは、前記音声認識を実行中に音声出力を行わないことを特徴とする請求項2に記載の音声対話方法。
- 前記音声対話システムは、話者であるユーザを特定するステップをさらに有し、
前記割り込みタイミングの記録と、前記割り込み予測タイミングの算出とをユーザ毎に行い、前記休止区間を特定したユーザの割り込み予測タイミングに基づいて挿入することを特徴とする請求項2に記載の音声対話方法。 - 音声出力する音声出力部と、
ユーザからの音声を音声信号に変換する音声入力部と、
前記音声出力部からの音声出力中に、前記音声入力部から入力された音声信号を検出するタイミング検出部と、
前記タイミング検出部が検出した割り込みタイミングを記録し、音声出力を停止する休止区間を挿入する位置を学習する割り込み学習部と、
入力された前記音声信号に対して音声認識を行う音声認識部と、
前記音声認識部による音声認識結果に基づいて応答文を決定する対話シーケンス部と、
前記対話シーケンス部で決定した前記応答文に、前記割り込み学習部が当該応答文について学習して決定した休止位置に休止区間を挿入し、応答音声を生成する応答音声生成部と
を備える音声対話システム。 - 前記休止区間を挿入する位置は、応答文中の休止可能な休止位置候補の中で、前記割り込みタイミングの直前に位置する前記休止位置候補であることを特徴とする請求項9に記載の音声対話システム。
- 前記休止位置候補は、文節、あるいは呼気段落の区切りであることを特徴とする請求項10に記載の音声対話システム。
- 前記割り込み学習部は、前記割り込みタイミングの統計値を使用して休止位置と休止区間長とを決定することを特徴とする請求項9に記載の音声対話システム。
- 前記音声出力部は、前記音声認識部が音声認識を実行中に音声出力を行わないことを特徴とする請求項9に記載の音声対話システム。
- 話者であるユーザを特定するユーザ管理部をさらに有し、
前記割り込み学習部が前記ユーザ管理部の特定したユーザごとに割り込みタイミングを学習して休止位置を決定し、前記応答音声生成部が応答文にユーザごとに決定された休止位置に休止区間を挿入することを特徴とする請求項9に記載の音声対話システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005261548A JP2007072331A (ja) | 2005-09-09 | 2005-09-09 | 音声対話方法および音声対話システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005261548A JP2007072331A (ja) | 2005-09-09 | 2005-09-09 | 音声対話方法および音声対話システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007072331A true JP2007072331A (ja) | 2007-03-22 |
Family
ID=37933800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005261548A Pending JP2007072331A (ja) | 2005-09-09 | 2005-09-09 | 音声対話方法および音声対話システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007072331A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009282704A (ja) * | 2008-05-21 | 2009-12-03 | Denso Corp | 自動車用情報提供システム |
JP6400871B1 (ja) * | 2018-03-20 | 2018-10-03 | ヤフー株式会社 | 発話制御装置、発話制御方法、および発話制御プログラム |
JP2019164321A (ja) * | 2018-08-28 | 2019-09-26 | ヤフー株式会社 | 発話制御装置、発話制御方法、および発話制御プログラム |
CN110473533A (zh) * | 2018-05-11 | 2019-11-19 | 丰田自动车株式会社 | 语音对话系统、语音对话方法以及程序 |
CN111312242A (zh) * | 2020-02-13 | 2020-06-19 | 上海凯岸信息科技有限公司 | 一种不影响对话管理的意图打断智能语音机器人方案 |
CN113643684A (zh) * | 2021-07-21 | 2021-11-12 | 广东电力信息科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
-
2005
- 2005-09-09 JP JP2005261548A patent/JP2007072331A/ja active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4547721B2 (ja) * | 2008-05-21 | 2010-09-22 | 株式会社デンソー | 自動車用情報提供システム |
US8185380B2 (en) | 2008-05-21 | 2012-05-22 | Denso Corporation | Apparatus for providing information for vehicle |
JP2009282704A (ja) * | 2008-05-21 | 2009-12-03 | Denso Corp | 自動車用情報提供システム |
JP2019164301A (ja) * | 2018-03-20 | 2019-09-26 | ヤフー株式会社 | 発話制御装置、発話制御方法、および発話制御プログラム |
JP6400871B1 (ja) * | 2018-03-20 | 2018-10-03 | ヤフー株式会社 | 発話制御装置、発話制御方法、および発話制御プログラム |
CN110473533A (zh) * | 2018-05-11 | 2019-11-19 | 丰田自动车株式会社 | 语音对话系统、语音对话方法以及程序 |
KR20190129731A (ko) * | 2018-05-11 | 2019-11-20 | 도요타 지도샤(주) | 음성대화 시스템, 음성대화 방법 및 프로그램 |
KR102217917B1 (ko) * | 2018-05-11 | 2021-02-19 | 도요타 지도샤(주) | 음성대화 시스템, 음성대화 방법 및 프로그램 |
US10971149B2 (en) | 2018-05-11 | 2021-04-06 | Toyota Jidosha Kabushiki Kaisha | Voice interaction system for interaction with a user by voice, voice interaction method, and program |
CN110473533B (zh) * | 2018-05-11 | 2023-03-10 | 丰田自动车株式会社 | 语音对话系统、语音对话方法以及程序 |
JP2019164321A (ja) * | 2018-08-28 | 2019-09-26 | ヤフー株式会社 | 発話制御装置、発話制御方法、および発話制御プログラム |
CN111312242A (zh) * | 2020-02-13 | 2020-06-19 | 上海凯岸信息科技有限公司 | 一种不影响对话管理的意图打断智能语音机器人方案 |
CN113643684A (zh) * | 2021-07-21 | 2021-11-12 | 广东电力信息科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN113643684B (zh) * | 2021-07-21 | 2024-02-27 | 广东电力信息科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5381988B2 (ja) | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム | |
US11646027B2 (en) | Multi-layer keyword detection | |
US10186265B1 (en) | Multi-layer keyword detection to avoid detection of keywords in output audio | |
JP3004883B2 (ja) | 終話検出方法及び装置並びに連続音声認識方法及び装置 | |
JP6066471B2 (ja) | 対話システム及び対話システム向け発話の判別方法 | |
US11798559B2 (en) | Voice-controlled communication requests and responses | |
JP2006215499A (ja) | 音声処理装置 | |
WO2006083020A1 (ja) | 抽出された音声データを用いて応答音声を生成する音声認識システム | |
WO2018078885A1 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
JP2007072331A (ja) | 音声対話方法および音声対話システム | |
KR20190032557A (ko) | 음성 기반 통신 | |
JP4791857B2 (ja) | 発話区間検出装置及び発話区間検出プログラム | |
JP2008052178A (ja) | 音声認識装置と音声認識方法 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
KR20050049207A (ko) | 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법 | |
JP2009025579A (ja) | 音声認識装置および音声認識方法 | |
JPH08263092A (ja) | 応答音声生成方法および音声対話システム | |
JP5285326B2 (ja) | 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体 | |
JP4595098B2 (ja) | 字幕送出タイミング検出装置 | |
Goto et al. | Speech spotter: on-demand speech recognition in human-human conversation on the telephone or in face-to-face situations. | |
JP3277579B2 (ja) | 音声認識方法および装置 | |
JP2006172110A (ja) | 応答データ出力装置、応答データ出力方法およびプログラム | |
JP4972660B2 (ja) | 音声学習装置及びプログラム | |
JP3797003B2 (ja) | 音声出力装置 | |
JP7007616B2 (ja) | 学習データ生成装置、学習データ生成方法およびプログラム |