JP2012073364A

JP2012073364A - 音声対話装置、方法、プログラム

Info

Publication number: JP2012073364A
Application number: JP2010217487A
Authority: JP
Inventors: Kenji Iwata; 憲治岩田; Takehide Yano; 武秀屋野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-09-28
Filing date: 2010-09-28
Publication date: 2012-04-12
Anticipated expiration: 2030-09-28
Also published as: US20120078622A1; JP5431282B2

Abstract

【課題】実施形態によれば、ユーザからのバージイン発声を精度よく認識することが可能な音声対話装置、方法、及びプログラムが提供される。
【解決手段】検出部は、ユーザの音声を検出する検出する。認識部は、音声を認識する。出力部は、音声の認識結果に対応した応答音声を出力する。制御部は、応答音声の出力中に、ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、応答音声の出力中にユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、バージイン発声を採用するか否かを判定することを特徴とする。
【選択図】図１

Description

本発明の実施形態は、音声対話装置、方法、及びプログラムに関する。

入力されたユーザの音声を認識し、当該音声に対応する応答音声を選択制御し、当該応答音声を出力することにより、ユーザとの間で対話を行なう音声対話装置がある。このような音声対話装置では、応答音声を出力している間に、ユーザから割り込まれて入力される音声（バージイン発声）を認識するバージイン機能を有するものがある。

このような音声対話システムでは、ユーザからのバージイン発声を精度よく認識することが可能なものが望まれている。

特開２００６−３３７９４２号公報

本発明が解決しようとする課題は、ユーザからのバージイン発声を精度よく認識することが可能な音声対話装置、方法、及びプログラムを提供することである。

上記課題を解決するために、本発明の実施形態に係る音声対話システムは、検出部と、認識部と、制御部と、出力部とを備える。

検出部は、ユーザの音声を検出する検出する。認識部は、前記音声を認識する。出力部は、前記音声の認識結果に対応した応答音声を出力する。制御部は、前記応答音声の出力中に、前記ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記応答音声の出力中にユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記バージイン発声を採用するか否かを判定することを特徴とする。

第１の実施の形態に係る音声対話装置１の構成を表すブロック図。音声対話装置１の処理を表すフローチャート。推定部１５が、バージイン確率変動を推定する方法の説明図。推定部１５が、バージイン確率変動を推定する方法の説明図。推定部１５が、バージイン確率変動を推定する方法の説明図。第１の実施の形態の変形例１に係る音声認識装置１の処理を表すフローチャート。第１の実施の形態の変形例２に係る音声対話装置１０の構成を表すブロック図。第２の実施の形態に係る音声対話装置２の構成を表すブロック図。音声対話装置２の処理を表すフローチャート。推定部２５が、バージイン確率変動を推定する方法の説明図。第３の実施形態に係る音声対話装置３の構成を表すブロック図。音声対話装置３の処理を表すフローチャート。推定部３５が、バージイン確率変動を推定する方法の説明図。第４の実施形態に係る音声対話装置４の構成を表すブロック図。音声対話装置４の処理を表すフローチャート。

（第１の実施の形態）
第１の実施の形態に係る音声対話装置１は、ユーザとの音声対話により、ハンズフリーダイヤル装置や、カーナビゲーション装置等のシステム１００を制御するものである。音声対話装置１は、バージイン機能を有する。本実施形態では、ハンズフリーダイヤル装置を例として説明する。

音声対話装置１は、応答音声の出力中にバージイン発声を受け付けるかどうかを、システム動作、出力する応答音声の内容を用いて判定する。音声対話装置１は、応答音声の出力中におけるバージイン発声の起こる確率の時間変化である「バージイン確率変動」を推定し、バージイン確率変動に基づいて、バージイン発声を受け付けるか否かを判定する。

これにより、バージイン発声が起こりにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。

図１は、音声対話装置１の構成を表すブロック図である。音声対話装置１は、検出部１１と、認識部１２と、制御部１３と、出力部１４と、推定部１５と、生成部１６と、音声格納部５１とを備える。音声対話装置１には、マイク６１と、スピーカ６２とが接続される。

検出部１１は、マイク６１に入力されたユーザの音声（音声信号）を検出する。認識部１２は、検出された音声の音声認識を行なう。

制御部１３は、音声認識の結果に基づき、システム動作を決定する。ここでいうシステム動作とは、次の対話時におけるシステム１００の動作の設定全てを指す。例えば、システム動作には、ユーザに情報を通知することや、ユーザからの返答を要求するための応答音声の出力の方法や、その際にどのような音声を入力可能としておくか等ということが挙げられる。

制御部１３が、システム動作を決定する方法には、例えば、ユーザとの対話の進捗状態を管理し、音声認識結果に基づいた状態遷移を行い、その状態に応じてシステム動作を決定する方法や、既定のルールに基づき、音声認識の結果からシステム動作を決定する方法等といった、公知の手法を用いてよい。

また、制御部１３は、システム動作を決定する際、後述する推定部１５が推定したバージイン確率変動に基づいて、バージイン発声の採用のしやすさ（採用するか否かの基準）を調整する。

例えば、認識部１２が認識した音声認識結果の信頼度を求め（音声認識技術における公知の手法を用いてよい）、当該信頼度を基準としてよい。

出力部１４は、応答音声を出力するための音声データを格納する音声格納部５１から、決定されたシステム動作に応じた音声データから選択又は生成（公知の音声合成技術を用いてよい）し、当該音声データに対応する応答音声（音声信号）をスピーカ６２に供給する。スピーカ６２は、供給された応答音声を出力する。また、出力部１４は、応答音声を推定部１５に供給する。

推定部１５は、供給された応答音声から、次のシステム１００側の応答音声の出力中におけるバージイン確率変動を推定し、推定バージイン確率変動を制御部１３に供給する。詳細は後述する。

図２は、音声対話装置１の処理を表すフローチャートである。音声対話装置１が起動されると、推定部１５は、出力部１４から出力される初期の応答音声から、応答音声の出力中におけるバージイン確率変動を推定する（Ｓ１０１）。

実際に推定部１５が、応答音声に基づいて、どの期間にバージイン発声が起こりやすいと推定するかについては後述する。出力部１４は、音声データの出力を開始し（Ｓ１０２）、認識部１２は、音声認識を開始する（Ｓ１０３）。ステップＳ１０２とステップＳ１０３とは、逆の順序、又は同時に行ってもよい。

認識部１２が音声認識を行なっている間、検出部１１は、音声認識を開始してから認識結果が得られるまで、音声の検出を行なう。また、検出部１１は、音声の検出を開始した時刻を記憶しておく（Ｓ１０４）。

認識部１２が音声認識の結果を取得した場合（Ｓ１０５）、制御部１３は、バージイン確率変動に基づいて、音声認識結果を採用するか否かを判定する（Ｓ１０６）。

すなわち、制御部１３は、バージイン発声が起こりやすいと推定した時刻では、音声認識結果を採用しやすくする。制御部１３は、バージイン発声が起こりにくいと推定されている時刻では、音声認識結果を採用しにくくする。

音声認識結果を採用しないと判定した場合（ステップＳ１０６においてＮＯ）、ステップＳ１０３に遷移する。この際、認識部１２は、スピーカ６２から応答音声が出力中であっても、音声認識を再開する。

音声認識結果を採用すると判定した場合（ステップＳ１０６においてＹＥＳ）、制御部１３は、当該音声認識結果に基づき、次に行なうシステム動作を決定する（Ｓ１０７）。制御部１３は、ユーザとの対話が完了したか否かを判定する（Ｓ１０８）。例えば、制御部１３は、ユーザからの音声入力が一定時間行なわれていないか否かを判定することにより、ユーザとの対話が完了したか否かを判定してもよい。

ユーザとの対話が完了したと判定した場合（ステップＳ１０８においてＹＥＳ）は、処理を終了する。

ユーザとの対話が完了していないと判定した場合（ステップＳ１０８においてＮＯ）は、ステップＳ１０１に遷移する。

この後、ステップＳ１０２では、決定したシステム動作から次の応答音声が出力されるが、その時点まで前の応答音声が出力されている場合は、その出力は中断するのが望ましい。中断するタイミングは、検出部１１が音声の検出を開始した時点（ステップＳ１０４）から、次の応答が出力される時点（ステップＳ１０２）までの期間であればいつでも構わない。

これにより、制御部１３は、検出部１１がユーザの音声の検出を開始した時刻におけるバージイン発声の起こりやすさによって、得られた認識結果を採用するかどうかを制御できる。

図３から図５は、推定部１５が、バージイン確率変動を推定する方法の説明図である。

推定部１５が応答音声文の音声データから、どの期間をバージイン発声の起こりやすい期間と推定するかについて説明する。

この例は、スピーカ６２が応答音声を出力した後に「ピッ」という合図が鳴るようになっている。これにより音声対話装置１は、応答音声が終了したことをユーザに通知し、ユーザからの音声の返答を促す。

図３から図５において、応答音声の上に示すグラフが、推定部１５が推定したバージイン確率変動の推定結果の例を表している。ラインの位置が点線（すなわち、バージイン確率が０）で示している位置より高いほど、バージイン発声が起こりやすいと推定したことを意味している。

図３の例は、特にシステム１００に慣れていないユーザ（初心者）に効果的な例を示している。初心者はシステム１００をどのように操作できるかが分からないため、基本的に応答音声の出力が終了するまで発声は行わないが、応答音声の出力が終了したと勘違いし、バージイン発声をする傾向があると考えられる。

図３（ａ）に示すバージイン確率変動は、応答音声の出力が終了する直前の期間でバージイン発声が起こりやすいと推定されたものである。図３（ｂ）に示すバージイン確率変動は、応答音声の出力中において、ポーズが発生する期間でバージイン発声が起こりやすいと推定されたものである。

図４の例は、熟練者に対して有効なバージイン確率変動を表している。熟練者は、現在の対話の状態において次に何を言えば良いかを把握しているため、認識部１２が認識した音声認識結果が正しいかどうか、応答音声の出力から判明した時点で、バージイン発声を行う傾向があると考えられる。

図４（ａ）に示すバージイン確率変動は、認識部１２が、ユーザの発声を認識し、出力部１４が、その結果を応答出力した（トークバックした）直後の期間にバージイン発声が起こりやすいと推定されたものである。

図４（ｂ）に示すバージイン確率変動は、認識部１２がユーザの発声を認識できず（リジェクト）、ユーザに対し再入力を要求していることをユーザに通知していると、ユーザが判断できる期間（例では「すみません」と応答した直後）にバージイン発声が起こりやすいと推定されたものである。

また、ユーザが発話する単語の発声候補を選択肢として出力している場合、その単語を出力している期間に合わせてバージイン発声をするユーザがいると考えられる。そこで、図４（ｃ）に示すバージイン確率変動は、複数の発声候補（例では自宅、携帯、仕事）をユーザに提示している期間にバージイン発声が起こりやすいと推定されたものである。

以上の図３及び図４のバージイン確率変動を合わせると、図５に示すバージイン確率変動となる。

この例の場合、推定部１５は、図５に示すバージイン確率変動を最終的に推定し、制御部１３に供給してよい。

制御部１３が、バージイン発声の音声認識結果の採用のしやすさを調整する方法としては、音声認識結果と同時に得られる信頼度スコアに対して閾値を設け、閾値以下である場合に音声認識結果を棄却するようにしておき、バージイン発声の起こりやすさによって閾値を変化させる方法が挙げられる。

なお、図３から図５では、バージイン確率変動は連続的に変動しているが、離散的な変動をしてもよい。同様に、バージイン発声の採用のしやすさも連続的、離散的などどのような変動の仕方をしてもよい。

また、本実施の形態では、推定部１５は、応答音声に対して、バージイン確率変動を推定しているが、これに限られない。例えば、推定部１５は、予め応答音声に関して、バージイン確率変動を対応付けたテーブル（不図示）を用いてよい。すなわち、推定部１５は、応答音声に対応するバージイン確率変動をテーブル（不図示）から抽出して、制御部１３に供給しても構わない。

（変形例１）
図２のフローチャートでは、応答出力や音声認識の開始の前に応答出力中のバージイン確率変動を推定していた。しかし、そのバージイン確率変動を利用するのは音声認識結果が得られた後（Ｓ１０６）であるため、音声認識結果が得られた後や、音声認識の起動中に、出力し始めた応答音声からバージイン確率変動を推定しても、制御部１３は、バージイン確率変動からバージイン発声の採用のしやすさを調整することは可能である。

図６は本変形例の音声認識装置１の処理を表すフローチャートである。音声認識結果が得られた後、ステップＳ６０１でバージイン発声の起こりやすさの推定し、ステップＳ１０６で音声認識結果を採用するか判定する。

応答音声をバージイン確率変動に反映させる方法としては、出力する応答音声に対応するバージイン確率変動を別に作成しておき、応答音声と共に読み込む。また、トークバックとその後に続く応答を分けて出力している場合には、その間をバージイン発声が起こりやすいと推定すればよい。

また、応答音声を合成音等で出力し、応答音声をテキストで表現できる場合は、そのテキストにバージイン確率変動を付加させてよい。また、テキスト解析を用い句点や文末と検出された期間をバージイン発声が起こりやすいと推定してもよい。

バージイン発声を受け付けるかどうかを判定するためのプロセスで、図２のフローチャートでは認識部１２が音声認識中に、検出部１１が音声検出を開始した時刻を取得しておき、音声認識結果を取得後、音声検出の開始時刻と、バージイン確率変動とから判定していた。

しかし、バージイン確率変動を、応答音声を出力している間同期させておき、検出部１１が、音声検出を開始した時点で、その時刻でのバージイン発声の起こりやすさからバージイン発声を受け付ける条件を決定し、認識部１２が音声認識結果得た時点でその条件と照らし合わせる判定方法でも良い。

（変形例２）
スピーカ６２からの応答音声の出力がマイク入力に回り込み、ユーザの入力発声と混入してしまう場合は、応答音声を用いて、入力信号からスピーカ６２からの応答音声を除去するエコーキャンセル機能を用いてもよい。

図７が本実施形態の変形例２に係る音声対話装置１０を示すブロック図である。音声対話装置１０は、音声対話装置１に対して、エコーキャンセル部１６をさらに備える。エコーキャンセル部１６は、スピーカ６２から出力される音声に基づいて、マイク６１から入力された音声信号から当該音声を除去する。エコーキャンセル部１６は、当該音声を除去した信号を検出部１１に供給する。

エコーキャンセル部１６は、図２のフローチャートにおけるステップＳ１０３からステップＳ１０５までの期間のうち、応答音声が出力されている期間または全ての期間において動作する。これにより、エコーキャンセル機能を搭載したバージイン機能付き音声対話装置が実現できる。

（変形例３）
本実施形態では、バージイン確率変動からバージイン発声を受け付けるか判定する方法として、バージイン確率変動から音声認識結果の採用のしやすさを調整しており、信頼度スコアや関連度の閾値を上下させることで実現できるとしていが、これに限られない。

この方法以外にも、例えば、バージイン確率変動に所定の閾値を設定し、制御部１３は、閾値以上である期間に検出され始めた音声の認識結果は採用し、閾値以下である期間に検出され始めた音声の認識結果は採用しないようにしてよい。

以上のように、本実施形態によればバージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。

（第２の実施の形態）
図８は、第２の実施形態に係る音声対話装置２を示すブロック図である。この第２の実施形態に係わるバージイン機能付き音声対話装置２は、音声対話装置１における推定部１５が、推定部２５に置き換わったものである。

本実施形態において、制御部１３は、音声認識結果により次のシステム動作を決定した後、その情報を出力部１４と共に推定部２５に供給する点が、第１の実施の形態の場合と異なる。

出力部１４は、出力する応答音声をバージイン推定部２５には供給しない点が、第１の実施の形態の場合と異なる。

推定部２５では、制御部１３から供給された、次のシステム動作の情報からバージイン確率変動を推定し、当該バージイン確率変動を制御部１３に送り返す。詳細については後述する。

図９は、音声対話装置２の処理を表すフローチャートである。ただし、ステップＳ１０２〜Ｓ１０８は第１の実施形態と同様であるため、詳細な説明は省略する。

ステップＳ２０１では、システム動作に応じてバージイン確率変動を推定する。図１０は、推定部２５が、バージイン確率変動を推定する方法の説明図である。

図１０（ａ）に示すバージイン確率変動は、ユーザの発声がリジェクトとなった後の応答出力中全ての期間でバージイン発声を起こりやすいと推定されたものである。これは、リジェクトによりユーザがもう一度同じ内容を発声する際はバージイン発声をしたいと感じる傾向があると考えられるためである。

また、対話を開始した直後の初期のシステム動作では、システムは常に同じ応答音声を出力し、同様の要求をユーザに行っている。ユーザが熟練者である場合、対話の開始の合図を通知した時点で何を発声すればいいか分かってくるため、バージイン発声をしたいと感じる傾向があると考えられる。

そこで図１０（ｂ）に示すバージイン確率変動は、対話が開始された直後の応答が出力されている期間、常にバージイン発声が起こりやすいと推定されたものである。

このように、本実施形態では、ユーザがバージイン発声を行いやすいシステム動作、具体的にはリジェクト後や対話開始直後のシステム動作による応答出力の際にバージイン発声の音声認識結果を採用しやすくしているため、バージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。

（第３の実施形態）
図１１は、第３の実施形態に係る音声対話装置３の構成を表すブロック図である。音声対話装置３は、音声対話装置２における推定部２５が、推定部３５に置き換わったものである。

制御部１３は、音声認識結果により次のシステム動作を決定した後、そのシステム動作をユーザがどれだけ習熟しているかを表す習熟度を推定し推定部３５に供給する点が、第１の実施形態及び第２の実施形態と異なる。

出力部１４は、第１の実施形態と同様であるが、出力する応答音声を推定部３５に供給しない点が、第１の実施形態と異なる。

推定部３５では、制御部１３から送られてきた次のシステム動作に対するユーザの習熟度からバージイン確率変動を推定し、当該バージイン確率変動を制御部１３に送り返す。

図１２は、音声対話装置３の処理を表すフローチャートである。ただし、ステップＳ１０２〜Ｓ１０８は第１の実施形態と同様であるため、詳細な説明は省略する。

ステップＳ３０１において、推定部１３は、次のシステム動作をどれだけユーザが習熟しているかによってバージイン確率変動を推定する。

ユーザが習熟しているシステム動作であるほど、そのときに何を発声すればいいかが分かっているためそのシステム動作による応答出力の際にバージイン発声が起こりやすいと考えられる。そこで制御部１３は、次のシステム動作をどれだけユーザが習熟しているかを推定し、推定部３５は、ユーザが習熟しているシステム動作であるほどバージイン発声を起こりやすいと推定する。

図１３は、推定部３５が、バージイン確率変動を推定する方法の説明図である。図１３（ａ）の例では、ユーザはまだ初心者であり、システム動作をまだあまり習熟していないと推定部３５が推定したためバージイン発声を受け付けにくくしている。しかし、図１３（ｂ）の例では、同じユーザでも何度もシステム１００を利用することで熟練者となっており、その対話におけるシステム動作を習熟したと推定部３５が推定したため、バージイン発声を受け付けやすくしている。このように、ユーザが習熟しバージイン発声を行いたいと意図するのに合わせて、バージイン発声の受け付けやすさを上げることができる。

本実施形態と第１の実施の形態を組み合わせることも可能である。その場合、ユーザが習熟しておりバージイン発声が起こりやすいシステム動作による応答音声の出力においてバージイン発声を受け付けやすくする方法としては、第１の実施の形態で得られたバージイン発声の採用のしやすさに、全ての期間に一律してバージイン発声の認識結果を採用しやすくするよう上乗せする方法がある。また、第１の実施の形態でバージイン発声が行われやすいと推定した期間のみに対して更にバージイン発声の認識結果を採用しやすくするよう上乗せする方法がある。

ユーザがシステム動作にどれだけ習熟しているかを表す習熟度を推定する方法としては、システム１００の起動回数、ユーザに対してそのシステム動作をした回数から推定する方法が挙げられる。より正確に推定する場合は、対話履歴から得られる様々な情報を用い、決定木により推定する手法などが利用できる。

このように、本実施形態によれば、ユーザが習熟しておりバージイン発声が起こりやすいシステム動作による応答出力の際にバージイン発声の認識結果を採用しやすくしているため、バージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。

（第４の実施形態）
図１４は、第４の実施形態に係る音声対話装置４を表すブロック図である。本実施の形態において、検出部１１は、推定部１５から供給されるバージイン確率変動から、音声の始端の検出のしやすさを調整する点が、第１の実施の形態と異なる。

対話制御部１３は、推定部１５が推定した応答音声の出力中のバージイン確率変動から、その認識結果の採用のしやすさを調整する処理を行わない点が、第１の実施の形態と異なる。

推定部１５は、推定したバージイン確率変動を検出部１１に供給する点が、第１の実施の形態と異なる。

図１５は、音声対話装置４の処理を表すフローチャートである。ただし、ステップＳ１０１〜Ｓ１０３、Ｓ１０５、Ｓ１０７、Ｓ１０８は第１の実施の形態と同様であるため、詳細な説明は省略する。

ステップＳ４０４では、ステップＳ１０１で推定部１５が推定したバージイン確率変動を用い、検出部１１でバージイン発声の始端の検出のしやすさを調整しながら音声認識を行う。バージイン発声が起こりやすい期間ほど音声の始端を検出しやすくし、バージイン発声が起こりにくい期間ほど音声の始端を検出しにくくするよう制御する。一度音声が検出された後は誤ってユーザの発声の検出を中止してしまうことを防ぐため、発声が終了したと検出部１１が判断するまでは、始端を検出した際の検出のしやすさを維持したり、検出のしやすさをあらかじめ決めておいた検出のしやすさに固定をしたりすることで、ある程度音声を検出する状態で音声認識を継続する。

音声の始端の検出のしやすさを調整する方法としては、音声区間を検出する装置のパラメータ、特に音量や人間の声らしさの閾値を調整する、などが挙げられる。また第１の実施の形態と同様、調整の変動の仕方、バージイン発声の起こりやすさからの変換の仕方などについては連続的、離散的などどのような変動、変換をしてもよい。

ステップＳ４０４でバージイン発声が起こりにくい区間ではバージイン発声の始端を検出しにくくなっているため、ステップＳ１０５で認識結果が得られた後に認識結果を採用するかどうかの判定をする必要なくステップＳ１０７に遷移し、次の対話の動作を決定することができる。

このように、本実施形態によれば、出力する応答音声から応答出力中のバージイン発声の起こりやすさを推定し、バージイン発声が起こりやすいと推定された期間ほど音声の始端を検出しやすくなっているため、バージイン発声が起きにくい期間中における、ユーザの独り言や雑音等による誤検出を減少させることができる。

（変形例）
音声対話装置４では、バージイン確率変動からバージイン発声を受け付けるか判定する方法として、バージイン発声の起こりやすさの変動の情報から音声始端の検出のしやすさを調整しており、音声を検出する装置のパラメータを調整することで実現できるとしていた。

この方法以外にも、バージイン発声の起こりやすさに閾値を設け、閾値以上である期間、検出部１１は動作する。または、音声検出装置のパラメータを音声の検出を行なうように設定する。そして、音声の始端が検出された場合は、発声が終了したと検出部１１が判断するまで検出部１１の動作、または音声検出装置のパラメータを音声の検出を行なう設定とし、音声の検出を継続する。音声の検出を行っておらずバージイン発声の起こりやすさが閾値以下である期間は検出部１１を動作しない。または、音声検出装置のパラメータを音声の検出を行わないように設定する方法がある。

上述した実施形態により、ユーザからのバージイン発声を精度よく認識することができる。

これまで、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１、２、３、４音声対話装置
１１検出部
１２認識部
１３制御部
１４出力部
１５、２５、３５推定部
１６エコーキャンセル部
５１音声格納部
６１マイク
６２スピーカ
１００システム

Claims

ユーザの音声を検出する検出部と、
検出した前記音声を認識する認識部と、
前記音声の認識結果に対応した応答音声を出力する出力部と
前記応答音声の出力中に前記ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記バージイン発声を採用するか否かを判定する制御部とを備える
音声対話装置。
前記制御部は、前記バージイン確率変動における確率が高い程、前記バージイン発声の前記音声認識結果を採用する基準を下げる
請求項１記載の音声対話装置。
前記バージイン確率変動を推定する推定部をさらに備え、
前記制御部は、
推定された前記バージイン確率変動に基づいて、前記応答音声の出力中に前記認識部が認識したバージイン発声を採用するか否かを判定する
請求項１記載の音声対話装置。
前記バージイン発声を採用する場合、
前記制御部は、
前記バージイン発声に応じた応答音声を出力するよう、前記出力部を制御する
請求項１記載の音声対話装置。
前記制御部は、前記バージイン確率変動に基づいて、前記検出部の前記音声の検出の精度を変更する、
請求項２記載の音声対話装置。
ユーザの音声を検出し、
検出した前記音声を認識し、
前記音声の認識結果に対応した応答音声を出力し、
前記応答音声の出力中に前記ユーザから割り込まれて入力されたバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記バージイン発声を採用するか否かを判定する
音声対話方法。
コンピュータを、
ユーザの音声を検出する手段と、
検出した前記音声を認識する手段と、
前記音声の認識結果に対応した応答音声を出力する手段と、
前記ユーザからのバージイン発声が起こる確率の時間変化を表すバージイン確率変動に基づいて、前記応答音声の出力中に前記認識部が認識したバージイン発声を採用するか否かを判定する手段として機能させる音声対話プログラム。