JP4437047B2

JP4437047B2 - 音声対話装置

Info

Publication number: JP4437047B2
Application number: JP2004044798A
Authority: JP
Inventors: 久幸長島
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2004-02-20
Filing date: 2004-02-20
Publication date: 2010-03-24
Anticipated expiration: 2024-02-20
Also published as: JP2005234331A

Description

本発明は、利用者との対話に基づいて処理を実行する処理システムに利用する音声対話装置に関する。

従来、利用者との対話のために利用する音声対話装置には、例えば音声の入力を要求する信号を出力する入力要求手段と、入力された音声を認識する認識手段と、音声の入力が要求されてから音声の入力が検出されるまでの時間や、音声入力の継続時間（発話時間）を計測する計測手段と、音声の認識結果に対応した音声応答信号を出力する出力手段とを備え、音声の入力が検出されてから音声応答信号を出力するまでの時間や、音声応答信号の応答時間、あるいは音声応答信号の表現形式を、前述の音声の入力が要求されてから音声の入力が検出されるまでの時間や、音声入力の継続時間に基づいて可変制御するものがある。この装置では、これにより各利用者の反応時間や音声の入力時間に基づいて、各利用者に適切な応答を与えることが可能になる（例えば、特許文献１参照。）。

一方、同様に利用者の音声を認識して応答する装置には、音声の入力が要求されてから音声の入力が検出されるまでの時間や、音声入力の継続時間（発話時間）の他、利用者の発話音数を計測して利用者の理解度（習熟度）を推定し、その結果から、応答音声信号による音声ガイドのシナリオや発話内容、更には発話速度を制御するものもある。この装置でも、同様に各利用者に適切な応答を与えることが可能になる（例えば、特許文献２参照。）。
特公平５−１８１１８号公報特開２０００−１９４３８６号公報

ところで、従来の装置では、利用者が発話を開始するまでの時間を用いることで、装置側の音声応答信号の出力タイミングを変更できるものの、利用者が発話したか否かを、入力された音声信号の周波数や強さから判定するのみで、その内容を判断していないため、利用者の発話に対して正しく応答できない可能性があるという問題があった。何故なら、たとえ音声入力の要求に対して即座に利用者が応答したとしても、利用者が目的地等の意味のある言葉を発話したのか、それとも例えば日本語において意味のある言葉の前置きの言葉として発せられる「あ〜」や「え〜」等の意味を持たない言葉を発話したのか、両者を区別しなければ、本当に利用者が対話を理解して発話しているかを判断することができないからである。すなわち、利用者が意味を持たない言葉を即座に応答したとしても、それは利用者が対話を理解しているとは言えないので、この時間に基づいて音声応答信号を出力しても、利用者に適切な応答を与えることができないという問題があった。

また、入力された発話音数や発話語数を計測し、これを標準の利用者の発話音数や発話語数と比較して利用者の理解度（習熟度）を推定する場合、利用者の多様な発話に対応するのが難しいという問題があった。具体的には、例えば「かしわ」や「とうきょうあみゅーずめんとらんど」のように、目的地として同じレベルの意味を持つ言葉でも、これを標準の発話音数や発話語数と比較すると、その音数あるいは語数の違いから異なる理解度が出力されてしまう可能性や、あるいは理解度が同じでも、言葉のあとに「です」等の言葉を付与して丁寧に発話すると、理解度が低いと判断してしまう可能性があり、推定された理解度に基づいて音声応答信号を出力しても、利用者に適切な応答を与えることができない可能性があるという問題があった。

本発明は、上記課題に鑑みてなされたもので、正確に利用者の理解度を推定して適切な対話制御を行い、利用者の利便性を向上させた音声対話装置を提供することを目的とする。

上記課題を解決するために、請求項１の発明に係る音声対話装置は、利用者が発話する音声を入力するための音声入力手段（例えば後述する実施例のマイク１）と、入力された音声の認識処理を行う音声認識手段（例えば後述する実施例の音声認識部２２）と、認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段（例えば後述する実施例のキーワード判定部２３）と、認識された前記利用者の音声について音数を計測する入力音数計測手段（例えば後述する実施例の認識語カウント部２６、及び理解度計算部２８が実行するステップＳ１１からステップＳ１２の処理）と、利用者の発話によって入力された総音数に占める前記キーワードの音数の割合に基づいて、対話における前記利用者の理解度を判定する理解度判定手段（例えば後述する実施例の理解度計算部２８が実行するステップＳ１３からステップＳ１５の処理、及びステップＳ２３の処理）と、前記利用者の理解度に応じて対話応答を制御する対話制御手段（例えば後述する実施例の対話制御部２９）とを備えたことを特徴とする。

以上の構成を備えた音声対話装置は、利用者が発話する音声を入力するための音声入力手段と、入力された音声の認識処理を行う音声認識手段とを備える音声対話装置において、理解度判定手段が、例えば発話された音声の総音数に対して意味のある言葉の音数の割合が多い方が利用者の対話における理解度が高いというように、利用者の発話によって入力された音声の総音数に対する重要なキーワードの音数の割合に基づいて、対話における利用者の理解度を判定するので、対話制御手段は、推定された理解度に応じて適切な対話制御を実行することができる。

請求項２の発明に係る音声対話装置は、利用者が発話する音声を入力するための音声入力手段（例えば後述する実施例のマイク１）と、入力された音声の認識処理を行う音声認識手段（例えば後述する実施例の音声認識部２２）と、認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段（例えば後述する実施例のキーワード判定部２３）と、前記利用者が発話を開始してから終了するまでの総発話時間を計測する総発話時間計測手段（例えば後述する実施例の時刻キーワード結合部２７、及び理解度計算部２８が実行するステップＳ３１の処理）と、前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段（例えば後述する実施例の時刻キーワード結合部２７、及び理解度計算部２８が実行するステップＳ３２の処理）と、前記総発話時間に占める前記キーワード発話継続時間の割合に基づいて、対話における前記利用者の理解度を判定する理解度判定手段（例えば後述する実施例の理解度計算部２８が実行するステップＳ３３からステップＳ３５の処理、及びステップＳ２３の処理）と、前記利用者の理解度に応じて対話応答を制御する対話制御手段（例えば後述する実施例の対話制御部２９）とを備えたことを特徴とする。

以上の構成を備えた音声対話装置は、利用者が発話する音声を入力するための音声入力手段と、入力された音声の認識処理を行う音声認識手段とを備える音声対話装置において、理解度判定手段が、例えば利用者が発話を開始してから終了するまでの総発話時間に対して意味のある言葉が発話されている時間の割合が多い方が利用者の対話における理解度が高いというように、音声の入力が開始されてから終了するまでの総発話時間に対する重要なキーワードが発話されていたキーワード発話継続時間の割合に基づいて、対話における利用者の理解度を判定するので、対話制御手段は、推定された理解度に応じて適切に対話制御を実行することができる。

請求項３の発明に係る音声対話装置は、利用者が発話する音声を入力するための音声入力手段（例えば後述する実施例のマイク１）と、入力された音声の認識処理を行う音声認識手段（例えば後述する実施例の音声認識部２２）と、認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段（例えば後述する実施例のキーワード判定部２３）と、前記キーワードを発話するのに要する標準的な時間をキーワード基準発話時間として前記キーワード毎に記憶したキーワード基準発話時間記憶手段（例えば後述する実施例のキーワードデータベース２５）と、前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段（例えば後述する実施例の時刻キーワード結合部２７、及び理解度計算部２８が実行するステップＳ４２の処理）と、前記キーワード基準発話時間に対する前記キーワード発話継続時間の比率に基づいて、対話における前記利用者の理解度を判定する理解度判定手段（例えば後述する実施例の理解度計算部２８が実行するステップＳ４３からステップＳ４５の処理、及びステップＳ２３の処理）と、前記利用者の理解度に応じて対話応答を制御する対話制御手段（例えば後述する実施例の対話制御部２９）とを備えたことを特徴とする。

以上の構成を備えた音声対話装置は、利用者が発話する音声を入力するための音声入力手段と、入力された音声の認識処理を行う音声認識手段とを備える音声対話装置において、理解度判定手段が、例えば利用者が自信を持たずに発話した場合は重要なキーワードの発話に要するキーワード発話継続時間の長さが長く、利用者が自信を持って発話した場合は重要なキーワードの発話に要するキーワード発話継続時間の長さが短く、利用者の対話における理解度が高いというように、所定のキーワードの発話に標準的に要するキーワード基準発話時間に対する利用者がキーワード自体を発話するのに要したキーワード発話継続時間の比率に基づいて、対話における利用者の理解度を判定するので、対話制御手段は、推定された理解度に応じて適切に対話制御を実行することができる。

請求項４の発明に係る音声対話装置は、利用者が発話する音声を入力するための音声入力手段（例えば後述する実施例のマイク１）と、入力された音声の認識処理を行う音声認識手段（例えば後述する実施例の音声認識部２２）と、認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段（例えば後述する実施例のキーワード判定部２３）に加えて、更に、認識された前記利用者の音声について音数を計測する入力音数計測手段（例えば後述する実施例の認識語カウント部２６と、理解度計算部２８が実行するステップＳ１１からステップＳ１２の処理）、あるいは前記利用者に発話を要求してから該利用者が前記キーワードを発話するまでのキーワード出現時間を計測するキーワード出現時間計測手段（例えば後述する実施例の時刻キーワード結合部２７と、理解度計算部２８が実行するステップＳ１からステップＳ３の処理）、あるいは前記利用者が発話を開始してから終了するまでの総発話時間を計測する総発話時間計測手段（例えば後述する実施例の時刻キーワード結合部２７と、理解度計算部２８が実行するステップＳ３１の処理）及び前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段（例えば後述する実施例の時刻キーワード結合部２７と、理解度計算部２８が実行するステップＳ３２の処理）、あるいは前記キーワードを発話するのに要する標準的な時間をキーワード基準発話時間として前記キーワード毎に記憶したキーワード基準発話時間記憶手段（例えば後述する実施例のキーワードデータベース２５）及び前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段（例えば後述する実施例の時刻キーワード結合部２７と、理解度計算部２８が実行するステップＳ４２の処理）の内の少なくとも２組以上の手段と、利用者の発話によって入力された総音数に占める前記キーワードの音数の割合と、前記キーワード出現時間の長さと、前記総発話時間に占める前記キーワード発話継続時間の割合と、前記キーワード基準発話時間に対する前記キーワード発話継続時間の比率の内の少なくとも２つ以上を組合わせた結果に基づいて、対話における前記利用者の理解度を判定する理解度判定手段（例えば後述する実施例の理解度計算部２８が実行するステップＳ１３からステップＳ１５の処理、ステップＳ４からステップＳ６の処理、ステップＳ３３からステップＳ３５の処理、ステップＳ４３からステップＳ４５の処理のいずれか２つ以上の組合せとステップＳ２３の処理）と、前記利用者の理解度に応じて対話応答を制御する対話制御手段（例えば後述する実施例の対話制御部２９）とを備えたことを特徴とする。

以上の構成を備えた音声対話装置は、利用者が発話する音声を入力するための音声入力手段と、入力された音声の認識処理を行う音声認識手段とを備える音声対話装置において、理解度判定手段が、入力された音声の総音数に対する重要なキーワードの音数の割合、あるいは音声の入力を要求してから重要なキーワードが発話されるまでのキーワード出現時間の長さ、あるいは音声の入力が開始されてから終了するまでの総発話時間に対する重要なキーワードが発話されていたキーワード発話継続時間の割合、あるいは所定のキーワードの発話に標準的に要するキーワード基準発話時間に対する利用者がキーワード自体を発話するのに要したキーワード発話継続時間の比率の内の少なくとも２つ以上を組合わせた結果に基づいて、対話における利用者の理解度を判定するので、対話制御手段は、推定された理解度に応じて適切に対話制御を実行することができる。

請求項５の発明に係る音声対話装置は、請求項１から請求項４のいずれかに記載の音声対話装置において、搭載された車両の走行環境を判定する走行環境判定部（例えば後述する実施例の車両状態検出装置）を備え、前記理解度判定手段が、前記走行環境判定部が判定する前記車両の走行環境に応じて、対話における前記利用者の理解度を判定するためのしきい値を変更することを特徴とする。

以上の構成を備えた音声対話装置は、理解度判定手段が、走行環境判定部の判定する車両の走行環境に応じて、対話における利用者の理解度を判定するためのしきい値を変更することで、例えば利用者が運転中は、自信を持って入力されたと推定できる発話でも、利用者が運転に気を取られて、もしかしたら言葉を間違っているかもしれないというように、車両の走行環境の変化に伴う利用者の理解度の変化を正確に推定することができる。

請求項１に記載の音声対話装置によれば、利用者の発話によって入力された音声の総音数と重要なキーワードの音数との比較により推定された対話における利用者の理解度に応じて、適切な対話制御を実行することができる。
従って、理解度が高い利用者には簡潔な応答による対話制御を実行し、一方理解度が低い利用者には詳細かつ丁寧な応答による対話制御を実行することで、利用者のレベルに従って適切な対話制御を実行し、利用者の利便性を向上させる音声対話装置を実現することができるという効果が得られる。また、自由発音特有の意味を持たない言葉の入力を許容することで、利用者の発話に対するプレッシャーを極力排除することができるという効果が得られる。また、特に入力された音声の総音数と重要なキーワードの音数との比較により理解度を推定することで、音数の取りうる幅が大きな言葉や、語尾に付く丁寧語の影響を受けることなく正確に理解度を算出し、適切な対話制御を実行することができるという効果が得られる。

請求項２に記載の音声対話装置によれば、重要なキーワードが発話されていた時間により推定された理解度に応じて、適切に対話制御を実行することができる。
従って、請求項１と同様に、利用者のレベルに従って適切な対話制御を実行し、利用者の利便性を向上させる音声対話装置を実現することができるという効果が得られる。また、自由発音特有の意味を持たない言葉の入力を許容することで、利用者の発話に対するプレッシャーを極力排除することができるという効果が得られる。また、特に音声の入力が開始されてから終了するまでの総発話時間とキーワードが発話されていたキーワード発話継続時間との比較により理解度を推定することで、どのような言葉にも対応し、音数が識別しにくい言葉についても、発話された音声に対する意味のある言葉の割合から正確に理解度を算出して、適切な対話制御を実行することができるという効果が得られる。

請求項３に記載の音声対話装置によれば、利用者が重要なキーワード自体を発話するのに要した時間により推定された理解度に応じて、適切に対話制御を実行することができる。
従って、請求項１と同様に、利用者のレベルに従って適切な対話制御を実行し、利用者の利便性を向上させる音声対話装置を実現することができるという効果が得られる。また、自由発音特有の意味を持たない言葉の入力を許容することで、利用者の発話に対するプレッシャーを極力排除することができるという効果が得られる。また、特に所定のキーワードの発話に標準的に要するキーワード基準発話時間と利用者が重要なキーワード自体を発話するのに要したキーワード発話継続時間との比較により理解度を推定することで、発話全体を検査するまでもなく、重要なキーワードのみを確認するだけで、正確に理解度を算出して適切な対話制御を実行することができるという効果が得られる。

請求項４に記載の音声対話装置によれば、重要なキーワードに関する組み合わされた情報により推定された理解度に応じて、適切に対話制御を実行することができる。
従って、対話制御における理解度の判定精度を向上させ、入力された音声の内容や状態に影響を受けずに正確に理解度を算出し、適切な対話制御を実行することができるという効果が得られる。

請求項５に記載の音声対話装置によれば、車両の走行環境の変化に伴う利用者の理解度の変化を正確に推定することができる。
従って、車両を運転することで負担がかかっている利用者についても、その時の利用者の状態に応じて正確に理解度を算出し、適切な対話制御を実行することができるという効果が得られる。また、利用者の利便性を向上させ、車両搭載に適した音声対話装置を実現することができるという効果が得られる。

以下、図面を参照して本発明の実施例について説明する。

まず、第１の実施例について説明する。第１の実施例では、利用者に音声入力（発話）を要求してから重要なキーワードが発話されるまでのキーワード出現時間と、利用者が単一の発話を開始してから終了するまでに入力された総音数（音素の数）に占める重要なキーワードの音数の割合とにより、対話における利用者の理解度を推定する場合を示す。

（装置構成）
図１は、本発明の第１の実施例の音声対話装置の全体構成を示すブロック図である。
図１において、本実施例の音声対話装置は、利用者の音声を入力するためのマイク１を備えており、マイク１から入力された利用者の音声は信号処理部２へ入力される。
信号処理部２は、音声認識を実行して入力された音声を認識語に変換したり、該認識語から利用者の対話における理解度を算出し、理解度に基づいて対話の制御を行うと共に、対話の制御に基づいて応答文の生成を実行する処理部であって、信号処理部２において生成された応答文は音声合成部３とディスプレイ４へ入力される。また、音声合成部３は、信号処理部２において生成された応答文をスピーカ５へ出力する。一方、ディスプレイ４は、信号処理部２において生成された応答文を画面に表示する。

（信号処理部の詳細）
次に、図面を参照して本実施例の音声対話装置の信号処理部２の詳細について説明する。図２は、本実施例の音声対話装置の信号処理部２の構成を示すブロック図である。
図２において、マイク１から入力された音声は、まず発話区間検出部２１に入力され、発話区間検出部２１において、音声対話装置の発話に基づいて利用者の発話区間（開始時刻と終了時刻）の検出が行われる。次に、入力された音声は、音声認識部２２へ入力され、音声認識部２２において音声認識が実行されることにより認識語（テキスト）に変換される。
また、利用者の音声と発話区間の情報、及び認識語は、時刻認識語結合部２４へ入力され、時刻認識語結合部２４は、それぞれの認識語に対して認識語が発話された時刻情報を結合して、認識語とそれに対応する時刻情報を、後述する時刻キーワード結合部２７へ出力する。

一方、音声認識部２２の出力する音声及びその認識語は、キーワード判定部２３へ入力され、キーワード判定部２３は、対話において意味のある言葉であるキーワードが記憶されたキーワードデータベース２５を参照して、入力された認識語から所定のキーワードを抽出すると共に、認識語のキーワード部分にタグを付与して、キーワードを同定済みの認識語を認識語カウント部２６へ出力する。
これに対し、認識語カウント部２６は、キーワードの音素の数（音数）と、キーワードも含めた全認識語の音素の数（総音数）をカウントし、認識語及びキーワードの音素の数に関する情報を、キーワードが同定された認識語と共に時刻キーワード結合部２７へ出力する。

また、時刻キーワード結合部２７は、時刻認識語結合部２４から入力された認識語及びそれに対応する時刻情報と、認識語カウント部２６から入力されたキーワードが同定された認識語とから、それぞれのキーワードに対してキーワードが発話された時刻情報を結合して、キーワードが同定された認識語とそれに対応する時刻情報を理解度計算部２８へ出力する。

また、理解度計算部２８は、入力された認識語及びキーワードの音素の数や、認識語とそれに対応する時刻情報、更には認識語のキーワードの位置に関する情報を利用して、対話における利用者の理解度Ｒを推定する処理部であって、理解度Ｒを、例えば以下に示す３つの状態のいずれかとして算出し対話制御部２９へ出力する。ここで、理解度Ｒについて説明すると、理解度Ｒ＝０は、「利用者の理解度が低く再入力を要求する必要がある。」場合を表し、理解度Ｒ＝１は、「利用者の通常の理解度であり、入力内容を確認して次のステップに進む。」場合を表す。また、理解度Ｒ＝２は、「利用者の理解度が高く、すぐに次のステップに進む。」場合を表す。なお、理解度計算部２８における理解度Ｒの算出方法については、詳細を後述する。

一方、対話制御部２９は、理解度計算部２８が算出する理解度Ｒに基づいて対話の流れを制御する処理部であって、例えば上述の理解度Ｒの３つの状態に対して、理解度Ｒ＝０の場合、再度入力を促すメッセージを出力する。また、理解度Ｒ＝１の場合、入力から得られた認識語（テキスト）を確認してから次のステップへ進む。更に、理解度Ｒ＝２の場合、入力から得られた認識語（テキスト）を確認せずに次のステップへ進む。なお、対話制御部２９が実行する理解度Ｒに基づく対話進行フローについても、詳細は後述する。
また、応答文生成部３０は、対話制御部２９の制御に合わせて、必要な応答文を生成して出力する処理部である。

なお、キーワードデータベース２５は、ハードディスク装置や光磁気ディスク装置、フラッシュメモリ等の不揮発性のメモリや、ＣＤ−ＲＯＭ等の読み出しのみが可能な記録媒体、ＲＡＭ（Random Access Memory）のような揮発性のメモリ、あるいはこれらの組み合わせによるコンピュータ読み取り、書き込み可能な記録媒体より構成されるものとする。

また、発話区間検出部２１と、音声認識部２２と、キーワード判定部２３と、時刻認識語結合部２４と、認識語カウント部２６と、時刻キーワード結合部２７と、理解度計算部２８と、対話制御部２９と、応答文生成部３０は、専用のハードウェアにより実現されるものであってもよく、また、メモリおよびＣＰＵ（中央演算装置）により構成され、上記の各部の機能を実現するためのプログラムをメモリにロードして実行することによりその機能を実現させるものであってもよい。

（理解度推定パラメータ）
次に、本実施例において理解度計算部２８が理解度Ｒを算出するための理解度推定パラメータについて説明する。
図３は、発話例と理解度推定パラメータを算出するための要素との関係を示す図である。なお、図３は、横軸を時刻、縦軸を音声のパワーとして示した図であって、音声対話装置の音声合成部３による発話と利用者の発話の両方を示している。

図３において、時刻ｔ０は、音声対話装置の音声合成部３による発話が終了した時刻である。また、時刻ｔ１は、利用者によって重要なキーワードの発話が開始された時刻である。また、時間ｄは、音声対話装置の音声合成部３による発話を終了することにより利用者に音声入力（発話）を要求してから重要なキーワードが発話されるまでのキーワード出現時間を示している。更に、時間Ｔ２は、利用者が単一の発話を開始してから終了するまでの総発話時間を示している。一方、時間Ｔｋは、利用者が重要なキーワード自体を発話するのに要したキーワード発話継続時間を示している。なお、これらの情報が、時刻キーワード結合部２７の出力するキーワードが同定された認識語とそれに対応する時刻情報に相当する。

一方、図３において、二重丸印は入力音声の音素を示しおり、認識語カウント部２６の出力する認識語及びキーワードの音素の数に関する情報に相当する。例えば、利用者の発話した「え〜〜っと、まいはまです。」という音声に基づく認識語は、８個の音素（音数＝８）から構成されており、重要なキーワードである「まいはま」の部分は、４個の音素（音数＝４）から構成されている。なお、太い下線により示した「え〜〜っと、」と「です。」の部分は、発話の中で意味を持たない言葉である。

一方、上述の各要素に対して、理解度推定パラメータｓ１は、キーワード出現時間ｄを変数に持つ関数として示される。また、理解度推定パラメータｓ２は、利用者が単一の発話を開始してから終了するまでに入力された総音数に占める重要なキーワードの音数の割合により示される。例えば、図３に示す発話例では、ｓ２＝４／８＝０．５である。

（理解度推定パラメータｓ１の算出手順）
次に、図面を参照して、理解度計算部２８における理解度推定パラメータｓ１の算出手順について説明する。図４は、理解度計算部２８における理解度推定パラメータｓ１の算出手順を示すフローチャートである。
図４において、まず理解度計算部２８は、音声対話装置の音声合成部３による発話が終了した時刻ｔ０を取得する（ステップＳ１）。
次に、利用者によって重要なキーワードの発話が開始された時刻ｔ１を取得する（ステップＳ２）。

そして、利用者によって重要なキーワードの発話が開始された時刻ｔ１から、音声合成部３による発話が終了した時刻ｔ０を減算して、利用者に音声入力（発話）を要求してから重要なキーワードが発話されるまでのキーワード出現時間ｄ（ｄ＝ｔ１−ｔ０）を算出する。（ステップＳ３）。
また、キーワード出現時間ｄを算出することができたら、キーワード出現時間ｄが所定時間Ｔｄより短いか否かを判定する（ステップＳ４）。

もし、ステップＳ４において、キーワード出現時間ｄが所定時間Ｔｄより短い（ｄ＜Ｔｄ）場合（ステップＳ４のＹＥＳ）、対話における利用者の理解度は高いと推定して、理解度推定パラメータｓ１に「１」を設定（ｓ１＝１）する（ステップＳ５）。
また、ステップＳ４において、キーワード出現時間ｄが所定時間Ｔｄ以上である（ｄ≧Ｔｄ）場合（ステップＳ４のＮＯ）、対話における利用者の理解度は低いと推定して、理解度推定パラメータｓ１に「０」を設定（ｓ１＝０）する（ステップＳ６）。

（理解度推定パラメータｓ２の算出手順）
次に、図面を参照して、理解度計算部２８における理解度推定パラメータｓ２の算出手順について説明する。図５は、理解度計算部２８における理解度推定パラメータｓ２の算出手順を示すフローチャートである。
図５において、まず理解度計算部２８は、利用者が単一の発話を開始してから終了するまでに入力された総音数ｐ０を取得する（ステップＳ１１）。
次に、利用者によって発話された重要なキーワードの音数ｐ１を取得する（ステップＳ１２）。
そして、入力された総音数ｐ０に占めるキーワードの音数ｐ１の割合（ｐ１／ｐ０）が例えば０．５以上であるか否かを判定する（ステップＳ１３）。

もし、ステップＳ１３において、入力された総音数ｐ０に占めるキーワードの音数ｐ１の割合（ｐ１／ｐ０）が０．５以上である場合（ステップＳ１３のＹＥＳ）、対話における利用者の理解度は高いと推定して、理解度推定パラメータｓ２に「１」を設定（ｓ２＝１）する（ステップＳ１４）。
また、ステップＳ１３において、入力された総音数ｐ０に占めるキーワードの音数ｐ１の割合（ｐ１／ｐ０）が０．５未満である場合（ステップＳ１３のＮＯ）、対話における利用者の理解度は低いと推定して、理解度推定パラメータｓ２に「０」を設定（ｓ２＝０）する（ステップＳ１５）。

（理解度Ｒの算出手順）
次に、本実施例における理解度計算部２８の理解度Ｒの算出手順について説明する。理解度計算部２８において、理解度Ｒは上述の理解度推定パラメータｓ１、ｓ２を用いて算出される。具体的に説明すると、本実施例では、理解度推定パラメータｓ１、ｓ２を組み合わせて、理解度Ｒを下記（１）式により算出する。従って、本実施例において、理解度ＲはＲ＝０、Ｒ＝１、Ｒ＝２の３つの状態のいずれかとして算出される。

Ｒ＝ｓ１＋ｓ２・・・（１）

（対話進行フロー）
次に、図面を参照して本実施例の音声対話装置の理解度Ｒに基づく対話進行フローについて説明する。図６は、本実施例の音声対話装置の理解度Ｒに基づく対話進行フローを示すフローチャートである。
図６において、まず信号処理部２は、対話の中で音声合成部３を介してスピーカ５から音声入力を促すメッセージを出力し、利用者に音声入力を求める（ステップＳ２１）。

これに対し、マイク１から音声が入力されると（ステップＳ２２）、信号処理部２は、理解度計算部２８において、理解度Ｒを算出する（ステップＳ２３）。
そして、信号処理部２は、対話制御部２９において、算出された理解度Ｒに基づく対話制御を実行し、対話の流れを決定する（ステップＳ２４）。
具体的には、理解度Ｒ＝０の場合（ステップＳ２４：Ｒ＝０）、利用者の理解度は低いと推定され、再入力を要求する必要があるので、信号処理部２は、ステップＳ２１へ戻り、再度入力を促すメッセージを出力する。

一方、理解度Ｒ＝１の場合（ステップＳ２４：Ｒ＝１）、利用者の理解度は通常と推定され、入力内容を確認して次のステップに進めば良いので、信号処理部２は、入力された認識語（テキスト）の確認メッセージを出力し（ステップＳ２５）、入力から得られた認識語（テキスト）に対する利用者の確認音声入力を待って（ステップＳ２６）、音声認識した認識語（テキスト）が正しいと利用者により確認されたか否かを判定する（ステップＳ２７）。

その結果、音声認識した認識語（テキスト）が正しいと利用者によって確認された場合（ステップＳ２７のＹＥＳ）、次のステップへ進む。
また、音声認識した認識語（テキスト）が正しいと利用者によって確認されなかった場合（ステップＳ２７のＮＯ）、ステップＳ２１へ戻り、再度入力を促すメッセージを出力する。
更に、理解度Ｒ＝２の場合（ステップＳ２４：Ｒ＝２）、利用者の理解度は高いと推定され、すぐに次のステップに進めば良いので、信号処理部２は、入力から得られた認識語（テキスト）を確認せずに次のステップへ進む。

なお、本実施例では、信号処理部２が入力音数計測手段と、理解度判定手段と、キーワード出現時間計測手段とを備えている。具体的には、認識語カウント部２６の他、理解度計算部２８が実行するステップＳ１１からステップＳ１２の処理が入力音数計測手段に相当する。また、理解度計算部２８が実行するステップＳ４からステップＳ６の処理と、ステップＳ１３からステップＳ１５の処理と、ステップＳ２３の処理が理解度判定手段に相当する。また、時刻キーワード結合部２７の他、理解度計算部２８が実行するステップＳ１からステップＳ３の処理がキーワード出現時間計測手段に相当する。

以上説明したように、本実施例の音声対話装置によれば、マイク１から入力された音声について、理解度計算部２８が、利用者に音声入力（発話）を要求してから重要なキーワードが発話されるまでのキーワード出現時間ｄの関数で表される理解度推定パラメータｓ１と、利用者が単一の発話を開始してから終了するまでに入力された総音数ｐ０に占める重要なキーワードの音数ｐ１の割合（ｐ１／ｐ０）から算出される理解度推定パラメータｓ２とを求め、理解度推定パラメータｓ１、ｓ２から対話における利用者の理解度を理解度Ｒとして算出する。そして、対話制御部２９が、算出された理解度Ｒに基づいて対話制御を実行し、例えば理解度Ｒ＝０の場合、利用者の理解度は低いと判定し、再度入力を促すメッセージを出力する。また、理解度Ｒ＝１の場合、利用者の理解度は通常と判定し、入力内容を確認して次のステップに進む。更に、理解度Ｒ＝２の場合、利用者の理解度は高いと判定し、入力から得られた認識語を確認せずに次のステップへ進む。

従って、理解度が高い利用者には簡潔な応答による対話制御を実行し、一方理解度が低い利用者には詳細かつ丁寧な応答による対話制御を実行することで、利用者のレベルに従って適切な対話制御を実行し、利用者の利便性を向上させる音声対話装置を実現することができるという効果が得られる。また、自由発音特有の意味を持たない言葉の入力を許容することで、利用者の発話に対するプレッシャーを極力排除することができるという効果が得られる。また、特に単純に利用者が発話したか否かではなく、重要なキーワードが発話されるまでの時間により理解度を推定することで、重要なキーワードがいつ発話されても正確に理解度を算出すると共に、更に入力された音声の総音数と重要なキーワードの音数との比較により理解度を推定することで、音数の取りうる幅が大きな言葉や、語尾に付く丁寧語の影響を受けることなく正確に理解度を算出し、適切な対話制御を実行することができるという効果が得られる。

次に、第２の実施例について説明する。第２の実施例では、利用者に音声入力（発話）を要求してから重要なキーワードが発話されるまでのキーワード出現時間と、利用者が単一の発話を開始してから終了するまでの総発話時間に占める利用者が重要なキーワード自体を発話するのに要したキーワード発話継続時間の割合とにより、対話における利用者の理解度を推定する場合を示す。

（装置構成、及び信号処理部の詳細）
本実施例における装置構成、及び信号処理部の詳細は、第１の実施例と同一なので、ここでは説明を省略する。

（理解度推定パラメータ）
次に、本実施例において理解度計算部２８が理解度Ｒを算出するための理解度推定パラメータについて説明する。
具体的には、図３に示す理解度推定パラメータを算出するための各要素に対して、理解度推定パラメータｓ１は、第１の実施例と同様に、キーワード出現時間ｄを変数に持つ関数として示される。一方、理解度推定パラメータｓ３は、利用者が単一の発話を開始してから終了するまでの総発話時間Ｔ２に占める利用者が重要なキーワード自体を発話するのに要したキーワード発話継続時間Ｔｋの割合、すなわち”Ｔｋ／Ｔ２”を変数に持つ関数として示される。

（理解度推定パラメータｓ３の算出手順）
次に、図面を参照して、理解度計算部２８における理解度推定パラメータｓ３の算出手順について説明する。図７は、理解度計算部２８における理解度推定パラメータｓ３の算出手順を示すフローチャートである。
図７において、まず理解度計算部２８は、利用者が単一の発話を開始してから終了するまでの総発話時間Ｔ２を取得する（ステップＳ３１）。
次に、利用者が重要なキーワード自体を発話するのに要したキーワード発話継続時間Ｔｋを取得する（ステップＳ３２）。
そして、利用者の総発話時間Ｔ２に占めるキーワード発話継続時間Ｔｋの割合（Ｔｋ／Ｔ２）が例えば０．５以上であるか否かを判定する（ステップＳ３３）。

もし、ステップＳ３３において、利用者の総発話時間Ｔ２に占めるキーワード発話継続時間Ｔｋの割合（Ｔｋ／Ｔ２）が０．５以上である場合（ステップＳ３３のＹＥＳ）、対話における利用者の理解度は高いと推定して、理解度推定パラメータｓ３に「１」を設定（ｓ３＝１）する（ステップＳ３４）。
また、ステップＳ３３において、利用者の総発話時間Ｔ２に占めるキーワード発話継続時間Ｔｋの割合（Ｔｋ／Ｔ２）が０．５未満である場合（ステップＳ３３のＮＯ）、対話における利用者の理解度は低いと推定して、理解度推定パラメータｓ３に「０」を設定（ｓ３＝０）する（ステップＳ３５）。

（理解度Ｒの算出手順）
次に、本実施例における理解度計算部２８の理解度Ｒの算出手順について説明する。理解度計算部２８において、理解度Ｒは上述の理解度推定パラメータｓ１、ｓ３を用いて算出される。具体的に説明すると、本実施例では、理解度推定パラメータｓ１、ｓ３を組み合わせて、理解度Ｒを下記（２）式により算出する。従って、本実施例においても、理解度ＲはＲ＝０、Ｒ＝１、Ｒ＝２の３つの状態のいずれかとして算出される。

Ｒ＝ｓ１＋ｓ３・・・（２）

（対話進行フロー）
また、本実施例の音声対話装置も、理解度Ｒが算出できたら、第１の実施例で図６を参照して説明した理解度Ｒに基づく対話進行フローに基づいて、対話制御を実行する。

なお、本実施例では、信号処理部２が総発話時間計測手段と、キーワード発話継続時間計測手段と、理解度判定手段と、キーワード出現時間計測手段とを備えている。具体的には、時刻キーワード結合部２７の他、理解度計算部２８が実行するステップＳ３１の処理が総発話時間計測手段に相当する。また、時刻キーワード結合部２７の他、理解度計算部２８が実行するステップＳ３２の処理がキーワード発話継続時間計測手段に相当する。また、理解度計算部２８が実行するステップＳ３３からステップＳ３５の処理と、第１の実施例で説明したステップＳ１３からステップＳ１５の処理とステップＳ２３の処理が理解度判定手段に相当する。また、第１の実施例で説明した時刻キーワード結合部２７の他、理解度計算部２８が実行するステップＳ１からステップＳ３の処理がキーワード出現時間計測手段に相当する。

以上説明したように、本実施例の音声対話装置によれば、マイク１から入力された音声について、理解度計算部２８が、利用者に音声入力（発話）を要求してから重要なキーワードが発話されるまでのキーワード出現時間ｄの関数で表される理解度推定パラメータｓ１と、利用者が単一の発話を開始してから終了するまでの総発話時間Ｔ２に占める利用者が重要なキーワード自体を発話するのに要したキーワード発話継続時間Ｔｋの割合（Ｔｋ／Ｔ２）から算出される理解度推定パラメータｓ３とを求め、理解度推定パラメータｓ１、ｓ３から対話における利用者の理解度を理解度Ｒとして算出する。そして、対話制御部２９が、算出された理解度Ｒに基づいて対話制御を実行し、例えば理解度Ｒ＝０の場合、利用者の理解度は低いと判定し、再度入力を促すメッセージを出力する。また、理解度Ｒ＝１の場合、利用者の理解度は通常と判定し、入力内容を確認して次のステップに進む。更に、理解度Ｒ＝２の場合、利用者の理解度は高いと判定し、入力から得られた認識語を確認せずに次のステップへ進む。

従って、第１の実施例と同様に、理解度が高い利用者には簡潔な応答による対話制御を実行し、一方理解度が低い利用者には詳細かつ丁寧な応答による対話制御を実行することで、利用者のレベルに従って適切な対話制御を実行し、利用者の利便性を向上させる音声対話装置を実現することができるという効果が得られる。また、自由発音特有の意味を持たない言葉の入力を許容することで、利用者の発話に対するプレッシャーを極力排除することができるという効果が得られる。また、特に単純に利用者が発話したか否かではなく、重要なキーワードが発話されるまでの時間により理解度を推定することで、重要なキーワードがいつ発話されても正確に理解度を算出すると共に、更に音声の入力が開始されてから終了するまでの総発話時間とキーワードが発話されていたキーワード発話継続時間との比較により理解度を推定することで、どのような言葉にも対応し、音数が識別しにくい言葉についても、発話された音声に対する意味のある言葉の割合から正確に理解度を算出して、適切な対話制御を実行することができるという効果が得られる。

次に、第３の実施例について説明する。第３の実施例では、利用者に音声入力（発話）を要求してから重要なキーワードが発話されるまでのキーワード出現時間と、所定のキーワードを発話するのに要する標準的な時間であるキーワード基準発話時間に対する利用者が該キーワード自体を発話するのに要した時間であるキーワード発話継続時間の比率とにより、対話における利用者の理解度を推定する場合を示す。

（装置構成、及び信号処理部の詳細）
本実施例における装置構成、及び信号処理部の詳細は、第１の実施例と同一なので、ここでは説明を省略する。
但し、本実施例では、キーワードデータベース２５に記憶されたキーワードには、キーワード毎に、それぞれキーワードを発話するのに要する標準的な時間であるキーワード基準発話時間が記憶されているものとする。また、キーワード判定部２３は、入力された認識語から所定のキーワードを抽出すると共に、認識語のキーワード部分にタグを付与して、キーワードを同定済みの認識語を、該キーワードのキーワード基準発話時間と共に認識語カウント部２６へ出力し、キーワード基準発話時間は、更に認識語カウント部２６及び時刻キーワード結合部２７を介して、理解度計算部２８へ出力されるものとする。

（理解度推定パラメータ）
次に、本実施例において理解度計算部２８が理解度Ｒを算出するための理解度推定パラメータについて説明する。
具体的には、図３に示す理解度推定パラメータを算出するための各要素に対して、理解度推定パラメータｓ１は、第１の実施例と同様に、キーワード出現時間ｄを変数に持つ関数として示される。一方、理解度推定パラメータｓ４は、所定のキーワードを発話するのに要する標準的な時間であるキーワード基準発話時間Ｄｓに対する利用者が該キーワード自体を発話するのに要した時間であるキーワード発話継続時間Ｔｋの比率、すなわち”Ｔｋ／Ｄｓ”を変数に持つ関数として示される。

（理解度推定パラメータｓ４の算出手順）
次に、図面を参照して、理解度計算部２８における理解度推定パラメータｓ４の算出手順について説明する。図８は、理解度計算部２８における理解度推定パラメータｓ４の算出手順を示すフローチャートである。
図８において、まず理解度計算部２８は、入力された重要なキーワードを発話するのに要する標準的な時間であるキーワード基準発話時間Ｄｓを取得する（ステップＳ４１）。
次に、利用者がこの重要なキーワード自体を発話するのに要したキーワード発話継続時間Ｔｋを取得する（ステップＳ４２）。
そして、キーワードを発話するのに要するキーワード基準発話時間Ｄｓに占めるキーワード発話継続時間Ｔｋの割合（Ｔｋ／Ｄｓ）が例えば１．０以下であるか否かを判定する（ステップＳ４３）。

もし、ステップＳ４３において、キーワードを発話するのに要するキーワード基準発話時間Ｄｓに占めるキーワード発話継続時間Ｔｋの割合（Ｔｋ／Ｄｓ）が１．０以下である場合（ステップＳ４３のＹＥＳ）、対話における利用者の理解度は高いと推定して、理解度推定パラメータｓ４に「１」を設定（ｓ４＝１）する（ステップＳ４４）。
また、ステップＳ４３において、キーワードを発話するのに要するキーワード基準発話時間Ｄｓに占めるキーワード発話継続時間Ｔｋの割合（Ｔｋ／Ｄｓ）が１．０より大きい場合（ステップＳ４３のＮＯ）、対話における利用者の理解度は低いと推定して、理解度推定パラメータｓ４に「０」を設定（ｓ４＝０）する（ステップＳ４５）。

（理解度Ｒの算出手順）
次に、本実施例における理解度計算部２８の理解度Ｒの算出手順について説明する。理解度計算部２８において、理解度Ｒは上述の理解度推定パラメータｓ１、ｓ４を用いて算出される。具体的に説明すると、本実施例では、理解度推定パラメータｓ１、ｓ４を組み合わせて、理解度Ｒを下記（３）式により算出する。従って、本実施例においても、理解度ＲはＲ＝０、Ｒ＝１、Ｒ＝２の３つの状態のいずれかとして算出される。

Ｒ＝ｓ１＋ｓ４・・・（３）

なお、本実施例では、信号処理部２がキーワード発話継続時間計測手段と、理解度判定手段と、キーワード出現時間計測手段とを備えている。具体的には、時刻キーワード結合部２７の他、理解度計算部２８が実行するステップＳ４２の処理がキーワード発話継続時間計測手段に相当する。また、理解度計算部２８が実行するステップＳ４３からステップＳ４５の処理と、第１の実施例で説明したステップＳ１３からステップＳ１５の処理とステップＳ２３の処理が理解度判定手段に相当する。また、第１の実施例で説明した時刻キーワード結合部２７の他、理解度計算部２８が実行するステップＳ１からステップＳ３の処理がキーワード出現時間計測手段に相当する。

以上説明したように、本実施例の音声対話装置によれば、マイク１から入力された音声について、理解度計算部２８が、利用者に音声入力（発話）を要求してから重要なキーワードが発話されるまでのキーワード出現時間ｄの関数で表される理解度推定パラメータｓ１と、所定のキーワードを発話するのに要する標準的な時間であるキーワード基準発話時間Ｄｓに対する利用者が該キーワード自体を発話するのに要した時間であるキーワード発話継続時間Ｔｋの比率（Ｔｋ／Ｄｓ）から算出される理解度推定パラメータｓ４とを求め、理解度推定パラメータｓ１、ｓ４から対話における利用者の理解度を理解度Ｒとして算出する。そして、対話制御部２９が、算出された理解度Ｒに基づいて対話制御を実行し、例えば理解度Ｒ＝０の場合、利用者の理解度は低いと判定し、再度入力を促すメッセージを出力する。また、理解度Ｒ＝１の場合、利用者の理解度は通常と判定し、入力内容を確認して次のステップに進む。更に、理解度Ｒ＝２の場合、利用者の理解度は高いと判定し、入力から得られた認識語を確認せずに次のステップへ進む。

従って、第１の実施例と同様に、理解度が高い利用者には簡潔な応答による対話制御を実行し、一方理解度が低い利用者には詳細かつ丁寧な応答による対話制御を実行することで、利用者のレベルに従って適切な対話制御を実行し、利用者の利便性を向上させる音声対話装置を実現することができるという効果が得られる。また、自由発音特有の意味を持たない言葉の入力を許容することで、利用者の発話に対するプレッシャーを極力排除することができるという効果が得られる。また、特に単純に利用者が発話したか否かではなく、重要なキーワードが発話されるまでの時間により理解度を推定することで、重要なキーワードがいつ発話されても正確に理解度を算出すると共に、更に所定のキーワードの発話に標準的に要するキーワード基準発話時間と利用者が重要なキーワード自体を発話するのに要したキーワード発話継続時間との比較により理解度を推定することで、発話全体を検査するまでもなく、重要なキーワードのみを確認するだけで、正確に理解度を算出して適切な対話制御を実行することができるという効果が得られる。

なお、上述の第１から第３の実施例では、例えばステップＳ４、あるいはステップＳ１３、あるいはステップＳ３３、あるいはステップＳ４３において、それぞれ理解度推定パラメータｓ１〜ｓ４を判定するためのしきい値を固定的に扱って説明したが、上述の第１から第３の実施例で説明した電子機器制御装置は、特に自動車等の車両に搭載して利用することが有用であり、一例として、電子機器制御装置が自動車に搭載された場合、これらの理解度推定パラメータｓ１〜ｓ４を判定するためのしきい値は、車両の走行環境に基づいて可変するようにしても良い。

具体的には、例えば信号処理部２に、ＧＰＳ（Global Positioning System ）を備えたナビゲーション装置や車両の走行速度を検出する速度センサ、更にはステアリングやブレーキ等に設けられたセンサにより、車両の走行位置や走行速度、利用者の運転操作等を含む車両の走行状況や運転状態を検出する車両状態検出装置を接続する。

そして、信号処理部２の理解度計算部２８は、随時車両の位置情報や走行速度、運転状態等を取得することで、キーワード出現時間ｄ、あるいは利用者が発話した総音数ｐ０に占める重要なキーワードの音数ｐ１の割合（ｐ１／ｐ０）、あるいは利用者が発話した総発話時間Ｔ２に占める重要なキーワード自体を発話するのに要したキーワード発話継続時間Ｔｋの割合（Ｔｋ／Ｔ２）、あるいは所定のキーワードを発話するのに要するキーワード基準発話時間Ｄｓに対する利用者が該キーワード自体を発話するのに要したキーワード発話継続時間Ｔｋの比率（Ｔｋ／Ｄｓ）が同じでも、車両の走行位置や走行速度、利用者の運転操作等を含む車両の走行状況や運転状態、すなわち車両状態検出装置が判定する車両の走行環境から、利用者に負担がかかっていると推定できる場合は、理解度推定パラメータｓ１〜ｓ４を判定するためのしきい値を、それぞれの判定結果について利用者の理解度が低く推定されるように変更する。

これにより、利用者が車両を運転中は、自信を持って入力されたと推定できる発話でも、利用者が運転に気を取られて、もしかしたら言葉を間違っているかもしれないと推定し、「入力内容を確認せず、すぐに次のステップに進む」ことはせず、「再入力を要求する」あるいは「入力内容を確認して次のステップに進む」等、その時の利用者の状態に応じて、適切な対話制御を実行することができるという効果が得られる。

また、上述の第１の実施例では、理解度推定パラメータｓ１と理解度推定パラメータｓ２の組合せから理解度Ｒを求め、第２の実施例では、理解度推定パラメータｓ１と理解度推定パラメータｓ３の組合せから理解度Ｒを求め、更に第３の実施例では、理解度推定パラメータｓ１と理解度推定パラメータｓ４の組合せから理解度Ｒを求め、それぞれの実施例において、理解度ＲをＲ＝０、Ｒ＝１、Ｒ＝２の３つの状態のいずれかとして算出して対話制御を実行したが、理解度Ｒを求めるための理解度推定パラメータの組合せはこれに限らず、理解度推定パラメータｓ２と理解度推定パラメータｓ３の組合せ、あるいは理解度推定パラメータｓ２と理解度推定パラメータｓ４の組合せ、あるいは理解度推定パラメータｓ３と理解度推定パラメータｓ４の組合せから、理解度ＲをＲ＝０、Ｒ＝１、Ｒ＝２の３つの状態のいずれかとして算出しても良く、理解度推定パラメータがこのような組合せでも第１から第３の実施例と同様の効果が得られる。

更に、理解度Ｒを求めるための理解度推定パラメータの組合せは２つに限らず、理解度Ｒに理解度推定パラメータ１つを対応させて、理解度ＲをＲ＝０、Ｒ＝１の２つの状態のいずれかとして算出し対話制御を実行しても良いし、理解度Ｒに理解度推定パラメータ３つあるいは４つを対応させて、理解度ＲをＲ＝０〜３の４つの状態、あるいはＲ＝０〜４の５つの状態のいずれかとして算出し対話制御を実行しても良い。この場合、上述の実施例において図６を参照して説明した理解度Ｒに基づく対話進行フローでは、理解度Ｒの状態数に合わせて処理の流れを変えるようにする。

本発明の第１の実施例の音声対話装置の全体構成を示すブロック図である。同実施例の音声対話装置の信号処理部の構成を示すブロック図である。発話例と理解度推定パラメータを算出するための要素との関係を示す図である。理解度計算部における理解度推定パラメータｓ１の算出手順を示すフローチャートである。理解度計算部における理解度推定パラメータｓ２の算出手順を示すフローチャートである。同実施例の音声対話装置の理解度Ｒに基づく対話進行フローを示すフローチャートである。本発明の第２の実施例における理解度計算部の理解度推定パラメータｓ３の算出手順を示すフローチャートである。本発明の第３の実施例における理解度計算部の理解度推定パラメータｓ４の算出手順を示すフローチャートである。

符号の説明

１マイク（音声入力手段）
２２音声認識部（音声認識手段）
２３キーワード判定部（キーワード判定手段）
２５キーワードデータベース（キーワード基準発話時間記憶手段）
２６認識語カウント部（入力音数計測手段）
２７時刻キーワード結合部（キーワード出現時間計測手段、総発話時間計測手段、キーワード発話継続時間計測手段）
２８理解度計算部（キーワード出現時間計測手段、総発話時間計測手段、キーワード発話継続時間計測手段、理解度判定手段）
２９対話制御部（対話制御手段）
Ｓ１〜Ｓ３キーワード出現時間計測手段
Ｓ１１〜Ｓ１２入力音数計測手段
Ｓ３１総発話時間計測手段
Ｓ３２、Ｓ４２キーワード発話継続時間計測手段
Ｓ４〜Ｓ６、Ｓ１３〜Ｓ１５、Ｓ３３〜Ｓ３５、Ｓ４３〜Ｓ４５理解度判定手段

Claims

利用者が発話する音声を入力するための音声入力手段と、
入力された音声の認識処理を行う音声認識手段と、
認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段と、
認識された前記利用者の音声について音数を計測する入力音数計測手段と、
利用者の発話によって入力された総音数に占める前記キーワードの音数の割合に基づいて、対話における前記利用者の理解度を判定する理解度判定手段と、
前記利用者の理解度に応じて対話応答を制御する対話制御手段と
を備えたことを特徴とする音声対話装置。
利用者が発話する音声を入力するための音声入力手段と、
入力された音声の認識処理を行う音声認識手段と、
認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段と、
前記利用者が発話を開始してから終了するまでの総発話時間を計測する総発話時間計測手段と、
前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段と、
前記総発話時間に占める前記キーワード発話継続時間の割合に基づいて、対話における前記利用者の理解度を判定する理解度判定手段と、
前記利用者の理解度に応じて対話応答を制御する対話制御手段と
を備えたことを特徴とする音声対話装置。
利用者が発話する音声を入力するための音声入力手段と、
入力された音声の認識処理を行う音声認識手段と、
認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段と、
前記キーワードを発話するのに要する標準的な時間をキーワード基準発話時間として前記キーワード毎に記憶したキーワード基準発話時間記憶手段と、
前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段と、
前記キーワード基準発話時間に対する前記キーワード発話継続時間の比率に基づいて、対話における前記利用者の理解度を判定する理解度判定手段と、
前記利用者の理解度に応じて対話応答を制御する対話制御手段と
を備えたことを特徴とする音声対話装置。
利用者が発話する音声を入力するための音声入力手段と、
入力された音声の認識処理を行う音声認識手段と、
認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段に加えて、
更に、認識された前記利用者の音声について音数を計測する入力音数計測手段、
あるいは前記利用者に発話を要求してから該利用者が前記キーワードを発話するまでのキーワード出現時間を計測するキーワード出現時間計測手段、
あるいは前記利用者が発話を開始してから終了するまでの総発話時間を計測する総発話時間計測手段及び前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段、
あるいは前記キーワードを発話するのに要する標準的な時間をキーワード基準発話時間として前記キーワード毎に記憶したキーワード基準発話時間記憶手段及び前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段の内の少なくとも２組以上の手段と、
利用者の発話によって入力された総音数に占める前記キーワードの音数の割合と、前記キーワード出現時間の長さと、前記総発話時間に占める前記キーワード発話継続時間の割合と、前記キーワード基準発話時間に対する前記キーワード発話継続時間の比率の内の少なくとも２つ以上を組合わせた結果に基づいて、対話における前記利用者の理解度を判定する理解度判定手段と、
前記利用者の理解度に応じて対話応答を制御する対話制御手段と
を備えたことを特徴とする音声対話装置。
搭載された車両の走行環境を判定する走行環境判定部を備え、
前記理解度判定手段が、前記走行環境判定部が判定する前記車両の走行環境に応じて、対話における前記利用者の理解度を判定するためのしきい値を変更する
ことを特徴とする請求項１から請求項４のいずれかに記載の音声対話装置。