JP4437047B2 - 音声対話装置 - Google Patents

音声対話装置 Download PDF

Info

Publication number
JP4437047B2
JP4437047B2 JP2004044798A JP2004044798A JP4437047B2 JP 4437047 B2 JP4437047 B2 JP 4437047B2 JP 2004044798 A JP2004044798 A JP 2004044798A JP 2004044798 A JP2004044798 A JP 2004044798A JP 4437047 B2 JP4437047 B2 JP 4437047B2
Authority
JP
Japan
Prior art keywords
keyword
user
utterance
understanding
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004044798A
Other languages
English (en)
Other versions
JP2005234331A (ja
Inventor
久幸 長島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2004044798A priority Critical patent/JP4437047B2/ja
Publication of JP2005234331A publication Critical patent/JP2005234331A/ja
Application granted granted Critical
Publication of JP4437047B2 publication Critical patent/JP4437047B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Traffic Control Systems (AREA)
  • Navigation (AREA)

Description

本発明は、利用者との対話に基づいて処理を実行する処理システムに利用する音声対話装置に関する。
従来、利用者との対話のために利用する音声対話装置には、例えば音声の入力を要求する信号を出力する入力要求手段と、入力された音声を認識する認識手段と、音声の入力が要求されてから音声の入力が検出されるまでの時間や、音声入力の継続時間(発話時間)を計測する計測手段と、音声の認識結果に対応した音声応答信号を出力する出力手段とを備え、音声の入力が検出されてから音声応答信号を出力するまでの時間や、音声応答信号の応答時間、あるいは音声応答信号の表現形式を、前述の音声の入力が要求されてから音声の入力が検出されるまでの時間や、音声入力の継続時間に基づいて可変制御するものがある。この装置では、これにより各利用者の反応時間や音声の入力時間に基づいて、各利用者に適切な応答を与えることが可能になる(例えば、特許文献1参照。)。
一方、同様に利用者の音声を認識して応答する装置には、音声の入力が要求されてから音声の入力が検出されるまでの時間や、音声入力の継続時間(発話時間)の他、利用者の発話音数を計測して利用者の理解度(習熟度)を推定し、その結果から、応答音声信号による音声ガイドのシナリオや発話内容、更には発話速度を制御するものもある。この装置でも、同様に各利用者に適切な応答を与えることが可能になる(例えば、特許文献2参照。)。
特公平5−18118号公報 特開2000−194386号公報
ところで、従来の装置では、利用者が発話を開始するまでの時間を用いることで、装置側の音声応答信号の出力タイミングを変更できるものの、利用者が発話したか否かを、入力された音声信号の周波数や強さから判定するのみで、その内容を判断していないため、利用者の発話に対して正しく応答できない可能性があるという問題があった。何故なら、たとえ音声入力の要求に対して即座に利用者が応答したとしても、利用者が目的地等の意味のある言葉を発話したのか、それとも例えば日本語において意味のある言葉の前置きの言葉として発せられる「あ〜」や「え〜」等の意味を持たない言葉を発話したのか、両者を区別しなければ、本当に利用者が対話を理解して発話しているかを判断することができないからである。すなわち、利用者が意味を持たない言葉を即座に応答したとしても、それは利用者が対話を理解しているとは言えないので、この時間に基づいて音声応答信号を出力しても、利用者に適切な応答を与えることができないという問題があった。
また、入力された発話音数や発話語数を計測し、これを標準の利用者の発話音数や発話語数と比較して利用者の理解度(習熟度)を推定する場合、利用者の多様な発話に対応するのが難しいという問題があった。具体的には、例えば「かしわ」や「とうきょうあみゅーずめんとらんど」のように、目的地として同じレベルの意味を持つ言葉でも、これを標準の発話音数や発話語数と比較すると、その音数あるいは語数の違いから異なる理解度が出力されてしまう可能性や、あるいは理解度が同じでも、言葉のあとに「です」等の言葉を付与して丁寧に発話すると、理解度が低いと判断してしまう可能性があり、推定された理解度に基づいて音声応答信号を出力しても、利用者に適切な応答を与えることができない可能性があるという問題があった。
本発明は、上記課題に鑑みてなされたもので、正確に利用者の理解度を推定して適切な対話制御を行い、利用者の利便性を向上させた音声対話装置を提供することを目的とする。
上記課題を解決するために、請求項1の発明に係る音声対話装置は、利用者が発話する音声を入力するための音声入力手段(例えば後述する実施例のマイク1)と、入力された音声の認識処理を行う音声認識手段(例えば後述する実施例の音声認識部22)と、認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段(例えば後述する実施例のキーワード判定部23)と、認識された前記利用者の音声について音数を計測する入力音数計測手段(例えば後述する実施例の認識語カウント部26、及び理解度計算部28が実行するステップS11からステップS12の処理)と、利用者の発話によって入力された総音数に占める前記キーワードの音数の割合に基づいて、対話における前記利用者の理解度を判定する理解度判定手段(例えば後述する実施例の理解度計算部28が実行するステップS13からステップS15の処理、及びステップS23の処理)と、前記利用者の理解度に応じて対話応答を制御する対話制御手段(例えば後述する実施例の対話制御部29)とを備えたことを特徴とする。
以上の構成を備えた音声対話装置は、利用者が発話する音声を入力するための音声入力手段と、入力された音声の認識処理を行う音声認識手段とを備える音声対話装置において、理解度判定手段が、例えば発話された音声の総音数に対して意味のある言葉の音数の割合が多い方が利用者の対話における理解度が高いというように、利用者の発話によって入力された音声の総音数に対する重要なキーワードの音数の割合に基づいて、対話における利用者の理解度を判定するので、対話制御手段は、推定された理解度に応じて適切な対話制御を実行することができる。
請求項の発明に係る音声対話装置は、利用者が発話する音声を入力するための音声入力手段(例えば後述する実施例のマイク1)と、入力された音声の認識処理を行う音声認識手段(例えば後述する実施例の音声認識部22)と、認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段(例えば後述する実施例のキーワード判定部23)と、前記利用者が発話を開始してから終了するまでの総発話時間を計測する総発話時間計測手段(例えば後述する実施例の時刻キーワード結合部27、及び理解度計算部28が実行するステップS31の処理)と、前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段(例えば後述する実施例の時刻キーワード結合部27、及び理解度計算部28が実行するステップS32の処理)と、前記総発話時間に占める前記キーワード発話継続時間の割合に基づいて、対話における前記利用者の理解度を判定する理解度判定手段(例えば後述する実施例の理解度計算部28が実行するステップS33からステップS35の処理、及びステップS23の処理)と、前記利用者の理解度に応じて対話応答を制御する対話制御手段(例えば後述する実施例の対話制御部29)とを備えたことを特徴とする。
以上の構成を備えた音声対話装置は、利用者が発話する音声を入力するための音声入力手段と、入力された音声の認識処理を行う音声認識手段とを備える音声対話装置において、理解度判定手段が、例えば利用者が発話を開始してから終了するまでの総発話時間に対して意味のある言葉が発話されている時間の割合が多い方が利用者の対話における理解度が高いというように、音声の入力が開始されてから終了するまでの総発話時間に対する重要なキーワードが発話されていたキーワード発話継続時間の割合に基づいて、対話における利用者の理解度を判定するので、対話制御手段は、推定された理解度に応じて適切に対話制御を実行することができる。
請求項の発明に係る音声対話装置は、利用者が発話する音声を入力するための音声入力手段(例えば後述する実施例のマイク1)と、入力された音声の認識処理を行う音声認識手段(例えば後述する実施例の音声認識部22)と、認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段(例えば後述する実施例のキーワード判定部23)と、前記キーワードを発話するのに要する標準的な時間をキーワード基準発話時間として前記キーワード毎に記憶したキーワード基準発話時間記憶手段(例えば後述する実施例のキーワードデータベース25)と、前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段(例えば後述する実施例の時刻キーワード結合部27、及び理解度計算部28が実行するステップS42の処理)と、前記キーワード基準発話時間に対する前記キーワード発話継続時間の比率に基づいて、対話における前記利用者の理解度を判定する理解度判定手段(例えば後述する実施例の理解度計算部28が実行するステップS43からステップS45の処理、及びステップS23の処理)と、前記利用者の理解度に応じて対話応答を制御する対話制御手段(例えば後述する実施例の対話制御部29)とを備えたことを特徴とする。
以上の構成を備えた音声対話装置は、利用者が発話する音声を入力するための音声入力手段と、入力された音声の認識処理を行う音声認識手段とを備える音声対話装置において、理解度判定手段が、例えば利用者が自信を持たずに発話した場合は重要なキーワードの発話に要するキーワード発話継続時間の長さが長く、利用者が自信を持って発話した場合は重要なキーワードの発話に要するキーワード発話継続時間の長さが短く、利用者の対話における理解度が高いというように、所定のキーワードの発話に標準的に要するキーワード基準発話時間に対する利用者がキーワード自体を発話するのに要したキーワード発話継続時間の比率に基づいて、対話における利用者の理解度を判定するので、対話制御手段は、推定された理解度に応じて適切に対話制御を実行することができる。
請求項の発明に係る音声対話装置は、利用者が発話する音声を入力するための音声入力手段(例えば後述する実施例のマイク1)と、入力された音声の認識処理を行う音声認識手段(例えば後述する実施例の音声認識部22)と、認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段(例えば後述する実施例のキーワード判定部23)に加えて、更に、認識された前記利用者の音声について音数を計測する入力音数計測手段(例えば後述する実施例の認識語カウント部26と、理解度計算部28が実行するステップS11からステップS12の処理)、あるいは前記利用者に発話を要求してから該利用者が前記キーワードを発話するまでのキーワード出現時間を計測するキーワード出現時間計測手段(例えば後述する実施例の時刻キーワード結合部27と、理解度計算部28が実行するステップS1からステップS3の処理)、あるいは前記利用者が発話を開始してから終了するまでの総発話時間を計測する総発話時間計測手段(例えば後述する実施例の時刻キーワード結合部27と、理解度計算部28が実行するステップS31の処理)及び前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段(例えば後述する実施例の時刻キーワード結合部27と、理解度計算部28が実行するステップS32の処理)、あるいは前記キーワードを発話するのに要する標準的な時間をキーワード基準発話時間として前記キーワード毎に記憶したキーワード基準発話時間記憶手段(例えば後述する実施例のキーワードデータベース25)及び前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段(例えば後述する実施例の時刻キーワード結合部27と、理解度計算部28が実行するステップS42の処理)の内の少なくとも2組以上の手段と、利用者の発話によって入力された総音数に占める前記キーワードの音数の割合と、前記キーワード出現時間の長さと、前記総発話時間に占める前記キーワード発話継続時間の割合と、前記キーワード基準発話時間に対する前記キーワード発話継続時間の比率の内の少なくとも2つ以上を組合わせた結果に基づいて、対話における前記利用者の理解度を判定する理解度判定手段(例えば後述する実施例の理解度計算部28が実行するステップS13からステップS15の処理、ステップS4からステップS6の処理、ステップS33からステップS35の処理、ステップS43からステップS45の処理のいずれか2つ以上の組合せとステップS23の処理)と、前記利用者の理解度に応じて対話応答を制御する対話制御手段(例えば後述する実施例の対話制御部29)とを備えたことを特徴とする。
以上の構成を備えた音声対話装置は、利用者が発話する音声を入力するための音声入力手段と、入力された音声の認識処理を行う音声認識手段とを備える音声対話装置において、理解度判定手段が、入力された音声の総音数に対する重要なキーワードの音数の割合、あるいは音声の入力を要求してから重要なキーワードが発話されるまでのキーワード出現時間の長さ、あるいは音声の入力が開始されてから終了するまでの総発話時間に対する重要なキーワードが発話されていたキーワード発話継続時間の割合、あるいは所定のキーワードの発話に標準的に要するキーワード基準発話時間に対する利用者がキーワード自体を発話するのに要したキーワード発話継続時間の比率の内の少なくとも2つ以上を組合わせた結果に基づいて、対話における利用者の理解度を判定するので、対話制御手段は、推定された理解度に応じて適切に対話制御を実行することができる。
請求項の発明に係る音声対話装置は、請求項1から請求項のいずれかに記載の音声対話装置において、搭載された車両の走行環境を判定する走行環境判定部(例えば後述する実施例の車両状態検出装置)を備え、前記理解度判定手段が、前記走行環境判定部が判定する前記車両の走行環境に応じて、対話における前記利用者の理解度を判定するためのしきい値を変更することを特徴とする。
以上の構成を備えた音声対話装置は、理解度判定手段が、走行環境判定部の判定する車両の走行環境に応じて、対話における利用者の理解度を判定するためのしきい値を変更することで、例えば利用者が運転中は、自信を持って入力されたと推定できる発話でも、利用者が運転に気を取られて、もしかしたら言葉を間違っているかもしれないというように、車両の走行環境の変化に伴う利用者の理解度の変化を正確に推定することができる。
請求項1に記載の音声対話装置によれば、利用者の発話によって入力された音声の総音数と重要なキーワードの音数との比較により推定された対話における利用者の理解度に応じて、適切な対話制御を実行することができる。
従って、理解度が高い利用者には簡潔な応答による対話制御を実行し、一方理解度が低い利用者には詳細かつ丁寧な応答による対話制御を実行することで、利用者のレベルに従って適切な対話制御を実行し、利用者の利便性を向上させる音声対話装置を実現することができるという効果が得られる。また、自由発音特有の意味を持たない言葉の入力を許容することで、利用者の発話に対するプレッシャーを極力排除することができるという効果が得られる。また、特に入力された音声の総音数と重要なキーワードの音数との比較により理解度を推定することで、音数の取りうる幅が大きな言葉や、語尾に付く丁寧語の影響を受けることなく正確に理解度を算出し、適切な対話制御を実行することができるという効果が得られる。
請求項に記載の音声対話装置によれば、重要なキーワードが発話されていた時間により推定された理解度に応じて、適切に対話制御を実行することができる。
従って、請求項1と同様に、利用者のレベルに従って適切な対話制御を実行し、利用者の利便性を向上させる音声対話装置を実現することができるという効果が得られる。また、自由発音特有の意味を持たない言葉の入力を許容することで、利用者の発話に対するプレッシャーを極力排除することができるという効果が得られる。また、特に音声の入力が開始されてから終了するまでの総発話時間とキーワードが発話されていたキーワード発話継続時間との比較により理解度を推定することで、どのような言葉にも対応し、音数が識別しにくい言葉についても、発話された音声に対する意味のある言葉の割合から正確に理解度を算出して、適切な対話制御を実行することができるという効果が得られる。
請求項に記載の音声対話装置によれば、利用者が重要なキーワード自体を発話するのに要した時間により推定された理解度に応じて、適切に対話制御を実行することができる。
従って、請求項1と同様に、利用者のレベルに従って適切な対話制御を実行し、利用者の利便性を向上させる音声対話装置を実現することができるという効果が得られる。また、自由発音特有の意味を持たない言葉の入力を許容することで、利用者の発話に対するプレッシャーを極力排除することができるという効果が得られる。また、特に所定のキーワードの発話に標準的に要するキーワード基準発話時間と利用者が重要なキーワード自体を発話するのに要したキーワード発話継続時間との比較により理解度を推定することで、発話全体を検査するまでもなく、重要なキーワードのみを確認するだけで、正確に理解度を算出して適切な対話制御を実行することができるという効果が得られる。
請求項に記載の音声対話装置によれば、重要なキーワードに関する組み合わされた情報により推定された理解度に応じて、適切に対話制御を実行することができる。
従って、対話制御における理解度の判定精度を向上させ、入力された音声の内容や状態に影響を受けずに正確に理解度を算出し、適切な対話制御を実行することができるという効果が得られる。
請求項に記載の音声対話装置によれば、車両の走行環境の変化に伴う利用者の理解度の変化を正確に推定することができる。
従って、車両を運転することで負担がかかっている利用者についても、その時の利用者の状態に応じて正確に理解度を算出し、適切な対話制御を実行することができるという効果が得られる。また、利用者の利便性を向上させ、車両搭載に適した音声対話装置を実現することができるという効果が得られる。
以下、図面を参照して本発明の実施例について説明する。
まず、第1の実施例について説明する。第1の実施例では、利用者に音声入力(発話)を要求してから重要なキーワードが発話されるまでのキーワード出現時間と、利用者が単一の発話を開始してから終了するまでに入力された総音数(音素の数)に占める重要なキーワードの音数の割合とにより、対話における利用者の理解度を推定する場合を示す。
(装置構成)
図1は、本発明の第1の実施例の音声対話装置の全体構成を示すブロック図である。
図1において、本実施例の音声対話装置は、利用者の音声を入力するためのマイク1を備えており、マイク1から入力された利用者の音声は信号処理部2へ入力される。
信号処理部2は、音声認識を実行して入力された音声を認識語に変換したり、該認識語から利用者の対話における理解度を算出し、理解度に基づいて対話の制御を行うと共に、対話の制御に基づいて応答文の生成を実行する処理部であって、信号処理部2において生成された応答文は音声合成部3とディスプレイ4へ入力される。また、音声合成部3は、信号処理部2において生成された応答文をスピーカ5へ出力する。一方、ディスプレイ4は、信号処理部2において生成された応答文を画面に表示する。
(信号処理部の詳細)
次に、図面を参照して本実施例の音声対話装置の信号処理部2の詳細について説明する。図2は、本実施例の音声対話装置の信号処理部2の構成を示すブロック図である。
図2において、マイク1から入力された音声は、まず発話区間検出部21に入力され、発話区間検出部21において、音声対話装置の発話に基づいて利用者の発話区間(開始時刻と終了時刻)の検出が行われる。次に、入力された音声は、音声認識部22へ入力され、音声認識部22において音声認識が実行されることにより認識語(テキスト)に変換される。
また、利用者の音声と発話区間の情報、及び認識語は、時刻認識語結合部24へ入力され、時刻認識語結合部24は、それぞれの認識語に対して認識語が発話された時刻情報を結合して、認識語とそれに対応する時刻情報を、後述する時刻キーワード結合部27へ出力する。
一方、音声認識部22の出力する音声及びその認識語は、キーワード判定部23へ入力され、キーワード判定部23は、対話において意味のある言葉であるキーワードが記憶されたキーワードデータベース25を参照して、入力された認識語から所定のキーワードを抽出すると共に、認識語のキーワード部分にタグを付与して、キーワードを同定済みの認識語を認識語カウント部26へ出力する。
これに対し、認識語カウント部26は、キーワードの音素の数(音数)と、キーワードも含めた全認識語の音素の数(総音数)をカウントし、認識語及びキーワードの音素の数に関する情報を、キーワードが同定された認識語と共に時刻キーワード結合部27へ出力する。
また、時刻キーワード結合部27は、時刻認識語結合部24から入力された認識語及びそれに対応する時刻情報と、認識語カウント部26から入力されたキーワードが同定された認識語とから、それぞれのキーワードに対してキーワードが発話された時刻情報を結合して、キーワードが同定された認識語とそれに対応する時刻情報を理解度計算部28へ出力する。
また、理解度計算部28は、入力された認識語及びキーワードの音素の数や、認識語とそれに対応する時刻情報、更には認識語のキーワードの位置に関する情報を利用して、対話における利用者の理解度Rを推定する処理部であって、理解度Rを、例えば以下に示す3つの状態のいずれかとして算出し対話制御部29へ出力する。ここで、理解度Rについて説明すると、理解度R=0は、「利用者の理解度が低く再入力を要求する必要がある。」場合を表し、理解度R=1は、「利用者の通常の理解度であり、入力内容を確認して次のステップに進む。」場合を表す。また、理解度R=2は、「利用者の理解度が高く、すぐに次のステップに進む。」場合を表す。なお、理解度計算部28における理解度Rの算出方法については、詳細を後述する。
一方、対話制御部29は、理解度計算部28が算出する理解度Rに基づいて対話の流れを制御する処理部であって、例えば上述の理解度Rの3つの状態に対して、理解度R=0の場合、再度入力を促すメッセージを出力する。また、理解度R=1の場合、入力から得られた認識語(テキスト)を確認してから次のステップへ進む。更に、理解度R=2の場合、入力から得られた認識語(テキスト)を確認せずに次のステップへ進む。なお、対話制御部29が実行する理解度Rに基づく対話進行フローについても、詳細は後述する。
また、応答文生成部30は、対話制御部29の制御に合わせて、必要な応答文を生成して出力する処理部である。
なお、キーワードデータベース25は、ハードディスク装置や光磁気ディスク装置、フラッシュメモリ等の不揮発性のメモリや、CD−ROM等の読み出しのみが可能な記録媒体、RAM(Random Access Memory)のような揮発性のメモリ、あるいはこれらの組み合わせによるコンピュータ読み取り、書き込み可能な記録媒体より構成されるものとする。
また、発話区間検出部21と、音声認識部22と、キーワード判定部23と、時刻認識語結合部24と、認識語カウント部26と、時刻キーワード結合部27と、理解度計算部28と、対話制御部29と、応答文生成部30は、専用のハードウェアにより実現されるものであってもよく、また、メモリおよびCPU(中央演算装置)により構成され、上記の各部の機能を実現するためのプログラムをメモリにロードして実行することによりその機能を実現させるものであってもよい。
(理解度推定パラメータ)
次に、本実施例において理解度計算部28が理解度Rを算出するための理解度推定パラメータについて説明する。
図3は、発話例と理解度推定パラメータを算出するための要素との関係を示す図である。なお、図3は、横軸を時刻、縦軸を音声のパワーとして示した図であって、音声対話装置の音声合成部3による発話と利用者の発話の両方を示している。
図3において、時刻t0は、音声対話装置の音声合成部3による発話が終了した時刻である。また、時刻t1は、利用者によって重要なキーワードの発話が開始された時刻である。また、時間dは、音声対話装置の音声合成部3による発話を終了することにより利用者に音声入力(発話)を要求してから重要なキーワードが発話されるまでのキーワード出現時間を示している。更に、時間T2は、利用者が単一の発話を開始してから終了するまでの総発話時間を示している。一方、時間Tkは、利用者が重要なキーワード自体を発話するのに要したキーワード発話継続時間を示している。なお、これらの情報が、時刻キーワード結合部27の出力するキーワードが同定された認識語とそれに対応する時刻情報に相当する。
一方、図3において、二重丸印は入力音声の音素を示しおり、認識語カウント部26の出力する認識語及びキーワードの音素の数に関する情報に相当する。例えば、利用者の発話した「え〜〜っと、まいはまです。」という音声に基づく認識語は、8個の音素(音数=8)から構成されており、重要なキーワードである「まいはま」の部分は、4個の音素(音数=4)から構成されている。なお、太い下線により示した「え〜〜っと、」と「です。」の部分は、発話の中で意味を持たない言葉である。
一方、上述の各要素に対して、理解度推定パラメータs1は、キーワード出現時間dを変数に持つ関数として示される。また、理解度推定パラメータs2は、利用者が単一の発話を開始してから終了するまでに入力された総音数に占める重要なキーワードの音数の割合により示される。例えば、図3に示す発話例では、s2=4/8=0.5である。
(理解度推定パラメータs1の算出手順)
次に、図面を参照して、理解度計算部28における理解度推定パラメータs1の算出手順について説明する。図4は、理解度計算部28における理解度推定パラメータs1の算出手順を示すフローチャートである。
図4において、まず理解度計算部28は、音声対話装置の音声合成部3による発話が終了した時刻t0を取得する(ステップS1)。
次に、利用者によって重要なキーワードの発話が開始された時刻t1を取得する(ステップS2)。
そして、利用者によって重要なキーワードの発話が開始された時刻t1から、音声合成部3による発話が終了した時刻t0を減算して、利用者に音声入力(発話)を要求してから重要なキーワードが発話されるまでのキーワード出現時間d(d=t1−t0)を算出する。(ステップS3)。
また、キーワード出現時間dを算出することができたら、キーワード出現時間dが所定時間Tdより短いか否かを判定する(ステップS4)。
もし、ステップS4において、キーワード出現時間dが所定時間Tdより短い(d<Td)場合(ステップS4のYES)、対話における利用者の理解度は高いと推定して、理解度推定パラメータs1に「1」を設定(s1=1)する(ステップS5)。
また、ステップS4において、キーワード出現時間dが所定時間Td以上である(d≧Td)場合(ステップS4のNO)、対話における利用者の理解度は低いと推定して、理解度推定パラメータs1に「0」を設定(s1=0)する(ステップS6)。
(理解度推定パラメータs2の算出手順)
次に、図面を参照して、理解度計算部28における理解度推定パラメータs2の算出手順について説明する。図5は、理解度計算部28における理解度推定パラメータs2の算出手順を示すフローチャートである。
図5において、まず理解度計算部28は、利用者が単一の発話を開始してから終了するまでに入力された総音数p0を取得する(ステップS11)。
次に、利用者によって発話された重要なキーワードの音数p1を取得する(ステップS12)。
そして、入力された総音数p0に占めるキーワードの音数p1の割合(p1/p0)が例えば0.5以上であるか否かを判定する(ステップS13)。
もし、ステップS13において、入力された総音数p0に占めるキーワードの音数p1の割合(p1/p0)が0.5以上である場合(ステップS13のYES)、対話における利用者の理解度は高いと推定して、理解度推定パラメータs2に「1」を設定(s2=1)する(ステップS14)。
また、ステップS13において、入力された総音数p0に占めるキーワードの音数p1の割合(p1/p0)が0.5未満である場合(ステップS13のNO)、対話における利用者の理解度は低いと推定して、理解度推定パラメータs2に「0」を設定(s2=0)する(ステップS15)。
(理解度Rの算出手順)
次に、本実施例における理解度計算部28の理解度Rの算出手順について説明する。理解度計算部28において、理解度Rは上述の理解度推定パラメータs1、s2を用いて算出される。具体的に説明すると、本実施例では、理解度推定パラメータs1、s2を組み合わせて、理解度Rを下記(1)式により算出する。従って、本実施例において、理解度RはR=0、R=1、R=2の3つの状態のいずれかとして算出される。
R=s1+s2 ・・・(1)
(対話進行フロー)
次に、図面を参照して本実施例の音声対話装置の理解度Rに基づく対話進行フローについて説明する。図6は、本実施例の音声対話装置の理解度Rに基づく対話進行フローを示すフローチャートである。
図6において、まず信号処理部2は、対話の中で音声合成部3を介してスピーカ5から音声入力を促すメッセージを出力し、利用者に音声入力を求める(ステップS21)。
これに対し、マイク1から音声が入力されると(ステップS22)、信号処理部2は、理解度計算部28において、理解度Rを算出する(ステップS23)。
そして、信号処理部2は、対話制御部29において、算出された理解度Rに基づく対話制御を実行し、対話の流れを決定する(ステップS24)。
具体的には、理解度R=0の場合(ステップS24:R=0)、利用者の理解度は低いと推定され、再入力を要求する必要があるので、信号処理部2は、ステップS21へ戻り、再度入力を促すメッセージを出力する。
一方、理解度R=1の場合(ステップS24:R=1)、利用者の理解度は通常と推定され、入力内容を確認して次のステップに進めば良いので、信号処理部2は、入力された認識語(テキスト)の確認メッセージを出力し(ステップS25)、入力から得られた認識語(テキスト)に対する利用者の確認音声入力を待って(ステップS26)、音声認識した認識語(テキスト)が正しいと利用者により確認されたか否かを判定する(ステップS27)。
その結果、音声認識した認識語(テキスト)が正しいと利用者によって確認された場合(ステップS27のYES)、次のステップへ進む。
また、音声認識した認識語(テキスト)が正しいと利用者によって確認されなかった場合(ステップS27のNO)、ステップS21へ戻り、再度入力を促すメッセージを出力する。
更に、理解度R=2の場合(ステップS24:R=2)、利用者の理解度は高いと推定され、すぐに次のステップに進めば良いので、信号処理部2は、入力から得られた認識語(テキスト)を確認せずに次のステップへ進む。
なお、本実施例では、信号処理部2が入力音数計測手段と、理解度判定手段と、キーワード出現時間計測手段とを備えている。具体的には、認識語カウント部26の他、理解度計算部28が実行するステップS11からステップS12の処理が入力音数計測手段に相当する。また、理解度計算部28が実行するステップS4からステップS6の処理と、ステップS13からステップS15の処理と、ステップS23の処理が理解度判定手段に相当する。また、時刻キーワード結合部27の他、理解度計算部28が実行するステップS1からステップS3の処理がキーワード出現時間計測手段に相当する。
以上説明したように、本実施例の音声対話装置によれば、マイク1から入力された音声について、理解度計算部28が、利用者に音声入力(発話)を要求してから重要なキーワードが発話されるまでのキーワード出現時間dの関数で表される理解度推定パラメータs1と、利用者が単一の発話を開始してから終了するまでに入力された総音数p0に占める重要なキーワードの音数p1の割合(p1/p0)から算出される理解度推定パラメータs2とを求め、理解度推定パラメータs1、s2から対話における利用者の理解度を理解度Rとして算出する。そして、対話制御部29が、算出された理解度Rに基づいて対話制御を実行し、例えば理解度R=0の場合、利用者の理解度は低いと判定し、再度入力を促すメッセージを出力する。また、理解度R=1の場合、利用者の理解度は通常と判定し、入力内容を確認して次のステップに進む。更に、理解度R=2の場合、利用者の理解度は高いと判定し、入力から得られた認識語を確認せずに次のステップへ進む。
従って、理解度が高い利用者には簡潔な応答による対話制御を実行し、一方理解度が低い利用者には詳細かつ丁寧な応答による対話制御を実行することで、利用者のレベルに従って適切な対話制御を実行し、利用者の利便性を向上させる音声対話装置を実現することができるという効果が得られる。また、自由発音特有の意味を持たない言葉の入力を許容することで、利用者の発話に対するプレッシャーを極力排除することができるという効果が得られる。また、特に単純に利用者が発話したか否かではなく、重要なキーワードが発話されるまでの時間により理解度を推定することで、重要なキーワードがいつ発話されても正確に理解度を算出すると共に、更に入力された音声の総音数と重要なキーワードの音数との比較により理解度を推定することで、音数の取りうる幅が大きな言葉や、語尾に付く丁寧語の影響を受けることなく正確に理解度を算出し、適切な対話制御を実行することができるという効果が得られる。
次に、第2の実施例について説明する。第2の実施例では、利用者に音声入力(発話)を要求してから重要なキーワードが発話されるまでのキーワード出現時間と、利用者が単一の発話を開始してから終了するまでの総発話時間に占める利用者が重要なキーワード自体を発話するのに要したキーワード発話継続時間の割合とにより、対話における利用者の理解度を推定する場合を示す。
(装置構成、及び信号処理部の詳細)
本実施例における装置構成、及び信号処理部の詳細は、第1の実施例と同一なので、ここでは説明を省略する。
(理解度推定パラメータ)
次に、本実施例において理解度計算部28が理解度Rを算出するための理解度推定パラメータについて説明する。
具体的には、図3に示す理解度推定パラメータを算出するための各要素に対して、理解度推定パラメータs1は、第1の実施例と同様に、キーワード出現時間dを変数に持つ関数として示される。一方、理解度推定パラメータs3は、利用者が単一の発話を開始してから終了するまでの総発話時間T2に占める利用者が重要なキーワード自体を発話するのに要したキーワード発話継続時間Tkの割合、すなわち”Tk/T2”を変数に持つ関数として示される。
(理解度推定パラメータs3の算出手順)
次に、図面を参照して、理解度計算部28における理解度推定パラメータs3の算出手順について説明する。図7は、理解度計算部28における理解度推定パラメータs3の算出手順を示すフローチャートである。
図7において、まず理解度計算部28は、利用者が単一の発話を開始してから終了するまでの総発話時間T2を取得する(ステップS31)。
次に、利用者が重要なキーワード自体を発話するのに要したキーワード発話継続時間Tkを取得する(ステップS32)。
そして、利用者の総発話時間T2に占めるキーワード発話継続時間Tkの割合(Tk/T2)が例えば0.5以上であるか否かを判定する(ステップS33)。
もし、ステップS33において、利用者の総発話時間T2に占めるキーワード発話継続時間Tkの割合(Tk/T2)が0.5以上である場合(ステップS33のYES)、対話における利用者の理解度は高いと推定して、理解度推定パラメータs3に「1」を設定(s3=1)する(ステップS34)。
また、ステップS33において、利用者の総発話時間T2に占めるキーワード発話継続時間Tkの割合(Tk/T2)が0.5未満である場合(ステップS33のNO)、対話における利用者の理解度は低いと推定して、理解度推定パラメータs3に「0」を設定(s3=0)する(ステップS35)。
(理解度Rの算出手順)
次に、本実施例における理解度計算部28の理解度Rの算出手順について説明する。理解度計算部28において、理解度Rは上述の理解度推定パラメータs1、s3を用いて算出される。具体的に説明すると、本実施例では、理解度推定パラメータs1、s3を組み合わせて、理解度Rを下記(2)式により算出する。従って、本実施例においても、理解度RはR=0、R=1、R=2の3つの状態のいずれかとして算出される。
R=s1+s3 ・・・(2)
(対話進行フロー)
また、本実施例の音声対話装置も、理解度Rが算出できたら、第1の実施例で図6を参照して説明した理解度Rに基づく対話進行フローに基づいて、対話制御を実行する。
なお、本実施例では、信号処理部2が総発話時間計測手段と、キーワード発話継続時間計測手段と、理解度判定手段と、キーワード出現時間計測手段とを備えている。具体的には、時刻キーワード結合部27の他、理解度計算部28が実行するステップS31の処理が総発話時間計測手段に相当する。また、時刻キーワード結合部27の他、理解度計算部28が実行するステップS32の処理がキーワード発話継続時間計測手段に相当する。また、理解度計算部28が実行するステップS33からステップS35の処理と、第1の実施例で説明したステップS13からステップS15の処理とステップS23の処理が理解度判定手段に相当する。また、第1の実施例で説明した時刻キーワード結合部27の他、理解度計算部28が実行するステップS1からステップS3の処理がキーワード出現時間計測手段に相当する。
以上説明したように、本実施例の音声対話装置によれば、マイク1から入力された音声について、理解度計算部28が、利用者に音声入力(発話)を要求してから重要なキーワードが発話されるまでのキーワード出現時間dの関数で表される理解度推定パラメータs1と、利用者が単一の発話を開始してから終了するまでの総発話時間T2に占める利用者が重要なキーワード自体を発話するのに要したキーワード発話継続時間Tkの割合(Tk/T2)から算出される理解度推定パラメータs3とを求め、理解度推定パラメータs1、s3から対話における利用者の理解度を理解度Rとして算出する。そして、対話制御部29が、算出された理解度Rに基づいて対話制御を実行し、例えば理解度R=0の場合、利用者の理解度は低いと判定し、再度入力を促すメッセージを出力する。また、理解度R=1の場合、利用者の理解度は通常と判定し、入力内容を確認して次のステップに進む。更に、理解度R=2の場合、利用者の理解度は高いと判定し、入力から得られた認識語を確認せずに次のステップへ進む。
従って、第1の実施例と同様に、理解度が高い利用者には簡潔な応答による対話制御を実行し、一方理解度が低い利用者には詳細かつ丁寧な応答による対話制御を実行することで、利用者のレベルに従って適切な対話制御を実行し、利用者の利便性を向上させる音声対話装置を実現することができるという効果が得られる。また、自由発音特有の意味を持たない言葉の入力を許容することで、利用者の発話に対するプレッシャーを極力排除することができるという効果が得られる。また、特に単純に利用者が発話したか否かではなく、重要なキーワードが発話されるまでの時間により理解度を推定することで、重要なキーワードがいつ発話されても正確に理解度を算出すると共に、更に音声の入力が開始されてから終了するまでの総発話時間とキーワードが発話されていたキーワード発話継続時間との比較により理解度を推定することで、どのような言葉にも対応し、音数が識別しにくい言葉についても、発話された音声に対する意味のある言葉の割合から正確に理解度を算出して、適切な対話制御を実行することができるという効果が得られる。
次に、第3の実施例について説明する。第3の実施例では、利用者に音声入力(発話)を要求してから重要なキーワードが発話されるまでのキーワード出現時間と、所定のキーワードを発話するのに要する標準的な時間であるキーワード基準発話時間に対する利用者が該キーワード自体を発話するのに要した時間であるキーワード発話継続時間の比率とにより、対話における利用者の理解度を推定する場合を示す。
(装置構成、及び信号処理部の詳細)
本実施例における装置構成、及び信号処理部の詳細は、第1の実施例と同一なので、ここでは説明を省略する。
但し、本実施例では、キーワードデータベース25に記憶されたキーワードには、キーワード毎に、それぞれキーワードを発話するのに要する標準的な時間であるキーワード基準発話時間が記憶されているものとする。また、キーワード判定部23は、入力された認識語から所定のキーワードを抽出すると共に、認識語のキーワード部分にタグを付与して、キーワードを同定済みの認識語を、該キーワードのキーワード基準発話時間と共に認識語カウント部26へ出力し、キーワード基準発話時間は、更に認識語カウント部26及び時刻キーワード結合部27を介して、理解度計算部28へ出力されるものとする。
(理解度推定パラメータ)
次に、本実施例において理解度計算部28が理解度Rを算出するための理解度推定パラメータについて説明する。
具体的には、図3に示す理解度推定パラメータを算出するための各要素に対して、理解度推定パラメータs1は、第1の実施例と同様に、キーワード出現時間dを変数に持つ関数として示される。一方、理解度推定パラメータs4は、所定のキーワードを発話するのに要する標準的な時間であるキーワード基準発話時間Dsに対する利用者が該キーワード自体を発話するのに要した時間であるキーワード発話継続時間Tkの比率、すなわち”Tk/Ds”を変数に持つ関数として示される。
(理解度推定パラメータs4の算出手順)
次に、図面を参照して、理解度計算部28における理解度推定パラメータs4の算出手順について説明する。図8は、理解度計算部28における理解度推定パラメータs4の算出手順を示すフローチャートである。
図8において、まず理解度計算部28は、入力された重要なキーワードを発話するのに要する標準的な時間であるキーワード基準発話時間Dsを取得する(ステップS41)。
次に、利用者がこの重要なキーワード自体を発話するのに要したキーワード発話継続時間Tkを取得する(ステップS42)。
そして、キーワードを発話するのに要するキーワード基準発話時間Dsに占めるキーワード発話継続時間Tkの割合(Tk/Ds)が例えば1.0以下であるか否かを判定する(ステップS43)。
もし、ステップS43において、キーワードを発話するのに要するキーワード基準発話時間Dsに占めるキーワード発話継続時間Tkの割合(Tk/Ds)が1.0以下である場合(ステップS43のYES)、対話における利用者の理解度は高いと推定して、理解度推定パラメータs4に「1」を設定(s4=1)する(ステップS44)。
また、ステップS43において、キーワードを発話するのに要するキーワード基準発話時間Dsに占めるキーワード発話継続時間Tkの割合(Tk/Ds)が1.0より大きい場合(ステップS43のNO)、対話における利用者の理解度は低いと推定して、理解度推定パラメータs4に「0」を設定(s4=0)する(ステップS45)。
(理解度Rの算出手順)
次に、本実施例における理解度計算部28の理解度Rの算出手順について説明する。理解度計算部28において、理解度Rは上述の理解度推定パラメータs1、s4を用いて算出される。具体的に説明すると、本実施例では、理解度推定パラメータs1、s4を組み合わせて、理解度Rを下記(3)式により算出する。従って、本実施例においても、理解度RはR=0、R=1、R=2の3つの状態のいずれかとして算出される。
R=s1+s4 ・・・(3)
(対話進行フロー)
また、本実施例の音声対話装置も、理解度Rが算出できたら、第1の実施例で図6を参照して説明した理解度Rに基づく対話進行フローに基づいて、対話制御を実行する。
なお、本実施例では、信号処理部2がキーワード発話継続時間計測手段と、理解度判定手段と、キーワード出現時間計測手段とを備えている。具体的には、時刻キーワード結合部27の他、理解度計算部28が実行するステップS42の処理がキーワード発話継続時間計測手段に相当する。また、理解度計算部28が実行するステップS43からステップS45の処理と、第1の実施例で説明したステップS13からステップS15の処理とステップS23の処理が理解度判定手段に相当する。また、第1の実施例で説明した時刻キーワード結合部27の他、理解度計算部28が実行するステップS1からステップS3の処理がキーワード出現時間計測手段に相当する。
以上説明したように、本実施例の音声対話装置によれば、マイク1から入力された音声について、理解度計算部28が、利用者に音声入力(発話)を要求してから重要なキーワードが発話されるまでのキーワード出現時間dの関数で表される理解度推定パラメータs1と、所定のキーワードを発話するのに要する標準的な時間であるキーワード基準発話時間Dsに対する利用者が該キーワード自体を発話するのに要した時間であるキーワード発話継続時間Tkの比率(Tk/Ds)から算出される理解度推定パラメータs4とを求め、理解度推定パラメータs1、s4から対話における利用者の理解度を理解度Rとして算出する。そして、対話制御部29が、算出された理解度Rに基づいて対話制御を実行し、例えば理解度R=0の場合、利用者の理解度は低いと判定し、再度入力を促すメッセージを出力する。また、理解度R=1の場合、利用者の理解度は通常と判定し、入力内容を確認して次のステップに進む。更に、理解度R=2の場合、利用者の理解度は高いと判定し、入力から得られた認識語を確認せずに次のステップへ進む。
従って、第1の実施例と同様に、理解度が高い利用者には簡潔な応答による対話制御を実行し、一方理解度が低い利用者には詳細かつ丁寧な応答による対話制御を実行することで、利用者のレベルに従って適切な対話制御を実行し、利用者の利便性を向上させる音声対話装置を実現することができるという効果が得られる。また、自由発音特有の意味を持たない言葉の入力を許容することで、利用者の発話に対するプレッシャーを極力排除することができるという効果が得られる。また、特に単純に利用者が発話したか否かではなく、重要なキーワードが発話されるまでの時間により理解度を推定することで、重要なキーワードがいつ発話されても正確に理解度を算出すると共に、更に所定のキーワードの発話に標準的に要するキーワード基準発話時間と利用者が重要なキーワード自体を発話するのに要したキーワード発話継続時間との比較により理解度を推定することで、発話全体を検査するまでもなく、重要なキーワードのみを確認するだけで、正確に理解度を算出して適切な対話制御を実行することができるという効果が得られる。
なお、上述の第1から第3の実施例では、例えばステップS4、あるいはステップS13、あるいはステップS33、あるいはステップS43において、それぞれ理解度推定パラメータs1〜s4を判定するためのしきい値を固定的に扱って説明したが、上述の第1から第3の実施例で説明した電子機器制御装置は、特に自動車等の車両に搭載して利用することが有用であり、一例として、電子機器制御装置が自動車に搭載された場合、これらの理解度推定パラメータs1〜s4を判定するためのしきい値は、車両の走行環境に基づいて可変するようにしても良い。
具体的には、例えば信号処理部2に、GPS(Global Positioning System )を備えたナビゲーション装置や車両の走行速度を検出する速度センサ、更にはステアリングやブレーキ等に設けられたセンサにより、車両の走行位置や走行速度、利用者の運転操作等を含む車両の走行状況や運転状態を検出する車両状態検出装置を接続する。
そして、信号処理部2の理解度計算部28は、随時車両の位置情報や走行速度、運転状態等を取得することで、キーワード出現時間d、あるいは利用者が発話した総音数p0に占める重要なキーワードの音数p1の割合(p1/p0)、あるいは利用者が発話した総発話時間T2に占める重要なキーワード自体を発話するのに要したキーワード発話継続時間Tkの割合(Tk/T2)、あるいは所定のキーワードを発話するのに要するキーワード基準発話時間Dsに対する利用者が該キーワード自体を発話するのに要したキーワード発話継続時間Tkの比率(Tk/Ds)が同じでも、車両の走行位置や走行速度、利用者の運転操作等を含む車両の走行状況や運転状態、すなわち車両状態検出装置が判定する車両の走行環境から、利用者に負担がかかっていると推定できる場合は、理解度推定パラメータs1〜s4を判定するためのしきい値を、それぞれの判定結果について利用者の理解度が低く推定されるように変更する。
これにより、利用者が車両を運転中は、自信を持って入力されたと推定できる発話でも、利用者が運転に気を取られて、もしかしたら言葉を間違っているかもしれないと推定し、「入力内容を確認せず、すぐに次のステップに進む」ことはせず、「再入力を要求する」あるいは「入力内容を確認して次のステップに進む」等、その時の利用者の状態に応じて、適切な対話制御を実行することができるという効果が得られる。
また、上述の第1の実施例では、理解度推定パラメータs1と理解度推定パラメータs2の組合せから理解度Rを求め、第2の実施例では、理解度推定パラメータs1と理解度推定パラメータs3の組合せから理解度Rを求め、更に第3の実施例では、理解度推定パラメータs1と理解度推定パラメータs4の組合せから理解度Rを求め、それぞれの実施例において、理解度RをR=0、R=1、R=2の3つの状態のいずれかとして算出して対話制御を実行したが、理解度Rを求めるための理解度推定パラメータの組合せはこれに限らず、理解度推定パラメータs2と理解度推定パラメータs3の組合せ、あるいは理解度推定パラメータs2と理解度推定パラメータs4の組合せ、あるいは理解度推定パラメータs3と理解度推定パラメータs4の組合せから、理解度RをR=0、R=1、R=2の3つの状態のいずれかとして算出しても良く、理解度推定パラメータがこのような組合せでも第1から第3の実施例と同様の効果が得られる。
更に、理解度Rを求めるための理解度推定パラメータの組合せは2つに限らず、理解度Rに理解度推定パラメータ1つを対応させて、理解度RをR=0、R=1の2つの状態のいずれかとして算出し対話制御を実行しても良いし、理解度Rに理解度推定パラメータ3つあるいは4つを対応させて、理解度RをR=0〜3の4つの状態、あるいはR=0〜4の5つの状態のいずれかとして算出し対話制御を実行しても良い。この場合、上述の実施例において図6を参照して説明した理解度Rに基づく対話進行フローでは、理解度Rの状態数に合わせて処理の流れを変えるようにする。
本発明の第1の実施例の音声対話装置の全体構成を示すブロック図である。 同実施例の音声対話装置の信号処理部の構成を示すブロック図である。 発話例と理解度推定パラメータを算出するための要素との関係を示す図である。 理解度計算部における理解度推定パラメータs1の算出手順を示すフローチャートである。 理解度計算部における理解度推定パラメータs2の算出手順を示すフローチャートである。 同実施例の音声対話装置の理解度Rに基づく対話進行フローを示すフローチャートである。 本発明の第2の実施例における理解度計算部の理解度推定パラメータs3の算出手順を示すフローチャートである。 本発明の第3の実施例における理解度計算部の理解度推定パラメータs4の算出手順を示すフローチャートである。
符号の説明
1 マイク(音声入力手段)
22 音声認識部(音声認識手段)
23 キーワード判定部(キーワード判定手段)
25 キーワードデータベース(キーワード基準発話時間記憶手段)
26 認識語カウント部(入力音数計測手段)
27 時刻キーワード結合部(キーワード出現時間計測手段、総発話時間計測手段、キーワード発話継続時間計測手段)
28 理解度計算部(キーワード出現時間計測手段、総発話時間計測手段、キーワード発話継続時間計測手段、理解度判定手段)
29 対話制御部(対話制御手段)
S1〜S3 キーワード出現時間計測手段
S11〜S12 入力音数計測手段
S31 総発話時間計測手段
S32、S42 キーワード発話継続時間計測手段
S4〜S6、S13〜S15、S33〜S35、S43〜S45 理解度判定手段


Claims (5)

  1. 利用者が発話する音声を入力するための音声入力手段と、
    入力された音声の認識処理を行う音声認識手段と、
    認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段と、
    認識された前記利用者の音声について音数を計測する入力音数計測手段と、
    利用者の発話によって入力された総音数に占める前記キーワードの音数の割合に基づいて、対話における前記利用者の理解度を判定する理解度判定手段と、
    前記利用者の理解度に応じて対話応答を制御する対話制御手段と
    を備えたことを特徴とする音声対話装置。
  2. 利用者が発話する音声を入力するための音声入力手段と、
    入力された音声の認識処理を行う音声認識手段と、
    認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段と、
    前記利用者が発話を開始してから終了するまでの総発話時間を計測する総発話時間計測手段と、
    前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段と、
    前記総発話時間に占める前記キーワード発話継続時間の割合に基づいて、対話における前記利用者の理解度を判定する理解度判定手段と、
    前記利用者の理解度に応じて対話応答を制御する対話制御手段と
    を備えたことを特徴とする音声対話装置。
  3. 利用者が発話する音声を入力するための音声入力手段と、
    入力された音声の認識処理を行う音声認識手段と、
    認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段と、
    前記キーワードを発話するのに要する標準的な時間をキーワード基準発話時間として前記キーワード毎に記憶したキーワード基準発話時間記憶手段と、
    前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段と、
    前記キーワード基準発話時間に対する前記キーワード発話継続時間の比率に基づいて、対話における前記利用者の理解度を判定する理解度判定手段と、
    前記利用者の理解度に応じて対話応答を制御する対話制御手段と
    を備えたことを特徴とする音声対話装置。
  4. 利用者が発話する音声を入力するための音声入力手段と、
    入力された音声の認識処理を行う音声認識手段と、
    認識された前記利用者の音声から所定のキーワードを抽出するキーワード判定手段に加えて、
    更に、認識された前記利用者の音声について音数を計測する入力音数計測手段、
    あるいは前記利用者に発話を要求してから該利用者が前記キーワードを発話するまでのキーワード出現時間を計測するキーワード出現時間計測手段、
    あるいは前記利用者が発話を開始してから終了するまでの総発話時間を計測する総発話時間計測手段及び前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段、
    あるいは前記キーワードを発話するのに要する標準的な時間をキーワード基準発話時間として前記キーワード毎に記憶したキーワード基準発話時間記憶手段及び前記利用者が前記キーワード自体を発話するのに要したキーワード発話継続時間を計測するキーワード発話継続時間計測手段の内の少なくとも2組以上の手段と、
    利用者の発話によって入力された総音数に占める前記キーワードの音数の割合と、前記キーワード出現時間の長さと、前記総発話時間に占める前記キーワード発話継続時間の割合と、前記キーワード基準発話時間に対する前記キーワード発話継続時間の比率の内の少なくとも2つ以上を組合わせた結果に基づいて、対話における前記利用者の理解度を判定する理解度判定手段と、
    前記利用者の理解度に応じて対話応答を制御する対話制御手段と
    を備えたことを特徴とする音声対話装置。
  5. 搭載された車両の走行環境を判定する走行環境判定部を備え、
    前記理解度判定手段が、前記走行環境判定部が判定する前記車両の走行環境に応じて、対話における前記利用者の理解度を判定するためのしきい値を変更する
    ことを特徴とする請求項1から請求項のいずれかに記載の音声対話装置。
JP2004044798A 2004-02-20 2004-02-20 音声対話装置 Expired - Fee Related JP4437047B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004044798A JP4437047B2 (ja) 2004-02-20 2004-02-20 音声対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004044798A JP4437047B2 (ja) 2004-02-20 2004-02-20 音声対話装置

Publications (2)

Publication Number Publication Date
JP2005234331A JP2005234331A (ja) 2005-09-02
JP4437047B2 true JP4437047B2 (ja) 2010-03-24

Family

ID=35017336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004044798A Expired - Fee Related JP4437047B2 (ja) 2004-02-20 2004-02-20 音声対話装置

Country Status (1)

Country Link
JP (1) JP4437047B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9620109B2 (en) 2014-02-25 2017-04-11 Samsung Electronics Co., Ltd. Apparatus and method for generating a guide sentence

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5331657B2 (ja) * 2009-11-19 2013-10-30 株式会社富士通アドバンストエンジニアリング 音声シナリオ設定プログラム及び音声シナリオ設定装置
US8781825B2 (en) * 2011-08-24 2014-07-15 Sensory, Incorporated Reducing false positives in speech recognition systems
JP6585733B2 (ja) * 2015-11-17 2019-10-02 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
JP6974073B2 (ja) * 2017-08-29 2021-12-01 京セラ株式会社 電子機器、充電台、コミュニケーションシステム、方法、およびプログラム
JP7044156B2 (ja) * 2018-05-15 2022-03-30 富士通株式会社 生成プログラム、生成方法および情報処理装置
JP7475909B2 (ja) * 2020-03-17 2024-04-30 三菱電機インフォメーションネットワーク株式会社 ユーザ端末装置、プログラム及びリテラシレベル推定システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9620109B2 (en) 2014-02-25 2017-04-11 Samsung Electronics Co., Ltd. Apparatus and method for generating a guide sentence

Also Published As

Publication number Publication date
JP2005234331A (ja) 2005-09-02

Similar Documents

Publication Publication Date Title
US8370149B2 (en) Speech synthesis system, speech synthesis program product, and speech synthesis method
CN107967916B (zh) 确定语音关系
US8886534B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition robot
JP5154363B2 (ja) 車室内音声対話装置
US20190051306A1 (en) Voice recognition device
EP1357541A2 (en) Speaker adaptation for speech recognition
JP4859982B2 (ja) 音声認識装置
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
KR20160119274A (ko) 핫워드 적합성을 결정하는 방법 및 장치
JP4940887B2 (ja) 音声入力支援プログラム、音声入力支援装置、音声入力支援方法
KR20230150377A (ko) 대화 동안 텍스트 음성 변환에서의 즉각적인 학습
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JP4437047B2 (ja) 音声対話装置
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
KR101283271B1 (ko) 어학 학습 장치 및 어학 학습 방법
JP4440502B2 (ja) 話者認証システム及び方法
JP2004251998A (ja) 対話理解装置
US20110218809A1 (en) Voice synthesis device, navigation device having the same, and method for synthesizing voice message
JP5375612B2 (ja) 周波数軸伸縮係数推定装置とシステム方法並びにプログラム
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP6852029B2 (ja) ワード検出システム、ワード検出方法及びワード検出プログラム
JP4178931B2 (ja) 音声認識装置
JP2005283646A (ja) 音声認識率推定装置
JP2019032400A (ja) 発話判定プログラム、発話判定方法、及び発話判定装置
JP5895501B2 (ja) 音声認識装置および音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091218

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100104

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130108

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130108

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140108

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees