JP2005300830A - 音声対話装置および音声対話方法 - Google Patents

音声対話装置および音声対話方法 Download PDF

Info

Publication number
JP2005300830A
JP2005300830A JP2004115500A JP2004115500A JP2005300830A JP 2005300830 A JP2005300830 A JP 2005300830A JP 2004115500 A JP2004115500 A JP 2004115500A JP 2004115500 A JP2004115500 A JP 2004115500A JP 2005300830 A JP2005300830 A JP 2005300830A
Authority
JP
Japan
Prior art keywords
voice
recognition
likelihood
character
recognition likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004115500A
Other languages
English (en)
Inventor
Kengo Suzuki
堅悟 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2004115500A priority Critical patent/JP2005300830A/ja
Publication of JP2005300830A publication Critical patent/JP2005300830A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

【課題】音声認識結果に対する認識尤度(正確度)をユーザに伝える。
【解決手段】マイクにて集音したユーザの発話音声に対して音声認識処理を行うとともに、音声認識された結果に対する認識尤度を算出し、算出した認識尤度に応じたキャラクタをディスプレイに表示する。
【選択図】図7

Description

本発明は、利用者の発話を認識する音声認識機能を備えた音声対話装置および音声対話方法に関する。
従来、ユーザの発話に対して音声認識処理を行った際に、音声認識を行うことができない音声認識異常が発生すると、ユーザの声が大きい等、認識異常を引き起こした要因をユーザに直感的にイメージさせるキャラクタを表示するようにした対話システムが知られている(特許文献1参照)。
特開2003−22092号公報
しかしながら、従来の対話システムでは、音声認識異常が発生すると、認識異常を引き起こした要因をユーザに伝えることはできたが、音声認識システムにて誤認識したと考えていない場合には、誤認識したことをユーザに伝えることは無いので、ユーザが困惑する可能性があるという問題があった。
本発明による音声対話装置および音声対話方法は、ユーザの発話した音声を集音して、音声認識処理を行うとともに、音声認識された結果に対する認識尤度を算出し、算出した認識尤度に応じた画面を表示することを特徴とする。
本発明による音声対話装置および音声対話方法によれば、音声認識結果に対する認識尤度を算出し、算出した認識尤度に応じた画面を表示するので、音声認識手段による音声認識結果の精度をユーザが確認することができる。
図1は、本発明による音声対話装置の一実施の形態の構成を示す図である。一実施の形態における音声対話装置は、音声入力スイッチ1と、コントローラ2と、ディスプレイ3と、スピーカ4と、マイク5とを備える。以下では、一実施の形態における音声対話装置を車両に搭載した例について説明する。
音声入力スイッチ1は、例えば、運転席のステアリングに設置されて、音声入力を開始する際にドライバによって操作される。ドライバは、例えば、ナビゲーション装置の目的地を音声入力にて設定する際や、ナビゲーションシステムとオーディオシステムとの切り換えを音声入力にて行う際などに、音声入力スイッチ1を操作する。なお、音声入力スイッチ1は、音声入力を開始するためのスイッチの機能とともに、中断した音声対話を再開するためのスイッチの機能、および、音声対話を終了するためのスイッチの機能も有する。
コントローラ2は、RAM21、CPU22、および2つのROM23,24を備える。ROM23には、CPU22が行う様々なプログラムが格納されている。ROM24には、CPU22が音声認識処理を行う際に使用する音声認識辞書が格納されている。この音声認識辞書には、音声入力される複数の語彙が予め登録されている。例えば、ナビゲーション装置に設定する目的地を音声入力にて行う場合には、目的地として設定される地名が音声認識辞書に登録されている。
CPU22は、ROM24に格納されている音声認識辞書を利用して、ユーザ(ドライバ)が発話した音声に対して、既知の音声認識処理を行うとともに、音声認識結果の尤度(正確度)を算出する。音声認識処理の方法および音声認識結果の尤度を算出する方法については、後述する。RAM21は、音声認識結果などのデータを一時的に記憶する。
CPU22が行う音声認識処理の方法および音声認識結果の尤度(正確度)を算出する方法について説明する。CPU22は、マイク5を介して入力されたユーザの発話内容に対して音素を特定し、音素特定結果(音声認識処理結果)と、音声認識辞書に登録されている語彙との比較を行うことにより、両者の適合度(一致度)を算出する。この適合度が音声認識結果の尤度であり、ユーザの発話内容を音声認識した結果と、音声認識辞書に登録されている語彙とがどれほど類似しているかを表している。CPU22は、算出した尤度が第1のしきい値T1以上であり、かつ、最も尤度が高い語彙を音声認識結果として出力する。
ディスプレイ3は、コントローラ2のCPU22からの指令に基づいて、音声認識処理の結果とともに、音声認識結果の正確度(尤度)を把握するためのキャラクタを少なくとも表示する。スピーカ4は、CPU22からの指令に基づいて、ビープ音を発したり、所定の合成音声を出力する。これらのビープ音や、合成音声は、ROM23に予め格納しておけばよい。マイク5は、ユーザの発話を集音して、コントローラ2に出力する。
一実施の形態における音声対話装置は、ユーザが発話した音声に対する音声認識結果の尤度を算出し、音声認識結果の尤度をユーザに伝えるためのキャラクタをディスプレイ3に表示する。ここでは、算出した音声認識結果の尤度が第2のしきい値T2(T2>T1)以上であるか否かに基づいて、キャラクタの表情を変更する。図2は、音声認識結果の尤度をユーザに伝えるためのキャラクタである。図2に示すように、このキャラクタは、目を模したものである。
図3は、音声認識結果の尤度が第2のしきい値T2以上の場合に、ディスプレイ3に表示されるキャラクタを示す図である。図3に示すように、音声認識結果の尤度が高い場合には、キャラクタが片目をつむってウインクする。また、キャラクタが表示される領域(図3の四角で囲まれる領域)の配色を青色とする。ユーザは、キャラクタが表示される領域の配色、および、ウインクするキャラクタを見ることにより、音声認識結果の尤度が高いこと、すなわち、音声認識した語彙と、音声認識辞書の中の語彙の一致度が高いことを知ることができる。
図4は、音声認識結果の尤度が第1のしきい値T1以上であり、かつ、第2のしきい値T2未満の場合に、ディスプレイ3に表示されるキャラクタを示す図である。図4に示すように、音声認識結果の尤度が低い場合には、キャラクタが自信の無い表情となる。すなわち、黒目が小さくなって(目の領域に対する黒目の領域の範囲を所定範囲未満とする)、きょろきょろと動くことにより、音声認識の結果に自信がないことを表現する。また、目の周辺には、クエスチョンマークを表示する。キャラクタが表示される領域の配色は、黄色とする。ユーザは、キャラクタが表示される領域の配色、および、図4に示すキャラクタの表情を見ることにより、音声認識結果の尤度が低いことを知ることができる。
なお、音声認識結果の尤度が第1のしきい値T1未満の場合には、キャラクタの周囲の配色を赤色にするとともに、ユーザの発話内容を認識することができない旨の文字をディスプレイ3に表示する。また、スピーカ4から、「音声を認識することができません。もう一度、音声入力を行って下さい」のような音声を出力する。
図5は、コントローラ2のCPU22により行われる処理内容を示すフローチャートである。ステップS10では、音声入力スイッチ1がオンされたか否かを判定する。音声入力スイッチ1がオンされていないと判定するとステップS10で待機し、オンされたと判定するとステップS20に進む。
ステップS20では、音声待ち受け状態を示すアイコン(不図示)をディスプレイ3に表示させるとともに、発話を開始するタイミングをユーザに知らせるためのビープ音をスピーカ4から出力させる。ビープ音を聞いたユーザは、音声入力を開始する。
ステップS20に続くステップS30では、音声認識処理を行う。この時、上述したように、音声認識結果の尤度を算出する。ステップS30に続くステップS40では、ステップS30で算出した音声認識結果の尤度が第1のしきい値T1以上であるか否かを判定する。音声認識結果の尤度が第1のしきい値T1以上であると判定するとステップS60に進み、第1のしきい値T1未満であると判定すると、ステップS50に進む。
ステップS50では、ディスプレイ3に表示されるキャラクタを含む領域の配色を赤色にするとともに、ユーザの発話内容を認識することができない旨の文字をディスプレイ3に表示する。また、スピーカ4から、「音声を認識することができません。もう一度、音声入力を行って下さい」という音声を出力する。ステップS50の処理を行うと、ステップS30に戻り、再び、ユーザが発話する音声を認識する処理を行う。
ステップS60では、ステップS30で算出した音声認識結果の尤度が第2のしきい値T2以上であるか否かを判定する。音声認識結果の尤度が第2のしきい値T2以上であると判定するとステップS70に進み、第2のしきい値T2未満であると判定すると、ステップS80に進む。
ステップS70では、音声認識結果の尤度が高い場合の表示処理を行う。ここで、例えば、ユーザが目的地の周辺の交通状況を確認するために、「目的地の周りの交通情報」と発話した場合について説明する。図6は、CPU22の音声認識処理の結果、音声認識結果の尤度が第2のしきい値T2以上であり、また、ユーザの発話した通りに「目的地の周りの交通情報」と正しく音声認識した場合に、ディスプレイ3に表示される画面の一例を示す図である。上述したように、音声認識結果の尤度が第2のしきい値T2以上の場合には、キャラクタが片目をつむってウインクした表情をするとともに、キャラクタを含む領域の配色を青色とする。また、ディスプレイ3には、キャラクタとともに、音声認識結果である「目的地の周りの交通情報」の文字を表示する。
CPU22は、ディスプレイ3に図6に示す画面を表示させるとともに、スピーカ4から、「目的地の周りの交通情報を表示します」という音声を出力させる。この音声に対して、ユーザが、「はい」のように肯定する発話を行い、CPU22がその発話内容を認識すると、目的地周辺の交通情報をディスプレイ3に表示させる。
一方、ステップS80では、音声認識結果の尤度が低い場合の表示処理を行う。ここでも、ユーザが「目的地の周りの交通情報」と発話した場合を例に挙げて説明する。図7は、CPU22の音声認識処理の結果、音声認識結果の尤度が第1のしきい値T1以上、かつ、第2のしきい値T2未満であり、また、CPU22が「目的地までの交通情報」と誤認識した場合の表示内容の一例を示す図である。上述したように、音声認識結果の尤度が第2のしきい値T2未満の場合には、認識結果に自信が無く、キョロキョロした表情のキャラクタを表示するとともに、キャラクタを含む領域の配色を赤色とする。また、ディスプレイ3には、キャラクタとともに、音声認識結果である「目的地までの交通情報」の文字をクエスチョンマークを付けて表示する。
CPU22は、ディスプレイ3に図7に示す画面を表示させるとともに、スピーカ4から、「目的地までの交通情報を表示しますか?」という音声を出力させる。この音声に対して、ユーザが、「いいえ」のように否定する発話を行い、CPU22がその発話内容を認識すると、ユーザに再び音声入力を促す音声、例えば、「もう一度、音声入力を行って下さい」という音声をスピーカ4から出力する。
一実施の形態における音声対話装置によれば、ユーザの発話した音声を集音して、音声認識処理を行うとともに、音声認識辞書に登録されている語彙と音声認識結果との一致度を意味する認識尤度を算出し、算出した認識尤度に応じた画面をディスプレイ3に表示する。特に、認識尤度に応じたキャラクタを表示するので、ユーザは、音声認識の確からしさを容易に把握することができる。例えば、ユーザが音声認識結果の尤度が低いことを把握できれば、音声認識結果を確実に確認して、認識結果が誤っている場合には、訂正する発話をすることができる。
従来の音声認識システムでは、ユーザが音声認識の尤度を把握することができなかったので、誤認識された音声入力指示に基づいた処理が行われる可能性がある。例えば、上述した例のように、「目的地の周りの交通情報」と発話したにも関わらず、「目的地までの交通情報」と誤認識されて、「目的地までの交通情報を表示しますか?」という問いかけに対して、ユーザが「はい」と肯定すると、目的地までの交通情報が表示されてしまう。これに対して、一実施の形態における音声対話装置によれば、ユーザが認識尤度が低いことを把握すると、誤認識された「目的地までの交通情報を表示しますか?」という問いかけを注意深く聞いて、問いかけに対して否定する発話を行うことができる。なお、「目的地までの交通情報を表示しますか?」という問いかけが行われずに、認識結果である「目的地までの交通情報を表示?」という文字がディスプレイ3に表示されるだけのシステムにおいても、認識尤度が低いことが把握できれば、音声認識された文字を注意深く確認して、訂正することができる。
一実施の形態における音声対話装置によれば、認識尤度が第2のしきい値T2以上の場合には、片目をつむってウインクするキャラクタをディスプレイ3に表示するので、ユーザは、音声認識結果の尤度が高いことを直感的に容易に把握することができる。また、認識尤度が第2のしきい値T2未満の場合には、目を示す領域のうち、黒目を示す領域の範囲を所定範囲未満とし、キョロキョロする表情のキャラクタをディスプレイ3に表示するので、ユーザは、音声認識結果の確からしさが低いことを容易に把握することができる。
また、一実施の形態における音声対話装置によれば、認識尤度が第1のしきい値T1未満の場合には、少なくともキャラクタを含む領域を赤色で表示し、認識尤度が第1のしきい値T1以上であり、かつ、第2のしきい値T2未満の場合には、少なくともキャラクタを含む領域を黄色で表示し、認識尤度が第2のしきい値以上の場合には、少なくともキャラクタを含む領域を青色で表示する。この青、黄、赤の配色は、信号機の配色を考慮したものであるため、ユーザは、ディスプレイ3に表示される色を見て、直感的に認識尤度を把握することができる。
本発明は、上述した一実施の形態に限定されることはない。例えば、音声認識結果に対する認識尤度をユーザに伝えるためのキャラクタとして、目を模したキャラクタを用いたが(図2〜図4参照)、他のキャラクタを用いてもよい。また、認識尤度に応じて、キャラクタを含む領域の色を青、黄、赤としたが、例えば、青色の代わりに緑色を用いるなど、他の色を用いても良い。
一実施の形態における音声対話装置では、算出した認識尤度が第2のしきい値T2以上であるか否かに基づいてキャラクタの表情を変更するようにしたが、さらにしきい値を設けて、認識尤度に応じていくつかの段階ごとに、キャラクタの表情を変更するようにしてもよい。
また、上述した一実施の形態における音声対話装置では、キャラクタを用いて音声認識結果に対する認識尤度をユーザに伝えるようにしたが、キャラクタを用いずに文字や音声にてユーザに伝えるようにしてもよい。ただし、音声認識装置を車両に搭載するような場合には、ディスプレイ3に認識尤度を示す文字を表示するよりは、一瞬で認識尤度を把握することができるキャラクタを表示する方が好ましい。
特許請求の範囲の構成要素と一実施の形態の構成要素との対応関係は次の通りである。すなわち、マイク5が集音手段を、コントローラ2が音声認識手段および認識尤度算出手段を、ディスプレイ3が表示手段をそれぞれ構成する。なお、本発明の特徴的な機能を損なわない限り、各構成要素は上記構成に限定されるものではない。
本発明による音声対話装置の一実施の形態の構成を示す図 音声認識結果の尤度をユーザに伝えるためのキャラクタを示す図 音声認識結果の尤度が第2のしきい値T2以上の場合のキャラクタの表情を示す図 音声認識結果の尤度が第2のしきい値T2未満の場合のキャラクタの表情を示す図 ユーザによって音声入力スイッチ1が押された後に、コントローラのCPUにより行われる処理内容を示すフローチャート 認識尤度が高い場合にディスプレイに表示するキャラクタの一例を示す図 認識尤度が低い場合にディスプレイに表示するキャラクタの一例を示す図
符号の説明
1…音声入力スイッチ
2…コントローラ
3…ディスプレイ
4…スピーカ
5…マイク
21…RAM
22…CPU
23,24…ROM

Claims (7)

  1. ユーザの発話した音声を集音する集音手段と、
    前記集音手段により集音された音声に対して、音声認識処理を行う音声認識手段と、
    前記音声認識手段により音声認識された結果に対する認識尤度を算出する認識尤度算出手段と、
    前記認識尤度算出手段により算出された認識尤度に応じた画面を表示する表示手段とを備えることを特徴とする音声対話装置。
  2. 請求項1に記載する音声対話装置において、
    前記表示手段は、前記認識尤度算出手段により算出された認識尤度に応じたキャラクタを表示することを特徴とする音声対話装置。
  3. 請求項2に記載の音声対話装置において、
    前記表示手段は、前記キャラクタの表情、色、動きのうちの少なくとも1つを用いて、前記認識尤度を表示することを特徴とする音声対話装置。
  4. 請求項2または3に記載の音声対話装置において、
    前記キャラクタは、目を模したものであることを特徴とする音声対話装置。
  5. 請求項2〜4のいずれかに記載の音声対話装置において、
    前記認識尤度算出手段により算出された認識尤度が所定尤度以上の場合には、片目をつむったキャラクタを表示し、
    前記認識尤度算出手段により算出された認識尤度が所定尤度未満の場合には、目を示す領域のうち、黒目を示す領域の範囲が所定範囲未満であるキャラクタを表示することを特徴とする音声対話装置。
  6. 請求項2〜5のいずれかに記載の音声対話装置において、
    前記認識尤度算出手段により算出された認識尤度が第1のしきい値未満の場合には、少なくとも前記キャラクタを含む領域を赤色で表示し、
    前記認識尤度算出手段により算出された認識尤度が前記第1のしきい値より高く、第2のしきい値未満の場合には、少なくとも前記キャラクタを含む領域を黄色で表示し、
    前記認識尤度算出手段により算出された認識尤度が前記第2のしきい値以上の場合には、少なくとも前記キャラクタを含む領域を青色で表示することを特徴とする音声対話装置。
  7. ユーザの発話した音声を集音し、
    集音した音声に対して、音声認識処理を行い、
    音声認識された結果に対する認識尤度を算出し、
    算出した認識尤度に応じた画面を表示することを特徴とする音声対話方法。
JP2004115500A 2004-04-09 2004-04-09 音声対話装置および音声対話方法 Pending JP2005300830A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004115500A JP2005300830A (ja) 2004-04-09 2004-04-09 音声対話装置および音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004115500A JP2005300830A (ja) 2004-04-09 2004-04-09 音声対話装置および音声対話方法

Publications (1)

Publication Number Publication Date
JP2005300830A true JP2005300830A (ja) 2005-10-27

Family

ID=35332452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004115500A Pending JP2005300830A (ja) 2004-04-09 2004-04-09 音声対話装置および音声対話方法

Country Status (1)

Country Link
JP (1) JP2005300830A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018023001A (ja) * 2016-08-03 2018-02-08 ソフトバンク株式会社 機器制御装置
CN109767773A (zh) * 2019-03-26 2019-05-17 北京百度网讯科技有限公司 基于语音交互终端的信息输出方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018023001A (ja) * 2016-08-03 2018-02-08 ソフトバンク株式会社 機器制御装置
CN109767773A (zh) * 2019-03-26 2019-05-17 北京百度网讯科技有限公司 基于语音交互终端的信息输出方法和装置

Similar Documents

Publication Publication Date Title
US20210104238A1 (en) Voice enablement and disablement of speech processing functionality
US20080114603A1 (en) Confirmation system for command or speech recognition using activation means
US20200365138A1 (en) Method and device for providing voice recognition service
US8688451B2 (en) Distinguishing out-of-vocabulary speech from in-vocabulary speech
JP4859982B2 (ja) 音声認識装置
WO2004032113A1 (ja) 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
JP2005331882A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP2008058409A (ja) 音声認識方法及び音声認識装置
US20170229120A1 (en) Motor vehicle operating device with a correction strategy for voice recognition
WO2017042906A1 (ja) 車載用音声認識装置および車載機器
JP2015219441A (ja) 操作補助装置および操作補助方法
JP6675078B2 (ja) 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
JP5189858B2 (ja) 音声認識装置
JP2003114698A (ja) コマンド受付装置及びプログラム
JP2009015148A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2006243555A (ja) 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法
JP2005300830A (ja) 音声対話装置および音声対話方法
JP2007127896A (ja) 音声認識装置及び音声認識方法
JP2009145402A (ja) 装置動作スイッチ
CN110265018B (zh) 一种连续发出的重复命令词识别方法
JP4624825B2 (ja) 音声対話装置および音声対話方法
JP6966374B2 (ja) 音声認識システム及びコンピュータプログラム
JP4951422B2 (ja) 音声認識装置、および音声認識方法
JP2001042887A (ja) 自動音声認識器を訓練する方法