JP2005300830A

JP2005300830A - 音声対話装置および音声対話方法

Info

Publication number: JP2005300830A
Application number: JP2004115500A
Authority: JP
Inventors: Kengo Suzuki; 堅悟鈴木
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2004-04-09
Filing date: 2004-04-09
Publication date: 2005-10-27

Abstract

【課題】音声認識結果に対する認識尤度（正確度）をユーザに伝える。
【解決手段】マイクにて集音したユーザの発話音声に対して音声認識処理を行うとともに、音声認識された結果に対する認識尤度を算出し、算出した認識尤度に応じたキャラクタをディスプレイに表示する。
【選択図】図７

Description

本発明は、利用者の発話を認識する音声認識機能を備えた音声対話装置および音声対話方法に関する。

従来、ユーザの発話に対して音声認識処理を行った際に、音声認識を行うことができない音声認識異常が発生すると、ユーザの声が大きい等、認識異常を引き起こした要因をユーザに直感的にイメージさせるキャラクタを表示するようにした対話システムが知られている（特許文献１参照）。

特開２００３−２２０９２号公報

しかしながら、従来の対話システムでは、音声認識異常が発生すると、認識異常を引き起こした要因をユーザに伝えることはできたが、音声認識システムにて誤認識したと考えていない場合には、誤認識したことをユーザに伝えることは無いので、ユーザが困惑する可能性があるという問題があった。

本発明による音声対話装置および音声対話方法は、ユーザの発話した音声を集音して、音声認識処理を行うとともに、音声認識された結果に対する認識尤度を算出し、算出した認識尤度に応じた画面を表示することを特徴とする。

本発明による音声対話装置および音声対話方法によれば、音声認識結果に対する認識尤度を算出し、算出した認識尤度に応じた画面を表示するので、音声認識手段による音声認識結果の精度をユーザが確認することができる。

図１は、本発明による音声対話装置の一実施の形態の構成を示す図である。一実施の形態における音声対話装置は、音声入力スイッチ１と、コントローラ２と、ディスプレイ３と、スピーカ４と、マイク５とを備える。以下では、一実施の形態における音声対話装置を車両に搭載した例について説明する。

音声入力スイッチ１は、例えば、運転席のステアリングに設置されて、音声入力を開始する際にドライバによって操作される。ドライバは、例えば、ナビゲーション装置の目的地を音声入力にて設定する際や、ナビゲーションシステムとオーディオシステムとの切り換えを音声入力にて行う際などに、音声入力スイッチ１を操作する。なお、音声入力スイッチ１は、音声入力を開始するためのスイッチの機能とともに、中断した音声対話を再開するためのスイッチの機能、および、音声対話を終了するためのスイッチの機能も有する。

コントローラ２は、ＲＡＭ２１、ＣＰＵ２２、および２つのＲＯＭ２３，２４を備える。ＲＯＭ２３には、ＣＰＵ２２が行う様々なプログラムが格納されている。ＲＯＭ２４には、ＣＰＵ２２が音声認識処理を行う際に使用する音声認識辞書が格納されている。この音声認識辞書には、音声入力される複数の語彙が予め登録されている。例えば、ナビゲーション装置に設定する目的地を音声入力にて行う場合には、目的地として設定される地名が音声認識辞書に登録されている。

ＣＰＵ２２は、ＲＯＭ２４に格納されている音声認識辞書を利用して、ユーザ（ドライバ）が発話した音声に対して、既知の音声認識処理を行うとともに、音声認識結果の尤度（正確度）を算出する。音声認識処理の方法および音声認識結果の尤度を算出する方法については、後述する。ＲＡＭ２１は、音声認識結果などのデータを一時的に記憶する。

ＣＰＵ２２が行う音声認識処理の方法および音声認識結果の尤度（正確度）を算出する方法について説明する。ＣＰＵ２２は、マイク５を介して入力されたユーザの発話内容に対して音素を特定し、音素特定結果（音声認識処理結果）と、音声認識辞書に登録されている語彙との比較を行うことにより、両者の適合度（一致度）を算出する。この適合度が音声認識結果の尤度であり、ユーザの発話内容を音声認識した結果と、音声認識辞書に登録されている語彙とがどれほど類似しているかを表している。ＣＰＵ２２は、算出した尤度が第１のしきい値Ｔ１以上であり、かつ、最も尤度が高い語彙を音声認識結果として出力する。

ディスプレイ３は、コントローラ２のＣＰＵ２２からの指令に基づいて、音声認識処理の結果とともに、音声認識結果の正確度（尤度）を把握するためのキャラクタを少なくとも表示する。スピーカ４は、ＣＰＵ２２からの指令に基づいて、ビープ音を発したり、所定の合成音声を出力する。これらのビープ音や、合成音声は、ＲＯＭ２３に予め格納しておけばよい。マイク５は、ユーザの発話を集音して、コントローラ２に出力する。

一実施の形態における音声対話装置は、ユーザが発話した音声に対する音声認識結果の尤度を算出し、音声認識結果の尤度をユーザに伝えるためのキャラクタをディスプレイ３に表示する。ここでは、算出した音声認識結果の尤度が第２のしきい値Ｔ２（Ｔ２＞Ｔ１）以上であるか否かに基づいて、キャラクタの表情を変更する。図２は、音声認識結果の尤度をユーザに伝えるためのキャラクタである。図２に示すように、このキャラクタは、目を模したものである。

図３は、音声認識結果の尤度が第２のしきい値Ｔ２以上の場合に、ディスプレイ３に表示されるキャラクタを示す図である。図３に示すように、音声認識結果の尤度が高い場合には、キャラクタが片目をつむってウインクする。また、キャラクタが表示される領域（図３の四角で囲まれる領域）の配色を青色とする。ユーザは、キャラクタが表示される領域の配色、および、ウインクするキャラクタを見ることにより、音声認識結果の尤度が高いこと、すなわち、音声認識した語彙と、音声認識辞書の中の語彙の一致度が高いことを知ることができる。

図４は、音声認識結果の尤度が第１のしきい値Ｔ１以上であり、かつ、第２のしきい値Ｔ２未満の場合に、ディスプレイ３に表示されるキャラクタを示す図である。図４に示すように、音声認識結果の尤度が低い場合には、キャラクタが自信の無い表情となる。すなわち、黒目が小さくなって（目の領域に対する黒目の領域の範囲を所定範囲未満とする）、きょろきょろと動くことにより、音声認識の結果に自信がないことを表現する。また、目の周辺には、クエスチョンマークを表示する。キャラクタが表示される領域の配色は、黄色とする。ユーザは、キャラクタが表示される領域の配色、および、図４に示すキャラクタの表情を見ることにより、音声認識結果の尤度が低いことを知ることができる。

なお、音声認識結果の尤度が第１のしきい値Ｔ１未満の場合には、キャラクタの周囲の配色を赤色にするとともに、ユーザの発話内容を認識することができない旨の文字をディスプレイ３に表示する。また、スピーカ４から、「音声を認識することができません。もう一度、音声入力を行って下さい」のような音声を出力する。

図５は、コントローラ２のＣＰＵ２２により行われる処理内容を示すフローチャートである。ステップＳ１０では、音声入力スイッチ１がオンされたか否かを判定する。音声入力スイッチ１がオンされていないと判定するとステップＳ１０で待機し、オンされたと判定するとステップＳ２０に進む。

ステップＳ２０では、音声待ち受け状態を示すアイコン（不図示）をディスプレイ３に表示させるとともに、発話を開始するタイミングをユーザに知らせるためのビープ音をスピーカ４から出力させる。ビープ音を聞いたユーザは、音声入力を開始する。

ステップＳ２０に続くステップＳ３０では、音声認識処理を行う。この時、上述したように、音声認識結果の尤度を算出する。ステップＳ３０に続くステップＳ４０では、ステップＳ３０で算出した音声認識結果の尤度が第１のしきい値Ｔ１以上であるか否かを判定する。音声認識結果の尤度が第１のしきい値Ｔ１以上であると判定するとステップＳ６０に進み、第１のしきい値Ｔ１未満であると判定すると、ステップＳ５０に進む。

ステップＳ５０では、ディスプレイ３に表示されるキャラクタを含む領域の配色を赤色にするとともに、ユーザの発話内容を認識することができない旨の文字をディスプレイ３に表示する。また、スピーカ４から、「音声を認識することができません。もう一度、音声入力を行って下さい」という音声を出力する。ステップＳ５０の処理を行うと、ステップＳ３０に戻り、再び、ユーザが発話する音声を認識する処理を行う。

ステップＳ６０では、ステップＳ３０で算出した音声認識結果の尤度が第２のしきい値Ｔ２以上であるか否かを判定する。音声認識結果の尤度が第２のしきい値Ｔ２以上であると判定するとステップＳ７０に進み、第２のしきい値Ｔ２未満であると判定すると、ステップＳ８０に進む。

ステップＳ７０では、音声認識結果の尤度が高い場合の表示処理を行う。ここで、例えば、ユーザが目的地の周辺の交通状況を確認するために、「目的地の周りの交通情報」と発話した場合について説明する。図６は、ＣＰＵ２２の音声認識処理の結果、音声認識結果の尤度が第２のしきい値Ｔ２以上であり、また、ユーザの発話した通りに「目的地の周りの交通情報」と正しく音声認識した場合に、ディスプレイ３に表示される画面の一例を示す図である。上述したように、音声認識結果の尤度が第２のしきい値Ｔ２以上の場合には、キャラクタが片目をつむってウインクした表情をするとともに、キャラクタを含む領域の配色を青色とする。また、ディスプレイ３には、キャラクタとともに、音声認識結果である「目的地の周りの交通情報」の文字を表示する。

ＣＰＵ２２は、ディスプレイ３に図６に示す画面を表示させるとともに、スピーカ４から、「目的地の周りの交通情報を表示します」という音声を出力させる。この音声に対して、ユーザが、「はい」のように肯定する発話を行い、ＣＰＵ２２がその発話内容を認識すると、目的地周辺の交通情報をディスプレイ３に表示させる。

一方、ステップＳ８０では、音声認識結果の尤度が低い場合の表示処理を行う。ここでも、ユーザが「目的地の周りの交通情報」と発話した場合を例に挙げて説明する。図７は、ＣＰＵ２２の音声認識処理の結果、音声認識結果の尤度が第１のしきい値Ｔ１以上、かつ、第２のしきい値Ｔ２未満であり、また、ＣＰＵ２２が「目的地までの交通情報」と誤認識した場合の表示内容の一例を示す図である。上述したように、音声認識結果の尤度が第２のしきい値Ｔ２未満の場合には、認識結果に自信が無く、キョロキョロした表情のキャラクタを表示するとともに、キャラクタを含む領域の配色を赤色とする。また、ディスプレイ３には、キャラクタとともに、音声認識結果である「目的地までの交通情報」の文字をクエスチョンマークを付けて表示する。

ＣＰＵ２２は、ディスプレイ３に図７に示す画面を表示させるとともに、スピーカ４から、「目的地までの交通情報を表示しますか？」という音声を出力させる。この音声に対して、ユーザが、「いいえ」のように否定する発話を行い、ＣＰＵ２２がその発話内容を認識すると、ユーザに再び音声入力を促す音声、例えば、「もう一度、音声入力を行って下さい」という音声をスピーカ４から出力する。

一実施の形態における音声対話装置によれば、ユーザの発話した音声を集音して、音声認識処理を行うとともに、音声認識辞書に登録されている語彙と音声認識結果との一致度を意味する認識尤度を算出し、算出した認識尤度に応じた画面をディスプレイ３に表示する。特に、認識尤度に応じたキャラクタを表示するので、ユーザは、音声認識の確からしさを容易に把握することができる。例えば、ユーザが音声認識結果の尤度が低いことを把握できれば、音声認識結果を確実に確認して、認識結果が誤っている場合には、訂正する発話をすることができる。

従来の音声認識システムでは、ユーザが音声認識の尤度を把握することができなかったので、誤認識された音声入力指示に基づいた処理が行われる可能性がある。例えば、上述した例のように、「目的地の周りの交通情報」と発話したにも関わらず、「目的地までの交通情報」と誤認識されて、「目的地までの交通情報を表示しますか？」という問いかけに対して、ユーザが「はい」と肯定すると、目的地までの交通情報が表示されてしまう。これに対して、一実施の形態における音声対話装置によれば、ユーザが認識尤度が低いことを把握すると、誤認識された「目的地までの交通情報を表示しますか？」という問いかけを注意深く聞いて、問いかけに対して否定する発話を行うことができる。なお、「目的地までの交通情報を表示しますか？」という問いかけが行われずに、認識結果である「目的地までの交通情報を表示？」という文字がディスプレイ３に表示されるだけのシステムにおいても、認識尤度が低いことが把握できれば、音声認識された文字を注意深く確認して、訂正することができる。

一実施の形態における音声対話装置によれば、認識尤度が第２のしきい値Ｔ２以上の場合には、片目をつむってウインクするキャラクタをディスプレイ３に表示するので、ユーザは、音声認識結果の尤度が高いことを直感的に容易に把握することができる。また、認識尤度が第２のしきい値Ｔ２未満の場合には、目を示す領域のうち、黒目を示す領域の範囲を所定範囲未満とし、キョロキョロする表情のキャラクタをディスプレイ３に表示するので、ユーザは、音声認識結果の確からしさが低いことを容易に把握することができる。

また、一実施の形態における音声対話装置によれば、認識尤度が第１のしきい値Ｔ１未満の場合には、少なくともキャラクタを含む領域を赤色で表示し、認識尤度が第１のしきい値Ｔ１以上であり、かつ、第２のしきい値Ｔ２未満の場合には、少なくともキャラクタを含む領域を黄色で表示し、認識尤度が第２のしきい値以上の場合には、少なくともキャラクタを含む領域を青色で表示する。この青、黄、赤の配色は、信号機の配色を考慮したものであるため、ユーザは、ディスプレイ３に表示される色を見て、直感的に認識尤度を把握することができる。

本発明は、上述した一実施の形態に限定されることはない。例えば、音声認識結果に対する認識尤度をユーザに伝えるためのキャラクタとして、目を模したキャラクタを用いたが（図２〜図４参照）、他のキャラクタを用いてもよい。また、認識尤度に応じて、キャラクタを含む領域の色を青、黄、赤としたが、例えば、青色の代わりに緑色を用いるなど、他の色を用いても良い。

一実施の形態における音声対話装置では、算出した認識尤度が第２のしきい値Ｔ２以上であるか否かに基づいてキャラクタの表情を変更するようにしたが、さらにしきい値を設けて、認識尤度に応じていくつかの段階ごとに、キャラクタの表情を変更するようにしてもよい。

また、上述した一実施の形態における音声対話装置では、キャラクタを用いて音声認識結果に対する認識尤度をユーザに伝えるようにしたが、キャラクタを用いずに文字や音声にてユーザに伝えるようにしてもよい。ただし、音声認識装置を車両に搭載するような場合には、ディスプレイ３に認識尤度を示す文字を表示するよりは、一瞬で認識尤度を把握することができるキャラクタを表示する方が好ましい。

特許請求の範囲の構成要素と一実施の形態の構成要素との対応関係は次の通りである。すなわち、マイク５が集音手段を、コントローラ２が音声認識手段および認識尤度算出手段を、ディスプレイ３が表示手段をそれぞれ構成する。なお、本発明の特徴的な機能を損なわない限り、各構成要素は上記構成に限定されるものではない。

本発明による音声対話装置の一実施の形態の構成を示す図音声認識結果の尤度をユーザに伝えるためのキャラクタを示す図音声認識結果の尤度が第２のしきい値Ｔ２以上の場合のキャラクタの表情を示す図音声認識結果の尤度が第２のしきい値Ｔ２未満の場合のキャラクタの表情を示す図ユーザによって音声入力スイッチ１が押された後に、コントローラのＣＰＵにより行われる処理内容を示すフローチャート認識尤度が高い場合にディスプレイに表示するキャラクタの一例を示す図認識尤度が低い場合にディスプレイに表示するキャラクタの一例を示す図

符号の説明

１…音声入力スイッチ
２…コントローラ
３…ディスプレイ
４…スピーカ
５…マイク
２１…ＲＡＭ
２２…ＣＰＵ
２３，２４…ＲＯＭ

Claims

ユーザの発話した音声を集音する集音手段と、
前記集音手段により集音された音声に対して、音声認識処理を行う音声認識手段と、
前記音声認識手段により音声認識された結果に対する認識尤度を算出する認識尤度算出手段と、
前記認識尤度算出手段により算出された認識尤度に応じた画面を表示する表示手段とを備えることを特徴とする音声対話装置。
請求項１に記載する音声対話装置において、
前記表示手段は、前記認識尤度算出手段により算出された認識尤度に応じたキャラクタを表示することを特徴とする音声対話装置。
請求項２に記載の音声対話装置において、
前記表示手段は、前記キャラクタの表情、色、動きのうちの少なくとも１つを用いて、前記認識尤度を表示することを特徴とする音声対話装置。
請求項２または３に記載の音声対話装置において、
前記キャラクタは、目を模したものであることを特徴とする音声対話装置。
請求項２〜４のいずれかに記載の音声対話装置において、
前記認識尤度算出手段により算出された認識尤度が所定尤度以上の場合には、片目をつむったキャラクタを表示し、
前記認識尤度算出手段により算出された認識尤度が所定尤度未満の場合には、目を示す領域のうち、黒目を示す領域の範囲が所定範囲未満であるキャラクタを表示することを特徴とする音声対話装置。
請求項２〜５のいずれかに記載の音声対話装置において、
前記認識尤度算出手段により算出された認識尤度が第１のしきい値未満の場合には、少なくとも前記キャラクタを含む領域を赤色で表示し、
前記認識尤度算出手段により算出された認識尤度が前記第１のしきい値より高く、第２のしきい値未満の場合には、少なくとも前記キャラクタを含む領域を黄色で表示し、
前記認識尤度算出手段により算出された認識尤度が前記第２のしきい値以上の場合には、少なくとも前記キャラクタを含む領域を青色で表示することを特徴とする音声対話装置。
ユーザの発話した音声を集音し、
集音した音声に対して、音声認識処理を行い、
音声認識された結果に対する認識尤度を算出し、
算出した認識尤度に応じた画面を表示することを特徴とする音声対話方法。