JP2009025518A

JP2009025518A - 音声対話装置

Info

Publication number: JP2009025518A
Application number: JP2007188065A
Authority: JP
Inventors: Eiji Tonozuka; 英治外塚; Minoru Togashi; 実冨樫; Takeshi Ono; 健大野; Daisuke Saito; 大介斎藤; Keiko Katsuragawa; 景子桂川
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2007-07-19
Filing date: 2007-07-19
Publication date: 2009-02-05

Abstract

【課題】ユーザの発話音声を音声認識手段が誤認識する可能性を、ユーザの発話中に報知できる音声対話装置を提供することにある。
【解決手段】
本発明の音声対話装置は、ユーザの発話音声を認識する音声認識部１５１の音声認識結果に基づいて、所定のタスクを達成する制御部１５２を有する信号処理装置１５およびユーザの発話音声を音声認識部１５１が誤認識する可能性を判断する誤認識可能性判断部１４１と、ユーザの発話中に、上記誤認識する可能性をユーザに報知するフィードバック部１４２とを有する信号処理装置１４を備える。
【選択図】図１

Description

本発明は、ナビゲーション装置などに使用される音声対話装置に関する。

音声対話装置を含むナビゲーション装置は、エンジンやエアコンの動作音、オーディオ、タイヤと路面の間で生じるロードノイズなど、車環境特有の様々なノイズの影響を受ける。このため、目的地設定などのタスクを達成するために発話したユーザの発話音声をシステムが認識することは非常に困難である。そこで、ユーザが発話を終了した後、音声認識結果をユーザにフィードバックする音声認識装置（特許文献１参照）が提案されている。当該音声認識装置は、音声認識結果をユーザに音声でフィードバックすることで、システムが認識しているか否かをユーザに伝えるものである。そして、システムが誤認識した場合および情報を追加する必要がある場合、再度音声入力を行うようにユーザに促している。
特開２００４−２５２０４６号公報

しかしながら、従来の音声認識装置では、ユーザの発話が終了した後、システムから音声でフィードバックを行うため、ユーザの発話が終了するまで、システムが認識しているか否かをユーザが確認できないといった問題があった。そのため、ユーザの発話音声をシステムが誤認識した場合、ユーザの発話が終了し、システムが誤認識したことをユーザが確認した後、ユーザは再度、始めから発話を行う必要があるので、所定のタスクを達成するのに、多くの時間を要するといった問題があった。

本発明は、こうした問題に鑑みてなされたものであり、ユーザの発話音声を音声認識手段が誤認識する可能性を、ユーザの発話中に報知できる音声対話装置を提供することを目的とする。

上記目的達成のため、本発明に係る音声対話装置では、ユーザの発話音声を音声認識手段が誤認識する可能性を判断する誤認識可能性判断手段と、ユーザの発話中に、上記誤認識する可能性をユーザに報知するフィードバック手段とを備えることを特徴としている。

本発明により、ユーザの発話音声を音声認識手段が誤認識する可能性を判断し、ユーザの発話中に、上記誤認識する可能性を報知することで、上記誤認識する可能性をユーザは確認することができる。これから、上記誤認識する可能性が高い場合、ユーザは以後発話を続けても無駄であることを理解でき、ユーザは以後の発話を止めることができる。よって、ユーザの発話音声を音声認識手段が誤認識する可能性が高い場合、発話の途中で終了した後、ユーザは再度、始めから発話を行うことができ、所定のタスクを達成するのに要する時間を低減させることができる。

以下に、本発明の実施形態に係る音声対話装置について、図１乃至図６を参照して説明する。本実施形態に係る音声対話装置は、車両に搭載されたナビゲーション装置などに使用されている。

まず、本実施形態に係る音声対話装置を含むナビゲーション装置について図１を参照して説明する。図１は、本発明の実施形態に係るナビゲーション装置１１の構成図である。図１に示すナビゲーション装置１１は、自車両周辺の地図情報や地名情報を表示したり、ユーザの所望する目的地までの経路を表示したりする。また、ナビゲーション装置１１では、ユーザの発話音声を認識し、音声認識結果に応じて、目的地の設定といった各種の作業内容に関連する一連のタスクを行う。また、ナビゲーション装置１１は、ユーザの発話音声を音声データ（デジタル信号）にＡＤ変換するＡ／Ｄコンバータ１３１および信号処理装置１４、１５からなる音声対話装置を備えている。更に、ナビゲーション装置１１は、スピーカ１７から音声を出力するためにＤＡ変換するＤ／Ａコンバータ１３２、出力アンプ１３３を備えている。

ここで、信号処理装置１５は、音声認識手段である音声認識部１５１および制御手段である制御部１５２を備えている。信号処理装置１５はナビゲーション装置１１を統合的に制御する機能を備え、音声認識に関する様々な処理を行う。具体的には、ユーザへ問い掛けする。更に、信号処理装置１５は、当該問い掛けに応じて、音声入力手段であるマイク１２から入力されるユーザの発話音声を音声認識する。これにより、目的地設定や地図表示などの作業内容に関連する一連のタスクを達成する。信号処理装置１５としては、例えば、ＣＰＵ（不図示）、メモリ（不図示）を主体としたマイクロコンピュータを使用できる。信号処理装置１５の音声認識部１５１は、ユーザの発話音声をＡＤ変換した上記音声データと、上記メモリに記憶された認識対象語とのマッチングによる音声認識処理を行う。制御部１５２は、ユーザへの問い掛けを生成／出力する。また、制御部１５２は、音声認識部１５１の音声認識結果に基づいて、目的地設定などの作業内容に関連する一連のタスクを達成する。更に、制御部１５２は、キャンセル手段である発話／キャンセルスイッチ１６のトリガー信号に基づいて、音声認識部１５１の制御処理を強制終了させる。その後、制御部１５２は、ユーザへの問い掛けを生成／出力し、ユーザの発話があるまで待機する。

一方、信号処理装置１４は、誤認識可能性判断手段である誤認識可能性判断部１４１、フィードバック手段であるフィードバック部１４２および制御手段である制御部１４３を備えている。信号処理装置１４としては、例えば、ＣＰＵ（不図示）、メモリ（不図示）を主体としたマイクロコンピュータを使用できる。信号処理装置１４では、マイク１２から入力されたユーザの発話音声を音声認識部１５１が誤認識する可能性を判断し、ユーザの発話中に、当該誤認識する可能性をユーザに報知している。具体的には、誤認識可能性判断部１４１は、ユーザの発話音声をＡＤ変換した上記音声データと、上記メモリに記憶された認識対象語とのマッチングによる音素認識処理を行う。誤認識可能性判断部１４１は、信頼度を計算する。更に、誤認識可能性判断部１４１は、当該信頼度と閾値を比較し、当該信頼度が上記閾値より低い場合、上記誤認識する可能性が高いと判断する。

フィードバック部１４２は、誤認識可能性判断部１４１が上記誤認識する可能性が低いと判断した場合、ユーザの発話中に、上記音声データをフィードバック出力する。すなわち、フィードバック部１４２は、Ｄ／Ａコンバータ１３２および出力アンプ１３３を介して、上記音声データをスピーカ１７から出力する。また、フィードバック部１４２は、誤認識可能性判断部１４１が上記誤認識する可能性が高いと判断した場合、ユーザの発話中に、上記音声データの特徴量を変化させた音声（デジタル信号）をフィードバック出力する。すなわち、フィードバック部１４２は、上記音声データの特徴量を変化させた音声（デジタル信号）を、Ｄ／Ａコンバータ１３２および出力アンプ１３３を介して、スピーカ１７から出力する。制御部１４３は、発話／キャンセルスイッチ１６のトリガー信号に基づいて、誤認識可能性判断部１４１およびフィードバック部１４２の制御処理を強制終了させる。その後、制御部１４３は、ユーザの発話があるまで待機する。

また、ナビゲーション装置１１の周辺には、マイク１２、発話／キャンセルスイッチ１６、スピーカ１７および表示手段であるディスプレイ１８が配置されている。マイク１２は、ユーザの発話音声を取得し、Ａ/Ｄコンバータ１３１にアナログ信号を出力する。Ａ/Ｄコンバータ１３１は、アナログ信号を上記音声データ（デジタル信号）に変換し、信号処理装置１４、１５に出力する。また、スピーカ１７は、増幅されたアナログ信号を音声出力する。出力アンプ１３３は、Ｄ/Ａコンバータ１３２から出力されたアナログ信号を増幅した後、増幅されたアナログ信号をスピーカ１７に出力する。Ｄ/Ａコンバータ１３２は、上記音声データ、上記音声データの特徴量を変化させた音声（デジタル信号）またはユーザへ問い掛けをアナログ信号に変換した後、当該アナログ信号を出力アンプ１３３に出力する。信号処理装置１４、１５は、上記音声データ、上記音声データの特徴量を変化させた音声（デジタル信号）またはユーザへ問い掛けをＤ/Ａコンバータ１３２に出力する。

ディスプレイ１８は、ユーザの発話を促すようなユーザへの問い掛け、自車両周辺の地図情報や地名情報、ユーザの所望する目的地までの経路、各種メニュー項目を表示する。信号処理装置１５は、上記地図情報や上記地名情報、上記経路をディスプレイ１８に出力する。本実施形態に係る発話／キャンセルスイッチ１６は、プッシュ式のスイッチである。発話／キャンセルスイッチ１６の操作により、発話／キャンセルスイッチ１６は、信号処理装置１４、１５にトリガー信号を出力する。ここで、当該トリガー信号は、目的地設定といった各種の作業内容に関連する一連のタスクを達成する制御処理を一度終了させた後、再開させるための信号である。

次に、目的地設定などの作業内容に関連する一連のタスクを達成する信号処理装置１５の制御処理について、図２を参照して説明する。図２は、図１に示す信号処理装置１５の制御処理の流れを示すフローチャートである。図２に示すように、まず、ユーザが発話／キャンセルスイッチ１６を操作すると（ステップ２０１）、発話／キャンセルスイッチ１６は、信号処理装置１５の制御部１５２に上記トリガー信号を出力する。音声認識部１５１の制御処理が実行されていれば、上記トリガー信号に基づいて、制御部１５２は音声認識部１５１の制御処理を割り込み処理による強制終了し、ユーザへの問い掛けを生成する（ステップ２０２）。一方、音声認識部１５１の制御処理が実行されていなければ、上記トリガー信号に基づいて、制御部１５２はユーザへの問い掛けを生成する（ステップ２０２）。上記問い掛けは、例えば、「何県の施設ですか？」や「施設名をどうぞ」などである。その後、制御部１５２は、Ｄ／Ａコンバータ１３２、出力アンプ１３３およびスピーカ１７を介して、上記問い掛けを音声出力する（ステップ２０２）。また、制御部１５２は、上記問い掛けをディスプレイ１８に表示する。

次に、制御部１５２は、ユーザの発話があるか否かを判断する（ステップ２０３）。具体的には、制御部１５２は、ユーザが発話／キャンセルスイッチ１６を操作するまで、Ａ／Ｄコンバータ１３１から出力されるデジタル信号の平均パワーを演算する。ユーザが発話／キャンセルスイッチ１６を操作した後、すなわち、トリガー信号を検出した後、制御部１５２は、Ａ／Ｄコンバータ１３１から出力されるデジタル信号の瞬間パワーを演算する。そして、当該瞬間パワーと上記の平均パワーとを比較する。デジタル信号の瞬間パワーが平均パワー以上の場合、制御部１５２は、ユーザの発話があると判断し（ステップ２０３：Ｙｅｓ）、音声データの取り込みを開始する。一方、デジタル信号の瞬間パワーが平均パワー未満の場合、制御部１５２は、ユーザの発話はないと判断し（ステップ２０３：Ｎｏ）、ユーザの発話があるまで待機する。

次に、音声認識部１５１は、上記の取り込んだ音声データ（デジタル信号）に基づいて、メモリにある各認識対象語とのマッチングによる音声認識処理を実行する（ステップ２０４）。当該音声認識処理では、上記の取り込んだ音声データと個々の認識対象語との音響的な近似度合いを示す音響尤度が計算される。そして、音声認識部１５１は、当該音響尤度が高いものから順に上位Ｎ個（＝Ｎ−ｂｅｓｔ）を認識対象語の候補として抽出する。更に、音声認識部１５１は、ある語が発話された可能性を示す信頼度を計算する（ステップ２０５）。音声認識部１５１は、抽出された認識対象語の候補の音響尤度と、当該認識対象語の出現頻度とに基づいて、信頼度を計算する。次に、制御部１５２は、音声認識部１５１における信頼度計算の結果から最適なものを音声認識結果として選択する。制御部１５２は、選択した音声認識結果に基づいて、目的地設定などの作業内容に関連する一連のタスクを実行する。なお、本実施形態に係る音声認識部１５１は、ユーザの発話に含まれる１単語毎に音声認識処理を実行する。すなわち、１単語毎に、認識対象語の候補を抽出し、信頼度を計算している。そのため、ユーザの発話に含まれる１単語の発話が終了するまで、音声認識部１５１は信頼度の計算結果を出力しない。

次に、制御部１５２は、目的地設定などの作業内容に関連する一連のタスクが全て完了しているか否かを判断する（ステップ２０６）。上記タスクが完了したと制御部１５２が判断した場合（ステップ２０６：Ｙｅｓ）、制御部１５２は、信号処理装置１５の制御処理を終了する（ステップ２０７）。一方、上記タスクが完了していないと制御部１５２が判断した場合（ステップ２０６：Ｎｏ）、制御部１５２は、ステップ２０３に戻り、ユーザの次の発話があるまで待機する。ここで、制御部１５２は、ユーザの初期発話から上記タスクが完了するまでの間、ユーザの発話音声に対する応答である応答メッセージを出力することなく、ユーザの発話音声（上記の取り込んだ音声データ）を音声認識部１５１で認識させる。これにより、上記タスクを達成するのに要する時間の低減を実現している。なお、本実施形態に係る音声対話装置では、後述するように、ユーザの発話音声を音声認識部１５１が誤認識する可能性を、ユーザの発話中に報知している。これから、音声認識部１５１による認識対象語の全候補の信頼度が低い場合でも、上記応答メッセージ、すなわち、ユーザの発話音声に対する確認メッセージを出力する必要がない。

次に、ユーザの発話音声を音声認識部１５１が誤認識する可能性を判断し、ユーザの発話中に、当該誤認識する可能性をユーザに報知する信号処理装置１４の制御処理について、図３を参照して説明する。図３は、図１に示す信号処理装置１４の制御処理の流れを示すフローチャートである。図３に示すように、まず、ユーザが発話／キャンセルスイッチ１６を操作すると（ステップ３０１）、発話／キャンセルスイッチ１６は、信号処理装置１４の制御部１４３に上記トリガー信号を出力する。誤認識可能性判断部１４１またはフィードバック部１４２の制御処理が実行されていれば、上記トリガー信号に基づいて、制御部１４３は誤認識可能性判断部１４１およびフィードバック部１４２の制御処理を割り込み処理による強制終了する。その後、制御部１５２と同様の方法で、ユーザの発話があるか否かを判断する（ステップ３０２）。

一方、誤認識可能性判断部１４１およびフィードバック部１４２の制御処理が実行されていなければ、制御部１４３は、制御部１５２と同様の方法で、ユーザの発話があるか否かを判断する（ステップ３０２）。ユーザの発話があると判断した場合、すなわち、デジタル信号の瞬間パワーが平均パワー以上の場合（ステップ３０２：Ｙｅｓ）、制御部１４３は音声データの初期音素部分の取り込みを開始する。一方、ユーザの発話はないと判断した場合、すなわち、デジタル信号の瞬間パワーが平均パワー未満の場合（ステップ３０２：Ｎｏ）、ユーザの発話があるまで待機する。

次に、誤認識可能性判断部１４１は、上記の取り込んだ音声データ（デジタル信号）に基づいて、メモリにある各認識対象語とのマッチングによる音素認識処理を実行する（ステップ３０３）。当該音素認識処理では、上記の取り込んだ音声データと個々の認識対象語との音響的な近似度合いを示す音響尤度が計算される。そして、誤認識可能性判断部１４１は、当該音響尤度が高いものから順に上位Ｎ個（＝Ｎ−ｂｅｓｔ）を認識対象語の候補として抽出する。更に、誤認識可能性判断部１４１は、ある語が発話された可能性を示す信頼度を計算する（ステップ３０４）。誤認識可能性判断部１４１は、抽出された認識対象語の候補の音響尤度と、当該認識対象語の出現頻度とに基づいて、信頼度を計算する。誤認識可能性判断部１４１は、メモリに予め登録した閾値と上記計算した信頼度とを比較する（ステップ３０５）。誤認識可能性判断部１４１は、上記計算した信頼度が閾値より高い場合、ユーザの発話音声を音声認識部１５１が誤認識する可能性が低いと判断する。一方、誤認識可能性判断部１４１は、上記計算した信頼度が閾値より低い場合、上記誤認識する可能性が高いと判断する。なお、本実施形態に係る誤認識可能性判断部１４１は、ユーザの発話音声の１音素毎に音素認識処理を実行する。すなわち、１音素毎に、認識対象語の候補を抽出し、信頼度を計算する。更に、１音素毎に、音声認識部１５１が当該音素を誤認識する可能性を判断している。

次に、誤認識可能性判断部１４１が上記誤認識する可能性が低いと判断した場合（ステップ３０５：Ｙｅｓ）、フィードバック部１４２は、ユーザの発話中に、上記の取り込んだ音声データをフィードバック出力する（ステップ３０６）。すなわち、フィードバック部１４２は、Ｄ／Ａコンバータ１３２および出力アンプ１３３を介して、上記の取り込んだ音声データをスピーカ１７から出力する。一方、誤認識可能性判断部１４１が上記誤認識する可能性が高いと判断した場合（ステップ３０５：Ｎｏ）、フィードバック部１４２は、上記の取り込んだ音声データを公知のエフェクタを用いて、音量の上げ下げや、異なる音に変えるなどといった特徴量の変化を行う（ステップ３０７）。次に、フィードバック部１４２は、ユーザの発話中に、上記の取り込んだ音声データの特徴量を変化させた音声（デジタル信号）をフィードバック出力する（ステップ３０６）。すなわち、フィードバック部１４２は、Ｄ／Ａコンバータ１３２および出力アンプ１３３を介して、上記の取り込んだ音声データの特徴量を変化させた音声（デジタル信号）をスピーカ１７から出力する。

次に、制御部１４３は、ユーザの発話が継続しているか否かを判断する（ステップ３０８）。具体的には、ステップ３０２において、制御部１４３は、ユーザが発話／キャンセルスイッチ１６を操作するまで、Ａ／Ｄコンバータ１３１から出力されるデジタル信号の平均パワーを演算している。制御部１４３は、上記の取り込んだ音声データの次の音素部分の瞬間パワーと上記の平均パワーとを比較する。次の音素部分の瞬間パワーが上記の平均パワー以上である場合、制御部１４３は、ユーザの発話が継続していたと判断し（ステップ３０８：Ｙｅｓ）、次の音素部分の取り込みを開始する。その後、ステップ３０３に戻り、次の音素部分に基づいて、誤認識可能性判断部１４１は、音素認識処理および信頼度計算を行った後、音声認識部１５１が誤認識する可能性を判断する。一方、次の音素部分の瞬間パワーが平均パワー未満の場合、制御部１４３は、ユーザの発話は継続しなかったと判断し（ステップ３０８：Ｎｏ）、制御部１４３は、信号処理装置１４の制御処理を終了する（ステップ３０９）。

上記の通り、本実施形態に係る誤認識可能性判断部１４１は、ユーザの発話音声の１音素毎に音素認識処理を実行している。また、ユーザの発話音声（音声データ）の音素が続く限り、本実施形態に係る制御部１４３は、ステップ３０８において、ユーザの発話が継続していたと判断する。これから、本実施形態に係る信号処理装置１４は、ユーザの発話音声（音声データ）の音素が続く限り、ステップ３０３乃至ステップ３０８を繰り返し実行する。よって、上記音声データのある音素部分の特徴量を変化させた音声または上記音声データの当該音素部分が連続してフィードバック出力される。更に、本実施形態に係るフィードバック部１４２は、後述するように、ユーザの発話音声の１音素毎の発音開始時刻から所定時間遅れて、１音素毎に判断された上記誤認識する可能性を報知している。すなわち、上記発音開始時刻から所定時間遅れて、上記音声データのある音素部分の特徴量を変化させた音声または上記音声データの当該音素部分をフィードバック出力している。なお、上記発音開始時刻と同時に、フィードバック部１４２はフィードバック出力できることが望ましい。しかし、本実施形態に係る誤認識可能性判断部１４１は、ユーザの発話音声の１音素毎の信頼度を計算し、当該信頼度と閾値を比較して、上記誤認識する可能性を判断しているので、時間遅れが発生している。

また、本実施形態に係るフィードバック部１４２は、誤認識可能性判断部１４１が上記誤認識する可能性が低いと判断した場合、ユーザの発話音声（音声データ）をフィードバック出力している。また、誤認識可能性判断部１４１が上記誤認識する可能性が高いと判断した場合、ユーザの発話音声（音声データ）の特徴量を変化させた音声をフィードバック出力している。

以下、ユーザの発話音声を誤認識する可能性を報知した場合の具体例として、ユーザが目的地設定を行う際、誤認識が無かった場合（対話例１）、ユーザが目的地設定を行う際、突発性ノイズが発生した場合（対話例２）、ユーザが目的地設定を行う際、正しい発話ができなかった場合（対話例３）の３シーンについて説明する。まず、ユーザが目的地設定を行う際、誤認識が無かった場合について、図４を参照して説明する。図４はユーザとシステムの対話例１を示す図である。図４に示すように、ユーザが発話／キャンセルスイッチ１６を操作すると（ステップＵ１１）、システムは「県名をどうぞ」の問い掛けを行う（ステップＳ１１）。ユーザが「神奈川県」の発話を行うと（ステップＵ１２）、システムは、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「神奈川県」をフィードバック出力する（ステップＳ１２）。

ステップＳ１２において、上記の通り、音声認識部１５１は、ユーザの発話音声「神奈川県」の音声データ「かながわけん」を１単語毎に音声認識し、信頼度を計算する、一方、誤認識可能性判断部１４１は、音声データ「かながわけん」を１音素（「ＫＡ」、・・、「ＧＡ」、・・、「Ｎ」）毎に音素認識し、信頼度を計算する。更に、誤認識可能性判断部１４１は、閾値と計算した信頼度を比較し、音声認識部１５１が誤認識する可能性を判断する。フィードバック部１４２は、ユーザの発話中に、上記誤認識する可能性をユーザに報知する。具体的には、上記の誤認識する可能性が低い場合、フィードバック部１４２は、音声データ「かながわけん」の当該音素部分、例えば、「ＧＡ」をＤ／Ａコンバータ１３２および出力アンプ１３３を介して、スピーカ１７から出力する。一方、上記の誤認識する可能性が高い場合、フィードバック部１４２は音声データ「かながわけん」の当該音素部分の特徴量を変化させた音声をスピーカ１７から出力する。ここで、図４に示すように、フィードバック部１４２は、ユーザの発話音声「神奈川県」の音声データ「かながわけん」のある音素部分、例えば、初期音素部分「ＫＡ」の発音開始時刻から所定時間遅れて、初期音素部分「ＫＡ」をフィードバック出力している。上記の通り、誤認識可能性判断部１４１は、ユーザの発話音声の１音素毎の信頼度を計算し、当該信頼度と閾値を比較して、上記誤認識する可能性を判断しているので、時間遅れが発生するからである。また、信号処理装置１４は、上記の制御処理を音声データ「かながわけん」の全音素部分「ＫＡ」乃至「Ｎ」まで繰り返し実行する。これにより、ユーザの発話音声「神奈川県」をフィードバック出力している。なお、ステップＳ１２では、音声データ「かながわけん」の全音素部分「ＫＡ」乃至「Ｎ」について、誤認識可能性判断部１４１は、上記誤認識する可能性が低いと判断している。

ステップＳ１２におけるフィードバック出力により、ユーザは、システムが自発話を認識したこと直感的に理解できる。制御部１５２は、音声認識部１５１の音声認識結果に基づいて、ステップＳ１１に示した初期タスクを実行する。次に、ユーザが「横浜八景島シーパラダイス」の発話を行うと（ステップＵ１３）、システムは、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「横浜八景島シーパラダイス」をフィードバック出力する（ステップＳ１３）。ユーザは、自発話がフィードバック出力されたことから、システムが自発話を認識したことを直感的に理解できる。制御部１５２は、音声認識部１５１の音声認識結果に基づいて、初期タスクの次のタスクを実行する。制御部１５２は、現時点で認識した音声認識結果からタスクが全て完了しているか否かを判断する。タスクが完了した場合、システムは、ユーザとの対話を終了する。なお、本実施形態に係るナビゲーション装置１１では、ユーザの初期発話（対話例１では、「神奈川県」）から上記タスクが完了するまでの間、上記応答メッセージを出力していない。これにより、上記タスクを達成するのに要する時間をより低減している。

次に、ユーザが目的地設定を行う際、突発性ノイズが発生した場合について、図５を参照して説明する。図５はユーザとシステムの対話例２を示す図である。図５に示すように、ユーザが発話／キャンセルスイッチ１６を操作すると（ステップＵ２１）、システムは「県名をどうぞ」の問い掛けを行う（ステップＳ２１）。ユーザが「神奈川県」の発話を行う間に突発性ノイズが発生し、ユーザの発話の後半部分に大きな入力が存在している（ステップＵ２２）。上記の場合、システムは、音声データ「かなあ＊＊＊」の前半部分「かな」の信頼度が高く、上記誤認識する可能性が低いため、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「神奈」をフィードバック出力する（ステップＳ２２）。一方、システムは、音声データ「かなあ＊＊＊」の後半部分「あ＊＊＊」の信頼度が低く、上記誤認識する可能性が高いため、上記後半部分「あ＊＊＊」の特徴量を変化させた音声「ア＊＊＊」を、ユーザの発話中に、所定時間遅れて、フィードバック出力する（ステップＳ２２）。ステップＳ２２におけるフィードバック出力により、ユーザは、システムが誤認識する可能性が高いこと直感的に理解できる。

次に、ユーザが発話／キャンセルスイッチ１６を操作すると（ステップＵ２３）、制御部１５２はステップＳ２１に示した初期タスクを実行していないので、システムは、再度、「県名をどうぞ」の問い掛けを行う（ステップＳ２３）。ユーザが「神奈川県」の発話を行うと（ステップＵ２４）、システムは、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「神奈川県」をフィードバック出力する（ステップＳ２４）。ユーザは、自発話がフィードバック出力されたことから、システムが自発話を認識したことを直感的に理解でき、次の発話を行う。制御部１５２は、音声認識部１５１の音声認識結果に基づいて、ステップＳ２３に示した初期タスクを実行する。ユーザが「横浜八景島シーパラダイス」の発話を行うと（ステップＵ２５）、システムは、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「横浜八景島シーパラダイス」をフィードバック出力する（ステップＳ２５）。ユーザは、自発話がフィードバック出力されたことから、システムが自発話を認識したことを直感的に理解できる。制御部１５２は、音声認識部１５１の音声認識結果に基づいて、初期タスクの次のタスクを実行する。制御部１５２は、現時点で認識した音声認識結果からタスクが全て完了しているか否かを判断する。タスクが完了した場合、システムは、ユーザとの対話を終了する。

次に、ユーザが目的地設定を行う際、正しい発話ができなかった場合について、図６を参照して説明する。図６はユーザとシステムの対話例３を示す図である。図６に示すように、ユーザが発話／キャンセルスイッチ１６を操作すると（ステップＵ３１）、システムは「県名をどうぞ」の問い掛けを行う（ステップＳ３１）。ユーザが「神奈川県」の発話を行うと（ステップＵ３２）、システムは、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「神奈川県」をフィードバック出力する（ステップＳ３２）。ユーザは、自発話がフィードバック出力されたことから、システムが自発話を認識したことを直感的に理解でき、次の発話を行う。制御部１５２は、音声認識部１５１の音声認識結果に基づいて、ステップＳ３１に示した初期タスクを実行する。

ユーザが施設名称等の発話途中において、言い直しや言い淀みが含まれる発話を行った場合、例えば、「横浜にある〜えっと八景島シー」の発話を行った場合（ステップＵ３３）、システムは、上記の発話音声を誤認識する可能性が高くなる。システムは、音声データ「よこはまにやる＊＊＊＊＊」の前半部分「よこはま」の信頼度が高く、上記誤認識する可能性が低いため、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「横浜」をフィードバック出力する（ステップＳ３３）。一方、システムは、音声データ「よこはまにやる＊＊＊＊＊」の後半部分「にやる＊＊＊＊＊」の信頼度が低く、上記誤認識する可能性が高いため、上記後半部分「にやる＊＊＊＊＊」の特徴量を変化させた音声「ニヤル＊＊＊＊＊」を、ユーザの発話中に、所定時間遅れて、フィードバック出力する（ステップＳ３３）。ステップＳ３３におけるフィードバック出力により、ユーザは、発話途中であっても、システムが誤認識する可能性が高いことを直感的に理解できる。次に、ユーザが発話／キャンセルスイッチ１６を操作すると（ステップＵ３４）、制御部１５２は初期タスクの次のタスクを実行していないので、システムは、「施設名をどうぞ」の問い掛けを行う（ステップＳ３４）。ユーザが「横浜八景島シーパラダイス」の発話を行うと（ステップＵ３５）、システムは、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「横浜八景島シーパラダイス」をフィードバック出力する（ステップＳ３５）。ユーザは、自発話がフィードバック出力されたことから、システムが自発話を認識したことを直感的に理解できる。制御部１５２は、音声認識部１５１の音声認識結果に基づいて、初期タスクの次のタスクを実行する。制御部１５２は、現時点で認識した音声認識結果からタスクが全て完了しているか否かを判断する。タスクが完了した場合、システムは、ユーザとの対話を終了する。

以上より、本実施形態に係る音声対話装置では、ユーザの発話音声を音声認識部１５１が誤認識する可能性を判断する誤認識可能性判断部１４１と、ユーザの発話中に、上記誤認識する可能性をユーザに報知するフィードバック部１４２とを備えている。これより、ユーザは、自己の発話中に、上記誤認識する可能性を確認することができる。例えば、ユーザの発話と同時に突発的なノイズなどが入力された場合、システムがユーザの発話を誤認識する可能性が高くなる。特に、マイク１２とユーザがある程度離れている場合、マイク１２のみにノイズが入ることがある。ノイズが入ったことをユーザが気付かない場合がある。例えば、マイク１２が窓付近にあり、窓に雨や異物が当たったときなどである。上記のような場合でも、上記誤認識する可能性をユーザに報知することで、上記誤認識する可能性が高い場合、ユーザは以後発話を続けても無駄であることを理解でき、ユーザは以後の発話を止めることができる。よって、ユーザの発話音声を音声認識部１５１が誤認識する可能性が高い場合、発話の途中で終了した後、ユーザは再度、始めから発話を行うことができ、所定のタスクを達成するのに要する時間を低減させることができる。

また、本実施形態に係る制御部１４３、１５２は、発話／キャンセルスイッチ１６のトリガー信号に基づいて、音声認識部１５１、誤認識可能性判断部１４１およびフィードバック部１４２の制御処理を強制終了させている。これから、ユーザが発話／キャンセルスイッチ１６を操作した場合、操作後の誤認識する可能性の高いユーザの発話音声を音声認識することなく、ユーザは再度、始めから発話を行うことができる。よって、所定のタスクを達成するのに要する時間を低減させることができる。また、本実施形態に係る制御部１４３、１５２は、ユーザの初期発話から所定のタスクが完了するまでの間、ユーザの発話音声に対する応答メッセージを出力することなく、ユーザの発話音声を音声認識部１５１で認識させている。これから、所定のタスクを達成するのに要する時間を低減させることができる。

また、本実施形態では、誤認識可能性判断部１４１は、ユーザの発話音声を１音素毎に上記誤認識する可能性を判断し、フィードバック部１４２は、１音素毎の発音開始時刻から所定時間遅れて、１音素毎に判断された上記誤認識する可能性を報知している。これにより、ユーザは、自発話のどの音素が誤認識する可能性が高いか確認することができる。よって、再度、始めから発話を行う際、上記誤認識する可能性の高い音素を除いた言い回しで発話でき、上記誤認識する可能性を低くすることができる。更に、ナビゲーション装置１１に不慣れなユーザにとっては、自発話のどの音素が誤認識する可能性が高いか確認することができ、誤認識を少なくするような発話形式を学習することができる。

また、本実施形態では、誤認識可能性判断部１４１は、ユーザの発話音声の信頼度を計算し、上記信頼度が閾値より低い場合、上記誤認識する可能性が高いと判断している。これから、上記誤認識する可能性を精度良く判断することができる。また、本実施形態では、フィードバック部１４２は、誤認識可能性判断部１４１が上記誤認識する可能性が低いと判断した場合、ユーザの発話音声をフィードバック出力し、誤認識可能性判断部１４１が上記誤認識する可能性が高いと判断した場合、ユーザの発話音声の特徴量を変化させた音声をフィードバック出力している。これから、ユーザは、フィードバック出力された音声の特徴量の変化から、システムが誤認識する可能性を確認できる。

なお、以上に述べた実施形態は、本発明の実施の一例であり、本発明の範囲はこれらに限定されるものでなく、特許請求の範囲に記載した範囲内で、他の様々な実施形態に適用可能である。例えば、本実施形態に係る音声対話装置では、信号処理装置１４でユーザの発話音声を誤認識する可能性を判断して報知し、信号処理装置１５で音声認識しているが、特にこれに限定されるものでなく、１つの信号処理装置にこれらの機能を含めても良い。

また、本実施形態では、誤認識可能性判断部１４１がユーザの発話音声を誤認識する可能性が低いと判断した場合、ユーザの発話音声を出力し、上記誤認識する可能性が高いと判断した場合、ユーザの発話音声の特徴量を変化させた音声を出力しているが、特にこれに限定されるものでなく、上記誤認識する可能性が高いと判断した場合だけ、報知しても良い。例えば、上記誤認識する可能性が高いと判断した場合だけ、ユーザの発話音声の特徴量を変化させた音声を出力する変形例でも良い。上記変形例の場合の信号処理装置１４の制御処理の流れを図７に示す。図７に示すように、ステップ７０１乃至ステップ７０５の制御処理は、図３に示したステップ３０１乃至ステップ３０５と全く同じである。図７に示す制御処理が、図３と異なるのは、ステップ７０５において、誤認識可能性判断部１４１が上記誤認識する可能性が低いと判断した場合（ステップ７０５：Ｙｅｓ）、フィードバック部は、上記の取り込んだ音声データをフィードバック出力しないことだけである。以後、制御部１４３は、図３のステップ３０８と同じ方法で、ユーザの発話が継続しているか否かを判断する（ステップ７０６）。ユーザの発話が継続していたと制御部１４３が判断した場合（ステップ７０６：Ｙｅｓ）、ステップ７０３に戻る。ユーザの発話が継続しなかったと制御部１４３が判断した場合（ステップ７０６：Ｎｏ）、制御部１４３は、信号処理装置１４の制御処理を終了する（ステップ７０９）。一方、ステップ７０５において、誤認識可能性判断部１４１が上記誤認識する可能性が高いと判断した場合（ステップ７０５：Ｎｏ）、フィードバック部は、上記の取り込んだ音声データを公知のエフェクタを用いて、音量の上げ下げや、異なる音に変えるなどといった特徴量の変化を行う（ステップ７０７）。次に、フィードバック部は、ユーザの発話中に、上記の取り込んだ音声データの特徴量を変化させた音声（デジタル信号）をフィードバック出力する（ステップ７０８）。次に、制御部１４３は、上記のように、ユーザの発話が継続しているか否かを判断する（ステップ７０６）。上記のフローチャートを構成することで、上記誤認識する可能性が高いと判断した場合だけ、ユーザの発話音声の特徴量を変化させた音声を、ユーザの発話中に、フィードバック出力できる。これから、ユーザはフィードバック出力の有無から、システムの誤認識する可能性を確認することができる。

また、本実施形態では、誤認識可能性判断部１４１は、ユーザの発話音声を音素認識した後、信頼度を計算し、当該信頼度が閾値より低い場合、上記発話音声を誤認識する可能性が高いと判断しているが、特にこれに限定されるものでなく、他の方法でも良い。例えば、誤認識可能性判断部は、ユーザの発話音声が無い無発話区間の入力レベルに対する、当該発話音声の入力レベルの比（Ｓ／Ｎ比）を計算し、当該Ｓ／Ｎ比が所定値より小さい場合、上記誤認識する可能性が高いと判断しても良い。このようにしても、上記誤認識する可能性を精度良く判断することができる。なお、上記の場合、ユーザの発話開始後、所定時間毎に、上記誤認識する可能性を判断し、報知することが望ましい。また、誤認識可能性判断部は、ユーザの発話音声が入力されるマイク１２で集音された音波における音声帯域以外の周波数帯域について、周波数毎の受信レベルを計測し、当該受信レベルが所定値より大きい場合、上記誤認識する可能性が高いと判断しても良い。このようにしても、上記誤認識する可能性を精度良く判断することができる。なお、上記の場合も、ユーザの発話開始後、所定時間毎に、上記誤認識する可能性を判断し、報知することが望ましい。

また、本実施形態では、上記誤認識する可能性を報知する手段として、ユーザの発話音声または当該発話音声の特徴量を変化させた音声を出力しているが、特にこれに限定されるものでなく、上記誤認識する可能性に応じて変化させた視覚的な情報を、ディスプレイ１８で表示しても良い。例えば、ランプの点滅変化、色調の変化などの視覚的な情報変化が考えられる。更に、上記変形例のように、上記誤認識する可能性が高い場合のみ、視覚的な情報を表示させても良い。

また、本実施形態では、フィードバック部１４２は、ユーザの発話音声の１音素毎の発音開始時刻から所定時間遅れて、１音素毎に判断された上記誤認識する可能性を報知しているが、特にこれに限定されるものでなく、同時でも良い。また、所定時間について説示していないが、ユーザの発話中に報知できれば、効果の差はあるが、本実施形態と同様に効果を取得できる。しかし、本実施形態では、音声認識部１５１はユーザの発話に含まれる１単語毎に音声認識処理を実行している。そのため、所定時間が長いと、ユーザが発話の途中で、発話／キャンセルスイッチ１６を操作する前に、音声認識部１５１の音声認識結果に基づいて、制御部１５２が所定のタスクを実行する場合がある。そこで、所定時間は、ユーザの発話に含まれる単語をユーザが発音するのに要する時間未満であることが望ましい。これにより、音声認識部１５１の音声認識結果が無駄になることを確実に防止することができる。

また、本実施形態では、ユーザの発話音声に対する応答である応答メッセージを出力していないが、特にこれに限定されるものでなく、応答メッセージを出力しても良い。しかし、応答メッセージを出力しないほうが、所定のタスクを達成するのに要する時間をより低減させることができる。

また、本実施形態では、発話スイッチ機能およびキャンセルスイッチ機能が一体化した発話／キャンセルスイッチ１６を用いているが、特にこれに限定されるものでなく、発話スイッチおよびキャンセルスイッチを別個に設けても良い。

また、本実施形態では、音声認識部１５１は、ユーザの発話に含まれる１単語毎に音声認識しているが、特にこれに限定されるものでなく、１音素毎に音素認識しても良い。この場合、誤認識可能性判断部１４１は不要となる。

また、本実施形態では、ユーザの発話音声または当該発話音声の特徴量を変化させた音声をスピーカ１７から出力しているが、特にこれに限定されるものでなく、イヤホンなどでユーザだけに音声出力しても良い。

本発明の実施形態に係るナビゲーション装置の構成図図１に示す信号処理装置の制御処理の流れを示すフローチャート図１に示す信号処理装置の制御処理の流れを示すフローチャートユーザとシステムの対話例１を示す図ユーザとシステムの対話例２を示す図ユーザとシステムの対話例３を示す図本発明の変形例に係る信号処理装置の制御処理の流れを示すフローチャート

符号の説明

１１ナビゲーション装置、１２音声入力手段であるマイク、
１４、１５信号処理装置、
１６キャンセル手段である発話／キャンセルスイッチ、１７スピーカ、
１８表示手段であるディスプレイ、
１３１Ａ／Ｄコンバータ、１３２Ｄ／Ａコンバータ、１３３出力アンプ、
１４１誤認識可能性判断手段である誤認識可能性判断部、
１４２フィードバック手段であるフィードバック部、
１４３制御手段である制御部、
１５１音声認識手段である音声認識部、１５２制御手段である制御部

Claims

ユーザの発話音声を認識する音声認識手段の音声認識結果に基づいて、所定のタスクを達成する制御手段と、
前記音声認識手段が前記発話音声を誤認識する可能性を判断する誤認識可能性判断手段と、
前記ユーザの発話中に、前記誤認識する可能性を前記ユーザに報知するフィードバック手段とを備えることを特徴とする音声対話装置。
前記制御手段は、前記ユーザの初期発話から前記タスクが完了するまでの間、前記発話音声に対する応答を出力することなく、前記発話音声を前記音声認識手段で認識させることを特徴とする請求項１記載の音声対話装置。
前記制御手段は、キャンセル手段の信号に基づいて、前記音声認識手段、前記誤認識可能性判断手段および前記フィードバック手段の制御処理を強制終了させることを特徴とする請求項１または２に記載の音声対話装置。
前記誤認識可能性判断手段は、前記発話音声の信頼度を計算し、
前記信頼度が閾値より低い場合、前記誤認識する可能性が高いと判断することを特徴とする請求項１乃至３のいずれかに記載の音声対話装置。
前記誤認識可能性判断手段は、前記発話音声の１音素毎に前記誤認識する可能性を判断し、
前記フィードバック手段は、前記１音素毎の発音開始時刻と同時または所定時間遅れて、前記１音素毎に判断された前記誤認識する可能性を報知することを特徴とする請求項４に記載の音声対話装置。
前記所定時間は、前記発話に含まれる単語を前記ユーザが発音するのに要する時間未満であることを特徴とする請求項５に記載の音声対話装置。
前記誤認識可能性判断手段は、前記発話音声が無い無発話区間の入力レベルに対する、前記発話音声の入力レベルの比を計算し、
前記比が所定値より小さい場合、前記誤認識する可能性が高いと判断することを特徴とする請求項１乃至３のいずれかに記載の音声対話装置。
前記誤認識可能性判断手段は、前記発話音声が入力される音声入力手段で集音された音波における音声帯域以外の周波数帯域について、周波数毎の受信レベルを計測し、
前記受信レベルが所定値より大きい場合、前記誤認識する可能性が高いと判断することを特徴とする請求項１乃至３のいずれかに記載の音声対話装置。
前記誤認識可能性判断手段は、前記ユーザの発話開始後、所定時間毎に判断し、報知することを特徴とする請求項７または８に記載の音声対話装置。
前記フィードバック手段は、前記誤認識する可能性が高いと判断した場合のみ、前記ユーザに報知することを特徴とする請求項４乃至９のいずれかに記載の音声対話装置。
前記フィードバック手段は、前記誤認識する可能性に応じて変化させた視覚的な情報を表示手段に表示することを特徴とする請求項１乃至１０のいずれかに記載の音声対話装置。
前記フィードバック手段は、前記誤認識する可能性が低いと判断した場合、前記発話音声をフィードバック出力し、
前記誤認識する可能性が高いと判断した場合、前記発話音声の特徴量を変化させた音声をフィードバック出力することを特徴とする請求項４乃至９のいずれかに記載の音声対話装置。