JP2009025518A - 音声対話装置 - Google Patents

音声対話装置 Download PDF

Info

Publication number
JP2009025518A
JP2009025518A JP2007188065A JP2007188065A JP2009025518A JP 2009025518 A JP2009025518 A JP 2009025518A JP 2007188065 A JP2007188065 A JP 2007188065A JP 2007188065 A JP2007188065 A JP 2007188065A JP 2009025518 A JP2009025518 A JP 2009025518A
Authority
JP
Japan
Prior art keywords
voice
user
possibility
utterance
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007188065A
Other languages
English (en)
Inventor
Eiji Tonozuka
英治 外塚
Minoru Togashi
実 冨樫
Takeshi Ono
健 大野
Daisuke Saito
大介 斎藤
Keiko Katsuragawa
景子 桂川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2007188065A priority Critical patent/JP2009025518A/ja
Publication of JP2009025518A publication Critical patent/JP2009025518A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ユーザの発話音声を音声認識手段が誤認識する可能性を、ユーザの発話中に報知できる音声対話装置を提供することにある。
【解決手段】
本発明の音声対話装置は、ユーザの発話音声を認識する音声認識部151の音声認識結果に基づいて、所定のタスクを達成する制御部152を有する信号処理装置15およびユーザの発話音声を音声認識部151が誤認識する可能性を判断する誤認識可能性判断部141と、ユーザの発話中に、上記誤認識する可能性をユーザに報知するフィードバック部142とを有する信号処理装置14を備える。
【選択図】図1

Description

本発明は、ナビゲーション装置などに使用される音声対話装置に関する。
音声対話装置を含むナビゲーション装置は、エンジンやエアコンの動作音、オーディオ、タイヤと路面の間で生じるロードノイズなど、車環境特有の様々なノイズの影響を受ける。このため、目的地設定などのタスクを達成するために発話したユーザの発話音声をシステムが認識することは非常に困難である。そこで、ユーザが発話を終了した後、音声認識結果をユーザにフィードバックする音声認識装置(特許文献1参照)が提案されている。当該音声認識装置は、音声認識結果をユーザに音声でフィードバックすることで、システムが認識しているか否かをユーザに伝えるものである。そして、システムが誤認識した場合および情報を追加する必要がある場合、再度音声入力を行うようにユーザに促している。
特開2004−252046号公報
しかしながら、従来の音声認識装置では、ユーザの発話が終了した後、システムから音声でフィードバックを行うため、ユーザの発話が終了するまで、システムが認識しているか否かをユーザが確認できないといった問題があった。そのため、ユーザの発話音声をシステムが誤認識した場合、ユーザの発話が終了し、システムが誤認識したことをユーザが確認した後、ユーザは再度、始めから発話を行う必要があるので、所定のタスクを達成するのに、多くの時間を要するといった問題があった。
本発明は、こうした問題に鑑みてなされたものであり、ユーザの発話音声を音声認識手段が誤認識する可能性を、ユーザの発話中に報知できる音声対話装置を提供することを目的とする。
上記目的達成のため、本発明に係る音声対話装置では、ユーザの発話音声を音声認識手段が誤認識する可能性を判断する誤認識可能性判断手段と、ユーザの発話中に、上記誤認識する可能性をユーザに報知するフィードバック手段とを備えることを特徴としている。
本発明により、ユーザの発話音声を音声認識手段が誤認識する可能性を判断し、ユーザの発話中に、上記誤認識する可能性を報知することで、上記誤認識する可能性をユーザは確認することができる。これから、上記誤認識する可能性が高い場合、ユーザは以後発話を続けても無駄であることを理解でき、ユーザは以後の発話を止めることができる。よって、ユーザの発話音声を音声認識手段が誤認識する可能性が高い場合、発話の途中で終了した後、ユーザは再度、始めから発話を行うことができ、所定のタスクを達成するのに要する時間を低減させることができる。
以下に、本発明の実施形態に係る音声対話装置について、図1乃至図6を参照して説明する。本実施形態に係る音声対話装置は、車両に搭載されたナビゲーション装置などに使用されている。
まず、本実施形態に係る音声対話装置を含むナビゲーション装置について図1を参照して説明する。図1は、本発明の実施形態に係るナビゲーション装置11の構成図である。図1に示すナビゲーション装置11は、自車両周辺の地図情報や地名情報を表示したり、ユーザの所望する目的地までの経路を表示したりする。また、ナビゲーション装置11では、ユーザの発話音声を認識し、音声認識結果に応じて、目的地の設定といった各種の作業内容に関連する一連のタスクを行う。また、ナビゲーション装置11は、ユーザの発話音声を音声データ(デジタル信号)にAD変換するA/Dコンバータ131および信号処理装置14、15からなる音声対話装置を備えている。更に、ナビゲーション装置11は、スピーカ17から音声を出力するためにDA変換するD/Aコンバータ132、出力アンプ133を備えている。
ここで、信号処理装置15は、音声認識手段である音声認識部151および制御手段である制御部152を備えている。信号処理装置15はナビゲーション装置11を統合的に制御する機能を備え、音声認識に関する様々な処理を行う。具体的には、ユーザへ問い掛けする。更に、信号処理装置15は、当該問い掛けに応じて、音声入力手段であるマイク12から入力されるユーザの発話音声を音声認識する。これにより、目的地設定や地図表示などの作業内容に関連する一連のタスクを達成する。信号処理装置15としては、例えば、CPU(不図示)、メモリ(不図示)を主体としたマイクロコンピュータを使用できる。信号処理装置15の音声認識部151は、ユーザの発話音声をAD変換した上記音声データと、上記メモリに記憶された認識対象語とのマッチングによる音声認識処理を行う。制御部152は、ユーザへの問い掛けを生成/出力する。また、制御部152は、音声認識部151の音声認識結果に基づいて、目的地設定などの作業内容に関連する一連のタスクを達成する。更に、制御部152は、キャンセル手段である発話/キャンセルスイッチ16のトリガー信号に基づいて、音声認識部151の制御処理を強制終了させる。その後、制御部152は、ユーザへの問い掛けを生成/出力し、ユーザの発話があるまで待機する。
一方、信号処理装置14は、誤認識可能性判断手段である誤認識可能性判断部141、フィードバック手段であるフィードバック部142および制御手段である制御部143を備えている。信号処理装置14としては、例えば、CPU(不図示)、メモリ(不図示)を主体としたマイクロコンピュータを使用できる。信号処理装置14では、マイク12から入力されたユーザの発話音声を音声認識部151が誤認識する可能性を判断し、ユーザの発話中に、当該誤認識する可能性をユーザに報知している。具体的には、誤認識可能性判断部141は、ユーザの発話音声をAD変換した上記音声データと、上記メモリに記憶された認識対象語とのマッチングによる音素認識処理を行う。誤認識可能性判断部141は、信頼度を計算する。更に、誤認識可能性判断部141は、当該信頼度と閾値を比較し、当該信頼度が上記閾値より低い場合、上記誤認識する可能性が高いと判断する。
フィードバック部142は、誤認識可能性判断部141が上記誤認識する可能性が低いと判断した場合、ユーザの発話中に、上記音声データをフィードバック出力する。すなわち、フィードバック部142は、D/Aコンバータ132および出力アンプ133を介して、上記音声データをスピーカ17から出力する。また、フィードバック部142は、誤認識可能性判断部141が上記誤認識する可能性が高いと判断した場合、ユーザの発話中に、上記音声データの特徴量を変化させた音声(デジタル信号)をフィードバック出力する。すなわち、フィードバック部142は、上記音声データの特徴量を変化させた音声(デジタル信号)を、D/Aコンバータ132および出力アンプ133を介して、スピーカ17から出力する。制御部143は、発話/キャンセルスイッチ16のトリガー信号に基づいて、誤認識可能性判断部141およびフィードバック部142の制御処理を強制終了させる。その後、制御部143は、ユーザの発話があるまで待機する。
また、ナビゲーション装置11の周辺には、マイク12、発話/キャンセルスイッチ16、スピーカ17および表示手段であるディスプレイ18が配置されている。マイク12は、ユーザの発話音声を取得し、A/Dコンバータ131にアナログ信号を出力する。A/Dコンバータ131は、アナログ信号を上記音声データ(デジタル信号)に変換し、信号処理装置14、15に出力する。また、スピーカ17は、増幅されたアナログ信号を音声出力する。出力アンプ133は、D/Aコンバータ132から出力されたアナログ信号を増幅した後、増幅されたアナログ信号をスピーカ17に出力する。D/Aコンバータ132は、上記音声データ、上記音声データの特徴量を変化させた音声(デジタル信号)またはユーザへ問い掛けをアナログ信号に変換した後、当該アナログ信号を出力アンプ133に出力する。信号処理装置14、15は、上記音声データ、上記音声データの特徴量を変化させた音声(デジタル信号)またはユーザへ問い掛けをD/Aコンバータ132に出力する。
ディスプレイ18は、ユーザの発話を促すようなユーザへの問い掛け、自車両周辺の地図情報や地名情報、ユーザの所望する目的地までの経路、各種メニュー項目を表示する。信号処理装置15は、上記地図情報や上記地名情報、上記経路をディスプレイ18に出力する。本実施形態に係る発話/キャンセルスイッチ16は、プッシュ式のスイッチである。発話/キャンセルスイッチ16の操作により、発話/キャンセルスイッチ16は、信号処理装置14、15にトリガー信号を出力する。ここで、当該トリガー信号は、目的地設定といった各種の作業内容に関連する一連のタスクを達成する制御処理を一度終了させた後、再開させるための信号である。
次に、目的地設定などの作業内容に関連する一連のタスクを達成する信号処理装置15の制御処理について、図2を参照して説明する。図2は、図1に示す信号処理装置15の制御処理の流れを示すフローチャートである。図2に示すように、まず、ユーザが発話/キャンセルスイッチ16を操作すると(ステップ201)、発話/キャンセルスイッチ16は、信号処理装置15の制御部152に上記トリガー信号を出力する。音声認識部151の制御処理が実行されていれば、上記トリガー信号に基づいて、制御部152は音声認識部151の制御処理を割り込み処理による強制終了し、ユーザへの問い掛けを生成する(ステップ202)。一方、音声認識部151の制御処理が実行されていなければ、上記トリガー信号に基づいて、制御部152はユーザへの問い掛けを生成する(ステップ202)。上記問い掛けは、例えば、「何県の施設ですか?」や「施設名をどうぞ」などである。その後、制御部152は、D/Aコンバータ132、出力アンプ133およびスピーカ17を介して、上記問い掛けを音声出力する(ステップ202)。また、制御部152は、上記問い掛けをディスプレイ18に表示する。
次に、制御部152は、ユーザの発話があるか否かを判断する(ステップ203)。具体的には、制御部152は、ユーザが発話/キャンセルスイッチ16を操作するまで、A/Dコンバータ131から出力されるデジタル信号の平均パワーを演算する。ユーザが発話/キャンセルスイッチ16を操作した後、すなわち、トリガー信号を検出した後、制御部152は、A/Dコンバータ131から出力されるデジタル信号の瞬間パワーを演算する。そして、当該瞬間パワーと上記の平均パワーとを比較する。デジタル信号の瞬間パワーが平均パワー以上の場合、制御部152は、ユーザの発話があると判断し(ステップ203:Yes)、音声データの取り込みを開始する。一方、デジタル信号の瞬間パワーが平均パワー未満の場合、制御部152は、ユーザの発話はないと判断し(ステップ203:No)、ユーザの発話があるまで待機する。
次に、音声認識部151は、上記の取り込んだ音声データ(デジタル信号)に基づいて、メモリにある各認識対象語とのマッチングによる音声認識処理を実行する(ステップ204)。当該音声認識処理では、上記の取り込んだ音声データと個々の認識対象語との音響的な近似度合いを示す音響尤度が計算される。そして、音声認識部151は、当該音響尤度が高いものから順に上位N個(=N−best)を認識対象語の候補として抽出する。更に、音声認識部151は、ある語が発話された可能性を示す信頼度を計算する(ステップ205)。音声認識部151は、抽出された認識対象語の候補の音響尤度と、当該認識対象語の出現頻度とに基づいて、信頼度を計算する。次に、制御部152は、音声認識部151における信頼度計算の結果から最適なものを音声認識結果として選択する。制御部152は、選択した音声認識結果に基づいて、目的地設定などの作業内容に関連する一連のタスクを実行する。なお、本実施形態に係る音声認識部151は、ユーザの発話に含まれる1単語毎に音声認識処理を実行する。すなわち、1単語毎に、認識対象語の候補を抽出し、信頼度を計算している。そのため、ユーザの発話に含まれる1単語の発話が終了するまで、音声認識部151は信頼度の計算結果を出力しない。
次に、制御部152は、目的地設定などの作業内容に関連する一連のタスクが全て完了しているか否かを判断する(ステップ206)。上記タスクが完了したと制御部152が判断した場合(ステップ206:Yes)、制御部152は、信号処理装置15の制御処理を終了する(ステップ207)。一方、上記タスクが完了していないと制御部152が判断した場合(ステップ206:No)、制御部152は、ステップ203に戻り、ユーザの次の発話があるまで待機する。ここで、制御部152は、ユーザの初期発話から上記タスクが完了するまでの間、ユーザの発話音声に対する応答である応答メッセージを出力することなく、ユーザの発話音声(上記の取り込んだ音声データ)を音声認識部151で認識させる。これにより、上記タスクを達成するのに要する時間の低減を実現している。なお、本実施形態に係る音声対話装置では、後述するように、ユーザの発話音声を音声認識部151が誤認識する可能性を、ユーザの発話中に報知している。これから、音声認識部151による認識対象語の全候補の信頼度が低い場合でも、上記応答メッセージ、すなわち、ユーザの発話音声に対する確認メッセージを出力する必要がない。
次に、ユーザの発話音声を音声認識部151が誤認識する可能性を判断し、ユーザの発話中に、当該誤認識する可能性をユーザに報知する信号処理装置14の制御処理について、図3を参照して説明する。図3は、図1に示す信号処理装置14の制御処理の流れを示すフローチャートである。図3に示すように、まず、ユーザが発話/キャンセルスイッチ16を操作すると(ステップ301)、発話/キャンセルスイッチ16は、信号処理装置14の制御部143に上記トリガー信号を出力する。誤認識可能性判断部141またはフィードバック部142の制御処理が実行されていれば、上記トリガー信号に基づいて、制御部143は誤認識可能性判断部141およびフィードバック部142の制御処理を割り込み処理による強制終了する。その後、制御部152と同様の方法で、ユーザの発話があるか否かを判断する(ステップ302)。
一方、誤認識可能性判断部141およびフィードバック部142の制御処理が実行されていなければ、制御部143は、制御部152と同様の方法で、ユーザの発話があるか否かを判断する(ステップ302)。ユーザの発話があると判断した場合、すなわち、デジタル信号の瞬間パワーが平均パワー以上の場合(ステップ302:Yes)、制御部143は音声データの初期音素部分の取り込みを開始する。一方、ユーザの発話はないと判断した場合、すなわち、デジタル信号の瞬間パワーが平均パワー未満の場合(ステップ302:No)、ユーザの発話があるまで待機する。
次に、誤認識可能性判断部141は、上記の取り込んだ音声データ(デジタル信号)に基づいて、メモリにある各認識対象語とのマッチングによる音素認識処理を実行する(ステップ303)。当該音素認識処理では、上記の取り込んだ音声データと個々の認識対象語との音響的な近似度合いを示す音響尤度が計算される。そして、誤認識可能性判断部141は、当該音響尤度が高いものから順に上位N個(=N−best)を認識対象語の候補として抽出する。更に、誤認識可能性判断部141は、ある語が発話された可能性を示す信頼度を計算する(ステップ304)。誤認識可能性判断部141は、抽出された認識対象語の候補の音響尤度と、当該認識対象語の出現頻度とに基づいて、信頼度を計算する。誤認識可能性判断部141は、メモリに予め登録した閾値と上記計算した信頼度とを比較する(ステップ305)。誤認識可能性判断部141は、上記計算した信頼度が閾値より高い場合、ユーザの発話音声を音声認識部151が誤認識する可能性が低いと判断する。一方、誤認識可能性判断部141は、上記計算した信頼度が閾値より低い場合、上記誤認識する可能性が高いと判断する。なお、本実施形態に係る誤認識可能性判断部141は、ユーザの発話音声の1音素毎に音素認識処理を実行する。すなわち、1音素毎に、認識対象語の候補を抽出し、信頼度を計算する。更に、1音素毎に、音声認識部151が当該音素を誤認識する可能性を判断している。
次に、誤認識可能性判断部141が上記誤認識する可能性が低いと判断した場合(ステップ305:Yes)、フィードバック部142は、ユーザの発話中に、上記の取り込んだ音声データをフィードバック出力する(ステップ306)。すなわち、フィードバック部142は、D/Aコンバータ132および出力アンプ133を介して、上記の取り込んだ音声データをスピーカ17から出力する。一方、誤認識可能性判断部141が上記誤認識する可能性が高いと判断した場合(ステップ305:No)、フィードバック部142は、上記の取り込んだ音声データを公知のエフェクタを用いて、音量の上げ下げや、異なる音に変えるなどといった特徴量の変化を行う(ステップ307)。次に、フィードバック部142は、ユーザの発話中に、上記の取り込んだ音声データの特徴量を変化させた音声(デジタル信号)をフィードバック出力する(ステップ306)。すなわち、フィードバック部142は、D/Aコンバータ132および出力アンプ133を介して、上記の取り込んだ音声データの特徴量を変化させた音声(デジタル信号)をスピーカ17から出力する。
次に、制御部143は、ユーザの発話が継続しているか否かを判断する(ステップ308)。具体的には、ステップ302において、制御部143は、ユーザが発話/キャンセルスイッチ16を操作するまで、A/Dコンバータ131から出力されるデジタル信号の平均パワーを演算している。制御部143は、上記の取り込んだ音声データの次の音素部分の瞬間パワーと上記の平均パワーとを比較する。次の音素部分の瞬間パワーが上記の平均パワー以上である場合、制御部143は、ユーザの発話が継続していたと判断し(ステップ308:Yes)、次の音素部分の取り込みを開始する。その後、ステップ303に戻り、次の音素部分に基づいて、誤認識可能性判断部141は、音素認識処理および信頼度計算を行った後、音声認識部151が誤認識する可能性を判断する。一方、次の音素部分の瞬間パワーが平均パワー未満の場合、制御部143は、ユーザの発話は継続しなかったと判断し(ステップ308:No)、制御部143は、信号処理装置14の制御処理を終了する(ステップ309)。
上記の通り、本実施形態に係る誤認識可能性判断部141は、ユーザの発話音声の1音素毎に音素認識処理を実行している。また、ユーザの発話音声(音声データ)の音素が続く限り、本実施形態に係る制御部143は、ステップ308において、ユーザの発話が継続していたと判断する。これから、本実施形態に係る信号処理装置14は、ユーザの発話音声(音声データ)の音素が続く限り、ステップ303乃至ステップ308を繰り返し実行する。よって、上記音声データのある音素部分の特徴量を変化させた音声または上記音声データの当該音素部分が連続してフィードバック出力される。更に、本実施形態に係るフィードバック部142は、後述するように、ユーザの発話音声の1音素毎の発音開始時刻から所定時間遅れて、1音素毎に判断された上記誤認識する可能性を報知している。すなわち、上記発音開始時刻から所定時間遅れて、上記音声データのある音素部分の特徴量を変化させた音声または上記音声データの当該音素部分をフィードバック出力している。なお、上記発音開始時刻と同時に、フィードバック部142はフィードバック出力できることが望ましい。しかし、本実施形態に係る誤認識可能性判断部141は、ユーザの発話音声の1音素毎の信頼度を計算し、当該信頼度と閾値を比較して、上記誤認識する可能性を判断しているので、時間遅れが発生している。
また、本実施形態に係るフィードバック部142は、誤認識可能性判断部141が上記誤認識する可能性が低いと判断した場合、ユーザの発話音声(音声データ)をフィードバック出力している。また、誤認識可能性判断部141が上記誤認識する可能性が高いと判断した場合、ユーザの発話音声(音声データ)の特徴量を変化させた音声をフィードバック出力している。
以下、ユーザの発話音声を誤認識する可能性を報知した場合の具体例として、ユーザが目的地設定を行う際、誤認識が無かった場合(対話例1)、ユーザが目的地設定を行う際、突発性ノイズが発生した場合(対話例2)、ユーザが目的地設定を行う際、正しい発話ができなかった場合(対話例3)の3シーンについて説明する。まず、ユーザが目的地設定を行う際、誤認識が無かった場合について、図4を参照して説明する。図4はユーザとシステムの対話例1を示す図である。図4に示すように、ユーザが発話/キャンセルスイッチ16を操作すると(ステップU11)、システムは「県名をどうぞ」の問い掛けを行う(ステップS11)。ユーザが「神奈川県」の発話を行うと(ステップU12)、システムは、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「神奈川県」をフィードバック出力する(ステップS12)。
ステップS12において、上記の通り、音声認識部151は、ユーザの発話音声「神奈川県」の音声データ「かながわけん」を1単語毎に音声認識し、信頼度を計算する、一方、誤認識可能性判断部141は、音声データ「かながわけん」を1音素(「KA」、・・、「GA」、・・、「N」)毎に音素認識し、信頼度を計算する。更に、誤認識可能性判断部141は、閾値と計算した信頼度を比較し、音声認識部151が誤認識する可能性を判断する。フィードバック部142は、ユーザの発話中に、上記誤認識する可能性をユーザに報知する。具体的には、上記の誤認識する可能性が低い場合、フィードバック部142は、音声データ「かながわけん」の当該音素部分、例えば、「GA」をD/Aコンバータ132および出力アンプ133を介して、スピーカ17から出力する。一方、上記の誤認識する可能性が高い場合、フィードバック部142は音声データ「かながわけん」の当該音素部分の特徴量を変化させた音声をスピーカ17から出力する。ここで、図4に示すように、フィードバック部142は、ユーザの発話音声「神奈川県」の音声データ「かながわけん」のある音素部分、例えば、初期音素部分「KA」の発音開始時刻から所定時間遅れて、初期音素部分「KA」をフィードバック出力している。上記の通り、誤認識可能性判断部141は、ユーザの発話音声の1音素毎の信頼度を計算し、当該信頼度と閾値を比較して、上記誤認識する可能性を判断しているので、時間遅れが発生するからである。また、信号処理装置14は、上記の制御処理を音声データ「かながわけん」の全音素部分「KA」乃至「N」まで繰り返し実行する。これにより、ユーザの発話音声「神奈川県」をフィードバック出力している。なお、ステップS12では、音声データ「かながわけん」の全音素部分「KA」乃至「N」について、誤認識可能性判断部141は、上記誤認識する可能性が低いと判断している。
ステップS12におけるフィードバック出力により、ユーザは、システムが自発話を認識したこと直感的に理解できる。制御部152は、音声認識部151の音声認識結果に基づいて、ステップS11に示した初期タスクを実行する。次に、ユーザが「横浜八景島シーパラダイス」の発話を行うと(ステップU13)、システムは、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「横浜八景島シーパラダイス」をフィードバック出力する(ステップS13)。ユーザは、自発話がフィードバック出力されたことから、システムが自発話を認識したことを直感的に理解できる。制御部152は、音声認識部151の音声認識結果に基づいて、初期タスクの次のタスクを実行する。制御部152は、現時点で認識した音声認識結果からタスクが全て完了しているか否かを判断する。タスクが完了した場合、システムは、ユーザとの対話を終了する。なお、本実施形態に係るナビゲーション装置11では、ユーザの初期発話(対話例1では、「神奈川県」)から上記タスクが完了するまでの間、上記応答メッセージを出力していない。これにより、上記タスクを達成するのに要する時間をより低減している。
次に、ユーザが目的地設定を行う際、突発性ノイズが発生した場合について、図5を参照して説明する。図5はユーザとシステムの対話例2を示す図である。図5に示すように、ユーザが発話/キャンセルスイッチ16を操作すると(ステップU21)、システムは「県名をどうぞ」の問い掛けを行う(ステップS21)。ユーザが「神奈川県」の発話を行う間に突発性ノイズが発生し、ユーザの発話の後半部分に大きな入力が存在している(ステップU22)。上記の場合、システムは、音声データ「かなあ***」の前半部分「かな」の信頼度が高く、上記誤認識する可能性が低いため、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「神奈」をフィードバック出力する(ステップS22)。一方、システムは、音声データ「かなあ***」の後半部分「あ***」の信頼度が低く、上記誤認識する可能性が高いため、上記後半部分「あ***」の特徴量を変化させた音声「ア***」を、ユーザの発話中に、所定時間遅れて、フィードバック出力する(ステップS22)。ステップS22におけるフィードバック出力により、ユーザは、システムが誤認識する可能性が高いこと直感的に理解できる。
次に、ユーザが発話/キャンセルスイッチ16を操作すると(ステップU23)、制御部152はステップS21に示した初期タスクを実行していないので、システムは、再度、「県名をどうぞ」の問い掛けを行う(ステップS23)。ユーザが「神奈川県」の発話を行うと(ステップU24)、システムは、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「神奈川県」をフィードバック出力する(ステップS24)。ユーザは、自発話がフィードバック出力されたことから、システムが自発話を認識したことを直感的に理解でき、次の発話を行う。制御部152は、音声認識部151の音声認識結果に基づいて、ステップS23に示した初期タスクを実行する。ユーザが「横浜八景島シーパラダイス」の発話を行うと(ステップU25)、システムは、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「横浜八景島シーパラダイス」をフィードバック出力する(ステップS25)。ユーザは、自発話がフィードバック出力されたことから、システムが自発話を認識したことを直感的に理解できる。制御部152は、音声認識部151の音声認識結果に基づいて、初期タスクの次のタスクを実行する。制御部152は、現時点で認識した音声認識結果からタスクが全て完了しているか否かを判断する。タスクが完了した場合、システムは、ユーザとの対話を終了する。
次に、ユーザが目的地設定を行う際、正しい発話ができなかった場合について、図6を参照して説明する。図6はユーザとシステムの対話例3を示す図である。図6に示すように、ユーザが発話/キャンセルスイッチ16を操作すると(ステップU31)、システムは「県名をどうぞ」の問い掛けを行う(ステップS31)。ユーザが「神奈川県」の発話を行うと(ステップU32)、システムは、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「神奈川県」をフィードバック出力する(ステップS32)。ユーザは、自発話がフィードバック出力されたことから、システムが自発話を認識したことを直感的に理解でき、次の発話を行う。制御部152は、音声認識部151の音声認識結果に基づいて、ステップS31に示した初期タスクを実行する。
ユーザが施設名称等の発話途中において、言い直しや言い淀みが含まれる発話を行った場合、例えば、「横浜にある〜えっと八景島シー」の発話を行った場合(ステップU33)、システムは、上記の発話音声を誤認識する可能性が高くなる。システムは、音声データ「よこはまにやる*****」の前半部分「よこはま」の信頼度が高く、上記誤認識する可能性が低いため、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「横浜」をフィードバック出力する(ステップS33)。一方、システムは、音声データ「よこはまにやる*****」の後半部分「にやる*****」の信頼度が低く、上記誤認識する可能性が高いため、上記後半部分「にやる*****」の特徴量を変化させた音声「ニヤル*****」を、ユーザの発話中に、所定時間遅れて、フィードバック出力する(ステップS33)。ステップS33におけるフィードバック出力により、ユーザは、発話途中であっても、システムが誤認識する可能性が高いことを直感的に理解できる。次に、ユーザが発話/キャンセルスイッチ16を操作すると(ステップU34)、制御部152は初期タスクの次のタスクを実行していないので、システムは、「施設名をどうぞ」の問い掛けを行う(ステップS34)。ユーザが「横浜八景島シーパラダイス」の発話を行うと(ステップU35)、システムは、ユーザの発話中に、所定時間遅れて、ユーザの発話音声「横浜八景島シーパラダイス」をフィードバック出力する(ステップS35)。ユーザは、自発話がフィードバック出力されたことから、システムが自発話を認識したことを直感的に理解できる。制御部152は、音声認識部151の音声認識結果に基づいて、初期タスクの次のタスクを実行する。制御部152は、現時点で認識した音声認識結果からタスクが全て完了しているか否かを判断する。タスクが完了した場合、システムは、ユーザとの対話を終了する。
以上より、本実施形態に係る音声対話装置では、ユーザの発話音声を音声認識部151が誤認識する可能性を判断する誤認識可能性判断部141と、ユーザの発話中に、上記誤認識する可能性をユーザに報知するフィードバック部142とを備えている。これより、ユーザは、自己の発話中に、上記誤認識する可能性を確認することができる。例えば、ユーザの発話と同時に突発的なノイズなどが入力された場合、システムがユーザの発話を誤認識する可能性が高くなる。特に、マイク12とユーザがある程度離れている場合、マイク12のみにノイズが入ることがある。ノイズが入ったことをユーザが気付かない場合がある。例えば、マイク12が窓付近にあり、窓に雨や異物が当たったときなどである。上記のような場合でも、上記誤認識する可能性をユーザに報知することで、上記誤認識する可能性が高い場合、ユーザは以後発話を続けても無駄であることを理解でき、ユーザは以後の発話を止めることができる。よって、ユーザの発話音声を音声認識部151が誤認識する可能性が高い場合、発話の途中で終了した後、ユーザは再度、始めから発話を行うことができ、所定のタスクを達成するのに要する時間を低減させることができる。
また、本実施形態に係る制御部143、152は、発話/キャンセルスイッチ16のトリガー信号に基づいて、音声認識部151、誤認識可能性判断部141およびフィードバック部142の制御処理を強制終了させている。これから、ユーザが発話/キャンセルスイッチ16を操作した場合、操作後の誤認識する可能性の高いユーザの発話音声を音声認識することなく、ユーザは再度、始めから発話を行うことができる。よって、所定のタスクを達成するのに要する時間を低減させることができる。また、本実施形態に係る制御部143、152は、ユーザの初期発話から所定のタスクが完了するまでの間、ユーザの発話音声に対する応答メッセージを出力することなく、ユーザの発話音声を音声認識部151で認識させている。これから、所定のタスクを達成するのに要する時間を低減させることができる。
また、本実施形態では、誤認識可能性判断部141は、ユーザの発話音声を1音素毎に上記誤認識する可能性を判断し、フィードバック部142は、1音素毎の発音開始時刻から所定時間遅れて、1音素毎に判断された上記誤認識する可能性を報知している。これにより、ユーザは、自発話のどの音素が誤認識する可能性が高いか確認することができる。よって、再度、始めから発話を行う際、上記誤認識する可能性の高い音素を除いた言い回しで発話でき、上記誤認識する可能性を低くすることができる。更に、ナビゲーション装置11に不慣れなユーザにとっては、自発話のどの音素が誤認識する可能性が高いか確認することができ、誤認識を少なくするような発話形式を学習することができる。
また、本実施形態では、誤認識可能性判断部141は、ユーザの発話音声の信頼度を計算し、上記信頼度が閾値より低い場合、上記誤認識する可能性が高いと判断している。これから、上記誤認識する可能性を精度良く判断することができる。また、本実施形態では、フィードバック部142は、誤認識可能性判断部141が上記誤認識する可能性が低いと判断した場合、ユーザの発話音声をフィードバック出力し、誤認識可能性判断部141が上記誤認識する可能性が高いと判断した場合、ユーザの発話音声の特徴量を変化させた音声をフィードバック出力している。これから、ユーザは、フィードバック出力された音声の特徴量の変化から、システムが誤認識する可能性を確認できる。
なお、以上に述べた実施形態は、本発明の実施の一例であり、本発明の範囲はこれらに限定されるものでなく、特許請求の範囲に記載した範囲内で、他の様々な実施形態に適用可能である。例えば、本実施形態に係る音声対話装置では、信号処理装置14でユーザの発話音声を誤認識する可能性を判断して報知し、信号処理装置15で音声認識しているが、特にこれに限定されるものでなく、1つの信号処理装置にこれらの機能を含めても良い。
また、本実施形態では、誤認識可能性判断部141がユーザの発話音声を誤認識する可能性が低いと判断した場合、ユーザの発話音声を出力し、上記誤認識する可能性が高いと判断した場合、ユーザの発話音声の特徴量を変化させた音声を出力しているが、特にこれに限定されるものでなく、上記誤認識する可能性が高いと判断した場合だけ、報知しても良い。例えば、上記誤認識する可能性が高いと判断した場合だけ、ユーザの発話音声の特徴量を変化させた音声を出力する変形例でも良い。上記変形例の場合の信号処理装置14の制御処理の流れを図7に示す。図7に示すように、ステップ701乃至ステップ705の制御処理は、図3に示したステップ301乃至ステップ305と全く同じである。図7に示す制御処理が、図3と異なるのは、ステップ705において、誤認識可能性判断部141が上記誤認識する可能性が低いと判断した場合(ステップ705:Yes)、フィードバック部は、上記の取り込んだ音声データをフィードバック出力しないことだけである。以後、制御部143は、図3のステップ308と同じ方法で、ユーザの発話が継続しているか否かを判断する(ステップ706)。ユーザの発話が継続していたと制御部143が判断した場合(ステップ706:Yes)、ステップ703に戻る。ユーザの発話が継続しなかったと制御部143が判断した場合(ステップ706:No)、制御部143は、信号処理装置14の制御処理を終了する(ステップ709)。一方、ステップ705において、誤認識可能性判断部141が上記誤認識する可能性が高いと判断した場合(ステップ705:No)、フィードバック部は、上記の取り込んだ音声データを公知のエフェクタを用いて、音量の上げ下げや、異なる音に変えるなどといった特徴量の変化を行う(ステップ707)。次に、フィードバック部は、ユーザの発話中に、上記の取り込んだ音声データの特徴量を変化させた音声(デジタル信号)をフィードバック出力する(ステップ708)。次に、制御部143は、上記のように、ユーザの発話が継続しているか否かを判断する(ステップ706)。上記のフローチャートを構成することで、上記誤認識する可能性が高いと判断した場合だけ、ユーザの発話音声の特徴量を変化させた音声を、ユーザの発話中に、フィードバック出力できる。これから、ユーザはフィードバック出力の有無から、システムの誤認識する可能性を確認することができる。
また、本実施形態では、誤認識可能性判断部141は、ユーザの発話音声を音素認識した後、信頼度を計算し、当該信頼度が閾値より低い場合、上記発話音声を誤認識する可能性が高いと判断しているが、特にこれに限定されるものでなく、他の方法でも良い。例えば、誤認識可能性判断部は、ユーザの発話音声が無い無発話区間の入力レベルに対する、当該発話音声の入力レベルの比(S/N比)を計算し、当該S/N比が所定値より小さい場合、上記誤認識する可能性が高いと判断しても良い。このようにしても、上記誤認識する可能性を精度良く判断することができる。なお、上記の場合、ユーザの発話開始後、所定時間毎に、上記誤認識する可能性を判断し、報知することが望ましい。また、誤認識可能性判断部は、ユーザの発話音声が入力されるマイク12で集音された音波における音声帯域以外の周波数帯域について、周波数毎の受信レベルを計測し、当該受信レベルが所定値より大きい場合、上記誤認識する可能性が高いと判断しても良い。このようにしても、上記誤認識する可能性を精度良く判断することができる。なお、上記の場合も、ユーザの発話開始後、所定時間毎に、上記誤認識する可能性を判断し、報知することが望ましい。
また、本実施形態では、上記誤認識する可能性を報知する手段として、ユーザの発話音声または当該発話音声の特徴量を変化させた音声を出力しているが、特にこれに限定されるものでなく、上記誤認識する可能性に応じて変化させた視覚的な情報を、ディスプレイ18で表示しても良い。例えば、ランプの点滅変化、色調の変化などの視覚的な情報変化が考えられる。更に、上記変形例のように、上記誤認識する可能性が高い場合のみ、視覚的な情報を表示させても良い。
また、本実施形態では、フィードバック部142は、ユーザの発話音声の1音素毎の発音開始時刻から所定時間遅れて、1音素毎に判断された上記誤認識する可能性を報知しているが、特にこれに限定されるものでなく、同時でも良い。また、所定時間について説示していないが、ユーザの発話中に報知できれば、効果の差はあるが、本実施形態と同様に効果を取得できる。しかし、本実施形態では、音声認識部151はユーザの発話に含まれる1単語毎に音声認識処理を実行している。そのため、所定時間が長いと、ユーザが発話の途中で、発話/キャンセルスイッチ16を操作する前に、音声認識部151の音声認識結果に基づいて、制御部152が所定のタスクを実行する場合がある。そこで、所定時間は、ユーザの発話に含まれる単語をユーザが発音するのに要する時間未満であることが望ましい。これにより、音声認識部151の音声認識結果が無駄になることを確実に防止することができる。
また、本実施形態では、ユーザの発話音声に対する応答である応答メッセージを出力していないが、特にこれに限定されるものでなく、応答メッセージを出力しても良い。しかし、応答メッセージを出力しないほうが、所定のタスクを達成するのに要する時間をより低減させることができる。
また、本実施形態では、発話スイッチ機能およびキャンセルスイッチ機能が一体化した発話/キャンセルスイッチ16を用いているが、特にこれに限定されるものでなく、発話スイッチおよびキャンセルスイッチを別個に設けても良い。
また、本実施形態では、音声認識部151は、ユーザの発話に含まれる1単語毎に音声認識しているが、特にこれに限定されるものでなく、1音素毎に音素認識しても良い。この場合、誤認識可能性判断部141は不要となる。
また、本実施形態では、ユーザの発話音声または当該発話音声の特徴量を変化させた音声をスピーカ17から出力しているが、特にこれに限定されるものでなく、イヤホンなどでユーザだけに音声出力しても良い。
本発明の実施形態に係るナビゲーション装置の構成図 図1に示す信号処理装置の制御処理の流れを示すフローチャート 図1に示す信号処理装置の制御処理の流れを示すフローチャート ユーザとシステムの対話例1を示す図 ユーザとシステムの対話例2を示す図 ユーザとシステムの対話例3を示す図 本発明の変形例に係る信号処理装置の制御処理の流れを示すフローチャート
符号の説明
11 ナビゲーション装置、12 音声入力手段であるマイク、
14、15 信号処理装置、
16 キャンセル手段である発話/キャンセルスイッチ、17 スピーカ、
18 表示手段であるディスプレイ、
131 A/Dコンバータ、132 D/Aコンバータ、133 出力アンプ、
141 誤認識可能性判断手段である誤認識可能性判断部、
142 フィードバック手段であるフィードバック部、
143 制御手段である制御部、
151 音声認識手段である音声認識部、152 制御手段である制御部

Claims (12)

  1. ユーザの発話音声を認識する音声認識手段の音声認識結果に基づいて、所定のタスクを達成する制御手段と、
    前記音声認識手段が前記発話音声を誤認識する可能性を判断する誤認識可能性判断手段と、
    前記ユーザの発話中に、前記誤認識する可能性を前記ユーザに報知するフィードバック手段とを備えることを特徴とする音声対話装置。
  2. 前記制御手段は、前記ユーザの初期発話から前記タスクが完了するまでの間、前記発話音声に対する応答を出力することなく、前記発話音声を前記音声認識手段で認識させることを特徴とする請求項1記載の音声対話装置。
  3. 前記制御手段は、キャンセル手段の信号に基づいて、前記音声認識手段、前記誤認識可能性判断手段および前記フィードバック手段の制御処理を強制終了させることを特徴とする請求項1または2に記載の音声対話装置。
  4. 前記誤認識可能性判断手段は、前記発話音声の信頼度を計算し、
    前記信頼度が閾値より低い場合、前記誤認識する可能性が高いと判断することを特徴とする請求項1乃至3のいずれかに記載の音声対話装置。
  5. 前記誤認識可能性判断手段は、前記発話音声の1音素毎に前記誤認識する可能性を判断し、
    前記フィードバック手段は、前記1音素毎の発音開始時刻と同時または所定時間遅れて、前記1音素毎に判断された前記誤認識する可能性を報知することを特徴とする請求項4に記載の音声対話装置。
  6. 前記所定時間は、前記発話に含まれる単語を前記ユーザが発音するのに要する時間未満であることを特徴とする請求項5に記載の音声対話装置。
  7. 前記誤認識可能性判断手段は、前記発話音声が無い無発話区間の入力レベルに対する、前記発話音声の入力レベルの比を計算し、
    前記比が所定値より小さい場合、前記誤認識する可能性が高いと判断することを特徴とする請求項1乃至3のいずれかに記載の音声対話装置。
  8. 前記誤認識可能性判断手段は、前記発話音声が入力される音声入力手段で集音された音波における音声帯域以外の周波数帯域について、周波数毎の受信レベルを計測し、
    前記受信レベルが所定値より大きい場合、前記誤認識する可能性が高いと判断することを特徴とする請求項1乃至3のいずれかに記載の音声対話装置。
  9. 前記誤認識可能性判断手段は、前記ユーザの発話開始後、所定時間毎に判断し、報知することを特徴とする請求項7または8に記載の音声対話装置。
  10. 前記フィードバック手段は、前記誤認識する可能性が高いと判断した場合のみ、前記ユーザに報知することを特徴とする請求項4乃至9のいずれかに記載の音声対話装置。
  11. 前記フィードバック手段は、前記誤認識する可能性に応じて変化させた視覚的な情報を表示手段に表示することを特徴とする請求項1乃至10のいずれかに記載の音声対話装置。
  12. 前記フィードバック手段は、前記誤認識する可能性が低いと判断した場合、前記発話音声をフィードバック出力し、
    前記誤認識する可能性が高いと判断した場合、前記発話音声の特徴量を変化させた音声をフィードバック出力することを特徴とする請求項4乃至9のいずれかに記載の音声対話装置。
JP2007188065A 2007-07-19 2007-07-19 音声対話装置 Pending JP2009025518A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007188065A JP2009025518A (ja) 2007-07-19 2007-07-19 音声対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007188065A JP2009025518A (ja) 2007-07-19 2007-07-19 音声対話装置

Publications (1)

Publication Number Publication Date
JP2009025518A true JP2009025518A (ja) 2009-02-05

Family

ID=40397380

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007188065A Pending JP2009025518A (ja) 2007-07-19 2007-07-19 音声対話装置

Country Status (1)

Country Link
JP (1) JP2009025518A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019156162A1 (ja) * 2018-02-08 2019-08-15 日本電信電話株式会社 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム
US11379768B2 (en) 2015-03-19 2022-07-05 Kabushiki Kaisha Toshiba Dialogue data collection system and dialogue data collection supporting apparatus

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11379768B2 (en) 2015-03-19 2022-07-05 Kabushiki Kaisha Toshiba Dialogue data collection system and dialogue data collection supporting apparatus
WO2019156162A1 (ja) * 2018-02-08 2019-08-15 日本電信電話株式会社 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム
JP2019139000A (ja) * 2018-02-08 2019-08-22 日本電信電話株式会社 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム
US11587553B2 (en) * 2018-02-08 2023-02-21 Nippon Telegraph And Telephone Corporation Appropriate utterance estimate model learning apparatus, appropriate utterance judgement apparatus, appropriate utterance estimate model learning method, appropriate utterance judgement method, and program

Similar Documents

Publication Publication Date Title
US8306815B2 (en) Speech dialog control based on signal pre-processing
JP5622744B2 (ja) 音声認識装置
JP5709980B2 (ja) 音声認識装置およびナビゲーション装置
US9293134B1 (en) Source-specific speech interactions
US9792901B1 (en) Multiple-source speech dialog input
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JP2007501420A (ja) ダイアログシステムの駆動方法
JP2008256802A (ja) 音声認識装置および音声認識方法
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2007288242A (ja) オペレータ評価方法、装置、オペレータ評価プログラム、記録媒体
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP4752516B2 (ja) 音声対話装置および音声対話方法
JP2003241797A (ja) 音声対話システム
JP2009025518A (ja) 音声対話装置
TWI503814B (zh) 使用時間上及/或頻譜上緊密音訊命令之控制
JPH06236196A (ja) 音声認識方法および装置
JP2006251061A (ja) 音声対話装置および音声対話方法
JP2005338454A (ja) 音声対話装置
JPH08263092A (ja) 応答音声生成方法および音声対話システム
KR20080061901A (ko) 로봇의 입출력 장치에 의한 효율적인 음성인식 방법 및시스템
JP2004184803A (ja) 車両用音声認識装置
JP4539313B2 (ja) 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット
JP3588929B2 (ja) 音声認識装置