JP5189858B2

JP5189858B2 - 音声認識装置

Info

Publication number: JP5189858B2
Application number: JP2008051975A
Authority: JP
Inventors: 浩之佐藤
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2008-03-03
Filing date: 2008-03-03
Publication date: 2013-04-24
Anticipated expiration: 2028-03-03
Also published as: JP2009210703A

Description

本発明は、音声認識装置に係り、特に、発話音声に対する音声認識を行う音声認識装置に関する。

一般に、音声認識は、人の発話音声をコンピュータによって解析し、発話内容を文字データとして取り出すことによって、発話音声が表す言語を認識する処理として知られている。

音声認識の方法としては、例えば、大量の発話を記録した学習用データから音声の特徴を学習し、入力された発話音声とそれらの特徴と照らし合わせながら、最も尤もらしい言語系列を認識結果として出力する手法等が知られている。

このような音声認識を行う音声認識装置は、キーボード、リモコンまたはタッチパネル等に代わるコマンド入力手段として注目を集めており、パソコンや車載器等、その利用分野は多岐にわたっている。

特開２０００−１９３４６３号公報特開平１１−３７７６６号公報特開２００１−１６６７９４号公報

しかしながら、現状における音声認識装置は、必ずしも発話音声に対する音声認識を正確に行うことができず、誤認識が生じる場合があった。

そして、このような誤認識が複数回生じると、ユーザは、不快感が募ることになり、さらに、誤認識が複数回生じた上で最終的に音声認識に失敗する場合には、不快感は非常に大きなものとなる。

図３は、このような誤認識が生じた場合における現状の音声認識装置の動作例として、車載用ナビゲーション装置に適用される音声認識装置の動作例を示したものである。

図３に示すように、まず、ステップ１（ＳＴ１）においては、音声認識装置側の発話によって、ユーザに対して住所の音声入力を促す。

次いで、ステップ２（ＳＴ２）においては、ユーザの発話により、音声認識装置に対して発話音声「トウキョウトシナガワク」を入力する。

次いで、ステップ３（ＳＴ３）においては、音声認識装置側の発話によって、ステップ２（ＳＴ２）において入力された発話音声に対する音声認識の認識結果「ドウキョウトタイトウク」を出力した後に、「ピー」という音を発した上で次のコマンドの入力を促す。

しかしながら、このステップ３（ＳＴ３）における認識結果は誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ４（ＳＴ４）において、ボタン操作によって「戻る」のコマンドを選択する。

次いで、ステップ５（ＳＴ５）においては、音声認識装置側の発話によって、再びユーザに対して住所の音声入力を促す。

次いで、ステップ６（ＳＴ６）においては、ユーザの発話により、音声認識装置に対して発話音声「トウキョウトシナガワク」を再び入力する。

次いで、ステップ７（ＳＴ７）においては、音声認識装置側の発話によって、ステップ６（ＳＴ６）において入力された発話音声に対する音声認識の認識結果「ドウキョウトチュウオウク」を出力した後に、「ピー」という音を発した上で次のコマンドの入力を促す。

しかしながら、このステップ７（ＳＴ７）における認識結果はまたしても誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ８（ＳＴ８）において、「戻る」のコマンドを再び選択する。このとき、２度目の誤認識によってユーザは不快感が生じて苛々するであろう。

次いで、ステップ９（ＳＴ９）においては、音声認識装置側の発話によって、再びユーザに対して住所の音声入力を促す。

次いで、ステップ１０（ＳＴ１０）においては、ユーザの発話により、音声認識装置に対して発話音声「トウキョウトシナガワク」を再び入力する。

次いで、ステップ１１（ＳＴ１１）においては、音声認識装置側の発話によって、ステップ１０（ＳＴ１０）において入力された発話音声に対する音声認識の認識結果「ドウキョウトシンジュクク」を出力した後に、「ピー」という音を発した上で次のコマンドの入力を促す。

しかしながら、このステップ１１（ＳＴ１１）における認識結果もまたしても誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ１２（ＳＴ１２）において、「戻る」のコマンドを再び選択する。このとき、３度目の誤認識によってユーザの不快感はさらに大きくなるであろう。

次いで、ステップ１３（ＳＴ１３）においては、音声認識装置側の発話により、音声認識に失敗した旨が通知されて、コマンドの再入力の要求はなされなくなる。これにより、ユーザの不快感は極めて大きなものになるであろう。

このように、従来から、音声認識装置においては、誤認識が生じる度に、ユーザに不快感を与えるばかりでなく、このような不快感を与えたままユーザに発話音声の再入力を繰り返し強いることになり、操作上のストレスも与えてしまうといった問題が発生していた。

そこで、本発明は、このような問題点に鑑みなされたものであり、誤認識にともなう不快感および操作上のストレスを軽減することができる音声認識装置を提供することを目的とするものである。

前述した目的を達成するため、本発明に係る音声認識装置は、マイクを介して入力された発話音声が表す言語を認識する音声認識を行う音声認識手段と、この音声認識手段の認識結果を表す音声を、スピーカを介して出力する認識結果出力手段と、この認識結果出力手段によって出力された音声が表す前記認識結果が誤認識である旨の入力が可能とされた誤認識入力手段と、この誤認識入力手段による前記誤認識である旨の入力に応答して、前記発話音声の再入力を要求するための音声である再入力要求音声を、前記スピーカを介して出力する再入力要求出力手段と、前記誤認識が所定回数連続した場合に、前記音声認識に失敗したことを通知するための音声である失敗通知音声を、前記スピーカを介して出力する認識失敗通知手段とを備えた音声認識装置であって、前記再入力要求出力手段は、謝罪表現が含まれた前記再入力要求音声を出力するように形成されているとともに、前記誤認識の回数の増加にともなって、前記再入力要求音声に含まれる謝罪表現の丁寧さの度合いを高めるように形成されていることを特徴としている。

そして、このような構成によれば、再入力要求出力手段により、音声認識の誤認識の回数の増加にともなって、再入力要求音声に含まれる謝罪表現の丁寧さの度合を高めることができるので、誤認識にともなう不快感およびストレスを軽減することができる。

なお、本明細書において、不快感およびストレスの軽減は、これら不快感およびストレスの発生を未然に抑制するといった意味での軽減の場合のみならず、不快感およびストレスが一旦発生するが直ちに緩和もしくは解消されるといった意味での軽減の場合も含むものとする。換言すれば、音声認識のための一連のユーザ操作における不快感およびストレスの蓄積が、従来よりも軽減されるということである。

また、前記認識結果出力手段は、前記誤認識の回数の増加にともなって、前記認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるように形成されていることが好ましい。

そして、このような構成によれば、認識結果出力手段により、誤認識の回数の増加にともなって、前記認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるようにすることができるので、誤認識にともなう不快感およびストレスをさらに有効に軽減することができる。

さらに、前記認識失敗通知手段は、謝罪表現が含まれた前記失敗通知音声を出力するように形成されていることが好ましい。

そして、このような構成によれば、認識失敗通知手段により、謝罪表現が含まれた失敗通知音声を出力することができるので、音声認識の失敗にともなう不快感を軽減することができる。

さらにまた、音声認識装置本体の動作状態に応じて擬人化されたキャラクタの画像を表示部に表示するキャラクタ表示処理手段を備え、前記キャラクタ表示処理手段は、前記再入力要求音声の出力の際に、前記キャラクタの画像として、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されているとともに、前記誤認識の回数の増加にともなって、当該キャラクタの画像が呈する謝罪姿勢の丁寧さの度合を高めるように形成されていることが好ましい。

そして、このような構成によれば、キャラクタ表示処理手段により、誤認識の回数の増加にともなって、再入力要求音声の出力の際におけるキャラクタの画像が呈する謝罪姿勢の丁寧さの度合を高めるようにすることができるので、そのようなキャラクタの画像による癒し効果も手伝って、誤認識にともなう不快感およびストレスをさらに有効に軽減することができる。

また、前記認識結果出力手段は、前記誤認識の回数の増加にともなって、前記認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるように形成され、前記キャラクタ表示処理手段は、前記認識結果を表す音声の出力の際に、前記キャラクタの画像として、前記誤認識の回数の増加にともなって、当該キャラクタの画像が呈する丁重姿勢の度合いが高まるようなキャラクタの画像を表示するように形成されていることが好ましい。

そして、このような構成によれば、キャラクタ表示処理手段により、誤認識の回数の増加にともなって、キャラクタの画像が呈する丁重姿勢の度合を高めることができるので、誤認識にともなう不快感およびストレスをより有効に軽減することができる。

さらに、前記認識失敗通知手段は、謝罪表現が含まれた前記失敗通知音声を出力するように形成され、前記キャラクタ表示処理手段は、前記失敗通知音声の出力の際に、前記キャラクタの画像として、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されていることが好ましい。

そして、このような構成によれば、キャラクタ表示処理手段により、失敗通知音声の出力の際に謝罪姿勢を呈するキャラクタの画像を表示することがきるので、音声認識の失敗にともなう不快感をさらに有効に軽減することができる。

さらにまた、本発明は、車載器に適用されることが好ましい。

そして、このような構成によれば、車載器に適用する場合においても、誤認識にともなう不快感およびストレスの軽減を図ることができるので、ひいては、運転の安全性および快適性を向上させることができる。

本発明によれば、誤認識にともなう不快感および操作上のストレスを軽減することができる。

以下、本発明に係る音声認識装置の実施形態について、図１および図２を参照して説明する。

図１は、本実施形態における音声認識装置１を示したものであり、この音声認識装置１は、マイク２および発話ボタン３を有している。

ユーザは、発話ボタン３を押し下げた後マイク２に向かって発話することによって、発話音声をマイク２を介して音声認識装置１の内部に入力することが可能とされている。

また、本実施形態における音声認識装置１は、音声認識手段としての音声認識部５を有しており、この音声認識部５には、マイク２および発話ボタン３がそれぞれ接続されている。

音声認識部５は、発話ボタン３が押し下げられると、音声入力待ち状態となり、マイク２を介してユーザの発話音声が音声認識部５に入力されるようになっている。

そして、音声認識部５は、入力された発話音声（音声データ）に対して、発話音声が表す言語を認識する音声認識を行うようになっている。この音声認識は、例えば、認識対象言語の文字列とその音声パターンとを対応付けた音響モデルを、音声辞書データベースにあらかじめ登録しておき、入力された発話音声から算出された特徴量と、音響モデルの特徴量とを比較して、類似度が最も高い音声パターンを検索し、その音声パターンに対応する文字列を発話音声が表す文字列であると認識することによって行うようにしてもよい。

さらに、本実施形態における音声認識装置１は、認識結果出力手段としての認識結果出力部６を有しており、この認識結果出力部６には、音声認識部５が接続されている。また、認識結果出力部６には、音声合成部７を介してスピーカ８が接続されている。音声合成部７は、例えば、Text to Speech（ＴＴＳ）エンジンとされており、テキストベースの情報を入力してオーディオに変換して出力し、音声読み上げを行うようになっている。

認識結果出力部６は、音声認識部５から、発話音声に対する音声認識の認識結果を取得するようになっている。そして、認識結果出力部６は取得された認識結果に対応する音声データ（以下、認識結果音声データと称する）を生成し、生成された認識結果音声データを、例えばＴＴＳエンジンを使って１文字分ずつ音声合成部７に出力するようになっている。音声合成部７は、認識結果出力部６から出力された認識結果音声データを文字列（単語）として例えばＴＴＳエンジンに入力して、これをスピーカ８を介して音声出力するようになっている。

このようにして、認識結果出力部６により、音声認識部５の認識結果を表す音声が、音声合成部７およびスピーカ８を介して音声出力（トークバック）されるようになっている。

そして、ユーザは、この認識結果出力部６によって音声出力された音声を聴取することによって、この音声が表す言語が誤認識であるか否かを判断することができるようになっている。

さらにまた、本実施形態における音声認識装置１は、コマンド入力要求出力部１０を有しており、このコマンド入力要求出力部１０には、発話ボタン３、認識結果出力部６および音声合成部７がそれぞれ接続されている。

コマンド入力要求出力部１０は、音声認識装置１の動作状態に応じて、ユーザにコマンドの入力を要求するための音声であるコマンド入力要求音声の音声データ（以下、コマンド入力要求音声データと称する）を生成し、生成されたコマンド入力要求音声データを音声合成部７に出力するようになっている。音声合成部７は、コマンド入力要求出力部１０から出力されたコマンド入力要求音声データに対応するコマンド入力要求音声を、スピーカ８を介して出力するようになっている。

このようにして、コマンド入力要求出力部１０により、コマンド入力要求音声が、音声合成部７およびスピーカ８を介して音声出力されるようになっている。

本実施形態において、コマンド入力要求出力部１０は、認識結果出力部６による認識結果の出力の際に、現段階における最新の入力済みコマンド（すなわち、当該認識結果に対応する発話音声）の次のコマンド（例えば、発話音声）の入力を要求する音声を出力するようにしてもよい。

また、本実施形態における音声認識装置１は、誤認識入力手段としてのバックボタン１１を有している。ユーザは、認識結果出力部６によって出力された認識結果に対して、バックボタン１１を押し下げることによって、認識結果出力部６によって出力された音声が表す認識結果が誤認識である旨の入力（以下、誤認識入力と称する）が可能とされている。

さらに、本実施形態において、コマンド入力要求出力部１０は、再入力要求出力手段としての再入力要求出力部１２を有しており、この再入力要求出力部１２には、バックボタン１１が接続されている。

この再入力要求出力部１２は、バックボタン１１による誤認識入力の入力結果を取得し、取得された入力結果に応答して、誤認識となった発話音声の再入力を要求する音声である再入力要求音声の音声データ（以下、再入力要求音声データと称する）を生成するようになっている。なお、本実施形態において、再入力要求音声は、コマンド入力要求音声の一態様とされ、再入力要求音声データは、コマンド入力要求音声データの一態様とされている。そして、再入力要求出力部１２は、生成された再入力要求音声データを音声合成部７に出力するようになっている。音声合成部７は、再入力要求出力部１２から出力された再入力要求音声データに対応する再入力要求音声を、スピーカ８を介して出力するようになっている。このようにして、再入力要求出力部１２により、誤認識入力に応答して、音声合成部７およびスピーカ８を介した再入力要求音声の出力を行うことができるようになっている。

さらにまた、本実施形態における音声認識装置１は、誤認識回数計測部１４を有しており、この誤認識回数計測部１４には、バックボタン１１および再入力要求出力部１２がそれぞれ接続されている。この誤認識回数計測部１４は、バックボタン１１からの誤認識入力の入力回数に基づいて、誤認識の発生回数を計測するようになっている。

また、本実施形態における音声認識装置１は、認識失敗通知手段としての認識失敗通知部１５を有しており、この認識失敗通知部１５には、誤認識回数計測部１４および音声合成部７がそれぞれ接続されている。

この認識失敗通知部１５は、誤認識回数計測部１４の計測結果を取得し、取得された測定結果に基づいて、誤認識が所定回数連続した場合に、音声認識に失敗したことを通知する音声である失敗通知音声の音声データ（以下、失敗通知音声データと称する）を生成し、生成された失敗通知音声データを音声合成部７に出力するようになっている。音声合成部７は、認識失敗通知部１５から出力された音声データに対応する失敗通知音声を、スピーカ８を介して出力するようになっている。このようにして、認識失敗通知部１５により、音声合成部７およびスピーカ８を介して失敗通知音声を出力することができるようになっている。

さらに、本実施形態における音声認識装置１は、キャラクタ表示処理手段としてのキャラクタ描画部１６を有しており、このキャラクタ描画部１６には、認識結果出力部６、コマンド入力要求出力部１０（再入力要求出力部１２を含む）、および、認識失敗通知部１５がそれぞれ接続されている。また、キャラクタ描画部１６には、表示処理部１８を介して表示部としてのディスプレイ１９が接続されている。

キャラクタ描画部１６は、音声認識装置１の動作状態に応じて、擬人化されたキャラクタの画像の描画データを生成し、生成された描画データを表示処理部１８に出力するようになっている。そして、表示処理部１８は、キャラクタ描画部１６から出力された描画データに対応するキャラクタの画像を、ディスプレイ１９に表示するようになっている。このようにして、キャラクタ描画部１６により、表示処理部１８を介してディスプレイ１９にキャラクタの画像を表示することができるようになっている。

より具体的には、本実施形態において、キャラクタ描画部１６は、キャラクタの画像として、認識結果出力部６、コマンド入力要求出力部１０、再入力要求出力部１２、および、認識失敗通知部１５のそれぞれの音声出力による音声認識装置１側の発話動作の際に、発話動作に適合した表示状態を呈するキャラクタの画像を表示するようになっている。

なお、このようなキャラクタの画像としては、例えば、人物や動物等を模したキャラクタの画像で、音声認識装置１側の発話動作に連動してキャラクタの表情（口等）や身振り手振り等の表示状態が発話動作に適合した状態（動き）を示す画像を表示すればよい。

以上のような基本的な構成を備えた上で、本実施形態にける音声認識装置１は、再入力要求出力部１２が、謝罪表現が含まれた再入力要求音声を出力するように形成されているとともに、誤認識回数計測部１４によって測定される誤認識の回数の増加にともなって、再入力要求音声に含まれる謝罪表現の丁寧さの度合を高めるようになっている。

つまり、本実施形態においては、発話音声に対する誤認識の回数が増加するほど、誤認識入力に応答して、より丁寧な言葉遣いによる謝罪表現が含まれた再入力要求音声によって、発話音声の再入力が促されるようになっている。

具体的な例としては、再入力要求出力部１２は、住所を音声認識する場合における１回目の誤認識に対しては、「すみません、住所をお話下さい。」といった再入力要求音声を出力し、２回目の誤認識に対しては、「申し訳ございません。もう一度住所をお話下さい。」といった再入力要求音声を出力するようにしてもよい。

また、再入力要求出力部１２は、謝罪表現の丁寧さの度合が異なる複数の再入力要求音声のパターンを、誤認識の回数と対応関係を有した状態としてデータベース化しておき、誤認識回数計測部１４から取得された計測結果に対応するパターンに該当する再生入力要求音声を出力するようにしてもよい。

ここで、音声認識の誤認識が繰り返されれば、ユーザの不快感は徐々に高まっていくことが多い。しかし、誤認識が生じる度ごとに謝罪の言葉をかけられ、また、謝罪の言葉が誤認識の回数の増加にともなってより丁寧なものになれば、ユーザの不快感は軽減されるであろう。また、不快感が軽減された状態で発話音声の再入力を行えば、再入力の際のストレスも軽減されるであろう。

したがって、本実施形態によれば、誤認識が繰り返される場合においても、誤認識の回数の増加にともなってより丁寧な謝罪表現を用いた再入力要求を行うことができるので、誤認識によるユーザの不快感および発話音声の再入力にともなうユーザのストレスを軽減することができる。

上記構成に加えて、さらに、本実施形態においては、認識失敗通知部１５が、謝罪表現が含まれた失敗通知音声を出力するようになっている。

具体的な例としては、認識失敗通知部１５は、「大変申し訳ございません。音声認識に失敗しました。」といった内容の失敗通知音声を出力するようにしてもよい。

このような構成によれば、誤認識が複数回繰り返された上で最終的に音声認識に失敗した場合においても、謝罪表現が含まれた失敗通知音声を出力することができるので、音声認識の失敗にともなう不快感を軽減することができる。なお、この失敗通知音声に含まれる謝罪表現は、再入力要求音声に含まれる謝罪表現よりも丁寧であることが好ましい。

上記構成に加えて、さらに、認識結果出力部６が、誤認識回数計測部１４によって計測される誤認識の回数の増加にともなって、認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるようにしてもよい。

具体的な例としては、認識結果出力部６は、第１回目の認識結果の出力の際には、「ドウキョウトタイトウク」といった誤認識の音声を出力し、これに続く第２回目の認識結果の出力の際には、「ドウキョウトチュウオウクでよろしいでしょうか。」といった丁寧な表現による認識結果の出力を行うようにしてもよい。

このようにすれば、誤認識の回数の増加にともなってより丁重な言葉遣いで再認識の結果を出力することができるので、誤認識によるユーザの不快感および発話音声の再入力にともなうユーザのストレスをさらに有効に軽減することができる。

上記構成に加えて、さらに、本実施形態においては、キャラクタ描画部１６が、再入力要求出力部１２による再入力要求音声の出力の際に、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されているとともに、誤認識の回数の増加にともなって、キャラクタの画像が呈する謝罪姿勢の丁寧さの度合を高めるようになっている。

具体的な例としては、キャラクタ描画部１６は、誤認識の回数の増加にともなって、より深々と頭を下げるようなキャラクタの画像を表示するようにしてもよい。

また、キャラクタ描画部１６は、謝罪姿勢の丁寧さの度合が異なる複数のキャラクタパターンを、誤認識の回数と対応関係を有した状態としてデータベース化しておき、誤認識回数計測部１４から取得された計測結果に対応するパターンに該当するキャラクタを表示するようにしてもよい。

このような構成によれば、キャラクタが呈する謝罪姿勢も手伝って、誤認識にともなう不快感およびストレスをさらに有効に軽減することができる。

上記構成に加えて、さらに、本実施形態においては、キャラクタ描画部１６が、認識失敗通知部１５による失敗通知音声の出力の際にも、謝罪姿勢を呈するキャラクタを表示するようになっている。

具体的な例としては、キャラクタ描画部１６は、認識失敗通知部１５が失敗通知音声を出力する際に、誤認識の場合よりもより深々と頭を下げるか、もしくは、土下座をするようなキャラクタを表示するようにしてもよい。

そして、このような構成によれば、音声認識の失敗にともなう不快感をさらに有効に軽減することができる。

上記構成に加えて、さらに、前述のように、誤認識の回数の増加にともなって認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるようにする場合には、キャラクタ描画部１６が、キャラクタの画像として、誤認識の回数の増加にともなって、当該キャラクタの画像が呈する丁重姿勢の度合いが高まるようなキャラクタ画像を表示するようにしてもよい。

なお、丁重姿勢の具体的な例としては、例えば、お辞儀のようなかしこまった状態であたかもユーザの表情を恐る恐る窺うような姿勢を挙げることができる。

このようにすれば、認識結果を表す音声を出力する際の表現の丁寧さの度合が高まることにともなって、表示されるキャラクタが呈する丁重姿勢の度合を高めることができるので、誤認識にともなう不快感およびストレスをより有効に軽減することができる。

また、本実施形態における音声認識装置１は、車載器に適用されるようにしてもよい。具体的には、本実施形態における音声認識装置１は、車載器としての車載用ナビゲーション装置における目的地や経由地の設定の際における住所の音声入力等に適用することができる。また、本実施形態における音声認識装置１は、車載器としての車載用のオーディオ装置、ＤＶＤ再生装置、ラジオおよびテレビ等における音声入力による再生対象（楽曲、映像作品、番組）の選択にも適用することができる。

このように、本実施形態における音声認識装置１を車載器に適用すれば、誤認識にともなう不快感およびストレスの軽減を図ることによって、運転の安全性および快適性の向上に繋がることになる。

次に、本実施形態の作用として、音声認識装置１の動作例について説明する。

図２は、音声認識装置１の動作例として、音声認識装置１を車載用ナビゲーション装置に適用した場合における目的地や経由地の設定の際の住所の入力を行う場合における動作例を示したものである。

この動作例においては、図２に示すように、まず、ステップ２１（ＳＴ２１）において、コマンド入力要求出力部１０により、ユーザに対して住所の音声入力を促す発話動作として、「住所をお話下さい」といった音声出力をスピーカ８を介して行う。なお、このステップ２１（ＳＴ２１）の発話動作は、車載用ナビゲーション装置（図示せず）に対する住所の音声入力に移行するためのユーザ操作がなされたことを待って行われるようになっている。

また、このステップ２１（ＳＴ２１）においては、キャラクタ描画部１６により、ディスプレイ１９に、画面アイコンとしてキャラクタの画像を表示するとともに、このキャラクタの画像の表示状態が、ステップ２１（ＳＴ２１）における発話動作に適合するようにする。なお、このステップ２１（ＳＴ２１）におけるキャラクタは、謝罪姿勢を呈してはいない通常状態のキャラクタとされている。

次いで、ステップ２２（ＳＴ２２）においては、ユーザが、発話ボタン３を押し下げた状態でマイク２に向かって「トウキョウトシナガワク」と発話すると、この発話音声が音声認識装置１内に入力される。

次いで、ステップ２３（ＳＴ２３）においては、音声認識部５により、ステップ２２（ＳＴ２２）において入力された発話音声に対する音声認識を行った上で、認識結果出力部６により、当該音声認識の認識結果「ドウキョウトタイトウク」を出力する発話動作を行い、その直後に、コマンド入力要求出力部１０により、「ピー」という音を発した上で次のコマンドの入力を促す発話動作を行う。

また、このステップ２３（ＳＴ２３）においても、ステップ２１（ＳＴ２１）と同様に、キャラクタ描画部１６により、ディスプレイ１９に表示されたキャラクタの画像の表示状態が、ステップ２３（ＳＴ２３）における発話動作に適合するようにする。なお、このステップ２３（ＳＴ２３）におけるキャラクタも、謝罪姿勢を呈してはいない通常状態のキャラクタとされている。

しかしながら、このステップ２３（ＳＴ２３）における認識結果は誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ２４（ＳＴ２４）において、バックボタン１１を操作して「戻る」のコマンドを入力することによって、誤認識入力を行う。

このステップ２４（ＳＴ２４）の操作により、誤認識回数計測部１４は、１回目の誤認識を計測する。

次いで、ステップ２５（ＳＴ２５）においては、再入力要求出力部１２により、誤認識回数計測部１４の計測結果に基づいて、１回目の誤認識に応答する再入力要求音声として、「すみません、住所をお話下さい。」という音声を出力する発話動作を行う。この再入力要求音声は、ステップ２１（ＳＴ２１）とは異なり、謝罪表現が含まれている。

また、このステップ２５（ＳＴ２５）においても、キャラクタ描画部１６により、ディスプレイ１９に表示されたキャラクタの画像の表示状態が、ステップ２５（ＳＴ２５）における発話動作に適合するようにする。ただし、このステップ２５（ＳＴ２５）におけるキャラクタの画像は、ステップ２１（ＳＴ２１）とは異なり、謝罪姿勢を呈している（例えば、頭を下げている）キャラクタの画像とされている。

次いで、ステップ２６（ＳＴ２６）においては、ユーザの発話により、音声認識装置１に対して発話音声「トウキョウトシナガワク」を再び入力する。

次いで、ステップ２７（ＳＴ２７）においては、音声認識部５により、ステップ２６（ＳＴ２６）において入力された発話音声に対する音声認識を行った上で、認識結果出力部６により、当該音声認識の認識結果「ドウキョウトチュウオウク」を出力する発話動作を行い、その直後に、コマンド入力要求出力部１０により、「ピー」という音を発した上で次のコマンドの入力を促す発話動作を行う。

また、このステップ２７（ＳＴ２７）においても、キャラクタ描画部１６により、ディスプレイ１９に表示されたキャラクタの画像の表示状態が、ステップ２７（ＳＴ２７）における発話動作に適合するようにする。

しかしながら、このステップ２７（ＳＴ２７）における認識結果はまたしても誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ２８（ＳＴ２８）において、バックボタン１１の操作によって「戻る」のコマンドを入力する。

このステップ２８（ＳＴ２８）の操作により、誤認識回数計測部１４は、２回目の誤認識を計測する。

次いで、ステップ２９（ＳＴ２９）においては、再入力要求出力部１２により、誤認識回数計測部１４の計測結果に基づいて、２回目の誤認識に応答する再入力要求音声として、「申し訳ございません。もう一度住所をお話下さい。」という音声を出力する発話動作を行う。この再入力要求音声は、ステップ２５（ＳＴ２５）のときよりも更に丁寧さおよび謝罪表現の度合が高まったものとなっている。

また、このステップ２９（ＳＴ２９）においても、キャラクタ描画部１６により、ディスプレイ１９に表示されたキャラクタの画像の表示状態が、ステップ２９（ＳＴ２９）における発話動作に適合するようにする。

このステップ２９（ＳＴ２９）におけるキャラクタの画像は、ステップ２５（ＳＴ２５）のときよりも更に謝罪姿勢の度合いが高まったキャラクタの画像（例えば、さらに深々と頭を下げている画像）とされている。

次いで、ステップ３０（ＳＴ３０）においては、ユーザの発話により、音声認識装置１に対して発話音声「トウキョウトシナガワク」を再び入力する。

次いで、ステップ３１（ＳＴ３１）においては、音声認識部５により、ステップ３０（ＳＴ３０）において入力された発話音声に対する音声認識を行った上で、認識結果出力部６により、当該音声認識の認識結果「ドウキョウトシンジュクク」を出力する発話動作を行い、その直後に、コマンド入力要求出力部１０により、「ピー」という音を発した上で次のコマンドの入力を促す発話動作を行う。

このとき、認識結果出力部６は、「ドウキョウトシンジュククでよろしいですか」という丁寧な表現で認識結果を出力するようにしてもよい。また、このとき、認識結果出力部６は、申し訳なさを表現するために、認識結果を弱い声で出力するようにしてもよい。

また、このステップ３１（ＳＴ３１）においても、キャラクタ描画部１６により、ディスプレイ１９に表示されたキャラクタの画像の表示状態が、ステップ３１（ＳＴ３１）における発話動作に適合するようにする。

しかしながら、このステップ３１（ＳＴ３１）における認識結果はまたしても誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ３２（ＳＴ３２）において、バックボタン１１の操作によって「戻る」のコマンドを入力する。

このステップ３２（ＳＴ３２）の操作により、誤認識回数計測部１４は、３回目の誤認識を計測する。

次いで、ステップ３３（ＳＴ３３）においては、認識失敗通知部１５により、誤認識回数計測部１４の計測結果に基づいて、失敗通知音声として、「大変申し訳ございません。音声認識に失敗しました。」という音声を出力する発話動作を行う。

また、このステップ３３（ＳＴ３３）においても、キャラクタ描画部１６により、ディスプレイ１９に表示されたキャラクタの画像の表示状態が、ステップ３３（ＳＴ３３）における発話動作に適合するようにする。

このステップ３３（ＳＴ３３）におけるキャラクタの画像は、ステップ２９（ＳＴ２９）のときよりも更に謝罪姿勢の度合いが高まったキャラクタの画像とされている。

以上述べたように、本実施形態によれば、音声認識の誤認識の回数の増加にともなって、再入力要求音声が表す言語についての丁寧さの度合および謝罪表現の度合を高めることができるので、誤認識にともなう不快感およびストレスを軽減することができる。

また、不快感が募った状態では、適正な発話が困難な場合が多いため、最終的な音声認識の成功率が低減してしまうこともあるため、本発明のように不快感を軽減することができれば、最終的な音声認識の成功率を向上させることにもつながる。

なお、本発明は、前述した実施の形態に限定されるものではなく、必要に応じて種々の変更が可能である。

例えば、前述した実施形態においては、誤認識入力手段として、バックボタン１１を用いていたが、本発明は、このような構成に限定されるものではなく、マイク２を誤認識入力手段として機能させることによって、誤認識入力を音声入力によって行うことが可能に構成してもよい。ただし、この場合には、誤認識入力がなされたと判断することができるように、例えば、音声認識装置側で、予め誤認識入力に相当する特定の言語（例えば、「間違い」、「駄目」、あるいは、特定の罵詈雑言等）を保持しておき、この特定の言語が入力されたか否かによって誤認識入力がなされたことの有無を判定することが必要となる。

また、誤認識の回数の増加にともなって、キャラクタの画像を徐々に癒し度の高いもの（例えば、丸みを帯びたもの）にするようにしてもよい。

本発明に係る音声認識装置の実施形態を示すブロック図本発明に係る音声認識装置の実施形態において、動作例を示す工程図従来の音声認識装置における動作例を示す工程図

符号の説明

１音声認識装置
２マイク
５音声認識部
６認識結果出力部
８スピーカ
１１バックボタン
１２再入力要求出力部
１５認識失敗通知部
１６キャラクタ描画部
１９ディスプレイ

Claims

マイクを介して入力された発話音声が表す言語を認識する音声認識を行う音声認識手段と、
この音声認識手段の認識結果を表す音声を、スピーカを介して出力する認識結果出力手段と、
この認識結果出力手段によって出力された音声が表す前記認識結果が誤認識である旨の入力が可能とされた誤認識入力手段と、
この誤認識入力手段による前記誤認識である旨の入力に応答して、前記発話音声の再入力を要求するための音声である再入力要求音声を、前記スピーカを介して出力する再入力要求出力手段と、
前記誤認識が所定回数連続した場合に、前記音声認識に失敗したことを通知するための音声である失敗通知音声を、前記スピーカを介して出力する認識失敗通知手段と
を備えた音声認識装置であって、
車載用ナビゲーション装置に搭載され、
当該車載用ナビゲーション装置における目的地または経由地の設定の際の住所の入力音声の音声認識に用いられ、
前記再入力要求出力手段は、謝罪表現が含まれた前記再入力要求音声を出力するように形成されているとともに、前記誤認識の回数の増加にともなって、前記再入力要求音声に含まれる謝罪表現の丁寧さの度合いを高めるように形成され、
音声認識装置本体の動作状態に応じて擬人化されたキャラクタの画像を表示部に表示するキャラクタ表示処理手段を備え、
前記キャラクタ表示処理手段は、前記再入力要求音声の出力の際に、前記キャラクタの画像として、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されているとともに、前記誤認識の回数の増加にともなって、当該キャラクタの画像が呈する謝罪姿勢の丁寧さの度合を高めるように形成され、
前記認識結果出力手段は、前記誤認識の回数の増加にともなって、前記認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるように形成され、
前記キャラクタ表示処理手段は、前記認識結果を表す音声の出力の際に、前記キャラクタの画像として、前記誤認識の回数の増加にともなって、当該キャラクタの画像が呈する丁重姿勢の度合いが高まるようなキャラクタの画像を表示するように形成され、
さらに、前記キャラクタ表示処理手段は、前記再入力要求音声の出力の際および／または前記認識結果を表す音声の出力の際に、前記誤認識の回数の増加にともなって、前記キャラクタの画像が呈する癒やし度の度合いを高めるように形成されていること
を特徴とする音声認識装置。
前記認識失敗通知手段は、謝罪表現が含まれた前記失敗通知音声を出力するように形成されていること
を特徴とする請求項１に記載の音声認識装置。
前記キャラクタ表示処理手段は、前記失敗通知音声の出力の際に、前記キャラクタの画像として、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されていること
を特徴とする請求項２に記載の音声認識装置。