JP2009116277A

JP2009116277A - 音声認識装置

Info

Publication number: JP2009116277A
Application number: JP2007292369A
Authority: JP
Inventors: Shinpei Hibiya; 新平日比谷; Akira Baba; 朗馬場
Original assignee: Panasonic Electric Works Co Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 2007-11-09
Filing date: 2007-11-09
Publication date: 2009-05-28

Abstract

【課題】誤認識があったとしても誤認識が繰り返されないように誤認識の発生後における音声認識の精度を確実に向上させる。
【解決手段】マイク部１は、使用者の音声が入力さると音声データを作成する。音声認識処理部４は、特徴量抽出部２で作成された音声データの特徴量と音声データベース３の語彙の特徴量とを照合し、類似度上位の所定個数の語彙を選択する。認識制御部６は、類似度最上位の語彙の類似度が閾値を超えていない場合、所定個数の語彙と類似度順位とを表示部８に表示させる。使用者によって正解通知情報が認識結果入力部５に入力されると、認識制御部６は、類似度最上位の語彙を正しい語彙と判定する。一方、正解通知情報が入力されずに一定時間内に使用者の音声がマイク部１に再入力された場合、類似度最上位の語彙が選択対象外として記憶部７に記憶されて、マイク部１、特徴量抽出部２、音声認識処理部４、認識制御部６が再動作する。
【選択図】図１

Description

本発明は、音声認識装置に関するものである。

従来から、音声認識装置として、音声入力手段（例えばマイクなど）から入力された音声に基づく音声データと装置内部に予め登録されているデータとを照合し、音声認識結果（照合結果）を出力するものが種々提案されている。例えば、特許文献１には、マイクより入力された音声に基づく音声信号と、認識処理部に予め登録されている単語のデジタル信号とを照合し、入力音声の単語を特定する装置が開示されている。特許文献１の装置では、使用者によって、照合して特定された単語と、入力された音声との確認が行われ、照合結果が正しければ、キーボードの「ＲＥＴＵＲＮ」キーで応答し、誤認識の部分があれば、上記キーボードを用いて正しい単語に訂正することができる。
特開平９−９７０９７号公報（段落０００７〜００１４及び図１，２）

しかしながら、従来の音声認識装置では、音声認識結果において誤認識があった場合、使用者によって再度の音声入力が行われても、先の音声認識と同様の動作を行うことから、同じ誤認識が繰り返されてしまい、音声認識の精度を向上させることができないという問題があった。

また、特許文献１の装置では、音声認識結果において誤認識があった場合、キーボードを用いて正しい単語を手入力することができるものの、このようなキーボードへの手入力は使用者にとって手間がかかるという問題があった。

本発明は上記の点に鑑みて為されたものであり、その目的は、誤認識があったとしても誤認識が繰り返されないように誤認識の発生後における音声認識の精度を確実に向上させることができる音声認識装置を提供することにある。

請求項１の発明は、音声認識の対象となる音声が入力される音声入力手段と、前記音声入力手段に入力された音声に基づく音声データの特徴量を抽出する特徴量抽出部と、音声認識が可能な語彙の特徴量が予め登録されている音声データベースと、前記音声データの特徴量と前記音声データベースの前記語彙の特徴量とを照合し、当該音声データとの類似度が高い特徴量に対応する語彙を選択する音声認識処理部と、前記音声認識処理部で選択された語彙が正しい旨を表わす正解通知情報を入力するための手段を有する認識結果入力手段と、前記正解通知情報が所定時間内に入力された場合、前記音声認識処理部で選択された語彙を正しい語彙と判定する一方、前記正解通知情報が前記所定時間内に入力されなかった場合、前記音声認識処理部で選択された語彙を誤った語彙と判定する判定動作を行う判定手段と、前記判定手段で判定された前記誤った語彙を記憶する記憶部と、前記判定手段によって前記音声認識処理部で選択された語彙が誤った語彙と判定された場合、前記音声認識処理部が次の語彙に対応する音声に基づく音声データとの類似度が高い特徴量に対応する語彙を選択するときに前記誤った語彙を選択対象外とする旨の制限命令情報を前記音声認識処理部に出力する一方、前記判定手段によって前記音声認識処理部で選択された語彙が正しい語彙と判定された場合、当該正しい語彙に基づく情報を出力する制御手段とを備えることを特徴とする。

請求項２の発明は、請求項１の発明において、前記判定手段は、前記音声認識処理部で選択された語彙の類似度が予め設定された閾値以上の場合、前記判定動作を行わずに、当該音声認識処理部で選択された語彙を正しい語彙と判定する一方、前記音声認識処理部で選択された語彙の類似度が前記閾値より低い場合、前記判定動作を行うことを特徴とする。

請求項３の発明は、請求項１又は２の発明において、前記記憶部は、前記制御手段によって前記音声認識処理部で選択された語彙が正しい語彙とされた場合、記憶情報を消去することを特徴とする。

請求項４の発明は、請求項１乃至３のいずれか１項の発明において、前記音声認識処理部で選択された語彙と、前記音声認識可能な語彙のうち前記音声データとの類似度が予め設定された一定値以上である語彙の個数とを表示する表示部を備えることを特徴とする。

請求項５の発明は、請求項４の発明において、前記判定手段は、前記音声データとの類似度が高い順から予め設定された個数の語彙を前記表示部に表示させることを特徴とする。

請求項６の発明は、請求項５の発明において、前記認識結果入力手段は、前記正しい語彙を選択するための手段を有し、前記判定手段は、前記音声データとの類似度が予め設定された一定値以上である語彙を前記表示部に表示させた後、前記認識結果入力手段で選択された語彙を前記正しい語彙と判定することを特徴とする。

請求項７の発明は、請求項６の発明において、前記認識結果入力手段は、前記音声データとの類似度が高い語彙から順に割り振られた類似度順位を入力するための手段を有し、前記判定手段は、前記音声データとの類似度が高い順から予め設定された個数の語彙とともに前記類似度順位を前記表示部に表示させた後、前記認識結果入力手段に前記類似度順位が入力された場合、当該類似度順位に対応する語彙を正しい語彙と判定することを特徴とする。

請求項８の発明は、請求項４乃至７のいずれか１項の発明において、前記認識結果入力手段は、前記表示部に表示されている所定個数の語彙の全てが正しい語彙ではない旨を表わす不正解通知情報を入力するための手段を有し、前記判定手段は、前記不正解通知情報が前記所定時間内に入力されたと判断した場合、前記表示部に表示されている所定個数の語彙以外の語彙において前記音声データとの類似度が高い語彙を当該表示部に新たに表示させることを特徴とする。

請求項１の発明によれば、判定手段が正解通知情報を有していない場合、先の音声認識が誤っていたとして、先の音声認識処理部で選択された語彙を選択対象外とすることができるので、誤認識が起こった後における音声認識の精度を特別な操作なく確実に向上させることができる。

請求項２の発明によれば、語彙の類似度が高い場合は、判定動作を省略することによって、正しい語彙を効率よく判定することができる。

請求項３の発明によれば、誤った語彙を選択対象外とした後、認識結果入力手段に正解通知情報が入力された場合、選択対象外の語彙を再び選択対象とすることによって、リセット操作なしで連続して音声認識を行うことができる。

請求項４の発明によれば、音声データとの類似度が一定値以上である語彙の個数を表示部が表示することによって、誤認識の発生後に音声の受信が再度行われた際、再度受信された音声に基づく音声データとの類似度が一定値以上の語彙の個数が減少していく様子を使用者に見せることができるので、使用者は誤認識の程度の確認と、音声認識において語彙の絞り込みが行われていることを実感でき、不満を軽減することができる。

請求項５の発明によれば、音声データとの類似度が高い順から予め設定された個数の語彙を表示部が表示することによって、誤認識した際の正解の語彙の類似度順位を表示することができるので、使用者が音声認識の状況を把握することができ、使用者の不満を軽減することができる。

請求項６の発明によれば、類似度が最も高い語彙ではないものが正しい語彙である場合に、その語彙を選択することによって、正しい語彙を効率よく判定することができる。

請求項７の発明によれば、音声データとの類似度が高い語彙を表示部が表示する際に、類似度順位を併せて表示させ、かつその順位語彙自体も音声認識対象語彙とすることで類似度順位を入力することによっても、入力された類似度順位に対応する語彙を正しい語彙とすることができるので、仮に認識しにくい語彙であったとしても認識精度を向上することができる。

請求項８の発明によれば、不正解通知情報を認識した場合に、表示部に表示されている全ての語彙以外の語彙を表示させることによって、認識候補を絞り込むことができるので、簡便に認識精度を向上することができる。

（実施形態１）
まず、実施形態１の音声認識装置の構成について図１，２を用いて説明する。この音声認識装置は、図１に示すように、音声認識の対象となる音声（例えば使用者の発話など）が入力されるマイク部（音声入力手段）１と、マイク部１に入力された音声に基づく音声データの特徴量を抽出する特徴量抽出部２と、音声認識が可能な語彙の特徴量が予め登録されている音声データベース３と、音声データベース３の語彙の中から音声データとの類似度が高い特徴量に対応する語彙を選択する音声認識処理部４と、音声認識処理部４で選択された語彙の正否に関する情報を使用者が入力するための認識結果入力部５と、音声認識処理部４で選択された語彙の正否を判定する手段（判定手段）である認識制御部６と、所定内容を記憶する記憶部７と、認識制御部６の制御によって所定事項を表示する表示部８とを備えている。

マイク部１は、音声認識の対象となる音声が入力されると、入力された音声に基づく音声データを作成し、特徴量抽出部２に出力する。

特徴量抽出部２は、マイク部１から音声データが入力されると、入力された音声データから複数の周波数帯域ごとの周波数成分を算出し、算出した複数の周波数成分から特徴量を抽出する。抽出された複数の特徴量は、特徴量抽出部２から音声認識処理部４に出力される。また、音声データが入力されたときに、音声データが入力された旨の音声入力情報が特徴量抽出部２から認識制御部６に出力される。

ところで、特徴量抽出部２は、２回目以降に音声データの特徴量が入力された場合、入力された音声データの特徴量と音声データベース３の各語彙の特徴量とを照合する前に、今回入力された音声データの特徴量と前回入力された音声データの特徴量とを照合し、今回入力された音声データの特徴量と前回入力された音声データの特徴量との類似性について判断する。具体的には、特徴量抽出部２は、今回入力された音声データの特徴量と前回入力された音声データの特徴量との間のユークリッド距離を算出し、上記ユークリッド距離が予め設定された閾値以下の場合、今回と前回の音声データの特徴量は類似性が高く、同一の音声データとみなす一方、上記ユークリッド距離が上記閾値より大きい場合、今回と前回の音声データの特徴量は類似性が低く、異なるものと判断する。今回入力された音声データの特徴量が前回入力された音声データの特徴量と同一とみなされた場合、前回と同じ音声データが入力された旨の音声入力情報を認識制御部６に出力する。

音声データベース３には、図２に示す音声認識が可能な語彙ごとに、特徴量抽出部２による特徴量抽出と同様の方法で各語彙のデータにおける複数の周波数帯域ごとの周波数成分から予め抽出された特徴量が記憶されている。

音声認識処理部４は、特徴量抽出部２から入力された音声データの特徴量と音声データベース３の各語彙の特徴量とを照合する。具体的には、音声データベース３に記憶されている各語彙ごとに、音声データの特徴量と各語彙の特徴量との間のユークリッド距離を算出する。音声データとのユークリッド距離が小さい語彙ほど音声データとの類似度が高い語彙となるため、音声認識処理部４は、各語彙に対してユークリッド距離が小さい順、つまり音声データとの類似度が高い順に類似度順位をつける。類似度順位をつけた語彙の中から、音声認識処理部４は、音声データとの類似度が高い特徴量に対応する所定個数の語彙を選択し、これらの語彙をそれぞれ類似度順位とともに、認識制御部６に出力する。また、音声認識処理部４は、音声データとの類似度が一定値以上の語彙の個数も認識制御部６に出力する。

認識結果入力部５は、例えばボタンやテンキー、タッチパネルなどであり、音声認識処理部４で選択された語彙が正しい旨を表わす正解通知情報、及び表示部８に表示されている所定個数の語彙の全てが正しい語彙ではない旨を表わす不正解通知情報が前記使用者によって入力され、及び音声認識処理部４で選択された語彙の全てが正しくない旨を表わす不正解通知情報が使用者によって入力される。つまり、後述の表示部８に表示され音声データとの類似度が最も高い語彙が正しい語彙である場合、認識結果入力部５に正解通知情報が使用者によって入力され、認識結果入力部５は正解通知情報が入力されると、入力された正解通知情報を認識制御部６に出力する。また、認識結果処理部４は、音声データとの類似度が高い語彙から順に割り振られた類似度順位が使用者によって入力される。

一方、後述の表示部８に表示され音声データとの類似度が高い語彙の全てが正しくない場合、認識結果入力部５に不正解通知情報が使用者によって入力され、認識結果入力部５は不正解通知情報を認識制御部６に出力する。

認識制御部６は、音声認識処理部４から音声データとの類似度が高い所定個数の語彙や各語彙の類似度順位、音声データとの類似度が一定値以上の語彙の個数に関する情報が入力されると、音声データとの類似度が最も高い語彙の類似度が予め設定された閾値以上であるか否かを判定し、上記語彙の類似度が閾値以上である場合、この語彙（音声データとの類似度が最も高い語彙）を正しい語彙と判定し、判定した正しい語彙に基づく情報を出力する。

なお、出力先としては、例えば音声入力によってオンオフが制御される機器の入力部がある。この場合、正しい語彙（例えば「オン」や「オフ」など）に基づく情報が機器に出力されることによって、機器はオンオフ動作を行う。

また、出力先の他の例としては、料理メニュー表示装置がある。この場合、正しい語彙（食材名）に基づく情報が料理メニュー表示装置に出力されることによって、その食材名に関する料理レシピが表示される。

これに対して、音声データとの類似度が最も高い語彙の類似度が閾値未満である場合、認識制御部６は、音声認識処理部４で選択され音声データとの類似度が高い順から所定個数の語彙と、各語彙の類似度順位と、音声認識可能な語彙のうち音声データとの類似度が一定値以上の語彙の個数とを表示部８に表示させる。所定個数の語彙などを表示部８に表示させた認識制御部６は、表示部８の表示内容を見た使用者によって認識結果入力部５に正解通知情報が入力操作された場合（正解通知情報を入力するために設けられたボタンやテンキー、タッチパネルに操作された場合）、音声認識処理部４で選択された語彙のうち音声データとの類似度が最も高い語彙を正しい語彙と判定し、判定した正しい語彙に基づく情報を出力する。出力先としては、音声入力によってオンオフ制御される機器や料理メニュー表示装置などがある。

また、認識制御部６は、音声データとの類似度が高い順から予め設定された個数の語彙とともに類似度順位を表示部８に表示させた後、認識結果入力部５に類似度順位が使用者によって入力された場合、当該類似度順位に対応する語彙を正しい語彙と判定することを特徴とする。

一方、使用者によって認識結果入力部５に正解通知情報が入力されず、さらに一定時間内に特徴量抽出部２から前回と同じ音声データが入力された旨の音声入力情報が入力された場合、つまり、マイク部１が前回と同じ音声を再度受信し音声データを作成し特徴量抽出部２が音声データの特徴量を抽出した場合、認識制御部６は、音声認識処理部４で選択された語彙のうち音声データとの類似度が最も高い語彙を誤った語彙と判定する。音声認識処理部４で選択された語彙のうち音声データとの類似度が最も高い語彙が誤った語彙と判定した認識制御部６は、誤った語彙を選択対象外（認識対象外）とする旨の制限命令情報を音声認識処理部４に出力する（制御手段）。

音声認識処理部４は、認識制御部６から制限命令情報が入力されると、認識制御部６で判定された誤った語彙を記憶部７に記憶させ、誤った語彙を選択対象外として、新たに入力された音声に対する音声データの特徴量と音声データベース３の語彙の特徴量とを照合し、音声データとの類似度が高い順から所定個数の語彙と、各語彙に対応する類似度順位と、音声データとの類似度が一定値以上の語彙の個数とを認識制御部６に出力する。

記憶部７は、認識制御部６によって音声認識処理部４で選択された語彙が正しい語彙と判定された場合、記憶情報（誤った語彙）を消去する。

また、認識制御部６は、認識結果入力部５に不正解通知情報が入力された場合、表示部８に表示されている所定個数の語彙以外の語彙において音声データとの類似度が高い語彙を当該表示部８に新たに表示させる。

次に、本実施形態の音声認識装置の動作について図３を用いて説明する。まず、使用者が発話すると、使用者の音声がマイク部１に入力され、マイク部１は音声データを作成する（Ｓ１）。その後、特徴量抽出部２は音声データの特徴量を抽出して特徴量データを作成する（Ｓ２）。音声認識処理部４は、特徴量抽出部２からの音声データの特徴量と音声データベース３の語彙の特徴量とを照合し、認識結果として音声データとの類似度が高い順から所定個数の語彙と、各語彙に対応する類似度順位とを選択し、認識制御部６に出力する（Ｓ３）。

認識制御部６は、類似度最上位の認識結果（音声データとの類似度が最も高い語彙）の類似度が閾値を超えているか否かを判定し、閾値を超えている場合は後述のステップＳ７へ遷移する（Ｓ４）。一方、閾値を超えていない場合、認識制御部６は、音声認識処理部４の認識結果（所定個数の語彙）と各語彙に対応する類似度順位とを表示部８に表示させる（Ｓ５）。使用者によって類似度最上位の語彙が正しい語彙と判断された場合、正解通知情報が認識結果入力部５に入力される（Ｓ６）。認識制御部６は類似度最上位の認識結果を最終の認識結果として外部へ出力する（Ｓ７）。認識対象外とされた語彙の有無を確認し（Ｓ８）、認識対象外とされた語彙があった場合は認識対象外とされた語彙を再度認識対象とし（Ｓ９）、動作フローが終了する。

一方、使用者による正解通知情報の入力がなく、不正解通知情報の入力があった場合（Ｓ１０）、認識制御部６は、表示部８に表示されている全ての認識結果の語彙を選択対象外とし（Ｓ１１）、その他の類似度上位の認識結果を表示部８に表示させて（Ｓ１２）、ステップＳ６以降の動作を行う。不正解通知情報の入力がなかった場合、一定時間内に使用者が発話したか否かを判定し、使用者が発話しなかった場合はスタートに戻る（Ｓ１３）。これに対して、一定時間内に使用者が前回と同じ言葉を再度発話した場合、マイク部１は再度、使用者の音声の音声データを生成し（Ｓ１３）、認識制御部６は、表示部８に表示された類似度最上位の認識結果語彙を選択対象外とする（Ｓ１４）。その後、ステップＳ２以降の動作を行う。

次に、本実施形態の音声認識装置の使用例について図４〜６を用いて説明する。図４〜６は、図３の典型例に対応する表示部８の表示画面遷移例を示している。典型例として、誤認識が起こらなかった場合（第１のケース）、誤認識が起こり、かつ類似度上位の語彙に正解語彙が含まれていて、同じ言葉を再発話した場合（第２のケース）、誤認識が起こり、かつ類似度上位の語彙に正解語彙が含まれていないため、不正解通知情報が入力された場合（第３のケース）の３つのケースを挙げる。

ここでは、アプリケーション例としてレシピ検索アプリケーションを取り上げる。使用者は音声で食材名を入力すると、その食材が使われる料理のレシピを閲覧することができるとする。今回、表示部８に表示される類似度上位の語彙数は５個とする。２０個の食材名と順位を表わす語彙（「１位」〜「５位」）を認識対象語彙とする（表１）。本使用例ではユーザの目的はエンドウ豆を使う料理のレシピを閲覧することとする。

まず、図４を用いて、第１のケースでの表示画面遷移例について説明する。第１のケースは図３の「ｓｔａｒｔ→Ｓ１→Ｓ２→Ｓ３→Ｓ４→Ｓ５→Ｓ６→Ｓ７→Ｓ８→ｅｎｄ」の順に遷移した場合の例である。Ｎｏ．１の画面は音声入力待ちうけの画面である。使用者が「エンドウ豆」と発話すると、類似度上位の結果とその順位を表示する画面（Ｎｏ．２）へ遷移する。Ｎｏ．２の画面には、類似度がある一定値以上の認識結果語彙数（認識候補語彙数）も表示されている。類似度最上位が正解語彙であるため、使用者が正解通知情報を入力すると、類似度最上位の「エンドウ豆」を使う料理レシピが表示される画面（Ｎｏ．３）へ遷移する。

続いて、図５を用いて、第２のケースでの表示画面遷移例について説明する。第２のケースは図３の「ｓｔａｒｔ→Ｓ１→Ｓ２→Ｓ３→Ｓ４→Ｓ５→Ｓ６→Ｓ１０→Ｓ１１→Ｓ１３→Ｓ１４→Ｓ２→Ｓ３→Ｓ４→Ｓ５→Ｓ６→Ｓ７→Ｓ８→Ｓ９→ｅｎｄ」の順に遷移した場合の例である。Ｎｏ．１の画面は音声入力待ちうけの画面である。使用者が「エンドウ豆」と発話すると、類似度上位の結果とその順位を表示する画面（Ｎｏ．２）へ遷移する。Ｎｏ．２の画面には、認識候補語彙数も表示されている。誤認識しているため、使用者が再度「エンドウ豆」と同じ言葉を発話すると、Ｎｏ．２の画面で類似度最上位の「エンダイブ」を認識対象外とした上で認識を行った結果とその順位が表示される画面（Ｎｏ．３）に遷移する。この際、「エンタイブ」が認識対象外となっているため、認識候補語彙数が減少している（１２個→１１個）。類似度最上位が正解語彙であるため、使用者が正解通知情報を入力すると、類似度最上位の「エンドウ豆」を使う料理レシピが表示される画面（Ｎｏ．４）へ遷移する。

続いて、図６を用いて、第３のケースでの表示面面遷移例について説明する。第３のケースは囲３の「ｓｔａｒｔ→Ｓ１→Ｓ２→Ｓ３→Ｓ４→Ｓ５→Ｓ６→Ｓ１０→Ｓ１１→Ｓ１２→Ｓ６→Ｓ７→Ｓ８→Ｓ９→ｅｎｄ」の順に遷移した場合の例である。Ｎｏ．１の画面は音声入力待ちうけの画面である。使用者が「エンドウ豆」と発話すると、類似度上位の結果とその順位を表示する画面（Ｎｏ．２）へ遷移する。Ｎｏ．２の画面には、認識候補語彙数も表示されている。誤認識し、類似度５位までに「エンドウ豆」が選択されていない。このため、使用者が不正解通知情報を入力すると、Ｎｏ．２の画面に表示された語彙を認識対象外とした上で認識を行った結果とその順位が表示される画面（Ｎｏ．３）に遷移する。この際、Ｎｏ．２の画面に表示された５つの語彙が認識対象外となっているため、認識候補語彙数が減少している（１２個→７個）。類似度最上位が正解語彙であるため、使用者が正解通知情報を入力すると、類似度最上位の「エンドウ豆」を使う料理レシピが表示される画面（Ｎｏ．４）へ遷移する。

以上、本実施形態によれば、認識制御部６が正解通知情報を有していない場合、先の音声認識が誤っていたとして、先の音声認識処理部４で選択された語彙を選択対象外とすることができるので、誤認識が起こった後における音声認識の精度を特別な操作なく確実に向上させることができる。

また、誤った語彙を選択対象外とした後、認識結果入力部５に正解通知情報が入力された場合、選択対象外の語彙を再び選択対象とすることによって、リセット操作なしで連続して音声認識を行うことができる。

音声データとの類似度が一定値以上である語彙の個数を表示部８が表示することによって、誤認識の発生後に音声の受信が再度行われた際、再度受信された音声に基づく音声データとの類似度が一定値以上の語彙の個数が減少していく様子を使用者に見せることができるので、使用者は誤認識の程度の確認と、音声認識において語彙の絞り込みが行われていることを実感でき、不満を軽減することができる。

音声データとの類似度が高い順から予め設定された個数の語彙を表示部８が表示することによって、誤認識した際の正解の語彙の類似度順位を表示することができるので、使用者が音声認識の状況を把握することができ、使用者の不満を軽減することができる。

音声データとの類似度が高い語彙を表示部８が表示する際に、類似度順位を併せて表示させ、かつその順位語彙自体も音声認識対象語彙とすることで類似度順位を入力することによっても、入力された類似度順位に対応する語彙を正しい語彙とすることができるので、仮に認識しにくい語彙であったとしても認識精度を向上することができる。

不正解通知情報を認識した場合に、表示部８に表示されている全ての語彙以外の語彙を表示させることによって、認識候補を絞り込むことができるので、簡便に認識精度を向上することができる。

（実施形態２）
実施形態２の音声認識装置は、図７に示すように、マイク部１と、特徴量抽出部２と、音声認識処理部４と、認識制御部６と、記憶部７と、表示部８とを、実施形態１の音声認識装置（図１参照）と同様に備えているが、マイク部１が実施形態１の認識結果入力部５（図１参照）の機能も有する点で、実施形態１の音声認識装置と相違している。

本実施形態のマイク部１は、表示部８の表示内容を見た使用者が正解通知情報として「正解」（正解通知語彙）と発話すると、正解通知語彙の音声データを作成する。また、使用者が不正解通知情報として「ここにはない」（不正解通知語彙）と発話すると、マイク部１は不正解通知語彙の音声データを作成する。

本実施形態の音声データベース３ａには、図２（ｂ）に示すように、正解通知語彙及び不正解通知語彙の特徴量も格納されている。

本実施形態の音声認識処理部４は、マイク部１から特徴量抽出部２を介して入力された正解通知語彙の音声データの特徴量と音声データベース３ａの語彙の特徴量とを照合し、正解通知語彙を選択する。また、音声認識処理部４は、マイク部１から特徴量抽出部２を介して入力された不正解通知語彙の音声データの特徴量と音声データベース３ａの語彙の特徴量とを照合し、不正解通知語彙を選択する。

本実施形態の認識制御部６は、所定個数の語彙や各語彙の類似度順位、音声データとの類似度が一定値以上の語彙の個数を表示部８に表示させた後、音声認識処理部４から正解通知情報として正解通知語彙が入力された場合、音声認識処理部４で選択された語彙のうち音声データとの類似度が最も高い語彙を正しい語彙と判定し、判定した正しい語彙に基づく情報を出力する。出力先としては、音声入力によってオンオフ制御される機器や料理メニュー表示装置などがある。

また、認識制御部６は、音声認識処理部４から不正解通知情報として不正解通知語彙が入力された場合、表示部８に表示されている所定個数の語彙以外の語彙において音声データとの類似度が高い語彙を当該表示部８に新たに表示させる。

なお、正解通知情報及び不正解通知情報を認識結果入力部５から入力するのではなく、マイク部１から入力すれば、本実施形態の音声認識装置の動作は実施形態１の音声認識装置と同様であり、本実施形態の音声認識装置においても、実施形態１の音声認識装置の使用例と同様の使用をすることができる。

以上、本実施形態によれば、マイク部１から正確通知情報及び不正確通知情報を音声で入力することができるので、認識結果入力手段としてボタンやテンキーなどを備える必要がなく、コストを低下させることができる。また、使用者にとっても、ボタン操作ではなく音声で入力することができるので、判定結果の正否を簡単に行うことができる。

なお、正解通知情報と不正解通知情報の両方が、実施形態１では認識結果入力部５から入力され、実施形態２ではマイク部１から入力されているが、上記に限定されず、正解通知情報と不正解通知情報の何れか一方が認識結果入力部５から入力され、他方がマイク部１から入力されるものであってもよい。

なお、実施形態１，２の変形例として、認識制御部６は、認識結果入力部５からの正解通知情報の入力操作があった場合（実施形態１）やマイク部１で正解通知情報としての「正解」が入力された場合（実施形態２）の場合に代えて、使用者による入力操作や音声入力が所定時間内（例えば５秒以内）になかった場合に、正解通知情報の入力と判断してもよい。この場合、認識制御部６は、使用者による入力操作や音声入力が所定時間内になかったときに、正解通知情報を有することとなる。

ただし、例えば使用者の留守中に発生した物音などがマイク部１から入力されると、音声認識処理部４が、誤動作として、上記物音に関する音声データとの類似度が高い特徴量に対応する所定個数の語彙を選択する場合がある。このとき、使用者による入力操作や音声入力が所定時間内になかったときに正解通知情報の入力と判断する場合では、認識制御部６は、音声認識処理部４で選択された語彙が正しい語彙と判定してしまい、設備などのオンオフ制御や料理メニュー表示が勝手にされてしまう可能性がある。したがって、正解通知情報の入力は、入力操作や音声入力などのように、使用者の能動的な動作で判定したほうが、設備のオンオフ制御や料理メニュー表示が勝手にされるおそれがない。

一方、実施形態１，２の他の変形例として、認識制御部６は、認識結果入力部５からの不正解通知情報の入力操作があった場合（実施形態１）やマイク部１で不正解通知情報としての「ここにはない」が入力された場合（実施形態２）の場合に代えて、使用者による入力操作や音声入力が所定時間内（例えば５秒以内）になかった場合に、不正解通知情報の入力と判断してもよい。この場合、認識制御部６は、使用者による入力操作や音声入力が所定時間内になかったときに、不正解通知情報を有することとなる。なお、正解通知情報の入力と判断するのは、使用者による入力操作や音声入力があったときのみとする。

実施形態１の音声認識装置の構成を示すブロック図である。実施形態１，２の音声認識装置における認識対象語彙を示す図である。同上の音声認識装置の動作を示すフローチャートである。同上の音声認識装置において誤認識が起こらない場合の表示を説明する図である。同上の音声認識装置において誤認識が起こり再発話された場合の表示を説明する図である。同上の音声認識装置において誤認識が起こり不正解通知語彙が発話された場合の表示を説明する図である。実施形態２の音声認識装置の構成を示すブロック図である。

符号の説明

１マイク部
２特徴量抽出部
３，３ａ音声データベース
４音声認識処理部
５認識結果入力部
６認識制御部
７記憶部
８表示部

Claims

音声認識の対象となる音声が入力される音声入力手段と、
前記音声入力手段に入力された音声に基づく音声データの特徴量を抽出する特徴量抽出部と、
音声認識が可能な語彙の特徴量が予め登録されている音声データベースと、
前記音声データの特徴量と前記音声データベースの前記語彙の特徴量とを照合し、当該音声データとの類似度が高い特徴量に対応する語彙を選択する音声認識処理部と、
前記音声認識処理部で選択された語彙が正しい旨を表わす正解通知情報を入力するための手段を有する認識結果入力手段と、
前記正解通知情報が所定時間内に入力された場合、前記音声認識処理部で選択された語彙を正しい語彙と判定する一方、前記正解通知情報が前記所定時間内に入力されなかった場合、前記音声認識処理部で選択された語彙を誤った語彙と判定する判定動作を行う判定手段と、
前記判定手段で判定された前記誤った語彙を記憶する記憶部と、
前記判定手段によって前記音声認識処理部で選択された語彙が誤った語彙と判定された場合、前記音声認識処理部が次の語彙に対応する音声に基づく音声データとの類似度が高い特徴量に対応する語彙を選択するときに前記誤った語彙を選択対象外とする旨の制限命令情報を前記音声認識処理部に出力する一方、前記判定手段によって前記音声認識処理部で選択された語彙が正しい語彙と判定された場合、当該正しい語彙に基づく情報を出力する制御手段と
を備えることを特徴とする音声認識装置。
前記判定手段は、前記音声認識処理部で選択された語彙の類似度が予め設定された閾値以上の場合、前記判定動作を行わずに、当該音声認識処理部で選択された語彙を正しい語彙と判定する一方、前記音声認識処理部で選択された語彙の類似度が前記閾値より低い場合、前記判定動作を行うことを特徴とする請求項１記載の音声認識装置。
前記記憶部は、前記制御手段によって前記音声認識処理部で選択された語彙が正しい語彙とされた場合、記憶情報を消去することを特徴とする請求項１又は２記載の音声認識装置。
前記音声認識処理部で選択された語彙と、前記音声認識可能な語彙のうち前記音声データとの類似度が予め設定された一定値以上である語彙の個数とを表示する表示部を備えることを特徴とする請求項１乃至３のいずれか１項に記載の音声認識装置。
前記判定手段は、前記音声データとの類似度が高い順から予め設定された個数の語彙を前記表示部に表示させることを特徴とする請求項４記載の音声認識装置。
前記認識結果入力手段は、前記正しい語彙を選択するための手段を有し、
前記判定手段は、前記音声データとの類似度が予め設定された一定値以上である語彙を前記表示部に表示させた後、前記認識結果入力手段で選択された語彙を前記正しい語彙と判定する
ことを特徴とする請求項５記載の音声認識装置。
前記認識結果入力手段は、前記音声データとの類似度が高い語彙から順に割り振られた類似度順位を入力するための手段を有し、
前記判定手段は、前記音声データとの類似度が高い順から予め設定された個数の語彙とともに前記類似度順位を前記表示部に表示させた後、前記認識結果入力手段に前記類似度順位が入力された場合、当該類似度順位に対応する語彙を正しい語彙と判定する
ことを特徴とする請求項６記載の音声認識装置。
前記認識結果入力手段は、前記表示部に表示されている所定個数の語彙の全てが正しい語彙ではない旨を表わす不正解通知情報を入力するための手段を有し、
前記判定手段は、前記不正解通知情報が前記所定時間内に入力されたと判断した場合、前記表示部に表示されている所定個数の語彙以外の語彙において前記音声データとの類似度が高い語彙を当該表示部に新たに表示させる
ことを特徴とする請求項４乃至７のいずれか１項に記載の音声認識装置。