JP2009116277A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2009116277A
JP2009116277A JP2007292369A JP2007292369A JP2009116277A JP 2009116277 A JP2009116277 A JP 2009116277A JP 2007292369 A JP2007292369 A JP 2007292369A JP 2007292369 A JP2007292369 A JP 2007292369A JP 2009116277 A JP2009116277 A JP 2009116277A
Authority
JP
Japan
Prior art keywords
vocabulary
speech
similarity
correct
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007292369A
Other languages
English (en)
Inventor
Shinpei Hibiya
新平 日比谷
Akira Baba
朗 馬場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Panasonic Electric Works Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Electric Works Co Ltd filed Critical Panasonic Electric Works Co Ltd
Priority to JP2007292369A priority Critical patent/JP2009116277A/ja
Publication of JP2009116277A publication Critical patent/JP2009116277A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】誤認識があったとしても誤認識が繰り返されないように誤認識の発生後における音声認識の精度を確実に向上させる。
【解決手段】マイク部1は、使用者の音声が入力さると音声データを作成する。音声認識処理部4は、特徴量抽出部2で作成された音声データの特徴量と音声データベース3の語彙の特徴量とを照合し、類似度上位の所定個数の語彙を選択する。認識制御部6は、類似度最上位の語彙の類似度が閾値を超えていない場合、所定個数の語彙と類似度順位とを表示部8に表示させる。使用者によって正解通知情報が認識結果入力部5に入力されると、認識制御部6は、類似度最上位の語彙を正しい語彙と判定する。一方、正解通知情報が入力されずに一定時間内に使用者の音声がマイク部1に再入力された場合、類似度最上位の語彙が選択対象外として記憶部7に記憶されて、マイク部1、特徴量抽出部2、音声認識処理部4、認識制御部6が再動作する。
【選択図】図1

Description

本発明は、音声認識装置に関するものである。
従来から、音声認識装置として、音声入力手段(例えばマイクなど)から入力された音声に基づく音声データと装置内部に予め登録されているデータとを照合し、音声認識結果(照合結果)を出力するものが種々提案されている。例えば、特許文献1には、マイクより入力された音声に基づく音声信号と、認識処理部に予め登録されている単語のデジタル信号とを照合し、入力音声の単語を特定する装置が開示されている。特許文献1の装置では、使用者によって、照合して特定された単語と、入力された音声との確認が行われ、照合結果が正しければ、キーボードの「RETURN」キーで応答し、誤認識の部分があれば、上記キーボードを用いて正しい単語に訂正することができる。
特開平9−97097号公報(段落0007〜0014及び図1,2)
しかしながら、従来の音声認識装置では、音声認識結果において誤認識があった場合、使用者によって再度の音声入力が行われても、先の音声認識と同様の動作を行うことから、同じ誤認識が繰り返されてしまい、音声認識の精度を向上させることができないという問題があった。
また、特許文献1の装置では、音声認識結果において誤認識があった場合、キーボードを用いて正しい単語を手入力することができるものの、このようなキーボードへの手入力は使用者にとって手間がかかるという問題があった。
本発明は上記の点に鑑みて為されたものであり、その目的は、誤認識があったとしても誤認識が繰り返されないように誤認識の発生後における音声認識の精度を確実に向上させることができる音声認識装置を提供することにある。
請求項1の発明は、音声認識の対象となる音声が入力される音声入力手段と、前記音声入力手段に入力された音声に基づく音声データの特徴量を抽出する特徴量抽出部と、音声認識が可能な語彙の特徴量が予め登録されている音声データベースと、前記音声データの特徴量と前記音声データベースの前記語彙の特徴量とを照合し、当該音声データとの類似度が高い特徴量に対応する語彙を選択する音声認識処理部と、前記音声認識処理部で選択された語彙が正しい旨を表わす正解通知情報を入力するための手段を有する認識結果入力手段と、前記正解通知情報が所定時間内に入力された場合、前記音声認識処理部で選択された語彙を正しい語彙と判定する一方、前記正解通知情報が前記所定時間内に入力されなかった場合、前記音声認識処理部で選択された語彙を誤った語彙と判定する判定動作を行う判定手段と、前記判定手段で判定された前記誤った語彙を記憶する記憶部と、前記判定手段によって前記音声認識処理部で選択された語彙が誤った語彙と判定された場合、前記音声認識処理部が次の語彙に対応する音声に基づく音声データとの類似度が高い特徴量に対応する語彙を選択するときに前記誤った語彙を選択対象外とする旨の制限命令情報を前記音声認識処理部に出力する一方、前記判定手段によって前記音声認識処理部で選択された語彙が正しい語彙と判定された場合、当該正しい語彙に基づく情報を出力する制御手段とを備えることを特徴とする。
請求項2の発明は、請求項1の発明において、前記判定手段は、前記音声認識処理部で選択された語彙の類似度が予め設定された閾値以上の場合、前記判定動作を行わずに、当該音声認識処理部で選択された語彙を正しい語彙と判定する一方、前記音声認識処理部で選択された語彙の類似度が前記閾値より低い場合、前記判定動作を行うことを特徴とする。
請求項3の発明は、請求項1又は2の発明において、 前記記憶部は、前記制御手段によって前記音声認識処理部で選択された語彙が正しい語彙とされた場合、記憶情報を消去することを特徴とする。
請求項4の発明は、請求項1乃至3のいずれか1項の発明において、前記音声認識処理部で選択された語彙と、前記音声認識可能な語彙のうち前記音声データとの類似度が予め設定された一定値以上である語彙の個数とを表示する表示部を備えることを特徴とする。
請求項5の発明は、請求項4の発明において、前記判定手段は、前記音声データとの類似度が高い順から予め設定された個数の語彙を前記表示部に表示させることを特徴とする。
請求項6の発明は、請求項5の発明において、前記認識結果入力手段は、前記正しい語彙を選択するための手段を有し、前記判定手段は、前記音声データとの類似度が予め設定された一定値以上である語彙を前記表示部に表示させた後、前記認識結果入力手段で選択された語彙を前記正しい語彙と判定することを特徴とする。
請求項7の発明は、請求項6の発明において、前記認識結果入力手段は、前記音声データとの類似度が高い語彙から順に割り振られた類似度順位を入力するための手段を有し、前記判定手段は、前記音声データとの類似度が高い順から予め設定された個数の語彙とともに前記類似度順位を前記表示部に表示させた後、前記認識結果入力手段に前記類似度順位が入力された場合、当該類似度順位に対応する語彙を正しい語彙と判定することを特徴とする。
請求項8の発明は、請求項4乃至7のいずれか1項の発明において、前記認識結果入力手段は、前記表示部に表示されている所定個数の語彙の全てが正しい語彙ではない旨を表わす不正解通知情報を入力するための手段を有し、前記判定手段は、前記不正解通知情報が前記所定時間内に入力されたと判断した場合、前記表示部に表示されている所定個数の語彙以外の語彙において前記音声データとの類似度が高い語彙を当該表示部に新たに表示させることを特徴とする。
請求項1の発明によれば、判定手段が正解通知情報を有していない場合、先の音声認識が誤っていたとして、先の音声認識処理部で選択された語彙を選択対象外とすることができるので、誤認識が起こった後における音声認識の精度を特別な操作なく確実に向上させることができる。
請求項2の発明によれば、語彙の類似度が高い場合は、判定動作を省略することによって、正しい語彙を効率よく判定することができる。
請求項3の発明によれば、誤った語彙を選択対象外とした後、認識結果入力手段に正解通知情報が入力された場合、選択対象外の語彙を再び選択対象とすることによって、リセット操作なしで連続して音声認識を行うことができる。
請求項4の発明によれば、音声データとの類似度が一定値以上である語彙の個数を表示部が表示することによって、誤認識の発生後に音声の受信が再度行われた際、再度受信された音声に基づく音声データとの類似度が一定値以上の語彙の個数が減少していく様子を使用者に見せることができるので、使用者は誤認識の程度の確認と、音声認識において語彙の絞り込みが行われていることを実感でき、不満を軽減することができる。
請求項5の発明によれば、音声データとの類似度が高い順から予め設定された個数の語彙を表示部が表示することによって、誤認識した際の正解の語彙の類似度順位を表示することができるので、使用者が音声認識の状況を把握することができ、使用者の不満を軽減することができる。
請求項6の発明によれば、類似度が最も高い語彙ではないものが正しい語彙である場合に、その語彙を選択することによって、正しい語彙を効率よく判定することができる。
請求項7の発明によれば、音声データとの類似度が高い語彙を表示部が表示する際に、類似度順位を併せて表示させ、かつその順位語彙自体も音声認識対象語彙とすることで類似度順位を入力することによっても、入力された類似度順位に対応する語彙を正しい語彙とすることができるので、仮に認識しにくい語彙であったとしても認識精度を向上することができる。
請求項8の発明によれば、不正解通知情報を認識した場合に、表示部に表示されている全ての語彙以外の語彙を表示させることによって、認識候補を絞り込むことができるので、簡便に認識精度を向上することができる。
(実施形態1)
まず、実施形態1の音声認識装置の構成について図1,2を用いて説明する。この音声認識装置は、図1に示すように、音声認識の対象となる音声(例えば使用者の発話など)が入力されるマイク部(音声入力手段)1と、マイク部1に入力された音声に基づく音声データの特徴量を抽出する特徴量抽出部2と、音声認識が可能な語彙の特徴量が予め登録されている音声データベース3と、音声データベース3の語彙の中から音声データとの類似度が高い特徴量に対応する語彙を選択する音声認識処理部4と、音声認識処理部4で選択された語彙の正否に関する情報を使用者が入力するための認識結果入力部5と、音声認識処理部4で選択された語彙の正否を判定する手段(判定手段)である認識制御部6と、所定内容を記憶する記憶部7と、認識制御部6の制御によって所定事項を表示する表示部8とを備えている。
マイク部1は、音声認識の対象となる音声が入力されると、入力された音声に基づく音声データを作成し、特徴量抽出部2に出力する。
特徴量抽出部2は、マイク部1から音声データが入力されると、入力された音声データから複数の周波数帯域ごとの周波数成分を算出し、算出した複数の周波数成分から特徴量を抽出する。抽出された複数の特徴量は、特徴量抽出部2から音声認識処理部4に出力される。また、音声データが入力されたときに、音声データが入力された旨の音声入力情報が特徴量抽出部2から認識制御部6に出力される。
ところで、特徴量抽出部2は、2回目以降に音声データの特徴量が入力された場合、入力された音声データの特徴量と音声データベース3の各語彙の特徴量とを照合する前に、今回入力された音声データの特徴量と前回入力された音声データの特徴量とを照合し、今回入力された音声データの特徴量と前回入力された音声データの特徴量との類似性について判断する。具体的には、特徴量抽出部2は、今回入力された音声データの特徴量と前回入力された音声データの特徴量との間のユークリッド距離を算出し、上記ユークリッド距離が予め設定された閾値以下の場合、今回と前回の音声データの特徴量は類似性が高く、同一の音声データとみなす一方、上記ユークリッド距離が上記閾値より大きい場合、今回と前回の音声データの特徴量は類似性が低く、異なるものと判断する。今回入力された音声データの特徴量が前回入力された音声データの特徴量と同一とみなされた場合、前回と同じ音声データが入力された旨の音声入力情報を認識制御部6に出力する。
音声データベース3には、図2に示す音声認識が可能な語彙ごとに、特徴量抽出部2による特徴量抽出と同様の方法で各語彙のデータにおける複数の周波数帯域ごとの周波数成分から予め抽出された特徴量が記憶されている。
音声認識処理部4は、特徴量抽出部2から入力された音声データの特徴量と音声データベース3の各語彙の特徴量とを照合する。具体的には、音声データベース3に記憶されている各語彙ごとに、音声データの特徴量と各語彙の特徴量との間のユークリッド距離を算出する。音声データとのユークリッド距離が小さい語彙ほど音声データとの類似度が高い語彙となるため、音声認識処理部4は、各語彙に対してユークリッド距離が小さい順、つまり音声データとの類似度が高い順に類似度順位をつける。類似度順位をつけた語彙の中から、音声認識処理部4は、音声データとの類似度が高い特徴量に対応する所定個数の語彙を選択し、これらの語彙をそれぞれ類似度順位とともに、認識制御部6に出力する。また、音声認識処理部4は、音声データとの類似度が一定値以上の語彙の個数も認識制御部6に出力する。
認識結果入力部5は、例えばボタンやテンキー、タッチパネルなどであり、音声認識処理部4で選択された語彙が正しい旨を表わす正解通知情報、及び表示部8に表示されている所定個数の語彙の全てが正しい語彙ではない旨を表わす不正解通知情報が前記使用者によって入力され、及び音声認識処理部4で選択された語彙の全てが正しくない旨を表わす不正解通知情報が使用者によって入力される。つまり、後述の表示部8に表示され音声データとの類似度が最も高い語彙が正しい語彙である場合、認識結果入力部5に正解通知情報が使用者によって入力され、認識結果入力部5は正解通知情報が入力されると、入力された正解通知情報を認識制御部6に出力する。また、認識結果処理部4は、音声データとの類似度が高い語彙から順に割り振られた類似度順位が使用者によって入力される。
一方、後述の表示部8に表示され音声データとの類似度が高い語彙の全てが正しくない場合、認識結果入力部5に不正解通知情報が使用者によって入力され、認識結果入力部5は不正解通知情報を認識制御部6に出力する。
認識制御部6は、音声認識処理部4から音声データとの類似度が高い所定個数の語彙や各語彙の類似度順位、音声データとの類似度が一定値以上の語彙の個数に関する情報が入力されると、音声データとの類似度が最も高い語彙の類似度が予め設定された閾値以上であるか否かを判定し、上記語彙の類似度が閾値以上である場合、この語彙(音声データとの類似度が最も高い語彙)を正しい語彙と判定し、判定した正しい語彙に基づく情報を出力する。
なお、出力先としては、例えば音声入力によってオンオフが制御される機器の入力部がある。この場合、正しい語彙(例えば「オン」や「オフ」など)に基づく情報が機器に出力されることによって、機器はオンオフ動作を行う。
また、出力先の他の例としては、料理メニュー表示装置がある。この場合、正しい語彙(食材名)に基づく情報が料理メニュー表示装置に出力されることによって、その食材名に関する料理レシピが表示される。
これに対して、音声データとの類似度が最も高い語彙の類似度が閾値未満である場合、認識制御部6は、音声認識処理部4で選択され音声データとの類似度が高い順から所定個数の語彙と、各語彙の類似度順位と、音声認識可能な語彙のうち音声データとの類似度が一定値以上の語彙の個数とを表示部8に表示させる。所定個数の語彙などを表示部8に表示させた認識制御部6は、表示部8の表示内容を見た使用者によって認識結果入力部5に正解通知情報が入力操作された場合(正解通知情報を入力するために設けられたボタンやテンキー、タッチパネルに操作された場合)、音声認識処理部4で選択された語彙のうち音声データとの類似度が最も高い語彙を正しい語彙と判定し、判定した正しい語彙に基づく情報を出力する。出力先としては、音声入力によってオンオフ制御される機器や料理メニュー表示装置などがある。
また、認識制御部6は、音声データとの類似度が高い順から予め設定された個数の語彙とともに類似度順位を表示部8に表示させた後、認識結果入力部5に類似度順位が使用者によって入力された場合、当該類似度順位に対応する語彙を正しい語彙と判定することを特徴とする。
一方、使用者によって認識結果入力部5に正解通知情報が入力されず、さらに一定時間内に特徴量抽出部2から前回と同じ音声データが入力された旨の音声入力情報が入力された場合、つまり、マイク部1が前回と同じ音声を再度受信し音声データを作成し特徴量抽出部2が音声データの特徴量を抽出した場合、認識制御部6は、音声認識処理部4で選択された語彙のうち音声データとの類似度が最も高い語彙を誤った語彙と判定する。音声認識処理部4で選択された語彙のうち音声データとの類似度が最も高い語彙が誤った語彙と判定した認識制御部6は、誤った語彙を選択対象外(認識対象外)とする旨の制限命令情報を音声認識処理部4に出力する(制御手段)。
音声認識処理部4は、認識制御部6から制限命令情報が入力されると、認識制御部6で判定された誤った語彙を記憶部7に記憶させ、誤った語彙を選択対象外として、新たに入力された音声に対する音声データの特徴量と音声データベース3の語彙の特徴量とを照合し、音声データとの類似度が高い順から所定個数の語彙と、各語彙に対応する類似度順位と、音声データとの類似度が一定値以上の語彙の個数とを認識制御部6に出力する。
記憶部7は、認識制御部6によって音声認識処理部4で選択された語彙が正しい語彙と判定された場合、記憶情報(誤った語彙)を消去する。
また、認識制御部6は、認識結果入力部5に不正解通知情報が入力された場合、表示部8に表示されている所定個数の語彙以外の語彙において音声データとの類似度が高い語彙を当該表示部8に新たに表示させる。
次に、本実施形態の音声認識装置の動作について図3を用いて説明する。まず、使用者が発話すると、使用者の音声がマイク部1に入力され、マイク部1は音声データを作成する(S1)。その後、特徴量抽出部2は音声データの特徴量を抽出して特徴量データを作成する(S2)。音声認識処理部4は、特徴量抽出部2からの音声データの特徴量と音声データベース3の語彙の特徴量とを照合し、認識結果として音声データとの類似度が高い順から所定個数の語彙と、各語彙に対応する類似度順位とを選択し、認識制御部6に出力する(S3)。
認識制御部6は、類似度最上位の認識結果(音声データとの類似度が最も高い語彙)の類似度が閾値を超えているか否かを判定し、閾値を超えている場合は後述のステップS7へ遷移する(S4)。一方、閾値を超えていない場合、認識制御部6は、音声認識処理部4の認識結果(所定個数の語彙)と各語彙に対応する類似度順位とを表示部8に表示させる(S5)。使用者によって類似度最上位の語彙が正しい語彙と判断された場合、正解通知情報が認識結果入力部5に入力される(S6)。認識制御部6は類似度最上位の認識結果を最終の認識結果として外部へ出力する(S7)。認識対象外とされた語彙の有無を確認し(S8)、認識対象外とされた語彙があった場合は認識対象外とされた語彙を再度認識対象とし(S9)、動作フローが終了する。
一方、使用者による正解通知情報の入力がなく、不正解通知情報の入力があった場合(S10)、認識制御部6は、表示部8に表示されている全ての認識結果の語彙を選択対象外とし(S11)、その他の類似度上位の認識結果を表示部8に表示させて(S12)、ステップS6以降の動作を行う。不正解通知情報の入力がなかった場合、一定時間内に使用者が発話したか否かを判定し、使用者が発話しなかった場合はスタートに戻る(S13)。これに対して、一定時間内に使用者が前回と同じ言葉を再度発話した場合、マイク部1は再度、使用者の音声の音声データを生成し(S13)、認識制御部6は、表示部8に表示された類似度最上位の認識結果語彙を選択対象外とする(S14)。その後、ステップS2以降の動作を行う。
次に、本実施形態の音声認識装置の使用例について図4〜6を用いて説明する。図4〜6は、図3の典型例に対応する表示部8の表示画面遷移例を示している。典型例として、誤認識が起こらなかった場合(第1のケース)、誤認識が起こり、かつ類似度上位の語彙に正解語彙が含まれていて、同じ言葉を再発話した場合(第2のケース)、誤認識が起こり、かつ類似度上位の語彙に正解語彙が含まれていないため、不正解通知情報が入力された場合(第3のケース)の3つのケースを挙げる。
ここでは、アプリケーション例としてレシピ検索アプリケーションを取り上げる。使用者は音声で食材名を入力すると、その食材が使われる料理のレシピを閲覧することができるとする。今回、表示部8に表示される類似度上位の語彙数は5個とする。20個の食材名と順位を表わす語彙(「1位」〜「5位」)を認識対象語彙とする(表1)。本使用例ではユーザの目的はエンドウ豆を使う料理のレシピを閲覧することとする。
まず、図4を用いて、第1のケースでの表示画面遷移例について説明する。第1のケースは図3の「start→S1→S2→S3→S4→S5→S6→S7→S8→end」の順に遷移した場合の例である。No.1の画面は音声入力待ちうけの画面である。使用者が「エンドウ豆」と発話すると、類似度上位の結果とその順位を表示する画面(No.2)へ遷移する。No.2の画面には、類似度がある一定値以上の認識結果語彙数(認識候補語彙数)も表示されている。類似度最上位が正解語彙であるため、使用者が正解通知情報を入力すると、類似度最上位の「エンドウ豆」を使う料理レシピが表示される画面(No.3)へ遷移する。
続いて、図5を用いて、第2のケースでの表示画面遷移例について説明する。第2のケースは図3の「start→S1→S2→S3→S4→S5→S6→S10→S11→S13→S14→S2→S3→S4→S5→S6→S7→S8→S9→end」の順に遷移した場合の例である。No.1の画面は音声入力待ちうけの画面である。使用者が「エンドウ豆」と発話すると、類似度上位の結果とその順位を表示する画面(No.2)へ遷移する。No.2の画面には、認識候補語彙数も表示されている。誤認識しているため、使用者が再度「エンドウ豆」と同じ言葉を発話すると、No.2の画面で類似度最上位の「エンダイブ」を認識対象外とした上で認識を行った結果とその順位が表示される画面(No.3)に遷移する。この際、「エンタイブ」が認識対象外となっているため、認識候補語彙数が減少している(12個→11個)。類似度最上位が正解語彙であるため、使用者が正解通知情報を入力すると、類似度最上位の「エンドウ豆」を使う料理レシピが表示される画面(No.4)へ遷移する。
続いて、図6を用いて、第3のケースでの表示面面遷移例について説明する。第3のケースは囲3の「start→S1→S2→S3→S4→S5→S6→S10→S11→S12→S6→S7→S8→S9→end」の順に遷移した場合の例である。No.1の画面は音声入力待ちうけの画面である。使用者が「エンドウ豆」と発話すると、類似度上位の結果とその順位を表示する画面(No.2)へ遷移する。No.2の画面には、認識候補語彙数も表示されている。誤認識し、類似度5位までに「エンドウ豆」が選択されていない。このため、使用者が不正解通知情報を入力すると、No.2の画面に表示された語彙を認識対象外とした上で認識を行った結果とその順位が表示される画面(No.3)に遷移する。この際、No.2の画面に表示された5つの語彙が認識対象外となっているため、認識候補語彙数が減少している(12個→7個)。類似度最上位が正解語彙であるため、使用者が正解通知情報を入力すると、類似度最上位の「エンドウ豆」を使う料理レシピが表示される画面(No.4)へ遷移する。
以上、本実施形態によれば、認識制御部6が正解通知情報を有していない場合、先の音声認識が誤っていたとして、先の音声認識処理部4で選択された語彙を選択対象外とすることができるので、誤認識が起こった後における音声認識の精度を特別な操作なく確実に向上させることができる。
また、誤った語彙を選択対象外とした後、認識結果入力部5に正解通知情報が入力された場合、選択対象外の語彙を再び選択対象とすることによって、リセット操作なしで連続して音声認識を行うことができる。
音声データとの類似度が一定値以上である語彙の個数を表示部8が表示することによって、誤認識の発生後に音声の受信が再度行われた際、再度受信された音声に基づく音声データとの類似度が一定値以上の語彙の個数が減少していく様子を使用者に見せることができるので、使用者は誤認識の程度の確認と、音声認識において語彙の絞り込みが行われていることを実感でき、不満を軽減することができる。
音声データとの類似度が高い順から予め設定された個数の語彙を表示部8が表示することによって、誤認識した際の正解の語彙の類似度順位を表示することができるので、使用者が音声認識の状況を把握することができ、使用者の不満を軽減することができる。
音声データとの類似度が高い語彙を表示部8が表示する際に、類似度順位を併せて表示させ、かつその順位語彙自体も音声認識対象語彙とすることで類似度順位を入力することによっても、入力された類似度順位に対応する語彙を正しい語彙とすることができるので、仮に認識しにくい語彙であったとしても認識精度を向上することができる。
不正解通知情報を認識した場合に、表示部8に表示されている全ての語彙以外の語彙を表示させることによって、認識候補を絞り込むことができるので、簡便に認識精度を向上することができる。
(実施形態2)
実施形態2の音声認識装置は、図7に示すように、マイク部1と、特徴量抽出部2と、音声認識処理部4と、認識制御部6と、記憶部7と、表示部8とを、実施形態1の音声認識装置(図1参照)と同様に備えているが、マイク部1が実施形態1の認識結果入力部5(図1参照)の機能も有する点で、実施形態1の音声認識装置と相違している。
本実施形態のマイク部1は、表示部8の表示内容を見た使用者が正解通知情報として「正解」(正解通知語彙)と発話すると、正解通知語彙の音声データを作成する。また、使用者が不正解通知情報として「ここにはない」(不正解通知語彙)と発話すると、マイク部1は不正解通知語彙の音声データを作成する。
本実施形態の音声データベース3aには、図2(b)に示すように、正解通知語彙及び不正解通知語彙の特徴量も格納されている。
本実施形態の音声認識処理部4は、マイク部1から特徴量抽出部2を介して入力された正解通知語彙の音声データの特徴量と音声データベース3aの語彙の特徴量とを照合し、正解通知語彙を選択する。また、音声認識処理部4は、マイク部1から特徴量抽出部2を介して入力された不正解通知語彙の音声データの特徴量と音声データベース3aの語彙の特徴量とを照合し、不正解通知語彙を選択する。
本実施形態の認識制御部6は、所定個数の語彙や各語彙の類似度順位、音声データとの類似度が一定値以上の語彙の個数を表示部8に表示させた後、音声認識処理部4から正解通知情報として正解通知語彙が入力された場合、音声認識処理部4で選択された語彙のうち音声データとの類似度が最も高い語彙を正しい語彙と判定し、判定した正しい語彙に基づく情報を出力する。出力先としては、音声入力によってオンオフ制御される機器や料理メニュー表示装置などがある。
また、認識制御部6は、音声認識処理部4から不正解通知情報として不正解通知語彙が入力された場合、表示部8に表示されている所定個数の語彙以外の語彙において音声データとの類似度が高い語彙を当該表示部8に新たに表示させる。
なお、正解通知情報及び不正解通知情報を認識結果入力部5から入力するのではなく、マイク部1から入力すれば、本実施形態の音声認識装置の動作は実施形態1の音声認識装置と同様であり、本実施形態の音声認識装置においても、実施形態1の音声認識装置の使用例と同様の使用をすることができる。
以上、本実施形態によれば、マイク部1から正確通知情報及び不正確通知情報を音声で入力することができるので、認識結果入力手段としてボタンやテンキーなどを備える必要がなく、コストを低下させることができる。また、使用者にとっても、ボタン操作ではなく音声で入力することができるので、判定結果の正否を簡単に行うことができる。
なお、正解通知情報と不正解通知情報の両方が、実施形態1では認識結果入力部5から入力され、実施形態2ではマイク部1から入力されているが、上記に限定されず、正解通知情報と不正解通知情報の何れか一方が認識結果入力部5から入力され、他方がマイク部1から入力されるものであってもよい。
なお、実施形態1,2の変形例として、認識制御部6は、認識結果入力部5からの正解通知情報の入力操作があった場合(実施形態1)やマイク部1で正解通知情報としての「正解」が入力された場合(実施形態2)の場合に代えて、使用者による入力操作や音声入力が所定時間内(例えば5秒以内)になかった場合に、正解通知情報の入力と判断してもよい。この場合、認識制御部6は、使用者による入力操作や音声入力が所定時間内になかったときに、正解通知情報を有することとなる。
ただし、例えば使用者の留守中に発生した物音などがマイク部1から入力されると、音声認識処理部4が、誤動作として、上記物音に関する音声データとの類似度が高い特徴量に対応する所定個数の語彙を選択する場合がある。このとき、使用者による入力操作や音声入力が所定時間内になかったときに正解通知情報の入力と判断する場合では、認識制御部6は、音声認識処理部4で選択された語彙が正しい語彙と判定してしまい、設備などのオンオフ制御や料理メニュー表示が勝手にされてしまう可能性がある。したがって、正解通知情報の入力は、入力操作や音声入力などのように、使用者の能動的な動作で判定したほうが、設備のオンオフ制御や料理メニュー表示が勝手にされるおそれがない。
一方、実施形態1,2の他の変形例として、認識制御部6は、認識結果入力部5からの不正解通知情報の入力操作があった場合(実施形態1)やマイク部1で不正解通知情報としての「ここにはない」が入力された場合(実施形態2)の場合に代えて、使用者による入力操作や音声入力が所定時間内(例えば5秒以内)になかった場合に、不正解通知情報の入力と判断してもよい。この場合、認識制御部6は、使用者による入力操作や音声入力が所定時間内になかったときに、不正解通知情報を有することとなる。なお、正解通知情報の入力と判断するのは、使用者による入力操作や音声入力があったときのみとする。
実施形態1の音声認識装置の構成を示すブロック図である。 実施形態1,2の音声認識装置における認識対象語彙を示す図である。 同上の音声認識装置の動作を示すフローチャートである。 同上の音声認識装置において誤認識が起こらない場合の表示を説明する図である。 同上の音声認識装置において誤認識が起こり再発話された場合の表示を説明する図である。 同上の音声認識装置において誤認識が起こり不正解通知語彙が発話された場合の表示を説明する図である。 実施形態2の音声認識装置の構成を示すブロック図である。
符号の説明
1 マイク部
2 特徴量抽出部
3,3a 音声データベース
4 音声認識処理部
5 認識結果入力部
6 認識制御部
7 記憶部
8 表示部

Claims (8)

  1. 音声認識の対象となる音声が入力される音声入力手段と、
    前記音声入力手段に入力された音声に基づく音声データの特徴量を抽出する特徴量抽出部と、
    音声認識が可能な語彙の特徴量が予め登録されている音声データベースと、
    前記音声データの特徴量と前記音声データベースの前記語彙の特徴量とを照合し、当該音声データとの類似度が高い特徴量に対応する語彙を選択する音声認識処理部と、
    前記音声認識処理部で選択された語彙が正しい旨を表わす正解通知情報を入力するための手段を有する認識結果入力手段と、
    前記正解通知情報が所定時間内に入力された場合、前記音声認識処理部で選択された語彙を正しい語彙と判定する一方、前記正解通知情報が前記所定時間内に入力されなかった場合、前記音声認識処理部で選択された語彙を誤った語彙と判定する判定動作を行う判定手段と、
    前記判定手段で判定された前記誤った語彙を記憶する記憶部と、
    前記判定手段によって前記音声認識処理部で選択された語彙が誤った語彙と判定された場合、前記音声認識処理部が次の語彙に対応する音声に基づく音声データとの類似度が高い特徴量に対応する語彙を選択するときに前記誤った語彙を選択対象外とする旨の制限命令情報を前記音声認識処理部に出力する一方、前記判定手段によって前記音声認識処理部で選択された語彙が正しい語彙と判定された場合、当該正しい語彙に基づく情報を出力する制御手段と
    を備えることを特徴とする音声認識装置。
  2. 前記判定手段は、前記音声認識処理部で選択された語彙の類似度が予め設定された閾値以上の場合、前記判定動作を行わずに、当該音声認識処理部で選択された語彙を正しい語彙と判定する一方、前記音声認識処理部で選択された語彙の類似度が前記閾値より低い場合、前記判定動作を行うことを特徴とする請求項1記載の音声認識装置。
  3. 前記記憶部は、前記制御手段によって前記音声認識処理部で選択された語彙が正しい語彙とされた場合、記憶情報を消去することを特徴とする請求項1又は2記載の音声認識装置。
  4. 前記音声認識処理部で選択された語彙と、前記音声認識可能な語彙のうち前記音声データとの類似度が予め設定された一定値以上である語彙の個数とを表示する表示部を備えることを特徴とする請求項1乃至3のいずれか1項に記載の音声認識装置。
  5. 前記判定手段は、前記音声データとの類似度が高い順から予め設定された個数の語彙を前記表示部に表示させることを特徴とする請求項4記載の音声認識装置。
  6. 前記認識結果入力手段は、前記正しい語彙を選択するための手段を有し、
    前記判定手段は、前記音声データとの類似度が予め設定された一定値以上である語彙を前記表示部に表示させた後、前記認識結果入力手段で選択された語彙を前記正しい語彙と判定する
    ことを特徴とする請求項5記載の音声認識装置。
  7. 前記認識結果入力手段は、前記音声データとの類似度が高い語彙から順に割り振られた類似度順位を入力するための手段を有し、
    前記判定手段は、前記音声データとの類似度が高い順から予め設定された個数の語彙とともに前記類似度順位を前記表示部に表示させた後、前記認識結果入力手段に前記類似度順位が入力された場合、当該類似度順位に対応する語彙を正しい語彙と判定する
    ことを特徴とする請求項6記載の音声認識装置。
  8. 前記認識結果入力手段は、前記表示部に表示されている所定個数の語彙の全てが正しい語彙ではない旨を表わす不正解通知情報を入力するための手段を有し、
    前記判定手段は、前記不正解通知情報が前記所定時間内に入力されたと判断した場合、前記表示部に表示されている所定個数の語彙以外の語彙において前記音声データとの類似度が高い語彙を当該表示部に新たに表示させる
    ことを特徴とする請求項4乃至7のいずれか1項に記載の音声認識装置。
JP2007292369A 2007-11-09 2007-11-09 音声認識装置 Withdrawn JP2009116277A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007292369A JP2009116277A (ja) 2007-11-09 2007-11-09 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007292369A JP2009116277A (ja) 2007-11-09 2007-11-09 音声認識装置

Publications (1)

Publication Number Publication Date
JP2009116277A true JP2009116277A (ja) 2009-05-28

Family

ID=40783445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007292369A Withdrawn JP2009116277A (ja) 2007-11-09 2007-11-09 音声認識装置

Country Status (1)

Country Link
JP (1) JP2009116277A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013045282A (ja) * 2011-08-24 2013-03-04 Kyushu Institute Of Technology コミュニケーション支援システム
KR101404246B1 (ko) * 2012-10-29 2014-06-05 포항공과대학교 산학협력단 발화 인식 성능 향상 시스템 및 방법
JP2017049537A (ja) * 2015-09-04 2017-03-09 株式会社東芝 操作装置、訂正方法およびプログラム
US20220319509A1 (en) * 2020-07-27 2022-10-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
WO2022259776A1 (ja) * 2021-06-07 2022-12-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識装置、音声認識方法、及び音声認識プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013045282A (ja) * 2011-08-24 2013-03-04 Kyushu Institute Of Technology コミュニケーション支援システム
KR101404246B1 (ko) * 2012-10-29 2014-06-05 포항공과대학교 산학협력단 발화 인식 성능 향상 시스템 및 방법
JP2017049537A (ja) * 2015-09-04 2017-03-09 株式会社東芝 操作装置、訂正方法およびプログラム
US20220319509A1 (en) * 2020-07-27 2022-10-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US11984122B2 (en) 2020-07-27 2024-05-14 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
WO2022259776A1 (ja) * 2021-06-07 2022-12-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識装置、音声認識方法、及び音声認識プログラム

Similar Documents

Publication Publication Date Title
US10037758B2 (en) Device and method for understanding user intent
JP5089955B2 (ja) 音声対話装置
CN106796786B (zh) 语音识别系统
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
KR101537370B1 (ko) 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
US8249870B2 (en) Semi-automatic speech transcription
JP4709887B2 (ja) 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
WO2015098109A1 (ja) 音声認識処理装置、音声認識処理方法、および表示装置
JP5951161B2 (ja) 音声認識装置及び音声認識方法
CN109791761B (zh) 使用校正的术语的声学模型训练
CN109754793B (zh) 用于推荐车辆的功能的装置和方法
JP4784120B2 (ja) 音声書き起こし支援装置及びその方法ならびにプログラム
CN108630231B (zh) 信息处理装置、感情识别方法以及存储介质
US20200143799A1 (en) Methods and apparatus for speech recognition using a garbage model
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US11373638B2 (en) Presentation assistance device for calling attention to words that are forbidden to speak
US8126715B2 (en) Facilitating multimodal interaction with grammar-based speech applications
JP4634156B2 (ja) 音声対話方法および音声対話装置
JP2009116277A (ja) 音声認識装置
WO2012160843A1 (ja) 情報機器
JP2010230918A (ja) 検索装置
JP2008046633A (ja) 平方根ディスカウンティングを使用した統計的言語による音声認識
JP5694102B2 (ja) 音声認識装置、音声認識方法およびプログラム
US20090106025A1 (en) Speaker model registering apparatus and method, and computer program
JP4635743B2 (ja) 音声対話装置及び音声理解結果生成方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100816

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110201