JP2004004182A - Device, method and program of voice recognition - Google Patents

Device, method and program of voice recognition Download PDF

Info

Publication number
JP2004004182A
JP2004004182A JP2002158068A JP2002158068A JP2004004182A JP 2004004182 A JP2004004182 A JP 2004004182A JP 2002158068 A JP2002158068 A JP 2002158068A JP 2002158068 A JP2002158068 A JP 2002158068A JP 2004004182 A JP2004004182 A JP 2004004182A
Authority
JP
Japan
Prior art keywords
recognition
grammar
vocabulary
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002158068A
Other languages
Japanese (ja)
Inventor
Masahide Arisei
蟻生 政秀
Original Assignee
Toshiba Corp
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, 株式会社東芝 filed Critical Toshiba Corp
Priority to JP2002158068A priority Critical patent/JP2004004182A/en
Publication of JP2004004182A publication Critical patent/JP2004004182A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To enable an optimal voice recognition processing according to ambience, use conditions, and the like. <P>SOLUTION: Featured values are acquired from an inputted voice signal in a step S1. For example, signal-to-noise ratio is used as the featured values. Recognized vocabulary is selected according to the featured values (a step S2) and grammar is selected according to the featured values (a step S3). Voice recognition by pattern matching is performed (a step S4) by using the selected recognized vocabulary and grammar. Thus, a voice recognition result is adapted to the ambience. The voice recognition result is outputted in an application in a step S5. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、ウェアラブル型或いは携帯型機器の音声入力の認識に好適な音声認識装置、音声認識方法及び音声認識プログラムに関する。
【0002】
【従来の技術】
近年、音声認識技術の性能向上に伴い、実環境における音声認識エンジンの実用が活発になってきている。特に、カーナビゲーションシステムやモバイル機器など入力装置が限定されるような状況において、音声認識への期待は大きい。また、携帯電話やモバイルパソコンの普及も著しく、携帯用やウェアラブル型機器に使われる音声認識装置の開発も試みられている。
【0003】
音声認識装置においては、入力音声の認識用時系列に対して、認識結果に対応する代表ベクトル系列と類似度を計算したり、統計的な音素モデルから構成される仮説に対する尤度を計算したりすることで、その比較結果から認識結果を得られる。更に、そのような認識結果の音素モデル系列に変換処理を施すことで、認識結果に対応する文字列(日本語なら平仮名列ないし漢字かな混じり文、英語ならアルファベット列)を得られる。
【0004】
一般に日本語連続音声認識では音素/b/, /d/, /g/のような類似子音の識別、「正しい言い方」のような同じ母音が連続する場合の識別が困難であることや、言語にもよるが/ok(u)rimas(u)/等のような無声化母音、/kaigi/における/g/の鼻音化/ng/、前後音素環境による発音変化や、周囲騒音が強いと発声形態が変わるロンバード効果によって、認識が難しい場合があることが指摘されている。日本語に限らず音声認識装置においては、このように音素認識の精度が必ずしも高くない場合や、音素環境や周囲環境による発声の変化があることを考慮して、認識結果の文字列を適切な音素系列を含む語彙辞書と対応させることによって、音声認識結果を適正なものとすることができる。
【0005】
また、音声認識結果の精度を向上させるために、音声認識装置は、用途に応じて、種々の語彙辞書を利用する。認識結果から正しい単語を推定する処理には、音声入力の目的や状況に対応した語彙辞書を必要とするからである。さらに、認識結果から正しい単語を推定する処理に際して、認識語彙やその結びつきを規定するために用いる文法についても、周囲環境や発声目的によって変わりうる音声入力の種類に応じて適宜設定することによって、認識結果の精度を向上させることが可能である。
【0006】
【発明が解決しようとする課題】
このように、音声認識装置が認識結果の推定に際して用いる文法及び語彙辞書を、入力音声の種類に応じて変更することによって、周囲環境や使用状況にあわせた音声認識を可能としたり、音声認識結果の精度を向上させたりすることが可能である。
【0007】
一般的には、音声認識の推定に際して用いる文法及び語彙辞書の変更は、ユーザ自身の操作によって行われる。また、例えば、カーナビゲーションシステム等のアプリケーションが、入力モードに応じて文法及び語彙辞書を変更することもある。例えば、電話番号の音声入力時と、地名の音声入力時とで、文法及び語彙辞書を変更するのである。そうすると、電話番号入力時には認識結果として電話番号の桁数に応じた数字列のみを得ることができ、地名入力時には地名として存在する文字列のみを音声認識結果として得ることができる。また、更に、使用話者を自動判定して文法及び語彙辞書を切換える装置も考えられている。
【0008】
しかしながら、周囲の環境、使用状況に応じて適切な文法や語彙辞書を自動的に変更するシステムは存在しない。このため、ユーザや音声認識を使うシステム側は音声認識に際して、周囲の環境、使用状況等を考慮して、使用する文法及び語彙辞書を切換える必要があり、操作が煩雑であった。
【0009】
なお、特開2000−338986号公報においては、使用者の声が大きいか小さいかによって、辞書パターンを変更する技術が開示されている。しかし、この場合でも、周囲の環境や使用状況に応じて、文法及び語彙辞書を切換えることはできない。
【0010】
また、特開平07−13591号公報においては、騒音状態検出部を備え、騒音状態に応じて認識語彙を制限することによって、騒音下での認識性能を向上する技術が開示されている。しかし、まず一点目として、特開平07−13591号公報では音声発声の目的は一つであって、周囲騒音に対しても音声認識性能を維持することが主眼である。すなわち、音声認識装置を使う目的を、屋内と屋外で変えたり、オフィスルームと自動車内で変えたりするような周囲状況の違いに合わせて変えるものではない。また二点目として、ロンバード効果によって発声に歪みが生じたり、目的や周囲状況が変化した際に、適切な音素系列に語彙辞書を反映させなければならない場合に対応していないことや、語彙のつながりを規定する文法に関しては無関係であること、といった点が挙げられる。
【0011】
本発明は、周囲の環境や使用状況に応じて語彙辞書及び認識語彙の結びつきを規定する文法を自動的に設定することができる音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明に係る音声認識装置は、入力音声信号の音響的な特徴量を取得する特徴量取得手段と、前記特徴量取得手段が取得した前記特徴量に基づいて、入力音声に対する音声認識に際して用いる認識語彙及び文法のうちの少なくとも一方の設定を制御する音声認識制御手段と、前記音声認識制御手段の設定による認識語彙及び文法に従って前記入力音声から得た認識用時系列に対してパターン認識を行う音声認識手段とを具備したものである。
【0013】
本発明において、特徴量取得手段は、入力音声信号の音響的な特徴量を取得する。音声認識制御手段は、取得された特徴量(制御用特徴量)に基づいて、入力音声に対する音声認識に際して用いる認識語彙及び文法のうちの少なくとも一方の設定を制御する。音声認識手段は、この設定による認識語彙及び文法に従って、入力音声から得た認識用時系列に対してパターン認識を行う。これにより、周囲環境や発声に応じてタスクを変え、場面に応じた音声認識を可能としたり、周囲環境の雑音に合わせて最適な音声認識処理を可能にしたりすることができる。
【0014】
なお、装置に係る本発明は方法に係る発明としても成立する。
【0015】
また、装置に係る本発明は、コンピュータに当該発明に相当する処理を実現させるためのプログラムとしても成立する。
【0016】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は本発明の第1の実施の形態に係る音声認識装置を示すブロック図である。
【0017】
音声認識に用いる語彙辞書をいかに設計するかは、音声認識の難易度や精度に影響を与える。未登録語は認識できないので、使われる語彙や発声の変化に対応したパターンも全て登録されていなければならない。しかし一方で語彙が増えれば仮説の探索範囲が増えて性能も落ち易い。よって音声認識の目的や状況に応じた語彙辞書の設定が必要となる。声した音声と一致した認識結果を得る可能性が低下する。逆に、語彙辞書の登録単語数が多い場合には、音声認識処理が困難となる反面、発生した音声と一致した認識結果を得る可能性が高くなる。
【0018】
また、音声認識は、文法の設定内容によっても変化する。例えば、一語しか許さなければ単語認識となるし、「命令語」+「命令対象」のような並びでシステムに対する命令を連続音声認識する場合もあるし、文法として日本語を許容するものとすれば日本語のディクテーションを認識するといったように音声認識のタスク、目的に大きな影響を与える。あるいは、認識結果として数字列の桁数を規定した文法を採用する場合において、例えば3桁の桁数の出力を許可した文法と、例えば10桁の桁数の出力を許可した文法とでは、3桁の出力を許可した文法を採用した方が10桁の出力を許可した文法を採用する場合に比して認識処理は容易となる。すなわち音声認識が難しい状況ならば、同じ目的や語彙でも文法を変えることで対応することができる。つまり文法においても目的や状況にあわせた文法の設計が必要となる。本実施の形態においては、このように語彙辞書及び文法を変化させることで、周囲環境及び使用状況等に応じた音声認識処理を可能にしている。
【0019】
図1において、音声認識装置10は、中央演算装置(以下、CPUという)11、記憶領域部12、信号処理部13及び通信部14を有している。CPU11は、処理の実行に必要な手順の制御や演算を行う。
【0020】
記憶領域部12は、処理の手順、音声認識に必要となる認識語彙、文法及び他にパターン照合に必要となる各種辞書情報を記憶する領域、処理に必要となる一時作業領域としての記憶領域、更に、音声信号や出力結果等を記憶する領域等の各種記憶領域を有している。また、記憶領域部12は、各種制御に要するパラメータ等の情報の記憶に使用される領域も含むものとする。記憶領域部12は、半導体メモリや磁気ディスク等の電子部品や、同様の機能を有する電子部品によって構成することができる。
【0021】
信号処理部13は、マイク15からのアナログ信号をサンプリングしてデジタル信号に変換する処理、周波数成分の解析のためのフーリエ変換処理等を行うと共に、音声認識の認識結果を適宜の出力形態に変換する処理等を行う。信号処理部13は、信号処理チップ等の電子部品で構成することができる。
【0022】
通信部14は、マイク15からの有線又は無線の音声信号を受信して音声認識装置で処理可能な信号形態に変換すると共に、音声認識結果を他の機器16に出力するための信号形態に変換して伝達する。この通信部14も、電子部品で構成することができる。
【0023】
なお、上述した音声認識装置の各構成要素については、他の働きをする機器とその構成の一部を共有化したり、構成の一部は電子部品でなくとも同種の働きをするプログラムやプロセスによって同様の機能を提供する構成にしたりすることができる。
【0024】
なお、図1の音声認識装置は、パーソナル・コンピューター(以下、PCという)に、CPU11、記憶領域部12、通信部14と同様の動作を行うプログラムを実行させることによって実現可能である。また、信号処理部13等による演算を主体とする機能は、プロセス名を信号処理として実際の演算はCPU11で行うようにしてよい。
【0025】
本実施の形態においては、CPU11は、各部を制御して、マイク15からの音声信号を音響分析させ、解析結果から周囲環境(入力音声信号)の特徴量を得るようになっている。この特徴量は以降で説明するような語彙辞書や文法の設定の制御に使われるので制御用特徴量とよぶことにする。例えば、特徴量として、入力音声信号の信号対雑音比(S/N比)を用いることができる。また、入力音声を予め定められた複数の周波数帯域毎に周波数分析し、各周波数帯毎の分析結果から特徴量を得るようにしてもよい。例えば、各種フィルタやフーリエ変換処理等によって特徴量を得ることができる。また、音声信号から音響分析によって音声認識に用いる認識用時系列も得る。この認識用の特徴時系列としては、メルケプストラム、バンドパスフィルタの値といった、音声認識で用いられる公知の認識用時系列を使うことができるものとする。それらは公知であるので、以降においてもその時系列の導出は省略する。また制御用特徴量として認識用時系列と同じもの、あるいは一部が同一であったり、片方から他方が計算できるものであっても本実施の形態においては構わない。
【0026】
そして、本実施の形態においては、CPU11は、各部を制御して、周囲環境の特徴量に応じた認識語彙を使用するための語彙辞書を設定させるか、周囲環境の特徴量に応じた文法を音声認識に際して使用させるか、あるいはその両方を行えるように制御する。
【0027】
このような音声認識装置10は、例えばウェアラブル機器に適用することができる。図2は図1の構成をウェアラブル機器の音声認識装置に適用した例を示す説明図である。
【0028】
ユーザ21は、図1のマイク15に相当するピンマイク22を付けることで、ユーザの発声、周囲の音等をマイク22で音声信号として取り込むことが出来る。取り込まれた音声信号は、ケーブル23を介して、図1の音声認識装置10に相当する音声認識システム24に伝達される。なお、音声認識システム24は、ウェアラブル・コンピューター25の一部であって、音声認識結果はウェアラブル・コンピューター25に伝達されるようになっている。ウェアラブル・コンピューター25は、各種アプリケーションに音声認識結果を用いるとする。
【0029】
なお、本実施の形態は図2の使用例に限定されないことは明らかであり、ウェアラブル機器でなく、携帯端末等にも適用可能である。また、例えば、ピンマイク22以外のマイクや複数のマイクを使用してもよい。また、音声信号をケーブルでなくブルートゥースのような短距離無線で伝達するようにしてもよく、音声認識システムがウェアラブル・コンピューター25以外の複数の情報機器に音声認識結果を出力するようにすることも可能である。
【0030】
次に、このように構成された実施の形態の動作について図3のフローチャートを参照して説明する。
【0031】
マイク15からの音声信号は通信部14を介して取込まれる。図3のステップS1において、信号処理部13は、CPU11に制御されて、入力音声信号の特徴量(制御用特徴量)を得る。CPU11は、求められた制御用特徴量に基づいて、音声認識に用いる認識語彙を含む語彙辞書を選択する(ステップS2)と共に、音声認識に用いる文法を設定する(ステップS3)。
【0032】
ステップS4において、選択された語彙辞書及び文法を用いて、パターンマッチングによる音声認識処理が行われる。この音声認識処理は、認識用時系列にあわせて公知の音声認識技術で実現できるものとする。ここではその詳細は問わない。この音声認識処理結果は、通信部14を介して他の機器16に出力される(ステップS5)。
【0033】
このように本実施の形態においては、マイクから取込んだ音声信号の特徴量を検出し、この制御用特徴量に応じて語彙辞書及び文法を決定している。これにより、音声認識に際して、周囲環境及び使用状況等に応じた語彙辞書及び文法の選択が可能となり、音声認識処理を周囲環境及び使用状況等に応じた最適なものとすることができる。即ち、従来はユーザや音声認識結果を利用するアプリケーションが、タスクに応じて、使用する認識語彙を含む語彙辞書及び文法を変化させていたのに対し、本実施の形態では、制御用特徴量を用いて自動的に語彙辞書及び文法を設定することができ、ユーザの煩雑な操作を必要とすることなく、また、周囲環境等に応じた最適な音声認識を可能にすることもできる。
【0034】
図4は本発明の第2の実施の形態に係る音声認識方法を示すフローチャートである。ここでは制御用特徴量にあわせて語彙辞書を設定する例に焦点を当てて説明する。本実施の形態は図1と同様のハードウェア構成によって実現可能である。
【0035】
本実施の形態は、制御用特徴量としてハムノイズの強さを用い、これにより音声認識に用いる認識語彙を制御するようにしたものである。このハムノイズの強さの求め方は、例えば50Hzあるいは60Hzとその高調波での信号の強さで代表させるとする。ただしハムノイズの強さの求め方は前記に限定したものでない。さらに以下の説明でも用いられる制御用特徴量の求め方についても本発明に限定された手法でなく、既存の信号処理手法を用いることができるものとし、以下も制御用特徴量の個別の求め方は省略する。
【0036】
図1のマイク15又は図2のピンマイク22等によって取込まれた音声信号は、音声認識装置10に与えられて、その特徴量が求められる。即ち、図4のステップS11において、入力音声信号に対する信号処理が行われて、ハムノイズの強さが計算され、計算結果が制御用特徴量として用いられる。
【0037】
次に、ステップS12において、算出したハムノイズの強さを予め設定されている閾値と比較する。ハムノイズの強さが閾値よりも大きい場合には、家庭用電源が身近にある環境、室内と判断して、ステップS13において、例えば室内家電機器の操作といった室内用の語彙辞書を採用する。逆に、ハムノイズの強さが閾値よりも小さい場合には、家庭用電源が周囲にない環境、屋外と判断して、ステップS14において、例えば屋外で音声認識装置を使う場合に登録された語彙や室内機器機器操作の語彙がない語彙辞書を採用する。
【0038】
次のステップS15においては、採用された語彙辞書を用いて、音声認識が行われる。音声認識結果はこの音声認識結果を用いるアプリケーション等に出力される。
【0039】
次に、第2の実施の形態の変形例として、制御用特徴量に信号対雑音比を用いた例を説明する。入力音声信号の信号対雑音比が小さい場合には、音声認識には不適であるので、それでも最低限の機器動作をさせるために命令を認識語彙とした語彙辞書を用いた音声認識が行われる。入力音声信号の信号対雑音比が大きい場合は、比較的音声認識がし易い状況であるので、最低限の機器動作に限らない語彙による語彙辞書を用いた音声認識を行う。このようにすることで、最低限の機器動作をさせるときは「入力終了」のように簡潔な発声をすれば音声入力装置の電源を落とすことができ、信号対雑音比の大きいときは「音声入力終了」や「機器操作終了」のように、操作できる語彙数を増やしたり、それに伴い同じ操作でも語彙内容を変えたりすることができる。この場合のフローチャートは図4と同一のもので構成可能である。。
【0040】
また、次のような変形例も考えられる。制御用特徴量に無発声時の周囲騒音レベルを使うとする。このとき周囲騒音が強いと、人はそれに合わせて大声で発声して発声に歪みが生じる(ロンバード効果)。よってロンバード効果のないときは例えば「認識」の発音を「にんしき」で登録していても音声認識できるが、ロンバード効果のあるときは発声歪みによってむしろ発音を「いんしき」として登録しておいた方がいい場合がある。このように周囲騒音に合わせて適切に語彙辞書を設定することもできる。また周囲騒音が強く大声でユーザが発声しがちな状況では、一発声が短い方がユーザにとって自然である。よって、例えば同じ操作内容の命令でも周囲騒音が強い場合には、短縮形の語で音声による命令語とし、そうでない場合は通常の命令語を発声すれば機器操作ができるように音声認識の語彙辞書を設定することもできる。
【0041】
このように、本実施の形態においては、ユーザが特に操作をすることなく、周囲環境や使用状況に合わせて、適切な語彙が設定された音声認識を可能とすることができる。
【0042】
なお、図4においては、閾値に対して2つの語彙辞書を相互に切換える例を説明したが、閾値に対応する語彙辞書が3つ以上ある場合や、制御用特徴量に対して任意の関数によって連続的に音声認識に用いる認識語彙を制御する方法も考えられる。そのように語彙辞書が複数ある場合には、多次元ベクトルの制御用特徴量に対し、判別分析等で求めた写像関数によって語彙辞書と対応づけるという方法も考えられる。
【0043】
図5は本発明の第3の実施の形態に係る音声認識方法を示すフローチャートである。ここでは制御用特徴量にあわせて文法を設定する例について説明する。図5において図4と同一のステップには同一符号を付して説明を省略する。ただし、制御用特徴量で比較するステップS12では、図4と図5では異なった制御用特徴量を用いているが、フローチャートとしての働きは同様であるので、このステップに対応する符号は以降も含め同一の符号を用いる。本実施の形態は図1と同様のハードウェア構成によって実現可能である。
【0044】
本実施の形態は、制御用特徴量として信号対雑音比を用い、これにより音声認識に用いる認識語彙の結びつきを規定する文法等を制御するようにしたものである。なお、図4はタスクとして音声信号に対して電話番号認識を行う例についてのものである。
【0045】
音声信号の取込みは、図4の第2の実施の形態と同様に行われる。図5のステップS11において、入力音声信号の制御用特徴量が求められ、ステップS12において、算出した信号対雑音比を予め設定されている閾値と比較する点も第2の実施の形態と同様である。
【0046】
本実施の形態においては、信号対雑音比が閾値よりも大きい場合には、ステップS21において、11桁認識用の文法を選択する。逆に、信号対雑音比が閾値よりも小さい場合には、ステップS22において、5桁認識用の文法を選択する。
【0047】
このように構成された実施の形態においては、入力音声信号の信号対雑音比に従って、使用する文法が変化する。タスクとして音声信号に対して電話番号認識を行う例について説明すると、信号対雑音比が大きい場合には11桁用の文法が採用され、信号対雑音比が小さい場合には5桁用の文法が採用される。
【0048】
11桁用の文法は、11桁までの連続数字を認識するためのものであり、5桁用の文法は、各局番毎の数字を認識するためのものである。信号対雑音比が小さい場合には、音声認識の困難性は著しく高くなる。この場合でも、音声認識結果として推定する数字列の桁数が少ない場合には、正解の数字列を得る可能性が著しく高くなる。この理由から、信号対雑音比が小さい場合には、5桁用の文法を採用して、市外局番、市内局番等を個別に認識して、確実に電話番号の認識結果を得る。
【0049】
即ち、図3のようなウェアラブル機器の音声認識システムにおいて、周囲の雑音が強い、または発声の音量が小さいことによって信号対雑音比が小さい場合であっても、認識させる桁数を局番ずつにすることで認識の正確性を向上させ、電話番号の確実な認識を可能にする。
【0050】
逆に、入力音声信号の信号対雑音比が大きい場合には、11桁用の文法を採用して電話番号を認識させる。信号対雑音比が大きい場合には、音声認識の困難性は低くなる。この場合には、電話番号を一気に音声認識可能とすることによって、スムーズな入力を可能にする。
【0051】
また、同様の仕組みで次のような変形例を挙げることができる。制御用特徴量に周囲騒音を用いるとする。前述のように、周囲騒音が強い場合は人の発声は大声になり、長い文章は発声しないことが自然である。よって、発声も短い単位で区切られ易い。そこで音声入力装置である装置を音声で操作するとしてその機器に名前がついているとする。このとき、周囲騒音が閾値より大きくない場合は「“(機器名)”“電源”“終了”」もしくは「“電源”“終了”“(機器名)”」という複数単語の連続音声認識で、きまった順序を許容する文法を用いる。周囲騒音が大きい場合は「(機器名)」「電源」「終了」のように単語ずつの発声を受容し、単語ごとに処理を行うことで、発声にあわせた認識を行うことが出来る。
【0052】
他にも例えば、制御用特徴量として音量を用いて、小さい声で発声することによってコマンドとしての単語認識を実行させ、大きい声で発声することによって複雑な命令を可能とする連続単語認識を実行させることが可能となる。
【0053】
このように、本実施の形態においては、ユーザが特に操作をすることなく、周囲環境に合わせた音声認識を行うことができる。
【0054】
なお、図5においては、閾値に対して2つの文法を相互に切換える例を説明したが、閾値に対応する文法が3つ以上ある場合や、制御用特徴量に対して任意の関数によって連続的に音声認識に用いる文法を制御する方法も考えられる。また、本実施の形態は電話番号の認識を例にとって11桁と5桁の連続数字認識用の文法を用いる例について説明したが、その他の桁数や電話番号認識以外の文法にも同様に適用可能であることは明らかである。
【0055】
図6は本発明の第4の実施の形態に係る音声認識方法を示すフローチャートである。図6において図4と同一のステップには同一符号を付して説明を省略する。本実施の形態は図1と同様のハードウェア構成によって実現可能である。
【0056】
本実施の形態は、制御用特徴量として信号対雑音比を用い、これにより音声認識に用いる語彙辞書及び文法の双方を制御するようにしたものである。
【0057】
音声信号の取込みは、図4の第2の実施の形態と同様に行われる。図6のステップS11において、入力音声信号の制御用特徴量が求められ、ステップS12において、算出した信号対雑音比を予め設定されている閾値と比較する点も第2の実施の形態と同様である。
【0058】
本実施の形態においては、信号対雑音比が閾値よりも大きい場合には、ステップS31において、ディクテーション用の認識語彙を含む語彙辞書を用いると共にそのための文法を選択する。逆に、信号対雑音比が閾値よりも小さい場合には、ステップS32において、単語認識用の語彙を含む語彙辞書を用いると共にそのための文法を選択する。
【0059】
このように構成された実施の形態においては、入力音声信号の信号対雑音比に従って、使用する語彙辞書としてディクテーション用か単語認識用かが選択される。信号対雑音比が閾値よりも大きい場合には、大きい認識語彙と汎用的な文法によるディクテーションと呼ばれる大語彙連続音声認識処理が選択される。逆に、信号対雑音比が閾値よりも小さい場合には、機器制御に必要な最低限の小語彙と単語認識のみの文法による音声認識処理が選択される。
【0060】
これにより、例えばウェアラブル機器の音声認識システムにおいて、周囲の雑音が比較的強かったり、或いは自分自身しか聞こえないような小音量の声で発声したりする場合であっても、機器制御用の単語認識については正確な認識結果を得ることを可能にする。
【0061】
逆に、周囲の雑音が比較的小さい場合やはっきりとした比較的大きな音量で話をする場合等においては、ディクテーションによって発声内容の全てを音声認識することを可能にする。これにより、会議録システムや自動で日記をつける場合等に有効である。
【0062】
このように、本実施の形態においても、ユーザが特に操作をすることなく、周囲環境や使用状況に合わせて確実な音声認識を可能とすることができる。
【0063】
なお、制御用特徴量としては1種類の特徴量を用いるだけでなく、複数種類の特徴量を組み合わせて用いてもよい。例えば、信号対雑音比と音量とを求め、これらの値に重み付けを付して、制御用特徴量として用いるようにしてもよい。
【0064】
また、上記各実施の形態では語彙辞書と文法を制御用特徴量に対して設定する際に、前記二つが必ず同期して設定されねばならないということに限定しない。例えば一次元の制御用特徴量に対し、閾値が二つAとBあって、音声認識のタスクは連続数字認識とする。このとき、制御用特徴量がA以下なら、各数字一通りの読みを語彙として文法は五桁まで、AとBの間なら文法はそのままで語彙は数字のゼロを「まる」や「れい」といった別読みを許して語彙を増やし、B以上なら別読みも認めた語彙で文法も11桁まで許すといった処理も考えられる。
【0065】
更に、上記各実施の形態は、制御用特徴量以外のパラメータを用いて、音声認識を制御する例に適用することも可能である。図7はこの場合の処理を説明するための説明図である。
【0066】
上記各実施の形態においては、制御用特徴量と閾値とを比較して認識語彙等を切換える例を説明したが、認識語彙の各要素に対応するパラメータによって認識に用いるか否かを制御するようにしてもよい。図7は認識語彙に対するパラメータを表している。
【0067】
図7において、「電源オン」、「機能呼び出し」は、図2の例で挙げた音声認識システムの認識語彙を示している。そして、各認識語彙毎に音声認識に用いるか否かを表すパラメータが、例えば図1の記憶領域部12等に記憶されている。なお、図7では、認識に用いる場合には○印で示し、用いない場合には×印で示している。即ち、図7では、「電源オン」の音声入力については音声認識し、「機能呼び出し」の音声入力は音声認識しないことを示している。
【0068】
なお、図7は概念を示したもので、実際には、認識語彙の要素に対するパラメータはメモリ上での電気的な値等で処理される。パラメータの値は変更可能であり、状況に応じて認識に使う要素と使わない要素とを切換え制御することができる。
【0069】
また、パラメータとして、制御用特徴量に対する閾値を設定することも可能である。即ち、閾値をパラメータとして、ユーザや高次のエージェントが他の機器やセンサからの入力に応じて語彙辞書及び文法を適宜設定可能とすることにより、一層実用的な認識が可能となる。例えば図4で説明した実施の形態において、ハムノイズの強さで室内か屋外か判定する場合に、部屋によってはそれほどハムノイズが検出されない場合もある。画像センサのような音声以外のセンサからの情報によって、上記各実施の形態における音声認識装置以外のシステムで現在の状況が室内か屋外かを判断し、その結果を受けて、音声認識装置の閾値が前記画像センサの判断と同様になるように閾値を適応的に変えていく。変え方としては誤り訂正学習のような一般的な学習法で可能であり、ここではその詳細は省略する。さらにこのようなパラメータはユーザ自身が設定することもできても構わない。設定の方法としては一般的なユーザ・インタフェースで実現出来るものとする。これらのように、制御用特徴量以外のパラメータも関与させることで、より周囲環境や使用状況にあった音声認識を可能とする。
【0070】
更に、上記各実施の形態は制御特徴量による語彙辞書や文法の設定結果について、どのような設定をしたかの情報を音声認識装置外に出力することができる。この本発明の第5の実施の形態について図8を用いて説明する。図8において図4と同一のステップには同一符号を付して説明を省略する。本実施の形態は図1と同様のハードウェア構成によって実現可能である。
【0071】
本実施の形態においては、図5の実施の形態と同様な制御用特徴量と文法を用いることにする。音声の取り込みから信号対雑音比と閾値を比較するところまでは前述の図5の説明と同じである。そして比較するステップS12の結果に対して文法を適切に設定するステップS41、音声認識を実行するステップS15、認識結果を出力するステップS16についてはこれまでの実施の形態と同様であるので省略する。本実施の形態では、比較するステップS12の結果を受けて、CPU11で出力内容を決定する。ここでは信号対雑音比が閾値より大きかったため11桁文法の連続音声認識をすることになったので、「電話番号を全桁発声して下さい」というメッセージと、それに伴う音声メッセージをステップS42において生成するものとする。これらのメッセージは予め記憶領域部12にあるものを呼び出してもよいし、信号処理部13を利用して音声合成等をしてもよいものとする。他にもメッセージ生成法は考えられるがここでは詳細は省略する。前記生成されたメッセージはステップS43において、通信部14によって音声認識システム外に伝えられる。その結果、音声認識システムの組み込まれたウェアラブル・コンピュータ25は、適当なタイミングで、音声認識システムがどのような入力を受け付けるかをユーザに伝えることが出来る。
【0072】
【発明の効果】
以上説明したように本発明によれば、周囲の環境や使用状況に応じて語彙辞書及び認識語彙の結びつきを規定する文法を自動的に設定することができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る音声認識装置を示すブロック図。
【図2】図1の構成をウェアラブルの音声認識装置に適用した例を示す説明図。
【図3】第1の実施の形態の動作を説明するためのフローチャート。
【図4】本発明の第2の実施の形態に係る音声認識方法を示すフローチャート。
【図5】本発明の第3の実施の形態に係る音声認識方法を示すフローチャート。
【図6】本発明の第4の実施の形態に係る音声認識方法を示すフローチャート。
【図7】認識語彙に対するパラメータを示す説明図。
【図8】本発明の第5の実施の形態の動作を説明するためのフローチャート。
【符号の説明】
S1…特徴量の取得処理、S2…語彙辞書の選択処理、S3…文法の選択処理、S4…音声認識処理、S5…音声認識結果の出力処理。
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech recognition device, a speech recognition method, and a speech recognition program suitable for recognizing speech input of a wearable or portable device.
[0002]
[Prior art]
2. Description of the Related Art In recent years, practical use of a speech recognition engine in a real environment has been active with improvement in performance of speech recognition technology. In particular, in situations where input devices such as car navigation systems and mobile devices are limited, expectations for speech recognition are great. In addition, mobile phones and mobile personal computers have become widespread, and attempts have been made to develop speech recognition devices used in portable and wearable devices.
[0003]
The speech recognition device calculates a representative vector sequence corresponding to a recognition result and a similarity with respect to a recognition time series of an input speech, and calculates a likelihood for a hypothesis composed of a statistical phoneme model. By doing so, a recognition result can be obtained from the comparison result. Furthermore, by performing a conversion process on the phoneme model sequence of such a recognition result, a character string (a hiragana string or a kanji mixed sentence in Japanese, an alphabet string in English) corresponding to the recognition result can be obtained.
[0004]
In general, in Japanese continuous speech recognition, it is difficult to identify similar consonants such as phonemes / b /, / d /, and / g /, and it is difficult to identify when the same vowel is continuous such as "correct speech". Although it depends, unvoiced vowels such as / ok (u) rimas (u) / etc., nasalization of / g / in / kaigi /, ng /, pronunciation change due to surrounding phoneme environment, and utterance when ambient noise is strong. It has been pointed out that recognition may be difficult due to the Lombard effect that changes form. Not only in Japanese but also in speech recognition devices, considering the case where the accuracy of phoneme recognition is not always high, and the fact that there is a change in utterance due to phoneme environment or surrounding environment, the appropriate By associating with a vocabulary dictionary including a phoneme sequence, a speech recognition result can be made appropriate.
[0005]
Further, in order to improve the accuracy of the speech recognition result, the speech recognition device uses various vocabulary dictionaries depending on the application. This is because the process of estimating a correct word from the recognition result requires a vocabulary dictionary corresponding to the purpose and situation of voice input. Furthermore, in the process of estimating the correct word from the recognition result, the grammar used to define the recognition vocabulary and its connection is appropriately set according to the type of speech input that can vary depending on the surrounding environment and the purpose of speech. It is possible to improve the accuracy of the results.
[0006]
[Problems to be solved by the invention]
In this way, by changing the grammar and vocabulary dictionary used by the speech recognition device when estimating the recognition result according to the type of input speech, it is possible to perform speech recognition in accordance with the surrounding environment and usage conditions, It is possible to improve the accuracy of the data.
[0007]
Generally, the grammar and vocabulary dictionary used for estimating speech recognition are changed by the user's own operation. Further, for example, an application such as a car navigation system may change the grammar and the vocabulary dictionary according to the input mode. For example, the grammar and the vocabulary dictionary are changed between when a telephone number is input and when a place name is input. Then, when a telephone number is input, only a digit string corresponding to the number of digits of the telephone number can be obtained as a recognition result, and when a place name is input, only a character string existing as a place name can be obtained as a speech recognition result. Further, a device for automatically determining the speaker to use and switching between the grammar and the vocabulary dictionary has also been considered.
[0008]
However, there is no system that automatically changes an appropriate grammar or vocabulary dictionary according to the surrounding environment and usage conditions. For this reason, it is necessary for the user or the system using voice recognition to switch the grammar and vocabulary dictionary to be used in consideration of the surrounding environment, the use situation, and the like in voice recognition, and the operation is complicated.
[0009]
JP-A-2000-338986 discloses a technique for changing a dictionary pattern depending on whether the user's voice is loud or loud. However, even in this case, the grammar and the vocabulary dictionary cannot be switched according to the surrounding environment and the use situation.
[0010]
Also, Japanese Patent Application Laid-Open No. 07-13591 discloses a technology that includes a noise state detection unit and limits recognition vocabulary according to the noise state, thereby improving recognition performance under noise. However, first, in Japanese Patent Application Laid-Open No. 07-13591, the purpose of voice utterance is one, and the main purpose is to maintain voice recognition performance even with respect to ambient noise. In other words, the purpose of using the voice recognition device is not changed in accordance with the difference in the surrounding conditions, such as changing indoors and outdoors or between an office room and a car. Second, when the Lombard effect causes distortions in vocalizations or when the purpose or surroundings change, it does not correspond to the case where the vocabulary dictionary must be reflected in an appropriate phoneme sequence. The grammar that defines the connection is irrelevant.
[0011]
An object of the present invention is to provide a speech recognition device, a speech recognition method, and a speech recognition program that can automatically set a grammar that defines a connection between a vocabulary dictionary and a recognized vocabulary according to a surrounding environment and a use situation. And
[0012]
[Means for Solving the Problems]
A speech recognition apparatus according to the present invention includes: a feature amount acquiring unit that acquires an acoustic feature amount of an input speech signal; and a recognition unit that is used in speech recognition of an input speech based on the feature amount acquired by the feature amount acquiring unit. Voice recognition control means for controlling at least one of vocabulary and grammar, and voice for performing pattern recognition on a recognition time series obtained from the input voice according to the recognition vocabulary and grammar set by the voice recognition control means And recognition means.
[0013]
In the present invention, the characteristic amount obtaining means obtains an acoustic characteristic amount of the input audio signal. The speech recognition control means controls at least one of a recognition vocabulary and a grammar used for speech recognition of the input speech based on the acquired feature amount (control feature amount). The voice recognition means performs pattern recognition on the recognition time series obtained from the input voice according to the recognition vocabulary and grammar set by the setting. This makes it possible to change the task according to the surrounding environment and the utterance, to enable speech recognition according to the scene, and to enable optimal speech recognition processing in accordance with the noise of the surrounding environment.
[0014]
Note that the present invention relating to the apparatus is also realized as an invention relating to a method.
[0015]
Further, the present invention according to the apparatus is also realized as a program for causing a computer to realize processing corresponding to the present invention.
[0016]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing a voice recognition device according to a first embodiment of the present invention.
[0017]
How to design a vocabulary dictionary used for speech recognition affects the difficulty and accuracy of speech recognition. Since unregistered words cannot be recognized, all patterns corresponding to the vocabulary used and changes in utterance must be registered. On the other hand, if the vocabulary increases, the search range of the hypothesis increases and the performance tends to decrease. Therefore, it is necessary to set a vocabulary dictionary according to the purpose and situation of speech recognition. The possibility of obtaining a recognition result that matches the spoken voice is reduced. Conversely, when the number of words registered in the vocabulary dictionary is large, speech recognition processing becomes difficult, but the possibility of obtaining a recognition result that matches the generated speech increases.
[0018]
Voice recognition also changes depending on the grammar settings. For example, if only one word is permitted, word recognition is performed. In some cases, commands to the system are recognized by continuous speech in a sequence such as "command word" + "command target". Japanese grammar is acceptable. This will greatly affect the task and purpose of speech recognition, such as recognizing Japanese dictation. Alternatively, when a grammar that defines the number of digits of a digit string is adopted as a recognition result, for example, a grammar that permits the output of three digits and a grammar that allows the output of ten digits are used. Recognition processing is easier when a grammar that allows digit output is adopted than when a grammar that allows 10-digit output is adopted. In other words, in situations where speech recognition is difficult, the same purpose or vocabulary can be handled by changing the grammar. In other words, grammar needs to be designed according to the purpose and situation. In the present embodiment, by changing the vocabulary dictionary and the grammar in this way, speech recognition processing according to the surrounding environment, the use situation, and the like is enabled.
[0019]
In FIG. 1, the speech recognition device 10 includes a central processing unit (hereinafter, referred to as a CPU) 11, a storage area unit 12, a signal processing unit 13, and a communication unit 14. The CPU 11 controls and calculates a procedure necessary for executing the processing.
[0020]
The storage area unit 12 stores processing procedures, recognition vocabulary required for speech recognition, grammar, and various dictionary information required for pattern matching, a storage area serving as a temporary work area required for processing, Further, it has various storage areas such as an area for storing audio signals and output results. The storage area unit 12 also includes an area used for storing information such as parameters required for various controls. The storage area unit 12 can be configured by electronic components such as a semiconductor memory and a magnetic disk, and electronic components having similar functions.
[0021]
The signal processing unit 13 performs a process of sampling an analog signal from the microphone 15 and converting it into a digital signal, a Fourier transform process for analyzing a frequency component, and converts a recognition result of voice recognition into an appropriate output form. And so on. The signal processing unit 13 can be configured by an electronic component such as a signal processing chip.
[0022]
The communication unit 14 receives a wired or wireless audio signal from the microphone 15 and converts it into a signal form that can be processed by the speech recognition device, and also converts the speech recognition result into a signal form that is output to another device 16. To communicate. This communication unit 14 can also be formed of electronic components.
[0023]
In addition, for each component of the above-described speech recognition device, a part of the configuration is shared with a device that performs another function, or a part of the configuration is performed by a program or a process that performs the same type of function even if it is not an electronic component. It may be configured to provide a similar function.
[0024]
Note that the voice recognition device in FIG. 1 can be realized by causing a personal computer (hereinafter, referred to as a PC) to execute a program that performs the same operation as the CPU 11, the storage area unit 12, and the communication unit 14. In addition, the function mainly based on the operation by the signal processing unit 13 or the like may be performed by the CPU 11 using the process name as the signal processing.
[0025]
In the present embodiment, the CPU 11 controls each unit to acoustically analyze the audio signal from the microphone 15, and obtains the characteristic amount of the surrounding environment (input audio signal) from the analysis result. Since this feature amount is used for controlling the setting of a vocabulary dictionary and grammar as described below, it will be referred to as a control feature amount. For example, a signal-to-noise ratio (S / N ratio) of an input audio signal can be used as the feature amount. Alternatively, the input voice may be frequency-analyzed for each of a plurality of predetermined frequency bands, and the characteristic amount may be obtained from the analysis result for each frequency band. For example, the characteristic amount can be obtained by various filters, Fourier transform processing, or the like. Further, a time series for recognition used for speech recognition is obtained from the speech signal by acoustic analysis. As the feature time series for recognition, a known time series for recognition used in speech recognition, such as a mel cepstrum and a band pass filter value, can be used. Since these are known, the derivation of the time series will be omitted hereinafter. Also, in the present embodiment, the control feature amount may be the same as the recognition time series, or a part thereof may be the same, or the other may be calculated from one.
[0026]
In the present embodiment, the CPU 11 controls each unit to set a vocabulary dictionary for using a recognized vocabulary corresponding to the characteristic amount of the surrounding environment, or to set a grammar corresponding to the characteristic amount of the surrounding environment. It is controlled so that it can be used for speech recognition or both.
[0027]
Such a voice recognition device 10 can be applied to, for example, a wearable device. FIG. 2 is an explanatory diagram showing an example in which the configuration of FIG. 1 is applied to a speech recognition device of a wearable device.
[0028]
By attaching the pin microphone 22 corresponding to the microphone 15 in FIG. 1, the user 21 can take in the voice of the user, surrounding sounds, and the like as an audio signal with the microphone 22. The captured voice signal is transmitted via a cable 23 to a voice recognition system 24 corresponding to the voice recognition device 10 in FIG. The voice recognition system 24 is a part of the wearable computer 25, and the voice recognition result is transmitted to the wearable computer 25. The wearable computer 25 uses the speech recognition result for various applications.
[0029]
It is clear that the present embodiment is not limited to the use example of FIG. 2 and is applicable not only to wearable devices but also to portable terminals and the like. Further, for example, a microphone other than the pin microphone 22 or a plurality of microphones may be used. Also, the audio signal may be transmitted by a short-range wireless communication such as Bluetooth instead of a cable, and the audio recognition system may output the audio recognition result to a plurality of information devices other than the wearable computer 25. It is possible.
[0030]
Next, the operation of the embodiment configured as described above will be described with reference to the flowchart of FIG.
[0031]
An audio signal from the microphone 15 is received via the communication unit 14. In step S1 in FIG. 3, the signal processing unit 13 is controlled by the CPU 11 to obtain a feature amount (control feature amount) of the input audio signal. The CPU 11 selects a vocabulary dictionary including a recognition vocabulary used for speech recognition based on the obtained control feature amount (step S2), and sets a grammar used for speech recognition (step S3).
[0032]
In step S4, speech recognition processing by pattern matching is performed using the selected vocabulary dictionary and grammar. It is assumed that this speech recognition processing can be realized by a known speech recognition technique in accordance with the time series for recognition. Here, the details do not matter. This speech recognition processing result is output to another device 16 via the communication unit 14 (step S5).
[0033]
As described above, in the present embodiment, the feature amount of the audio signal taken in from the microphone is detected, and the vocabulary dictionary and the grammar are determined according to the control feature amount. This makes it possible to select a vocabulary dictionary and a grammar according to the surrounding environment, the use situation, and the like at the time of speech recognition, and it is possible to optimize the speech recognition processing according to the surrounding environment, the use situation, and the like. That is, while a user or an application using a speech recognition result conventionally changes a vocabulary dictionary and a grammar including a recognition vocabulary to be used according to a task, in the present embodiment, the control feature amount is changed. The vocabulary dictionary and the grammar can be automatically set by using the vocabulary dictionary, and a complicated operation of the user is not required, and the optimum speech recognition according to the surrounding environment and the like can be performed.
[0034]
FIG. 4 is a flowchart showing a voice recognition method according to the second embodiment of the present invention. Here, description will be made focusing on an example in which a vocabulary dictionary is set according to the control feature amount. This embodiment can be realized by the same hardware configuration as in FIG.
[0035]
In the present embodiment, the strength of hum noise is used as a control feature amount, and thereby the recognition vocabulary used for speech recognition is controlled. The method of obtaining the strength of the hum noise is represented by, for example, the signal strength at 50 Hz or 60 Hz and its harmonics. However, the method of determining the strength of the hum noise is not limited to the above. Further, the method of obtaining the control characteristic amount used in the following description is not limited to the method of the present invention, but an existing signal processing method can be used. Is omitted.
[0036]
The audio signal captured by the microphone 15 in FIG. 1 or the pin microphone 22 in FIG. 2 is provided to the voice recognition device 10 and its feature amount is obtained. That is, in step S11 of FIG. 4, signal processing is performed on an input audio signal, the strength of hum noise is calculated, and the calculation result is used as a control feature amount.
[0037]
Next, in step S12, the calculated hum noise intensity is compared with a preset threshold value. If the strength of the hum noise is larger than the threshold value, it is determined that the home power supply is close to the environment or indoors, and in step S13, an indoor vocabulary dictionary such as operation of indoor home appliances is adopted. Conversely, if the strength of the hum noise is smaller than the threshold value, it is determined that the home power supply is not in the surroundings, that is, outdoors, and in step S14, for example, the vocabulary or the vocabulary registered when using the voice recognition device outdoors. A vocabulary dictionary with no vocabulary for indoor device operation is adopted.
[0038]
In the next step S15, speech recognition is performed using the adopted vocabulary dictionary. The speech recognition result is output to an application or the like that uses the speech recognition result.
[0039]
Next, as a modified example of the second embodiment, an example in which a signal-to-noise ratio is used as a control feature amount will be described. If the signal-to-noise ratio of the input speech signal is small, it is unsuitable for speech recognition. Therefore, speech recognition is performed using a vocabulary dictionary in which commands are recognized vocabulary in order to operate the device at a minimum. When the signal-to-noise ratio of the input speech signal is large, speech recognition is relatively easy, and speech recognition is performed using a vocabulary dictionary with vocabulary that is not limited to minimum device operation. By doing this, the power supply of the voice input device can be turned off by making a simple utterance such as “input end” when the minimum device operation is performed, and when the signal-to-noise ratio is large, As in the case of "end input" or "end of device operation", the number of vocabularies that can be operated can be increased, and the vocabulary content can be changed with the same operation. The flowchart in this case can be constituted by the same one as in FIG. .
[0040]
Further, the following modified examples are also conceivable. It is assumed that the ambient noise level at the time of no sound is used as the control feature amount. At this time, if the ambient noise is strong, the human utters a loud voice in accordance with the noise and the utterance is distorted (the Lombard effect). Therefore, when there is no Lombard effect, for example, even if the pronunciation of "recognition" is registered as "Ninshiki", speech recognition can be performed, but if there is a Lombard effect, the pronunciation is rather registered as "Inshinki" due to vocal distortion. You may want to put it. In this way, the vocabulary dictionary can be appropriately set according to the ambient noise. In a situation where the ambient noise is strong and the user tends to utter loudly, it is more natural for the user to make a short utterance. Therefore, for example, if the ambient noise is strong even if the command has the same operation content, the abbreviation word is used as a voice command, otherwise, a normal command is spoken so that the device can be operated by uttering a normal vocabulary. You can also set up a dictionary.
[0041]
As described above, in the present embodiment, it is possible to perform voice recognition in which an appropriate vocabulary is set in accordance with the surrounding environment and the use situation without any special operation by the user.
[0042]
In FIG. 4, an example in which two vocabulary dictionaries are switched with respect to the threshold value is described. However, when there are three or more vocabulary dictionaries corresponding to the threshold value, or when an arbitrary function is used for the control feature amount. A method of continuously controlling the recognition vocabulary used for speech recognition is also conceivable. When there are a plurality of vocabulary dictionaries, a method of associating the control feature amounts of the multidimensional vector with the vocabulary dictionaries using a mapping function obtained by discriminant analysis or the like may be considered.
[0043]
FIG. 5 is a flowchart showing a voice recognition method according to the third embodiment of the present invention. Here, an example in which the grammar is set according to the control feature amount will be described. In FIG. 5, the same steps as those in FIG. 4 are denoted by the same reference numerals, and description thereof will be omitted. However, in step S12 in which the comparison is performed using the control feature amounts, although different control feature amounts are used in FIGS. 4 and 5, the operation as a flowchart is the same. The same reference numerals are used. This embodiment can be realized by the same hardware configuration as in FIG.
[0044]
In the present embodiment, a signal-to-noise ratio is used as a control feature amount, thereby controlling a grammar or the like that defines a connection between recognition vocabularies used for speech recognition. FIG. 4 shows an example in which a telephone number is recognized for a voice signal as a task.
[0045]
The acquisition of the audio signal is performed in the same manner as in the second embodiment shown in FIG. In step S11 of FIG. 5, the control feature amount of the input audio signal is obtained, and in step S12, the calculated signal-to-noise ratio is compared with a preset threshold value, similarly to the second embodiment. is there.
[0046]
In the present embodiment, when the signal-to-noise ratio is larger than the threshold, a grammar for 11-digit recognition is selected in step S21. Conversely, if the signal-to-noise ratio is smaller than the threshold, a grammar for five-digit recognition is selected in step S22.
[0047]
In the embodiment configured as described above, the grammar to be used changes according to the signal-to-noise ratio of the input speech signal. To explain an example of performing a telephone number recognition on a voice signal as a task, a grammar for 11 digits is adopted when the signal-to-noise ratio is large, and a grammar for 5 digits is adopted when the signal-to-noise ratio is small. Adopted.
[0048]
The grammar for 11 digits is for recognizing continuous digits up to 11 digits, and the grammar for 5 digits is for recognizing digits for each station number. When the signal-to-noise ratio is small, the difficulty of speech recognition becomes significantly higher. Even in this case, when the number of digits of the number string estimated as the speech recognition result is small, the possibility of obtaining a correct number string is significantly increased. For this reason, when the signal-to-noise ratio is small, a five-digit grammar is adopted, and the area code, the local code, and the like are individually recognized to reliably obtain the telephone number recognition result.
[0049]
That is, in the speech recognition system of a wearable device as shown in FIG. 3, even if the surrounding noise is strong or the signal-to-noise ratio is low due to the low volume of the utterance, the number of digits to be recognized is determined by the station number. This improves the accuracy of recognition and enables reliable recognition of telephone numbers.
[0050]
Conversely, when the signal-to-noise ratio of the input voice signal is large, the telephone number is recognized by employing grammar for 11 digits. When the signal-to-noise ratio is large, the difficulty of speech recognition decreases. In this case, the telephone number can be voice-recognized at once, thereby enabling a smooth input.
[0051]
Further, the following modifications can be given by the same mechanism. It is assumed that ambient noise is used as the control feature. As described above, when the ambient noise is strong, it is natural that a person utters a loud voice and does not utter long sentences. Therefore, the utterance is also easily divided into short units. Therefore, it is assumed that a device which is a voice input device is operated by voice and the device is named. At this time, if the ambient noise is not greater than the threshold, the continuous voice recognition of a plurality of words such as "((device name)", "power", "end" or "" power "" end "" (device name) " Use a grammar that allows a fixed order. When the ambient noise is loud, utterances of words such as “(device name)”, “power supply”, and “end” are accepted, and processing is performed for each word, so that recognition in accordance with the utterance can be performed.
[0052]
In addition, for example, using a volume as a control feature, uttering a small voice to execute word recognition as a command, and uttering a loud voice to execute a continuous word recognition that enables a complex command. It is possible to do.
[0053]
As described above, in the present embodiment, speech recognition can be performed in accordance with the surrounding environment without the user performing any particular operation.
[0054]
In FIG. 5, an example in which two grammars are switched to each other with respect to the threshold is described. However, when there are three or more grammars corresponding to the threshold, or when the control feature is continuously changed by an arbitrary function. A method for controlling the grammar used for speech recognition is also conceivable. Further, the present embodiment has been described with respect to an example in which a grammar for recognizing 11-digit and 5-digit continuous digits is used for recognition of a telephone number as an example. However, the present invention is similarly applied to grammars other than the number of digits and telephone number recognition. Clearly, it is possible.
[0055]
FIG. 6 is a flowchart illustrating a voice recognition method according to the fourth embodiment of the present invention. 6, the same steps as those in FIG. 4 are denoted by the same reference numerals, and the description will be omitted. This embodiment can be realized by the same hardware configuration as in FIG.
[0056]
In the present embodiment, a signal-to-noise ratio is used as a control feature amount, thereby controlling both a vocabulary dictionary and a grammar used for speech recognition.
[0057]
The acquisition of the audio signal is performed in the same manner as in the second embodiment shown in FIG. In step S11 of FIG. 6, the control feature amount of the input audio signal is obtained, and in step S12, the calculated signal-to-noise ratio is compared with a preset threshold value, similarly to the second embodiment. is there.
[0058]
In the present embodiment, when the signal-to-noise ratio is larger than the threshold, in step S31, a vocabulary dictionary including a recognition vocabulary for dictation is used and a grammar for it is selected. On the other hand, when the signal-to-noise ratio is smaller than the threshold, in step S32, a vocabulary dictionary including vocabularies for word recognition is used and a grammar for the vocabulary is selected.
[0059]
In the embodiment configured as above, the vocabulary dictionary to be used is selected for dictation or word recognition according to the signal-to-noise ratio of the input speech signal. When the signal-to-noise ratio is larger than the threshold, a large vocabulary continuous speech recognition process called dictation using a large vocabulary and a general grammar is selected. Conversely, when the signal-to-noise ratio is smaller than the threshold value, a speech recognition process based on a grammar using only the minimum small vocabulary and word recognition necessary for device control is selected.
[0060]
Thus, for example, in a voice recognition system of a wearable device, even when the surrounding noise is relatively strong or the voice is uttered with a low volume that can be heard only by itself, the word recognition for device control is performed. Enables accurate recognition results to be obtained.
[0061]
Conversely, when the surrounding noise is relatively small or when the user speaks at a clear and relatively large volume, the dictation allows all of the uttered contents to be recognized by voice. This is effective in the case of a meeting record system or a case where a diary is automatically recorded.
[0062]
As described above, also in the present embodiment, it is possible to perform reliable voice recognition in accordance with the surrounding environment and the use situation without any special operation by the user.
[0063]
In addition, not only one kind of feature amount may be used as the control feature amount, but a plurality of types of feature amounts may be used in combination. For example, a signal-to-noise ratio and a sound volume may be obtained, and these values may be weighted and used as control feature amounts.
[0064]
Further, in each of the above embodiments, when the vocabulary dictionary and the grammar are set for the control feature quantity, the present invention is not limited to the two sets which must be set in synchronization. For example, there are two thresholds A and B for a one-dimensional control feature, and the task of voice recognition is continuous digit recognition. At this time, if the control feature value is A or less, the grammar is up to five digits using the reading of each digit as a vocabulary, and if between A and B, the grammar is the same and the vocabulary changes the number zero to "maru" or "rei". It is also conceivable to increase the vocabulary by permitting the separate reading, and if the reading is B or more, the vocabulary for which the separate reading is permitted and the grammar up to 11 digits are also possible.
[0065]
Furthermore, each of the above embodiments can be applied to an example in which speech recognition is controlled using parameters other than the control feature amount. FIG. 7 is an explanatory diagram for explaining the processing in this case.
[0066]
In each of the above embodiments, an example has been described in which the recognition vocabulary and the like are switched by comparing the control feature amount with the threshold. However, whether to use for recognition is controlled by a parameter corresponding to each element of the recognition vocabulary. It may be. FIG. 7 shows parameters for the recognized vocabulary.
[0067]
In FIG. 7, “power on” and “function call” indicate the recognition vocabulary of the speech recognition system illustrated in the example of FIG. Then, a parameter indicating whether to use for speech recognition for each recognition vocabulary is stored in, for example, the storage area unit 12 in FIG. In FIG. 7, when used for recognition, it is indicated by a circle, and when not used, it is indicated by a cross. That is, FIG. 7 shows that the voice input of “power on” is recognized by voice, and the voice input of “call function” is not recognized.
[0068]
FIG. 7 shows the concept. In practice, the parameters for the elements of the recognized vocabulary are processed by electrical values or the like on the memory. The value of the parameter can be changed, and the element used for recognition and the element not used can be switched and controlled according to the situation.
[0069]
It is also possible to set a threshold value for the control feature amount as a parameter. In other words, the user or higher-order agent can appropriately set the vocabulary dictionary and the grammar according to the input from other devices or sensors using the threshold as a parameter, thereby enabling more practical recognition. For example, in the embodiment described with reference to FIG. 4, when judging whether indoor or outdoor is based on the intensity of hum noise, hum noise may not be detected so much depending on the room. Based on information from a non-voice sensor such as an image sensor, the system other than the voice recognition device in each of the above embodiments determines whether the current situation is indoor or outdoor, and receives the result, and sets the threshold value of the voice recognition device. The threshold value is adaptively changed so as to be the same as that of the image sensor. The changing method can be a general learning method such as error correction learning, and the details are omitted here. Further, such parameters may be set by the user himself. As a setting method, it can be realized by a general user interface. As described above, by involving parameters other than the control feature amount, speech recognition more suited to the surrounding environment and the use situation can be performed.
[0070]
Further, in each of the above-described embodiments, information on what setting has been made regarding the setting result of the vocabulary dictionary and the grammar based on the control feature amount can be output to the outside of the speech recognition device. A fifth embodiment of the present invention will be described with reference to FIG. 8, the same steps as those in FIG. 4 are denoted by the same reference numerals, and description thereof will be omitted. This embodiment can be realized by the same hardware configuration as in FIG.
[0071]
In the present embodiment, the same control features and grammar as in the embodiment of FIG. 5 will be used. The process up to the point at which the signal-to-noise ratio is compared with the threshold from the capture of the voice is the same as that described with reference to FIG. Step S41 of appropriately setting the grammar for the result of step S12 to be compared, step S15 of executing speech recognition, and step S16 of outputting the recognition result are the same as those in the previous embodiments, and thus will not be described. In the present embodiment, the output contents are determined by the CPU 11 in response to the result of the step S12 for comparison. In this case, since the signal-to-noise ratio is larger than the threshold value, continuous voice recognition with 11-digit grammar is performed. Therefore, a message “Please utter all digits of the telephone number” and a voice message accompanying the message are generated in step S42. It shall be. These messages may be called out in the storage area unit 12 in advance, or speech synthesis or the like may be performed using the signal processing unit 13. Other message generation methods are conceivable, but details are omitted here. The generated message is transmitted to the outside of the voice recognition system by the communication unit 14 in step S43. As a result, the wearable computer 25 in which the speech recognition system is incorporated can inform the user of what input the speech recognition system accepts at an appropriate timing.
[0072]
【The invention's effect】
As described above, according to the present invention, it is possible to automatically set the grammar that defines the association between the vocabulary dictionary and the recognized vocabulary in accordance with the surrounding environment and the use situation.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a speech recognition device according to a first embodiment of the present invention.
FIG. 2 is an explanatory diagram showing an example in which the configuration of FIG. 1 is applied to a wearable speech recognition device.
FIG. 3 is a flowchart for explaining the operation of the first embodiment;
FIG. 4 is a flowchart illustrating a voice recognition method according to a second embodiment of the present invention.
FIG. 5 is a flowchart showing a voice recognition method according to a third embodiment of the present invention.
FIG. 6 is a flowchart showing a voice recognition method according to a fourth embodiment of the present invention.
FIG. 7 is an explanatory diagram showing parameters for a recognized vocabulary.
FIG. 8 is a flowchart for explaining the operation of the fifth embodiment of the present invention.
[Explanation of symbols]
S1: Feature amount acquisition processing, S2: Vocabulary dictionary selection processing, S3: Grammar selection processing, S4: Speech recognition processing, S5: Speech recognition result output processing.

Claims (10)

  1. 入力音声信号の音響的な特徴量を取得する特徴量取得手段と、
    前記特徴量取得手段が取得した前記特徴量に基づいて、入力音声に対する音声認識に際して用いる認識語彙及び文法のうちの少なくとも一方の設定を制御する音声認識制御手段と、
    前記音声認識制御手段の設定による認識語彙及び文法に従って前記入力音声から得た認識用時系列に対してパターン認識を行う音声認識手段とを具備したことを特徴とする音声認識装置。
    A feature value acquiring unit for acquiring an acoustic feature value of the input audio signal;
    Based on the feature amount acquired by the feature amount acquisition unit, a speech recognition control unit that controls setting of at least one of a recognition vocabulary and a grammar used in speech recognition for input speech,
    A voice recognition unit for performing pattern recognition on a recognition time series obtained from the input voice according to a recognition vocabulary and a grammar set by the voice recognition control unit.
  2. 前記特徴量取得手段は、前記特徴量として、前記入力音声信号の信号対雑音比を用いることを特徴とする請求項1に記載の音声認識装置。The speech recognition apparatus according to claim 1, wherein the feature amount obtaining unit uses a signal-to-noise ratio of the input speech signal as the feature amount.
  3. 前記特徴量取得手段は、前記特徴量として、前記入力音声信号の音量を用いることを特徴とする請求項1に記載の音声認識装置。The voice recognition device according to claim 1, wherein the feature amount obtaining unit uses a volume of the input voice signal as the feature amount.
  4. 前記特徴量取得手段は、前記特徴量として、前記入力音声信号の周波数成分を用いることを特徴とする請求項1に記載の音声認識装置。2. The speech recognition apparatus according to claim 1, wherein the feature amount acquiring unit uses a frequency component of the input speech signal as the feature amount.
  5. 前記音声認識制御手段は、前記認識語彙を含む語彙辞書及び文法のうちの少なくとも一方を切換えることによって設定を制御することを特徴とする請求項1に記載の音声認識装置。2. The speech recognition apparatus according to claim 1, wherein the speech recognition control unit controls the setting by switching at least one of a vocabulary dictionary including the recognized vocabulary and a grammar.
  6. 前記音声認識制御手段は、前記特徴量と所定の閾値とを比較し、比較結果に応じて前記認識語彙及び文法のうちの少なくとも一方の設定を制御することを特徴とする請求項1に記載の音声認識装置。2. The speech recognition control unit according to claim 1, wherein the speech recognition control unit compares the feature amount with a predetermined threshold value, and controls at least one of the recognition vocabulary and the grammar according to a comparison result. Voice recognition device.
  7. 前記音声認識制御手段は、前記認識語彙及び文法のうちの少なくとも一方の設定を制御するパラメータを利用して、前記特徴量及び前記パラメータに基づいて、前記認識語彙及び文法のうちの少なくとも一方の設定を制御することを特徴とする請求項1に記載の音声認識装置。The voice recognition control unit uses a parameter for controlling at least one of the recognition vocabulary and the grammar, and sets at least one of the recognition vocabulary and the grammar based on the feature amount and the parameter. The voice recognition device according to claim 1, wherein
  8. 前記音声認識制御手段は、前記特徴量によって前記認識語彙及び文法のうち少なくとも一方の設定を制御し、その制御結果の情報を音声認識装置外に示せる適切な形式に変換する手段と、前記変換された制御結果情報を出力する手段を備えることを特徴とする請求項1に記載の音声認識装置。The speech recognition control unit controls at least one of the recognition vocabulary and the grammar according to the feature amount, and converts information of the control result into an appropriate format that can be displayed outside the speech recognition device. The apparatus according to claim 1, further comprising a unit configured to output the control result information.
  9. 入力音声信号の音響的な特徴量を取得する処理と、
    取得した前記特徴量に基づいて、入力音声に対する音声認識に際して用いる認識語彙及び文法のうちの少なくとも一方の設定を制御する音声認識制御処理と、
    前記音声認識制御処理の設定による認識語彙及び文法に従って前記入力音声から得た認識用時系列に対してパターン認識を行う音声認識処理とを具備したことを特徴とする音声認識方法。
    A process of acquiring an acoustic feature of the input audio signal;
    A speech recognition control process for controlling at least one of a recognition vocabulary and a grammar used for speech recognition of the input speech based on the acquired feature amount;
    A voice recognition process for performing pattern recognition on a recognition time series obtained from the input voice according to a recognition vocabulary and a grammar set by the voice recognition control process.
  10. コンピュータに、
    入力音声信号の音響的な特徴量を取得する処理と、
    取得した前記特徴量に基づいて、入力音声に対する音声認識に際して用いる認識語彙及び文法のうちの少なくとも一方の設定を制御する音声認識制御処理と、
    前記音声認識制御処理の設定による認識語彙及び文法に従って前記入力音声から得た認識用時系列に対してパターン認識を行う音声認識処理とを実行させるための音声認識プログラム。
    On the computer,
    A process of acquiring an acoustic feature of the input audio signal;
    A speech recognition control process for controlling at least one of a recognition vocabulary and a grammar used for speech recognition of the input speech based on the acquired feature amount;
    A speech recognition program for executing a speech recognition process of performing pattern recognition on a recognition time series obtained from the input speech according to a recognition vocabulary and a grammar set by the speech recognition control process.
JP2002158068A 2002-05-30 2002-05-30 Device, method and program of voice recognition Pending JP2004004182A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002158068A JP2004004182A (en) 2002-05-30 2002-05-30 Device, method and program of voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002158068A JP2004004182A (en) 2002-05-30 2002-05-30 Device, method and program of voice recognition

Publications (1)

Publication Number Publication Date
JP2004004182A true JP2004004182A (en) 2004-01-08

Family

ID=30428597

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002158068A Pending JP2004004182A (en) 2002-05-30 2002-05-30 Device, method and program of voice recognition

Country Status (1)

Country Link
JP (1) JP2004004182A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005268975A (en) * 2004-03-17 2005-09-29 Nec Corp Mobile phone and method and program for automatically reading out mail used therefor
WO2009019783A1 (en) * 2007-08-09 2009-02-12 Panasonic Corporation Voice recognition device and voice recognition method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172291A (en) * 1998-12-02 2000-06-23 Sony Corp Speech recognition device
JP2000244609A (en) * 1999-02-23 2000-09-08 Omron Corp Speaker's situation adaptive voice interactive device and ticket issuing device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172291A (en) * 1998-12-02 2000-06-23 Sony Corp Speech recognition device
JP2000244609A (en) * 1999-02-23 2000-09-08 Omron Corp Speaker's situation adaptive voice interactive device and ticket issuing device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005268975A (en) * 2004-03-17 2005-09-29 Nec Corp Mobile phone and method and program for automatically reading out mail used therefor
WO2009019783A1 (en) * 2007-08-09 2009-02-12 Panasonic Corporation Voice recognition device and voice recognition method

Similar Documents

Publication Publication Date Title
EP3132442B1 (en) Keyword model generation for detecting a user-defined keyword
O’Shaughnessy Automatic speech recognition: History, methods and challenges
US7630878B2 (en) Speech recognition with language-dependent model vectors
RU2393549C2 (en) Method and device for voice recognition
US8768701B2 (en) Prosodic mimic method and apparatus
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US7533018B2 (en) Tailored speaker-independent voice recognition system
EP2048655A1 (en) Context sensitive multi-stage speech recognition
JP4246703B2 (en) Automatic speech recognition method
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
JP6811865B2 (en) Voice recognition device and voice recognition method
JP2004004182A (en) Device, method and program of voice recognition
Kurcan Isolated word recognition from in-ear microphone data using hidden markov models (HMM)
JP2007183516A (en) Voice interactive apparatus and speech recognition method
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
JP2003058184A (en) Equipment control system, device, method and program for recognizing voice
JP3846500B2 (en) Speech recognition dialogue apparatus and speech recognition dialogue processing method
JP2004139049A (en) Speaker normalization method and speech recognition device using the same
US10854196B1 (en) Functional prerequisites and acknowledgments
US20200296784A1 (en) Routing of communications to a device
JP2005148764A (en) Method and device for speech recognition interaction
Mohanty et al. Design of an Odia Voice Dialler System
JPH08110790A (en) Sound recognizing device
JP2017068153A (en) Semiconductor device, system, electronic apparatus, and voice recognition method
CN111696530A (en) Target acoustic model obtaining method and device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050621

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050822

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060110