JP4354072B2 - 音声認識システムおよび方法 - Google Patents

音声認識システムおよび方法 Download PDF

Info

Publication number
JP4354072B2
JP4354072B2 JP2000045353A JP2000045353A JP4354072B2 JP 4354072 B2 JP4354072 B2 JP 4354072B2 JP 2000045353 A JP2000045353 A JP 2000045353A JP 2000045353 A JP2000045353 A JP 2000045353A JP 4354072 B2 JP4354072 B2 JP 4354072B2
Authority
JP
Japan
Prior art keywords
noise
model
recognition
training
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000045353A
Other languages
English (en)
Other versions
JP2000242294A (ja
Inventor
デイビット・エリック・シェバリエ
ヘンリー・エル・ケイゼッキ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JP2000242294A publication Critical patent/JP2000242294A/ja
Application granted granted Critical
Publication of JP4354072B2 publication Critical patent/JP4354072B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Machine Translation (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)
  • Control Of Amplification And Gain Control (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、音声認識(voice recognition)に関する。
【0002】
【従来の技術】
話者依存型の音声認識システムは、特徴抽出アルゴリズム(feature extraction algorithm)を利用して、入力音声のフレームに対して信号処理を実行し、各フレームを表す特徴ベクトル(feature vectors)を出力する。この処理は、フレーム・レートにて行われる。フレーム・レートは、一般に10〜30msの間であり、ここでは20msの期間として例示する。非常に多くの異なる特徴は、音声認識システムにて用いられることが知られている。
【0003】
概して、トレーニング・アルゴリズム(training algorithm)は、単語(word)または語句(phrase)の一つまたはそれ以上の発声(utterance)の標本化音声から抽出された特徴を利用して、この単語または語句のモデルのためのパラメータを生成する。このモデルは、モデル格納メモリに格納される。これらのモデルは、後で音声認識中に利用される。認識システムは、未知の発声の特徴を格納済みモデル・パラメータと比較して、最良一致(best match)を判定する。そして、最良一致モデルは、認識システムから結果として出力される。
【0004】
この処理のために隠れマルコフ・モデル(HMM:Hidden Markov Model)方式の認識システムを利用することが知られている。HMM認識システムは、発声のフレームをHMMの状態に割り当てる。最大の確率、すなわちスコアを生成するフレーム対状態の割り当ては、最良一致として選択される。
【0005】
多くの音声認識システムは、有効な発声と無効な発声とを区別しない。むしろ、これらのシステムは、格納済みモデルのうち最も近い一致であるモデルを選択する。あるシステムは、無効な発声を検出・阻止しようとするアウト・オブ・ボキャブラリ阻止アルゴリズム(Out-of-Vocabulary rejection algorithm)を利用する。これは、ボキャブラリのダイナミックなサイズおよび未知の構成のため、小さなボキャブラリの話者依存型音声認識システムでは困難な問題である。これらのアルゴリズムは雑音の多い条件下では劣化し、そのため雑音の多い条件下における誤阻止の数が増加する。
【0006】
実際には、アウト・オブ・ボキャブラリ阻止アルゴリズムは、無効な発声の適切な阻止によって測られる性能と、有効な発声の誤阻止とのバランスをとらなければならない。誤阻止レートは、利用者満足度の点で重要な役割を果たすことがあるが、これは、正しくない一致などの頻繁な誤阻止により不満が生じるためである。従って、アウト・オブ・ボキャブラリ阻止は、認識に対するユーザの期待を満たすバランスである。
【0007】
【発明が解決しようとする課題】
そのため、雑音レベルに基づいて阻止閾値を算出することが知られている。例えば、第1音声フレームの検出前に、雑音レベルを測定することが知られている。閾値は、この測定から算出される。単語基準パターンと入力音声パターンとの間の差が阻止閾値よりも大きい場合、入力は阻止される。従って、このようなシステムは、任意の雑音入力レベルに依存する。このような測定は、有意義な阻止判定を行うのには信頼できない。
【0008】
従って、音声認識システムにおいて発声を阻止するための基盤を提供する改善された方法が必要とされる。
【0009】
【実施例】
本発明は、トレーニングおよび認識中に背景雑音レベル(background noise level)に依存する、可変阻止厳密度(variable rejection strictness)を有する。トレーニング中に、トレーニング発声から雑音特徴(noise features)が生成される。インクリメンタル雑音基準平均(incremental noise reference mean)は、この雑音特徴から更新される。統計はメモリに格納され、この統計は認識システムによって利用可能になる。雑音統計は、ハンドフリー・モードにおけるトレーニング中には更新されないが、これは背景雑音のレベルが高くなるためである。雑音統計がない場合、認識アルゴリズムはディフォルトで最小厳密度になる。
【0010】
認識中では、入力雑音エネルギ特徴(input noise energy feature)は、基準雑音統計と比較され、雑音比(noise ratio)が算出される。そして、アウト・オブ・ボキャブラリ阻止アルゴリズムの厳密度は、この雑音比に基づいて選択される。本発明は、雑音が存在する場合に、有効発声の誤った阻止を防ぐのを助ける。
【0011】
厳密度パラメータは、2レベル整合アルゴリズム(two level alignment algorithm)認識検索における単語エントランス・ペナルティ(word entrance penalty)である。最良経路の信頼度測定(confidence measurement)は、音声タグ・モデル(voice tag model)と並行して、ゼロ平均1状態ガーベッジ・モデル(zero mean one state garbage model)として実施される。
【0012】
本発明が有利に採用される装置100を図1に開示する。装置100は、ここでは図示のために携帯無線電話として説明されるが、コンピュータ,パーソナル・デジタル・アシスタントまたは音声認識を有利に採用できる任意の他の装置や、特に、メモリ効率的な音声認識システムを活用できる装置でもよい。図示の無線電話は、アンテナ106に結合された送信機102および受信機104を含む。送信機102および受信機104は、呼処理機能を実行する呼処理装置(call processor)108に結合される。呼処理装置108は、デジタル信号プロセッサ(DSP),マイクロプロセッサ,マイクロコントローラ,プログラマブル論理ユニット,上記の2つまたはそれ以上の組み合わせ、もしくは任意の他の適切なデジタル回路を利用して構築できる。
【0013】
呼処理装置108は、メモリ110に結合される。メモリ110は、RAM、EEPROM(electronically erasable programmable read only memory),ROM,フラッシュROMなど、もしくはこれらの種類のメモリの2つまたはそれ以上の組み合わせを含む。メモリ110は、音声認識動作を含め、呼処理装置108の動作をサポートし、また状態遷移経路メモリ(state transition path memory)をサポートするために電子的に変更可能なメモリを含んでいなければならない。装置動作プログラムを格納するために、ROMを設けることができる。
【0014】
音声回路112は、マイクロフォン114から呼処理装置108にデジタル化信号を与える。音声回路112は、呼処理装置108からのデジタル信号に応答してスピーカ116を駆動する。
【0015】
呼処理装置108は、ディスプレイ・プロセッサ120に結合される。ディスプレイ・プロセッサは、装置100のために追加のプロセッサ・サポートが望ましい場合にあってもよい。特に、ディスプレイ・プロセッサ120は、ディスプレイ制御信号をディスプレイ126に与え、キー124から入力を受ける。ディスプレイ・プロセッサ120は、マイクロプロセッサ,マイクロコントローラ,デジタル信号プロセッサ,プログラマブル論理ユニット,それらの組み合わせなどを利用して構築できる。メモリ122は、ディスプレイ・プロセッサ内のデジタル論理をサポートするためにディスプレイ・プロセッサに結合される。メモリ122は、RAM,EEPROM,ROM、フラッシュROMなど、もしくはこれらの種類のメモリの2つまたはそれ以上の組み合わせを利用して構築できる。
【0016】
図2を参照して、マイクロフォン114が受けた音声信号は、音声回路112のアナログ・デジタル・コンバータ202においてデジタル信号に変換される。当業者であれば、音声回路112は、濾波などの更なる信号処理を行うことが理解されるが、これらの処理は簡略にするために説明しない。呼処理装置108は、マイクロフォン114によって出力されたアナログ信号の処理されたデジタル信号表現に対して特徴抽出(feature extraction)204を実行し、ユーザ発声を表す特徴ベクトル(feature vectors)のセットを生成する。特徴ベクトルは、各短時間解析ウィンドウ(short time analysis window)について生成される。短時間解析ウィンドウとはフレームのことであり、このフレームは、本明細書に示す例では20msである。従って、1フレーム毎に1つの特徴ベクトルがある。プロセッサ108は、音声認識206またはトレーニング207のためにこれらの特徴を利用する。
【0017】
トレーニング時に、発声の特徴ベクトルは、HMM形式のテンプレート(templates)を生成するために用いられ、これらのテンプレートはメモリ208に格納される。音声認識時に、入力発声を表す特徴ベクトルは、メモリ208に格納されたボキャブラリ単語のテンプレートと比較され、ユーザが何を言ったのかを判定する。本システムは、最良一致を出力しても,最良一致のセットを出力しても,あるいは、任意であるが、一致を出力しなくてもよい。メモリ208は、好ましくは、メモリ110(図1)の不揮発性メモリ部分であり、例えばEEPROMまたはフラッシュROMでもよい。本明細書で用いられる「単語(words)」は、"John Doe"などの2つ以上の単語でもよく、あるいは"call"などのひとつの単語でもよい。
【0018】
一般に、特徴抽出部(feature extractor)204は、入力音声のフレームに対して信号処理を実行し、フレーム・レートにて各フレームを表す特徴ベクトルを出力する。フレーム・レートは一般に10〜30msの間であるが、例えば、20msの期間でもよい。トレーニング部(trainer)207は、単語または語句の一つまたはそれ以上の発声の標本化音声から抽出された特徴を利用して、この単語または語句のモデルのためのパラメータを生成する。次に、このモデルは、モデル格納不揮発性メモリ208に格納される。モデル・サイズは、特徴ベクトル長に直接依存し、そのため長い特徴ベクトルはそれだけ大きなメモリを必要とする。
【0019】
次に、メモリ208に格納されたモデルは、認識206中に利用される。認識システムは、未知の発声の特徴と格納済みのモデル・パラメータとを比較して、最良一致を判定する。そして、最良一致モデルは認識システムから結果として出力される。
【0020】
図3を参照して、音声認識を表す文法ネットワーク(grammar network)を示す。ノードN1およびN2は、弧(arc)A1〜ANとガーベッジ・モデル(garbage model)の弧AGMとによって表されるHMMモデルによって接続される。弧A1〜ANは、音声認識システムにおいてトレーニングされ、かつメモリ208に格納された個別のHMMモデルすべてを表す。ガーベッジ・モデル弧は、1状態ガーベッジ・モデル基準を表す。
【0021】
ノードN1は、1状態雑音モデルA1 Noiseを含む。同様に、ノードN2は、1状態雑音モデルA2 Noiseを含む。認識システムは、認識アルゴリズムを利用して、弧A1〜ANおよびAGMのうちの一つを最良一致として選択し、あるいは一致なしを識別する(すなわち、音声が検出されない場合)。AGMが最良弧である場合、入力は無効として阻止される。
【0022】
ここで、図4を参照して、トレーニング・プロセスについて説明する。最初に、ステップ402に示すように、メイン・トレーニング207が実行され、メモリ208に格納すべき各発声、すなわち状態モデル(state model)A1〜ANを導出する。HMMモデルを生成するために、多数の異なる方法が知られている。図4の図では、各弧は、状態スキップのない、左から右へのHMMモデルであり、自己ループ(self loop)と単一ステップ遷移(single steps transitions)のみが許される。このようなモデルの導関数(derivative)についての簡単な説明を以下で行う。当業者であれば、弧は他の既知のモデルでもよく、他の既知の方法によってもよいことが理解されよう。
【0023】
最初に、特徴抽出部204において、特徴が抽出される。特徴抽出部は、発声の各フレームについてケプストラム係数(cepstral coefficient)およびデルタ・ケプストラム係数(delta cepstral coefficient)を生成する。当業者であれば、ケプストラム特徴を算出し、その導関数を推定する多くの方法があり、これらの係数を導出するための任意の適切な手法を利用できることが理解されよう。フレームF1〜FN(図5)は、ウィンドウ中に生成され、各フレームは特徴からなる。フレームの一部は雑音を表し、この雑音から雑音エネルギ特徴が特徴抽出部によって生成される。残りのフレームは、音声信号の部分を表す。
【0024】
図4に戻って、ステップ604において、トレーニング207中に、プロセッサ108は、ステップ604に示すように、各弧モデルについて雑音特徴を算出する。雑音測定は、捕捉ウィンドウ(capture window)の開始および終了時に生成される特徴ベクトルから行われる。特に、発声の開始期間および終了期間中に測定される特徴ベクトルの平均値を利用するのが望ましい。例えば、捕捉ウィンドウの最初の160ms、すなわちSavge、および最後の160ms、すなわちEavgeを利用できる。雑音特徴ベクトルが格納される開始期間および終了期間を含む捕捉ウィンドウを図5に示す。捕捉ウィンドウは、単語の最大期間を表す、例えば、2秒の長さでもよい。この捕捉ウィンドウは、入力発声の予定長さおよびこの実装のメモリ制限に応じて、固定長でも可変長でもよい。
【0025】
プロセッサ108は、ステップ404において雑音特徴を導出すると、ステップ404において装置がハンドフリー・モードであるかどうか判定する。装置は、キーパッド・メニューを介してユーザによって起動されるハンドフリー・モードに装置があることを示す状態フラグを含んでもよく、あるいは装置100がハンドフリー・キットに接続されるときに、スイッチを起動するメカニカル・コネクタを含んでもよい。
【0026】
装置がハンドフリー・モードではない場合、プロセッサは、ステップ410に示すように、トレーニング中に(トレーニングは、各発声について独立して行われる)、SavgeおよびEavgeのうちの最小値(すなわち、min(Savg,Eavg))である雑音特徴Xnzを算出する。入力音声の各フレームについて、エネルギ値はそのサンプルから算出できる。SavgeおよびEavgeは、指示されたフレームからのエネルギ値の平均値である。この最小値は、移動雑音平均(running noise mean)を更新するために、各トレーニング発声毎に用いられる。この雑音平均は、次式を用いて反復的に更新される。
【0027】
【数1】
Xref(k)=((k−2)*Xref(k−2)+(Xnz1+Xnz2))/k
ここで、Xref(k)はk番目の雑音特徴の基準値であり、Xnz1は1番目のトレーニング発声のSavgeおよびEavgeの最小値から得た雑音特徴を表し、Xnz2は2番目のトレーニング発声のSavgeおよびEavgeの最小値からの雑音特徴である。
【0028】
更新された雑音平均および雑音平均更新のために用いられるトレーニング発声の数は、ステップ412に示すようにメモリ110に記録される。
【0029】
ステップ406において、装置がステップ408に示すようにハンドフリー・モードであると判定された場合、ハンドフリー・フラグHFがステップ408に示すように設定される。フラグHFは、トレーニングがハンドフリー・モードである場合に、設定され、雑音モデルを更新せずに、ハンドフリー単語モデルの存在を示す。
【0030】
トレーニング環境は比較的静かであることが想定される。これは、信号品質検査によって強制でき、この検査では、すべてのトレーニング発声が少なくとも18dBの信号対雑音比を有する必要がある。また、ユーザがSavgeおよびEavge測定時間中に喋らないことを保証するように検査を採用できる。
【0031】
プロセッサ108による認識206の一般的な動作について、図6を参照して説明する。最初に、ステップ602に示すように、テスト発声について雑音特徴が算出され、このテスト発声は、システムが識別しようとする入力発声である。認識モードでは、発声ウィンドウの同じ最初の160msのSavgeおよび最後の160msのEavgeから、背景雑音測定が行われる。認識中の雑音測定はXrecogであり、SavgeおよびEavgeの平均値に等しい。この値は、トレーニング・モード時に算出された基準雑音値と比較される。比較は、トレーニング背景雑音推定値に対する認識背景雑音推定値の比率を求めるために用いられる。当業者であれば、これらの値の他の相対的な比較も利用できることが理解されよう。
【0032】
次に、プロセッサ108は、ステップ606において単語ペナルティ(word penalty)を算出する。この比率は、単語エントランス・ペナルティを算出するために用いられる。単語エントランス・ペナルティは、アウト・オブ・ボキャブラリ阻止の厳密度を制御する。一般に、高い雑音環境は、それだけ低い厳密度値を有する。単語エントランス・ペナルティは、ルックアップ・テーブルを利用して算出され、雑音インデクス比がメモリ・テーブルのアドレスであり、ペナルティが出力である。図8に示すような有利な10個のペナルティ分布を利用でき、ここでは認識モードにおけるかなり雑音の多い環境(比率6〜9)は、トレーニング・モード雑音基準に近い認識モードを表す比率(比率0〜4)よりも、実質的に小さいペナルティを有する。例えば、次のように曲線を導出できる。
【0033】
【数2】
x=Xrf(k)/Xrecog
f(x)=1/(1+21.5(x-5)
範囲外インデクス比(out of range index ratios)は、ディフォルトで最小単語エントランス・ペナルティになり、これはゼロである。適用される実際のペナルティは、例えば、−220*f(x)であるが、実際のスカラーは、組み合わされるスコアに対して望ましい比率を有するペナルティとなる任意の値でもよい。非線形的な関係を利用することは、雑音状態が良好なときに大きなペナルティを与え、また雑音状態が悪いときに小さなペナルティを与えることにより、ボキャブラリおよびアウト・オブ・ボキャブラリ認識における著しい改善を提供する。当業者であれば、単語エントランス・ペナルティの計算は、ルックアップ・テーブルを利用せずに、直接行うことができることが理解されよう。
【0034】
認識は、ステップ608に示すように、メイン検索(main search)および並列ガーベッジ・モデル(parallel garbage model)に続く。認識システムの目標は、図3におけるノードN1からN2までの最も可能性の高い経路を見つけることである。ノードN1およびN2は、任意でガーベッジ・モデルAGMを含む、N単語ボキャブラリのHMMを表す経路A1〜ANによって結合される。さらに、A1 NoiseおよびA2 Noiseは雑音モデルを表し、ノードN1およびノードN2に関連する。ガーベッジ・モデルは、入力発声における非ボキャブラリ音声または単語を捕捉しようとする。これは、アウト・オブ・ボキャブラリ阻止アルゴリズムによってのみ用いられる1状態ゼロ値モデル(one state zero-valued model)である。雑音モデルよりも良好に雑音をモデリングすることを防ぐために、雑音として分類されたフレームのガーベッジ・モデル確率スコアに対して、ペナルティが適用される。
【0035】
図3に示すような文法ネットワークの検索は、ビタビ・アルゴリズム(Viterbi algorithm)などの2レベル整合アルゴリズムによって行われる。この検索の最低レベルは、入力発声のフレームと、与えられた弧の状態との間の最良の整合および経路スコアを求める。発声のフレームを個別モデルの状態に適用するために用いられる手法の例は、本出願と同じ日付でJeffrey Arthur Meunierらの名義で出願された、同時係属出願である整理番号CS10103号(日本出願番号2000−36105) "METHOD OF TRACKBACK MATRIX STORAGE IN SPEECH RECOGNITION SYSTEM"、および本出願と同じ日付でDaniel Poppertの名義で出願された、同時係属出願である整理番号CS10104号(米国出願番号09/256031) "METHOD OF SELECTIVELY ASSIGNING A PENALTY TO A PROBABILITY ASSOCIATED WITH A VOICE RECOGNITION SYSTEM"において開示されており、これらの開示は本明細書に参考として含まれる。低レベル整合アルゴリズムは、与えられたHMM弧を介して入力発声の最良経路のスコアを生成する。
【0036】
フレームmにおける弧ANの状態iの累積確率(cumulative probability)である累積確率cI N(m)を介して、各弧のスコア、すなわちHMMが追跡されるところの低レベル整合アルゴリズムの他に、ノードN1およびノードN2は、自己の累積確率も追跡しなければならない。ノード累積確率CJ(m)は、フレームmにおけるノードNJの累積確率である。この確率は、ノードに対する最高のスコアを保持するという点で、各HMMの累積確率と同じように算出される。累積確率は、次のようにして算出できる。
【0037】
【数3】
J(m+1)=Maxn{CN In(m)+PoIn(dIn)}
ここで、Ajはノードjで終端する弧{A1,A2,...,AN}のセットであり、Inは弧nにおける状態の数であり、dInは弧nの最後の状態の期間であり、Po1(dIn)は弧nの最後の状態の状態外遷移ペナルティ(out of state transition penalty)である。累積確率は、状態外確率PoIn(dIn)を有する最後の状態の累積確率CIn N(m)の和のノードNjで終端するすべての弧における最大値である。
【0038】
ノードについて累積確率を追跡する際に、各弧の初期状態について累積確率c1 N(m)の計算は、ノードNjから初期状態への遷移を許すように修正しなければならない。ノードNjから弧Anの初期状態への遷移に対して割り当てられる、単語エントランス・ペナルティと呼ばれるワンタイム遷移ペナルティがある。これは、雑音モデルにも、ガーベッジ・モデルにも適用されず、そのためイネーブルされると、アウト・オブ・ボキャブラリ阻止に対する厳密度制御として機能する。累積確率は次式のようにみなすことができる。
【0039】
【数4】
I N(m+1)=oI N(fM)+max(CJ(m)+W(n),C1 N(m)+Ps1(d1))
ただし、W(n)={g(x),ifn{A1,A2,A3}の場合
{0,ifn{A1,A2,AGM}の場合
ここで、W(n)は単語エントリ・ペナルティであり、AGMはガーベッジ弧であり、A1 Noiseはノード1の雑音弧であり、oI N(fM)は弧nの状態iにおける特徴ベクトルfmの観測ベクトル(observation vector)であり、Ps1(d1)は弧nの状態1の同一状態遷移ペナルティである。この式は、同一状態遷移または開始ノードからの遷移のいずれかのうち最大を保持し、観測ベクトルに追加する。認識プロセスの最後に保持される情報は、ノードN2に移動するために通った弧である。これは、累積確率CI N(m)およびCJ N(m)とともに、伝播経路情報によって行われる。
【0040】
有効な発声について、整合アルゴリズムを介した単語モデルの最良経路は、単語エントランス・ペナルティよりも大きな値の分だけ、ガーベッジ・モデルよりも良好なスコアを生成しなければならず、さもなけばら有効な発声は誤って阻止される。無効な発声について、ガーベッジ・モデルは、発声が正しく阻止されるように、適切な単語モデルのそれぞれを介した経路よりも大きくなければならない。
【0041】
認識アルゴリズムは、例えば2秒相当のデータでもよい、収集された特徴ベクトルのウィンドウ全体を利用する。さらに、認識アルゴリズムは、図3のA1 NoiseおよびA2 Noiseにおいて用いられる1状態雑音モデルを更新するため、各フレームについて音声/雑音分類ビット(speech/noise classification bit)を利用する。
【0042】
認識モードでは、プロセッサ108は、ステップ702に示すように、雑音更新フラグを1に設定し、フレーム・カウントを0に設定することによって認識を初期化する。ステップ704において、フレーム・カウントはインクリメントされる。次に、プロセッサは、ステップ706において雑音フラグが設定されているかどうか判定する。設定されていない場合、プロセッサは判定716に進む。フラグが設定されている場合、プロセッサ108は、ステップ708において雑音モデルがイネーブルのままでよいかどうか判定する。イネーブルのままでよくない場合、ステップ714において雑音更新フラグは0に設定される。所定の数の更新が行われた後、雑音モデリングはオフされる。
【0043】
雑音モデリングをさらに実行する場合、プロセッサは、ステップ710において雑音モデルを更新すべきかどうか判定する。プロセッサがフレームの雑音モデルを更新する場合、このモデルはステップ712において更新される。雑音モデルA1 NoiseおよびA2 Noiseは、特徴抽出アルゴリズムによって送入される音声/雑音分類ビットを利用して、システムによってダイナミックに算出される。現フレームの雑音モデルを更新するかどうかの判定の詳細は、特徴抽出アルゴリズムによって実施される音声分類を調べることによって行われる。発声について所定の数の連続した音声フレームを調べたら、それ以上更新は行われない。例えば、この制限は3フレームでもよい。雑音モデルは、特定のフレームの音声対雑音分類が雑音フレームであることを示す場合に、この特定のフレームについてのみ更新される。
【0044】
次に、プロセッサは、ステップ716においてフレーム・カウントがフレームの閾値数よりも小さいかどうか判定する。所定の数のフレームが処理されるまで、確率推定は開始されない。これは、雑音モデルに基づく確率が計算される前に、雑音モデルを若干正確にすることを可能にする。閾値数のフレームが受信されなければ、プロセッサはステップ704に戻り、ここでフレーム・カウントは1だけインクリメントされる。
【0045】
フレーム・カウントが閾値を超える場合、プロセッサ108は、ステップ718においてこのフレームのノードおよび弧の累積確率を算出する。ステップ720において、確率スコアは正規化される。正規化(normalization)は、最大の累積確率をすべての他の累積確率から引くことによって得られる。また、累積正規化率(cumulative normalization factor)は、非正規化スコアを認識プロセスの最後で戻すことができるように追跡される。
【0046】
次に、プロセッサは、ステップ722において最後のフレームを処理したかどうかを判定する。処理していない場合、プロセッサはステップ704に戻って、フレーム・カウントをインクリメントする。処理した場合には、ステップ724に示すように、認識結果は正規化スコアとともに出力される。
【0047】
雑音モデルは、1状態モデルである。この状態のベクトル平均は、μ1 Noise(m)であり、これはダイナミックに算出され、かつ次のようにフレームm+1において新たな特徴ベクトルfM+1で更新されるので、mの関数である。
【0048】
【数5】
μ1 Noise(m)=((MNoise(m)*μ1)+fM+1)/(MNoise(m)+1)
ここで、MNoise(m)は、μ1 Noise(m)の計算で用いられた雑音フレームの数であり、これは雑音更新においてすべてのフレームが利用されるわけではないので、mの値とは異なることがある。さらに、この更新式は、雑音モデルのケプストラム要素についてのみ用いられる。デルタ・ケプストラムおよびデルタ・エネルギ要素は、0に固定される。
【0049】
以上、トレーニングおよび認識時の背景雑音レベルに応じて、可変的な阻止厳密度を与える改善されたシステムについて開示した。このシステムは、無効な発声を格納済み音声モデルと関連付けることを防ぐのを助け、有効な発声の正確な検出を改善するのを助ける。
【0050】
本発明について上記の説明および図面で図説してきたが、この説明は一例に過ぎず、発明の真の精神および範囲から逸脱せずに、多くの変更および修正が当業者によって可能なことが理解される。本発明はセルラ無線電話などの携帯ワイヤレス装置において特に利用されるが、本発明は、ページャ,電子手帳,コンピュータおよび電話機器など、音声認識を採用する任意の装置にも適用できる。本発明は、特許請求の範囲によってのみ制限されるものとする。
【図面の簡単な説明】
【図1】ワイヤレス通信装置を示す、ブロック図形式の回路図である。
【図2】図1による装置における音声認識システムを示す、ブロック図形式の回路図である。
【図3】2つのノードを有する文法ネットワークの図である。
【図4】トレーニングを示すフローチャートである。
【図5】ウィンドウと、それに対応するフレームを示す。
【図6】認識を示す高度なフレーチャートである。
【図7】認識中のトレーニングを示すフローチャートである。
【図8】ペナルティ関数を示す。
【符号の説明】
100 装置
102 送信機
104 受信機
106 アンテナ
108 呼処理装置
110 メモリ
112 音声回路
114 マイクロフォン
116 スピーカ
120 ディスプレイ・プロセッサ
122 メモリ
124 キー
126 ディスプレイ
202 アナログ・デジタル・コンバータ
204 特徴抽出部
206 音声認識
207 トレーニング部
208 メモリ

Claims (10)

  1. 音声認識システムを動作する方法であって:
    トレーニング中に測定される少なくとも一つの背景雑音レベルと、認識動作モード中に行われる入力発声の際に行われる雑音信号測定との関数として、可変阻止厳密度(variable rejection strictness)を生成する段階;および
    前記可変阻止厳密度の関数として、単語エントランス・ペナルティを導出する段階;
    によって構成されることを特徴とする方法。
  2. 可変阻止厳密度を生成する前記段階は、モデルのトレーニング発声の少なくとも一部において雑音を測定する段階を含むことを特徴とする請求項1記載の方法。
  3. トレーニング発声から雑音特徴を選択的に更新する段階をさらに含んで構成されることを特徴とする請求項1記載の方法。
  4. 雑音統計が認識アルゴリズムで利用できるように、モデルとともにトレーニング中に雑音統計を格納する段階をさらに含んで構成されることを特徴とする請求項1記載の方法。
  5. ハンドフリー・モードでトレーニングする場合には、雑音統計は更新されないことを特徴とする請求項3記載の方法。
  6. 信号対雑音比を生成する段階をさらに含んで構成され、前記信号対雑音比が所定のレベルよりも低い場合には、トレーニングは禁止されることを特徴とする請求項3記載の方法。
  7. 認識中に、発声について雑音統計がない場合、認識アルゴリズムは、整合アルゴリズムを前記発声に適用する際に、ディフォルトで最小厳密度条件になることを特徴とする請求項1記載の方法。
  8. 認識中に、入力雑音エネルギ特徴が基準雑音統計と比較され、雑音比が算出されることを特徴とする請求項1記載の方法。
  9. アウト・オブ・ボキャブラリ阻止アルゴリズムの厳密度は、前記雑音比に基づいて選択されることを特徴とする請求項8記載の方法。
  10. 最良経路の信頼度測定は、音声タグ・モデル(voice tag model)と並行して、ゼロ平均1状態ガーベッジ・モデル(zero mean one state garbage model)を利用して実施されることを特徴とする請求項1記載の方法。
JP2000045353A 1999-02-23 2000-02-23 音声認識システムおよび方法 Expired - Fee Related JP4354072B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US256279 1981-04-23
US09/256,279 US6275800B1 (en) 1999-02-23 1999-02-23 Voice recognition system and method

Publications (2)

Publication Number Publication Date
JP2000242294A JP2000242294A (ja) 2000-09-08
JP4354072B2 true JP4354072B2 (ja) 2009-10-28

Family

ID=22971635

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000045353A Expired - Fee Related JP4354072B2 (ja) 1999-02-23 2000-02-23 音声認識システムおよび方法

Country Status (8)

Country Link
US (1) US6275800B1 (ja)
JP (1) JP4354072B2 (ja)
KR (1) KR100321565B1 (ja)
CN (1) CN1171201C (ja)
BR (2) BRPI0001268B8 (ja)
DE (1) DE10006930B4 (ja)
GB (1) GB2347252B (ja)
MX (1) MXPA00001875A (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19811879C1 (de) * 1998-03-18 1999-05-12 Siemens Ag Einrichtung und Verfahren zum Erkennen von Sprache
US6577997B1 (en) 1999-05-28 2003-06-10 Texas Instruments Incorporated System and method of noise-dependent classification
WO2001003113A1 (en) * 1999-07-01 2001-01-11 Koninklijke Philips Electronics N.V. Robust speech processing from noisy speech models
US6778959B1 (en) * 1999-10-21 2004-08-17 Sony Corporation System and method for speech verification using out-of-vocabulary models
US6754629B1 (en) * 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
EP1215654B1 (en) 2000-12-13 2006-05-24 Sony Deutschland GmbH Method for recognizing speech
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
DE10133333C1 (de) * 2001-07-10 2002-12-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines Fingerabdrucks und Verfahren und Vorrichtung zum Identifizieren eines Audiosignals
EP1603116A1 (en) * 2003-02-19 2005-12-07 Matsushita Electric Industrial Co., Ltd. Speech recognition device and speech recognition method
JP4497834B2 (ja) * 2003-04-28 2010-07-07 パイオニア株式会社 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
KR100664964B1 (ko) 2005-10-11 2007-01-04 삼성전자주식회사 휴대 기기를 제어하는 장치 및 방법
US9093073B1 (en) * 2007-02-12 2015-07-28 West Corporation Automatic speech recognition tagging
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
CN105321518B (zh) * 2014-08-05 2018-12-04 中国科学院声学研究所 一种低资源嵌入式语音识别的拒识方法
WO2016105216A1 (en) * 2014-12-22 2016-06-30 Intel Corporation Cepstral variance normalization for audio feature extraction
CN105575386B (zh) * 2015-12-18 2019-07-30 百度在线网络技术(北京)有限公司 语音识别方法和装置
KR20200063521A (ko) 2018-11-28 2020-06-05 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN115631743B (zh) * 2022-12-07 2023-03-21 中诚华隆计算机技术有限公司 一种基于语音芯片的高精度语音识别方法及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
JPH03203488A (ja) * 1989-12-29 1991-09-05 Pioneer Electron Corp 音声リモートコントロール装置
CA2042926C (en) * 1990-05-22 1997-02-25 Ryuhei Fujiwara Speech recognition method with noise reduction and a system therefor
JPH04182700A (ja) * 1990-11-19 1992-06-30 Nec Corp 音声認識装置
US5386492A (en) * 1992-06-29 1995-01-31 Kurzweil Applied Intelligence, Inc. Speech recognition system utilizing vocabulary model preselection
JPH07273840A (ja) * 1994-03-25 1995-10-20 Nec Corp 音声帯域制御機能を有する移動電話機
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
DE19521258A1 (de) * 1995-06-10 1996-12-12 Philips Patentverwaltung Spracherkennungssystem
US5778342A (en) * 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
JPH11126090A (ja) * 1997-10-23 1999-05-11 Pioneer Electron Corp 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition

Also Published As

Publication number Publication date
KR20000071367A (ko) 2000-11-25
BR0001268A (pt) 2000-10-10
BRPI0001268B1 (pt) 2017-05-09
JP2000242294A (ja) 2000-09-08
MXPA00001875A (es) 2004-09-10
BRPI0001268B8 (pt) 2017-11-07
CN1264892A (zh) 2000-08-30
GB0003269D0 (en) 2000-04-05
US6275800B1 (en) 2001-08-14
KR100321565B1 (ko) 2002-01-23
CN1171201C (zh) 2004-10-13
DE10006930B4 (de) 2004-08-26
GB2347252A (en) 2000-08-30
DE10006930A1 (de) 2000-09-28
GB2347252B (en) 2001-03-28

Similar Documents

Publication Publication Date Title
JP4354072B2 (ja) 音声認識システムおよび方法
EP1159732B1 (en) Endpointing of speech in a noisy signal
US6226612B1 (en) Method of evaluating an utterance in a speech recognition system
JP3691511B2 (ja) 休止検出を行う音声認識
US6950796B2 (en) Speech recognition by dynamical noise model adaptation
US7319960B2 (en) Speech recognition method and system
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
CA2366892C (en) Method and apparatus for speaker recognition using a speaker dependent transform
US6182036B1 (en) Method of extracting features in a voice recognition system
US7359856B2 (en) Speech detection system in an audio signal in noisy surrounding
US20050273334A1 (en) Method for automatic speech recognition
US20060241937A1 (en) Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments
RU2127912C1 (ru) Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков
US6233557B1 (en) Method of selectively assigning a penalty to a probability associated with a voice recognition system
JP4696418B2 (ja) 情報検出装置及び方法
WO2005020212A1 (ja) 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラム、音声認識プログラム、記録媒体および電子機器
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
JP4749990B2 (ja) 音声認識装置
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법
KR100278640B1 (ko) 이동 전화기를 위한 음성 다이얼링 장치 및방법
JP2008225001A (ja) 音声認識装置および音声認識方法,音声認識用プログラム
JPS59170894A (ja) 音声区間の切り出し方式
Koumpis et al. Adaptive transition bias for robust low complexity speech recognition
JPH09311693A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060317

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060317

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090630

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090729

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120807

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120807

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120807

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130807

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees