JP2002278578A - 音声認識システム、学習装置、及び、最大エントロピー音声モデルのフリーパラメータの反復値計算方法 - Google Patents

音声認識システム、学習装置、及び、最大エントロピー音声モデルのフリーパラメータの反復値計算方法

Info

Publication number
JP2002278578A
JP2002278578A JP2002035840A JP2002035840A JP2002278578A JP 2002278578 A JP2002278578 A JP 2002278578A JP 2002035840 A JP2002035840 A JP 2002035840A JP 2002035840 A JP2002035840 A JP 2002035840A JP 2002278578 A JP2002278578 A JP 2002278578A
Authority
JP
Japan
Prior art keywords
attribute
function
boundary value
orthogonalization
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002035840A
Other languages
English (en)
Other versions
JP4090755B2 (ja
Inventor
Jochen Peters
ペータース ヨーヘン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2002278578A publication Critical patent/JP2002278578A/ja
Application granted granted Critical
Publication of JP4090755B2 publication Critical patent/JP4090755B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 最大エントロピー音声モデルのフリーパラメ
ータの反復値を、元の学習用オブジェクトを変更するこ
となく、高速で計算する音声認識システムの提供を目的
とする。 【解決手段】 本発明は、属性αの所望の境界値と、属
性αよりも広いレンジを有する属性βからの所望の境界
値との線形結合によって所望の直交化境界値を計算し、
両方の所望の計算値は元の学習用オブジェクトの所望の
境界値である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識システム
において、最大エントロピー音声モデルMESMのフリ
ーパラメータ
【0002】
【数48】 の反復値を、 nが反復パラメータを表わし、 Gが数学関数を表わし、 αが最大エントロピー音声モデルの属性を表わし、
【0003】
【数49】 が属性αに対する最大エントロピー音声モデルにおける
所望の直交化境界値を表わす場合に、次式
【0004】
【数50】 に従う一般化反復スケーリング学習アルゴリズムを用い
て計算する方法に関する。
【0005】本発明は、上記の計算方法を実施する、従
来技術で公知のコンピュータ支援音声認識システム、及
び、コンピュータ支援学習装置に関する。
【0006】
【従来の技術】入力音声を認識するコンピュータ支援音
声認識システムにおいて関連している音声モデルの構築
の開始点は、所与の学習用オブジェクトである。学習用
オブジェクトは、音声認識システムの将来のユーザの言
語におけるある種の統計的パターンを、数学的に定式化
された境界条件の系で表現すること(マップすること)
である。この系は、一般的に、
【0007】
【数51】 という式で書き表され、式中、N(h)は、学習用コー
パスにおけるヒストリーhの頻度を表わし、P(w|
h)は、所与の単語wが先行単語列h(ヒストリー)の
後に続く確率p(w|h)を表わし、
【0008】
【数52】 は、属性αに対する2値属性関数を表わし、
【0009】
【数53】 は、境界条件の系における所望の境界値を表わす。
【0010】この境界条件の系の解、すなわち、学習用
オブジェクトは、いわゆる、最大エントロピー音声モデ
ルMESMによって形成される。最大エントロピー音声
モデルは、境界条件の系の適当な解を、適当な確率の定
義p(w|h)の形式で表わす。この確率は、
【0011】
【数54】 のように表わされ、式中、Zλ(h)は、ヒストリー依
存型標準化因子を表わし、λαは、属性αに対するフリ
ーパラメータを表わし、λは、全パラメータの集合を表
わす。上記パラメータに対して、上記の定義式が成り立
つ。
【0012】2値属性関数fα(h,w)は、たとえ
ば、所与の単語列h、wがある場所に所与の単語を格納
するどうかについての2分決定を行なう。属性αは、一
般的に、1単語、1列、単語クラス(色又は動詞)、単
語クラスの列、若しくは、より複雑なパターンを表わ
す。
【0013】図4には、一例として、音声モデルにおけ
る所与の属性が示されている。たとえば、図示されたユ
ニグラムは、1単語を表現し、バイグラムは、2単語か
らなる単語列を表現し、トリグラムは、3単語からなる
単語列を表現する。バイグラム"ORA"は、ユニグラム"A"
と、別の単語とを含むので、バイグラムは、ユニグラ
ム"A"よりも広いレンジをもつ、というように表わされ
る。同様に、トリグラム"A WHITE HOUSE"は、ユニグラ
ム"HOUSE"或いはバイグラム"WHITE HOUSE"よりも広いレ
ンジを有する。
【0014】フリーパラメータλは、式(3)が式
(2)による境界条件の系に対する解を表現するように
合わされる。この適応は、通常、公知の学習アルゴリズ
ムを用いて行なわれる。このような学習アルゴリズムの
一例は、いわゆる、一般化反復スケーリングGISアル
ゴリズムである。このGISアルゴリズムについては、
たとえば、文献:J.N. Darroch and D. Raatcliff, "Ge
neralized iterative scaling for log linear model
s", Annals Math. Stat., 43(5):1470-1480, 1972を参
照するのがよい。
【0015】このGISアルゴリズムは、フリーパラメ
ータλの繰り返し計算を行なう.通常、この計算は非常
に時間がかかる。この計算の速度を高めるため、従来技
術では、直交化属性関数
【0016】
【数55】 で、式(2)による境界条件の系における属性関数
【0017】
【数56】 を代用することが提案されている。この提案に関して
は、たとえば、文献:R.Rosenfeld, "A maximum-entrop
y approach to adaptive statistical language modeli
ng"; Computer Speech and Language, 10:187-228, 199
6を参考にするとよい。しかし、式(2)の左項の属性
関数の置換によって、右項の境界値
【0018】
【数57】 も変更する。この変更は、元の境界条件の系、すなわ
ち、境界値を推定する通常の集合アプローチにおける元
の学習用オブジェクトを変更する。これについては、上
述の文献:R.Rosenfeld, "A maximum-entropy approach
to adaptive statistical language modeling"; Compu
ter Speech and Languageの205ページを参照のこと。
【0019】
【発明が解決しようとする課題】この点に関して、従来
技術では、GISアルゴリズムの計算が加速化されると
き、フリーパラメータλは、変更された学習用オブジェ
クトに関して訓練される、という欠点が生じる。このよ
うにして計算されたパラメータλは、このパラメータλ
を式(3)で使用したときに、音声モデルの元の学習用
オブジェクトへの適応を不適切にさせる原因になる。
【0020】したがって、本発明は、上記従来技術の問
題点に鑑みて、元の学習用オブジェクトを変更すること
なく、フリーパラメータλを高速計算が可能になる、コ
ンピュータ支援音声認識システム、コンピュータ支援学
習システム、及び、音声認識システムにおいて最大エン
トロピー音声モデルのフリーパラメータ
【0021】
【数58】 を反復的に計算する方法の提供を目的とする。
【0022】
【課題を解決するための手段】上記目的を達成するた
め、請求項1に係る発明では、GISアルゴリズムを用
いてフリーパラメータλを計算する上述の方法におい
て、所望の直交化境界値
【0023】
【数59】 は、属性αに関する所望の境界値
【0024】
【数60】 と、属性αよりも広いレンジを有する属性βの所望の境
界値
【0025】
【数61】 との線形結合によって計算される。ここで、
【0026】
【数62】 及び
【0027】
【数63】 は、元の学習用オブジェクトの所望の境界値である。
【0028】このようにして計算された境界値
【0029】
【数64】 を使用することによって、フリーパラメータラムダの改
良された近似を有利な手段で実現できるようになり、元
の学習用モデルに関して改良型の音声モデルを構築でき
るようになる。この定性的な改良が実現可能であると共
に、GISアルゴリズムを用いた反復計算中に、高い収
束速度がフリーパラメータλに対して実現され続ける。
【0030】本発明によって計算された所望の直交化境
界値
【0031】
【数65】 の使用は、従属した請求項12及び13に記載されてい
るように、GIS学習アルゴリズムの幾つかの変形例に
ついても推奨される。
【0032】上記の本発明の目的は、請求項14に記載
されるような最大エントロピー音声モデルMESMに基
づく音声認識システム、並びに、請求項15に記載され
るようなMESMを訓練する学習システムによって達成
される。
【0033】本発明による方法を学習システムで実施す
ることによって、音声認識システムにおける最大エント
ロピー音声モデルMESMは、音声認識システムのある
種のユーザの個別の言語特性に対して、従来技術よりも
効果的に適応する。音声認識システムが、ユーザの音声
の意味内容を正確に認識する際に用いる引用は、著しく
改良される。
【0034】本発明の音声認識システム及び学習システ
ムの利点は、本発明による方法の利点と対応する。
【0035】
【発明の実施の形態】以下、添付図面を参照して本発明
を説明する。
【0036】最初に、図1a及び1bを参照して本発明
の一実施例を詳細に説明する。
【0037】図1a及び1bには、音声モデルにおける
属性α=β0に対する本発明による改良された所望の直
交化境界値
【0038】
【数66】 の計算方法が示されている。
【0039】この方法のステップ1において、i=
1,...,gとして、所与の属性α=β0よりも広い
レンジを有する属性と、所定の場所の属性α=β0とを
含む全ての属性βiが、この方法によって決定される。
【0040】次に、ステップ2において、i=
0,...,gとして、元の学習用オブジェクトの所望
の境界値mβiが属性α=β0を含む、全ての属性βi
に関して計算される。
【0041】このような所望の境界値mβiを計算する
ため、従来の幾つかの方法が知られている。
【0042】第1の方法によれば、この計算は、最初
に、音声モデルの学習用コーパスが使用されたときに、
関連した2値属性関数fβiが値1を生ずる頻度N(β
i)を計算し、次に、このようにして決定された頻度値
N(βi)を平滑化する、ことによって行なわれる。
【0043】第2の代替的な方法によれば、この計算
は、境界条件が衝突しなくなるまで、音声モデルの属性
の量を減少させることによって実行される。このような
属性の数の削減は、実際的な状況では非常に広範囲に亘
る必要がある。なぜならば、広範囲に亘らない場合、生
成された音声モデルが元の学習用オブジェクトに対する
解を表現しなくなるからである。
【0044】第3の方法では、この計算は、文献:J.Pe
ters and D.Klakow, "Compact Maximum Entropy Langua
ge Models", Proc. ASRU, Keystone, Colorado, 1999に
記載されているように、いわゆる、誘導音声モデルを用
いて行なわれる。
【0045】ステップ3では、全ての属性βiがレンジ
に応じてソートされ、最大レンジを有する属性βiには
インデックスi=gが割り当てられる。個別のレンジの
クラス、たとえば、バイグラムのクラス、若しくは、ト
リグラムのクラスは、複数の属性βiが割り当てられ
る。このような状況で、連続的な異なるインデックスi
を有する複数の属性βiは、全く同一のレンジのクラス
に割り当てられ、これらの属性は、常に同じRWを有
し、同じレンジのクラスに属する。
【0046】この方法を実施するため、順次のステップ
で、個別の属性βiが順番に推定され、属性は、減少す
るレンジ(又は、一定レンジ)に応じて処理されること
が重要である、この方法を最初に動かすとき、最高のレ
ンジのクラスへ割り当てられた属性βiを用いて開始さ
れ、好ましくは、iは、gと一致するように設定される
(図1aのステップ4及びステップ5を参照せよ)。
【0047】次に、ステップ6において、属性βiを含
む現在選択された属性βiについて、1<k≦gに関し
て、より広いレンジを有する属性βkが出現したかどう
かを検査する。第1回目の実行の際に、i=gなる属性
βiは、上述のように最大レンジを有するクラスに自動
的に属するので、ステップS6における質問に対する回
答は、この属性βiの場合には否定的である。この場
合、ステップ8へジャンプし、パラメータXは零にセッ
トされる。
【0048】次に、ステップ9において、改良された所
望の直交化境界値
【0049】
【数67】 が、(i=gである第1回目の実行時に)属性βiに対
して計算される。ステップ9からわかるように、属性β
iに対する境界値は、パラメータX=0である場合(た
とえば、第1回目の実行中)、ステップ2で計算された
所望の境界値mβiと一致するようにセットされる。
【0050】ステップ5乃至ステップ11は、i−1=
g−1,...,0として、全ての属性βi−1に対し
て、連続的に繰り返される。ステップ10において、イ
ンデックスiは再初期化される。この再初期化は、ステ
ップ11において、i=0,...,gとして、全ての
属性βiが処理されたかどうかを問い合わせるために必
要である。
【0051】より広いレンジを有するi<k≦gなる属
性βkが存在する全ての属性βiに対して、ステップ6
における問い合わせの回答は、必ず肯定的である。この
とき、パラメータXは、零にセットされず、ステップ7
の処理に従って計算される。すなわち、パラメータX
は、より広いレンジを有する夫々の属性βkに対してス
テップ9において前回の実行時に計算された、対応した
改良された所望の直交化境界値
【0052】
【数68】 の総和を計算することによって求められる。
【0053】ステップ11において、所望の直交化境界
【0054】
【数69】 がステップ9で計算されたと判定されたとき、この所望
の直交化境界値は、ステップ12において、
【0055】
【数70】 として出力される。
【0056】改良された所望の直交化境界値
【0057】
【数71】 の計算に関して具体的に説明した本発明による方法は、
以下の式、
【0058】
【数72】 のように簡単に記述できる。
【0059】合計(*)は、より広いレンジを有し、所
定の属性αを含む全ての属性βを加える。境界値
【0060】
【数73】 を計算するため、上記式(4)は、合計の項がある種の
属性に関して消えるまで、すなわち、最大レンジを有す
る属性に関して消えるまで、各属性βに関して大凡再帰
的な形で使用される。なぜならば、それらよりも広いレ
ンジを有する属性は存在しないからである。最大レンジ
を有する属性βkに対する所望の直交化境界値は、対応
した元の所望の境界値mβkと対応付けられる。
【0061】図1a及び1bに示されているような本発
明による方法の実施例を、一例として使用された以下の
音声モデルの学習用コーパス、 を用いて更に説明する。
【0062】学習用コーパスは、N=23個の個別の単
語を含む。音声モデルにおいて、所望のユニグラム、バ
イグラム、及び、トリグラム属性は、図4に従って予め
決められる。
【0063】次に、学習用コーパスに対して、通常の属
性関数fあるファを使用することにより、図4によるユ
ニグラム、バイグラム及びトリグラムが、以下の頻度: ユニグラム A 4 HOUSE 4 IS 2 OR 2 THAT 2 WHITE 2 バイグラム A WHITE 1 OR A 2 WHITE HOUSE 2 トリグラム A WHITE HOUSE 1 で学習用コーパスに出現する。
【0064】ここに示した例の場合、改良された所望の
直交化境界値
【0065】
【数74】 は、属性α="HOUSE"に対して計算されるべきである。
この目的のため、最小I、図1aのステップ1に従っ
て、属性αよりも広いレンジを有する全ての属性が属性
αに対して決定される。図4の例の場合、それらの属性
は、バイグラム"WHITE HOUSE"と、トリグラム"A WHITE
HOUSE"である。ステップ2によって、通常の所望の境界
値が、属性αよりも広いレンジを有するこれらの属性に
対して計算されるが、属性αに対しても計算され、たと
えば、上述の確定されたそれぞれの頻度は、平滑化され
る。この平滑化は、たとえば、本例では、値0.1を減
算することによって行なわれる。かくして、通常の所望
の境界値、 mα :"HOUSE" =4−0.1=3.9 mβ1 :"WHITE HOUSE" =2−0.1=2.9 mβ2 :"A WHITE HOUSE" =1−0.1=0.9 が得られる。
【0066】属性α、β1、β2は、それらのレンジに
応じてソートされ、最大レンジで変化する属性から順番
に、対応した改良された所望の直交化境界値が式(6)
に従って、或いは、図1a及び1bのステップ7乃至9
に従って計算される。
【0067】
【数75】
【0068】
【数76】 最後に、改良された所望の直交化境界値
【0069】
【数77】 は、属性αに対して、
【0070】
【数78】 のように計算される。
【0071】本発明によって計算された直交化境界値
【0072】
【数79】 は、フリーパラメータλの十分に正確な計算を実行し、
元の学習用オブジェクトに関して式(1)に従う確率を
十分に正確に計算することができる。一方、その計算速
度は、GIS学習アルゴリズムで使用された場合と同じ
である。
【0073】以下では、本発明によって計算された境界
【0074】
【数80】 の使用法がGIS学習アルゴリズムの3通りの変形例に
対して示される。
【0075】GIS学習アルゴリズムの第1の変形例で
は、直交化境界値
【0076】
【数81】 が本発明によって計算されたとき、数学関数Gは、式
(1)に従って以下の式(8)の形式、
【0077】
【数82】 である。式中、nは、反復パラメータを表わし、αは、
着目中の属性を表わし、γは、音声モデルの全ての属性
を表わし、
【0078】
【数83】 は、収束ステップのサイズを表わし、
【0079】
【数84】 は、属性α及びγに対するMESMにおける所望の直交
化境界値を表わし、
【0080】
【数85】 は、所望の境界値
【0081】
【数86】 に対する反復近似値を表わし、bα及びbγは、定数を
表わす。
【0082】所望の境界値mに対する収束ステップサイ
ズt及び反復近似値の計算が、後述のように、本発明に
よって定義された直交化属性関数
【0083】
【数87】 を用いて行なわれる。直交化属性関数は、
【0084】
【数88】 のように表わされる。
【0085】ここで、式(9)に従って本発明により計
算された直交化属性関数
【0086】
【数89】 は、値に関して、Rosenfeldによって提案された、他の
場所での属性関数に対応する。しかし、本発明による計
算は、図2a及び2bに示されるように、全く異なる。
この計算方法は、所望の直交化境界値
【0087】
【数90】 の計算のため図1a及び1bに関して説明した方法と同
様に行なわれる。但し、境界値mに対するシンボルは、
属性関数fに対するシンボルによって置換され、パレメ
ータXに対するシンボルは、属性関数fに対するシンボ
ルによって置換される。重複した説明を避けるため、図
2a及び2bによる方法の説明については、図1a及び
1bによる方法の説明を参照のこと。
【0088】本発明によって計算された直交化属性関数
【0089】
【数91】 又は
【0090】
【数92】 においては、収束ステップのサイズ
【0091】
【数93】 及び
【0092】
【数94】 が式(8)によって以下のように計算される。
【0093】
【数95】 式中、2値属性関数
【0094】
【数96】 に対するMorthoは、同じ引数(h,w)に対して値1を
生ずる関数の最大数を表わす。
【0095】さらに、本発明に従って定義された属性関
【0096】
【数97】 においては、反復近似値
【0097】
【数98】 は、以下の式(11)が使用されるとき、所望の直交化
境界値
【0098】
【数99】 に対し計算することができる。
【0099】
【数100】 式中、N(h)は、学習用コーパス中のヒストリーhの
頻度を示し、p(n)(w|h)は、所与の単語wが先
行単語列h(ヒストリー)の後に続く確率p(w|h)
を表わし、p(n)(w|h)は、パラメータ値
【0100】
【数101】 を使用する。
【0101】本発明によって計算された改良型の所望の
直交化境界値
【0102】
【数102】 は、GIS学習アルゴリズムの第2の変形例に対しても
推奨される。MESMの属性は、m個のグループAiに
細分され、反復毎に一つのグループからの属性αのパラ
メータ
【0103】
【数103】 だけが以下の式、
【0104】
【数104】 に従って変更される。式中、nは、反復パラメータを表
わし、Ai(n)は、n回目の反復ステップで選択され
た1≦i≦mなる属性グループA(i)を表現し、α
は、直前に選択された属性グループAi(n)からの着
目中の属性を表現し、βは、属性グループAi(n)か
らの全ての属性を表わし、
【0105】
【数105】 は、収束ステップのサイズを、
【0106】
【数106】 で表現し、但し、
【0107】
【数107】 である。式中、2値関数
【0108】
【数108】 に対する
【0109】
【数109】 は、属性グループAi(n)の中で、同じ引数(h,
w)に対する値1を生じる関数の最大数を表現し、
【0110】
【数110】 は、それぞれ、属性α及びβに対するMESMでの所望
の直交化境界値を表現し、
【0111】
【数111】 は、所望の境界値
【0112】
【数112】 に対する反復近似値を表現する。
【0113】パラメータ
【0114】
【数113】 が現在の反復ステップで適応させられた属性αのグルー
プAi(n)は、 i(n)=n(mod m) に従って、m個のグループ全てを循環的に通る。
【0115】本発明に従って計算された所望の直交化境
界値
【0116】
【数114】 の使用は、GIS学習アルゴリズムの第3の変形例に対
しても推奨される。第3の変形例は、反復ステップ毎に
使用されるべき属性グループAi(n)が循環的には選
択されず、所定の規準
【0117】
【数115】 に従う点で、第2の変形列とは相違する。
【0118】図3には、いわゆる最大エントロピー音声
モデルに基づく本発明によるタイプの音声認識システム
10が示されている。音声認識システム10は、与えら
れた音声信号の意味内容を認識しようとする認識装置1
2を含む。音声信号は、一般に、マイクロホン20から
の出力信号の形式で音声認識システムへ供給される。認
識装置12は、組み込まれた最大エントロピー音声モデ
ルMESMを用いて、受信音響信号中のパターンを、特
定単語、行動、若しくは、事象のような二つの所与の認
識シンボルへマッピングすることにより、音声信号の意
味内容を認識する。最終的に、認識装置12は、音声信
号で認識された意味内容を表現する信号を出力し、この
信号は、全ての種類の機器、たとえば、ワードプロセッ
シングプログラム又は電話機を制御するため使用可能で
ある。
【0119】制御媒体として使用される音声情報の意味
内容に関して、できる限り誤りが含まれないように機器
を制御するため、音声認識システム10は、できる限り
正確に評価されるように、音声の意味内容を認識しなけ
ればならない。このため、音声モデルは、話者、すなわ
ち、音声認識システムのユーザの言語特性にできるだけ
有効に適応させる必要がある。この適応は、音声認識シ
ステム10に外付けされ、或いは、音声認識システム1
0に組み込まれ、動作させることができる学習システム
14によって行なわれる。より詳細に説明すると、学習
システム14は、音声認識システム10のMESMを特
定のユーザの反復性統計的パターンに適応させるため使
用される。
【0120】認識装置12及び学習システム14の両方
は、通常、ソフトウェアモジュールの形式で設けられ、
適当なコンピュータ(図示されない)で実行されるが、
必ずしもこのような形態ではなくても構わない。
【図面の簡単な説明】
【図1a】本発明による所望の直交化境界値を計算する
方法のフローチャートである。
【図1b】本発明による所望の直交化境界値を計算する
方法のフローチャートである。
【図2a】本発明による直交化属性関数を計算する方法
のフローチャートである。
【図2b】本発明による直交化属性関数を計算する方法
のフローチャートである。
【図3】本発明による音声認識システムのブロック図で
ある。
【図4】属性ツリーの説明図である。
【符号の説明】
10 音声認識システム 12 認識装置 14 学習システム 20 マイクロホン
───────────────────────────────────────────────────── フロントページの続き (71)出願人 590000248 Groenewoudseweg 1, 5621 BA Eindhoven, Th e Netherlands

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 音声認識システムにおいて、最大エント
    ロピー音声モデル(MESM)のフリーパラメータ 【数1】 の反復値を、 nが反復パラメータを表わし、 Gが数学関数を表わし、 αが最大エントロピー音声モデルの属性を表わし、 【数2】 が属性αに対する最大エントロピー音声モデルにおける
    所望の直交化境界値を表わす場合に、次式 【数3】 に従う一般化反復スケーリング学習アルゴリズムを用い
    て計算する方法であって、 所望の直交化境界値 【数4】 は、所望の境界値 【数5】 と、属性αよりも広いレンジを有する属性βの所望の境
    界値 【数6】 との線形結合によって計算されることを特徴とする方
    法。
  2. 【請求項2】 属性α=β0に対する所望の直交化境界
    値 【数7】 の計算は、 音声モデルにおいて、i=1,...,gとして、属性
    α=β0と、属性α=β0よりも広いレンジRWを有す
    る属性とを含む全ての属性βiを選択する手順(a)
    と、 i=0,...,gとして、属性βiに対する所望の境
    界値mβiを計算する手順(b)と、 i=0,...,gとして、属性βiをレンジRWに従
    ってソーティングする手順(c)と、 最大レンジRWを有する一つの属性βiを選択する手順
    (d)と、 属性βiを含み、選択された属性βiよりも広いレンジ
    RWを有する他の属性βkが存在するかどうかを検査す
    る手順(e)と、 存在する場合に、より広いレンジを有する全ての属性β
    kに対して、手順(e)から手順(g)までの最後の実
    行中に、手順(g)で計算され、直前に実行された手順
    (e)で決定された直交化境界値 【数8】 の線形結合としてパラメータXを定める手順(f1)
    と、 存在しない場合に、パラメータXをX=0として定める
    手順(f2)と、 所望の境界値mβiをパラメータXと数学的に結合する
    ことによって、属性βiに対する所望の直交化境界値 【数9】 を計算する手順(g)と、 手順(g)において、i=0に関する所望の直交化境界
    値 【数10】 が計算されるまで、レンジRWが属性βiのレンジ以下
    である属性βi−1に対して、手順(e)から手順
    (g)までを繰り返す手順(h)と、を含む計算である
    ことを特徴とする、請求項1記載の方法。
  3. 【請求項3】 手順(f1)におけるパラメータXの計
    算は、式 【数11】 によって行なわれることを特徴とする請求項2記載の方
    法。
  4. 【請求項4】 手順(g)における所望の直交化境界値 【数12】 の計算は、式 【数13】 に従って行なわれることを特徴とする請求項3記載の方
    法。
  5. 【請求項5】 手順(b)におけるi=0,...,g
    に関する属性βiに対する所望の境界値 【数14】 の計算は、夫々の属性βiが学習用コーパスに出現する
    頻度N(βi)を計算し、計算された頻度N(βi)を
    平滑化することによって行なわれることを特徴とする請
    求項2記載の方法。
  6. 【請求項6】 頻度N(βi)の計算は、2値属性関数
    fβiを学習用コーパスへ適用することによって行なわ
    れ、 2値数関数fβiは、 【数15】 のように定義され、式中、 【数16】 は、属性βiが単語列(h,w)によって予め与えられ
    たパターンを正確に記述するかどうかを示す、ことを特
    徴とする請求項5記載の方法。
  7. 【請求項7】 数学関数Gは、更なる変数として、 【数17】 で表される収束ステップの大きさ 【数18】 を有し、式中、Morthoは、2値関数 【数19】 に関して、同じ引数(h,w)に対して値1を生ずる関
    数の最大個数を表していることを特徴とする、請求項1
    記載の方法。
  8. 【請求項8】 属性関数 【数20】 は、属性関数 【数21】 を、属性αよりも広いレンジを有する属性βから計算さ
    れた直交化属性関数 【数22】 と線形結合することにより計算されることを特徴とする
    請求項7記載の方法。
  9. 【請求項9】 属性α=β0に対する直交化属性関数 【数23】 の計算は、 音声モデルにおいて、i=0,...,gとして、属性
    α=β0と、属性α=β0よりも広いレンジRWを有す
    る属性とを含む全ての属性βiを選択する手順(a)
    と、 i=0,...,gとして、属性βiに対する境界値f
    βiを計算する手順(b)と、 i=0,...,gとして、属性βiをレンジRWに従
    ってソーティングする手順(c)と、 最大レンジRWを有する一つの属性βiを選択する手順
    (d)と、 属性βiを含み、選択された属性βiよりも広いレンジ
    RWを有する他の属性βkが存在するかどうかを検査す
    る手順(e)と、 存在する場合に、より広いレンジを有する全ての属性β
    kに対して、手順(e)から手順(g)までの最後の実
    行中に、手順(g)で計算され、直前に実行された手順
    (e)で決定された直交化属性関数 【数24】 の線形結合として関数Fを定める手順(f1)と、 存在しない場合に、関数FをF=0として定める手順
    (f2)と、 属性関数fβiを関数Fと数学的に結合することによっ
    て、属性βiに対する直交化属性関数 【数25】 を計算する手順(g)と、 手順(g)において、i=0に関する直交化属性関数 【数26】 が計算されるまで、レンジRWが属性βiのレンジ以下
    である属性βi−1に対して、手順(e)から手順
    (g)までを繰り返す手順(h)と、を含む計算である
    ことを特徴とする、請求項8記載の方法。
  10. 【請求項10】 手順(f1)における関数Fの計算
    は、式 【数27】 に従って行なわれることを特徴とする請求項9記載の方
    法。
  11. 【請求項11】 手順(g)における直交化属性関数 【数28】 の計算は、式 【数29】 に従って行なわれることを特徴とする請求項9記載の方
    法。
  12. 【請求項12】 数学関数Gは、以下の式、 【数30】 によって表され、式中、 αは、着目中の属性を示し、 γは、音声モデルの全ての属性を示し、 【数31】 は、 【数32】 の場合に、 【数33】 として与えられる収束ステップのサイズを示し、ここ
    で、Morthoは、2値関数 【数34】 に関して、同じ引数(h,w)に対して値1を生ずる関
    数の最大個数を表し、 【数35】 は、属性α及びγに対する最大エントロピー音声モデル
    における所望の直交化境界値を示し、 【数36】 は、所望の境界値 【数37】 に対する反復近似値を示し、 bα及びbγは定数を示す、ことを特徴とする請求項1
    記載の方法。
  13. 【請求項13】 数学関数Gは、以下の式、 【数38】 によって表され、式中、 nは、反復パラメータを示し、 Ai(n)は、n回目の反復ステップで選択された1≦
    i≦mなるiに関して属性グループAi(n)を示し、 αは、直前に選択された属性グループAi(n)からの
    着目中の属性を示し、βは、属性グループAi(n)の
    全ての属性を示し、 【数39】 は、 【数40】 の場合に、 【数41】 として与えられる収束ステップのサイズを示し、ここ
    で、 【数42】 は、2値関数 【数43】 に関して、属性グループAi(n)の中で同じ引数
    (h,w)に対して値1を生ずる関数の最大個数を表
    し、 【数44】 は、属性α及びβに対する最大エントロピー音声モデル
    における所望の直交化境界値を示し、 【数45】 は、所望の境界値 【数46】 に対する反復近似値を示し、 関連したパラメータ 【数47】 が現在の反復ステップに適応させられた属性αのグルー
    プAi(n)の選択は、循環式に、又は、所定の規準に
    従って行われる、ことを特徴とする請求項1記載の方
    法。
  14. 【請求項14】 マイクロホンによって捕捉され利用で
    きるようになされた音響信号の意味内容、特に、信号の
    一部分を組み込まれた最大エントロピー音声モデルME
    SMによって与えられた所与の認識シンボルにマッピン
    グすることによって音声信号を認識し、認識された意味
    内容を表現する出力信号を生成する認識装置と、 最大エントロピー音声モデルを音声認識システムのある
    ユーザの音声中の反復性統計的パターンに適応させる学
    習システムと、を具備した音声認識システムであって、 学習システムは、請求項1記載の方法によって最大エン
    トロピー音声モデルにおけるフリーパラメータを計算す
    ることを特徴とする、音声認識システム。
  15. 【請求項15】 音声認識システムにおいて、最大エン
    トロピー音声モデルを音声認識システムのあるユーザの
    音声中の反復性統計的パターンに適応させる学習システ
    ムであって、 請求項1記載の方法によって最大エントロピー音声モデ
    ルにおけるフリーパラメータを計算することを特徴とす
    る、学習システム。
JP2002035840A 2001-02-13 2002-02-13 音声認識システム、学習装置、及び、最大エントロピー音声モデルのフリーパラメータの反復値計算方法 Expired - Fee Related JP4090755B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10106581A DE10106581A1 (de) 2001-02-13 2001-02-13 Spracherkennungssystem, Trainingseinrichtung und Verfahren zum iterativen Berechnen freier Parameter eines Maximum-Entropie-Sprachmodells
DE10106581.7 2001-02-13

Publications (2)

Publication Number Publication Date
JP2002278578A true JP2002278578A (ja) 2002-09-27
JP4090755B2 JP4090755B2 (ja) 2008-05-28

Family

ID=7673841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002035840A Expired - Fee Related JP4090755B2 (ja) 2001-02-13 2002-02-13 音声認識システム、学習装置、及び、最大エントロピー音声モデルのフリーパラメータの反復値計算方法

Country Status (4)

Country Link
US (1) US7010486B2 (ja)
EP (1) EP1231596B1 (ja)
JP (1) JP4090755B2 (ja)
DE (2) DE10106581A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008105263A1 (ja) * 2007-02-28 2008-09-04 Nec Corporation 重み係数学習システム及び音声認識システム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
DE10110608A1 (de) * 2001-03-06 2002-09-12 Philips Corp Intellectual Pty Spracherkennungssystem, Trainingseinrichtung und Verfahren zum Einstellen eines freien Parameters lambda alpha ortho eines Merkmals alpha in einem Maximum-Entropie-Sprachmodell
US7464031B2 (en) * 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features
US7840404B2 (en) * 2004-09-20 2010-11-23 Educational Testing Service Method and system for using automatic generation of speech features to provide diagnostic feedback
US7392187B2 (en) * 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7933847B2 (en) * 2007-10-17 2011-04-26 Microsoft Corporation Limited-memory quasi-newton optimization algorithm for L1-regularized objectives
US8965765B2 (en) * 2008-09-19 2015-02-24 Microsoft Corporation Structured models of repetition for speech recognition
US9070360B2 (en) * 2009-12-10 2015-06-30 Microsoft Technology Licensing, Llc Confidence calibration in automatic speech recognition systems

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6304841B1 (en) * 1993-10-28 2001-10-16 International Business Machines Corporation Automatic construction of conditional exponential models from elementary features
US6049767A (en) * 1998-04-30 2000-04-11 International Business Machines Corporation Method for estimation of feature gain and training starting point for maximum entropy/minimum divergence probability models

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008105263A1 (ja) * 2007-02-28 2008-09-04 Nec Corporation 重み係数学習システム及び音声認識システム
US8494847B2 (en) 2007-02-28 2013-07-23 Nec Corporation Weighting factor learning system and audio recognition system
JP5294086B2 (ja) * 2007-02-28 2013-09-18 日本電気株式会社 重み係数学習システム及び音声認識システム

Also Published As

Publication number Publication date
US20020156628A1 (en) 2002-10-24
JP4090755B2 (ja) 2008-05-28
EP1231596A9 (de) 2003-03-05
EP1231596A1 (de) 2002-08-14
DE50204352D1 (de) 2005-11-03
US7010486B2 (en) 2006-03-07
DE10106581A1 (de) 2002-08-22
EP1231596B1 (de) 2005-09-28

Similar Documents

Publication Publication Date Title
JP3696231B2 (ja) 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
KR101120858B1 (ko) 슬롯에 대한 규칙 기반 문법, 및 프리터미널에 대한 통계 모델을 위한 자연 언어 이해 시스템 및 자연 언어 이해 모델 트레이닝 방법
US8392188B1 (en) Method and system for building a phonotactic model for domain independent speech recognition
WO2022121251A1 (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
JPH0355837B2 (ja)
JP2006243728A (ja) 音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラム
US11803618B2 (en) N-best softmax smoothing for minimum bayes risk training of attention based sequence-to-sequence models
CN103474069A (zh) 用于融合多个语音识别系统的识别结果的方法及系统
WO2020119432A1 (zh) 一种语音识别方法、装置、设备和存储介质
JP2002278578A (ja) 音声認識システム、学習装置、及び、最大エントロピー音声モデルのフリーパラメータの反復値計算方法
US11380315B2 (en) Characterizing accuracy of ensemble models for automatic speech recognition by determining a predetermined number of multiple ASR engines based on their historical performance
CN112951211B (zh) 一种语音唤醒方法及装置
KR20120038198A (ko) 음성 인식 장치 및 방법
JP2004310098A (ja) スイッチング状態空間型モデルによる変分推論を用いた音声認識の方法
JP6973192B2 (ja) 言語モデルを利用する装置、方法及びプログラム
CN113569559A (zh) 短文本实体情感分析方法、系统、电子设备及存储介质
CN110767217B (zh) 音频分割方法、系统、电子设备和存储介质
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
CN108899016A (zh) 一种语音文本规整方法、装置、设备及可读存储介质
JP2001188557A (ja) 最大エントロピ音声モデルの生成方法
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
US20200286487A1 (en) Characterizing accuracy of ensemble models for automatic speech recognition
EP0903727A1 (en) A system and method for automatic speech recognition
CN112185351B (zh) 语音信号处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070626

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070925

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080227

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110307

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110307

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120307

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130307

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130307

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140307

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees