JP2002278578A

JP2002278578A - 音声認識システム、学習装置、及び、最大エントロピー音声モデルのフリーパラメータの反復値計算方法

Info

Publication number: JP2002278578A
Application number: JP2002035840A
Authority: JP
Inventors: Jochen Peters; ペータースヨーヘン
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-02-13
Filing date: 2002-02-13
Publication date: 2002-09-27
Anticipated expiration: 2022-02-13
Also published as: US20020156628A1; JP4090755B2; EP1231596A9; EP1231596A1; DE50204352D1; US7010486B2; DE10106581A1; EP1231596B1

Abstract

(57)【要約】【課題】最大エントロピー音声モデルのフリーパラメ
ータの反復値を、元の学習用オブジェクトを変更するこ
となく、高速で計算する音声認識システムの提供を目的
とする。【解決手段】本発明は、属性αの所望の境界値と、属
性αよりも広いレンジを有する属性βからの所望の境界
値との線形結合によって所望の直交化境界値を計算し、
両方の所望の計算値は元の学習用オブジェクトの所望の
境界値である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識システム
において、最大エントロピー音声モデルＭＥＳＭのフリ
ーパラメータ

【０００２】

【数４８】の反復値を、ｎが反復パラメータを表わし、Ｇが数学関数を表わし、 αが最大エントロピー音声モデルの属性を表わし、

【０００３】

【数４９】が属性αに対する最大エントロピー音声モデルにおける
所望の直交化境界値を表わす場合に、次式

【０００４】

【数５０】に従う一般化反復スケーリング学習アルゴリズムを用い
て計算する方法に関する。

【０００５】本発明は、上記の計算方法を実施する、従
来技術で公知のコンピュータ支援音声認識システム、及
び、コンピュータ支援学習装置に関する。

【０００６】

【従来の技術】入力音声を認識するコンピュータ支援音
声認識システムにおいて関連している音声モデルの構築
の開始点は、所与の学習用オブジェクトである。学習用
オブジェクトは、音声認識システムの将来のユーザの言
語におけるある種の統計的パターンを、数学的に定式化
された境界条件の系で表現すること（マップすること）
である。この系は、一般的に、

【０００７】

【数５１】という式で書き表され、式中、Ｎ（ｈ）は、学習用コー
パスにおけるヒストリーｈの頻度を表わし、Ｐ（ｗ｜
ｈ）は、所与の単語ｗが先行単語列ｈ（ヒストリー）の
後に続く確率ｐ（ｗ｜ｈ）を表わし、

【０００８】

【数５２】は、属性αに対する２値属性関数を表わし、

【０００９】

【数５３】は、境界条件の系における所望の境界値を表わす。

【００１０】この境界条件の系の解、すなわち、学習用
オブジェクトは、いわゆる、最大エントロピー音声モデ
ルＭＥＳＭによって形成される。最大エントロピー音声
モデルは、境界条件の系の適当な解を、適当な確率の定
義ｐ（ｗ｜ｈ）の形式で表わす。この確率は、

【００１１】

【数５４】のように表わされ、式中、Ｚλ（ｈ）は、ヒストリー依
存型標準化因子を表わし、λαは、属性αに対するフリ
ーパラメータを表わし、λは、全パラメータの集合を表
わす。上記パラメータに対して、上記の定義式が成り立
つ。

【００１２】２値属性関数ｆα（ｈ，ｗ）は、たとえ
ば、所与の単語列ｈ、ｗがある場所に所与の単語を格納
するどうかについての２分決定を行なう。属性αは、一
般的に、１単語、１列、単語クラス（色又は動詞）、単
語クラスの列、若しくは、より複雑なパターンを表わ
す。

【００１３】図４には、一例として、音声モデルにおけ
る所与の属性が示されている。たとえば、図示されたユ
ニグラムは、１単語を表現し、バイグラムは、２単語か
らなる単語列を表現し、トリグラムは、３単語からなる
単語列を表現する。バイグラム"ORA"は、ユニグラム"A"
と、別の単語とを含むので、バイグラムは、ユニグラ
ム"A"よりも広いレンジをもつ、というように表わされ
る。同様に、トリグラム"A WHITE HOUSE"は、ユニグラ
ム"HOUSE"或いはバイグラム"WHITE HOUSE"よりも広いレ
ンジを有する。

【００１４】フリーパラメータλは、式（３）が式
（２）による境界条件の系に対する解を表現するように
合わされる。この適応は、通常、公知の学習アルゴリズ
ムを用いて行なわれる。このような学習アルゴリズムの
一例は、いわゆる、一般化反復スケーリングＧＩＳアル
ゴリズムである。このＧＩＳアルゴリズムについては、
たとえば、文献：J.N. Darroch and D. Raatcliff, "Ge
neralized iterative scaling for log linear model
s", Annals Math. Stat., 43(5):1470-1480, 1972を参
照するのがよい。

【００１５】このＧＩＳアルゴリズムは、フリーパラメ
ータλの繰り返し計算を行なう．通常、この計算は非常
に時間がかかる。この計算の速度を高めるため、従来技
術では、直交化属性関数

【００１６】

【数５５】で、式（２）による境界条件の系における属性関数

【００１７】

【数５６】を代用することが提案されている。この提案に関して
は、たとえば、文献：R.Rosenfeld, "A maximum-entrop
y approach to adaptive statistical language modeli
ng"; Computer Speech and Language, 10:187-228, 199
6を参考にするとよい。しかし、式（２）の左項の属性
関数の置換によって、右項の境界値

【００１８】

【数５７】も変更する。この変更は、元の境界条件の系、すなわ
ち、境界値を推定する通常の集合アプローチにおける元
の学習用オブジェクトを変更する。これについては、上
述の文献：R.Rosenfeld, "A maximum-entropy approach
to adaptive statistical language modeling"; Compu
ter Speech and Languageの205ページを参照のこと。

【００１９】

【発明が解決しようとする課題】この点に関して、従来
技術では、ＧＩＳアルゴリズムの計算が加速化されると
き、フリーパラメータλは、変更された学習用オブジェ
クトに関して訓練される、という欠点が生じる。このよ
うにして計算されたパラメータλは、このパラメータλ
を式（３）で使用したときに、音声モデルの元の学習用
オブジェクトへの適応を不適切にさせる原因になる。

【００２０】したがって、本発明は、上記従来技術の問
題点に鑑みて、元の学習用オブジェクトを変更すること
なく、フリーパラメータλを高速計算が可能になる、コ
ンピュータ支援音声認識システム、コンピュータ支援学
習システム、及び、音声認識システムにおいて最大エン
トロピー音声モデルのフリーパラメータ

【００２１】

【数５８】を反復的に計算する方法の提供を目的とする。

【００２２】

【課題を解決するための手段】上記目的を達成するた
め、請求項１に係る発明では、ＧＩＳアルゴリズムを用
いてフリーパラメータλを計算する上述の方法におい
て、所望の直交化境界値

【００２３】

【数５９】は、属性αに関する所望の境界値

【００２４】

【数６０】と、属性αよりも広いレンジを有する属性βの所望の境
界値

【００２５】

【数６１】との線形結合によって計算される。ここで、

【００２６】

【数６２】及び

【００２７】

【数６３】は、元の学習用オブジェクトの所望の境界値である。

【００２８】このようにして計算された境界値

【００２９】

【数６４】を使用することによって、フリーパラメータラムダの改
良された近似を有利な手段で実現できるようになり、元
の学習用モデルに関して改良型の音声モデルを構築でき
るようになる。この定性的な改良が実現可能であると共
に、ＧＩＳアルゴリズムを用いた反復計算中に、高い収
束速度がフリーパラメータλに対して実現され続ける。

【００３０】本発明によって計算された所望の直交化境
界値

【００３１】

【数６５】の使用は、従属した請求項１２及び１３に記載されてい
るように、ＧＩＳ学習アルゴリズムの幾つかの変形例に
ついても推奨される。

【００３２】上記の本発明の目的は、請求項１４に記載
されるような最大エントロピー音声モデルＭＥＳＭに基
づく音声認識システム、並びに、請求項１５に記載され
るようなＭＥＳＭを訓練する学習システムによって達成
される。

【００３３】本発明による方法を学習システムで実施す
ることによって、音声認識システムにおける最大エント
ロピー音声モデルＭＥＳＭは、音声認識システムのある
種のユーザの個別の言語特性に対して、従来技術よりも
効果的に適応する。音声認識システムが、ユーザの音声
の意味内容を正確に認識する際に用いる引用は、著しく
改良される。

【００３４】本発明の音声認識システム及び学習システ
ムの利点は、本発明による方法の利点と対応する。

【００３５】

【発明の実施の形態】以下、添付図面を参照して本発明
を説明する。

【００３６】最初に、図１ａ及び１ｂを参照して本発明
の一実施例を詳細に説明する。

【００３７】図１ａ及び１ｂには、音声モデルにおける
属性α＝β０に対する本発明による改良された所望の直
交化境界値

【００３８】

【数６６】の計算方法が示されている。

【００３９】この方法のステップ１において、ｉ＝
１，．．．，ｇとして、所与の属性α＝β０よりも広い
レンジを有する属性と、所定の場所の属性α＝β０とを
含む全ての属性βｉが、この方法によって決定される。

【００４０】次に、ステップ２において、ｉ＝
０，．．．，ｇとして、元の学習用オブジェクトの所望
の境界値ｍβｉが属性α＝β０を含む、全ての属性βｉ
に関して計算される。

【００４１】このような所望の境界値ｍβｉを計算する
ため、従来の幾つかの方法が知られている。

【００４２】第１の方法によれば、この計算は、最初
に、音声モデルの学習用コーパスが使用されたときに、
関連した２値属性関数ｆβｉが値１を生ずる頻度Ｎ（β
ｉ）を計算し、次に、このようにして決定された頻度値
Ｎ（βｉ）を平滑化する、ことによって行なわれる。

【００４３】第２の代替的な方法によれば、この計算
は、境界条件が衝突しなくなるまで、音声モデルの属性
の量を減少させることによって実行される。このような
属性の数の削減は、実際的な状況では非常に広範囲に亘
る必要がある。なぜならば、広範囲に亘らない場合、生
成された音声モデルが元の学習用オブジェクトに対する
解を表現しなくなるからである。

【００４４】第３の方法では、この計算は、文献：J.Pe
ters and D.Klakow, "Compact Maximum Entropy Langua
ge Models", Proc. ASRU, Keystone, Colorado, 1999に
記載されているように、いわゆる、誘導音声モデルを用
いて行なわれる。

【００４５】ステップ３では、全ての属性βｉがレンジ
に応じてソートされ、最大レンジを有する属性βｉには
インデックスｉ＝ｇが割り当てられる。個別のレンジの
クラス、たとえば、バイグラムのクラス、若しくは、ト
リグラムのクラスは、複数の属性βｉが割り当てられ
る。このような状況で、連続的な異なるインデックスｉ
を有する複数の属性βｉは、全く同一のレンジのクラス
に割り当てられ、これらの属性は、常に同じＲＷを有
し、同じレンジのクラスに属する。

【００４６】この方法を実施するため、順次のステップ
で、個別の属性βｉが順番に推定され、属性は、減少す
るレンジ（又は、一定レンジ）に応じて処理されること
が重要である、この方法を最初に動かすとき、最高のレ
ンジのクラスへ割り当てられた属性βｉを用いて開始さ
れ、好ましくは、ｉは、ｇと一致するように設定される
（図１ａのステップ４及びステップ５を参照せよ）。

【００４７】次に、ステップ６において、属性βｉを含
む現在選択された属性βｉについて、１＜ｋ≦ｇに関し
て、より広いレンジを有する属性βｋが出現したかどう
かを検査する。第１回目の実行の際に、ｉ＝ｇなる属性
βｉは、上述のように最大レンジを有するクラスに自動
的に属するので、ステップＳ６における質問に対する回
答は、この属性βｉの場合には否定的である。この場
合、ステップ８へジャンプし、パラメータＸは零にセッ
トされる。

【００４８】次に、ステップ９において、改良された所
望の直交化境界値

【００４９】

【数６７】が、（ｉ＝ｇである第１回目の実行時に）属性βｉに対
して計算される。ステップ９からわかるように、属性β
ｉに対する境界値は、パラメータＸ＝０である場合（た
とえば、第１回目の実行中）、ステップ２で計算された
所望の境界値ｍβｉと一致するようにセットされる。

【００５０】ステップ５乃至ステップ１１は、ｉ−１＝
ｇ−１，．．．，０として、全ての属性βｉ−１に対し
て、連続的に繰り返される。ステップ１０において、イ
ンデックスｉは再初期化される。この再初期化は、ステ
ップ１１において、ｉ＝０，．．．，ｇとして、全ての
属性βｉが処理されたかどうかを問い合わせるために必
要である。

【００５１】より広いレンジを有するｉ＜ｋ≦ｇなる属
性βｋが存在する全ての属性βｉに対して、ステップ６
における問い合わせの回答は、必ず肯定的である。この
とき、パラメータＸは、零にセットされず、ステップ７
の処理に従って計算される。すなわち、パラメータＸ
は、より広いレンジを有する夫々の属性βｋに対してス
テップ９において前回の実行時に計算された、対応した
改良された所望の直交化境界値

【００５２】

【数６８】の総和を計算することによって求められる。

【００５３】ステップ１１において、所望の直交化境界
値

【００５４】

【数６９】がステップ９で計算されたと判定されたとき、この所望
の直交化境界値は、ステップ１２において、

【００５５】

【数７０】として出力される。

【００５６】改良された所望の直交化境界値

【００５７】

【数７１】の計算に関して具体的に説明した本発明による方法は、
以下の式、

【００５８】

【数７２】のように簡単に記述できる。

【００５９】合計（＊）は、より広いレンジを有し、所
定の属性αを含む全ての属性βを加える。境界値

【００６０】

【数７３】を計算するため、上記式（４）は、合計の項がある種の
属性に関して消えるまで、すなわち、最大レンジを有す
る属性に関して消えるまで、各属性βに関して大凡再帰
的な形で使用される。なぜならば、それらよりも広いレ
ンジを有する属性は存在しないからである。最大レンジ
を有する属性βｋに対する所望の直交化境界値は、対応
した元の所望の境界値ｍβｋと対応付けられる。

【００６１】図１ａ及び１ｂに示されているような本発
明による方法の実施例を、一例として使用された以下の
音声モデルの学習用コーパス、を用いて更に説明する。

【００６２】学習用コーパスは、Ｎ＝２３個の個別の単
語を含む。音声モデルにおいて、所望のユニグラム、バ
イグラム、及び、トリグラム属性は、図４に従って予め
決められる。

【００６３】次に、学習用コーパスに対して、通常の属
性関数ｆあるファを使用することにより、図４によるユ
ニグラム、バイグラム及びトリグラムが、以下の頻度：ユニグラムＡ４ＨＯＵＳＥ４ＩＳ２ＯＲ２ＴＨＡＴ２ＷＨＩＴＥ２バイグラムＡＷＨＩＴＥ１ＯＲＡ２ＷＨＩＴＥＨＯＵＳＥ２トリグラムＡＷＨＩＴＥＨＯＵＳＥ１で学習用コーパスに出現する。

【００６４】ここに示した例の場合、改良された所望の
直交化境界値

【００６５】

【数７４】は、属性α＝"HOUSE"に対して計算されるべきである。
この目的のため、最小Ｉ、図１ａのステップ１に従っ
て、属性αよりも広いレンジを有する全ての属性が属性
αに対して決定される。図４の例の場合、それらの属性
は、バイグラム"WHITE HOUSE"と、トリグラム"A WHITE
HOUSE"である。ステップ２によって、通常の所望の境界
値が、属性αよりも広いレンジを有するこれらの属性に
対して計算されるが、属性αに対しても計算され、たと
えば、上述の確定されたそれぞれの頻度は、平滑化され
る。この平滑化は、たとえば、本例では、値０．１を減
算することによって行なわれる。かくして、通常の所望
の境界値、ｍα ："HOUSE" ＝４−０．１＝３．９ｍβ１："WHITE HOUSE" ＝２−０．１＝２．９ｍβ２："A WHITE HOUSE" ＝１−０．１＝０．９が得られる。

【００６６】属性α、β１、β２は、それらのレンジに
応じてソートされ、最大レンジで変化する属性から順番
に、対応した改良された所望の直交化境界値が式（６）
に従って、或いは、図１ａ及び１ｂのステップ７乃至９
に従って計算される。

【００６７】

【数７５】

【００６８】

【数７６】最後に、改良された所望の直交化境界値

【００６９】

【数７７】は、属性αに対して、

【００７０】

【数７８】のように計算される。

【００７１】本発明によって計算された直交化境界値

【００７２】

【数７９】は、フリーパラメータλの十分に正確な計算を実行し、
元の学習用オブジェクトに関して式（１）に従う確率を
十分に正確に計算することができる。一方、その計算速
度は、ＧＩＳ学習アルゴリズムで使用された場合と同じ
である。

【００７３】以下では、本発明によって計算された境界
値

【００７４】

【数８０】の使用法がＧＩＳ学習アルゴリズムの３通りの変形例に
対して示される。

【００７５】ＧＩＳ学習アルゴリズムの第１の変形例で
は、直交化境界値

【００７６】

【数８１】が本発明によって計算されたとき、数学関数Ｇは、式
（１）に従って以下の式（８）の形式、

【００７７】

【数８２】である。式中、ｎは、反復パラメータを表わし、αは、
着目中の属性を表わし、γは、音声モデルの全ての属性
を表わし、

【００７８】

【数８３】は、収束ステップのサイズを表わし、

【００７９】

【数８４】は、属性α及びγに対するＭＥＳＭにおける所望の直交
化境界値を表わし、

【００８０】

【数８５】は、所望の境界値

【００８１】

【数８６】に対する反復近似値を表わし、ｂα及びｂγは、定数を
表わす。

【００８２】所望の境界値ｍに対する収束ステップサイ
ズｔ及び反復近似値の計算が、後述のように、本発明に
よって定義された直交化属性関数

【００８３】

【数８７】を用いて行なわれる。直交化属性関数は、

【００８４】

【数８８】のように表わされる。

【００８５】ここで、式（９）に従って本発明により計
算された直交化属性関数

【００８６】

【数８９】は、値に関して、Rosenfeldによって提案された、他の
場所での属性関数に対応する。しかし、本発明による計
算は、図２ａ及び２ｂに示されるように、全く異なる。
この計算方法は、所望の直交化境界値

【００８７】

【数９０】の計算のため図１ａ及び１ｂに関して説明した方法と同
様に行なわれる。但し、境界値ｍに対するシンボルは、
属性関数ｆに対するシンボルによって置換され、パレメ
ータＸに対するシンボルは、属性関数ｆに対するシンボ
ルによって置換される。重複した説明を避けるため、図
２ａ及び２ｂによる方法の説明については、図１ａ及び
１ｂによる方法の説明を参照のこと。

【００８８】本発明によって計算された直交化属性関数

【００８９】

【数９１】又は

【００９０】

【数９２】においては、収束ステップのサイズ

【００９１】

【数９３】及び

【００９２】

【数９４】が式（８）によって以下のように計算される。

【００９３】

【数９５】式中、２値属性関数

【００９４】

【数９６】に対するM^orthoは、同じ引数（ｈ，ｗ）に対して値１を
生ずる関数の最大数を表わす。

【００９５】さらに、本発明に従って定義された属性関
数

【００９６】

【数９７】においては、反復近似値

【００９７】

【数９８】は、以下の式（１１）が使用されるとき、所望の直交化
境界値

【００９８】

【数９９】に対し計算することができる。

【００９９】

【数１００】式中、Ｎ（ｈ）は、学習用コーパス中のヒストリーｈの
頻度を示し、ｐ^（ｎ）（ｗ｜ｈ）は、所与の単語ｗが先
行単語列ｈ（ヒストリー）の後に続く確率ｐ（ｗ｜ｈ）
を表わし、ｐ^（ｎ）（ｗ｜ｈ）は、パラメータ値

【０１００】

【数１０１】を使用する。

【０１０１】本発明によって計算された改良型の所望の
直交化境界値

【０１０２】

【数１０２】は、ＧＩＳ学習アルゴリズムの第２の変形例に対しても
推奨される。ＭＥＳＭの属性は、ｍ個のグループＡｉに
細分され、反復毎に一つのグループからの属性αのパラ
メータ

【０１０３】

【数１０３】だけが以下の式、

【０１０４】

【数１０４】に従って変更される。式中、ｎは、反復パラメータを表
わし、Ａｉ（ｎ）は、ｎ回目の反復ステップで選択され
た１≦ｉ≦ｍなる属性グループＡ（ｉ）を表現し、α
は、直前に選択された属性グループＡｉ（ｎ）からの着
目中の属性を表現し、βは、属性グループＡｉ（ｎ）か
らの全ての属性を表わし、

【０１０５】

【数１０５】は、収束ステップのサイズを、

【０１０６】

【数１０６】で表現し、但し、

【０１０７】

【数１０７】である。式中、２値関数

【０１０８】

【数１０８】に対する

【０１０９】

【数１０９】は、属性グループＡｉ（ｎ）の中で、同じ引数（ｈ，
ｗ）に対する値１を生じる関数の最大数を表現し、

【０１１０】

【数１１０】は、それぞれ、属性α及びβに対するＭＥＳＭでの所望
の直交化境界値を表現し、

【０１１１】

【数１１１】は、所望の境界値

【０１１２】

【数１１２】に対する反復近似値を表現する。

【０１１３】パラメータ

【０１１４】

【数１１３】が現在の反復ステップで適応させられた属性αのグルー
プＡｉ（ｎ）は、ｉ（ｎ）＝ｎ（ｍｏｄｍ）に従って、ｍ個のグループ全てを循環的に通る。

【０１１５】本発明に従って計算された所望の直交化境
界値

【０１１６】

【数１１４】の使用は、ＧＩＳ学習アルゴリズムの第３の変形例に対
しても推奨される。第３の変形例は、反復ステップ毎に
使用されるべき属性グループＡｉ（ｎ）が循環的には選
択されず、所定の規準

【０１１７】

【数１１５】に従う点で、第２の変形列とは相違する。

【０１１８】図３には、いわゆる最大エントロピー音声
モデルに基づく本発明によるタイプの音声認識システム
１０が示されている。音声認識システム１０は、与えら
れた音声信号の意味内容を認識しようとする認識装置１
２を含む。音声信号は、一般に、マイクロホン２０から
の出力信号の形式で音声認識システムへ供給される。認
識装置１２は、組み込まれた最大エントロピー音声モデ
ルＭＥＳＭを用いて、受信音響信号中のパターンを、特
定単語、行動、若しくは、事象のような二つの所与の認
識シンボルへマッピングすることにより、音声信号の意
味内容を認識する。最終的に、認識装置１２は、音声信
号で認識された意味内容を表現する信号を出力し、この
信号は、全ての種類の機器、たとえば、ワードプロセッ
シングプログラム又は電話機を制御するため使用可能で
ある。

【０１１９】制御媒体として使用される音声情報の意味
内容に関して、できる限り誤りが含まれないように機器
を制御するため、音声認識システム１０は、できる限り
正確に評価されるように、音声の意味内容を認識しなけ
ればならない。このため、音声モデルは、話者、すなわ
ち、音声認識システムのユーザの言語特性にできるだけ
有効に適応させる必要がある。この適応は、音声認識シ
ステム１０に外付けされ、或いは、音声認識システム１
０に組み込まれ、動作させることができる学習システム
１４によって行なわれる。より詳細に説明すると、学習
システム１４は、音声認識システム１０のＭＥＳＭを特
定のユーザの反復性統計的パターンに適応させるため使
用される。

【０１２０】認識装置１２及び学習システム１４の両方
は、通常、ソフトウェアモジュールの形式で設けられ、
適当なコンピュータ（図示されない）で実行されるが、
必ずしもこのような形態ではなくても構わない。

【図面の簡単な説明】

【図１ａ】本発明による所望の直交化境界値を計算する
方法のフローチャートである。

【図１ｂ】本発明による所望の直交化境界値を計算する
方法のフローチャートである。

【図２ａ】本発明による直交化属性関数を計算する方法
のフローチャートである。

【図２ｂ】本発明による直交化属性関数を計算する方法
のフローチャートである。

【図３】本発明による音声認識システムのブロック図で
ある。

【図４】属性ツリーの説明図である。

【符号の説明】

１０音声認識システム１２認識装置１４学習システム２０マイクロホン

───────────────────────────────────────────────────── フロントページの続き (71)出願人 590000248 Ｇｒｏｅｎｅｗｏｕｄｓｅｗｅｇ１, 5621 ＢＡＥｉｎｄｈｏｖｅｎ，ＴｈｅＮｅｔｈｅｒｌａｎｄｓ

Claims

【特許請求の範囲】

【請求項１】音声認識システムにおいて、最大エント
ロピー音声モデル（ＭＥＳＭ）のフリーパラメータ【数１】の反復値を、ｎが反復パラメータを表わし、Ｇが数学関数を表わし、 αが最大エントロピー音声モデルの属性を表わし、【数２】が属性αに対する最大エントロピー音声モデルにおける
所望の直交化境界値を表わす場合に、次式【数３】に従う一般化反復スケーリング学習アルゴリズムを用い
て計算する方法であって、所望の直交化境界値【数４】は、所望の境界値【数５】と、属性αよりも広いレンジを有する属性βの所望の境
界値【数６】との線形結合によって計算されることを特徴とする方
法。
【請求項２】属性α＝β０に対する所望の直交化境界
値【数７】の計算は、音声モデルにおいて、ｉ＝１，．．．，ｇとして、属性
α＝β０と、属性α＝β０よりも広いレンジＲＷを有す
る属性とを含む全ての属性βｉを選択する手順（ａ）
と、ｉ＝０，．．．，ｇとして、属性βｉに対する所望の境
界値ｍβｉを計算する手順（ｂ）と、ｉ＝０，．．．，ｇとして、属性βｉをレンジＲＷに従
ってソーティングする手順（ｃ）と、最大レンジＲＷを有する一つの属性βｉを選択する手順
（ｄ）と、属性βｉを含み、選択された属性βｉよりも広いレンジ
ＲＷを有する他の属性βｋが存在するかどうかを検査す
る手順（ｅ）と、存在する場合に、より広いレンジを有する全ての属性β
ｋに対して、手順（ｅ）から手順（ｇ）までの最後の実
行中に、手順（ｇ）で計算され、直前に実行された手順
（ｅ）で決定された直交化境界値【数８】の線形結合としてパラメータＸを定める手順（ｆ１）
と、存在しない場合に、パラメータＸをＸ＝０として定める
手順（ｆ２）と、所望の境界値ｍβｉをパラメータＸと数学的に結合する
ことによって、属性βｉに対する所望の直交化境界値【数９】を計算する手順（ｇ）と、手順（ｇ）において、ｉ＝０に関する所望の直交化境界
値【数１０】が計算されるまで、レンジＲＷが属性βｉのレンジ以下
である属性βｉ−１に対して、手順（ｅ）から手順
（ｇ）までを繰り返す手順（ｈ）と、を含む計算である
ことを特徴とする、請求項１記載の方法。
【請求項３】手順（ｆ１）におけるパラメータＸの計
算は、式【数１１】によって行なわれることを特徴とする請求項２記載の方
法。
【請求項４】手順（ｇ）における所望の直交化境界値【数１２】の計算は、式【数１３】に従って行なわれることを特徴とする請求項３記載の方
法。
【請求項５】手順（ｂ）におけるｉ＝０，．．．，ｇ
に関する属性βｉに対する所望の境界値【数１４】の計算は、夫々の属性βｉが学習用コーパスに出現する
頻度Ｎ（βｉ）を計算し、計算された頻度Ｎ（βｉ）を
平滑化することによって行なわれることを特徴とする請
求項２記載の方法。
【請求項６】頻度Ｎ（βｉ）の計算は、２値属性関数
ｆβｉを学習用コーパスへ適用することによって行なわ
れ、２値数関数ｆβｉは、【数１５】のように定義され、式中、【数１６】は、属性βｉが単語列（ｈ，ｗ）によって予め与えられ
たパターンを正確に記述するかどうかを示す、ことを特
徴とする請求項５記載の方法。
【請求項７】数学関数Ｇは、更なる変数として、【数１７】で表される収束ステップの大きさ【数１８】を有し、式中、Ｍ^{ｏｒｔｈｏ}は、２値関数【数１９】に関して、同じ引数（ｈ，ｗ）に対して値１を生ずる関
数の最大個数を表していることを特徴とする、請求項１
記載の方法。
【請求項８】属性関数【数２０】は、属性関数【数２１】を、属性αよりも広いレンジを有する属性βから計算さ
れた直交化属性関数【数２２】と線形結合することにより計算されることを特徴とする
請求項７記載の方法。
【請求項９】属性α＝β０に対する直交化属性関数【数２３】の計算は、音声モデルにおいて、ｉ＝０，．．．，ｇとして、属性
α＝β０と、属性α＝β０よりも広いレンジＲＷを有す
る属性とを含む全ての属性βｉを選択する手順（ａ）
と、ｉ＝０，．．．，ｇとして、属性βｉに対する境界値ｆ
βｉを計算する手順（ｂ）と、ｉ＝０，．．．，ｇとして、属性βｉをレンジＲＷに従
ってソーティングする手順（ｃ）と、最大レンジＲＷを有する一つの属性βｉを選択する手順
（ｄ）と、属性βｉを含み、選択された属性βｉよりも広いレンジ
ＲＷを有する他の属性βｋが存在するかどうかを検査す
る手順（ｅ）と、存在する場合に、より広いレンジを有する全ての属性β
ｋに対して、手順（ｅ）から手順（ｇ）までの最後の実
行中に、手順（ｇ）で計算され、直前に実行された手順
（ｅ）で決定された直交化属性関数【数２４】の線形結合として関数Ｆを定める手順（ｆ１）と、存在しない場合に、関数ＦをＦ＝０として定める手順
（ｆ２）と、属性関数ｆβｉを関数Ｆと数学的に結合することによっ
て、属性βｉに対する直交化属性関数【数２５】を計算する手順（ｇ）と、手順（ｇ）において、ｉ＝０に関する直交化属性関数【数２６】が計算されるまで、レンジＲＷが属性βｉのレンジ以下
である属性βｉ−１に対して、手順（ｅ）から手順
（ｇ）までを繰り返す手順（ｈ）と、を含む計算である
ことを特徴とする、請求項８記載の方法。
【請求項１０】手順（ｆ１）における関数Ｆの計算
は、式【数２７】に従って行なわれることを特徴とする請求項９記載の方
法。
【請求項１１】手順（ｇ）における直交化属性関数【数２８】の計算は、式【数２９】に従って行なわれることを特徴とする請求項９記載の方
法。
【請求項１２】数学関数Ｇは、以下の式、【数３０】によって表され、式中、 αは、着目中の属性を示し、 γは、音声モデルの全ての属性を示し、【数３１】は、【数３２】の場合に、【数３３】として与えられる収束ステップのサイズを示し、ここ
で、Ｍ^{ｏｒｔｈｏ}は、２値関数【数３４】に関して、同じ引数（ｈ，ｗ）に対して値１を生ずる関
数の最大個数を表し、【数３５】は、属性α及びγに対する最大エントロピー音声モデル
における所望の直交化境界値を示し、【数３６】は、所望の境界値【数３７】に対する反復近似値を示し、ｂα及びｂγは定数を示す、ことを特徴とする請求項１
記載の方法。
【請求項１３】数学関数Ｇは、以下の式、【数３８】によって表され、式中、ｎは、反復パラメータを示し、Ａｉ（ｎ）は、ｎ回目の反復ステップで選択された１≦
ｉ≦ｍなるｉに関して属性グループＡｉ（ｎ）を示し、 αは、直前に選択された属性グループＡｉ（ｎ）からの
着目中の属性を示し、βは、属性グループＡｉ（ｎ）の
全ての属性を示し、【数３９】は、【数４０】の場合に、【数４１】として与えられる収束ステップのサイズを示し、ここ
で、【数４２】は、２値関数【数４３】に関して、属性グループＡｉ（ｎ）の中で同じ引数
（ｈ，ｗ）に対して値１を生ずる関数の最大個数を表
し、【数４４】は、属性α及びβに対する最大エントロピー音声モデル
における所望の直交化境界値を示し、【数４５】は、所望の境界値【数４６】に対する反復近似値を示し、関連したパラメータ【数４７】が現在の反復ステップに適応させられた属性αのグルー
プＡｉ（ｎ）の選択は、循環式に、又は、所定の規準に
従って行われる、ことを特徴とする請求項１記載の方
法。
【請求項１４】マイクロホンによって捕捉され利用で
きるようになされた音響信号の意味内容、特に、信号の
一部分を組み込まれた最大エントロピー音声モデルＭＥ
ＳＭによって与えられた所与の認識シンボルにマッピン
グすることによって音声信号を認識し、認識された意味
内容を表現する出力信号を生成する認識装置と、最大エントロピー音声モデルを音声認識システムのある
ユーザの音声中の反復性統計的パターンに適応させる学
習システムと、を具備した音声認識システムであって、学習システムは、請求項１記載の方法によって最大エン
トロピー音声モデルにおけるフリーパラメータを計算す
ることを特徴とする、音声認識システム。
【請求項１５】音声認識システムにおいて、最大エン
トロピー音声モデルを音声認識システムのあるユーザの
音声中の反復性統計的パターンに適応させる学習システ
ムであって、請求項１記載の方法によって最大エントロピー音声モデ
ルにおけるフリーパラメータを計算することを特徴とす
る、学習システム。