JP2010250161A

JP2010250161A - 相違度利用型識別的学習装置とその方法、そのプログラム

Info

Publication number: JP2010250161A
Application number: JP2009100865A
Authority: JP
Inventors: Atsushi Nakamura; 篤中村; Mcdermott Erik; エリックマクダモット
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-04-17
Filing date: 2009-04-17
Publication date: 2010-11-04
Anticipated expiration: 2029-04-17
Also published as: JP5113797B2

Abstract

【課題】識別的学習法の計算量を削減する。
【解決手段】この発明の相違度利用型識別的学習装置は、モデルパラメータ記録部と、パターン認識部と、識別関数値生成部と、相違度算出部と、正例認識比較部と、モデルパラメータ最適化部とを具備する。相違度算出部が認識シンボル系列と正例との相違度を算出し、正例認識比較部がＮ個（Ｎ≧２）の減衰係数と識別関数値と相違度を入力としてそのＮ個の減衰係数を用いて正例側統合値及びその正例側統合値を補正するための統合値を求め、上記正例側統合値を補正した目的関数を出力する。
【選択図】図１

Description

この発明は、音声、静止画像、動画画像等の時間軸上や空間軸上、或いはその双方において動的に変化し、何らかの概念情報を表現する信号から何らかの方法によって抽出した特徴量系列から、予め定められた信号の種別を離散値で表現したシンボル系列に同定するパターン認識のための識別的学習方法とその装置と、プログラムに関する。

パターン認識誤りの多くは、特徴量空間上で隣接する他シンボルとの境界周辺に位置するパターンの混同に起因して発生する。これを抑止するためには、学習の段階で正解シンボルと隣接するシンボルの両方の学習データから情報を得、混同を減らすようにモデルパラメータを推定することが有効である。このようなシンボル間識別能力の向上を図る枠組みを総称して識別的学習（Discriminative training）と呼んでいる。

その識別的学習法の代表的な実現法のひとつである最小識別誤り（ＭＣＥ：Minimum Classification Error、以降ＭＣＥと称する）学習を、シンボル系列を同定するパターン認識に適用する場合を例に説明する。図７にパターン認識の一種である連続単語音声認識にＭＣＥ学習法を適用した識別的学習装置７００の機能構成例を示す。

識別的学習装置７００は、音響モデル記録部７０、正例言語モデル記録部７１、正例識別関数値生成部７３、正例用音声認識部７４、負例識別関数値生成部７５、音声認識部７６、正例・負例比較部７７、モデルパラメータ最適化部７８を備える。音響モデル記録部７０は、音響モデル７０１と言語モデル７０２とを含む。音響モデル７０１は、例えば連続単語音声認識に広く用いられる隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）で実現されるものである。言語モデル７０２は、単語Ｎ−ｇｒａｍ確率モデルであり、単語の品詞属性情報や発音情報等を保持する単語発音辞書も含むものである。

正例言語モデル記録部７１は、入力音声信号の特徴量系列Ｘに対応する正解言語シンボル系列である正例言語モデルを記録する。複数の特徴量系列Ｘによって特徴量系列群Ｚ＝{Ｘ_１，Ｘ_２，Ｘ_３，…}が構成される。正例識別関数値生成部７３は、特徴量系列Ｘとその正解Ｒ（Ｘ）を入力として、正例言語モデル記録部７１を参照してその特徴量系列Ｘが所属する正解のシンボル系列Ｒ（Ｘ）（以降、正例シンボル系列Ｒ（Ｘ）と称する）に対応するか否かを評価するための識別関数値Ｇ（式（１））を出力する。

ここでΛは、音響モデル記録部７０に記録されたシンボルが持つモデルパラメータの集合である。

正例用音声認識部７４は、正例シンボル系列Ｒ（Ｘ）と識別関数値Ｇを並び替えて正解と推定される音声認識結果を出力する。

音声認識部７６は、特徴量系列Ｘとその正解Ｒ（Ｘ）を入力として、正例シンボル系列Ｒ（Ｘ）以外、つまり正解以外のシンボル系列Ｓ（以降、負例シンボル系列Ｓ（Ｓ≠Ｒ（Ｘ））と称する）を生成し、特徴量系列Ｘと負例シンボル系列Ｓ（Ｓ≠Ｒ（Ｘ））を負例識別関数値生成部７５に出力する。

負例識別関数値生成部７５は、音響モデル記録部７０を参照して入力音声信号の特徴量系列Ｘが負例シンボル系列Ｓ（Ｓ≠Ｒ（Ｘ））に対応するか否かを評価するための識別関数値Ｇ￣（式（２））を出力する。Ｇ￣の表記は式中及び図中の表記が正しい。

ここで、Ｗは想定するシンボル系列全体の集合である。Ｐ_ΛＡ（Ｘ｜Ｓ）は、負例シン
ボル系列Ｓ（Ｓ≠Ｒ（Ｘ））を意図して発声された音声の特徴量系列がＸであることの確率であり音響モデルを用いて計算される。Ｐ_ΛＬ（Ｓ）は、負例シンボル系列Ｓ（Ｓ≠Ｒ（Ｘ））の出現に関する事前確率であり言語モデルを用いて計算される。ηは、人為的に定めることの出来る事前確率Ｐ_ΛＬ（Ｓ）の効果を制御する係数であり、ηが大きいほど式（２）における事前確率Ｐ_ΛＬ（Ｓ）の寄与が大きくなる。

正例・負例比較部７７は、正例シンボル系列を評価する識別関数値Ｇと負例シンボル系列Ｓを評価する識別関数値Ｇ￣を入力とし、それら全ての識別関数値Ｇ￣を用いて入力音声信号の特徴量系列Ｘについての誤識別の尺度である式（３）に示す誤識別尺度ｄ（Ｘ；Λ）を出力する。

この誤識別尺度ｄ（Ｘ；Λ）の意味するところは、複数の負例シンボル系列Ｓ（Ｓ≠Ｒ（Ｘ））が与える識別関数値Ｇ￣の内の最大値と、正例シンボル系列が与える識別関数値Ｇとの差であり、これが正値をとるならば少なくとも一つの負例シンボル系列Ｓ（Ｓ≠Ｒ（Ｘ））の識別関数値Ｇ￣が正例シンボル系列Ｒ（Ｘ）の識別関数値Ｇを上回り、入力音声信号の特徴量Ｘは誤識別されたことになる。

誤識別尺度ｄ（Ｘ；Λ）を、より一般的には式（４）で表すことが出来る。

このように、式（４）右辺第二項において、より多くの負例シンボル系列の影響を考慮
した誤識別尺度を考えることも出来る。ここでｈ（・）は任意の単調増加可逆関数、ｈ^-１（・）はその逆関数である。連続単語音声認識においては、誤識別尺度ｄ（Ｘ；Λ）を例えば式（５）で定義する。

ここでφは正定数であり、φが大きいほど右辺第二項においてはＳ≠Ｒ（Ｘ）を満たす
exp（ｇ（Ｘ，Ｓ；Λ）の中で最大値をとるものが支配的となる。

モデルパラメータ最適化部７８は、誤識別尺度ｄ（Ｘ；Λ）を入力として、誤識別尺度ｄ（Ｘ；Λ）によって被る損失の大きさを表す損失関数loss（ｄ）を定義し、その総損失が最小化されるモデルパラメータΛを見つける。損失関数としては、例えば式（６）に示す様な連続非線形なものが考えられる。

式（６）の損失関数loss（ｄ）は、ｄ＝０のシンボル系列境界周辺の狭い領域では誤識別尺度ｄ（Ｘ；Λ）の値に応じた０〜１の間の値をとり、ｄ＜０では０に漸近し、ｄ＞０では１に漸近する値をとる。また、最も簡単な線形の損失関数loss（ｄ）としては式（７）が考えられる。

式（７）の損失関数の場合は、損失値は誤識別尺度ｄ（Ｘ；Λ）と一致した値となる。

今、一団の特徴量系列群Ｚ＝{Ｘ_１，Ｘ_２，Ｘ_３，…}と、その特徴量系列群Ｚの個々に対する正例シンボル系列{Ｒ（Ｘ_１），Ｒ（Ｘ_２），Ｒ（Ｘ_３），…}が学習データとして与えられると、特徴量系列群Ｚ全体の総損失Ｌ（Ｚ；Λ）は式（８）で得られる。

総損失Ｌ（Ｚ；Λ）を最適化手法によって最小化するモデルパラメータΛを見つけることが、識別的学習方法の識別能力を高めることに相当する。最適化手法としては、確率的効果（ＰＤ：Probabilistic Descent）法、Quickprop法等を利用することが出来る。

また、もう一つの識別学習の代表例である最大相互情報量（ＭＭＩ：Maximum Mutual Information）学習法では、式（９）で定義されるＭＭＩ目的関数Ｆ_ＭＭＩ（Ｚ；Λ）を最大にするモデルパラメータΛを最適化手法によって見つける。

ここで、Ｗ′は想定するシンボル系列全体Ｗに対して連続単語音声認識をした結果とし
て得られたシンボル系列Ｗ′（Ｗ′⊂Ｗ）である。また、式（５）を変形すると式（１０）で表せる。

このように、ｆ_ＭＭＩ（Ｘ，Λ）と、ＭＣＥ学習法における誤識別尺度ｄ（Ｘ；Λ）とは、ほぼ同じ手順によって計算出来る。特にＭＣＥ学習法において線形損失関数（式（６））を適用した場合の総損失の最小化は、ＭＭＩ目的関数の最大化とほぼ同じ手順になる。

式（９）と式（１０）の計算では、特徴量系列Ｘを連続単語音声認識した結果として得
られる複数の対立関係にある正例単語系列と負例単語系列が用いられる。識別的学習にお
いては、正例，負例の認識単語系列を十分多くの種類用いて、より多様な認識誤りを考慮
することが重要である。このため、多数の単語から成る単語系列群を単語のネットワーク
構造で効率よく表現出来る単語ラティス等を利用して式（９）及び式（１０）の計算が行
われる。そして、正例単語系列を教師情報として利用して総損失が最小化されるようにモ
デルパラメータΛを最適化する。

[Juang & Katagiri 92] Biing-Hwang JUANG and Shigeru KATAGIRI; Discriminative Learning for Minimum Error Classification, IEEE, Trans. On SP., Vol. 40, No. 12, pp. 3043-3054 (1992). [Katagiri et al., 98] Shigeru KATAGIRI, Biing-Hwang JUANG and Chin-Hui LEE; Pattern Recognition Using a Family of Design Algorithms Based Upon the Generalized Probabilistic Descent Method, Proc. IEEE, Vol. 86, No. 11, pp. 2345-2373 (1998). 「McDermott & Katagiri, 97」 Erik MCDERMOTT and Shigeru KATAGIRI; String-Level MCE for Continuous Phoneme Recognition, Proc. Eurospeech97, Vol. 1, pp. 123-126 (1997). [McDermott et al., 07] E. McDermott, T. Hazen, J. Le Roux, A. Nakamura, and S. Katagiri: Discriminative training for large vocabulary speech recognition using Minimum Classification Error, IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 1, pp. 203-223 (2007). [Macherey et al., 05] W. Macherey, L. Haferkamp, R.Schlueter, and H. Ney: Investigations on error minimizing training criteria for discriminative training in automatic speech recognition, in Proc. Interspeech’ 05 - Eurospeech, pp. 2133-2136 (2005).

従来の識別的学習法は、正例シンボル系列と負例シンボル系列とを、それぞれ別に計算して求め、それぞれの誤識別尺度を最小化するか又は、それぞれの識別関数値の差を最大化するシンボル系列を求めていた。そために次のような問題が生じる。第一に正例シンボル系列と負例シンボル系列のそれぞれの識別関数値を求める必要性から所要計算リソース量が大きいという問題がある。

第二に正例に準ずるシンボル系列の選定が恣意的、且つ手作業で行われていた問題がある。特徴量系列Ｘの正例シンボル系列Ｒ（Ｘ）と比較して、文意への影響がわずかである相違を持つ複数の負例シンボル系列{Ｒ_１′（Ｘ），Ｒ_２′（Ｘ），Ｒ_３′（Ｘ），…}も正例に準ずるものとして扱い正例についての知識量を大きくする。知識量を増やすことで学習データに含まれない特徴量系列に対してより頑健なモデルパラメータを生成する識別学習装置が実現できる。しかし、その複数の負例シンボル系列{Ｒ_１′（Ｘ），Ｒ_２′（Ｘ），Ｒ_３′（Ｘ），…}の選定は恣意的に行われていた。

この発明は、このような点に鑑みてなされたものであり、個々のシンボル系列に対する正例，負例の区別を、正例に対する相違度として一般化することで計算量を削減すると共に、正例に準ずるシンボル系列を客観的基準に基づいて自動的に目的関数に反映させ、正例に準ずるシンボル系列の選定を手動で行う必要の無い相違度利用型識別的学習装置と、その方法とプログラムを提供することを目的とする。

この発明の相違度利用型識別的学習装置は、モデルパラメータ記録部と、パターン認識部と、識別関数値生成部と、相違度算出部と、正例認識比較部と、モデルパラメータ最適化部とを具備する。モデルパラメータ記録部はモデルパラメータを記録する。パターン認識部は、学習データをパターン認識した認識シンボル系列を生成する。識別関数値生成部は、モデルパラメータ記録部を参照して認識シンボル系列が学習データの特徴量に対応するか否かを評価する識別関数値を出力する。相違度算出部は、認識シンボル系列と正例との相違度を算出する。正例認識比較部は、Ｎ個（Ｎ≧２）の減衰係数と識別関数値と相違度を入力とし、そのＮ個の減衰係数を用いて正例側統合値及びその正例側統合値を補正するための統合値を求め、上記正例側統合値を補正した目的関数を出力する。モデルパラメータ最適化部は、目的関数を用いて認識シンボル系列に対応するモデルパラメータを最適化する。

この発明の相違度利用型識別的学習装置によれば、相違度推定部が認識シンボル系列と正例との相違度を推定し、正例，負例の区別を、正例に対する相違度として一般化する。
そして、その相違度を用いた目的関数によってモデルパラメータを最適化する。よって、従来の識別的学習装置のように負例シンボル系列を生成するためのパターン認識処理を必要としない。また、負例シンボル系列の識別関数値を計算する必要も無くなるので所要計算リソース量を削減することが出来る。

また、正例と正例に準ずる認識シンボル系列を減衰係数によって自動的に重み付けして目的関数に反映するので、正例に準ずるシンボル系列の選定を恣意的、且つ手作業で行う必要が無くなる。

この発明の相違度利用型識別的学習装置１００の機能構成例を示す図。相違度利用型識別的学習装置１００の動作フローを示す図。最大相互情報量学習法による正例認識比較部１４の機能構成例を示す図。正例認識比較部１４の動作フローを示す図。最小識別誤り学習法による正例認識比較部５０の機能構成例を示す図。正例認識比較部５０の動作フローを示す図。従来の識別的学習装置の機能構成の一例を示す図。

この発明の相違度利用型識別的学習装置は、従来の識別的学習装置７００の正例シンボル系列のパターン認識を行う正例側音声認識部７４と正例識別関数値生成部７３に相当する機能構成を必要としない点で新しい。この発明の実施例の説明をする前に、この発明の基本的な考えについて説明する。

〔基本的な考え〕
この発明の相違度利用型識別的学習方法は、各々の認識シンボル系列に対する正例、負
例の区別を、正例に対する相違度を用いて抽象化し、相違度を基準とした識別関数値の荷重和を用いて学習する方法である。

まず、二つの任意のシンボル系列ＶとＳとの間の相違度を表す関数Δ（Ｖ，Ｓ）を導入する。関数Δ（Ｖ，Ｓ）の実現法としては、例えばＶとＳの間の編集距離等を用いることが出来る。また、ＶとＳとが共通の特徴量系列Ｘに対応付けられている場合には、シンボル系列を成す各々のシンボルと特徴量系列を成す各々の特徴量との対応関係に基づく相違尺度（参考文献;J. Zheng and A. Stolcke: Improved Discriminative Training Using Phone Lattices, in Proc. Interspeech, pp. 2125-2128, (2005)）等が利用できる。

正例シンボル系列Ｒ（Ｘ）と任意の認識シンボル系列Ｓ（Ｓ∈Ｗ′）との間の相違度Δ（Ｒ（Ｘ），Ｓ）は、認識シンボル系列Ｓ（Ｓ∈Ｗ′）の誤り尺度とみなすことが出来る。この相違度Δ（Ｒ（Ｘ），Ｓ）を利用して新たな目的関数Ｆ⁺（Ｚ；Λ）を式（１１）に示すように定義することが出来る。Ｆ⁺の＋はこの発明で提案するものであることを意味する。

ｆ⁺（Ｘ；Λ）の各項は、各認識シンボル系列Ｓ（Ｓ∈Ｗ′）に対応する識別関数値ｇ（Ｘ，Ｓ；Λ）を任意の単調増加関数ｈ（・）に通し、その値に正例との相違度Δ（Ｒ（Ｘ），Ｓ）と減衰係数σを乗じた値の指数関数値を乗ずるものである。つまり、指数減衰する値で荷重和をとったもので成り立っている。減衰係数σ_１，σ_２を適切に設定することで、目的関数Ｆ⁺（Ｚ；Λ）の最大化による識別的学習が行える。

例えば、減衰係数σ_１を大きな値にすることにより、式（１１）の右辺第一項は、相違度Δ（Ｒ（Ｘ），Ｓ）が小さい程大きな値となる。よって、相違度Δ（Ｒ（Ｘ），Ｓ）＝０の正例と正例に準ずる相違度Δ（Ｒ（Ｘ），Ｓ）が極小さな認識シンボル系列Ｓ（Ｓ∈Ｗ′）についての識別関数値の影響が支配的となる。減衰係数σ_２＝０とすると式（１１）の右辺第二項の荷重値は全て１となり、認識シンボル系列群内（Ｓ_＊∈Ｗ′）の全ての識別関数値が公平に扱われる。つまり、式（１１）の右辺第一項の値は、正例若しくは正例に極近いシンボル系列の識別関数値の荷重和であり、右辺第二項はほとんどが負例のシンボル系列の識別関数値の累積となる。

このように、この発明によれば、一回のパターン認識で目的関数を生成することが可能である。よって、従来の方法よりも計算量を削減することが出来る。また、式（１１）の第二式右辺第一項の指数減衰係数σ_１によって、正例と正例に準ずる認識シンボル系列Ｓ（Ｓ∈Ｗ′）を相違度の大きさに応じて自動的に重み付けして目的関数に反映させることが出来る。その結果、従来の方法のように正例に準ずるシンボル系列の選定を手作業で行う必要がない。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１にこの発明の相違度利用型識別的学習装置１００の機能構成例を示す。その動作フローを図２に示す。相違度利用型識別的学習装置１００は、モデルパラメータ記録部１２と、識別関数値生成部１１と、パターン認識部１０と、相違度算出部１３と、正例認識比較部１４と、モデルパラメータ最適化部１５とを具備する。相違度利用型識別的学習装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

相違度利用型識別的学習装置１００は、学習データの特徴量系列Ｘとその正解である正例シンボル系列Ｒ（Ｘ）を入力信号として、最適化したモデルパラメータΛ_ｍを出力す
るものである。図１及び図３、図５の入力信号の表記は、多数の特徴量系列{Ｘ_１，Ｘ_２，Ｘ_３，…}、多数の正例シンボル系列{Ｒ（Ｘ_１），Ｒ（Ｘ_２），Ｒ（Ｘ_３），…}を、Ｘ_＊及びＲ（Ｘ_＊）と表記している。なお、本文中にはこの表記は用いない。

モデルパラメータ記録部１２は、音響モデルと言語モデルとから成る認識対象シンボル系列に対応するモデルパラメータを記録する。パターン認識部１０は、外部から入力される学習データの特徴量系列Ｘをパターン認識した認識シンボル系列Ｓを生成する（ステップＳ１０）。識別関数値生成部１１は、認識シンボル系列Ｓを入力としモデルパラメータ記録部１２を参照して、その認識シンボル系列Ｓが学習データの特徴量系列Ｘに対応するか否かを評価する識別関数値ｇ（Ｘ，Ｓ；Λ）を出力する（ステップＳ１１）。

識別関数値ｇ（Ｘ，Ｓ；Λ）は、パターン認識部１０を介して正例認識比較部１４に入力される。相違度算出部１３は、学習データの特徴量系列Ｘに対応する正例シンボル系列Ｒ（Ｘ）と、認識シンボル系列Ｓを入力として、その間の相違度Δ（Ｒ（Ｘ，Ｓ））を算出する（ステップＳ１３）。

正例認識比較部１４は、予め定められたＮ個（Ｎ≧２）の減衰係数σ_１，σ_２と上記識別関数値ｇ（Ｘ，Ｓ；Λ）と相違度Δ（Ｒ（Ｘ，Ｓ））とを入力とし、Ｎ個の減衰係数を用いて正例側統合値及びその正例側統合値を補正するための統合値を求め、正例側統合値を補正した目的関数ｆ^＋（Ｘ；Λ）を出力する（ステップＳ１４）。

モデルパラメータ最適化部１５は、目的関数ｆ^＋（Ｘ；Λ）を用いて目的関数ｆ^＋（Ｘ；Λ）をより大きくする様にパラメータの集合Λ内の認識シンボル系列に対応するモデルパラメータを最適化する（ステップＳ１５）。モデルパラメータ最適化部１５は、目的関数ｆ^＋（Ｘ；Λ）の増分が予め定めた収束条件閾値よりも小さな値になるまでモデルパラメータを最適化する。

以上のように実施例１の相違度利用型識別的学習装置１００は、従来の識別的学習装置７００が必要とした正例側のパターン認識部（正例用音声認識部７４）と正例識別関数値生成部７３に相当する機能構成がない。パターン認識部１０の１回のパターン認識動作で目的関数ｆ^＋（Ｘ；Λ）を生成する。したがって、従来の識別的学習装置７００よりも計算量を削減することが出来る。

なお、実施例１のパターン認識部１０、識別関数値生成部１１、モデルパラメータ記録部１２、モデルパラメータ最適化部１５は、それぞれ従来の識別的学習装置７００の音声認識部７６、負例識別関数値生成部７５、モデルパラメータ最適化部７８に対応するものであり各々の動作も同じである。

相違度利用型識別的学習装置１００は、相違度算出部１３と正例認識比較部１４の機能構成が新しい。以降の説明では、この新しい構成についてのみ説明を行う。なお、相違度利用型識別的学習装置１００では、学習データの特徴量系列Ｘに対応する正解シンボル系列Ｒ（Ｘ）を入力する例で説明を行ったが、正解シンボル系列Ｒ（Ｘ）の入力が無くてもこの発明の相違度利用型識別的学習装置１００は実現出来る。

〔変形例〕
図１に破線で、正解シンボル系列Ｒ（Ｘ）の入力を必要としない実施例１の変形例の相違度利用型識別的学習装置１００′の機能構成例を示す。変形例は、相違度算出部１３′の入力信号とその動作のみが異なる。相違度推定部１３′は、学習データの特徴量系列Ｘとその特徴量系列Ｘをパターン認識した認識シンボル系列Ｓ（Ｓ∈Ｗ′）と識別関数値ｇ（Ｘ，Ｓ；Λ）を入力として、認識シンボル系列Ｓ（Ｓ∈Ｗ′）と正例との相違度Δ（Ｒ（Ｘ，Ｓ））の推定値Δ＾（Ｓ）を推定する。相違度の推定値Δ＾（Ｓ）は、例えば、[Wessel et ai., 01]の方法により認識結果の確信度θ（Ｓ）を推定することで計算出来る。（参考文献：F. Wessel, R. Schiuter, K. Macherey, and H. Ney: Confidence Measures for Large Vocabulary Continuous Speech Recognition, IEEE Transactions on Speech and Audio Processing, vol. 9, no. 3, pp. 288-298 (2001)）

確信度θ（Ｓ）とは、認識結果を正解として信頼できる度合いを表す尺度である。例えば、特徴量系列Ｘを連続パターン認識して得られた複数の認識シンボル系列Ｓ_１，Ｓ_２，Ｓ_３，…の内、Ｓ_１の確信度を考える。もし識別関数値ｇ（Ｘ_１，Ｓ_１，Λ）の値がｇ（Ｘ_２，Ｓ_２，Λ），（Ｘ_３，Ｓ_３，Λ），…との比較において突出して大きければ、Ｓ_１が正解である確信度は大きいとみなすことが出来る。

逆にｇ（Ｘ_２，Ｓ_２，Λ），（Ｘ_３，Ｓ_３，Λ），…の多くが、ｇ（Ｘ_１，Ｓ_１，Λ）の値と同程度の値を持つ場合は、Ｓ_１が正解であることの確信度は小さくなる。この他、Ｓ_１を構成する各シンボル毎に対応する部分特徴量系列の長さの妥当性や、Ｓ_１を構成する各シンボルが同一シンボル系列内に共に存在することの妥当性も考慮して、Ｓ_１が正解として信頼できる度合いを０〜１以下の数値θ（Ｓ_１）で表す。

Ｓ_１と正例シンボル系列の相違度推定値Δ＾（Ｓ_１）は、Ｓ_１が正解として信頼できるほど、つまり数値θ（Ｓ_１）が１に近いほど０に近づく、Ｓ_１が正解として信頼できないほど大きくなるように定める。この相違度推定値Δ＾（Ｓ_１）は例えば式（１２）で計算することが出来る。

この相違度推定値Δ＾（Ｓ）を用いることで、正例シンボル系列Ｒ（Ｘ）が明示的に与えられなくても識別的学習を実行することが可能である。従来の識別敵学習では、正例シンボル系列が与えられていなければ識別的学習を実行できない問題から、大量のデータの全てに正例シンボル系列を付与する必要があった。しかし、相違度推定値Δ＾（Ｓ）を計算する相違度算出部１３′を設けることで、手作業で正例シンボル系列を用意する必要が無くなる。

図３に、正例認識比較部１４のより具体的な機能構成例を示して実施例１を更に詳しく説明する。図４のその動作フローを示す。図３はＭＭＩ学習法における目的関数ｆ^＋（Ｘ；Λ）の計算の実現例を示したものである。

正例認識比較部１４は、識別関数平滑化・逆対数化手段１４０と、正例側荷重手段１４１と、認識側荷重手段１４２と、正例側統合・対数化手段１４３と、認識側統合・対数化手段１４４と、統合値比較手段１４５とを備える。なお、識別関数平滑化・逆対数化手段１４０と正例側荷重手段１４１と認識側荷重手段１４２とを、それぞれ一つずつ設ける例を示しているが、多数入力される認識シンボル系列Ｓ（Ｓ∈Ｗ′）にそれぞれ対応する各手段１４０，１４１，１４２を設けて識別関数値ｇ（Ｘ，Ｓ；Λ）と相違度Δ（Ｒ（Ｘ），Ｓ）を同時に処理するようにしても良い。図３に示す例は、多数入力される認識シンボル系列Ｓ（Ｓ∈Ｗ′）を時間を分けて処理する方式の機能構成例である。

識別関数平滑化・逆対数化手段１４０は、識別関数平滑化値Ａを式（１３）で計算する（ステップＳ１４０）。

識別関数平滑化値Ａは、識別関数値ｇ（Ｘ，Ｓ；Λ）に予め定められた正定数φを乗じた値の指数関数値である。

正例側荷重手段１４１は、正例側荷重値Ｂを式（１４）で計算する（ステップＳ１４１）。

正例側荷重値Ｂは、相違度Δ（Ｒ（Ｘ），Ｓ）に第１の減衰係数-σ_１を乗じた値の指数関数値に、識別関数平滑化値Ａを乗じた値である。

認識側荷重手段１４２は、認識側統合値Ｃを式（１５）で計算する（ステップＳ１４２）。

認識側荷重値Ｃは、相違度Δ（Ｒ（Ｘ），Ｓ）に第２の減衰係数-σ_２を乗じた値の指数関数値に、識別関数平滑化値Ａを乗じた値である。

正例側統合・対数化手段１４３は、正例側統合値Ｄを式（１６）で計算する（ステップ
Ｓ１４３）。

正例側統合値Ｄは、全ての認識シンボル系列Ｓ（Ｓ∈Ｗ′）に対する正例側荷重値Ｂの総和の対数関数値である。

認識側統合・対数化手段１４４は、認識側統合値Ｅを式（１７）で計算する（ステップＳ１４４）。

認識側統合値Ｅは、全ての認識シンボル系列Ｓ（Ｓ∈Ｗ′）に対応する認識側荷重値Ｃ
を累計した値の対数関数値であり、正例側統合値を補正するための統合値である。

統合値比較手段１４５は、正例側統合値Ｄと認識側統合値Ｃを入力として式（１８）に示す目的関数ｆ^＋（Ｘ；Λ）を出力する（ステップＳ１４５）。

式（１８）において、例えば減衰係数σ_１を十分大きくとり、σ_２＝０として各種最適化手法によって最大化することで、従来のＭＭＩ学習法より小さい所要計算リソース量で従来のＭＭＩ学習法と同等の認識精度の向上が図れる。所要計算リソース量を削減する方法は実施例１の構成に限られない、他の方法を実施例２として説明する。

図５に実施例２の正例認識比較部５０の機能構成例を示す。その動作フローを図６に示
す。正例認識比較部５０は、識別関数平滑化・逆対数化手段１４０と、正例側荷重手段１
４１と、正例側統合・対数化手段１４３と、負例側荷重手段２４２と、負例側統合・対数
化手段２４４と、統合値比較手段２４５とを備える。識別関数平滑化・逆対数化手段１４
０と正例側荷重手段１４１と正例側統合・対数化手段１４３とは、実施例１の正例認識比
較部１４と同じものであり、正例側統合・対数化手段１４３は正例側統合値Ｄ（式（１６））を出力する。よって、この部分の説明は省略する。

負例側荷重手段２４２は、負例側統合値Ｋを式（１９）で計算する（ステップＳ２４２）。

負例側統合値Ｋは、相違度Δ（Ｒ（Ｘ），Ｓ）に第１の減衰係数σ_１よりも小さな第２の減衰係数σ_２を乗じた値の指数関数値に識別関数平滑化値Ａを乗じた第１負例側荷重値と、第２減衰係数よりも大きな第３の減衰係数σ_３を相違度Δ（Ｒ（Ｘ），Ｓ）に乗じた値の指数関数値に識別関数平滑化値Ａを乗じた第２負例側荷重値とを計算し、第１負例側荷重値から第２負例側荷重値を減じた値を正例側統合値Ｄを補正するための統合値である負例側統合値として計算する。

負例側統合・対数化手段２４４は、負側統合値Ｌを式（２０）で計算する（ステップＳ２４４）。

負例側統合値Ｌは、全ての認識シンボル系列Ｓ（Ｓ∈Ｗ′）に対する負例側統合値Ｌの
総和の対数関数値である。

統合値比較手段２４５は、正例側統合値Ｄから負例側統合値Ｌを減じた識別尺度ｄ（Ｘ；Λ）を式（２１）で計算し、識別尺度ｄ（Ｘ；Λ）を損失関数に通した目的関数loss（ｄ^＋（Ｘ；Λ））として出力する。損失関数は例えば上記した式（６）に示した様なものである。

正例側統合値Ｄ内の減衰係数σ_１を大きくとると共に、負例側統合値Ｌ内の減衰係数σ_２＝０、例えばσ_３≒σ_１とすれば、学習における対立シンボル系列として負例シンボル系列のみを用いることが出来る。つまり、減衰係数σ３を減衰係数σ１に近い値にすることにより、負例側シンボル系列から正例と正例に極近い負例シンボル系列を削除することが出来る。

このように正例認識比較部５０を備えた相違度利用型識別的学習装置によれば、ＭＣＥ
学習法より小さな所要計算リソース量でＭＣＥ学習法と同等の認識精度の向上が図れる。

〔評価実験〕
この発明の実施例１の相違度利用型識別的学習装置１００を用いて、モデルパラメータ
を取得する実験を行った。実験は、日本語の学会講演約２３０時間分の音声を学習データ
として用いた。まず、既存技術である最大尤度学習法によって初期モデルを学習し、その
初期モデルをそのまま用いて連続単語音声認識装置を動作させた場合の単語誤り率は２１．２％であった。

この２１．２％に対して同じ学習データを用いて既存のＭＭＩ学習法によって得たモデ
ルパラメータを用いた場合の単語誤り率は１８．６％であった。この単語誤り率を比較対象として、相違度利用型識別的学習装置１００の第２の減衰係数σ_２＝−４、第１の減衰係数σ_１を１，２，３，４として得たモデルパラメータによる連続単語音声認識結果の単語誤り率を表１に示す。

この発明の相違度利用型識別的学習装置１００によるモデルパラメータで連続単語音声
認識装置を動作させた場合の単語誤り率は１８．５％〜１８．７％と、従来のＭＭＩ学習法による単語誤り率と同等の結果が得られた。なお、この発明の実施例２と従来のＭＣＥ学習法との比較実験は未実施であるが、ＭＭＩ学習法の比較結果と同じように同水準の単語誤り率となると予測される。

以上説明した相違度利用型識別的学習装置は、例えば音声認識装置に利用することが可
能である。また、それ以外の用途として静止画像、動画画像等の時間軸上、空間軸上ある
いはその双方において変化し、何らかの概念情報を表現する特徴量系列をパターン認証対
象とする認識装置に適用することが可能である。具体例としては、手書き文字の画像情報
のパターン認識に用いることが出来る。

なお、正定数φ及び減衰係数σ_１〜σ_３は正例認識比較部１４，５０に予め設定されている例で説明したが、これらの値を外部から与えるようにしても良い。また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

モデルパラメータを記録するモデルパラメータ記録部と、
学習データの特徴量系列をパターン認識した認識シンボル系列を生成するパターン認識部と、
上記モデルパラメータ記録部を参照して上記認識シンボル系列が上記学習データの特徴量系列に対応するか否かを評価する識別関数値を出力する識別関数値生成部と、
上記認識シンボル系列と正例との相違度を算出する相違度算出部と、
予め定められたＮ個（Ｎ≧２）の減衰係数と上記識別関数値と上記相違度とを入力とし、上記Ｎ個の減衰係数を用いて正例側統合値及びその正例側統合値を補正するための統合値を求め、上記正例側統合値を補正した目的関数を出力する正例認識比較部と、
上記目的関数を用いて上記認識シンボル系列に対応する上記モデルパラメータを最適化するモデルパラメータ最適化部と、
を具備する相違度利用型識別的学習装置。
請求項１の相違度利用型識別的学習装置において、
上記正例認識比較部は２個の減衰係数を備え、
上記正例認識比較部は、
上記識別関数値に予め定められた正定数を乗じた値の指数関数値である識別関数平滑化値を求め、
上記相違度に第１の減衰係数を乗じた値の指数関数値に上記識別関数平滑化値を乗じて正例側荷重値とし、全ての認識シンボル系列に対する上記正例側荷重値の総和を任意の単調増加可逆関数に通して正例側統合値として求め、
上記相違度に上記第１の減衰係数よりも小さな第２の減衰係数を乗じた値の指数関数値に上記識別関数平滑化値を乗じて認識側荷重値とし、全ての認識シンボル系列に対する上記認識側荷重値の総和を任意の単調増加可逆関数に通して上記正例側統合値を補正するための統合値である認識側統合値を求め、
上記正例統合値から上記認識側統合値を減じたものを目的関数として出力するものであることを特徴とする相違度利用型識別的学習装置。
請求項１又は２に記載の相違度利用型識別的学習装置において、
上記正例認識比較部は、
上記識別関数値に予め定められた正定数を乗じ、その値の指数関数値を識別関数平滑化値として計算する識別関数平滑化・逆対数化手段と、
上記相違度に第１の減衰係数を乗じた値の指数関数値に上記識別関数平滑化値を乗じた正例側荷重値を計算する正例側荷重手段と、
全ての認識シンボル系列に対する上記正例側荷重値の総和の対数関数値を正例側統合値として計算する正例側統合・対数化手段と、
上記相違度に上記第１の減衰係数よりも小さな第２の減衰係数を乗じた値の指数関数値に上記識別関数平滑化値を乗じた認識側荷重値を計算する認識側荷重手段と、
全ての認識シンボル系列に対応する上記認識側荷重値を累計した値の対数関数値を上記正例側統合値を補正するための統合値である上記認識側統合値として出力する認識側統合・対数化手段と、
上記正例統合値から上記認識側統合値を減じたものを目的関数として出力する統合値比較手段と、
を備えることを特徴とする相違度利用型識別的学習装置。
請求項１の相違度利用型識別的学習装置において、
上記正例認識比較部は３個の減衰係数を備え、
上記目的関数は、誤識別尺度を損失関数に通したものであり、
上記正例認識比較部は、
上記識別関数値に予め設定した正定数を乗じた値の指数関数値である識別関数平滑化値を求め、
上記相違度に第１の減衰係数を乗じた値の指数関数値に上記識別関数平滑化値を乗じて正例側荷重値とし、全ての認識シンボル系列に対する上記正例側荷重値の総和を任意の単調増加可逆関数に通して正例側統合値として求め、
上記相違度に上記第１の減衰係数よりも小さな第２の減衰係数を乗じた値の指数関数値に上記識別関数平滑化値を乗じた第１負例側荷重値と、第２減衰係数よりも大きな第３の減衰係数を上記相違度に乗じた値の指数関数値に上記識別関数平滑化値を乗じた第２負例側荷重値とを計算し、上記第１負例側荷重値から上記第２負例側荷重値を減じて負例側荷重値とし、全ての認識シンボル系列に対する上記負例側荷重値の総和を任意の単調増加可逆関数に通して上記正例側統合値を補正するための統合値である負例側統合値として求め、
上記負例側統合値から上記正例側統合値を減じて上記識別尺度とするものであることを特徴とする相違度利用型識別的学習装置。
請求項１又は４に記載の相違度利用型識別的学習装置において、
上記正例認識比較部は、
上記識別関数値に予め定められた正定数を乗じ、その値の指数関数値を識別関数平滑化値として計算する識別関数平滑化・逆対数化手段と、
上記相違度に第１の減衰係数を乗じた値の指数関数値に上記識別関数平滑化値を乗じた正例側荷重値を計算する正例側荷重手段と、
全ての認識シンボル系列に対する上記正例側荷重値の総和の対数関数値を正例側統合値として計算する正例側統合・対数化手段と、
上記相違度に上記第１の減衰係数よりも小さな第２の減衰係数を乗じた値の指数関数値に上記識別関数平滑値を乗じた第１負例側荷重値と、第２減衰係数よりも大きな第３の減衰係数を上記相違度に乗じた値の指数関数値に上記識別関数平滑化値を乗じた第２負例側荷重値とを計算し、上記第１負例側荷重値から上記第２負例側荷重値を減じた値を計算する負例側荷重手段と、
全ての認識シンボル系列に対応する上記負側荷重値を累計してその値の対数関数値を上記正例側統合値を補正するための統合値である負例側統合値として出力する負側統合・対数化手段と、
上記負例統合値から上記正例側統合値を減じて上記識別尺度とし、その識別尺度を損失関数に通したものを目的関数として出力する統合値比較手段と、
を備えることを特徴とする相違度利用型識別的学習装置。
請求項１乃至５の何れかに記載の相違度利用型識別的学習装置において、
上記相違度算出部は、学習データの特徴量と上記認識シンボル系列と識別関数値とを入力として、上記相違度を、上記認識シンボル系列が正解として信頼できる度合いを表す尺度の確信度として推定した相違度推定値として出力するものであることを特徴とする相違度利用型識別的学習装置。
パターン認識部が、学習データの特徴量系列をパターン認識した認識シンボル系列を生成するパターン認識過程と、
識別関数値生成部が、モデルパラメータ記録部内のモデルパラメータを参照して上記認識シンボル系列が上記学習データの特徴量に対応するか否かを評価する識別関数値を出力する識別関数値生成過程と、
相違度算出部が、上記認識シンボル系列と正例との相違度を算出する相違度算出過程と、
正例認識比較部が、Ｎ個（Ｎ≧２）の減衰係数と上記識別関数値と上記相違度とを入力とし、上記Ｎ個の減衰係数を用いて正例側統合値及びその正例側統合値を補正するための統合値を求め、上記正例側統合値を補正した目的関数を出力する正例認識比較過程と、
モデルパラメータ最適化部が、上記目的関数を用いて上記認識シンボル系列に対応する上記モデルパラメータを最適化するモデルパラメータ最適化過程と、
を含み、
上記正例認識比較過程は２個の減衰係数を備え、
上記正例認識比較過程は、
上記識別関数値に予め定められた正定数を乗じた値の指数関数値である識別関数平滑化値を求め、
上記相違度に第１の減衰係数を乗じた値の指数関数値に上記識別関数平滑化値を乗じて正例側荷重値とし、全ての認識シンボル系列に対する上記正例側荷重値の総和を任意の単調増加可逆関数に通して正例側統合値として求め、
上記相違度に上記第１の減衰係数よりも小さな第２の減衰係数を乗じた値の指数関数値に上記識別関数平滑化値を乗じて認識側荷重値とし、全ての認識シンボル系列に対する上記認識側荷重値の総和を任意の単調増加可逆関数に通して上記正例側統合値を補正するための統合値として認識側統合値として求め、
上記正例統合値から上記認識側統合値を減じたものを目的関数として出力するものであることを特徴とする相違度利用型識別的学習方法。
請求項７の相違度利用型識別的学習方法において、
上記正例認識比較過程は、
識別関数平滑化・逆対数化手段が、上記識別関数値に正定数を乗じ、その値の指数関数値を識別関数平滑化値として計算する識別関数平滑化・逆対数化ステップと、
正例側荷重手段が、上記相違度に第１の減衰係数を乗じた値の指数関数値に上記識別関数平滑化値を乗じた正例側荷重値を計算する正例側荷重ステップと、
正例側統合・対数化手段が、全ての認識シンボル系列に対する上記正例側荷重値の総和の対数関数値を正例側統合値として計算する正例側統合・対数化ステップと、
認識側荷重手段が、上記相違度に上記第１の減衰係数よりも小さな第２の減衰係数を乗じた値の指数関数値に上記識別関数平滑化値を乗じた認識側荷重値を計算する認識側荷重ステップと、
認識側統合・対数化手段が、全ての認識シンボル系列に対応する上記認識側荷重値を累計してその値の対数関数値を上記正例側統合値を補正するための統合値である認識側統合値として出力する認識側統合・対数化ステップと、
統合値比較手段が、上記正例統合値から上記認識側統合値を減じたものを目的関数として出力する統合値比較ステップと、
を含むことを特徴とする相違度利用型識別的学習方法。
請求項７の相違度利用型識別的学習方法において、
上記正例認識比較過程は３個の減衰係数を備え、
上記目的関数は誤識別尺度を損失関数に通したものであり、
上記正例認識比較過程は、
上記識別関数値に予め設定した正定数を乗じた値の指数関数値である識別関数平滑化値を求め、
上記相違度に第１の減衰係数を乗じた値の指数関数値に上記識別関数平滑化値を乗じて正例側荷重値とし、全ての認識シンボル系列に対する上記正例側荷重値の総和を任意の単調増加可逆関数に通して正例側統合値として求め、
上記相違度に上記第１の減衰係数よりも小さな第２の減衰係数を乗じた値の指数関数値に上記識別関数平滑化値を乗じた第１負例側荷重値と、第２減衰係数よりも大きな第３の減衰係数を上記相違度に乗じた値の指数関数値に上記識別関数平滑化値を乗じた第２負例側荷重値とを計算し、上記第１負例側荷重値から上記第２負例側荷重値を減じて負例側荷重値とし、全ての認識シンボル系列に対する上記負例側荷重値の総和を任意の単調増加可逆関数に通して上記正例側統合値を補正するための統合値である負例側統合値として求め、
上記負例側統合値から上記正例側統合値を減じて上記識別尺度とする過程であることを特徴とする相違度利用型識別的学習装置。
請求項７の相違度利用型識別的学習方法において、
上記正例認識比較過程は、
識別関数平滑化・逆対数化手段が、上記識別関数値に予め定められた正定数を乗じ、その値の指数関数値を識別関数平滑化値として計算する識別関数平滑化・逆対数化ステップと、
上記相違度に第１の減衰係数を乗じた値の指数関数値に上記識別関数平滑化値を乗じた正例側荷重値を計算する正例側荷重ステップと、
正例側統合・対数化手段が、全ての認識シンボル系列に対する上記正例側荷重値の総和の対数関数値を正例側統合値として計算する正例側統合・対数化ステップと、
負例側荷重手段が、上記相違度に上記第１の減衰係数よりも小さな第２減衰係数を乗じた第１負例側荷重値と、第２減衰係数よりも大きな第３の減衰係数を上記相違度に乗じた値の指数関数値に上記識別関数平滑化値を乗じた第２負例側荷重値とを計算し、上記第１負例側荷重値から上記第２負例側荷重値を減じた値を上記正例側統合値を補正するための統合値である負例側統合値として計算する負例側荷重ステップと、
負側統合・対数化手段が、全ての認識シンボル系列に対応する上記負側荷重値を累計してその値の対数関数値を負例側統合値として出力する負側統合・対数化ステップと、
統合値比較手段が、上記負例統合値から上記正例側統合値を減じて上記識別尺度とし、その識別尺度を損失関数に通したものを目的関数として出力する統合値比較ステップと、
を含むことを特徴とする相違度利用型識別的学習方法。
請求項７乃至１０の何れかに記載の相違度利用型識別的学習方法において、
上記相違度算出過程は、学習データの特徴量と上記認識シンボル系列と識別関数値とを入力として、上記相違度を、上記認識シンボル系列が正解として信頼できる度合いを表す尺度の確信度として推定した相違度推定値として出力するものであることを特徴とする相違度利用型識別的学習方法。
請求項１乃至６の何れかに記載した相違度利用型識別的学習装置としてコンピュータを機能させるための装置プログラム。