JP5308102B2

JP5308102B2 - 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体

Info

Publication number: JP5308102B2
Application number: JP2008225998A
Authority: JP
Inventors: エリックマクダモット; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-09-03
Filing date: 2008-09-03
Publication date: 2013-10-09
Anticipated expiration: 2028-09-03
Also published as: JP2010060809A

Description

この発明は、音声、静止画像、動画像等の時間軸上や空間軸上の概念情報を表現する信号の特徴量情報系列を用いて、予め定められた離散値で表現したシンボル系列としてパターン認識するためのモデルパラメータ学習に用いる誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体に関する。

パターン認識の誤りを少なくするためには、誤り数をモデルパラメータの関数（損失関数）として推定し、この損失関数値が小さくなるようにモデルパラメータの学習を行うことが有効である。このような学習を行う代表的な従来技術として、ＭＰＥ/ＭＷＥ（Minimum Phone Error/Minimum Word Error）学習方法が知られている（非特許文献１）。この学習方法を、パターン認識の代表的な例である連続音声認識に適用した場合を例に説明する。

図７に音声認識装置８００の機能構成例を示す。音声認識装置８００は、ＭＰＥ/ＭＷＥ学習方法を用いた音響モデル学習装置７００と、音声特徴量抽出部８０と、単語系列探索部８１と、音響モデルパラメータ記録部８２とを備える。音響モデル学習装置７００は、局所スコア・局所誤り計算部７０、誤り数平均値計算部７１、前向き・後ろ向きスコア計算部７２、事後確率計算部７３、損失関数値計算部７４、偏微分係数値計算部７５、モデルパラメータ更新部７６を備える。

音声特徴量抽出部８０は、離散値で形成される音声情報列を入力として音声情報列の音声特徴量情報系列Ｘ_ｒを算出する。音声特徴量情報系列Ｘ_ｒは、例えばメル周波数ケプストラム係数（ＭＦＣＣ）分析によって抽出される。単語系列探索部８１は、その音声特徴量情報系列Ｘ_ｒに応じて、音響モデルパラメータ記録部８２内に記録された特徴量情報系列を探索して複数のシンボル系列で表現される単語ラティスを出力する。図８に「今日の北海道」に対応した単語ラティスの一例を示す。単語ラティスは単語グラフとも呼ばれ、複数の節点を、単語あるいは部分単語系列に対応する有向弧ｑで結んだ構造を持っている。

また、有向弧ｑは、音声特徴量情報系列Ｘ_ｒに含まれる部分特徴量系列にも対応している。ラティスに含まれる有向弧ｑの各々と単語あるいは部分単語系列との対応、及びラティスに含まれる有向弧ｑの各々と部分特徴量系列との対応は、単語列探索の結果として得られるものである。

局所スコア・局所誤り計算部７０は、正解系列単語列Ｓ_ｒと、音声特徴量情報系列Ｘ_ｒと、モデルパラメータλ_（ｔ）と、単語ラティスとを入力として、有向弧ｑの局所的なスコアである局所スコアｐ_ｑと、局所的な誤り数である局所誤り数ｅ_ｑを計算する。局所スコアｐ_ｑは、式（１）で計算できる。局所スコアｐ_ｑと局所誤り数ｅ_ｑは、ラティスに含まれる有効弧ｑの各々について計算されるので、有効弧ｑについての集合を成している。これを図７では{ｐ_ｑ}，｛ｅ_ｑ｝と表記している。他の信号についても同様である。

ここでＰ_ΛＧ（ｓ_ｑ）は、有向弧ｑに割り付けられた局所言語スコアである。ｐ_ΛＡ（ｘ_ｑ｜ｓ_ｑ）は、有向弧ｑに割り付けられた局所音響スコアである。局所言語スコアと局所音響スコアの積が局所スコアとなる。ηとψは制御係数であり、ηが大きいほど局所スコアにおける局所言語スコアＰ_ΛＧ（ｓ_ｑ）の寄与率が大きくなる係数である。ψが局所スコアｐ_ｑを計算する際の部分単語系列ｓ_ｑ毎のバラツキを抑制（ψ→小）、又は強調（ψ→大）する係数である。また、局所スコア・局所誤り計算部７０は、局所誤り数ｅ_ｑを計数する。局所誤り数ｅ_ｑの計数例を図９に示す。図９（ａ）は単語単位の誤り数の例を示す。図９（ｂ）は音素単位の誤り数、図９(ｃ)は時間フレーム単位の誤り数の例を示す。全て、正解文を「今日の北海道の天気は晴れです」としたときのそれぞれの単位毎の誤り数の例である。例えば、単語単位では誤り数が２、音素単位では誤り数が５、フレーム単位では誤り数が３５である。この局所誤り数ｅ_ｑは、正解単語系列Ｓ_ｒと、音声特徴量情報系列Ｘ_ｒと、単語ラティスＱとを対比させることで計数する。ここでＱとは、有向弧ｑの接続関係を含む集合である。

誤り数平均値計算部７１は、有向弧ｑを通る全ての単語系列について式（２）に示す誤り数の平均値ｃ（ｑ）を計算する。

ここで、Ｓは単語系列の全体を意味し、Ｅは単語系列全体の誤り数を意味する。

誤り数の平均値ｃ（ｑ）は、前向き・後ろ向きアルゴリズムと、平均誤り数伝播アルゴリズムとの組み合わせによって効率的に計算することができる。つまり、式（３）に示すように局所誤り数ｅ_ｑに、前向き平均誤り数α′_ｑと後ろ向き平均誤り数β′_ｑとを加えた値で求めることができる。

前向き平均誤り数α′_ｑの求め方の概念図を１０に示す。前向き平均誤り数α′_ｑを求める前に有向弧ｑの前向き累積確率α_ｑを式（４）の計算により求める。有向弧ｑの前向き累積確率α_ｑは、有向弧ｑの始端に終端を接続している先行有向弧ｑ⁻（ｉ）（ｉ＝１，…，Ｎ_ｑ）のそれぞれの前向き向き累積確率α_{ｑ−（ｉ）}に、それぞれの局所確率ｐ_ｑ（ｉ）を乗じた値の累積である。

有向弧ｑの前向き累積確率α_ｑと後述する後ろ向き累積確率β_ｑは、前向き・後ろ向きスコア計算７２で、局所スコアｐ_ｑを入力として計算される。前向き累積確率α_ｑと後述する後ろ向き累積確率β_ｑは、誤り数平均値計算部７１と事後確率計算部７３に出力される。

誤り数平均値計算部７１は、局所スコアｐ_ｑと、局所誤り数ｅ_ｑと、単語ラティスｑを入力として式（３）の計算によって有向弧ｑを通る全ての単語系列についての誤り数の平均値ｃ（ｑ）を計算する。式（３）の計算に当たって、必要な前向き平均誤り数α′_ｑは式（５）で計算される。

ｅ_{ｑ−（ｉ）}は先行有向弧ｑ⁻（ｉ）の局所誤り数である。

同様に後ろ向き累積確率β_ｑと、後ろ向き平均誤り数β′_ｑは、式（６）と式（７）で計算できる。

誤り数の平均値ｃ（ｑ）の求め方の概念図を図１１に示す。有向弧ｑに割り付けられた部分単語系列ｓ_ｑが例えば「東海道」であり、その有向弧の誤り数の平均値ｃ（ｑ）は式（３）で与えられる。

単語ラティスの始節点を始端とする有向弧から順に漸化的に式（４）、式（５）を適用し、さらに単語ラティスの終節点を終端とする有向弧から順に漸化的に式（６）、式（７）を適用すれば全ての有向弧ｑについて、式（３）の計算により誤り数の平均値ｃ（ｑ）を求めることができる。有向弧ｑは（（ｑ，{ｑ⁻（ｉ）}，{ｑ^＋（ｉ）}）∈Ｑ）である。以降、簡単にｑ∈Ｑと表記する。

事後確率計算部７３は、前向き累積確率α_ｑと後ろ向き累積確率β_ｑとを入力として、認識候補単語系列が有向弧ｑを通ることの事後確率Ｐ_Λ（ｑ｜Ｘ_ｒ）を式（８）で計算する。

損失関数値計算部７４は、誤り数の平均値ｃ（ｑ）と、事後確率Ｐ_Λ（ｑ｜Ｘ_ｒ）とを入力として式（９）の計算を行って単語ラティスに対する損失関数Ｆ_ＭＰＥ（Ｘ_ｒ）を求める。

損失関数Ｆ_ＭＰＥ（Ｘ_ｒ）を、最適化手法を用いてモデルパラメータλについて最小化することにより、認識誤りを少なくする。具体的な最適化手法としては、確率的降下（PD: Probabilistic Descent）法、Quickprop法、Rprop法、拡張Baum-Welch（EBW: Extended Baum-Welch）法等を用いることができる。何れの最適化手法においてもモデルパラメータλ（∈Λ）についてのＦ_ＭＰＥ（Ｘ_ｒ）の偏微分係数値∂Ｆ_ＭＰＥ（Ｘ_ｒ）/∂λの計算が必要となる。偏微分係数値∂Ｆ_ＭＰＥ（Ｘ_ｒ）/∂λは、logｐ_Λ（Ｘ_ｒ，ｑ）≒log（Ｐ_ΛG（q）^ηψｐ_ΛＡ（Ｘ_ｒ，｜ｑ）^ψ）と置いたとき、式（１０）に示すように分解できる。

式（１０）の中で特に、Ｘ_ｒが有向弧ｑに対応する部分単語系列を含む単語列を意図して発声された音声の特徴量情報系列であることの尤もらしさを表す識別スコアlogｐ_Λ（Ｘ_ｒ，ｑ）についての偏微分係数値が重要である。

偏微分係数値計算部７５は、誤り数の平均値ｃ（ｑ）と、事後確率Ｐ_Λ（ｑ｜Ｘ_ｒ）と、損失関数Ｆ_ＭＰＥ（Ｘ_ｒ）とを入力として、有向弧ｑでの偏微分係数値を式（１１）の計算で求める。

つまり、単語ラティスに適用されるＭＰＥ/ＭＷＥ学習法では、有向弧ｑの誤り数の平均値ｃ（ｑ）と、認識誤り数の平均値Ｆ_ＭＰＥ（Ｘ_ｒ）との差、つまり認識誤り数の平均値Ｆ_ＭＰＥ（Ｘ_ｒ）を基準にして学習を行う。関数Ｆ_ＭＰＥ（Ｘ_ｒ）よりも小さな誤り数の平均値ｃ（ｑ）を持つ場合は、識別スコアlogｐ_Λ（Ｘ_ｒ，ｑ）を高くするように学習を進める。逆に有向弧ｑがＦ_ＭＰＥ（Ｘ_ｒ）よりも大きな誤り数の平均値ｃ（ｑ）を持つ場合は、識別スコアlogｐ_Λ（Ｘ_ｒ，ｑ）を低くするように学習を進める。これを繰り返すことで、損失関数Ｆ_ＭＰＥ（Ｘ_ｒ）を最小化することができる。モデルパラメータ更新部７６は損失関数が低くなるように音響モデルパラメータ記録部８２に記録されたモデルパラメータλ_（ｔ）を、モデルパラメータλ_{（ｔ＋１）}に更新する。
D.Povey and P.Woodland, "Minimum Phone Error and I−smoothing for improved discriminative training,"in Proc.ICASSP02,pp.105-108,2002.

従来のＭＰＥ/ＭＷＥ学習法では、対象とするシンボル系列集合内での認識誤り数の平均値と、ラティス全体としての認識誤り数の平均値との差と、対象とする単語系列集合の事後確率の大きさとを基準にしてモデルパラメータの学習を行っている。そのため、次のような問題点が生じる。

学習データの量が十分でない場合、或いは、学習データと認識対象とする特徴量情報系列とが異なる統計的性質を有している場合には、認識対象とする特徴量情報系列の誤り数を十分削減する学習効果が得られない。特に認識対象とする特徴量情報系列を初期モデルで認識した結果と、学習データを認識した結果とで、誤り数毎のシンボル系列数の分布が大きく異なる場合には学習効果が得られない。

また、探索部の認識結果出力特性によるが、探索部から出力されるラティスは、同じシンボルの並びでもシンボル境界の時刻のみが異なるシンボル系列が多数含まれることがある。このような場合には、誤り数毎のシンボル系列数の分布の偏りが大きくなり学習の効果は限定的になる。

この発明は、このような問題点に鑑みてなされたものであり、学習データの偏りやシンボル系列の出現傾向の偏りによる悪影響が小さく、より高い認識精度が得られるパラメータの学習に用いる誤り数別識別スコア・事後確率計算方法とその方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、そのプログラムと記録媒体を提供することを目的とする。

この発明の誤り数別識別スコア・事後確率計算方法は、局所スコア・局所誤り計算部と誤り数別識別スコア計算部と誤り数別事後確率計算部の各部をコンピュータが実行する誤り数別識別スコア・事後確率計算方法であって、局所スコア・局所誤り計算過程と、誤り数別識別スコア計算過程と、誤り数別事後確率計算過程とを含む。局所スコア・局所誤り計算過程は、特徴量情報系列と、上記特徴量情報系列に対応した正解シンボル系列と、上記特徴量情報系列を複数の認識シンンボル系列で表現したラティスと、モデルパラメータとを入力として、上記ラティスに含まれる各々の有向弧に対する局所スコアと有向弧に含まれる局所誤り数とを計算する。誤り数別識別スコア計算過程は、上記局所スコアと、上記局所誤り数と、上記ラティスとを入力として、上記ラティスの誤り数別の識別スコアと誤り数別前向き累積スコアと誤り数別後ろ向き累積スコアとを計算する。誤り数別事後確率計算過程は、上記ラティスの誤り数別の識別スコアと、上記誤り数別前向き累積スコアと、上記誤り数別後ろ向き累積スコアと、上記局所スコアとを入力として、上記正解シンボル系列が上記ラティスに含まれる各々の有向弧を含むことの事後確率を誤り数別に計算する。

また、この発明の誤り数重み付き識別学習方法は、この発明の誤り数別識別スコア・事後確率計算方法を用いる。また、この発明の音声認識装置は、この発明の誤り数重み付き識別学習方法を用いる。

この発明の誤り数別識別スコア・事後確率計算方法は、誤り数別識別スコア計算過程でラティスの誤り数別の識別スコアと、誤り数別前向き累積スコアと、誤り数別後ろ向き累積スコアとを計算し、誤り数別事後確率計算過程で正解シンボル系列がラティスに含まれる各々の有向弧を含むことの事後確率を誤り数別に計算する。つまり、誤り数別に識別スコアと事後確率を計算するので、学習データの偏りや認識シンボル系列の出現傾向の偏りの影響を受け難いモデルパラメータの学習装置に用いることができる誤り数別識別スコア・事後確率計算方法とすることができる。

また、この発明の誤り数別識別スコア・事後確率計算方法を用いた誤り数重み付き識別学習方法は、認識性能を向上させる学習方法とすることができる。更に、その誤り数重み付き識別学習方法を用いた音声認識装置は、認識率を向上させたものにすることができる。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１にこの発明の誤り数重み付き識別学習装置１００の機能構成例を示す。その動作フローを図２に示す。誤り数重み付き識別学習装置１００は、局所スコア・局所誤り計算部１２と、誤り数別識別スコア計算部１３と、誤り数別事後確率計算部１４と、損失関数値計算部１５と、偏微分係数値計算部１６と、モデルパラメータ更新部１７とを備える。誤り数重み付き識別学習装置１００の外部に設けられたシンボル系列探索部１０とモデルパラメータ記録部１１とは、従来技術で説明した音響モデル学習装置７００の外部に設けられた単語系列探索部８１と音響モデルパラメータ記録部８２と、基本的に同じものである。また、誤り数重み付き識別学習装置１００内部の局所スコア・局所誤り計算部１２とモデルパラメータ更新部１７とは、従来技術の音響モデル学習装置７００の局所スコア・局所誤り計算部７０とモデルパラメータ更新部７６と、基本的に同じものである。つまり、これらの部分については、モデルパラメータが音声認識用であるか否かの違いしかない。

以降の説明では異なる部分のみを説明する。図２のステップＳ１０とステップＳ１２までの動作は、従来の音響モデル学習装置７００と同じである。なお、誤り数重み付き識別学習装置１００、及び音響モデル学習装置７００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現される。

誤り数別識別スコア計算部１３は、局所スコア・局所誤り計算部１２で計算された局所スコアｐ_ｑと、局所誤り数ｅ_ｑと、特徴量情報系列を複数の認識シンボル系列で表現したラティスとを入力として、式（１２）に示すラティスの誤り数別の識別スコアＧ_ｊ（Ｘ_ｒ）（以降、識別スコアＧ_ｊ（Ｘ_ｒ）と略す）を求める（ステップＳ１３）。

識別スコアＧ_ｊ（Ｘ_ｒ）は、誤り数別の前向き・後ろ向きアルゴリズムによって効率的に計算することができる。今、有向弧ｑでの局所的なスコアを局所スコアｐ_ｑ、有向弧ｑでの局所的な誤り数を局所誤り数ｅ_ｑとする。連続パターン認識の結果として有向弧ｑに割り付けられた部分特徴量情報系列をｘ_ｑ、部分単語系列をｓ_ｑとすると、有向弧ｑの局所スコアｐ_ｑは従来技術と同じように式（１）で計算することができる。有向弧ｑの局所スコアと、先行有向弧の全てｑ⁻（ｉ）（ｉ＝１，…，Ｎ_ｑ−）の前向き累積スコアα_{ｑ−（ｉ）}とで、前向き確率の総和α_ｑ，ｊを式（１３）で計算する。

つまり、有向弧ｑ（ｉ）と先行有向弧以前の累積誤り数ｋの全ての組み合わせにおいて、先行有向弧以前の累積誤り数ｋと、先行有向弧ｑ⁻（ｉ）の局所誤り数ｅ_ｑ−（ｉ）との和であるｊ毎に、前向き確率の総和を求める。

単語ラティスの始節点を始端とする有向弧から順に、先行有向弧を漏れなく用いて漸化的に式（１３）を適用すれば、全ての有向弧ｑ∈Ｑについて前向き累積誤り数別の前向き確率α_ｑ，ｊ（以降、誤り数別前向き累積スコアと称する）を求めることができる。なお、先頭の有向弧については、始節点を終端としたｐ_ｑ−(1)＝１、α_{ｑ−(1)，ｊ}＝１（全てのｊについて）、ｅ_ｑ−＝０の仮想の先行有向弧ｑ⁻（１）＝ｑ^startを考える。

同様に、単語ラティスの終節点を終端とする有向弧から順に後続有向弧を漏れなく用いて漸化的に式（１４）を適用すれば、全ての有向弧ｑ∈Ｑについて後ろ向き累積誤り数別の後ろ向き確率の総和β_ｑ，ｊ（以降、誤り数別後ろ向き累積スコアと称する）を求めることができる。

全ての有向弧ｑ∈Ｑについて、誤り数別前向き累積スコアα_ｑ，ｊ、又は誤り数別後ろ向き累積スコアβ_ｑ，ｊを計算すれば、識別スコアＧ_ｊ（Ｘ_ｒ）は式（１５）で得られる。

つまり識別スコアＧ_ｊ（Ｘ_ｒ）は、終端の有向弧の誤り数別前向き累積スコアα^final _ｊ＝Ｇ_ｊ（Ｘ_ｒ）又は、始端の有向弧の誤り数別後ろ向き累積スコアβ^start _ｊ＝Ｇ_ｊ（Ｘ_ｒ）で表すことができる。

誤り数別事後確率計算部１４は、識別スコアＧ_ｊ（Ｘ_ｒ）と、誤り数別前向き累積スコアα_ｑ，ｊと、誤り数別後ろ向き累積スコアβ_ｑ，ｊと、有向弧ｑの局所スコアｐ_ｑとを入力として、誤り数ｊの認識シンボル系列が有向弧ｑを通ることの事後確率γ_ｑ，ｊを式（１６）で計算する（ステップＳ１４）。

式（１３）〜式（１６）の動作の概念図を図３に示す。局所誤りｅ_ｑ＝２の有向弧ｑの前向き/後ろ向き累積スコア統合ζ_ｑ，ｊ（以降、は累積スコア統合ζ_ｑ，ｊと略す）式（１７）で計算できる。つまり、式（１６）の分子である。

累積スコア統合ζ_ｑ，ｊは、累積誤り数別の先行有向弧以前の累積スコアα_ｑ，ｋと、後続有向弧までの累積スコアβ_ｑ，uと、事後確率を求めたい有向弧ｑの局所スコアｐ_ｑとの積の累積である。この累積スコア統合ζ_ｑ，ｊを識別スコアＧ_ｊ（Ｘ_ｒ）で除した値が、誤り数ｊの認識シンボル系列が有向弧ｑを通ることの事後確率γ_ｑ，ｊである。α_ｑ，ｋ、β_ｑ，ｊ、γ_ｑ，ｊは、有向弧ｑと誤り数ｊ毎のそれぞれの値である。

損失関数値計算部１５は、誤り数別の識別スコアＧ_ｊ（Ｘ_ｒ）を入力として、例えば式（１８）に示す損失関数値を計算する（ステップＳ１５）。

ここでφは、誤り数別の識別スコアＧ_ｊ（Ｘ_ｒ）の誤り数ｊ毎のバラツキを抑制（φ→小）、又は強調（φ→大）するための制御係数である。

偏微分係数値計算部１６は、モデルパラメータについての式（１８）の損失関数を最小化する偏微分係数値（式（１９））を計算する（ステップＳ１６）。

式（１９）の右辺第一項の値が重要であって、偏微分係数値計算部１６は、その右辺第一項を、誤り数別の識別スコアＧ_ｊ（Ｘ_ｒ）と、損失関数値Ｆ_ＭＧＥ１（Ｘ_ｒ）と、事後確率γ_ｑ，ｊとを入力として式（２０）で計算する。

式（１８）と式（１９）とを用いて最適化手法を適用することで、損失関数値を最小化
することができる。最適化の収束を判定するのに特徴量情報系列の総損失Γ_ＭＧＥ１（Ｚ）（式
２１）とその偏微分係数値（式（２２））を用いる。Ｚは様々な部分特徴量情報系列Ｘ_ｒ１，
…，Ｘ_ｒｍを含む全体の特徴量情報系列（Ｚ∈{Ｘ_ｒ（ｍ）｜ｍ＝１，…，Ｍ}）である。Ｘ_ｒ（ｍ）
は式中の表記が正しい。

モデルパラメータ更新部１７は、式（１８）の偏微分係数値と、損失関数値Ｆ_ＭＧＥ１（Ｘ_ｒ）と、モデルパラメータ記録部１１に記録されたモデルパラメータλ_（ｔ）とを入力として、最適化手法を用いて損失関数を最小化するモデルパラメータλ_（ｔ+1）に更新する（ステップＳ１７）。

以上のように誤り数別の識別スコアを用いてモデルパラメータを更新するので学習データの偏りや認識シンボル系列の出現傾向の偏りの影響を受け難いモデルパラメータの学習装置が実現できる。学習データの偏りや認識シンボル系列の出現傾向の偏りの影響を受け難い理由を図４と図５に示す。図４と図５は、単語シンボル系列当りの誤り数と、事後確率と偏微分係数値との関係を示したものである。横軸が単語シンボル系列当りの誤り数、図４（ａ）、図４（ｃ）、図５（ａ）、図５（ｃ）の縦軸が事後確率、図４（ｂ）、図４（ｄ）、図５（ｂ）、図５（ｄ）の縦軸が偏微分係数値である。

部分単語系列毎のバラツキを調整するパラメータψは全て０．１に固定されている。誤り数ｊ毎のバラツキを調整するパラメータφは図４（ａ），（ｂ）と図５（ａ），（ｂ）が１.０、図４（ｃ），（ｄ）と図５（ｃ），（ｄ）がφ＝０．２５に設定されている。ここでφ＝１に設定すると、事後確率と偏微分係数値は、単語シンボル系列の平均値となる。これは式（１８）から明らかである。つまり、図４（ａ），（ｂ）と図５（ａ），（ｂ）とは、従来技術の特性を示している。したがって、図４（ｃ），（ｄ）と図５（ｃ），（ｄ）の特性が実施例１で得られる事後確率と偏微分係数値である。

図４（ａ）と図４（ｃ）、図４（ｂ）と図４（ｄ）とを比較すると、従来技術の特性は、単語シンボル系列当りの誤り数が３０を超えるまで変化がない。それに対して実施例１の特性には変化が見られる。図５（ａ）と図５（ｃ）、図５（ｂ）と図５（ｄ）との比較も同じである。図５（ｃ），（ｄ）の特性は、式（２２）と式（２３）に示す損失関数と偏微分係数値を用いたもので、パラメータν＝０.２５、ε＝１０としたものである。このように変化が有るということは、学習に寄与することを意味する。

損失関数値と偏微分係数値を求める式には、上記したもの以外の式を適用することが可能である。例えば、式（２３）と式（２４）に示すように、誤り数に閾値εを設け、閾値εを境界として損失関数値に重み付けするようにしてもよい。

ここでνは、閾値εを境界としてバラツキを制御するパラメータである。また、式（２５）と式（２６）に示すような損失関数値と偏微分係数値を用いてもよい。

ここで、σは誤り数が大きくなるほど指数的に識別スコアを減衰させる減衰係数である。〔応用例〕
この発明の誤り数重み付き識別学習装置１００を音声認識に応用した例を説明する。図６にこの発明の誤り数重み付き識別学習装置１００を用いて音声認識装置６００を構成した機能構成例を示す。音声認識装置６００は、従来技術で説明した音声認識装置８００の音声認識用学習装置７００をこの発明の誤り数重み付き識別学習装置１００に置き換えたものである。

この発明の音声認識装置６００は、音響モデルを誤り数別に学習するので、認識スコアの精度を高められる。よって、誤認識の少ない音声認識装置を実現することができる。

〔実験結果〕
この発明の誤り数重み付き識別学習方法の効果を確認する目的で実験を行った。この発明による学習方法、損失関数値を式（２２）、偏微分係数値を式（２３）で求め、ψ＝０.０４、φ＝０.２５、ν＝０.６５、ε＝２０の条件で、日本語の学会講演約２３０時間分の音声を学習した。その後、上記学習データとは別の約１３０分の長さの評価音声を、この発明の音声認識装置７００で音声認識した結果の単語誤り率は１８.８％であった。従来技術の音声認識装置８００で評価音声を音声認識した結果の単語誤り率は１９.３％であった。また、初期値のモデルパラメータで音声認識した結果の単語誤り率は２１.６％であった。したがって、初期の誤り率を１００とした相対誤り削減率はこの発明の方法が１３．０％、従来法の削減率が１０.６％であり、この発明の学習方法の方が優れた認識性能を示すことが確認できた。

なお、この発明の技術思想に基づく誤り数別識別スコア・事後確率計算方法とその方法を用いた誤り数重み付き識別学習装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ-ＲＡＭ（Random Access Memory）、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ-Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてフラッシュメモリー等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この発明の誤り数重み付き識別装置１００の機能構成例を示す図。誤り数重み付き識別装置１００の動作フローを示す図。誤り数別前向き累積スコア〜事後確率γ_ｑ，ｊを求める動作を概念的に示す図。学習データの偏りや認識シンボル系列の出現傾向の偏りの影響を受け難い理由を示す図であり、（ａ）は従来技術の誤り数別事後確率を示す図、（ｂ）は従来技術の偏微分係数値を示す図、（ｃ）は実施例１の誤り数別事後確率を示す図、（ｄ）は実施例１の誤り数別偏微分係数値を示す図である。学習データの偏りや認識シンボル系列の出現傾向の偏りの影響を受け難い理由を示す図であり、（ａ）は従来技術の誤り数別事後確率を示す図、（ｂ）は従来技術の偏微分係数値を示す図、（ｃ）は実施例１の誤り数別事後確率を示す図、（ｄ）は実施例１の誤り数別偏微分係数値を示す図である。この発明の音声認識装置６００の機能構成を示す図。従来の音響モデル学習装置の機能構成例を示す図。「今日の北海道」に対応した単語ラティスの一例を示す図。局所誤り数ｅ_ｑの計数例を示す図であり、（ａ）は単語単位の誤り数の例を示す図、（ｂ）は音素単位の誤り数を示す図、(ｃ)は時間フレーム単位の誤り数の例を示す図である。前向き平均誤り数α′_ｑの求め方の概念図を示す図。誤り数の平均値ｃ（ｑ）の求め方の概念図を示す図。

Claims

局所スコア・局所誤り計算部と誤り数別識別スコア計算部と誤り数別事後確率計算部の各部をコンピュータが実行する誤り数別識別スコア・事後確率計算方法であって、
局所スコア・局所誤り計算部が、特徴量情報系列と、上記特徴量情報系列に対応した正解シンボル系列と、上記特徴量情報系列を複数の認識シンボル系列で表現したラティスと、モデルパラメータとを入力として、上記ラティスに含まれる各々の有向弧に対する局所スコアと、有向弧に含まれる局所誤り数とを計算する局所スコア・局所誤り計算過程と、
誤り数別識別スコア計算部が、上記局所スコアと、上記局所誤り数と、上記ラティスとを入力として、上記ラティスの誤り数別の識別スコアと誤り数別前向き累積スコアと誤り数別後ろ向き累積スコアとを計算する誤り数別識別スコア計算過程と、
誤り数別事後確率計算部が、上記ラティスの誤り数別の識別スコアと、上記誤り数別前向き累積スコアと、上記誤り数別後ろ向き累積スコアと、上記局所スコアとを入力として、上記正解シンボル系列が上記ラティスに含まれる各々の有向弧を含むことの事後確率を誤り数別に計算する誤り数別事後確率計算過程と、
を含む誤り数別識別スコア・事後確率計算方法。
局所スコア・局所誤り計算部と誤り数別識別スコア計算部と誤り数別事後確率計算部とを備え、誤り数別に識別スコアを重み付けてモデルパラメータを学習する誤り数重み付き識別学習装置が行う誤り数別識別スコア・事後確率計算方法であって、
局所スコア・局所誤り計算部が、特徴量情報系列と、上記特徴量情報系列に対応した正解シンボル系列と、上記特徴量情報系列を複数の認識シンボル系列で表現したラティスと、モデルパラメータとを入力として、上記ラティスに含まれる各々の有向弧に対する局所スコアと、有向弧に含まれる局所誤り数とを計算する局所スコア・局所誤り計算過程と、
誤り数別識別スコア計算部が、上記局所スコアと、上記局所誤り数と、上記ラティスとを入力として、上記ラティスの誤り数別の識別スコアと誤り数別前向き累積スコアと誤り数別後ろ向き累積スコアとを計算する誤り数別識別スコア計算過程と、
誤り数別事後確率計算部が、上記ラティスの誤り数別の識別スコアと、上記誤り数別前向き累積スコアと、上記誤り数別後ろ向き累積スコアと、上記局所スコアとを入力として、上記正解シンボル系列が上記ラティスに含まれる各々の有向弧を含むことの事後確率を誤り数別に計算する誤り数別事後確率計算過程と、
を含む誤り数別識別スコア・事後確率計算方法。
局所スコア・局所誤り計算部と誤り数別識別スコア計算部と誤り数別事後確率計算部と損失関数値計算部と偏微分係数値計算部とモデルパラメータ更新部を備える誤り数重み付き識別学習装置が行う誤り数重み付き識別学習方法であって、
局所スコア・局所誤り計算部が、特徴量情報系列と、上記特徴量情報系列に対応した正解シンボル系列と、上記特徴量情報系列を複数の認識シンボル系列で表現したラティスと、モデルパラメータとを入力として、上記ラティスに含まれる各々の有向弧に対する局所スコアと、有向弧に含まれる局所誤り数とを計算する局所スコア・局所誤り計算過程と、
誤り数別識別スコア計算部が、上記局所スコアと、上記局所誤り数と、上記ラティスとを入力として、上記ラティスの誤り数別の識別スコアと誤り数別前向き累積スコアと誤り数別後ろ向き累積スコアとを計算する誤り数別識別スコア計算過程と、
誤り数別事後確率計算部が、上記ラティスの誤り数別の識別スコアと、上記誤り数別前向き累積スコアと、上記誤り数別後ろ向き累積スコアと、上記局所スコアとを入力として、上記正解シンボル系列が上記ラティスに含まれる各々の有向弧を含むことの事後確率を誤り数別に計算する誤り数別事後確率計算過程と、
損失関数値計算部が、上記ラティスの誤り数別の識別スコアを入力として損失関数値を計算する損失関数値計算過程と、
偏微分係数値計算部が、上記ラティスの誤り数別の識別スコアと、上記損失関数値と、上記誤り数別事後確率とを入力として有向弧での偏微分係数値を計算する偏微分係数値計算過程と、
モデルパラメータ更新部が、上記偏微分係数値と、上記損失関数値と、上記モデルパラメータとを入力として上記モデルパラメータを更新するモデルパラメータ更新過程と、
を含む誤り数重み付き識別学習方法。
請求項３に記載した誤り数重み付き識別学習方法において、
上記損失関数値計算過程は、上記ラティスの誤り数別の識別スコアを制御係数でべき乗した値を、全ての有向弧の識別スコアを上記制御係数でべき乗した値の累積値で除し、更にその値に上記誤り数を乗算した値を上記誤り数で累積して上記損失関数値とする過程であることを特徴とする誤り数重み付き識別学習方法。
請求項１又は２に記載した誤り数別識別スコア・事後確率計算方法において、
上記誤り数別識別スコア計算過程は、
上記誤り数別前向き累積スコアを、上記有向弧の先行有向弧の局所スコアと上記先行有向弧までの誤り数別前向き累積スコアの誤り数の和毎に累積した前向き確率総和として求める前向き確率総和算出ステップと、
上記誤り数別後ろ向き累積スコアを、上記有向弧の後続有向弧の局所スコアと上記後続有向弧までの誤り数別後ろ向き累積スコアの誤り数の和毎に累積した後ろ向き確率総和として求める後ろ向き確率総和算出ステップと、
上記ラティスの誤り数別の識別スコアを、上記有向弧の局所スコアと上記前向き確率総和と上記後ろ向き確率総和との誤り数の和毎の事後確率として求める事後確率算出ステップと、
を含むことを特徴とする誤り数別識別スコア・事後確率計算方法。
モデルパラメータを記録するモデルパラメータ記録部と、
特徴量情報系列を入力として複数のシンボル系列を表現するラティスを上記モデルパラメータ記録部から探索して出力するパターン認識部と、
上記特徴量情報系列と、上記特徴量情報系列に対応した正解シンボル系列と、上記特徴量情報系列を複数の認識シンボル系列で表現したラティスと、上記モデルパラメータとを入力として、上記ラティスに含まれる各々の有向弧に対する局所スコアと、有向弧に含まれる局所誤り数とを計算する局所スコア・局所誤り計算部と、
上記局所スコアと、上記局所誤り数と、上記ラティスとを入力として上記ラティスの誤り数別の識別スコアと、誤り数別前向き累積スコアと、誤り数別後ろ向き累積スコアとを計算する誤り数別識別スコア計算部と、
上記ラティスの誤り数別の識別スコアと、上記誤り数別前向き累積スコアと、上記誤り数別後ろ向き累積スコアと、上記局所スコアとを入力として上記正解シンボル系列が上記ラティスに含まれる各々の有向弧を含むことの事後確率を誤り数別に計算する誤り数別事後確率計算部と、
上記ラティスの誤り数別の識別スコアを入力として損失関数値を計算する損失関数値計算部と、
上記ラティスの誤り数別の識別スコアと、上記損失関数値と、上記誤り数別事後確率とを入力として有向弧での偏微分係数値を計算する偏微分係数値計算部と、
上記偏微分係数値と、上記損失関数値と、上記モデルパラメータとを入力として上記モデルパラメータを更新するモデルパラメータ更新部と、
を具備する誤り数重み付き識別学習装置。
請求項６に記載した誤り数重み付き識別学習装置において、
上記損失関数値計算部は、上記ラティスの誤り数別の識別スコアを制御係数でべき乗した値を、上記ラティスの誤り数別の識別スコアの累積値を上記制御係数でべき乗した値で除し、更に上記誤り数を乗算した値を、誤り数で累積して上記損失関数値とするものであることを特徴とする誤り数重み付き識別学習装置。
請求項６又は７に記載した誤り数重み付き識別学習装置と、
音声情報列を入力として音声情報列の音声特徴量情報系列を算出する音声特徴量抽出部と、
上記誤り数重み付き識別学習装置で学習した音響モデルを記録する音響モデル記録部と、
上記音声特徴量情報系列を入力として、複数のシンボル系列で表現される単語ラティスを上記音響モデル記録部から探索して出力する単語列探索部と、
を具備する音声認識装置。
請求項６又は７に記載した誤り数重み付き識別学習装置としてコンピュータを機能させるための装置プログラム。
請求項８に記載した音声認識装置としてコンピュータを機能させるための装置プログラム。
請求項９又は１０に記載した装置プログラムを記録したコンピュータで読み取り可能な記録媒体。