JP5308102B2 - 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体 - Google Patents

誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体 Download PDF

Info

Publication number
JP5308102B2
JP5308102B2 JP2008225998A JP2008225998A JP5308102B2 JP 5308102 B2 JP5308102 B2 JP 5308102B2 JP 2008225998 A JP2008225998 A JP 2008225998A JP 2008225998 A JP2008225998 A JP 2008225998A JP 5308102 B2 JP5308102 B2 JP 5308102B2
Authority
JP
Japan
Prior art keywords
errors
score
error
local
lattice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008225998A
Other languages
English (en)
Other versions
JP2010060809A (ja
Inventor
エリック マクダモット
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008225998A priority Critical patent/JP5308102B2/ja
Publication of JP2010060809A publication Critical patent/JP2010060809A/ja
Application granted granted Critical
Publication of JP5308102B2 publication Critical patent/JP5308102B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声、静止画像、動画像等の時間軸上や空間軸上の概念情報を表現する信号の特徴量情報系列を用いて、予め定められた離散値で表現したシンボル系列としてパターン認識するためのモデルパラメータ学習に用いる誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体に関する。
パターン認識の誤りを少なくするためには、誤り数をモデルパラメータの関数(損失関数)として推定し、この損失関数値が小さくなるようにモデルパラメータの学習を行うことが有効である。このような学習を行う代表的な従来技術として、MPE/MWE(Minimum Phone Error/Minimum Word Error)学習方法が知られている(非特許文献1)。この学習方法を、パターン認識の代表的な例である連続音声認識に適用した場合を例に説明する。
図7に音声認識装置800の機能構成例を示す。音声認識装置800は、MPE/MWE学習方法を用いた音響モデル学習装置700と、音声特徴量抽出部80と、単語系列探索部81と、音響モデルパラメータ記録部82とを備える。音響モデル学習装置700は、局所スコア・局所誤り計算部70、誤り数平均値計算部71、前向き・後ろ向きスコア計算部72、事後確率計算部73、損失関数値計算部74、偏微分係数値計算部75、モデルパラメータ更新部76を備える。
音声特徴量抽出部80は、離散値で形成される音声情報列を入力として音声情報列の音声特徴量情報系列Xを算出する。音声特徴量情報系列Xは、例えばメル周波数ケプストラム係数(MFCC)分析によって抽出される。単語系列探索部81は、その音声特徴量情報系列Xに応じて、音響モデルパラメータ記録部82内に記録された特徴量情報系列を探索して複数のシンボル系列で表現される単語ラティスを出力する。図8に「今日の北海道」に対応した単語ラティスの一例を示す。単語ラティスは単語グラフとも呼ばれ、複数の節点を、単語あるいは部分単語系列に対応する有向弧qで結んだ構造を持っている。
また、有向弧qは、音声特徴量情報系列Xに含まれる部分特徴量系列にも対応している。ラティスに含まれる有向弧qの各々と単語あるいは部分単語系列との対応、及びラティスに含まれる有向弧qの各々と部分特徴量系列との対応は、単語列探索の結果として得られるものである。
局所スコア・局所誤り計算部70は、正解系列単語列Sと、音声特徴量情報系列Xと、モデルパラメータλ(t)と、単語ラティスとを入力として、有向弧qの局所的なスコアである局所スコアpと、局所的な誤り数である局所誤り数eを計算する。局所スコアpは、式(1)で計算できる。局所スコアpと局所誤り数eは、ラティスに含まれる有効弧qの各々について計算されるので、有効弧qについての集合を成している。これを図7では{p},{e}と表記している。他の信号についても同様である。
Figure 0005308102
ここでPΛG(s)は、有向弧qに割り付けられた局所言語スコアである。pΛA(x|s)は、有向弧qに割り付けられた局所音響スコアである。局所言語スコアと局所音響スコアの積が局所スコアとなる。ηとψは制御係数であり、ηが大きいほど局所スコアにおける局所言語スコアPΛG(s)の寄与率が大きくなる係数である。ψが局所スコアpを計算する際の部分単語系列s毎のバラツキを抑制(ψ→小)、又は強調(ψ→大)する係数である。また、局所スコア・局所誤り計算部70は、局所誤り数eを計数する。局所誤り数eの計数例を図9に示す。図9(a)は単語単位の誤り数の例を示す。図9(b)は音素単位の誤り数、図9(c)は時間フレーム単位の誤り数の例を示す。全て、正解文を「今日の北海道の天気は晴れです」としたときのそれぞれの単位毎の誤り数の例である。例えば、単語単位では誤り数が2、音素単位では誤り数が5、フレーム単位では誤り数が35である。この局所誤り数eは、正解単語系列Sと、音声特徴量情報系列Xと、単語ラティスQとを対比させることで計数する。ここでQとは、有向弧qの接続関係を含む集合である。
誤り数平均値計算部71は、有向弧qを通る全ての単語系列について式(2)に示す誤り数の平均値c(q)を計算する。
Figure 0005308102
ここで、Sは単語系列の全体を意味し、Eは単語系列全体の誤り数を意味する。
誤り数の平均値c(q)は、前向き・後ろ向きアルゴリズムと、平均誤り数伝播アルゴリズムとの組み合わせによって効率的に計算することができる。つまり、式(3)に示すように局所誤り数eに、前向き平均誤り数α′と後ろ向き平均誤り数β′とを加えた値で求めることができる。
Figure 0005308102
前向き平均誤り数α′の求め方の概念図を10に示す。前向き平均誤り数α′を求める前に有向弧qの前向き累積確率αを式(4)の計算により求める。有向弧qの前向き累積確率αは、有向弧qの始端に終端を接続している先行有向弧q(i)(i=1,…,N)のそれぞれの前向き向き累積確率αq−(i)に、それぞれの局所確率pq(i)を乗じた値の累積である。
Figure 0005308102
有向弧qの前向き累積確率αと後述する後ろ向き累積確率βは、前向き・後ろ向きスコア計算72で、局所スコアpを入力として計算される。前向き累積確率αと後述する後ろ向き累積確率βは、誤り数平均値計算部71と事後確率計算部73に出力される。
誤り数平均値計算部71は、局所スコアpと、局所誤り数eと、単語ラティスqを入力として式(3)の計算によって有向弧qを通る全ての単語系列についての誤り数の平均値c(q)を計算する。式(3)の計算に当たって、必要な前向き平均誤り数α′は式(5)で計算される。
Figure 0005308102
q−(i)は先行有向弧q(i)の局所誤り数である。
同様に後ろ向き累積確率βと、後ろ向き平均誤り数β′は、式(6)と式(7)で計算できる。
Figure 0005308102
誤り数の平均値c(q)の求め方の概念図を図11に示す。有向弧qに割り付けられた部分単語系列sが例えば「東海道」であり、その有向弧の誤り数の平均値c(q)は式(3)で与えられる。
単語ラティスの始節点を始端とする有向弧から順に漸化的に式(4)、式(5)を適用し、さらに単語ラティスの終節点を終端とする有向弧から順に漸化的に式(6)、式(7)を適用すれば全ての有向弧qについて、式(3)の計算により誤り数の平均値c(q)を求めることができる。有向弧qは((q,{q(i)},{q(i)})∈Q)である。以降、簡単にq∈Qと表記する。
事後確率計算部73は、前向き累積確率αと後ろ向き累積確率βとを入力として、認識候補単語系列が有向弧qを通ることの事後確率PΛ(q|X)を式(8)で計算する。
Figure 0005308102
損失関数値計算部74は、誤り数の平均値c(q)と、事後確率PΛ(q|X)とを入力として式(9)の計算を行って単語ラティスに対する損失関数FMPE(X)を求める。
Figure 0005308102
損失関数FMPE(X)を、最適化手法を用いてモデルパラメータλについて最小化することにより、認識誤りを少なくする。具体的な最適化手法としては、確率的降下(PD: Probabilistic Descent)法、Quickprop法、Rprop法、拡張Baum-Welch(EBW: Extended Baum-Welch)法等を用いることができる。何れの最適化手法においてもモデルパラメータλ(∈Λ)についてのFMPE(X)の偏微分係数値∂FMPE(X)/∂λの計算が必要となる。偏微分係数値∂FMPE(X)/∂λは、logpΛ(X,q)≒log(PΛG(q)ηψΛA(X,|q)ψ)と置いたとき、式(10)に示すように分解できる。
Figure 0005308102
式(10)の中で特に、Xが有向弧qに対応する部分単語系列を含む単語列を意図して発声された音声の特徴量情報系列であることの尤もらしさを表す識別スコアlogpΛ(X,q)についての偏微分係数値が重要である。
偏微分係数値計算部75は、誤り数の平均値c(q)と、事後確率PΛ(q|X)と、損失関数FMPE(X)とを入力として、有向弧qでの偏微分係数値を式(11)の計算で求める。
Figure 0005308102
つまり、単語ラティスに適用されるMPE/MWE学習法では、有向弧qの誤り数の平均値c(q)と、認識誤り数の平均値FMPE(X)との差、つまり認識誤り数の平均値FMPE(X)を基準にして学習を行う。関数FMPE(X)よりも小さな誤り数の平均値c(q)を持つ場合は、識別スコアlogpΛ(X,q)を高くするように学習を進める。逆に有向弧qがFMPE(X)よりも大きな誤り数の平均値c(q)を持つ場合は、識別スコアlogpΛ(X,q)を低くするように学習を進める。これを繰り返すことで、損失関数FMPE(X)を最小化することができる。モデルパラメータ更新部76は損失関数が低くなるように音響モデルパラメータ記録部82に記録されたモデルパラメータλ(t)を、モデルパラメータλ(t+1)に更新する。
D.Povey and P.Woodland, "Minimum Phone Error and I−smoothing for improved discriminative training,"in Proc.ICASSP02,pp.105-108,2002.
従来のMPE/MWE学習法では、対象とするシンボル系列集合内での認識誤り数の平均値と、ラティス全体としての認識誤り数の平均値との差と、対象とする単語系列集合の事後確率の大きさとを基準にしてモデルパラメータの学習を行っている。そのため、次のような問題点が生じる。
学習データの量が十分でない場合、或いは、学習データと認識対象とする特徴量情報系列とが異なる統計的性質を有している場合には、認識対象とする特徴量情報系列の誤り数を十分削減する学習効果が得られない。特に認識対象とする特徴量情報系列を初期モデルで認識した結果と、学習データを認識した結果とで、誤り数毎のシンボル系列数の分布が大きく異なる場合には学習効果が得られない。
また、探索部の認識結果出力特性によるが、探索部から出力されるラティスは、同じシンボルの並びでもシンボル境界の時刻のみが異なるシンボル系列が多数含まれることがある。このような場合には、誤り数毎のシンボル系列数の分布の偏りが大きくなり学習の効果は限定的になる。
この発明は、このような問題点に鑑みてなされたものであり、学習データの偏りやシンボル系列の出現傾向の偏りによる悪影響が小さく、より高い認識精度が得られるパラメータの学習に用いる誤り数別識別スコア・事後確率計算方法とその方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、そのプログラムと記録媒体を提供することを目的とする。
この発明の誤り数別識別スコア・事後確率計算方法は、局所スコア・局所誤り計算部と誤り数別識別スコア計算部と誤り数別事後確率計算部の各部をコンピュータが実行する誤り数別識別スコア・事後確率計算方法であって、局所スコア・局所誤り計算過程と、誤り数別識別スコア計算過程と、誤り数別事後確率計算過程とを含む。局所スコア・局所誤り計算過程は、特徴量情報系列と、上記特徴量情報系列に対応した正解シンボル系列と、上記特徴量情報系列を複数の認識シンンボル系列で表現したラティスと、モデルパラメータとを入力として、上記ラティスに含まれる各々の有向弧に対する局所スコアと有向弧に含まれる局所誤り数とを計算する。誤り数別識別スコア計算過程は、上記局所スコアと、上記局所誤り数と、上記ラティスとを入力として、上記ラティスの誤り数別の識別スコアと誤り数別前向き累積スコアと誤り数別後ろ向き累積スコアとを計算する。誤り数別事後確率計算過程は、上記ラティスの誤り数別の識別スコアと、上記誤り数別前向き累積スコアと、上記誤り数別後ろ向き累積スコアと、上記局所スコアとを入力として、上記正解シンボル系列が上記ラティスに含まれる各々の有向弧を含むことの事後確率を誤り数別に計算する。
また、この発明の誤り数重み付き識別学習方法は、この発明の誤り数別識別スコア・事後確率計算方法を用いる。また、この発明の音声認識装置は、この発明の誤り数重み付き識別学習方法を用いる。
この発明の誤り数別識別スコア・事後確率計算方法は、誤り数別識別スコア計算過程でラティスの誤り数別の識別スコアと、誤り数別前向き累積スコアと、誤り数別後ろ向き累積スコアとを計算し、誤り数別事後確率計算過程で正解シンボル系列がラティスに含まれる各々の有向弧を含むことの事後確率を誤り数別に計算する。つまり、誤り数別に識別スコアと事後確率を計算するので、学習データの偏りや認識シンボル系列の出現傾向の偏りの影響を受け難いモデルパラメータの学習装置に用いることができる誤り数別識別スコア・事後確率計算方法とすることができる。
また、この発明の誤り数別識別スコア・事後確率計算方法を用いた誤り数重み付き識別学習方法は、認識性能を向上させる学習方法とすることができる。更に、その誤り数重み付き識別学習方法を用いた音声認識装置は、認識率を向上させたものにすることができる。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1にこの発明の誤り数重み付き識別学習装置100の機能構成例を示す。その動作フローを図2に示す。誤り数重み付き識別学習装置100は、局所スコア・局所誤り計算部12と、誤り数別識別スコア計算部13と、誤り数別事後確率計算部14と、損失関数値計算部15と、偏微分係数値計算部16と、モデルパラメータ更新部17とを備える。 誤り数重み付き識別学習装置100の外部に設けられたシンボル系列探索部10とモデルパラメータ記録部11とは、従来技術で説明した音響モデル学習装置700の外部に設けられた単語系列探索部81と音響モデルパラメータ記録部82と、基本的に同じものである。また、誤り数重み付き識別学習装置100内部の局所スコア・局所誤り計算部12とモデルパラメータ更新部17とは、従来技術の音響モデル学習装置700の局所スコア・局所誤り計算部70とモデルパラメータ更新部76と、基本的に同じものである。つまり、これらの部分については、モデルパラメータが音声認識用であるか否かの違いしかない。
以降の説明では異なる部分のみを説明する。図2のステップS10とステップS12までの動作は、従来の音響モデル学習装置700と同じである。なお、誤り数重み付き識別学習装置100、及び音響モデル学習装置700は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現される。
誤り数別識別スコア計算部13は、局所スコア・局所誤り計算部12で計算された局所スコアpと、局所誤り数eと、特徴量情報系列を複数の認識シンボル系列で表現したラティスとを入力として、式(12)に示すラティスの誤り数別の識別スコアG(X)(以降、識別スコアG(X)と略す)を求める(ステップS13)。
Figure 0005308102
識別スコアG(X)は、誤り数別の前向き・後ろ向きアルゴリズムによって効率的に計算することができる。今、有向弧qでの局所的なスコアを局所スコアp、有向弧qでの局所的な誤り数を局所誤り数eとする。連続パターン認識の結果として有向弧qに割り付けられた部分特徴量情報系列をx、部分単語系列をsとすると、有向弧qの局所スコアpは従来技術と同じように式(1)で計算することができる。有向弧qの局所スコアと、先行有向弧の全てq(i)(i=1,…,Nq−)の前向き累積スコアαq−(i)とで、前向き確率の総和αq,jを式(13)で計算する。
Figure 0005308102
つまり、有向弧q(i)と先行有向弧以前の累積誤り数kの全ての組み合わせにおいて、先行有向弧以前の累積誤り数kと、先行有向弧q(i)の局所誤り数eq−(i)との和であるj毎に、前向き確率の総和を求める。
単語ラティスの始節点を始端とする有向弧から順に、先行有向弧を漏れなく用いて漸化的に式(13)を適用すれば、全ての有向弧q∈Qについて前向き累積誤り数別の前向き確率αq,j(以降、誤り数別前向き累積スコアと称する)を求めることができる。なお、先頭の有向弧については、始節点を終端としたpq−(1)=1、αq−(1),j=1(全てのjについて)、eq−=0の仮想の先行有向弧q(1)=qstartを考える。
同様に、単語ラティスの終節点を終端とする有向弧から順に後続有向弧を漏れなく用いて漸化的に式(14)を適用すれば、全ての有向弧q∈Qについて後ろ向き累積誤り数別の後ろ向き確率の総和βq,j(以降、誤り数別後ろ向き累積スコアと称する)を求めることができる。
Figure 0005308102
全ての有向弧q∈Qについて、誤り数別前向き累積スコアαq,j、又は誤り数別後ろ向き累積スコアβq,jを計算すれば、識別スコアG(X)は式(15)で得られる。
Figure 0005308102
つまり識別スコアG(X)は、終端の有向弧の誤り数別前向き累積スコアαfinal =G(X)又は、始端の有向弧の誤り数別後ろ向き累積スコアβstart =G(X)で表すことができる。
誤り数別事後確率計算部14は、識別スコアG(X)と、誤り数別前向き累積スコアαq,jと、誤り数別後ろ向き累積スコアβq,jと、有向弧qの局所スコアpとを入力として、誤り数jの認識シンボル系列が有向弧qを通ることの事後確率γq,jを式(16)で計算する(ステップS14)。
Figure 0005308102
式(13)〜式(16)の動作の概念図を図3に示す。局所誤りe=2の有向弧qの前向き/後ろ向き累積スコア統合ζq,j(以降、は累積スコア統合ζq,jと略す)式(17)で計算できる。つまり、式(16)の分子である。
Figure 0005308102
累積スコア統合ζq,jは、累積誤り数別の先行有向弧以前の累積スコアαq,kと、後続有向弧までの累積スコアβq,uと、事後確率を求めたい有向弧qの局所スコアpとの積の累積である。この累積スコア統合ζq,jを識別スコアG(X)で除した値が、誤り数jの認識シンボル系列が有向弧qを通ることの事後確率γq,jである。αq,k、βq,j、γq,jは、有向弧qと誤り数j毎のそれぞれの値である。
損失関数値計算部15は、誤り数別の識別スコアG(X)を入力として、例えば式(18)に示す損失関数値を計算する(ステップS15)。
Figure 0005308102
ここでφは、誤り数別の識別スコアG(X)の誤り数j毎のバラツキを抑制(φ→小)、又は強調(φ→大)するための制御係数である。
偏微分係数値計算部16は、モデルパラメータについての式(18)の損失関数を最小化する偏微分係数値(式(19))を計算する(ステップS16)。
Figure 0005308102
式(19)の右辺第一項の値が重要であって、偏微分係数値計算部16は、その右辺第一項を、誤り数別の識別スコアG(X)と、損失関数値FMGE1(X)と、事後確率γq,jとを入力として式(20)で計算する。
Figure 0005308102
式(18)と式(19)とを用いて最適化手法を適用することで、損失関数値を最小化
することができる。最適化の収束を判定するのに特徴量情報系列の総損失ΓMGE1(Z)(式
21)とその偏微分係数値(式(22))を用いる。Zは様々な部分特徴量情報系列Xr1
…,Xrmを含む全体の特徴量情報系列(Z∈{Xr(m)|m=1,…,M})である。Xr(m)
は式中の表記が正しい。
Figure 0005308102
モデルパラメータ更新部17は、式(18)の偏微分係数値と、損失関数値FMGE1(X)と、モデルパラメータ記録部11に記録されたモデルパラメータλ(t)とを入力として、最適化手法を用いて損失関数を最小化するモデルパラメータλ(t+1)に更新する(ステップS17)。
以上のように誤り数別の識別スコアを用いてモデルパラメータを更新するので学習データの偏りや認識シンボル系列の出現傾向の偏りの影響を受け難いモデルパラメータの学習装置が実現できる。学習データの偏りや認識シンボル系列の出現傾向の偏りの影響を受け難い理由を図4と図5に示す。図4と図5は、単語シンボル系列当りの誤り数と、事後確率と偏微分係数値との関係を示したものである。横軸が単語シンボル系列当りの誤り数、図4(a)、図4(c)、図5(a)、図5(c)の縦軸が事後確率、図4(b)、図4(d)、図5(b)、図5(d)の縦軸が偏微分係数値である。
部分単語系列毎のバラツキを調整するパラメータψは全て0.1に固定されている。誤り数j毎のバラツキを調整するパラメータφは図4(a),(b)と図5(a),(b)が1.0、図4(c),(d)と図5(c),(d)がφ=0.25に設定されている。ここでφ=1に設定すると、事後確率と偏微分係数値は、単語シンボル系列の平均値となる。これは式(18)から明らかである。つまり、図4(a),(b)と図5(a),(b)とは、従来技術の特性を示している。したがって、図4(c),(d)と図5(c),(d)の特性が実施例1で得られる事後確率と偏微分係数値である。
図4(a)と図4(c)、図4(b)と図4(d)とを比較すると、従来技術の特性は、単語シンボル系列当りの誤り数が30を超えるまで変化がない。それに対して実施例1の特性には変化が見られる。図5(a)と図5(c)、図5(b)と図5(d)との比較も同じである。図5(c),(d)の特性は、式(22)と式(23)に示す損失関数と偏微分係数値を用いたもので、パラメータν=0.25、ε=10としたものである。このように変化が有るということは、学習に寄与することを意味する。
損失関数値と偏微分係数値を求める式には、上記したもの以外の式を適用することが可能である。例えば、式(23)と式(24)に示すように、誤り数に閾値εを設け、閾値εを境界として損失関数値に重み付けするようにしてもよい。
Figure 0005308102
ここでνは、閾値εを境界としてバラツキを制御するパラメータである。また、式(25)と式(26)に示すような損失関数値と偏微分係数値を用いてもよい。
Figure 0005308102
ここで、σは誤り数が大きくなるほど指数的に識別スコアを減衰させる減衰係数である。〔応用例〕
この発明の誤り数重み付き識別学習装置100を音声認識に応用した例を説明する。図6にこの発明の誤り数重み付き識別学習装置100を用いて音声認識装置600を構成した機能構成例を示す。音声認識装置600は、従来技術で説明した音声認識装置800の音声認識用学習装置700をこの発明の誤り数重み付き識別学習装置100に置き換えたものである。
この発明の音声認識装置600は、音響モデルを誤り数別に学習するので、認識スコアの精度を高められる。よって、誤認識の少ない音声認識装置を実現することができる。
〔実験結果〕
この発明の誤り数重み付き識別学習方法の効果を確認する目的で実験を行った。この発明による学習方法、損失関数値を式(22)、偏微分係数値を式(23)で求め、ψ=0.04、φ=0.25、ν=0.65、ε=20の条件で、日本語の学会講演約230時間分の音声を学習した。その後、上記学習データとは別の約130分の長さの評価音声を、この発明の音声認識装置700で音声認識した結果の単語誤り率は18.8%であった。従来技術の音声認識装置800で評価音声を音声認識した結果の単語誤り率は19.3%であった。また、初期値のモデルパラメータで音声認識した結果の単語誤り率は21.6%であった。したがって、初期の誤り率を100とした相対誤り削減率はこの発明の方法が13.0%、従来法の削減率が10.6%であり、この発明の学習方法の方が優れた認識性能を示すことが確認できた。
なお、この発明の技術思想に基づく誤り数別識別スコア・事後確率計算方法とその方法を用いた誤り数重み付き識別学習装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明の誤り数重み付き識別装置100の機能構成例を示す図。 誤り数重み付き識別装置100の動作フローを示す図。 誤り数別前向き累積スコア〜事後確率γq,jを求める動作を概念的に示す図。 学習データの偏りや認識シンボル系列の出現傾向の偏りの影響を受け難い理由を示す図であり、(a)は従来技術の誤り数別事後確率を示す図、(b)は従来技術の偏微分係数値を示す図、(c)は実施例1の誤り数別事後確率を示す図、(d)は実施例1の誤り数別偏微分係数値を示す図である。 学習データの偏りや認識シンボル系列の出現傾向の偏りの影響を受け難い理由を示す図であり、(a)は従来技術の誤り数別事後確率を示す図、(b)は従来技術の偏微分係数値を示す図、(c)は実施例1の誤り数別事後確率を示す図、(d)は実施例1の誤り数別偏微分係数値を示す図である。 この発明の音声認識装置600の機能構成を示す図。 従来の音響モデル学習装置の機能構成例を示す図。 「今日の北海道」に対応した単語ラティスの一例を示す図。 局所誤り数eの計数例を示す図であり、(a)は単語単位の誤り数の例を示す図、(b)は音素単位の誤り数を示す図、(c)は時間フレーム単位の誤り数の例を示す図である。 前向き平均誤り数α′の求め方の概念図を示す図。 誤り数の平均値c(q)の求め方の概念図を示す図。

Claims (11)

  1. 局所スコア・局所誤り計算部と誤り数別識別スコア計算部と誤り数別事後確率計算部の各部をコンピュータが実行する誤り数別識別スコア・事後確率計算方法であって、
    局所スコア・局所誤り計算部が、特徴量情報系列と、上記特徴量情報系列に対応した正解シンボル系列と、上記特徴量情報系列を複数の認識シンボル系列で表現したラティスと、モデルパラメータとを入力として、上記ラティスに含まれる各々の有向弧に対する局所スコアと、有向弧に含まれる局所誤り数とを計算する局所スコア・局所誤り計算過程と、
    誤り数別識別スコア計算部が、上記局所スコアと、上記局所誤り数と、上記ラティスとを入力として、上記ラティスの誤り数別の識別スコアと誤り数別前向き累積スコアと誤り数別後ろ向き累積スコアとを計算する誤り数別識別スコア計算過程と、
    誤り数別事後確率計算部が、上記ラティスの誤り数別の識別スコアと、上記誤り数別前向き累積スコアと、上記誤り数別後ろ向き累積スコアと、上記局所スコアとを入力として、上記正解シンボル系列が上記ラティスに含まれる各々の有向弧を含むことの事後確率を誤り数別に計算する誤り数別事後確率計算過程と、
    を含む誤り数別識別スコア・事後確率計算方法。
  2. 局所スコア・局所誤り計算部と誤り数別識別スコア計算部と誤り数別事後確率計算部とを備え、誤り数別に識別スコアを重み付けてモデルパラメータを学習する誤り数重み付き識別学習装置が行う誤り数別識別スコア・事後確率計算方法であって、
    局所スコア・局所誤り計算部が、特徴量情報系列と、上記特徴量情報系列に対応した正解シンボル系列と、上記特徴量情報系列を複数の認識シンボル系列で表現したラティスと、モデルパラメータとを入力として、上記ラティスに含まれる各々の有向弧に対する局所スコアと、有向弧に含まれる局所誤り数とを計算する局所スコア・局所誤り計算過程と、
    誤り数別識別スコア計算部が、上記局所スコアと、上記局所誤り数と、上記ラティスとを入力として、上記ラティスの誤り数別の識別スコアと誤り数別前向き累積スコアと誤り数別後ろ向き累積スコアとを計算する誤り数別識別スコア計算過程と、
    誤り数別事後確率計算部が、上記ラティスの誤り数別の識別スコアと、上記誤り数別前向き累積スコアと、上記誤り数別後ろ向き累積スコアと、上記局所スコアとを入力として、上記正解シンボル系列が上記ラティスに含まれる各々の有向弧を含むことの事後確率を誤り数別に計算する誤り数別事後確率計算過程と、
    を含む誤り数別識別スコア・事後確率計算方法。
  3. 局所スコア・局所誤り計算部と誤り数別識別スコア計算部と誤り数別事後確率計算部と損失関数値計算部と偏微分係数値計算部とモデルパラメータ更新部を備える誤り数重み付き識別学習装置が行う誤り数重み付き識別学習方法であって、
    局所スコア・局所誤り計算部が、特徴量情報系列と、上記特徴量情報系列に対応した正解シンボル系列と、上記特徴量情報系列を複数の認識シンボル系列で表現したラティスと、モデルパラメータとを入力として、上記ラティスに含まれる各々の有向弧に対する局所スコアと、有向弧に含まれる局所誤り数とを計算する局所スコア・局所誤り計算過程と、
    誤り数別識別スコア計算部が、上記局所スコアと、上記局所誤り数と、上記ラティスとを入力として、上記ラティスの誤り数別の識別スコアと誤り数別前向き累積スコアと誤り数別後ろ向き累積スコアとを計算する誤り数別識別スコア計算過程と、
    誤り数別事後確率計算部が、上記ラティスの誤り数別の識別スコアと、上記誤り数別前向き累積スコアと、上記誤り数別後ろ向き累積スコアと、上記局所スコアとを入力として、上記正解シンボル系列が上記ラティスに含まれる各々の有向弧を含むことの事後確率を誤り数別に計算する誤り数別事後確率計算過程と、
    失関数値計算部が、上記ラティスの誤り数別の識別スコアを入力として損失関数値を計算する損失関数値計算過程と、
    偏微分係数値計算部が、上記ラティスの誤り数別の識別スコアと、上記損失関数値と、上記誤り数別事後確率とを入力として有向弧での偏微分係数値を計算する偏微分係数値計算過程と、
    モデルパラメータ更新部が、上記偏微分係数値と、上記損失関数と、上記モデルパラメータとを入力として上記モデルパラメータを更新するモデルパラメータ更新過程と、
    を含む誤り数重み付き識別学習方法。
  4. 請求項3に記載した誤り数重み付き識別学習方法において、
    上記損失関数値計算過程は、上記ラティスの誤り数別の識別スコアを制御係数でべき乗した値を、全ての有向弧の識別スコアを上記制御係数でべき乗した値の累積値で除し、更にその値に上記誤り数を乗算した値を上記誤り数で累積して上記損失関数とする過程であることを特徴とする誤り数重み付き識別学習方法。
  5. 請求項1又は2に記載した誤り数別識別スコア・事後確率計算方法において、
    上記誤り数別識別スコア計算過程は、
    上記誤り数別前向き累積スコアを、上記有向弧の先行有向弧の局所スコアと上記先行有向弧までの誤り数別前向き累積スコアの誤り数の和毎に累積した前向き確率総和として求める前向き確率総和算出ステップと、
    上記誤り数別後ろ向き累積スコアを、上記有向弧の後続有向弧の局所スコアと上記後続有弧までの誤り数別後ろ向き累積スコアの誤り数の和毎に累積した後ろ向き確率総和として求める後ろ向き確率総和算出ステップと、
    上記ラティスの誤り数別の識別スコアを、上記有向弧の局所スコアと上記前向き確率総和と上記後ろ向き確率総和との誤り数の和毎の事後確率として求める事後確率算出ステップと、
    を含むことを特徴とする誤り数別識別スコア・事後確率計算方法。
  6. モデルパラメータを記録するモデルパラメータ記録部と、
    特徴量情報系列を入力として複数のシンボル系列を表現するラティスを上記モデルパラメータ記録部から探索して出力するパターン認識部と、
    上記特徴量情報系列と、上記特徴量情報系列に対応した正解シンボル系列と、上記特徴量情報系列を複数の認識シンボル系列で表現したラティスと、上記モデルパラメータとを入力として、上記ラティスに含まれる各々の有向弧に対する局所スコアと、有向弧に含まれる局所誤り数とを計算する局所スコア・局所誤り計算部と、
    上記局所スコアと、上記局所誤り数と、上記ラティスとを入力として上記ラティスの誤り数別の識別スコアと、誤り数別前向き累積スコアと、誤り数別後ろ向き累積スコアとを計算する誤り数別識別スコア計算部と、
    上記ラティスの誤り数別の識別スコアと、上記誤り数別前向き累積スコアと、上記誤り数別後ろ向き累積スコアと、上記局所スコアとを入力として上記正解シンボル系列が上記ラティスに含まれる各々の有向弧を含むことの事後確率を誤り数別に計算する誤り数別事後確率計算部と、
    上記ラティスの誤り数別の識別スコアを入力として損失関数値を計算する損失関数値計算部と、
    上記ラティスの誤り数別の識別スコアと、上記損失関数値と、上記誤り数別事後確率とを入力として有向弧での偏微分係数値を計算する偏微分係数値計算部と、
    上記偏微分係数値と、上記損失関数と、上記モデルパラメータとを入力として上記モデルパラメータを更新するモデルパラメータ更新部と、
    を具備する誤り数重み付き識別学習装置。
  7. 請求項6に記載した誤り数重み付き識別学習装置において、
    上記損失関数値計算部は、上記ラティスの誤り数別の識別スコアを制御係数でべき乗した値を、上記ラティスの誤り数別の識別スコアの累積値を上記制御係数でべき乗した値で除し、更に上記誤り数を乗算した値を、誤り数で累積して上記損失関数とするものであることを特徴とする誤り数重み付き識別学習装置。
  8. 請求項6又は7に記載した誤り数重み付き識別学習装置と、
    音声情報列を入力として音声情報列の音声特徴量情報系列を算出する音声特徴量抽出部と、
    上記誤り数重み付き識別学習装置で学習した音響モデルを記録する音響モデル記録部と、
    上記音声特徴量情報系列を入力とし、複数のシンボル系列で表現される単語ラティスを上記音響モデル記録部から探索して出力する単語列探索部と、
    を具備する音声認識装置。
  9. 請求項6又は7に記載した誤り数重み付き識別学習装置としてコンピュータを機能させるための装置プログラム。
  10. 請求項8に記載した音声認識装置としてコンピュータを機能させるための装置プログラム。
  11. 請求項9又は10に記載した装置プログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2008225998A 2008-09-03 2008-09-03 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体 Active JP5308102B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008225998A JP5308102B2 (ja) 2008-09-03 2008-09-03 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008225998A JP5308102B2 (ja) 2008-09-03 2008-09-03 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体

Publications (2)

Publication Number Publication Date
JP2010060809A JP2010060809A (ja) 2010-03-18
JP5308102B2 true JP5308102B2 (ja) 2013-10-09

Family

ID=42187690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008225998A Active JP5308102B2 (ja) 2008-09-03 2008-09-03 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体

Country Status (1)

Country Link
JP (1) JP5308102B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5826680B2 (ja) * 2012-03-09 2015-12-02 Ntn株式会社 ステアバイワイヤ式操舵機構の制御装置
CN112236782A (zh) * 2018-04-03 2021-01-15 诺基亚技术有限公司 通信系统中的端到端学习

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0990975A (ja) * 1995-09-22 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> パターン認識のためのモデル学習方法
CN101390156B (zh) * 2006-02-27 2011-12-07 日本电气株式会社 标准模式适应装置、标准模式适应方法

Also Published As

Publication number Publication date
JP2010060809A (ja) 2010-03-18

Similar Documents

Publication Publication Date Title
JP6637078B2 (ja) 音響モデル学習装置、音響モデル学習方法及びプログラム
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP4860265B2 (ja) テキスト処理方法/プログラム/プログラム記録媒体/装置
US9767790B2 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
JP5294086B2 (ja) 重み係数学習システム及び音声認識システム
JP7209330B2 (ja) 識別器、学習済モデル、学習方法
JPH0934486A (ja) 音声認識方法、情報形成方法、音声認識装置および記録媒体
KR102406512B1 (ko) 음성인식 방법 및 그 장치
JP4796460B2 (ja) 音声認識装置及び音声認識プログラム
JP6646337B2 (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP5308102B2 (ja) 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体
JP4533160B2 (ja) 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
Becerra et al. A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP2013182261A (ja) 適応化装置、音声認識装置、およびそのプログラム
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP6121187B2 (ja) 音響モデル補正パラメータ推定装置、その方法及びプログラム
JP5113797B2 (ja) 相違度利用型識別的学習装置とその方法、そのプログラム
JP2011048163A (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
JP5385810B2 (ja) 線形分類モデルに基づく音響モデルパラメータ学習方法とその装置、音素重み付き有限状態変換器生成方法とその装置、それらのプログラム
JP5161174B2 (ja) 経路探索装置、音声認識装置、これらの方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100726

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130628

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5308102

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350