JP2006201553A

JP2006201553A - 識別的学習方法、装置、プログラム、音声認識装置、プログラム、これらのプログラムを記録した記録媒体

Info

Publication number: JP2006201553A
Application number: JP2005013890A
Authority: JP
Inventors: Mcdermott Erik; エリックマクダモット; Atsushi Nakamura; 篤中村; Shigeru Katagiri; 滋片桐
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-01-21
Filing date: 2005-01-21
Publication date: 2006-08-03
Anticipated expiration: 2025-01-21
Also published as: JP4533160B2

Abstract

【課題】シンボル間の識別能力を向上させる。
【解決手段】一つの特徴量情報系列に対し、複数の正解シンボル系列候補を含む正解シンボル系列集合を用意して正解シンボル系列識別関数値の計算を行い、誤識別尺度の計算に用いる不正解シンボル系列を認識シンボル系列集合の中から正解シンボルと系列と、正解シンボル系列集合に含まれる正解シンボル系列に類似したシンボル系列とを除いた上で選択し、それぞれについて正解シンボル系列識別関数値と不正解シンボル系列識別関数値の計算を行う。
【選択図】図１

Description

音声、静止画像、動画像等の、時間軸、空間軸上、あるいはその双方において動的に変化し、何らかの概念情報を表現する信号の特徴量情報系列から、予め定められた信号の種別を離散値で表現したシンボル系列を同定するパターン認識のための識別的学習方法、装置、プログラム、及び識別的学習方法で学習した識別関数パラメータを用いて音声認識を実行する音声認識装置、プログラム、記録媒体に関する。

パターン認識誤りの多くは特徴量空間上で隣接する他シンボルとの境界周辺に位置するパターンの混同に起因しており、これを抑止するためには学習の段階で正解シンボルと隣接するシンボルとの両方の学習データから情報を得た上で、混同を減らすようにモデルパラメータを推定することが有効である。
このようにシンボル間識別能力の向上を積極的に図る枠組みは総称として識別的学習（Discriminative training）と呼ばれている。
以下、識別的学習方法の代表的な実現法のひとつである最小識別誤り（MCE:Minimum Classification Error）学習（非特許文献１）を、孤立シンボルを同定するパターン認識に適用する場合を例にとり説明する。

MCE学習においては、以下のように誤識別の起こる度合いを定式化し、その最小化を図る。
まず、長さＴの特徴量情報系列^1,T(ｘ_＊はベクトルを表わす)がシンボルcに属するか否かを評価するための識別関数g(ｘ_＊ ^1,T|c;Λ)を定義する。
ここでΛはシンボルが持つパラメータの集合である。特徴量情報系列ｘ_＊ ^1,Tの所属シンボルc^はこの識別関数g(ｘ_＊ ^1,T|c;Λ)によって、
c^=arg max g(ｘ_＊ ^1,T|c;Λ) （1.1）
c
のように識別される。
このとき特徴量情報系列ｘ_＊ ^1,Tが実際に所属するシンボルc~（正解シンボル）の識別関数と、他シンボル（不正解シンボル）の識別関数を全て用いて、

とし、これを特徴量情報系列ｘ_＊ ^1,Tについて誤認別の尺度と考える。

本尺度の意味するところは、複数の不正解シンボルが与える識別関数値の内の最大値と正解シンボルが与える識別関数値の差であり、これが正値をとるならば、少なくとも一つの不正解シンボルの識別関数値が正解シンボルの識別関数値を上回り特徴量情報系列ｘ_＊ ^1,Tの所属シンボルは式(1.1)において誤識別されることになる。
ここで被る損失の大きさ、すなわち損失値が、誤識別があるとき1、誤識別が無い時0、というように定まるものとし、d(ｘ_＊ ^1,T|c~;Λ)の値を損失値に変換する関数(損失関数)を考える。

損失関数の具体形としては、例えば次のものが考えられる。
s(ｄ)＝1／(1＋exp（−αd)) (1.3)
式(1.3)の損失関数はd=d(ｘ_＊ ^1,T|c~;Λ)=0となる周辺、すなわちシンボル境界周辺の狭い領域ではd(ｘ_＊ ^1,T|c~;Λ)の値に応じた0から1の間の値をとり、それ以外では、0(d<0)、または1(d>0)の漸近した値をとる。
ここでαはシンボル境界周辺の領域におけるs(d)の傾きを制御するパラメータである。

今、一団の特徴量情報系列群X={ｘ_＊1 ^1,T(1),ｘ_＊2 ^1,T(2),ｘ_＊3 ^1,T(3) …}が特徴量情報系列の各々に所属シンボル記号χ(ｘ_＊i ^1,T(i))の付与された学習データとして与えられた時、式(1.3)に式(1.2)を代入してシンボル全体Cについて損失値を計算すると、学習データ全体で起きる誤識別の回数にほぼ対応した総損失値が全識別関数パラメータΛの関数として、

のように得られる。
ここで導関数∂L/∂λ(λ∈Λ)をもとにして降下法等各種の最適化手法によってL(Λ|X)を最小とするΛを見つければ、それは学習データに対する誤識別回数を最小化して識別能力を高めたことに相当する。
ここで学習データ中でL(Λ|X)の最小化に寄与する特徴量情報系列は、式(1.4)の損失関数によりシンボル境界周辺のものに限られており、この場合クラス境界を明確化する学習が行われる。

Katagiri等は上記の定式化において識別関数や損失関数を適切に定義することにより、識別的学習の別の表現法である最大相互情報量学習等もMCE学習の枠組に包含できることを示している(非特許文献２)。
孤立のシンボルだけではなくシンボル系列の同定をも目的としたパターン認識の場合には、シンボル系列c^1,N ={c¹,…,c^N}に対する識別関数を、

と定義する。
式(1.6)は各シンボルの識別関数を用いてシンボル系列の識別関数値が最大となるように特徴量情報系列ｘ_＊1 ^1,TをN個の部分特徴量情報系列ｘ_＊ ^1,t(1),ｘ_＊ ^t(1)+1,t(2) ,…,ｘ_＊ ^t(N-1)+1,T に分割する動的計画法により計算できる。
ここで正解シンボル係数をc~^1,N~とすると、誤識別の尺度は、

によって得られ、さらに式(1.3)〜(1.5)を適用して、学習データに対する総損失L(Λ|X)の計算が実現できる(非特許文献３)。

図６は、連続単語音声認識を例にとって従来技術による個別的学習方法を説明したものである。
単語シンボルcの識別関数は、例えば、図７に示すある単語シンボルを意図して発声された音声の音声特徴量情報系列の挙動を表現するM状態left-to-right型隠れマルコフモデルに基づいて実現することができる。

図７に示す隠れマルコフモデルのa_i,jは状態iから状態jへの遷移確率を、b_i(ｘ_＊)は状態iで出力される特徴量情報ｘ_＊の確率分布を表しており、a_i,jとb_i(ｘ_＊)の分布パラメータとの各々が識別関数パラメータ集合Λの要素となる。
図７の隠れマルコフモデルに基づいて、ある単語シンボル系列中の単語シンボルcⁿの識別関数を具体的な形にすると、

となる。
式(1.8)は単語シンボルの識別関数値が最大となるようにｘ_＊1 ^t(n)をM個の部分特徴量情報系列ｘ_＊ ^1,τ(1),ｘ_＊ ^{τ(1)+1,τ(2)} ,…,ｘ_＊ ^{τ(M-1)+1,T(n)}に分割する動的計画法により計算できる。
ここで式(1.8)を式(1.6)に代入することで、単語シンボル系列単位の識別関数を定義できる。

つぎに、識別的学習における目的関数である総損失L(Λ｜X)を計算する方法を説明する。
まず「あの田中太郎です」と発声された音声の波形から抽出された音声特徴量情報系列

シンボル系列を考慮して単語シンボル系列ごとの識別関数値を計算し、正解単語シンボル系列を除く全ての単語シンボル系列の中で最も高い識別関数を求め、代表不正解単語シンボル系列の識別関数値(代表不正解識別関数値)とする。
上記代表不正解単語シンボル系列の計算と代表不正解識別関数値の計算とは、音声特徴

音声特徴量情報系列ごとの損失値を全ての音声特徴量情報系列について計算し、総和をとれば従来技術での識別的学習における目的関数である総損失L(Λ｜X)が得られる。

総損失L(Λ｜X)は学習データ全体で起きる単語シンボル系列単位での識別誤り回数にほぼ対応した全識別関数パラメータΛの関数となっており、降下法等の最適化手法により総損失L(Λ｜X)を最小とするΛを見つければ、それは学習データに対する誤認識回数を最小化して識別能力を高めた、すなわち識別的学習が行われたことになる。
[Juang & Katagiri 92] Biing-Hwang JUANG and Shigeru KATAGIRI; Discriminative Learning for Minimum Error Classification, IEEE, Trans. On SP., Vol. 40, No.12, pp.3043-3054 (1992). [Katagiri et al., 98] Shigeru KATAGIRI, Biing-Hwang JUANG and Chin-Hui LEE; Pattern Recognition Using a Family of Design Algorithms Based Upon the Generalized Probabilistic Descent Method, Proc. IEEE. Vol. 86, No. 11, pp. 2345-2373 (1998). [McDermott & Katagiri, 97] Erik MCDERMOTT and Shigeru KATAGIRI; String-Level MCE for Continuous Phoneme Recognition, Proc. Eurospeech97, Vol. 1, pp. 123-126 (1997).

以上説明した従来の技術では、一つの特徴量情報系列に対し一つの正解シンボル係数を想定して識別関数の計算を行い、さらに総損失L(Λ｜X)の最小化を図っていた。しかし、該当特徴量情報系列が表現する概念情報を等価に表現するシンボル系列が必ずしも一種類であるとは限らず、そのため以下のような問題が生じる。
第一の問題は、正解シンボル系列を用意する際、複数存在する候補の中から唯一の正解シンボル系列を選択する判断に誤りが起きると、式(1.7)の右辺第一項、すなわち正解シンボル系列についての識別関数の計算誤りを回避することが出来ず、識別的学習の効果によるパターン認識性能の向上が必ずしも十分でない、という問題が発生する。

第二の問題は、式(1.7)の右辺第二項、すなわち複数の不正解シンボル系列が与える識別関数値の内の最大値計算において、計算の対象から唯一の正解シンボル系列c~^1,N~のみを除外していること(式(1.7)中のc￣^1,n≠ c~^1,N~)に起因する。
つまり、計算の対象から唯一の正解シンボル系列c~^1,N~のみを除外しているため、正解シンボル系列との類似度に関わらず複数の不正解シンボル系列の内で最大の識別関数値を与える不正解シンボル系列、すなわち、正解シンボル系列に非常に類似した不正解シンボル系列のみが識別的学習に寄与することになる。

正解シンボル系列と、正解シンボル系列に非常に類似した不正解シンボル系列の対比による識別的学習では更新の対象となる識別関数パラメータの種類が少なくなり、識別的学習の効果によるパターン認識性能の向上が必ずしも十分でない。
特に、正解シンボル系列の中に、シンボル系列の背景にある概念情報との関連付けに直接寄与しないフィラー・シンボルが含まれている場合、当該フィラー・シンボルのみが不正解で他のシンボルはその順序も含めて正解であるようなシンボル系列が、複数の不正解シンボル系列の内で最大の識別関数値を与えるシンボル系列となり得る。

この場合、正解シンボル系列のフィラー・シンボルと不正解シンボル系列のフィラー・シンボルとの識別関数パラメータのみが更新の対象となり、概念情報との関連付けに直接寄与するシンボルの識別関数パラメータは更新されない。
つまり、唯一の正解シンボル系列を用いた従来技術による識別的学習では正解シンボル系列のフィラー・シンボルと不正解シンボル系列のフィラー・シンボルとの識別関数パラメータのみが更新の対象となる可能性が大きくなり、特徴量情報系列が表現するものと等価な概念情報を表現するシンボル系列を同定するというパターン認識の本来の目的に添った識別的学習の効果は高くなく、パターン認識性能の向上は必ずしも十分でない。

さらに、パターン認識と学習とに要する時間と、識別関数パラメータを格納する記憶領域とを小さくする効果を狙い、識別関数パラメータの総和を削減するためにパラメータの共有化を行うことを考えた場合、上記概念情報との関連付けに直接寄与しないフィラー・シンボル(例えば、c_F)の識別関数パラメータ(Λ(c_F))のみの更新を行なうことは、当該識別関数とパラメータ共有関係にある、概念情報との関連付けに直接寄与するシンボル(例えば、c)の識別関数パラメータ(Λ(c))の一部であるΛ(c)∩Λ(c_F)をシンボルcの識別能力を劣化させる方向に連動的に更新してしまう可能性がある。

したがって、識別能力を劣化させる方向に識別パラメータを更新する可能性を避けるため、識別関数パラメータの総和を削減するためのパラメータの共有化を十分に行うことが出来ず、パターン認識と識別的学習とに要する時間が長くなり、識別関数パラメータを格納する記憶領域が大きくなっていた。
上述したように従来の識別的学習では、識別的学習の効果が必ずしも高くなく、パターン認識と識別的学習とに要する時間が長くなり、識別関数パラメータを格納する記憶領域が大きくなっていた。

本発明の目的は、一つの特徴量情報系列に対し複数の正解シンボル系列候補を用意して識別関数の計算を行い、より大きなパターン認識性能向上をもたらし、パターン識別と学習とに要する時間がより短く、識別関数パラメータを格納する記憶領域を小さくできる識別的学習方法及び装置と、この学習方法で学習した学習データを用いた音声認識装置を提供することにある。

この発明の第１の実施形態としてはコンピュータに、予め用意された特徴量情報系列が表現する概念情報の種別を離散値で表現した複数のシンボル系列からなる正解シンボル系列集合と、前記特徴量系列を用いて識別関数値を計算し、識別関数値の最大値と、その最大値を与えるシンボル系列とを計算し格納するステップ１と、特徴量系列をパターン認識して、その結果として認識シンボル系列集合と、この認識シンボル系列集合に含まれる各々のシンボル系列に対する識別関数値とを計算し、前記認識シンボル系列集合に含まれる各々のシンボル系列が、正解シンボル系列集合に含まれるか否かを判定するステップ２と、認識シンボル系列集合に含まれるシンボル系列であって、正解シンボルと系列集合に含まれない不正解単語シンボル系列から得られる識別関数値の最大値と正解スコアとから得られる誤識別尺度と、この誤識別尺度を損失関数に代入して損失値を計算し格納するステップ３と、学習データを構成するすべての特徴量情報系列についての損失値の総和を計算し、総損失値として格納するステップ４と、総損失値がより小さい値となるように識別関数パラメータの値を更新するステップ５と、ステップ１乃至５の動作を予め設定した識別関数パラメータの初期値を用いて実行し、爾後前記ステップ１乃至ステップ５の動作を終了する毎にその時点で得られた識別関数パラメータの値を用いて演算を繰り返すステップ６と、ステップ４によって得られた総損失値が収束に至ったか否かを判断し、収束に至っていれば終了して最終的な識別関数パラメータの値とし、収束に至っていなければ、再度ステップ６の動作を実行させることを特徴とする識別的学習方法を提案する。

この発明の第２の実施形態としては実施形態１の識別的学習方法において、特徴量情報系列が入力音声を分析することによって得られる音声特徴量情報系列であることを特徴とする識別学習方法を提案する。
この発明の第３の実施形態としてはコンピュータに、予め用意された特徴量情報系列が表現する概念情報の種別を離散値で表現した正解シンボル系列集合と、前記特徴量系列を用いて識別関数値を計算し、識別関数値の最大値と、その最大値を与えるシンボル系列とを計算し格納する正解識別関数値計算部と、特徴量系列をパターン認識して、その結果として認識シンボル系列集合と、この認識シンボル系列集合に含まれる各々のシンボル系列に対する識別関数値とを計算し、前記認識シンボル系列集合に含まれる各々のシンボル系列が、正解シンボル系列集合に含まれるか否かを判定する不正解識別関数値計算部と認識シンボル系列集合に含まれるシンボル系列であって、正解シンボル系列集合に含まれない不正解単語シンボル系列から得られる識別関数値の最大値と正解スコアとから得られる誤識別尺度と、この誤識別尺度を損失関数に代入して損失値を計算し格納する識別関数比較部と、学習データを構成するすべての特徴量情報系列についての損失値の総和を計算し、総損失値として格納する損失関数値計算・積算部と、総損失値がより小さい値となるように識別関数パラメータの値を更新する識別関数パラメータ更新計算部と、正解識別関数値計算部と、不正解識別関数値計算部と、識別関数比較部と、損失関数値計算・積算部を予め設定した識別関数パラメータの初期値を用いて演算し、爾後前記演算終了毎にその時点で得られた識別関数パラメータの値を用いて演算を実行させる制御部と、損失関数計算・積算部に得られた総和損失値が収束に至ったか否かを判断し、収束に至っていれば終了して最終的な識別関数パラメータの値とし、収束に至っていなければ、再度前記制御部の動作を実行させる総損失値収束判定部とを備えることを特徴とする識別的学習装置を提案する。

この発明の第４の実施形態としては実施形態３の識別的学習装置において、特徴量情報系列が入力音声を分析することによって得られた音声特徴量情報であることを特徴とする識別的学習装置を提案する。
この発明の第５の実施形態としては入力音声の特徴量情報系列が、別途指定された単語シンボル系列を表現したものであるか否かの度合いを表わす音響スコア、例えば対数尤度を実施形態３又は４の識別的学習装置で学習した識別関数パラメータを用いて計算する音響モデル部と、単語シンボル系列の文としての言語的妥当性の度合いを表わす言語スコアを計算する言語モデル部と、単語辞書に登録された単語シンボルからなる単語シンボル系列の中で前記音響スコアと言語スコアによって計算される総合スコア、例えば前記音響スコアと言語スコアの重み付き和が最大となる単語シンボル系列を探索し出力する単語系列探索部を備えた音声認識装置を提案する。

この発明の第６の実施形態としてはコンピュータが解読可能なプログラム言語によって記述され、コンピュータに実施形態３又は４で提案した識別的学習装置として機能させる識別的学習プログラムを提案する。
この発明の第７の実施形態としてはコンピュータが解読可能なプログラム言語によって記述され、コンピュータに実施形態５で提案した音声認識装置として機能させる音声認識プログラムを提案する。

この発明の第８の実施形態としてはコンピュータが読み取り可能な記録媒体で構成され、この記録媒体に実施形態６又は実施形態７で提案した識別的学習プログラム又は音声認識プログラムを記録した記録媒体を提案する。
作用
本発明の識別的学習方法の特徴とするところは、一つの特徴量情報系列に対し複数の正解シンボル系列候補を含む正解シンボル系列集合を用意して正解シンボル系列識別関数値の計算を行い、誤識別尺度の計算に用いる不正解シンボル系列を、認識シンボル系列集合の中から、正解シンボル系列と、正解シンボル系列集合に含まれる正解シンボル系列に類似したシンボル系列とを除いた上で選択する点にある。

つまり本発明の識別的学習のための誤識別尺度は、C~を正解シンボル系列集合としたとき、例えば、

のようになる。
ここで、正解単語シンボル系列の識別関数値と代表不正解識別関数値の計算を行う際に、各々の単語シンボル系列の出現可能性に関する事前知識に基づくバイアス・スコアを加えることにしてもよい。
当該バイアス・スコアは、連続単語音声認識において広く用いられている言語モデルに基づいて容易に計算することができる。

正解シンボル系列集合は、正解シンボル系列を用意する際、複数存在する候補の中から唯一の正解シンボル系列を選択する判断に誤りが起きても、正解シンボル系列集合に含まれる等価な概念を表現する別のより妥当な正解シンボル系列を用いたより正確な識別関数値の計算を可能とする。
また、誤識別尺度の計算に用いる不正解シンボル系列を、認識シンボル系列集合の中で、正解シンボル系列と、正解シンボル系列集合に含まれる正解シンボル系列に類似したシンボル系列とを除いた上で、特徴量情報系列に対して最大の識別関数を与えるものとすることで、正解シンボル系列に非常に類似したシンボル系列が誤識別尺度の計算が用いられる可能性が低くなり、更新の対象となる識別関数パラメータの種類が多くなり、より大きなパターン認識性能向上をもたらす識別的学習が可能となる。

さらに、概念情報との関連付けに直接寄与しない正解シンボル系列のフィラー・シンボルと不正解シンボル系列のフィラー・シンボルとの識別関数パラメータのみが更新の対象となる可能性が小さくなり、特徴量情報系列が表現するものと等価な概念情報を表現するシンボル系列を同定するというパターン認識の本来の目的に沿った識別学習の効果が高くなり、より大きなパターン認識性能向上をもたらす識別的学習が可能となり、識別関数パラメータの総数を削減するためにパラメータの共有化がなされていても、概念情報との関連付けに直接寄与するシンボル識別関数パラメータを当該シンボルの個別能力を劣化させる方向に連動的に更新してしまう可能性が少なくなる。このため識別関数パラメータの総数を削減するためのパラメータの共有化をより十分に行うことが出来、パターン認識と識別的学習とに要する時間がより短くなり、識別関数パラメータを格納する記憶領域がより小さくなる。

本発明によれば、より大きなパターン認識性能向上をもたらし、パターン認識と学習とに要する時間がより短く、識別関数パラメータを格納する記憶領域をより小さくすることができる識別的学習方法を提供することができる効果が得られる。

本発明による識別的学習方法及び装置と、この学習した学習データを用いて例えば音声認識を行なう音声認識装置は全てハードウェアにより実現することができる。しかしながら望ましくは本発明で提案する識別的学習プログラム及び音声認識プログラムをコンピュータにインストールし、コンピュータに備えたCPU(演算制御装置)にこれらプログラムを解読させ、実行させることにより、コンピュータに識別的学習装置及び音声認識装置として機能させる実施形態が最良である。
コンピュータに本発明で提案する識別的学習プログラムをインストールし、識別的学習装置として機能させる場合、コンピュータには請求項３に明記している正解識別関数値計算部と、不正解識別関数値計算部と、識別関数比較部と、損失関数値計算部と、制御部と、総損失値収束判定部とが構築され、これら各構成要素がコンピュータに備えられたCPUの制御指令に従って動作し、識別的学習装置として機能する。

コンピュータに本発明で提案する音声認識プログラムをインストールし、音声認識装置として機能させる場合、コンピュータには本発明の識別的学習装置で学習した学習データを保持した識別関数パラメータ保持部に加えて請求項５に明記している音響モデル部と、言語モデル部と、単語系列探索部とが構築され、音声認識装置として機能する。

図１及び図２を用いて連続単語音声認識を例にとって本発明による識別学習装置の実施例を説明する。
図１に示す本発明の識別的学習装置の特徴とする構成は正解識別関数値計算部３と、不正解識別関数値計算部４の構成及び正解単語シンボル系列バイアススコア計算部６と不正解単語シンボル系列バイアススコア計算部７とを付加した点に特徴を有する。以下に各部の機能及び構成を順に説明する。ここでは音声波形を認識対象として説明するが、認識対象としては冒頭で説明したように音声に限らず静止画像、動画像等を対象とすることができる。

学習データ保持部１は音声波形データと、これに対応する文形式の正解単語シンボル系列とを保持する。一般に各音声波形データに対し、正解値を含む正解単語シンボル系列は複数存在し、これら複数の正解単語シンボル系列をここでは正解単語シンボル系列集合と称することにする。
音声特徴量抽出部２は音声波形データを入力としてこれを分析し、特徴量を抽出する。ここでは音声特徴量を抽出し、この音声特徴量を正解識別関数値計算部３と不正解識別関数値計算部４とに出力する。

正解単語シンボル系列バイアススコア計算部６は学習データ保持部１から出力された正解単語シンボル系列を入力とし、この出現可能性を計算し、正解識別関数値計算部３に正解識別関数値計算時のバイアススコアとして出力する。
正解識別関数値計算部３は音声特徴量と、これに対応する正解単語シンボル系列集合と、正解単語シンボル系列集合の各単語シンボル系列のバイアススコアとを入力とし、各シンボル系列の中で最大の識別関数値を出力する。
不正解識別関数値計算部４は音声特徴量と、この音声特徴量に対応する正解単語シンボル系列集合と、正解単語シンボル系列集合の各単語シンボル系列のバイアススコアと、任意の不正解単語シンボル系列のバイアススコアとを入力とし、不正解シンボル系列の中で最大の識別関数値を出力する。

不正解単語シンボル系列バイアススコア計算部７は単語シンボル系列を入力とし、この単語シンボル系列の出現可能性を計算し、不正解識別関数値計算時のバイアススコアとして出力する。
識別関数値比較部５は正解識別関数値計算部３と不正解識別関数値計算部４とが出力する正解識別関数値と不正解識別関数値とを入力とし、不正解識別関数値から正解識別関数値を差し引いた値を誤分類尺度による評価値として出力する。
損失関数値計算・積算部８は誤分類尺度による評価値を入力とし、これを０乃至１の間の値に変換して得られる損失値を計算し、全ての学習データにわたる損失値を積算した総和を損失値として出力する。

総損失値一時記憶部９は損失関数値計算・積算部８が出力する総損失値を入力とし、これを識別関数パラメータの更新毎の値として記憶すると共に必要に応じて出力する。
総損失偏導関数値計算・積算部１０は損失関数値計算・積算部８が出力する総損失値を入力とし、この総損失値を識別関数パラメータの関数とした場合の偏導関数値を計算し、出力する。
識別関数パラメータ一時記憶部１１は識別関数パラメータ値を記憶し、総損失値収束判定部１３が収束に至らずと判定する場合は暫定的な値とし、総損失値収束判定部が収束に至ったと判定する場合は最終的な値として記憶し出力する。

識別関数パラメータ更新計算部１２はその時点での暫定的な識別関数パラメータ値と、総損失偏導関数値とを入力とし、総損失値を減少させる新たなモデルパラメータ値を計算し出力する。
総損失値収束判定部１３は総損失値一時記憶部９に記憶された歴代の総損失値を入力とし、総損失値が収束に至ったか否かを判定する。収束に至ったか否かを判定するアルゴリズムとしては例えば総損失値一時記憶部９に新たな総損失値が記憶される毎に、総損失値収束判定部１３は先の総損失値との差を計算し、差の値が所定値以下に至った時点で収束に至ったと判定する方法が考えられる。

識別関数パラメータ保持部１４は識別関数パラメータ一時記憶部１１から出力された最終的な識別関数パラメータ値を保持する。
以下では図２を用いて各部の動作状況を説明する。
図２において、図６に示した従来技術による識別的学習方法とは正解単語シンボル系列が複数用意されており、正解単語シンボル系列識別関数値が複数定義された正解単語シンボル系列による識別関数値の中の最大値となっている点と、代表不正解識別関数値の計算の対象から複数の正解単語シンボル系列の全てが除かれている点とが異なっている。

また、図２のw(c^1,N)は単語シンボル系列c^1,Nの出現可能性に関する事前知識に基づくバイアス・スコアである。
図２をみると、従来技術の例で代表不正解単語シンボル系列であった{‘えーと’,‘田中’, ‘太郎’,‘です’}が複数の正解単語シンボル系列の中に含まれているために代表不正解識別関数値の計算の対象から除かれ、代わって、{‘あ’,‘竹中’,‘太郎’,‘です’}が代表不正解単語シンボル系列となっている。
従来の技術では唯一の正解単語シンボル系列しか用意していなかったため、正解単語シンボル系列を用意する際、正しくは「えーと田中太郎です」と発声していた音声の特徴量情報系列に対する正解単語シンボル系列を、誤って「あの田中太郎です」としてしまった場合、正解シンボル系列についての識別関数の計算誤りを回避することができない。

一方本発明によれば、等価な概念を表現する正解単語シンボル系列を複数用意することが可能であるため、正解単語シンボル系列の識別関数を計算する際に、複数の候補の中からもっとも識別関数値の大きい単語シンボル系列、例えば{‘えーと’,‘田中’,‘太郎’,‘です’}を選ぶことができ、識別関数の計算誤りを回避できる可能性が高くなる。
つぎに、従来の技術では、式(1.7)の右辺第２項、すなわち代表不正解識別関数値の計算において、計算の対象から唯一の正解シンボル系列c~^1,N~のみを除外していた(式(1.7)中のc￣^1,n≠ c~^1,N~)ため、正解単語シンボル系列{‘あ’,‘田中’,‘太郎’,‘です’}に非常に類似した{‘えーと’,‘田中’,‘太郎’,‘です’}が代表不正解単語シンボル系列となっていた。

この場合識別的学習におけるパラメータ更新の対象となるのは、それぞれの単語シンボル‘あ’、‘えーと’に関わるパラメータのみであり、両単語シンボル系列間の類似性ゆえに、値が更新されるパラメータの種類が少なくなっていた。
また上記発声は通常、姓名を伝えることを意図したものと考えるのが妥当であり、その場合‘あ’、‘えーと’のような単語シンボルは概念情報との関連付けに直接寄与しないフィラー・シンボルに属すると考えるのが妥当である。
つまり図６に示した従来の技術では、概念情報との関連付けに直接寄与するシンボルの識別関数パラメータは更新されないことになる。

さらに、識別関数パラメータの総数を削減するためにパラメータの共有化がなされていても、概念情報との関連付けに直接寄与するシンボル識別関数パラメータを当該シンボルの個別能力を劣化させる方向に連動的に更新してしまう可能性が高くなるために、識別関数間のパラメータ共有を十分に行うことが困難になる。
一方本発明によれば、互いに非常に類似した単語シンボル系列が正解単語シンボル系列集合の中に含まれており、これを代表不正解シンボル系列を選択する際に候補から除外するので、正解単語シンボルと代表不正解シンボル系列とのシンボルの類似性はより小さくなり、値が更新されるパラメータの種類が大きくなる。

特に、図２に示すように、不正解単語シンボル系列として{‘あ’,‘竹中’,‘太郎’,‘です’}のように概念情報との関連付けに直接寄与する単語シンボル(ここでは‘竹中’)の識別関数パラメータが更新の対象となる可能性が高まることで、特徴量情報系列が表現するものと等価な概念情報を表現するシンボル系列を同定するというパターン認識の本来の目的に沿った識別的学習の効果が高くなる。
さらに、識別関数パラメータの総和を削減するためのパラメータの共有化を十分に行うことが出来、パターン認識と識別的学習とに要する時間がより短くなり、識別関数パラメータを格納する記憶領域がより小さくなる。

本発明で用いる不正解単語シンボル系列集合は、単に複数の正解単語シンボル系列を集めたものに限らず、単語シンボルや複数の単語をまとめて抽象的に表現するシンボルを単位とする任意の正規言語としてネットワーク表現されてもよい。
この場合、正解単語シンボル系列識別関数値、代表不正解識別関数値の計算を以下の方法により効率的に実行することが出来る。
まず、正解単語シンボル系列識別関数値はネットワーク表現による正解単語シンボル系列集合を単語シンボルを単位とするネットワークと考え、特徴量情報系列とこのネットワークとの間で識別関数値を最大化する動的計画法を実行すれば、複数の正解単語シンボル系列の一つ一つの識別関数値を計算してその最大値を求めるよりもはるかに効率的な計算が出来る。

つぎに認識単語シンボル系列集合を単語シンボルを単位とするネットワークで表現する。
これは単語グラフ、あるいは単語ラティスと呼ばれる表現形式を出力可能な連続音声認識によって得ることができる。
認識単語シンボル系列集合を表現するネットワークもまた一つの正規言語と考えることが可能である。
ここで正解単語シンボル系列集合、認識単語シンボル系列集合のそれぞれの正規言語同士の積集合をとる。

この積集合が空(集合の相互間に共通するシンボルが存在しない状態。図３参照)であれば、認識単語シンボル系列集合中に正解単語シンボル系列は含まれていないので、単語グラフと同様に得られるN-best認識結果の第１位の識別関数を代表不正解識別関数値とすればよい。
積集合が空(図４参照)でなければ、N-best認識結果の上位から順に積集合正規言語を受理する有限状態機械で受理可能か否かを検査し、最初に見つかった受理不可である認識単語シンボル系列の識別関数値を代表不正解識別関数値とすればよい。

以上説明した方法は、単語シンボル系列単位で識別関数値の計算や正解単語シンボル系列に含まれるか否かの検査を行うよりも効率的である。
上記実施形態ではパターン認識対象たる何らかの概念情報を表現する信号の特徴量情報系列として音声から抽出した特徴量情報系列を用いて説明したが、本発明はこれに限定されるものではなく、静止画像、動画像等の時間軸上、空間軸上あるいはその双方において変化し、何らかの概念情報を表現する特徴両情報系列等の他の特徴量情報系列をパターン認識対象としても、同様に本発明を適用することができるものである。具体的には、手書き文字を画像情報として読み込んでパターン認識を行う場合等においても本発明は同様に適用することができる。

つぎに、上述した識別的学習方法で取得した学習データを用いて音声認識を行う音声認識装置の実施例を説明する。
図５にその音声認識装置の実施例を示す。図１と対応する部分には同一符号を付して示す。つまり、識別関数パラメータ保持部１４には図１及び図２を用いて説明した識別的学習装置で学習した識別関数パラメータが保存されている。音響モデル部１５はこの識別関数パラメータ保持部１４に保持されている識別関数パラメータを用いて音声特徴量抽出部２が出力する特徴量情報系列が、別途指定された単語シンボル系列を表現したものであるか否かの度合い、例えば対数尤度を表わす音響スコアを計算し出力する。

言語モデル部１６は指定された単語シンボル系列の文としての言語的妥当性の度合いを示す言語スコアを計算し出力する。
単語系列探索部１９は単語辞書に登録された単語シンボルからなる単語シンボル系列の中で音響スコアと言語スコアを用いて計算される総合スコア、例えば重み付き和を最大とする単語シンボル系列を探索し出力する。
認識結果表示部２０は単語系列探索部１９が探索した単語シンボル系列を音声認識結果として出力する。

この音声認識装置によれば識別関数パラメータ保持部１４に保持した識別関数パラメータは図１及び図２を用いて説明した本発明による識別的学習方法で取得した識別関数パラメータであるため、その確度は高い。従って、この識別関数パラメータを用いて計算する音響スコアの確度も高められるため、誤認識の発生が少ない音声認識結果を得ることができる。
上述した識別的学習装置及び音声認識装置はプログラム言語によって記述された識別的学習プログラム及び音声認識プログラムをコンピュータにインストールし、コンピュータに備えられたCPU(演算処理装置)でこれらのプログラムを解読し、プログラムを実行することにより実現される。

プログラムはコンピュータが読み取り可能な磁気ディスク或はCD-ROMのような記録媒体に記録され、これらの記録媒体或は通信回線を通じてコンピュータにインストールされる。

本発明による識別的学習方法及び装置と、この学習方法で取得した学習データを用いて音声認識を実行する音声認識装置は音声案内装置或は自動予約装置等の分野に活用される。

本発明による識別的学習装置の一実施例を説明するためのブロック図。図１に示した識別的学習装置の処理過程を説明するための流れ図。正解単語シンボル系列であるか否かを判定する場合に用いる積集合を説明するための図。図３と同様の図。本発明の音声認識装置の実施例を説明するためのブロック図。背景技術を説明するための流れ図。ある単語シンボルを意図して発生された音声の音声特徴量情報系列の挙動を表現する隠れマルコフモデルの一例を示す図。

符号の説明

１学習データ保持部１３総損失値収束判定部
２音声特徴量抽出部１４識別関数パラメータ保持部
３正解識別関数値計算部１５音響モデル部
４不正解識別関数値計算部１６言語モデル部
５識別関数値比較部１７マイクロホン
６正解単語シンボル系列バイアススコア計算部１８Ａ／Ｄ変換部
７不正解単語シンボル系列バイアススコア計算部１９単語系列探索部
８損失関数値計算・積算部２０認識結果表示部
９総損失値一時記憶部
１０総損失偏導関数値計算・積算部
１１識別関数パラメータ一時記憶部
１２識別関数パラメータ更新計算部

Claims

コンピュータに、
予め用意された特徴量情報系列が表現する概念情報の種別を離散値で表現した複数のシンボル系列からなる正解シンボル系列集合と、前記特徴量系列を用いて識別関数値を計算し、識別関数値の最大値と、その最大値を与えるシンボル系列とを計算し格納するステップ１と、
前記特徴量情報系列をパターン認識して、その結果として認識シンボル系列集合と、この認識シンボル系列集合に含まれる各々のシンボル系列に対する識別関数値とを計算し、前記認識シンボル系列集合に含まれる各々のシンボル系列が、正解シンボル系列集合に含まれるか否かを判定するステップ２と、
前記認識シンボル系列集合に含まれるシンボル系列であって、正解シンボル系列集合に含まれない不正解単語シンボル系列から得られる識別関数値の最大値と正解スコアとから得られる誤識別尺度と、この誤識別尺度を損失関数に代入して損失値を計算し格納するステップ３と、
学習データを構成するすべての特徴量情報系列についての損失値の総和を計算し、総損失値として格納するステップ４と、
総損失値がより小さい値となるように識別関数パラメータの値を更新するステップ５と、
前記ステップ１乃至５の動作を予め設定した識別関数パラメータの初期値を用いて実行し、爾後前記ステップ１乃至ステップ５の動作を終了する毎にその時点で得られた識別関数パラメータの値を用いて演算を繰り返すステップ６と、
前記ステップ４によって得られた総損失値が収束に至ったか否かを判断し、収束に至っていれば終了して最終的な識別関数パラメータの値とし、収束に至っていなければ、再度前記ステップ６の動作を実行させることを特徴とする識別的学習方法。
請求項１記載の識別的学習方法において、前記特徴量情報系列が入力音声を分析することによって得られる音声特徴量情報系列であることを特徴とする識別学習方法。
コンピュータに、
予め用意された特徴量情報系列が表現する概念情報の種別を離散値で表現した正解シンボル系列集合と、前記特徴量系列を用いて識別関数値を計算し、識別関数値の最大値と、その最大値を与えるシンボル系列とを計算し格納する正解識別関数値計算部と、
前記特徴量系列をパターン認識して、その結果として認識シンボル系列集合と、この認識シンボル系列集合に含まれる各々のシンボル系列に対する識別関数値とを計算し、前記認識シンボル系列集合に含まれる各々のシンボル系列が、正解シンボル系列集合に含まれるか否かを判定する不正解識別関数値計算部と、
前記認識シンボル系列集合に含まれるシンボル系列であって、正解シンボル系列集合に含まれない不正解単語シンボル系列から得られる識別関数値の最大値と正解スコアとから得られる誤識別尺度と、この誤識別尺度を損失関数に代入して損失値を計算し格納する識別関数比較部と、
学習データを構成するすべての特徴量情報系列についての損失値の総和を計算し、総損失値として格納する損失関数値計算・積算部と、
総損失値がより小さい値となるように識別関数パラメータの値を更新する識別関数パラメータ更新計算部と、
前記正解識別関数値計算部と、不正解識別関数値計算部と、識別関数比較部と、損失関数値計算・積算部で予め設定した識別関数パラメータの初期値を用いて演算し、爾後前記演算終了毎にその時点で得られた識別関数パラメータの値を用いて演算を実行させる制御部と、
前記損失関数計算・積算部に得られた総和損失値が収束に至ったか否かを判断し、収束に至っていれば終了して最終的な識別関数パラメータの値とし、収束に至っていなければ、再度前記制御部の動作を実行させる総損失値収束判定部とを備えることを特徴とする識別的学習装置。
請求項３記載の識別的学習装置において、前記特徴量情報系列が入力音声を分析することによって得られた音声特徴量情報であることを特徴とする識別的学習装置。
入力音声の特徴量情報系列が、別途指定された単語シンボル系列を表現したものであるか否かの度合いを表わす音響スコアを請求項２の識別的学習装置で学習した識別関数パラメータを用いて計算する音響モデル部と、
指定された単語シンボル系列の文としての言語的妥当性の度合いを表わす言語スコアを計算する言語モデル部と、
単語辞書に登録された単語シンボルからなる単語シンボル系列の中で前記音響スコアと言語スコアによって計算される総合スコアが最大となる単語シンボル系列を探索し出力する単語系列探索部と、
によって構成したことを特徴とする音声認識装置。
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項３または４の何れかに記載の識別的学習装置として機能させる識別的学習プログラム。
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項５記載の音声認識装置として機能させる音声認識プログラム。
コンピュータが読み取り可能な記録媒体で構成され、この記録媒体に少なくとも請求項６又は請求項７記載の識別的学習プログラム又は音声認識プログラムの何れかを記録した記録媒体。