JP2005321660A

JP2005321660A - 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体

Info

Publication number: JP2005321660A
Application number: JP2004140320A
Authority: JP
Inventors: Atsunori Ogawa; 厚徳小川; Satoshi Takahashi; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-05-10
Filing date: 2004-05-10
Publication date: 2005-11-17

Abstract

【課題】話者や雑音環境が異なる複数の入力音声に対し、従来の最も簡単な音声認識方法と同様に処理することができ、かつ高速に、高精度の認識結果を得ることを可能とする。
【解決手段】トポロジーが同一で混合確率分布のみが異なる話者または環境雑音が異なる入力音声信号に対し、前記話者、環境雑音のそれぞれに専用の音響モデルAとBから各同一の状態Siの混合確率分布を取り出し、これらの集合をトポロジーが同一の新たな音響モデルA+Bの状態Siの混合確率分布とする。
【選択図】図１

Description

この発明は、混合確率分布により表現される統計モデルの作成方法、その装置、統計モデルを用いるパターン認識方法、その装置、これらのプログラム及びその記録媒体に関する。

以下では、音声認識を例に説明を行うが、この発明は、文字や図形などの認識に対しても適用可能である。
一般的音声認識方法
まず、図１６を参照して、従来の音声認識方法について説明する。なお以下の説明において、対応する構成には同一参照番号をつけて重複説明を省略する。
この図において、入力音声信号701は、音声分析部702において特徴ベクトル703の時系列に変換されて、探索処理部705に入力される。探索処理部705においては、メモリ71内の音響モデル704を用いて、メモリ72内の文法706で表現される単語（列）と特徴ベクトル703の時系列との照合がメモリ73内の発音辞書707による単語の読みを参照して行われ、つまり探索処理が行われ、尤度の最も高い単語（列）が認識結果情報709として出力される。

音声認識には大きく分けて三つの形態があり、それらは、文法706の形態に対応している。一つ目は、孤立の単語発声を認識する孤立単語認識であり、図17にその文法の一例を示す。二つ目は、決まった文章発声のみを認識する定型文認識であり、図18にその文法の一例を示す。三つ目は、図19に示すような単語の任意の接続の任意の繰り返しを許す文法を用いて、文章発声を認識するもので、ディクテーションと呼ばれる。ディクテーションにおいては、音響モデル704に加えて、メモリ74内の言語モデル708と呼ばれる単語と単語の繋がり易さを確率で表現したモデルを用いて尤度が計算される。

音声分析部702における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴量としては、MFCC(Mel Frequency Cepstral Coefficient：メル周波数ケプストラム係数)、ΔMFCC、ΔΔMFCC、対数パワー、Δ対数パワーの一部又は全部などがあり、それらが、10〜100次元程度の特徴量ベクトルを構成する。分析フレーム幅30ms程度、分析フレームシフト幅10ms程度でこの分析が実行される。
音響モデル704としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル（Hidden Markov Model、略してHMMと書く）が汎用される。通常、HMMは音素ごとに作成されるが、最もよく用いられる音素HMMとして、当該音素に先行および後続する音素の両方を音素環境として考慮しないモノホン(monophone)-HMM（例えば、*-a-*は、音素aのmonophone−HMM．*は任意の音素を表す）、当該音素に先行する音素のみ音素環境として考慮する先行音素環境依存バイホン(biphone)-HMM（例えば、p-i-*は、先行音素がpである音素iの先行音素環境依存biphone-HMM）、当該音素に後続する音素のみ音素環境として考慮する後続音素環境依存biphone-HMM（例えば、*-t-uは、後続音素がuである音素tの後続音素環境依存biphone-HMM）、当該音素に先行及び後続する音素の両方を音素環境として考慮するトライホン(triphone)-HMM（例えば、k-o-eは、先行音素がk、後続音素がeである音素oのtriphone-HMM）が挙げられる。

上記、探索処理を行う前に、探索処理部705において、図20に示されるような、メモリ73内の発音辞書707による単語定義とその発音定義（単語の読み）の対応を元に、文法706で表現される単語（列）が音素HMMのネットワークとして展開される。例えば、「テニス」という単語は、その発音である「てにす」を基に、{*-t-e}+{t-e-n}+{e-n-i}+{n-i-s}+{i-s-u}+{s-u-*}という音素HMMのネットワークに展開される。文法によって「テニス」に先行または後続する単語があれば、それらの単語の音素HMMネットワークと「テニス」の音素HMMネットワークが連結される。探索処理の効率を上げるために、単語の音素HMMネットワーク同士の部分的な統合が行われる場合もある。探索処理部705において、文法706全体を表現する音素HMMネットワーク（探索ネットワーク）が構築された後に、音声分析部702で分析フレームごとに得られる特徴ベクトルを用いて、探索ネットワーク上で尤度を計算しながら複数の仮説を同時に展開していく。この探索処理の途中で尤度が低くなり、最終的に認識結果となる可能性が低くなった仮説についてはそれ以上の展開が打ち切られる。この操作は枝刈りと呼ばれ、これにより仮説数の極端な増加を抑えることができ、効率的な探索が可能となる。そして、最終分析フレームに対する探索処理が終わった時点で、尤度の最も高い仮説が表す単語列を認識結果として出力する。探索ネットワークの構造としては、木構造ネットワークや線形構造ネットワークがよく用いられる。また、仮説の展開を制御する探索方法としては、時間同期ビーム探索やA^*探索がよく用いられる。

音響モデルの構造
音響モデル704の構造について説明する。
まず、図21に示すように、状態Sが混合確率分布Mとして表現される。混合確率分布Mの各要素分布としては、離散確率分布と連続確率分布があるが、現在、最もよく用いられているのは、連続確率分布の一つである多次元正規（ガウス）分布であり、そのうちでも次元間の相関がない（共分散行列の対角成分が0である）多次元無相関正規分布が最もよく用いられる。多次元正規分布の各次元は、上記特徴量ベクトルの各次元に対応する。図21では、状態Sが4つの多次元正規分布N1〜N4を要素分布とする多次元混合正規分布Mとして表現されている。図21では、特徴量ベクトルのある次元ｄについて示しているが、上記特徴量ベクトルの各次元について同様に表現される。図22に示すように、上記のような状態を数百〜数万個程度含む集合があり、集合に含まれる状態のうちの数個〜十数個程度の確率連鎖によって、音素HMMが構築される。例えば、図22では、3つの状態S4,S2,S3の確率連鎖によって、音素カテゴリt-e-nを表現する音素HMM1（先行音素がｔ、後続音素がｎである音素ｅのtriphone-HMM）が構築され、また、３つの状態Ｓ８，Ｓ２，Ｓ７の確率連鎖によって、音素カテゴリk-e-*を表現する音素HMM2（先行音素がｋである音素eの先行音素環境依存biphone-HMM）が構築される。また、音素HMM1と音素HMM2は、それぞれの2番目の状態（第2状態）として共に状態S2を用いている。このように複数の音素HMMが同じ状態を共に用いることは状態共有と呼ばれる。このように音素カテゴリを表現する音素HMMの集合としてひとつの音響モデルが構築される。音素カテゴリ（音素HMM）の種類は、音響モデルの学習データに依存するが、例えば、t-t-tなど日本語の音素連鎖としてありえないものは含まれず、一般に、数千〜数万程度になる。

音素HMMが、いくつの状態のどのような確率連鎖によって構築されるかに関しては、様々なバリエーションがある。また、音素HMMごとに異なる構造をとることもある。現在、最も一般的に用いられている構造は、例えば、図23に示す音素HMM1（図22の音素HMM1と同じ）のような3状態のレフト-ツウ-ライト（left-to-right:左から右）型HMMと呼ばれるもので、3つの状態S4（第1状態）、S2(第2状態)、S3（第3状態）を左から右に並べたものであり、状態の確率連鎖（状態遷移）としては、自分自身への遷移（自己遷移）S4->S4,S2->S2,S3->S3と次状態への遷移S4->S2,S2->S3からなる。記号「->」は左から右への矢印を表す。音響モデル中の全ての音素HMMがこの3状態left-to-right型HMMの構造をとることが多い。

尤度計算法
音響モデル704を用いた尤度計算方法について説明する。
図23の音素HMM1に、ある特徴ベクトルの時系列が入力されたときの尤度計算について解説する。例えば、6フレーム分の特徴量ベクトルの時系列X=X1,X2,X3,X4,X5,X6が、音素HMM1のあるひとつの状態遷移系列S=S4->S4->S2->S2->S3->S3から出力される確率（尤度）P(X|S,HMM1)は、以下のように計算される。

ここで、aijは状態Siから状態Sjへの遷移確率である。また、bi(Xt)は、時刻t(t番目のフレーム)における特徴ベクトルXtが状態Siを表現する混合正規分布Miから出力される確率であり、混合正規分布Miを構成するm番目の正規分布の出力確率Pim(Xt)を用いて以下のように計算される。

ここで、Miは混合正規分布Miを構成する正規分布の数（混合数）、Wimは混合正規分布Miを構成するm番目の正規分布の分布重みである。Wimについては以下が満たされる。

また、混合正規分布Miを構成する正規分布が多次元無相関正規分布の場合、Pim(Xt)は以下のように計算される。

ここで、μimd,σimd²は混合正規分布Miを構成するm番目の多次元無相関正規分布の次元dにおける平均値、分散である。ここでσimd²は（σimd）²を表わす、以下も同様である。Xtdは、特徴ベクトルXtの次元dの値である。Dは特徴ベクトル（多次元無相関正規分布）の次元数である。
上記の尤度計算は、ある一つの状態遷移系列Sに対するものであるが、このような状態遷移系列は他にもあげることができる。このような状態遷移系列全てに対して、特徴ベクトルの時系列Xを出力する確率を計算し、それらを加算したものを音素HMM1に特徴ベクトルの時系列Xが入力されたときの尤度とする方法はトレリス(trellis)アルゴリズムと呼ばれる。一方、全ての状態遷移系列のなかで最も高い尤度を与える状態遷移系列を特徴ベクトルの時系列によりフレーム単位で逐次的に求め、最終フレームに到達したときの尤度を音素HMM1に特徴ベクトルの時系列Xが入力されたときの尤度とする方法をビタービ(Viterbi)アルゴリズムという。一般的には、トレリスアルゴリズムと比較して計算量を大幅に削減できるビタービアルゴリズムが用いられることが多い。また、上記の尤度計算は、あるひとつの音素HMM1に対するものであるが、実際には、探索処理部705において、文法全体を表現する音素HMMネットワーク（探索ネットワーク）に対して同様の尤度計算が実行される。また、上記の尤度計算では、確率値をそのまま扱ったが、実際には、アンダーフローを防ぐために、確率値の対数をとって計算を行う。

また、音響モデル704の各種パラメータ（状態遷移確率aij、分布重みWim、正規分布の各次元の平均μimdおよび分散σimd²）の推定アルゴリズムとしては、バウム−ウェルチ(Baum-Welch)アルゴリズムが最もよく用いられる。また、ひとつの音響モデルの学習（パラメータ推定）には、数十〜数千時間という大量の音声データとその発声内容が用いられる。
上記の従来の音声認識方法の詳細は、例えば、文献（社団法人電子情報通信学会編、中川聖一著『確率モデルによる音声認識』）に開示されている。

情報源・環境依存性
一般に音声認識の精度は、話者（情報源）や話者の周囲の雑音環境（情報源がおかれている環境）などによって大きく影響を受ける。話者や雑音環境などの統計的性質の違いは音響モデルの各種パラメータによって表現可能であり、話者や雑音環境などに適合した音響モデルを用いることにより、高い音声認識精度を達成することができる。例えば、話者に関しては、男性及び女性の発声の両方を性別非依存の音響モデルを用いて認識するよりも、男性の発声は男声音響モデルで、女性の発声は女声音響モデルで認識する方が認識精度は高い。さらに言えば、同じ男性（または女性）でも話者ごとの統計的性質が異なることから、各個人の発声は各個人の専用音響モデルで認識する方が精度は高い。雑音環境に関しても同様であり、話者が自動車内で発声を行うのであれば、自動車内音響モデルで認識することで高い認識精度が得られ、そのうちでもさらにアイドリング時であればアイドリング時音響モデル、時速50kmで走行中であれば、時速50km走行時音響モデル、（高速道路などを）時速100kmで走行中であれば、時速100km走行時音響モデルと、話者が置かれている状況に合わせた音響モデルを用いることにより高い認識精度を得ることができる。話者や雑音環境が違っている情報源をこの明細書では統計的性質が違う情報源という。

上記のように話者や雑音環境の違いにより複数の音響モデルを用いて認識を行う従来の音声認識方法について、以下で二つ例を図示して解説する。ここでは、男声および女声の音響モデルを用いる場合を考える。
一つ目の例を図24を用いて解説する。この例では、男声および女声音響モデル704Mおよび704Fをそれぞれ格納したメモリ71Mおよび71Fと、これらモデルに対応する探索処理部705Mおよび705Fがそれぞれ準備される。音声分析部702において入力音声信号701から抽出された特徴ベクトル702の時系列は男女それぞれの探索処理部705M,705Fに入力され、それぞれ文法706との照合が行われ、それぞれ認識結果709M,709Fが得られる。続いて、認識結果比較部1510において二つの認識結果709Mと709Fの比較が行われ、いずれかの認識結果を最終結果情報709として出力する。認識結果比較部1510においては、新たな知識源が導入されることもあるが、最も簡単には、二つの認識結果709Mと709Fの各尤度が比較され、尤度が高い方が選択される。

二つ目の例を図25を用いて解説する。この例では、男声および女声の音響モデル704M,704Fに対応する選択用モデル1611M,1611Fを格納したメモリ81M,81Fが準備される。入力音声信号701から抽出された特徴ベクトル703の時系列は音響モデル選択部1612に入力され、ここで男声および女声音響モデル選択用モデル1611M,1611Fを用いて、入力音声信号701が男声か女声かの判定が行われる。その判定結果を基に男声または女声の探索処理部705Mまたは705Fが選択され、選択された探索処理部において特徴量ベクトル703の時系列と文法706の照合が行われ、認識結果709が出力される。音響モデル選択用モデル1611M,1611Fおよび音響モデル選択部1612における選択アルゴリズムについては、例えば、非特許文献１に示されている。

また従来において汎用の音響モデルを話者に適応したモデルにする技術が知られている。例えば、男声音響モデルや女声音響モデルは、性別非依存音響モデル（最も汎用性の高い音響モデルであり、学習音声データとして男性の発声および女性の発声を区別せずに全て用いたもの）に、男声データのみを用いて話者適応するか、女声データのみを用いて話者適応することにより作成することができる。また、話者個人の専用音響モデルも前記性別非依存音響モデル（又はそれを基に作成した前記男声音響モデル、又は、女声音響モデル）に各話者の発声データを用いて話者適応することで作成できる。さらに、自動車内の様々な雑音環境に対応した各種音響モデルも、例えば、まずアイドリング時の音響モデルを構築しておき、そのモデルを基にして、各雑音環境における発声を用いて話者適応すること（この場合は話者適応方法により雑音適応を行うこと）により作成できる。この話者適応方法としては非特許文献２に示すMAP適応法や非特許文献３に示すMLLR適応法などが知られている。
D.A. Reynolds and R.C.Rose, "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models," IEEE Trans. on Speech and Audio Processing, vol.3, no.1, pp.72-83, Jan. 1995 J.L. Gauvain and C.H.Lee, "Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains," IEEE Trans. on Speech and Audio Processing, vol.2, no.2, pp.291-298, Apr. 1994 C.J. Leggetter and P.C. Woodland, "Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models," Computer Speech and Language, Sep. 1995, pp.171-185

前述した統計的性質が異なる情報源からの音声信号に対応する従来の認識方法の一つ目の例では、比較的高い認識精度を得ることが可能であるが、二つの探索処理部705Mおよび705Fのそれぞれにおいて探索処理が行われるので、図16に示した一つの探索処理部を用いる音声認識方法と比較して約2倍の計算量が必要となる。図24の例では、男女2つの音響モデルおよび各探索処理部を用いる場合を示したが、他に、例えば、自動車内の様々な雑音環境に対応してｎ個の音響モデルおよびそれに対応するｎ個の探索処理部を準備すれば、計算量は図16に示した音声認識方法と比較して約ｎ倍となる。また、図16に示した音声認識方法と比較して、複数の音響モデルと認識結果比較部1510も必要である、などの理由で、この音声認識方法を採用するには、非常に複雑な処理の実装を要する。

また、前述した二つ目の従来法では、あらかじめ比較的計算量の少ない音響モデル選択部1612において音響モデル704Mまたは704Fの選択が行われ、その後は選択された音響モデルを用いる探索処理部705Mまたは705Fのいずれかでの探索処理が行われるので、計算量は、図16に示した音声認識方法とほぼ同じとなる。しかし、音響モデル選択部1612での選択を誤ることがあり、選択を誤った場合は、入力音声信号701に適合しない音響モデルを用いた探索処理が行われるので、この従来法で、常に高い認識精度を得るのは困難である。図25に示した例では、男女二つの音響モデル704M,704Fのいずれかを選択する場合を示したが、他に、例えば、自動車内の様々な雑音環境に対応して多くの音響モデルを準備すれば、音響モデル選択部1602での選択誤りがさらに増加する危険性がある。また、図16に示した音声認識方法と比較して、音響モデルが複数となり、更に各音響モデルに対応する音響モデル選択用モデルを複数用い、また、音響モデル選択部1612が必要である、などの理由で、この音声認識方法を採用するには、非常に複雑な処理の実装を要する。

さらに、これら従来法のいずれにおいても、一回の認識処理が無音で区切られたひとつの入力音声区間に対して行われる。このため、例えば、男性の発声の直後に女性の発声が入力された場合、男性の発声と女性の発声を合わせて一発声として入力されるが、この場合は最初の男性の発声に基づき男声音響モデルを用いた認識が継続して行われる可能性が高く、女性の発声に対しても男声音響モデルを用いた認識が行われることになる。また、例えば、自動車内の話者の一発声中に、自動車のスピードが変化し、雑音環境が変化しても、発声の途中で音響モデルを切り替えるということ、例えば、時速で10km刻みの音響モデルを準備した場合に、発声の最初は時速50km走行時音響モデルで、その後、徐々に、60km,70km,と音響モデルを切り替えて認識することはできない。

この発明は、統計的性質が異なる情報源からの信号に対し、従来の最も簡単な認識方法と同様な構成で、高速かつ高精度に入力信号をカテゴリに分類することを可能とするための統計モデルの作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体を提供することを目的とする。

この発明の統計モデル作成手法によれば、統計的性質の異なる複数の情報源の専用の統計モデル集合から一つの新たな統計モデル集合を作成する方法であって、前記各統計モデル集合が表現するカテゴリ集合が同じで、かつ前記各統計モデル集合に含まれる各統計モデルが同じで、かつ前記各統計モデルが同じ状態集合に基づく同じ状態確率連鎖で表現され、つまりトポロジーが同一であるが、各状態を表現する混合確率分布が異なり、前記新たな統計モデル集合の各状態を、前記各専用の統計モデル集合の対応する各状態を表現する混合確率分布の集合により作成することを特徴とする。

この発明による統計モデル作成方法によれば、その各状態の混合確率分布は、各専用の統計モデルの対応する状態の混合確率分布の集合から求められているため、各状態の出力確率（尤度）は入力信号の統計的性質と対応した要素確率分布に対する確率は高くなるが、他の統計的性質と対応した要素確率分布に対する確率は小さくなり、結果として、入力信号に適する統計モデル集合を用いたと同様の認識率が得られる。

以下、図面を参照してこの発明の実施形態について説明する。
この発明による音声認識方法の基本構成は従来の最も簡単な構成である図16と同じであるが、音響モデル704の構造とそれを用いた尤度計算方法が従来方法とは異なる。
なお、以下の説明では、話者や雑音環境の違いにより二つの音響モデルAおよびBが準備されている場合を想定するが、3つ以上の音響モデルが準備されている場合についても、同様な方法により、この発明を適用することができる。また、音響モデルAおよびBにおいては、表現する音素カテゴリ集合が同じであり、かつ前記各音素カテゴリ集合を表現する各統計モデル集合が同じであり、かつ前記各統計モデル集合が同じ状態集合に基づく同じ状態確率連鎖で表現されており、各状態を表現する混合確率分布のみ異なるものとする。一般に、状態集合より上位の音響モデルの構造はトポロジーと呼ばれる。音響モデルAおよびBはトポロジーが同じである。このようなトポロジーが同じであり、各状態を表現する混合確率分布のみ異なる音響モデルは、非特許文献２に示すMAP適応や非特許文献３に示すMLLR適応などの話者適応方法を用いれば容易に作成可能である。

また、以下では、音響モデルAおよびBの各状態を表現する混合確率分布の各要素分布を正規分布とするが、正規分布以外の確率分布であってもこの発明は同様に適用可能である。
基本構成
図１に、この発明による音響モデルの作成方法の一実施形態を示す。
この実施形態では、音響モデルメモリ10Aと10Bにそれぞれ、トポロジーが同じ音響モデルAとBが格納されている。これら音響モデルAとBを合成部11で合成して音響モデルAおよびBとトポロジーが同じである新たな音響モデルA+Bを作り、音響モデルメモリ12に格納される。合成部11では音響モデルAおよびBの対応する状態を表現する混合正規分布MAおよびMBの集合MA+MBとし、これを音響モデルA+Bの状態を表現する混合正規分布とする。

音響モデルA,Bとして各カテゴリごとの音素HMM、つまり３つの状態と、その遷移確率が、また各状態Sの混合正規分布Mとその各重みWの集合が用いられ、合成部11で混合正規分布MA+MBを作成する際には、図2に示すように、その元となる混合正規分布MAおよびMBの各要素正規分布の重みを1/2にすることにより、混合正規分布MA+MBにおいて、(3)式を満たすようにする。つまり音響モデルAの状態Sの混合正規分布MAが重みW_NA1の分布NA1、重みW_NA2の分布NA2、重みW_NA3の分布NA3、重みW_NA4の分布NA4の4分布であり、音響モデルBの状態Sの混合正規分布MBが重みW_NB1の分布NB1、重みW_NB2の分布NB2、重みW_NB3の分布NB3、重みW_NB4の分布NB4の4分布である場合、音響モデルA+Bの状態Sの混合正規分布MA+MBは、重みW_NA1/2の分布NA1、重みW_NA2/2の分布NA2、重みW_NA3/2の分布NA3、重みW_NA4/2の分布NA4、重みW_NB1/2の分布NB1、重みW_NB2/2の分布NB2、重みW_NB3/2の分布NB3、重みW_NB4/2の分布NB4の8分布となる。このように分布数が2倍になるが各重みが1/2にされているため(3)式の条件は満たされる。

更に音響モデルA+Bの状態Siにおける遷移確率（次状態への遷移確率ａ_ij ^A+B，自己遷移確率ａ_ii ^A+B）は、対応する音響モデルAの状態Siにおける遷移確率（次状態への遷移確率ａ_ij ^A，自己遷移確率ａ_ii ^A）および音響モデルBの状態Siにおける遷移確率（次状態への遷移確率ａ_ij ^B，自己遷移確率ａ_ii ^B）を用いて、次式のように加算平均すればよい。
ａ_ij ^A+B＝（ａ_ij ^A＋ａ_ij ^B）／２
ａ_ii ^A+B＝（ａ_ii ^A＋ａ_ii ^B）／２
音響モデルA,B及びA+Bはそのカテゴリごとに、その第1状態、第2状態、第3状態と、その各状態ごとの状態遷移確率aij、自己遷移確率aii、各混合正規分布と、その分布miごとの重みWmi、各次元dごとの平均μimd、共分散σimd²、が図15に示すようにメモリに格納されている。

このようにして作成した音響モデルA+Bを、従来の最も簡単な音声認識方法の構成である図16の音響モデル704として用いて入力音声に対して音声認識を行う場合、入力音声信号の統計的性質が音響モデルAに適合するものであれば、音響モデルA+Bの各状態における混合正規分布MA+MBによる尤度として、主に音響モデルAに由来する要素正規分布の出力する尤度が支配的になる。これは、音響モデルAのみを用いて認識を行うこととほぼ等価になり、精度の高い認識が実現可能となる。入力音声信号の統計的性質が音響モデルBに適合するものである場合にも同様である。これは、例えば、図24の例において、男声が入力されたときに、認識結果比較部1510において男声音響モデル704Mを用いて認識された結果709Mが最終認識結果情報709として選ばれる場合に相当する。また、例えば、図25の例において、男声が入力されたときに、音響モデル選択部1612で男声音響モデル704Mが選択されることに相当する。

また、入力音声（一発声）信号の統計的性質が、例えば、音響モデルAに適合するものから途中で音響モデルBに適合するものへと変わる場合、例えば、自動車内の音声認識において、発声中に自動車のスピードが変わる場合などには、音響モデルA+Bの各状態における混合正規分布MA+MBにより計算される尤度において、最初は、主に音響モデルAに由来する要素正規分布の出力する尤度が支配的となるが、途中からは、主に音響モデルBに由来する要素正規分布の出力する尤度が支配的となる。これは、入力音声（一発声）信号の統計的性質の時間的な変化に柔軟に対応できることを意味し、精度の高い認識が実現可能となる。このような対応は、例えば、図24や図25の従来の音声認識方法では不可能である。認識すべき入力音声信号の統計的性質が複数であり、これら統計的性質が予め予測される場合は、これら各統計的性質の専用の音響モデルを用いて、この発明により新たな音響モデルを作成しておき、この新たな音響モデルを用いて音声認識を行えばよい。

上記のように、図1および図2に示した音響モデルA+Bを、図16に示す従来の最も簡単な音声認識方法の構成における音響モデル704として用いることにより、高精度の認識を行うことが可能となる。しかし、音響モデルA+Bの各状態における混合正規分布MA+MBの要素正規分布数は、その元である音響モデルAおよびBの対応する状態における混合正規分布MAおよびMBの要素正規分布数を足したものとなるため、(2)式で表される尤度計算量の増加を招く。
要素分布数削減
この尤度計算量の増加に対応する方法として、この発明の一実施形態では、図3に示すように、音響モデルA+Bの各状態における混合正規分布MA+MBの各要素正規分布において、分布間距離の近い二つの要素正規分布同士を統合して新たな一つの要素正規分布を作成することで、混合正規分布の要素正規分布数を削減する。図3では、要素正規分布NA3及びNB1間の分布間距離が全ての要素分布間距離の中で最も小さいため、これらを統合して新たな要素正規分布NA3+NB1を作成する。2つの多次元無相関正規分布の統合の計算式を示す。2つの多次元無相関正規分布N1,N2の次元dにおける平均、分散および分布重みをそれぞれ(μ1d,σ1d²,W1)、(μ2d,σ2d²,W2)とすると、それらを統合した分布Nの次元dにおける平均、分散および分布重み(μd,σd,W)は以下の式を計算して求める（分布重みは全次元で同じ値である）。なおσ1d²は(σ1d)²のことを表す、以下の表記も同様とする。

このときの分布間距離尺度としては、クルバック−ライブラ(Kullback-Leibler)ダイバージェンスを用いることができる。上記の多次元無相関正規分布N1,N2間のKullback-LeiblerダイバージェンスK(N1,N2)は、以下のように計算できる。以下で、Dは次元数である。

また、他の分布間距離尺度として、バタチャリヤ距離を用いることができる。上記の多次元無相関正規分布N1,N2間のバタチャリヤ距離B(N1,N2)は、以下のように計算できる。

また、他の分布間距離尺度として、統合前後の尤度差分を用いることができる。多次元無相関正規分布Niの次元dにおける平均、分散および学習データフレーム数をそれぞれ(μid,σid²,Гi)、次元数をDとすると、Niの尤度（期待値）Piは、以下のようになる（学習データフレーム数は全次元で同じ値である）。

統合前の多次元無相関正規分布N1,N2の尤度をそれぞれP1,P2、統合後の多次元無相関正規分布Nの尤度をPとすると、統合前後の尤度差分ΔP（N1,N2->N）は、以下のようになる。

また、他の分布間距離尺度として、統合前後の変分ベイズ法に基づく評価関数値の差分を用いることができる。変分ベイズ法に基づく評価関数値については、文献（渡部晋治、南泰浩、中村篤、上田修功、“ベイズ的基準を用いた状態共有型HMM構造の選択”、電子情報通信学会論文誌、D-II、Vol.J86-D-II、No.6、pp.776-786、2003年6月）に開示されている。
上記の混合正規分布における要素正規分布の統合は様々な基準で繰り返し行うことができる。その基準の一つとしては、音響モデルA+Bの全ての状態に共通の一定の要素正規分布数を設定し、その値を目標として各状態において、上記の要素正規分布統合を繰り返すことである。図4に示すように音響モデルメモリ12から各状態の二つの要素正規分布の全ての組み合わせについて分布間距離を計算し（ステップS1）、これら分布間距離が最小となった二つの要素正規分布を選択し（ステップS2）、これら選択した二つの要素正規分布を統合計算して一つの要素正規分布とし（ステップS3）、その結果、その状態における要素正規分布の数が目標値になったかを判定し（ステップS4）、目標値になっていなければステップS1に戻り、目標値になっていれば、削減処理を終了する。

一般に音声認識において必要とされる音響モデルの全体での分布数は数千〜数万である。従って例えば作成した音響モデルを伝送する場合は、伝送し易い点から全体の要素正規分布数（混合確率分布数）としての目標値を数千、例えば五千とし、高い認識率が得たい場合は目標値を数万、例えば五万とする。その場合この目標値となるように、全ての状態に対し、同一の目標値とする。
また、要素正規分布統合の別の基準の一つとしては、音響モデルA+Bの各状態において個別の要素正規分布数を設定し、その値を目標として、各状態において、上記の要素正規分布統合を繰り返すことである。つまり、各状態の混合確率分布数は、4〜200、一般に100以下、4〜64程度であり、「ａ，ｉ，ｕ，ｅ，ｏ」などの母音は認識率に大きく影響し、音素「ｓｈ」などの摩擦音は、性別の差がほとんどないなど各状態により認識率への影響度が異なるため、認識率への影響が大きい状態に対して、混合確率分布数の目標値を100とし、認識率の影響が小さい状態に対しては混合確率分布数の目標値を4とするなど状態に応じて目標値を異ならせて、全体の混合確率分布数を削減してもよい。

また、要素正規分布統合の別の基準の一つとしては、音響モデルA+Bの全ての状態に共通の一定の分布間距離のしきい値を設定し、各状態において、上記の要素正規分布統合を、しきい値以下の分布間距離を与える要素正規分布がなくなるまで繰り返すことである。
また、要素正規分布統合の別の基準の一つとしては、音響モデルＡ＋Ｂの各状態において個別の分布間距離のしきい値を設定し、各状態において、上記の要素正規分布統合を、しきい値以下の分布間距離を与える要素正規分布がなくなるまで繰り返すことである。これらしきい値を用いる場合は例えば図5に示すように、図4と同様にまずステップS1で要素正規分布の全ての二つ組の組み合わせについて分布間距離を計算するが、この場合は次にこれら計算した分布間距離中にしきい値以下のものがあるかを調べ（ステップS5）、あればステップS2で分布間距離が最小となった二つの分布を選択し、ステップS3でこれら分布を統合して、直ちにステップS1に戻る。ステップS5 で分布間距離がしきい値以下のものがなくなったら、削減処理を終了する。

しきい値の設定は、例えば適当な値をしきい値として削減処理を行い、その結果の音響モデルA+Bを用いて認識率がどの程度になるかを確認し、認識率が、例えば情報源Aから入力音声信号に対し、情報源Aを学習データとして作成した音響モデルAを用いた場合の認識率と同程度になれば、その値をしきい値とし、認識率が悪すぎれば、しきい値を適当に小さくして同様のことを繰り返し、実験的に決めて置けばよい。
これら削減処理の機能構成としては例えば図6に示すように、音響モデルA+Bを格納した音響モデルメモリ12、二つの分布間の距離を計算する分布間距離計算部21、分布間距離の最小を判定し、対応2分布を決定する最小距離判定部22、二つの要素確率分布を統合する分布統合計算部23、レジスタ24内の基準値と比較する比較部24と、メモリ12に対する書き込み、読み出し、各部を順次動作させることなどを行う制御部25を備える。削減処理に目標値を用いる場合は、メモリ12内の要素確率分布数を計算する分布数計算部26が設けられ、レジスタ24に基準値として目標値が設定され、比較部24において分布数計算部26で計算された分布数が目標値になったかの比較判定が行われる。削減処理にしきい値を用いる場合はレジスタ24aにしきい値が設定され、比較部24で計算した分布間距離がしきい値以下のものがあるか比較判定される。

認識率向上
上記の音響モデルA+Bの各状態の混合正規分布MA+MBを用いた尤度計算においては、例えば、入力音声の統計的性質が元の音響モデルAに適合するものであれば、音響モデルAに由来する要素正規分布の尤度が支配的になることを説明したが、音響モデルBに由来する要素正規分布の尤度が完全に無視されるわけではなく、これが尤度に悪影響を及ぼし、結果的に認識精度が低下する場合がある。
これに対処する方法として、この発明の他の実施形態では、図7に示すように、音響モデルA+Bの各状態の混合正規分布MA+MBを用いた尤度計算において、(2)式で示される各要素正規分布の尤度を加算する際に、尤度の高い上位K個の要素正規分布の尤度のみを加算する。図7では太い実線の要素正規分布NA1,NA2,NA3+NB1,NA4の各出力確率PNA1（Xt）,PNA2(Xt),PNA3+NB1(Xt),PNA4(Xt)が上位Kであった場合である。このような尤度計算を行うことで、音響モデルAに適合する入力音声に対して尤度計算を行う際に、音響モデルBに由来する要素正規分布が出力する尤度の影響を完全に取り除くことができ、高精度の認識が可能となる。例えば図8に示すように音声認識装置における探索処理部705において、メモリ12内の音響モデルA+Bを用いて入力された各フレームごとの特徴ベクトルXtに対する状態Siを表現する混合正規分布Miからの出力確率を、状態分布確率出力計算部31で計算される。

この計算は(2)式に示したように、各混合正規分布Miの各正規分布の出力確率Pim(Xt)の重み付き加算である。各正規分布出力確率と重みを乗算した値WimPim(Xt)のMi個中の上位からK個のみを上位選択部32で選択して加算部33で加算し、その加算結果を特徴ベクトルXtが状態Siの混合正規分布Miから出力される確率、つまり尤度とする。この尤度を用いて統計モデルに対する尤度計算が統計（音響）モデル尤度計算部34で計算され、この最高尤度を与えるモデルが与えるカテゴリが認識結果として出力部35から出力される。
音声認識処理では例えば図9に示すように入力音声信号を分析処理して特徴ベクトル時系列を生成し（ステップS11）、次に各状態の分布出力確率を計算するが、その際に各状態Siにおける各要素正規分布の出力確率分布Pim(Xt)を計算し、かつこれに対して、重みWimを乗算し（ステップS12）、その状態Siにおける要素正規分布出力確率（尤度）WimPim(Xt)中の上位のK個を加算してその状態Siの出力確率とする（ステップS13）。次に状態確率連鎖によって表現された統計モデルの出力確率（尤度）を前記求めた状態出力確率を用いて計算し（ステップS14）、その最も高い出力確率（尤度）を与える統計モデルが表すカテゴリを認識結果として出力する（ステップS15）。なお上位K個の選択の際の混合正規分布の尤度の計算は、重みWimを乗算することなく、Pimを用いてもよい。

前記Kの値は、例えば統合前のモデルAおよび状態Siの要素正規分布数Miは統合によりモデルA+Bの状態Siの要素正規分布数は2Miになるが、統計的性質AのモデルAと統計的性質BのモデルBを用いて、一方の統計的性質Aの入力音声信号に対し認識を行う場合、他方の統計的性質BのモデルB中要素確率分布中の１割程度が悪い影響を与えると考えられ、2Miの1〜2割程度を減算した値をKとする、あるいはKを統合前の要素数Miとする。なお、図7においては音響モデルA+Bとして削減処理したものを用いたが、削減処理しないものを用いてもよい。

さらに上記の尤度計算の効率を高める方法として、この発明の他の実施形態では、図10に示すように、音響モデルA+Bの各状態の混合正規分布MA+MBにおいて、元の音響モデルAに由来する要素正規分布NA1,NA2,NA3,NA3+NB1,NA4を統合して代表正規分布NA1+NA2+NA3+{NA3+NB1}+NA4、元の音響モデルBに由来する要素正規分布NA3+NB1,NB2,NB3,NB4を統合して代表正規分布{NA3+NB1}+NB2+NB3+NB4をあらかじめ作成しておき、尤度計算時には、図11に示すように、まず、前記二つの代表正規分布を用いて尤度計算を行い、高い尤度を出力する代表正規分布に属する要素正規分布に対して計算を行う。

図11においては代表正規分布を用いた尤度計算において、太い実線で示す代表正規分布NA1+NA2+{NA3+NB1}+NA4を用いた尤度の方が高い場合で、その太い実線代表正規分布の統合前の混合正規分布中太い実線の要素正規分布NA1,NA2,NA3+NB1,NA4のそれぞれについて出力確率PNA1(Xt),PNA2(Xt),PNA3+NB1(Xt),PNA4(Xt)をそれぞれ計算し、これらを重み付き加算してフレームtの特徴ベクトルXtの状態Sの尤度bs(Xt)とする。なお重みを付けることなく加算してもよい。
代表正規分布の作成は、図3に示したように要素正規分布の統合を済ませてから行ってもよいし、例えば図4のステップS4で分布数が目標値以下となり、統合（削減）処理が終了すると、破線で示すように、元の各音響モデルに由来する要素正規分布群を選択し（ステップS6）、これら選択した各要素正規分布群ごとに、その群に属する要素正規分布を統合して代表正規分布とする（ステップＳ７）。図5に示した統合（削減）処理が終了した後に、同様に代表正規分布を求めてもよい。あるいは図2に示した混合正規分布MA+MBのように統合を行う前の混合正規分布に対して行ってもよい。また、代表正規分布の平均および分散は、(5)式および(6)式の拡張として容易に求められるため省略する。さらに代表正規分布の分布重みについては無視してよい。図11に示した手法による音声認識は例えば図12に示す処理手順、図13に示す機能構成のように、入力音声信号の特徴ベクトル時系列を生成し（ステップＳ１１）、音響モデルA+Bにおける各状態Siの代表確率分布がメモリ71中の記憶部71aから読み出され、これを用いて状態出力確率を代表分布出力尤度計算部36で計算し（ステップＳ２１）、これら代表確率分布の出力確率中の最大値を与える代表確率分布を代表分布選択部37により求め（ステップＳ２２）、その求めた代表確率分布の統合前の各要素確率分布を用いて、状態尤度計算部38でそれぞれの出力確率を計算し、これらを重み付き加算して、その状態Siの出力確率とする(ステップＳ２３)。この状態出力確率を用いて、状態の確率連鎖によって表現された統計モデルの出力確率を統計モデル尤度計算部34で計算し（ステップＳ１４）、その最も高い確率（尤度）を与える統計モデルが表わすカテゴリを認識結果として出力部35より出力する（ステップＳ１５）。

上述したこの発明の統計モデル作成方法による統計モデルの作成装置は例えば図14に示す構成となる。つまりモデルメモリ10Aから音響モデルAを、モデルメモリ10Bから音響モデルBをそれぞれ取り出し、各同一状態Siの混合正規分布を合成部11で集合して音響モデルA+Bの状態Siの混合正規分布とし、更に必要に応じて削減処理部41において新たな混合正規分布中のいくつかの分布は統合し、また必要に応じて、代表分布作成部42により図１０に示した代表正規分布の作成を行う。
上記統計モデル作成方法、およびパターン認識方法（実施形態では音声認識方法）はいずれもコンピュータに実行させることもできる。つまり図１〜図５に示した統計モデルの作成方法の各過程をコンピュータに実行させるためのプログラムを用いればよく、あるいは例えば図9、図12に示すパターン認識方法の各過程をコンピュータに実行させるためのプログラムを用いればよい。これらプログラムはCD-ROM、磁気ディスク、半導体記憶装置などの記録媒体からコンピュータにインストールし、又は通信回線を介してコンピュータにダウンロードして利用することができる。

複数の音響モデルから新たなひとつの音響モデルを作成する手順を示す図。複数の音響モデルから新たなひとつの音響モデルを作成する際に、各状態における混合確率分布を作成する手順を示す図。新たに作成された音響モデルの各状態における混合確率分布の要素分布数を削減する手順を示す図。分布数削減処理法の処理手順の一例を示す流れ図。分布数削減処理法の処理手順の他の例を示す流れ図。分布数削減処理の機能構成例を示すブロック図。新たに作成された音響モデルの各状態における混合確率分布を用いて尤度計算を行う際に、高い尤度を与える上位幾つかの要素分布の尤度のみを加算して状態の尤度とする手順を示す図。この発明の実施形態による音声認識装置の機能構成例を示すブロック図。この発明の実施形態による音声認識方法の処理手順の一例を示す流れ図。新たに作成された音響モデルの各状態における混合確率分布において、元の音響モデルに由来する要素確率分布同士を統合し、代表確率分布を作成する手順を示す図。新たに作成された音響モデルの各状態における混合確率分布を用いて尤度計算を行う際に、まず、代表確率分布を用いて尤度計算を行い、次いで、高い尤度を与えた代表確率分布に属する要素確率分布を用いて尤度計算を行い、状態の尤度とする手順を示す図。この発明の実施形態による音声認識方法の他の例の処理手順を示す流れ図。図12に示した処理手順を実行する機能構成例を示すブロック図。この発明による統計モデル作成装置の機能構成例を示すブロック図。音響モデルの一部のメモリ内の格納例を示す図。従来の音声認識方法を解説した図。孤立単語認識用の文法の一例を示す図。定型分認識用の文法の一例を示す図。ディクテーション用の文法の一例を示す図。発音辞書の一例を示す図。音響モデルにおける状態の構造を示す図。音響モデルの全体構造を示す図。音素HMMの構造を示す図。男声および女声音響モデルを備える従来の音声認識方法の一例を示す図。男声および女声音響モデルを備える従来の音声認識方法の一例を示す図。

Claims

異なる統計的性質の情報源をそれぞれ学習データとして作られたトポロジーが同一で混合確率分布を異にする複数の統計モデル集合が格納された記憶装置から、
上記複数の統計モデル集合の対応する各状態Siを表現する混合確率分布を取り出し、
これら取り出した混合確率分布の集合から状態Siを表現する新たな混合確率分布を求めて、上記複数の統計モデル集合とトポロジーが同一の新たな統計モデルの集合を構築することを特徴とする統計モデル作成方法。
上記取り出して集合した混合確率分布中の分布間距離が近い複数の確率分布は統合して新たな確率分布として各状態の混合確率分布数を削減することを特徴とする請求項１記載の統計モデル作成方法。
上記新たな統計モデル集合の全ての状態に共通の一定の混合確率分布数を設定し、その値を目標として各状態の混合確率分布数を削減することを特徴とする請求項２記載の統計モデル作成方法。
上記新たな統計モデル集合の各状態において個別の混合確率分布数を設定し、その値を目標として各状態の混合確率分布数を削減することを特徴とする請求項２記載の統計モデル作成方法。
上記新たな統計モデル集合の全ての状態に共通の一定の分布間距離のしきい値を設定し、各状態における確率分布の分布間距離が上記しきい値以上になるように各状態の混合確率部分布数を削減することを特徴とする請求項２記載の統計モデル作成方法。
上記新たな統計モデル集合の各状態において個別の分布間距離のしきい値を設定し、各状態における確率分布の分布間距離がその状態のしきい値以上になるように各状態の混合確率分布数を削減することを特徴とする統計モデル作成方法。
異なる統計的性質の情報源をそれぞれ学習データとして作られたトポロジーが同一で混合確率分布を異にする複数の統計モデル集合が格納された複数のモデルメモリから、
それぞれ対応する各状態Siを表現する混合確率分布を取り出し、これら混合確率分布を集合して、状態Siを表現する新たな混合確率分布として、上記トポロジーと同一な新たな統計モデルの集合に対するメモリに格納する合成部を備えることを特徴とする統計モデル作成装置。
統計的性質の異なる複数の情報源からの信号を分析して特徴ベクトルの時系列を生成し、
この特徴ベクトル時系列に対し混合確率分布で表現された状態の尤度を計算し、その尤度を用いて、状態の確率連鎖である統計モデルの集合に対する尤度を計算し、
最も高い尤度を与える統計モデルが表現するカテゴリに上記入力信号を分類するパターン認識方法において、
上記統計モデルの集合として、上記統計的性質の異なる複数の情報源の各統計モデル集合を上記請求項１〜６のいずれかに記載した方法で作られた新たな統計モデル集合を用いることを特徴とするパターン認識方法。
請求項８記載のパターン認識方法において、上記特徴ベクトルの時系列に対して、上記各状態の尤度として、その状態に含まれる混合確率分布のうち、尤度の高い上位K個（Kはその混合確率分布の数より小さい値）の確率分布の尤度を加算した値を用いることを特徴とするパターン認識方法。
請求項８記載のパターン認識方法において、新たな統計モデル集合の各状態をその元になる各統計モデル集合の各状態を表現する混合確率分布の集合として表現する際に、元になる各統計モデル集合ごとに混合確率分布を統合して代表確率分布を作成しておき、情報源から生成された特徴ベクトルの時系列に対して、新たな統計モデル集合の尤度を計算する際に、予備選択として、まず、各状態に属する前記代表確率分布を用いて尤度を計算し、次いで、最も高い尤度を与える代表確率分布に属する混合確率分布を用いて尤度を計算し、その値を各状態の尤度とすることを特徴とするパターン認識方法。
請求項１〜６のいずれかにより作成された新たな統計モデルが格納されたモデルメモリと、
入力信号を分析して特徴ベクトルの時系列を生成する分析部と、
上記特徴ベクトルの時系列に対する上記モデルメモリ内の新たな各統計モデルの尤度を計算する尤度計算部と、
上記計算された尤度中の最高のものを決定し、その尤度を与えた統計モデルが表現するカテゴリを認識結果として出力する出力部と
を具備することを特徴とするパターン認識装置。
請求項１〜６のいずれかに記載した統計モデル作成方法の各過程をコンピュータに実行させるためのプログラム。
請求項７〜１０のいずれかに記載したパターン認識方法の各過程をコンピュータに実行させるためのプログラム。
請求項１２または１３に記載したプログラムを記録したコンピュータ読み取り可能な記録媒体。