JP4839555B2

JP4839555B2 - 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体

Info

Publication number: JP4839555B2
Application number: JP2001288294A
Authority: JP
Inventors: 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-09-21
Filing date: 2001-09-21
Publication date: 2011-12-21
Anticipated expiration: 2021-09-21
Also published as: JP2003099082A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体に関し、特に、音声認識装置において用いられる標準パタンを、あらかじめ準備された訓練データから学習する音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体に関する。
【０００２】
【従来の技術】
従来、この種の音声標準パタン学習装置および音声標準パタン学習プログラムを記録した記録媒体では、大量の訓練データを準備し、標準パタンを規定する種々の統計量の推定精度を可能な限り上げることによって、音声認識の精度を確保していた。
【０００３】
ここでいう標準パタンとは、単語や音節 (あ、か、さ、た、な、…)、音素 (a、i、u、…、k、s、t、…)などといった、発声を構成する基本単位の各々が持つ音響的特徴(パワー、ケプストラム等)の標準的な数値のセットを意味する。昨今は、隠れマルコフモデル(HMM)やニューラルネットワーク(神経回路網)等の統計的手法に基づく標準パタンがよく用いられている。なお、隠れマルコフモデルおよびニューラルネットワークの詳細に関しては、例えば「1990年、甘利俊一、音声・聴覚と神経回路網モデル、オーム社」を参照されたい。
【０００４】
一般に、音声認識の精度は訓練データの数量への依存度が高く、訓練データを大量に準備すればするほど、よりよい標準パタンを獲得でき、したがって音声認識の精度が向上する。しかしながら、大量の訓練データを準備することは、膨大な時間と労力を要する。
【０００５】
また、一般に標準パタンは、回線種別(音声を入力するために用いるマイクの特性の違い)、周囲の雑音状況、話者の年齢や性別等の要因の変化に対して敏感であり、これら要因の任意の組合せに対して最適な標準パタンを得ようとすると、さらに膨大な規模の訓練データが必要となる。したがって、十分な量の訓練データを準備することは事実上不可能である。逆にいえば、訓練データの準備に費すことのできる時間や労力が、個々の回線種別や雑音状況ごとに分散されるため、回線種別や雑音状況ごとの個々の訓練データ量は限られざるを得ない。
【０００６】
通常は、ある回線A(例えば携帯電話) を通して入力される音声を認識するための標準パタンを作成しようとした場合、同じ回線Aを通して収録されたある訓練データD1(A)のみを使用して学習を行う(こうして作られる標準パタンをSP(D1(A))と表すことにする)。なぜなら、Aとは異なる別の回線B(例えばヘッドセットマイク)を通して収録された訓練データD1(B)を使用して標準パタンSP(D1(B))を作っても、回線特性の違いのため、高い認識精度が得られないからである。仮にD1(A)とD1(B)を両方使用して学習を行い、標準パタンSP(D1(A),D1(B))を作ったとしても、見かけ上の訓練データ量は増えるが、標準パタンの認識精度は上がらない、もしくは下がるのが普通である。
【０００７】
しかし、もしも回線Bの訓練データD1(B)に対して適当な変換fを施して、回線Aを通した音声データに近い疑似的な訓練データD2(A)= f(D1(B))を作ることができれば、D1(A)とD2(A)を使用して学習された標準パタンSP(D1(A),D2(B))は、SP(D1(A))よりも認識精度の高い標準パタンであると期待される。
【０００８】
そこで、回線Bの訓練データを回線Aの訓練データに変換する写像fの実現方法が問題となる。ある程度正確な写像fが実現できれば、訓練データの規模を容易に増大することができる。
【０００９】
従来技術の中でもっとも単純な一例は、次のようなものである。回線Bを通して収録された音声データを適当なプレーヤ(再生器)によって再生する。再生された音声を、別に設置された回線Aを入力端末とするレコーダ(録音器)に入力し、収録する。すなわち、物理的に再収録することにより、回線Bを通して収録された音声データから回線Aを通して収録された音声データを通したデータを得ることが可能となる。
【００１０】
上記従来技術の一例よりも幾分効率的な別の一例は、いわゆる適応化の手法から容易に想到し得る、次のようなものである。
【００１１】
1.回線Aを通して収録された訓練データD1(A)および回線Bを通して収録さた訓練データD1(B)から、それぞれ標準パタンSP(D1(A)) およびSP(D1(B))を作成する。
2.標準パタンSP(D1(A))およびSP(D1(B))を用いて、それぞれの訓練データD1(A)およびD1(B)のアラインメントを計算する。すなわち、訓練データを各認識基本単位(音節、音素またはHMMの各状態等のさらに細かい単位)に分割する。アラインメントの計算にはヴィタビ (Viterbi)アルゴリズム等を用いる。ヴィタビアルゴリズムの詳細については、例えば文献「1995年、ラビナー他、音声認識の基礎(下)、NTTアドバンステクノロジ、125〜126頁」を参照されたい。
3.訓練データD1(A)およびD1(B)から切り出された認識基本単位の各々について、その特徴値の平均、分散等の統計量を算出する。
4.訓練データD1(A)とD1(B)との間で、それぞれの認識基本単位の統計量を比較し、訓練データD1(B)から訓練データD1(A)への変換を規定するパラメータを求める。例えば各々の平均の差を計算し、変換の際の移動量とする。
5.上記で得られた変換パラメータを用いて、訓練データD1(B) に変換を施す。
【００１２】
変換パラメータの決定には、変換後の訓練データと目標となる訓練データD1(A)との自乗誤差が最小となるように変換パラメータを推定する方法(平均自乗誤差最小化または MMSE。詳細については文献「1984年、ポーターとボル、オプティマル・エスティメーターズ・フォー・スペクトラル・リストレーション・オヴ・ノイジー・スピーチ、プロシーディングズ・オヴ・ジ・アイイーイーイー・インターナショナル・カンファレンス・オン・アクーステイックス・スピーチ・アンド・シグナル・プロセッシング、18.A.2.1〜4頁(Porter and Boll, "Optimal estimators for spectral restoration of noisy speech", Proceedings of the IEEE International Conference on Acoustics Speech and Signal Processing, pp.18.A.2.1--4, 1984)」参照)や、何らかの確率的なモデルを想定して、変換後の訓練データの出現確率が最大となるように変換パラメータを推定する方法(最尤線形回帰またはMLLR。詳細については文献「1995年、レゲッターとウッドランド、マキシマム・ライクリフッド・リニア・リグレッション・フォー・スピーカー・アダプテーション・オヴ・コンティニュアス・デンシティ・ヒドゥン・マルコフ・モデルズ、コンピュータ・スピーチ・アンド・ランゲージ、第9巻、171〜186頁(Leggetter and Woodland, "Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models", Computer Speech and Language, vol.9, pp. 171-186, 1995)」参照)等がある。
【００１３】
図４は、この従来技術の一例の機能的な構成を示すブロック図である。この例は、回線Aを通して収録された訓練データを格納するA1訓練データ記憶手段204と、回線Bを通して収録された訓練データを格納するB1訓練データ記憶手段206と、前記それぞれの訓練データの発声内容(発音記号列)を格納するA1発音記号記憶手段201およびB1発音記号記憶手段203と、前記それぞれの訓練データを用いてそれぞれに対応する標準パタンA1および標準パタンB1を作成する標準パタン作成手段202と、作成された標準パタンA1および標準パタンB1をそれぞれ格納するためのA1標準パタン記憶手段207およびB1標準パタン記憶手段208と、標準パタンを用いて訓練データのアラインメント(発声を構成する各音素の始端と終端の時刻)を求めるアラインメント作成手段205と、標準パタンA1と訓練データA1から求めたアラインメントを格納するA1アラインメント記憶手段209と、標準パタンB1と訓練データB1から求めたアラインメントを格納するアラインメントB1記憶手段211と、回線Aおよび回線Bの訓練データおよびアラインメントから回線AB間の変換を規定するパラメータを獲得する変換パラメータ学習手段210と、前記獲得されたパラメータを格納する変換パラメータ記憶手段212と、回線Bを通して収録された別の訓練データB2を格納するためのB2訓練データ記憶手段214と、標準パタンB1を用いて訓練データB2のアラインメントを求めた結果を格納するB2アラインメント記憶手段215と、前記変換パラメータ記憶手段212に格納された変換パラメータを読み込んで訓練データB2を回線Aの訓練データに変換する訓練データ変換手段213とを備える。
【００１４】
A1訓練データ記憶手段204およびB1訓練データ記憶手段206は、それぞれ回線Aおよび回線Bを通して収録された音声データ、あるいはそれらの音声データを分析して得られる特徴量(特徴量としては、例えば音声のパワー、ケプストラム等が通常の音声認識には用いられる)の時系列データを持つ。
【００１５】
標準パタン作成手段202は、A1訓練データ記憶手段204に格納された訓練データとA1発音記号記憶手段201に格納された発音記号列を用いて、回線Aに適した標準パタンを作成し、これをA1標準パタン記憶手段207に格納する。また同様に、B1訓練データ記憶手段206に格納された訓練データとB1発音記号記憶手段203に格納された発音記号列を用いて、回線Bに適した標準パタンを作成し、これをB1標準パタン記憶手段208に格納する。なおここでは、標準パタンとして、多くの音声認識装置がそうであるように、隠れマルコフモデル(HMM)を用いるとする。このとき、標準パタン作成手段202は、バウム・ウェルチ(Baum-Welch)アルゴリズムを実行するプログラムを組み込んだ計算機等により実現可能である。Baum-Welchアルゴリズムの詳細については、例えば上述の文献「1995年、ラビナー他、音声認識の基礎（下）、ＮＴＴアドバンステクノロジー、１２８〜１３５頁」を参照されたい。
【００１６】
アラインメント作成手段205は、A1標準パタン記憶手段207に格納された標準パタンとA1発音記号記憶手段201に格納された発音記号列を読み込み、A1訓練データ記憶手段204に格納された訓練データのアラインメントを計算する、すなわち訓練データの発声内容を構成する各認識単位(例えば音素)の開始フレームと終了フレームを推定し、A1アラインメント記憶手段209に出力する。また同様に、B1標準パタン記憶手段208に格納された標準パタンとB1発音記号記憶手段203に格納された発音記号列を読み込み、B1訓練データ記憶手段206に格納された訓練データのアラインメントを計算し、B1アラインメント記憶手段211に出力する。アラインメント作成手段205は、ヴィタビ(Viterbi)アルゴリズムを実行するプログラムを組み込んだ計算機等により実現可能である。Viterbiアルゴリズムの詳細についても、上述の文献「1988年、中川聖一、確率モデルによる音声認識、電子情報通信学会」を参照されたい。アラインメント作成手段205により求めたアラインメントと訓練データを突き合わせることにより、音声を構成する各音素の持つ特徴量の値を知ることができる。
【００１７】
変換パラメータ学習手段210は、A1アラインメント記憶手段209に格納されたアラインメント情報と、A1訓練データ記憶手段204に格納された訓練データを用いて、回線Aを経由した音声に含まれる各音素の各特徴量の統計量(平均値)を求める。また同様に、B1アラインメント記憶手段211に格納されたアラインメント情報と、B1訓練データ記憶手段206に格納された訓練データを用いて、回線Bを経由した音声に含まれる各音素の各特徴量の統計量(平均値)を求める。さらに変換パラメータ学習手段210は、回線Aと回線Bとで対応する音素を比較して、その特徴量の平均値の差分を計算する。そして、回線Aと回線Bにおける各音素の特徴量平均値の差分を、音素ごとに変換パラメータ記憶手段212に記録する。図5は、この手続きの概要を示す模式図である。矢印で示す音素間の差分が、変換パラメータ記憶手段212に格納される。
【００１８】
B2訓練データ記憶手段214は、回線Bを通して収録された新たな音声データ、あるいはそれらの音声データを分析して得られる特徴量の時系列データを持つ。B2訓練データ記憶手段214に格納された訓練データは、B1標準パタン記憶手段208に格納された標準パタンを用いてアラインメント作成手段205によって処理され、アラインメントが計算される。得られたアラインメント情報はB2アラインメント記憶手段215に格納される。
【００１９】
訓練データ変換手段213は、B2訓練データ記憶手段214に格納された訓練データとB2アラインメント記憶手段215に格納されたアラインメント情報を用いて、変換パラメータ記憶手段212に格納された変換パラメータに基づいて、回線Bを通して収録された訓練データを、回線Aを経由したかのようなデータに変換し、標準パタン作成手段202に渡す。訓練データ変換手段213が、回線Bを経由して収録された訓練データを変換する方法は、以下の手続きによる:
【００２０】
1.訓練データのあるフレーム(時刻)に着目し、B2アラインメント記憶手段215に格納されたアラインメント情報から、そのフレームがどの音素に属するかを調べる。
2.そのフレームが属する音素を変換パラメータ記憶手段212から検索し、その音素に関する特徴量の回線A-B間の差分を調べる。
3.得られた差分値を着目するフレームの特徴量に加算する。
【００２１】
標準パタン作成手段202は、訓練データ変換手段213によって変換された訓練データ(回線Bを経由した音声を、回線Aを経由したかのように変換したデータ)と、A1訓練データ記憶手段204に格納された(回線Aを経由したすでにあるデータ)とを合わせた訓練データと、A1発音記号記憶手段201とB2発音記号記憶手段216に格納されたそれぞれの発音記号列を用いて、標準パタンを作成する。結果として、見かけ上の訓練データの規模が増えるため、回線Aを経由したすでにあるデータのみを用いて標準パタンを作成するよりも、認識精度の高い標準パタンが作成できる。
【００２２】
なお、変換パラメータ学習手段210において、より高精度の変換を実現するために、音素ごとの統計量(特徴量の平均値)を計算する代わりに、より詳細な単位で統計量を計算し変換パラメータ記憶手段212に格納する方法もある。より詳細な単位とは、各音素の隠れマルコフモデル(HMM)の状態、さらには各状態のガウシアン確率密度分布である。
【００２３】
【発明が解決しようとする課題】
上述した従来の技術の第一の例は、明らかに非効率的である。標準パタンの学習に使用する全音声データを再生した場合、通常数10時間から数100時間という膨大な時間を要するため、多くの種類の回線に対応した多種類の訓練データを獲得することは現実問題として難しい。また、回線 B の訓練データを回線 Aに通して収録した音声データと、肉声を直接回線 A に入力して収録した音声データとでは、厳密には帯域特性が異なるため、所望の訓練データ、すなわち、肉声を回線Aに入力すると得られるであろう音声が得られる保証はない。
【００２４】
一方、従来技術の第二の例は、従来技術の第一の例に比べれば現実的である。しかし、回線Aの訓練データと回線Bの訓練データそれぞれに対して標準パタンを作成し、これらを用いてアラインメントを計算するという一連の手続きが必要であるため、写像される前の、回線Bの訓練データの規模が小さい場合には、回線Bの訓練データから作成した標準パタンの精度が低下する。そのため、このような場合に回線Aへの変換を行うと、変換精度が低下するという問題があった。また、逆に、訓練データの規模が大きい場合には、大量のデータを有効に利用してより高精度の変換を実現することが困難であった。つまり、訓練データの多寡に対するスケーラビリティが低かった。
【００２５】
仮に、標準パタンの作成のために意図的に複数回線を使用して同時並列収録された訓練データ、すなわち回線Aと回線Bで時刻の同期が取れた訓練データの組が使用可能である場合には、回線Bに関する標準パタン作成とアラインメント作成の手続きを省略することができる、つまり、回線Bのアラインメント情報は回線Aのアラインメント作成結果で代用できる。しかしそれでも、回線Aに関する標準パタン作成とアラインメント作成の手続きを高精度に行うためには、相応規模の回線Aの訓練データが必要である。
【００２６】
まして、近年の音声標準パタンでは、三つ組音素単位(トライフォン)のような環境依存認識単位、すなわち、ある音素の前後にどの音素が連接するかによって別個の音素モデルを準備する、大規模モデルを用いるアプローチが主流となっている。このような大規模モデルの標準パタンを作成するためには、膨大な規模の訓練データが必須である。
【００２７】
もちろん、訓練データ規模の不足を克服して、大規模モデルの標準パタンを頑健に推定しようとする方法も存在する。逐次状態分割法(Successive State Splitting、SSS)や木構造ベースクラスタリング(Tree-Based Clustering、TBC)は、異なる音素間で、似た特性を持つ状態を共通化すること(状態の結び)により、標準パタン全体の自由度(モデルパラメータ数)を落とし、訓練データ規模の不足を補う方法である。しかし、これらの方法は、最初に十分に多くの状態の結びを有する、頑健だが精度の低いモデル(例えば単一音素単位、モノフォン)から始めて、局所的なしきい値判断を順次くり返すことにより所望の規模のモデルを構成する方法であるが、始まりの低精度モデルの段階で適切でない結びが採用されやすく、最終的なモデルの最適性が損なわれることがある。
【００２８】
また、逐次的かつ局所的なしきい値判定に基づく処理のため、たとえ始まりの段階で誤った結びを回避できたとしても、最終的に最適性の高いモデルが選択される保証はない。このようにモデルの最適化が難しいことは、すなわち回線Bから回線Aへの訓練データの高精度変換が難しいことを意味する。
【００２９】
そこで、本発明の目的は、認識対象回線の訓練データの実質総量を増やすことができ、認識性能の高い標準パタンを得ることのできる音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体を提供することにある。
【００３０】
本発明のより具体的な目的は、ある回線に適した音声認識のための標準パタンを作成する際に、該当回線を経由した音声訓練データだけでなく、種類の異なる別回線を経由した音声訓練データをも使用して、なおかつ、この別回線を経由した訓練データを、その数量の大小に関わらず安定かつ高精度に、認識対象回線の訓練データに近くなるように変換し、認識対象回線の訓練データの実質総量を増やすことにより、認識性能の高い標準パタンを得ることのできる音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体を提供することである。
【００３１】
【課題を解決するための手段】
上述した目的を達成するために、本発明による音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体は、変換パラメータ学習の前段階において標準パタン作成とアラインメント作成の手続きを行わず、また変換パラメータ学習手段において音素単位の統計量算出を行わず、音素単位の種類や数に依存しない任意混合数の混合正規分布確率密度間の線形変換として変換パラメータを訓練データから直接推定する。変換パラメータ学習手段で使用する訓練データには、複数回線を使用して同時並列収録された訓練データ、すなわち回線Aと回線Bで時刻の同期が取れた訓練データの組を使用する。
【００３２】
より具体的には、本発明による音声標準パタン学習装置、方法および音声標準パタン学習プログラムは、次のような特徴的な構成を採用している。
【００３３】
（１）ある回線Aを経由して収録された音声訓練データを格納する訓練データ記憶手段Aと、
これとは別の回線Bを経由して前記音声訓練データと同時並列で収録された音声訓練データを格納する訓練データ記憶手段Bと、
前記2種の訓練データの対応する時刻での値に対し、前記回線Ａの音声の発生と前記回線Ｂの音声の発生の背後に共通する潜在変数を仮定し、この共通の潜在変数の別々の変換によって前記回線Aおよび前記回線Bの音声が発生すると仮定した場合のそれぞれの変換パラメータを推定し、これを回線Aの訓練データと回線Bの訓練データとの間の相関関係を規定するパラメータとする変換パラメータ学習手段と、
前記変換パラメータ学習手段が推定したパラメータを格納する変換パラメータ記憶手段と、
前記訓練データ記憶手段Aに格納された訓練データの発声内容の発音記号列を格納する発音記号記憶手段Aと、
前記回線Bを経由してはいるが、前記訓練データ記憶手段Bに格納された訓練データとは別の訓練データを格納する訓練データ記憶手段B'と、
前記訓練データ記憶手段B'に格納された訓練データの発生内容の発音記号列を格納する発音記号記憶手段B'と、
前記変換パラメータ記憶手段に格納されたパラメータを用いて前記訓練データ記憶手段B'に格納された訓練データを回線Aの分布に近づける変換を施す訓練データ変換手段と、
前記訓練データ変換手段によって変換された訓練データと前記訓練データ記憶手段Aに格納された訓練データを用い、かつ発音記号記憶手段Aおよび発音記号記憶手段B'にそれぞれ格納された発音記号列を用い、回線Aの音声を認識するための音声標準パタンを作成し出力する標準パタン作成手段と、を備える
ことを特徴とする音声標準パタン学習装置。
【００３４】
（２）前記変換パラメータ学習手段が、音素等のような認識で使用する小単位に訓練データを分割するアラインメント作成の手続きを行わず、前記回線Aの訓練データと回線Bの訓練データの時刻ごとの値の対応関係のみから回線Aおよび回線Bとの相関関係を規定するパラメータを推定する上記（１）の音声標準パタン学習装置。
【００３５】
（３）前記変換パラメータ学習手段がパラメータを推定する際に、あらかじめパラメータ数を訓練データの数量に応じて調整するための別パラメータを備える上記（１）の音声標準パタン学習装置。
【００３６】
（４）前記変換パラメータ学習手段が、前記共通する潜在変数として回線Ａの音声の発生と回線Ｂの音声の発生の背後に共通する標準正規分布に従う潜在変数を仮定し、
前記変換パラメータとして、前記共通の潜在変数の別々のアフィン変換によって回線Aおよび回線Bの音声が発生すると仮定した場合のそれぞれのアフィン変換パラメータを推定する
ことを特徴とする上記（２）または（３）に記載の音声標準パタン学習装置。
【００３７】
（５）前記訓練データ変換手段が、回線Bを経由した音声の訓練データの各時刻ごとの値を用いて、混合正規分布の最大化問題を解くことにより回線Bの訓練データを回線Aの訓練データへ変換する上記（１）の音声標準パタン学習装置。
【００３８】
（６）第１と第２の回線を介して収録され、時刻の同期が取れた同一音声データについての時系列データを第１の訓練データの組とし、
前記組を構成する２つの第１の訓練データに対して前記第1の回線の音声の発生と前記第2の回線の音声の発生の背後に共通する潜在変数を仮定し、この共通の潜在変数の別々の変換によって前記第1の回線および前記第2の回線の音声が発生すると仮定した場合のそれぞれの変換パラメータを推定し、これを前記組を構成する２つの第１の訓練データ間の関係を規定する変換パラメータとして求め、
前記第２の回線を介して収録され、他の訓練データとの時刻同期を要求されない第２の訓練データを、前記変換パラメータに基づいて変換して第２の訓練データとし、
前記第１の訓練データ、第２の訓練データ、前記第１と第２の回線を介して収録された音声データの発声内容(発音記号列)を用いて学習することにより標準パタンを作成し出力する
ことを特徴とする音声標準パタン学習方法。
【００４０】
（７）前記標準パタンは、隠れマルコフモデル(HMM)を用いている
ことを特徴とする請求項６に記載の音声標準パタン学習方法。
【００４１】
（８）コンピュータ上で動作する音声標準パタン学習プログラムを記録した記録媒体において、ある回線Aを通して収録された音声の訓練データと、これとは異なる別の回線Bを通して前記訓練データと同時並列で収録された訓練データと、に対し、前記回線Ａの音声の発生と前記回線Ｂの音声の発生の背後に共通する潜在変数を仮定し、この共通の潜在変数の別々の変換によって前記回線Aおよび前記回線Bの音声が発生すると仮定した場合のそれぞれの変換パラメータを推定し、これを回線Aの訓練データと回線Bの訓練データとの間の相関関係を規定するパラメータとするステップと、
このステップで得られたパラメータを用いて、回線Bの訓練データを回線Aの音声の分布に近づける変換を行うステップと、
回線Aを通して収録された訓練データおよび回線Bを通して収録された訓練データに前記変換を施した訓練データとを併せて訓練データとして用いて、回線Aの音声を認識するための音声標準パタンを作成し出力するステップと、を備える
ことを特徴とする、コンピュータ上で動作する音声標準パタン学習プログラムを記録した記録媒体。
【００４２】
（９）第１と第２の回線を介して収録され、時刻の同期が取れた同一音声データについての時系列データを第１の訓練データの組とし、前記組を構成する２つの第１の訓練データに対して前記第1の回線の音声の発生と前記第2の回線の音声の発生の背後に共通する潜在変数を仮定し、この共通の潜在変数の別々の変換によって前記第1の回線および前記第2の回線の音声が発生すると仮定した場合のそれぞれの変換パラメータを推定し、これを前記組を構成する２つの第１の訓練データ間の関係を規定する変換パラメータとして求めるステップと、
前記第２の回線を介して収録され、他の訓練データとの時刻同期を要求されない第２の訓練データを、前記変換パラメータに基づいて変換して第２の訓練データとし、前記第１の訓練データ、第２の訓練データ、前記第１と第２の回線を介して収録された音声データの発声内容(発音記号列)を用いて学習することにより標準パタンを作成するステップと、を処理するプログラムが格納されている記録媒体。
【００４３】
【実施の形態】
次に、本発明の第一の実施の形態について、図面を参照して詳細に説明する。
【００４４】
図1は、本発明の実施の形態の第一の例を示すブロック図である。この実施例は、回線Aを通して収録された訓練データを格納するA1訓練データ記憶手段101と、回線Bを通して収録された訓練データを格納するB1訓練データ記憶手段103と、回線Aおよび回線Bの訓練データから回線AB間の変換を規定するパラメータを獲得する変換パラメータ学習手段102と、前記獲得されたパラメータを格納する変換パラメータ記憶手段104と、回線Bを通して収録された別の訓練データを格納するためのB2訓練データ記憶手段106と、前記変換パラメータ記憶手段104に格納された変換パラメータを読み込んで、前記B2訓練データ記憶手段106に格納された訓練データを、回線Aを経由したかのように変換する訓練データ変換手段105と、前記A1訓練データ記憶手段101に格納された訓練データの発声内容(発音記号列)を格納するA1発音記号記憶手段107と、前記B2訓練データ記憶手段106に格納された訓練データの発声内容(発音記号列)を格納するB2発音記号記憶手段109と、前記訓練データ変換手段105とA1訓練データ記憶手段101から訓練データを受け取り、また前記A1発音記号記憶手段とB2発音記号記憶手段109から訓練データの発声内容(発音記号列)を受け取り、標準パタンを作成する標準パタン作成手段108とを備える。各々の手段はそれぞれ計算機上に記憶されたプログラムとして動作させることにより実現可能である。
【００４５】
以下、本実施の形態による本発明の動作について順を追って説明する。
A1訓練データ記憶手段101およびB1訓練データ記憶手段103は、それぞれ回線Aおよび回線Bを通して収録された音声データ、あるいはそれらの音声データを分析して得られる特徴ベクトル(特徴量としては、例えば音声のパワー、ピッチ、ケプストラム等が通常の音声認識には用いられる)の時系列データを持つ。なお、これらの訓練データは複数回線を使用して同時並列収録された訓練データ、すなわち回線Aと回線Bで時刻の同期が取れた訓練データの組であるとする。また、これら2種の訓練データを以降ではそれぞれD1(A)、D1(B)と呼ぶことにする。
【００４６】
B2訓練データ記憶手段105は、回線Bを通して収録された音声データ、あるいはそれらの音声データを分析して得られる特徴量の時系列データを持つ。この訓練データをD2(B)と呼ぶ。D2(B)は、他のいかなる訓練データとも時刻の同期が取れている必要はなく。回線Bを経由した音声の訓練データを任意に追加したり変更したりして用いることができる。
【００４７】
変換パラメータ学習手段102は、A1訓練データ記憶手段101およびB1訓練データ記憶手段103にそれぞれ格納された訓練データD1(A)およびD1(B)の、一対一対応した各フレームの特徴ベクトルの対から、D1(A)とD1(B)の間の関係を統計的に規定するパラメータを最尤推定により求め、得られたパラメータ値を変換パラメータ記憶手段104に格納する。
【００４８】
パラメータの内容とパラメータの推定方法については後述する。
訓練データ変換手段105は、変換パラメータ記憶手段104に格納されたパラメータを読み込み、このパラメータを使ってB2訓練データ記憶手段に格納された回線Bの訓練データを、所定の確率の最大化に基づき変換し、標準パタン作成手段108に渡す。変換方法の詳細については後述する。
【００４９】
標準パタン作成手段108は、回線Aを経由した訓練データD1(A)をA1訓練データ記憶手段101から受け取り、また回線Bを経由した訓練データD2(B)を変換した結果得られる訓練データを訓練データ変換手段105から受け取り、さらにD1(A)およびD2(B)の発声内容(発音記号列)をそれぞれA1発音記号記憶手段107およびB2発音記号記憶手段109から受け取り、学習を行うことによって標準パタンを作成し出力する。なおここでは、標準パタンとして、多くの音声認識装置がそうであるように、隠れマルコフモデル(HMM)を用いるとする。このとき、標準パタン作成手段108は、バウム・ウェルチ(Baum-Welch)アルゴリズムを実行するプログラムを組み込んだ計算機等により実現可能である。Baum-Welchアルゴリズムの詳細については、例えば上述の文献「1988年、中川聖一、確率モデルによる音声認識、電子情報通信学会」を参照されたい。
【００５０】
以下、変換パラメータ学習手段102および訓練データ変換手段105の動作について詳細に説明する。
【００５１】
変換パラメータ学習手段102は、A1訓練データ記憶手段101およびB1訓練データ記憶手段103に格納された回線Ａ、Bそれぞれの訓練データD1(A)、D1(B)から、回線Aと回線Bの関係を規定するパラメータを推定する。D1(A)およびD1(B)には以下のような特徴ベクトルの時系列情報が含まれる:
D1(A): x₁ ^(A), x₂ ^(A), …, x_T ^(A)
D1(B): x₁ ^(B), x₂ ^(B), …, x_T ^(B)
【００５２】
ここに、x_t ^(A)、x_t ^(B)はそれぞれ回線A、Bの1フレームの特徴ベクトル(次元数pとする)を表す。特徴ベクトルとは、音声認識に用いられるいくつかの特徴量(例えばパワーやケプストラム、またその時間微分など)を要素に持つベクトルである。D1(A)とD1(B)にはそれぞれTフレーム分の特徴ベクトルが含まれているとする。D1(A)およびD1(B)それぞれに含まれる特徴ベクトルは、任意個の異なる発声内容、発声回数、発話者のものが混在していてもよい(それらすべての特徴ベクトルフレームの総数をTとする)。ただしD1(A)とD1(B)の間ではそれらは一致しており、すべてのフレームがD1(A)とD1(B)の間で一対一対応しているとする。D1(A)とD1(B)としては、同一の発声を複数の回線から同時並列収録したデータが適当である。
【００５３】
変換パラメータ学習手段102は、特徴ベクトル時系列x_t ^(A)、x_t ^(B) (t=1,2,…,T) から以下のパラメータを推定する: W_m ^(A)、W_m ^(B)、μ_m ^(A)、μ_m ^(B)、c_m、Ψ^(A)、Ψ^(B) (m=1,2,…,M)。これらのパラメータの意味について説明する。特徴ベクトル時系列x_t ^(A)、x_t ^(B)は、共通の架空の確率変数(潜在変数)z(q次元ベクトル)から、次式（1）に従って発生すると考える。ただしW_m ^(A)、W_m ^(B)はp×q行列、μ_m ^(A)、μ_m ^(B)、v^(A)、v^(B)はp次元ベクトルである。
【数１】

潜在変数zは混合数Mの混合標準正規分布に従うと仮定する（式（２））。
【数２】

【００５４】
ただし、ここに、N_x(μ,Σ)は平均μ、分散Σの正規分布の確率密度関数(添字xは確率変数名)を表す。また、mは混合正規分布の各要素(単一正規分布)のインデクスを表す。式（1）においてはmもまた1からMまでの整数値を取る確率変数であり、多項分布(c₁, c₂, …, c_M)に従うとする(c₁+c₂+…+c_M=1)。またv^(A)、v^(B)はそれぞれ分散Ψ^(A)、Ψ^(B)の正規分布に従うノイズ(平均0)である（式（３））。ただしΨ^(A)、Ψ^(B)は対角行列(無相関ノイズ)とする。
【数３】

【００５５】
図２は、変換パラメータ学習手段102が推定するパラメータと訓練データとの因果関係を表す模式図で、四角枠で囲われた変数が推定される変換パラメータ、それ以外が確率変数(訓練データと潜在変数)である。訓練データx_t ^(A)および x_t ^(B)はM混合の正規分布に従う。変換パラメータ学習手段102は訓練データD1(A): x₁ ^(A), x₂ ^(A), …, x_T ^(A)およびD1(B): x₁ ^(B), x₂ ^(B), …, x_T ^(B)からパラメータW_m ^(A)、W_m ^(B)、μ_m ^(A)、μ_m ^(B)、c_m、Ψ^(A)、Ψ^(B)(m=1,2,…,M) を最尤推定に基づいて求める。
【００５６】
変換パラメータ学習手段102がパラメータを推定する手続きを以下に示す。なお、表記の簡単化のため次の変数を用いている（式（4））。
【数４】

【００５７】
1.パラメータに乱数などを用いて初期値を与える。
2.現在得られているパラメータ値を使って、h_tm(t=1,2,…,T、m=1,2,…,M)を式（5）によって計算する。
【数５】

3.現在得られているパラメータ値を使って、E_tm ⁽¹⁾、E_tm ⁽²⁾(t=1,2,…,T、m=1,2,…,M) を式（6）によって計算する。なお、Iはq次元単位行列である。
【数６】

4.h_tm、E_tm ⁽¹⁾、E_tm ⁽²⁾を使って、新しいパラメータ値を式（7）によって計算する。
【数７】

5.2に戻る。所定の回数をくり返したら終了する。
【００５８】
上記手続き中に示した推定式は、上述した式（1）〜式（3）の仮定と最尤推定基準から導出されるものである。
【００５９】
なお、推定すべきパラメータの総数は(2pq+2p+1)M+2p であるが、Mとqは自由に決めることができる(ただしq≦pでなければならない)。すなわち、訓練データが十分にある場合はMとqを大きく設定し、逆に訓練データが少ない場合は小さく設定するというように、訓練データの多寡に応じてパラメータ総数を調整することができる。
【００６０】
変換パラメータ学習手段102は、上記手続きによって推定されたパラメータW_m ^(A)、W_m ^(B)、μ_m ^(A)、μ_m ^(B)、c_m、Ψ^(A)、Ψ^(B) (m=1,2,…,M) を変換パラメータ記憶手段104に格納する。
【００６１】
B2訓練データ記憶手段106は、回線Bを通して収録された音声データ、あるいはそれらの音声データを分析して得られる特徴ベクトルの時系列データを持つ。このデータを訓練データD2(B)と呼ぶ。D2(B)は回線Bを通して収録されたデータであればどのようなものを用いてもよい。データ数量も任意である。ここでは、D2(B)に含まれる特長ベクトルのフレーム総数をT’とし、特徴ベクトルを
x’_t ^(B) (t=1,2,…,T’)とする。
D2(B): x’₁ ^(B), x’₂ ^(B), …, x’_T _’ ^(B)
【００６２】
B2発音記号記憶手段109は、D2(B)に含まれるすべての訓練データの発声内容(発音記号列)を持つ。また、A1発音記号記憶手段107は、D1(A)に含まれるすべての訓練データの発声内容(発音記号列)を持つ。
【００６３】
訓練データ変換手段105は、変換パラメータ記憶手段104に格納された変換パラメータW_m ^(A)、W_m ^(B)、μ_m ^(A)、μ_m ^(B)、c_m、Ψ^(A)、Ψ^(B) (m=1,2,…,M)を読み込み、B2訓練データ記憶手段106に格納された訓練データD2(B)を、回線Aを経由した音声の分布に近くなるようにx’_t ^(B)→x’_t ^(A)と変換し、標準パタン作成手段108に渡す。この際の変換方法を以下の式（8）に示す。
【数８】

【００６４】
ここに、argmax xは引数の値が最大となったときのxの値を返す関数である。上記計算を訓練データのすべての特徴ベクトルフレーム(x’₁ ^(B),x’₂ ^(B), …, x’_T _’ ^(B))に対して行い、結果を標準パタン作成手段108に渡す。
【００６５】
標準パタン作成手段108は、A1訓練データ記憶手段101に格納された訓練データD1(A)と、A1発音記号記憶手段107に格納された発音記号列と、訓練データ変換手段105によって、訓練データD2(B)から変換された訓練データと、B2発音記号記憶手段109に格納された発音記号列を受け取り、回線Aの音声を認識するための標準パタンを作成して出力する。ここでは、標準パタンとして、多くの音声認識装置がそうであるように、隠れマルコフモデル(HMM)を用いるとすると、標準パタン作成手段108は、バウム・ウェルチ(Baum-Welch)アルゴリズムを実行するプログラムを組み込んだ計算機等により実現可能である。Baum-Welchアルゴリズムの詳細については、例えば上述の文献「1988年、中川聖一、確率モデルによる音声認識、電子情報通信学会」を参照されたい。
【００６６】
次に、本発明の第２の実施の形態について図面を参照して説明する。
【００６７】
図3を参照すると、本発明の第２の実施の形態は、音声標準パタン学習プログラムを記録した記録媒体308を備える。この記録媒体308はCD-ROM、磁気ディスク、半導体メモリその他の記録媒体であってよく、ネットワークを介して流通する場合も含む。
【００６８】
音声標準パタン学習プログラムは記憶媒体308からデータ処理装置305に読み込まれ、データ処理装置305の動作を制御する。データ処理装置305は音声標準パタン学習プログラムの制御により、A1訓練データ記憶手段301およびB1訓練データ記憶手段303にそれぞれ格納された回線Aおよび回線Bを通して収録された訓練データから回線Aのデータと回線Bとの間の特性の変換関係を規定するパラメータを推定して変換パラメータ記憶手段306に格納し、また、A1訓練データ記憶手段301およびB2訓練データ記憶手段304に格納された訓練データと、A1発音記号記憶手段302およびB2発音記号記憶手段307に格納された訓練データの発声内容(発音記号列)を読み込んで、さらにはB2訓練データ記憶手段304から受け取った回線Bの訓練データを回線Aのデータ分布に近くなるように変換した上で、訓練データから回線Aの音声を認識するための音声標準パタンを作成して出力する。
【００６９】
本実施の形態の実施例としては、データ処理装置305は音声標準パタン学習プログラムの制御により、第一の実施の形態における変換パラメータ学習手段102、訓練データ変換手段105および標準パタン作成手段108による処理と同一の処理を実行して、学習された音声標準パタンを出力する。
【００７０】
【発明の効果】
以上説明したように、本発明によれば、回線Aを経由する音声を認識するための音声認識の標準パタンを作成する問題に関して、回線Aを通して収録された音声訓練データの数量が不十分であり、回線Aとは異なる別回線Bを通して収録された音声訓練データを、回線Aに近づくように変換した上で併せて利用して学習を行おうとする場合、両回線の訓練データの対応する特徴ベクトル対が共通の媒介変数の異なる線形変換の結果としてそれぞれ発生するという仮定の下で、訓練データ間の対応関係を任意混合数を持つ2つの混合正規分布間の対応関係として求めること、および、混合数および媒介変数の次元数を自由に調整することにより、訓練データ数量の大小に応じて変換の精度および汎化性を最適に保つことが可能となる。結果として、より認識精度の高い音声標準パタンの作成が可能となる。
【図面の簡単な説明】
【図１】本発明の一実施形態例の機能的な構成を表したブロック図である。
【図２】本発明の実施形態におけるパラメータと訓練データとの因果関係を表す模式図である。
【図３】本発明の他の実施形態の機能的な構成を表したブロック図である。
【図４】従来技術の一例の機能的な構成を表したブロック図である。
【図５】従来技術の一実施例の訓練データ変換方法の模式図である。
【符号の説明】
101 A1訓練データ記憶手段
102 変換パラメータ学習手段
103 B1訓練データ記憶手段
104 変換パラメータ記憶手段
105 訓練データ変換手段
106 B2訓練データ記憶手段
107 A1発音記号記憶手段
108 標準パタン作成手段
109 B2発音記号記憶手段
201 A1発音記号記憶手段
202 標準パタン作成手段
203 B1発音記号記憶手段
204 A1訓練データ記憶手段
205 アラインメント作成手段
206 B1訓練データ記憶手段
207 A1標準パタン記憶手段
208 B1標準パタン記憶手段
209 A1アラインメント記憶手段
210 変換パラメータ学習手段
211 B1アラインメント記憶手段
212 変換パラメータ記憶手段
213 訓練データ変換手段
214 B2訓練データ記憶手段
215 B2アラインメント記憶手段
216 B2発音記号記憶手段
301 A1訓練データ記憶手段
302 A1発音記号記憶手段
303 B1訓練データ記憶手段
304 B2訓練データ記憶手段
305 データ処理装置
306 変換パラメータ記憶手段
307 B2発音記号記憶手段
308 記憶媒体

Claims

ある回線Aを経由して収録された音声訓練データを格納する訓練データ記憶手段Aと、
これとは別の回線Bを経由して前記音声訓練データと同時並列で収録された音声訓練データを格納する訓練データ記憶手段Bと、
前記2種の訓練データの対応する時刻での値に対し、前記回線Ａの音声の発生と前記回線Ｂの音声の発生の背後に共通する潜在変数を仮定し、この共通の潜在変数の別々の変換によって前記回線Aおよび前記回線Bの音声が発生すると仮定した場合のそれぞれの変換パラメータを推定し、これを回線Aの訓練データと回線Bの訓練データとの間の相関関係を規定するパラメータとする変換パラメータ学習手段と、
前記変換パラメータ学習手段が推定したパラメータを格納する変換パラメータ記憶手段と、
前記訓練データ記憶手段Aに格納された訓練データの発声内容の発音記号列を格納する発音記号記憶手段Aと、
前記回線Bを経由してはいるが、前記訓練データ記憶手段Bに格納された訓練データとは別の訓練データを格納する訓練データ記憶手段B'と、
前記訓練データ記憶手段B'に格納された訓練データの発生内容の発音記号列を格納する発音記号記憶手段B'と、
前記変換パラメータ記憶手段に格納されたパラメータを用いて前記訓練データ記憶手段B'に格納された訓練データを回線Aの分布に近づける変換を施す訓練データ変換手段と、
前記訓練データ変換手段によって変換された訓練データと前記訓練データ記憶手段Aに格納された訓練データを用い、かつ発音記号記憶手段Aおよび発音記号記憶手段B'にそれぞれ格納された発音記号列を用い、回線Aの音声を認識するための音声標準パタンを作成し出力する標準パタン作成手段と、を備える
ことを特徴とする音声標準パタン学習装置。
前記変換パラメータ学習手段が、音素等のような認識で使用する小単位に訓練データを分割するアラインメント作成の手続きを行わず、前記回線Aの訓練データと回線Bの訓練データの時刻ごとの値の対応関係のみから回線Aおよび回線Bとの相関関係を規定するパラメータを推定する
ことを特徴とする請求項１に記載の音声標準パタン学習装置。
前記変換パラメータ学習手段がパラメータを推定する際に、あらかじめパラメータ数を訓練データの数量に応じて調整するための別パラメータを備える
ことを特徴とする請求項１に記載の音声標準パタン学習装置。
前記変換パラメータ学習手段が、前記共通する潜在変数として回線Ａの音声の発生と回線Ｂの音声の発生の背後に共通する標準正規分布に従う潜在変数を仮定し、
前記変換パラメータとして、前記共通の潜在変数の別々のアフィン変換によって回線Aおよび回線Bの音声が発生すると仮定した場合のそれぞれのアフィン変換パラメータを推定する
ことを特徴とする請求項2または請求項３に記載の音声標準パタン学習装置。
前記訓練データ変換手段が、回線Bを経由した音声の訓練データの各時刻ごとの値を用いて、混合正規分布の最大化問題を解くことにより回線Bの訓練データを回線Aの訓練データへ変換する
ことを特徴とする請求項１に記載の音声標準パタン学習装置。
第１と第２の回線を介して収録され、時刻の同期が取れた同一音声データについての時系列データを第１の訓練データの組とし、
前記組を構成する２つの第１の訓練データに対して前記第1の回線の音声の発生と前記第2の回線の音声の発生の背後に共通する潜在変数を仮定し、この共通の潜在変数の別々の変換によって前記第1の回線および前記第2の回線の音声が発生すると仮定した場合のそれぞれの変換パラメータを推定し、これを前記組を構成する２つの第１の訓練データ間の関係を規定する変換パラメータとして求め、
前記第２の回線を介して収録され、他の訓練データとの時刻同期を要求されない第２の訓練データを、前記変換パラメータに基づいて変換して第２の訓練データとし、
前記第１の訓練データ、第２の訓練データ、前記第１と第２の回線を介して収録された音声データの発声内容(発音記号列)を用いて学習することにより標準パタンを作成し出力する
ことを特徴とする音声標準パタン学習方法。
前記標準パタンは、隠れマルコフモデル(HMM)を用いている
ことを特徴とする請求項６に記載の音声標準パタン学習方法。
コンピュータ上で動作する音声標準パタン学習プログラムを記録した記録媒体において、ある回線Aを通して収録された音声の訓練データと、これとは異なる別の回線Bを通して前記訓練データと同時並列で収録された訓練データと、に対し、前記回線Ａの音声の発生と前記回線Ｂの音声の発生の背後に共通する潜在変数を仮定し、この共通の潜在変数の別々の変換によって前記回線Aおよび前記回線Bの音声が発生すると仮定した場合のそれぞれの変換パラメータを推定し、これを回線Aの訓練データと回線Bの訓練データとの間の相関関係を規定するパラメータとするステップと、
このステップで得られたパラメータを用いて、回線Bの訓練データを回線Aの音声の分布に近づける変換を行うステップと、
回線Aを通して収録された訓練データおよび回線Bを通して収録された訓練データに前記変換を施した訓練データとを併せて訓練データとして用いて、回線Aの音声を認識するための音声標準パタンを作成し出力するステップと、を備える
ことを特徴とする、コンピュータ上で動作する音声標準パタン学習プログラムを記録した記録媒体。
第１と第２の回線を介して収録され、時刻の同期が取れた同一音声データについての時系列データを第１の訓練データの組とし、前記組を構成する２つの第１の訓練データに対して前記第1の回線の音声の発生と前記第2の回線の音声の発生の背後に共通する潜在変数を仮定し、この共通の潜在変数の別々の変換によって前記第1の回線および前記第2の回線の音声が発生すると仮定した場合のそれぞれの変換パラメータを推定し、これを前記組を構成する２つの第１の訓練データ間の関係を規定する変換パラメータとして求めるステップと、
前記第２の回線を介して収録され、他の訓練データとの時刻同期を要求されない第２の訓練データを、前記変換パラメータに基づいて変換して第２の訓練データとし、前記第１の訓練データ、第２の訓練データ、前記第１と第２の回線を介して収録された音声データの発声内容(発音記号列)を用いて学習することにより標準パタンを作成するステップと、を処理するプログラムが格納されている記録媒体。