JP2691109B2

JP2691109B2 - 非ユーザ基準データから生成される話者依存的プロトタイプを有する音声コード化装置

Info

Publication number: JP2691109B2
Application number: JP4265717A
Authority: JP
Inventors: ラリット・アール・ボール; ジェローム・アール・ベルガーダ; ピーター・ヴイ・デュ・スーザ; ポナーニ・エス・ゴパラクリシュナン; アーサー・ジェイ・ネイダス; デイヴィッド・ナハムー; マイケル・アラン・ピッチニー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-12-05
Filing date: 1992-10-05
Publication date: 1997-12-17
Anticipated expiration: 2012-12-17
Also published as: US5278942A; CA2077728C; EP0545083A3; CA2077728A1; JPH05241589A; EP0545083A2

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、コンピュータ支援音声
認識の如き音声コード化に関する。音声コード化は、発
声についての少なくともある情報を表わす電気信号の生
成を含む。

【０００２】

【従来の技術】音声コード化装置および音声認識システ
ムは、話者非依存的であるかあるいは話者依存的かのい
ずれかである。話者非依存的音声認識システムは、その
値がシステムを使用する全ての話者に対して固定される
パラメータを有する。話者依存的音声認識システムは、
一人の話者に対する値が他の話者に対するパラメータ値
と異なる少なくともあるパラメータを有する。

【０００３】各話者毎に適当なパラメータ値を選定する
ことにより、話者依存的音声認識システムは一般に話者
非依存的音声認識システムよりも高い単語認識率（即
ち、低い単語誤差率）を達成する。しかし、適当に高い
単語認識率を生じる話者依存的パラメータ値を得るため
には、比較的大量の訓練データが新しい話者毎に必要と
される。

【０００４】

【発明が解決しようとする課題】本発明の目的は、適当
に高い単語認識量を得ながら音声認識システムに対する
音声コード化のための話者依存的パラメータ値を得るた
めに新しい話者から必要とされる訓練データ量を減らす
ことにある。

【０００５】

【課題を解決するための手段】本発明によれば、音声コ
ード化装置は、特徴値を表わす一連の特徴ベクトル信号
を生じるため、一連の連続的な時間間隔のそれぞれにお
ける発声の少なくとも１つの特徴の値を測定する手段を
含む。各プロトタイプベクトル信号は、少なくとも１つ
のパラメータ値を持ち、一義的な識別値を持つ。１つの
特徴ベクトル信号の特徴値の近似度がプロトタイプ・ベ
クトル信号のパラメータ値と比較されて、特徴ベクトル
信号および各プロトタイプ・ベクトル信号に対するプロ
トタイプ整合スコアを得る。最良のプロトタイプ整合ス
コアを持つプロトタイプ・ベクトル信号の少なくとも識
別値が、特徴ベクトル信号のコード化表示信号として出
力される。

【０００６】本発明による音声コード化装置は更に、複
数の基準特徴ベクトル信号を格納する手段と、複数の測
定された訓練特徴ベクトル信号を格納する手段とを含
む。各基準特徴ベクトル信号は、複数の連続的な時間間
隔の各々における１人以上の話者の一回以上の発声の少
なくとも１つの特徴の値を表わす。測定された各訓練特
徴ベクトル信号は、複数の連続的な時間間隔の各々にお
ける基準セットにない話者の一回以上の発声の少なくと
も１つの特徴の値を表わす。少なくとも１つの基準特徴
ベクトル信号は、合成された訓練特徴ベクトル信号に変
換される。その後、プロトタイプ・ベクトル信号が、測
定された訓練ベクトル信号および合成された訓練特徴ベ
クトル信号の両方から生成される。

【０００７】本発明の一特質においては、前記変換手段
は、基準特徴ベクトル信号に非線形変換を加えて合成訓
練特徴ベクトル信号を生じる。非線形変換は、例えば、
区分的線形変換でもよい。この区分的線形変換は、例え
ば、基準特徴ベクトル信号を訓練特徴ベクトル信号にマ
ッピングする。

【０００８】本発明の別の特質においては、基準特徴ベ
クトル信号の第１のサブセットは平均値（ｍｅａｎ）を
有し、訓練特徴ベクトル信号の第１のサブセットは平均
値を有する。非線形変換は、訓練特徴ベクトル信号の第
１のサブセットの平均に対して基準特徴ベクトル信号の
第１のサブセットの平均をマッピングする。

【０００９】また基準特徴ベクトル信号の第１のサブセ
ットおよび訓練特徴ベクトル信号の第１のサブセット
は、それぞれ分散を有する。非線形変換は、例えば、訓
練特徴ベクトル信号の第１のサブセットの分散に対して
基準特徴ベクトル信号の第１のサブセットの分散をマッ
ピングする。

【００１０】プロトタイプ・ベクトル信号は、例えば、
電子的読出し／書込みメモリーに格納される。発声の少
なくとも１つの特徴の値を測定する手段は、マイクロフ
ォンを含む。

【００１１】本発明による音声認識装置は、連続的な一
連の時間間隔において発声の少なくとも１つの特徴の値
を測定して特徴値を表わす一連の特徴ベクトル信号を生
じる手段を含む。パラメータ値および識別値を有する複
数のプロトタイプ・ベクトル信号が格納される。プロト
タイプ・ベクトル信号のパラメータ値に対する各特徴ベ
クトル信号の特徴値の近似度は、各特徴ベクトル信号お
よび各プロトタイプ・ベクトル信号毎のプロトタイプ整
合スコアを得るため比較される。各特徴ベクトル信号に
対する最良のプロトタイプ整合スコアを有するプロトタ
イプ・ベクトル信号の識別値は少なくとも、発声の一連
のコード化表示として出力される。

【００１２】各整合スコアは、音声ユニットのモデルと
発声の一連のコード化表示間の整合の近似度の評価値を
含む。最良の整合スコアを有する１つ以上の最良候補の
音声ユニットと、１つ以上の最良候補の音声ユニットの
少なくとも１つの音声サブユニットが出力される。

【００１３】音声認識装置は更に、複数の基準特徴ベク
トル信号を格納する手段と、複数の測定された訓練特徴
ベクトル信号を格納する手段とを含む。各基準特徴ベク
トル信号は、基準セットの話者における一人以上の話者
の１つ以上の発声の少なくとも１つの特徴の値を表わ
す。各測定された訓練特徴ベクトル信号は、基準セット
にはない話者の１つ以上の発声の少なくとも１つの特徴
の値を表わす。少なくとも１つの基準特徴ベクトル信号
が、合成される訓練特徴ベクトル信号に変換される。そ
の後、プロトタイプ・ベクトル信号が、測定される訓練
特徴ベクトル信号と合成される訓練ベクトル信号の両方
から生成される。

【００１４】本発明の一特質においては、変換は区分的
線形変換の如き非線形変換である。非線形変換は、例え
ば、訓練ベクトル信号のサブセットの平均および（また
は）分散に対して基準特徴ベクトル信号のサブセットの
平均および（または）分散をマッピングする。

【００１５】音声サブユニット出力手段は、例えば、ヘ
ッドフォン等を含む音声シンセサイザの如きオーディオ
・ジェネレータでよい。

【００１６】測定される訓練ベクトル信号（音声認識シ
ステムを訓練しつつある新しい話者／ユーザによる発声
と対応する）と、合成される訓練ベクトル信号（新しい
話者／ユーザ以外の話者による発声と対応する）との双
方からプロトタイプ・ベクトル信号のパラメータを生成
することにより、適当に高い単語認識率を達成しなが
ら、新しい話者／ユーザから要求される訓練データを減
らすことができる。

【００１７】

【実施例】本明細書において

【数１】はＸティルドと表現し、

【数２】はＹティルドと表現し、

【数３】はＸバーと表現し、

【数４】はＹバーと表現し、

【数５】はＸハットと表現する。

【００１８】図１において、音声コード化装置は、特徴
値を表わす一連の特徴ベクトル信号を生じるため、一連
の連続的な時間間隔の各々における発声の少なくとも１
つの特徴の値を測定する手段を含む。この特徴は、例え
ば、１つ以上の周波数帯域における発声の振幅またはエ
ネルギのいずれかである。プロトタイプ・ベクトル・ス
トア１２が、複数のプロトタイプ・ベクトル信号を格納
する。各プロトタイプ・ベクトル信号は、少なくとも１
つのパラメータ値を持ち、また一義的な識別値を持つ。

【００１９】比較プロセッサ１４は、特徴ベクトル信号
および各プロトタイプ・ベクトル信号に対するプロトタ
イプ整合スコアを得るため、プロトタイプ・ベクトル信
号のパラメータ値に対する特徴ベクトル信号の特徴値の
近似度を比較する。比較プロセッサ１４は、特徴ベクト
ル信号のコード化表示信号として、最良のプロトタイプ
整合スコアを有するプロトタイプ・ベクトル信号の少な
くとも識別値を出力する。

【００２０】基準特徴ベクトル・ストア１６は、複数の
基準特徴ベクトル信号を格納する。各基準特徴ベクトル
信号は、複数の連続的な時間間隔の各々における基準セ
ットの話者における一人以上の話者の一回以上の発声の
少なくとも１つの特徴の値を表わす。基準セットの話者
における話者は、音声コード化装置の現在のユーザでは
ない。基準特徴ベクトル信号は、例えば音響的特徴値の
測定手段１０により生成されたものである。

【００２１】測定訓練特徴ベクトル・ストア１８は、複
数の測定された訓練特徴ベクトル信号を格納する。各測
定訓練特徴ベクトル信号は、複数の連続的な時間間隔の
各々における基準セットにはない話者の一回以上の発声
の少なくとも１つの特徴の値を表わす。基準セットには
ない話者は、音声コード化装置の現在のユーザである。
基準セットの話者は音声コード化装置に予め格納される
基準となる音声を発声する測定訓練特徴ベクトル信号
は、例えば音響的特徴値測定手段１０により生成され
る。

【００２２】特徴ベクトル変換器２０は、少なくとも１
つの基準特徴ベクトル信号を合成訓練特徴ベクトル信号
へ変換するために設けられる。その後、プロトタイプ・
ベクトル・ジェネレータ２２が、測定訓練特徴ベクトル
信号および合成訓練特徴ベクトル信号の両方から、プロ
トタイプ・ベクトル信号（プロトタイプ・ベクトル・ス
トア１２に対する）を生成する。

【００２３】測定訓練特徴ベクトル信号（音声認識装置
を訓練中の新しい話者／ユーザによる発声と対応する）
および合成訓練特徴ベクトル信号（新しい話者／ユーザ
以外の話者による発声と対応する）の両方からプロトタ
イプ・ベクトル信号のパラメータを生成することによ
り、適当に高い単語認識率を達成しながら新しい話者／
ユーザから要求される訓練データを減らすことができ
る。

【００２４】本発明の一特質によれば、特徴ベクトル変
換器２０は、非線形変換を少なくとも１つの基準特徴ベ
クトル信号に加えて、合成訓練特徴ベクトル信号を生じ
る。非線形変換は、例えば区分的線形変換である。

【００２５】表１は、合成特徴ベクトルを生じる基準特
徴ベクトルの非線形変換の仮想例を示している。

【００２６】［表１］基準特徴ベクトル基本音響モデル変換合成特徴ベクトル（ＲＦＶ） 0.67 Ｅ１ 1.5(RFV-1.2) -1.10 0.82 Ｅ３ 0.1(RFV+1) 0.18 0.42 Ｅ５ 1.8(RVF+1.6) 3.64 0.82 Ｅ１ 1.5(RVF-1.2) -0.87 0.85 Ｅ４ 1.3(RVF+1.8) 3.45 0.07 Ｅ３ 0.1(RVF+1) 0.11 0.45 Ｅ２ 0.7(RVF+0.2) 0.46 0.07 Ｅ６ 0.9(RVF-2) -1.74 0.08 Ｅ６ 0.9(RVF-2) -1.73 0.01 Ｅ２ 0.7(RVF+0.2) 0.15 0.35 Ｅ９ 1.1(RVF-1.2) -0.94 0.8 Ｅ２ 0.7(RVF+0.2) 0.70 1 Ｅ８ 0.4(RVF+1.8) 1.12 0.51 Ｅ３ 0.1(RVF+1) 0.15 0.22 Ｅ６ 0.9(RVF-2) -1.60

【００２７】この仮想例においては、基準特徴ベクトル
は１次元であり、合成特徴ベクトルは１次元である。基
準特徴ベクトルのシーケンスは、基準セットの話者にお
ける一人以上の話者により発声される１つ以上の単語の
シーケンスと対応する。音響単語モデルは、発声された
単語の各々と関連付けられる。各音響単語モデルは、有
限セットの基本音響モデルから（本例においては、１セ
ットの１０個の基本音響モデル）の１つ以上の基本音響
モデルを含む。

【００２８】各基本音響モデルは、例えば、１つの状態
から他の状態への少なくとも２つの変換、変換の発生の
確率および変換の発生時にプロトタイプ・ベクトル信号
の１つが生じる出力確率を有するマルコフ（Ｍａｒｋｏ
ｖ）・モデルである。基準特徴ベクトル信号のシーケン
スを最も生じ易い基準発声の音響モデルを経由する経路
を見出すことにより、各基準特徴ベクトル信号は基準特
徴ベクトル信号を最も生じ易かった基本モデルと整合す
ることができる。このような経路は、例えば、Ｖｉｔｅ
ｒｂｉアルゴリズムにより見出すことができる。（例え
ば、Ｆ．Ｊｅｌｉｎｅｋ著「ＣｏｎｔｉｎｕｏｕｓＳ
ｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎｂｙＳｔａｔｉ
ｓｔｉｃａｌＭｅｔｈｏｄｓ」（Ｐｒｏｃｅｅｄｉｎ
ｇｓｏｆｔｈｅＩＥＥＥ、第６４巻、第４号、５３
２〜５５６頁、１９７６年４月）参照。）表１の第２列
は、各仮想基準特徴ベクトルと最も対応する仮想基本音
響モデルを示す。

【００２９】表１の事例に示される非線形変換は区分的
リニアである。即ち、各基本音響モデルに対して、対応
する合成訓練特徴ベクトルを生じる関連する基準特徴ベ
クトルの線形変換が生じる。しかし、この線形変換のパ
ラメータは、関連する基本音響モデルに対する依存性に
おいて異なる。その結果、基準特徴ベクトルの変換は全
体として非線形である。

【００３０】本発明による音声コード化装置の比較プロ
セッサ１４、特徴ベクトル変換器２０およびプロトタイ
プ・ベクトル・ジェネレータ２２は、適当にプログラム
された特殊目的あるいは汎用目的のデジタル信号プロセ
ッサである。プロトタイプ・ベクトル・ストア１２、基
準特徴ベクトル・ストア１６および測定訓練特徴ベクト
ル・ストア１８は、読出し／書込みメモリーの如き電子
計算機のメモリーである。

【００３１】合成訓練特徴ベクトルへの基準特徴ベクト
ルの非線形変換の形態およびパラメータは、例えば下記
の方法において得ることができる。本例では、各単語の
発音は隠されたマルコフ音響モデルにより表わされる。
（例えば、Ｌ．Ｒ．Ｂａｈｌ等の「ＡＭａｘｉｍｕｍ
ＬｉｋｅｌｉｈｏｏｄＡｐｐｒｏａｃｈｔｏＣｏ
ｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉ
ｏｎ」（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰ
ａｔｔｅｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅ
Ｉｎｔｅｌｌｉｇｅｎｃｅ、第ＡＰＭＩ−５巻、第２
号、１７９〜１９０頁、１９８３年３月）参照。）本例
における各マルコフ単語モデルは、有限セットのサブワ
ード音響モデルからの１つ以上のサブワード音響モデル
からなっている。各サブワード音響モデルは、例えば、
音素、音韻、音節あるいは他の発音単位を表わす。（例
えば、Ｆ．Ｊｅｌｉｎｅｋ著「ＴｈｅＤｅｖｅｌｏｐ
ｍｅｎｔｏｆａｎＥｘｐｅｒｉｍｅｎｔａｌＤ
ｉｓｃｒｅｔｅＤｉｃｔａｔｉｏｎＲｅｃｏｇｎｉ
ｚｅｒ」（ＰｒｏｃｅｅｄｉｎｇｓＩＥＥＥ、第７３
巻、第１１号、１６１６〜１６２４頁、１９８５年１１
月）、およびＬ．Ｒ．Ｂａｈｌ等の「Ａｃｏｕｓｔｉｃ
ＭａｒｋｏｖＭｏｄｅｌｓＵｓｅｄｉｎｔｈ
ｅＴａｎｇｏｒａＳｐｅｅｃｈＲｅｃｏｇｎｉｔ
ｉｏｎＳｙｓｔｅｍ」（Ｐｒｏｃｅｅｄｉｎｇｓ１９
８８ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎ
ｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎ
ｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＮｅｗＹ
ｏｒｋ，ＮｅｗＹｏｒｋ、４９７〜５００頁、１９８
８年４月を参照。）更に、本例においては、各サブワー
ド・モデルは、基本音響モデルの有限のアルファベット
からの１つ以上の基本音響モデルのシーケンスを含む。
典型的には、サブワード音響モデルのアルファベットは
約２，０００であるが、基本音響モデルのアルファベッ
トの大きさは約３００である。

【００３２】非線形変換を取得する第１のステップとし
て、基準特徴ベクトルが基準セットの話者における一人
以上の話者により既知の単語の発声から得られる。測定
訓練特徴ベクトルは、基準セットの話者にない話者によ
り既知の単語の発声から得られる。特徴ベクトルは、図
１に示されるブロック１０の如き音響的特徴値の測定手
段により発声から得られる。

【００３３】初期セットのプロトタイプ・ベクトルを用
いて、基準特徴ベクトルおよび測定訓練特徴ベクトル
は、最も近い初期プロトタイプ・ベクトルの識別値でラ
ベル表示される。訓練発声と対応する単語は既知であ
り、また各単語が既知の対応するマルコフ音響モデルを
有するため、各特徴ベクトルは、音響単語モデル、単語
モデル内の音響サブワード・モデル、および特徴ベクト
ルが最も対応し易いサブワード・モデル内の基本音響モ
デルと関連付けられる。この「整合」は、例えば、基準
特徴ベクトルまたは測定訓練特徴ベクトルをそれぞれ生
じ易い各発声モデルを通る経路を見出すことにより得る
ことができる。このような経路は、例えば上記のＶｉｔ
ｅｒｂｉアルゴリズムにより見出すことができる。

【００３４】各マルコフ基本音響モデルに対しては、対
応する基準特徴ベクトルおよび対応する測定訓練特徴ベ
クトルが識別される。各マルコフ基本音響モデル毎に、
平均ベクトルＭrおよび共分散マトリックスＳrがこのマ
ルコフ基本音響モデルと対応する全ての基準特徴ベクト
ルに対して得られる。同様に、平均ベクトルＭtおよび
共分散マトリックスＳtは、このマルコフ基本音響モデ
ルと対応する全ての測定訓練特徴ベクトルに対して得ら
れる。

【００３５】ベクトルＸティルドがゼロの平均ベクトル
と共分散マトリックスＩ（恒等マトリックス）を持つよ
うに、平均ベクトルおよび共分散マトリックスから、基
本マルコフ音響モデルと対応する各基準特徴ベクトルＸ
が下式により変換される。即ち、

【００３６】

【数６】

【００３７】同様に、基本マルコフ音響モデルと対応す
る各測定訓練特徴ベクトルＹは、ベクトルＹティルドも
またゼロの平均ベクトルと共分散マトリックスＩを持つ
ように、下式により変換される。

【００３８】

【数７】

【００３９】図２は、基準特徴ベクトルＸおよび測定訓
練特徴ベクトルＹの正規化を概略示している。式１およ
び式２の目的のため、共分散マトリックスの逆平方根が
下式により得ることができる。

【００４０】

【数８】

【００４１】但し、Ｑは共分散マトリックスＳの固有ベ
クトルであり、Λは対応する固有ベクトルの対角マトリ
ックス、Ｑ^TはマトリックスＱの転置マトリックスであ
る。

【００４２】更に、共分散マトリックスが最大階数であ
ることを保証するため、基準特徴ベクトル数または測定
訓練特徴ベクトル数のいずれかが１プラス各特徴ベクト
ルにおける次元数より小さければ、両方の共分散マトリ
ックスが対角マトリックスに還元される。更に、基準特
徴ベクトル数または測定訓練特徴ベクトル数のいずれか
が５の如き選択された最小数より小さければ、両方の共
分散マトリックスは恒等マトリックスに等しく設定され
る。（以下に更に述べるように、本発明の一例では、各
特徴ベクトルは５０の次元数を有する。）

【００４３】正規化された各基準特徴ベクトルＸティル
ドは、（ａ）最も対応し得る関連したマルコフ・サブワ
ード音響モデルの一致、（ｂ）対応する基本音響モデル
のマルコフ・サブワード音響モデル内の場所、および
（ｃ）マルコフ・サブワード音響モデルと対応する特徴
ベクトルのシーケンス内の特徴ベクトルの場所で指標を
付される。正規化された各測定訓練特徴ベクトルＹティ
ルドは、同じ情報で指標を付される。

【００４４】実際に、マルコフ・サブワード音響モデル
と対応する特徴ベクトルのシーケンス内の特徴ベクトル
の場所は、マルコフ・モデルの境界から離れた閾値が与
えられる。例えば、妥当な閾値は４つの特徴ベクトルで
ある。

【００４５】基準特徴ベクトルおよび測定訓練特徴ベク
トルの双方と対応する各指標ｋに対して、この指標と対
応する正規化された基準特徴ベクトルの数ｒk、および
この指標と対応する正規化された基準特徴ベクトルのセ
ントロイドＸkバーが得られる。同様に、この指標と対
応する測定訓練特徴ベクトルの数ｔk、およびこの指標
と対応する正規化された測定訓練特徴ベクトルのセント
ロイドＹkバーが得られる。このため、各指標ｋに対し
て、図３に概略示される如く、１対の整合ベクトル（Ｘ
kバー、Ｙkバー）が得られる。

【００４６】整合ベクトル（Ｘkバー、Ｙkバー）の対か
ら、各基本音響モデルに対して、変換Ｙバー＝ΓＸバー
の加重された最小二乗推定量Γが下式により得られる。

【００４７】

【数９】

【００４８】但し、

【００４９】

【数１０】

【００５０】１つのマルコフ基本音響モデルと対応する
新しい話者からの測定訓練特徴ベクトルの数が小さい
時、変換Γの推定値は正確でないことがある。この場
合、２つ（あるいは、必要に応じてそれ以上）の異なる
マルコフ基本音響モデルと対応する特徴ベクトルは、両
方のマルコフ基本音響モデルに対する１つの変換を生じ
るように組合わせることができる。

【００５１】前に得た平均ベクトル、共分散マトリック
スおよび変換Γから、マルコフ基本音響モデルと関連す
る合成訓練特徴ベクトルＸハットが変換による前記モデ
ルと対応する基準特徴ベクトルから得られる。

【００５２】

【数１１】

【００５３】この数１１は、与えられたマルコフ基本音
響モデルと対応する合成訓練特徴ベクトルへのこのマル
コフ基本音響モデルと対応する基準特徴ベクトルの線形
変換を示しており、図４に略図的に示されている。結果
として得る合成訓練特徴ベクトルは、この基本モデルと
対応する測定訓練特徴ベクトルと同じ平均ベクトルを持
ち、この基本モデルと対応する測定訓練特徴ベクトルと
同じ共分散マトリックスを持つことになる。

【００５４】更に、指標ｋを有する基準特徴ベクトルの
サブグループＸkと対応する結果として得る合成訓練特
徴ベクトルは、同じ指標ｋを持つサブグループＹkと対
応する測定訓練特徴ベクトルと略々同じ平均ベクトルを
有することになる。

【００５５】基準特徴ベクトルの合成訓練特徴ベクトル
への変換は基準特徴ベクトルが対応するマルコフ基本音
響モデルに従って異なるため、全体的な変換は区分的線
形である。従って、全体的な変換は非線形である。

【００５６】合成訓練特徴ベクトルへの基準特徴ベクト
ルの区分的線形変換を得たため、プロトタイプ・ベクト
ル信号は、例えば下記のように測定訓練特徴ベクトルお
よび合成訓練特徴ベクトルから生じる。

【００５７】各合成訓練特徴ベクトルＸハットは、
（ａ）その対応するマルコフ基本音響モデルの一致、
（ｂ）その対応するマルコフ・サブワード音響モデルの
一致、（ｃ）マルコフ・サブワード音響モデル内の対応
するマルコフ基本音響モデルの場所、および（ｄ）サブ
ワード・モデルと対応する基準特徴ベクトルのシーケン
ス内の対応する基準特徴ベクトルの場所により指標を付
される。これらの指標による合成訓練特徴ベクトルＸハ
ットの初期のクラスタリングから始まり、Ｋ−平均ユー
クリッド・クラスタリングを行い、各マルコフ基本音響
モデルに対する予備的なサブプロトタイプを得る。（例
えば、Ｊ．Ａ．Ｈａｒｔｉｇａｎ著「ＴｈｅＫ−ｍｅａ
ｎｓＡｌｇｏｒｉｔｈｍ」（Ｃｌｕｓｔｅｒｉｎｇ
Ａｌｇｏｒｉｔｈｍｓ，８４〜１０５頁、Ｊ．Ｗｉｌｅ
ｙ＆Ｓｏｎｓ、１９７５年発行）参照。）この段階
で、各予備サブプロトタイプは、マルコフ基本音響モデ
ルと対応する合成訓練特徴ベクトルのクラスタの平均ベ
クトルと対応する。マルコフ基本音響モデルと対応する
予備サブプロトタイプの各組は、予備的なプロトタイプ
・ベクトル信号を形成する。

【００５８】合成訓練特徴ベクトルのＫ−平均ユークリ
ッド・クラスタリングにより得る予備サブプロトタイプ
から始まり、各マルコフ基本音響モデルに対する最終的
なガウス・サブプロトタイプを得るように、Ｋ−平均ガ
ウス・クラスタリングが、合成訓練特徴ベクトルＸハッ
ト、および各マルコフ基本音響モデルと対応する測定訓
練ベクトルＹの組合わせからなる併合データについて行
われる。

【００５９】各ガウス・サブプロトタイプは、マルコフ
基本音響モデルと対応する合成訓練特徴ベクトルおよび
測定訓練ベクトルのクラスタの平均ベクトルおよび共分
散マトリックスと対応している。各共分散マトリックス
は、対角外マトリックス項をゼロに設定することにより
簡単にすることが望ましい。各サブプロトタイプは、マ
ルコフ基本音響モデルの発生により、その条件付き確率
で加重される。この条件付き確率は、サブプロトタイプ
と対応する合成され測定された訓練特徴ベクトル数を基
本音響モデルと対応する合成および測定された訓練特徴
ベクトル数で除したものとして推定される。

【００６０】新しい話者訓練データと対応する測定訓練
ベクトルから、各マルコフ基本音響モデルの前の確率が
各マルコフ基本音響モデルと対応する測定訓練特徴ベク
トル数を測定訓練特徴ベクトルの合計数で除したものと
して推定される。各サブプロトタイプに対して、このサ
ブプロトタイプの確率を得るため、先に推定された条件
付き確率が対応するマルコフ基本音響モデルの確率で乗
じられる。

【００６１】マルコフ基本音響モデルと対応する各組の
ガウス・サブプロトタイプは、プロトタイプ・ベクトル
信号を形成する。

【００６２】併合された合成訓練特徴ベクトルおよび測
定訓練特徴ベクトルをクラスタ分割する別の方法の一例
において、各分割が１つの単語セグメント・モデルにお
ける１つの場所の１つの基本モデルと対応することを指
定することにより訓練特徴ベクトル信号が分割される。
このような方法については、１９９１年７月１６日出願
の米国特許出願第７３２，７１４号「ＦａｓｔＡｌｇ
ｏｒｉｔｈｍｆｏｒＤｅｒｉｖｉｎｇＡｃｏｕｓｔ
ｉｃＰｒｏｔｏｔｙｐｅｓｏｆＡｕｔｏｍａｔｉ
ｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ」に更に詳
細に記載されている。

【００６３】併合された合成訓練特徴ベクトルおよび測
定訓練特徴ベクトルを分割する別の方法の他の例におい
ては、訓練テキストの発声により生成されかつ与えられ
た基本モデルと対応する訓練特徴ベクトルの全ては、こ
の訓練特徴ベクトルが対応するサブワードまたは基本モ
デルとは無関連にＫ−平均ユークリッド・クラスタリン
グに続いてＫ−平均ガウス・クラスタリングにより分割
される。このような方法は、例えば、１９９１年３月２
２日出願の米国特許出願第６７３，８１０号「Ｓｐｅａ
ｋｅｒ−ＩｎｄｅｐｅｎｄｅｎｔＬａｂｅｌＣｏｄ
ｉｎｇＡｐｐａｒａｔｕｓ」に記載されている。

【００６４】図１に戻り、本発明による音声認識装置
は、一連の連続的時間間隔の各々における発声の少なく
とも１つの特徴値を測定して特徴値を表わす一連の特徴
ベクトル信号を生じる音響的特徴値測定手段１０を含
む。プロトタイプ・ベクトル・ストア１２が、複数のプ
ロトタイプ・ベクトル信号を格納する。各プロトタイプ
・ベクトル信号は、少なくとも１つのパラメータ値を有
し、また一義的識別値を有する。比較プロセッサ１４
は、各特徴ベクトル信号および各プロトタイプ・ベクト
ル信号に対するプロトタイプ整合スコアを得るため、プ
ロトタイプ・ベクトル信号のパラメータ値に各特徴ベク
トル信号の特徴値の近似度を比較する。比較プロセッサ
１４は、発声の一連のコード化表示として各特徴ベクト
ル信号に対する最良のプロトタイプ整合スコアを有する
少なくともプロトタイプ・ベクトル信号の識別値を出力
する。

【００６５】音声認識装置は更に、１つ以上の音声サブ
ユニットを含む複数の音声ユニットの各々に対する整合
スコアを生成する整合スコア・プロセッサ２４を含む。
各音声ユニットは、例えば一連の１つ以上の単語であ
る。各音声サブユニットは、例えば１つの単語である。
各整合スコアは、音声ユニットの１つのモデルと発声の
一連のコード化表示との間の一致の近似度の推定値を含
む。

【００６６】最良候補識別プロセッサ２６は、最良の整
合推定値を持つ１つ以上の最良候補音声ユニットを識別
する。音声サブユニット出力２８は、１つ以上の最良候
補音声ユニットの少なくとも１つの音声サブユニットを
出力する。

【００６７】本発明による音声コード化装置に関して記
述したように、音声認識装置は更に、基準特徴ベクトル
・ストア１６と、測定訓練特徴ベクトル・ストア１８
と、特徴ベクトル変換器２０と、プロトタイプ・ベクト
ル・ジェネレータ２２とを含む。

【００６８】音声ユニットは、例えば、確率マルコフ・
モデルとしてモデル化することもできる。この場合、各
整合スコアは、例えば、（ａ）発声の一連のコード化表
示を生じるマルコフ・モデルを通る全ての経路に対する
全経路か、（ｂ）マルコフ・モデルを通る最大確率経路
に対する発声の一連のコード化表示を生じる確率のいず
れかである。（例えば、Ｌ．Ｒ．Ｂａｈｌ等の「ＡＭ
ａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＡｐｐｒｏａｃ
ｈｔｏＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅ
ｃｏｇｎｉｔｉｏｎ」（ＩＥＥＥＴｒａｎｓａｃｔｉ
ｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎ
ｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、第Ｐ
ＡＭＩ−５巻、第２号、１７９〜１９０頁、１９８３年
３月）参照。）

【００６９】全ての候補音声ユニットが一連の２つ以上
の単語を含み、また全ての最良候補音声ユニットの単語
シーケンスが同じ単語で始まるならば、音声サブユニッ
ト出力２８は、例えば、全ての最良候補音声ユニットの
初めを形成する前記単語を出力する。

【００７０】整合スコア・プロセッサ２４はまた、１つ
の音声ユニットの確率モデルが発声の一連のコード化表
示と整合する一連のモデルを出力する確率の推定に加え
て、音声ユニット自体の発生確率を推定する。音声ユニ
ットの発生確率の推定は、言語モデルにより得ることが
できる。（例えば、Ｆ．Ｊｅｌｉｎｅｋ著「Ｃｏｎｔｉ
ｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ
ｂｙＳｔａｔｉｓｔｉｃａｌＭｅｔｈｏｄｓ」（Ｐ
ｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ、第６
４巻、第４号、５３２〜５５６頁、１９７６年４月）参
照。）

【００７１】音声認識装置において、整合スコア・プロ
セッサ２４および最良候補識別プロセッサ２６は、特殊
目的あるいは汎用デジタル・コンピュータのいずれかを
適当にプログラミングすることにより提供される。音声
サブユニット出力２８は、例えば、音声シンセサイザの
如き音響出力装置である。

【００７２】音響的特徴値測定手段の一例は、図５に示
される。この測定手段は、発声と対応するアナログ電気
信号を生じるマイクロフォン３０を含む。マイクロフォ
ン３０からのアナログ電気信号は、アナログ／デジタル
・コンバータ３２によりデジタル電気信号へ変換され
る。この目的のため、アナログ信号は、例えば、アナロ
グ／デジタル・コンバータ３２により２ＫＷの定格でサ
ンプルされる。

【００７３】ウインドウ・ジェネレータ３４は、例え
ば、１０ミリ秒（１センチ秒）毎にアナログ／デジタル
・コンバータ３２からのデジタル信号の２０ミリ秒の持
続時間のサンプルを生じる。このデジタル信号の各２０
ミリ秒サンプルは、例えば２０の周波数帯域の各々にお
いてデジタル信号サンプルの振幅を得るようにスペクト
ル・アナライザ３６により分析される。スペクトル・ア
ナライザ３６はまた、２０ミリ秒のデジタル信号スペク
トルの全振幅即ち全電力を表わす２１次元信号を生じる
ことが望ましい。スペクトル・アナライザ３６は、例え
ば、高速フーリエ変換プロセッサである。あるいはま
た、これは２０の帯域フィルタのバンクでもよい。

【００７４】スペクトル・アナライザ３６により生成さ
れる２１次元ベクトル信号は、適応雑音打消しプロセッ
サ３８により、暗雑音を除去するためのものである。雑
音打消しプロセッサ３８は、雑音打消しプロセッサへの
特徴ベクトルＦ（ｔ）入力からの雑音ベクトルを差引い
て出力特徴ベクトルＦ（ｔ）を生じる。雑音打消しプロ
セッサ３８は、前の特徴ベクトルＦ（ｔ−１）が雑音あ
るいは無雑音として識別される時は常に、雑音ベクトル
Ｎ（ｔ）を周期的に更新することにより雑音レベルを変
化させる。雑音ベクトルＮ（ｔ）は下式に従って更新さ
れる。

【００７５】

【数１２】

【００７６】但し、Ｎ（ｔ）は時間ｔにおける雑音ベク
トル、Ｎ（ｔ−１）は時間（ｔ−１）における雑音ベク
トル、ｋは適応雑音打消しモデルの固定パラメータ、Ｆ
（ｔ−１）は時間（ｔ−１）における雑音打消しプロセ
ッサ３８に対する特徴ベクトル入力であって雑音あるい
は無雑音を表わし、Ｆｐ（ｔ−１）は特徴ベクトルＦ
（ｔ−１）に最も近いストア４０からの１つの無雑音ま
たは雑音プロトタイプ・ベクトルである。

【００７７】前の特徴ベクトルＦ（ｔ−１）は、（ａ）
ベクトルの全エネルギがある閾値より低いか、あるいは
（ｂ）特徴ベクトルに対する適応プロトタイプ・ベクト
ル・ストア４２における最も近いプロトタイプ・ベクト
ルのいずれかが雑音または無雑音を表わすプロトタイプ
であるならば、雑音または無雑音として認識される。特
徴ベクトルの全エネルギの分析目的のため、前記閾値
は、例えば、特徴ベクトルが評価される前２秒に生じる
全ての特徴ベクトル（音声と無信号の両方と対応する）
の５パーセント点でよい。

【００７８】雑音の打消し後、特徴ベクトルＦ′（ｔ）
は短期平均正規化プロセッサ４４により入力音声の大き
さにおける変動を調整するように正規化される。正規化
プロセッサ４４は、２１次元特徴ベクトルＦ′（ｔ）を
正規化して２０次元正規化特徴ベクトルＸ（ｔ）を生じ
る。全振幅即ち全電力を表わす特徴ベクトルＦ′（ｔ）
の２１次元は捨てられる。時間ｔにおける正規化された
特徴ベクトルＸ（ｔ）の各成分ｉは、例えば、対数領域
において下式により与えられる。

【００７９】

【数１３】

【００８０】但し、Ｆ′iは時間ｔにおける正規化され
ないベクトルの（ｉ−１）番目の成分であり、Ｚ（ｔ）
は下式９および１０によるＦ′（ｔ）およびＺ（ｔ−
１）の成分の加重平均である。即ち、

【００８１】

【数１４】

【００８２】但し、

【００８３】

【数１５】

【００８４】正規化された２０次元特徴ベクトルＸ
（ｔ）は更に、音声の発音における変動に適合するよう
に適合ラベラ４６により処理される。適合された２０次
元特徴ベクトルＸ′（ｔ）は、適合ラベラ４６の入力に
与えられる２０次元特徴ベクトルＸ（ｔ）から２０次元
適合ベクトルＡ（ｔ）を差引くことにより生成される。
時間ｔにおける適合ベクトルＡ（ｔ）は、例えば、下式
により与えられる。

【００８５】

【数１６】

【００８６】但し、ｋは適合ラベリング・モデルの固定
パラメータであり、Ｙ（ｔ−１）は時間（ｔ−１）にお
ける適合ラベラ４６に対する正規化された２０次元ベク
トル入力、Ｘｐ（ｔ−１）は時間（ｔ−１）における２
０次元特徴ベクトルＸ（ｔ−１）に最も近い（適応プロ
トタイプ・ベクトル・ストア４２からの）点プロトタイ
プ・ベクトル、およびＡ（ｔー１）は時間（ｔ−１）に
おける適合ベクトルである。

【００８７】適合ラベラ４６からの２０次元適合特徴ベ
クトル信号Ｘ′（ｔ）は、音響モデル４８へ与えられる
ことが望ましい。音響モデル４８は、例えば、人間の聴
覚系が音声信号を認識する方法のモデルを提供すること
ができる。音響モデルの一例は、Ｂａｈｌ等の米国特許
第４，９８０，９１８号「Ｓｐｅｅｃｈｒｅｃｏｇｎ
ｉｔｉｏｎＳｙｓｔｅｍｗｉｔｈＥｆｆｉｃｉｅ
ｎｔＳｔｏｒａｇｅａｎｄＲａｐｉｄＡｓｓｅｍ
ｂｌｙｏｆＰｈｏｎｏｌｏｇｉｃａｌＧｒａｐｈ
ｓ」に記載されている。

【００８８】本発明によれば、時間ｔにおける適合特徴
ベクトル信号Ｘ′（ｔ）の各周波数帯域毎に、音響モデ
ル４８は下式１２および１３に従って新しいパラメータ
Ｅi（ｔ）を計算することが望ましい。

【００８９】

【数１７】

【００９０】

【数１８】

【００９１】但し、Ｋ1、Ｋ2およびＫ3は、音響モデル
の固定パラメータである。

【００９２】センチ秒の時間間隔毎に、音響モデル４８
の出力は修正２０次元特徴ベクトル信号となる。この特
徴ベクトルは、他の２０次元の値の二乗和の平方根と等
しい値を有する２１次元だけ拡大される。

【００９３】センチ秒の時間間隔毎に、連結器５０が１
つの現センチ秒時間間隔、４つの前のセンチ秒時間間隔
および４つの以後のセンチ秒時間間隔を表わす９の２１
次元特徴ベクトルを連結して、１８９次元の１つの接続
されたベクトルを形成することが望ましい。１８９の次
元接続ベクトルの各々は、接続されたベクトルを回転さ
せて接続ベクトルを５０次元に減じるように、回転マト
リックスにより回転器５２において乗じられることが望
ましい。

【００９４】回転器５２において使用される回転マトリ
ックスは、例えば、訓練セッション中に得た１セットの
１８９次元接続ベクトルをＭクラスに分類することによ
り得ることができる。訓練セットにおける全ての接続ベ
クトルに対する共分散マトリックスの逆形が、全てのＭ
クラスにおける接続ベクトルの全てに対するサンプル内
共分散マトリックスにより乗じられる。結果として得る
マトリックスの最初の５０の固有ベクトルが回転マトリ
ックスを形成する。（例えば、Ｌ．Ｒ．Ｂａｈｌ等の
「ＶｅｃｔｏｒＱｕａｎｔｉｚａｔｉｏｎＰｒｏｃ
ｅｄｕｒｅｆｏｒＳｐｅｅｃｈＲｅｃｏｇｎｉｔ
ｉｏｎＳｙｓｔｅｍｓｕｓｉｎｇＤｉｓｃｒｅｔ
ｅＰａｒａｍｅｔｅｒＰｈｏｎｅｍｅ−Ｂａｓｅｄ
ＭａｒｋｏｖＷｏｒｄＭｏｄｅｌｓ」（ＩＢＭ
ＴｅｃｈｎｉｃａｌＤｉｓｃｌｏｓｕｒｅＢｕｌｌ
ｅｔｉｎ、第３４巻、第７号、３４０〜３４１頁、１９
８９年１２月）参照。）

【００９５】ウインドウ・ジェネレータ３４、スペクト
ル・アナライザ３６、適応雑音打消しプロセッサ３８、
短期平均正規化プロセッサ４４、適合ラベラ４６、音響
モデル４８、連結器５０および回転器５２は、適当にプ
ログラムされた特殊目的あるいは汎用のデジタル信号プ
ロセッサでよい。プロトタイプ・ストア４０、４２は、
電子計算機のメモリーでよい。

【００９６】

【発明の効果】本発明は、新しい話者から要求される訓
練データ量を減らして、適当に高い単語認識率を得なが
ら音声認識システムに対する音声コーディングのための
話者依存的パラメータ値を得る。

【図面の簡単な説明】

【図１】本発明による音声コード化装置を含む本発明に
よる音声認識装置の一例を示すブロック図である。

【図２】部分変換を生じる特徴ベクトルの正規化の一例
を示す概略図である。

【図３】更なる部分変換を生じるための特徴値のサブセ
ットの組合わせの一例を示す概略図である。

【図４】合成されるＴＦＶを形成する基準特徴値の変換
の一例を示す概略図である。

【図５】音響的特徴値の測定の一例を示すブロック図で
ある。

【符号の説明】１０音響的特徴値測定手段１２プロトタイプ・ベクトル・ストア１４比較プロセッサ１６基準特徴ベクトル・ストア１８測定訓練特徴ベクトル・ストア２０特徴ベクトル変換器２２プロトタイプ・ベクトル・ジェネレータ２４整合スコア・プロセッサ２６最良候補識別プロセッサ２８音声サブユニット出力３０マイクロフォン３２アナログ／デジタル・コンバータ３４ウインドウ・ジェネレータ３６スペクトル・アナライザ３８適応雑音打消しプロセッサ４０無雑音プロトタイプ・ベクトル・ストア４２適応プロトタイプ・ベクトル・ストア４４短期平均正規化プロセッサ４６適合ラベラ４８音響モデル５０連結器５２回転器

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジェローム・アール・ベルガーダアメリカ合衆国10526 ニューヨーク州ゴールデンズ・ブリッジ、ブルダー・レーン 490 (72)発明者ピーター・ヴイ・デュ・スーザアメリカ合衆国10542 ニューヨーク州マホパック・フォールズ、ピー・オー・ボックス・459 (72)発明者ポナーニ・エス・ゴパラクリシュナンアメリカ合衆国10520 ニューヨーク州クロットン−オン−ハドソン、シーニック・ドライブ、25ジェイ (72)発明者アーサー・ジェイ・ネイダスアメリカ合衆国12575 ニューヨーク州ロック・タヴァーン、ブル・ロード 179 (72)発明者デイヴィッド・ナハムーアメリカ合衆国10605 ニューヨーク州ホワイト・プレインズ、エルムウッド・ロード 12 (72)発明者マイケル・アラン・ピッチニーアメリカ合衆国10606 ニューヨーク州ホワイト・プレインズ、ラルフ・アベニュー 118 (56)参考文献特開平２−265000（ＪＰ，Ａ) 電子情報通信学会論文誌ＶＯＬ．Ｊ73 −Ｄ−▲ＩＩ▼，ＮＯ．12，Ｐ．1919〜 1928（平成元年12月)

Claims

(57)【特許請求の範囲】

【請求項１】一連の連続時間間隔の各々において発声の
少なくとも１つの特徴値を測定して、該特徴値を表わす
一連の特徴ベクトル信号を生じる手段と、各々が少なくとも１つのパラメータ値を有する複数のプ
ロトタイプ・ベクトル信号を格納する手段とを設け、各
プロトタイプ・ベクトル信号が一義的な識別値を有し、前記プロトタイプ・ベクトル信号のパラメータ値に対す
る特徴ベクトル信号の特徴値の近似度を比較して、特徴
ベクトル信号および各プロトタイプ・ベクトル信号に対
するプロトタイプ整合スコアを得る手段と、前記特徴ベクトル信号のコード化表示信号として最良の
プロトタイプ整合スコアを有する少なくともプロトタイ
プ・ベクトル信号の識別値を出力する手段とを含む音声
コード化装置において、各々が複数の連続時間間隔の各々において基準セットの
話者における一人以上の話者の一回以上の発声の少なく
とも１つの特徴値を表わす複数の基準特徴ベクトル信号
を格納する手段と、各々が複数の連続時間間隔の各々において基準セットの
話者にない話者の一回以上の発声の少なくとも１つの特
徴値を表わす複数の測定訓練特徴ベクトル信号を格納す
る手段と、少なくとも１つの基準特徴ベクトル信号を合成訓練特徴
ベクトル信号へ変換する手段と、前記測定訓練特徴ベクトル信号および前記合成訓練特徴
ベクトル信号の双方から前記プロトタイプ・ベクトル信
号を生じる手段とを更に設けてなる特徴付ける音声コー
ド化装置。
【請求項２】前記変換手段が前記基準特徴ベクトル信号
に非線形変換を加えて、前記合成訓練特徴ベクトル信号
を生じることを特徴とする請求項１記載の音声コード化
装置。
【請求項３】一連の連続時間間隔の各々において発声の
少なくとも１つの特徴値を測定して特徴値を表わす一連
の特徴ベクトル信号を生じ、各々が少なくとも１つのパラメータ値を有し、各々が一
義的な識別値を有する複数のプロトタイプ・ベクトル信
号を格納し、前記プロトタイプ・ベクトル信号のパラメータ値に対す
る特徴ベクトル信号の特徴値の近似度を比較して、該特
徴ベクトル信号および各プロトタイプ・ベクトル信号に
対するプロトタイプ整合スコアを得て、前記特徴ベクトル信号のコード化表示信号として、最良
のプロトタイプ整合スコアを有する少なくとも前記プロ
トタイプ・ベクトル信号の識別値を出力する音声コード
化方法において、各々が複数の連続時間間隔の各々において基準セットの
話者において一人以上の話者の一回以上の発声の少なく
とも１つの特徴値を表わす複数の基準特徴ベクトル信号
を格納し、各々が複数の連続時間間隔の各々において基準セットに
ない話者の一回以上の発声の少なくとも１つの特徴値を
表わす複数の測定訓練特徴ベクトル信号を格納し、少なくとも１つの基準特徴ベクトル信号を合成訓練特徴
ベクトル信号へ変換し、測定訓練特徴ベクトル信号および合成訓練特徴ベクトル
信号の双方からプロトタイプ・ベクトル信号を生成する
ことを含むことを特徴とする音声コード化方法。
【請求項４】前記変換ステップが、基準特徴ベクトル信
号への非線形変換を加えて合成訓練特徴ベクトル信号を
生じることを特徴とする請求項３記載の方法。
【請求項５】一連の連続時間間隔の各々において発声の
少なくとも１つの特徴値を測定して特徴値を表わす一連
の特徴ベクトル信号を生じる手段と、各々が少なくとも１つのパラメータ値を持ち、かつ一義
的な識別値を持つ複数のプロトタイプ・ベクトル信号を
格納する手段と、前記プロトタイプ・ベクトル信号のパラメータ値に対す
る各特徴ベクトル信号の特徴値の近似度を比較して、各
特徴ベクトル信号および各プロトタイプ・ベクトル信号
に対してプロトタイプ整合スコアを得る手段と、発声の一連のコード化表示として各特徴ベクトル信号に
対する最良のプロトタイプ整合スコアを有する前記プロ
トタイプ・ベクトル信号の少なくとも識別値を出力する
手段と、各々が音声ユニットの１つのモデルと一連の発声のコー
ド化表示との間の一致の近似度の推定を含む、各々が１
つ以上の音声サブユニットを含む複数の音声ユニットの
各々に対して整合スコアを生成する手段と、最良の整合スコアを有する１つ以上の最良候補の音声ユ
ニットを識別する手段と、１つ以上の前記最良候補の音声ユニットの少なくとも１
つの音声サブユニットを出力する手段とを含む音声認識
装置において、各々が複数の連続時間間隔の各々において基準セットの
話者における一人以上の話者の一回以上の発声の少なく
とも１つの特徴値を表わす複数の基準特徴ベクトル信号
を格納する手段と、各々が複数の連続時間間隔の各々において基準セットに
ない話者の一回以上の発声の少なくとも１つの特徴値を
表わす複数の測定訓練特徴ベクトル信号を格納する手段
と、少なくとも１つの基準特徴ベクトル信号を合成訓練特徴
ベクトル信号へ変換する手段と、前記測定訓練ベクトル信号と前記合成訓練ベクトル信号
の双方から前記プロトタイプ・ベクトル信号を生成する
手段とを更に設けることを特徴とする音声認識装置。
【請求項６】前記変換手段が、前記基準特徴ベクトル信
号に非線形変換を加えて合成訓練特徴ベクトル信号を生
じることを特徴とする請求項５記載の音声認識装置。
【請求項７】一連の連続時間間隔の各々において発声の
少なくとも１つの特徴値を測定して、該特徴値を表わす
一連の特徴ベクトル信号を生じ、各々が少なくとも１つのパラメータ値を有し、各々が一
義的な識別値を有する複数のプロトタイプ・ベクトル信
号を格納し、前記プロトタイプ・ベクトル信号のパラメータ値に対す
る各特徴ベクトル信号の特徴値の近似度を比較して、各
特徴ベクトル信号および各プロトタイプ・ベクトル信号
に対するプロトタイプ整合スコアを得て、前記発声の一連のコード化表示として各特徴ベクトル信
号に対する最良のプロトタイプ整合スコアを有する少な
くとも該特徴ベクトル信号の識別値を出力し、各々が音声ユニットの１つのモデルと前記発声の一連の
コード化表示との間の一致の近似度の推定値を含む整合
スコアを、各々が１つ以上の音声サブユニットを含む複
数の音声ユニットの各々について生じ、前記最良の整合スコアを有する１つ以上の最良の候補音
声ユニットを識別し、１つ以上の前記最良の候補音声ユニットの少なくとも１
つの音声サブユニットを出力する音声認識方法におい
て、各々が複数の連続時間間隔の各々において基準セットの
話者における一人以上の話者の一回以上の発声の少なく
とも１つの特徴値を表わす複数の基準特徴ベクトル信号
を格納し、各々が複数の連続時間間隔の各々において前記基準セッ
トにない話者の一回以上の発声の少なくとも１つの特徴
値を表わす複数の測定訓練特徴ベクトル信号を記憶し、少なくとも１つの基準特徴ベクトル信号を合成訓練特徴
ベクトル信号へ変換し、前記測定訓練ベクトル信号および前記合成訓練ベクトル
信号の双方から前記プロトタイプ・ベクトル信号を生成
することを更に含むことを特徴とする音声認識方法。
【請求項８】前記変換ステップが、非線形変換を前記基
準特徴ベクトル信号に加えて合成訓練特徴ベクトル信号
を生じることを特徴とする請求項７記載の音声認識方
法。