JPH06274200A

JPH06274200A - 音声コード化装置及び方法

Info

Publication number: JPH06274200A
Application number: JP6021828A
Authority: JP
Inventors: Lalit R Bahl; アールバールラリット; Ponani S Gopalakrishnan; エスゴパラクリシュナンポナーニ; Michael A Picheny; アランピケニマイケル
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-03-08
Filing date: 1994-01-24
Publication date: 1994-09-30
Anticipated expiration: 2015-05-08
Also published as: EP0615227A3; JP3037864B2; EP0615227A2; US5497447A

Abstract

(57)【要約】【目的】音声コード化装置及びその方法を提供する。【構成】トレーニング・スクリプトのトレーニング発
言の少くとも１つの特徴値が一連の連続した時間間隔で
測定され、一連のトレーニング特徴ベクトルが生成され
る。トレーニング・スクリプトにおける第１の初歩モデ
ルに対応するトレーニング特徴ベクトルの第１のセット
が識別される。第１のセットにおける各トレーニング特
徴ベクトル信号の特徴値が第１の基準ベクトル信号のパ
ラメータ値と比較されて第１の近さ得点を得、更に、第
２の基準ベクトルのパラメータ値と比較されて各トレー
ニング特徴ベクトルに対する第２の近さ得点を得る。第
１のセットにおける各トレーニング特徴ベクトルに関し
て第１の近さ得点が第２の近さ得点と比較されて基準照
合得点を得る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識システム等の
音声のコード化に関連する。

【０００２】

【従来の技術】音声認識の第１のステップは、発言を測
定することに関与する。音声コード化装置は、例えば、
一連の時間間隔（例えば、１０ミリ秒の時間間隔）に、
１つ以上の周波数帯域において発言の振幅を測定する。
音声コード化装置による各測定値は、フィルタに通さ
れ、正規化され或いは操作されて要求された音声情報を
得た上で、結果として音響特徴ベクトルとして記憶され
る。音声認識装置において認識すべき発言から音声エン
コーダによって作り出された音響特徴ベクトルが、単語
の音声モデルと比較され、最もよく一致したモデルが見
つけられる。比較を簡単にするため、音響特徴ベクトル
は、ベクトルの量子化によって連続の変数から離散的変
数に変換される。離散的変数は、それから音声モデルと
比較される。

【０００３】プロトタイプ・ベクトルの有限のセットを
提供することによって、音響特徴ベクトルは量子化され
る。各プロトタイプ・ベクトルは、識別子（ラベル）を
有し、１組以上のパラメータ値を持つ。音響特徴ベクト
ルの値は、プロトタイプ・ベクトルのパラメータ値と比
較され、最も近いプロトタイプ・ベクトルを見つける。
最も近いプロトタイプ・ベクトルの識別子（ラベル）
が、音響特徴ベクトルの符号化表示としての出力であ
る。例えば、各プロトタイプ値は、プロトタイプ・ベク
トルに対応している一組の音響特徴ベクトル値を平均す
ることによって得られる。

【０００４】例えば、音響特徴ベクトルは、初期のプロ
トタイプ・ベクトルのセットを使用した既知のトレーニ
ング・スクリプトの発言をコード化し、そして次に、音
響特徴ベクトルとトレーニング・スクリプトの音響モデ
ルの間の最も可能性のある配列を見つけることによっ
て、プロトタイプ・ベクトルと相関する。しかしなが
ら、各プロトタイプ・ベクトルに対する単一の平均は、
正確にプロトタイプ・ベクトルをモデル化しないことが
分かっている。各プロトタイプ・ベクトルがプロトタイ
プ・ベクトルに対応している音響特徴ベクトルのセット
を多くのクラスタに分割することによって得られた区画
の混合から構成されるならば、よりよいモデルが得られ
る。

【０００５】例えば、プロトタイプ・ベクトルに対応し
ている音響特徴ベクトルのセットは、トレーニング・ス
クリプトにおける各音響特徴ベクトルの前後関係（例え
ば、前後の音、以下文脈）に従ってグループ化される。
各プロトタイプ・ベクトルを適切にモデル化するため
に、各前後関係グループは、お互いの近くに整理された
音響特徴ベクトルのクラスタに分割される（例えばＫ−
手法のクラスタリング「K-means」によって）。「クラ
スタ化アルゴリズム(Clustering Algorithms, John A.H
artigan, John Wiley & Sons, Inc., 1975.)参照」。音
響特徴ベクトルの各クラスタは、区画を形成する。区画
を形成している音響特徴ベクトルの平均のような値及び
区画を形成している音響特徴ベクトルの共分散マトリッ
クスによって、各区画が代表される。（簡単のために、
共分散マトリックスの全ての非対角項がゼロに近似され
る。）上に記述された方法において各プロトタイプ・ベクトル
を適切にモデル化するために、トレーニング・スクリプ
トの発音から相当な量のトレーニング・データ（学習デ
ータ）が必要とされ、相当な計算資源がトレーニング・
データを分析するために必要とされる。更に、１人の話
し手から他のものへの音響特徴ベクトルのクラスタの間
の相関はなく、従って１人の話し手からのプロトタイプ
・ベクトル・データが、他の話し手のためのプロトタイ
プ・ベクトルを生成するために役立てられない。更に、
音響特徴ベクトルの値をプロトタイプ・ベクトルのパラ
メータ値と比較するするために、音響特徴ベクトルの値
は、プロトタイプ・ベクトルを構成している全ての区画
のパラメータ値に突き合わせられて、合成照合得点を生
成しなければならない。

【０００６】しかしながら、一般に音響特徴ベクトルに
最も近い区画に関する照合得点が全ての区画に対する合
成照合点数を左右することが分かっている。従って、プ
ロトタイプの照合得点は、音響特徴ベクトルに最も近い
プロトタイプの１区画に対する照合得点によって近似す
ることができる。

【０００７】

【発明が解決しようとする課題】比較的少ない量のトレ
ーニング・データによって、プロトタイプ・ベクトルが
正確に生成できる音声コード化装置を提供することが本
発明の目的である。本発明のもう１つの目的は、比較的
少ない計算資源の消費によって、プロトタイプ・ベクト
ルが正確に生成できる音声コード化装置を提供すること
である。本明の更に別の目的は、新しい話し手に対する
プロトタイプ・ベクトルの区画が、他の話し手の同じプ
ロトタイプ・ベクトルの区画と相関することができ、そ
の結果、多くの他の話し手から得られたプロトタイプ・
ベクトル・データが、新しい話し手に対するプロトタイ
プ・ベクトルを生成するのに役立つような音声コード化
装置を提供することである。更に本発明のもう１つの目
的は、音響特徴の値が、少ない計算量でプロトタイプ・
ベクトルの区画のパラメータ値と比較できる音声コード
化装置を提供することである。

【０００８】

【課題を解決するための手段】本発明による音声コード
化装置及びその方法は、一連の連続した時間間隔の中で
個々の発言の少くとも１つの特徴値を測定し、特徴値を
表す一連の特徴ベクトル信号を生成する。複数のプロト
タイプ・ベクトル信号が記憶される。各プロトタイプ・
ベクトル信号は、少くとも２区画を有し、識別値を持
つ。各区画は、少くとも１つのパラメーター値を持つ。
第１の特徴ベクトル信号の特徴値は、各プロトタイプ・
ベクトル信号の少くとも１つの区画のパラメータ値と比
較されて、第１の特徴ベクトル信号及び各プロトタイプ
・ベクトル信号に対するプロトタイプ照合得点が得られ
る。少くとも最高のプロトタイプ照合得点を有するプロ
トタイプ・ベクトル信号の識別値が、第１の特徴ベクト
ル信号のコード化された発言表示信号としての出力であ
る。

【０００９】本発明による音声コード化装置及びその方
法は、トレーニング・スクリプトのモデルを記憶させる
ことによって記憶されたプロトタイプ・ベクトル信号を
生成する。トレーニング・スクリプト・モデルは、有限
の初歩モデルのセットからの一連の初歩モデルで構成さ
れる。トレーニング・スクリプトのトレーニング発言の
少くとも１つの特徴値が一連の連続した時間間隔の各々
に対して測定され、特徴値を表す一連のトレーニング特
徴ベクトル信号を生成する。トレーニング・スクリプト
・モデルにおける第１の初歩モデルに対応しているトレ
ーニング特徴ベクトル信号の第１のセットが識別され
る。少くとも、第１と第２の基準ベクトル信号が記憶さ
れる。

【００１０】各基準ベクトル信号は、少くとも１つのパ
ラメータ値を持つ。第１のセットにおける各トレーニン
グ特徴ベクトル信号の特徴値が第１の基準ベクトル信号
のパラメータ値と比較され、各トレーニング特徴ベクト
ル信号と第１の基準ベクトル信号に関する第１の近さ得
点を得る。第１のセットにおける各トレーニング特徴ベ
クトル信号の特徴値が、同様に第２の基準ベクトル信号
のパラメーター値と比較され、各トレーニング特徴ベク
トル信号と第２の基準ベクトル信号に対する第２の近さ
得点を得る。第１のセットにおける各トレーニング特徴
ベクトル信号に関して、トレーニング特徴ベクトル信号
に対する第１の近さ得点は、トレーニング特徴ベクトル
信号に対する第２の近さ得点と比較され、各トレーニン
グ特徴ベクトル信号と第１及び第２の基準ベクトル信号
に関する基準照合得点を得る。

【００１１】閾値Ｑより高い基準照合得点を持つ第１の
セットにおけるトレーニング特徴ベクトルは、第１のサ
ブセットとして記憶される。基準照合得点が閾値Ｑより
低い第１のセットにおけるトレーニング特徴ベクトル信
号は、第２のサブセットとして記憶される。第１のプロ
トタイプ・ベクトル信号に対する１つ以上の区画値が、
トレーニング特徴ベクトル信号の第１のサブセットから
生成される。第１のプロトタイプ・ベクトル信号に対す
る１つ以上の追加の区画値が、トレーニング特徴ベクト
ル信号の第２のサブセットから生成される。本発明の１
つの局面において、トレーニング・スクリプトにおける
各初歩モデルは、トレーニング・スクリプトにおいて１
つ以上の先行あるいは後続のモデルから成る文脈を有す
る。

【００１２】トレーニング特徴ベクトル信号の第１のセ
ットは、第１の文脈におけるトレーニング・スクリプト
において第１の初歩モデルに対応する。例えば、第１の
基準ベクトル信号のパラメータ値は、第２の文脈のトレ
ーニング・スクリプトにおける初歩モデルに対応するト
レーニング特徴ベクトル信号の第２のセットの特徴値の
平均を含む。第２の基準ベクトルのパラメータ値は、第
１及び第２の文脈と異なる第３の文脈のトレーニング・
スクリプトにおける初歩モデルに対応するトレーニング
特徴ベクトル信号の第３のセットの特徴値の平均を含
む。プロトタイプ・ベクトル信号に対する区画値は、ト
レーニング特徴ベクトルの各サブセットを１つ以上の異
なるクラスタにグループ化することによって生成され
る。例えば、トレーニング特徴ベクトル信号の第１のサ
ブセットは、少なくとも第３及び第４の基準ベクトル信
号を記憶することによって、１つ以上の異なるクラスタ
にグループ化される。

【００１３】各基準ベクトル信号は、少くとも１つのパ
ラメータ値を持つ。第１のサブセットにおける各トレー
ニング特徴ベクトル信号の特徴値は、第３の基準ベクト
ル信号のパラメータ値と比較され、トレーニング特徴ベ
クトル信号及び第３の基準ベクトル信号に対する第３の
近さ得点を得る。第１のサブセットにおける各トレーニ
ング特徴ベクトル信号の特徴値が、同様に第４の基準ベ
クトル信号のパラメータ値に比較され、トレーニング特
徴ベクトル信号および第４の基準ベクトル信号に対する
第４の近さ得点を得る。第１のサブセットにおける各ト
レーニング特徴信号に対してトレーニング特徴ベクトル
信号に対する第３の近さ得点は、トレーニング特徴ベク
トル信号に対する第４の近さ得点と比較され、各トレー
ニング特徴ベクトル信号および第３及び第４の基準ベク
トル信号に対するサブ基準照合得点を得る。

【００１４】閾値Ｑ’より高いサブ基準照合得点を有す
る第１のサブセットにおけるトレーニング特徴ベクトル
信号は、第１のサブ・サブセットとして記憶される。閾
値Ｑ’より低いサブ基準照合得点を有する第１のサブセ
ットにおけるトレーニング特徴ベクトル信号は、第２の
サブ・サブセットとして記憶される。第１のプロトタイ
プ・ベクトル信号に対する１つ以上の区画値は、トレー
ニング特徴ベクトル信号の第１のサブ・サブセットから
生成される。第１のプロトタイプ・ベクトル信号に対す
る１つ以上の追加の区画値は、トレーニング特徴ベクト
ル信号の第２のサブ・サブセットから生成される。例え
ば、各区画値は、クラスタにおけるトレーニング特徴値
信号の特徴値の平均を含むである。

【００１５】各区画は、更にクラスタにおけるトレーニ
ング特徴ベクトル信号の特徴値の分散を含む。閾値Ｑ
は、例えば１である。例えば、トレーニング・スクリプ
ト・モデルは、一連の音声のモデルを含む。各音声のモ
デルは、一連の初歩モデルを含む。トレーニング・スク
リプト・モデルにおける各初歩モデルは、先行及び後続
する音声モデルの音声の文脈を有する。プロトタイプ・
ベクトル信号を生成するために、第１の基準ベクトル信
号は、先行及び後続する音声モデルの第１の音声の文脈
における第１の初歩モデルに対応しているトレーニング
特徴ベクトル信号の平均を含む。第２の基準ベクトル信
号は、先行及び後続する音声モデルの第１の文脈と異な
る第２の音声の文脈における第１の初歩モデルに対応し
ているトレーニング特徴ベクトル信号の平均を含む。発
言の少くとも１つの特徴値が、一部マイクロフォンで測
定される。

【００１６】プロトタイプ・ベクトル信号は、電子的に
読み込み可能なメモリに記憶される。本発明による音声
コード化装置および方法において、基準ベクトルの周辺
に音響特徴ベクトルをクラスタ化することによって、プ
ロトタイプ・ベクトル区画が、より少ないトレーニング
・データおよびより少ない計算資源で得られる。本発明
に従って、異なる話し手と相関している基準ベクトルの
周辺に音響特徴ベクトルをクラスタ化することによって
（例えば文脈によって相関する）新しい話し手に対する
プロトタイプ・ベクトルの区画は、他の話し手に対する
同じプロトタイプ・ベクトルの区画と相関することがで
き、多くの他の話し手から得られたプロトタイプ・ベク
トル・データが、新しい話し手に対するプロトタイプ・
ベクトルを生成するのに役立てられる。

【００１７】本発明に従って、プロトタイプ・ベクトル
区画を得るために基準ベクトルの周辺に音響特徴ベクト
ルをクラスタ化することによって、音響特徴ベクトルに
最も近いプロトタイプ・ベクトル区画が、より少ない計
算資源によって見つけることができる。

【００１８】

【実施例】図１は、本発明に従った音声コード化装置の
１例のブロック・ダイヤグラムである。装置は一連の連
続した時間間隔のそれぞれについて、発言の少くとも１
つの特徴の値を測定するために、音響特徴値測定１０を
有し、特徴値を表す一連の特徴ベクトル信号を生成す
る。例えば、音響特徴値測定１０は、一連の１０ミリ秒
の時間間隔の各々の間に、２０の周波数帯域で発言の振
幅を測定する。音声コード化装置による各測定値は、フ
ィルタに通され、正規化され、あるいは別な方法で処理
され、要求された音声情報を得、結果は音響特徴ベクト
ル信号として記憶される。音声コード化装置は更に、複
数のプロトタイプ・ベクトル信号を記憶するために、プ
ロトタイプ・ベクトル信号記憶１２を有する。

【００１９】各プロトタイプ・ベクトル信号は、少くと
も２つの区画を有し、識別値を持つ。各区画は、少くと
も１つのパラメータ値を持つ。最初に、記憶１２におけ
るプロトタイプ・ベクトル信号は、初期プロトタイプ・
ベクトル信号記憶１４から得られる。初期プロトタイプ
・ベクトル信号は、例えば米国特許第５，１８２，７７
３号において記述された方法によって得られるであろ
う。各初期プロトタイプ・ベクトル信号は、１区画だけ
を有する必要がある。音声コード化装置は更に、各プロ
トタイプ・ベクトル信号の少くとも１区画のパラメータ
値に対する第１の特徴ベクトル信号の特徴値の近さを比
較するために、比較プロセッサ１６を含んでおり、第１
の特徴ベクトル信号および各プロトタイプ・ベクトル信
号に対するプロトタイプ照合得点を得る。

【００２０】出力ブロック１８は、プロトタイプ照合得
点を比較プロセッサ１６から受取り、第１の特徴ベクト
ル信号のコード化された発言表示信号として、最高のプ
ロトタイプ照合得点を持っているプロトタイプ・ベクト
ル信号の少なくとも識別値を出力する。改訂されたプロ
トタイプ・ベクトル信号を生成してプロトタイプ・ベク
トル信号記憶１２に記憶させ、トレーニング・スクリプ
トのモデルを記憶するために、音声コード化装置は更
に、トレーニング・スクリプト・モデル記憶２０を含
む。トレーニング・スクリプト・モデルは、初歩モデル
の有限のセットからの一連の初歩モデルを含む。

【００２１】図２は、音素の音響マーコフ・モデルの例
を示す。この例では、音声のモデルＰ_Nは、初期状態
Ｓ_i、最終状態Ｓ_fおよび中間の状態Ｓ₁からＳ₅を有す
る。各状態Ｓ_iおよびＳ₁からＳ₅は、他の状態へ移行
し、或いは同じ状態に戻るための１つ以上の移行経路を
有する。各移行は、発生の確率を有し、移行の発生に関
する１つ以上のプロトタイプ・ベクトル信号の識別値を
出力する確率を有する。図２において示された音声のマ
ーコフ・モデルＰ_Nは、４つのタイプの初歩モデルＴ
（０，Ｎ）、Ｔ（１，Ｎ）、Ｔ（２，Ｎ）およびＴ
（３，Ｎ）を含む。

【００２２】初歩モデルＴ（０，Ｎ）によって代表され
る各移行は、ヌル(null)移行を表し、プロトタイプ・ベ
クトル信号識別値を出力するゼロの確率を有する。音声
のマーコフ・モデルＰ_Nの初歩モデルＴ（１，Ｎ）によ
って代表される移行は、１つ以上のプロトタイプ・ベク
トル信号識別値を出力するゼロでない確率を有する。初
歩モデルＴ（１，Ｎ）によってモデル化された３つの移
行のそれぞれは、１つ以上のプロトタイプ・ベクトル信
号識別値を出力する確率の同じ分布を持つ。同様に、こ
の例では、初歩モデルＴ（２，Ｎ）は、音声のモデルＰ
_Nにおいて４つの移行をモデル化し、初歩モデルＴ
（３，Ｎ）は、音声のマーコフ・モデルＰ_Nにおいて３
つの移行をモデル化する。

【００２３】表１は、トレーニング・スクリプトの一部
とトレーニング・スクリプトのモデルを形成する音声の
モデルの仮説的例を示している。

【００２４】

【表１】この仮説的例において、単語「Ａ」は、音声のモデル
｛Ｐ１Ｐ８２｝によってモデル化されている。単語
「ｓｐｅｅｃｈ」は、音声のモデル｛Ｐｌ９Ｐ５Ｐ８
２Ｐ７｝によってモデル化されいる。等々。音声モデ
ルのパラメータは、音声モデルにおける移行の発生の確
率及び音声モデルの初歩モデルにおける１つ以上のプロ
トタイプ・ベクトル信号識別値を出力する確率を含む。
パラメータは、多数の異なる話し手に大くの既知の単語
を発言させることによって、更に例えば、前方・後方ア
ルゴリズムを使用することによって得られる。例えば、
「統計的手法による連続音声認識(Continuous Speech R
ecognition By StatisticalMethods, Frederick Jeline
k) IEEE, ボリューム 64, No. 4, 1976年４月, 532-556
頁」参照。

【００２５】図１に帰って、音声特徴値測定１０で測定
した発言が、トレーニング・スクリプト・モデル記憶２
０に記憶したトレーニング・スクリプトのトレーニング
発言であるとき、スイッチ２２は、整合プロセッサ２４
に、トレーニング・スクリプトのトレーニング発言に対
応するコード化された発言表示信号及びトレーニング特
徴ベクトル信号を提供する。整合プロセッサ２４は、ト
レーニング・スクリプト・モデルにおける第１の初歩モ
デルに対応しているトレーニング特徴ベクトル信号の第
１のセットを識別する。表２は、表１において示された
トレーニング・スクリプト音声モデルのトレーニング・
スクリプトの初歩モデルと整合された１次元トレーニン
グ音声特徴ベクトルの仮説的例を示している。

【００２６】

【表２】例えば、ビタービ（Ｖｉｔｅｒｂｉ）のアルゴリズムを
使用することによって、音響特徴ベクトルのトレーニン
グ・スクリプトの初歩モデルとの整合は得られるであろ
う。例えば、上述の「統計的手法による連続音声認識(C
ontinuous Speech Recognition by Statistical Method
s)」参照。表３は、表１のトレーニング・スクリプト・
モデルにおいて、音声モデルＰ１の第１の初歩モデルＴ
（１，１）に対応している１次元トレーニング特徴ベク
トルの第１のセットの仮説的例を示している。

【００２７】

【表３】トレーニング・スクリプト・モデルにおける各初歩モデ
ルは、トレーニング・スクリプトにおいて１つ以上の先
行または後続のモデル（音声モデルのような）から成る
文脈を有する。本発明の１局面において、トレーニング
特徴ベクトル信号の第１のセットは、第１の文脈におけ
るトレーニング・スクリプトにおいて第１の初歩モデル
に対応する。上で、表３の仮説的例において示されるよ
うに、トレーニング音響特徴ベクトルの第１のセット
が、Ｃ（Ｌｌ２）と指定された仮説的文脈におけるトレ
ーニング・スクリプトの初歩モデルＴ（１，１）に対応
する。例えば、トレーニング特徴ベクトル信号のセット
をグループ化するために使われる初歩モデルの文脈特徴
は、手作業で選択される。

【００２８】或いは、文脈特徴は、プロトタイプ・ベク
トルに対応する各特徴ベクトル信号をその文脈で標識を
つけ、特徴ベクトルをその文脈に従ってグループ化し
て、選択された評価関数を最適化することによって自動
的に選択することもできる。例えば、初歩モデルの文脈
は、トレーニング・スクリプトにおいて初歩モデルに先
行する５個の音素及び初歩モデルに続く５個の音素から
構成されている。１つのトレーニング・スクリプトの初
歩モデルに対応しているトレーニング音響特徴ベクトル
の各セットに関して、音響特徴ベクトルのセットを２つ
のサブセットに分割する数多くの文脈候補に対する疑問
がある。例えば、文脈候補の疑問は、「直前の音素は一
定の音か？」ということである。

【００２９】各候補の疑問は、疑問から得られたサブセ
ットの評価関数によって点数がつけられる。最も高い得
点に対応している候補文脈の疑問が選択される。１つの
適当な評価関数Ｅが式１によって与えられる。

【００３０】

【式１】ここで、

【００３１】

【式２】式１において、評価関数Ｅは、初歩モデルに対応してい
る音響特徴ベクトルｖ _iの第１のサブセットの見込みＬ₁
と初歩モデルに対応している音響特徴ベクトルの第２の
サブセットの見込みＬ₂の積である。各見込みＬ_aは、与
えられたサブセットにおける各音響特徴ベクトルｖｉの
確率とサブセットにおける音響特徴ベクトルのガウス分
布Ｎ（μ_a，σ_a）の積と等しく、ここでμ_aは、サブセ
ットにおける音響特徴ベクトルの平均であり、σ_aは、
サブセットにおける音響特徴ベクトルの標準偏差であ
る。特定の文脈において特定の初歩モデルに対応してい
る音響特徴ベクトルの各サブセット（上に記述された方
法で得られた選択された文脈の疑問に従って）は、更に
候補文脈に関する疑問のもう１つのセットを評価し、最
も良い文脈の疑問を選択することによって分割される。

【００３２】この方法を使用して、クラスにおける特徴
ベクトルの数が閾値以下（例えば１００の特徴ベクト
ル）になるか叉は、サブセットを分割することによる情
報の利得が閾値以下になるまで音響特徴ベクトルの各新
しいサブセットが分割される。各サブセットを分割する
ことによる利得は、Ｌ₁Ｌ₂／Ｌ_1,2 として見積もられ
る。ここで、見込みＬ_1,2は、式２から、音響特徴ベク
トルの非分割サブセットの見込みである。閾値は、例え
ば１０^2.5である。

【００３３】一般に、１つの初歩モデルに対応している
一組の音響特徴ベクトルは、先行及び後続する音素の３
０の異なる文脈における初歩モデルに対応する３０のサ
ブセットに分割される。図３は、トレーニング・スクリ
プト・モデルにおける初歩モデルの文脈を識別するため
の仮説的バイナリ・デシジョン・ツリーの例をおおまか
に示している。デシジョン・ツリーは、ツリーの各ノー
ドＮで上に述べた方法によって選択された文脈の疑問を
使用して構成される。トレーニング・スクリプトにおけ
る初歩モデルの特定の発生に関して、尋ねられる次の文
脈の疑問は、前の文脈の疑問が「イエスと答えられてい
るか」或いは「ノーと答えられているか」に依存する。

【００３４】その文脈の疑問がデシジョン・ツリーの同
じリーフＬで終了するトレーニング・スクリプトにおけ
る全ての初歩モデルの発生は、同じ文脈を持つ。図１に
帰って、音声コード化装置は更に、少くとも第１及び第
２の基準ベクトル信号を記憶するための基準ベクトル信
号記憶２６を含む。各基準ベクトル信号は、少くとも１
つのパラメータ値を持つ。比較プロセッサ２８は、第１
のセットにおける各トレーニング特徴ベクトル信号の特
徴値を第１の基準ベクトル信号のパラメータ値と比較
し、各トレーニング特徴ベクトル信号と第１の基準ベク
トル信号に関する第１の近さ得点を得る。

【００３５】比較プロセッサ２８はまた、第１のセット
における各トレーニング特徴ベクトル信号の特徴値を第
２の基準ベクトル信号のパラメータ値と比較し、各トレ
ーニング特徴ベクトル信号と第２の基準ベクトル信号に
関する第２の近さ得点を得る。最後に、第１のセットに
おける各トレーニング特徴ベクトル信号に関して、比較
プロセッサ２８は、トレーニング特徴ベクトル信号に関
する第１の近さ得点をトレーニング特徴ベクトル信号に
関する第２の近さ得点と比較し、各トレーニング特徴ベ
クトル信号と第１及び第２の基準ベクトル信号に関する
基準照合得点を得る。表３の仮説的例（上記）におい
て、トレーニング音響特徴ベクトルは、一次元基準ベク
トルＡ及びＢと比較され、各トレーニング音響特徴ベク
トルと基準ベクトルＡ及びＢに対する近さ得点を得る。

【００３６】また、この仮説的例に関して、各トレーニ
ング特徴ベクトルに対する基準照合得点が示されてい
る。この例では、基準照合得点は、基準ベクトルＡへの
音響特徴ベクトルの近さの基準ベクトルＢへの音響特徴
ベクトルの近さに対する比率と等しい。１次元以上の音
響特徴ベクトル及び基準ベクトルに関して、近さ得点
は、二乗されたユークリッド距離である。トレーニング
特徴ベクトル信号記憶３０の第１のサブセットは、第１
のセットに閾値Ｑより良い基準照合得点を有するトレー
ニング特徴ベクトル信号を含む。トレーニング特徴ベク
トル信号記憶３２の第２のサブセットは、第１のセット
に閾値Ｑより悪い基準照合得点を有するトレーニング特
徴ベクトル信号を含む。

【００３７】表３の仮説的例に帰って、仮説的閾値Ｑ＝
４に対して、各トレーニング音響特徴ベクトルは、閾値
Ｑ＝４より少ない基準照合得点を有するサブセットＡ
か、或いは閾値Ｑ＝４より大きい基準照合得点を有する
サブセットＢに割り当てられる。その後は、改訂プロト
タイプ区画値ゼネレータ３４は、トレーニング特徴ベク
トル信号の第１のサブセットからの第１のプロトタイプ
・ベクトル信号に関する１つ以上の区画値を生成し、ト
レーニング特徴ベクトル信号の第２のサブセットからの
第１のプロトタイプ・ベクトル信号に対する１つ以上の
追加の区画値を生成する。

【００３８】トレーニング特徴ベクトル信号の各サブセ
ットは、１つ以上の異なるクラスタにグループ化され
る。例えば、各区画値は、クラスタにおいて、トレーニ
ング特徴ベクトル信号の特徴値の平均を含む。各区画値
は、クラスタにおいて、更にトレーニング特徴ベクトル
信号の特徴値の分散を含む。表４は、表３の仮説的例に
おける区画Ａ及びＢと対応する平均及び分散を示してい
る。

【００３９】

【表４】図４は、図１の改訂プロトタイプ区画値ゼネレータ３４
の例のブロック・ダイヤグラムである。基準ベクトル信
号記憶３６は、少なくとも第３及び第４の基準ベクトル
信号を記憶する。各基準ベクトル信号は、少くとも１つ
のパラメータ値を持つ。比較プロセッサ３８は、トレー
ニング特徴ベクトル信号記憶３０（図１）の第１のサブ
セットにおける各トレーニング特徴ベクトル信号の特徴
値を第３の基準ベクトル信号のパラメータ値と比較し
て、トレーニング特徴ベクトル信号と第３の基準ベクト
ル信号に関する第３の近さ得点を得る。比較プロセッサ
３８はまた、第１のサブセットにおける各トレーニング
特徴値信号の特徴値を第４の基準ベクトル信号のパラメ
ータ値と比較して、トレーニング特徴ベクトル信号と第
４の基準ベクトル信号に関する第４の近さ得点を得る。

【００４０】第１のサブセットにおける各トレーニング
特徴ベクトル信号に関して、トレーニング特徴ベクトル
信号に対する第３の近さ得点は、トレーニング特徴ベク
トル信号に対する第４の近さ得点と比較されて、各トレ
ーニング特徴ベクトル信号と第３及び第４の基準ベクト
ル信号に関するサブ・基準照合得点を得る。第３及び第
４の基準ベクトル信号のパラメータ値は、例えば、それ
ぞれ第１及び第２の基準ベクトル信号のパラメータ値に
同一である。図４を基準すると、更に図１の改訂プロト
タイプ区画値ゼネレータ３４は、第１のサブセットに閾
値Ｑ’より高いサブ基準照合得点を有するトレーニング
特徴ベクトル信号を記憶するための特徴ベクトル信号記
憶４０の第１のサブ・サブセットを有する。

【００４１】トレーニング特徴ベクトル信号記憶４２の
第２のサブ・サブセットは、第１のサブセットに閾値
Ｑ’より悪いサブ・基準照合得点を有するトレーニング
特徴ベクトルを記憶する。改訂プロトタイプ区画値ゼネ
レータ４４は、特徴ベクトル信号の第１のサブ・サブセ
ットからの第１のプロトタイプ・ベクトル信号に対する
１つ以上の区画値を生成し、トレーニング特徴ベクトル
信号の第２のサブ・サブセットからの第１のプロトタイ
プ・ベクトル信号に対する１つ以上の追加の区画値を生
成する。第１の基準ベクトル信号のパラメータ値は、例
えば、第２の文脈にけるトレーニング・スクリプトの初
歩モデルに対応するトレーニング特徴ベクトル信号の第
２のセットの特徴値の平均を含む。

【００４２】第２の文脈は、第１の文脈と同じであるか
叉は異なる。第２の基準ベクトル信号のパラメータ値
は、第１及び第２の文脈と異なる第３の文脈におけるト
レーニング・スクリプトの初歩モデルに対応するトレー
ニング特徴ベクトル信号の第３のセットの特徴値の平均
を含む。基準ベクトル信号記憶２６及び基準ベクトル信
号記憶３６に記憶された基準ベクトル信号が選択され、
例えば、以下の方法で閾値Ｑの値が得られる。多数の単
語を含んでいる既知の基準スクリプトは、多数の異なる
話し手によって発言される。基準スクリプトの各初歩モ
デルに関して、基準スクリプトにおいてその初歩モデル
の各発生に対応している全ての音響特徴ベクトルが識別
される。

【００４３】例えば、その初歩モデルの各発生の文脈
は、図３のツリーのようなデシジョン・ツリーを使用し
て同様に識別される。基準スクリプトを発した各話し手
Ｓに関して、話し手Ｓに属し、また選択された初歩モデ
ルと関連する音響特徴ベクトルは、基準スクリプトにお
いて関連する初歩モデルの発生に従ってグループ化され
る。各グループＧ_S,C(Lj)は、選択された初歩モデル、
話し手Ｓ及び文脈Ｃ（Ｌｊ）と関連する全ての音響特徴
ベクトルを含む。音響特徴ベクトルの各グループは、グ
ループ内で音響特徴ベクトルの平均から成る平均ベクト
ルＭ（Ｇ_S,C(Lj)）を持つ。各話し手Ｓに属し、グルー
プＧ_S,C(Lj)に属する各音響特徴ベクトルＸ_Si及び文脈
の対Ｃ（Ｌｋ）及びＣ（Ｋｋ’）に関して、比率

【００４４】

【式３】が計算される。関数Ｄは、例えば、各音響特徴ベクトＸ
_S,iと平均ベクトルＭ（Ｇ_S,C）の間の２乗されたユーク
リッドの距離である。文脈の対Ｃ（Ｌｋ）及びＣ（Ｌ
ｋ’）及び基準スクリプトの全ての話し手Ｓに対して前
述の式から得た比率Ｒ（Ｘ_S,i）が、昇順或いは降順に
分類される。変数ＳＬ（Ｈ）は分類されたリストの上の
Ｈ番目のエレメントを示し、Ｎはリストのサイズを示
す。２からＮまでの範囲で、全てのインデックスＨにつ
いて、候補閾値Ｑは次のように定義される。

【００４５】

【式４】全ての話し手Ｓについて、グループＧ_S,C(Lj)における
各音響特徴ベクトルＸ_s _,iは、比率Ｒ（Ｘ）が候補閾値
Ｑより大きいか小さいかによって、２組のうちの１組に
割り当てられる。閾値Ｑに対する候補値から得られた各
分割に関して、分割の利益が上の式１を使用して計算さ
れる。文脈の対Ｃ（Ｌｋ）及びＣ（Ｌ．ｋ’）に関し
て、最大の利益をもたらす分割を生成したＱの値が記憶
される。同様に分割の利益も記憶される。音響特徴ベク
トルの同じグループＧ_S,C(Lj)及び各他の文脈対Ｃ（Ｌ
α）及びＣ（Ｌβ）に対して、Ｑの最適値が見つけら
れ、結果として利益Ｂが見つけられる。

【００４６】すべての文脈対の間で最大の利益Ｂ_maxを
有する文脈対Ｃ（Ｌ_max）及びＣ（Ｌ’_max）及び対応す
る比率Ｑ_maxがそれぞれ基準ベクトル及び基準照合得点
の閾値Ｑとして選択される。音響特徴ベクトルのグルー
プＧ_S,C(Lj)は、それから特徴ベクトルに対する基準照
合得点が、選択された基準照合得点の閾値Ｑより大きい
か或いは小さいかによって２つのサブセットに分割され
る。もし十分なデータと十分な利益があれば、各サブセ
ットは、更に同じ方法で小分割され、更に多くの基準ベ
クトルに対する更に多くの文脈対を得る。もし利益Ｂが
選択された利益の閾値を越えないならば、サブセットは
小分割されない。新しい話し手に関して、各基準ベクト
ルは、新しい話し手によって生成され、基準ベクトルに
対応している文脈におけるトレーニング・スクリプトの
初歩モデルに対応する一組のトレーニング特徴ベクトル
信号の特徴値の平均を含む。

【００４７】必要な計算の量を減らすために、基準照合
得点の閾値Ｑは、オプションとして１に設定しても良
い。このことは、候補の基準ベクトルの各対と関連する
最適の閾値に関してサーチをしなくて済む。上で述べた
ように、音響特徴ベクトルとプロトタイプ・ベクトルに
対するプロトタイプ照合得点は、音響特徴ベクトルに最
も近いプロトタイプ・ベクトルの１区画の照合得点によ
って近似することができる。最もよい照合得点を生みそ
うな区画が、デシジョン・ツリーを使用することによっ
て、プロトタイプ・ベクトルの全ての区画に音響特徴ベ
クトルを照合するより少ない計算によって見つけること
ができる。プロトタイプ・ベクトルを区画するのに使わ
れる基準ベクトルの各対は、デシジョン・ツリーの１つ
のノードと関連している。

【００４８】図３と類似であるが「式３の比率Ｒ（Ｘ
_s,i,k,k'）がＱより大きいか？」の疑問を有するデシジ
ョン・ツリーは、各ノードで文脈の疑問を置き換える。
本発明による音声コード化装置において、比較プロセッ
サ１６、２８、及び３８及び整合プロセッサ２４、改訂
プロトタイプ区画値ゼネレータ３４及び４４は、適切に
プログラムされた特定目的叉は汎用目的のディジタル信
号プロセッサである。プロトタイプ・ベクトル信号記憶
１２及び１４、トレーニング特徴ベクトル信号記憶３
０、３２、４０、及び４２、トレーニング・スクリプト
・モデル記憶２０、及び基準ベクトル信号記憶２６、３
６は、コンピュータ・メモリである。音響特徴値測定の
１例が、図５に示されている。

【００４９】測定手段は、発言に対応するアナログ電気
信号を生成するためのマイクロホン４６を含む。マイク
ロホン４６からのアナログ電気信号は、アナログ・ディ
ジタル変換器４８によってデジタル電気信号に変換され
る。この目的のために、アナログ信号は、例えば２０キ
ロヘルツの割合でアナログ・ディジタル変換器４８によ
ってサンプリングされる。ウィンドウ・ゼネレータ５０
は、１０ミリ秒毎（１センチ秒毎）のアナログ・ディジ
タル変換器４８からのディジタル信号を、例えば２０ミ
リ秒間隔のサンプルとして取得する。各２０ミリ秒間隔
のディジタル信号サンプルは、例えば２０の周波数帯域
の各々におけるディジタル信号サンプルの振幅を得るた
めにスペクトル解析器５２によって分析される。

【００５０】スペクトル解析器５２はまた、全体の振幅
叉は２０ミリ秒ディジタル信号サンプルの全体の電力を
表す２１次元目の信号を生成することが望ましい。スペ
クトル解析器５２は、例えば高速フーリェ変換プロセッ
サである。代わりに、２０個のバンド・パス・フィルタ
のバンク(bank)であってもよい。スペクトル解析器５２
によって生成された２１次元ベクトル信号は、編集され
て適応ノイズ・キャンセル・プロセッサ５４によって、
背景ノイズを除去される。ノイズ・キャンセル・プロセ
ッサ５４は、ノイズ・キャンセル・プロセッサに入力さ
れた特徴ベクトルＦ（ｔ）からノイズ・ベクトルＮ
（ｔ）を引き算して出力特徴ベクトルＦ’（ｔ）を生成
する。

【００５１】ノイズ・キャンセル・プロセッサ５４は、
前の特徴ベクトルＦ（ｔ‐１）がノイズ又は無音として
識別されたときはいつでも、ノイズ・ベクトルＮ（ｔ）
を定期的に更新することによって変化するノイズ・レベ
ルに適応する。ノイズ・ベクトルＮ（ｔ）は、次の式に
従って更新される。

【００５２】

【式５】ここで、Ｎ（ｔ）は時間ｔにおけるノイズ・ベクトルで
あり、Ｎ（ｔ‐１）は時間（ｔ‐１）におけるノイズ・
ベクトルであり、ｋは適応ノイズ・キャンセル・モデル
の固定パラメータをであり、Ｆ（ｔ‐１）は時間（ｔ‐
１）においてノイズ・キャンセル・プロセッサ５４に入
力された特徴ベクトルでノイズ叉は無音を表し、Ｆｐ
（ｔ‐１）は、記憶５６からの１つの無音又はノイズの
プロトタイプ・ベクトルで、特徴ベクトルＦ（ｔ‐１）
に最も近い。前の特徴ベクトルＦ（ｔ‐１）は、もし
（ａ）ベクトルの全体のエネルギが閾値以下であるか、
叉は、（ｂ）適応プロトタイプ・ベクトル記憶５８にお
いてもっとも特徴ベクトルに近いプロトタイプ・ベクト
ルが、ノイズ又は無音を表すプロトタイプであるかによ
ってノイズ或いは無音として認識される。

【００５３】特徴ベクトルの全体のエネルギに関する分
析の目的で、閾値は例えば、評価される特徴ベクトルの
前２秒間に生成された全ての特徴ベクトル（音声および
無音に対応する）の５パーセンタイルである。ノイズ・
キャンセルの後、特徴ベクトルＦ’（ｔ）は、短項平均
正規化プロセッサ(short term mean normalization pro
cessor)６０によって正規化され、入力音声の大きさの
変化に対して調整される。正規化プロセッサ６０は、２
１次元特徴ベクトルＦ'（ｔ）を正規化し、２０次元正
規化特徴ベクトルＸ（ｔ）を生成する。全体の電力叉は
全体の振幅を表す特徴ベクトルＦ’（ｔ）の２１次元目
は、破棄される。

【００５４】時間ｔにおける正規化特徴ベクトルＸ
（ｔ）の各コンポーネントｉは、対数関数領域において
次の式６によって与えられる。

【００５５】

【式６】ここで、Ｆ'ｉ（ｔ）は、時間ｔにおける正規化されて
ないベクトルのｉ番目のコンポーネントであり、Ｚ
（ｔ）は式７および８によるＦ’（ｔ）およびＺ（ｔー
１）のコンポーネントの加重平均である。

【００５６】

【式７】ここで、

【００５７】

【式８】正規化された２０次元特徴ベクトルＸ（ｔ）は、適応ラ
ベラ(labeler)６２によって更に処理され、音声の発音
における変化に適応させる。適応された２０次元特徴ベ
クトルＸ’（ｔ）は、２０次元適応ベクトルＡ（ｔ）を
適応ラベラ６２の入力に与えられた２０次元特徴ベクト
ルＸ（ｔ）から引くことによって生成される。時間ｔに
おける適応ベクトルＡ（ｔ）は、次の式９によって与え
られる。

【００５８】

【式９】ここで、ｋは適応ラベル・モデルの固定パラメータであ
り、Ｘ（ｔ‐１）は、時間（ｔ‐１）における適
応ラベラ６２に対する正規化２０次元ベクトル入力であ
り、Ｘｐ（ｔ‐１）は、時間（ｔ‐１）において２０次
元特徴ベクトルＸ（ｔ‐１）に最も近い適応プロトタイ
プ・ベクトル（適応プロトタイプ記憶５８から）であ
り、Ａ（ｔ‐１）は時間（ｔ‐１）における適応ベクト
ルである。適応ラベラ６２からの２０次元適応特徴ベク
トル信号Ｘ’（ｔ）は、聴覚モデル６４に与えられるの
が望ましい。聴覚モデル６４は、例えば、人間の聴覚シ
ステムがどのように音声信号を感知するかのモデルを提
供する。聴覚モデルの例は、米国特許第４，９８０，９
１８号において述べられている。

【００５９】本発明によれば、時間ｔにおける適応さら
れた特徴ベクトル信号Ｘ’（ｔ）の各周波数帯域ｉに関
して、聴覚モデル６４は、式１０および１１に従って新
しいパラメータＥ_i（ｔ）を計算する：

【００６０】

【式１０】ここで、

【００６１】

【式１１】更に、Ｋ₁、Ｋ₂及びＫ₃は、聴覚モデルの固定パラメー
タである。各センチ秒（１０ミリ秒）の時間間隔毎に、
聴覚モデル６４の出力は、修正された２０次元特徴ベク
トル信号である。この特徴ベクトルは、他の２０次元の
値の２乗の和の平方根と等しい値を有する２１次元目に
よって増大される。各センチ秒の時間間隔毎に、コンカ
チネータ６６が、１つの現在のセンチ秒時間間隔、４つ
の先行するセンチ秒時間間隔、及び４つの後続のセンチ
秒時間間隔を表す９つの２１次元特徴ベクトルを連結し
て、１つの組み継がれた１８９次元のベクトルを形成す
ることが望ましい。各１８９次元の組み継がれたベクト
ルは、ロテータ６８において回転マトリックスを乗じ
て、組み継がれたベクトルを回転し、組み継がれたベク
トルを５０次元に減らすことが望ましい。

【００６２】ロテータ６８において使われる回転マトリ
ックスは、例えば、トレーニング・セッションの間に得
られた一組の１８９次元の組み継がれたベクトルをＭ個
のクラスに類別することによって得られるであろう。ト
レーニング・セットにおける全ての組み継がれたベクト
ルに対する共分散マトリックスは、全てのＭクラスにお
ける全ての組み継がれたベクトルに対するクラス共分散
マトリックスの範囲内のサンプルの反数を乗じられる。
結果として生ずるマトリックスの最初の５０個の固有ベ
クトルは、回転マトリックスを形成する。

【００６３】（例えば、Ｌ．Ｒ．ＢａｈｌによるＩＢＭ
テクニカルディスクロージャ・ブルチン、第３２巻、７
番、１９８９年１２月、ページ３２０及び３２１「離散
的パラメータ音素に基づくマーコフ単語モデルを使用し
た音声認識システムに対するベクトル量子化手順（Vect
or Quantization Procedure For Speech RecognitionSy
stems Using Discrete Parameter Phoneme-Based Marko
v Word Models）」を参照）ウィンドウ・ゼネレータ５０、スペクトル解析器５２、
適応ノイズ・キャンセル・プロセッサ５４、短項平均正
規化プロセッサ６０、適応ラベラ６２、聴覚モデル６
４、コンカチネータ６６、及びロテータ６８は、適切に
プログラムされた特殊目的或いは汎用のデジタル信号プ
ロセッサでよい。プロトタイプ記憶５６及び５８は、コ
ンピュータ・メモリである。

【００６４】

【発明の効果】本発明により、比較的少ない量のトレー
ニング・データと比較的少ない計算資源の消費によっ
て、プロトタイプ・ベクトルが正確に生成できる音声コ
ード化装置を提供することができ、更に新しい話し手に
対するプロトタイプ・ベクトルの区画が、他の話し手の
同じプロトタイプ・ベクトルの区画と相関することがで
き、その結果、多くの他の話し手から得られたプロトタ
イプ・ベクトル・データが、新しい話し手に対するプロ
トタイプ・ベクトルを生成するのに役立つような音声コ
ード化装置を提供することができる。更に、音響特徴の
値が、少ない計算量でプロトタイプ・ベクトルの区画の
パラメータ値と比較できる音声コード化装置を提供する
ことができる。

【図面の簡単な説明】

【図１】本発明に従った音声コード化装置のブロック・
ダイヤグラム。

【図２】図２は、音素の音響マーコフ（Ｍａｒｋｏｖ）
モデルの例を示す図。

【図３】トレーニング・スクリプト・モデルにおいて先
行及び後続の音声モデルの文脈に従って、トレーニング
・スクリプト・モデルにおける初歩モデルの文脈を識別
するためのデシジョン・ツリーの例を示す図。

【図４】図１の改訂プロトタイプ区画値ゼネレータのブ
ロック・ダイヤグラム。

【図５】図１の音響特徴値測定のブロック・ダイヤグラ
ム。

【符号の説明】

１０音響特徴値測定１２プロトタイプ・ベクトル信号記憶１６、２８、３８比較プロセッサ２４整合プロセッサ４８アナログ・ディジタル変換器５０ウィンドウ・ゼネレータ５２スペクトル解析器５４適応ノイズ・キャンセル・プロセッサ６０平均正規化プロセッサ

フロントページの続き (72)発明者ポナーニエスゴパラクリシュナンアメリカ合衆国 10598 ニューヨーク州ヨークタウンハイツラドクリフドライブ 3073 (72)発明者マイケルアランピケニアメリカ合衆国 10404 ニューヨーク州ホワイトプレーンズラルフアベニュー 118

Claims

【特許請求の範囲】

【請求項１】一連の連続した時間間隔で発言の少くと
も１つの特徴値を測定し、特徴値を表す一連の特徴ベク
トルを生成する手段と、各プロトタイプ・ベクトル信号が少くとも２つの区画か
ら成り、識別値を有し、各区画が少なくとも１つのパラ
メータ値を有する複数のプロトタイプ・ベクトル信号を
記憶する手段と、第１の特徴ベクトル信号の特徴値と各プロトタイプ・ベ
クトル信号の少くとも１区画のパラメータ値との近さを
比較して、第１の特徴ベクトル信号と各プロトタイプ・
ベクトル信号に関するプロトタイプ照合得点を得る手段
と、第１の特徴ベクトル信号のコード化された発言表現信号
として、少くとも最良のプロトタイプ照合得点を有する
プロトタイプ・ベクトル信号の識別値を出力する手段
と、初歩モデルの有限のセットからの一連の初歩モデルから
構成されるトレーニング・スクリプト・モデルを記憶す
る手段を有し、記憶されたプロトタイプ・ベクトル信号
を生成する手段と、トレーニング・スクリプトのトレーニング発言の少くと
も１つの特徴値を一連の連続した時間間隔の各々に対し
て測定し、特徴値を表す一連のトレーニング特徴ベクト
ルを生成する手段と、トレーニング・スクリプト・モデルにおける第１の初歩
モデルに対応するトレーニング特徴ベクトル信号の第１
のセットを識別する手段と、各基準ベクトル信号が、少くとも１つのパラメータ値を
有する少くとも第１及び第２の基準ベクトル信号を記憶
する手段と、第１の基準ベクトル信号のパラメーター値と、第１のセ
ットにおける各トレーニング特徴ベクトル信号の特徴値
を比較して、各トレーニング特徴ベクトル信号及び第１
の基準ベクトル信号に関する第１の近さ得点を得る手段
と、第２の基準ベクトル信号のパラメーター値と、第１のセ
ットにおける各トレーニング特徴ベクトル信号の特徴値
を比較して、各トレーニング特徴ベクトル信号及び第２
の基準ベクトル信号に関する第２の近さ得点を得る手段
と、第１のセットにおける各トレーニング特徴ベクトル信号
に関して、トレーニング特徴ベクトル信号に対する第１
の近さ得点を、トレーニング特徴ベクトル信号に対する
第２の近さ得点と比較して、各トレーニング特徴ベクト
ル信号と第１及び第２の基準ベクトル信号に対する基準
照合得点を得る手段と、第１のセットにおける閾値Ｑより良い基準照合得点を有
するトレーニング特徴ベクトル信号の第１のサブセット
を記憶し、第１のセットにおける閾値Ｑより悪い基準照
合得点を有するトレーニング特徴ベクトル信号の第２の
サブセットを記憶する手段と、トレーニング特徴ベクトル信号の第１のサブセットから
の第１のプロトタイプ・ベクトル信号に関する１つ以上
の区画値を生成し、トレーニング特徴ベクトル信号の第
２のサブセットからの第１のプロトタイプ・ベクトルに
対する１つ以上の追加の区画値を生成する手段と、を備
えた音声コード化装置。
【請求項２】トレーニング・スクリプトにおける各初
歩モデルが、トレーニング・スクリプトにおいて１つ以
上の先行又は後続するモデルから成る文脈を持ち、トレ
ーニング特徴ベクトル信号の第１のセットが、第１の文
脈におけるトレーニング・スクリプトの第１の初歩モデ
ルに対応することを特徴とする請求項１に記載の音声コ
ード化装置。
【請求項３】第１の基準ベクトル信号のパラメータ値
が、第２の文脈におけるトレーニング・スクリプトの初
歩モデルに対応するトレーニング特徴ベクトル信号の第
２のセットの特徴値の平均を含み、第２の基準ベクトル信号のパラメータ値が、第１及び第
２の文脈と異なる第３の文脈におけるトレーニング・ス
クリプトの初歩モデルに対応するトレーニング特徴ベク
トル信号の第３のセットの特徴値の平均を含む、ことを
特徴とする請求項２に記載の音声コード化装置。
【請求項４】区画値を生成するための上記手段が、ト
レーニング特徴ベクトルの各サブセットを１つ以上の異
なるクラスタにグループ化する手段を含むことを特徴と
する請求項３に記載の音声コード化装置。
【請求項５】トレーニング特徴ベクトル信号の各サブ
セットを、１つ以上の異なるクラスタにグループ化する
ための上記手段が、各基準ベクトル信号が、少くとも１つのパラメータ値を
有する少くとも第３及び第４の基準ベクトル信号を記憶
する手段と、第１のサブセットにおける各トレーニング特徴ベクトル
信号の特徴値を第３の基準ベクトル信号のパラメータ値
と比較し、トレーニング特徴ベクトル信号と第３の基準
ベクトル信号に関する第３の近さ得点を得る手段と、第１のサブセットにおける各トレーニング特徴ベクトル
信号の特徴値を第４の基準ベクトル信号のパラメータ値
と比較して、トレーニング特徴ベクトル信号と第４の基
準ベクトル信号に対する第４の近さ得点を得る手段と、第１のサブセットにおける各トレーニング特徴ベクトル
信号に関して、トレーニング特徴ベクトル信号に対する
第３の近さ得点を、トレーニング特徴ベクトル信号に対
する第４の近さ得点と比較して、各トレーニング特徴ベ
クトル信号と第３及び第４の基準ベクトル信号に対する
サブ基準照合得点得る手段と、第１のサブセットにおいて閾値Ｑ’より良いサブ基準照
合得点を有するトレーニング特徴ベクトル信号の第１の
サブ・サブセットを記憶し、第１のサブセットにおいて
閾値Ｑより悪いサブ基準照合得点を有するトレーニング
特徴ベクトル信号の第２のサブ・サブセットを記憶し、上記区画生成手段が、トレーニング特徴ベクトル信号の
第１のサブ・サブセットからの第１のプロトタイプ・ベ
クトル信号に対する１つ以上の区画値を生成し、トレー
ニング特徴ベクトルの第２のサブ・サブセットからの第
１のプロトタイプ・ベクトル信号に対する１つ以上の追
加の区画値を生成する手段と、を備えることを特徴とす
る請求項４に記載の音声コード化装置。
【請求項６】各区画値が、クラスタにおけるトレーニ
ング特徴ベクトル信号の特徴値の平均を含むことを特徴
とする請求項５に記載の音声コード化装置。
【請求項７】上記各区画値が更に、クラスタにおける
トレーニング特徴ベクトル信号の特徴値の分散を含むこ
とを特徴とする請求項６に記載の音声コード化装置。
【請求項８】閾値Ｑが１に等しいことを特徴とする請
求項７に記載の音声コード化装置。
【請求項９】トレーニング・スクリプト・モデルが一
連の初歩モデルを含む一連の音声モデルを有し、トレー
ニング・スクリプト・モデルにおける各初歩モデルが、
先行及び後続する音声モデルの音声文脈を有し、プロトタイプ生成手段は更に第１及び第２の基準ベクト
ル信号を生成する手段を含み、第１の基準ベクトル信号は、先行及び後続する音声モデ
ルの第１の音声の文脈における第１の初歩モデルに対応
するトレーニング特徴ベクトル信号の平均を含み、第２の基準ベクトル信号は、先行及び後続する音声モデ
ルの第１の文脈と異なる第２の音声の文脈における第１
の初歩モデルに対応するトレーニング特徴ベクトル信号
の平均を含む、ことを特徴とする請求項１に記載の音声
コード化装置。
【請求項１０】上記測定手段がマイクロフォンを含む
ことを特徴とする請求項１に記載の音声コード化装置。
【請求項１１】プロトタイプ・ベクトル信号を記憶す
る手段が、電子的に読み込み可能なメモリをから構成さ
れることを特徴とする請求項１に記載の音声コード化装
置。
【請求項１２】一連の連続した時間間隔で発言の少く
とも１つの特徴値を測定し、特徴値を表す一連の特徴ベ
クトルを生成するステップと、各プロトタイプ・ベクトル信号が少くとも２つの区画か
ら成り、識別値を有し、各区画が少なくとも１つのパラ
メータ値を有する複数のプロトタイプ・ベクトル信号を
記憶するステップと、第１の特徴ベクトル信号の特徴値と各プロトタイプ・ベ
クトル信号の少くとも１区画のパラメータ値との近さを
比較して、第１の特徴ベクトル信号と各プロトタイプ・
ベクトル信号に関するプロトタイプ照合得点を得るステ
ップと、第１の特徴ベクトル信号のコード化された発言表現信号
として、少くとも最良のプロトタイプ照合得点を有する
プロトタイプ・ベクトル信号の識別値を出力するステッ
プと、初歩モデルの有限のセットからの一連の初歩モデルから
構成されるトレーニング・スクリプト・モデルを記憶す
るためのステップを有し、記憶されたプロトタイプ・ベ
クトル信号を生成するステップと、トレーニング・スクリプトのトレーニング発言の少くと
も１つの特徴値を一連の連続した時間間隔の各々に対し
て測定し、特徴値を表す一連のトレーニング特徴ベクト
ルを生成するステップと、トレーニング・スクリプト・モデルにおける第１の初歩
モデルに対応するトレーニング特徴ベクトル信号の第１
のセットを識別するステップと、各基準ベクトル信号が、少くとも１つのパラメータ値を
有する少くとも第１及び第２の基準ベクトル信号を記憶
するステップと、第１の基準ベクトル信号のパラメーター値と、第１のセ
ットにおける各トレーニング特徴ベクトル信号の特徴値
を比較して、各トレーニング特徴ベクトル信号及び第１
の基準ベクトル信号に関する第１の近さ得点を得るため
のステップと、第２の基準ベクトル信号のパラメーター値と、第１のセ
ットにおける各トレーニング特徴ベクトル信号の特徴値
を比較して、各トレーニング特徴ベクトル信号及び第２
の基準ベクトル信号に関する第２の近さ得点を得るため
のステップと、第１のセットにおける各トレーニング特徴ベクトル信号
に関して、トレーニング特徴ベクトル信号に対する第１
の近さ得点を、トレーニング特徴ベクトル信号に対する
第２の近さ得点と比較して、各トレーニング特徴ベクト
ル信号と第１及び第２の基準ベクトル信号に対する基準
照合得点を得るステップと、第１のセットにおける閾値Ｑより良い基準照合得点を有
するトレーニング特徴ベクトル信号の第１のサブセット
を記憶し、第１のセットにおける閾値Ｑより悪い基準照
合得点を有するトレーニング特徴ベクトル信号の第２の
サブセットを記憶するステップと、トレーニング特徴ベクトル信号の第１のサブセットから
の第１のプロトタイプ・ベクトル信号に関する１つ以上
の区画値を生成し、トレーニング特徴ベクトル信号の第
２のサブセットからの第１のプロトタイプ・ベクトルに
対する１つ以上の追加の区画値を生成するステップと、から成る音声コード化方法。
【請求項１３】トレーニング・スクリプトにおける各
初歩モデルが、トレーニング・スクリプトにおいて１つ
以上の先行又は後続するモデルから成る文脈を持ち、ト
レーニング特徴ベクトル信号の第１のセットが、第１の
文脈におけるトレーニング・スクリプトの第１の初歩モ
デルに対応することを特徴とする請求項１２に記載の音
声コード化方法。
【請求項１４】第１の基準ベクトル信号のパラメータ
値が、第２の文脈におけるトレーニング・スクリプトの
初歩モデルに対応するトレーニング特徴ベクトル信号の
第２のセットの特徴値の平均を含み、第２の基準ベクトル信号のパラメータ値が、第１及び第
２の文脈と異なる第３の文脈におけるトレーニング・ス
クリプトの初歩モデルに対応するトレーニング特徴ベク
トル信号の第３のセットの特徴値の平均を含む、ことを
特徴とする請求項１３に記載の音声コード化方法。
【請求項１５】区画値を生成するための上記ステップ
が、トレーニング特徴ベクトルの各サブセットを１つ以
上の異なるクラスタにグループ化するステップを含むこ
とを特徴とする請求項１４に記載の音声コード化方法。
【請求項１６】トレーニング特徴ベクトル信号の各サ
ブセットを、１つ以上の異なるクラスタにグループ化す
るための上記ステップが、各基準ベクトル信号が、少くとも１つのパラメータ値を
有する少くとも第３及び第４の基準ベクトル信号を記憶
するステップと、第１のサブセットにおける各トレーニング特徴ベクトル
信号の特徴値を第３の基準ベクトル信号のパラメータ値
と比較し、トレーニング特徴ベクトル信号と第３の基準
ベクトル信号に関する第３の近さ得点を得るステップ
と、第１のサブセットにおける各トレーニング特徴ベクトル
信号の特徴値を第４の基準ベクトル信号のパラメータ値
と比較して、トレーニング特徴ベクトル信号と第４の基
準ベクトル信号に対する第４の近さ得点を得るステップ
と、第１のサブセットにおける各トレーニング特徴ベクトル
信号に関して、トレーニング特徴ベクトル信号に対する
第３の近さ得点を、トレーニング特徴ベクトル信号に対
する第４の近さ得点と比較して、各トレーニング特徴ベ
クトル信号と第３及び第４の基準ベクトル信号に対する
サブ基準照合得点得るためのステップと、第１のサブセットにおいて閾値Ｑ’より良いサブ基準照
合得点を有するトレーニング特徴ベクトル信号の第１の
サブ・サブセットを記憶し、第１のサブセットにおいて
閾値Ｑ’より悪いサブ基準照合得点を有するトレーニン
グ特徴ベクトル信号の第２のサブ・サブセットを記憶
し、上記区画生成ステップが、トレーニング特徴ベクトル信
号の第１のサブーサブセットからの第１のプロトタイプ
・ベクトル信号に対する１つ以上の区画値を生成し、トレーニング特徴ベクトルの第２のサブーサブセットか
らの第１のプロトタイプ・ベクトル信号に対する１つ以
上の追加の区画値を生成するステップと、から成ること
を特徴とする請求項１５に記載の音声コード化方法。
【請求項１７】各区画値が、クラスタにおけるトレー
ニング特徴ベクトル信号の特徴値の平均を含むことを特
徴とする請求項１６に記載の音声コード化方法。
【請求項１８】上記各区画値が更に、クラスタにおけ
るトレーニング特徴ベクトル信号の特徴値の分散を含む
ことを特徴とする請求項１７に記載の音声コード化方
法。
【請求項１９】閾値Ｑが１に等しいことを特徴とする
請求項１８に記載の音声コード化方法。
【請求項２０】トレーニング・スクリプト・モデルが
一連の初歩モデルを含む一連の音声モデルを有し、トレ
ーニング・スクリプト・モデルにおける各初歩モデル
が、先行及び後続する音声モデルの音声文脈を有し、プロトタイプ生成ステップは更に第１及び第２の基準ベ
クトル信号を生成するステップを含み、第１の基準ベクトル信号は、先行及び後続する音声モデ
ルの第１の音声の文脈における第１の初歩モデルに対応
するトレーニング特徴ベクトル信号の平均を含み、第２の基準ベクトル信号は、先行及び後続する音声モデ
ルの第１の文脈と異なる第２の音声の文脈における第１
の初歩モデルに対応するトレーニング特徴ベクトル信号
の平均を含む、ことを特徴とする請求項１２に記載の音
声コード化装置。