JP2559998B2

JP2559998B2 - 音声認識装置及びラベル生成方法

Info

Publication number: JP2559998B2
Application number: JP6006869A
Authority: JP
Inventors: ラリット・アール・バール; ピーター・デ・ソウザ; ピィ・エス・ゴパラクリシュナン; マイケル・エイ・ピシェニイ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-02-08
Filing date: 1994-01-26
Publication date: 1996-12-04
Anticipated expiration: 2011-12-04
Also published as: JPH06250688A; US5455889A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般的には音声認識シ
ステムにおける音声のラベル付けに関し、特に音声の文
脈に依存したラベル付けに関する。

【０００２】

【従来の技術】音韻学者は発話を区別するに充分な最小
の音の単位（音素と呼ばれる）を発見しようとしてい
る。音素はそれぞれ記号で表わされる。この記号を単音
（phone）という。例えば英語の/p/と/b/は、これによ
ってpinとbinが互いに区別されるから、明確に区別され
る音素である。しかし、同じ音素によって識別された音
区間が必ず同じように響くとみなすべきではない。与え
られた音素の音響学的異種は異音（allophone ）と呼ば
れる。異なる音は２つの条件のうち、発話の区別を妨げ
る少なくとも１つが満足された場合には、同じ音素の異
音とみられる。２つの異音が同じ音環境で生じることは
ない（例えば、potの気音pとtopの無気音p）か、または
同じ音環境で生じる場合は、１つを入れ替えても異なる
単語にはならず、同じ単語の発音が異なるだけである。

【０００３】音声字母（音声アルファベット）は、簡便
なパターン認識に利用するには音声プロセッサによって
拡張しなければならない。与えられた音素の音響学的異
種に対応する認識空間として用いられる領域は、最小数
のコンパクトな凸型小領域に分割する必要がある。各小
領域は、小単音（sub-phone ）と呼ばれる異なる記号に
よってラベル付けされる。これら小領域の全ての集合
（union ）は、単音と呼ばれる記号によって表わされ
る。話者生成モデルと音声プロセッサの構造設計は、音
声経験によって導かれるべきものであるので、得られた
小領域が多少とも従来の認知単位から成るように分割シ
ステムを維持するのが望ましい。詳しくは、"Continuou
s Speech Recognition by Statistical Methods"、Fred
erick Jelinek、Proc．of the IEEE、Vol 64、No．4、pp532-5
56（１９７６年４月）を参照されたい。

【０００４】従来の音声認識システムは、隠れマルコフ
・モデル（ＨＭＭ）を用いて音素を表わすか、またはラ
ベルを表わす。Bahlらによる米国特許第４８１９２７１
号を参照されたい。通常、文脈依存モデリング・システ
ムは隠れマルコフ・モデルを利用する。隠れマルコフ・
モデルは音声認識の分野では周知のものである。一般に
隠れマルコフ・モードは、確率分布、状態、及びアーク
の列である。アークはまた遷移とも呼ばれる。観測ベク
トルは隠れマルコフ・モデルの出力である。確率分布
は、音声プロセッサによって生成された一連の観測ベク
トル上の分布である。隠れマルコフ・モデルの音声認識
に欠かせないステップの１つは、ある語彙内の各語を隠
れマルコフ・モデルの列として特徴づけることである。
モデルに応じて、隠れマルコフ・モデルのそれぞれが語
の全体または音素を表わす。

【０００５】通常、マルコフ・モデルの音声認識システ
ムには、音声入力をラベル列に変換する音声プロセッサ
が含まれる。列内のラベルは、定義済みプロトタイプ群
を利用することによって音声ベクトルの出力に割当てら
れる。各プロトタイプは、全ての音声を定義するｎ次元
空間のベクトル群に対応する。ｎ個の特性の値をもと
に、ｎ個の要素の音声パラメータ・ベクトルが定義され
る。音声パラメータ・ベクトルは特徴ベクトルの１タイ
プである。いわゆる上（supra ）音声は凸領域に分類さ
れる。プロトタイプ・ベクトルは凸領域の代表的ベクト
ルである。与えられた音声パラメータ・ベクトルがどの
凸領域に属するかについて選択が行なわれる。一般に、
音声パラメータ・ベクトルがどの凸領域に関連づけられ
るかを決定する際には、音声パラメータ・ベクトルが各
ラベルに関連づけられたプロトタイプ・ベクトルと比較
される。前述の通り、各凸領域はラベルで識別される。
音声プロセッサは、各時間間隔（通常は１００分の１
秒）に、音声パラメータ・ベクトルを表わす信号を生成
する。音声パラメータ・ベクトルが属する凸領域がこれ
によって決定され、その凸領域のラベルが時間間隔に関
連づけられる。音声プロセッサはこのようにしてその出
力としてラベル列を生成する。文脈に依存しない音声認
識システムは、与えられた音素を個別にモデリングす
る。文脈依存音声認識システムは、与えられた音素を先
行する音素や後続の音素を利用してモデリングする。文
脈依存音声を適切にモデリングするには、文脈に依存し
ない音声をモデリングする場合よりもかなり多い凸領域
が必要である。

【０００６】文脈に依存しないラベル・プロトタイプ・
ベクトルは、個々の音素を用いて決定される。これら文
脈に依存しないラベル・プロトタイプ・ベクトルの生成
時には前後の音素は考慮されない。ただし、語が発音さ
れた時、ある特定の音素は前の音素や後の音素に応じて
実際に変化する。分離した音のアーティキュレーション
に比べて、文脈のなかで発音された音はかなり変化し得
る。つまり、どの音が音素の前後にあるかに応じて、音
素のエネルギ濃度パターンが変化する。従って、隣接し
た音素を明らかにするラベル・プロトタイプ・ベクトル
を生成することで、連続した音声のモデリングが改良さ
れる。音声の文脈を明らかにすることで、文脈依存型ラ
ベル・プロトタイプ・ベクトル信号が得られる。各音素
には、隣接する単音に応じて多くの変形がある。目的の
音素と隣接した音素の組合わせは、目的音素の音声文脈
と呼ばれる。

【０００７】別の隠れマルコフ・モデルをもとにした音
声認識システムは、文脈依存アークのプロトタイプから
導かれたアークのランクに依存する。一般に、この種の
システムは、入力された音声信号を連続した値付き音声
パラメータ・ベクトル列を音声プロセッサによって表わ
す信号に還元する。次に各アークが各音声パラメータ・
ベクトルに条件付き確率を割当てる。次に、これら条件
付き確率がランク・プロセッサによってソートされ、こ
れら条件付き確率にもとづいた、各音声パラメータ・ベ
クトルのランクが出力される。このようなシステムは、
アーク・ランクにもとづくと呼ばれる。

【０００８】隠れマルコフ・モデルのアーク・ランク音
声認識システムでは、トレーニングと認識が、音声ラベ
ルの面ではなくランクの面から行なわれる。他のシステ
ムよりも精度を上げて音声をモデリングするために、文
脈依存型アーク・プロトタイプが用いられる。アーク・
ランクを用いることで、話者のトレーニングや認識の際
にラベラが不要になる。しかし、認識装置を開発するに
は、隠れマルコフ・モードの語モデルの自動生成等のた
めに音声ラベルを使用する必要がある。従って、文脈依
存プロトタイプに対して作動するラベラが必要である。

【０００９】文脈依存ラベル・プロトタイプ・ベクトル
信号を用いて音声のフレームをラベル付けするには、フ
レームの正確な音声文脈を知ることが望ましい。一般的
に、各ラベルはViterbi（ビタービ）アライメントによ
ってそれに対応する単音とのアライメントがとられる。
トレーニング・データが用いられるので、各単音の音声
文脈はわかっている。従ってViterbi アライメントによ
り、ラベルとその音声文脈のアライメントがとられる。
以下、Viterbi アライメントについて詳述する。ランク
を基準にして大量の音声データをViterbi 方式によって
結び付けるのは、しばしば非実用的である。より効率の
よいアライメント方法は、音声ラベルを用いることであ
る。

【００１０】

【発明が解決しようとする課題】問題は、Viterbi アラ
イメントを計算するために音声ラベルが必要になり、ラ
ベルの判定にアライメントが必要であり、ラベルが文脈
依存ラベルのプロトタイプ・ベクトル信号にもとづくこ
とである。ここで求められるのは、この相互依存性を解
決する方法である。

【００１１】

【課題を解決するための手段】本発明は、文脈依存ラベ
ル・プロトタイプ・ベクトルを用いて音声認識用のラベ
ルを生成する方法及び装置に関する。この方法及び装置
はトレーニング・データを受取る手段から成る。このト
レーニング・データがラベル付けされる。ラベル付けの
後、データにタグがつけられる。すなわちデータが適切
な音声文脈と関連づけられる。タグ付きトレーニング・
データの各フレームを得る可能性を最大にする文脈依存
ラベル・プロトタイプ・ベクトルが識別される。可能性
が最大の文脈依存ラベル・プロトタイプ・ベクトルに関
連づけられたラベルも、タグ付きトレーニング・データ
のフレームに関連づけられる。

【００１２】

【実施例】本発明の方法及び装置では、ランク認識シス
テムのモデルが形成される。本発明は、ラベル・プロト
タイプ・ベクトルが文脈に依存し、音声のフレームの文
脈が確実にはわからない時に、葉素（leafeme ）の基本
形構造に必要なラベルを生成する。

【００１３】音声モデリングの基本形として使用できる
モデル単位はいくつかある。音声は１度に１語、或いは
fenon として、すなわち短い音声の単位としてモデリン
グできる。もう１つの方式は、語を葉素の列としてモデ
リングすることである。葉素は、語の各音素に対応する
文脈依存モデルである。本発明は、葉素をモデル基本形
として利用する。

【００１４】図１は、本発明の好適な実施例が作動する
環境を示す。本発明の好適な実施例はコンピュータ・プ
ラットフォーム１０４で作動する。コンピュータ・プラ
ットフォーム１０４は、１つまたは複数の中央処理装置
（ＣＰＵ）１１６、ランダム・アクセス・メモリ（ＲＡ
Ｍ）１１４、及び入出力インタフェース１１８を含むハ
ードウェア装置１１２を含む。コンピュータ・プラット
フォーム１０４は、オペレーティング・システム１０８
を含み、マイクロ命令コード１１０を加えることができ
る。音声認識装置１０３は、オペレーティング・システ
ムを通して実行されるマイクロ命令コード１１０または
アプリケーション・プログラムの１部でもよい。端末１
２６、データ記憶装置１３０、プリンタ１３４等、各種
の周辺機器をコンピュータ・プラットフォーム１０４に
接続することができる。

【００１５】図２は、音声認識装置１０３の詳細を示
す。ユーザ・インタフェース２０２には、発話に応じた
アナログ電気信号を生成するマイクロフォンを追加する
ことができる。アナログ／デジタル（Ａ／Ｄ）変換器も
ユーザ・インタフェース２０２に追加できる。ユーザ・
インタフェース２０２は、信号プロセッサ／特徴抽出器
２０４に接続される。信号プロセッサ／特徴抽出器２０
４は、ユーザ・インタフェース２０２から出力された電
気信号を受取り、音声パラメータ・ベクトル等の特徴ベ
クトル群（以下、特徴ベクトル信号と呼ぶ）を表わす信
号を生成する。図３はこのプロセスの詳細を示す。信号
プロセッサ／特徴抽出器２０４には、アナログ／デジタ
ル（Ａ／Ｄ）変換器、スペクトル・アナライザ等を追加
できる。ユーザ・インタフェース２０２の出力は、信号
プロセッサ／特徴抽出器２０４に接続される。各時間間
隔すなわちフレームに、信号プロセッサ／特徴抽出器２
０４がｎ個の音声特性をチェックする。ｎ個の特性の値
をもとにｎ個の要素の特徴ベクトル３０６を表わす信号
が定義される。好適な実施例の場合、信号プロセッサ／
特徴抽出器２０４は、音声信号から一連の音声パラメー
タ・ベクトルを表わす信号を抽出する。抽出可能なある
タイプの音声パラメータ・ベクトル信号（以下、音声パ
ラメータ・ベクトルと呼ぶ）は、信号の周波数にもとづ
く。信号プロセッサ／特徴抽出器２０４による音声信号
の測定とスペクトル分析によって、周波数に依存する音
声パラメータ・ベクトルが生成される。スペクトル分析
では、複数の異なる周波数帯域ｎ（約２０）の各時間単
位について音声信号のエネルギが測定される。時間単位
すなわちフレームは小さい。従って多くの音声パラメー
タ・ベクトルが秒単位で生成される。

【００１６】信号プロセッサ／特徴抽出器２０４の出力
は、文脈依存ラベラ２０６に接続される。文脈依存ラベ
ラはプロトタイプ記憶メカニズム２０８にも接続され
る。文脈依存ラベラ２０６は、各特徴ベクトルについ
て、文脈に依存する全てのラベルのスコアを計算し関連
づける。文脈依存ラベラ２０６は次に、各特徴ベクトル
を、スコアが最大の文脈依存ラベルに関連づける。各文
脈依存ラベルのスコアと、タグ付き特徴ベクトルが文脈
依存ラベラ２０６から出力される。文脈依存ラベラ２０
６はランク判定器２１０に接続される。ランク判定器
は、文脈依存ラベラ２０６で計算されたスコアをランク
づけする。

【００１７】マッチャ２１２はランク判定器２１０、語
モデル記憶装置２１４、及び仮説サーチャ２１６に接続
される。マッチャ２１２は、語モデル記憶装置２１４か
ら語モデルを、ランク判定器２１０から判定されたラン
クを受取り、各語モデルのスコアを計算する。このスコ
アは仮説サーチャに出力され、そこでスコアが最大の語
モデルが選択される。選択された語は、発話の識別に関
してシステムの判定結果を表わす。

【００１８】図４は、文脈依存ラベラ２０６のモジュー
ルを示す。メモリ・モジュール４０２は、フロッピー・
ディスク、或いはランダム・アクセス・メモリ（ＲＡ
Ｍ）等のデータ記憶装置である。本発明の好適な実施例
では、コンピュータの内部ランダム・アクセス・メモリ
（ＲＡＭ）がメモリ・モジュール４０２として用いられ
る。文脈に依存しないラベラ４０４は、メモリ・モジュ
ール４０２とアライナ４０６に接続される。アライナ４
０６はメモリ・モジュール４０２とタガー４０８に接続
される。タガー４０８はメモリ・モジュール４０２とコ
ンパレータ４１０に接続される。コンパレータ４１０は
メモリ・モジュール４０２と確率判定器４１２に接続さ
れる。確率判定器はメモリ・モジュール４０２と割当て
器４１４に接続される。割当て器はメモリ・モジュール
４０２に接続される。文脈依存ラベラ２０６の入力デー
タと出力データはメモリ・モジュール４０２に格納され
る。

【００１９】図５は、文脈依存ラベラの動作方法を示
す。音声パラメータ・ベクトルは、音声プロセッサ／特
徴抽出器２０４によってメモリ・モジュールに格納され
ている。これら音声パラメータ・ベクトルの文脈に依存
しないラベル付け（ステップ５０４）は非文脈依存ラベ
ラ４０４で生じる。ラベル・アルファベットはわかって
おり、メモリ・モジュール４０２に格納されている。各
ラベルに文脈に依存しないラベル・プロトタイプ・ベク
トル信号と文脈に依存するラベル・プロトタイプ・ベク
トル信号の１群が関連づけられる。これらプロトタイプ
・ベクトル信号はまたメモリ・モジュール４０２に格納
されている（後述）。文脈依存プロトタイプ・ベクトル
の構成方法については、L．R．Bahlらによる"Context D
ependent Vector Quantization for Continuous Speech Recognit
ion"、Proceedings fromthe International Conference
on Acoustics、Speech、and Signal Processing、Minneapolos MN（１９９３年４月）を参照
されたい。文脈に依存しないプロトタイプ・ベクトルの
構成については以下に説明する。これらのラベルの音声
パラメータ・ベクトルへの割当て（ステップ５０４）に
は、非文脈依存ラベル・プロトタイプ・ベクトルが用い
られる。音声パラメータ・ベクトルは、ベクトル量子化
と呼ばれるプロセス（後述）でクラスの異なる音として
ラベル付けされる。

【００２０】あるベクトル量子化法では、異なる音声ベ
クトルがメモリ・モジュール内で異なるクランプに分け
られる。図６を参照する。これらのクランプは、凸領域
６０２、６０４と呼ばれる領域に分けられる。簡単なた
め図６では、２次元のみの音声パラメータ・ベクトルの
形でトレーニング・データを調べる。異なる音声パラメ
ータ・ベクトルをこのように領域に分割することをクラ
スタリングという。クラスタリングのプロセスは、基本
的には、各領域のトレーニング・ベクトルの平均値を計
算することによって各凸領域の平均値を計算するもので
ある。図６のドットは、トレーニング・ベクトル６０
６、６０８を表わす。各領域のトレーニング・ベクトル
について得られた平均値は、プロトタイプまたはプロト
タイプ・ベクトル６１０、６１２と呼ばれる。プロトタ
イプ・ベクトル６１０は凸領域６０４内の全てのトレー
ニング・ベクトルの平均を表わす。これらプロトタイプ
・ベクトルはプロトタイプ記憶装置２０８に格納され
る。プロトタイプ記憶装置の好適な実施例は、メモリ・
モジュール４０２に置かれる。各プロトタイプ・ベクト
ルには識別子が割当てられる。各プロトタイプ・ベクト
ルはまた音のクラスとも呼ばれる。文脈に依存する音声
認識装置と文脈に依存しない音声認識装置に必要なプロ
トタイプ・ベクトル群は異なる。いずれのタイプのプロ
トタイプもメモリ・モジュール４０２に格納される。文
脈に依存する音声のモデリングでは、音の組合わせがモ
デリングされるので、音のクラス（それぞれプロトタイ
プ・ベクトルを持つ）が増える。

【００２１】好適な実施例では、音声パラメータ・ベク
トルがどのクラスの音に関連づけられているかを見つけ
る方法は、音声パラメータ・ベクトルとラベル・プロト
タイプ・ベクトルを分ける距離を判定することによって
実施される。差が最小のラベラ・プロトタイプ・ベクト
ルが音声パラメータ・ベクトルに関連づけられる。この
プロトタイプ・ベクトルの識別子は、この音声パラメー
タ・ベクトルのラベル付けに用いられる。このプロセス
の名称が「ベクトル量子化」である。

【００２２】各音声パラメータ・ベクトルは、話音すな
わち音素に対応するものとして識別されなければならな
い。音声認識では、各語はメモリ・モジュール４０２内
で話音の列として普通に表わされる。例えばモデル"k a
e t"は、語"cat" を表わす。英語のスペルは不規則なの
で、人が語の発音と語のスペリングを知っているという
だけで、どの話音がその語を表わすのかがわかるとは限
らない。好適な実施例の場合、各語は話音すなわち音素
の列にマップされる。つまり音素列が各語を構成する。
音素を表わす記号は単音である。ベクトル・クォンタイ
ザによって、英語を作りあげる異なる音に関連づけられ
たラベルを生成するには、約８０個の単音の目録が必要
である。もちろん、言語が異なれば音とラベルの数が異
なる目録が必要である。

【００２３】異なる単音と、語の発音によって生成され
た音声パラメータ・ベクトルを関連づける操作は、周知
の「Viterbi アライメント」によってアライナ・モジュ
ール４０６において行なわれる（ステップ５０８）。Vi
terbi アライメント法の詳細については、F．Jelinekに
よる"Continuous Speech Recognition by Statistical Methods"、Proc．IEEE、Vol 64、No．4、5
32-556、１９７６年を参照されたい。基本的にViterbi
アライメント法は、与えられたテキスト内の各単音を隠
れマルコフ・モデルによってマッチング或いは関連づけ
て、各単音がどのラベル（すなわちベクトル・クォンタ
イザからの出力）に対応するかを判定する。１例とし
て、図７にテキスト列"The Cat In The Hat"と、このテ
キスト列の音（音素）を表わす単音を示す。Viterbi ア
ライメントは、テキスト列の単音とラベルをマッチング
させる。すなわち各単音は、対応するラベルで識別され
る。例えば語"The"の単音"dh"はラベルＬ₁、Ｌ₂に対応
する。単音"uhl"はラベルＬ₃ 、Ｌ₄、Ｌ₅に対応する。
音声パラメータ・ベクトルはそれぞれ、非文脈依存ラベ
ルに関連づけられる（ステップ５０４）。ラベルと各単
音の関連がわかれば、テキスト列の各単音に対応する音
声パラメータ・ベクトルもわかる（図８参照）。従っ
て、音声パラメータ・ベクトルと音素との対応は、Vite
rbi アライメント法によって確立できる。

【００２４】非文脈依存ラベル・プロトタイプ・ベクト
ルは、前後の音素とは無関係に個々の音素にもとづく。
しかし、語が発音される時、ある特定の音素は実際には
前後の音素によって変化する。発音の仕方は文脈のなか
で発音された時は、音が単独で発せられた時と比べて大
きく変化し得る。つまり、どの音が音素に前後するかに
応じて、音素のエネルギ濃度パターンが変わるのであ
る。例えば音素"s" は、"sue"のように音素"oo"が後に
続くか、或いは"see"のように音素"e" が後に続くかに
よって変化する。従って、隣接した音素を明らかにする
ラベル・プロトタイプ・ベクトルを生成することで、連
続した音声のモデリングが改良される。音声文脈を明ら
かにすれば、文脈依存ラベル・プロトタイプ・ベクトル
が得られる。音素はそれぞれ隣接する音素に応じて多く
の変形を有する。目的音素の音声文脈は、目的音素と隣
接音素の組合わせである。トレーニング・データにその
音声文脈で印をつけるのは、トレーニング・データが本
発明に入力される前である。従って、トレーニング・デ
ータ内の各単音の正確な音声文脈はわかっている。

【００２５】本発明の目標の１つは、システムの語彙内
の各語について、最も発生率の高いラベル列を判定する
ことである。文脈依存型音声システムをモデリングする
には多数のプロトタイプ・ベクトルが必要である。Vite
rbi アライメント５０８は、音声パラメータ・ベクトル
と対応する単音をマッチングさせる。トレーニング・デ
ータは分析されているので、単音と音声文脈との結び付
きもわかっている。図８に示す通り、データのマッチン
グの後、各音声パラメータ・ベクトルの音声文脈もわか
る。

【００２６】音声パラメータ・ベクトル信号がアライナ
４０６によって処理された後、これらの信号は、タガー
・モジュール４０８によって処理される。従って次のス
テップでは、音声パラメータ・ベクトル（ＡＰＶ）信号
のそれぞれにタグがつけられるか、或いは対応する音声
文脈と関連づけられる（ステップ５１０）。タガーはタ
グ付き特徴ベクトル信号を、好適な実施例ではタグ付き
音声パラメータ・ベクトル信号を、メモリ・モジュール
４０２に格納する。

【００２７】ステップ５１２乃至５２０は、タグ付き音
声パラメータ・ベクトルのそれぞれに対して実行され
る。音声パラメータ・ベクトルはステップ５１２で選択
される。文脈依存分析を用いた、各音声パラメータにど
のラベルを関連づけるかの判定は、本発明の成果の１つ
である。本発明では、最初にステップ５１４で、各ラベ
ルについて与えられた音声パラメータ・ベクトルの音声
文脈に対応する文脈依存ラベル・プロトタイプ・ベクト
ルを識別しなければならない。コンパレータ・モジュー
ル４１０は、音声パラメータ・ベクトルを、それがタガ
ー・モジュール４０８でタグ付けされてから処理する。
コンパレータ・モジュール４１０は、ラベル・アルファ
ベットの各ラベルについて、タグ付き音声パラメータ・
ベクトルに関連づけられた音声文脈に対応するプロトタ
イプ・ベクトルが各ラベルにあるかどうかを判定する。
そのプロトタイプ・ベクトルが存在する場合、確率判定
器４１２が、このプロトタイプ・ベクトルが与えられた
タグ付き音声パラメータ・ベクトルを取得する確率を判
定する。好適な実施例の場合、確率判定器４１２は隠れ
マルコフ・モデルを使用して確率を判定する。コンパレ
ータ４１０と確率判定器４１２はラベル・アルファベッ
トの各ラベルについてこのプロセスを続ける。

【００２８】コンパレータ・モジュール４１０と確率判
定器モジュール４１２は、上記タグ付き音声パラメータ
・ベクトルと同じ音声文脈に対応する文脈依存プロトタ
イプを持つ各ラベルについて音声パラメータ・ベクトル
を取得する確率を判定し（ステップ５１６）、この情報
をメモリ・モジュール４０２に格納する。割当てモジュ
ール４１４は、メモリ・モジュール４０２からこの情報
を取得し、音声パラメータ・ベクトルを生成する確率が
最大の文脈依存プロトタイプ・ベクトルを識別する（ス
テップ５１８）。割当てモジュール４１４は、この文脈
依存プロトタイプ・ベクトルに関連づけられたラベルを
メモリ・モジュール４０２から検索し、音声パラメータ
・ベクトルに関連づけられた古いラベルと置き換える
（ステップ５２０）。音声パラメータ・ベクトルに関連
づけられた古いラベルは、ステップ５０４で非文脈依存
ラベラ４０４によって実行された非文脈依存ラベル付け
の結果である。

【００２９】この時点で、与えられた音声パラメータ・
ベクトルは、文脈依存プロトタイプ・ベクトルにもとづ
くラベルで識別される。この情報はメモリ・モジュール
４０２に格納される。ステップ５１２乃至５２０は、ス
テップ５２２に示すように全ての音声パラメータ・ベク
トルについて繰返される。

【００３０】全ての音声パラメータ・ベクトルが識別さ
れた後、ステップ５２４でラベル列の収束が得られるま
でステップ５０８乃至５２２を繰返すことができる。５
０８乃至５２２が繰返される際、ラベルと単音のマッチ
ングを変えることもできる（ステップ５０８）が、マッ
チングが異なる場合は、音声パラメータ・ベクトルに割
当てられたラベル（ステップ５２０）が異なることがあ
り、従って、この反復では収束が得られない。識別とラ
ベル／音声パラメータ・ベクトルの組合わせそれぞれの
スコアは、メモリ・モジュール４０２に格納される。こ
れに続く隠れマルコフ・モジュールは、アーク・ランク
・システム等に使用できる新しいラベル情報から導かれ
る。

【００３１】音声認識システムの性能測定基準として
は、単音／ラベル相互情報がある。単音／ラベル相互情
報は、単音とラベルが互いにどのように対応しているか
の尺度である。例えば、単音がラベルを一意に識別する
場合、単音／ラベル相互情報は、この単音とラベルの最
大値である。２つの単音が１つのラベルに対応する場
合、単音／ラベル相互情報は、これらの単音とラベルに
ついて少ない、すなわち対応は「シャープ」ではない。
与えられた単音について出力されるラベルが増えるか、
またはあるラベルに対応する単音が増えると相互情報は
減少する。どの単音も全く同じラベル分布を生じた場
合、単音とラベルの相互情報はゼロである。単音が与え
られた場合には、どのラベルが生成されたかについて情
報を集められないからである。

【００３２】本発明の方法は、１人の話者から得られた
５００個の文の連続音声に対して１回繰返された。音素
をもとにした隠れマルコフ・モデルの語モデルと、２１
０のラベル・アルファベット・サイズで得られた単音／
ラベル相互情報は、非文脈依存ラベラ４０４のラベルを
置き換えた際、すなわちステップ５０４からのラベル
を、ステップ５２０の割当て器モジュールからのラベル
に置き換えた際、３．２５ビットから３．５３ビットに
改良された。ステップ５２０のラベルは、それぞれ２つ
の対角線分布の混合から成る１２，０９３個の文脈依存
ラベル・プロトタイプ・ベクトルから得られた。

【００３３】以上をまとめると、下記の「１」乃至「１
４」が記載されていることになる。「１」入力がトレーニング・テキストの単音列から成
り、各単音に音声文脈が関連づけられ、該音声文脈が、
該単音の直前または直後の単音から成り、非文脈依存プ
ロトタイプ・ベクトルと文脈依存プロトタイプ・ベクト
ルが予めメモリ・モジュールに格納された、コンピュー
タを用いた音声認識装置であって、上記トレーニング・
テキストの発話バージョンに対応する発音された音を入
力として受取り、入力音を表わす出力信号を有するユー
ザ・インタフェースと、入力が上記ユーザ・インタフェ
ースの出力に接続されて、該ユーザ・インタフェースの
出力信号を、特徴ベクトルを表わす一連の信号に変換す
る信号プロセッサと、上記信号プロセッサの出力に接続
されて、文脈依存ラベルを上記一連の特徴ベクトル信号
に関連づける手段とを含み、該手段が、上記信号プロセ
ッサの出力に接続されて、上記特徴ベクトル信号のそれ
ぞれを最も類似性の高い非文脈依存ラベル・プロトタイ
プ・ベクトルとマッチングさせ、該最も類似性の高い非
文脈依存ラベル・プロトタイプ・ベクトルが、該特徴ベ
クトル信号のパラメータを、該非文脈依存ラベル・プロ
トタイプ・ベクトルのそれぞれのパラメータと比較する
ことによって判定され、該特徴ベクトル信号のそれぞれ
に該最も類似性の高い非文脈依存ラベルが付加される、
第１ラベル付け手段と、上記第１ラベル付け手段に接続
されて、第１ラベル付けされた上記特徴ベクトル信号の
それぞれを対応する単音に結び付けるアライメント手段
と、上記アライメント手段に接続されて、結び付けられ
た上記特徴ベクトル信号のそれぞれに、上記対応する単
音に関連づけられた音声文脈をタグ付けする手段と、上
記タグ付け手段に接続されて、上記文脈依存プロトタイ
プ・ベクトル信号にもとづいて、上記タグ付きプロトタ
イプ・ベクトル信号のそれぞれのラベルを関連づける第
１関連付け手段とを含み、該第１関連付け手段が、各ラ
ベルについて、タグ付き特徴ベクトル信号の音声文脈に
対応する、文脈依存プロトタイプ・ベクトル信号が存在
するかどうかを判定する音声文脈識別手段と、上記音声
文脈識別手段に接続されて、上記音声文脈識別手段で判
定されたタグ付き特徴ベクトル信号と同じ音声文脈を有
する上記文脈依存プロトタイプ・ベクトル信号のそれぞ
れが与えられた場合に、該タグ付き特徴ベクトル信号を
得るスコアを生成するマッチング・スコア生成手段と、
上記マッチング・スコア生成手段に接続されて、該マッ
チング・スコア生成手段によって生成された最大スコア
を有する文脈依存プロトタイプ・ベクトル信号に関連づ
けられたラベルを、上記タグ付き特徴ベクトル信号に関
連づける手段と、を含む音声認識装置。「２」上記信号処理手段に接続されて、隠れマルコフ・
モデルを用いて特徴ベクトル信号をモデリングする手段
を含む、上記「１」記載の装置。「３」上記アライメント手段がViterbi アライナを含
む、上記「１」記載の装置。「４」上記関連付け手段に接続されて、上記文脈依存プ
ロトタイプ・ベクトルにもとづく上記ラベルを格納する
手段を含む、上記「１」記載の装置。「５」上記マッチング・スコア生成手段に接続されて、
該マッチング・スコア生成手段で生成された上記文脈依
存ラベルのスコアにもとづく文脈依存ラベル・プロトタ
イプ・ベクトル信号をランク付けする手段を含む、上記
「１」記載の装置。「６」上記ランク付け手段に接続され、該ランク付け手
段に入力が接続され、出力を有する上記タグ付き特徴ベ
クトル信号の上記文脈依存ラベル・プロトタイプ・ラン
クを格納する手段を含む、上記「５」記載の装置。「７」上記マッチング・スコア生成手段に接続されて、
上記タグ付き特徴ベクトル信号と同じ音声文脈を有する
上記文脈依存プロトタイプ・ベクトル信号のそれぞれが
与えられた場合に、該マッチング・スコア生成手段によ
って生成された上記スコアを、タグ付き特徴ベクトル信
号のそれぞれに対して格納する手段を含む、上記「１」
記載の装置。「８」トレーニング・テキストの発話バージョンが、信
号プロセッサにおいて特徴ベクトルを表わす信号に変換
され、音声文脈がそれぞれに関連づけられた単音の列が
トレーニング・テキストから入力され、該音声文脈が、
該単音の直前または直後に生じる単音から成り、非文脈
依存プロトタイプ・ベクトルと文脈依存プロトタイプ・
ベクトルが予めメモリ・モジュールに格納されており、
葉素基準形構造に必要なラベルを生成する方法であっ
て、（１）上記特徴ベクトル信号のそれぞれを、非文脈
依存ラベル・プロトタイプ・ベクトルを表わす最も類似
性の高い信号とマッチングさせ、該最も類似性の高い信
号が該特徴ベクトル信号のパラメータを、上記メモリ・
モジュールに格納された該非文脈依存ラベル・プロトタ
イプ・ベクトルを表わす該信号のそれぞれのパラメータ
と比較することによって判定されて、該特徴ベクトル信
号のそれぞれに、非文脈依存ラベルを表わす該最も類似
性の高い信号がラベル付けされる、ステップと、（２）
上記ラベル付けされた非文脈依存特徴ベクトル信号のそ
れぞれを、上記トレーニング・テキストからの対応する
単音に結び付けるステップと、（３）結び付けられた上
記特徴ベクトル信号のそれぞれに、上記対応する単音に
関連づけられた音声文脈をタグ付けするステップと、
（４）与えられたタグ付き特徴ベクトル信号と同じ音声
文脈を有する文脈依存ラベル・プロトタイプ・ベクトル
を表わす信号を識別するステップと、（５）ステップ
（４）で識別された文脈依存ラベル・プロトタイプ・ベ
クトル信号のそれぞれが与えられた場合に特徴ベクトル
信号を得るスコアを判定するステップと、（６）ステッ
プ（５）で判定された上記特徴ベクトル信号のスコアを
最大にする文脈依存ラベル・プロトタイプ・ベクトル信
号を識別するステップと、（７）上記特徴ベクトル信号
に関連づけられた文脈依存ラベルを、ステップ（６）で
識別されたスコアが最大の上記文脈依存ラベル・プロト
タイプ・ベクトル信号に関連づけられたラベルと置き換
えて、該特徴ベクトル信号に文脈依存ラベルを付加する
ステップと、（８）タグ付き特徴ベクトル信号のそれぞ
れについてステップ（４）乃至（７）を繰返すステップ
とを含む、ラベル生成方法。「９」上記ラベルの所望の収束レベルを得るために、ス
テップ（２）乃至（８）を必要に応じて繰返すステップ
（９）を含む、上記「８」記載の方法。「１０」上記特徴ベクトル信号が一連の音声パラメータ
・ベクトルの形で受取られる、上記「８」記載の方法。「１１」隠れマルコフ・モデルを用いて上記特徴ベクト
ル信号をモデリングするステップがステップ（８）の直
前に含まれる、上記「８」記載の方法。「１２」ステップ（２）がViterbi アライメント法を用
い、コンピュータ・プロセッサにおいて上記特徴ベクト
ル信号と上記単音を結び付けるステップを含む、上記
「８」記載の方法。「１３」ステップ（５）が、隠れマルコフ・モデルを用
いて上記スコアを判定するステップを含む、上記「８」
記載の方法。「１４」ステップ（５）に続いて、上記文脈依存ラベル
・プロトタイプ・ベクトル信号を、ステップ（５）で判
定されたスコアに従ってランク付けし、ランクを上記メ
モリ・モジュールに格納するステップを含む、上記
「８」記載の方法。

【図面の簡単な説明】

【図１】本発明の音声認識装置を取り入れたコンピュー
タ・システムの図である。

【図２】本発明の音声認識装置を含むモジュールの図で
ある。

【図３】音声信号から音声パラメータ・ベクトルを抽出
する方法を示す図である。

【図４】本発明の文脈依存ラベラのモジュールを示す図
である。

【図５】音声認識の方法と装置の全体を示す流れ図であ
る。

【図６】空間内の複数の音声パラメータ・ベクトルと、
複数の凸領域内の特徴ベクトルの分割の２次元表現を示
す図である。

【図７】テキスト列と異なる音の相関を示す図である。

【図８】本発明の初期ステップがトレーニング・データ
に与える影響を示す図である。

【符号の説明】

１０３音声認識装置１０４コンピュータ・プラットフォーム１０８オペレーティング・システム１１０マイクロ命令コード１１２ハードウェア装置２０２ユーザ・インタフェース２０４信号プロセッサ／特徴抽出器２０６文脈依存ラベラ２０８プロトタイプ記憶メカニズム２１０ランク判定器２１２マッチャ２１４語モデル記憶装置２１６仮説サーチャ３０６特徴ベクトル４０２メモリ・モジュール４０４ラベラ４０６アライナ４０８タガー４１０コンパレータ４１２確率判定器４１４割当て器５０８ Viterbi アライメント６０２、６０４凸領域６０６、６０８トレーニング・ベクトル

───────────────────────────────────────────────────── フロントページの続き (72)発明者ピーター・デ・ソウザアメリカ合衆国95124、カリフォルニア州サン・ホセ、ビスタ・ループ 6001 (72)発明者ピィ・エス・ゴパラクリシュナンアメリカ合衆国10598、ニューヨーク州ヨークタウン・ハイツ、ラッドクリフェ・ドライブ 3073 (72)発明者マイケル・エイ・ピシェニイアメリカ合衆国10606、ニューヨーク州ホワイト・プレインズ、ラルフ・アベニュー 118 (56)参考文献特開平４−182000（ＪＰ，Ａ) 特開平２−29799（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】

【請求項１】入力がトレーニング・テキストの単音列か
ら成り、各単音に音声文脈が関連づけられ、該音声文脈
が、該単音の直前または直後の単音から成り、非文脈依
存プロトタイプ・ベクトルと文脈依存プロトタイプ・ベ
クトルが予めメモリ・モジュールに格納された、コンピ
ュータを用いた音声認識装置であって、上記トレーニング・テキストの発話バージョンに対応す
る発音された音を入力として受取り、入力音を表わす出
力信号を有するユーザ・インタフェースと、入力が上記ユーザ・インタフェースの出力に接続され
て、該ユーザ・インタフェースの出力信号を、特徴ベク
トルを表わす一連の信号に変換する信号プロセッサと、上記信号プロセッサの出力に接続されて、文脈依存ラベ
ルを上記一連の特徴ベクトル信号に関連づける手段とを
含み、該手段が、上記信号プロセッサの出力に接続されて、上記特徴ベク
トル信号のそれぞれを最も類似性の高い非文脈依存ラベ
ル・プロトタイプ・ベクトルとマッチングさせ、該最も
類似性の高い非文脈依存ラベル・プロトタイプ・ベクト
ルが、該特徴ベクトル信号のパラメータを、該非文脈依
存ラベル・プロトタイプ・ベクトルのそれぞれのパラメ
ータと比較することによって判定され、該特徴ベクトル
信号のそれぞれに該最も類似性の高い非文脈依存ラベル
が付加される、第１ラベル付け手段と、上記第１ラベル付け手段に接続されて、第１ラベル付け
された上記特徴ベクトル信号のそれぞれを対応する単音
に結び付けるアライメント手段と、上記アライメント手段に接続されて、結び付けられた上
記特徴ベクトル信号のそれぞれに、上記対応する単音に
関連づけられた音声文脈をタグ付けする手段と、上記タグ付け手段に接続されて、上記文脈依存プロトタ
イプ・ベクトル信号にもとづいて、上記タグ付きプロト
タイプ・ベクトル信号のそれぞれのラベルを関連づける
第１関連付け手段とを含み、該第１関連付け手段が、各ラベルについて、タグ付き特徴ベクトル信号の音声文
脈に対応する、文脈依存プロトタイプ・ベクトル信号が
存在するかどうかを判定する音声文脈識別手段と、上記音声文脈識別手段に接続されて、上記音声文脈識別
手段で判定されたタグ付き特徴ベクトル信号と同じ音声
文脈を有する上記文脈依存プロトタイプ・ベクトル信号
のそれぞれが与えられた場合に、該タグ付き特徴ベクト
ル信号を得るスコアを生成するマッチング・スコア生成
手段と、上記マッチング・スコア生成手段に接続されて、該マッ
チング・スコア生成手段によって生成された最大スコア
を有する文脈依存プロトタイプ・ベクトル信号に関連づ
けられたラベルを、上記タグ付き特徴ベクトル信号に関
連づける手段と、を含む音声認識装置。
【請求項２】上記信号処理手段に接続されて、隠れマル
コフ・モデルを用いて特徴ベクトル信号をモデリングす
る手段を含む、請求項１記載の装置。
【請求項３】上記アライメント手段がViterbi アライナ
を含む、請求項１記載の装置。
【請求項４】上記関連付け手段に接続されて、上記文脈
依存プロトタイプ・ベクトルにもとづく上記ラベルを格
納する手段を含む、請求項１記載の装置。
【請求項５】上記マッチング・スコア生成手段に接続さ
れて、該マッチング・スコア生成手段で生成された上記
文脈依存ラベルのスコアにもとづく文脈依存ラベル・プ
ロトタイプ・ベクトル信号をランク付けする手段を含
む、請求項１記載の装置。
【請求項６】上記ランク付け手段に接続され、該ランク
付け手段に入力が接続され、出力を有する上記タグ付き
特徴ベクトル信号の上記文脈依存ラベル・プロトタイプ
・ランクを格納する手段を含む、請求項５記載の装置。
【請求項７】上記マッチング・スコア生成手段に接続さ
れて、上記タグ付き特徴ベクトル信号と同じ音声文脈を
有する上記文脈依存プロトタイプ・ベクトル信号のそれ
ぞれが与えられた場合に、該マッチング・スコア生成手
段によって生成された上記スコアを、タグ付き特徴ベク
トル信号のそれぞれに対して格納する手段を含む、請求
項１記載の装置。
【請求項８】トレーニング・テキストの発話バージョン
が、信号プロセッサにおいて特徴ベクトルを表わす信号
に変換され、音声文脈がそれぞれに関連づけられた単音
の列がトレーニング・テキストから入力され、該音声文
脈が、該単音の直前または直後に生じる単音から成り、
非文脈依存プロトタイプ・ベクトルと文脈依存プロトタ
イプ・ベクトルが予めメモリ・モジュールに格納されて
おり、葉素基準形構造に必要なラベルを生成する方法で
あって、（１）上記特徴ベクトル信号のそれぞれを、非文脈依存
ラベル・プロトタイプ・ベクトルを表わす最も類似性の
高い信号とマッチングさせ、該最も類似性の高い信号が
該特徴ベクトル信号のパラメータを、上記メモリ・モジ
ュールに格納された該非文脈依存ラベル・プロトタイプ
・ベクトルを表わす該信号のそれぞれのパラメータと比
較することによって判定されて、該特徴ベクトル信号の
それぞれに、非文脈依存ラベルを表わす該最も類似性の
高い信号がラベル付けされる、ステップと、（２）上記ラベル付けされた非文脈依存特徴ベクトル信
号のそれぞれを、上記トレーニング・テキストからの対
応する単音に結び付けるステップと、（３）結び付けられた上記特徴ベクトル信号のそれぞれ
に、上記対応する単音に関連づけられた音声文脈をタグ
付けするステップと、（４）与えられたタグ付き特徴ベクトル信号と同じ音声
文脈を有する文脈依存ラベル・プロトタイプ・ベクトル
を表わす信号を識別するステップと、（５）ステップ（４）で識別された文脈依存ラベル・プ
ロトタイプ・ベクトル信号のそれぞれが与えられた場合
に特徴ベクトル信号を得るスコアを判定するステップ
と、（６）ステップ（５）で判定された上記特徴ベクトル信
号のスコアを最大にする文脈依存ラベル・プロトタイプ
・ベクトル信号を識別するステップと、（７）上記特徴ベクトル信号に関連づけられた文脈依存
ラベルを、ステップ（６）で識別されたスコアが最大の
上記文脈依存ラベル・プロトタイプ・ベクトル信号に関
連づけられたラベルと置き換えて、該特徴ベクトル信号
に文脈依存ラベルを付加するステップと、（８）タグ付き特徴ベクトル信号のそれぞれについてス
テップ（４）乃至（７）を繰返すステップとを含む、ラベル生成方法。
【請求項９】上記ラベルの所望の収束レベルを得るため
に、ステップ（２）乃至（８）を必要に応じて繰返すス
テップ（９）を含む、請求項８記載の方法。
【請求項１０】上記特徴ベクトル信号が一連の音声パラ
メータ・ベクトルの形で受取られる、請求項８記載の方
法。
【請求項１１】隠れマルコフ・モデルを用いて上記特徴
ベクトル信号をモデリングするステップがステップ
（８）の直前に含まれる、請求項８記載の方法。
【請求項１２】ステップ（２）がViterbi アライメント
法を用い、コンピュータ・プロセッサにおいて上記特徴
ベクトル信号と上記単音を結び付けるステップを含む、
請求項８記載の方法。
【請求項１３】ステップ（５）が、隠れマルコフ・モデ
ルを用いて上記スコアを判定するステップを含む、請求
項８記載の方法。
【請求項１４】ステップ（５）に続いて、上記文脈依存
ラベル・プロトタイプ・ベクトル信号を、ステップ
（５）で判定されたスコアに従ってランク付けし、ラン
クを上記メモリ・モジュールに格納するステップを含
む、請求項８記載の方法。