JP2004341532A

JP2004341532A - 圧縮音響モデルの適応

Info

Publication number: JP2004341532A
Application number: JP2004145307A
Authority: JP
Inventors: Asela J Gunawardana; ジェイ．グナワルデナアセラ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-05-15
Filing date: 2004-05-14
Publication date: 2004-12-02
Also published as: ATE531032T1; CN1551101A; EP1477966B1; KR101036712B1; US7499857B2; US20040230424A1; EP1477966A3; KR20040098589A; CN1551101B; EP1477966A2

Abstract

【課題】圧縮された音響モデルの適応を提供すること。
【解決手段】本発明は、（特定話者トレーニング・データなどの）適応トレーニング・データを使用して部分空間で量子化された音響モデルを適応させるために使用される。音響モデルは多次元部分空間に圧縮される。部分空間ごとにコードブックが生成される。適応変形が推定され、平均値自体にではなくコードブックのコードワードに適用される。
【選択図】図１

Description

本発明は、音声認識システムの音響モデル（acoustic models）に関する。より詳細には、本発明は、コンピュータに実装される音声認識で使用される圧縮されたガウスモデルの適応に関する。

音声認識システムは、音声信号を受信し、その音声信号が表す一続きの単語（word）を識別するために音声信号の復号を試みる。従来型の音声レコグナイザは、特に、通常はトレーニング・データから形成される音響モデルと言語モデルを含む。音響モデルは、トレーニング・データに基づいて音声単位（音素など）の音響特性をモデル化する。言語モデルは、トレーニング・データで発見された語順（word order）をモデル化する。

Leggetter and Woodland, SPEAKER ADAPTATION OF CONTINUOUS DENSITY HMM USING MULTIVARIATE REGRESSION, Computer Speech and Language, volume 9, pages 171-185 (1994) Leggetter and Woodland, SPEAKER ADAPTATION OF CONTINUOUS DENSITY HMMS USING MULTIVARIATE LINEAR REGRESSION, LCSLP (1994)

音声信号が音声認識のために受信された場合、その音声信号から音響特性が抽出され、その音声信号に含まれる音声単位を識別するために音響モデルの複数のモデルに対して比較される。ある単語（word）の履歴（またはコンテキスト）が与えられた場合にその単語（word）が発話された確率を決定するために可能性のある語（word）が言語モデルに対して比較される。

音声認識の精度を失わずにより少ない処理能力および／またはより少ない記憶能力を有するコンピュータ・システムで使用できるよう音声レコグナイザを設計することは、多くの場合、望ましいことである。音声認識システムの１つの重要なメモリ集中部分は音響モデルの記憶である。隠れマルコフモデル（ＨＭＭ）ベースの音声認識システムにおいて、音響モデルは、一般に、対角共分散行列（diagonal covariance matrices）による数万の多次元ガウス確率分布から構成されている。例えば、ガウス分布はそれぞれ３９の次元であってよい。各次元は１つの平均値と１つの分散とを必要とする。したがって、通常、それぞれが４バイトの浮動小数点値として記憶される、平均値と分散とをそれぞれが有する３９の次元の４万のガウス分布を１つのモデルが有する場合、そのモデルの記憶には１０メガバイト以上を要することになる。

各平均値を１バイトで記憶し、各分散を１バイトで記憶することは、スカラー量子化によって行うことができ、これによって誤差率に劣化のない４倍の圧縮（上記モデルでは２．５ＭＢ）が得られる場合がある。このようなタイプのスカラー量子化の１つに線形スカラー量子化があり、これは、各パラメータの最大値と最小値を見つけ、その間の点を線形に量子化することによって行うことができる。

その音響モデルを圧縮して、音響モデルを記憶するためのメモリを少なくするために、周知のクラスタ化技術を使用することができる。一般に、この技術は、部分空間符号化と称され、様々な次元をグループ化することを伴う。通常、代表的なガウス分布は、次元のグループごとにコードブックに記憶される。そのコードブックは音響モデルを形成するために記憶され、入力信号を処理するために音声認識中にインデックスによりアクセスされる。

また、従来、音響モデルは多くの異なる話者によってトレーニングされる。これらの話者は、例えばアクセントも声の高さも異なる男性と女性であってよい。話者は速く話す場合もあればゆっくり話す場合もある。音響モデルは、幅広いユーザ全体に対して通用する話者独立の音響モデルを得るために、これらの全てのタイプの話者を使用してトレーニングされる。

しかし、特定話者音響モデルは、所与の話者に対して、話者独立音響モデルよりも、より正確であることが広く知られている。音響モデルを適応させるために、かつてはそのモデルを適応すべき話者からトレーニング・データが収集された。次いでモデル変形（Model transformations）が推定されて、その音響モデルに適用された。音響モデルを適応させるには様々な周知の方法がある。従来の音響モデルを適応させるための従来からある方法の１つは、非特許文献１に記載されている。

しかし上記のようにモデルが部分空間に圧縮される場合、音響モデルのガウス分布は部分空間で量子化される。従来型の話者適応手順（ＭＬＬＲなど）をこのようなモデルに適用することはできない。何故ならば、適応された平均値はそれ以上圧縮されず、したがってより多くのメモリを必要とするからである。

本発明は、（特定話者トレーニング・データなどの）適応トレーニング・データを使用して部分空間で量子化された音響モデルを適応させるために使用される。音響モデルは多次元部分空間に圧縮される。部分空間ごとにコードブックが生成される。適応変形（adaptation transform）が推定され、平均値それ自体というよりもむしろコードブックのコードワードに適用される。

一実施形態では、コードブックは、回帰クラス（regression classes）として知られているクラスにさらに分割される。回帰クラスは、そのガウス分布が、母音、子音、または無音のようなある言語クラスに属するか否かを反映することができ、または回帰クラスを他の特性に基づいて導き出すこともできる。コードブックが回帰クラスに導き出される実施形態では、コードワードが属する特定の回帰クラスに基づいてコードブック内のコードワードに適応変形を適用することができる。この方法では、１つの回帰クラスに属している、所与のコードブックの平均値の構成要素は、異なる回帰クラスに属するコードブックの平均値の構成要素と異なった方法で変形することができる。

本発明の一態様は、音響モデルを形成する部分空間符号化ガウスモデルの適応に関する。しかし、この態様および他の態様を詳細に検討する前に、本発明を使用することのできるコンピュータ環境およびコンピュータに実装されるアプリケーションの一例の説明を行う。

図１は、本発明を実装することのできる適切なコンピュータ・システム環境１００の一例を示している。コンピュータ・システム環境１００は、適切なコンピュータ環境の一例に過ぎず、本発明の使用法または機能の範囲に関していかなる制約の示唆も意図しない。また、コンピュータ環境１００は、動作環境例１００に示したどのコンポーネントまたはどのような複数のコンポーネントの組合せに対していかなる依存または要求をも有するものと解釈されるべきではない。

本発明は、多数の他の汎用または専用コンピュータ・システム環境または構成により動作可能である。本発明を使用するのに適した周知のコンピュータ・システム、環境、および／または構成の例は、限定はしないが、パーソナル・コンピュータ、サーバ・コンピュータ、ハンドヘルドまたはラップトップ・デバイス、マルチ・プロセッサ・システム、マイクロ・プロセッサ・ベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークＰＣ、ミニ・コンピュータ、メインフレーム・コンピュータ、上記システムまたはデバイスのどれかを含む分散型コンピュータ環境などを含む。

本発明は、コンピュータによって実行中のプログラム・モジュールのようなコンピュータで実行可能な命令の一般的状況で説明することができる。一般に、プログラム・モジュールは、特定タスクを実行するかまたは特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は、通信ネットワークを介してリンクされている遠隔処理装置によってタスクが実行される分散型コンピュータ環境でも実行することができる。分散型コンピュータ環境では、プログラム・モジュールは、記憶装置を含めてローカル・コンピュータ記憶媒体と遠隔コンピュータ記憶媒体の両方に置くことができる。プログラムおよびモジュールによって実行されるタスクを以下で図面を参照しながら説明する。当業者ならば、この説明および図面を、任意の形式のコンピュータ可読媒体にでも書くことのできるプロセッサ実行可能命令として実装することができる。

図１を参照すると、本発明を実装するためのシステム例は、コンピュータ１１０の形式の汎用コンピュータデバイスを含む。コンピュータ１１０のコンポーネントは、限定はしないが、処理装置１２０、システム・メモリ１３０、およびシステム・メモリを含めて様々なシステム・コンポーネントを処理装置１２０に結合するシステム・バス１２１を含む。システム・バス１２１は、メモリ・バスまたはメモリ・コントローラ、周辺バス、および様々なバスアーキテクチャのどれかを使用するローカル・バスを含めていくつかのタイプのバス構造のどれであってもよい。限定ではなく一例として、このようなアーキテクチャは、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオ電子装置規格化協会（ＶＥＳＡ）ローカル・バス、およびＭｅｚｚａｎｉｎｅバスとしても知られている周辺装置相互接続（ＰＣＩ）バスを含む。

コンピュータ１１０は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０によってアクセス可能な任意の使用可能な媒体であってもよく、揮発性／不揮発性媒体、取外し可能／取外し不可能な媒体の両方を含む。限定ではなく一例として、コンピュータ可読媒体はコンピュータ記憶媒体と通信媒体とを含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラム・モジュール、または他のデータのような、情報の記憶に関する任意の方法または技術でも実装される揮発性／不揮発性の取外し可能な／取外し不可能な媒体を含む。コンピュータ記憶媒体は、限定はしないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）、または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶装置、または所望の情報を記憶するために使用することができ、コンピュータ１１０によってアクセスすることのできる任意の他の媒体をも含む。通信媒体は、通常、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の搬送機構のような変調されたデータ信号形式で実装する任意の情報配信媒体をも含む。「変調されたデータ信号」という用語は、その特徴セットの１つまたは複数を有し、情報を信号に符号化するような方法で変更された信号を意味する。限定ではなく一例として、通信媒体は、有線ネットワークまたは直接有線接続のような有線媒体、およびアコースティック、ＲＦ、赤外線および他の無線媒体のような無線媒体を含む。上記のどの組合せでも、コンピュータ可読媒体の範囲内に含まれるべきである。

システム・メモリ１３０は、読み取り専用メモリ（ＲＯＭ）１３１とランダム・アクセス・メモリ（ＲＡＭ）１３２のような揮発性および／または不揮発性メモリ形式のコンピュータ記憶媒体を含む。起動時などにコンピュータ１１０内の素子間での情報の転送に役立つ基本ルーチンを含んでいる基本入出力システム１３３（ＢＩＯＳ）は、通常、ＲＯＭ１３１に記憶されている。ＲＡＭ１３２は、通常、処理装置１２０によって直接的にアクセス可能であり、かつ／または処理装置１２０によって現在操作されているデータおよび／またはプログラム・モジュールを含んでいる。限定ではなく一例として、図１は、オペレーティング・システム１３４、アプリケーション・プログラム１３５、他のプログラム・モジュール１３６、およびプログラム・データ１３７を示している。

コンピュータ１１０は、他の取外し可能な／取外し不可能な揮発性／不揮発性コンピュータ記憶媒体も含むことができる。一例としてのみ、図１は、取外し不可能な不揮発性磁気媒体から読み取り／に書き込むハードディスク・ドライブ１４１、取外し可能な不揮発性磁気ディスク１５２から読み取り／に書き込む磁気ディスク・ドライブ１５１、およびＣＤ−ＲＯＭまたは他の光媒体のような取外し可能な不揮発性光ディスク１５６から読み取り／に書き込む光ディスク・ドライブ１５５を示している。この動作環境例で使用することのできる他の取外し可能／取外し不可能な揮発性／不揮発性コンピュータ記憶媒体は、限定はしないが、磁気テープ・セット、フラッシュ・メモリ・カード、デジタル多用途ディスク、デジタル・ビデオ・テープ、固体ＲＡＭ、固体ＲＯＭなどを含む。ハードディスク・ドライブ１４１は、通常、インターフェース１４０のような取外し不可能なメモリ・インターフェースを介してシステム・バス１２１に接続されており、磁気ディスク・ドライブ１５１および光ディスク・ドライブ１５５は、通常、インターフェース１５０のような取外し可能なメモリ・インターフェースによってシステム・バス１２１に接続されている。

上記で説明し図１に示したこれらドライブおよびこれらに関連するコンピュータ記憶媒体は、コンピュータ１１０にコンピュータ可読命令、データ構造、プログラム・モジュール、および他のデータの記憶を提供する。例えば図１では、ハードディスク・ドライブ１４１を、オペレーティング・システム１４４、アプリケーション・プログラム１４５、他のプログラム・モジュール１４６、およびプログラム・データ１４７を記憶するように示している。これらのコンポーネントは、オペレーティング・システム１３４、アプリケーション・プログラム１３５、他のプログラム・モジュール１３６、およびプログラム・データ１３７と同じであっても異なってもよいということに留意されたい。本明細書ではオペレーティング・システム１４４、アプリケーション・プログラム１４５、他のプログラム・モジュール１４６、およびプログラム・データ１４７には、最低限これらが別物であることを示すために別々の番号を付している。

ユーザは、キーボード１６２、マイクロフォン１６３、およびマウス、トラックボール、またはタッチパッドのようなポインティング・デバイス１６１などのような入力装置を介してコマンドおよび情報をコンピュータ１１０に入力することができる。他の入力装置（図示せず）は、ジョイスティック、ゲーム・パッド、衛星放送用アンテナ、スキャナなどを含むことができる。これらおよび他の入力装置は、システム・バスに結合されているユーザ入力インターフェース１６０を介して処理装置１２０に接続されている場合がしばしばあるが、パラレル・ポート、ゲーム・ポート、またはユニバーサル・シリアル・バス（ＵＳＢ）のような他のインターフェースおよびバス構造によって接続することもできる。モニタ１９１または他のタイプの表示装置も、ビデオ・インターフェース１９０のようなインターフェースを介してシステム・バス１２１に接続されている。モニタに加えて、コンピュータは、出力周辺インターフェース１９５を介して接続することのできるスピーカ１９７およびプリンタ１９６のような他の周辺出力装置も含むことができる。

コンピュータ１１０は、遠隔コンピュータ１８０のような１つまたは複数の遠隔コンピュータへの論理接続を使用して、ネットワーク接続された環境で動作することができる。遠隔コンピュータ１８０は、パーソナル・コンピュータ、ハンドヘルド・デバイス、サーバ、ルータ、ネットワークＰＣ、ピア・デバイス、または他の共通ネットワーク・ノードであってよく、通常、コンピュータ１１０に関して上記の要素の多くまたはすべてを含む。図１に示す論理接続は、ローカル・エリア・ネットワーク（ＬＡＮ）１７１とワイド・エリア・ネットワーク（ＷＡＮ）１７３を含むが、他のネットワークを含むこともできる。このようなネットワーク接続環境は事務所、企業規模コンピュータ・ネットワーク、イントラネット、およびインターネットでは一般的なものである。

ＬＡＮネットワーク接続環境で使用される場合、コンピュータ１１０はネットワーク・インターフェースまたはアダプタ１７０を介してＬＡＮ１７１に接続されている。ＷＡＮネットワーク接続環境で使用される場合、コンピュータ１１０は、通常、モデム１７２またはインターネットのようなＷＡＮ１７３を介した通信を確立するための他の手段を含む。内蔵型であっても外付けであってもよいモデム１７２は、ユーザ入力インターフェース１６０または他の適切な機構を介してシステム・バス１２１に接続することができる。ネットワーク接続された環境では、コンピュータ１１０に関して示したプログラム・モジュールまたはその一部は、遠隔記憶装置に記憶することができる。限定ではなく一例として、図１は、遠隔アプリケーション・プログラム１８５を遠隔コンピュータ１８０に常駐しているように示している。図示したネットワーク接続は一例であって、コンピュータ間で通信を確立する他の手段も使用することができるということを理解されたい。

図２は、ガウス分布の部分空間符号化および本発明のコードワード適応から恩恵を受ける音響モデルを有する音声認識システム例のブロック図を示している。

図２で、話者４００（スピーカ）はマイクロフォン４０４に向かって発話する。マイクロフォン４０４によって検出されたオーディオ信号は電気信号に変換され、その電気信号はアナログ・デジタル（Ａ／Ｄ）コンバータ４０６に提供される。

Ａ／Ｄコンバータ４０６は、マイクロフォン４０４からのアナログ信号を一連のデジタル値に変換する。いくつかの実施形態では、Ａ／Ｄコンバータ４０６は１６ｋＨｚ、１サンプルあたり１６ビットでアナログ信号をサンプリングし、１秒あたり３２キロバイトの音声データを作成する。これらのデジタル値はフレーム・コンストラクタ４０７に提供され、一実施形態では、このフレーム・コンストラクタ４０７はこれらの値を１０ミリ秒間隔で開始する２５ミリ秒フレームにグループ化する。

フレーム・コンストラクタ４０７によって作成されたデータのフレームが特徴エキストラクタ（feature extractor：特徴抽出部）４０８に提供され、そこで各フレームから特徴が抽出される。特徴抽出モジュールの例には、線形予測コーディング（ＬＰＣ）、ＬＰＣ導出ケプストラム、知覚線形予測（Perceptive Linear Prediction：ＰＬＰ）、聴覚モデル特徴抽出（Auditory model feature extraction）、およびメル周波数ケプストラム係数（Mel-Frequency Cepstrum Coefficients：ＭＦＣＣ）特徴抽出、を実行するモジュールが含まれる。本発明はこれらの特徴抽出モジュールに限定されるものではなく、本発明のコンテクスト内で他のモジュールも使用することができるということに留意されたい。

特徴抽出モジュール４０８は、それぞれが音声信号の１つのフレームに関連付けられている特徴ベクトルのストリームを生成する。この特徴ベクトルのストリームはデコーダ４１２に提供され、そこでその特徴ベクトルのストリーム、語彙辞典４１４、言語モデル４１６（例えば、Ｎ−グラム、文脈自由文法、またはこれらの混合に基づいて）、および音響モデル４１８に基づいて最も可能性の高い一連の単語（word）が特定される。復号に使用される特定の方法は本発明には重要ではない。しかし、本発明の態様は、音響モデル４１８に対する修正形態とその使用法を含む。

最も確率の高い一連の仮定語（hypothesis words）を任意選択の信頼性測定モジュール４２０に提供することができる。信頼性測定モジュール４２０は、音声レコグナイザによって誤った識別を受けた可能性の最も高い単語はどれかを特定する。これは、一部には二次音響モデル（図示せず）に基づくことができる。次いで信頼性測定モジュール４２０は、その一連の仮定語を、誤った識別を受けた可能性のある単語がどれかを示す識別子と共に出力モジュール４２２に提供する。当業者には、信頼性測定モジュール４２０は本発明を実行する上では必須ではないということが理解されよう。

トレーニング中、トレーニング・テキスト４２６に対応する音声信号がトレーニング・テキスト４２６の語彙の写し（lexical transcription）と共にデコーダ４１２に入力される。トレーナ４２４は、トレーニング入力に基づいて音響モデル４１８をトレーニングする。本発明の一態様は圧縮された音響モデル４１８を適応させることを含む。

部分空間グループ化またはクラスタ化の技術、および本発明の適応を説明する前に、音響モデル４１８に使用される従来技術の符号化技術を簡単に再検討することは有益であろう。「背景技術」の節で説明したように、典型的な音響モデルは、数万の多次元ガウス確率分布から構成され、数万の多次元ガウス確率分布を表している。例えば、一般的な音響モデルは、多くの３９次元対角ガウス確率分布を含む。この実施形態では、各ガウス分布は、次元１つ当たり１つで、３９の平均値コンポーネント（「ｍ」）と３９の分散コンポーネント（「ｖ」）を有する。一実施形態では、所与の次元に対応する平均値および分散は単一ガウス分布コンポーネントとして取り扱われる。したがって、各ガウス分布は、それぞれに平均値と分散を有する３９のそのようなコンポーネントから構成される。これらガウス分布のすべてを維持するというよりはむしろ、ガウス分布コンポーネントは、本明細書で「セントロイド（centroids）」とも称する代表的なガウス分布コンポーネント、を生じるような方法でクラスタ化されるかまたはグループ化される（すなわち、各コンポーネントの平均値および分散がクラスタ化される）。図３Ａは、１つの次元の部分的なクラスタ化の概要を示している。図３Ａで、各点は平均値と分散を有するガウス分布コンポーネントを表している。図３Ａで、平均値は横軸５００で表し、分散値は縦軸５０２に対して表される。クラスタ化は、図３Ａで破線の円５０４内に示したガウス分布の類似の平均値および／または分散コンポーネントを１つにグループ化することを伴う。図３Ａでは、４つのクラスタが「０」、「１」、「２」、「３」で示されている。

上記のように、セントロイドが得られ、１次元のガウス分布コンポーネントのクラスタを表す。したがって、各セントロイドは対応する平均値および分散を含む。ある符号化技術は、１つの番号によって各セントロイド（各平均値および各分散）を表すことを含み、この一つの番号は参照に使用することができ、これにより、平均値と分散値を得ることができる。この技術は、（各部分空間が１つの次元の場合）部分空間量子化の簡素な形式であり、図３Ｂに概要が示されているコードブック５２０の形成を伴い、このコードブック５２０は、本発明の目的にために、セントロイドまたはそれぞれの平均値または分散のコレクションであってよい。上記のように、各セントロイドは、コードブックにそれぞれ列５２２および５２４として記憶されている対応する平均値と分散コンポーネントを有する。第３の列５２６は、図３Ａで形成されているクラスタに対応する参照識別子（またはインデックス）を含んでいる。コードブックは項目（コードワード）を、例えば０から１５（１６項目）まで、または０から２５５（２５６項目）までのように幾つでも有することができる。図３Ａは、最初の４つのクラスタおよび対応するセントロイドを表している。各平均値と各分散を別個に符号化することもできるということに留意されたい。

コードブック５２０は、第３の列５２６に対する参照を付けられて、処理中に使用される平均値と分散を記憶する。例えば、ガウス平均値と分散がインデックス番号２で表される場合、コードブックは、平均値１．４０３７４が使用されるべきであり、一方これに対して分散０．００７２が使用されるべきである、ことを示している。

次に、音響モデルのサイズをさらに低減する１つの方法を検討する。本発明の目的に対して、部分空間の符号化のための特定の方法は重要ではなく、以下の説明は例示目的でのみ提供される。部分空間符号化の場合、いくつかの次元が共に表される。例えば、３９次元ガウス分布の次元１と３を１つにグループ化し、対応する平均値と分散を、上記で１つの次元で説明した方法と同様に１つのインデックス番号で表すことが可能な場合がある。図３Ｃは、次元１と３が１つにグループ化されるコードブック５４０を表している。列５４２と５４４は（図３Ｂで表した次元を使用する）次元１に対する平均値と分散を表しており、列５４８と５５０は（上記で示さない別の次元）次元３に対する平均値と分散を表しており、これらすべては識別子５４６で参照される。したがって、このコードブックで符号化されたガウス・コンポーネントは２つの平均値と２つの分散から構成される。

２つの次元を１つにグループ化することにより、モデルを約２分の１に低減することができる。この技術を部分空間符号化と称するのは、元のモデルは３９次元空間を有することができるが、低減されたモデルは元の３９次元空間の部分空間である２０次元空間（１９次元は元の平均値と分散コンポーネントのグループ化された対を表し、１つはそれ自体で残される）を有するからである。一実施形態では、各コードブックは、３９次元特徴空間の部分空間に対応するガウス分布コンポーネントを符号化する。図３Ｃに示すようなコードブック、すなわち、列５４６の１つの番号が、元の平均値の２つの次元よりも多くの次元、および元の分散の２つの次元よりも多くの次元、に対応する部分空間を表すコードブックを使用してさらに低減が達成されることも留意されたい。これら部分空間は、レコグナイザの性能が悪影響を受けないこのような方法で次元をグループ化することに関して、説明の目的上選ばれたものである。

図４は、クラスタ化を実行するためのステップと、部分空間符号化またはグループ化を実行するためのステップを示している。ここでもまた、これを実行するには多くの方法があるが、以下の説明では１つの方法を例示する。この方法はステップ６００から開始する。ステップ６０２で、各次元のガウス分布は、各クラスタが代表のセントロイドまたは計算されたセントロイドを有する選択されたクラスタ数にクラスタ化される。クラスタ化には様々なよく知られた標準的な技術がある。一般に、最初に所望の数のクラスタを備えて開始しなかった場合、どのようにクラスタを初期設定するかを決定し、次いでどのようにクラスタを追加するかを決定する必要がある。このステップでは、Ｋ平均値クラスタ化を使用することができる。例えば、ある方法は、ガウス分布のすべてを収容する１つのクラスタだけから開始し、次いで所望の数のクラスタに達するまで定期的にすべてのクラスタを分割することを含む。あるいは、所望の数のクラスタから開始し、次いで初期クラスタ間に均等に確率分布を割り当てることができる。クラスタ化において、ブロック６０４に示すようにクラスタ化演算に関連するコストを計算することが一般的である。

各１つの次元のガウス分布内の平均値と分散をクラスタ化する（ステップ６０２から６０４）ことに加えて、同じタイプの技術を、多次元ベクトルを部分空間に分割することと同じように、多次元の平均値および分散ベクトルの次元コンポーネントに適用することができる（例えば、次元０を次元１と共にグループ化することができ、次元０を次元２と共にグループ化することができ、次元０を次元２および３と共にグループ化することができ、という具合に）。図４のステップ６０６および６０８は、次元の組合せに対するクラスタ化とコスト決定の各ステップを表している。この段階で、１つのグループは２つの次元から構成されている。例えば、図５は、ｘを例えば３９または他の所望の数として、ｘ個の次元を有する多次元平均値および分散ベクトル７００を示している。ベクトル７００を部分空間に分割するために、ベクトル７００の次元コンポーネントを１つにグループ化することができる。ここでもまた、これは様々な周知の方法で実行することができるが、ここでは一例を示す。ステップ６０８で、ベクトル７００の２つのコンポーネントがグループ化される。ステップ６０８で、これらコンポーネントのグループ化のコストが計算される。

ステップ６１０で、すべての様々な組合せが計算されるまでこのプロセスが反復される。このことは、図６のように表すことができ、ここでは、２次元配列が次元の各組合せに対する合計の次元測定値を表している。具体的に、対角要素（ΣＳ_{ｄＴ０，０}）は１つの次元に対するクラスタ化およびコスト決定に対応し（すなわち、ステップ６０２および６０４）、オフ対角要素（ΣＳ_ｄＴ _０，２）は２つの次元をマージするためのクラスタ化およびコスト決定に対応する。

ステップ６１２で、コストの増加が最も少ない２つの次元が１つにグループ化される。増加が最も少ないコストは、一実施形態では、次に示す式により決定される。
等式１
マージのコスト＝コスト［ＡおよびＢ］−コスト［Ａ］−コスト［Ｂ］
グループＡおよびグループＢ
最初の反復でＡとＢはそれぞれ１つの次元を表している（例えば、０、１、２、など）。しかしその後の反復では、ＡとＢは既にマージされた次元も表す場合がある（例えば、１と２６、２と１３、など）。

図６に戻る。最初の反復では、コスト［ＡおよびＢ］はオフ対角要素の１つであり、コスト［Ａ］とコスト［Ｂ］はそれぞれ対角要素から得られたものである。

ステップ６１２で２つの次元を１つにグループ化すると、次元の合計数が（例えば、３９の次元から３８の次元に）１つ低減される。

ステップ６１４で次元の所望の低減（数）に達しない場合、プロセスはステップ６０６に戻り、そこで他の次元のそれぞれに関して新しく形成されたグループに基づいてクラスタ化とコスト決定が計算される。これは、新しい対角要素が新しく形成されたグループのコストを表しており、様々な組合せを他の次元によって反映させるためにオフ対角要素が増やされる、１行と１列を低減した（例えば、３２×３２）２次元配列で図式化することができる。ここでもまた、ステップ６０８で、上記の等式１の計算に基づいてコストの増加が最も少ない２つのグループがマージされる。元の次元のグループ化によって所望の数の次元（数）になるまで、ステップ６０６、６０８、６１０、６１２、および６１４のさらなる反復が繰り替えされる。部分空間符号化はステップ６１６で完了する。

これにより、ｄ_１−ｄ_ｎでラベリングされるｎ個の部分空間に分割されるベクトル７０２が得られる。例えば、ベクトル７０２は、元の次元１と２が部分空間ｄ_１を形成するために組み合わされていることを示している。さらに、元の次元３〜５は部分空間ｄ_２を形成するために組み合わされている（以下同断）。複数の部分空間にグループ化される元の次元はベクトルで連続しているが、これは必須ではないということに留意されたい。当然ながら、これらは連続するよう常に再順序付けすることができる。

図５の７０２に示すように次元ベクトル７００が再グループ化され、部分空間に再構成されるので、音響モデルを１つの大きな表で表すことができる（図３Ｃの形式の表のように）。しかし様々な理由から、この表をさらに小部分に分割すると、より良好かつより正確な圧縮が可能となる。したがって、本発明の一実施形態によれば、この表は複数のコードブックに分割され、１つのコードブックは元のベクトルが分割される各部分空間ｄ_１−ｄ_ｎに対応する。

例えば、ガウス混合エミッション密度（Gaussian mixture emission densities）によるＨＭＭの場合、状態エミッションは次に示す式によって得られる。
等式２

上式で、Ｏは観測フレームであり、ｓはその状態を表し、μ_ｓｍは１つの状態混合コンポーネントに対する平均値であり、Σ_ｓｍは同じ状態混合コンポーネントに対する分散である。

ここで、図５に示すように、Ｏ_ｉを次元数ｄ_ｉとし、
等式３

として、ｄ次元観測ベクトルＯがｎ個の別個の部分空間コンポーネント（Ｏ_１−Ｏ_ｎ）に分割されると仮定すると、
等式４

となる。

ガウス分布が部分空間符号化されている場合、各部分空間には別個のコードブックが割り当てられる。したがって、ｉ番目の部分空間コンポーネントに対する平均値と分散は、次に示すようにｉ番目のコードブックから選ばれる。
等式５

図７Ａは、２つの異なるコードブック７０４と７０６を示している。コードブック７０４は図５に示す部分空間ｄ１を表しており、コードブック７０６は図５に示す部分空間ｄ２を表している。したがって、表７０４の第１の場所は、平均値および分散ベクトル７００および７０２の最初の２つの次元数コンポーネントを含んでいるので、実際には２つの項目を含む。同様に、部分空間ｄ２は平均値ベクトル７０２の次元数コンポーネント３〜５に対応するので、コードブック７０６の各アイテムは３つの項目を含む。

この方法でコードブックを表すことは有利な圧縮特性を可能にするけれども、その上に別の問題を提起する。音響モデルの適応（特定話者適応のような）は所与の話者に対する音響モデルの性能を強化することが知られている。圧縮されない形式では、適応は比較的単純であり、様々な周知の方法で実行することができる。このような方法の１つに、非特許文献２に記載がある。

しかし、一度コードブックが図７Ａに示すように表されると、適応は単純ではなくなる。この場合、平均値の別々の次元コンポーネントが別のコードブック７０４と７０６の間で分割されている。

本発明の一実施形態によると、部分空間符号化ＨＭＭはコードブック自体のコードワード項目（codeword entries）を適応させることによって適応される。一実施形態では、各コードワード項目に対する変形を推定するというよりはむしろ、最初に、各コードブック内のコードワード項目が複数のクラスにグループ化される。これは、様々な異なる方法で実行することができる。例えば、一実施形態によれば、コードブックごとに１つの言語回帰木（linguistic regression tree）が構築される。したがって、各コードブック内のコードワード項目は回帰木に従って回帰クラスに分割される。１つの変形は、この回帰木の回帰クラスのそれぞれに関連付けられる。したがって、各コードブックのコードワードのグループは、回帰木に従って、単一の変形に割り当てられる。

一実施形態では、使用される回帰木はコードワードの相似に基づいて生成される。すなわち、コードワードは相似に基づいて反復的にクラスタ化され、最終的なクラスタは、回帰クラスを形成する。モデルを適応させるために、各クラスごとに変形が推定され、適用される。

次に、このプロセスをさらに詳細に説明するために別の実施形態を説明する。図７Ｂは、本発明の一実施形態による言語回帰木の一例を示している。図７Ｂで、コードブック内のコードワード項目は言語学的質問に基づいてグループ化される。例えば、この木（tree）の最初のノードは、そのコードワード項目が無音（silence phone）に関連付けられているか否か、を尋ねる。そのコードワード項目が無音に関連付けられている場合、そのコードワードは、関連付けられた変形Ｔ_ｓｉｌを有する回帰クラスに割り当てられる。そのコードワード項目が無音に関連付けられていない場合、その回帰木の次のノードが、そのコードワード項目が母音（vowel phone）に対応するか否かを尋ねる。そのコードワード項目が母音に対応する場合、そのコードワード項目は変形Ｔ_{ｖｏｗｅｌ}に対応する回帰クラスに割り当てられる。しかし、現在選択されているコードワード項目が母音に対応しない場合、そのコードワード項目は、対応する子音変形Ｔ_ｃｏｎｓを有する回帰クラスに割り当てられる。当然ながら、任意の所望の基準に基づいて幅広い種類の他の回帰木を使用することができ、コードブック内のコードワード項目がグループ化される具体的な方法、およびこれらをグループ化するために使用される基準は、本発明にとって重要ではない。本明細書では、このグループ化を説明の目的でのみ回帰クラスと称する。

一度コードワード項目がグループ化されると、部分空間ごとに状態（state）と混合コンポーネント（mixture components）の回帰クラスｒ_ｉ（ｓ，ｍ）があり、平均値Ｔ_ｉ，ｒの変形が回帰クラスのそれぞれに関連付けられる。変形を適用することにより、
等式６

の出力状態エミッション密度（output state emission density ）が得られる。

これは、部分空間に対応するブロックに、合計平均値ベクトルμ_ｓ，ｍに基づくブロック対角変形構造を強制することが分かる。例えば、図８は、対角ブロック７４２、７４４、７４６、および７４８がそれぞれ異なる部分空間に対応するブロック対角行列（block diagonal matrix）７４０の一部を図式化したものである。したがって、ブロック７４２〜７４８のサイズは、対応するコードブック内の各アイテムで表される次元コンポーネント数に対応する。

例えば、コードブック７０４は、（対応する分散コンポーネントの他に）それ自体が平均値ベクトルの２つの次元コンポーネントを含む部分空間ｄ１に対する項目を収容する。したがって、部分空間ｄ１に対応するブロック７４２は２×２のブロックである。同様に、ブロック７４４は部分空間ｄ２に対するコードブックに対応する。部分空間ｄ２に３つの次元コンポーネントがあるので、ブロック７４４は３×３のブロックである。当然ながら、このパターンはコードブックごとに続く。

各部分空間コードブックは独自の回帰木を有しており、行列（matrix）の様々なブロックを回帰木で、別々に連結することができるので、これにより、変形を適用する際により柔軟な構造が可能となることに留意されたい。これは、図９についてさらに分かり易く説明される。

図９は、ブロック対角行列の各ブロックは異なる回帰木を使用して選ばれるので、ブロック対角行列構造７４０は、実際には複数の異なる変形を生成することを示している。図９にはそれらのうち２つの変形（７４０Ａおよび７４０Ｂ）を示す。このような変形の実際の数は、コードブックのそれぞれが分割される回帰クラスの数に依存している。ブロック７４２の数は、コードブック７０４が分割される回帰木の数に対応する数だけある。同様に、ブロック７４４の数は、コードブック７０６が分割される回帰クラスの数に対応する数だけある。

この実施形態のために、コードブック７０４と７０６のどちらも回帰クラスに単純に分割され、第１の回帰クラスに関連付けられた適応変形Ｔ_１はブロック７４２Ａの陰影で示されており、第２の回帰クラスに関連付けられた適応変形Ｔ_２はブロック７４２Ｂの陰影で示されていると仮定する。コードブック７０４は２つの回帰クラスだけに分割されるので、層７４０Ａはブロック７４２Ａが第１の変形Ｔ_１をそれに適用させることを示しており、層７４０Ｂはブロック７４２Ｂが第２の変形Ｔ_２をそれに適用させることを示している。同様に、コードブック７０６は２つの回帰クラスに分割されるので、層７４０Ａはブロック７４４Ａが第１の変形Ｔ_１をそれに適用させることを示しており、層７４０Ｂはブロック７４４Ｂが第２の変形Ｔ_２をそれに適用させることを示している。

したがって、任意のコードブック７０４〜７０６などのコンポーネントに適用される特定の変形は、コードワードにより、またはコードワードのグループにより異なる。コードワードのグループが回帰木からの回帰クラスによって定義される場合、コードブックの様々な要素に適用される変形は、所与のコンポーネントが属する回帰クラスにより異なっていてよい。ブロック７４２Ａと７４２Ｂの間で、陰影は、それら２つのブロックによって表されるコードブック７０４のコンポーネントが異なる回帰クラスに常駐することを表すために、別にした。同様に、ブロック７４４Ａと７４４Ｂの間の陰影も、それらのブロックに対応するコードブック７０６のコンポーネントも異なる回帰クラスに常駐することを示すために、別にした。生成することのできる実現可能なすべての変形数は、各部分空間の回帰木の数の積である。

適用される特定の変形を計算するために、推定最大化（ＥＭ）アルゴリズムを標準最大尤度線形回帰（ＭＬＬＲ）手順と共に使用することができる。次に説明の目的でのみこれを簡単に説明する。以下に示す微分では、簡約化のため、各コードブックが単一の変形を有し、平均値だけが適応され、各状態がそのエミッション密度に単一のガウス分布を有するものと仮定する。これらの仮定は、説明を簡単にするためにだけなされているものである。

変形は次のように推定される。
等式７

等式６から代入すると、
等式８

となる。

上記の導出において、ｗは実際の語彙の写しを表していることに留意されたい。語彙の写しが与えられた場合に状態シーケンスの確率を得るために、次に示す式が使用される。
等式９

上式で、πは音のシーケンスを表しており、総和の第１の項は、特定の単語が与えられた場合の音のシーケンスの確率である。これらの確率は発音辞書から例証的に得ることができる。総和の第２の項は、音のシーケンスが与えられた場合の状態シーケンスの確率を表している。

補助機能は、対応する変形Ｔｉを変更することによってそれぞれ独立して最大化することのできるｎ個のコンポーネントから構成されるということにも留意されたい。

等式１０

Ｔｉのコンポーネントに関して微分係数を取り、０に設定し、再構成することによって、
等式１１

が得られる。

等式１１は、それが部分空間レベルにあり、カウントがコードワード・レベルで保持されるということを除いて、標準ＭＬＬＲ再推定方程式と同じであることが分かる。複数の混合コンポーネントと複数の回帰クラスを有する再推論等式１１から次に示す等式が得られる。
等式１２

上式で、
γ＝前進／後進確率カウント
ｒ＝回帰クラス
ｍ＝混合コンポーネント
ｓ＝状態
ｌ＝フレーム数
ｓ，ｍ＝コードブック内のコードワードを識別する状態混合コンポーネントの組合せ
したがって、等式１２は、所与の回帰クラスｒ_ｉの要素であるｓ、ｍで表されるすべてのコードワードに関して、そのコードワードに関連付けられたカウントの積、コードブックｉでｓ、ｍにより示されるコードワードに対する分散、コードブックｉの回帰ｒ_ｉに関連付けられた変形、およびそのコードワードに対する平均値に適用された際にｓ、ｍにより示されるコードワードを合計するということが分かる。

したがって、本発明は、部分空間で量子化されるように圧縮される音響モデルに対して話者適応手順を提供することが分かる。本発明は、一実施形態で、部分空間あたりの量子化のコードブックを平均値自体にではなく話者に適用するためにＭＬＬＲ手順の修正形態を使用する。一実施形態では、コードブックに適用される変形はコードワードに基づいて異なる場合がある。別の実施形態では、回帰木はコードブックに対して構築され、コードブックのコンポーネントが常駐する回帰クラスに基づいて変形が適用される。さらに別の実施形態では、異なるコードブックのコードワードを１つのコードブックと次のコードブックで異なる方法でグループ化できるよう、様々な回帰木が様々なコードブックのそれぞれに対して構築される。このようにして、コードブックが分割される、異なる回帰クラスに基づいて変形を異なるコードブックに異なる方法で適用することができる。

以上、本発明を特定の実施形態に関して説明したが、当業者には、本発明の趣旨および範囲を逸脱せずに形式および細部に変更を行うことができることが理解されよう。

本発明を使用することのできる環境の一実施形態を示す図である。本発明の一実施形態による音声認識システムのブロック図である。複数のクラスタに形成されたガウス分布を示す図である。１つの次元の平均値と分散を有するコードブックの略図である。２次元の平均値と分散を有するコードブックの略図である。クラスタ化と部分空間符号化の方法を示す流れ図である。部分空間にクラスタ化された２つの平均値ベクトルを示す図である。本発明の一実施形態に従い平均値を表すブロック対角行列の略図である。２つの部分空間に対応する２つのコードブックを示す図である。本発明による回帰木の一実施形態を示す図である。４つのコードブックに対応するブロックを有するブロック対角行列の一部を示す図である。コードブックのそれぞれの回帰クラスに基づいて適応変形を異なる方法でコードブックのコードワードに適用することができることを説明する、部分空間に分解されたブロック対角行列の一部を示した図である。

符号の説明

１２０処理装置
１３０システム・メモリ
１３４オペレーティング・システム
１３５アプリケーション・プログラム
１３６他のプログラム・モジュール
１３７プログラム・データ
１４０取外し不可能な不揮発性メモリ・インターフェース
１５０取外し可能な不揮発性メモリ・インターフェース
１６０ユーザ入力インターフェース
１６１ポインティング・デバイス
１６２キーボード
１６３マイクロフォン
１７０ネットワーク・インターフェース
１７１ローカル・エリア・ネットワーク
１７２モデム
１７３ワイド・エリア・ネットワーク
１８０遠隔コンピュータ
１８５遠隔アプリケーション・プログラム
１９０ビデオ・インターフェース
１９１モニタ
１９５出力周辺インターフェース
１９６プリンタ
１９７スピーカ

Claims

音声認識エンジンで使用するための音響モデルを適応させる方法において、
前記音響モデルを部分空間符号化して、それぞれが複数のコードワードを含み、１つの部分空間あたり少なくとも１つのコードブックを含む、コードブックの複数を獲得すること、および
適応トレーニング・データに基づいて前記コードブック内の前記コードワードを適応させること
を備えることを特徴とする方法。
前記適応させることの前に、各コードブック内の前記コードワードを複数の異なるクラスに分割することをさらに備えることを特徴とする請求項１に記載の方法。
前記適応させることは、
前記コードワードが前記複数のクラスのどれに属するかに基づいて前記コードワードに適応変形を適用すること
を備えることを特徴とする請求項２に記載の方法。
前記コードワードを分割することは、
各コードブックに対応する回帰木を構築すること、および
前記所与のコードブックに対応する回帰木をトラバースすることによって複数の回帰クラスの１つに、所与のコードブック内の前記コードワードをグループ化すること
を備えることを特徴とする請求項３に記載の方法。
前記回帰木を構築することは、
言語回帰木を構築すること
を備えることを特徴とする請求項４に記載の方法。
前記回帰木を構築することは、
前記コードワードのクラスタ化することを反復することによって回帰木を構築すること
を備えることを特徴とする請求項４に記載の方法。
前記適応変形を適用することは、
前記複数のクラスのそれぞれに対応する適応変形を推定すること
を備えることを特徴とする請求項３に記載の方法。
前記各コードワードが少なくとも１つのガウス平均値を表し、前記コードワードを適応させることは前記ガウス平均値を適応させることを備えることを特徴とする請求項１に記載の方法。
前記各コードワードが少なくとも１つのガウス分散を表し、前記コードワードを適応させることは前記ガウス分散を適応させることを備えることを特徴とする請求項８に記載の方法。
前記適応させることは、
特定話者適応トレーニング・データに基づいて前記コードワードを適応させること
を備えることを特徴とする請求項１に記載の方法。
音声レコグナイザで音響モデルをトレーニングするコンピュータに実装される方法において、
１つのコードブックは前記音響モデルが符号化されている各音響部分空間に対応し、各コードブックはその中に複数のコードワードを有しており、各コードワードはモデル化された音声単位の音響特性の少なくとも１つのコンポーネントを表している、複数のコードブックを有する部分空間符号化された音響モデルを生成すること、および
適応トレーニング・データに基づいて前記コードワードを修正すること
を備えることを特徴とするコンピュータに実装される方法。
前記修正することは、
前記適応トレーニング・データを受信すること、および
前記適応トレーニング・データに基づいて変形を推定すること
を備えることを特徴とする請求項１１に記載のコンピュータに実装される方法。
前記修正することは、
前記各コードブック内の前記コードワードを複数のクラスの１つにグループ化すること
を備えることを特徴とする請求項１２に記載のコンピュータに実装される方法。
前記変形を推定することは、
前記複数のクラスのそれぞれに対する変形を推定すること
を備えることを特徴とする請求項１３に記載のコンピュータに実装される方法。
前記グループ化することは、
前記各コードブックに対応する回帰木を構築すること
を備えることを特徴とする請求項１４に記載のコンピュータに実装される方法。
前記グループ化することは、
前記回帰木をトラバースして、前記対応するコードブック内の前記コードワードを回帰クラスにグループ化すること
を備えることを特徴とする請求項１５に記載のコンピュータに実装される方法。
前記変形を推定することは、
回帰クラスごとに変形を推定すること
を備えることを特徴とする請求項１６に記載のコンピュータに実装される方法。
前記コードワードを修正することは、
所与のコードワードに、前記所与のコードワードが常駐する回帰クラスに対応する変形を適用すること
を備えることを特徴とする請求項１７に記載のコンピュータに実装される方法。
コンピュータ可読媒体であって、実行されると、
各部分空間に対応するコードブックと各コードブック内の複数のコードワードとを含む部分空間符号化された音響モデルを受信すること、
トレーニング・データを受信すること、および
前記トレーニング・データに基づいて前記コードブック内の前記コードワードを適応させること
をコンピュータに実行させる命令を記憶していることを特徴とするコンピュータ可読媒体。