JP2004341532A - 圧縮音響モデルの適応 - Google Patents

圧縮音響モデルの適応 Download PDF

Info

Publication number
JP2004341532A
JP2004341532A JP2004145307A JP2004145307A JP2004341532A JP 2004341532 A JP2004341532 A JP 2004341532A JP 2004145307 A JP2004145307 A JP 2004145307A JP 2004145307 A JP2004145307 A JP 2004145307A JP 2004341532 A JP2004341532 A JP 2004341532A
Authority
JP
Japan
Prior art keywords
codebook
computer
codeword
regression
codewords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004145307A
Other languages
English (en)
Inventor
Asela J Gunawardana
ジェイ.グナワルデナ アセラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004341532A publication Critical patent/JP2004341532A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F1/00Room units for air-conditioning, e.g. separate or self-contained units or units receiving primary air from a central station
    • F24F1/06Separate outdoor units, e.g. outdoor unit to be linked to a separate room comprising a compressor and a heat exchanger
    • F24F1/56Casing or covers of separate outdoor units, e.g. fan guards
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F13/00Details common to, or for air-conditioning, air-humidification, ventilation or use of air currents for screening
    • F24F13/20Casings or covers
    • F24F2013/207Casings or covers with control knobs; Mounting controlling members or control units therein
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 圧縮された音響モデルの適応を提供すること。
【解決手段】 本発明は、(特定話者トレーニング・データなどの)適応トレーニング・データを使用して部分空間で量子化された音響モデルを適応させるために使用される。音響モデルは多次元部分空間に圧縮される。部分空間ごとにコードブックが生成される。適応変形が推定され、平均値自体にではなくコードブックのコードワードに適用される。
【選択図】 図1


Description

本発明は、音声認識システムの音響モデル(acoustic models)に関する。より詳細には、本発明は、コンピュータに実装される音声認識で使用される圧縮されたガウスモデルの適応に関する。
音声認識システムは、音声信号を受信し、その音声信号が表す一続きの単語(word)を識別するために音声信号の復号を試みる。従来型の音声レコグナイザは、特に、通常はトレーニング・データから形成される音響モデルと言語モデルを含む。音響モデルは、トレーニング・データに基づいて音声単位(音素など)の音響特性をモデル化する。言語モデルは、トレーニング・データで発見された語順(word order)をモデル化する。
Leggetter and Woodland, SPEAKER ADAPTATION OF CONTINUOUS DENSITY HMM USING MULTIVARIATE REGRESSION, Computer Speech and Language, volume 9, pages 171-185 (1994) Leggetter and Woodland, SPEAKER ADAPTATION OF CONTINUOUS DENSITY HMMS USING MULTIVARIATE LINEAR REGRESSION, LCSLP (1994)
音声信号が音声認識のために受信された場合、その音声信号から音響特性が抽出され、その音声信号に含まれる音声単位を識別するために音響モデルの複数のモデルに対して比較される。ある単語(word)の履歴(またはコンテキスト)が与えられた場合にその単語(word)が発話された確率を決定するために可能性のある語(word)が言語モデルに対して比較される。
音声認識の精度を失わずにより少ない処理能力および/またはより少ない記憶能力を有するコンピュータ・システムで使用できるよう音声レコグナイザを設計することは、多くの場合、望ましいことである。音声認識システムの1つの重要なメモリ集中部分は音響モデルの記憶である。隠れマルコフモデル(HMM)ベースの音声認識システムにおいて、音響モデルは、一般に、対角共分散行列(diagonal covariance matrices)による数万の多次元ガウス確率分布から構成されている。例えば、ガウス分布はそれぞれ39の次元であってよい。各次元は1つの平均値と1つの分散とを必要とする。したがって、通常、それぞれが4バイトの浮動小数点値として記憶される、平均値と分散とをそれぞれが有する39の次元の4万のガウス分布を1つのモデルが有する場合、そのモデルの記憶には10メガバイト以上を要することになる。
各平均値を1バイトで記憶し、各分散を1バイトで記憶することは、スカラー量子化によって行うことができ、これによって誤差率に劣化のない4倍の圧縮(上記モデルでは2.5MB)が得られる場合がある。このようなタイプのスカラー量子化の1つに線形スカラー量子化があり、これは、各パラメータの最大値と最小値を見つけ、その間の点を線形に量子化することによって行うことができる。
その音響モデルを圧縮して、音響モデルを記憶するためのメモリを少なくするために、周知のクラスタ化技術を使用することができる。一般に、この技術は、部分空間符号化と称され、様々な次元をグループ化することを伴う。通常、代表的なガウス分布は、次元のグループごとにコードブックに記憶される。そのコードブックは音響モデルを形成するために記憶され、入力信号を処理するために音声認識中にインデックスによりアクセスされる。
また、従来、音響モデルは多くの異なる話者によってトレーニングされる。これらの話者は、例えばアクセントも声の高さも異なる男性と女性であってよい。話者は速く話す場合もあればゆっくり話す場合もある。音響モデルは、幅広いユーザ全体に対して通用する話者独立の音響モデルを得るために、これらの全てのタイプの話者を使用してトレーニングされる。
しかし、特定話者音響モデルは、所与の話者に対して、話者独立音響モデルよりも、より正確であることが広く知られている。音響モデルを適応させるために、かつてはそのモデルを適応すべき話者からトレーニング・データが収集された。次いでモデル変形(Model transformations)が推定されて、その音響モデルに適用された。音響モデルを適応させるには様々な周知の方法がある。従来の音響モデルを適応させるための従来からある方法の1つは、非特許文献1に記載されている。
しかし上記のようにモデルが部分空間に圧縮される場合、音響モデルのガウス分布は部分空間で量子化される。従来型の話者適応手順(MLLRなど)をこのようなモデルに適用することはできない。何故ならば、適応された平均値はそれ以上圧縮されず、したがってより多くのメモリを必要とするからである。
本発明は、(特定話者トレーニング・データなどの)適応トレーニング・データを使用して部分空間で量子化された音響モデルを適応させるために使用される。音響モデルは多次元部分空間に圧縮される。部分空間ごとにコードブックが生成される。適応変形(adaptation transform)が推定され、平均値それ自体というよりもむしろコードブックのコードワードに適用される。
一実施形態では、コードブックは、回帰クラス(regression classes)として知られているクラスにさらに分割される。回帰クラスは、そのガウス分布が、母音、子音、または無音のようなある言語クラスに属するか否かを反映することができ、または回帰クラスを他の特性に基づいて導き出すこともできる。コードブックが回帰クラスに導き出される実施形態では、コードワードが属する特定の回帰クラスに基づいてコードブック内のコードワードに適応変形を適用することができる。この方法では、1つの回帰クラスに属している、所与のコードブックの平均値の構成要素は、異なる回帰クラスに属するコードブックの平均値の構成要素と異なった方法で変形することができる。
本発明の一態様は、音響モデルを形成する部分空間符号化ガウスモデルの適応に関する。しかし、この態様および他の態様を詳細に検討する前に、本発明を使用することのできるコンピュータ環境およびコンピュータに実装されるアプリケーションの一例の説明を行う。
図1は、本発明を実装することのできる適切なコンピュータ・システム環境100の一例を示している。コンピュータ・システム環境100は、適切なコンピュータ環境の一例に過ぎず、本発明の使用法または機能の範囲に関していかなる制約の示唆も意図しない。また、コンピュータ環境100は、動作環境例100に示したどのコンポーネントまたはどのような複数のコンポーネントの組合せに対していかなる依存または要求をも有するものと解釈されるべきではない。
本発明は、多数の他の汎用または専用コンピュータ・システム環境または構成により動作可能である。本発明を使用するのに適した周知のコンピュータ・システム、環境、および/または構成の例は、限定はしないが、パーソナル・コンピュータ、サーバ・コンピュータ、ハンドヘルドまたはラップトップ・デバイス、マルチ・プロセッサ・システム、マイクロ・プロセッサ・ベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークPC、ミニ・コンピュータ、メインフレーム・コンピュータ、上記システムまたはデバイスのどれかを含む分散型コンピュータ環境などを含む。
本発明は、コンピュータによって実行中のプログラム・モジュールのようなコンピュータで実行可能な命令の一般的状況で説明することができる。一般に、プログラム・モジュールは、特定タスクを実行するかまたは特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は、通信ネットワークを介してリンクされている遠隔処理装置によってタスクが実行される分散型コンピュータ環境でも実行することができる。分散型コンピュータ環境では、プログラム・モジュールは、記憶装置を含めてローカル・コンピュータ記憶媒体と遠隔コンピュータ記憶媒体の両方に置くことができる。プログラムおよびモジュールによって実行されるタスクを以下で図面を参照しながら説明する。当業者ならば、この説明および図面を、任意の形式のコンピュータ可読媒体にでも書くことのできるプロセッサ実行可能命令として実装することができる。
図1を参照すると、本発明を実装するためのシステム例は、コンピュータ110の形式の汎用コンピュータデバイスを含む。コンピュータ110のコンポーネントは、限定はしないが、処理装置120、システム・メモリ130、およびシステム・メモリを含めて様々なシステム・コンポーネントを処理装置120に結合するシステム・バス121を含む。システム・バス121は、メモリ・バスまたはメモリ・コントローラ、周辺バス、および様々なバスアーキテクチャのどれかを使用するローカル・バスを含めていくつかのタイプのバス構造のどれであってもよい。限定ではなく一例として、このようなアーキテクチャは、業界標準アーキテクチャ(ISA)バス、マイクロ・チャネル・アーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオ電子装置規格化協会(VESA)ローカル・バス、およびMezzanineバスとしても知られている周辺装置相互接続(PCI)バスを含む。
コンピュータ110は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセス可能な任意の使用可能な媒体であってもよく、揮発性/不揮発性媒体、取外し可能/取外し不可能な媒体の両方を含む。限定ではなく一例として、コンピュータ可読媒体はコンピュータ記憶媒体と通信媒体とを含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラム・モジュール、または他のデータのような、情報の記憶に関する任意の方法または技術でも実装される揮発性/不揮発性の取外し可能な/取外し不可能な媒体を含む。コンピュータ記憶媒体は、限定はしないが、RAM、ROM、EEPROM、フラッシュ・メモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)、または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶装置、または所望の情報を記憶するために使用することができ、コンピュータ110によってアクセスすることのできる任意の他の媒体をも含む。通信媒体は、通常、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の搬送機構のような変調されたデータ信号形式で実装する任意の情報配信媒体をも含む。「変調されたデータ信号」という用語は、その特徴セットの1つまたは複数を有し、情報を信号に符号化するような方法で変更された信号を意味する。限定ではなく一例として、通信媒体は、有線ネットワークまたは直接有線接続のような有線媒体、およびアコースティック、RF、赤外線および他の無線媒体のような無線媒体を含む。上記のどの組合せでも、コンピュータ可読媒体の範囲内に含まれるべきである。
システム・メモリ130は、読み取り専用メモリ(ROM)131とランダム・アクセス・メモリ(RAM)132のような揮発性および/または不揮発性メモリ形式のコンピュータ記憶媒体を含む。起動時などにコンピュータ110内の素子間での情報の転送に役立つ基本ルーチンを含んでいる基本入出力システム133(BIOS)は、通常、ROM 131に記憶されている。RAM 132は、通常、処理装置120によって直接的にアクセス可能であり、かつ/または処理装置120によって現在操作されているデータおよび/またはプログラム・モジュールを含んでいる。限定ではなく一例として、図1は、オペレーティング・システム134、アプリケーション・プログラム135、他のプログラム・モジュール136、およびプログラム・データ137を示している。
コンピュータ110は、他の取外し可能な/取外し不可能な揮発性/不揮発性コンピュータ記憶媒体も含むことができる。一例としてのみ、図1は、取外し不可能な不揮発性磁気媒体から読み取り/に書き込むハードディスク・ドライブ141、取外し可能な不揮発性磁気ディスク152から読み取り/に書き込む磁気ディスク・ドライブ151、およびCD−ROMまたは他の光媒体のような取外し可能な不揮発性光ディスク156から読み取り/に書き込む光ディスク・ドライブ155を示している。この動作環境例で使用することのできる他の取外し可能/取外し不可能な揮発性/不揮発性コンピュータ記憶媒体は、限定はしないが、磁気テープ・セット、フラッシュ・メモリ・カード、デジタル多用途ディスク、デジタル・ビデオ・テープ、固体RAM、固体ROMなどを含む。ハードディスク・ドライブ141は、通常、インターフェース140のような取外し不可能なメモリ・インターフェースを介してシステム・バス121に接続されており、磁気ディスク・ドライブ151および光ディスク・ドライブ155は、通常、インターフェース150のような取外し可能なメモリ・インターフェースによってシステム・バス121に接続されている。
上記で説明し図1に示したこれらドライブおよびこれらに関連するコンピュータ記憶媒体は、コンピュータ110にコンピュータ可読命令、データ構造、プログラム・モジュール、および他のデータの記憶を提供する。例えば図1では、ハードディスク・ドライブ141を、オペレーティング・システム144、アプリケーション・プログラム145、他のプログラム・モジュール146、およびプログラム・データ147を記憶するように示している。これらのコンポーネントは、オペレーティング・システム134、アプリケーション・プログラム135、他のプログラム・モジュール136、およびプログラム・データ137と同じであっても異なってもよいということに留意されたい。本明細書ではオペレーティング・システム144、アプリケーション・プログラム145、他のプログラム・モジュール146、およびプログラム・データ147には、最低限これらが別物であることを示すために別々の番号を付している。
ユーザは、キーボード162、マイクロフォン163、およびマウス、トラックボール、またはタッチパッドのようなポインティング・デバイス161などのような入力装置を介してコマンドおよび情報をコンピュータ110に入力することができる。他の入力装置(図示せず)は、ジョイスティック、ゲーム・パッド、衛星放送用アンテナ、スキャナなどを含むことができる。これらおよび他の入力装置は、システム・バスに結合されているユーザ入力インターフェース160を介して処理装置120に接続されている場合がしばしばあるが、パラレル・ポート、ゲーム・ポート、またはユニバーサル・シリアル・バス(USB)のような他のインターフェースおよびバス構造によって接続することもできる。モニタ191または他のタイプの表示装置も、ビデオ・インターフェース190のようなインターフェースを介してシステム・バス121に接続されている。モニタに加えて、コンピュータは、出力周辺インターフェース195を介して接続することのできるスピーカ197およびプリンタ196のような他の周辺出力装置も含むことができる。
コンピュータ110は、遠隔コンピュータ180のような1つまたは複数の遠隔コンピュータへの論理接続を使用して、ネットワーク接続された環境で動作することができる。遠隔コンピュータ180は、パーソナル・コンピュータ、ハンドヘルド・デバイス、サーバ、ルータ、ネットワークPC、ピア・デバイス、または他の共通ネットワーク・ノードであってよく、通常、コンピュータ110に関して上記の要素の多くまたはすべてを含む。図1に示す論理接続は、ローカル・エリア・ネットワーク(LAN)171とワイド・エリア・ネットワーク(WAN)173を含むが、他のネットワークを含むこともできる。このようなネットワーク接続環境は事務所、企業規模コンピュータ・ネットワーク、イントラネット、およびインターネットでは一般的なものである。
LANネットワーク接続環境で使用される場合、コンピュータ110はネットワーク・インターフェースまたはアダプタ170を介してLAN 171に接続されている。WANネットワーク接続環境で使用される場合、コンピュータ110は、通常、モデム172またはインターネットのようなWAN 173を介した通信を確立するための他の手段を含む。内蔵型であっても外付けであってもよいモデム172は、ユーザ入力インターフェース160または他の適切な機構を介してシステム・バス121に接続することができる。ネットワーク接続された環境では、コンピュータ110に関して示したプログラム・モジュールまたはその一部は、遠隔記憶装置に記憶することができる。限定ではなく一例として、図1は、遠隔アプリケーション・プログラム185を遠隔コンピュータ180に常駐しているように示している。図示したネットワーク接続は一例であって、コンピュータ間で通信を確立する他の手段も使用することができるということを理解されたい。
図2は、ガウス分布の部分空間符号化および本発明のコードワード適応から恩恵を受ける音響モデルを有する音声認識システム例のブロック図を示している。
図2で、話者400(スピーカ)はマイクロフォン404に向かって発話する。マイクロフォン404によって検出されたオーディオ信号は電気信号に変換され、その電気信号はアナログ・デジタル(A/D)コンバータ406に提供される。
A/Dコンバータ406は、マイクロフォン404からのアナログ信号を一連のデジタル値に変換する。いくつかの実施形態では、A/Dコンバータ406は16kHz、1サンプルあたり16ビットでアナログ信号をサンプリングし、1秒あたり32キロバイトの音声データを作成する。これらのデジタル値はフレーム・コンストラクタ407に提供され、一実施形態では、このフレーム・コンストラクタ407はこれらの値を10ミリ秒間隔で開始する25ミリ秒フレームにグループ化する。
フレーム・コンストラクタ407によって作成されたデータのフレームが特徴エキストラクタ(feature extractor:特徴抽出部)408に提供され、そこで各フレームから特徴が抽出される。特徴抽出モジュールの例には、線形予測コーディング(LPC)、LPC導出ケプストラム、知覚線形予測(Perceptive Linear Prediction:PLP)、聴覚モデル特徴抽出(Auditory model feature extraction)、およびメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients:MFCC)特徴抽出、を実行するモジュールが含まれる。本発明はこれらの特徴抽出モジュールに限定されるものではなく、本発明のコンテクスト内で他のモジュールも使用することができるということに留意されたい。
特徴抽出モジュール408は、それぞれが音声信号の1つのフレームに関連付けられている特徴ベクトルのストリームを生成する。この特徴ベクトルのストリームはデコーダ412に提供され、そこでその特徴ベクトルのストリーム、語彙辞典414、言語モデル416(例えば、N−グラム、文脈自由文法、またはこれらの混合に基づいて)、および音響モデル418に基づいて最も可能性の高い一連の単語(word)が特定される。復号に使用される特定の方法は本発明には重要ではない。しかし、本発明の態様は、音響モデル418に対する修正形態とその使用法を含む。
最も確率の高い一連の仮定語(hypothesis words)を任意選択の信頼性測定モジュール420に提供することができる。信頼性測定モジュール420は、音声レコグナイザによって誤った識別を受けた可能性の最も高い単語はどれかを特定する。これは、一部には二次音響モデル(図示せず)に基づくことができる。次いで信頼性測定モジュール420は、その一連の仮定語を、誤った識別を受けた可能性のある単語がどれかを示す識別子と共に出力モジュール422に提供する。当業者には、信頼性測定モジュール420は本発明を実行する上では必須ではないということが理解されよう。
トレーニング中、トレーニング・テキスト426に対応する音声信号がトレーニング・テキスト426の語彙の写し(lexical transcription)と共にデコーダ412に入力される。トレーナ424は、トレーニング入力に基づいて音響モデル418をトレーニングする。本発明の一態様は圧縮された音響モデル418を適応させることを含む。
部分空間グループ化またはクラスタ化の技術、および本発明の適応を説明する前に、音響モデル418に使用される従来技術の符号化技術を簡単に再検討することは有益であろう。「背景技術」の節で説明したように、典型的な音響モデルは、数万の多次元ガウス確率分布から構成され、数万の多次元ガウス確率分布を表している。例えば、一般的な音響モデルは、多くの39次元対角ガウス確率分布を含む。この実施形態では、各ガウス分布は、次元1つ当たり1つで、39の平均値コンポーネント(「m」)と39の分散コンポーネント(「v」)を有する。一実施形態では、所与の次元に対応する平均値および分散は単一ガウス分布コンポーネントとして取り扱われる。したがって、各ガウス分布は、それぞれに平均値と分散を有する39のそのようなコンポーネントから構成される。これらガウス分布のすべてを維持するというよりはむしろ、ガウス分布コンポーネントは、本明細書で「セントロイド(centroids)」とも称する代表的なガウス分布コンポーネント、を生じるような方法でクラスタ化されるかまたはグループ化される(すなわち、各コンポーネントの平均値および分散がクラスタ化される)。図3Aは、1つの次元の部分的なクラスタ化の概要を示している。図3Aで、各点は平均値と分散を有するガウス分布コンポーネントを表している。図3Aで、平均値は横軸500で表し、分散値は縦軸502に対して表される。クラスタ化は、図3Aで破線の円504内に示したガウス分布の類似の平均値および/または分散コンポーネントを1つにグループ化することを伴う。図3Aでは、4つのクラスタが「0」、「1」、「2」、「3」で示されている。
上記のように、セントロイドが得られ、1次元のガウス分布コンポーネントのクラスタを表す。したがって、各セントロイドは対応する平均値および分散を含む。ある符号化技術は、1つの番号によって各セントロイド(各平均値および各分散)を表すことを含み、この一つの番号は参照に使用することができ、これにより、平均値と分散値を得ることができる。この技術は、(各部分空間が1つの次元の場合)部分空間量子化の簡素な形式であり、図3Bに概要が示されているコードブック520の形成を伴い、このコードブック520は、本発明の目的にために、セントロイドまたはそれぞれの平均値または分散のコレクションであってよい。上記のように、各セントロイドは、コードブックにそれぞれ列522および524として記憶されている対応する平均値と分散コンポーネントを有する。第3の列526は、図3Aで形成されているクラスタに対応する参照識別子(またはインデックス)を含んでいる。コードブックは項目(コードワード)を、例えば0から15(16項目)まで、または0から255(256項目)までのように幾つでも有することができる。図3Aは、最初の4つのクラスタおよび対応するセントロイドを表している。各平均値と各分散を別個に符号化することもできるということに留意されたい。
コードブック520は、第3の列526に対する参照を付けられて、処理中に使用される平均値と分散を記憶する。例えば、ガウス平均値と分散がインデックス番号2で表される場合、コードブックは、平均値1.40374が使用されるべきであり、一方これに対して分散0.0072が使用されるべきである、ことを示している。
次に、音響モデルのサイズをさらに低減する1つの方法を検討する。本発明の目的に対して、部分空間の符号化のための特定の方法は重要ではなく、以下の説明は例示目的でのみ提供される。部分空間符号化の場合、いくつかの次元が共に表される。例えば、39次元ガウス分布の次元1と3を1つにグループ化し、対応する平均値と分散を、上記で1つの次元で説明した方法と同様に1つのインデックス番号で表すことが可能な場合がある。図3Cは、次元1と3が1つにグループ化されるコードブック540を表している。列542と544は(図3Bで表した次元を使用する)次元1に対する平均値と分散を表しており、列548と550は(上記で示さない別の次元)次元3に対する平均値と分散を表しており、これらすべては識別子546で参照される。したがって、このコードブックで符号化されたガウス・コンポーネントは2つの平均値と2つの分散から構成される。
2つの次元を1つにグループ化することにより、モデルを約2分の1に低減することができる。この技術を部分空間符号化と称するのは、元のモデルは39次元空間を有することができるが、低減されたモデルは元の39次元空間の部分空間である20次元空間(19次元は元の平均値と分散コンポーネントのグループ化された対を表し、1つはそれ自体で残される)を有するからである。一実施形態では、各コードブックは、39次元特徴空間の部分空間に対応するガウス分布コンポーネントを符号化する。図3Cに示すようなコードブック、すなわち、列546の1つの番号が、元の平均値の2つの次元よりも多くの次元、および元の分散の2つの次元よりも多くの次元、に対応する部分空間を表すコードブックを使用してさらに低減が達成されることも留意されたい。これら部分空間は、レコグナイザの性能が悪影響を受けないこのような方法で次元をグループ化することに関して、説明の目的上選ばれたものである。
図4は、クラスタ化を実行するためのステップと、部分空間符号化またはグループ化を実行するためのステップを示している。ここでもまた、これを実行するには多くの方法があるが、以下の説明では1つの方法を例示する。この方法はステップ600から開始する。ステップ602で、各次元のガウス分布は、各クラスタが代表のセントロイドまたは計算されたセントロイドを有する選択されたクラスタ数にクラスタ化される。クラスタ化には様々なよく知られた標準的な技術がある。一般に、最初に所望の数のクラスタを備えて開始しなかった場合、どのようにクラスタを初期設定するかを決定し、次いでどのようにクラスタを追加するかを決定する必要がある。このステップでは、K平均値クラスタ化を使用することができる。例えば、ある方法は、ガウス分布のすべてを収容する1つのクラスタだけから開始し、次いで所望の数のクラスタに達するまで定期的にすべてのクラスタを分割することを含む。あるいは、所望の数のクラスタから開始し、次いで初期クラスタ間に均等に確率分布を割り当てることができる。クラスタ化において、ブロック604に示すようにクラスタ化演算に関連するコストを計算することが一般的である。
各1つの次元のガウス分布内の平均値と分散をクラスタ化する(ステップ602から604)ことに加えて、同じタイプの技術を、多次元ベクトルを部分空間に分割することと同じように、多次元の平均値および分散ベクトルの次元コンポーネントに適用することができる(例えば、次元0を次元1と共にグループ化することができ、次元0を次元2と共にグループ化することができ、次元0を次元2および3と共にグループ化することができ、という具合に)。図4のステップ606および608は、次元の組合せに対するクラスタ化とコスト決定の各ステップを表している。この段階で、1つのグループは2つの次元から構成されている。例えば、図5は、xを例えば39または他の所望の数として、x個の次元を有する多次元平均値および分散ベクトル700を示している。ベクトル700を部分空間に分割するために、ベクトル700の次元コンポーネントを1つにグループ化することができる。ここでもまた、これは様々な周知の方法で実行することができるが、ここでは一例を示す。ステップ608で、ベクトル700の2つのコンポーネントがグループ化される。ステップ608で、これらコンポーネントのグループ化のコストが計算される。
ステップ610で、すべての様々な組合せが計算されるまでこのプロセスが反復される。このことは、図6のように表すことができ、ここでは、2次元配列が次元の各組合せに対する合計の次元測定値を表している。具体的に、対角要素(ΣSdT0,0)は1つの次元に対するクラスタ化およびコスト決定に対応し(すなわち、ステップ602および604)、オフ対角要素(ΣSdT 0,2)は2つの次元をマージするためのクラスタ化およびコスト決定に対応する。
ステップ612で、コストの増加が最も少ない2つの次元が1つにグループ化される。増加が最も少ないコストは、一実施形態では、次に示す式により決定される。
等式1
マージのコスト=コスト[AおよびB]−コスト[A]−コスト[B]
グループAおよびグループB
最初の反復でAとBはそれぞれ1つの次元を表している(例えば、0、1、2、など)。しかしその後の反復では、AとBは既にマージされた次元も表す場合がある(例えば、1と26、2と13、など)。
図6に戻る。最初の反復では、コスト[AおよびB]はオフ対角要素の1つであり、コスト[A]とコスト[B]はそれぞれ対角要素から得られたものである。
ステップ612で2つの次元を1つにグループ化すると、次元の合計数が(例えば、39の次元から38の次元に)1つ低減される。
ステップ614で次元の所望の低減(数)に達しない場合、プロセスはステップ606に戻り、そこで他の次元のそれぞれに関して新しく形成されたグループに基づいてクラスタ化とコスト決定が計算される。これは、新しい対角要素が新しく形成されたグループのコストを表しており、様々な組合せを他の次元によって反映させるためにオフ対角要素が増やされる、1行と1列を低減した(例えば、32×32)2次元配列で図式化することができる。ここでもまた、ステップ608で、上記の等式1の計算に基づいてコストの増加が最も少ない2つのグループがマージされる。元の次元のグループ化によって所望の数の次元(数)になるまで、ステップ606、608、610、612、および614のさらなる反復が繰り替えされる。部分空間符号化はステップ616で完了する。
これにより、d−dでラベリングされるn個の部分空間に分割されるベクトル702が得られる。例えば、ベクトル702は、元の次元1と2が部分空間dを形成するために組み合わされていることを示している。さらに、元の次元3〜5は部分空間dを形成するために組み合わされている(以下同断)。複数の部分空間にグループ化される元の次元はベクトルで連続しているが、これは必須ではないということに留意されたい。当然ながら、これらは連続するよう常に再順序付けすることができる。
図5の702に示すように次元ベクトル700が再グループ化され、部分空間に再構成されるので、音響モデルを1つの大きな表で表すことができる(図3Cの形式の表のように)。しかし様々な理由から、この表をさらに小部分に分割すると、より良好かつより正確な圧縮が可能となる。したがって、本発明の一実施形態によれば、この表は複数のコードブックに分割され、1つのコードブックは元のベクトルが分割される各部分空間d−dに対応する。
例えば、ガウス混合エミッション密度(Gaussian mixture emission densities)によるHMMの場合、状態エミッションは次に示す式によって得られる。
等式2
Figure 2004341532
上式で、Oは観測フレームであり、sはその状態を表し、μsmは1つの状態混合コンポーネントに対する平均値であり、Σsmは同じ状態混合コンポーネントに対する分散である。
ここで、図5に示すように、Oを次元数dとし、
等式3
Figure 2004341532
として、d次元観測ベクトルOがn個の別個の部分空間コンポーネント(O−O)に分割されると仮定すると、
等式4
Figure 2004341532
となる。
ガウス分布が部分空間符号化されている場合、各部分空間には別個のコードブックが割り当てられる。したがって、i番目の部分空間コンポーネントに対する平均値と分散は、次に示すようにi番目のコードブックから選ばれる。
等式5
Figure 2004341532
図7Aは、2つの異なるコードブック704と706を示している。コードブック704は図5に示す部分空間d1を表しており、コードブック706は図5に示す部分空間d2を表している。したがって、表704の第1の場所は、平均値および分散ベクトル700および702の最初の2つの次元数コンポーネントを含んでいるので、実際には2つの項目を含む。同様に、部分空間d2は平均値ベクトル702の次元数コンポーネント3〜5に対応するので、コードブック706の各アイテムは3つの項目を含む。
この方法でコードブックを表すことは有利な圧縮特性を可能にするけれども、その上に別の問題を提起する。音響モデルの適応(特定話者適応のような)は所与の話者に対する音響モデルの性能を強化することが知られている。圧縮されない形式では、適応は比較的単純であり、様々な周知の方法で実行することができる。このような方法の1つに、非特許文献2に記載がある。
しかし、一度コードブックが図7Aに示すように表されると、適応は単純ではなくなる。この場合、平均値の別々の次元コンポーネントが別のコードブック704と706の間で分割されている。
本発明の一実施形態によると、部分空間符号化HMMはコードブック自体のコードワード項目(codeword entries)を適応させることによって適応される。一実施形態では、各コードワード項目に対する変形を推定するというよりはむしろ、最初に、各コードブック内のコードワード項目が複数のクラスにグループ化される。これは、様々な異なる方法で実行することができる。例えば、一実施形態によれば、コードブックごとに1つの言語回帰木(linguistic regression tree)が構築される。したがって、各コードブック内のコードワード項目は回帰木に従って回帰クラスに分割される。1つの変形は、この回帰木の回帰クラスのそれぞれに関連付けられる。したがって、各コードブックのコードワードのグループは、回帰木に従って、単一の変形に割り当てられる。
一実施形態では、使用される回帰木はコードワードの相似に基づいて生成される。すなわち、コードワードは相似に基づいて反復的にクラスタ化され、最終的なクラスタは、回帰クラスを形成する。モデルを適応させるために、各クラスごとに変形が推定され、適用される。
次に、このプロセスをさらに詳細に説明するために別の実施形態を説明する。図7Bは、本発明の一実施形態による言語回帰木の一例を示している。図7Bで、コードブック内のコードワード項目は言語学的質問に基づいてグループ化される。例えば、この木(tree)の最初のノードは、そのコードワード項目が無音(silence phone)に関連付けられているか否か、を尋ねる。そのコードワード項目が無音に関連付けられている場合、そのコードワードは、関連付けられた変形Tsilを有する回帰クラスに割り当てられる。そのコードワード項目が無音に関連付けられていない場合、その回帰木の次のノードが、そのコードワード項目が母音(vowel phone)に対応するか否かを尋ねる。そのコードワード項目が母音に対応する場合、そのコードワード項目は変形Tvowelに対応する回帰クラスに割り当てられる。しかし、現在選択されているコードワード項目が母音に対応しない場合、そのコードワード項目は、対応する子音変形Tconsを有する回帰クラスに割り当てられる。当然ながら、任意の所望の基準に基づいて幅広い種類の他の回帰木を使用することができ、コードブック内のコードワード項目がグループ化される具体的な方法、およびこれらをグループ化するために使用される基準は、本発明にとって重要ではない。本明細書では、このグループ化を説明の目的でのみ回帰クラスと称する。
一度コードワード項目がグループ化されると、部分空間ごとに状態(state)と混合コンポーネント(mixture components)の回帰クラスr(s,m)があり、平均値Ti,rの変形が回帰クラスのそれぞれに関連付けられる。変形を適用することにより、
等式6
Figure 2004341532
の出力状態エミッション密度(output state emission density )が得られる。
これは、部分空間に対応するブロックに、合計平均値ベクトルμs,mに基づくブロック対角変形構造を強制することが分かる。例えば、図8は、対角ブロック742、744、746、および748がそれぞれ異なる部分空間に対応するブロック対角行列(block diagonal matrix)740の一部を図式化したものである。したがって、ブロック742〜748のサイズは、対応するコードブック内の各アイテムで表される次元コンポーネント数に対応する。
例えば、コードブック704は、(対応する分散コンポーネントの他に)それ自体が平均値ベクトルの2つの次元コンポーネントを含む部分空間d1に対する項目を収容する。したがって、部分空間d1に対応するブロック742は2×2のブロックである。同様に、ブロック744は部分空間d2に対するコードブックに対応する。部分空間d2に3つの次元コンポーネントがあるので、ブロック744は3×3のブロックである。当然ながら、このパターンはコードブックごとに続く。
各部分空間コードブックは独自の回帰木を有しており、行列(matrix)の様々なブロックを回帰木で、別々に連結することができるので、これにより、変形を適用する際により柔軟な構造が可能となることに留意されたい。これは、図9についてさらに分かり易く説明される。
図9は、ブロック対角行列の各ブロックは異なる回帰木を使用して選ばれるので、ブロック対角行列構造740は、実際には複数の異なる変形を生成することを示している。図9にはそれらのうち2つの変形(740Aおよび740B)を示す。このような変形の実際の数は、コードブックのそれぞれが分割される回帰クラスの数に依存している。ブロック742の数は、コードブック704が分割される回帰木の数に対応する数だけある。同様に、ブロック744の数は、コードブック706が分割される回帰クラスの数に対応する数だけある。
この実施形態のために、コードブック704と706のどちらも回帰クラスに単純に分割され、第1の回帰クラスに関連付けられた適応変形Tはブロック742Aの陰影で示されており、第2の回帰クラスに関連付けられた適応変形Tはブロック742Bの陰影で示されていると仮定する。コードブック704は2つの回帰クラスだけに分割されるので、層740Aはブロック742Aが第1の変形Tをそれに適用させることを示しており、層740Bはブロック742Bが第2の変形Tをそれに適用させることを示している。同様に、コードブック706は2つの回帰クラスに分割されるので、層740Aはブロック744Aが第1の変形Tをそれに適用させることを示しており、層740Bはブロック744Bが第2の変形Tをそれに適用させることを示している。
したがって、任意のコードブック704〜706などのコンポーネントに適用される特定の変形は、コードワードにより、またはコードワードのグループにより異なる。コードワードのグループが回帰木からの回帰クラスによって定義される場合、コードブックの様々な要素に適用される変形は、所与のコンポーネントが属する回帰クラスにより異なっていてよい。ブロック742Aと742Bの間で、陰影は、それら2つのブロックによって表されるコードブック704のコンポーネントが異なる回帰クラスに常駐することを表すために、別にした。同様に、ブロック744Aと744Bの間の陰影も、それらのブロックに対応するコードブック706のコンポーネントも異なる回帰クラスに常駐することを示すために、別にした。生成することのできる実現可能なすべての変形数は、各部分空間の回帰木の数の積である。
適用される特定の変形を計算するために、推定最大化(EM)アルゴリズムを標準最大尤度線形回帰(MLLR)手順と共に使用することができる。次に説明の目的でのみこれを簡単に説明する。以下に示す微分では、簡約化のため、各コードブックが単一の変形を有し、平均値だけが適応され、各状態がそのエミッション密度に単一のガウス分布を有するものと仮定する。これらの仮定は、説明を簡単にするためにだけなされているものである。
変形は次のように推定される。
等式7
Figure 2004341532
等式6から代入すると、
等式8
Figure 2004341532
となる。
上記の導出において、は実際の語彙の写しを表していることに留意されたい。語彙の写しが与えられた場合に状態シーケンスの確率を得るために、次に示す式が使用される。
等式9
Figure 2004341532
上式で、πは音のシーケンスを表しており、総和の第1の項は、特定の単語が与えられた場合の音のシーケンスの確率である。これらの確率は発音辞書から例証的に得ることができる。総和の第2の項は、音のシーケンスが与えられた場合の状態シーケンスの確率を表している。
補助機能は、対応する変形Tiを変更することによってそれぞれ独立して最大化することのできるn個のコンポーネントから構成されるということにも留意されたい。
等式10
Figure 2004341532
Tiのコンポーネントに関して微分係数を取り、0に設定し、再構成することによって、
等式11
Figure 2004341532
が得られる。
等式11は、それが部分空間レベルにあり、カウントがコードワード・レベルで保持されるということを除いて、標準MLLR再推定方程式と同じであることが分かる。複数の混合コンポーネントと複数の回帰クラスを有する再推論等式11から次に示す等式が得られる。
等式12
Figure 2004341532
上式で、
γ=前進/後進確率カウント
r=回帰クラス
m=混合コンポーネント
s=状態
l=フレーム数
s,m=コードブック内のコードワードを識別する状態混合コンポーネントの組合せ
したがって、等式12は、所与の回帰クラスrの要素であるs、mで表されるすべてのコードワードに関して、そのコードワードに関連付けられたカウントの積、コードブックiでs、mにより示されるコードワードに対する分散、コードブックiの回帰rに関連付けられた変形、およびそのコードワードに対する平均値に適用された際にs、mにより示されるコードワードを合計するということが分かる。
したがって、本発明は、部分空間で量子化されるように圧縮される音響モデルに対して話者適応手順を提供することが分かる。本発明は、一実施形態で、部分空間あたりの量子化のコードブックを平均値自体にではなく話者に適用するためにMLLR手順の修正形態を使用する。一実施形態では、コードブックに適用される変形はコードワードに基づいて異なる場合がある。別の実施形態では、回帰木はコードブックに対して構築され、コードブックのコンポーネントが常駐する回帰クラスに基づいて変形が適用される。さらに別の実施形態では、異なるコードブックのコードワードを1つのコードブックと次のコードブックで異なる方法でグループ化できるよう、様々な回帰木が様々なコードブックのそれぞれに対して構築される。このようにして、コードブックが分割される、異なる回帰クラスに基づいて変形を異なるコードブックに異なる方法で適用することができる。
以上、本発明を特定の実施形態に関して説明したが、当業者には、本発明の趣旨および範囲を逸脱せずに形式および細部に変更を行うことができることが理解されよう。
本発明を使用することのできる環境の一実施形態を示す図である。 本発明の一実施形態による音声認識システムのブロック図である。 複数のクラスタに形成されたガウス分布を示す図である。 1つの次元の平均値と分散を有するコードブックの略図である。 2次元の平均値と分散を有するコードブックの略図である。 クラスタ化と部分空間符号化の方法を示す流れ図である。 部分空間にクラスタ化された2つの平均値ベクトルを示す図である。 本発明の一実施形態に従い平均値を表すブロック対角行列の略図である。 2つの部分空間に対応する2つのコードブックを示す図である。 本発明による回帰木の一実施形態を示す図である。 4つのコードブックに対応するブロックを有するブロック対角行列の一部を示す図である。 コードブックのそれぞれの回帰クラスに基づいて適応変形を異なる方法でコードブックのコードワードに適用することができることを説明する、部分空間に分解されたブロック対角行列の一部を示した図である。
符号の説明
120 処理装置
130 システム・メモリ
134 オペレーティング・システム
135 アプリケーション・プログラム
136 他のプログラム・モジュール
137 プログラム・データ
140 取外し不可能な不揮発性メモリ・インターフェース
150 取外し可能な不揮発性メモリ・インターフェース
160 ユーザ入力インターフェース
161 ポインティング・デバイス
162 キーボード
163 マイクロフォン
170 ネットワーク・インターフェース
171 ローカル・エリア・ネットワーク
172 モデム
173 ワイド・エリア・ネットワーク
180 遠隔コンピュータ
185 遠隔アプリケーション・プログラム
190 ビデオ・インターフェース
191 モニタ
195 出力周辺インターフェース
196 プリンタ
197 スピーカ

Claims (19)

  1. 音声認識エンジンで使用するための音響モデルを適応させる方法において、
    前記音響モデルを部分空間符号化して、それぞれが複数のコードワードを含み、1つの部分空間あたり少なくとも1つのコードブックを含む、コードブックの複数を獲得すること、および
    適応トレーニング・データに基づいて前記コードブック内の前記コードワードを適応させること
    を備えることを特徴とする方法。
  2. 前記適応させることの前に、各コードブック内の前記コードワードを複数の異なるクラスに分割することをさらに備えることを特徴とする請求項1に記載の方法。
  3. 前記適応させることは、
    前記コードワードが前記複数のクラスのどれに属するかに基づいて前記コードワードに適応変形を適用すること
    を備えることを特徴とする請求項2に記載の方法。
  4. 前記コードワードを分割することは、
    各コードブックに対応する回帰木を構築すること、および
    前記所与のコードブックに対応する回帰木をトラバースすることによって複数の回帰クラスの1つに、所与のコードブック内の前記コードワードをグループ化すること
    を備えることを特徴とする請求項3に記載の方法。
  5. 前記回帰木を構築することは、
    言語回帰木を構築すること
    を備えることを特徴とする請求項4に記載の方法。
  6. 前記回帰木を構築することは、
    前記コードワードのクラスタ化することを反復することによって回帰木を構築すること
    を備えることを特徴とする請求項4に記載の方法。
  7. 前記適応変形を適用することは、
    前記複数のクラスのそれぞれに対応する適応変形を推定すること
    を備えることを特徴とする請求項3に記載の方法。
  8. 前記各コードワードが少なくとも1つのガウス平均値を表し、前記コードワードを適応させることは前記ガウス平均値を適応させることを備えることを特徴とする請求項1に記載の方法。
  9. 前記各コードワードが少なくとも1つのガウス分散を表し、前記コードワードを適応させることは前記ガウス分散を適応させることを備えることを特徴とする請求項8に記載の方法。
  10. 前記適応させることは、
    特定話者適応トレーニング・データに基づいて前記コードワードを適応させること
    を備えることを特徴とする請求項1に記載の方法。
  11. 音声レコグナイザで音響モデルをトレーニングするコンピュータに実装される方法において、
    1つのコードブックは前記音響モデルが符号化されている各音響部分空間に対応し、各コードブックはその中に複数のコードワードを有しており、各コードワードはモデル化された音声単位の音響特性の少なくとも1つのコンポーネントを表している、複数のコードブックを有する部分空間符号化された音響モデルを生成すること、および
    適応トレーニング・データに基づいて前記コードワードを修正すること
    を備えることを特徴とするコンピュータに実装される方法。
  12. 前記修正することは、
    前記適応トレーニング・データを受信すること、および
    前記適応トレーニング・データに基づいて変形を推定すること
    を備えることを特徴とする請求項11に記載のコンピュータに実装される方法。
  13. 前記修正することは、
    前記各コードブック内の前記コードワードを複数のクラスの1つにグループ化すること
    を備えることを特徴とする請求項12に記載のコンピュータに実装される方法。
  14. 前記変形を推定することは、
    前記複数のクラスのそれぞれに対する変形を推定すること
    を備えることを特徴とする請求項13に記載のコンピュータに実装される方法。
  15. 前記グループ化することは、
    前記各コードブックに対応する回帰木を構築すること
    を備えることを特徴とする請求項14に記載のコンピュータに実装される方法。
  16. 前記グループ化することは、
    前記回帰木をトラバースして、前記対応するコードブック内の前記コードワードを回帰クラスにグループ化すること
    を備えることを特徴とする請求項15に記載のコンピュータに実装される方法。
  17. 前記変形を推定することは、
    回帰クラスごとに変形を推定すること
    を備えることを特徴とする請求項16に記載のコンピュータに実装される方法。
  18. 前記コードワードを修正することは、
    所与のコードワードに、前記所与のコードワードが常駐する回帰クラスに対応する変形を適用すること
    を備えることを特徴とする請求項17に記載のコンピュータに実装される方法。
  19. コンピュータ可読媒体であって、実行されると、
    各部分空間に対応するコードブックと各コードブック内の複数のコードワードとを含む部分空間符号化された音響モデルを受信すること、
    トレーニング・データを受信すること、および
    前記トレーニング・データに基づいて前記コードブック内の前記コードワードを適応させること
    をコンピュータに実行させる命令を記憶していることを特徴とするコンピュータ可読媒体。
JP2004145307A 2003-05-15 2004-05-14 圧縮音響モデルの適応 Pending JP2004341532A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/438,498 US7499857B2 (en) 2003-05-15 2003-05-15 Adaptation of compressed acoustic models

Publications (1)

Publication Number Publication Date
JP2004341532A true JP2004341532A (ja) 2004-12-02

Family

ID=33029806

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004145307A Pending JP2004341532A (ja) 2003-05-15 2004-05-14 圧縮音響モデルの適応

Country Status (6)

Country Link
US (1) US7499857B2 (ja)
EP (1) EP1477966B1 (ja)
JP (1) JP2004341532A (ja)
KR (1) KR101036712B1 (ja)
CN (1) CN1551101B (ja)
AT (1) ATE531032T1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009527801A (ja) * 2006-02-21 2009-07-30 株式会社ソニー・コンピュータエンタテインメント 話者適応を用いた音声認識とピッチによる登録

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004045979A1 (de) * 2004-09-22 2006-03-30 Siemens Ag Verfahren zur Sprecheradaption für ein Hidden-Markov-Modell basiertes Spracherkennungssystem
US20060136210A1 (en) * 2004-12-16 2006-06-22 Sony Corporation System and method for tying variance vectors for speech recognition
CA2599168A1 (en) * 2005-02-24 2006-08-31 Ernest E. Braxton Apparatus and method for non-invasive measurement of intracranial pressure
US7729909B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition
US20070088552A1 (en) * 2005-10-17 2007-04-19 Nokia Corporation Method and a device for speech recognition
KR20090008466A (ko) * 2006-05-09 2009-01-21 인터디지탈 테크날러지 코포레이션 범용 지상 무선 액세스를 위한 가변 피드백
US8239195B2 (en) * 2008-09-23 2012-08-07 Microsoft Corporation Adapting a compressed model for use in speech recognition
US8145483B2 (en) * 2009-08-05 2012-03-27 Tze Fen Li Speech recognition method for all languages without using samples
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
US9367612B1 (en) * 2011-11-18 2016-06-14 Google Inc. Correlation-based method for representing long-timescale structure in time-series data
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) * 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8880398B1 (en) 2012-07-13 2014-11-04 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9093069B2 (en) * 2012-11-05 2015-07-28 Nuance Communications, Inc. Privacy-sensitive speech model creation via aggregation of multiple user models
US9378729B1 (en) * 2013-03-12 2016-06-28 Amazon Technologies, Inc. Maximum likelihood channel normalization
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US10511695B2 (en) * 2015-06-23 2019-12-17 Georgia Tech Research Corporation Packet-level clustering for memory-assisted compression of network traffic
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
KR102492318B1 (ko) 2015-09-18 2023-01-26 삼성전자주식회사 모델 학습 방법 및 장치, 및 데이터 인식 방법
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10593346B2 (en) * 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
JP7223775B2 (ja) * 2018-05-18 2023-02-16 ジェネシス クラウド サービシーズ ホールディングス セカンド エルエルシー 自動音声認識システムにおける信頼モデリングのためのマルチクラスアプローチのためのシステム及び方法
US11620263B2 (en) * 2020-12-17 2023-04-04 EMC IP Holding Company LLC Data compression using dictionaries

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195084A (ja) * 1999-11-29 2001-07-19 Matsushita Electric Ind Co Ltd 音声認識のための文脈依存モデルの作成方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5535305A (en) * 1992-12-31 1996-07-09 Apple Computer, Inc. Sub-partitioned vector quantization of probability density functions
JPH08116972A (ja) * 1994-10-28 1996-05-14 Kyowa Hakko Kogyo Co Ltd ヒト26sプロテアソーム構成成分蛋白質
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
DE19912405A1 (de) * 1999-03-19 2000-09-21 Philips Corp Intellectual Pty Bestimmung einer Regressionsklassen-Baumstruktur für Spracherkenner
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US7571097B2 (en) * 2003-03-13 2009-08-04 Microsoft Corporation Method for training of subspace coded gaussian models

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195084A (ja) * 1999-11-29 2001-07-19 Matsushita Electric Ind Co Ltd 音声認識のための文脈依存モデルの作成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009527801A (ja) * 2006-02-21 2009-07-30 株式会社ソニー・コンピュータエンタテインメント 話者適応を用いた音声認識とピッチによる登録

Also Published As

Publication number Publication date
ATE531032T1 (de) 2011-11-15
CN1551101A (zh) 2004-12-01
EP1477966B1 (en) 2011-10-26
KR101036712B1 (ko) 2011-05-24
US7499857B2 (en) 2009-03-03
US20040230424A1 (en) 2004-11-18
EP1477966A3 (en) 2005-01-12
KR20040098589A (ko) 2004-11-20
CN1551101B (zh) 2012-04-11
EP1477966A2 (en) 2004-11-17

Similar Documents

Publication Publication Date Title
EP1477966B1 (en) Adaptation of compressed acoustic models
EP1457967B1 (en) Compression of gaussian models
US7275034B2 (en) Word-specific acoustic models in a speech recognition system
US8019602B2 (en) Automatic speech recognition learning using user corrections
Lari et al. Applications of stochastic context-free grammars using the inside-outside algorithm
Guglani et al. Continuous Punjabi speech recognition model based on Kaldi ASR toolkit
US5937384A (en) Method and system for speech recognition using continuous density hidden Markov models
US6064958A (en) Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
US6256607B1 (en) Method and apparatus for automatic recognition using features encoded with product-space vector quantization
US7299179B2 (en) Three-stage individual word recognition
US20050273325A1 (en) Removing noise from feature vectors
US7418386B2 (en) Method, apparatus and system for building a compact language model for large vocabulary continuous speech recognition (LVCSR) system
Bahl et al. A method for the construction of acoustic Markov models for words
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JPH0555040B2 (ja)
Bacchiani et al. Joint lexicon, acoustic unit inventory and model design
Anoop et al. Automatic speech recognition for Sanskrit
US7454341B1 (en) Method, apparatus, and system for building a compact model for large vocabulary continuous speech recognition (LVCSR) system
Hadwan et al. An End-to-End Transformer-Based Automatic Speech Recognition for Qur'an Reciters.
Thalengala et al. Study of sub-word acoustical models for Kannada isolated word recognition system
WO2007129802A1 (en) Method for selecting training data based on non-uniform sampling for speech recognition vector quantization
Li et al. Optimal clustering and non-uniform allocation of Gaussian kernels in scalar dimension for HMM compression [speech recognition applications]
JP2000075886A (ja) 統計的言語モデル生成装置及び音声認識装置
Li Speech recognition of mandarin monosyllables
Agenbag et al. Refining sparse coding sub-word unit inventories with lattice-constrained Viterbi training

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100903

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101228

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110324

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110426