JP2002511609A - 音声認識システムのための動的にコンフィギュレーション可能な音響モデル - Google Patents

音声認識システムのための動的にコンフィギュレーション可能な音響モデル

Info

Publication number
JP2002511609A
JP2002511609A JP2000543956A JP2000543956A JP2002511609A JP 2002511609 A JP2002511609 A JP 2002511609A JP 2000543956 A JP2000543956 A JP 2000543956A JP 2000543956 A JP2000543956 A JP 2000543956A JP 2002511609 A JP2002511609 A JP 2002511609A
Authority
JP
Japan
Prior art keywords
parameters
model
deep
acoustic model
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000543956A
Other languages
English (en)
Other versions
JP4450991B2 (ja
Inventor
ホアン,メイ−ユー
フワン,シュードン・ディー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2002511609A publication Critical patent/JP2002511609A/ja
Application granted granted Critical
Publication of JP4450991B2 publication Critical patent/JP4450991B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 本発明は、発話を、入力データ・ストリームに基づいて認識するためのシステムを含む。このシステムは、モデル・サイズを有する音響モデルを含む。このモデルは、この認識システムがランするコンピュータ・システムの特性に基づく所望のサイズに調節可能である。この調節は、セノン・ツリーのパラメータをクラスタ化することによって得られる。

Description

【発明の詳細な説明】
【0001】 (技術分野) 本発明は、コンピュータ音声認識に関するものである。詳細には、本発明は、
音声認識システムにおいて動的にコンフィギュレーション可能な音響モデルを使
用するコンピュータ音声認識に関している。
【0002】 (発明の背景) 現在最も成功を収めている音声認識システムは、隠蔽マルコフ・モデル(HM
M)として知られた確率式モデルを用いている。隠蔽マルコフ・モデルは、複数
の状態を有していて、これにおいて、遷移確率を、各状態からあらゆる状態への
各遷移に対し定めるようになっており、それには、同じ状態への遷移も含まれて
いる。ある観測は、各固有の状態に確率的に関連付けている。状態間の遷移確率
(ある観測が1つの状態から次のものへの遷移の確率)は、全て同じではない。
したがって、ビタビ・アルゴリズムにような探索技術を用いて、状態の間の遷移
確率と観測確率とが与えられたときに、全体の確率が最大となるような最尤の状
態シーケンスを判定するようにしている。
【0003】 状態遷移の1つのシーケンスは、既知の方法において、トレリス図を通る1つ
の経路として表すことができ、そしてこれは、観測時間の1つのシーケンスに渡
るHMMの状態の全てを表す。したがって、ある観測シーケンスが与えられたと
きに、トレリス図を通る最尤の経路(すなわち、HMMが表す最尤の状態シーケ
ンス)は、ビタビ・アルゴリズムを使用して判定することができる。
【0004】 現行の音声認識システムにおいては、発話は、隠蔽マルコフ・プロセスによっ
て生成されているとしてみなされる。その結果、HMMを用いることによって、
観測した発話スペクトルのシーケンスをモデル化し、そしてこれにおいて、特定
のスペクトルが、HMM内の1つの状態と確率的に関連付けられている。言い換
えれば、所与の観測された発話スペクトル・シーケンスに対して、対応するHM
M内に最尤の状態シーケンスがあることになる。
【0005】 したがって、この対応するHMMは、観測されたシーケンスに関連付けられる
。この技術は拡張することができ、これによって、HMM内の各々の区別できる
状態シーケンスが音素のようなサブ・ワード・ユニットに関連付けられた場合に
、サブ・ワード・ユニットの最尤シーケンスを見つけることができる。さらには
、サブ・ワード・ユニットをどのように組み合わせてワードを形成するかのモデ
ルを使用し、次にシーケンスを形成するためのワードをどのように組み合わせる
かの言語モデルを使用すると、完全な音声認識を実現することができる。
【0006】 音響信号を実際に処理するとき、この信号は、代表的には、フレームと呼ぶシ
ーケンシャルな時間インターバルでサンプルする。これらフレームは、通常、複
数のサンプルを含み、そして互いにオーバーラップしたりあるいは近接したりす
ることがある。各フレームは、発話信号の固有の1部分と関連している。各フレ
ームが表す発話信号のこの部分を解析することにより、それに対応する音響ベク
トルを提供する。音声認識の間、その音響ベクトル・シーケンスに最尤に関連さ
せるべき状態シーケンスを求めて、探索を実行する。
【0007】 音響ベクトル・シーケンスに対応する最尤の状態シーケンスを見つけるため、
音響モデルにアクセスしそしてビタビ・アルゴリズムを用いる。ビタビ・アルゴ
リズムは、計算を実行し、この計算は、最初のフレームから開始しそして時間同
期方法で1時に1フレーム進む。考慮中の状態シーケンス内の各状態(HMM)
に対し、確率スコアを計算する。したがって、ビタビ・アルゴリズムが音響モデ
ルに基づいて音響信号をフレーム毎に解析するにつれ、累積的な確率スコアを可
能性のある状態シーケンスの各々に対しうまく計算できる。発声の終わりまでに
、ビタビ・アルゴリズムが計算した最も高い確率スコアを有する状態シーケンス
(またはHMMまたは一連のHMM)は、その発声全体に対する最尤状態シーケ
ンスを提供する。この最尤状態シーケンスは、次にそれに対応する話されたサブ
・ワード・ユニット、ワード、ワード・シーケンスに変換する。
【0008】 ビタビ・アルゴリズムは、指数関数的計算を、モデル内の状態および遷移の数
、並びに発声の長さに比例したものに低減させる。しかし、大きな語彙に対して
は、状態および遷移の数は大きくなり、したがって全ての可能性のある状態シー
ケンスに対し各フレーム内の各状態における確率スコアを更新するのに必要な計
算は、1フレームの持続期間よりも数倍長くかかり、そしてこれは、通常はおよ
そ持続期間が10ミリ秒である。
【0009】 このため、剪定(pruning)と呼ぶ技術、あるいはビーム探索法(beam search
ing)が開発されていて、最尤状態シーケンスを判定するのに必要な計算を大幅
に低減させるようにしている。このタイプの技術は、非常にありそうでない状態
シーケンスに対する確率スコアを計算する必要を取り除く。これは、代表的には
、各フレームにおいて、このフレームと関連する最大のスコアの考慮の下で、各
々の残りの状態シーケンス(あるいは可能性のあるシーケンス)に対する確率ス
コアを計算することにより達成される。もし、ある特定の可能性のあるシーケン
スに対する1つの状態の確率スコアが、(その時点での他の可能性のあるシーケ
ンスに対する計算した最大の確率スコアと比較したときに)十分に低い場合、剪
定アルゴリズムは、そのような低いスコアの状態シーケンスが完了時の最尤状態
シーケンスの1部分となることはありそうにない、とみなす。この比較は、代表
的には、最小しきい値を使用して達成される。その最小しきい値を下回るところ
の可能性のある状態シーケンスは、探索プロセスから除去する。そのしきい値は
、任意の所望のレベルにセットすることができ、これは、所望のメモリおよび計
算上の節約、並びにこのメモリおよび計算上の節約に起因して生じる所望のエラ
ー・レート上昇とに主として基づく。
【0010】 音声認識に必要な計算量をさらに減少させるための別の在来の技法は、接頭辞
(prefix)ツリーの使用がある。接頭辞ツリーは、音声認識システムの語彙(le
xicon)をツリー構造として表し、これにおいて、このシステムが遭遇する可能
性のあるワード全てが、このツリー構造内において表される。
【0011】 このような接頭辞ツリーにおいては、各サブ・ワード・ユニット(例えば、音
素)は、代表的には、ある特定の音素モデル(例えば、HMM)と関連したブラ
ンチが表す。この音素ブランチは、ノードにおいて、後続の音素ブランチに接続
する。同じ第1の音素を共有する語彙内の全てのワードは、同じ第1のブランチ
を共有する。同じ第1および第2の音素を有する全てのワードは、同じ第1およ
び第2のブランチを共有する。対照的に、共有の第1の音素を有するが異なった
第2音素を有するワードは、接頭辞ツリー内の同じ第1ブランチを共有するが、
接頭辞ツリー内の第1ノードで分かれる第2ブランチを有する等する。このツリ
ー構造は、本システムが遭遇する可能性のある全てのワードがこのツリーの終端
ノード(ツリー上のリーフ(leaf))により表されるような様式で続く。
【0012】 分かるように、上述の技法のいくつかは、音声認識システムにおける計算を簡
単化しストリームライン化しようとする試みである。しかし、計算的に強力なコ
ンピュータ・システムは、音声認識タスクの実行において妥当な程高い確度およ
びリアルタイム応答を実現するためには、依然として必要である。
【0013】 高度の計算資源を必要とする音声認識システムの1つの部分は、音響モデルと
、そしてこの音響モデルにアクセスして入力発声に対応する可能性のある出力を
判定するプロセスである。
【0014】 過去に使用されてきた1つの音響モデルは、複数のセノン(senone)を含む。
セノンの開発は、ホワングおよびフアングの“マルコフ状態セノンでの副音素モ
デル化(Hwang, M. and Huang, X.,“SUBPHONETIC MODELING WITH MARKOVSTATES
SENONE”, IEEE International Conference on Acoustics, Speech, and Signa
l Processing, Vol.I, 1992, pp. 33-36)、およびホワング、フアングおよびア
レヴァの“セノンによる三重音予測(Hwang, M., Huang, X. and Alleva, F.,“
PREDICTING TRIPHONES WITH SENONES”, IEEE International Conference on Ac
oustics, Speech, and Signal Processing, Vol. II, 1993, pp. 311314)に詳
細に記述されている。
【0015】 簡潔には、セノン・ツリーは、発話ユニットをモデル化するの使用する各隠蔽
マルコフ・モデル内の各マルコフ状態に対し成長させる。各マルコフ状態に関連
した音響モデル内のパラメータは、ツリー・フォーマットに配列した階層構造で
の複数の言語質問に対する回答に基づき、グループ化させるかあるいはクラスタ
化させる。その結果のツリーは、リーフで終わり、そしてこのリーフは、セノン
と呼ぶグループ化あるいはクラスタ化したパラメータを含む。代表的には、どの
各音素(または他の音素各サブ・ワード・ユニット)におけるどの隠蔽マルコフ
・モデルに対しても、音声認識システム内の1つのセノン・ツリーがあることに
なる。これは、代表的には、およそ120のセノン・ツリーを生じることになる
【0016】 離散的な隠蔽マルコフ・モデルあるいは半連続の隠蔽マルコフ・モデルを使用
する場合、セノン・ツリー内の各リーフは、n個のエントリを有する単一の離散
的な出力分布が表す。複数のガウス密度関数の混合したものを有する連続式隠蔽
マルコフ・モデルに対しては、セノン・ツリー上の各リーフは、m個の重み付け
したガウス密度関数が表す。各ガウス密度関数は、さらに、その平均ベクトルお
よびその共分散マトリックス(covariance matrix)によりパラメータ化する。
音響モデルは、代表的には、訓練用データの言語資料(corpus)を利用するバウ
ム−ウェルチ技術(Baum-Welch technique)のような最尤訓練技術を使用して訓
練する。
【0017】 比較的大きく、高い正確さのリサーチ音声認識システムにおいては、音響モデ
ル内のセノンは、およそ120kのガウシャン(平均および共分散を含む)を含
み、これは、およそ30メガバイトのメモリを消費する。
【0018】 しかし、このような音響モデルは、代表的には、多くの在来のデスクトップ・
コンピュータ上で実際に実現するには遙かに大き過ぎる。メモリおよび速度の点
から実際的な計算資源を要求する実際的なサイズの音声認識システムを提供する
ため、より小形でかつより単純な音響モデルが提供されてきている。このより小
形でより単純な音響モデルは、これまでは、未洗練(raw)の訓練言語資料から
再訓練しそしてユーザに供給している。これは、通常は、音声認識システムの開
発者により行い、そして上記のより単純で小形の音響モデルを、その究極の形態
で最終的なユーザに提供している。これを通常開発者が行ってきている理由は、
未洗練の訓練用言語資料が非常に大きいデータ言語資料であるからである。また
、音響モデルをそのような言語資料に基づいて訓練することは、計算的に非常に
厳しいものとなり得る。このため、代表的なユーザのシステムは、このような大
きな未洗練の訓練用言語資料を取り扱うかあるいはこの言語資料に基づく音響モ
デルの完全な再訓練を取り扱うようコンフィギュレーションがされていない。
【0019】 しかし、開発者により小形の音響モデルを訓練させそしてこれを最終的なユー
ザに提供することは、フレキシビリティを減少させることになる。例えば、多く
のユーザは、彼らの利用可能な計算資源のより高い割合を音声認識タスクに割り
当てたいことがある。さらに、最終的なユーザは、通常は、利用可能なメモリ容
量およびプロセッサ速度に関して、同じシステム・コンフィギュレーションを有
しているとは限らないか、あるいは類似のシステム・コンフィギュレーションす
らも有しているとは限らない。したがって、多くの計算資源を有ししたがってこ
れらを音声認識確度の向上とトレードしたいユーザは、そうすることができない
。この述べたことと同じことにより、極めて限られた計算資源しか有しておらず
したがって確度をトレードオフして利用可能な計算資源を温存したいユーザは、
そのようにすることができない。
【0020】 (発明の摘要) 本発明は、発話を入力データ・ストリームに基づいて認識するシステムを含む
。このシステムは、モデル・サイズを有する音響モデルを含む。前記モデル・サ
イズは、前記認識システムがランするコンピュータの特性に基づき所望のサイズ
に調節する。
【0021】 1実施形態においては、前記音響モデルは、複数のセノンを含み、前記モデル
・サイズは、子孫セノンにおけるパラメータを組み合わせて前記音響モデル内の
パラメータの数を減少させることによって、調節可能である。前記音響モデルは
、連続式隠蔽マルコフ・モデルに基づき、かつ前記セノンは、ガウス密度関数に
よって表した、さらに別の実施形態においては、ガウス密度関数に対する平均と
共分散の両方を組み合わせる。別の実施形態では、共分散のみを組み合わせ、こ
れによって、確度をかなり犠牲にすることなくパラメータの数を減少させること
ができる。
【0022】 (好ましい実施形態の詳細な説明) 本発明は、動的に再コンフィギュレーション可能な音響モデルを備えた音声認
識システムを提供する。この音響モデルは、音声認識システムがランするコンピ
ュータに関連する計算資源に基づき、再コンフィギュレーションすることができ
る。さらに、この音響モデルは、ユーザが行うか、オペレーティング・システム
が行うかあるいはこれらの双方が行うところの音声認識タスクへの計算資源の割
り当てを示すユーザ入力に基づいて、動的に再コンフィギュレーションすること
ができる。
【0023】 (概観) 図1およびこれに関連する記載は、本発明を実施できる1つの適当な計算環境
の簡潔で一般的な説明を提供することを意図したものである。尚必要ではないが
、本発明について、少なくとも部分的には、パーソナル・コンピュータあるいは
その他の計算デバイスで実行されるプログラム・モジュールのようなコンピュー
タ実行可能の命令の一般的なコンテキストで説明をする。一般に、プログラム・
モジュールは、ルーチン・プログラム、オブジェクト、コンポーネント、データ
構造等の特定のタスクを実行しあるいは特定の抽象的なデータ・タイプを具体化
するものを含む。さらに、当業者には分かるように、本発明は、他のコンピュー
タ・システム・コンフィギュレーション(ハンドヘルド・デバイス、マルチプロ
セッサ・システム、マイクロプロセッサ・ベースまたはプログラマブルな民生用
電子機器、ネットワークPC、ミニコンピュータ、メインフレーム・コンピュー
タ等を含む)で実施することもできる。本発明はまた、通信ネットワークを介し
てリンクしたリモートの処理デバイスによりタスクを実行するようになった、分
散型計算環境において適用可能である。分散型計算環境においては、プログラム
・モジュールは、ローカルおよびリモートのメモリ・ストレージ・デバイスに配
置することもできる。
【0024】 図1を参照すると、本発明のための1つの例示的環境は、従来のパーソナル・
コンピュータ20の形態の汎用計算デバイスを含み、処理ユニット21、システ
ム・メモリ22、およびシステム・メモリを含む種々のシステム・コンポーネン
トを処理ユニット21に結合するシステム・バス23を含む。システム・バス2
3は、種々のバス・アーキテクチャのいずれかを用いたメモリ・バスまたはメモ
リ・コントローラ、周辺バス、およびローカル・バスを含む、数種類のバス構造
のいずれでもよい。システム・メモリは、リード・オンリ・メモリ(ROM)2
4、およびランダム・アクセス・メモリ(RAM)25を含む。起動中等におい
てパーソナル・コンピュータ20内のエレメント間の情報転送に供する基本ルー
チンを収容する基本入出力システム(BIOS)26は、ROM24に格納する
。また、パーソナル・コンピュータ20は、ハード・ディスク(図示せず)の読
み取りおよび書き込みを行うハード・ディスク・ドライブ27、リムーバブル磁
気ディスク29の読み取りおよび書き込みを行う磁気ディスク・ドライブ28、
並びにCD−ROMまたはその他の光媒体のようなリムーバブル光ディスク31
の読み取りおよび書き込みを行う光ディスク・ドライブ30も含むことができる
。ハード・ディスク・ドライブ27、磁気ディスク・ドライブ28、および光デ
ィスク・ドライブ30は、ハード・ディスク・ドライブ・インターフェース32
、磁気ディスク・ドライブ・インターフェース33、および光ディスク・ドライ
ブ・インターフェース34によって、それぞれシステム・バス23に接続する。
これらのドライブおよびそれに関連するコンピュータ読み取り可能媒体は、コン
ピュータ読み取り可能命令、データ構造、プログラム・モジュール、およびパー
ソナル・コンピュータ20用のその他のデータの不揮発性格納を提供する。
【0025】 ここに記載した例示的環境は、ハード・ディスク、リムーバブル磁気ディスク
29およびリムーバブル光ディスク31を採用しているが、当業者には分かるよ
うに、磁気カセット、フラッシュ・メモリ・カード、デジタル・ビデオ・ディス
ク、ベルヌーイ・カートリッジ、ランダム・アクセス・メモリ(RAM)、リー
ド・オンリ・メモリ(ROM)のような、コンピュータによるアクセス可能なデ
ータを格納することができる、他の種類のコンピュータ読み取り可能媒体も、こ
の例示的動作環境において使用可能である。
【0026】 多数のプログラム・モジュールは、ハード・ディスク、磁気ディスク29、光
ディスク31、ROM24またはRAM25上に格納することができ、これらは
、オペレーティング・システム35、1つ以上のアプリケーション・プログラム
36、その他のプログラム・モジュール37、およびプログラム・データ38を
含む。ユーザは、キーボード40、ポインティング・デバイス42およびマイク
ロホン62のような入力デバイスによって、コマンドおよび情報をパーソナル・
コンピュータ20に入力することができる。他の入力デバイス(図示せず)とし
て、マイクロホン、ジョイスティック、ゲーム・パッド、衛星パラボラアンテナ
、スキャナ等を含むことができる。これらおよびその他の入力デバイスは、多く
の場合、システム・バス23に結合したシリアル・ポート・インターフェース4
6を介して、処理ユニット置21に接続するが、サウンド・カード、パラレル・
ポート、ゲーム・ポートまたはユニバーサル・シリアル・バス(USB:univer
sal serial bus)のようなその他のインターフェースによって接続することも可
能である。モニタ47または別の種類のディスプレイ・デバイスも、ビデオ・ア
ダプタ48のようなインターフェースを介して、システム・バス23に接続する
。このモニタ47に加えて、パーソナル・コンピュータは、通常、スピーカ45
やプリンタ(図示せず)のような、その他の周辺出力デバイスを含む。
【0027】 パーソナル・コンピュータ20は、リモート・コンピュータ49のような1つ
以上のリモート・コンピュータへの論理接続を用いて、ネットワーク環境で動作
させることも可能である。リモート・コンピュータ49は、別のパーソナル・コ
ンピュータ、サーバ、ルータ、ネットワークPC、ピア・デバイス、またはその
他の一般的なネットワーク・ノードとすることができ、これは通常、パーソナル
・コンピュータ20に関して先に記載したエレメントの多くまたは全てを含むが
、メモリ・ストレージ・デバイス50だけを図1に示す。図1に示す論理接続は
、ローカル・エリア・ネットワーク(LAN)51およびワイド・エリア・ネッ
トワーク(WAN)52を含む。このようなネットワーク環境は、オフィスの企
業規模のコンピュータ・ネットワーク、イントラネットおよびインターネットで
は一般的である。
【0028】 LANネットワーク環境で用いる場合、パーソナル・コンピュータ20は、ネ
ットワーク・インターフェースまたはアダプタ53を介して、ローカル・エリア
・ネットワーク51に接続する。WANネットワーク環境で用いる場合、パーソ
ナル・コンピュータ20は通常モデム54またはインターネットのようなワイド
・エリア・ネットワーク52を通じて通信を確立するその他の手段を含む。モデ
ム54は、内蔵型でも外付け型でもよく、シリアル・ポート・インターフェース
46を介してシステム・バス23に接続する。ネットワーク環境では、パーソナ
ル・コンピュータ20に関連して図示したプログラム・モジュールまたはその一
部を、リモート・メモリ・ストレージ・デバイスに格納することも可能である。
理解されるように、図示したこのネットワーク接続は一例であり、これらコンピ
ュータ間に通信リンクを確立するその他の手段も使用することは可能である。
【0029】 図2は、本発明の1つの形態による音声認識システム60のブロック図を示し
ている。音声認識システム60は、マイクロホン62と、アナログ−デジタル(
A/D)変換器64と、訓練モジュール65と、特徴抽出モジュール66と、語
彙記憶モジュール70と、音響モデル(例えば、セノン・ツリー)72と、ツリ
ー探索エンジン74と、言語モデル75と、出力デバイス76と、クラスタ化モ
ジュール80と、I/Oデバイス82(これは、図1に記述したI/Oデバイス
の1つまたはそれ以上を含むようにしたり、あるいはデバイス76またはキーボ
ード40で実現することもできる)とを備えている。
【0030】 理解されるべきであるが、システム60全体あるいはシステム60の1部分は
、図1に示した環境において実現することができる。例えば、マイクロホン62
は、好ましくは、適当なインターフェースを通してまたA/D変換器64を通し
てパーソナル・コンピュータ20への入力デバイスとして提供することもできる
。訓練モジュール65と特徴抽出モジュール66は、コンピュータ20内のハー
ドウェア・モジュールとしたり、あるいは図1に開示した情報記憶デバイスの任
意のものに格納しそしてCPU21によりあるいは別の適当なプロセッサにより
アクセス可能なソフトウェア・モジュールとしたりすることができる。加えて、
語彙記憶モジュール70と、音響モデル72と、そして言語モデル75もまた、
好ましくは、図1に示した任意の適当なメモリ・デバイスに格納する。さらに、
ツリー探索エンジン74は、好ましくは、CPU21(これは、1つ以上のプロ
セッサを含むことができる)において実現するか、あるいはパーソナル・コンピ
ュータ20が用いる専用の音声認識プロセッサにより実行するようにできる。加
えて、出力デバイス76および82は、1つの例示的実施形態においては、キー
ボード40、モニタ47として、あるいはプリンタとして、もしくは任意の他の
適当な入出力デバイスとして実施することもできる。
【0031】 いずれにしても、音声認識の間、発話は、システム60に対し、ユーザがマイ
クロホン62に対し可聴のボイス信号の形態で入力する。マイクロホン62は、
この可聴発話信号をアナログの電子信号に変換し、そしてこれは、A/D変換器
64に供給する。A/D変換器64は、このアナログ発話信号をデジタル信号の
シーケンスに変換し、そしてこのシーケンスは、特徴抽出モジュール66に供給
する。好ましい実施形態においては、特徴抽出モジュール66は、在来のアレイ
・プロセッサであり、これは、そのデジタル信号に対しスペクトル解析を実行し
、そして周波数スペクトルの各周波数バンドに対する強度値を計算する。それら
信号は、1つの例示的実施形態においては、A/D変換器64により、およそ1
6KHzのサンプル・レートで特徴抽出モジュール66に供給する。A/D変換
器64は、市販された周知のA/D変換器とすることもできる。
【0032】 特徴抽出モジュール66は、A/D変換器64から受けたデジタル信号をフレ
ームに分割し、これらフレームは、複数のデジタル・サンプルを含む。各フレー
ムは、持続時間がおよそ10ミリ秒である。これらフレームは、次に、好ましく
は特徴抽出モジュール66によって、複数の周波数バンドに対するスペクトル特
性を反映する特徴ベクトルにエンコードする。離散的で半連続の隠蔽マルコフ・
モデル化の場合においては、特徴抽出モジュール66はまた、好ましくは、特徴
ベクトルを、ベクトル量子化技術および訓練データから得たコードブックを使用
して、1つ以上のコードワードにエンコードする。このため、特徴抽出モジュー
ル66は、その出力に、各話された発声に対し特徴ベクトル(またはコードワー
ド)を供給する。特徴抽出モジュール66は、好ましくは、それら特徴ベクトル
(またはコードワード)を、1特徴ベクトルまたは(コードワード)のレートで
、およそ10ミリ秒毎に供給する。
【0033】 次に、出力確率分布は、好ましくは、解析中の特定のフレームの特徴ベクトル
(またはコードワード)を使用して、隠蔽マルコフ・モデルに対し計算する。こ
れら確率分布は、ビタビまたは類似のタイプの技術を実行する際に後で使用する
【0034】 特徴抽出モジュール66からコードワードを受けたとき、ツリー探索エンジン
74は、音響モデル72の格納された情報にアクセスする。モデル72は、隠蔽
マルコフ・モデルのような音響モデルを格納し、そしてこれは、システム60が
検出すべき発話ユニットを表す。1実施形態においては、音響モデル72は、隠
蔽マルコフ・モデル内の各マルコフ状態と関連したセノン・ツリーを含む。隠蔽
マルコフ・モデルは、1つの例示的実施形態においては、音素を表す。音響モデ
ル72内のこれらセノンに基づき、ツリー探索エンジン74は、特徴抽出モジュ
ール66から受けた特徴ベクトル(またはコードワード)を表ししたがって本シ
ステムのユーザから受けた発声を表す最尤の音素を判定する。
【0035】 また、ツリー探索エンジン74は、モジュール70に格納された語彙にアクセ
スする。音響モデル72のそのアクセスに基づきツリー探索エンジン74が受け
たこの情報は、語彙記憶モジュール70を探索する際に使用することによって、
特徴抽出モジュール66から受けたコードワードまたは特徴ベクトルを最尤に表
すワードを判定する。また、ツリー探索エンジン74は、好ましくは、言語モデ
ル75にアクセスし、そしてこれは、例示的には、北米ビジネス・ニュース言語
資料(North American Business Corpus)から得た60,000ワードのトリグ
ラム言語モデルであり、これは、CSRIII Text Language Modelと題する刊行物(
a publication entitled CSRIII Text Language Model, University of Penn. 1
994)により詳細に記載されている。言語モデル75は、入力データが表す最尤
のワードまたはワード・シーケンスを識別する際に使用する。したがって、この
判定したワードまたはワード・シーケンスは、ユーザが受けた発声を最尤に表す
ものである。このワードまたはワード・シーケンスは、次に、ツリー探索エンジ
ン74が出力デバイス76に対し出力する。
【0036】 音響モデル72の動的コンフィギュレーション 音声認識を実行する前に、音響モデル72は、好ましくは、これがランしてい
るコンピュータの制約を満たすサイズを有するように動的にコンフィギュレーシ
ョンを行う。例示的な1つの例においては、非常に詳細で高度に正確な音響モデ
ルは、最初にコンピュータ・システムに供給する。この音響モデルのサイズは、
次に、この音響モデル内のパラメータを組み合わせることによって調節(あるい
は減少)して、この音響モデルのサイズが希望のレベルとなるまでにする。
【0037】 図3は、音響モデル72の1部分を表すセノン・ツリーの1つの簡略化した実
施形態を示している。セノン・ツリー内の丸は、このセノン・ツリー内のノード
を表している。四角は、セノン・ツリー内の深いセノンを表す。三角は、浅いセ
ノンを表し、そして陰影をつけた三角は、セノン・ツリー内の深いセノンと浅い
セノンの双方を表している。1つの例示的実施形態においては、セノン・ツリー
は、最初はその最も深いレベルまで成長させてその深いセノンまで達するように
する。言い換えれば、セノン・ツリーは、訓練用言語資料が与えられたときにこ
れがこれ以上良く訓練することができなくなるまで成長させる。これは、通常は
、いくつかの実験を行って、開発テスト・セット上のパラメータ・サイズに対す
るエラー・レートのヒストグラムをプロットすることになる。このようなセノン
・ツリーは、発話ユニット(例えば音素)を表す隠蔽マルコフ・モデル内の各状
態に対し成長させる。
【0038】 次に、本音声認識システムをランさせるべきコンピュータの制約に基づき、セ
ノン・ツリー内の深いセノン内のパラメータを、何等かの予め選んだ祖先ノード
(浅いセノン)の下で組み合わせるかあるいはクラスタ化することによって、音
響モデル内のパラメータの総数を減少させる。本明細書の後で説明するように、
パラメータのこの併合は、統計的情報のみがセノン・ツリーにおいて提供されそ
して未洗練の訓練用言語資料への参照なしとしたときに達成することができる。
【0039】 隠蔽マルコフ・モデルが離散的隠蔽マルコフ・モデルまたは半連続の隠蔽マル
コフ・モデルである場合、各々の深いセノンは、n個のエントリをもつ単一の離
散的な出力分布で表す。ある共通の祖先の浅いセノンの子孫である、2つの選択
された深いセノンに対する出力分布は、互いに組み合わせることによって、その
浅いセノンに対応する1つの出力分布にする。
【0040】 隠蔽マルコフ・モデルが、連続密度関数の混合したものを有する連続式隠蔽マ
ルコフ・モデルである場合、このような密度関数は、例示的にはガウス密度関数
である。この場合、各々の深いセノンは、m個の重み付けしたガウス密度関数に
より表す。各ガウス密度関数は、さらに、その平均ベクトルおよび共分散マトリ
ックスによりパラメータ化する。したがって、各々の選択した浅いセノンに対し
ては、各々の子孫セノンにおいてm個のガウシャンがある。各子孫セノンにおけ
るm個のガウシャンは、互いに組み合わせることによって、より少数のガウシャ
ンにし、これによって、パラメータの総数を減少させるようにする。1つの例示
的実施形態においては、その平均と共分散とは、併合あるいはクラスタ化させる
一方で、別の例示的実施形態においては、共分散のみをクラスタ化させる。
【0041】 クラスタ化モジュール80 図4は、クラスタ化モジュール80の動作全体を示すフロー図である。最初に
、高度に正確でかつ詳細な音響モデルは、これを使用するコンピュータに対し供
給する。これは、ブロック82で示している。
【0042】 クラスタ化モジュール80は、次に、この音声認識システムをランさせるコン
ピュータに対する制約を示すシステム情報を得る。1実施形態においては、クラ
スタ化モジュール80は、単に、このコンピュータのオペレーティング・システ
ム内の関連する情報にアクセスすることによって、どれほど多くのメモリがこの
コンピュータ内で利用可能であるか判定し、また音声認識タスクを実行すること
になるコンピュータ内で使用されているプロセッサの動作速度を判定する。別の
好ましい実施形態においては、クラスタ化モジュール80は、入出力(I/O)
デバイス82を介してユーザと対話する。こうする際に、クラスタ化モジュール
80は、ユーザに対し、このコンピュータ上で利用可能な資源を表す情報、ある
いはユーザが音声認識タスクに対し割り当てを希望する資源を表す情報、あるい
はこれらの両方を入力するように求める。例えば、クラスタ化モジュール80は
、ユーザに対し、このコンピュータ内のメモリ量、プロセッサの速度、ユーザが
任意の一時にランさせたいプログラムの数、このコンピュータ内で利用可能なメ
モリ量、ユーザがこの音声認識器に割り当てを希望するメモリ量、等を入力する
よう要求することができる。いずれにしても、クラスタ化モジュール80は、こ
のシステム情報を受け、そしてこの情報は、音声認識タスクに割り当て可能な資
源に対し課されるそのような制約を示している。
【0043】 この情報に基づき、クラスタ化モジュール80は、適当な音響モデル・サイズ
を決定する。1つの例示的実施形態においては、クラスタ化モジュール80は、
このサイズを、音響モデルにおいて実施すべきパラメータの数で決定する。これ
は、ブロック86で示している。
【0044】 クラスタ化モジュール80は次に進行して、それらパラメータを選択しクラス
タ化させて、所望の数を実現する。これを行う際、クラスタ化モジュール80は
、最初に、図3に示した浅いセノンの内の1つのような浅いセノンSを選択する
。これは、ブロック88で示している。次に、クラスタ化モジュール80は、浅
いセノンSの子孫となる深いセノンDes(S)を見つける。これは、ブロック
90で示している。次に、クラスタ化モジュール80は、これら深いセノンDe
s(S)からのパラメータをクラスタ化あるいは併合させる。これを行うため、
クラスタ化モジュール80は、最初に、深いセノンDes(S)内の全てのパラ
メータの中で最も近いものである1対のパラメータを見つける。最も近いとは、
2つのパラメータを組み合わせることが、それらパラメータと整列(align)し
た訓練用データ集合を生成する尤度(likelifood)における最少の減少をもたら
すこと、を意味する。これは、図5を参照してより詳細に説明するが、これはブ
ロック92で示している。
【0045】 この最も近いパラメータ対を一旦識別したなら、これらパラメータをクラスタ
化または併合させる。これは、ブロック94で示している。このとき、音響モデ
ル内のパラメータの数は、1つ減少する。これは、ブロック96で示している。
【0046】 次に、クラスタ化モジュール80は、このパラメータ数が、この音響モデルの
所望のサイズ未満かあるいはこれに等しいかどうか判定する。もしそれ未満ある
いは等しい場合、クラスタ化が完了する。もしそうでない場合、クラスタ化モジ
ュール80は、別の浅いセノンを選択し、そしてこのプロセスを繰り返して別の
パラメータをクラスタ化あるいは併合させる。これは、ブロック98で示してい
る。
【0047】 最も近いパラメータ対の見つけ出し 図5は、どのようにしてクラスタ化モジュール80が、図4のブロック92で
概して示したように、クラスタ化または併合のために最も近いパラメータ対を見
つけるかを示すフロー図である。子孫セノンDes(S)を識別した後、クラス
タ化モジュール80は、この子孫セノンDes(S)から2つのパラメータを選
択する。これは、ブロック100で示している。次に、クラスタ化モジュール8
0は、これら2つのパラメータを併合する前に、この2つのパラメータと整列し
た訓練用データのセットを生成する尤度を判定する。これは、ブロック102で
示している。次に、クラスタ化モジュール80は、これらパラメータの併合から
生ずる訓練用データの集合を生成する際の減少を判定する。これは、ブロック1
04で示している。ブロック102と104で示すステップは、この例示的実施
形態においては、使用する隠蔽マルコフ・モデルが離散的なものあるいは半連続
隠蔽マルコフ・モデルであるかどうか、あるいはそれらが連続式隠蔽マルコフ・
モデルであるかどうかに依存して変化することがある。
【0048】 離散的隠蔽マルコフ・モデルおよび半連続式隠蔽マルコフ・モデルに対しては
、各々の深いセノンは、n個のエントリをもつ1つの離散的な出力分布で表す。
2つの離散的出力分布間の距離を決定するため、最初に、1つの出力分布内の占
有カウント・エントリ(occupancy count entry)は、式1によって{ai}と仮
定する。
【0049】
【数1】
【0050】 同様に、第2のパラメータに対して、占有カウント・エントリは、式2によっ
て{bi}と仮定する。
【0051】
【数2】
【0052】 次に、第1出力分布に整列した全てのデータを生成する尤度は、以下の通りで
ある。
【0053】
【数3】
【0054】 ここで、H(A)は、分布Aのエントロピーである。 同様に、出力分布Bに整列した全てのデータを生成する尤度は、以下の通りで
ある。
【0055】
【数4】
【0056】 分布AとBを併合させた後、その結果の分布は、総合カウントA+Bをもつカ
ウント・エントリ{ai+bi}を有する。このため、深いセノンAと整列した全
てのデータ、および深いセノンBと整列した全てのデータを生成する尤度におけ
る損失または減少は、AとBを併合させた場合には、以下となる。
【0057】
【数5】
【0058】 ΔLが小さくなると、尤度の減少が小さくなり、そして2つの分布が近くなる
。 ガウス密度関数をもつ連続式隠蔽マルコフ・モデルに対しては、2つの異なっ
た併合技術を使用することができる。第1のものは、ガウス密度関数の平均およ
び共分散の両方を併合させることであり、そして第2のものは、共分散のみを併
合させること、あるいはいくらかの平均をしかし共分散をより多く併合させるこ
とである。例えば、共分散が小さ過ぎるとき、このモデルは、訓練用データに対
してあまりも適合させすぎ、したがって新たなテスト・データの導入に対しロバ
ストでなくなる。さらに分かったことは、音声認識確度は、平均の併合よりも共
分散の併合によっては、はるかに少ない影響しか受けないことである。
【0059】 第1の例示的実施形態においては、平均および共分散の両方を併合させるべき
である。このため、Xを、パラメータを有する第1のガウス密度関数(ガウシャ
ン1)に整列した発話データの集合とすると、
【0060】
【数6】
【0061】 これは、占有(occupancy)γ(x)をもち、 ここで、μ1=ガウシャン1の平均 Σ1=ガウシャン1の共分散である。 ここで、以下の仮定をする。
【0062】
【数7】
【0063】 これは、訓練用データ内のガウシャン1の総合占有である。 さらに、ガウシャン・パラメータが、バウム−ウェルチ(Baum-Welch)アルゴ
リズム最尤様式で訓練されると仮定する。このとき、ガウシャン1をもつデータ
Xを生成する尤度は、以下となる。
【0064】
【数8】
【0065】 ここで、dは、特徴ベクトルxの次元の数(dimensionality)である。 同様に、ガウシャン2に対し、データ集合Yでは、ガウシャン2をもつデータ
Yを生成する尤度は、以下となる。
【0066】
【数9】
【0067】 これら2つのガウシャンを併合させるとき、再び最尤訓練技術を使用する場合
には、データX+Yを、データ占有カウントA+Bをもつ以下のガウシャンでモ
デル化する。
【0068】
【数10】
【0069】 および
【0070】
【数11】
【0071】 ここで、Tはマトリックス・トランスポートである。 したがって、これら2つのガウシャンを併合させたときの尤度における損失は
、以下となる。
【0072】
【数12】
【0073】 尚、Σは式11で計算し、そしてμ1およびμ2により影響されることに注意さ
れたい。ΔLが小さくなると、そのデータを生成する尤度の減少も小さくなり、
したがって2つのガウシャンがより近くなる。
【0074】 別の例示的実施形態においては、平均の組合せに加えて、共分散をさらに組み
合わせる。さらに別の例示的実施形態においては、共分散のみを併合させる。こ
れら例示的実施形態の各々は、音響モデルのサイズを減少させることができると
いう利点が、平均の数を減少させることに付随しての確度の損失なしで、(共分
散パラメータを併合させることにより)得られる。
【0075】 2つの共分散を併合させるが、平均を併合させないとき(すなわち、データX
をN(μ1,Σ)によりモデル化しそしてデータYをN(μ2,Σ)によりモデル
化するとき)、その結果として生ずる最尤共分散は、以下の通り計算される。
【0076】
【数13】
【0077】 ここで、A+Bは、周波数重みである。 注意されるべきであるが、式13で計算した共分散は、平均によっては影響さ
れないが、それは、平均は、独立して完全(intact)であるからである。したが
って、併合した共分散を有するガウス密度関数に対応したデータ集合を生成する
尤度における減少は、依然として式12におけるようにして計算される。これは
、本質的には、共分散を併合あるいは共有するとき、データの中心がどこにある
かに拘わらず(すなわち、その平均に拘わらず)、最も近い共分散対のみを見い
出す必要がある、ということを示している。
【0078】 再び図5を参照すると、データ集合を生成する尤度における減少を、パラメー
タの併合に基づいて一旦決定し、そして併合させるべき2つの最も近いパラメー
タを見つけるため、クラスタ化モジュール80は、ブロック104で計算した減
少が、既に調べた先行の最も近い対を併合させることにより得られたものよりも
下回るかどうか判定する。これは、ブロック106により示している。もし下回
る場合、調べている最中のこの現行のパラメータ対が、前の最も近い対よりも実
際に近いことの判定を行い、そしてこの現行の対(すなわち、その2つの選択し
たパラメータ)を最も近いパラメータとして格納する。これは、ブロック108
で示している。
【0079】 もし、ブロック106において、2つの現行の選択したパラメータの併合から
生ずる尤度の減少が、先行の最も近い対の併合に基づくものを下回らない場合、
この現行の選択したパラメータは、先行の最も近い対よりも近くはなく、したが
って現行の対は、この時点では単にその併合を行わない。
【0080】 次に、クラスタ化モジュール80は、併合のためにテストすべき追加のパラメ
ータがあるかどうか判定を行う。もしある場合、クラスタ化モジュール80は、
2つの追加のパラメータを選択し、そして図5に示したステップを繰り返す。テ
ストのためにパラメータがこれ以上ない場合、クラスタ化モジュール80は、単
に、最も近いパラメータ対をクラスタ化させることにより進行する。これは、図
5のブロック110により示している。
【0081】 テスト結果から、未洗練の訓練用データを参照せずかつより小さな音響モデル
を再訓練せずに、システム制約に基づき音響モデル内のパラメータ数を動的に減
少させる本発明は、再訓練式システムよりも向上した確度を提供する。例えば、
セノン当たり12のガウシャンをもつ、6400のコンテキスト依存のセノンを
含む最尤訓練した音響モデルを具備させて、ベースラインのシステムを構築した
。第2のシステムは、未洗練の訓練用データに基づき簡略化した音響モデルを訓
練することによって開発した。この簡略化した音響モデルは、3000のコンテ
キスト依存のセノン(セノン当たり8のガウシャン)を有する最尤訓練した音響
モデルを含んでいた。この簡略化したシステムでは、ベースライン・システムと
同じテスト・データを受けさせたとき、エラー・レートがベースライン・システ
ムよりも16%の向上を示した。
【0082】 対照的に、本発明に従い、ベースラインの音響モデルから、再訓練なしで、元
の未洗練の訓練用データへのアクセスなしで、より小さな音響モデルを生成する
ようにしたシステムも開発した。このより小さな音響モデルは、再訓練した音響
モデルと同じように、3,000のセノン(セノン当たり8ガウシャン)をもた
せた。しかし、本発明により開発したこの音響モデルは、ベースライン・システ
ムに対し、再訓練した音響モデルが示した16%のエラー上昇と比べ、わずか1
1%のエラー上昇しか示さなかった。
【0083】 したがって、本発明は、音声認識システムの音響モデルを動的にダウンサイジ
ングしてユーザの資源要求に適合するための、効率的で正確なシステムを提供す
る。また、本発明は、共有式の共分散モデルを提供し、これは、認識エラー・レ
ートの上昇なしでメモリ要求を減少させることができるか、あるいはより多くの
ガウシャン平均および混合重みに対し空間を再割り当てすることによりその性能
を強化することができる。本発明は、尤度損失並びにセノン判断ツリー階層構造
を使用してクラスタ化を案内することにより、パラメータをクラスタ化あるいは
併合させる。このより小さい再コンフィギュレーションを行った音響モデルは、
再訓練なしで、しかも未洗練の訓練用データへのアクセスを提供することなしで
提供される。
【0084】 以上、本発明について好ましい実施形態を参照して説明したが、当業者には認
識されるように、その形態および細部において、例えば、CHMM出力分布に対
し他のタイプの密度関数を使用すること等により、本発明の範囲および要旨から
逸脱せずに変更を行うことができる。
【図面の簡単な説明】
【図1】 図1は、本発明による音声認識システムを実施するための例示的な環境のブロ
ック図。
【図2】 図2は、図1に示したシステムの1部分のより詳細なブロック図。
【図3】 図3は、セノン・ツリーを示す簡略化した図。
【図4】 図4は、本発明の1つの形態による音声認識システムの動作を示すフロー図。
【図5】 図5は、本発明の1つの形態にしたがいどのようにして音響モデル内の最も近
いパラメータ対を選択するかを示すフロー図。
【手続補正書】
【提出日】平成12年10月27日(2000.10.27)
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】図1
【補正方法】変更
【補正内容】
【図1】
【手続補正2】
【補正対象書類名】図面
【補正対象項目名】図2
【補正方法】変更
【補正内容】
【図2】
【手続補正3】
【補正対象書類名】図面
【補正対象項目名】図4
【補正方法】変更
【補正内容】
【図4】
【手続補正4】
【補正対象書類名】図面
【補正対象項目名】図5
【補正方法】変更
【補正内容】
【図5】
───────────────────────────────────────────────────── フロントページの続き (72)発明者 フワン,シュードン・ディー アメリカ合衆国ワシントン州98072,ウッ ディンヴィル,ノース・イースト・ワンハ ンドレッドアンドトゥエンティファース ト・ストリート 20020 Fターム(参考) 5D015 FF05 GG04

Claims (31)

    【特許請求の範囲】
  1. 【請求項1】 発話を入力データ・ストリームに基づいて認識する方法であって、 モデル・サイズを有する音響モデルを含む認識システムを提供するステップと
    、 前記モデル・サイズを、前記認識システムがランするコンピュータ・システム
    の特性に基づき所望のサイズに調節するステップと、 前記入力データ・ストリームを受けるステップと、 前記所望のサイズを有する前記音響モデルに基づき音声認識を実行するステッ
    プと、 から成る音声認識方法。
  2. 【請求項2】 請求項1記載の方法において、前記音響モデルは、訓練用データ言語資料に基
    づき訓練し、前記のモデル・サイズを調節するステップは、前記訓練用データ言
    語資料へのアクセスなしで前記モデル・サイズを減少させることを含むこと、を
    特徴とする音声認識方法。
  3. 【請求項3】 請求項1記載の方法において、前記音響モデルは、祖先セノンを有しかつ少な
    くとも1つのパラメータを特徴とする複数の深いセノンを含み、前記のモデル・
    サイズを調節するステップは、 1つの祖先セノンを選択するステップと、 該選択した祖先セノンの子孫である複数の深いセノンを識別するステップと、 前記複数の深いセノンにおけるパラメータをクラスタ化するステップと、 から成ること、を特徴とする音声認識方法。
  4. 【請求項4】 請求項3記載の方法において、前記の複数の深いセノンを識別するステップは
    、 前記複数の深いセノンに対応する併合させるべき1対のパラメータを識別する
    ステップ、 を含むことを特徴とする音声認識方法。
  5. 【請求項5】 請求項4記載の方法において、前記深いセノンの各々は、単一の離散的な出力
    分布によって表し、前記の併合させるべき1対のパラメータを識別するステップ
    は、 併合させるべき1対の出力分布を、該1対の出力分布を併合させることから生
    ずる前記1対の出力分布と整列したデータ集合を生成する尤度における減少量に
    基づき、識別するステップ、 を含むことを特徴とする音声認識方法。
  6. 【請求項6】 請求項5記載の方法において、併合させるべき1対の出力分布を識別するステ
    ップは、 第1と第2の出力分布を選択するステップと、 前記第1および第2の選択した出力分布を併合させる前に、第1のデータ集合
    と第2のデータ集合を生成する尤度を判定するステップであって、前記第1デー
    タ集合は、前記第1の選択した出力分布と整列し、前記第2データ集合は、前記
    第2の選択した出力分布と整列した、前記のステップと、 前記第1と第2の選択した出力分布を併合させた後において、前記第1と第2
    のデータ集合を生成する尤度における減少を判定するステップと、 前記第1および第2のデータ集合を生成する前記尤度における前記減少に基づ
    き、併合させるべき前記1対の出力分布を識別するステップと、 から成ること、を特徴とする音声認識方法。
  7. 【請求項7】 請求項4記載の方法において、各深いセノンは、少なくとも1つの連続密度関
    数によって表し、前記パラメータは、前記連続密度関数の特性を構成し、前記の
    併合させるべき1対のパラメータを識別するステップは、 併合させるべき1対の特性を、該1対の特性を併合させることから生じる前記
    1対の特性に対応するデータ集合を生成する尤度における減少に基づき識別する
    ステップ、 から成ること、を特徴とする音声認識方法。
  8. 【請求項8】 請求項7記載の方法において、前記連続密度関数は、ガウス密度関数から成り
    、前記ガウス密度関数の前記特性は、前記ガウス密度関数に対応する平均と共分
    散とから成り、前記の尤度における減少に基づき併合させるべき1対のパラメー
    タを識別するステップは、 第1のガウス密度関数と第2のガウス密度関数を選択するステップと、 前記第1および第2のガウス密度関数の前記平均および共分散を併合する前に
    、前記第1ガウス密度関数に対応する第1のデータ集合と、前記第2ガウス密度
    関数に対応する第2のデータ集合とを生成する尤度を判定するステップと、 前記第1および第2のガウス密度関数の前記平均および共分散を併合させた後
    において、前記第1および第2のデータ集合を生成する尤度における減少を判定
    するステップと、 前記第1および第2のデータ集合を生成する前記尤度における前記減少に基づ
    き、併合させるべき平均および共分散の内の少なくとも1つのものの1対を識別
    するステップと、 から成ること、を特徴とする音声認識方法。
  9. 【請求項9】 請求項8記載の方法において、前記の平均および共分散のうちの1つのものの
    1対を識別するステップは、 併合させるべき平均および共分散を最初に識別するステップと、 次に、併合させるべき追加の共分散を識別するステップと、 から成ること、を特徴とする音声認識方法。
  10. 【請求項10】 請求項9記載の方法であって、さらに、 未併合の平均中に拡張すべきであってしかも依然として尚前記音響モデルを前
    記所望のサイズに維持する併合した平均を識別するステップ、 を含むことを特徴とする音声認識方法。
  11. 【請求項11】 請求項1記載の方法において、前記のモデル・サイズを調節するステップは、 前記コンピュータ・システム上の予め選択した計算資源に基づき前記モデル・
    サイズを調節するステップ、 から成ること、を特徴とする音声認識方法。
  12. 【請求項12】 請求項11記載の方法において、前記の予め選択した計算資源に基づきモデル
    ・サイズを調節するステップは、 前記コンピュータ・システムのメモリ容量および速度に基づき、前記モデル・
    サイズを調節するステップ、 から成ること、を特徴とする音声認識方法。
  13. 【請求項13】 請求項11記載の方法において、前記の予め選択した計算資源に基づきモデル
    ・サイズを調節するステップは、 前記予め選択した計算資源を示すシステム情報を要求するユーザ要求を供給す
    るステップと、 前記システム情報を含むユーザ入力を受けるステップと、 前記システム情報に基づき前記モデル・サイズを調節するステップと、 から成ること、を特徴とする音声認識方法。
  14. 【請求項14】 請求項13記載の方法において、前記システム情報は、ユーザが前記認識シス
    テムに割り当てを希望するコンピュータ割り当てのレベルから成ること、を特徴
    とする音声認識方法。
  15. 【請求項15】 音声認識システムを、該音声認識システムをランさせるのに使用する第1のコ
    ンピュータのコンフィギュレーションを行う方法であって、前記音声認識システ
    ムが第2のコンピュータ上で作成したものであり、前記の方法が、 複数のパラメータを含む音響モデルであって、該音響モデル内に含まれる前記
    パラメータの数に基づくモデル・サイズを有する前記の音響モデルを提供するス
    テップと、 モデル・サイズ規準を得るステップと、 前記サイズ規準に基づき前記モデル・サイズを調節するステップと、 から成るコンフィギュレーション方法。
  16. 【請求項16】 請求項15記載の方法において、前記のモデル・サイズ規準を得るステップは
    、 前記第1コンピュータの動作特性を示すシステム情報を得るステップと、 から成り、 前記のモデル・サイズを調節するステップは、 前記システム情報に基づき、前記音響モデルにおける前記パラメータ数を所望
    の数に減少させるステップ、 から成ること、を特徴とするコンフィギュレーション方法。
  17. 【請求項17】 請求項16記載の方法において、前記のシステム情報を得るステップは、 前記第1コンピュータのメモリ容量および動作速度を得るステップ、 から成ること、を特徴とするコンフィギュレーション方法。
  18. 【請求項18】 請求項16記載の方法において、前記のシステム情報を得るステップは、 ユーザが音声認識に割り当てを希望する前記第1コンピュータの計算資源の一
    部を示すユーザ入力を得るステップと、 から成ること、を特徴とするコンフィギュレーション方法。
  19. 【請求項19】 請求項15記載の方法において、前記音響モデルは、祖先セノンを有する複数
    の深いセノンを含み、各深いセノンは、少なくとも1つの対応するパラメータを
    有し、前記のモデル・サイズを調節するステップは、 深いセノンからのパラメータを併合して、前記音響モデル内のパラメータの前
    記数を減少させるステップ、 から成ること、を特徴とするコンフィギュレーション方法。
  20. 【請求項20】 請求項19記載の方法において、前記のパラメータを併合するステップは、 1つの共通の子孫セノンを有する深いセノンのみからのパラメータを併合する
    ステップ、 から成ること、を特徴とするコンフィギュレーション方法。
  21. 【請求項21】 請求項19記載の方法において、各々の深いセノンは、複数の連続密度関数に
    より表し、各連続密度関数は、複数の異なったパラメータによりパラメータ化し
    、前記のパラメータを併合させるステップは、 併合させるべき2つの連続密度関数を選択するステップと、 前記2つの選択した連続密度関数と関連した前記パラメータの全てを併合させ
    るステップと、 から成ること、を特徴とするコンフィギュレーション方法。
  22. 【請求項22】 請求項19記載の方法において、各深いセノンは、複数の連続密度関数により
    表し、各連続密度関数は、複数の異なったパラメータによりパラメータ化し、前
    記のパラメータを併合させるステップは、 併合させるべき2つの連続密度関数を選択するステップと、 前記選択した連続密度関数と関連した前記複数のパラメータの部分集合のみを
    併合させるステップと、 から成ること、を特徴とするコンフィギュレーション方法。
  23. 【請求項23】 請求項22記載の方法において、前記選択した連続密度関数は、ガウス密度関
    数から成り、前記の部分集合のみを併合させるステップは、 前記選択したガウス密度関数の共分散を併合させるステップ、 から成ること、を特徴とするコンフィギュレーション方法。
  24. 【請求項24】 請求項23記載の方法において、前記の部分集合のみを併合させるステップは
    、 前記選択したガウス密度関数の平均を併合するステップ、 から成ること、を特徴とするコンフィギュレーション方法。
  25. 【請求項25】 請求項19記載の方法において、前記パラメータの各々は、関連するデータ集
    合を有し、前記の併合するステップは、 前記パラメータの併合から生じる前記第1および第2のデータ集合を生成する
    尤度における減少に基づき前記パラメータの内の一定のものを併合するステップ
    、 から成ること、を特徴とするコンフィギュレーション方法。
  26. 【請求項26】 入力発話を認識するための音声認識システムであって、 前記入力発話から特徴を抽出するように構成した特徴抽出器と、 モデル・サイズを有し、かつ発話ユニットのモデルを含む音響モデルと、 抽出した前記特徴に基づき、かつ前記音響モデルに基づきありそうな出力を判
    定する探索エンジンと、 前記音声認識システムをランさせるコンピュータ・システムに対応するシステ
    ム情報の基づき、前記モデル・サイズを調節するように構成したコンフィギュレ
    ーション・モジュールと、 から成る音声認識システム。
  27. 【請求項27】 請求項26記載のシステムにおいて、前記音響モデルは、訓練用言語資料に基
    づき訓練し、前記コンフィギュレーション・モジュールは、前記訓練用言語資料
    へのアクセスなしで前記モデル・サイズを調節するように構成したこと、を特徴
    とする音声認識システム。
  28. 【請求項28】 請求項26記載のシステムにおいて、前記音響モデル内の前記モデルは各々、
    複数のパラメータを含み、前記コンフィギュレーション・モジュールは、前記コ
    ンピュータ・システムの動作特性を得ることによって前記システム情報を得、そ
    して前記動作特性に基づき前記音響モデル内の前記パラメータ数を所望の数に減
    少させるように構成したこと、を特徴とする音声認識システム。
  29. 【請求項29】 請求項26記載のシステムにおいて、発話ユニットの前記モデルは、子孫セノ
    ンを有する複数の深いセノンを含み、各深いセノンは、少なくとも1つの対応す
    るパラメータを有し、前記コンフィギュレーション・モジュールは、前記深いセ
    ノン内のパラメータを併合して、前記音響モデル内の前記パラメータ数を所望の
    数に減少させるように構成したこと、を特徴とする音声認識システム。
  30. 【請求項30】 請求項29記載のシステムにおいて、前記コンフィギュレーション・モジュー
    ルは、1つの共通の子孫セノンを有する深いセノンのみからのパラメータを併合
    させるように構成したこと、を特徴とする音声認識システム。
  31. 【請求項31】 請求項29記載のシステムにおいて、前記コンフィギュレーション・モジュー
    ルは、併合させるべき前記パラメータと整列したデータ集合を生成する尤度にお
    ける減少に基づき前記パラメータを選択的に併合させるように構成したこと、を
    特徴とする音声認識システム。
JP2000543956A 1998-04-15 1999-03-29 音声認識システムのための動的にコンフィギュレーション可能な音響モデル Expired - Fee Related JP4450991B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/060,654 US6141641A (en) 1998-04-15 1998-04-15 Dynamically configurable acoustic model for speech recognition system
US09/060,654 1998-04-15
PCT/US1999/006837 WO1999053478A1 (en) 1998-04-15 1999-03-29 Dynamically configurable acoustic model for speech recognition systems

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009276794A Division JP4913204B2 (ja) 1998-04-15 2009-12-04 音声認識システムのための動的にコンフィギュレーション可能な音響モデル

Publications (2)

Publication Number Publication Date
JP2002511609A true JP2002511609A (ja) 2002-04-16
JP4450991B2 JP4450991B2 (ja) 2010-04-14

Family

ID=22030937

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2000543956A Expired - Fee Related JP4450991B2 (ja) 1998-04-15 1999-03-29 音声認識システムのための動的にコンフィギュレーション可能な音響モデル
JP2009276794A Expired - Fee Related JP4913204B2 (ja) 1998-04-15 2009-12-04 音声認識システムのための動的にコンフィギュレーション可能な音響モデル

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2009276794A Expired - Fee Related JP4913204B2 (ja) 1998-04-15 2009-12-04 音声認識システムのための動的にコンフィギュレーション可能な音響モデル

Country Status (6)

Country Link
US (1) US6141641A (ja)
EP (1) EP1070314B1 (ja)
JP (2) JP4450991B2 (ja)
CN (1) CN1139911C (ja)
DE (1) DE69925479T2 (ja)
WO (1) WO1999053478A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010049291A (ja) * 1998-04-15 2010-03-04 Microsoft Corp 音声認識システムのための動的にコンフィギュレーション可能な音響モデル
JP2014052450A (ja) * 2012-09-06 2014-03-20 Toshiba Corp モデル学習装置、モデル作成方法及びモデル作成プログラム

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
DE59904741D1 (de) * 1998-05-11 2003-04-30 Siemens Ag Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
US6684186B2 (en) * 1999-01-26 2004-01-27 International Business Machines Corporation Speaker recognition using a hierarchical speaker model tree
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US7110947B2 (en) 1999-12-10 2006-09-19 At&T Corp. Frame erasure concealment technique for a bitstream-based feature extractor
US6792405B2 (en) * 1999-12-10 2004-09-14 At&T Corp. Bitstream-based feature extraction method for a front-end speech recognizer
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
US7031908B1 (en) 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US7020587B1 (en) * 2000-06-30 2006-03-28 Microsoft Corporation Method and apparatus for generating and managing a language model data structure
JP4336865B2 (ja) * 2001-03-13 2009-09-30 日本電気株式会社 音声認識装置
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US20050044471A1 (en) * 2001-11-15 2005-02-24 Chia Pei Yen Error concealment apparatus and method
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1363271A1 (de) 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
US7940844B2 (en) 2002-06-18 2011-05-10 Qualcomm Incorporated Video encoding and decoding techniques
US7533023B2 (en) * 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
US7529671B2 (en) 2003-03-04 2009-05-05 Microsoft Corporation Block synchronous decoding
US7571097B2 (en) * 2003-03-13 2009-08-04 Microsoft Corporation Method for training of subspace coded gaussian models
US7200559B2 (en) 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7231019B2 (en) * 2004-02-12 2007-06-12 Microsoft Corporation Automatic identification of telephone callers based on voice characteristics
KR100590561B1 (ko) * 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
US20060136210A1 (en) * 2004-12-16 2006-06-22 Sony Corporation System and method for tying variance vectors for speech recognition
US20070088552A1 (en) * 2005-10-17 2007-04-19 Nokia Corporation Method and a device for speech recognition
US7970613B2 (en) * 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7680664B2 (en) * 2006-08-16 2010-03-16 Microsoft Corporation Parsimonious modeling by non-uniform kernel allocation
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
US8165877B2 (en) * 2007-08-03 2012-04-24 Microsoft Corporation Confidence measure generation for speech related searching
US8145488B2 (en) * 2008-09-16 2012-03-27 Microsoft Corporation Parameter clustering and sharing for variable-parameter hidden markov models
US8160878B2 (en) * 2008-09-16 2012-04-17 Microsoft Corporation Piecewise-based variable-parameter Hidden Markov Models and the training thereof
US9002713B2 (en) * 2009-06-09 2015-04-07 At&T Intellectual Property I, L.P. System and method for speech personalization by need
US8484023B2 (en) * 2010-09-24 2013-07-09 Nuance Communications, Inc. Sparse representation features for speech recognition
KR20120045582A (ko) * 2010-10-29 2012-05-09 한국전자통신연구원 음향 모델 생성 장치 및 방법
EP2727103B1 (en) 2011-06-30 2014-12-31 Google, Inc. Speech recognition using variable-length context
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator
US9224384B2 (en) * 2012-06-06 2015-12-29 Cypress Semiconductor Corporation Histogram based pre-pruning scheme for active HMMS
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US20140372118A1 (en) * 2013-06-17 2014-12-18 Speech Morphing Systems, Inc. Method and apparatus for exemplary chip architecture
CN104766608A (zh) * 2014-01-07 2015-07-08 深圳市中兴微电子技术有限公司 一种语音控制方法及装置
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
CN112509567B (zh) * 2020-12-25 2024-05-10 阿波罗智联(北京)科技有限公司 语音数据处理的方法、装置、设备、存储介质及程序产品

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3584567D1 (de) * 1984-12-27 1991-12-05 Texas Instruments Inc Verfahren und einrichtung zur sprecherunabhaengigen spracherkennung.
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
JP2662120B2 (ja) * 1991-10-01 1997-10-08 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置および音声認識用処理ユニット
EP0590173A1 (de) * 1992-09-28 1994-04-06 International Business Machines Corporation Computersystem zur Spracherkennung
JPH0769711B2 (ja) * 1993-03-09 1995-07-31 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識方法
US5794197A (en) * 1994-01-21 1998-08-11 Micrsoft Corporation Senone tree representation and evaluation
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
JPH08248986A (ja) * 1995-03-13 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
JP2852210B2 (ja) * 1995-09-19 1999-01-27 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者モデル作成装置及び音声認識装置
EP0801786B1 (en) * 1995-11-04 2000-06-28 International Business Machines Corporation Method and apparatus for adapting the language model's size in a speech recognition system
JPH09134193A (ja) * 1995-11-08 1997-05-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置
US5806030A (en) * 1996-05-06 1998-09-08 Matsushita Electric Ind Co Ltd Low complexity, high accuracy clustering method for speech recognizer
US5822730A (en) * 1996-08-22 1998-10-13 Dragon Systems, Inc. Lexical tree pre-filtering in speech recognition
US5950158A (en) * 1997-07-30 1999-09-07 Nynex Science And Technology, Inc. Methods and apparatus for decreasing the size of pattern recognition models by pruning low-scoring models from generated sets of models
US5963902A (en) * 1997-07-30 1999-10-05 Nynex Science & Technology, Inc. Methods and apparatus for decreasing the size of generated models trained for automatic pattern recognition
US6141641A (en) * 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010049291A (ja) * 1998-04-15 2010-03-04 Microsoft Corp 音声認識システムのための動的にコンフィギュレーション可能な音響モデル
JP2014052450A (ja) * 2012-09-06 2014-03-20 Toshiba Corp モデル学習装置、モデル作成方法及びモデル作成プログラム

Also Published As

Publication number Publication date
CN1139911C (zh) 2004-02-25
US6141641A (en) 2000-10-31
JP4913204B2 (ja) 2012-04-11
DE69925479T2 (de) 2006-02-02
CN1301379A (zh) 2001-06-27
WO1999053478A1 (en) 1999-10-21
DE69925479D1 (de) 2005-06-30
JP2010049291A (ja) 2010-03-04
EP1070314B1 (en) 2005-05-25
JP4450991B2 (ja) 2010-04-14
EP1070314A1 (en) 2001-01-24

Similar Documents

Publication Publication Date Title
JP4450991B2 (ja) 音声認識システムのための動的にコンフィギュレーション可能な音響モデル
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US6571210B2 (en) Confidence measure system using a near-miss pattern
EP0984429B1 (en) Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
EP0921519B1 (en) Technique for adaptation of hidden Markov Models for speech recognition
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
US6260013B1 (en) Speech recognition system employing discriminatively trained models
US6539353B1 (en) Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition
US5865626A (en) Multi-dialect speech recognition method and apparatus
US5657424A (en) Isolated word recognition using decision tree classifiers and time-indexed feature vectors
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
JP2002366187A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JPH0555040B2 (ja)
KR100574769B1 (ko) 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
JP2003208195A (ja) 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
Hwang et al. Dynamically configurable acoustic models for speech recognition
JP2983364B2 (ja) 隠れマルコフモデルと音声信号との類似度計算方法
JP2973805B2 (ja) 標準パターン作成装置
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP3009640B2 (ja) 音響モデル生成装置及び音声認識装置
JPH0822296A (ja) パターン認識方法
KR100331689B1 (ko) 음성인식 시스템의 화자적응 훈련방법
Kshirsagar et al. Comparative study of phoneme recognition techniques

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060221

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060221

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090617

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091204

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20091208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20091208

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100127

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140205

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees