JPH11242495A - 音声認識のための隠れマルコフ・モデルの適合技術 - Google Patents
音声認識のための隠れマルコフ・モデルの適合技術Info
- Publication number
- JPH11242495A JPH11242495A JP10344998A JP34499898A JPH11242495A JP H11242495 A JPH11242495 A JP H11242495A JP 10344998 A JP10344998 A JP 10344998A JP 34499898 A JP34499898 A JP 34499898A JP H11242495 A JPH11242495 A JP H11242495A
- Authority
- JP
- Japan
- Prior art keywords
- node
- level
- probability measure
- speech
- levels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005516 engineering process Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 62
- 230000000694 effects Effects 0.000 abstract description 3
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 238000005259 measurement Methods 0.000 abstract description 2
- 230000009466 transformation Effects 0.000 description 18
- 230000006978 adaptation Effects 0.000 description 17
- 239000013598 vector Substances 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000007476 Maximum Likelihood Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
を学習段階中に学習し、その成績を改善する。 【解決手段】 ユーザの音声から導出される適合データ
およびその認識結果は、その学習段階中に修正される。
音声認識システム中で使用される隠れマルコフ・モデル
(HMM)を特徴付けるパラメータは、この適合データ
に基づいて修正される。このために、HMMパラメータ
空間中に階層構造が定義される。この構造は、複数の層
をもつ木構造の形式で、各層には一つまたは複数のノー
ドを含むと推定できる。各層上の各ノードは別の層上の
少なくとも一つのノードと連結される。木構造中の各ノ
ードはHMMパラメータのサブセットを表し、適合デー
タから導出される確率尺度と関連する。とくに、各リー
フ・ノードは一つずつの異なるHMMパラメータを表す
が、これはそのリーフ・ノードに関連する確率尺度に源
を求めることができる。
Description
および方法に関し、特に音声認識の学習段階における音
響入力に適合される隠れマルコフ・モデル(HMM)を
基盤とした音声認識のためのシステムおよび方法に関す
る。
信、データ処理および類似のシステムにおいては、ユー
ザがそれらのシステムの一つを操作しながら肉体的にあ
る活動(例えば、自動車の運転)に携わることが予想さ
れる場合、音響設備を用いたユーザ・インターフェース
に有利性が認められる。このようなシステムにおいて一
定の作業を実施するために人間の音声を認識する技術が
開発されている。
は個々の単語を構成する音素に対応する特徴ベクトルに
よって表される信号フレーム中で分析される。音素は隠
れマルコフ・モデル(HMM)を特徴とし、未知の発声
に対応するそれぞれの音素の連接に最尤法的に最も適し
たHMMの数列を特定するためにビタビ・アルゴリズム
が使用される。
とする混合構成部分のようなモデル・パラメータで構成
されることはよく知られている。音声認識システムにお
ける学習段階では、ユーザの特定の音声特性に適合させ
るためにHMMをユーザの入力音声に適合させ、こうし
て音声認識の精度を高める。従来の技術では、HMMの
適合のための二つの周知の方法、すなわちベイズ適合方
法および変換をベースとする方法とが採用されてきた。
MMにおけるモデル・パラメータとみなされ、モデル・
パラメータの最大事後(MAP)推定値が計算される。
この方法の詳細については、C. Lee他、”A s
tudy on Speaker Adaptatio
n of the Parameters of Co
ntinuous Density Hidden M
arkov Models,” IEEE Trans
actions on Signal Process
ing, Vol. 39, No. 4, 1991
年4月、pp.806−814;およびJ. Gauv
ain他、”Maximum a Posterior
i Estimation for Multivar
iate Gaussian Mixture Obs
ervations of Markov Chain
s,” IEEE Transactions onS
peach and Audio Processin
g, Vol. 2,No.2、1994年、291〜
298ページを参照のこと。ベイズ適合方法は、従来の
分布の知識を基礎としたMAP推定値を利用するため、
そのような知識に依拠しない。例えば、最尤(ML)推
定値を利用するものと比べて、適合のための入力音声デ
ータ所要量が少ない。
イズ適合方法よりも変換をベースとする方法の方がHM
Mの適合効率が高いだろう。変換をベースとする方法に
よれば、別々のHMMの間の相関関係を調査するため
に、例えば、推移または疑似変換などの変換が、音響特
性空間、別名「HMMパラメータ空間」中に定義され、
その相関関係が、適合データの不足にも関わらずHMM
の適合を支援する。その変換を特徴付けるパラメータ
は、その適合データを使用して推定される。変換をベー
スとする方法の実施に際しては、音響特性空間を複数の
副空間に分け、各副空間について変換パラメータを推定
することが望ましい。しかし、この方法で使用される変
数変換パラメータの数が少なく改善が制約されるので、
変換をベースとする方法を使用する音声認識の成績は適
合データの量の増加にともなっての顕著な改善は見られ
ない。
と組み合わせて音声認識成績を改善する試みがなされて
いる。この試みについては、Chien他、”Impr
oved Bayesian Learning of
Hidden Markov Models for
Speaker Adaptation,” ICA
SSP−97、1997、1027〜1039ページに
記されている。しかし、このような試みの成功は、音響
特性空間中の副空間の数をさまざまな量の適合データに
合わせて最適化する、という通常では非現実的な要件に
依存する。
わらず実現可能な方法でベイズ適合方法を変換をベース
とする方法と組み合わせて音声認識成績を改善するとい
う需要が存在する。
識システムにおけるHMMは「構造的最大事後(SMA
P)」方法を用いて学習段階中に適合される。本発明の
方法によれば、木構造などの複数のレベルをもつ階層構
造がHMMパラメータ空間中に構築される。このような
構造は、その構造のそれぞれのレベルに関連した変換パ
ラメータを特徴とする。あるレベルに関連する変換パラ
メータは、「階層上の前段階」と称される、その下のレ
ベルに関連する変換パラメータについての従来の知識を
表す。構造の各レベルに関連する変換パラメータは、適
合データおよびその上のレベルからの階層上の前段階に
基づいて推定される。HMMパラメータはその構造の最
下層レベルに関連する変換パラメータに基づいて更新さ
れ、したがって、これらは、少なくとも最下層レベル以
外のレベルに関連する変換パラメータの関数である。
と、本発明のSMAP方法は、前述の階層上の前段階の
使用を特徴とするベイズ適合方法を前述の階層構造の使
用を特徴とする変換をベースとする方法と効果的に組み
合わせ、協同してHMM適合の効果を発揮するので有利
である。
た音声認識システム100を示す。図1に示すとおり、
システム100はアナログ・デジタル(A/D)変換器
103、特徴抽出器105、エンドポイント検知器11
3、音声認識装置117、単語モデル・プロセッサ12
5、スイッチ139、および遅延要素141を含む複数
の機能ブロックを含む。システム100の各ブロックの
機能がそれぞれ別のプロセッサによって発揮されること
も、あるいは数個またはすべてのブロックの機能性が同
一のプロセッサによって発揮されることも可能である。
しかも、各段階に複数の処理要素を含めることもでき
る。それらの段階はパイプラインで結ばれ、それらの操
作は同期をとって実施される。
声は、マイクロホン(図示せず)を通ってシステム10
0のA/D変換器103へ送られる。変換器103は従
来の方法で入力音声のサンプルをとる。そのデジタル・
サンプルは、次に特徴抽出器105へ送られる。
徴抽出器105は受け取ったサンプルを約20msの長
さの音声フレームに整理し、各フレームについてそのフ
レーム中のエネルギー量と一組の短スペクトル・ベクト
ル、例えば、線形予測コーディング(LPC)パラメー
タを測定する。このとき、LPCパラメータは、音声サ
ンプルのフレームが蓄積される一定の時間にその信号ス
ペクトルにもっともよく適合する全極モデルのスペクト
ルを指定する。LPCパラメータに基づき抽出器105
はフレームごとの特徴ベクトルを作成するが、それは、
例えば、12個のケプストラム特性、12個のデルタ・
ケプストラム特性、および1個の定差エネルギー特性を
備える。周知の方法では、これらのケプストラムおよび
デルタ・ケプストラム特性は、その音声フレームのスペ
クトルおよびその時間変化を特徴付ける。定差エネルギ
ー特性は、その音声フレームにおけるその前のフレーム
からのエネルギーの変化量を示す。
113は、特徴抽出器105によるエネルギー測定と合
わせて定差エネルギー特性を音声信号の始点と終点を判
断するために使用する。これは次に、25の特性をそれ
ぞれの特徴ベクトルに含んだデータ信号を、エンドポイ
ントの判断とともに従来の設計の音声認識装置117へ
渡す。このようなデータ信号および本発明による単語モ
デル・プロセッサ125から供給された単語モデルに基
づき、認識装置117が発声された言葉が何であるかを
判断する。
の時点での連続密度(CD)HMMなどの隠れマルコフ
・モデル(HMM)をさまざまな発声された言葉につい
て供給する。ビタビ・アルゴリズムに基づき、認識装置
117は未知の発声に対応するそれぞれの音素の連接に
最尤法的に最も適したCDHMMの数列を特定する。こ
のような特定プロセスは、従来の方法での動的計画法に
よって実現される。
すなわち学習モードおよび通常操作モードで動くことに
留意されたい。現在のモードである通常操作モードで
は、スイッチ139は一連の認識された言葉を認識装置
117からシステム100の出力へとリレーするために
第1ポジションにセットされている。
125中のCDHMMのすべてのモデル・パラメータ
は、多数の話者による音声のサンプルに現われた練習デ
ータをつかって従来の方法であらかじめ定義されてい
る。しかし、ユーザがシステム100を音声認識のため
にはじめて使用するとき、システム100は、ユーザの
特殊な音声特徴に合わせて調整するためにCDHMMが
ユーザの入力音声に適合され、こうしてシステム100
の認識の正確性を一層高める学習モードを経験する。
スイッチ139は学習モードの第2ポジションにセット
され、一連の認識された言葉を認識装置117からプロ
セッサ125へ戻す。無監督学習によれば、入力音声は
管理されず、ユーザは監督学習の場合のように一定の言
葉だけを話すように制限されることはない。学習モード
では、遅延要素141が入力音声を表す認識装置117
への入力に対して適当な量の遅延を与え、それが対応す
る認識された言葉と同期するようにする。プロセッサ1
25は認識装置117への入力および対応する認識され
た言葉を、その中でCDHMMを適合させるための「適
合データ」として使用する。
るHMM、例えば、システム100は、「構造的最大事
後(SMAP)」方法を用いて学習段階中に適合され
る。本発明の方法によれば、木構造などの複数のレベル
をもつ階層構造が、HMMパラメータ空間、別名「音響
特性空間」中に構築される。このような構造は、その構
造のそれぞれのレベルに関連した変換パラメータを特徴
とする。あるレベルに関連する変換パラメータは、その
レベルの下の、またはそのレベルに従属するレベルに関
連する、変換パラメータについての「階層上の前段階」
と称される従来の知識を表す。構造の各レベルに関連す
る変換パラメータは、適合データおよびその上のレベル
からの階層上の前段階の総体に基づいて推定される。そ
の構造の最下層レベルに関連する推定変換パラメータ
は、学習段階におけるHMMパラメータの更新に使用さ
れる。その結果、これら更新されたHMMパラメータ
は、その構造に関連するそれぞれのレベルに応じて加重
構造と連結されたすべての変換パラメータの組み合わせ
の関数である。各レベルの比重は、使用される適合デー
タの量によって変わる。更新されたHMMパラメータは
システム100中のプロセッサ125で使用され、前述
の音声認識用通常操作モードの間、HMM、とくにCD
HMMを供給する。
れるために、ここではその適合を単純化する規格化技術
を説明する。G={gm;m=1,...,M}で、G
はプロセッサ125中のCDHMMのすべての混合構成
部分のセットとし、ここで、Mはプロセッサ125内に
あるすべての状態のすべてのCDHMMの混合構成部分
の総数を表し、gmは混合構成部分mについての通常濃
度関数を表す。この通常濃度関数はN(X|μm,Sm)
で示され、ここで、μmは期待値ベクトルを表し、Smは
共分散マトリックスを表す。
で、Tの所与の見かけのベクトルのセットを示すものと
し、これが適合データを表す。規格化においては、各サ
ンプル・ベクトルxtは各混合構成部分mについて次の
ようにしてベクトルУmtへ変換される:
である。
ータはすべて、システム100の製造中に多数の話者か
ら採取した音声サンプルから導出される訓練データを使
って、従来の方法であらかじめ定義されている。訓練デ
ータと適合データの間に不整合がない場合は、Ym=
{Уm1,...,Уmt...,УmT}についての確立密
度関数(pdf)が標準正規分布N(Y|O,I)で表
される可能性があることは明らかである。ここで、O
は、構成要素の値がゼロであるベクトルを表し、Iは一
致マトリックスを表す。訓練データと適合データとが不
整合の場合の別の方法では、Ymについてのpdfは一
般的にN(Y|υ,η)で表すことができ、このとき、
υ≠Oかつη≠Iである。訓練データによって示される
音響特性と適合データによって示されるものとの差を表
すために、「不整合pdf」は下記のように定義され
る。音の差をモデル化するために必要な不整合pdfの
数はHMMの混合構成部分についてのpdfの数より小
さいことがわかる。
に、混合構成部分のセットGを2個以上のサブセットG
p、1≦p≦Pに分ける。ここで、Pは、混合構成部分
の総数より少ないサブセットの総数、すなわちMであ
る。共通の不整合pdfであるhp=N(Y|υp,
ηp)は、各サブセットGp内のすべての混合構成部分に
よって共有される。
合構成部分gはg1 (p),...,gm (p)...,gMp
(p)としてあらためて番号が付され、このときMpはサブ
セットGp中の混合構成部分の数を表す。見かけのベク
トル数列X={x1,...,xT}は、混合構成部分g
m (p)についてX={Уm1 (p),...,УmT (p)}と一般
化される。
定最大(EM)アルゴリズムを用いて推定される。遷移
確率と混合構成部分の重量係数が特定されるとき、HM
Mパラメータについての補助関数Ωは以下のようにして
求められる:
よびp=1,...,P}は現在のHMMパラメータの
セットを表し;Θ^={μm^(p),_m (p);m=
1,...,Mpおよびp=1,...,P}は推定さ
れるHMMパラメータのセットを表し;γmt (p)は時間
tの点で混合構成部分gm (p)を使用した事後確率を表
す。HMMパラメータと不整合pdfパラメータとの関
係は、次のように規定される:
化のためのヤコビアン・マトリックスを表す。[3]の
式に基づき、この補助関数は次のように修正できる:
尤(ML)推定値は次のように定義できる。
移項を表す。これらの不整合pdfパラメータを使用し
て、対応するHMMパラメータは次のように変更でき
る:
待値と共分散を表す。
整合pdfの最適数は、利用可能な適合データの量によ
って変わる。不整合pdfパラメータを前述の階層構造
の構築用変換パラメータとして利用する手法があり、こ
れは、与えられた適合データの量に関わらずその全体構
造およびサブ構造がともに良好な音声認識成績を達成す
るのに適しているという利点をもっている。このため
に、セットGについての木構造を本発明にしたがって具
体化する。
として示す。図2に示すとおり、木構造200にはH個
のレベルがあり、ここで、Hはゼロより大きい整数であ
る。構造200の第1のレベルは、CDHMMのM個の
混合構成部分をすべて含むセットGを表す親ノード20
3を含む。構造200の第H番目のレベルは、それぞれ
CDHMMのM個の混合構成部分を表すM個のリーフ・
ノードを含む。第1レベルから第Hレベルまでの間の各
中間ノードもしくは非終点ノードは、その中間ノードに
従属する第Hレベル上のそれらのMpリーフ・ノードま
たは終点ノードで表されるそれぞれMpの混合構成部分
を含むGのサブセット、すなわちGpを表す。リーフ・
ノードがその中間ノードから「発散」される場合に、あ
るいは言葉を変えると、その発生源をたどると介在する
経路を通ってその中間ノードへ戻る場合に、リーフ・ノ
ードが中間ノードに従属する、という。例えば、構造2
00では、中間ノード222に従属するリーフ・ノード
は、それぞれ経路224、226および228を通って
ノード222と接続されているリーフ・ノード231、
233および235である。同様に、中間ノード211
に従属するリーフ・ノードは、リーフ・ノード231、
233、235、237、239、241、243、2
45および247である。もちろん、親ノード203に
は第Hレベル上の各リーフ・ノードが従属している。構
造200を構築する手法は、以下に詳細に記す。
のノードで表されるGp中の混合構成部分によって共有
される不整合pdfが割り当てられる。とくに各ノード
Nについて、その不整合pdfパラメータのML推定値
υ〜pおよびη〜pは、式[5]および[6]に基づく適
合データを用いて決定される。
ータのセットΘm=(μm,Sm)を、一般性を損なわず
に推定しよう。便宜上、以下の議論では混合構成部分m
に関連する各変数の添字「m」は、その添字がないと混
乱のおそれがある場合を除いて省略する。木構造200
中で、親ノード203およびリーフ・ノードを含む各レ
ベルから一つづつのノードをつないだ各連結ノードの順
序は、そのリーフ・ノードで表される混合構成部分に対
応する。混合構成部分mに対応する連結ノードの数列を
{N1,...,Nk,...,NH}と表す。ここで、
N1は親ノード203を示し;Nkはその数列中の中間ノ
ードの一つを示し;NHは混合構成部分mを表すリーフ
・ノードを示す。
るpdf不整合パラメータのセットを表すものとする。
このパラメータのセットλkは、特徴ベクトルの数列Y
を所与として、以下に説明する事後確率を最大化するこ
とによって決定される。一度λkが決定されるとHMM
パラメータ・セットΘは上記の式[7]および[8]を
用いて容易に求められることに留意されたい。
いての前述の「階層上の前段階」として、{λ0,
λ1,...λk...,λH-1}のセットが使用され
る。但し、λ0=(O,I)である。不整合pdfパラ
メータのセットλ0は親ノード203に関わるパラメー
タ・セットλ1にとっての前段階であると仮定され、ノ
ードNkに関わるパラメータ・セットλkはその直接の従
属ノードあるいは子ノードであるNk+1に関わるパラメ
ータ・セットλk+1にとっての前段階として使用され
る。
評価を単純化するために、2つの概数が使用されてい
る。最大事後(MAP)推定によって求められる確率を
用いる第1の概数は、次の式で表される:
整合pdfパラメータのMAP推定値が次のように決定
できる:
ある;(υ〜k,η〜k)は(υk,ηk)についてのML
推定値を表す。パラメータΨ>0、およびξ>1は、標
準的なコントロール・パラメータである。親ノードN1
からリーフ・ノードNHまでノードの順序にしたがって
式[18]および[19]を連続してあてはめていく
と、リーフ・ノードNHについての期待値υHおよび分
散ηHが得られる。これらのυHおよびηHは、本発明
のSMAP方法により、式[7]および[8]中で混合
構成部分を変更するためにそれぞれυpおよびηpとして
使用される。
は次のように書き換えることができることに留意された
い:
木構造200の異なるレベルにおけるML推定値υ〜k
の加重合計として想像することができる。ノードNkで
は利用できる適合データが多ければ多いほどΓkが大き
くなり、またwkも同様であることにも留意されたい。
さらに、ノードNkにおけるυ〜kについての加重w
kは、kの値に対して指数的に減少する。こうして、利
用できる適合データの量が相対的に少ない場合は、木構
造200の上位レベルに対応するML推定値υ〜kが
[21]の推定期待値において支配的となる。他方、利
用できる適合データの量が相対的に多い場合は、下位レ
ベルに対応するML推定値υ〜kがその推定期待値にお
いて支配的となる。
る。音響特性空間にはめ込まれた構造についての先見的
な知識が、すべての混合構成部分のセットGについての
木構造200の構築に使用されるべきである。この木構
造の構築は、例えば、T. Watanabe他、”S
peech Recognition Using T
ree−Structured Probabilit
y Density Function,” Pro
c., of ICSLP−94, 1994,pp.
223−226に記載された手法に基づく。
分の間の距離の尺度として、混合構成部分のpdf間の
有名なクルバック発散が使用される。これによれば、2
つの混合構成部分、たとえばgmとgnとの間の距離d
(m,n)は、次のように決定される:
素を表す。ノードpdfが、木構造200の各ノードに
割り当てられる。混合構成部分gm (k)=N(X|
μm (k),Sm (k))、m=1,...,Mk、が属するノ
ードNkのpdfパラメータは、次のようにして求めら
れる:
めの従来のk型クラスター化アルゴリズム300を示
す。このアルゴリズムによれば、各ノードからの分岐の
数および木構造200のレベルの数はあらかじめ決まっ
ており、クラスター化は回帰的に実行される。とくに、
ステップ305で示すように、最初に親ノード203が
ノードnになるように設定される。ステップ308で、
ノードnに子ノードがあるかどうかが判断される。ノー
ドnに子ノードがなければ、アルゴリズム300は終了
する。
ドがある場合、ステップ311に示すように初期pdf
は有名なミニマックス法を用いてその子ノードそれぞれ
に割り当てられる。ステップ315では、式[23]を
用いてその子ノードpdfとその混合構成部分との間の
距離を計算することによって、ノードnで表される混合
構成部分のセットが子ノードの間で分割される。各混合
構成部分は、その混合構成部分にpdfがもっとも近い
子ノードに割り当てられる。次にpdfは、式[24]
および[25]に基づいて、ノードnの各子ノードにつ
いてステップ318で計算される。各子ノードについ
て、子ノードpdfからその子ノードで表される混合構
成部分までの距離の合計が計算される。ノードnのすべ
ての子ノードについての距離の合計を加算して、総合計
を算出する。次に、ステップ321に示すように、その
総合計が収斂するかどうかを判断する。その総合計が収
斂しない場合は、アルゴリズム300はステップ315
に戻る。逆にこれが収斂する場合は、ステップ322に
示すように各子ノードがノードnに設定される。それぞ
れの新しいノードnについて、アルゴリズム300はス
テップ308に戻る。
すものである。この分野に精通した人物なら、本文中に
明示的に表示されあるいは記述されてはいないが本発明
の原則を具体化し、したがって本発明の核心と範囲に含
まれる多数のシステムを考案することができることを理
解されたい。
声認識システム100による学習は監督を受けていな
い。つまり、ユーザが学習用に供給する音声は管理され
ていない。しかし、このような学習は監督を受けて行
い、その中でユーザは一定のあらかじめ選ばれた学習用
の単語だけを話すようにすることも可能であることを理
解されたい。
ある。
学習段階中に適合される階層構造を示す。
を示すフローチャートである。
Claims (40)
- 【請求項1】 音響モデルに基づき音声を認識するため
の装置であって、 少なくとも音響モデルを修正するための音声のサンプル
を表すデータに応じたプロセッサと、 複数のレベルを含む構造を定義する機構であって、各レ
ベルが少なくとも前記データに基づいて決定される一つ
または複数の確率尺度と関連し、選ばれたレベルに関連
する前記確率尺度が少なくとも第二のレベルと関連する
確率尺度の関数であり、前記音響モデルが少なくとも前
記選ばれたレベルと関連する確率尺度に基づいて修正さ
れる機構とを備える装置。 - 【請求項2】 請求項1に記載の装置において、前記音
響モデルが隠れマルコフ・モデル(HMM)による装
置。 - 【請求項3】 請求項2に記載の装置において、前記H
MMが連続密度HMM(CDHMM)を含む装置。 - 【請求項4】 請求項1に記載の装置において、前記確
率尺度が少なくとも第二の音声のサンプルを表す第二の
データにも基づいて決定される装置。 - 【請求項5】 請求項4に記載の装置において、前記確
率尺度が前記第一の音声のサンプルと前記少なくとも第
二の音声のサンプルとの差から導出され、前記差が前記
第一および第二のデータの関数である装置。 - 【請求項6】 請求項1に記載の装置において、前記音
響モデルが前記音声のサンプルの認識されたものにも応
じて修正される装置。 - 【請求項7】 請求項1に記載の装置において、前記構
造中のレベルが一方向に順番に配置され、各レベルが一
つまたは複数のノードを含み、レベルがさらにより多数
のノードを含む方向へ配置され、各レベルの少なくとも
一つのノードが別のレベルの少なくとも一つのノードに
連結され、各レベルに関連する前記確率尺度がそのうえ
のノードの一つにそれぞれ割り当てられる装置。 - 【請求項8】 請求項7に記載の装置において、前記音
響モデルが複数のパラメータを特徴とし、各ノードが一
つまたは複数の前記パラメータを含むセットを表す装
置。 - 【請求項9】 請求項8に記載の装置において、前記選
ばれたレベルがさらにすべてのレベルの方向に配置さ
れ、前記選ばれたレベル上の各ノードが前記複数のパラ
メータのうちの別の一つを含むセットを表す装置。 - 【請求項10】 請求項9に記載の装置において、前記
選ばれたレベル上の各ノードに割り当てられた前記確率
尺度が前記ノードで表される前記セット中の前記パラメ
ータの修正に使用される装置。 - 【請求項11】 請求項9に記載の装置において、前記
選ばれたレベル以外のレベル上の各ノードで表されるセ
ットが前記ノードに連結された前記選ばれたレベル上の
前記ノードで表されるセットを含む装置。 - 【請求項12】 複数のパラメータを特徴とし、音響モ
デルに基づいて音声を認識するシステムであって、 音声のサンプルを表すデータを供給する機器と、 複数のレベルを含む構造を定義するプロセッサであっ
て、各レベルが一つまたは複数のノードを含み、各ノー
ドがそれぞれの少なくとも前記データから導出される確
率尺度に関連するプロセッサと、 異なるレベルからのノードの少なくとも一つの数列を識
別するための機構であって、前記数列中の選ばれたノー
ドに関連する前記確率尺度が少なくとも前記数列中の第
二のノードに関連する第二の確率尺度の関数である機構
と、 少なくとも前記選ばれたノードに関連する確率尺度に基
づく前記パラメータのうち少なくとも一つを修正するた
めのアダプタとを備えるシステム。 - 【請求項13】 請求項12に記載のシステムにおい
て、前記構造中のレベルが一方向に順番に配置され、レ
ベルがさらにより多数のノードを含む方向へ配置され、
前記選ばれたノードがさらにすべてのレベルの方向に配
置されたレベルから発しているシステム。 - 【請求項14】 請求項12に記載のシステムにおい
て、前記選ばれたノードに関連する前記確率尺度が前記
第二の確率尺度を計るためのウエイトの関数でもあり、
前記構造中の他のレベルの位置に応じて前記ウエイトが
前記第二のノードが発している前記レベルの位置によっ
て変化するシステム。 - 【請求項15】 請求項14に記載のシステムにおい
て、前記ウエイトがデータの量にも応じて変化するシス
テム。 - 【請求項16】 請求項12に記載のシステムにおい
て、前記音響モデルがHMMによるシステム。 - 【請求項17】 請求項12に記載のシステムにおい
て、前記HMMがCDHMMを含むシステム。 - 【請求項18】 請求項12に記載のシステムにおい
て、それぞれの確率尺度が少なくとも第二の音声のサン
プルを表す第二のデータからも導出されるシステム。 - 【請求項19】 請求項18に記載のシステムにおい
て、それぞれの確率尺度が第一の音声のサンプルと少な
くとも第二の音声のサンプルとの差に基づいて決定さ
れ、前記差が前記第一および第二のデータの関数である
システム。 - 【請求項20】 請求項12に記載のシステムにおい
て、前記音響モデルが前記音声のサンプルの認識された
ものにも応じて修正されるシステム。 - 【請求項21】 音声モデルに基づく音声認識のための
装置中で使用する方法であって、 少なくとも前記音声のサンプルを表すデータに対応して
前記音響モデルを修正し、 複数のレベルを含む構造を定義し、各レベルが少なくと
も前記データに基づいて決定される一つまたは複数の確
率尺度と関連し、選ばれたレベルに関連する前記確率尺
度が少なくとも第二のレベルと関連する確率尺度の関数
であり、前記音響モデルが少なくとも前記選ばれたレベ
ルと関連する確率尺度に基づいて修正される方法。 - 【請求項22】 請求項21に記載の方法において、前
記音響モデルがHMMによる方法。 - 【請求項23】 請求項22に記載の方法において、前
記HMMが連続密度CDHMMを含む方法。 - 【請求項24】 請求項21に記載の方法において、前
記確率尺度が少なくとも第二の音声のサンプルを表す第
二のデータにも基づいて決定される方法。 - 【請求項25】 請求項24に記載の方法において、前
記確率尺度が前記第一の音声のサンプルと前記少なくと
も第二の音声のサンプルとの差から導出され、前記差が
前記第一および第二のデータの関数である方法。 - 【請求項26】 請求項21に記載の方法において、前
記音響モデルが前記音声のサンプルの認識されたものに
も応じて修正される方法。 - 【請求項27】 請求項21に記載の方法において、前
記構造中のレベルが一方向に順番に配置され、各レベル
が一つまたは複数のノードを含み、レベルがさらにより
多数のノードを含む方向へ配置され、各レベルの少なく
とも一つのノードが別のレベルの少なくとも一つのノー
ドに連結され、各レベルに関連する前記確率尺度がその
うえのノードの一つにそれぞれ割り当てられる方法。 - 【請求項28】 請求項27に記載の方法において、前
記音響モデルが複数のパラメータを特徴とし、各ノード
が一つまたは複数の前記パラメータを含むセットを表す
方法。 - 【請求項29】 請求項28に記載の方法において、前
記選ばれたレベルがさらにすべてのレベルの方向に配置
され、前記選ばれたレベル上の各ノードが前記複数のパ
ラメータのうちの別の一つを含むセットを表す方法。 - 【請求項30】 請求項29に記載の方法において、前
記選ばれたレベル上の各ノードに割り当てられた前記確
率尺度が前記ノードで表される前記セット中の前記パラ
メータの修正に使用される方法。 - 【請求項31】 請求項29に記載の方法において、前
記選ばれたレベル以外のレベル上の各ノードで表される
セットが前記ノードに連結された前記選ばれたレベル上
の前記ノードで表されるセットを含む方法。 - 【請求項32】 複数のパラメータを特徴とし、音響モ
デルに基づいて音声を認識するシステム中で使用する方
法であって、 音声のサンプルを表すデータを供給し、 複数のレベルを含む構造を定義し、各レベルが一つまた
は複数のノードを含み、各ノードがそれぞれの少なくと
も前記データから導出される確率尺度に関連し、 異なるレベルからのノードの少なくとも一つの数列を識
別し、前記数列中の選ばれたノードに関連する前記確率
尺度が少なくとも前記数列中の第二のノードに関連する
第二の確率尺度の関数であり、 少なくとも前記選ばれたノードに関連する確率尺度に基
づく前記パラメータのうち少なくとも一つを修正する方
法。 - 【請求項33】 請求項32に記載の方法において、前
記構造中のレベルが一方向に順番に配置され、レベルが
さらにより多数のノードを含む方向へ配置され、前記選
ばれたノードがさらにすべてのレベルの方向に配置され
たレベルから発している方法。 - 【請求項34】 請求項32に記載の方法において、前
記選ばれたノードに関連する前記確率尺度が前記第二の
確率尺度を計るためのウエイトの関数でもあり、前記構
造中の他のレベルの位置に応じて前記ウエイトが前記第
二のノードが発している前記レベルの位置によって変化
する方法。 - 【請求項35】 請求項34に記載の方法において、前
記ウエイトがデータの量にも応じて変化する方法。 - 【請求項36】 請求項32に記載の方法において、前
記音響モデルがHMMによる方法。 - 【請求項37】 請求項32に記載の方法において、前
記HMMがCDHMMを含む方法。 - 【請求項38】 請求項32に記載の方法において、そ
れぞれの確率尺度が少なくとも第二の音声のサンプルを
表す第二のデータからも導出される方法。 - 【請求項39】 請求項38に記載の方法において、そ
れぞれの確率尺度が第一の音声のサンプルと少なくとも
第二の音声のサンプルとの差に基づいて決定され、前記
差が前記第一および第二のデータの関数である方法。 - 【請求項40】 請求項32に記載の方法において、前
記音響モデルが前記音声のサンプルの認識されたものに
も応じて修正される方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US6782297P | 1997-12-05 | 1997-12-05 | |
US60/067822 | 1998-09-08 | ||
US09/149,782 US6151574A (en) | 1997-12-05 | 1998-09-08 | Technique for adaptation of hidden markov models for speech recognition |
US09/149782 | 1998-09-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11242495A true JPH11242495A (ja) | 1999-09-07 |
JP3742236B2 JP3742236B2 (ja) | 2006-02-01 |
Family
ID=26748302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP34499898A Expired - Fee Related JP3742236B2 (ja) | 1997-12-05 | 1998-12-04 | 音声認識のための隠れマルコフ・モデルの適応技術 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6151574A (ja) |
EP (1) | EP0921519B1 (ja) |
JP (1) | JP3742236B2 (ja) |
DE (1) | DE69827586T2 (ja) |
Families Citing this family (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69914368T2 (de) * | 1998-11-25 | 2005-03-10 | Microsoft Corp., Redmond | Netzwerk- und sprachmodelle zur verwendung in einem spracherkennungssystem |
US6678658B1 (en) * | 1999-07-09 | 2004-01-13 | The Regents Of The University Of California | Speech processing using conditional observable maximum likelihood continuity mapping |
KR100307623B1 (ko) * | 1999-10-21 | 2001-11-02 | 윤종용 | 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치 |
US6539351B1 (en) * | 2000-02-04 | 2003-03-25 | International Business Machines Corporation | High dimensional acoustic modeling via mixtures of compound gaussians with linear transforms |
US6470314B1 (en) * | 2000-04-06 | 2002-10-22 | International Business Machines Corporation | Method and apparatus for rapid adapt via cumulative distribution function matching for continuous speech |
US6751590B1 (en) * | 2000-06-13 | 2004-06-15 | International Business Machines Corporation | Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition |
US7216077B1 (en) * | 2000-09-26 | 2007-05-08 | International Business Machines Corporation | Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation |
WO2002037235A2 (en) * | 2000-10-20 | 2002-05-10 | Denise Parker | Integrated life planning method and systems and products for implementation |
US6845357B2 (en) * | 2001-07-24 | 2005-01-18 | Honeywell International Inc. | Pattern recognition using an observable operator model |
US6788243B2 (en) | 2001-09-06 | 2004-09-07 | Minister Of National Defence Of Her Majestry's Canadian Government The Secretary Of State For Defence | Hidden Markov modeling for radar electronic warfare |
US7203635B2 (en) * | 2002-06-27 | 2007-04-10 | Microsoft Corporation | Layered models for context awareness |
US20050021337A1 (en) * | 2003-07-23 | 2005-01-27 | Tae-Hee Kwon | HMM modification method |
US7580570B2 (en) * | 2003-12-09 | 2009-08-25 | Microsoft Corporation | Accuracy model for recognition signal processing engines |
US7467086B2 (en) * | 2004-12-16 | 2008-12-16 | Sony Corporation | Methodology for generating enhanced demiphone acoustic models for speech recognition |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US20070088552A1 (en) * | 2005-10-17 | 2007-04-19 | Nokia Corporation | Method and a device for speech recognition |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
CN101390156B (zh) * | 2006-02-27 | 2011-12-07 | 日本电气株式会社 | 标准模式适应装置、标准模式适应方法 |
US20080059190A1 (en) * | 2006-08-22 | 2008-03-06 | Microsoft Corporation | Speech unit selection using HMM acoustic models |
US8234116B2 (en) * | 2006-08-22 | 2012-07-31 | Microsoft Corporation | Calculating cost measures between HMM acoustic models |
JP4427530B2 (ja) * | 2006-09-21 | 2010-03-10 | 株式会社東芝 | 音声認識装置、プログラムおよび音声認識方法 |
US20080243503A1 (en) * | 2007-03-30 | 2008-10-02 | Microsoft Corporation | Minimum divergence based discriminative training for pattern recognition |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8335381B2 (en) * | 2008-09-18 | 2012-12-18 | Xerox Corporation | Handwritten word spotter using synthesized typed queries |
US8442833B2 (en) | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8788256B2 (en) | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442829B2 (en) | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
TWI396184B (zh) * | 2009-09-17 | 2013-05-11 | Tze Fen Li | 一種語音辨認所有語言及用語音輸入單字的方法 |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
KR20120045582A (ko) * | 2010-10-29 | 2012-05-09 | 한국전자통신연구원 | 음향 모델 생성 장치 및 방법 |
US20120116764A1 (en) * | 2010-11-09 | 2012-05-10 | Tze Fen Li | Speech recognition method on sentences in all languages |
US8478711B2 (en) | 2011-02-18 | 2013-07-02 | Larus Technologies Corporation | System and method for data fusion with adaptive learning |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US10140981B1 (en) * | 2014-06-10 | 2018-11-27 | Amazon Technologies, Inc. | Dynamic arc weights in speech recognition models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) * | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10152968B1 (en) * | 2015-06-26 | 2018-12-11 | Iconics, Inc. | Systems and methods for speech-based monitoring and/or control of automation devices |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN108647788B (zh) * | 2018-05-14 | 2021-03-19 | 暨南大学 | 一种联想式知识库的自动改进方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
JP2522154B2 (ja) * | 1993-06-03 | 1996-08-07 | 日本電気株式会社 | 音声認識システム |
US5794197A (en) * | 1994-01-21 | 1998-08-11 | Micrsoft Corporation | Senone tree representation and evaluation |
EP0788648B1 (en) * | 1995-08-28 | 2000-08-16 | Koninklijke Philips Electronics N.V. | Method and system for pattern recognition based on dynamically constructing a subset of reference vectors |
DE69613338T2 (de) * | 1995-08-28 | 2002-05-29 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten |
JP3092491B2 (ja) * | 1995-08-30 | 2000-09-25 | 日本電気株式会社 | 記述長最小基準を用いたパターン適応化方式 |
US5657424A (en) * | 1995-10-31 | 1997-08-12 | Dictaphone Corporation | Isolated word recognition using decision tree classifiers and time-indexed feature vectors |
US5787394A (en) * | 1995-12-13 | 1998-07-28 | International Business Machines Corporation | State-dependent speaker clustering for speaker adaptation |
GB9602691D0 (en) * | 1996-02-09 | 1996-04-10 | Canon Kk | Word model generation |
US5960395A (en) * | 1996-02-09 | 1999-09-28 | Canon Kabushiki Kaisha | Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming |
US5737487A (en) * | 1996-02-13 | 1998-04-07 | Apple Computer, Inc. | Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US5983180A (en) * | 1997-10-23 | 1999-11-09 | Softsound Limited | Recognition of sequential data using finite state sequence models organized in a tree structure |
-
1998
- 1998-09-08 US US09/149,782 patent/US6151574A/en not_active Expired - Fee Related
- 1998-11-24 EP EP98309595A patent/EP0921519B1/en not_active Expired - Lifetime
- 1998-11-24 DE DE69827586T patent/DE69827586T2/de not_active Expired - Fee Related
- 1998-12-04 JP JP34499898A patent/JP3742236B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0921519A2 (en) | 1999-06-09 |
EP0921519B1 (en) | 2004-11-17 |
JP3742236B2 (ja) | 2006-02-01 |
US6151574A (en) | 2000-11-21 |
DE69827586T2 (de) | 2005-12-01 |
DE69827586D1 (de) | 2004-12-23 |
EP0921519A3 (en) | 2000-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3742236B2 (ja) | 音声認識のための隠れマルコフ・モデルの適応技術 | |
Gales | Model-based techniques for noise robust speech recognition | |
Siohan et al. | Structural maximum a posteriori linear regression for fast HMM adaptation | |
JP2871561B2 (ja) | 不特定話者モデル生成装置及び音声認識装置 | |
US6219642B1 (en) | Quantization using frequency and mean compensated frequency input data for robust speech recognition | |
JP3672595B2 (ja) | 結合されたストリングモデルの最小誤認率訓練 | |
Huo et al. | A Bayesian predictive classification approach to robust speech recognition | |
US7590537B2 (en) | Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition | |
JP5398909B2 (ja) | テキスト音声合成方法及びシステム | |
JP2006215564A (ja) | 自動音声認識システムにおける単語精度予測方法、及び装置 | |
Hain et al. | The cu-htk march 2000 hub5e transcription system | |
JP4818556B2 (ja) | 確率論的ロバスト音声処理 | |
Chen et al. | Automatic transcription of broadcast news | |
Akamine et al. | Decision tree-based acoustic models for speech recognition | |
Yamagishi et al. | HSMM-based model adaptation algorithms for average-voice-based speech synthesis | |
JPH08211889A (ja) | 木構造を用いたパターン適応化方式 | |
JPH1185186A (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
Rabiner et al. | Hidden Markov models for speech recognition—strengths and limitations | |
Zeng et al. | Type-2 fuzzy hidden Markov models to phoneme recognition | |
Hochberg et al. | Connectionist model combination for large vocabulary speech recognition | |
JP3027544B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP3216565B2 (ja) | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 | |
JPH0895592A (ja) | パターン認識方法 | |
JP2996925B2 (ja) | 音素境界検出装置及び音声認識装置 | |
Li | Speech recognition of mandarin monosyllables |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040329 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20040629 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20040702 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051019 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051110 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |