JPH11242495A - 音声認識のための隠れマルコフ・モデルの適合技術 - Google Patents

音声認識のための隠れマルコフ・モデルの適合技術

Info

Publication number
JPH11242495A
JPH11242495A JP10344998A JP34499898A JPH11242495A JP H11242495 A JPH11242495 A JP H11242495A JP 10344998 A JP10344998 A JP 10344998A JP 34499898 A JP34499898 A JP 34499898A JP H11242495 A JPH11242495 A JP H11242495A
Authority
JP
Japan
Prior art keywords
node
level
probability measure
speech
levels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10344998A
Other languages
English (en)
Other versions
JP3742236B2 (ja
Inventor
Chin-Hui Lee
リー チン−フイ
Shinoda Koichi
コーイチ シノダ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of JPH11242495A publication Critical patent/JPH11242495A/ja
Application granted granted Critical
Publication of JP3742236B2 publication Critical patent/JP3742236B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 音声認識システムはユーザによる音声の特徴
を学習段階中に学習し、その成績を改善する。 【解決手段】 ユーザの音声から導出される適合データ
およびその認識結果は、その学習段階中に修正される。
音声認識システム中で使用される隠れマルコフ・モデル
(HMM)を特徴付けるパラメータは、この適合データ
に基づいて修正される。このために、HMMパラメータ
空間中に階層構造が定義される。この構造は、複数の層
をもつ木構造の形式で、各層には一つまたは複数のノー
ドを含むと推定できる。各層上の各ノードは別の層上の
少なくとも一つのノードと連結される。木構造中の各ノ
ードはHMMパラメータのサブセットを表し、適合デー
タから導出される確率尺度と関連する。とくに、各リー
フ・ノードは一つずつの異なるHMMパラメータを表す
が、これはそのリーフ・ノードに関連する確率尺度に源
を求めることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識システム
および方法に関し、特に音声認識の学習段階における音
響入力に適合される隠れマルコフ・モデル(HMM)を
基盤とした音声認識のためのシステムおよび方法に関す
る。
【0002】
【従来の技術、及び、発明が解決しようとする課題】通
信、データ処理および類似のシステムにおいては、ユー
ザがそれらのシステムの一つを操作しながら肉体的にあ
る活動(例えば、自動車の運転)に携わることが予想さ
れる場合、音響設備を用いたユーザ・インターフェース
に有利性が認められる。このようなシステムにおいて一
定の作業を実施するために人間の音声を認識する技術が
開発されている。
【0003】そのような技術の一つによれば、入力音声
は個々の単語を構成する音素に対応する特徴ベクトルに
よって表される信号フレーム中で分析される。音素は隠
れマルコフ・モデル(HMM)を特徴とし、未知の発声
に対応するそれぞれの音素の連接に最尤法的に最も適し
たHMMの数列を特定するためにビタビ・アルゴリズム
が使用される。
【0004】各HMMが、例えば、ガウスの分布を特徴
とする混合構成部分のようなモデル・パラメータで構成
されることはよく知られている。音声認識システムにお
ける学習段階では、ユーザの特定の音声特性に適合させ
るためにHMMをユーザの入力音声に適合させ、こうし
て音声認識の精度を高める。従来の技術では、HMMの
適合のための二つの周知の方法、すなわちベイズ適合方
法および変換をベースとする方法とが採用されてきた。
【0005】ベイズ適合方法によれば、従来の分布がH
MMにおけるモデル・パラメータとみなされ、モデル・
パラメータの最大事後(MAP)推定値が計算される。
この方法の詳細については、C. Lee他、”A s
tudy on Speaker Adaptatio
n of the Parameters of Co
ntinuous Density Hidden M
arkov Models,” IEEE Trans
actions on Signal Process
ing, Vol. 39, No. 4, 1991
年4月、pp.806−814;およびJ. Gauv
ain他、”Maximum a Posterior
i Estimation for Multivar
iate Gaussian Mixture Obs
ervations of Markov Chain
s,” IEEE Transactions onS
peach and Audio Processin
g, Vol. 2,No.2、1994年、291〜
298ページを参照のこと。ベイズ適合方法は、従来の
分布の知識を基礎としたMAP推定値を利用するため、
そのような知識に依拠しない。例えば、最尤(ML)推
定値を利用するものと比べて、適合のための入力音声デ
ータ所要量が少ない。
【0006】しかし、適合データが不足する場合は、ベ
イズ適合方法よりも変換をベースとする方法の方がHM
Mの適合効率が高いだろう。変換をベースとする方法に
よれば、別々のHMMの間の相関関係を調査するため
に、例えば、推移または疑似変換などの変換が、音響特
性空間、別名「HMMパラメータ空間」中に定義され、
その相関関係が、適合データの不足にも関わらずHMM
の適合を支援する。その変換を特徴付けるパラメータ
は、その適合データを使用して推定される。変換をベー
スとする方法の実施に際しては、音響特性空間を複数の
副空間に分け、各副空間について変換パラメータを推定
することが望ましい。しかし、この方法で使用される変
数変換パラメータの数が少なく改善が制約されるので、
変換をベースとする方法を使用する音声認識の成績は適
合データの量の増加にともなっての顕著な改善は見られ
ない。
【0007】ベイズ適合方法を変換をベースとする方法
と組み合わせて音声認識成績を改善する試みがなされて
いる。この試みについては、Chien他、”Impr
oved Bayesian Learning of
Hidden Markov Models for
Speaker Adaptation,” ICA
SSP−97、1997、1027〜1039ページに
記されている。しかし、このような試みの成功は、音響
特性空間中の副空間の数をさまざまな量の適合データに
合わせて最適化する、という通常では非現実的な要件に
依存する。
【0008】このため、利用可能な適合データの量に関
わらず実現可能な方法でベイズ適合方法を変換をベース
とする方法と組み合わせて音声認識成績を改善するとい
う需要が存在する。
【0009】
【課題を解決するための手段】本発明によれば、音声認
識システムにおけるHMMは「構造的最大事後(SMA
P)」方法を用いて学習段階中に適合される。本発明の
方法によれば、木構造などの複数のレベルをもつ階層構
造がHMMパラメータ空間中に構築される。このような
構造は、その構造のそれぞれのレベルに関連した変換パ
ラメータを特徴とする。あるレベルに関連する変換パラ
メータは、「階層上の前段階」と称される、その下のレ
ベルに関連する変換パラメータについての従来の知識を
表す。構造の各レベルに関連する変換パラメータは、適
合データおよびその上のレベルからの階層上の前段階に
基づいて推定される。HMMパラメータはその構造の最
下層レベルに関連する変換パラメータに基づいて更新さ
れ、したがって、これらは、少なくとも最下層レベル以
外のレベルに関連する変換パラメータの関数である。
【0010】利用できる適合データの量を所与とする
と、本発明のSMAP方法は、前述の階層上の前段階の
使用を特徴とするベイズ適合方法を前述の階層構造の使
用を特徴とする変換をベースとする方法と効果的に組み
合わせ、協同してHMM適合の効果を発揮するので有利
である。
【0011】
【発明の実施の形態】図1は、本発明の原理を具体化し
た音声認識システム100を示す。図1に示すとおり、
システム100はアナログ・デジタル(A/D)変換器
103、特徴抽出器105、エンドポイント検知器11
3、音声認識装置117、単語モデル・プロセッサ12
5、スイッチ139、および遅延要素141を含む複数
の機能ブロックを含む。システム100の各ブロックの
機能がそれぞれ別のプロセッサによって発揮されること
も、あるいは数個またはすべてのブロックの機能性が同
一のプロセッサによって発揮されることも可能である。
しかも、各段階に複数の処理要素を含めることもでき
る。それらの段階はパイプラインで結ばれ、それらの操
作は同期をとって実施される。
【0012】特に、一連の発声された言葉を含む入力音
声は、マイクロホン(図示せず)を通ってシステム10
0のA/D変換器103へ送られる。変換器103は従
来の方法で入力音声のサンプルをとる。そのデジタル・
サンプルは、次に特徴抽出器105へ送られる。
【0013】そのデジタル・サンプルを受け取ると、特
徴抽出器105は受け取ったサンプルを約20msの長
さの音声フレームに整理し、各フレームについてそのフ
レーム中のエネルギー量と一組の短スペクトル・ベクト
ル、例えば、線形予測コーディング(LPC)パラメー
タを測定する。このとき、LPCパラメータは、音声サ
ンプルのフレームが蓄積される一定の時間にその信号ス
ペクトルにもっともよく適合する全極モデルのスペクト
ルを指定する。LPCパラメータに基づき抽出器105
はフレームごとの特徴ベクトルを作成するが、それは、
例えば、12個のケプストラム特性、12個のデルタ・
ケプストラム特性、および1個の定差エネルギー特性を
備える。周知の方法では、これらのケプストラムおよび
デルタ・ケプストラム特性は、その音声フレームのスペ
クトルおよびその時間変化を特徴付ける。定差エネルギ
ー特性は、その音声フレームにおけるその前のフレーム
からのエネルギーの変化量を示す。
【0014】従来の設計におけるエンドポイント検知器
113は、特徴抽出器105によるエネルギー測定と合
わせて定差エネルギー特性を音声信号の始点と終点を判
断するために使用する。これは次に、25の特性をそれ
ぞれの特徴ベクトルに含んだデータ信号を、エンドポイ
ントの判断とともに従来の設計の音声認識装置117へ
渡す。このようなデータ信号および本発明による単語モ
デル・プロセッサ125から供給された単語モデルに基
づき、認識装置117が発声された言葉が何であるかを
判断する。
【0015】なかでもプロセッサ125は、例えば、こ
の時点での連続密度(CD)HMMなどの隠れマルコフ
・モデル(HMM)をさまざまな発声された言葉につい
て供給する。ビタビ・アルゴリズムに基づき、認識装置
117は未知の発声に対応するそれぞれの音素の連接に
最尤法的に最も適したCDHMMの数列を特定する。こ
のような特定プロセスは、従来の方法での動的計画法に
よって実現される。
【0016】ここで、システム100は二つのモード、
すなわち学習モードおよび通常操作モードで動くことに
留意されたい。現在のモードである通常操作モードで
は、スイッチ139は一連の認識された言葉を認識装置
117からシステム100の出力へとリレーするために
第1ポジションにセットされている。
【0017】システム100の製造中には、プロセッサ
125中のCDHMMのすべてのモデル・パラメータ
は、多数の話者による音声のサンプルに現われた練習デ
ータをつかって従来の方法であらかじめ定義されてい
る。しかし、ユーザがシステム100を音声認識のため
にはじめて使用するとき、システム100は、ユーザの
特殊な音声特徴に合わせて調整するためにCDHMMが
ユーザの入力音声に適合され、こうしてシステム100
の認識の正確性を一層高める学習モードを経験する。
【0018】この時点での無監督学習を実施する際に、
スイッチ139は学習モードの第2ポジションにセット
され、一連の認識された言葉を認識装置117からプロ
セッサ125へ戻す。無監督学習によれば、入力音声は
管理されず、ユーザは監督学習の場合のように一定の言
葉だけを話すように制限されることはない。学習モード
では、遅延要素141が入力音声を表す認識装置117
への入力に対して適当な量の遅延を与え、それが対応す
る認識された言葉と同期するようにする。プロセッサ1
25は認識装置117への入力および対応する認識され
た言葉を、その中でCDHMMを適合させるための「適
合データ」として使用する。
【0019】本発明によれば、音声認識システムにおけ
るHMM、例えば、システム100は、「構造的最大事
後(SMAP)」方法を用いて学習段階中に適合され
る。本発明の方法によれば、木構造などの複数のレベル
をもつ階層構造が、HMMパラメータ空間、別名「音響
特性空間」中に構築される。このような構造は、その構
造のそれぞれのレベルに関連した変換パラメータを特徴
とする。あるレベルに関連する変換パラメータは、その
レベルの下の、またはそのレベルに従属するレベルに関
連する、変換パラメータについての「階層上の前段階」
と称される従来の知識を表す。構造の各レベルに関連す
る変換パラメータは、適合データおよびその上のレベル
からの階層上の前段階の総体に基づいて推定される。そ
の構造の最下層レベルに関連する推定変換パラメータ
は、学習段階におけるHMMパラメータの更新に使用さ
れる。その結果、これら更新されたHMMパラメータ
は、その構造に関連するそれぞれのレベルに応じて加重
構造と連結されたすべての変換パラメータの組み合わせ
の関数である。各レベルの比重は、使用される適合デー
タの量によって変わる。更新されたHMMパラメータは
システム100中のプロセッサ125で使用され、前述
の音声認識用通常操作モードの間、HMM、とくにCD
HMMを供給する。
【0020】本発明によるHMMの適合を十分に受け入
れるために、ここではその適合を単純化する規格化技術
を説明する。G={gm;m=1,...,M}で、G
はプロセッサ125中のCDHMMのすべての混合構成
部分のセットとし、ここで、Mはプロセッサ125内に
あるすべての状態のすべてのCDHMMの混合構成部分
の総数を表し、gmは混合構成部分mについての通常濃
度関数を表す。この通常濃度関数はN(X|μm,Sm
で示され、ここで、μmは期待値ベクトルを表し、Sm
共分散マトリックスを表す。
【0021】X={x1,...,xt...,xT
で、Tの所与の見かけのベクトルのセットを示すものと
し、これが適合データを表す。規格化においては、各サ
ンプル・ベクトルxtは各混合構成部分mについて次の
ようにしてベクトルУmtへ変換される:
【数1】 但し、t=1,...,T、およびm=1,...,M
である。
【0022】前述のとおり、ここでのCDHMMパラメ
ータはすべて、システム100の製造中に多数の話者か
ら採取した音声サンプルから導出される訓練データを使
って、従来の方法であらかじめ定義されている。訓練デ
ータと適合データの間に不整合がない場合は、Ym
{Уm1,...,Уmt...,УmT}についての確立密
度関数(pdf)が標準正規分布N(Y|O,I)で表
される可能性があることは明らかである。ここで、O
は、構成要素の値がゼロであるベクトルを表し、Iは一
致マトリックスを表す。訓練データと適合データとが不
整合の場合の別の方法では、Ymについてのpdfは一
般的にN(Y|υ,η)で表すことができ、このとき、
υ≠Oかつη≠Iである。訓練データによって示される
音響特性と適合データによって示されるものとの差を表
すために、「不整合pdf」は下記のように定義され
る。音の差をモデル化するために必要な不整合pdfの
数はHMMの混合構成部分についてのpdfの数より小
さいことがわかる。
【0023】このため、必要なpdfの数を減らすため
に、混合構成部分のセットGを2個以上のサブセットG
p、1≦p≦Pに分ける。ここで、Pは、混合構成部分
の総数より少ないサブセットの総数、すなわちMであ
る。共通の不整合pdfであるhp=N(Y|υp
ηp)は、各サブセットGp内のすべての混合構成部分に
よって共有される。
【0024】以下の議論では、サブセットGp中の各混
合構成部分gはg1 (p),...,gm (p)...,gMp
(p)としてあらためて番号が付され、このときMpはサブ
セットGp中の混合構成部分の数を表す。見かけのベク
トル数列X={x1,...,xT}は、混合構成部分g
m (p)についてX={Уm1 (p),...,УmT (p)}と一般
化される。
【0025】不整合pdf用のパラメータは、周知の推
定最大(EM)アルゴリズムを用いて推定される。遷移
確率と混合構成部分の重量係数が特定されるとき、HM
Mパラメータについての補助関数Ωは以下のようにして
求められる:
【数2】 但し、Θ={μm (p),Sm (p);m=1,...,Mp
よびp=1,...,P}は現在のHMMパラメータの
セットを表し;Θ^={μm(p),_m (p);m=
1,...,Mpおよびp=1,...,P}は推定さ
れるHMMパラメータのセットを表し;γmt (p)は時間
tの点で混合構成部分gm (p)を使用した事後確率を表
す。HMMパラメータと不整合pdfパラメータとの関
係は、次のように規定される:
【数3】 但し、Jm (p)=(Sm (p)1/2は[1]で表された一般
化のためのヤコビアン・マトリックスを表す。[3]の
式に基づき、この補助関数は次のように修正できる:
【数4】 微分関数[4]によって、不整合pdfパラメータの最
尤(ML)推定値は次のように定義できる。
【数5】 ここで、(Уmt (p)−υ〜p)tは(Уmt (p)−υ〜p)の
移項を表す。これらの不整合pdfパラメータを使用し
て、対応するHMMパラメータは次のように変更でき
る:
【数6】 ここで、μ^m (p)および_m (p)はそれぞれ変更された期
待値と共分散を表す。
【0026】もとになった対応するHMMについての不
整合pdfの最適数は、利用可能な適合データの量によ
って変わる。不整合pdfパラメータを前述の階層構造
の構築用変換パラメータとして利用する手法があり、こ
れは、与えられた適合データの量に関わらずその全体構
造およびサブ構造がともに良好な音声認識成績を達成す
るのに適しているという利点をもっている。このため
に、セットGについての木構造を本発明にしたがって具
体化する。
【0027】図2は、このような木構造の一つを200
として示す。図2に示すとおり、木構造200にはH個
のレベルがあり、ここで、Hはゼロより大きい整数であ
る。構造200の第1のレベルは、CDHMMのM個の
混合構成部分をすべて含むセットGを表す親ノード20
3を含む。構造200の第H番目のレベルは、それぞれ
CDHMMのM個の混合構成部分を表すM個のリーフ・
ノードを含む。第1レベルから第Hレベルまでの間の各
中間ノードもしくは非終点ノードは、その中間ノードに
従属する第Hレベル上のそれらのMpリーフ・ノードま
たは終点ノードで表されるそれぞれMpの混合構成部分
を含むGのサブセット、すなわちGpを表す。リーフ・
ノードがその中間ノードから「発散」される場合に、あ
るいは言葉を変えると、その発生源をたどると介在する
経路を通ってその中間ノードへ戻る場合に、リーフ・ノ
ードが中間ノードに従属する、という。例えば、構造2
00では、中間ノード222に従属するリーフ・ノード
は、それぞれ経路224、226および228を通って
ノード222と接続されているリーフ・ノード231、
233および235である。同様に、中間ノード211
に従属するリーフ・ノードは、リーフ・ノード231、
233、235、237、239、241、243、2
45および247である。もちろん、親ノード203に
は第Hレベル上の各リーフ・ノードが従属している。構
造200を構築する手法は、以下に詳細に記す。
【0028】木構造200中の各ノードNについて、そ
のノードで表されるGp中の混合構成部分によって共有
される不整合pdfが割り当てられる。とくに各ノード
Nについて、その不整合pdfパラメータのML推定値
υ〜pおよびη〜pは、式[5]および[6]に基づく適
合データを用いて決定される。
【0029】G中の各混合構成部分mについてのパラメ
ータのセットΘm=(μm,Sm)を、一般性を損なわず
に推定しよう。便宜上、以下の議論では混合構成部分m
に関連する各変数の添字「m」は、その添字がないと混
乱のおそれがある場合を除いて省略する。木構造200
中で、親ノード203およびリーフ・ノードを含む各レ
ベルから一つづつのノードをつないだ各連結ノードの順
序は、そのリーフ・ノードで表される混合構成部分に対
応する。混合構成部分mに対応する連結ノードの数列を
{N1,...,Nk,...,NH}と表す。ここで、
1は親ノード203を示し;Nkはその数列中の中間ノ
ードの一つを示し;NHは混合構成部分mを表すリーフ
・ノードを示す。
【0030】λk=(υk,ηk)とし、ノードNkに関す
るpdf不整合パラメータのセットを表すものとする。
このパラメータのセットλkは、特徴ベクトルの数列Y
を所与として、以下に説明する事後確率を最大化するこ
とによって決定される。一度λkが決定されるとHMM
パラメータ・セットΘは上記の式[7]および[8]を
用いて容易に求められることに留意されたい。
【0031】本発明のSMAP方法によれば、λHにつ
いての前述の「階層上の前段階」として、{λ0
λ1,...λk...,λH-1}のセットが使用され
る。但し、λ0=(O,I)である。不整合pdfパラ
メータのセットλ0は親ノード203に関わるパラメー
タ・セットλ1にとっての前段階であると仮定され、ノ
ードNkに関わるパラメータ・セットλkはその直接の従
属ノードあるいは子ノードであるNk+1に関わるパラメ
ータ・セットλk+1にとっての前段階として使用され
る。
【0032】λkの事後分布は、次の式で表される:
【数7】 但し、
【数8】 但し、k=H,...,1である。[9]の事後分布の
評価を単純化するために、2つの概数が使用されてい
る。最大事後(MAP)推定によって求められる確率を
用いる第1の概数は、次の式で表される:
【数9】 但し、
【数10】 第2の概数は、次の式で表される:
【数11】 これらの概数を使うことで、各ノードNkについての不
整合pdfパラメータのMAP推定値が次のように決定
できる:
【数12】 ここで、Gkは、ノードNkで表されるGのサブセットで
ある;(υ〜k,η〜k)は(υk,ηk)についてのML
推定値を表す。パラメータΨ>0、およびξ>1は、標
準的なコントロール・パラメータである。親ノードN1
からリーフ・ノードNHまでノードの順序にしたがって
式[18]および[19]を連続してあてはめていく
と、リーフ・ノードNHについての期待値υHおよび分
散ηHが得られる。これらのυHおよびηHは、本発明
のSMAP方法により、式[7]および[8]中で混合
構成部分を変更するためにそれぞれυpおよびηpとして
使用される。
【0033】リーフ・ノードNHについて、式[18]
は次のように書き換えることができることに留意された
い:
【数13】 ここで、
【数14】 式[21]から、SMAP方法による推定期待値υHは
木構造200の異なるレベルにおけるML推定値υ〜k
の加重合計として想像することができる。ノードNk
は利用できる適合データが多ければ多いほどΓkが大き
くなり、またwkも同様であることにも留意されたい。
さらに、ノードNkにおけるυ〜kについての加重w
kは、kの値に対して指数的に減少する。こうして、利
用できる適合データの量が相対的に少ない場合は、木構
造200の上位レベルに対応するML推定値υ〜k
[21]の推定期待値において支配的となる。他方、利
用できる適合データの量が相対的に多い場合は、下位レ
ベルに対応するML推定値υ〜kがその推定期待値にお
いて支配的となる。
【0034】今度は木構造200の構築手法を説明す
る。音響特性空間にはめ込まれた構造についての先見的
な知識が、すべての混合構成部分のセットGについての
木構造200の構築に使用されるべきである。この木構
造の構築は、例えば、T. Watanabe他、”S
peech Recognition Using T
ree−Structured Probabilit
y Density Function,” Pro
c., of ICSLP−94, 1994,pp.
223−226に記載された手法に基づく。
【0035】この木構造の構築においては、混合構成部
分の間の距離の尺度として、混合構成部分のpdf間の
有名なクルバック発散が使用される。これによれば、2
つの混合構成部分、たとえばgmとgnとの間の距離d
(m,n)は、次のように決定される:
【数15】 ここで、σm(i)は、共分散Smの第i番目の対角線要
素を表す。ノードpdfが、木構造200の各ノードに
割り当てられる。混合構成部分gm (k)=N(X|
μm (k),Sm (k))、m=1,...,Mk、が属するノ
ードNkのpdfパラメータは、次のようにして求めら
れる:
【数16】
【0036】図3は、混合構成部分のクラスター化のた
めの従来のk型クラスター化アルゴリズム300を示
す。このアルゴリズムによれば、各ノードからの分岐の
数および木構造200のレベルの数はあらかじめ決まっ
ており、クラスター化は回帰的に実行される。とくに、
ステップ305で示すように、最初に親ノード203が
ノードnになるように設定される。ステップ308で、
ノードnに子ノードがあるかどうかが判断される。ノー
ドnに子ノードがなければ、アルゴリズム300は終了
する。
【0037】他方、ノードnに一つまたは複数の子ノー
ドがある場合、ステップ311に示すように初期pdf
は有名なミニマックス法を用いてその子ノードそれぞれ
に割り当てられる。ステップ315では、式[23]を
用いてその子ノードpdfとその混合構成部分との間の
距離を計算することによって、ノードnで表される混合
構成部分のセットが子ノードの間で分割される。各混合
構成部分は、その混合構成部分にpdfがもっとも近い
子ノードに割り当てられる。次にpdfは、式[24]
および[25]に基づいて、ノードnの各子ノードにつ
いてステップ318で計算される。各子ノードについ
て、子ノードpdfからその子ノードで表される混合構
成部分までの距離の合計が計算される。ノードnのすべ
ての子ノードについての距離の合計を加算して、総合計
を算出する。次に、ステップ321に示すように、その
総合計が収斂するかどうかを判断する。その総合計が収
斂しない場合は、アルゴリズム300はステップ315
に戻る。逆にこれが収斂する場合は、ステップ322に
示すように各子ノードがノードnに設定される。それぞ
れの新しいノードnについて、アルゴリズム300はス
テップ308に戻る。
【0038】上記のことがらは、単に本発明の原則を示
すものである。この分野に精通した人物なら、本文中に
明示的に表示されあるいは記述されてはいないが本発明
の原則を具体化し、したがって本発明の核心と範囲に含
まれる多数のシステムを考案することができることを理
解されたい。
【0039】例えば、ここに開示した実施形態では、音
声認識システム100による学習は監督を受けていな
い。つまり、ユーザが学習用に供給する音声は管理され
ていない。しかし、このような学習は監督を受けて行
い、その中でユーザは一定のあらかじめ選ばれた学習用
の単語だけを話すようにすることも可能であることを理
解されたい。
【図面の簡単な説明】
【図1】本発明による音声認識システムのブロック図で
ある。
【図2】それによって図1のシステム中のHMMがその
学習段階中に適合される階層構造を示す。
【図3】図2の階層構造を構築するためのアルゴリズム
を示すフローチャートである。

Claims (40)

    【特許請求の範囲】
  1. 【請求項1】 音響モデルに基づき音声を認識するため
    の装置であって、 少なくとも音響モデルを修正するための音声のサンプル
    を表すデータに応じたプロセッサと、 複数のレベルを含む構造を定義する機構であって、各レ
    ベルが少なくとも前記データに基づいて決定される一つ
    または複数の確率尺度と関連し、選ばれたレベルに関連
    する前記確率尺度が少なくとも第二のレベルと関連する
    確率尺度の関数であり、前記音響モデルが少なくとも前
    記選ばれたレベルと関連する確率尺度に基づいて修正さ
    れる機構とを備える装置。
  2. 【請求項2】 請求項1に記載の装置において、前記音
    響モデルが隠れマルコフ・モデル(HMM)による装
    置。
  3. 【請求項3】 請求項2に記載の装置において、前記H
    MMが連続密度HMM(CDHMM)を含む装置。
  4. 【請求項4】 請求項1に記載の装置において、前記確
    率尺度が少なくとも第二の音声のサンプルを表す第二の
    データにも基づいて決定される装置。
  5. 【請求項5】 請求項4に記載の装置において、前記確
    率尺度が前記第一の音声のサンプルと前記少なくとも第
    二の音声のサンプルとの差から導出され、前記差が前記
    第一および第二のデータの関数である装置。
  6. 【請求項6】 請求項1に記載の装置において、前記音
    響モデルが前記音声のサンプルの認識されたものにも応
    じて修正される装置。
  7. 【請求項7】 請求項1に記載の装置において、前記構
    造中のレベルが一方向に順番に配置され、各レベルが一
    つまたは複数のノードを含み、レベルがさらにより多数
    のノードを含む方向へ配置され、各レベルの少なくとも
    一つのノードが別のレベルの少なくとも一つのノードに
    連結され、各レベルに関連する前記確率尺度がそのうえ
    のノードの一つにそれぞれ割り当てられる装置。
  8. 【請求項8】 請求項7に記載の装置において、前記音
    響モデルが複数のパラメータを特徴とし、各ノードが一
    つまたは複数の前記パラメータを含むセットを表す装
    置。
  9. 【請求項9】 請求項8に記載の装置において、前記選
    ばれたレベルがさらにすべてのレベルの方向に配置さ
    れ、前記選ばれたレベル上の各ノードが前記複数のパラ
    メータのうちの別の一つを含むセットを表す装置。
  10. 【請求項10】 請求項9に記載の装置において、前記
    選ばれたレベル上の各ノードに割り当てられた前記確率
    尺度が前記ノードで表される前記セット中の前記パラメ
    ータの修正に使用される装置。
  11. 【請求項11】 請求項9に記載の装置において、前記
    選ばれたレベル以外のレベル上の各ノードで表されるセ
    ットが前記ノードに連結された前記選ばれたレベル上の
    前記ノードで表されるセットを含む装置。
  12. 【請求項12】 複数のパラメータを特徴とし、音響モ
    デルに基づいて音声を認識するシステムであって、 音声のサンプルを表すデータを供給する機器と、 複数のレベルを含む構造を定義するプロセッサであっ
    て、各レベルが一つまたは複数のノードを含み、各ノー
    ドがそれぞれの少なくとも前記データから導出される確
    率尺度に関連するプロセッサと、 異なるレベルからのノードの少なくとも一つの数列を識
    別するための機構であって、前記数列中の選ばれたノー
    ドに関連する前記確率尺度が少なくとも前記数列中の第
    二のノードに関連する第二の確率尺度の関数である機構
    と、 少なくとも前記選ばれたノードに関連する確率尺度に基
    づく前記パラメータのうち少なくとも一つを修正するた
    めのアダプタとを備えるシステム。
  13. 【請求項13】 請求項12に記載のシステムにおい
    て、前記構造中のレベルが一方向に順番に配置され、レ
    ベルがさらにより多数のノードを含む方向へ配置され、
    前記選ばれたノードがさらにすべてのレベルの方向に配
    置されたレベルから発しているシステム。
  14. 【請求項14】 請求項12に記載のシステムにおい
    て、前記選ばれたノードに関連する前記確率尺度が前記
    第二の確率尺度を計るためのウエイトの関数でもあり、
    前記構造中の他のレベルの位置に応じて前記ウエイトが
    前記第二のノードが発している前記レベルの位置によっ
    て変化するシステム。
  15. 【請求項15】 請求項14に記載のシステムにおい
    て、前記ウエイトがデータの量にも応じて変化するシス
    テム。
  16. 【請求項16】 請求項12に記載のシステムにおい
    て、前記音響モデルがHMMによるシステム。
  17. 【請求項17】 請求項12に記載のシステムにおい
    て、前記HMMがCDHMMを含むシステム。
  18. 【請求項18】 請求項12に記載のシステムにおい
    て、それぞれの確率尺度が少なくとも第二の音声のサン
    プルを表す第二のデータからも導出されるシステム。
  19. 【請求項19】 請求項18に記載のシステムにおい
    て、それぞれの確率尺度が第一の音声のサンプルと少な
    くとも第二の音声のサンプルとの差に基づいて決定さ
    れ、前記差が前記第一および第二のデータの関数である
    システム。
  20. 【請求項20】 請求項12に記載のシステムにおい
    て、前記音響モデルが前記音声のサンプルの認識された
    ものにも応じて修正されるシステム。
  21. 【請求項21】 音声モデルに基づく音声認識のための
    装置中で使用する方法であって、 少なくとも前記音声のサンプルを表すデータに対応して
    前記音響モデルを修正し、 複数のレベルを含む構造を定義し、各レベルが少なくと
    も前記データに基づいて決定される一つまたは複数の確
    率尺度と関連し、選ばれたレベルに関連する前記確率尺
    度が少なくとも第二のレベルと関連する確率尺度の関数
    であり、前記音響モデルが少なくとも前記選ばれたレベ
    ルと関連する確率尺度に基づいて修正される方法。
  22. 【請求項22】 請求項21に記載の方法において、前
    記音響モデルがHMMによる方法。
  23. 【請求項23】 請求項22に記載の方法において、前
    記HMMが連続密度CDHMMを含む方法。
  24. 【請求項24】 請求項21に記載の方法において、前
    記確率尺度が少なくとも第二の音声のサンプルを表す第
    二のデータにも基づいて決定される方法。
  25. 【請求項25】 請求項24に記載の方法において、前
    記確率尺度が前記第一の音声のサンプルと前記少なくと
    も第二の音声のサンプルとの差から導出され、前記差が
    前記第一および第二のデータの関数である方法。
  26. 【請求項26】 請求項21に記載の方法において、前
    記音響モデルが前記音声のサンプルの認識されたものに
    も応じて修正される方法。
  27. 【請求項27】 請求項21に記載の方法において、前
    記構造中のレベルが一方向に順番に配置され、各レベル
    が一つまたは複数のノードを含み、レベルがさらにより
    多数のノードを含む方向へ配置され、各レベルの少なく
    とも一つのノードが別のレベルの少なくとも一つのノー
    ドに連結され、各レベルに関連する前記確率尺度がその
    うえのノードの一つにそれぞれ割り当てられる方法。
  28. 【請求項28】 請求項27に記載の方法において、前
    記音響モデルが複数のパラメータを特徴とし、各ノード
    が一つまたは複数の前記パラメータを含むセットを表す
    方法。
  29. 【請求項29】 請求項28に記載の方法において、前
    記選ばれたレベルがさらにすべてのレベルの方向に配置
    され、前記選ばれたレベル上の各ノードが前記複数のパ
    ラメータのうちの別の一つを含むセットを表す方法。
  30. 【請求項30】 請求項29に記載の方法において、前
    記選ばれたレベル上の各ノードに割り当てられた前記確
    率尺度が前記ノードで表される前記セット中の前記パラ
    メータの修正に使用される方法。
  31. 【請求項31】 請求項29に記載の方法において、前
    記選ばれたレベル以外のレベル上の各ノードで表される
    セットが前記ノードに連結された前記選ばれたレベル上
    の前記ノードで表されるセットを含む方法。
  32. 【請求項32】 複数のパラメータを特徴とし、音響モ
    デルに基づいて音声を認識するシステム中で使用する方
    法であって、 音声のサンプルを表すデータを供給し、 複数のレベルを含む構造を定義し、各レベルが一つまた
    は複数のノードを含み、各ノードがそれぞれの少なくと
    も前記データから導出される確率尺度に関連し、 異なるレベルからのノードの少なくとも一つの数列を識
    別し、前記数列中の選ばれたノードに関連する前記確率
    尺度が少なくとも前記数列中の第二のノードに関連する
    第二の確率尺度の関数であり、 少なくとも前記選ばれたノードに関連する確率尺度に基
    づく前記パラメータのうち少なくとも一つを修正する方
    法。
  33. 【請求項33】 請求項32に記載の方法において、前
    記構造中のレベルが一方向に順番に配置され、レベルが
    さらにより多数のノードを含む方向へ配置され、前記選
    ばれたノードがさらにすべてのレベルの方向に配置され
    たレベルから発している方法。
  34. 【請求項34】 請求項32に記載の方法において、前
    記選ばれたノードに関連する前記確率尺度が前記第二の
    確率尺度を計るためのウエイトの関数でもあり、前記構
    造中の他のレベルの位置に応じて前記ウエイトが前記第
    二のノードが発している前記レベルの位置によって変化
    する方法。
  35. 【請求項35】 請求項34に記載の方法において、前
    記ウエイトがデータの量にも応じて変化する方法。
  36. 【請求項36】 請求項32に記載の方法において、前
    記音響モデルがHMMによる方法。
  37. 【請求項37】 請求項32に記載の方法において、前
    記HMMがCDHMMを含む方法。
  38. 【請求項38】 請求項32に記載の方法において、そ
    れぞれの確率尺度が少なくとも第二の音声のサンプルを
    表す第二のデータからも導出される方法。
  39. 【請求項39】 請求項38に記載の方法において、そ
    れぞれの確率尺度が第一の音声のサンプルと少なくとも
    第二の音声のサンプルとの差に基づいて決定され、前記
    差が前記第一および第二のデータの関数である方法。
  40. 【請求項40】 請求項32に記載の方法において、前
    記音響モデルが前記音声のサンプルの認識されたものに
    も応じて修正される方法。
JP34499898A 1997-12-05 1998-12-04 音声認識のための隠れマルコフ・モデルの適応技術 Expired - Fee Related JP3742236B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US6782297P 1997-12-05 1997-12-05
US60/067822 1998-09-08
US09/149,782 US6151574A (en) 1997-12-05 1998-09-08 Technique for adaptation of hidden markov models for speech recognition
US09/149782 1998-09-08

Publications (2)

Publication Number Publication Date
JPH11242495A true JPH11242495A (ja) 1999-09-07
JP3742236B2 JP3742236B2 (ja) 2006-02-01

Family

ID=26748302

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34499898A Expired - Fee Related JP3742236B2 (ja) 1997-12-05 1998-12-04 音声認識のための隠れマルコフ・モデルの適応技術

Country Status (4)

Country Link
US (1) US6151574A (ja)
EP (1) EP0921519B1 (ja)
JP (1) JP3742236B2 (ja)
DE (1) DE69827586T2 (ja)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69914368T2 (de) * 1998-11-25 2005-03-10 Microsoft Corp., Redmond Netzwerk- und sprachmodelle zur verwendung in einem spracherkennungssystem
US6678658B1 (en) * 1999-07-09 2004-01-13 The Regents Of The University Of California Speech processing using conditional observable maximum likelihood continuity mapping
KR100307623B1 (ko) * 1999-10-21 2001-11-02 윤종용 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
US6539351B1 (en) * 2000-02-04 2003-03-25 International Business Machines Corporation High dimensional acoustic modeling via mixtures of compound gaussians with linear transforms
US6470314B1 (en) * 2000-04-06 2002-10-22 International Business Machines Corporation Method and apparatus for rapid adapt via cumulative distribution function matching for continuous speech
US6751590B1 (en) * 2000-06-13 2004-06-15 International Business Machines Corporation Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition
US7216077B1 (en) * 2000-09-26 2007-05-08 International Business Machines Corporation Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation
WO2002037235A2 (en) * 2000-10-20 2002-05-10 Denise Parker Integrated life planning method and systems and products for implementation
US6845357B2 (en) * 2001-07-24 2005-01-18 Honeywell International Inc. Pattern recognition using an observable operator model
US6788243B2 (en) 2001-09-06 2004-09-07 Minister Of National Defence Of Her Majestry's Canadian Government The Secretary Of State For Defence Hidden Markov modeling for radar electronic warfare
US7203635B2 (en) * 2002-06-27 2007-04-10 Microsoft Corporation Layered models for context awareness
US20050021337A1 (en) * 2003-07-23 2005-01-27 Tae-Hee Kwon HMM modification method
US7580570B2 (en) * 2003-12-09 2009-08-25 Microsoft Corporation Accuracy model for recognition signal processing engines
US7467086B2 (en) * 2004-12-16 2008-12-16 Sony Corporation Methodology for generating enhanced demiphone acoustic models for speech recognition
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US20070088552A1 (en) * 2005-10-17 2007-04-19 Nokia Corporation Method and a device for speech recognition
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
CN101390156B (zh) * 2006-02-27 2011-12-07 日本电气株式会社 标准模式适应装置、标准模式适应方法
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
US20080243503A1 (en) * 2007-03-30 2008-10-02 Microsoft Corporation Minimum divergence based discriminative training for pattern recognition
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8335381B2 (en) * 2008-09-18 2012-12-18 Xerox Corporation Handwritten word spotter using synthesized typed queries
US8442833B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
TWI396184B (zh) * 2009-09-17 2013-05-11 Tze Fen Li 一種語音辨認所有語言及用語音輸入單字的方法
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
KR20120045582A (ko) * 2010-10-29 2012-05-09 한국전자통신연구원 음향 모델 생성 장치 및 방법
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
US8478711B2 (en) 2011-02-18 2013-07-02 Larus Technologies Corporation System and method for data fusion with adaptive learning
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US10140981B1 (en) * 2014-06-10 2018-11-27 Amazon Technologies, Inc. Dynamic arc weights in speech recognition models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) * 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10152968B1 (en) * 2015-06-26 2018-12-11 Iconics, Inc. Systems and methods for speech-based monitoring and/or control of automation devices
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN108647788B (zh) * 2018-05-14 2021-03-19 暨南大学 一种联想式知识库的自动改进方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JP2522154B2 (ja) * 1993-06-03 1996-08-07 日本電気株式会社 音声認識システム
US5794197A (en) * 1994-01-21 1998-08-11 Micrsoft Corporation Senone tree representation and evaluation
EP0788648B1 (en) * 1995-08-28 2000-08-16 Koninklijke Philips Electronics N.V. Method and system for pattern recognition based on dynamically constructing a subset of reference vectors
DE69613338T2 (de) * 1995-08-28 2002-05-29 Koninklijke Philips Electronics N.V., Eindhoven Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten
JP3092491B2 (ja) * 1995-08-30 2000-09-25 日本電気株式会社 記述長最小基準を用いたパターン適応化方式
US5657424A (en) * 1995-10-31 1997-08-12 Dictaphone Corporation Isolated word recognition using decision tree classifiers and time-indexed feature vectors
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
GB9602691D0 (en) * 1996-02-09 1996-04-10 Canon Kk Word model generation
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US5737487A (en) * 1996-02-13 1998-04-07 Apple Computer, Inc. Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US5983180A (en) * 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure

Also Published As

Publication number Publication date
EP0921519A2 (en) 1999-06-09
EP0921519B1 (en) 2004-11-17
JP3742236B2 (ja) 2006-02-01
US6151574A (en) 2000-11-21
DE69827586T2 (de) 2005-12-01
DE69827586D1 (de) 2004-12-23
EP0921519A3 (en) 2000-04-12

Similar Documents

Publication Publication Date Title
JP3742236B2 (ja) 音声認識のための隠れマルコフ・モデルの適応技術
Gales Model-based techniques for noise robust speech recognition
Siohan et al. Structural maximum a posteriori linear regression for fast HMM adaptation
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
US6219642B1 (en) Quantization using frequency and mean compensated frequency input data for robust speech recognition
JP3672595B2 (ja) 結合されたストリングモデルの最小誤認率訓練
Huo et al. A Bayesian predictive classification approach to robust speech recognition
US7590537B2 (en) Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition
JP5398909B2 (ja) テキスト音声合成方法及びシステム
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
Hain et al. The cu-htk march 2000 hub5e transcription system
JP4818556B2 (ja) 確率論的ロバスト音声処理
Chen et al. Automatic transcription of broadcast news
Akamine et al. Decision tree-based acoustic models for speech recognition
Yamagishi et al. HSMM-based model adaptation algorithms for average-voice-based speech synthesis
JPH08211889A (ja) 木構造を用いたパターン適応化方式
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
Rabiner et al. Hidden Markov models for speech recognition—strengths and limitations
Zeng et al. Type-2 fuzzy hidden Markov models to phoneme recognition
Hochberg et al. Connectionist model combination for large vocabulary speech recognition
JP3027544B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JPH0895592A (ja) パターン認識方法
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
Li Speech recognition of mandarin monosyllables

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040329

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040629

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040702

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051110

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees