JP3033514B2 - 大語彙音声認識方法及び装置 - Google Patents

大語彙音声認識方法及び装置

Info

Publication number
JP3033514B2
JP3033514B2 JP9080547A JP8054797A JP3033514B2 JP 3033514 B2 JP3033514 B2 JP 3033514B2 JP 9080547 A JP9080547 A JP 9080547A JP 8054797 A JP8054797 A JP 8054797A JP 3033514 B2 JP3033514 B2 JP 3033514B2
Authority
JP
Japan
Prior art keywords
probability
word
output
recognition
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP9080547A
Other languages
English (en)
Other versions
JPH10274995A (ja
Inventor
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9080547A priority Critical patent/JP3033514B2/ja
Priority to EP98105750A priority patent/EP0869478A3/en
Priority to US09/050,948 priority patent/US6092042A/en
Publication of JPH10274995A publication Critical patent/JPH10274995A/ja
Application granted granted Critical
Publication of JP3033514B2 publication Critical patent/JP3033514B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、未知入力音声を認
識する音声認識方法及び装置に関し、特に、多数の単語
を認識できる大語彙音声認識方法及び装置に関する。
【0002】
【従来の技術】大語彙音声認識方法として、「三つ組音
素(triphone)HMM(隠れマルコフモデル:Hidden Mar
kov Model)」を用いる方法が広く用いられている。こ
の方法は、隠れマルコフモデル(以下、HMMとする)
による方法であって、認識単位として、音素単位をその
音素の単語(あるいは文)中における前後に隣接する音
素毎に別々に用意した「三つ組音素単位」を用いるもの
である。この「三つ組音素HMM」に関しては文献「音
声認識の基礎(上・下)、NTTアドバンステクノロジ
株式会社、ISBN-4-900886-01-7」または文献「Fundamen
tals of Speech Recognition, Prentice Hall, ISBN-0-
13-015157-2」に詳しく解説されている。
【0003】
【発明が解決しようとする課題】しかしながら、三つ組
音素HMMによる音声認識では、HMMの種類数が音素
の種類数の3乗ほども存在し、限られた少ない学習用音
声データからすべての三つ組音素HMMを正確に推定す
ることは困難であるという問題点がある。そこで、上述
した文献などに詳しく述べられているように、三つ組音
素HMMの種類数を削減するために、トップダウンやボ
トムアップのクラスタリングなどが用いられている。こ
のようにしてHMMの種類数を削減した場合には、HM
Mとしての最適性も保証されず、また不確実な音素に関
する知識を援用するなどの問題点が生じる。
【0004】本発明の目的は、三つ組音素などの認識単
位の設定を行うことなしに、音素の環境依存性も考慮し
て高精度に不定話者の音声認識を行うことができる大語
彙音声認識方法及び装置を提供することにある。
【0005】
【課題を解決するための手段】本発明の大語彙音声認識
方法は、特徴ベクトル時系列で表された未知入力音声を
認識する音声認識方法において、複数の認識対象単語の
音素記号列を記憶するとともに、N個の順序付けられた
状態の間のN×N個の相互の状態遷移に付随する遷移確
率と、各状態遷移に付随する音素記号の出力確率と特徴
ベクトルの出力確率を記憶し、エルゴディック隠れマル
コフモデルにより、未知入力音声の特徴ベクトル時系列
と認識対象単語仮説の音素記号列の組に対する確率を算
出し、すべての認識対象単語中で最大確率の単語を認識
結果として出力する。
【0006】本発明の大語彙認識装置は、特徴ベクトル
時系列で表された未知入力音声を認識する音声認識装置
において、複数の認識対象単語の音素記号列を記憶する
単語辞書部と、N個の順序付けられた状態の間のN×N
個の相互の状態遷移に付随する遷移確率を格納する遷移
確率記憶部と、各状態遷移に付随する音素記号の出力確
率と特徴ベクトルの出力確率を記憶する出力確率記憶部
と、未知入力音声の特徴ベクトル時系列と認識対象単語
仮説の音素記号列の組に対する確率を算出する単語照合
部と、すべての認識対象単語中で最大確率の単語を認識
結果として出力する認識結果出力部と、を有する。
【0007】本発明においては、各状態遷移に付随する
話者クラスタ番号をも記憶させ、確率として、未知入力
音声の特徴ベクトル時系列と認識対象単語仮設の音素記
号列と話者クラスタ番号仮設との組に対する確率を算出
し、すべての認識対象単語および話者クラスタ番号の中
で最大確率を与える単語を出力するようにしてもよい。
【0008】本発明による音声認識方法及び装置が従来
法と比べたときに大きく異なる点は、従来法ではHMM
において出力されるものが特徴ベクトルのみであったの
に対して、本発明では、特徴ベクトルに加えて、音素記
号もHMMによって出力される点である。さらに、請求
項2あるいは4の場合には、話者クラスタ番号もHMM
によって出力される。また従来法では、認識対象単語ご
とにそれぞれ三つ組音素HMMを連結した単語HMMを
別々に構築して標準パターンとしていたが、本発明では
ただ一つのエルゴディックHMMを標準パターンとして
すべての認識対象単語で共用している。これにより、モ
デルパラメータの最適かつ自然な共有化が行われる。
【0009】
【発明の実施の形態】次に、本発明の実施の形態につい
て、図面を参照して説明する。図1は本発明の実施の一
形態の音声認識装置の構成を示すブロック図である。
【0010】この音声認識装置は、特徴ベクトルの時系
列で表された未知入力音声を認識するものであって、複
数の認識対象単語の音素記号列を記憶する単語辞書部1
0と、N個の順序付けられた状態の間のN×N個の相互
の状態遷移に付随する遷移確率を格納する遷移確率記憶
部20と、各状態遷移に付随する音素記号の出力確率と
特徴ベクトルの出力確率を記憶する出力確率記憶部30
と、未知入力音声の特徴ベクトル時系列と認識対象単語
仮説の音素記号列の組に対する確率を算出する単語照合
部40と、すべての認識対象単語中で最大確率の単語を
認識結果として出力する認識結果出力部50とを備えて
いる。
【0011】入力音声は特徴ベクトルxtの時系列 X=x12…xt…xT で表される。ここで特徴ベクトルxtはたとえば10次
元のケプストラム・ベクトルで、添字tは時間順序をあ
らわす番号(自然数)である。
【0012】単語辞書部10には、認識対象単語それぞ
れの音素記号列が記憶されている。ここで音素記号は、
音節など、認識対象単語を一意に定義できる単語より小
さい記号単位であれば十分である。
【0013】第m番目の認識対象単語をwmで表わし、
その音素記号列を
【0014】
【数1】 で表わす。ここでKmは音素記号列の長さである。音素
記号の種類数をNP個とし、すべての音素記号を並べて
順番に番号付けを行う。
【0015】
【表1】 すると認識対象単語が「あかい(音素記号では“aka
i”)」の場合は、P1=1,P2=6,P3=1,P4=2,
m=4となる。また認識対象単語の総数をNW個とす
る。なおこの実施の形態では、例として音素記号を用い
て単語を表しているが、音節など別の記号体系を用いて
も同様に適用することができる。
【0016】本実施の形態では、HMMとして、エルゴ
ード的なマルコフ連鎖を用いたエルゴディックHMMに
より、音声認識を行う。エルゴディックHMMの詳細
は、先に述べた文献中に記載されている。図2は、エル
ゴディックHMMを説明するための図であって、状態1
と状態2の2個の状態とそのすべての状態間の遷移を示
している。図2において、例えばa12は、状態1から状
態2への状態遷移に付随した遷移確率である。以下にお
いてはより一般的なNS個の状態とその相互間の状態遷
移から構成されるエルゴディックHMMを用いた場合を
説明する。
【0017】遷移確率記憶部20には、エルゴディック
HMMの状態遷移に付随する確率が記憶されている。第
i番目の状態から第j番目の状態への状態遷移に付随す
る遷移確率をaijで表す。遷移確率aijの値は、確率と
して、下式に示すように、それぞれ値が0以上であり、
かつ総和が1であるという条件を満たしている。
【0018】
【数2】 また各状態の初期確率も遷移確率記憶部20に記憶して
おく。第i番目の状態の初期確率をπiで表す。初期確
率πiについても以下の条件が成立する。
【0019】
【数3】 出力確率記憶部30には、状態遷移に付随する音素記号
出力確率および特徴ベクトル出力確率が記憶されてい
る。第i番目の状態から第j番目の状態への状態遷移に
付随する音素記号出力確率をfij(p)で表す。ここでp
は第p番目の音素記号を表わし、音素記号の種類数がN
P個であるので、
【0020】
【数4】 である。例えば、fij(1)は、i番目の状態から第j番
目の状態への状態遷移に付随して音素記号aが出力され
る確率を表わしている。
【0021】第i番目の状態から第j番目の状態への状
態遷移に付随する特徴ベクトル出力確率をgij(x)とす
る。この特徴ベクトル出力確率gij(x)は、例えば、下
式のような特徴ベクトル出力確率は多次元ガウス分布で
表わすこととする。
【0022】
【数5】 ここで、Dは特徴ベクトルの次元数、μijは平均ベクト
ル、Σijは共分散行列である。
【0023】単語照合部40では、NW個の認識対象単
語のそれぞれに対する確率(すなわち、その認識対象単
語仮説の尤度)が算出される。以下において第m番目の
認識対象単語wmに対する確率P(wm,X)の対数値を算
出する手順を説明する。なお、上述したように、
【0024】
【数6】 である。
【0025】対数確率の部分和を次式で定義する。
【0026】
【数7】 この初期化と漸化式によって、第t番目の時刻と、第i
番目の状態と、第k番目の音素記号の3つの添字で指定
される3次元の配列である対数確率の部分和φt(i,k)
をすべての時刻
【0027】
【数8】 と、すべての状態
【0028】
【数9】 と、認識対象単語中のすべての音素記号
【0029】
【数10】 に対して算出する。
【0030】結果として得られた対数確率の部分和φ
t(i,km)から、次式によって、第m番目の認識対象単
語wmに対する確率P(wm,X)の対数値が得られる。
【0031】
【数11】 単語照合部40は、すべての認識対象単語に対して上記
の対数確率を算出する。この処理の具体的手順の一例を
図3及び図4のフローチャートに示す。ステップ101
〜108において対数確率の部分和の初期化を行い、ス
テップ109〜133において漸化式計算を行って確率
の対数値Lを算出し、ステップ134において対数値L
を出力している。初期化の過程では、ステップ102に
おいて第i番目の初期確率πiをt=0,k=1に対応す
るφ(0,i,1)に代入し、kが2以上であるときのφ
(0,i,k)にはステップ104において−∞を代入して
いる。ここでは、対数確率を扱っているので、−∞は真
数での0に対応する。同様に、ステップ113において
も真数0に対応する対数として、Φ(t,i,k)に−∞を
代入している。
【0032】このようにして、全ての認識対象単語に対
する対数確率が求められたら、認識結果出力部50は、
これらの対数確率の中で最大値を与える単語
【0033】
【外1】 を認識結果として出力する。すなわち、
【0034】
【数12】 である。
【0035】以上、本発明の実施の形態について説明し
たが、本発明は上述したものに限定されるものではな
い。上述した実施の形態では、状態遷移に対して特徴ベ
クトルの出力確率と音素記号の出力確率を付随させてH
MMの出力を行ったが、さらに、状態遷移に対して話者
クラスタ番号の出力確率を付随させてもよい。
【0036】話者クラスタ番号の出力確率を付随させる
場合、話者クラスタ番号の出力確率をhij(q)で表わ
す。qはq番目の話者クラスタをあらわし、話者クラス
タの総数がNQ個であるとすると、
【0037】
【数13】 である。話者クラスタ番号は出力確率記憶部30内に格
納しておく。対数確率の部分和を4次元の配列として、
前述の初期化・漸化式を次のように拡張する。
【0038】
【数14】 結果として得られた対数確率の部分和から、次式によっ
て、認識対象単語wmに対する確率の対数値が得られ
る。これらの演算は単語照合部40で行われる。
【0039】
【数15】 そして、認識結果出力部50は、すべての認識対象単語
及び話者クラスタ番号の中で最大確率の単語を認識結果
として出力する。
【0040】このように話者クラスタ番号をエルゴディ
ックHMMの出力に加えることにより、不定話者の音声
認識においても、話者性を自動的に最適決定しながら、
音声認識を行うことが可能になる。
【0041】
【発明の効果】以上説明したように本発明は、音素記号
列と特徴ベクトル列を出力するただ一つのエルゴディッ
クHMMを用いることにより、「三つ組音素」などの認
識単位の設定を行う必要なしに、音素の環境依存性をも
考慮した高精度な大語彙音声認識装置を実現することが
できるという効果がある。また、また話者クラスタ番号
もエルゴディックHMMの出力に加えることにより、不
特定話者の音声認識においても話者性を自動的に最適決
定しながら認識する装置を実現することができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態の大語彙音声認識装置の
構成を示すブロック図である。
【図2】本発明で用いるエルゴディックHMMの例を示
す図である。
【図3】単語照合部において対数確率の部分和を求める
処理を示すフローチャートである。
【図4】単語照合部において対数確率の部分和を求める
処理を示すフローチャートである。
【符号の説明】
10 単語辞書 20 遷移確率記憶部 30 出力確率記憶部 40 単語照合部 50 認識結果出力部 101〜134 ステップ
フロントページの続き (56)参考文献 特開 平8−123463(JP,A) 米国特許5778341(US,A) 欧州特許出願公開869478(EP,A 2) 欧州特許出願公開786761(EP,A 2) 電子情報通信学会論文誌 Vol.J 77−A No.2,Feburary 1994,「全音素エルゴディックHMMを 用いた教師なし話者適応」,p.112− 119,(平成6年2月25日発行) 電子情報通信学会技術研究報告[音声 ] Vol.92,No.274,SP92− 75,「全音素エルゴディックHMMによ る教師なし話者適応」,p.15−20, (1992年10月21日発行) 電子情報通信学会技術研究報告[音声 ] Vol.92,No.410,SP92− 129,「エルゴディックHMMを用いた 音声による多言語の識別」,p.49− 56,(1993年1月19日発行) 電子情報通信学会論文誌 Vol.J 77−A No.2,Feburary, 「エルゴディックHMMとその状態シー ケンスを用いた音声による言語の識 別」,p.182−189,(平成6年2月25 日発行) L.R.Rabiner,B−H.J uang著,古井監訳「音声認識の基 礎」(下)(1995年11月発行)NTTア ドバンスドテクノロジ,p.135−138 (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 G10L 15/18 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 特徴ベクトル時系列で表された未知入力
    音声を認識する音声認識方法において、 複数の認識対象単語の音素記号列を記憶するとともに、
    N個の順序付けられた状態の間のN×N個の相互の状態
    遷移に付随する遷移確率と、各状態遷移に付随する音素
    記号の出力確率と特徴ベクトルの出力確率と記憶し、 エルゴディック隠れマルコフモデルにより、未知入力音
    声の特徴ベクトル時系列と認識対象単語仮説の音素記号
    列の組に対する確率を算出し、 すべての認識対象単語中で最大確率の単語を認識結果と
    して出力することを特徴とする大語彙音声認識方法。
  2. 【請求項2】 特徴ベクトル時系列で表された未知入力
    音声を認識する音声認識方法において、 複数の認識対象単語の音素記号列を記憶するとともに、
    N個の順序付けられた状態の間のN×N個の相互の状態
    遷移に付随する遷移確率と、各状態遷移に付随する音素
    記号の出力確率と特徴ベクトルの出力確率と話者クラス
    タ番号を記憶し、 エルゴディック隠れマルコフモデルにより、未知入力音
    声の特徴ベクトル時系列と認識対象単語仮設の音素記号
    列と話者クラスタ番号仮設との組に対する確率を算出
    し、 すべての認識対象単語および話者クラスタ番号の中で最
    大確率を与える単語を出力することを特徴とする大語彙
    音声認識方法。
  3. 【請求項3】 特徴ベクトル時系列で表された未知入力
    音声を認識する音声認識装置において、 複数の認識対象単語の音素記号列を記憶する単語辞書部
    と、 N個の順序付けられた状態の間のN×N個の相互の状態
    遷移に付随する遷移確率を格納する遷移確率記憶部と、 各状態遷移に付随する音素記号の出力確率と特徴ベクト
    ルの出力確率を記憶する出力確率記憶部と、 未知入力音声の特徴ベクトル時系列と認識対象単語仮説
    の音素記号列の組に対する確率を算出する単語照合部
    と、 すべての認識対象単語中で最大確率の単語を認識結果と
    して出力する認識結果出力部と、を有することを特徴と
    する大語彙音声認識装置。
  4. 【請求項4】 特徴ベクトル時系列で表された未知入力
    音声を認識する音声認識装置において、 複数の認識対象単語の音素記号列を記憶する単語辞書部
    と、 N個の順序付けられた状態の間のN×N個の相互の状態
    遷移に付随する遷移確率を格納する遷移確率記憶部と、 各状態遷移に付随する音素記号の出力確率と特徴ベクト
    ルの出力確率と話者クラスタ番号を記憶する出力確率記
    憶部と、 未知入力音声の特徴ベクトル時系列と認識対象単語仮説
    の音素記号列と話者クラスタ番号仮説との組に対する確
    率を算出する単語照合部と、 すべての認識対象単語及び話者クラスタ番号の中で最大
    確率の単語を認識結果として出力する認識結果出力部
    と、を有することを特徴とする大語彙音声認識装置。
JP9080547A 1997-03-31 1997-03-31 大語彙音声認識方法及び装置 Expired - Lifetime JP3033514B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP9080547A JP3033514B2 (ja) 1997-03-31 1997-03-31 大語彙音声認識方法及び装置
EP98105750A EP0869478A3 (en) 1997-03-31 1998-03-30 Speech recognition method and apparatus
US09/050,948 US6092042A (en) 1997-03-31 1998-03-31 Speech recognition method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9080547A JP3033514B2 (ja) 1997-03-31 1997-03-31 大語彙音声認識方法及び装置

Publications (2)

Publication Number Publication Date
JPH10274995A JPH10274995A (ja) 1998-10-13
JP3033514B2 true JP3033514B2 (ja) 2000-04-17

Family

ID=13721381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9080547A Expired - Lifetime JP3033514B2 (ja) 1997-03-31 1997-03-31 大語彙音声認識方法及び装置

Country Status (3)

Country Link
US (1) US6092042A (ja)
EP (1) EP0869478A3 (ja)
JP (1) JP3033514B2 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE331417T1 (de) 2000-04-04 2006-07-15 Gn Resound As Eine hörprothese mit automatischer hörumgebungsklassifizierung
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
TW472232B (en) * 2000-08-11 2002-01-11 Ind Tech Res Inst Probability-base fault-tolerance natural language understanding method
US7644057B2 (en) 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US7418386B2 (en) 2001-04-03 2008-08-26 Intel Corporation Method, apparatus and system for building a compact language model for large vocabulary continuous speech recognition (LVCSR) system
WO2002091358A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method and apparatus for rejection of speech recognition results in accordance with confidence level
US6862359B2 (en) 2001-12-18 2005-03-01 Gn Resound A/S Hearing prosthesis with automatic classification of the listening environment
US7062436B1 (en) * 2003-02-11 2006-06-13 Microsoft Corporation Word-specific acoustic models in a speech recognition system
US7529671B2 (en) * 2003-03-04 2009-05-05 Microsoft Corporation Block synchronous decoding
US7076422B2 (en) * 2003-03-13 2006-07-11 Microsoft Corporation Modelling and processing filled pauses and noises in speech recognition
US7024360B2 (en) * 2003-03-17 2006-04-04 Rensselaer Polytechnic Institute System for reconstruction of symbols in a sequence
US8495002B2 (en) 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
US20050187913A1 (en) 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
US7693715B2 (en) * 2004-03-10 2010-04-06 Microsoft Corporation Generating large units of graphonemes with mutual information criterion for letter to sound conversion
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
WO2008024800A2 (en) * 2006-08-21 2008-02-28 Western Slope Utilities, Inc. Systems and methods for swab transport in pipeline rehabilitation
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
CN105336335B (zh) * 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
CN104635146B (zh) * 2015-02-06 2017-04-19 南京农业大学 基于随机正弦信号测试和hmm的模拟电路故障诊断方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5778341A (en) 1996-01-26 1998-07-07 Lucent Technologies Inc. Method of speech recognition using decoded state sequences having constrained state likelihoods

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69022237T2 (de) * 1990-10-16 1996-05-02 Ibm Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
JPH071435B2 (ja) * 1993-03-16 1995-01-11 株式会社エイ・ティ・アール自動翻訳電話研究所 音響モデル適応方式
US5598507A (en) * 1994-04-12 1997-01-28 Xerox Corporation Method of speaker clustering for unknown speakers in conversational audio data
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
JP2738508B2 (ja) * 1994-10-27 1998-04-08 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的言語モデル作成装置及び音声認識装置
US5721808A (en) * 1995-03-06 1998-02-24 Nippon Telegraph And Telephone Corporation Method for the composition of noise-resistant hidden markov models for speech recognition and speech recognizer using the same
US6009390A (en) * 1997-09-11 1999-12-28 Lucent Technologies Inc. Technique for selective use of Gaussian kernels and mixture component weights of tied-mixture hidden Markov models for speech recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5778341A (en) 1996-01-26 1998-07-07 Lucent Technologies Inc. Method of speech recognition using decoded state sequences having constrained state likelihoods

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
L.R.Rabiner,B−H.Juang著,古井監訳「音声認識の基礎」(下)(1995年11月発行)NTTアドバンスドテクノロジ,p.135−138
電子情報通信学会技術研究報告[音声] Vol.92,No.274,SP92−75,「全音素エルゴディックHMMによる教師なし話者適応」,p.15−20,(1992年10月21日発行)
電子情報通信学会技術研究報告[音声] Vol.92,No.410,SP92−129,「エルゴディックHMMを用いた音声による多言語の識別」,p.49−56,(1993年1月19日発行)
電子情報通信学会論文誌 Vol.J77−A No.2,Feburary 1994,「全音素エルゴディックHMMを用いた教師なし話者適応」,p.112−119,(平成6年2月25日発行)
電子情報通信学会論文誌 Vol.J77−A No.2,Feburary,「エルゴディックHMMとその状態シーケンスを用いた音声による言語の識別」,p.182−189,(平成6年2月25日発行)

Also Published As

Publication number Publication date
EP0869478A3 (en) 1999-05-26
US6092042A (en) 2000-07-18
EP0869478A2 (en) 1998-10-07
JPH10274995A (ja) 1998-10-13

Similar Documents

Publication Publication Date Title
JP3033514B2 (ja) 大語彙音声認識方法及び装置
US6539353B1 (en) Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition
JP3672595B2 (ja) 結合されたストリングモデルの最小誤認率訓練
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
US6125345A (en) Method and apparatus for discriminative utterance verification using multiple confidence measures
US7054810B2 (en) Feature vector-based apparatus and method for robust pattern recognition
US4783804A (en) Hidden Markov model speech recognition arrangement
EP1204091B1 (en) A system and method of pattern recognition in very high-dimensional space
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
US6567776B1 (en) Speech recognition method using speaker cluster models
US6868381B1 (en) Method and apparatus providing hypothesis driven speech modelling for use in speech recognition
Chou et al. A minimum error rate pattern recognition approach to speech recognition
JPH08227298A (ja) クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識
JPH11338491A (ja) 固有声に基いた最尤法を含む話者と環境適合化
US5764851A (en) Fast speech recognition method for mandarin words
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
Tran et al. A proposed decision rule for speaker recognition based on fuzzy c-means clustering.
KR20050088014A (ko) 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치
JP3368989B2 (ja) 音声認識方法
Matrouf et al. Structural linear model-space transformations for speaker adaptation.
Homma et al. Iterative unsupervised speaker adaptation for batch dictation
KR20030082265A (ko) 정규화 상태 라이크리후드를 이용한 음성인식방법 및 그장치
JP3291073B2 (ja) 音声認識方式