JP4531166B2 - 信頼性尺度の評価を用いる音声認識方法 - Google Patents
信頼性尺度の評価を用いる音声認識方法 Download PDFInfo
- Publication number
- JP4531166B2 JP4531166B2 JP26095099A JP26095099A JP4531166B2 JP 4531166 B2 JP4531166 B2 JP 4531166B2 JP 26095099 A JP26095099 A JP 26095099A JP 26095099 A JP26095099 A JP 26095099A JP 4531166 B2 JP4531166 B2 JP 4531166B2
- Authority
- JP
- Japan
- Prior art keywords
- measure
- reliability
- reliability measure
- measures
- confidence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 21
- 238000011156 evaluation Methods 0.000 title 1
- 238000012805 post-processing Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 17
- 239000013598 vector Substances 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Description
【発明の属する技術分野】
本発明は、認識結果に対する複数の第2の信頼性尺度が第1の信頼性尺度を決定するため自動的に結合され、認識結果が第1の信頼性尺度を用いて評価される、音声発話の自動認識方法に関する。
本発明による自動認識方法は、特に、電気機器が単一の音声発話(通常、単語)によって制御される「命令と制御」形のアプリケーションの分野で使用される。本発明の方法は「ディクテーション」の分野で適用可能である。
【0002】
【従来の技術】
従来の自動認識方法は、信頼性尺度(信頼性測度)を用いて音声認識結果を評価することにより、認識結果が実際に表現された音声発話を表しているかどうかを当該アプリケーションに関して充分に信頼できる方式で判定する。このため、決定された信頼性尺度は閾値と比較される。ユーザは音声発話を繰り返す必要がある。
【0003】
合成信頼性尺度を決定するため複数の信頼性尺度を結合する基本的な概念は、文献:T.Kemp, T.Schaaf, “Confidence measures for spontaneous speech recognition”, Proc. ICASSP, vol.II, pp.875-878, 1997に提案されている。種々の合成の実現可能性が示唆されているが、個別には説明されていない。
【0004】
【発明が解決しようとする課題】
本発明の目的は、上記の自動認識方法において、認識結果の正しさを評価する際に合成誤差率を減少させることである。
【0005】
【課題を解決するための手段】
上記本発明の目的は、第2の信頼性尺度の合成を決定するパラメータがクロスエントロピー誤差尺度の最小化に基づいて決定されることにより達成される。
このようにして、特に、第2の信頼性尺度の線形結合における重みとして作用するパラメータ値が得られるので、その結果として第1の信頼性尺度が獲得される。
【0006】
誤差率を更に減少させるため、本発明の自動認識方法は、信頼性尺度が判定限界として作用する閾値と比較される前に、ユーザ及び/又は音声発話固有オフセットを用いて適応されることを特徴とする。
信頼性尺度の合成により作成された信頼性尺度を閾値と比較するとき、所定のアプリケーションへの自動適応は、閾値を適応させることなく簡単に実現される。
【0007】
また、本発明は、上記本発明の自動認識方法を実施することにより認識結果を評価する処理ユニットを含む音声認識システムを含む。
本発明の上記局面並びに他の局面は、以下の実施例の説明によって明白にされ、解説される。
【0008】
【発明の実施の形態】
図1は本発明の一実施例による音声認識システムのブロック構成図である。機能ブロック1には、
t=1,...,T
が時変数であるとき、音声発話、特に、単語を表現する特徴ベクトルxt のシーケンス
X=x1,x2,...,xT
が供給される。特徴ベクトルxtを形成するため、電気形式で与えられた音声信号は、サンプリングされ、量子化され、ケプストラム解析(Cepstral analysis)を受ける。音声信号は、部分的に重なり合う連続したフレームに分割される。各フレーム毎に、ケプストラム値は特徴ベクトルxtの結合により形成される。機能ブロック1は、シーケンスWが与えられた場合に、マルコフモデルHMM(隠れマルコフモデル)と公知のベイズの定理とを使用して、音声発話Wの確率に対する積確率値P(W|X)を作成することにより、通常の確率的音声信号処理を行う。
【0009】
機能ブロック2は、積確率値P(W|X)の最大値P(Wl |X)を獲得する。この音声発話W1 は認識結果として評価され、例えば、電気機器内の更なる処理のための制御信号として使用される。決定された確率値P(Wl |X)は機能ブロック3に供給され、処理される。機能ブロック3では、N>1の場合に、 z=(z1 ,...,zN )
と表される信頼性尺度ベクトルzが各値P(Wl |X)に割り当てられ、第2の信頼性尺度と称される信頼性尺度z1 ,...,zN により構成されるN個の要素が得られる。各信頼性尺度の値は、認識結果Wl の信頼性測度の値である。
【0010】
以下の実施例の説明では、信頼性尺度の個数NがN=5の場合を考える。
z1 :当該音声発話に関連した最初の観測時点の受信時点に対応する時点tstart と、当該音声発話に関連した最後の観測時点に対応する時点tend の間の時点tにおける最良音声発話仮説の確率の対数をとった対数確率と2番目に良い音声発話仮説の確率の対数をとった対数確率との間の差(2つの最良法)
z2 :時点tstart と時点tend の間の時点tにおける最良音声発話仮説の対数確率と当該音声発話仮説の最良からn個(例えば、n=20)の音声発話仮説の対数確率の平均値との間の差(n平均−最良法)
z3 :各音声発話仮説が時点tstart で最初の対数確率lw で始まり、時点tend で最後の対数確率として終了する場合に、対数確率lw と、範囲(tstart ,tend )における関連した隠れマルコフモデルHMMの最良状態のスコア(すなわち、対数確率値)の合計との間の差が計算される(n最良状態法)
z4 :長さでスケーリングされた対数確率(平均音響法)
lw /=lw /(tend −tstart +1)
z5 :tend −tstart によって決定される語の隠れマルコフモデル状態の数と観測数との間の比率(会話レート法)
改良された分類結果を生成する信頼性尺度は、単純な元の(粗い)信頼性尺度(すなわち、第2の信頼性尺度)の代わりに、拡張ベクトル
z=z20=(z1 2 ,z1 z2 ,z1 z3 ,...,z5 2 )
を形成するときに獲得され、拡張ベクトルzの成分は、2個の元の信頼性尺度の乗算によって、すなわち、元の信頼性尺度毎に元の信頼性尺度を一つずつ乗算することにより形成された修正信頼性尺度(修正された第2の信頼性尺度)により構成される。この式は、修正信頼性尺度を得るため元の信頼性尺度を乗算することによって修正しても良い。
【0011】
次に、機能ブロック4によって、合成信頼性尺度f(z)、すなわち、第1の信頼性尺度は、認識結果W1 に対し、以下に説明する結合関数f(z)に従って合成することにより種々の信頼性尺度z1 ,...,zN 若しくは修正信頼性尺度から形成され、続いて、第1の信頼性尺度は機能ブロック5において閾値τと比較される。この比較の結果に応じて、当該認識結果W1 が充分に信頼できない(c=0)と評価されたか、或いは、充分に信頼できる(c=1)と評価されたかを示す分類結果cが生成される。充分に信頼できない場合、例えば、ユーザは音声発話を繰り返すように要求される。
【0012】
信頼性尺度zの結合のモードを得るため、次に、
ベクトルze =(z,1)
が定義される。後述するように、
判定限界f(z)=τ
を決める必要がある。信頼性尺度の線形結合が
f(z)=J1 +z1 +J2 z2 +...+JN zN
によって与えられ、重み(乗数)J1 ...JN が閾値τと組み合わされて
ベクトルJ=(J1 ,J2 ,...,JN,τ)
として表されるとき、スカラー積
a=ze J
が得られる。
【0013】
ベイズの定理を使用することにより、事前確率
P(c|ze )=:y
は以下の通りシグモイド形式で表される。
【0014】
【数1】
【0015】
クラス条件付き確率値P(ze |c)が指数分布関数(特に、ガウス分布関数及びベルヌーイ分布関数)の族に含まれると仮定する。この条件下で、
a=a’
が成立する。この式は多数のアプリケーションに使用される。
ベイズの定理によると、判定限界は、
y=0.5
とすべきである。従って、この判定限界が選択されたモデルでは、
a=a’=0
となる。
【0016】
関連したベイズ判定問題に対する適切な誤差関数を獲得し、学習(トレーニング)を用いてパラメータJ1 ...JN を決めるため、条件付き確率P(c|ze )は、
P(c|ze )=yc (1−y)1-c
のように表され、ベルヌーイ分布の特殊ケースに対応する。時点iが個別に決められる学習データが与えられる反復ステップに対応する場合に、学習データ全体に関係する確率Lは、
【0017】
【数2】
【0018】
のように表現される。
誤差関数
E=−log(L)
の最小化は、いわゆるクロスエントロピー誤差
【0019】
【数3】
【0020】
の最小化と等価的である。
クロスエントロピー誤差関数は、小さい確率値が非常に良好に評価され、例えば、最小平均自乗(LMS)誤差関数を用いる場合よりも本質的に良好に評価される点で有利である。学習中に実行されるべきクロスエントロピー誤差Eの最小化によれば、
【0021】
【数4】
【0022】
を用いて学習中に学習ルールとして使用される確率シーケンス
【0023】
【数5】
【0024】
が導かれ、この確率シーケンスが既に決定されたJの上に加算的に重ね合わされ、最終的にJの成分が誤差関数Eの負勾配によって更新される。式中、ηは経験的に決められる適当な定数である。
この学習ルールは、最終的に関数f(z)を実現するシグモイド状出力関数を有する階層型ニューラルネットワークを学習させるため使用される。このようなニューラルネットワークの構造及び動作に関する情報は、文献:C.Bishop, “Neural Networks for Pattern Recognition ”, 第6.7章, Oxford, 1995に記載されている。上記のδJ(i)の式における括弧内の部分は、−1と1の間の範囲に収まる。完全な誤分類の場合に、両端の値−1又は1に達する。学習ルールδJ(i)は、通常のパーセプトロンを学習するため使用されるルールに対応する。
【0025】
このような学習の後に、好ましくは、いわゆるガードナー・デリダ(Gardner−Derrida)アルゴリズムを用いてガードナー・デリダ誤差関数の最大化に基づく後処理演算が行われる。このアルゴリズムについて、文献:A.Wendemuth,“Learning the Unlearnable ”, J.Phys. A, 28:5423, 1995を参照のこと。これにより、上記の判定閾値τ及び重みJが学習データの特殊性に適応することによって、学習は異常値(例えば、信頼性尺度ベクトルzの成分の中に非常に大きい値を含むデータ)、並びに、サンプリング効果(例えば、誤分類が学習データによって無視される)により良く適応するようになる。
【0026】
認識結果が正しい若しくは間違っているという分類の誤差率は、決定問題f(z)<τが、ユーザ固有オフセットobj、音声発話固有オフセットowk、又は、ユーザ及び音声発話固有オフセットobj,wk を用いて増大されることによって、更に改良される。この結果として得られる判定限界は、
f(z)−obj=τbj
f(z)−owk=τwk
f(z)−obj,wk =τbj,wk
である。
【0027】
ユーザ固有オフセットobjは、例えば、ユーザbj による学習用発話に対し決定された信頼性尺度(z1 ,z2 ,z3 ,z4 又はz5 )の平均値、最大値又は最小値である。音声発話固有オフセットowkは、例えば、ユーザ毎に語wk の学習用発話に対し決定された信頼性尺度(z1 ,z2 ,z3 ,z4 又はz5 )の平均値、最大値又は最小値である。オフセットobj,wk は、基本的にオフセットowkと同じ方法で決定されるが、ユーザに依存するように定義される。
【図面の簡単な説明】
【図1】本発明による音声認識システムの基本構成要素を示す図である。
【符号の説明】
1,2,3,4,5 機能ブロック
Claims (7)
- 音声発話の自動認識方法であって、認識結果に対する複数の第2の信頼性尺度が第1の信頼性尺度を決定するため自動的に組み合わされ、認識結果が第1の信頼性尺度を用いて評価され、上記第1の信頼性尺度を決定する上記第2の信頼性尺度の組み合わせに重みを付けるパラメータがクロスエントロピー誤差尺度の最小化に基づいて決定されることを特徴とする方法。
- 上記第1の信頼性尺度は上記第2の信頼性尺度の線形結合であることを特徴とする請求項1記載の方法。
- 上記クロスエントロピー尺度の最小化に基づいて上記第2の信頼性尺度の組み合わせに重みを付ける上記パラメータを決定する際に、ガードナー・デリダ誤差関数の最大化に基づく後処理演算が行われることを特徴とする請求項1又は2記載の方法。
- 上記第2の信頼性尺度の組み合わせよりも前に、上記第2の信頼性尺度が第3の粗い信頼性尺度の乗算によって形成される前処理演算が行われることを特徴とする請求項1乃至3のうちいずれか一項記載の方法。
- 修正された第2の信頼性尺度を決定するため、上記第2の信頼性尺度毎にすべての上記第2の信頼性尺度が乗算され、上記修正された第2の信頼性尺度が上記第1の信頼性尺度を決定するため組み合わされることを特徴とする請求項1乃至4のうちいずれか一項記載の方法。
- 上記信頼性尺度は判定限界として作用する閾値と比較される前にユーザ及び/又は音声発話固有オフセットによって適応されることを特徴とする請求項1乃至5のうちいずれか一項記載の方法。
- 音声認識システムであって:
音声発話を認識する手段と、
認識結果に対する複数の第2の信頼性尺度を決定する手段と、
第1の信頼性尺度を決定するよう上記複数の第2の信頼性尺度を組み合わせる手段と、
上記第1の信頼性尺度によって認識結果を評価する手段とを有しており、
上記組み合わせる手段が、上記第2の信頼性尺度を組み合わせて上記第1の信頼性尺度を決定するのを、クロスエントロピー誤差尺度の最小化に基づいて決定されるパラメータに基づいて行うよう構成されている、
音声認識システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19842405A DE19842405A1 (de) | 1998-09-16 | 1998-09-16 | Spracherkennungsverfahren mit Konfidenzmaßbewertung |
DE19842405:1 | 1998-09-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000099080A JP2000099080A (ja) | 2000-04-07 |
JP4531166B2 true JP4531166B2 (ja) | 2010-08-25 |
Family
ID=7881164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP26095099A Expired - Fee Related JP4531166B2 (ja) | 1998-09-16 | 1999-09-14 | 信頼性尺度の評価を用いる音声認識方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6421640B1 (ja) |
EP (1) | EP0987683B1 (ja) |
JP (1) | JP4531166B2 (ja) |
DE (2) | DE19842405A1 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6535850B1 (en) * | 2000-03-09 | 2003-03-18 | Conexant Systems, Inc. | Smart training and smart scoring in SD speech recognition system with user defined vocabulary |
US6760699B1 (en) * | 2000-04-24 | 2004-07-06 | Lucent Technologies Inc. | Soft feature decoding in a distributed automatic speech recognition system for use over wireless channels |
DE10063796B4 (de) * | 2000-12-21 | 2005-06-09 | Daimlerchrysler Ag | Verfahren zur Sprechererkennung für Sicherheitssysteme in Kombination mit Spracherkennung |
US6931351B2 (en) * | 2001-04-20 | 2005-08-16 | International Business Machines Corporation | Decision making in classification problems |
EP1442451B1 (en) | 2001-10-31 | 2006-05-03 | Koninklijke Philips Electronics N.V. | Method of and system for transcribing dictations in text files and for revising the texts |
US7016529B2 (en) * | 2002-03-15 | 2006-03-21 | Microsoft Corporation | System and method facilitating pattern recognition |
DE60208956T2 (de) * | 2002-10-14 | 2006-09-14 | Sony Deutschland Gmbh | Verfahren zur Spracherkennung |
US20040193412A1 (en) * | 2003-03-18 | 2004-09-30 | Aurilab, Llc | Non-linear score scrunching for more efficient comparison of hypotheses |
US20050232512A1 (en) * | 2004-04-20 | 2005-10-20 | Max-Viz, Inc. | Neural net based processor for synthetic vision fusion |
CA2592861C (en) * | 2004-12-28 | 2015-10-27 | Loquendo S.P.A. | Automatic speech recognition system and method using weighted confidence measure |
US20060149544A1 (en) * | 2005-01-05 | 2006-07-06 | At&T Corp. | Error prediction in spoken dialog systems |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7689520B2 (en) * | 2005-02-25 | 2010-03-30 | Microsoft Corporation | Machine learning system and method for ranking sets of data using a pairing cost function |
US7590536B2 (en) * | 2005-10-07 | 2009-09-15 | Nuance Communications, Inc. | Voice language model adjustment based on user affinity |
US7966183B1 (en) * | 2006-05-04 | 2011-06-21 | Texas Instruments Incorporated | Multiplying confidence scores for utterance verification in a mobile telephone |
US8165877B2 (en) | 2007-08-03 | 2012-04-24 | Microsoft Corporation | Confidence measure generation for speech related searching |
DE102007043870A1 (de) * | 2007-09-14 | 2009-03-19 | Siemens Ag | Verfahren und Vorrichtung zur Klassifikation von Daten |
US8661030B2 (en) | 2009-04-09 | 2014-02-25 | Microsoft Corporation | Re-ranking top search results |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63158598A (ja) * | 1986-12-22 | 1988-07-01 | 日本電気株式会社 | 単語検出装置 |
JPH08248988A (ja) * | 1995-03-13 | 1996-09-27 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
JPH10116094A (ja) * | 1996-10-01 | 1998-05-06 | Lucent Technol Inc | 音声認識方法および音声認識装置 |
JPH10222190A (ja) * | 1997-01-30 | 1998-08-21 | Motorola Inc | 発音測定装置および方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US570866A (en) * | 1896-11-03 | Burnish ing-machine | ||
US5267345A (en) * | 1992-02-10 | 1993-11-30 | International Business Machines Corporation | Speech recognition apparatus which predicts word classes from context and words from word classes |
US5371809A (en) * | 1992-03-30 | 1994-12-06 | Desieno; Duane D. | Neural network for improved classification of patterns which adds a best performing trial branch node to the network |
US5566272A (en) * | 1993-10-27 | 1996-10-15 | Lucent Technologies Inc. | Automatic speech recognition (ASR) processing using confidence measures |
US5710866A (en) * | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
US5940791A (en) * | 1997-05-09 | 1999-08-17 | Washington University | Method and apparatus for speech analysis and synthesis using lattice ladder notch filters |
-
1998
- 1998-09-16 DE DE19842405A patent/DE19842405A1/de not_active Withdrawn
-
1999
- 1999-09-08 DE DE59912819T patent/DE59912819D1/de not_active Expired - Lifetime
- 1999-09-08 EP EP99202895A patent/EP0987683B1/de not_active Expired - Lifetime
- 1999-09-13 US US09/395,048 patent/US6421640B1/en not_active Expired - Lifetime
- 1999-09-14 JP JP26095099A patent/JP4531166B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63158598A (ja) * | 1986-12-22 | 1988-07-01 | 日本電気株式会社 | 単語検出装置 |
JPH08248988A (ja) * | 1995-03-13 | 1996-09-27 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
JPH10116094A (ja) * | 1996-10-01 | 1998-05-06 | Lucent Technol Inc | 音声認識方法および音声認識装置 |
JPH10222190A (ja) * | 1997-01-30 | 1998-08-21 | Motorola Inc | 発音測定装置および方法 |
Also Published As
Publication number | Publication date |
---|---|
DE59912819D1 (de) | 2005-12-29 |
US6421640B1 (en) | 2002-07-16 |
DE19842405A1 (de) | 2000-03-23 |
EP0987683A3 (de) | 2004-01-14 |
EP0987683B1 (de) | 2005-11-23 |
EP0987683A2 (de) | 2000-03-22 |
JP2000099080A (ja) | 2000-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4531166B2 (ja) | 信頼性尺度の評価を用いる音声認識方法 | |
EP2216775B1 (en) | Speaker recognition | |
EP0921519B1 (en) | Technique for adaptation of hidden Markov Models for speech recognition | |
US5345536A (en) | Method of speech recognition | |
US6125345A (en) | Method and apparatus for discriminative utterance verification using multiple confidence measures | |
US6260013B1 (en) | Speech recognition system employing discriminatively trained models | |
US6490555B1 (en) | Discriminatively trained mixture models in continuous speech recognition | |
EP0617827B1 (en) | Composite expert | |
EP1465154B1 (en) | Method of speech recognition using variational inference with switching state space models | |
US20060165202A1 (en) | Signal processor for robust pattern recognition | |
AU5353196A (en) | Method, apparatus, and radio for optimizing hidden markov model speech recognition | |
JP3088357B2 (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
JP3536471B2 (ja) | 識別装置および識別方法、並びに音声認識装置および音声認識方法 | |
JPH064097A (ja) | 話者認識方法 | |
JP3589044B2 (ja) | 話者適応化装置 | |
JPH01204099A (ja) | 音声認識装置 | |
JP2996925B2 (ja) | 音素境界検出装置及び音声認識装置 | |
EP1189202A1 (en) | Duration models for speech recognition | |
JPH08110792A (ja) | 話者適応化装置及び音声認識装置 | |
JP3216565B2 (ja) | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 | |
JP3044741B2 (ja) | 標準パターン学習方法 | |
Shigli et al. | Automatic dialect and accent speech recognition of South Indian English | |
JPH0822296A (ja) | パターン認識方法 | |
JPH05241593A (ja) | 時系列信号処理装置 | |
JPH10254485A (ja) | 話者正規化装置、話者適応化装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060912 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100511 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100609 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4531166 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130618 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |