JPH1063291A - 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 - Google Patents

連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置

Info

Publication number
JPH1063291A
JPH1063291A JP9148385A JP14838597A JPH1063291A JP H1063291 A JPH1063291 A JP H1063291A JP 9148385 A JP9148385 A JP 9148385A JP 14838597 A JP14838597 A JP 14838597A JP H1063291 A JPH1063291 A JP H1063291A
Authority
JP
Japan
Prior art keywords
context
training data
dependent
state
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9148385A
Other languages
English (en)
Other versions
JP3933750B2 (ja
Inventor
Xuedong D Huang
ディー ヒューアン シェードン
Milind V Mahajan
ヴィー マハジャン ミリンド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JPH1063291A publication Critical patent/JPH1063291A/ja
Application granted granted Critical
Publication of JP3933750B2 publication Critical patent/JP3933750B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 連続密度ヒドンマルコフモデルを使用して、
話されたスピーチ発声に存在するスピーチの発音ユニッ
トを表すスピーチ認識システムにおいて認識精度を改善
する方法及び装置がを提供する。 【解決手段】 スピーチ発声が、モデリングされた言語
表現に一致する見込みを表すアコースティックスコア
は、ヒドンマルコフモデルの状態に関連した出力確率に
依存する。コンテクストとは独立した及びコンテクスト
に従属する連続密度ヒドンマルコフモデルが各発音ユニ
ットに対し形成される。状態に関連した出力確率は、コ
ンテクストとは独立した及びコンテクストに従属する状
態の出力確率を重み付けファクタに基づいて重み付けす
ることにより決定される。重み付けファクタは、特に未
知のスピーチ発声を予想する際に各モデルの各状態に関
連した出力確率の健全さを指示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータ音声
認識に係り、より詳細には、連続ヒドンマルコフモデル
を用いたコンピュータ音声認識システムに係る。
【0002】
【従来の技術】音声認識の分野への挑戦は、最小のエラ
ー率を有する話し手とは独立した連続スピーチ認識シス
テムを形成する必要性により生じている。この目標を実
現する際の焦点は、スピーチ認識システムにより使用さ
れる認識アルゴリズムにある。認識アルゴリズムは、本
質的に、スピーチ信号即ち連続時間信号を、トレーニン
グデータから予め得られたスピーチの発音的及び音韻的
記述を表す1組の基準パターンへとマッピングすること
である。このマッピングを実行するために、高速フーリ
エ変換(FFT)、直線的予想コード化(LPC)又は
フィルタバンクのような信号処理技術がデジタル形態の
スピーチ信号に適用されて、スピーチ信号の適切なパラ
メータ表示が抽出される。一般に使用される表示は、ス
ピーチ信号に含まれた周波数及び/又はエネルギーバン
ドを表すFFT又はLPC係数を各時間インターバルご
とに含む特徴ベクトルである。これら特徴ベクトルのシ
ーケンスが、スピーチ信号に含まれた言語ユニット、ワ
ード及び/又はセンテンスを識別する1組の基準パター
ンへとマッピングされる。
【0003】スピーチ信号は、記憶された基準パターン
に厳密に一致しないことがしばしばある。スピーチ信号
特性は著しく変化し、記憶された基準パターンでは完全
且つ正確に捕らえられないために、厳密な一致を見つけ
ることが困難になる。意図されたメッセージを予想する
場合には、厳密な一致を追求する技術よりも、確率モデ
ル及び統計学的技術の方が成功裡に使用されている。1
つのこのような技術がヒドンマルコフモデル(Hidden Ma
rkov Model) (HMM)である。これらの技術は、厳密
な一致を見つけるのではなく、スピーチ信号に一致しそ
うな基準パターンを決定するので、スピーチ認識にいっ
そう適している。
【0004】HMMは、遷移により接続された状態のシ
ーケンスより成る。HMMは、音素又はワードのような
スピーチの特定の発音ユニットを表すことができる。各
状態には、その状態が特徴ベクトルに一致する見込みを
指示する出力確率が関連される。各遷移ごとに、その遷
移に続く見込みを指示する関連遷移確率がある。遷移及
び出力確率は、「トレーニングデータ」と称する既に話
されたスピーチパターンから統計学的に推定される。認
識の問題は、入力スピーチ信号を表す特徴ベクトルに一
致する確率が最も高い状態シーケンスを見出すことであ
る。主として、このサーチプロセスは、モデリングされ
た各々の考えられる状態シーケンスを列挙し、そしてそ
の状態シーケンスが入力スピーチ信号に一致する確率を
決定することを含む。最も高い確率をもつ状態シーケン
スに対応する発声が、認識されたスピーチ発声として選
択される。
【0005】HMMをベースとするほとんどのスピーチ
認識システムは、ベクトル量子化を使用する離散的HM
Mをベースとしている。離散的HMMは、限定された1
組の出力記号を有し、遷移及び出力確率は、離散的確率
分布関数(pdfs)をベースとするものである。ベク
トル量子化は、コードワードと称する個別表示により連
続スピーチ信号を特徴付けるのに使用される。特徴ベク
トルは、歪の尺度を用いてコードワードに一致される。
特徴ベクトルは、最小の歪尺度を有するコードワードの
インデックスと置き換えられる。認識の問題は、観察さ
れるスピーチ信号の個別の出力確率をテーブルルックア
ップ動作として計算することに簡素化され、これは、最
小限の計算しか必要としない。
【0006】
【発明が解決しようとする課題】しかしながら、スピー
チ信号は、連続的な信号である。コードワードによって
連続的な信号を量子化することはできるが、このような
量子化に関連して著しい質低下があり、認識精度を悪化
させる。連続密度HMMを使用する認識システムは、量
子化歪に関連した不正確さの問題がない。連続密度HM
Mは、推定される連続密度確率分布関数を用いて連続的
なスピーチ信号を直接モデリングすることができ、従っ
て、高い認識精度を得ることができる。しかしながら、
連続密度のHMMは、著しい量のトレーニングデータを
必要とすると共に、長い認識計算を必要とし、これがほ
とんどの商業的スピーチ認識システムへの使用の妨げと
なっている。従って、連続スピーチ認識システムの重大
な問題は、高い認識精度を得るために連続密度HMMを
使用することである。
【0007】
【課題を解決するための手段】本発明は、言語表現に対
応する連続密度HMMへのスピーチ信号のモデリングを
改善するスピーチ認識システムに関する。好ましい実施
形態においては、認識システムは、コンテクストとは独
立したHMM及び多数のコンテクスト従属のHMMを用
いて、音素のスピーチユニットを異なるコンテクストパ
ターンで表す。これらHMMの各々に対する出力及び遷
移確率は、トレーニングデータから推定される。同じモ
デリングされた音素に対応する同様の状態に関連した出
力確率がクラスター化されてセノン(senone)を形成す
る。未知のデータを予想する際の出力確率の健全さを指
示する各コンテクスト従属のセノンのための重み付けフ
ァクタも発生される。好ましい実施形態においては、重
み付けファクタは、トレーニングデータの全てのデータ
点の削除補間により推定される。或いは又、重み付けフ
ァクタは、データ点のパラメータ表示から推定すること
もできるし、又はデータ点のパラメータ表示により形成
されたランダムに発生されたデータ点から推定すること
もできる。
【0008】認識エンジンは、入力スピーチ発声を受け
取り、そしてその入力スピーチ発声の特徴ベクトルに最
も一致しそうなワードシーケンス候補を発生する。ワー
ドシーケンスは、HMMの状態シーケンスに対応する種
々のセノン整列体で構成することができる。認識エンジ
ンは、アコースティック及び言語確率スコアを使用する
ことにより、どのセノン/状態整列体が特徴ベクトルに
最も良く一致するかを決定する。アコースティック確率
スコアは、セノン整列体が特徴ベクトルに対応する見込
みを表し、そして言語確率スコアは、セノン整列体に対
応する発声が言語に生じる見込みを指示する。アコース
ティック確率スコアは、出力及び遷移確率の分析に基づ
く。出力確率分析は、各出力確率を重み付けファクタの
関数として重み付けすることによりコンテクスト従属の
セノン及びコンテクストとは独立したセノンの両方の出
力確率を使用する。より健全な推定値を有する出力確率
が分析を左右し、これにより、出力確率分析を改善す
る。出力確率分析の改善は、アコースティックスコアを
改善し、ひいては、全認識精度を改善する。
【0009】
【発明の実施の形態】本発明の上記及び他の特徴並びに
効果は、同じ要素が同じ参照番号で示された添付図面を
参照した好ましい実施形態の以下の詳細な説明から明ら
かとなろう。添付図面は、必ずしも正しいスケールでは
なく、本発明の原理を示す際に強調がなされている。
【0010】本発明の好ましい実施形態は、同じ発音ユ
ニットを表す異なる出力確率を、各出力確率が未知のデ
ータを予想できる程度に対して重み付けすることによ
り、連続密度ヒドンマルコフモデルを用いるスピーチ認
識システムにおいて改良された認識精度が得られること
を確認するものである。本発明のスピーチ認識システム
は、連続信号の形態の入力スピーチ発声を受け取り、そ
してその発声に対応する最もあり得る言語表現を発生す
る。好ましい実施形態は、スピーチ信号のパラメータ表
示を形成する特徴ベクトルのセットを、考えられる言語
表現を識別するヒドンマルコフモデル(HMM)のシー
ケンスに一致させることにより、言語表現を認識する。
HMMは、音素を表し、そしてHMMのシーケンスは、
音素より成るワード又はセンテンスを表す。
【0011】ガウスの確率分布関数の混合であるような
連続密度確率分布関数は、スピーチ信号をモデリングす
るのに非常に正確であるから、状態の出力確率を表すの
に使用できる。出力確率関数は、トレーニングデータか
ら統計学的に推定される。出力確率関数を正確に推定す
るのに充分な量のトレーニングデータがないことがしば
しばある。この問題を考慮するために、コンテクストと
は独立したモデル及びコンテクストに従属するモデルが
音素の所定のセットに対して構成される。コンテクスト
とは独立したモデルの出力確率は、次いで、コンテクス
トに従属するモデルの出力確率で補間される。これは、
コンテクストに従属するHMMの出力確率関数が、トレ
ーニングデータにおいてそれまで遭遇していないデータ
を予想できる程度を推定する重み付けファクタ又は補間
ファクタによって行われる。従って、コンテクストに従
属する状態の新たな変更された出力確率関数は、推定値
の健全さに基づき重み付けされた両モデルの出力確率関
数の組み合わせとなる。そこで、好ましい実施形態で
は、削除補間を用いて、パラメータスペースではなく確
率スペースを平滑化する。
【0012】図1は、本発明の好ましい実施形態により
認識及びトレーニングプロセスを実施するのに使用でき
るスピーチ認識システム10を示している。このスピー
チ認識システム10は、マイクロホンのような(これに
限定されない)入力装置12を含み、これは、入力スピ
ーチ発声を受け取り、そしてそれに対応するアナログ電
気信号を発生する。或いは又、記憶装置に記憶されたス
ピーチ発声を、入力スピーチ発声として使用することも
できる。スピーチ発声に対応するアナログ電気信号は、
アナログ/デジタル(A/D)コンバータ14へ送ら
れ、これは、アナログ信号を一連のデジタルサンプルに
変換する。デジタルサンプルは、次いで、特徴抽出器1
6に送られ、これは、デジタル化された入力スピーチ信
号からパラメータ表示を抽出する。このパラメータ表示
は、入力スピーチ発声のアコースティック特性を捕らえ
る。好ましくは、特徴抽出器16は、スペクトル分析を
行って、入力スピーチ信号のスペクトルを表す係数を各
々含む一連の特徴ベクトルを発生する。スペクトル分析
を行う方法は、信号処理の分野で良く知られており、そ
して高速フーリエ変換(FFT)、直線的予想コード化
(LPC)及びセプストラル(cepstral)係数を含み、こ
れらは全て特徴抽出器16に使用することができる。特
徴抽出器16は、スペクトル分析を行う何らかの従来型
のプロセッサでよい。スペクトル分析は、10ミリ秒ご
とに行われ、入力スピーチ信号を、25ミリ秒の発声を
表す特徴ベクトルへと分割する。しかしながら、本発明
は、25ミリ秒の発声を表す特徴ベクトルの使用に限定
されるものではない。異なる時間長さのスピーチ発声を
表す特徴ベクトルも使用できる。このプロセスは、全入
力スピーチ信号に対して繰り返されて、一連の特徴ベク
トルを発生し、これらは、データプロセッサ38へ送ら
れる。データプロセッサ38は、デスクトップパーソナ
ルコンピュータのような何らかの従来型コンピュータで
よい。データプロセッサは、特徴ベクトルのシーケンス
をルート指定するスイッチングブロック18を備えてい
る。このスイッチングブロック18は、ハードウェアで
実施されてもよいし、ソフトウェアで実施されてもよ
い。しかしながら、スピーチ認識システムは、データプ
ロセッサでの実行に限定されるものではない。メモリ装
置、コンパクトディスク又はフロッピーディスクである
コンピュータ読み取り可能な記憶媒体のような(これら
に限定されない)他の形式の実行可能な媒体を使用する
こともできる。
【0013】初期のトレーニング段階中に、スイッチン
グブロック18は、特徴ベクトルをトレーニングエンジ
ン20に向けるように投入される。トレーニングエンジ
ン20は、特徴ベクトルを使用して、トレーニングデー
タに存在する音素を表すHMMのパラメータを推定する
と共に、認識エンジン34により使用するための1組の
重み付けファクタを計算する。トレーニングエンジン2
0に使用される方法については、図2ないし6を参照し
て以下に説明する。簡単に述べると、トレーニングエン
ジン20は、コンテクストとは独立した及びコンテクス
トに従属する音素に基づくヒドンマルコフモデルを、ト
レーニングデータからこれらモデルのパラメータを推定
することにより、発生する。コンテクストに従属する各
状態に対する出力分布がクラスター化されて、セノンを
形成し、これらセノンは、セノンテーブル記憶装置30
に記憶される。セノンテーブル記憶装置30は、一般
に、コンテクストに従属するHMM及びコンテクストと
は独立したHMMの両方に対するセノンを保持する。各
HMMのセノン識別子がHMM記憶装置28に記憶され
る。更に、認識エンジン34により使用するために、コ
ンテクストに従属する各セノンの重み付けファクタが計
算されてラムダテーブル記憶装置26に記憶される。ラ
ムダテーブル記憶装置26は、コンテクストに従属する
HMMによりインデックスされるラムダ値を保持する。
又、トレーニングエンジン20は、トレーニングデータ
の翻訳を保持するテキスト転記22と、各ワードが正し
くモデリングされるよう確保するために各ワードの音素
記述を含む辞書24を使用する。トレーニングエンジン
20の動作については、以下に詳細に述べる。辞書24
は音素に関して各ワードの発音を含む。例えば、「ad
d」の辞書入力は、「/AE DD/」となる。
【0014】初期のトレーニング段階の後に、スイッチ
ングブロック18は、特徴ベクトルを認識エンジン34
に送信するように切り換えられる。認識エンジン34
は、ワード、ひいては、センテンスを形成する音素より
成る言語表現として特徴ベクトルのシーケンスを認識す
る。認識エンジン34に使用される方法については、図
9を参照して以下に詳細に述べる。認識エンジン34
は、HMM記憶装置28に記憶されたコンテクストとは
独立した及びコンテクストに従属するヒドンマルコフモ
デルと、セノンテーブル記憶装置30に記憶されたコン
テクストに従属する及びコンテクストとは独立したセノ
ンと、ラムダテーブル26に記憶された重み付けファク
タと、言語モデル記憶装置32及び辞書24に記憶され
た言語モデルとを使用する。言語モデル記憶装置32
は、文法を指定する。好ましい実施形態においては、認
識エンジン34から発生される言語表現は、従来のプリ
ン多、コンピュータモニタ等の出力装置36に表示され
る。しかしながら、本発明は、言語表現を出力装置に表
示することに限定されるものではない。例えば、言語表
現は、更に処理するために別のプログラム又はプロセッ
サへの入力として使用することもできるし、或いは記憶
されてもよい。
【0015】図2ないし6は、HMMのパラメータ及び
セノンを推定しそして重み付けファクタを計算するシス
テムのトレーニング段階で実行されるステップを示すフ
ローチャートである。簡単に述べると、トレーニング方
法は、ワード、センテンス、パラグラフ等の形態の入力
スピーチ発声を受け取ることによってスタートし、そし
てそれらを特徴ベクトルとして知られたパラメータ表示
に変換する。ヒドンマルコフモデル及びセノンの構造体
が形成され、そしてこれらデータ構造体のパラメータの
推定値がトレーニングデータから計算される。次いで、
削除補間の技術により重み付けファクタが決定される。
【0016】図2を参照すれば、トレーニング方法は、
一連のスピーチ発声を受け取ることにより開始され(ス
テップ42)、これは、図1を参照して上記したように
一連の特徴ベクトルへと変換される(ステップ44)。
完全な1組の特徴ベクトルを「トレーニングベクトル」
と称する。好ましい実施形態では、LPCセプストラル
分析を使用して、スピーチ信号がモデリングされ、信号
に含まれた周波数及びエネルギースペクトルを表す次の
39のセプストラル及びエネルギー係数を含む特徴ベク
トルが形成される。即ち、(1)12のLPCメル周波
数セプストラル係数xk (t)、但し、1≦K≦12;
(2)12のLPCデルタメル周波数セプストラル係数
Δxk (t)、但し、1≦K≦12;(3)12のLP
Cデルタ−デルタメル周波数セプストラル係数ΔΔxk
(t)、但し、1≦K≦12;そして(4)エネルギ
ー、デルタエネルギー及びデルタ−デルタエネルギー係
数。LPCセプストラル分析を用いてスピーチ信号をモ
デリングすることは、スピーチ認識システムの分野で良
く知られている。
【0017】ステップ46において、セノン及びHMM
データ構造体が形成される。セノンは、スピーチ認識シ
ステムにおいて良く知られたデータ構造体であり、そし
てセノン及びそれらを構成するのに使用する方法は、
M.ヒューン氏等の「セノンをもつ未知のトリホーンの
予想(Predicting Unseen Triphones with Senones)」、
Proc.ICASSP '93、第II巻、第311−
314ページ、1993年に詳細に説明されている。好
ましい実施形態では、HMMは、音素のスピーチユニッ
トをモデリングするのに使用できる。又、HMMは、ア
コースティックモデルも称される。このスピーチユニッ
トは、多数の語彙の認識を受け入れるように選択され
る。個々のワードをモデリングするには、長いトレーニ
ング周期と、関連パラメータを記憶するための付加的な
記憶装置とが必要になる。これは、少数の語彙のシステ
ムについては実現できるが、多数の語彙を用いる場合に
は不可能である。しかしながら、本発明は、音素をベー
スとするHMMに限定されるものではない。ワード、ジ
ホーン(diphone) 及びシラブルのような他のスピーチユ
ニットをHMMの基礎として使用することができる。
【0018】2つの形式のHMMを使用することができ
る。コンテクストに従属するHMMは、左右の音素コン
テクストを伴う音素をモデリングするのに使用すること
ができる。この形式のモデルは、ワードモデリングに通
常存在するコンテクスト依存性を捕らえる。コンテクス
トとは独立したHMMは、トレーニングデータに現れる
いかなるコンテクストの音素をモデリングするのにも使
用でき、従って、特定のコンテクストとは独立したもの
にする。1組の音素及びそれに関連した左右の音素コン
テクストより成る所定のパターンが、コンテクストに従
属するHMMによりモデリングされるべく選択される。
これらの選択されたパターンは、最も頻繁に発生する音
素と、これら音素の最も頻繁に発生するコンテクストを
与える。トレーニングデータは、これらモデルのパラメ
ータの推定値を与える。コンテクストとは独立したモデ
ルは、選択された音素をベースとし、トレーニングデー
タに現れる音素コンテクスト内でモデリングされる。同
様に、トレーニングデータは、コンテクストとは独立し
たモデルのパラメータに対する推定値を与える。
【0019】コンテクストとは独立したモデル及びコン
テクストに従属するモデルの両方を使用することは、改
良された認識精度を達成する上で有効である。各モデル
の健全さは、そのパラメータを推定するのに使用される
トレーニングデータの量、ひいては、トレーニングデー
タに存在しないデータを予想できるようにすることに関
連している。例えば、コンテクストに従属するモデル
は、同時調音効果をモデリングするのに有効であるが、
トレーニングデータが制限されるためにトレーニングが
不充分となる。(話し手は、音の連結シーケンスとして
ワードを発音しようと試みるが、話し手の調音器官は、
影響のない音を発生するように同時に動くことができな
い。その結果、ある音は、ワード内でそれに先行する音
及びそれに続く音によって強く反転される。その効果が
「同時調音効果」である。)これに対して、コンテクス
トとは独立したモデルは、トレーニング性が高く、従っ
て、あまり詳細でない粗野な推定を与える。これらの2
つのモデルを適当に重み付けして組み合わせたものを認
識エンジンに使用して、更に正確なアコースティック確
率スコアを発生することができる。
【0020】更に、話し手ごとの相違、例えば、男と女
の声道に存在するフォルマント周波数(即ち、声道の共
振周波数)を考慮するために、HMMは、出力確率分布
関数(ここでは「出力pdf」と称する)に対する単一
モード分布の混合を使用することができる。ガウスの確
率密度関数の混合体を使用できるのが好ましい。しかし
ながら、本発明は、この特定の限定に制約されない。ラ
プラス及びKO 型密度関数のような他の公知の連続密度
関数の混合体も使用できる。
【0021】更に、コンテクストに従属する異なる音素
の状態間の類似性を捕らえ、そして各セノンに使用でき
るトレーニングデータの量を増加するために、コンテク
ストとは独立した同じ音に対してコンテクストに従属す
る異なる発音HMMモデルの類似状態の出力分布を一緒
にクラスター化して、セノンが形成される。
【0022】図7は、音素/aa/114に対するコン
テクストとは独立したHMM構造体を例示している。コ
ンテクストとは独立したHMMは、状態1(111)、
状態2(112)及び状態3(113)と示された3つ
の状態を含む。図7に示したHMMは、図7に表示
(*,*)で示されたようにトレーニングデータに現れ
る左右の音素を伴う音素/aa/をモデリングする。か
っこ内の第1の位置は、所与の音素に先行する音素を示
し、そして第2の位置は、所与の音素に続く音素を示
す。セノンは、同じ音素に対応する各形式のモデル(例
えば、コンテクストに従属する・対・コンテクストとは
独立した)に対し類似状態(例えば、状態1)内で分類
される。この例では、コンテクストとは独立したHMM
は、状態1、2及び3に各々対応するセノン10、55
及び125を有する。
【0023】図8は、上記に対応して、音素/aa/に
対するコンテクストに従属するHMMを例示している。
図8には、5つの異なる音素コンテクスト(115ない
し119)において音素/aa/をモデリングする5つ
のコンテクスト従属のモデルがある。例えば、コンテク
ストに従属するモデル/aa/(/dh/,/b/)1
15は、コンテクストにおいて音素/aa/をモデリン
グし、ここでは、左の即ち先行する音素が/dh/であ
り、そして音素/b/がそれに続き、即ちその右側にあ
る。セノンは、異なるHMMにおいて類似状態内で分類
される。状態1において、コンテクストに従属する2つ
のセノンがあって、セノン14及び25で示されてい
る。全体として、音素/aa/に対し、状態1では、コ
ンテクストに従属する2つのセノン14及び35と、コ
ンテクストとは独立した1つのセノン10があり、状態
2では、コンテクストに従属する2つのセノン25及び
85と、コンテクストとは独立した1つのセノン55が
あり、そして状態3では、コンテクストに従属する1つ
のセノン99と、コンテクストとは独立した1つのセノ
ン125がある。
【0024】従って、好ましい実施形態に使用される音
素ベースの連続密度HMMは、次の数学的定義によって
特徴付けることができる。 (1)Nは、モデルにおける状態の数であり、好ましく
は、3つの状態が使用される。しかしながら、本発明
は、3に限定されるものではなく、5のような数も使用
できる。 (2)Mは、出力pdfにおける混合体の数である。 (3)A={aij}は、状態iから状態jまでの状態遷
移確率分布である。 (4)B={bi (x)}は、出力確率分布、即ち状態
iにあるときに特徴ベクトルxを放射する確率であり、
但し、次の数1に示す通りであり、
【数1】 ここで、N(x,μk ,Vk )は、平均ベクトルμk
び共変マトリクスVk により定められる多次元のガウス
密度関数を表す。混合成分の数Mは、通常、1から50
までのいずれかであり、そしてck は、状態iにおける
k番目の混合成分の重みである。各状態iに関連した出
力確率分布は、セノンsdi によって表され、そしてp
(xi ,sdi )として表すことができる。 (5)π={πI }は、初期状態分布である。 便宜上、HMMのパラメータスペースとして知られたモ
デルの完全なパラメータセットを示すのに簡略表示∝=
(A,B,π)が使用される。
【0025】図2のステップ48において、セノン、コ
ンテクスト従属のHMM及びコンテクストとは独立した
HMMに対するパラメータが推定される。HMMのトレ
ーニング段階は、トレーニングデータ、スピーチのテキ
スト22及びワードの発音スペルの辞書24を用いてこ
れらパラメータを推定することより成る。出力及び遷移
の確率は、良く知られたバウム−ウェルチ(Baum-Welch)
又は順方向−逆方向アルゴリズムによって推定すること
ができる。バウム−ウェルチアルゴリズムは、トレーニ
ングデータを良好に使用できるので好ましい。これは、
ヒューン氏等の「スピーチ認識のためのヒドンマルコフ
モデル(Hidden Markov Models For Speech Recognitio
n) 」、エジンバラ・ユニバーシティ・プレス、199
0年に説明されている。しかしながら、本発明は、この
特定のトレーニングアルゴリズムに限定されず、他のも
のを使用してもよい。通常、トレーニングデータにより
約5回の繰り返しを行って、パラメータの良好な推定値
を得ることができる。
【0026】図2のステップ50において、各コンテク
スト従属セノンの重み付け即ち補間ファクタが発生さ
れ、数学記号λにより表される。この重み付けファクタ
は、コンテクストとは独立したHMMの出力確率をコン
テクスト従属のHMMの出力確率で補間するように使用
される。これら重み付けファクタは、道のデータを予想
する際にコンテクスト従属出力pdfの適切さを示すも
のである。出力pdfはトレーニングデータで推定さ
れ、トレーニングデータに類似するデータを厳密に予想
する。しかしながら、各々の考えられる入力スピーチ発
声を表すトレーニングデータ又は全ての未知のデータを
正しく予想するに充分なトレーニングデータで出力PD
Fを推定することは不可能である。重み付けファクタの
役割は、コンテクスト従属のモデル及びコンテクストと
は独立したモデルを推定するのに使用されるトレーニン
グデータの関数であるところの未知のデータを予想する
ための出力pdfの適切さを指示することである。コン
テクスト従属のモデルに対するトレーニングデータの量
が多くなると、λは1.0に近づき、出力pdfは大き
な重みにされる。コンテクスト従属のモデルに対するト
レーニングデータの量が少ない場合には、λが0.0に
近づき、出力pdfはあまり重みが置かれない。各コン
テクスト従属のセノンに対するλの最適値は、削除補間
によって決定される。
【0027】簡単に述べると、削除補間の技術は、トレ
ーニングデータを2つの別々のセットに仕切る。その一
方は、モデルのパラメータを推定するのに使用され、そ
して第2のセットは、出力pdfが未知のトレーニング
データをいかに良好に予想できるかを指示するための重
み付けファクタを決定するのに使用される。このプロセ
スは反復的であり、各繰り返すにおいて、異なるセット
が回転され、そして新たなモデル及び重み付けファクタ
が形成される。全ての繰り返しの終わりに、重み付けフ
ァクタの平均値が計算され、認識段階に使用される。
【0028】図3ないし6は、重み付けファクタを計算
するのに使用されるステップを示している。図3を参照
すれば、ステップ60において、トレーニングデータ
は、K個のブロックに仕切られる。好ましくは、データ
のブロックは2つである。しかしながら、本発明は、こ
のブロック数に限定されず、トレーニングデータの記憶
量及びトレーニング時間の制約に基づいて他のブロック
数も使用できる。
【0029】重み付けファクタは、各コンテクスト従属
のセノンに対して計算され(ステップ62)、これは、
先ず、セノンテーブルを用いてsenSD(即ちコンテク
スト従属セノン)に対応するコンテクストとは独立した
セノンであるsenSIを見出すことにより行われる(ス
テップ63)。計算は、反復プロセスであるステップ6
4により導出され、このプロセスは、λnew で示された
λの新たな値の間の差が、あるスレッシュホールドに合
致するときに収斂する。好ましくは、このプロセスは、
|λ−λnew |<0.0001のときに収斂し即ち終了
する。このプロセスは、λの初期値を選択することによ
り開始する(ステップ66)。最初に、セノンの第1の
繰り返しの場合は、初期値はユーザにより予め選択され
る。好ましくは、初期値は、0.8の推定値である。他
の全ての繰り返しに対し、初期値は、その前に計算され
た新たな値λ=λnew である。ステップ68において、
プロセスはK回繰り返される。各繰り返しにおいて、1
つのデータブロックが削除ブロックとして選択され、そ
の選択される削除ブロックは、その前に選択されなかっ
たものである(ステップ70)。
【0030】次いで、プロセスは、削除ブロック以外の
全てのブロックからのトレーニングデータを用いて、各
々のコンテクスト従属(b1 で示す)及びコンテクスト
独立(b2 で示す)セノンに対する出力確率を推定する
ように進められる(ステップ72)。これらのパラメー
タは、トレーニング段階におけるHMMのパラメータの
推定値を参照して上記と同じ技術を用いて推定される
(即ちバウム−ウェルチアルゴリズム)。
【0031】次いで、ステップ74において、新たな値
λnew が計算される。この計算は、「強制整列」に依存
すると仮定する。トレーニング中に、ビタビアルゴリズ
ムが使用される場合には、トレーニングデータの各特徴
ベクトルを、特定のセノンで識別することができる。こ
のマッピング、即ちセノンを伴うベクトルは、「強制整
列」として知られている。λnew は、次の数2の数学的
定義に基づいて計算される。
【数2】 但し、Nは、強制整列を用いたセノンsenSDに対応す
る削除ブロックにおけるデータ点又は特徴ベクトルの
数;xi は、特徴ベクトルi、1≦i≦N;b
1 (xi )は、上記数1の式で定められたコンテクスト
従属の出力pdf;b2 (xi )は、上記数1の式で定
められたコンテクストとは独立した出力pdf;そして
λ*b1 (xi )+(1−λ)*b2 (xi )は、全確
率と称される。
【0032】λnew の値は、K回の繰り返しの各々に対
して決定される。K回の全ての繰り返しの完了時に、ス
テップ76において、平均値が計算され、これは、次の
数3の式で表される。
【数3】 但し、jは、削除ブロックのインデックス;Kは、ブロ
ックの数;λj new は、削除ブロックを用いたλの推定
値;そしてNj は、強制整列を用いたsenSDに対応す
る削除ブロックjにおける点の数である。
【0033】ステップ66ないし76は、λnew の値が
規定のスレッシュホールドに合致しない場合には再び実
行される。特定のコンテクスト従属のセノンに対してプ
ロセスが収斂すると、λnew の現在値が特定のコンテク
スト従属のセノンに対してラムダテーブル26に記憶さ
れる。
【0034】図4は、上記数2及び数3の式に基づき重
み付けファクタも新たな値λnew を計算するのに使用さ
れるステップのフローチャートである。新たな値は、削
除ブロックの各データ点の全確率に対するコンテクスト
従属出力pdfの作用を加算することにより計算され
る。従って、ステップ79において、senSDに対応す
る削除ブロックの全ての点が、ステップ48で形成され
たモデル及び強制整列を用いて見出される。ステップ8
0において、senSDと整列された削除ブロックにおけ
る各データ点xi に対してプロセスが繰り返される。全
確率に対するデータ点xi のコンテクスト従属出力pd
fの作用は、次の数4の式に基づいてステップ82にお
いて決定される。
【数4】
【0035】このようにして計算された全てのデータ点
の作用の和がステップ84において合計される。繰り返
しの完了時に、senSDと整列された削除ブロックの全
てのデータ点が処理されたときに、上記数2の式に基づ
いて作用の平均値λnew が計算される(ステップ8
6)。
【0036】重み付けファクタの上記計算は、削除ブロ
ックのデータ点を使用するものである。これは、より正
確な計算をもたらすが、計算を行うためにトレーニング
エンジンに必要とされる記憶量及びトレーニング時間を
増大する。ある場合には、対応する削除ブロックのデー
タ点のパラメータ表示を発生しそして適当なパラメータ
を使用するのが更に効果的となる。更に別のやり方とし
ては、senSDに対するデータ点のパラメータ表示から
再構成されたデータ点を使用することである。これらの
別のやり方は、データ点のおおまかな近似を与えるが、
計算効率という点で利点がある。
【0037】図5及び6は、重み付けファクタを計算す
るためのこれらの別の実施形態を示している。図5は、
第1の別の実施形態を示す。図5を参照すれば、削除ブ
ロックのデータ点に対するパラメータ表示がステップ9
0に示すように発生される。この場合に、パラメータ表
示は、ガウスの混合体となる。この表示は、上記のバウ
ム−ウェルチアルゴリズムを用いて形成することができ
る。発生されるパラメータは、各々の混合成分jに対
し、平均値、μj 及び重みcj を含む。ラムダの新たな
値λnew の計算は、削除ブロックμj に対し、次の数5
の式に基づいて行うことができる。
【数5】 但し、Mは、通常の混合成分の数;cj は、j番目の通
常混合成分の重み;ここで、数6であることに注意され
たい。
【数6】 μj は、j番目の通常混合成分の平均値である。
【0038】ステップ92ないし98は、この計算を次
のように行う。ステップ92は、各混合に対して繰り返
され、対応する平均及び重み付けパラメータを有する混
合に対し、全確率に対するコンテクスト従属出力確率の
作用を決定する。混合成分に対して、これは、次の数7
の式で表される。
【数7】
【0039】ステップ96において、全ての混合成分に
対しこれら作用の和が形成される。ステップ98におい
て、ステップ96から生じる最終的な和が、現在sen
SD及び削除ブロックに対してλnew の値として記憶され
る。
【0040】図3を参照すれば、K回の繰り返しの完了
時に、プロセスは、ステップ76において、上記数3の
式に基づきλnew の平均値を計算するように進められ
る。このプロセスは、図3について述べたように、プロ
セスが収斂し、そして現在平均値λnew が特定のコンテ
クスト従属セノンに対してラムダテーブル26に記憶さ
れるまで、続けられる。
【0041】重み付けファクタを計算する第2の別の実
施形態においては、セノンのパラメータ表示からランダ
ムに発生される選択数のデータ点が使用される。図6
は、この第2の別の実施形態を示し、これは、上記数2
の式に基づき削除ブロックに対して数学的に表すことが
できるが、{xi }は発生されたデータ点でありそして
Nは発生されたデータ点の数である。
【0042】この別の実施形態は、図3に示す好ましい
実施形態とは、新たな値λnew の決定(ステップ74)
について異なる。流れシーケンスは、図3に示すように
保たれる。図6を参照すれば、ステップ100におい
て、削除ブロックのデータ点に対しパラメータ表示が発
生される。パラメータ表示は、ガウスの混合体で構成す
ることができる。このパラメータ表示は、削除ブロック
のトレーニングデータに対しバウム−ウェルチアルゴリ
ズムを用いて導出することができる。このパラメータ表
示から、ステップ102に示すように、平均及び重み付
けパラメータと共にランダム数発生器を用いて規定数の
データ点が再構成される。再構成されるデータ点の数
は、λnew の所望の精度と計算要件との間で妥協され
る。データ点の数が多いと、λnew の精度は改善される
が、必要な計算量が多くなる。混合体当たりの再構成デ
ータ点の適当な数は、100である。
【0043】ステップ104においては、セットの各デ
ータ点に対してステップ106及び108が実行され
る。ステップ106において、データ点の全確率に対す
るコンテクスト従属出力確率の作用が決定される。これ
は、次の数8の式で表すことができる。
【数8】 ステップ108においては、これら作用の和が、セット
の全てのデータ点に対して形成される。セットの全ての
データ点を経て繰り返すが完了すると、全ての作用の平
均値がλnew の値として返送される(ステップ11
0)。図3を参照すれば、K回の繰り返しの完了時に、
プロセスは、ステップ76において、上記数3の式に基
づきλnew の平均値を計算するように進められる。この
プロセスは、図3について上記したように、プロセスが
収斂し、そして現在平均値λnew が特定のコンテクスト
従属セノンに対してラムダテーブル26に記憶されるま
で、続けられる。
【0044】トレーニングデータが発生されて適当な記
憶位置に記憶されると、認識システムは、実行の準備が
できる。スピーチ認識システムの主たるタスクは、入力
スピーチ信号に含まれた言語メッセージを検出すること
である。このタスクは、特徴ベクトルのシーケンスを音
素のシーケンスに一致させ、音素のシーケンスをワード
のシーケンスに一致させ、そしてワードのシーケンスを
センテンスに一致させることを必要とするので、多レベ
ルデコードの問題である。これは、モデリングされた全
ての考えられる言語表現を形成し、そしてその表現が特
徴ベクトルのシーケンスに一致する確率を計算すること
により行われる。言語表現は、音素のシーケンスで構成
されるので、その表現を形成する音素が特徴ベクトルに
一致しそしてその表現がおそらく生じる(即ち文法的に
正しい)であろう見込みを計算することが決定に含まれ
る。表現を形成する音素が特徴ベクトルに一致する確率
はアコースティックスコアと称され、そしてその表現が
生じ得る確率は言語スコアと称される。言語スコアは、
言語の文法のような言語の構文及び意味を考慮し、音素
のシーケンスに対応するワードのシーケンスが文法的に
正しい言語表現を形成するかどうか指示する。
【0045】好ましい実施形態では、音素がHMMによ
り表され、この場合に、同様の状態の出力pdfがクラ
スター化されてセノンを形成する。従って、特徴ベクト
ルを音素に一致させるプロセスは、音素を表すHMMの
状態に関連したセノンに特徴ベクトルを一致させること
を含む。従って、言語表現は、一連のHMMの状態に対
応するセノンで構成することができる。
【0046】本発明の好ましい実施形態では、認識エン
ジンのタスクは、確率P(W/X)を最大にするワード
シーケンスWを見つけることである。確率P(W/X)
は、入力スピーチ信号Xが与えられた場合に言語表現W
が生じる確率を表す。Wは、W=w1 、w2 ・・・wn
として示されたワードストリングであり、但し、wi
個々のワードを表し、各ワードは一連の音素により表さ
れ、wi =p1 、p2・・・pq 、そしてXは一連の特
徴ベクトルにより表された入力スピーチ信号であり、X
=x1 、x2 ・・・xn として示される。この最大化の
問題は、次の数9の式で表される良く知られたベイズの
式の変形を用いて解決できる。
【数9】 P(W/X)=(P(X/W)P(W)/P(X) P(X/W)は、入力スピーチ信号Xがワードストリン
グWに一致する確率であり、アコースティックスコアと
称される。P(W)は、ワードストリングWが生じる確
率であり、言語スコアと称される。P(X)は、Wとは
独立であるから、P(W/X)を最大にすることは、全
てのワードシーケンスWに対して分子即ちP(X/W)
P(W)を最大にすることに等しい。
【0047】認識タスクは、最良の一致を決定する試み
において種々のワードシーケンスを考慮する。認識タス
クにより考慮される各ワードシーケンスに対して、アコ
ースティックスコア及び言語スコアが計算される。言語
スコアは、ワードシーケンスが言語においてどれほど生
じるかを示すもので、上記数9の式のP(W)項により
指示される。アコースティックスコアは、一連のアコー
スティックベクトル特徴がワードシーケンスWに対する
アコースティックモデルにいかに良好に一致するかを指
示する。アコースティックスコアは、上記式のP(X/
W)項により指示される。
【0048】所与のワードシーケンスに対してアコース
ティックスコアを計算する際に、認識タスクは、種々の
セノン整列を考慮する。セノン整列は、アコースティッ
ク特徴ベクトルのシーケンスからセノンへのマッピング
であって、各アコースティック特徴ベクトルに独特のセ
ノンを指定するものである。当該ワードシーケンスを生
じるセノン整列のみが認識タスクによって考慮される。
各セノン整列の制約のもとにあるワードシーケンスに対
するアコースティックスコアが計算される。ワードシー
ケンスのアコースティックスコアは、全ての考えられる
セノン整列にわたる最良のアコースティックスコアであ
る。
【0049】これは、数学的には、i=1ないしqに対
して、次の数10の式で表すことができる。
【数10】 P(X/W)=Max〔P(X/(W,Ai ))〕 但し、A1 ・・・Aq は、ワードシーケンスWに対して
考えられる全てのセノン整列である。
【0050】所与のセノン整列Aの制約のもとにあるワ
ードシーケンスWに対するアコースティックスコアの計
算は、更に、次の数11の式で表される。
【数11】 但し、セノン整列Aは、コンテクスト従属のセノンsd
i に対してi番目のアコースティック特徴ベクトルxi
を整列し即ちマップする。P(A)は、セノンシーケン
スsdi ・・・sdn の状態遷移確率を表す。P(xi
/sdi )は、特徴ベクトルxi がコンテクスト従属の
セノンsdi に一致する確率を表す。
【0051】アコースティックスコアの重要性は、出力
確率p(x|sd)の計算にある。これは、特徴ベクト
ルxが、コンテクスト従属のHMM状態に対応するセノ
ンsdに一致する見込みを表す。しかしながら、充分に
推定されない出力pdfは、アコースティックスコアの
計算に不正確さを招く。これは、通常は、トレーニング
データの不充分さによって生じる。分布の健全さは、出
力pdfを推定するためにより多くのトレーニングデー
タを使用するのに伴って増大する。
【0052】この問題を緩和する1つの方法は、同じ音
素を多数の詳細さレベルでモデリングする多数のHMM
を使用することである。従って、種々の詳細さレベルの
出力pdfを使用しそしてそれらを合成することにより
特定の状態に対する出力pdfを構成することができ
る。この合成は、トレーニング中に見られなかったデー
タを予想する能力に基づいて行われる。そのような未知
のデータの予想に適した健全な出力pdfは、大きな重
みを受け取るが、充分に推定されない出力pdfは、合
成された出力pdfにおいて小さな重みを受け取る。好
ましい実施形態では、多数のコンテクスト従属のHMM
及びコンテクストとは独立したHMMを用いて、音素が
モデリングされる。トレーニング段階において既に計算
されたコンテクスト従属状態に対応する各セノンの重み
付けファクタλを用いて、各セノンに与えられる重みが
指示される。λが大きい(1.0に近い)ほど、コンテ
クスト従属のセノンが優勢となり、コンテクストとは独
立したセノンの重みは小さくなる。λが小さい(0.0
に近い)ときには、コンテクストとは独立したセノンが
優勢となる。従って、出力確率p(x|sd)の計算
は、次の数12の式で表すことができる。
【数12】p(x|sd)=λ*p(x|sdd )+
(1−λ)*p(x|sdi ) 但し、λは、セノンsdに対する重み付けファクタで、
0ないし1であり;xは、特徴ベクトルであり、sdd
は、コンテクスト従属のHMMの状態に関連したセノン
であり、sdi は、コンテクストとは独立したHMMの
対応状態に関連したセノンであり、p(x|sdd
は、特徴ベクトルxがセノンsdd に一致する確率であ
り、そしてp(x|sdi )は、特徴ベクトルxがセノ
ンsdi に一致する確率である。
【0053】従って、出力確率p(x|sd)は、コン
テクスト従属のセノン及びコンテクストとは独立したセ
ノンの出力確率の関数として直線的に補間される。重み
付けファクタ即ち補間ファクタλは、各セノンが補間さ
れる程度を示す。
【0054】図9はスピーチ認識方法の動作を示す。図
9を参照すれば、この方法は、入力スピーチ発声を受け
取ることにより開始され(ステップ122)、これは、
図1を参照して既に述べたように、特徴ベクトルに変換
される(ステップ124)。ステップ126において、
この方法は、入力スピーチ発声を表すことのできる各ワ
ードシーケンスに対しステップ128ないし136を実
行する。ワードシーケンスは、種々の異なるセノンシー
ケンスで構成することができ、この場合に、各セノン整
列は、HMM状態のシーケンスに対応する。ステップ1
28ないし134において、ワードシーケンスを表すこ
とのできる各考えられるセノン整列に対する合成認識ス
コアが決定される。合成認識スコアは、上記数9の変形
ベイズ式に基づいて決定することができる。合成認識ス
コアは、アコースティックスコア及び言語スコアで構成
される。アコースティックスコアは、ステップ130で
決定され、言語スコアは、ステップ132で決定され、
そして合成スコアは、ステップ134で計算される。最
も高い合成認識スコアを有するセノン整列が、ワードシ
ーケンスを表すように選択される(ステップ136)。
ステップ138において、この方法は、入力スピーチ発
声を、最も高い合成認識スコアを有するワードシーケン
スとして認識する。
【0055】ステップ130において、アコースティッ
クスコアは、数11の式に基づいて上記のように決定す
ることができ、この場合に、出力確率は、数12の式で
上記のように計算される。
【0056】ステップ132において、この方法は、言
語モデル記憶装置32に記憶された言語表現を表す言語
モデルに基づいて言語スコアを計算する。言語モデル
は、言語の構造及び意味の知識を利用し、既に発声され
たワードを考慮してワードの発生する見込みを予想す
る。言語モデルは、言語スコアが、あるワードの後に特
定の第2のワードが続く確率に基づくというバイグラム
言語モデルである。或いは又、言語モデルは、バイグラ
ム以外のNグラムに基づいてもよいし、サブワード言語
確率に各々基づいてもよい。更に、構文及び文法ルール
のような他の語彙知識を用いて、言語モデルを形成する
こともできる。言語モデルを形成及び使用する方法は、
公知であり、上記したヒューン氏等の文献に詳細に説明
されている。
【0057】以上に説明したように、本発明は、異なる
コンテクストにおける同じスピーチ事象に対応する多数
の連続密度出力確率を用いることによりスピーチ認識シ
ステムの認識能力を改善する。これは、モデルがトレー
ニングされなかったスピーチ事象を予想するモデルの性
能を改善するので、ヒドンマルコフモデルへの特徴ベク
トルのマッピングを改善する。このレベルの改善は、こ
のレベルのマッピングが、認識プロセスを更に構築する
基礎であるから、非常に有効である。
【0058】しかしながら、本発明は、スピーチ認識シ
ステムに限定されるものではない。スピーチ発声を言語
表現へとマッピングする必要のあるいかなる用途も、本
発明を利用することができる。スピーチ発声は、いかな
る形式のアコースティックデータでもよく、例えば、サ
ウンド、スピーチ波形等でよいが、これに限定されるも
のではない。このような用途の例は、確率モデルを使用
して、言語表現を表すテキストストリングからスピーチ
波形を発生するスピーチ合成システムである。
【0059】本発明の好ましい実施形態を以上に詳細に
述べたが、これは、単に本発明を例示するものに過ぎ
ず、当業者であれば、上記装置に変更を必要とする種々
の異なる用途に本発明を応用できるであろうことを強調
しておく。
【図面の簡単な説明】
【図1】好ましい実施形態に使用されるスピーチ認識シ
ステムのブロック図である。
【図2】図1のシステムに使用されるトレーニング方法
のフローチャートである。
【図3】図1のシステムに使用される重み付けファクタ
を計算する方法のフローチャートである。
【図4】図3のシステムに使用されるラムダの新しい値
を計算するための好ましい実施形態のフローチャートで
ある。
【図5】図3のシステムに使用されるラムダの新しい値
を計算するための第1の別の実施形態を示すフローチャ
ートである。
【図6】図3のシステムに使用されるラムダの新しい値
を計算するための第2の別の実施形態を示すフローチャ
ートである。
【図7】音素に関連したヒドンマルコフモデル及びセノ
ン構造体を例示する図である。
【図8】音素に関連したヒドンマルコフモデル及びセノ
ン構造体を例示する図である。
【図9】図1のシステムに使用されるスピーチ認識方法
のフローチャートである。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ミリンド ヴィー マハジャン アメリカ合衆国 ワシントン州 98052 レッドモンド エスエス302 ノースイー スト サーティフォース コート 16624

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 入力スピーチ発声を言語表現と一致させ
    るためのコンピュータシステムにおける方法であって、 スピーチの複数の発音ユニットの各々に対し、その発音
    ユニットを表す複数のより詳細なアコースティックモデ
    ル及びあまり詳細でないアコースティックモデルを用意
    し、各々のアコースティックモデルは、複数の状態と、
    それに続く複数の遷移とを有し、各々の状態は、ある時
    点で発音ユニットに生じるスピーチ発声の一部分を表
    し、そして入力スピーチ発声の一部分がある時点で発音
    ユニットに生じる見込みを指示する出力確率を有し、 より詳細なアコースティックモデルの選択シーケンスの
    各々に対し、入力スピーチ発生がそのシーケンスにいか
    に密接に一致するかを決定し、その一致は、更に、より
    詳細なアコースティックモデルの選択シーケンスの各状
    態に対し、その状態と、同じ発音ユニットを表すあまり
    詳細でないアコースティックモデルの同じ状態との出力
    確率の組み合わせとして累積出力確率を決定する段階を
    含み、そして入力スピーチ発声に最も良く一致するシー
    ケンスであって言語表現を表すシーケンスを決定する、
    という段階を備えたことを特徴とする方法。
  2. 【請求項2】 各々のアコースティックモデルは、連続
    密度ヒドンマルコフモデルである請求項1に記載の方
    法。
  3. 【請求項3】 出力確率を決定する上記段階は、更に、
    あまり詳細でないモデル及びより詳細なモデルの出力確
    率をその組み合わせ時に個別の重み付けファクタで重み
    付けする段階を備えた請求項1に記載の方法。
  4. 【請求項4】 複数のより詳細なアコースティックモデ
    ルを用意する上記段階は、更に、スピーチ発生のある量
    のトレーニングデータを用いて各アコースティックモデ
    ルをトレーニングする段階を含み、そして出力確率を決
    定する上記段階は、更に、あまり詳細でないモデル及び
    より詳細なモデルの出力確率を、各アコースティックモ
    デルのトレーニングに用いたトレーニングデータの量に
    対して重み付けする段階を含む請求項1に記載の方法。
  5. 【請求項5】 入力スピーチ発声が言語表現に一致する
    見込みを決定するためのコンピュータシステムにおける
    方法であって、入力スピーチ発声は、所与の時間インタ
    ーバル中の発声のアコースティック特性を指示する複数
    の特徴ベクトルより成り、そして言語表現は、アコース
    ティック特性がその言語表現内の位置に生じる出力確率
    を指示する複数のセノンより成り、上記方法は、 コンテクストに従属する複数のセノンを用意し、 上記コンテクストに従属する複数のセノンに関連され、
    言語表現の同じ位置を表すコンテクストとは独立したセ
    ノンを用意し、 入力スピーチ発生におそらく一致する言語表現を用意
    し、 入力スピーチ発生の各特徴ベクトルに対し、その特徴ベ
    クトルが、その特徴ベクトルと同じ時間インターバルに
    生じる言語表現の上記コンテクストに従属するセノンに
    一致する出力確率を決定し、この出力確率の決定は、上
    記コンテクストに従属するセノンに関連したコンテクス
    トとは独立したセノンを使用し、そして上記出力確率を
    使用して、入力スピーチ発生が言語表現に一致する見込
    みを決定する、という段階を備えたことを特徴とする方
    法。
  6. 【請求項6】 上記出力確率は、連続確率密度関数より
    成る請求項5に記載の方法。
  7. 【請求項7】 コンテクストに従属する複数のセノンを
    用意する上記の段階は、更に、スピーチ発声を表すある
    量のトレーニングデータから上記コンテクストに従属す
    るセノンをトレーニングする段階を含み、 コンテクストとは独立したセノンを用意する上記段階
    は、更に、コンテクストとは独立したセノンをある量の
    トレーニングデータからトレーニングする段階を含み、
    そして出力確率を決定する上記段階は、更に、コンテク
    ストとは独立したセノン及びコンテクスト従属するセノ
    ンを、これらのセノンをトレーニングするのに用いた上
    記量のトレーニングデータに基づいて組み合わせる段階
    を含む請求項5に記載の方法。
  8. 【請求項8】 コンテクストに従属する複数のセノンを
    用意する上記の段階は、更に、 スピーチ発声を表すある量のトレーニングデータからコ
    ンテクストに従属するセノンをトレーニングし、そして
    セノンを推定するのに使用される上記量のトレーニング
    データを表す各々のコンテクストに従属するセノンに対
    して重み付けファクタを用意する段階を備え、そして出
    力確率を決定する上記段階は、更に、コンテクストに従
    属するセノン及びコンテクストとは独立したセノンを上
    記重み付けファクタに基づいて組み合わせる段階を含む
    請求項5に記載の方法。
  9. 【請求項9】 重み付けファクタを用意する上記段階
    は、更に、上記量のトレーニングデータに対して削除補
    間技術を使用することにより重み付けファクタを発生す
    る段階を含む請求項8に記載の方法。
  10. 【請求項10】 重み付けファクタを用意する上記段階
    は、更に、 トレーニングデータのパラメータ表示を発生し、そして
    上記量のトレーニングデータのパラメータ表示に削除補
    間技術を適用することにより重み付けファクタを発生す
    る段階を含む請求項8に記載の方法。
  11. 【請求項11】 重み付けファクタを用意する上記段階
    は、更に、 トレーニングデータのパラメータ表示を発生し、 トレーニングデータのパラメータ表示から、トレーニン
    グデータを表す1組のデータ点を形成し、そして上記デ
    ータ点に削除補間を適用することにより重み付けファク
    タを発生するという段階を含む請求項8に記載の方法。
  12. 【請求項12】 入力スピーチ発声を認識するためのコ
    ンピュータ読み取り可能な記憶媒体における方法であっ
    て、 スピーチの複数の発音ユニットを表すように複数のコン
    テクスト従属の連続密度ヒドンマルコフモードをトレー
    ニングし、このトレーニングは、所与の時間インターバ
    ル中に発声のアコースティック特性を表すスピーチ発生
    のある量のトレーニングデータを使用し、各モデルは、
    遷移によって接続された状態を有し、各状態は、発音ユ
    ニットの一部分を表すと共に、スピーチ発声のアコース
    ティック特性が発音ユニットの一部分内に生じる確率を
    指示する出力確率を有し、 スピーチの同じ発音ユニットを表す複数のコンテクスト
    従属の連続密度ヒドンマルコフモデルに対してコンテク
    ストとは独立した連続密度ヒドンマルコフモデルを形成
    し、 コンテクスト従属のモデルの複数のシーケンスを形成
    し、各シーケンスは言語表現を表し、 コンテクスト従属モデルの各シーケンスに対して、入力
    スピーチ発声のアコースティック特性がコンテクスト従
    属モデルのシーケンスにおける状態に一致するアコース
    ティック確率を決定し、このアコースティック確率は、
    シーケンスにおける各コンテクスト従属モデルの各状態
    の出力確率と、同じ発音ユニットに対応するコンテクス
    トとは独立したモデルの出力確率とを含み、そして上記
    アコースティック確率を用いて、入力スピーチ発生に厳
    密に一致する言語表現を認識する、という段階を備えた
    ことを特徴とする方法。
  13. 【請求項13】 コンテクスト従属モデルの各状態に対
    して重み付けファクタを形成する段階を更に備え、重み
    付けファクタは、各状態に関連した出力確率をトレーニ
    ングするのに使用されるある量のトレーニングデータを
    指示し、 アコースティック確率を決定する上記段階は、更に、コ
    ンテクスト従属モデルの状態と、コンテクストとは独立
    したモデルの状態の出力確率を重み付けファクタに基づ
    いて重み付けする段階を含む請求項12に記載の方法。
  14. 【請求項14】 重み付けファクタを形成する上記段階
    は、更に、ある量のトレーニングデータに削除補間を適
    用することにより重み付けファクタを導出する段階を備
    えた請求項13に記載の方法。
  15. 【請求項15】 重み付けファクタを形成する上記段階
    は、更に、 トレーニングデータのパラメータ表示を発生し、そして
    トレーニングデータのパラメータ表示に削除補間を適用
    することにより重み付けファクタを導出する段階を備え
    た請求項13に記載の方法。
  16. 【請求項16】 重み付けファクタを形成する上記段階
    は、更に、 トレーニングデータのパラメータ表示を発生し、 トレーニングデータのパラメータ表示から1組のデータ
    点を発生し、そしてトレーニングデータのパラメータ表
    示に削除補間を適用することにより重み付けファクタを
    導出する段階を備えた請求項13に記載の方法。
  17. 【請求項17】 入力スピーチ発声を言語表現に一致さ
    せるコンピュータシステムにおいて、 スピーチの発音ユニットを各々表す複数のコンテクスト
    従属の及びコンテクスト独立のアコースティックモデル
    を記憶するための記憶装置を備え、各発音ユニットを表
    す複数のコンテクスト従属のアコースティックモデル
    は、スピーチの発音ユニットを表す少なくとも1つの関
    連するコンテクスト独立のアコースティックモデルを有
    し、各アコースティックモデルは、遷移を有する状態を
    含み、各々の状態は、ある時点における発音ユニットの
    一部分を表すと共に、入力スピーチ発声の一部分がある
    時点に発音ユニットに生じる見込みを指示する出力確率
    を有し、 入力スピーチ発声におそらく一致する複数の言語表現を
    表すコンテクスト従属のアコースティックモデルの選択
    シーケンスを与えるモデルシーケンス発生器を更に備
    え、 上記モデルの各シーケンスが入力スピーチ発声にいかに
    良好に一致するかを決定するためのプロセッサを更に備
    え、このプロセッサは、シーケンスの各状態に対して累
    積出力確率を用いることにより入力スピーチ発声の一部
    分をシーケンスの状態に一致させ、累積出力確率は、コ
    ンテクスト従属のアコースティックモデルの各状態の出
    力確率をそれに関連したコンテクスト独立のアコーステ
    ィックモデルの同じ状態の出力確率と合成したものを含
    み、そして入力スピーチ発声に最も良く一致するシーケ
    ンスであって言語表現を表すシーケンスを決定するため
    の比較器を更に備えたことを特徴とするコンピュータシ
    ステム。
  18. 【請求項18】 各アコースティックモデルは、連続密
    度ヒドンマルコフモデルである請求項17に記載のシス
    テム。
  19. 【請求項19】 スピーチ発声のある量のトレーニング
    データを受け取り、そしてその量のトレーニングデータ
    で各アコースティックモデルの各状態に対する出力確率
    を推定するためのトレーニング装置を更に備え、 上記プロセッサは、更に、各状態の累積出力確率を決定
    するための合成要素を備え、この合成要素は、各出力確
    率を推定するのに使用される上記量のトレーニングデー
    タに対し、シーケンスの各状態の出力確率をそれに関連
    したコンテクスト独立のアコースティックモデルの同じ
    状態の出力確率と合成する請求項17に記載のシステ
    ム。
  20. 【請求項20】 スピーチ発声のある量のトレーニング
    データを受け取り、上記量のトレーニングデータで各ア
    コースティックモデルの各状態に対する出力確率を推定
    するためのトレーニング装置を更に備え、このトレーニ
    ング装置は、各コンテクスト従属のアコースティックモ
    デルの各状態に対する重み付けファクタを発生し、これ
    は、出力確率がトレーニングデータに存在しないスピー
    チ発声を予想できる程度を示すものであり、そして上記
    プロセッサは、更に、状態の累積出力確率を決定するた
    めの合成要素を備え、この合成要素は、各状態の重み付
    けファクタに対し、シーケンスの各状態の出力確率を、
    それに関連したコンテクスト独立のアコースティックモ
    デルの同じ状態の出力確率と合成する請求項17に記載
    のシステム。
  21. 【請求項21】 上記重み付けファクタは、上記量のト
    レーニングデータに削除補間技術を適用することにより
    導出される請求項20に記載のシステム。
  22. 【請求項22】 上記トレーニング装置は、更に、トレ
    ーニングデータのパラメータ表示を発生するためのパラ
    メータ発生器を備え、そして上記重み付けファクタは、
    上記量のトレーニングデータのパラメータ表示に削除補
    間技術を適用することにより導出される請求項20に記
    載のシステム。
  23. 【請求項23】 上記トレーニング装置は、更に、 トレーニングデータのパラメータ表示を発生するための
    パラメータ発生器と、 パラメータ表示から1組のデータ点を発生するためのデ
    ータ発生器とを備え、そして上記重み付けファクタは、
    上記1組のデータ点に削除補間技術を適用することによ
    り導出される請求項20に記載のシステム。
JP14838597A 1996-05-01 1997-05-01 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 Expired - Lifetime JP3933750B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/655,273 US5937384A (en) 1996-05-01 1996-05-01 Method and system for speech recognition using continuous density hidden Markov models
US08/655273 1996-05-01

Publications (2)

Publication Number Publication Date
JPH1063291A true JPH1063291A (ja) 1998-03-06
JP3933750B2 JP3933750B2 (ja) 2007-06-20

Family

ID=24628243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14838597A Expired - Lifetime JP3933750B2 (ja) 1996-05-01 1997-05-01 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置

Country Status (5)

Country Link
US (1) US5937384A (ja)
EP (1) EP0805434B1 (ja)
JP (1) JP3933750B2 (ja)
CN (1) CN1112669C (ja)
DE (1) DE69719236T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004054298A (ja) * 2002-07-23 2004-02-19 Microsoft Corp 音声認識の方法および音声信号を復号化する方法
JP2015501012A (ja) * 2011-12-19 2015-01-08 スパンション エルエルシー 演算論理ユニットアーキテクチャ

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567778B1 (en) * 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6574597B1 (en) * 1998-05-08 2003-06-03 At&T Corp. Fully expanded context-dependent networks for speech recognition
AU6501999A (en) * 1998-09-29 2000-04-17 Scansoft, Inc. Inter-word triphone models
US6571210B2 (en) 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
US7082397B2 (en) 1998-12-01 2006-07-25 Nuance Communications, Inc. System for and method of creating and browsing a voice web
US6570964B1 (en) 1999-04-16 2003-05-27 Nuance Communications Technique for recognizing telephone numbers and other spoken information embedded in voice messages stored in a voice messaging system
US7058573B1 (en) 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US7181399B1 (en) * 1999-05-19 2007-02-20 At&T Corp. Recognizing the numeric language in natural spoken dialogue
US6539353B1 (en) * 1999-10-12 2003-03-25 Microsoft Corporation Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition
US6529866B1 (en) * 1999-11-24 2003-03-04 The United States Of America As Represented By The Secretary Of The Navy Speech recognition system and associated methods
US6751621B1 (en) * 2000-01-27 2004-06-15 Manning & Napier Information Services, Llc. Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
US6633845B1 (en) * 2000-04-07 2003-10-14 Hewlett-Packard Development Company, L.P. Music summarization system and method
US6629073B1 (en) * 2000-04-27 2003-09-30 Microsoft Corporation Speech recognition method and apparatus utilizing multi-unit models
US6662158B1 (en) 2000-04-27 2003-12-09 Microsoft Corporation Temporal pattern recognition method and apparatus utilizing segment and frame-based models
US7912868B2 (en) * 2000-05-02 2011-03-22 Textwise Llc Advertisement placement method and system using semantic analysis
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
US7031908B1 (en) 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
AU5205700A (en) * 2000-06-15 2002-01-08 Intel Corporation Speaker adaptation using weighted feedback
US6684187B1 (en) * 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) * 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
US6728674B1 (en) 2000-07-31 2004-04-27 Intel Corporation Method and system for training of a classifier
US6999926B2 (en) * 2000-11-16 2006-02-14 International Business Machines Corporation Unsupervised incremental adaptation using maximum likelihood spectral transformation
DE60113787T2 (de) * 2000-11-22 2006-08-10 Matsushita Electric Industrial Co., Ltd., Kadoma Verfahren und Vorrichtung zur Texteingabe durch Spracherkennung
WO2002091357A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
US6928409B2 (en) * 2001-05-31 2005-08-09 Freescale Semiconductor, Inc. Speech recognition using polynomial expansion and hidden markov models
ES2190342B1 (es) * 2001-06-25 2004-11-16 Universitat Pompeu Fabra Metodo para identificacion de secuencias de audio.
US7324945B2 (en) * 2001-06-28 2008-01-29 Sri International Method of dynamically altering grammars in a memory efficient speech recognition system
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
US7752045B2 (en) 2002-10-07 2010-07-06 Carnegie Mellon University Systems and methods for comparing speech elements
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US7200559B2 (en) 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US7650282B1 (en) * 2003-07-23 2010-01-19 Nexidia Inc. Word spotting score normalization
US7280967B2 (en) * 2003-07-30 2007-10-09 International Business Machines Corporation Method for detecting misaligned phonetic units for a concatenative text-to-speech voice
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7406416B2 (en) 2004-03-26 2008-07-29 Microsoft Corporation Representation of a deleted interpolation N-gram language model in ARPA standard format
US7478038B2 (en) 2004-03-31 2009-01-13 Microsoft Corporation Language model adaptation using semantic supervision
EP1741092B1 (fr) * 2004-04-20 2008-06-11 France Télécom Reconnaissance vocale par modelisation contextuelle d'unites vocales
TWI276046B (en) * 2005-02-18 2007-03-11 Delta Electronics Inc Distributed language processing system and method of transmitting medium information therefore
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
KR100845428B1 (ko) * 2006-08-25 2008-07-10 한국전자통신연구원 휴대용 단말기의 음성 인식 시스템
US20080103772A1 (en) * 2006-10-31 2008-05-01 Duncan Bates Character Prediction System
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
US9129599B2 (en) * 2007-10-18 2015-09-08 Nuance Communications, Inc. Automated tuning of speech recognition parameters
US8639510B1 (en) * 2007-12-24 2014-01-28 Kai Yu Acoustic scoring unit implemented on a single FPGA or ASIC
US8352265B1 (en) 2007-12-24 2013-01-08 Edward Lin Hardware implemented backend search engine for a high-rate speech recognition system
US8463610B1 (en) 2008-01-18 2013-06-11 Patrick J. Bourke Hardware-implemented scalable modular engine for low-power speech recognition
US20100057452A1 (en) * 2008-08-28 2010-03-04 Microsoft Corporation Speech interfaces
US9484019B2 (en) * 2008-11-19 2016-11-01 At&T Intellectual Property I, L.P. System and method for discriminative pronunciation modeling for voice search
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
EP2238899B1 (en) * 2009-04-06 2016-10-05 GN Resound A/S Efficient evaluation of hearing ability
US8606578B2 (en) * 2009-06-25 2013-12-10 Intel Corporation Method and apparatus for improving memory locality for real-time speech recognition
JP2012108748A (ja) * 2010-11-18 2012-06-07 Sony Corp データ処理装置、データ処理方法、およびプログラム
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
CN102129860B (zh) * 2011-04-07 2012-07-04 南京邮电大学 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法
EP2700071B1 (en) * 2011-04-20 2014-12-24 Robert Bosch GmbH Speech recognition using multiple language models
EP2851895A3 (en) 2011-06-30 2015-05-06 Google, Inc. Speech recognition using variable-length context
US10339214B2 (en) * 2011-11-04 2019-07-02 International Business Machines Corporation Structured term recognition
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator
US9224384B2 (en) * 2012-06-06 2015-12-29 Cypress Semiconductor Corporation Histogram based pre-pruning scheme for active HMMS
US9508045B2 (en) * 2012-08-17 2016-11-29 Raytheon Company Continuous-time baum-welch training
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9240184B1 (en) 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
KR101905827B1 (ko) * 2013-06-26 2018-10-08 한국전자통신연구원 연속어 음성 인식 장치 및 방법
US9711148B1 (en) * 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
GB2523353B (en) * 2014-02-21 2017-03-01 Jaguar Land Rover Ltd System for use in a vehicle
US10014007B2 (en) 2014-05-28 2018-07-03 Interactive Intelligence, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US10255903B2 (en) 2014-05-28 2019-04-09 Interactive Intelligence Group, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
CN108369803B (zh) * 2015-10-06 2023-04-04 交互智能集团有限公司 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
KR102434604B1 (ko) * 2016-01-05 2022-08-23 한국전자통신연구원 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법
US10665243B1 (en) * 2016-11-11 2020-05-26 Facebook Technologies, Llc Subvocalized speech recognition
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
US11211065B2 (en) * 2018-02-02 2021-12-28 Genesys Telecommunications Laboratories, Inc. System and method for automatic filtering of test utterance mismatches in automatic speech recognition systems
US11783818B2 (en) * 2020-05-06 2023-10-10 Cypress Semiconductor Corporation Two stage user customizable wake word detection
CN116108391B (zh) * 2023-04-12 2023-06-30 江西珉轩智能科技有限公司 一种基于无监督学习的人体姿态分类识别系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5333236A (en) * 1992-09-10 1994-07-26 International Business Machines Corporation Speech recognizer having a speech coder for an acoustic match based on context-dependent speech-transition acoustic models
EP0602296A1 (en) * 1992-12-17 1994-06-22 International Business Machines Corporation Adaptive method for generating field dependant models for intelligent systems
US5627939A (en) * 1993-09-03 1997-05-06 Microsoft Corporation Speech recognition system and method employing data compression
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5642519A (en) * 1994-04-29 1997-06-24 Sun Microsystems, Inc. Speech interpreter with a unified grammer compiler
JP3581401B2 (ja) * 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004054298A (ja) * 2002-07-23 2004-02-19 Microsoft Corp 音声認識の方法および音声信号を復号化する方法
JP4515054B2 (ja) * 2002-07-23 2010-07-28 マイクロソフト コーポレーション 音声認識の方法および音声信号を復号化する方法
JP2015501012A (ja) * 2011-12-19 2015-01-08 スパンション エルエルシー 演算論理ユニットアーキテクチャ

Also Published As

Publication number Publication date
DE69719236T2 (de) 2003-09-18
EP0805434A2 (en) 1997-11-05
EP0805434A3 (en) 1998-08-26
CN1112669C (zh) 2003-06-25
CN1171592A (zh) 1998-01-28
JP3933750B2 (ja) 2007-06-20
US5937384A (en) 1999-08-10
EP0805434B1 (en) 2003-02-26
DE69719236D1 (de) 2003-04-03

Similar Documents

Publication Publication Date Title
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4354653B2 (ja) ピッチ追跡方法および装置
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
JP5014785B2 (ja) 表音ベース音声認識システム及び方法
JPH07107640B2 (ja) ワードを予測する会話認識装置用言語生成装置及び方法
GB2290684A (en) Speech synthesis using hidden Markov model to determine speech unit durations
Uebel et al. Improvements in linear transform based speaker adaptation
JP2003308090A (ja) 音声認識装置、音声認識方法および音声認識プログラム
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP5007401B2 (ja) 発音評定装置、およびプログラム
Stuttle A Gaussian mixture model spectral representation for speech recognition
WO2022148176A1 (en) Method, device, and computer program product for english pronunciation assessment
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
JP2007240589A (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP2662112B2 (ja) 発声された単語のモデル化方法および装置
Manasa et al. Comparison of acoustical models of GMM-HMM based for speech recognition in Hindi using PocketSphinx
JP2002342323A (ja) 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
Liu et al. Modeling partial pronunciation variations for spontaneous Mandarin speech recognition
Shen et al. Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition
Liu et al. Pronunciation modeling for spontaneous Mandarin speech recognition
Huang et al. Speech-Based Interface for Visually Impaired Users
CA2896801C (en) False alarm reduction in speech recognition systems using contextual information
Frikha et al. Hidden Markov models (HMMs) isolated word recognizer with the optimization of acoustical analysis and modeling techniques

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060818

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061120

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070314

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120330

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130330

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140330

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term