JPH0782348B2 - 音声認識用サブワードモデル生成方法 - Google Patents

音声認識用サブワードモデル生成方法

Info

Publication number
JPH0782348B2
JPH0782348B2 JP4064296A JP6429692A JPH0782348B2 JP H0782348 B2 JPH0782348 B2 JP H0782348B2 JP 4064296 A JP4064296 A JP 4064296A JP 6429692 A JP6429692 A JP 6429692A JP H0782348 B2 JPH0782348 B2 JP H0782348B2
Authority
JP
Japan
Prior art keywords
state
model
division
speech recognition
states
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4064296A
Other languages
English (en)
Other versions
JPH06202687A (ja
Inventor
淳一 鷹見
茂樹 嵯峨山
Original Assignee
株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール自動翻訳電話研究所 filed Critical 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority to JP4064296A priority Critical patent/JPH0782348B2/ja
Priority to DE4241688A priority patent/DE4241688C2/de
Publication of JPH06202687A publication Critical patent/JPH06202687A/ja
Publication of JPH0782348B2 publication Critical patent/JPH0782348B2/ja
Priority to US08/532,318 priority patent/US5677988A/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • G10L15/146Training of HMMs with insufficient amount of training data, e.g. state sharing, tying, deleted interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は音声認識用サブワード
モデル生成方法に関する。より特定的には、この発明は
隠れマルコフモデル(Hidden Markov Model : HMM )を
用いた音声認識において、最小限のモデルパラメータで
最大限の音声現象をモデル化する効率のよいモデルを生
成するための、各モデルの単位,構造および各出力確率
密度分布パラメータを最適に決定するような音声認識用
サブワードモデル生成方法に関する。
【0002】
【従来の技術】HMMを用いての高精度かつ頑健な音声
認識を行なうためには、いかにして詳細なモデルの生成
と頑健なモデルの推定を同時に実現するかということが
重要な課題となる。モデルの詳細化のためには、音声空
間全体を覆うような異音クラスを適切に決める必要があ
り、また、限られた学習サンプルから頑健性の高いモデ
ルを推定するためには、学習サンプルの持つ情報を効率
よく取込めるメカニズムを導入する必要がある。
【0003】
【発明が解決しようとする課題】HMMを用いた音声認
識においては、従来ではモデルの単位およびモデルの構
造およびモデルのパラメータ推定が、それぞれ独立に、
別々の評価基準の下で決定されていた。たとえば、モデ
ルの単位については、知識に基づく決定(音素,半音
節,音素コンテキスト)、あるいは歪み最小化に基づく
決定(音素環境クラスタリングにおける音素環境)など
の評価基準で決められていた。また、モデルの構造は、
知識に基づく決定(全モデルが同一,あるいは数通りの
構造で表現)、あるいは類似度を基準とした状態共有化
などによって決定されていた。さらに、モデルのパラメ
ータは、forward-backwardアルゴリズムによる最尤推定
によって決定されていた。このため、それぞれの評価基
準の間に共通性がなく、全体としての最適性の保証がな
いという問題点があった。
【0004】それゆえに、この発明の主たる目的は、モ
デルのパラメータ推定と同じ尤度最大化の基準の下で、
同時かつ自動的に決定することにより、モデルの表現方
法を最適化し、最小限のモデルパラメータで最大限の音
声現象をモデル化する効率のよい音声認識用サブワード
モデルの生成方法を提供することである。
【0005】
【課題を解決するための手段】この発明は音声の特徴パ
ターンの微小単位時間内での形状である音声の静的特徴
およびその時間的な変化である音声の動的特徴を複数の
出力確率密度分布の連鎖としてモデル化した隠れマルコ
フモデルを用いる音声情報処理のための、音素コンテキ
ストに依存したサブワードモデルを生成する方法であっ
て、少数の状態を持つ初期モデルは、すべての学習デー
タを用いた学習により生成し、この時点で存在している
すべての状態に対して、その状態に割当てられている分
布の大きさを算出し、この最も大きい状態を被分割状態
として決定する。決定した被分割状態を2つの状態に分
割し、状態分割の方向は、実際の音素サンプルに対し
て、コンテキスト方向へ分割した場合に得られる最大の
評価値および時間方向へ分割した場合に得られる最大の
評価値をそれぞれ求め、より大きい評価値が得られた方
の分割方向を採用する。このようにして状態分割により
決定された隠れマルコフ網全体の構造の制約の下で、各
出力確率密度分布パラメータおよび遷移確率を最適化す
るための再学習を行ない、すべての状態数が所定の数に
達するまで、上述の分布の大きさを算出して最も大きい
状態を被分割状態とする以下の処理を繰返す。隠れマル
コフ網の構造決定が終了した後、最後に各状態に割当て
ている出力確率密度分布を、実際に使用したい形状に変
更するための学習を行なう。
【0006】
【作用】この発明にかかる音声認識用サブワードモデル
の生成方法は、状態の分割を繰返すことにより、逐次的
にモデルの精密化を進めていくことができ、モデルの単
位と構造およびモデルのパラメータが共通の評価基準の
下で自動的に最適化され、その結果表現効率の高いサブ
ワードモデルを生成することができる。
【0007】
【発明の実施例】図1はこの発明の原理を説明するため
のフロー図である。この発明は、音声の特徴パターンの
微小単位時間内での形状(音声の静的特徴)およびその
時間的な変化(音声の動的特徴)を複数の出力確率密度
分布(状態)の連鎖として表現した確率モデルに対し
て、一定の評価基準(尤度最大化)に基づいて個々の状
態を分割するといった操作を繰返すことによって、モデ
ルの精密化を逐次的に行なおうというものである。これ
により、モデルの単位決定とそのモデルの構造決定およ
び各状態のパラメータ推定を共通の評価基準の下で同時
に実現することができる。
【0008】図1を参照して、より具体的に説明する。
まず、初期モデル1として、ただ1つの状態と、その状
態を始端から終端まで結ぶ1本のパスからなるモデル2
をすべての音声サンプルから形成し、この状態を分割す
ることから始める。
【0009】この時点における状態の分割は、パスの分
割を伴うコンテキスト方向への分割3あるいはパスの分
割を伴わない時間方向の分割4の内のいずれか一方に関
して行なわれる。特に、コンテキスト方向への分割3時
には、パスの分割に伴ったそれぞれのパスに割当てられ
るコンテキストクラスも同時に分割される。実際の分割
方法としては、コンテキストクラスの分割方法も含めて
この時点で可能なすべての分割方法の中から音声サンプ
ルに適用した場合の尤度の総和が最も大きくなる分割方
法の決定5が採用される。このような状態分割を繰返す
ことによって、少ない状態数で高い尤度を達成すること
のできる効率のよいモデル6が生成される。
【0010】上述の逐次状態分割法により移動生成され
る隠れマルコフ網は、複数の状態のネットワークとして
表わすことができる。個々の状態は、音声空間上の1つ
の確率的定常信号源と見なすことができ、それぞれ以下
の情報を保有している。
【0011】 状態番号 受理可能なコンテキストクラス 先行する状態および後続する状態のリスト 音声の特徴空間上に割当てられた確率分布のパラメ
ータ 自己遷移確率および後続状態への遷移確率 隠れマルコフ網では、入力データとそのコンテキスト情
報が与えられた場合、そのコンテキストを受理すること
ができる状態を先行および後続状態リストの制約内で連
結することによって、入力データに対するモデルを一意
に決定することができる。このモデルは図2に示すよう
な隠れマルコフモデルと等価であるため、通常の隠れマ
ルコフモデルと同様に尤度計算のための前向きパスアル
ゴリズムやパラメータ推定のためのforward-backwardア
ルゴリズムをそのまま使用することができる。
【0012】以下に、逐次状態分割法の実現アルゴリズ
ムについて詳細に説明する。図3は初期モデルの学習方
法を説明するための図である。初期モデルとして、混合
数2の混合ガウス分布(対角共分散行列)を持つ1つの
状態(この状態の番号を0とし、状態番号0の状態をS
(0)と表わす)の隠れマルコフモデルが、すべての学
習データを用いてforward-backwardアルゴリズムにより
学習される。同時に、学習データに含まれるすべてのコ
ンテキストクラスの情報が各状態に保存され、先行状態
リストおよび後続状態リストに、それぞれ始端および終
端を表わす記号が加えられる。さらに、全状態数を表わ
す変数Mに1が代入される。
【0013】図4は被分割状態の決定を説明するための
図である。上述の初期モデルの学習の時点で存在してい
るすべての状態iに対して、その状態に割当てられてい
る分布の大きさdi が次の第(1)式により算出され、
分布の大きさdi の値の最も大きい状態(これをS
(m)とする)が被分割状態として決定される。
【0014】
【数1】
【0015】なお、このときの尺度di は、状態iにお
ける分布に単一ガウス分布をあてはめて計算した場合の
分散に相当する値σik 2 の他に、その分布の推定に用い
られた音素サンプル数ni をも考慮したものとなってい
る。この結果、分布の推定時に少数のサンプルしか使用
することができなかった状態に対しては、それ以上の分
割が行なわれにくくなり、統計的な頑健性の向上を図る
ことができる。
【0016】図5はコンテキスト方向への状態分割を説
明するための図であり、図6は時間方向への状態分割を
説明するための図である。状態S(m)は状態S′
(m)と状態S(M)の2つの状態に分割される。この
際に、これら2つの状態に対して状態S(m)に割当て
られている2つの分布のうちのそれぞれ一方が確率分布
パラメータとして割当てられ、状態S(m)が保有して
いる自己遷移確率および後続状態への遷移確率の値がそ
のまま複写される。状態分割の方向は、実際の音素サン
プルに対して、コンテキスト方向へ分割した場合に得ら
れる最大尤度Pcおよび時間方向へ分割した場合に得ら
れる最大尤度Ptがそれぞれ求められ、より大きい尤度
が得られた方の分割方向が採用される。最大尤度Pcお
よびPtの算出は以下の方法によって行なわれる。
【0017】コンテキスト方向への状態分割(Pcの算
出)は、図5に示すように、状態S′(m)と状態S
(M)を並列に結合することによって行なわれる。この
場合、それと同時にパスの分割も行なわれるため、状態
S(m)を通るパスで表現されていた音声サンプルYを
新たに生成された状態S′(m)を通るパスと、状態S
(M)を通るパスとに振分ける必要がある。この振分け
は、次の第(2)式によって計算される最大値Pcを実
現する要因j(先行音素,当該音素,後続音素など)を
求め、要因jに属する要素を分割することによって行な
われる。
【0018】
【数2】
【0019】分割すべき要因jが決定した時点で、要因
jの要素ejlをどちらのパスに振分けるかは、第(2)
式を計算する過程ですでに計算されているPm(yjl
および尤度の総和pm (yjl)の値を用い、第(3)式
にしたがって決定される。
【0020】
【数3】
【0021】要素の集合EmjおよびEMjが定まった後、
状態S′(m)および状態S(M)のコンテキスト情報
として、要因jに関する部分には、それぞれ要素の集合
mjおよび要素の集合EMjが割当てられ、j以外の部分
にはS(m)で保有されていた情報がそのまま複写され
る。
【0022】時間方向への分割(Ptの算出)は、図6
に示すように、状態S′(m)と状態S(M)を直列に
結合することによって行なわれる。この場合状態S′
(m)と状態S(M)のいずれを前に位置付けるかによ
って2通りの可能性が考えられる。そこで、状態S
(m)を通るパス上で表現されていた音素サンプルYに
対して、第(4)式により計算される最大値Ptを実現
する方法が採用される。
【0023】
【数4】
【0024】なお、時間方向への分割では、パスの分割
を伴わないため、状態S′(m)および状態S(M)の
コンテキスト情報には状態S(m)で保有されていたも
のがそのまま複写される。
【0025】図7は分布の再推定を説明するための図で
ある。この時点での状態S′(m)と状態S(M)の分
布には、分割処理により単一ガウス分布が割当てられた
ままになっている。そこで、これらの混合数2の混合ガ
ウス分布に再形成され、その条件下で隠れマルコフ網を
最適化するために、図7に示すように、状態S(m)の
分割の影響が及ぶ範囲内で、状態の確率分布パラメータ
および遷移確率が再学習される。その後、状態S′
(m)が改めて状態S(m)と表わされ、変数Mに1が
加えられる。変数Mが所定の分割数に達するまで、上述
の被分割状態の決定ないし分布の再推定の処理が繰返さ
れる。
【0026】図8は分布の変更を説明するための図であ
る。ここまでの処理で隠れマルコフ網の構造決定が終了
する。そこで、最後に、各状態に割当てられている確率
分布は、実際の隠れマルコフ網で使用したい最終的な形
状(必ずしも単一ガウス分布である必要はない)に変更
するための学習が、隠れマルコフ網全体に対して行なわ
れる。このようにして、隠れマルコフ網の生成が完了す
る。
【0027】
【発明の効果】以上のように、この発明によれば、状態
の分割を繰返すことにより、逐次的にモデルの精密化を
進めていくことができ、モデルの単位と構造およびモデ
ルのパラメータが共通の評価基準の下で自動的に最適化
され、その結果表現効率の高いサブワードモデルを生成
することができる。
【図面の簡単な説明】
【図1】この発明の原理を説明するための図である。
【図2】隠れマルコフモデルの構造を示す図である。
【図3】初期モデルの学習方法を説明するための図であ
る。
【図4】被分割状態の決定を説明するための図である。
【図5】コンテキスト方向への状態分割を説明するため
の図である。
【図6】時間方向への状態分割を説明するための図であ
る。
【図7】分布の再推定を説明するための図である。
【図8】分布の変更を説明するための図である。
【符号の説明】
1 初期モデル 2 被分割状態の決定 3 コテキスト方向への分割 4 時間方向への分割 5 尤度を最大化する分割方法の決定 6 隠れマルコフ網

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 音声の特徴パターンの微小単位時間内で
    の形状である音声の静的特徴およびその時間的な変化で
    ある音声の動的特徴を複数の出力確率密度分布の連鎖と
    してモデル化した隠れマルコフモデルを用いる音声情報
    処理のための、音素コンテキストに依存したサブワード
    モデル生成方法であって、 初期隠れマルコフモデルを持つ少数の状態に対する分割
    を繰返すことによって、各モデルに割当てるモデルの単
    位である音素コンテキストクラス、各モデルを表現する
    ために用いる状態の数と複数のモデル間での状態の共有
    関係、および各モデルの持つ出力確率密度分布の形状
    を、すべて共通の評価基準の下で決定することを特徴と
    する、音声認識用サブワードモデル生成方法。
  2. 【請求項2】 前記分割は、前記音素コンテキストの違
    いによる音声の静的特徴の変動を吸収することを目的と
    して1つの状態を異なる音素コンテキストクラスに対応
    する2つの状態として並列方向に分割する方法と、ある
    音素コンテキストクラス内で生じている音声の動的特徴
    の変動を吸収することを目的として1つの状態を異なる
    音声区間に対応する2つの状態として直列方向に分割す
    る方法を含み、 実際の音声サンプルに対して高い評価値を達成する方向
    への状態分割を繰返すことによって、モデルの構造を逐
    次的に精密化していくことを特徴とする、請求項1の音
    声認識用サブワードモデル生成方法。
  3. 【請求項3】 前記音素コンテキスト方向への状態分割
    時には、それに伴って実際の音素コンテキストクラスに
    関する分割も行ない、実際の音声サンプルに対して最も
    高い評価値を達成するように分割された2つの音素コン
    テキストクラスを、それぞれ状態分割により生成された
    2つの状態の一方に割当てることにより、モデルの単位
    を逐次的に細分化していくことを特徴とする、請求項1
    の音声認識用サブワードモデル生成方法。
  4. 【請求項4】 各出力確率密度分布として混合数2の混
    合ガウス分布を割当て、前記状態分割により新たに生成
    される2つの状態に、その混合ガウス分布を構成する2
    つの分布のうちのそれぞれ一方の単一ガウス分布を割当
    てることにより、状態分割後の出力確率密度分布パラメ
    ータの再推定に要する計算量の大幅な削減を実現するこ
    とを特徴とする、請求項1の音声認識用サブワードモデ
    ル生成方法。
  5. 【請求項5】 実際の状態分割に先立って、その時点で
    存在するすべての状態の音声パラメータ空間上での大き
    さを計算し、これが最も大きい状態を被分割状態として
    決定することにより、最適な被分割状態を決定するため
    に必要な総当り的な計算を回避し、計算量の大幅な削減
    を実現することを特徴とする、請求項1の音声認識用サ
    ブワードモデル生成方法。
  6. 【請求項6】 前記状態分割を行なう度に、状態分割に
    より生じた単一ガウス分布を元の混合数2の混合ガウス
    分布に戻し、その条件下でモデルのパラメータ全体を最
    適化するための再学習部を持つことを特徴とする、請求
    項4の音声認識用サブワードモデル生成方法。
  7. 【請求項7】 前記状態分割が終了し、最終的なモデル
    の単位および構造が決定した後、各状態に割当てられて
    いる混合数2の混合ガウス分布を最終的に使用する出力
    確率密度分布の形状に置換えるための再学習部を持つこ
    とを特徴とする、請求項1の音声認識用サブワードモデ
    ル生成方法。
JP4064296A 1992-03-21 1992-03-21 音声認識用サブワードモデル生成方法 Expired - Lifetime JPH0782348B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP4064296A JPH0782348B2 (ja) 1992-03-21 1992-03-21 音声認識用サブワードモデル生成方法
DE4241688A DE4241688C2 (de) 1992-03-21 1992-12-10 Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung
US08/532,318 US5677988A (en) 1992-03-21 1995-09-21 Method of generating a subword model for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4064296A JPH0782348B2 (ja) 1992-03-21 1992-03-21 音声認識用サブワードモデル生成方法

Publications (2)

Publication Number Publication Date
JPH06202687A JPH06202687A (ja) 1994-07-22
JPH0782348B2 true JPH0782348B2 (ja) 1995-09-06

Family

ID=13254143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4064296A Expired - Lifetime JPH0782348B2 (ja) 1992-03-21 1992-03-21 音声認識用サブワードモデル生成方法

Country Status (3)

Country Link
US (1) US5677988A (ja)
JP (1) JPH0782348B2 (ja)
DE (1) DE4241688C2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000014723A1 (fr) * 1998-09-09 2000-03-16 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance de la parole

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2980228B2 (ja) * 1994-10-25 1999-11-22 日本ビクター株式会社 音声認識用音響モデル生成方法
DE19705471C2 (de) * 1997-02-13 1998-04-09 Sican F & E Gmbh Sibet Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations
US5963902A (en) * 1997-07-30 1999-10-05 Nynex Science & Technology, Inc. Methods and apparatus for decreasing the size of generated models trained for automatic pattern recognition
US5950158A (en) * 1997-07-30 1999-09-07 Nynex Science And Technology, Inc. Methods and apparatus for decreasing the size of pattern recognition models by pruning low-scoring models from generated sets of models
US6073098A (en) 1997-11-21 2000-06-06 At&T Corporation Method and apparatus for generating deterministic approximate weighted finite-state automata
KR100577515B1 (ko) 1999-11-12 2006-05-10 주식회사 케이티 히든 마르코프 모델 파라미터의 가우시안 믹스츄어 갯수설정방법
FR2857528B1 (fr) * 2003-07-08 2006-01-06 Telisma Reconnaissance vocale pour les larges vocabulaires dynamiques
EP1741092B1 (fr) * 2004-04-20 2008-06-11 France Télécom Reconnaissance vocale par modelisation contextuelle d'unites vocales
DE602005012596D1 (de) * 2004-10-19 2009-03-19 France Telecom Spracherkennungsverfahren mit temporaler markereinfügung und entsprechendes system
US7447633B2 (en) * 2004-11-22 2008-11-04 International Business Machines Corporation Method and apparatus for training a text independent speaker recognition system using speech data with text labels
JP4298672B2 (ja) * 2005-04-11 2009-07-22 キヤノン株式会社 混合分布hmmの状態の出力確率計算方法および装置
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7877256B2 (en) * 2006-02-17 2011-01-25 Microsoft Corporation Time synchronous decoding for long-span hidden trajectory model
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8135590B2 (en) 2007-01-11 2012-03-13 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
US7724134B2 (en) * 2007-06-15 2010-05-25 Icove And Associates, Llc Passive microwave fire and intrusion detection system
US8493212B2 (en) 2007-06-15 2013-07-23 Icore and Associates, LLC Passive microwave system and method for protecting a structure from fire threats
US8044798B2 (en) * 2007-06-15 2011-10-25 Icove And Associates, Llc Passive microwave speed and intrusion detection system
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
JP6274015B2 (ja) * 2014-05-29 2018-02-07 富士通株式会社 音響モデル調整装置及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4889898A (ja) * 1972-03-03 1973-11-24

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4819271A (en) * 1985-05-29 1989-04-04 International Business Machines Corporation Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US4882759A (en) * 1986-04-18 1989-11-21 International Business Machines Corporation Synthesizing word baseforms used in speech recognition
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
US5072452A (en) * 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
JP2600871B2 (ja) * 1987-12-16 1997-04-16 松下電器産業株式会社 Hmm作成装置及びそれを用いた尤度計算装置、時系列パターン認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4889898A (ja) * 1972-03-03 1973-11-24

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000014723A1 (fr) * 1998-09-09 2000-03-16 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance de la parole

Also Published As

Publication number Publication date
US5677988A (en) 1997-10-14
DE4241688A1 (en) 1993-09-23
JPH06202687A (ja) 1994-07-22
DE4241688C2 (de) 1996-09-19

Similar Documents

Publication Publication Date Title
JPH0782348B2 (ja) 音声認識用サブワードモデル生成方法
US5729656A (en) Reduction of search space in speech recognition using phone boundaries and phone ranking
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
US7292977B2 (en) Systems and methods for providing online fast speaker adaptation in speech recognition
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
JP5418223B2 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
US5680509A (en) Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree
EP0788649A2 (en) Method and system for pattern recognition based on tree organised probability densities
JPH09152886A (ja) 不特定話者モデル生成装置及び音声認識装置
Zweig et al. Probabilistic modeling with Bayesian networks for automatic speech recognition.
JP2980228B2 (ja) 音声認識用音響モデル生成方法
US7133827B1 (en) Training speech recognition word models from word samples synthesized by Monte Carlo techniques
Zweig Bayesian network structures and inference techniques for automatic speech recognition
JPH08211889A (ja) 木構造を用いたパターン適応化方式
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
Daoudi et al. Continuous multi-band speech recognition using Bayesian Networks
Liu et al. Automatic model complexity control using marginalized discriminative growth functions
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
De Mori et al. Search and learning strategies for improving hidden Markov models
Hashimoto et al. Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011
JP5967578B2 (ja) 局所韻律コンテキスト付与装置、局所韻律コンテキスト付与方法、およびプログラム
JP3439700B2 (ja) 音響モデル学習装置、音響モデル変換装置及び音声認識装置
Cazau et al. Investigation on the use of Hidden-Markov Models in automatic transcription of music

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19960227

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080906

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080906

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090906

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100906

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100906

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110906

Year of fee payment: 16

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120906

Year of fee payment: 17

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120906

Year of fee payment: 17