JP2005321660A - 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 - Google Patents
統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 Download PDFInfo
- Publication number
- JP2005321660A JP2005321660A JP2004140320A JP2004140320A JP2005321660A JP 2005321660 A JP2005321660 A JP 2005321660A JP 2004140320 A JP2004140320 A JP 2004140320A JP 2004140320 A JP2004140320 A JP 2004140320A JP 2005321660 A JP2005321660 A JP 2005321660A
- Authority
- JP
- Japan
- Prior art keywords
- state
- statistical model
- likelihood
- distributions
- mixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】 トポロジーが同一で混合確率分布のみが異なる話者または環境雑音が異なる入力音声信号に対し、前記話者、環境雑音のそれぞれに専用の音響モデルAとBから各同一の状態Siの混合確率分布を取り出し、これらの集合をトポロジーが同一の新たな音響モデルA+Bの状態Siの混合確率分布とする。
【選択図】 図1
Description
一般的音声認識方法
まず、図16を参照して、従来の音声認識方法について説明する。なお以下の説明において、対応する構成には同一参照番号をつけて重複説明を省略する。
この図において、入力音声信号701は、音声分析部702において特徴ベクトル703の時系列に変換されて、探索処理部705に入力される。探索処理部705においては、メモリ71内の音響モデル704を用いて、メモリ72内の文法706で表現される単語(列)と特徴ベクトル703の時系列との照合がメモリ73内の発音辞書707による単語の読みを参照して行われ、つまり探索処理が行われ、尤度の最も高い単語(列)が認識結果情報709として出力される。
音響モデル704としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル(Hidden Markov Model、略してHMMと書く)が汎用される。通常、HMMは音素ごとに作成されるが、最もよく用いられる音素HMMとして、当該音素に先行および後続する音素の両方を音素環境として考慮しないモノホン(monophone)-HMM(例えば、*-a-*は、音素aのmonophone−HMM.*は任意の音素を表す)、当該音素に先行する音素のみ音素環境として考慮する先行音素環境依存バイホン(biphone)-HMM(例えば、p-i-*は、先行音素がpである音素iの先行音素環境依存biphone-HMM)、当該音素に後続する音素のみ音素環境として考慮する後続音素環境依存biphone-HMM(例えば、*-t-uは、後続音素がuである音素tの後続音素環境依存biphone-HMM)、当該音素に先行及び後続する音素の両方を音素環境として考慮するトライホン(triphone)-HMM(例えば、k-o-eは、先行音素がk、後続音素がeである音素oのtriphone-HMM)が挙げられる。
音響モデル704の構造について説明する。
まず、図21に示すように、状態Sが混合確率分布Mとして表現される。混合確率分布Mの各要素分布としては、離散確率分布と連続確率分布があるが、現在、最もよく用いられているのは、連続確率分布の一つである多次元正規(ガウス)分布であり、そのうちでも次元間の相関がない(共分散行列の対角成分が0である)多次元無相関正規分布が最もよく用いられる。多次元正規分布の各次元は、上記特徴量ベクトルの各次元に対応する。図21では、状態Sが4つの多次元正規分布N1〜N4を要素分布とする多次元混合正規分布Mとして表現されている。図21では、特徴量ベクトルのある次元dについて示しているが、上記特徴量ベクトルの各次元について同様に表現される。図22に示すように、上記のような状態を数百〜数万個程度含む集合があり、集合に含まれる状態のうちの数個〜十数個程度の確率連鎖によって、音素HMMが構築される。例えば、図22では、3つの状態S4,S2,S3の確率連鎖によって、音素カテゴリt-e-nを表現する音素HMM1(先行音素がt、後続音素がnである音素eのtriphone-HMM)が構築され、また、3つの状態S8,S2,S7の確率連鎖によって、音素カテゴリk-e-*を表現する音素HMM2(先行音素がkである音素eの先行音素環境依存biphone-HMM)が構築される。また、音素HMM1と音素HMM2は、それぞれの2番目の状態(第2状態)として共に状態S2を用いている。このように複数の音素HMMが同じ状態を共に用いることは状態共有と呼ばれる。このように音素カテゴリを表現する音素HMMの集合としてひとつの音響モデルが構築される。音素カテゴリ(音素HMM)の種類は、音響モデルの学習データに依存するが、例えば、t-t-tなど日本語の音素連鎖としてありえないものは含まれず、一般に、数千〜数万程度になる。
音響モデル704を用いた尤度計算方法について説明する。
図23の音素HMM1に、ある特徴ベクトルの時系列が入力されたときの尤度計算について解説する。例えば、6フレーム分の特徴量ベクトルの時系列X=X1,X2,X3,X4,X5,X6が、音素HMM1のあるひとつの状態遷移系列S=S4->S4->S2->S2->S3->S3から出力される確率(尤度)P(X|S,HMM1)は、以下のように計算される。
上記の尤度計算は、ある一つの状態遷移系列Sに対するものであるが、このような状態遷移系列は他にもあげることができる。このような状態遷移系列全てに対して、特徴ベクトルの時系列Xを出力する確率を計算し、それらを加算したものを音素HMM1に特徴ベクトルの時系列Xが入力されたときの尤度とする方法はトレリス(trellis)アルゴリズムと呼ばれる。一方、全ての状態遷移系列のなかで最も高い尤度を与える状態遷移系列を特徴ベクトルの時系列によりフレーム単位で逐次的に求め、最終フレームに到達したときの尤度を音素HMM1に特徴ベクトルの時系列Xが入力されたときの尤度とする方法をビタービ(Viterbi)アルゴリズムという。一般的には、トレリスアルゴリズムと比較して計算量を大幅に削減できるビタービアルゴリズムが用いられることが多い。また、上記の尤度計算は、あるひとつの音素HMM1に対するものであるが、実際には、探索処理部705において、文法全体を表現する音素HMMネットワーク(探索ネットワーク)に対して同様の尤度計算が実行される。また、上記の尤度計算では、確率値をそのまま扱ったが、実際には、アンダーフローを防ぐために、確率値の対数をとって計算を行う。
上記の従来の音声認識方法の詳細は、例えば、文献(社団法人電子情報通信学会編、中川聖一著『確率モデルによる音声認識』)に開示されている。
一般に音声認識の精度は、話者(情報源)や話者の周囲の雑音環境(情報源がおかれている環境)などによって大きく影響を受ける。話者や雑音環境などの統計的性質の違いは音響モデルの各種パラメータによって表現可能であり、話者や雑音環境などに適合した音響モデルを用いることにより、高い音声認識精度を達成することができる。例えば、話者に関しては、男性及び女性の発声の両方を性別非依存の音響モデルを用いて認識するよりも、男性の発声は男声音響モデルで、女性の発声は女声音響モデルで認識する方が認識精度は高い。さらに言えば、同じ男性(または女性)でも話者ごとの統計的性質が異なることから、各個人の発声は各個人の専用音響モデルで認識する方が精度は高い。雑音環境に関しても同様であり、話者が自動車内で発声を行うのであれば、自動車内音響モデルで認識することで高い認識精度が得られ、そのうちでもさらにアイドリング時であればアイドリング時音響モデル、時速50kmで走行中であれば、時速50km走行時音響モデル、(高速道路などを)時速100kmで走行中であれば、時速100km走行時音響モデルと、話者が置かれている状況に合わせた音響モデルを用いることにより高い認識精度を得ることができる。話者や雑音環境が違っている情報源をこの明細書では統計的性質が違う情報源という。
一つ目の例を図24を用いて解説する。この例では、男声および女声音響モデル704Mおよび704Fをそれぞれ格納したメモリ71Mおよび71Fと、これらモデルに対応する探索処理部705Mおよび705Fがそれぞれ準備される。音声分析部702において入力音声信号701から抽出された特徴ベクトル702の時系列は男女それぞれの探索処理部705M,705Fに入力され、それぞれ文法706との照合が行われ、それぞれ認識結果709M,709Fが得られる。続いて、認識結果比較部1510において二つの認識結果709Mと709Fの比較が行われ、いずれかの認識結果を最終結果情報709として出力する。認識結果比較部1510においては、新たな知識源が導入されることもあるが、最も簡単には、二つの認識結果709Mと709Fの各尤度が比較され、尤度が高い方が選択される。
D.A. Reynolds and R.C.Rose, "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models," IEEE Trans. on Speech and Audio Processing, vol.3, no.1, pp.72-83, Jan. 1995 J.L. Gauvain and C.H.Lee, "Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains," IEEE Trans. on Speech and Audio Processing, vol.2, no.2, pp.291-298, Apr. 1994 C.J. Leggetter and P.C. Woodland, "Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models," Computer Speech and Language, Sep. 1995, pp.171-185
この発明による音声認識方法の基本構成は従来の最も簡単な構成である図16と同じであるが、音響モデル704の構造とそれを用いた尤度計算方法が従来方法とは異なる。
なお、以下の説明では、話者や雑音環境の違いにより二つの音響モデルAおよびBが準備されている場合を想定するが、3つ以上の音響モデルが準備されている場合についても、同様な方法により、この発明を適用することができる。また、音響モデルAおよびBにおいては、表現する音素カテゴリ集合が同じであり、かつ前記各音素カテゴリ集合を表現する各統計モデル集合が同じであり、かつ前記各統計モデル集合が同じ状態集合に基づく同じ状態確率連鎖で表現されており、各状態を表現する混合確率分布のみ異なるものとする。一般に、状態集合より上位の音響モデルの構造はトポロジーと呼ばれる。音響モデルAおよびBはトポロジーが同じである。このようなトポロジーが同じであり、各状態を表現する混合確率分布のみ異なる音響モデルは、非特許文献2に示すMAP適応や非特許文献3に示すMLLR適応などの話者適応方法を用いれば容易に作成可能である。
基本構成
図1に、この発明による音響モデルの作成方法の一実施形態を示す。
この実施形態では、音響モデルメモリ10Aと10Bにそれぞれ、トポロジーが同じ音響モデルAとBが格納されている。これら音響モデルAとBを合成部11で合成して音響モデルAおよびBとトポロジーが同じである新たな音響モデルA+Bを作り、音響モデルメモリ12に格納される。合成部11では音響モデルAおよびBの対応する状態を表現する混合正規分布MAおよびMBの集合MA+MBとし、これを音響モデルA+Bの状態を表現する混合正規分布とする。
aij A+B=(aij A+aij B)/2
aii A+B=(aii A+aii B)/2
音響モデルA,B及びA+Bはそのカテゴリごとに、その第1状態、第2状態、第3状態と、その各状態ごとの状態遷移確率aij、自己遷移確率aii、各混合正規分布と、その分布miごとの重みWmi、各次元dごとの平均μimd、共分散σimd2、が図15に示すようにメモリに格納されている。
要素分布数削減
この尤度計算量の増加に対応する方法として、この発明の一実施形態では、図3に示すように、音響モデルA+Bの各状態における混合正規分布MA+MBの各要素正規分布において、分布間距離の近い二つの要素正規分布同士を統合して新たな一つの要素正規分布を作成することで、混合正規分布の要素正規分布数を削減する。図3では、要素正規分布NA3及びNB1間の分布間距離が全ての要素分布間距離の中で最も小さいため、これらを統合して新たな要素正規分布NA3+NB1を作成する。2つの多次元無相関正規分布の統合の計算式を示す。2つの多次元無相関正規分布N1,N2の次元dにおける平均、分散および分布重みをそれぞれ(μ1d,σ1d2,W1)、(μ2d,σ2d2,W2)とすると、それらを統合した分布Nの次元dにおける平均、分散および分布重み(μd,σd,W)は以下の式を計算して求める(分布重みは全次元で同じ値である)。なおσ1d2は(σ1d)2のことを表す、以下の表記も同様とする。
上記の混合正規分布における要素正規分布の統合は様々な基準で繰り返し行うことができる。その基準の一つとしては、音響モデルA+Bの全ての状態に共通の一定の要素正規分布数を設定し、その値を目標として各状態において、上記の要素正規分布統合を繰り返すことである。図4に示すように音響モデルメモリ12から各状態の二つの要素正規分布の全ての組み合わせについて分布間距離を計算し(ステップS1)、これら分布間距離が最小となった二つの要素正規分布を選択し(ステップS2)、これら選択した二つの要素正規分布を統合計算して一つの要素正規分布とし(ステップS3)、その結果、その状態における要素正規分布の数が目標値になったかを判定し(ステップS4)、目標値になっていなければステップS1に戻り、目標値になっていれば、削減処理を終了する。
また、要素正規分布統合の別の基準の一つとしては、音響モデルA+Bの各状態において個別の要素正規分布数を設定し、その値を目標として、各状態において、上記の要素正規分布統合を繰り返すことである。つまり、各状態の混合確率分布数は、4〜200、一般に100以下、4〜64程度であり、「a,i,u,e,o」などの母音は認識率に大きく影響し、音素「sh」などの摩擦音は、性別の差がほとんどないなど各状態により認識率への影響度が異なるため、認識率への影響が大きい状態に対して、混合確率分布数の目標値を100とし、認識率の影響が小さい状態に対しては混合確率分布数の目標値を4とするなど状態に応じて目標値を異ならせて、全体の混合確率分布数を削減してもよい。
また、要素正規分布統合の別の基準の一つとしては、音響モデルA+Bの各状態において個別の分布間距離のしきい値を設定し、各状態において、上記の要素正規分布統合を、しきい値以下の分布間距離を与える要素正規分布がなくなるまで繰り返すことである。これらしきい値を用いる場合は例えば図5に示すように、図4と同様にまずステップS1で要素正規分布の全ての二つ組の組み合わせについて分布間距離を計算するが、この場合は次にこれら計算した分布間距離中にしきい値以下のものがあるかを調べ(ステップS5)、あればステップS2で分布間距離が最小となった二つの分布を選択し、ステップS3でこれら分布を統合して、直ちにステップS1に戻る。ステップS5 で分布間距離がしきい値以下のものがなくなったら、削減処理を終了する。
これら削減処理の機能構成としては例えば図6に示すように、音響モデルA+Bを格納した音響モデルメモリ12、二つの分布間の距離を計算する分布間距離計算部21、分布間距離の最小を判定し、対応2分布を決定する最小距離判定部22、二つの要素確率分布を統合する分布統合計算部23、レジスタ24内の基準値と比較する比較部24と、メモリ12に対する書き込み、読み出し、各部を順次動作させることなどを行う制御部25を備える。削減処理に目標値を用いる場合は、メモリ12内の要素確率分布数を計算する分布数計算部26が設けられ、レジスタ24に基準値として目標値が設定され、比較部24において分布数計算部26で計算された分布数が目標値になったかの比較判定が行われる。削減処理にしきい値を用いる場合はレジスタ24aにしきい値が設定され、比較部24で計算した分布間距離がしきい値以下のものがあるか比較判定される。
上記の音響モデルA+Bの各状態の混合正規分布MA+MBを用いた尤度計算においては、例えば、入力音声の統計的性質が元の音響モデルAに適合するものであれば、音響モデルAに由来する要素正規分布の尤度が支配的になることを説明したが、音響モデルBに由来する要素正規分布の尤度が完全に無視されるわけではなく、これが尤度に悪影響を及ぼし、結果的に認識精度が低下する場合がある。
これに対処する方法として、この発明の他の実施形態では、図7に示すように、音響モデルA+Bの各状態の混合正規分布MA+MBを用いた尤度計算において、(2)式で示される各要素正規分布の尤度を加算する際に、尤度の高い上位K個の要素正規分布の尤度のみを加算する。図7では太い実線の要素正規分布NA1,NA2,NA3+NB1,NA4の各出力確率PNA1(Xt),PNA2(Xt),PNA3+NB1(Xt),PNA4(Xt)が上位Kであった場合である。このような尤度計算を行うことで、音響モデルAに適合する入力音声に対して尤度計算を行う際に、音響モデルBに由来する要素正規分布が出力する尤度の影響を完全に取り除くことができ、高精度の認識が可能となる。例えば図8に示すように音声認識装置における探索処理部705において、メモリ12内の音響モデルA+Bを用いて入力された各フレームごとの特徴ベクトルXtに対する状態Siを表現する混合正規分布Miからの出力確率を、状態分布確率出力計算部31で計算される。
音声認識処理では例えば図9に示すように入力音声信号を分析処理して特徴ベクトル時系列を生成し(ステップS11)、次に各状態の分布出力確率を計算するが、その際に各状態Siにおける各要素正規分布の出力確率分布Pim(Xt)を計算し、かつこれに対して、重みWimを乗算し(ステップS12)、その状態Siにおける要素正規分布出力確率(尤度)WimPim(Xt)中の上位のK個を加算してその状態Siの出力確率とする(ステップS13)。次に状態確率連鎖によって表現された統計モデルの出力確率(尤度)を前記求めた状態出力確率を用いて計算し(ステップS14)、その最も高い出力確率(尤度)を与える統計モデルが表すカテゴリを認識結果として出力する(ステップS15)。なお上位K個の選択の際の混合正規分布の尤度の計算は、重みWimを乗算することなく、Pimを用いてもよい。
代表正規分布の作成は、図3に示したように要素正規分布の統合を済ませてから行ってもよいし、例えば図4のステップS4で分布数が目標値以下となり、統合(削減)処理が終了すると、破線で示すように、元の各音響モデルに由来する要素正規分布群を選択し(ステップS6)、これら選択した各要素正規分布群ごとに、その群に属する要素正規分布を統合して代表正規分布とする(ステップS7)。図5に示した統合(削減)処理が終了した後に、同様に代表正規分布を求めてもよい。あるいは図2に示した混合正規分布MA+MBのように統合を行う前の混合正規分布に対して行ってもよい。また、代表正規分布の平均および分散は、(5)式および(6)式の拡張として容易に求められるため省略する。さらに代表正規分布の分布重みについては無視してよい。図11に示した手法による音声認識は例えば図12に示す処理手順、図13に示す機能構成のように、入力音声信号の特徴ベクトル時系列を生成し(ステップS11)、音響モデルA+Bにおける各状態Siの代表確率分布がメモリ71中の記憶部71aから読み出され、これを用いて状態出力確率を代表分布出力尤度計算部36で計算し(ステップS21)、これら代表確率分布の出力確率中の最大値を与える代表確率分布を代表分布選択部37により求め(ステップS22)、その求めた代表確率分布の統合前の各要素確率分布を用いて、状態尤度計算部38でそれぞれの出力確率を計算し、これらを重み付き加算して、その状態Siの出力確率とする(ステップS23)。この状態出力確率を用いて、状態の確率連鎖によって表現された統計モデルの出力確率を統計モデル尤度計算部34で計算し(ステップS14)、その最も高い確率(尤度)を与える統計モデルが表わすカテゴリを認識結果として出力部35より出力する(ステップS15)。
上記統計モデル作成方法、およびパターン認識方法(実施形態では音声認識方法)はいずれもコンピュータに実行させることもできる。つまり図1〜図5に示した統計モデルの作成方法の各過程をコンピュータに実行させるためのプログラムを用いればよく、あるいは例えば図9、図12に示すパターン認識方法の各過程をコンピュータに実行させるためのプログラムを用いればよい。これらプログラムはCD-ROM、磁気ディスク、半導体記憶装置などの記録媒体からコンピュータにインストールし、又は通信回線を介してコンピュータにダウンロードして利用することができる。
Claims (14)
- 異なる統計的性質の情報源をそれぞれ学習データとして作られたトポロジーが同一で混合確率分布を異にする複数の統計モデル集合が格納された記憶装置から、
上記複数の統計モデル集合の対応する各状態Siを表現する混合確率分布を取り出し、
これら取り出した混合確率分布の集合から状態Siを表現する新たな混合確率分布を求めて、上記複数の統計モデル集合とトポロジーが同一の新たな統計モデルの集合を構築することを特徴とする統計モデル作成方法。 - 上記取り出して集合した混合確率分布中の分布間距離が近い複数の確率分布は統合して新たな確率分布として各状態の混合確率分布数を削減することを特徴とする請求項1記載の統計モデル作成方法。
- 上記新たな統計モデル集合の全ての状態に共通の一定の混合確率分布数を設定し、その値を目標として各状態の混合確率分布数を削減することを特徴とする請求項2記載の統計モデル作成方法。
- 上記新たな統計モデル集合の各状態において個別の混合確率分布数を設定し、その値を目標として各状態の混合確率分布数を削減することを特徴とする請求項2記載の統計モデル作成方法。
- 上記新たな統計モデル集合の全ての状態に共通の一定の分布間距離のしきい値を設定し、各状態における確率分布の分布間距離が上記しきい値以上になるように各状態の混合確率部分布数を削減することを特徴とする請求項2記載の統計モデル作成方法。
- 上記新たな統計モデル集合の各状態において個別の分布間距離のしきい値を設定し、各状態における確率分布の分布間距離がその状態のしきい値以上になるように各状態の混合確率分布数を削減することを特徴とする統計モデル作成方法。
- 異なる統計的性質の情報源をそれぞれ学習データとして作られたトポロジーが同一で混合確率分布を異にする複数の統計モデル集合が格納された複数のモデルメモリから、
それぞれ対応する各状態Siを表現する混合確率分布を取り出し、これら混合確率分布を集合して、状態Siを表現する新たな混合確率分布として、上記トポロジーと同一な新たな統計モデルの集合に対するメモリに格納する合成部を備えることを特徴とする統計モデル作成装置。 - 統計的性質の異なる複数の情報源からの信号を分析して特徴ベクトルの時系列を生成し、
この特徴ベクトル時系列に対し混合確率分布で表現された状態の尤度を計算し、その尤度を用いて、状態の確率連鎖である統計モデルの集合に対する尤度を計算し、
最も高い尤度を与える統計モデルが表現するカテゴリに上記入力信号を分類するパターン認識方法において、
上記統計モデルの集合として、上記統計的性質の異なる複数の情報源の各統計モデル集合を上記請求項1〜6のいずれかに記載した方法で作られた新たな統計モデル集合を用いることを特徴とするパターン認識方法。 - 請求項8記載のパターン認識方法において、上記特徴ベクトルの時系列に対して、上記各状態の尤度として、その状態に含まれる混合確率分布のうち、尤度の高い上位K個(Kはその混合確率分布の数より小さい値)の確率分布の尤度を加算した値を用いることを特徴とするパターン認識方法。
- 請求項8記載のパターン認識方法において、新たな統計モデル集合の各状態をその元になる各統計モデル集合の各状態を表現する混合確率分布の集合として表現する際に、元になる各統計モデル集合ごとに混合確率分布を統合して代表確率分布を作成しておき、情報源から生成された特徴ベクトルの時系列に対して、新たな統計モデル集合の尤度を計算する際に、予備選択として、まず、各状態に属する前記代表確率分布を用いて尤度を計算し、次いで、最も高い尤度を与える代表確率分布に属する混合確率分布を用いて尤度を計算し、その値を各状態の尤度とすることを特徴とするパターン認識方法。
- 請求項1〜6のいずれかにより作成された新たな統計モデルが格納されたモデルメモリと、
入力信号を分析して特徴ベクトルの時系列を生成する分析部と、
上記特徴ベクトルの時系列に対する上記モデルメモリ内の新たな各統計モデルの尤度を計算する尤度計算部と、
上記計算された尤度中の最高のものを決定し、その尤度を与えた統計モデルが表現するカテゴリを認識結果として出力する出力部と
を具備することを特徴とするパターン認識装置。 - 請求項1〜6のいずれかに記載した統計モデル作成方法の各過程をコンピュータに実行させるためのプログラム。
- 請求項7〜10のいずれかに記載したパターン認識方法の各過程をコンピュータに実行させるためのプログラム。
- 請求項12または13に記載したプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004140320A JP2005321660A (ja) | 2004-05-10 | 2004-05-10 | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004140320A JP2005321660A (ja) | 2004-05-10 | 2004-05-10 | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005321660A true JP2005321660A (ja) | 2005-11-17 |
Family
ID=35468994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004140320A Pending JP2005321660A (ja) | 2004-05-10 | 2004-05-10 | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005321660A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008233759A (ja) * | 2007-03-23 | 2008-10-02 | Yamaha Corp | 混合モデル生成装置、音処理装置およびプログラム |
JP2009128496A (ja) * | 2007-11-21 | 2009-06-11 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
US8107735B2 (en) | 2007-04-10 | 2012-01-31 | Denso Corporation | Three dimensional shape reconstitution device and estimation device |
JP2013013092A (ja) * | 2011-06-29 | 2013-01-17 | Gracenote Inc | 双方向ストリーミングコンテンツ処理方法、装置、及びシステム |
-
2004
- 2004-05-10 JP JP2004140320A patent/JP2005321660A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008233759A (ja) * | 2007-03-23 | 2008-10-02 | Yamaha Corp | 混合モデル生成装置、音処理装置およびプログラム |
US8107735B2 (en) | 2007-04-10 | 2012-01-31 | Denso Corporation | Three dimensional shape reconstitution device and estimation device |
JP2009128496A (ja) * | 2007-11-21 | 2009-06-11 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
JP2013013092A (ja) * | 2011-06-29 | 2013-01-17 | Gracenote Inc | 双方向ストリーミングコンテンツ処理方法、装置、及びシステム |
US9160837B2 (en) | 2011-06-29 | 2015-10-13 | Gracenote, Inc. | Interactive streaming content apparatus, systems and methods |
US10134373B2 (en) | 2011-06-29 | 2018-11-20 | Gracenote, Inc. | Machine-control of a device based on machine-detected transitions |
US10783863B2 (en) | 2011-06-29 | 2020-09-22 | Gracenote, Inc. | Machine-control of a device based on machine-detected transitions |
US11417302B2 (en) | 2011-06-29 | 2022-08-16 | Gracenote, Inc. | Machine-control of a device based on machine-detected transitions |
US11935507B2 (en) | 2011-06-29 | 2024-03-19 | Gracenote, Inc. | Machine-control of a device based on machine-detected transitions |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2871561B2 (ja) | 不特定話者モデル生成装置及び音声認識装置 | |
JP5418223B2 (ja) | 音声分類装置、音声分類方法、および音声分類用プログラム | |
US8290773B2 (en) | Information processing apparatus, method and recording medium for generating acoustic model | |
US5812975A (en) | State transition model design method and voice recognition method and apparatus using same | |
JP5242724B2 (ja) | 音声プロセッサ、音声処理方法および音声プロセッサの学習方法 | |
EP1515305B1 (en) | Noise adaption for speech recognition | |
KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
US20140025382A1 (en) | Speech processing system | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
CN108538285B (zh) | 一种基于多任务神经网络的多样例关键词检测方法 | |
JPH0934486A (ja) | 音声認識方法、情報形成方法、音声認識装置および記録媒体 | |
US8595010B2 (en) | Program for creating hidden Markov model, information storage medium, system for creating hidden Markov model, speech recognition system, and method of speech recognition | |
US7574359B2 (en) | Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models | |
JP4796460B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP3088357B2 (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
JP3176210B2 (ja) | 音声認識方法及び音声認識装置 | |
JP2007078943A (ja) | 音響スコア計算プログラム | |
JP5740362B2 (ja) | 雑音抑圧装置、方法、及びプログラム | |
JP2005321660A (ja) | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 | |
JP2000075886A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Furui | Generalization problem in ASR acoustic model training and adaptation | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
JP4571921B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 | |
JP3439700B2 (ja) | 音響モデル学習装置、音響モデル変換装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060725 |
|
RD03 | Notification of appointment of power of attorney |
Effective date: 20060725 Free format text: JAPANESE INTERMEDIATE CODE: A7423 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090602 |