JP2004139060A - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP2004139060A
JP2004139060A JP2003329891A JP2003329891A JP2004139060A JP 2004139060 A JP2004139060 A JP 2004139060A JP 2003329891 A JP2003329891 A JP 2003329891A JP 2003329891 A JP2003329891 A JP 2003329891A JP 2004139060 A JP2004139060 A JP 2004139060A
Authority
JP
Japan
Prior art keywords
model
speech recognition
recognition system
vector
filter model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003329891A
Other languages
English (en)
Inventor
Donrai Shu
シュ・ドンライ
Kaishen Yao
ヤオ・カイシェン
Satoru Nakamura
中村 哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2003329891A priority Critical patent/JP2004139060A/ja
Publication of JP2004139060A publication Critical patent/JP2004139060A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 HMMエラーモデル(HEM)に対して雑音環境に対する適応化処理を行うことで、HEMの頑健性を向上させた音声認識システムを提供する。
【解決手段】 音声認識システムにおいて、予め学習された複数の隠れマルコフモデルの各々は、複数個のガウス分布を有する混合ガウス分布をシンボル出力確率として有する隠れマルコフモデルにより、観測ベクトルを表現するフィルタモデルと、フィルタモデルのモデル化出力と観測ベクトルとの差を複数個ガウス分布を有する混合ガウス分布で表現する残差モデルとを含む。残差モデルの複数個のガウス分布の平均ベクトルが外部環境に応じて適応化される。
【選択図】    図3

Description

 本発明は、音声認識を行なうためのシステムに関係し、より特定的には、雑音環境下で音声認識率を向上させることが可能な音声認識システムの構成に関する。
 近年の音声認識システムは、統計的手法の導入と、大規模なデータベースの構築により、不特定話者連続音声認識においても、飛躍的に認識率が向上している。
 このような音声認識システムへの統計的手法の導入においては、いわゆる、「隠れマルコフモデル(以下、HMMと呼ぶ)」が採用されている。すなわち、HMMとは、一般的なマルコフモデルの確率的な自由度をより拡大したモデルといえる。
 このHMMでは、状態(内部状態)と出力シンボルの2過程を考え、状態が確率的に遷移するとともに、それに応じてシンボルを確率的に出力すると考える。そのとき、外部からは状態の遷移は直接的には観測できず、出力シンボルのみが観測可能である。この意味で、このようなモデルが「HMM(”隠れ”マルコフモデル)」と呼ばれる。
 図6は、このようなHMMを図解的に示す概念図である。
 図6においては、状態数はn個であり、各状態間の遷移に対応して遷移確率aijが定義され、かつ各遷移にはシンボル出力確率が対応している。図6においては、遷移確率a11の状態1から状態1への自己遷移に対応する出力確率のみを例示的に示している。
 ここでHMMは、次の諸量を規定することによって定義される。
 1) 状態の集合:S={si
 2) 出力シンボルの集合:Y={yi
 3) 初期状態とその正規確率
 4) 状態遷移確率の集合A={aij
 状態siから状態sjに遷移する確率。マトリックス[aij]で表わす。
 5) 各状態におけるシンボル出力確率の集合B={bj(y)}
 状態siから状態sjに遷移して、シンボルyを出力する確率である。
 6) 終端状態の集合Q={qj
 以下、HMMによる音声認識についてさらに詳しく説明する。
 (1) 音声情報の離散シンボル化
 マルコフモデルを利用するためには、観測シンボルに対して、音声情報を(有限個の)シンボル集合からのシンボル系列で表現しなければならない。
 しかも、そのシンボルの総数があまり多くては処理が複雑化して実用的ではなくなる。このような音声情報を離散化する1つの方法としては、いわゆるケプストラム分析が用いられる。このケプストラム分析においては、まず波形を所定の時間間隔のフレームで切出した後、各フレーム毎にフーリエ変換および所定の演算処理を行なうことで、音声情報を有限個のケプストラム係数等の諸係数の集合として表現する。さらに、このようなケプストラム係数等に対して、ベクトル量子化が行なわれる。
 たとえば、このようなケプストラム分析によって、音声情報は、13次元のケプストラム係数と13次元のΔケプストラム係数と13次元のΔΔケプストラム係数との合計39次元の係数によって表現される。
 図6において、出力確率の横軸は、このような39次元の係数のうちの1つを表わし、縦軸は、そのような係数の値が出力される連続的な確率を表現している。
 図6に示した例では、たとえば、2つのピークを有する連続的な確率分布となっている。
 (2) 認識の原理
 HMMを用いた音声認識では、以下のような手続が行なわれる。
 a) 認識すべき各音声(たとえば単語)に対応して、HMMが作られているとする。
 b) 入力未知音声を分析し、音声シンボル系列を得る。
 c) 観測された音声シンボル系列が、各単語モデルに従って得られる事後確率を計算する。
 d) 事後確率を相互に比較して、最大の事後確率を与えるモデルに対応する単語を認識の結果とする。
 図7は、上述したようなケプストラム係数等のうち、第1のケプストラム係数C1および第2のケプストラム係数C2との相関関係を示す図である。
 図7において、点線で示す分布が母集団分布であるものとする。このような母集団分布を近似するためのモデル分布を実線で示す。
 上述したような39次元の係数のすべての組合せについて、モデル分布を表現しようとする場合、各係数相互間でのすべての共分散のパラメータを用いることとすると、たとえば392個のパラメータが必要となる。
 これだけのすべての共分散を用いてモデルを構築することとすると、上述したような、音声認識を行なう際の計算量が膨大となってしまう。
 そこで、一般には、このような39個の係数要素に対して、対角共分散のみを考慮し、複数のガウス分布の混合分布としてシンボル出力確率を近似することが行なわれる。
 図7では、このようにして、混合分布を採用した場合のモデル分布の構成を示している。
 なお、図7においては、4つのガウス分布によって、母集団分布が近似されている。より一般的には、{1,2,…,m,…,M}で番号付けられるM個(M:自然数)のガウス分布によって、母集団分布が近似されているものとする。
 この場合、各ガウス分布を表現するためには、その各々の平均と分散2つのパラメータが必要となるため、39個の要素に対して、必要となるパラメータの個数は、たとえば、(39×2×M)個となる。
 以上の説明は、HMMを学習により形成する場合に、雑音のないクリーンな音声を用いること前提としている。
 しかしながら、実際に音声認識システムが使用されるのは、たとえば、車両内といった環境であり、実験室での環境に比べると、周囲の雑音が無視できない。音声認識システムは、このような周囲雑音に対して頑健な認識を行なえることが要求される。
 このような周囲環境に対するシステムの頑健さを向上させるためにさまざまな方法が提案されてきた。これらの方法は大きく2つのカテゴリに分けることができる。すなわち、特徴補償手法と外部環境モデル適応手法とである。
 後者の方法としては、MLLR法やMAP法が、それぞれ非特許文献1および非特許文献2に開示されている。
 これらのモデルによる適応方法は、頑健な音声認識の動作において向上を果たしてきた。しかしながら、今だ、標準的なHMMの枠組の中に限られたものである。
 一方で、このような適応モデルをより一般的なモデルに適用することも原理的には可能なはずである。
 たとえば、非特許文献3には、このような一般的なモデルとして、HMMエラーモデル(以下、HEMと呼ぶ)、すなわち、標準的なHMMの拡張モデルが提案されており、標準的なHMMに対してさまざまな利点が示されている。
Leggetter, C.J. and P.C. Woodland, "Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models", Computer Speech and Language, 1995, 9, pp. 171-185 Gauvain, J.L. and C.H. Lee, "Bayesian Learning of Gaussian Mixture Densities for Hidden Markov Models", Proc of the DARPA Speech and Natural Language Workshop, 1991, Palo Alto, CA pp. 272-277 M.J.F. Gales, "The HMM Error Model", ICASSP 2002, vol. I, pp. 937-940.
 しかしながら、従来、このようなより一般的なモデルであるHEMに対して、いかにして外部雑音に対する適応処理を行うべきかが、必ずしも明確でないという問題があった。
 本発明は、このような問題点を解決するためになされたものであって、HEMに対して雑音環境に対する適応化処理を行うことで、HEMの頑健性を向上させた音声認識システムを提供することを目的とする。
 上記のような目的を達成するために、本発明に係る音声認識システムは、発話に対応する音声に基づいて、音声を測定するフレームごとに特徴情報を抽出するための特徴抽出手段と、予め学習された複数の隠れマルコフモデルを格納するための記憶手段とを備え、隠れマルコフモデルの各々は、第1複数個のガウス分布を有する混合ガウス分布をシンボル出力確率として有する隠れマルコフモデルにより、観測ベクトルを表現するフィルターモデルと、フィルターモデルのモデル化出力と観測ベクトルとの差を第2複数個のガウス分布を有する混合ガウス分布で表現する残差モデルと、フィルターモデルを規定する第1のパラメータと残差モデルを規定する第2のパラメータのうちのいずれかを外部環境に応じて適応化する適応化手段とを含み、特徴抽出部の出力を受けて、隠れマルコフモデルに基づく音響モデルとのマッチングをとりつつ探索を行うことで音声認識を行う探索手段とを備える。
 好ましくは、適応化手段は、第2のパラメータのうち、各第2複数個のガウス分布の平均ベクトルを適応化する。
 好ましくは、適応化手段は、第1のパラメータのうち、フィルターモデルのバイアスベクトルを適応化する、請求項1記載の音声認識システム。
 好ましくは、フィルターモデルの変換行列は対角行列であって、
適応化手段は、第1のパラメータのうち、フィルターモデルの対角行列の対角要素およびフィルターモデルのバイアスベクトルを適応化する。
 本発明に係る音声認識システムにおいては、HEMに対して雑音環境に対する適応化処理を行うことで、HEMの頑健性を向上させることが可能である。
 [システムの構成]
 図1は、本発明の実施の形態1の音声認識システム100の構成を示す概略ブロック図である。
 図1を参照して、音声認識システム100は、話者(システム利用者)2からの音声を受け取るためのマイクロフォン102と、マイクロフォン102からの音声入力を受けて音声認識を行うための認識処理部110と、認識処理部110からの認識結果を表示するための表示出力部(たとえば、ディスプレイ)120とを備える。
 認識処理部110は、認識処理部110と外部とのデータの授受を制御するためのデータ入出力部70と、音声入力を受けて、デジタル信号に変換するためのA/D変換器10と、A/D変換器10の出力を受けて、フィルタリング等の信号処理を行なうための信号処理部20と、信号処理部20の出力を受けて、ケプストラム係数等の特徴ベクトルを抽出するための特徴ベクトル抽出部30と、予め学習等により生成されるHMMによる音韻モデルデータを格納しておくための音響モデルデータベース40と、認識するべき単語の事前確率に対応する統計データを格納している言語モデルデータベース50と、特徴ベクトル抽出部30からの出力を受けて、音響モデルデータベース40中のデータおよび言語モデルデータベース50中のデータとに基づいて、入力された特徴ベクトルに対応する認識すべき各音声(たとえば単語)を探索するための探索部60とを備える。探索部60は、データ入出力部70を介して、音声認識の結果を表示出力部120出力する。
 なお、以下に説明するような音声認識システム100の処理は、特徴ベクトル抽出部30や探索部60が行う処理を記述するためのプログラムと音響モデルデータベース40と言語モデルデータベース50とに保持されるべき初期データとを格納した記録媒体から、音声入力機能を有するコンピュータにこれらのプログラムおよびデータをインストールすることによっても実現可能である。このような記録媒体としては、特に限定されないが、たとえば、CD−ROMやDVD−ROM等を用いることができる。あるいは、これらのプログラムやデータは、インターネット等の通信回線を介して、音声入力機能を有するコンピュータにダウンロードすることも可能である。
 [音響モデルデータベース40中の音響モデル]
 以下、音響モデルデータベース40に格納される本発明の音響モデルデータについてさらに詳しく説明する。
 [本発明におけるHEM(HMMエラーモデル)]
 標準的なHMMでは、1つの状態遷移の流れとして、1つの隠れ状態系列のみが存在する。
 本発明におけるHEMにおいては、このようなモデルのトポロジーが拡張されて、2つのストリーム(流れ)が存在する。
 1つのストリームは、隠れ状態系列であり、もう1つの流れは、ガウス混合分布モデル(GMM)である。
 第1の流れは、データを観測空間から、その空間におけるデータが独立であって、かつ均一に分布しているようなデータの正規化された空間に変換をする。この第1の流れは、データを1つの空間から他の空間へとフィルタリングするものである。したがって、これは「フィルターモデル」と呼ばれる。
 第2の流れは、上述した正規化された空間におけるデータをモデル化している。それは、「残差」データをモデル化しているので、これは「残差モデル」と呼ばれる。
 標準的なHMMは、HEMの特別な場合である。ここでは、残差モデルがガウス分布N(0,1)で表わされている。
 これに対して本発明におけるHEMは、標準的なHMMに対して、複数のガウス分布の混合として、残差データの分布をモデリングすることによって、より柔軟性を有している。
 図2は、本発明におけるHEMを示す概念図である。
 フィルターモデルは、標準的なHMMモデルのトポロジーを有しており、残差モデルはガウス混合分布モデルである。
 図において、ベクトルOtは、観測された特徴ベクトルである。つまり、上述したようなケプストラム係数等により離散化された音声情報を表す。
 標準的なHMMに対しては、残差モデルは存在しない。これに対して、HEMは、付加的な残差モデルを有しており、これは、フィルターモデルによって観測データ空間から変換された正規化空間をモデル化している。
 すなわち、本発明においては、以下の手続きにより音声認識を行うことになる。
 1)不特定多数の発話者による、雑音等の混入を極力排除した音声により、HMMの学習を行い、フィルターモデルを初期的に決定する。
 このとき、観測ベクトルOtは、このようにして生成されたHMMにより、y´=AOt+bに変換される。このベクトルy´と観測値との差を、さらに混合ガウス分布による残差モデルでモデル化する。
 2)対象の環境(雑音環境)に応じて、後に説明するように、フィルターモデルまたは残差モデルを特徴づけるパラメータを更新する。
 3)雑音環境下での音声認識を行う。このとき、観測される音声は、雑音のために学習音声とは、異なった特徴を有する音声となる。
 ここで、フィルターモデルの1つの状態sを考えてみると、これは、M個のガウス分布要素によってモデル化されている。残差モデルは、K個の要素からなるガウス混合分布モデルである。状態sの尤度は、以下のように書き表わすことができる。
Figure 2004139060
 ここで、A(m),b(m)は、フィルターモデルの状態における変換マトリックスとバイアスベクトルである(m=1,…、M)。
 また、μ(k),Σ(k)は、それぞれ残差モデルにおける平均ベクトルと共分散マトリックスとである(k=1,…、K)。さらに、w(m),w(k)は、フィルターモデルの状態におけるm番目のガウス分布要素と残差モデルにおけるk番目のガウス分布要素との重みをそれぞれ表わしている。
 [HEM(HMMエラーモデル)の適応処理]
 適応処理は、モデルとテストデータとの間の不一致を少量の較正データで最小化する。
 以下に説明するとおり本発明においては、HEMのパラメータを外部環境に合わせて適応化する。
 HEMにおいては、適応化は2つの場所で実施することができる。1つは、フィルターモデルにおけるパラメータの適応化であり、もう1つは残差モデルにおけるパラメータの適応化である。
 [残差モデルの適応化]
 図3は、残差モデルにおいて適応化を行う処理(残差モデル適応化:RA)を説明するための概念図である。
 残差モデルにおいて平均ベクトルに対して変換を実施する。すなわち、混合ガウス分布密度関数において、k番目の平均ベクトルμ(k)は、以下の等式に従って変換される。
Figure 2004139060
 ここで、式(4)は、以下の式(5)のように簡略化して表現できる。
Figure 2004139060
 ここで、X=[z Y]および/μ(k)=[1 μ(k)TTである。なお、本文中では、変数の上部に記載される“−”を、“/”で代用することにする。
 Yおよびzは、適応回帰マトリックスおよびバイアスベクトルである。
 Xのパラメータ評価は、いわゆるEM(Expectation-Maximization)アルゴリズムを用いることで行なわれる。最大化の対象となる補助関数の形式は、非特許文献1に記載されているMLLR変換の評価関数と同様である。
 残差モデルの共分散マトリックスが対角行列に制限されている場合、このような変換は行ごとに計算される。その計算式を示すと以下の式のとおりである。
 なお、計算の詳細は、別途、後の(補遺1)に記載する。
Figure 2004139060
 上記式(6)において、各項はさらに以下のように計算される。
Figure 2004139060
 ここで、Xq,Zqは、行列XおよびZのq番目の行をそれぞれ表わしている。
 また、ν(k) qは、行列Vkのq番目の対角要素である。γ(mk) tは、時刻tにおいて、フィルターモデルのm番目のガウス分布に存在し、かつ残差モデルのk番目のガウス分布に存在している事後確率である。
 Tは、フレームの総数である。Mはフィルターモデルにおける変換要素の総数である。Kは、残差モデルにおけるガウス分布要素の個数である。
 以上のような処理により、図2で説明したHEMにおいて、残差モデルを構成する各ガウス分布の平均ベクトルを、外部環境に応じて更新することで、モデルの適応化を行うことができる。
 [フィルターモデルの適応処理]
 次に、図2で説明したHEMにおいて、フィルターモデルを構成する各ガウス分布を、外部環境に応じて更新する処理について説明する。
 フィルターモデルにおいては、変換マトリックスとバイアスベクトルとを適応化処理することができる。しかしながら、完全な適応回帰マトリックスを用いる場合には、これらの双方を同時に適応処理することは非常に複雑な処理となる。
 そこで、以下のような2種類の制限された方法を用いることができる。1つは、フィルターモデルにおいて、バイアスベクトルの適応化処理を行なうことである。以下このような適応処理をバイアスフィルターモデルベクトル適応化(BFA)と呼ぶことにする。
 図4は、BFAの処理を説明するための概念図である。
 このようなBFAの適応化処理は、以下の式で表現される。
Figure 2004139060
 このような適応化処理を行なった場合の評価の手法は、残差モデルを適応化処理した場合と同様である。なお、計算の詳細は、別途、後の(補遺2−1)に記載する。
 もう1つの方法は、変換マトリックスとフィルターモデルにおけるバイアスベクトルとを同時に適応化処理することである。ただし、この場合は、フィルターモデルにおける変換マトリックス、残差モデルにおける共分散マトリックスおよび適応化処理における回帰マトリックスは、すべて対角行列に限定される。そこで、このような処理を対角変換フィルターモデル適応化(DFA)と呼ぶ。
 図5は、DFAの処理を説明するための概念図である。
 この場合、適応化処理は以下の式(12)のように表現される。さらに、評価関数は、以下の式(13)で示される関係を満たす。
Figure 2004139060
 ここで、ai (m),bi (m),σi (k)2,yiは、それぞれ、ベクトルA(m),b(m),Σ(k),Yのそれぞれi番目の要素である。なお、計算の詳細は、別途、後の(補遺2−2)に記載する。
 以上のような適応化処理をオーロラ2タスクに対して評価した。
 このようなオーロラ2データベースについては、H.G.Hirsch and D. Pearce, “The AURORA Experimental Framework for the Performance Evaluations of Speech Recognition System under Noisy Conditions”, ISCA ITRW ASR2000 Paris, France, September 18-20, 2000で開示されている。
 表1は、3種類の適応化処理の結果を示すものである。
Figure 2004139060
 テストデータは、「地下鉄」データであって、それぞれ異なった信号対雑音比(SNR)を有している。
 HEMは、ベースラインのHMMを初期値としている。したがって、HEMは、ベースラインとほぼ同一のパラメータサイズを有している。
 テストデータからの10個の文が適応化処理のために用いられた。SNRが高い場合(15dB以上)、適応化方法はベースラインのモデルとほぼ同等の特性を示している。SNRが小さくなった場合には、適応化を用いた場合は、改善が見られている。
 たとえば、SNRが5dBである場合は、ベースラインの認識精度は52.23%である。これが、残差モデルにおける適応化によっては、61.47%まで改善され、DFAでは60.70%に、BFAでは63.43%にそれぞれ改善されている。平均として、3つの方法によって得られたエラーレートは、10%、11%および5%ずつ低減されていることがわかる。
 (補遺1)
 残差モデルにおける平均ベクトルの適応処理を考える。HEMにおける状態sの尤度は、もう一度記載すると、以下のように書き表わすことができる。
Figure 2004139060
 ここで、Mは、フィルターモデルにおける変換要素の総個数である。すなわち、フィルターモデルの1つの状態sを考えてみると、これは、M個のガウス分布要素によってモデル化されている。Kは、残差モデルにおけるガウス分布の要素の個数である。
 また、上述したとおり、w(m),w(k)は、フィルターモデルの状態におけるm番目のガウス分布要素と残差モデルにおけるk番目のガウス分布要素との重みをそれぞれ表わしている。W(m)=[A(m) b(m)]は、フィルターモデルの状態における変換マトリックスA(m)とバイアスベクトルb(m)から構成される(m=1,…、M)。また、μ(k),Σ(k)は、それぞれ残差モデルにおける平均ベクトルと共分散マトリックスとである(k=1,…、K)。
 このとき、HEMの補助関数は以下のとおりである。
Figure 2004139060
 ここにおいて、パラメータψは、μ(k)の部分独立(part independent)であり、γt (mk)は、時刻tでの、要素mおよび残差要素kにおける事後確率である。Tはフレームの総数である。
 以下の式(A3)〜(A5)のとおりに、変換の定義を行うこととする。
Figure 2004139060
 すると、式(A3)および式(A2)は、以下のとおり書き直すことができる。
Figure 2004139060
 ここで、Xは、適応データの尤度を最大化するn×(n+1)のマトリックスである。
 関数Qを、Xについて微分して0に等しいとおくことで、関数Qの最大値をもとめる。すなわち、以下の式(A8)のようにおくことで、式(A9)を得る。
Figure 2004139060
 ここで、さらに式(A10)〜(A12)のとおり定義すると、式(A9)は、Zを使って、以下の式(A13)のとおり書き換えられる。
Figure 2004139060
 HEMにおいては、Σ(k)は対角行列であるので、この変換は、行ごとに計算できる。つまり、式(A13)は以下のように書ける。
Figure 2004139060
 ここで、Xq,Zqは、それぞれXおよびZのq番目の行である。νq(k)は、Vkのq番目の対角要素である。したがって、Xは、以下の式(A15)のとおり、式(A14)から計算することができる。
Figure 2004139060
 (補遺2−1)
 変換式を以下の式(B1)のとおり定義する。
Figure 2004139060
 ここで、式(B2)〜(B3)のとおり定義すると、式(B1)は、式(B4)のとおり書くことができる。
Figure 2004139060
 補助関数Qは、以下のとおりとなる。
Figure 2004139060
 以下の式(B6)のとおり、関数QをXについて微分して0とおくことにより、式(B7)を得ることができる。
Figure 2004139060
 ここで、さらに式(B8)〜(B10)のとおり定義すると、式(B7)は、Zを使って、以下の式(B11)のとおり書き換えられる。
Figure 2004139060
 HEMにおいては、Σ(k)は対角行列であるので、この変換は、行ごとに計算できる。つまり、式(B11)は以下のように書ける。
Figure 2004139060
 ここで、Xq,Zqは、それぞれXおよびZのq番目の行である。νq(k)は、Vkのq番目の対角要素である。したがって、Xは、以下の式(B13)のとおり、式(B12)から計算することができる。
Figure 2004139060
 (補遺2−2)
 変換式を以下の式(B15)のとおり定義する。
Figure 2004139060
 補助関数Qは、以下のとおりとなる。
Figure 2004139060
 Yを対角行列に限定すると、式(B16)は以下の式(B17)ように書き換えられる。
Figure 2004139060
 ここで、ai (m),bi (m),σi (k)2,yiは、それぞれ、ベクトルA(m),b(m),Σ(k),Yのそれぞれi番目の要素である。
 関数Qを式Yについて微分し、0とおくと以下の式(B18)のようになる。
Figure 2004139060
 したがって、以下の関係式(B19)が成り立つことになる。これは、式(13)と同様の式である。
Figure 2004139060
 この式(B19)を、関数Qを最大化する値を求めるとの条件のもとに、解くことにより、yiを求めることができる。
 今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明の実施の形態1の音声認識システム100の構成を示す概略ブロック図である。 本発明におけるHEMを示す概念図である。 残差モデルにおいて適応化を行う処理を説明するための概念図である。 BFAの処理を説明するための概念図である。 DFAの処理を説明するための概念図である。 HMMを図解的に示す概念図である。 第1のケプストラム係数C1および第2のケプストラム係数C2との相関関係を示す図である。
符号の説明
 2 話者、10 A/D変換器、20 信号処理部、30 特徴ベクトル抽出部、40 音響モデルデータベース、50 言語モデルデータベース、60 探索部、70 データ入出力部、100 音声認識システム、102 マイクロフォン、110 認識処理部、120 表示出力部。

Claims (4)

  1. 音声認識システムであって、
     発話に対応する音声に基づいて、前記音声を測定するフレームごとに特徴情報を抽出するための特徴抽出手段と、
     予め学習された複数の隠れマルコフモデルを格納するための記憶手段とを備え、
     前記隠れマルコフモデルの各々は、
     第1複数個のガウス分布を有する混合ガウス分布をシンボル出力確率として有する隠れマルコフモデルにより、観測ベクトルを表現するフィルターモデルと、
     前記フィルターモデルのモデル化出力と前記観測ベクトルとの差を第2複数個のガウス分布を有する混合ガウス分布で表現する残差モデルと、
     前記フィルターモデルを規定する第1のパラメータと前記残差モデルを規定する第2のパラメータのうちのいずれかを外部環境に応じて適応化する適応化手段とを含み、
     前記特徴抽出部の出力を受けて、前記隠れマルコフモデルに基づく音響モデルとのマッチングをとりつつ探索を行うことで音声認識を行う探索手段とを備える、音声認識システム。
  2. 前記適応化手段は、前記第2のパラメータのうち、各前記第2複数個のガウス分布の平均ベクトルを適応化する、請求項1記載の音声認識システム。
  3. 前記適応化手段は、前記第1のパラメータのうち、前記フィルターモデルのバイアスベクトルを適応化する、請求項1記載の音声認識システム。
  4. 前記フィルターモデルの変換行列は対角行列であって、
    前記適応化手段は、前記第1のパラメータのうち、前記フィルターモデルの前記対角行列の対角要素および前記フィルターモデルのバイアスベクトルを適応化する、請求項1記載の音声認識システム。
JP2003329891A 2002-09-24 2003-09-22 音声認識システム Pending JP2004139060A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003329891A JP2004139060A (ja) 2002-09-24 2003-09-22 音声認識システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002277552 2002-09-24
JP2003329891A JP2004139060A (ja) 2002-09-24 2003-09-22 音声認識システム

Publications (1)

Publication Number Publication Date
JP2004139060A true JP2004139060A (ja) 2004-05-13

Family

ID=32473054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003329891A Pending JP2004139060A (ja) 2002-09-24 2003-09-22 音声認識システム

Country Status (1)

Country Link
JP (1) JP2004139060A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105259757A (zh) * 2015-10-22 2016-01-20 山东科技大学 一种受控随机系统的无限时域鲁棒控制器的控制方法
CN110808030A (zh) * 2019-11-22 2020-02-18 珠海格力电器股份有限公司 语音唤醒方法、系统、存储介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105259757A (zh) * 2015-10-22 2016-01-20 山东科技大学 一种受控随机系统的无限时域鲁棒控制器的控制方法
CN110808030A (zh) * 2019-11-22 2020-02-18 珠海格力电器股份有限公司 语音唤醒方法、系统、存储介质及电子设备

Similar Documents

Publication Publication Date Title
EP1515305B1 (en) Noise adaption for speech recognition
Lee On stochastic feature and model compensation approaches to robust speech recognition
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP5242724B2 (ja) 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
JP5058284B2 (ja) 音声認識システム、方法及びプログラム
JP5242782B2 (ja) 音声認識方法
US7409346B2 (en) Two-stage implementation for phonetic recognition using a bi-directional target-filtering model of speech coarticulation and reduction
JPH0850499A (ja) 信号識別方法
JPWO2009133719A1 (ja) 音響モデル学習装置および音声認識装置
JP4512848B2 (ja) 雑音抑圧装置及び音声認識システム
JP2010152081A (ja) 話者適応装置及びそのプログラム
EP1443495A1 (en) Method of speech recognition using hidden trajectory hidden markov models
KR20100072838A (ko) 비터비 디코더와 이를 이용한 음성 인식 방법
KR101026632B1 (ko) 포먼트 트랙킹 방법 및 컴퓨터 판독가능 기록 매체
JP2011237795A (ja) 音声処理方法及び装置
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
JP7192882B2 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
JP2004139060A (ja) 音声認識システム
JP4004368B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060822

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061219