JP2007233308A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2007233308A
JP2007233308A JP2006058374A JP2006058374A JP2007233308A JP 2007233308 A JP2007233308 A JP 2007233308A JP 2006058374 A JP2006058374 A JP 2006058374A JP 2006058374 A JP2006058374 A JP 2006058374A JP 2007233308 A JP2007233308 A JP 2007233308A
Authority
JP
Japan
Prior art keywords
noise
likelihood
matching model
matching
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006058374A
Other languages
English (en)
Inventor
Yoshiharu Abe
芳春 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2006058374A priority Critical patent/JP2007233308A/ja
Publication of JP2007233308A publication Critical patent/JP2007233308A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】雑音重畳音声を用いて直接学習された整合モデルを使用する場合と同程度の高い認識精度を得ることができるようにする。
【解決手段】状態jにおける特徴ベクトルxtに対するN個の整合モデルの尤度p(xt|j,n)を算出して、N個の整合モデの中から尤度が最大の整合モデルを探索するモデル探索部11と、モデル探索部11により探索された整合モデルを用いて、状態jにおける特徴ベクトルxtの尤度p(xt|j)を算出する尤度算出部12とを設け、その特徴ベクトルxtの尤度p(xt|j)からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する。
【選択図】図1

Description

この発明は、雑音環境下で、入力音声の認識処理を実施する音声認識装置に関するものである。
雑音下の音声認識方式を大別すると、音響モデルとして、雑音がないクリーン音声を表現するクリーン音声モデルを用いる方式と、雑音が重畳されている雑音重畳音声を表現する雑音重畳音声モデルを用いる方式がある。
クリーン音声モデルを用いる方式は、音声認識時の入力音声に重畳されている雑音成分を推定して、その雑音成分を除去するものである。
一方、雑音重畳音声モデルを用いる方式は、雑音が重畳されている入力音声に適合するように、音響モデルを認識時に学習又は適応によって用意するものである。
雑音重畳音声モデルを用いる方式を採用している従来の音声認識装置は、予め複数種類の雑音データを用いてガウス混合分布モデル(以下、雑音GMMという)を学習し、この雑音GMMとクリーン音声の隠れマルコフモデル(以下、HMMという)から、複数のSN比に対応する雑音重畳音声HMMを合成し、複数の雑音重畳音声HMMをマルチパス形式で並置して音声認識を行うようにしている(例えば、特許文献1参照)。
また、上記のような音声認識装置の他に、予め分類された雑音データを用いて雑音毎に学習された雑音HMMとクリーン音声HMMから雑音毎の雑音重畳音声HMMを合成し、入力音声のフレーム毎に、雑音毎の雑音重畳音声HMMから最適な雑音重畳音声HMMを選択する音声認識装置が開発されている(例えば、特許文献2参照)。
また、SN比と音質に応じて雑音重畳音声モデル空間を木構造的に作成して、その木構造を上から下まで辿ることにより最適な雑音重畳音声モデル空間を選択し、最適な雑音重畳音声モデル空間において、更に尤度が最大化するように線形変換している音声認識装置が開発されている(例えば、特許文献3参照)。
さらに、複数の雑音と複数のSN比の雑音重畳音声モデルをHMMの状態毎に混合分布として結合することにより、HMMを合成しているマルチミクスチャーモデルを使用する音声認識装置が開発されている(例えば、非特許文献1参照)。
特開2003−177781号公報 特開2003−280686号公報 特開2005−91476号公報 日本音響学会講演論文集2005年3月 3−5−4 「複数の雑音重畳モデルを合成した複数の雑音及びSN比に頑健な音響モデルの検討」
従来の音声認識装置は以上のように構成されているので、雑音GMMとクリーン音声HMMから雑音重畳音声HMMを合成する場合、または、雑音HMMとクリーン音声HMMから雑音重畳音声HMMを合成する場合、合成後の雑音重畳音声HMMが雑音HMM又は雑音GMMにより学習された平均パラメータに基づいて作成されるため、真の雑音重畳音声モデルの近似的なモデルになる。このため、雑音重畳音声を用いて直接学習された雑音重畳音声に適合する整合モデルと比べると、音声の認識性能が低くなるなどの課題があった。
また、雑音重畳音声モデル空間の木構造を上から下まで辿ることにより、最適な雑音重畳音声モデル空間を選択する場合、発話全体で尤度計算を実施しながら木構造中の位置を探索する際、膨大な量の尤度計算が必要になり、また、発話内の雑音種類の変化に対応することができないなどの課題があった
マルチミクスチャーモデルを使用する場合、複数の雑音と複数のSN比の雑音重畳音声モデルを混合分布モデルとしてマージするため、特定の雑音重畳音声を用いて直接学習された整合モデルと比べると、カバーする特徴空間の範囲が広がるため、出現頻度が小さい雑音重畳音声に対する認識性能が低くなるなどの課題があった。
この発明は上記のような課題を解決するためになされたもので、膨大な量の尤度計算を実施することなく、雑音重畳音声を用いて直接学習された整合モデルを使用する場合と同程度の高い認識精度を得ることができる音声認識装置を得ることを目的とする。
この発明に係る音声認識装置は、特徴ベクトル抽出手段により抽出された特徴ベクトルに対する複数の整合モデルの尤度を算出して、複数の整合モデルの中から尤度が最大の整合モデルを探索する整合モデル探索手段と、その整合モデル探索手段により探索された整合モデルを用いて、特徴ベクトル抽出手段により抽出された特徴ベクトルの尤度を算出する尤度算出手段とを設け、その尤度算出手段により算出された特徴ベクトルの尤度からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識するようにしたものである。
この発明によれば、特徴ベクトル抽出手段により抽出された特徴ベクトルに対する複数の整合モデルの尤度を算出して、複数の整合モデルの中から尤度が最大の整合モデルを探索する整合モデル探索手段と、その整合モデル探索手段により探索された整合モデルを用いて、特徴ベクトル抽出手段により抽出された特徴ベクトルの尤度を算出する尤度算出手段とを設け、その尤度算出手段により算出された特徴ベクトルの尤度からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識するように構成したので、膨大な量の尤度計算を実施することなく、雑音重畳音声を用いて直接学習された整合モデルを使用する場合と同程度の高い認識精度を得ることができる効果がある。
実施の形態1.
図1はこの発明の実施の形態1による音声認識装置を示す構成図であり、図において、整合モデル記憶部1は各種の雑音重畳音声にそれぞれ適合するN個の隠れマルコフモデルを整合モデル1−1〜1−Nとして記憶しているメモリである。整合モデル記憶部1は整合モデル記憶手段を構成している。
特徴ベクトル抽出部2は入力音声をフレーム単位に分析して、各フレームから特徴ベクトルxt(C0を含む0次から12次のメルケプストラム係数と、0次から12次のメルケプストラム係数のΔメルケプストラム係数及びΔΔメルケプストラム係数とを含む39次元の特徴ベクトル)を抽出する処理を実施する。なお、特徴ベクトル抽出部2は特徴ベクトル抽出手段を構成している。
マッチング処理部3は特徴ベクトル抽出部2により抽出された特徴ベクトルxtの系列とN個の整合モデル1−1〜1−Nとの照合処理を実施して、入力音声に対応する語彙を認識する処理を実施する。
マッチング処理部3のモデル探索部11は特徴ベクトル抽出部2により抽出された特徴ベクトルxtに対するN個の整合モデル1−1〜1−Nの尤度p(xt|j,n)を算出して、N個の整合モデル1−1〜1−Nの中から尤度が最大の整合モデルを探索する処理を実施する。なお、モデル探索部11は整合モデル探索手段を構成している。
マッチング処理部3の尤度算出部12はモデル探索部11により探索された整合モデルを用いて、特徴ベクトル抽出部2により抽出された特徴ベクトルxtの尤度(マルコフ過程の状態jにおける特徴ベクトルxtの尤度p(xt|j))を算出する処理を実施する。なお、尤度算出部12は尤度算出手段を構成している。
マッチング処理部3の語彙認識部13は尤度算出部12により算出された状態jにおける特徴ベクトルxtの尤度p(xt|j)からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する処理を実施する。なお、語彙認識部13は語彙認識手段を構成している。
図2はこの発明の実施の形態1による音声認識装置の整合モデル生成処理部を示す構成図であり、図において、雑音データメモリ31は入力音声に重畳されることが予想される雑音環境下の雑音データを記憶しているメモリである。
雑音分類部32は雑音データメモリ31に記憶されている雑音環境下の雑音データを雑音の種類別に分類する処理を実施する。
例えば、雑音データメモリ31に記憶されている雑音環境下の雑音データが車両のエンジン音であれば、その雑音データを雑音データベース33の雑音データメモリ33−1に分類し、その雑音データが車両のエアコン音であれば、その雑音データを雑音データベース33の雑音データメモリ33−2に分類し、その雑音データが車両のウインカー音であれば、その雑音データを雑音データベース33の雑音データメモリ33−Nに分類する。
なお、雑音データの分類処理は、雑音分類部32が公知の分類アルゴリズムを使用して自動的に実施してもよいが、雑音分類部32がユーザの分類指示を受け付けて手動で分類するようにしてもよい。
雑音データベース33は雑音分類部32により分類された雑音環境下の雑音データを記憶するN個の雑音データメモリ33−1〜33−Nから構成されている。
クリーン音声データメモリ34は隠れマルコフモデルの学習用データとして、雑音がないクリーンな音声データを記憶しているメモリである。
雑音重畳部35は雑音データベース33の雑音データメモリ33−1〜33−Nに記憶されている雑音環境下の雑音データをクリーン音声データメモリ34に記憶されているクリーン音声データにそれぞれ重畳して(音声認識時に想定されるSN比(例えば、15dB)、あるいは、想定される範囲の複数のSN比(例えば、5,10,15,20dBの4通り)で、雑音環境下の雑音データをクリーン音声データに重畳する)、N個の雑音重畳音声データを生成する処理を実施する。なお、雑音重畳部35は雑音重畳音声生成手段を構成している。
雑音重畳音声データベース36は雑音重畳部35により生成された雑音重畳音声データを記憶するN個の雑音重畳音声メモリ36−1〜36−Nから構成されている。
HMM学習部37は雑音重畳音声データベース36の雑音重畳音声メモリ36−1〜36−Nに記憶されている雑音重畳音声データに適合する隠れマルコフモデルを学習してN個の整合モデル1−1〜1−Nを形成し、N個の整合モデル1−1〜1−Nを整合モデル記憶部1に格納する処理を実施する。なお、HMM学習部37は整合モデル形成手段を構成している。
図3はこの発明の実施の形態1による音声認識装置の処理内容を示すフローチャートである。
次に動作について説明する。
音声認識装置は、音声認識処理を実施するに先立ってN個の整合モデル1−1〜1−Nの形成処理を実施する。
即ち、音声認識装置の雑音分類部32は、雑音データメモリ31から入力音声に重畳されることが予想される雑音環境下の雑音データを収集し、その雑音環境下の雑音データを雑音の種類別に分類する。
例えば、雑音データメモリ31に記憶されている雑音環境下の雑音データが車両のエンジン音であれば、その雑音データを雑音データベース33の雑音データメモリ33−1に分類し、その雑音データが車両のエアコン音であれば、その雑音データを雑音データベース33の雑音データメモリ33−2に分類し、その雑音データが車両のウインカー音であれば、その雑音データを雑音データベース33の雑音データメモリ33−Nに分類する。
なお、雑音データの分類処理は、雑音分類部32が公知の分類アルゴリズムを使用して自動的に実施してもよいが、雑音分類部32がユーザの分類指示を受け付けて手動で分類するようにしてもよい。
雑音重畳部35は、雑音分類部32が雑音環境下の雑音データを雑音の種類別に分類すると、雑音データベース33の雑音データメモリ33−1〜33−Nに記憶されている雑音環境下の雑音データをクリーン音声データメモリ34に記憶されているクリーン音声データにそれぞれ重畳して、N個の雑音重畳音声データを生成する。
即ち、雑音重畳部35は、音声認識時に想定されるSN比(例えば、15dB)、あるいは、想定される範囲の複数のSN比(例えば、5,10,15,20dBの4通り)で、雑音環境下の雑音データをクリーン音声データに重畳することにより、N個の雑音重畳音声データを生成し、N個の雑音重畳音声データを雑音重畳音声データベース36の雑音重畳音声メモリ36−1〜36−Nにそれぞれ格納する。
HMM学習部37は、雑音重畳部35がN個の雑音重畳音声データを生成すると、雑音重畳音声データベース36の雑音重畳音声メモリ36−1〜36−Nに記憶されているN個の雑音重畳音声データに適合する隠れマルコフモデルを学習してN個の整合モデル1−1〜1−Nを形成する。
そして、HMM学習部37は、N個の整合モデル1−1〜1−Nを整合モデル記憶部1に格納する。
次に、音声認識装置の音声認識処理を説明する。
この実施の形態1では、T個のフレームからなる入力音声の認識処理を実施するものとする。
即ち、この実施の形態1では、入力音声のフレームを単位とする時刻をt=1,2,・・・,Tとする。この場合、入力音声の発話開始フレームは時刻1、発話終了フレームは時刻Tになる。
マッチング処理部3の語彙認識部13は、音声認識処理の前処理として、マルコフ過程の各状態jの前向き確率α(j,t)を下記のように初期化する(ステップST1)。
Figure 2007233308
ただし、“Initials”はHMMの初期状態の集合である。
特徴ベクトル抽出部2は、雑音環境下で入力音声を取り込むと、その入力音声をフレーム単位に分析して、各フレームから特徴ベクトルxtを抽出する(ステップST2)。
即ち、特徴ベクトル抽出部2は、入力音声の各フレームからC0を含む0次から12次のメルケプストラム係数と、0次から12次のメルケプストラム係数のΔメルケプストラム係数及びΔΔメルケプストラム係数とを含む39次元の特徴ベクトルを抽出する。
マッチング処理部3のモデル探索部11は、特徴ベクトル抽出部2が特徴ベクトルxtを抽出すると、整合モデル記憶部1からN個の整合モデル1−1〜1−Nを取得し、その特徴ベクトルxtに対するN個の整合モデル1−1〜1−Nの尤度p(xt|j,n)を算出する(ステップST3)。
即ち、モデル探索部11は、特徴ベクトル抽出部2が特徴ベクトルxtを抽出すると、整合モデル記憶部1に記憶されているN個の整合モデル1−1〜1−Nの中から任意の整合モデル(以下、雑音nの整合モデルと称する)を一つ選択する。
そして、モデル探索部11は、下記の式(2)に示すような、特徴ベクトルxtに対するガウス混合密度関数の演算を実施することにより、雑音nの整合モデルの尤度p(xt|j,n)を算出する。
Figure 2007233308
ここで、P(j,m)は雑音nの整合モデルの状態jにおける混合分布のm番目の分布の重みである。
μj,m,nは雑音nの整合モデルの状態jにおける混合分布のm番目の正規分布の平均であり、Σj,m,nは雑音nの整合モデルの状態jにおける混合分布のm番目の正規分布の分散である。
N(xt,μj,m,n,Σj,m,n)は平均μj,m,n、分散Σj,m,nの対角正規分布の密度関数である。
モデル探索部11は、上記の演算を繰り返し実施して、状態j毎に、N個の整合モデル1−1〜1−Nの尤度p(xt|j,n)を算出し、N個の整合モデル1−1〜1−Nの中から尤度が最大の整合モデルを探索する。
モデル探索部11は、尤度が最大の整合モデルを探索すると、下記の式(3)に示すように、尤度が最大の整合モデルに対応する雑音nmaxを特定する(ステップST3)。
Figure 2007233308
ここで、Nは整合モデルの個数である。
マッチング処理部3の尤度算出部12は、モデル探索部11が尤度が最大の整合モデルを探索すると、その整合モデルを用いて、特徴ベクトル抽出部2により抽出された特徴ベクトルxtの尤度、即ち、状態jにおける特徴ベクトルxtの尤度p(xt|j))を算出する(ステップST4)。
具体的には、下記の式(4)に示すように、雑音nmaxの整合モデルの尤度p(xt|j,nmax)を状態jにおける特徴ベクトルxtの尤度p(xt|j)とみなすようにする。
Figure 2007233308
マッチング処理部3の語彙認識部13は、尤度算出部12が状態jにおける特徴ベクトルxtの尤度p(xt|j)を算出すると、状態jにおける特徴ベクトルxtの尤度p(xt|j)を下記の漸化式に代入することにより、状態jの前向き確率α(j,t)を更新する(ステップST5)。
下記の漸化式は、ビタビアルゴリズムの漸化式であるが、ビタビアルゴリズムの漸化式に限るものではなく、例えば、最大値演算を総和演算で置き換えたトレリスアルゴリズムの漸化式を用いてもよい。
Figure 2007233308
ここで、δ(i,j)は状態iから状態jの遷移が可能であることを示し、Ω(t−1)は時刻t−1で残った状態の集合を示している(後述するステップST8の枝刈処理で、前向き確率α(j,t−1)が閾値より小さい状態が破棄され、Ω(t−1)は破棄されずに残った状態の集合を示している)。
また、ai,jは状態iから状態jへの遷移確率である。
マッチング処理部3の処理は、状態j毎に実施され、全ての状態で前向き確率を更新すると、ステップST8の処理に移行する(ステップST6,ST7)。
マッチング処理部3の語彙認識部13は、次フレームの漸化式の計算量を減らすため、状態の枝刈処理を実施する(ステップST8)。
即ち、語彙認識部13は、ステップST5の処理を繰り返し実施することにより、例えば、M個の状態の前向き確率αを更新すると、M個の状態の前向き確率αをそれぞれ所定の閾値と比較し、所定の閾値より前向き確率αが小さい状態を破棄する。
例えば、所定の閾値より前向き確率αが小さい状態が5個であれば、枝刈処理により破棄される状態の個数は5個であり、残る状態の個数はM−5個である。
マッチング処理部3の処理は、入力音声のフレームt毎に実施され、全てのフレームで前向き確率αを更新すると、ステップST11の処理に移行する(ステップST9,ST10)。
マッチング処理部3の語彙認識部13は、全てのフレームで前向き確率αを更新すると、発話終了フレームにおいて、前向き確率α(j,T)が最大の状態jを特定する。
そして、語彙認識部13は、発話終了フレームにおいて、前向き確率α(j,T)が最大の状態jを出発点にして、発話終了フレームから発話開始フレームまで後戻りしながら、各フレームの最適の状態(各フレームにおいて、前向き確率α(j,t)が最大の状態j)を特定する。
語彙認識部13は、各フレームの最適の状態を特定すると、それらの状態を繋ぎ合せて最適状態系列を復元し、その最適状態系列に対応する語彙(単語、または、単語列の候補)を認識結果として出力する(ステップST11)。
以上で明らかなように、この実施の形態1によれば、特徴ベクトル抽出部2により抽出された特徴ベクトルxtに対するN個の整合モデル1−1〜1−Nの尤度p(xt|j,n)を算出して、N個の整合モデル1−1〜1−Nの中から尤度が最大の整合モデルを探索するモデル探索部11と、そのモデル探索部11により探索された整合モデルを用いて、特徴ベクトル抽出部2により抽出された特徴ベクトルxtの尤度p(xt|j)を算出する尤度算出部12とを設け、その尤度算出部12により算出された特徴ベクトルxtの尤度p(xt|j)からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識するように構成したので、膨大な量の尤度計算を実施することなく、雑音重畳音声を用いて直接学習された整合モデルを使用する場合と同程度の高い認識精度を得ることができる効果を奏する。
また、この実施の形態1によれば、雑音重畳部35がN個の雑音環境下の雑音データをクリーン音声データにそれぞれ重畳してN個の雑音重畳音声データを生成し、HMM学習部37がN個の雑音重畳音声データに適合する隠れマルコフモデルを学習してN個の整合モデル1−1〜1−Nを形成するように構成したので、雑音重畳音声を用いて直接学習された整合モデルに近い性能の整合モデル1−1〜1−Nを形成することができる効果を奏する。
実施の形態2.
図4はこの発明の実施の形態2による音声認識装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
マッチング処理部3のモデル探索部14は特徴ベクトル抽出部2により抽出された特徴ベクトルxtに対するN個の整合モデル1−1〜1−Nの尤度p(xt|j,n)を算出し、状態iから状態jに至る前向き確率α(t−1,i)と遷移確率ai,jの積確率からなる重みを用いて、N個の整合モデル1−1〜1−Nの尤度p(xt|j,n)の重み付け平均(加重平均)を求め、加重平均した尤度を有する整合モデルを尤度が最大の整合モデルであるとして尤度算出部15に出力する処理を実施する。なお、モデル探索部14は整合モデル探索手段を構成している。
マッチング処理部3の尤度算出部15はモデル探索部14から出力された整合モデルの尤度p(xt|nmax)を用いて、特徴ベクトル抽出部2により抽出された特徴ベクトルxtの尤度を算出する処理を実施する。即ち、モデル探索部14から出力された整合モデルの尤度p(xt|nmax)を、全ての状態jにおける特徴ベクトルxtの尤度p(xt|j)とみなす処理を実施する。なお、尤度算出部15は尤度算出手段を構成している。
マッチング処理部3の語彙認識部16は尤度算出部15により算出された特徴ベクトルxtの尤度p(xt|j)からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する処理を実施する。なお、語彙認識部16は語彙認識手段を構成している。
図5はこの発明の実施の形態2による音声認識装置の処理内容を示すフローチャートである。
次に動作について説明する。
上記実施の形態1では、入力音声のフレーム単位で、状態毎に尤度が最大の整合モデルを探索するものについて示したが、フレーム単位で共通の雑音の整合モデルを探索するようにしてもよい。
具体的には、以下の通りである。
マッチング処理部3のモデル探索部14は、特徴ベクトル抽出部2が特徴ベクトルxtを抽出すると、図1のモデル探索部11と同様に、その特徴ベクトルxtに対するN個の整合モデル1−1〜1−Nの尤度p(xt|j,n)を算出する(ステップST21)。
ただし、モデル探索部14は、フレームの時刻tにおいて、時刻t−1の前フレームの枝刈処理で残った状態集合Ω(t−1)に含まれている状態iから遷移可能な状態jのすべてについて、雑音nの整合モデルの尤度p(xt|j,n)を算出する。
モデル探索部14は、雑音nの整合モデルの尤度p(xt|j,n)を算出すると、下記の式(6)に示すように、状態iから状態jに至る前向き確率α(t−1,i)と遷移確率ai,jの積確率からなる重みを用いて、雑音nの整合モデルの尤度p(xt|j,n)の重み付け平均を実施して、雑音nの整合モデルの尤度の加重平均値p(xt|n)を算出する。
Figure 2007233308
モデル探索部14は、上記のようにして、雑音nの整合モデルの尤度の加重平均値p(xt|n)を算出すると、下記の式(7)に示すように、加重平均した尤度を有する整合モデルに対応する雑音nmaxを特定する(ステップST21)。
Figure 2007233308
即ち、モデル探索部14は、加重平均した尤度を有する整合モデルを尤度が最大の整合モデルとみなして、雑音nの整合モデルの尤度の加重平均値p(xt|n)をp(xt|nmax)として尤度算出部15に出力する。
マッチング処理部3の尤度算出部15は、モデル探索部14から雑音nの整合モデルの尤度の加重平均値p(xt|nmax)を受けると、その尤度の加重平均値p(xt|nmax)を用いて、特徴ベクトル抽出部2により抽出された特徴ベクトルxtの尤度を算出する処理を実施する(ステップST22)。
即ち、尤度算出部15は、モデル探索部14から出力された尤度の加重平均値p(xt|nmax)を、全ての状態jにおける特徴ベクトルxtの尤度p(xt|j,nmax)とみなして、その特徴ベクトルxtの尤度p(xt|j,nmax)を語彙認識部16に出力する。
マッチング処理部3の語彙認識部16は、モデル探索部14により特定された雑音nmaxは当該フレームtの状態jと独立している雑音nとみなし、その雑音nmaxに対応する整合モデルの尤度、即ち、尤度算出部15から出力された全ての状態jにおける特徴ベクトルxtの尤度p(xt|j,nmax)を下記の漸化式に代入することにより、状態jの前向き確率α(j,t)を更新する(ステップST23)。
Figure 2007233308
マッチング処理部3の処理は、状態j毎に実施され、全ての状態で前向き確率αを更新すると、ステップST8の処理に移行する(ステップST6,ST7)。
ただし、この実施の形態2では、次の状態の前向き確率αを更新する場合、ステップST22の処理に移行する。
以上で明らかなように、この実施の形態2によれば、遷移可能な全状態の前向き確率α(t−1,i)を用いて、N個の整合モデル1−1〜1−Nの尤度p(xt|j,n)を加重平均し、加重平均した尤度を有する整合モデルを尤度が最大の整合モデルであるとして尤度算出部15に出力するように構成したので、上記実施の形態1のように、状態毎に整合モデルを探索する場合より、整合モデルの推定が頑健になる効果を奏する。
実施の形態3.
図6はこの発明の実施の形態3による音声認識装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
マッチング処理部3の初期雑音探索部17は発話の所定区間のフレームにおいて、N個の整合モデル1−1〜1−Nの中から尤度が最大の整合モデルに対応する雑音を初期雑音n0として探索する処理を実施する。
マッチング処理部3の最良優先モデル探索部18はフレーム単位の処理において、最初に初期雑音n0に対応する整合モデルの尤度を算出し、その整合モデルの尤度をヒューリスティックスとする最良優先探索を実施して、N個の整合モデル1−1〜1−Nの中から尤度が最大の整合モデルを探索する処理を実施する。
なお、初期雑音探索部17及び最良優先モデル探索部18から整合モデル探索手段が構成されている。
図7はこの発明の実施の形態3による音声認識装置の処理内容を示すフローチャートである。
上記実施の形態1,2では、フレーム単位で、全ての整合モデルにおいて、全ての混合分布の尤度を計算し、全ての混合分布の尤度を比較することにより、尤度が最大の整合モデルを探索するものについて示したが、最初に初期雑音n0に対応する整合モデルの尤度を算出し、その整合モデルの尤度をヒューリスティックスとする最良優先探索を実施して、N個の整合モデル1−1〜1−Nの中から尤度が最大の整合モデルを探索するようにしてもよい。
具体的には、以下の通りである。
マッチング処理部3の初期雑音探索部17は、発話の所定区間のフレームにおいて、N個の整合モデル1−1〜1−Nの中から尤度が最大の整合モデルに対応する雑音を初期雑音n0として探索する(ステップST31)。
即ち、初期雑音探索部17は、特徴ベクトル抽出部2が入力音声の発話開始フレームから所定のフレーム数L(例えば、L=10)の区間の特徴ベクトルx1,x2,・・・,xLを抽出すると、例えば、上記の式(2)を使用して、その特徴ベクトルx1,x2,・・・,xLに対する状態jにおける雑音nの整合モデルの尤度p(xt|j,n)を算出する。
初期雑音探索部17は、雑音nの整合モデルの尤度p(xt|j,n)を算出すると、例えば、上記実施の形態1におけるマッチング処理を実施することにより、前向き確率α(1,j),α(2,j),・・・,α(L,j)を算出する。
初期雑音探索部17は、前向き確率α(1,j),α(2,j),・・・,α(L,j)を算出すると、下記の式(9)に示すように、時刻τ、状態jの前向き確率α(τ,j)を重みとして、各時刻τのフレームの特徴ベクトルxτに対する雑音nの尤度p(xτ|n)を算出する。
Figure 2007233308
初期雑音探索部17は、各時刻τのフレームの特徴ベクトルxτに対する雑音nの尤度p(xτ|n)を算出すると、下記の式(10)に示すように、雑音nの整合モデルの所定フレーム区間での尤度p(x1,x2,・・・,xL|n)を算出する。
Figure 2007233308
初期雑音探索部17は、雑音nの整合モデルの所定フレーム区間での尤度p(x1,x2,・・・,xL|n)を相互に比較し、下記の式(11)に示すように、尤度が最大になる雑音nを特定し、その雑音nを初期雑音n0に決定する。
Figure 2007233308
マッチング処理部3の最良優先モデル探索部18は、前フレームの枝刈処理(ステップST8)で残った状態i∈Ω(t−1)から遷移可能な状態jにおけるフレーム時刻tの特徴ベクトルxtに対する整合モデルn0の尤度p(xt|j,n0)を算出し、その整合モデルn0の尤度p(xt|j,n0)をヒューリスティックスとする(ステップST32)。
次に、最良優先モデル探索部18は、整合モデルn0の尤度p(xt|j,n0)をヒューリスティックスとする最良優先探索を実施して、N個の整合モデル1−1〜1−Nの中から尤度が最大の整合モデルを探索する(ステップST32)。
具体的には、以下の通りである。
ここでは、最良優先探索を混合分布の分布方向(分布数mの増加方向)に行うものとする。一般に最良優先探索は、スタックを用いて評価値が最大の仮説を優先的に展開する。
この実施の形態3では、下記の式(12)に示すように、評価値f(n,m)は、雑音nの整合モデルを用いて、m混合まで展開したときのスコアg(n,m)とm+1混合以降の展開で得られるスコアの推定値h^(n,m)との和として与えるものとする。
Figure 2007233308
ただし、g(n,0)=0とし、推定値h^(n,m)としては出来るだけ真のスコア以上であることが望ましい。即ち、推定値h^(n,m)がA*条件(h^(n,m)≧h(n,m))を満足することが望ましい。
ここでは、A*条件を近似的に満たすヒューリスティクスのスコアh^(n,m)として、初期雑音n0の整合モデルにおけるM個の混合分布からM−m個の分布を抽出する仕方について、M−m個の分布の重み付き尤度和の最大値を用いるものとする。
Figure 2007233308
ただし、C(M−m)はM個の混合分布から任意にM−m個の分布を抽出する仕方(添え字m'の集合)を意味する。また、h^(n,M)=0とする。
この実施の形態3では、雑音n、展開済み分布数m、評価値f(n,m)からなる三つ組み<n,m,f(n,m)>を仮説として、次のようなアルゴリズムで最良優先探索を行う。
(S1)特徴ベクトルxt、HMMの状態j、初期雑音n0をアルゴリズムに入力する。
(S2)推定値h^(n,m)を上記の式(13)に基づいて計算する。
(S3)n=1,2,・・・,Nについて、初期仮説<n,0,f(n,0)>をスタックにプッシュする。
(S4)評価値が最大の仮説<n,m,f(n,m)>をスタックからポップする。
(S5)m=Mであれば、仮説を出力して停止する。m<Mであれば、ステップ(S6)に移行する。
(S6)分布方向に1だけ展開した仮説<n,m+1,f(n,m+1)>をスタックにプッシュする。
(S7)ステップ(S4)に戻る。
なお、上記の最良優先探索のアルゴリズムは、非特許文献(日本音響学会講演論文集1999年3月3−Q−7)に開示されているアルゴリズムを参考にしている。
最良優先探索のアルゴリズムのステップ(S5)でアルゴリズムが停止するときに得られる仮説<n^,M,f(n^,M)>の雑音n^を雑音の探索結果とする。
マッチング処理部3の尤度算出部12は、最良優先モデル探索部18により探索された雑音n^の整合モデルを用いて、特徴ベクトルxtの尤度f(xt|j,n^)を算出する(ステップST33)。
以上で明らかなように、この実施の形態3によれば、最初に初期雑音n0に対応する整合モデルの尤度を算出し、その整合モデルの尤度をヒューリスティックスとする最良優先探索を実施して、N個の整合モデル1−1〜1−Nの中から尤度が最大の整合モデルを探索するように構成したので、効率的に尤度が最大の整合モデルを探索することができる効果を奏する。
実施の形態4.
図8はこの発明の実施の形態4による音声認識装置を示す構成図であり、図において、図6と同一符号は同一または相当部分を示すので説明を省略する。
初期雑音モデル更新部19は前フレームで探索した整合モデル(尤度が最大の整合モデル)を初期雑音n0に対応する整合モデルに置き換える処理を実施する。
なお、初期雑音モデル更新部19は整合モデル探索手段を構成している。
図9はこの発明の実施の形態4による音声認識装置の処理内容を示すフローチャートである。
上記実施の形態3では、所定のフレーム区間で探索された初期雑音n0に対応する整合モデルの尤度をヒューリスティックスとする最良優先探索を実施するものについて示したが、フレーム処理の進行に伴って、前フレームで探索した整合モデル(尤度が最大の整合モデル)を初期雑音n0に対応する整合モデルに置き換えて、その整合モデルの尤度をヒューリスティックスとする最良優先探索を実施するようにしてもよい。
具体的には、以下の通りである。
入力音声の発話開始フレームでは、ステップST1の初期化処理において、ヒューリスティクスとする初期雑音n0に対応する整合モデルを適当な整合モデル(例えば、前発話で探索された雑音に対応する整合モデルや、事前に収集された雑音の中で出現確率が高い雑音に対応する整合モデル)に設定する。
しかし、発話開始フレーム以降のフレームにおいては、初期雑音モデル更新部19が、最良優先モデル探索部18により前フレームで探索された整合モデル(尤度が最大の整合モデル)を初期雑音n0に対応する整合モデルに置き換えるようにする(ステップST41)。
これにより、発話開始フレーム以降のフレームにおいては、前フレームで探索した整合モデル(尤度が最大の整合モデル)の尤度をヒューリスティックスとする最良優先探索を実施することになる。
以上で明らかなように、この実施の形態4によれば、発話開始フレーム以降のフレームにおいては、初期雑音モデル更新部19が、最良優先モデル探索部18により前フレームで探索された整合モデル(尤度が最大の整合モデル)を初期雑音n0に対応する整合モデルに置き換えるように構成したので、初期雑音n0に対応する整合モデルが真の整合モデルである確率が増加し、更に、効率的に最良優先探索を実施することができる効果を奏する。
実施の形態5.
図10はこの発明の実施の形態5による音声認識装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
マッチング処理部3の初期モデル決定部20は初期雑音n0に対応する整合モデルを決定する処理を実施する。
マッチング処理部3の前向き確率算出部21は初期モデル決定部20により決定された初期雑音n0に対応する整合モデルを用いて、特徴ベクトル抽出部2により抽出された特徴ベクトルxtの尤度を算出し、その特徴ベクトルの尤度からマルコフ過程における各状態の前向き確率α(j,t)を算出する処理を実施する。
なお、初期モデル決定部20及び前向き確率算出部21から前向き確率算出手段が構成されている。
マッチング処理部3のモデル探索部22は前向き確率算出部21により算出された前向き確率α(j,t)をヒューリスティックスとする最良優先探索を実施して、N個の整合モデル1−1〜1−Nの中から尤度が最大の整合モデルを探索する処理を実施する。なお、モデル探索部22は整合モデル探索手段を構成している。
マッチング処理部3の尤度算出部23はモデル探索部22により探索された整合モデルを用いて、特徴ベクトル抽出部2により抽出された特徴ベクトルxtの尤度を算出する処理を実施する。なお、尤度算出部23は尤度算出手段を構成している。
図11はこの発明の実施の形態5による音声認識装置の処理内容を示すフローチャートである。
次に動作について説明する。
マッチング処理部3の初期モデル決定部20は、初期雑音n0に対応する整合モデルを決定する(ステップST51)。
例えば、予め各種の雑音データを収集し、各種の雑音データにおいて、高頻度で出現する雑音を初期雑音n0に決定し、その初期雑音n0に対応する整合モデルを決定する。
マッチング処理部3の前向き確率算出部21は、初期モデル決定部20が初期雑音n0に対応する整合モデルを決定すると、その初期雑音n0に対応する整合モデルを用いて、上記実施の形態1と同様のマッチング処理を実施することにより、特徴ベクトル抽出部2により抽出された特徴ベクトルxtの尤度を算出し、その特徴ベクトルの尤度からマルコフ過程における各状態の前向き確率α(j,t)を算出する(ステップST52)。
なお、前向き確率算出部21は、入力音声の発話開始フレームから発話終了フレームまでの各フレームにおいて、前向き確率α(j,t)を算出する(ステップST53,ST54)。
マッチング処理部3のモデル探索部22は、前向き確率算出部21が各フレームにおいて、前向き確率α(j,t)を算出すると、後ろ向き経路探索を行うために、発話終了フレームの時刻t=Tにおいて、後ろ向き経路探索の初期化を行う(ステップST55)。
モデル探索部22が行う後ろ向き経路探索は、前向き確率算出部21により算出された前向き確率α(j,t)をヒューリスティックスとして最良優先探索を実施することにより行う。
最良優先探索における評価値f(j,t)は、下記の式(14)に示すように、後向き確率g(j,t)=β(j,t)と、後ろ向き探索で発話開始フレームまで遡ることで得られるスコアの予測値h^(j,t)との和で与えられるものとする
Figure 2007233308
ただし、推定値h^(j,t)としては出来るだけ真のスコア以上であることが望ましい。即ち、推定値h^(n,m)がA*条件(h^(j,t)≧h(j,t))を満足することが望ましい。
ここでは、A*条件を近似的に満たすヒューリスティクスのスコアh^(j,t)として、前向き確率α(j,t)を用いるものとする。
Figure 2007233308
この実施の形態5では、g(j,T)=0とし、状態j、フレームの時刻t、評価値f(j,t)からなる三つ組み<j,t,f(j,t)>を仮説として、次のようなアルゴリズムで最良優先探索を行う。
(S1)前向き確率α(j,t)(j=1,・・・J;t=0,・・・T)を入力する(Jは状態数)。
(S2)推定値h^(j,t)を上記の式(15)に設定する。
(S3)j∈Ωfinal(T)(Ωfinal(T)は時刻Tで残った最終状態の集合)について、初期仮説<j,T,f(j,T)>をスタックにプッシュする。
(S4)評価値が最大の仮説<j,t,f(j,t)>をスタックからポップする。
(S5)t=0であれば、仮説の出力を停止する。t>0であれば、ステップ(S6)に移行する。
(S6)フレーム方向に時刻を−1だけ展開した仮説<i,t−1,f(i,t−1)>を下記の式(16)より求め、スタックにプッシュする(状態jから遡れる状態iは複数通りあり得るので、複数の仮説が生成され得る)。
Figure 2007233308
ここで、p(xt|j,nmax)は、状態jにおいて、N個の整合モデル1−1〜1−Nの中で、最大の尤度を与える雑音nmaxに対応する整合モデルによる特徴ベクトルxtに対する尤度である。
(S7)ステップ(S4)に戻る。
最良優先探索のアルゴリズムのステップ(S5)で、アルゴリズムが停止するときに得られる仮説<j^,0,f(j^,0)>の経路を後ろ向き探索の結果とする(ステップST56)。
マッチング処理部3の尤度算出部23は、モデル探索部22により探索された整合モデルを用いて、特徴ベクトル抽出部2により抽出された特徴ベクトルxtの尤度を算出する(ステップST57)。
マッチング処理部3の処理は、全ての仮説について探索処理が終了するまで、繰り返し処理を継続する(ステップST58,ST59)。
以上で明らかなように、この実施の形態5によれば、仮の雑音の整合モデルを用いて前向き確率を算出し、その前向き確率をヒューリスティクスとする最良優先探索によって経路を限定し、その限定した経路において重畳した雑音nmaxに対応する整合モデルを探索するように構成したので、膨大な量の尤度計算を実施することなく、雑音重畳音声を用いて直接学習された整合モデルを使用する場合と同程度の高い認識精度を得ることができる効果を奏する。また、最良優先探索により限定された経路で雑音nmaxに対応する整合モデルを探索するので、整合モデルの探索を効率的に行える効果も奏する。
この発明の実施の形態1による音声認識装置を示す構成図である。 この発明の実施の形態1による音声認識装置の整合モデル生成処理部を示す構成図である。 この発明の実施の形態1による音声認識装置の処理内容を示すフローチャートである。 この発明の実施の形態2による音声認識装置を示す構成図である。 この発明の実施の形態2による音声認識装置の処理内容を示すフローチャートである。 この発明の実施の形態3による音声認識装置を示す構成図である。 この発明の実施の形態3による音声認識装置の処理内容を示すフローチャートである。 この発明の実施の形態4による音声認識装置を示す構成図である。 この発明の実施の形態4による音声認識装置の処理内容を示すフローチャートである。 この発明の実施の形態5による音声認識装置を示す構成図である。 この発明の実施の形態5による音声認識装置の処理内容を示すフローチャートである。
符号の説明
1 整合モデル記憶部(整合モデル記憶手段)、1−1〜1−N 整合モデル、2 特徴ベクトル抽出部(特徴ベクトル抽出手段)、3 マッチング処理部、11 モデル探索部(整合モデル探索手段)、12 尤度算出部(尤度算出手段)、13 語彙認識部(語彙認識手段)、14 モデル探索部(整合モデル探索手段)、15 尤度算出部(尤度算出手段)、16 語彙認識部(語彙認識手段)、17 初期雑音探索部(整合モデル探索手段)、18 最良優先モデル探索部(整合モデル探索手段)、19 初期雑音モデル更新部(整合モデル探索手段)、20 初期モデル決定部(前向き確率算出手段)、21 前向き確率算出部(前向き確率算出手段)、22 モデル探索部(整合モデル探索手段)、23 尤度算出部(尤度算出手段)、31 雑音データメモリ、32 雑音分類部、33 雑音データベース、33−1〜33−N 雑音データメモリ、34 クリーン音声データメモリ、35 雑音重畳部(雑音重畳音声生成手段)、36 雑音重畳音声データベース、36−1〜36−N 雑音重畳音声メモリ、37 HMM学習部(整合モデル形成手段)。

Claims (6)

  1. 各種の雑音重畳音声にそれぞれ適合する複数の隠れマルコフモデルを整合モデルとして記憶する整合モデル記憶手段と、入力音声をフレーム単位に分析して、各フレームから特徴ベクトルを抽出する特徴ベクトル抽出手段と、上記特徴ベクトル抽出手段により抽出された特徴ベクトルに対する上記複数の整合モデルの尤度を算出して、上記複数の整合モデルの中から尤度が最大の整合モデルを探索する整合モデル探索手段と、上記整合モデル探索手段により探索された整合モデルを用いて、上記特徴ベクトル抽出手段により抽出された特徴ベクトルの尤度を算出する尤度算出手段と、上記尤度算出手段により算出された特徴ベクトルの尤度からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する語彙認識手段とを備えた音声認識装置。
  2. 各種の雑音データを記憶する雑音データベースと、上記雑音データベースに記憶されている雑音データと雑音が重畳されていない学習用の音声データを合成して、複数の雑音重畳音声を生成する雑音重畳音声生成手段と、上記雑音重畳音声生成手段により生成された雑音重畳音声に適合する隠れマルコフモデルを学習して複数の整合モデルを形成し、複数の整合モデルを整合モデル記憶手段に出力する整合モデル形成手段とを設けたことを特徴とする請求項1記載の音声認識装置。
  3. 整合モデル探索手段は、遷移可能な全状態の前向き確率を用いて、複数の整合モデルの尤度を加重平均し、加重平均した尤度を有する整合モデルを尤度が最大の整合モデルであるとして尤度算出手段に出力することを特徴とする請求項1または請求項2記載の音声認識装置。
  4. 整合モデル探索手段は、初期雑音に対応する整合モデルの尤度を算出し、上記整合モデルの尤度をヒューリスティックスとする最良優先探索を実施して、尤度が最大の整合モデルを探索することを特徴とする請求項1または請求項2記載の音声認識装置。
  5. 整合モデル探索手段は、前フレームで探索した整合モデルを初期雑音に対応する整合モデルとして使用することを特徴とする請求項4記載の音声認識装置。
  6. 各種の雑音重畳音声にそれぞれ適合する複数の隠れマルコフモデルを整合モデルとして記憶する整合モデル記憶手段と、入力音声をフレーム単位に分析して、各フレームから特徴ベクトルを抽出する特徴ベクトル抽出手段と、初期雑音に対応する整合モデルを用いて、上記特徴ベクトル抽出手段により抽出された特徴ベクトルの尤度を算出し、上記特徴ベクトルの尤度からマルコフ過程における各状態の前向き確率を算出する前向き確率算出手段と、上記前向き確率算出手段により算出された前向き確率をヒューリスティックスとする最良優先探索を実施して、上記整合モデル記憶手段に記憶されている複数の整合モデルの中から尤度が最大の整合モデルを探索する整合モデル探索手段と、上記整合モデル探索手段により探索された整合モデルを用いて、上記特徴ベクトル抽出手段により抽出された特徴ベクトルの尤度を算出する尤度算出手段と、上記尤度算出手段により算出された特徴ベクトルの尤度からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する語彙認識手段とを備えた音声認識装置。
JP2006058374A 2006-03-03 2006-03-03 音声認識装置 Pending JP2007233308A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006058374A JP2007233308A (ja) 2006-03-03 2006-03-03 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006058374A JP2007233308A (ja) 2006-03-03 2006-03-03 音声認識装置

Publications (1)

Publication Number Publication Date
JP2007233308A true JP2007233308A (ja) 2007-09-13

Family

ID=38553923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006058374A Pending JP2007233308A (ja) 2006-03-03 2006-03-03 音声認識装置

Country Status (1)

Country Link
JP (1) JP2007233308A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016194628A (ja) * 2015-04-01 2016-11-17 日本電信電話株式会社 音声認識装置、音声認識方法、およびプログラム
WO2022249801A1 (ja) * 2021-05-28 2022-12-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識装置、音声認識方法、及び音声認識プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268675A (ja) * 2001-03-13 2002-09-20 Nec Corp 音声認識装置
JP2005091476A (ja) * 2003-09-12 2005-04-07 Ntt Docomo Inc 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP2005221727A (ja) * 2004-02-05 2005-08-18 Nec Corp 音声認識システム、音声認識方法および音声認識用プログラム
JP2005345772A (ja) * 2004-06-03 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268675A (ja) * 2001-03-13 2002-09-20 Nec Corp 音声認識装置
JP2005091476A (ja) * 2003-09-12 2005-04-07 Ntt Docomo Inc 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP2005221727A (ja) * 2004-02-05 2005-08-18 Nec Corp 音声認識システム、音声認識方法および音声認識用プログラム
JP2005345772A (ja) * 2004-06-03 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016194628A (ja) * 2015-04-01 2016-11-17 日本電信電話株式会社 音声認識装置、音声認識方法、およびプログラム
WO2022249801A1 (ja) * 2021-05-28 2022-12-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識装置、音声認識方法、及び音声認識プログラム

Similar Documents

Publication Publication Date Title
Toshniwal et al. A comparison of techniques for language model integration in encoder-decoder speech recognition
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
Woodland Speaker adaptation for continuous density HMMs: A review
JP5326892B2 (ja) 情報処理装置、プログラム、および音響モデルを生成する方法
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5242724B2 (ja) 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
US8612224B2 (en) Speech processing system and method
US8909527B2 (en) Low latency real-time vocal tract length normalization
JPH10512686A (ja) 個別話者に適応した音声認識のための方法及び装置
JPH11327592A (ja) 話者正規化処理装置及び音声認識装置
CN112420026A (zh) 优化关键词检索系统
Chakraborty et al. Issues and limitations of HMM in speech processing: a survey
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
De Wet et al. Speech recognition for under-resourced languages: Data sharing in hidden Markov model systems
JP4861912B2 (ja) 知識源を組込むための確率計算装置及びコンピュータプログラム
US6832191B1 (en) Process for implementing a speech recognizer, the related recognizer and process for speech recognition
JP2003022088A (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP2007233308A (ja) 音声認識装置
Zen et al. Decision tree-based context clustering based on cross validation and hierarchical priors
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
Kanda et al. Sequence distillation for purely sequence trained acoustic models
WO2010109725A1 (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
Zhang et al. A frame level boosting training scheme for acoustic modeling.
JP2002169586A (ja) 音声及び画像の合成モデル生成装置、音声及び画像の合成モデルのための環境適応化装置、並びに音声認識装置
JPH0981178A (ja) 不特定話者モデル作成装置及び音声認識装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070926

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080925

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110405