JP2007233308A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2007233308A JP2007233308A JP2006058374A JP2006058374A JP2007233308A JP 2007233308 A JP2007233308 A JP 2007233308A JP 2006058374 A JP2006058374 A JP 2006058374A JP 2006058374 A JP2006058374 A JP 2006058374A JP 2007233308 A JP2007233308 A JP 2007233308A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- likelihood
- matching model
- matching
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】状態jにおける特徴ベクトルxtに対するN個の整合モデルの尤度p(xt|j,n)を算出して、N個の整合モデの中から尤度が最大の整合モデルを探索するモデル探索部11と、モデル探索部11により探索された整合モデルを用いて、状態jにおける特徴ベクトルxtの尤度p(xt|j)を算出する尤度算出部12とを設け、その特徴ベクトルxtの尤度p(xt|j)からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する。
【選択図】図1
Description
クリーン音声モデルを用いる方式は、音声認識時の入力音声に重畳されている雑音成分を推定して、その雑音成分を除去するものである。
一方、雑音重畳音声モデルを用いる方式は、雑音が重畳されている入力音声に適合するように、音響モデルを認識時に学習又は適応によって用意するものである。
また、上記のような音声認識装置の他に、予め分類された雑音データを用いて雑音毎に学習された雑音HMMとクリーン音声HMMから雑音毎の雑音重畳音声HMMを合成し、入力音声のフレーム毎に、雑音毎の雑音重畳音声HMMから最適な雑音重畳音声HMMを選択する音声認識装置が開発されている(例えば、特許文献2参照)。
さらに、複数の雑音と複数のSN比の雑音重畳音声モデルをHMMの状態毎に混合分布として結合することにより、HMMを合成しているマルチミクスチャーモデルを使用する音声認識装置が開発されている(例えば、非特許文献1参照)。
また、雑音重畳音声モデル空間の木構造を上から下まで辿ることにより、最適な雑音重畳音声モデル空間を選択する場合、発話全体で尤度計算を実施しながら木構造中の位置を探索する際、膨大な量の尤度計算が必要になり、また、発話内の雑音種類の変化に対応することができないなどの課題があった
マルチミクスチャーモデルを使用する場合、複数の雑音と複数のSN比の雑音重畳音声モデルを混合分布モデルとしてマージするため、特定の雑音重畳音声を用いて直接学習された整合モデルと比べると、カバーする特徴空間の範囲が広がるため、出現頻度が小さい雑音重畳音声に対する認識性能が低くなるなどの課題があった。
図1はこの発明の実施の形態1による音声認識装置を示す構成図であり、図において、整合モデル記憶部1は各種の雑音重畳音声にそれぞれ適合するN個の隠れマルコフモデルを整合モデル1−1〜1−Nとして記憶しているメモリである。整合モデル記憶部1は整合モデル記憶手段を構成している。
特徴ベクトル抽出部2は入力音声をフレーム単位に分析して、各フレームから特徴ベクトルxt(C0を含む0次から12次のメルケプストラム係数と、0次から12次のメルケプストラム係数のΔメルケプストラム係数及びΔΔメルケプストラム係数とを含む39次元の特徴ベクトル)を抽出する処理を実施する。なお、特徴ベクトル抽出部2は特徴ベクトル抽出手段を構成している。
マッチング処理部3のモデル探索部11は特徴ベクトル抽出部2により抽出された特徴ベクトルxtに対するN個の整合モデル1−1〜1−Nの尤度p(xt|j,n)を算出して、N個の整合モデル1−1〜1−Nの中から尤度が最大の整合モデルを探索する処理を実施する。なお、モデル探索部11は整合モデル探索手段を構成している。
マッチング処理部3の語彙認識部13は尤度算出部12により算出された状態jにおける特徴ベクトルxtの尤度p(xt|j)からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する処理を実施する。なお、語彙認識部13は語彙認識手段を構成している。
雑音分類部32は雑音データメモリ31に記憶されている雑音環境下の雑音データを雑音の種類別に分類する処理を実施する。
例えば、雑音データメモリ31に記憶されている雑音環境下の雑音データが車両のエンジン音であれば、その雑音データを雑音データベース33の雑音データメモリ33−1に分類し、その雑音データが車両のエアコン音であれば、その雑音データを雑音データベース33の雑音データメモリ33−2に分類し、その雑音データが車両のウインカー音であれば、その雑音データを雑音データベース33の雑音データメモリ33−Nに分類する。
なお、雑音データの分類処理は、雑音分類部32が公知の分類アルゴリズムを使用して自動的に実施してもよいが、雑音分類部32がユーザの分類指示を受け付けて手動で分類するようにしてもよい。
クリーン音声データメモリ34は隠れマルコフモデルの学習用データとして、雑音がないクリーンな音声データを記憶しているメモリである。
雑音重畳部35は雑音データベース33の雑音データメモリ33−1〜33−Nに記憶されている雑音環境下の雑音データをクリーン音声データメモリ34に記憶されているクリーン音声データにそれぞれ重畳して(音声認識時に想定されるSN比(例えば、15dB)、あるいは、想定される範囲の複数のSN比(例えば、5,10,15,20dBの4通り)で、雑音環境下の雑音データをクリーン音声データに重畳する)、N個の雑音重畳音声データを生成する処理を実施する。なお、雑音重畳部35は雑音重畳音声生成手段を構成している。
HMM学習部37は雑音重畳音声データベース36の雑音重畳音声メモリ36−1〜36−Nに記憶されている雑音重畳音声データに適合する隠れマルコフモデルを学習してN個の整合モデル1−1〜1−Nを形成し、N個の整合モデル1−1〜1−Nを整合モデル記憶部1に格納する処理を実施する。なお、HMM学習部37は整合モデル形成手段を構成している。
図3はこの発明の実施の形態1による音声認識装置の処理内容を示すフローチャートである。
音声認識装置は、音声認識処理を実施するに先立ってN個の整合モデル1−1〜1−Nの形成処理を実施する。
即ち、音声認識装置の雑音分類部32は、雑音データメモリ31から入力音声に重畳されることが予想される雑音環境下の雑音データを収集し、その雑音環境下の雑音データを雑音の種類別に分類する。
例えば、雑音データメモリ31に記憶されている雑音環境下の雑音データが車両のエンジン音であれば、その雑音データを雑音データベース33の雑音データメモリ33−1に分類し、その雑音データが車両のエアコン音であれば、その雑音データを雑音データベース33の雑音データメモリ33−2に分類し、その雑音データが車両のウインカー音であれば、その雑音データを雑音データベース33の雑音データメモリ33−Nに分類する。
なお、雑音データの分類処理は、雑音分類部32が公知の分類アルゴリズムを使用して自動的に実施してもよいが、雑音分類部32がユーザの分類指示を受け付けて手動で分類するようにしてもよい。
即ち、雑音重畳部35は、音声認識時に想定されるSN比(例えば、15dB)、あるいは、想定される範囲の複数のSN比(例えば、5,10,15,20dBの4通り)で、雑音環境下の雑音データをクリーン音声データに重畳することにより、N個の雑音重畳音声データを生成し、N個の雑音重畳音声データを雑音重畳音声データベース36の雑音重畳音声メモリ36−1〜36−Nにそれぞれ格納する。
そして、HMM学習部37は、N個の整合モデル1−1〜1−Nを整合モデル記憶部1に格納する。
この実施の形態1では、T個のフレームからなる入力音声の認識処理を実施するものとする。
即ち、この実施の形態1では、入力音声のフレームを単位とする時刻をt=1,2,・・・,Tとする。この場合、入力音声の発話開始フレームは時刻1、発話終了フレームは時刻Tになる。
即ち、特徴ベクトル抽出部2は、入力音声の各フレームからC0を含む0次から12次のメルケプストラム係数と、0次から12次のメルケプストラム係数のΔメルケプストラム係数及びΔΔメルケプストラム係数とを含む39次元の特徴ベクトルを抽出する。
即ち、モデル探索部11は、特徴ベクトル抽出部2が特徴ベクトルxtを抽出すると、整合モデル記憶部1に記憶されているN個の整合モデル1−1〜1−Nの中から任意の整合モデル(以下、雑音nの整合モデルと称する)を一つ選択する。
そして、モデル探索部11は、下記の式(2)に示すような、特徴ベクトルxtに対するガウス混合密度関数の演算を実施することにより、雑音nの整合モデルの尤度p(xt|j,n)を算出する。
μj,m,nは雑音nの整合モデルの状態jにおける混合分布のm番目の正規分布の平均であり、Σj,m,nは雑音nの整合モデルの状態jにおける混合分布のm番目の正規分布の分散である。
N(xt,μj,m,n,Σj,m,n)は平均μj,m,n、分散Σj,m,nの対角正規分布の密度関数である。
モデル探索部11は、尤度が最大の整合モデルを探索すると、下記の式(3)に示すように、尤度が最大の整合モデルに対応する雑音nmaxを特定する(ステップST3)。
具体的には、下記の式(4)に示すように、雑音nmaxの整合モデルの尤度p(xt|j,nmax)を状態jにおける特徴ベクトルxtの尤度p(xt|j)とみなすようにする。
下記の漸化式は、ビタビアルゴリズムの漸化式であるが、ビタビアルゴリズムの漸化式に限るものではなく、例えば、最大値演算を総和演算で置き換えたトレリスアルゴリズムの漸化式を用いてもよい。
また、ai,jは状態iから状態jへの遷移確率である。
マッチング処理部3の語彙認識部13は、次フレームの漸化式の計算量を減らすため、状態の枝刈処理を実施する(ステップST8)。
即ち、語彙認識部13は、ステップST5の処理を繰り返し実施することにより、例えば、M個の状態の前向き確率αを更新すると、M個の状態の前向き確率αをそれぞれ所定の閾値と比較し、所定の閾値より前向き確率αが小さい状態を破棄する。
例えば、所定の閾値より前向き確率αが小さい状態が5個であれば、枝刈処理により破棄される状態の個数は5個であり、残る状態の個数はM−5個である。
マッチング処理部3の語彙認識部13は、全てのフレームで前向き確率αを更新すると、発話終了フレームにおいて、前向き確率α(j,T)が最大の状態jを特定する。
そして、語彙認識部13は、発話終了フレームにおいて、前向き確率α(j,T)が最大の状態jを出発点にして、発話終了フレームから発話開始フレームまで後戻りしながら、各フレームの最適の状態(各フレームにおいて、前向き確率α(j,t)が最大の状態j)を特定する。
語彙認識部13は、各フレームの最適の状態を特定すると、それらの状態を繋ぎ合せて最適状態系列を復元し、その最適状態系列に対応する語彙(単語、または、単語列の候補)を認識結果として出力する(ステップST11)。
図4はこの発明の実施の形態2による音声認識装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
マッチング処理部3のモデル探索部14は特徴ベクトル抽出部2により抽出された特徴ベクトルxtに対するN個の整合モデル1−1〜1−Nの尤度p(xt|j,n)を算出し、状態iから状態jに至る前向き確率α(t−1,i)と遷移確率ai,jの積確率からなる重みを用いて、N個の整合モデル1−1〜1−Nの尤度p(xt|j,n)の重み付け平均(加重平均)を求め、加重平均した尤度を有する整合モデルを尤度が最大の整合モデルであるとして尤度算出部15に出力する処理を実施する。なお、モデル探索部14は整合モデル探索手段を構成している。
マッチング処理部3の語彙認識部16は尤度算出部15により算出された特徴ベクトルxtの尤度p(xt|j)からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する処理を実施する。なお、語彙認識部16は語彙認識手段を構成している。
図5はこの発明の実施の形態2による音声認識装置の処理内容を示すフローチャートである。
上記実施の形態1では、入力音声のフレーム単位で、状態毎に尤度が最大の整合モデルを探索するものについて示したが、フレーム単位で共通の雑音の整合モデルを探索するようにしてもよい。
具体的には、以下の通りである。
ただし、モデル探索部14は、フレームの時刻tにおいて、時刻t−1の前フレームの枝刈処理で残った状態集合Ω(t−1)に含まれている状態iから遷移可能な状態jのすべてについて、雑音nの整合モデルの尤度p(xt|j,n)を算出する。
即ち、尤度算出部15は、モデル探索部14から出力された尤度の加重平均値p(xt|nmax)を、全ての状態jにおける特徴ベクトルxtの尤度p(xt|j,nmax)とみなして、その特徴ベクトルxtの尤度p(xt|j,nmax)を語彙認識部16に出力する。
ただし、この実施の形態2では、次の状態の前向き確率αを更新する場合、ステップST22の処理に移行する。
図6はこの発明の実施の形態3による音声認識装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
マッチング処理部3の初期雑音探索部17は発話の所定区間のフレームにおいて、N個の整合モデル1−1〜1−Nの中から尤度が最大の整合モデルに対応する雑音を初期雑音n0として探索する処理を実施する。
マッチング処理部3の最良優先モデル探索部18はフレーム単位の処理において、最初に初期雑音n0に対応する整合モデルの尤度を算出し、その整合モデルの尤度をヒューリスティックスとする最良優先探索を実施して、N個の整合モデル1−1〜1−Nの中から尤度が最大の整合モデルを探索する処理を実施する。
なお、初期雑音探索部17及び最良優先モデル探索部18から整合モデル探索手段が構成されている。
図7はこの発明の実施の形態3による音声認識装置の処理内容を示すフローチャートである。
具体的には、以下の通りである。
即ち、初期雑音探索部17は、特徴ベクトル抽出部2が入力音声の発話開始フレームから所定のフレーム数L(例えば、L=10)の区間の特徴ベクトルx1,x2,・・・,xLを抽出すると、例えば、上記の式(2)を使用して、その特徴ベクトルx1,x2,・・・,xLに対する状態jにおける雑音nの整合モデルの尤度p(xt|j,n)を算出する。
初期雑音探索部17は、前向き確率α(1,j),α(2,j),・・・,α(L,j)を算出すると、下記の式(9)に示すように、時刻τ、状態jの前向き確率α(τ,j)を重みとして、各時刻τのフレームの特徴ベクトルxτに対する雑音nの尤度p(xτ|n)を算出する。
次に、最良優先モデル探索部18は、整合モデルn0の尤度p(xt|j,n0)をヒューリスティックスとする最良優先探索を実施して、N個の整合モデル1−1〜1−Nの中から尤度が最大の整合モデルを探索する(ステップST32)。
具体的には、以下の通りである。
この実施の形態3では、下記の式(12)に示すように、評価値f(n,m)は、雑音nの整合モデルを用いて、m混合まで展開したときのスコアg(n,m)とm+1混合以降の展開で得られるスコアの推定値h^(n,m)との和として与えるものとする。
ここでは、A*条件を近似的に満たすヒューリスティクスのスコアh^(n,m)として、初期雑音n0の整合モデルにおけるM個の混合分布からM−m個の分布を抽出する仕方について、M−m個の分布の重み付き尤度和の最大値を用いるものとする。
(S1)特徴ベクトルxt、HMMの状態j、初期雑音n0をアルゴリズムに入力する。
(S2)推定値h^(n,m)を上記の式(13)に基づいて計算する。
(S3)n=1,2,・・・,Nについて、初期仮説<n,0,f(n,0)>をスタックにプッシュする。
(S4)評価値が最大の仮説<n,m,f(n,m)>をスタックからポップする。
(S5)m=Mであれば、仮説を出力して停止する。m<Mであれば、ステップ(S6)に移行する。
(S6)分布方向に1だけ展開した仮説<n,m+1,f(n,m+1)>をスタックにプッシュする。
(S7)ステップ(S4)に戻る。
最良優先探索のアルゴリズムのステップ(S5)でアルゴリズムが停止するときに得られる仮説<n^,M,f(n^,M)>の雑音n^を雑音の探索結果とする。
マッチング処理部3の尤度算出部12は、最良優先モデル探索部18により探索された雑音n^の整合モデルを用いて、特徴ベクトルxtの尤度f(xt|j,n^)を算出する(ステップST33)。
図8はこの発明の実施の形態4による音声認識装置を示す構成図であり、図において、図6と同一符号は同一または相当部分を示すので説明を省略する。
初期雑音モデル更新部19は前フレームで探索した整合モデル(尤度が最大の整合モデル)を初期雑音n0に対応する整合モデルに置き換える処理を実施する。
なお、初期雑音モデル更新部19は整合モデル探索手段を構成している。
図9はこの発明の実施の形態4による音声認識装置の処理内容を示すフローチャートである。
具体的には、以下の通りである。
しかし、発話開始フレーム以降のフレームにおいては、初期雑音モデル更新部19が、最良優先モデル探索部18により前フレームで探索された整合モデル(尤度が最大の整合モデル)を初期雑音n0に対応する整合モデルに置き換えるようにする(ステップST41)。
これにより、発話開始フレーム以降のフレームにおいては、前フレームで探索した整合モデル(尤度が最大の整合モデル)の尤度をヒューリスティックスとする最良優先探索を実施することになる。
図10はこの発明の実施の形態5による音声認識装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
マッチング処理部3の初期モデル決定部20は初期雑音n0に対応する整合モデルを決定する処理を実施する。
マッチング処理部3の前向き確率算出部21は初期モデル決定部20により決定された初期雑音n0に対応する整合モデルを用いて、特徴ベクトル抽出部2により抽出された特徴ベクトルxtの尤度を算出し、その特徴ベクトルの尤度からマルコフ過程における各状態の前向き確率α(j,t)を算出する処理を実施する。
なお、初期モデル決定部20及び前向き確率算出部21から前向き確率算出手段が構成されている。
マッチング処理部3の尤度算出部23はモデル探索部22により探索された整合モデルを用いて、特徴ベクトル抽出部2により抽出された特徴ベクトルxtの尤度を算出する処理を実施する。なお、尤度算出部23は尤度算出手段を構成している。
図11はこの発明の実施の形態5による音声認識装置の処理内容を示すフローチャートである。
マッチング処理部3の初期モデル決定部20は、初期雑音n0に対応する整合モデルを決定する(ステップST51)。
例えば、予め各種の雑音データを収集し、各種の雑音データにおいて、高頻度で出現する雑音を初期雑音n0に決定し、その初期雑音n0に対応する整合モデルを決定する。
なお、前向き確率算出部21は、入力音声の発話開始フレームから発話終了フレームまでの各フレームにおいて、前向き確率α(j,t)を算出する(ステップST53,ST54)。
モデル探索部22が行う後ろ向き経路探索は、前向き確率算出部21により算出された前向き確率α(j,t)をヒューリスティックスとして最良優先探索を実施することにより行う。
最良優先探索における評価値f(j,t)は、下記の式(14)に示すように、後向き確率g(j,t)=β(j,t)と、後ろ向き探索で発話開始フレームまで遡ることで得られるスコアの予測値h^(j,t)との和で与えられるものとする
ここでは、A*条件を近似的に満たすヒューリスティクスのスコアh^(j,t)として、前向き確率α(j,t)を用いるものとする。
(S1)前向き確率α(j,t)(j=1,・・・J;t=0,・・・T)を入力する(Jは状態数)。
(S2)推定値h^(j,t)を上記の式(15)に設定する。
(S3)j∈Ωfinal(T)(Ωfinal(T)は時刻Tで残った最終状態の集合)について、初期仮説<j,T,f(j,T)>をスタックにプッシュする。
(S4)評価値が最大の仮説<j,t,f(j,t)>をスタックからポップする。
(S5)t=0であれば、仮説の出力を停止する。t>0であれば、ステップ(S6)に移行する。
(S6)フレーム方向に時刻を−1だけ展開した仮説<i,t−1,f(i,t−1)>を下記の式(16)より求め、スタックにプッシュする(状態jから遡れる状態iは複数通りあり得るので、複数の仮説が生成され得る)。
(S7)ステップ(S4)に戻る。
マッチング処理部3の尤度算出部23は、モデル探索部22により探索された整合モデルを用いて、特徴ベクトル抽出部2により抽出された特徴ベクトルxtの尤度を算出する(ステップST57)。
マッチング処理部3の処理は、全ての仮説について探索処理が終了するまで、繰り返し処理を継続する(ステップST58,ST59)。
Claims (6)
- 各種の雑音重畳音声にそれぞれ適合する複数の隠れマルコフモデルを整合モデルとして記憶する整合モデル記憶手段と、入力音声をフレーム単位に分析して、各フレームから特徴ベクトルを抽出する特徴ベクトル抽出手段と、上記特徴ベクトル抽出手段により抽出された特徴ベクトルに対する上記複数の整合モデルの尤度を算出して、上記複数の整合モデルの中から尤度が最大の整合モデルを探索する整合モデル探索手段と、上記整合モデル探索手段により探索された整合モデルを用いて、上記特徴ベクトル抽出手段により抽出された特徴ベクトルの尤度を算出する尤度算出手段と、上記尤度算出手段により算出された特徴ベクトルの尤度からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する語彙認識手段とを備えた音声認識装置。
- 各種の雑音データを記憶する雑音データベースと、上記雑音データベースに記憶されている雑音データと雑音が重畳されていない学習用の音声データを合成して、複数の雑音重畳音声を生成する雑音重畳音声生成手段と、上記雑音重畳音声生成手段により生成された雑音重畳音声に適合する隠れマルコフモデルを学習して複数の整合モデルを形成し、複数の整合モデルを整合モデル記憶手段に出力する整合モデル形成手段とを設けたことを特徴とする請求項1記載の音声認識装置。
- 整合モデル探索手段は、遷移可能な全状態の前向き確率を用いて、複数の整合モデルの尤度を加重平均し、加重平均した尤度を有する整合モデルを尤度が最大の整合モデルであるとして尤度算出手段に出力することを特徴とする請求項1または請求項2記載の音声認識装置。
- 整合モデル探索手段は、初期雑音に対応する整合モデルの尤度を算出し、上記整合モデルの尤度をヒューリスティックスとする最良優先探索を実施して、尤度が最大の整合モデルを探索することを特徴とする請求項1または請求項2記載の音声認識装置。
- 整合モデル探索手段は、前フレームで探索した整合モデルを初期雑音に対応する整合モデルとして使用することを特徴とする請求項4記載の音声認識装置。
- 各種の雑音重畳音声にそれぞれ適合する複数の隠れマルコフモデルを整合モデルとして記憶する整合モデル記憶手段と、入力音声をフレーム単位に分析して、各フレームから特徴ベクトルを抽出する特徴ベクトル抽出手段と、初期雑音に対応する整合モデルを用いて、上記特徴ベクトル抽出手段により抽出された特徴ベクトルの尤度を算出し、上記特徴ベクトルの尤度からマルコフ過程における各状態の前向き確率を算出する前向き確率算出手段と、上記前向き確率算出手段により算出された前向き確率をヒューリスティックスとする最良優先探索を実施して、上記整合モデル記憶手段に記憶されている複数の整合モデルの中から尤度が最大の整合モデルを探索する整合モデル探索手段と、上記整合モデル探索手段により探索された整合モデルを用いて、上記特徴ベクトル抽出手段により抽出された特徴ベクトルの尤度を算出する尤度算出手段と、上記尤度算出手段により算出された特徴ベクトルの尤度からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する語彙認識手段とを備えた音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006058374A JP2007233308A (ja) | 2006-03-03 | 2006-03-03 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006058374A JP2007233308A (ja) | 2006-03-03 | 2006-03-03 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007233308A true JP2007233308A (ja) | 2007-09-13 |
Family
ID=38553923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006058374A Pending JP2007233308A (ja) | 2006-03-03 | 2006-03-03 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007233308A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016194628A (ja) * | 2015-04-01 | 2016-11-17 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、およびプログラム |
WO2022249801A1 (ja) * | 2021-05-28 | 2022-12-01 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声認識装置、音声認識方法、及び音声認識プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002268675A (ja) * | 2001-03-13 | 2002-09-20 | Nec Corp | 音声認識装置 |
JP2005091476A (ja) * | 2003-09-12 | 2005-04-07 | Ntt Docomo Inc | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
JP2005221727A (ja) * | 2004-02-05 | 2005-08-18 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
JP2005345772A (ja) * | 2004-06-03 | 2005-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
-
2006
- 2006-03-03 JP JP2006058374A patent/JP2007233308A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002268675A (ja) * | 2001-03-13 | 2002-09-20 | Nec Corp | 音声認識装置 |
JP2005091476A (ja) * | 2003-09-12 | 2005-04-07 | Ntt Docomo Inc | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
JP2005221727A (ja) * | 2004-02-05 | 2005-08-18 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
JP2005345772A (ja) * | 2004-06-03 | 2005-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016194628A (ja) * | 2015-04-01 | 2016-11-17 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、およびプログラム |
WO2022249801A1 (ja) * | 2021-05-28 | 2022-12-01 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声認識装置、音声認識方法、及び音声認識プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Toshniwal et al. | A comparison of techniques for language model integration in encoder-decoder speech recognition | |
JP2871561B2 (ja) | 不特定話者モデル生成装置及び音声認識装置 | |
Woodland | Speaker adaptation for continuous density HMMs: A review | |
JP5326892B2 (ja) | 情報処理装置、プログラム、および音響モデルを生成する方法 | |
JP6293912B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP5242724B2 (ja) | 音声プロセッサ、音声処理方法および音声プロセッサの学習方法 | |
US8612224B2 (en) | Speech processing system and method | |
US8909527B2 (en) | Low latency real-time vocal tract length normalization | |
JPH10512686A (ja) | 個別話者に適応した音声認識のための方法及び装置 | |
JPH11327592A (ja) | 話者正規化処理装置及び音声認識装置 | |
CN112420026A (zh) | 优化关键词检索系统 | |
Chakraborty et al. | Issues and limitations of HMM in speech processing: a survey | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
De Wet et al. | Speech recognition for under-resourced languages: Data sharing in hidden Markov model systems | |
JP4861912B2 (ja) | 知識源を組込むための確率計算装置及びコンピュータプログラム | |
US6832191B1 (en) | Process for implementing a speech recognizer, the related recognizer and process for speech recognition | |
JP2003022088A (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
JP2007233308A (ja) | 音声認識装置 | |
Zen et al. | Decision tree-based context clustering based on cross validation and hierarchical priors | |
JPH1185186A (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
Kanda et al. | Sequence distillation for purely sequence trained acoustic models | |
WO2010109725A1 (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム | |
Zhang et al. | A frame level boosting training scheme for acoustic modeling. | |
JP2002169586A (ja) | 音声及び画像の合成モデル生成装置、音声及び画像の合成モデルのための環境適応化装置、並びに音声認識装置 | |
JPH0981178A (ja) | 不特定話者モデル作成装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070926 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080627 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080925 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101130 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110405 |