JP2014048457A - 話者適応装置、方法及びプログラム - Google Patents
話者適応装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2014048457A JP2014048457A JP2012191283A JP2012191283A JP2014048457A JP 2014048457 A JP2014048457 A JP 2014048457A JP 2012191283 A JP2012191283 A JP 2012191283A JP 2012191283 A JP2012191283 A JP 2012191283A JP 2014048457 A JP2014048457 A JP 2014048457A
- Authority
- JP
- Japan
- Prior art keywords
- adjustment parameter
- node
- feature vector
- objective function
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】従来よりも認識率を向上させることができる話者適応技術を提供する。
【解決手段】話者適応装置は、入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードについての調整パラメータと、目的関数を最大化するノードの2つの子ノードのそれぞれについての調整パラメータとを、ノードについての最大化された目的関数の値から2つの子ノードについての最大化された目的関数の値を減算した値が負になるまで繰り返し更新することにより求める調整パラメータ更新部800と、求まったノードについての調整パラメータに基づいて、変換行列を推定する特徴空間変換行列推定部710と、変換行列を用いて特徴ベクトルを変換した変換特徴ベクトルを生成する特徴ベクトル変換部720と、を備える。
【選択図】図1
【解決手段】話者適応装置は、入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードについての調整パラメータと、目的関数を最大化するノードの2つの子ノードのそれぞれについての調整パラメータとを、ノードについての最大化された目的関数の値から2つの子ノードについての最大化された目的関数の値を減算した値が負になるまで繰り返し更新することにより求める調整パラメータ更新部800と、求まったノードについての調整パラメータに基づいて、変換行列を推定する特徴空間変換行列推定部710と、変換行列を用いて特徴ベクトルを変換した変換特徴ベクトルを生成する特徴ベクトル変換部720と、を備える。
【選択図】図1
Description
この発明は、音声認識技術に関する。特に、予め音声認識用学習データから学習した音声認識モデルを用いて、未知の人の音声認識を行う際に、未知の人の入力音声から抽出した特徴ベクトルを線形変換することにより、音声認識モデルに適合しやすくすることで音声認識の精度を向上させる話者適応技術に関する。
音声認識をする際に入力信号となる音響信号に影響を与える、話者、雑音、通信チャンネル、マイク等の変動要因による悪影響を防ぐため、適応技術が発展している。特にモデルに基づく適応技術は、変換行列を用いた線形変換により音響モデルの全てのパラメータを適応させることができるので、良く使われている。
モデルに基づく適応技術として、入力音声から抽出した特徴ベクトルを線形変換することにより適応させるいわゆる特徴空間での適応手法であって、事前分布を用いる手法であるfMAPLR(feature space Maximum A Posteriori Linear Regression)及びfSMAPLR(feature space Structual Maximum A Posteriori Linear Regression)等の手法が知られている(例えば、非特許文献1,2参照。)。事前分布には、各手法を用いた学習データに含まれている話者の変換行列の分布又は単位変換行列が用いられる。
これらの手法では、適応データ量によって事前分布の寄与率を調整するための調整パラメータが用いられている。調整パラメータは、ハイパーパラメータとも呼ばれている。
Lei, X. and Hamaker, J. and He, X. Robust feature space adaptation for telephony speech recognition. Proc. of INTERSPEECH, pages 773-776, 2006.
Y. Nakano, M. Tachibana, J. Yamagishi, and T. Kobayashi, Constrained structural maximum a posteriori linear regression for average-voice-based speech synthesis. Proc. of INTERSPEECH, pages 2286-2289, 2006.
非特許文献1,2に記載されている適応技術では、調整パラメータとして、経験に基づいて予め定められた値が用いられている。このため、予め定められた調整パラメータの値が適切ではない場合には、認識率が低下する可能性があった。
この発明は、従来よりも認識率を向上させた、事前分布を用いた特徴空間での適応手法に基づく話者適応装置、方法及びプログラムを提供することを目的とする。
この発明の一態様による話者適応装置は、入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードについての調整パラメータと、目的関数を最大化するノードの2つの子ノードのそれぞれについての調整パラメータとを、ノードについての最大化された目的関数の値から2つの子ノードについての最大化された目的関数の値を減算した値が負になるまで繰り返し更新することにより求める調整パラメータ更新部と、求まったノードについての調整パラメータに基づいて、変換行列を推定する特徴空間変換行列推定部と、変換行列を用いて特徴ベクトルを変換した変換特徴ベクトルを生成する特徴ベクトル変換部と、を備える。
調整パラメータを適切に更新することにより、従来よりも認識率を向上させることができる。
以下、図面を参照して、話者適応装置及び方法の実施形態を説明する。
話者適応装置は、図1に示すように、特徴ベクトル抽出部100と、音声認識部200と、認識用データ記憶部210と、事前分布記憶部500と、特徴空間適応部700とを例えば備えている。特徴空間適応部700は、調整パラメータ更新部800と、特徴空間変換行列推定部710と、特徴ベクトル変換部720とを例えば備えている。
特徴ベクトル抽出部100は、入力音声から特徴ベクトルo(t)を抽出する(ステップS1)。抽出された特徴ベクトルo(t)は、音声認識部200及び特徴空間適応部700に送信される。ここでo(t)は、t番目のフレームのn次元特徴ベクトルを表す。
音声認識部200は、特徴ベクトルo(t)に基づいて音声認識を行い、仮の音声認識結果を生成する(ステップS2)。音声認識結果は、特徴空間適応部700に送信される。後述するように、特徴ベクトル変換部720で変換特徴ベクトルが生成されている場合には、音声認識部200は、特徴ベクトルo(t)に代えて変換特徴ベクトルに基づいて音声認識を行う。
なお、認識用データ記憶部210には、予め学習用の音声認識データから学習された、音響モデル211、言語モデル212及び単語辞書213が記憶されている。音声認識部200は、音響モデル211、言語モデル212及び単語辞書213を用いて音声認識を行う。
ここで、音声認識結果は、音響モデル、単語モデル、単語辞書から構成される確率モデルを用いて、音声認識過程を音声データと単語の出現確率(尤度関数)とで表現したものである。音声認識部200が行う音声認識処理とは、この尤度関数を最大とする単語列を結果として出力することである。特徴空間適応部700が行う適応処理とは、認識結果を元に認識結果である単語列を最大尤度で出力する、ガウス分布ごとに最適な特徴ベクトルに変換する変換行列を推定することである。
ここで、推定すべきパラメータの数は非常に多いため、これらのパラメータは、音素クラスに応じて階層的にクラスタリングされた木構造で表現されている。例えば、単一のガウス分布を葉ノードとし、これらの集合を中間ノード及び根ノードとするような木構造によりガウス分布の集合を表現する。ここでは、分布間距離の近い2つのガウス分布を1つのノードにまとめていくような二分木の木構造を仮定する。
以下の処理において、適応処理を行うために用いる変換行列Wは、この木構造のノードごとに別の変換行列が対応付けられるため、ノードrごとに変換行列Wrの推定を行うとする。
調整パラメータ更新部800は、ノードrにおける調整パラメータの自動推定を行う(ステップS3)。具体的には、変分ベイズに基づいて求められる変分下限(variational lower bound)を目的関数として用いることにより、調整パラメータを最適化する。推定された調整パラメータは、特徴空間変換行列推定部710に送信される。
以下、調整パラメータ更新部800の具体的な処理について説明する。
調整パラメータ更新部800は、図2に示すように、特徴空間統計量計算部810と、平滑化統計量計算部820と、最適調整パラメータ推定部830と、変換行列推定部840と、事前分布更新部850と、終了判定部860とを例えば備えている。
特徴空間統計量計算部810は、認識結果の木構造の中の所定のノードrについてのガウス分布の平均及び分散と特徴ベクトルo(t)とを用いて、所定のノードrについての所定の統計量Gr (i),kr (i)を計算する(ステップS31)。特徴空間統計量計算部810は、具体的には、ノードrに対応するガウス分布の集合におけるu番目のガウス分布のi次元目の平均μi (u)及び分散σi (u)と、特徴ベクトルo(t)に基づく拡張特徴ベクトルξ(t)とを用いて、以下の式によりGr (i),kr (i)を計算する。計算されたGr (i),kr (i)は、平滑化統計量計算部820に送信される。
ここで、γu(t)は、o(t)がu番目のガウス分布に属する事後確率である。また、Ntは、フレームの総数である。拡張特徴ベクトルξ(t)は、ξ(t)=[1 o(t)T]Tであり、(n+1)×1のベクトルである。・Tは、・の転置を意味する。
平滑化統計量計算部820は、統計量Gr (i),kr (i)を平滑化した平滑化統計量G^r (i),k^r (i)を計算する(ステップS32)。平滑化統計量計算部820は、具体的には、以下の式に基づいて、G^r (i),k^r (i)を計算する。計算されたG^r (i),k^r (i)は、最適調整パラメータ推定部830に送信される。
ここで、criは、事前分布のハイパーパラメータCrの第i行であり、Crは以下に示される行列である。Inはn×nの単位行列であり、r(p)はrの親ノードを表す。
また、Vrは、事前分布のハイパーパラメータであり、以下のように定義される。In+1は、(n+1)×(n+1)の単位行列である。
最適調整パラメータ推定部830は、以下の式により、最適な調整パラメータρ~rを求める(ステップS33)。
つまり、最適調整パラメータ推定部830は、L(Ψ,m)rの値が最大となる調整パラメータρrを、最適な調整パラメータρ~rとする。ここで、L(Ψ,m)rは、変分ベイズに基づく変分下限である目的関数であり、下記式で表される。
ここで、Vr~(i),c~riは、以下のように定義される。
また、Σ(u)は、分散σi (u)(i=1,2,・・・,n)を対角成分として持つn×nの行列であり、γu=Σt=1 Ntγu(t)である。
変換行列推定部840は、推定された調整パラメータρ~r及び事前分布記憶部500から読み込んだ事前分布を用いて、ノードrについての変換行列を推定する(ステップS34)。変換行列推定部840は、具体的には下記式により、変換行列Wrの第i行を求め、処理をすべてのiについて行うことで、変換行列Wrを推定する。推定されたWrは、事前分布更新部850に送信される。
ここでpiは拡張cofactor行ベクトル[0ci1…cin](cij=cof(Arij))である。なお、行列Arを行列Wrの第1列を除くn×n行列として、cof(Arij)は行列Arの第i行第j列の成分Arijに関する余因子(cofactor)である。αは、以下のQ関数を最大化する二次方程式の解であり、その推定方法は例えば参考文献1に詳述されている。
〔参考文献1〕Gales, M.J.F. Maximum likelihood linear transformations for HMM-based speech recognition. Computer Speech and Language, 12:75-98, 1998.
ここでrは、木構造内のノード番号を表す。また、G~r (i),k~r (i)は、以下のように定義される。
また、事前分布p(Wr|Cr,Vr)として、参考文献2,3及び非特許文献1で用いられている行列の多変量正規分布を用いる。この分布は以下の式のように定義される。
〔参考文献2〕Siohan, O. and Chesta, C. and Lee, C.H. Joint maximum a posteriori adaptation of transformation and HMM parameters. IEEE Trans. on Speech and Audio Processing, 9(4):417-428, 2001.
〔参考文献3〕Siohan, O. and Myrvoll, T.A. and Lee, C.H. Structural maximum a posteriori linear regression for fast HMM adaptation. Computer Speech and Language, 16(1):5-24, 2002.
ここで、CrとVrは定義された分布のハイパーパラメータである。なお、事前分布の初期値は、予め事前分布記憶部500に記憶されているものとする。
事前分布更新部850は、推定された変換行列Wrを用いて、事前分布記憶部500に記憶されている事前分布を更新する(ステップS35)。事前分布更新部850は、具体的には下記式により、変換行列Wrの事後分布q~(Wr)を求め、q~(Wr)を2つの子ノードの新たな事前分布p(Wr|Cr,Vr)として事前分布記憶部500に格納する。
ここでV~rは V~r (i)の集合を表現する(すなわち V~r={ V~r (1), V~r (2),…,V~r (n)})。特徴空間統計量計算部810、平滑化統計量計算部820、最適調整パラメータ推定部830、変換行列推定部840、事前分布更新部850の処理を、ノードr、ノードrの2つの子ノードr(c1),r(c2)のそれぞれについて行うことにより、ノードrについての最大化された目的関数の値L(Ψ,m)r、ノードr(c1)についての最大化された目的関数の値L(Ψ,m)r(c1)、ノードr(c2)についての最大化された目的関数の値L(Ψ,m)r(c2)を求める。
終了判定部860は、まず以下により定義されるΔL(Ψ,m)rを計算する。すなわち、ノードrについての最大化された目的関数の値L(Ψ,m)rから2つの子ノードr(c1),r(c2)についての最大化された目的関数の値L(Ψ,m)r(c1),L(Ψ,m)r(c2)を減算した値ΔL(Ψ,m)rを計算する。
そして、終了判定部860は、ΔL(Ψ,m)rの値が正であれば、rの子ノードをそれぞれ r(c1)とr(c2)として、特徴空間統計量計算部810、平滑化統計量計算部820、最適調整パラメータ推定部830、変換行列推定部840、事前分布更新部850、終了判定部860の処理を繰り返す。一方、ΔL(Ψ,m)rの値が負であれば、終了判定部860の処理を中止する(ステップS36)。
この基準を利用することで実験的な値ではなく、適応データ量に応じて自動的な木構造推定ができる。また、適応データ量に応じて各ノードことの事前分布の寄与率を調整することができる。
このようにして、調整パラメータ更新部800は、入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードrについての調整パラメータと、目的関数を最大化するノードrの2つの子ノードr(c1),r(c2)のそれぞれについての調整パラメータとを、ノードrについての最大化された目的関数の値L(Ψ,m)rから2つの子ノードについての最大化された目的関数の値L(Ψ,m)r(c1),L(Ψ,m)r(c2)を減算した値ΔL(Ψ,m)rが負になるまで繰り返し更新することにより求める。
特徴空間変換行列推定部710は、ノードrについての調整パラメータρ~rに基づいて、変換行列Wrを推定する。特徴空間変換行列推定部710は、具体的には、ノードrについての予め求めた事前分布、すなわちノードrの親ノードr(p)の変換行列Wr(p)を、ΔL(Ψ,m)rの値が負のときのノードrについての調整パラメータρ~rで統計量Gr (i),kr (i)に反映することにより、特徴空間の変換行列Wrを推定する。
言い換えれば、特徴空間変換行列推定部710は、終了判定部860が繰り返し処理を終了すると判定したときのノードrについて、特徴空間統計量計算部810、平滑化統計量計算部820、最適調整パラメータ推定部830及び変換行列推定部840と同様の処理を行うことにより、変換行列Wrを推定する。
推定された変換行列は、特徴ベクトル変換部720に送信される。
特徴ベクトル変換部720は、特徴ベクトル抽出部100から出力された特徴ベクトルo(t)を、特徴空間変換行列推定部710で推定した変換行列Wrにより線形変換して、特徴ベクトルo^(t)を求める。つまり、以下の式によりo(t)を変換した変換特徴ベクトルo^(t)を求める。変換特徴ベクトルo^(t)は、音声認識部200に送信される。
ここで、Wr=[br Ar]はn×(n+1)拡張変換行列であり、Arはn×n変換行列、brはn×1バイアスベクトルである。
音声認識部200は、変換特徴ベクトルo^(t)に基づいて音声認識を再度行い、音声認識結果を出力する。
このように、話者適応において、特徴量空間での変分ベイズによるモデル構造推定を事前分布の寄与率を調整する調整パラメータを自動的に推定することにより、従来の手法に比べて適応データ量に応じた信頼性の高い変換行列推定ができ、従来よりも認識率を向上させることができる。
上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、上記装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
710 特徴空間変換行列推定部
720 特徴ベクトル変換部
800 調整パラメータ更新部
810 特徴空間統計量計算部
820 平滑化統計量計算部
830 最適調整パラメータ推定部
840 変換行列推定部
850 事前分布更新部
860 終了判定部
720 特徴ベクトル変換部
800 調整パラメータ更新部
810 特徴空間統計量計算部
820 平滑化統計量計算部
830 最適調整パラメータ推定部
840 変換行列推定部
850 事前分布更新部
860 終了判定部
Claims (4)
- 入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードについての調整パラメータと、上記目的関数を最大化する上記ノードの2つの子ノードのそれぞれについての調整パラメータとを、上記ノードについての上記最大化された目的関数の値から上記2つの子ノードについての上記最大化された目的関数の値を減算した値が負になるまで繰り返し更新することにより求める調整パラメータ更新部と、
上記求まった上記ノードについての調整パラメータに基づいて、変換行列を推定する特徴空間変換行列推定部と、
上記変換行列を用いて上記特徴ベクトルを変換した変換特徴ベクトルを生成する特徴ベクトル変換部と、
を含む話者適応装置。 - 請求項1に記載の話者適応装置において、
認識結果の木構造の中の所定のノードについてのガウス分布の平均及び分散と上記特徴ベクトルとを用いて、上記所定のノードについての所定の統計量を計算する特徴空間統計量計算部と、
上記所定の統計量を平滑化した平滑化統計量を計算する平滑化統計量計算部と、
上記平滑化統計量を用いて、上記目的関数を最大化する調整パラメータを推定する最適調整パラメータ推定部と、
上記推定された調整パラメータ及び事前分布を用いて、上記所定のノードについての変換行列を推定する変換行列推定部と、
上記推定された変換行列を用いて、上記事前分布を更新する事前分布更新部と、
上記ノード、上記2つの子ノードのそれぞれを上記所定のノードとした上記特徴空間統計量計算部、上記平滑化統計量計算部、上記最適調整パラメータ推定部、上記変換行列推定部及び上記事前分布更新部の処理を上記減算した値が正になるまで繰り返し行う終了判定部と、
を上記調整パラメータ更新部は含む、
話者適応装置。 - 調整パラメータ更新部が、入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードについての調整パラメータと、上記目的関数を最大化する上記ノードの2つの子ノードのそれぞれについての調整パラメータとを、上記ノードについての上記最大化された目的関数の値から上記2つの子ノードについての上記最大化された目的関数の値を減算した値が負になるまで繰り返し更新することにより求める調整パラメータ更新ステップと、
特徴空間変換行列推定部が、上記求まった上記ノードについての調整パラメータに基づいて、変換行列を推定する特徴空間変換行列推定ステップと、
特徴ベクトル変換部が、上記変換行列を用いて上記特徴ベクトルを変換した変換特徴ベクトルを生成する特徴ベクトル変換ステップと、
を含む話者適応方法。 - 請求項1又は2の話者適応装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012191283A JP2014048457A (ja) | 2012-08-31 | 2012-08-31 | 話者適応装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012191283A JP2014048457A (ja) | 2012-08-31 | 2012-08-31 | 話者適応装置、方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014048457A true JP2014048457A (ja) | 2014-03-17 |
Family
ID=50608195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012191283A Pending JP2014048457A (ja) | 2012-08-31 | 2012-08-31 | 話者適応装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014048457A (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007193139A (ja) * | 2006-01-19 | 2007-08-02 | Toshiba Corp | 音声処理装置及びその方法 |
-
2012
- 2012-08-31 JP JP2012191283A patent/JP2014048457A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007193139A (ja) * | 2006-01-19 | 2007-08-02 | Toshiba Corp | 音声処理装置及びその方法 |
Non-Patent Citations (4)
Title |
---|
JPN6015019641; S.Watanabe, A.nakamura, B.H.Juang: 'Bayesian linear regression for Hidden Markov Model based on optimizing variational bounds' 2011 IEEE International Workshop on Machine Learning for Signal Processing (MLSP) , 20110918, pp.1-6, IEEE * |
JPN6015019642; X.Lei, J.Hamaker, X.He: 'Robust Feature Space Adaptation For Telephony Speech Recognition' Proc. of INTERSPEECH , 20060917, pp.773-776 * |
JPN6015019643; 羅 平, 尾関 和彦: 'アフィン変換を用いた音声特徴量の正規化' 電子情報通信学会技術研究報告 第96巻第39号, 19960516, pp.69-74, 社団法人電子情報通信学会 * |
JPN6015019644; S.Hahm, A.Ogawa, M.Fujimoto, T.Hori, A.Nakamura: 'Feature Space Variational Bayesian Linear Regression' 日本音響学会 2012年 秋季研究発表会講演論文集CD-ROM , 20120911, pp.143-146, 一般社団法人日本音響学会 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
Hasan et al. | Duration mismatch compensation for i-vector based speaker recognition systems | |
US20210193161A1 (en) | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program | |
Zen et al. | Product of experts for statistical parametric speech synthesis | |
JP4316583B2 (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
JP2019144402A (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
JPH0850499A (ja) | 信号識別方法 | |
JP2002268675A (ja) | 音声認識装置 | |
DK2797078T3 (en) | Assessment of reliability in speech recognition | |
JP2010078650A (ja) | 音声認識装置及びその方法 | |
Fauziya et al. | A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling | |
JP6121187B2 (ja) | 音響モデル補正パラメータ推定装置、その方法及びプログラム | |
JP4612435B2 (ja) | 音響モデル学習装置および音声認識装置 | |
JP2014048457A (ja) | 話者適応装置、方法及びプログラム | |
Sung et al. | Maximum conditional likelihood linear regression and maximum a posteriori for hidden conditional random fields speaker adaptation | |
Suh et al. | Probabilistic class histogram equalization based on posterior mean estimation for robust speech recognition | |
Surendran et al. | Transformation-based Bayesian prediction for adaptation of HMMs | |
JP5647159B2 (ja) | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム | |
Ghalehjegh et al. | Two-stage speaker adaptation in subspace Gaussian mixture models | |
JP2006053431A (ja) | 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体 | |
WO2016092837A1 (ja) | 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 | |
Cumani | Speaker and language recognition techniques | |
KR20130026847A (ko) | 온라인 비지도 특징 벡터 적응 기법을 이용한 음성 인식 시스템 및 방법 | |
KR20050063995A (ko) | 음성인식을 위한 학습과 인식 방법 및 시스템 | |
Shilin et al. | An investigation of temporally varying weight regression for noise robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140813 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150526 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20151006 |