JP2014048457A - 話者適応装置、方法及びプログラム - Google Patents

話者適応装置、方法及びプログラム Download PDF

Info

Publication number
JP2014048457A
JP2014048457A JP2012191283A JP2012191283A JP2014048457A JP 2014048457 A JP2014048457 A JP 2014048457A JP 2012191283 A JP2012191283 A JP 2012191283A JP 2012191283 A JP2012191283 A JP 2012191283A JP 2014048457 A JP2014048457 A JP 2014048457A
Authority
JP
Japan
Prior art keywords
adjustment parameter
node
feature vector
objective function
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012191283A
Other languages
English (en)
Inventor
Sonjun Ham
ソンジュン ハム
Atsunori Ogawa
厚徳 小川
Masakiyo Fujimoto
雅清 藤本
Takaaki Hori
貴明 堀
Atsushi Nakamura
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012191283A priority Critical patent/JP2014048457A/ja
Publication of JP2014048457A publication Critical patent/JP2014048457A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】従来よりも認識率を向上させることができる話者適応技術を提供する。
【解決手段】話者適応装置は、入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードについての調整パラメータと、目的関数を最大化するノードの2つの子ノードのそれぞれについての調整パラメータとを、ノードについての最大化された目的関数の値から2つの子ノードについての最大化された目的関数の値を減算した値が負になるまで繰り返し更新することにより求める調整パラメータ更新部800と、求まったノードについての調整パラメータに基づいて、変換行列を推定する特徴空間変換行列推定部710と、変換行列を用いて特徴ベクトルを変換した変換特徴ベクトルを生成する特徴ベクトル変換部720と、を備える。
【選択図】図1

Description

この発明は、音声認識技術に関する。特に、予め音声認識用学習データから学習した音声認識モデルを用いて、未知の人の音声認識を行う際に、未知の人の入力音声から抽出した特徴ベクトルを線形変換することにより、音声認識モデルに適合しやすくすることで音声認識の精度を向上させる話者適応技術に関する。
音声認識をする際に入力信号となる音響信号に影響を与える、話者、雑音、通信チャンネル、マイク等の変動要因による悪影響を防ぐため、適応技術が発展している。特にモデルに基づく適応技術は、変換行列を用いた線形変換により音響モデルの全てのパラメータを適応させることができるので、良く使われている。
モデルに基づく適応技術として、入力音声から抽出した特徴ベクトルを線形変換することにより適応させるいわゆる特徴空間での適応手法であって、事前分布を用いる手法であるfMAPLR(feature space Maximum A Posteriori Linear Regression)及びfSMAPLR(feature space Structual Maximum A Posteriori Linear Regression)等の手法が知られている(例えば、非特許文献1,2参照。)。事前分布には、各手法を用いた学習データに含まれている話者の変換行列の分布又は単位変換行列が用いられる。
これらの手法では、適応データ量によって事前分布の寄与率を調整するための調整パラメータが用いられている。調整パラメータは、ハイパーパラメータとも呼ばれている。
Lei, X. and Hamaker, J. and He, X. Robust feature space adaptation for telephony speech recognition. Proc. of INTERSPEECH, pages 773-776, 2006. Y. Nakano, M. Tachibana, J. Yamagishi, and T. Kobayashi, Constrained structural maximum a posteriori linear regression for average-voice-based speech synthesis. Proc. of INTERSPEECH, pages 2286-2289, 2006.
非特許文献1,2に記載されている適応技術では、調整パラメータとして、経験に基づいて予め定められた値が用いられている。このため、予め定められた調整パラメータの値が適切ではない場合には、認識率が低下する可能性があった。
この発明は、従来よりも認識率を向上させた、事前分布を用いた特徴空間での適応手法に基づく話者適応装置、方法及びプログラムを提供することを目的とする。
この発明の一態様による話者適応装置は、入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードについての調整パラメータと、目的関数を最大化するノードの2つの子ノードのそれぞれについての調整パラメータとを、ノードについての最大化された目的関数の値から2つの子ノードについての最大化された目的関数の値を減算した値が負になるまで繰り返し更新することにより求める調整パラメータ更新部と、求まったノードについての調整パラメータに基づいて、変換行列を推定する特徴空間変換行列推定部と、変換行列を用いて特徴ベクトルを変換した変換特徴ベクトルを生成する特徴ベクトル変換部と、を備える。
調整パラメータを適切に更新することにより、従来よりも認識率を向上させることができる。
話者適応装置の例を説明するためのブロック図。 調整パラメータ更新部800の例を説明するためのブロック図。 話者適応方法の例を説明するためのフローチャート。 調整パラメータ更新部800の処理の例を説明するためのフローチャート。
以下、図面を参照して、話者適応装置及び方法の実施形態を説明する。
話者適応装置は、図1に示すように、特徴ベクトル抽出部100と、音声認識部200と、認識用データ記憶部210と、事前分布記憶部500と、特徴空間適応部700とを例えば備えている。特徴空間適応部700は、調整パラメータ更新部800と、特徴空間変換行列推定部710と、特徴ベクトル変換部720とを例えば備えている。
特徴ベクトル抽出部100は、入力音声から特徴ベクトルo(t)を抽出する(ステップS1)。抽出された特徴ベクトルo(t)は、音声認識部200及び特徴空間適応部700に送信される。ここでo(t)は、t番目のフレームのn次元特徴ベクトルを表す。
音声認識部200は、特徴ベクトルo(t)に基づいて音声認識を行い、仮の音声認識結果を生成する(ステップS2)。音声認識結果は、特徴空間適応部700に送信される。後述するように、特徴ベクトル変換部720で変換特徴ベクトルが生成されている場合には、音声認識部200は、特徴ベクトルo(t)に代えて変換特徴ベクトルに基づいて音声認識を行う。
なお、認識用データ記憶部210には、予め学習用の音声認識データから学習された、音響モデル211、言語モデル212及び単語辞書213が記憶されている。音声認識部200は、音響モデル211、言語モデル212及び単語辞書213を用いて音声認識を行う。
ここで、音声認識結果は、音響モデル、単語モデル、単語辞書から構成される確率モデルを用いて、音声認識過程を音声データと単語の出現確率(尤度関数)とで表現したものである。音声認識部200が行う音声認識処理とは、この尤度関数を最大とする単語列を結果として出力することである。特徴空間適応部700が行う適応処理とは、認識結果を元に認識結果である単語列を最大尤度で出力する、ガウス分布ごとに最適な特徴ベクトルに変換する変換行列を推定することである。
ここで、推定すべきパラメータの数は非常に多いため、これらのパラメータは、音素クラスに応じて階層的にクラスタリングされた木構造で表現されている。例えば、単一のガウス分布を葉ノードとし、これらの集合を中間ノード及び根ノードとするような木構造によりガウス分布の集合を表現する。ここでは、分布間距離の近い2つのガウス分布を1つのノードにまとめていくような二分木の木構造を仮定する。
以下の処理において、適応処理を行うために用いる変換行列Wは、この木構造のノードごとに別の変換行列が対応付けられるため、ノードrごとに変換行列Wの推定を行うとする。
調整パラメータ更新部800は、ノードrにおける調整パラメータの自動推定を行う(ステップS3)。具体的には、変分ベイズに基づいて求められる変分下限(variational lower bound)を目的関数として用いることにより、調整パラメータを最適化する。推定された調整パラメータは、特徴空間変換行列推定部710に送信される。
以下、調整パラメータ更新部800の具体的な処理について説明する。
調整パラメータ更新部800は、図2に示すように、特徴空間統計量計算部810と、平滑化統計量計算部820と、最適調整パラメータ推定部830と、変換行列推定部840と、事前分布更新部850と、終了判定部860とを例えば備えている。
特徴空間統計量計算部810は、認識結果の木構造の中の所定のノードrについてのガウス分布の平均及び分散と特徴ベクトルo(t)とを用いて、所定のノードrについての所定の統計量Gr (i),kr (i)を計算する(ステップS31)。特徴空間統計量計算部810は、具体的には、ノードrに対応するガウス分布の集合におけるu番目のガウス分布のi次元目の平均μi (u)及び分散σi (u)と、特徴ベクトルo(t)に基づく拡張特徴ベクトルξ(t)とを用いて、以下の式によりGr (i),kr (i)を計算する。計算されたGr (i),kr (i)は、平滑化統計量計算部820に送信される。
Figure 2014048457
ここで、γu(t)は、o(t)がu番目のガウス分布に属する事後確率である。また、Ntは、フレームの総数である。拡張特徴ベクトルξ(t)は、ξ(t)=[1 o(t)T]Tであり、(n+1)×1のベクトルである。・Tは、・の転置を意味する。
平滑化統計量計算部820は、統計量Gr (i),kr (i)を平滑化した平滑化統計量G^r (i),k^r (i)を計算する(ステップS32)。平滑化統計量計算部820は、具体的には、以下の式に基づいて、G^r (i),k^r (i)を計算する。計算されたG^r (i),k^r (i)は、最適調整パラメータ推定部830に送信される。
Figure 2014048457
ここで、criは、事前分布のハイパーパラメータCrの第i行であり、Crは以下に示される行列である。Inはn×nの単位行列であり、r(p)はrの親ノードを表す。
Figure 2014048457
また、Vrは、事前分布のハイパーパラメータであり、以下のように定義される。In+1は、(n+1)×(n+1)の単位行列である。
Figure 2014048457
最適調整パラメータ推定部830は、以下の式により、最適な調整パラメータρ~rを求める(ステップS33)。
Figure 2014048457
つまり、最適調整パラメータ推定部830は、L(Ψ,m)rの値が最大となる調整パラメータρrを、最適な調整パラメータρ~とする。ここで、L(Ψ,m)rは、変分ベイズに基づく変分下限である目的関数であり、下記式で表される。
Figure 2014048457
ここで、Vr~(i),c~riは、以下のように定義される。
Figure 2014048457
Figure 2014048457
また、Σ(u)は、分散σi (u)(i=1,2,・・・,n)を対角成分として持つn×nの行列であり、γut=1 Ntγu(t)である。
変換行列推定部840は、推定された調整パラメータρ~及び事前分布記憶部500から読み込んだ事前分布を用いて、ノードrについての変換行列を推定する(ステップS34)。変換行列推定部840は、具体的には下記式により、変換行列Wの第i行を求め、処理をすべてのiについて行うことで、変換行列Wを推定する。推定されたWは、事前分布更新部850に送信される。
Figure 2014048457
ここでpiは拡張cofactor行ベクトル[0ci1…cin](cij=cof(Arij))である。なお、行列Arを行列Wrの第1列を除くn×n行列として、cof(Arij)は行列Arの第i行第j列の成分Arijに関する余因子(cofactor)である。αは、以下のQ関数を最大化する二次方程式の解であり、その推定方法は例えば参考文献1に詳述されている。
Figure 2014048457
〔参考文献1〕Gales, M.J.F. Maximum likelihood linear transformations for HMM-based speech recognition. Computer Speech and Language, 12:75-98, 1998.
ここでrは、木構造内のノード番号を表す。また、G~r (i),k~r (i)は、以下のように定義される。
Figure 2014048457
また、事前分布p(Wr|Cr,Vr)として、参考文献2,3及び非特許文献1で用いられている行列の多変量正規分布を用いる。この分布は以下の式のように定義される。
Figure 2014048457
〔参考文献2〕Siohan, O. and Chesta, C. and Lee, C.H. Joint maximum a posteriori adaptation of transformation and HMM parameters. IEEE Trans. on Speech and Audio Processing, 9(4):417-428, 2001.
〔参考文献3〕Siohan, O. and Myrvoll, T.A. and Lee, C.H. Structural maximum a posteriori linear regression for fast HMM adaptation. Computer Speech and Language, 16(1):5-24, 2002.
ここで、CrとVrは定義された分布のハイパーパラメータである。なお、事前分布の初期値は、予め事前分布記憶部500に記憶されているものとする。
事前分布更新部850は、推定された変換行列Wrを用いて、事前分布記憶部500に記憶されている事前分布を更新する(ステップS35)。事前分布更新部850は、具体的には下記式により、変換行列Wrの事後分布q~(Wr)を求め、q~(Wr)を2つの子ノードの新たな事前分布p(Wr|Cr,Vr)として事前分布記憶部500に格納する。
Figure 2014048457
ここでV~rは V~r (i)の集合を表現する(すなわち V~r={ V~r (1), V~r (2),…,V~r (n)})。特徴空間統計量計算部810、平滑化統計量計算部820、最適調整パラメータ推定部830、変換行列推定部840、事前分布更新部850の処理を、ノードr、ノードrの2つの子ノードr(c1),r(c2)のそれぞれについて行うことにより、ノードrについての最大化された目的関数の値L(Ψ,m)r、ノードr(c1)についての最大化された目的関数の値L(Ψ,m)r(c1)、ノードr(c2)についての最大化された目的関数の値L(Ψ,m)r(c2)を求める。
終了判定部860は、まず以下により定義されるΔL(Ψ,m)rを計算する。すなわち、ノードrについての最大化された目的関数の値L(Ψ,m)rから2つの子ノードr(c1),r(c2)についての最大化された目的関数の値L(Ψ,m)r(c1),L(Ψ,m)r(c2)を減算した値ΔL(Ψ,m)rを計算する。
Figure 2014048457
そして、終了判定部860は、ΔL(Ψ,m)rの値が正であれば、rの子ノードをそれぞれ r(c1)とr(c2)として、特徴空間統計量計算部810、平滑化統計量計算部820、最適調整パラメータ推定部830、変換行列推定部840、事前分布更新部850、終了判定部860の処理を繰り返す。一方、ΔL(Ψ,m)rの値が負であれば、終了判定部860の処理を中止する(ステップS36)。
この基準を利用することで実験的な値ではなく、適応データ量に応じて自動的な木構造推定ができる。また、適応データ量に応じて各ノードことの事前分布の寄与率を調整することができる。
このようにして、調整パラメータ更新部800は、入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードrについての調整パラメータと、目的関数を最大化するノードrの2つの子ノードr(c1),r(c2)のそれぞれについての調整パラメータとを、ノードrについての最大化された目的関数の値L(Ψ,m)rから2つの子ノードについての最大化された目的関数の値L(Ψ,m)r(c1),L(Ψ,m)r(c2)を減算した値ΔL(Ψ,m)rが負になるまで繰り返し更新することにより求める。
特徴空間変換行列推定部710は、ノードrについての調整パラメータρ~rに基づいて、変換行列Wrを推定する。特徴空間変換行列推定部710は、具体的には、ノードrについての予め求めた事前分布、すなわちノードrの親ノードr(p)の変換行列Wr(p)を、ΔL(Ψ,m)rの値が負のときのノードrについての調整パラメータρ~rで統計量Gr (i),kr (i)に反映することにより、特徴空間の変換行列Wrを推定する。
言い換えれば、特徴空間変換行列推定部710は、終了判定部860が繰り返し処理を終了すると判定したときのノードrについて、特徴空間統計量計算部810、平滑化統計量計算部820、最適調整パラメータ推定部830及び変換行列推定部840と同様の処理を行うことにより、変換行列Wrを推定する。
推定された変換行列は、特徴ベクトル変換部720に送信される。
特徴ベクトル変換部720は、特徴ベクトル抽出部100から出力された特徴ベクトルo(t)を、特徴空間変換行列推定部710で推定した変換行列Wrにより線形変換して、特徴ベクトルo^(t)を求める。つまり、以下の式によりo(t)を変換した変換特徴ベクトルo^(t)を求める。変換特徴ベクトルo^(t)は、音声認識部200に送信される。
Figure 2014048457
ここで、Wr=[br Ar]はn×(n+1)拡張変換行列であり、Arはn×n変換行列、brはn×1バイアスベクトルである。
音声認識部200は、変換特徴ベクトルo^(t)に基づいて音声認識を再度行い、音声認識結果を出力する。
このように、話者適応において、特徴量空間での変分ベイズによるモデル構造推定を事前分布の寄与率を調整する調整パラメータを自動的に推定することにより、従来の手法に比べて適応データ量に応じた信頼性の高い変換行列推定ができ、従来よりも認識率を向上させることができる。
上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、上記装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
710 特徴空間変換行列推定部
720 特徴ベクトル変換部
800 調整パラメータ更新部
810 特徴空間統計量計算部
820 平滑化統計量計算部
830 最適調整パラメータ推定部
840 変換行列推定部
850 事前分布更新部
860 終了判定部

Claims (4)

  1. 入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードについての調整パラメータと、上記目的関数を最大化する上記ノードの2つの子ノードのそれぞれについての調整パラメータとを、上記ノードについての上記最大化された目的関数の値から上記2つの子ノードについての上記最大化された目的関数の値を減算した値が負になるまで繰り返し更新することにより求める調整パラメータ更新部と、
    上記求まった上記ノードについての調整パラメータに基づいて、変換行列を推定する特徴空間変換行列推定部と、
    上記変換行列を用いて上記特徴ベクトルを変換した変換特徴ベクトルを生成する特徴ベクトル変換部と、
    を含む話者適応装置。
  2. 請求項1に記載の話者適応装置において、
    認識結果の木構造の中の所定のノードについてのガウス分布の平均及び分散と上記特徴ベクトルとを用いて、上記所定のノードについての所定の統計量を計算する特徴空間統計量計算部と、
    上記所定の統計量を平滑化した平滑化統計量を計算する平滑化統計量計算部と、
    上記平滑化統計量を用いて、上記目的関数を最大化する調整パラメータを推定する最適調整パラメータ推定部と、
    上記推定された調整パラメータ及び事前分布を用いて、上記所定のノードについての変換行列を推定する変換行列推定部と、
    上記推定された変換行列を用いて、上記事前分布を更新する事前分布更新部と、
    上記ノード、上記2つの子ノードのそれぞれを上記所定のノードとした上記特徴空間統計量計算部、上記平滑化統計量計算部、上記最適調整パラメータ推定部、上記変換行列推定部及び上記事前分布更新部の処理を上記減算した値が正になるまで繰り返し行う終了判定部と、
    を上記調整パラメータ更新部は含む、
    話者適応装置。
  3. 調整パラメータ更新部が、入力された音声から抽出した特徴ベクトルを用いて、変分ベイズに基づく変分下限である目的関数を最大化する、木構造により表現されたガウス分布の集合のノードについての調整パラメータと、上記目的関数を最大化する上記ノードの2つの子ノードのそれぞれについての調整パラメータとを、上記ノードについての上記最大化された目的関数の値から上記2つの子ノードについての上記最大化された目的関数の値を減算した値が負になるまで繰り返し更新することにより求める調整パラメータ更新ステップと、
    特徴空間変換行列推定部が、上記求まった上記ノードについての調整パラメータに基づいて、変換行列を推定する特徴空間変換行列推定ステップと、
    特徴ベクトル変換部が、上記変換行列を用いて上記特徴ベクトルを変換した変換特徴ベクトルを生成する特徴ベクトル変換ステップと、
    を含む話者適応方法。
  4. 請求項1又は2の話者適応装置の各部としてコンピュータを機能させるためのプログラム。
JP2012191283A 2012-08-31 2012-08-31 話者適応装置、方法及びプログラム Pending JP2014048457A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012191283A JP2014048457A (ja) 2012-08-31 2012-08-31 話者適応装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012191283A JP2014048457A (ja) 2012-08-31 2012-08-31 話者適応装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2014048457A true JP2014048457A (ja) 2014-03-17

Family

ID=50608195

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012191283A Pending JP2014048457A (ja) 2012-08-31 2012-08-31 話者適応装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2014048457A (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193139A (ja) * 2006-01-19 2007-08-02 Toshiba Corp 音声処理装置及びその方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193139A (ja) * 2006-01-19 2007-08-02 Toshiba Corp 音声処理装置及びその方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JPN6015019641; S.Watanabe, A.nakamura, B.H.Juang: 'Bayesian linear regression for Hidden Markov Model based on optimizing variational bounds' 2011 IEEE International Workshop on Machine Learning for Signal Processing (MLSP) , 20110918, pp.1-6, IEEE *
JPN6015019642; X.Lei, J.Hamaker, X.He: 'Robust Feature Space Adaptation For Telephony Speech Recognition' Proc. of INTERSPEECH , 20060917, pp.773-776 *
JPN6015019643; 羅  平, 尾関  和彦: 'アフィン変換を用いた音声特徴量の正規化' 電子情報通信学会技術研究報告 第96巻第39号, 19960516, pp.69-74, 社団法人電子情報通信学会 *
JPN6015019644; S.Hahm, A.Ogawa, M.Fujimoto, T.Hori, A.Nakamura: 'Feature Space Variational Bayesian Linear Regression' 日本音響学会  2012年  秋季研究発表会講演論文集CD-ROM , 20120911, pp.143-146, 一般社団法人日本音響学会 *

Similar Documents

Publication Publication Date Title
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
Hasan et al. Duration mismatch compensation for i-vector based speaker recognition systems
US20210193161A1 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
Zen et al. Product of experts for statistical parametric speech synthesis
JP4316583B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP2019144402A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
JPH0850499A (ja) 信号識別方法
JP2002268675A (ja) 音声認識装置
DK2797078T3 (en) Assessment of reliability in speech recognition
JP2010078650A (ja) 音声認識装置及びその方法
Fauziya et al. A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling
JP6121187B2 (ja) 音響モデル補正パラメータ推定装置、その方法及びプログラム
JP4612435B2 (ja) 音響モデル学習装置および音声認識装置
JP2014048457A (ja) 話者適応装置、方法及びプログラム
Sung et al. Maximum conditional likelihood linear regression and maximum a posteriori for hidden conditional random fields speaker adaptation
Suh et al. Probabilistic class histogram equalization based on posterior mean estimation for robust speech recognition
Surendran et al. Transformation-based Bayesian prediction for adaptation of HMMs
JP5647159B2 (ja) 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム
Ghalehjegh et al. Two-stage speaker adaptation in subspace Gaussian mixture models
JP2006053431A (ja) 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
Cumani Speaker and language recognition techniques
KR20130026847A (ko) 온라인 비지도 특징 벡터 적응 기법을 이용한 음성 인식 시스템 및 방법
KR20050063995A (ko) 음성인식을 위한 학습과 인식 방법 및 시스템
Shilin et al. An investigation of temporally varying weight regression for noise robust speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150526

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20151006