JP3589508B2 - 話者適応音声認識方法および話者適応音声認識装置 - Google Patents
話者適応音声認識方法および話者適応音声認識装置 Download PDFInfo
- Publication number
- JP3589508B2 JP3589508B2 JP20651195A JP20651195A JP3589508B2 JP 3589508 B2 JP3589508 B2 JP 3589508B2 JP 20651195 A JP20651195 A JP 20651195A JP 20651195 A JP20651195 A JP 20651195A JP 3589508 B2 JP3589508 B2 JP 3589508B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speech
- density
- phone
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【発明の属する技術分野】
本発明は、音声認識技術、とくに自己学習型話者適応音声認識方法に関するものである。
【0002】
【従来の技術】
不特定話者の連続音声(スピーチ)認識を完成することは、マン・マシンコミュニケーションにとって理想である。しかしながら最新のモデル化技法でも、そのようなシステムの復号(decoding))の精度は依然限定的である。不特定話者の連続音声の統計的モデル化における固有の困難性は、各単音単位のスペクトル変動が、異音の文脈上の依存性からだけではなく、個別の話者の音響的および音声的特性からも由来するということである。これらの話者の変動要因により、個別の話者の音声を認識する際に、特定話者のモデルよりも不特定話者のモデルの方が有効性が少ない。
【0003】
【発明が解決しようとする課題】
不特定話者の連続音声認識を改善するために、有効な学習機構を音声認識器へ組み込むことは非常に重要であり、それにより、利用者が認識器を使用してい間に話者適応を実現でき、また復号の精度を不特定話者の認識器のものまでに徐々に向上することができる。
【0004】
本発明が関連する分野を一層完全に理解するために、下記の文献を本明細書と一体的に引用する。
【0005】
S.J.Cox およびJ.S.Bridle著(1989)、「確率フイッチングによる未監視話者適応」、Proc.ICASSP、グラスゴー、スコットランド、1989年4月、pp.294〜297。
【0006】
M.H.Degroot著(1970)、「最適な統計的判定」、(マグローヒル社)。
【0007】
A.P.Dempster、N.M.Laird、D.B.Rubin著(1977)、「EMアルゴリズムを通して不完全なデータからの最大確度予想」、J.Royal Statistical Society、B 39、No.1、pp.1〜38。
【0008】
S.Furui著(1989)、「階層制スペクトル集合に基づく未監視話者適応手法」、Proc.ICASSP、グラスゴー、スコットランド、1989年4月、pp.286〜289。
【0009】
H.Hermansky、B.A.Hanson、H.J.Wakita著(1985)、「音声の知覚に基づく線形予想分析」、Proc.ICASSP、タンパ、フロリダ、1985年4月、pp.509〜512。
【0010】
M.J.Hunt著(1981)、「言語に基づく音声認識システムに対する話者適応」、J.Acoust.Soc.Am.、69:S41〜S42。
【0011】
L.F.Lamel、R.H.Kassel、S.Seneff著(1986)、「音声データベースの開発:音響−音声集成の設計と分析」、Proc. of Speech Recognition Workshop (DARPA)。
【0012】
C−H.Lee、C−H.Lin、B−H JuaNG著(1990)、「連続密度HMMパラメータの話者適応についての研究」、Proc.ICASSP、ミネアポリス、ミネソタ、1990年4月、pp.145〜148。
【0013】
C−H.LeeおよびJean−L Gauvain著(1993)、「HMM パラメータのMAP推定に基づく話者適応」、Proc.ICASSP、ミネアポリス、ミネソタ、1993年4月、pp.558〜561。
【0014】
K.Ohkura、M.Sugiyama、S.Sagayama著(1993)、「連続混合密度HMMsによる移送ベクトル分野平滑化に基づく話者適応」、Proc. ofICSLP、バンフ、カナダ、1992年10月、pp.369〜372。
【0015】
D.B.PaulおよびB.F.Necioglu著(1993)、「リンカーン大規模語彙スタック復号器HMM CSR」、Proc.ICASSP、Vol.II、ミネアポリス、ミネソタ、1993年4月、pp.660〜664。
【0016】
K.Shinoda、K.Iso、T.Watanabe著(1991)、「半音節に基づく連続密度HMMについての話者適応」、Proc. of ICASSP、トロント、カナダ、1991年5月、pp.857〜860。
【0017】
Y.Zhao、H.Wakita、X.Zhuang著(1991)、「TIMITデータベースについての実験によるHMMに基づく不特定話者の連続音声認識システム」、Proc.ICASSP、トロント、カナダ、1991年5月、pp.333〜336。
【0018】
Y.Zhao著(1993a)、「音素単位の連続混合ガウス密度HMMを使用する不特定話者の連続音声認識システム」、IEEE Trans. on Speech and Audio Processing、Vol.1、No.3、pp.345 〜361。
【0019】
Y.Zhao著(1993b)、「スペクトル変動源分解に基づく自己学習話者適応」、Proc.EuroSpeech ’93、ベルリン、ドイツ、1993年9月、pp.359〜362。
【0020】
本発明者の先願である日本特許出願(特願平6−91744、平成6年4月28日出願)及びその基礎出願である米国特許出願(出願番号NO.08/055,075、1993年4月29日出願)において、スペクトル変動源(source)の分解に基づく話者適応技法が開示されている。その技法は、不特定話者の連続音声認識システムについて大幅なエラーの減少を達成しており、そのシステムにおいてその適応は、訓練話者および試験話者から短時間校正音声(speech)を必要としている。本発明は、この適応技法を自己学習適応の枠組まで拡大しており、すなわち適応音声は話者から明示的に必要とされないし、また話者のスペクトル特性は、話者が認識器を通常使用している間に、話者の入って来る音声の発音から統計的手法を通して学習される。
【0021】
本発明は、このような音声認識方法および装置を提供することを目的とするものである。
【0022】
【課題を解決するための手段】
本発明の話者適応音声認識方法および装置により、不特定話者の連続音声認識に関する性能が一貫して向上した。連続音声認識の文脈における自己学習の実現可能性に関する一般的な関心は、開始モデルが非常に貧弱であると、分散された適応結果をもたらす可能性があるということであった。
【0023】
そこで、本発明によれば、スペクトル変動源の分解を通して、認識性能を大きく劣化する原因である音響スペクトル変動源を先ず除去することにより、教師無しでセグメンテイションした時のエラー(unsupervised segmentation error)を大幅に減少でき、かくして音(phon)モデル適応の、引き続く段階の実施が容易となる。さらに、適応割合および共分散を最適化すること、教師無しでセグメンテイションした時のエラーの取扱い、および適応のために別の変動源を識別することが考えられる。
【0024】
【発明の実施の形態】
以下、本発明の実施の形態の例を図面を用いて説明する。
【0025】
本発明の音声システムは、一定の話者qからの校正音声の極く短時間の発音だけを使用すして、その話者の音声特性に適応できるものである。これは、初期の音響正規化および引き続く音(phone)モデル適応により可能となる。図1は、話者の音響特性の正規化がどのようにして実施されるかを図示する。正規化は、訓練および試験中に不整合データ収集および記録状態を取扱うことでも実現できる。ついで図2は、音(phone)モデル適応がどのようにして実施されるかを示す。図1および2において、訓練段階と試験段階とは区別される。訓練とは、既知の音声データおよび複数の話者からの校正音声の一組を使用してこの音声システムが「訓練」される手順を指す。試験音声とは、システムが音声認識用途において実際に使用されるときに個別の話者qにより生成される音声を指す。図1および2において訓練段階と試験段階は、別個の囲みで示され、訓練段階10および試験段階12と表示される。図1および2、ならびにこの明細書において後で示される数学的式において、校正音声スペクトルは、XCで表示され、一方、試験音声スペクトルは、Xtで表示されている。これらのスペクトルは、対数域(logarithmic domain)内にある。図1および2は、これらのシステムの概要を示すことを意図するものである。完全な具体的な内容は、数学的式と関連して後で説明する。 図1では、このシステムは、複数の話者から校正音声を供給することにより、先ず校正される。これは、話者1〜話者Qから音声が入力されることを示す14で表示される。図面の左側にある大文字Qは、訓練話者の全人数を示す。図面の右側にある小文字qは、特定の試験話者を示す。この話者qは、図1の16で示される。
【0026】
特定の校正文を表す校正音声スペクトルXCは、不特定話者の単音(phone)モデル推定プロセス18へ供給され、そのプロセスにより、長円20内に図示される話者単音(phone)モデルM1の集合が生成される。M1は、単峰性ガウス密度の集合を有し、そこにおいて各単音(phone)単位の状態それぞれに対する単峰性(単一の)ガウス密度がある。ついでM1は、話者の校正音声の関数として話者についてのスペクトルバイアスを推定するプロセスへ供給される。これは、h−推定器ブロック22およびh−推定器ブロック24内に図示される。両方のh−推定器ブロックは、本質的に同一の方法で構成される。それらは、推定されたスペクトルバイアスパラメータベクトル (推定値)hを生成し、そのベクトルは、対数域内にある音声スペクトルから減算される係数(factor)であり、正規化されたスペクトルを生成する。この推定されたスペクトルバイアスを求める式は、以下に実施の詳細として説明する。
【0027】
訓練側(囲み10)において、訓練話者それぞれの推定されたスペクトルバイアス (推定値)hは、対数域内にある話者の訓練音声スペクトルXtから減算されて、正規化されたスペクトルの集合を生成し、ついでそのスペクトルは、プロセス26において隠れマロコフモデル(HMM)を使用してモデル化される。この結果、28で図示される正規化された不特定話者のHMM単音(phone)モデルM2およびM3が生成される。モデル集合M2は、ガウス混合密度単音(phone)モデルの集合であり、またM3は、単峰性ガウス密度単音(phone)モデルの集合である。ついで正規化された単音(phone)モデルM2およびM3は、復号器30へ供給され、そこで話者qの試験音声を復号するのに使用される。訓練音声スペクトルXtは、校正スペクトルXCを求めるのに使用されるものと異なる文を使用して求められる。
【0028】
話者qがシステムを使用して文を認識する前に、校正音声XCの短い発声は、h−推定器24へ先ず供給されて、その話者用の推定されたスペクトルバイアス (推定値)h(q)を生成する。この (推定値)h(q)は、話者qが校正後にさらに発声をするときに、試験音声スペクトルXtから減算される。前と同様に推定されたスペクトルバイアスパラメータは、対数域内で減算されて、音響的に正規化されたスペクトルを生成する。ついでこの正規化されたスペクトルは、復号器30へ供給され、その復号器は、辞書と文法32、およびHMM単音(phone)モデル28を使用して、復号されたワード列を構成する。
【0029】
さらに性能を向上するために、このシステムは、M2およびM3について単音(phone)モデル適応も実施できる。これを実施する方法は、図2に図示される。図2において、適応された混合密度単音(phone)モデルM2およびM3は、長円34内に示される。図1と同様に図2も、その機能性を訓練段階10および試験段階12にセグメンテイションする。試験段階12は、復号器30へ適応された混合密度単音(phone)モデルM2およびM3が供給されることを除いて、図1で説明したものと本質的に同一である。図2の段階12のプロセスは、図1の段階12のものと本質的に同一であるので、ここではさらに説明しないことにする。図2の重点は、単音(phone)モデル適応プロセスが実施される段階10に置かれる。 複数の訓練話者(話者1〜話者Q)用の校正スペクトルXCは、36で示されるように、対数域内の推定されたスペクトルバイアスパラメータを減算することにより、正規化される。これは例えば、図1のh−推定器22により生成される (推定値)hパラメータを使用することにより、実施される。
【0030】
次に、ビタビ(Viterbi)セグメンテイションプロセスは38において、その入力データについてそのデータを定義された境界の単音(phone)単位毎にセグメンテイションする。このビタビ(Viterbi)セグメンテイションプロセスは、正規化された混合密度単音(phone)モデルM2およびM3を使用することにより、実施される。図2において長円40により図示されるこれらのモデルM2およびM3は、図1において長円28により図示されるもの、すなわち音響的正規化後に生成されるものと同一のモデルでもよい。
【0031】
一旦ビタビ(Viterbi)セグメンテイションが実施されると、個別の単音(phone)単位は、一般に42で図示される最大尤度推定プロセスにより文脈変調ベクトル(CMV) を求めるのに使用される。結果として得られた文脈変調ベクトルは長円44により図示される。これらの文脈変調ベクトルは、訓練話者(話者1〜話者Q)の校正音声XCおよび訓練音声Xtから導かれる。
【0032】
試験話者である話者q用の校正音声XCは、46において推定されたスペクトルバイアスを減算することにより、正規化される。その後にビタビ(Viterbi)セグメンテイションが48において実施されて、話者qの正規化されたスペクトルを異音(allophone)サブセグメントにセグメンテイションする。ついで異音サブセグメントのスペクトルは、先に導かれた文脈変調ベクトル44を使用して、50において文脈変調される。ついでこれらの文脈変調されたスペクトルは、ベイジアン(Bayesian)推定プロセス52において使用される。このベイジアン(Bayesian)推定プロセスは、長円40により示される正規化された混合密度単音(phone)モデルM2およびM3に基づいて作動し、長円34により示される適応された混合密度単音(phone)モデルM2およびM3を生成する。かくしてこの適応された混合密度単音(phone)モデルは、話者qにさらに適応ための音声の実施を要求することなく個別の話者に同調させられる。
【0033】
以上極短時間の校正音声を使用した話者適応用システムを説明してきたが、ここで自己学習のシステムを説明する。図3を参照すると、話者qの音声スペクトルは、推定されたスペクトルバイアス (推定値)h(q)を減算することにより、音響的に正規化される。この場合に入力音声スペクトルXtは、実際の試験音声、すなわち校正音声とは対照的に認識器により復号される音声を表す。先に述べたように試験音声はXtで表示され、また校正音声はXCで表示される。
【0034】
実際の音響的正規化は、先ず推定されたスペクトルバイアス (推定値)h(q)を生成することにより、実施される。これはh−推定器ブロック100により実施され、そのブロックは、Xtおよびガウス密度単音(phone)モデル集合M3から推定されたスペクトルバイアス (推定値)h(q)を計算する。この計算は、下記の式(3)においてさらに説明される。音声スペクトルXtは対数域内にあるので、推定されたスペクトルバイアスは、減算により音声スペクトルから除去される。これは、図3における102および104において図示される。h−推定器100により使用されるガウス密度単音(phone)モデルM3は、110において図示される。
【0035】
減算操作102から生じる正規化されたスペクトルは、復号器106へ供給され、その復号器は、辞書と文法108および適応されたガウス混合密度単音(phone)モデルM2およびM3、114を使用して、復号されたワード列、すなわち認識された音声を表すテキスト列を生成する。
【0036】
以下にさらに説明するように、自己学習機能には、各文が復号された後に単音(phone)モデル適応を実施することを含む。図3において点線112は、文の復号後に実施される手順(下部)を復号手順自体(上部)から視覚的にセグメンテイションするために引かれたものである。復号器106は長円114内に示される適応された混合密度単音(phone)モデルM2およびM3を使用することに留意する必要がある。図から分かるように、これらのモデルM2およびM3は、各文が復号された後に自己学習のやり方で適応される。かくして適応された混合密度単音(phone)モデルM2およびM3は、点線112の下方に図示される。
【0037】
単音(phone)モデル適応プロセスは、ビタビ(Viterbi)セグメンテイション116で開始される。復号器106からの復号されたワード列および適応された混合密度単音(phone)モデル114は、ビタビ(Viterbi)セグメンテイションブロックへ供給される。このビタビ(Viterbi)セグメンテイションプロセスは、減算プロセス104から生じる音響正規化されたスペクトルに基づいて実施される。初心者の期間において、ビタビ(Viterbi)セグメンテイションは、一連の音声スペクトルを、音素(phones)に相当する実際の音声の物理的単位である単音(phone)単位のセグメントへセグメンテイションする(音素は、言語的見地すなわち音素的見地から最小の音声単位である。音素は組合わせられて音節を形成し、音節は組合わせられてワードを形成し、またワードは組合わせられて文を形成する。)
ビタビ(Viterbi)セグメンテイションプロセス116 は、各単音(phone)単位の各状態について適応データを生成する。これは、長円118において表示される。復号器106の出力はビタビ(Viterbi)セグメンテイションプロセスへ供給される。と言うのは、この場合、ビタビ(Viterbi)セグメンテイションプロセスは、校正データの既知の列を取り扱っていないからである。
【0038】
段階120において補間パラメータλは、適応データから、各混合コンポーネントのガウス密度毎に推定される。この補間パラメータは、段階122において使用されて、長円114において図示されるモデル集合M2およびM3における単音(phone)単位の状態に対して、混合密度における対応コンポーネントガウス密度を適応させるデータが十分にあるかどうかを判断する。データが十分であるならば、混合コンポーネントは集合Aに属するとして分類され、そのデータは、ベイジアン(Bayesian)推定により混合コンポーネントのパラメータを適応するのに使用される。これは段階124に示される。この適応プロセスは、以下の数学的説明における式(9)および(10)に対応する。
【0039】
ある場合には、特に話者qがこのシステムを使用して先ず音声を開始するときに、音声データの量は、モデル114の一定の混合コンポーネントのガウス密度を適応するには不十分なことがある。この状態は、段階122で検出され、補間パラメータλがしきい値未満の場合、対応する混合コンポーネントのガウス密度は集合Bに属するとして分類される。この場合に文脈変調は、混合コンポーネント密度のパラメータを適応するために単音(phone)単位の状態のデータに基づいて段階126において実施され、そこでは、文脈変調のパラメータは、集合Aと集合Bとの間で推定されている。文脈変調は、集合Bにおける混合コンポーネント用の文脈変調された適応データを生成することにより、適応データを補足する。これは長円128において図示される。ついでこの文脈変調されたデータは、段階124において使用されて、ベイジアン(Bayesian)推定を通して集合Bにおけるコンポーネントのガウス密度のパラメータを適応する。
【0040】
ベイジアン(Bayesian)推定の結果として、適応された混合密度単音(phone)モデルM2およびM3が生成される。これらのモデルは、ビタビ(Viterbi)セグメンテイションプロセス116へ送り返されるので、今後のビタビ(Viterbi)セグメンテイションは、このようにして生成された適応混合密度単音(phone)モデルを利用できるのである。初心者の期間において、適応された混合密度単音(phone)モデルは、個別の話者qの音声特性に一層良く整合するように修正される。文脈変調は、段階126において使用されて、万一データセットが段階124における直接適応にとり不十分な場合、データセットにおける「ギャップを埋める」。文脈変調は、単音(phone)単位の発音が隣接する単音(phone)単位に応じて異なる発音をする場合、一定の単音(phone)単位の状態の音響的に正規化された混合密度におけるコンポーネントのガウス密度が、異音の文脈依存性を主にモデル化することを考慮している。文脈変調を通して、隣接する単音(phone)の異なる文脈からの単音(phone)単位の適応データは、一定の同様な文脈の異音スペクトルをモデル化する特定のコンポーネントガウス密度のパラメータを適応するのに使用できる。
【0041】
実施例
話者により生じたスペクトル変動源は、2つの分類、すなわち音響(acoustic)特有の源および単音(phone)特有の源に分解される。音響源は、単音(phone)単位とは関係のないスペクトル変動を引き起こす話者の物理的個性に帰し、一方、単音(phone)特有源は、単音(phone)依存のスペクトル変動を引き起こす話者の個人に特有な傾向に帰し、また各変動源は、線形変換システムによりモデル化される。音響変動源からのスペクトルバイアスは、孤立母音およびワード認識における話者適応に対して、Coxなどにより提案された教師無しで最大尤度推定を使用して推定される(Coxなど、1989年)。
【0042】
音響的正規化は、個別話者の音声スペクトルからそのようなスペクトル変動を除去することにより、実施される。単音(phone)特有のスペクトル変動は、単音(phone)モデル適応により取り扱われ、そこにおいて不特定話者のガウス混合密度単音(phone)モデルのパラメータは、ベイジアン(Bayesian)推定を通して適応される。スペクトルバイアスの教師無し最大尤度推定の導出およびガウス混合密度パラメータのベイジアン(Bayesian)推定の導出は、EMアルゴリズムの数学的枠内に入れられる(Dempsterなど、1977年)。
【0043】
ベースライン(baseline)の不特定話者の連続音声認識システムは、単音(phone)単位の隠れマロコフモデルに基づいており、各単音(phone)モデルは3つの対応した状態を有し、また各状態はガウス混合密度によりモデル化される。適応データが限定されるときに適応効果を強化する場合、異音の文脈依存性は、各ガウス混合密度内における混合コンポーネントの対(pair)間の文脈変調によりモデル化される(Zhao、1993b)。提案される適応技法は、TIMITデータベースから訓練されたベースラインの不特定話者の連続音声認識システムの認識精度を向上する際に有効であることが示される(Lamelなど、1986年)。その評価実験は、TIMITデータベースのサブセットに基づき、および我々の研究室で収集した音声データに基づき実施される。
【0044】
この実施の詳細は、自己学習適応方法の一般説明、音響的正規化と単音(phone)モデル適応に対する統計的手法の詳細説明、実験結果、および要約を含む6項目のセクションで行われている。
【0045】
自己学習適応
音響および単音(phone)特有の変動源は、標準話者のスペクトルに基づいて2つのカスケード式線形変換としてモデル化される。話者qを考慮して、i=1,2,....,Mの場合、H(q)およびLi (q)を、それぞれ音響源およびi番目の単音(phone)特有源を表す線形変換とする。またXi,t (q)およびXi,t (o)を、話者qおよび標準話者oから時間tにおける単音(phone)単位iの一対のスペクトルとする。そうすると、この2つの線形変換からの複合マッピングは、下記の式になる。
【0046】
【数1】
【0047】
小文字変数(lower case variables)を使用する対数スペクトル域において、乗算マッピングは加算バイアス、すなわち下記の式になる。
【0048】
【数2】
【0049】
本適応方法において音響バイアスh(q)は明示的に取り扱われるが、単音(phone)特有バイアスli (q)は、単音(phone)モデルパラメータの適応を通して暗黙的に取り扱われる。xi,t (q)からh(q)の減算は音響的正規化と呼ばれ、音響的に正規化された (正規化)xi,t (q)=xi,t (q)−h(q),∀i,tを生じる。未整合記録条件が線形変換ひずみDを導入する場合、対数域におけるこのゆがみdは、バイアスベクトル (正規化)h(q)=h(q)+dにより吸収される。
【0050】
ベースライン認識システムは、瞬時スペクトル特徴および動的スペクトル特徴を使用する(Zhao、1993a)。式(2)から分かるように、動的スペクトル特徴は、その抽出における固有のスペクトル差計算の理由で、スペクトルバイアスh(q)により影響されない。一方、動的特徴は、単音(phone)単位の境界において単音(phone)特有のバイアスli (q) により影響されることがある。ここでは、瞬時スペクトル特徴およびそれらのモデルだけが、適応のために考慮される。この瞬時スペクトルモデルおよび動的スペクトルモデルのセグメンテイション処理は、ガウス混合密度単音(phone)モデルについて定義された、瞬時特徴用に1ブロックおよび動的特徴用に1ブロックのブロック対角共分散構造により容易に実施される(Zhao、1993a参照)。
【0051】
話者が認識器使用の途中において一時に1つの文を発声すると仮定すると、入力文毎に、話者適応は、2つの連続するステップで実施される。図3を参照すると、第1の段階は、その文を復号する前に実施され、そこにおいて話者の音響特性のスペクトルバイアスは、その文のスペクトルから推定され、また同一の文の音声スペクトルは引き続いて正規化される。第2の段階はその文を復号した後に実施され、そこにおいて単音(phone)モデルのパラメータは、ベイジアン(Bayesian)推定を使用して適応される。第2の段階において、各単音(phone)単位についての適応データは、復号された文のスペクトルシーケンスのビタビ(Viterbi)セグメンテイションを通して作成され、またそのセグメンテイションは、認識されたワード列により管理される。ついで適応された単音(phone)モデルは、話者からの次の文の発声を認識するのに使用される。
【0052】
話者正規化
標準話者の単音(phone)モデルパラメータが、訓練集合における話者の音声データから推定されると仮定すると、単音(phone)モデルは、単峰性ガウス密度N(μi,Ci),i=1,2,..,Mである。話者qの場合、文発声は、スペクトル文x(q)={xt (q),t=1,...,T(q)}から成る。EMアルゴリズムの文脈において、スペクトルベクトルxt (q)は観測可能データと呼ばれ、またそれらの単音(phone)ラベルitは観測不能データと呼ばれる。完全なデータセットは、観測可能データと観測不能データとから成る(x1 (q),x2 (q),...,xT (q),i1,i2,...,iT)。それぞれ観測可能データと観測不能データ用のランダム変数を示すために、大文字変数X(q)およびIを使用して、h(q)の推定は、完全データの条件付き対数尤度の期待値の反復最大化を通して実施される。初期値 (推定値)h0 (q)を仮定すると、反復推定式は以下の通りとなる。
【0053】
【数3】
【0054】
ただし、
【0055】
【数4】
【0056】
事後の確率P(it=i|xt (q),(推定値)hn (q))が決定演算in *(t)=argmaxP(it=i|xt (q),(推定値)hn (q))によりそれぞれ近似され、かつガウス密度の共分散マトリックスが単位マトリックスとするならば、推定されるスペクトルバイアス (推定値)h(q)は、文スペクトルと、およびラベル付けされた単音(phone)モデルの対応する平均ベクトルとの間の単なる平均スペクトル変動となる。すなわち下記の式になる。
【0057】
【数5】
【0058】
この検討において式(5)は、スペクトルバイアスの推定に使用され、また初期条件は (推定値)h0 (q)=0として設定される。
【0059】
訓練データと試験データにおいて音響正規化を実施するのは好都合であり、そこにおいて訓練スペクトルからスペクトルバイアスを除去することにより、異音の統計的変動を把握する際に単音(phone)モデルを一層効果的にする。標準話者を特徴付ける単音(phone)モデルを構成するために、先ず訓練データは、単峰性ガウス密度単音(phone)モデルの集合を推定するのに使用される。これらのモデルを基準として使用すると、スペクトルバイアスベクトルは、各話者からの文発声毎に推定され、また推定されたスペクトルバイアスは、引き続いて文スペクトルから除去される。ガウス混合密度単音(phone)モデルは、音響的に正規化された訓練データから訓練される。
【0060】
話者毎にスペクトルバイアスを推定する別の方法は、話者からより多くのデータが入手できるように推定値を反復して更新することである。一般に、より多くのデータを使用することは、一層信頼できる推定値を生成することになるが、実験によれば、反復推定方法は、話者の音声特性のランダム変化に追従する際に遅れて、この場合には劣った認識結果をもたらすことが観察されている。
【0061】
単音 (phone) モデル適応
単音(phone)モデル適応の場合、音響的に正規化された音声スペクトルは、認識されたワードシーケンスに従って単音(phone)単位の状態にセグメンテイションされる。単音(phone)単位の状態毎に、ガウス混合密度のパラメータは、ベイジアン(Bayesian)推定を通して適応される(Lee、1990年; Lee、1993年)。適応データの量が限定されるときに適応効果を強化するために、不十分な適応データを有するガウスコンポーネント密度を適応する文脈変調(Zhao、1993b)が採用される。 ガウス混合密度パラメータのベイジアン (Bayesian) 推定
サイズMのガウス混合密度を考慮すると、そのコンポーネント密度の平均ベクトルおよび共分散マトリックスは、θi=(μi,Ci),∀iにより示される。その混合重みは、αi≧0,∀iおよびΣM i=1 αi=1である。Θ={θ1,θ2,...,θM}およびA={α1,α2,...,αM}として表すと、特徴ベクトルxt(以後(正規化)xt (q)は表示の簡略化のため単にxtとし、また特徴次元はLとする)の尤度は、以下のように計算される。
【0062】
【数6】
【0063】
ただし、 f(xt|θi)− N(μi,Ci),∀i である。
事前分布θi,i=1,2,...,Mは、独立分布であると仮定し、また混合重みαiは定数とする。前の平均および共分散であるμ0 (i)およびC0 (i)i は、訓練サンプルサイズNi,∀iからの不特定話者の推定値である。精密マトリックスri=Ci −1と定義し、平均と精密マトリックスの結合分布(μi,ri)を、共役事前分布とする(Degroot、1970年)。具体的には、riを与えられた時のμiの条件付分布は、平均μ0 (i)および精密マトリックスvriを有するガウス分布であり、ただしvは位取り定数であり、またriの限界分布は、自由度pおよび位取りマトリックスτi=NiC0 (i)iを有するウィシャート(Wishart)分布である。すなわち下記のようになる。
【0064】
【数7】
【0065】
ここに ∝ は「に比例する」を意味する。前の平均および共分散は、Niデータサンプルから推定されるので、精密スケールv および自由度pには、訓練サンプルサイズNiの値が割り当てられる(Degroot、1970年)。
【0066】
観察可能な特徴データx={x1,x2,...,xT}の集合および観察不能なデータ{i1,i2,...,iT}の集合があり、itはxt,∀tについての混合インデックスである。したがってΘの推定は、EMアルゴリズムの枠内で再び定式化される。先に引用したEM定式化に対する相違は、条件付き期待値が、完全なデータセット(X,I)の事後の尤度に関して取られるということである。すなわち下記の通りとなる。
【0067】
【数8】
【0068】
初期値 Θ(0)は、不特定話者のモデルパラメータである。期待値の最大化は、個別のθiについて結合が減じられ、かつ下記の平均値、
【0069】
【数9】
【0070】
【数10】
【0071】
を導く。ただしλi (n)は補間パラメータであり、μx (i)(n)およびCx (i)(n)は、適応データのサンプル平均および共分散である。γt,i (n)により事後確率P(it=i|xt,θi (n))を表示すると、下記のようになる。
【0072】
【数11】
【0073】
パラメータλi (n)、μx (i)(n)およびCx (i)(n)は、下記のように計算される。
【0074】
【数12】
【0075】
適応効果の強化
利用者が先ず認識器の使用を開始すると、フィードバック適応データの量は限定され、かつ大部分の混合コンポーネントは少量の適応データを有するか、または全く有しない。この筋書きにおいて、適応データが不足のガウスコンポーネント密度は、文脈変調データを使用して適応される。対数域において、2つの異音aおよびbのスペクトル間の関係は、xa,t=xb,t+ξであり、ξは文脈変調ベクトル(CMV)である。混合における各ガウスコンポーネント密度が一般化された異音文脈のモデル化スペクトルとして概念化されると、CMVは、対応する訓練データを使用して混合コンポーネントの各対間で推定できる。
ci,j(xt)=xt+ξi,jにより、j番目の混合コンポーネントに対してi番目の混合コンポーネントにおける訓練スペクトルのマッピングxt,∀tを表示すると、CMVξi,jは、ガウス密度モデルθj=(μj,Cj)に基づいて、ci,j(xt),∀tの結合尤度を最大化することにより、推定される。すなわち下記のようになる。
【0076】
【数13】
【0077】
推定値は (推定値)ξi,j=μj−μiであり、それはj番目のコンポーネントガウス密度とi番目のコンポーネントガウス密度との平均ベクトル間の差であることを導くことは簡単である。
【0078】
CMVに基づいて、混合における個別のガウスコンポーネント密度へ集約される適応データは、そのパラメータを適応する特定のコンポーネント密度へマッピングできる。この方法には2つの潜在的問題がある。第1に、混合におけるコンポーネント密度は、異なる距離で離間される。文脈変調の線形変換モデルは、大きい距離でセグメンテイションされるコンポーネント密度の対にとり不適切であろう。第2に、話者が長期間認識器を使用した後、単音(phone)単位の状態における適応データの量は大きくなるであろうし、また特定のガウスコンポーネント密度を適応するために、これら全てのデータを使用すると、過度の適応をもたらすかもしれない。下記において2つの事例が考えられる。第1の事例において、文脈変調した適応データは、特定のガウスコンポーネント密度のパラメータを適応するのに単純に使用される。第2の事例において、適応についての制約は、重みとしきい値を第1の事例に適用して上記の2つの潜在的問題を取り扱うことにより、導入される。
制約なしの適応
式(12)で定義された補間パラメータλiは、i,∀i番目の混合コンポーネントについて適応データの量を計る。しきい値η<1とすると、λi≧ηならば、i番目の混合コンポーネントのパラメータは、式(9)および(10)を使用して直接適応され、そうでないならば、そのパラメータは、文脈変調されたデータを使用して適応されることが決定される。j番目の混合コンポーネントが、不十分な適応データを有する、すなわちλi<ηであると仮定すると、モデルパラメータθj=(μj,Cj)もEM定式化から推定できる。cj(x)により、j番目の混合コンポーネントに対して個別ガウスコンポーネント密度から適応データx={x1,x2,...,xT}のマッピングを表示すると、下記の式となる。
【0079】
【数14】
【0080】
さらに重み係数を定義すると(制約ΣM i=1 γt,i (n)=1の使用に留意)、下記の式となる。
【0081】
【数15】
【0082】
平均 (推定値)μj (n+1)の事後推定値は、下記のように導かれる。
【0083】
【数16】
【0084】
式(16)から分かるように、重み係数の合計ΣM i=1 βi (j)(n)は、補間パラメータとして役立ち、また推定値 (推定値)μj (n+1)は、
ベクトルδ(j)(n)=ΣM i=1βi (j)(n)(μx (i)(n)−μ0 (j))だけの、
当初平均値μ0 (j)のずれである。ベクトルδ(j)(n)を利用すると、共分散マトリックスの事後推定値は、下記のように導かれる。
【0085】
【数17】
【0086】
制約付適応
ガウスコンポーネント密度対間の距離を考慮するために、式(14)のEM定式化は、1未満から1に等しい係数だけ、各特徴ベクトルの尤度に重みを付けるように修正される。すなわち下記のようになる。
【0087】
【数18】
【0088】
ただし係数vj,iは、ユークリッド距離dj,i=|μi−μj|の逆関数であり、下記のように定義される。
【0089】
【数19】
【0090】
式(19)において、j≠iの場合の分子は、vj,iの最大値を1へ正規化するためのものであり、すなわち最大vj,i=1(i≠j)である。この正規化の目的は、正規化無しの場合よりも大きい適応効果を達成することにある。(推定値)μj (n+1)および(マトリクス)Cj (n+1)用の推定式は、式(16)および(17)におけるものと同一の形式であるが、係数βi (j)(n)は下記へ変更されることが容易に導かれる。
【0091】
【数20】
【0092】
過剰適応を避けるために、ΣM i=1βi (j)(n)の値は、しきい値ε<1と照合される。
ΣM i=1 βi (j)(n)>εならば、重み付け係数は、ξivj,iへ修正され、そこにおいてi=jの場合はξi=1となり、そうでない場合はξi=ξ<1,∀iとなる。値ξは、ΣM i=1 βi (j)(n)=εを設定して求められ、これは下記を導く。
【0093】
【数21】
【0094】
実 験
発明者(STL)が収集したTIMITのデータベースおよび音声データに基づいて、下記の方法で実験が実施された。ベースラインの不特定話者HMM単音(phone)モデルは、TIMITデータベースからの717個の文および325人の話者から訓練された。TIMIT音声データは、16KHzから10.67KHzまでサンプリングが下げられた。PLP分析のケプストラム係数(8次)(Hermanskyなど、1985年)および対数エネルギーが、瞬時特性として使用され、またそれらの1次の50ミリ秒の時間的回帰係数が、動的特性として使用された。タスク語彙サイズは853であり、また文法上のパープレキシティは、TIMIT試験セットおよびSTL試験セットそれぞれについて104および105であった。TIMIT試験セットには、50人の男性と25人の女性が含まれ、そこにおいて各話者は、2文から3文を発声し、合計音声数は186文であった。STL試験セットには、1人の男性(STL−m)および1人の女性(STL−m)が含まれ、各話者は、98個のTIMIT SX文を読んだ。TIMIT と比較すると、STLデータは、高いレベルの環境ノイズ(約15dB高い)の下で収集され、また対エイリアシングフィルタ特性も、TIMITデータベースに使用されるものには十分に整合しなかった。
【0095】
認識性能が、以下の6事例において評価された。すなわち(a)ベースライン不特定話者連続音声認識、(b)音響的正規化、(c)教師無しセグメンテイションによる単音(phone)モデル適応、(d)教師有りセグメンテイションによる単音(phone)モデル適応、(e)教師無しセグメンテイションによる単音(phone)モデル適応プラス文脈変調、および(f)教師有りセグメンテイションによる単音(phone)モデル適応プラス文脈変調であった。(e)および(f)の事例において、しきい値ηおよびεは、0.3へ設定され、また2つの方法が調査された。第1の方法において、重み付け係数vj,iは、しきい値εだけを制約値として使用されるように1.0に設定された。第2の方法において、重み付け係数vj,iは、式(19)に従って求められ、またしきい値εも適用された。EMアルゴリズムに基づく推定式の場合、初期パラメータは、不特定話者推定値であり、またパラメータ推定に反復が1回使用された。式(4)および(11)から分かるように、事後の確率の計算には、個別データサンプルについてガウス密度尤度の評価を必要とするので、計算費用が掛かる。したがってパラメータ推定に1回の反復に制約することは、計算費用を低く抑えるために必要である。6つの事例それぞれについての平均ワード認識精度は、表1に要約される。2人のSTL話者の場合にワード認識精度およびエラー減少(ベースラインに関して)は、さらに図2に図示され、そこにおいて結果は、水平軸上に示される分数、すなわち10文、20文などにわたり平均化される。
【0096】
この結果から分かるように、TIMIT試験セットの場合、各話者から入手できるデータは少量であるために、音響的正規化だけが十分な効果を有した。STL話者の場合、ベースラインワード認識精度は、記録条件の不整合のためにTIMIT試験セットの場合よりもかなり低く、またそのために音響的正規化は、性能をかなり向上した。話者STL−fの場合、単音(phone)モデル適用は、音響的正規化後にワード精度をかなり向上したし、また文脈変調データを使用することにより、適応が強化された。話者STL−mの場合、多数の文の発声後に単音(phone)モデル適応の確実な効果が顕著となり、また適応強化の効果は小さい。STL−fおよびSTL−mによる試験データを詳しく調べると、幾つかの初期文が、口ごもりおよび舌打ち音などの音声エラーを含んでいることが判明したが、これらの文は認識結果の中に入れられた。
【0097】
【表1】
【0098】
表1から、単音(phone)モデル適応について教師有りセグメンテイションデータを使用すると、文脈変調の第2の方法は、第1の方法よりも良い結果を生じるが、単音(phone)モデル適応について教師無しセグメンテイションデータを使用すると、2つの方法間で識別できる相違が無い。さらに教師有りセグメンテイションは、教師無しセグメンテイションよりも良い結果を生じるが、その相違は、TIMIT試験話者および話者STL−mの場合には大きくはない。
【0099】
ガウスコンポーネント密度が、適応データの増加する量からどのようにして適応されるかを説明するために、表2は、話者STL−fの場合の方法2の事例(f)から得られた一定の統計を列挙する。固定された文の数それぞれについて、この統計は、直接適応される混合コンポーネント数、文脈変調されたデータにより適応される混合コンポーネント数、および適応されない混合コンポーネント数を含む。しきい値ε(CMVを使用する)を越える補間パラメータのパーセントも列挙される。この表に示されるように、より多くのデータが入手できるにつれて、より高いパーセントの混合コンポーネントが直接適応され、またより低いパーセントの混合コンポーネントが文脈変調データにより適応される。2パーセント未満の混合コンポーネントは、30個の文を入手できるとき、適応されない。80個の文を入手できるとき、補間パラメータの90%以上は、しきい値ε=0.3(CMWを使用する)を越える。
【0100】
【表2】
【0101】
*注記:ε=0.3よりも大きい補間パラメータ(CMVを使用する)のパーセントは、括弧内に示される。
【0102】
適応効果を強化するために文脈変調の使用は、Shinodaなどによる補間の方法(Shinodaなど、1991年)、およびOhkuraなどによるベクトル領域平滑化(Ohkuraなど、1992年)との一定の類似性を有することが、平均ベクトル適応の式(16)から分かる。その相違点は以下の通りである。すなわち現行の研究において、個別データサンプルは、CMVを使用してマッピングされ、またこれらのマッピングされたデータは、ガウス密度モデルの平均および共分散を適応するのに使用され、一方、Shinodaなどによる、およびOhkuraなどによる方法は、適応された当初のモデルの平均間の一定の隣接する重みを付けた異なるベクトルにより、適応データが不足する平均ベクトルをずらすだけである。
【0103】
【発明の効果】
以上述べたところから明らかなように、本発明によれば、不特定話者の連続音声認識システムについて大幅なエラーの減少を達成し、それを自己学習適応の枠組まで拡大した、すなわち適応音声は話者から明示的に必要とされないし、また話者のスペクトル特性は、話者が認識器を通常使用している間に、話者の入って来る音声の発音から統計的手法を通して学習される音声認識方法および装置を提供できる。
【図面の簡単な説明】
【図1】短時間校正音声を使用するシステムにおいて話者の音響特性の正規化がどうのようにして実施されるかを図示するブロック図である。
【図2】図1のシステムにおいて単音(phone)モデル適応がどうのようにして実施されるかを図示するブロック図である。
【図3】本発明に従う自己学習不特定話者の連続音声認識システムの現行の好ましい実施例を図示するブロック図である。
【符号の説明】
1〜Q 話者
18 不特定話者単音(phone)モデル推定
20 不特定話者単音(phone)モデルM1
22 h−推定器
24 h−推定器
26 HMM単音(phone)モデル訓練
28 正規化された不特定話者単音(phone)モデルM2およびM3
30 復号器
32 辞書および文法
34 適応された混合密度単音(phone)モデルM2およびM3
38 ビタビ(Viterbi)セグメンテイション
40 正規化された混合密度単音(phone)モデルM2およびM3
42 CMVの最大尤度推定
44 文脈変調ベクトル
48 ビタビ(Viterbi)セグメンテイション
50 文脈変調
52 ベイジアン(Bayesian)推定
100 h−推定器
106 復号器
108 辞書および文法
110 ガウス密度単音モデルM3
116 Viterbiセグメンテイション
118 各単音モデルの各状態についての適応データ
114 適応された混合密度単音モデルM2およびM3
120 各混合コンポーネントガウス密度についての補間パラメータλの推定
122 λ>しきい値か?
124 Bayesian推定を通してモデルパラメータの適応
126 集合AおよびBにおける混合コンポーネントの対間の文脈変調
128 集合Bについての文脈変調された適応データ
Claims (19)
- 音声を復号する際に使用するための、複数の単音モデルを備えた話者適応音声認識方法であって、
一定の話者からの第1の発声を復号するステップと、
前記第1の発声における復号されたワードに基づいて前記第1の発声をセグメンテイションして、単音単位( phone units )用のセグメンテイションされた適応データを生成するステップと、
前記単音単位毎に、前記適応データの量を所定のしきい値と比較するステップと、
前記適応データの量がしきい値以下あるいは未満の前記単音単位に対しては、変調された適応データに基づいて、その話者へ適応した前記複数の単音モデルのパラメータを修正するステップ
を有することを特徴とする話者適応音声認識方法。 - 前記の引き続く発声を復号するステップと、前記の復号された引き続く発声を使用して前記の適応された単音モデルをさらに適応するステップとを備えたことを特徴とする請求項1の話者適応音声認識方法。
- 前記復号する前に前記第1の発声を正規化するステップを備えたことを特徴とする請求項1の話者適応音声認識方法。
- 音声が音声スペクトルのシーケンスで表されるように、前記第1の発声をスペクトル定義域に変換するステップと、
話者の音響特性に基づいて前記音声スペクトルを正規化するステップとを備えたことを特徴とする請求項1の話者適応音声認識方法。 - 音声をスペクトル定義域に変換する前記ステップは、PLPケプストラム係数と、その音声の音声(phonetic)特性を表すエネルギーとを抽出することを特徴とする請求項4の話者適応音声認識方法。
- 音声をスペクトル定義域に変換する前記ステップは、各PLPケプストラム係数についての1次の時間的回帰係数と、その音声の動的特性を表すエネルギーとを抽出することを特徴とする請求項4の話者適応音声認識方法。
- 音声が音声スペクトルのシーケンスで表されるように、前記第1の発声をスペクトル定義域に変換するステップと、話者の音響特性に基づいて前記音声スペクトルを正規化するステップとを備え、前記正規化ステップは、スペクトルバイアスベクトルを推定し、引き続いて前記ベクトルを前記音声スペクトルから除去することにより、実施されることを特徴とする請求項1の話者適応音声認識方法。
- 前記単音モデルのパラメータを修正するステップは、
前記適応データの量がしきい値以上あるいは超える前記単音単位に対しては、前記適応データに基づいて、その話者へ適応した前記複数の単音モデルのパラメータを修正することを特徴とする請求項1の話者適応音声認識方法。 - 前記のセグメンテイションステップはビタビセグメンテイションにより実施されることを特徴とする請求項1の話者適応音声認識方法。
- 前記単音モデルのそれぞれは隠れマロコフモデルであり、また単音モデルの各状態は、ガウス混合密度の確率密度関数を有することを特徴とする請求項1の話者適応音声認識方法。
- 前記の適応された単音モデルは隠れマロコフモデルであり、また単音モデルの各状態は、ガウス混合密度の確率密度関数を有することを特徴とする請求項1の話者適応音声認識方法。
- 単音モデルを適応する前記ステップは、ベイジアン( Bayesian )推定を通して、モデルパラメータを修正することを特徴とする請求項1の話者適応音声認識方法。
- 前記単音モデルはガウス混合密度単音モデルであり、前記適応データの存在を判定するステップは、
混合コンポーネントガウス密度のそれぞれについて、前記適応データから所定の混合コ ンポーネントガウス密度に存在する適応データの量の尺度としての補間パラメータを推定し、
前記補間パラメータと所定のしきい値とを比較する
ことを特徴とする請求項1の話者適応音声認識方法。 - 前記単音モデルはガウス混合密度単音モデルであり、前記パラメータを修正するステップは、
混合コンポーネントガウス密度を適応化する
ことを特徴とする請求項1の話者適応音声認識方法。 - 前記単音モデルはガウス混合密度単音モデルであり、前記変調は、混合密度における混合コンポーネントガウス密度間の関係を推定すること、および推定された関係を使用してデータマッピングを行い適応データを増加する文脈変調である
ことを特徴とする請求項1の話者適応音声認識方法。 - 1つの混合コンポーネント密度に属するスペクトルを他の混合コンポーネント密度にマッピングする前記文脈変調は、さらに前記他の混合コンポーネント密度の平均ベクトルから前記1つの混合コンポーネント密度のベクトルを減算するように文脈変調ベクトルを計算することにより、および前記推定された文脈変調を前記スペクトルへ加算して、前記他の混合コンポーネント密度についての文脈変調されたスペクトルを得る
ことを特徴とする請求項15の話者適応音声認識方法。 - 前記文脈変調は、さらに、
文脈変調ベクトルがコンポーネントガウス密度の対の平均ベクトル間の差から成るところのコンポーネントガウス密度の対間で前記ベクトルを生成すること、および前記文脈変調ベクトルを前記対に対応するスペクトルへ加算する
ことを特徴とする請求項14の話者適応音声認識方法。 - 引き続く発声毎に、先行の発声から生成され適応された単音モデルを使用して、前記復号、セグメンテイションおよび修正のステップを繰り返すステップ、をさらに備えた請求項1の話者適応音声認識方法。
- 音声を復号する際に使用するための、複数の単音モデルを備えた話者適応音声認識装置であって、
一定の話者からの第1の発声を復号する手段と、
前記第1の発声における復号されたワードに基づいて前記第1の発声をセグメンテイションして、単音単位( phone units )用のセグメンテイションされた適応データを生成する手段と、
前記単音単位毎に、前記適応データの量を所定のしきい値と比較する手段と、
前記適応データの量がしきい値以下あるいは未満の前記単音単位に対しては、変調された適応データに基づいて、その話者へ適応した前記複数の単音モデルのパラメータを修正する手段
を有することを特徴とする話者適応音声認識装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US27732594A | 1994-07-19 | 1994-07-19 | |
US08/277325 | 1994-07-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0863182A JPH0863182A (ja) | 1996-03-08 |
JP3589508B2 true JP3589508B2 (ja) | 2004-11-17 |
Family
ID=23060369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP20651195A Expired - Lifetime JP3589508B2 (ja) | 1994-07-19 | 1995-07-19 | 話者適応音声認識方法および話者適応音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3589508B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7139703B2 (en) * | 2002-04-05 | 2006-11-21 | Microsoft Corporation | Method of iterative noise estimation in a recursive framework |
-
1995
- 1995-07-19 JP JP20651195A patent/JP3589508B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0863182A (ja) | 1996-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5664059A (en) | Self-learning speaker adaptation based on spectral variation source decomposition | |
US5794192A (en) | Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
JP4274962B2 (ja) | 音声認識システム | |
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
JPH07152394A (ja) | 結合されたストリングモデルの最小誤認率訓練 | |
US5943647A (en) | Speech recognition based on HMMs | |
Williams | Knowing what you don't know: roles for confidence measures in automatic speech recognition | |
Zheng et al. | Text-independent voice conversion using deep neural network based phonetic level features | |
Furui | Vector-quantization-based speech recognition and speaker recognition techniques | |
Rabiner et al. | Hidden Markov models for speech recognition—strengths and limitations | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
Junqua et al. | Robustness in language and speech technology | |
Sirigos et al. | A hybrid syllable recognition system based on vowel spotting | |
JP3589508B2 (ja) | 話者適応音声認識方法および話者適応音声認識装置 | |
Hosom et al. | Evaluation and integration of neural-network training techniques for continuous digit recognition. | |
Yamagishi et al. | Improved average-voice-based speech synthesis using gender-mixed modeling and a parameter generation algorithm considering GV | |
Unnibhavi et al. | A survey of speech recognition on south Indian Languages | |
Schnell et al. | Neural VTLN for speaker adaptation in TTS | |
JPH0934485A (ja) | 自己学習話者適応音声認識方法 | |
Furui | Recent advances in speech recognition technology at NTT laboratories | |
Filipovič et al. | Development of HMM/Neural Network‐Based Medium‐Vocabulary Isolated‐Word Lithuanian Speech Recognition System | |
Frikha et al. | Hidden Markov models (HMMs) isolated word recognizer with the optimization of acoustical analysis and modeling techniques | |
Thandil et al. | Automatic speech recognition system for utterances in Malayalam language | |
En-Najjary et al. | Fast GMM-based voice conversion for text-to-speech synthesis systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040326 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040604 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040817 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070827 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080827 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080827 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090827 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090827 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100827 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110827 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110827 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120827 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130827 Year of fee payment: 9 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |