JPH05232989A - 音響モデルの話者適応化法 - Google Patents

音響モデルの話者適応化法

Info

Publication number
JPH05232989A
JPH05232989A JP4032471A JP3247192A JPH05232989A JP H05232989 A JPH05232989 A JP H05232989A JP 4032471 A JP4032471 A JP 4032471A JP 3247192 A JP3247192 A JP 3247192A JP H05232989 A JPH05232989 A JP H05232989A
Authority
JP
Japan
Prior art keywords
model
speaker
distribution
voice
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4032471A
Other languages
English (en)
Inventor
Tatsuo Matsuoka
達雄 松岡
Kiyohiro Kano
清宏 鹿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4032471A priority Critical patent/JPH05232989A/ja
Publication of JPH05232989A publication Critical patent/JPH05232989A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 認識性能を高め、計算時間が少なく、しかも
適応化学習音声を少なくすることができる。 【構成】 多数の話者音声から各認識対象カテゴリごと
に、不特定話者用の連続混合確率分布の隠れマルコフモ
デル(HMM)を作り、その後話者Aの学習音声を入力
し、その音声に対する尤度が最大となるように、不特定
話者用HMMの各分割重み係数だけを最適化する。例え
ば不特定話者用のある混合分布HMMが図4Aに示すよ
うに音響特徴の分布1、2、3の合成分布4である場合
に、話者Aの音声への適応化の結果は図4Bに示すよう
に、図4Aの分布1、2、3の各平均値、共分散は同一
だが重み係数だけが適応化により変更される。分布2が
特に多くなり、分布1、3が少なくなっている。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この本発明は、音声認識方式に用
いられ、音声の音響的特徴量を統計的にモデル化して音
素、単語などの認識カテゴリに対応した不特定話者音響
モデルを特定の認識対象話者に適応化する音響モデルの
話者適応化方法に関する。
【0002】
【従来の技術】音声の音響的特徴を確率的、統計的にモ
デル化する手法の一つである隠れマルコフモデル(Hi
dden Markov Model:HMM)を用い
た音声認識システムでは、一認識対象カテゴリ、つまり
音素、音節、単語などの語彙(あるいは認識対象単位)
ごとに、一つ、あるいは複数のHMMを設定し、学習用
音声を用いて学習する。認識時には、音声認識システム
の入力音声がそれらのモデルから観測される確率を計算
し、尤度(尤もらしさ)の最も高い順に認識カテゴリ候
補としている。HMMは、統計的なモデルであるから学
習用音声中に現われた頻度に従って、あるカテゴリとあ
る音響的特徴とを関連づける強さを内部に確率分布とし
て表現する。
【0003】HMM音声認識の方法は、確率分布の表現
方法から大きく二つの方法に分類できる。一つは、離散
確率分布モデルによる方法であり、もう一つは連続確率
分布モデルによる方法である。前者の離散確率分布モデ
ルでは、音声の音響的特徴量はコード化された離散的な
値で表現される。音響的特徴量は、ある音響的特徴量ベ
クトルとあるコードとを対応させたコードブックを用い
てベクトル量子化され、コードにより表現される。従っ
て、モデルはどの音声がどのコードにより表現される確
率が高いかを内部に蓄積する。連続確率分布モデルで
は、音響的特徴量ベクトルは連続量のままで扱う。音声
はその音響的特徴量の分布をガウス分布などで近似し、
平均値と共分散とにより表現される。この場合、モデル
は音声がどの分布でもっともよく表現されるかを確率密
度関数として蓄積する。連続確率分布モデルには、単一
分布モデルと混合分布モデルがある。単一分布モデル
は、一つの分布を一組の平均値と共分散とから表現する
が、混合分布モデルは、一つの分布を複数の分布の重み
付き加算の形で表現する。混合分布モデルは単一分布モ
デルに比較して、精密な分布の推定が可能であるが、推
定すべきパラメータ数が多いためそれだけ多くの学習用
音声を必要とする。
【0004】音声認識の方式にはその対象から、特定話
者音声認識と不特定話者音声認識とがある。特定話者音
声認識では、認識対象となる話者自身の音声を音響モデ
ルの学習に用いるため正確なモデルを作成でき高い認識
性能が期待できる半面、学習用音声を単一の話者が発声
するため多くの学習用音声を収集することが難しい。一
方、不特定話者音声認識では多人数の音声を学習に用い
るため多くの音声を収集することは特定話者音声認識の
場合に比較して容易だが、音響的特徴は、例えば同じ音
韻であっても個人により異なる。このため認識性能は特
定話者音声認識の場合より低い。
【0005】図4aは、不特定話者用混合ガウス分布モ
デルが表現する音響特徴量を簡単に説明する図である。
混合ガウス分布モデルでは複数のガウス分布により一つ
の分布を表現する。そのため、単一ガウス分布の場合に
は比較してより複雑な分布を正確に表現できる。図4a
では、曲線1、2、3の3つの分布により曲線4の一つ
の分布を表現している場合を示している。曲線4は曲線
1、2、3のガウス分布(それぞれ、G1(x)、G2(x)、
3(x))が重み付き加算された分布で、それぞれの分布
に対する重み係数を、w1 、w2 、w3 として F(x) =w1 ×G1(x)+w2 ×G2(x)+w3 ×G3(x) (1)式 で表現される。
【0006】分布F(x) の形を決めるパラメータ(G
1(x)、G2(x)、G3(x)のガウス分布の平均値と共分散、
それぞれの分布に対する重み係数、w1 、w2 、w3
は、多くの音声データを用いてフォワード・バックワー
ドアルゴリズムにより推定できる。観測された音声の音
響特徴量がこの分布の範囲内であればモデルは高い尤度
を示し、分布からはずれていれば尤度は低くなる。例え
ば、/a/のモデルは多くの話者が発声した/a/の音
声に対して統計的にモデルの尤度が高くなるように分布
の形が決定される。不特定話者用モデルは多くの話者の
音声を用いて学習されるが、音声の音響的な特徴は個人
によるバラツキがあるため、その特徴が標準的な分布か
らはずれる話者に対しては、不特定話者用モデルはあま
り正確なモデルと言えない。
【0007】これまで、特定話者認識/不特定話者認識
に関わらず、学習音声と認識対象音声話者が異なる場合
に、認識システムを認識対象話者に適応化することで認
識性能を改善しようとする試みがされてきた。モデルが
離散確率分布モデルの場合には、ベクトル量子化のため
のコードブックを学習用話者のものから認識対象話者の
ものへ変換することで話者の適応化が可能である。この
方法について、話者Aの音声で学習したモデルを話者B
の音声に適応化する場合を例として説明する。話者Aの
音声と話者Bの音声とがあるとき、話者Aの音声を用い
てコードブックAを、話者Bの音声を用いてコードブッ
クBをそれぞれ設計する。そして、話者Aの音声をコー
ドブックAを用いてベクトル量子化し、その結果のコー
ドブックAのコードの系列をHMMで学習する。次に、
発声内容が同じ話者Bの音声を、それぞれコードブック
A、コードブックBを用いてベクトル量子化し、コード
ブックAとコードブックBの各コードの対応関係をDP
マッチングにより求める。話者Bの音声を認識対象とす
るときには、コードブックBでベクトル量子化を行な
い、その結果をコードブックAとコードブックBの対応
関係からコードブックAのコード系列に変換し、コード
ブックAを用いて学習したHMMを用いて話者Bの音声
を認識する。
【0008】
【発明が解決しようとする課題】しかしながら、この方
法は話者Bの音声でコードブックを設計できるほどの話
者Bの音声の量を持っていることが必要であり、かつ話
者Aと全く同じ発声内容の音声がなければならない。さ
らに、離散確率分布HMMは連続確率分布HMMより精
度が劣るため、連続確率分布HMMにも適用できる話者
適応化法が要望されていた。
【0009】この発明の目的は、学習用音声の話者には
含まれていなかった特徴を持つ話者の音声に対して高い
認識性能を得ようとするときに大きな問題であった学習
用音声の収集の労力を削減し、さらに、コードブックの
再設計など多くの計算時間を要する処理を不要とし、限
られた適応化学習用音声と計算時間とを使って、初期の
学習用音声には含まれていなかった音響的特徴をもつ話
者の音声に対しても高い認識性能を得ることのできる音
響モデルの話者適応化法を提供することにある。
【0010】
【課題を解決するための手段】この発明は、認識対象と
なる話者とは異なる話者の発声した学習用音声ですでに
学習された混合分布統計的モデルの各分布の重み係数
を、認識対象となる話者の音声の一部を用いてその重み
係数を決定することにより、認識対象話者の音声に対し
て高い認識性能をもつモデルを構成する。
【0011】この方法によれば、(1)離散分布モデル
や、単一分布モデルより精度の高い連続混合分布モデル
を用いているため従来法より高い認識性能が期待でき
る、(2)音声の特徴量ベクトルを符号化するコードブ
ックを必要としないため、学習用音声が少なくてもよく
計算時間も削減できる、(3)統計的モデルのパラメー
タのうち平均値、共分散は再推定の必要はないため、学
習用音声が少なくてもよく計算時間も削減できる、など
の利点がある。
【0012】
【実施例】
実施例1 以下、この発明の一実施例として、不特定多数の話者の
音声で学習した混合ガウス分布HMMを、学習音声には
含まれていない話者Aに適応化する場合について図面を
参照して説明する。
【0013】図1にこの発明を適用した音声認識装置を
示す。音声入力部1でアナログ音声信号Aがディジタル
音声信号Bに変換され、そのディジタル音声信号Bから
音響特徴量(例えば、ケプストラム、Δケプストラム、
Δパワーなど)Cが音響特徴量抽出部2で抽出される。
HMMのパラメータ(音響特徴量ベクトルの平均値、共
分散、遷移確率)や、各分布の重み係数は演算部3で計
算され、各音素、単語などの各認識カテゴリごとの混合
ガウス分布モデルのHMMを求めこれらはメモリ4に格
納される。認識結果Dは演算部3から出力される。音響
特徴量抽出部2は、ハードウェアにより実現しても、あ
るいは、ソフトウェアにより実現してもよい。ソフトウ
ェアにより実現する場合には、演算部3の演算能力が十
分にあれば演算部3で実現しても差しつかえない。
【0014】この発明によれば各不特定話者用HMMの
各分布の重み係数を話者Aの音声に対する尤度が最大と
なるように修正することで、音響的な特徴が異なる話者
にも適合するモデルを作成する。図4Bに図4Aに示し
た不特定話者用の混合分布HMMの分布をある話者Aの
音声に適応化した混合ガウス分布モデルが表現する音響
特徴量を簡単に説明する図を示す。図4Bの分布は図4
Aと同様に分布1、分布2、分布3からひとつの複雑な
分布4が構成されている。話者Aの音声は、標準的な分
布(不特定話者の分布)より、分布2あたりに特徴量が
分布することが多く、分布1や分布3のあたりにはあま
り特徴量が観測されない傾向にある。図4Bにおける分
布1、分布2、分布3は、図4Aにおける各分布1、
2、3とそれぞれ全く同じもの(平均値、共分散が同
じ)で、(1)式における分布の重み係数、w1
2 、w3 が、w′1 、w′2 、w′3 に異なるだけで
ある。つまり、w1 >w′1 、w2 >w′2 、w3
w′3 とすることで分布2が強調された形となってい
る。重み係数w′1 、w′2 、w′3 は、話者Aの適応
学習用音声を用いて、フォワード・バックワードアルゴ
リズムにより推定する。
【0015】以上の適応化学習の演算は、図1中の演算
部3において行なわれる。前述したように各認識カテゴ
リ毎に不特定話者用HMMのパラメータ(音響特徴量ベ
クトルの平均値、共分散、遷移確率)、各分布の重み係
数は、適応化学習に先だってメモリ4に格納されてい
る。この不特定話者HMMの分布の重み係数を話者Aの
音声に適応化する。話者Aの適応化学習用音声は、各認
識カテゴリ、例えば各音韻に対応する音声区間を音声波
形を見てどの音韻であるかのラベル付けしておく。話者
Aの適応化学習用音声は、図1の音声入力部1、音響特
徴量抽出部2において、アナログ音声信号からディジタ
ル音声信号に変換され更に、音響特徴量ベクトルにされ
る。この話者Aの適応化学習用音声の認識カテゴリに該
当する各音声区間の音響特徴量ベクトルを観測サンプル
として、例えばフォワード・バックワードアルゴリズム
により各認識カテゴリのHMMの重み係数を再推定す
る。フォワード・バックワードアルゴリズムでは、分布
の平均値、共分散や、遷移確率なども推定できるが、こ
の発明の適応化学習では、それらは更新する必要がな
く、分布の重み係数(混合係数)だけを更新すればよ
い。このようにして、平均値、共分散、遷移確率は対応
するもとの不特定話者用モデルと同じで、分布の重み係
数が話者Aの音声に最適化されたHMMを作成する。
【0016】図2を参照して話者Aの音声認識を行なう
方法を説明する。図2は認識対象話者Aに適応化され
た、各認識カテゴリ(例えば、音韻、単語)C1
2 ,……,Cn にそれぞれ対応する混合ガウス分布H
MM M1 ,M2 ,……,Mn を示し、各HMM Mi
の各遷移(図中矢印部分)で観測される音響特徴量の分
布は、図4Bに示したようなガウス分布の重み付き加算
で表されている。通常の不特定話者音声認識では、図4
Aに示したような分布で音響特徴量が表現された不特定
話者用モデルを用いる。この方法では、これに代えて、
分布の重み係数が認識対象話者Aに適応化されたHMM
を用いて、話者Aの入力音声に対する各認識カテゴリの
HMMの尤度を求め、最も尤度の高いモデルのカテゴリ
を認識結果とする、あるいは尤度の高い順に認識結果候
補とする。 実施例2 適応化学習において、話者Aの音声の各認識カテゴリに
対応する区間がラベル付けされていない、あるいは、ラ
ベルの信頼性が低いため使用を避けたいなどの場合に
は、発声内容に対応した不特定話者用モデルを連結し、
一つの連結モデルとして、前記実施例1と同様にフォワ
ード・バックワードアルゴリズムによりHMMの各分布
の重み係数を再推定する。その後、その重み係数が再推
定された連結モデルを連結する以前の単位に分割すれば
各認識カテゴリに対応する話者Aに適応化されたHMM
が得られる。
【0017】例えば、音響モデルを音韻単位で構成する
場合に、“ikioi”という単語を発声した話者Aの
音声があるとする。この単語の構成音韻/i/、/k
/、/o/の不特定話者用モデル連結して/ikioi
/という単語単位の連結モデルを作り、単語音声全体を
用いてこの単語単位HMMの分布の重み係数を、フォワ
ード・バックワードアルゴリズムにより再推定する。各
分布の重み係数を推定したのちに、その単語単位HMM
をもとの音韻単位のモデルに分割すれば、単語音声を用
いて音韻単位のモデルを適応化学習することができる。 実施例3 適応化学習において、話者Aの音声の各認識カテゴリに
対応する区間がラベル付けされていない、あるいは、ラ
ベルの信頼性が低いため使用を避けたいなどの場合に
は、発声内容に対応した不特定話者用モデルを連結し、
その連結モデルを用いてその話者Aの音声をビタビ(V
iterbi)アルゴリズムにより各モデルの何れに対
応する区間に属するか分割し、つまり音声の各部を認識
カテゴリの何れかであるかのラベル付けを自動的に行
い、各モデルは各々対応する音声区間を用いて、前記実
施例1と同様にフォワード・バックワードアルゴリズム
によりHMMの分布の重み係数を再推定する。
【0018】例えば、音響モデルを音韻単位で構成する
場合に、“ikioi”という単語を発声した話者Aの
音声がある場合、不特定多数の話者の音声から作成した
/i/、/k/、/o/のモデルを連結して/ikio
i/という単語単位の連結モデルを作り、この単語モデ
ルを用いて単語音声全体をViterbiアルゴリズム
により最適パスの状態系列を求める。単語モデルに対す
る状態系列が得られれば、音韻モデルに対する音声区間
の対応付け、つまり自動ラベル付けが得られる。このよ
うにして得られた話者Aの音声の各音韻モデルに対応す
る区間を用いて不特定話者用の各音韻HMMの分布の重
み係数を、フォーワード・バックワードアルゴリズムに
より再推定する。 実施例4 適応化学習において、話者Aの音声の発声内容が未知で
あるような場合に、各認識カテゴリに対応する不特定話
者用モデルのすべてを並列に連結し、あるモデルの最終
状態からそのモデル自身あるいは他のモデルの各初期状
態への遷移確率は任意のモデルの連鎖が可能なように設
定した合成モデルを一つのモデルとしてその話者Aの音
声を用いてフォワード・バックワードアルゴリズムによ
りHMMのパラメータのうち、分布の重み係数だけを再
推定する。
【0019】例えば、音響モデルを音韻単位で構成する
場合に、図3に示すように各音韻モデルM1 ,M2 ,…
…,Mn を並列に接続する。各モデルの最終状態dから
は、何れのモデルの初期状態aへの遷移が許されてお
り、その遷移確率は総和が1.0になるように例えば、
モデルM2 の最終状態dからモデルM1 ,M2 ,……,
Mn の各初期状態aへの各遷移確率の総和が1.0にな
るように適当に決めておく。この並列接続した合成モデ
ルの分布の重ね係数を、話者Aの音声に対して、フォワ
ード・バックワードアルゴリズムにより再推定する。重
み係数を推定したのちに、もとの音韻単位のモデルM1
〜Mn に分割して、単語音声を用いて音韻単位のモデル
を適応化学習することができる。 実施例5 適応化学習において、話者Aの音声の発声内容が未知で
あるような場合に、各認識カテゴリに対応する不特定話
者用モデルを並列に連結し実施例4と同様の合成モデル
を作り、その合成モデルを用いてその話者Aの音声をV
iterbiアルゴリズムを用いて各モデルに対応する
区間を決定し、各モデルは各々対応する音声区間を用い
て、前記実施例1と同様にフォワード・バックワードア
ルゴリズムによりHMMのパラメータのうち、分布の重
み係数だけを再推定する。
【0020】例えば、音響モデルを音韻単位で構成する
場合に、各音韻モデルM1 〜Mn を図3に示すように並
列に接続する。各モデルの最終状態dからは、各モデル
の初期状態aへの遷移が許されており、その遷移確率は
総和が1.0になるように適当に決めておく。この並列
接続した合成モデルを話者Aの音声に対してViter
biアルゴリズムにより最適パスを求めると、音声に対
するモデルの尤度が最も高くなるような状態遷移の系列
が求められる。この状態遷移系列から、音韻モデル系列
を求めることができる。音韻モデル系列は、音声区間に
対応して得られるので、入力音声のどの区間が最もどの
音韻らしいかを決定できる。このようにして得られた、
話者Aの音声の各音韻モデルに対応する区間を用いて各
音韻HMMの分布の重み係数を、フォワード・バックワ
ードアルゴリズムにより再推定する。
【0021】
【発明の効果】この発明によれば、(1)離散分布モデ
ルや、単一分布モデルより精度の高い連続混合確率分布
モデルを、話者適応化することでさらに認識性能の高い
モデルを構成することができる、(2)連続確率分布モ
デルを用いているためコードブックを設計する必要がな
い、(3)連続混合分布モデルの、混合比を決める重み
係数だけを再推定すればよいため、適応化学習に要する
学習音声は少なくてよく、そのため計算時間も少ない、
などの利点がある。
【図面の簡単な説明】
【図1】この発明の方法が適用可能な音声認識システム
の一般的構成を示すブロック図。
【図2】各認識カテゴリと対応する各音響モデルの例を
示す図。
【図3】各音響モデルを並列複合した合成モデルの例を
示す図。
【図4】Aは不特定話者用の混合分布モデルにおける音
響特徴量の分布例を示す図、BはAの混合分布モデルを
この発明の方法により話者適応化した分布例を示す図で
ある。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 音声の音響的特徴量を抽出し、その特徴
    量を統計的にモデル化して、音素、単語などの認識カテ
    ゴリに対応した音響モデルを構成する方法において、 多数の話者の音声を用いて学習した不特定話者用の音響
    モデルを混合分布モデルで表現しておき、 認識対象となる話者の音声を用いて、上記不特定話者用
    混合分布モデルの各分布の重み係数を、認識対象話者の
    音声に対する尤度が最大となるように最適化することに
    より、音響モデルを認識対象話者に適応化することを特
    徴とする音響モデルの話者適応化法。
  2. 【請求項2】 あらかじめ各認識カテゴリに対応する区
    間をラベル付けされた認識対象話者の音声を適応化学習
    に用いることを特徴とする請求項1記載の音響モデルの
    話者適応化法。
  3. 【請求項3】 認識対象話者により発声された音声の発
    声内容に対応したカテゴリの不特定話者用モデルを連結
    し、連結された状態でモデルを適応化学習することを特
    徴とする請求項1記載の音響モデルの話者適応化法。
  4. 【請求項4】 認識対象話者により発声された音声の発
    声内容に対応したカテゴリの不特定話者用モデルを連結
    し、連結されたモデルに対する音声の特徴量の尤度から
    各モデルに対応する区間を決定し、各モデルは当該区間
    の音声を用いて適用化学習することを特徴とする請求項
    1記載の音響モデルの話者適応化法。
  5. 【請求項5】 不特定話者用の全認識カテゴリのモデル
    を並列に並べ、あるモデルの最終状態からそのモデル自
    身あるいは他のあるモデルの初期状態への遷移確率は任
    意のモデルの連鎖が可能なように設定した合成モデルを
    構成し、認識対象話者の適応学習用音声に対する前記合
    成モデルの尤度が最も高くなるように、適応化学習する
    ことを特徴とする請求項1の音響モデルの話者適応化
    法。
  6. 【請求項6】 不特定話者用の全認識カテゴリのモデル
    を並列に並べ、あるモデルの最終状態からそのモデル自
    身あるいは他のあるモデルの初期状態への遷移確率は任
    意のモデルの連鎖が可能なように設定した合成モデルを
    構成し、認識対象話者の適応学習用音声の発声内容を用
    いずに、前記合成モデルを用いて、認識対象話者の適応
    学習用音声の各認識カテゴリごとのモデルに対応する区
    間を決定し、各認識カテゴリごとのモデルは当該区間の
    音声を用いて適応化学習することを特徴とする請求項1
    の音響モデルの話者適応化法。
JP4032471A 1992-02-20 1992-02-20 音響モデルの話者適応化法 Pending JPH05232989A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4032471A JPH05232989A (ja) 1992-02-20 1992-02-20 音響モデルの話者適応化法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4032471A JPH05232989A (ja) 1992-02-20 1992-02-20 音響モデルの話者適応化法

Publications (1)

Publication Number Publication Date
JPH05232989A true JPH05232989A (ja) 1993-09-10

Family

ID=12359893

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4032471A Pending JPH05232989A (ja) 1992-02-20 1992-02-20 音響モデルの話者適応化法

Country Status (1)

Country Link
JP (1) JPH05232989A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6113686A (en) * 1995-04-21 2000-09-05 Shin-Etsu Handotai Co., Ltd. Single crystal growing method and apparatus
KR100415217B1 (ko) * 1998-09-09 2004-01-16 아사히 가세이 가부시키가이샤 음성인식 장치
KR100574769B1 (ko) * 1998-04-30 2006-04-28 마쯔시다덴기산교 가부시키가이샤 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
JPWO2006112198A1 (ja) * 2005-03-30 2008-12-04 パイオニア株式会社 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP2009237336A (ja) * 2008-03-27 2009-10-15 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6113686A (en) * 1995-04-21 2000-09-05 Shin-Etsu Handotai Co., Ltd. Single crystal growing method and apparatus
KR100574769B1 (ko) * 1998-04-30 2006-04-28 마쯔시다덴기산교 가부시키가이샤 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
KR100415217B1 (ko) * 1998-09-09 2004-01-16 아사히 가세이 가부시키가이샤 음성인식 장치
JPWO2006112198A1 (ja) * 2005-03-30 2008-12-04 パイオニア株式会社 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP4682198B2 (ja) * 2005-03-30 2011-05-11 パイオニア株式会社 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP2009237336A (ja) * 2008-03-27 2009-10-15 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム

Similar Documents

Publication Publication Date Title
US5165007A (en) Feneme-based Markov models for words
US5745873A (en) Speech recognition using final decision based on tentative decisions
Lee et al. Acoustic modeling for large vocabulary speech recognition
JP2733955B2 (ja) 適応型音声認識装置
JP3434838B2 (ja) ワードスポッティング法
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
US6085160A (en) Language independent speech recognition
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JPH07152394A (ja) 結合されたストリングモデルの最小誤認率訓練
Ney et al. The RWTH large vocabulary continuous speech recognition system
US7627473B2 (en) Hidden conditional random field models for phonetic classification and speech recognition
EP0453649A2 (en) Method and apparatus for modeling words with composite Markov models
JP3535292B2 (ja) 音声認識システム
Liu et al. State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition
Rabiner et al. Hidden Markov models for speech recognition—strengths and limitations
JPH05232989A (ja) 音響モデルの話者適応化法
JPH10254473A (ja) 音声変換方法及び音声変換装置
EP0238693B1 (en) Speech recognition system and method using statistical models for words
Torres et al. Spanish phone recognition using semicontinuous hidden Markov models
Lee Towards speaker-independent continuous speech recognition
EP1594120B1 (en) Method for building hidden Markov speech models
JP3256979B2 (ja) 音響モデルの入力音声に対する尤度を求める方法
Mariño et al. Top-down bottom-up hybrid clustering algorithm for acoustic-phonetic modeling of speech.