JPH04318600A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH04318600A JPH04318600A JP8549991A JP8549991A JPH04318600A JP H04318600 A JPH04318600 A JP H04318600A JP 8549991 A JP8549991 A JP 8549991A JP 8549991 A JP8549991 A JP 8549991A JP H04318600 A JPH04318600 A JP H04318600A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- hmm
- phoneme
- word
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 abstract description 12
- 238000001228 spectrum Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- OOYGSFOGFJDDHP-KMCOLRRFSA-N kanamycin A sulfate Chemical group OS(O)(=O)=O.O[C@@H]1[C@@H](O)[C@H](O)[C@@H](CN)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O[C@@H]2[C@@H]([C@@H](N)[C@H](O)[C@@H](CO)O2)O)[C@H](N)C[C@@H]1N OOYGSFOGFJDDHP-KMCOLRRFSA-N 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 101000582320 Homo sapiens Neurogenic differentiation factor 6 Proteins 0.000 description 1
- 102100030589 Neurogenic differentiation factor 6 Human genes 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】この発明は、隠れマルコフモデル
を用い、不特定話者大語彙連続音声認識に適用して認識
性能を向上させるようにした音声認識方法に関する。
を用い、不特定話者大語彙連続音声認識に適用して認識
性能を向上させるようにした音声認識方法に関する。
【0002】
【従来の技術】隠れマルコフモデル(例えば中川聖一「
確率モデルによる音声認識」電子情報通信学会編(19
88))による不特定話者音声認識では、多くの発声者
からの音声スペクトルをもとに作成された符号帳(コー
ドブック)を用いることが多い。このコードブックは、
ユニバーサルコードブックとよばれている。しかしなが
ら、図5Aに示すようにある特定の話者のコードブック
の空間11は、図5Aに示すようにユニバーサルコード
ブック12の部分空間となっている。また、コードブッ
ク12内でのコードワードの動きも話者ごとに特有であ
る。
確率モデルによる音声認識」電子情報通信学会編(19
88))による不特定話者音声認識では、多くの発声者
からの音声スペクトルをもとに作成された符号帳(コー
ドブック)を用いることが多い。このコードブックは、
ユニバーサルコードブックとよばれている。しかしなが
ら、図5Aに示すようにある特定の話者のコードブック
の空間11は、図5Aに示すようにユニバーサルコード
ブック12の部分空間となっている。また、コードブッ
ク12内でのコードワードの動きも話者ごとに特有であ
る。
【0003】このような事実にもかかわらず、隠れマル
コフモデル(HMM)による不特定話者音声認識では、
ユニバーサルコードブック12を用い、多数の話者から
の多量の音声データを用いて単語あるいは音韻単位の隠
れマルコフモデルを作成していた。よって、話者固有の
コードブックの空間11の制約は一切考えられてなく、
様々な副作用を起こしており、不特定話者大語彙連続音
声認識での認識性能の劣化となっていた。
コフモデル(HMM)による不特定話者音声認識では、
ユニバーサルコードブック12を用い、多数の話者から
の多量の音声データを用いて単語あるいは音韻単位の隠
れマルコフモデルを作成していた。よって、話者固有の
コードブックの空間11の制約は一切考えられてなく、
様々な副作用を起こしており、不特定話者大語彙連続音
声認識での認識性能の劣化となっていた。
【0004】
【課題を解決するための手段】この発明によれば、不特
定話者用の音韻/単語を表す隠れマルコフモデルと、話
者の特徴を表すマルコフモデルとを合成し、その合成モ
デルを用いてその話者の音声認識を行う。つまり、この
発明による発声者を考慮した統計的な連続音声認識の基
本の式は、以下のように書かれる。こゝでSに関する項
がこの発明で導入されたものである。
定話者用の音韻/単語を表す隠れマルコフモデルと、話
者の特徴を表すマルコフモデルとを合成し、その合成モ
デルを用いてその話者の音声認識を行う。つまり、この
発明による発声者を考慮した統計的な連続音声認識の基
本の式は、以下のように書かれる。こゝでSに関する項
がこの発明で導入されたものである。
【0005】
P(W,S|Y)=P(W,S)P(Y|W,
S)/P(Y)
=P(S)P(W|S)P(Y|W,S)/P(Y
)こゝで、 W:単語列 S:発声者 Y:入力音声のベクトル系列 P(S):発声者Sがこの音声認識装置を用いている確
率 P(W|S):発声者Sがある単語列Wを発生する確率
とみなされ、発声者Sによる統計的言語モデル(例えば
、鹿野「統計的手法による音声認識」電子情報通信学会
誌、Vo.73,No.12,pp1276−1285
,(1990.12))である。
S)/P(Y)
=P(S)P(W|S)P(Y|W,S)/P(Y
)こゝで、 W:単語列 S:発声者 Y:入力音声のベクトル系列 P(S):発声者Sがこの音声認識装置を用いている確
率 P(W|S):発声者Sがある単語列Wを発生する確率
とみなされ、発声者Sによる統計的言語モデル(例えば
、鹿野「統計的手法による音声認識」電子情報通信学会
誌、Vo.73,No.12,pp1276−1285
,(1990.12))である。
【0006】P(Y|W,S):発生内容Wで発声者S
での入力音声のベクトル系列Yの確率(音響モデル)よ
って、統計的な連続音声認識の問題は、max {P
(S)P(W|S)P(Y|W,S)}W,S となる単語列Wを発声者の情報Sを利用して推定するこ
ととなる。
での入力音声のベクトル系列Yの確率(音響モデル)よ
って、統計的な連続音声認識の問題は、max {P
(S)P(W|S)P(Y|W,S)}W,S となる単語列Wを発声者の情報Sを利用して推定するこ
ととなる。
【0007】ここで、P(S)は、発声者Sがこの音声
認識装置を用いている確率を表す。さらに、発声者Sに
よる音響モデル(単語/音韻モデル)P(Y|W,S)
を隠れマルコフモデル(HMM)でモデル化することを
考える。発声者ごとに単語/音韻の音声データを大量に
発生すれば、発声者ごとの単語/音韻のHMMを作成す
ることができるが、通常は、全ての発声者に音声データ
を大量に発生させることは、現実的ではない。よって、
通常行われているように、多数の発声者からの音声デー
タを用いて作成された単語/音韻のHMMP(Y|W) を用いて、このP(Y|W)について話者固有のコード
ブックの空間を制限し、話者制約音韻/単語HMMを作
成することを考える。以下、話者固有のコードブックの
空間やコードワードの動きを表すのにもマルコフモデル
を用いることを考える。
認識装置を用いている確率を表す。さらに、発声者Sに
よる音響モデル(単語/音韻モデル)P(Y|W,S)
を隠れマルコフモデル(HMM)でモデル化することを
考える。発声者ごとに単語/音韻の音声データを大量に
発生すれば、発声者ごとの単語/音韻のHMMを作成す
ることができるが、通常は、全ての発声者に音声データ
を大量に発生させることは、現実的ではない。よって、
通常行われているように、多数の発声者からの音声デー
タを用いて作成された単語/音韻のHMMP(Y|W) を用いて、このP(Y|W)について話者固有のコード
ブックの空間を制限し、話者制約音韻/単語HMMを作
成することを考える。以下、話者固有のコードブックの
空間やコードワードの動きを表すのにもマルコフモデル
を用いることを考える。
【0008】まず、不特定話者単語/音韻のHMMとし
て、左から右への遷移をもつ図5Bに示すようなHMM
を考える。この単語/音韻のHMMを Mpj =(Upj ,V,Tpj ,Ppj
,Ipj ,Fpj ) :単語/音韻j(j=1,
…,M). と表す。
て、左から右への遷移をもつ図5Bに示すようなHMM
を考える。この単語/音韻のHMMを Mpj =(Upj ,V,Tpj ,Ppj
,Ipj ,Fpj ) :単語/音韻j(j=1,
…,M). と表す。
【0009】こゝで、Upj :状態の集合V:入力ベ
クトル(入力記号)の集合 Tpj :遷移確率の集合 Ppj :出力確率の集合 Ipj :初期状態 Fpj :最終状態 また、入力記号系列を Y=y1 y2 …yt …yN で表す。この図では、3つの状態(A,B,C)をもち
、2つの自己ループをもつHMMである。このHMMモ
デルの遷移確率をtAB(状態AからBへの遷移確率)
と表し、入力記号(コードワード)yt に対する出力
確率をpAB(yt )(状態AからBへの出力確率)
で表す。これらは多数の話者の音声データによって推定
される。
クトル(入力記号)の集合 Tpj :遷移確率の集合 Ppj :出力確率の集合 Ipj :初期状態 Fpj :最終状態 また、入力記号系列を Y=y1 y2 …yt …yN で表す。この図では、3つの状態(A,B,C)をもち
、2つの自己ループをもつHMMである。このHMMモ
デルの遷移確率をtAB(状態AからBへの遷移確率)
と表し、入力記号(コードワード)yt に対する出力
確率をpAB(yt )(状態AからBへの出力確率)
で表す。これらは多数の話者の音声データによって推定
される。
【0010】話者性、つまり話者の特徴を表すマルコフ
モデルとして、以下の(i)ユニグラム話者モデル、(
ii)バイグラム話者モデル、(iii)トライグラム
話者モデルの3種類のマルコフモデルを考える。 (i)ユニグラム話者モデル(Unigram Spe
aker Markov Model) 発声者iのユニグラム話者モデルを図2Aに示す。ユニ
グラム話者モデルでは、入力記号yt の遷移確率は、
入力記号yt だけに依存し、入力yt に対するユニ
グラム確率(Unigram Probability
) は、 {Q(i)(yt) }:yt ∈V
,発声者i=(i=1,…,L)と表すことができ、こ
のユニグラム話者モデルは発声者iの発声した音声デー
タを用いて推定される。このユニグラム話者モデルを用
いて、図5Aに示すユニバーサルコードブック12の空
間を、発声者iの入力記号の生成確率{Q(i)(yt
)}により制約することを、考えることになる。
モデルとして、以下の(i)ユニグラム話者モデル、(
ii)バイグラム話者モデル、(iii)トライグラム
話者モデルの3種類のマルコフモデルを考える。 (i)ユニグラム話者モデル(Unigram Spe
aker Markov Model) 発声者iのユニグラム話者モデルを図2Aに示す。ユニ
グラム話者モデルでは、入力記号yt の遷移確率は、
入力記号yt だけに依存し、入力yt に対するユニ
グラム確率(Unigram Probability
) は、 {Q(i)(yt) }:yt ∈V
,発声者i=(i=1,…,L)と表すことができ、こ
のユニグラム話者モデルは発声者iの発声した音声デー
タを用いて推定される。このユニグラム話者モデルを用
いて、図5Aに示すユニバーサルコードブック12の空
間を、発声者iの入力記号の生成確率{Q(i)(yt
)}により制約することを、考えることになる。
【0011】よって、図5Bの不特定話者音韻/単語H
MMよりなるユニバーサルコードブック12の空間を図
2Aのユニグラム話者モデルで制約したユニグラム話者
制約音韻/単語HMMは、図1に示すような話者制約音
韻/単語HMMとして表すことができる。発声者iの入
力記号yt に対する音韻/単語HMMの状態kから1
への出力確率、P(i)k1(yt) は、次式のよう
に計算することができる。
MMよりなるユニバーサルコードブック12の空間を図
2Aのユニグラム話者モデルで制約したユニグラム話者
制約音韻/単語HMMは、図1に示すような話者制約音
韻/単語HMMとして表すことができる。発声者iの入
力記号yt に対する音韻/単語HMMの状態kから1
への出力確率、P(i)k1(yt) は、次式のよう
に計算することができる。
【0012】
【数1】
【0013】このように音韻/単語HMMの出力確率を
ユニグラム話者モデルの入力記号の遷移確率を用いて変
更し、話者制約音韻/単語HMMを作成することができ
る。 (ii) バイグラム話者モデル(Bigram S
peaker Markov Model) 発声者iのバイグラム話者モデルを図2Bに示す。バイ
グラム話者モデルでは、入力記号yt の遷移確率は、
直前の入力記号yt−1 と入力記号yt だけに依存
し、入力に対するバイグラム確率(Bigram Pr
obability) は、 {Q(i)(yt
−1, yt) }:yt−1,yt ∈V,発声者i
(i=1,…,L)で表すことができ、このモデルも発
声者iの発声した音声データを用いて推定される。この
バイグラム話者モデルを用いて、図5Aに示したユニバ
ーサルコードブック12の空間を、発声者iの入力記号
のバイグラムマルコフ確率{Q(i)(yt−1,yt
)}により制約することを、考えることになる。
ユニグラム話者モデルの入力記号の遷移確率を用いて変
更し、話者制約音韻/単語HMMを作成することができ
る。 (ii) バイグラム話者モデル(Bigram S
peaker Markov Model) 発声者iのバイグラム話者モデルを図2Bに示す。バイ
グラム話者モデルでは、入力記号yt の遷移確率は、
直前の入力記号yt−1 と入力記号yt だけに依存
し、入力に対するバイグラム確率(Bigram Pr
obability) は、 {Q(i)(yt
−1, yt) }:yt−1,yt ∈V,発声者i
(i=1,…,L)で表すことができ、このモデルも発
声者iの発声した音声データを用いて推定される。この
バイグラム話者モデルを用いて、図5Aに示したユニバ
ーサルコードブック12の空間を、発声者iの入力記号
のバイグラムマルコフ確率{Q(i)(yt−1,yt
)}により制約することを、考えることになる。
【0014】よって、図5Bの不特定話者音韻/単語H
MMよりなるユニバーサルコードブック12の空間を図
2Bのバイグラム話者モデルで制約したバイグラム話者
制約音韻/単語HMMは、図3Aに示すような話者制約
音韻/単語HMMとして表すことができる。発声者iの
入力記号yt に対する音韻/単語HMMの状態kから
1への出力確率、P(i)k1(yt|yt−1)は、
次式のように計算することができる。
MMよりなるユニバーサルコードブック12の空間を図
2Bのバイグラム話者モデルで制約したバイグラム話者
制約音韻/単語HMMは、図3Aに示すような話者制約
音韻/単語HMMとして表すことができる。発声者iの
入力記号yt に対する音韻/単語HMMの状態kから
1への出力確率、P(i)k1(yt|yt−1)は、
次式のように計算することができる。
【0015】
【数2】
【0016】このように音韻/単語HMMの出力確率を
バイグラム話者モデルの入力記号の遷移確率を用いて変
更し、話者制約音韻/単語HMMを作成することができ
る。 (iii) トライグラム話者モデル (Trigra
m Speaker Markov Model) 発声者iのトライグラム話者モデルを図2Cに示す。ト
ライグラム話者モデルでは、入力記号yt の遷移確率
は、直前の入力記号列yt−2 ,yt−1 と入力記
号yt だけに依存し、入力に対するトライグラム確率
(Trigram Probability)は、 {Q(i)(yt−2,yt−1,yt) }:y
t−2,yt−1,yt∈V,発声者i(i=1,…,
L) で表すことができ、発声者iの発声した音声データを用
いて推定される。このトライグラム話者モデルを用いて
、図5Aに示したユニバーサルコードブックの空間を発
声者iの入力記号のトライグラムマルコフ確率{Q(i
)(yt−2,yt−1,yt )}により制約するこ
とを、考えることになる。
バイグラム話者モデルの入力記号の遷移確率を用いて変
更し、話者制約音韻/単語HMMを作成することができ
る。 (iii) トライグラム話者モデル (Trigra
m Speaker Markov Model) 発声者iのトライグラム話者モデルを図2Cに示す。ト
ライグラム話者モデルでは、入力記号yt の遷移確率
は、直前の入力記号列yt−2 ,yt−1 と入力記
号yt だけに依存し、入力に対するトライグラム確率
(Trigram Probability)は、 {Q(i)(yt−2,yt−1,yt) }:y
t−2,yt−1,yt∈V,発声者i(i=1,…,
L) で表すことができ、発声者iの発声した音声データを用
いて推定される。このトライグラム話者モデルを用いて
、図5Aに示したユニバーサルコードブックの空間を発
声者iの入力記号のトライグラムマルコフ確率{Q(i
)(yt−2,yt−1,yt )}により制約するこ
とを、考えることになる。
【0017】よって、図5Bの不特定話者音韻/単語H
MMよりなるユニバーサルコードブック12の空間を図
2Cのトライグラム話者モデルで制約したトライグラム
話者制約音韻/単語HMMは、図3Bのような話者制約
音韻/単語HMMとして表すことができる。発声者iの
入力記号yt に対する音韻/単語HMMの状態kから
1への出力確率、P(i)k1(yt|yt−2 yt
−1)は、次式のように計算することができる。
MMよりなるユニバーサルコードブック12の空間を図
2Cのトライグラム話者モデルで制約したトライグラム
話者制約音韻/単語HMMは、図3Bのような話者制約
音韻/単語HMMとして表すことができる。発声者iの
入力記号yt に対する音韻/単語HMMの状態kから
1への出力確率、P(i)k1(yt|yt−2 yt
−1)は、次式のように計算することができる。
【0018】
【数3】
【0019】このように音韻/単語HMMの出力確率を
トライグラム話者モデルの入力記号の遷移確率を用いて
変更し、話者制約音韻/単語HMMを作成することがで
きる。ユニグラム、バイグラム、トライグラムなどで表
される話者の特徴を表す話者マルコフモデルと不特定話
者音韻/単語HMMとを合成して、話者制約音韻/単語
HMMを作成する手順を、図5Bの簡単な不特定話者音
韻/単語HMMを用いて説明したが、複雑なHMMとの
合成においても、まったく同様に行うことができる。
トライグラム話者モデルの入力記号の遷移確率を用いて
変更し、話者制約音韻/単語HMMを作成することがで
きる。ユニグラム、バイグラム、トライグラムなどで表
される話者の特徴を表す話者マルコフモデルと不特定話
者音韻/単語HMMとを合成して、話者制約音韻/単語
HMMを作成する手順を、図5Bの簡単な不特定話者音
韻/単語HMMを用いて説明したが、複雑なHMMとの
合成においても、まったく同様に行うことができる。
【0020】
【実施例】図4は、この発明の一実施例を示すブロック
図である。入力端子1から入力された音声は、特徴抽出
部2においてディジタル信号に変換され、かつLPCケ
プストラム分析されたのち、フレーム(10ミリ秒)ご
とにユニバーサルコードブックによってベクトル量子化
される。話者マルコフモデルの学習部3では、あらかじ
め蓄えた複数の話者マルコフモデルから、もっとも尤度
の高い話者マルコフモデルを選び、かつ、入力音声によ
ってもそのマルコフモデルへの追加学習を行う。次に、
話者制約音韻HMMの合成部4で、その話者の特徴を表
す話者マルコフモデルと不特定話者音韻モデルHMM5
とから話者制約音韻HMMを前記(i),(ii),(
iii)の何れかにより合成する。連続音声認識部6は
、この合成した話者制約音韻HMMを用いて、入力音声
の発声内容を認識し、認識結果7を出力する。
図である。入力端子1から入力された音声は、特徴抽出
部2においてディジタル信号に変換され、かつLPCケ
プストラム分析されたのち、フレーム(10ミリ秒)ご
とにユニバーサルコードブックによってベクトル量子化
される。話者マルコフモデルの学習部3では、あらかじ
め蓄えた複数の話者マルコフモデルから、もっとも尤度
の高い話者マルコフモデルを選び、かつ、入力音声によ
ってもそのマルコフモデルへの追加学習を行う。次に、
話者制約音韻HMMの合成部4で、その話者の特徴を表
す話者マルコフモデルと不特定話者音韻モデルHMM5
とから話者制約音韻HMMを前記(i),(ii),(
iii)の何れかにより合成する。連続音声認識部6は
、この合成した話者制約音韻HMMを用いて、入力音声
の発声内容を認識し、認識結果7を出力する。
【0021】話者マルコフモデルの学習では、トライグ
ラムモデル等での推定パラメータの多さに対処し、話者
マルコフモデルを頑健にするために、ファジィベクトル
量子化や削除補間法(例えば、鹿野「統計的手法による
音声認識」電子情報通信学会誌、Vo.73,No.1
2,pp1276−1285,(1990.12))が
有効に利用できる。
ラムモデル等での推定パラメータの多さに対処し、話者
マルコフモデルを頑健にするために、ファジィベクトル
量子化や削除補間法(例えば、鹿野「統計的手法による
音声認識」電子情報通信学会誌、Vo.73,No.1
2,pp1276−1285,(1990.12))が
有効に利用できる。
【0022】
【発明の効果】以上述べたように、この発明によれば、
話者マルコフモデルを用いることにより、不特定話者用
の音韻/単語HMMを、発声者特有の空間やスペクトル
の動きに制約することができ、高い認識率を達成するこ
とが可能となる。この方法により、発声者が、特定話者
用の音韻/単語HMMを作成するために、多量の音声デ
ータを発生する必要がなくなる。この方法によれば、少
量の任意の音声データによって、話者マルコフモデルを
選択し、かつ、追加学習で話者マルコフモデルを適応化
し、この話者マルコフモデルと音韻/単語HMMとを合
成することによって、高精度な特定話者用の音韻/単語
HMMの作成が可能となる。
話者マルコフモデルを用いることにより、不特定話者用
の音韻/単語HMMを、発声者特有の空間やスペクトル
の動きに制約することができ、高い認識率を達成するこ
とが可能となる。この方法により、発声者が、特定話者
用の音韻/単語HMMを作成するために、多量の音声デ
ータを発生する必要がなくなる。この方法によれば、少
量の任意の音声データによって、話者マルコフモデルを
選択し、かつ、追加学習で話者マルコフモデルを適応化
し、この話者マルコフモデルと音韻/単語HMMとを合
成することによって、高精度な特定話者用の音韻/単語
HMMの作成が可能となる。
【0023】上述では、離散HMMを主体として説明し
たが、この発明方法は、ファジィベクトル量子化ベース
のHMM,連続分布のHMMに対しても同様に適用する
ことができる。同様にして、この発明は、マルコフモデ
ルとHMMで制約された条件を満たす音声認識方式一般
に適用でき、例えば、雑音環境、マイクロフォンの種類
等への適応等に用い、認識性能を向上させることができ
る。つまり、例えばマイクロフォンの特性を表すマルコ
フモデルと音韻性を表すHMMとを合成することにより
、様々な特性のマイクロフォンに対処できる不特定話者
音声認識の認識性能を向上できる。その他、音声認識以
外でも、制約条件がマルコフモデルとHMMで与えられ
る対象に適用することができる。
たが、この発明方法は、ファジィベクトル量子化ベース
のHMM,連続分布のHMMに対しても同様に適用する
ことができる。同様にして、この発明は、マルコフモデ
ルとHMMで制約された条件を満たす音声認識方式一般
に適用でき、例えば、雑音環境、マイクロフォンの種類
等への適応等に用い、認識性能を向上させることができ
る。つまり、例えばマイクロフォンの特性を表すマルコ
フモデルと音韻性を表すHMMとを合成することにより
、様々な特性のマイクロフォンに対処できる不特定話者
音声認識の認識性能を向上できる。その他、音声認識以
外でも、制約条件がマルコフモデルとHMMで与えられ
る対象に適用することができる。
【図1】この発明に用いる話者制約音韻/単語HMMの
一例であるユニグラム話者制約音韻/単語HMMを示す
図。
一例であるユニグラム話者制約音韻/単語HMMを示す
図。
【図2】話者マルコフモデルをそれぞれ示し、Aはユニ
グラム話者モデル、Bはバイグラム話者モデル、Cはト
ライグラム話者モデルである。
グラム話者モデル、Bはバイグラム話者モデル、Cはト
ライグラム話者モデルである。
【図3】話者制約音韻/単語HMMを示し、Aはバイグ
ラム話者制約音韻/単語HMM,Bはトライグラム話者
制約音韻/単語HMMである。
ラム話者制約音韻/単語HMM,Bはトライグラム話者
制約音韻/単語HMMである。
【図4】この発明方法を適用した音声認識装置の例を示
すブロック図。
すブロック図。
【図5】Aはユニバーサルコードブックと話者固有のコ
ードブック空間との関係を示す図、Bは不特定話者単語
/音韻のHMMの簡単な例を示す図である。
ードブック空間との関係を示す図、Bは不特定話者単語
/音韻のHMMの簡単な例を示す図である。
Claims (1)
- 【請求項1】 不特定話者音声認識方法において、不
特定話者用の音韻/単語を表す隠れマルコフモデルと、
話者の特徴を表すマルコフモデルとを合成し、その合成
モデルを用いて上記話者の音声認識を行うことを特徴と
する音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8549991A JPH04318600A (ja) | 1991-04-17 | 1991-04-17 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8549991A JPH04318600A (ja) | 1991-04-17 | 1991-04-17 | 音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04318600A true JPH04318600A (ja) | 1992-11-10 |
Family
ID=13860628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8549991A Pending JPH04318600A (ja) | 1991-04-17 | 1991-04-17 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04318600A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5205173A (en) * | 1991-06-21 | 1993-04-27 | Palmer Environmental Services | Method and apparatus for detecting leaks in pipelines using cross-correlation techniques |
-
1991
- 1991-04-17 JP JP8549991A patent/JPH04318600A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5205173A (en) * | 1991-06-21 | 1993-04-27 | Palmer Environmental Services | Method and apparatus for detecting leaks in pipelines using cross-correlation techniques |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2826215B2 (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
JP4274962B2 (ja) | 音声認識システム | |
Ghai et al. | Literature review on automatic speech recognition | |
JP2733955B2 (ja) | 適応型音声認識装置 | |
JPH0772840B2 (ja) | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 | |
WO2016190077A1 (ja) | 音声認識装置及びコンピュータプログラム | |
JPH0555040B2 (ja) | ||
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
JP2007500367A (ja) | 音声認識方法およびコミュニケーション機器 | |
JPH06214587A (ja) | 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法 | |
US5943647A (en) | Speech recognition based on HMMs | |
JP3535292B2 (ja) | 音声認識システム | |
Zgank et al. | Predicting the acoustic confusability between words for a speech recognition system using Levenshtein distance | |
Badhon et al. | State of art research in bengali speech recognition | |
JPH08211897A (ja) | 音声認識装置 | |
Lévy et al. | Reducing computational and memory cost for cellular phone embedded speech recognition system | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
JPH04318600A (ja) | 音声認識方法 | |
JP3036706B2 (ja) | 音声認識方法 | |
Krut et al. | Service-oriented architectures and software product lines-putting both together | |
Takahashi et al. | Interactive voice technology development for telecommunications applications | |
JP2003271180A (ja) | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 | |
Thalengala et al. | Performance Analysis of Isolated Speech Recognition System Using Kannada Speech Database. | |
JP3144341B2 (ja) | 音声認識装置 | |
Miyazawa | An all-phoneme ergodic HMM for unsupervised speaker adaptation |