JP3036706B2 - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JP3036706B2 JP3036706B2 JP3049687A JP4968791A JP3036706B2 JP 3036706 B2 JP3036706 B2 JP 3036706B2 JP 3049687 A JP3049687 A JP 3049687A JP 4968791 A JP4968791 A JP 4968791A JP 3036706 B2 JP3036706 B2 JP 3036706B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- hmm
- phoneme
- word
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】
【産業上の利用分野】この発明は、隠れマルコフモデル
を用い、不特定話者大語彙連続音声認識に適用して認識
性能を向上させるようにした音声認識方法に関する。
を用い、不特定話者大語彙連続音声認識に適用して認識
性能を向上させるようにした音声認識方法に関する。
【0002】
【従来の技術】隠れマルコフモデル(例えば中川聖一
「確率モデルによる音声認識」電子情報通信学会編(1
988))による不特定話者音声認識では、多くの発声
者からの音声スペクトルをもとに作成れれた符号帳(コ
ードブック)を用いることが多い。このコードブック
は、ユニバーサルコードブックとよばれている。しかし
ながら、図4Bに示すようにある特定の話者のコードブ
ックの空間11は、図4Bに示すようにユニバーサルコ
ードブック12の部分空間となっている。また、コード
ブック12内でのコードワードの動きも話者ごとに特有
である。
「確率モデルによる音声認識」電子情報通信学会編(1
988))による不特定話者音声認識では、多くの発声
者からの音声スペクトルをもとに作成れれた符号帳(コ
ードブック)を用いることが多い。このコードブック
は、ユニバーサルコードブックとよばれている。しかし
ながら、図4Bに示すようにある特定の話者のコードブ
ックの空間11は、図4Bに示すようにユニバーサルコ
ードブック12の部分空間となっている。また、コード
ブック12内でのコードワードの動きも話者ごとに特有
である。
【0003】このような事実にもかかわらず、隠れマル
コフモデル(HMM)による不特定話者音声認識では、
ユニバーサルコードブック12を用い、多数の話者から
の多量の音声データを用いて単語あるいは音韻単位の隠
れマルコフモデルを作成していた。よって、話者固有の
コードブックの空間11の制約は一切考えられてなく、
様々な副作用を起こしており、不特定話者大語彙連続音
声認識での認識性能の劣化となっていた。
コフモデル(HMM)による不特定話者音声認識では、
ユニバーサルコードブック12を用い、多数の話者から
の多量の音声データを用いて単語あるいは音韻単位の隠
れマルコフモデルを作成していた。よって、話者固有の
コードブックの空間11の制約は一切考えられてなく、
様々な副作用を起こしており、不特定話者大語彙連続音
声認識での認識性能の劣化となっていた。
【0004】
【課題を解決するための手段】この発明によれば、不特
定話者用の音韻/単語を表す隠れマルコフモデルと、話
者の特徴を表す隠れマルコフモデルとを合成し、その合
成モデルを用いてその話者の音声認識を行う。つまり、
この発明による発声者を考慮した統計的な連続音声認識
の基本の式は、以下のように書かれる。こゝでSに関す
る項がこの発明で導入されたものである。
定話者用の音韻/単語を表す隠れマルコフモデルと、話
者の特徴を表す隠れマルコフモデルとを合成し、その合
成モデルを用いてその話者の音声認識を行う。つまり、
この発明による発声者を考慮した統計的な連続音声認識
の基本の式は、以下のように書かれる。こゝでSに関す
る項がこの発明で導入されたものである。
【0005】 P(W,S|Y)=P(W,S)P(Y|W,S)/P(Y) =P(S)P(W|S)P(Y|W,S)/P(Y) こゝで、 W:単語列 S:発声者 Y:入力音声のベクトル系列 P(S):発声者Sがこの音声認識装置を用いている確
率 P(W|S):発声者Sがある単語列Wを発生する確率
とみなされ、発声者Sによる統計的言語モデル(例え
ば、鹿野「統計的手法による音声認識」電子情報通信学
会誌、Vo.73,No.12,pp1276−1285,
(1990.12))である。
率 P(W|S):発声者Sがある単語列Wを発生する確率
とみなされ、発声者Sによる統計的言語モデル(例え
ば、鹿野「統計的手法による音声認識」電子情報通信学
会誌、Vo.73,No.12,pp1276−1285,
(1990.12))である。
【0006】P(Y|W,S):発生内容Wで発声者S
での入力音声のベクトル系列Yの確率(音響モデル) よって、統計的な連続音声認識の問題は、 max {P(S)P(W|S)P(Y|W,S)} W,S となる単語列Wを発声者の情報Sを利用して推定するこ
ととなる。
での入力音声のベクトル系列Yの確率(音響モデル) よって、統計的な連続音声認識の問題は、 max {P(S)P(W|S)P(Y|W,S)} W,S となる単語列Wを発声者の情報Sを利用して推定するこ
ととなる。
【0007】ここで、P(S)は、発声者Sがこの音声
認識装置を用いている確率を表す。さらに、発声者Sに
よる音響モデル(単語/音韻モデル)P(Y|W,S)
を隠れマルコフモデル(HMM)でモデル化することを
考える。発声者ごとに単語/音韻の音声データを大量に
発生すれば、発声者ごとの単語/音韻のHMMを作成す
ることができるが、通常は、全ての発声者に音声データ
を大量に発生させることは、現実的ではない。よって、
通常行われているように、多数の発声者からの音声デー
タを用いて作成された単語/音韻のHMM P(Y|W) を用い、このP(Y|W)について話者固有のコードブ
ックの空間を制限することを考える。以下、話者固有の
コードブックの空間やコードワードの動きを表すのにも
HMMを用いることを考える。
認識装置を用いている確率を表す。さらに、発声者Sに
よる音響モデル(単語/音韻モデル)P(Y|W,S)
を隠れマルコフモデル(HMM)でモデル化することを
考える。発声者ごとに単語/音韻の音声データを大量に
発生すれば、発声者ごとの単語/音韻のHMMを作成す
ることができるが、通常は、全ての発声者に音声データ
を大量に発生させることは、現実的ではない。よって、
通常行われているように、多数の発声者からの音声デー
タを用いて作成された単語/音韻のHMM P(Y|W) を用い、このP(Y|W)について話者固有のコードブ
ックの空間を制限することを考える。以下、話者固有の
コードブックの空間やコードワードの動きを表すのにも
HMMを用いることを考える。
【0008】HMMを次の6組で表す。 HMM:M=(U,V,T,P,I,F) こゝで、U:状態の集合 V:入力ベクトルの集合 T:遷移確率の集合 P:出力確率の集合 I:初期状態 F:最終状態 また、入力系列を Y=y1 y2 …yt …yN で表す。
【0009】こゝで、話者性を表すHMMとして、話者
ごとに任意の発声音声からそのパラメータが推定される
エルゴードHMMを考える。このエルゴードHMMの簡
単な例を図3Aに示す。つまり、発声者ごとに比較的短
い学習音声を入力し、状態1から状態2への遷移確率を
t12に、時点t1 の入力ベクトルyt が状態1から状態
2へ遷移する確率をP12(yt )とし、状態1,2,3
間を遷移するモデル(エルゴードHMM)を各話者ごと
に作る。この話者HMMを Ms i =(Us i,V,Ts i,Ps i,Is i,Fs i ):発声者i(i=1,…, L) で表す。多数の話者の音声データによってそのパラメー
タから推定される単語/音韻のHMMとして、左から右
への遷移をもつ図3Bに示すようなHMMを考える。こ
れは多数の話者の音声データから作る。この単語/音韻
のHMMを Mp j =(Up j , V,Tp j , Pp j ,Ip j ,Fp j ) :
単語/音韻j(j=1,…,M) と表す。
ごとに任意の発声音声からそのパラメータが推定される
エルゴードHMMを考える。このエルゴードHMMの簡
単な例を図3Aに示す。つまり、発声者ごとに比較的短
い学習音声を入力し、状態1から状態2への遷移確率を
t12に、時点t1 の入力ベクトルyt が状態1から状態
2へ遷移する確率をP12(yt )とし、状態1,2,3
間を遷移するモデル(エルゴードHMM)を各話者ごと
に作る。この話者HMMを Ms i =(Us i,V,Ts i,Ps i,Is i,Fs i ):発声者i(i=1,…, L) で表す。多数の話者の音声データによってそのパラメー
タから推定される単語/音韻のHMMとして、左から右
への遷移をもつ図3Bに示すようなHMMを考える。こ
れは多数の話者の音声データから作る。この単語/音韻
のHMMを Mp j =(Up j , V,Tp j , Pp j ,Ip j ,Fp j ) :
単語/音韻j(j=1,…,M) と表す。
【0010】この発明ではこれら2つのHMM,Ms i
とMp j との積空間でのHMMを作る。この合成HMM
を話者制約単語/音韻HMMと呼ぶことにし、次のよう
に定義する。 Mp ji=(Up ji,V,Tp ji,Pp ji,Ip ji,Fp ji) :単語/音韻(j),発声者(i) =(Up j×Us i,V,Tp j×Ts i,Λ(Pp j×Ps i),Ip j×Is i,Fp
j×Fs i) そして発声者iの発声音声の認識を、この話者制約単語
/音韻HMMで、確率を最大にする発声者iと単語/音
韻jを求めることにより行う。上の式でΛ()は、出力確
率の和が1になるようにするスケールファクターであ
る。
とMp j との積空間でのHMMを作る。この合成HMM
を話者制約単語/音韻HMMと呼ぶことにし、次のよう
に定義する。 Mp ji=(Up ji,V,Tp ji,Pp ji,Ip ji,Fp ji) :単語/音韻(j),発声者(i) =(Up j×Us i,V,Tp j×Ts i,Λ(Pp j×Ps i),Ip j×Is i,Fp
j×Fs i) そして発声者iの発声音声の認識を、この話者制約単語
/音韻HMMで、確率を最大にする発声者iと単語/音
韻jを求めることにより行う。上の式でΛ()は、出力確
率の和が1になるようにするスケールファクターであ
る。
【0011】
【実施例】この発明では、上述したように不特定話者用
の音韻/単語を表すHMMと、話者の特徴を表すエルゴ
ード話者性HMMとを合成したHMMを用いるが、図2
Aに示すように2状態1,2からなるエルゴード話者性
HMMと、図2Bに示す3状態A,B,Cからなる不特
定話者用単語/音韻HMMとを用いて、これらを合成し
た状態数6の話者制約単語/音韻HMMの構成例を図1
に示す。遷移確率と出力確率の値の計算式を図中に示し
ておく。ただし、一部の遷移については遷移確率も出力
確率も省いてあるが、同様に計算できる。
の音韻/単語を表すHMMと、話者の特徴を表すエルゴ
ード話者性HMMとを合成したHMMを用いるが、図2
Aに示すように2状態1,2からなるエルゴード話者性
HMMと、図2Bに示す3状態A,B,Cからなる不特
定話者用単語/音韻HMMとを用いて、これらを合成し
た状態数6の話者制約単語/音韻HMMの構成例を図1
に示す。遷移確率と出力確率の値の計算式を図中に示し
ておく。ただし、一部の遷移については遷移確率も出力
確率も省いてあるが、同様に計算できる。
【0012】このような話者制約単語/音韻HMMを用
いた音声認識の装置の例を図4Aに示す。入力端子1か
ら入力された音声は、特徴抽出部2においてディジタル
信号に変換され、かつLPCケプストラム分析されたの
ち、フレーム(10ミリ秒)ごとにユニバーサルコード
ブックによってベクトル量子化される。話者モデルHM
Mの学習部3では、あらかじめ蓄えた複数のエルゴード
話者HMMから、もっとも尤度の高い話者HMMを選
び、かつ、入力音声によってもそのHMMへの追加学習
を行う。次に、話者制約音韻HMMの合成部4で、この
発明により話者モデルHMMと不特定話者音韻モデルH
MM5から話者制約音韻HMMを合成する。連続音声認
識部6は、この話者制約音韻HMMを用いて、入力音声
の発生内容を認識し、認識結果7を出力する。
いた音声認識の装置の例を図4Aに示す。入力端子1か
ら入力された音声は、特徴抽出部2においてディジタル
信号に変換され、かつLPCケプストラム分析されたの
ち、フレーム(10ミリ秒)ごとにユニバーサルコード
ブックによってベクトル量子化される。話者モデルHM
Mの学習部3では、あらかじめ蓄えた複数のエルゴード
話者HMMから、もっとも尤度の高い話者HMMを選
び、かつ、入力音声によってもそのHMMへの追加学習
を行う。次に、話者制約音韻HMMの合成部4で、この
発明により話者モデルHMMと不特定話者音韻モデルH
MM5から話者制約音韻HMMを合成する。連続音声認
識部6は、この話者制約音韻HMMを用いて、入力音声
の発生内容を認識し、認識結果7を出力する。
【0013】この実施例では、合成部4で話者制約音韻
HMMを合成してから連続音声の認識を行う手順を示し
たが、連続音声認識を行う中に、逐次話者制約音韻HM
Mを合成作成する手順を入れることも可能である。
HMMを合成してから連続音声の認識を行う手順を示し
たが、連続音声認識を行う中に、逐次話者制約音韻HM
Mを合成作成する手順を入れることも可能である。
【0014】
【発明の効果】以上述べたように、この発明によれば、
話者HMMを用いることにより、不特定話者用の音韻/
単語HMMを、発生者特有の空間やスペクトルの動きに
制約することができ、高い認識率を達成することが可能
となる。この手法により、発声者が、特定話者用の音韻
/単語HMMを作成するために、多量の音声データを発
生する必要がなくなる。この方法によれば、少量の任意
の音声データによって、話者モデルを選択し、かつ、追
加学習で話者モデルを適応化し,この話者HMMモデル
と音韻/単語HMMとを合成することによって、高精度
な特定話者用の音韻/単語HMMの作成が可能となる。
話者HMMを用いることにより、不特定話者用の音韻/
単語HMMを、発生者特有の空間やスペクトルの動きに
制約することができ、高い認識率を達成することが可能
となる。この手法により、発声者が、特定話者用の音韻
/単語HMMを作成するために、多量の音声データを発
生する必要がなくなる。この方法によれば、少量の任意
の音声データによって、話者モデルを選択し、かつ、追
加学習で話者モデルを適応化し,この話者HMMモデル
と音韻/単語HMMとを合成することによって、高精度
な特定話者用の音韻/単語HMMの作成が可能となる。
【0015】上述では、離散HMMを主体として説明し
たが、この方法は、ファジィベクトル量子化ベースのH
MM,連続分布のHMMに対しても同様に適用すること
ができる。同様にして、この発明は、2つのHMMで制
約された条件を満たす音声認識方式一般に適用でき、例
えば、雑音環境、マイクロフォンの種類等への適応等に
用い、認識性能を向上させることができる。つまり、例
えば話者の特徴エルゴードHMMに替えて、マイクロフ
ォンの特性を表すエルゴードHMMを用いることによ
り、認識性能を向上させることができる。その他、音声
認識以外でも、制約条件が2つのHMMであたえられる
対象に適用することができる。
たが、この方法は、ファジィベクトル量子化ベースのH
MM,連続分布のHMMに対しても同様に適用すること
ができる。同様にして、この発明は、2つのHMMで制
約された条件を満たす音声認識方式一般に適用でき、例
えば、雑音環境、マイクロフォンの種類等への適応等に
用い、認識性能を向上させることができる。つまり、例
えば話者の特徴エルゴードHMMに替えて、マイクロフ
ォンの特性を表すエルゴードHMMを用いることによ
り、認識性能を向上させることができる。その他、音声
認識以外でも、制約条件が2つのHMMであたえられる
対象に適用することができる。
【図1】不特性話者の単語/音韻HMMとエルゴード話
者性HMMとを合成した話者制約単語/音韻HMMの構
成例を示す図。
者性HMMとを合成した話者制約単語/音韻HMMの構
成例を示す図。
【図2】Aはエルゴード話者性HMMの構成例を示す
図、Bは不特定話者の単語/音韻HMMの構成例を示す
図である。
図、Bは不特定話者の単語/音韻HMMの構成例を示す
図である。
【図3】Aは話者性を表すエルゴードHMMの簡単な例
を示す図、Bは単語/音韻のHMMの簡単な例を示す図
である。
を示す図、Bは単語/音韻のHMMの簡単な例を示す図
である。
【図4】Aはこの発明を適用した連続音声認識システム
の例を示すブロック図、Bはユニバーサルコードブック
と話者固有のコードブックの空間との関係例を示す図で
ある。
の例を示すブロック図、Bはユニバーサルコードブック
と話者固有のコードブックの空間との関係例を示す図で
ある。
フロントページの続き (56)参考文献 特開 平2−238496(JP,A) 特開 平1−102599(JP,A) 特開 平4−125599(JP,A) 特開 平4−121793(JP,A) 日本音響学会平成3年度春季秋季研究 発表会講演論文集▲I▼ 3−P−15 「HMM音素モデルの発話変動への適応 化」p.177−178(平成3年3月27日発 行) 電子情報通信学会技術研究報告[音声 ]Vol.90,No.373,SP90−66, 「HMM音素モデルの発話様式の変動に 対する頑健性」p.71−78(1990年12月 20日発行) 電子情報通信学会技術研究報告[音声 ]Vol.92,No.393,SP92−96, 「HMMモデルの合成による雑音重畳音 声の認識」p.9−16(1992年12月21日 発行) 電子情報通信学会技術研究報告[音声 ]Vol.96,No.92,SP96−19, 「音声認識における音声強調手法及びモ デル適応化手法の検討」p.53−60 (1996年6月13日発行) 電子情報通信学会論文誌 Vol.J 79−D−▲II▼ No.12,Dece mber 1996,「雑音と残響の有る環 境下でのHMM合成によるハンズフリー 音声認識法」,p.2047−2053,(平成 8年12月25日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 G10L 15/06 G10L 15/10 JICSTファイル(JOIS)
Claims (1)
- 【請求項1】 不特定話者音声認識方法において、不特
定話者用の音韻/単語を表す隠れマルコフモデルと、話
者の特徴を表す隠れマルコフモデルとを合成し、その合
成モデルを用いて上記話者の音声認識を行うことを特徴
とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3049687A JP3036706B2 (ja) | 1991-03-14 | 1991-03-14 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3049687A JP3036706B2 (ja) | 1991-03-14 | 1991-03-14 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04284498A JPH04284498A (ja) | 1992-10-09 |
JP3036706B2 true JP3036706B2 (ja) | 2000-04-24 |
Family
ID=12838098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3049687A Expired - Fee Related JP3036706B2 (ja) | 1991-03-14 | 1991-03-14 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3036706B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL9301119A (nl) * | 1993-06-25 | 1995-01-16 | Nederland Ptt | Methode voor de detectie van het beste pad door een stochastisch netwerk, in het bijzonder voor spraak- of beeldherkenning. |
-
1991
- 1991-03-14 JP JP3049687A patent/JP3036706B2/ja not_active Expired - Fee Related
Non-Patent Citations (5)
Title |
---|
日本音響学会平成3年度春季秋季研究発表会講演論文集▲I▼ 3−P−15「HMM音素モデルの発話変動への適応化」p.177−178(平成3年3月27日発行) |
電子情報通信学会技術研究報告[音声]Vol.90,No.373,SP90−66,「HMM音素モデルの発話様式の変動に対する頑健性」p.71−78(1990年12月20日発行) |
電子情報通信学会技術研究報告[音声]Vol.92,No.393,SP92−96,「HMMモデルの合成による雑音重畳音声の認識」p.9−16(1992年12月21日発行) |
電子情報通信学会技術研究報告[音声]Vol.96,No.92,SP96−19,「音声認識における音声強調手法及びモデル適応化手法の検討」p.53−60(1996年6月13日発行) |
電子情報通信学会論文誌 Vol.J79−D−▲II▼ No.12,December 1996,「雑音と残響の有る環境下でのHMM合成によるハンズフリー音声認識法」,p.2047−2053,(平成8年12月25日発行) |
Also Published As
Publication number | Publication date |
---|---|
JPH04284498A (ja) | 1992-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2733955B2 (ja) | 適応型音声認識装置 | |
JP4109063B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2826215B2 (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
JP3050934B2 (ja) | 音声認識方式 | |
JPH0555040B2 (ja) | ||
Kim et al. | Hidden Markov model based voice conversion using dynamic characteristics of speaker | |
US5943647A (en) | Speech recognition based on HMMs | |
JP2898568B2 (ja) | 声質変換音声合成装置 | |
JP3088357B2 (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
Huang et al. | Improved hidden Markov modeling for speaker-independent continuous speech recognition | |
JP3036706B2 (ja) | 音声認識方法 | |
JP3247746B2 (ja) | 耐雑音音韻モデルの作成方式 | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
JP2886118B2 (ja) | 隠れマルコフモデルの学習装置及び音声認識装置 | |
JP4391179B2 (ja) | 話者認識システム及び方法 | |
Fontaine et al. | Speaker-dependent speech recognition based on phone-like units models-application to voice dialling | |
JPH1195786A (ja) | パターン認識方法および装置とパターン認識プログラムを格納した記録媒体 | |
JP2973805B2 (ja) | 標準パターン作成装置 | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
JP2976795B2 (ja) | 話者適応化方式 | |
JP3905620B2 (ja) | 音声認識装置 | |
JP3033322B2 (ja) | 連続音声認識方法 | |
JPH05232989A (ja) | 音響モデルの話者適応化法 | |
JP3144341B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |