JPH04318600A

JPH04318600A - 音声認識方法

Info

Publication number: JPH04318600A
Application number: JP8549991A
Authority: JP
Inventors: Kiyohiro Kano; 清宏鹿野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1991-04-17
Filing date: 1991-04-17
Publication date: 1992-11-10

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、隠れマルコフモデル
を用い、不特定話者大語彙連続音声認識に適用して認識
性能を向上させるようにした音声認識方法に関する。

【０００２】

【従来の技術】隠れマルコフモデル（例えば中川聖一「
確率モデルによる音声認識」電子情報通信学会編（１９
８８））による不特定話者音声認識では、多くの発声者
からの音声スペクトルをもとに作成された符号帳（コー
ドブック）を用いることが多い。このコードブックは、
ユニバーサルコードブックとよばれている。しかしなが
ら、図５Ａに示すようにある特定の話者のコードブック
の空間１１は、図５Ａに示すようにユニバーサルコード
ブック１２の部分空間となっている。また、コードブッ
ク１２内でのコードワードの動きも話者ごとに特有であ
る。

【０００３】このような事実にもかかわらず、隠れマル
コフモデル（ＨＭＭ）による不特定話者音声認識では、
ユニバーサルコードブック１２を用い、多数の話者から
の多量の音声データを用いて単語あるいは音韻単位の隠
れマルコフモデルを作成していた。よって、話者固有の
コードブックの空間１１の制約は一切考えられてなく、
様々な副作用を起こしており、不特定話者大語彙連続音
声認識での認識性能の劣化となっていた。

【０００４】

【課題を解決するための手段】この発明によれば、不特
定話者用の音韻／単語を表す隠れマルコフモデルと、話
者の特徴を表すマルコフモデルとを合成し、その合成モ
デルを用いてその話者の音声認識を行う。つまり、この
発明による発声者を考慮した統計的な連続音声認識の基
本の式は、以下のように書かれる。こゝでＳに関する項
がこの発明で導入されたものである。

【０００５】　　　　Ｐ（Ｗ，Ｓ｜Ｙ）＝Ｐ（Ｗ，Ｓ）Ｐ（Ｙ｜Ｗ，
Ｓ）／Ｐ（Ｙ）　　　　　　　　　　　　　　　　　　
　　＝Ｐ（Ｓ）Ｐ（Ｗ｜Ｓ）Ｐ（Ｙ｜Ｗ，Ｓ）／Ｐ（Ｙ
）こゝで、Ｗ：単語列Ｓ：発声者Ｙ：入力音声のベクトル系列Ｐ（Ｓ）：発声者Ｓがこの音声認識装置を用いている確
率Ｐ（Ｗ｜Ｓ）：発声者Ｓがある単語列Ｗを発生する確率
とみなされ、発声者Ｓによる統計的言語モデル（例えば
、鹿野「統計的手法による音声認識」電子情報通信学会
誌、Ｖｏ．７３，Ｎｏ．１２，ｐｐ１２７６−１２８５
，（１９９０．１２））である。

【０００６】Ｐ（Ｙ｜Ｗ，Ｓ）：発生内容Ｗで発声者Ｓ
での入力音声のベクトル系列Ｙの確率（音響モデル）よ
って、統計的な連続音声認識の問題は、ｍａｘ　　｛Ｐ
（Ｓ）Ｐ（Ｗ｜Ｓ）Ｐ（Ｙ｜Ｗ，Ｓ）｝Ｗ，Ｓとなる単語列Ｗを発声者の情報Ｓを利用して推定するこ
ととなる。

【０００７】ここで、Ｐ（Ｓ）は、発声者Ｓがこの音声
認識装置を用いている確率を表す。さらに、発声者Ｓに
よる音響モデル（単語／音韻モデル）Ｐ（Ｙ｜Ｗ，Ｓ）
を隠れマルコフモデル（ＨＭＭ）でモデル化することを
考える。発声者ごとに単語／音韻の音声データを大量に
発生すれば、発声者ごとの単語／音韻のＨＭＭを作成す
ることができるが、通常は、全ての発声者に音声データ
を大量に発生させることは、現実的ではない。よって、
通常行われているように、多数の発声者からの音声デー
タを用いて作成された単語／音韻のＨＭＭＰ（Ｙ｜Ｗ）を用いて、このＰ（Ｙ｜Ｗ）について話者固有のコード
ブックの空間を制限し、話者制約音韻／単語ＨＭＭを作
成することを考える。以下、話者固有のコードブックの
空間やコードワードの動きを表すのにもマルコフモデル
を用いることを考える。

【０００８】まず、不特定話者単語／音韻のＨＭＭとし
て、左から右への遷移をもつ図５Ｂに示すようなＨＭＭ
を考える。この単語／音韻のＨＭＭを　　　　Ｍｐｊ　＝（Ｕｐｊ　，Ｖ，Ｔｐｊ　，Ｐｐｊ
　，Ｉｐｊ　，Ｆｐｊ　）　：単語／音韻ｊ（ｊ＝１，
…，Ｍ）．と表す。

【０００９】こゝで、Ｕｐｊ　：状態の集合Ｖ：入力ベ
クトル（入力記号）の集合Ｔｐｊ　：遷移確率の集合Ｐｐｊ　：出力確率の集合Ｉｐｊ　：初期状態Ｆｐｊ　：最終状態また、入力記号系列をＹ＝ｙ１　ｙ２　…ｙｔ　…ｙＮ　で表す。この図では、３つの状態（Ａ，Ｂ，Ｃ）をもち
、２つの自己ループをもつＨＭＭである。このＨＭＭモ
デルの遷移確率をｔＡＢ（状態ＡからＢへの遷移確率）
と表し、入力記号（コードワード）ｙｔ　に対する出力
確率をｐＡＢ（ｙｔ　）（状態ＡからＢへの出力確率）
で表す。これらは多数の話者の音声データによって推定
される。

【００１０】話者性、つまり話者の特徴を表すマルコフ
モデルとして、以下の（ｉ）ユニグラム話者モデル、（
ｉｉ）バイグラム話者モデル、（ｉｉｉ）トライグラム
話者モデルの３種類のマルコフモデルを考える。（ｉ）ユニグラム話者モデル（Ｕｎｉｇｒａｍ　Ｓｐｅ
ａｋｅｒ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）発声者ｉのユニグラム話者モデルを図２Ａに示す。ユニ
グラム話者モデルでは、入力記号ｙｔ　の遷移確率は、
入力記号ｙｔ　だけに依存し、入力ｙｔ　に対するユニ
グラム確率（Ｕｎｉｇｒａｍ　Ｐｒｏｂａｂｉｌｉｔｙ
）　は、　　　　｛Ｑ（ｉ）（ｙｔ）　｝：ｙｔ　∈Ｖ
，発声者ｉ＝（ｉ＝１，…，Ｌ）と表すことができ、こ
のユニグラム話者モデルは発声者ｉの発声した音声デー
タを用いて推定される。このユニグラム話者モデルを用
いて、図５Ａに示すユニバーサルコードブック１２の空
間を、発声者ｉの入力記号の生成確率｛Ｑ（ｉ）（ｙｔ
　）｝により制約することを、考えることになる。

【００１１】よって、図５Ｂの不特定話者音韻／単語Ｈ
ＭＭよりなるユニバーサルコードブック１２の空間を図
２Ａのユニグラム話者モデルで制約したユニグラム話者
制約音韻／単語ＨＭＭは、図１に示すような話者制約音
韻／単語ＨＭＭとして表すことができる。発声者ｉの入
力記号ｙｔ　に対する音韻／単語ＨＭＭの状態ｋから１
への出力確率、Ｐ（ｉ）ｋ１（ｙｔ）　は、次式のよう
に計算することができる。

【００１２】

【数１】

【００１３】このように音韻／単語ＨＭＭの出力確率を
ユニグラム話者モデルの入力記号の遷移確率を用いて変
更し、話者制約音韻／単語ＨＭＭを作成することができ
る。（ｉｉ）　　バイグラム話者モデル（Ｂｉｇｒａｍ　Ｓ
ｐｅａｋｅｒ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）発声者ｉのバイグラム話者モデルを図２Ｂに示す。バイ
グラム話者モデルでは、入力記号ｙｔ　の遷移確率は、
直前の入力記号ｙｔ−１　と入力記号ｙｔ　だけに依存
し、入力に対するバイグラム確率（Ｂｉｇｒａｍ　Ｐｒ
ｏｂａｂｉｌｉｔｙ）　は、　　　　｛Ｑ（ｉ）（ｙｔ
−１，　ｙｔ）　｝：ｙｔ−１，ｙｔ　∈Ｖ，発声者ｉ
（ｉ＝１，…，Ｌ）で表すことができ、このモデルも発
声者ｉの発声した音声データを用いて推定される。この
バイグラム話者モデルを用いて、図５Ａに示したユニバ
ーサルコードブック１２の空間を、発声者ｉの入力記号
のバイグラムマルコフ確率｛Ｑ（ｉ）（ｙｔ−１，ｙｔ
　）｝により制約することを、考えることになる。

【００１４】よって、図５Ｂの不特定話者音韻／単語Ｈ
ＭＭよりなるユニバーサルコードブック１２の空間を図
２Ｂのバイグラム話者モデルで制約したバイグラム話者
制約音韻／単語ＨＭＭは、図３Ａに示すような話者制約
音韻／単語ＨＭＭとして表すことができる。発声者ｉの
入力記号ｙｔ　に対する音韻／単語ＨＭＭの状態ｋから
１への出力確率、Ｐ（ｉ）ｋ１（ｙｔ｜ｙｔ−１）は、
次式のように計算することができる。

【００１５】

【数２】

【００１６】このように音韻／単語ＨＭＭの出力確率を
バイグラム話者モデルの入力記号の遷移確率を用いて変
更し、話者制約音韻／単語ＨＭＭを作成することができ
る。（ｉｉｉ）　トライグラム話者モデル　（Ｔｒｉｇｒａ
ｍ　Ｓｐｅａｋｅｒ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）発声者ｉのトライグラム話者モデルを図２Ｃに示す。ト
ライグラム話者モデルでは、入力記号ｙｔ　の遷移確率
は、直前の入力記号列ｙｔ−２　，ｙｔ−１　と入力記
号ｙｔ　だけに依存し、入力に対するトライグラム確率
（Ｔｒｉｇｒａｍ　Ｐｒｏｂａｂｉｌｉｔｙ）は、　　｛Ｑ（ｉ）（ｙｔ−２，ｙｔ−１，ｙｔ）　｝：ｙ
ｔ−２，ｙｔ−１，ｙｔ∈Ｖ，発声者ｉ（ｉ＝１，…，
Ｌ）で表すことができ、発声者ｉの発声した音声データを用
いて推定される。このトライグラム話者モデルを用いて
、図５Ａに示したユニバーサルコードブックの空間を発
声者ｉの入力記号のトライグラムマルコフ確率｛Ｑ（ｉ
）（ｙｔ−２，ｙｔ−１，ｙｔ　）｝により制約するこ
とを、考えることになる。

【００１７】よって、図５Ｂの不特定話者音韻／単語Ｈ
ＭＭよりなるユニバーサルコードブック１２の空間を図
２Ｃのトライグラム話者モデルで制約したトライグラム
話者制約音韻／単語ＨＭＭは、図３Ｂのような話者制約
音韻／単語ＨＭＭとして表すことができる。発声者ｉの
入力記号ｙｔ　に対する音韻／単語ＨＭＭの状態ｋから
１への出力確率、Ｐ（ｉ）ｋ１（ｙｔ｜ｙｔ−２　ｙｔ
−１）は、次式のように計算することができる。

【００１８】

【数３】

【００１９】このように音韻／単語ＨＭＭの出力確率を
トライグラム話者モデルの入力記号の遷移確率を用いて
変更し、話者制約音韻／単語ＨＭＭを作成することがで
きる。ユニグラム、バイグラム、トライグラムなどで表
される話者の特徴を表す話者マルコフモデルと不特定話
者音韻／単語ＨＭＭとを合成して、話者制約音韻／単語
ＨＭＭを作成する手順を、図５Ｂの簡単な不特定話者音
韻／単語ＨＭＭを用いて説明したが、複雑なＨＭＭとの
合成においても、まったく同様に行うことができる。

【００２０】

【実施例】図４は、この発明の一実施例を示すブロック
図である。入力端子１から入力された音声は、特徴抽出
部２においてディジタル信号に変換され、かつＬＰＣケ
プストラム分析されたのち、フレーム（１０ミリ秒）ご
とにユニバーサルコードブックによってベクトル量子化
される。話者マルコフモデルの学習部３では、あらかじ
め蓄えた複数の話者マルコフモデルから、もっとも尤度
の高い話者マルコフモデルを選び、かつ、入力音声によ
ってもそのマルコフモデルへの追加学習を行う。次に、
話者制約音韻ＨＭＭの合成部４で、その話者の特徴を表
す話者マルコフモデルと不特定話者音韻モデルＨＭＭ５
とから話者制約音韻ＨＭＭを前記（ｉ），（ｉｉ），（
ｉｉｉ）の何れかにより合成する。連続音声認識部６は
、この合成した話者制約音韻ＨＭＭを用いて、入力音声
の発声内容を認識し、認識結果７を出力する。

【００２１】話者マルコフモデルの学習では、トライグ
ラムモデル等での推定パラメータの多さに対処し、話者
マルコフモデルを頑健にするために、ファジィベクトル
量子化や削除補間法（例えば、鹿野「統計的手法による
音声認識」電子情報通信学会誌、Ｖｏ．７３，Ｎｏ．１
２，ｐｐ１２７６−１２８５，（１９９０．１２））が
有効に利用できる。

【００２２】

【発明の効果】以上述べたように、この発明によれば、
話者マルコフモデルを用いることにより、不特定話者用
の音韻／単語ＨＭＭを、発声者特有の空間やスペクトル
の動きに制約することができ、高い認識率を達成するこ
とが可能となる。この方法により、発声者が、特定話者
用の音韻／単語ＨＭＭを作成するために、多量の音声デ
ータを発生する必要がなくなる。この方法によれば、少
量の任意の音声データによって、話者マルコフモデルを
選択し、かつ、追加学習で話者マルコフモデルを適応化
し、この話者マルコフモデルと音韻／単語ＨＭＭとを合
成することによって、高精度な特定話者用の音韻／単語
ＨＭＭの作成が可能となる。

【００２３】上述では、離散ＨＭＭを主体として説明し
たが、この発明方法は、ファジィベクトル量子化ベース
のＨＭＭ，連続分布のＨＭＭに対しても同様に適用する
ことができる。同様にして、この発明は、マルコフモデ
ルとＨＭＭで制約された条件を満たす音声認識方式一般
に適用でき、例えば、雑音環境、マイクロフォンの種類
等への適応等に用い、認識性能を向上させることができ
る。つまり、例えばマイクロフォンの特性を表すマルコ
フモデルと音韻性を表すＨＭＭとを合成することにより
、様々な特性のマイクロフォンに対処できる不特定話者
音声認識の認識性能を向上できる。その他、音声認識以
外でも、制約条件がマルコフモデルとＨＭＭで与えられ
る対象に適用することができる。

【図面の簡単な説明】

【図１】この発明に用いる話者制約音韻／単語ＨＭＭの
一例であるユニグラム話者制約音韻／単語ＨＭＭを示す
図。

【図２】話者マルコフモデルをそれぞれ示し、Ａはユニ
グラム話者モデル、Ｂはバイグラム話者モデル、Ｃはト
ライグラム話者モデルである。

【図３】話者制約音韻／単語ＨＭＭを示し、Ａはバイグ
ラム話者制約音韻／単語ＨＭＭ，Ｂはトライグラム話者
制約音韻／単語ＨＭＭである。

【図４】この発明方法を適用した音声認識装置の例を示
すブロック図。

【図５】Ａはユニバーサルコードブックと話者固有のコ
ードブック空間との関係を示す図、Ｂは不特定話者単語
／音韻のＨＭＭの簡単な例を示す図である。

Claims

【特許請求の範囲】

【請求項１】　　不特定話者音声認識方法において、不
特定話者用の音韻／単語を表す隠れマルコフモデルと、
話者の特徴を表すマルコフモデルとを合成し、その合成
モデルを用いて上記話者の音声認識を行うことを特徴と
する音声認識方法。