JPH04318600A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH04318600A
JPH04318600A JP8549991A JP8549991A JPH04318600A JP H04318600 A JPH04318600 A JP H04318600A JP 8549991 A JP8549991 A JP 8549991A JP 8549991 A JP8549991 A JP 8549991A JP H04318600 A JPH04318600 A JP H04318600A
Authority
JP
Japan
Prior art keywords
speaker
hmm
phoneme
word
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8549991A
Other languages
English (en)
Inventor
Kiyohiro Kano
清宏 鹿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP8549991A priority Critical patent/JPH04318600A/ja
Publication of JPH04318600A publication Critical patent/JPH04318600A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、隠れマルコフモデル
を用い、不特定話者大語彙連続音声認識に適用して認識
性能を向上させるようにした音声認識方法に関する。
【0002】
【従来の技術】隠れマルコフモデル(例えば中川聖一「
確率モデルによる音声認識」電子情報通信学会編(19
88))による不特定話者音声認識では、多くの発声者
からの音声スペクトルをもとに作成された符号帳(コー
ドブック)を用いることが多い。このコードブックは、
ユニバーサルコードブックとよばれている。しかしなが
ら、図5Aに示すようにある特定の話者のコードブック
の空間11は、図5Aに示すようにユニバーサルコード
ブック12の部分空間となっている。また、コードブッ
ク12内でのコードワードの動きも話者ごとに特有であ
る。
【0003】このような事実にもかかわらず、隠れマル
コフモデル(HMM)による不特定話者音声認識では、
ユニバーサルコードブック12を用い、多数の話者から
の多量の音声データを用いて単語あるいは音韻単位の隠
れマルコフモデルを作成していた。よって、話者固有の
コードブックの空間11の制約は一切考えられてなく、
様々な副作用を起こしており、不特定話者大語彙連続音
声認識での認識性能の劣化となっていた。
【0004】
【課題を解決するための手段】この発明によれば、不特
定話者用の音韻/単語を表す隠れマルコフモデルと、話
者の特徴を表すマルコフモデルとを合成し、その合成モ
デルを用いてその話者の音声認識を行う。つまり、この
発明による発声者を考慮した統計的な連続音声認識の基
本の式は、以下のように書かれる。こゝでSに関する項
がこの発明で導入されたものである。
【0005】     P(W,S|Y)=P(W,S)P(Y|W,
S)/P(Y)                  
  =P(S)P(W|S)P(Y|W,S)/P(Y
)こゝで、 W:単語列 S:発声者 Y:入力音声のベクトル系列 P(S):発声者Sがこの音声認識装置を用いている確
率 P(W|S):発声者Sがある単語列Wを発生する確率
とみなされ、発声者Sによる統計的言語モデル(例えば
、鹿野「統計的手法による音声認識」電子情報通信学会
誌、Vo.73,No.12,pp1276−1285
,(1990.12))である。
【0006】P(Y|W,S):発生内容Wで発声者S
での入力音声のベクトル系列Yの確率(音響モデル)よ
って、統計的な連続音声認識の問題は、max  {P
(S)P(W|S)P(Y|W,S)}W,S となる単語列Wを発声者の情報Sを利用して推定するこ
ととなる。
【0007】ここで、P(S)は、発声者Sがこの音声
認識装置を用いている確率を表す。さらに、発声者Sに
よる音響モデル(単語/音韻モデル)P(Y|W,S)
を隠れマルコフモデル(HMM)でモデル化することを
考える。発声者ごとに単語/音韻の音声データを大量に
発生すれば、発声者ごとの単語/音韻のHMMを作成す
ることができるが、通常は、全ての発声者に音声データ
を大量に発生させることは、現実的ではない。よって、
通常行われているように、多数の発声者からの音声デー
タを用いて作成された単語/音韻のHMMP(Y|W) を用いて、このP(Y|W)について話者固有のコード
ブックの空間を制限し、話者制約音韻/単語HMMを作
成することを考える。以下、話者固有のコードブックの
空間やコードワードの動きを表すのにもマルコフモデル
を用いることを考える。
【0008】まず、不特定話者単語/音韻のHMMとし
て、左から右への遷移をもつ図5Bに示すようなHMM
を考える。この単語/音韻のHMMを     Mpj =(Upj ,V,Tpj ,Ppj
 ,Ipj ,Fpj ) :単語/音韻j(j=1,
…,M). と表す。
【0009】こゝで、Upj :状態の集合V:入力ベ
クトル(入力記号)の集合 Tpj :遷移確率の集合 Ppj :出力確率の集合 Ipj :初期状態 Fpj :最終状態 また、入力記号系列を Y=y1 y2 …yt …yN  で表す。この図では、3つの状態(A,B,C)をもち
、2つの自己ループをもつHMMである。このHMMモ
デルの遷移確率をtAB(状態AからBへの遷移確率)
と表し、入力記号(コードワード)yt に対する出力
確率をpAB(yt )(状態AからBへの出力確率)
で表す。これらは多数の話者の音声データによって推定
される。
【0010】話者性、つまり話者の特徴を表すマルコフ
モデルとして、以下の(i)ユニグラム話者モデル、(
ii)バイグラム話者モデル、(iii)トライグラム
話者モデルの3種類のマルコフモデルを考える。 (i)ユニグラム話者モデル(Unigram Spe
aker Markov Model) 発声者iのユニグラム話者モデルを図2Aに示す。ユニ
グラム話者モデルでは、入力記号yt の遷移確率は、
入力記号yt だけに依存し、入力yt に対するユニ
グラム確率(Unigram Probability
) は、    {Q(i)(yt) }:yt ∈V
,発声者i=(i=1,…,L)と表すことができ、こ
のユニグラム話者モデルは発声者iの発声した音声デー
タを用いて推定される。このユニグラム話者モデルを用
いて、図5Aに示すユニバーサルコードブック12の空
間を、発声者iの入力記号の生成確率{Q(i)(yt
 )}により制約することを、考えることになる。
【0011】よって、図5Bの不特定話者音韻/単語H
MMよりなるユニバーサルコードブック12の空間を図
2Aのユニグラム話者モデルで制約したユニグラム話者
制約音韻/単語HMMは、図1に示すような話者制約音
韻/単語HMMとして表すことができる。発声者iの入
力記号yt に対する音韻/単語HMMの状態kから1
への出力確率、P(i)k1(yt) は、次式のよう
に計算することができる。
【0012】
【数1】
【0013】このように音韻/単語HMMの出力確率を
ユニグラム話者モデルの入力記号の遷移確率を用いて変
更し、話者制約音韻/単語HMMを作成することができ
る。 (ii)  バイグラム話者モデル(Bigram S
peaker Markov Model) 発声者iのバイグラム話者モデルを図2Bに示す。バイ
グラム話者モデルでは、入力記号yt の遷移確率は、
直前の入力記号yt−1 と入力記号yt だけに依存
し、入力に対するバイグラム確率(Bigram Pr
obability) は、    {Q(i)(yt
−1, yt) }:yt−1,yt ∈V,発声者i
(i=1,…,L)で表すことができ、このモデルも発
声者iの発声した音声データを用いて推定される。この
バイグラム話者モデルを用いて、図5Aに示したユニバ
ーサルコードブック12の空間を、発声者iの入力記号
のバイグラムマルコフ確率{Q(i)(yt−1,yt
 )}により制約することを、考えることになる。
【0014】よって、図5Bの不特定話者音韻/単語H
MMよりなるユニバーサルコードブック12の空間を図
2Bのバイグラム話者モデルで制約したバイグラム話者
制約音韻/単語HMMは、図3Aに示すような話者制約
音韻/単語HMMとして表すことができる。発声者iの
入力記号yt に対する音韻/単語HMMの状態kから
1への出力確率、P(i)k1(yt|yt−1)は、
次式のように計算することができる。
【0015】
【数2】
【0016】このように音韻/単語HMMの出力確率を
バイグラム話者モデルの入力記号の遷移確率を用いて変
更し、話者制約音韻/単語HMMを作成することができ
る。 (iii) トライグラム話者モデル (Trigra
m Speaker Markov Model) 発声者iのトライグラム話者モデルを図2Cに示す。ト
ライグラム話者モデルでは、入力記号yt の遷移確率
は、直前の入力記号列yt−2 ,yt−1 と入力記
号yt だけに依存し、入力に対するトライグラム確率
(Trigram Probability)は、   {Q(i)(yt−2,yt−1,yt) }:y
t−2,yt−1,yt∈V,発声者i(i=1,…,
L) で表すことができ、発声者iの発声した音声データを用
いて推定される。このトライグラム話者モデルを用いて
、図5Aに示したユニバーサルコードブックの空間を発
声者iの入力記号のトライグラムマルコフ確率{Q(i
)(yt−2,yt−1,yt )}により制約するこ
とを、考えることになる。
【0017】よって、図5Bの不特定話者音韻/単語H
MMよりなるユニバーサルコードブック12の空間を図
2Cのトライグラム話者モデルで制約したトライグラム
話者制約音韻/単語HMMは、図3Bのような話者制約
音韻/単語HMMとして表すことができる。発声者iの
入力記号yt に対する音韻/単語HMMの状態kから
1への出力確率、P(i)k1(yt|yt−2 yt
−1)は、次式のように計算することができる。
【0018】
【数3】
【0019】このように音韻/単語HMMの出力確率を
トライグラム話者モデルの入力記号の遷移確率を用いて
変更し、話者制約音韻/単語HMMを作成することがで
きる。ユニグラム、バイグラム、トライグラムなどで表
される話者の特徴を表す話者マルコフモデルと不特定話
者音韻/単語HMMとを合成して、話者制約音韻/単語
HMMを作成する手順を、図5Bの簡単な不特定話者音
韻/単語HMMを用いて説明したが、複雑なHMMとの
合成においても、まったく同様に行うことができる。
【0020】
【実施例】図4は、この発明の一実施例を示すブロック
図である。入力端子1から入力された音声は、特徴抽出
部2においてディジタル信号に変換され、かつLPCケ
プストラム分析されたのち、フレーム(10ミリ秒)ご
とにユニバーサルコードブックによってベクトル量子化
される。話者マルコフモデルの学習部3では、あらかじ
め蓄えた複数の話者マルコフモデルから、もっとも尤度
の高い話者マルコフモデルを選び、かつ、入力音声によ
ってもそのマルコフモデルへの追加学習を行う。次に、
話者制約音韻HMMの合成部4で、その話者の特徴を表
す話者マルコフモデルと不特定話者音韻モデルHMM5
とから話者制約音韻HMMを前記(i),(ii),(
iii)の何れかにより合成する。連続音声認識部6は
、この合成した話者制約音韻HMMを用いて、入力音声
の発声内容を認識し、認識結果7を出力する。
【0021】話者マルコフモデルの学習では、トライグ
ラムモデル等での推定パラメータの多さに対処し、話者
マルコフモデルを頑健にするために、ファジィベクトル
量子化や削除補間法(例えば、鹿野「統計的手法による
音声認識」電子情報通信学会誌、Vo.73,No.1
2,pp1276−1285,(1990.12))が
有効に利用できる。
【0022】
【発明の効果】以上述べたように、この発明によれば、
話者マルコフモデルを用いることにより、不特定話者用
の音韻/単語HMMを、発声者特有の空間やスペクトル
の動きに制約することができ、高い認識率を達成するこ
とが可能となる。この方法により、発声者が、特定話者
用の音韻/単語HMMを作成するために、多量の音声デ
ータを発生する必要がなくなる。この方法によれば、少
量の任意の音声データによって、話者マルコフモデルを
選択し、かつ、追加学習で話者マルコフモデルを適応化
し、この話者マルコフモデルと音韻/単語HMMとを合
成することによって、高精度な特定話者用の音韻/単語
HMMの作成が可能となる。
【0023】上述では、離散HMMを主体として説明し
たが、この発明方法は、ファジィベクトル量子化ベース
のHMM,連続分布のHMMに対しても同様に適用する
ことができる。同様にして、この発明は、マルコフモデ
ルとHMMで制約された条件を満たす音声認識方式一般
に適用でき、例えば、雑音環境、マイクロフォンの種類
等への適応等に用い、認識性能を向上させることができ
る。つまり、例えばマイクロフォンの特性を表すマルコ
フモデルと音韻性を表すHMMとを合成することにより
、様々な特性のマイクロフォンに対処できる不特定話者
音声認識の認識性能を向上できる。その他、音声認識以
外でも、制約条件がマルコフモデルとHMMで与えられ
る対象に適用することができる。
【図面の簡単な説明】
【図1】この発明に用いる話者制約音韻/単語HMMの
一例であるユニグラム話者制約音韻/単語HMMを示す
図。
【図2】話者マルコフモデルをそれぞれ示し、Aはユニ
グラム話者モデル、Bはバイグラム話者モデル、Cはト
ライグラム話者モデルである。
【図3】話者制約音韻/単語HMMを示し、Aはバイグ
ラム話者制約音韻/単語HMM,Bはトライグラム話者
制約音韻/単語HMMである。
【図4】この発明方法を適用した音声認識装置の例を示
すブロック図。
【図5】Aはユニバーサルコードブックと話者固有のコ
ードブック空間との関係を示す図、Bは不特定話者単語
/音韻のHMMの簡単な例を示す図である。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  不特定話者音声認識方法において、不
    特定話者用の音韻/単語を表す隠れマルコフモデルと、
    話者の特徴を表すマルコフモデルとを合成し、その合成
    モデルを用いて上記話者の音声認識を行うことを特徴と
    する音声認識方法。
JP8549991A 1991-04-17 1991-04-17 音声認識方法 Pending JPH04318600A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8549991A JPH04318600A (ja) 1991-04-17 1991-04-17 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8549991A JPH04318600A (ja) 1991-04-17 1991-04-17 音声認識方法

Publications (1)

Publication Number Publication Date
JPH04318600A true JPH04318600A (ja) 1992-11-10

Family

ID=13860628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8549991A Pending JPH04318600A (ja) 1991-04-17 1991-04-17 音声認識方法

Country Status (1)

Country Link
JP (1) JPH04318600A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5205173A (en) * 1991-06-21 1993-04-27 Palmer Environmental Services Method and apparatus for detecting leaks in pipelines using cross-correlation techniques

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5205173A (en) * 1991-06-21 1993-04-27 Palmer Environmental Services Method and apparatus for detecting leaks in pipelines using cross-correlation techniques

Similar Documents

Publication Publication Date Title
JP2826215B2 (ja) 合成音声生成方法及びテキスト音声合成装置
JP4274962B2 (ja) 音声認識システム
Ghai et al. Literature review on automatic speech recognition
JP2733955B2 (ja) 適応型音声認識装置
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
WO2016190077A1 (ja) 音声認識装置及びコンピュータプログラム
JPH0555040B2 (ja)
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP2007500367A (ja) 音声認識方法およびコミュニケーション機器
JPH06214587A (ja) 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法
US5943647A (en) Speech recognition based on HMMs
JP3535292B2 (ja) 音声認識システム
Zgank et al. Predicting the acoustic confusability between words for a speech recognition system using Levenshtein distance
Badhon et al. State of art research in bengali speech recognition
JPH08211897A (ja) 音声認識装置
Lévy et al. Reducing computational and memory cost for cellular phone embedded speech recognition system
JPH10254473A (ja) 音声変換方法及び音声変換装置
JPH04318600A (ja) 音声認識方法
JP3036706B2 (ja) 音声認識方法
Krut et al. Service-oriented architectures and software product lines-putting both together
Takahashi et al. Interactive voice technology development for telecommunications applications
JP2003271180A (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
Thalengala et al. Performance Analysis of Isolated Speech Recognition System Using Kannada Speech Database.
JP3144341B2 (ja) 音声認識装置
Miyazawa An all-phoneme ergodic HMM for unsupervised speaker adaptation