JP2980228B2 - 音声認識用音響モデル生成方法 - Google Patents

音声認識用音響モデル生成方法

Info

Publication number
JP2980228B2
JP2980228B2 JP6284135A JP28413594A JP2980228B2 JP 2980228 B2 JP2980228 B2 JP 2980228B2 JP 6284135 A JP6284135 A JP 6284135A JP 28413594 A JP28413594 A JP 28413594A JP 2980228 B2 JP2980228 B2 JP 2980228B2
Authority
JP
Japan
Prior art keywords
model
division
speech recognition
acoustic model
signal sources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP6284135A
Other languages
English (en)
Other versions
JPH08123464A (ja
Inventor
淳一 鷹見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP6284135A priority Critical patent/JP2980228B2/ja
Priority to US08/547,794 priority patent/US5799277A/en
Publication of JPH08123464A publication Critical patent/JPH08123464A/ja
Application granted granted Critical
Publication of JP2980228B2 publication Critical patent/JP2980228B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識用音響モデル
生成方法に係わり、より特定的には、隠れマルコフモデ
ル(Hidden Markov Model :HMM)を用いた音声認識
において、必要最小限のモデルパラメータで最大限の音
声現象をモデル化するための各モデルの単位、状態ネッ
トワークの構造、信号源の複数状態間での共有構造およ
び信号源のパラメータを最適に決定するような音声認識
用音響モデル生成方法に関する。
【0002】
【従来の技術】現在の音声認識技術において隠れマルコ
フモデル(以下、HMMと記載する)は、その優れた認
識性能や扱い易さの点から広く使用されている手法の一
つである。このHMMを用いての高精度かつ頑健な音声
認識を行なうためには、モデルの詳細さと頑健性を如何
にして両立させるかが重要な課題となる。モデルの詳細
化のためには、音声空間全体を覆い尽くすような音素コ
ンテキストカテゴリを適切に決める必要があり、また限
られた学習用音声サンプルから頑健性の高いモデルを推
定するためには、モデルパラメータの冗長性を削減し、
必要最小限のモデルパラメータで音声の本質的な情報の
みを効率良く表現するようなメカニズムを導入する必要
がある。最近では、音素の音響パターンを変動させる要
因となる先行音素や後続音素等の音素環境まで考慮し
た、いわゆる異音を認識の基本単位とするHMMも提案
されている。しかし、異音を認識の単位とする場合に
は、音素を単位とする場合に比べてモデルの数が大幅に
増加するため、学習用サンプル数に制約がある場合のモ
デル学習が一つの大きな問題となる。
【0003】このような問題から、状態分割のみにより
適切なモデルを生成する逐次状態分割法(Successive S
tate Splitting:SSS)が、特開平6−202687
号公報により提案されている。この逐次状態分割法(以
下、SSSと記載する)は、小規模な初期モデルから始
め、音素環境要因の直積空間に対する逐次二分割という
ガイドラインに沿って状態の分割を繰り返しながら、モ
デルの詳細化を進めていく手法である。このSSSのよ
うな分割型手法の大きな利点は、音素環境カテゴリを各
環境要因の直積として定義できる点、及び分割の過程で
その階層構造を得ることができる点にある。
【0004】
【発明が解決しようとする課題】ところで、HMMを用
いた音声認識においては、従来ではモデルの単位、モデ
ルの構造およびモデルパラメータの推定が、それぞれ独
立に、別々の評価基準の下で決定される場合がほとんど
であり、また、多くの場合、モデルの単位やモデルの構
造は、先見的な知識や経験を頼りに行なわれていた。こ
の場合、最適性の保証がなく、また再現性についても問
題があった。上記SSSを用いた場合には、このような
問題は回避できるものの、SSSは状態に対する逐次2
分割のみの処理に基づくものであったため、達成される
状態ネットワークの構造に限界があり、モデルパラメー
タから冗長性を完全に排除することができないのであ
る。例えば、図4(A)に示すような、特徴Aと特徴
B、及び特徴Bに良く似たB' と特徴Aに良く似た特徴
A' が、それぞれこの順で並んだ2通りの信号系列をモ
デル化する場合を考えると、同図(B)に示すように4
つの分布となってしまう。特徴AとA' 及びBとB'
は、共有できる可能性もあるが、上記SSSでは、状態
分割のみによりモデルを生成する手法であるので、特徴
が良く似た信号源の共有化を行うことができず、モデル
パラメータから冗長性を完全には排除できなかったので
ある。
【0005】そこで、本発明は上記の点に着目してなさ
れたものであり、状態に対する逐次2分割のみでモデル
の生成を行なうSSSの欠点を克服するために、信号源
に対する分割処理と融合処理を同時に実現し、それらの
うちの一方を逐次選択しながら処理を進めることで、S
SSの利点を失うことなく、より柔軟な状態ネットワー
クの構造の実現を可能にし、必要最小限のモデルパラメ
ータで最大限の音声現象を高精度かつ頑健に表現するこ
とのできる表現効率の高い音声認識用音響モデルの生成
方法を提供することを目的とするものである。
【0006】
【課題を解決するための手段】この発明は、音声の特徴
パターンの微小単位時間内での形状である音声の静的特
徴およびその時間的な変化である音声の動的特徴を複数
の信号源の連鎖としてモデル化した隠れマルコフモデル
を用いる音声認識処理のための、音素コンテキストに依
存した音響モデルを生成する方法であって、全学習用サ
ンプルを用いて生成した小規模な初期モデルから始め、
繰り返し処理の各時点で存在している全ての信号源の中
の最も適切な2つを融合した場合に達成される全学習用
サンプルに対する評価値が、それ以前に計算されている
同数の信号源を持つモデルから得られた評価値を上回る
場合には融合処理の結果を採用する。また、もし融合処
理結果が採用されなかったならば、改めて分割処理を行
なう。この分割処理は、信号源自体の分割だけでなく、
状態に対して複数状態間での信号源の共有構造の組み替
え、音素コンテキスト方向への状態分割、時間方向への
状態分割のうち全学習用サンプルに対する評価値を最大
化するものを採用して処理を進める。以上の信号源に対
する融合と分割を繰り返しながら、モデル全体での信号
源数が、所定の値に達するまで処理を続ける。その後、
各出力確率分布の形状を実際に使用したい形状に変更す
るための処理を行なう。なお、この各出力確率分布形状
の変更処理は省略してもよい。
【0007】そこで、上記目的を達成するための第一の
発明は、「音声の特徴パターンの微小時間内での形状で
ある音声の静的特徴およびその時間的な変化である音声
の動的特徴を1つの出力確率分布と1組の状態遷移確率
から成る信号源の連鎖としてモデル化した隠れマルコフ
モデルを用いる音声情報処理のための、音素コンテキス
トに依存した音声認識用音響モデル生成方法であって、
少ない信号源を持つ初期モデルに対する信号源の分割処
理または融合処理を逐次選択しながら繰り返すことによ
って、モデルの単位である音素コンテキストカテゴリ、
各モデルを表現するために用いる状態の数と複数モデル
間での共有関係、複数状態間での各信号源の共有関係、
および各出力確率分布の形状を、すべて共通の評価基準
の下で決定することを特徴とする音声認識用音響モデル
生成方法」を提供しようとするものである。
【0008】また、上記目的を達成する第二の発明は、
「請求項1、請求項2または請求項3に記載の音声認識
用音響モデル生成方法において、前記融合処理を分割処
理に先だって試行し、融合処理の結果達成された学習サ
ンプルに対する評価値が、それ以前に既に得られている
融合処理の結果得られたモデルと同数の信号源を持つモ
デルから計算された評価値よりも高い場合にのみ融合処
理結果を採用し、それ以外の場合には前記融合処理の結
果を破棄してこの融合処理を行う前のモデルを用いて改
めて分割処理を行なうことを特徴とする音声認識用音響
モデル生成方法」を提供しようとするものである。
【0009】また、上記目的を達成する第三の発明は、
「請求項1に記載の音声認識用音響モデル生成方法にお
いて、前記分割処理は、信号源を2つに分割すると共に
分割の対象となる信号源を共有している複数の状態間で
の共有構造を再構成する第一の分割方法と、音素コンテ
キストの違いによる音声の静的特徴の変動を吸収するた
めに1つの状態を異なる音素コンテキストカテゴリに対
応する2つの状態として並列方向に分割する第二の分割
方法と、ある音素コンテキストカテゴリ内で生じている
音声の動的特徴の変動を吸収するために1つの状態を異
なる音声区間に対応する2つの状態として直列に分割す
る第三の分割方法とを同時に含み、実際の音声サンプル
に対して高い評価値を達成する分割方法を逐次選択する
ことを特徴とする音声認識用音響モデル生成方法」を提
供しようとするものである。
【0010】
【作用】この発明は、信号源の融合と分割を全学習用サ
ンプルに対する評価値の最大化という基準の下で行なう
ことによって、信号源数は局所的には増減しながら、大
局的には徐々に増加していく。その結果、モデルの精密
化が逐次的に行なわれ、最終的には、各モデルの単位や
状態ネットワークの構造、信号源の複数状態間での共有
構造および出力確率分布のパラメータが、すべて共通の
評価基準の下で最適に決定された音響モデルを自動的に
生成することができる。
【0011】
【実施例】本発明の音声認識用音響モデル生成方法は、
音声の特徴パターンの微小単位時間内での形状(音声の
静的特徴)およびその時間的な変化(音声の動的特徴)
を複数の信号源の連鎖として表現した確率モデルに対し
て、共通の評価基準(尤度最大化)に基づいて個々の出
力確率分布を融合あるいは分割するといった処理を繰り
返すことによって、モデルの単位と状態ネットワークの
構造、信号源の複数状態間での共有構造および出力確率
分布のパラメータを同時かつ自動的に決定するものであ
る。
【0012】最初に、本発明の音声認識用音響モデル生
成方法(以下、本方法と記載することもある)の上記S
SSと異なる処理について説明する。第1に、本方法で
は、分割処理と融合処理の逐次選択を行っている。本方
法では、繰り返し計算の度に、分割処理と融合処理のう
ち、どちらが学習用サンプル全体に対する尤度の向上に
効果的であるかを判定しながら適切な処理を逐次選択し
ている。即ち、適切な二つの信号源を融合させ、学習用
サンプル全体に対する総尤度を計算する。得られた総尤
度が、融合後のモデルと同数の信号源を持つモデルによ
って既に計算されている総尤度よりも大きい場合にの
み、融合処理の結果を採用する。一方、融合処理の結果
が採用されなかった場合には、融合処理前のモデルに遡
って、改めて分割処理を行う。融合処理により信号源を
融合すれば状態数が減り、モデル適合度が下がることも
あるので融合処理の結果を採用しないこともあるが、信
号源を分割すれば状態数が増えてモデルの適合度が増加
することになるので、分割処理の結果は無条件に採用す
ることになる。なお、上記分割処理と融合処理の逐次選
択を行うため、本実施例では、繰り返し計算の度に、そ
の時点での信号源の総数と、学習用サンプル全体に対す
る総尤度との関係をメモリ上に保存しながら処理を進め
ている。
【0013】第2に、信号源の融合処理を行っている。
この信号源の融合処理は、上記SSSにはなく、本方法
では信号源を融合することでモデルパラメータから冗長
性を排除しているのである。具体的には、以下の処理を
行っている(図2参照)。融合の対象となる二つの信号
源を選択し(図2(A))、選択された二つの信号源を
融合し、新たな一つの信号源を合成する(図2
(B))。そして、融合対象となった信号源へのポイン
タを有したすべてのポインタに対し、基のポインタを新
たに合成された信号源へのものに置き換える(図2
(C))。
【0014】更に、第3に、上記SSSとは異なる信号
源の分割処理を行っている。この信号源の分割について
は、上記SSSと基本的にはほぼ同様の処理であるが、
SSSでは、状態と信号源とが一対一に対応していたHM
net を扱っているため、複数の状態を共有した信号源に
対する分割については考慮されていない。そこで、本方
法では、このような場合の分割処理を以下の処理により
行っている(図3参照)。即ち、分割対象となる信号源
を選択する(図3(A))。そして、分割対象の信号源
(2混合分布)を二つの単一分布に分けて、その信号源
を共有していた各状態に、それぞれ単一分布のうちいず
れか一方を割り当てる(図3(B))。更に、必要に応
じて共有元の状態のうちの一つを、音素コンテキスト方
、または時間方向に分割する(図3(C))。なお、
図3(B)に示す各状態への単一分布の振り方や、同図
(C)に示す分割対象とその分割方向、及び同図(B)
の状態で打ち切るか同図(C)の状態まで行うかについ
ては、すべて尤度最大化の基準の下で決定する。また、
分割対象信号源が一つの状態で占有されている場合に
は、従来通り、同図(C)に示す処理(音素コンテキス
ト方向または時間方向の分割処理)のみを行う。
【0015】次に、添付図面を参照して本発明の一実施
例を説明する。図1は、本発明の音声認識用音響モデル
生成方法の処理フローを示す図である。まず、ステップ
1では、初期モデルとして小規模なモデル(モデル全体
で使用されている信号源の総数M=1)を用意する。こ
れは例えば、1個の状態(固有の音素コンテキストカテ
ゴリに対応付けられたモデル構成上の概念)と1個の信
号源(出力確率分布および状態遷移確率からなるモデル
の最小構成要素)を持つものである。そして、上記M=
1の初期モデルをすべての学習用音素サンプルを用いて
学習する。更に、モデル全体で使用されている信号源の
総数を表す変数Mに1を代入し、信号源数が1の時点で
の総尤度を現すP(1) に、学習時に計算された総尤度を
代入する(ステップ2)。以降、この信号源に対して、
分割と融合を繰り返し行なう。
【0016】ステップ3に示す本方法の実行中に形成さ
れるモデルは、隠れマルコフ網(Hidden Markov Networ
k :HMnet )と呼ばれ、複数の状態のネットワークとし
て表すことができる。なお、このステップ3に示すHMne
t は、実行中に形成されるモデルの一例を示してあり、
説明を簡単にするため、モデル全体で使用されている信
号源の数M=4で、その状態が信号源を共有していない
モデルである。このHMnet は、以下の情報により構成さ
れている。 (1)HMnet の構成要素: ・信号源の集合。 ・状態の集合。 (2)信号源の構成要素: ・信号源の番号(インデックス)。 ・出力確率分布(対角共分散行列表現の2混合ガウス分
布)。 ・自己ループ確率および次状態への遷移確率。 (3)状態の構成要素: ・状態の番号(インデックス)。 ・信号源へのポインタ(信号源番号)。 ・受理可能な音素コンテキストカテゴリ。 ・先行状態および後続状態のリスト。
【0017】次に、上記ステップ3のモデルに対し融合
すべき信号源の選定を行う(ステップ4)。融合すべき
信号源の選択では、信号源間の類似性を判定するため
に、融合処理によって生成される信号源の出力確率分布
の大きさを評価尺度として利用する。2つの信号源Q
(i) とQ(j) の全組合せに対し、それらの出力確率分布
(共に2混合分布)を融合した場合の分布の大きさDij
を、式(1)によって近似的に求める。
【0018】
【数1】
【0019】Dijの値が最小となる二つの信号源Q(i')
およびQ(j')を、融合処理の対象として選択する。
【0020】ステップ4にて融合する二つの信号源が選
択されたら、それら二つの信号源を融合する(ステップ
5)。信号源の融合は、2つの信号源Q(i')とQ(j')
融合し、新たな信号源Q(I)を作成することで行なう。
(I) の出力確率分布の第m混合成分(m=1,2)の
分岐確率λIm、平均値μImk 、分散σImk には、それぞ
れ式(3)〜式(5)で求められるλ' i' 、μ'
i'k 、σ'2i'k 、およびλ' j' 、μ' j'k 、σ'2
j'k を使用する。また、Q(I) の自己遷移確率aIself
後続状態への遷移確率aInextには、式(6)および式
(7)で求められる値をそれぞれ使用する。
【0021】
【数2】
【0022】この処理で得られたQ(I) は、融合前にQ
(i')、あるいはQ(j')が割り当てられていたすべての状
態で共有化する。そのための処理として、信号源へのポ
インタの値がi'、またはj'となっているすべての状態に
対し、その値をIに置き換える。この処理によって、モ
デル全体での信号源の数は一時的にM−1となる。
【0023】この時点で、信号源に対する融合処理の結
果得られたモデルを採用するか否かの判定を行なう(ス
テップ7)。融合処理結果は、融合処理後のモデルから
得られる総尤度(これをP'(M-1) と表す)が、これ以前
の処理過程で既に計算されている(ステップ6)、総分
布数がM−1の時点での尤度P(M-1) を越える場合にの
み採用される。この場合は、Mの値をM−1に変更し
(ステップ8)、モデルの再学習の処理(ステップ12)
へ進む。
【0024】融合処理の結果が採用されなかった場合に
は、ステップ5で融合したモデルを破棄し、ステップ5
で融合処理を行なう前のモデル(ステップ3で示すモデ
ル)を対象として分割処理のフェーズに入る。実際の分
割に先だって、分割の対象となる信号源の選定を行なう
(ステップ9)。すべての信号源Q(i) に対して、その
信号源の大きさdi を式(8)により算出し、di の値
の最も大きい信号源(これをQ(i')とする)を分割対象
として選定する。
【0025】
【数3】 なお、上記式(8)は、融合対象の信号源を選定する際
に使用する式(1)と同じ形式になっていることが分か
るが、これは、融合対象の選定と分割対象の選定が一貫
した基準の下で行われていることを意味している。
【0026】次に、M=M+1として(ステップ10)、
上記ステップ9にて選定された二つの信号源の分割及び
状態の再構成を行う(ステップ11)。Q(i')をQ(I) と
Q(J) の二つの信号源に分割する。この際に、これら二
つの状態に対して、Q(i')の2混合分布のそれぞれ一方
(単一分布)を出力確率分布として割り当て、Q(i')の
自己遷移確率および後続状態への遷移確率の値をそのま
ま複写する。この処理で、信号源の分割が完了する。な
お、信号源を分割した場合には、状態の再構成を同時に
行なう必要がある。状態の再構成は、信号源の共有構造
のみの組替えにより達成される最大尤度PD、一つの状
態を音素コンテキスト方向に分割した場合に達成される
最大尤度PC、一つの状態を時間方向に分割した場合に
達成される最大尤度PTのうち、より大きい値を示すも
のを採用する(ステップ11-4)といった方法で行なわれ
る。これら3通りの処理を行い、最適な分割方法を選択
しているのがステップ11である。以下、その詳細を説明
する。
【0027】ステップ11-1に示す信号源の共有構造のみ
の組替え(第一の分割方法)は、分割対象となった信号
源Q(i')が、複数の状態で共有されているものであった
場合にのみ行う必要がある処理である。この場合、これ
以降の状態分割処理(ステップ11-2、ステップ11-3)
は、すべてここでの処理の結果得られたモデルに対して
継続して行なう。また、Q(i')がただ一つの状態でのみ
使用されているものである場合には、ここでの処理を省
略し、PD の値を−∞として次の処理(ステップ11-4)
に進む。信号源Q(i')へのポインタを有する状態の集合
をSと表す。ここでは、Sの要素に対して、Q(I) とQ
(J) のいずれか一方を割り当てることで、信号源共有構
造の組替えを行なう。この割り当ては、式(10)で計算さ
れる最大値PD を求めることによって行なわれる。
【0028】
【数4】 D の値が求められた時点で、psI(Ys )>psJ(Y
s )ならば状態sにQ(I) を、そうでなければ状態sに
(J) を割り当てる。
【0029】また、ステップ11-2に示す音素コンテキス
ト方向への状態分割(第二の分割方法)は、Sの要素の
中の一つの状態sを二つの状態に分割し、それらを並列
に結合することにより行う。この場合、分割対象となっ
た状態を通る経路で表現されている学習用サンプルを、
新たに生成される状態を通る2通りの経路に振り分ける
必要がある。この振り分けは、状態sと、状態sにおい
て分割可能な音素環境要因(二つ以上の要素を持つ要
因)fに関して、式(11)によって計算されるPcを最大
化するような状態s' と要因f' を求め、f' に属する
要素を分割することにより行う。
【0030】
【数5】
【0031】分割すべき状態s' と、要因f' が求めら
れた時点で、f' の要素as'f'e をどちらの経路に振り
分けるかは、式(11)を計算する過程で既に得られている
I(ys'f'e )およびqJ (ys'f'e )の値を用い、
式(12)に従って決定する。
【0032】
【数6】
【0033】AIf′およびAJf′を定めた後、状態s'
を分割して新たに生成された二つの状態S(I')、および
S(J')に対して、以下の処理を行なう。まず、これらの
状態の信号源へのポインタに、それぞれIおよびJを代
入する。次に、それらの音素環境情報として、要因f'
に関する部分にはそれぞれAIf′およびAJf′を割当
て、f' 以外の要因fには、分割前の状態sで保有され
ていた要因fの内容をそのまま複写する。以上で、音素
コンテキスト方向への状態分割が完了する。
【0034】また、ステップ11-3に示す時間方向への状
態分割(第三の分割方法)は、Sの要素の中の一つの状
態sを二つの状態に分割し、それらを直列に結合するこ
とで行う。この場合、Q(I) とQ(J) のどちらを前方の
状態に割り当てるかによって2通りの可能性が考えられ
る。そこで、式(13)によって計算されるPT を最大化す
るような状態s' と信号源の適用順序を決定する。
【0035】
【数7】
【0036】この後、状態s' を分割して新たに生成さ
れた二つの状態S(I')及びS(J')に対して、以下の処理
を行なう。まず、これらの状態の信号源へのポインタ
に、それぞれIおよびJを代入する。次に、r
I (Ys')>rJ (Ys')ならば状態S(I')を前方に、
そうでなければ状態S(J')を前方に位置付けて、ネット
ワーク構造を再構成する。最後に、それらの音素環境情
報として、分割前の状態s' で保有されていた内容をそ
のまま複写する。以上で、時間方向への状態分割が完了
する。
【0037】以上3通りの分割処理の内、最適なものを
ステップ11-4にて選択する。なお、上述のように、ステ
ップ11-2に示す音素コンテキスト方向への分割と、ステ
ップ11-3に示す時間方向への分割は、ステップ11-1で示
す信号源の共有構造のみの組替え処理の結果得られたモ
デルに対して行われる。
【0038】ステップ11-4にて選択されて形成されてい
たHMnet の信号源の一部には、融合処理によって近似的
に求められた2混合分布や、分割処理の過程で与えられ
た単一分布が割り当てられたままのものが含まれてい
る。そこで、信号源全体のパラメータを最適化し、次の
繰り返し処理に備えるために、融合処理あるいは分割処
理の影響が及ぶ範囲内にあるすべての信号源に対して、
その出力確率分布および状態遷移確率を再学習する(ス
テップ12)。その後、P(M) に学習の結果達成された総
尤度を代入し(ステップ13)、モデル全体での信号源数
Mが所定の値に達するまで信号源に対する融合処理と分
割処理を続ける(ステップ14)。
【0039】ここまでの処理で、HMnet の構造が決定さ
れる。この時点での各信号源の出力確率分布は、すべて
2混合ガウス分布が割り当てられている。そこで最後
に、それらの出力確率分布を、最終的に使用したい形状
(本実験ではこれを単一ガウス分布としているが、これ
を混合ガウス分布として使用しても何ら問題はない)に
変更するための学習をHMnet 全体に対して行なう(ステ
ップ15)。以上でHMnet の生成が完了する。
【0040】
【発明の効果】以上説明したように本発明の音声認識用
音響モデル生成方法によれば、信号源の融合と分割を逐
次選択しながら繰り返すことで、必要最小限の信号源で
多様な音声現象をうまく表現することができる音響モデ
ルを、自動的に生成することができる。
【0041】また、融合処理を分割処理に先だって試行
し、融合処理の結果達成された学習サンプルに対する評
価値が、それ以前に既に得られている融合処理の結果得
られたモデルと同数の信号源を持つモデルから計算され
た評価値よりも高い場合にのみ融合処理結果を採用し、
それ以外の場合には前記融合処理の結果を破棄してこの
融合処理を行う前のモデルを用いて改めて分割処理を行
なうことで、融合処理及び分割処理のそれぞれの利点を
失うことなく効率良くモデルを最適化できる。
【0042】また、分割処理は、信号源を2つに分割す
ると共に分割の対象となる信号源を共有している複数の
状態間での共有構造を再構成する第一の分割方法と、音
素コンテキストの違いによる音声の静的特徴の変動を吸
収するために1つの状態を異なる音素コンテキストカテ
ゴリに対応する2つの状態として並列方向に分割する第
二の分割方法と、ある音素コンテキストカテゴリ内で生
じている音声の動的特徴の変動を吸収するために1つの
状態を異なる音声区間に対応する2つの状態として直列
に分割する第三の分割方法とを同時に含み、実際の音声
サンプルに対して高い評価値を達成する分割方法を逐次
選択することで、複数の状態で共有された信号源に対す
る分割にも対応することができる。
【図面の簡単な説明】
【図1】本発明の音声認識用音響モデル生成方法の処理
フローを示す図である。
【図2】本発明の音声認識用音響モデル生成方法の融合
処理を説明するための図である。
【図3】本発明の音声認識用音響モデル生成方法の分割
処理を説明するための図である。
【図4】従来の逐次状態分割法(SSS)の分割処理を
説明するための図である。
【符号の説明】
1 初期モデル作成ステップ 4 融合すべき信号源の選定ステップ 5 信号源の融合ステップ 9 分割すべき信号源の選定ステップ 11 信号源の分割及び状態の再構成ステップ 11−1 信号源共有構造の組み替えステップ 11−2 音素コンテキスト方向への状態分割ステップ 11−3 時間方向への状態分割ステップ 11−4 最適分割方法の選択ステップ 12 モデルの再学習ステップ 15 分布形状の変更ステップ
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平6−202687(JP,A) 特開 平4−326400(JP,A) 特開 平6−259087(JP,A) 日本音響学会平成6年度秋季研究発表 会講演論文集▲I▼ 1−8−4「状 態分割融合法による隠れマルコフ網の表 現効率向上」 p.7−8(平成6年11 月1日国会図書館受入) 電子情報通信学会論文誌 Vol.J −78−D−▲II▼ No.5,Ma y 1995,「状態分割融合法による高効 率な隠れマルコフ網の自動生成」 p. 717−726(平成7年5月25日発行) 電子情報通信学会論文誌 Vol.J −76−D−▲II▼ No.10,Oc tober 1993,「逐次状態分割法に よる隠れマルコフ網の自動生成」 p. 2155−2164(平成5年10月25日発行) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 521 G10L 3/00 535 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】音声の特徴パターンの微小時間内での形状
    である音声の静的特徴およびその時間的な変化である音
    声の動的特徴を1つの出力確率分布と1組の状態遷移確
    率から成る信号源の連鎖としてモデル化した隠れマルコ
    フモデルを用いる音声情報処理のための、音素コンテキ
    ストに依存した音声認識用音響モデル生成方法であっ
    て、 少ない信号源を持つ初期モデルに対する信号源の分割処
    理または融合処理を逐次選択しながら繰り返すことによ
    って、モデルの単位である音素コンテキストカテゴリ、
    各モデルを表現するために用いる状態の数と複数モデル
    間での共有関係、複数状態間での各信号源の共有関係、
    および各出力確率分布の形状を、すべて共通の評価基準
    の下で決定することを特徴とする音声認識用音響モデル
    生成方法。
  2. 【請求項2】請求項1に記載の音声認識用音響モデル生
    成方法において、 前記融合処理は、音響モデルの精度を劣化させることな
    く信号源を減らすために類似した特性を持つ異なる2つ
    の信号源を1つに融合する方法を含むことを特徴とする
    音声認識用音響モデル生成方法。
  3. 【請求項3】請求項2に記載の音声認識用音響モデル生
    成方法において、 存在する信号源の2つ組すべてに対してそれらを合成し
    て得られる音響パラメータ空間上での分布の大きさを計
    算し、これが最も小さい2つの信号源を融合対象の状態
    とすることを特徴とする音声認識用音響モデル生成方
    法。
  4. 【請求項4】請求項1、請求項2または請求項3に記載
    の音声認識用音響モデル生成方法において、 前記融合処理を分割処理に先だって試行し、融合処理の
    結果達成された学習サンプルに対する評価値が、それ以
    前に既に得られている融合処理の結果得られたモデルと
    同数の信号源を持つモデルから計算された評価値よりも
    高い場合にのみ融合処理結果を採用し、それ以外の場合
    には前記融合処理の結果を破棄してこの融合処理を行う
    前のモデルを用いて改めて分割処理を行なうことを特徴
    とする音声認識用音響モデル生成方法。
  5. 【請求項5】請求項1に記載の音声認識用音響モデル生
    成方法において、 前記分割処理は、信号源を2つに分割すると共に分割の
    対象となる信号源を共有している複数の状態間での共有
    構造を再構成する第一の分割方法と、音素コンテキスト
    の違いによる音声の静的特徴の変動を吸収するために1
    つの状態を異なる音素コンテキストカテゴリに対応する
    2つの状態として並列方向に分割する第二の分割方法
    と、ある音素コンテキストカテゴリ内で生じている音声
    の動的特徴の変動を吸収するために1つの状態を異なる
    音声区間に対応する2つの状態として直列に分割する第
    三の分割方法とを同時に含み、実際の音声サンプルに対
    して高い評価値を達成する分割方法を逐次選択すること
    を特徴とする音声認識用音響モデル生成方法。
JP6284135A 1994-10-25 1994-10-25 音声認識用音響モデル生成方法 Expired - Fee Related JP2980228B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP6284135A JP2980228B2 (ja) 1994-10-25 1994-10-25 音声認識用音響モデル生成方法
US08/547,794 US5799277A (en) 1994-10-25 1995-10-25 Acoustic model generating method for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6284135A JP2980228B2 (ja) 1994-10-25 1994-10-25 音声認識用音響モデル生成方法

Publications (2)

Publication Number Publication Date
JPH08123464A JPH08123464A (ja) 1996-05-17
JP2980228B2 true JP2980228B2 (ja) 1999-11-22

Family

ID=17674625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6284135A Expired - Fee Related JP2980228B2 (ja) 1994-10-25 1994-10-25 音声認識用音響モデル生成方法

Country Status (2)

Country Link
US (1) US5799277A (ja)
JP (1) JP2980228B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE505522C2 (sv) * 1996-07-01 1997-09-08 Telia Ab Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem
US5963902A (en) * 1997-07-30 1999-10-05 Nynex Science & Technology, Inc. Methods and apparatus for decreasing the size of generated models trained for automatic pattern recognition
US5950158A (en) * 1997-07-30 1999-09-07 Nynex Science And Technology, Inc. Methods and apparatus for decreasing the size of pattern recognition models by pruning low-scoring models from generated sets of models
US6253178B1 (en) * 1997-09-22 2001-06-26 Nortel Networks Limited Search and rescoring method for a speech recognition system
EP1126438B1 (en) * 1998-09-09 2008-07-16 Asahi Kasei Kabushiki Kaisha Speech recognizer and speech recognition method
US6324510B1 (en) * 1998-11-06 2001-11-27 Lernout & Hauspie Speech Products N.V. Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains
US6804648B1 (en) * 1999-03-25 2004-10-12 International Business Machines Corporation Impulsivity estimates of mixtures of the power exponential distrubutions in speech modeling
ATE297588T1 (de) * 2000-11-14 2005-06-15 Ibm Anpassung des phonetischen kontextes zur verbesserung der spracherkennung
US7912717B1 (en) * 2004-11-18 2011-03-22 Albert Galick Method for uncovering hidden Markov models
US7447633B2 (en) * 2004-11-22 2008-11-04 International Business Machines Corporation Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US20070033044A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated System and method for creating generalized tied-mixture hidden Markov models for automatic speech recognition
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
JP5141687B2 (ja) * 2007-07-31 2013-02-13 富士通株式会社 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
JP2011243088A (ja) * 2010-05-20 2011-12-01 Sony Corp データ処理装置、データ処理方法、及び、プログラム
CN104795063A (zh) * 2015-03-20 2015-07-22 中国人民解放军信息工程大学 一种基于声学空间非线性流形结构的声学模型构建方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4820059A (en) * 1985-10-30 1989-04-11 Central Institute For The Deaf Speech processing apparatus and methods
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
JPH05257492A (ja) * 1992-03-13 1993-10-08 Toshiba Corp 音声認識方式
JPH0782348B2 (ja) * 1992-03-21 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識用サブワードモデル生成方法
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US5497447A (en) * 1993-03-08 1996-03-05 International Business Machines Corporation Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
日本音響学会平成6年度秋季研究発表会講演論文集▲I▼ 1−8−4「状態分割融合法による隠れマルコフ網の表現効率向上」 p.7−8(平成6年11月1日国会図書館受入)
電子情報通信学会論文誌 Vol.J−76−D−▲II▼ No.10,October 1993,「逐次状態分割法による隠れマルコフ網の自動生成」 p.2155−2164(平成5年10月25日発行)
電子情報通信学会論文誌 Vol.J−78−D−▲II▼ No.5,May 1995,「状態分割融合法による高効率な隠れマルコフ網の自動生成」 p.717−726(平成7年5月25日発行)

Also Published As

Publication number Publication date
US5799277A (en) 1998-08-25
JPH08123464A (ja) 1996-05-17

Similar Documents

Publication Publication Date Title
JP2980228B2 (ja) 音声認識用音響モデル生成方法
EP0387602B1 (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US4819271A (en) Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
CA2163017C (en) Speech recognition method using a two-pass search
EP0750293B1 (en) Triphone hidden Markov model (HMM) design method and apparatus
US5680509A (en) Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree
US5677988A (en) Method of generating a subword model for speech recognition
US20010011218A1 (en) A system and apparatus for recognizing speech
US5956676A (en) Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system
JP3003276B2 (ja) 信号解析装置
WO1993013519A1 (en) Composite expert
JP5060006B2 (ja) 音声認識システムの自動的再学習
JP3130348B2 (ja) 音声信号伝送方法および音声信号伝送装置
US6131089A (en) Pattern classifier with training system and methods of operation therefor
JPH08211889A (ja) 木構造を用いたパターン適応化方式
JP2003005785A (ja) 音源の分離方法および分離装置
JPH0997096A (ja) 音声認識用音響モデル生成方法
EP0731447A2 (en) Reference pattern training system and speech recognition system using the same
JP2973805B2 (ja) 標準パターン作成装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JP3251005B2 (ja) 標準パターン作成方法
JPS61148497A (ja) 標準パタン作成装置
JPH10116091A (ja) 音素辞書作成方法及び音声認識装置
JP2763704B2 (ja) パターン表現モデル学習装置
JP3102989B2 (ja) パタン表現モデル学習装置及びパタン認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080917

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080917

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090917

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090917

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100917

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees