JPH06259089A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH06259089A
JPH06259089A JP5048271A JP4827193A JPH06259089A JP H06259089 A JPH06259089 A JP H06259089A JP 5048271 A JP5048271 A JP 5048271A JP 4827193 A JP4827193 A JP 4827193A JP H06259089 A JPH06259089 A JP H06259089A
Authority
JP
Japan
Prior art keywords
model
speaker
created
speakers
recognition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5048271A
Other languages
English (en)
Other versions
JPH0769711B2 (ja
Inventor
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Original Assignee
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R JIDO HONYAKU DENWA KENKYUSHO KK filed Critical A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP5048271A priority Critical patent/JPH0769711B2/ja
Publication of JPH06259089A publication Critical patent/JPH06259089A/ja
Publication of JPH0769711B2 publication Critical patent/JPH0769711B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 少ないデータで高い認識率を得ることができ
かつ計算量を削減することを目的とする。 【構成】 SSSアルゴリズムを用いて話者1名の大量
のデータで初期HMnetを生成した後、話者ごとのH
Mnetパラメータの学習をVFS法を用いて行ない、
複数話者へ適応したHMnetを生成する。この複数話
者分のHMnetの対応する状態を1つの混合出力分布
として混合連続出力分布HMnetを作成し、これをベ
ースにして話者重み学習により話者適応を行ない、重み
係数が予め設定された確率以下になった場合、その重み
係数を0に置換え、混合出力分布の重みの和が1となる
ように重みを再配分して音声認識を行なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は音声認識方法に関し、
特に、不特定話者を対象とした音声認識および不特定話
者音素モデルを初期モデルとした話者適応音声認識のよ
うな音声認識方法に関する。
【0002】
【従来の技術および発明が解決しようとする課題】従来
では、不特定話者の音声を認識するために、話者を区別
することなく音素モデルを学習することで、不特定話者
の音素モデルを作成していた。この方法は、1つの発声
は同一の話者からのものである、という制約を利用しな
いものであった。
【0003】このように、複数の話者の音声を区別する
ことなく音素学習に用いる方法では、各音素の分布が広
がって他の音素と大きく重なり、誤認識に結び付く。た
とえば、話者Aの/a/は、話者Bの/o/と同じであ
ったりあるいは分布が大きく重なることがあり得る。ま
た、認識性能を上げるために、音素モデルの混合数を増
加させると、計算量が増大するという欠点があった。
【0004】それゆえに、この発明の主たる目的は、少
ないデータで高い認識率を得ることができかつ計算量を
削減できるような音声認識方法を提供することである。
【0005】
【課題を解決するための手段】この発明は連続分布型隠
れマルコフモデルを用いた音声認識方法であって、複数
の話者の音声によりモデルを作成する際に、話者ごとに
モデルを作成し、同一音声の各状態ごとに全話者の出力
分布を混合して混合分布とすることにより、不特定話者
のモデルを作成し、これを用いて認識を行なう。
【0006】より好ましくは、連続分布型隠れマルコフ
モデルの代わりに、コンテキスト依存音素モデルにおい
て複数の音素モデルが状態を共有する。
【0007】さらに、より好ましくは複数の話者の音声
により話者ごとのモデルを作成する際に、移動ベクトル
場平滑化方式を用いてモデルを作成する。
【0008】さらに、より好ましくは得られた不特定話
者音素モデルにおいて、同一話者から得られた出力分布
にかかる混合係数を同一の値にするという制約の下で、
入力音声を用いて混合係数を再学習し、そのモデルを認
識に用いる。
【0009】さらにより好ましくは、混合係数のしきい
値を決定する際に、再学習した結果、モデルの混合係数
がしきい値以下になった混合要素をモデルから除くこと
により混合数を減らし、その後混合出力分布の重みの和
が1となるように重みを再配分することにより得られた
モデルを認識に用いる。
【0010】
【作用】この発明に係る音声認識方法は、話者ごとにモ
デルを作成し、同一音素の各状態ごとに全話者の出力分
布を混合して、混合分布とすることにより、話者一貫性
の制約を音声モデル作成時に利用して、話者間での音素
の混同を防ぐことができ、確率重みのみを制御すること
により、非常に少ない入力音声で話者適応を行なうこと
ができ、認識時の計算量の削減を行なえる。
【0011】
【実施例】図1はこの発明の一実施例の概略ブロック図
である。この発明の音声認識法はたとえば自動翻訳電話
に用いられるものであり、図1に示すように、アンプ1
とローパスフィルタ2とA/D変換器3と処理装置4と
から構成されている。アンプ1は入力された音声信号を
増幅し、ローパスフィルタ2は増幅された音声信号から
繰り返し雑音を除去する。A/D変換器3は音声信号を
たとえば12kHzのサンプリング信号により、16ビ
ットのデジタル信号に変換する。処理装置4はコンピュ
ータ5と磁気ディスク6と端末類7とプリンタ8とを含
む。コンピュータ5はA/D変換器3から入力された音
声のデジタル信号に基づいて、磁気ディスク6に記憶さ
れているプロセスに基づいて、音声認識を行なう。
【0012】図2はこの発明の一実施例の動作を説明す
るためのフローチャートである。次に、図1および図2
を参照して、この発明の一実施例の動作について説明す
る。この発明による方法では、話者混合による不特定話
者音素モデルの作成を行なった後、話者重み学習による
話者適応を行ない、その後話者プルーニングを行なう。
【0013】まず、話者混合による不特定話者音素モデ
ルの作成では、話者ごとに作成した音素モデルを不特定
話者音素モデルの混合成分として用いることにより、不
特定話者音素モデルが作成される。図2に示すステップ
(図示ではSPと略称する)SP1において、磁気ディ
スク6に記憶されている話者1名の大量のデータから、
出力分布が単一ガウス分布であるような初期HMnet
を Successive StateSplitting (SSS)アルゴリズ
ムを用いて生成する。HMnetおよびSSSアルゴリ
ズムについては、鷹見,嵯峨山,「音素コンテキストと
時間に関する逐次状態分割による隠れマルコフ網の自動
生成」,電子情報通信学会音声研究会資料,SP91〜
88(1991年12月)を用いることができる。この
モデルは特定話者の音声認識として用いることができ
る。
【0014】次に、パラメータ学習を行なう。上述のス
テップSP1において、SSSアルゴリズムによりHM
netの構造を決定した後に、ステップSP2に示すよ
うに、磁気ディスク6に記憶されている比較的少量の複
数話者の音声データより話者ごとのHMnetのパラメ
ータを求める。パラメータの学習法として移動ベクトル
場平滑化方式(Vector Field Smoothig :VFS)を用
いる。このVFSについては大倉,杉山,嵯峨山,「混
合連続分布HMMを用いた移動ベクトル場平滑化話者適
応方式」,電子情報通信学会音声研究会資料,SP92
−16,第23頁〜第28頁(1992年6月)を用い
ることができる。このようにして、複数話者の音声デー
タを用意し、話者ごとにHMnetのパラメータの学習
をVFS法を用いて行なうことにより、複数話者に適応
したHMnetが生成される。
【0015】次に、話者混合化を行なう。ステップSP
3に示すように、複数話者分のHMnetの対応する状
態を1つの混合出力分布として表現することにより、混
合連続出力分布HMnetが作成される。話者混合化
は、同一の構造を持つHMnetにおいて、構造中同一
の位置にある状態が持つ出力分布を1つにまとめ混合連
続出力分布として現わすことにより行なわれる。分岐確
率は等確率または Baum-Welch アルゴリズムによって分
岐確率のみ再学習して決定される。
【0016】図3は話者混合,話者重み学習および話者
プルーニングの概念図であり、特に、図3(a)は上述
の話者混合の概念を示したものであり、状態iと状態j
とにおける話者A,B,Cの出力分布を示す。
【0017】次に、話者重み学習による話者適応につい
てについて説明する。上述の説明によって得られた混合
連続分布HMnetをベースにして、少数の入力音声に
より話者適応を行なう手法について説明する。話者混合
SSSで作成された混合連続出力分布HMnetでは、
各混合出力分布を構成する混合成分はどの話者のデータ
から生成されたものであるかという由来がわかってい
る。したがって、各混合成分への分岐確率は各話者への
重み係数と理解できる。このため、同一話者に由来する
混合成分にかかる分岐確率、つまり話者重み係数を「結
び」として扱うことが可能である。この話者混合SSS
の性質を利用して、ステップSP4に示すように、話者
重み学習による話者適応を行なう。まず、出力分布の平
均値・分散・遷移確率は更新せず、重み係数のみを話者
間で「結び」、つまり同一話者から認められた混合要素
に対する重みを同一にするという拘束条件の下でBaum-W
elchアルゴリズムを用いて更新する。この学習には連結
学習を用いる。上述の話者重み学習の概念を図3(b)
に示す。このようにして、入力話者の音声に適応された
モデルを用いて音声認識が行なわれる。
【0018】次に、話者プルーニングについて説明す
る。HMnetの混合出力分布のうち、話者重み学習に
より重み係数が予め設定された確率以下になった場合、
ステップSP5においてその重み係数を0に置換える。
その後、混合出力分布の重みの和が1となるように重み
を再配分する。その原理を図3(c)に示す。図3
(c)に示すように、同一話者に由来する話者重みの小
さい混合成分をすべて削除することによりモデルの単純
化を行なう。このようにしてサイズが縮小された音素モ
デルを用いて音声認識が行なわれる。
【0019】図4はこの発明の一実施例による話者重み
学習による話者適応,話者重み学習+話者プルーニン
グ,全重み学習の3種類の日本語文節認識の認識実験の
結果を示す図である。話者適応の結果を見ると、いずれ
の話者も1〜5単語程度の非常に少ないサンプルで認識
率の向上が得られることがわかる。従来の方法のすべて
の重みを独立に学習する方法では、学習対象パラメータ
が多いために学習単語が少ないと逆に認識率が低下す
る。
【0020】話者プルーニングを行なった場合の混合数
の変化を表1に示す。このように各話者で出力分布数が
1/2〜1/12程度に減少するが、特に認識率の低下
は見られない。
【0021】
【表1】
【0022】
【発明の効果】以上のように、この発明によれば、連続
分布型隠れマルコフモデルを用いた音声認識方法におい
て、複数の話者の音声によりモデルを作成する際に、話
者ごとにモデルを作成し、同一音素の各状態ごとに全話
者の出力分布を混合して混合分布とすることにより、不
特定話者のモデルを作成し、これを用いて認識を行なう
ことにより、少ないデータで高い認識率を得ることがで
きる。
【図面の簡単な説明】
【図1】この発明の一実施例の概略ブロック図である。
【図2】この発明の一実施例の動作を説明するためのフ
ローチャートである。
【図3】この発明による話者混合,話者重み学習,話者
プルーニングの概念図である。
【図4】この発明による話者適応後の文節認識実験結果
を示す図である。
【符号の説明】
1 アンプ 2 ローパスフィルタ 3 A/D変換器 4 処理装置 5 コンピュータ 6 磁気ディスク 7 端末類 8 プリンタ

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 連続分布型隠れマルコフモデルを用いた
    音声認識方法において、 複数の話者の音声によりモデルを作成する際に、話者ご
    とにモデルを作成し、同一音声の各状態ごとに全話者の
    出力分布を混合して混合分布とすることにより、不特定
    話者のモデルを作成し、これを用いて認識を行なうこと
    を特徴とする、音声認識方法。
  2. 【請求項2】 前記連続分布型隠れマルコフモデルに代
    えてコンテキスト依存音素モデルにおいて複数の音素モ
    デルが状態を共有することを特徴とする、請求項1の音
    声認識方法。
  3. 【請求項3】 前記複数の話者の音声により話者ごとの
    モデルを作成する際に、移動ベクトル場平滑化方式を用
    いてモデルを作成することを特徴とする、請求項1また
    は2の音声認識方法。
  4. 【請求項4】 前記得られた不特定話者音素モデルにお
    いて、同一話者から得られた出力分布にかかる混合係数
    を同一の値にするという制約の下で、入力音声を用いて
    混合係数を再学習し、そのモデルを認識に用いることを
    特徴とする、請求項1ないし3のいずれかの音声認識方
    法。
  5. 【請求項5】 前記混合係数のしきい値を決定する際
    に、再学習した結果、モデルの混合係数がしきい値以下
    になった混合要素をモデルから除くことにより混合数を
    減らし、その後混合出力分布の重みの和が1となるよう
    に重みを再配分することにより得られたモデルを認識に
    用いることを特徴とする、請求項4の音声認識方法。
JP5048271A 1993-03-09 1993-03-09 音声認識方法 Expired - Fee Related JPH0769711B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5048271A JPH0769711B2 (ja) 1993-03-09 1993-03-09 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5048271A JPH0769711B2 (ja) 1993-03-09 1993-03-09 音声認識方法

Publications (2)

Publication Number Publication Date
JPH06259089A true JPH06259089A (ja) 1994-09-16
JPH0769711B2 JPH0769711B2 (ja) 1995-07-31

Family

ID=12798785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5048271A Expired - Fee Related JPH0769711B2 (ja) 1993-03-09 1993-03-09 音声認識方法

Country Status (1)

Country Link
JP (1) JPH0769711B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
JP2008233759A (ja) * 2007-03-23 2008-10-02 Yamaha Corp 混合モデル生成装置、音処理装置およびプログラム
JP2009128496A (ja) * 2007-11-21 2009-06-11 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置、方法、プログラム及びその記録媒体
JP2010049291A (ja) * 1998-04-15 2010-03-04 Microsoft Corp 音声認識システムのための動的にコンフィギュレーション可能な音響モデル

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010049291A (ja) * 1998-04-15 2010-03-04 Microsoft Corp 音声認識システムのための動的にコンフィギュレーション可能な音響モデル
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
JP2008233759A (ja) * 2007-03-23 2008-10-02 Yamaha Corp 混合モデル生成装置、音処理装置およびプログラム
JP2009128496A (ja) * 2007-11-21 2009-06-11 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置、方法、プログラム及びその記録媒体

Also Published As

Publication number Publication date
JPH0769711B2 (ja) 1995-07-31

Similar Documents

Publication Publication Date Title
US5719997A (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammer to represent context free grammars
EP0789296B1 (en) Voice controlled image manipulation
JP2733955B2 (ja) 適応型音声認識装置
US5033087A (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
JP3453456B2 (ja) 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
US7587321B2 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
JPH08234788A (ja) 音声認識のバイアス等化方法および装置
EP0789348B1 (en) Pattern matching method and apparatus
US6058365A (en) Speech processing using an expanded left to right parser
JP2001125588A (ja) 音声認識装置及び方法ならびに記録媒体
US6226610B1 (en) DP Pattern matching which determines current path propagation using the amount of path overlap to the subsequent time point
JP3535292B2 (ja) 音声認識システム
JP2002524777A (ja) ボイス・ダイアリング方法およびシステム
JP2003208195A5 (ja)
JPH06259089A (ja) 音声認識方法
JP2003005785A (ja) 音源の分離方法および分離装置
JP3914709B2 (ja) 音声認識方法およびシステム
JPH01202798A (ja) 音声認識方法
JP3049235B2 (ja) 複合的な文法ネットワークを用いる音声認識システム
JP3315565B2 (ja) 音声認識装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JP3873418B2 (ja) 音声スポッティング装置
JPH0822296A (ja) パターン認識方法
JPH06282292A (ja) 音声認識方式
JPH04295894A (ja) 神経回路網モデルによる音声認識方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19960123

LAPS Cancellation because of no payment of annual fees