JPH10282986A - 音声認識方法およびそのモデル設計方法 - Google Patents

音声認識方法およびそのモデル設計方法

Info

Publication number
JPH10282986A
JPH10282986A JP9086486A JP8648697A JPH10282986A JP H10282986 A JPH10282986 A JP H10282986A JP 9086486 A JP9086486 A JP 9086486A JP 8648697 A JP8648697 A JP 8648697A JP H10282986 A JPH10282986 A JP H10282986A
Authority
JP
Japan
Prior art keywords
hmm
output
speech recognition
category
output probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9086486A
Other languages
English (en)
Inventor
Tomohito Nakagawa
智仁 中川
Hideo Maejima
英雄 前島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP9086486A priority Critical patent/JPH10282986A/ja
Publication of JPH10282986A publication Critical patent/JPH10282986A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】高性能の音声認識が可能な話者適応型の音声認
識システムを、マイクロコンピュータで効率的に実現す
る。 【解決手段】老若男女等の話者の特質毎に分類した音声
サンプルを用いて、カテゴリ毎に最適な出力関数を決定
し、その出力関数を用いて全体の出力関数を決定し、各
分類ごとのHMMの出力確率と、話者の属性確率から、
話者の属性に合わせた音声認識を実現する。また、この
話者分類による認識を推定スコアの算出に用いて、高性
能な音声認識を実現する。さらに、この出力確率の計算
および推定スコアの算出を、曖昧推論を用い、かつ領域
区分法・変数分離法によって高速化する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、隠れマルコフモデ
ル(以下、HMM)(ここでは連続分布型HMM)を用
いた音声認識を、マイクロコンピュータ(以下、マイコ
ン)のような簡単な処理装置で効率的に実行する音声認
識方法およびその方法を用いたモデル設計方法に関す
る。
【0002】
【従来の技術】
(1)従来の音声認識装置について 従来より、音声認識装置101は、例えば図1に示すよ
うなシステム構成で実現される。マイクなどの音声入力
装置102で入力された音声信号は、AD変換装置10
3でデジタル信号に変換される。特徴抽出装置104で
は、一定の区間(以下、フレーム)を定常的と看做した
音の性質を分析する。認識装置105では、フレームご
とに抽出されたパラメータの時系列的な変動過程を言葉
ごとに比較し、最も近いと思われる言葉を認識結果とし
て出力する(以下、この比較を距離計算と呼ぶ)。 (2)従来のHMM型音声認識について (2.1)HMM型音声認識の基本原理について、HMM
型音声認識では、前述の距離計算を確率的に評価するた
め、図2に示すようなマルコフモデルを考える。ここ
で、マルコフモデルとは、マルコフ性(将来の状態が現
在の状態によってのみ規定される)の仮定された確率的
な状態遷移モデルのことである。この確率的な挙動は、
状態間の遷移確率によって表現される。ここで、状態と
は『あ』,『い』等の音源と考えればよく、人によって
音源の内容が異なったり、音の特徴がずれたりする。H
MMでは、認識する音源をモデルで表現しようとするも
ので、『あ』の音源に対するモデル、『い』の音源に対
するモデル、・・・をそれぞれ作成する。そして、それ
ぞれが具体的に音の特徴、例えば周波数分布(いくつか
のパラメータで表現される)がどう変化するかで認識す
る。それぞれの状態については、出力する確率が与えら
れており、それぞれがどの程度の出力であるかにより表
現される。実際に認識するときには、音の性質がどのよ
うに変化するかを計算して、最も確率の高いものが最も
らしいとして認識される。このように、音声認識では、
状態ごとに、ある特徴ベクトルを出力する確率と状態遷
移確率とが与えられている。つまり、音声認識は、特徴
ベクトルの関数で表現される。HMMは、各認識要素
(単語や音素)ごとに一連の状態によって表現される。
例えば、図2に示すような left-to-right 型のHMM
が数多く採用されている。そして、認識処理において
は、各認識要素のモデルごとに、与えられた特徴ベクト
ル列(以下、観測系列)を出力しうる確率(尤度)を計
算し、最も尤度の高いモデルを認識候補として選択す
る。
【0003】(2.2)HMMにおける出力確率の表現に
ついて、前述のHMMは、出力確率の表現形態の違いに
より、連続分布型HMMと離散分布型HMMとに類別で
きる。連続分布型HMMは、各状態における出力確率を
図3(a)に示すように連続分布で表現する。このた
め、観測された特徴ベクトルは、量子化されることなく
出力確率が計算される。一般に、確率密度関数の表現に
は、混合ガウス分布が用いられる。この混合ガウス分布
は、下式(数1)で記載される。
【数1】 これは、ガウス分布の線形結合で表現されるため、出力
確率分布は基底となるガウス分布の数が多ければ多いほ
ど精密になる。しかし、計算量もそれに比例する。この
方式では、計算量が多く必要となるが、認識精度は高い
とされている。一方、離散分布型HMMは、特徴ベクト
ルを量子化し、その各々に対して出力確率分布を定義す
る。これは、図3(b)に示すような階段状の確率密度
関数を与えたものと等価である。離散分布型HMMで
は、個々の確率計算の計算負荷が連続分布型に比べて小
さくなる。しかし、量子化された特徴ベクトルごとに出
力確率のテーブルが必要となり、また、量子化における
誤差が認識精度を劣化させると言われている。
【0004】(3) (3.1)従来の話者適応化について、代表的な話者適応
方式としては、最大事後確率推定法(MAP推定法)や
移動ベクトル場平滑化法(VFS法)あるいはこれらの
複合法(逐次型MAP/VFS法)などがある(例え
ば、高橋他:『逐次型話者適応方式MAP/VFSにお
ける分散適応』,音響学会講演論文集、2-5-5 (1995)参
照)。ここで、話者適応化とは、人によって声の高低や
声の広がり等あり、パターンに違いがあるので、これら
はHMMにより統計的に吸収できるが、理想的モデルに
するために、標準のモデルから離れた人に対してモデル
に補正をかける方法である。ずれがある程度わかれば、
そのずれ量だけモデルに補正をかけて中心に移動するこ
とができる。 (3.1.1)話者適応の具体的方法について、上述のMA
P推定法においては、「事前分布に依存する事後確率を
最大にする」ようにパラメータを推定する。具体的には
下式(数2)のように修正する。
【数2】 また、上述のVFS法は、写像法の一種で、「話者の特
徴=標準者の特徴+個人差ベクトル」と考え、少数のサ
ンプルの平均ベクトルを個人差ベクトルと看做すことに
より適応させる。具体的には下式(数3)のように修正
する。
【数3】
【0005】(3.2)従来の統計的話者分類について 統計的な話者分類を用いる方法は、多くの場合、話者適
応化を含めて議論されている。離散分布型HMMにおい
て、話者カテゴリーごとに作製したHMMをマージする
方法(例えば、今村:『統計的話者分類による話者適応
HMM音声認識』,信学技報 SP91-17 (1991)参照)、
あるいは、混合ガウス分布型HMMにおいて、話者カテ
ゴリーごとに作製したHMMをマージ(重み係数を修正
する)する方法(例えば、『話者混合逐次分割法による
不特定話者音声認識と話者適応』,信学論 A Vol.J77-
A,No.2 pp.103-111 (1994)参照)などが提案されてい
る。統計的話者分類を用いる場合、例えば、男と女とで
は統計的にパターンの分布が明確に分かれているので、
この特性を用いて簡単に分類することができる。前述の
混合ガウス分布型HMMについて述べると、前式(数
1)のガウス分布に重みをかけて加算することにより、
正規分布を幾つか重ねたものが形成される。これは、幾
つかのピークを有するパターンであり、話者適応化によ
りそれぞれの特徴があるパターン全体をそっくりずらし
てもよいのであるが、複数のピークが均等にずれている
場合には、処理が複雑になるので、話者の特性として、
男であることがわかっていれば、男の特徴的パターンを
使って分類すれば簡単な処理で分類することができる。 (3.3)従来の連続分布型HMMの高速計算法について 混合ガウス分布の高速計算法は、例えばスカラ量子化
(例えば、S. Sagayama:ON THE USE OF SCALAR QUANTI
ZATION FOR,ICASSP95,I-pp.213-217(1995)参照)など
の方法が効率的である。また、本願の発明者らは、出力
確率計算に曖昧推論を用いた音声認識法を本願出願前に
提案している。しかし、この方法では、写像法がテーブ
ル化されているので、使い難いという問題がある。
【0006】
【発明が解決しようとする課題】連続分布型HMM音声
認識を対象にする場合、FVS法やMAP推定法のよう
に、出力関数を直接的に修正する方法では、変数分離法
による曖昧推論を用いた方法やスカラ量子化のようなテ
ーブル化手法は使内できない。また、混合分布の重み係
数を修正する方法では、テーブル化手法は使えるもの
の、混合ガウス分布に限られるし、また前式(数1)で
は、 addlog [log((exp(a)+exp(b))] の計算が必要にな
るため、計算負荷が多大になる。すなわち、話者適応化
方法の処理では、補正をかけて標準モデルに平行移動す
るので、モデル自体が変化してしまい、テーブル内容を
計算し直さなければならなくなる。本発明の目的は、こ
のような従来の課題を解決し、離散分布型HMMまたは
混合分布型HMM以外の音声認識システムでも、話者分
類による適応的音声認識システムが実現でき、領域区分
法・変数分離法等のテーブル化手法の導入が可能で、高
性能な音声認識が比較的容易に実現できるマイクロコン
ピュータ向けの音声認識方法およびそれを用いたモデル
設計方法を提供することにある。
【0007】
【課題を解決するための手段】上記目的を達成するた
め、本発明の音声認識方法では、連続分布型HMMのう
ち、混合ガウス分布を用いるのではなく、出力確率計算
に曖昧推論を用いる方法(いわゆる半連続型HMM)を
想定している。曖昧推論は、領域区分法・変数分離法
(例えば、中川他:『制御用マイコン向け高速ファジイ
推論方式』,情報処理学会第43回全国大会講演論文
集,I-101参照)を用いることにより高速に実行できる
が、事前にテーブルにするため、話者適応化が難しい。
そこで本発明では、統計的話者分類による方法を用い
る。すなわち、音韻的特徴の類似した各分類ごとに、曖
昧推論により出力関数を定義して、各分類との類似性の
情報と、各分類における出力確率(曖昧推論によって得
られる)から、曖昧推論を用いて、HMMの出力確率を
推定する。音声認識では、2つのポイントがあり、その
1つは認識処理の方法であり、他の1つはどのように認
識システムを構成するかという認識処理のための基礎と
なる学習に関する方法である。つまり、後者は、認識で
は出力確率のための関数を決定することが大きな問題で
あって、具体的な学習のテーマとその学習したモデルか
ら認識システムを生成することである。以下の実施例で
は、主として認識システムを生成するための学習に関す
る例と、音声認識の方法(出力確率)に関する例とを挙
げる。
【0008】
【発明の実施の形態】以下、本発明の実施例を、図面に
より詳細に説明する。図4は、本発明の実施例1を示す
音声認識システムの動作フローチャートである。ここで
は、本発明で示した音声認識システムを、実際に設計す
る手順を示している。処理が開始されると(ステップ4
01)、まず最初に学習すべき音声サンプルを収集する
(ステップ402)。HMMによる不特定話者認識にお
いては、さまざまなタイプの音声を学習させる必要があ
る。これらは、HMMの構成単位(例えば、音節)ごと
に、発話者の属性(性別・年齢等)とともに管理する。
次に、音声サンプルの分類を決定する(ステップ40
3)。これらの音声サンプルの分類は、ヒューリスティ
ックに決定する(例えば、老若男女別とか)か、あるい
は学習すべき音声データ420の特徴から最適な分類を
決定する。次に、音声データ420からHMMを予備学
習する(ステップ404)。これは、例えば通常の混合
ガウス分布型連続HMM音声認識用の学習処理を用い
て、混合数を上記の分類数と等しくさせるように学習さ
せる。そして、学習の結果を、HMM予備データ430
に格納する。
【0009】次に、ステップ403で決定した分類に従
って、音声データ420を各分類に対応させ区分する
(ステップ405)。例えば、発話者の属性に応じてヒ
ューリスティックに分類したならば、その属性に従って
分類すれば良い。これらは、その分類に従って音声デー
タ421〜429に分割して格納する。ヒューリスティ
ックの分類とは、例えば男と女,子供と成人と老人等に
分類することである。次に、各分類ごとに音声データ4
21〜429を用いて、HMMパラメータを学習する
(ステップ411〜419)。この時、それぞれのHM
Mの状態遷移確率は、ステップ404で行った予備学習
の値を用いる。これは、各HMMの状態遷移確率を等し
くするためである。次に、各分類ごとに学習したHMM
より、全体のシステムを構成するための調整を行う(ス
テップ406)。これは、曖昧理論を用いる方法やニュ
ーラルネットワークを用いる方法などが考えられる(こ
の例については、他の実施例として後述する)。あるい
は、単純な実現方法としては、各分類の属性確率を「重
み」とみなし、一種の加重平均を計算することで、個々
のシステムと全体とを関連付けることも可能である。ス
テップ406で、各個別のシステムと全体との相互関連
を学習させることにより、システムが完成する(ステッ
プ407)。
【0010】図5は、図4におけるHMMパラメータ学
習(ステップ411)の詳細処理のフロチャートであ
り、図6は、曖昧推論による出力確率の推定の説明図で
ある。なお、図4におけるステップ412〜419につ
いても同様である。ここでは、図6に示すように、HM
Mの出力確率が曖昧推論で記述される例を示す。曖昧推
論は、経験的なノウハウを、図6(a)のような曖昧推
論によって記述する。曖昧規則は、入力変数と出力変数
の関係を曖昧に(曖昧変数で)記述している。曖昧変数
は、具体的には図6(b)のようなメンバシップ関数で
定義される。この曖昧規則は、一般にヒューリスティッ
クな方法によって(試行錯誤で)決定される。勿論、そ
のようにしても十分実現できる。もっとも、本実施例で
は、図5に示すように、一度混合ガウス分布系の学習パ
ラメータを計算してから、曖昧規則系を再構築する方法
を示す。間接的再学習でも可能であるが、処理が簡単で
あるため上記の方法を採用した。図5のステップ501
〜507は、全体として図4のステップ411のサブル
ーチン相当する。処理が開始されたサブルーチンでは
(ステップ501)、まず最初に、音声データ421を
用いて、混合ガウス分布系のパラメータを学習する(ス
テップ502)。これは、一般的な Baum-Welch のアル
ゴリズムを用いれば求められる。学習した混合ガウス分
布系のパラメータは、データ512に格納する。
【0011】次に、ステップ502で学習したパラメー
タを用いて、曖昧推論系を構成する(ステップ503,
504)。なお、この方法の詳細は、発明者らが既に提
案している方法である。すなわち、まず単一のガウス分
布に相当する曖昧推論系を構成する(ステップ50
3)。この結果をデータ511に格納する。次に、この
データ511のデータ、つまり各構成ガウス分布の推論
系を用いて、混合ガウス分布系に相当する曖昧推論系を
構成する(ステップ504)。この曖昧推論系の計算
は、通常の方法(例えば、マムダニの方法や代数積−加
算−重心法)では、計算時間が多大になるので、領域区
分法および変数分離法によって高速化する。そのため
に、領域区分法に従って操作領域の決定を行った後(ス
テップ505)、変数分離法に従って一変数のテーブル
作成を行う(ステップ506)。テーブル値は、ファイ
ル431に格納される。なお、領域区分法・変数分離法
は、特に入力数の多大な曖昧推論を高速に実行する方法
である(例えば、中川他:『制御用マイコン向き高速フ
ァジイ推論方式』情報処理学会第43回全国大会講演論
文集I,pp.101-102 (1991)参照)。図6(a)に示す
ように記述された出力確率は、代数積−加算−重心法で
は、下式(数4)のように表現される。
【数4】 領域区分法において、適用領域・操作領域・操作規則は
次式(数5)のように定義される。
【数5】 この時、出力確率は、下式(数6)のように操作領域ご
とに与えられる。
【数6】 変数分離法では、領域区分法において適合度を限界積で
評価する。これにより、出力確率は、操作領域ごとに定
義された以下の推論式(数7)で計算できる。
【数7】 図5のステップ505は、言い替えれば前式(数4)を
与えることに他ならない。また、ステップ506は、具
体的には、前式(数7)中の定数および一変数の関数を
事前計算し、テーブル化する処理である。
【0012】図7は、図4における全体の調整処理(ス
テップ406)の詳細動作フローチャートであり、図8
は、ニューラルネットワークの構成およびそれを用いた
調整処理のフローチャートである。ここでは、各分類の
出力確率を用いて、全体のシステムを下式(数8)のよ
うに記述する。
【数8】 要するに、ここでは各分類属性値を線形的に補正し、こ
れを「重み係数」として出力確率を計算するものであ
る。ここでは、原理的に一番単純なため、実施例にし
た。なお、後述の実施例2および実施例3では他の例を
示す。図7のステップ701〜707は、図4のステッ
プ406のサブルーチンに相当する。まず、出力確率を
計算する(ステップ702)。ここでは、前式(数8)
に従って出力確率を計算する。ただし、初回は適当な初
期値(例えば、すべて1)が与えられているものとし、
それに基づいて計算される。次に、パラメータを評価す
る(ステップ703)。具体的には、ある適当な評価関
数を定義し、それを最大(あるいは最小)にすることを
考える。あるいは、一定のサンプルを入力し、その認識
性能を評価指標にしても良い。本実施例では、適当な評
価関数を定義することを想定する。次に、評価を良くす
る方向にパラメータを修正する(ステップ704)。具
体的には、評価関数をパラメータに対して偏微分(数値
的には差分)し、その方向(勾配方向)にパラメータを
(一定の小さい幅で)修正する。次に、収束判定を行う
(ステップ705)。ここでは、前の値と現在の値が十
分小さい一定値(ε)より小さくなることをもって、収
束と看做す。収束しない場合には、ステップ702へ戻
る。収束した場合には、補正係数を確定し(ステップ7
06)、処理を終了する(ステップ707)。
【0013】次に、実施例2を説明する。実施例2は、
実施例1における図4の全体調整処理(ステップ40
6)を他の方法で行う例である。ここでは、図8に示す
ようなニューラルネットワーク(以下、NN)を用いて
いる。NNは、図8(a)のようなニューロン素子をネ
ットワーク状に結合したもの(図8(b)参照)であ
る。ニューロン素子の出力は、一般に入力の総和に対す
る関数として表現される。例えば、下式(数9)に示す
ような、シグモイド関数で表現されることが多い。
【数9】 これを、実システムに適用する場合、例えば図8(b)
のような階層型ネットワークを用いることができる。階
層型ネットワークでは、左から入力層・中間層・出力層
となっており、本実施例では、入力層の各ノードと分類
を対応させ(具体的には、分類の属性値を入力にす
る)、出力層に重み係数を対応さている。そして、所望
の入出力関係が得られるように、結合係数を調整する。
結合係数の調整は、一般的な誤差逆伝播法(BP法)に
よって実行できる。これは、下式(数10)で示され
る。
【数10】 上式(数10)では、パラメータを修正する(丁度、誤
差が逆方向=出力層→入力層に伝わっていくイメージが
あるため誤差逆伝播法と呼ばれる)。この計算を、収束
するまで繰り返し実行する。これを具体的に表現する
と、図8(c)のようになる。図8のステップ601〜
605は図4のステップ406のサブルーチンとなる。
入力された入出力関係(学習データ)に基づいて(ステ
ップ602)、前式(数10)に従ってパラメータを修
正する(ステップ603)。そして、収束判定を行い
(ステップ604)、収束しない場合にはステップ60
2へ戻り、収束した場合にはステップ605へ進む。
【0014】収束判定(ステップ604)においては、
NNの場合、最小にする評価関数(通常、エネルギー関
数と呼ばれる)は、多嶺性(極小値が複数存在する)を
示すため(何故ならば、極小値=最小値とは限らな
い)、図7で示したような方法(線形システムの収束判
定)は適用できない(局所最適の回避問題)。多くの場
合、局所最適を回避する方法として、確率的な方法−例
えば、シミュレーテッドアニーリング(SA)法などが
用いられる。SA法は、一定の確率頻度で、勾配を逆方
向に探索する。この確率頻度は、温度関数によって制御
される。SA法では、この温度関数を徐々に小さく(す
なわち、確率頻度を少しづつ小さくする)することで、
確率的に準最適な解を求めようとするものである。この
SA法を用いた場合、収束条件は、温度関数がTが0に
極めて近づいた時に、パラメータが収束を満たすことが
必要になる。このように、NNでは処理が複雑にはなる
が、大枠では、図8(c)の手順で実行できる。
【0015】図9は、本発明の実施例3を示す全体構成
図である。図9には、本発明による話者適応型音声認識
システムの実現例の概要が示されている。処理が開始さ
れると(ステップ801)、音声入力装置(マイク)8
10から音声が入力される。この音声は、A/D変換さ
れ(あるいは、A/D変換器を用いて)デジタル信号と
してシステムに取り込まれる(ステップ802)。次
に、音声の特徴分析を行う(ステップ803)。これ
は、Levinson - Durbin 法によってLPC(Liner Pred
ictive Coding)系のパラメータを求める方法や、FF
T(高速フーリェ変換)によって周波数スペクトルを求
める方法がある。ステップ804〜806は、本発明の
特有な処理となる。すなわちステップ803で用いた分
析結果(特徴パラメータ)を用いて、入力音声の属する
話者分類を決定する(ステップ804)。
【0016】次に、この結果を用いて話者適応化を行う
(ステップ805)。これに基づき、認識処理を行う
(ステップ806)。計算結果は、出力結果ファイル8
12へ出力する。上記ステップ801〜807のうち、
ステップ804以外は、実施例1および実施例2で求め
たパラメータを用いて計算できる。しかし、話者属性の
評価は、認識処理の時に行わなければならない。この詳
細について、図10に示す。図10は、図9における話
者類類の分析処理(ステップ804)の詳細説明図であ
る。ここでは、実施例2と同様の階層型NNを用いた例
を示す。ここでは、入力として各特徴ベクトル、出力と
して各分類ごとの話者属性を対応させる。NNの結合係
数の学習は、実施例2で示した手順と同様である。この
場合、出力は図9(d)を用いて計算できる。まず処理
が開始されると(ステップ906)、音声データ(ここ
では、特徴ベクトル)が入力層に入力される(ステップ
907)。次に、各ノードごとに、下式(数11)に従
って計算が実行される(ステップ908)。
【数11】 ここで、出力に相当するノードの計算値が出力となる。
この出力に相当するノードの計算の終了を待って終了す
る(ステップ909)。なお、係合係数の学習方法のフ
ローについては、図8(c)のフローと同じであるため
説明を省略する。
【0017】図11は、本発明の実施例4を示す音声認
識処理の全体フローチャートである。また、図12は、
図11のフローで必要となるベストファーストサーチと
スコア推定の説明図である。実施例4では、本発明を認
識処理における探索処理のスコア推定に適用した例を示
したものである。スコア推定は、出力計算を行って最も
大きな出力を求めるため、フレームに関してビダビサー
チを行って経路を探索し、時間が1歩進む毎にどのよう
な状態をとるかを決定し、最も大きなパスを選択する。
そのときに、最も大きなパスを選択すれば計算量は減少
するが、最適パスの欠落をなくすためにベストファース
トサーチによりある程度の推定を行う。これは、探索し
ていないが、見込みで評価して推定する。図11のステ
ップ1001〜1007のうち、ステップ1002(認
識照合)を除いて実施例3の処理と共通している。本実
施例では、認識照合においてビタビのベストファースト
サーチを用いた例を示す。ベストファーストサーチで
は、他のサーチには存在しない「スコア推定」という処
理が必要になる。そして、このスコア推定の方法(具体
的には、スコア関数の設定)によって認識性能が大きく
左右される。このスコア推定のためには、システムデー
タ811の他に、スコア推定に関する情報1010が必
要になる。
【0018】本実施例を説明する前に、簡単にベストフ
ァーストサーチとスコア関数について説明する。音声認
識では、認識要素ごとに定義されたHMMのうち、入力
音声の特徴(正確には、特徴ベクトルの列:以下、観測
ベクトル)を出力する確率の最も高いHMMを選択す
る。しかし、「隠れマルコフ」の名の通り、入力音声か
らは状態遷移系列は分からない。そこで、どのように該
当するHMMを探し出すかが問題になる。これを、探索
(サーチ)と呼ぶことにする。サーチで、一番単純な方
法は図12(a)に示すように、全てのパス(状態遷移
の経路)をサーチする方法である。横軸に時間(t)を
示し、縦軸に状態を示している。これは、動的計画法を
用いて簡単に実現できる。これに対して、ベストファー
ストサーチは、図12(b)に示すように、各フレーム
ごとに最も確率の高いパスを選択して、それ以外を落と
す方法である。単純なインプリメントでは、最大あるい
は上位何候補かを残すだけで処理を行う場合もあるが、
この場合、最適パスを切る可能性があり、認識性能は劣
化する。従って、最適パスをできるだけ落とさないよう
にパスを選択しなくてはならない。
【0019】いわゆる、「最適性の保証」が重要な問題
になる。これは、例えばサーチの途中の段階でも最後ま
でのパスのスコアが分かれば(実際は未知であるが)、
トータルで最適なパスを判定することができる。そこ
で、未だ処理の済んでいない部分のスコアを予測し、そ
れを加えた上で最適性を判定することが必要になる。こ
こで、未知の部分のスコアを評価することをスコア推定
と呼ぶ。ここでは、このスコア推定において、(できる
だけ)最適性を保証するよう推定する(スコア関数を設
定する)ことが問題となっている。スコア関数が一定の
条件(A*条件)を満たす時、最適性が保証される(A*探
索)。これを、図12(c)に示す。いま、ノード (i,
j,n) からノード (i+1,k,n) までのスコアをs((i,i+1),
(j→k),n) のように定義する。このとき認識問題は、s
((0,I),(0,Jn),n) が最大となるパス(最適パス)を決
定する問題となる。いま、図12(c)のように、探索
が中間点Cまで進行したとする。このとき、全体のスコ
アは、既に探索が終了した評価(G)と終了していない
部分の評価(H)の和で表現できる。すなわち、F(i,j,
n)=G(i,j,n)+H(i,j,n) のようになる。ノードCにお
けるスコア関数の推定値は、f(i,j,n)=g(i,j,n)+h(i,
j,n)で推定する。この推定スコアが、h(i,j,n) 〉 H(i,
j,n) を満たす場合、A* 探索となり最適解が保証され
る。しかし、厳密に「A* 条件」を満たすようにスコア
関数を設定すると、計算負荷が大きくなることが多い。
そこで、厳密に条件を満たさなくても、近似的に的確な
スコア関数を設定し、認識性能を維持しつつ計算量を削
減することが求められる。
【0020】そこで、実施例4では、実施例1および実
施例2の方法を用いて、推定スコアを設定する方法、お
よびその推定スコアを用いて認識照合(図11のステッ
プ1002)を実現する方法を説明する。ここでは、ス
コア推定のためのHMM(以下、推定HMM)を用いる
方法を例にして述べる。スコア推定HMMは、図12
(d)のように、逆方向の状態遷移によって定義され
る。これは、終状態からのスコアを計算するためのもの
である。このHMMの学習は、通常のHMMと全く同様
に実行できる。ただし、入力する特徴ベクトルは逆にす
る。例えば、フレーム0〜20のデータなら、通常は
0,1,.. の順になるが、ここでは、20,19,.. の順にな
る。従って、本発明の方法(実施例1,実施例2)の方
法も、全く同じように適用できる。すなわち、特徴ベク
トルを入れる順番を逆にするだけで良い。実施例4で
は、スコア推定においても話者分類による話者適応化を
行う。そのため、推定HMMおよびスコア関数は各話者
分類ごとに設定し、スコア推定時において、話者属性に
応じてスコアの適応化(以下、スコア関数の話者適応
化)を行う。
【0021】図13は、図11で示した実施例4の処理
に必要なスコア情報(データ1010)の作成処理のフ
ローチャートである。これは、具体的には、スコア推定
のためのデータ(以下、スコアデータ)である。実施例
4では、推定HMMを用い、さらにこれを曖昧理論によ
って簡略化する方法を示す。処理が開始されると(ステ
ップ1201)、まず推定HMMの学習を行う(ステッ
プ1202)。これは、図5に示した実施例1の方法で
実現できる。勿論、推定HMMは、各話者分類ごとに定
義する。この、推定HMMを用いてスコア関数を設定
し、設定されたスコア関数のデータ値をデータファイル
1210に格納する。次に、ステップ1202で決定し
たスコア関数を表現する曖昧推論系を構成する(ステッ
プ1203)。曖昧推論系は、図6に示したような形式
で表現される。本実施例では、ヒューリスティックに決
定することを想定する。尚、スコア関数より曖昧推論系
を決定する他の例は、実施例5で説明する。このスコア
関数の曖昧推論系は、データファイル1211に格納す
る。本実施例では、先の実施例で示した領域区分法・変
数分離法を用いるため、操作領域を決定した後(ステッ
プ1204)、テーブルを作成する(ステップ120
5)。これは、先に示した方法と同じである。このテー
ブルのデータ値をデータファイル1010に格納する。
このテーブルにより、スコア推定が可能になる。
【0022】図14は、図11の実施例4の認識照合処
理(ステップ1002)の詳細処理のフローチャートで
ある。ここで、ステップ1301〜1309は、図11
のステップ1002のサブルーチンに相当する。処理が
開始されると(ステップ1301)、システムデータ8
11のHMMパラメータを読み込む(ステップ130
2)。ここで、観測ベクトルは、図11のステップ80
3で既に分析されている。また、初期設定も同時に行
う。例えば、初期探索点として、現在位置を、初期時刻
(t=0)初期状態(s=0)に設定する。これは、図12
(b)のトレリス(状態を縦軸に、時間を横軸にとった
2次元空間)上で表現すれば、点Aに相当する。ステッ
プ1303以降では、観測ベクトルと、HMMパラメー
タを用いて探索を行う。図11(b)において、初期探
索点Aから状態遷移できるノードは、B,Cである。そ
こで、まずBに探索点を設定する(ステップ130
3)。次に、スコアを評価し(ステップ1304)、最
適性を判定する(ステップ1305)。ここで、最適候
補となり得れば登録し(ステップ1306)、最適候補
とならなければ次の探索点(例えばC)に処理を移す
(ステップ1303)。この処理で、最適候補は、B,
Cのいずれかに決定されるので、次にここで決定したノ
ードを現在位置として、同様の処理を継続する。これを
最終状態に到達するまで繰り返す(ステップ130
7)。最終状態と判定したならば(ステップ130
7)、残った候補を最適パスとして(ステップ130
8)、その対応するモデルを認識候補として出力する。
出力結果は、ファイル812に格納される。
【0023】図15は、本発明の実施例5を示す推定H
MMから曖昧推論系を構成する動作フローチャートであ
る。実施例4の曖昧推論系の決定処理(図13のステッ
プ1203)は、ヒューリスティックな手法を用いてい
るのに対して、実施例5の同じ処理(図15のステップ
1401)では、A*条件を満たすように決定する方法
を示している。ステップ1401以外は、図13のフロ
ーの動作と全く同じであるため、説明を省略する。図1
6は、図15における曖昧推論系の決定処理(ステップ
1401)の詳細を示すフローチャートである。ここで
は、曖昧規則はヒューリスティックに決定し、メンバシ
ップ関数を反復計算によって最適に調整する。図16の
ステップ1501〜1509は、図15のステップ14
01のサブルーチンに相当する。図16に示すように、
処理が開始されると(ステップ1501)、初期設定が
行われる(ステップ1502)。ここでは、データファ
イル1210によって与えられたスコア関数を入力し、
また、このデータに基づいて曖昧規則を決定する。これ
は、スコア関数の代表点を表現するように与えると良
い。次に、メンバシップ関数を調整(修正)する(ステ
ップ1503)。ここでは、例えばモンテカルロ的な確
率的手法が適用できる。すなわち、修正の候補を確率的
に選択し、修正が条件を満たした場合、遡って更新され
る(条件を満たさない場合修正しない)。ここで修正し
たメンバシップ関数に対して、出力を評価する(ステッ
プ1504)。次に、A* 条件を満たすか否かを判定し
(ステップ1505)、満たさなければステップ150
3からやり直す。また、A* 条件を満たせば、誤差評価
を行う(ステップ1506)。ここでは、例えばデータ
1210で与えられたスコア関数との二乗誤差を評価関
数にすれば良い。次に、この誤差二乗関数が小さくなっ
た場合のみ修正を行い(ステップ1507)、それ以外
の場合、ステップ1503で行った修正を無効にする
(もとに戻す)。このような試行を一定回数繰り返すこ
とにより、最適解に近い解(準最適解)が求められる
(ステップ1508)。最適解は、データファイル12
11に格納される。
【0024】
【発明の効果】以上説明したように、本発明によれば、
離散分布型HMMあるいは混合分布型HMM以外の音声
認識システムでも、話者分類による適応的音声認識シス
テムが実現できる。特に、出力確率を曖昧推論系で定義
した場合、高速化手法として領域区分法・変数分離法な
どのテーブル化手法の導入が必須になるが、このような
方法を用いても、話者適応型音声認識が実現できるよう
になるため、高性能の音声認識が比較的容易に実現可能
になる。これまでは話者分類型適応方式においてのスコ
ア関数の議論はなされていなかったが、本発明によれ
ば、音声認識システムの高速化のためには、ベストファ
ーストサーチのような高速探索法の導入が必須になるの
で、話者分類型適応方式のスコア関数も高速に推定可能
になる。
【図面の簡単な説明】
【図1】従来における音声認識装置の例を示す構成図で
ある。
【図2】従来におけるleft-to-right 型HMMの構成例
を示す図である。
【図3】HMMの出力確率の表現形態を示す図である。
【図4】本発明の実施例1を示す音声認識システム構成
法の動作フローチャート(全体図)である。
【図5】図4の実施例1におけるパラメータ学習(ステ
ップ411)の処理フローチャートである。
【図6】曖昧推論による出力確率の推定を示す表現例図
である。
【図7】図4の実施例1における全体調整(ステップ4
06)の処理フローチャートである。
【図8】本発明の実施例2を示す全体調整(ステップ4
06)の処理フローチャートおよびニューラルネットワ
ークの説明図である。
【図9】本発明の実施例3を示す音声認識処理のフロー
チャート(全体図)である。
【図10】図9の実施例3の話者分析処理(ステップ8
04)の詳細フローチャートおよびニューラルネットワ
ークの説明図である。
【図11】本発明の実施例4を示す音声認識処理(全体
図)のフローチャートである。
【図12】実施例4で用いるBest-first-search とスコ
ア推定の説明図である。
【図13】実施例4のテーブル(1010)作成処理の
フローチャートである。
【図14】実施例4の図11における認識照合処理(ス
テップ1002)の詳細フローチャートである。
【図15】本発明の実施例5を示すテーブル(101
0)作成処理のフローチャートである。
【図16】実施例5の図15における曖昧推論系の決定
処理(ステップ1401)の詳細を示すフローチャート
である。
【符号の説明】
101…マイクロコンピュータ,102…マイク,10
3…A/D変換装置,105…認識装置,106…出力
装置,420…学習音声サンプル,421…音声デー
タ,422…音声データ,429…音声データ,431
…HMMデータ,432…HMMデータ,439…HM
Mデータ,430…HMM予備データ,511…構成ガ
ウス分布の推論系,512…テーブル値,810…マイ
ク,811…システムデータ,812…出力結果、10
10…スコア関数,1210…スコア関数のデータ値,1
211…スコア関数の曖昧推論系,1010…テーブル
値。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】隠れマルコフモデル(HMM)を用いた音
    声認識方法のうち、HMMの出力確率を確率密度関数
    (出力関数)で定義する連続分布型HMMを用いた音声
    認識システムのモデル設計方法であって、 老若男女等の話者の特質ごとにカテゴリーに分類したサ
    ンプルを用いて学習し、各カテゴリごとに最適な出力関
    数を決定する第1のステップと、 該第1のステップで決定された各カテゴリーごとの出力
    関数を用いて、全体の出力関数を決定する第2のステッ
    プとを有することを特徴とする音声認識システムのHM
    Mモデル設計方法。
  2. 【請求項2】請求項1に記載の音声認識システムのHM
    Mモデル設計方法において、 前記第1のステップと第2のステップの間に、各カテゴ
    リーごとのHMMの出力確率を曖昧推論で記述するため
    に、まず単一のガウス分布に相当する曖昧推論系を構成
    した後、そのデータを用いて混合ガウス分布系の学習パ
    ラメータを計算して曖昧規則系を構築し、計算に際して
    は、領域区分法に従って操作領域を決定した後、変数分
    離法に従って一変数テーブルを作成する第3のステップ
    を設けたことを特徴とする音声認識システムのHMMモ
    デル設計方法。
  3. 【請求項3】請求項1に記載の音声認識システムのHM
    Mモデル設計方法において、 前記第2のステップは、HMMの出力確率を計算し、適
    当な評価関数を定義して該関数が最大または最小にする
    パラメータを評価し、該パラメータに対し評価を良くす
    る方向に修正した後、収束判定を行う各処理からなるこ
    とを特徴とするHMMモデル設計方法。
  4. 【請求項4】請求項1に記載の音声認識システムのHM
    Mモデル設計方法において、 前記第3のステップは、ニューラルネットワークを用い
    ており、入力された学習データに基づいて誤差逆伝播法
    により結合係数の調整を行い、パラメータを修正した
    後、収束判定を行うことを特徴とするHMMモデル設計
    方法。
  5. 【請求項5】HMMを用いた音声認識方法のうち、HM
    Mの出力確率を出力関数で定義する連続分布型HMMの
    出力確率計算方法において、 上記各HMMの状態ごとに、各カテゴリごとの出力関数
    を決定するパラメータを備え、入力された音声の分析情
    報から、話者のカテゴリをその特質で明確に推定する第
    1のステップと、 該第1のステップで推定したカテゴリの情報と音声の分
    析情報から、出力確率を決定する第2のステップとを有
    することを特徴とする連続分布型HMMの出力確率計算
    方法。
  6. 【請求項6】HMMを用いた音声認識方法のうち、HM
    Mの出力確率を出力関数で定義する連続分布型HMMを
    用いた音声認識方法において、 上記各HMMの状態ごとに、各カテゴリごとの出力関数
    を決定するパラメータを備え、入力された音声の分析情
    報から、話者のカテゴリをモデルに修正された重み係数
    を付して確率的に推定する第1のステップと、 該第1のステップで確率的に推定したカテゴリの情報と
    音声の分析情報から、出力確率を決定する第2のステッ
    プとを有することを特徴とする連続分布型HMMの出力
    確率計算方法。
  7. 【請求項7】請求項5または6に記載の連続分布型HM
    Mの出力確率計算方法において、 前記第1のステップは、音声データである特徴ベクトル
    をニューラルネットワークの入力層に入力し、該ニュー
    ラルネットワークの各ノードごとに計算を実行し、出力
    に相当するノードの計算値を最終出力とすることを特徴
    とする連続分布型HMMの出力確率計算方法。
  8. 【請求項8】請求項5または6に記載の連続分布型HM
    Mの出力確率計算方法において、 前記第2のステップは、ビタビのベストファーストサー
    チの原理を用い、まずHMMパラメータを読み込み、入
    力音声の特徴(特徴ベクトル)と上記HMMパラメータ
    を用いて探索を行った後に、スコアを評価して最適性を
    判定し、最適候補とならないときには次の探索点に処理
    を移しながら同じ処理を繰り返し、残った候補を最適パ
    スとして、その対応するモデルを認識候補として出力す
    ることを特徴とする連続分布型HMMの出力確率計算方
    法。
  9. 【請求項9】HMMを用いた音声認識方法のうち、HM
    Mの出力確率を出力関数で定義する連続分布型HMMを
    用いた音声認識方法において、各HMMの状態ごとに、
    各カテゴリごとの出力関数を決定するパラメータを備 え、入力された音声の分析情報から、話者のカテゴリを
    確率的に推定する第1のステップと、 確率的に推定したカテゴリの情報と音声の分析情報か
    ら、話者とカテゴリーの類似性を評価する第2のステッ
    プと、 評価した類似性に基づいて出力確率を適応させる第3の
    ステップとを有することを特徴とする話者適応方法。
JP9086486A 1997-04-04 1997-04-04 音声認識方法およびそのモデル設計方法 Pending JPH10282986A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9086486A JPH10282986A (ja) 1997-04-04 1997-04-04 音声認識方法およびそのモデル設計方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9086486A JPH10282986A (ja) 1997-04-04 1997-04-04 音声認識方法およびそのモデル設計方法

Publications (1)

Publication Number Publication Date
JPH10282986A true JPH10282986A (ja) 1998-10-23

Family

ID=13888322

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9086486A Pending JPH10282986A (ja) 1997-04-04 1997-04-04 音声認識方法およびそのモデル設計方法

Country Status (1)

Country Link
JP (1) JPH10282986A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003465B2 (en) 2000-10-12 2006-02-21 Matsushita Electric Industrial Co., Ltd. Method for speech recognition, apparatus for the same, and voice controller
WO2006112198A1 (ja) * 2005-03-30 2006-10-26 Pioneer Corporation 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
JP2018128574A (ja) * 2017-02-08 2018-08-16 日本電信電話株式会社 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
CN108922540A (zh) * 2018-07-27 2018-11-30 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003465B2 (en) 2000-10-12 2006-02-21 Matsushita Electric Industrial Co., Ltd. Method for speech recognition, apparatus for the same, and voice controller
WO2006112198A1 (ja) * 2005-03-30 2006-10-26 Pioneer Corporation 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JPWO2006112198A1 (ja) * 2005-03-30 2008-12-04 パイオニア株式会社 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP4682198B2 (ja) * 2005-03-30 2011-05-11 パイオニア株式会社 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
JP2018128574A (ja) * 2017-02-08 2018-08-16 日本電信電話株式会社 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
CN108922540A (zh) * 2018-07-27 2018-11-30 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及系统
CN108922540B (zh) * 2018-07-27 2023-01-24 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及系统

Similar Documents

Publication Publication Date Title
Lee et al. On adaptive decision rules and decision parameter adaptation for automatic speech recognition
Juang et al. Hidden Markov models for speech recognition
Liu et al. Efficient lattice rescoring using recurrent neural network language models
JP3742236B2 (ja) 音声認識のための隠れマルコフ・モデルの適応技術
KR100397402B1 (ko) 음성인식방법,정보형성방법,음성인식장치및기록매체
US5956679A (en) Speech processing apparatus and method using a noise-adaptive PMC model
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN111145718B (zh) 一种基于自注意力机制的中文普通话字音转换方法
US7437288B2 (en) Speech recognition apparatus
JP2775140B2 (ja) パターン認識方法、音声認識方法および音声認識装置
JPH05333898A (ja) 時系列信号処理装置
JP2002366187A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
McDermott et al. Prototype-based minimum classification error/generalized probabilistic descent training for various speech units
JPH10282986A (ja) 音声認識方法およびそのモデル設計方法
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
KR101727306B1 (ko) 언어모델 군집화 기반 음성인식 장치 및 방법
Hochberg et al. Connectionist model combination for large vocabulary speech recognition
Tripathy et al. A knowledge based approach using fuzzy inference rules for vowel recognition.
CN114822497A (zh) 语音合成模型的训练及语音合成方法、装置、设备和介质
JPH0895592A (ja) パターン認識方法
JP4394972B2 (ja) 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体
JPH07261785A (ja) 音声認識方法及び音声認識装置
JP5161174B2 (ja) 経路探索装置、音声認識装置、これらの方法及びプログラム
Yu Adaptive training for large vocabulary continuous speech recognition
Uehara et al. The simulated emergence of chord function

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term