JP3144341B2

JP3144341B2 - 音声認識装置

Info

Publication number: JP3144341B2
Application number: JP09160797A
Authority: JP
Inventors: 健一磯
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1997-03-26
Filing date: 1997-03-26
Publication date: 2001-03-12
Anticipated expiration: 2017-03-26
Also published as: JPH10268893A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置に関
し、特に不特定話者に対する認識率を改善した音声認識
装置に関するものである。

【０００２】

【従来の抜術】新しい話者に対して少ない発声で音声認
識装置を話者適応化する方式として、予め複数（多数）
の話者のそれぞれに対する特定話者標準パターン（ＨＭ
Ｍ、隠れマルコフモデル）を用意しておき、その中から
上記新話者の発声に類似した特定話者標準パターンを１
個または複数個選択して用いる方式（特開平１−１６１
３９９号公報）や、新話者と予め用意した複数の話者の
それぞれとの類似度を算定する手段を用意しておき、新
話者の標準パターンとして、各話者への類似度を荷重係
数として各特定話者標準パターンを重ね合わせた標準パ
ターンを生成する方式（特開平４−１２１７９３号公
報）が知られている。

【０００３】

【発明が解決しようとする課題】前者の方式（特開平１
−１６１３９９号公報）においては、予め用意した複数
の特定話者の中に、新話者に類似した話者が含まれてい
なかった場合は、無理失理にあまり類似していない話者
が選ばれてしまうことがあり、精度の高い話者適応化は
望めない。

【０００４】また、後者の方式（特開平４−１２１７９
３号公報）においては、類似度として予め各特定話者の
任意の発声を用いて、各話者ごとに音響特徴ベクトルの
連鎖に対する確率分布Ｐ（Ｘ_t｜Ｘ_t-1,Ｘ_t-2,Ｘ_t-3,
…）（例えば、音響特徴ベクトルをベクトル量子化した
場合はコード番号列に対する確率テーブルになる）を用
意しておき、新話者の発声の音響特徴ベクトル列に対す
る確率を、各話者の確率分布を用いて算出した値をその
話者への類似度としている。この方式は、新話者の発話
内容が未知の場合も適用可能であるという利点がある
が、発話内容が既知の場合もその情報を活用できず、ま
た発話内容の既知・未知に関わらず、必ずしも数学的に
最適な類似度算定方法という保証がないために高い精度
は望めない。

【０００５】

【課題を解決するための手段】前述の課題を解決するた
め、本発明による音声認識装置は、ＨＭＭを用いた音声
認識装置において、複数のＨＭＭを格納したＨＭＭ記憶
部と、入力音声に対応して前記ＨＭＭ記憶部から読み出
した複数のＨＭＭの出力確率の線形結合を新ＨＭＭの出
力確率とし、前記新ＨＭＭの確率を最大化あるいは極大
化するように前記線形結合の係数を決定する係数推定部
とを備えて構成される。

【０００６】ここで、前記係数推定部は、前記入力音声
の発話内容を既知として、対応する新ＨＭＭの確率を最
大化あるいは極大化するように前記線形結合の係数を決
定し、また、発話内容未知の入力音声に対して、認識対
象単語辞書の各単語の新ＨＭＭ確率を最大化あるいは極
大化するように前記線形結合の係数を推定する係数推定
部と、最大の確率を与えた単語を認識結果として出力す
る認識結果出力部とを有するように構成される。

【０００７】また、本発明の音声認識装置では、新話者
のＨＭＭの出力確率と遷移確率として、予め用意した多
数の話者の特定話者ＨＭＭの各出力確率及び遷移確率
を、新話者の各特定話者に対する類似度パラメータで線
形結合した出力確率と遷移確率を用いて入力音声の認識
を行う音声認識装置において、前記新話者の各特定話者
に対する類似度パラメータを、新話者の未知あるいは既
知の発声に対する新話者ＨＭＭの尤度が最大または極大
になるように最適に推定するように構成される。

【０００８】ここで、前記最適推定は、前記複数のＨＭ
Ｍの出力確率の線形結合を新ＨＭＭの出力確率とし、前
記入力音声に対する新ＨＭＭの確率を最大化あるいは極
大化するように前記線形結合の係数を決定する。

【０００９】更に、本発明の他の態様による音声認識装
置は、入力音声を分析し、一定の時間間隔ごと音響特徴
ベクトルを求める音声分析部と、複数の話者のそれぞれ
の特定話者ＨＭＭを記憶する特定話者ＨＭＭ記憶部と、
各話者のＨＭＭを線形結合するための係数を記憶する係
数記憶部と、各時刻の入力音声特徴ベクトルtに対す
る、全話者の全状態の出力確率を算出して、その線形結
合として新ＨＭＭの全状態に対する出力確率を算出する
特徴ベクトル出力確率計算部と、認識対象単語のそれぞ
れに対して、各単語がどのようなＨＭＭの状態列で表わ
されるかを記憶する単語辞書記憶部と、前記入力音声に
対する新ＨＭＭの確率を算出する新ＨＭＭ確率計算部
と、前記新ＨＭＭ確率計算部からの新ＨＭＭ確率の最大
値を与える単語を認識結果として出力する認識結果出力
部と、前記新ＨＭＭ確率計算部で算出された入力音声に
対する確率を最大化あるいは極大化するような係数を推
定し、推定された係数を前記係数記憶部に記憶する係数
推定部とを備えて構成される。

【００１０】

【発明の実施の形態】図１は本発明に基づく音声認識装
置の一実施形態の構成ブロック図である。音声分析部１
０は、入力音声を分析し、一定の時間間隔ごと（例え
ば、１０ミリ秒ごと〉に抽出したケプストラムなどの音
響特徴ベクトルＸ_tを求め、特徴ベクトル出力確率計算
部２０に送出する。ここで、音響特徴ベクトルＸ_tは、
例えば、１０次元のケプストラム・ベクトルで、添字ｔ
は時間順序を表わす番号（自然数）である。一回の入力
発声に対する音響特微ベクトル時系列全体をＸで表わ
す。Ｘ＝ｘ₁ｘ₂…ｘ_t…ｘ_T

【００１１】特定話者ＨＭＭ記憶部３０には、複数の話
者のそれぞれの特定話者ＨＭＭを記憶する。ＨＭＭは隠
れマルコフモデルの意味で、音声認識分野で最も一般的
に知られ、使用されている認識方式（モデル）であり、
詳細は文献「音声認識の基礎（上・下）、古井監訳、
ＮＴＴアドバンステクノロジ株式会社」（原本は英語
で”ＦｕｎｄａｍｅｎｔａｌｓｏｆＳｐｅｅｃｈ
Ｒｅｃｏｇｎｉｔｉｏｎ”，Ｌ．Ｒａｂｉｎｅｒａｎ
ｄＢ‐ＨＪｕａｎｇ，ＰｒｅｎｔｉｃｅＨａｌ
ｌ）に詳しい。ここでは、例えば、特定話者のＨＭＭ
は、その話者の大量の音声データから学習によって構築
したもので、音素ＨＭＭであるとする（音素とは単語よ
り小さい音声の単位で、単語や文のＨＭＭは音素ＨＭＭ
の連結で表わされる）。

【００１２】各話者の特定話者ＨＭＭは、出力確率ｂ_i
^(s)（ｘ）と遷移確率ａ_ij ^(s)で表わされる。ここで、添
字ｓは話者を表わす番号（自然数）で全話者数をＳ人と
すると、ｓ＝１，２，…，Ｓとなる。添字ｉと添字ｊ
は、ＨＭＭの状態を表わす番号（自然数）で全状態数を
Ｎ個とすると、i,j＝１,…,Ｎとなる。出力確率ｂ_i ^(s)
（ｘ）は、話者ｓの特走話者ＨＭＭの状態ｉが音響特徴
ベクトルｘを出力する確率を表わす。遷移確率ａ_ij ^(s)
は、話者ｓの特定話者ＨＭＭの状態ｉから状態ｊへの遷
移確率である。これらを用いることにより、入力音声Ｘ
に対する話者ｓの特定話者ＨＭＭの確率Ｐ（Ｘ，ｓ）を
算出することができる。

【数１】ここで、ｑ₁ｑ₂…ｑ_T は、各時刻におけるＨＭＭの状態
を表わしている。

【００１３】係数記憶部４０は、各話者のＨＭＭを線形
結合するための係数 Λ＝｛λ₁λ₂…λ_s…λ_S｝を記憶する。λ_sは話者sの特定話者ＨＭＭに対する係数
で、全話者に対する係数の総和は以下のように規格化さ
れている。

【数２】

【００１４】特徴ベクトル出力確率計算部２０は、各時
刻の入力音声特徴ベクトルｘ_tに対する、全話者（ｓ＝
１，２，…，Ｓ）の全状態（ｉ＝１，…，Ｎ）の出力確
率ｂ_i ^(s)（ｘt）を算出して、その線形結合として新Ｈ
ＭＭの全状態（ｉ＝１，…，Ｎ）に対する出力確率

【数３】を算出する。

【００１５】単語辞書記憶部５０は、認識対象単語のそ
れぞれに対して、各単語がどのようなＨＭＭの状態列で
表わされるかを記憶している。例えば、特定話者ＨＭＭ
記憶部３０が各話者の音素ＨＭＭを記憶している場合
は、各単語の音素表記を記憶している（音節ＨＭＭを用
いる場合は各単語の音節表記を記憶している）。

【００１６】新ＨＭＭ確率計算部６０は、入力音声Ｘに
対する新ＨＭＭの確率

【数４】を算出する。

【数５】

【数６】ここで、ａ_qt-1qtは新ＨＭＭの状態ｑ_t-1から状態ｑ_tへ
の遷移確率ｂ_qt（ｘ_t）は新ＨＭＭの状態ｑ_tにおける音
響特徴ベクトルｘ_tの出力確率である。この出力確率は
前記の特徴ベクトル出力確率計算部２０により特定話者
ＨＭＭの出力確率を線形結合して算出されたものであ
る。また、記号ｗは、認識対象単語の番号（自然数）を
表わしている。入力音声の発話内容が既知の場合は、そ
の発話に対応する単語のＨＭＭ状態列情報を単語辞書記
憶部５０から読み出して、その状態列のみが状態遷移に
現れるように、遷移確率ａ_ijのそれ以外の成分を０にす
る。

【００１７】入力音声の発話内容が未知の場合は、単語
辞書記憶部５０に記憶されている全ての認識対象単語の
それぞれについて、上記の発話内容が既知の場合と同様
の確率計算を行い、全ての単語に対する確率を認識結果
出力部７０へ送り、認識結果出力部７０は、その中の最
大値を与える単語

【数７】を認識結果として出力する。

【００１８】係数推定部８０は、新ＨＭＭ確率計算部６
０で算出された入力音声に対する確率

【数８】を最大化あるいは極大化するような係数 Λ＝｛λ₁λ₂…λ_s…λ_S｝を推定する。最適な推定式は以下のように導出すること
ができる。初めに確率

【数９】を次式のように書き換える。

【数１０】

【数１１】ここで、次のようなＱ関数を定義する。

【数１２】上式では表記を簡単にするために、以下の簡略表記を用
いた。

【数１３】

【数１４】

【００１９】また、記号νは、係数に対する制約条件を
導入するためのラグランジェ未定係数である。簡単な計
算により以下の関係があることがわかる。

【数１５】また

【数１６】

【数１７】ここで記号δ_sstはクロネッカーのデルタ記号である。
よって

【数１８】Ｑ関数を極大化するΛ'に対する条件式

【数１９】より

【数２０】が得られる。ここで、制約条件

【数２１】からラグランジェ未定係数を求めると、最終的に係数λ
_s'の再推定式は次式になる。

【数２２】したがって、係数を、例えば、次のような初期値λ_s＝
１／Ｓから出発して、上記の再推定式を用いて逐次更新
していくことにより、最適（確率を極大にする）な係数
を算出することができる。係数の初期値としては各特定
話者ＨＭＭによる確率値を正規化して用いてもよい。

【００２０】上記の再推定式中の確率値

【数２３】と

【数２４】について、漸化式を用いた効率的な計算法を以下に示し
ておく。

【００２１】前向き累積確率の時刻ｔ＝１における初期
値を次式で定義する。

【数２５】時刻ｔにおける前向き累積確率は、

【数２６】

【数２７】で計算され、確率

【数２８】で算出される。

【００２２】次に、後向き累積確率の時刻ｔ＝Ｔにおけ
る初期値を次式で定義する。

【数２９】時刻ｔにおける後向き累積確率は、

【数３０】で計算され、確率

【数３１】で算出される。

【００２３】以上により、係数推定部８０において、最
適な係数が効率的に計算されることが示された。推定さ
れた係数は係数記憶部４０に記憶される。

【００２４】

【発明の効果】本発明の音声認識装置によれば、予め用
意した複数の特定話者の中に、新しい話者に類似した話
者が含まれていなかった場合にも、従来のように無理失
理にあまり類似していない話者を選んでしまうことはな
く、特定話者ＨＭＭの線形結合を用いることにより、新
話者に最適な新ＨＭＭを作成することができる。

【００２５】また、この特定話者ＨＭＭの線形結合を定
める係数として、ＨＭＭの枠組みにおいて最適な推定値
を与えることができる。

【図面の簡単な説明】

【図１】本発明による音声認識装置の一実施形態を示す
構成ブロック図である。

【符号の説明】

１０音声分析部２０特徴ベクトル出力確率計算部３０特定話者ＨＭＭ記憶部４０係数記憶部５０単語辞書記憶部６０新ＨＭＭ確率計算部７０認識結果出力部８０係数推定部

フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/14 ＪＩＣＳＴファイル（ＪＯＩＳ) ＩＥＥＥ／ＩＥＥＥｌｅｃｔｒｏｎｉｃＬｉｂｒａｒｙＯｎｌｉｎｅ

Claims

(57)【特許請求の範囲】

【請求項１】ＨＭＭを用いた音声認識装置において、複数の混合連続分布ＨＭＭを格納したＨＭＭ記憶部と、入力音声に対応して前記ＨＭＭ記憶部から読み出した複
数の混合連続分布ＨＭＭの各状態の出力確率分布を全状
態に共通の線形結合係数で混合した出力確率分布を新Ｈ
ＭＭの出力確率分布とし、前記新ＨＭＭの確率を最大化
あるいは極大化するように前記線形結合係数を決定する
係数推定部を備えて成ることを特徴とする音声認識装
置。
【請求項２】前記係数推定部は、前記入力音声の発話内
容を既知として、対応する新ＨＭＭの確率を最大化ある
いは極大化するように前記線形結合の係数を決定する請
求項１に記載の音声認識装置。
【請求項３】発話内容未知の入力音声に対して、認識対
象単語辞書の各単語の新ＨＭＭ確率を最大化あるいは極
大化するように前記線形結合の係数を推定する係数推定
部と、最大の確率を与えた単語を認識結果として出力す
る認識結果出力部とを有する請求項１に記載の音声認識
装置。
【請求項４】新話者の混合連続分布ＨＭＭの各状態の出
力確率分布と遷移確率として、予め用意した多数の話者
の特定話者の混合連続分布ＨＭＭの各状態の各出力確率
分布と遷移確率を、新話者の各特定話者に対する類似度
パラメータで線形結合した出力確率分布と遷移確率を用
いて入力音声の認識を行う音声認識装置において、前記新話者の各特定話者に対する類似度パラメータを、
新話者の未知あるいは既知の発声に対する新話者の混合
連続分布ＨＭＭの尤度が最大または極大になるように最
適に推定することを特徴とする音声認識装置。
【請求項５】前記最適推定は、前記複数の混合連続分布
ＨＭＭの各状態の出力確率分布の線形結合を新ＨＭＭの
出力確率分布とし、前記入力音声に対する新ＨＭＭの確
率を最大化あるいは極大化するように前記線形結合の係
数を決定する請求項4に記載の音声認識装置。
【請求項６】入力音声を分析し、一定の時間間隔ごとに
音響特徴ベクトルを求める音声分析部と、複数の話者のそれぞれの特定話者の全音素分の混合連続
分布ＨＭＭを記憶する特定話者ＨＭＭ記憶部と、各話者の上記ＨＭＭを線形結合するための音素によらな
い一定値の係数を記憶する係数記憶部と、各時刻の入力音声特徴ベクトルtに対する、全話者の全
状態の出力確率を算出して、その線形結合として新ＨＭ
Ｍの全状態に対する出力確率を算出する特徴ベクトル出
力確率計算部と、認識対象単語のそれぞれに対して、各単語がどのような
ＨＭＭの状態列で表わされるかを記憶する単語辞書記憶
部と、前記入力音声に対する新ＨＭＭの確率を算出する新ＨＭ
Ｍ確率計算部と、前記新ＨＭＭ確率計算部からの新ＨＭＭ確率の最大値を
与える単語を認識結果として出力する認識結果出力部
と、前記新ＨＭＭ確率計算部で算出された入力音声に対する
確率を最大化あるいは極大化するような係数を推定し、
推定された係数を前記係数記憶部に記憶する係数推定部
と、を備えて成ることを特徴とする音声認識装置。