JPH08123470A

JPH08123470A - 音声認識装置

Info

Publication number: JPH08123470A
Application number: JP6260413A
Authority: JP
Inventors: Toru Imai; 亨今井; Akio Ando; 彰男安藤; Eiichi Miyasaka; 栄一宮坂
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1994-10-25
Filing date: 1994-10-25
Publication date: 1996-05-17

Abstract

(57)【要約】【目的】話者に依存した発声変形を自動的に吸収し、
音声認識の性能を向上させた音声認識装置を提供する。【構成】話者に依存した発声変形ルールを自動的に求
める発声変形ルール自動生成部と、発声変形ルールに基
づいてシングルエントリ辞書からマルチエントリ辞書を
作成するマルチエントリ化処理部と、マルチエントリ辞
書を用いて音声認識を行う認識処理部とを具備する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、話者に依存した発声
変形を自動的に吸収する音声認識装置に関するものであ
る。

【０００２】

【従来の技術】従来のこの種の音声認識技術には、例え
ば次ののよう技術が提案されている。母音の無声化などの音声学的知識を認識系に組み込
む技術（渡辺隆夫ほか「半音節を単位とするＨＭＭを用
いた不特定話者音声認識」信学論J75-D-II No.8,pp.128
1-1289(1992) 、相川清明ほか「Top-down的音韻認識に
基づく単語音声認識」信学論J67-D No.6, ｐｐ.693-700
(1984)、M. Weintraub, et. al., "Linguistic Constra
ints in Hidden Markov Model Based Speech Recogniti
on", ICASSP-89, pp. 699-702(1989) 参照) 。音素認識系から得た誤認識の傾向を音声変形ルール
として利用する技術( 田中信一ほか「日本語 Dictation
システムにおける文節検出の高速化」信学技報SP90-7
0(1990) 参照) 。

【０００３】

【発明が解決しようとする問題点】上述した従来の技術
では、一般的な発声変形の傾向を利用するので、つぎ
のような問題点がある。話者に依存した発声変形を吸収
することが難しい。認識モデルに依存した認識誤りを、
認識辞書の再構築により減少させることが難しい。音声
学的知識を人手で登録しなければならず手間である。ま
た従来の技術は、話者に依存した発声変形に対処でき
るものの、音素認識系などのボトムアップ的な認識系で
しか利用できず、音素ＨＭＭ(Hidden MarkovModel: 隠
れマルコフモデル) を連結したモデルで尤度を求めるな
どのトップダウン的な認識系では利用できない。従っ
て、本発明の目的は、上記問題点を伴うことなく話者に
依存した発声変形を自動的に吸収し、音声認識の性能を
向上させた音声認識装置を提供せんとするものである。

【０００４】

【問題点を解決するための手段】この目的を達成するた
め、本発明音声認識装置は、話者に依存した発声変形ル
ールを自動的に求める発声変形ルール自動生成部と、発
声変形ルールに基づいてシングルエントリ辞書からマル
チエントリ辞書を作成するマルチエントリ化処理部と、
マルチエントリ辞書を用いて音声認識を行う認識処理部
とを具備したことを特徴とするものである。また、本発
明の好適な実施態様は前記発声変形ルール自動生成部
が、認識対象話者の連続音声中の各音素の尤度および継
続時間長を、その標準的発音記号列と音声認識モデルか
ら算出し、音声認識モデル学習時の尤度および継続時間
長と比べて評価の低い音素を検出する音素評価部と、こ
の音素から脱落、置換、挿入の発声変形ルールの複数の
仮説を生成する仮説生成部と、複数の仮説による尤度上
昇と識別能力向上を認識対象話者の連続音声で検証し、
複数の仮説の中から合格とみなされた仮説を発声変形ル
ールとして採用する仮説検証部とを備えたことを特徴と
するものである。

【０００５】（実施例）以下添付図面を参照し、実施例
により本発明を詳細に説明する。本発明による音声認識
装置の一構成例を示す図１を参照するに、一実施例は、
ルール作成用連続音声｛Ｓ_k｝の入力部１と、その発声
内容に対する標準的発音記号列｛Ｐ_k｝の入力部２と、
不特定話者音素ＨＭＭ｛Ｙ_m｝の入力部３と、発声変形
ルール自動生成部４と、音素評価を行うブロック５と、
仮説生成を行うブロック６と、仮説検証を行うブロック
７と、メモリ部８と、発声変形ルール９と、マルチエン
トリ辞書１０と、シングルエントリ辞書の入力部１１
と、マルチエントリ化処理部１２と、認識用音声の入力
部１３と、認識処理部１４と、認識結果の出力部１５と
を含む。まず、入力部１に認識対象話者が発声した５０
文程度の連続音声｛Ｓ_k｝を入力し、入力部２に
｛Ｓ_k｝に対応する標準的発音記号列｛Ｐ_k｝を入力
し、入力部３に例えば最尤推定学習法などのＨＭＭ学習
法で作成した不特定話者音素ＨＭＭ｛Ｙ_m｝と、各音素
ｍの平均尤度Ｌ_mと継続時間長（平均μ_m、標準偏差σ
_m、最小値τ_mなど）を入力する。

【０００６】発声変形ルール自動生成部４はこれらの入
力データを受け取り、音素評価を行うブロック５におい
て、ルール作成用連続音声｛Ｓ_k｝のＳ_kに対して、そ
の標準的発音記号列｛Ｐ_k｝のＰ_kに基づいて連結した
ＨＭＭで例えばViterbi アルゴリズムを適用し、全体の
尤度Ｌ（Ｓ_k｜Ｐ_k）およびＰ_k中のｉ番目の音素Ｘ^k
_iの尤度Ｌ^k _iと継続時間長ｔ^k _iを求める。この時、
Ｐ_kのすべての文節間に挿入されているポーズ記号と無
音ＨＭＭを用いて、音声中の文節間のポーズの有無を自
動判別する。仮説生成を行うブロック６において、音素
Ｘ^k _iの継続時間長と尤度をＨＭＭ学習時と比較し、評
価の低い場合にその音素から次のような音素の３つ組あ
るいは２つ組間の発声変形の仮説を生成する。

【０００７】(i) 脱落ルール（ＡＢＣ→ＡＣ、音素ＡＢ
Ｃのうち音素Ｂが脱落するルール）継続時間長が短いか尤度が低い音素をＰ_kから検出し、
脱落ルールを作成する。音素Ｘ^k _i＝Ｙ_mの時、次の３
つの条件ｔ^k _i＜μ_m−２σ_m、ｔ^k _i＜τ_m、Ｌ^k _i＜Ｌ_m （１）のいずれかが満たされる時、Ｐ_kからＸ^k _iを脱落さ
せ、新たな発音記号列Ｐ_k′を作る。Ｐ_k′に基づいて
音素ＨＭＭを連結し、尤度Ｌ（Ｓ_k｜Ｐ_k′）を求め
る。もしＬ（Ｓ_k｜Ｐ_k）＜Ｌ（Ｓ_k｜Ｐ_k′）（２）ならば、Ｘ^k _i-1Ｘ^k _iＸ^k _i+1→Ｘ^k _i-1Ｘ^k _i+1を
脱落ルールの仮説とする。

【０００８】(ii)置換１ルール（ＡＢＣ→ＡＤＣ、音素
ＡＢＣのうち音素ＢをＤに置換するルール）音素Ｘ^k _iが（１）式のいずれかを満たすならば、これ
を他の全ての音素で順次置換し、最も尤度が高くなる音
素Ｘ_newによる新たな発音記号列Ｐ_k′を作る。もし
（２）式が満たされるならば、Ｘ^k _i-1Ｘ^k _iＸ^k _i+1
→Ｘ^k _i-1Ｘ_newＸ^k _i+1を置換１ルールの仮説とす
る。

【０００９】(iii) 置換２ルール（ＡＢＣ→ＤＣ、音素
ＡＢＣのうち音素対ＡＢをＤに置換するルール）音素対Ｘ^k _i-1Ｘ^k _iに対し、Ｘ^k _i-1とＸ^k _iの継続
時間長の和が、それぞれのＨＭＭ学習時の継続時間長の
和と比べて（１）式と同様に短い、あるいは尤度が低い
かどうかを調べる。もしそうであれば音素対Ｘ^k _i-1Ｘ
^k _iを全ての音素で順次置換し、Ｓ_kの尤度が最も高く
なる音素Ｘ_newによる新たな発音記号列Ｐ_k′を作る。
（２）式が満たされるならば、Ｘ^k _i-1Ｘ^k _iＸ^k _i+1
→Ｘ_newＸ^k _i+1を置換２ルールの仮説とする。(iv)挿
入ルール（ＡＢ→ＡＣＢ、音素ＡＢの間に音素Ｃを挿入
するルール）音素対Ｘ^k _i-1Ｘ^k _iの継続時間長が(iii) と同様にＨ
ＭＭ学習時と比べて長い、あるいは尤度が低い場合、Ｘ
^k _i-1Ｘ^k _i間に全ての音素を順次挿入し、Ｓ_kの尤度
が最も高くなる音素Ｘ_newによる新たな発音記号列
Ｐ_k′を作る。もし（２）式が満たされるならば、Ｘ^k
_i-1Ｘ^k _i→Ｘ^k _i-1Ｘ_newＸ^k _iを挿入ルールの仮説
とする。以上(i) 〜(iv)の処理を、すべてのルール作成
用連続音声の全ての音素｛Ｘ^k _i｝に対して行う。

【００１０】次に、仮説検証を行うブロック７におい
て、仮説として生成された各発声変形ルールの左辺の音
素列を含む標準的発音記号列Ｐ_kを、標準的発音記号列
｛Ｐ_k｝から全て選ぶ。これらに発声変形ルールの仮説
を適用し、各発声変形ルールに対するルール作成用連続
音声｛Ｓ_k｝の平均の対数尤度上昇値を求める。この値
が負になる発声変形ルールは仮説から削除し、それ以外
はこの値を発声変形ルールの効果を示す値として保存す
る。更に識別能力を調べるため、ルール作成用連続音声
｛Ｓ_k｝をViterbi アルゴリズムによりポーズで分割す
る。これらフレーズ音声の尤度を、発声変形ルールを適
用した全フレーズの発音記号列で求める。正解と最近傍
のフレーズによる尤度の差が、ルール適用前に比べて上
昇するルールのみを、最終的な発声変形ルール９として
採用し、メモリ部８に蓄える。

【００１１】認識タスクの１つの“言葉”（単語あるい
は文節）に１つ発音記号列を対応づけたシングルエント
リ辞書を入力部１１に入力し、マルチエントリ化処理部
１２において、自動生成された発声変形ルール９を適用
して、各“言葉”に複数の発音記号列を対応付けたマル
チエントリ辞書１０を構築し、メモリ部８に蓄える。た
だし１つの“言葉”から生成される複数の発音記号列の
うち、発声変形ルール生成時の平均の対数尤度上昇値の
上位ｎ個までを用いる（ｎはシングルエントリ辞書の各
“言葉”の音素数）。

【００１２】最後に音声認識処理部１４において、マル
チエントリ辞書１０と入力部３の不特定話者音素ＨＭＭ
を用いて、入力部１３の認識用音声の音声認識を行う。
認識結果の文字列は、出力部１５に出力される。この
時、認識候補の尤度算出に、例えばマルチエントリ辞書
の複数の発音記号列による尤度の平均値を用いる。本発
明のもう一つの実施例は、マルチエントリ辞書１０の構
成法として、発声変形ルール９に基づいて入力部１１の
シングルエントリ辞書から発音記号ネットワークを作成
し、これをマルチエントリ辞書１０として利用する方法
である。この場合、発音の分岐に確率値を導入し、認識
候補の尤度を算出する。

【００１３】次にほぼ文節単位のフレーズ音声の認識実
験により、本発明の有効性の検証を行う。音声認識モデ
ルには離散分布型ＨＭＭを用い、市販の日本語データベ
ースの男性話者１５名が発声した５０文中の、ラベルに
基づく音素（最大６００データ／音素）を用いて学習を
行う。ルール作成用連続音声１には、上記とは異なる市
販の日本語データベースの男性話者１名が発声した５０
文を用いる。認識用音声１３には、同話者の異なる内容
の２５文からほぼ文節単位に切り出した約１４０フレー
ズを用いる。音響分析条件は、標本化周波数１５ｋＨ
ｚ、高域強調（１−０．９５ｚ^-1）、ハミング窓（幅２
０ｍｓ，周期５ｍｓ）、１８次線形予測分析である。特
徴パラメータは、１８次ＬＰＣケプストラム係数、１８
次ΔＬＰＣケプストラム係数、Δ対数パワーで、コード
ブックサイズはそれぞれ２５６、２５６、６４である。
音素ＨＭＭは４１種類、子音は４状態、母音と無音は２
状態のleft-to-right モデルである。シングルエントリ
辞書１１には認識候補として、評価する全フレーズに対
応する標準的発音記号列を記述する。これに、ルール作
成用連続音声１から自動生成された発声変形ルール９を
適用し、評価する全フレーズに複数の発音記号列を対応
づけたマルチエントリ辞書１０を構築する。認識実験
は、５名の話者（Ａ〜Ｅ）に対して行った。得られた発
声変形ルールの例を図２に、マルチエントリ辞書の例を
図３に、認識率を図４に示す。シングルエントリ辞書の
場合に認識率の高い上位２名の話者（Ｄ，Ｅ）に対して
は、マルチエントリ化の効果はあまり見られなかった
が、下位３名（Ａ，Ｂ，Ｃ）に対しては平均で３．５
％、最高で３．９％認識率が向上した。この結果は、特
にシングルエントリ辞書の場合に認識率の低い話者に対
して本発明の効果が高いことを示している。

【００１４】以上説明してきた実施例は本発明のほんの
一部にすぎず本発明はこれら実施例に限定されることな
く、特許請求の範囲に記載した発明の要旨内で各種の変
形、変更のあることは当業者に自明であろう。

【図面の簡単な説明】

【図１】本発明一実施例の構成を示す図。

【図２】発声変形ルールの例を示す図。

【図３】マルチエントリ辞書の例を示す図。

【図４】認識実験の結果を示す図。

【符号の説明】

１ルール作成用連続音声の入力部２標準的発音記号列の入力部３不特定話者音素ＨＭＭの入力部４発声変形ルール自動生成部５音素評価を行うブロック６仮説生成を行うブロック７仮説検証を行うブロック８メモリ部９発声変形ルール１０マルチエントリ辞書１１シングルエントリ辞書の入力部１２マルチエントリ化処理部１３認識用音声の入力部１４認識処理部１５認識結果の出力部

Claims

【特許請求の範囲】

【請求項１】話者に依存した発声変形ルールを自動的
に求める発声変形ルール自動生成部と、発声変形ルール
に基づいてシングルエントリ辞書からマルチエントリ辞
書を作成するマルチエントリ化処理部と、マルチエント
リ辞書を用いて音声認識を行う認識処理部とを具備した
ことを特徴とする音声認識装置。
【請求項２】請求項１記載の音声認識装置において、
前記発声変形ルール自動生成部が、認識対象話者の連続
音声中の各音素の尤度および継続時間長を、その標準的
発音記号列と音声認識モデルから算出し、音声認識モデ
ル学習時の尤度および継続時間長と比べて評価の低い音
素を検出する音素評価部と、この音素から脱落、置換、
挿入の発声変形ルールの複数の仮説を生成する仮説生成
部と、複数の仮説による尤度上昇と識別能力向上を認識
対象話者の連続音声で検証し、複数の仮説の中から合格
とみなされた仮説を発声変形ルールとして採用する仮説
検証部とを備えたことを特徴とする音声認識装置。
【請求項３】請求項１または２記載の音声認識装置に
おいて、前記マルチエントリ化処理部が、認識タスクの
単語あるいは文節に対する標準的発音記号列のみを記述
したシングルエントリ辞書に発声変形ルールを適用する
ことにより、認識タスクの単語あるいは文節に複数の発
音記号列を割り当てたマルチエントリ辞書を作成し、前
記認識処理部が、マルチエントリ辞書の複数の発音記号
列から算出された尤度の平均値を、音声認識時の各候補
の尤度として利用することを特徴とする音声認識装置。
【請求項４】請求項１または２記載の音声認識装置に
おいて、前記マルチエントリ化処理部が、認識タスクの
単語あるいは文節に対する標準的発音記号列のみを記述
したシングルエントリ辞書に発声変形ルールを適用する
ことにより、分岐確率を備えた発音記号ネットワークを
構成してマルチエントリ辞書を作成し、前記認識処理部
が、発音記号ネットワークであるマルチエントリ辞書を
用いて各候補の尤度を算出することを特徴とする音声認
識装置。