JP3353334B2

JP3353334B2 - 音声認識装置

Info

Publication number: JP3353334B2
Application number: JP16516392A
Authority: JP
Inventors: 泰山崎; 晋太木村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1992-06-24
Filing date: 1992-06-24
Publication date: 2002-12-03
Anticipated expiration: 2017-12-03
Also published as: JPH064096A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は入力音声パターンを単語
標準パターンと照合して単語を認識する音声認識装置に
関する。

【０００２】

【従来の技術】図４は従来の音声認識装置のブロック構
成図である。図５はそこで使われる照合データを示す。

【０００３】スペクトル分析部１では、入力音声を一定
の時間（フレーム）毎に区分し、フレーム毎にＦＦＴ等
を用いてスペクトル分析を行い、分析結果を保持する。
分析単位としてはフレーム長は10ミリ秒程度、周波数区
分は200 〜5000Hz程度の帯域を20チャネル程度に分割
し、その分割範囲のパワー値を値とする。周波数帯域の
分割方法には等分割やメル尺度分割（人間の耳の感度に
応じた分割) 等を用いる。

【０００４】分析結果は、図５（Ａ）に示すように、ｉ
を入力フレーム番号、ｊを周波数区分番号（チャネル番
号）としてＡ＝｛ａ_ij｝で示される。

【０００５】音素テンプレート記憶部２では、図５
（Ｂ）に示すように各音素あるいは音素に準ずる音声単
位（以下、音素と記す）毎に、入力と同じ分割方法で処
理された標準音声のパターンをテンプレートとして保持
している。

【０００６】音素は母音（Ａ，Ｉ，Ｕ，Ｅ，Ｏ）、子音
（Ｋ，Ｓ，Ｔ，Ｎ，Ｈ，Ｍ・・・）等２０種程度のカテ
ゴリに分け、語頭、語尾、前後の他の音素の影響による
変形等に対応してカテゴリ毎に１０種程度の複数のテン
プレートを用意している。

【０００７】テンプレートは、図５（Ｂ）に示すよう
に、ｋを音素のカテゴリ（種類) 番号、ｌを各カテゴリ
内のテンプレート番号、ｊを周波数区分番号として、Ｂ＝｛ｂ_klj｝で示される。

【０００８】継続時間記憶部３では各音素毎に、ｋをカ
テゴリ番号として、継続時間の最小長、最大長｛ｓ_k, ｔ_k｝平均時間長（標準継続時間）｛ｖ_k｝および、図５（Ｃ），（Ｄ）に示すように、ｋをカテゴ
リ番号、ｍを継続時間（フレーム数）として、継続時間
の重み分布Ｇ＝｛ｇ_km｝を記憶している。これらを標準継続時間分布と称する。

【０００９】単語モデル記憶部４では、図５（Ｅ）に示
すように、ｗを単語番号、ｎを単語モデル内の音素番号
として、各単語モデルについて音素列Ｃ＝｛ｃ_wn｝を記憶している。

【００１０】照合部５では、入力音声と各単語モデルと
の照合を行い、最も類似度の高いものを入力音声の識別
結果であるとする。問題は、同じ単語であっても発声の
度に時間長が異なることである。従って時間軸上での非
線形なパターンマッチングが必要になる。

【００１１】入力パターンＡと標準パターンＣ_wの時間
軸上の対応づけは逐一行うためＤＰ（Dynamic Programi
ng）法を用いる。図６はＤＰ法による照合の概念図であ
る。入力パターンＡと標準パターンＣ_wの時系列の対応
を考えると、入力パターンＡの時間軸を伸縮させなが
ら、各フレームが交差する所（格子点）を通り、全体を
最も短く結び付ける経路を見つければよい。そのために
は、入力フレームと音素テンプレート間の距離（局所距
離）を基本として全体の距離の累積値が最小になるよう
にする。これを各単語モデルについて行い、最も距離の
小さいものを結果とする。

【００１２】各単語モデルに関して、局所距離、すなわ
ち入力フレームｉと、単語モデルのノードｎ（ｎ番目の
音素）の最も近い音素テンプレートとの距離ｄ_inは、そ
のノードの音素のカテゴリ番号がｋで、その音素テンプ
レートの数がＬ個であるとして、 (k ：単語モデルのｎ番目の音素のカテゴリ番号）とな
る。

【００１３】ＤＰパスの形は継続時間を制御することに
より、図６に示すものとなる。各格子点の値は、そこに
達する最短の累積距離を示す。各格子点までの累積距離
Ｄ_inは、ただしｙ：継続時間 (フレーム数) 累積距離の初期値Ｄ₀₀＝０Ｄ_i0＝∞ (i=1,I) Ｄ_0n＝∞ (n=1,N) となる。

【００１４】式２の第一項は、格子点（ｉ，ｎ）におけ
る累積距離すなわちＤ_inを基準に考えると、継続時間の
制約（ s_k〜 t_k) から、ここに達する一つ前の格子点
は限定されることを示す。つまり、図６の格子点に達
する経路の一つ前の格子点はからのいずれかに限ら
れ、その外は対象外である。

【００１５】第二項は、継続時間の平均（標準値）から
のずれを重みとして距離に換算したものであり、第三項
は、一つ前の格子点までの累積距離である。単語モデル
ｗとの照合距離は、入力の最終フレームと単語モデルの
最終音素まで比較した累積距離であって、Ｄ_w＝Ｄ_IN （W:単語番号，I:入力の最終フレーム，
N:単語モデルの最終音素）照合結果は、Ｄ＝｛Ｄ_w｝となる。

【００１６】照合結果のうち、照合距離の最も小さい単
語モデルが認識結果として出力される。

【００１７】

【発明が解決しようとする課題】上記従来技術で単語照
合する際に次のような問題が起こりうる。例えば『オオ
タ』という音声を入力した際に、「ＯＯＴＡ」でなく、
「ＯＯＩＴＡ」と誤認識することがある。この場合「Ｏ
ＯＩＴＡ（以下単語番号１）」との照合距離Ｄ₁（例
えば、５０とする）の方が、「ＯＯＴＡ（以下単語番号
２）」との照合距離Ｄ₂（例えば、６０とする）より
も小さくなって「ＯＯＩＴＡ」が認識結果として得られ
る場合である。この場合の入力と各単語との照合結果の
例を図７（Ａ），（Ｂ）に示す。「ＯＯＩＴＡ」、「Ｏ
ＯＴＡ」の各音素について継続時間を見てみると、それ
ぞれ、「10,10,10, 7,23」、「15,15, 7,23 」である。

【００１８】( 単位：フレーム 1 フレーム＝10ミリ
秒) ここで、各音素の標準継続時間が (Ｏ) (Ｉ) (Ｔ) (Ａ) ｖ₅ = 12 , ｖ₂= 12 , ｖ₈= 4 , ｖ₁= 20
(単位：フレーム) の場合、標準継続時間からのずれＺ_wn = ｖ_k- dur _n 式３（ｗ：単語番号，ｎ：単語モデル中のノード番号ｋ：単語モデルのｎ番目の音素のカテゴリ番号ｖ_k：カテゴリｋの標準継続時間 dur_n：単語モデルのｎ番目の音素としたときの継続時
間）はそれぞれ (O) Z₁₁= 12 - 10 = 2 (O) Z₂₁= 12 - 15 = -3 (O) Z₁₂= 12 - 10 = 2 (O) Z₂₂= 12 - 15 = -3 (I) Z₁₃= 12 - 10 = 2 (T) Z₂₃= 4 - 7 = -3 (T) Z₁₄= 4 - 7 = -3 (A) Z₂₄= 20 - 23 = -3 (A) Z₁₅= 20 - 23 = -3 単位：フレームとなる。これを図に示したものが図７（Ｃ）である。

【００１９】入力の音声が速く発音されたり遅く発音さ
れたりした場合には各音素について標準継続時間からの
ずれは一方向へのずれであるが、別の単語と照合した場
合には、ずれの方向（および大きさ）がばらつくことを
示す。

【００２０】以上のように、照合距離が小さくても、継
続時間に関して平均からのばらつきが大きい場合には照
合結果が正しくない場合がある。本発明は、継続時間に
関して平均からのばらつきを考慮することにより、認識
率を高くした音声認識装置を実現することを目的として
いる。

【００２１】

【課題を解決するための手段】図１は本発明の原理ブロ
ック図である。従来の音声認識装置に対して、入力音声
パターンを音素に分割する分割部６と、標準継続時間と
のずれの分散を計算する時間長ずれ計算部７と、照合距
離を補正する距離補正部８とを備える。

【００２２】

【作用】従来の音声認識装置で誤った認識結果を得る原
因として、各音素について標準継続時間とのずれのばら
つきを考慮せずに照合距離を用いていたことがあげられ
る。

【００２３】上記問題を解決するため、各音素について
標準継続時間とのずれの分散SD_wを算出し、 ( ave Z_w: 標準継続時間からのずれＺ_wnの平均）補正距離として従来の照合距離Ｄ_wに加える。

【００２４】ＮＤ_w= Ｄ_w＋k SD_w ( k：比例定数) 式５これにより継続時間のずれのばらつきを考慮した、類似
度をより正確に表す新たな照合距離ＮＤ_wを求めたこと
になる。

【００２５】図３に分割部６の動作説明図を示す。図３
（Ａ）は入力を「ＯＯＩＴＡ」と対応させたときのＤＰ
パスを示す。各格子点はそこまでの累積距離の最低値Ｄ
_inを示し、全体で最も短い累積距離となる経路を枠と矢
印で示すものである。

【００２６】図３（Ｂ）は、各格子点で、式２の累積距
離Ｄ_inが最低値になるときの継続時間ｙの値Ｙ_inを示
す。分割部６はこのＹ_inを照合部５から受け取り記憶す
る。これを照合後に、図３（Ｂ）に示すように終端（語
尾）から始端（語頭）に向かって経路を後戻りすること
で音素に分割する。こうして単語モデルの各ノードに対
応させたときの音素の継続時間｛ dur_n｝を得る。

【００２７】時間長ずれ計算部７は、式３により、分割
された音素の継続時間 dur_nと継続時間記憶部３から得
た標準継続時間ｖ_kとの差Ｚ_wnを計算し、さらに式４に
より、ずれの分散SD_wを求める。

【００２８】距離補正部８は式５により、ずれの分散SD
_wを加えて補正した照合距離ＮＤ_wを算出し、距離の近
さ一位の単語を認識結果とする。このように構成するこ
とにより、より正確な認識結果を得ることができる。

【００２９】なお、ずれの分散SD_wを求める場合、実用
上は対象とする音素を限定したり対象単語を限定して処
理時間を短くできる。

【００３０】

【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。図２は本発明の実施例のブロック図であ
る。図１、図４と同一機能のものは、同一の符号を付し
て示す。

【００３１】図２において、１はスペクトル分析部であ
り、ＡＤ変換器、ＦＦＴ演算回路等と分析結果を記憶す
る記憶部よりなる。２は音素テンプレート記憶部、３は
継続時間記憶部、４は単語モデル記憶部であり、前記の
分析結果の記憶部と共にＥＷＳ（エンジニアリングワー
クステーション）の記憶部に置く。５は照合部、６は分
割部、７は時間長ずれ計算部、８は距離補正部でＥＷＳ
のプロセサおよびソフトウェアで構成される。

【００３２】動作手順を以下に示す。スペクトル分析部１ではスペクトル分析し、結果Ａ＝
｛ａ_ij｝を保持する。分析単位としてはフレーム長は10
ミリ秒程度、周波数区分は200 〜5000Hz程度の帯域を20
チャネル程度に分割し、その分割範囲のパワー値を値と
する。音素テンプレート記憶部２、継続時間記憶部３、単語
モデル記憶部４に記憶した、音素テンプレートＢ＝｛ｂ
_klj｝、単語モデルＣ＝｛ｃ_wn｝、継続時間の最小長、
最大長｛ｓ_k, ｔ_k｝、重みＧ＝｛ｇ_km｝を用いて、
照合部５でＤＰ照合を行い、Ｄ＝｛Ｄ_w｝を得る。カ
テゴリ数は20程度、テンプレート数は10程度、単語モデ
ル数は1000程度である。ここまでは従来技術と同じであ
る。次に、分割部６で照合結果を用いて図３に示すように
入力音声を各音素に分割して音素の継続時間を決定し、時間長ずれ計算部７で各音素について標準からのずれ
の分散を計算し、距離補正部８で照合距離を時間長ずれ計算部７で計算
した結果を用いて補正する。

【００３３】例えば前記の『オオタ』の場合には、「Ｏ
ＯＩＴＡ」に関するずれはばらついているので距離を大
きくし、「ＯＯＴＡ」についてはずれのばらつきが全く
ないので距離はそのままとする。具体的には各照合距離
は，ＮＤ₁= Ｄ₁+ k SD₁= 50 + 2×6 = 62 ＮＤ₂= Ｄ₂+ k SD₂= 60 + 2×0 = 60 (aveZ : 標準継続時間からのずれＺの平均）のように計算することができ、ＮＤ₂より小さいものが
ない（この場合他の単語モデルとの照合距離Ｄ₃〜はず
っと大きいとする）ので、照合結果は『オオタ』と正し
くすることができる。

【００３４】本実施例では、音素選択部９、単語選択部
10を加えてある。もちろん、どちらか一つだけでもよ
い。音素選択部９では標準とのずれを計算すべき音素を
限定する。これは継続時間の短い子音に比べて、母音等
の方が顕著にずれが見られるからである。例えば、母音
だけに限定すれば、処理時間が短くなる。

【００３５】単語選択部10では距離補正を行う単語を限
定する。これはすべての単語モデルについて距離補正を
行う必要はなく、照合距離Ｄ_wの上位のもの（正しい認
識結果となる可能性の高いもの）について行えば充分で
あるからである。上位の数単語についてのみ補正するな
ら処理時間は少なくてよい。

【００３６】例えば、距離Ｄ_wが域値以下の単語について距離Ｄ_wが小さい順に上位ｎ位までの単語について１位との距離Ｄ_wの差が域値以下の単語について順位が１つ上の単語との距離Ｄ_wの差が域値以下の
単語について距離補正を行うなどでよい。

【００３７】

【発明の効果】以上詳細に説明したように、本発明によ
れば従来の照合方式の後処理として継続時間のずれを照
合距離に反映させることで、より精密な照合が可能とな
り、認識率の高い音声認識装置を実現することができ
る。

【図面の簡単な説明】

【図１】本発明の原理ブロック構成図である。

【図２】本発明の実施例のブロック構成図である。

【図３】分割部の動作説明図である。

【図４】従来の音声認識装置のブロック構成図である。

【図５】照合データを示す図である。

【図６】ＤＰ法による照合の概念図である。

【図７】照合結果の例を示す図である。

【符号の説明】

１スペクトル分析部２音素テンプレート記憶部３継続時間記憶部４単語モデル記憶部５照合部６分割部７時間長ずれ計算部８距離補正部９音素選択部 10 単語選択部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭63−104098（ＪＰ，Ａ) 特開昭51−40805（ＪＰ，Ａ) 特開昭60−202493（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/10 G10L 15/12

Claims

(57)【特許請求の範囲】

【請求項１】入力音声のスペクトル分析を行い、特徴
時系列データとして記憶するスペクトル分析部と、音素あるいは音素に準ずる音声単位の特徴データを記憶
する音素テンプレート記憶部と、音素あるいは音素に準ずる音声単位の標準継続時間分布
を記憶する継続時間記憶部と、単語あるいは単語に準ずる音声単位のモデルを記憶する
単語モデル記憶部と、入力音声のスペクトル分析結果と単語モデルの照合を音
素テンプレートと継続時間分布を用いて継続時間制御を
行い照合する照合部とを有する音声認識装置において、照合結果を用いて入力音声を音素あるいは音素に準ずる
音声単位に分割する分割部と、分割した音素あるいは音素に準ずる音声単位の継続時間
と標準継続時間とのずれを計算する時間長ずれ計算部
と、この計算結果を用いて照合距離を補正し、補正後の照合
距離に基づいて最終的な認識結果を出力する距離補正部
とを有することを特徴とする音声認識装置。
【請求項２】継続時間と標準継続時間とのずれを計算
するべき音素あるいは音素に準ずる音声単位を特定す
る、音素選択部を有することを特徴とする請求項１記載
の音声認識装置。
【請求項３】距離補正を行うべき単語あるいは単語に
準ずる音声単位を、照合距離があらかじめ定めた域値以
下のものとする単語選択部を有することを特徴とする請
求項１記載の音声認識装置。
【請求項４】距離補正を行うべき単語あるいは単語に
準ずる音声単位を、照合結果の順位があらかじめ定めた
順位以内のものとする単語選択部を有することを特徴と
する請求項１記載の音声認識装置。
【請求項５】距離補正を行うべき単語あるいは単語に
準ずる音声単位を、照合結果の順位が１位の単語の照合
距離との照合距離の差が予め定めた域値以下の単語とす
る単語選択部を有することを特徴とする請求項１記載の
音声認識装置。
【請求項６】距離補正を行う単語あるいは単語に準ず
る音声単位を、照合結果の順位が１つ上の単語の照合距
離との照合距離の差があらかじめ定めた域値以下である
ものまでとする単語選択部を有することを特徴とする請
求項１記載の音声認識装置。