JPS5997200A

JPS5997200A - 音声認識方式

Info

Publication number: JPS5997200A
Application number: JP57206149A
Authority: JP
Inventors: 淺川　吉章; 小松　昭男; 畑岡　信夫; 市川　「あきら」; 長沢　潔
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1982-11-26
Filing date: 1982-11-26
Publication date: 1984-06-04
Also published as: US4718095A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、パターンマツチング法を利用した音声認識方
式に係り、特に類似した入力音声の識別に好適な結果が
得られる音声認識方式に関する。

〔従来技術〕

一般にパターンマツチング法に基づく音声認識方式では
１発声速度の変動を吸収するために動的計画（Ｄｙｎａ
ｍｉｃ　　ｐｒｏｇｒａｍｍｉｎｇ　、以下ＤＰと言う
）法によるパターンマツチング法が用いられることが多
い。特に連続音声に適した実時間マツチング法として、
連続ＤＰ法（特開昭５５−２２０５号公報参照）が提案
されており、これは標準ノくり４「一ンとのマツチング結果の連続的に出力されるという特
長を有する。ところが、マツチング結果は入力音声と標
準パターン間の平均的な類似度しか評価されないため、
例えば「１ｃｈｉ　Ｊと「ｈａｃｈｉ　Ｊのように類似
した部分を含む入力に対して、両者間の誤りが増大する
といった問題が本質的に生じる。これに対する対策とし
て、本発明者らは標準パターンを複数個の部分標準パタ
ーンに分割し、それぞれ独立にマツチングさせる方法を
提案した（特願昭５６−１５６２８１号参照）。この方
法は全体標準パターンと各部分標準パターンが一定の条
件でマツチングした時に、その標準パターンと同一カテ
ゴリの入力があったと判定するものである。しかしこの
方法は、全体標準パターンと部分標準パターンのマツチ
ングを独立に扱うため、標準パターンメモリの増大やマ
ツチング部の負荷の増加といった問題があった。

〔発明の目的〕

本発明の目的は、上記した問題点を改善し、類似した入
力音声に対しても精度の高い認識性能の得られる音声認
識方式を提供することにある。

〔発明の概要〕

上記目的を達成するために、本発明では標準とすべきパ
ターン（全体標準パターン）の１個以上の部分（部分標
準パターン・・・・・・以下、単に部分パターンと呼ぶ
）を予め指定しておき、音声が入力されるに従って、全
体標準パターンとのマツチング度（類イ以度）計算の進
行と同期して上記部分パターンとの類似度をも同時に計
算し、これら全総合的に評価することにより安定した認
識を可能とするものである。

〔発明の実施例〕

以下、本発明の一実施例ヲ説１明する。第１図は本発明
を用いた音声認識装置のブロック構成図であり、これに
より数字音声を認識する手順について説明する。

第１図において、マイク１よシ入力された入力音声は音
声分析部２により、特徴パラメータに変換される。音声
分析部がｎチャンネルのフィルタ・パンクからなる例で
は、分析フレーム周期（例えば１０ミリ秒）毎にｎ個の
フィルタ出力値ｘｔ＝（ｘ１ｔ’、ｘ２ｔ、−−−−−
−１Ｘｎｔ　）　　−・−・・（０が得られる（ｔは分
析フレーム番号で、時刻に対応する）。音声の特徴とし
ては、その他種々のパラメータがあるが、そのどれを用
いるかは本発明にとって本質的でないことは言うまでも
ない。

マツチング部３は、距離計算部３１とマツチングプロセ
ス部３２からなる。距離計算部３１では、上記入力音声
の特徴パラメータと、標準パターンとの間の距離を計算
する。標準パターンは標準パターンメモリ４に特徴パラ
メータの時系列４１ｙｒ＝（ｙｔｒ、７２丁、・・・・
・・ｍＶ”τ）　・・・・・・（２）として格納されて
いる（τは標準パターンの分析フレーム番号）。ここで
はユークリッド距離を計算するものとすると、なる距離行列が得られる。マツチングプロセス部３２で
は、上記距離行列を参照し、ＤＰ千手法利用した時間軸
非線形伸縮マツチングが行われる。

この時、標準パターンメモリに格納されている部分パタ
ーンの始終端情報４２を参照して、全体標準パターンの
マツチングと同期して、部分パターンのマツチングを計
算する。

全体パターンと部分パターンのマツチング度が判定部５
に送られ、認識結果６が出力される。

マツチングプロセス部３２における演算処理は、第２図
に示す傾斜制限を行う連続ＤＰ法を基本とする例では、
次のようになる。

入力音声と全体標準パターンとの距離和りは、Ｄ（ｔ、
τ）＝２ｄ（ｔ、τ）＋− ・・・・・・・・・・・・　（４）（４〕式において門は右辺第２項のうち最小のものを選
択することを意味し、条件（ａ）、　（ｂ）、　（Ｃ）
に対応して第２図に示すパスａ、ｂ、ｃが選択される。

常にパスｂが選択された場合（時間軸の伸縮がない場合
）からのパスのずれに関するレジスタヲｃとすると、（
４）式の各条件に従って・・・・・・・・・・・・　（５］標準パターンの長さをＳフレームとすると、入力音声の
フレームｔに至るまでのＩ（スの長さＬ　（ｔｌは、Ｌ（ｔ）”　２　Ｓ＋Ｃ（ｔ、　ｓ　）　　・・・・・
・・・・　（６）フレームｔにおけるマツチング度Ｍは
、Ｍ（ｔｌ”Ｄ　（ｔ、　ｓ）／Ｌ（ｔｌ　　・・・・
・・・・・・・・（７〕次に部分パターンに関するマツ
チング度を求める計算を示す。１個の標準パターンに対
し１個以上の部分パターンを指定できるが、ここでは簡
単のために、部分パターンは１個とし、その始終端をτ
１．τ２　（１≦τ、≦τ、≦Ｓ）とする。この時の関
係を第３図に示す。ｔは入力音声のフレームｔにおける
選択されたパスであり、Ｌｐは部分パターン（τ、≦゛
τ≦τ、）に対応する部分パスである。このＬｐ上での
マツチング度ＭＰ會入力音声のフレームｔにおいて求め
る計算を以下に示す。

Ｌｐ上での距離の累積和ｋＤｐ、累積した距離の個数を
Ｎｐとすると、（１）　　τ〈τ１のときＤｐ（ｔ、τ）＝０　　　・・・・・・・・・・・・　
（８）Ｎｐ（ｔ、τ）＝０　　　・・・・・・・・・・
・・　（９）（１１）　　τ、≦τ≦τ２のときＤｐ（ｔ、τ）＝ａ（ｔ、τ）・・・・・・・・・・・・・・・（１０）・・・・・・
・・・・・・・・・（１１）（１１０τ、〈τのとき・・・・・・・・・・・・・・・（１２）・・・・・・
・・・・・・・・・（１３）入力音声のフレームｔにお
ける部分／＜ターンのマツチング度ＭｐＭｐ　（ｔ）＝Ｄｐ　（ｔ、　ｓ　）／Ｎｐ　（ｔ、　
８　）・・・・・・（１４）また部分パターンの始終端
τ１．τ、に対応する入力音声のフレームｔ１１　　ｔ
、（第３図参照）を求めるには、（５〕式に準じた計算
全行い、その情報を用いればよい（なお第３図のｔｏは
時間軸の伸縮がない場合のパスである）。上記（４）弐
〜（１４）式の演算は過去２フレ一ム分の情報全保持し
ていれば良く、シフトレジスタと比較器を用いて実時間
処理が可能である。また汎用マイクロプロセッサを利用
して実現できることは言うまでもない。

次に本実施例によって数字音声を認識する例を示す。第
４図は連続音声中の／　ｈａｃｈｉ　／の部分に対する
標準パターン／　１ｃｈｉ　／およびその部分ノくター
ン（第１音節目の／　ｉ　／　ｋ指定）それぞれとのマ
ツチングｉＭｔ　（ｔ）およびＭｐｌ（ｔ）の例である
。

第５図は同じ入力音声に対する標準パターン／　ｈａｃ
ｈｉ　／およびその部分パターン（第１音節目の／ｈａ
／に指定）それぞれとのマツチング度Ｍ８（１）および
Ｍｐｓ（ｉ）の例でおる。全体パターンのマツチング度
Ｍ、　（ｔ）およびＭ、　（ｔ）の極小値を比較すると
、標準パターン／　１ｃｈｉ　／に対するＭｌ（１）の
方が小さく、入力音声は／　１ｃｈｉ　／と膠認識され
ることになる。このことは、入力音声の／　ｃｈｉ　／
の部分が標準パターン／　１ｃｈｉ　／の／Ｃｈｉ／の
部分と非常に似ているために起こった現象である。

部分パターンのマツチング度Ｍ　ｐｌ　（ｔ）とＭｐａ
（ｔ）’ｅ判定部で利用することによシ、認識性能を安
定化できる。判定論理は種々考えられるが、ここでは最
も単純な一例として、全体パターンのマツチング度と部
分パターンのマツチング度の和を比較する。以下、添字
１，８で標準パターン／　＋ｃｈ＋　／　＊／　ｈａｃ
ｈｉ　／　ｆ示すものとする。第４図で全体パターンの
マツチング度Ｍ１（ｔ）が最小となる時刻を（１０）ｔｌ、第５図で全体パターンのマツチング度ＭＰｌ（ｔ
ｌが最小となる時刻に１ｇ　とする。同図の例では全体
パターン、部分パターンのマツチング度はそれぞれ、Ｍｓ　（ｔｓ）　＝　０．２４１Ｍｐｓ　（ｔｌ）　＝
　０−７４Ｍ、　（ｔ、）　＝　０．３５　、　Ｍｐｓ
　（ｔｓ）＝　０１３７であるから、Ｍｌ　（ｔｓ）　＋　Ｍ　ｐｔ　（ｔｔ）　”　０．９
８　＞　Ｍｓ　（ｔｓ　）　＋　Ｍｐａ（ｔ、）　＝　
０．７２となり、入力音声は／　ｈａｃｈｉ　／と正しく認識さ
れる。

つぎに、入力音声と標準パターンとの・くターン類似度
の計算において、入力音声区間の終点金持つことなく逐
次入力音声の音声パワーの差分情報、すなわち、音声パ
ワーが増加中であるか減少中であるかの情報を利用する
ことにより、音声が入力されるに従ってパターン類似度
計算を実行して、実時間での不特定話者音声認識処理を
可能とする方式について第６図と第７図で示される実施
例にもとづき詳述する。これは、音声パワーの最大値（
１１）と最小値を検出する必要がある従来の方法「パワー情報
で重みづけた鉗離による単語音声認識」（日本音響学会
、音声研究会資料、５ｓ１−５９）を改良した方式の実
施例である。

第６図において、入力音声はマイク１より入力される。

他の用途において、マイクの代りに電話器などが利用さ
れる場合もある。入力音声は音声分析部２において入力
音声の特徴分析がなされ、特徴パラメータの時系列が得
られる。線形予測（ＬＰｃ　：　Ｉ、１ｎｅａｒ　　Ｐ
ｒｅｄｉｃｔｉｖｅ　Ｃｏｅｆｆｉｃｉｅｎｔ）分析法
においては、例えば、分析フレーム周期（代表的にはｌ
Ｑｍｓ）に１０次の自己相関係数ｖｔ　”　（Ｖｎｔ＋
　Ｖｌ　ｔｏ　’°”””’＋　■ｌ’ｌ　ｔ　）・・
・・・・・・・・・・・・・　（１）′が得られる（ｔ
は分析フレーム番号で時刻に対応する）。マツチング部
３は、上記入力音声の特徴パラメータと標準パターンメ
モリ４に格納された標準パターンとの間での類似度（Ｉ
ｉ！Ｉｎ離としてもよいが、以下、類似度を例として説
明する）を計算する類似度計算部３１０とマツチングプ
ロセス部（１２）３２とからなる。ＬＰＣ分析の場合、標準パターンの各
々は、逆スペクトルパラメータの時系列Ａ　ｆ＝　（Ａ
ｏｆ、　Ａ＋　ｒ、−”・Ａ＋ｏｆ）　−・”　　（２
Ｊ’の形式で表現されている（τは標準パターンの分析
フレーム番号である）。入力音声と標準パターンとの各
々のフレーム間の類（ＩＲ度として、ＬＰＣ分析の場合
正規化残差パワーγが次式で計算される。

ここで、γ。は入力音声フレームの残差パワーである。

マツチングプロセス部３２では、類似度計算部３１０か
ら得られる類似度行列を参照して、ダイナミックプログ
ラミング（ＤＰ）手法を利用した時間軸非線形マツチン
グが行なわれる。各々の標準パターンとのマツチング結
果が判定部５において比較され、最良マツチング度の判
定がなされ、認識結果６が出力される。

第７図は、本発明による類似度計算部３１０を（１３）詳細に記述した図である。入力音声の分析フレーム周期
毎の特徴パラメータ３１１は従来普通に用いられている
類似度計算器３１２に入力され、標準パターンメモリ４
からの逆スペクトル・ぐラメータ３１３との間で、（３
）１式で計算される通常の類似度３１４（γ）が計算さ
れる。これと共に、入力音声の特徴パラメータの一部で
ある入力音声ノくワー３１５（Ｖａｔ）は比較器３１６
に入力される。比較器３１６への他方の入力３１７　（
ｖｏｔ−＋）は１分析フレーム前の入力音声パワーであ
り、シフトレジスタ３１８を用いて、入力音声パワー３
１５の差分情報であシ、同様に前もって計算されている
標準パターンの音声パワーの差分情報３１９と共に、補
正回路３２０に入力される。補正回路３２０では、入力
音声と標準パターンとの各々の差分情報を参照して、類
似度３１４（γ）を補正し、新しい類似度３２１（γ′
）とする。

類似度γの補正方法として、乗算型、加算型な（１４）ど各種のものが考えられるが、ここでは、乗算型の代表
的な例を示す。乗算型では、新しい類似度γ′は次式よ
り求められる。

γ′＝γ×α　・・・・・・・・・・・・　（４）′こ
こで、αは一種の重みであり、入力音声と標準パターン
との音声パワーの差分情報の組合せにより決める。各フ
レーム毎に音声パワーが増加中の場合に■、減少中の場
合にｅのマーク付けを行なうものとする（音声パワーが
変化しない時にはのとマークする）。入力音声と標準パ
ターンとの組合せにより、−例として表１に示すように
重みαを決める。

表　　　１正規化残差パワーはその値が小さい程類似度が尚（１５
）が増加中（又は減少中）のフレームと標準・（ターンの
音声パワーが減少中（又は増加中）のフレームとの組合
せの場合、類似度γにペナルティ力両口わったものと等
価になる。このことは、類似度γがスペクトル情報の類
似性を示していることを考え合せると、スペクトル情報
に・くワー情報の重みづけを行なったことになる。

以上のように、補正回路３２０には釉々の変形が考えら
れるが、いずれにしろ簡単な回路の組合せにより実現で
きることは明らかである。また、汎用的なマイクロコン
ピュータなどを利用することにより、柔軟性を高めるこ
とができる。

なお、第７図においては、各種のタイミングの制御部は
記されていないが、簡単な回路で実現できることは明ら
かである。さらに、同等の機能を汎用的なマイクロコン
ピュータのプログラム制御により実現できることも明ら
かである。

〔発明の効果〕

（１６）本発明によれば、標準パターンの平均的な類似度ととも
に、指定した部分の類似度も同時に評価することが可能
であり、実時間性を損うことなく認識性能の向上に効果
がある。

また、第６図と第７図の実施例で示畑れた方式によれば
、音声パワーの最大値と最小値を検出してこれにより音
声パワーを正規化する必要がないから音声パワーの重み
をつけたスペクトルマツチング距離を実時間での「たれ
流し処理」で求めることができることになシ、話者が変
ってもある程度不変な性質をもつ音声パワー情報を有効
に利用することができ、不特定話者を対象とした音声認
識の認識率向上に効果がある。話者５０人が発声した１
０数字の認識実験において、本発明による方式全採用す
ることにより、誤認識の内の３０％強が改善されること
が実証できた。

【図面の簡単な説明】

第１図は本発明を用いた音声認識装置の第１の実施例の
ブロック構成図、第２図はＤＰマツチングの傾斜制限例
を示す図、第３図は標準パターン（１７） −とその部分パターンのマツチングの説明図、第４図と
第５Ｍは入力音声に対する順準パターンのマツチング度
と部分パターンのマツチング度の一例を示す図、第６図
は、本発明を用いた音声認識装置の第２の実施例のブロ
ック構成図、第７図は、第６図における類似度計算部の
詳細ブロック構成図である。２・・・音声分析部、３・・・マツチング部。代理人　弁理士　薄田利幸／１ｃｉ＼ ′ｆＪ３　　図人力昔声 ″ｆ１４−　図

Claims

【特許請求の範囲】１、入力音声パターンと、標準パターンとのパターンマ
ツチングを行い、該マツチング結果に基づき、上記入力
音声パターンを識別する音声認識方式において、上記入
力音声パターンとそれぞれの全体標準パターンとの第１
のマツチング計算の進行に同期して、上記入力音声パタ
ーンと、上記標準パターンの時間軸上であらかじめ指定
したすくなくとも１個の部分標準パターンとの第２のマ
ツチング計算をおこない、上記第１および第２のマツチ
ング計算の結果を総合して上記入力音声パターンを識別
することを特徴とする音声認識方式。２、入力音声パターンと標準パターンとのパターンマツ
チングを行い、該マツチング結果に基づき、上記入力音
声パターンを識別する音声認識方式において、相異なる
分析フレームにおける入力音声パターンの音声パワーの
差分値と、相異なる分析フレームにおける標準・（ター
ンの音声パワーの差分値とを比較演算し、該比較演算の
結果に基づいてマツチング類似度に重みづけを行ない、
該重みづけされたマツチング類似度を用いて上記入力音
声パターン全識別することを特徴とする音声認識方式。