JPH07104952B2

JPH07104952B2 - パターンマッチング装置

Info

Publication number: JPH07104952B2
Application number: JP1339957A
Authority: JP
Inventors: 伸神谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1989-12-28
Filing date: 1989-12-28
Publication date: 1995-11-13
Anticipated expiration: 2010-11-13
Also published as: JPH03201079A; US5181256A

Description

【発明の詳細な説明】〈産業上の利用分野〉この発明は、動的計画法を用いたパターンマッチング装
置の改良に関する。

〈従来の技術〉通常、同じ人が同じ単語を発生してもその長さはそのつ
ど変わり、しかも時間軸に非線形に伸縮する。すなわ
ち、時間軸に対する不規則な許容歪みを有するのであ
る。そのため、例えば音声認識の際において、標準パタ
ーンと入力音声の特徴パターンとの同じ音素同士が対応
するように時間軸を伸縮する必要がある。その具体的な
手法として動的計画法（DP）を用いることができる。DP
マッチングは、このDPを用いて特徴パターンと標準パタ
ーンとの時間伸縮マッチングを行う手法であり、音声認
識においては重要な手法である。

近年、発明者等は、DPマッチングを応用して個人差によ
る音声信号の特徴パターン変動に対処する話者適応化方
式を提案し（中川，神谷，坂井：「音声スペクトルの時
間軸・周波数軸・強度軸の同時非線形伸縮に基づく不特
定話者の単語音声の認識」電子通信学会論文誌'81/2 Vo
l.J64-D No.2）、実験によってその有効性を認識した。

上記話者適応化方式は、個人差による特徴パターン変動
は主に周波数軸に対する不規則な許容歪みであることに
注目して、DPを周波数伸縮マッチングに用いた方式であ
る。すなわち、キーワードとして単母音/a/発声し、こ
の母音/a/の定常部におけるスペクトルと標準話者の同
じ母音/a/の定常部におけるスペクトルとを、周波数軸
上におけるDPマッチングによって比較する。そして、標
準話者と入力話者との母音/a/のスペクトルの周波数軸
上のずれの方向を検出し、この検出された単母音/a/の
スペクトルの周波数軸上のずれの方向を単語認識の際の
話者適応化に利用するものである。

〈発明が解決しようとする課題〉しかしながら、上記話者適応化方式においては、単母音
/a/のスペクトルの周波数軸上のずれの方向のみなら
ず、そのずれの度合いもDPマッチングによって正規化し
ようとすると、個人差のみならず音韻差まで正規化され
てしまい、個人差は除去できても単語が認識できない場
合が生じるという問題がある。

そこで、この発明の目的は、個人差等の許容歪みを有す
るパターンの許容歪みを必要な範囲で正規化することに
よって、許容歪みを有するパターンの標準パターンとの
DPマッチング結果を正しく得ることができるパターンマ
ッチング装置を提供することにある。

〈課題を解決するための手段〉上記目的を達成するため、この発明のパターンマッチン
グ装置は、入力された情報の特徴を表す特徴パターンと
上記情報が属するカテゴリを含む複数のカテゴリの夫々
を代表する標準パターンとのDPマッチングを行って、最
適経路に沿った距離の総和を表すDPスコアと上記最適経
路を行列パターンで表現したDPパス・パターンとを生成
するDPマッチング部と、上記DPマッチング部によって生
成された上記DPパス・パターンを構成する要素の値が入
力されて、上記特徴パターンが属するカテゴリと上記標
準パターンが属するカテゴリとが同一であるかを識別し
て識別の程度を表す識別結果を出力するカテゴリ識別ニ
ューラル・ネットワークと、上記DPマッチング部によっ
て生成された上記DPスコアを上記カテゴリ識別ニューラ
ルネットワークから出力された識別結果で除して、上記
特徴パターンの許容歪みを正規化した認識処理用の正規
化DPスコアを生成する正規化DPスコア生成手段を備えた
ことを特徴としている。

〈作用〉ある情報の特徴を表す特徴パターンがDPマッチング部に
入力される。そうすると、このDPマッチング部におい
て、上記情報が属するカテゴリを含む複数のカテゴリの
夫々を代表する標準パターンと入力された上記特徴パタ
ーンとのDPマッチングが行われる。そして、最適経路に
沿った距離の総和を表すDPスコアと上記最適経路を行列
パターンで表現したDPパス・パターンとが生成される。
こうして、上記DPマッチング部によって生成された上記
DPパス・パターンを構成する要素の値がカテゴリ識別ニ
ューラル・ネットワークに入力される。そうすると、こ
のカテゴリ識別ニューラル・ネットワークによって、上
記特徴パターンが属するカテゴリと上記標準パターンが
属するカテゴリとが同一であるかが識別されて、識別の
程度を表す識別結果が出力される。

そして、上記DPマッチング部によって生成された上位DP
スコアおよび上記カテゴリ識別ニューラル・ネットワー
クからの識別結果が正規化DPスコア生成手段に入力され
る。そうすると、この正規化DPスコア生成手段は、上記
DPスコアを上記識別結果で除して、上記特徴パターンの
許容歪みが正規化された正規化DPスコアを認識処理用の
情報として生成する。

すなわち、上記カテゴリ識別ニューラル・ネットワーク
の識別能力に応じた度合で上記許容歪みが正規化された
正規化DPスコアが得られるのである。したがって、正規
化したい許容歪みの内容に応じた種類のDPマッチングを
行い、かつ、正規化したい許容歪みの内容と正規化した
い程度に応じて、学習によって上記カテゴリ識別ニュー
ラル・ネットワークの識別能力を設定することによっ
て、特徴パターンにおける正規化したい許容歪みのみが
必要な範囲で正規化された正規化DPスコアが生成され
る。

〈実施例〉以下、この発明を図示の実施例により詳細に説明する。

第１図はこの発明のパターンマッチング装置の一実施例
を示すブロック図である。DPマッチング部１に音声波形
あるいは文字画像等の特徴を表す特徴パターンが入力さ
れる。そうすると、後に詳述するようにして、標準パタ
ーン格納部２に格納された標準パターンと入力された特
徴パターンとのDPマッチングが実施されてDPスコアとDP
パス・パターンが求められて出力される。そして、DPパ
ス・パターンがカテゴリ識別ニューラル・ネットワーク
３に入力される一方、DPスコアが除算器４に入力され
る。

上記カテゴリ識別ニューラル・ネットワーク３において
は、DPマッチング部１から入力されたDPパス・パターン
に基づいて、特徴パターンのカテゴリが標準パターンの
カテゴリに属しているかを識別する。そして、このカテ
ゴリ識別ニューラル・ネットワーク３からの識別結果が
除算器４に入力され、上記DPスコアとに基づいて個人差
が正規化された正規化DPスコアが算出される。

次に、上記DPマッチング部１によって実施されるDPマッ
チングおよびカテゴリ識別ニューラル・ネットワーク３
について、特徴パターンとして音声波形に基づく特徴パ
ターンを用いた場合を例に詳細に説明する。

上記DPマッチング部１に入力される特徴パターンは次の
ようにして生成される。すなわち、音声波形をＬチャン
ネルのフィルタ・バンクで分析し、10ms（フレーム）毎
にサンプリングする。各フレームにおけるＬチャンネル
の出力値は、各出力値の二乗和によって正規化されて特
徴パターンが生成される。以下、こうして求められた各
チャンネルの正規化値からなるチャンネル系列をパワー
・スペクトルと言う。こうして求められた二つの音声波
形に係るパワー・スペクトルをパワー・スペクトルＡお
よびパワー・スペクトルＢとし、両パワー・スペクトル
における各チャンネルの正規化された出力値を出力値ai
および出力値bj（但し、１≦i,j≦Ｌ）とする。

いま、第２図に示すようなパワー・スペクトルＡ（例え
ば、標準パターン）とパワー・スペクトルＢ（例えば、
入力された特徴パターン）に基づく平面を考える。両パ
ターンの周波数の対応付けは、この平面上の格子点ｃ＝
（i,j）の系列（パス）で表現できる。そうすると、両
パターン間の最適パス（以下、DPパスと言う）に沿った
距離の総和Ｇ（以下、DPスコアと言う）の値は、DPマッ
チングによって（１）式に示される部分和ｇ（i,j）の
値を整合窓の範囲内でi,Jを増加させながら繰り返し計
算することによって求められる。

ただし、ｄ（i,j）＝|ai−bj| （１）式に基づいて算出されるDPスコアの値が小さいほ
ど両パターン間のDPパスに沿った距離の総和が小さく、
両パターンは整合窓の範囲内で周波数伸縮を行った場合
によく似た形状を有するパターンであると言える。つま
り、DPスコアは両パターンが同じカテゴリに属している
度合いを表しているのである。

第３図は（１）式に基づいて求められたDPスコアを与え
る格子点ｃ（i,j）の系列、すなわちDPパスを表現する
ための行列パターン（以下、このようなDPパスを表現す
る行列パターンをDPパス・パターンと言う）の一例を示
す。このDPパス・パターンは、１つのaiに１つのbjが対
応する（すなわち、ｇ（i,j）がただ一つ存在する）場
合には、格子点ｃ（i,j）に“2"を与える。また、１つ
のaiに２つのbjが対応する（すなわち、ｇ（i,j）が二
つ存在する:g（i,j₁）＝ｇ（i,j₂））場合には、格子点
ｃ（i,j₁）とｃ（i,j₂）とに“1"を与え、経路上にない
格子点ｃ（i,j）には“0"（第３図においては記載を省
略）を与えたものである。こうして、DPパス・パターン
は（Ｌ×Ｌ）次元のベクトルとして表されるのである。

第３図のDPパス・パターンにおいては、“2"が与えられ
た格子点（i,j）がほぼ対角線上に数多くあるため、二
つのパワー・スペクトルのパターンは周波数軸上でよく
対応付けられていると言える。

ところで、上述のように、同じ音素カテゴリに属する特
徴パターンであっても、話者によっては周波数軸上にお
ける許容歪みを有している。ところが、個人差による周
波数軸上の許容歪みを正規化するためにDPマッチングに
おける整合窓の範囲を必要以上大きくすると、上述のよ
うに音韻差までが正規化されてしまうのである。

そこで、この発明においては、ニューラル・ネットワー
クによって、入力された特徴パターンのカテゴリが標準
パターンのカテゴリに属しているかを上記DPパス・パタ
ーンに基づいて周波数軸上の歪みを加味して識別し、そ
の識別結果を用いて上記DPスコアを補正することによっ
て個人差を必要な範囲で正規化するのである。

次に、第１図において、入力された音声の特徴パターン
のカテゴリが標準パターンのカテゴリに属しているかを
識別するためのカテゴリ識別ニューラル・ネットワーク
３について詳細に説明する。

第４図はカテゴリ識別ニューラル・ネットワーク３の概
略構成図である。このカテゴリ識別ニューラル・ネット
ワーク３は入力層11,中間層12および出力層13の３層か
らなる多層パーセプトロン型ニューラル・ネットワーク
である。入力層11には（Ｌ×Ｌ）個のノードを設ける一
方、中間層12には６個のノードを設ける。そして、中間
層12の各ノードと入力層11の全ノードとを結合する。さ
らに、出力層13には１個のノード14を設け、このノード
14を中間層13の全ノードと結合する。各ノード間の結合
には結合の重みを付加し、この結合の重みの値は学習に
よって決定する。

上記入力層11における（Ｌ×Ｌ）個のノードには、上記
（Ｌ×Ｌ）次元ベクトルであるDPパス・パターンの各要
素値を入力する。

上述のカテゴリ識別ニューラル・ネットワーク３におけ
る結合の重みの学習は誤差逆伝播法によって実施する。
まず、次のようにして学習用データを作成する。

各音韻カテゴリ毎に、その音韻カテゴリに属するｉ番目
の特徴パターン（パワー・スペクトル）と標準パターン
（その音韻カテゴリを代表するパワー・スペクトル）と
のDPマッチングを行い、上述のようなDPパス・パターン
TPATHiを求める。さらに、各音韻カテゴリ毎に、その音
韻カテゴリに類似したカテゴリ属するｊ番目の特徴パタ
ーンとその音韻カテゴリの標準パターンとのDPマッチン
グを行い、DPパス・パターンFPATHjを求める。そして、
このDPパス・パターンTPATHiおよびDPパス・パターンFP
ATHjを学習データとするのである。

次に、上述のような学習データを用いて以下のように学
習を実施する。まず、同一カテゴリに属する２つのパタ
ーンから求めたDPパス・パターンTPATHiの要素値を入力
層11のノードに入力する。その際には、出力層13のノー
ド14には教師データ“1"を入力する。さらに、互いに類
似したカテゴリに属する２つのパターンから求めたDPパ
ス・パターンFPATHjの各要素値を入力層11のノードに入
力する。その際には、出力層13のノード14には教師デー
タ“0"を入力する。そうすると、カテゴリ識別ニューラ
ル・ネットワーク３は、入力されたPDパス・パターンに
係る特徴パターンと標準パターンとが同一のカテゴリに
属する場合には出力層13のノード14から“1"を出力する
一方、同一のカテゴリに属さない場合にはノード14から
“0"を出力するように各結合の重みの値を自動的に決定
するのである。

その際に、年令，性別，言語環境，発声癖等を異にする
多くの話者におけるDPパス・パターンTPATHiおよびDPパ
ス・パターンFPATHjを学習データとして用いることによ
って、話者によらず特徴パターンが属するカテゴリと標
準パターンが属するカテゴリとが同一であるかを識別で
きるのである。

上述のような学習によって結合の重みが決定されたカテ
ゴリ識別ニューラル・ネットワーク３は、次のようにし
て入力音声の特徴パターンの属するカテゴリと標準パタ
ーンの属するカテゴリとが同じであるかを識別するので
ある。すなわち、入力層11の（Ｌ×Ｌ）個のノードに、
特徴パターンと標準パターンとのDPマッチングによって
求められた（Ｌ×Ｌ）次元ベクトルのDPパス・パターン
を入力する。そうすると、カテゴリ識別ニューラル・ネ
ットワーク３の各ノードは、学習によって決定された結
合の重みを用いて所定の出力関数に従って出力値の算出
を行い、算出結果を上層の結合されたノードに出力す
る。

その結果、出力層13のノード14からは、特徴パターンが
属するカテゴリと標準パターンが属するカテゴリとが全
く同一であると識別した場合を“1"とする一方全く異な
ると識別した場合を“0"として、識別の程度に応じた０
乃至１の値を識別結果として出力するのである。

次に、第１図および第４図に従って、上記DPマッチング
部１におけるDPマッチング結果とカテゴリ識別ニューラ
ル・ネットワーク３における識別結果とに基づいて実施
される正規化DPスコア算出の一連の動作について述べ
る。

既に述べたように、上記DPマッチング部１に入力音声か
ら求められたパワー・スペクトルが特徴パターンとして
入力される。そうすると、DPマッチング部１は、標準パ
ターン格納部２に格納されている標準パターンを読み出
し、上述のようにして、特徴パターンと標準パターンと
における周波数伸縮DPマッチングを行ってDPスコアとDP
パス・パターンを生成する。このDPスコアは、上記DPマ
ッチングを実施する際に設定された整合窓の制限内にお
いて両パターンが同じカテゴリに属している度合いを表
していると言える。ところが、上記整合窓の範囲が必要
以上に大きい場合には音韻差まで正規化されてしまい、
DPスコアによって特徴パターンと標準パターンとのカテ
ゴリの同一性を論ずることができなくなる。そこで、カ
テゴリ識別ニューラル・ネットワーク３による識別結果
を用いて、次のようにしてDPスコアを補正するのであ
る。

上述のように、上記カテゴリ識別ニューラル・ネットワ
ーク３の入力層11の（Ｌ×Ｌ）個のノードに、DPマッチ
ング部１によって得られた（Ｌ×Ｌ）次元ベクトルのDP
パス・パターンを入力する。そうすると、カテゴリ識別
ニューラル・ネットワーク３は、結合の重みを用いて上
述のようにして特徴パターンの属するカテゴリが標準パ
ターンの属するカテゴリと同じであるかを識別し、出力
層13のノード14から識別の程度に応じた０乃至１の出力
値を出力する。

次に、このカテゴリ識別ニューラル・ネットワーク３か
らの出力値とDPマッチング部１からのDPスコアとが除算
器４に入力される。そして、DPスコアの値をカテゴリ識
別ニューラル・ネットワーク３の出力値で除し、その結
果得られた値をパターン認識処理用の正規化DPスコアと
して出力する。

すなわち、カテゴリ識別ニューラル・ネットワーク３か
らの識別結果によって、特徴パターンの属するカテゴリ
と標準パターンの属するカテゴリとが同一でない度合い
に応じてDPスコアの値を大きくするのである。こうする
ことによって、整合窓の範囲が不必要に大きく設定され
たDPマッチング部１によって、異なるカテゴリに属する
特徴パターンと標準パターンが同じカテゴリに属すると
誤認されることが回避できる。つまり、DPマッチングに
よる個人差（すなわち、周波数軸に対する許容歪み）を
正規化する際の度合を自動的に設定するのである。こう
することによって、周波数伸縮範囲を大きくして個人差
を正規化しようとすると音韻差までも正規化されてしま
うというDPマッチングの短所が補正される。一方、認識
の信頼度やマッチング距離に用いることができるような
中間的な値が出にくいというニューラル・ネットワーク
の短所も補正されるのである。

換言すれば、正規化DPスコアは、認識の信頼度やマッチ
ング距離として使用でき、かつ、話者によらない認識結
果を得ることができる優れた評価値であると言える。し
たがって、正規化DPスコアを用いることによって話者に
よらない正しい音声認識を容易に実行できるのである。

上述のように、本実施例においては、DPマッチング部１
によって、入力音声波形から得られた特徴パターン（パ
ワー・スペクトル）と標識パターンとの周波数伸縮DPマ
ッチングを行ってDPスコアとDPパス・パターンを求め
る。次に、カテゴリ識別ニューラル・ネットワーク３に
よって、DPマッチング部１によって得られたDPパス・パ
ターンを入力として特徴パターンの属するカテゴリと標
準パターンの属するカテゴリとが同一であるか識別し、
識別の程度に応じた識別結果を得る。そして、除算器４
において、DPスコアに識別結果による補正を行うことに
よって個人差が必要範囲で正規化されたDPスコアすなわ
ち正規化DPスコアを得るのである。

したがって、本実施例を用いれば、認識の信頼度やマッ
チング距離として使用可能な中間値を有すると共に個人
差を正規化した正規化DPスコアに基づいて、入力音声の
特徴パターンを正しく認識できる。

上記実施例におけるカテゴリ識別ニューラル・ネットワ
ーク３は３層のパーセプトロン型ニューラル・ネットワ
ークで構成しているが、この発明のカテゴリ識別ニュー
ラル・ネットワーク３はいかなる構造のニューラル・ネ
ットワークであっても構わない。また、学習方法も誤差
逆伝播法に限定されるものではなく、ニューラル・ネッ
トワークの構造に応じた学習方法であればよい。

上記実施例の説明においては、DPマッチング部１におけ
るDPマッチングとして周波数伸縮マッチングを例として
説明している。しかしながら、この発明はこれに限定さ
れるものではない。すなわち、特徴パターンが有する許
容歪みの内容に応じて、例えば時間伸縮マッチングある
いは空間位置を伸縮する空間位置伸縮マッチング等を用
いてもよい。また、例えば時間伸縮マッチングと周波数
伸縮マッチングとを併用してもよい。

上記実施例においては、入力音声波形の特徴パターンを
認識する場合を例に上げて説明している。しかしなが
ら、この発明はこれに限定されるものではなく、文字画
像の特徴パターンを認識する際に用いても何等差し支え
ない。その際には、DPマッチング部１におけるDPマッチ
ングとして上記空間伸縮マッチングを用いればよい。

〈発明の効果〉以上より明らかなように、この発明のパターンマッチン
グ装置は、DPマッチング部，カテゴリ識別ニューラル・
ネットワークおよび正規化DPスコア生成部を有して、上
記DPマッチング部で特徴パターンと標準パターンとに係
るDPスコアおよびDPパス・パターンを生成し、上記カテ
ゴリ識別ニューラル・ネットワークで上記特徴パターン
の属するカテゴリが上記標準パターンの属するカテゴリ
と同一であるかを上記DPパス・パターンに基づいて識別
し、上記正規化DPスコア生成部で上記DPスコアを上記カ
テゴリ識別ニューラル・ネットワークからの識別結果で
除して正規化DPスコアを生成するようにしたので、上記
カテゴリ識別ニューラル・ネットワークの識別結果に応
じて上記特徴パターンの許容歪みが必要な範囲で正規化
された認識処理用の正規化DPスコアが得られる。

したがって、正規化したい許容歪みの内容に応じてDPマ
ッチングの種類を選択し、かつ、正規化したい許容歪み
の内容と正規化したい程度に応じて上記カテゴリ識別ニ
ューラル・ネットワークの識別能力を設定すれば、特徴
パターンにおける正規化したい許容歪みのみが正しく正
規化された正規化DPスコアが生成される。

すなわち、この発明に係る上記正規化DPスコアを用いれ
ば、個人差等の許容歪みを含むパターンの属するカテゴ
リを正しく認識できる。

【図面の簡単な説明】

第１図はこの発明のパターンマッチング装置における一
実施例のブロック図、第２図はDPパス・パターンのひな
型を示す図、第３図はDPパス・パターンの一具体例を示
す図、第４図はカテゴリ識別ニューラル・ネットワーク
の概略構造の一例を示す図である。１……DPマッチング部、２……標準パターン格納部、３
……カテゴリ識別ニューラル・ネットワーク、４……除
算器、11……入力層、12……中間層、13……出力層、14
……ノード。

Claims

【特許請求の範囲】

【請求項１】入力された情報の特徴を表す特徴パターン
と上記情報が属するカテゴリを含む複数のカテゴリの夫
々を代表する標準パターンとのDPマッチングを行って、
最適経路に沿った距離の総和を表すDPスコアと上記最適
経路を行列パターンで表現したDPパス・パターンとを生
成するDPマッチング部と、上記DPマッチング部によって生成された上記DPパス・パ
ターンを構成する要素の値が入力されて、上記特徴パタ
ーンが属するカテゴリと上記標準パターンが属するカテ
ゴリとが同一であるかを識別して識別の程度を表す識別
結果を出力するカテゴリ識別ニューラル・ネットワーク
と、上記DPマッチング部によって生成された上記DPスコアを
上記カテゴリ識別ニューラルネットワークから出力され
た識別結果で除して、上記特徴パターンの許容歪みを正
規化した認識処理用の正規化DPスコアを生成する正規化
DPスコア生成手段を備えたことを特徴とするパターンマ
ッチング装置。