JP3011984B2

JP3011984B2 - パターン照合方法

Info

Publication number: JP3011984B2
Application number: JP02264130A
Authority: JP
Inventors: 潤一郎藤本
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-10-05
Filing date: 1990-10-02
Publication date: 2000-02-21
Anticipated expiration: 2015-02-21
Also published as: JPH03206497A

Description

【発明の詳細な説明】技術分野本発明は、パターン照合方法、より詳細には、音声認
識におけるパターン照合方法に関する。

従来技術現在、音声認識はパターンマッチング方法なるものが
主流であり、あらかじめ登録された標準パターンと入力
された未知の音声パターンを比較して最も類似した標準
パターンのカテゴリを認識結果として出力するものであ
る。

第７図は、上記のパターンマッチング方法の一例を示
す図で、（ａ）は入力音声「津（tu）」のパターン、
（ｂ）はその標準パターンで、入力された音声パターン
（ａ）を標準パターン（ｂ）と比較してその類似度を求
めるものである。このようにしパターンを照合する場
合、主として２種類の方法を用いることが知られている
（新美著音声認識共立出版等参照）。それは発声さ
れた音声長が変動するのをいかに補正するかによって決
まるが、一つはDPマッチングに代表される非線形にパタ
ーンを伸縮変形するもの（非線形照合と呼ぶ）、もう一
つは線形にパターンを伸縮するものである（線形照合と
呼ぶ）。非線形照合は線形照合に比べて演算量が多くな
るため、精度さえ得られるなら線形照合が望ましい。
又、線形照合にも二つのタイプがあり、比較する際に一
方のパターンの長さを他方の長さに線形伸縮によって一
致させるものと、全てのパターンを決められた長さに変
形しておいてから照合するものである。前者が照合時に
毎回伸縮をしなければいけないのに対し、後者は標準パ
ターンの長さも登録時に一定長さにしておくため、入力
された未知の音声パターンの長さを一度決められた長さ
に変形すると、あとは照合時に伸縮のために計算をする
必要はない。従って、演算も減らせることが出来る。と
ころが、第８図に示すような場合、例えば「うつ向く
（utumuku）」を考えると、このような場合、通常、10m
〜20msごとにサンプリングしてパターンを作成するが、
その場合、短い単語で５〜600ms、長いもので1.5秒程度
であるから、短い単語の５〜60サンプルから長い単語の
150サンプル程度になるが、これを８又は16程度のサン
プルに縮めることが多い。そこで短い単語の例として
「津」、長い単語の例として「うつむく」を考えると、
「津」の場合、50サンプル程度、「うつむく」の場合で
120サンプル程度であるから、これを一定の長さの８サ
ンプルにすると「津（/tu/）」の場合、/t/が１サンプ
ル/u/が７サンプル位となり「うつむく」の場合、子音
（t/m/k）は変形されたパターン上にはほとんど現れな
い。このような短い単位の場合は子音が保存されるが、
長い単語の場合、子音が殆ど保存されず、母音だけで認
識することになる。従って、母音の並びが同じ単語は識
別できない。極端な場合「うつむく」と「う（鵜）」が
誤って認識されるということになる。

目的本発明は、上述のごとき実情に鑑みてなされたもの
で、特に線形照合の計算量が少ない長所と照合の際にパ
ターンの伸縮計算をしなくても良いという長所を備えた
上で、更に短い音も保存されるような照合方法を提供す
ることを目的としてなされたものである。

構成本発明は、上記目的を達成するために、（１）長さ又
は大きさの異なるパターンを決められた長さ又は大きさ
に変形してから照合するパターン照合方法において、標
準パターンの長さ又は大きさを複数種類決めておき、変
形前のパターンの長さ又は大きさによって前記複数種類
の中のどれかを選んで、その長さ又は大きさに変形する
ようにしたこと、或いは、（２）前記（１）にて作成さ
れた標準パターンを用い、未知のパターンの長さ又は大
きさも前記（１）で述べた種類の中の１つ又は複数の長
さ又は大きさに変形後、標準パターンとの比較の際に標
準パターンと同じ長さ又は大きさに変形された未知パタ
ーン用いることを特徴としたものであり、更には、
（３）前記（２）のパターン照合方法において、未知パ
ターンの変形の際に変形される種類に制限を設けるこ
と、或いは、前記（３）において変形された未知パター
ンと変形された標準パターンの照合に際し、種類の異な
るものは照合しないようにしたことを特徴としたもので
ある。以下、本発明の実施例に基いて説明する。

第５図は、本発明の実施に使用する標準パターンの作
成手順を説明するためのフローチャートで、最初に、第
５図を参照しながら標準パターン作成の概略について説
明する。第５図において、まず、読み込んだデータのパ
ターンの長さが_１より大かどうかを調べる。_１よ
り大なるものは、全体の長さを線形伸縮によってL₁にし
て標準パターンとする。入力データ長が_１
_２（だだし_１＞_２）の場合には同様にL₂に、_２＞
の場合はL₃の長さにして登録する。通常の単語認識で
は_１を1200ms、_２を800ms程度にしてL₁を32サンプ
ル、L₂を16、L₃を８サンプル位にすると良い。

本発明は、上述のごとくして作成された標準パターン
を用い、未知のパターンの長さ又は大きさも前述の種類
の中の一つ又は複数の長さ又は大きさに変形後、標準パ
ターンとの比較の際に標準パターンと同じ長さ又は大き
さに変形された未知パターンを用いるようにしたもの
で、以下、第１図に示したフローチャートに従って説明
する。

第１図は、本発明の一実施例を説明するためのフロー
チャートで、同図において、まず、未知の音声がパター
ンに変換されて読み込まれる。パターンへの変換は、例
えば、第２図に示すような、バンドパスフィルタを並
べ、入力音声をそこへ通すことにより周波数分析するこ
とで可能である。なお、第２図において、１はマイクロ
フォン、２はプリエンファシス回路、３はバンドパスフ
ィルタ群（3a₁〜3anはバンドパスフィルタ、3b₁〜3bnは
整流回路、3c₁〜3cnはローパスフィルタ）、４はA/D変
換回路で、パターンへの変換は上記以外にも多種あるが
ここではどのような方法によっても差し支えない。以後
はバンドパスフィルタを利用するものとして実施例を説
明して行く。各バンドパスフィルタ3a₁〜3an通過後の信
号を整流回路3b₁〜3bnにて整流して時間平均のためのロ
ーパスフィルタ3c₁〜3cnを通すことによってパワースペ
クトルが得られる。この値をA/D変換回路４にてA/D変換
してパターン化するが、この際、各バンドパスフィルタ
の出力を加え合わせると音声の全パワーが得られる。こ
のパワーを利用して音声の区間を周囲のノイズから分離
する。いわゆる音声区間の切り出しに利用する。しか
し、音声区間の切り出しは必ずしもこの方法による必要
はなく、前出の文献に書載されているようなものを使っ
ても良い。このように音声区間がとり出されると、音声
長のパターンが作られることになる。このを先に示
したルール、即ち＞_１ならばパターン長をL₁に変形_１ _２ならばパターン長をL₂に変形_２＞ならばパターン長をL₃に変形に従ってパターンサイズを変形する。この例では時間長
だけ変形して周波数に関する変形は行なわない。あらか
じめ登録されている標準パターンがｎ個あるとして順に
とり出して照合する。照合に先立って標準パターンと変
形後の未知パターンのサイズが同じかどうかを調べ、同
じ場合のみ照合し異なる場合には次の標準パターンを読
み込む。照合はサイズが同じであるため、特に変形する
ことなく行なえる。未知入力パターンがLj（ｊ＝1,2,
3）に変形されたとすると、と表わされる。一方、ｉ番目の標準パターンはまた各々のはＭ個のバンドパスフィルタの出力からなるベクトルで
ある。照合の時の類似性を判断するための距離di で表わされる。ここで使った式はいわゆる市街地距離と
して知られているものであるが、これ以外の種類の距離
を利用しても良いことは言うまでもない。こうしてｎ個
の全ての標準パターンを照合した後di（ｉ＝１〜ｎ）の
中で最小距離、或いは類似度を利用した場合には最大類
似度を探す。パターンサイズが違って照合しなかったも
のは距離の場合diに無限大に近い値、類似度の場合は０
を代入しておく。探し出されたものを認識結果として出
力する。

ただし、この方法では、未知の入力パターンが１種類
の長さにのみ変形されるため、次のような不都合が起こ
り得る。

ある単語が登録される時の長さが_１であったためL₂
の長さに変形されて標準パターンとされたが、認識する
際に発声した時にはやや長くなって_１＋１だったとす
ると、このパターン長はL₁に変形されるため、正しい認
識結果を得るためのL₂の長さの標準パターンとは照合し
ないことになる。当然のことであるが誤った結果を出力
してしまう。この傾向は長さの境界である₁,_２付近
の長さの言葉に見られる。そこで、ルールを、ならばパターン長をL₁に変形する。

ならばパターン長をL₁とL₂に変形する。

ならばパターン長をL₂とL₃に変形する。

という様に変え、境界の近くの長さはどちらへ変形され
ても良い様に両サイズに変形しておき、第７図の例で
は、標準パターンのサイズと同じ入力があるかを調べあ
れば同じサイズの入力パターンを標準パターンと照合す
る。こうすれば、入力の変形を２回やるだけで誤りを減
らすことが出来、認識精度を向上させることができるよ
うになる。

ただし、入力パターンが一定長で１種類しかない時に
は距離は式（３）で良かったが、この発明の場合にはこ
れをパターンの長さで正規化しておかねばならない。パ
ターンの長さでの正規化をしなくても済む方法として
は、例えば、「藤本他著応用ファジィシステム（オーム
社）P,122」等に述べられている認識方法を用いれば良
い。

第３図は、第１図に示したフローを実行するためのハ
ードウェアの一例を示すブロック図で、あらかじめ、レ
ジスタ18に第５図に関して説明したようにして、何種類
かの長さに正規化された音声の標準パターンがロードさ
れているものとして説明をする。なお、点線で囲んだ部
分は、マイクロ・コンピュータと、メモリに格納された
マイコン用のプログラムでコントロールしている部分で
ある。

まず、第２図に関して説明したようにして、認識させ
るべき未知の音声がマイク１から入力され、マイクアン
プ２で増幅された後、バンドパスフィルタバンク３でい
くつかの周波数（例えば15個）に分析される。その結果
をA/D変換器４により12ビット程度に量子化し、そのデ
ータを用いて音声区間の検出を音声区間検出器11で行な
い、検出された音声に係る部分をレジスタ14へ格納す
る。音声区間検出のしかたは前記文献（新美著「音声認
識」（共立出版）P68）に示されている。この音声区間
の検出を含め、これ以降の動作はマイクロコンピュータ
のソフトウェアで行なうため、レジスタ以外にハードウ
ェアを持たないのが多いが、第３図は、その動作をハー
ド的に示したものである。レジスタ12には、正規化すべ
き何種類かのフレーム長が登録されている。音声区間を
検出した際に発声する入力音声のフレーム長を比較器13
に送り、レジスタ12の内容と比較する。レジスタ12の中
から一番近いフレーム長をひとつ、またはふたつ選び出
し、レジスタ14と比較器17へフレーム長の信号として送
る。レジスタ14では送られて来た信号をもとに、レジス
タ内のコピーで決められたフレーム長にする。

第４図は、コピーの際のレジスタの動作を示す図で、
仮に未知の音声長が_１で、これがレジスタ14に格納さ
れているとする。これを_１＋２フレームに伸張しなけ
ればならない場合、入力のフレーム長を挿入するフレー
ム数＋１で割って挿入部分を決めるのが簡単である。こ
の場合、挿入するフレーム数＝２であるから、₁/3で
あり、その時の整数が_１′であったとする。まず、第
４図（ａ）において、_１番目のデータを_１＋２番目
へ、_１−１番目のデータを_１＋１番目へとコピーを
繰返してゆく。ただし、２′_１のデータは２_１′＋
１と２_１′＋２フレーム目の両方にコピーする。その
後、２_１′−１番目を２_１′番目へ、２_１′−２
番目を２_１′−１番目へとコピーを繰返し、_１′を
_１′＋１番目へコピーしたところで動作は終了する。
次に、_１を_１−２フレームにする場合を示す。この
場合は、第４図（ｂ）に示すように、先程とは逆に番号
の若い方から始め、まず、_１′＋１番目のデータを
_１′番目へコピーする。_１′＋ｎを_１′＋ｎ−１へ
とコピーを繰返し、２_１′に達した時、２_１′＋２
をコピーする。それ以降は２_１′＋ｎを２_１′＋ｎ
−２へコピーをくりかえして、_１分が終われば完了で
ある。

以上の動作は２フレームの加減で説明したが、これ以
外のフレーム長でも同様である。

上述のようにして、パターン長が決められた長さにな
れば、次に２値化する。しかし、一般の方法では２値化
の必要のないものが多い。これは文献（オーム社応用フ
ァジイシステム入門）に述べられた方法で認識するため
である。２値化は１フレームごとに比較器15によってお
こなう。レジスタ14から１フレームの全データの合計を
３ビットシフトして、つまり1/8にして送られ、閾値部1
6に格納される。その後、この閾値とそのフレームの各
値を比較し、閾値よりも大なる時１、その他を０として
２値化し、再びレジスタ14へ保存しておく。比較器17で
は、レジスタ18の辞書部から送られる１単語づつのフレ
ーム長を入力音声のフレーム長と比較し、同じ値であっ
た時だけ、辞書のパターンを照合部19へロードしなお
し、レジスタ14のパターンと照合、類似度を計算してレ
ジスタ20に書込む。ただし、レジスタ20はあらかじめ０
クリアされているものとし、フレーム長が違って照合し
なかったものは類似度０となるように配慮されている。
こうしてレジスタ（辞書部）18に登録したパターンの終
わりを示すエンド信号がでるまでこれを繰返す。それが
終了すると、レジスタ20の先頭の類似度値をレジスタ22
に移し、レジスタ20の２番目以降の類似度値とレジスタ
22の値を比較器21により比較してレジスタ22よりも大き
な値があった時にこの値をレジスタ22へ書込む。以後、
新しく書込まれた値とレジスタ20の類似度値を順に比
べ、これを繰返す。すべての類似度の比較が終わった
時、レジスタ22に残っているのが最大類似度でこの類似
度を得た単語名を認識結果として出力する。

第６図は、第５図に示したフローを実行するためのハ
ードウェアの一例を説明するための図で、レジスタ14で
２値化パターンを作るまでは第３図の場合と同じであ
る。レジスタ32の内容はあらかじめ０クリアされてお
り、レジスタ14内のパターンとレジスタ32の内容を加算
器31で加算し、その結果をレジスタ32へ戻す。これは１
つの単語について何回か発声してそれらの平均したパタ
ーンを標準パターンとして登録するためのもので、も
し、平均する必要がない時はレジ14の内容をそのまま標
準パターンとしてレジスタ33に登録すれば良い。ここで
は３回発声したものを登録するものとして説明する。ま
ず、すべて０のパターンと第１回の発声で作ったパター
ンを加算してレジスタ32に格納しておき、第２回目の発
声で第１回目と同様のパターンを作り、再度レジスタ32
の内容（第１回目の発声パターン）と加算してレジスタ
32へもどす。第３回目の発声も同様に加算してレジスタ
32へもどし、その結果を辞書部であるレジスタ33へ書込
む。このようにして必要な単語の全てを登録し終わった
あと、レジスタ33の標準パターンはフロッピ・ディスク
等に書込んで電源が切れても内容が保存できるようにし
ておく。ただし、これも第３図と同様、すべての動作は
プログラムでコントロールされるもので、マイコンで動
かすものである。

効果以上の説明から明らかなように、本発明によると、全
てのパターンを一定長にすることなく、もとのパターン
サイズに応じて何通りかの長さのものを作って標準パタ
ーンとするため、パターンの変形に無理がなく。更に、
未知入力もその入力の長さに応じて一定の長さに変形し
てから前記標準パターンと照合するため、照合に際して
両パターンの伸縮のための演算が不要である等の利点が
ある。

【図面の簡単な説明】

第１図は、本発明による照合方法の一実施例を説明する
ためのフローチャート、第２図は、入力音声をパターン
へ変換する回路の一例を示す図、第３図は、第１図に示
したフローを実行するためのハードウェアの一例を示す
図、第４図は、フレームの伸縮を説明するための図、第
５図は、本発明の実施に使用する標準パターンの作成手
順を説明するためのフローチャート、第６図は、第５図
に示したフローを実行するためのハードウェアの一例を
説明するための図、第７図及び第８図は、パターンマッ
チングの例を示す図である。１……マイクロフォン、２……プリエンファシス回路、
３……バンドパスフィルタ群、４……A/D変換回路、11
……音声区間検出回路、12,14,18,20,22,32,33……レジ
スタ、13,15,17,21……比較器、19……照合部、31……
加算器。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 3/00 521 G10L 3/00 531 G10L 7/08 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】長さ又は大きさの異なるパターンを決めら
れた長さ又は大きさに変形してから照合するパターン照
合方法において、標準パターンの長さ又は大きさを複数
種類決めておき、変形前のパターンの長さ又は大きさに
よって前記複数種類の中のどれかを選んで、その長さ又
は大きさに変形するようにしたことを特徴とするパター
ン照合方法。
【請求項２】請求項１にて作成された標準パターンを用
い、未知のパターンの長さ又は大きさも請求項１の種類
の中の１つ又は複数の長さ又は大きさに変形後、標準パ
ターンとの比較の際に標準パターンと同じ長さ又は大き
さに変形された未知パターン用いることを特徴とするパ
ターン照合方法。
【請求項３】請求項２の照合方法において、未知パター
ンの変形の際に変形される種類に制限を設けることを特
徴とするパターン照合方法。
【請求項４】請求項３において変形された未知パターン
と変形された標準パターンの照合に際し、種類の異なる
ものは照合しないようにしたことを特徴とするパターン
照合方法。