JP3011984B2 - パターン照合方法 - Google Patents

パターン照合方法

Info

Publication number
JP3011984B2
JP3011984B2 JP02264130A JP26413090A JP3011984B2 JP 3011984 B2 JP3011984 B2 JP 3011984B2 JP 02264130 A JP02264130 A JP 02264130A JP 26413090 A JP26413090 A JP 26413090A JP 3011984 B2 JP3011984 B2 JP 3011984B2
Authority
JP
Japan
Prior art keywords
pattern
length
register
size
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP02264130A
Other languages
English (en)
Other versions
JPH03206497A (ja
Inventor
潤一郎 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JPH03206497A publication Critical patent/JPH03206497A/ja
Application granted granted Critical
Publication of JP3011984B2 publication Critical patent/JP3011984B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 技術分野 本発明は、パターン照合方法、より詳細には、音声認
識におけるパターン照合方法に関する。
従来技術 現在、音声認識はパターンマッチング方法なるものが
主流であり、あらかじめ登録された標準パターンと入力
された未知の音声パターンを比較して最も類似した標準
パターンのカテゴリを認識結果として出力するものであ
る。
第7図は、上記のパターンマッチング方法の一例を示
す図で、(a)は入力音声「津(tu)」のパターン、
(b)はその標準パターンで、入力された音声パターン
(a)を標準パターン(b)と比較してその類似度を求
めるものである。このようにしパターンを照合する場
合、主として2種類の方法を用いることが知られている
(新美 著音声認識 共立出版等参照)。それは発声さ
れた音声長が変動するのをいかに補正するかによって決
まるが、一つはDPマッチングに代表される非線形にパタ
ーンを伸縮変形するもの(非線形照合と呼ぶ)、もう一
つは線形にパターンを伸縮するものである(線形照合と
呼ぶ)。非線形照合は線形照合に比べて演算量が多くな
るため、精度さえ得られるなら線形照合が望ましい。
又、線形照合にも二つのタイプがあり、比較する際に一
方のパターンの長さを他方の長さに線形伸縮によって一
致させるものと、全てのパターンを決められた長さに変
形しておいてから照合するものである。前者が照合時に
毎回伸縮をしなければいけないのに対し、後者は標準パ
ターンの長さも登録時に一定長さにしておくため、入力
された未知の音声パターンの長さを一度決められた長さ
に変形すると、あとは照合時に伸縮のために計算をする
必要はない。従って、演算も減らせることが出来る。と
ころが、第8図に示すような場合、例えば「うつ向く
(utumuku)」を考えると、このような場合、通常、10m
〜20msごとにサンプリングしてパターンを作成するが、
その場合、短い単語で5〜600ms、長いもので1.5秒程度
であるから、短い単語の5〜60サンプルから長い単語の
150サンプル程度になるが、これを8又は16程度のサン
プルに縮めることが多い。そこで短い単語の例として
「津」、長い単語の例として「うつむく」を考えると、
「津」の場合、50サンプル程度、「うつむく」の場合で
120サンプル程度であるから、これを一定の長さの8サ
ンプルにすると「津(/tu/)」の場合、/t/が1サンプ
ル/u/が7サンプル位となり「うつむく」の場合、子音
(t/m/k)は変形されたパターン上にはほとんど現れな
い。このような短い単位の場合は子音が保存されるが、
長い単語の場合、子音が殆ど保存されず、母音だけで認
識することになる。従って、母音の並びが同じ単語は識
別できない。極端な場合「うつむく」と「う(鵜)」が
誤って認識されるということになる。
目的 本発明は、上述のごとき実情に鑑みてなされたもの
で、特に線形照合の計算量が少ない長所と照合の際にパ
ターンの伸縮計算をしなくても良いという長所を備えた
上で、更に短い音も保存されるような照合方法を提供す
ることを目的としてなされたものである。
構成 本発明は、上記目的を達成するために、(1)長さ又
は大きさの異なるパターンを決められた長さ又は大きさ
に変形してから照合するパターン照合方法において、標
準パターンの長さ又は大きさを複数種類決めておき、変
形前のパターンの長さ又は大きさによって前記複数種類
の中のどれかを選んで、その長さ又は大きさに変形する
ようにしたこと、或いは、(2)前記(1)にて作成さ
れた標準パターンを用い、未知のパターンの長さ又は大
きさも前記(1)で述べた種類の中の1つ又は複数の長
さ又は大きさに変形後、標準パターンとの比較の際に標
準パターンと同じ長さ又は大きさに変形された未知パタ
ーン用いることを特徴としたものであり、更には、
(3)前記(2)のパターン照合方法において、未知パ
ターンの変形の際に変形される種類に制限を設けるこ
と、或いは、前記(3)において変形された未知パター
ンと変形された標準パターンの照合に際し、種類の異な
るものは照合しないようにしたことを特徴としたもので
ある。以下、本発明の実施例に基いて説明する。
第5図は、本発明の実施に使用する標準パターンの作
成手順を説明するためのフローチャートで、最初に、第
5図を参照しながら標準パターン作成の概略について説
明する。第5図において、まず、読み込んだデータのパ
ターンの長さがより大かどうかを調べる。
り大なるものは、全体の長さを線形伸縮によってL1にし
て標準パターンとする。入力データ長が
(だだし)の場合には同様にL2に、
の場合はL3の長さにして登録する。通常の単語認識で
を1200ms、を800ms程度にしてL1を32サンプ
ル、L2を16、L3を8サンプル位にすると良い。
本発明は、上述のごとくして作成された標準パターン
を用い、未知のパターンの長さ又は大きさも前述の種類
の中の一つ又は複数の長さ又は大きさに変形後、標準パ
ターンとの比較の際に標準パターンと同じ長さ又は大き
さに変形された未知パターンを用いるようにしたもの
で、以下、第1図に示したフローチャートに従って説明
する。
第1図は、本発明の一実施例を説明するためのフロー
チャートで、同図において、まず、未知の音声がパター
ンに変換されて読み込まれる。パターンへの変換は、例
えば、第2図に示すような、バンドパスフィルタを並
べ、入力音声をそこへ通すことにより周波数分析するこ
とで可能である。なお、第2図において、1はマイクロ
フォン、2はプリエンファシス回路、3はバンドパスフ
ィルタ群(3a1〜3anはバンドパスフィルタ、3b1〜3bnは
整流回路、3c1〜3cnはローパスフィルタ)、4はA/D変
換回路で、パターンへの変換は上記以外にも多種あるが
ここではどのような方法によっても差し支えない。以後
はバンドパスフィルタを利用するものとして実施例を説
明して行く。各バンドパスフィルタ3a1〜3an通過後の信
号を整流回路3b1〜3bnにて整流して時間平均のためのロ
ーパスフィルタ3c1〜3cnを通すことによってパワースペ
クトルが得られる。この値をA/D変換回路4にてA/D変換
してパターン化するが、この際、各バンドパスフィルタ
の出力を加え合わせると音声の全パワーが得られる。こ
のパワーを利用して音声の区間を周囲のノイズから分離
する。いわゆる音声区間の切り出しに利用する。しか
し、音声区間の切り出しは必ずしもこの方法による必要
はなく、前出の文献に書載されているようなものを使っ
ても良い。このように音声区間がとり出されると、音声
長のパターンが作られることになる。このを先に示
したルール、即ち > ならばパターン長をL1に変形 ならばパターン長をL2に変形 > ならばパターン長をL3に変形 に従ってパターンサイズを変形する。この例では時間長
だけ変形して周波数に関する変形は行なわない。あらか
じめ登録されている標準パターンがn個あるとして順に
とり出して照合する。照合に先立って標準パターンと変
形後の未知パターンのサイズが同じかどうかを調べ、同
じ場合のみ照合し異なる場合には次の標準パターンを読
み込む。照合はサイズが同じであるため、特に変形する
ことなく行なえる。未知入力パターンがLj(j=1,2,
3)に変形されたとすると、 と表わされる。一方、i番目の標準パターン また各々の はM個のバンドパスフィルタの出力からなるベクトルで
ある。照合の時の類似性を判断するための距離di で表わされる。ここで使った式はいわゆる市街地距離と
して知られているものであるが、これ以外の種類の距離
を利用しても良いことは言うまでもない。こうしてn個
の全ての標準パターンを照合した後di(i=1〜n)の
中で最小距離、或いは類似度を利用した場合には最大類
似度を探す。パターンサイズが違って照合しなかったも
のは距離の場合diに無限大に近い値、類似度の場合は0
を代入しておく。探し出されたものを認識結果として出
力する。
ただし、この方法では、未知の入力パターンが1種類
の長さにのみ変形されるため、次のような不都合が起こ
り得る。
ある単語が登録される時の長さがであったためL2
の長さに変形されて標準パターンとされたが、認識する
際に発声した時にはやや長くなって+1だったとす
ると、このパターン長はL1に変形されるため、正しい認
識結果を得るためのL2の長さの標準パターンとは照合し
ないことになる。当然のことであるが誤った結果を出力
してしまう。この傾向は長さの境界である1,付近
の長さの言葉に見られる。そこで、ルールを、 ならばパターン長をL1に変形する。
ならばパターン長をL1とL2に変形する。
ならばパターン長をL1とL2に変形する。
ならばパターン長をL2とL3に変形する。
ならばパターン長をL2とL3に変形する。
ならばパターン長をL2とL3に変形する。
という様に変え、境界の近くの長さはどちらへ変形され
ても良い様に両サイズに変形しておき、第7図の例で
は、標準パターンのサイズと同じ入力があるかを調べあ
れば同じサイズの入力パターンを標準パターンと照合す
る。こうすれば、入力の変形を2回やるだけで誤りを減
らすことが出来、認識精度を向上させることができるよ
うになる。
ただし、入力パターンが一定長で1種類しかない時に
は距離は式(3)で良かったが、この発明の場合にはこ
れをパターンの長さで正規化しておかねばならない。パ
ターンの長さでの正規化をしなくても済む方法として
は、例えば、「藤本他著応用ファジィシステム(オーム
社)P,122」等に述べられている認識方法を用いれば良
い。
第3図は、第1図に示したフローを実行するためのハ
ードウェアの一例を示すブロック図で、あらかじめ、レ
ジスタ18に第5図に関して説明したようにして、何種類
かの長さに正規化された音声の標準パターンがロードさ
れているものとして説明をする。なお、点線で囲んだ部
分は、マイクロ・コンピュータと、メモリに格納された
マイコン用のプログラムでコントロールしている部分で
ある。
まず、第2図に関して説明したようにして、認識させ
るべき未知の音声がマイク1から入力され、マイクアン
プ2で増幅された後、バンドパスフィルタバンク3でい
くつかの周波数(例えば15個)に分析される。その結果
をA/D変換器4により12ビット程度に量子化し、そのデ
ータを用いて音声区間の検出を音声区間検出器11で行な
い、検出された音声に係る部分をレジスタ14へ格納す
る。音声区間検出のしかたは前記文献(新美著「音声認
識」(共立出版)P68)に示されている。この音声区間
の検出を含め、これ以降の動作はマイクロコンピュータ
のソフトウェアで行なうため、レジスタ以外にハードウ
ェアを持たないのが多いが、第3図は、その動作をハー
ド的に示したものである。レジスタ12には、正規化すべ
き何種類かのフレーム長が登録されている。音声区間を
検出した際に発声する入力音声のフレーム長を比較器13
に送り、レジスタ12の内容と比較する。レジスタ12の中
から一番近いフレーム長をひとつ、またはふたつ選び出
し、レジスタ14と比較器17へフレーム長の信号として送
る。レジスタ14では送られて来た信号をもとに、レジス
タ内のコピーで決められたフレーム長にする。
第4図は、コピーの際のレジスタの動作を示す図で、
仮に未知の音声長がで、これがレジスタ14に格納さ
れているとする。これを+2フレームに伸張しなけ
ればならない場合、入力のフレーム長を挿入するフレー
ム数+1で割って挿入部分を決めるのが簡単である。こ
の場合、挿入するフレーム数=2であるから、1/3で
あり、その時の整数が′であったとする。まず、第
4図(a)において、番目のデータを+2番目
へ、−1番目のデータを+1番目へとコピーを
繰返してゆく。ただし、2′のデータは2′+
1と2′+2フレーム目の両方にコピーする。その
後、2′−1番目を2′番目へ、2′−2
番目を2′−1番目へとコピーを繰返し、′を
′+1番目へコピーしたところで動作は終了する。
次に、−2フレームにする場合を示す。この
場合は、第4図(b)に示すように、先程とは逆に番号
の若い方から始め、まず、′+1番目のデータを
′番目へコピーする。′+nを′+n−1へ
とコピーを繰返し、2′に達した時、2′+2
をコピーする。それ以降は2′+nを2′+n
−2へコピーをくりかえして、分が終われば完了で
ある。
以上の動作は2フレームの加減で説明したが、これ以
外のフレーム長でも同様である。
上述のようにして、パターン長が決められた長さにな
れば、次に2値化する。しかし、一般の方法では2値化
の必要のないものが多い。これは文献(オーム社応用フ
ァジイシステム入門)に述べられた方法で認識するため
である。2値化は1フレームごとに比較器15によってお
こなう。レジスタ14から1フレームの全データの合計を
3ビットシフトして、つまり1/8にして送られ、閾値部1
6に格納される。その後、この閾値とそのフレームの各
値を比較し、閾値よりも大なる時1、その他を0として
2値化し、再びレジスタ14へ保存しておく。比較器17で
は、レジスタ18の辞書部から送られる1単語づつのフレ
ーム長を入力音声のフレーム長と比較し、同じ値であっ
た時だけ、辞書のパターンを照合部19へロードしなお
し、レジスタ14のパターンと照合、類似度を計算してレ
ジスタ20に書込む。ただし、レジスタ20はあらかじめ0
クリアされているものとし、フレーム長が違って照合し
なかったものは類似度0となるように配慮されている。
こうしてレジスタ(辞書部)18に登録したパターンの終
わりを示すエンド信号がでるまでこれを繰返す。それが
終了すると、レジスタ20の先頭の類似度値をレジスタ22
に移し、レジスタ20の2番目以降の類似度値とレジスタ
22の値を比較器21により比較してレジスタ22よりも大き
な値があった時にこの値をレジスタ22へ書込む。以後、
新しく書込まれた値とレジスタ20の類似度値を順に比
べ、これを繰返す。すべての類似度の比較が終わった
時、レジスタ22に残っているのが最大類似度でこの類似
度を得た単語名を認識結果として出力する。
第6図は、第5図に示したフローを実行するためのハ
ードウェアの一例を説明するための図で、レジスタ14で
2値化パターンを作るまでは第3図の場合と同じであ
る。レジスタ32の内容はあらかじめ0クリアされてお
り、レジスタ14内のパターンとレジスタ32の内容を加算
器31で加算し、その結果をレジスタ32へ戻す。これは1
つの単語について何回か発声してそれらの平均したパタ
ーンを標準パターンとして登録するためのもので、も
し、平均する必要がない時はレジ14の内容をそのまま標
準パターンとしてレジスタ33に登録すれば良い。ここで
は3回発声したものを登録するものとして説明する。ま
ず、すべて0のパターンと第1回の発声で作ったパター
ンを加算してレジスタ32に格納しておき、第2回目の発
声で第1回目と同様のパターンを作り、再度レジスタ32
の内容(第1回目の発声パターン)と加算してレジスタ
32へもどす。第3回目の発声も同様に加算してレジスタ
32へもどし、その結果を辞書部であるレジスタ33へ書込
む。このようにして必要な単語の全てを登録し終わった
あと、レジスタ33の標準パターンはフロッピ・ディスク
等に書込んで電源が切れても内容が保存できるようにし
ておく。ただし、これも第3図と同様、すべての動作は
プログラムでコントロールされるもので、マイコンで動
かすものである。
効果 以上の説明から明らかなように、本発明によると、全
てのパターンを一定長にすることなく、もとのパターン
サイズに応じて何通りかの長さのものを作って標準パタ
ーンとするため、パターンの変形に無理がなく。更に、
未知入力もその入力の長さに応じて一定の長さに変形し
てから前記標準パターンと照合するため、照合に際して
両パターンの伸縮のための演算が不要である等の利点が
ある。
【図面の簡単な説明】
第1図は、本発明による照合方法の一実施例を説明する
ためのフローチャート、第2図は、入力音声をパターン
へ変換する回路の一例を示す図、第3図は、第1図に示
したフローを実行するためのハードウェアの一例を示す
図、第4図は、フレームの伸縮を説明するための図、第
5図は、本発明の実施に使用する標準パターンの作成手
順を説明するためのフローチャート、第6図は、第5図
に示したフローを実行するためのハードウェアの一例を
説明するための図、第7図及び第8図は、パターンマッ
チングの例を示す図である。 1……マイクロフォン、2……プリエンファシス回路、
3……バンドパスフィルタ群、4……A/D変換回路、11
……音声区間検出回路、12,14,18,20,22,32,33……レジ
スタ、13,15,17,21……比較器、19……照合部、31……
加算器。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 521 G10L 3/00 531 G10L 7/08 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】長さ又は大きさの異なるパターンを決めら
    れた長さ又は大きさに変形してから照合するパターン照
    合方法において、標準パターンの長さ又は大きさを複数
    種類決めておき、変形前のパターンの長さ又は大きさに
    よって前記複数種類の中のどれかを選んで、その長さ又
    は大きさに変形するようにしたことを特徴とするパター
    ン照合方法。
  2. 【請求項2】請求項1にて作成された標準パターンを用
    い、未知のパターンの長さ又は大きさも請求項1の種類
    の中の1つ又は複数の長さ又は大きさに変形後、標準パ
    ターンとの比較の際に標準パターンと同じ長さ又は大き
    さに変形された未知パターン用いることを特徴とするパ
    ターン照合方法。
  3. 【請求項3】請求項2の照合方法において、未知パター
    ンの変形の際に変形される種類に制限を設けることを特
    徴とするパターン照合方法。
  4. 【請求項4】請求項3において変形された未知パターン
    と変形された標準パターンの照合に際し、種類の異なる
    ものは照合しないようにしたことを特徴とするパターン
    照合方法。
JP02264130A 1989-10-05 1990-10-02 パターン照合方法 Expired - Fee Related JP3011984B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP26110489 1989-10-05
JP1-261104 1989-10-05

Publications (2)

Publication Number Publication Date
JPH03206497A JPH03206497A (ja) 1991-09-09
JP3011984B2 true JP3011984B2 (ja) 2000-02-21

Family

ID=17357142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02264130A Expired - Fee Related JP3011984B2 (ja) 1989-10-05 1990-10-02 パターン照合方法

Country Status (1)

Country Link
JP (1) JP3011984B2 (ja)

Also Published As

Publication number Publication date
JPH03206497A (ja) 1991-09-09

Similar Documents

Publication Publication Date Title
EP0109190B1 (en) Monosyllable recognition apparatus
US20090177466A1 (en) Detection of speech spectral peaks and speech recognition method and system
JP2989211B2 (ja) 音声認識装置における辞書制御方式
JP2005148342A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP3444108B2 (ja) 音声認識装置
JP2996019B2 (ja) 音声認識装置
JP3011984B2 (ja) パターン照合方法
JP2853418B2 (ja) 音声認識方法
JP3004749B2 (ja) 標準パターン登録方法
JP2813209B2 (ja) 大語彙音声認識装置
JP2997007B2 (ja) 音声パターンマッチング方法
JP3039453B2 (ja) 音声認識装置
JP3031081B2 (ja) 音声認識装置
JPS60121499A (ja) 音声照合装置
JPH04211300A (ja) 音声パターンマッチング方法
JPH0554678B2 (ja)
JP2996977B2 (ja) 音声認識装置
JPH0554116B2 (ja)
JP2995941B2 (ja) 不特定話者用音声認識装置
JPH08254990A (ja) 単語分類処理装置及び音声認識装置
JP2882088B2 (ja) 音声認識方法
JPH022159B2 (ja)
JPS62111295A (ja) 音声認識装置
JPS6147994A (ja) 音声認識方式
JPS59124390A (ja) 候補削減音声認識方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees