JPS59195293A - パタ−ン比較装置 - Google Patents

パタ−ン比較装置

Info

Publication number
JPS59195293A
JPS59195293A JP58069351A JP6935183A JPS59195293A JP S59195293 A JPS59195293 A JP S59195293A JP 58069351 A JP58069351 A JP 58069351A JP 6935183 A JP6935183 A JP 6935183A JP S59195293 A JPS59195293 A JP S59195293A
Authority
JP
Japan
Prior art keywords
section
pattern
line width
width changing
inversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58069351A
Other languages
English (en)
Inventor
潤一郎 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP58069351A priority Critical patent/JPS59195293A/ja
Publication of JPS59195293A publication Critical patent/JPS59195293A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 蕉4L年l一 本発明は2次元面上の特徴量として表現されるパターン
を比較し、パターン間の類似度を求める音声認識装置に
関する。
災來茨権 近年、音声認識のような音声パターンの類似度又はそれ
に準するものを計算し、それによって認識結果を選出す
る装置が種々考えられている。音声を取り扱う場合、こ
のような類似度を計算する上で二つの問題点がある。一
つは発声速度の相違から同じ単語音声パターンでも時間
長が異なるためそのままパターンの比較をして類似度の
計算ができないことであり、他は話者が変わるとホルマ
ント周波数が変化するため話者間の差が大きくなってし
まうことである。現在前者に対して最も広くわれている
方法が動的計画法(DP)によるパターンマツチングで
ある。
第1図は、DPマツチングを説明する図で、パターンf
(t)とg(t)の始端と終端を合わせ、時間軸方向の
非線形伸縮をゆるしてf(t)とg(t)の類似度を求
めるものである。f(t)、g(t)は一定間隔でサン
プリングされたディスクリートな量となっており、各々
のサンプル点をml、〜2゜・・mH,n□、n2.・
・・nNとすると二つのパターンはf(mi )、f(
〜2)、−f(mN)、g(nx )、g(nz)、・
・・g(nzl)で表わされる。パターンの始端f(+
n1)とg(nx)及び終端f(mN、)とg(nN)
が対応づけられるものとし、他の点は両パターン間の距
離が最小になるように対応づける。そのため□にはf 
(m)の中の一点f(mi)はg(ni)近傍の全ての
点に対応づけてみてその中から距離を最小にするような
点を選んで対応づける。その結果第1図に曲線へにて示
すような傾斜が求まり、これに従ってf(t)をg(t
)に写影した時の類似度が計算できる。
ところがこの方法には、演算量が非常に多いこと、また
パターンの時間長の変動は吸収することができるが周波
数上の変動を吸収することができないという欠点がある
。このように周波数軸と時間軸が形成する2次元面上の
パターンが両軸に対して変動を有するような場合、従来
は少ない計算量でこれを吸収できる方法がなかった。
目     的 本発明は、斯かる事情に鑑みてなされたもので、少ない
計算量で時間軸と周波数軸方向の変動を吸収し、認識率
の良い音声認識装置を提供しようとするものである。
眉−−−収 本発明の構成について、以下、実施例に基づき説明する
先ず例をひきながら本発明の詳細な説明する。
第2図はある話者が発声した単語”5ize”の音声パ
ターンを示す図で、横軸に周波数、縦軸に時間をとって
y si Z、 、、と発声した時のスペクトル分布を
濃淡で表わしたものであり、黒く見える程レベルが大き
い。周波数は左側から右へ高くなり、250 Hz 〜
6 、3 K Hzを対数等間隔で15等分しである。
同じ話者が同じ単語を別の機会に発声した例が第3図に
示したものであり、図から明らかなように両者は時間軸
方向への長さが異なっている。
ところで我々が発する音声を特徴づけるものにホルマン
トがある。或いはスペクトルのローカルピークという概
念〔音響学会誌第32巻第1号、(1976)第12〜
23頁〕を用いても良いが、いずれにしても言語を発声
するために我々は声道の形態を変化させ、その影響が音
声スペクトル上にローカルピークとして現われる。そこ
でスペクトルのローカルピークの時間変化を表わす時間
−周波数パターン(以下T i m e −S p 、
e c t r um  Pattern略してT、S
、Pと称する)の比較によって、発せられた言語を認識
することを考える。第2図、第3図に示したどちらのT
、S。
Pも冒頭のl O−15m sが/S八への100m5
位が/a八へ< 10ms弱が/i/でその後の数ms
が/Z八へ後が短くハ」/を表わすパターンである。図
に示されたような時間長の変化の他に発声者の差がピー
クの周波数変化として現われるがそのどちらも極端なも
のではない。
今、このようなパターンの簡単化したものを第4図(a
、)に示す。この図でレベルの大きい部分の中心を通る
線上、すなわち周波数軸上S1を通る線と時間軸上t1
を通る線上における断面を各々同図(b)、(C)に示
す。これらから明らかなようにこのパターンはファジィ
論理におけるメンバーシップ関数であると考えられる。
ファジィ論理とは人間の主観のようなあいまいさを論理
的に扱うために考案されたものである。通常1次元で取
り扱われ、ある事象S□らしさを表わす関数として第4
図(C)のような曲線を考え、これをメンバーシップ関
数と呼ぶ。ここで取り扱う2次元パターンである第4図
(a)は事象(tl131)らしさを表わす2次元のメ
ンバーシップ関数であると考えられる。ファジィ論理に
よるとファジィ集合AH。
A 2 、 A 3・・・の和は、 AI UA2 UA3U−=m a x I:mA1 
、mA2 。
mA3.・・・〕 として表わされる。ただしA□、A2.A3・・・のメ
ンバーシップ関数をmA1 、mA2 、mA3 、・
・とじて表わしている。そこで時間と周波数軸に延びて
いるパターンはいくつかのメンバーシップ関数の和であ
ると考えられる。このような例を第5図に示す。このパ
ターンは時間方向にQ1延びたもので、(tl、Sl)
らしさ、(t2 +81 )らLさ、(t3゜Sl)ら
しさを表わすメンバーシップ関数の集合和であり、Sl
あたりの周波数成分がだいたいtlごろからt3ごろま
で続くということを表わししている。こうしである単語
のパターンはいくつかのメンバーシップ関数の和として
表現できる。
ここでファジィ集合の補集合を考える。T、S、Pがい
くつかのメンバーシップ関数の集合和であるとして第6
図にそのモデルを示す。図において白い山形部分がT、
S、Pで黒く現われる部分を示している。この山形部分
の各々はSlらしさ、S3らしさを表わすメンバーシッ
プ関数m S 1 、 m 5gであり、全体のT、S
、Pを表わす集合PはP=S1US3となる。Pの補集
合をPとすると、P=SIUS3=S1nS3=min
  [[1−mJ ] 、  [1−ms3 :l ]
となり第6図の斜線の部分に相当し、これは5ir83
らしくないことを表わしている。そこで、Sl、S3ら
しくないことを84あたりより小さくはなく、SZらし
くなくS5あたりよりは大きくないとし、パターンがこ
のように34 r 32 r 85でない時に認識され
たと考える。そこでこのような二つのパターンを比較す
る場合に、一方のパターンのS4以下52nS5に相当
する部分を細化して他方のパターンの上に重ね、その時
の7の部分の重なり度合から類似度を判定することがで
き、こうすることによりパターンの時間軸方向1周波数
軸方向り変動があっても細くしたパターン(S4 r 
S 2 r 35に相当する部分)は他方のパターンか
らはみ出すことなくマツチングをとることができる。又
一つのパターンの34.s2.s5の部分の幅を広くし
ておき、他方のパターンに重ねても良く、或いは一方を
広くし、他方を細くして重ねてP又はVの重なりから類
似度を求めても良いことは言うまでもない。
第7図は以上のような原理に基づく本発明のパターン比
較装置の一実施例を示す図で、1はマイク、2はフィル
ターバンク、3は音声区間切り出し部、4は2値化部、
5は「1」と「o」を反転する反転部、6は細線化部、
7は辞書部、8は照合部、9は結果出力部、Sはスイッ
チである。先ず辞書作成に際しては、スイッチSを辞書
側にし、マイクから発声した単語音声が入力される。そ
してフィルター出力から単語区間だけがとり出され、2
値化される。2値化は情報量低減のためで必らずしも必
要ではない。反転部5では「1」と「0」を反転し、細
線化部6で「1」の部分(前述の34 r 82 r 
35に相当する部分)を細くし、辞書内に登録しておく
。次に認識を行なう場合には、スイッチSを認識側にし
、同様にマイクから音声を入力する。音声区間を切り出
して得たT、S、Pを2値化して反転し、辞書中の登録
パターンと照合される。この照合は一方のパターン上に
他のパターンを重ねると等しい操作で行なう。例えばパ
ターン上の対応する各点同士を加減乗除するような方法
で良い。辞書内の各登録パターンについてこれを行ない
、その結果類似度最大のものを認識結果として出力する
第8図は本発明による他の実施例で第7図の場合と異な
るのは細線化部6のかわりに太線化部IOを使用してい
る点であり、作用は第7図の場合と同様である。
第9図は本発明の他の実施例で、登録する単語を太線化
部11で太線化し、認識パターンを細線化部12で細線
化して前述と同様の照合を行なう。
なお、太線化部11と細線化部12とは入れ替えてもよ
い。このようにしてパターンの2次元的変動を吸収する
ことができる。
以上、音声パターンを中心に2値化して説明したが、本
発明は音声パターンに限らず、どのような2次元パター
ンにも適用でき、また、2値化する必要もないことま明
らかである。
丈−一末 以上のように本発明によれば、発声時におけるパターン
変動並びに発声者による周波数変動を吸収して精度の良
いマツチングを行なうことができ、また、音声パターン
に限ることなくどのような2次元パターンの各軸に対す
る変動も吸収してパターン比較を行なうことができる。
【図面の簡単な説明】
第1図はDPマツチングを説明するための図、第2図、
第3図は音声パターンを示す図、第4図、第5図は2次
元パターンを示す図、第6図は音声パターンのモデル図
、第7図、第8図、第9図は本発明によるパターン比較
装置の実施例を示す図である。 1・・・マイク、2・・フィルターバンク、3・・音声
区間切り出し部、4・・・2値化部、5・・反転部、6
゜12・・細線化部、7・・・辞書、8・・・照合部、
9・結果出力部、10.11・・・太線化部。 洛  1  図 9い3) 第 2 図      第 3 因 業 4 図       第 5 図 (C1第  6  図 第7図

Claims (6)

    【特許請求の範囲】
  1. (1)、2次元面上で表わされるパターンの情報を持つ
    部分と持たない部分を反転する反転部と、反転部からの
    パターンの2次元的な広がり幅を変える線幅変更部と、
    線幅を変えたパターンを記憶する記憶部と、記憶された
    パターンと反転部からのパターンを比較する照合部とを
    備え、パターン中の情報を持たない部分の重なりの大き
    さを求めることを特徴とするパターン比較装置。
  2. (2)、前記線幅変更部が細線化部からなる特許請求の
    範囲第(1)項記載のパターン比較装置。
  3. (3)、前記線幅変更部が太線化部からなる特許請求の
    範囲第(1)項記載のパターン比較装置。
  4. (4)、2次元面上で表わされるパターンの情報を持つ
    部分と持たない部分を反転する反転部と、反転部からの
    パターンの2次元的な広がり幅を変える第1の線幅変更
    部と、第1の線幅変更部からのパターンを記憶する記憶
    部と、反転部からのパターンの2次元的な広がり幅を変
    更する第2の線幅変更部と、記憶されたパターンと第2
    の線幅変更部からのパターンを比較する照合部とを備え
    、パターン中の情報を持たない部分の重なりの大きさを
    求めることを特徴とするパターン比較装置。
  5. (5)、前記第1の線幅変更部が太線化部からなり、前
    記第2の線幅変更部が細線化部からなる特許請求の範囲
    第(4)項記載のパターン比較装置。
  6. (6)、前記第1の線幅変更部が細線化部からなり、前
    記第2の線幅変更部が太線化部からなる特許請求の範囲
    第(4)項記載のパターン比較装置。
JP58069351A 1983-04-20 1983-04-20 パタ−ン比較装置 Pending JPS59195293A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58069351A JPS59195293A (ja) 1983-04-20 1983-04-20 パタ−ン比較装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58069351A JPS59195293A (ja) 1983-04-20 1983-04-20 パタ−ン比較装置

Publications (1)

Publication Number Publication Date
JPS59195293A true JPS59195293A (ja) 1984-11-06

Family

ID=13400046

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58069351A Pending JPS59195293A (ja) 1983-04-20 1983-04-20 パタ−ン比較装置

Country Status (1)

Country Link
JP (1) JPS59195293A (ja)

Similar Documents

Publication Publication Date Title
US7231350B2 (en) Speaker verification system using acoustic data and non-acoustic data
JPH07104952B2 (ja) パターンマッチング装置
JP2996019B2 (ja) 音声認識装置
JPS59195293A (ja) パタ−ン比較装置
Mills et al. Replay attack detection based on voice and non-voice sections for speaker verification
Abdalrahman et al. A cascaded voice biometric system
JPS59205680A (ja) 音声パターン比較方法
JP2001265387A (ja) 話者照合装置及び方法
JPS59195295A (ja) 音声認識辞書登録方式
JP2968976B2 (ja) 音声認識装置
JPS593491A (ja) 音声認識装置
JP3107905B2 (ja) 音声認識装置
JPS6061800A (ja) 音声認識方式
JPS59204897A (ja) 音声認識辞書登録方式
JPH0342480B2 (ja)
JP2557497B2 (ja) 男女声の識別方法
JPH0554116B2 (ja)
JPS59204899A (ja) 音声パタ−ン照合装置
JPS60198598A (ja) 音声認識方式
JP3011984B2 (ja) パターン照合方法
JPS6029796A (ja) 音声認識装置
JPH0484196A (ja) 連続音声認識用登録パターン作成方法
JPS59195296A (ja) 音声認識装置
JPS60115996A (ja) 音声認識装置
JPH06118987A (ja) 音声認識方法