JP2997007B2 - 音声パターンマッチング方法 - Google Patents

音声パターンマッチング方法

Info

Publication number
JP2997007B2
JP2997007B2 JP2123745A JP12374590A JP2997007B2 JP 2997007 B2 JP2997007 B2 JP 2997007B2 JP 2123745 A JP2123745 A JP 2123745A JP 12374590 A JP12374590 A JP 12374590A JP 2997007 B2 JP2997007 B2 JP 2997007B2
Authority
JP
Japan
Prior art keywords
pattern
voice
similarity
matching
matching method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2123745A
Other languages
English (en)
Other versions
JPH0419700A (ja
Inventor
潤一郎 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2123745A priority Critical patent/JP2997007B2/ja
Publication of JPH0419700A publication Critical patent/JPH0419700A/ja
Application granted granted Critical
Publication of JP2997007B2 publication Critical patent/JP2997007B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 技術分野 本発明は、音声パターンマッチング方法、より詳細に
は、音声認識におけるパターン照合方法に関する。
従来技術 現在の音声認識装置は、パターンマッチング方式を利
用するものが主流であり、あらかじめ登録された標準パ
ターンと、入力された未知の音声パターンを比較して、
最も類似した標準パターンのカテゴリーを認識結果とし
て出力するものである。
第3図は、従来の音声パターン照合方法の一例を説明
するための図で、図中、1はマイクロフォン、2はマイ
クアンプ、3は特徴変換部、4はA/D変換部、5は切換
えスイッチ、6は標準パターン格納部、7は照合部、8
は最大類似度検出部、9は認識結果出力部で、まず、ス
イッチ5を標準パターン登録側(a側)にしておき、マ
イク1から音声を入力する。マイク1で電気信号に変換
された音声は、マイクアンプ2で増幅され、特徴変換部
3により特徴変換されるが、利用される特徴量としては
スペクトル他いくつか知られている。それを離散量に直
し標準パターンとして標準パターン格納部6に格納す
る。認識時は、スイッチ5を照合側(b側)へ倒して行
なう。登録時と同様に音声のパターンを作り、あらかじ
め登録しておいたすべての標準パターンと照合し、類似
性の一番高いパターンを見て認識結果とするものであ
る。
このような認識方式の詳細や、特徴量については、例
えば新美著「音声認識」等に書かれており、周知である
ので、ここでの詳細な説明は省略する。このなかで、パ
ターンの照合に際して、パターンの変動をどの様に対策
するかと言う問題がある。特に、この変動は時間的なも
のが大きく、発声の速度等の影響がでる。この対策は2
つあり、1つはDPマッチングに代表される非線形照合
で、照合する2つのパターンの類似性を見ながら、その
類似性が最大になるようにダイナミックに2つのパター
ンを対応づけるもの、もう1つは、類似性のチェックな
どせずに時間長を均等にデータ挿入、間引きによって一
致させてから両者を比較して線形照合するものである。
これらは、前者が計算量が多い代りに、精度が良く、後
者は計算量が非常に少ないというメリットがある。特
に、後者の場合、全てのパターンを一定長にして置く事
で、入力された音声のパターンを一度長さ合せしてしま
うと、照合に際して、パターン伸縮する必要がないと言
う特徴がある。この方法では、音声パターンが完全で、
欠落や付加が無い時にはかなり有効であるが、しかし、
音声は非線形な伸縮をしているものであり、それを線形
伸縮で間に合わせている為、音声パターンに欠落や付加
があると、照合精度は非常に悪いものになってしまう。
第4図は、音声のエネルギーの時間変化を示す図で、
この図に従って説明すると、図に示すごとく、同じ「st
aff」という音声パターンがあるとき、正常なもの同士
を線形に伸縮して比較する場合には、(a)に示すよう
に、両者の誤差を小さくすることができるが、(b)に
示すように、音声区間検出に失敗して、一方のパターン
の/f/が欠落した「sta」だったりすると、同じパターン
でありながら、音声の末尾付近で違う音同士が対応づい
てしまい、両パターンの差は著しく大きくなる。
ここに例として挙げた「staff」の/f/のように、発声
されるエネルギーの小さな子音は音声区間の検出がうま
く行かないことが多く、上記の問題が非常によく起こ
る。非線形伸縮を用いたパターン照合法では端点フリー
にするものがあり、/f/が欠けていながら、精度の良い
マッチングができる。ただし、この非線形伸縮を用いた
方法では、先に述べたように計算量が多い事に変りはな
い。
また、この対策のひとつとして、欠落等が生じる等、
不安定な音声の標準パターンにマークをつけておいて、
入力された音声に不安定な部分がある場合には、標準パ
ターンの不安定な部分をつけたままで、入力された音声
に不安定な部分が無い時には、全ての標準パターンから
不安定部を取除いて照合するものがある。しかしなが
ら、この方法では、入力のパターンによって標準パター
ンを変化させるものであるから、照合時に毎回標準パタ
ーンを修正しなければならないという欠点がある。
目的 本発明は、上述のごとき実情に鑑みてなされたもの
で、特に、音声区間の検出がうまく行かなかった場合に
も、計算量の少ない線形伸縮法によって、正しい照合が
できるようにすることを目的としてなされたものであ
る。
構成 本発明は、上記目的を達成するために、音声信号から
特徴量を取り出し特徴パターンとなして時間長を一定に
して照合する音声パターンマッチング方法において、入
力された未知の音声の冒頭、または末尾に母音に比べて
音声のエネルギーが低く、かつ、周波数スペクトル成分
が高域に集中しているような特定部分が見出された時、
全体のパターンを定められた長さに変換すると共に、該
特定部分の終了部近傍から先端までの部分、あるいは前
記特定部分の終了部近傍から末尾までの部分を取除いた
残りのパターンを、定められた長さに変換して両方を保
持しておき、両方を標準パターンと照合し、類似性の高
い方向の結果をパターン間の類似性と定義するようにし
た事を特徴としたものである。以下、本発明の実施例に
基いて説明する。
第1図は、本発明の一実施例を説明するためのフロー
チャート、第2図は、第1図に示した本発明を実現する
ためののブロック図で、図中、11は伸縮部、12はパワー
計算部、13は比較部、14は高域スペクトル計算部、15は
比較部、16は伸縮部、17はメモリー、18,19は閾値で、
本発明は、音声区間検出がしにくい子音はエネルギーが
小さく、周波数成分が高い方に集中していることに注目
してなされたものであり、特に、音声信号から特徴量を
取り出し特徴パターンとなして時間長を一定にして照合
する音声パターンマッチング方法において、入力された
未知の音声の冒頭、または末尾に母音に比べて音声のエ
ネルギーが低く、かつ周波数スペクトル成分が高域に集
中しているような部分部分が見出された時、全体のパタ
ーンを定められた長さに変換すると共に、該説明部分の
終了部近傍から先端までの部分、あるいは該説明部分の
終了部近傍から末尾までの部分を取除いた残りのパター
ンを、定められた長さに変換して両方を保持しておき、
両方を標準パターンと照合し、類似性の高い方の結果を
パターン間の類似性と定義するようにしたものである。
最初に、第1図に示したフローチャートに基づいて説
明すると、まず、Iの音声登録のフローにおいて、音声
入力の音声全体を一定の長さにしておいて、標準パター
ンとして登録する。次に、IIの音声認識のフローにおい
て、入力された音声を標準パターンと同じ手順で特徴パ
ターンに変換すると共に、その音声の冒頭や末尾に特定
部(つまり、音声のエネルギーが比較的小さく、周波数
成分が高域に集中している部分)があるかどうかをみ
る。この音声エネルギーが小さいか否かは冒頭や末尾で
音声のエネルギーがある一定値より下がるかどうかで調
べるようにし、この一定値は、母音が入力された時のエ
ネルギー値から1/5程度に決めればよい。また、周波数
が高域に集中しているかどうかは色々な調べかたが考え
られるが、例えば、分析周波数帯域を2つに分け、高域
に低域の何倍かの成分が存在している時とか、スペクト
ル分布の周波数軸方向へのフィット直線を引いて、この
傾きが負の場合とかで判断する事ができる。このような
音声冒頭や末尾にエネルギーが小さく、周波数成分が高
域に集中している部分がなければ、つまり、特定部がな
ければこの音声の登録が終り、ある場合は、それが冒頭
か、末尾かによって、つまり、前記の/f/のような欠落
しやすい音が、音声のどこに付いているかを調べてお
く。次に、あらかじめ、これを欠落させたパターンを併
せて作る。つまり、音声冒頭に欠落しやすい音が付いて
いると判断し、エネルギーが小さく、周波数成分が高域
に集中している部分から末尾までを取除いた残りを一定
長にしておいて、これも入力パターンと同様にバッファ
メモリ内に保持しておく。このようにして、登録された
すべての標準パターンと照合する。もし、標準パターン
の冒頭、末尾の子音等が落ちやすいものには、入力パタ
ーンが2つできるので、たとえ標準パターンの一部が欠
落していても照合できるから、認識の精度を向上させる
事ができる。
第2図は、上述のごとき本発明を実現するためのブロ
ック図であるが、この場合、マイク1からの音声を、特
徴変換して離散量になおすところまでは、第3図に示し
た従来技術と同じである。はじめに、登録について説明
する。スイッチ5を登録側(a側)に倒しておき、得ら
れた特徴量のパターン(特徴パターン)を定められた長
さに伸縮して標準パターン格納メモリー6に格納して登
録しておく。こうして登録すべき音声を標準パターン格
納部に登録し終わると、スイッチ5を認識側(b側)に
倒して認識する。認識は、登録と同様に特徴パターンに
なおした後、あるいは、なおす前に音声信号をパワー計
算するためのパワー計算部12へ入れる。ここでパワーが
一定値より低い部分が有るか、有るならそれは周波数成
分が高域に集中しているかどうかを、さらにその位置は
冒頭か、末尾かをそれぞれ比較部13,15で調べておく。
そして、伸縮部16でパターン全体の長さを一定の長さに
伸縮して、メモリー17へ保持しておき、もし、音声冒頭
や末尾にエネルギーが小さく、周波数成分が高域に集中
している部分が存在したなら、第1図のフローチャート
で示したように、その部分を取除き、再度伸縮部で整形
されたパターンを一定長にした後に、おなじくメモリー
17のなかに保存しておく。照合は先に格納して置いたメ
モリー中のパターンと標準パターンとの類似性を計算す
る。メモリーの中に2つのパターンが格納されている場
合は、標準パターン1つに対して2回の類似性を計算し
高い類似度の方を入力と標準パターンの間の類似度とし
て採用する。図では伸縮部が2つあるが両者は同じ機能
をもてば良くて、これらは同じものでよい。照合部7は
特に照合方法を限定するものではなく、市街地距離によ
ってパターン相互の差を求める方法でも良いし、ベクト
ル間の内積による類似性を計算するのも良い。未知入力
のパターンと各標準パターンとの類似性、または、誤差
をそれぞれ求めておく。最大類似度検出部8では、最も
大きな類似性を示した標準パターンを見つけだし、その
名前または、それを表わす記号等を認識結果として出力
する。
この方法によると、あらかじめ音声の一部が欠落した
音声パターンも一定長にして登録してある為、入力の音
声の冒頭、末尾の子音等が落ちている時にはこのパター
ンと照合できるから伸縮するものに比べて演算量は少な
く、認識の精度を向上させる事ができる。
効果 以上の説明から明らかなように、本発明によると、音
声区間の検出がうまく行かなかった場合にも、照合時に
伸縮する事なく、正しい照合ができる。
【図面の簡単な説明】
第1図は、本発明の一実施例を説明するためのフローチ
ャート、第2図は、本発明の実現に使用するブロック図
の一例を示す図、第3図は、一般のパターンマッチング
のブロック図、第4図は、弱い子音が検出された場合の
対応づけと検出できなかった場合の対応づけを説明する
ための図である。 1……マイクロフォン、2……マイクアンプ、3……特
徴変換部、4……A/D変換部、5……切換えスイッチ、
6……標準パターン格納部、7……照合部、8……最大
類似度検出部、9……認識結果出力部、11……伸縮部、
12……パワー計算部、13……比較部、14……高域スペク
トル計算部、15……比較部、16……伸縮部、17……メモ
リー、18,19……閾値部。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 - 9/20 JICSTファイル(JOIS) 特許ファイル(PATOLIS) 実用ファイル(PATOLIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】音声信号から特徴量を取り出して特徴パタ
    ーンとなして時間長を一定にして照合する音声パターン
    マッチング方法において、入力された未知の音声の冒
    頭、または、末尾に母音に比べて音声のエネルギーが低
    く、かつ、周波数スペクトル成分が高域に集中している
    ような特定部分が見出された時、全体のパターンを定め
    られた長さに変換すると共に、該特定部分の終了部近傍
    から先端までの部分、あるいは、前記特定部分の終了部
    近傍から末尾までの部分を取除いた残りのパターンを、
    定められた長さに変換して両方を保持しておき、両方を
    標準パターンと照合し、類似性の高い方向の結果をパタ
    ーン間の類似性と定義するようにしたことを特徴とする
    音声パターンマッチング方法。
JP2123745A 1990-05-14 1990-05-14 音声パターンマッチング方法 Expired - Fee Related JP2997007B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2123745A JP2997007B2 (ja) 1990-05-14 1990-05-14 音声パターンマッチング方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2123745A JP2997007B2 (ja) 1990-05-14 1990-05-14 音声パターンマッチング方法

Publications (2)

Publication Number Publication Date
JPH0419700A JPH0419700A (ja) 1992-01-23
JP2997007B2 true JP2997007B2 (ja) 2000-01-11

Family

ID=14868277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2123745A Expired - Fee Related JP2997007B2 (ja) 1990-05-14 1990-05-14 音声パターンマッチング方法

Country Status (1)

Country Link
JP (1) JP2997007B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0461452U (ja) * 1990-10-05 1992-05-26
JP2001083982A (ja) * 1999-09-09 2001-03-30 Xanavi Informatics Corp 音声認識装置、音声認識のためのデータを記録した記録媒体、および、音声認識ナビゲーション装置
TW200929974A (en) 2007-11-19 2009-07-01 Ibm System and method for performing electronic transactions

Also Published As

Publication number Publication date
JPH0419700A (ja) 1992-01-23

Similar Documents

Publication Publication Date Title
JP2808906B2 (ja) 音声認識装置
JPS634200B2 (ja)
JP2997007B2 (ja) 音声パターンマッチング方法
JPH0582599B2 (ja)
JPH0792989A (ja) 音声認識方法
JP3004749B2 (ja) 標準パターン登録方法
JP3032551B2 (ja) 音声標準パターン登録方法
JP3020999B2 (ja) パターン登録方法
JPS63213899A (ja) 話者照合方式
JP2712586B2 (ja) 単語音声認識装置用パターンマッチング方式
JP2966460B2 (ja) 音声切り出し方法及び音声認識装置
JPS6131880B2 (ja)
JP2989231B2 (ja) 音声認識装置
JP3011984B2 (ja) パターン照合方法
JPH0211919B2 (ja)
JPH0376471B2 (ja)
JPH04211300A (ja) 音声パターンマッチング方法
JP2901976B2 (ja) パターン照合予備選択方式
JP2577891B2 (ja) 単語音声予備選択装置
JP2844592B2 (ja) 離散単語音声認識装置
JP2999479B2 (ja) 音声認識装置の辞書更新方式
JPS60153098A (ja) 単音節音声認識装置
JPH0343639B2 (ja)
JPS62111295A (ja) 音声認識装置
JPS6332396B2 (ja)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees