JPH04212199A - 標準パターン登録方法 - Google Patents

標準パターン登録方法

Info

Publication number
JPH04212199A
JPH04212199A JP3047624A JP4762491A JPH04212199A JP H04212199 A JPH04212199 A JP H04212199A JP 3047624 A JP3047624 A JP 3047624A JP 4762491 A JP4762491 A JP 4762491A JP H04212199 A JPH04212199 A JP H04212199A
Authority
JP
Japan
Prior art keywords
pattern
voice
register
energy
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3047624A
Other languages
English (en)
Other versions
JP3004749B2 (ja
Inventor
Junichiro Fujimoto
潤一郎 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3047624A priority Critical patent/JP3004749B2/ja
Publication of JPH04212199A publication Critical patent/JPH04212199A/ja
Application granted granted Critical
Publication of JP3004749B2 publication Critical patent/JP3004749B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、標準パターン登録方式、より詳
細には音声認識のパターン照合に関するものである。
【0002】
【従来技術】現在の音声認識装置は、パターンマッチン
グ方式を利用するものが主流であり、あらかじめ登録さ
れた標準パターンと、入力された未知の音声パターンを
比較して、最も類似した標準パターンのカテゴリーを認
識結果として出力するものである。
【0003】図7は、従来の音声パターン照合方法の一
例を説明するための図で、図中、1はマイクロフォン、
2はマイクアンプ、3は特徴変換部、4はA/D変換部
、5は切換えスイッチ、6は標準パターン格納部、7は
照合部、8は最大類似度検出部、9は認識結果出力部で
、まず、切換えスイッチ5を標準パターン登録側(a側
)にしておき、マイク1から音声を入力する。マイク1
で電気信号に変換された音声は、マイクアンプ2で増幅
され、特徴変換部3により特徴変換されるが、利用され
る特徴量としてはスペクトル他いくつか知られている。 それを離散量に直し標準パターンとして標準パターン格
納部6に格納する。認識時は、スイッチを照合側(b側
)へ倒して行なう。登録時と同様に音声のパターンを作
り、あらかじめ登録しておいたすべての標準パターンと
照合し、類似性の一番高いパターンを見つけ、それを認
識結果とするものである。
【0004】このような認識方式の詳細や、特徴量につ
いては、例えば新美著「音声認識」等に書かれており、
周知であるので、ここでのこれ以上の説明は省略する。 このなかで、パターンの照合に際して、パターンの変動
をどの様に対策するかと言う問題がある。特に、この変
動は時間的なものが大きく、発声の速度等の影響がでる
。この対策は2つあり、1つはDPマッチングに代表さ
れる非線形照合で、照合する2つのパターンの類似性を
見ながら、その類似性が最大になるようにダイナミック
に2つのパターンを対応づけるもの、もう1つは、類似
性のチェックなどせずに時間長を均等にデータ挿入、間
引きによって一致させてから両者を比較する線形照合す
るものである。前者が計算量が多い代りに、精度が良く
、後者は計算量が非常に少ないというメリットがある。 特に、後者の場合、全てのパターンを一定長にして置く
事で、入力された音声のパターンを一度長さ合せしてし
まうと、照合に際して、パターン伸縮をする必要がない
と言う特徴がある。この方法では、音声パターンが完全
で、欠落や付加が無い時にはかなり有効であるが、しか
し、音声は非線形な伸縮をしているものであり、それを
線形伸縮で間に合わせている為、音声パターンに欠落や
付加があると、照合精度は非常に悪いものになってしま
う。
【0005】図8は、音声のエネルギーの時間変化を示
す図で、この図に従って説明すると、図に示すごとく、
同じ「staff」という音声パターンがあるとき、正
常なもの同士を線形に伸縮して比較する場合には、(a
)に示すように、両者の誤差を小さくすることができる
が、(b)に示すように、音声区間検出に失敗して、一
方のパターンの/f/が欠落した「sta」だったりす
ると、同じパターンでありながら、音声の末尾付近で違
う音同士が対応づいてしまい、両パターンの差は著しく
大きくなる。ここに例として挙げた「staff」の/
f/のように、発声されるエネルギーの小さな子音は、
音声区間の検出がうまく行かないことが多く、上記の問
題は非常によく起こることである。非線形伸縮を用いた
パターン照合法では端点フリーにするものがあり、/f
/が欠けていながら、精度の良いマッチングができる。 ただし、この非線形伸縮を用いた方法では、先に述べた
ように計算量が多い事に変りはない。
【0006】また、この対策のひとつとして、欠落等が
生じる等、不安定な音声の標準パターンにマークをつけ
ておいて、入力された音声に不安定な部分がある場合に
は、標準パターンの不安定な部分をつけたままで、入力
された音声に不安定な部分が無い時には、全ての標準パ
ターンから不安定部を取除いて照合するものがある。し
かしながら、この方法では、入力のパターンによって標
準パターンを変化させるものであるから、照合時に毎回
標準パターンを修正しなければならないという欠点があ
る。
【0007】
【目的】本発明は、上述のごとき従来技術の欠点に鑑み
てなされたものであり、特に、音声区間の検出がうまく
行かなかった場合にも、計算量の少ない線形伸縮法によ
って、正しい照合ができることを目的としてなされたも
のである。
【0008】
【構成】本発明は、上記目的を達成するために、音声信
号から特徴量を取り出し特徴パターンとなして照合する
音声パターンマッチング方式において、音声の冒頭また
は末尾に音声のエネルギーが母音のそれよりも低く、か
つスペクトル成分が高域に集中している部分を見出し、
全体のパターンを定められた長さに変換すると共に、該
エネルギーが母音のそれよりも低く、かつスペクトル成
分が高域に集中している部分を取除いた残りのパターン
を定められた長さに変換して標準パターンとしたことを
特徴としたものである。以下、本発明の実施例に基いて
説明する。
【0009】図1は、本発明の一実施例を説明するため
のフローチャート、図2は、図1に示したフローチャー
トを実現するためのブロック図で、図中、10は伸縮部
、11はパワー計算部、12は比較部、13は高域スペ
クトル計算部、14は比較部、15は伸縮部、16はメ
モリー、17,18は閾値、19はパターン整形部、2
0は伸縮部で、その他、図6に示した従来技術と同様の
作用をする部分には、図6の場合と同一の参照番号が付
してある。而して、本発明では音声区間検出がしにくい
子音エネルギーが比較的小さく、周波数成分が高域に集
中しやすいことに注目してなされたものであり、音声信
号から特徴量を取り出し特徴パターンとなして照合する
音声パターンマッチング方式において、音声の冒頭、ま
たは末尾に音声のエネルギーが母音のそれよりも低く、
かつ、スペクトル成分が高域に集中している部分を見出
し、全体のパターンを定められた長さに変換すると共に
、該エネルギーが母音のそれよりも低く、かつ、スペク
トル成分が高域に集中している部分を取除いた残りのパ
ターンを定められた長さに変換して標準パターンとする
ようにしたものである。
【0010】図1は、上記本発明の方式をフローチャー
トにて示したもので、以下、このフローチャートに基い
て説明する。まず、音声の登録に関して説明すると、通
常通り、音声全体を一定の長さにしておいて、標準パタ
ーンとして登録したあと、その音声の冒頭または末尾に
特定部(つまり、エネルギーが低く、かつスペクトル成
分が高域に集中している部分)があるかどうかをみる。 音声のエネルギーは、一定値より下がるかどうかで決め
られ、この一定値は、母音が入力された時のエネルギー
値から1/5程度の値に決める。また、周波数の集中は
色々な調べかたが考えられるが、例えば、分析周波数帯
域を2つに分け、高域に低域の何倍かの成分が存在して
いる時とか、スペクトル分布の周波数軸方向へのフィッ
ト直線を引いて、この傾きが負の場合とかで判断する事
ができる。このような音声冒頭や末尾にエネルギーが小
さく、周波数成分が高域に集中している部分がなければ
、この音声の登録が終り、ある場合は、それが冒頭か、
末尾かによって、つまり、前記の/f/のような欠落し
やすい音が、音声のどこに付いているかを調べておく。 次に、あらかじめ、これを欠落させたパターンを併せて
作る。つまり、音声冒頭に欠落しやすい音が付いている
時は、エネルギーが小さく、周波数成分が高域に集中し
ている部分から末尾までを取除いた残りを一定長にして
おいて登録する。
【0011】一方、認識の時には、入力音声を定められ
た一定の長さにして、登録されたすべての標準パターン
と照合する。もし、入力の音声の冒頭、末尾の子音等が
落ちている時には、あらかじめ登録されている欠落音声
パターンと照合できるから、認識の精度を向上させる事
ができる。
【0012】図2は、上記本発明を実現する為のブロッ
ク図で、マイク1からの音声を、特徴変換して離散量に
なおすところまでは、図6に示した従来技術と同じであ
る。はじめに登録について説明する。スイッチ5を登録
側(a側)に倒しておき、音声信号をパワー計算するた
めのパワー計算部11へ入れる。ここでパワーが一定値
より低い部分が有るか、有るならそれは周波数成分が高
域に集中しているかどうかを、さらにその位置は冒頭か
、末尾かを調べておく。次の伸縮部で、パターン全体の
長さを一定の長さに伸縮して、標準パターン格納部(メ
モリー)16へ登録しておく。もし、パワーが一定値よ
り低く、周波数成分が高域に集中している部分が存在し
たなら、パターン整形部にて、図1のフローチャートで
示したように、先端、あるいは末尾までを除去し、再度
伸縮部で整形されたパターンを一定長にした後に、標準
パターン格納部へ登録しておく。こうして登録すべき音
声を標準パターン格納部に登録し終わると、スイッチ5
を認識側(b側)に倒し、認識する。認識は、登録と同
様に特徴パターンになおした後、伸縮部10にて一定長
にして照合する。この伸縮部も登録時と同じ機能をもて
ば良くて、図では別に記載されているが、同じものでよ
い。照合部7では特に照合方法を限定するものではなく
、市街地距離によってパターン相互の差を求める方法で
も良いし、ベクトル間の内積による類似性を計算するの
も良い。未知入力のパターンと各標準パターンとの類似
性、または誤差をそれぞれ求めておく。最大類似度検出
部8では、最も大きな類似性を示した標準パターンを見
つけだし、その名前または、それを表わす記号等を認識
結果として出力する。この方法によると、あらかじめ音
声の一部が欠落した音声パターンも一定長にて登録して
ある為、入力の音声の冒頭、末尾の子音等が落ちている
時にはこのパターンと照合できるから伸縮するものに比
べて演算量は少なく、認識の精度を向上させる事ができ
る。
【0013】図3は、図1の動作をマイクロコンピュー
タでハード的に行うための図で、あらかじめ、レジスタ
28に何種類かの長さに正規化された音声の標準パター
ンがロードされているものとして説明をする。認識させ
るべき未知の音声がマイク1から入力され、マイクアン
プ2で増幅された後、バンドパスフィルタバンク3でい
くつかの周波数(例えば15コ)に分析される。その結
果をA/D変換器4で12ビット程度に量子化し、その
データを用いて音声区間の検出21を行なう。検出され
た音声に係る部分をレジスタ22に格納する。音声区間
検出のしかたは新美著「音声認識」(共立出版)P68
に示されている。この音声区間の検出を含め、これ以後
の動作はマイクロコンピュータのソフトウェアで行なう
ため、レジスタ以外にハードウェアを持たないのが多い
が、図ではその動作をハード的に示す。レジスタ23に
は正規化すべき何種類かのフレーム長が登録されている
。音声区間を検出した際に発生する入力音声のフレーム
長を比較器24に送り、レジスタ23の内容と比較する
。レジスタ23の中から一番近いフレーム長をひとつ、
またはふたつ選び出し、レジスタ22と比較器27へフ
レーム長の信号として送る。レジスタ22では送られて
来た信号をもとに、レジスタ内のコピーで決められたフ
レーム長にする。図4にコピーの際のレジスタの動作を
示す。
【0014】図4において、仮に未知の音声長が11で
、これがレジスタ22に格納されているとする。これを
11+2フレームに伸張しなければならない場合(a)
、入力のフレーム長を、挿入するフレーム数+1で割っ
て挿入部分を決めるのが簡単である。この場合、11/
3でその時の整数が11′であったとする。まず、11
番目のデータを11+2番目へ、11−1番目のデータ
を11+1番目へとコピーを繰返してゆく。ただし、2
11′のデータは211′+1と211′+2フレーム
目の両方にコピーする。その後、11′−1番目を11
′番目へとコピーを繰返し、11′を11′+1番目へ
コピーしたところで動作は終了する。次に、11を11
−2フレームにする場合を示す(b)。先程とは逆に番
号の若い方から始め、まず、11′+1番目のデータを
11′番目へコピーする。11′+nを11′+n−1
へとコピーを繰返し、211′に達した時、211′+
2をコピーする。それ以降は211′+nを211′+
n−2へコピーをくりかえして、11分が終われば完了
である。以上の動作は2フレームの加減で説明したが、
これ以外のフレーム長でも同様である。
【0015】パターン長が決められた長さになれば、次
に2値化する。しかし、一般の方法では2値化の必要の
ないものが多い。これは文献(オーム社応用ファジイシ
ステム入門)に述べた方法で認識するためである。2値
化は1フレームごとに比較器25によっておこなう。レ
ジスタ22から1フレームの全データの合計を3ビット
シフトして、つまり1/8にして送られ、閾値に格納さ
れる。その後、この閾値とそのフレームの各値を比較し
、閾値よりも大なる時1、その他を0として2値化し、
再びレジスタ22へ保存しておく。レジスタ28の内容
はあらかじめ0クリアしておきレジスタ22内のパター
ンとレジスタ28の内容を加算器27で加算してその結
果をレジスタ28に戻す。これは1つの単語について何
回か発声してそれらの平均したパターンを標準パターン
として登録するためのもので、もし、平均する必要がな
い時はレジスタ22の内容をそのまま標準パターンとし
てレジスタ28に登録すれば良い。ここでは3回発声し
たものを登録するものとして説明する。まず、すべて0
のパターンと第1回の発声で作ったパターンを加算して
、レジスタ28に格納しておき、第2回目の発声で第1
回目と同様のパターンを作り、再度レジスタ28の内容
(第1回目の発声パターン)と加算してレジスタ28へ
もどす。第3回目の発声も同様に加算してレジスタ28
へもどし、その結果を辞書部であるレジスタ28へ書込
む。これと同時に本発明を適用し、図3に述べたような
やりかたで、音声の先端または終端近くにエネルギーが
小さく、高い周波数成分のみをもつ部分があるかどうか
を調べる。あった場合、その部分を取除いて残りの部分
を決められた長さに変換する。加算の必要が有る時は、
取除いた部分同士、取除かない部分同士を加算する。パ
ターンが不足する場合はさらに発声を促すか、特定のパ
ターンに重みを付けて平均しても良い。このようにして
必要な単語の全てを登録し終わったあと、レジスタ28
の標準パターンはフロッピ・ディスク42等に書込んで
電源が切れても内容が保存できるようにしておく。
【0016】ここで、本発明に関する処理をする。図3
では、音声中にエネルギーが小さくかつスペクトルが高
域に集中している部分を探している。バンドパス・フィ
ルタ3は15個で成立っており、最低周波数が250H
z、最高が6500Hzで1/3oct.で並んでいる
ものとする。A/D変換した後フィルタの低域から11
番目まではΣ31で、12番目から15番目はΣ32で
合計して両合計を比較する。Σ32の出力が大きければ
比較器33は1を出力する。一方、Σ31とΣ32の和
、つまり加算器34の出力である音声のエネルギーが閾
値35に決められた値より小さければ比較器36も1を
出力し、そうでない時は0を出力する。比較器33,3
6の信号の積が1のときは、レジスタ37に一時的に格
納されている未知音声のパターンはレジスタ22へ転送
され、以降は、図7と同じ動作をして認識結果を得る。
【0017】比較器24、レジスタ22では先に照合し
たパターンと同じ処理をし、照合した後、先にレジスタ
43に格納されている類似度の後へ今回計算した類似度
を続けて書込む。最後は先に述べた例と同じ様に最大の
類似度を得た単語を調べてその名前を出力する。但し、
この時レジスタ43に書込まれているすべての類似度値
に対してその最大値を求める。
【0018】図5は、音声認識のフローを示す図、図6
は、図5に示したフローをコンピュータで、ハード的に
行うための図で、以下、図3と異なる部分のみを説明す
る。レジスタ22で2値化パターンを作るまでは同じで
ある。通常照合の仕方は次の様なものである。比較器4
0では、レジスタ41の辞書部から送られる1単語づつ
のフレーム長を入力音声のフレーム長と比較し、同じ値
であった時だけ、辞書のパターンを照合部へロードしな
おし、レジスタ22のパターンと照合、類似度を計算し
てレジスタ43に書込む。ただし、レジスタ43はあら
かじめ0クリアされているものとし、フレーム長が違っ
て照合しなかったものは類似度0となるように配慮され
ている。こうして辞書部に登録したパターンの終わりを
示すエンド信号がでるまでこれを繰返す。それが終了す
ると、レジスタ43の先頭の類似度値をレジスタ45に
移し、レジスタ43の2番目以降の類似度値とレジスタ
45の値を比較器44で比較してレジスタ45よりも大
きな値があった時この値をレジスタ45へ書込む。以後
、新しく書込まれた値とレジスタ43の類似度値を順に
比べ、これをくりかえす。ただし、これも図3と同様、
すべてこの動作はプログラムでコントロールされるもの
で、マイコンで動かすものである。
【0019】
【効果】以上の説明から明らかなように、本発明による
と音声区間の検出がうまく行かなかった場合にも、照合
的に伸縮することなく、正しい照合ができる。
【図面の簡単な説明】
【図1】  本発明による音声登録の一実施例を説明す
るためのフローチャートである。
【図2】  図1に示した音声登録を実現するためのブ
ロック図である。
【図3】  図1をマイクロコンピュータでハード的に
実現するための図である。
【図4】  フレームの伸縮を説明するための図である
【図5】  音声認識のフローチャートを示す図である
【図6】  図5をマイクロコンピュータでハード的に
実現するための図である。
【図7】  一般のパターンマッチングの説明図である
【図8】  弱い子音が検出された場合の対応づけと検
出できなかった場合の対応づけを説明するための図であ
る。
【符号の説明】
1…マイクロフォン、2…マイクアンプ、3…特徴変換
部、4…A/D変換部、5…スイッチ、6…標準パター
ン格納部、7…照合部、8…最大類似度検出部、9…認
識結果出力部、10…伸縮部、11…パワー計算部、1
2…比較部、13…高域スペクトル計算部、14…比較
部、15…伸縮部、16…メモリ、17,18…閾値、
19…パターン整形部、20…伸縮部、21…音声区間
検出器、22,23,28,30,32,39,41…
レジスタ、24,25,27,31,35,38…比較
器、26,37…閾値、29…照合部、36,40…加
算部、42…フロッピ・ディスク。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  音声信号から特徴量を取り出して特徴
    パターンを生成し、該特徴パターンを標準パターンと照
    合する音声パターンマッチング方式において、音声の冒
    頭または末尾に音声のエネルギーが母音のそれよりも低
    くかつスペクトル成分が高域に集中している部分を見出
    し、全体のパターンを定められた長さに変換すると共に
    、該エネルギーが母音のそれよりも低くかつスペクトル
    成分が高域に集中している部分を取除いた残りのパター
    ンを定められた長さに変換して標準パターンとする標準
    パターン登録方式。
JP3047624A 1990-05-14 1991-02-20 標準パターン登録方法 Expired - Fee Related JP3004749B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3047624A JP3004749B2 (ja) 1990-05-14 1991-02-20 標準パターン登録方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP12374690 1990-05-14
JP2-123746 1990-05-14
JP3047624A JP3004749B2 (ja) 1990-05-14 1991-02-20 標準パターン登録方法

Publications (2)

Publication Number Publication Date
JPH04212199A true JPH04212199A (ja) 1992-08-03
JP3004749B2 JP3004749B2 (ja) 2000-01-31

Family

ID=26387785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3047624A Expired - Fee Related JP3004749B2 (ja) 1990-05-14 1991-02-20 標準パターン登録方法

Country Status (1)

Country Link
JP (1) JP3004749B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251147A (ja) * 2005-03-09 2006-09-21 Canon Inc 音声認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251147A (ja) * 2005-03-09 2006-09-21 Canon Inc 音声認識方法
JP4667082B2 (ja) * 2005-03-09 2011-04-06 キヤノン株式会社 音声認識方法

Also Published As

Publication number Publication date
JP3004749B2 (ja) 2000-01-31

Similar Documents

Publication Publication Date Title
JPS62232691A (ja) 音声認識装置
JPH0582599B2 (ja)
JP2996019B2 (ja) 音声認識装置
JPH04212199A (ja) 標準パターン登録方法
JP2997007B2 (ja) 音声パターンマッチング方法
JP3011984B2 (ja) パターン照合方法
JPH04211300A (ja) 音声パターンマッチング方法
JPH0211919B2 (ja)
JPH0585917B2 (ja)
JP2577891B2 (ja) 単語音声予備選択装置
JP2712586B2 (ja) 単語音声認識装置用パターンマッチング方式
JP3020999B2 (ja) パターン登録方法
JPS59124390A (ja) 候補削減音声認識方式
JPS62100799A (ja) 音声認識方法
JP2602271B2 (ja) 連続音声中の子音識別方式
WO1991002348A1 (en) Speech recognition using spectral line frequencies
JPS62111295A (ja) 音声認識装置
JPS63798B2 (ja)
JPS60147797A (ja) 音声認識装置
JPH0816186A (ja) 音声認識装置
JPS6147994A (ja) 音声認識方式
JPH02198499A (ja) 音声認識装置の辞書の自動更新システム
JPH0115079B2 (ja)
JPS62255999A (ja) 単語音声認識装置
JPS59124388A (ja) 単語音声認識処理方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees