JPH0582599B2

JPH0582599B2 -

Info

Publication number: JPH0582599B2
Application number: JP59014112A
Authority: JP
Inventors: Junichiro Fujimoto
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1984-01-27
Filing date: 1984-01-27
Publication date: 1993-11-19
Also published as: US5095508A; JPS60158498A

Description

【発明の詳細な説明】技術分野本発明は、音声パターンの照合装置に関する。

従来技術音声認識において、単語等の音声を時間−周波
数のパターンに変換することは広く行われている
手段である。又、同じ単語を発声しても発声毎に
非線形な時間伸縮があり、この時間変動を吸収し
てパターン照合をするために動的計画法による方
法やパターンに幅を持たせたいわゆるFuzzy集合
におけるMembership関数の性質を利用する方法
などが知られている。この中で特に後者の場合
は、照合すべき２つのパターンの時間長を適当な
手段によつて一致させてから重ね合わせ、その重
なり具合から類似度を求めなければならない。
又、メモリー容量を減少させるために一方のパタ
ーンの情報圧縮をすることが行われる。例えば周
波数成分の大きさを表わす数字を並べた時間−周
波数パターンを記入したレジスタを持つようなも
のがある。これは第１フレームのパターンは１フ
レーム分だけ、又、次のフレームのパターンは３
フレーム分続くことを示している。このようなパ
ターンと圧縮していないパターンを照合する場
合、圧縮されたパターンを一度元へ戻してから非
圧縮パターンと対応ぶけられるのが一般である
が、元の状態へ戻すという無駄な作業が必要とな
る。或いは非圧縮パターンも一度圧縮演算をして
から対応づけても良いが、この場合にも不必要な
演算をすることになる。

目的本発明は、上述のごとき従来技術の欠点を解決
するためになされたもので、特に、無駄な演算を
除いて効率良くパターンの照合を行うことのでき
るパターン照合装置を提供することを目的として
なされたものである。

構成 (1)、入力された音声をｎ個の周波数帯域に分
け、各周波数帯域ごとの音声パワーから抽出され
る１フレームの周波数パターンを、時系列にｍフ
レームサンプリングしてできる周波数−時間マト
リツクス・パターンを用いたパターン照合装置に
おいて、予め複数の音声について、前記周波数パ
ターンに、その周波数パターンが何フレーム連続
するかを示す圧縮情報を付加することにより、前
記周波数−時間マトリツクス・パターンを圧縮し
て保持する辞書と、入力された認識対象の音声か
ら前記周波数−時間マトリツクス・パターンを抽
出して保持するとともに、時系列上の各周波数パ
ターンに対する圧縮情報も保持する入力パターン
保持手段と、前記辞書に保持された圧縮情報の列
である第１圧縮情報列の繰り返し数の総計と前記
入力パターン保持手段に保持された圧縮情報の列
である第２圧縮情報列の繰り返し数の総計を比較
し、両者が一致するように、何れか一方、又は、
両方の圧縮情報列を補正する圧縮情報列補正手段
と、該圧縮情報列補正手段によつて補正された第
１、第２の圧縮情報列にしたがつて、前記辞書及
び入力パターン保持手段から周波数パターンを読
み出し、両者を比較する照合手段とを有するこ
と、更には、(2)、前記圧縮情報列補正手段は、前
記第１圧縮情報列の繰り返し数の総計と前記第２
圧縮情報列の繰り返し数の総計を比較し、総計の
小さい方の圧縮情報列の伸長を行なつて両者が一
致するように補正するものであること、更には、
(3)、前記伸長は、その圧縮情報列に含まれる何れ
かの圧縮情報を所定値増加されるものであるこ
と、更には、(4)、前記圧縮情報列補正手段は、前
記第１圧縮情報列の繰り返し数の総計と前記第２
圧縮情報列の繰り返し数の総計を比較し、総計の
大きい方の圧縮情報列の短縮を行なつて両者が一
致するように補正するものであること、更には、
(5)、前記短縮は、その圧縮情報列に含まれる何れ
かの圧縮情報を所定値減少させるものであること
を特徴としたものである。以下、一実施例に基づ
いて説明する。

第１図は、本発明のパターン照合装置における
時間−周波数パターンを示す図で、周波数成分の
大きさを表わす数字を並べた時間−周波数パター
ン以外に圧縮情報Ａを記入したものである。第２
図は、本発明によるパターン照合装置の一実施例
を説明するための電気的ブロツク線図で、図中、
１はマイク、２はフイルタ群、３は区間検出部、
４はレジスタ、４ａは時間長レジスタ、５は照合
部、６は辞書部、７はパターン伸縮部、８は重ね
合せ類似度判定部、９はリセツト部、１０は結果
表示部で、特に、本発明においては、上記目的を
達成するため、第１図に示すような時間−周波数
で表わされたパターンの時間軸に対応するレジス
タ４ａを有し、パターンの照合に際し、このレジ
スタ内にパターンの伸縮情報を記入した後にこの
情報に基づいて一方のパターンを他方のパターン
に対応づけるようにしている。第２図において、
あらかじめ認識すべき全ての単語について使用者
が発声し、各単語音声は特徴量が変換されて辞書
に納められているものとする。すなわち、辞書部
６は予め複数の音声について、前記周波数パター
ンに、その周波数パターンが何フレーム連続する
かを示す圧縮情報を付加することにより、前記周
波数−時間マトリツクス・パターンを圧縮して保
持する。認識に際し、入力された音声はマイク１
からフイルタ群２を通過して時間−周波数パター
ンに変換される。フイルタ群２は通過帯域の異な
るいくつかのバンドパスフイルタにより構成され
ている。次に区間検出部３によつて単語音声に係
るパターンのみを抽出し、レジスタ４に格納す
る。すなわち、該レジスタ４は、入力された認識
対象の音声から前記周波数−時間マトリツクス・
パターンを抽出して保持するとともに、時系列上
の各周波数パターンに対する圧縮情報も保持す
る。この時にパターンは一般に10m秒毎にサンプ
ルされ、バンドパスフイルタの数は８〜30程度の
ものが用いられる。仮にバンドパスフイルタ数を
８とすると、10m秒毎に８コのデータがレジスタ
４に格納される。単語長が600m秒であるなら480
コのデータとなる。この時、レジスタ内に単語長
600m秒と一致するデータ数60コの時間長レジス
タ４ａを設けておく。この時間長レジスタ４ａは
リセツト状態で全て１になつている。このように
入力パターンとすでに登録されている辞書中の各
単語パターンとを照合する。辞書中のパターンは
第１図に示すごとく圧縮されており、通常のパタ
ーン部以外に同じフレームがいくつ続くかを示す
圧縮情報Ａと、更に圧縮前の単語長つまりフレー
ム数を記録してある。そこで入力パターンを照合
すべき単語パターンの長さを線形挿入によつて一
致させる。ここでは仮に線形挿入による方法を述
べるがこれはどのような方法をもつてしても良く
本発明の範囲外である。まず、単語パターンの時
間長と入力パターンの時間長を比較しどちらをど
れだけ伸縮すれば良いかを決め、単語パターンの
圧縮情報をレジスタ４に入れてパターン伸縮部７
へ送る。ここでは実際のパターンは不要で入力の
時間長レジスタと単語パターンの圧縮情報のみに
よりパターンの伸縮を行なう。すなわち、該パタ
ーン伸縮部７は、前記辞書に保持された圧縮情報
の列である第１圧縮情報列の総計と前記入力パタ
ーン保持手段に保持された圧縮情報の列である第
２圧縮情報列の総計を比較し、両者が一致するよ
うに、何れか一方、又は両方の圧縮情報列を補正
する圧縮情報列補正手段を有している。仮に単語
パターンの時間長が620m秒、62サンプル（62フ
レーム）あり、短いパターンを伸ばして長いパタ
ーンに一致させるものとする入力パターンを２サ
ンプル増やさなければならない。そこで入力パタ
ーンの時間長60フレームに均一に２サンプル増す
ようにする。つまり60フレームの21フレーム目と
41フレーム目に各々20フレーム目、40フレーム目
と同じ情報を加えて均一に全体を62フレームに伸
ばす。挿入する部分は全体のフレーム数を挿入す
べきフレーム数＋１で割ることにより容易に求め
られる。これが求められると20番目、40番目の時
間長レジスタ４ａに１を加える。すなわち、照合
部５は、前記圧縮情報列補正手段によつて補正さ
れた第１、第２の圧縮情報列にしたがつて、前記
辞書及び入力パターン保持手段から周波数パター
ンを読み出し、両者を比較する。こうして二つの
パターンの重ね合わせ操作つまり２つのパターン
の積を取る時には両パターンの時間長レジスタと
圧縮情報を参照しながら積を取るようにする。例
えば第１図のパターンでは第１フレームのパター
ンは入力の第１フレームと積がとられ、第２フレ
ームのパターンは入力の第２、第３、第４フレー
ムと積がとられることになる。なお、ここでは入
力音声長を伸ばすことを述べたが辞書の単語パタ
ーンを伸ばす場合には圧縮情報に１を加えれば良
く縮める場合は１を引けば良い。第２図の例では
こうして一つの単語パターンとの類似を求めれば
時間長レジスタをリセツトして次の単語パターン
の照合へ移る。

以下に、重ね合わせて類似度を算出する部分を
FORTRANでサブル−チンプログラムにして示
すが、DICTは辞書の単語パターン、INPは入力
パターン、NFは時間長を一致させた後のフレー
ム数、IDは類似度である。

SUBROUTINE SUPER（DICT，INP，
NF，IDINTEGER DICT（9100），INP（9100） ID＝０ J3＝１Ｄ 10 Ｊ＝１，NF J1＝INP（９，Ｊ）Ｄ 10 J2＝１，J1 JD＝DICT（９，J3）−１ IF（JD.LT.0）ＧＴ５Ｄ 10 Ｉ＝１，８ ID＝DICT（Ｉ，J3）＊INP（Ｉ，J2）＋ID ＧＴ 10 ５ J3＝J3＋１ 10 CONTINUE RETURN END 効果以上の説明から明らかなように、本発明による
と、無駄な演算がなくなり、効率の良いパターン
照合が実現できる。また、照合の際にパターンの
フレーム数を一致させる時間軸方向の伸縮処理
が、圧縮情報列を補正するだけで済むことにな
り、計算量が激減し、照合速度を飛躍的に向上さ
せることができる。

【図面の簡単な説明】

第１図は、本発明のパターン照合装置における
時間−周波数パターンを説明するための図、第２
図は、本発明によるパターン照合装置の一例を説
明するための電気的ブロツク線図である。１…マイク、２…フイルタ群、３…区間検出
部、４…レジスタ、４ａ…時間長レジスタ、５…
照合部、６…辞書部、７…パターン伸縮部、８…
重ね合せ類似度判定部、９…リセツト部、１０…
結果表示部。

Claims

【特許請求の範囲】１入力された音声をｎ個の周波数帯域に分け、
各周波数帯域ごとの音声パワーから抽出される１
フレームの周波数パターンを、時系列にｍフレー
ムサンプリングしてできる周波数−時間マトリツ
クス・パターンを用いたパターン照合装置におい
て、予め複数の音声について、前記周波数パター
ンに、その周波数パターンが何フレーム連続する
かを示す圧縮情報を付加することにより、前記周
波数−時間マトリツクス・パターンを圧縮して保
持する辞書と、入力された認識対象の音声から前
記周波数−時間マトリツクス・パターンを抽出し
て保持するとともに、時系列上の各周波数パター
ンに対する圧縮情報も保持する入力パターン保持
手段と、前記辞書に保持された圧縮情報の列であ
る第１圧縮情報列の繰り返し数の総計と前記入力
パターン保持手段に保持された圧縮情報の列であ
る第２圧縮情報列の繰り返し数の総計を比較し、
両者が一致するように、何れか一方、又は、両方
の圧縮情報列を補正する圧縮情報列補正手段と、
該圧縮情報列補正手段によつて補正された第１、
第２の圧縮情報列にしたがつて、前記辞書及び入
力パターン保持手段から周波数パターンを読み出
し、両者を比較する照合手段とを有することを特
徴とするパターン照合装置。２前記圧縮情報列補正手段は、前記第１圧縮情
報列の繰り返し数の総計と前記第２圧縮情報列の
繰り返し数の総計を比較し、総計の小さい方の圧
縮情報列の伸長を行なつて両者が一致するように
補正するものであることを特徴とする特許請求の
範囲第１項記載のパターン照合装置。３前記伸長は、その圧縮情報列に含まれる何れ
かの圧縮情報を所定値増加されるものであること
を特徴とする特許請求の範囲第２項記載のパター
ン照合装置。４前記圧縮情報列補正手段は、前記第１圧縮情
報列の繰り返し数の総計と前記第２圧縮情報列の
繰り返し数の総計を比較し、総計の大きい方の圧
縮情報列の短縮を行なつて両者が一致するように
補正するものであることを特徴とする特許請求の
範囲第１項記載のパターン照合装置。５前記短縮は、その圧縮情報列に含まれる何れ
かの圧縮情報を所定値減少させるものであること
を特徴とする特許請求の範囲第４項記載のパター
ン照合装置。