JP3002200B2 - 音声認識 - Google Patents

音声認識

Info

Publication number
JP3002200B2
JP3002200B2 JP62504580A JP50458087A JP3002200B2 JP 3002200 B2 JP3002200 B2 JP 3002200B2 JP 62504580 A JP62504580 A JP 62504580A JP 50458087 A JP50458087 A JP 50458087A JP 3002200 B2 JP3002200 B2 JP 3002200B2
Authority
JP
Japan
Prior art keywords
vector
pattern
voice
feature
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62504580A
Other languages
English (en)
Inventor
潤一郎 藤本
晴剛 安田
奉文 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP62504580A priority Critical patent/JP3002200B2/ja
Priority claimed from PCT/JP1987/000569 external-priority patent/WO1988001090A1/ja
Application granted granted Critical
Publication of JP3002200B2 publication Critical patent/JP3002200B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は、大略、音声認識装置に関するものであっ
て、特に、音声認識装置において使用される音声パター
ンの照合方法及び類似度演算方法に関するものである。 背景技術 単語の音声を認識する方法として現在数多くの方式が
開発されている。これらの多くは、あらかじめ利用する
音声を登録しておいて、後に入力される音声がすでに登
録されているうちのどの音声に最もよく類似しているか
を調べて未知の入力音声を認識する、いわゆる、パター
ンマッチングによるものである。パターンマッチング法
は他の方法、例えば、判別関数等を用いるものに比べて
演算数が少なく、認識精度が良いことから広く普及して
いる。 第1図は、上記パターンマッチング法の一例を説明す
るための構成図で、図中、1はマイク等の集音装置、2
はフィルターバンク、3は辞書、4はローカルピーク検
出部、5は類似度算出部、6は認識結果出力部で、周知
のように、マイク等の集音装置を通して得られた音声
は、例えば周波数スペクトルのような特徴量に変換さ
れ、これによって特徴パターンを構成し、パターンマッ
チングを行なう。この時、1つのスペクトルの値は通常
8−12ビット程度が割り当てられて表されるため、周波
数上でm個のサンプルを取ると8×m〜12×mビットで
1つの時間サンプル(1フレーム)が表現できることに
なる。一般には、10m秒程度に1つの時間サンプルをつ
くるため、nフレームのパターンは8×m×n〜12×m
×nビットである。パターンマッチングを行なうための
一方のパターンをa11,a21、…am1…amn、他方のパター
ンをb11,b21…bm1,b21…bmnとする2つのパターンの違
いを表す距離Dは のような市街地距離をもちいる。つまり、この方法では
8−12ビットの演算をi・j回実行して1つのパターン
の比較ができるわけである。しかも上記の例は比較すべ
き2つのパターンの時間長が等しいと仮定した場合であ
り、音声のような常に時間長が変化するものでは、その
時間長を合わせるために更に多くの演算を必要とする。 このようなパターンマッチング方法の1つで、データ
量が少なく、簡単な演算で実行できるものにBTSP(Bina
ry Time−Spectrum Pat−tern)を用いるものが発表
されている。(日本音響学会講演論文誌、p195、昭和58
年秋) 第2図は、上記BTSPの一例を説明するための構成図
で、図中、11はマイク等の集音装置、12はフィルタバン
ク、13は最小2乗による補正部、14は2値化部、15はBT
SPの作成部、16は線形伸縮によるn回発声パターンの加
算部、17は辞書部、18はピークパターン作成部、19は線
形伸縮によるパターン長合わせ部、20は類似度算出部、
21は結果表示部で、マイクから入力された音声は、バン
ドパス・フィルター群等を利用して周波数分析され、周
波数とその時間変化をパターン(TSP)として表され
る。更にこれを、周波数上のピークを中心として
「1」、他を「0」として2値化してBTSPに変換し、複
数回発声して得られたBTSPを重ねて標準パターンとして
登録しておく。未知の音声が入力された際、この音声も
標準パターン作成時と同様な過程でBTSPをつくり、あら
かじめ登録してある標準パターンと照合して各標準パタ
ーンとの類似度を求める。類似度は未知音声のBTSPと標
準パターンとを重ねた時の「1」のエレメントの重なり
具合からもとめる。通常、誰の声でも認識できる不特定
話者音声認識装置のためには、一つの登録すべき音声に
ついて複数個の標準パターンを作成するなど演算量を増
やす手段を用いるが、この方法では標準パターンをうま
く作れば、たいした演算量の増加もなく不特定話者用の
音声認識装置の実現が容易であるというメリットを有し
ている。 この方法で定義される2つのパターンの類似度Sは で表される。a,bの各エレメントは、1又は0、あるい
は、その演算結果であるため、大きなビット数を割り当
てなくても表現できるにもかかわらず、コンピュータの
演算単位(4、8、16ビット…)を与えるのが普通であ
るため、もっと少ない演算量、少ないメモリ量で実現で
きるものが無駄が生じていることになる。 音声認識の分野でも他と同様、照合すべきパターン数
が増えるほど、一つのパターンに対する演算時間の短い
照合方法が必要となってくる。このような演算の少ない
照合方法で全パターンと照合するのも良いし、又、この
ような簡単な方法でいくつかの正解候補を選んでおいて
から最終的に少ない数のパターンをていねいに照合する
方法も良い。演算量が比較的少ない照合方法として2値
化した時間周波数パターンを使う方法が提案されてい
る。 第2図の装置は、単語単位に発声した音声を2値化処
理して求めた入力パターンと辞書パターンを線形マッチ
ングして認識するものである。尚、第2図に示したもの
は特定話者方式を示しており、斜線の経路に従って音声
と登録する。不特定話者用の音声認識の場合には、辞書
は、BTSPの重ね合わせとして新たに作るようにしてい
る。 この方法は、フィルタバンクを16チャンネルにしてお
くと2値化された結果は16ビットのデータとして扱える
というメリットがある。この16個の一連のデータを1フ
レームと呼ぶことにする。この16ビット、2バイトのデ
ータを3回加算して得られたもの(辞書パターン乃至は
標準パターン)は、一つのエレメントが最大3となるた
め、各エレメントを2ビットで表現しなければならなく
なる。この場合、2ビットを上位と下位に分け、上位の
1フレームを2バイトのデータに割りつけ、下位を別の
2バイトに割りつける。この様子を第3図に示す。つま
り、2バイトの横一列がフィルタバンクの16個のフィル
タに対応づいていることになる。パターン照合の時、未
知の入力が2値化されて1フレーム、2バイトで表わさ
れているなら、各チャンネルの値の積は、未知入力と4
バイトパターンの上位、下位各々のバイトとビット対応
づけて論理積をとれば容易に求めることができ、演算が
楽である。この方法自体は演算値が少なく照合すべきパ
ターンの数が比較的多くても高速に演算できるが、辞書
パターンの各エレメントが2ビット程度で表現できない
場合、例えば4〜6ビット程度になった場合には各々と
演算しなければならないし、一方、登録すべき単語数が
500を越えるような多数の時はこの方法でも時間がかか
るようになってしまう。 音声認識には特定話者方式と不特定話者方式があり、
前者があらかじめ使用者の音声を登録する必要があるの
に対し、後者にはその必要がないというメリットがあ
る。不特定話者方式の代表的なものはマルチテンプレー
ト方式であり、この方式は、登録すべき一つのカテゴリ
ーに対して複数の標準パターンを用意しておき、この中
から最も類似しているものを探すものである。このよう
に不特定話者方式では多数の演算が必要である、その結
果、認識時間がかかる、正答率が低いといった欠点があ
る。最近、簡単な方式で不特定話者方式に向いている認
識方式として、BTSPを用いるものが発表されている。
(第2図参照) 第2図の方式では、ある時点にサンプルリングされた
一組の周波数データ(以後フレームと呼ぶ)を2バイト
程度のレジスタに均等に割りつけて扱うことができるた
めメモリー量が少なくなる。 第4図は2バイトのレジスタに16個のフィルターの出
力の割りつけ方を示す。例えば、このようなデータを3
回重ねてその和をとったとすると、第5図のように各々
の値は0〜3になり、これまでの2バイトでは表わすこ
とができなくなる。そこで、第6図に示すごとく各々の
値を2進表現し、その上位だけを1組として2バイト、
下位だけを1組として2バイトで表わすようにする。こ
れを標準パターンとし、第4図のようにして作った未知
入力パターンとの類似度性を求めるために、第7図に示
すように、両者を重ね合わせて対応づくビットの積をと
り、それを類似度とする。しかし、このような演算は厄
介であり、時間がかかるので第8図のような方法が考え
られる。標準パターンを第6図のごとき、上位、下位に
分け、未知入力と上位を重ねて各ビットの論理積をと
る。下位も同様にして論理積をとり、上位の各ビットの
値の合計を2倍し、或いは2回加えて下位のビットの合
計を加えると第7図と同じ結果が得られるので、これを
類似度とする。このようにして登録されている全ての標
準パターンと未知の入力パターンとの類似度を求めてお
き、その中の最大類似度が得られた標準パターンに、未
知の入力が分類されたと考え、その標準パターンにつけ
られたラベルを認識結果として出力する。このようにし
て、簡易的に類似度の計算を行なうことができるが、し
かし、この方式で一番演算時間を要するのが二組の2値
パターン同士の論理積をとってその中の各ビット値の合
計を演算する部分である。 本発明は、上記の如き従来技術の欠点を解消する為に
なされたものであって、特に少ない演算で高速なパター
ン照合を行なうことを可能とする音声認識装置を提供す
ることを目的とする。 本発明の別の目的とするところは、音声認識に有用な
簡易的なパターン類似度演算方法を提供することであ
る。 本発明の更に別の目的とするところは、演算量を最小
とし且つ高速処理を可能とする音声認識に有用なパター
ン類似度演算方法を提供することである。 発明の開示 本発明の一側面によれば、音声を収録する手段と、収
録した音声を複数の特徴量に変換する手段と、該特徴量
を同一時間とみなせる間隔で量子化して特徴パターンを
作成する手段とを有する音声認識装置において、同一時
間とみなせる間隔でサンプルしたデータをコンピュータ
の演算単位の中に均等に割り付けて演算することを特徴
とした音声認識装置が提供される。 本発明の別の側面によれば、音声を特徴量に変換し、
ある時間間隔でサンプリングして単位時間ごとの一連の
データにし、該一連のデータを2のべき乗を一単位とし
たレジスタにわりつけ、1つのデータが2以上の値をと
るとき、これを複数の単位のレジスタに分割して取り扱
う音声パターン類似度演算方法において、一連のサンプ
ルを表わす複数の単位のレジスタの一単位以上、全数未
満のレジスタを用いて未知の入力パターンとの間で類似
度を求めるようにしたこと、或いは、一連のサンプルを
表わす複数の単位のレジスタの一部で論理演算をして新
たなパターンを作成し、未知の入力パターンとの間で類
似度を求めるようにしたことを特徴とした音声パターン
類似度演算方法が提供される。 本発明のこの側面は、一連のデータの各エレメントが
上位…下位の各々のレジスタ単位の各ビットに均一に割
りつけられていることに着目してなされたものであり、
例えば、音声を特徴量に変換し、ある時間間隔でサンプ
リングして単位時間ごとの一連のデータにし、該一対の
データを2のべき乗を一単位としたレジスタにわりつ
け、1つのデータが2以上の値をとるとき、これを複数
の単位のレジスタに分割して取り扱う音声認識パターン
の類似度演算方法において、一連のサンプルを表わす複
数の単位のレジスタの一単位以上、全数未満のレジスタ
を用いて未知の入力パターンとの間で類似度を求めるよ
うにしたものである。 本発明の更に別の側面によれば、音声を特徴量に変換
し、一定時間間隔をサンプリングして一組のデータを作
り、該一組のデータを2のべき乗を一単位としたレジス
タにわりつけ、一つのデータが2以上の値をとるとき、
これを複数の組のレジスタに分割して取り扱い、類似度
を計算してその類似度の大きさを比較する類似度比較方
法において、あらかじめ登録されている標準パターンと
未知パターンを順次照合して類似度を計算するに際し、
すでに求めた類似度を複数のレジスタに分割して保有
し、次の標準パターンの一部と入力を比較して求めた値
とすでに求められている類似度の一部のレジスタ内の値
を比較し、先の値の方が大きい時には現在の標準パター
ンとの類似度演算を中止するようにしたことを特徴とし
た、パターン類似度比較方法が提供される。 本発明の更に別の側面によれば、音声を特徴量に変換
し、ある時間間隔でサンプリングして単位時間ごとの一
対のデータにし、該一対のデータを2のべき乗を一単位
としたレジスタにわりつけ、一つのデータが2以上の値
をとる時、これを複数の単位レジスタに分割して取り扱
う音声パターン照合方法において、上記特徴量とは別の
手段によって得られた第2…第n(ただし、nは整数)
の特徴量は同一データのあるビットに割り付け、この情
報を基に、本来の特徴量のパターン照合を制御する事を
特徴とした音声パターン照合方法が提供される。 本発明のこの側面は、上述のごとき従来技術の不具合
に鑑みてなされたものであり、その制御情報をBTSPデー
タの中に含み、演算、判断の高速化をはかるとともに、
認識率の高性能化をはかったものである。 本来、BTSP方式は音声のホルマント情報を0と1の2
値のデータで表わし、前述の如く16ビットデータとして
取り扱って演算を行えば、多くの有効性を生ずる。 本発明のこの側面は、更に、認識演算に必要な情報で
かつ1回の発声の1サンプルデータで0か1かに判定で
き得る情報を上記BTSPデータの空きチャンネルに充当
し、前述のデータ構造をもって演算を行って更に高速に
演算せしめようとするものである。 図面の簡単な説明 第1図及び第2図は従来の音声認識装置を示したブロ
ック図、第3図は従来パターン類似度演算方法の一例を
示した概略図、第4図は2バイトのレジスタに16個のフ
ィルタの出力を割りつける割りつけ態様を示した説明
図、第5図は2値化データを3回重ねた場合の一例を示
す説明図、第6図は第5図に示した重ね合せ結果を上下
の2バイトで表現した例を示す説明図、第7図は標準パ
ターンと未知入力との類似度の求め方の一例を示す説明
図、第8図は本発明が適用されるパターン類似度比較方
式の一例を示す説明図、第9図は本発明の1実施例に基
づいて構成された音声認識装置を示したブロック図、第
10図は同一音声を3回発声したBTSPから標準パターンを
作る場合の1例を示す説明図、第11図は本発明の別の実
施例を示したブロック図、第12図は本発明の1実施例に
基づくパターン類似度演算方法の各ステップを示したフ
ローチャート図、第13図は第12図の方法を説明するのに
有用な説明図、第14図は第12図に示した方法を実施する
のに好適な装置の一例を示したブロック図、第15図は本
発明の別の実施例に基づくパターン類似度演算方法の各
ステップを示したフローチャート図、第16図は第15図の
方法を説明するのに有用な説明図、第17図は第15図に示
した方法を実施するのに好適な装置の1例を示したブロ
ック図、第18図は本発明の1実施例に基づくパターン類
似度比較方法を実施するのに好適な装置を示したブロッ
ク図、第19図は本発明の1実施例によるパターン照合方
法を実施するのに好適な装置を示したブロック図、第20
図は従来のパターン照合方式の一例を示すブロック図、
第21図は2値化データを示す説明図、第22図は空ビット
の使用例を示す説明図、第23図は音声区間の決定方法を
示す説明図、第24図はBTSPデータの採取方法を示した説
明図、第25図は荷重平均の一例を示す説明図、第26図は
認識演算の一例を示す説明図、である。 発明を実施する為の最良の形態 第9図は、本発明の一実施例に基づいて構成された音
声認識装置を示している。 図中、31はマイク等の集音装置、32は音声区間検出
部、33はバンドパスフィルター群、34は2値化部、35は
初期値設定及び選択回路、36は割り付け演算部、37は辞
書部、38は照合部、39は結果出力部である。この実施例
では、音声を収録する手段と、収録された音声を複数の
特徴量に変換する手段と、該特徴量を同一時間とみなせ
る間隔で量子化して特徴パターンを作成する手段を有す
る音声認識装置を構成している。そして、同一時間とみ
なせる間隔でサンプルしたデータをコンピュータの演算
単位(4ビット、8ビット、16ビット等)の中に均等に
割り付けて演算し、同一時間とみなせる間隔で量子化す
る特徴ベクトルの数を4の整数倍となるようにして、各
ベクトルの要素を2値化処理により1又は0で表して単
位ベクトルとして演算するようにしている。 すなわち、第9図に示した実施例においては、まず、
音声をマイクで集音し、ノイズ等から分離するために区
間検出部によって音声区間のみをとりだし、バンドパス
フィルター群33により周波数分析して2値化する。な
お、パターンの2値化処理に関しては任意の周知の方法
を適用することが可能である。 次いで、あらかじめ使用すべき音声について、この2
値化されたパターン(BTSP)を作成して標準パターンと
して登録しておき、入力された未知の音声もBTSPに変換
して標準パターンと比較、照合して最も類似性の高い標
準パターンを認識結果とする。 第9図では、15個の各バンドパスフィルターの出力は
8ビット程度で表されているが、ここで示す方法では2
値化後のこれらの各バンドパスフィルターの出力を16ビ
ットで表している。つまり、第1チャンネルの値を16ビ
ットの最下位ビットに割り当て、第2、3、…と順に1
つずつ上位ビットに割り付けていく。割り付け方は例え
のようにすれば良い。ただし、iはフレーム番号、jは
フィルタのチャンネル番号を、aijは式(1)、(2)
と同様にBTSPの各エレメントを示す。これによって式
(2)のごとき類似度Sは S=ΣA(j)^B(j) (4) と表すことができる。ただし^は各ビット毎の論理積を
表している。つまり、式(2)では各要素の積をとる必
要があったものが、式(4)では各フレーム毎の論理積
の計算をすれば良いことになる。 したがって、従来一つのパターンを表すために必要で
あったメモリー量は減少され、演算も高速化される。こ
の時バンドパスフィルターの数をどのように選ぶかによ
り効率は変ってくる。 第10図は、特定話者方式において、一つの音声につい
て3回発声されたBTSPをかせねあわせて標準パターンと
する例を示すが(日本音響学界講演論文誌、p195、昭和
58年秋)、同図では3回発声された時のBTSPから対応つ
く1フレームをとりだして示している。このように重ね
合わせることにより標準パターンの各要素は0−3の値
を持つことになり、2値では表しきれなくなる。 第11図は、上記欠点を改良した実施例を示している。
図中、40は上位ビット部、41は下位ビット部、42は加算
部、43は登録演算ロジック部、44は辞書部、45は認識演
算ロジック部、46は結果出力部である。その他31乃至36
はそれぞれ第9図に示した実施例31乃至36に対応してい
る。而して、この実施例は、音声を収録する手段と、こ
れを複数の特徴量に変換する手段と、該特徴量を同一時
間とみなせる間隔で量子化して特徴パターンを作成する
手段を有する音声認識装置を構成している。そして、同
一時間とみなせる間隔でサンプルしたデータをコンピュ
ータの演算単位(4ビット、8ビット、16ビット…)の
中に均等に割り付けて演算し、同一時間とみなせる間隔
で量子化する特徴ベクトルの数を4の整数倍となるよう
にし、各ベクトルの要素を2値化処理により1又は0で
表して単位ベクトルとして演算するようにしておき、演
算により特徴ベクトルが単位ベクトルでなくなった時、
ベクトルの各要素を2進数であわらし、その位に従って
新しいベクトルを構成して演算するようにしている。第
10図に示したように、一つの音声について3回発声され
たBTSPをかさねあわせて標準パターンとすると、標準パ
ターンの各要素は0−3の値を持つことになる。従っ
て、1つの要素を表すために必要なビット数は2ビット
となる。これに対して入力される音声は普通のBTSPに変
換されるため、各要素は1ビットで表されることにな
り、両者の類似度の演算が、非常に複雑になってしま
う。ここで提案する方法は、この2ビットを上位と下位
のビットに分け15CH分の上位を1ワード、つまり16ビッ
トで表し、下位を別の1ワードで表すようにしたもの
で、これによって、類似度Sが次のような式で求められ
ることになる。 h、1はそれぞれ上位、下位のビットを、Uは論理和
を示す。式(2)で表される2つのパターンの積は式
(5)のごとく2つのワードの積とそれらの結果の和で
得ることができる。不特定話者方式の場合、標準パター
ンは1つの音声について10個位のBTSPを重ね合わせてつ
くることになるため、パターン中の1つの要素が4ビッ
トで表されることになる。これも先例同様に、4ビット
を分割して別々のワードに割り当て、各ワードが1−15
CHを表す単位ベクトルとして取り扱う。なお、以上に本
発明の各実施例について説明したが、発明はソフトウェ
アで実現しても、ハード的に実現しても良いことは容易
に理解できよう。 以上の説明から明らかなように、本発明の1側面によ
ると、標準パターンのメモリー量が少なくなり更に、類
似度の演算が減って認識の高速化が可能になった。しか
もそれだけではなく、類似度算出のために補助的に利用
する情報である「標準パターン中、3回の発声のうち2
回以上が1である要素の数M」(特定話者方式の場合)
を求めるときには、次式の演算をすれば簡単に求められ
るというメリットがある。 ただし、1は全ての要素が1である単位ベクトルを示
している。 第12図は、本発明のパターン類似度演算方法の一実施
例を説明するためのフローチャート、第13図は、第12図
に示した実施例を説明するためのパターン例を示す図、
第14図は、第12図に示した実施例の実施に好適な装置の
一例を示す図である。14図において、51はマイクロフォ
ン、52は16チャンネルのバンドパスフィルタ、53は2値
化部、54はレジスタ、55は乗算部、56は辞書パターン
(ただし、56aは上位バイト、56bは中位バイト、56cは
下位バイト)、57はレジスタ、58は上位N/3個の名前を
記憶する部分59〜63は乗算部、64は加算部、65はレジス
タ、66は最大類似度演算部、67は結果出力部である。ま
ず、入力された音声を特徴量に変換して辞書パターンの
上位バイトと照合する。入力パターンは2値化されてい
るため、1連の2バイトで表わされるため、第13図
(b)の上位バイトとこの入力バイトとの論理積をとる
ことによって両者の類似度が求められる。これは第13図
(a)のパターンの4以上のエレメントと、入力の相関
を求めていることになり、第13図(a)の0〜7まであ
る値を4を閾値として2値化して入力パターンとの相関
を求めていることに等しい。従来、上、中、下の3つの
バイトを使っていたのを1つのバイトにするため、演算
は1/3となるが当然演算精度も低下してしまう。従っ
て、第12図に示すごとく登録単語数をNとし、この方法
で対象を例えばN/3に絞って残った単語に対して正規の
照合をするようにすると、従来、N単語に対して3バイ
ト演算をしていたため演算量3Nが、予備演算N、本演算
3・N/3で合計2Nとなり演算量は2/3となる。言うまでも
なく、これは予備的な選択法で残す単語数と辞書パター
ンの構成によって減少量に差が出る。 第14図において、あらかじめ辞書パターンは上位、中
位、下位のビットに分けて登録しておくものとする。こ
れは装置の中で登録できるようにしてあっても良いが、
この登録の方法は本発明に影響しないのでその詳細な説
明は省略する。まず、未知の入力が入ったら、16チャン
ネルのバンドパスフィルタを通して周波数分析した結果
を例えば10ms程度に一連ずつ(フレーム)のデータとし
て取り込みレジスタ54に貯える。辞書パターンの上位バ
イトとレジスタの入力パターンとの論理積をとってその
16チャンネル分と時間長分の合計をレジスタ57へ格納し
ておく。この際、2つのパターンの時間長の合わせ方は
特に説明しないが、例えば前記BTSPで用いた方法などを
用いれば良い。ここでは、第13図(c)の4以上を1と
して2値化したパターン(第13図(d))と入力パター
ンを比較しているが、両者の重なり部の多さによって2
つのパターンの類似度を定義していることになる。この
類似度を照合した順にレジスタ57へ入れ、その中から上
位N/3に入る単語名又は単語番号を抽出し、それと一致
する辞書パターン全体をとり出し、レジスタ54に格納さ
れていた入力音声を2値化したパターンと論理積をと
る。この場合も先の論理積と同様、積をとった結果を16
チャンネル分と時間長分合計する。下位バイトと積をと
った結果と、中位バイトと積をとり、結果に2倍したも
のと、上位の同じものに4倍したものの和をとることに
よって第13図(c)のパターンと入力パターンの重なり
具合を表わす類似度が得られ、この結果の最大のものを
認識結果として出力する。このようにして簡易な演算で
厳密な照合をすべき対象を減らすことができ、その結
果、全体の演算量も減少させることができる。ここでは
上位バイトとの照合を述べたが、上位バイトだけでなく
中位バイトとも照合しても良いが、演算量は上位だけの
ものより増える。しかし、この方法では辞書を1つのバ
イトの組で表現した時は、もとの辞書の最大値の1/2に
閾値を設定して2値化したものと等しく、それ以外に閾
値を移動させることが出来ない。そこで、一連のサンプ
ルを表わす複数の単位のレジスタの一部で論理演算を
し、新たなパターンを作成し、未知の入力パターンとの
間で類似度を求めるようにした。 第15図は、その場合の一実施例を説明するための図、
第16図は、第15図に示した実施例を説明するためのパタ
ーン例を示す図、第17図は、第15図に示した実施例の実
施に好適な装置の一例を示す図である。第17図におい
て、70は加算器で、その他、第14図に示した装置と同様
の作用をする部分には第14図の場合と同一の参照番号が
付してある。説明を簡明にするために、以下、第12図乃
至第14図に示した実施例との差異についてのみ説明す
る。而して、この実施例においては、入力された音声と
辞書の上位バイトの照合をする前に辞書の上位と中位の
バイトの論理和をとった後に、この結果と入力の照合を
する。第16図(b)の上位と中位の論理和によって出来
るパターンは第16図(c)のようになり、これは第16図
(d)のパターンと等しく、前述の実施例の閾値を下げ
たことに一致する。又、論理和ではなく論理積にすると
前述の実施例より閾値を6へ上げたことになる。このよ
うにして論理演算を一回増やすことによって閾値を変化
させることが出来るようになる。この第15図に示した実
施例の具体的装置は、第17図のようになり、第14図に示
した装置との差異は、予備的な照合に用いる辞書パター
ンを辞書の上位と中位の論理和によって作り出している
点である。 この実施例によると、上位と下位の両ビットを利用し
ながら両者を別々に照合することなく両者をまとめて圧
縮した後に照合するため照合の演算量は上位バイトのみ
と照合するものに比べ大した増加はない。 なお、以上には、上、中、下位の3種のビット構成で
行なったが、必ずしも3種でなくとも4種以上でも良
く、多種になる程、高速化の効果が顕著になる。又、類
似度は従来技術に従って論理積によって得られるものを
書いたが、これに限定するものではないことは言うまで
もない。 第18図は、本発明のパターン類似度比較方法の一実施
例を示したブロック図である。図中、71はマイクロフォ
ン、72はフィルタ群(特徴抽出部)、73は音声区間切り
出し部、74は2値化部、75は類似度算出部、76は辞書、
77は比較部、78は上位類似度算出部(類似度レジス
タ)、79は類似度算出部、80は比較部、81は下位類似度
算出部(類似度レジスタ)、82はラベル部(ラベルレジ
スタ)83はラベル表示部である。まず、あらかじめ照準
パターンが辞書レジスタ76に登録されているものとして
考える。各標準パターンの1フレームは上位76aと下位7
6bの2層になっているものとし、それらを別々のレジス
タに入れて保管しておく。まず、類似度レジスタ78、81
をクリアして0にしておいて、入力音声をマイク71に向
って発する。ここでは特徴抽出部72が16個のバンドパス
フィルタのフィルタ群で構成されている場合を示すが、
これは周波数分析をするためであって、線形予測係数な
ど利用する特徴パラメータに応じて置き換えれば良い。
区間切り出し部73では特徴抽出したパラメータを利用し
て音声の部分を不要な音から抜き出して区間検出する。
特徴抽出と区間検出の順序は特に制限をするものではな
く、どちらが先でもよい。区間検出方法は、音声が入力
された時にマイク出力のエネルギーが増加するので、そ
のエネルギー変化を利用する方法がよく利用される。
又、スペクトルの変化によって区間を決定しても良い。
その結果を2値化部74にて2値化する。2値化の方法は
すでに提案されている周知のもので良い。2値化された
データは1フレーム分を2バイトで表わすことができ
る。先に述べたような方法で最初の標準パターンの上位
との類似度を求め、類似度レジスタ78の上位類似度レジ
スタと比較する。今、求めた類似度が、レジスタ内の類
似度より大なれば、そのまま現類似度をレジスタ78の中
へ格納し、続いて入力と標準パターンの下位と類似度を
求めそれを類似度レジスタ81へ格納すると共にその標準
パターンのラベルをラベルレジスタ82へ格納しておく。
最初に標準パターンと照合される場合、各類似度レジス
タはリセットされ0が入っているので必ず内容は書き換
えられる。次に、辞書中の第2の標準パターンの上位と
の類似度を求め、同様の操作がくり返される。この時、
上位の類似度がレジスタ78よりも大きい時は、現類似度
をレジスタ78へ代入し、下位の類似度を求め、これを無
条件でレジスタ81へ入れる。上位の類似度がレジスタ78
と同じ場合は、そのまま下位の類似度を求め、レジスタ
81の値とこれを比較し、求めた類似度の方が大きい時の
み、その類似度をレジスタ81へ入れる。レジスタ81へ類
似度を代入した場合には必ずラベルレジスタ82へも現ラ
ベルを入れておく。これに対し、上位の類似度がレジス
タ78の内容よりも小さい時はそのまま次の標準パターン
との照合に移る。このような操作を辞書に登録された標
準パターンの数だけくり返し、全てが終るとラベルレジ
スタ82に入っているラベルを認識結果として出力する。
この方法を利用することによって最大類似度を得る標準
パターンとの照合が早ければ早い程、下位の照合する回
数が減り、計算量が減少する。従って、認識の高速化が
図れることになる。 以上に述べたものは、標準パターンが上位と下位の2
層構造となっている例であるが、これは3層以上でも良
く、層が多くなるほど効果が著しくなってくる。また、
この照合では全ての標準パターンとの照合を考えている
が、予備的な照合をした後でこの方式を適用するのも良
い。 第20図は、従来の音声認識システムの全体構成を説明
するための図である。図中91はマイクロフォン、92は前
処理部、93は14チャンネルバンドパスフィルター群、94
は2値化演算部、95は辞書作成部、96は辞書、97は認識
演算部、98は結果出力部である。マイクロフォン91より
入力された音声は、前処理部92によりレベル補正され、
14Chのバンドパスフィルター(B.P.F)群93に入力され
る。この14chのB.P.F群である周期サンプル毎に周波数
解析され、2値化演算部94において、2値化演算されて
第21図に示す様な2値化データを得ることができる。本
例の場合、14chのバンドパスフィルタを用いている為、
図のように空きチャンネルEが2チャンネル存在する。
この2値化データを一単語長分で、辞書作成、及び認識
部で各々の機能を行う事になる。 第19図は、本発明によるパターン照合方法を実施する
のに適した装置を示している。図中、100は音声区間検
出部、101は有声/無声検出部、102は区間ビット制御
部、103は有声者ビット制御部で、その他、第20図に示
した従来技術と同様の作用をする部分は第20図の場合と
同一の参照番号が付してある。以下、本発明における例
として、制御ビットに音声区間検出信号と有声無声検出
を用いる例について説明する。マイクから入力された音
声は、前記と同様に前処理部、14チャンネルのバンドパ
スフィルタを通過し、2値化演算部において前記と同様
にして2値化データが生成される。この時、第21図の空
チャンネルEに対して第22図に示す様に音声区間信号A
と有声/無声検出信号Bを置く。ここで音声区間信号
は、第23図に示す様に音声パワー信号をある閾値thでチ
ェックし、音声区間信号を得る。又、有声無声信号は第
24図に示す用に、サンプル時の音声ホルマントの最小二
乗近似曲線Cの傾きが負の時は有声、正の時は無声と定
義し、有声時には2値化データのビットを1に、無声時
にはビットを0にする。この様に14chの周波数成分の2
値化データと音声区間信号、有声無声情報の含まれた2
値化(BTSP)データを得る。 得られた2値化情報でch1〜ch14の周波数情報による
2値化情報は本来の認識時に類似度を得るための情報で
あり、音声区間ビットと有声無声ビットは認識時の制御
ビットとなる。この様にして得られた2値化情報の一単
語分を用いて辞書作成を行う。この時、制御ビットは他
の情報と同様に2値ビットであるので、そのまま荷重平
均化する。制御ビットを上述の如く、0と1の2値ビッ
トでBTSPデータの中に埋め込んでおけば、辞書作成時は
周波数情報の0、1と同様に扱うことができ取り扱いが
非常に簡単となる。 次に認識時における制御ビットの用い方について説明
する。辞書における制御ビットは上述の如く、おのおの
の発声の情報を荷重平均化しているため、たとえば3回
発声の場合、第25図に示す様に、各ビットが0〜3の4
値の値をとり、変動成分を含んだ様になっており、未知
入力パターンの同位置の制御ビットに対して決められた
制御ルールに従って認識時のパターン照合を行う。例え
ば、有声/無声ビットの場合、未知入力パターンの有/
無声ビットが1の場合、辞書の3回の発声でのそのビッ
トが0か又は入力が0の場合で、辞書のそれが3の場合
に限って、そのフレームの類似度を0とし、それ以外の
場合は、通常に類似度を計算すればよい正確な類似度を
得る事ができる。 又、次に音声区間信号の場合、例えば有音ブロック単
位の語尾の部分などの3以下の部分についてのみ、類似
度を計算しない様にするだけで、一般に言われている語
尾の部分の不安定さを取り除いた認識演算が可能とな
る。第26図は、その様子を示す図で、Dは認識対象ブロ
ック範囲で、各々の発声を線形伸縮して辞書を作成し、
3以下の部分つまり不安定な部分は認識対象としない。
この様に認識に有用な制御ビットを割り付ければ、その
変動成分を吸収するパターン制御方式が構成できる。も
ちろん、制御ビットの種類にはこだわらない。 この様に2のべき乗を一単位とした16ビットのデータ
対を用いる事により、処理高速化を計れるとともに、そ
の空チャンネルに制御ビットを割り当てる事により、BT
SPの周波数データの演算制御を容易に行う事が可能とな
るとともにBTSPの本来の特徴である変動成分の吸収を制
御ビットの中にもあてはめる事ができ、簡易かつ高精度
な認識を可能とする事ができる。 産業上の利用可能性 以上詳説した如く、本発明の装置及び方法は、音声認
識に適用することが可能である。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭61−27599(JP,A) 特開 昭56−168696(JP,A) 特開 昭60−175098(JP,A) 特開 昭61−72300(JP,A) 特開 昭58−111989(JP,A) 特開 昭58−115497(JP,A) 特開 昭60−198598(JP,A) 特開 昭61−99200(JP,A) 特開 平2−30224(JP,A) 特公 昭54−12003(JP,B2) 英国特許2202667(GB,B) 欧州特許275327(EP,B1) (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 - 9/20 G11B 31/00 505 G11B 31/00 523

Claims (1)

  1. (57)【特許請求の範囲】 1.音声を収録する手段と、収録した音声を複数の特徴
    量に変換する手段と、この特徴量を量子化して特徴パタ
    ーンを作成する手段とを有し、量子化した特徴ベクトル
    の要素の個数を2のべき乗数となるようにし、各特徴ベ
    クトルの要素の値を2値化処理により1または0で表し
    て新たなベクトルを作成し、この新たなベクトルをもと
    に演算する音声認識装置において、演算によりベクトル
    のいずれかの要素の値が2以上になった時、このベクト
    ルの各要素の値を2進数で表し、2進数で表したときの
    各位ごとに新たなベクトルを構成して演算するようにし
    たことを特徴とする音声認識装置。 2.音声を収録し、収録した音声を複数の特徴量に変換
    し、この特徴量を量子化して特徴パターンを作成し、量
    子化した特徴ベクトルの要素の個数を2のべき乗数とな
    るようにし、各特徴ベクトルの要素の値を2値化処理に
    より1または0で表して新たなベクトルを作成し、その
    ベクトルの各要素を一つの記憶箇所に割り付け、演算に
    よりいずれかの要素の値が2以上になったときにこの演
    算結果の各要素の値を2進数で表し、2進数で表したと
    きの各位ごとに新たなベクトルを作成し、この新たに作
    成したベクトルをそれぞれ複数の記憶位置に格納する音
    声パターンの類似度演算方法において、前記複数の記憶
    位置のうちの一つ以上の記憶位置と未知の入力パターン
    との間で類似度を求めることを特徴とするパターン類似
    度演算方法。 3.音声を収録し、収録した音声を複数の特徴量へ変換
    し、この特徴量を量子化して特徴パターンを作成し、量
    子化した特徴ベクトルの要素の個数を2のべき乗数とな
    るようにし、各特徴ベクトルの要素の値を2値化処理に
    より1または0で表して新たなベクトルを作成し、その
    ベクトルの各要素を一つの記憶位置に割り付け、演算に
    よりいずれかの要素の値が2以上になったときにこの演
    算結果の各要素の値を2進数で表し、2進数で表したと
    きの各位ごとに新たなベクトルを作成し、この新たに作
    成したベクトルをそれぞれ複数の記憶位置に格納する音
    声パターンの類似度演算方法において、前記複数の記憶
    位置のうちの一部の記憶位置の間で論理演算を行って新
    たなパターンを作成し、このパターンと未知の入力パタ
    ーンとの間で類似度を求めることを特徴とするパターン
    類似度演算方法。 4.音声を収録し、収録した音声を複数の特徴量に変換
    し、この特徴量を量子化して特徴パターンを作成し、量
    子化した特徴ベクトルの要素の個数を2のべき乗数とな
    るようにし、各特徴ベクトルの要素の値を2値化処理に
    より1または0で表して新たなベクトルを作成し、その
    ベクトルの各要素を一つの記憶位置に割り付け、演算に
    よりいずれかの要素の値が2以上になったときにこのベ
    クトルの各要素の値を2進数で表し、2進数で表したと
    きの各位ごとに新たなベクトルを作成し、この新たに作
    成したベクトルを複数の記憶位置に格納する音声パター
    ン比較方法において、あらかじめ登録されている標準パ
    ターンと未知パターンとを順次照合して類似度を計算す
    る場合に、すでに求めた類似度のいずれかの要素の値が
    2以上であるときには、この類似度の各要素の値を2進
    数で表し、2進数で表したときの各位ごとに新たなベク
    トルを作成し、この新たに作成したベクトルを複数の記
    憶位置に分割して記憶させ、次の標準パターンの一部と
    入力とを比較して求めた値とすでに求められている類似
    度の一部の記憶されている値とを比較し、この記憶され
    ている値の方が大きいときには現在の標準パターンとの
    類似度の演算を中止させることを特徴とする音声パター
    ン比較方法。 5.音声を収録し、収録した音声を複数の特徴量へ変換
    し、この特徴量を量子化して特徴パターンを作成し、量
    子化した特徴ベクトルの要素の個数を2のべき乗数とな
    るようにし、各特徴ベクトルの要素の値を2値化処理に
    より1または0で表して新たなベクトルを作成し、その
    ベクトルの各要素を一つの記憶位置に割り付け、演算に
    よりいずれかの要素の値が2以上になったときにこのベ
    クトルの各要素の値を2進数で表し、2進数で表したと
    きの各位ごとに新たなベクトルを作成し、この新たに作
    成したベクトルを複数の記憶位置に格納する音声パター
    ン照合方法において、音声パターンの照合を制御する情
    報も2値化して前記2値化した特徴量と一緒に割り付
    け、この制御情報をもとにして本来の特徴量の音声パタ
    ーンの照合の制御を行うことを特徴とする音声パターン
    照合方法。 6.音声パターンの照合の制御情報が、音声の有声/無
    声情報と、音声区間情報とを有することを特徴とする請
    求項5に記載の音声パターン照合方法。
JP62504580A 1986-07-30 1987-07-30 音声認識 Expired - Lifetime JP3002200B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62504580A JP3002200B2 (ja) 1986-07-30 1987-07-30 音声認識

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP17939486 1986-07-30
JP61-179394 1986-07-30
JP62-63406 1987-03-18
JP6340687 1987-03-18
JP62504580A JP3002200B2 (ja) 1986-07-30 1987-07-30 音声認識
PCT/JP1987/000569 WO1988001090A1 (en) 1986-07-30 1987-07-30 Voice recognition

Publications (1)

Publication Number Publication Date
JP3002200B2 true JP3002200B2 (ja) 2000-01-24

Family

ID=27298163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62504580A Expired - Lifetime JP3002200B2 (ja) 1986-07-30 1987-07-30 音声認識

Country Status (1)

Country Link
JP (1) JP3002200B2 (ja)

Similar Documents

Publication Publication Date Title
EP0128755B1 (en) Apparatus for speech recognition
US4715004A (en) Pattern recognition system
JPS5844500A (ja) 音声認識方式
US4903306A (en) Voice recognition using an eigenvector
JP2980026B2 (ja) 音声認識装置
CN112767950A (zh) 一种声纹识别方法、装置及计算机可读存储介质
JP3002200B2 (ja) 音声認識
US5347612A (en) Voice recognition system and method involving registered voice patterns formed from superposition of a plurality of other voice patterns
JP3477751B2 (ja) 連続単語音声認識装置
JPH04369698A (ja) 音声認識方式
EP0275327B1 (en) Voice recognition
JPS6069699A (ja) 音声パタ−ン作成装置
JPS625298A (ja) 音声認識装置
JP3011984B2 (ja) パターン照合方法
JPH0554678B2 (ja)
JPS63798B2 (ja)
JPH0311478B2 (ja)
JPS58176698A (ja) パターンマッチング装置
JPS60220400A (ja) 音声パタ−ン作成法
JPH022159B2 (ja)
JPS58189695A (ja) 連続数字音声認識方式
JPS6258517B2 (ja)
JPS62237500A (ja) 音声パタ−ン照合方式
JPH0311480B2 (ja)
JPS62105199A (ja) 音声認識装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071112

Year of fee payment: 8