JPS6086600A

JPS6086600A - 音声認識方法

Info

Publication number: JPS6086600A
Application number: JP19465683A
Authority: JP
Inventors: 曜一郎佐古; 雅男渡; 誠赤羽; 平岩　篤信
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1983-10-18
Filing date: 1983-10-18
Publication date: 1985-05-16
Also published as: JPH0552512B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は不特定話者を対象とした音声認識装置に関する
。

背景技術とその問題点音声認識においては、特定話者に対する単語認識による
ものがずでに実用化されている。これは！ｇ＆ａｌｌ対
象とする全ての単語について特定話者にこれらを発音さ
せ、バンドパスフィルタバンク等によりその音響パラメ
ータを検出して記憶（登録）しておく。そして特定話者
が発声し艶ときその音響パラメータを検出し、登録され
た各ｔＪＡ語の音響パラメータと比較し、これらが一致
したときそのｆｆｌＩｉ語であるとの認識を行う。

このような装置において、話者の発声の時間軸が登録時
と異なっている場合には、一定時間（５〜２０ｍ　ｓｅ
ｃ　）毎に抽出される音響パラメータの時系列を伸縮し
て時間軸を整合させる。これによって発声速度の変動に
対処させるようにしても）る。

ところがこの装置の場合、認識対象とする全ての単語に
ついてそのｆｆｉ語の全体の音響パラメータをあらかじ
め登録格納しておかなければならず、膨大な記憶容量と
演算を必要とする。このため認ｉａｋ語い数に限界があ
った。

これに対して音韻（日本語でいえばローマ文表記したと
きのＡ、１．Ｕ、Ｅ、Ｏ，に、Ｓ、Ｔ等）あるいは音節
（Ｋ＾、　Ｋｌ、　Ｋｌｌ等）単位での認識を行うこと
が提案されている。しかしこの場合に、母音等の準定常
部を有する音韻の認識は容易であつても、破裂音（Ｋ、
Ｔ、Ｐ等）のように音韻的特徴が非密に短いものを音響
パラメータのみで一つの音韻に特定することは極めて困
難である。

さらに不特定話者を認識対象とした場合には、音響パラ
メータに個人差による大きな分散があり、上述のように
時間軸の整合だけでは認識を行うことができない。そこ
で例えば一つの単語について複数の音響パラメータを登
録して返信の音響パラメータを認識する方法や、ＲＬ語
全体を固定次元のパラメータに変換し、識別函数によっ
゛ζ判別する方法が提案されているが、いずれも膨大な
記憶容量を必要としたり、演算量が多く、認識語い数が
極めζ少くなってしまう。

とごろで音韻の発声現象を観察すると、母音や摩擦音（
Ｓ、Ｈ等）等の音韻は長く伸して発声することができる
。例えば“はい”という発声を考えた場合に、この音韻
は第１図Ａにボずように、［無音−Ｈ−Ａ−１＝無音」
に変化する。これに対して同じ“はい”の発声を第１図
Ｂのように行うこともできる。ここでＨ，Ａ、Ｉの準定
常部の長さは発声ごとに変化し、これによって時間軸の
変動を生じる。ところがこの場合に、各音ｆｉｌ１間の
過渡部（斜線で示す）は比較的時間軸の変動が少いこと
が判明した。

そこで本願発明者は先にこの点に着目して以トのような
装置を提案した。

第２図において、マイクロフォン＋１１に供給された音
声信号がマイクアンプ（２）、５．５ｋｌｌｚ以下のロ
ーパスフィルタ（３）を通じてＡＤ変換回路＋４１に供
給される。またクロック発生器（５）からの１２．５ｋ
ｌｌｚ（８０μｓｅｃ間隔）のサンプリングクロックが
ＡＩ）変換回路（４）に４３（給され、このタイミング
で音声信号がそれぞれ所定ビット数（−１ワード）のデ
ジタル信号に変換される。

このデジタル信号が、周波数分析用のバンドパスフィル
タ（６１）、（６２）・・・　（６３０）に供給され、
人間の聴覚特性に合ゼた周波数メルスケールに応じて例
えば３０の帯域に分割される。この分割された各帯域の
信号がエンファシス回路（７１）、（７２）・・・　（
７３ａ）に供給され、人間の聴覚特性に合せた高域増強
が行われる。この信号が絶対値回路（８１）、（８２）
・・・（８ａｏ）に供給されて一極性とされ、ｘｌ／ｌ
／同値回路□）、（９２）・・・　（９３０）に供給さ
れて偵〜士の包絡線が取り出される。

こよによって例えば５．１２ｍ５ｅｃ間の２５６ワード
のデジタル信号が、音響的特徴を保存したまま３０ワー
ドに圧縮される。

この信号が対数回路（１０１）、（１０２）　・・・（
１０３ｏ）に供給され、各信号の対数値に変換される。

これによって上述のエンファシス回路（７１）、（７２
）・・・　（７ａｏ）での重み付は等による冗長度が排
除される。ここで、例えばＴの時間長に含まれるｎ１個
のサンプリングデータによって表される波形函数をＵｎｆＴ（↑）　・・・（１１としたとき、これを周波数分析して、対数を取った対数
パワースペクトル１０ｇＩＵｎｆＴ（ｆ）１　・・・（２）をスペクトル
パラメータｘａ＞　（ｉ　＝Ｏ＋１・・・２つ）と称す
る。

このスペクトルパラメータＸ巾がｌ１ｉｌｌ　ｔｔｔ的
フーリエ変換（ＤＦＴ）回路（１１）に（ｌ給される。

こごテコのＤＦＴｌｒｔｌｖｐＩ（ＩＩ）において、例
えば分割された帯域の数をＭとすると、このＭ次元スペ
クトルパラメータＸ　＋ｉ＞　（＋　＝　０＋　１　・
・・Ｍ−１）を２Ｍ−１点の実数対称パラメータとみな
して２Ｍ−２貞のＤＦＴを行う。従ってｍ　＝　Ｑ　、　ｌ　、　・−２Ｍ−３となる。さらに
このＤＦＴを行う函数は偶函数とみなされるためト」となり、これらよりとなる。このＤＦＴによりスペクトルの包絡特性を表現
する音響パラメータが抽出される。

このようにしてＤＦＴされたスペクトラムバラメークＸ
　（Ｄについて、Ｏ〜Ｐ−１（例えばＰ−８）次までの
Ｐ次元の値を取り出し、これをローカルパラメータＬ（
Ｐ）　（ｐ　＝　０．１・・・Ｐ−１）とするととなり
、ここでスペクトルバラメークが対称であることを考慮
してｘ　（１）　＝　ｘ　（２Ｍ−ｉ−２）とおくと、ロー
カルパラメータＴ−（Ｐ）は但し、ｐ＝０．１・・・Ｐ
−１となる。このようにし“（３（）ワードの信号がＰ（例
えば８）ワードにＩＪＥ　を宿される。

このローカルパラメータＬ　ｆＰ）がメモリ装置（１２
）に（Ｉζ給される。このメモリ装置（１２）は］行Ｐ
ワードの記憶部が例えば１６行マトリクス状に配された
もので、ローカルパラメータＬ　（Ｐ）が各次元ごとに
一１ａ次記憶されると共に、ｊ−ｊ４ｓのり［１ツク発
η：器（５）からの５．１２ｍ　ｓｅｃ間隔のフレーム
クロックが供給されて、各行のパラメータが順次横方向
ヘシフトされる。これによってメモリ装置（１２）には
５．１２ｍ５ｅｃ間隔のＰ次元のローカルハラ）　−夕
Ｌ　（ｐ＋が１６フレーム（８１，９２ｍ　ｓｅｃ　）
分記憶され、フレームクロックごとに順次新しいパラメ
ータに中断される。

さらに音声過渡点検出回路（２０）が以］・のように構
成される。すなわち平均値回路（９１）〜（９３ｏ）か
らのそれぞれの帯域の信号の量に応じた信号Ｖ（ｎｌ　
（ｎ　−０，１・・・２９）がバイアス付き対数回ｂ！
３　（２ｂ　）、（２１２）　・・・　（２］３０）に
供給されてｖ；ｎｌ−ｌｏｇ（Ｖ（ｎ＋＋Ｂ）　−・　・（７）が
形成される。また信号Ｖ　（ｎｌが累算平均回路（２２
）にイＪ（給されて０が形成され、この信号■ａが対数回路（２１ｘ）に供給
されて ■′ａ＝　１０ｇ（■ａ十Ｂ）　・・・（８）が形成さ
れる。そしてこれらの信号が演算回路（２３）に供給さ
れてｖｆｎ）＝Ｖａ　−Ｖ（ｎ）　Ｈ＋　−＋９１が形成さ
れる。

ここで上述のような信号Ｖ　ｆｎ）を用いることにより
、この信号は音韻から音韻への変化に対して斉次（ｎ−
０，１・・・２９）の変化が間程度となり、音韻の種類
による変化量のばらつきを回避できる。また対数をとり
／１ｔｉＷを行って正規化バラメークＶ　（Ｉｌｌを形
成したごとにより、人力音声のレベルの変化によるパラ
メータＶ　（ｎ）の変動が１ノ１−除される。さらにバ
イアスＢを加算して演算を行ったことにより、１反りに
Ｉ３→■とするとパラメータ■（ｎ）−・０となること
から明らかなように、入力音声の微少成分（ノイズ等）
に対する感度を１・げろごとができる。

このパラメータＶ　（ｎｌがメモリ装置ｉ’？（２４）
に供給されで２ｗ＋１（例えば９）フレーム分が記憶さ
れる。この記憶された信号が演％９回１７３　（２５）
に供給されて但し　ＧＦｊ　＝　（Ｉ　ｉ　−Ｗ＋　１６１５ｗ　＋
ｔ　ｌが形成され、この信号とパラメータＶ　（Ｉｌｌ
が演析同１１！３　（２６）に供給されζ ・・・　（１１）が形成される。このＴ↑が過渡点検出パラメータであっ
て、この１士がピーク刊別回ｌ／８（２７）に供給され
て、人力音声信号の音ｎ（１の過渡点が検出される。

ここでパラメータＴｊが、フレームｔを挾んで前後Ｗフ
レームずつで定義されているので、不要な凹凸や多極を
生じるおそれがない。なお第３図は例えば“ゼロ”とい
う発声を、サンプリング周波数１２．５ｋＨｚ　、１２
ビツトデジタルデータとし、フレーム周期−５，１２ｍ
　ｓｅｃ　、帯域数Ｎ−３０、バイアスＢ＝０、検出フ
レーム数２ｗ＋　１　＝９で上述の検出をｊＴった場合
を示し′ζいる。図中Ａは音声波形、Ｂは音韻、Ｃは検
出信号であって、「無音−Ｚ」ｒＺ−Ｅｌ　ｒｌＥ−４
ＲＪ　ｒＲ→Ｏ」　「０→無音」の各過渡部で顕著なピ
ークを発生ずる。ここで無音部にノイズによる多少の凹
凸が形成されるがこれはバイアスＢを大きくするごとに
より破線図示のように略０になる。

この過渡点検出信号Ｔ　ｃｔ）がメモリ装ｆｆ（１２）
に（１給され、この検出信号のタイミングに相当するロ
ーカルパラメータＬ　（Ｐ）が８番目の行にシフトされ
た時点でメモリ装置（１２）の読み出しが行われる。こ
こでメモリ装Ｗ（１２）の読み出しは、各次元Ｐごとに
１６フレ一ム分の信号が横方向に読み出される。そして
読み出された信号がＤＦＴ回路（１３）にイバ給される
。

この回路（１３）におい゛ζ上述と同様にＤＦＴが行わ
れ、音響パラメータの時系列変化の包銘特４＋１が抽出
される。ごのＤＦＴされた信号の内から０′〜Ｑ−１（
例えばＱ−３）次までのＱ次元の値を取り出す。このＤ
ＦＴを斉次７ＣＰごとに行い、全体でＰＸＱ（−２４）
ワードの過渡点パラメータに＋ｐ、ｑ＋）　（ｐ　＝０
．１−　Ｐ−１）　（ｑ　−０，１−Ｑ−１１が形成さ
れる。ここで、Ｋ　（０，０１は音声波形のパワーを表
現し′ζいるので、パワー正規化のためｐ　−＝　。

のときにＱ＝１〜Ｑとし”ζもよい。

すなわち第４図において、Ａのような入力音声信号（Ｈ
ＡＴ）に対してＢのような過渡点が検出されている場合
に、この信号の全体のパワースペクトルはＣのようにな
っている。そして例えばｒＨ−ＡＪの過渡点のパワース
ペクトルがＤのようであったとすると、この信号がエン
ファシスされてＥのようになり、メルスケールで圧縮さ
れてＦのようになる。この信号がＤＦＴされてＧのよう
になり、Ｈのように前後の１６フレ一ム分がマトリック
スされ、この信号が順次時間軸を方向にる。

この過渡点パラメータＫ　ＴＰ、　４）がマハラノビス
距１４１＋１　ｗ出回ＩＭ、（１４）に供給されると共
に、メモリ装置ｉ！ｉ′（＋５）からのクラスタ係数が
回路（１４）に供給されて各クラスタ係数とのマハラノ
ビス距離が算出される。ここでクラスタ係数は複数の話
者の発音から上述と同様に過渡点パラメータを抽出し、
これを音韻の内容に応じて分類し統計解析して得られた
ものである。

そしてこの算出されたマハラノビス距離が判定回１ｉ３
（１６）に４５（給され、検出された過渡点が何の音韻
から何の音韻への過渡点であるかが’ｌ’ｌＪ定され、
出力端子（１７）に取り出される。

すなわち例えば“はい゛“いいえ”′０　（ゼロ）〜″
９　（キュウ）″の１２ｍ語について、あらかじめ多数
（白°Å以上）の話者の音声をｉ：１述の装置Ｗに供給
し、過渡点を検出し過渡点パラメータを抽出する。この
過渡点パラメータを例えば第５図に示”４−ようなテー
ブルに分ｌｆｉ　Ｌ、この分類（クラスタ）ごとに統計
解析する。図中＊は無音をネオ。

これらの過渡点パラメータについて、任意のザンブルを
Ｒけ＾（ｒ＝１．２・・・２４）　（ａはクラスタ指標
で例えばａ＝ｌは＊”Ｈ，ａ　−”ｌはＨ−Ａ　ニ対応
する。ｎは話者番号）として、共分散マトリクスＥはアンザンブル平均を組数し、この逆マトリクスＢ置−（八％γｔ、Ｓ　・・・　（１３）をめる。

ここで任意の過渡点パラメータＫ　ｒとクラスタａとの
ｌ＋′１！離が、マハラノビス距離（Ｋ　ｒ　Ｒｒ’）
　・＝　（１４）でめられる。

従ってメモリ装置（１５）に上述のＢｆｙ及びＲ冒をめ
て記憶しておくごとにより、マハラノビス距離算出回路
（１４）にて入力音声の過渡点パラメータとのマハラノ
ビス距離が算出される。

これによって回１ｆｆｉ、（１４）から入力音声の過渡
点ごとに各クラスタとの最少距離と過渡点の順位が取り
出される。これらが判定面に！＆（１６）に供給され、
入力音声が無音になった時点において認識判定を行う。

例えば各単語ごとに、各過渡点パラメータとクラスタと
の最少距離の平方根のｉｌＬ均値による単語距離をめる
。なお過渡点の一部脱落を名慮し、て各単語は脱落を想
定した複数のタイプについて単語距離をめる。ただし過
渡点の順位関係がう一一ブルと異なっているものはリジ
ェクトする。そしてこの単語距離が最少になるｆＸｉ語
を認識判定する。

このようにして音声認識が行われるわけであるが、この
装置によれば音声の過渡点の音韻の変化を検出している
ので、時間軸の変動がなく、不特定話者についても良好
な認識を行うことができる。

また過渡点において上述のようなパラメータの抽出を行
ったことにより、一つの過渡点を例えば２４次元で認識
することができ、認識を極めて容易かつ正確に行うこと
ができる。

なお十述の装置において１２０名の話者にて学習を行い
、この１２０名以外の話者に°ζ上述の１２ｍ　Ｍにつ
いて実験を行った結果、９８．２％の平均認識率が得ら
れた。

ざらに上述の例で“はい”のｒ　Ｈ→Ａ」と“８（ハチ
）”のｒＨ→Ａ」は同じクラスタに分類ｒ＋Ｊ能である
。従って認識ずべき百詔の音韻数をαとしてα０２個の
クラスタをあらかじめｎ１算してクラスタ係数をメモリ
装Ｂ（１５）に記憶さセ”ζおけば、種々のｆｆｉ脇の
認識に適用でき、多くの語いの認識を容易に行うことが
できる。

ところで−上述の例では、′はい”、“いいえ”等の特
定の単語について認識を行ったが、これをさらに一般の
音声にて例えば単音節ごとに認識することも可能である
。

しかしながらその場合に、人間の発音におＩＪる音韻の
数は多く、従って過渡点のクラスタも１００〜２００と
極めて多くなる。このため、例えばマハラノビス距離の
計算をこれらの全てのクラスタについて行おうとすると
、計算量が棒めて多くなり、実用的ではなかった。

また例えば単音節の認識におい”ζ、最後の母音で過渡
点が複数発生し、さらにこの場合の母音がそれぞれ異な
ることがある。その場合にマハラノビス廂離の最小のも
のが必らずしもそのときの音韻とは限らないことが判明
した。

発明の目的本発明はこのような点にかんがみ、簡単な構成で良好な
音声認識が行えるようにするものである。

発明の概要本発明は、無音を含む音韻間の過渡部を検出する手段を
有し、この検出された過渡部の音声を所定長抽出し′ζ
パラメータに変換し、このパラメータを認識基本単位と
するようにした音声認識装置において、上記過渡点の内
の母音−無音の判定を、その各クラスタ係数との距離及
び上記各クラスタ係数に分類される数に応して行うよう
にしたことを特徴とする音声認識装置であっζ、ごれに
よれば簡単な構成で良好な音声認識を行うことができる
。

実施例ところで以下の実施例では次のような装置が使用される
。すなわち第６図において、バンドパスフィルタ（６１
）〜（６ａｏ）の前段にエンファシス回路（７）が設け
られる。そしてこのエンファシス回路（７）において、
例えば低域側の１〜１６番の帯域では信号が無補正でバ
ンドパスフィルタ（６１）〜（６１Ｇ）にイｊ（給され
、商域例の１７〜３０番の（；１・域では信号が差分器
Ｍ３（３］）を通してバンドパスフィルタ（６ｊｖ）〜
（６３０）に供給される。

このエンファシス回１ｉ　（７１において、差分回路（
３１）の特ｉ１１ばＶｍ）−Ｘ＋ｎ＋　−Ｘ（ｎ−１１ＨＨ＋　（１５）で
現わされ、この式をＺ変換するとＹ（ｎ＋−（１−Ｚ−１）　Ｘ（ｎ）　・・・（１６）
となる。さらにこの回路の伝達関数Ｈ（ｚ）はｌ　Ｈ（
Ｚ）　ｌ’　＝　ｌ　Ｈ（２１・Ｈ（Ｚ−”）　ｌ＝　
ｌ’２−　２　ｃｏｓωＴ　ｌ　・・（１７）となり、
第７図に示すように低域側で小、高域側で大となる特性
となっている。そしてこの伝達関数が１となるのは、角
周波数ωがπ／２となる点である。一方上述のメルスケ
ールで３０の帯域に分割した場合に、角周波数ωがπ／
２の点は、１６番と１７番の帯域の間になっている。そ
こで上述のように１〜１６番の帯域で無補正、１７〜３
０番の帯域で差分とすることにより、第８図に示すよう
に人間の聴覚特性に合せた高域増強を行うことができる
。

またそれぞれの帯域の平均値回１／ｇ（９ｉ）〜（９３
０）からの信号がノイズ除去回ｌ？ＦＦ（３２ｔ　）　
〜（３２３ｏ）に供給される。一方ＡＤ変換回路（４）
からの信号が無音状態の検出回路（３３）に４１（給さ
れ、この検ｔＪｊ信号が除去回路（３２１）　〜（３２
ａｏ）に供給される。そして除去回ｖＦｒ（３２ｔ　）
〜（３２ａｏ　）に゛Ｃ１無音状恕での信号（ノイズ）
が測定され、この平均値（またはピーク値あるいはこれ
らを演算して得たイ１４）をスレショルドレベルＮとし
て、入力信号ＸがこのレベルＮよ幻小のとき（）、大の
とき（ｘ−Ｎ）の信号が出力される。ごのイざ号が対数
回路（］（ｈ）〜（］０３ｏ）に供給される。

すなわちノイズ除去回路（３２＋　）〜（３２３ｏ　）
において、−の帯域の除去回路に第９図Ａに小ずような
信号が供給されている場合に、検出回路（３３）にて無
音部が検出され、この部分の信号の例えば平均値からな
るスレショルドレベルＮによっテｉ４９図Ｂに不ずよう
な信月が出力される。そしてこの場合にノイズレベルが
各帯域ごとに測定されており、ノイズの周波数特性に応
じたノイズ１（、を夫が行われる。

他は第２図と同様に構成される。

この装置によれば乗算器を用いずに簡単な差分１１ｉｌ
路のみで人間の聴覚特性に合せた良好なエンファシスを
行うこ占ができる。またソフトウェアで処理する場合に
も演算量を少なくすることがｅきる。

さらにノイズの周波数特性に応じたノイズ除去を行うこ
とができ、パラメータの精度が極めて向−トずイ〕。

そしてこの装置において、距１ｉｌｌｔＷ出回路（１４
）及び判定回路（１６）が以下のように構成される。

すなわち第１０図において、ＤＦＴ回路（１３）からの
信号が第１の距離算出回路（４１）に供給され、メモリ
装置ｔ／　（５１）からのクラスタ係数との距離が算出
される。

ここでメモリ装置ｉ￥（５１）には、［＊→■（■は有
音を示す）］「■−■（■は母音を示す）」１’■−”
ｌ’Ｊの３通りクラスタ係数が１！１込まれている。な
お単音節はこの３通りの過渡点で形成されている。

さらに算出された距離が第１の判定回路（６１）に供給
され、入力された過渡点パラメータが上述の３通りのク
ラスタごとに分類される。

この分類されたパラメータの内の「＠→＊」のパラメー
タが第２の距離算出回路（４２）に供給され、メモリ装
Ｗ　（５２）からのクラスタ係数との距離が算出される
。

コこテメモリ装ｖ（５２）　ニ４；Ｌ、ｌ’Ａ−”ｋＪ
［→＊」　Ｉ　Ｕ→＊Ｊ　１Ｅ−１−１ｋｌ　＋−０→
＊」　１（９）→＊（■は“ん”′をボす）」の６通り
のクラスタ係数が書込まれている。

さらに算出された１？１！離が第２の′１１１１１１定
６２）に供給され、人力されたパラメータが６通りのク
ラスタのどれに相当するか１１１定される。

さらにこの゛Ｆｉｌ定結果が処理回路（７１）に（Ｊ（
給される。ここでこの回路（７１）におい°ζ母音の総
合’１１１＋定が１Ｔねれる。

すなわち、Ｉ（ｕ−＊Ｊの過渡点において、いわゆるふ
かれ等のノイズ的成分によって、過渡ｊ：、ｊが複数検
出される場合があり、その場合にたまたま他のクラスタ
に近いパラメータが出るおそれがある。そこで処理回ｌ
７８（７１）において、算出された距離と共にその数が
総合判定される。すなわち例えば第１１図へのような過
渡点検出で、１３のような′１′す定結果及び距離が防
出された場合に、ごごでは距離が最短のものは例えばｌ
’　Ｕ　Ｊになっている。

ところがこの場合に判定された数は１Δ」の方が多い。

そしてこのような場合について実験及びシュミレーショ
ンを行った結果、このような場合には一般的に多くある
方がｉＦシいことが判明した。

従ってこの処理回路（７１）においては、例えば過渡点
パラメータの多数決による判定を行う。なお多数決で同
数の場合や、極端に１ｌｌｌｉ離が異なる場合には、こ
れらの距離を勘案するようにしてもよい。

このようにして最終母音の判定が行われる。

また判定回ＩＩ（６１）で分類されたｒ＊−ｃ−＋＞」
及び１■−■」の過渡点パラメータが、第３及び第４の
距離算出回路（４３）　、（４４）に供給され、それぞ
れメモリ装置（５３）　、（５４）からのクラスタ係数
との距離が算出される。

ここでまずメモリ装置ｆ（５３）には、以上の表のよう
なりラスタ係数が、最終母音ごとに分類されて書込まれ
ている。

ここで例えば最終母音ｒＡＪに分類されるクラスタは、
５０音表のア段の１０個、濁音・半濁音５個、ｆＡｌ＋
音１１個、及びバズ音の２６個に、［−＊−■」［■→
■」の判定のしにくい破裂音５　＋１１ｉ＋を含めた計
３１個である。

またｒＩＪはｒＡＪよりヤ行、ワ行、ダ行及び拗音を除
いた計１５個である。

以］・ｌ’ＵＪ　ｒＥＪ　ｒＯＪについてもそれぞれ発
音の特性に合せて３０個、１７個、３１個のクラスタで
構成される。なお１−■」はｒ　Ｕ　Ｊに含めである。

またメモリ装ｆｆ１（５４）には、以上の表のようなり
ラスタ係数が、最終母音ごとに分類されて書込まれてい
る。

ごこでも、上述のメモリ装置（５３）の場合と同様に、
それぞれ発音の特性に合せて、ｒＡＪ２６個、１−ＴＪ
１２個、ｒＵＪ２５個、ｒＥＪ１３個、ｒＯＪ２５個の
クラスタに分類して書込まれている。なお拗音はそれぞ
れを「Ｙ→ＡＪ　ｒＹ　４ＵＪ　ｒ’Ｙ→０」に統合し
てもよい。また破裂音はメモリ装置（５３）と同じもの
が繰り返り設けられている。

そして上述の処理回路（７１）からの最終母音の判定出
力に応して、各メモリ装置（５３）　、（５４）の対応
する母音の部分のみが算出回路（４３）　。

（４４）に供給されて、距離の算出が行われる。

さらに算出された距離が、それぞれ第３、第４の判定回
路（６３）　、（６４）に供給され、人力されたパラメ
ータがそれぞれのクラスタのどれに相当するか判定され
る。

これらの判定結果及び判定回路（６２）からの判定結果
が、単語・単音節の判定回路（８１）にイ１（給され、
人力された音声の単語・単音節が識別される。

こうしてこの装置において音声認識が行われるわけであ
るが、この装置によれば、まず過渡点を３種類に分類し
、次に最終母音を判定している。

ここで一般に母音の検出は容易であり、また最初の３分
類及び母音の判定はクラスフ数が３及び６と少いので、
パラメータの次元数を多くして極めて精確な判定を行う
ことができる。　′また最終母音が複数検出された場合
に、これを距離及び個数にて総合判定することにより、
′＋Ｊ１定の確度をさらに高めることができる。

そして−この判定された最終母音によって、それ以前の
過渡点の検出のクラスタを制限することにより、これら
の距離の計算量を少くすることができ、容易に実施でき
るようになると共に、精度を高めることもできる。

発明の効果本発明によれば、簡単な構成で良好な音声認識が行える
ようになった。

【図面の簡単な説明】

第１図は音声の説明のための図、第２図〜第５図は従来
の装置の説明のため９図、第６は１〜第９図は本発明の
説明のための図、第１０図は本発明の一例の系統図、第
１１図はその説明のための図である。（１，１はマイクロフォン、（３）はローパスフィルタ
、（４）はＡＤ変換回路、（５）はクロック発生器、（
６）はバンドパスフィルタ、（７）はエンファシス回路
、（８）ハ絶対値回路、（９）は平均値回路、（１０）
は対数回路、（１１）　、（１３）は離散的フーリエ変
換回路、（１２）　。（１５）　、（５１）〜（５４）はメモリ装置、（１４
）。、、（４１）〜（４４）はマハラノビス距離算出回路、
（１６）　、（６１）〜（６４）は判定回路、（１７）
は出力端子、（２０）は過渡点検出回路、（３１）は差
分回路、（３２）はノイズ除去回路、（３３）は無音部
検出回路、（７１）は処理回路、（８１）はｌ１語・単
音節判定回路である。１′、′Ｉ゛（（“り５；パ・：

Claims

【特許請求の範囲】

無音を含む音韻間の過渡部を検出する手段を有し、この
検出された過渡部の音声を所定長抽出してパラメータに
変換し、このパラメータを認識基本単位とするようにし
た音声認識装置において、上記過渡点の内の母音−無音
の判定を、その各クラスタ係数との距離及び上記各クラ
スタ係数に分類される数に応じて行うようにしたことを
特徴とする音声認識装置。