JPS6069696A

JPS6069696A - 音声認識装置

Info

Publication number: JPS6069696A
Application number: JP58178690A
Authority: JP
Inventors: 平岩　篤信; 雅男渡; 誠赤羽; 曜一郎佐古
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1983-09-27
Filing date: 1983-09-27
Publication date: 1985-04-20

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は不特定話者を対象とした音声認識装置に関す、
る。

背景技術とその問題点音声認識においては、特定話者に対する単語認識による
ものがずでに実用化されている。これは認識対象とする
全ての単語について特定話者にこれらを発音させ、バン
ドパスフィルタバンク等によりその音響パラメータを検
出して記憶（登録）しておく。そして特定話者が発声し
たときその音響パラメータを検出し、登録された各単語
の音響パラメータと比較し、これらが一致したときその
単語であるとの認識を行う。

このような装置において、話者の発声の時間軸が登録時
と異なっている場合には、一定時間（５〜２０ｍ　ｓｅ
ｃ　）毎に抽出される音響パラメータの時系列を伸縮し
て時間軸を整合させる。これによって発声速度の変動に
対処させるようにしている。

ところがこの装置の場合、認識対象とする全ての単語に
ついてその単語の全体の音響パラメータをあらかじめ登
録格納しておかなければならず、膨大な記憶容しと演算
を必要とする。このため認識語い数に限界があった。

これに対して音韻（日本語でいえばローマ文表記したと
き（７）Ａ、Ｉ、Ｕ、Ｅ、Ｏ，に、Ｓ、Ｔ等）あるいは
音節（Ｋ＾、　Ｋ１．　ＫＵ等）ｆｌｉ位での認識を行
うことが提案されている。しかしこの場合に、母音等の
準定常部を有”する音韻の認識は容易であっζも、破裂
音（Ｋ、Ｔ、Ｐ等）のように音韻的特徴が非常に短いも
のを音響パラメータのみで一つの音韻に特定することば
極めて困難である。

さらに不特定話者を認識対象とした場合には、音響パラ
メータにＯ１ｄ人斧による大きな分散があり、上述のよ
うに時間軸の整合だけでは認識を行うことができない。

そごで例えば一つの単語について複数の音響パラメータ
を登録して近似の音響パラメータを認識する方法や、単
語全体を固定次元のパラメータに変換し、識別函数によ
って判別する方法が提案されているが、いずれも膨大な
記憶容量を必要としたり、演算肪が多く、認識語い数が
極めて少くなってしまう。

ところで音（ｔｉｌの発声現象を観察すると、母音や摩
擦音（Ｓ、Ｈ等）等の音韻は長く伸して発声することが
できる。例えば“はい”という発声を考えた場合に、こ
の音韻は第１図Ａに示すように、１無音→■（→Ａ→Ｉ
→無音」に変化する。これに対して同じ“はい゛の発声
を第１図Ｂのように行うこともできる。ここでＨ，Ａ、
Ｉの準定常部の長さは発声ごとに変化し、これによって
時間軸の変動を生じる。ところがこの場合に、各音Ｑｌ
１間の過渡部（４１線で示す）は比較的時間軸の変動が
少いことが１１１明した。

そごで本願発明者は先にこの点に着目しＣ以）のような
装置を提案した。

第２図におい°Ｃ１マイクロフォン（１）に供給された
音声信号がマイクアンプ（２）、５．５ｋＨｚ以下のロ
ーパスフィルタ（３）を通じてＡＤ変換回路（４）に供
給される。またクロック発生器（５）からの１２．５ｋ
ｌＬｚ（８０μｓｅｃ間隔）のザンプリンタクロソクが
Ａ　Ｄ変換回路（４）に供給され、このタイミングで音
声信号がそれぞれ所定ビット数（−１ワード）のデジタ
ル信号に変換される。

このデジタル信号が、周波数分析用のバンドパスフィル
タ（６１）、（６２）・・・　（６３ｏ）に１５（給さ
れ、人間の聴覚特性に合せた周波数メルスケールに応じ
て例えば３０の帯域に分割される。この分割された各帯
域の信号がエンファシス回路（７１）、　（７２）・・
・　（７ａｏ）にイ共給され、人間の聴覚性４１Ｆに合
せた面域増強が行われる。この信号が絶対（１７４回路
（８１）、（８２）・・・（８３０）に（Ｊ（給されて
一極性とされ、東均値回路（９＞）、（９２）・・・　
（９３ｏ）に供給されて信号の包絡線が取り出される。

こよにＪ−ッ’で例えば５．１２ｍ　ｓｅｃ間の２５６
ワードのデジタル信号が、音響的特徴を保存したまま３
０ワードに圧縮される。

この信号が対数回路（１０ｉ　）、（１０２）　・・・
（１０３０）にイｊ（給され、各信号の対数値に変換さ
れる。これによって上述のエンファシス回路（７１）（
７２）・・・　（７３０）での重み付は等による冗長度
が排除される。ここで、例えばＴの時間長に含まれるｎ
　ｆ（ＩＡＩのサンプリングデータによ−、て表される
波形函数をＵｎｆ　Ｔ（＋＋　・−−（１）としたとき、これを周波数分析して、対数を取った対数
パワースペクトル１ｏｇｌ　Ｕｎｆ　Ｔ（ｆ）ｌ　・・１２１をスペクト
ルパラメータｘ（ｉ）　（ｉ　＝０＋１・・・２９）と
称する。

このスペクトルパラメータＸ　（ｌが団１敗的フーリコ
ニ変換（Ｄ　Ｆ　Ｔ）回ｊ＠［１１）に供給される。こ
こでこのＤＦＴ回路（１１）において、例えば分割され
た帯域の数をＭとすると、このＭ次元スペクトルパラメ
ータｘ（＋＋（ｉ＝０．ｉ　−Ｍｌ）を２Ｍ−１点の実
数対称パラメータとみなして２　Ｍ　−２ａのＤＦＴを
行う。従ってｍ　＝　０．　ｌ　、　−−−２Ｍ−３となる。さらに
ごのＤＦＴを行・う函数は偶函数とめなされるため π・１・ｍト１となり、これらよりとなる。このＤ　Ｆ　Ｔによりスペクトルの包絡特性を
表現する音響パラメータが抽出される。

このようにしてＤＦＴされたスペクトラムパラメータＸ
　（ｉ）についζ、０〜Ｐ−１（例えばＰ＝８）次まで
のＰ次元の値を取り出し、これをローカルパラメータＬ
（Ｐ）　（ｐ　＝　０．１・・・Ｐ−１）とするととな
り、ここでスペクトルパラメータが対称であることを考
慮してｘ　（ｂ−ｘ　（２Ｍ−１−２）とおくと、ローカルパラメータＬ　（Ｐ）は但し、ｐ＝
ｏ、１・・・Ｐ−ｔとｙｃる。このようにして３０ワードの信号がＰ　（例
えば８）ワードに圧縮される。

このローカルパラメータＴ、、　（Ｐ）がメモリ装ｆｉ
￥（１２）に供給される。このメモリ装置（１２）は１
行Ｐワードの記憶部が例えば１６行マトリクス状に配さ
れたもので、ローカルパラメータＬ　（Ｐ）が各次元ご
とに順次記憶されると共に、上述のクロック発生器（５
）からの５．１２ｍ５ｅｃ間隔のフレームクロックが供
給されて、各行のパラノータカ９１自炊横方向ヘシフト
される。これによってメモリ装置ｉ！７（１４）には５
．１２ｍ５ｅｃ間隔のＰ次元のローカルパラメータＴ、
（ρ）が１６フレーム（８１，９２ｍ５ｅｃ　）分記憶
され、フレームクロックごとに順次新しいパラメータに
更新される。

さらに音声過渡点検出回路（２０）が以トのように構成
される。すなわち平均値回路（９１）〜（９ａｏ）から
のそれぞれの帯域の信号の量に応じり（ＦｔＱＶ（ｎ）
（ｎ　＝　Ｏ＋１・・・２９）がバイアス付き対数回路
（２１１）、（２１２）　・・・　（２１３０）に供給
されてＶ’（Ｉｌｌ’　ｌｏｇ　（Ｖ（ｎ＋＋　Ｒ）　・−・
（７１が形成される。また信号Ｖ　（ｎ）が累算平均回
路（２２）に供給されζ ０が形成され、この信ｐＪ−Ｖａが対数回路（２１ｘ　）
に供給されてｖ′ａ−１ｏｇ（■ａ＋Ｂ）　・・・（８）。

が形成される。そしてこれらの信号が演算回路（２３）
にイｊ（給されてＶ＋ｎ＋＝Ｖａ　−Ｖ（ｎ）　−−１９１が形成される
。

ここで、ト述のような信号Ｖ　（ｎ）を用いることによ
り、この信号は音韻から音韻への変化に対し゛ζ各次（
ｎ−０，１・・・２９）の変化が同程度となり、音韻の
種類による変化量のばら９きを回避できる。また対数を
とり演算を行って正規化パラメータＶ　（ｎ）を形成し
たごとにより、入力音声のレベルの変化によるパラメー
タＶ　（ＩＩ）の変動が排除される。さらにバイアスＢ
を加算して演算を行ったことにより、仮りにＢ　−−と
するとパラメータＶ　（ｎ）→０となることから明らか
なように、入力音声の微少成分（ノイズ等）に対する感
度をトげることができる。

このパラメータＶ　（ｎ）がメモリ装ｆ４１（２４）に
供給されて２ｗ＋１（例えば９）フレーム分が記憶され
る。この記憶された信号が演算回路（２５）に（ｌ給さ
れζ 但し　ＧＦｔ−（１；−ｗ＋ｔ≦■≦Ｗ→−ｔ）が形成
され、この信号とパラメータＶ　（ｎｌが演算回１１各
（２６）にイｊ（給され°Ｃ・・・　（１１）が形成される。このＴ＋が過渡点検出パラメータであっ
て、このＴ土がピーク判別回路（２７）に（Ｊ（給され
て、入力音声信号の音韻の過渡点が検出される。

ここでパラメータＴｊが、フレームｔを１火んで＋ｉｉ
ｉ　ｔ＆　Ｗフレーム１゛つで定義されているので、不
要な凹凸や多極を７１しるおそれがない。なお第３図は
例えば°゛ゼしｚ”という発声を、サンプリング周波数
１２．５ｋＨｚ　、　１２ビツトデジタルデータとし、
フレーム周１１ＪＩ　−５，１２ｍ　ｓｅｃ　、帯域数
Ｎ−３０、バイアスＢ−０、検出フレーム数２ｗ＋　１
−９で上述の検出を行った場合をボしている。図中Ａは
音声波形、［３は音韻、Ｃは検出信号であって、「無音
−Ｚ」（Ｚ−→ｌＦ、Ｊ　ｒＰ、−ＲＪ　ｒＲ−ＯＪ　
ｌ−０→無音」の各過渡部で顕著なピークを発生ずる。

ここで無音部にノイズによる多少の凹凸が形成されるが
これはバイアスＢを大きくすることにより破線図下のよ
うに略（）にｔ「る。

この過渡点検出山号Ｔ　ｆｆ）がメモリ装造：（１２）
に供給され、この検出信号のタイミングに相当する［１
−カルパラメータｔ−＋ｐ＋が８番目の行にシフトされ
た時点でメモリ装Ｗ（１２）の読み出しが行われる。こ
こでメモリ装置（１２）の銃ノ出しは、各次元Ｐごとに
１６フレ一ム分の信号が横方向に読み出される。そして
読み出された信号がＤＦＴ回路（１３）に（共給される
。

この回路（１３）において上述と同様にＤＦＴが行われ
、音響パラメータの時系列変化の包絡特性が抽出される
。このＤＦＴされた信号の内から０−Ｑ−１（例えばＱ
−３）次までのＱ次元の値を取り出す。このＤ　Ｆ　Ｔ
を斉次Ａ；Ｐごとに行い、全体でＰＸＱ（−２４）ワー
ドの過渡点パラメータＫ（ρ、ｑ）＞　（ｐ−０，１・
・・Ｐ−１）　（ｑ＝０．１・・・Ｑ−１）が形成され
る。ここで、Ｋ　（（１，Ｏ）は音声波形のパワーを表
現しているので、パワー正規化のためｐ−０のときにｑ
＝１〜Ｑとしてもよい。

すなわち第４図において、Ａのような人力音声信号（Ｈ
ＡＩ）に対してＢのような過渡点が検出されている場合
に、この信号の全体のパワースペクトルはＣのようにな
っている。そして例えは１’　Ｈ→Ａ」の過渡点のパワ
ースペクトルがＤのようであったとすると、この信号が
エンファシスされてＥのようになり、メルスケールで圧
縮されてＦのようになる。この信号がＤＦＴされてＧの
ようになり、Ｈのように前後の１６フレ一ム分がマトリ
ックスされ、この４４号が−ｉミロ待時間軸方向にＤＦ
Ｔされて過渡点パラメータＫ　（Ｐ、　Ｑ）が形成され
。

る。

この過渡点パラメータＫ　（Ｐ、　（１１がマノ＼ラノ
ビス距離算出回路（１４）に供給されると共に、メモリ
装置１Ｗ（１５）からのクラスタ糸数が回路（１４）に
供給されて各クラスタ糸数とのマノ＼ラノビス距離が算
出される。ここでクラスタ系数は複数の話者の発音から
−ｌ−述と同様に過渡点パラメータを抽出し、これを音
韻の内容に応じて分類し統計解析して得られたものであ
る。

そしてごの算出されたマハラノビス距離が判定回１♂ニ
（１６）に供給され、検出された過渡点が何の音１１１
Ｓから何の音韻への過渡点であるかが判定され、出力端
子（１７）に取り出される。

すなわち例えば″はい”゛いいえ”′０　（ゼロ）へ・
“９　（キュウ）゛の１２単ｄＡについて、あらかじめ
多数（白人以」−４）の話者の音辺を前述の装置に（Ｊ
ｕ給し、過渡点を検出し過渡点パラメータを抽出−４−
る。この過渡点パラメータを例えば第５図にボずような
テーブルに分類し、この分類（クラスタ）ごとに統８１
・解析する。図中＊は無音をボす。

これらの過渡点パラメータについ°ζ、任意のザンプル
をＲＪ”Ａ　（ｒ　＝Ｌ２−２４）　（ａはクラスタ指
標で例えばａ＝１は＊−＋Ｈ，ａ＝２はＨ−Ａに対応す
る。ｎは話者番号）として、共分散マトリクスＥはアンザンブル平均を計数し、この逆マトリクスＢ　ＦＪ　＝（Ａ捏）−Ｌｓ　・・・　（Ｉ３）をめる
。

ここで任意の過渡どλパラメータに「とクラスタａとの
距離が、マハラノビス距離（Ｋ、−Ｒ７’）　−（１４）でめられる。

従ってメモリ装置Ｆ７（１５）に−上述のＢ　Ｒ１シ及
びＲｊｐ３をめて記憶して才？くことにより、マハラノ
ビス距離算出回路（１４）に゛ζ入力音声の過渡点パラ
メータとのマハラノヒス距離が算出される。

これによって回ＩＭ、（１４）から入力音声の過渡点ご
とに各クラスタとの最少距離と過渡点の順位が取り出さ
れる。これらが判定回路（１６）に供給され、人力音声
が無音になった時点におい゛ζ認ａ８１Ｉ″ｔ’ｌｌ定
を行う。例えば各単語ごとに、各過渡点パラメータとク
ラスタとの最少距離のｊ１１方根の平均値によるｆｆ１
語距離をめる。なお過渡点の一部脱落を考ＩＥニジて各
単語は脱落を想定した複数のタイプについて単語距離を
める。ただし過渡点の順位関係がテーブルと異なってい
るものはりジェツトする。そしてごの屯語距別が最少に
なる単語を認識判定する。

このようにし°ζ音声認識が行われるわけであるが、こ
の装置ｖによれば音声の過渡点の音韻の変化を検出して
いるので、時間軸の変動がなく、不特定話者に９いても
良好な認識を行うことができる。

また過渡点において上述のようなパラメータの抽出を行
ったことにより、一つの過渡点を例えば２４次元で認識
することができ、認識を極め′ζ容易かつ出値に行うこ
とができる。

なお上述の装置において１２０名の話者にて学習を行い
、この１２０名以外の話者にて十述の１２１！　ｉＡに
ついて実験を１−１った結果、９８．２％の＋ｐ均認識
率が得られた。

さらに上述の例で“はい′のＩ＋−１−ＡＪと８（ハチ
）″のｒ　Ｉ−１→Ａ１は同じクラスタに分類ｉ’＋Ｊ
能である。従って認６八ずべき呂゛語の音ｆｌｉｔ数を
αとしてｃＩＣ２１固のクラスタをあらかじめδＩＷし
てクラスタ係数をメモリ装置Ｉ′Ｊｌ（１５）に記１ａ
さ一μｍて」召Ｊば、種々の単語の認識に適用でき、多
くの語いの認識を容易に行うことかできる。

ところがこの装置において、エンファシス回路（７１）
〜（７ｓｏ）はそれぞれ所定の定数を乗算するものであ
って、乗算器が必要とされる。この場合にデジタルの乗
算器は構成が複雑であり、このような乗算器を各帯域ご
とに設ルノることは回路構成上好ましくない。またコン
ピュータを用いてソフトウェアで処理１−る場合にも多
（の複雑な演算が必要となり、問題であ−２た。

また上述の装置において、人力音声信号に含まれるノイ
ズ成分がパラメータの精度を劣化させ、これによゲＣ１
ｔ−確な認識が行えない場合が多くある。その場合に、
例えば入力端にてノイズ量を評価し”Ｃノイズの除去を
行うと、周波数帯域にかかわらず一率に除去が行われる
ごとになり、ノイズの）４波数特竹によっては一部の帯
域で必要以上に信号成分が除去されてしまうおそれがあ
った。

発明のｌ−」的本発明はこのような点にかんがみ、簡単な構成で良好な
音声認識が９−１えるようにするものである。

発明の概要本発明は、人力音声信号を周波数分析して上記人力音声
焙りの特徴を抽出するようにした音声認識装置においｒ
、人間の千と覚特竹に合せるためのエンファシス回路を
上記周波数分析の前段に設け、このエンファシス回路は
、上記周波数分析の面域側で差分、低域側で無補１］−
１となるように構成すると共に、この差分と無袖止との
切換Ｌ’ＬをＦ記差分の伝達関数が１になる点としたこ
とを特徴と１−る音声認識装置であっ°乙これによれば
簡単な構成で良好な音声認識を行うこ古ができる。

実施例第６図において、バンドパスフィルタ（６Ｉ）〜（６３
０）の前段にエンファシス回路（７）が設けられる。そ
してこのエンファシス回路（７）において、例えば（固
成（頁すの１〜１６番の１１）域では（金時が）敗１ｉ
１ｉ　＋Ｆでバンドパスフィルタ（６１）〜（６ｘｓ）
にイ１（給され、高ｋｌｉ側の１７へ・３０番の帯域で
は信号が差分量ｂ’８（３１）を通じてバンドパスフィ
ルタ（Ｆｉｘｔ）〜・（６３０）に供給される。

このエンファシス回路（７）において、差分量＋ｚ８（
３１）の特性はｙｔｍ−Ｘ（ｎ）Ｘ（ｎ−＋１Ｈ＋＋（＋５）で現わさ
れ、この式をＺ変換するとＹ＜ｎ）−（１−Ｚ−１）　Ｘ（＋１＞　・・・（ｌｆ
ｉ）となる。さらにこの回路の伝達関数Ｈ（Ｚ）はＩＨ
（Ｚ＞１−ｌ　Ｈ（Ｚ）　・Ｈ（Ｚ−”）　１＝　１　
２−’ｌ　ｃｏｓωＴ　Ｉ　・・（１７）となり、第７
図に小才ように低域側で小、高域側で人となる特性とな
っ゛（いる。そしてこの伝達関数が１となるのは、角周
波数ωがπ／２となる点Ｃある。−・力上述のメルスケ
ールで３０の帯域に分割した場合に、角周波数ωがπ／
２の点は、１６番と１７番の帯域の間になっ”ζいる。

そこで−ト述のよ・）に１〜１６番の帯域で無補止、１
７〜３０番の帯域で部分と１−るごとにより、第８図に
示すように人間の聴覚時４Ｔ［に合せたＩｇＪ域増強を
行うことができる。

またそれぞれの帯域のｊｐ均（ｉｆｆ回［ｉＡ　（９＞
　）〜（９３ｏ）からの信号がノイズ除去回路（３２１
）〜（３２３０）にＵ（給される。一方ＡＤ変換回路（
４）からの信号が無音状態の検出回路（３３）に（ｌ給
され、この検出１４号が除去量ｌ／３　（３２工）　〜
（３２３０）に供給される。そして除去回路（３２＋　
）　”　（３２３ｏ）にて、無音状態での信号（ノイズ
）が測定され、この平均値（またはピーク値あるいはこ
れらを演算し°ζｆＭた稙）をスレショルドレベルＮと
して、入力信号ＸがごのレベルＮより小のとき０１大の
とき（ｘ−Ｎ）の信号が出力される。ごのイ４号力救・
１数回路（１０１）〜（１０３０）にイＪ（給される。

すなわちノイズ除去回路（３２１）〜（３２３０）にお
いて、−の帯域の除去回路に第９図式に小ずような信号
が供給されている場合に、検出回路（３３）にて無音部
が検出、され、この部分の信号−の例えば１１ｉ均値か
らなるスＩ／シコルｌ〜ルヘルＮによっテ第９図Ｂに示
すような信号が出力される。そしてこの場合にノイズレ
ベルが各帯域ごとに測定されており、ノイズの周波数特
性に応じたノイズ除去が行われる。

他は第２図と同様に構成される。

こうしてこの装置において音声認識が行われるわけであ
るが、この装置によれば乗算器を用いずに簡単な差分回
路のみで人間の聴覚特性に合せた良好なエンファシスを
行うことができる。またソフトウェアで処理する場合に
も演算量を少くすることができる。

ざらにノイズの周波数特性に応したノイズ除去を行うこ
とができ、パラメータの精度が極めて向上する。

発明の効果本発明によれば、簡単な構成で良好な音声認識が行える
ようになった。

【図面の簡単な説明】

第１図は音声の説明のための図、第２図〜第５図は従来
の装置の説明のための図、第６図は本発明の一例の系統
図、第７図〜第９図はその説明のための図である。（１）はマイクロフォン、（３）はローパスフィルタ、
（４）はＡＤ変換回路、（５）はクロック発生器、（６
）はバンドパスフィルタ、（７）はエンファシス回ＩＬ
　ｆ８１ハ絶対値回路、（９）は平均値回路、（Ｉωは
対数回１．’８、（１１）　、（１３）は離散的フーリ
エ変換回路、（１２）。（１５）はメモリ装置、（１４）はマハラノビス距離算
出回１？Ｒ１（１６）は判定回路、（１７）は出力端子
、（２０）は過渡点検出回路、（３１）は差分回路、（
３２）はノイズ除去回路、（３３）は無音部検出回路で
ある。第５図 −Ｆｖご礼ｌｉ　ｊＥ書昭和５８年１０月２７日昭和５８年　特　許　願　第１７８６９０号２、発明の
名称　音声認識装置３、補１１−を４−る者弔（’ｌとの関係　特許出願人任　所　東京部品用区北品用６丁目７番３５に＋名４（
１・（２］　８）ソニー株式会社代表取締役　人　負　
典　雄４、代理人住　所　東京都新宿区西新宿１丁目８番１号置　０３−
３，１３−５８２０＋や　（新宅ビル）６、補ＩＩ−に
より増加する発明の数７、補１１−の対象　明細舊の発明の詳細な説明の欄。８、補１１ミの内容＋１１　明細νを中、第５頁７〜９行１こよによって・
・・圧縮される。」とあるを削除する。（２）同、第８頁５行１−１６行」とあるを１−８３行
１と訂正する。（３）間、同頁８行ｌ”　５．１２ｍ　ｓｅｃ間隔のフ
レームクロック」とあるをｒ　Ｏ，９６ｍ　ｓｅｃ間隔
のクロック１と訂正する。（４）同、同頁１１行ｒ　５．１２ｍ　ｓｅｃ　Ｊとあ
るをｌ　０．９６ｒｎｓｅｃＪと訂正する。（５）　同、同頁１２〜１３行「１６フレーム・・・フ
レームクロック」とあるを「８３ポイント（７８，７８
ｍ５ｅｃ　）分配環され、クロック」と訂正する。（６）　同、第１０頁５行及び最−Ｆ行にそれぞれ１−
フレーム」とあるを「ポイント」と訂正する。（７）同、第１１頁４〜５行１−フレーム周期」とある
を「ポイント間隔」と訂正する。（８）　同、同頁１９行及び第１２頁２０行にそれぞれ
１１６フレーム」とあるを「８３ポイント」と訂正する
。以」二

Claims

【特許請求の範囲】

人力音声信号を周波数分析して」１記人力音声信号の特
徴を抽出するようにした音声認識装置において、人間の
聴覚特性に合せるためのエンファシス回路を上記周波数
分析の前段に設け、このエンファシス回路は、上記周波
数分析のｌａ域側で差分、低域側で無補ＩＥとなるよう
に構成すると共に、この差分と無補正との切換点を上記
差分の伝達関数が１になる点としたことを特徴とする音
声認識装置。