JPS5850360B2

JPS5850360B2 - 音声認識装置における前処理方法

Info

Publication number: JPS5850360B2
Application number: JP53055556A
Authority: JP
Inventors: 熹市川; 和男中田; 晃中島
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1978-05-12
Filing date: 1978-05-12
Publication date: 1983-11-10
Also published as: GB2022896A; DE2919085A1; JPS54147708A; US4283601A; GB2022896B; DE2919085C2

Description

【発明の詳細な説明】本発明は、音声認識装置における前処理方法、特に、電
話回線網などの伝送系を通して入力される音声を認識す
るための音声認識装置における前処理方法に関するもの
である。

計算機システムを含む情報サービスセンタと電話回線網
とを結びつけた情報サービスシステムでは、情報サービ
スセンタからの出力は音声応答装置の音声を用い、電話
回線網への通話者からの入力は押釦信号または直接音声
を用いており、通話者からの入力音声は電話回線網を経
て情報サービスセンタに送られ、そこで、標準音声との
類似度を調べて音声認識を行っている。

このように、回線網を経た入力音声は、伝送系の伝送特
性の影響を受けて歪んだものとなっており、また、回線
網の歪の特性は一様ではなく、経路によって異なるのが
普通である。

したがって、音声認識装置では、異った歪の特性を持っ
た回線から送られて来る入力音声を比較することになる
ので、この歪の影響を除くか正規化するなどして低減す
る必要がある。

そのため、入力音声のスペクトルの回線による歪を補正
する方法として、同一発明者による特願昭５２−１９２
４０号のような方法が考えられている。

第１図は、この方法を実現する音声認識装置の構成を示
すもので、第２図は第１図の各部のスペクトルおよび伝
送特性を示すものである。

第１図において、音声ＳＰはある伝送特性を有する電話
系１を経た後、サンプリングによる折返し雑音防止用の
低域済波器２を通り、アナログディジタル変換器（以下
、Ａ−Ｄ変換器という。

）により、所定周波数でサンプリングされて、ディジタ
ル信号に変換される。

そして、このディジタル変換された音声から分析部４に
おいて所定分析区間における特徴パラメータが求められ
それが逆フィルタ５に入力され、入力音声をこの逆フィ
ルタ５に通すことによって、電話系１の特性の相違を打
消した音声が認識部６に入力される。

認識部６では、このようにして得られた音声と標準音声
とを比較し、その類似度を求めて、認識を行う。

第２図ａは電話系１を通す前の音声の平均スペクトルを
模擬的に示しており、第２図すは電話系１の伝送特性を
示している。

第２図すから解るように、電話系１の伝送特性は０．３
ＫＨｚ〜３．４ＫＨｚの帯域内を有しているため、電
話系１を経た音声の平均スペクトルは第２図Ｃのように
、急峻な特性で帯域制限され、帯域外に雑音を含んでい
る。

また、サンプリングによる折返し雑音を防止する低域済
波器２はあまり急峻な遮断特性とすると、後の処理に悪
影響を与えるため、通常は、第２図ｄに示すように、電
話帯域の上限の３．４ＫＨｚより多少下の周波数から
減衰を開始し、４〜５Ｋ）ｌｚ（例えば、４．２ＫＨ
２）に遮断周波数ｆｃを持つフィルタが使用される。

このような低ＶＦ波器２を通すことにより、遮断周波数
ｆｃ以上の雑音成分はほとんど除かれるが、３．４Ｋ
Ｈｚ以下の音声帯域の情報も多少けずられ、情報の劣化
が生ずるという問題がある。

Ａ−Ｄ変換器３では、通常、サンプリング周波数８〜１
０ＫＨｚでサンプリングを行っているので、Ａ−Ｄ変換
器３で得られるディジタル信号の平均パワースペクトル
は、第２図ｅに示すように、サンプリング周波数の半分
の周波数である周波数ｆｓを中心に線対称形状でサンプ
リング周波数まで延びている。

このＡ−Ｄ変換器３の出力を分析部４でスペクトル分析
し、分析されたスペクトルの逆特性を逆フィルタ５に設
定することにより、逆フィルタ５の伝送特性は第２図ｆ
のようになる。

このように、第２図ｅに示すようなスペクトルを有する
音声を分析部４で分析し、その結果で逆フィルタ５の特
性を設定する場合、第２図ｅに示すスペクトルは電話系
の帯域の上限および下限で急峻に立下っており、分析部
４で分析される帯域、すなわち、周波数０−ｆｓの内に
これらの急峻な特性を含んでおり、したがって、分析結
果のスペクトルの逆特性が設定される逆フィルタは、電
話帯域の上限および下限部分の急峻な特性をフォローす
る部分で不安定になり易く、また、電話帯域内の特性の
フォローも悪くなるという問題がある。

さらに、逆フィルタを経た音声の平均スペクトルは、第
２図ｇに示すように、帯域内では電話系の影響が正規化
され平坦になるが、帯域外では、雑音成分を大きく増幅
したものとなっている。

なぜなら、逆フィルタでは、入力音声のスペクトルの小
さい部分が逆に強調されるためである。

本発明の目的は、逆フィルタの安定性を増加し、帯域内
の音声情報の劣化を防止し、かつ、帯域外の雑音の影響
を受けないようにした音声認識装置の前処理方法を提供
することにある。

このような目的を達成するために、本発明では、伝送系
を経て入力され、サンプリングされてディジタル化され
た音声をフーリエ変換して周波数スペクトルを得、この
スペクトルの内、伝送系の帯域内の成分およびサンプリ
ングによる折返し成分のみをＯＫ）ｌｚから始まる連続
する周波数帯域として取り出し、それを新たなスペクト
ルとして逆フーリエ変換し、その変換結果を逆フィルタ
の特性として使用するようにしたことに特徴がある。

以下、本発明の実施例を図面により詳細に説明する。

なお、本発明でいう音声認識とは、単語認識、話者認識
、話者識別などのように、音声波形情報を認識、計測な
どするものを総称したものである。

第３図は本発明による前処理方法を実現する音声認識装
置の一実施例を示すもので、第４図は第３図の動作を説
明するためのスペクトルおよび特性を示す。

第３図において、Ｔは高速フーリエ変換器、８は帯域選
択回路、９は逆フーリエ変換器を示す。

そして、低域ろ波器２の遮断周波数ｆｃは、第４図ａの
ように、電話帯域の上限３．４ＫＨｚ以下の音声を損
わない程度に充分に高く、かつ、サンプリング周波数の
半分の周波数ｆｓより低くなるように設定される。

したがって、周波数ｆｓは電話帯域の上限である３、
４ＫＨｚよりは高くなければならない。

このような構成において、音声ＳＰが第２図すに示す特
性を有する電話系１を経て、第４図ａに示すように、電
話帯域の上限より高い周波数で減衰を始め、遮断周波数
ｆｃが充分高いような減衰特性を持った低域ろ波器２を
通過し、Ａ−Ｄ変換器３に入力されると、上述したよう
に規定されるサンプリング周波数でサンプリングされ、
所定ビットのディジタル信号に変換される。

この変換出力は高速フーリエ変換器７で、分析対象音声
の全区間を一括してフーリエ変換され、第４図すに示す
ようなスペクトル特性が得られる。

次に、帯域選択回路８では、第４図すに示すスペクトル
から、音声の存在する帯域、すなわち、電話帯域０．３
〜３．４ＫＨｚとサンプリングによる折返し成分の帯
域だけを取り出し、それらを第４図ＣのようにＯＨｚか
ら並び換えたスペクトルを得る。

この時、高速フーリエ変換器７は、２のべき乗の音声波
形データに対して行うのが便利であるので、入力される
音声波形データが２のべき乗にならない時は、そのデー
タの後にＯを挿入して全体として２のべき乗となるよう
にすれば好都合である。

また、逆フーリエ変換器９のデータ数も２のべき乗であ
ると便利である。

例えば、第４図Ｃから解るように、選択されたスペクト
ルの等価サンプリング周波数、すなわち２Ｘｆ
ｓ／は電話帯域中３．１Ｋ）ｌｚ（＝３．４Ｋ
）ｌｚ −０，３Ｋ１１ｚ）の２倍である６、２に１
１ｚとなるから、その２倍の１２．４ＫＩ（ｚをＡ−Ｄ
変換器３のサンプリング周波数２ｆｓとすれば、その半
分の周波数ｆｓは６．２ＫＨｚとなり、電話帯域の上限
３．４ＫＨ７より太きいという条件も満たす。

したがって、２ｆｓ′までを表わすスペクトルのデータ
の数が２のべき乗の値であれば、２ｆｓ＝２（２ｆｓ′
）の関係から、２ｆｓまでを表わすスペクトルのデータ
の数も２のべき乗となり、好都合である。

通常、音声波形のサンプル値は数ｉｏｏ点以上であるか
ら、その値を２のべき乗に選択することにより、２ｆｓ
′、２ｆｓも自動的に２のべき乗となる。

上述した例では、２ｆｓは２ｆｓ′の２倍にとっである
が、一般には、２ｆｓは２ｆｓ’の２ｎ倍（ｎ≧２
）にとることができる。

しかしながら、この場合、サンプリング周波数が大きく
なり、それだけデータメモリの容量も大きくなり、高速
フーリエ変換器の処理量も増大することを考えると、必
要最小限度である２倍にとるのが望ましい。

すなわち、電話帯域が周波数ｆ１から周波数ｆ２までで
ある時、（ｆ２ｆｌ）Ｘ２ｎ＋１≧ｆ２×２の関係
を満足する最小のｎ（ｎ＝１，２．・・・）を選び（ｆ
２−ｆｌ）Ｘ２ｎ＋１でサンプリングスルツカよい。

第４図Ｃとｂとを比較して解るように、逆フーリエ変換
器９に入力される周波数スペクトル（第４図Ｃ）には、
音声音域外の成分は全くなくなっているため、分析部４
で分析される帯域、すなわち、０〜ｆｓ／の中には帯
域遮断の急峻な特性が消滅し、かつ、帯域外の雑音成分
も消滅している。

その結果、逆フィルタ５に不安定な要因となる急峻な特
性を要求しないで済むので、安定で、かつ帯域内の伝送
特性を良くフォローする逆フィルタが実現できるととも
に、帯域内の音声情報を劣化させることなく、帯域外の
雑音を完全に除去させることができる。

また、上述したように、サンプリング周波数の半分子ｓ
を高い周波数、例えば、６．２ＫＨｚに設定できるので
、低域ろ波器２の減衰特性を、電話帯域の上限３．４
Ｋｆｌｚより高い値で立上るように設定でき、帯域内の
音声情報をこの部分で劣化させるようなことはない。

さらに、逆フィルタに入力される変換波形の等価サンプ
リング周波数２ｆｓ／は６．２ＫＩＩｚとなり、従
来のように、８〜ｌ０ＫＨ７のサンプリング周波数と比
べて非常に低い値となっているため、分析部４、逆フィ
ルタ５、認識部６で処理される処理量は減少され、それ
だけ、これらの処理速度は向上され、高速フーリエ変換
器７、帯域選択回路８、逆フーリエ変換器９での処理が
増加することを考慮に入れても、全体としてはむしろ従
来より向上している。

第５図は第３図の前処理装置部分の一実施例の構成を示
すもので、第３図の高速フーリエ変換器７、帯域選択回
路８、逆フーリエ変換部９、分析部４、逆フィルタ５に
相当する部分である。

図において、１１〜１５はレジスタ、１６はフーリエ変
換装置、１７は逆フーリエ変換装置、１８は逆フイルタ
係数計算回路、１９は逆フイルタ通過回路、２０は制御
部を示す。

このような構成において、レジスタ１１には第３図のＡ
−Ｄ変換器３からのディジタル音声波形が格納されてお
り、このレジスタ１１内の音声波形はフーリエ変換装置
１６に送られ、入力音声波形のデータ数を下まわらない
２のべき乗の最小の数のデータのフーリエ変換がなされ
、その結果がレジスタ１２に送られる。

したがって、レジスタ１２には、第４図すに示すような
スペクトル情報が記憶される。

制御部２０からの制御信号により、レジスタ１２内の電
話帯域０．３〜３．４Ｋ１１ｚおよびその折り返し成
分の帯域のスペクトルが取り出され、レジスタ１３に、
第４図Ｃに示すように、帯域を詰めた状態のスペクトル
が記憶される。

次に、逆フーリエ変換装置１１では、フーリエ変換装置
１６で行ったフーリエ変換の点数の半分の数の逆フーリ
エ変換を行いレジスタ１４に送る。

逆フイルタ係数計算回路１８では、制御部２０からの制
御信号によりレジスタ１４から所定長さの音声データを
順次一定間隔ずらして取り出して、スペクトル分析し、
所定のパラメータ、例えば、偏自己相関係数を求め、そ
の係数を逆フイルタ通過回路１９に送って、その中の逆
フィルタの特性を設定する。

さらに、制御部２０からの制御信号でレジスタ１４内の
音声データが順次逆フイルタ通過回路１９に通され、逆
フィルタリングされ、その結果レジスタ１５に格納され
る。

第６図は第５図の一部、すなわち、逆フイルタ係数計算
回路１８、逆フイルタ通過回路１９部分の具体的構成の
一例を示すもので、公知の技術であるＰＡＲＣＯＲ分析
技術（例えば、特公昭４９１８００７号公報に示されて
いる。

）を利用して、偏自己相関係数を求め、その係数で逆フ
ィルタの特性を設定する例である。

図において、１００，２００は入力端子、１０１〜１０
３，２０１〜２０３は信号遅延メモリ、１１１．１１２
は相関器、１２１，１２２，１３１゜１３２．２２１，
２２２，２３１，２３２は掛算器、１４１〜１４Ｐ、１
５１〜１５Ｐ、２４１〜２４Ｐ、２５１〜２５Ｐは加算
器、１６０はシフトレジスタ、１７０は平均値算出装置
を示す。

第６図において、分析すべき音声は端子１００より入力
され、三分して一方は信号遅延メモリ１０１へ、他方の
信号は更に三分され相関器１１１、掛算器１３１および
加算器１５１に行く。

遅延メモリ１０１で遅延された信号は三分され、自己相
関器１丁η、掛算器１２１、加算器１４１に行く。

相関器１１１は二つの入力信号の間の相関を求める機能
を持った公知の装置で、その出力は第一次の偏自己相関
係数１８１（ＰＡＲＣＯＲ係数）として出力される一
方、掛算器１２１と１３１の一方の入力として用いられ
る。

偏自己相関係数１８１はシフトレジスタ１６０に貯えら
れる。

掛算器１２１と１３１の出力は各々第一次の前向き及び
後向き波形予測値であって加算器１５１と１４１に加え
られ、入力端子１００からの入力と遅延メモリ１０１の
出力との差が各々第一次の前向きおよび後向き予測信号
差と遅延メモリ１０２への入力として出力される。

以下同様にして第Ｐ次までの偏自己相関係数１８２〜１
８Ｐと第Ｐ次の藺向き予測誤差が分析抽出される。

端子１００にはサンプリング間隔で次々と音声データが
はいってくるので偏自己相関係数１８１〜１８Ｐも刻々
計算され、シフトレジスタ１６０へ格納されていく。

シフトレジスタ１６０のレジスタシフトの周期をサンプ
リングの間隔に一致させておけば、全区間終了時には、
全区間の偏自己相関係数が、各次数ごとにシフトレジス
タ１６０に格納されていることになる。

平均値算出装置１１０は全区間の分析終了後、各次数の
偏自己相関係数の平均をとり、その平均値をその次数の
偏自己相関係数として逆フィルタにセットし、逆フイル
タ操作が行われている間その値を保持する。

逆フィルタはスペクトル分析部、すなわち逆フイルタ係
数計算回路におけるＰＡＲＣＯＲ分析フィルタと同じ構
造を持つが、スペクトル分析部において求められた偏自
己相関係数パラメータが予め設定されているところのみ
が異なり、分析された音声の全平均スペクトルの逆特性
のフィルタとなる。

入力端子２００から入力されるレジスタ１４中の音声デ
ータは上記逆フィルタによりフィルタリングされる。

第７図は、第３図の認識部６の具体的構成の一例を示す
もので、１５は第６図の同じ符号に対応するレジスタ、
２１はバッファレジスタ、２２はパラメータ抽出装置、
２３はパラメータレジスタ、２４は標準パラメータメモ
リ、２５は距離計算回路、２６は距離レジスタ、２７は
最小値計算回路、２８は制御部を示す。

このような構成において、レジスタ１５には逆フィルタ
を通過した音声データが格納されており、制御部２８か
らの制御信号により、その音声データを一定の長さずつ
、一定の間隔で順次取り出し、バッファレジスタ２１を
経由してパラメータ抽出装置２２に送る。

このパラメータ抽出装置２２は認識に必要なパラメータ
を抽出するもので、例えは、特公昭４９−１８００９号
公報に示す分析部が使用でき、パラメータとして偏自己
相関係数が抽出され、パラメータレジスタ２３に入力さ
れる。

一方、標準パラメータメモリ２４には、予め計算され登
録されているパラメータの組（単語認識の場合は、各単
語のパラメータ時系列、話者認識の場合は、各話者のパ
ラメータ時系列）が格納されており、制御部２８からの
制御信号により、この格納内容を順次取り出し、距離計
算回路２５に入力する。

距離計算回路２５では、パラメータレジスタ２３から出
力された特徴パラメータと、標準パラメータメモリ２４
からの標準パラメータとを比較して、その類仰度、すな
わち距離を計算し、その結果を距離レジスタ２６に送る
。

この距離計算回路２５としては、例えば、特開昭４７−
３０２４２号公報に示す技術が利用できる。

全ての標準パラメータとの距離を算出し終ると、制御部
２８からの信号により、距離レジスタ２６の中の全距離
を最小値計算回路２７に送って距離の最小値を求め、そ
の最小値を示す標準パラメータを代表するカテゴリを出
力する。

第８図は、第３図の認識部６の具体的構成の他の例を示
すもので、マイクロコンピユータラ使った例を示す。

図において、３０は前処理装置からの音声データを記憶
するランダムアクセスメモリ、３１はデータバス、３２
は演算ユニット、３３はシーケンサやマイクロ命令メモ
リなどからなる制御部、３４は掛算器、３５は結果の表
示回路、３６は標準音声のパラメータメモリを示す。

以下、このような構成のマイクロコンピュータで実行さ
れる認識処利方法について説明する。

音声を上述したＰＡＲＣＯＲ技術により分析し、音声間
の類似性を評価する場合は、各種のパラメータが波形の
自己相関係数から求められることは良く知られている。

したがって、上述した偏自己相関係数にや線形予測係数
αは自己相関係数ρから求めることができる。

また、線形予測係数αや偏自己相関係数にで表現される
波形のスペクトルの類似性の評価も自己相関係数ρと線
形予測係数αから得られることも良く知られている。

このような手法を用いると、以下に述べるように、逆フ
ィルタの処理も実現できる。

いま、ランダムアクセスメモリ３０に記憶されている音
声波形ｘ１の全区間Ｎに亘る自己相関係数ρτを、次の（１）式とする。

但し、ＩＰは逆フィルタの次数、τは自己相関係数の次
数である。

この式より、全体のスペクトルを表わす線形予測係数α
は、良く知られた手法で、次の（２）式で示す連立−次
方程式を解くことにより求められる。

一方、メモリ３０内の音声波形をＴ秒ずつずらしなから
Ｍサンプル（１フレーム）ずつ取り出した場合における
、その部分の自己相関係数を考える。

いま、Ｋ番回目に取り出したＭ個のサンプル波形値（以
下、Ｋ番目のフレームという。

）の自己相関係数をにρτとすると、それは、上述した
全音声の場合と同様に、次の（４）式で表わされる。

この式と（３）式とから、次の（５）式を求めると、そ
のにγτは、音声全体のスペクトルの逆特性を持った逆
フィルタを通ったに番目のフレームの音声の自己相関係
数となっている。

Ｋγτ−ＡｏＫρτ＋ ΣＡＪ（Ｋρτ−ｊ＋にρτ
十ｊ）・・・（５）」＝１この（５）式のにγは逆フィルタを通した音声波形の自
己相関係数であり、逆フィルタのスペクトルと入力音声
波形のスペクトルが完全に逆極性であれば、逆フィルタ
の出力波形のスペクトルは白色（無声音）となり、自己
相関係数にγは最小となる。

すなわち、この方法を応用すれば、２つの音声波形のス
ペクトルの合致の度合を評価することができる。

この評価の方法をより具体的に説明する。

２つの音声の内、第１の音声の自己相関係数をにγ（１
）、第２の音声の自己相関係数をに′γ（２）としく第
１の音声のＫと第２音声のＫは時間的に線形な関係で評
価する場合には一致するが、非線形な時間軸をとるダイ
ナミックプログラミング（ＤＰ）マツチングなどでは一
致しない。

）、同様に、それより得られる逆スペクトル係数をＫＡ
（１）、Ｋ’Ａ（２）とすると、２つの音声のＫとに
′番目のフレーム間の類似度ｄは次の（６）式で表現さ
れる。

ｄの値が小さいほど２つの音声のスペクトルは類似する
ことになる。

２つの音声波形のスペクトルが完全に一致すると、（６
）式の第１項と第２項の各々の分母、分子が等しくなり
、ｄ−２となる。

一般には、両者は一致しないから、不一致の場合は、分
子の方が分母より大きくなって、ｄの値は大きくなる。

上述した手法を用いる場合は、逆フィルタを波形領域で
実行しなくても、自己相関係数の形で得るようにしても
よいことが解る。

この場合、処理の途中で線形予測パラメータの一種であ
る線形予測係数（回帰係数とも呼ばれている。

）Ｋαを得て処理しており、この係数にαの値が充分安
定であることが必要なことは言うまでもない。

特に、間接的に逆フィルタを通した結果を自己相関係数
にγの形で得るため、その安定性から受ける影響は大き
い。

Ｋγ。

は０次の自己相関係数であり、逆フィルタの出力波形の
パワースペクトルを表わしているので、得られた線形予
測係数にαが不安定であると、物理的にあり得ない負の
値を取ることもある。

この場合でも、上述した処理を施すことによって非常に
安定な係数にαが得られ、結果として、非常に優れた認
識結果が得られる。

上述したような、逆スペクトルパラメータを経た出力波
形（残差波形）の残差相関を利用した評価法では、スペ
クトル全体の合致の度合いを評価しているため、第１図
の例のように、偏自己相関係数の一致の度合いの総合で
評価するより安定である。

なぜなら、偏自己相関係数を求めるための演算精度の影
響などが個々の係数に表われ、全体としての誤差は小さ
いが、個々の係数では誤差が大きく表われる場合がある
からである。

上述した処理を第８図の装置で実現する場合、ランダム
アクセスメモリ３０に記憶された音声波形を１フレーム
ずつ順次取り出し、データバス３１を介して演算ユニッ
ト３２に送り、制御部３３からの指令に従って、掛算器
３４とともに次の演算を行わせる。

まず、（４）式に従って、自己相関係数にρを求め、こ
の係数を利用して、（２）式に従って線形予測係数にα
を求める。

次１こ、この線形予測係数にαを利用して（３）式に従
って逆スペクトルパラメータＫＡを算出し、それから、
（５）式に従って逆フィルタを通した音声波形の自己相
関係数にγを求める。

さらに、標準パラメータメモリ３６に格納されている標
準パラメータに’Ａ、Ｋ’γを順次読み出して、そ
れと上述したように求められたＫＡ、にγとによって、
（６）式に従って類似度ｄを求め、その類似度の大小に
よって音声認識処理を行う。

上述した本発明の実施例の効果を、電話音声を対象にし
た話者照合の例について述べる。

この例では、異なる２個所の市外局から市外回線を経て
第３の個所で記録した音声を用いて評価した結果であっ
て、第７図に示す認識部を用いて、偏自己相関係数の特
徴パラメータで認識した場合、第・１図の従来の認識方
法によれば、話者照合率（本人の音声を他人と見なして
誤って拒否する率と、他人の音声を誤って本人と見なし
て受付ける率が等しくなる：よう判定域値を定め、その
値により判定した時の正答率をいう。

）は６５饅程度であるが、第３図の本発明による認識で
は、話者照合率は７８饅に改善されている。

また、第８図の認識部を用い、残差相関を照合に利用し
た場合、第１図の従来の認識では話者照合率は７５％程
度であるが、第３図の本発明の認識では約９０俤の照合
率が得られた。

話者照合では、本来、その照合率が、音韻認識とは基本
的に異なり、１００％可能である保証は全くなく、雑音
と回線歪みのない理想的条件でも９５％程度であること
を考えると、上述した９０％の照合率は画期的である。

なお、前処理を施した音声波形の認識部としては、上述
した例に限らず、種々の公知の認識手段が使用できるこ
とは言うまでもない。

また、第３図のフーリエ変換装置、帯域選択回路、逆フ
ーリエ変換装置の代りに、マイクロコンピュータなどを
使用し、上述した装置の動作をプログラムで実行させる
ようにしてもよい。

さらに、サンプリング周波数、電話帯域などは上述した
例の値に限らず、任意の値をとり得る。

以上述べたように、本発明によれば、逆フィルタの安定
性を増加させ、帯域内の音声情報の劣化を防止し、かつ
、帯域外の雑音の影響を受けないようにできるので、充
分に高い確度で音声認識を行うことができる。

【図面の簡単な説明】

第１図は従来の音声認識装置の構成図、第２図は第１図
の各部のスペクトルおよび特性を示す図、第３図は本発
明による前処理方法を実現する音声認識装置の一実施例
の構成図、第４図は第３図の各部のスペクトルおよび特
性を示す図、第５図は第３図の前処理装置部分の具体的
構成の一例を示す構成図、第６図は第５図の一部の具体
的構成の一例を示す構成図、第７図および第８図はそれ
ぞれ第３図の認識部の具体的構成の一例を示す構成図で
ある。１・・・・・・電話系、３・・・・・・Ａ−Ｄ変換器、
４・・・・・・分析器、５・・・・・・逆フィルタ、７
・・・・・・フーリエ変換装置、８・・・・・・帯域選
択回路、９・・・・・・逆フーリエ変換装置。

Claims

【特許請求の範囲】１ある伝送帯域を有する伝送系を通して入力される音
声波形を分析して所定パラメータを得、このパラメータ
の逆特性を有する逆フィルタに上記音声波形を通した後
、音声波形の認識処理を行う音声認識装置において、上
記音声波形をフーリエ変換して周波数スペクトルを得、
該スペクトルから上記伝送帯域内のスペクトルのみを抽
出して逆フーリエ変換し、その変換結果をスペクトル分
析するとともに、上記逆フィルタに通すようにしたこと
を特徴とする前処理方法。２前記伝送系の帯域中のは７２ｎ”川（ｎは正の整数
）倍をサンプリング周波数として、前記音声波形をディ
ジタル信号に変換した後フーリエ変換することを特徴と
する特許請求の範囲第１項記載の音声認識装置における
前処理方法。３前記分析パラメータとして偏自己相関係数を使用し
たことを特徴とする特許請求の範囲第１項記載の前処理
方法。