JP2004046041A

JP2004046041A - 音声認識処理装置

Info

Publication number: JP2004046041A
Application number: JP2002237144A
Authority: JP
Inventors: Hiroshi Hasegawa; 長谷川　寛
Original assignee: Individual
Current assignee: Individual
Priority date: 2002-07-15
Filing date: 2002-07-15
Publication date: 2004-02-12

Abstract

【課題】携帯機器に適した、高速、低消費電力な音声認識処理装置、を提供する。
【解決手段】音声のある時刻の周波数スペクトラム分布に対して、周波数軸方向に振幅データを第一のＤ−Ａ変換手段１０１により再生し、アナログ処理を用いたピーク検出手段１０２により複数のピークを検出し、それと同時に、ピーク振幅規格化手段１０６と周波数位置規格化手段１０７により、そのときのピーク振幅と周波数位置を演算処理して、規格化されたデータを得る。
【選択図】　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識処理装置、特に、音声の周波数スペクトラム分布の時間変化を記録した一連のデジタルデータから特徴を抽出し規格化する音声認識処理装置、に関する。
【０００２】
【従来の技術】
近年、携帯機器の小型化が進み、それに伴い携帯機器へのデータ入力手段に簡便性や小型化が求められている。その入力手段の一つとして、音声認識を用いた入力が有望である。
【０００３】
一般的に音声認識処理は、（１）音声信号に含まれる周波数スペクトラムを得る処理、（２）その周波数スペクトラムから特徴を抽出する処理、（３）パターンマッチング等により音声を同定する処理、の３段階に分けることができる。バンドパス・フィルタを並列にしたフィルタバンクを用いたアナログ処理による方法は、上記（１）、（２）の処理に相当する。高速フーリエ変換を用いたデジタル数値計算による方法は、上記（１）の処理に相当する。デジタルフィルタ等を用いた特徴抽出計算は上記（２）の処理に相当する。また、ダイナミック・プログラミングによるパターンマッチング（ＤＰマッチング）は、上記（３）の処理に相当する。
【０００４】
多くの場合、上記（２）、（３）の処理はマイクロプロセッサやＤＳＰを用いたデジタル処理により行われているが、音声の特性変動、例えば、発声速度、イントネーションの変化、声の高低、不特定話者など、を考慮せねばならず、その処理には大きな処理能力やソフトウェアの負担が必要とされる。つまり、音声の特性変動を吸収するためには、特徴抽出とパターンマッチングの試行を繰り返すことが必要である。
【０００５】
【発明が解決しようとする課題】
したがって、特徴抽出とパターンマッチングの処理には高速性が求められ、高性能なマイクロプロセッサやＤＳＰが必要となる。その結果、装置の消費電力の増大などにより、携帯機器への応用に問題がある。
【０００６】
そこで、本発明は、携帯機器に適した、高速、低消費電力な音声認識処理装置を提供することを目的としている。
【０００７】
【課題を解決するための手段】
本発明の音声認識処理装置は、音声の周波数スペクトラム分布の時間変化を記録した一連のデジタルデータをアナログ信号に戻し、アナログ処理を用いてピークの検出を行い、同時に特徴抽出の演算も行うものであり、以下のような手段を用いたことを特徴としている。
【０００８】
ある時刻の周波数スペクトラム分布に対して周波数軸方向にＤ−Ａ変換してスペクトル振幅を再生する第一のＤ−Ａ変換手段１０１と、第一のＤ−Ａ変換手段１０１の出力から複数のピークを検出するピーク検出手段１０２と、第一のＤ−Ａ変換手段１０１に同期して周波数位置を生成する周波数位置生成手段１０３と、ピークが検出されたときのピーク振幅データを保持する複数のピーク振幅ホールド手段１０４と、ピークが検出されたときのピークの周波数位置データを保持する複数の周波数位置ホールド手段１０５と、複数のピーク振幅ホールド手段１０４の出力から規格化されたピーク振幅データを算出し出力するピーク振幅規格化手段１０６と、複数の周波数位置ホールド手段１０５の出力から規格化された周波数位置データを算出し出力する周波数位置規格化手段１０７と、ピーク振幅規格化手段１０６の出力と周波数位置規格化手段１０７の出力とをコード変換する変換メモリ手段１０８と、前記の各手段を制御するデジタル制御手段１００と、から構成されることを特徴としている。
【０００９】
上記の手段により、周波数スペクトラムのピークの検出をアナログ処理によって行うことができ、高速になる。また、アナログ処理によってデータの補間処理やフィルタ処理が容易になるので、高周波成分や雑音の含まれたデータに対して特別の処理の必要性が小さくなる。
【００１０】
また、簡易な音声認識装置の応用においては、ピーク振幅ホールド手段１０４とピーク振幅規格化手段１０６を設けずに、ピークの周波数位置データだけを用いて音声認識することも可能である。
【００１１】
また、第一のＤ−Ａ変換手段１０１の入力データまたは出力振幅を監視し、ある振幅レベル以下の場合にはピーク振幅ホールド手段１０４または周波数位置ホールド手段１０５を動作させないよう無効化するピーク振幅監視手段１０９を有することを特徴としている。
【００１２】
上記のピーク振幅監視手段１０９により、音声認識処理にほとんど影響しない、振幅レベルの小さなピークをピーク振幅ホールド手段１０４と周波数位置ホールド手段１０５が取り込んでしまうのを防ぐことができる。
【００１３】
また、第一のＤ−Ａ変換手段１０１と同期した第二のＤ−Ａ変換手段を前記周波数位置生成手段１０３に用い、周波数位置ホールド手段１０５と周波数位置規格化手段１０７にアナログ処理を用いることができるようにしたことを特徴とする。
【００１４】
また、前記周波数位置生成手段または前記第二のＤ−Ａ変換手段の、入力データまたは出力データを監視し、ある範囲の場合にピーク振幅ホールド手段１０４または周波数位置ホールド手段１０５を動作させないよう無効化する周波数位置監視手段１１０、を有することを特徴としている。
【００１５】
上記の周波数位置監視手段１１０により、音声認識処理に不都合な周波数範囲のピークをピーク振幅ホールド手段１０４と周波数位置ホールド手段１０５が取り込んでしまうのを防ぐことができる。
【００１６】
【発明の実施の形態】
一般的に音声認識処理は、（１）音声信号に含まれる周波数スペクトラムを得る処理、（２）その周波数スペクトラムから特徴を抽出する処理、（３）パターンマッチング等により音声を同定する処理、の３段階に分けることができる。本発明は上記（２）の処理に関してのものであり、音声の周波数スペクトラム分布の時間変化を記録した一連のデジタルデータがすでに得られているものとする。
【００１７】
第一のＤ−Ａ変換手段１０１は、ある時刻の周波数スペクトラム分布に対して周波数軸方向にＤ−Ａ変換してスペクトル振幅を時間的に変化するアナログ信号として再生する。以下、ある時刻の周波数スペクトラム分布に対して周波数軸方向にＤ−Ａ変換してスペクトル振幅をアナログ信号として再生する操作を「１回の掃引」などのように表現することにする。Ｄ−Ａ変換の方向に関しては、低い周波数から高い周波数の方向へ掃引する方法と逆方向に掃引する方法がある。
音声の周波数スペクトラム分布の包絡線にはその音声に固有のいくつかのピーク（フォルマント）があり、再生したアナログ信号からピーク検出手段１０２によりピークを検出する。Ｄ−Ａ変換で再生されたアナログ信号からスペクトラム分布の包絡線を得る場合には、適切に設定されたローパスフィルタを用いる。極大のピークを検出するには、例えば、信号の微分が正から負へ変化する点を検出すればよい。ピークの振幅は、その時点の再生信号振幅がそのままピーク振幅となる。周波数は時間に置き換えられているので、第一のＤ−Ａ変換手段１０１に同期してその時点の周波数位置を生成する周波数位置生成手段１０３によりその時点の周波数位置を得る。通常、ピークは複数あるので、複数のピーク振幅ホールド手段１０４と複数の周波数位置ホールド手段１０５を設け、ピーク検出手段１０２により、順次、ピーク振幅ホールド手段１０４と周波数位置ホールド手段１０５を選択し、それぞれのピーク振幅と周波数位置を保持する。図１では、ピーク振幅ホールド手段１０４と周波数位置ホールド手段１０５をそれぞれ３個ずつ用いている。説明の都合上、以下の説明では検出するピークを３個とし、周波数位置の低い側からピーク振幅をａ１、ａ２、ａ３、周波数位置をｆ１、ｆ２、ｆ３とおく。Ｄ−Ａ変換の１回の掃引が終了した時点で、ピークの振幅情報とその周波数位置情報が、ピーク振幅ホールド手段１０４と周波数位置ホールド手段１０５に保持されている。しかし、このままの情報では、音声の特性変動分を含んでいる上、他の音声と比較区別しにくいので、ピーク振幅ホールド手段１０４の出力から規格化されたピーク振幅データを算出し出力するピーク振幅規格化手段１０６と、周波数位置ホールド手段１０５の出力から規格化された周波数位置データを算出し出力する周波数位置規格化手段１０７、により、これらの情報を規格化する。
【００１８】
規格化されたピーク振幅データをａｄ１、ａｄ２、ａｄ３、規格化された周波数位置データをｆｄ１、ｆｄ２、ｆｄ３、とすると、例えば、最も単純に
ａｄｘ＝ａｘ／（ａ１＋ａ２＋ａ３）
ｆｄｘ＝ｆｘ／（ｆ１＋ｆ２＋ｆ３）
ただし、添え字ｘは、ｘ＝１，２，３
のように規格化できる。
ピーク振幅や周波数位置をリニアスケールにとり、このように規格化処理することによって、データ相互の比例的な変動分を打ち消すことができる。対数スケールで処理しようとした場合、データの比例的な変動は加算的なオフセット変動になるだけであるが、データに何らかの加算的な変動があったときにその除去処理が困難になり、適当ではない。
以下、これらの演算処理によって規格化されたデータをまとめて「規格化データ」と呼ぶことにする。
【００１９】
この規格化データはある時刻の断片的なデータ成分にすぎず、音声を認識するには、ある時間範囲のデータ成分を総合しなければならない。ここで音声パターンの処理単位を定義する必要があるが、絶対的な単位があるわけではないので、認識処理のしやすい単位を認識処理の段階ごとに設定すればよい。そこで、ここでは例えば、下位音素、上位音素、単音を以下のように階層的に定義する。下位音素は、いくつかの規格化データを成分とする時間的な順列データ成分から構成されるものとする。上位音素は、いくつかの下位音素を成分とする時間的な順列データ成分から構成されるものとする。単音は、いくつかの上位音素を成分とする時間的な順列データ成分から構成されるものとする。したがって、下位音素が同定できれば上位音素も同定でき、さらに単音も同様な処理によって同定できることになる。
規格化データを
Ｓｘ＝（ｆｄ１　ｆｄ２　ｆｄ３　ａｄ１　ａｄ２　ａｄ３）
と表現すると、ある下位音素Ｕｘは規格化データＳｘの時間的配列から構成されるとみなせる。例えば、
Ｕ８：　Ｓ４　　Ｓ３　　Ｓ４　　Ｓ９
１回の掃引で得られた１つの規格化データから、それがどの下位音素の第何番目の成分かを示す属性データを得るために、変換メモリ手段１０８を用いる。
例えば、変換メモリ手段１０８に規格化データＳｘのビットパターンをそのままアドレス値として与えると、変換メモリ手段１０８はポインタアドレスを返し、そのポインタアドレスを使ってＳｘの属性データを調べる。変換メモリ手段に属性データを直接出力させる方法もあるが、属性データが一定の長さでない場合にメモリの使用効率が悪くなる。また、周波数位置データｆ１、ｆ２、ｆ３は小さい順番であるから、規格化データのビットパターンをそのままアドレス値にすると不要なメモリ領域ができる。このような場合は、変換メモリ手段の内部にコード変換手段と演算手段を設け、例えば、ｆｄ１をコード変換した後、その値にｆｄ２とｆｄ３を加算するなどして、変換メモリ手段の規模を小さくすることもできる。
規格化データは、複数の下位音素の順列データ成分になり得るので、その属性データとしては、例えば、
「下位音素Ｕ４の第３／３番目、Ｕ８の第２／４番目」
などのように表現できる。例えば、「下位音素Ｕ８の第２／４番目」というのは、「４個の規格化データから構成される下位音素Ｕ８の、２番目の順列データ成分」、という意味である。また、規格化データがどの下位音素にも属さない場合には、それは雑音等の影響によるデータと考えられるので、それに対応した属性データにしておく。
【００２０】
以上のようにして、本発明の音声認識処理装置によって、音声の周波数スペクトラム分布のデータから規格化データが算出され、その属性データを得ることができる。
【００２１】
ある時間範囲の規格化データ群から下位音素の同定を試行し、同定に失敗した場合に、本発明の音声認識処理装置の、周波数位置生成手段１０３のオフセットの変更、ピーク振幅監視手段１０９の監視レベル値の設定の変更、周波数位置監視手段１１０の周波数範囲の設定、などを行い認識処理を繰り返し試行することにより、さまざまな音声の変動の影響をなくすことが可能となる。例えば、周波数位置生成手段１０３のオフセットの変更は、ｆ１、ｆ２、ｆ３に加算的なオフセットを加えることになるので、周波数位置の加算的な変動分を除去することができる。よって、規格化処理と周波数位置生成手段のオフセットの変更とにより、ピークの周波数位置の比例的な変動分と加算的な変動分をなくすことができ、音声の特性変動を吸収できる。
【００２２】
上記の説明ではピークの検出個数を３個としたが、第一のＤ−Ａ変換手段１０１と周波数位置生成手段１０３の掃引開始位置をずらして再掃引することによって、３個以上のピークを検出し規格化することもできる。また、ピーク振幅ホールド手段１０４と周波数位置ホールド手段１０５を多重化し、前後の掃引の出力結果を保持しておき、ピーク振幅規格化手段１０６と周波数位置規格化手段１０７においてそれらの平均をとることで、データの時間平均の規格化データを得ることも可能である。
【００２３】
デジタル制御手段１００は、Ｄ−Ａ変換手段へのデータの供給、ピーク検出手段１０２、ピーク振幅ホールド手段１０４、周波数位置ホールド手段１０５等の制御、変換メモリ手段１０８からのデータの読み出しとデータの解析、ピーク振幅監視手段１０９または周波数位置監視手段１１０の監視レベル値の設定など、を行う。
【００２４】
【実施例】
図２に、本発明の実施例１を示す。この実施例１は、Ｄ−Ａ変換とピーク検出以外をすべてデジタル処理により行う例である。
【００２５】
Ｄ−Ａ変換器および周波数位置生成のための出力ポートと、規格化データの読み出しポートは、マイクロプロセッサのバスに接続されている。マイクロプロセッサは各部の制御とともに、規格化データが得られた後の認識処理も行う。規格化データを変換するメモリに関しては、規格化データをアドレスとして直接に入力する配置とはせずに、ここではマイクロプロセッサのメモリ空間上に配置し、規格化データを一度マイクロプロセッサが読み取り、それをアドレス変換してマイクロプロセッサがメモリから変換後のデータを読み出すという、間接的な方法を用いている。その変換後のデータはポインタアドレスであり、これは規格化データの属性データが格納されているメモリアドレスを指す。
【００２６】
周波数位置の生成には、カウンタなどを用いる方法もあるが、ここではＤ−Ａ変換器２０１に振幅データを供給するのと同時に、周波数位置データをメモリから読み出し、ポート２９６へ出力する方法を用いている。そのため、例えば、データバスを、上位側の数ビットは振幅データ、下位側の数ビットは周波数位置データ、というように割り付け、Ｄ−Ａ変換器のポートアドレスと周波数位置生成のポートアドレスを同じにする。ポート２９７はオフセットを保持出力しており、アダー２９８により、周波数位置データにオフセットを加える。このようにすることで、周波数位置のオフセットを容易に変更することができる。
【００２７】
音声の周波数スペクトラム上の正確なピーク検出のためには、周波数の分解能は細かくする必要があり、周波数データのポイント数も多いので、ピーク検出をアナログ処理するメリットが生じる。ピーク検出手段２０２は、主に微分回路２７６と比較器２７７とシフトレジスタ２７９から構成され、極大ピークの検出ごとにシフトレジスタにクロックが入り、シフトレジスタ２７９の出力を用いて、複数のピーク振幅ホールド手段のラッチ２０４または複数の周波数位置ホールド手段のラッチ２０５を、切り換え、選択する。Ｄ−Ａ変換器２０１の出力に含まれる高周波成分の除去、周波数スペクトラムの包絡線の検出、微分回路の安定動作、のために、微分回路の前にローパスフィルタ２７８を挿入してある。また、掃引後のピークの検出個数をマイクロプロセッサ２００が読み取ることができるよう、ピーク検出手段の出力をポート２９５に入力している。ピーク検出とピーク振幅ホールドを同期させるために、ディレイ２９９を用いている。
【００２８】
ピーク振幅監視手段と周波数位置監視手段には、デジタル値の大小比較器（デジタルコンパレータ）２０９、２１０を用い、ポート２８８、２８９により範囲を指定し、ピーク検出手段２０２のシフトレジスタ２７９のクロック入力をゲートすることによって、ピーク振幅ホールド手段２０４と周波数位置ホールド手段２０５が動作しないように制御している。
【００２９】
本実施例では、ピーク振幅規格化手段と周波数位置規格化手段は、同じ規格化の演算をするようにしたので演算部分を共用して小型化している。演算部分を並列化して、高速化することもできる。規格化の演算処理部２６７は、セレクタ２１１により入力の切り換えを行い、多入力アダー２１２と除算器２１５により演算を行う。
【００３０】
図３に、本発明の実施例２を示す。この実施例２は、アナログ処理を積極的に取り入れた例である。信号を電流振幅で処理する電流モード処理を多用している。各部のアナログ処理に、通常使用されている電圧モードの処理を用いることもできる。電圧モードのアナログ処理は扱いやすい反面、高性能な演算増幅器（オペアンプ）を多用しなければならず、低電圧動作と装置の小型化の点で不利な点がある。一方、電流モードのアナログ処理は精度が比較的よくないものの、電流ミラー回路を用いて加減算、定数倍などの演算が容易に行え、小型化でき、低電圧かつ高速動作させることができる。
【００３１】
Ｄ−Ａ変換器３０１の出力電流は抵抗とコンデンサを挿入した電流ミラー回路３７８により各部に供給され、その抵抗とコンデンサはローパスフィルタとしての機能をもつ。
【００３２】
ピーク検出手段３０２は、実施例１とは異なる微分変化検出回路を用いている。入力電流の変化はインダクタ３７６の両端に発生する逆起電力となり、その逆起電圧の正負を比較器３７７により検出する。回路３７５はハイパスフィルタであり、微分変化検出回路の動作を安定化させる。ピーク検出にインダクタを用いた電流モードによる微分変化検出回路を用いたことにより、高性能な演算増幅器を使用せずに済む。現在のところＬＳＩ上に大きな値のインダクタンスを構成するのは困難であるので、インダクタは外付けするのが現実的である。しかし、インダクタは１つしか用いないので、大きなデメリットとはならない。
【００３３】
ピーク振幅ホールド手段３０４には、電流サンプルホールド回路を用いている。これは電流ミラー回路の入力側ＭＯＳＦＥＴと出力側ＭＯＳＦＥＴのゲート間にスイッチ３７４とコンデンサ３７５を挿入したものである。本実施例では、スイッチ３７４は通常、オン（導通）しており、ホールドが必要なときにオフとなる。掃引の開始前と終了後に、Ｄ−Ａ変換器３０１の出力を０にすることにより、コンデンサ３７５の電圧をリセットできる。コンデンサ３７５と並列にリセットのためのスイッチを設けてもよい。
【００３４】
周波数位置の規格化の演算をアナログ処理するために、周波数位置信号の生成にＤ−Ａ変換器３０３を用いている。これにより、周波数位置のホールドと規格化の演算処理に、ピーク振幅の処理部分と同様の回路を用いることができる。ポート３９６、３９７とアダー３９８は、実施例１と同様に、周波数位置にオフセットを与えるためのものである。
【００３５】
ピーク振幅規格化と周波数位置規格化の演算は、規格化の演算処理部３６７で行う。電流ミラー回路を用いた加算を回路３１２により行い、ｉ２／ｉ１の電流除算処理とデジタル化を電流入力のＡ−Ｄ変換器３１５により行う。ここでは、装置の小型化のために、入力を切り換えるスイッチ３１１によりＡ−Ｄ変換器３１５を複数の演算に対して共有しているが、個々の演算にそれぞれ設けてもよい。
【００３６】
マイクロプロセッサ３００の処理手順は以下のようになる。
ピーク検出手段、ピーク振幅ホールド手段、周波数位置ホールド手段、などのリセットを行う。メモリ上に展開した周波数スペクトラム分布のデータのうち、ある時刻の周波数スペクラムの振幅データと周波数位置データをＤ−Ａ変換器３０１、３０３へ同時に転送する。ここでは、この転送にＤＭＡコントローラ３９２を用いている。転送が終了すると、１回の掃引が終了したことになる。マイクロプロセッサ３００はスイッチ３１１を切り換えてＡ−Ｄ変換器３１５を動作させ、規格化データの一部を順次、ポート３９４から読み込む。得られた規格化データをアドレス値とみなしてオフセットアドレスを加算あるいはバンク切り換え等によりアドレス変換し、そのアドレスから属性データのあるメモリを指しているポインタアドレスを得る。そのポインタアドレス値を特定の場所に格納する。
以上の処理をある時間範囲の周波数スペクトラムのデータに対して行い、特定の場所にそれらに対応するポインタアドレス値を順次格納する。そして、そのポインタアドレス値により属性データを参照し、音声の成分を同定していく。
【００３７】
実施例１、実施例２ともに、Ｄ−Ａ変換のためのクロック等を発生するクロックジェネレータ２９０、３９０とタイマ・カウンタ・コントローラ２９１、３９１、Ｄ−Ａ変換のための転送を行うＤＭＡコントローラ２９２、３９２、リセットや各部の制御を行うポート２９３、３９３、マイクロプロセッサのメモリと規格化データの変換メモリ手段を兼ねたメモリ２０８、３０８を用いている。
【００３８】
デジタル処理指向の実施例１に対する、電流モード・アナログ処理指向の実施例２の利点は、装置の小型化が挙げられる。また、実施例１と実施例２の両方を混合した実施例も考えられる。例えば、周波数位置のホールドと規格化演算にデジタル処理を用い、ピーク振幅のホールドと規格化演算にアナログ処理を用いる、などである。
【００３９】
【発明の効果】
本発明の音声認識処理装置は、周波数スペクトラム分布の周波数軸方向に振幅データをＤ−Ａ変換することによりアナログ処理によって複数のピークを検出し、同時に特徴抽出の演算を行うので高速である。その結果、高性能なマイクロプロセッサが不要になり、低消費電力になる。また、特徴抽出の演算にもアナログ処理を用いることによって、装置を小型化できる。したがって、本発明は、高速、低消費電力という特徴を有するので携帯機器の音声認識処理に適している。
【図面の簡単な説明】
【図１】本発明の音声認識処理装置のブロック図である。
【図２】本発明の音声認識処理装置の実施例１である。
【図３】本発明の音声認識処理装置の実施例２である。
【符号の説明】
１０１　　Ｄ−Ａ変換手段
１０２、２０２、３０２　　ピーク検出手段
１０３　　周波数位置生成手段
１０４、２０４、３０４　　ピーク振幅ホールド手段
１０５、２０５、３０５　　周波数位置ホールド手段
１０６　　ピーク振幅規格化手段
１０７　　周波数位置規格化手段
１０８　　変換メモリ手段
１０９　　ピーク振幅監視手段
１１０　　周波数位置監視手段
１００　　デジタル制御手段
２０１、３０１、３０３　　Ｄ−Ａ変換器
２００、３００　　マイクロプロセッサ
２０８、３０８　　メモリ

Claims

音声の周波数スペクトラム分布の時間変化を記録した一連のデジタルデータから音声を認識する音声認識処理において、
ある時刻の周波数スペクトラム分布に対して周波数軸方向にＤ−Ａ変換してスペクトル振幅を再生する第一のＤ−Ａ変換手段（１０１）と、前記第一のＤ−Ａ変換手段の出力から複数のピークを検出するピーク検出手段（１０２）と、前記第一のＤ−Ａ変換手段に同期して周波数位置を生成する周波数位置生成手段（１０３）と、ピークが検出されたときのピーク振幅データを保持する複数のピーク振幅ホールド手段（１０４）と、ピークが検出されたときのピークの周波数位置データを保持する複数の周波数位置ホールド手段（１０５）と、複数の前記ピーク振幅ホールド手段の出力から規格化されたピーク振幅データを算出し出力するピーク振幅規格化手段（１０６）と、複数の前記周波数位置ホールド手段の出力から規格化された周波数位置データを算出し出力する周波数位置規格化手段（１０７）と、前記ピーク振幅規格化手段の出力と前記周波数位置規格化手段の出力とをコード変換する変換メモリ手段（１０８）と、前記の各手段を制御するデジタル制御手段（１００）と、から構成され、
周波数スペクトラム分布の周波数軸方向に振幅のデータをＤ−Ａ変換し、周波数スペクトラム上の複数のピークをアナログ処理により検出し、同時にそのときのピーク振幅と周波数位置を演算処理して規格化することを特徴とする、音声認識処理装置。
前記の音声認識処理装置において、前記ピーク振幅ホールド手段と前記ピーク振幅規格化手段を設けずに、ピークの周波数位置データだけを用いて音声認識することを特徴とする、請求項１記載の音声認識処理装置。
前記の音声認識処理装置において、前記第一のＤ−Ａ変換手段の入力データまたは出力振幅を監視し、ある振幅レベルの範囲の場合に前記ピーク振幅ホールド手段または前記周波数位置ホールド手段を動作させないよう無効化するピーク振幅監視手段（１０９）、を有することを特徴とする、請求項１又は２記載の音声認識処理装置。
前記の音声認識処理装置において、前記第一のＤ−Ａ変換手段（１０１）と同期した第二のＤ−Ａ変換手段を前記周波数位置生成手段（１０３）に用い、前記周波数位置ホールド手段と周波数位置規格化手段にアナログ処理を用いることができるようにしたことを特徴とする、請求項１、２又は３記載の音声認識処理装置。
前記の音声認識処理装置において、前記周波数位置生成手段または前記第二のＤ−Ａ変換手段の入力データまたは出力データまたは出力振幅を監視し、ある範囲の場合に前記ピーク振幅ホールド手段または前記周波数位置ホールド手段を動作させないよう無効化する周波数位置監視手段（１１０）、を有することを特徴とする、請求項１、２、３又は４記載の音声認識処理装置。