JP2004046041A - 音声認識処理装置 - Google Patents
音声認識処理装置 Download PDFInfo
- Publication number
- JP2004046041A JP2004046041A JP2002237144A JP2002237144A JP2004046041A JP 2004046041 A JP2004046041 A JP 2004046041A JP 2002237144 A JP2002237144 A JP 2002237144A JP 2002237144 A JP2002237144 A JP 2002237144A JP 2004046041 A JP2004046041 A JP 2004046041A
- Authority
- JP
- Japan
- Prior art keywords
- frequency position
- data
- frequency
- peak
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】携帯機器に適した、高速、低消費電力な音声認識処理装置、を提供する。
【解決手段】音声のある時刻の周波数スペクトラム分布に対して、周波数軸方向に振幅データを第一のD−A変換手段101により再生し、アナログ処理を用いたピーク検出手段102により複数のピークを検出し、それと同時に、ピーク振幅規格化手段106と周波数位置規格化手段107により、そのときのピーク振幅と周波数位置を演算処理して、規格化されたデータを得る。
【選択図】 図1
【解決手段】音声のある時刻の周波数スペクトラム分布に対して、周波数軸方向に振幅データを第一のD−A変換手段101により再生し、アナログ処理を用いたピーク検出手段102により複数のピークを検出し、それと同時に、ピーク振幅規格化手段106と周波数位置規格化手段107により、そのときのピーク振幅と周波数位置を演算処理して、規格化されたデータを得る。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識処理装置、特に、音声の周波数スペクトラム分布の時間変化を記録した一連のデジタルデータから特徴を抽出し規格化する音声認識処理装置、に関する。
【0002】
【従来の技術】
近年、携帯機器の小型化が進み、それに伴い携帯機器へのデータ入力手段に簡便性や小型化が求められている。その入力手段の一つとして、音声認識を用いた入力が有望である。
【0003】
一般的に音声認識処理は、(1)音声信号に含まれる周波数スペクトラムを得る処理、(2)その周波数スペクトラムから特徴を抽出する処理、(3)パターンマッチング等により音声を同定する処理、の3段階に分けることができる。バンドパス・フィルタを並列にしたフィルタバンクを用いたアナログ処理による方法は、上記(1)、(2)の処理に相当する。高速フーリエ変換を用いたデジタル数値計算による方法は、上記(1)の処理に相当する。デジタルフィルタ等を用いた特徴抽出計算は上記(2)の処理に相当する。また、ダイナミック・プログラミングによるパターンマッチング(DPマッチング)は、上記(3)の処理に相当する。
【0004】
多くの場合、上記(2)、(3)の処理はマイクロプロセッサやDSPを用いたデジタル処理により行われているが、音声の特性変動、例えば、発声速度、イントネーションの変化、声の高低、不特定話者など、を考慮せねばならず、その処理には大きな処理能力やソフトウェアの負担が必要とされる。つまり、音声の特性変動を吸収するためには、特徴抽出とパターンマッチングの試行を繰り返すことが必要である。
【0005】
【発明が解決しようとする課題】
したがって、特徴抽出とパターンマッチングの処理には高速性が求められ、高性能なマイクロプロセッサやDSPが必要となる。その結果、装置の消費電力の増大などにより、携帯機器への応用に問題がある。
【0006】
そこで、本発明は、携帯機器に適した、高速、低消費電力な音声認識処理装置を提供することを目的としている。
【0007】
【課題を解決するための手段】
本発明の音声認識処理装置は、音声の周波数スペクトラム分布の時間変化を記録した一連のデジタルデータをアナログ信号に戻し、アナログ処理を用いてピークの検出を行い、同時に特徴抽出の演算も行うものであり、以下のような手段を用いたことを特徴としている。
【0008】
ある時刻の周波数スペクトラム分布に対して周波数軸方向にD−A変換してスペクトル振幅を再生する第一のD−A変換手段101と、第一のD−A変換手段101の出力から複数のピークを検出するピーク検出手段102と、第一のD−A変換手段101に同期して周波数位置を生成する周波数位置生成手段103と、ピークが検出されたときのピーク振幅データを保持する複数のピーク振幅ホールド手段104と、ピークが検出されたときのピークの周波数位置データを保持する複数の周波数位置ホールド手段105と、複数のピーク振幅ホールド手段104の出力から規格化されたピーク振幅データを算出し出力するピーク振幅規格化手段106と、複数の周波数位置ホールド手段105の出力から規格化された周波数位置データを算出し出力する周波数位置規格化手段107と、ピーク振幅規格化手段106の出力と周波数位置規格化手段107の出力とをコード変換する変換メモリ手段108と、前記の各手段を制御するデジタル制御手段100と、から構成されることを特徴としている。
【0009】
上記の手段により、周波数スペクトラムのピークの検出をアナログ処理によって行うことができ、高速になる。また、アナログ処理によってデータの補間処理やフィルタ処理が容易になるので、高周波成分や雑音の含まれたデータに対して特別の処理の必要性が小さくなる。
【0010】
また、簡易な音声認識装置の応用においては、ピーク振幅ホールド手段104とピーク振幅規格化手段106を設けずに、ピークの周波数位置データだけを用いて音声認識することも可能である。
【0011】
また、第一のD−A変換手段101の入力データまたは出力振幅を監視し、ある振幅レベル以下の場合にはピーク振幅ホールド手段104または周波数位置ホールド手段105を動作させないよう無効化するピーク振幅監視手段109を有することを特徴としている。
【0012】
上記のピーク振幅監視手段109により、音声認識処理にほとんど影響しない、振幅レベルの小さなピークをピーク振幅ホールド手段104と周波数位置ホールド手段105が取り込んでしまうのを防ぐことができる。
【0013】
また、第一のD−A変換手段101と同期した第二のD−A変換手段を前記周波数位置生成手段103に用い、周波数位置ホールド手段105と周波数位置規格化手段107にアナログ処理を用いることができるようにしたことを特徴とする。
【0014】
また、前記周波数位置生成手段または前記第二のD−A変換手段の、入力データまたは出力データを監視し、ある範囲の場合にピーク振幅ホールド手段104または周波数位置ホールド手段105を動作させないよう無効化する周波数位置監視手段110、を有することを特徴としている。
【0015】
上記の周波数位置監視手段110により、音声認識処理に不都合な周波数範囲のピークをピーク振幅ホールド手段104と周波数位置ホールド手段105が取り込んでしまうのを防ぐことができる。
【0016】
【発明の実施の形態】
一般的に音声認識処理は、(1)音声信号に含まれる周波数スペクトラムを得る処理、(2)その周波数スペクトラムから特徴を抽出する処理、(3)パターンマッチング等により音声を同定する処理、の3段階に分けることができる。本発明は上記(2)の処理に関してのものであり、音声の周波数スペクトラム分布の時間変化を記録した一連のデジタルデータがすでに得られているものとする。
【0017】
第一のD−A変換手段101は、ある時刻の周波数スペクトラム分布に対して周波数軸方向にD−A変換してスペクトル振幅を時間的に変化するアナログ信号として再生する。以下、ある時刻の周波数スペクトラム分布に対して周波数軸方向にD−A変換してスペクトル振幅をアナログ信号として再生する操作を「1回の掃引」などのように表現することにする。D−A変換の方向に関しては、低い周波数から高い周波数の方向へ掃引する方法と逆方向に掃引する方法がある。
音声の周波数スペクトラム分布の包絡線にはその音声に固有のいくつかのピーク(フォルマント)があり、再生したアナログ信号からピーク検出手段102によりピークを検出する。D−A変換で再生されたアナログ信号からスペクトラム分布の包絡線を得る場合には、適切に設定されたローパスフィルタを用いる。極大のピークを検出するには、例えば、信号の微分が正から負へ変化する点を検出すればよい。ピークの振幅は、その時点の再生信号振幅がそのままピーク振幅となる。周波数は時間に置き換えられているので、第一のD−A変換手段101に同期してその時点の周波数位置を生成する周波数位置生成手段103によりその時点の周波数位置を得る。通常、ピークは複数あるので、複数のピーク振幅ホールド手段104と複数の周波数位置ホールド手段105を設け、ピーク検出手段102により、順次、ピーク振幅ホールド手段104と周波数位置ホールド手段105を選択し、それぞれのピーク振幅と周波数位置を保持する。図1では、ピーク振幅ホールド手段104と周波数位置ホールド手段105をそれぞれ3個ずつ用いている。説明の都合上、以下の説明では検出するピークを3個とし、周波数位置の低い側からピーク振幅をa1、a2、a3、周波数位置をf1、f2、f3とおく。D−A変換の1回の掃引が終了した時点で、ピークの振幅情報とその周波数位置情報が、ピーク振幅ホールド手段104と周波数位置ホールド手段105に保持されている。しかし、このままの情報では、音声の特性変動分を含んでいる上、他の音声と比較区別しにくいので、ピーク振幅ホールド手段104の出力から規格化されたピーク振幅データを算出し出力するピーク振幅規格化手段106と、周波数位置ホールド手段105の出力から規格化された周波数位置データを算出し出力する周波数位置規格化手段107、により、これらの情報を規格化する。
【0018】
規格化されたピーク振幅データをad1、ad2、ad3、規格化された周波数位置データをfd1、fd2、fd3、とすると、例えば、最も単純に
adx=ax/(a1+a2+a3)
fdx=fx/(f1+f2+f3)
ただし、添え字xは、x=1,2,3
のように規格化できる。
ピーク振幅や周波数位置をリニアスケールにとり、このように規格化処理することによって、データ相互の比例的な変動分を打ち消すことができる。対数スケールで処理しようとした場合、データの比例的な変動は加算的なオフセット変動になるだけであるが、データに何らかの加算的な変動があったときにその除去処理が困難になり、適当ではない。
以下、これらの演算処理によって規格化されたデータをまとめて「規格化データ」と呼ぶことにする。
【0019】
この規格化データはある時刻の断片的なデータ成分にすぎず、音声を認識するには、ある時間範囲のデータ成分を総合しなければならない。ここで音声パターンの処理単位を定義する必要があるが、絶対的な単位があるわけではないので、認識処理のしやすい単位を認識処理の段階ごとに設定すればよい。そこで、ここでは例えば、下位音素、上位音素、単音を以下のように階層的に定義する。下位音素は、いくつかの規格化データを成分とする時間的な順列データ成分から構成されるものとする。上位音素は、いくつかの下位音素を成分とする時間的な順列データ成分から構成されるものとする。単音は、いくつかの上位音素を成分とする時間的な順列データ成分から構成されるものとする。したがって、下位音素が同定できれば上位音素も同定でき、さらに単音も同様な処理によって同定できることになる。
規格化データを
Sx=(fd1 fd2 fd3 ad1 ad2 ad3)
と表現すると、ある下位音素Uxは規格化データSxの時間的配列から構成されるとみなせる。例えば、
U8: S4 S3 S4 S9
1回の掃引で得られた1つの規格化データから、それがどの下位音素の第何番目の成分かを示す属性データを得るために、変換メモリ手段108を用いる。
例えば、変換メモリ手段108に規格化データSxのビットパターンをそのままアドレス値として与えると、変換メモリ手段108はポインタアドレスを返し、そのポインタアドレスを使ってSxの属性データを調べる。変換メモリ手段に属性データを直接出力させる方法もあるが、属性データが一定の長さでない場合にメモリの使用効率が悪くなる。また、周波数位置データf1、f2、f3は小さい順番であるから、規格化データのビットパターンをそのままアドレス値にすると不要なメモリ領域ができる。このような場合は、変換メモリ手段の内部にコード変換手段と演算手段を設け、例えば、fd1をコード変換した後、その値にfd2とfd3を加算するなどして、変換メモリ手段の規模を小さくすることもできる。
規格化データは、複数の下位音素の順列データ成分になり得るので、その属性データとしては、例えば、
「下位音素U4の第3/3番目、U8の第2/4番目」
などのように表現できる。例えば、「下位音素U8の第2/4番目」というのは、「4個の規格化データから構成される下位音素U8の、2番目の順列データ成分」、という意味である。また、規格化データがどの下位音素にも属さない場合には、それは雑音等の影響によるデータと考えられるので、それに対応した属性データにしておく。
【0020】
以上のようにして、本発明の音声認識処理装置によって、音声の周波数スペクトラム分布のデータから規格化データが算出され、その属性データを得ることができる。
【0021】
ある時間範囲の規格化データ群から下位音素の同定を試行し、同定に失敗した場合に、本発明の音声認識処理装置の、周波数位置生成手段103のオフセットの変更、ピーク振幅監視手段109の監視レベル値の設定の変更、周波数位置監視手段110の周波数範囲の設定、などを行い認識処理を繰り返し試行することにより、さまざまな音声の変動の影響をなくすことが可能となる。例えば、周波数位置生成手段103のオフセットの変更は、f1、f2、f3に加算的なオフセットを加えることになるので、周波数位置の加算的な変動分を除去することができる。よって、規格化処理と周波数位置生成手段のオフセットの変更とにより、ピークの周波数位置の比例的な変動分と加算的な変動分をなくすことができ、音声の特性変動を吸収できる。
【0022】
上記の説明ではピークの検出個数を3個としたが、第一のD−A変換手段101と周波数位置生成手段103の掃引開始位置をずらして再掃引することによって、3個以上のピークを検出し規格化することもできる。また、ピーク振幅ホールド手段104と周波数位置ホールド手段105を多重化し、前後の掃引の出力結果を保持しておき、ピーク振幅規格化手段106と周波数位置規格化手段107においてそれらの平均をとることで、データの時間平均の規格化データを得ることも可能である。
【0023】
デジタル制御手段100は、D−A変換手段へのデータの供給、ピーク検出手段102、ピーク振幅ホールド手段104、周波数位置ホールド手段105等の制御、変換メモリ手段108からのデータの読み出しとデータの解析、ピーク振幅監視手段109または周波数位置監視手段110の監視レベル値の設定など、を行う。
【0024】
【実施例】
図2に、本発明の実施例1を示す。この実施例1は、D−A変換とピーク検出以外をすべてデジタル処理により行う例である。
【0025】
D−A変換器および周波数位置生成のための出力ポートと、規格化データの読み出しポートは、マイクロプロセッサのバスに接続されている。マイクロプロセッサは各部の制御とともに、規格化データが得られた後の認識処理も行う。規格化データを変換するメモリに関しては、規格化データをアドレスとして直接に入力する配置とはせずに、ここではマイクロプロセッサのメモリ空間上に配置し、規格化データを一度マイクロプロセッサが読み取り、それをアドレス変換してマイクロプロセッサがメモリから変換後のデータを読み出すという、間接的な方法を用いている。その変換後のデータはポインタアドレスであり、これは規格化データの属性データが格納されているメモリアドレスを指す。
【0026】
周波数位置の生成には、カウンタなどを用いる方法もあるが、ここではD−A変換器201に振幅データを供給するのと同時に、周波数位置データをメモリから読み出し、ポート296へ出力する方法を用いている。そのため、例えば、データバスを、上位側の数ビットは振幅データ、下位側の数ビットは周波数位置データ、というように割り付け、D−A変換器のポートアドレスと周波数位置生成のポートアドレスを同じにする。ポート297はオフセットを保持出力しており、アダー298により、周波数位置データにオフセットを加える。このようにすることで、周波数位置のオフセットを容易に変更することができる。
【0027】
音声の周波数スペクトラム上の正確なピーク検出のためには、周波数の分解能は細かくする必要があり、周波数データのポイント数も多いので、ピーク検出をアナログ処理するメリットが生じる。ピーク検出手段202は、主に微分回路276と比較器277とシフトレジスタ279から構成され、極大ピークの検出ごとにシフトレジスタにクロックが入り、シフトレジスタ279の出力を用いて、複数のピーク振幅ホールド手段のラッチ204または複数の周波数位置ホールド手段のラッチ205を、切り換え、選択する。D−A変換器201の出力に含まれる高周波成分の除去、周波数スペクトラムの包絡線の検出、微分回路の安定動作、のために、微分回路の前にローパスフィルタ278を挿入してある。また、掃引後のピークの検出個数をマイクロプロセッサ200が読み取ることができるよう、ピーク検出手段の出力をポート295に入力している。ピーク検出とピーク振幅ホールドを同期させるために、ディレイ299を用いている。
【0028】
ピーク振幅監視手段と周波数位置監視手段には、デジタル値の大小比較器(デジタルコンパレータ)209、210を用い、ポート288、289により範囲を指定し、ピーク検出手段202のシフトレジスタ279のクロック入力をゲートすることによって、ピーク振幅ホールド手段204と周波数位置ホールド手段205が動作しないように制御している。
【0029】
本実施例では、ピーク振幅規格化手段と周波数位置規格化手段は、同じ規格化の演算をするようにしたので演算部分を共用して小型化している。演算部分を並列化して、高速化することもできる。規格化の演算処理部267は、セレクタ211により入力の切り換えを行い、多入力アダー212と除算器215により演算を行う。
【0030】
図3に、本発明の実施例2を示す。この実施例2は、アナログ処理を積極的に取り入れた例である。信号を電流振幅で処理する電流モード処理を多用している。各部のアナログ処理に、通常使用されている電圧モードの処理を用いることもできる。電圧モードのアナログ処理は扱いやすい反面、高性能な演算増幅器(オペアンプ)を多用しなければならず、低電圧動作と装置の小型化の点で不利な点がある。一方、電流モードのアナログ処理は精度が比較的よくないものの、電流ミラー回路を用いて加減算、定数倍などの演算が容易に行え、小型化でき、低電圧かつ高速動作させることができる。
【0031】
D−A変換器301の出力電流は抵抗とコンデンサを挿入した電流ミラー回路378により各部に供給され、その抵抗とコンデンサはローパスフィルタとしての機能をもつ。
【0032】
ピーク検出手段302は、実施例1とは異なる微分変化検出回路を用いている。入力電流の変化はインダクタ376の両端に発生する逆起電力となり、その逆起電圧の正負を比較器377により検出する。回路375はハイパスフィルタであり、微分変化検出回路の動作を安定化させる。ピーク検出にインダクタを用いた電流モードによる微分変化検出回路を用いたことにより、高性能な演算増幅器を使用せずに済む。現在のところLSI上に大きな値のインダクタンスを構成するのは困難であるので、インダクタは外付けするのが現実的である。しかし、インダクタは1つしか用いないので、大きなデメリットとはならない。
【0033】
ピーク振幅ホールド手段304には、電流サンプルホールド回路を用いている。これは電流ミラー回路の入力側MOSFETと出力側MOSFETのゲート間にスイッチ374とコンデンサ375を挿入したものである。本実施例では、スイッチ374は通常、オン(導通)しており、ホールドが必要なときにオフとなる。掃引の開始前と終了後に、D−A変換器301の出力を0にすることにより、コンデンサ375の電圧をリセットできる。コンデンサ375と並列にリセットのためのスイッチを設けてもよい。
【0034】
周波数位置の規格化の演算をアナログ処理するために、周波数位置信号の生成にD−A変換器303を用いている。これにより、周波数位置のホールドと規格化の演算処理に、ピーク振幅の処理部分と同様の回路を用いることができる。ポート396、397とアダー398は、実施例1と同様に、周波数位置にオフセットを与えるためのものである。
【0035】
ピーク振幅規格化と周波数位置規格化の演算は、規格化の演算処理部367で行う。電流ミラー回路を用いた加算を回路312により行い、i2/i1の電流除算処理とデジタル化を電流入力のA−D変換器315により行う。ここでは、装置の小型化のために、入力を切り換えるスイッチ311によりA−D変換器315を複数の演算に対して共有しているが、個々の演算にそれぞれ設けてもよい。
【0036】
マイクロプロセッサ300の処理手順は以下のようになる。
ピーク検出手段、ピーク振幅ホールド手段、周波数位置ホールド手段、などのリセットを行う。メモリ上に展開した周波数スペクトラム分布のデータのうち、ある時刻の周波数スペクラムの振幅データと周波数位置データをD−A変換器301、303へ同時に転送する。ここでは、この転送にDMAコントローラ392を用いている。転送が終了すると、1回の掃引が終了したことになる。マイクロプロセッサ300はスイッチ311を切り換えてA−D変換器315を動作させ、規格化データの一部を順次、ポート394から読み込む。得られた規格化データをアドレス値とみなしてオフセットアドレスを加算あるいはバンク切り換え等によりアドレス変換し、そのアドレスから属性データのあるメモリを指しているポインタアドレスを得る。そのポインタアドレス値を特定の場所に格納する。
以上の処理をある時間範囲の周波数スペクトラムのデータに対して行い、特定の場所にそれらに対応するポインタアドレス値を順次格納する。そして、そのポインタアドレス値により属性データを参照し、音声の成分を同定していく。
【0037】
実施例1、実施例2ともに、D−A変換のためのクロック等を発生するクロックジェネレータ290、390とタイマ・カウンタ・コントローラ291、391、D−A変換のための転送を行うDMAコントローラ292、392、リセットや各部の制御を行うポート293、393、マイクロプロセッサのメモリと規格化データの変換メモリ手段を兼ねたメモリ208、308を用いている。
【0038】
デジタル処理指向の実施例1に対する、電流モード・アナログ処理指向の実施例2の利点は、装置の小型化が挙げられる。また、実施例1と実施例2の両方を混合した実施例も考えられる。例えば、周波数位置のホールドと規格化演算にデジタル処理を用い、ピーク振幅のホールドと規格化演算にアナログ処理を用いる、などである。
【0039】
【発明の効果】
本発明の音声認識処理装置は、周波数スペクトラム分布の周波数軸方向に振幅データをD−A変換することによりアナログ処理によって複数のピークを検出し、同時に特徴抽出の演算を行うので高速である。その結果、高性能なマイクロプロセッサが不要になり、低消費電力になる。また、特徴抽出の演算にもアナログ処理を用いることによって、装置を小型化できる。したがって、本発明は、高速、低消費電力という特徴を有するので携帯機器の音声認識処理に適している。
【図面の簡単な説明】
【図1】本発明の音声認識処理装置のブロック図である。
【図2】本発明の音声認識処理装置の実施例1である。
【図3】本発明の音声認識処理装置の実施例2である。
【符号の説明】
101 D−A変換手段
102、202、302 ピーク検出手段
103 周波数位置生成手段
104、204、304 ピーク振幅ホールド手段
105、205、305 周波数位置ホールド手段
106 ピーク振幅規格化手段
107 周波数位置規格化手段
108 変換メモリ手段
109 ピーク振幅監視手段
110 周波数位置監視手段
100 デジタル制御手段
201、301、303 D−A変換器
200、300 マイクロプロセッサ
208、308 メモリ
【発明の属する技術分野】
本発明は、音声認識処理装置、特に、音声の周波数スペクトラム分布の時間変化を記録した一連のデジタルデータから特徴を抽出し規格化する音声認識処理装置、に関する。
【0002】
【従来の技術】
近年、携帯機器の小型化が進み、それに伴い携帯機器へのデータ入力手段に簡便性や小型化が求められている。その入力手段の一つとして、音声認識を用いた入力が有望である。
【0003】
一般的に音声認識処理は、(1)音声信号に含まれる周波数スペクトラムを得る処理、(2)その周波数スペクトラムから特徴を抽出する処理、(3)パターンマッチング等により音声を同定する処理、の3段階に分けることができる。バンドパス・フィルタを並列にしたフィルタバンクを用いたアナログ処理による方法は、上記(1)、(2)の処理に相当する。高速フーリエ変換を用いたデジタル数値計算による方法は、上記(1)の処理に相当する。デジタルフィルタ等を用いた特徴抽出計算は上記(2)の処理に相当する。また、ダイナミック・プログラミングによるパターンマッチング(DPマッチング)は、上記(3)の処理に相当する。
【0004】
多くの場合、上記(2)、(3)の処理はマイクロプロセッサやDSPを用いたデジタル処理により行われているが、音声の特性変動、例えば、発声速度、イントネーションの変化、声の高低、不特定話者など、を考慮せねばならず、その処理には大きな処理能力やソフトウェアの負担が必要とされる。つまり、音声の特性変動を吸収するためには、特徴抽出とパターンマッチングの試行を繰り返すことが必要である。
【0005】
【発明が解決しようとする課題】
したがって、特徴抽出とパターンマッチングの処理には高速性が求められ、高性能なマイクロプロセッサやDSPが必要となる。その結果、装置の消費電力の増大などにより、携帯機器への応用に問題がある。
【0006】
そこで、本発明は、携帯機器に適した、高速、低消費電力な音声認識処理装置を提供することを目的としている。
【0007】
【課題を解決するための手段】
本発明の音声認識処理装置は、音声の周波数スペクトラム分布の時間変化を記録した一連のデジタルデータをアナログ信号に戻し、アナログ処理を用いてピークの検出を行い、同時に特徴抽出の演算も行うものであり、以下のような手段を用いたことを特徴としている。
【0008】
ある時刻の周波数スペクトラム分布に対して周波数軸方向にD−A変換してスペクトル振幅を再生する第一のD−A変換手段101と、第一のD−A変換手段101の出力から複数のピークを検出するピーク検出手段102と、第一のD−A変換手段101に同期して周波数位置を生成する周波数位置生成手段103と、ピークが検出されたときのピーク振幅データを保持する複数のピーク振幅ホールド手段104と、ピークが検出されたときのピークの周波数位置データを保持する複数の周波数位置ホールド手段105と、複数のピーク振幅ホールド手段104の出力から規格化されたピーク振幅データを算出し出力するピーク振幅規格化手段106と、複数の周波数位置ホールド手段105の出力から規格化された周波数位置データを算出し出力する周波数位置規格化手段107と、ピーク振幅規格化手段106の出力と周波数位置規格化手段107の出力とをコード変換する変換メモリ手段108と、前記の各手段を制御するデジタル制御手段100と、から構成されることを特徴としている。
【0009】
上記の手段により、周波数スペクトラムのピークの検出をアナログ処理によって行うことができ、高速になる。また、アナログ処理によってデータの補間処理やフィルタ処理が容易になるので、高周波成分や雑音の含まれたデータに対して特別の処理の必要性が小さくなる。
【0010】
また、簡易な音声認識装置の応用においては、ピーク振幅ホールド手段104とピーク振幅規格化手段106を設けずに、ピークの周波数位置データだけを用いて音声認識することも可能である。
【0011】
また、第一のD−A変換手段101の入力データまたは出力振幅を監視し、ある振幅レベル以下の場合にはピーク振幅ホールド手段104または周波数位置ホールド手段105を動作させないよう無効化するピーク振幅監視手段109を有することを特徴としている。
【0012】
上記のピーク振幅監視手段109により、音声認識処理にほとんど影響しない、振幅レベルの小さなピークをピーク振幅ホールド手段104と周波数位置ホールド手段105が取り込んでしまうのを防ぐことができる。
【0013】
また、第一のD−A変換手段101と同期した第二のD−A変換手段を前記周波数位置生成手段103に用い、周波数位置ホールド手段105と周波数位置規格化手段107にアナログ処理を用いることができるようにしたことを特徴とする。
【0014】
また、前記周波数位置生成手段または前記第二のD−A変換手段の、入力データまたは出力データを監視し、ある範囲の場合にピーク振幅ホールド手段104または周波数位置ホールド手段105を動作させないよう無効化する周波数位置監視手段110、を有することを特徴としている。
【0015】
上記の周波数位置監視手段110により、音声認識処理に不都合な周波数範囲のピークをピーク振幅ホールド手段104と周波数位置ホールド手段105が取り込んでしまうのを防ぐことができる。
【0016】
【発明の実施の形態】
一般的に音声認識処理は、(1)音声信号に含まれる周波数スペクトラムを得る処理、(2)その周波数スペクトラムから特徴を抽出する処理、(3)パターンマッチング等により音声を同定する処理、の3段階に分けることができる。本発明は上記(2)の処理に関してのものであり、音声の周波数スペクトラム分布の時間変化を記録した一連のデジタルデータがすでに得られているものとする。
【0017】
第一のD−A変換手段101は、ある時刻の周波数スペクトラム分布に対して周波数軸方向にD−A変換してスペクトル振幅を時間的に変化するアナログ信号として再生する。以下、ある時刻の周波数スペクトラム分布に対して周波数軸方向にD−A変換してスペクトル振幅をアナログ信号として再生する操作を「1回の掃引」などのように表現することにする。D−A変換の方向に関しては、低い周波数から高い周波数の方向へ掃引する方法と逆方向に掃引する方法がある。
音声の周波数スペクトラム分布の包絡線にはその音声に固有のいくつかのピーク(フォルマント)があり、再生したアナログ信号からピーク検出手段102によりピークを検出する。D−A変換で再生されたアナログ信号からスペクトラム分布の包絡線を得る場合には、適切に設定されたローパスフィルタを用いる。極大のピークを検出するには、例えば、信号の微分が正から負へ変化する点を検出すればよい。ピークの振幅は、その時点の再生信号振幅がそのままピーク振幅となる。周波数は時間に置き換えられているので、第一のD−A変換手段101に同期してその時点の周波数位置を生成する周波数位置生成手段103によりその時点の周波数位置を得る。通常、ピークは複数あるので、複数のピーク振幅ホールド手段104と複数の周波数位置ホールド手段105を設け、ピーク検出手段102により、順次、ピーク振幅ホールド手段104と周波数位置ホールド手段105を選択し、それぞれのピーク振幅と周波数位置を保持する。図1では、ピーク振幅ホールド手段104と周波数位置ホールド手段105をそれぞれ3個ずつ用いている。説明の都合上、以下の説明では検出するピークを3個とし、周波数位置の低い側からピーク振幅をa1、a2、a3、周波数位置をf1、f2、f3とおく。D−A変換の1回の掃引が終了した時点で、ピークの振幅情報とその周波数位置情報が、ピーク振幅ホールド手段104と周波数位置ホールド手段105に保持されている。しかし、このままの情報では、音声の特性変動分を含んでいる上、他の音声と比較区別しにくいので、ピーク振幅ホールド手段104の出力から規格化されたピーク振幅データを算出し出力するピーク振幅規格化手段106と、周波数位置ホールド手段105の出力から規格化された周波数位置データを算出し出力する周波数位置規格化手段107、により、これらの情報を規格化する。
【0018】
規格化されたピーク振幅データをad1、ad2、ad3、規格化された周波数位置データをfd1、fd2、fd3、とすると、例えば、最も単純に
adx=ax/(a1+a2+a3)
fdx=fx/(f1+f2+f3)
ただし、添え字xは、x=1,2,3
のように規格化できる。
ピーク振幅や周波数位置をリニアスケールにとり、このように規格化処理することによって、データ相互の比例的な変動分を打ち消すことができる。対数スケールで処理しようとした場合、データの比例的な変動は加算的なオフセット変動になるだけであるが、データに何らかの加算的な変動があったときにその除去処理が困難になり、適当ではない。
以下、これらの演算処理によって規格化されたデータをまとめて「規格化データ」と呼ぶことにする。
【0019】
この規格化データはある時刻の断片的なデータ成分にすぎず、音声を認識するには、ある時間範囲のデータ成分を総合しなければならない。ここで音声パターンの処理単位を定義する必要があるが、絶対的な単位があるわけではないので、認識処理のしやすい単位を認識処理の段階ごとに設定すればよい。そこで、ここでは例えば、下位音素、上位音素、単音を以下のように階層的に定義する。下位音素は、いくつかの規格化データを成分とする時間的な順列データ成分から構成されるものとする。上位音素は、いくつかの下位音素を成分とする時間的な順列データ成分から構成されるものとする。単音は、いくつかの上位音素を成分とする時間的な順列データ成分から構成されるものとする。したがって、下位音素が同定できれば上位音素も同定でき、さらに単音も同様な処理によって同定できることになる。
規格化データを
Sx=(fd1 fd2 fd3 ad1 ad2 ad3)
と表現すると、ある下位音素Uxは規格化データSxの時間的配列から構成されるとみなせる。例えば、
U8: S4 S3 S4 S9
1回の掃引で得られた1つの規格化データから、それがどの下位音素の第何番目の成分かを示す属性データを得るために、変換メモリ手段108を用いる。
例えば、変換メモリ手段108に規格化データSxのビットパターンをそのままアドレス値として与えると、変換メモリ手段108はポインタアドレスを返し、そのポインタアドレスを使ってSxの属性データを調べる。変換メモリ手段に属性データを直接出力させる方法もあるが、属性データが一定の長さでない場合にメモリの使用効率が悪くなる。また、周波数位置データf1、f2、f3は小さい順番であるから、規格化データのビットパターンをそのままアドレス値にすると不要なメモリ領域ができる。このような場合は、変換メモリ手段の内部にコード変換手段と演算手段を設け、例えば、fd1をコード変換した後、その値にfd2とfd3を加算するなどして、変換メモリ手段の規模を小さくすることもできる。
規格化データは、複数の下位音素の順列データ成分になり得るので、その属性データとしては、例えば、
「下位音素U4の第3/3番目、U8の第2/4番目」
などのように表現できる。例えば、「下位音素U8の第2/4番目」というのは、「4個の規格化データから構成される下位音素U8の、2番目の順列データ成分」、という意味である。また、規格化データがどの下位音素にも属さない場合には、それは雑音等の影響によるデータと考えられるので、それに対応した属性データにしておく。
【0020】
以上のようにして、本発明の音声認識処理装置によって、音声の周波数スペクトラム分布のデータから規格化データが算出され、その属性データを得ることができる。
【0021】
ある時間範囲の規格化データ群から下位音素の同定を試行し、同定に失敗した場合に、本発明の音声認識処理装置の、周波数位置生成手段103のオフセットの変更、ピーク振幅監視手段109の監視レベル値の設定の変更、周波数位置監視手段110の周波数範囲の設定、などを行い認識処理を繰り返し試行することにより、さまざまな音声の変動の影響をなくすことが可能となる。例えば、周波数位置生成手段103のオフセットの変更は、f1、f2、f3に加算的なオフセットを加えることになるので、周波数位置の加算的な変動分を除去することができる。よって、規格化処理と周波数位置生成手段のオフセットの変更とにより、ピークの周波数位置の比例的な変動分と加算的な変動分をなくすことができ、音声の特性変動を吸収できる。
【0022】
上記の説明ではピークの検出個数を3個としたが、第一のD−A変換手段101と周波数位置生成手段103の掃引開始位置をずらして再掃引することによって、3個以上のピークを検出し規格化することもできる。また、ピーク振幅ホールド手段104と周波数位置ホールド手段105を多重化し、前後の掃引の出力結果を保持しておき、ピーク振幅規格化手段106と周波数位置規格化手段107においてそれらの平均をとることで、データの時間平均の規格化データを得ることも可能である。
【0023】
デジタル制御手段100は、D−A変換手段へのデータの供給、ピーク検出手段102、ピーク振幅ホールド手段104、周波数位置ホールド手段105等の制御、変換メモリ手段108からのデータの読み出しとデータの解析、ピーク振幅監視手段109または周波数位置監視手段110の監視レベル値の設定など、を行う。
【0024】
【実施例】
図2に、本発明の実施例1を示す。この実施例1は、D−A変換とピーク検出以外をすべてデジタル処理により行う例である。
【0025】
D−A変換器および周波数位置生成のための出力ポートと、規格化データの読み出しポートは、マイクロプロセッサのバスに接続されている。マイクロプロセッサは各部の制御とともに、規格化データが得られた後の認識処理も行う。規格化データを変換するメモリに関しては、規格化データをアドレスとして直接に入力する配置とはせずに、ここではマイクロプロセッサのメモリ空間上に配置し、規格化データを一度マイクロプロセッサが読み取り、それをアドレス変換してマイクロプロセッサがメモリから変換後のデータを読み出すという、間接的な方法を用いている。その変換後のデータはポインタアドレスであり、これは規格化データの属性データが格納されているメモリアドレスを指す。
【0026】
周波数位置の生成には、カウンタなどを用いる方法もあるが、ここではD−A変換器201に振幅データを供給するのと同時に、周波数位置データをメモリから読み出し、ポート296へ出力する方法を用いている。そのため、例えば、データバスを、上位側の数ビットは振幅データ、下位側の数ビットは周波数位置データ、というように割り付け、D−A変換器のポートアドレスと周波数位置生成のポートアドレスを同じにする。ポート297はオフセットを保持出力しており、アダー298により、周波数位置データにオフセットを加える。このようにすることで、周波数位置のオフセットを容易に変更することができる。
【0027】
音声の周波数スペクトラム上の正確なピーク検出のためには、周波数の分解能は細かくする必要があり、周波数データのポイント数も多いので、ピーク検出をアナログ処理するメリットが生じる。ピーク検出手段202は、主に微分回路276と比較器277とシフトレジスタ279から構成され、極大ピークの検出ごとにシフトレジスタにクロックが入り、シフトレジスタ279の出力を用いて、複数のピーク振幅ホールド手段のラッチ204または複数の周波数位置ホールド手段のラッチ205を、切り換え、選択する。D−A変換器201の出力に含まれる高周波成分の除去、周波数スペクトラムの包絡線の検出、微分回路の安定動作、のために、微分回路の前にローパスフィルタ278を挿入してある。また、掃引後のピークの検出個数をマイクロプロセッサ200が読み取ることができるよう、ピーク検出手段の出力をポート295に入力している。ピーク検出とピーク振幅ホールドを同期させるために、ディレイ299を用いている。
【0028】
ピーク振幅監視手段と周波数位置監視手段には、デジタル値の大小比較器(デジタルコンパレータ)209、210を用い、ポート288、289により範囲を指定し、ピーク検出手段202のシフトレジスタ279のクロック入力をゲートすることによって、ピーク振幅ホールド手段204と周波数位置ホールド手段205が動作しないように制御している。
【0029】
本実施例では、ピーク振幅規格化手段と周波数位置規格化手段は、同じ規格化の演算をするようにしたので演算部分を共用して小型化している。演算部分を並列化して、高速化することもできる。規格化の演算処理部267は、セレクタ211により入力の切り換えを行い、多入力アダー212と除算器215により演算を行う。
【0030】
図3に、本発明の実施例2を示す。この実施例2は、アナログ処理を積極的に取り入れた例である。信号を電流振幅で処理する電流モード処理を多用している。各部のアナログ処理に、通常使用されている電圧モードの処理を用いることもできる。電圧モードのアナログ処理は扱いやすい反面、高性能な演算増幅器(オペアンプ)を多用しなければならず、低電圧動作と装置の小型化の点で不利な点がある。一方、電流モードのアナログ処理は精度が比較的よくないものの、電流ミラー回路を用いて加減算、定数倍などの演算が容易に行え、小型化でき、低電圧かつ高速動作させることができる。
【0031】
D−A変換器301の出力電流は抵抗とコンデンサを挿入した電流ミラー回路378により各部に供給され、その抵抗とコンデンサはローパスフィルタとしての機能をもつ。
【0032】
ピーク検出手段302は、実施例1とは異なる微分変化検出回路を用いている。入力電流の変化はインダクタ376の両端に発生する逆起電力となり、その逆起電圧の正負を比較器377により検出する。回路375はハイパスフィルタであり、微分変化検出回路の動作を安定化させる。ピーク検出にインダクタを用いた電流モードによる微分変化検出回路を用いたことにより、高性能な演算増幅器を使用せずに済む。現在のところLSI上に大きな値のインダクタンスを構成するのは困難であるので、インダクタは外付けするのが現実的である。しかし、インダクタは1つしか用いないので、大きなデメリットとはならない。
【0033】
ピーク振幅ホールド手段304には、電流サンプルホールド回路を用いている。これは電流ミラー回路の入力側MOSFETと出力側MOSFETのゲート間にスイッチ374とコンデンサ375を挿入したものである。本実施例では、スイッチ374は通常、オン(導通)しており、ホールドが必要なときにオフとなる。掃引の開始前と終了後に、D−A変換器301の出力を0にすることにより、コンデンサ375の電圧をリセットできる。コンデンサ375と並列にリセットのためのスイッチを設けてもよい。
【0034】
周波数位置の規格化の演算をアナログ処理するために、周波数位置信号の生成にD−A変換器303を用いている。これにより、周波数位置のホールドと規格化の演算処理に、ピーク振幅の処理部分と同様の回路を用いることができる。ポート396、397とアダー398は、実施例1と同様に、周波数位置にオフセットを与えるためのものである。
【0035】
ピーク振幅規格化と周波数位置規格化の演算は、規格化の演算処理部367で行う。電流ミラー回路を用いた加算を回路312により行い、i2/i1の電流除算処理とデジタル化を電流入力のA−D変換器315により行う。ここでは、装置の小型化のために、入力を切り換えるスイッチ311によりA−D変換器315を複数の演算に対して共有しているが、個々の演算にそれぞれ設けてもよい。
【0036】
マイクロプロセッサ300の処理手順は以下のようになる。
ピーク検出手段、ピーク振幅ホールド手段、周波数位置ホールド手段、などのリセットを行う。メモリ上に展開した周波数スペクトラム分布のデータのうち、ある時刻の周波数スペクラムの振幅データと周波数位置データをD−A変換器301、303へ同時に転送する。ここでは、この転送にDMAコントローラ392を用いている。転送が終了すると、1回の掃引が終了したことになる。マイクロプロセッサ300はスイッチ311を切り換えてA−D変換器315を動作させ、規格化データの一部を順次、ポート394から読み込む。得られた規格化データをアドレス値とみなしてオフセットアドレスを加算あるいはバンク切り換え等によりアドレス変換し、そのアドレスから属性データのあるメモリを指しているポインタアドレスを得る。そのポインタアドレス値を特定の場所に格納する。
以上の処理をある時間範囲の周波数スペクトラムのデータに対して行い、特定の場所にそれらに対応するポインタアドレス値を順次格納する。そして、そのポインタアドレス値により属性データを参照し、音声の成分を同定していく。
【0037】
実施例1、実施例2ともに、D−A変換のためのクロック等を発生するクロックジェネレータ290、390とタイマ・カウンタ・コントローラ291、391、D−A変換のための転送を行うDMAコントローラ292、392、リセットや各部の制御を行うポート293、393、マイクロプロセッサのメモリと規格化データの変換メモリ手段を兼ねたメモリ208、308を用いている。
【0038】
デジタル処理指向の実施例1に対する、電流モード・アナログ処理指向の実施例2の利点は、装置の小型化が挙げられる。また、実施例1と実施例2の両方を混合した実施例も考えられる。例えば、周波数位置のホールドと規格化演算にデジタル処理を用い、ピーク振幅のホールドと規格化演算にアナログ処理を用いる、などである。
【0039】
【発明の効果】
本発明の音声認識処理装置は、周波数スペクトラム分布の周波数軸方向に振幅データをD−A変換することによりアナログ処理によって複数のピークを検出し、同時に特徴抽出の演算を行うので高速である。その結果、高性能なマイクロプロセッサが不要になり、低消費電力になる。また、特徴抽出の演算にもアナログ処理を用いることによって、装置を小型化できる。したがって、本発明は、高速、低消費電力という特徴を有するので携帯機器の音声認識処理に適している。
【図面の簡単な説明】
【図1】本発明の音声認識処理装置のブロック図である。
【図2】本発明の音声認識処理装置の実施例1である。
【図3】本発明の音声認識処理装置の実施例2である。
【符号の説明】
101 D−A変換手段
102、202、302 ピーク検出手段
103 周波数位置生成手段
104、204、304 ピーク振幅ホールド手段
105、205、305 周波数位置ホールド手段
106 ピーク振幅規格化手段
107 周波数位置規格化手段
108 変換メモリ手段
109 ピーク振幅監視手段
110 周波数位置監視手段
100 デジタル制御手段
201、301、303 D−A変換器
200、300 マイクロプロセッサ
208、308 メモリ
Claims (5)
- 音声の周波数スペクトラム分布の時間変化を記録した一連のデジタルデータから音声を認識する音声認識処理において、
ある時刻の周波数スペクトラム分布に対して周波数軸方向にD−A変換してスペクトル振幅を再生する第一のD−A変換手段(101)と、前記第一のD−A変換手段の出力から複数のピークを検出するピーク検出手段(102)と、前記第一のD−A変換手段に同期して周波数位置を生成する周波数位置生成手段(103)と、ピークが検出されたときのピーク振幅データを保持する複数のピーク振幅ホールド手段(104)と、ピークが検出されたときのピークの周波数位置データを保持する複数の周波数位置ホールド手段(105)と、複数の前記ピーク振幅ホールド手段の出力から規格化されたピーク振幅データを算出し出力するピーク振幅規格化手段(106)と、複数の前記周波数位置ホールド手段の出力から規格化された周波数位置データを算出し出力する周波数位置規格化手段(107)と、前記ピーク振幅規格化手段の出力と前記周波数位置規格化手段の出力とをコード変換する変換メモリ手段(108)と、前記の各手段を制御するデジタル制御手段(100)と、から構成され、
周波数スペクトラム分布の周波数軸方向に振幅のデータをD−A変換し、周波数スペクトラム上の複数のピークをアナログ処理により検出し、同時にそのときのピーク振幅と周波数位置を演算処理して規格化することを特徴とする、音声認識処理装置。 - 前記の音声認識処理装置において、前記ピーク振幅ホールド手段と前記ピーク振幅規格化手段を設けずに、ピークの周波数位置データだけを用いて音声認識することを特徴とする、請求項1記載の音声認識処理装置。
- 前記の音声認識処理装置において、前記第一のD−A変換手段の入力データまたは出力振幅を監視し、ある振幅レベルの範囲の場合に前記ピーク振幅ホールド手段または前記周波数位置ホールド手段を動作させないよう無効化するピーク振幅監視手段(109)、を有することを特徴とする、請求項1又は2記載の音声認識処理装置。
- 前記の音声認識処理装置において、前記第一のD−A変換手段(101)と同期した第二のD−A変換手段を前記周波数位置生成手段(103)に用い、前記周波数位置ホールド手段と周波数位置規格化手段にアナログ処理を用いることができるようにしたことを特徴とする、請求項1、2又は3記載の音声認識処理装置。
- 前記の音声認識処理装置において、前記周波数位置生成手段または前記第二のD−A変換手段の入力データまたは出力データまたは出力振幅を監視し、ある範囲の場合に前記ピーク振幅ホールド手段または前記周波数位置ホールド手段を動作させないよう無効化する周波数位置監視手段(110)、を有することを特徴とする、請求項1、2、3又は4記載の音声認識処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002237144A JP2004046041A (ja) | 2002-07-15 | 2002-07-15 | 音声認識処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002237144A JP2004046041A (ja) | 2002-07-15 | 2002-07-15 | 音声認識処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004046041A true JP2004046041A (ja) | 2004-02-12 |
Family
ID=31712069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002237144A Pending JP2004046041A (ja) | 2002-07-15 | 2002-07-15 | 音声認識処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004046041A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009519657A (ja) * | 2005-12-14 | 2009-05-14 | ディプコム | 拡張ミキサー装置 |
-
2002
- 2002-07-15 JP JP2002237144A patent/JP2004046041A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009519657A (ja) * | 2005-12-14 | 2009-05-14 | ディプコム | 拡張ミキサー装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190087153A1 (en) | Audio User Interface Apparatus And Method | |
US10089989B2 (en) | Method and apparatus for a low power voice trigger device | |
CN110265064B (zh) | 音频爆音检测方法、装置和存储介质 | |
CN108694959A (zh) | 语音能量检测 | |
US20140236582A1 (en) | Low power voice detection | |
JPH0361959B2 (ja) | ||
CN108461081B (zh) | 语音控制的方法、装置、设备和存储介质 | |
WO2008034446A2 (en) | A method and a system for providing sound generation instructions | |
CN110377782B (zh) | 音频检索方法、装置和存储介质 | |
CN113077806A (zh) | 音频处理方法及装置、模型训练方法及装置、介质和设备 | |
CN111489739B (zh) | 音素识别方法、装置及计算机可读存储介质 | |
US5845092A (en) | Endpoint detection in a stand-alone real-time voice recognition system | |
JP2004046041A (ja) | 音声認識処理装置 | |
CN112767950A (zh) | 一种声纹识别方法、装置及计算机可读存储介质 | |
CN112634937A (zh) | 一种无需数字特征提取计算的声音分类方法 | |
KR20020005205A (ko) | 인간 청각 모델을 이용한 효율적인 음성인식 장치 | |
JPH0237600B2 (ja) | ||
JP3446857B2 (ja) | 音声認識装置 | |
CN114299991A (zh) | 基于音频信号的振动生成方法、装置、设备及存储介质 | |
JP3091504B2 (ja) | 神経回路網モデルによる音声認識方法 | |
Sahota | Voice recognition system based on audio fingerprinting | |
Lita et al. | Real time system for instrumental sound extraction and recognition | |
JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP7304301B2 (ja) | 音響診断方法、音響診断システム、及び音響診断プログラム | |
JP2001265368A (ja) | 音声認識装置および認識対象検出方法 |