JP3594356B2 - Audio processing device - Google Patents
Audio processing device Download PDFInfo
- Publication number
- JP3594356B2 JP3594356B2 JP08424195A JP8424195A JP3594356B2 JP 3594356 B2 JP3594356 B2 JP 3594356B2 JP 08424195 A JP08424195 A JP 08424195A JP 8424195 A JP8424195 A JP 8424195A JP 3594356 B2 JP3594356 B2 JP 3594356B2
- Authority
- JP
- Japan
- Prior art keywords
- gain control
- control value
- voice
- signal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【産業上の利用分野】
本発明は音声のディジタル信号を処理する音声処理装置に関し、特に入力信号の精度確保が低コストで実現することができる音声認識装置に関する。
【0002】
【従来の技術】
図24は従来の音声処理装置の概略を示す図である。本図(a)に示す音声処理装置は、車両に搭載され、音声のアナログ信号を入力してディジタル信号に変換するA/D変換器1(Analog To Digital Converter) と、このA/D変換器1に接続され音声認識処理を行うプロセッサ2と、このプロセッサ2に接続されるインタフェース3から構成される。そして、この音声処理装置は、例えば、パワーウインドウに対して、「窓開」、「窓閉」の音声を認識し、オーディオ機器に対しては、「オーディオオン」、「オーディオオフ」の音声を認識し制御を行うものである。本図(b)、(c)は入力信号のレベルに対する実質的ダイナミックレンジを示すが、ノイズレベルが非常に小さい場合には、この実質的ダイナミックレンジは近似的にS/Nで示される。この場合、A/D変換器1がn=16ビットで変換を行う場合には、実質的ダイナミックレンジの最大値は6n+2=98dBとなる。そして、入力レベル変化が大きい二つの入力レベルA、Bがあり、これに対応する実質的ダイナミックレンジをa、bとする。この場合、A、BにA≫Bの関係があるなら、a≫bとなる。
【0003】
【発明が解決しようとする課題】
ところで、車両に搭載される上記音声処理装置では、これを使用するドライバーの声の大小により音声信号の入力レベルが大小し、図示しないマイクロフォンとの距離の大小により音声信号の入力レベルが大小する。
しかしながら、上記音声処理装置では、入力レベルが変化する場合に、例えば、入力レベルが大きいと、入力信号Bに関しては実質的ダイナミックレンジbは十分に大きくとれるが、入力レベルが小さいと、入力信号Aに関する実質的ダイナミックレンジaは小さく、十分なS/N比が取れない。このため、後段のプロセッサ2において音声認識処理の精度の悪化を招来していたという問題点があった。
【0004】
一方、S/Nを高くするために、A/D変換器1として高ビット(例えば16ビット〜18ビット以上)のものを使用すると、コストアップという別の問題点を招来する。また、高ビットの調整作業が必要となる。
また一般的なアナログ利得制御回路を入力部に用いる方法もあったが音声区間内で利得が変化し音声信号に歪が加わる場合があるので必ずしも良好な結果は得られなかった。
【0005】
本発明は、前記問題点に鑑み、入力信号の変化が大きい音声信号を、低ビットのA/D変換器で、高精度に処理することができる音声認識装置を提供することを目的とする。
【0006】
【課題を解決するための手段】
本発明は、前記問題点を解決するために、次の構成を有する音声処理装置を提供する。すなわち、音声のアナログ信号をデジタル信号に変換して音声認識処理を行う音声処理装置に、音声のアナログ信号の電圧を制御する信号利得調整部と、音声のデジタル信号から音声区間を検出する音声区間処理部と、音声区間のデータを基に利得制御値を導出する利得制御値導出部とが設けられる。フィードバック判断部は前記利得制御値を前記信号利得調整部に設定して音声認識処理の結果を再評価して最適な利得制御値を設定する。
【0007】
前記音声区間処理部の音声区間は母音として推定される範囲であるようにしてもよい。
前記音声区間処理部の音声区間は子音として推定される範囲であるようにしてもよい。
前記音声区間処理部の音声区間は音声のデジタル信号のレベルを基に求められるようにしてもよい。
【0008】
前記音声区間処理部の音声区間は音声のデジタル信号のパワーレベルを基に求められるようにしてもよい。
前記音声区間処理部の音声区間は複数の窓に分割されるようにしてもよい。
前記窓の幅が可変長であるようにしてもよい。
前記利得制御値導出部の利得制御値は音声区間のデータに任意の係数を乗算して導出されるようにしてもよい。
【0009】
前記利得制御値導出部の利得制御値は音声区間のデータに複数の係数から選択した1つの係数を乗算して導出されるようにしてもよい。
前記利得制御値導出部の利得制御値は音声区間のデータのそれぞれに1組の係数のそれぞれを乗算して導出されるようにしてもよい。
前記利得制御値導出部の利得制御値は音声区間のデータのそれぞれに複数の組から選択した1つの組の係数のそれぞれを乗算して導出されるようにしてもよい。
【0010】
フィードバック判断部の音声認識処理結果の再評価は、前記利得制御値導出部による利得制御値を前記信号利得調整部に設定して得られた認識候補の上位の距離の平均値を用いて行われるが、前記認識候補の上位の距離の平均値が利得制御値設定前の平均値よりも大きい場合には設定前の利得制御値が使用され、この逆の場合には設定後の利得制御値が使用されて行われるようにしてもよい。
【0011】
フィードバック判断部の音声認識処理結果の再評価は、前記利得制御値導出部による利得制御値を前記信号利得調整部に設定して得られた認識候補の上位の距離の平均値を用いて行われるが、前記認識候補の上位の距離の平均値が最小になる利得制御値が使用されて、行われるようにしてもよい。
フィードバック判断部の音声認識処理結果の再評価は、前記利得制御値導出部による利得制御値を前記信号利得調整部に設定した後の認識の修正、次候補の呼び出し操作回数を用いるが、この操作回数が所定値よりも大きい場合には設定前の利得制御値が使用され、この逆の場合には設定後の利得制御値が使用されて、行われるようにしてもよい。
【0012】
フィードバック判断部の音声認識処理結果の再評価は、前記利得制御値導出部による利得制御値を前記信号利得調整部に設定した後の認識の修正、次候補の呼び出し操作回数を用いるが、この操作回数が最小になる利得制御値が使用されて、行われるようにしてもよい。
フィードバック判断部は、1単語前の音声区間を用いて得られた利得制御値を各単語の終端検出後に設定するようにしてもよい。
【0013】
フィードバック判断部は、複数の単語前からの音声区間を用いて得られた利得制御値を複数の単語の終端検出後に設定するようにしてもよい。
前記利得制御値を前記信号利得調整部に設定し、デジタル信号への変換後で音声認識処理前にデジタル信号に前記利得制御値の逆数を乗算するようにしてもよい。
【0014】
前記利得制御値導出部の利得制御値は、音声区間のデータの最大値を基に求められるようにしてもよい。
前記利得制御値導出部の利得制御値は、音声区間のデータの最大値を基に求められるようにしてもよい。
前記利得制御値導出部の利得制御値は、音声区間のデータの平均値を基に求められるようにしてもよい。
【0015】
前記利得制御値導出部の利得制御値は、音声区間のデータの絶対値を基に求められるようにしてもよい。
前記利得制御値導出部の利得制御値は、音声区間のデータの完全積分値を基に必要に応じて値をリセットし、求められるようにしてもよい。
前記値はある値以上にならないようにクリップされるようにしてもよい。
【0016】
前記利得制御値導出部の利得制御値は、音声区間のデータのリーキー積分値を基に求められるようにしてもよい。
前記利得制御値導出部の利得制御値は、音声区間のデータのピークホールド値を基に求められるようにしてもよい。
前記利得制御値導出部の利得制御値は、音声区間のデータのピークホールド時のアタック時間及びリリース時間を基に求められるようにしてもよい。
【0017】
前記利得制御値導出部の利得制御値は、認識候補の上位の距離の平均値が最小になるように、音声区間のデータのピークホールド時のアタック時間及びリリース時間を変化させて、求められるようにしてもよい。
【0018】
【作用】
本発明の音声処理装置によれば、音声のデジタル信号から音声区間を検出し、音声区間のデータを基に利得制御値を導出し、前記利得制御値を前記信号利得調整部に設定して音声認識処理の結果を再評価して最適な利得制御値を設定することにより、入力信号レベルのバラツキによらずほぼ一定したS/N比が得られ、信号処理精度の悪化を抑制でき、また比較的簡単な構成で低ビットのA/D変換器を用いることができ、認識率の向上とシステムコストの低減が可能になる。
【0019】
【実施例】
以下本発明の実施例について図面を参照して説明する。
図1は本発明の実施例に係る音声認識装置の概略を示す図である。本図に示す構成で、図24と異なるものは、A/D変換器1の入力段に設けられる信号利得調整部4である。そして、プロセッサ2には、信号利得調整部4の利得を制御するためのフィードバック信号を形成する利得制御部21及び音声区間処理部、音声認識部などの音声処理機能が設けられる。
【0020】
図2は図1の信号利得調整部4の構成を示す図である。本図に示すように、信号利得調整部4は、利得を変化して入力した音声信号の電圧を制御しA/D変換器1に出力する電圧制御増幅器41と、プロセッサ2からのフィードバックのデジタル信号をアナログ信号に変換するD/A変換器42(Digital To Analog Converter) と、D/A変換器42に接続され高周波成分を除去した後の信号で電圧制御増幅器41の利得を制御する低域通過フィルタ43とを具備する。
【0021】
図3は図1の利得制御部21の構成を示す図である。本図に示すように、利得制御部21は、A/D変換器1に接続され音声区間に処理したデータ群を形成する音声区間処理部22と、処理データ群に一定の係数を乗算して利得制御値を形成する利得制御値導出部23と、この利得制御値を前記信号利得調整部4へフィードバックすべきか否かを判断するフィードバック制御部24とを有する。なお各部の出力信号又は出力データに基づき音声認識を行なう音声認識部22−1も有している。
【0022】
図4は図3の音声区間処理部22を説明する図である。本図に示すように、A/D変換器1からの離散した音声信号(図4(b)参照)を記憶するバッファメモリ31と、バッファメモリ31に記憶された音声信号値、又は算出されたパワー値について一定の閾値以上のブロックの音声区間(図4(c)、(d)参照)を切り出すための音声区間検出部32と、このようにして切り出された音声区間を記憶する音声区間メモリ33とからなる。この音声区間メモリ33に記憶されたデータは、利得制御値導出部23に出力される。また音声認識部22−1は1からの入力信号又は音声区間処理部22の出力信号に基づき認識処理を行ない認識結果を出力する。この時利得制御導出部23からの利得制御情報を用いて入力信号を補正して使用しても良い。
【0023】
図5は図4の音声区間検出部32の変形を説明する図である。本図に示すように、母音部は一般的に子音部に比べて振幅が大きく音素長も長いのでこの特性を使用し一連の入力信号に含まれる母音区間を推定し、この入力値を音声区間検出結果として用いる。例えばこの推定では、振幅が閾値thv1よりも大きい場合が母音区間とされる。
【0024】
さらに、この入力レベルを二乗してパワーを算出して、この入力値に代わり用いてもよい。
また、上記とは逆に子音の区間を推定し、同様にこの入力レベルを音声区間検出結果として用いる。さらに、この入力レベルを二乗してパワーを算出して、この入力値に代わり用いてもよい。
【0025】
図6は図4の音声区間処理部22の第1の変形を示す図である。本図に示すように、音声区間処理部22の音声区間メモリ33の後段にそれぞれデータを二乗してパワーを求める二乗部34と、二乗して得られたパワーデータを記憶するパワーメモリ35が設けられる。このパワーメモリ35のパワーデータは、利得制御値導出部23に出力される。
【0026】
図7は図4の音声区間処理部22の第2の変形を示す図である。本図に示すように、音声区間処理部22の音声区間メモリ33の後段に、音声区間を複数の窓に分割して記憶する分割メモリ36が設けられる。この分割メモリ36に記憶されたデータは、利得制御値導出部23に出力される。後述するフィードバックの判断の精度を向上させるためである。
【0027】
図8は図4の音声区間処理部22の第3の変形を示す図である。本図に示すように、音声区間処理部22の音声区間メモリ33の後段に、音声区間を複数の窓に分割して記憶する分割メモリ36と、分割メモリ36に記憶されたデータを二乗してパワーを求める二乗部37と、二乗して得られたパワーデータを記憶するパワーメモリ38が設けられる。このパワーメモリ38のパワーデータは、利得制御値導出部23に出力される。
【0028】
図9は図4の音声区間処理部22の第4の変形であって、図8の窓の幅を変化させる例を示す図である。本図に示すように、図9の分割メモリ36、パワーメモリ38の窓の幅を変化させる。同様に、図9の分割メモリ36の幅を変化させてもよい。後述するフィードバックの判断の精度を向上させるためである。
図10は図3の利得制御値導出部23の一例を説明する図である。本図に示すように、利得制御値導出部23では、音声区間処理部22での処理後の各データ値d0,d1,d2,…, dn に係数k1を乗算する。すなわち、図4の音声区間メモリ33の入力レベルのデータに係数k1を乗算して係数利得調整部4の利得制御値を形成する。
【0029】
図6のパワーメモリ35のパワーデータに係数k1を乗算して利得制御値を形成することも可能である。
さらに図7の分割メモリ36の入力値のデータに係数k1を乗算して利得制御値を形成することも可能である。
さらに図8の分割メモリ37のパワーデータに係数k1を乗算して利得制御値を形成することも可能である。
【0030】
さらに図9の可変幅のパワーメモリ38のパワーデータに係数k1を乗算して利得制御値を形成することも可能である。なお、可変幅の分割メモリ36の入力データに係数k1を乗算して利得制御値を形成してもよい。
以上は係数k1を乗算する場合であるが、本図に示すように、k2、k3、…、knの係数を選択して乗算して利得制御値を形成することをさらに可能にしておく。後述するフィードバックの判断の精度を向上させるためでもある。
【0031】
以上は、係数を乗算する線形処理について説明したが、次に非線形処理について説明する。
図11は図3の利得制御値導出部23の他の例を説明する図である。本図に示すように、音声区間処理部22での処理後の各データ値d0,d1,d2,…, dn に対して、Map1として、非線形の係数をk10, k11, k12, …k1nを乗算して利得制御値を形成する。
【0032】
さらに、Map2,……,Map2として、係数をk20, k21, k22, …k2n、……、kn0, kn1, kn2, …knnを追加してこれらを選択的に乗算して利得制御値とする。
図12は非線形係数を使用する場合に音声認識を可能にするための例を説明する図である。本図(a)に示すように、利得制御値として非線形の係数を使用する場合には、プロセッサ2の利得制御部21は、利得制御値kg を決定して信号利得調整部4に設定して音声入力信号vi ・kg とした後にプロセッサ2は、A/D変換後の信号を逆数倍してvi /kg として音声認識を行う。本図(b)に示すように、プロセッサ2内では信号SもノイズNも含め元の信号の大きさに復元して信号の不連続性を除去し音声区間検出処理の精度を向上する方法をとっても良い。
【0033】
図13は図3のフィードバック判断部24の一例を説明する図である。本図に示すように、フィードバック判断部24は、図4の音声区間メモリ33、図6のパワーメモリ35、図7の分割メモリ36、図8のパワーメモリ38等のデータを音声認識処理する信号処理メインルーチン41と、音声認識処理された結果としての認識候補No.及び音声認識の程度を表す距離を抽出して記憶する音声認識処理データ部42と、抽出された認識候補No.のうち音声認識の程度が高いつまり距離が小さいものの平均値を基に、利得制御値の変更の評価を行い利得制御値の決定を行う利得制御値判断部43とを具備する。
【0034】
つまり、利得制御値判断部43は、図10の利得制御値k1又は図13のMap1を用いて、
の制御値とする。例えば、m=5とする。
【0035】
R1<利得制御値変更前の値なら変更後の利得制御値とする。
さらに、利得制御値判断部43は、図9の利得制御値k1、k2、…、kn又は図11のMap1、Map2、…、Mapnをパラメータとして、一定期間毎にR1を求め、パラメータに対してR1が最小となるものを最終的な利得制御値とする。
【0036】
フィードバック判断部24が動作中にはプロセッサ3の音声認識結果をインタフェース3に出力するのを禁止し、利得制御値決定後に出力するのを許可する様にしてもよい。
図14は図3のフィードバック判断部24の他の例を示す図である。本図(a)に示すように、インタフェース3には開始スイッチ51、音声の再入力により修正するスイッチスイッチ52、次候補を選択する次候補スイッチ53が設けられ、パワーウインドウ、オーディオ等の制御対象機器60が接続される。プロセッサ3の利得制御部21のフィードバック判断部24は、修正スイッチ51、次候補スイッチ53の操作回数Crをカウントし、このカウントCrが所定値th1を越える場合には利得制御値k1に変える。
【0037】
さらに、利得制御値判断部43は、図9の利得制御値k1、k2、…、kn又は図10のMap1、Map2、…、Mapnをパラメータとして、操作回数Crを求め、このパラメータに対して操作回数Crが最小となるものを最終的な利得制御値とする。
使用者の操作(内容)や操作回数(音声認識における操作回数、言い直し回数)により信号処理品質(例えば認識率)の推定を行い、利得制御値を算出することが可能になる。
【0038】
さらに、信号処理の品質を複数回分使用し、平均的な推定値を使用し利得制御値を算出するようにしてもよい。
さらに、通常開始スイッチ51のオンによりプロセッサ2の処理開始されるが、開始スイッチ51がオンされる前で本音声処理装置が未使用時に、プロセッサ2内で入力信号を用いて利得制御を行い、信号処理品質を仮に評価し良好な状態を予め制御しておいてもよい。
【0039】
図15は利得制御値の設定時期を説明する図である。本図に示すように、1単語前の音声区間を用いて、入力信号データ、パワーデータに係数を乗算して求めた利得制御値は、各単語の終端検出後に、前記信号利得調整部4に、設定される。
図16は利得制御値の別の設定時期を説明する図である。本図に示すように、複数個前の音声区間を用いて、入力データ、パワーデータに係数を乗算して求めた利得制御値は、複数単語の終端検出後に、前記信号利得調整部4に、設定される。
【0040】
以上では予め利得制御値を保持していたが、簡略のために、音声区間内のデータから利得制御値を決定する例を、以下に、説明する。
図17は音声区間内の最大値を用いて利得制御値を決定する例を説明する図である。最大値と利得制御値との関係を予め決めておき、本図に示すように、音声区間内の最大値di(1)を求めて、これに対応する利得制御値を算出する。
【0041】
図18は音声区間内の最大値を求めるのにピークホールド値を用いて利得制御値を決定する例を説明する図である。本図(a)に示すように、区間検出部32の後段にピークホールド処理部51を設け、本図(b)に示すように、区間検出部からの離散入力信号列vi に対して、本図(c)に示すように、vi(L−1)≦vi(L)ならば、vi(L)をvi’(L) とする。
【0042】
さらに、本図(d)に示すように、次の音声区間での最大値測定のためにリリース時間を制御を、下記式を用いて、行う。
vi(L)≦vi’(L) ・kt1、kt1=0.99
図19は図18の変形を示す図である。本図に示すように、ピークホールド処理部51の前に低域通過フィルタ(LPF)で構成されるアタックタイム処理部52を設け、さらにピーク処理部51にはリリース時間の制御部が設けられる。
【0043】
このアタック時間及びリリース時間を変化させて、図13のフィードバック判断部24を介して、最適なアタック時間及びリリース時間の制御を行う。
次に、音声区間内の振幅値の平均値と利得制御値との関係を予め決めておき、音声区間内のデータ値の平均値viav を
求め、これに対応する利得制御値を算出する。
【0044】
さらに変形として、音声区間内の振幅値の絶対値と利得制御値との関係を予め決めておき、音声区間内のデータの絶対値を
|vi(L)|、L=0,…m
求め、これに対応する利得制御値を算出する。
図20は音声区間内の完全積分値を用いて利得制御値を決定する例を説明する図である。完全積分値と利得制御値との関係を予め決めておき、本図に示すように、音声区間内の完全積分値vi’(L) を
vi’(L) =vi(L)+kx1・vi’(L−1) 、kx1=0.09
として求めて、これに対応する利得制御値を算出する。このままでは入力が入るたびにvi’(1) が増大するため一定期間(時間)ごとにkx1を1サンプルだけ0にする。
【0045】
図21は図20の変形を示す図である。本図に示すように、完全積分にレベルクリップにより出力値を制限する。すなわち、vi’(L) ≧kL1のとき、vi’(L) =kL1とする。
図22は音声区間内のリーキー積分値を用いて利得制御値を決定する例を説明する図である。リーキー積分値と利得制御値との関係を予め決めておき、本図に示すように、音声区間内の完全積分値vi’(L) を
vi’(L) =kx2・vi(L)+kx1・vi’(L−1) 、kx1+kx2≦1
として求めて、これに対応する利得制御値を算出する。kx1+kx2≦1とすることにより、vi’(L) の増大傾向を防止する。
【0046】
図23は本実施例の効果を説明する図である。本図に示すように、入力信号データのバラツキによらず、ほぼ一定したS/N比が得られ、信号処理精度の悪化を招来することなく、また比較的簡単な構成で低ビット(8〜12ビット)のA/D変換器を用いることができる。例えば、音声認識装置のおいては認識率の向上とシステムのコストの低減が可能になる。
【0047】
【発明の効果】
以上説明したように本発明によれば、音声のデジタル信号から音声区間を検出し、音声区間のデータを基に利得制御値を導出し、前記利得制御値を前記信号利得調整部に設定して音声認識処理の結果を再評価して最適な利得制御値を設定するので、入力信号レベルのバラツキによらずほぼ一定したS/N比が得られ、信号処理精度の悪化を抑制でき、また比較的簡単な構成で低ビットのA/D変換器を用いることができ、認識率の向上とシステムコストの低減が可能になる。
【図面の簡単な説明】
【図1】本発明の実施例に係る音声認識装置の概略を示す図である。
【図2】図1の信号利得調整部4の構成を示す図である。
【図3】図1の利得制御部21の構成示す図である。
【図4】図3の音声区間処理部22説明する図である。
【図5】図4の音声区間検出部32の変形を説明する図である。
【図6】図4の音声区間処理部22の第1の変形を示す図である。
【図7】図4の音声区間処理部22の第2の変形を示す図である。
【図8】図4の音声区間処理部22の第3の変形を示す図である。
【図9】図4の音声区間処理部22の第4の変形であって、図8の窓の幅を変化させる例を示す図である。
【図10】図3の利得制御値導出部23の一例を説明する図である。
【図11】図3の利得制御値導出部23の他の例を説明する図である。
【図12】非線形係数を使用する場合に音声認識を可能にするための例を説明する図である。
【図13】図3のフィードバック判断部24の一例を説明する図である。
【図14】図3のフィードバック判断部24の他の例を示す図である。
【図15】利得制御値の設定時期を説明する図である。
【図16】利得制御値の別の設定時期を説明する図である。
【図17】音声区間内の最大データを用いて利得制御値を決定する例を説明する図である。
【図18】音声区間内の最大データを求めるのにピークホールド値を用いて利得制御値を決定する例を説明する図である。
【図19】図18の変形を示す図である。
【図20】音声区間内の完全積分値を用いて利得制御値を決定する例を説明する図である。
【図21】図20の変形を示す図である。
【図22】音声区間内のリーキー積分値を用いて利得制御値を決定する例を説明する図である。
【図23】本実施例の効果を説明する図である。
【図24】従来の音声処理装置の概略を示す図である。
【符号の説明】
1…A/D変換器
2…プロセッサ
3…インタフェース
4…信号利得調整部
21…利得制御部
22…音声区間処理部
23…利得制御値導出部
24…フィードバック判断部[0001]
[Industrial applications]
The present invention relates to a speech processing apparatus for processing a digital signal of speech, and more particularly to a speech recognition apparatus capable of ensuring the accuracy of an input signal at low cost.
[0002]
[Prior art]
FIG. 24 is a diagram schematically showing a conventional audio processing device. The audio processing device shown in FIG. 1A is mounted on a vehicle, and an A / D converter 1 (Analog To Digital Converter) for inputting an audio analog signal and converting it into a digital signal, and the A / D converter The
[0003]
[Problems to be solved by the invention]
By the way, in the above-described voice processing device mounted on a vehicle, the input level of the voice signal is large or small depending on the volume of the voice of the driver using the device, and the input level of the voice signal is large or small depending on the distance between the microphone and a microphone not shown.
However, in the above-described audio processing apparatus, when the input level changes, for example, when the input level is large, the substantial dynamic range b can be set sufficiently for the input signal B, but when the input level is small, the input signal A is small. Is small, and a sufficient S / N ratio cannot be obtained. For this reason, there has been a problem that the accuracy of the speech recognition processing in the
[0004]
On the other hand, if a high-bit (for example, 16 bits to 18 bits or more) A / D converter is used as the A /
In addition, there was a method of using a general analog gain control circuit for the input unit, but good results were not always obtained because the gain might change in the voice section and the voice signal might be distorted.
[0005]
The present invention has been made in view of the above problems, and an object of the present invention is to provide a speech recognition device that can process a speech signal having a large change in an input signal with a low-bit A / D converter with high accuracy.
[0006]
[Means for Solving the Problems]
The present invention provides an audio processing device having the following configuration to solve the above problems. That is, a voice processing apparatus that converts a voice analog signal into a digital signal and performs voice recognition processing includes a signal gain adjustment unit that controls a voltage of the voice analog signal, and a voice section that detects a voice section from the voice digital signal. A processing unit and a gain control value deriving unit that derives a gain control value based on voice section data are provided. The feedback determination unit sets the gain control value in the signal gain adjustment unit, re-evaluates the result of the speech recognition process, and sets an optimal gain control value.
[0007]
The voice section of the voice section processing unit may be a range estimated as a vowel.
The voice section of the voice section processing unit may be a range estimated as a consonant.
The voice section of the voice section processing unit may be obtained based on the level of a voice digital signal.
[0008]
The voice section of the voice section processing unit may be obtained based on a power level of a voice digital signal.
The voice section of the voice section processing unit may be divided into a plurality of windows.
The width of the window may be variable.
The gain control value of the gain control value deriving unit may be derived by multiplying data of a voice section by an arbitrary coefficient.
[0009]
The gain control value of the gain control value deriving unit may be derived by multiplying data of a voice section by one coefficient selected from a plurality of coefficients.
The gain control value of the gain control value deriving unit may be derived by multiplying each of the data of the voice section by each of a set of coefficients.
The gain control value of the gain control value deriving unit may be derived by multiplying each of the data of the voice section by each of a set of coefficients selected from a plurality of sets.
[0010]
The reevaluation of the speech recognition processing result of the feedback determination unit is performed using the average value of the upper distances of the recognition candidates obtained by setting the gain control value by the gain control value derivation unit in the signal gain adjustment unit. However, if the average value of the upper distances of the recognition candidates is larger than the average value before setting the gain control value, the gain control value before setting is used, and in the opposite case, the gain control value after setting is used. It may be used and performed.
[0011]
The reevaluation of the speech recognition processing result of the feedback determination unit is performed using the average value of the upper distances of the recognition candidates obtained by setting the gain control value by the gain control value derivation unit in the signal gain adjustment unit. However, the gain control value that minimizes the average value of the upper distances of the recognition candidates may be used.
Re-evaluation of the speech recognition processing result of the feedback determination unit uses the number of times of the next candidate's calling operation, correction of the recognition after setting the gain control value by the gain control value deriving unit in the signal gain adjusting unit, and this operation. When the number of times is larger than the predetermined value, the gain control value before setting may be used, and when the number of times is larger than the predetermined value, the gain control value after setting may be used and the gain control value may be used.
[0012]
Re-evaluation of the speech recognition processing result of the feedback determination unit uses the number of times of the next candidate's calling operation, correction of the recognition after setting the gain control value by the gain control value deriving unit in the signal gain adjusting unit, and this operation. A gain control value that minimizes the number of times may be used and performed.
The feedback determination unit may set the gain control value obtained by using the speech section one word before, after detecting the end of each word.
[0013]
The feedback determination unit may set the gain control value obtained by using the speech section preceding the plurality of words after detecting the end of the plurality of words.
The gain control value may be set in the signal gain adjustment unit, and the digital signal may be multiplied by a reciprocal of the gain control value after conversion into the digital signal and before speech recognition processing.
[0014]
The gain control value of the gain control value deriving unit may be obtained based on a maximum value of data of a voice section.
The gain control value of the gain control value deriving unit may be obtained based on a maximum value of data of a voice section.
The gain control value of the gain control value deriving unit may be obtained based on an average value of data of a voice section.
[0015]
The gain control value of the gain control value deriving unit may be obtained based on an absolute value of data of a voice section.
The gain control value of the gain control value deriving unit may be determined by resetting the value as needed based on the complete integral value of the data of the voice section.
The value may be clipped so as not to exceed a certain value.
[0016]
The gain control value of the gain control value deriving unit may be obtained based on a leaky integral value of data of a voice section.
The gain control value of the gain control value deriving unit may be obtained based on a peak hold value of data of a voice section.
The gain control value of the gain control value deriving unit may be determined based on an attack time and a release time at the time of peak hold of data of a voice section.
[0017]
The gain control value of the gain control value deriving unit is obtained by changing the attack time and the release time at the time of peak hold of the data of the voice section so that the average value of the upper distances of the recognition candidates is minimized. It may be.
[0018]
[Action]
According to the audio processing device of the present invention, a voice section is detected from a digital signal of voice, a gain control value is derived based on data of the voice section, and the gain control value is set in the signal gain adjustment unit to perform voice control. By re-evaluating the result of the recognition processing and setting the optimal gain control value, an almost constant S / N ratio can be obtained regardless of the variation of the input signal level, and the deterioration of the signal processing accuracy can be suppressed. It is possible to use a low-bit A / D converter with a simple configuration, thereby improving the recognition rate and reducing the system cost.
[0019]
【Example】
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a diagram schematically illustrating a speech recognition device according to an embodiment of the present invention. The configuration shown in this figure, which differs from FIG. 24, is a signal
[0020]
FIG. 2 is a diagram showing a configuration of the signal
[0021]
FIG. 3 is a diagram showing a configuration of the
[0022]
FIG. 4 is a diagram illustrating the voice
[0023]
FIG. 5 is a diagram illustrating a modification of the voice
[0024]
Further, the power may be calculated by squaring the input level and used instead of the input value.
Conversely, a consonant section is estimated, and this input level is similarly used as a voice section detection result. Further, the power may be calculated by squaring the input level and used instead of the input value.
[0025]
FIG. 6 is a diagram showing a first modification of the voice
[0026]
FIG. 7 is a diagram showing a second modification of the voice
[0027]
FIG. 8 is a diagram showing a third modification of the voice
[0028]
FIG. 9 is a diagram showing a fourth modification of the voice
FIG. 10 is a diagram illustrating an example of the gain control
[0029]
It is also possible to form a gain control value by multiplying the power data of the
Further, it is possible to form a gain control value by multiplying the data of the input value of the
Further, it is also possible to form a gain control value by multiplying the power data of the divided
[0030]
Further, it is also possible to form a gain control value by multiplying the power data of the variable
The above is the case where the coefficient k1 is multiplied, but as shown in the figure, it is further possible to select and multiply the coefficients k2, k3,... Kn to form a gain control value. This is also to improve the accuracy of the feedback determination described later.
[0031]
The linear processing for multiplying the coefficient has been described above. Next, the non-linear processing will be described.
FIG. 11 is a diagram for explaining another example of the gain control
[0032]
Further, as Map2, ..., Map2, coefficients k20, k21, k22, ... k2n, ..., kn0, kn1, kn2, ... knn are added, and these are selectively multiplied to obtain gain control values.
FIG. 12 is a diagram illustrating an example for enabling speech recognition when using a nonlinear coefficient. When a non-linear coefficient is used as a gain control value, the
[0033]
FIG. 13 is a diagram illustrating an example of the
[0034]
That is, the gain control
Control value. For example, m = 5.
[0035]
If R1 <the value before the change of the gain control value, the gain control value after the change is set.
Further, the gain control
[0036]
While the
FIG. 14 is a diagram showing another example of the
[0037]
Further, the gain control
The signal processing quality (for example, the recognition rate) can be estimated based on the user's operation (contents) and the number of operations (the number of operations in speech recognition, the number of restatements), and the gain control value can be calculated.
[0038]
Further, the gain control value may be calculated by using the quality of the signal processing a plurality of times and using the average estimated value.
Further, the processing of the
[0039]
FIG. 15 is a diagram illustrating the timing of setting the gain control value. As shown in the figure, a gain control value obtained by multiplying input signal data and power data by a coefficient using a speech section one word before is transmitted to the signal
FIG. 16 is a diagram for explaining another setting time of the gain control value. As shown in the figure, the gain control value obtained by multiplying the input data and the power data by a coefficient using a plurality of previous speech sections is transmitted to the signal
[0040]
In the above description, the gain control value is held in advance. For the sake of simplicity, an example in which the gain control value is determined from data in a voice section will be described below.
FIG. 17 is a diagram illustrating an example in which a gain control value is determined using the maximum value in a voice section. The relationship between the maximum value and the gain control value is determined in advance, and as shown in this figure, the maximum value di (1) in the voice section is obtained, and the corresponding gain control value is calculated.
[0041]
FIG. 18 is a diagram illustrating an example in which a gain control value is determined using a peak hold value to determine a maximum value in a voice section. As shown in FIG. 3A, a peak
[0042]
Further, as shown in FIG. 4D, the release time is controlled using the following equation for measuring the maximum value in the next voice section.
vi (L) ≦ vi ′ (L) kt1, kt1 = 0.99
FIG. 19 is a diagram showing a modification of FIG. As shown in the figure, an attack
[0043]
By changing the attack time and the release time, optimal control of the attack time and the release time is performed via the
Next, the relationship between the average value of the amplitude values in the voice section and the gain control value is determined in advance, and the average value viav of the data values in the voice section is calculated.
Then, a gain control value corresponding to this is calculated.
[0044]
As a further modification, the relationship between the absolute value of the amplitude value in the voice section and the gain control value is determined in advance, and the absolute value of the data in the voice section is | vi (L) |, L = 0,.
Then, a gain control value corresponding to this is calculated.
FIG. 20 is a diagram illustrating an example in which a gain control value is determined using a complete integral value in a voice section. The relationship between the complete integral value and the gain control value is determined in advance, and as shown in the figure, the complete integral value vi ′ (L) in the voice section is calculated as vi ′ (L) = vi (L) + kx1 · vi ′. (L-1), kx1 = 0.09
And a gain control value corresponding to this is calculated. In this state, vi '(1) increases each time an input is input, so that kx1 is set to 0 for only one sample every fixed period (time).
[0045]
FIG. 21 is a diagram showing a modification of FIG. As shown in this figure, the output value is limited to the level of the complete integration. That is, when vi ′ (L) ≧ kL1, vi ′ (L) = kL1.
FIG. 22 is a diagram illustrating an example in which a gain control value is determined using a leaky integral value in a voice section. The relationship between the leaky integral value and the gain control value is determined in advance, and as shown in the figure, the complete integral value vi ′ (L) in the voice section is calculated as vi ′ (L) = kx2 · vi (L) + kx1 · vi ′ (L−1), kx1 + kx2 ≦ 1
And a gain control value corresponding to this is calculated. By setting kx1 + kx2 ≦ 1, the tendency of increasing vi ′ (L) is prevented.
[0046]
FIG. 23 is a diagram for explaining the effect of this embodiment. As shown in the figure, an almost constant S / N ratio can be obtained regardless of the variation of the input signal data, the signal processing accuracy does not deteriorate, and the low bit (8 to 12-bit) A / D converter can be used. For example, in a speech recognition device, the recognition rate can be improved and the cost of the system can be reduced.
[0047]
【The invention's effect】
According to the present invention as described above, a voice section is detected from a voice digital signal, a gain control value is derived based on voice section data, and the gain control value is set in the signal gain adjustment unit. Since the optimal gain control value is set by re-evaluating the result of the voice recognition processing, an almost constant S / N ratio can be obtained irrespective of the variation of the input signal level, and the deterioration of the signal processing accuracy can be suppressed. It is possible to use a low-bit A / D converter with a simple configuration, thereby improving the recognition rate and reducing the system cost.
[Brief description of the drawings]
FIG. 1 is a diagram schematically illustrating a speech recognition device according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating a configuration of a signal
FIG. 3 is a diagram illustrating a configuration of a
FIG. 4 is a diagram for explaining a voice
FIG. 5 is a diagram illustrating a modification of the voice
6 is a diagram showing a first modification of the voice
FIG. 7 is a diagram illustrating a second modification of the voice
FIG. 8 is a diagram illustrating a third modification of the voice
9 is a diagram illustrating a fourth modification of the voice
FIG. 10 is a diagram illustrating an example of a gain control
11 is a diagram illustrating another example of the gain control
FIG. 12 is a diagram illustrating an example for enabling speech recognition when using a nonlinear coefficient.
FIG. 13 is a diagram illustrating an example of the
FIG. 14 is a diagram illustrating another example of the
FIG. 15 is a diagram illustrating the timing of setting the gain control value.
FIG. 16 is a diagram illustrating another setting time of the gain control value.
FIG. 17 is a diagram illustrating an example in which a gain control value is determined using maximum data in a voice section.
FIG. 18 is a diagram illustrating an example in which a gain control value is determined using a peak hold value to determine the maximum data in a voice section.
FIG. 19 is a diagram showing a modification of FIG. 18;
FIG. 20 is a diagram illustrating an example in which a gain control value is determined using a complete integral value in a voice section.
FIG. 21 is a diagram showing a modification of FIG. 20;
FIG. 22 is a diagram illustrating an example in which a gain control value is determined using a leaky integral value in a voice section.
FIG. 23 is a diagram illustrating the effect of the present embodiment.
FIG. 24 is a diagram schematically showing a conventional audio processing device.
[Explanation of symbols]
DESCRIPTION OF
Claims (10)
音声のアナログ信号の電圧を制御する信号利得調整部(4)と、
音声のデジタル信号から音声区間を検出する音声区間処理部(22)と、
1または複数個分溯った音声区間のデータを基に利得制御値を導出する利得制御値導出部(23)と、
前記利得制御値を前記信号利得調整部に設定して音声認識処理の結果を再評価して最適な利得制御値を設定するフィードバック判断部(24)とを備え、
前記利得制御値導出部は、前記利得制御値について、前記音声区間のデータに複数の係数から選択した1つの係数を乗算して導出し、前記音声区間のデータのそれぞれに1組の係数のそれぞれを乗算して導出し、又は、前記音声区間のデータのそれぞれに複数の組から選択した1つの組の係数のそれぞれを乗算して導出することを特徴とする音声認識装置。In a voice processing device that converts a voice analog signal into a digital signal and performs voice recognition processing,
A signal gain adjuster (4) for controlling the voltage of the analog audio signal;
A voice section processing unit (22) for detecting a voice section from a voice digital signal;
A gain control value deriving unit (23) that derives a gain control value based on data of one or a plurality of voice segments that are retroactive;
A feedback determination unit (24) for setting the gain control value in the signal gain adjustment unit, re-evaluating the result of the speech recognition process, and setting an optimal gain control value;
The gain control value derivation unit derives the gain control value by multiplying the data of the voice section by one coefficient selected from a plurality of coefficients, and derives a set of coefficients for each of the voice section data. , Or the data of the speech section is multiplied by each of a set of coefficients selected from a plurality of sets to derive the data.
前記認識候補の上位の距離の平均値が利得制御値設定前の平均値よりも大きい場合には、設定前の利得制御値が使用され、前記距離の平均値が利得制御値設定前の平均値よりも小さい場合には、設定後の利得制御値が使用されることを特徴とする請求項1に記載の音声認識装置。 The feedback determination unit, used in the re-evaluation of the speech recognition processing result, the average value of the distance of the upper of the recognition candidates obtained by setting the gain control value by the gain control value deriving unit to the signal gain adjustment section And
When the average value of the upper distances of the recognition candidates is larger than the average value before setting the gain control value, the gain control value before setting is used, and the average value of the distance is the average value before setting the gain control value. It is smaller than the speech recognition apparatus according to claim 1, characterized in that the gain control value after the setting is used.
前記操作回数が所定値よりも大きい場合には、設定前の利得制御値が使用され、前記操作回数が所定値よりも小さい場合には、設定後の利得制御値が使用されることを特徴とする請求項2に記載の音声認識装置。 The feedback determination unit, wherein in the re-evaluation of the speech recognition result, the correction of recognition after the gain control value is set to the signal gain adjusting unit according to the gain control value deriving unit uses the call number of operations next candidate ,
When the number of operations is larger than a predetermined value, a gain control value before setting is used, and when the number of operations is smaller than a predetermined value , a gain control value after setting is used. The speech recognition device according to claim 2 .
前記操作回数が最小になる利得制御値が使用されることを特徴とする請求項2に記載の音声認識装置。The feedback determination unit, wherein in the re-evaluation of the speech recognition result, the correction of recognition after the gain control value is set to the signal gain adjusting unit according to the gain control value deriving unit uses the call number of operations next candidate ,
3. The speech recognition device according to claim 2 , wherein a gain control value that minimizes the number of operations is used.
音声のアナログ信号の電圧を制御する信号利得調整部(4)と、
音声のデジタル信号から音声区間を検出する音声区間処理部(22)と、
1または複数個分溯った音声区間のデータを基に利得制御値を導出する利得制御値導出部(23)と、
前記利得制御値を前記信号利得調整部に設定して音声認識処理の結果を再評価して最適な利得制御値を設定するフィードバック判断部(24)とを備え、
前記フィードバック判断部は、1単語前の音声区間を用いて得られた利得制御値を各単語の終端検出後に前記利得制御値を設定し、又は、複数の単語前からの音声区間を用いて 得られた前記利得制御値を複数の単語の終端検出後に設定することを特徴とする音声認識装置。 In a voice processing device that converts a voice analog signal into a digital signal and performs voice recognition processing,
A signal gain adjuster (4) for controlling the voltage of the analog audio signal;
A voice section processing unit (22) for detecting a voice section from a voice digital signal;
A gain control value deriving unit (23) that derives a gain control value based on data of one or a plurality of voice segments that are retroactive;
A feedback determination unit (24) for setting the gain control value in the signal gain adjustment unit, re-evaluating the result of the speech recognition process, and setting an optimal gain control value;
The feedback determination unit, a gain control value obtained using one word before the speech section sets the gain control value after the detection end of each word, or by using a speech segment from a previous plurality of words obtained Wherein the gain control value is set after the end of a plurality of words is detected .
音声のアナログ信号の電圧を制御する信号利得調整部(4)と、
音声のデジタル信号から音声区間を検出する音声区間処理部(22)と、
1または複数個分溯った音声区間のデータを基に利得制御値を導出する利得制御値導出部(23)と、
前記利得制御値を前記信号利得調整部に設定して音声認識処理の結果を再評価して最適な利得制御値を設定するフィードバック判断部(24)とを備え、
前記利得制御値導出部は、音声認識候補の上位の距離の平均値が最小になるように、音声区間のデータのピークホールド時のアタック時間及びリリース時間を変化させて、前記利得制御値を求めることを特徴とする音声認識装置。 In a voice processing device that converts a voice analog signal into a digital signal and performs voice recognition processing,
A signal gain adjuster (4) for controlling the voltage of the analog audio signal;
A voice section processing unit (22) for detecting a voice section from a voice digital signal;
A gain control value deriving unit (23) that derives a gain control value based on data of one or a plurality of voice segments that are retroactive;
A feedback determination unit (24) for setting the gain control value in the signal gain adjustment unit, re-evaluating the result of the speech recognition process, and setting an optimal gain control value;
Said gain control value deriving unit, so that the average value of the distance of the upper of the speech recognition candidate is minimized by changing the attack time and release time of the peak hold data of the speech interval, obtains the gain control value A speech recognition device characterized by the above-mentioned .
音声のアナログ信号の電圧を制御する信号利得調整部(4)と、
音声のデジタル信号から音声区間を検出する音声区間処理部(22)と、
1または複数個分溯った音声区間のデータを基に利得制御値を導出する利得制御値導出部(23)と、
前記利得制御値を前記信号利得調整部に設定して音声認識処理の結果を再評価して最適な利得制御値を設定するフィードバック判断部(24)とを備え、
前記利得制御値導出部は、前記利得制御値を、導出時点で入力信号に対して使用されている利得制御値の逆数倍により補正復元したデータに基づき決定することを特徴とする音声認識装置。 In a voice processing device that converts a voice analog signal into a digital signal and performs voice recognition processing,
A signal gain adjuster (4) for controlling the voltage of the analog audio signal;
A voice section processing unit (22) for detecting a voice section from a voice digital signal;
A gain control value deriving unit (23) that derives a gain control value based on data of one or a plurality of voice segments that are retroactive;
A feedback determination unit (24) for setting the gain control value in the signal gain adjustment unit, re-evaluating the result of the speech recognition process, and setting an optimal gain control value;
It said gain control value deriving unit, the gain control value, features and to Ruoto voices be determined based on the corrected restored data by reciprocal number of the gain control value that is used for the input signal by deriving time Recognition device.
音声のアナログ信号の電圧を制御する信号利得調整部(4)と、
音声のデジタル信号から音声区間を検出する音声区間処理部(22)と、
1または複数個分溯った音声区間のデータを基に利得制御値を導出する利得制御値導出部(23)と、
前記利得制御値を前記信号利得調整部に設定して音声認識処理の結果を再評価して最適な利得制御値を設定するフィードバック判断部(24)とを備え、
前記音声区間処理部は、音声区間の検出処理時点で入力信号に対して使用されている利得制御値の逆数倍により補正復元した入力データに基づき行なうと共に、復元前又は前記逆数倍とは異なる係数を乗じたデータにより音声認識処理を行ない結果を導出することを特徴とする音声処理装置。 In a voice processing device that converts a voice analog signal into a digital signal and performs voice recognition processing,
A signal gain adjuster (4) for controlling the voltage of the analog audio signal;
A voice section processing unit (22) for detecting a voice section from a voice digital signal;
A gain control value deriving unit (23) that derives a gain control value based on data of one or a plurality of voice segments that are retroactive;
A feedback determination unit (24) for setting the gain control value in the signal gain adjustment unit, re-evaluating the result of the speech recognition process, and setting an optimal gain control value;
The speech segment processing unit performs on the basis of the input data corrected restored by reciprocal of the gain control value that is used for the input signal in detection processing time during voice-ku, restored before or the reciprocal of A speech processing apparatus characterized in that a speech recognition process is performed using data multiplied by a coefficient different from the above to derive a result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08424195A JP3594356B2 (en) | 1995-04-10 | 1995-04-10 | Audio processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08424195A JP3594356B2 (en) | 1995-04-10 | 1995-04-10 | Audio processing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08278797A JPH08278797A (en) | 1996-10-22 |
JP3594356B2 true JP3594356B2 (en) | 2004-11-24 |
Family
ID=13824977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP08424195A Expired - Fee Related JP3594356B2 (en) | 1995-04-10 | 1995-04-10 | Audio processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3594356B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11538479B2 (en) | 2020-03-30 | 2022-12-27 | Samsung Electronics Co., Ltd. | Digital microphone interface circuit for voice recognition and including the same |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3886024B2 (en) * | 1997-11-19 | 2007-02-28 | 富士通株式会社 | Voice recognition apparatus and information processing apparatus using the same |
JP4531350B2 (en) * | 2003-06-04 | 2010-08-25 | アルパイン株式会社 | Voice input device and voice recognition processing system |
-
1995
- 1995-04-10 JP JP08424195A patent/JP3594356B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11538479B2 (en) | 2020-03-30 | 2022-12-27 | Samsung Electronics Co., Ltd. | Digital microphone interface circuit for voice recognition and including the same |
Also Published As
Publication number | Publication date |
---|---|
JPH08278797A (en) | 1996-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101320559B (en) | Sound activation detection apparatus and method | |
JP4279357B2 (en) | Apparatus and method for reducing noise, particularly in hearing aids | |
EP2355548B1 (en) | A method for the detection of whistling in an audio system | |
KR100335162B1 (en) | Noise reduction method of noise signal and noise section detection method | |
JP4863713B2 (en) | Noise suppression device, noise suppression method, and computer program | |
JP3273599B2 (en) | Speech coding rate selector and speech coding device | |
EP1538603A2 (en) | Noise reduction apparatus and noise reducing method | |
JP2000347688A (en) | Noise suppressor | |
EP0727769A2 (en) | Method of and apparatus for noise reduction | |
KR950022201A (en) | Noise reduction processing method | |
EP2448204A1 (en) | Method and device for clipping control | |
CN103238183A (en) | Noise suppression device | |
AU721270B2 (en) | Noise reduction apparatus and noise reduction method | |
US7411985B2 (en) | Low-complexity packet loss concealment method for voice-over-IP speech transmission | |
JP2000330597A (en) | Noise suppressing device | |
JP2004341339A (en) | Noise restriction device | |
JP4551817B2 (en) | Noise level estimation method and apparatus | |
JP3194135B2 (en) | Digital audio processor | |
JP3594356B2 (en) | Audio processing device | |
JPH06208395A (en) | Formant detecting device and sound processing device | |
EP1229517B1 (en) | Method for recognizing speech with noise-dependent variance normalization | |
JP2002140100A (en) | Noise suppressing device | |
JP3360423B2 (en) | Voice enhancement device | |
JP2006113515A (en) | Noise suppressor, noise suppressing method, and mobile communication terminal device | |
CN113470691A (en) | Automatic gain control method of voice signal and related device thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040326 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040831 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100910 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110910 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |