JPH08278797A - 音声処理装置 - Google Patents

音声処理装置

Info

Publication number
JPH08278797A
JPH08278797A JP7084241A JP8424195A JPH08278797A JP H08278797 A JPH08278797 A JP H08278797A JP 7084241 A JP7084241 A JP 7084241A JP 8424195 A JP8424195 A JP 8424195A JP H08278797 A JPH08278797 A JP H08278797A
Authority
JP
Japan
Prior art keywords
gain control
control value
voice
section
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7084241A
Other languages
English (en)
Other versions
JP3594356B2 (ja
Inventor
Kazuya Sako
和也 佐古
Shoji Fujimoto
昇治 藤本
Hiroyuki Fujimoto
博之 藤本
Ikue Takahashi
育恵 高橋
Yoshiaki Teramoto
良明 寺本
Akihiro Kimura
晋太 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Fujitsu Ltd
Original Assignee
Denso Ten Ltd
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd, Fujitsu Ltd filed Critical Denso Ten Ltd
Priority to JP08424195A priority Critical patent/JP3594356B2/ja
Publication of JPH08278797A publication Critical patent/JPH08278797A/ja
Application granted granted Critical
Publication of JP3594356B2 publication Critical patent/JP3594356B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 入力信号の精度確保を低コストで実現する。 【構成】 音声のアナログ信号をデジタル信号に変換し
て音声認識処理を行う音声処理装置に、音声のアナログ
信号の電圧を制御する信号利得調整部4と、音声のデジ
タル信号から音声区間を検出する音声区間処理部22
と、音声区間のデータを基に利得制御値を導出する利得
制御値導出部23とが設けられる。フィードバック判断
部24は利得制御値を信号利得調整部4に設定して音声
認識処理の結果を再評価して最適な利得制御値を設定す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声のディジタル信号を
処理する音声処理装置に関し、特に入力信号の精度確保
が低コストで実現することができる音声認識装置に関す
る。
【0002】
【従来の技術】図24は従来の音声処理装置の概略を示
す図である。本図(a)に示す音声処理装置は、車両に
搭載され、音声のアナログ信号を入力してディジタル信
号に変換するA/D変換器1(Analog To Digital Conve
rter) と、このA/D変換器1に接続され音声認識処理
を行うプロセッサ2と、このプロセッサ2に接続される
インタフェース3から構成される。そして、この音声処
理装置は、例えば、パワーウインドウに対して、「窓
開」、「窓閉」の音声を認識し、オーディオ機器に対し
ては、「オーディオオン」、「オーディオオフ」の音声
を認識し制御を行うものである。本図(b)、(c)は
入力信号のレベルに対する実質的ダイナミックレンジを
示すが、ノイズレベルが非常に小さい場合には、この実
質的ダイナミックレンジは近似的にS/Nで示される。
この場合、A/D変換器1がn=16ビットで変換を行
う場合には、実質的ダイナミックレンジの最大値は6n
+2=98dBとなる。そして、入力レベル変化が大き
い二つの入力レベルA、Bがあり、これに対応する実質
的ダイナミックレンジをa、bとする。この場合、A、
BにA≫Bの関係があるなら、a≫bとなる。
【0003】
【発明が解決しようとする課題】ところで、車両に搭載
される上記音声処理装置では、これを使用するドライバ
ーの声の大小により音声信号の入力レベルが大小し、図
示しないマイクロフォンとの距離の大小により音声信号
の入力レベルが大小する。しかしながら、上記音声処理
装置では、入力レベルが変化する場合に、例えば、入力
レベルが大きいと、入力信号Bに関しては実質的ダイナ
ミックレンジbは十分に大きくとれるが、入力レベルが
小さいと、入力信号Aに関する実質的ダイナミックレン
ジaは小さく、十分なS/N比が取れない。このため、
後段のプロセッサ2において音声認識処理の精度の悪化
を招来していたという問題点があった。
【0004】一方、S/Nを高くするために、A/D変
換器1として高ビット(例えば16ビット〜18ビット
以上)のものを使用すると、コストアップという別の問
題点を招来する。また、高ビットの調整作業が必要とな
る。また一般的なアナログ利得制御回路を入力部に用い
る方法もあったが音声区間内で利得が変化し音声信号に
歪が加わる場合があるので必ずしも良好な結果は得られ
なかった。
【0005】本発明は、前記問題点に鑑み、入力信号の
変化が大きい音声信号を、低ビットのA/D変換器で、
高精度に処理することができる音声認識装置を提供する
ことを目的とする。
【0006】
【課題を解決するための手段】本発明は、前記問題点を
解決するために、次の構成を有する音声処理装置を提供
する。すなわち、音声のアナログ信号をデジタル信号に
変換して音声認識処理を行う音声処理装置に、音声のア
ナログ信号の電圧を制御する信号利得調整部と、音声の
デジタル信号から音声区間を検出する音声区間処理部
と、音声区間のデータを基に利得制御値を導出する利得
制御値導出部とが設けられる。フィードバック判断部は
前記利得制御値を前記信号利得調整部に設定して音声認
識処理の結果を再評価して最適な利得制御値を設定す
る。
【0007】前記音声区間処理部の音声区間は母音とし
て推定される範囲であるようにしてもよい。前記音声区
間処理部の音声区間は子音として推定される範囲である
ようにしてもよい。前記音声区間処理部の音声区間は音
声のデジタル信号のレベルを基に求められるようにして
もよい。
【0008】前記音声区間処理部の音声区間は音声のデ
ジタル信号のパワーレベルを基に求められるようにして
もよい。前記音声区間処理部の音声区間は複数の窓に分
割されるようにしてもよい。前記窓の幅が可変長である
ようにしてもよい。前記利得制御値導出部の利得制御値
は音声区間のデータに任意の係数を乗算して導出される
ようにしてもよい。
【0009】前記利得制御値導出部の利得制御値は音声
区間のデータに複数の係数から選択した1つの係数を乗
算して導出されるようにしてもよい。前記利得制御値導
出部の利得制御値は音声区間のデータのそれぞれに1組
の係数のそれぞれを乗算して導出されるようにしてもよ
い。前記利得制御値導出部の利得制御値は音声区間のデ
ータのそれぞれに複数の組から選択した1つの組の係数
のそれぞれを乗算して導出されるようにしてもよい。
【0010】フィードバック判断部の音声認識処理結果
の再評価は、前記利得制御値導出部による利得制御値を
前記信号利得調整部に設定して得られた認識候補の上位
の距離の平均値を用いて行われるが、前記認識候補の上
位の距離の平均値が利得制御値設定前の平均値よりも大
きい場合には設定前の利得制御値が使用され、この逆の
場合には設定後の利得制御値が使用されて行われるよう
にしてもよい。
【0011】フィードバック判断部の音声認識処理結果
の再評価は、前記利得制御値導出部による利得制御値を
前記信号利得調整部に設定して得られた認識候補の上位
の距離の平均値を用いて行われるが、前記認識候補の上
位の距離の平均値が最小になる利得制御値が使用され
て、行われるようにしてもよい。フィードバック判断部
の音声認識処理結果の再評価は、前記利得制御値導出部
による利得制御値を前記信号利得調整部に設定した後の
認識の修正、次候補の呼び出し操作回数を用いるが、こ
の操作回数が所定値よりも大きい場合には設定前の利得
制御値が使用され、この逆の場合には設定後の利得制御
値が使用されて、行われるようにしてもよい。
【0012】フィードバック判断部の音声認識処理結果
の再評価は、前記利得制御値導出部による利得制御値を
前記信号利得調整部に設定した後の認識の修正、次候補
の呼び出し操作回数を用いるが、この操作回数が最小に
なる利得制御値が使用されて、行われるようにしてもよ
い。フィードバック判断部は、1単語前の音声区間を用
いて得られた利得制御値を各単語の終端検出後に設定す
るようにしてもよい。
【0013】フィードバック判断部は、複数の単語前か
らの音声区間を用いて得られた利得制御値を複数の単語
の終端検出後に設定するようにしてもよい。前記利得制
御値を前記信号利得調整部に設定し、デジタル信号への
変換後で音声認識処理前にデジタル信号に前記利得制御
値の逆数を乗算するようにしてもよい。
【0014】前記利得制御値導出部の利得制御値は、音
声区間のデータの最大値を基に求められるようにしても
よい。前記利得制御値導出部の利得制御値は、音声区間
のデータの最大値を基に求められるようにしてもよい。
前記利得制御値導出部の利得制御値は、音声区間のデー
タの平均値を基に求められるようにしてもよい。
【0015】前記利得制御値導出部の利得制御値は、音
声区間のデータの絶対値を基に求められるようにしても
よい。前記利得制御値導出部の利得制御値は、音声区間
のデータの完全積分値を基に必要に応じて値をリセット
し、求められるようにしてもよい。前記値はある値以上
にならないようにクリップされるようにしてもよい。
【0016】前記利得制御値導出部の利得制御値は、音
声区間のデータのリーキー積分値を基に求められるよう
にしてもよい。前記利得制御値導出部の利得制御値は、
音声区間のデータのピークホールド値を基に求められる
ようにしてもよい。前記利得制御値導出部の利得制御値
は、音声区間のデータのピークホールド時のアタック時
間及びリリース時間を基に求められるようにしてもよ
い。
【0017】前記利得制御値導出部の利得制御値は、認
識候補の上位の距離の平均値が最小になるように、音声
区間のデータのピークホールド時のアタック時間及びリ
リース時間を変化させて、求められるようにしてもよ
い。
【0018】
【作用】本発明の音声処理装置によれば、音声のデジタ
ル信号から音声区間を検出し、音声区間のデータを基に
利得制御値を導出し、前記利得制御値を前記信号利得調
整部に設定して音声認識処理の結果を再評価して最適な
利得制御値を設定することにより、入力信号レベルのバ
ラツキによらずほぼ一定したS/N比が得られ、信号処
理精度の悪化を抑制でき、また比較的簡単な構成で低ビ
ットのA/D変換器を用いることができ、認識率の向上
とシステムコストの低減が可能になる。
【0019】
【実施例】以下本発明の実施例について図面を参照して
説明する。図1は本発明の実施例に係る音声認識装置の
概略を示す図である。本図に示す構成で、図24と異な
るものは、A/D変換器1の入力段に設けられる信号利
得調整部4である。そして、プロセッサ2には、信号利
得調整部4の利得を制御するためのフィードバック信号
を形成する利得制御部21及び音声区間処理部、音声認
識部などの音声処理機能が設けられる。
【0020】図2は図1の信号利得調整部4の構成を示
す図である。本図に示すように、信号利得調整部4は、
利得を変化して入力した音声信号の電圧を制御しA/D
変換器1に出力する電圧制御増幅器41と、プロセッサ
2からのフィードバックのデジタル信号をアナログ信号
に変換するD/A変換器42(Digital To Analog Conve
rter) と、D/A変換器42に接続され高周波成分を除
去した後の信号で電圧制御増幅器41の利得を制御する
低域通過フィルタ43とを具備する。
【0021】図3は図1の利得制御部21の構成を示す
図である。本図に示すように、利得制御部21は、A/
D変換器1に接続され音声区間に処理したデータ群を形
成する音声区間処理部22と、処理データ群に一定の係
数を乗算して利得制御値を形成する利得制御値導出部2
3と、この利得制御値を前記信号利得調整部4へフィー
ドバックすべきか否かを判断するフィードバック制御部
24とを有する。なお各部の出力信号又は出力データに
基づき音声認識を行なう音声認識部22−1も有してい
る。
【0022】図4は図3の音声区間処理部22を説明す
る図である。本図に示すように、A/D変換器1からの
離散した音声信号(図4(b)参照)を記憶するバッフ
ァメモリ31と、バッファメモリ31に記憶された音声
信号値、又は算出されたパワー値について一定の閾値以
上のブロックの音声区間(図4(c)、(d)参照)を
切り出すための音声区間検出部32と、このようにして
切り出された音声区間を記憶する音声区間メモリ33と
からなる。この音声区間メモリ33に記憶されたデータ
は、利得制御値導出部23に出力される。また音声認識
部22−1は1からの入力信号又は音声区間処理部22
の出力信号に基づき認識処理を行ない認識結果を出力す
る。この時利得制御導出部23からの利得制御情報を用
いて入力信号を補正して使用しても良い。
【0023】図5は図4の音声区間検出部32の変形を
説明する図である。本図に示すように、母音部は一般的
に子音部に比べて振幅が大きく音素長も長いのでこの特
性を使用し一連の入力信号に含まれる母音区間を推定
し、この入力値を音声区間検出結果として用いる。例え
ばこの推定では、振幅が閾値thv1よりも大きい場合
が母音区間とされる。
【0024】さらに、この入力レベルを二乗してパワー
を算出して、この入力値に代わり用いてもよい。また、
上記とは逆に子音の区間を推定し、同様にこの入力レベ
ルを音声区間検出結果として用いる。さらに、この入力
レベルを二乗してパワーを算出して、この入力値に代わ
り用いてもよい。
【0025】図6は図4の音声区間処理部22の第1の
変形を示す図である。本図に示すように、音声区間処理
部22の音声区間メモリ33の後段にそれぞれデータを
二乗してパワーを求める二乗部34と、二乗して得られ
たパワーデータを記憶するパワーメモリ35が設けられ
る。このパワーメモリ35のパワーデータは、利得制御
値導出部23に出力される。
【0026】図7は図4の音声区間処理部22の第2の
変形を示す図である。本図に示すように、音声区間処理
部22の音声区間メモリ33の後段に、音声区間を複数
の窓に分割して記憶する分割メモリ36が設けられる。
この分割メモリ36に記憶されたデータは、利得制御値
導出部23に出力される。後述するフィードバックの判
断の精度を向上させるためである。
【0027】図8は図4の音声区間処理部22の第3の
変形を示す図である。本図に示すように、音声区間処理
部22の音声区間メモリ33の後段に、音声区間を複数
の窓に分割して記憶する分割メモリ36と、分割メモリ
36に記憶されたデータを二乗してパワーを求める二乗
部37と、二乗して得られたパワーデータを記憶するパ
ワーメモリ38が設けられる。このパワーメモリ38の
パワーデータは、利得制御値導出部23に出力される。
【0028】図9は図4の音声区間処理部22の第4の
変形であって、図8の窓の幅を変化させる例を示す図で
ある。本図に示すように、図9の分割メモリ36、パワ
ーメモリ38の窓の幅を変化させる。同様に、図9の分
割メモリ36の幅を変化させてもよい。後述するフィー
ドバックの判断の精度を向上させるためである。図10
は図3の利得制御値導出部23の一例を説明する図であ
る。本図に示すように、利得制御値導出部23では、音
声区間処理部22での処理後の各データ値d0,d1,d2,
…, dn に係数k1を乗算する。すなわち、図4の音声
区間メモリ33の入力レベルのデータに係数k1を乗算
して係数利得調整部4の利得制御値を形成する。
【0029】図6のパワーメモリ35のパワーデータに
係数k1を乗算して利得制御値を形成することも可能で
ある。さらに図7の分割メモリ36の入力値のデータに
係数k1を乗算して利得制御値を形成することも可能で
ある。さらに図8の分割メモリ37のパワーデータに係
数k1を乗算して利得制御値を形成することも可能であ
る。
【0030】さらに図9の可変幅のパワーメモリ38の
パワーデータに係数k1を乗算して利得制御値を形成す
ることも可能である。なお、可変幅の分割メモリ36の
入力データに係数k1を乗算して利得制御値を形成して
もよい。以上は係数k1を乗算する場合であるが、本図
に示すように、k2、k3、…、knの係数を選択して
乗算して利得制御値を形成することをさらに可能にして
おく。後述するフィードバックの判断の精度を向上させ
るためでもある。
【0031】以上は、係数を乗算する線形処理について
説明したが、次に非線形処理について説明する。図11
は図3の利得制御値導出部23の他の例を説明する図で
ある。本図に示すように、音声区間処理部22での処理
後の各データ値d0,d1,d2,…, dn に対して、Map
1として、非線形の係数をk10, k11, k12, …k1nを
乗算して利得制御値を形成する。
【0032】さらに、Map2,……,Map2とし
て、係数をk20, k21, k22, …k2n、……、kn0, k
n1, kn2, …knnを追加してこれらを選択的に乗算して
利得制御値とする。図12は非線形係数を使用する場合
に音声認識を可能にするための例を説明する図である。
本図(a)に示すように、利得制御値として非線形の係
数を使用する場合には、プロセッサ2の利得制御部21
は、利得制御値kg を決定して信号利得調整部4に設定
して音声入力信号vi ・kg とした後にプロセッサ2
は、A/D変換後の信号を逆数倍してvi /kg として
音声認識を行う。本図(b)に示すように、プロセッサ
2内では信号SもノイズNも含め元の信号の大きさに復
元して信号の不連続性を除去し音声区間検出処理の精度
を向上する方法をとっても良い。
【0033】図13は図3のフィードバック判断部24
の一例を説明する図である。本図に示すように、フィー
ドバック判断部24は、図4の音声区間メモリ33、図
6のパワーメモリ35、図7の分割メモリ36、図8の
パワーメモリ38等のデータを音声認識処理する信号処
理メインルーチン41と、音声認識処理された結果とし
ての認識候補No.及び音声認識の程度を表す距離を抽
出して記憶する音声認識処理データ部42と、抽出され
た認識候補No.のうち音声認識の程度が高いつまり距
離が小さいものの平均値を基に、利得制御値の変更の評
価を行い利得制御値の決定を行う利得制御値判断部43
とを具備する。
【0034】つまり、利得制御値判断部43は、図10
の利得制御値k1又は図13のMap1を用いて、 の制御値とする。例えば、m=5とする。
【0035】R1<利得制御値変更前の値なら変更後の
利得制御値とする。さらに、利得制御値判断部43は、
図9の利得制御値k1、k2、…、kn又は図11のM
ap1、Map2、…、Mapnをパラメータとして、
一定期間毎にR1を求め、パラメータに対してR1が最
小となるものを最終的な利得制御値とする。
【0036】フィードバック判断部24が動作中にはプ
ロセッサ3の音声認識結果をインタフェース3に出力す
るのを禁止し、利得制御値決定後に出力するのを許可す
る様にしてもよい。図14は図3のフィードバック判断
部24の他の例を示す図である。本図(a)に示すよう
に、インタフェース3には開始スイッチ51、音声の再
入力により修正するスイッチスイッチ52、次候補を選
択する次候補スイッチ53が設けられ、パワーウインド
ウ、オーディオ等の制御対象機器60が接続される。プ
ロセッサ3の利得制御部21のフィードバック判断部2
4は、修正スイッチ51、次候補スイッチ53の操作回
数Crをカウントし、このカウントCrが所定値th1
を越える場合には利得制御値k1に変える。
【0037】さらに、利得制御値判断部43は、図9の
利得制御値k1、k2、…、kn又は図10のMap
1、Map2、…、Mapnをパラメータとして、操作
回数Crを求め、このパラメータに対して操作回数Cr
が最小となるものを最終的な利得制御値とする。使用者
の操作(内容)や操作回数(音声認識における操作回
数、言い直し回数)により信号処理品質(例えば認識
率)の推定を行い、利得制御値を算出することが可能に
なる。
【0038】さらに、信号処理の品質を複数回分使用
し、平均的な推定値を使用し利得制御値を算出するよう
にしてもよい。さらに、通常開始スイッチ51のオンに
よりプロセッサ2の処理開始されるが、開始スイッチ5
1がオンされる前で本音声処理装置が未使用時に、プロ
セッサ2内で入力信号を用いて利得制御を行い、信号処
理品質を仮に評価し良好な状態を予め制御しておいても
よい。
【0039】図15は利得制御値の設定時期を説明する
図である。本図に示すように、1単語前の音声区間を用
いて、入力信号データ、パワーデータに係数を乗算して
求めた利得制御値は、各単語の終端検出後に、前記信号
利得調整部4に、設定される。図16は利得制御値の別
の設定時期を説明する図である。本図に示すように、複
数個前の音声区間を用いて、入力データ、パワーデータ
に係数を乗算して求めた利得制御値は、複数単語の終端
検出後に、前記信号利得調整部4に、設定される。
【0040】以上では予め利得制御値を保持していた
が、簡略のために、音声区間内のデータから利得制御値
を決定する例を、以下に、説明する。図17は音声区間
内の最大値を用いて利得制御値を決定する例を説明する
図である。最大値と利得制御値との関係を予め決めてお
き、本図に示すように、音声区間内の最大値di(1)を求
めて、これに対応する利得制御値を算出する。
【0041】図18は音声区間内の最大値を求めるのに
ピークホールド値を用いて利得制御値を決定する例を説
明する図である。本図(a)に示すように、区間検出部
32の後段にピークホールド処理部51を設け、本図
(b)に示すように、区間検出部からの離散入力信号列
vi に対して、本図(c)に示すように、vi(L-1)≦v
i(L)ならば、vi(L)をvi'(L) とする。
【0042】さらに、本図(d)に示すように、次の音
声区間での最大値測定のためにリリース時間を制御を、
下記式を用いて、行う。 vi(L)≦vi'(L) ・kt1、kt1=0.99 図19は図18の変形を示す図である。本図に示すよう
に、ピークホールド処理部51の前に低域通過フィルタ
(LPF)で構成されるアタックタイム処理部52を設
け、さらにピーク処理部51にはリリース時間の制御部
が設けられる。
【0043】このアタック時間及びリリース時間を変化
させて、図13のフィードバック判断部24を介して、
最適なアタック時間及びリリース時間の制御を行う。次
に、音声区間内の振幅値の平均値と利得制御値との関係
を予め決めておき、音声区間内のデータ値の平均値via
v を 求め、これに対応する利得制御値を算出する。
【0044】さらに変形として、音声区間内の振幅値の
絶対値と利得制御値との関係を予め決めておき、音声区
間内のデータの絶対値を |vi(L)|、L=0,…m 求め、これに対応する利得制御値を算出する。図20は
音声区間内の完全積分値を用いて利得制御値を決定する
例を説明する図である。完全積分値と利得制御値との関
係を予め決めておき、本図に示すように、音声区間内の
完全積分値vi'(L) を vi'(L) =vi(L)+kx1・vi'(L-1) 、kx1=0.09 として求めて、これに対応する利得制御値を算出する。
このままでは入力が入るたびにvi'(1) が増大するため
一定期間(時間)ごとにkx1を1サンプルだけ0にす
る。
【0045】図21は図20の変形を示す図である。本
図に示すように、完全積分にレベルクリップにより出力
値を制限する。すなわち、vi'(L) ≧kL1のとき、vi'
(L)=kL1とする。図22は音声区間内のリーキー積分
値を用いて利得制御値を決定する例を説明する図であ
る。リーキー積分値と利得制御値との関係を予め決めて
おき、本図に示すように、音声区間内の完全積分値vi'
(L) を vi'(L) =kx2・vi(L)+kx1・vi'(L-1) 、kx1+k
x2≦1 として求めて、これに対応する利得制御値を算出する。
kx1+kx2≦1とすることにより、vi'(L) の増大傾向
を防止する。
【0046】図23は本実施例の効果を説明する図であ
る。本図に示すように、入力信号データのバラツキによ
らず、ほぼ一定したS/N比が得られ、信号処理精度の
悪化を招来することなく、また比較的簡単な構成で低ビ
ット(8〜12ビット)のA/D変換器を用いることが
できる。例えば、音声認識装置のおいては認識率の向上
とシステムのコストの低減が可能になる。
【0047】
【発明の効果】以上説明したように本発明によれば、音
声のデジタル信号から音声区間を検出し、音声区間のデ
ータを基に利得制御値を導出し、前記利得制御値を前記
信号利得調整部に設定して音声認識処理の結果を再評価
して最適な利得制御値を設定するので、入力信号レベル
のバラツキによらずほぼ一定したS/N比が得られ、信
号処理精度の悪化を抑制でき、また比較的簡単な構成で
低ビットのA/D変換器を用いることができ、認識率の
向上とシステムコストの低減が可能になる。
【図面の簡単な説明】
【図1】本発明の実施例に係る音声認識装置の概略を示
す図である。
【図2】図1の信号利得調整部4の構成を示す図であ
る。
【図3】図1の利得制御部21の構成示す図である。
【図4】図3の音声区間処理部22説明する図である。
【図5】図4の音声区間検出部32の変形を説明する図
である。
【図6】図4の音声区間処理部22の第1の変形を示す
図である。
【図7】図4の音声区間処理部22の第2の変形を示す
図である。
【図8】図4の音声区間処理部22の第3の変形を示す
図である。
【図9】図4の音声区間処理部22の第4の変形であっ
て、図8の窓の幅を変化させる例を示す図である。
【図10】図3の利得制御値導出部23の一例を説明す
る図である。
【図11】図3の利得制御値導出部23の他の例を説明
する図である。
【図12】非線形係数を使用する場合に音声認識を可能
にするための例を説明する図である。
【図13】図3のフィードバック判断部24の一例を説
明する図である。
【図14】図3のフィードバック判断部24の他の例を
示す図である。
【図15】利得制御値の設定時期を説明する図である。
【図16】利得制御値の別の設定時期を説明する図であ
る。
【図17】音声区間内の最大データを用いて利得制御値
を決定する例を説明する図である。
【図18】音声区間内の最大データを求めるのにピーク
ホールド値を用いて利得制御値を決定する例を説明する
図である。
【図19】図18の変形を示す図である。
【図20】音声区間内の完全積分値を用いて利得制御値
を決定する例を説明する図である。
【図21】図20の変形を示す図である。
【図22】音声区間内のリーキー積分値を用いて利得制
御値を決定する例を説明する図である。
【図23】本実施例の効果を説明する図である。
【図24】従来の音声処理装置の概略を示す図である。
【符号の説明】
1…A/D変換器 2…プロセッサ 3…インタフェース 4…信号利得調整部 21…利得制御部 22…音声区間処理部 23…利得制御値導出部 24…フィードバック判断部
フロントページの続き (72)発明者 藤本 昇治 兵庫県神戸市兵庫区御所通1丁目2番28号 富士通テン株式会社内 (72)発明者 藤本 博之 兵庫県神戸市兵庫区御所通1丁目2番28号 富士通テン株式会社内 (72)発明者 高橋 育恵 兵庫県神戸市兵庫区御所通1丁目2番28号 富士通テン株式会社内 (72)発明者 寺本 良明 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内 (72)発明者 木村 晋太 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内

Claims (30)

    【特許請求の範囲】
  1. 【請求項1】 音声のアナログ信号をデジタル信号に変
    換して音声認識処理を行う音声処理装置において、 音声のアナログ信号の電圧を制御する信号利得調整部
    (4)と、 音声のデジタル信号から音声区間を検出する音声区間処
    理部(22)と、1または複数個分溯った音声区間のデ
    ータを基に利得制御値を導出する利得制御値導出部(2
    3)と、 前記利得制御値を前記信号利得調整部(4)に設定して
    音声認識処理の結果を再評価して最適な利得制御値を設
    定するフィードバック判断部(24)とを備えることを
    特徴とする音声処理装置。
  2. 【請求項2】 前記音声区間処理部(22)の音声区間
    は音声のデジタル信号のパワーレベルを基に求められる
    ことを特徴とする、請求項1に記載の音声処理装置。
  3. 【請求項3】 前記音声区間処理部(22)の音声区間
    は母音として推定される範囲であることを特徴とする、
    請求項1に記載の音声処理装置。
  4. 【請求項4】 前記音声区間処理部(22)の音声区間
    は子音として推定される範囲であることを特徴とする、
    請求項1に記載の音声処理装置。
  5. 【請求項5】 前記音声区間処理部(22)の音声区間
    は音声のデジタル信号のレベルを基に求められることを
    特徴とする、請求項1に記載の音声処理装置。
  6. 【請求項6】 前記音声区間処理部(22)の音声区間
    は複数の窓に分割されることを特徴とする、請求項1に
    記載の音声処理装置。
  7. 【請求項7】 前記窓の幅が可変長であることを特徴と
    する、請求項6に記載の音声処理装置。
  8. 【請求項8】 前記利得制御値導出部(23)の利得制
    御値は音声区間のデータに任意の係数を乗算して導出さ
    れることを特徴とする、請求項1に記載の音声認識装
    置。
  9. 【請求項9】 前記利得制御値導出部(23)の利得制
    御値は音声区間のデータに複数の係数から選択した1つ
    の係数を乗算して導出されることを特徴とする、請求項
    1に記載の音声認識装置。
  10. 【請求項10】 前記利得制御値導出部(23)の利得
    制御値は音声区間のデータのそれぞれに1組の係数のそ
    れぞれを乗算して導出されることを特徴とする、請求項
    1に記載の音声認識装置。
  11. 【請求項11】 前記利得制御値導出部(23)の利得
    制御値は音声区間のデータのそれぞれに複数の組から選
    択した1つの組の係数のそれぞれを乗算して導出される
    ことを特徴とする、請求項1に記載の音声認識装置。
  12. 【請求項12】 フィードバック判断部(24)の音声
    認識処理結果の再評価は、前記利得制御値導出部(2
    3)による利得制御値を前記信号利得調整部(4)に設
    定して得られた認識候補の上位の距離の平均値を用いて
    行われるが、前記認識候補の上位の距離の平均値が利得
    制御値設定前の平均値よりも大きい場合には設定前の利
    得制御値が使用され、この逆の場合には設定後の利得制
    御値が使用されて行われることを特徴とする、請求項8
    又は10に記載する音声認識装置。
  13. 【請求項13】 フィードバック判断部(24)の音声
    認識処理結果の再評価は、前記利得制御値導出部(2
    3)による利得制御値を前記信号利得調整部(4)に設
    定して得られた認識候補の上位の距離の平均値を用いて
    行われるが、前記認識候補の上位の距離の平均値が最小
    になる利得制御値が使用されて、行われることを特徴と
    する、請求項9又は11に記載の音声認識装置。
  14. 【請求項14】 フィードバック判断部(24)の音声
    認識処理結果の再評価は、前記利得制御値導出部(2
    3)による利得制御値を前記信号利得調整部(4)に設
    定した後の認識の修正、次候補の呼び出し操作回数を用
    いるが、この操作回数が所定値よりも大きい場合には設
    定前の利得制御値が使用され、この逆の場合には設定後
    の利得制御値が使用されて、行われることを特徴とす
    る、請求項8又は10に記載する音声認識装置。
  15. 【請求項15】 フィードバック判断部(24)の音声
    認識処理結果の再評価は、前記利得制御値導出部(2
    3)による利得制御値を前記信号利得調整部(4)に設
    定した後の認識の修正、次候補の呼び出し操作回数を用
    いるが、この操作回数が最小になる利得制御値が使用さ
    れて、行われることを特徴とする、請求項9又は11に
    記載する音声認識装置。
  16. 【請求項16】 フィードバック判断部(24)は、1
    単語前の音声区間を用いて得られた利得制御値を各単語
    の終端検出後に設定することを特徴とする、請求項1に
    記載の音声認識装置。
  17. 【請求項17】 フィードバック判断部(24)は、複
    数の単語前からの音声区間を用いて得られた利得制御値
    を複数の単語の終端検出後に設定することを特徴とす
    る、請求項1に記載の音声認識装置。
  18. 【請求項18】 前記利得制御値を前記信号利得調整部
    (4)に設定し、デジタル信号への変換後で音声認識処
    理前にデジタル信号に定数又は前記利得制御値の逆数又
    は前記利得制御値と逆比例関係になる係数を乗算するこ
    とを特徴とする、請求項10又は11に記載の音声認識
    装置。
  19. 【請求項19】 前記利得制御値導出部(23)の利得
    制御値は、音声区間のデータの最大値を基に求められる
    ことを特徴とする、請求項1に記載の音声認識装置。
  20. 【請求項20】 前記利得制御値導出部(23)の利得
    制御値は、音声区間のデータの最大値を基に求められる
    ことを特徴とする、請求項1に記載の音声認識装置。
  21. 【請求項21】 前記利得制御値導出部(23)の利得
    制御値は、音声区間のデータの平均値を基に求められる
    ことを特徴とする、請求項1に記載の音声認識装置。
  22. 【請求項22】 前記利得制御値導出部(23)の利得
    制御値は、音声区間のデータの絶対値を基に求められる
    ことを特徴とする、請求項1に記載の音声認識装置。
  23. 【請求項23】 前記利得制御値導出部(23)の利得
    制御値は、音声区間のデータの完全積分値を基に必要に
    応じて値をリセットし、求められることを特徴とする、
    請求項1に記載の音声認識装置。
  24. 【請求項24】 前記値はある値以上にならないように
    クリップされることを特徴とする、請求項23に記載の
    音声認識装置。
  25. 【請求項25】 前記利得制御値導出部(23)の利得
    制御値は、音声区間のデータのリーキー積分値を基に求
    められることを特徴とする、請求項1に記載の音声認識
    装置。
  26. 【請求項26】 前記利得制御値導出部(23)の利得
    制御値は、音声区間のデータのピークホールド値を基に
    求められることを特徴とする、請求項1に記載の音声認
    識装置。
  27. 【請求項27】 前記利得制御値導出部(23)の利得
    制御値は、音声区間のデータのピークホールド時のアタ
    ック時間及びリリース時間を基に求められることを特徴
    とする、請求項1に記載の音声認識装置。
  28. 【請求項28】 前記利得制御値導出部(23)の利得
    制御値は、認識候補の上位の距離の平均値が最小になる
    ように、音声区間のデータのピークホールド時のアタッ
    ク時間及びリリース時間を変化させて、求められること
    を特徴とする、請求項1に記載の音声認識装置。
  29. 【請求項29】 前記利得制御値導出部(23)の利得
    制御値は導出時点で入力信号に対して使用されている利
    得制御値の逆数倍により補正復元したデータに基づき決
    定されることを特徴とする請求項1に記載の音声認識装
    置。
  30. 【請求項30】 前記音声区間処理部(22)の音声区
    間は該区間検出処理時点で入力信号に対して使用されて
    いる利得制御値の逆数倍により補正復元した入力データ
    に基づき行なうと共に復元前又は前記逆数倍とは異なる
    係数を乗じたデータにより音声認識処理を行ない結果を
    導出することを特徴とする音声処理装置。
JP08424195A 1995-04-10 1995-04-10 音声処理装置 Expired - Fee Related JP3594356B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08424195A JP3594356B2 (ja) 1995-04-10 1995-04-10 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08424195A JP3594356B2 (ja) 1995-04-10 1995-04-10 音声処理装置

Publications (2)

Publication Number Publication Date
JPH08278797A true JPH08278797A (ja) 1996-10-22
JP3594356B2 JP3594356B2 (ja) 2004-11-24

Family

ID=13824977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08424195A Expired - Fee Related JP3594356B2 (ja) 1995-04-10 1995-04-10 音声処理装置

Country Status (1)

Country Link
JP (1) JP3594356B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11153999A (ja) * 1997-11-19 1999-06-08 Fujitsu Ltd 音声認識装置及びそれを用いた情報処理装置
JP2004361604A (ja) * 2003-06-04 2004-12-24 Alpine Electronics Inc 音声入力装置および音声認識処理システム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210122348A (ko) 2020-03-30 2021-10-12 삼성전자주식회사 음성 인식을 위한 디지털 마이크로폰 인터페이스 회로 및 이를 포함하는 전자 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11153999A (ja) * 1997-11-19 1999-06-08 Fujitsu Ltd 音声認識装置及びそれを用いた情報処理装置
JP2004361604A (ja) * 2003-06-04 2004-12-24 Alpine Electronics Inc 音声入力装置および音声認識処理システム
JP4531350B2 (ja) * 2003-06-04 2010-08-25 アルパイン株式会社 音声入力装置および音声認識処理システム

Also Published As

Publication number Publication date
JP3594356B2 (ja) 2004-11-24

Similar Documents

Publication Publication Date Title
US8045739B2 (en) Method and apparatus for controlling band split compressors in a hearing aid
US6360199B1 (en) Speech coding rate selector and speech coding apparatus
EP1403855A1 (en) Noise suppressor
EP1835678A1 (en) Peak suppression method, and corresponding apparatus
JP2000347688A (ja) 雑音抑圧装置
US20030216908A1 (en) Automatic gain control
JP2001134287A (ja) 雑音抑圧装置
CN104699447B (zh) 一种基于能量统计的语音音量自动调整方法
US6298139B1 (en) Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
CN1867965A (zh) 使用自适应噪声基底跟踪的语音活动检测
AU721270B2 (en) Noise reduction apparatus and noise reduction method
JP5446874B2 (ja) 音声検出システム、音声検出方法および音声検出プログラム
US20040184443A1 (en) Low-complexity packet loss concealment method for voice-over-IP speech transmission
JP2000330597A (ja) 雑音抑圧装置
JPH07104788A (ja) 音声強調処理装置
JPH10171497A (ja) 背景雑音除去装置
JPH08278797A (ja) 音声処理装置
JPH10200351A (ja) デジタルオーディオプロセッサ
JP4548953B2 (ja) 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム
JP2002140100A (ja) 騒音抑圧装置
CN111243631B (zh) 一种自动增益控制方法及电子设备
US6594368B2 (en) DVE system with dynamic range processing
JP2001166783A (ja) 音声区間検出方法
JP2001228893A (ja) 音声認識装置
KR100273395B1 (ko) 음성인식시스템의음성구간검출방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040803

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040831

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100910

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110910

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees