JP2013153307A - 音声処理装置および方法、並びにプログラム - Google Patents
音声処理装置および方法、並びにプログラム Download PDFInfo
- Publication number
- JP2013153307A JP2013153307A JP2012012864A JP2012012864A JP2013153307A JP 2013153307 A JP2013153307 A JP 2013153307A JP 2012012864 A JP2012012864 A JP 2012012864A JP 2012012864 A JP2012012864 A JP 2012012864A JP 2013153307 A JP2013153307 A JP 2013153307A
- Authority
- JP
- Japan
- Prior art keywords
- sound pressure
- pressure estimation
- estimation candidate
- candidate point
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Abstract
【課題】より簡単に適切なレベルの音声を得ることができるようにする。
【解決手段】特徴量計算部は、入力音声信号から、入力音声信号の突発性雑音らしさを示す突発性雑音情報を含むいくつかの特徴量を抽出する。音圧推定候補点更新部は、音圧推定に用いる入力音声信号のフレームを音圧推定候補点として保持するとともに、特徴量に基づいて音圧推定候補点を更新する。このとき、突発性雑音情報により突発性雑音であるとされたフレームは音圧推定候補点から除外される。音圧推定部は、各音圧推定候補点の特徴量から入力音声信号の音圧を推定し、ゲイン算出部は音圧推定により得られた推定音圧からゲインを算出する。ゲイン適用部は算出されたゲインに基づいて入力音声信号のゲイン調整を行なう。本技術は、録音レベル自動設定装置に適用することができる。
【選択図】図4
【解決手段】特徴量計算部は、入力音声信号から、入力音声信号の突発性雑音らしさを示す突発性雑音情報を含むいくつかの特徴量を抽出する。音圧推定候補点更新部は、音圧推定に用いる入力音声信号のフレームを音圧推定候補点として保持するとともに、特徴量に基づいて音圧推定候補点を更新する。このとき、突発性雑音情報により突発性雑音であるとされたフレームは音圧推定候補点から除外される。音圧推定部は、各音圧推定候補点の特徴量から入力音声信号の音圧を推定し、ゲイン算出部は音圧推定により得られた推定音圧からゲインを算出する。ゲイン適用部は算出されたゲインに基づいて入力音声信号のゲイン調整を行なう。本技術は、録音レベル自動設定装置に適用することができる。
【選択図】図4
Description
本技術は音声処理装置および方法、並びにプログラムに関し、特に、より簡単に適切なレベルの音声を得ることができるようにした音声処理装置および方法、並びにプログラムに関する。
IC(Integrated Circuit)レコーダなどの録音装置を用いて会話や楽器演奏などを録音する場合においては、収音された音声の入力音声信号が適切な大きさのレベルで記録されるように、録音感度を正しく設定することが重要である。
例えば、比較的大きな会議室において行われる会議の会話を録音するような場合には、録音装置の録音感度を低く設定しておくと、遠くの話者の会話がほとんど聴き取れないような小さいレベルで音声が記録されてしまうことがある。
また、一方で口元にマイクロホンを近づけ、自らの口述をメモとして残しておくような場合において、録音装置の録音感度を高く設定してしまうと、記録できる上限を超えたレベルの信号が入力されることになる。そうすると、記録された音声に音割れが生じ、このような音割れは耳障りなノイズとなってしまう。
このように、不適切なレベルで音声が録音されてしまうことを回避するため、一般的に録音装置では、録音感度の設定が3段階程度におおまかに分けられ、かつ信号レベルを自動的に一定に保つ信号処理技術が用いられている。このような信号処理技術は、ALC(Auto Level Control)やAGC(Auto Gain Control)と呼ばれている。
例えば、図1に示すように、録音装置では録音感度が高,中,低の3段階に分けられ、それぞれの録音感度に対する増幅器(アンプリファイア)の増幅率として+30dB,+15dB,0dBが割り当てられている。
また、一般的な録音装置の入力系は、例えば図2に示すように、主制御装置11、増幅器12、ADC(Analog to Digital Converter)13、およびALC処理部14が設けられている。
このような録音装置に対してユーザが録音装置の録音感度の設定を指示すると、増幅器12における増幅率として、ユーザにより指定された録音感度により定まる増幅率が主制御装置11により設定される。
すると、収音された信号は、増幅器12において設定された増幅率で増幅され、ADC13でデジタル化された後、ALC処理部14により信号レベルが制御される。そして、信号レベルが制御された信号は、出力音声信号としてALC処理部14から出力され、符号化された後、記録される。
例えば、ALC処理部14には、図3の折れ線IC11に示す信号が入力され、この信号の信号レベルの制御が行なわれる。そして、その結果得られた折れ線OC11に示す信号が、最終的な出力音声信号としてALC処理部14から出力される。なお、図3において、横軸は時間を示しており、縦軸は信号レベルを示している。また、図3において点線は、信号のレベルとして取り得る値の最大値である最大入力レベルを示している。
折れ線IC11で示される信号は、録音装置のマイクロホンに入力され、増幅器12で増幅された後、ADC13でデジタル化された信号である。記録される信号のうち、点線で示される最大入力レベルよりも大きいレベルの部分は、クリップされた状態で記録されるので、そのような信号の区間では再生時には音割れノイズが発生する。
そこで、録音装置では、入力された折れ線IC11で示される信号に対してゲイン調整が行なわれ、その結果得られた折れ線OC11で示される信号が出力信号として出力される。この折れ線OC11で示される信号のレベルは、各時刻において最大入力レベルよりも小さくなっており、出力音声信号が適切なレベルの信号となるようにゲイン調整が行なわれたことが分かる。
ゲイン調整時には、ALC処理部14によりリアルタイムで信号レベルが測定され、信号レベルが最大入力レベルに近づいた場合には、信号のレベルが最大入力レベルを超えないようにゲインが下げられる。そして、信号のレベルが最大入力レベルを超えない場合には、ゲインが1.0まで戻されていく。
以上のように、音割れの発生や、録音された音が聞き取れないような小さな音となってしまうことを回避するため、録音感度の設定やALC処理部14でのゲイン調整が行なわれている。しかし、それでも録音感度が適切に設定されなかったり、ALC(ゲイン調整)により得られた音が、外部雑音の影響などで不安定な音となったりして、記録される音声が再生時に聞き取りにくくなってしまうことがある。
これに対して、外部雑音の影響を極力減らし、音声を適切なレベルで録音するための自動利得調整装置に関する技術が提案されている(例えば、特許文献1参照)。
この技術では、音声区間を正しく判別するために、時間フレームにおいて自己相関とパワースペクトルの傾きが計算され、それらの自己相関とパワースペクトルの傾きのうちの何れかが閾値よりも小さい場合に、その時間フレームが非定常とみなされる。このように非定常である、つまり音声区間ではないとされた時間フレームを、入力信号のレベルの計算から除外することで、音声が最適なレベルに制御されるようになる。
しかしながら上述した技術では、電話機のように音源とマイクロホンが近接している場合には、音声と雑音の判別が容易であるが、広い部屋に録音装置を置き、比較的遠方の話者が会話するような場合には、入力音声信号のSN比(Signal to Noise ratio)が悪く、音声区間を精度よく検出することができない。そのため、記録する音声信号として、適切なレベルの音声信号が得られないことがあった。
また、自己相関等を各時間フレームについて常に計算し、音声と非定常雑音の判別を行うことは、電池で駆動するような小型の録音機器においては電池の消耗をはやめることにもつながる。
本技術は、このような状況に鑑みてなされたものであり、より簡単に適切なレベルの音声を得ることができるようにするものである。
本技術の一側面の音声処理装置は、入力音声信号の注目フレームから特徴量を抽出する特徴量計算部と、前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量を保持するとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点を更新する音圧推定候補点更新部と、前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧を算出する音圧推定部と、前記推定音圧に基づいて前記入力音声信号に対して適用するゲインを算出するゲイン算出部と、前記ゲインに基づいて前記入力音声信号のゲイン調整を行なうゲイン適用部とを備える。
前記特徴量計算部には、前記特徴量として、少なくとも前記注目フレームにおける前記入力音声信号の振幅のピーク値を算出させ、前記音圧推定候補点更新部には、前記音圧推定候補点の前記特徴量としての前記ピーク値の最小値よりも、前記注目フレームの前記ピーク値が大きい場合、前記最小値となる前記音圧推定候補点を破棄させ、前記注目フレームを新たな前記音圧推定候補点とさせることができる。
前記特徴量計算部には、前記特徴量として、少なくとも前記注目フレームの突発性雑音らしさを示す突発性雑音情報を算出させ、前記音圧推定候補点更新部には、前記突発性雑音情報に基づいて前記注目フレームが突発性雑音の含まれる区間であるとされた場合、前記注目フレームを前記音圧推定候補点としないようにさせることができる。
前記音圧推定候補点更新部には、隣接する前記音圧推定候補点間のフレーム間隔のうちの最も短い前記フレーム間隔が所定の閾値より小さい場合、前記フレーム間隔が最も短くなる隣接する前記音圧推定候補点のうち、前記ピーク値が小さい前記音圧推定候補点を破棄させ、前記注目フレームを新たな前記音圧推定候補点とさせることができる。
前記所定の閾値は、時間の経過とともに大きくなるように定めることができる。
前記特徴量計算部には、前記特徴量として、少なくとも前記音圧推定候補点から前記注目フレームまでの経過フレーム数を算出させ、前記音圧推定候補点更新部には、前記音圧推定候補点の前記経過フレーム数の最大値が所定フレーム数より大きい場合、前記最大値をとる前記音圧推定候補点を破棄させ、前記注目フレームを新たな前記音圧推定候補点とさせることができる。
前記音声処理装置には、増幅部によりゲイン調整され、アナログ信号からデジタル信号に変換して得られた前記入力音声信号が入力されるようにし、前記ゲイン算出部には、算出した前記ゲインに基づいて、前記ゲイン適用部におけるゲイン調整に用いるゲインと、前記増幅部におけるゲイン調整に用いるゲインとを算出させることができる。
本技術の一側面の音声処理方法またはプログラムは、入力音声信号の注目フレームから特徴量を抽出し、前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量を保持するとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点を更新し、前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧を算出し、前記推定音圧に基づいて前記入力音声信号に対して適用するゲインを算出し、前記ゲインに基づいて前記入力音声信号のゲイン調整を行なうステップを含む。
本技術の一側面においては、入力音声信号の注目フレームから特徴量が抽出され、前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量が保持されるとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点が更新され、前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧が算出され、前記推定音圧に基づいて前記入力音声信号に対して適用するゲインが算出され、前記ゲインに基づいて前記入力音声信号のゲイン調整が行なわれる。
本技術の一側面によれば、より簡単に適切なレベルの音声を得ることができる。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
[音声処理システムの構成例]
次に、本技術を適用した具体的な実施の形態について説明する。
[音声処理システムの構成例]
次に、本技術を適用した具体的な実施の形態について説明する。
図4は、本技術を適用した音声処理システムの一実施の形態の構成例を示す図である。
この音声処理システムは、例えばICレコーダなどの録音装置に設けられており、増幅器41、ADC42、録音レベル自動設定装置43、および主制御装置44から構成される。
増幅器41には、例えばマイクロホンなどの収音部により収音された音声の信号(以下、入力音声信号と称する)が入力される。増幅器41は、主制御装置44から指定された録音感度、すなわち増幅率で、入力された入力音声信号を増幅させ、ADC42に供給する。
ADC42は、増幅器41から供給された入力音声信号を、アナログ信号からデジタル信号に変換し、録音レベル自動設定装置43に供給する。なお、増幅器41とADC42は、1つのモジュールとされていてもよい。すなわち、1つのモジュールが増幅器41とADC42の機能を備えていてもよい。
録音レベル自動設定装置43は、ADC42から供給された入力音声信号に対するゲイン調整を行なって出力音声信号を生成し、出力する。録音レベル自動設定装置43は、特徴量計算部51、音圧推定候補点更新部52、音圧推定部53、ゲイン算出部54、およびゲイン適用部55を備えている。
特徴量計算部51は、ADC42から供給された入力音声信号から、1以上の特徴量を抽出し、音圧推定候補点更新部52に供給する。音圧推定候補点更新部52は、特徴量計算部51から供給された特徴量と、複数個の音圧推定候補点における特徴量とに基づいて、入力音声信号の音圧の推定に用いる音圧推定候補点を更新し、音圧推定候補点に関する情報を音圧推定部53に供給する。
音圧推定部53は、音圧推定候補点更新部52から供給された音圧推定候補点に関する情報に基づいて、入力音声信号の音圧を推定し、その結果得られた推定音圧をゲイン算出部54に供給する。
ゲイン算出部54は、音圧推定部53から供給された推定音圧と、入力音声信号の目標となる音圧(以下、目標音圧と称する)とを比較して、入力音声信号を増幅すべき量を示すターゲットゲインを算出する。また、ゲイン算出部54は、算出したターゲットゲインを増幅器41における増幅率と、ゲイン適用部55で適用されるゲイン(以下、適用ゲインとも称する)とに分割し、増幅率および適用ゲインを主制御装置44およびゲイン適用部55に供給する。
ゲイン適用部55は、ADC42から供給された入力音声信号に対して、ゲイン算出部54から供給されたゲインを適用することで入力音声信号のゲイン調整を行い、その結果得られた出力音声信号を出力する。ゲイン適用部55から出力された出力音声信号は、適宜、符号化されて記録媒体に記録されたり、ネットワーク等の通信網を介して他の装置に伝送されたりする。
また、主制御装置44は、ゲイン算出部54から供給された増幅率を増幅器41に供給し、供給した増幅率で入力音声信号を増幅させる。
[ゲイン調整処理の説明]
ところで、音声処理システムに対して音声の録音が指示されると、音声処理システムは収音されて増幅器41に入力されてくる入力音声信号が適切なレベルの信号となるように入力音声信号のゲインを調整し、出力音声信号とする。
ところで、音声処理システムに対して音声の録音が指示されると、音声処理システムは収音されて増幅器41に入力されてくる入力音声信号が適切なレベルの信号となるように入力音声信号のゲインを調整し、出力音声信号とする。
このとき、増幅器41は、供給された入力音声信号を、主制御装置44を介してゲイン算出部54から供給された増幅率で増幅させ、ADC42に供給する。また、ADC42は、増幅器41から供給された入力音声信号をデジタル化して、録音レベル自動設定装置43の特徴量計算部51およびゲイン適用部55に供給する。
さらに、録音レベル自動設定装置43は、ゲイン調整処理を行なって、ADC42から供給された入力音声信号を出力音声信号に変換し、出力する。
以下、図5のフローチャートを参照して、録音レベル自動設定装置43によるゲイン調整処理について説明する。なお、このゲイン調整処理は、入力音声信号のフレームごとに行なわれる。
ステップS11において、特徴量計算部51は、ADC42から供給された入力音声信号に基づいて、入力音声信号の処理対象となっている時間フレーム(以下、現フレームとも称する)における振幅のピーク値Pk(n)を算出する。
例えば、現フレームが入力音声信号のn番目のフレーム(但し、n≧0)であり、各フレームがL個のサンプルからなるとすると、特徴量計算部51は、次式(1)を計算することによりピーク値Pk(n)を算出する。
なお、式(1)において、sig(L×n+i)は、入力音声信号を構成するサンプルのうち、0番目のフレームの最初のサンプルから数えて、(L×n+i)個目にあるサンプルのサンプル値(入力音声信号の値)である。したがって、入力音声信号の現フレームを構成するサンプルのサンプル値の絶対値の最大値が、ピーク値Pk(n)として求められる。
ステップS12において、特徴量計算部51は、ADC42から供給された入力音声信号に基づいて、現フレームにおいて振幅が最大となるサンプル近傍の各サンプルのサンプル値の二乗平均平方根rms(n)を算出する。
例えば、特徴量計算部51は、現フレーム(フレームn)におけるピーク値Pk(n)をとるサンプル、つまり振幅が最大となるサンプルをサンプルi_max(n)として、次式(2)を計算することで、二乗平均平方根rms(n)を算出する。
式(2)において、i_max(n)は、サンプルi_max(n)の位置、つまりサンプルi_max(n)が何番目のサンプルであるかを示している。したがって二乗平均平方根rms(n)は、サンプルi_max(n)、サンプルi_max(n)の過去側にあるL1個のサンプル、およびサンプルi_max(n)の未来側にあるL2−1個のサンプルからなる合計2L個のサンプルからなる区間内の各サンプルのサンプル値の二乗平均平方根である。
なお、式(2)では、二乗平均平方根rms(n)の算出対象とされる入力音声信号の範囲が、サンプルi_max(n)の位置により定められているが、算出対象とされる入力音声信号の範囲がサンプルi_max(n)の位置に依存しないようにしてもよい。
そのような場合、特徴量計算部51は次式(3)を計算することで、二乗平均平方根rms(n)を算出する。
式(3)の計算では、現フレームを構成する各サンプルのサンプル値の二乗平均平方根が、二乗平均平方根rms(n)として算出される。このように、サンプルi_max(n)の位置に依存しない入力音声信号の範囲のサンプルを用いた二乗平均平方根rms(n)の算出方法は、特に入力音声信号のバッファの量に制限がある場合などに有効である。
ステップS13において、特徴量計算部51は、音圧推定候補点更新部52に保持されている現時点における各音圧推定候補点について、それらの音圧推定候補点とされたフレームから、現フレームまでのフレーム数を経過フレーム数として算出する。このとき、特徴量計算部51は、必要に応じて音圧推定候補点更新部52に保持されている音圧推定候補点に関する情報を参照し、経過フレーム数を求める。
ステップS14において、特徴量計算部51は、ADC42から供給された入力音声信号に基づいて、現フレームの突発性雑音らしさを示す突発性雑音情報Atk(n)を算出する。ここで、突発性雑音とは、例えばキーボードの打鍵音や物体が床に落ちたときに発せられた音など、本来収音したい音声とは異なる、突発的に発生した雑音をいう。
例えば、特徴量計算部51は次式(4)を計算することにより、突発性雑音情報Atk(n)を算出する。
すなわち、式(4)の計算では、まず現フレームであるフレームn、フレームnからみた過去N1フレーム、およびフレームnからみた未来N2フレームからなる、合計(N1+N2+1)フレームの区間が処理対象区間とされる。そして、処理対象区間内の各フレームのピーク値Pk(m)のうちの最大値と最小値の比、つまりピーク値Pk(m)の最大値をピーク値Pk(m)の最小値で除算して得られる値が、突発性雑音情報Atk(n)とされる。
なお、突発性雑音情報Atk(n)は、入力音声信号の急峻な変化を検出できる情報であれば、式(4)に示した例に限らず、どのようなものであってもよい。例えば、特徴量計算部51が次式(5)を計算することで突発性雑音情報Atk(n)を算出するようにしてもよい。
式(5)では、フレームn、フレームnの過去N1フレーム、およびフレームnの未来N2フレームからなる合計(N1+N2+1)フレームの処理対象区間について、処理対象区間内の連続する2つのフレームのピーク値Pk(m)の比が求められる。すなわち、フレーム(m+1)について求められたピーク値Pk(m+1)が、フレームmについて求められたピーク値Pk(m)で除算される。そして、処理対象区間内の連続する2フレームの各組について求めたピーク値Pk(m)の比のうちの最大値が突発性雑音情報Atk(n)とされる。
また、突発性雑音情報Atk(n)を求めるときに用いられるピーク値Pk(m)は、入力音声信号をローカットフィルタによりフィルタ処理することで、入力音声信号の直流成分付近の変動を減らしてから求められるようにしてもよい。
以上のようにして、ピーク値Pk(n)、二乗平均平方根rms(n)、経過フレーム数、および突発性雑音情報Atk(n)が求まると、特徴量計算部51は、これらの4つの値を現フレームの入力音声信号から抽出した特徴量のセットとし、音圧推定候補点更新部52に供給する。
ステップS15において、音圧推定候補点更新部52は、音圧推定候補点更新処理を行なって音圧推定候補点を更新し、更新後の各音圧推定候補点の二乗平均平方根rms(n)を音圧推定部53に供給する。
なお、音圧推定候補点更新処理の詳細は後述するが、この音圧推定候補点更新処理では、現フレームの特徴量と、音圧推定候補点更新部52に保持されているP個の音圧推定候補点における特徴量とに基づいて、音圧推定候補点の更新が行なわれる。
具体的には、現時点におけるP個の音圧推定候補点のなかに音圧推定候補点として適切ではなくなった候補点がある場合、その音圧推定候補点が除外され、現フレームが新たな音圧推定候補点とされる。したがって、音圧推定候補点更新部52には、常にP個の音圧推定候補点と、それらの音圧推定候補点の特徴量とが保持されていることになる。
なお、以下、音圧推定候補点とされているフレームを、適宜、フレームnp(但し、1≦p≦P)とも称することとする。
ステップS16において、音圧推定部53は、音圧推定候補点更新部52から供給されたP個の各音圧推定候補点の二乗平均平方根rms(np)に基づいて、入力音声信号の推定音圧を算出し、ゲイン算出部54に供給する。
例えば、音圧推定部53は次式(6)を計算することで推定音圧est_rms(n)を算出する。
すなわち式(6)では、音圧推定候補点とされたフレームn1乃至フレームnPについて求められたP個の二乗平均平方根rms(np)の二乗平均平方根を求めることにより、推定音圧est_rms(n)が算出される。
なお、推定音圧est_rms(n)は、式(6)の計算に限らず、各音圧推定候補点の特徴量を用いて算出されれば、どのように算出されてもよい。例えば、音圧推定部53が次式(7)を計算することで推定音圧est_rms(n)を算出するようにしてもよい。
式(7)では、P個の二乗平均平方根rms(np)に、音圧推定候補点ごとに異なる重みw(np)を付けて重み付け平均を求めることで、推定音圧est_rms(n)が算出される。
なお、式(7)において、重みw(np)は、フレームnpから現フレームまでの経過フレーム数に応じて減少する関数であり、W_allは次式(8)により求まる値である。すなわち、W_allは、各フレームnpの重みw(np)の総和である。
ステップS17において、ゲイン算出部54は、音圧推定部53から供給された推定音圧est_rms(n)と、予め定められた目標音圧とを比較して現フレームのターゲットゲインを算出する。
例えば、ゲイン算出部54は次式(9)を計算し、目標音圧tgt_rmsと推定音圧est_rms(n)との差を求めることにより、ターゲットゲインtgt_gain(n)を算出する。
ステップS18において、ゲイン算出部54はターゲットゲインtgt_gain(n)を増幅器41における増幅率と、ゲイン適用部55で適用される適用ゲインとに分割する。
例えば、増幅器41において、図1に示したように、高,中,低の3段階で増幅率が制御できるものとする。すなわち、0dBから+30dBまで15dB単位で増幅器41の増幅率を増減できるものとする。
いま、増幅器41において設定されている増幅率が0dBであり、ターゲットゲインtgt_gain(n)が18dBであったとする。そのような場合、ゲイン算出部54はターゲットゲインtgt_gain(n)である18dBを、増幅器41での増幅率としての+15dBと、適用ゲインとしての3dBとに分割する。
ここで、増幅率が+15dBとされるのは、増幅器41における増幅率を設定可能な範囲内で増減させようとするときに、増減分の増幅率として取り得る値のうち、ターゲットゲインである18dBを超えない値の最大のものが+15dBであるからである。そこで、ゲイン算出部54は、ターゲットゲインのうちの15dBを増幅器41での増幅率に割り当て、残りの3dBをゲイン適用部55での適用ゲインに割り当てる。
ゲイン算出部54は、このようにしてターゲットゲインを増幅率と適用ゲインに分割すると、増幅率を主制御装置44に供給するとともに、適用ゲインをゲイン適用部55に供給する。
主制御装置44は、ゲイン算出部54から供給された増幅率を増幅器41に供給して、増幅器41での増幅率を変更させる。このとき、主制御装置44は、増幅器41での増幅率の変更と、ゲイン適用部55での入力音声信号へのゲインの適用との同期がとれるように、増幅率の変更の制御を行なう。このようにして増幅器41の増幅率が変更されると、増幅器41は、変更後の増幅率で、供給された入力音声信号を増幅させる。つまり、変更されたゲイン(増幅率)で入力音声信号に対するゲイン調整(増幅)が行なわれる。
なお、ゲインが急激に変化しないようにアタックタイムおよびリリースタイムの時定数を用いて実際のターゲットゲインを算出するようにしてもよい。アタックタイムとリリースタイムの時定数を用いてゲインを算出する処理は、ALC(Automatic Level Control)技術において一般的に用いられている。
ステップS19において、ゲイン適用部55は、ADC42から供給された入力音声信号に対して、ゲイン算出部54から供給された適用ゲインを適用することで入力音声信号のゲイン調整を行い、その結果得られた出力音声信号を出力する。
ここで、ゲイン適用部55に供給された入力音声信号がsig(L×n+i)であり、ゲイン算出部54からゲイン適用部55に供給された適用ゲインがsig_gain(n,i)であるとすると、ゲイン適用部55は、次式(10)を計算することにより出力音声信号を生成する。
すなわち、ゲイン適用部55は、入力音声信号sig(L×n+i)に適用ゲインsig_gain(n,i)を乗算することで、出力音声信号out_sig(L×n+i)とする。より詳細には、入力音声信号の(L×n+i)個目のサンプルのサンプル値sig(L×n+i)に、入力音声信号の(L×n+i)個目のサンプル用の適用ゲインsig_gain(n,i)が乗算され、出力音声信号の(L×n+i)個目のサンプルのサンプル値out_sig(L×n+i)とされる。
なお、入力音声信号に対して単純にゲインを適用する場合、出力音声信号out_sig(i)が0dBFSで飽和してクリップされてしまうことがある。そこで、このようなクリップを防止するための処理がゲイン適用時に行なわれるようにしてもよい。例えば、クリップを防止する処理としては、ALCやコンプレッサ等で一般的に行なわれている処理を利用すればよい。
入力音声信号に対するゲイン調整が行なわれて出力音声信号が生成されると、生成された出力音声信号はゲイン適用部55から出力され、ゲイン調整処理は終了する。
以上のようにして、録音レベル自動設定装置43は、供給された入力音声信号から特徴量を算出して音圧推定候補点を更新し、各音圧推定候補点の特徴量から推定音圧を算出する。そして、録音レベル自動設定装置43は、推定音圧からターゲットゲインを求め、ターゲットゲインに基づいて入力音声信号のゲインを調整し、出力音声信号とする。
このように、特徴量に基づいて、音圧の推定に用いるのに適切な音圧推定候補点を選択し、推定音圧を求めることで、より簡単な処理で、より高精度にターゲットゲインを求めることができる。これにより、適切なレベルの出力音声信号を得ることができる。
録音レベル自動設定装置43では、簡単な処理で、適用ゲインだけでなく増幅器41における適切な増幅率も算出されるため、本技術によれば、小型の録音機器でも充分実現可能な方法で、録音感度の設定を自動化することができる。つまり、ユーザからすれば、録音ボタンを押すだけで、適切なレベルの音声が録音されることになる。
[音圧推定候補点更新処理の説明]
次に、図6のフローチャートを参照して、図5のステップS15の処理に対応する音圧推定候補点更新処理について説明する。
次に、図6のフローチャートを参照して、図5のステップS15の処理に対応する音圧推定候補点更新処理について説明する。
この音圧推定候補点更新処理が開始される時点では、特徴量計算部51から音圧推定候補点更新部52には、現フレームの特徴量のセットとして、ピーク値Pk(n)、二乗平均平方根rms(n)、経過フレーム数、および突発性雑音情報Atk(n)が供給されている。
また、音圧推定候補点更新部52には、過去に特徴量計算部51から供給された、P個の各音圧推定候補点の特徴量のセットも保持されている。さらに、録音動作開始時には、P個の音圧推定候補点と、それらの音圧推定候補点の特徴量として、適切な初期値が設定されているものとする。
ステップS41において、音圧推定候補点更新部52は、特徴量計算部51から供給された現フレームの特徴量としての経過フレーム数に基づいて、予め定められた最大保持時間を超えて保持されている音圧推定候補点があるか否かを判定する。
例えば、音圧推定候補点更新部52は、現時点で音圧推定候補点とされているP個の各フレームnp(但し、1≦p≦P)の経過フレーム数のうちの最大値、つまり次式(11)を満たす経過フレーム数を特定する。
なお、式(11)において、npはフレームnpの経過フレーム数を示しており、P個の経過フレーム数npのうちの最大のものが、最大経過フレーム数n_maxとされる。
音圧推定候補点更新部52は、得られた最大経過フレーム数n_maxが、予め定められた閾値th_maxより大きいか否かを判定し、最大経過フレーム数n_maxが閾値th_maxより大きい場合、最大保持時間を超えて保持されている音圧推定候補点があるとする。ここで、閾値th_maxは、最大保持時間を示す値(フレーム数)である。
ステップS41において、最大保持時間を超えて保持されている音圧推定候補点があると判定された場合、音圧推定候補点更新部52は、最大経過フレーム数n_maxとされたフレームnpを破棄対象のフレームとして選択し、処理はステップS42に進む。
現フレームにおける推定音圧を算出するために、現フレームからあまりに遠く離れた過去フレームが音圧推定候補点として用いられると、正しい推定音圧が得られなくなることもあり得る。そこで、最大保持時間を超えて保持されている音圧推定候補点がある場合には、音圧推定候補点のうちの最も長く保持されているものが破棄対象のフレームとされる。つまり、音圧推定候補点として不適切なフレームとされる。
ステップS42において、音圧推定候補点更新部52は、破棄対象のフレームとして選択したフレームと、そのフレームの特徴量とを破棄し、現フレームを新たな音圧推定候補点とする。
つまり、音圧推定候補点更新部52は、破棄対象のフレームを音圧推定候補点から除外し、現フレームを特定する情報と、現フレームの特徴量とを、新たな音圧推定候補点と、その音圧推定候補点の特徴量のセットとして保持する。
ステップS42の処理が行なわれると、その後、処理はステップS49へと進む。
また、ステップS41において、最大保持時間を超えて保持されている音圧推定候補点がないと判定された場合、すなわち最大経過フレーム数n_maxが閾値th_max以下である場合、処理はステップS43へと進む。
ステップS43において、音圧推定候補点更新部52は、現フレームが突発性雑音の区間であるか否かを判定する。
例えば、音圧推定候補点更新部52は、特徴量計算部51から現フレームの特徴量として供給された突発性雑音情報Atk(n)が、予め定められた閾値th_atkより大きい場合、現フレームは突発性雑音の区間であると判定する。
ステップS43において現フレームが突発性雑音の区間であると判定された場合、音圧推定候補点の更新は行なわれず、処理はステップS49に進む。
例えば、音圧推定候補点として、突発性雑音が含まれるフレームが選択された場合、そのフレームを用いて推定音圧を求めると、推定音圧として、本来収音したい音声の音圧を正しく得ることができなくなってしまうことがある。そこで、音圧推定候補点更新部52は、現フレームが突発性雑音の含まれるフレームである場合には、そのフレームは推定音圧の算出に用いるのに不適切なフレームであるとして、音圧推定候補点から除外する。
これに対して、ステップS43において現フレームが突発性雑音の区間でないと判定された場合、つまり突発性雑音情報Atk(n)が閾値th_atk以下である場合、処理はステップS44に進む。
なお、現フレームが突発性雑音の区間であるか否かの判定では、突発性雑音情報Atk(n)と閾値th_atkを単に比較するのではなく、P個の音圧推定候補点の特徴量が加味されて判定が行なわれるようにしてもよい。
例えば、P個の音圧推定候補点の二乗平均平方根rms(np)の平均値が低いときには、閾値th_atkが低くなるように設定され、逆に二乗平均平方根rms(np)の平均値が高いときには、閾値th_atkが高くなるように設定されるようにしてもよい。このようにすることで、入力音声信号の過去のフレームの音圧に応じて、適切な感度で突発性雑音を検出することができる。つまり、突発性雑音検出の感度を適切に変更することができる。
ステップS44において、音圧推定候補点更新部52は、特徴量計算部51から特徴量として供給された経過フレーム数npに基づいて、時間方向に隣接する音圧推定候補点間の時間間隔の最小値である最小時間間隔を算出する。
具体的には、音圧推定候補点更新部52は次式(12)を計算することで、最小時間間隔ndiff_minを算出する。
すなわち式(12)では、各pについて、隣接するフレームnpの経過フレーム数npと、フレームnp-1の経過フレーム数np-1(但し2≦p≦P)との差分絶対値が求められ、それらの差分絶対値の最小値が、最小時間間隔ndiff_minとされる。
ステップS45において、音圧推定候補点更新部52は、保持している各音圧推定候補点におけるピーク値Pk(np)に基づいて次式(13)を計算し、最小ピーク値Pk_minを算出する。
式(13)では、P個の各音圧推定候補点におけるピーク値Pk(np)(但し、1≦p≦P)のうちの最小のものが、最小ピーク値Pk_minとされる。
ステップS46において、音圧推定候補点更新部52は、ステップS44で求めた最小時間間隔ndiff_minが、予め定めた閾値th_ndiff未満であるか否かを判定する。
ステップS46において最小時間間隔ndiff_minが閾値th_ndiff未満であると判定された場合、処理はステップS47へと進む。
ステップS47において、音圧推定候補点更新部52は、最小時間間隔ndiff_minを求めるのに用いた音圧推定候補点のうち、ピーク値Pk(np)が小さい方の音圧推定候補点を破棄対象のフレームとして選択する。つまり、最小時間間隔ndiff_minで並んでいる2つの音圧推定候補点のうち、よりピーク値が小さい方が破棄対象のフレームとされる。
このように、短い時間間隔で並んでいる音圧推定候補点の一方を破棄対象のフレームとし、音圧推定候補点から除外することで、音圧の高い特定の時間帯に音圧推定候補点が集中してしまうのを防ぐことができる。これにより、より適切な推定音圧を得ることができるようになる。
特に、最小時間間隔ndiff_minで並んでいる音圧推定候補点のうち、よりピーク値Pk(np)が小さい方の音圧推定候補点を破棄対象のフレームとして選択すれば、よりピーク値の大きいフレームが音圧推定に用いられることになる。これにより、録音される音声のクリップを抑制することができる。
なお、最小時間間隔ndiff_minと比較される閾値th_ndiffが、処理時間の経過とともに大きくなるようにしてもよい。そのような場合、隣接する音圧推定候補点間の時間間隔が時間とともに大きくなって、音圧推定候補点が分散されていくことになり、さらに適切な推定音圧を得ることができるようになる。
このようにして破棄対象のフレームが選択されると、その後、処理はステップS47からステップS42に進み、選択された破棄対象のフレームが破棄されて、現フレームが新たな音圧推定候補点とされる。
また、ステップS46において最小時間間隔ndiff_minが閾値th_ndiff以上であると判定された場合、ステップS48において、音圧推定候補点更新部52は、現フレームのピーク値Pk(n)が、最小ピーク値Pk_min以上であるか否かを判定する。
ステップS48において、現フレームのピーク値Pk(n)が最小ピーク値Pk_min以上であると判定された場合、音圧推定候補点更新部52は、最小ピーク値Pk_minとなった音圧推定候補点を破棄対象のフレームとして選択し、処理はステップS42に進む。
録音レベル自動設定装置43では、録音される音声がクリップされないようにするため、なるべくピーク値の大きいフレームが音圧推定候補点とされる。そのため、現フレームのピーク値Pk(n)が最小ピーク値Pk_min以上である場合には、よりピーク値の大きい現フレームを新たな音圧推定候補点とするため、最小ピーク値Pk_minとなった音圧推定候補点が破棄される。
このようにして破棄対象のフレームが選択されると、ステップS42において、選択された破棄対象のフレームが破棄され、現フレームが新たな音圧推定候補点とされる。
一方、ステップS48において、現フレームのピーク値Pk(n)が最小ピーク値Pk_min未満であると判定された場合、処理はステップS49に進む。この場合、現フレームは音圧推定候補点とはされない。
ステップS48においてピーク値Pk(n)が最小ピーク値Pk_min未満であると判定されたか、ステップS42において現フレームが新たな音圧推定候補点とされたか、またはステップS43において現フレームは突発性雑音の区間であると判定されると、ステップS49の処理が行なわれる。
すなわち、ステップS49において、音圧推定候補点更新部52は、各音圧推定候補点のフレーム番号を更新する。
例えば、音圧推定候補点更新部52は、音圧推定候補点とされた各フレームに対して、各音圧推定候補点を識別するためのフレーム番号を付与し直す。具体的には、音圧推定候補点とされた各フレームに対して、時間的に古いものから順番にフレームn1乃至フレームnPとされる。つまり、時間的に最も古い音圧推定候補点がフレームn1とされる。
このようにして、適宜、音圧推定候補点が更新されると、音圧推定候補点更新部52は、更新後の各音圧推定候補点の特徴量として保持している二乗平均平方根rms(np)を音圧推定部53に供給し、音圧推定候補点更新処理は終了する。音圧推定候補点更新処理が終了すると、その後、処理は図5のステップS16へと進む。
以上のようにして録音レベル自動設定装置43は、現フレームの特徴量と、保持しているP個の音圧推定候補点の特徴量とに基づいて音圧推定候補点を更新する。このように、適宜、音圧推定候補点を更新していくことで、より適切な推定音圧を得ることができる。
[入力音声信号のゲイン調整について]
次に図7乃至図10を参照して、以上において説明してきた入力音声信号のゲイン調整の具体的な例について、説明する。
次に図7乃至図10を参照して、以上において説明してきた入力音声信号のゲイン調整の具体的な例について、説明する。
なお、図7乃至図10において、横軸は時間フレーム、つまり入力音声信号のフレーム番号を示しており、縦軸は音声信号の絶対音圧レベル(dB SPL(Sound Pressure Level))を示している。
また、図7乃至図10において、横軸の下側にある斜線が施された長方形は、録音されるべき音声の区間、つまり雑音ではない区間を示している。
図7には、入力音声信号、音圧推定候補点、および推定音圧の関係が示されている。
すなわち、実線の折れ線IPS11は、録音レベル自動設定装置43に入力された入力音声信号の各フレームにおける絶対音圧レベルの最大値を表しており、端部に円が設けられた点線の各直線CA11−1乃至直線CA11−10は、音圧推定候補点を表している。また、点線の折れ線ETM11は各フレームにおける推定音圧を表しており、一点鎖線の直線TGT11は目標音圧を表している。
なお、直線CA11−1乃至直線CA11−10を表す円の図中、縦方向の位置には特に意味はなく、横方向の位置、つまり時間軸上の位置のみが意味を有しており、このことは以下の図8乃至図10においても同様であるものとする。つまり、音圧推定候補点を表す直線に設けられた円の縦方向の位置は、特に意味を有さないものとする。また、以下、直線CA11−1乃至直線CA11−10を特に区別する必要のない場合、単に直線CA11とも称する。
図7の例では、直線CA11で示される位置は、入力音声信号として、400フレーム分のデータが入力されたときの各音圧推定候補点の位置となっている。また、折れ線ETM11は、刻々と変化する音圧推定候補点によって、400フレームまで求められた、各フレームの推定音圧の履歴を示している。
この例では、各フレームにおいて直線TGT11で示される目標音圧と、折れ線ETM11で示される推定音圧との差がターゲットゲインとされる。そしてターゲットゲインの一部が現フレームの適用ゲインとされ、残りの一部が増幅器41における次フレームの増幅率とされる。
したがって、デジタル化される前の入力音声信号が、前のフレームで求められた増幅率で増幅され、さらに増幅後の入力音声信号がデジタル化されて、録音レベル自動設定装置43に入力される。そして、録音レベル自動設定装置43では、入力された現フレームの入力音声信号が、現フレームの適用ゲインにより増幅され、その結果得られた信号が出力音声信号として出力される。
ここで、音圧推定候補点の更新をより分かり易く示すために、折れ線IPS11で示される入力音声信号に対して1200フレームまで処理が行なわれたときの様子を図8に示す。
なお、図8において、実線の折れ線IPS12は、録音レベル自動設定装置43に入力された入力音声信号の各フレームにおける絶対音圧レベルの最大値を表しており、端部に円が設けられた点線の各直線CA12−1乃至直線CA12−10は、音圧推定候補点を表している。また、点線の折れ線ETM12は各フレームにおける推定音圧を表しており、一点鎖線の直線TGT12は目標音圧を表している。
また、以下、直線CA12−1乃至直線CA12−10を特に区別する必要のない場合、単に直線CA12とも称する。
図7に示した折れ線IPS11、折れ線ETM11、および直線TGT11は、それぞれ図8の折れ線IPS12、折れ線ETM12、および直線TGT12の一部、つまり400フレーム目までの部分を示している。
図7に示したように、録音レベル自動設定装置43に入力音声信号の400フレーム目までが入力された時点では、0フレーム目から400フレーム目までの区間に各直線CA11で示される音圧推定候補点が集中している。
このような状態から順次、入力音声信号のフレームが入力されていくと、音圧推定候補点は、図7に示した状態から図8に示した状態へと変化していく。つまり、広い区間内にある程度の間隔で音圧推定候補点が点在する状態となる。
このように、入力音声信号の振幅のピーク値が大きなものを複数個集めて音圧推定候補点とし、随時、音圧推定候補点の更新を行なっていくことで、クリップ等を極力抑えながら適切な信号レベルで出力音声信号が記録されるように録音レベルを設定することができる。但し、このようにピーク値が大きなフレームを選択的に用いて音圧の推定を行う場合、突発的に生じた大きな雑音によって、適切な推定音圧が得られない場合がある。
例えば、図9に示すように、入力音声信号に突発性雑音が含まれていたとする。
なお、図9において、実線の折れ線IPS13は、録音レベル自動設定装置43に入力された入力音声信号の各フレームにおける絶対音圧レベルの最大値を表しており、各直線CA13−1乃至直線CA13−12は、音圧推定候補点を表している。また、折れ線ETM13は各フレームにおける推定音圧を表しており、直線TGT13は目標音圧を表している。
また、以下、直線CA13−1乃至直線CA13−12を特に区別する必要のない場合、単に直線CA13とも称する。
図9において、矢印NZ11および矢印NZ12に示す部分は、落下物によって発生した突発性雑音が含まれている部分(フレーム)であり、矢印NZ13に示す部分は、キーボードの打鍵音が含まれている部分である。
この例では、各音圧推定候補点を定めるときに、特徴量としての突発性雑音情報が用いられないように処理が行なわれている。まず、矢印NZ11により示される125フレーム目付近、つまり直線CA13−2に示す位置のフレームで落下物による雑音によって特徴量としてのピーク値が大きくなるため、このフレームが音圧推定候補点とされる。その結果として、折れ線ETM13で示されるように、直線CA13−2に示す位置のフレームで、推定音圧が約50dBSPLから約65dBSPLまで急激に変化している。
矢印NZ11に示される位置と同様に、矢印NZ12および矢印NZ13に示される位置のフレームにおいても、落下物による雑音やキーボードの打鍵音などの突発性雑音によって、それらのフレームが音圧推定候補点とされている。
すなわち、矢印NZ12に示される位置は、音圧推定候補点とされた直線CA13−3に示す位置となっており、矢印NZ13に示される位置は、音圧推定候補点とされた直線CA13−6に示す位置となっている。
このように、突発性雑音のフレームが音圧推定候補点とされると、推定音圧が大きくなり、適切な推定音圧を得ることができなくなってしまう。
そこで、このような突発的な雑音による悪影響を避けるため、録音レベル自動設定装置43では、特徴量計算部51において突発性雑音情報が求められ、音圧推定候補点更新部52において突発性雑音情報が用いられて、音圧推定候補点の更新が行なわれる。
具体的には、突発性雑音情報に基づいて、現フレームが突発性雑音の区間であるかが判定され、現フレームが突発性雑音の区間である場合には、現フレームでは音圧推定候補点が更新されないようにされる。つまり、突発性雑音の区間である現フレームが音圧推定候補点とされないようにされる。これにより、入力音声信号の適切な推定音圧を得ることができるようになる。
例えば、図10に示すように、録音レベル自動設定装置43では、突発性雑音の区間が音圧推定候補点から除外されるので、折れ線ETM14に示すように入力音声信号に対して適切な推定音圧を得ることができる。
なお、図10は、図9に示した入力音声信号と同じ信号が、録音レベル自動設定装置43に入力されたときの各音圧推定候補点と推定音圧を示しており、図10において図9における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。また、図10において、各直線CA14−1乃至直線CA14−12は音圧推定候補点を表しており、折れ線ETM14は各フレームにおける推定音圧を表している。
この例では、矢印NZ11乃至矢印NZ13に示される位置のフレーム、つまり突発性雑音が含まれるフレームは、音圧推定候補点として選択されておらず、図中、下側の斜線が施された長方形で示される音声の区間のフレームが音圧推定候補点とされている。その結果として、折れ線ETM14に示される推定音圧が、音声の区間に対して適切な大きさとなっている。
このように録音レベル自動設定装置43では、音圧推定候補点更新処理によって、適切なフレームが音圧推定候補点として選択されるように、フレームごとに音圧推定候補点を更新していくので、適切な推定音圧を得ることができる。したがって、より高精度にターゲットゲインを求めることができ、適切なレベルの出力音声信号を得ることができる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図11は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
バス304には、さらに、入出力インターフェース305が接続されている。入出力インターフェース305には、入力部306、出力部307、記録部308、通信部309、及びドライブ310が接続されている。
入力部306は、キーボード、マウス、マイクロホンなどよりなる。出力部307は、ディスプレイ、スピーカなどよりなる。記録部308は、ハードディスクや不揮発性のメモリなどよりなる。通信部309は、ネットワークインターフェースなどよりなる。ドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア311を駆動する。
以上のように構成されるコンピュータでは、CPU301が、例えば、記録部308に記録されているプログラムを、入出力インターフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU301)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア311に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア311をドライブ310に装着することにより、入出力インターフェース305を介して、記録部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記録部308にインストールすることができる。その他、プログラムは、ROM302や記録部308に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
[1]
入力音声信号の注目フレームから特徴量を抽出する特徴量計算部と、
前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量を保持するとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点を更新する音圧推定候補点更新部と、
前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧を算出する音圧推定部と、
前記推定音圧に基づいて前記入力音声信号に対して適用するゲインを算出するゲイン算出部と、
前記ゲインに基づいて前記入力音声信号のゲイン調整を行なうゲイン適用部と
を備える音声処理装置。
[2]
前記特徴量計算部は、前記特徴量として、少なくとも前記注目フレームにおける前記入力音声信号の振幅のピーク値を算出し、
前記音圧推定候補点更新部は、前記音圧推定候補点の前記特徴量としての前記ピーク値の最小値よりも、前記注目フレームの前記ピーク値が大きい場合、前記最小値となる前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
[1]に記載の音声処理装置。
[3]
前記特徴量計算部は、前記特徴量として、少なくとも前記注目フレームの突発性雑音らしさを示す突発性雑音情報を算出し、
前記音圧推定候補点更新部は、前記突発性雑音情報に基づいて前記注目フレームが突発性雑音の含まれる区間であるとされた場合、前記注目フレームを前記音圧推定候補点としない
[1]または[2]に記載の音声処理装置。
[4]
前記音圧推定候補点更新部は、隣接する前記音圧推定候補点間のフレーム間隔のうちの最も短い前記フレーム間隔が所定の閾値より小さい場合、前記フレーム間隔が最も短くなる隣接する前記音圧推定候補点のうち、前記ピーク値が小さい前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
[2]に記載の音声処理装置。
[5]
前記所定の閾値は、時間の経過とともに大きくなるように定められる
[4]に記載の音声処理装置。
[6]
前記特徴量計算部は、前記特徴量として、少なくとも前記音圧推定候補点から前記注目フレームまでの経過フレーム数を算出し、
前記音圧推定候補点更新部は、前記音圧推定候補点の前記経過フレーム数の最大値が所定フレーム数より大きい場合、前記最大値をとる前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
[1]乃至[5]の何れかに記載の音声処理装置。
[7]
前記音声処理装置には、増幅部によりゲイン調整され、アナログ信号からデジタル信号に変換して得られた前記入力音声信号が入力され、
前記ゲイン算出部は、算出した前記ゲインに基づいて、前記ゲイン適用部におけるゲイン調整に用いるゲインと、前記増幅部におけるゲイン調整に用いるゲインとを算出する
[1]乃至[6]の何れかに記載の音声処理装置。
入力音声信号の注目フレームから特徴量を抽出する特徴量計算部と、
前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量を保持するとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点を更新する音圧推定候補点更新部と、
前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧を算出する音圧推定部と、
前記推定音圧に基づいて前記入力音声信号に対して適用するゲインを算出するゲイン算出部と、
前記ゲインに基づいて前記入力音声信号のゲイン調整を行なうゲイン適用部と
を備える音声処理装置。
[2]
前記特徴量計算部は、前記特徴量として、少なくとも前記注目フレームにおける前記入力音声信号の振幅のピーク値を算出し、
前記音圧推定候補点更新部は、前記音圧推定候補点の前記特徴量としての前記ピーク値の最小値よりも、前記注目フレームの前記ピーク値が大きい場合、前記最小値となる前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
[1]に記載の音声処理装置。
[3]
前記特徴量計算部は、前記特徴量として、少なくとも前記注目フレームの突発性雑音らしさを示す突発性雑音情報を算出し、
前記音圧推定候補点更新部は、前記突発性雑音情報に基づいて前記注目フレームが突発性雑音の含まれる区間であるとされた場合、前記注目フレームを前記音圧推定候補点としない
[1]または[2]に記載の音声処理装置。
[4]
前記音圧推定候補点更新部は、隣接する前記音圧推定候補点間のフレーム間隔のうちの最も短い前記フレーム間隔が所定の閾値より小さい場合、前記フレーム間隔が最も短くなる隣接する前記音圧推定候補点のうち、前記ピーク値が小さい前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
[2]に記載の音声処理装置。
[5]
前記所定の閾値は、時間の経過とともに大きくなるように定められる
[4]に記載の音声処理装置。
[6]
前記特徴量計算部は、前記特徴量として、少なくとも前記音圧推定候補点から前記注目フレームまでの経過フレーム数を算出し、
前記音圧推定候補点更新部は、前記音圧推定候補点の前記経過フレーム数の最大値が所定フレーム数より大きい場合、前記最大値をとる前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
[1]乃至[5]の何れかに記載の音声処理装置。
[7]
前記音声処理装置には、増幅部によりゲイン調整され、アナログ信号からデジタル信号に変換して得られた前記入力音声信号が入力され、
前記ゲイン算出部は、算出した前記ゲインに基づいて、前記ゲイン適用部におけるゲイン調整に用いるゲインと、前記増幅部におけるゲイン調整に用いるゲインとを算出する
[1]乃至[6]の何れかに記載の音声処理装置。
43 録音レベル自動設定装置, 51 特徴量計算部, 52 音圧推定候補点更新部, 53 音圧推定部, 54 ゲイン算出部, 55 ゲイン適用部
Claims (9)
- 入力音声信号の注目フレームから特徴量を抽出する特徴量計算部と、
前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量を保持するとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点を更新する音圧推定候補点更新部と、
前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧を算出する音圧推定部と、
前記推定音圧に基づいて前記入力音声信号に対して適用するゲインを算出するゲイン算出部と、
前記ゲインに基づいて前記入力音声信号のゲイン調整を行なうゲイン適用部と
を備える音声処理装置。 - 前記特徴量計算部は、前記特徴量として、少なくとも前記注目フレームにおける前記入力音声信号の振幅のピーク値を算出し、
前記音圧推定候補点更新部は、前記音圧推定候補点の前記特徴量としての前記ピーク値の最小値よりも、前記注目フレームの前記ピーク値が大きい場合、前記最小値となる前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
請求項1に記載の音声処理装置。 - 前記特徴量計算部は、前記特徴量として、少なくとも前記注目フレームの突発性雑音らしさを示す突発性雑音情報を算出し、
前記音圧推定候補点更新部は、前記突発性雑音情報に基づいて前記注目フレームが突発性雑音の含まれる区間であるとされた場合、前記注目フレームを前記音圧推定候補点としない
請求項2に記載の音声処理装置。 - 前記音圧推定候補点更新部は、隣接する前記音圧推定候補点間のフレーム間隔のうちの最も短い前記フレーム間隔が所定の閾値より小さい場合、前記フレーム間隔が最も短くなる隣接する前記音圧推定候補点のうち、前記ピーク値が小さい前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
請求項2に記載の音声処理装置。 - 前記所定の閾値は、時間の経過とともに大きくなるように定められる
請求項4に記載の音声処理装置。 - 前記特徴量計算部は、前記特徴量として、少なくとも前記音圧推定候補点から前記注目フレームまでの経過フレーム数を算出し、
前記音圧推定候補点更新部は、前記音圧推定候補点の前記経過フレーム数の最大値が所定フレーム数より大きい場合、前記最大値をとる前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
請求項2に記載の音声処理装置。 - 前記音声処理装置には、増幅部によりゲイン調整され、アナログ信号からデジタル信号に変換して得られた前記入力音声信号が入力され、
前記ゲイン算出部は、算出した前記ゲインに基づいて、前記ゲイン適用部におけるゲイン調整に用いるゲインと、前記増幅部におけるゲイン調整に用いるゲインとを算出する
請求項2に記載の音声処理装置。 - 入力音声信号の注目フレームから特徴量を抽出し、
前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量を保持するとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点を更新し、
前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧を算出し、
前記推定音圧に基づいて前記入力音声信号に対して適用するゲインを算出し、
前記ゲインに基づいて前記入力音声信号のゲイン調整を行なう
ステップを含む音声処理方法。 - 入力音声信号の注目フレームから特徴量を抽出し、
前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量を保持するとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点を更新し、
前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧を算出し、
前記推定音圧に基づいて前記入力音声信号に対して適用するゲインを算出し、
前記ゲインに基づいて前記入力音声信号のゲイン調整を行なう
ステップを含む処理をコンピュータに実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012012864A JP2013153307A (ja) | 2012-01-25 | 2012-01-25 | 音声処理装置および方法、並びにプログラム |
US13/722,117 US20130191124A1 (en) | 2012-01-25 | 2012-12-20 | Voice processing apparatus, method and program |
CN201310018393.4A CN103226952A (zh) | 2012-01-25 | 2013-01-18 | 语音处理装置、方法和程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012012864A JP2013153307A (ja) | 2012-01-25 | 2012-01-25 | 音声処理装置および方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013153307A true JP2013153307A (ja) | 2013-08-08 |
Family
ID=48797951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012012864A Pending JP2013153307A (ja) | 2012-01-25 | 2012-01-25 | 音声処理装置および方法、並びにプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20130191124A1 (ja) |
JP (1) | JP2013153307A (ja) |
CN (1) | CN103226952A (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9026472B2 (en) | 2000-05-08 | 2015-05-05 | Smart Options, Llc | Method and system for reserving future purchases of goods and services |
US8930260B2 (en) | 2000-05-08 | 2015-01-06 | Smart Options, Llc | Method and system for reserving future purchases of goods and services |
US9047634B2 (en) | 2000-05-08 | 2015-06-02 | Smart Options, Llc | Method and system for reserving future purchases of goods and services |
US9092813B2 (en) | 2000-05-08 | 2015-07-28 | Smart Options, Llc | Method and system for reserving future purchases of goods and services |
US9064258B2 (en) | 2000-05-08 | 2015-06-23 | Smart Options, Llc | Method and system for reserving future purchases of goods and services |
US9026471B2 (en) | 2000-05-08 | 2015-05-05 | Smart Options, Llc | Method and system for reserving future purchases of goods and services |
US9070150B2 (en) | 2000-05-08 | 2015-06-30 | Smart Options, Llc | Method and system for providing social and environmental performance based sustainable financial instruments |
US9292885B2 (en) | 2013-08-27 | 2016-03-22 | Unittus, Inc. | Method and system for providing social search and connection services with a social media ecosystem |
US9348916B2 (en) | 2013-08-27 | 2016-05-24 | Unittus, Inc. | Method and system for providing search services for a social media ecosystem |
US10475135B2 (en) | 2014-12-31 | 2019-11-12 | Lusiss Company, LLC | Method and system for providing searching and contributing in a social media ecosystem |
KR20160132574A (ko) * | 2015-05-11 | 2016-11-21 | 현대자동차주식회사 | 자동이득제어모듈, 그 제어방법, 이를 포함하는 차량, 및 그 제어방법 |
CN106572067B (zh) * | 2015-10-12 | 2020-05-12 | 阿里巴巴集团控股有限公司 | 语音流传送的方法及系统 |
CN108702582B (zh) * | 2016-01-29 | 2020-11-06 | 杜比实验室特许公司 | 用于双耳对话增强的方法和装置 |
CN107438130A (zh) * | 2016-05-26 | 2017-12-05 | 中兴通讯股份有限公司 | 语音增益的调整方法、装置及终端 |
CN108922528B (zh) * | 2018-06-29 | 2020-10-23 | 百度在线网络技术(北京)有限公司 | 用于处理语音的方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4282317B2 (ja) * | 2002-12-05 | 2009-06-17 | アルパイン株式会社 | 音声通信装置 |
US7483831B2 (en) * | 2003-11-21 | 2009-01-27 | Articulation Incorporated | Methods and apparatus for maximizing speech intelligibility in quiet or noisy backgrounds |
WO2007141923A1 (ja) * | 2006-06-02 | 2007-12-13 | Nec Corporation | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム |
-
2012
- 2012-01-25 JP JP2012012864A patent/JP2013153307A/ja active Pending
- 2012-12-20 US US13/722,117 patent/US20130191124A1/en not_active Abandoned
-
2013
- 2013-01-18 CN CN201310018393.4A patent/CN103226952A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20130191124A1 (en) | 2013-07-25 |
CN103226952A (zh) | 2013-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013153307A (ja) | 音声処理装置および方法、並びにプログラム | |
US8611548B2 (en) | Noise analysis and extraction systems and methods | |
JP5149999B2 (ja) | 補聴器,ならびに過渡音の検出および減衰方法 | |
JP6553111B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN108235181B (zh) | 在音频处理装置中降噪的方法 | |
JP2010514235A (ja) | 音量自動調整方法及びシステム | |
WO2018072325A1 (zh) | 一种音频信号的自动增益控制方法和装置 | |
JP2012168499A (ja) | 音声補正装置、音声補正方法及び音声補正プログラム | |
JP2014126856A (ja) | 雑音除去装置及びその制御方法 | |
US20240088856A1 (en) | Long-term signal estimation during automatic gain control | |
JP6361271B2 (ja) | 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム | |
JP4548953B2 (ja) | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム | |
JP4814861B2 (ja) | 音量調整装置、方法及びプログラム | |
JPS6257040B2 (ja) | ||
EP2466917B1 (en) | Audio-signal processing apparatus and method, and program | |
US10600432B1 (en) | Methods for voice enhancement | |
JP4350094B2 (ja) | カラーレーション検出装置およびカラーレーション検出方法 | |
JP5857216B2 (ja) | 自動利得制御装置 | |
JP4441293B2 (ja) | 収音方法、収音装置、収音プログラム | |
CN109462809B (zh) | 功率放大器的检测方法和系统 | |
WO2019084580A1 (en) | Method for processing an acoustic speech input signal and audio processing device | |
JP2018036442A (ja) | 音声処理プログラム、音声処理方法及び音声処理装置 | |
JP2005257748A (ja) | 収音方法、収音装置、収音プログラム | |
JP2006180392A (ja) | 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 | |
CN116405828A (zh) | 声音讯号处理方法及声音讯号处理系统 |