JP2013153307A

JP2013153307A - 音声処理装置および方法、並びにプログラム

Info

Publication number: JP2013153307A
Application number: JP2012012864A
Authority: JP
Inventors: Hiroyuki Honma; 弘幸本間; Toru Chinen; 徹知念
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-01-25
Filing date: 2012-01-25
Publication date: 2013-08-08
Also published as: US20130191124A1; CN103226952A

Abstract

【課題】より簡単に適切なレベルの音声を得ることができるようにする。
【解決手段】特徴量計算部は、入力音声信号から、入力音声信号の突発性雑音らしさを示す突発性雑音情報を含むいくつかの特徴量を抽出する。音圧推定候補点更新部は、音圧推定に用いる入力音声信号のフレームを音圧推定候補点として保持するとともに、特徴量に基づいて音圧推定候補点を更新する。このとき、突発性雑音情報により突発性雑音であるとされたフレームは音圧推定候補点から除外される。音圧推定部は、各音圧推定候補点の特徴量から入力音声信号の音圧を推定し、ゲイン算出部は音圧推定により得られた推定音圧からゲインを算出する。ゲイン適用部は算出されたゲインに基づいて入力音声信号のゲイン調整を行なう。本技術は、録音レベル自動設定装置に適用することができる。
【選択図】図４

Description

本技術は音声処理装置および方法、並びにプログラムに関し、特に、より簡単に適切なレベルの音声を得ることができるようにした音声処理装置および方法、並びにプログラムに関する。

ＩＣ（Integrated Circuit）レコーダなどの録音装置を用いて会話や楽器演奏などを録音する場合においては、収音された音声の入力音声信号が適切な大きさのレベルで記録されるように、録音感度を正しく設定することが重要である。

例えば、比較的大きな会議室において行われる会議の会話を録音するような場合には、録音装置の録音感度を低く設定しておくと、遠くの話者の会話がほとんど聴き取れないような小さいレベルで音声が記録されてしまうことがある。

また、一方で口元にマイクロホンを近づけ、自らの口述をメモとして残しておくような場合において、録音装置の録音感度を高く設定してしまうと、記録できる上限を超えたレベルの信号が入力されることになる。そうすると、記録された音声に音割れが生じ、このような音割れは耳障りなノイズとなってしまう。

このように、不適切なレベルで音声が録音されてしまうことを回避するため、一般的に録音装置では、録音感度の設定が３段階程度におおまかに分けられ、かつ信号レベルを自動的に一定に保つ信号処理技術が用いられている。このような信号処理技術は、ALC(Auto Level Control)やAGC(Auto Gain Control)と呼ばれている。

例えば、図１に示すように、録音装置では録音感度が高，中，低の３段階に分けられ、それぞれの録音感度に対する増幅器（アンプリファイア）の増幅率として＋30dB，＋15dB，0dBが割り当てられている。

また、一般的な録音装置の入力系は、例えば図２に示すように、主制御装置１１、増幅器１２、ADC（Analog to Digital Converter）１３、およびALC処理部１４が設けられている。

このような録音装置に対してユーザが録音装置の録音感度の設定を指示すると、増幅器１２における増幅率として、ユーザにより指定された録音感度により定まる増幅率が主制御装置１１により設定される。

すると、収音された信号は、増幅器１２において設定された増幅率で増幅され、ADC１３でデジタル化された後、ALC処理部１４により信号レベルが制御される。そして、信号レベルが制御された信号は、出力音声信号としてALC処理部１４から出力され、符号化された後、記録される。

例えば、ALC処理部１４には、図３の折れ線ＩＣ１１に示す信号が入力され、この信号の信号レベルの制御が行なわれる。そして、その結果得られた折れ線ＯＣ１１に示す信号が、最終的な出力音声信号としてALC処理部１４から出力される。なお、図３において、横軸は時間を示しており、縦軸は信号レベルを示している。また、図３において点線は、信号のレベルとして取り得る値の最大値である最大入力レベルを示している。

折れ線ＩＣ１１で示される信号は、録音装置のマイクロホンに入力され、増幅器１２で増幅された後、ADC１３でデジタル化された信号である。記録される信号のうち、点線で示される最大入力レベルよりも大きいレベルの部分は、クリップされた状態で記録されるので、そのような信号の区間では再生時には音割れノイズが発生する。

そこで、録音装置では、入力された折れ線ＩＣ１１で示される信号に対してゲイン調整が行なわれ、その結果得られた折れ線ＯＣ１１で示される信号が出力信号として出力される。この折れ線ＯＣ１１で示される信号のレベルは、各時刻において最大入力レベルよりも小さくなっており、出力音声信号が適切なレベルの信号となるようにゲイン調整が行なわれたことが分かる。

ゲイン調整時には、ALC処理部１４によりリアルタイムで信号レベルが測定され、信号レベルが最大入力レベルに近づいた場合には、信号のレベルが最大入力レベルを超えないようにゲインが下げられる。そして、信号のレベルが最大入力レベルを超えない場合には、ゲインが1.0まで戻されていく。

以上のように、音割れの発生や、録音された音が聞き取れないような小さな音となってしまうことを回避するため、録音感度の設定やALC処理部１４でのゲイン調整が行なわれている。しかし、それでも録音感度が適切に設定されなかったり、ALC（ゲイン調整）により得られた音が、外部雑音の影響などで不安定な音となったりして、記録される音声が再生時に聞き取りにくくなってしまうことがある。

これに対して、外部雑音の影響を極力減らし、音声を適切なレベルで録音するための自動利得調整装置に関する技術が提案されている（例えば、特許文献１参照）。

この技術では、音声区間を正しく判別するために、時間フレームにおいて自己相関とパワースペクトルの傾きが計算され、それらの自己相関とパワースペクトルの傾きのうちの何れかが閾値よりも小さい場合に、その時間フレームが非定常とみなされる。このように非定常である、つまり音声区間ではないとされた時間フレームを、入力信号のレベルの計算から除外することで、音声が最適なレベルに制御されるようになる。

特許第３３６７５９２号公報

しかしながら上述した技術では、電話機のように音源とマイクロホンが近接している場合には、音声と雑音の判別が容易であるが、広い部屋に録音装置を置き、比較的遠方の話者が会話するような場合には、入力音声信号のＳＮ比（Signal to Noise ratio）が悪く、音声区間を精度よく検出することができない。そのため、記録する音声信号として、適切なレベルの音声信号が得られないことがあった。

また、自己相関等を各時間フレームについて常に計算し、音声と非定常雑音の判別を行うことは、電池で駆動するような小型の録音機器においては電池の消耗をはやめることにもつながる。

本技術は、このような状況に鑑みてなされたものであり、より簡単に適切なレベルの音声を得ることができるようにするものである。

本技術の一側面の音声処理装置は、入力音声信号の注目フレームから特徴量を抽出する特徴量計算部と、前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量を保持するとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点を更新する音圧推定候補点更新部と、前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧を算出する音圧推定部と、前記推定音圧に基づいて前記入力音声信号に対して適用するゲインを算出するゲイン算出部と、前記ゲインに基づいて前記入力音声信号のゲイン調整を行なうゲイン適用部とを備える。

前記特徴量計算部には、前記特徴量として、少なくとも前記注目フレームにおける前記入力音声信号の振幅のピーク値を算出させ、前記音圧推定候補点更新部には、前記音圧推定候補点の前記特徴量としての前記ピーク値の最小値よりも、前記注目フレームの前記ピーク値が大きい場合、前記最小値となる前記音圧推定候補点を破棄させ、前記注目フレームを新たな前記音圧推定候補点とさせることができる。

前記特徴量計算部には、前記特徴量として、少なくとも前記注目フレームの突発性雑音らしさを示す突発性雑音情報を算出させ、前記音圧推定候補点更新部には、前記突発性雑音情報に基づいて前記注目フレームが突発性雑音の含まれる区間であるとされた場合、前記注目フレームを前記音圧推定候補点としないようにさせることができる。

前記音圧推定候補点更新部には、隣接する前記音圧推定候補点間のフレーム間隔のうちの最も短い前記フレーム間隔が所定の閾値より小さい場合、前記フレーム間隔が最も短くなる隣接する前記音圧推定候補点のうち、前記ピーク値が小さい前記音圧推定候補点を破棄させ、前記注目フレームを新たな前記音圧推定候補点とさせることができる。

前記所定の閾値は、時間の経過とともに大きくなるように定めることができる。

前記特徴量計算部には、前記特徴量として、少なくとも前記音圧推定候補点から前記注目フレームまでの経過フレーム数を算出させ、前記音圧推定候補点更新部には、前記音圧推定候補点の前記経過フレーム数の最大値が所定フレーム数より大きい場合、前記最大値をとる前記音圧推定候補点を破棄させ、前記注目フレームを新たな前記音圧推定候補点とさせることができる。

前記音声処理装置には、増幅部によりゲイン調整され、アナログ信号からデジタル信号に変換して得られた前記入力音声信号が入力されるようにし、前記ゲイン算出部には、算出した前記ゲインに基づいて、前記ゲイン適用部におけるゲイン調整に用いるゲインと、前記増幅部におけるゲイン調整に用いるゲインとを算出させることができる。

本技術の一側面の音声処理方法またはプログラムは、入力音声信号の注目フレームから特徴量を抽出し、前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量を保持するとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点を更新し、前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧を算出し、前記推定音圧に基づいて前記入力音声信号に対して適用するゲインを算出し、前記ゲインに基づいて前記入力音声信号のゲイン調整を行なうステップを含む。

本技術の一側面においては、入力音声信号の注目フレームから特徴量が抽出され、前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量が保持されるとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点が更新され、前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧が算出され、前記推定音圧に基づいて前記入力音声信号に対して適用するゲインが算出され、前記ゲインに基づいて前記入力音声信号のゲイン調整が行なわれる。

本技術の一側面によれば、より簡単に適切なレベルの音声を得ることができる。

録音感度設定について説明する図である。従来の録音装置の入力系の構成を示す図である。 ALC処理部の動作を説明するための図である。本技術を適用した音声処理システムの構成例を示す図である。ゲイン調整処理を説明するフローチャートである。音圧推定候補点更新処理を説明するフローチャートである。音圧推定候補点の更新と推定音圧の算出の例を示す図である。音圧推定候補点の更新と推定音圧の算出の例を示す図である。突発性雑音による推定音圧への影響について説明するための図である。突発性雑音が含まれる場合における、音圧推定候補点の更新と推定音圧の算出の例を示す図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
［音声処理システムの構成例］
次に、本技術を適用した具体的な実施の形態について説明する。

図４は、本技術を適用した音声処理システムの一実施の形態の構成例を示す図である。

この音声処理システムは、例えばＩＣレコーダなどの録音装置に設けられており、増幅器４１、ADC４２、録音レベル自動設定装置４３、および主制御装置４４から構成される。

増幅器４１には、例えばマイクロホンなどの収音部により収音された音声の信号（以下、入力音声信号と称する）が入力される。増幅器４１は、主制御装置４４から指定された録音感度、すなわち増幅率で、入力された入力音声信号を増幅させ、ADC４２に供給する。

ADC４２は、増幅器４１から供給された入力音声信号を、アナログ信号からデジタル信号に変換し、録音レベル自動設定装置４３に供給する。なお、増幅器４１とADC４２は、１つのモジュールとされていてもよい。すなわち、１つのモジュールが増幅器４１とADC４２の機能を備えていてもよい。

録音レベル自動設定装置４３は、ADC４２から供給された入力音声信号に対するゲイン調整を行なって出力音声信号を生成し、出力する。録音レベル自動設定装置４３は、特徴量計算部５１、音圧推定候補点更新部５２、音圧推定部５３、ゲイン算出部５４、およびゲイン適用部５５を備えている。

特徴量計算部５１は、ADC４２から供給された入力音声信号から、１以上の特徴量を抽出し、音圧推定候補点更新部５２に供給する。音圧推定候補点更新部５２は、特徴量計算部５１から供給された特徴量と、複数個の音圧推定候補点における特徴量とに基づいて、入力音声信号の音圧の推定に用いる音圧推定候補点を更新し、音圧推定候補点に関する情報を音圧推定部５３に供給する。

音圧推定部５３は、音圧推定候補点更新部５２から供給された音圧推定候補点に関する情報に基づいて、入力音声信号の音圧を推定し、その結果得られた推定音圧をゲイン算出部５４に供給する。

ゲイン算出部５４は、音圧推定部５３から供給された推定音圧と、入力音声信号の目標となる音圧（以下、目標音圧と称する）とを比較して、入力音声信号を増幅すべき量を示すターゲットゲインを算出する。また、ゲイン算出部５４は、算出したターゲットゲインを増幅器４１における増幅率と、ゲイン適用部５５で適用されるゲイン（以下、適用ゲインとも称する）とに分割し、増幅率および適用ゲインを主制御装置４４およびゲイン適用部５５に供給する。

ゲイン適用部５５は、ADC４２から供給された入力音声信号に対して、ゲイン算出部５４から供給されたゲインを適用することで入力音声信号のゲイン調整を行い、その結果得られた出力音声信号を出力する。ゲイン適用部５５から出力された出力音声信号は、適宜、符号化されて記録媒体に記録されたり、ネットワーク等の通信網を介して他の装置に伝送されたりする。

また、主制御装置４４は、ゲイン算出部５４から供給された増幅率を増幅器４１に供給し、供給した増幅率で入力音声信号を増幅させる。

［ゲイン調整処理の説明］
ところで、音声処理システムに対して音声の録音が指示されると、音声処理システムは収音されて増幅器４１に入力されてくる入力音声信号が適切なレベルの信号となるように入力音声信号のゲインを調整し、出力音声信号とする。

このとき、増幅器４１は、供給された入力音声信号を、主制御装置４４を介してゲイン算出部５４から供給された増幅率で増幅させ、ADC４２に供給する。また、ADC４２は、増幅器４１から供給された入力音声信号をデジタル化して、録音レベル自動設定装置４３の特徴量計算部５１およびゲイン適用部５５に供給する。

さらに、録音レベル自動設定装置４３は、ゲイン調整処理を行なって、ADC４２から供給された入力音声信号を出力音声信号に変換し、出力する。

以下、図５のフローチャートを参照して、録音レベル自動設定装置４３によるゲイン調整処理について説明する。なお、このゲイン調整処理は、入力音声信号のフレームごとに行なわれる。

ステップＳ１１において、特徴量計算部５１は、ADC４２から供給された入力音声信号に基づいて、入力音声信号の処理対象となっている時間フレーム（以下、現フレームとも称する）における振幅のピーク値Pk(n)を算出する。

例えば、現フレームが入力音声信号のｎ番目のフレーム（但し、ｎ≧０）であり、各フレームがＬ個のサンプルからなるとすると、特徴量計算部５１は、次式（１）を計算することによりピーク値Pk(n)を算出する。

なお、式（１）において、sig(L×n+i)は、入力音声信号を構成するサンプルのうち、０番目のフレームの最初のサンプルから数えて、(L×n+i)個目にあるサンプルのサンプル値（入力音声信号の値）である。したがって、入力音声信号の現フレームを構成するサンプルのサンプル値の絶対値の最大値が、ピーク値Pk(n)として求められる。

ステップＳ１２において、特徴量計算部５１は、ADC４２から供給された入力音声信号に基づいて、現フレームにおいて振幅が最大となるサンプル近傍の各サンプルのサンプル値の二乗平均平方根rms(n)を算出する。

例えば、特徴量計算部５１は、現フレーム（フレームｎ）におけるピーク値Pk(n)をとるサンプル、つまり振幅が最大となるサンプルをサンプルi_max(n)として、次式（２）を計算することで、二乗平均平方根rms(n)を算出する。

式（２）において、i_max(n)は、サンプルi_max(n)の位置、つまりサンプルi_max(n)が何番目のサンプルであるかを示している。したがって二乗平均平方根rms(n)は、サンプルi_max(n)、サンプルi_max(n)の過去側にあるＬ１個のサンプル、およびサンプルi_max(n)の未来側にあるＬ２−１個のサンプルからなる合計２Ｌ個のサンプルからなる区間内の各サンプルのサンプル値の二乗平均平方根である。

なお、式（２）では、二乗平均平方根rms(n)の算出対象とされる入力音声信号の範囲が、サンプルi_max(n)の位置により定められているが、算出対象とされる入力音声信号の範囲がサンプルi_max(n)の位置に依存しないようにしてもよい。

そのような場合、特徴量計算部５１は次式（３）を計算することで、二乗平均平方根rms(n)を算出する。

式（３）の計算では、現フレームを構成する各サンプルのサンプル値の二乗平均平方根が、二乗平均平方根rms(n)として算出される。このように、サンプルi_max(n)の位置に依存しない入力音声信号の範囲のサンプルを用いた二乗平均平方根rms(n)の算出方法は、特に入力音声信号のバッファの量に制限がある場合などに有効である。

ステップＳ１３において、特徴量計算部５１は、音圧推定候補点更新部５２に保持されている現時点における各音圧推定候補点について、それらの音圧推定候補点とされたフレームから、現フレームまでのフレーム数を経過フレーム数として算出する。このとき、特徴量計算部５１は、必要に応じて音圧推定候補点更新部５２に保持されている音圧推定候補点に関する情報を参照し、経過フレーム数を求める。

ステップＳ１４において、特徴量計算部５１は、ADC４２から供給された入力音声信号に基づいて、現フレームの突発性雑音らしさを示す突発性雑音情報Atk(n)を算出する。ここで、突発性雑音とは、例えばキーボードの打鍵音や物体が床に落ちたときに発せられた音など、本来収音したい音声とは異なる、突発的に発生した雑音をいう。

例えば、特徴量計算部５１は次式（４）を計算することにより、突発性雑音情報Atk(n)を算出する。

すなわち、式（４）の計算では、まず現フレームであるフレームｎ、フレームｎからみた過去Ｎ１フレーム、およびフレームｎからみた未来Ｎ２フレームからなる、合計（Ｎ１＋Ｎ２＋１）フレームの区間が処理対象区間とされる。そして、処理対象区間内の各フレームのピーク値Pk(m)のうちの最大値と最小値の比、つまりピーク値Pk(m)の最大値をピーク値Pk(m)の最小値で除算して得られる値が、突発性雑音情報Atk(n)とされる。

なお、突発性雑音情報Atk(n)は、入力音声信号の急峻な変化を検出できる情報であれば、式（４）に示した例に限らず、どのようなものであってもよい。例えば、特徴量計算部５１が次式（５）を計算することで突発性雑音情報Atk(n)を算出するようにしてもよい。

式（５）では、フレームｎ、フレームｎの過去Ｎ１フレーム、およびフレームｎの未来Ｎ２フレームからなる合計（Ｎ１＋Ｎ２＋１）フレームの処理対象区間について、処理対象区間内の連続する２つのフレームのピーク値Pk(m)の比が求められる。すなわち、フレーム（ｍ＋１）について求められたピーク値Pk(m+1)が、フレームｍについて求められたピーク値Pk(m)で除算される。そして、処理対象区間内の連続する２フレームの各組について求めたピーク値Pk(m)の比のうちの最大値が突発性雑音情報Atk(n)とされる。

また、突発性雑音情報Atk(n)を求めるときに用いられるピーク値Pk(m)は、入力音声信号をローカットフィルタによりフィルタ処理することで、入力音声信号の直流成分付近の変動を減らしてから求められるようにしてもよい。

以上のようにして、ピーク値Pk(n)、二乗平均平方根rms(n)、経過フレーム数、および突発性雑音情報Atk(n)が求まると、特徴量計算部５１は、これらの４つの値を現フレームの入力音声信号から抽出した特徴量のセットとし、音圧推定候補点更新部５２に供給する。

ステップＳ１５において、音圧推定候補点更新部５２は、音圧推定候補点更新処理を行なって音圧推定候補点を更新し、更新後の各音圧推定候補点の二乗平均平方根rms(n)を音圧推定部５３に供給する。

なお、音圧推定候補点更新処理の詳細は後述するが、この音圧推定候補点更新処理では、現フレームの特徴量と、音圧推定候補点更新部５２に保持されているＰ個の音圧推定候補点における特徴量とに基づいて、音圧推定候補点の更新が行なわれる。

具体的には、現時点におけるＰ個の音圧推定候補点のなかに音圧推定候補点として適切ではなくなった候補点がある場合、その音圧推定候補点が除外され、現フレームが新たな音圧推定候補点とされる。したがって、音圧推定候補点更新部５２には、常にＰ個の音圧推定候補点と、それらの音圧推定候補点の特徴量とが保持されていることになる。

なお、以下、音圧推定候補点とされているフレームを、適宜、フレームｎ_p（但し、１≦ｐ≦Ｐ）とも称することとする。

ステップＳ１６において、音圧推定部５３は、音圧推定候補点更新部５２から供給されたＰ個の各音圧推定候補点の二乗平均平方根rms(n_p)に基づいて、入力音声信号の推定音圧を算出し、ゲイン算出部５４に供給する。

例えば、音圧推定部５３は次式（６）を計算することで推定音圧est_rms(n)を算出する。

すなわち式（６）では、音圧推定候補点とされたフレームｎ₁乃至フレームｎ_Pについて求められたＰ個の二乗平均平方根rms(n_p)の二乗平均平方根を求めることにより、推定音圧est_rms(n)が算出される。

なお、推定音圧est_rms(n)は、式（６）の計算に限らず、各音圧推定候補点の特徴量を用いて算出されれば、どのように算出されてもよい。例えば、音圧推定部５３が次式（７）を計算することで推定音圧est_rms(n)を算出するようにしてもよい。

式（７）では、Ｐ個の二乗平均平方根rms(n_p)に、音圧推定候補点ごとに異なる重みw(n_p)を付けて重み付け平均を求めることで、推定音圧est_rms(n)が算出される。

なお、式（７）において、重みw(n_p)は、フレームｎ_pから現フレームまでの経過フレーム数に応じて減少する関数であり、W_allは次式（８）により求まる値である。すなわち、W_allは、各フレームｎ_pの重みw(n_p)の総和である。

ステップＳ１７において、ゲイン算出部５４は、音圧推定部５３から供給された推定音圧est_rms(n)と、予め定められた目標音圧とを比較して現フレームのターゲットゲインを算出する。

例えば、ゲイン算出部５４は次式（９）を計算し、目標音圧tgt_rmsと推定音圧est_rms(n)との差を求めることにより、ターゲットゲインtgt_gain(n)を算出する。

ステップＳ１８において、ゲイン算出部５４はターゲットゲインtgt_gain(n)を増幅器４１における増幅率と、ゲイン適用部５５で適用される適用ゲインとに分割する。

例えば、増幅器４１において、図１に示したように、高，中，低の３段階で増幅率が制御できるものとする。すなわち、０ｄＢから＋３０ｄＢまで１５ｄＢ単位で増幅器４１の増幅率を増減できるものとする。

いま、増幅器４１において設定されている増幅率が０ｄＢであり、ターゲットゲインtgt_gain(n)が１８ｄＢであったとする。そのような場合、ゲイン算出部５４はターゲットゲインtgt_gain(n)である１８ｄＢを、増幅器４１での増幅率としての＋１５ｄＢと、適用ゲインとしての３ｄＢとに分割する。

ここで、増幅率が＋１５ｄＢとされるのは、増幅器４１における増幅率を設定可能な範囲内で増減させようとするときに、増減分の増幅率として取り得る値のうち、ターゲットゲインである１８ｄＢを超えない値の最大のものが＋１５ｄＢであるからである。そこで、ゲイン算出部５４は、ターゲットゲインのうちの１５ｄＢを増幅器４１での増幅率に割り当て、残りの３ｄＢをゲイン適用部５５での適用ゲインに割り当てる。

ゲイン算出部５４は、このようにしてターゲットゲインを増幅率と適用ゲインに分割すると、増幅率を主制御装置４４に供給するとともに、適用ゲインをゲイン適用部５５に供給する。

主制御装置４４は、ゲイン算出部５４から供給された増幅率を増幅器４１に供給して、増幅器４１での増幅率を変更させる。このとき、主制御装置４４は、増幅器４１での増幅率の変更と、ゲイン適用部５５での入力音声信号へのゲインの適用との同期がとれるように、増幅率の変更の制御を行なう。このようにして増幅器４１の増幅率が変更されると、増幅器４１は、変更後の増幅率で、供給された入力音声信号を増幅させる。つまり、変更されたゲイン（増幅率）で入力音声信号に対するゲイン調整（増幅）が行なわれる。

なお、ゲインが急激に変化しないようにアタックタイムおよびリリースタイムの時定数を用いて実際のターゲットゲインを算出するようにしてもよい。アタックタイムとリリースタイムの時定数を用いてゲインを算出する処理は、ALC（Automatic Level Control）技術において一般的に用いられている。

ステップＳ１９において、ゲイン適用部５５は、ADC４２から供給された入力音声信号に対して、ゲイン算出部５４から供給された適用ゲインを適用することで入力音声信号のゲイン調整を行い、その結果得られた出力音声信号を出力する。

ここで、ゲイン適用部５５に供給された入力音声信号がsig(L×n+i)であり、ゲイン算出部５４からゲイン適用部５５に供給された適用ゲインがsig_gain(n,i)であるとすると、ゲイン適用部５５は、次式（１０）を計算することにより出力音声信号を生成する。

すなわち、ゲイン適用部５５は、入力音声信号sig(L×n+i)に適用ゲインsig_gain(n,i)を乗算することで、出力音声信号out_sig(L×n+i)とする。より詳細には、入力音声信号の(L×n+i)個目のサンプルのサンプル値sig(L×n+i)に、入力音声信号の(L×n+i)個目のサンプル用の適用ゲインsig_gain(n,i)が乗算され、出力音声信号の(L×n+i)個目のサンプルのサンプル値out_sig(L×n+i)とされる。

なお、入力音声信号に対して単純にゲインを適用する場合、出力音声信号out_sig(i)が０ｄＢＦＳで飽和してクリップされてしまうことがある。そこで、このようなクリップを防止するための処理がゲイン適用時に行なわれるようにしてもよい。例えば、クリップを防止する処理としては、ALCやコンプレッサ等で一般的に行なわれている処理を利用すればよい。

入力音声信号に対するゲイン調整が行なわれて出力音声信号が生成されると、生成された出力音声信号はゲイン適用部５５から出力され、ゲイン調整処理は終了する。

以上のようにして、録音レベル自動設定装置４３は、供給された入力音声信号から特徴量を算出して音圧推定候補点を更新し、各音圧推定候補点の特徴量から推定音圧を算出する。そして、録音レベル自動設定装置４３は、推定音圧からターゲットゲインを求め、ターゲットゲインに基づいて入力音声信号のゲインを調整し、出力音声信号とする。

このように、特徴量に基づいて、音圧の推定に用いるのに適切な音圧推定候補点を選択し、推定音圧を求めることで、より簡単な処理で、より高精度にターゲットゲインを求めることができる。これにより、適切なレベルの出力音声信号を得ることができる。

録音レベル自動設定装置４３では、簡単な処理で、適用ゲインだけでなく増幅器４１における適切な増幅率も算出されるため、本技術によれば、小型の録音機器でも充分実現可能な方法で、録音感度の設定を自動化することができる。つまり、ユーザからすれば、録音ボタンを押すだけで、適切なレベルの音声が録音されることになる。

［音圧推定候補点更新処理の説明］
次に、図６のフローチャートを参照して、図５のステップＳ１５の処理に対応する音圧推定候補点更新処理について説明する。

この音圧推定候補点更新処理が開始される時点では、特徴量計算部５１から音圧推定候補点更新部５２には、現フレームの特徴量のセットとして、ピーク値Pk(n)、二乗平均平方根rms(n)、経過フレーム数、および突発性雑音情報Atk(n)が供給されている。

また、音圧推定候補点更新部５２には、過去に特徴量計算部５１から供給された、Ｐ個の各音圧推定候補点の特徴量のセットも保持されている。さらに、録音動作開始時には、Ｐ個の音圧推定候補点と、それらの音圧推定候補点の特徴量として、適切な初期値が設定されているものとする。

ステップＳ４１において、音圧推定候補点更新部５２は、特徴量計算部５１から供給された現フレームの特徴量としての経過フレーム数に基づいて、予め定められた最大保持時間を超えて保持されている音圧推定候補点があるか否かを判定する。

例えば、音圧推定候補点更新部５２は、現時点で音圧推定候補点とされているＰ個の各フレームｎ_p（但し、１≦ｐ≦Ｐ）の経過フレーム数のうちの最大値、つまり次式（１１）を満たす経過フレーム数を特定する。

なお、式（１１）において、ｎ_pはフレームｎ_pの経過フレーム数を示しており、Ｐ個の経過フレーム数ｎ_pのうちの最大のものが、最大経過フレーム数n_maxとされる。

音圧推定候補点更新部５２は、得られた最大経過フレーム数n_maxが、予め定められた閾値th_maxより大きいか否かを判定し、最大経過フレーム数n_maxが閾値th_maxより大きい場合、最大保持時間を超えて保持されている音圧推定候補点があるとする。ここで、閾値th_maxは、最大保持時間を示す値（フレーム数）である。

ステップＳ４１において、最大保持時間を超えて保持されている音圧推定候補点があると判定された場合、音圧推定候補点更新部５２は、最大経過フレーム数n_maxとされたフレームｎ_pを破棄対象のフレームとして選択し、処理はステップＳ４２に進む。

現フレームにおける推定音圧を算出するために、現フレームからあまりに遠く離れた過去フレームが音圧推定候補点として用いられると、正しい推定音圧が得られなくなることもあり得る。そこで、最大保持時間を超えて保持されている音圧推定候補点がある場合には、音圧推定候補点のうちの最も長く保持されているものが破棄対象のフレームとされる。つまり、音圧推定候補点として不適切なフレームとされる。

ステップＳ４２において、音圧推定候補点更新部５２は、破棄対象のフレームとして選択したフレームと、そのフレームの特徴量とを破棄し、現フレームを新たな音圧推定候補点とする。

つまり、音圧推定候補点更新部５２は、破棄対象のフレームを音圧推定候補点から除外し、現フレームを特定する情報と、現フレームの特徴量とを、新たな音圧推定候補点と、その音圧推定候補点の特徴量のセットとして保持する。

ステップＳ４２の処理が行なわれると、その後、処理はステップＳ４９へと進む。

また、ステップＳ４１において、最大保持時間を超えて保持されている音圧推定候補点がないと判定された場合、すなわち最大経過フレーム数n_maxが閾値th_max以下である場合、処理はステップＳ４３へと進む。

ステップＳ４３において、音圧推定候補点更新部５２は、現フレームが突発性雑音の区間であるか否かを判定する。

例えば、音圧推定候補点更新部５２は、特徴量計算部５１から現フレームの特徴量として供給された突発性雑音情報Atk(n)が、予め定められた閾値th_atkより大きい場合、現フレームは突発性雑音の区間であると判定する。

ステップＳ４３において現フレームが突発性雑音の区間であると判定された場合、音圧推定候補点の更新は行なわれず、処理はステップＳ４９に進む。

例えば、音圧推定候補点として、突発性雑音が含まれるフレームが選択された場合、そのフレームを用いて推定音圧を求めると、推定音圧として、本来収音したい音声の音圧を正しく得ることができなくなってしまうことがある。そこで、音圧推定候補点更新部５２は、現フレームが突発性雑音の含まれるフレームである場合には、そのフレームは推定音圧の算出に用いるのに不適切なフレームであるとして、音圧推定候補点から除外する。

これに対して、ステップＳ４３において現フレームが突発性雑音の区間でないと判定された場合、つまり突発性雑音情報Atk(n)が閾値th_atk以下である場合、処理はステップＳ４４に進む。

なお、現フレームが突発性雑音の区間であるか否かの判定では、突発性雑音情報Atk(n)と閾値th_atkを単に比較するのではなく、Ｐ個の音圧推定候補点の特徴量が加味されて判定が行なわれるようにしてもよい。

例えば、Ｐ個の音圧推定候補点の二乗平均平方根rms(n_p)の平均値が低いときには、閾値th_atkが低くなるように設定され、逆に二乗平均平方根rms(n_p)の平均値が高いときには、閾値th_atkが高くなるように設定されるようにしてもよい。このようにすることで、入力音声信号の過去のフレームの音圧に応じて、適切な感度で突発性雑音を検出することができる。つまり、突発性雑音検出の感度を適切に変更することができる。

ステップＳ４４において、音圧推定候補点更新部５２は、特徴量計算部５１から特徴量として供給された経過フレーム数ｎ_pに基づいて、時間方向に隣接する音圧推定候補点間の時間間隔の最小値である最小時間間隔を算出する。

具体的には、音圧推定候補点更新部５２は次式（１２）を計算することで、最小時間間隔ndiff_minを算出する。

すなわち式（１２）では、各ｐについて、隣接するフレームｎ_pの経過フレーム数ｎ_pと、フレームｎ_p-1の経過フレーム数ｎ_p-1（但し２≦ｐ≦Ｐ）との差分絶対値が求められ、それらの差分絶対値の最小値が、最小時間間隔ndiff_minとされる。

ステップＳ４５において、音圧推定候補点更新部５２は、保持している各音圧推定候補点におけるピーク値Pk(n_p)に基づいて次式（１３）を計算し、最小ピーク値Pk_minを算出する。

式（１３）では、Ｐ個の各音圧推定候補点におけるピーク値Pk(n_p)（但し、１≦ｐ≦Ｐ）のうちの最小のものが、最小ピーク値Pk_minとされる。

ステップＳ４６において、音圧推定候補点更新部５２は、ステップＳ４４で求めた最小時間間隔ndiff_minが、予め定めた閾値th_ndiff未満であるか否かを判定する。

ステップＳ４６において最小時間間隔ndiff_minが閾値th_ndiff未満であると判定された場合、処理はステップＳ４７へと進む。

ステップＳ４７において、音圧推定候補点更新部５２は、最小時間間隔ndiff_minを求めるのに用いた音圧推定候補点のうち、ピーク値Pk(n_p)が小さい方の音圧推定候補点を破棄対象のフレームとして選択する。つまり、最小時間間隔ndiff_minで並んでいる２つの音圧推定候補点のうち、よりピーク値が小さい方が破棄対象のフレームとされる。

このように、短い時間間隔で並んでいる音圧推定候補点の一方を破棄対象のフレームとし、音圧推定候補点から除外することで、音圧の高い特定の時間帯に音圧推定候補点が集中してしまうのを防ぐことができる。これにより、より適切な推定音圧を得ることができるようになる。

特に、最小時間間隔ndiff_minで並んでいる音圧推定候補点のうち、よりピーク値Pk(n_p)が小さい方の音圧推定候補点を破棄対象のフレームとして選択すれば、よりピーク値の大きいフレームが音圧推定に用いられることになる。これにより、録音される音声のクリップを抑制することができる。

なお、最小時間間隔ndiff_minと比較される閾値th_ndiffが、処理時間の経過とともに大きくなるようにしてもよい。そのような場合、隣接する音圧推定候補点間の時間間隔が時間とともに大きくなって、音圧推定候補点が分散されていくことになり、さらに適切な推定音圧を得ることができるようになる。

このようにして破棄対象のフレームが選択されると、その後、処理はステップＳ４７からステップＳ４２に進み、選択された破棄対象のフレームが破棄されて、現フレームが新たな音圧推定候補点とされる。

また、ステップＳ４６において最小時間間隔ndiff_minが閾値th_ndiff以上であると判定された場合、ステップＳ４８において、音圧推定候補点更新部５２は、現フレームのピーク値Pk(n)が、最小ピーク値Pk_min以上であるか否かを判定する。

ステップＳ４８において、現フレームのピーク値Pk(n)が最小ピーク値Pk_min以上であると判定された場合、音圧推定候補点更新部５２は、最小ピーク値Pk_minとなった音圧推定候補点を破棄対象のフレームとして選択し、処理はステップＳ４２に進む。

録音レベル自動設定装置４３では、録音される音声がクリップされないようにするため、なるべくピーク値の大きいフレームが音圧推定候補点とされる。そのため、現フレームのピーク値Pk(n)が最小ピーク値Pk_min以上である場合には、よりピーク値の大きい現フレームを新たな音圧推定候補点とするため、最小ピーク値Pk_minとなった音圧推定候補点が破棄される。

このようにして破棄対象のフレームが選択されると、ステップＳ４２において、選択された破棄対象のフレームが破棄され、現フレームが新たな音圧推定候補点とされる。

一方、ステップＳ４８において、現フレームのピーク値Pk(n)が最小ピーク値Pk_min未満であると判定された場合、処理はステップＳ４９に進む。この場合、現フレームは音圧推定候補点とはされない。

ステップＳ４８においてピーク値Pk(n)が最小ピーク値Pk_min未満であると判定されたか、ステップＳ４２において現フレームが新たな音圧推定候補点とされたか、またはステップＳ４３において現フレームは突発性雑音の区間であると判定されると、ステップＳ４９の処理が行なわれる。

すなわち、ステップＳ４９において、音圧推定候補点更新部５２は、各音圧推定候補点のフレーム番号を更新する。

例えば、音圧推定候補点更新部５２は、音圧推定候補点とされた各フレームに対して、各音圧推定候補点を識別するためのフレーム番号を付与し直す。具体的には、音圧推定候補点とされた各フレームに対して、時間的に古いものから順番にフレームｎ₁乃至フレームｎ_Pとされる。つまり、時間的に最も古い音圧推定候補点がフレームｎ₁とされる。

このようにして、適宜、音圧推定候補点が更新されると、音圧推定候補点更新部５２は、更新後の各音圧推定候補点の特徴量として保持している二乗平均平方根rms(n_p)を音圧推定部５３に供給し、音圧推定候補点更新処理は終了する。音圧推定候補点更新処理が終了すると、その後、処理は図５のステップＳ１６へと進む。

以上のようにして録音レベル自動設定装置４３は、現フレームの特徴量と、保持しているＰ個の音圧推定候補点の特徴量とに基づいて音圧推定候補点を更新する。このように、適宜、音圧推定候補点を更新していくことで、より適切な推定音圧を得ることができる。

［入力音声信号のゲイン調整について］
次に図７乃至図１０を参照して、以上において説明してきた入力音声信号のゲイン調整の具体的な例について、説明する。

なお、図７乃至図１０において、横軸は時間フレーム、つまり入力音声信号のフレーム番号を示しており、縦軸は音声信号の絶対音圧レベル（dB SPL(Sound Pressure Level)）を示している。

また、図７乃至図１０において、横軸の下側にある斜線が施された長方形は、録音されるべき音声の区間、つまり雑音ではない区間を示している。

図７には、入力音声信号、音圧推定候補点、および推定音圧の関係が示されている。

すなわち、実線の折れ線ＩＰＳ１１は、録音レベル自動設定装置４３に入力された入力音声信号の各フレームにおける絶対音圧レベルの最大値を表しており、端部に円が設けられた点線の各直線ＣＡ１１−１乃至直線ＣＡ１１−１０は、音圧推定候補点を表している。また、点線の折れ線ＥＴＭ１１は各フレームにおける推定音圧を表しており、一点鎖線の直線ＴＧＴ１１は目標音圧を表している。

なお、直線ＣＡ１１−１乃至直線ＣＡ１１−１０を表す円の図中、縦方向の位置には特に意味はなく、横方向の位置、つまり時間軸上の位置のみが意味を有しており、このことは以下の図８乃至図１０においても同様であるものとする。つまり、音圧推定候補点を表す直線に設けられた円の縦方向の位置は、特に意味を有さないものとする。また、以下、直線ＣＡ１１−１乃至直線ＣＡ１１−１０を特に区別する必要のない場合、単に直線ＣＡ１１とも称する。

図７の例では、直線ＣＡ１１で示される位置は、入力音声信号として、400フレーム分のデータが入力されたときの各音圧推定候補点の位置となっている。また、折れ線ＥＴＭ１１は、刻々と変化する音圧推定候補点によって、400フレームまで求められた、各フレームの推定音圧の履歴を示している。

この例では、各フレームにおいて直線ＴＧＴ１１で示される目標音圧と、折れ線ＥＴＭ１１で示される推定音圧との差がターゲットゲインとされる。そしてターゲットゲインの一部が現フレームの適用ゲインとされ、残りの一部が増幅器４１における次フレームの増幅率とされる。

したがって、デジタル化される前の入力音声信号が、前のフレームで求められた増幅率で増幅され、さらに増幅後の入力音声信号がデジタル化されて、録音レベル自動設定装置４３に入力される。そして、録音レベル自動設定装置４３では、入力された現フレームの入力音声信号が、現フレームの適用ゲインにより増幅され、その結果得られた信号が出力音声信号として出力される。

ここで、音圧推定候補点の更新をより分かり易く示すために、折れ線ＩＰＳ１１で示される入力音声信号に対して1200フレームまで処理が行なわれたときの様子を図８に示す。

なお、図８において、実線の折れ線ＩＰＳ１２は、録音レベル自動設定装置４３に入力された入力音声信号の各フレームにおける絶対音圧レベルの最大値を表しており、端部に円が設けられた点線の各直線ＣＡ１２−１乃至直線ＣＡ１２−１０は、音圧推定候補点を表している。また、点線の折れ線ＥＴＭ１２は各フレームにおける推定音圧を表しており、一点鎖線の直線ＴＧＴ１２は目標音圧を表している。

また、以下、直線ＣＡ１２−１乃至直線ＣＡ１２−１０を特に区別する必要のない場合、単に直線ＣＡ１２とも称する。

図７に示した折れ線ＩＰＳ１１、折れ線ＥＴＭ１１、および直線ＴＧＴ１１は、それぞれ図８の折れ線ＩＰＳ１２、折れ線ＥＴＭ１２、および直線ＴＧＴ１２の一部、つまり400フレーム目までの部分を示している。

図７に示したように、録音レベル自動設定装置４３に入力音声信号の400フレーム目までが入力された時点では、0フレーム目から400フレーム目までの区間に各直線ＣＡ１１で示される音圧推定候補点が集中している。

このような状態から順次、入力音声信号のフレームが入力されていくと、音圧推定候補点は、図７に示した状態から図８に示した状態へと変化していく。つまり、広い区間内にある程度の間隔で音圧推定候補点が点在する状態となる。

このように、入力音声信号の振幅のピーク値が大きなものを複数個集めて音圧推定候補点とし、随時、音圧推定候補点の更新を行なっていくことで、クリップ等を極力抑えながら適切な信号レベルで出力音声信号が記録されるように録音レベルを設定することができる。但し、このようにピーク値が大きなフレームを選択的に用いて音圧の推定を行う場合、突発的に生じた大きな雑音によって、適切な推定音圧が得られない場合がある。

例えば、図９に示すように、入力音声信号に突発性雑音が含まれていたとする。

なお、図９において、実線の折れ線ＩＰＳ１３は、録音レベル自動設定装置４３に入力された入力音声信号の各フレームにおける絶対音圧レベルの最大値を表しており、各直線ＣＡ１３−１乃至直線ＣＡ１３−１２は、音圧推定候補点を表している。また、折れ線ＥＴＭ１３は各フレームにおける推定音圧を表しており、直線ＴＧＴ１３は目標音圧を表している。

また、以下、直線ＣＡ１３−１乃至直線ＣＡ１３−１２を特に区別する必要のない場合、単に直線ＣＡ１３とも称する。

図９において、矢印ＮＺ１１および矢印ＮＺ１２に示す部分は、落下物によって発生した突発性雑音が含まれている部分（フレーム）であり、矢印ＮＺ１３に示す部分は、キーボードの打鍵音が含まれている部分である。

この例では、各音圧推定候補点を定めるときに、特徴量としての突発性雑音情報が用いられないように処理が行なわれている。まず、矢印ＮＺ１１により示される125フレーム目付近、つまり直線ＣＡ１３−２に示す位置のフレームで落下物による雑音によって特徴量としてのピーク値が大きくなるため、このフレームが音圧推定候補点とされる。その結果として、折れ線ＥＴＭ１３で示されるように、直線ＣＡ１３−２に示す位置のフレームで、推定音圧が約50dBSPLから約65dBSPLまで急激に変化している。

矢印ＮＺ１１に示される位置と同様に、矢印ＮＺ１２および矢印ＮＺ１３に示される位置のフレームにおいても、落下物による雑音やキーボードの打鍵音などの突発性雑音によって、それらのフレームが音圧推定候補点とされている。

すなわち、矢印ＮＺ１２に示される位置は、音圧推定候補点とされた直線ＣＡ１３−３に示す位置となっており、矢印ＮＺ１３に示される位置は、音圧推定候補点とされた直線ＣＡ１３−６に示す位置となっている。

このように、突発性雑音のフレームが音圧推定候補点とされると、推定音圧が大きくなり、適切な推定音圧を得ることができなくなってしまう。

そこで、このような突発的な雑音による悪影響を避けるため、録音レベル自動設定装置４３では、特徴量計算部５１において突発性雑音情報が求められ、音圧推定候補点更新部５２において突発性雑音情報が用いられて、音圧推定候補点の更新が行なわれる。

具体的には、突発性雑音情報に基づいて、現フレームが突発性雑音の区間であるかが判定され、現フレームが突発性雑音の区間である場合には、現フレームでは音圧推定候補点が更新されないようにされる。つまり、突発性雑音の区間である現フレームが音圧推定候補点とされないようにされる。これにより、入力音声信号の適切な推定音圧を得ることができるようになる。

例えば、図１０に示すように、録音レベル自動設定装置４３では、突発性雑音の区間が音圧推定候補点から除外されるので、折れ線ＥＴＭ１４に示すように入力音声信号に対して適切な推定音圧を得ることができる。

なお、図１０は、図９に示した入力音声信号と同じ信号が、録音レベル自動設定装置４３に入力されたときの各音圧推定候補点と推定音圧を示しており、図１０において図９における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。また、図１０において、各直線ＣＡ１４−１乃至直線ＣＡ１４−１２は音圧推定候補点を表しており、折れ線ＥＴＭ１４は各フレームにおける推定音圧を表している。

この例では、矢印ＮＺ１１乃至矢印ＮＺ１３に示される位置のフレーム、つまり突発性雑音が含まれるフレームは、音圧推定候補点として選択されておらず、図中、下側の斜線が施された長方形で示される音声の区間のフレームが音圧推定候補点とされている。その結果として、折れ線ＥＴＭ１４に示される推定音圧が、音声の区間に対して適切な大きさとなっている。

このように録音レベル自動設定装置４３では、音圧推定候補点更新処理によって、適切なフレームが音圧推定候補点として選択されるように、フレームごとに音圧推定候補点を更新していくので、適切な推定音圧を得ることができる。したがって、より高精度にターゲットゲインを求めることができ、適切なレベルの出力音声信号を得ることができる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）３０１，ROM（Read Only Memory）３０２，RAM（Random Access Memory）３０３は、バス３０４により相互に接続されている。

バス３０４には、さらに、入出力インターフェース３０５が接続されている。入出力インターフェース３０５には、入力部３０６、出力部３０７、記録部３０８、通信部３０９、及びドライブ３１０が接続されている。

入力部３０６は、キーボード、マウス、マイクロホンなどよりなる。出力部３０７は、ディスプレイ、スピーカなどよりなる。記録部３０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部３０９は、ネットワークインターフェースなどよりなる。ドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア３１１を駆動する。

以上のように構成されるコンピュータでは、CPU３０１が、例えば、記録部３０８に記録されているプログラムを、入出力インターフェース３０５及びバス３０４を介して、RAM３０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU３０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア３１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インターフェース３０５を介して、記録部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記録部３０８にインストールすることができる。その他、プログラムは、ROM３０２や記録部３０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

［１］
入力音声信号の注目フレームから特徴量を抽出する特徴量計算部と、
前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量を保持するとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点を更新する音圧推定候補点更新部と、
前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧を算出する音圧推定部と、
前記推定音圧に基づいて前記入力音声信号に対して適用するゲインを算出するゲイン算出部と、
前記ゲインに基づいて前記入力音声信号のゲイン調整を行なうゲイン適用部と
を備える音声処理装置。
［２］
前記特徴量計算部は、前記特徴量として、少なくとも前記注目フレームにおける前記入力音声信号の振幅のピーク値を算出し、
前記音圧推定候補点更新部は、前記音圧推定候補点の前記特徴量としての前記ピーク値の最小値よりも、前記注目フレームの前記ピーク値が大きい場合、前記最小値となる前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
［１］に記載の音声処理装置。
［３］
前記特徴量計算部は、前記特徴量として、少なくとも前記注目フレームの突発性雑音らしさを示す突発性雑音情報を算出し、
前記音圧推定候補点更新部は、前記突発性雑音情報に基づいて前記注目フレームが突発性雑音の含まれる区間であるとされた場合、前記注目フレームを前記音圧推定候補点としない
［１］または［２］に記載の音声処理装置。
［４］
前記音圧推定候補点更新部は、隣接する前記音圧推定候補点間のフレーム間隔のうちの最も短い前記フレーム間隔が所定の閾値より小さい場合、前記フレーム間隔が最も短くなる隣接する前記音圧推定候補点のうち、前記ピーク値が小さい前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
［２］に記載の音声処理装置。
［５］
前記所定の閾値は、時間の経過とともに大きくなるように定められる
［４］に記載の音声処理装置。
［６］
前記特徴量計算部は、前記特徴量として、少なくとも前記音圧推定候補点から前記注目フレームまでの経過フレーム数を算出し、
前記音圧推定候補点更新部は、前記音圧推定候補点の前記経過フレーム数の最大値が所定フレーム数より大きい場合、前記最大値をとる前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
［１］乃至［５］の何れかに記載の音声処理装置。
［７］
前記音声処理装置には、増幅部によりゲイン調整され、アナログ信号からデジタル信号に変換して得られた前記入力音声信号が入力され、
前記ゲイン算出部は、算出した前記ゲインに基づいて、前記ゲイン適用部におけるゲイン調整に用いるゲインと、前記増幅部におけるゲイン調整に用いるゲインとを算出する
［１］乃至［６］の何れかに記載の音声処理装置。

４３録音レベル自動設定装置，５１特徴量計算部，５２音圧推定候補点更新部，５３音圧推定部，５４ゲイン算出部，５５ゲイン適用部

Claims

入力音声信号の注目フレームから特徴量を抽出する特徴量計算部と、
前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量を保持するとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点を更新する音圧推定候補点更新部と、
前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧を算出する音圧推定部と、
前記推定音圧に基づいて前記入力音声信号に対して適用するゲインを算出するゲイン算出部と、
前記ゲインに基づいて前記入力音声信号のゲイン調整を行なうゲイン適用部と
を備える音声処理装置。
前記特徴量計算部は、前記特徴量として、少なくとも前記注目フレームにおける前記入力音声信号の振幅のピーク値を算出し、
前記音圧推定候補点更新部は、前記音圧推定候補点の前記特徴量としての前記ピーク値の最小値よりも、前記注目フレームの前記ピーク値が大きい場合、前記最小値となる前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
請求項１に記載の音声処理装置。
前記特徴量計算部は、前記特徴量として、少なくとも前記注目フレームの突発性雑音らしさを示す突発性雑音情報を算出し、
前記音圧推定候補点更新部は、前記突発性雑音情報に基づいて前記注目フレームが突発性雑音の含まれる区間であるとされた場合、前記注目フレームを前記音圧推定候補点としない
請求項２に記載の音声処理装置。
前記音圧推定候補点更新部は、隣接する前記音圧推定候補点間のフレーム間隔のうちの最も短い前記フレーム間隔が所定の閾値より小さい場合、前記フレーム間隔が最も短くなる隣接する前記音圧推定候補点のうち、前記ピーク値が小さい前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
請求項２に記載の音声処理装置。
前記所定の閾値は、時間の経過とともに大きくなるように定められる
請求項４に記載の音声処理装置。
前記特徴量計算部は、前記特徴量として、少なくとも前記音圧推定候補点から前記注目フレームまでの経過フレーム数を算出し、
前記音圧推定候補点更新部は、前記音圧推定候補点の前記経過フレーム数の最大値が所定フレーム数より大きい場合、前記最大値をとる前記音圧推定候補点を破棄し、前記注目フレームを新たな前記音圧推定候補点とする
請求項２に記載の音声処理装置。
前記音声処理装置には、増幅部によりゲイン調整され、アナログ信号からデジタル信号に変換して得られた前記入力音声信号が入力され、
前記ゲイン算出部は、算出した前記ゲインに基づいて、前記ゲイン適用部におけるゲイン調整に用いるゲインと、前記増幅部におけるゲイン調整に用いるゲインとを算出する
請求項２に記載の音声処理装置。
入力音声信号の注目フレームから特徴量を抽出し、
前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量を保持するとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点を更新し、
前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧を算出し、
前記推定音圧に基づいて前記入力音声信号に対して適用するゲインを算出し、
前記ゲインに基づいて前記入力音声信号のゲイン調整を行なう
ステップを含む音声処理方法。
入力音声信号の注目フレームから特徴量を抽出し、
前記入力音声信号の複数フレームのそれぞれを音圧推定候補点として、各前記音圧推定候補点の前記特徴量を保持するとともに、前記音圧推定候補点の前記特徴量と、前記注目フレームの前記特徴量とに基づいて、前記音圧推定候補点を更新し、
前記音圧推定候補点の前記特徴量に基づいて、前記入力音声信号の推定音圧を算出し、
前記推定音圧に基づいて前記入力音声信号に対して適用するゲインを算出し、
前記ゲインに基づいて前記入力音声信号のゲイン調整を行なう
ステップを含む処理をコンピュータに実行させるプログラム。