JP6447357B2 - オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム - Google Patents
オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム Download PDFInfo
- Publication number
- JP6447357B2 JP6447357B2 JP2015100661A JP2015100661A JP6447357B2 JP 6447357 B2 JP6447357 B2 JP 6447357B2 JP 2015100661 A JP2015100661 A JP 2015100661A JP 2015100661 A JP2015100661 A JP 2015100661A JP 6447357 B2 JP6447357 B2 JP 6447357B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- unit
- mask
- frequency division
- division unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 43
- 238000003672 processing method Methods 0.000 title claims description 8
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 19
- 238000009499 grossing Methods 0.000 claims description 17
- 230000001629 suppression Effects 0.000 claims description 17
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 description 26
- 238000001514 detection method Methods 0.000 description 20
- 238000000034 method Methods 0.000 description 20
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/1752—Masking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、ノイズを抑圧するオーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラムに関する。
オーディオ信号の伝送品質や認識精度の向上を目的として、オーディオ信号に混入したノイズ信号を抑圧する様々な技術が提案されている。従前のノイズ抑圧技術の一例としては、スペクトルサブトラクション(SS)法やコムフィルタ(櫛形フィルタ)法が挙げられる。
しかし、スペクトルサブトラクション法では、音声情報を用いずにノイズ情報のみでノイズ抑圧を行うため、音声信号の劣化や、ミュージカルノイズと呼ばれるトーン性ノイズが生じる問題があった。また、コムフィルタ法では、ピッチ周波数に誤差が生じると、音声信号が抑圧されたり、ノイズ信号が強調されたりする問題があった。
特許文献1には、スペクトルサブトラクション法やコムフィルタ法の課題を解決する音声処理装置が記載されている。
まず、特許文献1に記載の音声処理装置は、入力信号をフレーム毎に周波数分割してスペクトルを算出し、複数フレームのスペクトルに基づいて、ノイズスペクトルを推定する。そして、特許文献1に記載の音声処理装置は、推定したノイズスペクトルと、入力信号のスペクトルとに基づいて、入力信号の周波数分割単位毎に、音声成分であるか、またはノイズ成分であるかを識別する。
次に、特許文献1に記載の音声処理装置は、音声成分であると識別された周波数分割単位を強調する係数と、ノイズ成分であると識別された周波数分割単位を抑圧する係数とをそれぞれ生成する。そして、特許文献1に記載の音声処理装置は、これらの周波数分割単位毎の係数を入力信号に乗算し、ノイズ抑圧効果を得る。
しかしながら、特許文献1に記載の音声処理装置は、ノイズスペクトル推定精度、または、音声成分とノイズ成分との識別精度のいずれかにおいて、十分な精度が得られない場合があった。なぜならば、ノイズスペクトル推定と、周波数分割単位毎の音声成分とノイズ成分との識別とを、同じ周波数分割幅のスペクトルに基づいて行うためである。
ノイズスペクトル推定は、突発的なノイズ成分の影響を抑えるため、一定程度の周波数分割幅(例えば数百〜数千Hz程度)のスペクトルに基づいて行うことが望ましい。一方、音声成分とノイズ成分との識別は、正確な音声ピッチ検出を要することから、ノイズスペクトル推定よりも狭い周波数分割幅(例えば数十Hz程度)のスペクトルに基づいて行うことが望ましい。
従って、特許文献1に記載の音声処理装置においては、音声が劣化することがあり、また、ノイズ抑圧が不十分であった。
そこで本発明は、音声の劣化が少なく、かつ、ノイズを十分に抑圧できるオーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラムを提供することを目的とする。
本発明は、入力信号を所定のフレーム毎に分割し、第一の周波数分割単位毎の信号である第一の信号を生成する周波数領域変換部と、前記第一の周波数分割単位よりも広い第二の周波数分割単位毎の信号である第二の信号を生成するノイズ推定信号生成部と、前記第一の信号のピーク範囲を求めるピーク範囲検出部と、前記第二の信号を記憶する記憶部と、前記記憶部に記憶されている第二の信号に基づいて、前記第二の周波数分割単位毎に代表値を算出し、前記代表値と前記第二の信号とを前記第二の周波数分割単位毎に比較する信号比較部と、前記ピーク範囲と、前記信号比較部による比較結果とに基づいて、前記第一の周波数分割単位毎に抑圧または強調の度合いを決定するマスクを生成するマスク生成部と、前記第一の信号に、前記マスク生成部によって生成されたマスクを乗算するマスク適用部とを備えるオーディオ信号処理装置を提供する。
本発明は、入力信号を所定のフレーム毎に分割し、第一の周波数分割単位毎の信号である第一の信号を生成する周波数領域変換ステップと、前記第一の周波数分割単位よりも広い第二の周波数分割単位毎の信号である第二の信号を生成するノイズ推定信号生成ステップと、前記第一の信号のピーク範囲を求めるピーク範囲検出ステップと、前記第二の信号を記憶部に記憶する記憶ステップと、前記記憶部に記憶されている第二の信号に基づいて、前記第二の周波数分割単位毎に代表値を算出し、前記代表値と前記第二の信号とを前記第二の周波数分割単位毎に比較する信号比較ステップと、前記ピーク範囲と、前記信号比較ステップにおける比較結果とに基づいて、前記第一の周波数分割単位毎に抑圧または強調の度合いを決定するマスクを生成するマスク生成ステップと、前記第一の信号に、前記マスク生成ステップにおいて生成されたマスクを乗算するマスク適用ステップとを含むオーディオ信号処理方法を提供する。
本発明は、コンピュータに、入力信号を所定のフレーム毎に分割し、第一の周波数分割単位毎の信号である第一の信号を生成する周波数領域変換ステップと、前記第一の周波数分割単位よりも広い第二の周波数分割単位毎の信号である第二の信号を生成するノイズ推定信号生成ステップと、前記第一の信号のピーク範囲を求めるピーク範囲検出ステップと、前記第二の信号を記憶部に記憶させる記憶ステップと、前記記憶部に記憶されている第二の信号に基づいて、前記第二の周波数分割単位毎に代表値を算出し、前記代表値と前記第二の信号とを前記第二の周波数分割単位毎に比較する信号比較ステップと、前記ピーク範囲と、前記信号比較ステップにおける比較結果とに基づいて、前記第一の周波数分割単位毎に抑圧または強調の度合いを決定するマスクを生成するマスク生成ステップと、前記第一の信号に、前記マスク生成ステップにおいて生成されたマスクを乗算するマスク適用ステップとを実行させるオーディオ信号処理プログラムを提供する。
本発明のオーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラムによれば、音声の劣化が少なく、かつ、ノイズを十分に抑圧できる。
<実施の形態1>
以下、図面を参照して本発明の実施の形態1について説明する。図1に実施の形態1のオーディオ信号処理装置1のブロック図を示す。実施の形態1のオーディオ信号処理装置1は、信号入力部10、周波数領域変換部11、ノイズ推定信号生成部12、記憶部13、信号比較部14、ピーク範囲検出部15、マスク生成部16、マスク適用部17を有する。
以下、図面を参照して本発明の実施の形態1について説明する。図1に実施の形態1のオーディオ信号処理装置1のブロック図を示す。実施の形態1のオーディオ信号処理装置1は、信号入力部10、周波数領域変換部11、ノイズ推定信号生成部12、記憶部13、信号比較部14、ピーク範囲検出部15、マスク生成部16、マスク適用部17を有する。
信号入力部10、記憶部13はハードウェアにより構成される。また、周波数領域変換部11、ノイズ推定信号生成部12、信号比較部14、ピーク範囲検出部15、マスク生成部16、マスク適用部17は、CPUやDSP等の演算部により実行されるオーディオ信号処理プログラムにより実現される。この場合、オーディオ信号処理プログラムは、様々なコンピュータ可読媒体に格納され、コンピュータに供給される。プログラムにより実現される各構成要素はハードウェアによって構成されてもよい。
信号入力部10は、図示しない音声取得手段からオーディオ入力信号を取得する。そして、信号入力部10は、入力されたオーディオ入力信号をデジタル信号x(t)に変換する。tは時刻を示す。なお、入力されるオーディオ入力信号が既にデジタル値となっている場合、デジタル信号に変換するための構成は必要ない。
周波数領域変換部11は、信号入力部10から入力された信号x(t)を周波数領域の信号X(f,τ)に変換する。fは周波数、τはフレーム番号を示す。信号X(f,τ)は第一の信号である。周波数領域変換部11は、予め定めたフレーム長の窓関数により信号x(t)を分割し、分割したフレーム毎にFFT等の周波数領域への変換処理を施して周波数領域の信号X(f,τ)を生成する。周波数領域変換部11は、生成した信号X(f,τ)を、ノイズ推定信号生成部12、ピーク範囲検出部15、及びマスク適用部17へ供給する。
ノイズ推定信号生成部12は、周波数領域変換部11で生成した信号X(f,τ)を所定の周波数分割単位毎にグループ化することによって、信号X(f,τ)の周波数分割単位よりも広い周波数分割幅で分割したノイズ推定信号Y(f,τ)を生成する。具体的には、ノイズ推定信号生成部12は、信号X(f,τ)から振幅値a(f,τ)またはパワー値S(f,τ)を算出し、所定の周波数範囲の信号毎に、これらの値の和や平均値を求める。ノイズ推定信号Y(f,τ)は第二の信号である。
図2に、X(f,τ)とY(f,τ)との関係を示す模式図を示す。各ブロックは周波数分割単位毎の信号成分を示している。nはX(f,τ)の周波数分割数、mはY(f,τ)の周波数分割数である。
図2に示すY(f,τ)の周波数分割単位f’1は、同じく図2に示すX(f,τ)の周波数分割単位f1〜f4に基づいて生成したものである。同様にしてf’2はf5〜f8、f’3はf9〜f12、途中省略し、f’m−1はfn−15〜fn−8、f’mはfn−7〜fn、に基づいてそれぞれ生成したものである。後述するように、周波数分割幅は、周波数帯域によって異なるようにしてもよい。図2においても、例えば、f’1とf’mとは異なる周波数分割幅としている。
ノイズ推定信号生成部12は、生成したノイズ推定信号Y(f,τ)を、記憶部13及び信号比較部14へ供給する。周波数領域変換部11が、信号x(t)からノイズ推定信号Y(f,τ)を直接生成してもよい。この場合、周波数領域変換部11がノイズ推定信号生成部としても動作し、周波数領域変換部11とは別体のノイズ推定信号生成部12は不要となる。
ここで、ノイズ推定信号生成部12が、X(f,τ)よりも広い周波数分割幅でノイズ推定信号Y(f,τ)を生成する理由について説明する。突発的なノイズ信号、特にトーン性のノイズ信号が、信号入力部10へ入力された場合、数十Hz程度の周波数分割幅では、数百〜数千Hz程度の周波数分割幅と比較して、周波数分割単位におけるノイズ信号成分が占める割合が大きくなる。そうすると、後述する信号比較部14の判定処理において、ノイズと判定すべきところを音声と誤判定する確率が高くなる。
一方、同じく後述するピーク範囲検出部15では、音声を構成する各周波数成分が正確にピークとして表れるようにする必要がある。従って、周波数領域変換部11は、数十Hz程度の周波数分割幅で信号X(f,τ)を生成するのが望ましい。
このように、信号比較部14における処理と、ピーク範囲検出部15における処理とは、望ましい周波数分割幅が異なる。従って、周波数領域変換部11が信号X(f,τ)を生成する際と比較して広い周波数分割幅で、ノイズ推定信号生成部12はノイズ推定信号Y(f,τ)を別途生成する。
ノイズ推定信号生成部12は、各周波数帯域において以下の周波数分割幅でノイズ推定信号Y(f,τ)を生成することが望ましい。1kHz未満程度の周波数領域では100Hz〜300Hz程度、1kHz以上2kHz未満程度の周波数領域では300Hz〜500Hz程度、2kHz以上の周波数領域では1kHz〜2kHz程度の各周波数分割幅である。
記憶部13は、ノイズ推定信号生成部12で生成したノイズ推定信号Y(f,τ)を記憶する。具体的には、記憶部13は、後述する信号比較部14の判定において所定の条件を満たさずノイズと判定した周波数分割単位を記憶する。一方、記憶部13は、所定の条件を満たし、音声と判定した周波数分割単位は記憶しない。記憶部13が記憶する信号の時間長は、50〜200ms程度であることが望ましい。
なお、記憶部13は、全ての周波数分割単位と、信号比較部14の判定結果とを記憶し、信号比較部14は、ノイズと判定した周波数分割単位に基づいて、後述する代表値V(f)を算出してもよい。
信号比較部14は、記憶部13に記憶されているノイズ推定信号に基づいて、周波数分割単位毎に、平均値や中央値、最頻値等の代表値V(f)を算出する。ノイズ推定信号Y(f,τ)は、最新のフレームのノイズ推定信号を示す。同様にして、Y(f,τ−1)は、最新のフレームより1フレーム過去のフレームのノイズ推定信号を示し、Y(f,τ−2)は、最新のフレームより2フレーム過去のフレームのノイズ推定信号を示す。例えば、以下の式(1)を用いて、3フレームを用いた平均値を算出する。
V(f)=(Y(f,τ)+Y(f,τ−1)+Y(f,τ−2))/3 …(1)
V(f)=(Y(f,τ)+Y(f,τ−1)+Y(f,τ−2))/3 …(1)
信号比較部14は、式(1)のように、各フレームの信号を等価に扱う単純平均を代表値V(f)として算出してもよい。また、信号比較部14は、以下の式(2)のように、現在に近いフレームを重視した重み付けをして代表値V(f)を算出してもよい。
V(f)=0.5×Y(f,τ)+0.3×Y(f,τ−1)+0.2×Y(f,τ−2) …(2)
V(f)=0.5×Y(f,τ)+0.3×Y(f,τ−1)+0.2×Y(f,τ−2) …(2)
ここで、記憶部13は、過去のノイズ推定信号を記憶するのではなく、信号比較部14が算出した代表値V(f)を記憶してもよい。この場合、信号比較部14は、式(3)を用いて新たな代表値V(f)を算出し、記憶部13に記憶する。ここでαは、0<α<1を満たす値である。
V(f)=α×V(f)+(1−α)×Y(f,τ) …(3)
V(f)=α×V(f)+(1−α)×Y(f,τ) …(3)
次に、信号比較部14は、算出した代表値V(f)とノイズ推定信号Y(f,τ)とを比較し、所定の条件を満たしているか否かを判定する。具体的には、信号比較部14は、代表値V(f)とノイズ推定信号Y(f,τ)との差や比などの比較値を求め、比較値が所定の範囲に属するか否かを判定する。
上記の通り、信号比較部14は、過去のノイズ推定信号Y(f,τ)のうちノイズと判定した周波数分割単位に基づいて、代表値V(f)を算出する。従って、代表値V(f)との比較により突出した値を示すノイズ推定信号Y(f,τ)には、音声信号の周波数成分が含まれている確率が高い。
ここで、低周波数領域と高周波数領域とでは、ノイズの振幅値が異なるため、代表値V(f)とノイズ推定信号Y(f,τ)との比較に用いる所定の条件は、周波数帯域毎に設定することが望ましい。従って、Y(f,τ)/V(f)の比を用いて比較する場合、1kHz未満の周波数帯域では2〜3倍以上となる範囲が、1kHz以上の周波数帯域では1〜2倍以上となる範囲が、それぞれ望ましい所定の条件となる。
比較判定処理終了後、ピーク範囲検出部15は、信号X(f,τ)のスペクトルを用いてピーク周波数範囲を求める。
図3(a)は、音声を含む信号X(f,τ)のスペクトルを模式的に示す周波数分布図である。音声信号の周波数成分の振幅値は、その他の周波数成分よりも大きな振幅値を示す。従って、信号X(f,τ)のピーク周波数範囲を検出することで、音声信号の周波数成分が求められる。図3(b)の矢印区間の周波数範囲は、ピーク周波数範囲を示す。
次に、ピーク範囲検出部15が、ピーク周波数範囲を検出する具体例を示す。まず、ピーク範囲検出部15は、周波数領域変換部11で生成した周波数領域の信号X(f,τ)について、周波数軸方向における微分値を算出する。微分値が所定の傾きを示す範囲を算出することで、上に凸となる範囲であるピーク周波数範囲が求められる。
また、ピーク範囲検出部15は、スペクトルにローパスフィルタを適用して平滑化し、元のスペクトルと平滑化したスペクトルとの差または比が所定の範囲内となる周波数範囲を算出して、ピーク周波数範囲を求めてもよい。図3(c)は、破線で信号X(f,τ)の元のスペクトルを模式的に示し、実線で平滑化したスペクトルを模式的に示す周波数分布図である。この例では、実線と破線とが交わる点を境界とし、破線の値が実線の値より大きい範囲をピーク周波数として求めることができる。
ここで、低周波数領域と高周波数領域とでは、ピークの尖度が異なるため、ピーク範囲検出部15は、一定の周波数領域毎に判定方法を変更してもよい。例えば、微分値を用いる場合は、周波数領域毎に、傾きの範囲を変更すればよい。また、平滑化スペクトルと比較する場合は、周波数領域毎に平滑化の度合いを変更したり、平滑化スペクトルを並行移動したりすればよい。このように、ピーク周波数範囲の算出は、上記の方法に限らず、他の方法を採用してもよい。
マスク生成部16は、信号比較部14による判定結果(比較結果)と、ピーク範囲検出部15で検出したピーク周波数範囲とに基づいて、信号X(f,τ)の各周波数成分を抑圧または強調するマスクM(f,τ)を生成する。
具体的には、マスク生成部16は、信号比較部14において音声と判定し、かつ、ピーク範囲検出部15においてピーク範囲として検出した周波数成分を強調する周波数成分とし、他の周波数成分は抑圧する周波数成分とするマスクM(f,τ)を生成する。
ここで、各周波数成分における強調と抑圧の度合いは、代表値V(f)から動的に決定する方法と、代表値V(f)に応じた強調と抑圧の値を事前に決めておく方法とがある。前者の場合、マスク生成部16は、ノイズがない状態のスペクトルと、代表値V(f)とを比較して、ノイズがない状態のスペクトル相当に抑圧する抑圧係数を算出すればよい。後者の場合、マスク生成部16は、抑圧係数のテーブルを事前に定めておき、代表値V(f)に応じた抑圧係数をテーブルから選択すればよい。
マスク適用部17は、マスク生成部16で生成したマスクM(f,τ)を、信号X(f,τ)に乗算する。マスクM(f,τ)を乗算することで、信号X(f,τ)に含まれていたノイズの周波数成分は抑圧され、音声の周波数成分は強調される。マスク適用部17は、抑圧または強調をした信号X(f,τ)を出力する。
次に、図4を用いて実施の形態1のオーディオ信号処理装置の動作について説明する。以下に説明する動作は、本発明のオーディオ信号処理方法やオーディオ信号処理プログラムで実行される手順についても同様である。
周波数領域変換部11は、ステップS10にて、信号入力部10から入力される信号x(t)を予め定めたフレーム長の窓関数により分割する。
次に周波数領域変換部11は、ステップS11にて、分割したフレーム毎にFFT等の周波数領域への変換処理を施して周波数領域の信号X(f,τ)を生成する。周波数領域変換部11は、生成した信号X(f,τ)をノイズ推定信号生成部12、ピーク範囲検出部15、及びマスク適用部17へ供給する。
ノイズ推定信号生成部12は、ステップS12にて、信号X(f,τ)からノイズ推定信号Y(f,τ)を生成する。
信号比較部14は、ステップS13にて、記憶部13に記憶されているノイズ推定信号に基づいて、周波数分割単位毎に代表値V(f)を算出する。
信号比較部14は、ステップS14にて、所定の周波数範囲の全ての周波数分割単位について、ステップS15からステップS17までの各処理を完了したか否か判定する。完了した場合(ステップS14:YES、信号比較部14は、処理をステップS18に移行させる。完了していない場合(ステップS14:NO)、信号比較部14は、処理をステップS15に移行させる。
信号比較部14は、ステップS15にて、代表値V(f)とノイズ推定信号Y(f,τ)との差や比などの比較値を算出する。
信号比較部14は、ステップS16にて、比較値が所定の条件を満たしているか否かを判定する。比較値が所定の条件を満たしている場合(ステップS16:YES)、信号比較部14は、処理をステップS14に戻す。比較値が所定の条件を満たしていない場合(ステップS16:NO)、信号比較部14は、処理をステップS17に移行させる。
記憶部13は、ステップS17にて、ノイズ推定信号Y(f,τ)を記憶する。
ピーク範囲検出部15は、ステップS18にて、信号X(f,τ)のスペクトルを用いてピーク周波数範囲を求める。
マスク生成部16は、ステップS19にて、信号比較部14の結果と、ピーク範囲検出部15で検出したピーク周波数範囲とに基づいて、信号X(f,τ)の各周波数成分を抑圧または強調するマスクM(f,τ)を生成する。
マスク適用部17は、ステップS20にて、マスク生成部16で生成したマスクM(f,τ)を、信号X(f,τ)に乗算する。
以上の処理により、各周波数成分における音声またはノイズの判定を精度良く行うことができるため、音声の劣化が少なく、かつ、ノイズを十分に抑圧できる。
<実施の形態2>
以下、図面を参照して本発明の実施の形態2について説明する。図5に実施の形態2のオーディオ信号処理装置2のブロック図を示す。実施の形態2のオーディオ信号処理装置2は、実施の形態1のオーディオ信号処理装置1の構成に加えて、マスク記憶部20及びマスク平滑化部21を有する。従って、共通する構成については説明を省略する。
以下、図面を参照して本発明の実施の形態2について説明する。図5に実施の形態2のオーディオ信号処理装置2のブロック図を示す。実施の形態2のオーディオ信号処理装置2は、実施の形態1のオーディオ信号処理装置1の構成に加えて、マスク記憶部20及びマスク平滑化部21を有する。従って、共通する構成については説明を省略する。
マスク記憶部20は、マスク生成部16で生成したマスクM(f,τ)を所定のフレーム数だけ記憶する。実施の形態2においては、マスク記憶部20は、100ms程度のフレーム数のマスクを記憶しておくことが望ましい。マスク記憶部20は、所定フレーム数を超えた過去のマスクは破棄し、順次新たなマスクを記憶する。
マスク平滑化部21は、マスク記憶部20に記憶されたマスクを用いて、マスクM(f,τ)の平滑化処理を行う。具体的には、マスク平滑化部21は、二次元ガウシアンフィルタ等の平滑化フィルタを、時系列に並べたマスクに畳み込むことでマスクM(f,τ)を平滑化して平滑化マスクを生成する。マスク適用部17は、信号X(f,τ)に平滑化マスクを乗算する。
図6に、平滑化フィルタの一例を示す。図6に示す平滑化フィルタは、過去のフレームほど係数が小さく、かつ、平滑化する周波数成分に近接する周波数成分ほど係数が大きくなるような構成としている。
また、リアルタイム処理において、時系列で現在より後となる係数を畳み込むことはできないため、図6に示す平滑化フィルタは、現在のフレームより後のフレームにおける係数は全て0としている。
以上の処理により、時間軸方向及び周波数軸方向において滑らかに連続した係数のマスクを用いて強調または抑圧をするため、ノイズ抑圧と自然な音声とを両立する処理が実現できる。
1,2 オーディオ信号処理装置
10 信号入力部
11 周波数領域変換部
12 ノイズ推定信号生成部
13 記憶部
14 信号比較部
15 ピーク範囲検出部
16 マスク生成部
17 マスク適用部
20 マスク記憶部
21 マスク平滑化部
10 信号入力部
11 周波数領域変換部
12 ノイズ推定信号生成部
13 記憶部
14 信号比較部
15 ピーク範囲検出部
16 マスク生成部
17 マスク適用部
20 マスク記憶部
21 マスク平滑化部
Claims (5)
- 入力信号を所定のフレーム毎に分割し、第一の周波数分割単位毎の信号である第一の信号を生成する周波数領域変換部と、
前記第一の周波数分割単位よりも広い第二の周波数分割単位毎の信号である第二の信号を生成するノイズ推定信号生成部と、
前記第一の信号のピーク範囲を求めるピーク範囲検出部と、
前記第二の信号を記憶する記憶部と、
前記記憶部に記憶されている第二の信号に基づいて、前記第二の周波数分割単位毎に代表値を算出し、前記代表値と前記第二の信号とを前記第二の周波数分割単位毎に比較する信号比較部と、
前記ピーク範囲と、前記信号比較部による比較結果とに基づいて、前記第一の周波数分割単位毎に抑圧または強調の度合いを決定するマスクを生成するマスク生成部と、
前記第一の信号に、前記マスク生成部によって生成されたマスクを乗算するマスク適用部と、
を備えるオーディオ信号処理装置。 - 前記ノイズ推定信号生成部は、前記第一の信号を所定の周波数分割単位毎にグループ化し、前記第二の信号を生成する請求項1に記載のオーディオ信号処理装置。
- 前記マスクを記憶するマスク記憶部と、
前記マスク記憶部に記憶された複数のマスクに基づいて、予め定めた平滑化フィルタを用いて平滑化マスクを生成するマスク平滑化部と、
をさらに備え、
前記マスク適用部は、前記第一の信号に、前記マスクとして前記平滑化マスクを乗算する請求項1または2に記載のオーディオ信号処理装置。 - 入力信号を所定のフレーム毎に分割し、第一の周波数分割単位毎の信号である第一の信号を生成する周波数領域変換ステップと、
前記第一の周波数分割単位よりも広い第二の周波数分割単位毎の信号である第二の信号を生成するノイズ推定信号生成ステップと、
前記第一の信号のピーク範囲を求めるピーク範囲検出ステップと、
前記第二の信号を記憶部に記憶する記憶ステップと、
前記記憶部に記憶されている第二の信号に基づいて、前記第二の周波数分割単位毎に代表値を算出し、前記代表値と前記第二の信号とを前記第二の周波数分割単位毎に比較する信号比較ステップと、
前記ピーク範囲と、前記信号比較ステップにおける比較結果とに基づいて、前記第一の周波数分割単位毎に抑圧または強調の度合いを決定するマスクを生成するマスク生成ステップと、
前記第一の信号に、前記マスク生成ステップにおいて生成されたマスクを乗算するマスク適用ステップと、
を含むオーディオ信号処理方法。 - コンピュータに、
入力信号を所定のフレーム毎に分割し、第一の周波数分割単位毎の信号である第一の信号を生成する周波数領域変換ステップと、
前記第一の周波数分割単位よりも広い第二の周波数分割単位毎の信号である第二の信号を生成するノイズ推定信号生成ステップと、
前記第一の信号のピーク範囲を求めるピーク範囲検出ステップと、
前記第二の信号を記憶部に記憶させる記憶ステップと、
前記記憶部に記憶されている第二の信号に基づいて、前記第二の周波数分割単位毎に代表値を算出し、前記代表値と前記第二の信号とを前記第二の周波数分割単位毎に比較する信号比較ステップと、
前記ピーク範囲と、前記信号比較ステップにおける比較結果とに基づいて、前記第一の周波数分割単位毎に抑圧または強調の度合いを決定するマスクを生成するマスク生成ステップと、
前記第一の信号に、前記マスク生成ステップにおいて生成されたマスクを乗算するマスク適用ステップと、
を実行させるオーディオ信号処理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015100661A JP6447357B2 (ja) | 2015-05-18 | 2015-05-18 | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム |
PCT/JP2016/056204 WO2016185757A1 (ja) | 2015-05-18 | 2016-03-01 | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム |
US15/814,875 US10388264B2 (en) | 2015-05-18 | 2017-11-16 | Audio signal processing apparatus, audio signal processing method, and audio signal processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015100661A JP6447357B2 (ja) | 2015-05-18 | 2015-05-18 | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016218160A JP2016218160A (ja) | 2016-12-22 |
JP6447357B2 true JP6447357B2 (ja) | 2019-01-09 |
Family
ID=57319801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015100661A Active JP6447357B2 (ja) | 2015-05-18 | 2015-05-18 | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10388264B2 (ja) |
JP (1) | JP6447357B2 (ja) |
WO (1) | WO2016185757A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021024471A1 (ja) * | 2019-08-08 | 2021-02-11 | 日本電気株式会社 | 雑音推定装置、移動物体音検出装置、雑音推定方法、移動物体音検出方法及び非一時的なコンピュータ可読媒体 |
CN113990340A (zh) * | 2021-11-22 | 2022-01-28 | 北京声智科技有限公司 | 音频信号的处理方法、装置、终端及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2861238B2 (ja) * | 1990-04-20 | 1999-02-24 | ソニー株式会社 | ディジタル信号符号化方法 |
FI97758C (fi) * | 1992-11-20 | 1997-02-10 | Nokia Deutschland Gmbh | Järjestelmä audiosignaalin käsittelemiseksi |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
JP3454206B2 (ja) * | 1999-11-10 | 2003-10-06 | 三菱電機株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
JP4445460B2 (ja) | 2000-08-31 | 2010-04-07 | パナソニック株式会社 | 音声処理装置及び音声処理方法 |
JP2002140100A (ja) * | 2000-11-02 | 2002-05-17 | Matsushita Electric Ind Co Ltd | 騒音抑圧装置 |
JP4757775B2 (ja) * | 2006-11-06 | 2011-08-24 | Necエンジニアリング株式会社 | 雑音抑圧装置 |
US8218783B2 (en) * | 2008-12-23 | 2012-07-10 | Bose Corporation | Masking based gain control |
ATE550754T1 (de) * | 2009-07-30 | 2012-04-15 | Nxp Bv | Verfahren und vorrichtung zur aktiven geräuschsminderung unter anwendung von wahrnehmungsmaskierung |
-
2015
- 2015-05-18 JP JP2015100661A patent/JP6447357B2/ja active Active
-
2016
- 2016-03-01 WO PCT/JP2016/056204 patent/WO2016185757A1/ja active Application Filing
-
2017
- 2017-11-16 US US15/814,875 patent/US10388264B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20180075833A1 (en) | 2018-03-15 |
US10388264B2 (en) | 2019-08-20 |
JP2016218160A (ja) | 2016-12-22 |
WO2016185757A1 (ja) | 2016-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6260504B2 (ja) | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム | |
JP4670483B2 (ja) | 雑音抑圧の方法及び装置 | |
EP2828856B1 (en) | Audio classification using harmonicity estimation | |
JP4886715B2 (ja) | 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体 | |
JP2018521366A (ja) | 音響信号をサウンドオブジェクトに分解する方法及びシステム、サウンドオブジェクト及びその利用 | |
RU2719543C1 (ru) | Устройство и способ для определения предварительно определенной характеристики, относящейся к обработке искусственного ограничения частотной полосы аудиосигнала | |
JP6174856B2 (ja) | 雑音抑制装置、その制御方法、及びプログラム | |
WO2005124739A1 (ja) | 雑音抑圧装置および雑音抑圧方法 | |
JP6439682B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP2014122939A (ja) | 音声処理装置および方法、並びにプログラム | |
JP2005346078A (ja) | 2つの調波信号の共通源の判定方法 | |
JP6447357B2 (ja) | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム | |
US10297272B2 (en) | Signal processor | |
JP5609157B2 (ja) | 係数設定装置および雑音抑圧装置 | |
JP2013246418A (ja) | 雑音抑圧装置、方法及びプログラム | |
JP2019035935A (ja) | 音声認識装置 | |
JP7152112B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP6930089B2 (ja) | 音響処理方法および音響処理装置 | |
JP4968355B2 (ja) | 雑音抑圧の方法及び装置 | |
US20190122688A1 (en) | Sound processing method, apparatus for sound processing, and non-transitory computer-readable storage medium | |
JP2015031913A (ja) | 音声処理装置、音声処理方法、及びプログラム | |
US10109291B2 (en) | Noise suppression device, noise suppression method, and computer program product | |
JP6059130B2 (ja) | 雑音抑圧方法とその装置とプログラム | |
JP6329408B2 (ja) | 音声処理装置、音声処理装置の解析方法およびプログラム | |
JP5495858B2 (ja) | 音楽音響信号のピッチ推定装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6447357 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |