JP4469882B2 - 音響信号処理方法及び装置 - Google Patents

音響信号処理方法及び装置 Download PDF

Info

Publication number
JP4469882B2
JP4469882B2 JP2007212304A JP2007212304A JP4469882B2 JP 4469882 B2 JP4469882 B2 JP 4469882B2 JP 2007212304 A JP2007212304 A JP 2007212304A JP 2007212304 A JP2007212304 A JP 2007212304A JP 4469882 B2 JP4469882 B2 JP 4469882B2
Authority
JP
Japan
Prior art keywords
acoustic signal
weighting
input
signal processing
weighting factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007212304A
Other languages
English (en)
Other versions
JP2009047803A (ja
Inventor
皇 天田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007212304A priority Critical patent/JP4469882B2/ja
Priority to US12/192,670 priority patent/US20090048824A1/en
Publication of JP2009047803A publication Critical patent/JP2009047803A/ja
Application granted granted Critical
Publication of JP4469882B2 publication Critical patent/JP4469882B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

この発明は、入力音響信号中の雑音成分を抑圧可能な音響信号処理方法及び装置に関する。
携帯電話やコードレスホンで通話を行う場合、話者の声に混入する周囲の雑音は通話の妨げとなる。また、音声認識技術を実環境で利用する場合、周囲の雑音は認識率を下げる要因となりうる。このような雑音の問題を解決する方法の一つとして、ノイズキャンセラがしばしば用いられる。
非特許文献1及び2に開示された最小平均自乗誤差法(Minimum Mean-Square Error :MMSE)は、ノイズキャンセラの中でも雑音抑圧量や主観評価値が高く、総合的に優れた方式として広く用いられている手法の一つである。MMSE法では、マイクロホンからの入力音響信号の周波数成分毎に重み係数を乗じることによって、目的音響信号の推定値を得る。重み係数の決定には、入力音響信号に含まれる目的音響信号と雑音成分がそれぞれ独立なガウス分布に従うと仮定し、解析的に重み係数を求める手法を用いている。
一方、複数のマイクロホンを用いた雑音抑圧技術として非特許文献3が挙げられる。非特許文献3では、チャネル間のクロススペクトルを利用してウィナーフィルタを構成することで効果的に雑音抑圧を行う方法が示されている。
Y. Ephraim, D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator", IEEE Trans. ASSP vol. 32, 1109-1121, 1984. Y. Ephraim, D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator", IEEE Trans. ASSP vol. 33, 443-445, 1985. R.Zelinski, "A Microphone Array with Adaptive Post-filtering for Noise Reduction," IEEE ICASSP88 pp.2578-2581, 1988
目的音響信号や雑音成分にガウス分布のような統計モデルを適用して統計的に重み係数を求める方法は、複雑な関数計算が必要であり、計算量が増加するという問題がある。また、実際には目的音響信号や雑音成分は必ずしもガウス分布等の事前に仮定した統計モデルに従うとは限らず、目的音響信号や雑音成分の統計モデルからの乖離が大きい場合、求められる重み係数が適切でなく、雑音抑圧性能が低下するという問題がある。
本発明は、複雑な計算をせずに適切な重み係数を生成して高い雑音抑圧効果を実現することを可能とすることにある。
本発明の一第1の観点によると、重み付けされた学習用音響信号と該学習用音響信号に対応する目標音響信号によって定められた評価関数を最適化するように学習された、重み付けに用いる重み係数を少なくとも一つの辞書に用意するステップと;入力音響信号に含まれる雑音成分を推定するステップと;前記入力音響信号の前記雑音成分に依存する特徴量を求めるステップと;前記特徴量に対応する重み係数を前記辞書から選択するステップと;選択された重み係数を用いて前記入力音響信号に対して重み付けを行い、処理された出力音響信号を生成するステップと;を具備する音響信号処理方法を提供する。
本発明の第2の観点によると、複数チャネルの入力音響信号のチャネル間の相関を表す少なくとも一つの特徴量を算出するステップと;前記特徴量に従って少なくとも一つの辞書から学習によって事前に求められた重み係数を選択するステップと;前記複数チャネルの入力音響信号に対して重み付け加算を含む信号処理を行って統合音響信号を生成するステップと;前記統合音響信号に前記重み係数を用いて重み付けを行い、処理された出力音響信号を生成するステップと;を具備する音響信号処理方法を提供する。
本発明の第3の観点によると、重み付けされた学習用音響信号と該学習用音響信号に対応する目標音響信号によって定められた評価関数を最適化するように学習された、重み付けに用いる重み係数を少なくとも一つの辞書に用意する処理と;入力音響信号に含まれる雑音成分を推定する処理と;前記入力音響信号の前記雑音成分に依存する特徴量を求める処理と;前記特徴量に対応する重み係数を前記辞書から選択する処理と;選択された重み係数を用いて前記入力音響信号に対して重み付けを行い、処理された出力音響信号を生成する処理と;を含む音響信号処理をコンピュータに行わせるためのプログラムを提供する。
本発明の第4の観点によると、複数チャネルの入力音響信号のチャネル間の相関を表す少なくとも一つの特徴量を算出する処理と;前記特徴量に従って少なくとも一つの辞書から学習によって事前に求められた重み係数を選択する処理と;前記複数チャネルの入力音響信号に対して重み付け加算を含む信号処理を行って統合音響信号を生成する処理と;前記統合音響信号に前記重み係数を用いて重み付けを行い、処理された出力音響信号を生成する処理と;を含む音響信号処理をコンピュータに行わせるためのプログラムを提供する。
本発明によれば、学習により重み係数が得られるため、複雑な計算をせずに学習結果を参照するだけで重み係数を得ることが可能である。また、統計モデルを経由せずに信号の性質を直接重み係数に反映できるため、対象とする音声や雑音の統計的性質が統計モデルと異なる場合は、MMSE等の統計モデルを用いる手法よりも高い雑音抑圧効果を実現することが可能となる。
以下、本発明の実施形態について説明する。
(第1の実施形態)
図1に示されるように、本発明の第1の実施形態に従う音響信号処理装置では、複数(N)のマイクロホン101−1〜101−NからのNチャネルの入力音響信号が特徴量算出部102及び重み付部105−1〜105−Nに入力される。特徴量算出部102では、入力音響信号に含まれる雑音成分の推定を含む処理によって入力音響信号の特徴量が算出される。重み係数辞書103には、予め学習部100による事前学習により求められた多数の重み係数が格納されている。
選択部104では、特徴量算出部102により算出された特徴量に対応する重み係数が重み係数辞書103から選択される。重み付け部105-1〜105-Nでは、入力された入力音響信号に選択部104により選択された重み係数が乗じられることにより、雑音が抑圧された出力音響信号が生成される。
次に、図2のフローチャートを参照して本実施形態の処理手順について説明する。マイクロホン101−1〜Nから出力される電気信号、すなわち入力音響信号x1(t)〜xN(t)(Nは1以上)は、特徴量算出部102に入力される。特徴量算出部102では、入力音響信号x1(t)〜xN(t)に含まれる雑音成分が推定され(ステップS11)、雑音成分に依存する、入力音響信号x1(t)〜xN(t)の特徴量が算出される(ステップS12)。このような特徴量の例としては、次式で与えられる信号対雑音比(Signal-to-Noise Ratio:SNR)があげられる。
Figure 0004469882
ただし、SG及びNSはそれぞれ入力音響信号の信号成分及び雑音成分のパワー、nはチャネル番号(マイクロホン101−1〜101−Nの番号)、tは時刻である。
雑音成分の推定は通常、所望の信号成分(目的音響信号)の存在しない区間での入力音響信号を用いて行われる。式(1)のSNRn(t)を逐次更新してもよく、ある時間幅で平均化してもよい。
次に、選択部104においてSNRn(t)に対応する重み係数が重み係数辞書103から選択される(ステップS13)。重み係数辞書103には、事前にSNRn(t)毎に学習された重み係数が格納されている。学習の詳細については、後に詳しく説明する。
最後に、重み付け部105において選択部104で選択された重み係数を入力音響信号x1(t)〜xN(t)に乗じて重み付けを行うことで、雑音が抑圧された出力音響信号y1(t)〜yN(t)が生成される(ステップS14)。
重み係数辞書103においては、重み係数をチャネル毎に独立に用意してもよいし、チャネル間で共通としてもよい。マイクロホン101−1〜101−Nが隣接している場合は、チャネル間で重み係数を共通化することで、性能を落さずに重み係数辞書103に用いる記憶容量を減らすことが可能である。
特徴量算出部102においても、特徴量をチャネル毎に独立に算出してもよいが、入力音響信号x1(t)〜xN(t)の信号成分及び雑音成分のパワーを複数のチャネルに渡って平均化することで、統計的なばらつきを低減することも有効である。また、チャネル毎に独立に特徴量を求めて各特徴量を要素とするベクトル求め、多次元の特徴量とする等、特徴量の構成について種々の変形を行うことが可能である。
重み付け部105-1〜105-Nにおいて時間領域でのフィルタリングを行う場合、出力音響信号y1(t)〜yN(t)=yn(t)は重み係数wnと入力音響信号x1(t)〜xN(t)=xn(t)との畳み込みとして、次式で表される。
Figure 0004469882
ただし、重み係数はwn={wn(0), wn(1), ..., wn(L-1)}と表される。Lはフィルタ長である。
本実施形態によれば、事前学習により得られた重み係数辞書103から入力音響信号の特徴量に基づき重み付けに用いる重み係数を選択することにより、自動車内など雑音の種類が限られている環境の場合は、一般的な統計モデルを用いる手法に比べ、より効果的に雑音抑圧性能を向上させることができる。この場合、学習部100によってどのように事前学習を行うかが重要なポイントとなるが、詳細な学習方法に関しては以下の実施形態により説明する。
(第2の実施形態)
図3に示される本発明の第2の実施形態に係る音響信号処理装置では、マイクロホン101−1〜110−N(Nは1以上)からの入力音響信号はフーリエ変換部110−1〜110−Nに入力され、時間領域の信号から周波数領域の信号へと変換される。
特徴量算出部102は、フーリエ変換部110−1〜110-Nの出力信号から入力音響信号中の雑音成分を推定する推定雑音算出部108と、入力音響信号の事前SNRを算出する事前SNR算出部106、及び入力音響信号の事後SNRを算出する事後SNR算出部107を有する。算出された事前SNR及び事後SNRは選択部104に与えられ、重み係数辞書103から重み係数を選択するために用いられる。
重み付け部105-1〜105-Nでは、フーリエ変換部110−1〜110-Nからの出力信号に対して選択部104により選択された重み係数によって重み付けがなされる。重み付け後の信号は、フーリエ逆変換部111−1〜111−Nにより時間領域の出力音響信号とされる。
次に、本実施形態の動作原理について説明する。n番目のマイクロホン101−nからの入力音響信号xn(t)は、フーリエ変換部110−nにより周波数成分Yn(l,k)に変換される。lはフレーム番号、kは周波数番号である。フーリエ変換は通常、所定のフレーム長(Lサンプル)毎に行われ、K個の周波数成分が得られる。実際にはK個の周波数成分のほぼ半数は対称な成分であるため、それらを除いて処理することが一般的である。また、入力音響信号として周波数領域に変換された信号が入力される場合は、フーリエ変換部110−1〜110-Nは不要である。以降の説明では、チャネル番号nを省略し、Yn(l,k)をY(l,k)のように表記する。
本実施形態では、
Figure 0004469882
のように入力音響信号Y(l,k)が目的音響信号X(l,k)と雑音成分N(l,k)の和として表される場合に、目的音響信号の推定値X’(l,k)を求める。
雑音推定部108では、雑音の統計的性質、例えば最も簡単な例として雑音パワーの平均値(推定雑音パワーという)が推定される。推定雑音パワーの算出方法には様々の方法があるが、例えば雑音区間の検出を行い、検出された雑音区間の平均パワーを求めるといった手法が簡便である。他の方法として、Rainer Martin, "Noise power spectral density estimation based on optimal smoothing and minimum statistics, " IEEE Transactions on speech and audio processing, vol. 9, no. 5, pp. 504--512, July 2001.(文献4)や、文献4で挙げられている参考文献等にも詳細な記述があり、さまざまな手法が研究されている。
次に、事後SNR算出部107の動作を述べる。事後SNRは入力音響信号のパワーと雑音成分のパワーとの比で定義され、ここでは
Figure 0004469882
と表すことにする。ただし、R2(l,k)とλd(l,k)はそれぞれ第lフレームのk番目の帯域の入力音響信号のパワー(振幅スペクトルの2乗)と推定雑音成分のパワーである。
次に、事前SNR算出部106の動作を述べる。事前SNRは入力音響信号に含まれる目的音響信号のパワーと雑音成分のパワーとの比と定義される。目的音響信号は直接観測することができないため、事前SNRの推定値を求める。事前SNRの代表的な算出法として、例えば非特許文献1に記載された
Figure 0004469882
があげられる。ただし、G(l-1,k)は1フレーム前の重み係数、αは平滑化係数、P[ ]は[ ]内の値が負であればそれを0に置き換える演算である。事前SNRの算出法には、式(5)中のP[γ(l,k)-1]そのものを用いたり、あるいは式(5)中のαを適応的に変えたりするなど、さまざまな変形が考えられる。
上述した事前SNR及び事後SNRは、信号と雑音の比の形で表現されているが、分母と分子を独立に扱うことも可能である。例えば、事後SNRであれば式(4)の分母と分子を要素とする2次元ベクトル(R2(l,k),λd(l,k))で表し、事前SNRであれば式(5)の分子と分母を要素とする2次元ベクトルに分ける方法などがあげられる。また、これらの要素の一部を用いる方法(事前SNRの第1要素と事後SNRの合計3次元等)も可能である。さらに、他のチャネルの入力音響信号のSNRを含めることや、全チャネルの入力音響信号のSNRで一つの特徴量を構成し、全チャネルの入力音響信号間で当該一つの特徴量を共有することも可能である。
次に、選択部104の動作について説明する。選択部104では、特徴量算出部102から入力される事前SNRξ(l,k)と事後SNRγ(l,k)、すなわち特徴量f(l,k)=(ξ(l,k),γ(l,k))に対応する重み係数が重み係数辞書103から選択される。重み係数辞書103には、事前に学習された多数の重み係数が格納されている。
重み係数辞書103における特徴量f(l,k)=(ξ(l,k),γ(l,k))と重み係数W(l,k)との対応づけの方法としては、事前に複数の代表的な特徴量(代表点)と各々の特徴量に対応する重み係数を用意しておき、入力された特徴量に最も近い代表ベクトルを選択し、この代表ベクトルに対応する重み係数を出力する方法が簡便である。より一般的には、特徴量を入力とする関数Fを用いて、特徴量f(l,k)=(ξ(l,k),γ(l,k))と重み係数W(l,k)との対応付けは、以下のように表される。
Figure 0004469882
最後に、重み付部105においては以下のように入力スペクトル、すなわちフーリエ変換部110〜110-Nからの周波数領域の信号に重み係数を乗じて、目的音響信号の推定値を求める。
Figure 0004469882
また、必要に応じて(7)式の信号にフーリエ逆変換部111−1〜111−Nにおいて逆変換を行い、時間領域の信号としてもよい。または、式(7)の逆変換にあたる時間領域の表現
Figure 0004469882
を用いることも可能である。ただし、*は式(2)に示した畳み込みを表し、これは時間領域のフィルタ処理として実現可能である。
非特許文献1及び2では、目的音響信号と雑音成分がガウス分布に従うという仮定をおき、重み係数W(l,k)を解析的に求めている。実際に扱う音響信号がこの仮定に近い統計的性質を示す場合、非特許文献1及び2の手法は効果的であるが、実際の音響信号は必ずしもガウス分布に従うとは限らない。ラブラス分布やガンマ分布を適用する研究もされているが、計算が煩雑であったり、近似的な解で妥協せざるを得なかったりする等の問題がある。さらに、実際の音響信号は、これらの分布に比べてもっと複雑な分布をしている場合も多く、統計モデルを仮定するという前提自体が問題となる場合も多い。
本実施形態では、この問題を解決するため、統計モデルを仮定するのではなく、実際に用いる目的音響信号と雑音成分に近い信号を用いて事前に式(6)の関数F( )を学習しておき、音響信号処理装置の実際の使用時に、この関数F( )に従い重み係数を決定する手法を用いる。その結果、学習時と似た環境に限定されはするが、その条件では良好な性能が得られるという効果がある。例えば、本実施形態に従う音響信号処理装置を自動車に搭載して用いる場合、走行雑音を用いて事前学習しておくことで走行時に良好な雑音抑圧性能を実現することが可能となる。
本実施形態のもう一つの利点は、重み係数辞書103に格納されている重み係数を入力音響信号の特徴量に基づき参照する構成となっているため、重み係数を複雑な算出式を用いて導出する必要がない点である。従来法においても、例えば事前SNRと事後SNRの離散的な値(1dB刻み等)で事前に重み係数を計算し、重み係数のテーブルデータとして備える方法で解決可能であるが、本実施形態によると重み係数のテーブルデータを実際に用いる環境により適した値とする方法を提供する。
以下、本実施形態における重み係数の学習方法について述べる。
まず、入力音響信号として学習用音響信号を用意し、理想出力音響信号として目標音響信号を用意する。例えば、雑音に埋もれた音声信号から音声のみ強調したい場合は、学習用音響信号は雑音が重畳した音声の信号であり、目標音響信号は音声のみの信号である。これらの信号は計算機上で雑音成分と音声信号を足し合わせたり、音声信号のみを用いたりすることで実現される場合が多い。
次に、学習用音響信号と目標音響信号をフレーム単位でフーリエ変換し、それぞれの周波数成分X(l,k),S(l,k)を得る。ただし、lはフレーム番号、kは周波数成分番号である。次に、X(l,k)からは特徴量f(l,k)が算出される。f(l,k)は学習用入力音響信号のフレーム数得られるが、LBGアルゴリズム等のクラスタリングアルゴリズムにより所定の数のクラスタに分類される。各クラスタの重心は代表点として記憶され、処理時のクラスタリングに用いられる。
重み係数は所定の評価関数を設定し、クラスタ毎にその評価関数の最適化により求められる。例えば、i番目のクラスタCiに分類された学習用音響信号X(l,k)の振幅に重みWi(k)を乗じた信号と、これに対応する目標音響信号S(l,k)の振幅の誤差のパワーの総和で以下の評価関数
Figure 0004469882
を定義し、Ji(k)を最小化するWi(k)を求めることを考える。これはJi(k)をWi(k)で偏微分し、ゼロと置くことで
Figure 0004469882
と求められる。Wi(k)は、周波数成分k毎にクラスタ数分求められる。
式(9)の評価関数では、クラスタCiに分類された全てのフレームを同一の尺度で扱っているが、フレーム毎に異なる尺度を用いても良い。例えば
Figure 0004469882
のように、誤差のパワーの加重和を評価関数とすることも可能である。A(l,k)を音声区間に相当するフレームは大きな値とすることで、音声区間を重視した重み係数Wi(k)を得られるなど、目的に応じて重み係数を制御することが可能となる。
本実施形態では、周波数成分k毎に重み係数を求めたが、複数の周波数成分の組で構成されるサブバンド単位で重み係数を求めることも可能である。その場合、p番目のサブバンドの評価関数Q(p)は、例えば当該サブバンドに該当する周波数成分kの歪みの和として
Figure 0004469882
と表す方法が簡便である。重み係数Wi(k)については、前述と同様の手法で評価関数の最小化により求めることができる。
(第3の実施形態)
次に、図4を用いて本発明の第3の実施形態について説明する。図4の音響信号処理装置では、重み付部105の前段に重み係数算出部120が追加されている点を除いて、第2の実施形態と同様である。式(6)では、特徴量(ξ(n,k),γ(n,k))から直接重み係数を決定しているが、本実施形態では重み係数を決定するパラメータを選択する。すなわち、
Figure 0004469882
で示されるように、F( )で得られた係数をパラメータとする関数P{ }を用いて重み係数を決定する。例えば、簡便な雑音抑圧手法としてよく用いられる、S.F.Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction," IEEE Trans. ASSP vol. 27, pp.113-120, 1979.(文献5)に記載されたスペクトルサブトラクションでは、目的音響信号の振幅の推定値は
Figure 0004469882
と表される。ただし、N(n,k)は推定雑音の振幅でsqrt(λd(n,k))に等しい。X'(n,f)の位相情報はY(n,f)の位相情報を用いるという一般的な手法に従えば、式(14)は
Figure 0004469882
と変形できる。式(15)の右辺第1項を
Figure 0004469882
と表すと、
Figure 0004469882
となり、式(7)と同じ形式で表すことができる。ここで、重み係数辞書103から選択されるパラメータをβとする、すなわち重み係数辞書103からβ=F(ξ(n,k),γ(n,k))が選択される構成とし、関数P( )を
Figure 0004469882
と定義して、重み係数Gss(n,k)を表す。このように重み係数辞書103から重み係数を直接得ずに、重み係数のパラメータ(β)を選択する構成とすることで、学習時におけるパラメータの推定精度の向上が期待できる。
(第4の実施形態)
本発明の第4の実施形態に係る音響信号処理装置では、図5に示されるように第2の実施形態に係る図3の音響信号処理装置から事前SNR算出部106が除去されている。本実施形態によると、選択部104に入力される特徴量は事後SNRγ(l,k)のみであるため、第2の実施形態と比較して選択部104における代表点の探索速度が速くなるという利点がある。
(第5の実施形態)
本発明の第4の実施形態に係る音響信号処理装置では、図6に示されるように第2の実施形態に係る図3の音響信号処理装置から事後SNR算出部107が除去されている。本実施形態では、選択部104に入力される特徴量は事前SNRξ(l,k)のみであるため、第2の実施形態と比較して選択部104における代表点の探索速度が速くなるという利点がある。
(第6の実施形態)
図7は、本発明の第6の実施形態に係る音響信号処理装置であり、図2に示した第2の実施形態に係る音響信号処理装置に、制御信号401によって切り替わる切替器402が追加され、さらに複数の重み係数辞書103−1〜103Mを有している。図7では、簡単のため一つのマイクロホン101を用いた場合について示しているが、これまでと同様に複数のマイクロホンを用いてもよい。
次に、本実施形態の動作について述べる。本実施形態の動作は基本的には第2の実施形態と同じであるが、切替器402により重み係数辞書103−1〜103−Nを切り替えて用いる点が異なっている。制御信号401に従って、切り替え部402によりM個の重み係数辞書103−1〜103Mの1つが選択される。例えば、自動車での用途を考えた場合、重み係数辞書103−1〜103Mを種々の車速に対応させて用意し、車速に応じて切り替えて用いる。これによって車速毎に最適な重み係数辞書を用いることができるため、より高い雑音抑圧性能を実現することが可能となる。
(第7の実施形態)
図8は、本発明の第7の実施形態に係る音響信号処理装置であり、図7中の切替器402が重み付け加算器403に置き換えられている。重み付け加算器403では、複数の重み係数辞書103−1〜103−Nの全部から出力される重み係数または重み付け係数辞書103−1〜103−Nの一部から選択された重み係数に重み付け加算(加重平均)が施されることにより、スムージングされる。重み付け加算器403では、重み付け加算に固定の重み係数を用いてもよいし、制御信号に従って制御される可変の重み係数を用いてもよい。
(第8の実施形態)
図9に示されるように、本発明の第8の実施形態に従う音響信号処理装置では、複数(N)のマイクロホン101−1〜NからのNチャネルの入力音響信号がチャネル間特徴量算出部202及びアレー部201の重み付け部105−1〜105−Nに入力される。チャネル間特徴量算出部202では、入力音響信号のチャネル間の差異を表す特徴量(本明細書では、これをチャネル間特徴量と呼ぶ)が算出され、選択部204に渡される。選択部204では、多数の重み係数を格納した重み係数辞書203から、チャネル間特徴量に対応付けられた一つの重み係数が選択される。
一方、アレー部201において重み付け部105−1〜105−Nで重み付けされた入力音響信号は、加算器205で加算されることにより統合され、アレー部201から統合音響信号として出力される。統合音響信号は、雑音抑圧部206において選択部204により選択された重み係数に従って重み付けが行われ、目的音響信号(例えば、特定話者の声)が強調された出力音響信号が生成される。
次に、図10のフローチャートに従って本実施形態の処理手順を説明する。マイクロホン101−1〜101−Nから出力される入力音響信号(x1〜xNとする)は、チャネル間特徴量算出部202によってチャネル間特徴量が算出される(ステップS11)。ディジタル信号処理技術を用いる場合、入力音響信号x1〜xNは図示しないアナログ−ディジタル変換器により時間方向に離散化されたディジタル信号であり、例えば時間インデックスtを用いてx(t)と表される。入力音響信号x1〜xNが離散化されていれば、チャネル間特徴量も離散化される。チャネル間特徴量の具体例としては、後述するように入力音響信号x1〜xNの相関係数、クロススペクトル、SNR(信号対雑音比)を用いることができる。
次に、ステップS21で算出されたチャネル間特徴量に基づいて、選択部204により重み係数辞書203からチャネル間特徴量と対応付けられている重み係数が選択される(ステップS22)。すなわち、重み係数辞書203から選択された重み係数が取り出される。チャネル間特徴量と重み係数との対応付けは事前に決定されており、最も簡便には離散化されたチャネル間特徴量と重み係数を1対1に対応させておく方法がある。より効率的な対応付けの方法としては、LBGなどのクラスタリング手法を用いてチャネル間特徴量をグループ分けしておき、各グループに対して対応する重み係数を割り当てる方法もある。GMM(Gaussian mixture model)のような統計的な分布を利用して、各分布の出力の重み付け和で重み係数を対応付ける方法も考えられる。このように対応付けに関しては様々な方法が考えられ、計算量やメモリ量などを考慮して決定される。こうして選択部104により選択された重み係数Aは、雑音抑圧部206にセットされる。
一方、入力音響信号x1〜xNはアレー部201の重み付け部105−1〜105−Nにも送られ、ここで重み付け加算による指向性の制御が行われ統合音響信号が出力される(ステップS23)。
次に、統合音響信号に対して、雑音抑圧部206により重み係数Aで重み付けがなされ、音声信号が強調された出力音響信号が得られる(ステップS24)。
次に、チャネル間特徴量算出部202について詳しく述べる。チャネル間特徴量は、前述のようにN個のマイクロホン101−1〜NからのNチャネルの入力音響信号x1〜xNのチャネル間の関係を表す量であり、具体的には例えば相関係数、クロススペクトル、またはSNRなどがあげられる。相関係数は2つのマイクロホンからの入力音響信号をx(t),y(t)とした場合、
Figure 0004469882
と表せる。ただし、E{ }は期待値または時間平均値である。入力音響信号が2チャネルより多い場合には、例えば、
Figure 0004469882
と計算できる。ただし、xp(n),xq(n)は、各々p,q番目の入力音響信号であり、Σpqはxpとxqの重複を除く全ての組み合わせに関する和を表す。この相関係数は周波数領域では
Figure 0004469882
と表される。ただし、fは離散フーリエ変換により得られた周波数成分、Wx1x2(f)は入力信号間のクロススペクトル、Wx1x1(f)、Wx2x2(f)は入力音響信号x1(n),x2(n)のパワースペクトル、Σfは全周波数成分に対する和を表す。
特徴量としては、クロススペクトルWx1x2(f)やこれを正規化したγ(f)を用いることができる。また、クロススペクトルWx1x2(f)とパワースペクトルWx1x1(f), Wx2x2(f)を組にして3次元ベクトルとして特徴量を構成することも可能である。または、全チャネルのパワーを表すWx1x1(f)+Wx2x2(f)や、アレー出力のパワースペクトルWyy(f)と、クロススペクトルWx1x2(f)と組にして2次元ベクトルとして特徴量を構成することも可能である。さらに目的音響信号が存在しない区間を検出し、その区間のパワースペクトルWnn(f)を特徴量の一つとして用いたり、他の特徴量の補正(パワースペクトルから減算する等)に用いたりすることも可能である。周波数領域での表現も、時間領域の場合と同様の方法で3チャネル以上に拡張することができる。また、一般化相関関数等他の相関を表す手法を用いることもできる。一般化相関関数については、例えば "The Generalized Correlation Method for Estimation of Time Delay, C. H. Knapp and G. C. Carter, IEEE Trans, Acoust., Speech, Signal Processing", Vol.ASSP-24, No.4,pp.320-327(1976)(文献6)に記載されている。
SNRは、信号成分のパワーSと雑音成分のパワーNの割合であり、SNR=S/Nで定義される。通常、SNRはデシベル値に変換されて用いられる。Nに関しては、目的音響信号が存在しない区間で測定可能である。Sに関しては、直接観測できないため入力音響信号をそのまま用いる方法や、非特許文献1に開示されているDecision-Directed等の手法を用いて間接的に推定する方法が用いられる。SNRをチャネル毎に求め、特徴量とする方法のほかに、全チャネルに対するSNRの平均値や和をもって特徴量とすることも可能である。さらに、異なる算出方法によって得られるSNRを組にする方法でもよい。
次に、アレー部201について述べる。本実施形態では、アレー部201に関しては特に制限はなく、任意のアレーが利用可能である。簡単なアレーとしては遅延和アレーがあげられる。遅延和アレーは、目的方向の信号の位相差がゼロになるようにアレー重みWを調整し(同相化という)加算する方法である。Wは複素数であり、その偏角により同相化が図られる。適応型アレーの例としてはGriffiths-Jim型アレーや、DCMP(Directionally Constrained Minimization of Power:方向拘束付き電力最小化法)または最小分散ビームフォーマが有名である。このほか、近年ではICA(Independent Component Analysis )に基づく手法等さまざまな方法が提案されておりこれらの手法を用いて目的音響信号を強調する。
目的音響信号が強調された統合音響信号には、残留ノイズが含まれている。特に拡散性の雑音については、空間情報を用いて雑音抑圧を行うアレー処理では十分に抑圧することはできない。雑音抑圧部206では、このような雑音の抑圧を行う。従来から、このような雑音抑圧処理はポストフィルタと呼ばれアレー処理の一部として注目されている。従来法は、ウィナーフィルタに基づき重み係数を解析的に求める方法が主流である。
これに対して、本実施形態ではチャネル間特徴量に基づく重み係数の選択により雑音抑圧処理を実現する。具体的には、チャネル間特徴量に基づき、事前に学習された重み係数辞書203から重み係数を選択し、選択された重み係数を雑音抑圧部206において統合音響信号に畳み込むか、あるいは周波数領域での処理の場合は、選択された重み係数を雑音抑圧部206において統合音響信号に乗じることによって、雑音抑圧処理を実現する。
抑圧対象となる雑音成分が示すチャネル間特徴量の傾向を利用して、事前に重み係数を学習することで、学習時と類似の雑音環境下では高い抑圧性能を発揮することができる。学習には前述の目標音響信号との間の二乗誤差最小化尺度などを用いる。
(第9の実施形態)
図11に示される本発明の第9の実施形態に従う音響信号処理装置では、第8の実施形態に従う図9の音響信号処理装置に対して、Nチャネルの入力音響信号を周波数領域の信号に変換するためのフーリエ変換部110−1〜110−Nと、アレー処理及び雑音抑圧後の周波数領域の音響信号を時間領域の信号に戻すためのフーリエ逆変換部111が追加されている。さらに、フーリエ変換部110−1〜110−N及びフーリエ逆変換部111の追加に伴い、重み付け部105−1〜105−Nと加算部205を有するアレー部201及び雑音抑圧部206が周波数領域での重み付け部301−1〜301−Nと加算部305を有するアレー部301及び雑音抑圧部306に置き換えられている。
ディジタル信号処理技術の分野において周知のように、時間領域での畳み込み演算は周波数領域での積の演算で表される。本実施形態では、Nチャネルの入力音響信号をフーリエ変換部110−1〜110−Nにおいて周波数領域の信号に変換してからアレー処理及び雑音抑圧を行い、雑音抑圧後の信号についてフーリエ逆変換部111によりフーリエ逆変換を行い、時間領域の信号に戻している。従って、信号処理的には本実施形態は時間領域で処理を行う第8の実施形態と等価な処理を行っていることになる。この場合、加算部305からの出力信号Y(k)は式(2)に示したような畳み込みではなく、以下のように積の形で表される。
Figure 0004469882
ただし、kは周波数インデックスである。
同様に、雑音抑圧部306での演算も
Figure 0004469882
と積の形で表される。雑音抑圧部306からの出力信号Z(k)に対し、フーリエ逆変換部111においてフーリエ逆変換が行われることによって、時間領域の出力音響信号z(t)が得られる。雑音抑圧部306からの周波数領域の出力信号Z(k)をそのまま、例えば音声認識のパラメータとして利用することも可能である。
本実施形態のように入力音響信号を周波数領域に変換してから処理を行う利点としては、アレー部301および雑音抑圧部306のフィルタ次数によっては計算量が削減できる場合があることと、周波数帯域毎に独立に処理を行うことが可能であるため、残響など複雑な雑音にも対応しやすいことなどが挙げられる。
(第10の実施形態)
図12は、本発明の第10の実施形態に従う音響信号処理装置であり、第9の実施形態に従う図11の音響信号処理装置に対して、照合部501と代表点辞書502が追加されている。代表点辞書502には、図13に示すようにLBG法等により得られた複数(I)の代表点の特徴量がインデクスIDと対応付けられて格納されている。ここで代表点とは、チャネル間特徴量をクラスタリングしたときの各クラスタの代表点である。
図12の音響信号処理装置の処理手順は、図14のフローチャートに示される。ただし、図14ではフーリエ変換部110−1〜110−N及び逆フーリエ変換部111の処理については省略している。チャネル間特徴量算出部202において、フーリエ変換後のNチャネルの音響信号のチャネル間特徴量が算出される(ステップS31)。次に、各チャネル間特徴量と代表点辞書502に格納されている複数(I)の代表点の特徴量とが照合部501において照合され、両者間の距離が計算される(ステップS32)。
照合部501からチャネル間特徴量と代表点の特徴量との間の距離を最小にする代表点の特徴量を指し示すインデクスIDが選択部204に送られ、選択部204においてインデクスIDに対応する重み係数が重み係数辞書203から選択されて取り出される(ステップS33)。こうして選択部204で選択された重み係数は、雑音抑圧部306にセットされる。
一方、フーリエ変換部110−1〜110−Nにより周波数領域に変換された入力音響信号は、アレー部301の重み付け部304−1〜304−Nに入力されることにより、統合音響信号が得られる(ステップS34)。
次に、統合音響信号は雑音抑圧部306において、ステップS33でセットされた重係数に従って雑音が抑圧された出力信号が算出され、目的音声信号が強調された出力音響信号が得られる(ステップS35)。雑音抑圧部306からの出力音響信号は、フーリエ逆変換部111においてフーリエ逆変換が行われることによって、時間領域の出力音響信号とされる。
(第11の実施形態)
図15に示されるように、本発明の第11の実施形態に従う音響信号処理装置では、第9の実施形態で説明したチャネル間特徴量算出部202、重み係数辞書203及び選択部204をそれぞれ有する複数(M)の重み制御部600−1〜600−Mが備えられる。
重み制御部600−1〜600−Mは、制御信号601に従って入力切替器602及び出力切替器603によって切り替えられる。すなわち、マイクロホン101−1〜101−NからのNチャネルの入力音響信号セットは、入力切替器602によって重み制御部600−1〜600−Mのいずれかに入力され、チャネル間特徴量算出部202によってチャネル間特徴量が算出される。入力音響信号セットが入力された重み制御部では、選択部204によって重み係数辞書203からチャネル間特徴量に対応する重み係数が選択される。選択された重み係数は、出力切替器603を介して雑音抑圧部206に与えられる。
一方、重み付け部105−1〜105−NからのNチャネルの音響信号は、加算部205によって合成され、統合音響信号としてアレー部201から出力される。統合音響信号は、選択部204により選択された重み係数を用いて雑音抑圧部206で雑音抑圧が行われ、目的音声信号が強調された出力音響信号が生成される。
重み係数辞書203は、事前に実使用環境に近い音響環境での学習により作成される。実際には、種々の音響環境が想定される。例えば、自動車の車内の音響環境は、車種によって大きく異なる。重み制御部600−1〜600−M内の各々の重み係数辞書203は、それぞれ異なる音響環境の下で学習されている。従って、音響信号処理時の実使用環境に応じて重み制御部600−1〜600−Mを切り替え、実使用環境と同一もしくは最も類似した音響環境の下で学習された重み係数辞書203から、選択部204により選択される重み係数を用いて重み付けを行うことで、実使用環境に適した音響信号処理を行うことができる。
重み制御部600−1〜600−Mの切り替えのために用いる制御信号601は、例えばユーザによるボタン操作によって生成されてもよいし、信号対雑音比(SNR)のような、入力音響信号に起因するパラメータを指標として自動的に生成されてもよい。また、車速等の外部からのパラメータを指標として生成されてもよい。
重み制御部600−1〜600−M内にそれぞれチャネル間特徴量算出部202を備えた場合、重み制御部600−1〜600−Mのそれぞれに対応する音響環境に適したチャネル間特徴量の算出方法やパラメータを用いることで、より的確なチャネル間特徴量を算出することが期待される。
以上説明した本発明の実施形態に基づく音響信号処理は、ハードウェアでも実現可能であるが、パーソナルコンピュータのようなコンピュータを用いてソフトウェアにより実行することも可能である。従って、本発明によれば以下に挙げるようなプログラム、あるいは当該プログラムを格納したコンピュータ読み取り可能な記憶媒体を提供することができる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
第1の実施形態に係る音響信号処理装置を示すブロック図 第1の実施形態における処理手順を示すフローチャート 第2の実施形態に係る音響信号処理装置を示すブロック図 第3の実施形態に係る音響信号処理装置を示すブロック図 第4の実施形態に係る音響信号処理装置を示すブロック図 第5の実施形態に係る音響信号処理装置を示すブロック図 第6の実施形態に係る音響信号処理装置を示すブロック図 第7の実施形態に係る音響信号処理装置を示すブロック図 第8の実施形態に係る音響信号処理装置を示すブロック図 第8の実施形態における処理手順を示すフローチャート 第9の実施形態に係る音響信号処理装置を示すブロック図 第10の実施形態に係る音響信号処理装置を示すブロック図 図12中の代表点辞書の内容を示す図 第10の実施形態の処理手順を示すフローチャート 第11の実施形態に係る音響信号処理装置を示すブロック図
符号の説明
100・・・学習部
101−1〜101−N・・・マイクロホン
102・・・特徴量算出部
103・・・重み係数辞書
104・・・選択部
105−1〜105−N・・・重み付け部
106・・・事前SNR算出部
107・・・事後SNR算出部
108・・・推定雑音算出部
110−1〜110-N・・・フーリエ変換部
111−1〜111−N・・・フーリエ逆変換部
120・・・重み係数算出部
201・・・アレー部
202・・・チャネル間特徴量算出部
203・・・重み係数辞書
204・・・選択部
205・・・加算器
206・・・雑音抑圧部
401・・・制御信号
402・・・切替器
403・・・重み付け加算器
501・・・照合部
502・・・代表点辞書
600−1〜600−M・・・重み制御部
601・・・制御信号
602・・・入力切替部
603・・・出力切替部

Claims (22)

  1. 重み付けされた学習用音響信号と該学習用音響信号に対応する目標音響信号によって定められた評価関数を最適化するように学習された、雑音抑圧のための重み付けに用いる重み係数を少なくとも一つの辞書に用意するステップと;
    入力音響信号に所望成分が存在しない期間において、前記入力音響信号に含まれる雑音成分を推定するステップと;
    推定された雑音成分に基づいて、前記入力音響信号の前記雑音成分に依存する特徴量を求めるステップと;
    前記特徴量に対応する重み係数を前記辞書から選択するステップと;
    選択された重み係数を用いて前記入力音響信号に対してチャネル毎に個別に重み付けを行い、前記入力音響信号と同じチャネル数の処理された出力音響信号を生成するステップと;を具備する音響信号処理方法。
  2. 前記評価関数は、前記学習用音響信号と前記目標音響信号との間の誤差の総和であり、前記総和の最小化により前記評価関数は最適化される請求項1記載の音響信号処理方法。
  3. 前記特徴量に対応する重み係数を前記辞書から選択するステップは、前記特徴量と予め用意された複数の代表点との距離を求めるステップと、前記距離が相対的に小さくなる代表点を決定するステップと、前記距離が相対的に小さくなる代表点に対応付けられた重み係数を前記辞書から選択するステップと、を含む請求項1記載の音響信号処理方法。
  4. 前記出力音響信号を生成するステップは、前記選択された重み係数を予め定められた関数により変換するステップと、変換された重み係数を用いて前記入力音響信号に対して重み付けを行うステップと、を含む請求項1記載の音響信号処理方法。
  5. 前記特徴量を求めるステップは、前記入力音響信号に含まれる信号成分と前記雑音成分との間の信号対雑音比を求める請求項1記載の音響信号処理方法。
  6. 前記特徴量を求めるステップは、前記入力音響信号から前記雑音成分を除いた信号と前記雑音成分との間の信号対雑音比の推定値を求める請求項1記載の音響信号処理方法。
  7. 前記辞書を複数の辞書から音響環境に応じて選択するステップをさらに具備する含む請求項1乃至7のいずれか一項記載の音響信号処理方法。
  8. 前記重み係数は時間領域のフィルタ係数であり、前記入力音響信号と前記選択された重み係数との畳み込みによって前記重み付けを行う請求項1記載の音響信号処理方法。
  9. 前記重み係数は周波数領域のフィルタ係数であり、前記入力音響信号と前記選択された重み係数との積をとることによって前記重み付けを行う請求項1記載の音響信号処理方法。
  10. 重み付けされた学習用音響信号と該学習用音響信号に対応する目標音響信号によって定められた評価関数を最適化するように学習された、雑音抑圧のための重み付けに用いる重み係数が格納された辞書と;
    入力音響信号に所望成分が存在しない期間において、前記入力音響信号に含まれる雑音成分を推定する推定部と;
    推定された雑音成分に基づいて、前記入力音響信号の前記雑音成分に依存する特徴量を算出する算出部と;
    前記特徴量に対応する重み係数を前記辞書から選択する選択部と;
    選択された重み係数を用いて前記入力音響信号に対してチャネル毎に個別に重み付けを行い、前記入力音響信号と同じチャネル数の処理された出力音響信号を生成する重み付け部と;を具備する音響信号処理装置。
  11. 複数チャネルの入力音響信号のチャネル間の相関を表す少なくとも一つの特徴量を算出するステップと;
    前記特徴量に従って少なくとも一つの辞書から学習によって事前に求められた雑音抑圧のための重み係数を選択するステップと;
    前記複数チャネルの入力音響信号に対して重み付け加算を含む信号処理を行って単一チャネルの統合音響信号を生成するステップと;
    前記統合音響信号に前記重み係数を用いて重み付けを行い、単一チャネルの処理された出力音響信号を生成するステップと;を具備する音響信号処理方法。
  12. 前記重み係数は、前記特徴量に予め対応付けられている請求項11記載の音響信号処理方法。
  13. 前記選択するステップは、前記特徴量と予め用意された複数の特徴量の代表点との間の距離を求めるステップと、前記距離が相対的に小さい一つの代表点を決定するステップと、を含み、
    前記重み係数は、前記代表点に予め対応付けられている請求項11記載の音響信号処理方法。
  14. 前記特徴量を算出するステップは、前記入力音響信号のチャネル間の相関係数を算出する請求項11記載の音響信号処理方法。
  15. 前記特徴量を算出するステップは、前記入力音響信号のチャネル間のクロススペクトルを算出する請求項11記載の音響信号処理方法。
  16. 前記特徴量を算出するステップは、前記入力音響信号の信号対雑音比を算出する請求項11記載の音響信号処理方法。
  17. 前記重み係数は時間領域のフィルタ係数であり、前記統合音響信号と前記重み係数との畳み込みによって前記重み付けを行う請求項11記載の音響信号処理方法。
  18. 前記重み係数は周波数領域のフィルタ係数であり、前記統合音響信号と前記重み係数の積をとることによって前記重み付けを行う請求項11記載の音響信号処理方法。
  19. 前記辞書を複数の辞書から音響環境に応じて選択するステップをさらに具備する請求項11記載の音響信号処理方法。
  20. 複数チャネルの入力音響信号のチャネル間の相関を表す少なくとも一つの特徴量を算出する算出部と;
    前記特徴量に従って少なくとも一つの辞書から雑音抑圧のための重み係数を選択する選択部と;
    前記複数チャネルの入力音響信号に対して重み付け加算を含む信号処理を行って単一チャネルの統合音響信号を生成する信号処理部と;
    前記統合音響信号に前記重み係数を用いて重み付けを行い、単一チャネルの処理された出力音響信号を生成する重み付け部と;を具備する音響信号処理装置。
  21. 重み付けされた学習用音響信号と該学習用音響信号に対応する目標音響信号によって定められた評価関数を最適化するように学習された、雑音抑圧のための重み付けに用いる重み係数を少なくとも一つの辞書に用意する処理と;
    入力音響信号に所望成分が存在しない期間において、前記入力音響信号に含まれる雑音成分を推定する処理と;
    推定された雑音成分に基づいて、前記入力音響信号の前記雑音成分に依存する特徴量を求める処理と;
    前記特徴量に対応する重み係数を前記辞書から選択する処理と;
    選択された重み係数を用いて前記入力音響信号に対してチャネル毎に個別に重み付けを行い、前記入力音響信号と同じチャネル数の処理された出力音響信号を生成する処理と;を含む音響信号処理をコンピュータに行わせるためのプログラム。
  22. 複数チャネルの入力音響信号のチャネル間の相関を表す少なくとも一つの特徴量を算出する処理と;
    前記特徴量に従って少なくとも一つの辞書から学習によって事前に求められた雑音抑圧のための重み係数を選択する処理と;
    前記複数チャネルの入力音響信号に対して重み付け加算を含む信号処理を行って単一チャネルの統合音響信号を生成する処理と;
    前記統合音響信号に前記重み係数を用いて重み付けを行い、単一チャネルの処理された出力音響信号を生成する処理と;を含む音響信号処理をコンピュータに行わせるためのプログラム。
JP2007212304A 2007-08-16 2007-08-16 音響信号処理方法及び装置 Expired - Fee Related JP4469882B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007212304A JP4469882B2 (ja) 2007-08-16 2007-08-16 音響信号処理方法及び装置
US12/192,670 US20090048824A1 (en) 2007-08-16 2008-08-15 Acoustic signal processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007212304A JP4469882B2 (ja) 2007-08-16 2007-08-16 音響信号処理方法及び装置

Publications (2)

Publication Number Publication Date
JP2009047803A JP2009047803A (ja) 2009-03-05
JP4469882B2 true JP4469882B2 (ja) 2010-06-02

Family

ID=40363638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007212304A Expired - Fee Related JP4469882B2 (ja) 2007-08-16 2007-08-16 音響信号処理方法及び装置

Country Status (2)

Country Link
US (1) US20090048824A1 (ja)
JP (1) JP4469882B2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949120B1 (en) * 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
DE602007004217D1 (de) * 2007-08-31 2010-02-25 Harman Becker Automotive Sys Schnelle Schätzung der Spektraldichte der Rauschleistung zur Sprachsignalverbesserung
JP5376635B2 (ja) * 2009-01-07 2013-12-25 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧処理選択装置,雑音抑圧装置およびプログラム
JP5605573B2 (ja) * 2009-02-13 2014-10-15 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
US9064499B2 (en) * 2009-02-13 2015-06-23 Nec Corporation Method for processing multichannel acoustic signal, system therefor, and program
CN101986386B (zh) * 2009-07-29 2012-09-26 比亚迪股份有限公司 一种语音背景噪声的消除方法和装置
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
JP4869420B2 (ja) * 2010-03-25 2012-02-08 株式会社東芝 音情報判定装置、及び音情報判定方法
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
US20120306823A1 (en) * 2011-06-06 2012-12-06 Apple Inc. Audio sensors
GB2494204B (en) * 2011-09-05 2017-05-24 Roke Manor Research Method and apparatus for signal detection
US20130066452A1 (en) * 2011-09-08 2013-03-14 Yoshiyuki Kobayashi Information processing device, estimator generating method and program
US8879761B2 (en) 2011-11-22 2014-11-04 Apple Inc. Orientation-based audio
JP5865050B2 (ja) * 2011-12-15 2016-02-17 キヤノン株式会社 被検体情報取得装置
JP5705190B2 (ja) * 2012-11-05 2015-04-22 日本電信電話株式会社 音響信号強調装置、音響信号強調方法、およびプログラム
JP5784075B2 (ja) * 2012-11-05 2015-09-24 日本電信電話株式会社 信号区間分類装置、信号区間分類方法、およびプログラム
US9570087B2 (en) * 2013-03-15 2017-02-14 Broadcom Corporation Single channel suppression of interfering sources
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP6063843B2 (ja) * 2013-08-28 2017-01-18 日本電信電話株式会社 信号区間分類装置、信号区間分類方法、およびプログラム
US10149047B2 (en) * 2014-06-18 2018-12-04 Cirrus Logic Inc. Multi-aural MMSE analysis techniques for clarifying audio signals
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US10819414B2 (en) * 2018-03-26 2020-10-27 Intel Corporation Methods and devices for beam tracking
CN108735229B (zh) * 2018-06-12 2020-06-19 华南理工大学 基于信噪比加权的幅度与相位联合补偿抗噪语音增强方法
WO2020079957A1 (ja) * 2018-10-15 2020-04-23 ソニー株式会社 音声信号処理装置、雑音抑圧方法
TWI783084B (zh) * 2018-11-27 2022-11-11 中華電信股份有限公司 權重用量模型應用於動態選擇語音辨識通道的方法與系統
JP6854967B1 (ja) * 2019-10-09 2021-04-07 三菱電機株式会社 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
CN113689875B (zh) * 2021-08-25 2024-02-06 湖南芯海聆半导体有限公司 一种面向数字助听器的双麦克风语音增强方法和装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6473733B1 (en) * 1999-12-01 2002-10-29 Research In Motion Limited Signal enhancement for voice coding
WO2002031815A1 (en) * 2000-10-13 2002-04-18 Science Applications International Corporation System and method for linear prediction
EP1211636A1 (en) * 2000-11-29 2002-06-05 STMicroelectronics S.r.l. Filtering device and method for reducing noise in electrical signals, in particular acoustic signals and images
CA2354858A1 (en) * 2001-08-08 2003-02-08 Dspfactory Ltd. Subband directional audio signal processing using an oversampled filterbank
US7171008B2 (en) * 2002-02-05 2007-01-30 Mh Acoustics, Llc Reducing noise in audio systems
EP1395080A1 (en) * 2002-08-30 2004-03-03 STMicroelectronics S.r.l. Device and method for filtering electrical signals, in particular acoustic signals
JP4247037B2 (ja) * 2003-01-29 2009-04-02 株式会社東芝 音声信号処理方法と装置及びプログラム
JP2005249816A (ja) * 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
KR100657912B1 (ko) * 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
JP4249697B2 (ja) * 2004-12-24 2009-04-02 日本電信電話株式会社 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
JP4395772B2 (ja) * 2005-06-17 2010-01-13 日本電気株式会社 ノイズ除去方法及び装置
JP4896449B2 (ja) * 2005-06-29 2012-03-14 株式会社東芝 音響信号処理方法、装置及びプログラム
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment

Also Published As

Publication number Publication date
JP2009047803A (ja) 2009-03-05
US20090048824A1 (en) 2009-02-19

Similar Documents

Publication Publication Date Title
JP4469882B2 (ja) 音響信号処理方法及び装置
US9741360B1 (en) Speech enhancement for target speakers
Michelsanti et al. Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification
Luo et al. Real-time single-channel dereverberation and separation with time-domain audio separation network.
Subramanian et al. Speech enhancement using end-to-end speech recognition objectives
JP4195267B2 (ja) 音声認識装置、その音声認識方法及びプログラム
US8363850B2 (en) Audio signal processing method and apparatus for the same
WO2009110574A1 (ja) 信号強調装置、その方法、プログラム及び記録媒体
CN109979476B (zh) 一种语音去混响的方法及装置
JP2005249816A (ja) 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
MX2011001339A (es) Aparato y metodo para procesar una señal de audio para mejora de habla, utilizando una extraccion de caracteristica.
US9520138B2 (en) Adaptive modulation filtering for spectral feature enhancement
Zhang et al. Temporal convolutional network with frequency dimension adaptive attention for speech enhancement
JP2022529912A (ja) 深層フィルタを決定するための方法および装置
López-Espejo et al. Dual-channel spectral weighting for robust speech recognition in mobile devices
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
Doclo et al. Multimicrophone noise reduction using recursive GSVD-based optimal filtering with ANC postprocessing stage
Bohlender et al. Neural networks using full-band and subband spatial features for mask based source separation
CN114242104A (zh) 语音降噪的方法、装置、设备及存储介质
JP6361148B2 (ja) 雑音推定装置、方法及びプログラム
Bu et al. A robust nonlinear microphone array postfilter for noise reduction
Ondusko et al. Blind signal-to-noise ratio estimation of speech based on vector quantizer classifiers and decision level fusion
Kawase et al. Automatic parameter switching of noise reduction for speech recognition
Krueger et al. Bayesian Feature Enhancement for ASR of Noisy Reverberant Real-World Data.
CN109074811A (zh) 音频源分离

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100301

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees