JP4896449B2 - 音響信号処理方法、装置及びプログラム - Google Patents

音響信号処理方法、装置及びプログラム Download PDF

Info

Publication number
JP4896449B2
JP4896449B2 JP2005190272A JP2005190272A JP4896449B2 JP 4896449 B2 JP4896449 B2 JP 4896449B2 JP 2005190272 A JP2005190272 A JP 2005190272A JP 2005190272 A JP2005190272 A JP 2005190272A JP 4896449 B2 JP4896449 B2 JP 4896449B2
Authority
JP
Japan
Prior art keywords
acoustic signal
channels
weighting
signal processing
input acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005190272A
Other languages
English (en)
Other versions
JP2007010897A (ja
Inventor
皇 天田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005190272A priority Critical patent/JP4896449B2/ja
Priority to US11/476,024 priority patent/US7995767B2/en
Priority to CNA2006100942963A priority patent/CN1893461A/zh
Publication of JP2007010897A publication Critical patent/JP2007010897A/ja
Application granted granted Critical
Publication of JP4896449B2 publication Critical patent/JP4896449B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Description

本発明は、ハンズフリー通話や音声認識等で用いられる雑音抑圧技術の一つであるマイクロホンアレー技術に係り、特に入力音響信号中の目的音声信号を強調して出力する音響信号処理方法、装置及びプログラムに関する。
音声認識技術を実環境で利用する場合、周囲の雑音は認識率に大きな影響を及ぼす。例えば自動車内においては、エンジン音、風切り音、対向車や追い越し車両の音、及びカーオーディオ装置の音など多くの雑音が存在する。これらの雑音は、話者の声に混ざって音声認識装置へ入力され、認識率を大きく低下させる原因となる。このような雑音の問題を解決する方法の一つとして、マイクロホンアレーの利用があげられる。マイクロホンアレーは、複数のマイクロホンからの入力音響信号に対して信号処理を行い、話者の声である目的音声信号を強調して出力する。
雑音の到来方向にマイクロホンの受音感度の低い死角を自動的に向けることにより、雑音を抑圧する適応型マイクロホンアレーが知られている。適応型マイクロホンアレーは、一般的に目的音方向の信号は抑圧しないという条件(拘束条件)の下で雑音を抑圧するように設計される。その結果、例えば正面方向から到来する目的音声信号は抑圧せずに、側方からの雑音を抑圧することが可能になる。
しかしながら実環境では、たとえ正面に居る話者の声であったとしても、壁などの周囲の障害物に反射して様々な方向から到来する、いわゆる残響の問題がある。古典的な適応型マイクロホンアレーでは、残響のことは考慮されていない。その結果、適応型マイクロホンアレーを残響下で使用した場合、本来強調すべき目的音声信号が誤って抑圧されてしまう「目的音除去」と呼ばれる現象が起こるという問題がある。
残響の影響が既知である場合、つまり音源からマイクロホンまでの伝達関数が既知の場合については、目的音除去の問題を回避する方法が提案されている。例えば、非特許文献1ではマイクロホンからの入力音響信号に、インパルス応答の形で表現された伝達関数から得られるマッチトフィルタをかける方法を提案している。一方、非特許文献2には入力音響信号をケプストラムに変換し、高次のケプストラムを抑圧することで残響を軽減する方法が述べられている。
J.L. Flanagan, A.C. Surendran and E.E. Jan," Spatially Selective Sound Capture for Speech and Audio Processing", Speech Communication, 13, pp207-222,1993 A. V. Oppenheim and R.W. Schafer,"Digital Signal Processing", Prentice Hall, pp.519-524, 1975
非特許文献1の方法はインパルス応答を予め知っておく必要があり、そのためには実際に利用する環境でインパルス応答を測定する必要がある。自動車内などでは搭乗者や荷物、窓の開閉など伝達関数に影響を与える要素が多いため、このようなインパルス応答の既知を前提とした方法を実用化することは難しい。
一方、非特許文献2では残響成分がケプストラムの高次項に現れやすい傾向を利用しているが、直接波と残響成分が完全に分離して存在するわけではないので、適応マイクロホンアレーに有害な残響成分がどの程度除去できるかは利用状況に依存する。
特に、自動車内部のような狭い空間では短時間に多くの反射成分が集中し、反射成分が直接波と干渉してスペクトルを大きく変形させる。従って、ケプストラムを用いた手法では直接波と残響成分を十分に分離できないので、残響の影響による目的音除去を回避することは難しい。
このように従来の技術では、自動車内などの狭い空間においてマイクロホンアレーの目的音除去の原因となる残響成分を十分に除去することができないという問題がある。
本発明は、残響下における目的音除去の問題を緩和して目的音声信号の強調を行う音響信号処理方法、装置及びプログラムを提供することを目的とする。
本発明の一観点によると、複数チャネルの入力音響信号のチャネル間の差異を表す特徴量を求め、前記特徴量に対応付けられた複数チャネルの重み係数を予め用意された重み係数辞書から選択し、記入力音響信号を前記重み係数でそれぞれ重み付けした後加算して出力音響信号を生成する。
本発明の他の観点では、複数チャネルの入力音響信号のチャネル間の差異を表す特徴量をクラスタリングして複数のクラスタを生成し、前記クラスタのセントロイドを求め、前記特徴量と前記セントロイドとの距離を求め、前記距離が最小となるセントロイドを有するクラスタに対応付けられた複数チャネルの重み係数を予め用意された重み係数辞書から選択し、記入力音響信号を前記重み係数でそれぞれ重み付けした後加算して出力音響信号を生成する。
本発明のさらに別の観点によると、複数チャネルの入力音響信号のチャネル間の差異を表す特徴量と予め用意された複数の代表点との距離を求め、前記距離が最小となる代表点を決定し、前記距離が最小となる代表点に対応付けられた複数チャネルの重み係数を予め用意した重み係数辞書から選択し、記入力音響信号を前記重み係数でそれぞれ重み付けした後加算して出力音響信号を生成する
本発明によれば、複数の入力音響信号のチャネル間特徴量に基づいて重み係数を選択するため、重み係数の学習を行うことによって容易に残響下における目的音除去の問題を回避することが可能となる。
以下、図面を参照して本発明の幾つかの実施形態について説明する。
(第1の実施形態)
図1に示されるように、本発明の第1の実施形態に従う音響信号処理装置は、複数(N)のマイクロホン101−1〜NからのNチャネルの受音信号(入力音響信号)のチャネル間特徴量を算出する特徴量算出部102、複数の重み係数(以下、重み係数係数ともいう)を格納した重み係数辞書103、チャネル間特徴量に基づき重み係数辞書103から重み係数を選択する選択部104、入力音響信号x1〜xNに選択された重み係数を重み付けする重み付け部105−1〜N、及び重み付け部105−1〜Nの出力信号を加算して目的音声信号が強調された出力音響信号を得る加算部106を有する。
次に、本実施形態の処理手順を図2のフローチャートに従って説明する。
マイクロホン101−1〜Nからの入力音響信号x1〜xNをチャネル間特徴量算出部102に入力し、チャネル間特徴量を算出する(ステップS11)。ディジタル信号処理技術を用いる場合、x1〜xNは図示しないA/D変換器により時間方向に離散化され、例えば時間インデックスtを用いてx1(t)と表される。チャネル間特徴量は入力音響信号x1〜xNのチャネル間の差異を表す量であり、その具体例については後述する。入力音響信号x1〜xNが離散化されていれば、チャネル間特徴量も離散化される。
次に、選択部104によりチャネル間特徴量に基づき重み係数辞書103からチャネル間特徴量と対応付けられている重み係数w1〜wNを選択する(ステップS12)。チャネル間特徴量と重み係数w1〜wNとの対応付けは事前に決定されており、最も簡便な方法としては離散化されたチャネル間特徴量と重み係数w1〜wNを1対1で対応させておく方法である。
より効率的な対応付けの方法としては、後述する第3の実施形態で説明するように、LBGなどのクラスタリング手法を用いてチャネル間特徴量をグループ分けしておき、チャネル間特徴量の各グループに対して重み係数w1〜wNを対応付ける方法もある。また、GMM(Gaussian mixture model)のような統計的な分布を利用して分布の重みと重み係数w1〜wNを対応付けるなどの方法も考えられる。このように対応付けに関しては様々な方法が考えられ、計算量やメモリ量などを考慮して決定される。
このようにして選択部104で選択された重み係数w1〜wNは、重み付け部105−1〜Nにセットされる。重み付け部105−1〜Nによって重み係数w1〜wNに従って入力音響信号x1〜xNに重み付けがなされた後、加算部106で加算されることにより、目的音信号が強調された出力音響信号yが得られる(ステップS13)。
時間領域におけるディジタル信号処理では、重み付けは畳み込みとして表現される。重み係数w1〜wNをフィルタ係数の形として、
wn={wn(0),wn(1),...,wn(L−1)}
n=1,2,..,N;ただし、Lはフィルタ長、
と表した場合、出力信号yは各チャネルの畳み込みの和として
Figure 0004896449
と表される。ただし*は畳み込みを表し、
Figure 0004896449
である。重み係数wnの更新のタイミングとしては、サンプル単位、所定のフレーム単位などがある。
次に、チャネル間特徴量について述べる。チャネル間特徴量は、前述のようにN個のマイクロホン101−1〜NからのNチャネルの入力音響信号x1〜xNのチャネル間の差異を表す量であり、以下のように様々なものが考えられる。
今、入力音響信号x1〜xNの到来時間差τをN=2の場合について考える。図3に示されるように、入力音響信号x1〜xNがマイクロホン101−1〜Nのアレーに対して正面から到来する場合、τ=0である。図4に示されるように、入力音響信号x1〜xNが正面から角度θだけずれた側方から到来する場合は、τ=dsinθ/cの遅延を生じる。ここで、cは音速、dはマイクロホン101〜Nの間隔である。
ここで、到来時間差τを検出できるとすると、τ=0に対して相対的に大きな重み係数、例えば(0.5,0.5)を対応付け、τ=0以外の値に対して相対的に小さな重み係数、例えば(0,0)を対応付けることにより、正面からの入力音響信号のみを強調することができる。τを離散化して考える場合は、マイクロホン101−1〜Nのアレーが検出できる最小の角度に対応する時間単位としてもよいし、1度刻みなど一定の角度単位に対応する時間としてもよく、あるいは角度とは無関係に一定の時間間隔を用いるなど、様々な方法がある。
従来からよく用いられているマイクロホンアレーの多くは、一般化すると各マイクロホンからの入力音響信号を重み付けして加算することで出力信号を得るというものである。マイクロホンアレーの方式は種々あるが、各方式の違いは基本的に重み係数wの決定法である。適応型マイクロホンアレーは、入力音響信号を基に重み係数wを解析的に求めるものが多い。例えば、適応型マイクロホンアレーの一つであるDCMP(Directionally Constrained Minimization of Power:方向拘束付き電力最小化法)によると、重み係数wは
Figure 0004896449
と表される。ただし、Rxxは入力音響信号のチャネル間相関行列、inv( )は逆行列、は共役転置を表し、w,cはベクトル、hはスカラである。ベクトルcは拘束ベクトルとも呼ばれる。ベクトルcで示される方向の応答が希望応答hとなるように設計することが可能である。複数の拘束条件を設定することも可能であり、その場合にはcは行列、hはベクトルとなる。通常、拘束ベクトルを目的音方向とし、希望応答を1として設計する。
DCMPではマイクロホンからの入力音響信号に基づいて適応的に重み係数を求めるため、遅延和アレーなどの固定型アレーに比べて少ないマイクロホン数で高い雑音抑圧能力を実現することができる。しかし、残響下では音波の干渉により事前に定めた方向ベクトルcと実際に目的音が到来する方向が必ずしも一致しないため、目的音信号が雑音とみなされ抑圧されてしまう「目的音除去」の問題が起こる。このように入力音響信号に基づいて適応的に指向特性を形成する適応型アレーは残響の影響が顕著であり、「目的音除去」の問題は避けられない。
これに対し、本実施形態に従ってチャネル間特徴量に基づき重み係数を設定する方式は、重み係数を学習することで目的音除去を抑止することができる。例えば、正面から発せられた音響信号が反射により到来時間差τにτ0だけの遅延を生じたとすると、τ0に対応する重み係数を(0.5,0.5)のように相対的に大きくし、τ0以外のτに対応する重み係数を(0,0)のように相対的に小さくすることで、目的音除去の問題を避けることができる。重み係数の学習、すなわち重み係数辞書103を作成するときのチャネル間特徴量と重み係数の対応付けは、後述の方法により事前に行われる。
到来時間差τを求める方法として例えば、CSP(cross-power-spectrum phase)法があげられる。CSP法ではN=2の場合、CSP係数を
Figure 0004896449
と求める。CSP(t)はCSP係数、Xn(f)はxn(t)のフーリエ変換、IFT{ }はフーリエ逆変換、conj( )は共役複素数、| |は絶対値を表す。CSP係数は白色化クロススペクトルのフーリエ逆変換であるので、到来時間差τに相当する時刻tにパルス状のピークをもつ。従って、CSP係数の最大値探索により到来時間差τを知ることができる。
到来時間差に基づくチャネル間特徴量としては、到来時間差そのものほかに複素コヒーレンスを用いることも可能である。X1(f),X2(f)の複素コヒーレンスは、
Figure 0004896449
で表される。Coh(f)は複素コヒーレンス、E{ }は時間方向の期待値(より厳密には集合平均)である。コヒーレンスは、信号処理の分野では2つの信号の関係を表す量として用いられる。拡散性雑音のようにチャネル間に相関のない信号は、コヒーレンスの絶対値は小さくなり、方向性の信号はコヒーレンスが大きくなる。方向性の信号はチャネル間の時間差がコヒーレンスの位相成分となって現れるので、それが目的音方向からの信号であるのか、それ以外の方向からの信号であるかを位相で区別することができる。これらの性質を特徴量として利用することで、拡散性雑音、目的音信号、方向性雑音を区別することが可能となる。数式(5)からもわかるようにコヒーレンスは周波数の関数であるため、後述の第2の実施形態と相性がよいが、時間領域で用いる場合は周波数方向に平均化する、代表的な周波数の値を用いる、など様々な方法が考えられる。コヒーレンスは一般的にはNチャネルで定義され、ここでの例のようなN=2に限定されない。
チャネル間特徴量としては、到来時間差に基づく特徴量のほかに一般化相関関数を用いることもできる。一般化相関関数については、例えば "The Generalized Correlation Method for Estimation of Time Delay, C. H. Knapp and G. C. Carter, IEEE Trans, Acoust., Speech, Signal Processing", Vol.ASSP-24, No.4,pp.320-327(1976)に記載されている。一般化相関関数GCC(t)は、
Figure 0004896449
と定義される。ここでIFTはフーリエ逆変換、Φ(f)は重み係数、G12(f)はチャネル間のクロスパワースペクトルである。Φ(f)の決め方に関しては様々な方法があり、詳細は上記文献に記載されている。例えば、最尤推定法による重み係数Φml(f)は、次式で表される。
Figure 0004896449
ただし、|γ12(f)|2 は振幅2乗コヒーレンスである。CSPの場合と同様に、GCC(t)の最大値と最大値を与えるtからチャネル間の相関の強さと音源の方向を知ることができる。
このように本実施形態はチャネル間特徴量と重み係数w1〜wNの関係を学習によって求めることで、残響等により入力音響信号x1〜xNの方向情報が乱されていても、これを学習しておくことにより、「目的音除去」の問題を起こすことなく目的音信号の強調を行うことが可能である。
(第2の実施形態)
図5は、本発明の第2の実施形態に従う音響信号処理装置を示している。本実施形態では、図1に示した第1の実施形態の音響処理装置に対してフーリエ変換部201−1〜Nとフーリエ逆変換部207が追加され、さらに図1の重み付け部105−1〜Nが周波数領域での乗算を行う重み付け部205−1〜Nに置き換わっている。ディジタル信号処理技術の分野において周知のように、時間領域での畳み込み演算は周波数領域での積で表される。本実施形態では、入力音響信号x1〜xNをフーリエ逆変換部201−1〜Nにおいて周波数領域に変換した後に重み付け加算を行う。この後、フーリエ逆変換部205においてフーリエ逆変換を行って時間領域の信号に戻して出力音響信号を生成する。本実施形態では、信号処理的には時間領域で処理する第1の実施形態と等価な処理を行っていることになる。数式(1)に対応する加算部106の出力信号は、畳み込みではなく積の形として、次式で表される。
Figure 0004896449
ここで、kは周波数インデックスである。
加算部106の出力信号Y(k)をフーリエ逆変換することで、時間領域の波形を有する出力音響信号y(t)を生成する。このように周波数領域に変換する利点は、重み付け部105−1〜Nの重み次数によっては計算量が削減できる場合があることと、周波数単位で独立に処理することが可能になるために、複雑な残響を表現しやすいことなどが挙げられる。後者について補足すると、残響による波形の干渉は周波数毎に強度や位相が異なるのが一般的である。すなわち、ある周波数では干渉が強いが、別の周波数ではあまり影響がないなど、周波数方向に対して変化が激しい。このような場合には、周波数毎に独立に処理する方がより精密な処理が可能となる。なお、計算量の都合等により複数の周波数をひとまとめにし、サブバンド化して処理を行うことも可能である。
(第3の実施形態)
本発明の第3の実施形態では、図6に示されるように第2の実施形態である図5の音響信号処理装置にクラスタリング部208とクラスタリング辞書209が追加されている。クラスタリング辞書209は、LBG法により得られたI個のセントロイドを格納している。
図7を用いて本実施形態の処理手順を説明すると、まず第2の実施形態と同様にマイクロホン101−1〜Nからの入力音響信号x1〜xNをフーリエ変換部205−1〜Nにより周波数領域に変換した後、チャネル間特徴量算出部102によりチャネル間特徴量を算出する(ステップS21)。
計算された特徴量とクラスタリング辞書209内のI個のセントロイドとの距離を計算
する(ステップS24)。クラスタリング辞書209は後述する作成手法により別途用意
する。

クラスタリング部208は、計算した距離を最小にするセントロイド(距離が最小となる代表点)を指し示すインデックス番号を選択部204に送る。選択部204は、インデックス番号に対応する重み係数を重み係数辞書103から選択して重み付け部105−1〜Nに送る(ステップS25)。
重み付け部105−1〜Nにおいてフーリエ変換部205−1〜Nにより周波数領域に変換された入力音響信号を重み係数に従って重み付けし、さらに加算部206により加算する(ステップS26)。この後、重み付け加算された信号をフーリエ逆変換部207によって時間領域の波形に変換することによって、目的音声信号が強調された出力音響信号を生成する。
次に、本実施形態重み係数辞書103の学習による作成方法について述べる。
チャネル間特徴量は音源位置や分析フレーム毎にある分布を持ち、その分布は連続的であるため、重み係数を離散化する場合にはチャネル間特徴量と重み係数との対応付けを行う必要がある。この対応付けは様々な方法があるが、ここではチャネル間特徴量をLBGアルゴリズムにより予めクラスタリングし、チャネル間特徴量との距離が最小となるセントロイドを有するクラスタの番号に対して重み係数を対応付ける方法を述べる。すなわち、チャネル間特徴量の平均値をクラスタ毎に求め、各クラスタに1つの重み係数を対応させる。
クラスタリング辞書209の作成にあたっては、想定される残響環境下で音源位置を変化させつつ該音源から発せられる一連の音響をマイクロホン101−1〜Nにより受音して得られるNチャネルの学習用入力音響信号について先と同様にチャネル間特徴量を算出し、これにLBGアルゴリズムを適用する。次に、以下のようにしてクラスタに対応する重み係数辞書103を作成する。
周波数領域での入力音響信号と出力音響信号との関係は、次式で表される。
Figure 0004896449
ここで、X(k)はX(k)={X1(k),X2(k),...,XN(k)}なるベクトルであり、W(k)も同様に各チャネルの重み係数からなるベクトルである。kは周波数インデックス、は共役転置を表す。
マイクロホンからの第mフレームの学習用入力音響信号をX(m,k)、学習用入力音響信号X(m,k)を重み係数に従って重み付け加算して得られる出力音響信号をY(m,k)とし、目標信号すなわち望ましいY(m,k)をS(m,k)とする。これらのX(m,k)、Y(m,k)及びS(m,k)を第mフレームの学習データとする。以降では、周波数インデックスkを省略して表記することにする。
音源位置が異なるなどの様々な環境で生成した学習データの全フレーム数をMとし、各フレームにフレームインデックスを付ける。学習用入力音響信号のチャネル間特徴量をクラスタリングし、チャネル間特徴量が第iクラスタに属するフレームインデックスの集合をCiと表すことにする。次に、第iクラスタに属する学習データの出力音響信号の目標信号に対する誤差を求める。この誤差は例えば第iクラスタに属する学習データの出力音響信号に対する目標信号との2乗誤差の総和Jiであり、次式で表される。
Figure 0004896449
数式(10)のJiを最小化するWiを第iクラスタに対応する重み係数とする。重み係数wiはJiをWで偏微分することで、
Figure 0004896449
となる。ただし、
Figure 0004896449
である。ただし、E{ }は期待値を表す。
これを全クラスタに対して行い、Wi(i=1,2,…,I)を重み係数辞書103と記録する。ただし、Iはクラスタの総数である。
チャネル間特徴量と重み係数との対応付けは、統計的な手法を用いたGMMなど様々な方法が考えられ、本実施形態に限定されるものではない。また、本実施形態では周波数領域での重み係数の設定方法について述べたが、時間領域において重み係数を設定することも可能である。
(第4の実施形態)
本発明の第4の実施形態では、図8に示されるように話者601−1,601−2が居る室内602にマイクロホン101−1〜Nと第1乃至第3の実施形態のいずれかで説明した音響信号処理装置100が配置される。室内602は、例えば自動車の内部である。音響信号処理装置603は、目的音方向を話者601−1の方向に設定して、室内602と同一か比較的類似した環境で第3の実施形態で説明したような学習が行われることにより、重み係数辞書が作成されている。従って、話者601−1の発声は抑圧されずに、話者601−2の発声のみ抑圧される。
実際には、人の着座位置や、体型、シートの位置など、音源に関する変動のほか、車内に荷物が搭載されたり、窓が空けの有無などがあったりなど、変動要因が存在する。学習時には、これらの変動を学習データに含めて学習を行い、変動要因にロバストになるように設計するが、よりその状況に最適化したい場合は追加学習行うことも考えられる。例えば話者601−1に幾つかの発声をさせ、これを基に音響信号処理装置100に含まれている図示しないクラスタリング辞書や重み係数辞書を更新する。同様に話者601−2に発声をさせ、その声を抑圧するように辞書の更新を行うことも可能である。
(第5の実施形態)
本発明の第5の実施形態によると、図9に示されるようにロボット頭部701の両側、すなわち耳の部分にマイクロホン101−1,101−2が配置され、第1乃至第3の実施形態のいずれかで説明した音響信号処理装置100に接続される。
このようにロボット頭部701に設置されたマイクロホン101−1,101−2においては、頭部701での複雑な音波の回折により残響と同様に到来する音響の方向情報が乱れやすい。すなわち、このようにロボット頭部701にマイクロホン101−1,101−2を配置すると、マイクロホンと音源を結ぶ直線上にロボット頭部701が障害物として存在することになる。例えば、ロボット頭部701の左側に音源がある場合、左耳に位置するマイクロホン101−2には直接音が到達するが、右耳に位置するマイクロホン101−1は頭部701が障害物となって直接音が到達せず、頭部701を回り込んだ回折波が到達する。
このような回折による影響は、数学的に解析するのは手間がかかる。このため図9のようにロボット頭部701の耳を挟んだり、あるいは柱や壁などの障害物を挟む状態でマイクロホンを配置したりした場合など、マイクロホンの間に障害物があると音源方向の推定が困難である。
本発明の第1〜第3の実施形態によると、このようにマイクロホンと音源を結ぶ直線上に障害物が存在しても、障害物による回折の影響を学習により音響信号処理装置に取り込むことで、特定の方向からの目的音信号のみを強調することが可能となる。
(第6の実施形態)
図10は、本発明の第6の実施形態に従う音響信号処理装置であるエコーキャンセラを示している。本実施形態のエコーキャンセラは、自動車内のような室内801にマイクロホン101−1〜Nと、音響信号処理装置100、送信機802及びスピーカ803が配置される。電話や形態情報端末(PDA)やパーソナルコンピュータ(PC)などでハンズフリー通話を行う場合、スピーカ803から発する音のマイクロホン101−1〜Nに回り込む成分(エコー)が通話の相手先に送られる問題がある。これを防止するため、一般的にエコーキャンセラが用いられる。
本実施形態では、音響信号処理装置100が学習により指向性を形成できるという特徴を生かし、予めスピーカ803から発せられる音響信号を目標信号0として学習することで抑圧する。同時に正面方向からの音響信号を通すように学習することで、話者の声は通し、スピーカ803からの音は抑圧することが可能になる。この原理を応用すれば、例えば自動車内のスピーカから流れる音楽を抑圧するように学習を行うことも可能である。
上述した第1乃至第6の実施形態で説明した音響信号処理は、例えば汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、上述した音響信号処理をコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき当該プログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して当該プログラムを配布して、このプログラムをコンピュータ装置に適宜インストールしてもよい。
本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に係る音響信号処理装置のブロック図 第1の実施形態に係る処理手順を示すフローチャート 第1の実施形態における重み係数の設定方法を説明するための図 第1の実施形態における重み係数の設定方法を説明するための図 本発明の第2の実施形態に係る音響信号処理装置のブロック図 本発明の第3の実施形態に係る音響信号処理装置のブロック図 第3の実施形態に係る処理手順を示すフローチャート 本発明の第4の実施形態における音響信号処理装置の使用例を示す概略的な平面図 本発明の第5の実施形態における音響信号処理装置の使用例を示す概略的な平面図 本発明の第6の実施形態に係る、音響信号処理装置を用いたエコーキャンセラのブロック図
符号の説明
101−1〜N・・・マイクロホン;
102・・・チャネル間特徴量算出部;
103・・・重み係数辞書;
104・・・選択部;
105−1〜N・・・重み付け部;
106・・・加算器
204・・・選択部;
205−1〜N・・・フーリエ変換部;
207・・・フーリエ逆変換部;
208・・・クラスタリング部;
209・・・クラスタリング辞書

Claims (8)

  1. 複数チャネルの入力音響信号のチャネル間の差異を表す特徴量を求めるステップと、
    前記特徴量と予め用意されたクラスタリング辞書内の複数の代表点との距離を求めるス
    テップと、
    前記距離が最小となる代表点を決定するステップと、
    前記距離が最小となる代表点に対応付けられた複数チャネルの重み係数を予め用意した
    重み係数辞書から選択するステップ、及び
    複数チャネルの前記入力音響信号を複数チャネルの前記重み係数でそれぞれチャネル毎
    に重み付けした後に、重み付け後の複数チャネルの前記入力音響信号を加算して出力音響
    信号を生成するステップを具備する音響信号処理方法。
  2. 前記特徴量を求めるステップは、前記入力音響信号のチャネル間の到達時間差に基づく
    特徴量を求める請求項1記載の音響信号処理方法。
  3. 前記特徴量を求めるステップは、前記入力音響信号のチャネル間の複素コヒーレンスを
    求める請求項1記載の音響信号処理方法。
  4. 前記重み係数辞書は、スピーカからの信号を抑圧するように重み係数が定められている
    請求項1記載の音響信号処理方法。
  5. 前記重み係数は時間領域のフィルタ係数であり、入力音響信号への重み付けは入力音響
    信号と重み係数との畳み込みで表される請求項1記載の音響信号処理方法。
  6. 前記重み係数は周波数領域のフィルタ係数であり、前記入力音響信号への重み付けは入
    力音響信号と重み係数との積で表される請求項1記載の音響信号処理方法。
  7. 複数チャネルの入力音響信号のチャネル間の差異を表す特徴量を求める手段と、
    前記特徴量と予め用意されたクラスタリング辞書内の複数の代表点との距離を求める手
    段と、
    前記距離が最小となる代表点を決定する手段と、
    前記距離が最小となる代表点に対応付けられた複数チャネルの重み係数を予め用意した
    重み係数辞書から選択する手段、及び
    複数チャネルの前記入力音響信号を複数チャネルの前記重み係数でそれぞれチャネル毎
    に重み付けした後に、重み付け後の複数チャネルの前記入力音響信号を加算して出力音響
    信号を生成する手段を具備する音響信号処理装置。
  8. 複数チャネルの入力音響信号のチャネル間の差異を表す特徴量を求める処理と、
    前記特徴量と予め用意されたクラスタリング辞書内の複数の代表点との距離を求める処
    理と、
    前記距離が最小となる代表点を決定する処理と、
    前記距離が最小となる代表点に対応付けられた複数チャネルの重み係数を予め用意した
    重み係数辞書から選択する処理、及び
    複数チャネルの前記入力音響信号を複数チャネルの前記重み係数でそれぞれチャネル毎
    に重み付けした後に、重み付け後の複数チャネルの前記入力音響信号を加算して出力音響
    信号を生成する処理をコンピュータに行わせるための音響信号処理プログラム。
JP2005190272A 2005-06-29 2005-06-29 音響信号処理方法、装置及びプログラム Expired - Fee Related JP4896449B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005190272A JP4896449B2 (ja) 2005-06-29 2005-06-29 音響信号処理方法、装置及びプログラム
US11/476,024 US7995767B2 (en) 2005-06-29 2006-06-28 Sound signal processing method and apparatus
CNA2006100942963A CN1893461A (zh) 2005-06-29 2006-06-29 声音信号处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005190272A JP4896449B2 (ja) 2005-06-29 2005-06-29 音響信号処理方法、装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2007010897A JP2007010897A (ja) 2007-01-18
JP4896449B2 true JP4896449B2 (ja) 2012-03-14

Family

ID=37590788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005190272A Expired - Fee Related JP4896449B2 (ja) 2005-06-29 2005-06-29 音響信号処理方法、装置及びプログラム

Country Status (3)

Country Link
US (1) US7995767B2 (ja)
JP (1) JP4896449B2 (ja)
CN (1) CN1893461A (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5070873B2 (ja) * 2006-08-09 2012-11-14 富士通株式会社 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
US8214219B2 (en) * 2006-09-15 2012-07-03 Volkswagen Of America, Inc. Speech communications system for a vehicle and method of operating a speech communications system for a vehicle
CN101030372B (zh) * 2007-02-01 2011-11-30 北京中星微电子有限公司 一种语音信号处理系统
JP2008246037A (ja) * 2007-03-30 2008-10-16 Railway Technical Res Inst 発話音響環境対応型発話音声分析システム
JP4455614B2 (ja) 2007-06-13 2010-04-21 株式会社東芝 音響信号処理方法及び装置
JP4469882B2 (ja) * 2007-08-16 2010-06-02 株式会社東芝 音響信号処理方法及び装置
JP4907494B2 (ja) * 2007-11-06 2012-03-28 日本電信電話株式会社 位相自動補正機能付き複数チャンネル音声転送システム、方法、プログラム、および位相ずれ自動調整方法
US8249867B2 (en) * 2007-12-11 2012-08-21 Electronics And Telecommunications Research Institute Microphone array based speech recognition system and target speech extracting method of the system
EP2304968A2 (en) * 2008-05-23 2011-04-06 Analog Devices, Inc. Wide dynamic range microphone
US8724829B2 (en) * 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
JP5386936B2 (ja) 2008-11-05 2014-01-15 ヤマハ株式会社 放収音装置
JP5277887B2 (ja) * 2008-11-14 2013-08-28 ヤマハ株式会社 信号処理装置およびプログラム
EP2196988B1 (en) * 2008-12-12 2012-09-05 Nuance Communications, Inc. Determination of the coherence of audio signals
US8208649B2 (en) * 2009-04-28 2012-06-26 Hewlett-Packard Development Company, L.P. Methods and systems for robust approximations of impulse responses in multichannel audio-communication systems
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
US8433564B2 (en) * 2009-07-02 2013-04-30 Alon Konchitsky Method for wind noise reduction
DE102009052992B3 (de) * 2009-11-12 2011-03-17 Institut für Rundfunktechnik GmbH Verfahren zum Abmischen von Mikrofonsignalen einer Tonaufnahme mit mehreren Mikrofonen
JP4906908B2 (ja) * 2009-11-30 2012-03-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 目的音声抽出方法、目的音声抽出装置、及び目的音声抽出プログラム
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
JP5903758B2 (ja) * 2010-09-08 2016-04-13 ソニー株式会社 信号処理装置および方法、プログラム、並びにデータ記録媒体
KR101527441B1 (ko) * 2010-10-19 2015-06-11 한국전자통신연구원 음원 분리 장치 및 그 방법
JP4945675B2 (ja) 2010-11-12 2012-06-06 株式会社東芝 音響信号処理装置、テレビジョン装置及びプログラム
JP2012149906A (ja) * 2011-01-17 2012-08-09 Mitsubishi Electric Corp 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
JP5974901B2 (ja) * 2011-02-01 2016-08-23 日本電気株式会社 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP5649488B2 (ja) * 2011-03-11 2015-01-07 株式会社東芝 音声判別装置、音声判別方法および音声判別プログラム
JP5865050B2 (ja) * 2011-12-15 2016-02-17 キヤノン株式会社 被検体情報取得装置
JP6221258B2 (ja) 2013-02-26 2017-11-01 沖電気工業株式会社 信号処理装置、方法及びプログラム
JP6221257B2 (ja) 2013-02-26 2017-11-01 沖電気工業株式会社 信号処理装置、方法及びプログラム
KR102109381B1 (ko) * 2013-07-11 2020-05-12 삼성전자주식회사 전기기기 및 그 제어 방법
CN106165444B (zh) * 2014-04-16 2019-09-17 索尼公司 声场再现设备、方法和程序
US9838783B2 (en) * 2015-10-22 2017-12-05 Cirrus Logic, Inc. Adaptive phase-distortionless magnitude response equalization (MRE) for beamforming applications
DE102015222105A1 (de) * 2015-11-10 2017-05-11 Volkswagen Aktiengesellschaft Audiosignalverarbeitung in einem Fahrzeug
JP6703460B2 (ja) * 2016-08-25 2020-06-03 本田技研工業株式会社 音声処理装置、音声処理方法及び音声処理プログラム
JP6567479B2 (ja) * 2016-08-31 2019-08-28 株式会社東芝 信号処理装置、信号処理方法およびプログラム
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
US10089998B1 (en) * 2018-01-15 2018-10-02 Advanced Micro Devices, Inc. Method and apparatus for processing audio signals in a multi-microphone system

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573090A (ja) * 1991-09-18 1993-03-26 Fujitsu Ltd 音声認識方法
JP3714706B2 (ja) * 1995-02-17 2005-11-09 株式会社竹中工務店 音抽出装置
JPH11202894A (ja) * 1998-01-20 1999-07-30 Mitsubishi Electric Corp 雑音除去装置
EP0944228B1 (en) * 1998-03-05 2003-06-04 Nippon Telegraph and Telephone Corporation Method and apparatus for multi-channel acoustic echo cancellation
JP3933860B2 (ja) * 2000-02-28 2007-06-20 三菱電機株式会社 音声認識装置
EP1184676B1 (en) 2000-09-02 2004-05-06 Nokia Corporation System and method for processing a signal being emitted from a target signal source into a noisy environment
JP3716918B2 (ja) * 2001-09-06 2005-11-16 日本電信電話株式会社 収音装置、方法及びプログラム、記録媒体
JP2003140686A (ja) * 2001-10-31 2003-05-16 Nagoya Industrial Science Research Inst 音声入力の雑音抑制方法、雑音抑制制御プログラム、記録媒体及び音声信号入力装置
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
JP4247037B2 (ja) * 2003-01-29 2009-04-02 株式会社東芝 音声信号処理方法と装置及びプログラム
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
JP4892184B2 (ja) * 2004-10-14 2012-03-07 パナソニック株式会社 音響信号符号化装置及び音響信号復号装置
MX2008001307A (es) * 2005-07-29 2008-03-19 Lg Electronics Inc Metodo para la senalizacion de informacion de division.

Also Published As

Publication number Publication date
US7995767B2 (en) 2011-08-09
JP2007010897A (ja) 2007-01-18
CN1893461A (zh) 2007-01-10
US20070005350A1 (en) 2007-01-04

Similar Documents

Publication Publication Date Title
JP4896449B2 (ja) 音響信号処理方法、装置及びプログラム
JP4455614B2 (ja) 音響信号処理方法及び装置
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
EP2063419B1 (en) Speaker localization
Perotin et al. Multichannel speech separation with recurrent neural networks from high-order ambisonics recordings
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
US8693287B2 (en) Sound direction estimation apparatus and sound direction estimation method
US8392184B2 (en) Filtering of beamformed speech signals
JP7041156B6 (ja) ビームフォーミングを使用するオーディオキャプチャのための方法及び装置
Xiao et al. The NTU-ADSC systems for reverberation challenge 2014
JP5841986B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP6644959B1 (ja) ビームフォーミングを使用するオーディオキャプチャ
JP2005249816A (ja) 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
TW201222533A (en) Sound source separator device, sound source separator method, and program
CN107993670A (zh) 基于统计模型的麦克风阵列语音增强方法
CN106663445A (zh) 声音处理装置、声音处理方法及程序
Niwa et al. Post-filter design for speech enhancement in various noisy environments
JP2015018015A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
US8639499B2 (en) Formant aided noise cancellation using multiple microphones
JP4457221B2 (ja) 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
Song et al. An integrated multi-channel approach for joint noise reduction and dereverberation
Zhao et al. Closely coupled array processing and model-based compensation for microphone array speech recognition
Kawase et al. Automatic parameter switching of noise reduction for speech recognition
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
Dat et al. A comparative study of multi-channel processing methods for noisy automatic speech recognition in urban environments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061024

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091005

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100713

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100723

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20100813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111107

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111221

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees