JP4521549B2 - 上下、左右方向の複数の音源の分離方法、そのためのシステム - Google Patents
上下、左右方向の複数の音源の分離方法、そのためのシステム Download PDFInfo
- Publication number
- JP4521549B2 JP4521549B2 JP2003121094A JP2003121094A JP4521549B2 JP 4521549 B2 JP4521549 B2 JP 4521549B2 JP 2003121094 A JP2003121094 A JP 2003121094A JP 2003121094 A JP2003121094 A JP 2003121094A JP 4521549 B2 JP4521549 B2 JP 4521549B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- frequency band
- azimuth
- elevation
- angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
【発明が属する技術分野】
本発明は、上下、左右二次元の音源から発せられる複数の音源の分離方法、およびそのためのシステムに関する。
【0002】
【従来の技術】
近年発展の目覚しい自律型ロボット産業とともに、ヒューマノイドの開発が進み今後大きな産業に発展することが期待されている。ホンダの「アシモ(登録商標)」やソニーの「アイボ(登録商標)」等に代表される自律型ロボットの多くは、行動決定に画像センサー、角度センサー、タッチセンサー等のセンサーを用いている。一方で我々人間は、視覚および聴覚を主たるセンサーとして行動決定や判断を行っている。それ故ロボットをより高度に知能化し、人間と対話する為には人間と同等のセンサーが必要であり、いわゆるヒューマノイドの開発においては、画像センサーのみならず、音響センサーも重要であると考えられる。
【0003】
しかしながら、一般に自律型ロボットにおける聴覚センサーの研究は画像センサーの研究に比べ発展しておらず、その機能は副次的なものでしかない。この要因として、音響センサーでは検出すべき目的信号に環境雑音等が重畳することにより目的信号が歪んでしまい、分析精度を低下させることが挙げられる。また、実環境においては壁面等からの音の反射も妨害音と同等に分析精度を低下させ、結果的に音声認識や音源の到来方向の検出を行う際に認識率の低下を招く等の影響が発生する。つまり、音響信号を用いた様々なアプリケーションが提案されているものの、実際には使用環境がその性能を大きく左右する。
【0004】
これらの問題を解決する為、これまで音声強調および音源分離に関する様々な研究がなされてきた。
【0005】
音声を分離する技術の一つとして、複数個のマイクロフォンを用いるシステムが知られている。この技術は一般にマイクロフォンアレイと呼ばれているが、一般にマイクロフォンアレイ素子数が増加するに従い、処理が複雑になる。また、伝達経路が変動した場合の対応が困難であることも問題となる。また、多くの場合、分離可能な音源数は構成されるマイクロフォン素子の数によって決まり、素子数Mに対してMより多くの音源の分離は極めて難しい。
【0006】
一般に我々人間は、雑音環境下においても会話をし、その内容が理解できる。これは左右両耳に入力される音響信号の特性が、音源位置に依存して変化することに起因し、人間は、この変化を検出できることによる。これは、一般にカクテル・パーティ効果として知られている。この効果を音源分離に利用した研究の一つとして、ボーデンによって提案された両耳聴モデルに基づくカクテル・パーティ・プロセッサがある(非特許文献1)。しかし、このプロセッサは、全ての演算を時間領域で行なうことから、演算量が多く、ソフトウェアレベルでの実時間動作が困難であった。また分離精度が十分でないため、改善が求められていた。
【0007】
これに対し、本発明者らはこの両耳聴モデルを高速化することを目的とし、全ての演算を周波数領域で行う、両耳間位相差に基づいた周波数領域両耳聴モデル(Frequency Domain Binaural Model Based on IPD:FDBM-IPD)を提案した。この手法は波長が長く、両耳同位相差が大きくならない低周波数領域の信号に対しては有効であった。これにより演算の高速化の問題は解決されたが、一方、波長が短く両耳間位相差が±πを越えてしまう可能性のある高周波数領域の信号においては、音源方向を一意に決定する為に連続位相を求める必要があり、算出が容易ではない。このため、推定誤差を考慮すると、有効な手段であるとはいえず、高周波数領域における分離性能が充分でないことが判明した。
【0008】
そこで、本発明者らは更に両耳間レベル差および両耳間位相差を用いた周波数領域両耳聴モデル(Frequency Domain Binaural Model:FDBM)を提案した。FDBMでは、FDBM−IPDで問題となる高周波数領域の信号に対し、両耳間レベル差を用い音源方向検出を行う。これは、高周波数領域の信号が、頭部を回折しにくく、その結果両耳間レベル差が大きくなることに基づく。したがって、FDBMは低周波数領域の信号に対しては、両耳間位相差を用い、高周波数領域の信号に対しては、両耳間レベル差を用いることによって音源の到来方向を推定する。得られた推定結果に基づき、特定方向の音源のみをフィルタリングにより分離する。これにより広周波数帯域での音源方向の推定精度が改善され、また分離性能が改善された。
【0009】
しかしながら、上記方法における音源方向の推定は、仰角が0°、すなわち水平面での一次元の方向について推定するものであり、仰角がある、すなわち二次元をなす音源方向を判定しようとすると、両耳間の位相差、レベル差が等しい点がいくつか空間上に存在するため、方向の推定は出来ないという問題が残っていた。
【0010】
【発明が解決しようとする課題】
本発明は、上記課題を解決することを目的としており、上下左右の二次元的に存在する複数の音源から特定の音響信号を、分離する方法、及びシステムを提供することを目的としている。
【0011】
【課題を解決するための手段】
すなわち本発明の第1の発明は、
(1)上下、左右方向の複数の音源から発生される音響信号を、左右両受音部から入力し、
(2)入力した左右両入力信号を、周波数帯域ごとに分割し、
(3)左右両入力信号のクロススペクトルから周波数帯域ごとの両耳間位相差(IPD)、左右両入力信号のパワースペクトルのレベル差から両耳間レベル差(ILD)を求め、
(4)全周波数帯域で、低周波領域では得られたIPDと、高周波領域では得られたILDと、その中間領域では得られたIPDとILDの加重平均と、データベースのそれとを比較することにより各周波数帯域ごとに音源の方位角と仰角の候補を推定し、
(5)上記の各周波数帯域ごとに得られた音源の方位角と仰角のうち出願頻度の高い方向を、音源の方位角と仰角と推定し、
(6)求められた音源の方位角と仰角D(ψ、φ)を基に、入力される複数の音源に対して、各周波数帯域ごとに観測信号スペクトルL(ω)とR(ω)に分離フィルタα(ω)を乗じることで特定の方位角と仰角の音源からの信号としてフィルタリングを行って分離し、
(7)分離・抽出した目的の方位角と仰角の音源から到来したと推定される各周波数帯域ごとのスペクトル成分を、逆FFT(IFFT)処理により時間波形に変形することからなる音源分離方法である。
(但し、分離フィルタα(ω)は、下記式(12)で表される。
【数式12】
(12)
ここで、β(ω)は、下記式(13)で与えられる。また、γは、分離フィルタゲインを制御するパラメータである。)
【数式13】
(13)
【0012】
本発明の第2の発明は、
(1)複数の音源から発生される音響信号を、左右両受音部から入力する手段、
(2)入力した左右両入力信号を、周波数帯域ごとに分割する手段、
(3)左右両入力信号のクロススペクトルから周波数帯域ごとの両耳間位相差(IPD)、左右両入力信号のパワースペクトルのレベル差から両耳間レベル差(ILD)を求める手段、(4)全周波数帯域で、各周波数帯域ごとに、低周波領域では得られたIPDを、高周波領域では得られたILDをその中間領域では、得られたIPDとILDの加重平均と、データベースのそれとを比較することにより各周波数帯域ごとに音源の方位角と仰角の候補を推定する手段、
(5)上記の各周波数帯域ごとに得られた音源の方位角と仰角のうち出現頻度が高い方位角と仰角を、音源の方位角と仰角と推定する手段、
(6)上記より推定された音源の方位角と仰角情報をもとに、特定音源の方位角と仰角の周波数帯域を主として抽出することにより音源を分離する手段、
とからなる音源分離システムである。
【0013】
【発明の実施の形態】
本発明の実施の形態について説明する。
【0014】
本発明の第2の発明は、
(1)上下、左右方向の複数の音源から発生される音響信号を、左右両受音部から入力する手段、
(2)入力した左右両入力信号を、周波数帯域ごとに分割する手段、
(3)左右両入力信号のクロススペクトルから周波数帯域ごとの両耳間位相差(IPD)、左右両入力信号のパワースペクトルのレベル差から両耳間レベル差(ILD)を求める手段、
(4)全周波数帯域で、低周波領域では得られたIPDと、高周波領域では得られたILDと、その中間領域では得られたIPDとILDの加重平均と、データベースのそれとを比較することにより各周波数帯域ごとに音源の方位角と仰角の候補を推定する手段、
(5)上記の各周波数帯域ごとに得られた音源の方位角と仰角のうち出現頻度が高い方向を、音源の方位角と仰角と推定する手段、
(6)求められた音源の方位角と仰角D(ψ、φ)を基に、入力される複数の音源に対して、各周波数帯域ごとに観測信号スペクトルL(ω)とR(ω)に分離フィルタα(ω)を乗じることで特定の方位角と仰角の音源からの信号としてフィルタリングを行って分離する手段、
(7)分離・抽出した目的の方位角と仰角の音源から到来したと推定される周波数帯域ごとのスペクトル成分を、逆FFT(IFFT)処理により時間波形に変形する手段とからなる音源分離システムである。
(但し、分離フィルタα(ω)は、下記式(12)で表される
【数式12】
(12)
ここで、β(ω)は、下記式(13)で与えられる。また、γは、分離フィルタゲインを制御するパラメータである。)
【数式13】
(13)
【0015】
(1)周波数帯域分割手段、分割工程
(2)両耳間情報の抽出手段、抽出工程
(3)両耳間情報に基づく音源の方位角と仰角推定手段、推定工程
(4)フィルタリング手段、フィルタリング工程
【0016】
すなわち、本発明の方法においては、音源の分離を次の工程を経て行なう。
(1)左右両耳から入力した音響信号を、周波数帯域ごとに分割する。
(2)周波数帯域成分ごとに両耳間レベル差(ILD)・両耳間位相差(IPD)を算出する。
(3)次に、全周波数帯域において、各帯域ごとに得られたIPD及び/またはILDとデータベースに蓄積されえているIPD及び/またはILDと比較して音源の方向を推定する。
(4)上記の各周波数帯域ごとに得られた音源の方位角と仰角のうち出願頻度が高い方向を音源の方位角と仰角とする手段。
(5)上記より推定された音源の方位角と仰角情報をもとに、特定音源の方位角と仰角の周波数帯域を主として抽出することにより音源を分離する手段。
【0017】
本発明の方法を、工程を追って説明する。周波数帯域分割工程における帯域分割器(FFT)について説明すると、まず、左右両受音部から入力した音響信号を、周波数帯域ごとに分割する。これは帯域分割器により行なう。分割する帯域な幅が特に限定されないが、好ましくはフイルタバンクと等価にせず、より細かい分解能、例えば10〜100Hzの間とすることが好ましい。
【0018】
ある空間上の音源が鼓膜に届く過程において、その音源は頭部、耳介、外耳道等の経路を伝達する。このとき、音源はその伝達経路に応じてフィルタリングされ、その周波数特性が変化する。このフイルタは一般に頭部伝達関数(Head Related Transfer Function:HRTF)と呼ばれており、本明細書の定義でもそれに従う。本発明の音源分離方法はこの頭部伝達関数が左右両耳で異なる点に着目した解析法である。
【0019】
本発明の方法では、図2に示したように、帯域ごとに左右それぞれの耳に入力される信号、および両耳間信号の差を抽出する。左耳の入力信号l(t)と右耳での入力信号r(t)を数式で表すと、時間領域で表したl(t)と、r(t)とは、下記式(1)と下記式(2)で表される。 式中hl及びhrは頭部伝達関数(HRTF)である。
【0020】
【数式1】
l(t)=S(t) * hl(t) (1)
【0021】
【数式2】
r(t)=S(t) * hr(t) (2)
【0022】
これらの時間領域の式は、それぞれフーリエ変換して下記(3)式、(4)式に書き換えることができる。
【0023】
【数式3】
L(ω)=S(ω) x HL(ω) (3)
【0024】
【数式4】
R(ω)=S(ω) x HR(ω) (4)
【0025】
左右の入力信号の差は音源が存在する方向の角度により異なる。本発明では、上記分別した音響情報に対して、周波数帯域成分ごとに両耳間のレベル差(以下「ILD」ということがある)、および両耳間の位相差(以下「IPD」ということがある)を算出する。
【0026】
まず、IPDの求め方について、詳しく説明する。IPDはクロススペクトルの位相差として求めることができる。すなわち、両耳入力信号l(t)、r(t)をフーリエ変換して、そのクロススペクトルGlr(ω)を求めると、両耳入力信号の耳間位相差θlr(ω)はGlr(ω)の位相として求めることができる。
【0027】
すなわち、入力信号l(t)、r(t)、そのフーリエ変換をL(ω)、R(ω)、および入力信号のクロススペクトルGlr(ω)は、下記式(5)として表すことができる。
【0028】
【数式5】
Glr(ω)=L*(ω)R(ω) (5)
【0029】
ここでL*(ω)は、複素共役を示す。クロススペクトルGlr(ω)より、両入力信号l(t)、r(t)間の位相差θlr(ω)は、下記式(6)で与えられる。
【0030】
【数式6】
(6)
【0031】
但し、Im(・)、Re(・)はそれぞれ引数の虚部、実部を表す。
【0032】
(2)ILDの算出方法
ILDは両耳入力信号のパワースペクトルのレベル差として求めることができる。具体的には、式(5)で得られたクロススペクトルGlr(ω)をパワースペクトルGll(ω)で除算し、その絶対値の対数をとることで得られる。すなわち、両耳間レベル差をΛ(ω)とすると、下記(7)式、及び下記(8)式として得られる。
【0033】
【数式7】
Gll(ω)=L*(ω)L(ω) (7)
【0034】
【数式8】
(8)
【0035】
次に上記方法で求めたIPD及び/またはILDを、データベースと対比することにより音源の方位角と仰角を推定する。左右それぞれの耳に入力された音響信号は、低周波数領域では音波が回り込み、レベル差が明確でなくなるが、高周波数領域では回り込みがなく、レベル差が明確になること、および低周波数領域では、波長が長いため、位相差を明確に求めることができるが、高周波数領域では、波長が短く、位相差が±π以上になると区別しにくくなる。そこで、低周波領域ではIPDを、高周波領域では、ILDを、その中間領域では、IPDとILDとを加重平均して用いる。一例として挙げると、750Hz以下の低周波数領域ではIPDを、1500Hz以上の高周波数領域ではILDに基づき音源の方位角と仰角を推定し、750Hz〜1500Hzでは、IPDとILDとから音源の方位角と仰角を推定することが好ましい。
【0036】
MIT Media Lab.がウエブ上で公開しているHRTFのデータベースから、方向ごと及び周波数帯域ごとのILDおよびIPDのデータベースを作成することができる。 本発明では、上記方法で得たIPD及び/またはILDと、データベースから求めたIPD及び/またはILDの値とを対比して、音源の方位角と仰角の推定を行なう。
【0037】
例えば単一の周波数によって、その両耳間の周波数ごとに求められた位相差θlr(ω)をデータベース内の位相差θ(ω、 ψ、φ)と比較し、その差が閾値α以下であるとき推定の方位角と仰角とする。即ち、下記式(9)を満たす仰角ψ、方位角φを両耳間位相差より推定される音の到来方位角と仰角とする。
【0038】
【数式9】
(9)
【0039】
《レベル差での対比》
同じくレベル差Λlr(ω)とレベル情報データベース内のレベル差Λ(ω、 ψ、φ)を比較させその差が閾値βより小さいときの方向を音源の方位角と仰角とする。即ち、下記式(10)を満たす方位角φと仰角ψを両耳間レベル差より推定される音の到来の方位角と仰角とする。
【0040】
【数式10】
(10)
【0041】
図3に周波数500Hzにおける位相差情報データベースの両耳間位相差(仰角の下40°から上80°まで)を示す。また、図4に周波数2kHzにおけるレベル差情報データベースの両耳間レベル差(仰角の下40°から上80°まで)を示す。正中面から外に離れるにつれて両耳間位相差、両耳間レベル差共に大きくなっていくのが図よりわかる。また、同じ周波数の方位角でも仰角によってデータベースの値は異なっている。すなわち、同じ周波数にもかかわらず同じ値のIPD、ILDが存在する。このため、IPD,ILDだけでは方向は一意には決定できない。
【0042】
《複数の周波数を用いた方位角と仰角推定》
このように、単一の周波数帯域での方位角と仰角推定は困難である。そこで、本発明では、複数の周波数を方位角と仰角の推定に用いる。具体的な方法としては、周波数帯域ごとに方位角と仰角の推定を行い、複数の周波数帯域により推定される方位角と仰角の極大値の方向を、音の到来方位角と仰角とする。よりパワーの強い周波数帯域、あるいは、多くの周波数帯域により推定される方位角と仰角ほど、実際に音源のある確証が高いと考えられる。すなわち、下記式(11)を満たす方位角と仰角(D(ψ、φ))を音源の方位角と仰角とする。
【0043】
【数式11】
(11)
【0044】
《信号分離フイルタ》
式(11)で音源の方向が決定したら、次ぎに、求められた音源のの方位角と仰角D(ψ、φ)を基に、入力される複数の音源に対して、帯域ごとに特定の方位角と仰角の音源からの信号としてグループ化(フィルタリング)を行い分離する。ここで、目的音源の方位角と仰角が既知であり、D0とするならば、目的音源のスペクトルは、観測信号スペクトルL(ω)とR(ω)に分離フイルタα(ω)を乗じることで得られる。ここで、α(ω)は、下記式(12)で表される。
【0045】
【数式12】
(12)
【0046】
ここで、β(ω)は下記式(13)で与えられる。また、Yは、分離フイルタゲインを制御するパラメータである。
【0047】
【数式13】
(13)
【0048】
上記方法で分離・抽出した目的の方位角と仰角の音源から到来したと推定される帯域ごとのスペクトル成分を、逆FFT(IFFT)処理により時間波形に変形し、歪の少ない分離信号を得ることができる。
【0049】
【発明の効果】
本発明の方法、およびシステムにより従来の2入力システムでは不可能とされていた方位角と仰角を有する二次元の音源を分離することが可能となった。
【0050】
本発明の方法、およびシステムは、音声認識フロントエンド、両耳型補聴器、ヒューマノイドに代表される自立型ロボットにおける聴覚センサー、ネットワーク会議システム、特殊レコーダー等の用途に用いることができる。
【0051】
【実施例・参考例】
次に、参考例・実施例を挙げて本発明につき更に詳しく説明するが、本発明は、これらの参考例・実施例になんら制約されるものではない。
【0052】
【参考例1】
実際の男声の音源の方位角と仰角を、方位角右30°仰角上20°とした。左右入力信号に対し、FFTによる帯域分割を行った。FFTの分析は512点で行っており、サンプリング周波数16kHzに対して、周波数分解能は約31Hz、フレーム長は32msとなった。
【0053】
次に、上記周波数帯域ごとにIPDとILDを求めた。具体的には、750Hz以下の低周波数領域ではIPDを、1500Hz以上の高周波数領域ではILDに基づき音源の方位角と仰角を推定し、750Hz〜1500Hzでは、IPDとILDを加重平均して推定した。
【0054】
次に、このIPD、ILDの計算結果と、HRTFから得たデータベースとをいくつかの周波数帯域において対比することにより、音源の方位角と仰角の推定を行った。データベースの範囲は、仰角の上90°から下40°までで、方位角の左90°から右90°のものを用意した。その結果を図5及び図6に示す。
【0055】
図5は、音声の250Hz、500Hz、750Hzの両耳間位相差により推定される方位角と仰角を表し、図6は、1500Hz、2250Hz、3kHzの両耳間レベル差により推定される方位角と仰角を表している。各周波数の両耳間位相差及び両耳間レベル差を用いた場合、いずれも複数の方位角と仰角が検出された。しかし、実際に音声の到来方向である方位角右30°仰角上20°の位置において、各周波数の推定の方位角と仰角が重なっているのが確認できた。以上の結果から明らかなように、本発明の複数の周波数帯域でIPD、及び/またはILDによって一義的なの方位角と仰角の推定が可能となった。
【0056】
【参考例2】
《1音源に対する方向推定シミュレーション》
1音源に対する方向推定シミュレーションを行った。本実験における目的話者、ダミーヘッドの相対的な位置を図7に示す。目的信号として男声を方位角左60°、仰角上方30°に配置した。本実験で得られた入力信号波形及び推定方位角と仰角の図を、図8に示す。
【0057】
図8より、(a)入力波形、(b)仰角の推定方向、(c)方位角の推定方向を示している。図8より分かるように、部分的に異なる方位角と仰角を推定しているものの、誤差10°以内に収まっており、概ね実際の方位角と仰角と同じ方位角と仰角を検出している。この結果より、1音源に対する方位角と仰角推定は成功していると言える。
【0058】
【実施例1】
《2つの混合音源の分離抽出》
二次元空間におけるFDBMの音源分離性能を評価する為に、音源分離試験を行った。本実験における目的話者、妨害話者、ダミーヘッドの相対的な位置を、図9に示す。目的信号を、方位角30°、仰角20°に配置し妨害信号を、方位角右−30°、仰角−20°に配置した。使用する音響信号は、目的信号に男声、妨害信号に女声を用いた。本実験で使用する音響信号は、全て16kHzサンプリング、量子化16bitとした。また、HRTFはMIT提供のものを使用した。
【0059】
図10に、本実験で得られた入出力信号波形を示す。波形は上から、(a)目的信号、(b)ダミーヘッドでの観測信号、(c)音源の方位角と仰角を既知とした場合の分離信号、(d)音源の方位角と仰角の推定を行った場合の分離信号である。この図から分かるように、分離信号は目的信号のエンベロープを再現しているといえる。
【図面の簡単な説明】
【図1】図1は、本発明の周波数領域両耳聴モデルシステムの1例を図1示した模式図である。
【図2】図2は、左右それぞれの耳に入力される信号、および両耳間信号の入力様子を解説するための説明図である。
【図3】図3は、周波数500Hzにおける位相差情報データベースの両耳間位相差(仰角の下40°から上80°まで)を示したグラフである。
【図4】図4は、周波数2kHzにおけるレベル差情報データベースの両耳間レベル差(仰角の下40°から上80°まで)を示したグラフである。
【図5】図5は、本発明の参考例において、音声の250Hz、500Hz、750Hzの両耳間位相差により推定される方位角と仰角を表したグラフである。
【図6】図6は、本発明の参考例において、1500Hz、2250Hz、3kHzの両耳間レベル差により推定される方位角と仰角を表したグラフである。
【図7】図7は、本発明の参考例における目的話者、ダミーヘッドの相対的な位置を示した模式図である。
【図8】図8は、本発明の参考例における、(a)入力波形、(b)仰角の推定方向、(c)方位角の推定方向を示したグラフである。
【図9】図9は、本発明の1実施例における目的話者、妨害話者、ダミーヘッドの相対的な位置を示した模式図である。
【図10】図10は、本発明の1実施例で得られた入出力信号の波形の1例を示したチャートである。
Claims (2)
- (1)上下、左右方向の複数の音源から発生される音響信号を、左右両受音部から入力し、
(2)入力した左右両入力信号を、周波数帯域ごとに分割し、
(3)左右両入力信号のクロススペクトルから周波数帯域ごとの両耳間位相差(IPD)、左右両入力信号のパワースペクトルのレベル差から両耳間レベル差(ILD)を求め、
(4)全周波数帯域で、低周波領域では得られたIPDと、高周波領域では得られたILDと、その中間領域では得られたIPDとILDの加重平均と、データベースのそれとを比較することにより各周波数帯域ごとに音源の方位角と仰角の候補を推定し、
(5)上記の各周波数帯域ごとに得られた音源の方位角と仰角のうち出現頻度が高い方向を、音源の方位角と仰角と推定し、
(6)求められた音源の方位角と仰角D(ψ、φ)を基に、入力される複数の音源に対して、各周波数帯域ごとに観測信号スペクトルL(ω)とR(ω)に分離フィルタα(ω)を乗じることで特定の方位角と仰角の音源からの信号としてフィルタリングを行って分離し、
(7)分離・抽出した目的の方位角と仰角の音源から到来したと推定される各周波数帯域ごとのスペクトル成分を、逆FFT(IFFT)処理により時間波形に変形することからなる音源分離方法。
(但し、分離フィルタα(ω)は、下記式(12)で表される
【数式12】
(12)
ここで、β(ω)は、下記式(13)で与えられる。また、γは、分離フィルタゲインを制御するパラメータである。)
【数式13】
(13) - (1)上下、左右方向の複数の音源から発生される音響信号を、左右両受音部から入力する手段、
(2)入力した左右両入力信号を、周波数帯域ごとに分割する手段、
(3)左右両入力信号のクロススペクトルから周波数帯域ごとの両耳間位相差(IPD)、左右両入力信号のパワースペクトルのレベル差から両耳間レベル差(ILD)を求める手段、
(4)全周波数帯域で、低周波領域では得られたIPDと、高周波領域では得られたILDと、その中間領域では得られたIPDとILDの加重平均と、データベースのそれとを比較することにより各周波数帯域ごとに音源の方位角と仰角の候補を推定する手段、
(5)上記の各周波数帯域ごとに得られた音源の方位角と仰角のうち出現頻度が高い方向を、音源の方位角と仰角と推定する手段、
(6)求められた音源の方位角と仰角D(ψ、φ)を基に、入力される複数の音源に対して、各周波数帯域ごとに観測信号スペクトルL(ω)とR(ω)に分離フィルタα(ω)を乗じることで特定の方位角と仰角の音源からの信号としてフィルタリングを行って分離する手段、
(7)分離・抽出した目的の方位角と仰角の音源から到来したと推定される各周波数帯域ごとのスペクトル成分を、逆FFT(IFFT)処理により時間波形に変形する手段とからなる音源分離システム。
(但し、分離フィルタα(ω)は、下記式(12)で表される
【数式12】
(12)
ここで、β(ω)は、下記式(13)で与えられる。また、γは、分離フィルタゲインを制御するパラメータである。)
【数式13】
(13)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003121094A JP4521549B2 (ja) | 2003-04-25 | 2003-04-25 | 上下、左右方向の複数の音源の分離方法、そのためのシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003121094A JP4521549B2 (ja) | 2003-04-25 | 2003-04-25 | 上下、左右方向の複数の音源の分離方法、そのためのシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004325284A JP2004325284A (ja) | 2004-11-18 |
JP4521549B2 true JP4521549B2 (ja) | 2010-08-11 |
Family
ID=33499759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003121094A Expired - Fee Related JP4521549B2 (ja) | 2003-04-25 | 2003-04-25 | 上下、左右方向の複数の音源の分離方法、そのためのシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4521549B2 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1600791B1 (en) * | 2004-05-26 | 2009-04-01 | Honda Research Institute Europe GmbH | Sound source localization based on binaural signals |
JP4774512B2 (ja) * | 2005-08-31 | 2011-09-14 | 国立大学法人 熊本大学 | 出力制御装置 |
JP4940671B2 (ja) | 2006-01-26 | 2012-05-30 | ソニー株式会社 | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム |
JP2007240605A (ja) * | 2006-03-06 | 2007-09-20 | Institute Of National Colleges Of Technology Japan | 複素ウェーブレット変換を用いた音源分離方法、および音源分離システム |
JP4543014B2 (ja) * | 2006-06-19 | 2010-09-15 | リオン株式会社 | 聴音装置 |
CN106125048B (zh) * | 2016-07-11 | 2019-05-24 | 浙江大华技术股份有限公司 | 一种声源定位方法及装置 |
JP5070873B2 (ja) | 2006-08-09 | 2012-11-14 | 富士通株式会社 | 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム |
JP2009025025A (ja) * | 2007-07-17 | 2009-02-05 | Kumamoto Univ | 音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法 |
JP5031840B2 (ja) * | 2007-08-20 | 2012-09-26 | パイオニア株式会社 | 音像定位予測装置及び音像定位制御システム並びに音像定位予測方法及び音像定位制御方法 |
KR101395722B1 (ko) | 2007-10-31 | 2014-05-15 | 삼성전자주식회사 | 마이크로폰을 이용한 음원 위치 추정 방법 및 장치 |
JP2009200569A (ja) * | 2008-02-19 | 2009-09-03 | Chiba Inst Of Technology | 音源方向推定方法および装置 |
JP4572945B2 (ja) | 2008-03-28 | 2010-11-04 | ソニー株式会社 | ヘッドフォン装置、信号処理装置、信号処理方法 |
JP5195652B2 (ja) | 2008-06-11 | 2013-05-08 | ソニー株式会社 | 信号処理装置、および信号処理方法、並びにプログラム |
JP4631939B2 (ja) | 2008-06-27 | 2011-02-16 | ソニー株式会社 | ノイズ低減音声再生装置およびノイズ低減音声再生方法 |
JP4548539B2 (ja) * | 2008-12-26 | 2010-09-22 | パナソニック株式会社 | 補聴器 |
JP5489531B2 (ja) * | 2009-05-18 | 2014-05-14 | 株式会社小野測器 | 音源同定装置および音源同定プログラム |
JP2012133250A (ja) | 2010-12-24 | 2012-07-12 | Sony Corp | 音情報表示装置、音情報表示方法およびプログラム |
CN102809742B (zh) | 2011-06-01 | 2015-03-18 | 杜比实验室特许公司 | 声源定位设备和方法 |
JP6289936B2 (ja) * | 2014-02-26 | 2018-03-07 | 株式会社東芝 | 音源方向推定装置、音源方向推定方法およびプログラム |
US10764704B2 (en) * | 2018-03-22 | 2020-09-01 | Boomcloud 360, Inc. | Multi-channel subband spatial processing for loudspeakers |
JP7319789B2 (ja) | 2019-02-25 | 2023-08-02 | フォルシアクラリオン・エレクトロニクス株式会社 | 位相制御装置、音響装置及び位相制御方法 |
JP7252785B2 (ja) * | 2019-02-28 | 2023-04-05 | 株式会社デンソーテン | 音像予測装置および音像予測方法 |
US10841728B1 (en) | 2019-10-10 | 2020-11-17 | Boomcloud 360, Inc. | Multi-channel crosstalk processing |
JP7488703B2 (ja) | 2020-06-18 | 2024-05-22 | フォルシアクラリオン・エレクトロニクス株式会社 | 信号処理装置及び信号処理プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10313497A (ja) * | 1996-09-18 | 1998-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離方法、装置及び記録媒体 |
-
2003
- 2003-04-25 JP JP2003121094A patent/JP4521549B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10313497A (ja) * | 1996-09-18 | 1998-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離方法、装置及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2004325284A (ja) | 2004-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4521549B2 (ja) | 上下、左右方向の複数の音源の分離方法、そのためのシステム | |
JP6074263B2 (ja) | 雑音抑圧装置及びその制御方法 | |
EP2393463B1 (en) | Multiple microphone based directional sound filter | |
US8504117B2 (en) | De-noising method for multi-microphone audio equipment, in particular for a “hands free” telephony system | |
EP2063419A1 (en) | Speaker localization | |
US20040185804A1 (en) | Microphone device and audio player | |
CN106251877A (zh) | 语音声源方向估计方法及装置 | |
CN106226739A (zh) | 融合子带分析的双声源定位方法 | |
CN107479030A (zh) | 基于分频和改进的广义互相关双耳时延估计方法 | |
US20130016854A1 (en) | Microphone array processing system | |
KR20090037692A (ko) | 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치 | |
CN102565759A (zh) | 一种基于子带信噪比估计的双耳声源定位方法 | |
JP6225245B2 (ja) | 信号処理装置、方法及びプログラム | |
Velasco et al. | Novel GCC-PHAT model in diffuse sound field for microphone array pairwise distance based calibration | |
KR20090037845A (ko) | 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치 | |
Hosseini et al. | Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function | |
JPWO2018037643A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
Kociński et al. | Evaluation of Blind Source Separation for different algorithms based on second order statistics and different spatial configurations of directional microphones | |
US11062723B2 (en) | Enhancement of audio from remote audio sources | |
Makino et al. | Blind separation of more speech than sensors with less distortion by combining sparseness and ICA | |
Ganguly et al. | Non-uniform microphone arrays for robust speech source localization for smartphone-assisted hearing aid devices | |
Jinzai et al. | Wavelength proportional arrangement of virtual microphones based on interpolation/extrapolation for underdetermined speech enhancement | |
JP2017181761A (ja) | 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム | |
Wang et al. | A reverberation robust target speech detection method using dual-microphone in distant-talking scene | |
JP6295650B2 (ja) | 音声信号処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20030515 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20030731 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060331 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080617 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080808 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080808 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090114 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090203 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090817 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091007 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100331 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100426 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130604 Year of fee payment: 3 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091007 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130604 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130604 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |