JP5726709B2 - 音源分離装置、音源分離方法及びプログラム - Google Patents

音源分離装置、音源分離方法及びプログラム Download PDF

Info

Publication number
JP5726709B2
JP5726709B2 JP2011240054A JP2011240054A JP5726709B2 JP 5726709 B2 JP5726709 B2 JP 5726709B2 JP 2011240054 A JP2011240054 A JP 2011240054A JP 2011240054 A JP2011240054 A JP 2011240054A JP 5726709 B2 JP5726709 B2 JP 5726709B2
Authority
JP
Japan
Prior art keywords
sound source
signal
time difference
spectrum
arrival time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011240054A
Other languages
English (en)
Other versions
JP2013097176A (ja
Inventor
荒木 章子
章子 荒木
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011240054A priority Critical patent/JP5726709B2/ja
Publication of JP2013097176A publication Critical patent/JP2013097176A/ja
Application granted granted Critical
Publication of JP5726709B2 publication Critical patent/JP5726709B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は信号処理の技術分野に属する。特に本発明は複数の原信号がノイズとともに混合され、二個のマイクで観測される状況で、観測信号からそれぞれの原信号を推定し、分離抽出する音源分離技術に関する。特に、原信号やそれらがどのように混ざったかの情報を用いずに複数の原信号とノイズとが混在している観測信号のみから、それぞれの原信号を推定する、ブラインド音源分離技術に属する。
非特許文献1が音源分離の従来技術として知られている。非特許文献1では、音源kから発せられる原信号の、二個のマイクへの到達時間差δ
Figure 0005726709
として推定している。
和泉洋介,小野順貴,嵯峨山茂樹,"スパースな混合モデルに基づく雑音・残響環境下の劣決定ブラインド音源分離",電子情報通信学会総合大会講演論文集,2008年3月
しかしながら、従来技術では、到達時間差δの解析的な更新式は与えられていないため、多くの計算コストを要する全探索操作によって、到達時間差δを推定する必要がある。
本発明は、到達時間差δの性質に着目し、到達時間差δを効率的に推定する方法を与え、従来技術において必要であった全探索操作を不要とし、高速な音源分離技術を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、複数の原信号がノイズとともに混合され、二個のマイクで観測される状況で、観測信号からそれぞれの原信号を分離抽出する。原信号の音源のインデックスをkとし、周波数領域の観測信号xf,t=[xf,t,L,xf,t,Rから、二個のマイクへの原信号の到達時間差δf,kと雑音のパワースペクトルσ と原信号のスペクトルsf,t,kと音源存在確率p(k|θ)とを推定する。観測信号xf,tと推定されたパラメタθ={δf,k,σ ,sf,t,k,p(k|θ)}とから分離信号yf,t,kを生成する。観測信号xf,tが音源kに帰属する期待値を示す事後確率をmf,t,kとし、二個のマイクの間隔をDとし、原信号の速度をcとし、φ=sinc(2πfD/c)とし、ξf,t,k=[xf,t,R−φ(xt,t,L−sf,t,k)]とし、スペクトルsf,t,k及びξf,t,kの位相をそれぞれψsk及びψξkとし、到達時間差δf,k
Figure 0005726709
として推定する。推定された到達時間差δf,kが内包する±πの不定性を補正する。
本発明は、到達時間差δを効率的に推定する方法を与え、高速な音源分離ができるという効果を奏する。
第一実施形態に係る音源分離装置の機能ブロック図。 第一実施形態に係る音源分離装置の処理フローを示す図。 Eステップ計算部の機能ブロック図。 Mステップ計算部の機能ブロック図。 パラメタ推定部の処理フローを示す図。 シミュレーションを行った環境を示す図。 図7Aは音源数が2つの場合のシミュレーション結果を、図7Bは音源数が3つの場合のシミュレーション結果を示す図。 音源スペクトル推定部の処理を時間差推定部の処理の前に行う場合のMステップ計算部の機能ブロック図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態に係る音源分離装置1>
図1は本実施形態に係る音源分離装置1の機能ブロック図を、図2はその処理フローを示す。
音源分離装置1は周波数領域変換部11とパラメタ推定部12と分離信号生成部13と時間領域変換部14とを含み、さらにパラメタ推定部12はEステップ計算部121とMステップ計算部122とを含む。
まず、観測信号について説明する。信号原(以下「音源」とも言う)がK個あり、k(k=1,2,…,K)を音源のインデックスとし、音源kから発せられる信号(以下「原信号」という)をs(t)とする。複数の原信号s(t),・・・,s(t)がノイズとともに二個のマイクL,Rで観測される状況で、マイクLで観測される時間領域の観測信号をx(t)とし、マイクRで観測される時間領域の観測信号をx(t)とし、二個のマイクL,Rで観測される時間領域の観測信号をx(t)=[x(t),x(t)]とする。「」は転置を表す。tはフレーム番号及びそのフレーム番号に対応する時刻を表す。Tを時間フレームの総数とすると、t=0,1,…,T−1である。ここで周波数領域の観測信号をxf,t=[xf,t,L,xf,t,Rと表記する。なお、fはサンプリング周波数fをF等分した離散点であり、f∈{0,f/F,…,(F−1)f/F}である。以降、断りのない場合、観測信号とは、周波数領域の観測信号xf,t=[xf,t,L,xf,t,Rを指し、時間領域の観測信号の場合はそれを明記する。
ここで、観測信号は、
Figure 0005726709
と表されると仮定する。ここで、sf,t,kは原信号s(t)のスペクトル(以下「音源スペクトル」ともいう)を、nf,k=[nf,k,L,nf,k,R]はマイクL,Rにおける加算的雑音を表す。またbf,k=[bf,k,L,bf,k,Rは音源kに関するステアリングベクトル(音源kの方向を特定するベクトルであり、方向ベクトルともいう)であり、原信号s(t)のマイクL、Rへの到達時間差をδとすると、
Figure 0005726709
である(非特許文献1参照)。本実施形態では、原信号の観測時間内においては、音源及びマイクは固定されており、またK個の音源は全て、異なる位置に配置されているとする。すなわち、ステアリングベクトルbf,kは時間tに依らず、kの値によって異なる値を取るものと仮定する。音源分離の目的は、観測信号xf,tのみを用いて、全ての音源スペクトルsf,t,kを推定することである。
本実施形態に係る音源分離装置1は、時間領域の観測信号x(t)=[x(t),x(t)]を入力とし、時間領域の分離信号(推定された各原信号)y(t)を出力する。以下、各部の処理内容を説明する。
<周波数領域変換部11>
まず、周波数領域変換部11は、マイクL、Rで収音した時間領域の観測信号x(t)=[x(t),x(t)]を入力とし、これを短時間フーリエ変換等により周波数領域の観測信号xf,t=[xf,t,L,xf,t,Rに変換し(s1)、パラメタ推定部12及び分離信号生成部13に出力する。
<パラメタ推定部12>
次に、パラメタ推定部12は、観測信号xf,tから、音源分離のために必要なパラメタθを推定する(s2)。なおθ={δf,k,σ ,sf,t,k,p(k|θ)}であり、δf,kは原信号の、二個のマイクへの到達時間差を表す。σ は雑音のパワースペクトルを、sf,t,kは音源スペクトルを、p(k|θ)は音源存在確率(混合信号中の音源kの寄与率)を表す。
本実施形態では、上記パラメタを推定するために、以下の2つの仮定を用いる。
(仮定1)は、雑音nが、平均0、共分散行列σ の正規分布に従う定常雑音でモデル化できるという仮定である。ここでσ は周波数fにおける雑音のパワーであり、Vは例えば拡散性雑音の場合
Figure 0005726709
で与えられる(非特許文献1参照)。ここでcは原信号の速度(音速等)、Dは二個のマイクの間隔である。
(仮定2)は、原信号がスパースな信号(つまり、成分のうち0でないもの(非零の成分)がまばらである信号、言い換えると、ほとんどの(または多くの)成分が0である信号)であるという仮定である。すなわち、ある時間周波数(f,t)において、たかだか1つの原信号のみが支配的であると仮定する。(仮定2)によると、式(2)は
Figure 0005726709
と表記できる(非特許文献1参照)。
上記(仮定1)、(仮定2)に基づけば、到達時間差δf,kとなる方向に存在する音源kから発せられる原信号が到来してxf,tが観測される尤度は、
Figure 0005726709
で与えられる(非特許文献1参照)。「」はエルミート転置を表す。ここでbf,kは式(3)で表される。これより、到達時間差δf,k、音源スペクトルsf,t,k及び雑音のパワースペクトルσ は、対数尤度関数
Figure 0005726709
を最大化するパラメタとして最尤推定により求める(非特許文献1参照)。但し、上記において、p(k|δf,k,σ ,sf,t,k)は音源存在確率を表し、混合信号中の音源kの寄与率であり、
Figure 0005726709
である(非特許文献1参照)。
具体的には、期待値最大化法(以下「EMアルゴリズム」ともいう)を適用し、Q関数
Figure 0005726709
を最大とするパラメタθ={δf,k,σ ,sf,t,k,p(k|θ)}を、以下のEステップ及びMステップの繰り返しにより求める(非特許文献1参照)。ここでmf,t,kは後述する式(11)で、p(xf,t|k,θ’)は前述の式(6)で与えられ、θ’は、1回前の繰り返しで得られているパラメタを意味する。
この繰り返し計算を、パラメタ推定部12にて行なう。以下、パラメタ推定部12の処理の詳細を説明する。
図3はEステップ計算部121の機能ブロック図を、図4はMステップ計算部122の機能ブロック図を、図5はパラメタ推定部12の処理フローを示す。
まず、パラメタ推定部12は、各パラメタを初期化する(s20)。パラメタのうちσ 、δf,k、及びp(k|θ)を初期化する。例えば、σ =|xf,t=0,L,δf,k=(D/c)cosα(cは原信号の速度(音速等)、Dはマイク間隔,αは音源kの方向の初期値(−π/2〜π/2の間の適当な値)),p(k|θ)=1/Kとする。さらに、初期化したパラメタδf,kとxf,t=0とを用いて、式(3)及び後述する式(19)に基づき、sf,t,kを初期化する。更新回数n=0とする。なお、最大更新回数N及び収束判定閾値Δは、当該装置の設計者や利用者等により予め設定されているものとする。
Eステップ計算部121は事後確率推定部1211とQ関数計算部1212とを含む(図3参照)。Mステップ計算部122は時間差推定部1221と音源スペクトル推定部1222と雑音パワー推定部1223と音源存在確率推定部1224とを含み、時間差推定部1221はさらに逆正接計算部12211と時間補正部12212とを備える(図4参照)。事後確率推定部1211とQ関数計算部1212とにおける処理を併せてEステップと呼び、時間差推定部1221と音源スペクトル推定部1222と雑音パワー推定部1223と音源存在確率推定部1224とにおける処理を併せてMステップと呼ぶ。
(事後確率推定部1211)
Eステップ計算部121の事後確率推定部1211は、観測信号xf,tと、一回前の繰り返しで得られているパラメタθ’(但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の事後確率推定においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて事後確率mf,t,k=p(k|xf,t,θ’)を以下の式(11)により求め(s22)、Q関数計算部1212とMステップ計算部122とに出力する。
Figure 0005726709
なお、p(xf,t|k,θ’)は式(6)により与えられる。なお、事後確率mf,t,kは観測信号xf,tが音源kに帰属する事後確率を表す。
(逆正接計算部12211)
Mステップ計算部122の時間差推定部1221の逆正接計算部12211は、観測信号xf,tと、事後確率mf,t,kと、一回前の繰り返しで得られているパラメタθ’(より詳しく説明するとθ’のうちの音源スペクトルsf,t,kである。但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の逆正接計算においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて、到達時間差δf,k(より詳しく言うと到達時間差δf,kに2πfを乗じた値2πfδf,k)を以下の式(13)により推定し(s25)、時間補正部12212に出力する。
Figure 0005726709
ψsk(但し添え字skはsを表す)及びψξk(但し添え字ξkはξを表す)は、それぞれsf,t,k及びξf,t,kの位相を表す。なお、式(13)の導出については後述する。
なお、従来技術では式(1)に基づきδを離散全探索によって推定するため多くの計算コストを要していたが、本実施形態では式(13)に基づきδf,kを算出するため全探索を要せず計算コストを小さくできる。また、式(13)に基づき周波数f毎に到達時間差δf,kを求める点が従来技術とは異なる。
(時間補正部12212)
Mステップ計算部122の時間差推定部1221の時間補正部12212は、観測信号xf,tと、事後確率mf,t,kと、一回前の繰り返しで得られているパラメタθ’(但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の時間補正においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて、式(13)にて推定した到達時間差δf,kが内包する±πの不定性を補正する(s26)。この補正は、式(13)の左辺2πfδf,kが−πからπの値を取るのに対し、式(13)の右辺の逆正接が−π/2からπ/2の値しか返すことができないため、2πfδf,kが−π〜−π/2及びπ/2〜πの範囲を取る場合の値を正しく求めるために必要である。式(13)で得られた値を2πfδ’f,kと記載すると、補正は以下のように行なう。
Figure 0005726709
ここでξf,t,k、φはそれぞれ式(14)、(15)で与えられ、ψsk(但し添え字skはsを表す)、ψξk(但し添え字ξkはξを表す)はそれぞれsf,t,k及びξf,t,kの位相を表す。なお、式(17)、(18)の導出については後述する。
さらに、時間補正部12212は、補正した値2πfδf,kを2πfで除算し、到達時間差δf,kを求め、音源スペクトル推定部1222と雑音パワー推定部1223とQ関数計算部1212とに出力する。
(音源スペクトル推定部1222)
Mステップ計算部122の音源スペクトル推定部1222は、到達時間差δf,kと観測信号xf,tを入力とし、これらの値を用いて、音源スペクトルsf,t,kを以下の式(19)により推定し(s27)、雑音パワー推定部1223とQ関数計算部1212とに出力する。
Figure 0005726709
ここで、bf,k、Vはそれぞれ式(3)、(4)で表される。
(雑音パワー推定部1223)
Mステップ計算部122の雑音パワー推定部1223は、到達時間差δf,kと音源スペクトルsf,t,kと観測信号xf,tと事後確率mf,t,kとを入力とし、これらの値を用いて、雑音のパワースペクトルσ を以下の式(20)により推定し(s28)、Q関数計算部1212に出力する。
Figure 0005726709
なお、Tは時間フレームの総数である。
(音源存在確率推定部1224)
Mステップ計算部122の音源存在確率推定部1224は、事後確率mf,t,kを入力とし、音源存在確率を以下の式(21)により推定し(s29)、Q関数計算部1212に出力する。
Figure 0005726709
(Q関数計算部1212)
Eステップ計算部121のQ関数計算部1212は、観測信号xf,tと、パラメタθ={δf,k,σ ,sf,t,k,p(k|θ)}と、事後確率mf,t,kと、を入力とし、これらの値を用いてQ関数を上述の式(10)により求める(s30)。
s20〜s30までの処理を終えると、パラメタ推定部12は、(条件1)Q関数の値の変化量(|Q(θ|θn−1)−Q(θ|θ)|)が所定の収束判定閾値Δより小さくなるか、または、(条件2)更新回数nが所定の最大更新回数N(例えばN=20)以上か否かを判定する(s31)。
パラメタ推定部12は、(条件1)、(条件2)の何れかを満たしたときは、パラメタ推定部12はその時点で取得している最新の事後確率mf,t,kと到達時間差δf,kを分離信号生成部13に出力する。
パラメタ推定部12は、(条件1)、(条件2)の何れも満たさないときは、EステップとMステップを繰り返す(s31、s21)。なお、図示しない記憶部にパラメタθとQ関数の値Q(θ|θ)とを記憶しておき、次の繰り返しの際に用いる。
<分離信号生成部13>
分離信号生成部13は、事後確率mf,t,kと到達時間差δf,kと観測信号xf,tとを入力とし、以下の式(22)により、分離信号yf,t,kを生成し(s3)、時間領域変換部14へ出力する。
Figure 0005726709
なお、音源スペクトルsf,t,kは、音源の発する原信号のスペクトルを推定したものであるが、この音源スペクトルを単純に時間領域の信号に変換した場合には、他の音源の発する原信号が残ることがある。上述の式(22)によって、音源kの発する原信号のみを抽出、分離することができる。
<時間領域変換部14>
時間領域変換部14は、分離信号yf,t,kを入力とし、周波数領域変換部11において行った周波数領域変換方法に対応する時間領域変換方法(例えば短時間フーリエ逆変換)で、分離信号yf,t,kを時間領域の分離信号y(t)に変換し(s4)、音源分離装置1の出力値として出力する。
<本実施形態のポイント>
以下、本実施形態のポイントを説明し、式(13)、(17)、(18)の導出方法を説明する。
本実施形態では、
(性質1)到達時間差δf,kがRチャネルとLチャネルの位相差に影響を与える値であること
(性質2)位相差が周期的な値を取る量であること
という2つの性質を利用して、到着時間差δf,kを推定する。ここで(性質1)は、式(2)にてノイズnf,tが十分に小さい場合を考えれば明らかである。(性質2)は、ある2つの位相を表わす量の差Θが、−π≦Θ<πの範囲の値だけではなく、Θ±2πM(Mは任意の整数)という周期的な不定性を内包する値を取る性質を持つことを意味する。
(性質2)について、さらに以下にて説明を行なう。式(6)
Figure 0005726709
の右辺における、expのカッコの中のベクトル及び行列x,b,Vを、それぞれの成分で表して整理すると、
Figure 0005726709
となる(Cはδf,kに依らない定数)。式(32)は、位相や角度の分布のように周期的な値を取る変数に対する分布であるVon Mises分布
Figure 0005726709
と同じ形をしていることが分かる(参考文献1参照)。
[参考文献1]C.M.ビショップ著,元田ら訳,“パターン認識と機械学習(上)”,シュプリンガー・ジャパン,2006.
ここで−π<x≦π、μは分布の平均(−π<μ≦π)、κ>0は分布の集中度パラメタ(正規分布での(1/分散)に相当)、I(x)は0次の第1種ベッセル関数である。
すなわち、式(33)の変数xが式(32)のψξk−ψskに対応し、式(33)の平均μが式(32)の2πfδf,kに対応し、式(33)の集中度κが式(32)の(|ξf,t,k||sf,t,k|)/(σ (1−φ ))に対応する。
説明をより直感的にするため、雑音のパラメタがφ=0である場合を考える(これは、雑音が式(4)に示す拡散性雑音ではなく、分散σ のガウス雑音が観測x,xにそれぞれ乗ることを意味する)。このとき、式(14)によりξf,t,k=xf,t,Rとなるため、式(32)において、ψξkはψxf,t,R(但し、添え字xf,t,Rはxf,t,Rを表し、ψxf,t,RはマイクRの観測信号xf,t,Rの位相を表す)となる。また、式(3)、(5)により(但し式(5)においてnf,t=0)、sf,t,k=xf,t,Lとなるため、式(32)においてψskはψxf,t,L(但し、添え字xf,t,Lはxf,t,Lを表し、ψxf,t,LはマイクLの観測信号xf,t,Lの位相を表す)となる。また、前述の通りξf,t,k=xf,t,Rであり、式(3)、(5)よりxf,t,R=ej2πfδk,f・sf,t,k(但し、eの添え字δk,fはδk,fを表す)となるため、式(32)において、|ξf,t,k|=|ej2πfδk,f・sf,t,k|=|sf,t,k|となる。よって、式(32)は
Figure 0005726709
となる。これとVon Mises分布との解釈を合わせると、
(1)RチャネルとLチャネルの位相差ψxf,t,R−ψxf,t,Lという周期的な値を取る変数の分布が、平均μ=2πfδf,kを取る、
(2)Von Mises分布の集中度κが、SN比|sf,k,t/σ に対応するようになる。すなわち、SN比が低い(条件が悪い)と、RチャネルとLチャネルの位相差の値の集中度が下がる(=分散が大きくなる)。これは、SN比が低い条件においては位相差の測定値がばらつく現象と対応する、
の2点が言える。
本実施形態では、(性質1)、(性質2)を利用しており、実施の手続きとしては、RチャネルとLチャネルの位相差に関する量が、周期的な値を取る変数に対する分布であるVon Mises分布で表現できることに着目し、Von Mises分布のパラメタに対する最尤推定により、分布の平均値μ=2πfδf,kを推定することで、信号到達時間差パラメタδf,kを推定する。
式(31)のp(xf,t|k,θ)をQ関数の式(10)に代入し、
Figure 0005726709
を解くことで、式(13)が得られる。
また時間補正部12212における関数Fの式(17)、(18)は、Q関数の2階微分
Figure 0005726709
である。時間補正部12212では、式(13)で得られた解δ’f,kがQ関数の極大値・極小値のどちらを与えるかを、F(2πfδ’f,k)の値の正負にて調べ、δ’f,kが極小値を与える場合に、上述の+πまたは−πの補正を行なう。
<効果>
従来法においては、時間差推定部において解析的な更新式が与えられていなかったため、多くの計算コストを要する全探索操作が必要であった。よって、時間差推定部の計算コストを削減し、高速な音源分離手段を提供することが課題である。本実施形態では、到着時間差δf,kが、マイクRとマイクLの位相差に影響を与える値であることと、位相差が周期的な値を取る性質を持つことに着目し、到着時間差δf,kを推定する。これにより、従来必要であった全探索操作が不要となるため、高速な音源分離手段を提供することが可能となる。
<シミュレーション結果>
発明の効果を示すため実験を行なった。図6に示す部屋において、音源数は2つ(70度と150度)又は3つ(30,70,150度)とした。音源は、英語話者音声を用い、音源数2及び3の場合それぞれにおいて10通りの音源組合せにて実験を行なった。
雑音としては、平均0、共分散行列σ (Vは式(4)により与えられる)のガウスノイズをSN比約25dBにて重畳した。部屋の残響時間は130ms、サンプリング周波数は8kHz,短時間フーリエ変換の窓長及びシフト長はそれぞれ64ms,16msとした。
従来法では到達時間差δを推定する際に、音源位置Θ(図6参照)を0度から180度まで1度きざみで変化させ、それに対応する181種類の到達時間差δの値について全探索を行なった。
図7に、SIR(信号対雑音比、雑音には他話者音声含む)、SDR(信号対歪み比)、及びパソコン(IntelXeon(登録商標)X5650 2.67GHz(6Core)×2CPU)における計算時間を示す。図7Aは音源が二つの場合(70度と150度)を、図7Bは音源が三つの場合(30度,70度,150度)を示す。SIRとSDRは大きな値であるほど良い性能であることを示す。数字は、10通りの音源組合せの平均値である。図7A、Bに示す通り、本実施形態は、1/10程度の計算時間で、従来法とほぼ同程度の分離性能を達成できることが見てとれる。
<その他の変形例>
本実施形態のポイントは上述の通り、到達時間差の推定方法である。従って、他の処理やパラメタの推定方法については、上記の実施形態に限定されるものではなく、他の従来技術を用いてもよい。
本実施形態では、各部間で直接データを受け渡しているが、図示しない記憶部を介して、各データを読み書きしてもよい。
また、本実施形態では、雑音パワー推定部1223は音源スペクトルsf,t,kを音源スペクトル推定部1222から取得しているが、到達時間差δf,kと観測信号xf,tとを用いて式(19)に基づき雑音パワー推定部1223で計算する構成としてもよい。
本実施形態では、拡散性雑音の場合を想定しているが、他の特性を持つ雑音であってもよい。その場合、雑音の特性に応じて、式(4)や式(15)のsinc(2πfD/c)を適宜変更すればよい。
分離信号生成部13は、事後確率mf,t,kと音源スペクトルsf,t,kとを入力とし、式(22)に代えて、以下の式により、分離信号yf,t,kを生成してもよい。
Figure 0005726709
この場合、パラメタ推定部12は、Q関数の値の変化量(|Q(θ|θn−1)−Q(θ|θ)|)が所定の収束判定閾値Δより小さくなったとき、または、更新回数nが所定の最大更新回数N以上になったとき(s31)に取得している最新の事後確率mf,t,kと音源スペクトルsf,t,kを分離信号生成部13に出力する。このような構成により、式(22)と同様に分離信号yf,t,kを生成することができる(式(19)参照)。
Mステップの計算順序は、本実施形態の計算順序に限らない。例えば、時間差推定部1221と音源スペクトル推定部1222の計算順序はどちらを先に行ってもよい。図8は音源スペクトル推定部1222の音源スペクトル推定処理(s27)を行った後に、時間差推定部1221の到達時間差推定処理(s25、s26)を行う場合の機能ブロック図を示す。以下、図8を用いて説明する。
Mステップ計算部122の音源スペクトル推定部1222は、一回前の繰り返しで得られているパラメタθ’(より詳しく説明するとθ’のうちの到達時間差δf,kである。但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の音源スペクトル計算においては、前述の初期化したパラメタ)と観測信号xf,tを入力とし、これらの値を用いて、音源スペクトルsf,t,kを式(19)により推定し、雑音パワー推定部1223とQ関数計算部1212と時間差推定部1221と時間補正部12212とに出力する。
Mステップ計算部122の時間差推定部1221の逆正接計算部12211は、観測信号xf,tと、事後確率mf,t,kと、音源スペクトルsf,t,kとを入力とし、これらの値を用いて、到達時間差δf,kを式(13)により推定し、時間補正部12212に出力する。
Mステップ計算部122の時間差推定部1221の時間補正部12212は、観測信号xf,tと、事後確率mf,t,kと、音源スペクトルsf,t,kと、一回前の繰り返しで得られているパラメタθ’(より詳しく説明するとθ’のうちの雑音のパワースペクトルσ である。但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の時間補正においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて、式(13)にて推定した到達時間差δf,kが内包する±πの不定性を式(16)に基づき補正する。さらに、時間補正部12212は、補正した値2πfδf,kを2πfで除算し、到達時間差δf,kを求め、雑音パワー推定部1223とQ関数計算部1212とに出力する。
上述の構成とすることで、第一実施形態と同様の効果を得ることができる。なお、同様に、一回前の繰り返しで得られているパラメタθ’のうちの到達時間差δf,kに基づき雑音パワー推定部1223の雑音パワー推定処理(s28)を行った後に、時間差推定部1221の到達時間差推定処理(s25、s26)を行ってもよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述した音源分離装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。

Claims (3)

  1. 複数の原信号がノイズとともに混合され、二個のマイクで観測される状況で、観測信号からそれぞれの原信号を分離抽出する音源分離装置であって、
    前記原信号の音源のインデックスをkとし、周波数領域の前記観測信号xf,t=[xf,t,L,xf,t,Rから、前記二個のマイクへの前記原信号の到達時間差δf,kと雑音のパワースペクトルσ と原信号のスペクトルsf,t,kと音源存在確率p(k|θ)とを推定するパラメタ推定手段と、
    前記観測信号xf,tと推定されたパラメタθ={δf,k,σ ,sf,t,k,p(k|θ)}とから分離信号yf,t,kを生成する分離信号生成手段とを含み、
    前記パラメタ推定手段は、
    観測信号xf,tが音源kに帰属する期待値を示す事後確率をmf,t,kとし、前記二個のマイクの間隔をDとし、前記原信号の速度をcとし、φ=sinc(2πfD/c)とし、ξf,t,k=[xf,t,R−φ(xt,t,L−sf,t,k)]とし、前記スペクトルsf,t,k及び前記ξf,t,kの位相をそれぞれψsk及びψξkとし、前記到達時間差δf,k
    Figure 0005726709
    として推定する逆正接計算手段と、
    推定された前記到達時間差δf,kが内包する±πの不定性を補正する補正手段と
    前記到達時間差δ f,k と前記観測信号x f,t とを用いて、前記原信号のスペクトルs f,t,k
    Figure 0005726709
    として推定する音源スペクトル推定手段と、
    前記到達時間差δ f,k と前記音源スペクトルs f,t,k と前記観測信号x f,t と前記事後確率m f,t,k とを用いて、前記雑音のパワースペクトルσ
    Figure 0005726709
    として推定する雑音パワー推定手段と、
    前記事後確率m f,t,k を用いて、前記音源存在確率p(k|θ)を
    Figure 0005726709
    として推定する音源存在確率推定手段とを有し、
    前記分離信号生成手段は、前記分離信号y f,t,k
    Figure 0005726709
    として生成する、
    音源分離装置。
  2. 複数の原信号がノイズとともに混合され、二個のマイクで観測される状況で、観測信号からそれぞれの原信号を分離抽出する音源分離方法であって、
    前記原信号の音源のインデックスをkとし、周波数領域の前記観測信号xf,t=[xf,t,L,xf,t,Rから、前記二個のマイクへの前記原信号の到達時間差δf,kと雑音のパワースペクトルσ と原信号のスペクトルsf,t,kと音源存在確率p(k|θ)とを推定するパラメタ推定ステップと、
    前記観測信号xf,tと推定されたパラメタθ={δf,k,σ ,sf,t,k,p(k|θ)}とから分離信号yf,t,kを生成する分離信号生成ステップとを含み、
    前記パラメタ推定ステップは、
    観測信号xf,tが音源kに帰属する期待値を示す事後確率をmf,t,kとし、前記二個のマイクの間隔をDとし、前記原信号の速度をcとし、φ=sinc(2πfD/c)とし、ξf,t,k=[xf,t,R−φ(xt,t,L−sf,t,k)]とし、前記スペクトルsf,t,k及び前記ξf,t,kの位相をそれぞれψsk及びψξkとし、前記到達時間差δf,k
    Figure 0005726709
    として推定する逆正接計算ステップと、
    推定された前記到達時間差δf,kが内包する±πの不定性を補正する補正ステップと
    前記到達時間差δ f,k と前記観測信号x f,t とを用いて、前記原信号のスペクトルs f,t,k
    Figure 0005726709
    として推定する音源スペクトル推定ステップと、
    前記到達時間差δ f,k と前記音源スペクトルs f,t,k と前記観測信号x f,t と前記事後確率m f,t,k とを用いて、前記雑音のパワースペクトルσ
    Figure 0005726709
    として推定する雑音パワー推定ステップと、
    前記事後確率m f,t,k を用いて、前記音源存在確率p(k|θ)を
    Figure 0005726709
    として推定する音源存在確率推定ステップとを有し、
    前記分離信号生成ステップは、前記分離信号y f,t,k
    Figure 0005726709
    として生成する、
    音源分離方法。
  3. コンピュータを請求項1記載の音源分離装置として機能させるためのプログラム。
JP2011240054A 2011-11-01 2011-11-01 音源分離装置、音源分離方法及びプログラム Active JP5726709B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011240054A JP5726709B2 (ja) 2011-11-01 2011-11-01 音源分離装置、音源分離方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011240054A JP5726709B2 (ja) 2011-11-01 2011-11-01 音源分離装置、音源分離方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013097176A JP2013097176A (ja) 2013-05-20
JP5726709B2 true JP5726709B2 (ja) 2015-06-03

Family

ID=48619166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011240054A Active JP5726709B2 (ja) 2011-11-01 2011-11-01 音源分離装置、音源分離方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5726709B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11418877B2 (en) 2019-11-21 2022-08-16 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113932912B (zh) * 2021-10-13 2023-09-12 国网湖南省电力有限公司 一种变电站噪声抗干扰估计方法、系统及介质
CN113823317B (zh) * 2021-10-18 2023-06-30 国网重庆市电力公司电力科学研究院 基于频谱结构化识别的变电站噪声分离方法、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008145610A (ja) * 2006-12-07 2008-06-26 Univ Of Tokyo 音源分離定位方法
JP5134525B2 (ja) * 2008-12-19 2013-01-30 日本電信電話株式会社 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11418877B2 (en) 2019-11-21 2022-08-16 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Also Published As

Publication number Publication date
JP2013097176A (ja) 2013-05-20

Similar Documents

Publication Publication Date Title
KR101871604B1 (ko) 심화 신경망을 이용한 다채널 마이크 기반의 잔향시간 추정 방법 및 장치
JP5337072B2 (ja) モデル推定装置、音源分離装置、それらの方法及びプログラム
US9349375B2 (en) Apparatus, method, and computer program product for separating time series signals
Mohammadiha et al. A new linear MMSE filter for single channel speech enhancement based on nonnegative matrix factorization
CN103559888A (zh) 基于非负低秩和稀疏矩阵分解原理的语音增强方法
JP5568530B2 (ja) 音源分離装置とその方法とプログラム
WO2013132926A1 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
Seki et al. Generalized multichannel variational autoencoder for underdetermined source separation
Wang Multi-band multi-centroid clustering based permutation alignment for frequency-domain blind speech separation
JP2015210512A (ja) ブラインド信号分離方法およびその装置
JP2022529912A (ja) 深層フィルタを決定するための方法および装置
JP5726709B2 (ja) 音源分離装置、音源分離方法及びプログラム
Garg Speech enhancement using long short term memory with trained speech features and adaptive wiener filter
Jiang et al. An Improved Unsupervised Single‐Channel Speech Separation Algorithm for Processing Speech Sensor Signals
JP4960933B2 (ja) 音響信号強調装置とその方法と、プログラムと記録媒体
JP5406866B2 (ja) 音源分離装置、その方法及びプログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
Narayanaswamy et al. Audio source separation via multi-scale learning with dilated dense u-nets
WO2020184210A1 (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
Maas et al. A highly efficient optimization scheme for REMOS-based distant-talking speech recognition
Ji et al. A priori SAP estimator based on the magnitude square coherence for dual-channel microphone system
Wan et al. Multi-Loss Convolutional Network with Time-Frequency Attention for Speech Enhancement
Inoue et al. Sepnet: a deep separation matrix prediction network for multichannel audio source separation
Gang et al. Towards automated single channel source separation using neural networks
JP7270869B2 (ja) 情報処理装置、出力方法、及び出力プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150401

R150 Certificate of patent or registration of utility model

Ref document number: 5726709

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150