JP2014048398A - 音響信号解析装置、方法、及びプログラム - Google Patents

音響信号解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP2014048398A
JP2014048398A JP2012190188A JP2012190188A JP2014048398A JP 2014048398 A JP2014048398 A JP 2014048398A JP 2012190188 A JP2012190188 A JP 2012190188A JP 2012190188 A JP2012190188 A JP 2012190188A JP 2014048398 A JP2014048398 A JP 2014048398A
Authority
JP
Japan
Prior art keywords
dimensional array
frequency
sound source
time
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012190188A
Other languages
English (en)
Other versions
JP5807914B2 (ja
Inventor
Hirokazu Kameoka
弘和 亀岡
Takuma Ono
拓磨 小野
Junki Ono
順貴 小野
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Research Organization of Information and Systems
University of Tokyo NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Research Organization of Information and Systems
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Research Organization of Information and Systems, University of Tokyo NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012190188A priority Critical patent/JP5807914B2/ja
Publication of JP2014048398A publication Critical patent/JP2014048398A/ja
Application granted granted Critical
Publication of JP5807914B2 publication Critical patent/JP5807914B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】複数のマイクロホンから出力された音響信号の時系列データから、音源毎の音源信号に精度よく分離することができるようにする。
【解決手段】確率更新部241、時変ゲイン更新部242、及び分離行列更新部243により、各周波数に対する各時間フレームにおいて調波構造を有するパワースペクトルテンプレートの各々が音源毎に選択される確率を要素にもつ三次元配列Π^を用いて、観測時間周波数成分の三次元配列Xが与えられたときの三次元配列Π^、各音源のパワーを要素にもつ二次元配列Σ^、及び各周波数ωの分離行列Wω^の事後確率を表す目的関数を最大化するように、三次元配列Π^、二次元配列Σ^、及び各周波数ωの分離行列Wω^を更新することを繰り返す。
【選択図】図1

Description

本発明は、音響信号解析装置、方法、及びプログラムに係り、特に、複数のマイクロホンから出力される音響信号の時系列データから、各音源の信号に分離する音響信号解析装置、方法、及びプログラムに関する。
音源の成分と音源からマイクロホンまでの伝達特性がともに未知のもとで、マイクロホン入力信号から個々の音源成分を分離抽出する技術をブラインド音源分離(Blind Source Separation;BSS)という。BSSでは観測信号だけから音源信号とその混合過程を推定する必要があるため、通常は音源に関して何らかの仮定を置き、これにより立てられる規準をもとに両未知変数を推定する最適化問題として定式化される。例えば、観測信号数が音源数以上の場合には、音源信号成分が優ガウス分布に従うという仮定のもとで分離フィルタを最尤推定する独立成分分析(Independent Component Analysis;ICA) と呼ぶ方法が有名である(非特許文献1)。周波数領域におけるICAは、音響信号のような時間遅れを有する混合系に対するBSSの有効なアプローチの1つであるが、周波数帯域毎に信号分離が行われるため、帯域毎の分離結果を同一音源毎にまとめる、いわゆるパーミュテーション問題を解く必要があった。
近年提案されている、ベクトル型変数を用いた独立成分分析(以下、独立ベクトル分析(Independent Vector Analysis;IVA))は、パーミュテーション問題を生じない分離手法として知られている(非特許文献2)。IVAにおいては、各音源のフレーム毎の複素スペクトルをベクトル型変数Yk,τ^=(Yk,τ,1,...,Yk,τ,ω,...,Yk,τ,N)Tとして扱い(ただし、kは音源、τは時間フレーム、ωは周波数を表すインデックスである。)、そのノルムである

が優ガウス分布に従うという仮定のもとで最尤となる各帯域の分離フィルタが推定される。また、優ガウス分布の具体的な分布として時変ガウス分布(分散が時刻ごとに変化することを許容したガウス分布)を仮定したIVAを実現する方法も提案されている(非特許文献3)。
IVAによるブラインド音源分離の問題は、観測信号の時間周波数表現X^=(X1Tω,...,XMTω)Tに対し、分離信号

の各要素が統計的に独立になるように分離行列Wω^の推定する問題として定式化される。ただし、Yτω^=(Y1τω,...,Ykτω,...,YKτω)Tであり、各音源の時間周波数成分を表わしている。
A. Hyv¨arinen, J. Karhumen, and E. Oja, Independent Component Analysis, John Wiley & Sons, 2001. T. Kim, T. Eltoft and T. Lee, "Independent Vector Analysis: An Extension of ICA to Multivariate Components," Proc. ICA, pp.165−172, 2006. 小野拓磨、小野順貴、嵯峨山茂樹、"音源のアクティベーションを事前情報とした独立ベクトル析による音源分離、"日本音響学会秋季研究発表会講演集、pp.613−614,Sep. 2011.
以上のように、IVAでは、複素スペクトルをベクトル化したもののノルムが優ガウス分布に従うと仮定されるが、優ガウス分布として時変ガウス分布(フレームごとに分散が変化することを許容したガウス分布)を仮定した場合、この仮定は、各音源に対してどの周波数でもパワーの時間包絡が等しいと仮定したことになっている。しかし、一般に対象となる音源は音楽や音声など調波性という特別な性質を持つ場合がある。この場合、調波成分間の谷の部分での振幅包絡は必ずしも他の周波数と一致しない一方、基本周波数や倍音間のパワーの依存関係は音源分離の重要な手掛かりになり得る。また、仮定に適合しない信号(ピッチや周期といった調波性をもつ音源信号)では分離の精度に限界がある。
また、IVAでは、Y^の振幅包絡がどの周波数間でも類似する、という仮定ができるだけ満たされるようにWω^が決定されるため、音源が調波構造を有する場合にはこの仮定が大きく崩れ、調波成分の谷間に該当する箇所に他音源の成分が混入したり、パーミュテーション不整合が起こることがあった。よって、もし各音源が調波構造を有するならば、音源モデルには、調波構造形のパワースペクトル密度を仮定した方が良いはずである。しかし、そのためには音源の基本周波数の情報が必要となるが、音源の基本周波数の情報は通常観測することができない。
本発明は、上記の事情を鑑みてなされたもので、複数のマイクロホンから出力された音響信号の時系列データから、音源毎の音源信号に精度よく分離することができる音響信号解析装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る音響信号解析装置は、M個(Mは2以上の整数)のマイクロホンmから出力される音響信号の時系列データを入力として、観測時間周波数成分Xmτω(mはマイクロホン、τは時間フレーム、ωは周波数のインデックスである。)を要素にもつ三次元配列Xを出力する時間周波数解析手段と、M個の音源kの時間周波数成分Ykτω(kは音源、τは時間フレーム、ωは周波数のインデックスである。)を要素にもつ三次元配列Y^、各音源kについて各時間フレームτにおいて調波構造を有するパワースペクトルテンプレートλ(l) ω(lは、パワースペクトルテンプレートのインデックスである。)が選択される確率π(l) を要素にもつ三次元配列Π^、各時間フレームτにおける各音源kのパワーσ2 を要素にもつ二次元配列Σ^、及び各周波数ωについて、Xτω(=(X1τω,・・・,XMτω))に作用させて音源信号の時間周波数成分Yτω^(=(Y1τω,・・・,YKτω))を得るための分離行列Wω^の各々の初期値を設定するパラメータ初期値設定手段と、(k、τ、ω、z)の全ての組み合わせにおける、zとσ2 が与えられたときの、λ(zkτ) ω・σ2 を分散とするガウス分布で表されたYkτωの確率密度関数、及びπが与えられたときのzの確率、(k、τ、l)の全ての組み合わせに対する前記確率π(l) の事前確率、及び各周波数ωに対する前記分離行列Wω^の行列式を用いて表された、前記三次元配列X^が与えられたときの前記三次元配列Π^、前記二次元配列Σ^、及び各周波数ωの前記分離行列Wω^の事後確率を表す目的関数を最大化するように、前記三次元配列Π^、前記二次元配列Σ^、及び各周波数ωの前記分離行列Wω^を更新するパラメータ更新手段と、各周波数ωの前記分離行列Wω^及び前記三次元配列X^に基づいて、前記三次元配列Y^を更新する音源信号推定値更新手段と、予め定められた終了条件を満たすまで、前記パラメータ更新手段による更新、及び前記音源信号推定値更新手段による更新を繰り返し行う終了判定手段と、を含んで構成されている。
本発明に係る音響信号解析方法は、時間周波数解析手段によって、M個(Mは2以上の整数)のマイクロホンmから出力される音響信号の時系列データを入力として、観測時間周波数成分Xmτω(mはマイクロホン、τは時間フレーム、ωは周波数のインデックスである。)を要素にもつ三次元配列X^を出力し、パラメータ初期値設定手段によって、M個の音源kの時間周波数成分Ykτω(kは音源、τは時間フレーム、ωは周波数のインデックスである。)を要素にもつ三次元配列Y^、各音源kについて各時間フレームτにおいて調波構造を有するパワースペクトルテンプレートλ(l) ω(lは、パワースペクトルテンプレートのインデックスである。)が選択される確率π(l) を要素にもつ三次元配列Π^、各時間フレームτにおける各音源kのパワーσ2 を要素にもつ二次元配列Σ^、及び各周波数ωについて、Xτω^(=(X1τω,・・・,XMτω))に作用させて音源信号の時間周波数成分Yτω^(=(Y1τω,・・・,YKτω))を得るための分離行列Wω^の各々の初期値を設定し、パラメータ更新手段によって、(k、τ、ω、z)の全ての組み合わせにおける、zとσ2 が与えられたときの、λ(zkτ) ω・σ2 を分散とするガウス分布で表されたYkτωの確率密度関数、及びπが与えられたときのzの確率、(k、τ、l)の全ての組み合わせに対する前記確率π(l) の事前確率、及び各周波数ωに対する前記分離行列Wω^の行列式を用いて表された、前記三次元配列X^が与えられたときの前記三次元配列Π^、前記二次元配列Σ^、及び各周波数ωの前記分離行列Wωの事後確率を表す目的関数を最大化するように、前記三次元配列Π^、前記二次元配列Σ^、及び各周波数ωの前記分離行列Wω^を更新し、音源信号推定値更新手段によって、各周波数ωの前記分離行列Wω^及び前記三次元配列X^に基づいて、前記三次元配列Y^を更新し、終了判定手段によって、予め定められた終了条件を満たすまで、前記パラメータ更新手段による更新、及び前記音源信号推定値更新手段による更新を繰り返し行う。
本発明に係るプログラムは、上記の音響信号解析装置の各手段としてコンピュータを機能させるためのプログラムである。
以上説明したように、本発明の音響信号解析装置、方法、及びプログラムによれば、各周波数に対する各時間フレームにおいて調波構造を有するパワースペクトルテンプレートの各々が音源毎に選択される確率を要素にもつ三次元配列Π^を用いて、観測時間周波数成分の三次元配列Xが与えられたときの三次元配列Π^、各音源のパワーを要素にもつ二次元配列Σ^、及び各周波数ωの分離行列Wω^の事後確率を表す目的関数を最大化するように、三次元配列Π^、二次元配列Σ^、及び各周波数ωの分離行列Wω^を更新することを繰り返すことにより、複数のマイクロホンから出力された音響信号の時系列データから、音源毎の音源信号に精度よく分離することができる、という効果が得られる。
本発明の実施の形態に係る音響信号解析装置の構成を示す概略図である。 パワースペクトルテンプレートを示す図である。 本発明の実施の形態に係る音響信号解析装置における音響信号解析処理ルーチンの内容を示すフローチャートである。 (A)SDRによる部屋E2Aにおける分離性能の評価結果を示すグラフ、及び(B)SDRによる部屋JR2における分離性能の評価結果を示すグラフである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する手法では、スペクトルテンプレートが時変ガウス分布における分散パラメータに組み込まれた音源の生成モデルを立てて、それをもとに、各音源において各フレームでどのスペクトルテンプレートが選ばれるべきかということと、各帯域の分離フィルタとを同時に推定する。
<発明の原理>
まず、本発明の原理について説明する。まず、音源の生成モデルについて説明する。
各フレームにおける基本周波数を潜在変数と見なし、潜在変数(基本周波数インデックスzkT)に応じて調波構造形のパワースペクトルテンプレートが一つ選択され、そのパワースペクトルをもとに音源の周波数成分が決定されるという生成プロセスを仮定する。これにより、従来のIVAにおいて仮定される音源モデルに比べ、調波性を有する音源を適切にモデル化できるはずであろうと考えられる。
l=1,...,Lを調波構造テンプレートのインデックスとし、λ(l) ωを特定の基本周波数の調波構造テンプレートとする(図2参照)。以上より、音源のGauss性を仮定すると、zkTが与えられたもとでの音源の生成モデルは、以下の(3)式で表される。
ただし、NC(・;μ,σ2)は平均μ、分散σ2の複素Gauss分布を表し、σkT 2はフレームτにおける音源kのパワーである。一方、z=lが選択される確率をπlkτとすると、潜在変数zは、以下の(4)式に示す離散分布で表される。
更に、πをスパースにするように誘導する目的でπのハイパー事前分布を以下の(5)式に示すDirichlet分布と仮定する。
以上の音源の生成モデルを、上記(2)式に組み込んだIVAの問題は、以下の(6)式に示す目的関数を最大化する問題に帰着する。
ただし、X^={Xmτω},Π^={π(l) },Σ^={σ2 },W^={Wω},Θ^={Π,Σ,W}である。Tは、時間フレーム数である。なお、記号に付された「^」は、当該記号が行列または多次元配列またはベクトルであることを表わしている。
上記の(6)式の目的関数の大域最適解は解析的に得ることはできないが、補助関数法により局所解を効率的に探索することができる。ここで、Σ (l) kτω=1となる補助変数γkτωを用いれば、以下の(7)式のように補助関数を設計できる。
<補助変数の更新>
補助変数についての更新式はΣlγ(l) kτω=1の制約のもと、∂Q/∂γ (l) kτω=0を解けば以下の(8)式のとおりに得られる。
ただし、λはテンプレートであり、lは、テンプレートのインデックスを表す。
<パラメータの更新>
π(l) とσ2 の更新式については、∂Q/∂π(l) =0,∂Q/∂σ2 =0を解くことにより以下の(9)式、(10)式のとおりに得られる。
Wω^については、以下の(11)式〜(14)式のように1行ずつ更新する。
ただし、ek^は、k番目のベクトル要素が1でそれ以外の要素は0の単位ベクトル(=[0,...,1,...,0]T)である。
<音源信号推定値の更新>
以上で更新された分離行列を用いて音源信号の推定を以下の(15)式のとおりに更新する。
ただし、Yτ,ω^=(Y1,τ,ω,...,YK,τ,ω)Tである。
<システム構成>
次に、M個(M≧2)のマイクロホンから得られた音響信号を解析して、既知のK個(K<M)の音源信号に分離する音響信号解析装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図1に示すように、本発明の実施の形態に係る音響信号解析装置は、CPUと、RAMと、後述する音響信号解析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
音響信号解析装置100は、入力部10と、演算部20と、記憶部30と、出力部40とを備えている。
入力部10により、M個のマイクロホンから出力された音響信号(多チャンネル信号)の時系列データが入力される。記憶部30は、入力部10により入力された音響信号の時系列データを記憶する。また、記憶部30は、後述する各処理での結果を記憶すると共に、各基本周波数の調波構造テンプレートλ(l) ω(l=1,...,L、ω=1,・・・,N)、パラメータβを記憶している。
演算部20は、時間周波数解析部21と、初期設定部22と、補助変数更新部23と、パラメータ更新部24と、時間周波数成分推定部25と、終了判定部26と、信号変換部27とを備えている。また、パラメータ更新部24は、確率更新部241と、時変ゲイン更新部242と、分離行列更新部243とを備えている。
時間周波数解析部21は、各マイクロホンの時系列信号としての観測された音響信号を入力として、時間周波数成分(観測時間周波数成分)Xmτω(m=1,・・・,M、ω=1,・・・,N,τ=1,・・・,Tは、それぞれマイクロホン、周波数、時間フレームに対応するインデックスを示す。)を各(m,ω,τ)の要素にもつ三次元配列Xを計算する。また、計算した時間周波数成分Xτωを、記憶部30に記憶しておく。より詳細には、時間周波数解析部21は、各マイクロホンmについて、当該マイクロホンの音響信号の時系列データを入力として、短時間フーリエ変換(Short-Time Fourier Transform;STFT)を用いて時間周波数解析を行うことにより時間周波数成分Xmτωを計算し、時間周波数成分Xmτωを格納した行列(振幅スペクトログラム)X^=(XmτωM×N×Tを出力する。なお、時間周波数成分Xmτωは、ウェーブレット変換を用いて計算してもよい。
初期設定部22は、後述する処理で用いる各パラメータπ(l) 、σ2 、Wω^の初期値を設定する。初期値として、乱数を用いて適当な値を設定すればよい。また、初期設定部22は、Wω^の初期値と時間周波数成分Xmτωとに基づいて、上記(2)式に従って、分離信号Yτω^の初期値を計算する。
補助変数更新部23は、(l、k、τ、ω)の全ての組み合わせの各々について、記憶部30に記憶されているπ(l) 、σ2 、Ykτω、λ(l) ωに基づいて、上記(8)式に従って、観測時間周波数成分Xmτωが各インデックスlのパワースペクトルテンプレートλ(l)ωに帰属する確率を示す補助変数γ(l) kτωを更新し、記憶部30に格納する。
確率更新部241は、(l、k、τ)の全ての組み合わせの各々について、記憶部30に記憶されているγ(l) kτω、βに基づいて、上記(9)式に従って、パワースペクトルテンプレートλ(l) ωが選択される確率π(l) を更新し、記憶部30に格納する。
時変ゲイン更新部242は、(k、τ)の全ての組み合わせの各々について、記憶部30に記憶されているγ(l) kτω、Ykτω、λ(l) ωに基づいて、上記(10)式に従って、フレームτにおける音源kのパワーσkT 2を更新し、記憶部30に格納する。
分離行列更新部243は、(k、τ、ω)の全ての組み合わせの各々について、記憶部30に記憶されているγ(l) kτω、λ(l) ω、σ 2に基づいて、上記(11)式に従って、パラメータ~σkτω 2を更新し、記憶部30に格納する。また、分離行列更新部243は、(k、ω)の全ての組み合わせの各々について、記憶部30に記憶されているXτω、~σkτω 2に基づいて、上記(12)式に従って、中間パラメータVを更新し、記憶部30に格納する。
そして、分離行列更新部243は、(k、ω)の全ての組み合わせの各々について、記憶部30に記憶されているWω^、Vに基づいて、上記(13)式、(14)式に従って、w^(音源kの音響信号の周波数成分ωに対する各マイクロホンmの重みを要素にもつ重みベクトル)を更新し、記憶部30に格納する。
時間周波数成分推定部25は、(τ、ω)の全ての組み合わせの各々について、記憶部30に記憶されているWω^、Xτω^に基づいて、上記(15)式に従って、各音源の時間周波数成分を表わすベクトルYτω^=(Y1τω,...,Ykτω,...,YKτω)Tを更新し、記憶部30に格納する。
終了判定部26は、予め定められた終了条件を満足するか否かを判定し、終了条件を満足していない場合には、補助変数更新部23、パラメータ更新部24、及び時間周波数成分推定部25の各処理を繰り返す。終了判定部26は、終了条件を満足したと判定した場合には、信号変換部27による処理に移行する。信号変換部27は、記憶部30に記憶されているYτω^を、各音源の音源信号に変換し、出力部40により、音源信号を出力する。
終了条件としては、繰り返し回数sが予め定めた回数Sに達したことを用いればよい。なお、s-1回目のパラメータを用いたときの目的関数の値とs回目のパラメータを用いたときの目的関数の値との差が、予め定めた閾値よりも小さくなったことを、終了条件として用いてもよい。
<音響信号解析装置の作用>
次に、本実施の形態に係る音響信号解析装置100の作用について説明する。まず、解析対象の信号として各マイクロホンからの音響信号の時系列データが音響信号解析装置100に入力され、記憶部30に格納される。そして、音響信号解析装置100において、図3に示す音響信号解析処理ルーチンが実行される。
まず、ステップS101において、記憶部30から、マイクロホン毎に、各時間フレームτ内の音響信号を読み込み、当該音響信号に対して、短時間フーリエ変換を用いた時間周波数分析を行った結果から、観測時間周波数成分Xmτωを各(m,τ,ω)の要素にもつ三次元配列X^を生成して、記憶部30に記憶する。
そして、ステップS102において、乱数を用いて、パラメータΘ^={Π^、Σ^、W^}の初期値を設定して、記憶部30に記憶すると共に、各音源信号の時間周波数成分Ykτωを各(k,τ,ω)の要素にもつ三次元配列Y^を生成して、記憶部30に記憶する。
次にステップS103では、上記ステップS102で設定されたパラメータΠ^、Σ^、Y^、又は後述するステップS104、S105、S107で更新されたパラメータΠ^、Σ^、Y^に基づいて、上記(8)式に従って、補助係数γ(l) kτωを各(l,k,τ,ω)の組み合わせについて算出して、記憶部30に格納する。
そして、ステップS104では、上記ステップS103で更新された補助係数γ(l) kτωに基づいて、上記(9)式に従って、パワースペクトルテンプレートλ(l) ωが選択される確率π(l) を各(l,k,τ)の組み合わせについて算出して、記憶部30に格納する。
ステップS105では、上記ステップS102で設定されたパラメータY^、又はステップS107で更新されたパラメータY^と、上記ステップS103で更新された補助係数γ(l) kτωに基づいて、上記(10)式に従って、時間フレームτにおける音源kのパワーσ 2を各(k,τ)の組み合わせについて算出して、記憶部30に格納する。
次のステップS106では、上記ステップS102で設定されたパラメータW^、又は前回のステップS106で更新されたパラメータW^と、上記ステップS101で生成された三次元配列X^と、上記ステップS105で更新されたパラメータΣ^と、上記ステップS103で更新された補助係数γ(l) kτωと、基づいて、上記(11)式〜(14)式に従って、wを各(k,ω)の組み合わせについて算出して、記憶部30に格納する。
そして、ステップS107では、上記ステップS106で更新されたパラメータWと、上記ステップS101で生成された三次元配列X^とに基づいて、上記(15)式に従って、各音源信号の時間周波数成分Ykτωを各(k,τ,ω)の要素にもつ三次元配列Yを算出して、記憶部30に記憶する。
次のステップS108では、終了条件として、繰り返し回数sが、Sに到達したか否かを判定し、繰り返し回数sがSに到達していない場合には、終了条件を満足していないと判断して、上記ステップS103へ戻り、上記ステップS103〜ステップS107の処理を繰り返す。一方、繰り返し回数sがSに到達した場合には、終了条件を満足したと判断し、ステップS109で、上記ステップS107で最終的に更新された三次元配列Yに基づいて、各音源の音源信号を算出し、出力部40により出力して、音響信号解析処理ルーチンを終了。
<実験結果>
次に、本実施の形態に係る手法の有用性を示す目的で、単旋律楽器を音源として用いたシミュレーションによる実験を行った結果について説明する。以下の表1に実験条件を示す。
予め録音された残響時間の異なる二種類の室内インパルス応答(参考文献(S. Nakamura, K. Hiyane, F. Asano, T. Nishiura and T. Yamada, “Acoustical Sound Database in Real Environments for Sound Scene Understanding and Hands-Free Speech Recognition,” Proc. LREC, pp. 965−968, 2000.)を参照)を単旋律楽器音(トランペット、サックス)とそれぞれ畳み込み加算することで観測信号とした。部屋E2A(残響時間T60=300ms)では、{−20°,0°}の方向から、部屋JR2(T60=470ms)では、{−30°,30°}の方向から音源が到来するとした。
本実施の形態に係る手法(以下、提案法と称する。)に用いた重みテンプレートは220Hz(A3)から半音ごとに24種類の倍音成分が1/√nで減衰する調波構造テンプレートと全ての周波数で同じ重みのテンプレート1種類の合計25 種類を用いた。提案法の分離行列の初期値として、時変Gauss分布に基づく独立ベクトル分析により分離行列を40回更新した値を用い、その後に提案法を40回反復し、復元信号を得た。提案法はπ(l) kTの事前分布としてDirichlet分布を考慮した手法(Prop(dir))と事前分布を一様にした手法(Prop(flat))の2種類を行った。Dirichlet分布を仮定した実験では、フレーム長が大きくなると事前分布の効用が小さくなるため効果を調節する目的でp(πkT)を周波数bin数乗した。また、提案法40回反復の間にp(πkT)のパラメータβを1から0.95まで徐々に小さくするアニーリング処理を行った。このとき更新の間にπ(l) が負になることがあったが、その場合十分小さい正数に置き換えた。
比較対象として、音源の生成モデルに時変Gauss分布を仮定した独立ベクトル分析による手法(IVA(TVG))音源の生成モデルにラプラス分布を仮定した独立ベクトル分析による手法(IVA(lap))(上記の非特許文献2参照)、独立成分分析による手法(ICA)(参考文献(H. Sawada, R. Mukai, S. Araki and S. Makino, “A Robust Approach to the Permutation Problem of Frequency-domain Blind source Separation,” Proc. ICASSP, pp. 381−384, 2003.)を参照)の3種類をそれぞれ分離行列の更新に80回行った。
SDR(参考文献(E. Vincent, R. Gribonval and C. F´evotte, “Performance Measurement in Blind Audio Source Separation,” IEEE Trans. ASLP, pp.1462−1469, 2006.)を参照)による評価の結果を、図4に示す。SDRによる部屋E2A(残響時間T60=300ms)における分離性能の評価結果を図4(A)に示し、SDRによる部屋JR2(T60=470ms)における分離性能の評価結果を図4(B)に示す。2種類の環境どちらにおいても従来法に比べ提案法が優位な結果を得られた。特に、部屋E2AにおいてDirichlet事前分布を考慮することで、6dB程度の改善が見られた。
以上説明したように、本発明の実施の形態に係る音響信号解析装置によれば、各周波数及び各時間フレームにおいて調波構造を有するパワースペクトルテンプレートの各々が音源毎に選択される確率を要素にもつ三次元配列Π^を用いて、観測時間周波数成分の三次元配列Xが与えられたときの三次元配列Π^、各音源のパワーを要素にもつ二次元配列Σ^、及び各周波数ωの分離行列Wω^の事後確率を表す目的関数を最大化するように、三次元配列Π^、二次元配列Σ^、及び各周波数ωの分離行列Wω^を更新することを繰り返すことにより、複数のマイクロホンから出力された音響信号の時系列データから、音源毎の音源信号に精度よく分離することができる。
また、調波構造をもつパワースペクトルのテンプレートを複数個用意しておき、スペクトルテンプレートが時変ガウス分布における分散パラメータに組み込まれた音源の生成モデルを立てて、それをもとに、各音源において各時間フレームでどのスペクトルテンプレートが選ばれるべきかということと、各帯域の分離フィルタとを同時に推定することにより、音源信号が調波構造をもつ場合に、音源分離の精度を向上させることができる。
また、上記の非特許文献3とのアルゴリズムにおける相違点は、(1)γ(l) kτω、π(l) kTというパラメータとその更新式(上記(8)式、(9)式)が新たに加わったこと、(2)各音源のパワーσ2 が、上記(10)式のようにγ(l) kTωを用いて算出されること、(3)中間変数Vが、上記(11)式に従って算出される各音源の各時刻におけるパワースペクトル推定値~σ2 kτω(周波数ωごとに異なる値をとりうる点が従来技術との重要な差異)を用いて上記(12)式のように更新されることである。
また、複数のマイクロホンで取得した音響信号から混在する個々の音源信号を分離することができるため、ハンズフリーテレビ会議システムや会議録コンテンツの自動作成システムなどの応用が期待される。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述の音響信号解析装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
21 時間周波数解析部
22 初期設定部
23 補助変数更新部
24 パラメータ更新部
25 時間周波数成分推定部
26 終了判定部
27 信号変換部
30 記憶部
40 出力部
100 音響信号解析装置
241 確率更新部
242 時変ゲイン更新部
243 分離行列更新部

Claims (5)

  1. M個(Mは2以上の整数)のマイクロホンmから出力される音響信号の時系列データを入力として、観測時間周波数成分Xmτω(mはマイクロホン、τは時間フレーム、ωは周波数のインデックスである。)を要素にもつ三次元配列Xを出力する時間周波数解析手段と、
    M個の音源kの時間周波数成分Ykτω(kは音源、τは時間フレーム、ωは周波数のインデックスである。)を要素にもつ三次元配列Y^、各音源kについて各時間フレームτにおいて調波構造を有するパワースペクトルテンプレートλ(l) ω(lは、パワースペクトルテンプレートのインデックスである。)が選択される確率π(l) を要素にもつ三次元配列Π^、各時間フレームτにおける各音源kのパワーσ2 を要素にもつ二次元配列Σ^、及び各周波数ωについて、Xτω(=(X1τω,・・・,XMτω))に作用させて音源信号の時間周波数成分Yτω(=(Y1τω,・・・,YKτω))を得るための分離行列Wω^の各々の初期値を設定するパラメータ初期値設定手段と、
    (k、τ、ω、z)の全ての組み合わせにおける、zとσ2 が与えられたときの、λ(zkτ) ω・σ2 を分散とするガウス分布で表されるYkτωの確率密度関数、及びπが与えられたときのzの確率、(k、τ、l)の全ての組み合わせに対する前記確率π(l) の事前確率、及び各周波数ωに対する前記分離行列Wω^の行列式を用いて表された、前記三次元配列X^が与えられたときの前記三次元配列Π^、前記二次元配列Σ^、及び各周波数ωの前記分離行列Wω^の事後確率を表す目的関数を最大化するように、前記三次元配列Π^、前記二次元配列Σ^、及び各周波数ωの前記分離行列Wω^を更新するパラメータ更新手段と、
    各周波数ωの前記分離行列Wω^及び前記三次元配列X^に基づいて、前記三次元配列Y^を更新する音源信号推定値更新手段と、
    予め定められた終了条件を満たすまで、前記パラメータ更新手段による更新、及び前記音源信号推定値更新手段による更新を繰り返し行う終了判定手段と、
    を含む音響信号解析装置。
  2. 前記目的関数を、(k,τ、ω)の全ての組み合わせについて観測時間周波数成分Xmτωが各インデックスlのパワースペクトルテンプレートλ(l) ωに帰属する確率を示す補助変数γ(l) kτωを用いた補助関数とし、
    前記パラメータ更新手段は、
    前記三次元配列Π^、二次元配列Σ^、及び前記複数のパワースペクトルテンプレートλ(l) ωに基づいて、(k,τ、ω、l)の全ての組み合わせの各々について前記補助変数γ(l) kτωを更新する補助変数更新手段と、
    前記補助変数γ(l) kτωに基づいて、前記三次元配列Π^を更新する確率更新手段と、
    前記補助変数γ(l) kτω及び前記複数のパワースペクトルテンプレートλ(l) ωに基づいて、前記二次元配列Σを更新するパワー更新手段と、
    前記補助変数γ(l) kτω、前記二次元配列Σ^、前記三次元配列X^、及び前記複数のパワースペクトルテンプレートλ(l) ωに基づいて、各周波数ωの前記分離行列Wω^を更新する分離行列更新手段と、
    を含む請求項1記載の音響信号解析装置。
  3. 前記確率π(l) の事前分布を、ディレクレ分布とした請求項1又は2記載の音響信号解析装置。
  4. 時間周波数解析手段によって、M個(Mは2以上の整数)のマイクロホンmから出力される音響信号の時系列データを入力として、観測時間周波数成分Xmτω(mはマイクロホン、τは時間フレーム、ωは周波数のインデックスである。)を要素にもつ三次元配列Xを出力し、
    パラメータ初期値設定手段によって、M個の音源kの時間周波数成分Ykτω(kは音源、τは時間フレーム、ωは周波数のインデックスである。)を要素にもつ三次元配列Y^、各音源kについて各時間フレームτにおいて調波構造を有するパワースペクトルテンプレートλ(l) ω(lは、パワースペクトルテンプレートのインデックスである。)が選択される確率π(l) を要素にもつ三次元配列Π^、各時間フレームτにおける各音源kのパワーσ2 を要素にもつ二次元配列Σ^、及び各周波数ωについて、Xτω(=(X1τω,・・・,XMτω))に作用させて音源信号の時間周波数成分Yτω(=(Y1τω,・・・,YKτω))を得るための分離行列Wω^の各々の初期値を設定し、
    パラメータ更新手段によって、(k、τ、ω、z)の全ての組み合わせにおける、zとσ2 が与えられたときの、λ(zkτ) ω・σ2 を分散とするガウス分布で表されたYkτωの確率密度関数、及びπが与えられたときのzの確率、(k、τ、l)の全ての組み合わせに対する前記確率π(l) の事前確率、及び各周波数ωに対する前記分離行列Wω^の行列式を用いて表された、前記三次元配列X^が与えられたときの前記三次元配列Π^、前記二次元配列Σ^、及び各周波数ωの前記分離行列Wω^の事後確率を表す目的関数を最大化するように、前記三次元配列Π^、前記二次元配列Σ^、及び各周波数ωの前記分離行列Wω^を更新し、
    音源信号推定値更新手段によって、各周波数ωの前記分離行列Wω^及び前記三次元配列X^に基づいて、前記三次元配列Y^を更新し、
    終了判定手段によって、予め定められた終了条件を満たすまで、前記パラメータ更新手段による更新、及び前記音源信号推定値更新手段による更新を繰り返し行う
    音響信号解析方法。
  5. 請求項1〜請求項3の何れか1項に記載の音響信号解析装置の各手段としてコンピュータを機能させるためのプログラム。
JP2012190188A 2012-08-30 2012-08-30 音響信号解析装置、方法、及びプログラム Active JP5807914B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012190188A JP5807914B2 (ja) 2012-08-30 2012-08-30 音響信号解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012190188A JP5807914B2 (ja) 2012-08-30 2012-08-30 音響信号解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014048398A true JP2014048398A (ja) 2014-03-17
JP5807914B2 JP5807914B2 (ja) 2015-11-10

Family

ID=50608149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012190188A Active JP5807914B2 (ja) 2012-08-30 2012-08-30 音響信号解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5807914B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016045221A (ja) * 2014-08-19 2016-04-04 日本電信電話株式会社 信号解析装置、方法、及びプログラム
JP2017152825A (ja) * 2016-02-23 2017-08-31 日本電信電話株式会社 音響信号解析装置、音響信号解析方法、及びプログラム
CN113889138A (zh) * 2021-06-07 2022-01-04 成都启英泰伦科技有限公司 一种基于双麦克风阵列的目标语音提取方法
CN114385977A (zh) * 2021-12-13 2022-04-22 广州方硅信息技术有限公司 信号的有效频率检测方法、终端设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009529699A (ja) * 2006-03-01 2009-08-20 ソフトマックス,インコーポレイテッド 分離信号を生成するシステムおよび方法
US20090222262A1 (en) * 2006-03-01 2009-09-03 The Regents Of The University Of California Systems And Methods For Blind Source Signal Separation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009529699A (ja) * 2006-03-01 2009-08-20 ソフトマックス,インコーポレイテッド 分離信号を生成するシステムおよび方法
US20090222262A1 (en) * 2006-03-01 2009-09-03 The Regents Of The University Of California Systems And Methods For Blind Source Signal Separation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6015019639; 小野 順貴: '補助関数法に基づく独立ベクトル分析の高速学習則' 日本音響学会 2011年 秋季研究発表会講演論文集CD-ROM , 20110913, pp.673-674, 社団法人日本音響学会 *
JPN6015019640; 小野 拓磨, 小野 順貴, 嵯峨山 茂樹: '音源のアクティベーションを事前情報とした独立ベクトル分析による音源分離' 日本音響学会 2011年 秋季研究発表会講演論文集CD-ROM , 20110913, pp.613-614, 社団法人日本音響学会 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016045221A (ja) * 2014-08-19 2016-04-04 日本電信電話株式会社 信号解析装置、方法、及びプログラム
JP2017152825A (ja) * 2016-02-23 2017-08-31 日本電信電話株式会社 音響信号解析装置、音響信号解析方法、及びプログラム
CN113889138A (zh) * 2021-06-07 2022-01-04 成都启英泰伦科技有限公司 一种基于双麦克风阵列的目标语音提取方法
CN114385977A (zh) * 2021-12-13 2022-04-22 广州方硅信息技术有限公司 信号的有效频率检测方法、终端设备及存储介质
CN114385977B (zh) * 2021-12-13 2024-05-28 广州方硅信息技术有限公司 信号的有效频率检测方法、终端设备及存储介质

Also Published As

Publication number Publication date
JP5807914B2 (ja) 2015-11-10

Similar Documents

Publication Publication Date Title
Ono Stable and fast update rules for independent vector analysis based on auxiliary function technique
US9668066B1 (en) Blind source separation systems
Yoshii et al. Student's t nonnegative matrix factorization and positive semidefinite tensor factorization for single-channel audio source separation
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
JP5233827B2 (ja) 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
CN104737229A (zh) 用于变换输入信号的方法
JP5807914B2 (ja) 音響信号解析装置、方法、及びプログラム
JP6099032B2 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
Ono et al. User-guided independent vector analysis with source activity tuning
Simon et al. A general framework for online audio source separation
Duong et al. Multichannel harmonic and percussive component separation by joint modeling of spatial and spectral continuity
Duong et al. Gaussian modeling-based multichannel audio source separation exploiting generic source spectral model
Giacobello et al. Speech dereverberation based on convex optimization algorithms for group sparse linear prediction
Li et al. Pagan: A phase-adapted generative adversarial networks for speech enhancement
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
Harris et al. Real-time independent vector analysis with Student's t source prior for convolutive speech mixtures
JP6910609B2 (ja) 信号解析装置、方法、及びプログラム
JP6142402B2 (ja) 音響信号解析装置、方法、及びプログラム
Albataineh et al. A RobustICA-based algorithmic system for blind separation of convolutive mixtures
JP6644356B2 (ja) 音源分離システム、方法及びプログラム
Lee et al. Discriminative training of complex-valued deep recurrent neural network for singing voice separation
Adiloğlu et al. A general variational Bayesian framework for robust feature extraction in multisource recordings
Sprechmann et al. Supervised non-negative matrix factorization for audio source separation
JP6618493B2 (ja) 信号解析装置、方法、及びプログラム
Watanabe et al. DNN-based frequency component prediction for frequency-domain audio source separation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150902

R150 Certificate of patent or registration of utility model

Ref document number: 5807914

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250