JP2018040880A - 音源分離装置、音源分離方法及び音源分離プログラム - Google Patents

音源分離装置、音源分離方法及び音源分離プログラム Download PDF

Info

Publication number
JP2018040880A
JP2018040880A JP2016173580A JP2016173580A JP2018040880A JP 2018040880 A JP2018040880 A JP 2018040880A JP 2016173580 A JP2016173580 A JP 2016173580A JP 2016173580 A JP2016173580 A JP 2016173580A JP 2018040880 A JP2018040880 A JP 2018040880A
Authority
JP
Japan
Prior art keywords
sound source
distribution
observation
source separation
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016173580A
Other languages
English (en)
Other versions
JP6581054B2 (ja
Inventor
卓哉 樋口
Takuya Higuchi
卓哉 樋口
拓也 吉岡
Takuya Yoshioka
拓也 吉岡
中谷 智広
Tomohiro Nakatani
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016173580A priority Critical patent/JP6581054B2/ja
Publication of JP2018040880A publication Critical patent/JP2018040880A/ja
Application granted granted Critical
Publication of JP6581054B2 publication Critical patent/JP6581054B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音源分離を正確に行うことができる。
【解決手段】音源分離装置1は、N個の目的音源の音響信号が混在する際に収録されたM個の観測信号の観測ベクトルを構成する時間周波数分析部11、観測ベクトルを受け取り、各周波数における観測ベクトルの確率分布を、N個の音源に対応するN個の要素分布からなるとともに分布パラメータのうち各音源のパワーに相当するパラメータが周波数方向に構造を持った基底ベクトルとその時変であるアクティベーションとの積和によってモデル化された混合分布でモデル化し、混合分布が、観測ベクトルの分布に近くなるように混合分布のパラメータを推定したのちに各要素分布の事後確率を各音響信号のマスクの推定値とするパラメータ推定部12、及び、観測ベクトル、マスク、基底ベクトル、アクティベーション及び空間相関行列を用いて分離音を計算する音源分離部13を有する。
【選択図】図1

Description

本発明は、音源分離装置、音源分離方法及び音源分離プログラムに関する。
従来、音声認識などの応用に適用するため、1つ以上の目的音源から出た音響信号と、背景雑音や干渉音が混ざった観測信号と、に基づいて、各目的音源を分離する装置が提案されている(例えば、非特許文献1,2参照)。
N.Ito, S.Araki, T.Yoshioka, and T.Nakatani, "Relaxed Disjointness Based Clustering for Joint Blind Source Separation and Dereverberation", in Proc. Int. Worksh. Acoust. Echo, Noise Contr., pp. 268-272, 2014. P.Smaragdis and J.C.Brown, "Non-Negative Matrix Factorization for Polyphonic Music Transcription", in IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pp. 177-180, 2003
例えば、非特許文献1に記載の音源分離装置について説明する。図4は、従来の音源分離装置の構成の一例を示すブロック図である。図4には、非特許文献1に開示された音源分離装置の機能構成を示す。図4に示す従来の音源分離装置1Pは、時間周波数分析部11P、パラメータ推定部12P、音源分離部13P及び初期値生成部14Pを有する。なお、残響除去部については、記載を省略する。
時間周波数分析部11Pは、N(N>1)個の目的音源に対応する音響信号が混在する状況において、異なる位置で収録されたM(M>1)個の観測信号を受け取り、各観測信号に短時間信号分析を適用して時間周波数点ごとの観測音響信号を抽出する。その後、時間周波数分析部11Pは、時間周波数点ごとに、全ての観測音響信号をまとめたM次元縦ベクトルである観測ベクトルを構成する。言い換えると、時間周波数分析部11Pは、2つ以上のマイクによって録音された音響信号を入力とし、短時間信号分析を適用して観測ベクトルを得る。
パラメータ推定部12Pは、時間周波数分析部11Pから観測ベクトルを受け取る。パラメータ推定部12Pは、初期値生成部14Pからパラメータの初期値を受け取る。そして、パラメータ推定部12Pは、周波数ごとに、観測ベクトルの確率分布を、N個の音響信号のそれぞれに対応するN個の要素分布からなる混合分布でモデル化する。ここで、この分布パラメータのうち、各音源のパワーに相当するパラメータは、各時間周波数点で個別なパラメータとしてモデル化されている。そして、パラメータ推定部12Pでは、分布パラメータ推定部121Pが、モデル化された混合分布が、時間周波数分析部11Pから受け取った観測ベクトルの分布に近くなるように、混合分布のパラメータを推定する。その後、マスク推定部122Pは、各要素分布の事後確率を各音響信号に対応するマスクの推定値とする。
音源分離部13Pは、観測ベクトルと目的音源に関するマスクを受け取り、観測ベクトルの1つの要素と、n番目の要素分布に対応するマスクとを、各時間周波数成分において
掛け合わせることによって、n番目の目的音声に対応する分離音を計算する。
初期値生成部14Pは、分布パラメータの初期値を生成し、パラメータ推定部12Pに出力する。
ここで、短時間フーリエ変換などの短時間信号分析を用いて得られる観測ベクトルをyf,tと表す。このうち、t及びfは、それぞれ時間と周波数の番号であり、tは、1〜Tの整数であり、fは、0〜Fの整数である。非特許文献1では、目的音源及び雑音は、スパース性を有し、各時間周波数点において高々一つの目的音源だけが存在すると仮定されている。このため、各時間周波数点における観測ベクトルyf,tは、以下の(1)式でモデル化できるとされている。
Figure 2018040880
この(1)式のうち、s(n) f,tは、n番目の音源の時間周波数成分であり、df,tは、時間周波数点(f,t)において優勢な音源の番号を表す。音源分離部13Pは、この仮定に基づき、各時間周波数点の観測ベクトルyf,tを、N個の目的音源に対応するN個のクラスタに分類し、各音源のクラスタに属する成分のみそれぞれ抽出することによって、各目的音源に対応する分離音を得ることができる。以上の流れで音源分離を行うために、パラメータ推定部12Pは、各時間周波数点の観測ベクトルyf,tがどれだけ各目的音源のクラスタに属しているらしいかを、以下の方法で推定する。パラメータ推定部12Pは、まず、(2)式を用いて、観測ベクトルyf,tの確率分布をN個の要素分布からなる混合分布でモデル化する。
Figure 2018040880
ここで、φ(n) f,tは、n番目の目的音源のパワーに相当するスカラー値のパラメータである。また、R(n) は、n番目の目的音源の時不変な空間相関行列に相当するM×Mの行列パラメータである。また、α(n) は、Σα(n) =1を満たす重みパラメータ(スカラー値)である。上記の確率分布に基づき、各パラメータを推定するための尤度関数は、以下の(3)式で定義できる。
Figure 2018040880
ただし、(3)式において、yは、観測ベクトルの集合を表し、Θは、分布パラメータの集合を表し、FNc(yf,t;0,φ(n) f,t(n) )は、観測ベクトルyf,tに関する平均0、分散共分散行列φ(n) f,t(n) の複素正規分布の確率密度関数である。パラメータ推定部12Pは、この目的関数が局所最大となる分布パラメータ、すなわち、当該混合分布が受け取った観測ベクトルの分布に近くなるような分布パラメータを求める。その後、パラメータ推定部12Pが、目的音源に対応する要素分布の事後確率を、目的音源に対応するマスクの推定値とするのが、非特許文献1におけるマスク推定方法の基本的考え方である。Expectation-Maximization(EM)アルゴリズムの原理に基づき、対数尤度関数を局所最大化するためのQ関数は、以下の(4)式のように定義できる。
Figure 2018040880
ここで、λ(n) f,tは、n番目の目的音源の事後確率に相当する補助パラメータであり、現在保持している分布パラメータを用いて、Eステップにおいて、以下の(5)式のように計算できる。
Figure 2018040880
分布パラメータについては、Mステップにおいて上記のQ関数をそれぞれのパラメータで偏微分したものを0とおくことで、以下の(6)式〜(8)式に示す更新則が導出できる。
Figure 2018040880
Figure 2018040880
Figure 2018040880
パラメータ推定部12Pは、Mステップにおける、上記の更新則による分布パラメータ更新と、Eステップにおける、更新されたパラメータによるλ(n) f,tの計算を反復的に行うことで、目的関数を局所最大化するような分布パラメータを推定することができる。そして、非特許文献1に記載の音源分離装置1Pでは、推定したλ(n) f,tを観測信号に掛け合わせることで、n番目の目的音源に対応する分離音を得ている。
続いて、非特許文献2に記載の音源分離装置について説明する。図5は、従来の音源分離装置の構成の他の例を示すブロック図である。図5には、非特許文献2に開示された音源分離装置の機能構成を示す。図5に示す従来の音源分離装置1P’は、時間周波数分析部11P’、パラメータ推定部12P’、音源分離部13P’及び初期値生成部14P’を有する。
時間周波数分析部11P’は、N(N>1)個の目的音源に対応する音響信号が混在する状況において、1つのマイクで収録された1個の観測信号を受け取り、観測信号に短時間信号分析を適用して時間周波数点ごとの観測音響信号を抽出する。
パラメータ推定部12P’は、時間周波数分析部11P’から観測音響信号を受け取る。パラメータ推定部12P’は、初期値生成部14P’からパラメータの初期値を受け取る。そして、パラメータ推定部12P’は、K個の基底スペクトルと、それぞれの基底スペクトルに対応するアクティベーションの積和(これをモデルスペクトログラムと呼ぶ。)と、によってモデル化する。続いて、パラメータ推定部12P’では、パラメータ推定処理部121P’が、モデルスペクトログラムが、時間周波数分析部11P’から受け取った観測音響信号に近くなるように、基底スペクトルとアクティベーションとを推定する。
音源分離部13P’は、観測音響信号と基底スペクトルとアクティベーションと、を受け取り、各目的音源に対応する分離音を計算する。なお、初期値生成部14P’は、初期値生成部14Pと同様の機能を有する。
ここで、短時間フーリエ変換などの短時間信号分析を用いて得られる観測音響信号を、xf,tと表す。t及びfは、それぞれ時間と周波数の番号であり、tは、1〜Tの整数であり、fは、0〜Fの整数である。非特許文献2に記載の音源分離装置1P’では、観測音響信号を、限られた数のスペクトル(基底スペクトル)と、それぞれの基底スペクトルに対応するアクティベーションの積和(これをモデルスペクトログラムと呼ぶ。)によってモデル化する。このため、各時間周波数点における観測音響信号xf,tは、以下の(9)式でモデル化できるとされている。
Figure 2018040880
この(9)式のうち、wf,kは、k番目の基底スペクトルの周波数fでの成分を表し、hk,tは、k番目の基底スペクトルに対応するアクティベーションの時刻tでの成分を表す。そして、パラメータ推定部12P’は、何らかの距離規準における、観測音響信号とモデルスペクトログラムとの間の距離を最小化することで、観測音響信号を近似するwf,k,hk,tを得る。
Figure 2018040880
なお、D(a|b)は、aとbとの間の何らかの距離規準を表し、具体的には、二乗距離規準、カルバックライブラー距離規準、板倉斉藤距離規準などが用いられる。そして、音源分離装置1P’では、(10)式で表される最適化問題を解くことによって得られた基底スペクトルとアクティベーションとを用いて、音源分離部13P’が、各目的音源に対応する分離音を得る。具体的には、音源分離部13P’として、ウィーナーフィルタなどが用いられる。
非特許文献1に記載の方法では、n番目の音源信号の時間周波数点(f,t)におけるパワーに相当するパラメータφ(n) f,tは、各時間周波数点で個別に推定されている。しかしながら、非特許文献1に記載の方法では、音源信号の持つスペクトル構造(周波数方向の構造)は、マスクを推定する上でまったく考慮されていない。一方、非特許文献2に記載の方法は、音源信号の持つスペクトル構造に着目した音源分離方法の代表例として挙げられるものの、非特許文献2に記載の方法を非特許文献1に記載の方法に組み込むことは容易ではない。
例えば、非特許文献1に記載の方法を用いて音源を分離した後に、非特許文献2に記載の方法を用いて目的音源成分を抽出する方法は、自然な発想として考えられる。しかしながら、この場合、非特許文献1に記載の方法におけるマスクを推定する部分では、(5)式によって各時間周波数点のマスクが計算されるため、音源信号のもつスペクトル構造は、全く考慮されることがない。同様に、非特許文献2に記載の方法の後に非特許文献1に記載の方法を用いた場合では、前段で非特許文献2に記載の方法を用いるときに、複数マイクによって得られた空間的情報は、全く考慮されずに、音源分離のためのパラメータ(wf,k,hk,t)が推定されることになる。
本発明は、上記に鑑みてなされたものであって、音源分離を正確に行うことができる音響分離装置、音響分離方法及び音響分離プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る音響分離装置は、N(N>1)個の目的音源に対応する音響信号が混在する状況において、異なる位置で収録されたM(M>1)個の観測信号を受け取り、各観測信号に短時間信号分析を適用して時間周波数点ごとの観測音響信号を抽出した後に時間周波数点ごとに全ての観測音響信号をまとめたM次元縦ベクトルである観測ベクトルを構成する時間周波数分析部と、時間周波数分析部から観測ベクトルを受け取り、各周波数における観測ベクトルの確率分布を、N個の音源に対応するN個の要素分布からなるとともに分布パラメータのうち各音源のパワーに相当するパラメータが周波数方向に構造を持った基底ベクトルとその時変であるアクティベーションとの積和によってモデル化された混合分布でモデル化し、モデル化した混合分布が、時間周波数分析部から受け取った観測ベクトルの分布に近くなるように混合分布のパラメータを推定したのちに各要素分布の事後確率を各音響信号に対応するマスクの推定値とするパラメータ推定部と、観測ベクトルと、マスクと、基底ベクトル、アクティベーション及び空間相関行列である分布パラメータ、或いは、その一部を受け取り、分離音を計算する音源分離部と、を有する。
本発明によれば、音源分離を正確に行うことができる。
図1は、実施の形態に係る音源分離装置の構成の一例を示すブロック図である。 図2は、図1に示す音源分離装置が実行する音源分離処理の処理手順を示すフローチャートである。 図3は、プログラムが実行されることにより、音源分離装置が実現されるコンピュータの一例を示す図である。 図4は、従来の音源分離装置の構成の一例を示すブロック図である。 図5は、従来の音源分離装置の構成の他の例を示すブロック図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[実施の形態]
実施の形態に係る音源分離装置について、音源分離装置の概略構成、音源分離装置における処理の流れを説明する。まず、図1を参照して、本実施の形態に係る音源分離装置の構成について説明する。
図1は、本実施の形態に係る音源分離装置の構成の一例を示すブロック図である。図1に示すように、実施の形態に係る音源分離装置1は、時間周波数分析部11、パラメータ推定部12、音源分離部13及び初期値生成部14を有する。
時間周波数分析部11は、N(N>1)個の目的音源に対応する音響信号が混在する状況において、異なる位置で収録されたM(M>1)個の観測信号を受け取る。すなわち、時間周波数分析部11は、多チャンネル観測信号を入力信号として受け取る。そして、時間周波数分析部11は、各観測信号に短時間信号分析を適用して時間周波数点ごとの観測音響信号を抽出する。この後に、時間周波数分析部11は、時間周波数点ごとに全ての観測音響信号をまとめたM次元縦ベクトルである観測ベクトルを構成する。言い換えると、時間周波数分析部11は、2つ以上のマイクによって録音された音響信号を入力とし、短時間信号分布を適用して観測ベクトルを得る機能を有する。
パラメータ推定部12は、初期値生成部14からパラメータの初期値を受け取る。パラメータ推定部12は、時間周波数分析部11から観測ベクトルを受け取る。そして、パラメータ推定部12は、各周波数における観測ベクトルの確率分布を、N個の音源に対応するN個の要素分布からなる混合分布でモデル化する。ここで、分布パラメータのうち各要素分布における各音源のパワーに相当するパラメータは、周波数方向に構造を持った基底ベクトルとその時変であるアクティベーションとの積和によってモデル化されたものである。
続いて、パラメータ推定部12は、モデル化した混合分布が、時間周波数分析部11から受け取った観測ベクトルの分布に近くなるように混合分布のパラメータを推定したのちに、各要素分布の事後確率を各音響信号に対応するマスクの推定値とする。すなわち、パラメータ推定部12は、観測ベクトルとパラメータの初期値とを受け取り、マスクと分布パラメータ(基底スペクトル、アクティベーション、空間相関行列)を更新する。
パラメータ推定部12は、分布パラメータ推定部121及びマスク推定部122を有する。分布パラメータ推定部121は、モデル化した混合分布が、時間周波数分析部11から受け取った観測ベクトルの分布に近くなるように混合分布のパラメータを推定する。そして、マスク推定部122は、各要素分布の事後確率を求め、該求めた事後確率を各音響信号に対応するマスクの推定値とする。
音源分離部13は、観測ベクトルと、マスクと、分布パラメータ、或いは、その一部をパラメータ推定部12から受け取り、分離音を計算する。分布パラメータは、基底ベクトル、アクティベーション及び空間相関行列である。
初期値生成部14は、分布パラメータの初期値を生成し、パラメータ推定部12に出力する。
音源分離装置1が実行する演算処理の概略について説明する。まず、短時間フーリエ変換などの短時間信号分析を用いて得られる観測ベクトルをyf,tと表す。t及びfは、それぞれ時間と周波数の番号であり、tは、1〜Tの整数であり、fは、0〜Fの整数である。そして、目的音源及び雑音は、スパース性を有し、各時間周波数点において高々一つの目的音源だけが存在すると仮定されている。本実施の形態では、この仮定を用いて、各時間周波数点における観測ベクトルyf,tを、以下の(11)式でモデル化する。
Figure 2018040880
この(11)式のうち、s(n) f,tは、n番目の音源の時間周波数成分であり、df,tは、時間周波数点(f,t)において優勢な音源の番号を表す。r(n) は、周波数fにおいて、n番目の音源から各マイクまでの伝達特性が並んだベクトルである。この仮定に基づき、各時間周波数点の観測ベクトルyf,tを、それぞれN個の目的音源に対応するN個のクラスタに分類し、各音源のクラスタに属する成分のみそれぞれ抽出することで、音源分離部13は、各目的音源に対応する分離音を得ることができる。
以上の流れで音源分離を行うために、パラメータ推定部12は、各時間周波数点の観測ベクトルがどれだけ各目的音源のクラスタに属しているらしいかを、以下の方法で推定する。まず、パラメータ推定部12は、観測ベクトルの確率分布をN個の要素分布からなる混合分布でモデル化する。このとき、各要素分布は、各音源信号のクラスタに対応しているので、それぞれの音源のパワーに対応するパラメータを持つ。時間周波数点(f,t)におけるn番目のパワーに相当するパラメータφ(n) f,tを、以下の(12)式のように、基底スペクトルとアクティベーションとの積和で表す。
Figure 2018040880
ここで、wf,kは、k番目の基底スペクトルの周波数fでの成分を表す。hk,tは、k番目の基底スペクトルに対応するアクティベーションの時刻tでの成分を表す。パラメータ推定部12は、以上で述べた性質を持つ確率分布が、観測ベクトルの確率分布に近くなるように、分布パラメータを推定することによって、音源信号の周波数方向の構造と空間的情報の双方を考慮しながら分布パラメータとマスクを推定している。この推定したマスクと分布パラメータとは、音源分離部13で、各音源を分離するために使用される。
[時間周波数分析部の処理]
そこで、時間周波数分析部11の処理の内容について説明する。例えば、N個の音源から出た音響信号をM個のマイクロホンで収録しているとする。この時、マイクロホンmで収録された観測信号をx(m)(τ)とすると、x(m)(τ)は、以下の(13)式に示すように、各音源信号nに由来する音響信号s(m) (τ)の和で構成される。
Figure 2018040880
時間周波数分析部11は、全てのマイクロホンmで収録された上記観測信号を受け取り、各観測信号x(m)(τ)ごとに短時間信号分析を適用して時間周波数ごとの信号特徴量x(m)(t,f)を求める。短時間信号分析としては、短時間離散フーリエ変換や短時間離散コサイン変換など様々な方法を用いることができる。時間周波数分析部11は、さらに、各時間周波数で得られた信号特徴量x(m)(t,f)を全てのマイクロホンmに関してまとめたベクトルとして、以下の(14)式に示す観測ベクトルyt,fを構成する。時間周波数分析部11は、パラメータ推定部12及び音源分離部13に、観測ベクトルyt,fを出力する。
Figure 2018040880
本実施の形態では、非特許文献1に記載の方法と同様に、目的音源及び雑音はスパース性を有し、各時間周波数点において高々一つの目的音源だけが存在すると仮定する。このため、各時間周波数点における観測ベクトルyf,tは、以下の(15)式でモデル化できる。
Figure 2018040880
この(15)式のうち、s(n) f,tは、n番目の音源の時間周波数成分を表す。df,tは、時間周波数点(f,t)において優勢な音源の番号を表す。r(n) は、周波数fにおいて、n番目の音源から各マイクまでの伝達特性が並んだベクトルである。この仮定に基づき、音源分離部13は、各時間周波数点の観測ベクトルyf,tを、N個の目的音源に対応するN個のクラスタに識別し、各音源のクラスタに属する成分のみそれぞれ抽出することで、各目的音源に対応する分離音を得ることができる。また、以上の流れで音源分離を行うために、パラメータ推定部12は、各時間周波数点の観測ベクトルがどれだけ各目的音源のクラスタに属しているらしいかを、以下の方法で推定する。
[パラメータ推定部の処理]
そこで、パラメータ推定部12の処理について説明する。まず、パラメータ推定部12は、観測ベクトルの確率分布を、以下の(16)式に示すように、N個の要素分布からなる混合分布でモデル化する。
Figure 2018040880
ここで、wf,kは、k番目の基底スペクトルの周波数fでの成分を表す。hk,tは、k番目の基底スペクトルに対応するアクティベーションの時刻tでの成分を表す。R(n) は、r(n) (n) に相当する、n番目の目的音源の時不変な空間相関行列であり、M×Mの行列パラメータである。α(n) は、Σα(n) =1を満たす重みパラメータ(スカラー値)である。したがって、混合分布の各要素分布は、平均0,分散共分散行列が基底ベクトルとアクティベーションとの積和に空間相関行列を掛けたものであるといえる。そして、上記の確率分布に基づき、各パラメータを推定するための尤度関数は、以下の(17)式のように定義できる。
Figure 2018040880
ただし、yは、観測ベクトルの集合を表す。Θは、分布パラメータの集合を表す。FNc(yf,t;0,Σ(n) f,k(n) k,t(n) )は、yf,tに関する平均0、分散共分散行列Σ(n) f,k(n) k,t(n) の複素正規分布の確率密度関数である。
パラメータ推定部12は、この目的関数が局所最大となる分布パラメータ、すなわち、モデル化した混合分布が受け取った観測ベクトルの分布に近くなるような分布パラメータを求める。この後、パラメータ推定部12は、目的音源に対応する要素分布の事後確率を、目的音源に対応するマスクの推定値とすることで、空間的情報と、音源信号の周波数方向の構造との双方を考慮に入れて、マスクと分布パラメータとを推定する。
まず、非特許文献1に記載の方法と同様に、Expectation-Maximization(EM)アルゴリズムの原理に基づき、対数尤度関数を局所最大化するためのQ関数は、以下の(18)式のように定義できる。
Figure 2018040880
ここで、λ(n) f,tは、n番目の目的音源の事後確率に相当する補助パラメータであり、現在保持している分布パラメータを用いて、Eステップにおいて、以下の(19)式のように計算できる。なお、以下で示す(19)式〜(21)式、(25)式及び(26)式で表されるパラメータ更新則を十分反復することによって最終的に推定されたλ(n) f,tは、マスクとして、音源分離部13に出力される。
Figure 2018040880
そして、分布パラメータのうち、空間相関行列R(n) と、重みパラメータα(n) については、Mステップにおいて、上記のQ関数をそれぞれのパラメータで偏微分したものを0とおくことで、以下の(20)式及び(21)式に示す更新則が導出できる。
Figure 2018040880
Figure 2018040880
次に、本実施の形態では、上記Q関数に対して、対数関数とその接線の間に成り立つ不等式と、逆数関数に対するジェンセン(Jensen)の不等式とに基づいて設計された下限関数Q´(Θ,Λ)を以下の(22)式のように設計する。
Figure 2018040880
パラメータ推定部12は、(22)式に示す下限関数Q´(Θ,Λ)を用いてパラメータを最適化する。なお、Λは、補助パラメータγ(n) f,tとβ(n) k,f,tとの集合を表す。そして、(22)式の等号成立条件は、以下の(23)式及び(24)式で表せる。
Figure 2018040880
Figure 2018040880
(23)式及び(24)式の条件下において、下限関数Q′(Θ,Λ)の偏微分を0と置くことで、基底スペクトルとアクティベーションとの更新則は、以下の(25)式及び(26)式のように導ける。
Figure 2018040880
Figure 2018040880
パラメータ推定部12は、上記の(19)式〜(21)式、(25)式及び(26)式で表されるパラメータ更新則を十分反復することで、観測分布を近似するような分布パラメータ(基底ベクトル、アクティベーション及び空間相関行列)及びマスクを推定することができる。パラメータ推定部12は、観測分布を近似するような分布パラメータ(基底ベクトル、アクティベーション及び空間相関行列)及びマスクを、音源分離部13に出力する。
[音源分離部の処理]
次に、音源分離部13の処理について説明する。音源分離部13は、以下に示すいずれかの手法に基づいて、パラメータ推定部12が推定したパラメータを用いて音源を分離する。
まず、第1の手法について説明する。第1の手法として、音源分離部13は、推定したマスクλ(n) f,tを、観測信号に掛け合わせることによって、n番目の目的音源に対応する分離音を得る。
そして、第2の手法として、音源分離部13は、推定した基底スペクトルとアクティベーションとを用いて、単チャンネルウィーナーフィルタを設計し、観測信号に掛け合わせることによって、n番目の目的音源に対応する分離音を得る。
また、第3の手法として、音源分離部13は、推定した基底スペクトル、アクティベーション、空間相関行列、或いは、空間相関行列のみを用いて、多チャンネルウィーナーフィルタを設計し、観測信号に掛け合わせることによって、n番目の目的音源に対応する分離音を得る。
また、音源分離部13は、第1の手法を、第2の手法或いは第3の手法と組み合わせた第4の手法を用いて、n番目の目的音源に対応する分離音を得ることもできる。
[音源分離処理]
次に、音源分離装置1が実行する音源分離処理の処理手順について説明する。図2は、図1に示す音源分離装置1が実行する音源分離処理の処理手順を示すフローチャートである。
図2に示すように、まず、音源分離装置1では、時間周波数分析部11が、N個の目的音源に対応する音響信号が混在する状況において、異なる位置で収録されたM個の観測信号を入力信号として受け取る(ステップS1)。言い換えると、時間周波数分析部11は、多チャンネル観測信号を入力信号として受け取る。そして、時間周波数分析部11は、各観測信号に短時間信号分析を適用して時間周波数点ごとの観測音響信号を抽出する(ステップS2)。続いて、時間周波数分析部11は、時間周波数点ごとに全ての観測音響信号をまとめた観測ベクトルを構成する(ステップS3)。
パラメータ推定部12は、初期値生成部14からパラメータの初期値を受け取る(ステップS4)。パラメータ推定部12は、時間周波数分析部11から観測ベクトルを受け取る。そして、パラメータ推定部12は、各周波数における観測ベクトルの確率分布を、N個の音源に対応するN個の要素分布からなる混合分布でモデル化する(ステップS5)。
続いて、パラメータ推定部12は、モデル化した混合分布が、時間周波数分析部11から受け取った観測ベクトルの分布に近くなるように混合分布のパラメータを推定する分布パラメータ推定処理を行う(ステップS6)。パラメータ推定部12は、各要素分布の事後確率を各音響信号に対応するマスクの推定値とするマスク推定処理を行う(ステップS7)。なお、実際には、ステップS6及びステップS7は、所定回反復される。すなわち、ステップS6及びステップS7では、上述したパラメータ更新則を反復することによって、観測分布を近似するような分布パラメータ(基底ベクトル、アクティベーション及び空間相関行列)及びマスクを推定している。
そして、音源分離部13は、観測ベクトルと、マスクと、分布パラメータ、或いは、その一部をパラメータ推定部12から受け取り、分離音を計算し(ステップS8)、計算した分離音を出力する。分布パラメータは、基底ベクトル、アクティベーション及び空間相関行列である。
[確認実験]
本実施の形態に対し、確認実験を行った。残響時間0.44秒の可変残響室において測定した室内インパルス応答に、2つの音声をそれぞれ畳み込み足し合わせることで、擬似的に、M=2個のマイクで収録された、混合音を得た。この混合音に対して、以下の(表1)の条件下で、本実施の形態に係る音源分離方法を適用し、分離音を得た。
Figure 2018040880
本実施の形態を適用して音源分離を行った結果、非特許文献1記載の方法を用いて音源分離を行った場合に対して、信号対ひずみ比が0.26dB向上し、信号対干渉比が1.96dB向上した。なお、本実施の形態における、マスクλ(n) f,tと、空間相関行列R(n) の初期値は、非特許文献1に記載の方法を用いて求めた。基底スペクトルの初期値は、乱数を用いて設定し、アクティベーションの初期値は、全ての成分を1とした。また、簡単のため、重みパラメータα(n) の値は、全てのn,fについて一様とした。
[実施の形態の効果]
このように、本実施の形態によれば、マスクや基底スペクトル、アクティベーションなどの、音源分離のためのパラメータを正確に推定することによって、音源分離を正確に行うことができる。また、本実施の形態によれば、音源信号の周波数方向の構造を考慮することによって、より正確にマスクを推定することができる。さらに、本実施の形態によれば、空間的情報に基づいて推定されたマスクを考慮することによって、より正確に基底ベクトルやアクティベーションを推定して、音源分離を正確に行うことができる。
したがって、本実施の形態によれば、確認実験の結果でも示したように、従来の方法と比して、信号対ひずみ比及び信号対干渉比を高めた音源分離、すなわち、正確な音源分離を行うことが可能になる。
[他の実施の形態]
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図3は、プログラムが実行されることにより、音源分離装置1が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、音源分離装置1の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、音源分離装置1における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
1,1P,1P’ 音源分離装置
11,11P,11P’ 時間周波数分析部
12,12P,12P’ パラメータ推定部
13,13P,13P’ 音源分離部
14,14P,14P’ 初期値生成部
121,121P 分布パラメータ推定部
122,122P マスク推定部
121P’ パラメータ推定処理部

Claims (7)

  1. N(N>1)個の目的音源に対応する音響信号が混在する状況において、異なる位置で収録されたM(M>1)個の観測信号を受け取り、各観測信号に短時間信号分析を適用して時間周波数点ごとの観測音響信号を抽出した後に時間周波数点ごとに全ての観測音響信号をまとめたM次元縦ベクトルである観測ベクトルを構成する時間周波数分析部と、
    前記時間周波数分析部から観測ベクトルを受け取り、各周波数における観測ベクトルの確率分布を、N個の音源に対応するN個の要素分布からなるとともに分布パラメータのうち各音源のパワーに相当するパラメータが周波数方向に構造を持った基底ベクトルとその時変であるアクティベーションとの積和によってモデル化された混合分布でモデル化し、モデル化した前記混合分布が、前記時間周波数分析部から受け取った観測ベクトルの分布に近くなるように混合分布のパラメータを推定したのちに各要素分布の事後確率を各音響信号に対応するマスクの推定値とするパラメータ推定部と、
    前記観測ベクトルと、前記マスクと、前記基底ベクトル、前記アクティベーション及び空間相関行列である分布パラメータ、或いは、その一部を受け取り、分離音を計算する音源分離部と、
    を有することを特徴とする音源分離装置。
  2. 前記混合分布の各要素分布は、平均0,分散共分散行列が基底ベクトルとアクティベーションとの積和に空間相関行列を掛けたものであることを特徴とする請求項1に記載の音源分離装置。
  3. 前記パラメータ推定部は、対数関数とその接線の間に成り立つ不等式と、逆数関数に対するジェンセン(Jensen)の不等式とに基づいて設計された下限関数を用いてパラメータを最適化することを特徴とする請求項1または2に記載の音源分離装置。
  4. 目的音源を分離する音源分離装置が行う音源分離方法であって、
    N個の目的音源(N>1)に対応する音響信号が混在する状況において、異なる位置で収録されたM個の観測信号(M>1)を受け取り、各観測信号に短時間信号分析を適用して時間周波数点ごとの観測音響信号を抽出したのちに時間周波数点ごとに全ての観測音響信号をまとめたM次元縦ベクトルである観測ベクトルを構成する時間周波数分析工程と、
    前記時間周波数分析工程における観測ベクトルを受け取り、各周波数における観測ベクトルの確率分布を、N個の音源に対応するN個の要素分布からなるとともに分布パラメータのうち各音源のパワーに相当するパラメータが周波数方向に構造を持った基底ベクトルとその時変であるアクティベーションとの積和によってモデル化された混合分布でモデル化し、モデル化した前記混合分布が、前記観測ベクトルの分布に近くなるように混合分布のパラメータを推定したのちに各要素分布の事後確率を各音響信号に対応するマスクの推定値とするパラメータ推定工程と、
    前記観測ベクトルと、前記マスクと、前記基底ベクトル、前記アクティベーション及び空間相関行列である分布パラメータ、或いは、その一部を受け取り、分離音を計算する音源分離工程と、
    を含んだことを特徴とする音源分離方法。
  5. 前記混合分布の各要素分布は、平均0,分散共分散行列が基底ベクトルとアクティベーションとの積和に空間相関行列を掛けたものであることを特徴とする請求項4に記載の音源分離方法。
  6. 前記パラメータ推定工程は、対数関数とその接線の間に成り立つ不等式と、逆数関数に対するジェンセンの不等式とに基づいて設計された下限関数を用いてパラメータを最適化することを特徴とする請求項4または5に記載の音源分離方法。
  7. コンピュータを請求項1〜3のいずれか一つに記載の音源分離装置として機能させるための音源分離プログラム。
JP2016173580A 2016-09-06 2016-09-06 音源分離装置、音源分離方法及び音源分離プログラム Active JP6581054B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016173580A JP6581054B2 (ja) 2016-09-06 2016-09-06 音源分離装置、音源分離方法及び音源分離プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016173580A JP6581054B2 (ja) 2016-09-06 2016-09-06 音源分離装置、音源分離方法及び音源分離プログラム

Publications (2)

Publication Number Publication Date
JP2018040880A true JP2018040880A (ja) 2018-03-15
JP6581054B2 JP6581054B2 (ja) 2019-09-25

Family

ID=61625709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016173580A Active JP6581054B2 (ja) 2016-09-06 2016-09-06 音源分離装置、音源分離方法及び音源分離プログラム

Country Status (1)

Country Link
JP (1) JP6581054B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020172790A1 (en) * 2019-02-26 2020-09-03 Harman International Industries, Incorporated Method and system for voice separation based on degenerate unmixing estimation technique
CN113178204A (zh) * 2021-04-28 2021-07-27 云知声智能科技股份有限公司 一种单通道降噪的低功耗方法、装置及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020172790A1 (en) * 2019-02-26 2020-09-03 Harman International Industries, Incorporated Method and system for voice separation based on degenerate unmixing estimation technique
US11783848B2 (en) 2019-02-26 2023-10-10 Harman International Industries, Incorporated Method and system for voice separation based on degenerate unmixing estimation technique
CN113178204A (zh) * 2021-04-28 2021-07-27 云知声智能科技股份有限公司 一种单通道降噪的低功耗方法、装置及存储介质

Also Published As

Publication number Publication date
JP6581054B2 (ja) 2019-09-25

Similar Documents

Publication Publication Date Title
US11763834B2 (en) Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
JP6434657B2 (ja) 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
Sprechmann et al. Supervised non-euclidean sparse NMF via bilevel optimization with applications to speech enhancement
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
JP6517760B2 (ja) マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
JP6783475B2 (ja) 声質変換装置、声質変換方法およびプログラム
JP2008158035A (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
JP6581054B2 (ja) 音源分離装置、音源分離方法及び音源分離プログラム
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP5807914B2 (ja) 音響信号解析装置、方法、及びプログラム
JP6290803B2 (ja) モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム
KR101593672B1 (ko) 음향 분리 방법 및 장치
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
JP6564744B2 (ja) 信号解析装置、方法、及びプログラム
JP6553561B2 (ja) 信号解析装置、方法、及びプログラム
Yadav et al. Joint Dereverberation and Beamforming With Blind Estimation of the Shape Parameter of the Desired Source Prior
Nasersharif et al. Speech/music separation using non-negative matrix factorization with combination of cost functions
JP2013037177A (ja) 音声強調装置とその方法とプログラム
JP2019193073A (ja) 音源分離装置、その方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180824

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190611

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190829

R150 Certificate of patent or registration of utility model

Ref document number: 6581054

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150