JP7420153B2

JP7420153B2 - 音源分離装置、音源分離方法、およびプログラム

Info

Publication number: JP7420153B2
Application number: JP2021577778A
Authority: JP
Inventors: 翔一郎武田; 健太丹羽; 信哉志水
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2024-01-23
Anticipated expiration: 2040-02-13
Also published as: JPWO2021161437A1; WO2021161437A1; US20230079569A1

Description

この発明は、複数の音源信号が混合した混合信号から目的音源を分離する音源分離技術に関する。

実世界においてマイクを通じて取得される複数の音源信号が混合した混合信号から、各目的音源を分離する独立ベクトル分析（Independent Vector Analysis、IVA）と呼ばれる技術が存在する（例えば、非特許文献１，２参照）。この技術では、目的音源同士が互いに統計的に独立であると仮定し、各周波数ビンにおいて混合信号を統計的に独立な分離信号に分離する。この分離信号は、最尤推定法等を用いた最適化の枠組みの中で推定された分離フィルタを、混合信号に適用することで得られる。しかしながら、全周波数ビンにわたって分離信号の順序が揃う保証はなく、各周波数ビンで分離信号が入れ替わってしまうパーミュテーションと呼ばれる問題がしばしば発生することが知られている。

この問題を解決するために、到来方向（Direction of Arrival、DOA）という音源の空間情報を使って分離フィルタの推定精度を高める取り組みが数多くなされている（例えば、非特許文献３，４，５参照）。しかしながら、これらの技術は、分離フィルタを推定する最適化の枠組みの外で到来方向を利用するための明示的な手続きが必要であり、アルゴリズムの複雑性が増すという課題を抱えている。

Taesu Kim, Hagai T. Attias, Soo-Young Lee, Te-Won Lee, "Blind Source Separation Exploiting Higher-Order Frequency Dependencies," IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 1, January 2007. Francesco Nesta, Zbynek Koldovsky, "Supervised independent vector analysis through pilot dependent components," IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017. Hiroshi Saruwatari, Toshiya Kawamura, Tsuyoki Nishikawa, Akinobu Lee, Kiyohiro Shikano, "Blind Source Separation Based on a Fast-Convergence Algorithm Combining ICA and Beamforming," IEEE Transactions on Audio, Speech and Language Processing, vol. 14, no. 2, March 2006. Affan H. Khan, Maja Taseska, Emanuel A.P. Habets, "A Geometrically Constrained Independent Vector Analysis Algorithm for Online Source Extraction," International Conference on Latent Variable Analysis and Signal Separation, vol. 9237, pp. 396-403, August 2015. Yuuki Tachioka, Tomohiro Narita, Jun Ishii, "Semi-Blind Source Separation using Binary Masking and Independent Vector Analysis," IEEJ Transactions on Electrical and Electronic Engineering, vol. 10(1), January 2015.

非特許文献３，４，５では、分離フィルタの推定精度を高めるために到来方向を利用することを提唱している。しかしながら、これらの処理は分離フィルタの推定に用いられる最適化の枠組みの外で明示的に行われており、アルゴリズムとして複雑になっている。また、これらの処理は微分不可能であるため、ディープニューラルネットワーク等の勾配法を前提としたモデルにそのまま応用することは難しい。

この発明の目的は、上記のような技術的課題に鑑みて、分離フィルタの推定と到来方向の利用を同時に考慮するシンプルな最適化が可能な音源分離技術を実現することである。

上記の課題を解決するために、この発明の一態様の音源分離装置は、複数の音源から到来した音を含む混合信号から音源ごとに強調された音を含む分離信号を取得する音源分離装置であって、音源ごとに当該音源から発せられた音を分離することと、音源ごとに当該音源方向に音源がない方向と比べて強い指向性をもつことと、を満たすよう最適化された分離フィルタを用いて、混合信号から分離信号を取得する分離信号推定部を含む。

この発明の音源分離技術は、分離フィルタの推定と到来方向の利用を同時に考慮するシンプルな最適化が可能である。

図１は、音源分離装置の機能構成を例示する図である。図２は、音源分離方法の処理手順を例示する図である。図３は、コンピュータの機能構成を例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［実施形態］
この発明の実施形態は、複数の音源信号が混合した混合信号から各目的音源を分離するための音声処理アルゴリズムを実行する音源分離装置および方法である。この音声処理アルゴリズムは、（１）時間領域で定義される混合信号を周波数領域の混合信号に変換する信号変換ステップ、（２）現時点kで推定されている分離フィルタを、信号変換ステップで求められた周波数領域の混合信号に適用することで、現時点kにおける周波数領域の分離信号を推定する分離信号推定ステップ、（３）信号変換ステップで求められた周波数領域の混合信号と分離信号推定ステップで求められた周波数領域の分離信号とを用いて、現時点kで推定されている分離フィルタに関する尤度と到来方向に基づいた正則化とそれぞれの勾配を計算する勾配計算ステップ、（４）勾配計算ステップで計算された勾配を用いて、分離フィルタを更新するフィルタ更新ステップ、および（５）分離信号推定ステップで求められた周波数領域の分離信号を時間領域で定義される分離信号に変換する信号逆変換ステップを含むことを特徴とする。

実施形態の音源分離装置１０は、複数の音源から到来した音を含む時間領域の混合信号を入力とし、音源ごとに強調された音を含む時間領域の分離信号を出力する音声信号処理装置である。音源分離装置１０は、図１に例示するように、信号変換部１、分離信号推定部２、勾配計算部３、フィルタ更新部４、および信号逆変換部５を備える。この音源分離装置１０が、図２に例示する各ステップの処理を行うことにより実施形態の音源分離方法が実現される。

音源分離装置１０は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音源分離装置１０は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音源分離装置１０に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音源分離装置１０の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

図２を参照して、実施形態の音源分離装置１０が実行する音源分離方法の処理手続きを説明する。

本実施形態では、音源数Nおよびマイク数Mが既知とする。また、音源分離装置１０の入力は、m∈{1, …, M}番目のマイクから取得される時間領域の混合信号X_tm∈Rとする。ここで、t∈{1, …, T}は各時間フレームを表し、Tは最大時間フレームを表す。また、Rは実数全体の集合である。

ステップＳ１において、信号変換部１は、音源分離装置１０に入力された時間領域の混合信号X_tmを短時間フーリエ変換（Short-Time Fourier Transform、STFT）等を用いて周波数領域の混合信号x_ftm∈Cに変換する。ここで、f∈{1, …, F}は各周波数ビンを表し、Fは最大周波数ビンを表す。また、Cは複素数全体の集合である。信号変換部１は、周波数領域の混合信号x_ftmを分離信号推定部２および勾配計算部３へ出力する。

ステップＳ２において、分離信号推定部２は、まず、現時点kで推定されている分離フィルタw_nf ^(k)∈C^1×Mを行にもつ分離行列W_f ^(k)=[w_1f ^(k), …, w_Nf ^(k)]^T∈C^N×Mを作成する。なお、・^Tは転置を表す。次に、分離信号推定部２は、その分離行列W_f ^(k)と周波数領域の混合信号x_ftmのベクトルx_ft=[x_ft1, …, x_ftM]^T∈C^M×1との行列積を計算することで、現時点kにおける周波数領域の分離信号y_ftn ^(k)を推定する。具体的には、分離信号推定部２は、式（１）を計算する。

ここで、y_ft ^(k)=[y_ft1 ^(k), …, y_ftN ^(k)]^T∈C^N×1である。分離フィルタw_nf ^(k)は周波数領域の混合信号ベクトルx_ftからn∈{1, …, N}番目の音源に対応する周波数領域の分離信号y_ftn ^(k)を出力していることになる。分離信号推定部２は、周波数領域の分離信号y_ftn ^(k)を勾配計算部３へ出力する。

ステップＳ３において、勾配計算部３は、信号変換部１の出力結果である周波数領域の混合信号x_ftmと分離信号推定部２の出力結果である周波数領域の分離信号y_ftn ^(k)とを用いて、現時点kで推定されている分離フィルタw_nf ^(k)に関する尤度の勾配と、到来方向に基づいた正則化の勾配を計算する。勾配計算部３は、勾配をフィルタ更新部４へ出力する。以下、勾配の計算方法について詳述する。

まず、周波数領域の混合信号x_ftmを周波数ビンの次元でまとめた混合信号ベクトルx_tm=[x_1tm, …, x_Ftm]^Tに関して、現時点kにおける負の対数尤度L_NLL ^(k)を、式（２）のように定義する。

線形制約式（１）を考慮すると、式（２）は式（３）のように書き下すことができる。

ここで、y_tn ^(k)は周波数領域の分離信号y_ftn ^(k)を周波数ビンの次元でまとめた分離信号ベクトル[y_1tn ^(k), …, y_Ftn ^(k)]∈C^F×1を表し、p(y_tn ^(k))は分離信号ベクトルy_tn ^(k)が従う確率モデルを表す。なお、ここで使用する確率モデルは、independent Laplacian distribution model（例えば、非特許文献１参照）などが一般的だが、本発明では特にモデルを制限するものではない。

現時点kで推定されている分離フィルタw_nf ^(k)∈W_f ^(k)に関する尤度の勾配は、式（３）に対する分離フィルタの複素共役W_f ^*の勾配を計算することで求められる。具体的には、勾配計算部３は、式（４）を計算する。

ここで、E[・]は・の期待値を計算することを表し、・^Hはエルミート転置を表す。

現時点kで推定されている分離フィルタw_nf ^(k)∈W_f ^(k)に対して到来方向に基づいた正則化も考え、その勾配を計算する。ここで、正則化は式（５）のように、シンプルな関数g₁～g₅の合成関数として定義される。

ここで、g₁～g₅は以下のように定義されている。

ここで、ψ_θf=[ψ_1θf, …, ψ_Nθf]^Tは分離フィルタw_nf ^(k)∈W_f ^(k)の周波数ビンfにおける到来方向θ={1, …, Θ}に関するビームパターンを表し、a_θf=[a_1θf, …, a_Mθf]^Tは目的音源が平面波で到来方向θから到来したと仮定する時のアレイマニフォールドベクトルを表す。B_f=diag[b₁, …, b_n]は最適化中に分離行列W_f ^(k)のスケールが不定になる問題を調整するスケーリング行列であり、例えば、プロジェクションバック法（参考文献１）などが提案されているが、本発明では特に手法を制限するものではない。また、

はアダマール積を表し、・^*は複素共役を表している。
〔参考文献１〕D. E. Rumelhart, G. E. Hinton, R. J. Williams, et al., "Learning representations by back-propagating errors," Cognitive modeling, vol. 5, no. 3, pp. 1, 1988.

この正則化内のg₃○g₄○g₅によって、現時点kにおけるビームパターンを計算する。ビームパターンは、x軸を到来方向θ、y軸を周波数ビンf、z軸を感度値ψ_θfとして、二次元のヒートマップ（例えば、赤が感度大、青が感度小）として描画することができる特徴量であり、分離フィルタの特性を表している。そして、g₂のmax関数によって、ある特定の到来方向θに関する最大感度を取得する。つまり、ヒートマップ上のy軸方向に赤色のバンドが最も濃く表れている到来方向θを取得することに相当する。またこれは、現時点kにおける分離フィルタw_nf ^(k)∈W_f ^(k)が最大感度を形成するべき方向、つまり目的音源の到来方向を暗に推定していることになる。最終的に、g₁を用いて、ある特定の到来方向にどの程度最大感度を形成できているかを計算する。なお、g₁は単純にL₂ノルムの形をしているが、最大感度は最終的に値として１に収束するので、g₁=||h₁-1||₂ ²という定式化でもよいと考えられる。しかしながら、この場合だと正則化が厳しくなり、最適化が不安定になることが経験的に明らかになっている。そのため、基本的には式（６）のようにg₁=||h₁||₂ ²を用いることが望ましい。

正則化L_norm ^(k)はシンプルな関数g₁～g₅の合成関数として表されるため、ニューラルネットワークなどで用いられる連鎖律を基にしたバックプロパゲーションを用いることで、式（11）～（14）のように正則化L_norm ^(k)の勾配を計算することができる。

ここで、

（中抜き文字のI）は指示関数であり、最大到来方向^θ=argmax_θ{h_2,θ}_θ=1 ^Θに関する計算のみを勾配として伝搬させることを表す。f₁, f₂はそれぞれ所定の周波数である。

また、本発明では∂L_norm ^(k)/∂W_f ^*の近似として式（14）を提案する。これは、勾配計算時に目的音源の周波数的な性質を取り入れることを可能にするものである。例えば、人間の音声の主な周波数帯域は500～3000Hzであるため、f₁=500, f₂=3000とすることで、この周波数帯域のみを考慮した勾配計算が可能となる。

最終的に、現時点kにおける勾配∂L^(k)/∂W_f ^*は、負の対数尤度の勾配∂L_NLL ^(k)/∂W_f ^*と到来方向に基づいた正則化の勾配∂L_norm ^(k)/∂W_f ^*の重み付き線形加算として、式（15）のように表される。

ここでγは重みのハイパーパラメータである。したがって、現時点kにおけるコスト関数L^(k)は、式（３）と式（５）から、式（16）で定義される。

ステップＳ４－１において、フィルタ更新部４は、勾配計算部３の出力結果である現時点kにおける勾配∂L^(k)/∂W_f ^*に基づいて、例えば、式（17）のように自然勾配法を用いて現時点kにおける分離フィルタW_f ^(k)を更新し、次の時点k+1における分離フィルタW_f ^(k+1)を計算する。

ここで、αは更新のステップサイズを表している。最終的に、分離フィルタW_f ^(k+1)が更新されなくなったときの分離信号推定部２の出力結果である周波数領域の分離信号y_ftn ^(k+1)が求めたい目的音源の周波数領域における表現となる。フィルタ更新部４は、分離フィルタW_f ^(k+1)を分離信号推定部２へ出力する。

ステップＳ４－２において、フィルタ更新部４は、分離フィルタの更新が完了したか否かを判定する。更新が完了していたらステップＳ５へ処理を進める。更新が完了していなければステップＳ２へ処理を戻す。更新が完了したことの判断は、例えば、分離フィルタの更新量が所定の値よりも小さくなったことでもよいし、分離フィルタの更新回数が所定の回数となったことでもよい。

ステップＳ５において、信号逆変換部５は、分離信号推定部２の出力結果である周波数領域の分離信号y_ftn ^(k+1)を、逆短時間フーリエ変換を用いて、時間領域の分離信号y_tn∈Rに変換する。信号逆変換部５は、時間領域の分離信号y_tnを音源分離装置１０の出力として出力する。

本発明では、到来方向の利用を最適化の中に暗黙的に取り入れるための微分可能な正則化を提案し、最適化の枠組みの中で分離フィルタの推定と到来方向の利用を同時に考慮するシンプルで新しい最適化手法を提案した。また、本発明で提案された正則化項は微分可能であるため、ディープニューラルネットワーク等の勾配法を前提にしたモデルにおける誤差項として容易に組み込むことが可能である。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図３に示すコンピュータの記憶部１０２０に読み込ませ、演算処理部１０１０、入力部１０３０、出力部１０４０などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、磁気記録装置、光ディスク等である。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部１０５０に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部１０５０に格納されたプログラムを一時的な記憶装置である記憶部１０２０に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数の音源から到来した音を含む混合信号から音源ごとの分離信号を独立ベクトル分析で推定する音源分離装置であって、
分離フィルタを用いて前記混合信号から前記分離信号を推定する分離信号推定部と、
前記混合信号の分離の程度を評価するコスト関数であって、前記混合信号の尤度と前記音源方向への前記分離フィルタの感度とを含むコスト関数を用いて、前記混合信号の分離が最適化されるように前記分離フィルタを更新するフィルタ更新部と、を含む
音源分離装置。
請求項１に記載の音源信号分離装置であって、
t={1, …, T}は時間フレームを表し、n={1, …, N}は音源を表し、f={1, …, F}は周波数ビンを表し、p(y_tn ^(k))は周波数領域の分離信号を周波数ビンの次元でまとめたベクトルy_tn ^(k)が従う確率モデルであり、W_f ^(k)は現時点kにおける分離フィルタを行にもつ分離行列であり、γは重みのハイパーパラメータであり、a_θfは目的音源が平面波で到来方向θ={1, …, Θ}から到来したと仮定するときのアレイマニフォールドベクトルであり、B_fはスケーリング行列であり、
前記コスト関数は、

ただし、

で定義される、
音源分離装置。
請求項２に記載の音源信号分離装置であって、
前記コスト関数の第３項で考慮する周波数ビンfは、音源が発する音の周波数特性に基づいて定める、
音源分離装置。
請求項３に記載の音源信号分離装置であって、
f₁，f₂はそれぞれ所定の周波数であり、中抜き文字のIは指示関数であり、a_θfは目的音源が平面波で到来方向θから到来したと仮定するときのアレイマニフォールドベクトルであり、B_fはスケーリング行列であり、W_f ^(k)は現時点kにおける分離フィルタを行にもつ分離行列であり、
前記コスト関数の第３項の勾配を、

ただし、

を計算して求める、
音源分離装置。
複数の音源から到来した音を含む混合信号から音源ごとの分離信号を独立ベクトル分析で推定する音源分離方法であって、
分離信号推定部が、分離フィルタを用いて、前記混合信号から前記分離信号を推定し、
フィルタ更新部が、前記混合信号の分離の程度を評価するコスト関数であって、前記混合信号の尤度と前記音源方向への前記分離フィルタの感度とを含むコスト関数を用いて、前記混合信号の分離が最適化されるように前記分離フィルタを更新する
音源分離方法。
請求項１から４のいずれかに記載の音源分離装置としてコンピュータを機能させるためのプログラム。