JP2006510060A

JP2006510060A - 複数の音響源が生成した複数の音響信号を分離する方法及びシステム

Info

Publication number: JP2006510060A
Application number: JP2004560622A
Authority: JP
Inventors: ラマクリシュナン、ビクシャ; ゴメス、マニュエル・ジェイ・レイエス
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-12-13
Filing date: 2003-12-11
Publication date: 2006-03-23
Also published as: EP1568013A1; EP1568013B1; DE60312374D1; WO2004055782A1; DE60312374T2; US20040117186A1

Abstract

【課題】本方法により、複数の音響源が生成した音響信号（例えば同じ室内の何人かの話者が同時に話した混合音声）を分離する。
【解決手段】各音源について、音響信号は結合されて、各音源に少なくとも１本ずつ設けられる複数のマイクによって取得される混合信号となる。混合信号をフィルタリングし、フィルタリングされた信号を総和して１つの信号にし、この信号から特徴を抽出する。因子ＨＭＭ全体のターゲットシーケンスを推測し、それに従ってフィルタパラメータを最適化する。これらのステップは、フィルタパラメータが最適なフィルタリングパラメータに収束するまで繰り返し、次にこの最適なフィルタリングパラメータを用いて混合信号をもう一度フィルタリングし、この最後のフィルリングの総和出力が特定の音響源の音響信号となる。

Description

本発明は、包括的には混合音響信号の分離に関し、特に複数のチャネルが複数の音響源（話者など）から取得した混合音響信号の分離に関する。

しばしば、複数の話者によって複数の音声信号が同時に生成されるため、録音物において音声信号が互いに混ざり合う。その場合、それらの音声信号を分離することが必要になる。言い換えれば、２人以上の人が同時に話す場合、同時音声の録音物から個々の話者の音声を分離することが望ましい。これは話者分離問題と呼ばれる。

一方法において、同時音声は１チャネル録音により受信され、混合信号は時変フィルタにより分離される。Roweis著「One Microphone Source Separation」（Proc. Conference on Advances in Neural Information Processing Systems, pp. 793-799, 2000）およびHershey等著「Audio Visual Sound Separation Via Hidden Markov Models」（Proc. Conference on Advances in Neural Information Processing Systems, 2001）を参照。この方法は、通常は隠れマルコフモデル（ＨＭＭ）等の動的モデルによって表される、異なる話者の音声の統計的な性質に関する広範な先験的（a priori）情報を用いて、時変フィルタを求める。

別の方法は、複数のマイクを用いて同時音声を録音する。この方法は通常、少なくとも話者の人数と同数のマイクを必要とし、音源分離問題はブラインド音源分離（ＢＳＳ）の１つとして処理される。ＢＳＳは独立成分解析（ＩＣＡ）によって行うことができる。この方法では信号の先験的知識は前提とされない。その代わりに、混合信号の複数の録音物から取り出した現在および過去のサンプルの重み付き結合（combination）として成分信号が推定される。推定重みは、推定成分信号の独立性を測定する目的関数を最適化する。Hyvaearinen著「Survey on Independent Component Analysis」（Neural Computing Surveys, Vol. 2., pp. 94-128, 1999）を参照。

両方法には欠点がある。既知の信号の統計を用いる時変フィルタ法は、混合信号の１チャネル録音物に基づいている。１チャネル録音物に存在する情報の量は通常、効果的な話者分離を行うには不十分である。ブラインド音源分離法は、話者に関する全ての先験的情報を無視する。その結果、この方法は多くの状況（信号が残響環境で録音された場合等）において失敗する。

したがって、従来技術を改良した混合音声信号の分離方法を提供することが望ましい。

本発明による方法は、分離する音響音声信号（例えば音声）に関する詳細な先の統計情報を用いる。この情報は隠れマルコフモデル（ＨＭＭ）で表される。信号分離問題は、ビーム形成の１つとして処理される。ビーム形成では、推定フィルタ和（filter-and-sum）アレーを用いて各信号を抽出する。

推定フィルタは、所望の信号のＨＭＭについて測定した、フィルタ和処理した出力の尤度を最大にする。これは、因子（factorial）ＨＭＭ（ＦＨＭＭ）を用いた因子処理によって行われる。ＦＨＭＭは複数の信号のＨＭＭの外積である。因子処理は、現在のアレー出力を用いて全ての同時信号のＦＨＭＭからその信号のＨＭＭ全体の最適状態シーケンスを繰り返し推定するとともに、その状態シーケンスの尤度を最大にするフィルタを推定する。

音響信号の２音源混合物において、本発明による方法は、信号のＨＭＭが音響信号から構築されている場合、前景音響信号よりも２０ｄＢ低い背景音響信号を抽出することができる。

システム構造
図１は、本発明によるマルチチャネル音響信号分離システム１００の基本的な構造を示す。この例では、混合音響信号（例えば音声１０３）を生成する２つの音源（例えば話者１０１〜１０２）がある。これより多い数の音源も可能である。本発明の目的は、取得した混合信号から１つの音源の信号１９０を分離することである。

本システムは複数のマイク１１０を、各話者または他の音源に少なくとも１本ずつ含む。これらの複数のマイク１１０には、複数のフィルタセット１２０が接続されている。各話者に１つのフィルタセット１２０があり、各セット１２０のフィルタの数はマイク１１０の本数に等しい。

各フィルタセット１２０出力１２１は対応する加算器１３０に接続される。加算器１３０は、総和信号１３１を特徴抽出モジュール１４０に供給する。

抽出した特徴１４１は因子処理モジュール１５０に供給される。因子処理モジュール１５０の出力は最適化モジュール１６０に接続されている。特徴は最適化モジュール１６０にも直接供給される。最適化モジュール１６０の出力は対応するフィルタセット１２０に戻される。各話者のトランスクリプション（transcription）隠れマルコフモデル（ＨＭＭ）１７０も因子処理モジュール１５０に入力を供給する。ＨＭＭは、トランスクリプションに基づく必要はなく、例えば、いかなる形態または音源の音響内容、音楽、機械音、自然音、動物の声（animal sound）等から直接導出されてもよいことに留意すべきである。

システム動作
動作時には、取得した混合音響信号１１１をまずフィルタリングする（１２０）。初期のフィルタパラメータセットを用いることができる。フィルタリングした信号１２１を総和し、特徴１４１を抽出する（１４０）。ＨＭＭ１７０を用いてターゲットシーケンス１５１を抽出する（１５０）。次に、共役勾配降下法を用いた最適化１６０により、１つの音源（例えば話者）の信号１９０の分離に用いることができる最適なフィルタパラメータ１６１を導出する。

次に、本発明によるシステムおよび方法の構造および動作を詳細に説明する。

フィルタ和
音源の数は既知であると仮定する。音源毎に別個のフィルタ和アレーを設ける。各マイク１１０からの混合信号１１１をマイク固有のフィルタによってフィルタリングする（１２０）。様々なフィルタリングされた信号１２１を総和して（１３０）合成１３１信号を得る。したがって、音源ｉの合成出力信号ｙ_ｉ［ｎ］１３１は次のように表される。

ここで、Ｌはマイク１１０の本数であり、ｘ_ｊ［ｎ］はｊ番目のマイクにおける信号１１１であり、ｈ_ｉｊ［ｎ］は話者ｉ用のｊ番目のフィルタに適用するフィルタである。フィルタインパルス応答ｈ_ｉｊ［ｎ］は、結果として得られる出力ｙ_ｉ［ｎ］１９０がｉ番目の音源からの分離信号となるように、最適なフィルタパラメータ１６１によって最適化される。

音源用のフィルタの最適化
特定の音源からの信号用のフィルタ１２０は、音響信号に関する入手可能な情報（例えば話者の音声のトランスクリプション）を用いて最適化される。

音声信号の４０次元のメルスペクトル（Mel-spectral）表現で訓練した、話者に依存しない隠れマルコフモデル（ＨＭＭ）に基づく音声認識システムを用いることができる。この認識システムは、音響信号中の様々な音単位のＨＭＭを含む。

上記と、おそらくはその話者の発声の既知のトランスクリプションとから、その発声のＨＭＭ１７０を構築する。これに続いて、話者用のフィルタ１２０のパラメータ１６１を推定して、発声ＨＭＭ１７０に関してフィルタ和アレーの出力１４１から求めた４０次元のメルスペクトルベクトルのシーケンスの尤度を最大にする。

最適化のために、メルスペクトルベクトルをフィルタパラメータの関数として次のように表現する。

まず、ｉ番目の音源のフィルタパラメータを全てのチャネルについて連結し、１つのベクトルｈ_ｉにする。パラメータｚ_ｉが、ｉ番目の音源用のアレーの出力１３１から抽出したメルスペクトルベクトルのシーケンス１４１を表す。パラメータｚ_ｉｔはＺ_ｉにおけるｔ番目のスペクトルベクトルである。パラメータｚ_ｉｔは次式によってベクトルｈ_ｉと関連付けられる。

ここで、ｙ_ｉｔは、ｚ_ｉｔを求めるために用いられるｙ_ｉ［ｎ］からのサンプルのシーケンスを表すベクトルであり、Ｍはメルフィルタの重み係数行列であり、Ｆはフーリエ変換行列であり、Ｘ_ｔはチャネル入力とそれをシフトしたものによって形成される超行列（super matrix）である。

Λ_ｉはｉ番目の音源のＨＭＭのパラメータセットを表すものとする。ｉ番目の音源用のフィルタを最適化するために、その音源のＨＭＭに対するＺ_ｉの対数尤度であるＬ_ｉ（Ｚ_ｉ）＝ｌｏｇ（Ｐ（Ｚ_ｉ｜Λ_ｉ））を最大にする。パラメータＬ_ｉ（Ｚ_ｉ）はＨＭＭ１７０全体で可能な状態シーケンス全てにわたって求める。

最適化を簡略化するために、Ｚ_ｉの全体的な尤度は、ＨＭＭ全体で最も尤度の高い状態シーケンスの尤度、すなわちＰ（Ｚ_ｉ｜Λ_ｉ）≒Ｐ（Ｚ_ｉ，Ｓ_ｉ｜Λ_ｉ）によって大まかに表されるものとみなす。ここでＳ_ｉはＨＭＭ全体で最も尤度の高い状態シーケンスを表す。この仮定に基づいて次式が得られる。

ここで、ＴはＺ_ｉにおけるベクトルの総数を表し、ｓ_ｉｔはｉ番目の音源の最も尤度の高い状態シーケンスの時間ｔにおける状態を表す。総和における２番目の対数項は、ｚ_ｉｔすなわちフィルタパラメータに依存しないため、最適化には影響を与えない。したがって、式３を最大にすることは１番目の対数項を最大にすることに等しい。

簡略化のために、これは、Ｚ_ｉと状態シーケンスＳ_ｉのベクトルの最も尤度の高いベクトルシーケンスとの間の距離を最小にすることに等しいものとみなす。

ＨＭＭにおける状態出力の分布を単一ガウス（single Gaussian）でモデル化する場合、最も尤度の高いベクトルシーケンスが単純に、その最も尤度の高いシーケンスにおける状態の平均のシーケンスとなる。

以下において、この平均のシーケンスをその話者のターゲットシーケンス１５１と呼ぶ。最適化ステップ１６０においてフィルタパラメータ１６１について最適化される目的関数は次式によって定義される。

ここで、ターゲットシーケンスｍ^ｉ _ｓｉｔのｔ番目のベクトルは、最も尤度の高い状態シーケンスＳ_ｉのｔ番目の状態であるｓ_ｉｔの平均である。

式２および式４は、Ｑ_ｉがｈ_ｉの関数であることを示す。しかしながら、Ｑ_ｉをｈ_ｉに関して直接最適化することは、両者間の関係が非常に非線形であるため不可能である。したがって、共役勾配降下法等の最適化方法を用いてＱを最適化する。

図２は、本発明による方法２００のステップを示す。

第１に、フィルタパラメータをｈ_ｉ［０］＝１／Ｎ、ならびにｋ≠０についてｈ_ｉ［ｋ］＝０に初期化し（２０１）、式１を用いて各話者の混合信号１１１をフィルタ和処理する。

第２に、特徴ベクトル１４１を抽出する（２０２）。

第３に、状態シーケンスおよび最適化用の対応するターゲットシーケンス１５１を求める（２０３）。

第４に、式４を最適化するために共役勾配降下法等の最適化方法を用いて最適なフィルタパラメータ１６１を推定する（２０４）。

第５に、最適化されたフィルタパラメータを用いて信号を再度フィルタ和処理する。新たな目的関数が集束しない場合（２０６）、完了する（２０７）まで第３および第４のステップ２０３を繰り返す。

本プロセスは抽出した特徴１４１とターゲットシーケンス１５１の間の距離を最小にするため、よいターゲット選択が重要である。

ターゲットの推定
理想的なターゲットは、雑音や破損のない（clean uncorrupted）音響信号録音物から得られるメルスペクトルベクトルのシーケンスである。他のターゲットはすべて理想的なターゲットの近似値に過ぎない。この理想的なターゲットの近似値を求めるには、その話者の発声のＨＭＭ１７０からターゲット１５１を導出する。これは、現在の音源信号推定値からＨＭＭ全体の最適状態シーケンスを求めることによって行う。

直接的な手法では、信号のメルスペクトルベクトルのシーケンスについて最も尤度の高い状態シーケンスを求める。残念ながら、フィルタ１２０が完全に最適化される前のプロセスの初期の繰り返しでは、どの話者のフィルタ和アレーの出力１３１も他の話者からの信号を同様に大きな割合で含む。その結果、出力を単純にＨＭＭと合わせてみてもターゲットの推定は粗悪な結果となる。

したがって、アレーの出力が全ての音源からの信号の混合であるという事実も考慮する。この信号を表現するＨＭＭは、様々な音源のそれぞれのＨＭＭの外積である因子ＨＭＭ（ＦＨＭＭ）である。ＦＨＭＭにおいて、各状態は音源の各々のＨＭＭの１状態の複合（composition）であり、個々の音源の信号はそのそれぞれの状態のいずれかにあり、最終的な出力はこれらの状態からの出力の結合であるという事実を反映している。

図３は、話者が２人、ＨＭＭチェインが２つ（３０１〜３０２）（各話者につき１つ）である例のＦＨＭＭのダイナミクスを示す。ＨＭＭは特徴ベクトル１４１とともに動作する。

Ｓ^ｋ _ｉはｋ番目の話者のＨＭＭのｉ番目の状態を表すものとし、ここでｋ∈［１，２］である。Ｓ^ｋｌ _ｉｊは、ｋ番目の話者のＨＭＭが状態ｉにあり、ｌ番目の話者のＨＭＭが状態ｊにある場合に得られる因子状態を表す。Ｓ^ｋｌ _ｉｊの出力密度はその成分状態の出力密度の関数である。

関数ｆ（）の厳密な性質は、所望の話者の信号の現在の推定値における複数の話者の信号１０３の混合比率に依存する。この混合比率はまた、様々な話者の原信号レベル、および現在のフィルタセットによってもたらされる所望の話者の分離度を含むいくつかの因子に依存する。これらを教師なし（unsupervised）で求めるのは困難であるので、ｆ（）を正確に求めることはできない。

ｆ（）を推定することはしない。その代わりに、個々の音源のＨＭＭを構築して単純なガウス状態出力密度を得る。ＦＨＭＭの任意の状態の状態出力密度は、成分状態の状態出力密度の平均の線形結合を平均とするガウスでもあるとみなす。

Ｓ^ｋｌ _ｉｊのガウス状態出力密度の平均であるｍ^ｋｌ _ｉｊを次のように定義する。

ここで、ｍ^ｋ _ｉはＳ^ｋ _ｉのＤ次元の平均ベクトルを表し、Ａ^ｋはＤ×Ｄの重み行列である。

因子状態Ｓ^ｋｌ _ｉｊの共分散に関して３つのオプションを検討する。全ての因子状態が共通の対角共分散行列Ｃを有する、すなわち、任意の因子状態Ｓ^ｋｌ _ｉｊの共分散はＣ^ｋｌ _ｉｊ＝Ｃによって与えられる。Ｓ^ｋｌ _ｉｊの共分散はＣ^ｋｌ _ｉｊ＝Ｂ（Ｃ^ｋ _ｉ＋Ｃ^ｌ _ｊ）によって与えられ、ここで、Ｃ^ｋ _ｉはＳ^ｋ _ｉの共分散行列であり、Ｂは対角行列である。Ｃ^ｋｌ _ｉｊ＝Ｂ^ｋＣ^ｋ _ｉ＋Ｂ^ｌＣ^ｌ _ｊによって与えられ、ここでＢ^ｋは対角行列Ｂ^ｋ＝ｄｉａｇ（ｂ^ｋ）である。

１番目の手法をグローバル共分散法、後の２つの手法を複合（composed）共分散法と呼ぶ。よって因子状態Ｓ^ｋｌ _ｉｊの状態出力密度は次式によって与えられる。

様々なＡ^ｋの値および共分散パラメータ値（検討中の共分散のオプションに応じてＣ、Ｂ、またはＢ^ｋ）の値は未知であり、その話者の信号の現在の推定値から推定される。この推定は期待値最大化（ＥＭ）プロセスを用いて行われる。

このプロセスの期待（Ｅ）ステップでは、様々な因子状態の帰納的（a posteriori）確率、よって話者のＨＭＭの状態の帰納的確率を求める。因子ＨＭＭはその成分ＨＭＭの状態数の積と同数の状態を有する。よって（Ｅ）ステップにおける直接的な計算は禁止される。

したがって、変形手法を採用する。Ghahramani等著「Factorial Hidden Markov Models」（Machine Learning, Vol. 29, pp. 245-275, Kluwer Academic Publishers, Boston 1997）を参照。本プロセスの最大化（Ｍ）ステップでは、計算した帰納的確率を用いてＡ_ｋを次のように推定する。

ここで、ＡはＡ^１およびＡ^２によりＡ＝［Ａ^１，Ａ^２］として構成される行列であり、Ｐ_ｉｊ（t）はｉ番目および（Ｎ^ｋ＋ｊ）番目の値がＰ（Ｚ_ｔ｜Ｓ^ｋ _ｉ）およびＰ（Ｚ_ｔ｜Ｓ^ｌ _ｉ）に等しいベクトルであり、Ｍは、ブロックが個々の状態出力分布の平均により構成される行列で形成されるブロック行列である。

Ｃ^ｋｌ _ｉｊ＝Ｂ^ｋＣ^ｋ _ｉ＋Ｂ^ｌＣ^ｌ _ｊである複合分散法では、行列Ｂ^ｋの対角成分ｂ^ｋはＥＭアルゴリズムのｎ回目の繰り返しにおいて次のように推測される。

ここでｐ_ｉｊ（ｔ）＝Ｐ（Ｚ_ｔ｜Ｓ^ｋｌ _ｉｊ）である。

グローバル共分散法の共通の共分散Ｃおよび第１の複合共分散法のＢは同様に計算することができる。

ＥＭプロセスが集束し、Ａ^ｋｓ、共分散パラメータ（必要に応じてＣ、Ｂ、またはＢ^ｋ）を求めた後、所望の話者の最適状態シーケンスもＦＨＭＭから、同様に変分近似を用いて得ることができる。

ある音源のターゲットシーケンス１５１を求めるためのシステム全般は次のように動作する。未処理信号からの特徴ベクトル１４１と、トランスクリプションを用いて求めたＨＭＭとを用いて、式８および式９を用いてパラメータＡおよび共分散パラメータ（必要に応じてＣ、Ｂ、またはＢ^ｋ）を、全（total）対数尤度が収束するまで繰り返し更新する。

その後、所望の話者のＨＭＭ全体で最も尤度の高い状態シーケンスを求める。ターゲット１５１を得た後、フィルタ１２０を最適化し、フィルタ和アレーの出力１３１を用いてターゲットを再度推測する。本システムは、ターゲットが連続した繰り返しにおいて変化しなくなったときに集束する。最終的に得られたフィルタセットを用いて、その音源の音響信号を分離する。

発明の効果
本発明は、複数の話者からの音響信号の既知の統計特性を使用して音響信号を分類する新規のマルチチャネル話者分離システムとその方法を提供する。

２人の話者のシステム例の場合、本発明によるシステムおよび方法は、信号分離比（signal separation ratio：ＳＳＲ）を従来技術の単純な遅延和と比べて２０ｄＢ改善する。話者の信号レベルが異なる場合、結果はより劇的になる（すなわち３８ｄＢ改善される）。

図４Ａは混合信号を示し、図４Ｂおよび図４Ｃは、本発明による方法によって得られた２つの分離信号を示す。ＦＨＭＭに基づく本方法により得られる信号分離は、フィルタ最適化の理想的なターゲットを用いて得られる信号分離に匹敵する。複合分散ＦＨＭＭ法は、全てのＦＨＭＭ状態にグローバル共分散を用いる方法よりも少ない繰り返し回数で最終的なフィルタに集束する。

本発明を好適な実施の形態の例として説明してきたが、本発明の精神および範囲内で様々な他の適応形態および変更形態を実施できることが理解されるべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲内に入る変形形態および変更形態をすべて網羅することである。

本発明に係る混合音響信号を分離するシステムのブロック図である。本発明に係る混合音響信号を分離する方法のブロック図である。本発明が用いる因子ＨＭＭのフロー図である。分離すべき混合音声信号のグラフである。本発明に従って分離した音声信号のグラフである。本発明に従って分離した音声信号のグラフである。

Claims

複数の音響源が生成した複数の音響信号を分離する方法であって、前記複数の音響信号は結合されて、複数のマイクによって取得される混合信号となり、前記音響源の各々について、
前記混合信号をフィルタリングしてフィルタリングされた信号にすること、
前記フィルタリングされた信号を総和して合成信号にすること、
前記合成信号から特徴を抽出すること、
前記抽出した特徴に基づいて前記合成信号中のターゲットシーケンスを推測すること、
前記ターゲットシーケンスのフィルタパラメータを最適化すること、
前記フィルタパラメータが最適なフィルタリングパラメータに収束するまで前記推測するステップと前記最適化するステップとを繰り返すこと、および
前記最適なフィルタパラメータを用いて前記混合信号をもう一度フィルタリングし、前記最適にフィルタリングされた混合信号を総和して前記音響源の音響信号を得ること
を含む、複数の音響源が生成した複数の音響信号を分離する方法。
前記音響源は話者であり、前記音響信号は音声である、
請求項１記載の複数の音響源が生成した複数の音響信号を分離する方法。
前記音響源の各々に少なくとも１本のマイクがあり、マイクの各々に１つのフィルタセットがあり、セットの各々のフィルタの数は前記音響源の数に等しい、
請求項１記載の複数の音響源が生成した複数の音響信号を分離する方法。
前記フィルタパラメータは勾配降下法により最適化される、
請求項１記載の複数の音響源が生成した複数の音響信号を分離する方法。
前記ターゲットシーケンスは隠れマルコフモデルから推定される、
請求項１記載の複数の音響源が生成した複数の音響信号を分離する方法。
前記ターゲットシーケンスは、前記隠れマルコフモデルの最も尤度の高い状態シーケンスにおける状態の平均のシーケンスである、
請求項５記載の複数の音響源が生成した複数の音響信号を分離する方法。
前記隠れマルコフモデルは前記音響源と独立している、
請求項５記載の複数の音響源が生成した複数の音響信号を分離する方法。
前記音響信号は音声であり、前記隠れマルコフモデルは前記音声のトランスクリプションに基づいている、
請求項５記載の複数の音響源が生成した複数の音響信号を分離する方法。
前記音響源全ての個々の隠れマルコフモデルの外積である因子隠れマルコフモデルにより前記混合信号を表現すること
をさらに含む請求項５記載の複数の音響源が生成した複数の音響信号を分離する方法。
複数の音響源が生成した複数の音響信号を分離するシステムであって、前記複数の音響信号は結合されて、複数のマイクによって取得される混合信号となり、前記音響源の各々について、
前記混合信号をフィルタリングしてフィルタリングされた信号にする複数のフィルタと、
前記フィルタリングされた信号を総和して合成信号にする加算器と、
前記合成信号から特徴を抽出する手段と、
前記抽出した特徴に基づいて前記合成信号中のターゲットシーケンスを推測する手段と、
前記ターゲットシーケンスのフィルタパラメータを最適化する手段と、
前記フィルタパラメータが最適なフィルタリングパラメータに収束するまで前記推測および前記最適化を繰り返し、次に前記最適なフィルタパラメータを用いて前記混合信号をフィルタリングし、最適にフィルタリングされた混合信号を総和して前記音響源の音響信号を得る手段と
を備える、複数の音響源が生成した複数の音響信号を分離するシステム。