JP2007156300A

JP2007156300A - 音源分離装置、音源分離プログラム及び音源分離方法

Info

Publication number: JP2007156300A
Application number: JP2005354585A
Authority: JP
Inventors: Hiroshi Hashimoto; 裕志橋本; Takayuki Hiekata; 孝之稗方; Koji Morita; 孝司森田; Yohei Ikeda; 陽平池田
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2005-12-08
Filing date: 2005-12-08
Publication date: 2007-06-21
Also published as: EP1796085A1; US20070133811A1

Abstract

【課題】独立成分分析法に基づくブラインド音源分離方式に基づくＢＳＳ方式による音源分離処理（ＩＣＡ−ＢＳＳ音源分離処理）を行うに当たり、処理の開始後しばらくの時間帯や、音響環境の変化があった場合でも、リアルタイム処理が可能となるよう分離行列の演算負荷を抑えつつ、音源分離性能を極力高められること。
【解決手段】予め候補行列メモリ２７に記憶された複数の前記候補行列Ｗ0i（異なる音源条件での入力信号に基づく学習計算で得られた分離行列）各々について、仮学習処理Ｐｒ１及び仮分離処理Ｐｒ２を行い、これにより得られる分離信号の相関評価に基づいて分離行列の初期行列を決定する（Ｐｒ３）。初期行列決定処理Ｐｒ３及びその初期行列に基づく分離行列Ｗの学習計算は、当該音源分離装置Ｘによる音源分離処理の開始時と、相関評価部２５による分離信号ｙi(ｔ)相互間の相関の程度が所定レベル以上である場合に実行する。
【選択図】図２

Description

本発明は、所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で、その音声入力手段各々を通じて逐次入力される複数の混合音声信号（音源各々からの音源信号が重畳された信号）に対し、所定の分離行列を用いた行列演算を施すことにより前記音源信号に対応する複数の分離信号を逐次生成する機能を備えた音源分離装置、音源分離プログラム及び音源分離方法に関するものである。

所定の音響空間に複数の音源と複数のマイク（音声入力手段）とが存在する場合、その複数のマイクごとに、複数の音源各々からの個別音声信号（以下、音源信号という）が重畳された音声信号（以下、混合音声信号という）が取得される。このようにして取得（入力）された複数の前記混合音声信号のみに基づいて、前記音源信号各々を同定（分離）する音源分離処理の方式は、ブラインド音源分離方式（Blind Source Separation方式、以下、ＢＳＳ方式という）と呼ばれる。
さらに、ＢＳＳ方式の音源分離処理の１つに、独立成分分析法（Independent Component Analysis、以下、ＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理がある。このＩＣＡ法に基づくＢＳＳ方式は、複数のマイクを通じて入力される複数の前記混合音声信号（時系列の音声信号）において、前記音源信号どうしが統計的に独立であることを利用して所定の分離行列（逆混合行列）を最適化し、入力された複数の前記混合音声信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定（音源分離）を行う処理方式である。その際、分離行列の最適化は、ある時点で設定されている分離行列を用いたフィルタ処理により同定（分離）された信号（分離信号）に基づいて、逐次計算（学習計算）により以降に用いる分離行列を計算することによって行われる。
ここで、学習計算開始時には、所定の初期値が設定された分離行列（以下、初期行列という）が与えられ、その初期行列が学習計算により更新されて音源分離に用いる分離行列として設定される。通常、最初の学習計算開始時には、予め定められた所定の行列が初期行列として設定され、以後、学習計算が行われるごとに、学習後の分離行列が次の学習計算開始時の初期行列として設定される。このようなＩＣＡ法に基づくＢＳＳ方式の音源分離処理は、例えば、非特許文献１や非特許文献２等に詳説されている。
また、特許文献１には、周波数領域におけるブラインド音源分離処理において、permutation（周波数解析窓ごとに分離音源の入れ替わりが発生する現象）の問題を分離信号の類似度計算によって解決する技術が示されている。
特開２００４−１４５１７２号公報猿渡洋、「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告、vol.EA2001-7、pp.49-56、April 2001. 高谷智哉他、「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告、vol.US2002-87、EA2002-108、January 2003.

しかしながら、前記音源信号の独立性に着目したＩＣＡ法に基づくＢＳＳ方式による音源分離処理は、分離行列を求める逐次計算（学習計算）を十分に行えば高い音源分離性能（前記音源信号の同定性能）が得られるものの、十分な音源分離性能を得るためには、分離処理（フィルタ処理）に用いる分離行列を求めるための逐次計算（学習計算）の回数が増えるので演算負荷が高くなり、その計算を実用的なプロセッサで行うと入力される混合音声信号の時間長に対して数倍の時間を要し、リアルタイム処理に適さないという問題点があった。特に、処理の開始後しばらくの時間帯や、音響環境の変化（音源の移動や音源の追加・変更等）があった場合等、学習計算開始時の分離行列（即ち、初期行列）がそのときの音源の状態に対応していない場合に、十分な音源分離性能を得る（学習結果を十分に収束させる）ためには分離行列の演算負荷がより高くなるという問題点があった。
また、前記初期行列がそのときの音源の状態に対応していない場合、分離行列の学習結果が局所解に陥ってしまい、学習計算が収束しても十分な音源分離性能が得られない場合があるという問題点があった。
従って、本発明は上記事情に鑑みてなされたものであり、その目的とするところは、ＩＣＡ法に基づくＢＳＳ方式による音源分離処理を行うに当たり、処理の開始後しばらくの時間帯や、音響環境の変化があった場合でも、リアルタイム処理が可能となるよう分離行列の演算負荷を抑えつつ、音源分離性能を極力高められる音源分離装置、音源分離プログラム及び音源分離方法を提供することにある。

上記目的を達成するために本発明は、所定の音響空間に複数の音源と複数の音声入力手段（マイクロホン）とが存在する状態で、その音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号に対し、所定の分離行列を用いた行列演算を施すことにより、前記音源信号に対応する複数の分離信号を逐次生成する逐次音源分離処理を実行する音源分離装置、或いはその処理をコンピュータに実行させるためのプログラム若しくはその処理を実行する音源分離方法に適用されるものである。
その特徴は、予め記憶手段に記憶された所定の複数の行列（以下、候補行列という）に基づいて、独立成分分析法に基づくブラインド音源分離方式（以下、ＩＣＡ−ＢＳＳ音源分離方式という）による前記分離行列の学習計算に用いるその分離行列の初期行列（初期値が設定された分離行列）を決定する初期行列決定処理と、これにより決定された前記初期行列と所定時間長分の複数の前記混合音声信号とを用いて、ＩＣＡ−ＢＳＳ音源分離方式により前記逐次音源分離処理で用いられる前記分離行列の学習計算を行う分離行列初期学習処理とを、各処理に対応する手段により実行する、或いはコンピュータに実行させる点にある。
前述したように、処理の開始後しばらくの時間帯や、音響環境の変化（音源の移動や音源の追加・変更等）があった場合、十分な音源分離性能を得るためには分離行列の演算負荷がより高くなるが、逆に言えば、音響環境の状態に対応した前記初期行列（学習計算開始時の初期値が設定された分離行列）を与えることができれば、分離行列の収束に要する逐次演算回数（学習回数）を抑えることができる。さらに、分離行列の学習結果が局所解に陥ることを回避できる。
従って、本発明のように、予め記憶された複数の候補行列に基づいて、その時々の状況に応じた初期行列を決定すれば、分離行列の収束に要する逐次演算回数を抑えることができるとともに、分離行列の学習結果が局所解に陥ることを回避できる。その結果、分離行列の演算負荷を抑えつつ、音源分離性能を極力高めることが可能となる。
例えば、予め記憶しておく複数の前記候補行列が、前記音源の条件（音源の配置や数、種類等）が異なる複数の音響空間各々における前記混合音声信号を用いてＩＣＡ−ＢＳＳ音源分離方式の学習計算により求められた分離行列であれば、予め考え得る音源条件各々に対応した初期行列を決定する上で好適である。

前記初期行列決定処理のより具体的な内容としては、複数の前記候補行列各々について、その候補行列と所定時間長分の複数の前記混合音声信号とを用いてＩＣＡ−ＢＳＳ音源分離方式による分離行列の学習計算を行うことにより仮の分離行列を算出する仮の分離行列算出処理を実行し、これにより算出された前記仮の分離行列各々について、その仮の分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する複数の仮の分離信号を生成する仮の音源分離処理と、その生成された複数の前記仮の分離信号相互の相関の程度を評価する第１の相関評価処理とを実行した上で、その第１の相関評価処理の評価結果に基づいて複数の前記候補行列若しくはその各々に対応する前記仮の分離行列の中から前記初期行列とするものを選択する（即ち、初期行列を決定する）ことが考えられる。
一般に、音源分離の分離性能が高い場合ほど、出力される複数の分離信号相互間の相関は低くなる。従って、前記第１の相関評価処理により最も分離信号相互間の相関が低い結果が得られたときの前記候補行列若しくはこれに対応する前記仮の分離行列を前記初期行列として選択すれば、そのときの音響空間の状態（音源の状態）に対応した（音源分離性能の高い）初期行列を決定できる。

ここで、前記仮の分離行列算出処理では、複数の前記候補行列各々について学習計算が行われるため、演算負荷低減のため簡易な学習計算に留めておく必要がある。例えば、前記仮の分離行列算出手段により用いられる前記混合音声信号の時間長が、前記分離行列算出手段により用いられる前記混合音声信号の時間長よりも短く設定されていれば演算負荷が軽くなり好適である。
また、所定時間長分の複数の前記混合音声信号を記憶する手段（混合音声信号記憶手段）を設け、前記仮の分離行列算出処理において、複数の前記候補行列各々について前記混合音声信号記憶手段に記憶された同じ前記混合音声信号を用いて前記仮の分離行列を算出すれば、相関程度の評価結果を比較する際の前提となる条件が揃い好適である。

また、前記初期行列決定処理及び前記分離行列初期学習処理は、少なくとも当該音源分離装置（或いは同プログラム、同方法）による音源分離処理の開始時に実行されるよう構成されることが考えられるが、その他、前記逐次音源分離処理により生成された複数の前記分離信号相互の相関の程度を評価する第２の相関評価処理を実行し、その評価結果に基づいて前記初期行列決定処理及び前記分離行列初期学習処理を実行させる分離行列初期化処理を行うことも考えられる。
前述したように、一般に、最初の学習計算により分離行列が得られた後は、その学習後の分離行列が、次回の学習計算における初期行列として設定される。
これに対し、音源分離処理の実行中に、前記第２の相関評価処理により分離信号相互間の相関の程度が所定のレベルより高いという結果が得られた場合は、音響空間の状態（音源の状態）が変化したことによって分離行列の学習計算が局所解に陥っている状況であると想定されるので、このような場合に、前記分離行列初期化処理を行えば、新たな音響空間の状態に対応した（音源分離性能の高い）初期行列を再決定できる。その結果、音響環境の変化があった場合等に分離行列の学習結果が局所解に陥ることを回避でき、音源分離性能を極力高めることが可能となる。

本発明によれば、処理の開始後しばらくの時間帯や、音響環境の変化（音源の移動や音源の追加・変更等）があった場合に、その時々の音響環境の状態に対応した初期行列（学習計算開始時の初期値が設定された分離行列）を与えることができるので、分離行列の収束に要する逐次演算回数を抑えることができるとともに、分離行列の学習結果が局所解に陥ることを回避できる。その結果、分離行列の演算負荷を抑えつつ、音源分離性能を極力高めることが可能となり、リアルタイム音源分離への適用に好適なものとなる。

以下添付図面を参照しながら、本発明の実施の形態について説明し、本発明の理解に供する。尚、以下の実施の形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格のものではない。
ここに、図１は本発明の実施形態に係る音源分離装置Ｘの概略構成を表すブロック図、図２は音源分離装置Ｘが実行する各処理の実行タイミングを表すタイムチャート、図３はＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離ユニットＺ１の概略構成を表すブロック図、図４はＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離ユニットＺ２の概略構成を表すブロック図である。

まず、本発明の実施形態について説明する前に、図３及び図４に示すブロック図を用いて、本発明の構成要素として適用可能な各種のＩＣＡ法に基づくブラインド音源分離方式（以下、ＩＣＡ−ＢＳＳ方式という）の音源分離装置の例について説明する。
なお、以下に示す音源分離処理或いはその処理を行う装置等は、いずれも所定の音響空間に複数の音源と複数のマイクロホン（音声入力手段）とが存在する状態で、そのマイクロホン各々を通じて逐次入力される前記音源各々からの個別の音声信号（以下、音源信号という）が重畳された複数の混合音声信号に対し、所定の分離行列を用いた行列演算を施すことによって前記音源信号に対応する複数の分離信号（音源信号を同定した信号）を生成する逐次音源分離処理或いはその処理を行う装置等に関するものである。

図３は、ＩＣＡ法の一種である時間領域独立成分分析法（time-domain independent component analysis法、以下、ＴＤＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理を行う従来の音源分ユニットＺ１の概略構成を表すブロック図である。なお、本処理の詳細は、非特許文献１や非特許文献２等に示されている。
音源分離ユニットＺ１は、分離フィルタ処理部１１により、２つの音源１、２からの音源信号Ｓ1(ｔ)、Ｓ2(ｔ)（音源ごとの音声信号）を２つのマイクロホン（音声入力手段）１１１、１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)、ｘ２(ｔ)について、分離行列Ｗ(ｚ)によりフィルタ処理を施すことによって音源分離を行う。
図３には、２つの音源１、２からの音源信号Ｓ1(ｔ)、Ｓ2(ｔ)（個別音声信号）を２つのマイクロホン（音声入力手段）１１１、１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)、ｘ２(ｔ)に基づいて音源分離を行う例について示しているが、２チャンネル以上であっても同様である。ＩＣＡ法に基づくＢＳＳ方式による音源分離の場合、（入力される混合音声信号のチャンネル数ｎ（即ち、マイクロホンの数））≧（音源の数ｍ）であればよい。
複数のマイクロホン１１１、１１２各々で集音された各混合音声信号ｘ１(ｔ)、ｘ２(ｔ)には、複数音源からの音源信号が重畳されている。以下、各混合音声信号ｘ１(ｔ)、ｘ２(ｔ)を総称してｘ(ｔ)と表す。この混合音声信号ｘ(ｔ)は音源信号Ｓ(ｔ)の時間的空間的な畳み込み信号として表現され、次の（１）式のように表される。

ＴＤＩＣＡによる音源分離の理論は、この音源信号Ｓ(ｔ)のそれぞれの音源同士が統計的に独立であることを利用すると、ｘ(ｔ)がわかればＳ(ｔ)を推測することができ、従って、音源を分離することができるという発想に基づく理論である。
ここで、当該音源分離処理に用いる分離行列をＷ(ｚ)とすれば、分離信号（即ち、同定信号）ｙ(ｔ)は、次の（２）式で表される。

ここで、Ｗ(ｚ)は、出力ｙ(ｔ)から逐次計算（学習計算）により求められる。また、分離信号は、チャンネルの数だけ得られる。
なお、音源合成処理はこのＷ(ｚ)に関する情報により、逆演算処理に相当する配列を形成し、これを用いて逆演算を行えばよい。また、分離行列Ｗ(ｚ)の逐次計算を行う際の分離行列の初期値（初期行列）は、予め定められたものが設定される。
このようなＩＣＡ法に基づくＢＳＳ方式による音源分離を行うことにより、例えば、人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から、歌声の音源信号と楽器の音源信号とが分離（同定）される。
ここで、（２）式は、次の（３）式のように書き換えて表現できる。

そして、（３）式における分離フィルタ（分離行列）Ｗ(ｎ)は、次の（４）式により逐次計算される。即ち、前回（ｊ）の出力ｙ(ｔ)を（４）式に逐次適用することより、今回（ｊ＋１）のＷ(ｎ)を求める。

次に、図４に示すブロック図を用いて、ＩＣＡ法の一種であるＦＤＩＣＡ法（Frequency-Domain ICA）に基づく音源分離処理を行う従来の音源分離ユニットＺ２について説明する。
ＦＤＩＣＡ法では、まず、入力された混合音声信号ｘ(ｔ)について、ＳＴ−ＤＦＴ処理部１３によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換（Short Time Discrete Fourier Transform、以下、ＳＴ−ＤＦＴ処理という）を行い、観測信号の短時間分析を行う。そして、そのＳＴ−ＤＦＴ処理後の各チャンネルの信号（各周波数成分の信号）について、分離フィルタ処理部１１ｆにより分離行列Ｗ(ｆ)に基づく分離フィルタ処理を施すことによって音源分離（音源信号の同定）を行う。ここでｆを周波数ビン、ｍを分析フレーム番号とすると、分離信号（同定信号）ｙ(ｆ、ｍ)は、次の（５）式のように表すことができる。

ここで、分離フィルタＷ(ｆ)の更新式は、例えば次の（６）式のように表すことができる。

このＦＤＩＣＡ法によれば、音源分離処理が各狭帯域における瞬時混合問題として取り扱われ、比較的簡単かつ安定に分離フィルタ（分離行列）Ｗ(ｆ)を更新することができる。

以下、図１に示すブロック図を用いて、本発明の実施形態に係る音源分離装置Ｘについて説明する。
音源分離装置Ｘは、ある音響空間に複数の音源１、２と複数のマイクロホン１１１、１１２（音声入力手段）とが存在する状態で、そのマイクロホン１１１、１１２各々を通じて逐次入力される音源１、２各々からの音源信号（個別の音声信号）が重畳された複数の混合音声信号ｘi(ｔ)から、音源信号（個別音声信号）を分離（同定）した分離信号（即ち、音源信号に対応した同定信号）ｙを逐次生成してスピーカ（音声出力手段）に対してリアルタイム出力するものである。この音源分離装置Ｘは、例えば、ハンズフリー電話機やテレビ会議の収音装置、カーナビケーションシステムの音声入力装置等への利用が可能なものである。
図１に示すように、音源分離装置Ｘは、分離演算処理部１１、学習演算部１２、入力信号バッファ２１、入力選択スイッチ２２、出力選択スイッチ２３、分離信号バッファ２４、相関評価部２５、初期行列決定部２６及び候補行列メモリ２７等を具備して構成されている。ここで、学習演算処理部１２及び分離演算処理部１１は、併せて音源分離ユニット１０を構成している。
また、音源分離ユニット１０、相関評価部２５及び初期行列決定部２６の各構成要素は、それぞれＤＳＰ（Digital Signal Processor）又はＣＰＵ及びその周辺装置（ＲＯＭ、ＲＡＭ等）と、そのＤＳＰ若しくはＣＰＵにより実行されるプログラムとにより構成されたものや、或いは、１つのＣＰＵ及びその周辺装置を有するコンピュータにより、各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また、所定のコンピュータに各構成要素の処理を実行させる音源分離プログラムとして提供することも考えられる。
ここで、図１には、入力される混合音声信号ｘi(ｔ)のチャンネル数（即ち、マイクロホンの数）が２つである例について示しているが、（チャンネル数ｎ）≧（音源の数ｍ）であれば、３チャンネル以上であっても同様の構成により実現できる。

候補行列メモリ２７は、ＲＯＭ等の不揮発性の記憶手段により構成されるものであり、音源分離ユニット１０で用いられる分離行列Ｗと同じ構造を有する行列であって所定の値（行列の構成要素の値）が設定された行列（以下、候補行列Ｗ0iという）が予め複数記憶された記憶手段である。
この候補行列メモリ２７に予め記憶される複数の前記候補行列Ｗ0iは、音源１、２の条件が異なる複数の音響空間各々における混合音声信号ｘi(ｔ)を用いて、音源分離ユニット１０によるＩＣＡ−ＢＳＳ音源分離処理の学習計算により求められた分離行列Ｗである。
ここで、音源の条件としては、例えば、音源１、２各々のマイクロホン１１１、１１２に対する相対位置（設置方向や距離）、音源１、２の種類や数等が考えられる。より具体的な一例としては、マイクロホン１１１、１１２の正面方向に対する音源１、２各々の設置方向（設置位置の角度）θ１、θ２の組合せ（θ１、θ２）＝（０°、６０°）、（６０°、６０°）、（６０°、０°）である場合等の複数の音源条件各々について、音源分離ユニット１０によるＩＣＡ−ＢＳＳ音源分離処理の学習計算により求められた分離行列Ｗを候補行列Ｗ0iとして候補行列メモリ２７に予め記憶させる。
初期行列決定部２６は、予め候補行列メモリ２７に記憶された複数の前記候補行列Ｗ0iに基づいて、音源分離ユニット１０でのＩＣＡ−ＢＳＳ音源分離処理（独立成分分析法に基づくブラインド音源分離方式の処理）による分離行列Ｗの学習計算に用いられるその初期行列を決定する処理（以下、初期行列決定処理という）を実行するものである（初期行列決定手段の一例）。
分離演算処理部１１は、マイクロホン１１１、１１２各々を通じて逐次入力される各混合音声信号ｘi(ｔ)に対し、分離行列Ｗを用いた行列演算を施すことにより音源信号Ｓi(ｔ)各々に対応する複数の分離信号ｙi(ｔ)を逐次生成する音源分離処理（逐次音源分離処理）を実行するものである（逐次音源分離手段の一例）。

初期行列決定部２６は、予め候補行列メモリ２７に記憶された複数の前記候補行列Ｗ0iに基づいて、ＩＣＡ−ＢＳＳ音源分離方式による分離行列Ｗの学習計算（学習演算部１２が実行する学習計算）に用いられるその分離行列Ｗの初期行列を決定する処理（以下、初期行列決定処理という）を実行するものであある（初期行列決定手段の一例）。
学習演算部１２は、予め定められた時間長分の複数の混合音声信号ｘi(ｔ)を用いて、ＩＣＡ−ＢＳＳ音源分離処理における分離行列Ｗの学習計算を行うことにより、分離演算処理部１１で用いられる分離行列Ｗを順次算出するものである。なお、混合音声信号ｘi(ｔ)は、所定周期でサンプリングされてデジタル化されるので、混合音声信号ｘi(ｔ)の時間長を規定することは、デジタル化された混合音声信号ｘi(ｔ)のサンプル数を規定することと同義である。
ここで、前記初期行列決定部２６により初期行列が決定された場合には、この学習演算部１２は、その決定された初期行列と、所定時間長分の複数の前記混合音声信号ｘi(ｔ)とを用いて、分離演算処理部１１（逐次音源分離手段の一例）で用いられる分離行列Wの学習計算を実行する（分離行列初期学習手段の一例）。その他の場合は、前回の学習計算により得られた学習後の分離行列Ｗが、今回の初期行列として用いられる。
ここで、音源分離ユニット１０における分離行列算出（学習計算）及びその分離行列を用いた音源分離の処理（行列演算処理）としては、例えば、図３に示したＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理や、図４に示したＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理等が採用される。

相関評価部２５は、分離演算処理部１１により生成された複数の分離信号ｙi(ｔ)相互の相関の程度を評価する処理を実行するものである。
本実施形態では、初期行列決定部２６による初期行列の決定処理、及びその初期行列に基づく分離行列Ｗの学習計算（学習演算部１２の初期処理）は、当該音源分離装置Ｘによる音源分離処理の開始時と、相関評価部２５による分離信号ｙi(ｔ)相互間の相関の程度が所定レベル以上である（相関が高い）場合、即ち、十分に音源分離がなされていないと評価された場合に実行される。
入力信号バッファ２１は、所定時間長分の各混合音声信号ｘi(ｔ)を一時記憶するバッファメモリ（混合音声信号記憶手段の一例）であり、分離信号バッファ２４は、所定時間長分の分離信号ｙi(ｔ)を一時記憶するバッファメモリである。
入力選択スイッチ２２は、分離演算処理部１１に入力させる（分離演算処理の対象とする）混合音声信号を、マイクロホン１１１、１１２から逐次入力されるリアルタイムの混合音声信号とするか、或いは入力信号バッファ２１に一時蓄積された混合音声信号とするかを切り替えるスイッチである。その切り替え制御（信号選択の制御）は、初期行列決定部２６により行われる。
出力選択スイッチ２３は、分離演算処理部１１により生成される分離信号ｙi(t)を外部出力信号とするか、マイクロホン１１１、１１２により入力された混合音声信号ｘi(t)そのものを外部出力信号とするかを切り替えるスイッチである。その切り替え制御も初期行列決定部２６により行われる。

次に、図２に示すタイムチャートを用いて、音源分離装置Ｘにおける音源分離処理の手順について説明する。ここで、音源分離装置Ｘは、ハンズフリー電話機等の他の装置に組み込まれ、その装置が備える操作ボタン等の操作部の操作状況が不図示の制御部により取得される。そして、その操作部から所定の処理開始操作がなされたこと（開始命令）が検知された場合に音源分離処理を開始し、所定の処理終了操作がなされたこと（終了命令）が検知された場合に音源分離処理を終了するものとする。
まず、前記開始指令が検知されると、入力信号バッファ２１により、所定時間長Ｔｗ１分の入力信号（混合音声信号ｘi(ｔ)）の一時蓄積が開始され、以後、入力信号バッファ２１には、常に最新の時間長Ｔｗ１分の入力信号が蓄積（一時記憶）された状態となる。以下、時間長Ｔｗ１のことを、第１設定時間長Ｔｗ１という。

一方、処理の開始（時刻Ｔ１の時点）後、入力信号バッファ２１に前記第１設定時間長Ｔｗ１よりも短い所定の時間長Ｔｗ２（＜Ｔｗ１）分の入力信号が蓄積された時点（時刻Ｔ１１の時点）から、学習演算部１２による仮学習処理Ｐｒ１が開始される。以下、時間長Ｔｗ２のことを、第２設定時間長Ｔｗ２という。
この仮学習処理Ｐｒ１では、学習演算部１２（仮の分離行列算出手段の一例）により、候補行列メモリ２７に予め記憶された複数の前記候補行列Ｗ0i各々について、その候補行列Ｗ0iを初期行列として用いるとともに、入力信号バッファ２１に蓄積された前記第２設定時間長Ｔｗ２分の複数の入力信号（混合音声信号ｘi(ｔ)）を学習用信号として用いることにより、ＩＣＡ−ＢＳＳ音源分離方式による分離行列Ｗの学習計算が行われ、その学習計算の結果として得られる分離行列Ｗが仮の分離行列として算出される（仮の分離行列算出処理の一例、図中の時刻Ｔ１１〜Ｔ１４の時間帯）。
また、本実施形態では、複数の前記候補行列Ｗ0i各々について、入力信号バッファ（混合音声信号記憶手段）に記憶された同じ混合音声信号ｘi(ｔ)が、仮学習処理Ｐｒ１における学習用信号として用いられ、前記仮の分離行列が算出される。

また、学習演算部１２による仮学習処理Ｐｒ１と並行して、前記仮の分離行列が算出されるごとに、分離演算処理部１１（仮の音源分離手段の一例）により、その仮の分離行列各々を用いた仮分離処理Ｐｒ２が実行される。
この仮分離処理Ｐｒ２では、入力信号バッファ２１に蓄積された前記第２設定時間長Ｔｗ２分の複数の入力信号（混合音声信号ｘi(ｔ)）に対し、前記仮の分離行列各々についてこれを用いた行列演算が行われ、これにより前記音源信号Ｓi(ｔ)に対応する複数の仮の分離信号が生成される（図中の時刻Ｔ１２〜Ｔ１５の時間帯）。これにより、予め記憶された全ての前記候補行列Ｗ0i各々について、それを初期行列とした学習計算により得られる前記仮の分離行列を用いた音源分離処理の結果として、前記仮の分離信号が得られる。
この仮分離処理Ｐｒ２及び後述する正規分離処理Ｐｒ５により生成される分離信号（前記仮の分離信号を含む）は、分離信号バッファ２４により、所定時間長分（例えば、前記第１設定時間長Ｔｗ１分）だけ一時蓄積が開始され、以後、分離信号バッファ２４には、常に最新の所定時間長分の分離信号が蓄積（一時記憶）された状態となる。
また、仮分離処理Ｐｒ２の実行中は、入力信号バッファ２１に蓄積された信号が分離演算処理部１１に入力されるように、入力選択スイッチ２２が設定（制御）される。さらに、この仮分離処理Ｐｒ２の実行中は、その時点の音源信号とは全く関係のない音声信号が分離信号として生成されるので、分離信号の代わりに入力信号（混合音声信号ｘi(ｔ)）がそのまま外部出力されるように、出力選択スイッチ２３が設定（制御）される。

次に、相関評価部２５及び初期行列決定部２６により初期行列決定処理Ｐｒ３が実行される（図中の時刻Ｔ１５〜Ｔ１６の時間帯）。
この初期行列決定処理Ｐｒ３では、まず、相関評価部２５（第１の相関評価手段の一例）により、前記仮の分離行列各々について、分離演算処理部１１（仮の音源分離手段の一例）の仮分離処理Ｐｒ２により生成された複数の前記仮の分離信号相互の相関の程度が評価され、初期行列決定部２６により、その評価結果に基づいて、複数の前記候補行列Ｗ0iの中から前記初期行列とするものが選択される（初期行列決定手段の一例）。或いは、相関の評価結果に基づいて、複数の候補行列Ｗ0i各々に対応する前記仮の分離行列の中から前記初期行列とするものが選択されるよう構成してもよい。
例えば、相関評価部２５により、周知の相関関数に基づき前記仮の分離信号相互間の相関係数が求められ、最も小さい相関係数が得られるとき（最も低い相関が得られるとき）の前記仮の分離行列、或いはこれに対応する前記候補行列Ｗ0iが学習計算に用いる初期行列として選択（決定）される。
なお、相関評価部２５による相関評価に用いられる分離信号ｙi(ｔ)は、分離信号バッファ２４に蓄積された信号である。

次に、処理開始後の最初の前記第１設定時間長Ｔｗ１分の入力信号Ｓｉ１（混合音声信号ｘi(ｔ)）が入力信号バッファ２１に蓄積された時点（時刻Ｔ２の時点）から、学習演算部１２により、リアルタイム音源分離処理に用いられる分離行列Ｗを算出する処理である正規学習処理Ｐｒ４が実行される。図中、１回の正規学習処理Ｐｒ４に要する時間をＴｄ（＜Ｔｗ１）で表す。
第１回目の正規学習処理Ｐｒ４では、初期行列決定処理Ｐｒ３により決定された初期行列が分離行列Ｗの初期値として採用され、さらに最初の前記第１設定時間長Ｔｗ１分の入力信号Ｓｉ１（混合音声信号）が学習信号として用いられることにより、学習演算処理部１１（分離行列初期学習手段の一例）によってＩＣＡ−ＢＳＳ音源分離方式による分離行列Ｗの学習計算が行われ、その学習計算の結果として分離行列Ｗが算出される（分離行列初期学習処理の一例、図中のＴ２〜Ｔ２１の時間帯）。
その後、新たな前記第１設定時間長Ｔｗ１分の入力信号Ｓｉ２、Ｓｉ３、…（混合音声信号ｘi(ｔ)）が入力信号バッファ２１に蓄積されるごとに、学習演算部１２により、その時間長Ｔｗ１分の入力信号Ｓｉ２、Ｓｉ３、…各々が学習信号として用いられることにより、順次、正規学習処理Ｐｒ４が実行される（図中のＴ３〜Ｔ３１、Ｔ４〜Ｔ４１、…の各時間帯）。その際、前回の学習計算により得られた学習後の分離行列Ｗが初期行列として引き継がれる。

また、学習演算部１２による初回の正規学習処理Ｐｒ４が終了した時点（時刻T２１の時点）から、分離演算処理部１１により、マイクロホン１１１、１１２を通じて逐次入力される入力信号（混合音声信号ｘi（ｔ））に対し、正規学習処理Ｐｒ４により順次算出（学習）される最新の分離行列Ｗを用いた行列演算が施されることによって外部出力用の（正規の）分離信号ｙi(ｔ)が生成される正規分離処理Ｐｒ５が逐次実行される（逐次音源分離処理に相当）。
この正規分離処理Ｐｒ５の実行中は、マイクロホン１１１、１１２を通じて逐次入力される入力信号が分離演算処理部１１に入力されるように、入力選択スイッチ２２が設定（制御）される。さらに、この正規分離処理Ｐｒ５の実行中は、分離委演算処理部１１によりリアルタイムで生成される分離信号ｙi(ｔ)が外部出力されるように、出力選択スイッチ２３が設定（制御）される。
なお、正規分離処理Ｐｒ５で用いられる分離行列Ｗは、前記第１設定時間長Ｔｗ１分の入力信号に基づく正規学習処理Ｐｒ４が実行されるごとに、新たな学習により得られた最新の分離行列に更新される。

また、正規分離処理Ｐｒ５と並行して、相関評価部２５による分離信号評価処理Ｐｒ６が定期的に実行される（図中の時刻Ｔ３１〜Ｔ３２、Ｔ４１〜…の時間帯）。例えば、正規分離処理Ｐｒ５（逐次音源分離処理）により前記第１設定時間長Ｔｗ１分の分離信号ｙi(ｔ)が生成されるごとに（即ち、分離行列Ｗが正規学習処理Ｐｒ４によって更新されるごとに）、当該分離信号評価処理Ｐｒ６が実行される。
この分離信号評価処理Ｐｒ６では、相関評価部２５により、分離演算処理部１１による正規分離処理Ｐｒ５（逐次音源分離処理）により生成された複数の分離信号ｙi(ｔ)相互の相関係数が算出され（相関の程度の評価の一例）、その相関係数が予め設定された設定レベルを超える相関を示すか否かの判別がなされる（第２の相関評価手段の一例）。
なお、相関評価部２５による分離信号評価処理Ｐｒ６に用いられる分離信号ｙi(ｔ)は、分離信号バッファ２４に蓄積された信号である。
そして、この分離信号評価処理Ｐｒ６により、分離信号ｙi(ｔ)相互の相関係数が前記設定レベルを超えない程度の相関であると判別された場合には、そのまま継続して正規分離処理Ｐｒ６及び定期的な正規学習処理Ｐｒ４が実行される。
一方、分離信号評価処理Ｐｒ６により、分離信号ｙi(ｔ)相互の相関係数が前記設定レベルを超える相関を示すと判別された場合には、図２には示していないが、入力信号バッファ２１に蓄積されているその時点の最新の前記第２設定時間長Ｔｗ２分の入力信号に基づいて、前述した仮学習処理Ｐｒ１、仮分離処理Ｐｒ２及び初期行列決定処理Ｐｒ３が改めて実行される。さらに、前記学習演算部１２における分離行列Ｗが、改めて実行された初期行列決定処理Ｐｒ３により得られた初期行列に初期化され、この初期行列に基づく第１回目からの正規学習処理Ｐｒ５（分離行列初期学習手段の処理の一例）が実行されるよう、初期行列決定部２６により制御される（分離行列初期化手段の一例）。

以上に示したように、音源分離装置Ｘでは、音源分離処理の開始時、及び十分な音源分離性能が得られなくなったとき（分離信号相互間の相関が高くなったとき）に、仮学習処理Ｐｒ１、仮分離処理Ｐｒ２及び初期行列決定処理Ｐｒ３により、予め記憶された複数の候補行列Ｗ0i（予め考えられ得る複数の音響環境に対応した分離行列の候補）に基づいて、そのときの音響環境に対応した初期行列が決定される。その結果、分離行列Ｗの収束に要する逐次演算回数を抑えることができる。従って、分離行列Ｗの演算負荷を抑えつつ、音源分離性能を極力高めることが可能となる。特に、分離信号相互間の相関の評価結果に基づいて分離行列の初期化がなされるので、音響環境の変化があった場合等に分離行列の学習結果が局所解に陥ることを回避でき好適である。
また、仮学習処理Ｐｒ１では、複数の候補行列Ｗ0i各々について学習計算が行われるが、その学習に用いられる入力信号（混合音声信号）の時間長Ｔｗ２（第２設定時間長）が、通常の正規学習処理Ｐｒ４で用いられる入力信号の時間長Ｔｗ１（第１設定時間長）よりもごく短く設定されているので、演算負荷が軽くなり好適である。ここで、仮学習処理Ｐｒ１の演算負荷を抑える方法としては、入力信号の時間長Ｔｗ２を短く設定することの他、学習計算における繰り返し計算回数を正規学習処理Ｐｒ４のときよりも少ない回数に設定すること等も考えられる。
また、入力信号（混合音声信号）を一時記憶する入力信号バッファ２１を設け、仮学習処理Ｐｒ１（仮の分離行列算出処理）及び仮分離処理Ｐｒ２において、候補行列Ｗ0i各々について同じ入力信号（図２における時刻Ｔ１から時間長Ｔｗ２分の入力信号）を用いて学習計算及び分離処理が行われるので、相関程度の評価結果を比較する際の前提となる条件が揃い好適である。もちろん、用いる入力信号の時間が多少ずれたとしても、有効な結果は得られる。

本発明は、音源分離装置への利用が可能である。

本発明の実施形態に係る音源分離装置Ｘの概略構成を表すブロック図。音源分離装置Ｘが実行する各処理の実行タイミングを表すタイムチャート。ＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離ユニットＺ１の概略構成を表すブロック図。ＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離ユニットＺ２の概略構成を表すブロック図。

符号の説明

Ｘ…本発明の実施形態に係る音源分離装置
１、２…音源
１０…音源分離ユニット
１１…分離演算処理部
１２…学習演算部
２１…入力信号バッファ
２２…入力選択スイッチ
２３…出力選択スイッチ
２４…分離信号バッファ
２５…相関評価部
２６…初期行列決定部
２７…候補行列メモリ
１１１、１１２…マイクロホン
Ｐｒ１…仮学習処理
Ｐｒ２…仮分離処理
Ｐｒ３…初期行列決定処理
Ｐｒ４…正規学習処理
Ｐｒ５…正規分離処理
Ｐｒ６…分離信号評価処理

Claims

所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号に対し、所定の分離行列を用いた行列演算を施すことにより前記音源信号に対応する複数の分離信号を逐次生成する逐次音源分離手段を備えた音源分離装置であって、
予め記憶手段に記憶された所定の複数の候補行列に基づいて、独立成分分析法に基づくブラインド音源分離方式による前記分離行列の学習計算に用いる該分離行列の初期行列を決定する初期行列決定手段と、
前記初期行列決定手段により決定された前記初期行列と所定時間長分の複数の前記混合音声信号とを用いて、独立成分分析法に基づくブラインド音源分離方式により前記逐次音源分離手段で用いられる前記分離行列の学習計算を行う分離行列初期学習手段と、
を具備してなることを特徴とする音源分離装置。
複数の前記候補行列が、前記音源の条件が異なる複数の音響空間各々における前記混合音声信号を用いて独立成分分析法に基づくブラインド音源分離方式の学習計算により求められた分離行列である請求項１に記載の音源分離装置。
複数の前記候補行列各々について、該候補行列と所定時間長分の複数の前記混合音声信号とを用いて独立成分分析法に基づくブラインド音源分離方式による分離行列の学習計算を行うことにより仮の分離行列を算出する仮の分離行列算出手段と、
前記仮の分離行列各々について、該仮の分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する複数の仮の分離信号を生成する仮の音源分離手段と、
前記仮の分離行列各々について、前記仮の音源分離手段により生成された複数の前記仮の分離信号相互の相関の程度を評価する第１の相関評価手段と、を具備し、
前記初期行列決定手段が、前記第１の相関評価手段の評価結果に基づいて複数の前記候補行列若しくはその各々に対応する前記仮の分離行列の中から前記初期行列とするものを選択する手段である請求項１又は２のいずれかに記載の音源分離装置。
前記仮の分離行列算出手段により用いられる前記混合音声信号の時間長が、前記分離行列算出手段により用いられる前記混合音声信号の時間長よりも短く設定されてなる請求項３に記載の音源分離装置。
所定時間長分の複数の前記混合音声信号を記憶する混合音声信号記憶手段を具備し、
前記仮の分離行列算出手段が、複数の前記候補行列各々について前記混合音声信号記憶手段に記憶された同じ前記混合音声信号を用いて前記仮の分離行列を算出してなる請求項３又は４のいずれかに記載の音源分離装置。
前記初期行列決定手段及び前記分離行列初期学習手段による処理が、少なくとも当該音源分離装置による音源分離処理の開始時に実行されてなる請求項１〜５のいずれかに記載の音源分離装置。
前記逐次音源分離手段により生成された複数の前記分離信号相互の相関の程度を評価する第２の相関評価手段と、
前記第２の相関評価手段の評価結果に基づいて前記初期行列決定手段及び前記分離行列初期学習手段による処理を実行させる分離行列初期化手段と、
を具備してなる請求項１〜６のいずれかに記載の音源分離装置。
所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号に対し、所定の分離行列を用いた行列演算を施すことにより前記音源信号に対応する複数の分離信号を逐次生成する逐次音源分離処理をコンピュータに実行させるための音源分離プログラムであって、
予め記憶手段に記憶された所定の複数の候補行列に基づいて、独立成分分析法に基づくブラインド音源分離方式による前記分離行列の学習計算に用いる該分離行列の初期行列を決定する初期行列決定処理と、
前記初期行列決定処理により決定された前記初期行列と所定時間長分の複数の前記混合音声信号とを用いて、独立成分分析法に基づくブラインド音源分離方式により前記逐次音源分離処理で用いられる前記分離行列の学習計算を行う分離行列初期学習処理と、
をコンピュータに実行させるための音源分離プログラム。
所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号に対し、所定の分離行列を用いた行列演算を施すことにより前記音源信号に対応する複数の分離信号を逐次生成する逐次音源分離処理を実行する音源分離方法であって、
予め記憶手段に記憶された所定の複数の候補行列に基づいて、独立成分分析法に基づくブラインド音源分離方式による前記分離行列の学習計算に用いる該分離行列の初期行列を決定する初期行列決定処理と、
前記初期行列決定処理により決定された前記初期行列と所定時間長分の複数の前記混合音声信号とを用いて、独立成分分析法に基づくブラインド音源分離方式により前記逐次音源分離処理で用いられる前記分離行列の学習計算を行う分離行列初期学習処理と、
を実行してなることを特徴とする音源分離方法。