JP2007033804A

JP2007033804A - 音源分離装置，音源分離プログラム及び音源分離方法

Info

Publication number: JP2007033804A
Application number: JP2005216132A
Authority: JP
Inventors: Toshiro Yamashita; 俊郎山下; Takayuki Hiekata; 孝之稗方
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2005-07-26
Filing date: 2005-07-26
Publication date: 2007-02-08

Abstract

【課題】複数の音源信号が重畳された混合音声信号における各音源信号の定位の状態にかかわらず高い音源分離性能が得られ，さらに，処理負荷を軽減できること。
【解決手段】出力信号ｙi(ｔ)を求めるＦＤＩＣＡ音源分離処理部１１により，Ｌ及びＲの各チャンネルの信号ｘ1(ｔ)，ｘ2(ｔ)を予め周波数領域に離散フーリエ変換した信号ｘ1(ｆ)，ｘ2(ｆ)に対して音源分離処理を行うＦＤＩＣＡ法に基づく音源分離処理を行う。また，離散フーリエ変換後の周波数領域における複数の各チャンネルの信号ｘ1(ｔ)，ｘ2(ｔ)を２分岐してその一方を用いて分離行列Ｗ(ｆ)の逐次更新計算（学習計算）を行い，これと並行して，その他方を遅延させた信号ｘ1'(ｔ)，ｘ2'(ｔ)に対して前記逐次更新計算により求められた前記分離行列Ｗ(ｆ)に基づく分離処理を行う。
【選択図】図１

Description

本発明は，複数の音源からの音源信号が各々重畳された複数の混合音声信号からその音源信号のいずれかに対応する分離信号を生成（同定）して出力信号とする音源分離装置，音源分離プログラム及び音源分離方法に関するものである。

一般に，ステレオ信号におけるＬチャンネル信号及びＲチャンネル信号の各々は，楽器の音と歌手の声，或いは二人のデュエット歌手各々の声のように，複数の音源信号が重畳された混合音声信号となっている。
従来，このようなＬチャンネル信号及びＲチャンネル信号に基づいていずれかの音源信号に対応する音声信号（分離信号）を得たい場合，例えば，歌手の声の信号（ボーカル信号）を除いて楽器の音の信号のみをカラオケ信号として出力（ボーカルキャンセル）したい，或いはボーカル信号のみを抽出したい場合，Ｌチャンネル信号とＲチャンネル信号の中央（センター）に定位している信号をボーカル信号として除去する，或いは強調する処理が採用されてきた。
しかしながら，そのような処理では，ボーカル信号の定位がＬチャンネル若しくはＲチャンネルのいずれかにずれている場合，得られた音声信号が不自然な音声信号となる。これに対し，特許文献１には，ボーカル信号のわずかな定位のずれの調整を，適応フィルタによる処理やボーカル信号とは全く異なる周波数帯域（例えば，低周波数帯域）の信号成分を周波数選択フィルタ等により素通りさせる処理により，不自然さのない音声信号を生成する技術が示されている。

一方，所定の音響空間に複数の音源と複数のマイク（音声入力手段）とが存在する場合，その複数のマイクごとに，複数の音源各々からの個別の音声信号（以下，音源信号という）が重畳された音声信号（以下，混合音声信号という）が取得される。このようにして取得（入力）された複数の前記混合音声信号のみに基づいて，前記音源信号各々を同定（分離）する音源分離処理の方式は，ブラインド音源分離方式（Blind Source Separation方式，以下，ＢＳＳ方式という）と呼ばれる。
さらに，ＢＳＳ方式の音源分離処理の１つに，独立成分分析法（Independent Component Analysis，以下，ＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理がある。このＩＣＡ法に基づくＢＳＳ方式は，複数のマイクを通じて入力される複数の前記混合音声信号（時系列の音声信号）において，前記音源信号どうしが統計的に独立であることを利用して所定の分離行列（逆混合行列）を最適化し，入力された複数の前記混合音声信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定（音源分離）を行う処理方式である。その際，分離行列の最適化は，ある時点で設定されている分離行列を用いたフィルタ処理により同定（分離）された信号（分離信号）に基づいて，逐次更新計算（学習計算）により以降に用いる分離行列を計算することによって行われる。このようなＩＣＡ法に基づくＢＳＳ方式の音源分離処理は，例えば，非特許文献１や非特許文献２等に詳説されている。

実開平５−１５４００号公報猿渡洋「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告，vol.EA2001-7，pp.49-56，April 2001. 高谷智哉他「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告，vol.US2002-87，EA2002-108，January 2003.

しかしながら，特許文献１に示される技術によっても，二人のデュエット歌手各々を音源とする場合のように，除去或いは強調（抽出）したい音源信号がＬチャンネルとＲチャンネルとの中央付近に定位しているとは限らない場合には，いずれかの音源信号のみを抽出する（他の音源信号を除去する）ことができないという問題点があった。
また，非特許文献１や非特許文献２等に示されるように，音源信号の独立性に着目したＩＣＡ法に基づくＢＳＳ方式による音源分離処理は，時間領域の混合音声信号を時間領域のままで処理すると，その処理に要する演算負荷が非常に高いという問題点があった。
また，ＩＣＡ法に基づくＢＳＳ方式による音源分離処理は，分離行列の収束状態（学習状態）が十分でない状況では，音源分離性能が劣るという問題点もあった。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，複数の音源信号が重畳された混合音声信号における各音源信号の定位の状態にかかわらず高い音源分離性能が得られ，さらに，処理負荷を軽減できる音源分離装置，音源分離プログラム及び音源分離方法を提供することにある。

上記目的を達成するために本発明は，複数の音源からの音源信号が各々重畳された複数の混合音声信号から前記音源信号のいずれかに対応する分離信号を生成して出力信号とする音源分離装置や音源分離方法，或いはそのような処理をコンピュータに実行させるための音源分離プログラムに適用されるものであり，時間領域における複数の前記混合音声信号に離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換し，その周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応する前記分離信号を生成するとともに，その分離信号に基づいて前記分離行列の逐次更新計算を行う独立成分分析法（ＩＣＡ法）に基づくブラインド音源分離方式（ＢＳＳ方式）の音源分離処理（以下，ＦＤＩＣＡ音源分離処理という）を行い，その音源分離処理において前記逐次更新計算で求められた前記分離行列に基づく分離処理を行うことにより生成された前記分離信号のいずれかを選択するとともに，その選択した前記分離信号に逆離散フーリエ変換を施して前記出力信号とするものである。ここで，前記混合音声信号は，例えば，ステレオ音声信号におけるＬチャンネル信号とＲチャンネル信号である。
このように，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理（以下，ＩＣＡ−ＢＳＳ音源分離処理という）を行うことにより，混合音声信号における各音源信号の定位の状態にかかわらず高い音源分離性能が得られる。さらに，前記混合音声信号を予め周波数領域に変換した上でＩＣＡ−ＢＳＳ音源分離処理を行うことにより，時間領域における前記混合音声信号に対して同処理を行う場合に比べてはるかに処理負荷を軽減できる。

ここで，前記ＦＤＩＣＡ音源分離処理における前記分離行列の初期値（初期行列）を設定する際，その初期値に基づいて前記混合音声信号に対する分離処理を施した場合に，前記分離信号として前記Ｌチャンネル信号及び前記Ｒチャンネル信号の和信号と差信号とが得られるように初期行列を設定すれば有効である。これにより，多くの場合に，各チャンネルの主となる音源は各チャンネルに対応するマイクロホンの前方（正面）にあるため，その前方にある音源からの音声とその他の音声との分離性能をある程度確保でき，前記分離行列の初期値を全くランダムな値にする場合に比べれば，前記分離行列を早く（少ない逐次計算回数で）収束させることができる。また，このことは，各チャンネルの主となる音源が，各チャンネルに対応するマイクロホンの前方中心（正面）から少し外れた位置にある場合であっても同様にいえることである。
また，前記周波数領域における複数の混合音声信号を２分岐した分岐信号の一方を所定時間遅延させ，前記ＦＤＩＣＡ音源分離処理において，前記出力信号としての選択対象とならない分離信号（第１の分離信号）を生成しつつ，その分離信号に基づいて前記分離行列を逐次更新計算する処理（分離行列逐次更新計算処理）を行い，その一方で，前記分岐信号の一方について前記遅延がなされた信号に対し，前記第１の分離信号を生成しつつ計算された前記分離行列に基づく分離処理を施すことにより前記出力信号として選択する対象となる分離信号（第２の分離信号）を生成する処理（選択対象分離信号生成処理）を行うことが考えられる。
これにより，遅延処理中の前記混合音声信号（前記分岐信号の一方）と同じ信号（前記分岐信号の他方）を用いて前記分離行列の逐次更新計算（学習計算）がなされ，そのような学習済みの（十分に収束した）前記分離行列を用いて，その学習（逐次更新計算）に用いた前記混合音声信号と同じ信号（前記分岐信号の一方が遅延された信号）について音源分離処理が行われる。その結果，処理を開始してからしばらくの間や，音響環境が大きく変化した場合等の非定常な状態においても，学習の進んだ前記分離行列に基づく分離処理が行われるので，常に高い分離性能が得られる。しかも，過去の信号（前記分岐信号の一方の遅延信号）に対する学習済みの前記分離行列に基づく音源分離処理と，新たな信号（前記分岐信号の他方）に基づく前記分離行列の逐次更新計算（学習計算）とを並行して行うことが可能となる。その結果，処理開始時に出力信号が発生するまで遅延時間が生じるものの，その後は高い音源分離性能を確保しつつリアルタイム処理が可能となる。

本発明によれば，出力する音源分離信号（出力信号）を求める処理として，分離行列が十分に学習されていれば高い音源分離性能を発揮するＩＣＡ−ＢＳＳ音源分離処理を採用することにより，混合音声信号における各音源信号の定位の状態にかかわらず高い音源分離性能が得られる。しかも，前記混合音声信号を予め周波数領域に離散フーリエ変換した上でＩＣＡ−ＢＳＳ音源分離処理を行うことにより，時間領域における前記混合音声信号に対して同処理を行う場合に比べてはるかに処理負荷を軽減できる。
また，離散フーリエ変換後の周波数領域における複数の混合音声信号を２分岐してその一方を用いて前記分離行列の逐次更新計算（学習計算）を行い，その他方を遅延させた信号に対して前記逐次更新計算により求められた前記分離行列に基づく分離処理を行うことにより，処理を開始してからしばらくの間や，音響環境が大きく変化した場合等の非定常な状態においても，学習の進んだ前記分離行列に基づく分離処理が行われるので，常に高い分離性能が得られる。しかも，過去の信号（前記分岐信号の一方について遅延された信号）に対する学習済みの前記分離行列に基づく音源分離処理と，新たな信号（前記分岐信号の他方）に基づく前記分離行列の逐次更新計算（学習計算）とを並行して行うことができるので，高い音源分離性能を確保しつつリアルタイム処理が可能となる。

以下添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の実施形態に係る音源分離装置Ｘの概略構成を表すブロック図，図２はＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離手段Ｚ１の概略構成を表すブロック図，図３はＦＤＩＣＡ法に基づく音源分離処理を行う音源分離手段Ｚ２の概略構成を表すブロック図である。

まず，本発明の実施形態について説明する前に，図２及び図３に示すブロック図を用いて，時間領域ＩＣＡ法に基づくブラインド音源分離方式（以下，ＩＣＡ−ＢＳＳ方式という）の音源分離手段と，前記音源分離装置Ｘを構成する周波数領域ＩＣＡ法に基づくブラインド音源分離方式との各々について説明する。
なお，以下に示す音源分離処理或いはその処理を行う装置等は，いずれも所定の音響空間に複数の音源と複数のマイクロホン（音声入力手段）とが存在する状態で，そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号（以下，音源信号という）が重畳された複数の混合音声信号から，各音源信号を分離（同定）した分離信号を生成して出力信号とする音源分離処理或いはその処理を行う装置等に関するものである。

図２は，時間領域独立成分分析法（time-domain independent component analysis法，以下，ＴＤＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離手段Ｚ１の概略構成を表すブロック図である。なお，本処理の詳細は，非特許文献１や非特許文献２等に示されている。
音源分離手段Ｚ１は，分離フィルタ処理部１１ｔにより，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（音源ごとの音声信号）を２つのマイクロホン（音声入力手段）１１１，１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)について，分離行列Ｗ(ｚ)によりフィルタ処理を施すことによって音源分離を行う。
図２には，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（個別音声信号）を２つのマイクロホン（音声入力手段）１１１，１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)に基づいて音源分離を行う例について示しているが，２チャンネル以上であっても同様である。ＩＣＡ法に基づくＢＳＳ方式による音源分離の場合，（入力される混合音声信号のチャンネル数ｎ（即ち，マイクロホンの数））≧（音源の数ｍ）であればよい。
複数のマイクロホン１１１，１１２各々で集音された各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)には，複数音源からの音源信号が重畳されている。以下，各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)を総称してｘ(ｔ)と表す。この混合音声信号ｘ(ｔ)は音源信号Ｓ(ｔ)の時間的空間的な畳み込み信号として表現され，次の（１）式のように表される。

ＴＤＩＣＡによる音源分離の理論は，この音源信号Ｓ(ｔ)のそれぞれの音源同士が統計的に独立であることを利用すると，ｘ(ｔ)が分かればＳ(ｔ)を推測することができ，従って，音源を分離することができるという発想に基づく理論である。
ここで，当該音源分離処理に用いる分離行列をＷ(ｚ)とすれば，分離信号（即ち，同定信号）ｙ(ｔ)は，次の（２）式で表される。

ここで，Ｗ(ｚ)は，出力ｙ(ｔ)から逐次更新計算（学習計算）により求められる。また，分離信号は，チャンネルの数だけ得られる。
なお，音源合成処理はこのＷ(ｚ)に関する情報により，逆演算処理に相当する配列を形成し，これを用いて逆演算を行えばよい。また，分離行列Ｗ(ｚ)の逐次更新計算を行う際の分離行列の初期値（初期行列）は，予め定められたものが設定される。
このようなＩＣＡ法に基づくＢＳＳ方式による音源分離を行うことにより，例えば，人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から，歌声の音源信号と楽器の音源信号とが分離（同定）される。
ここで，（２）式は，次の（３）式のように書き換えて表現できる。

そして，（３）式における分離フィルタ（分離行列）Ｗ(ｎ)は，次の（４）式により逐次更新計算される。即ち，前回（ｊ）の出力ｙ(ｔ)を（４）式に逐次適用することより，今回（ｊ＋１）のＷ(ｎ)を求める。

次に，図３に示すブロック図を用いて，ＦＤＩＣＡ法（Frequency-Domain ICA）に基づく音源分離処理を行う従来の音源分離手段Ｚ２について説明する。
ＦＤＩＣＡ法では，まず，入力された混合音声信号ｘ(ｔ)各々について，ＤＦＴ処理部２１，２２によって所定の周期ごとに区分された信号毎，例えばフレーム毎に離散フーリエ変換（Discrete Fourier Transform，以下，ＤＦＴ処理という）を行い，観測信号の時間分析を行う。そして，そのＤＦＴ処理後の各チャンネルの信号（各周波数成分の信号）について，分離フィルタ処理部１１ｆにより分離行列Ｗ(ｆ)に基づく分離フィルタ処理を施すことによって音源分離（音源信号の同定）を行う。ここでｆを周波数ビン，ｍを分析フレーム番号とすると，分離信号（同定信号）ｙ(ｆ，ｍ)は，次の（５）式のように表すことができる。

ここで，分離フィルタＷ(ｆ)の更新式は，例えば次の（６）式のように表すことができる。

このＦＤＩＣＡ法によれば，音源分離処理が各狭帯域における瞬時混合問題として取り扱われ，比較的低い処理負荷（演算負荷）で，かつ安定に分離フィルタ（分離行列）Ｗ(ｆ)を更新することができる。
なお，前記分離行列Ｗの収束度合いを表す評価値ε（指標）としては，例えば，次の（７）式により表される評価値εを用いることが考えられる。この評価値εは，分離行列Ｗの更新に用いる前述した（４）式における右辺第２項で，Ｗ^[j](ｄ)に乗算されている係数である。

この評価値εは，学習計算の進行度合い（収束度合い）を表すスカラ量としてよく用いられ，０に近づくほど分離行列の収束度合い（学習度合い）が進んでいると評価できる指標である。

以下，図１に示すブロック図を用いて，本発明の実施形態に係る音源分離装置Ｘについて説明する。
音源分離装置Ｘは，ステレオ音声信号におけるＬチャンネル信号ｘ1(ｔ)及びＲチャンネル信号ｘ2(ｔ)から，Ｌチャンネル信号及びＲチャンネル信号各々（混合音声信号の一例）に重畳されている複数の音源信号（図３におけるＳ1(ｔ)及びＳ2(ｔ)に相当）のいずれかに対応する分離信号を生成して出力信号ｙi(ｔ)とするものである。
ここで，Ｌチャンネル信号及びＲチャンネル信号は，２つの音源からの音源信号（例えば，歌手の声の信号と楽器の信号等）が各々重畳された混合音声信号である。
図１に示すように，音源分離装置Ｘは，前記ＤＦＴ処理部２１，２２と，ＦＤＩＣＡ音源分離処理部１１と，信号遅延バッファ部３０と，信号選択部４０と，ＩＤＦＴ処理部５０とを備えている。
音源分離装置Ｘにおける各構成要素１１，２１，２２，３０，４０，５０は，それぞれＤＳＰ（Digital Signal Processor）又はＣＰＵ及びその周辺装置（ＲＯＭ，ＲＡＭ等）と，そのＤＳＰ若しくはＣＰＵにより実行されるプログラムとにより構成されたものや，或いは，１つのＣＰＵ及びその周辺装置を有するコンピュータにより，各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また，所定のコンピュータに各構成要素の処理を実行させる音源分離プログラムとして提供することも考えられる。

前記ＤＦＴ処理部２１，２２は，時間領域における混合音声信号である２つのＬチャンネル信号ｘ1(ｔ)及びＲチャンネル信号ｘ2(ｔ)各々に離散フーリエ変換処理を施して周波数領域におけるＬチャンネル信号ｘ1(ｆ)及びＲチャンネル信号ｘ2(ｆ)へ変換するものである（離散フーリエ変換処理手段の一例）。
前記ＦＤＩＣＡ音源分離処理部１１は，独立成分分析法（ＩＣＡ法）に基づくブラインド音源分離方式（ＢＳＳ方式）の音源分離処理を行うものであり，前記周波数領域におけるＬ及びＲの各チャンネル信号ｘ1(ｆ)，ｘ2(ｆ)に対し，所定の分離行列Ｗ(ｆ)に基づく分離処理を施すことにより，各チャンネルについて（混合音声信号ごとに）前記音源信号のいずれかに対応する前記分離信号ｙ1'(ｆ)，ｙ2'(ｆ)を生成するとともに，その分離信号ｙ1'(ｆ)，ｙ2'(ｆ)に基づいて前記分離行列の逐次更新計算を行う。
前記信号遅延バッファ３０は，前記ＤＦＴ処理部２１，２２による離散フーリエ変換処理により周波数領域における信号に変換されたＬ及びＲの各チャンネル信号ｘ1(ｆ)，ｘ2(ｆ)を２分岐した分岐信号の一方をバッファリングすることにより所定時間遅延させるものである（遅延手段の一例）。

ここで，前記ＦＤＩＣＡ音源分離処理部１１は，分離行列逐次更新計算部１１ｆａと選択対象分離信号生成部１１ｆｂとを備えている。
前記分離行列逐次更新計算部１１ｆａは，前記信号遅延バッファ３０による遅延がなされないＬ及びＲの各チャンネル信号ｘ1(ｆ)，ｘ2(ｆ)（分岐信号の他方）に対し，前記分離行列Ｗ(ｆ)に基づく分離処理により前記分離信号ｙ1'(ｆ)，ｙ2'(ｆ)を生成しつつ，その分離信号ｙ1'(ｆ)，ｙ2'(ｆ)に基づいて前記分離行列Ｗ(ｆ)の逐次更新計算（学習計算）を行うものである。その内容は，図３に示した前記ＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離手段Ｚ２と同じである。この分離処理により生成される前記分離信号ｙ1'(ｆ)，ｙ2'(ｆ)は，後段の前記信号選択部４０（信号選択手段の一例）による選択対象とならない（第１の分離信号の一例）。ここで，前記分離行列逐次更新計算部１１ｆａにおける前記分離行列Ｗ(ｆ)の初期値（初期分離行列）は，予め定められたものを用いる。
一方，前記選択対象分離信号生成部１１ｆｂは，周波数領域におけるＬ及びＲの各チャンネル信号ｘ1(ｆ)，ｘ2(ｆ)（分岐信号の一方）を前記信号遅延バッファ（遅延手段）により遅延された信号ｘ1'(ｆ)，ｘ2'(ｆ)に対し，前記分離行列逐次更新計算部１１ｆａにより計算された前記分離行列Ｗ(ｆ)に基づく分離処理を施すことにより，後段の前記信号選択部４０による選択対象となる第２の分離信号ｙ1(ｆ)，ｙ2(ｆ)を生成するものである。その内容は，図３に示した前記ＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離手段Ｚ２から，前記分離行列の逐次更新計算を行う部分を除いた残りの部分と同じである。

前記信号選択部４０は，前記ＦＤＩＣＡ音源分離処理部１１において，前記選択対象分離信号生成部１１ｆｂにより生成された前記分離信号，即ち，前記分離行列逐次更新計算部１１ｆａによる逐次更新計算で求められた前記分離行列Ｗ(ｆ)に基づく分離処理を行うことにより生成された前記分離信号ｙ1(ｆ)，ｙ2(ｆ)のいずれかを選択するものである。
前記ＩＤＦＴ処理部５０は，前記信号選択部４０により選択された前記分離信号（ｙi(ｆ)＝ｙ1(ｆ)又はｙ2(ｆ)）に逆離散フーリエ変換を施して時間領域の信号に戻し，これを出力信号ｙi(ｔ)とするものである（逆離散フーリエ変換手段の一例）。
ここで，前記信号遅延バッファ３０による信号の遅延時間は，前記分離行列逐次更新計算部１１ｆａにより，十分に収束した前記分離行列Ｗ(ｆ)を得るために必要な回数の逐次更新計算を行うのに要する時間とする。
また，前記ＦＤＩＣＡ音源分離処理部１１は，処理を開始してから前記信号遅延バッファ３０による遅延時間が経過した後は，過去の各チャンネルの信号ｘ1'(ｆ)，ｘ2'(ｆ)に対する学習済みの前記分離行列に基づく音源分離処理，即ち，前記選択対象分離信号生成部１１ｆｂの処理と，新たな信号ｘ1(ｆ)，ｘ2(ｆ)に基づく前記分離行列の逐次更新計算，即ち，前記分離行列逐次更新計算部１１ｆａの処理とを並行して実行する。

以上示したように，音源分離装置Ｘにおいて，出力信号ｙi(ｔ)を求める前記ＦＤＩＣＡ音源分離処理部１１は，分離行列Ｗ(ｆ)が十分に学習されていれば高い音源分離性能を発揮するＩＣＡ−ＢＳＳ音源分離処理を行うものであるので，ステレオ音声信号のＬチャンネル信号及びＲチャンネル信号（混合音声信号）における各音源信号の定位の状態にかかわらず高い音源分離性能が得られる。しかも，前記ＦＤＩＣＡ音源分離処理部１１は，各チャンネルの信号を予め周波数領域に離散フーリエ変換した上で音源分離処理を行うＦＤＩＣＡ法に基づく音源分離処理を行うものであるので，時間領域における音声信号に対する音源分離処理を行う従来のＴＤＩＣＡ法に基づく音源分離処理に比べてはるかに処理負荷を軽減できる。
また，離散フーリエ変換後の周波数領域における複数の混合音声信号を２分岐してその一方を用いて前記分離行列Ｗ(ｆ)の逐次更新計算（学習計算）を行い，その他方を遅延させた信号に対して前記逐次更新計算により求められた前記分離行列Ｗ(ｆ)に基づく分離処理を行うことにより，処理を開始してからしばらくの間や，音響環境が大きく変化した場合等の非定常な状態においても，学習の進んだ前記分離行列Ｗ(ｆ)に基づく分離処理が行われる。その結果，常に高い分離性能が得られる。しかも，前記ＦＤＩＣＡ音源分離処理部１１は，過去の信号に対する学習済みの前記分離行列に基づく音源分離処理と，新たな信号に基づく前記分離行列の逐次更新計算（学習計算）とを並行して行うので，高い音源分離性能を確保しつつリアルタイム処理が可能となる。

以上示した実施形態では，チャンネル数が２つであるステレオ信号のＬチャンネル信号及びＲチャンネル信号を混合音声信号の例として示したが，（入力される混合音声信号のチャンネル数ｎ）≧（音源の数ｍ）であれば，３チャンネル以上であっても同様の構成により実現できる。
また，図１に示した前記ＦＤＩＣＡ音源分離処理部１１は，前記選択対象分離信号生成部１１ｆｂと，前記分離行列逐次更新計算部１１ｆａの処理とを備えるものであるが，特にリアルタイム処理を望まない場合等においては，前記選択対象分離信号生成部１１ｆｂと前記信号遅延バッファ部３０とを省略し，前記分離行列逐次更新計算部１１ｆａにより生成された前記分離信号ｙ1'(ｆ)，ｙ2'(ｆ)を，前記信号選択部４０による選択対象とするよう構成されたものも考えられる。
また，前記分離行列逐次更新計算部１１ｆａにおける前記分離行列Ｗ(ｆ)の初期値（初期分離行列）としては，予め定められたものを用いる他，Ｌ及びＲの各チャンネル信号ｘ1(ｆ)，ｘ2(ｆ)に基づいて初期分離行列を設定する所定の初期分離行列設定部を設けることも考えられる。この場合，例えば，その初期分離行列に基づいて処理開始後の一定期間に入力されるＬ及びＲの各チャンネル信号ｘ1(ｆ)，ｘ2(ｆ)（混合音声信号）に対する分離処理を施したときに，前記分離信号ｙ1'(ｆ)，ｙ2'(ｆ)としてＬ及びＲの各チャンネル信号ｘ1(ｆ)，ｘ2(ｆ)の和信号と差信号とが得られるように前記初期分離行列を設定すること等が考えられる（初期分離行列設定手段の一例）。

本発明は，音源分離装置への利用が可能である。

本発明の実施形態に係る音源分離装置Ｘの概略構成を表すブロック図。ＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離手段Ｚ１の概略構成を表すブロック図。ＦＤＩＣＡ法に基づく音源分離処理を行う音源分離手段Ｚ２の概略構成を表すブロック図。

符号の説明

Ｘ…本発明の実施形態に係る音源分離装置
１，２…音源
１１…ＦＤＩＣＡ音源分離処理部
１１ｔ，１１ｆ…分離フィルタ処理部
１１ｆａ…分離行列逐次更新計算部
１１ｆｂ…選択対象分離信号生成部
２１，２２…ＤＦＴ処理部
３０…信号遅延バッファ
４０…信号選択部
５０…ＩＤＦＴ処理部

Claims

複数の音源からの音源信号が各々重畳された複数の混合音声信号から前記音源信号のいずれかに対応する分離信号を生成して出力信号とする音源分離装置であって，
時間領域における複数の前記混合音声信号に離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する離散フーリエ変換手段と，
独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行うものであって前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応する前記分離信号を生成するとともに，該分離信号に基づいて前記分離行列の逐次更新計算を行うＦＤＩＣＡ音源分離手段と，
前記ＦＤＩＣＡ音源分離手段において前記逐次更新計算で求められた前記分離行列に基づく分離処理を行うことにより生成された前記分離信号のいずれかを選択する信号選択手段と，
前記信号選択手段により選択された前記分離信号に逆離散フーリエ変換を施して前記出力信号とする逆離散フーリエ変換手段と，
を具備してなることを特徴とする音源分離装置。
前記混合音声信号が，ステレオ音声信号におけるＬチャンネル信号とＲチャンネル信号である請求項１に記載の音源分離装置。
前記ＦＤＩＣＡ音源分離手段における前記分離行列の初期値を，該初期値に基づいて前記混合音声信号に対する分離処理を施した場合に前記分離信号として前記Ｌチャンネル信号及び前記Ｒチャンネル信号の和信号と差信号とが得られるよう設定する初期分離行列設定手段を具備してなる請求項２に記載の音源分離装置。
前記周波数領域における複数の混合音声信号を２分岐した分岐信号の一方を所定時間遅延させる遅延手段を具備し，
前記ＦＤＩＣＡ音源分離手段が，
前記遅延手段による遅延がなされない前記分岐信号の他方に対し前記分離行列に基づく分離処理により前記信号選択手段による選択対象とならない第１の分離信号を生成しつつ該第１の分離信号に基づいて前記分離行列の逐次更新計算を行う分離行列逐次更新計算手段と，
前記分岐信号の一方を前記遅延手段により遅延された信号に対し前記分離行列逐次更新計算手段により計算された前記分離行列に基づく分離処理を施すことにより前記信号選択手段による選択対象となる第２の分離信号を生成する選択対象分離信号生成手段と，
を備えてなることを特徴とする請求項１〜３のいずれかに記載の音源分離装置。
複数の音源からの音源信号が各々重畳された複数の混合音声信号から前記音源信号のいずれかに対応する分離信号を生成して出力信号とする音源分離処理をコンピュータに実行させるための音源分離プログラムであって，
時間領域における複数の前記混合音声信号に離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する離散フーリエ変換処理と，
独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行うものであって前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応する前記分離信号を生成するとともに，該分離信号に基づいて前記分離行列の逐次更新計算を行うＦＤＩＣＡ音源分離処理と，
前記ＦＤＩＣＡ音源分離処理において前記逐次更新計算で求められた前記分離行列に基づく分離処理を行うことにより生成された前記分離信号のいずれかを選択する信号選択処理と，
前記信号選択処理により選択された前記分離信号に逆離散フーリエ変換を施して前記出力信号とする逆離散フーリエ変換処理と，
をコンピュータに実行させるための音源分離プログラム。
複数の音源からの音源信号が各々重畳された複数の混合音声信号から前記音源信号のいずれかに対応する分離信号を生成して出力信号とする音源分離方法であって，
時間領域における複数の前記混合音声信号に離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する離散フーリエ変換工程と，
独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行うものであって前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応する前記分離信号を生成するとともに，該分離信号に基づいて前記分離行列の逐次更新計算を行うＦＤＩＣＡ音源分離工程と，
前記ＦＤＩＣＡ音源分離工程において前記逐次更新計算で求められた前記分離行列に基づく分離処理を行うことにより生成された前記分離信号のいずれかを選択する信号選択工程と，
前記信号選択工程により選択された前記分離信号に逆離散フーリエ変換を施して前記出力信号とする逆離散フーリエ変換工程と，
を有してなることを特徴とする音源分離方法。