JP2007215163A

JP2007215163A - 音源分離装置，音源分離装置用のプログラム及び音源分離方法

Info

Publication number: JP2007215163A
Application number: JP2006354613A
Authority: JP
Inventors: Yohei Ikeda; 陽平池田; Takayuki Hiekata; 孝之稗方; Koji Morita; 孝司森田; Hiroshi Hashimoto; 裕志橋本
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2006-01-12
Filing date: 2006-12-28
Publication date: 2007-08-23

Abstract

【課題】ＩＣＡ法に基づくＢＳＳ方式による音源分離処理を行うに当たり、マイクロホンに対する音源の位置が移動する場合でも、特定の音源に対応する分離信号を特定の出力端を通じて出力させることができる（音源の追跡ができる）こと。
【解決手段】周波数解析部２４により、第１出力チャンネルＯｐ１ｉ各々について、これを通じて出力される所定時間長分ごとの分離信号ｙ1iに対して周波数解析計算を行い、これにより各分離信号ｙ1iの周波数の特徴量を算出し、さらにその特徴量の変遷の自動評価により、分離信号ｙ1iの入れ替わり状態を判別する。さらに、出力バッファ２２により、分離信号ｙ1iの入れ替わり判別の結果に基づいて、第１出力チャンネルＯｐ１ｉを通じて出力されるいずれの分離信号ｙ1iを、第２出力チャンネルＯｐ２ｉのいずれを通じて出力するかを切り替える。
【選択図】図１

Description

本発明は，所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力され，前記音源各々からの音源信号が重畳された複数の混合音声信号に対し，独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記音源信号に対応する複数の分離信号を逐次生成する音源分離装置，その音源分離装置用のプログラム及び音源分離方法に関するものである。

所定の音響空間に複数の音源と複数のマイクロホン（音声入力手段）とが存在する場合，その複数のマイクロホンごとに，複数の音源各々からの個別音声信号（以下，音源信号という）が重畳された音声信号（以下，混合音声信号という）が入力される。このようにして入力された複数の前記混合音声信号のみに基づいて，前記音源信号各々を同定（分離）する音源分離処理の方式は，ブラインド音源分離方式（Blind Source Separation方式，以下，ＢＳＳ方式という）と呼ばれる。
さらに，ＢＳＳ方式の音源分離処理の１つに，独立成分分析法（Independent Component Analysis，以下，ＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理がある。このＩＣＡ法に基づくＢＳＳ方式は，複数のマイクロホンを通じて入力される複数の前記混合音声信号（時系列の音声信号）において，前記音源信号どうしが統計的に独立であることを利用して所定の分離行列（逆混合行列）を最適化し，入力された複数の前記混合音声信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定（音源分離）を行う処理方式である。その際，分離行列の最適化は，ある時点で設定されている分離行列を用いたフィルタ処理により同定（分離）された信号（分離信号）に基づいて，逐次計算（学習計算）により以降に用いる分離行列を計算することによって行われる。
ここで，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理によれば，分離信号各々は，混合音声信号の入力数（＝マイクロホンの数）と同じ数の出力端（出力チャンネルといってもよい）各々を通じて出力される。このようなＩＣＡ法に基づくＢＳＳ方式の音源分離処理は，例えば，非特許文献１や非特許文献２等に詳説されている。
一方，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理においては，学習計算によって分離行列が得られるが，その分離行列に基づいて，音源の存在する方向（ＤＯＡ：Direction of Arrivals）を推定する各種の技術が従来より知られている。例えば，非特許文献３や非特許文献４には，前記分離行列にステアリングベクトルを乗じることによってＤＯＡを推定する技術が示されている。
特開２００４−１４５１７２号公報猿渡洋，「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告，vol.EA2001-7，pp.49-56，April 2001. 高谷智哉他，「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」，電子情報通信学会技術報告，vol.US2002-87，EA2002-108，January 2003. 西川剛樹他，「ＩＣＡとビームフォーミングを統合した高速収束アルゴリズムに基づく３音源以上のブラインド音源分離」，日本音響学会講演論文集，1-6-13，March 2005. Saruwatari Hiroshi他，"Blind source separation for speech based on fast-convergence algorithm with ICA and beamforming"，EUROSPEECH 2001，pp2603-2606.

ところで，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理においては，マイクロホンに対する音源の位置が移動することにより，マイクロホンに対する複数の音源の存在方向（左右方向）が入れ替わると，これに応じて前記出力端（出力チャンネル）各々に出力される分離信号も入れ替わる。
しかしながら，従来のＩＣＡ法に基づくＢＳＳ方式の音源分離処理においては，マイクロホンに対する音源の位置が移動する場合，特定の音源を追跡すること，即ち，特定の音源に対応する分離信号が必ず特定の出力端を通じて出力されるようにすることができないという問題点があった。
また，音源の存在方向の入れ替わりが生じる過程において，隣り合う２つのマイクロホンの集音範囲の一方に，元々それぞれの集音範囲に１つずつ存在していた２つの音源が偏って存在する状態（以下，音源の偏在状態という）が発生することが多い。ＩＣＡ法に基づくＢＳＳ音源分離方式による音源分離処理において，複数のマイクロホンの集音範囲それぞれと複数の音源の位置とが１対１に対応している場合には高い音源分離性能が得られるが，前記音源の偏在状態が発生すると，適正な音源分離ができなくなるという問題が生じることが知られている。前記音源の偏在状態において，ＩＣＡ法におけるパーミュテーション問題を実用的な演算負荷で解く手法が実現されていないためである。なお，パーミュテーション問題については，特許文献１の段落０００８等に示されている。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，ＩＣＡ法に基づくＢＳＳ方式による音源分離処理を行うに当たり，マイクロホンに対する音源の位置が移動する場合でも，特定の音源に対応する分離信号を特定の出力端を通じて出力させることができ（音源の追跡ができる），さらに，複数の音源が１つのマイクロホンの集音範囲に偏在して適正な音源分離が行えなくなる状況を極力回避できる音源分離装置，音源分離装置用のプログラム及び音源分離方法を提供することにある。

上記目的を達成するために本発明は，所定の音響空間に複数の音源と複数の音声入力手段（マイクロホン）とが存在する状態で，その音声入力手段各々を通じて逐次入力される信号であって前記音源各々からの音源信号が重畳された信号である複数の混合音声信号に対し，独立成分分析法に基づくブラインド音源分離方式（以下，ＩＣＡ−ＢＳＳ音源分離方式という）による音源分離処理を施すことによって前記音源信号に対応する複数の分離信号（音源の信号を同定した信号）を逐次生成するとともに，その複数の分離信号各々を複数の出力端（以下，第１の出力端という）各々を通じて出力する手段（以下，逐次音源分離手段という）を備えた音源分離装置，又はそのような音源分離装置が有するプロセッサに所定の手順を実行させる音源分離装置用のプログラム（コンピュータプログラム），或いは同手順を有する音源分離方法として構成されるものである。
その特徴は，前記第１の出力端各々について，所定時間長分ごとの前記分離信号の特徴量を算出して所定の記憶手段に一時記憶させる特徴量算出・記録手順と，その特徴量算出・記録手順により一時記憶された前記第１の出力端各々についての前記特徴量の変遷を自動的に評価することにより，前記第１の出力端各々を通じて出力される前記分離信号の入れ替わり状態を判別する信号入れ替わり判別手順と，その信号入れ替わり判別手順による判別結果に基づいて，前記第１の出力端を通じて出力されるいずれの前記分離信号を，前記第１の出力端とは異なる１又は複数の他の出力端（以下，第２の出力端という）のいずれを通じて出力するかを切り替える出力切替手順と，を実行する各手段を具備する装置，又はこれら各手順を前記プロセッサに実行させる音源分離装置用のプログラム，或いはこれら各手順を有する音源分離方法として構成されることである。
なお，ここに示す所定時間長分ごとの前記分離信号は，必ずしも逐次生成される全ての分離信号を所定時間長分ごとに区分したものとは限らない。例えば，前記所定時間長よりも長い所定の周期ごとに，或いは特徴量の計算が終わるごとに，その時点から生成される前記所定時間長分の分離信号等，任意の時点からの所定時間長分の分離信号を含む概念である。

上記の構成によれば，音声入力手段に対する音源の位置が移動することにより，音声入力手段に対する複数の音源の存在方向（左右方向）が入れ替わると，前記第１の出力端から出力される分離信号の特徴量に変化（入れ替わり）が生じ，その入れ替わりの状態に応じて前記第１出力端から前記第２出力端への分離信号の伝送経路が切り替えられる。
ここで，前記特徴量算出・記録手順としては，例えば，所定時間長分ごとの前記分離信号の周波数解析計算に基づいて周波数の特徴量を算出するものが考えられる。
また，前記特徴量算出・記録手順のより具体的な例としては，所定時間長分ごとの前記分離信号のパワースペクトルにおけるピーク周波数を前記特徴量として算出することが考えられ，この場合，前記信号入れ替わり判別手順において，過去の前記ピーク周波数と現在の前記ピーク周波数との比較により前記分離信号の入れ替わり状態を判別することが考えられる。

また，本発明に係る音源分離装置が，さらに次の（１）〜（３）に示す各構成要素を備えればなお好適である。
（１）前記独立成分分析法に基づくブラインド音源分離方式（前記ＩＣＡ−ＢＳＳ音源分離方式）による音源分離処理において実行される学習計算によって算出される分離行列に基づいて，前記複数の音声入力手段のうち予め定められた隣り合う２つの音声入力手段（以下，特定音声入力手段という）の集音範囲それぞれに存在する２つの前記音源（以下，特定音源という）それぞれの存在する方向を推定する特定音源方向推定手段。
（２）前記複数の音声入力手段全体の向きを調節する音声入力手段向き調節機構。
（３）前記音声入力手段向き調節機構を制御することにより，前記特定音声入力手段それぞれの向きの中間方向を，前記特定音源方向推定手段により推定された前記特定音源それぞれの存在する方向の中間の方向に向ける音声入力手段向き制御手段。
本発明に係る音源分離装置が，前記（１）〜（３）に示す各構成要素をさらに備えていれば，音源が移動し得る状況においてある１つの音源を追跡したい場合に，追跡対象となる音源及びその隣の音源（２つの前記特定音源）が近接して前記音源の偏在状態が発生することを極力回避できる。
なお，前記分離行列に基づいて音源の方向（ＤＯＡ）を推定する手法は，従来周知の手法を採用すればよい。

ところで，前記音源の偏在状態が発生せず，２つの前記特定音声入力手段の集音範囲内それぞれに前記特定音源が１つずつ存在する状態が維持されても，前記特定音声入力手段に対する前記特定音源の存在方向が大きく変化すると，前記学習計算における前記分離行列の収束に長時間を要したり，音源分離性能が悪化したりする問題が生じる。
一方，前記特定音源の方向を所定の基準方向に固定した状態（以下，基準状態という）で前記ＩＣＡ−ＢＳＳ音源分離方式）による音源分離処理を実行し，前記学習計算を十分に行うことにより，そのときの前記特定音源の方向について十分に収束した前記分離行列（以下，基準分離行列という）が得られる。そして，前記基準状態或いはそれに近い状態である場合に，前記基準分離行列が前記学習計算に用いる前記分離行列の初期値（初期行列）として用いられると，前記学習計算の所要時間が比較的短くても（逐次計算の回数が少なくても）分離性能の高い新たな分離行列が得られる。
そこで，本発明に係る音源分離装置が，前記（１）〜（３）に示す各構成要素に加え，次の（４）及び（５）に示す各構成要素をさらに備えていればなお好適である。
ここで，前記特定音源の存在する方向を表す複数の基準方向と前記分離行列の初期値である初期行列の複数の候補との組合せを表す初期行列候補情報が予め所定の記憶手段に記憶されているものとする。なお，この初期行列候補情報における前記初期行列の複数の候補は，複数種類の前記基準状態それぞれにおいて前記学習計算によって得られる前記基準分離行列に相当する。
（４）前記特定音源方向推定手段による推定結果と前記音声入力手段向き制御手段の制御による前記複数の音声入力手段の向きの調節量とに基づいて，前記音声入力手段向き制御手段による制御後の前記特定音声入力手段の向きに対する前記特定音源の存在する方向を算出する制御後特定音源方向算出手段。
（５）前記制御後特定音源方向算出手段の算出結果に基づいて，前記初期行列候補情報における前記初期行列の複数の候補の中から次の前記学習計算に用いる前記初期行列を選択する初期行列選択手段。
より具体的には，前記初期行列選択手段は，前記初期行列候補情報の中から，前記音声入力手段向き制御手段による制御後における前記特定音源の存在する方向（以下，向き制御後特定音源方向という）に最も近い前記基準方向を特定し，特定したその基準方向に対応する前記初期行列の候補を選択して次の前記学習計算に用いる前記初期行列として設定する。例えば，前記向き制御後特定音源方向の変化（例えば，前回の算出値と今回の算出値の差）が予め設定された角度以上変化した場合等に，前記初期行列選択手段による前記初期行列の選択を行うこと等が考えられる。
これにより，前記特定音声入力手段に対する前記特定音源の存在方向が大きく変化した場合でも，その変化に応じて適切な前記初期行列が選択（設定）されるため，前記学習計算における前記分離行列の収束に長時間を要したり，音源分離性能が悪化したりする問題を回避できる。

本発明によれば，音声入力手段（マイクロホン）に対する音源の位置が移動することにより，音声入力手段に対する複数の音源の存在方向（左右方向）が入れ替わると，前記第１の出力端から出力される分離信号各々の特徴量に入れ替わりが生じ，その入れ替わりの状態に応じて前記第１出力端から前記第２出力端への分離信号の伝送経路が切り替えられる。その結果，特定の音源に対応する分離信号を，特定の出力端（前記第２出力端）を通じて出力させることができる。即ち，音源の追跡が可能となる。
また，２つの前記特定音声入力手段それぞれの向きの中間方向を，前記特定音源それぞれの存在する方向（推定方向）の中間の方向に向ける制御を行うことにより，前記音源の偏在状態が発生して適正な音源分離が行えなくなる状況を極力回避できる。さらに，前記音声入力手段の向き制御を行った後の前記特定音源の存在する方向に応じて，次の前記学習計算に用いる前記初期行列を選択することにより，前記特定音声入力手段に対する前記特定音源の存在方向が大きく変化した場合でも，前記学習計算における前記分離行列の収束に長時間を要したり，音源分離性能が悪化したりする問題を回避でき，高い音源分離性能を維持できる。

以下添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の実施形態に係る音源分離装置Ｘの概略構成を表すブロック図，図２は音源分離装置Ｘが備える出力バッファの動作を説明する図，図３は音源分離装置Ｘが実行する出力チャンネル切り替え処理の手順を表すフローチャート，図４はＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離ユニットＺ１の概略構成を表すブロック図，図５はＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離ユニットＺ２の概略構成を表すブロック図，図６は音源分離装置Ｘの応用例である音源分離装置Ｘ’の概略構成を表すブロック図，図７は音源分離装置Ｘ’によりマイクロホンの向きが調節される様子を模式的に表した図，図８は音源分離装置Ｘ’によるマイクロホンの向き制御及び初期行列設定処理の手順を表すフローチャートである。

まず，本発明の実施形態について説明する前に，図４及び図５に示すブロック図を用いて，本発明の構成要素として適用可能な各種のＩＣＡ−ＢＳＳ方式の音源分離ユニット（逐次音源分離手段の一例）の例について説明する。
なお，以下に示す音源分離ユニットＺ１，Ｚ２は，いずれも所定の音響空間に複数の音源と複数のマイクロホン（音声入力手段）とが存在する状態で，そのマイクロホン各々を通じて，前記音源各々からの個別の音声信号（以下，音源信号という）が重畳された信号である複数の混合音声信号が逐次入力される場合に，その混合音声信号に対してＩＣＡ−ＢＳＳ方式の音源分離処理を施すことにより，前記音源信号に対応する複数の分離信号（音源信号を同定した信号）を逐次生成する処理（逐次音源分離処理）を行うものである。

図４は，ＩＣＡ−ＢＳＳ方式の一種である時間領域独立成分分析方式（time-domain independent component analysis方式，以下，ＴＤＩＣＡ方式という）に基づくＢＳＳ方式の音源分離処理を行う従来の音源分ユニットＺ１の概略構成を表すブロック図である。なお，本処理の詳細は，非特許文献１や非特許文献２等に示されている。
音源分離ユニットＺ１は，分離フィルタ処理部１１ｔにより，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（音源ごとの音声信号）を２つのマイクロホン（音声入力手段）１１１，１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)について，分離行列Ｗ(ｚ)によりフィルタ処理を施すことによって音源分離を行う。なお，混合音声信号ｘ１(ｔ)，ｘ２(ｔ)は，所定のサンプリング周期でデジタル化された信号であるが，図４，図５においては，Ａ／Ｄ変換手段の記載を省略している。
図４には，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（個別音声信号）を２つのマイクロホン（音声入力手段）１１１，１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)に基づいて音源分離を行う例について示しているが，２チャンネル以上であっても同様である。ＩＣＡ−ＢＳＳ方式による音源分離の場合，（入力される混合音声信号のチャンネル数ｎ（即ち，マイクロホンの数））≧（音源の数ｍ）であればよい。
複数のマイクロホン１１１，１１２各々で集音された各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)には，複数音源からの音源信号が重畳されている。以下，各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)を総称してｘ(ｔ)と表す。この混合音声信号ｘ(ｔ)は音源信号Ｓ(ｔ)の時間的空間的な畳み込み信号として表現され，次の（１）式のように表される。

ＴＤＩＣＡによる音源分離の理論は，この音源信号Ｓ(ｔ)のそれぞれの音源同士が統計的に独立であることを利用すると，ｘ(ｔ)がわかればＳ(ｔ)を推測することができ，従って，音源を分離することができるという発想に基づく理論である。
ここで，当該音源分離処理に用いる分離行列をＷ(ｚ)とすれば，分離信号（即ち，同定信号）ｙ(ｔ)は，次の（２）式で表される。

ここで，Ｗ(ｚ)は，出力ｙ(ｔ)から逐次計算（学習計算）により求められる。また，分離信号は，チャンネルの数だけ得られる。
なお，音源合成処理はこのＷ(ｚ)に関する情報により，逆演算処理に相当する配列を形成し，これを用いて逆演算を行えばよい。また，分離行列Ｗ(ｚ)の逐次計算を行う際の分離行列の初期値（初期行列）は，予め定められたものが設定される。
このようなＩＣＡ−ＢＳＳ方式による音源分離を行うことにより，例えば，人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から，歌声の音源信号と楽器の音源信号とが分離（同定）される。
ここで，（２）式は，次の（３）式のように書き換えて表現できる。

そして，（３）式における分離フィルタ（分離行列）Ｗ(ｎ)は，次の（４）式により逐次計算される。即ち，前回（ｊ）の出力ｙ(ｔ)を（４）式に逐次適用することより，今回（ｊ＋１）のＷ(ｎ)を求める。

次に，図５に示すブロック図を用いて，ＩＣＡ−ＢＳＳ方式の一種であるＦＤＩＣＡ方式（Frequency-Domain ICA）に基づく音源分離処理を行う従来の音源分離ユニットＺ２について説明する。
ＦＤＩＣＡ方式では，まず，入力された混合音声信号ｘ(ｔ)について，ＳＴ−ＤＦＴ処理部１３によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換（Short Time Discrete Fourier Transform，以下，ＳＴ−ＤＦＴ処理という）を行い，観測信号の短時間分析を行う。そして，そのＳＴ−ＤＦＴ処理後の各チャンネルの信号（各周波数成分の信号）について，分離フィルタ処理部１１ｆにより分離行列Ｗ(ｆ)に基づく分離フィルタ処理を施すことによって音源分離（音源信号の同定）を行う。ここでｆを周波数ビン，ｍを分析フレーム番号とすると，分離信号（同定信号）ｙ(ｆ，ｍ)は，次の（５）式のように表すことができる。

ここで，分離フィルタＷ(ｆ)の更新式は，例えば次の（６）式のように表すことができる。

このＦＤＩＣＡ方式によれば，音源分離処理が各狭帯域における瞬時混合問題として取り扱われ，比較的簡単かつ安定に分離フィルタ（分離行列）Ｗ(ｆ)を更新することができる。

以下，図１に示すブロック図を用いて，本発明の実施形態に係る音源分離装置Ｘについて説明する。
音源分離装置Ｘは，複数の音源１，２が存在する音響空間に配置される複数のマイクロホン１１１，１１２（音声入力手段）を備え，そのマイクロホン１１１，１１２各々を通じて逐次入力される音源１，２各々からの音源信号（個別の音声信号）が重畳された複数の混合音声信号ｘi(ｔ)から，音源信号（個別音声信号）を分離（同定）した分離信号（即ち，音源信号に対応した同定信号）ｙ1i(ｔIを逐次生成してスピーカ（音声出力手段）に対してリアルタイム出力するものである。

図１に示すように，音源分離装置Ｘは，ＡＤＣ（Ａ／Ｄコンバータ）２１，分離演算処理部１１，学習演算部１２，出力バッファ２２，ＤＡＣ（Ｄ／Ａコンバータ）２３，周波数解析部２４，特徴量記憶部２５等を具備して構成されている。ここで，学習演算処理部１２及び分離演算処理部１１は，併せて音源分離ユニット１０を構成している。また，音源分離ユニット１０及び周波数解析部２４の各構成要素は，それぞれＤＳＰ（Digital Signal Processor）等の演算用のプロセッサ及びそのプロセッサにより実行されるプログラムが記憶されたＲＯＭ等の記憶手段，並びにＲＡＭ等のその他の周辺装置により構成されたものが考えられる。或いは，１つのＣＰＵ及びその周辺装置を有するコンピュータにより，上記各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等も考えられる。また，所定のコンピュータ（音源分離装置が備えるプロセッサを含む）に各構成要素の処理を実行させる音源分離装置用のプログラムとして提供することも考えられる。
ここで，図１には，入力される混合音声信号ｘi(ｔ)のチャンネル数（即ち，マイクロホンの数）が２つである例について示しているが，（チャンネル数ｎ）≧（音源の数ｍ）であれば，３チャンネル以上であっても同様の構成により実現できる。

ＡＤＣ２１は，複数のマイクロホン１１１，１１２各々から入力されるアナログの混合音声信号各々を所定のサンプリング周期でサンプリングすることにより，デジタルの混合音声信号Ｘi(ｔ)に変換するすものである。例えば，各音源信号Ｓi(ｔ)が人の声の音声信号である場合，８ｋＨｚ程度のサンプリング周期でデジタル化すればよい。
分離演算処理部１１は，マイクロホン１１１，１１２各々を通じて逐次入力される各混合音声信号ｘi(ｔ)に対し，分離行列Ｗを用いた行列演算を施すことにより音源信号Ｓi(ｔ)各々に対応する複数の分離信号ｙi(ｔ)を逐次生成するとともに，その複数の分離信号ｙ1i(ｔ)各々を複数の出力端Ｏｐ１ｉ（以下，第１出力チャンネルという）各々を通じて出力する音源分離処理（逐次音源分離手順）を実行するものである（逐次音源分離手段の一例）。マイクロホン１１１，１１２は，いずれも複数の音源１，２が存在する所定の音響空間に配置される。ここで，分離信号ｙ1i(ｔ)各々は，混合音声信号の入力数（＝マイクロホンの数）と同じ数の第１出力チャンネルＯｐ１ｉを有している。図１に示す例では，ｉは１又は２（２チャンネル分）を表す。
学習演算部１２は，予め定められた時間長分の複数の混合音声信号ｘi(ｔ)を用いて，ＩＣＡ−ＢＳＳ音源分離処理における分離行列Ｗの学習計算を行うことにより，分離演算処理部１１で用いられる分離行列Ｗを順次算出するものである。なお，混合音声信号ｘi(ｔ)は，所定周期でサンプリングされてデジタル化されているので，混合音声信号ｘi(ｔ)の時間長を規定することは，デジタル化された混合音声信号ｘi(ｔ)のサンプル数を規定することと同義である。
ここで，学習演算部１２による分離行列算出（学習計算），及びその分離行列に基づいて分離演算処理部１１により実行される音源分離の処理（行列演算処理）は，例えば，図４に示した音源分離ユニットＺ１（ＴＤＩＣＡ方式）や，図５に示したＦＤＩＣＡ方式に基づく分離行列（分離フィルタ）の更新処理及び分離フィルタ処理等が採用される。なお，図４，図５に示した分離フィルタ処理部１１ｔ，１１ｆが，分離演算処理部１１に相当する。

データ記憶部２５は，周波数解析部２４により読み書きされる各種データが格納される記憶手段であり，例えば，ＲＡＭ，ＥＥＰＲＯＭ，フラッシュメモリ等により構成される。
周波数解析部２４は，周波数解析計算（自動計算）と，その計算結果に基づく各種の処理を行うものである。その内容については後述する。
ＤＡＣ２３（Ｄ／Ａコンバータ）は，出力バッファ２２からその出力端である第２出力チャンネルＯｐ２１，Ｏｐ２２（これについては後述）を通じて出力される音声のデジタル信号ｙ21，ｙ22（ｙ2iと総称する）をアナログ信号に変換するものである。変換後のアナログ信号は，所定のスピーカを通じて音声出力される。

出力バッファ２２は，いわゆるピンポンバッファであり，複数チャンネル分の入出力系統を有している。以下，出力バッファ２２が備える複数の入力端Ｉｐ１，Ｉｐ２を入力チャンネルといい，同じく出力バッファ２２が備える複数の出力端Ｏｐ２１，Ｏｐ２２を第２出力チャンネルという。図１に示す例は，２チャンネル分の入出力系統を有する例を表している。
以下，図２を参照しつつ，出力バッファ２２の動作について説明する。
出力バッファ２２は，入力チャンネルごとに２つのＦＩＦＯ方式のバッファ（Ｍ１ａとＭ１ｂ，Ｍ２ａとＭ２ｂ）を備えている。図２に示す各バッファは，図に向かって右側が先頭アドレス側を表すものとする。以下，入力チャンネルＩｐ１に対応する２つのバッファをバッファＭ１ａ，Ｍ１ｂ，入力チャンネルＩｐ２に対応する２つのバッファをバッファＭ２ａ，Ｍ２ｂと称する。
ここで，出力バッファ２２の入力チャンネルＩｐｉとその前段の音源分離ユニット１０の第１出力チャンネルＯｐ１ｉとは，一対一で固定的に接続されているため，一方の入力チャンネルＩｐ１と第１出力チャンネルＯｐ１１とは等価であり，他方の入力チャンネルＩｐ２と第１出力チャンネルＯｐ１２とは等価である。

まず，最初に入力チャンネルＩｐ１，Ｉｐ２各々から分離信号ｙ11，ｙ12（総称してｙ1iと記す）が入力されると，その分離信号ｙ1iが一方のバッファＭ１ａ，Ｍ２ａ（以下，ａ側バッファという）に，それがメモリフルとなるまで先頭アドレスから順次蓄積される。
次に，そのａ側バッファＭｉａに信号が満たされる（メモリフルになる）と，続いて入力される分離信号ｙ1iが，他方のバッファＭ１ｂ，Ｍ２ｂ（以下，ｂ側バッファという）に，それがメモリフルとなるまで先頭アドレスから順次蓄積される。ここで，ｂ側バッファＭ１ｂ，Ｍ２ｂへの信号蓄積と並行して，ａ側バッファＭ１ａ，Ｍ２ａに蓄積された信号が，先頭アドレスに蓄積されたものから順次第２出力チャンネルＯｐ２ｉを通じて出力される。
図２（ａ）は，ｂ側バッファＭ１ｂ，Ｍ２ｂに信号が順次蓄積されるとともに，これと並行して，ａ側バッファＭ１ａ，Ｍ２ａに蓄積された信号が第２出力チャンネルＯｐ２ｉを通じて出力されている状況を表す。なお，図中，ＣＨ１Ｐｔ，ＣＨ２Ｐｔの各符号を付した矢印は，第２出力チャンネルＯｐ２ｉに出力する信号を指定するポインタの指示位置を表す。ＣＨ１Ｐｔが一方の第２出力チャンネルＯｐ２１用のポインタの指示位置，ＣＨ２Ｐｔが他方の第２出力チャンネルＯｐ２２用のポインタの指示位置を表す。この第２出力チャンネルＯｐ２ｉ各々に対応するポインタＣＨ１Ｐｔ，ＣＨ２Ｐｔの指示位置が，ａ側バッファＭ１ａ，Ｍ２ａ若しくはｂ側バッファＭ１ｂ，Ｍ２ｂの先頭アドレス側から後尾アドレス側へ一定速度（信号のサンプリング周期に相当する速度）で順次移動することにより，指示された信号が第２出力チャンネルＯｐ２ｉ各々を通じて出力される。

そして，ａ側バッファＭ１ａ，Ｍ２ａに蓄積された全ての信号が出力されると，続いてポインタＣＨ１Ｐｔ，ＣＨ２Ｐｔの指示位置が，ｂ側バッファＭ１ｂ，Ｍ２ｂの先頭アドレスに移動し，ｂ側バッファＭ１ｂ，Ｍ２ｂに蓄積された信号が，先頭アドレスに蓄積されたものから順次第２出力チャンネルＯｐ２ｉを通じて出力される。また，ａ側バッファＭ１ａ，Ｍ２ａの全ての信号の出力が完了するのとほぼ同時に，ｂ側バッファＭ１ｂ，Ｍ２ｂへの信号蓄積が完了するので，ｂ側バッファＭ１ｂ，Ｍ２ｂからの信号出力と並行して，続いて入力される分離信号ｙ1iのａ側バッファＭ１ａ，Ｍ２ａへの蓄積が行われる。
図２（ｂ）は，ａ側バッファＭ１ａ，Ｍ２ａに信号が順次蓄積されるとともに，これと並行して，ｂ側バッファＭ１ｂ，Ｍ２ｂに蓄積された信号が第２出力チャンネルＯｐ２ｉを通じて出力されている状況を表す。
以上の動作が繰り返されることにより，分離信号ｙ1iが，所定の遅延時間をおいて，第２出力チャンネルＯｐ２ｉを通じてリアルタイムで出力される。

また，出力バッファ２２は，出力チャンネルの対応関係の設定を切り替えることにより，第１出力チャンネルＯｐ１１，Ｏｐ１２各々を通じて出力された（即ち，入力チャンネルＩｐ１，Ｉｐ２各々を通じて入力された）いずれの分離信号ｙ11，ｙ12を，２つ（複数）の第２出力チャンネルＯｐ２ｉのうちのいずれを通じて出力するかを切り替え可能に構成されている。
ここで，出力チャンネルの対応関係の設定とは，第２出力チャンネルＯｐ２１，Ｏｐ２２各々に対応するポインタＣＨ１Ｐｔ，ＣＨ２Ｐｔ各々を，入力チャンネルＩｐ１側（即ち，第１出力チャンネルＯｐ１１側）のバッファＭ１ａ，Ｍ１ｂを指示するようにするか，或いは入力チャンネルＩｐ２側（即ち，第１出力チャンネルＯｐ１２側）のバッファＭ２ａ，Ｍ２ｂを指示するようにするかの設定を表す。
本実施形態では，この出力チャンネルの対応関係は，周波数解析部２４により設定されるものとする。以下，第１出力チャンネルＯｐ１ｘ（入力チャンネルＩｐｘ）と第２出力チャンネルＯｐ２ｙとを対応させる設定（ｘ，ｙはチャンネル番号）のことを，「（ｘ＝＞ｙ）」のように表現するものとする。

前述した図２（ａ），（ｂ）は，出力チャンネルの対応関係が，「（１＝＞１）かつ（２＝＞２）」である場合を表す。即ち，ポインタＣＨ１ＰｔがバッファＭ１ａ又はＭ１ｂを指示し，ポインタＣＨ２ＰｔがバッファＭ２ａ又はＭ２ｂを指示するよう設定された状態を表す。
一方，図２（ｃ）は，出力チャンネルの対応関係が，「（１＝＞２）かつ（２＝＞１）」である場合の一例を表す。この図２（ｃ）に示す例は，ポインタＣＨ１ＰｔがバッファＭ２ｂを指示し，ポインタＣＨ２ＰｔがバッファＭ１ｂを指示するよう設定された状態を表す。
これにより，ｂ側バッファＭ１ｂに蓄積された信号（即ち，入力チャンネルＩｐ１を通じて入力された信号）が，第２出力チャンネルＯｐ２２を通じて出力され，ｂ側バッファＭ２ｂに蓄積された信号（即ち，入力チャンネルＩｐ２を通じて入力された信号）が，第２出力チャンネルＯｐ２１を通じて出力される。
この図２（ｃ）に示す状態と図２（ａ），（ｂ）に示す状態とは，第１出力チャンネルＯｐ１ｉ（入力チャンネルＩｐｉ）と第２出力チャンネルＯｐ２ｉとの対応関係が入れ替わっている。

次に，図３に示すタイムチャートを参照しつつ，音源分離装置Ｘにおける出力チャンネル切り替え処理の手順について説明する。この図３に示す処理は，学習演算部１２による分離行列Ｗの学習が十分になされ，その学習済みの分離行列Ｗに基づいて分離演算処理部１１による逐次音源分離処理が開始された時点から開始されるものとする。なお，以下に示すＳ１，Ｓ２，…は，処理手順（ステップ）の識別符号を表す。
まず，周波数解析部２４により，前記出力チャンネルの対応関係が初期設定され，設定結果がデータ記憶部２５に記録される（Ｓ１）。この初期設定は，例えば，予め定められた対応関係に設定することや，利用者が所定の操作入力手段を通じて入力する情報に従った対応関係に設定すること等が考えられる。
例えば，前記出力チャンネルの対応関係が「（１＝＞１）かつ（２＝＞２）」に設定される。
次に，周波数解析部２４により，第１出力チャンネルＯｐ１ｉ各々を通じて出力される分離信号ｙ1i各々が，所定の時間長分（最新のもの）だけ取得される（取り込まれる）（Ｓ２）。例えば，８ＭＨｚのサンプリング周期でサンプル（デジタル化）された分離信号ｙ1iを１０２４サンプル分（即ち，１／８（ｓｅｃ）分）取得される。取得された分離信号ｙ1iは，周波数解析部２４が備える主記憶メモリに一時記憶される。ここで取得される所定時間長分の分離信号ｙ1iを，以下，１フレーム分の分離信号ｙ1iという。

次に，周波数解析部２４により，第１出力チャンネルＯｐ１ｉ各々について，ステップＳ２で取得された１フレーム分ごとの分離信号ｙ1iに対して周波数解析計算（自動計算）が行われることによって分離信号ｙ1iの周波数の特徴量が算出される（Ｓ３，Ｓ４）。
より具体的には，まず，ステップＳ２で取得された分離信号ｙ1i各々に窓関数処理が行われ（Ｓ３），その窓関数が掛けられた分離信号に対してＦＦＴ解析計算が行われる（Ｓ４）。さらに，ＦＦＴ解析計算により得られる１フレーム分の分離信号ｙ1i各々のパワースペクトルに基づいて，そのパワースペクトルにおけるピーク周波数が分離信号ｙ1i各々の特徴量として導出される（Ｓ４）。
ここで，パワースペクトルにおけるピーク周波数としては，例えば，パワーのピークを示す周波数のうち，そのピーク値が最大のものや，そのピーク値が最大のものから所定の順位以内に入るもの等が考えられる。
また，周波数解析計算としては，ＦＦＴ（高速フーリエ変換：Fast Fourier Transform）解析計算の他，自己回帰型のＭＥＭ（最大エントロピー法：Maximum Entropy Method）に基づく解析計算，ＡＲ（自己回帰：AutoRegressive）モデルに基づく解析計算等，周知の周波数解析計算の手法を採用することが考えられる。
また，分離信号ｙ1iの特徴量としては，パワースペクトルにおけるピーク周波数の他，パワースペクトルの分布範囲（例えば，所定レベル以上のパワーを有する周波数の範囲）等も考えられる。

次に，周波数解析部２４により，データ記憶部２５に過去のｍフレーム分の分離信号ｙ1iに基づく前記特徴量が蓄積（記憶）されているか否かが判別される（Ｓ５）。
このステップＳ５において，過去ｍフレーム分の前記特徴量が未だ蓄積されていないと判別された場合は，ステップＳ４で算出された前記特徴量（ピーク周波数等）が，第２出力チャンネルＯｐ２ｉごとにデータ記憶部２５に追加的に記録（一時記憶）され（Ｓ１１），処理が前述したステップＳ２へ戻される。
これにより，過去ｍフレーム分の前記特徴量がデータ記憶部２５に蓄積されるまで前述したステップＳ２〜Ｓ４の処理が繰り返される。
その結果，例えば，分離信号ｙ1iのサンプリング周期（＝混合音声信号ｘｉ(ｔ)のサンプリング周期）が８ｋＨｚ，１フレームが１０２４サンプル分の信号，ｍ＝２４である場合，３秒分の分離信号ｙ1iに基づく前記特徴量が，データ記憶部２５に蓄積されることになる。サンプリング周期，１フレームのサンプル数，蓄積フレーム数ｍは，適用対象に応じて適当な値が設定される。

また，これ以後，前記特徴量は，前記出力チャンネルの対応関係の設定内容に応じて（分離信号の出力の切り替え状況に応じて），第２出力チャンネルＯｐ２ｉごとにデータ記憶部２５に記録（蓄積）される。
例えば，第２出力チャンネルＯｐ２１，Ｏｐ２２各々に対応するメモリ領域をMｅｍ１，Ｍｅｍ２と表すものとすると，前記出力チャンネルの対応関係が「（１＝＞１）かつ（２＝＞２）」である場合は，第１出力チャンネルＯｐ１１を通じて出力される分離信号ｙ11に基づく前記特徴量はＭｅｍ１に記録され，第１出力チャンネルＯｐ１２を通じて出力される分離信号ｙ12に基づく前記特徴量はＭｅｍ２に記録される。一方，前記出力チャンネルの対応関係が「（１＝＞２）かつ（２＝＞１）」である場合は，第１出力チャンネルＯｐ１１を通じて出力される分離信号ｙ11に基づく前記特徴量はＭｅｍ２に記録され，第１出力チャンネルＯｐ１２を通じて出力される分離信号ｙ12に基づく前記特徴量はＭｅｍ１に記録される。
これにより，音源の追跡（出力バッファ２２における出力チャンネルの切り替え）が正しく行われる限り，各メモリ領域Ｍｅｍ１，Ｍｅｍ２各々には，常に同じ音源に対応する分離信号の特徴量が蓄積されることになる。

一方，ステップＳ５において，過去ｍフレーム分の前記特徴量が蓄積されていると判別された場合，周波数解析部２４により，第１出力チャンネルＯｐ１ｉ各々を通じて出力される分離信号ｙ1iの入れ替わり状態を判別する処理が実行される（Ｓ６：信号入れ替わり判別手順の一例）。
この入れ替わり状態の判別は，周波数解析部２４により，データ記憶部２５に記憶された過去の前記特徴量とステップＳ４で算出された最新の前記特徴量とに基づいて，第１出力チャンネルＯｐ１ｉ各々についての前記特徴量の変遷（時間の経過により変化する状態）が自動的に評価されることにより行われる。
より具体的には，データ記憶部２５に記憶された過去ｍフレーム分の前記ピーク周波数各々と，ステップ４で算出された現在の（最新の）前記ピーク周波数との比較により，前記分離信号ｙ1iの入れ替わり状態を判別することが考えられる。
例えば，現在の前記出力チャンネルの対応関係が「（１＝＞１）かつ（２＝＞２）」である場合を考える。この場合，第２出力チャンネルＯｐ２１に対応する過去ｍフレーム分の前記ピーク周波数のいずれかと，第１出力チャンネルＯｐ１２の分離信号ｙ12について算出された現在の前記ピーク周波数とが一致している若しくは近似しているとき，或いは第２出力チャンネルＯｐ２２に対応する過去ｍフレーム分の前記ピーク周波数のいずれかと，第１出力チャンネルＯｐ１１の分離信号ｙ11について算出された現在の前記ピーク周波数とが一致している若しくは近似しているときに，分離信号ｙ1iの入れ替わりがあったと判別すること等が考えられる。なお，近似しているとは，例えば，ピーク周波数に差がある場合であっても，その差が予め定められた誤差範囲内であること等を指す。

次に，ステップＳ６において，第１出力チャンネルＯｐ１ｉの分離信号ｙ1iに入れ替わりがあったと判別された場合は，第２出力チャンネルＯｐ２ｉの分離信号ｙ2iに入れ替わりが生じないように，周波数解析部２４によって前記出力チャンネルの対応関係の設定が変更され，変更後の対応関係の設定がデータ記憶部２５に記憶される（Ｓ８）。
さらに，周波数解析部２４から出力バッファ２２に対して変更後の前記出力チャンネルの対応関係の設定情報が通知され，これに応じて出力バッファ２２により，分離信号の出力先（第２出力チャンネルＯｐ２ｉ）の切り替えが行われる（Ｓ９）。
以上示した周波数解析部２４及び出力バッファ２２によるステップＳ７〜Ｓ９の処理により，ステップＳ６での信号入れ替わり判別の判別結果に基づいて，第１出力チャンネルＯｐ１ｉを通じて出力されるいずれの分離信号ｙ1iを，第２出力チャンネルＯｐ２ｉのいずれを通じて出力するかが切り替えられる（出力切替手順の一例）。但し，出力チャンネルの切り替えは，入れ替わりが生じたと判別された分離信号ｙ1iが，第２出力チャンネルＯｐ２ｉを通じて出力されるタイミングに合わせて行われる。
以上の処理により，音源分離装置Ｘは，以下のように動作する。
即ち，マイクロホン１１１，１１２に対する音源１，２の位置が移動することにより，マイクロホン１１１，１１２に対する複数の音源１，２の存在方向（左右方向）が入れ替わると，第１出力チャンネルＯｐ１ｉ各々から出力される分離信号ｙ1i各々の前記特徴量に入れ替わりが生じ，ステップＳ６においてその入れ替わりの状態が判別される。そして，その入れ替わり状態の判別結果に応じて，ステップＳ７〜Ｓ９の処理により，第１出力チャンネルＯｐ１ｉ各々から第２出力チャンネルＯｐ２ｉ各々への分離信号の伝送経路が切り替えられる。その結果，分離信号ｙ1iの入れ替わり判別（Ｓ６）が正しく行われる限り，第２出力チャンネルＯｐ２ｉ各々は，常に同じ音源に対応する分離信号ｙ2iを出力することになる。即ち，音源の追跡が可能となる。

さらに，ステップＳ７において分離信号ｙ1iの入れ替わりが生じていないと判別された場合，或いは，ステップＳ９の処理が終了した後に，周波数解析部２４により，データ記憶部２５に記憶（蓄積）されている過去ｍフレーム分の前記特徴量のうち，最も古いものがステップＳ４で算出された現在の（最新の）特徴量に更新（即ち，最新の過去ｍフレーム分の内容に更新）され（Ｓ１０），その後，処理がステップＳ２に戻される。以後，ステップＳ２〜Ｓ１０の処理が繰り返される。
なお，周波数解析部２４により実行されるステップＳ４及びＳ１０の処理は，第１出力チャンネルＯｐ１ｉ（第１の出力端）各々について，所定時間長分ごとの分離信号ｙ1iの特徴量を算出してデータ記憶部２５に一時記憶させる特徴量算出・記録手順の一例である。

次に，前記音源分離装置Ｘの応用例である音源分離装置Ｘ’について説明する。
まず，図６に示すブロック図を参照しつつ，音源分離装置Ｘ’の構成について説明する。
図６に示すように，音源分離装置Ｘ’は，前記音源分離装置Ｘと同じ構成要素に加え，さらに，ＤＯＡ推定部３１，回転制御部４０及びマイク回転機構５０をを備えている。
前記ＤＯＡ推定部３１は，前記学習演算部１２による前記学習計算（即ち，ＩＣＡ−ＢＳＳ音源分離処理において実行される分離行列Ｗの学習計算）によって算出される分離行列Ｗを取得し，その分離行列Ｗに基づいて，予め定められた隣り合う２つのマイクロホン１１１，１１２（以下，特定マイクロホンという）の集音範囲それぞれに存在する２つの音源１，２（以下，特定音源という）の存在する方向（以下，特定音源方向θa，θbという）それぞれを推定するＤＯＡ推定計算を実行するものである（前記特定音源方向推定手段の一例）。このＤＯＡ推定部３１も，前記学習演算部１２等と同様に，例えばＤＳＰ等の演算用のプロセッサ及びそのプロセッサにより実行されるプログラムが記憶されたＲＯＭ等の記憶手段により実現される。
ここで，前記特定音源方向θa，θbは，相互の相対的な向きが固定された全てのマイクロホンについてそのマイクロホン全体の向き（全体を代表する向き）を表すマイク正面方向に対する相対角度である。図６に示す例では，前記特定マイクロホン１１１，１１２それぞれの向きの中間方向Ｒ0が前記マイク正面方向であり，前記特定音源１，２の方向は，そのマイク正面方向Ｒ0に対する相対角度である。
図６に示す例では，マイクロホンの総数が２個であるため，その両方（全て）が前記特定マイクロホンとなるが，マイクロホンの総数が３個以上である場合には，その中から予め指定された２つのマイクロホンが前記特定マイクロホンとなる。具体的には，移動し得る音源の中でその音を追跡したい１つの音源及びその隣の音源（２つの音源）を前記特定音源とした場合に，その特定音源それぞれの位置を主な集音範囲とする２つのマイクロホンを，前記特定マイクロホンとして指定する。いずれのマイクロホンを前記特定マイクロホンとするかについての情報は，予め前記データ記憶部２５に記憶され，その情報を前記ＤＯＡ推定部３１が読み出して取得する。
前記ＤＯＡ推定部３１は，例えば，前記非特許文献３や非特許文献４に示されるＤＯＡ推定処理を実行することにより，前記特定音源方向θa，θbを推定（算出）する。より具体的には，前記学習演算部１２から得られた前記分離行列Ｗにステアリングベクトルを乗じることによって前記特定音源方向θa，θb（ＤＯＡ）を推定する。前記非特許文献３や非特許文献４に示されるＤＯＡ推定処理を行う場合，音源分離処理は，図５に示したＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理（音源分離ユニットＺ２）が採用される。

以下，前記非特許文献３や非特許文献４に示されるＤＯＡ推定処理（以下，死角特性に基づくＤＯＡ推定処理という）について説明する。
ＩＣＡ法による音源分離処理は，空間的死角フィルタを表す行列（分離行列）を学習演算によって算出し，その分離行列を用いたフィルタ処理によってある方向からの音を除去する処理である。
前記死角特性に基づくＤＯＡ推定処理は，前記分離行列が表す空間的死角角度を周波数ビンごとに計算し，その周波数ビンごとの空間的死角角度の平均値を求めることによって音源の方向（角度）を推定する。
例えば，２つの音源の音を２つのマイクロホンで集音する音源分離装置において，前記死角特性に基づくＤＯＡ推定処理は，以下に示す計算を実行する。なお，以下の説明において，添え字のｋはマイクロホンの識別番号（ｋ＝１，２），添え字のｌは音源の識別番号（ｌ＝１，２），ｆは周波数ビン，ｆの添え字ｍは周波数ビンの識別番号（ｍ＝１，２），Ｗlk(ｆ)は前記ＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理における学習計算により得られた分離行列，ｃは音速，ｄk（ｄ1又はｄ2）は２つのマイクロホンの中間位置から各マイクロホンまでの距離（マイクロホン相互間の距離の二分の一，即ち，ｄ1＝ｄ2），θ1及びθ2は２つの音源それぞれのＤＯＡである。
まず，次の（７）式（前記非特許文献４における（１２）式に相当）により，ｌ＝１の場合及びｌ＝２の場合の音源角度情報Ｆl(ｆ，θ)を，分離フィルタの各周波数ビンごとに算出する。

さらに，次の（８）式及び（９）式（前記非特許文献４における（１３）式及び（１４）式に相当）により周波数ビンごとのＤＯＡ（角度）θ1(ｆm)及びθ2(ｆm)を求める。

そして，周波数ビンごとに計算されたθ1(ｆm)について，全周波数ビンの範囲で平均値を計算し，その平均値を一方の音源の方向θ1とする。同様に，周波数ビンごとに計算されたθ2(ｆm)について，全周波数ビンの範囲で平均値を計算し，その平均値を他方の音源の方向θ2とする。
なお，前記ＤＯＡ推定部３１は，その他の処理も実行するが，それについては後述する。

前記マイク回転機構５０は，相互の相対的な向きが固定された複数のマイクロホン１１１，１１２全体を回転させることにより，複数のマイクロホン１１１，１１２全体の向きを調節する機構である（前記音声入力手段向き調節機構の一例）。
前記マイク回転機構５０は，マイク保持部５１とサーボモータ５２とを備えている。
前記マイク保持部５１は，全てのマイクロホン１１１，１１２をそれら相互の相対的な向きを固定した状態で保持（支持）する部材である。
また，前記サーボモータ５２は，前記マイク保持部５１を所定の回転軸の周りに回転させて任意の向き（回転角度）で保持する駆動源であり，例えばステッピングモータ等である。
前記サーボモータ５２が，前記マイク保持部５１を所定の回転軸を中心に回転させて所望の向きで保持することにより，前記マイク正面方向Ｒ0を所望の方向に向けることができる。

前記回転制御部４０は，前記マイク回転機構５０（ここでは，前記サーボモータ５２）を制御することにより，前記特定マイクロホン１１１，１１２それぞれの向きの中間方向である前記マイク正面方向Ｒ0を所望の方向に向けて保持するための制御を実行するコントローラである。
具体的には，前記回転制御部４０は，前記ＤＯＡ推定部３１から前記特定音源方向θa，θbの情報を取得し，その情報に基づいて前記マイク回転機構５０に対して制御指令を出力することにより，前記マイク正面方向Ｒ0が，前記ＤＯＡ推定部３１によって推定された前記特定音源１，２それぞれの存在する方向（前記特定音源方向θa，θb）の中間の方向に向くように制御する（前記音声入力手段向き制御手段の一例）。即ち，前記回転制御部４０は，前記サーボモータ５２の回転軸が（θa＋θb）／２だけ回転して停止するよう制御する。

以下，図７を参照しつつ，前記回転制御部４０によってマイクロホンの向き（前記マイク正面方向Ｒ0）が調節される様子について説明する。図７は，前記回転制御部４０によってマイクロホンの向き（前記マイク正面方向Ｒ0）が調節される様子を模式的に表した図（平面図）である。
例えば，初期状態において，図７（ａ）に示すように，２つの前記特定音源１，２が，相互に十分に離間した状態（前記特定音源方向の差｜θa−θb｜が大きい状態）で，前記特定マイクロホン１１１，１１２それぞれの集音範囲に存在しているものとする。また，図７（ａ）に示す状態において，前記学習演算部１２により十分に学習された前記分離行列Ｗが得られているものとする。なお，図７（ａ）に示す状態は，概ね，（θa，θb）＝（６０°，−６０°）の状態（後述する第２パターン）である。
そして，その初期状態から２つの前記特定音源１，２の一方又は両方が，そのそれぞれに対応する前記特定マイクロホン１１１，１１２の集音範囲内において移動することにより，図７（ｂ）に示すように，２つの前記特定音源１，２がの位置が近接した状態（前記特定音源方向の差｜θa−θb｜が小さい状態）に変化したとする。なお，図７（ｂ）に示す例は，図７（ａ）に示す初期状態から，一方の前記特定音源２のみが位置Ｐ１から位置Ｐ２へ移動した例である。
ここで，図７（ｂ）に示す状態において，前記特定マイクロホン１１１，１１２の向き（前記マイク正面方向Ｒ0）を変えないまま保持すると，図７（ｂ）に太い破線矢印で示すように，前記マイク正面方向Ｒ0に近い方向に存在する前記特定音源２がわずかに移動するだけで，２つの前記特定音源１，２が一方の前記特定マイクロホン１１２の集音範囲に偏在する状態となり，前記学習演算部１２及び前記分離演算処理部１１による音源分離ができない状態に陥ってしまう。
そこで，前記回転制御部４０は，前記マイク正面方向Ｒ0が，前記ＤＯＡ推定部３１により推定された前記特定音源方向θa，θbの中間方向に向くように，即ち，図７（ｃ）に示すように，向きが制御された後の前記特定音源１，２の方向θa’，θb’（前記向き制御後特定音源方向）が前記マイク正面方向Ｒ0に対して左右対称となる状態（θa’＝−θb’）となるように，マイクロホン全体の向きを所定角度Δψだけ調節（制御）する。これにより，図７（ｃ）に太い破線矢印で示すように，前記マイク正面方向Ｒ0に近い方向に存在する前記特定音源２が多少移動しても，２つの前記特定音源１，２がそれぞれに対応する前記特定マイクロホン１１２の集音範囲に存在する状態が維持され，前記学習演算部１２及び前記分離演算処理部１１による音源分離ができなくなる状態に陥るこをを回避できる。

また，前記特定音源１，２の一方又は両方が大きく移動することにより，前記特定マイクロホン１１１，１１２と前記特定音源１，２との位置関係が，図７（ａ）に示す状態から図７（ｂ）に示す状態へ変化した場合，前記学習演算部１２による前記学習計算において，前記分離行列Ｗの収束に長時間を要したり，音源分離性能が悪化したりする問題が生じ得る。
そこで，前記ＤＯＡ推定部３１は，前記向き制御後特定音源方向θａ’，θb’に基づいて，その方向又はそれに近い方向に前記特定音源１，２が存在する状態で十分に前記学習計算を行うことによって予め得られた分離行列Ｗを，次の学習計算に用いる初期行列Ｗ0（前記分離行列Ｗの初期値）として設定する。なお，その詳細については後述する。

音源分離装置Ｘ’においては，前記初期行列Ｗ0の設定の際に参照される情報として，前記特定音源方向を表す複数の基準方向と，前記分離行列Ｗの初期値である初期行列Ｗ0の複数の候補との組合せを表す初期行列候補情報が，予め前記データ記憶部２５に記憶されている。
例えば，前記特定音源方向（θa，θb）の基準方向として，（３０°，−３０°），（６０°，−６０°），（９０°，−９０°），（１２０°，−１２０°），（１５０°，−１５０°）の５つのパターン（以下，第１パターン乃至第５パターンという）が規定されている場合，前記初期行列候補情報は，それら５つのパターンそれぞれの識別情報と，各パターンに適した初期行列Ｗ0とが関連付けられた情報である。
ここで，前記初期行列候補情報に含められる前記初期行列Ｗ0は，前記特定音源方向θa，θbを前記５つのパターンそれぞれの前記基準方向に固定した状態（前記基準状態）で，前記学習演算部１２及び前記分離演算処理部１１によってＩＣＡ−ＢＳＳ音源分離方式による音源分離処理を実行し，前記学習計算を十分に行なうことによって得られた分離行列（前記基準分離行列）である。即ち，前記特定音源１，２が前記基準方向に配置された条件下において，十分に収束した前記分離行列Ｗが前記初期行列Ｗ0として設定される。このように設定された初期行列Ｗ0は，前述したように，前記基準状態或いはそれに近い状態である場合に前記学習計算において用いられると，その学習計算の所要時間が比較的短くても（逐次計算の回数が少なくても）分離性能の高い新たな分離行列Ｗが得られる。
音源分離装置Ｘ’は，前記初期行列候補情報の中から前記学習演算部１２が用いる初期行列Ｗ0を選択及び設定する処理（後述する初期行列設定処理）を実行するが，その内容については後述する。
なお，前記初期行列候補情報は，前記ＤＯＡ推定部３１が所定の通信インターフェースやメモリインターフェースを介してアクセス可能な外部メモリ（例えば，フラッシュメモリ等）に記憶されていてもよい。

次に，図８に示すフローチャートを参照しつつ，音源分離装置Ｘ’によるマイクロホンの向き制御及び初期行列設定処理の手順について説明する。
図８に示す処理は，前記分離演算処理部１１によるリアルタイムでの音源分離処理，及び図３に示した出力チャンネル切り替え処理と並行して実行され，また，前記学習演算部１２によって学習済みの新たな分離行列Ｗが得られるごとに実行される。なお，以下に示すＳ２１，Ｓ２２，…は，処理手順（ステップ）の識別符号を表す。
まず，前記ＤＯＡ推定部３１が，前記学習演算部１２によって学習済みの新たな分離行列Ｗが得られたか否か（学習計算が終了したか否か）を監視する（Ｓ２１）。
そして，前記ＤＯＡ推定部３１は，前記学習演算部１２によって学習済みの新たな分離行列Ｗが得られたことを検知すると，その新たな分離行列Ｗを前記学習演算部１２から取得する（Ｓ２２）。

次に，前記ＤＯＡ推定部３１は，前記学習演算部１２から得た新たな分離行列Ｗに基づいて，前記特定音源方向θa，θbの推定計算を実行し，その推定結果を前記データ記憶部２５に記録する（Ｓ２３）。
さらに，前記ＤＯＡ推定部３１から前記回転制御部４０に対して前記特定音源方向θa，θbの推定結果が引き渡され，前記回転制御部４０が，前記ＤＯＡ推定部３１から取得した前記特定音源方向θa，θbの推定結果に基づいて，マイクロホンの向きの調節角度Δψ（＝（θa＋θb）／２）を算出する（Ｓ２４）。
次に，前記回転制御部４０が，前記マイク回転機構５０を制御することにより，マイクロホン全体の向きを前記調節角度Δψ分だけ調節する（Ｓ２５）。これにより，前記マイク正面方向Ｒ0が，前記ＤＯＡ推定部３１によって推定された前記特定音源方向θa，θbの中間の方向に向く。このステップＳ２５の処理により，前記特定マイクロホン１１１，１１２と前記特定音源１，２との位置関係が，例えば図７（ｂ）に示す状態から，図７（ｃ）に示す状態に変化する。これにより，２つの前記特定音源１，２が前記特定マイクロホン１１１，１１２の一方の集音範囲に偏在して適正な音源分離が行えなくなる状況を極力回避できる。
なお，ステップＳ２４又はステップＳ２５において，マイクロホンの向きの調節角度Δψが，前記回転制御部４０から前記ＤＯＡ推定部３１に引き渡される。

一方，前記ＤＯＡ推定部３１は，ステップＳ２３での処理による前記特定音源方向θa，θbの推定結果と，前記回転制御部４０から取得したマイクロホンの向きの調節角度Δψとに基づいて，マイクロホンの向きの制御後における前記特定音源１，２の存在する方向θa’，θb’（前記向き制御後特定音源方向）を算出し，算出結果を前記データ記憶部２５に記録する（Ｓ２６，前記制御後特定音源方向算出手段の一例）。具体的には，θa’＝−θb’＝（θa−Δψ）となる。なお，前記向き制御後特定音源方向θa’，θb’は，その変化を算出するために，予め定められた個数分の最近（最新）のデータが前記データ記憶部２５に保持される。
次に，前記ＤＯＡ推定部３１は，前記向き制御後特定音源方向θa’，θb’の変化（例えば，前回の算出値と今回の算出値の差）が，予め定められた設定値（例えば，３０°）以上であるか否かを判別する（Ｓ２７）。
ここで，前記ＤＯＡ推定部３１は，前記向き制御後特定音源方向θa’，θb’の変化が前記設定値以上であると判別した場合，ステップＳ２６（前記制御後特定音源方向算出手段の処理に相当）で算出した前記向き制御後特定音源方向θa’，θb’に基づいて，前記初期行列候補情報における前記初期行列の複数の候補の中から，前記学習演算部１２による次の前記学習計算に用いる前記初期行列Ｗ0を選択し，選択した所期行列Ｗ0を前記学習演算部１２に引き渡す（Ｓ２８，前記初期行列選択手段の一例）。より具体的には，前記ＤＯＡ推定部３１は，前記初期行列候補情報の中から，ステップＳ２６で算出した前記向き制御後特定音源方向θa’，θb’に最も近い前記基準方向を特定し，特定したその基準方向に対応する前記初期行列Ｗ0の候補を選択して次の前記学習計算に用いる前記初期行列Ｗ0として設定する。これにより，前記学習演算部１２による次回の学習計算に用いられる初期行列Ｗ0が，前記ＤＯＡ推定部３１から引き渡されたものに更新される。これにより，前記特定音源１，２の方向が大きく変化した場合でも，その変化に応じて適切な前記初期行列Ｗ0が選択（設定）されるため，次回の前記学習計算における前記分離行列Ｗの収束に長時間を要したり，音源分離性能が悪化したりする問題を回避できる。
一方，前記ＤＯＡ推定部３１は，ステップＳ２７において，前記向き制御後特定音源方向θa’，θ’bの変化が前記設定値未満であると判別した場合，ステップＳ２８の処理をスキップさせる。これにより，その時点で最新の学習済みの前記分離行列Ｗが，前記学習演算部１２による次回の学習計算に用いられる初期行列Ｗ0として引き継がれる。
以後，ステップＳ２２〜Ｓ２８の処理が，前記学習演算部１２による学習計算が行われて学習済みの新たな分離行列Ｗが得られるごとに繰り返される。

以上に示したように，音源分離装置Ｘ’は，２つの前記特定マイクロホン１１１，１１２の向きの中間方向を，前記特定音源１，２それぞれの存在する方向（推定方向）の中間の方向に向ける制御を行う（Ｓ２５）。これにより，音源の偏在状態が発生して適正な音源分離が行えなくなる状況を極力回避できる。
また，音源分離装置Ｘ’は，マイクロホンの向き制御を行った後の前記特定音源１，２の存在する方向θa’，θb’に応じて，次の前記学習計算に用いる前記初期行列Ｗ0を選択する（Ｓ２８）。これにより，前記特定音源１，２の存在方向が大きく変化した場合でも，前記学習計算における前記分離行列Ｗの収束に長時間を要したり，音源分離性能が悪化したりする問題を回避でき，高い音源分離性能を維持できる。

本発明は，音源分離装置への利用が可能である。

本発明の実施形態に係る音源分離装置Ｘの概略構成を表すブロック図。音源分離装置Ｘが備える出力バッファの動作を説明する図。音源分離装置Ｘが実行する出力チャンネル切り替え処理の手順を表すフローチャート。ＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離ユニットＺ１の概略構成を表すブロック図。ＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離ユニットＺ２の概略構成を表すブロック図。音源分離装置Ｘの応用例である音源分離装置Ｘ’の概略構成を表すブロック図。音源分離装置Ｘ’によりマイクロホンの向きが調節される様子を模式的に表した図。音源分離装置Ｘ’によるマイクロホンの向き制御及び初期行列設定処理の手順を表すフローチャート。

符号の説明

Ｘ，Ｘ’…本発明の実施形態に係る音源分離装置
１，２…音源
１０…音源分離ユニット
１１…分離演算処理部
１２…学習演算部
２１…ＡＤＣ（Ａ／Ｄコンバータ）
２２…出力バッファ
２３…ＤＡＣ（Ｄ／Ａコンバータ）
２４…周波数解析部
２５…データ記憶部
３１…ＤＯＡ推定部
４０…回転制御部
５０…マイク回転機構
５１…マイク保持部
５２…サーボモータ
１１１，１１２…マイクロホン
Ｓ１，Ｓ２，〜…処理手順（ステップ）
Ｉｐ１，Ｉｐ２…出力バッファの入力チャンネル
Ｏｐ１１，Ｏｐ１２…第１出力チャンネル（第１出力端）
Ｏｐ２１，Ｏｐ２２…第２出力チャンネル（第２出力端）
Ｍ１ａ，Ｍ１ｂ，Ｍ２ａ，Ｍ２ｂ…バッファ

Claims

所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力され，前記音源各々からの音源信号が重畳された複数の混合音声信号に対し，独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記音源信号に対応する複数の分離信号を逐次生成するとともに，該複数の分離信号各々を複数の第１の出力端各々を通じて出力する手段を備えた音源分離装置であって，
前記第１の出力端各々について，所定時間長分ごとの前記分離信号の特徴量を算出して所定の記憶手段に一時記憶させる特徴量算出・記録手段と，
前記特徴量算出・記録手段により一時記憶された前記第１の出力端各々についての前記特徴量の変遷を自動的に評価することにより前記第１の出力端各々を通じて出力される前記分離信号の入れ替わり状態を判別する信号入れ替わり判別手段と，
前記信号入れ替わり判別手段による判別結果に基づいて，前記第１の出力端を通じて出力されるいずれの前記分離信号を，１又は複数の第２の出力端のいずれを通じて出力するかを切り替える出力切替手段と，
を具備してなることを特徴とする音源分離装置。
前記特徴量算出・記録手段が，所定時間長分ごとの前記分離信号の周波数解析計算に基づいて周波数の特徴量を算出してなる請求項１に記載の音源分離装置。
前記特徴量算出・記録手段が，所定時間長分ごとの前記分離信号のパワースペクトルにおけるピーク周波数を前記特徴量として算出し，
前記信号入れ替わり判別手段が，過去の前記ピーク周波数と現在の前記ピーク周波数との比較により前記分離信号の入れ替わり状態を判別してなる請求項２に記載の音源分離装置。
前記独立成分分析法に基づくブラインド音源分離方式による音源分離処理において実行される学習計算によって算出される分離行列に基づいて，前記複数の音声入力手段のうち予め定められた隣り合う２つの音声入力手段である特定音声入力手段の集音範囲それぞれに存在する２つの前記音源である特定音源の存在する方向を推定する特定音源方向推定手段と，
前記複数の音声入力手段全体の向きを調節する音声入力手段向き調節機構と，
前記音声入力手段向き調節機構を制御することにより，前記特定音声入力手段それぞれの向きの中間方向を，前記特定音源方向推定手段により推定された前記特定音源それぞれの存在する方向の中間の方向に向ける音声入力手段向き制御手段と，
を具備してなる請求項１〜３のいずれかに記載の音源分離装置。
前記特定音源の存在する方向を表す複数の基準方向と前記分離行列の初期値である初期行列の複数の候補との組合せを表す初期行列候補情報が予め所定の記憶手段に記憶されており，
前記特定音源方向推定手段による推定結果と前記音声入力手段向き制御手段の制御による前記複数の音声入力手段の向きの調節量とに基づいて，前記音声入力手段向き制御手段による制御後における前記特定音源の存在する方向を算出する制御後特定音源方向算出手段と，
前記制御後特定音源方向算出手段の算出結果に基づいて，前記初期行列候補情報における前記初期行列の複数の候補の中から次の前記学習計算に用いる前記初期行列を選択する初期行列選択手段と，
を具備してなる請求項４に記載の音源分離装置。
所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力され，前記音源各々からの音源信号が重畳された複数の混合音声信号に対し，独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記音源信号に対応する複数の分離信号を逐次生成するとともに，該複数の分離信号各々を複数の第１の出力端各々を通じて出力する手段を備えた音源分離装置が有するプロセッサに，
前記第１の出力端各々について，所定時間長分ごとの前記分離信号の特徴量を算出して所定の記憶手段に一時記憶させる特徴量算出・記録手順と，
前記特徴量算出・記録手順により一時記憶された前記第１の出力端各々についての前記特徴量の変遷を自動的に評価することにより前記第１の出力端各々を通じて出力される前記分離信号の入れ替わり状態を判別する信号入れ替わり判別手順と，
前記信号入れ替わり判別手順による判別結果に基づいて，前記第１の出力端を通じて出力されるいずれの前記分離信号を，１又は複数の第２の出力端のいずれを通じて出力するかを切り替える出力切替手順と，
を実行させることを特徴とする音源分離装置用のプログラム。
所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力され，前記音源各々からの音源信号が重畳された複数の混合音声信号に対し，独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記音源信号に対応する複数の分離信号を逐次生成するとともに，該複数の分離信号各々を複数の第１の出力端各々を通じて出力する手順を有する音源分離方法であって，
前記第１の出力端各々について，所定時間長分ごとの前記分離信号の特徴量を算出して所定の記憶手段に一時記憶させる特徴量算出・記録手順と，
前記特徴量算出・記録手順により一時記憶された前記第１の出力端各々についての前記特徴量の変遷を自動的に評価することにより前記第１の出力端各々を通じて出力される前記分離信号の入れ替わり状態を判別する信号入れ替わり判別手順と，
前記信号入れ替わり判別手順による判別結果に基づいて，前記第１の出力端を通じて出力されるいずれの前記分離信号を，１又は複数の第２の出力端のいずれを通じて出力するかを切り替える出力切替手順と，
を有してなることを特徴とする音源分離方法。