JP6622159B2

JP6622159B2 - 信号処理システム、信号処理方法およびプログラム

Info

Publication number: JP6622159B2
Application number: JP2016169999A
Authority: JP
Inventors: 谷口　徹; 徹谷口; 増田　太郎; 太郎増田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2019-12-18
Anticipated expiration: 2036-08-31
Also published as: US10373628B2; JP2018036526A; US20180061432A1

Description

本発明の実施形態は、信号処理システム、信号処理方法およびプログラムに関する。

マイクと音源が離れた状況で、複数の音源がある場合に個々の音源について高品質な集音を実現することを考える。マイクでは、空間中で混合した複数の音源から到来した信号が観測される。このため、音源毎に信号を分離すること、および、目的とする音源が１つの場合は、他の音源（雑音源）から到来する信号を抑圧して集音することが望まれる。このような目的に対して、マイクアレイ、すなわち複数マイクにより得られる多チャネル音響信号を用いて、ターゲット音声を強調する信号処理技術が提案されている。

特許第４７２４０５４号公報

M. Togami, Y. Kawaguchi, H. Kokubo and Y. Obuchi:"Acoustic echo suppressor with multichannel semi-blind non-negative matrix factorization", Proc. of APSIPA, pp. 522−525 （2010）.

しかしながら、従来技術では、空間の音響特性の変動、および、想定したマイク配置や感度との誤差の変動などに起因して、音源推定の精度が低下する場合があった。

実施形態の信号処理システムは、フィルタ部と変換部と分解部と推定部とを備える。フィルタ部は、複数の時系列の入力信号に対して異なる空間特性を有する、入力信号の独立成分分析によって推定されたＮ個のフィルタを適用し、Ｎ個の出力信号を出力する。変換部は、出力信号を、非負の値である非負信号に変換する。分解部は、信号源の個数に応じたＫ個の第１要素、Ｎ個の第２要素、および、周波数の個数であるＩ個の第３要素、の３次元の非負の要素を含む空間基底と、Ｉ次元の列ベクトルで表されるＬ個の非負のスペクトル基底ベクトルを含むＬ行Ｉ列のスペクトル基底行列と、Ｌ次元の非負の活性度ベクトルと、に非負信号を分解する。推定部は、空間基底と、スペクトル基底行列と、活性度ベクトルと、を用いて、出力信号から信号源の信号を表す音源信号を推定する。

第１の実施形態にかかる信号処理システムのブロック図。第１の実施形態における信号処理のフローチャート。ＮＭＦによる分解モデルを示す図。第２の実施形態にかかる信号処理システムのブロック図。ＮＴＦによる分解モデルを示す図。第３の実施形態にかかる信号処理システムのブロック図。第３の実施形態における信号処理のフローチャート。第１〜第３の実施形態にかかる信号処理システムのハードウェア構成図。

以下に添付図面を参照して、この発明にかかる信号処理システムの好適な実施形態を詳細に説明する。

（第１の実施形態）
複数の線形空間フィルタの出力から、特定方向（領域）の音源信号を推定する技術が提案されている。このような技術は、例えば、線形空間フィルタの複数の出力信号のパワースペクトル密度を、各方向（領域）の音源信号のパワースペクトル密度と事前に準備したゲイン行列の積としてモデル化し、そのゲイン行列の（擬似）逆行列を線形空間フィルタの出力ベクトルに掛けることで、特定方向の音源信号を推定している。その際、ゲイン行列は、マイクの空間的配置と線形空間フィルタのパラメータから事前に計算される。上述のように、空間の音響特性の変動等に起因して、事前に想定した環境と、観測信号の実際の環境との間に齟齬が生じ、推定結果の品質が低下する場合がある。

第１の実施形態にかかる信号処理システムは、上記のような事前の様々な仮定をおかず、観測信号そのものからゲイン行列に相当する情報と、観測信号のパラメータを同時に推定する。これにより、従来より高品質な音源推定が可能となる。本実施形態では、多チャネル信号処理の出力や観測信号から得られる空間情報を生かしつつ、入力に応じて処理のモデルパラメータを適応的に推定する。まず、ブラインド音源分離などにより極力音源毎に分離されるよう、多チャネル信号処理の複数の出力信号を得る。そして、多チャネルの複数の出力信号の振幅またはパワースペクトルを、２階、または３階のテンソル（行列）と見たときの非負値テンソル（行列）因子分解（ＮＴＦ（ＮＭＦ）：Nonnegative Tensor（Matrix） Factorization）の問題として、音源分離の問題を定式化する。そして、その因子分解の結果を用いて雑音抑圧フィルタを構成する。

以下の実施形態では、音源を信号源とし、音源から発せられた音響信号（音源信号）を信号源信号とする例を説明する。信号源および信号源信号は、音源および音源信号に限られるものではない。音響信号と同様の空間伝搬モデルを持つ他の信号（例えば脳波信号、電波信号）を適用してもよい。

図１は、第１の実施形態にかかる信号処理システム１００の構成の一例を示すブロック図である。図１に示すように、信号処理システム１００は、マイクアレイ１０１と、フィルタ部１０２と、変換部１０３と、分解部１１０と、推定部１０４と、を備えている。

マイクアレイ１０１は、複数のマイク（センサ）を備える。各マイクは、音源からの音源信号を検出する（検出部）。マイクアレイ１０１は、空間の複数点で音響信号を観測することができる。各点で観測される音響信号は、同時刻であっても、音源位置や空間の音響特性に依存して異なる。これら音響信号の差異を適切に用いることで、空間フィルタを実現できる。マイクアレイ１０１により取得された信号を観測信号という場合がある。

フィルタ部１０２は、マイクアレイ１０１を用いて観測した２以上の観測信号について、相互に異なる空間特性を有するＮ個（Ｎは２以上の整数）の線形空間フィルタを適用し、Ｎ個の出力信号（空間フィルタ出力信号）を出力する。Ｎ個の線形空間フィルタを空間フィルタバンクともいう。フィルタ部１０２に入力される観測信号が、複数の時系列の入力信号に相当する。後述するように、線形空間フィルタの組み合わせを適切に取ることにより、最終的な音源推定の精度を高めることができる。

変換部１０３は、フィルタ部１０２から出力された出力信号を、非負の値である非負信号に変換する。例えば変換部１０３は、フィルタ部１０２から出力された出力信号の周波数分析を行うことで周波数ドメインの信号に変換する。さらに変換部１０３は、周波数ドメインの信号の値を、時刻毎に絶対値や絶対値の２乗を取ることにより非負の値に変換する。変換部１０３は、このようにして得られるＮ個の非負信号を出力する。

周波数分析は、フーリエ分析、フィルタバンク分析、および、ウェーブレット分析などの従来から知られているあらゆる方式を適用できる。フィルタ部１０２にて、線形空間フィルタが周波数ドメインで適用されている場合は、周波数ドメインの信号をフィルタ部１０２から変換部１０３に直接入力すれば、変換部１０３で周波数分析をする必要はない。また、観測信号が周波数ドメインの瞬時混合プロセスに基づき混合され、マイクで観測されている場合は、変換部１０３は、観測信号を周波数ドメインの信号に変換する必要はない。

分解部１１０は、ＮＭＦの方式に基づいて、非負信号を、空間基底行列と活性度ベクトル（活性度ベクトル１）に分解する。空間基底行列は、音源の個数に応じたＫ個（Ｋは２以上の整数）の要素（第１要素）、および、Ｎ個の要素（第２要素）の２次元の非負の要素を含む行列である。活性度ベクトルは、Ｋ次元の非負のベクトルである。

分解部１１０は、空間基底更新部１１１と、活性度更新部１１２と、を備えている。空間基底更新部１１１は、非負信号と活性度ベクトルを参照して、空間基底行列を更新する。活性度更新部１１２は、非負信号と空間基底行列を参照して、活性度ベクトルを更新する。分解部１１０は、これらの更新処理を繰り返し行うことで、分解の精度を向上させることができる。

推定部１０４は、空間基底行列と活性度ベクトルとを用いて、フィルタ部１０２から出力される出力信号から音源信号を推定し、推定した信号（推定音源信号）を出力する。

なお、上記各部（フィルタ部１０２、変換部１０３、分解部１１０、および、推定部１０４）は、例えば、ＣＰＵ（Central Processing Unit）などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣ（Integrated Circuit）などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

次に、このように構成された第１の実施形態にかかる信号処理システム１００による信号処理について図２を用いて説明する。図２は、第１の実施形態における信号処理の一例を示すフローチャートである。

フィルタ部１０２は、マイクアレイ１０１で観測された観測信号（入力信号）に対して、Ｎ個の線形空間フィルタを適用し、Ｎ個の出力信号を出力する（ステップＳ１０１）。変換部１０３は、出力信号を非負信号に変換する（ステップＳ１０２）。分解部１１０は、非負信号を、空間基底行列と活性度ベクトルに分解する（ステップＳ１０３）。推定部１０４は、空間基底行列と活性度ベクトルとを用いて、出力信号から音源信号を推定し、推定した推定音源信号を出力する（ステップＳ１０４）。

（空間フィルタバンクによるパワースペクトルドメインの観測・分解モデル）
次に、本実施形態の詳細についてさらに説明する。ます、空間フィルタバンクを用いた信号の観測モデルおよび分解モデルについて説明する。空間フィルタバンクは、複数のマイクによる観測信号を入力とし、複数の線形空間フィルタからそれぞれ出力信号を出力する。ここでは、この空間フィルタバンクの系を通して混合信号を観測する際の観測モデルを考える。

ある空間において、Ｍ個のマイクを用いて、マイクから見て方向θ_ｋの音源ｋ（１≦ｋ≦Ｋ）から到来する音響信号を観測する。この系を線形時不変システムと考える。音源とマイクの間のインパルス応答が、短時間フーリエ変換（ＳＴＦＴ：Short-Time Fourier Transform）を実行したときの窓長より十分に短い場合、観測信号を短時間フーリエ変換する。周波数ｉ（１≦ｉ≦Ｉ、Ｉは２以上の整数）、時刻ｊ（１≦ｊ≦Ｊ）では、音源信号ｓ_ｉｊｋと観測信号ｘ_ｉｊｋの関係は、（１）式で表すことができる。

ａ_ｉ（θ_ｋ）は、方向θ_ｋのステアリングベクトルとする。音源信号ｓ_ｉｊｋは複素数で表され、観測信号ｘ_ｉｊｋおよびａ_ｉ（θ_ｋ）は、Ｍ次元の複素数で表される。ステアリングベクトルは、音源とマイクアレイ１０１との間で一意に決まる。

ここでは説明を単純にするため、マイクアレイ１０１から見た音源の方向θ_ｋでのみステアリングベクトルが決まるとする。実際は、同じマイクアレイ１０１を用いたとしても、マイクアレイ１０１から音源までの距離、および、室内でのマイクアレイ１０１の位置など様々な空間的要因でステアリングベクトルは変化する。

さらに、Ｋ個の音源が存在する場合の観測信号ｘ_ｉｊは、以下の（２）式のように単純に各音源の観測信号の和で表すことができる。ただし、ｘ_ｉｊはＭ次元の複素数で表される。

観測信号ｘ_ｉｊは、行列形式で、以下の（３）式のように表すこともできる。

Ａ_ｉは、Ｍ×Ｋ次元の複素数で表される混合行列であり、以下の（４）式のように定義される。ｓ_ｉｊは、Ｋ次元の複素数で表される音源ベクトルであり、以下の（５）式のように定義される。（５）式の右辺の「ｔ」は、行列の転置を表す。

この観測信号に対し、Ｎ個の空間フィルタを適用してＮ個の出力信号を得ることを考える。出力信号をＮ次元のベクトルｙ_ｉｊで表すと、Ｎ個の空間フィルタを表す分離行列Ｗ_ｉを用いて、以下の（６）式のように出力信号ｙ_ｉｊを表すことができる。分離行列Ｗ_ｉは、Ｎ×Ｍ次元の複素数で表される。分離行列Ｗ_ｉによって表される空間フィルタ群を空間フィルタバンクＷ_ｉという場合がある。

観測信号ｘ_ｉｊ＝Ａ_ｉｓ_ｉｊがＮ個の異なる空間特性を持つ空間フィルタ群Ｗ_ｉ（空間フィルタバンク）でフィルタされ、Ｎ個の出力信号に分析されると考える。

ここで、Ｇ_ｉ＝Ｗ_ｉＡ_ｉで定義され、Ｋ×Ｎ次元の複素数で表される行列Ｇ_ｉを考えると、さらに、以下の（７）式のように表すことができる。出力信号ｙ_ｉｊが、フィルタ部１０２が出力するＮ個の出力信号に相当する。

仮に各方向のステアリングベクトルａ_ｉ（θ_ｋ）を事前に正確に知ることができれば、Ｇ_ｉは既知となるので、ｙ_ｉｊからｓ_ｉｊを得ることができる。実際には、事前に想定される方向θ_ｋを知ることはできない。また、仮に既知だったとしてもステアリングベクトルａ_ｉ（θ_ｋ）の理論値と現実の値は乖離が見られる。すなわち、ステアリングベクトルａ_ｉ（θ_ｋ）を正確に推定することは困難である。

ここで問題をパワードメインで考えることとする。ｙ_ｉｊのｎ番目（１≦ｎ≦Ｎ）の要素ｙ_ｉｊｎ＝｛ｙ_ｉｊ｝_ｎに着目すると、Ｇ_ｉのｋ行ｎ列の要素｛Ｇ_ｉ｝_ｋｎを使って、以下の（８）式のように表すことができる。

音源間が無相関であると仮定すると、各項の絶対値の２乗を取って、以下の（９）式のように近似することができる。

したがって、行列Ｂについて、各要素について絶対値の２乗を取ったものを｜Ｂ｜^２と表すとすると、（７）式は、以下の（１０）式のようにパワードメインで近似できる。変換部１０３は、例えば（１０）式の左辺などを適用して出力信号を非負信号に変換する。

（７）式と同様に、｜Ｇ_ｉ｜^２が既知であれば、音源のパワースペクトル密度（ＰＳＤ：Power Spectral Density）ベクトル｜ｓ_ｉｊ｜^２を推定することが可能である。

局所ＰＳＤ推定法、または、特許文献１の方法では、方向θ_ｋの代わりに、方向θ_ｋを中心とした角度幅を持つ局所空間Ｒ（θ_ｋ）＝［θ_ｋ−δ，θ_ｋ＋δ］を定義し、その局所空間毎の平均パワースペクトル密度を考える。この平均パワースペクトル密度を、以下の（１１）式で表されるＧ_ｉで代替する。

Ｅ［・］は、期待値演算を表す。ｗ^ｈ _ｎｉは、分離行列Ｗ_ｉのｎ行目のベクトルである。記号ｈは行列のエルミート転置を表す。これにより、位置の特定が困難な特定の１点でなく、ある範囲を持った局所空間の音源のＰＳＤ推定に（１０）式を用いることができる。幅を持った局所空間であれば、アプリケーションに応じて事前に目的音源の位置を想定することも現実的な仮定である。

｜｛Ｇ｝_ｋｎ｜^２を事前に計算するためには、（１１）式で示したように、ステアリングベクトルａ_ｉ（θ）の把握が必要となる。しかし、上述のように、部屋や場所などに応じて変わる空間の音響特性や、想定したマイク配置およびマイク感度との誤差により、ステアリングベクトルが変動する。この結果、音源推定の品質が低くなる場合がある。

そこで、本実施形態では、（１０）式のモデルで音源ＰＳＤ（パワー）の推定問題を、ＮＭＦの問題と捉えることにより、｜｛Ｇ｝_ｋｎ｜^２の精度に依存せず、高精度に音源を推定する。以降では、簡単のため、特に言及しない限りは、行列の各要素の絶対値の２乗の演算子｜・｜^２を省略する。

（多チャネルポストフィルタの導出）
空間フィルタバンクを用いて、観測信号をパワースペクトルドメインで（１０）式のような分解モデルによって表せることを示した。以下では、この問題がＮＭＦの問題として解けることを説明する。

まず、各周波数での非負値行列因子分解（ＮＭＦ）の問題として（１０）式の問題を説明する。以下の（１２）式は、（１０）式を、演算子｜・｜^２を省略して書いた式である。

局所ＰＳＤ推定法では、Ｇ_ｉは事前に与えられている。マイク配置の情報などから方向毎に（１１）式のａ_ｉ（θ）を計算し、また、何らかの規準でｗ^ｈ _ｎｉを事前に設定しておく。その上で、Ｇ_ｉの（擬似）逆行列を用いてｙ_ｉｊからｓ_ｉｊを計算する。その際、ｓ_ｉｊの要素が負になることもあるので、その項は０にするなどして補正する。

（１２）式の両辺の各行列の各要素は全て非負であるため、典型的なＮＭＦの問題と考えることができる。ＮＭＦは、全て非負の値を持つ左辺を、同じく、全て非負の値を持つ右辺の２つの行列に分解する問題である。ベクトルｙ_ｉｊ、ｓ_ｉｊをｊ列として持つ行列をそれぞれ、Ｙ_ｉ、Ｓ_ｉとすると、以下の（１３）式のように表すことができ、ＮＭＦの問題と考えることができる。Ｙ_ｉはＮ×Ｊ次元の非負の実数で表される。Ｓ_ｉはＫ×Ｊ次元の非負の実数で表される。

したがって、Ｇ_ｉも未知でもよく、Ｇ_ｉとｓ_ｉｊは同時に推定することが可能となる。以上のように、マイク配置が未知であっても本実施形態の方法は適用できる。

このとき、Ｇ_ｉのｋ列は、音源ｋからの信号のみを空間フィルタバンクに通した際の出力パタン、すなわち空間フィルタ出力間のパワー比に相当する。（１２）式から明らかなように、パワー比は、音源ｋのパワー（音源信号ｓ_ｉｊｋ）に関わらず一定である。さらに、適切に空間フィルタバンクが設定されていれば、音源ｋ毎に大きく異なるパワー比のパタンとなる。左辺の行列Ｙ_ｉは、ｊ列に関して一貫して出現するＫ個の異なるパタンを行列Ｇ_ｉの各列に抽出する働きがある。このため、ＮＭＦを（１３）式に適用すると、上記のような空間フィルタバンク出力間の音源毎パワー比のパタンが、音源毎に出力されるはずである。

ここでは、Ｇ_ｉの各列に現れるＰＳＤのパタンを、ＮＭＦを１チャネル信号のスペクトログラムの分解に適用した際のスペクトル基底ベクトルに倣い、空間基底ベクトルと呼ぶこととする。併せてこれらを並べたＧ_ｉは空間基底行列と呼ぶ。ｓ_ｉｊの各要素は各音源のパワーに対応するが、Ｇ_ｉとの間に値の任意性が生じる。そこで、ここではＮＭＦの慣習的な用語に習って、ｓ_ｉｊを活性度ベクトルと呼ぶ。

図３は、ＮＭＦによる分解モデルを示す図である。分解部１１０は、左側に示す空間フィルタ出力ベクトルを、右側に示す空間基底行列と活性度ベクトル１とに分解する。空間フィルタ出力ベクトルは、例えばＮ次元のベクトルｙ_ｉｊで表される出力信号に相当する。

なお、音源毎にパワー比が一定であることを利用した音源分離は、複数のマイクが分散配置された際の音源分離および音声強調問題として例えば非特許文献１などによって、ＮＭＦで定式化されている。従来の方法は、空間フィルタバンクの出力ではなく、複数マイクの観測に直接この定式化を適用している点が本実施形態と異なる。

上述のように、ＮＭＦで異なるパタンとして分解されるためには、音源毎に異なる観測間のパタンを持つ必要がある。例えば非特許文献１などの技術では、マイク同士の距離を離して配置することで、例えば、特定のマイクに近い音源と、いずれのマイクからも遠い音源とでＰＳＤパタンが異なることを利用している。具体的には、マイクで観測される信号のＰＳＤは、マイクに近いほど大きくなるため、特定のマイクに近い音源のＰＳＤパタンでは、近いマイクの観測の要素は大きく、他の要素は小さくなるが、いずれのマイクからも遠い音源のＰＳＤパタンでは、要素間の値の差が比較的小さくなる、というパタンの差が生じることを利用している。このパタンが生じるためには、マイク同士と音源との位置関係に、そのようなパタンを生じさせるための特有の仮定が必要である。

一方、本実施形態では、マイク同士は近接していても、空間フィルタバンクを適切に設定することにより、音源間のＰＳＤパタンに差異を生じさせることが可能であり、マイク配置や音源位置に上記のような仮定は必要としない。空間フィルタバンクを構成する空間フィルタ同士で指向特性を変えることにより、そのようなＰＳＤパタンの差異を生じさせることができる。

さらに、音源位置やマイク間位置に応じて、ＰＳＤパタンの差異が大きくなるよう適宜調節することで、本実施形態の音源推定精度を向上させることができる。例えば、空間フィルタバンクとして、周波数ドメインの独立成分分析により音源分離を行った際の線形空間フィルタ群を利用するのが望ましい。このように構成すれば、各フィルタは極力個別の音源を出力するよう学習されているため、自然とＰＳＤパタンは音源毎に異なるものとなる。この結果、上記のＮＭＦの性質により高品質な音源推定が期待できる。空間フィルタバンクを、例えば各々異なる方向へ指向を向けたビームフォーマ群で構成する方法も考えられる。しかし、観測に用いるマイクアレイの全長が短かったり、マイクの数が少ない場合、指向性が鋭くならず、音源毎のＰＳＤパタンの差異を大きくすることができない。独立成分分析に基づく空間フィルタバンクであれば、観測信号に合わせて空間フィルタを構成するので、全長が短く、少ないマイク数のマイクアレイであっても、音源毎のＰＳＤパタンの差異を大きくすることができる。

上記のＮＭＦによる非負行列Ｇ_ｉとＳ_ｉへの分解は、従来の一般的な方法が利用できる。例えば分解部１１０は、Ｇ_ｉ、Ｓ_ｉの要素の値が全て非負であるとの条件下で、Ｙ_ｉと、Ｇ_ｉＳ_ｉの距離ｄ（Ｙ_ｉ，Ｇ_ｉＳ_ｉ）が小さくなるようにＧ_ｉ、Ｓ_ｉを推定する。この距離ｄ（・，・）には、二乗誤差（後述の（１６）式）、および、板倉齋藤距離（後述の（２０）式）などが利用できる。その際、局所最適解への収束が保証された、繰り返し更新則によるＧ_ｉ、Ｓ_ｉの推定方法が利用できる。

このように、第１の実施形態にかかる信号処理システムでは、フィルタから出力された出力信号に対して非負値行列因子分解を適用することにより、空間の音響特性の変動等に依存せずに、より高精度に音源を推定可能となる。

（第２の実施形態）
第２の実施形態にかかる信号処理システムは、多チャネルの振幅またはパワースペクトルを、３階のテンソルと見たときの非負値テンソル因子分解（ＮＴＦ：Nonnegative Tensor Factorization）の問題として、音源分離の問題を定式化する。第２の実施形態は、周波数毎の分解として定式化した第１の実施形態を周波数方向にも拡張した形態に相当する。

図４は、第２の実施形態にかかる信号処理システム１００−２の構成の一例を示すブロック図である。図４に示すように、信号処理システム１００−２は、マイクアレイ１０１と、フィルタ部１０２と、変換部１０３と、分解部１１０−２と、推定部１０４−２と、を備えている。

第２の実施形態では、分解部１１０−２および推定部１０４−２の機能が第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる信号処理システム１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

分解部１１０−２は、ＮＴＦの方式に基づいて、非負信号を、空間基底とスペクトル基底行列と活性度ベクトル（活性度ベクトル３）に分解する。空間基底は、音源の個数に応じたＫ個の要素（第１要素）、Ｎ個の要素（第２要素）、および、周波数の個数であるＩ個（Ｉは２以上の整数）の要素（第３要素）、の３次元の非負の要素を含むテンソルである。スペクトル基底行列は、Ｉ次元の列ベクトルで表されるＬ個（Ｌは２以上の整数）の非負のスペクトル基底ベクトルを含むＬ行Ｉ列の行列である。活性度ベクトルは、Ｌ次元の非負のベクトルである。

なお、スペクトル基底行列と、第２の実施形態の活性度ベクトル（活性度ベクトル３）との積により、第１の実施形態の活性度ベクトル（活性度ベクトル１）を算出することができる。

分解部１１０−２は、空間基底更新部１１１−２と、活性度更新部１１２−２と、スペクトル基底更新部１１３−２と、を備えている。空間基底更新部１１１−２は、出力信号とスペクトル基底行列と活性度ベクトルとを参照して、空間基底を更新する。スペクトル基底更新部１１３−２は、出力信号と空間基底と活性度ベクトルとを参照して、スペクトル基底行列を更新する。活性度更新部１１２−２は、出力信号と空間基底とスペクトル基底行列とを参照して、活性度ベクトルを更新する。分解部１１０−２は、これらの更新処理を繰り返し行うことで、分解の精度を向上させることができる。

推定部１０４−２は、空間基底とスペクトル基底行列と活性度ベクトルとを用いて、出力信号から信号源の信号を表す音源信号を推定し、推定した信号（推定音源信号）を出力する。

なお、第２の実施形態における信号処理の流れは、第１の実施形態にかかる信号処理システム１００における信号処理（図２）と同様であるため説明を省略する。

次に、周波数方向に拡張して定式化した音源分離の問題が、ＮＴＦの問題として解けることを説明する。上述の（１２）式および（１３）式では、周波数毎の個別の分解を考えているため、周波数間でいずれの空間基底がいずれの音源に属するかを決めるパーミテーションの問題が一般に存在する。

本実施形態では、空間基底に加え、スペクトル基底を導入することによりパーミテーション問題に対応する。これは、同じ音源から到来する信号であれば、そのパワー成分の値は全周波数で同期して変動すると考えられることによる。

また、音源数は入力チャネル数と比較して少ないことが多いため、周波数毎のＮＭＦの場合、ＮＭＦの目的関数に罰則項を入れる、または、事前に基底を学習するなどの工夫なしでは、精度の高い分離は難しかった。本実施形態のように周波数間を関連づけるスペクトル基底を導入することにより、周波数間での制約が加わるため、上記のような工夫なしで精度の高い分離が可能となる。

まず、空間フィルタバンクの出力｛ｙ_ｉｊ｝_ｎ＝ｙ_ｉｊｎについて以下の（１４）式のような分解を考える。

ここで、ｇ_ｉｎｋは空間基底の係数（を再定義したもの）である。ｔ^（ｋ） _ｉｌは音源ｋのスペクトル基底の係数である。ｖ^（ｋ） _ｌｊは活性度の係数である。これらの係数は全て非負の実数である。ｌ（１≦ｌ≦Ｌ）はスペクトル基底のインデックスを表す。

図５は、ＮＴＦによる分解モデルを示す図である。分解部１１０−２は、左側に示す空間フィルタ出力ベクトルを、右側に示す空間基底とスペクトル基底行列と活性度ベクトル３とに分解する。活性度ベクトル２は、活性度ベクトル１の、各信号源に対応する要素を、周波数の少なくとも一部の帯域の組をＩ次元のベクトルで表したベクトルに相当する。活性度ベクトル２は、スペクトル基底行列と活性度ベクトル３との積に分解される。

ここでは、各音源毎に同数で個別のＬ個のスペクトル基底を持つとする。Ｌは音源毎に異なってもかまわないし、音源間でスペクトル基底を共有して持ってもかまわない。

（１４）式は、非負要素の３階のテンソル｛ｙ_ｉｊｎ｝を、非負の値を持つテンソル｛ｇ_ｉｎｋ｝、｛ｔ^（ｋ） _ｉｌ｝、および、｛ｖ^（ｋ） _ｌｊ｝へと分解する問題であり、一種のＮＴＦ問題ととらえることができる。

本実施形態のＮＴＦでは、ＮＭＦと同様に、空間フィルタバンクでの観測信号ｙ_ｉｊｎと分解による推定値ｙ^_ｉｊｎの距離が小さくなるよう、係数ｇ_ｉｎｋ、ｔ^（ｋ） _ｉｌ、および、ｖ^（ｋ） _ｌｊを最適化する。すなわち、ｘとｙとの距離をｄ（ｘ，ｙ）としたとき、以下の（１５）式で表される問題を解く。

この問題は、ＮＭＦと同様に、局所最適解への収束が保証された、補助関数法を用いた更新則による推定方法が利用できる。

なお、この時の距離規準ｄは、目的に応じて選択することができる。距離規準に以下の（１６）式で表される二乗誤差（ユークリッド距離）ｄ_Ｅｕｃを用いたとき、各係数の更新則は（１７）式、（１８）式、（１９）式のようになる。ただし、この場合のｙ_ｉｊｎは、パワースペクトルではなく振幅スペクトルである。

また、距離規準に以下の（２０）式で表される板倉齋藤距離ｄ_ＩＳを用いた場合、更新則は（２１）式、（２２）式、（２３）式のようになる。ただし、この場合のｙ_ｉｊｎは、パワースペクトルである。より一般的なβダイバージェンスでの更新式を適用してもよい。

なお、基底と活性度間の任意性をなくすために、ｇ_ｉｎｋとｔ^（ｋ） _ｉｌは、各更新において以下の（２４）式、（２５）式で表される正規化を行う。

分解部１１０−２は、１回の更新を（１７）式、（２４）式、（１８）式、（２５）式、（１９）式の順、または、（２１）式、（２４）式、（２２）式、（２５）式、（２３）式の順とし、更新を繰り返し実行する。

このように、第２の実施形態にかかる信号処理システムでは、フィルタから出力された出力信号に対して非負値テンソル因子分解を適用することにより、空間の音響特性の変動等に依存せずに、より高精度に音源を推定可能となる。

（音声強調・音源分離への適用）
ＮＭＦ（第１の実施形態）およびＮＴＦ（第２の実施形態）で求めた係数により音声強調、または、音源分離を実施するには、推定係数によりゲイン係数または分離行列を求めて適用する。

ｎ番目のフィルタバンク出力ｙ_ｉｊｎについて、音源ｋ成分を推定するゲイン係数ｈ_ｉｊｎｋは例えば、以下の（２６）式のように計算できる。

これを用いてフィルタバンク出力ｙ_ｉｊｎ（ここでは｜・｜^２をとったパワースペクトルではなく複素スペクトル）から、以下の（２７）式のように音源ｋの複素スペクトル成分ｚ_ｉｊｎｋを推定する。

この場合、既にｎ以外のフィルタバンク出力に紛れた成分は復元できない。そこで、振幅またはパワー領域での分離行列Ｈ_ｉｊを考えてもよい。Ｈ_ｉｊは、Ｋ×Ｎ次元の実数で表される。

このとき、音源ｋの推定音源複素スペクトルｚ_ｉｊｋは、以下の（２９）式により求めることができる。ここでもフィルタバンク出力ｙ_ｉｊｎは複素スペクトルである。

なお、（２７）式や（２９）式の音声強調および音源分離の方法は一例に過ぎない。例えば、（２６）式や（２８）式の右辺の平方根を取るなどしてもかまわない。また、（２６）式や（２８）式の分子および分母の各項をｐ乗し、右辺全体のｑ乗根を取るなどしてもかまわない。ＭＭＳＥ（Minimum Mean Square Error）−ＳＴＳＡ（Short Time Spectral Amplitude）などの方法を利用してもよい。

（音声強調のための半教師あり学習）
上述の係数の更新では、音源ｋに関する情報は事前に与えていないため、通常のブラインド音源分離の問題と同様に、どれが所望の音源かは直接知ることはできない。音声強調への応用では、例えば、音源数Ｋ＝２として、音声および雑音の２つの音源を考えるが、ｋ＝１がいずれの音源となるかは不明である。

ここでは、ｋ＝１のスペクトル基底ｔ^{（ｋ＝１）} _ｉｌの全てを予めクリーン音声から学習した基底を学習時に設定する。そして、（１８）式または（２２）式の更新則において、ｋ＝１の係数についてのみは更新を実施しない。これにより、ｋ＝１に対応する信号は音声信号となることが期待できる。ｋ＝１のスペクトル基底は更新しないため、学習時の計算量を減らす効果も期待できる。

また、ｋ＝１のスペクトル基底に、事前にクリーン音声（学習データ）から学習した基底を、学習の初期値として設定してもよい。この場合は学習時の更新について計算量が増えるが、事前に学習したクリーン音声と比較し、観測の音声に歪みがある場合は、学習により音声のスペクトル基底が歪みに適応する効果が期待できる。

ｋ＝１のスペクトル基底の一部のみにクリーン音声を設定し、その基底については学習時に更新を行わず、ｋ＝１の残りの基底とｋ≠１の基底全てを更新した場合、音声と想定しているｋ＝１の方向から到来する雑音は、ｋ＝１の音声以外の基底として学習されることが期待できる。従って、ｋ＝１の音源と同じ方向から到来する雑音も音声から分離できる。

学習の初期値は上記に限られるものではなく、例えば、マイクアレイの空間配置と線形空間フィルタから計算した値を、学習の初期値として設定してもよい。

（第３の実施形態）
第３の実施形態では、信号処理システムを音声入力装置に応用した例を説明する。本実施形態の信号処理システムでは、推定された音源信号を用いて、雑音下などの通常では音声認識（音声を文字に変換する技術）が困難な環境でも高精度に音声認識を行う。そして、その結果を用いて機器の操作を行う、および、ユーザに音声認識の結果を表示する、などの制御を行う。

図６は、第３の実施形態にかかる信号処理システム１００−３の構成の一例を示すブロック図である。図６に示すように、信号処理システム１００−３は、マイクアレイ１０１と、フィルタ部１０２と、変換部１０３と、分解部１１０と、推定部１０４と、識別部１０５−３と、算出部１０６−３と、出力制御部１０７−３と、表示部１２０−３と、を備えている。

第３の実施形態では、識別部１０５−３、算出部１０６−３、出力制御部１０７−３、および、表示部１２０−３を追加したことが第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる信号処理システム１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。なお、第１の実施形態の代わりに、第２の実施形態に対して、本実施形態の方法を適用してもよい。すなわち、第２の実施形態に対して、識別部１０５−３、算出部１０６−３、出力制御部１０７−３、および、表示部１２０−３の機能を追加してもよい。

識別部１０５−３は、音源信号に基づく識別処理を実行する。例えば識別部１０５−３は、推定部１０４で得られた推定音源信号について、各時刻の信号のカテゴリ識別を行う。例えば、信号が音響信号であり、音源が発話音声であった場合、識別部１０５−３は、各時刻について音素識別を行い、話者が話した内容を文字起こしする、いわゆる音声認識を行い、認識結果を出力する。このように、カテゴリ識別には、ユーザが発する音声の種別または内容を識別する処理が含まれる。例えば、先に挙げた音素識別を用いた連続音声認識、特定の単語の発話の有無を検出する特定キーワード検出、および、単に音声の発話の有無を検出する音声検出などが、カテゴリ識別の例として挙げられる。

算出部１０６−３は、空間基底（空間基底行列）の値の分布などに基づき、フィルタ部１０２により信号源が分離される度合いを示す分離度を算出する。分離度は、ある音源信号が、どの程度、他の音源信号と分離されているかを表す。

出力制御部１０７−３は、分離度に応じて、識別部１０５−３による識別処理の処理結果の出力を変更する制御を行う。例えば出力制御部１０７−３は、識別部１０５−３で得られたカテゴリに基づいて、表示部１２０−３に対する表示を制御する。その際、識別部１０５−３は、算出部１０６−３から出力された分離度を参照して表示の態様を変更する。例えば識別部１０５−３は、分離度が低ければ、推定部１０４によって推定された推定音源信号の推定精度も低く、識別部１０５−３による結果も信頼できないと考え、ユーザである話者に、その理由と共に再発声を促すメッセージなどを表示する。

表示部１２０−３は、画像、映像、および、音声信号などの各種情報を表示するディスプレイなどの装置である。表示部１２０−３に対する表示内容は、出力制御部１０７−３により制御される。

情報の出力方法は画像などの表示に限られるものではなく、音声を出力する方法を用いてもよい。この場合、表示部１２０−３とともに、または、表示部１２０−３の代わりに、スピーカなどの音声出力部を備えてもよい。また、識別結果を用いて機器などの操作を制御するように構成してもよい。

このように、算出部１０６−３により、音源信号がどの程度うまく推定できるかを表す分離度を算出し、算出結果を出力制御部１０７−３における出力の制御に用いる点が、本実施形態が、信号処理装置と他の装置の単なる組み合わせではない点の１つである。

次に、このように構成された第３の実施形態にかかる信号処理システム１００−３による信号処理について図７を用いて説明する。図７は、第３の実施形態における信号処理の一例を示すフローチャートである。

ステップＳ２０１からステップＳ２０４までの、信号処理は、第１の実施形態にかかる信号処理システム１００におけるステップＳ１０１からステップＳ１０４までと同様の処理なので、その説明を省略する。

識別部１０５−３は、推定部１０４により推定された信号（推定音源信号）に対して識別処理を実行し、識別結果（カテゴリなど）を出力する（ステップＳ２０５）。算出部１０６−３は、空間基底に基づき分離度を算出する（ステップＳ２０６）。出力制御部１０７−３は、算出された分離度に応じて識別結果の出力を制御する（ステップＳ２０７）。

次に、分離度の算出方法の具体例について説明する。（１３）式の空間基底行列Ｇ_ｉのｋ列ベクトルｇ_ｉｋは、音源ｋの空間フィルタ出力におけるＰＳＤ出力パタンを表す。もし、フィルタ部１０２の線形空間フィルタによって、十分に音源ｋが分離されていれば、ｇ_ｉｋの１つまたは少数の要素のみが大きな値を持ち、残りの要素は小さい値を持つはずである。従って、ｇ_ｉｋの要素間に値の大小に偏りがあるか否か（値の分布）を調べれば、フィルタ部１０２において音源信号が十分に分離されているかが分かる。さらに、フィルタ部１０２である程度、音源信号が分離されていることが、推定部１０４で音源信号をさらに高精度に推定するための必要条件となる。そこで、ｇ_ｉｋの要素間の値の大小の偏りを調べれば、識別部１０５−３に入力される推定音源信号の精度が分かる。

ｇ_ｉｋの要素間の値の大小の偏りは、例えば、以下の（３０）式のようにエントロピーを計算することで定量化できる。ｇ_ｎは、列ベクトルｇのｎ番目の要素を表す。

また、列ベクトルｇは、以下の（３１）式のように正規化されているものとする。

値の偏りが大きければＨ（ｇ）が小さく、偏りが小さければＨ（ｇ）が大きくなる。例えば、（３１）式の逆数１／Ｈ（ｇ）を音源ｋの分離度とする。実際には、（３１）式は周波数方向ｉにも累積和を取るなどして用いる。

また、分解部１１０で高精度に信号が分解できるかどうかは、空間フィルタ出力における音源毎のＰＳＤパタンの差異が十分に大きいかどうかに依存している。ｇ_ｉｋ間の類似度、具体的には例えば二乗誤差が小さい場合、十分に分離できていない可能性が高い。類似度の逆数を分離度として出力するなどの例も考えられる。

算出部１０６−３は、空間基底行列の他に、活性度ベクトル（活性度ベクトル１）を用いて分離度を算出してもよい。例えば算出部１０６−３は、（３０）式および（３１）式において、空間基底行列の列ベクトルｇ_ｉｋの代わりに、活性度ベクトルｓ_ｉｊによりエントロピーＨ（ｓ_ｉｊ）を計算してもよい。もし、ある方向から音声が入力され、かつ、十分に音源が推定されていれば、活性度ベクトル１の値には偏りが生じ、Ｈ（ｓ_ｉｊ）の値は小さくなるという性質を持つ。このため、Ｈ（ｓ_ｉｊ）は、Ｈ（ｇ）と同様に分離度として利用できる。

（信号処理システムのユースケース）
ここまで説明した信号処理システムの実際の利用例を説明する。

（ケース１：会議書き起こしシステム）
利用例として、会議の際に会議室に設置され、会議の発言内容を書き起こす、会議書き起こしシステムを考える。当システムは、上記実施形態の信号処理システムを備え、例えば会議室の会議テーブルの中央に設置される。本体に備えた複数のマイクにより、複数の話者から到来する音声信号を観測し、話者毎に推定した推定音声信号を出力する。出力された話者毎の推定音源信号をそれぞれ、音声認識装置（識別部１０５−３）にて認識し、各話者の発話内容を文字化する。書き起こし内容は、会議の内容を後々振り返る際に活用できる。

話者から離れた位置に設置したマイクで収録した音声の音声認識は、他の話者の音声、部屋の残響、環境雑音、および、マイクに連なる電気回路に起因する自己雑音の影響により、正しく文字に書き起こす精度が低下する。このため、それらの影響を取り除く音源信号の推定装置が必要となる。上記実施形態の信号処理システムを利用すれば、従来の方法より高精度に各話者の音声信号を推定することができ、音声認識精度を向上させることができる。

上記実施形態の信号処理システムは、マイクの配置が事前に不明であってもよいため、各マイクを個別に移動させてもかまわない。例えば、一部のマイクを会議参加者の近くに置けば、より音声認識精度を向上させることができる。また、会議毎にそのマイク配置位置を変更してもかまわないなど、柔軟な運用が可能である。

また、算出部１０６−３を用いた仕組みにより、信号処理システム自身が、ユーザ音声を十分に推定できていないことを判断することができる。その時刻を会議音声と共に記録しておけば、書き起こしの利用者やシステムの書き起こし補助者が、対応する時刻の会議音声を聞き直すことで、すべての音声を聞き直す場合に比べて、迅速に書き起こしテキストの認識誤りを修正することができる。

また、特に特定の話者の音声が継続して推定が不十分である時は、マイク位置がユーザから離れている、および、マイクの指向性がユーザに向いていない、などの問題が考えられる。その際は、会議参加者に、発話が上手く聞き取れていない旨を提示し、マイクを参加者の側に置く、マイクを参加者に向けるなど、マイクの再設置を促すことができる。

（ケース２：音声応答システム）
別の利用例として、雑音下での音声応答システムが考えられる。音声応答システムは、ユーザの質問や要望を音声により受け付け、その内容を理解し、データベースにアクセスするなどして、ユーザの望む回答を提示する。本システムが、駅や店舗などの公共スペースに設置されていると、周囲の雑音により、正しくユーザの音声を聞き取れないことがある。そこで、音声応答システムに、上記実施形態の音声入力装置を適用する。

先に述べた会議書き起こしシステムのユースケースと同様に、上記実施形態により、より高品質な、すなわち雑音をより適切に抑圧したユーザ音声を得ることができる。それにより、音声応答システムは、従来より適切な回答をユーザに提供することができる。

また、算出部１０６−３を用いた仕組みにより、信号処理システム自身が、ユーザ音声を十分に推定できていないことを判断することができる。その際は、ユーザに、今のユーザ発話が上手く聞き取れなかった旨を提示し、再発声を促すことができる。従って、システムが誤って聞き取ったことによって、システムがユーザの質問を誤って理解し、不適切に回答することを防ぐことができる。

以上説明したとおり、第１から第３の実施形態によれば、空間の音響特性の変動等に依存せずに、より高精度に音源を推定可能となる。

次に、第１〜第３の実施形態にかかる信号処理システムのハードウェア構成について図８を用いて説明する。図８は、第１〜第３の実施形態にかかる信号処理システムのハードウェア構成例を示す説明図である。

第１〜第３の実施形態にかかる信号処理システムは、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１〜第３の実施形態にかかる信号処理システムで実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１〜第３の実施形態にかかる信号処理システムで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１〜第３の実施形態にかかる信号処理システムで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１〜第３の実施形態にかかる信号処理システムで実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１〜第３の実施形態にかかる信号処理システムで実行されるプログラムは、コンピュータを上述した信号処理システムの各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００、１００−２、１００−３信号処理システム
１０１マイクアレイ
１０２フィルタ部
１０３変換部
１０４推定部
１０５−３識別部
１０６−３算出部
１０７−３出力制御部
１１０、１１０−２分解部
１２０−３表示部

Claims

複数の時系列の入力信号に対して異なる空間特性を有するフィルタであって、前記入力信号の独立成分分析によって推定されたＮ個（Ｎは２以上の整数）のフィルタを適用し、Ｎ個の出力信号を出力するフィルタ部と、
前記出力信号を、非負の値である非負信号に変換する変換部と、
信号源の個数に応じたＫ個（Ｋは２以上の整数）の第１要素、Ｎ個の第２要素、および、周波数の個数であるＩ個（Ｉは２以上の整数）の第３要素、の３次元の非負の要素を含む空間基底と、Ｉ次元の列ベクトルで表されるＬ個（Ｌは２以上の整数）の非負のスペクトル基底ベクトルを含むＬ行Ｉ列のスペクトル基底行列と、Ｌ次元の非負の活性度ベクトルと、に前記非負信号を分解する分解部と、
前記空間基底と、前記スペクトル基底行列と、前記活性度ベクトルと、を用いて、前記出力信号から信号源の信号を表す音源信号を推定する推定部と、
前記音源信号に基づく識別処理を実行する識別部と、
前記空間基底に基づき、前記フィルタにより信号源が分離される度合いを示す分離度を算出する算出部と、
前記分離度に応じて、前記識別処理の処理結果の出力を変更する制御を行う出力制御部と、
を備える信号処理システム。
前記分解部は、
前記出力信号と、前記スペクトル基底行列と、前記活性度ベクトルと、を参照して、前記空間基底を更新する空間基底更新部と、
前記出力信号と、前記空間基底と、前記活性度ベクトルと、を参照して、前記スペクトル基底行列を更新するスペクトル基底更新部と、
前記出力信号と、前記空間基底と、前記スペクトル基底行列と、を参照して、前記活性度ベクトルを更新する活性度更新部と、を備える、
請求項１に記載の信号処理システム。
前記分解部は、前記空間基底、前記スペクトル基底行列、および、前記活性度ベクトルの積と、前記出力信号と、の間の距離がより小さくなるように、前記空間基底、前記スペクトル基底行列、および、前記活性度ベクトルを更新する、
請求項２に記載の信号処理システム。
前記距離は、板倉齋藤距離、または、ユークリッド距離である、
請求項３に記載の信号処理システム。
前記分解部は、学習データから事前に学習した値を前記スペクトル基底ベクトルの初期値として更新を行う、
請求項２に記載の信号処理システム。
前記変換部は、前記出力信号を、前記出力信号の絶対値、または、前記出力信号の絶対値の２乗である前記非負信号に変換する、
請求項１に記載の信号処理システム。
複数の時系列の入力信号に対して異なる空間特性を有するフィルタであって、前記入力信号の独立成分分析によって推定されたＮ個（Ｎは２以上の整数）のフィルタを適用し、Ｎ個の出力信号を出力するフィルタステップと、
前記出力信号を、非負の値である非負信号に変換する変換ステップと、
信号源の個数に応じたＫ個（Ｋは２以上の整数）の第１要素、Ｎ個の第２要素、および、周波数の個数であるＩ個（Ｉは２以上の整数）の第３要素、の３次元の非負の要素を含む空間基底と、Ｉ次元の列ベクトルで表されるＬ個（Ｌは２以上の整数）の非負のスペクトル基底ベクトルを含むＬ行Ｉ列のスペクトル基底行列と、Ｌ次元の非負の活性度ベクトルと、に前記非負信号を分解する分解ステップと、
前記空間基底と、前記スペクトル基底行列と、前記活性度ベクトルと、を用いて、前記出力信号から信号源の信号を表す音源信号を推定する推定ステップと、
前記音源信号に基づく識別処理を実行する識別ステップと、
前記空間基底に基づき、前記フィルタにより信号源が分離される度合いを示す分離度を算出する算出ステップと、
前記分離度に応じて、前記識別処理の処理結果の出力を変更する制御を行う出力制御ステップと、
を含む信号処理方法。
コンピュータを、
複数の時系列の入力信号に対して異なる空間特性を有するフィルタであって、前記入力信号の独立成分分析によって推定されたＮ個（Ｎは２以上の整数）のフィルタを適用し、Ｎ個の出力信号を出力するフィルタ部と、
前記出力信号を、非負の値である非負信号に変換する変換部と、
信号源の個数に応じたＫ個（Ｋは２以上の整数）の第１要素、Ｎ個の第２要素、および、周波数の個数であるＩ個（Ｉは２以上の整数）の第３要素、の３次元の非負の要素を含む空間基底と、Ｉ次元の列ベクトルで表されるＬ個（Ｌは２以上の整数）の非負のスペクトル基底ベクトルを含むＬ行Ｉ列のスペクトル基底行列と、Ｌ次元の非負の活性度ベクトルと、に前記非負信号を分解する分解部と、
前記空間基底と、前記スペクトル基底行列と、前記活性度ベクトルと、を用いて、前記出力信号から信号源の信号を表す音源信号を推定する推定部と、
前記音源信号に基づく識別処理を実行する識別部と、
前記空間基底に基づき、前記フィルタにより信号源が分離される度合いを示す分離度を算出する算出部と、
前記分離度に応じて、前記識別処理の処理結果の出力を変更する制御を行う出力制御部と、
として機能させるためのプログラム。