JP3949150B2 - 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 - Google Patents

信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 Download PDF

Info

Publication number
JP3949150B2
JP3949150B2 JP2005513646A JP2005513646A JP3949150B2 JP 3949150 B2 JP3949150 B2 JP 3949150B2 JP 2005513646 A JP2005513646 A JP 2005513646A JP 2005513646 A JP2005513646 A JP 2005513646A JP 3949150 B2 JP3949150 B2 JP 3949150B2
Authority
JP
Japan
Prior art keywords
signal
value
values
mask
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005513646A
Other languages
English (en)
Other versions
JPWO2005024788A1 (ja
Inventor
章子 荒木
宏 澤田
昭二 牧野
良 向井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2005024788A1 publication Critical patent/JPWO2005024788A1/ja
Application granted granted Critical
Publication of JP3949150B2 publication Critical patent/JP3949150B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21347Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis using domain transformations

Description

本発明は、信号処理の技術分野に関し、特に、必要である源信号(目的信号)のみを直接観測することができず、目的信号に他の信号が重畳されて観測されるという状況において目的信号を推定する信号分離方法、信号分離装置、信号分離プログラム及びそれを格納した記録媒体に関する。
従来から、複数の源信号(音声信号等)が混合された混合信号を用い、源信号や混合過程の知識を用いることなく、混合前の源信号を分離・抽出するブラインド信号分離(BSS:Blind Source Separation)技術が知られている。
図27Aは、このブラインド信号分離技術を概念的に例示したブロック図である。
この図に例示するように、ブラインド信号分離では、複数(この例ではN個)の信号源701から発せられた源信号s(i=1,…,N)が混合し、複数(この例ではM個)のセンサ702で観測される状況下において、その観測信号x(j=1,…,M)のみから、源信号と推測される分離信号y(k=1,…,N)を取り出す。ここで、信号源701から発せられた源信号sが混合し、センサ702で観測されるまでの過程を「混合過程」と呼び、センサ702の観測結果から分離信号を取り出す過程を「分離過程」と呼ぶ。
はじめに、観測される信号及び分離問題を定式化する。
〔実環境での混合信号(観測信号)のモデル〕
まず、混合過程についてモデル化する。
Nを信号源701の個数、Mをセンサ702の個数、sをi番目の信号源701(信号源i)から発せられた信号(源信号)、hjiを信号源iからj番目のセンサ702(センサj)までのインパルス応答とする。この場合、センサjで観測される信号xは、これら源信号sとインパルス応答hjiの畳み込み混合
Figure 0003949150
でモデル化される。ここで「畳み込み」とは、信号の伝搬過程で、信号が遅延され、所定の係数が乗算された後、加算されることをいう。また、すべての信号はあるサンプリング周波数でサンプリングされ、離散的に表現されるものとする。そして、式(1)におけるPはインパルス応答長を、tはサンプリング時刻を、pは掃引(時間シフトした信号のサンプル値それぞれに異なる係数を作用させる操作)のための変数を、それぞれ示している。なお、N個の信号源701は統計的に互いに独立であり、それぞれの信号は十分スパースであると仮定する。また、「スパース」とは、信号が殆どの時刻tにおいて0であることを指し、このスパース性は、例えば音声信号で確認される。
BSSの目的は、源信号sやインパルス応答hjiを知らずに、観測信号xのみから、分離システム(W)703を推定し分離信号yを得ることである。
また、畳み込み混合の問題は扱いが繁雑であること、さらに、スパース性の仮定は時間−周波数領域でよりよく成立することから、上述の式(1)に短時間離散フーリエ変換(DFT:Discrete Fourier Transform)を施して、信号を時間−周波数領域に変換した上で問題を扱うことが有効である。時間−周波数領域では、上述の式(1)は、
X(f,m)=H(f)S(f,m)
となる。ここで、fは周波数、mはDFTに用いるフレームの時刻を表す。また、H(f)は、そのij要素に信号源iからセンサjまでの周波数応答Hji(f)を持つ(M×N)行列であり、以後これを混合行列と呼ぶ。また、S(f,m)=[S(f,m),…,S(f,m)]、X(f,m)=[X(f,m),…,X(f,m)]はそれぞれ、源信号と観測信号のDFT結果である。なお、記号[α]はαの転置行列を表す。また、S(f,m)及びX(f,m)はベクトルである。
以降、時間−周波数領域で説明を行う。
<分離過程のモデル>
次に、分離過程についてモデル化する。
まず、W(f,m)を、そのjk要素にセンサjでの観測信号から分離信号yまでの周波数応答Wjk(f,m)を持つ(N×M)行列であるとする。このW(f,m)を分離行列と呼ぶ。分離行列を用いると、分離信号は時間−周波数領域で、
Y(f,m)=W(f,m)X(f,m)
となる。ここでY(f,m)=[Y(f,m),…,Y(f,m)]は、時間−周波数領域での分離信号であり、これを短時間逆離散フーリエ変換(IDFT:Inverse Discrete Fourier Transform)することで、源信号の推定結果である分離信号yを得る。なお、分離された分離信号yの順序は、源信号sの順序と必ずしも一致しない。すなわち、k=jとは限らない。また、Y(f,m)はベクトルである。
<分離行列W(f,m)の推定>
BSSでは、観測信号のみから分離行列W(f,m)を推定する。
分離信号Y(f,m)の推定のための従来手法には、(a)独立成分分析による方法、(b)信号のスパース性を利用した方法、(c)スパース性により混合行列を推定する方法が知られている。以下、それぞれについて説明を行う。
[従来法1:独立成分分析による方法]
前述の式(1)のように線形混合された信号を、信号の統計的独立性に基づいて分離する技術は、独立成分分析(ICA:Independent Component Analysis)と呼ばれる。N=M=2の場合について、このICAによる分離過程のブロック図を、図27Bに示す。時間−周波数領域のICAでは、出力信号Y(f,m)の各要素が互いに独立となるよう、学習則W(f)=W(f)+ΔW(f)により逐次的に学習を行い、各周波数における分離行列W(f,m)を求める。ここでは、ICA分離行列推定部705が、例えば、
Figure 0003949150
という学習則によりΔW(f)を求める。但し[α]はαの共役転置を示す。なお、Iは単位行列、<・>は時間平均、φはある非線形関数、μは更新係数を、それぞれ表す。また、ICAで求められる分離システムは、時不変線形システムとなる。なお、ICAのアルゴリズムは、非特許文献1に記載されているものなど、様々なものが紹介されている。
ICAでは信号の独立性に着目して分離を行うため、この分離行列W(f,m)を用い、Y’(f,m)=W(f,m)X(f,m)によって得られるY’(f,m)=[Y’(f,m),…,Y’(f,m)]には、順序の任意性と大きさの任意性とがある。これは、順序や大きさが変わっても分離信号間の独立性が保たれるからである。
順序の任意性を解くことをパーミュテーション(permutation)の解決と呼ぶが、これは、同じ源信号sに対応する分離信号成分が、すべての周波数で同じ添字iを持つ分離信号Y(f,m)になるようにするものである。その方法としては、分離行列の逆行列(N≠Mの場合はMoore−Penrose型擬似逆行列)を用いて得られる信号の推定到来方向を検証し、i番目の分離信号に対応する推定到来方向が各周波数においてすべて同じとなるように分離行列W(f,m)の行を入れ換える方法や、周波数間でi番目の分離信号の絶対値|Y(f,m)|の相関が最も高くなるように分離行列W(f,m)の行を入れ換える方法などがある。なお、この例のパーミュテーション/スケーリング解決部706は、分離信号Y(f,m)をフィードバックしつつ、このパーミュテーションの解決を行う。
また、大きさの任意性を解くことをスケーリング(scaling)の解決と呼ぶ。パーミュテーション/スケーリング解決部706は、例えば、permutation解決後に得られている分離行列W(f,m)の逆行列(N≠Mの場合はMoore−Penrose型擬似逆行列)W−1(f,m)を計算し、分離行列W(f,m)の各行w(f,m)について
(f,m)←[W−1(f,m)]ji(f,m)
とし、このスケーリングの解決を行う。
そして、順序と大きさの任意性を解決した分離行列W(f,m)を用い、Y(f,m)=W(f,m)X(f,m)により各周波数での分離信号を得る。
なお、上述の学習則については、例えば、式(2)における非線形関数として、
φ(Y)=φ(|Y|)・exp(j・∠(Y))
φ(x)=sign(x)
などを用いることができる。また、上述のように、permutation解決法としては、例えば、信号到来方向推定法や分離信号の周波数成分の周波数類似度を利用した方法の何れか、若しくは、両者を組み合わせた方法を用いることができ、それについては特許文献1や非特許文献2に詳しい。さらに、ICAでは、信号源の数Nとセンサ数MがM≧Nの関係にある必要がある。
[従来法2:スパース性による方法]
信号源の数Nとセンサ数MがMNの関係にある場合の分離手法として、信号のスパース性による方法がある(例えば、非特許文献3)。
信号のスパース性と相互独立性を仮定することで、複数の信号が同時に存在していても、サンプルレベルでは、同時刻に互いに重なり合って観測される確率が低いということを仮定できる。すなわち、各時刻における観測信号には、高々1個の信号しか含まれないということを仮定できる。従って、それぞれの時刻で観測された信号が、どの信号源から発せられた信号であるかを何らかの方法で推定し、その時刻の信号のみを抽出するような関数(バイナリマスク)を分離システムW(f,m)として用いることで、信号を分離することが可能である。これがスパース性による方法である。
図28(従来法2)は、このスパース性による方法を説明するためのブロック図である。
各時刻での信号源の推定には、以下の方法を用いるのが一般的である。すなわち、それぞれの信号源が空間的に離れて配置されているとすると、複数のセンサで観測される信号間に、各信号源とセンサの相対位置によって決まる位相差や振幅比が発生する。各時刻における観測信号には高々1つの信号しか含まれないという仮定から、各時刻における観測信号の位相差や振幅比は、その時刻の観測信号に含まれる1つの信号の位相や振幅となる。従って、各サンプルにおける観測信号の位相差や振幅比をクラスタリングすることができ、それぞれのクラスに属する時刻の信号を再構成することで各源信号を推定することができる。
より具体的に述べる。はじめに観測信号相対値計算部751において、観測信号X(f,m)間の
Figure 0003949150
の少なくとも一方を計算し、それを相対値z(f,m)とする。また、或いは位相差そのものではなく、位相差から求められる信号の到来方向を相対値z(f,m)としてもよい。
そして、クラスタリング部752で相対値z(f,m)の分布を調べると、N個のクラスを持つ分布となる。図29に、この分布を例示する。なお、この例は、3信号の混合信号(N=3)をセンサ1(j=1)及びセンサ2(j=2)で観測した場合の例であり、図29Aは位相差のみを用いて分布を求めた例、図29Bは位相差と振幅比とを用いて分布を求めた例である。この図に示すように、スパース性により、これらの分布は、それぞれN=3個のクラス801〜803或いは811〜813に分類できることが分かる。
次に、代表値算出部753において、これらN個のクラスの代表値(ピーク・平均値・中央値など)を求める。以降記載の便宜上、値の小さい方からa1,a2,…,aNとする(図29の場合はa1,a2,a3)。
そして、バイナリマスク作成部754において、
Figure 0003949150
というバイナリマスクM(f,m)を作成する。ここでεはバイナリマスクの幅を決めるパラメタである。次に、信号抽出部755においてYk(f,m)=Mk(f,m)Xj(f,m)の演算を行い、k番目の分離信号を得る。なお、jは任意のセンサ番号である。
即ち、この例のスパース性による方法では、分離行列W(f,m)は時変であり、
jk(f,m)=M(f,m) for j∈{1,...,M}
kl(f,m)=0 for l≠j(l=1,…,M)
という非線型システムとなる。
[従来法3:スパース性により混合行列を推定する方法]
信号源の数Nとセンサ数MがM=Nの関係にある場合の信号分離手法として、信号のスパース性を用いて混合行列H(f)を推定し、その逆行列を用いて信号を分離する方法がある(例えば、非特許文献4や非特許文献5参照。)。
図28(従来法3)は、このスパース性により混合行列を推定する方法を説明するためのブロック図である。
混合信号X(f,m)は、混合行列H(f)を用いて
Figure 0003949150
Figure 0003949150
分離信号Y(f,m)を得るまでの流れを説明する。なお、以下において、
Figure 0003949150
はじめに、[従来法2]と同様な手順により、観測信号相対値計算部751、クラスタリング部752、代表値算出部753、バイナリマスク作成部754及び信号抽出部755において、1つの信号しか存在しない時刻の信号
Figure 0003949150
を得る。ここでは、すべてのセンサの観測信号X(f,m)=[X(f,m),…,X(f,m)]についてバイナリマスクM(f,m)を適用する。このとき例えば、源信号S(f,m)のみがアクティブな時刻mの観測信号は、
Figure 0003949150
Figure 0003949150
となる。
このように求められた分離信号X^(f,m)は混合過程計算部756に送られ、そこで
Figure 0003949150
を計算することによりH^(f)が推定される。ここで、E[・]は、mに関する平均である。このように求められたH^(f)は、逆行列計算部757に送られ、そこでその逆行列H^(f)−1が求められる。そして、信号分離部758において、上述の式(7)の演算を行うことにより、分離信号Y(f,m)の推定ができる。
なお、この手法は、H^(f)の逆行列を用いるため、信号源の数Nとセンサ数MがM=Nの関係にある場合にしか適用できない。
特開2004−145172号公報 A.Hyvaerinen and J.Karhunen and E.Oja,″Independent Component Analysis,″John Wiley & Sons,2001,ISBN 0−471−40540 H.Sawada,R.Mukai,S.Araki and S.Makino,″A Robust and Precise Method for Solving the Permutation Problem of Frequency−Domain Blind Source Separation″,in Proc.the 4th International Symposium on Independent Component Analysis and Blind Signal Separation(ICA 2003),2003,pp.505−510 S.Rickard,R.Balan,and J.Rosca,″Real−Time Time−Frequency Based Blind Source Separation,’’3rd International Conference on Independent Component Analysis and Blind Source Separation(ICA2001),San Diego,December,2001,pp.651−656 F.Abrard,Y.Deville,P.White,″From blind source separation to blind source cancellation in the underdetermined case:a new approach based on time−frequency analysis,″Proceedings of the 3rd International Conference on Independent Component Analysis and Signal Separation(ICA’2001),pp.734−739,San Diego,California,Dec.2001. Y.Deville,"Temporal and time−frquency correlation−based blind source separation methods,"in Proc.,ICASSP2003,Apr.2003,pp.1059−1064
従来の信号分離方法では、信号源の数Nとセンサの数MがN>Mの関係にある場合に、混合信号を高い品質で分離することは困難であった。
つまり、前述のように、信号源の数Nとセンサの数MがN>Mの関係にある場合、独立成分分析による方法、及びスパース性により混合行列を推定する方法は使用できない。
また、信号のスパース性を利用した方法は使用できるが、この方法では、分離性能がよく、なおかつ歪みが小さい信号分離を行うことが困難である。つまり、上述の式(3)で示されるバイナリマスクの作成時、εを十分小さくすると良い分離性能を得ることができるが、その反面、このバイナリマスクによって排除されるサンプルの数が増加し、分離信号が劣化する。すなわち、信号のスパース性が完全なのであれば、各時刻の観測信号には高々1個の信号しか含まれず、各時刻における各相対値z(f,m)は、何れかの代表値a,...,aの近傍に収まるはずである。しかし、実際には信号のスパース性は完全ではないため、ある時刻において、同一周波数の観測信号が2個以上存在する場合もある。この場合、この時刻における相対値z(f,m)は、本来対応すべき代表値a,...,aから離れた値となり、εの値によってはバイナリマスクによって排除されてしまう。その結果、このサンプルに対応する観測信号が0として取り扱われ、分離信号に0成分が詰め込まれることになる。そして、この排除されるサンプルの割合はεの値が小さいほど大きいため、この0成分が詰め込まれる量もεの値が小さいほど大きくなる。そして、各分離信号に多くの0成分が詰めこまれた場合、これが原因となって、分離信号の歪みが大きくなり、Musical Noiseと呼ばれる聴感上不快なノイズが発生する。一方、バイナリマスクのεを大きくすると、分離信号に詰められる0成分が少なくなりMusical Noiseは減少するが、その反面、分離性能が劣化する。
本発明はこのような点に鑑みてなされたものであり、信号源の数Nとセンサの数MがN>Mの関係にある場合でも、混合信号を高い品質で分離することが可能な技術を提供することを目的とする。
第1の本発明では、以下のように上記課題を解決する。
まず、M個のセンサで観測されたN(N≧2)個の信号の混合である観測信号の値を周波数領域値に変換し、その周波数領域値を用い、センサ間における観測値の相対値(相対値の写像も含む)を、各周波数において算出する。そして、これらの相対値をN個のクラスにクラスタリングし、それらの各クラスの代表値を算出する。その後、それらの代表値を用い、周波数領域値からV(V≦M)個の信号源から発せられた信号の値を抽出するためのマスクを作成し、生成したマスクを用い、当該V個の信号源から発せられた信号から成る限定信号の値を抽出する。そして、V≧2の場合には、この限定信号はV個の信号源から発せられた信号から成る混合信号となるため、この限定信号をさらに分離して各分離信号の値を得る。一方、V=1の場合には、この限定信号の値を分離信号の値とする。
ここで抽出されたV個の信号源から発せられた信号からなる限定信号の分離には、例えば独立成分分析による方法やスパース性により混合行列を推定する方法等を適用できる。そのためN>Mの場合でも高い品質で源信号を抽出することができる。ただし、これだけではV個の源信号しか抽出できない。そこで、例えば、複数種類のマスクを用い、抽出する信号の組合せを変化させながら同様な処理を繰り返すことにより、すべての源信号を抽出する。
また、第2の本発明では、以下のように上記課題を解決する。
まず観測信号値x(t),...,x(t)を周波数領域値X(f,m),...,X(f,m)に変換する。そして、周波数領域値X(f,m),...,X(f,m)からなる第1のベクトルX(f,m)=[X(f,m),...,X(f,m)]を、周波数fごとにN個ずつのクラスタC(f)(i=1,...,N)にクラスタリングし、各クラスタC(f)を代表する第2のベクトルa(f)を算出し、そこからV(V≦M)個の第3のベクトルa(f)(p=1,...,V)を抽出する。その後、第3のベクトルa(f)の集合をGとし、G をGの補集合とし、D(α,β)をベクトルαとβとのマハラノビス平方距離とした場合における、
Figure 0003949150
で示されるマスクM(f,m)を生成し、マスクM(f,m)と第1のベクトルX(f,m)との積を演算して、V個の信号源から発せられた信号からなる限定信号の値を抽出する。
ここで抽出されたV個の信号源から発せられた信号からなる限定信号の分離には、例えば独立成分分析による方法やスパース性により混合行列を推定する方法等を適用できる。そのためN>Mの場合でも高い品質で源信号を抽出することができる。ただし、これだけではV個の源信号しか抽出できない。そこで、例えば、複数種類の集合Gに対する複数種類のマスクを用い、抽出する信号の組合せを変化させながら同様な処理を繰り返す。これにより、すべての源信号を抽出する。
また、第3の本発明では、以下のように上記課題を解決する。
まず、観測信号値x(t),...,x(t)を、周波数領域値X(f,m),...,X(f,m)に変換し、それらからなる第1のベクトルX(f,m)=[X(f,m),...,X(f,m)]を、周波数fごとにN個クラスタC(f)(i=1,...,N)にクラスタリングする。なお、源信号がスパースであれば、たとえセンサの数が不十分(N>M)の状況でも、N個のクラスタC(f)にクラスタリングでき、それらN個の代表ベクトルa(f)を算出することも可能である。
そして、それらの各クラスタC(f)を代表する第2のベクトルa(f)を算出し、N個の第2のベクトルa(f)の中の0個以上の当該第2のベクトルを0ベクトルに置換したM行N列の行列A’のムーア・ペンローズ(Moore−Penrose)型擬似逆行列(A’(f):N=Mの場合は逆行列A’−1(f)に一致)であるN行M列の分離行列W(f,m)を算出する。なお、ここで生成される分離行列W(f,m)は、センサの数が不十分(N>M)である場合には時間mに依存する行列となり、センサの数が十分(N≦M)である場合には時間mに依存しない行列となる。
その後、Y(f,m)=W(f,m)X(f,m)の演算により、分離信号ベクトルY(f,m)=[Y(f,m),...,Y(f,m)]を算出し、時間領域の信号値y(t),...,y(t)に変換する。
ここで、源信号のスパース性により、たとえ信号源の数Nがセンサの数Mよりも多い(N>M)場合であっても、離散時間mごとに見れば、観測結果に影響を及ぼす値をとる信号源の数はM個以下である可能性が高い。そのため、離散時間mごとに見れば、上述のように生成された分離行列W(f,m)によって、これらM個以下の信号を分離することは可能である。そして、N>Mである場合、分離行列W(f,m)は時間依存となるのだから、離散時間mが相違すれば、得られる分離信号の組合せも相違しうる。そのため、複数の離散時間mについて分離信号を求めていくことにより、すべての分離信号を得ることもできる。
以上のように、本発明では、信号源の数Nとセンサの数MがN>Mの関係にある場合でも、混合信号を高い品質で分離することができる。
[図1]第1の実施の形態における信号分離装置の全体構成を例示したブロック図。
[図2]図1における代表値生成部、マスク制御部、限定信号作成部及び限定信号分離部の詳細を例示したブロック図。
[図3]図1及び図2のマスク作成部の詳細を例示したブロック図。
[図4]第1の実施の形態における信号分離装置の処理を説明するためのフローチャート。
[図5]クラスタリング部により作成されたヒストグラムの例示。
[図6]第1の実施の形態における滑らかな形状のマスクを生成する際使用する信号の推定到来方向θのとり方を説明するための図。
[図7]第1の実施の形態におけるマスクの例示。
[図8]第2の実施の形態の信号分離装置の1系統を例示したブロック図。
[図9]第3の実施の形態の信号分離装置の1系統を例示したブロック図。
[図10]第3の実施の形態におけるマスクの例示。
[図11]第4の実施の形態におけるマスク作成部の構成を例示したブロック図。
[図12]Aは、第6の実施の形態におけるバイナリマスクの例示、Bは、第7の実施の形態におけるバイナリマスクの例示。
[図13]第8の実施の形態における代表値生成部、マスク制御部及び限定信号作成部の構成を例示したブロック図。
[図14]第8の実施の形態における信号分離処理を説明するためのフローチャート。
[図15]第9の実施の形態の信号分離装置の構成を例示したブロック図。
[図16]第9の実施の形態の信号分離装置の処理を説明するためのフローチャート。
[図17]センサの数が不十分な場合(M<N)における分離行列生成処理を説明するためのフローチャート。
[図18]1音源の場合の正規化していない観測信号ベクトルX(f,m)のプロット。
[図19]1音源の場合において、式(36)により正規化した観測信号ベクトルX(f,m)のプロット。
[図20]1音源の場合において、式(37)により正規化した観測信号ベクトルX(f,m)のプロット。
[図21]2音源の場合の正規化していない観測信号ベクトルX(f,m)のプロット。
[図22]2音源の場合において、式(36)により正規化した観測信号ベクトルX(f,m)のプロット。
[図23]2音源の場合において、式(37)により正規化した観測信号ベクトルX(f,m)のプロット。
[図24]センサの数が信号源の数に対して十分であるか否かに係わらず適用できる分離行列生成処理を説明するためのフローチャート。
[図25]周波数領域で信号統合を行ってから時間領域に変換する際の構成を例示したブロック図の一部。
[図26]各実施の形態をコンピュータで構成した信号分離装置の例。
[図27]Aは、従来のブラインド信号分離技術を概念的に例示したブロック図、Bは、ICAによる分離過程のブロック図。
[図28]スパース性による方法及びスパース性により混合行列を推定する方法を説明するためのブロック図。
[図29]相対値の分布の例示。
符号の説明
1,500 信号分離装置
2,501 記憶部
3,502 信号分離プロセッサ
以下、本発明の実施の形態を図面を参照して説明する。
〔第1の実施の形態〕
本形態は、第1の本発明に係る実施の形態であり、死角型ビームフォーマの指向特性を用いた滑らかな形状のマスクを用い、観測信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号(本形態ではこれを「限定信号」と呼ぶ)の値を抽出し、抽出した限定信号値をICAによって信号分離する例である。
図1は、本形態の信号分離装置1の全体構成を例示したブロック図である。また、図2は、図1における代表値生成部30、マスク制御部40、限定信号作成部50−k(k=1,...,u、但しuは後述する系統数)及び限定信号分離部60−kの詳細を例示したブロック図である。また、図3は、図1及び図2のマスク作成部51−kの詳細を例示したブロック図である。なお、これらの図における矢印はデータの流れを示すが、制御部10や一時記憶部90に出入りするデータの流れは省略してある。すなわち、データが制御部10や一時記憶部90を経由する場合であっても、その経由の過程は省略してある。また、図4は、本形態における信号分離装置1の処理を説明するためのフローチャートである。以下、これらの図を用いて、この例の信号分離装置1の構成及び処理を説明していく。
<全体構成>
まず、本形態の信号分離装置の全体構成について説明する。
図1に例示するように、本形態の信号分離装置1は、記憶部2とこれに有線或いは無線で電気的に接続された信号分離プロセッサ3とを有している。
記憶部2は、例えば、ハードディスク装置、フレキシブルディスク、磁気テープ等の磁気記録装置、DVD−RAM(Random Access Memory)、CD−R(Recordable)/RW(ReWritable)等の光ディスク装置、MO(Magneto−Optical disc)等の光磁気記録装置、EEP−ROM(Electronically Erasable and Programmable−Read Only Memory)、フラッシュメモリ(flash memory)等の半導体メモリ等である。また、記憶部2は、信号分離プロセッサ3と同一の筺体内に存在してもよいし、別個の筺体に構成されてもよい。
またこの例の信号分離プロセッサ3は、例えば、プロセッサやRAM等によって構成されるハードウェアであり、以下に述べる各処理ブロックを有する。
<信号分離処理の概略>
次に、信号分離装置1が行う信号分離処理の概略について説明する。
本形態では、N個の信号源から発せられた信号は統計的に互いに独立であり、それぞれの信号は十分スパースであると仮定する。ここで「スパース」とは、信号が殆どの時刻tにおいて0又は0に近く、大きな値をとることは稀であるという性質である。このスパース性は、例えば音声信号で確認される。なお、音声信号など白色でない信号は、短時間離散フーリエ変換等を施して周波数ごとの時間系列とすることで、より0に近い時刻が増えてスパース性が強調される。また、一般には信号のモデル化にガウス分布が用いられることが多いが、スパース性を持つ信号はガウス分布ではなくラプラス分布などでモデル化される。
まずM個の観測信号値x(t)を周波数領域変換部20にて周波数領域の観測信号値X(f,m)に変換した後、代表値生成部30において、各源信号に対応するN個の代表値a,a,...,aを算出する。
次に、マスク制御部40にて代表値a,a,...,aのうちV(2≦V≦M)個を適当に選び、限定信号作成部50−kにおいて、観測信号値X(f,m)からV個の源信号のみから構成される限定信号の値X^(f,m)を推定する。なお、V=1の場合には、後述する[第3の実施の形態]の方法を用いる。ここでは、マスク作成部51−kにおいてV個の信号を取りだすような滑らかな形状のマスクを作成し、限定信号抽出部52−kでこのマスクを観測信号値X(f,m)に作用させることで、限定信号値X^(f,m)を推定する。
次に限定信号分離部60−kにおいて、V個の分離信号を得るための分離システムを推定する。ここでは、M個の限定信号値X^(f,m)を入力とし、V個の分離信号値Y(f,m)を出力する。ここで、分離システムの入力数Mと出力数Vについて、V≦Mであるので、ここでの分離システムの推定には、[従来法1]や[従来法3]を用いることが可能である。
最後に時間領域変換部70−kにおいて、時間周波数領域で得られている分離信号値Y(f,m)を時間領域の信号値に変換する。
しかし以上の処理だけではV個の分離信号しか得られない。よって、その他の分離信号を得るために、マスク制御部40で選択するV個の代表値の構成を変え、限定信号作成部50−kから時間領域変換部70−kまでの処理を複数系統(u系統)行う。
そして最後に、信号統合部80にて、各系統からの出力を統合し、N個全ての分離信号を得る。
<構成及び処理の詳細>
次に、この例の構成及び処理の詳細について説明する。
この例は、N(N≧2)個の信号源から発せられた信号が混合し、M個のセンサにおいて観測される状況において、その観測信号から源信号を分離抽出するものである。なお、上述のようにこの例の信号は音声信号等のスパース性を仮定できる信号であり、その音源数Nは既知或いは推定可能とする。また、この例のセンサは、この信号を観測できるマイクロホン等であり、それらは直線上に配置されるものとする。
まず、前処理として、各センサにおいて観測された時間領域の各観測信号x(t)(j=1,...,M)を記憶部2に格納しておく。そして、信号分離処理が開始されると、信号分離プロセッサ3は、制御部10の制御のもと以下の処理を実行する。
まず信号分離プロセッサ3は、記憶部2にアクセスし、そこから各観測信号値x(t)を順次読み込み、周波数領域変換部20に送る(ステップS1)。周波数領域変換部20は、短時間離散フーリエ変換等によって、これらの信号値を時間ごとの周波数領域の観測信号値X(f,m)に順次変換し、一時記憶部90に格納する(ステップS2)。一時記憶部90に格納された周波数領域の観測信号値X(f,m)は、代表値生成部30に送られ、代表値生成部30の相対値算出部31は、送られた周波数領域の観測信号値X(f,m)を用い、各センサ間における観測値の相対値z(f,m)を、各周波数において算出する(ステップS3)。
なお、相対値z(f,m)としては、例えば、
Figure 0003949150
の少なくとも一方を用いてもよく、また、或いは位相差そのものではなく、その写像(例えば、位相差から求められる信号の到来方向)を用いてもよい。
この例では、j1番目とj2番目の任意の2つのセンサにおける観測信号間位相差z(f,m)から得られる信号の到来方向
Figure 0003949150
をこの相対値z(f,m)として利用し、相対値算出部31は、このz(f,m)を算出するものとする。ここでv e は信号の早さ、dはセンサj1とセンサj2との間隔である。
このように算出された相対値z(f,m)は、一時記憶部90に格納される。次に、クラスタリング部32は、一時記憶部90から相対値z(f,m)を順次読み込み、これら相対値z(f,m)をN個のクラスにクラスタリングする(ステップS4)。この例の場合、クラスタリング部32は、送られた相対値z(f,m)からヒストグラムを作成する。
図5は、このように作成されたヒストグラムの例示である。なお、この例は源信号の数N=3のものである。
この図に例示するように、この例のヒストグラムは、N(=3)個のピークを持つ分布になる。この例のクラスタリング部32は、この分布をN(=3)個のクラス(この例ではクラスタ91〜93)にクラスタリングする。これは、例えば、適当な閾値を設定してクラスタリングしてもよいし、k−means法や階層的クラスタリング等の多くの教科書で説明されている方法を用いてもよい(例えば、「尾上守夫 監訳“パターン識別”,新技術コミュニケーションズ,ISBN 4−915851−24−9,第10章」等参照。)。ここでクラスタリングされた各クラスタC(i=1,2,..,,N)は、相対値z(f,m)の集合であり、離散時間の集合Tを用いてC(f)={z(f,m)|m∈T}である。
クラスタリング部32で生成されたクラスタリングの情報(クラスタC,C,...,C)は、一時記憶部90に格納される。代表値計算部33は、これらを読み込み、N個の各クラスタC,C,...,Cの代表値a,a,...,aを算出する(ステップS5)。具体的には、例えば、ヒストグラムの各クラスのピークを代表値としてもよく、また、各クラスの平均値を代表値としてもよい。そして、例えばこのN個の代表値を、(便宜上)値の小さい方からa,a,...,aとする(図5参照)。なお、これらの代表値a,a,...,aは、N個の各信号の到来方向の推定値になっている。
この例の代表値a,a,...,aの情報は、一時記憶部90に格納された後、マスク制御部40に送られる。マスク制御部40は、これら代表値a,a,...,aを要素に持つ集合Gを特定するデータを変数SGに代入し、この変数SGを一時記憶部90に格納する。また、マスク制御部40は、集合Gを特定する変数SGをG=φ(空集合)に初期化し、変数kを0とし、それらを一時記憶部90に格納する(ステップS6)。
次に、マスク制御部40での制御のもと、N個すべての分離信号が得られるまで、限定信号作成部50−k(k=1,...,u),限定信号分離部60−k及び時間領域変換部70−kの複数系統(u系統)による処理が行われる。
まず、マスク制御部40は、一時記憶部90に格納された変数kに1を加えた値を新たな変数kとし、再び一時記憶部90に格納する(ステップS7)。次に、マスク制御部40は、一時記憶部90から変数SG及びSGを呼び出す。そして、マスク制御部40は、変数SGによって特定される集合Gから、SGによって特定される集合Gの補集合(G(αはαの補集合を示す))の元を含む適当なV(≦M)個の代表値の集合Gを選択し、この集合Gを特定するデータを変数SGに代入し、この変数SGを一時記憶部90に格納する(ステップS8)。
限定信号作成部50−kのマスク作成部51−kは、一時記憶部90に格納された変数SGを読み出し、この変数SGによって特定される集合Gを代表値に持つクラスの信号を抽出する「滑らかな形状のマスク」を作成する(ステップS9)。ここで、「滑らかな形状のマスク」とは、V(2≦V≦M)個の代表値を含む所定の範囲(限定範囲)内にある相対値に対してハイレベル値をとり、この限定範囲内にない代表値に対してローレベル値をとり、相対値の変化に伴う当該ハイレベル値から当該ローレベル値への推移が連続的である関数を意味する。なお、この例の「ハイレベル値」とは、0より十分大きな数値(例えば1以上)を意味し、「ローレベル値」とは0に十分近い値(例えば、ハイレベル値に対して60dB以下等)を意味するが、特にその値に限定はない。
本形態では、N−V+1個のセンサにより形成される死角型ビームフォーマの指向特性を利用して「滑らかな形状のマスク」を作成する。このマスクは、限定信号に含まれるV個の信号の方向(G)へは十分な感度を持ち、除去されるべきN−V個の信号の方向(G∩G )へは感度の低い特性(死角)を持つ、なめらかな形状のマスクである。
以下に、本形態の「滑らかな形状のマスク」の生成手順について説明する。
まず、マスク作成部51−kが、一時記憶部90から変数SG、SG及びSG を読み出す。次に、マスク作成部51−kは、変数SGが示す集合Gの要素(限定範囲内の代表値)の何れか一つを抽出し、これをθとする。また、マスク作成部51−kは、変数SG及びSG によって特定されるG∩G の要素(限定範囲内にない代表値)すべてを抽出し、これらをθ(i=2,...,N−V+1)とする。そして、マスク作成部51−kは、θ及びθを一時記憶部90に格納する。次に、マスク作成部51−kは、一時記憶部90からθ及びθ 抽出し、τji=(d/v )cosθ(j=1,...,N−V+1)算出する。さらに、マスク作成部51−kは、遅延行列HNBF(f)のji要素HNBFji(f)=exp(j2πfτji)を算出して一時記憶部90格納する。なお、dはセンサ1とセンサjとの距離(dは0)であり、fは周波数の変数、v は信号の速さである。これらのパラメータは、例えば事前に一時記憶部90に格納され、順次呼び出されて使用される。以上の処理により、((N−V+1)×(N−V+1))の遅延行列HNBF(f)が生成される(図3:51a−k)。
なお、本形態では、2つのセンサにおける観測信号間位相差z(f,m)から得られる信号の到来方向z(f,m)を相対値としているため、上述のθは限定範囲内の代表値に対応する信号の到来方向を示し、θは、限定範囲内にない代表値に対応する信号の到来方向を示している。また、このθ(i=1,2,...,N−V+1)のとり方は図6のようになる。まず、直線上に配置されたM個のセンサの中央を原点とする(1番目のセンサと原点との距離L=原点とM番目のセンサとの距離L)。この原点とi番目の信号源とを結ぶ線分と、原点と1番目のセンサを結ぶ線分とがなす角度が、i番目の信号源に対応するθである。
生成された遅延行列HNBF(f)は、一時記憶部90(図1)からNBF作成部51b−k(図3)に送られ、NBF作成部51b−kは、この遅延行列HNBF(f)を用い、死角ビームフォーマ(NBF)の特性を持つNBF行列W(f)を作成する。これは、遅延行列HNBF(f)の逆行列W(f)=HNBF −1(f)を算出することで得られる。
このNBF行列W(f)は、一時記憶部90(図1)に格納される。指向特性計算部51c−kは、このNBF行列W(f)の1行目の要素W1k(f)、d及びv e を一時記憶部90か抽出し、θを信号の到来方向の変数とした場合における、指向特性関数
Figure 0003949150
を生成する。なお、θの取り方は上述のθと同じである。
生成された指向特性関数F(f,θ)は、マスク構成部51d−kに送られる。マスク構成部51d−kは、この指向特性関数F(f,θ)と、一時記憶部90から読み出した相対値z(f,m)(この例ではz(f,m))とを用い、滑らかな形状のマスクMDC(f,m)を生成する。
生成するマスクMDC(f,m)としては、例えば、この指向特性F(f,θ)自身
Figure 0003949150
を用いたものを例示できる。
また、指向特性F(f,θ)の絶対値
Figure 0003949150
を用いたものをマスクMDC(f,m)としてもよい。
図7Aは、[マスク2]の例(信号数N=3、センサ数M=2の場合)を示している。この例の「滑らかな形状のマスク」は、信号除去数N−M=1のものであり、一方向aへ小さいゲインを持つものである。なお、この「滑らかな形状のマスク」は、M(=V)=2個の信号(ここではa及びa方向より到来する2個の信号)を限定信号として抽出するためのものである(後述の図7B,Cも同様)。
また、例えば以下のように、指向特性F(f,θ)を変形したものをマスクMDC(f,m)としてもよい。なお以下では、Gの要素の中の互いに隣り合う2つのaに挟まれる相対値z(f,m)の領域すべてを限定信号領域と呼ぶ。また、Gにaやaが含まれる場合、0°≦z(f,m)≦a、180°≧z(f,m)≧aも限定信号領域に含むものとする。さらに、G∩G の要素の中の互いに隣り合う2つのaに挟まれる相対値z(f,m)の領域すべてを除去信号領域と呼ぶ。また、G∩G にaやaが含まれる場合、0°≦z(f,m)≦a、180°≧z(f,m)≧aも除去信号領域に含むものとする。そして、限定信号領域、除去信号領域のどちらにも属さない領域を過渡領域と呼ぶ。
Figure 0003949150
これらは、除去信号領域のゲインを一様に小さくする特性を持つマスクをマスクMDC(f,m)としたものである。ここでθは、除去信号領域の端点のうち、隣り合う限定信号領域の端点と最も近いものを意味する。図7Bに、この[マスク4]の例(信号数N=3、センサ数M=2の場合)を示す。
また、例えば、
Figure 0003949150
Figure 0003949150
のように、限定信号領域の指向特性を一様にしたマスクMDC(f,m)を用いることも可能である。また、
Figure 0003949150
のように、限定信号領域の指向特性を一様にしたマスクの絶対値を用いることもできる。
ここでaとしては例えば、除去信号領域の|F(f,θ)|の最大値などの0より十分大きい値を用い、bとしては例えば、指向特性のゲインの最小値などの小さな値を用いる。図7Cに[マスク6]の例(信号数N=3、センサ数M=2の場合)を示す(マスク作成部51−k/ステップS9の説明終わり)。
以上のようにマスク作成部51−kで生成されたマスクMDC(f,m)は、一時記憶部90に格納された後、限定信号抽出部52−kに送られる。限定信号抽出部52−kは、さらに一時記憶部90から周波数領域の観測信号値X(f,m)を読み出す。そして、限定信号抽出部52−k(図2)は、このマスクMDC(f,m)と周波数領域の観測信号値X(f,m)とを用い、X^(f,m)=MDC(f,m)X(f,m)の積演算により、限定信号値X^(f,m)を生成する(ステップS10)。
この限定信号値X^(f,m)は、一時記憶部90に格納され、限定信号分離部60−kは、この限定信号値X^(f,m)を読み出し、限定信号の信号分離を行う(ステップS11)。ここで、限定信号値X^(f,m)=MDC(f,m)X(f,m)は、V(2≦V≦M)個の信号源から発せられた信号によって構成された混合信号の値であると近似される。よって、その分離行列の推定には[従来法1]で述べた独立成分分析による方法を利用できる。すなわち独立成分分析の入力として、観測信号値Xの代わりに限定信号値X^(f,m)を用い、例えば[従来法1]で述べた式(2)を用いて分離を行う。
本実施例におけるICAによる分離では、まず、ICA分離行列推定部61−kにおいて、限定信号値X^(f,m)を用い、前述の式(2)の学習則に従い分離行列W(f,m)を生成し、この分離行列W(f,m)を一時記憶部90に格納する。なお、この分離行列W(f,m)の生成には、例えば、以下のパーミュテーション・スケーリング解決部62−kからの出力値Y(f,m)のフィードバックを用いる。生成された分離行列W(f,m)はパーミュテーション・スケーリング解決部62−kに送られる。パーミュテーション・スケーリング解決部62−kは、この分離行列W(f,m)と限定信号値X^(f,m)を用い、Y(f,m)=W(f,m)X^(f,m)の演算を行い、それぞれの分離信号値Y(f,m)=[Yk1 Πk1(f,m),...,YkV ΠkV(f,m)]を生成し、それを一時記憶部90に格納する。そして、パーミュテーション・スケーリング解決部62−kは、例えば、この分離信号値Y(f,m)をフィードバックし、[従来法1]で述べた方法でPermutation問題を解決する。
Permutation問題の解決後、パーミュテーション・スケーリング解決部62−kは、さらに、分離信号値Ykq(q=1,...V)がどの源信号に対応するのかを示すタグΠkqを、分離信号値Ykq(q=1,...V)に付与し、これらを対応付けて一時記憶部90に格納する。ここでは、このタグΠkqを分離信号値Ykqの上付添字Πkqとして表記する。
具体的には、例えば、パーミュテーション・スケーリング解決部62−kが、一時記憶部90から抽出した分離行列W(f)の逆行列(N≠Mの場合はMoore-Penrose型擬似逆行列)を用い、
Figure 0003949150
(但しv e は信号の速さ、dはセンサjとセンサj’との間隔)
の演算によって得られる信号の推定到来方向θと、一時記憶部90から抽出した変数SGが示す集合Gに含まれる代表値とを比較し、θに最も近い代表値aをq番目の分離信号Ykqに対応付ける(ステップS12)。つまり、パーミュテーション・スケーリング解決部62−kは、この分離信号Ykqに対し、代表値aを示すタグΠkqを付与する(対応付ける)。
また、この後、パーミュテーション・スケーリング解決部62−kが、一時記憶部90から分離行列W(f)を抽出し、その各行w(f)を
(f)←[W−1(f)]jq(f)
とすることにより、ICAのスケーリング問題を解決し、スケーリング問題解決後の分離行列W(f)を一時記憶部90に格納する。なお、後の信号統合部80における処理のため、この処理ではすべての系列kにおいて同じjを用いることが望ましい。
タグΠkqが付与された各分離信号値Ykqは、時間領域変換部70−kに送られる。時間領域変換部70−kは、例えば、短時間逆離散フーリエ変換等により、時間周波数領域で得られている各分離信号値Ykqを時間領域の信号値に変換し、その変換値を一時記憶部90に格納する。(ステップS13)。なお、これら時間領域の信号値y(t)=[yk1 Πk1(t),...,ykV ΠkV(t)]にも上述のタグΠkqが関連付けられる。この関連付けを行う場合、まず、時間領域変換部70−kが、一時記憶部90から、周波数領域の信号値Ykqに対応付けられているタグΠkqを各周波数について抽出する。次に、時間領域変換部70−kは、各周波数におけるタグΠkqがすべて等しいか否かを判断する。ここでこれらがすべて等しかった場合には、時間領域の信号値ykqのタグとして、周波数領域の信号値Ykqに対応付けられているタグΠkqを対応付ける。一方、これらがすべて等しくなかった場合には、多数決にて時間領域の信号値ykqのタグを決定する。
次に、マスク制御部40において、一時記憶部90から変数SGとSGとを抽出し、これらが示すGとGとの和集合Gを新たな集合Gとし、この集合Gを変数SGに代入し、この変数SGを一時記憶部90に格納する(ステップS14)。また、マスク制御部40は、一時記憶部90から変数SGとSGとを読み出し、この新たな集合Gが集合Gと等しいか否かを判断する(ステップS15)。ここで、G=GでなければステップS7の処理に戻る。
一方、G=Gであれば、信号統合部80において、一時記憶部90から各系統k(時間領域変換部70−k/k=1,...,u)から出力された分離信号ykp(t)を読み出し、これらの選択/統合を行い、N個すべての分離信号を得る(ステップS16)。具体的には、例えば、まず信号統合部80は、一時記憶部90から読み出した各分離信号ykp(t)のタグΠkqを比較する。ここで、複数の系統kにおいて同じタグを持つ分離信号値y (t)が存在しないと判断された場合、信号統合部80は、すべての分離信号値ykq(t)を最終的な分離信号値y(t)(i=1,...,N)として出力する(ステップS17)。一方、複数の系統において同じタグを持つ分離信号値が存在すると判断された場合、信号統合部80は、これらのタグが等しい分離信号値のどれか1つを適当に選択し、最終的な分離信号値y(t)として出力するか、同じタグを持つ分離信号値の平均を計算し、それを出力信号とする(ステップS17)。
ここで、どれか1つの分離信号値ykq(t)を適当に選択し、最終的な分離信号値y(t)として出力する処理の場合、信号統合部80は、例えば、同じタグaを持つ分離信号値ykq(t)の中で最大パワーを持つものを最終的な分離信号値y(t)として出力する。また、同じタグを持つ分離信号値の平均を最終的な分離信号値y(t)として出力する処理の場合、信号統合部80は、例えば、
Figure 0003949150
(Kは同じタグaを持つ分離信号の個数)
とする。以上により、N個の信号が少ない歪で分離される。
<本形態の特徴>
従来の「従来法2:信号のスパース性を利用した方法」で分離性能を上げた際に分離信号の歪が大きくなるのは、分離性能を上げるために上述の式(3)のεを十分小さくすると、このバイナリマスクによって取り出される信号成分が制限され、本来原信号の成分として取り出されるべきサンプルの多くが取り出されないからである。つまり、この場合、各分離信号に多くの0成分が詰めこまれ、各分離信号を不連続とし、Musical Noiseを発生させることになる。
これに対し、この形態では、滑らかな形状を持つマスクによって、2個以上M個以下の原信号からなる混合信号(限定信号)を抽出する。そのため、1個のみの信号の値を抽出する[従来法2]のバイナリマスクよりも、広い範囲の相対値z(f,m)に対する信号(サンプル)を限定信号と抽出できる。
そのため、ある時刻において同一周波数の観測信号が2個以上存在し、サンプル値が、本来対応すべき代表値から離れてしまった場合であっても、このようなサンプル値を抽出できる可能性は高くなる。その結果、分離信号に不連続に0成分が詰めこまれることによる品質劣化(Musical Noiseの発生)を抑制できる。
また、本形態ではN(N≧2)個の信号が混合し、M個のセンサで観測される状況において、滑らかな形状を持つマスクを用いて信号の分離抽出を行う。この滑らかな形状を持つマスクは、[従来法2]によるマスク(0或いは1の値をとるバイナリマスク)と異なり、そのエッジ部分が滑らかに広がった形状を有する。そのため、この滑らかな形状のマスクを用いれば、ある時刻において同一周波数の観測信号が2個以上存在し、サンプルの相対値が、本来対応すべき代表値a,...,aから離れた場合であっても、この位置に対するマスクが0以外の値を持つ場合もあるため、急峻に値が変化するバイナリマスクよりも、多くの信号を抽出することができる。その結果、分離信号に不連続に0成分が詰めこまれることによる品質劣化を抑制できる。
また、滑らかな形状のマスクはエッジ部分に近づくほど値が小さくなるため、従来のバイナリマスクにおいて単にεを大きくした場合に比べ、分離性能の劣化も少ない。
さらに、抽出される限定信号は、V(≦M)個の源信号のみからなると考えられるため、分離問題が簡単になっている。従って、限定信号については、[従来法1]や[従来法3]を用いて容易に信号の分離ができる。また、後述の第3の実施の形態で説明するように、V=1の場合には、[従来法1]や[従来法3]の方法を用いる必要もない。
<性能比較>
以下は、[従来法2]で信号分離を行った場合と、本形態の方法で[マスク2]を用いて信号分離を行った場合との性能を比較した表である。
Figure 0003949150
この例では、源信号として、3人の話者(男性2名・女性1名)による音声信号を用い、残響の無い環境でのこれらの混合信号を、2つの無指向性マイクで観測する状況をシミュレートしている。なお、表中のSIRは信号対妨害音比(Signal to interference ratio)(dB)であり、分離性能を示す指標である。また、SDRは信号対歪比(Signal to distortion ratio)(dB)であり、信号の歪の程度を示す指標である。双方とも値が大きい方が性能が良いことを示している。また、SIR1及びSDR1は話者1に、SIR2及びSDR2は話者2に、SIR3及びSDR3は話者3に、それぞれ対応している。また、本形態のデータは縦2段になっているが、これはk=1の系統の分離結果と、k=2の系統の分離結果にそれぞれ対応するものである。
この表に示すように、この形態の方法では、分離性能SIRをほとんど落すことなく、従来法2に比べ格段に高いSDRを得ることができている。これは信号の歪が少ない分離ができていることを示している。これより、本形態の方法は、信号源の数Nがセンサの数Mより多い場合に信号を低歪で分離するために有効であることが分かる。
〔第2の実施の形態〕
本形態も第1の本発明に係る実施の形態である。本形態では、限定信号作成部で「滑らかな形状のマスク」を用い、限定信号分離部で混合行列推定による分離方法を用いる例を示す。なお、本形態において第1の実施の形態と共通する事項については説明を省略する。
図8は、本形態の信号分離装置のうち、V個の分離信号値を得る1系統のみを例示したブロック図である。
なお、図8において第1の実施の形態と共通する構成については、第1の実施の形態と同じ符号を付した。図8に例示するように、第1の実施の形態の信号分離装置1と本形態の信号分離装置と構成上の相違点は、限定信号作成部50−kが限定信号作成部150−kに置き換わり、限定信号分離部60−kが限定信号分離部160−kに置き換わる点である。また、マスク作成部151−kが2種類のマスクを作成する点、V=Mに限定される点も異なる。以下、本形態の構成及び処理について説明する。
まず、代表値生成部30(図8)は、周波数領域変換部20(図1)が生成した周波数領域の観測信号値X(f,m)を一時記憶部90から抽出する。次に、代表値生成部30(図8)は、第1の実施の形態と同様に、相対値算出部31において観測値の相対値z(f,m)を算出し、クラスタリング部32においてクラスタリングを行い、代表値算出部33において代表値a,a,...,aを算出する。なお、本形態では、相対値z(f,m)として、i番目とj番目の任意の2つのセンサにおける観測信号間位相差z(f,m)から得られる信号の到来方向
Figure 0003949150
を用いるのが望ましい。
これらの代表値a,a,...,aは、一時記憶部90(図1)に格納された後、マスク制御部40(図8)を介し、限定信号作成部150−kのマスク作成部151−kに送られ、マスク作成部151−kは、2種類のマスクを作成する。1つは、Gに含まれるV(=M)個の代表値に対応するV(=M)個の信号が混合した限定信号の値X^(f,m)を抽出するためのマスクであり、第1の実施の形態に示した滑らかな形状のマスクMDC(f,m)である。もう1つは、1個の信号のみを含む信号を抽出するバイナリマスクM(f,m)であり、[従来法2]で示したものと同様のマスク
Figure 0003949150
である。これらのマスクは一時記憶部90(図1)に格納される。
次に、限定信号抽出部152−k(図8)は、一時記憶部90(図1)から滑らかな形状のマスクMDC(f,m)と周波数領域の観測信号値X(f,m)とを読み出す。そして、限定信号抽出部152−k(図8)は、このマスクMDC(f,m)を周波数領域の観測信号値X(f,m)に掛けた限定信号値X^(f,m)=MDC(f,m)X(f,m)を算出し、これを一時記憶部90(図1)に格納する。ここで、この限定信号値X^(f,m)は、V個の信号が混合したものと近似されるので、限定信号分離部160−kにおける信号の分離には[従来法3]で述べた混合行列推定法が応用できる。
そこでまず、限定信号分離部160−kの積演算部161−k(図8)において、一時記憶部90(図1)からバイナリマスクM(f,m)と周波数領域の観測信号値X(f,m)とを読み出す。そして、積演算部161−k(図8)は、X^(f,m)=M(f,m)X(f,m)の演算を行い、1個の信号のみを含む分離信号の値X^(f,m)を求め、これを一時記憶部90(図1)に格納する。次に、混合過程推定部162−k(図8)が、一時記憶部90(図1)からX^(f,m)を読み出し、[従来法3]と同様に
Figure 0003949150
によって推定された混合行列H^を算出する。なお、この混合行列H^のサイズはN×Mとなっている。なお、この混合行列は全ての系列kで求める必要はなく、ある系列で推定したH^を一時記憶部90に格納し、逐次読み出して用いてもよい。
この混合行列H^は逆行列計算部163−kに送られ、逆行列計算部163−kは、まずこの混合行列H^ランクを落す。すなわち、混合行列H^のうち、V個の信号からなる限定信号X^(f,m)に対応するV列(すなわち、Gに含まれるV個の代表値aに対応する列)のみを取り出し、V×Vの正方行列H^を作成する。これは、V個の信号の混合と近似される限定信号X^(f,m)の分離を行うためである。
次に逆行列計算部163−kは、作成した正方行列H^の逆行列H^ −1(f)を計算し、これを一時記憶部90(図1)に格納する。積演算部164−k(図8)は、限定信号値X^(f,m)と逆行列H^ −1(f)とを一時記憶部90(図1)から読み出し、Y(f,m)=H^ −1(f)X^(f,m)の演算により、V個の分離信号値の推定値Y(f,m)=[Yk1 Πk1(f,m),...,YkV ΠkV(f,m)]を算出する。なお、分離信号Ykq(q=1,...V)がどの源信号に対応するのかを示すタグ情報の付与は、前述の式(17)において、W−1の代わりにH^を用いて信号の推定到来方向を求め、その方向がどの代表値aに近いかを判断して行う。
〔第3の実施の形態〕
本形態も第1の本発明に係る実施の形態である。本形態では、「滑らかな形状のマスク」を用い、観測信号から、何れか1個の信号源から発せられた信号によって構成される信号(本形態ではこれを「限定信号」と呼ぶ)のみを抽出し、抽出した限定信号を分離信号とする。なお、本形態において第1の実施の形態と共通する事項については説明を省略する。
図9は、本形態の信号分離装置のうち、1個の分離信号を得る1系統部分のみを例示したブロック図である。なお、図9において第1の実施の形態と共通する構成については、第1の実施の形態と同じ符号を付した。
図9に例示するように、第1の実施の形態の信号分離装置1と、本形態の信号分離装置と構成上の相違点は、限定信号作成部50−kが限定信号作成部250−kに置き換わる点、及び本形態の信号分離装置には限定信号分離部60−kが存在しない点である。以下、本形態の構成及び処理について説明する。
まず、代表値生成部30(図9)は、周波数領域変換部20が生成した周波数領域の観測信号値X(f,m)を一時記憶部90(図1)から抽出する。代表値生成部30(図9)は、第1の実施の形態と同様、相対値算出部31において観測値の相対値z(f,m)を算出し、クラスタリング部32においてクラスタリングを行い、代表値算出部33において代表値a,a,...,aを算出する。なお、相対値z(f,m)としては、位相差及び振幅比の少なくとも一方、或いはその写像(例えば、位相差から求められる信号の到来方向)等を用いることができるが、本形態では、観測信号間位相差から求められる信号の到来方向
Figure 0003949150
を相対値とする。
これらの代表値a,a,...,aは、一時記憶部90(図1)に格納され、限定信号作成部250−kのマスク作成部251−k(図9)は、これらの代表値a,a,...,aを読み出し、何れかの一つの代表値aを抽出するための[滑らかな形状のマスク]を生成する。なお、本形態の「滑らかな形状のマスク」は、V(V=1)個の代表値を含む限定範囲内にある相対値に対してハイレベル値をとり、この限定範囲内にない代表値に対してローレベル値をとり、相対値の変化に伴う当該ハイレベル値から当該ローレベル値への推移が連続的である関数である。
以下に、本形態の「滑らかな形状のマスク」の生成手順について説明する。
まず、マスク作成部251−kは、(N×N)の遅延行列HNBF(f)を生成する。すなわち、マスク作成部251−kは、一時記憶部90(図1)に格納された代表値a,a,...,aうちの一つ(抽出する信号の到来方向の推定値)を抽出し、これをθとする。また、マスク作成部251−kは、それ以外のN−1個の代表値(抽出しない信号の到来方向の推定値)を一時記憶部90(図1)から抽出し、それらをθ(i=2,...,N)とする。これらのθ及びθは一時記憶部90(図1)に格納される。マスク作成部251−kは、一時記憶部90からθ及びθを順次抽出し、τji=(d/v )cosθ(j=1,...,N)を算出し、遅延行列HNBF(f)のji要素HNBFji(f)=exp(j2πfτji)を算出して一時記憶部90に順次格納する。なお、dはセンサ1とセンサjとの距離(dは0)であり、fは周波数の変数、v は信号の速さである。これらのパラメータは、例えば事前に一時記憶部90に格納され、順次呼び出されて使用される。以上の処理により、(N×N)の遅延行列HNBF(f)が生成される。
次に、マスク作成部251−kは、この遅延行列HNBF(f)を用い、死角ビームフォーマ(NBF)の特性を持つNBF行列W(f)を作成する。これは、遅延行列HNBF(f)の逆行列W(f)=HNBF −1(f)を算出することで得られる。この逆行列W(f)=HNBF −1(f)は一時記憶部90に格納される。そして、マスク作成部251−kは、一時記憶部90からこのNBF行列W(f)の1行目の要素W1k(f)、d及びv を一時記憶部90から順次抽出し、前述の式(10)に示した指向特性関数F(f,θ)を生成する。その後、マスク作成部251−kは、この指向特性関数F(f,θ)を用い、滑らかな形状のマスクMDC(f,m)を生成する。
具体的には、例えば、第1の実施の形態における式(11)で示されるマスク([マスク7]とする)や、式(12)で示されるマスク([マスク8]とする)を、本形態の滑らかな形状のマスクMDC(f,m)として生成する。
また、例えば、以下のように除去信号領域のゲインを一様に小さくする特性を持つ[滑らかな形状のマスク]を生成することとしてもよい。
Figure 0003949150
Figure 0003949150
θは、例えば除去するN−1個の信号の到来方向の推定値(抽出する代表値a以外のN−1個の代表値)のうち、除去しない信号の到来方向の推定値(抽出する代表値a)に一番近いものである。
また、例えば、
Figure 0003949150
のように、取り出す方向についての指向特性を均一にしたマスクMDC(f,m)を用いることも可能である。また、過渡領域ではMDC(f,m)=|F(f,z(f,m))|を用いることもできる([マスク12])。
図10に、上述の[マスク8][マスク12]の例を示す。これらは、信号数N=3、センサ数M=2の場合に、aの方向から到来する信号を抽出し、a及びaの方向から到来する信号を抑圧する「滑らかな形状のマスク」の例である。
マスク作成部251−kで生成された滑らかな形状のマスクMDC(f,m)は、限定信号抽出部252−kに送られ、限定信号抽出部252−kは、Y(f,m)=MDC(f,m)X(f,m)により分離信号Y(f,m)を抽出する。
以上の処理はすべての分離信号が抽出されるまで複数の系統で実施され、最終的にすべての分離信号Y(f,m)が得られる。そして、信号分離装置は、得られた分離信号Y(f,m)を、時間領域変換部において時間領域の信号に戻し、信号統合部をそのまま通過して出力する。
<性能比較>
以下は、[従来法2]で信号分離を行った場合と、本形態の方法で[マスク8][マスク11]を用いて信号分離を行った場合との性能を比較した表である。
Figure 0003949150
この例では、源信号として、3人の話者(男性2名・女性1名)による音声信号を用い、残響の無い環境でのこれらの混合信号を、2つの無指向性マイクで観測する状況をシミュレートしている。
Figure 0003949150
この例は、表2の状況において信号の混合の仕方(具体的には話者の位置配置)を変えた場合のシミュレート結果である。
Figure 0003949150
この例は、表2の状況において話者の組合せ(男性3名)を変えた場合のシミュレート結果である。
これらの表に示すように、この形態の方法では、分離性能SIRをほとんど落すことなく、従来法2に比べ格段に高いSDRを得ることができている。これは信号の歪が少ない分離ができていることを示している。これより、本形態の方法は、信号源の数Nがセンサの数Mより多い場合に信号を低歪で分離するために有効であることが分かる。
〔第4の実施の形態〕
本形態も第1の本発明に係る実施の形態である。本形態では、バイナリマスクに滑らかな形状の関数を畳み込んで、滑らかな形状のマスクを生成する。以下ではマスク作成部(図1におけるマスク作成部51−kに相当)における処理のみを説明する。なお、その他の構成や処理については、第1から第3の実施の形態と同様である。また、本形態では、第1の実施の形態で説明した位相差z(f,m)、振幅比z(f,m)、位相差z(f,m)から得られる信号の到来方向z(f,m)等を、相対値z(f,m)として使用することができる。
図11は、本形態におけるマスク作成部300−kの構成を例示したブロック図である。
マスク作成部300−kの処理が開始されると、まず、バイナリマスク作成部301−kは、V個の代表値を含む所定の範囲内にある相対値に対してハイレベル値をとり、この範囲内にない相対値に対してローレベル値をとり、相対値の変化に伴う当該ハイレベル値から当該ローレベル値への推移が不連続な関数であるバイナリマスクを生成する。例えば、マスク作成部300−kは、V個の信号が混合した信号を抽出するためのバイナリマスク
Figure 0003949150
を生成する。
なお、ak−1からak+VのV個の代表値を含む信号を抽出する場合、amin、amaxは、例えばa<amin<ak−1,ak+V<amax<ak−V−1の範囲で設定する。これらは適当に設定しても良いが、より具体的には、例えば、以下の処理によってamin、amaxを算出する。
まず、マスク作成部300−kは、一時記憶部90(図1)に格納されている相対値z(f,m)、クラスタC及び代表値a(i=1,...,N)(第1の実施の形態ステップS3〜5参照)を読み込み、各クラスタCの分散値を
Figure 0003949150
の演算によって算出する。なお、|C|とは、クラスタCに属する相対値z(f,m)の数である。また、この分散値の算出を、例えば、EMアルゴリズム(例えば、「尾上守夫 監訳“パターン識別”,新技術コミュニケーションズ,ISBN 4−915851−24−9,第10章」等参照。)などを用い、データにガウシアンモデルのあてはめを行って求めてもよい。
算出された分散値σ は一時記憶部90(図1)に格納され、次に、マスク作成部301−k(図11)は、一時記憶部90に格納されている分散値σ 及び代表値a(この例ではクラスタCの平均値)を読み込み、これらを用いて、
Figure 0003949150
を算出する(amin、amaxの具体的な算出例の説明終わり)。
以上のように生成されたバイナリマスクF(z)は一時記憶部90(図1)に格納される。
次に、単峰性関数生成部302−k(図11)が、zの変化に伴って値が連続的に変化する単峰性関数g(z)を生成し、一時記憶部90(図1)に格納する。なお、単峰性関数g(z)としては、例えば、ガウシアン
Figure 0003949150
等の滑らかな形状の関数を例示できる。なお、σはg(z)の標準偏差を意味する。例えば、ak+1〜ak+V を取り出す場合、σとしては、amin−σ>a+σ、amax+σ<ak+V+1−σk+V+1となるように適当に設定するのが望ましく、例えば、σ=min(σk+V+1)とできる。なお、σ及びσk+V+1は式(22)のものである。また、min(α,β)はα及びβのうち小さい方を取り出す操作を意味する。
次に、畳み込み混合部303−k(図11)が、一時記憶部90(図1)から、バイナリマスクF(z)及び単峰性関数g(z)を読み込み、このバイナリマスクF(z)に単峰性関数g(z)を畳み込んだ関数F(z)=F(z)*g(z)を計算し、これを一時記憶部90(図1)に格納する。ここで*はzに関する畳み込み演算子である。
そして、次に、マスク構成部304−k(図11)が、一時記憶部90(図1)から、相対値z(f,m)及び関数F(z)を読み込み、関数F(z)に相対値z(f,m)を代入したマスク
Figure 0003949150
を生成し、一時記憶部90(図1)に格納する。
なお、その他、バイナリマスクF(z)の両端に、ある傾きを持つ直線(曲線)を付加した形状関数をF(z)とし、式(24)のマスクを求めてもよい。
また、代表値a(この例ではクラスタCの平均値)と、式(22)(23)のように求めた分散値σ 及びamin、amaxとをマスク構成部304−k(図11)が読み込み、平均a(f)、分散σ (f)をもつガウシアン
Figure 0003949150
を算出し、式(24)のマスクを求めてもよい。
〔第5の実施の形態〕
本形態も第1の本発明に係る実施の形態である。本形態は、奇関数の差から滑らかな形状のマスクを生成する。以下ではマスク作成部(図1におけるマスク生成部51−kに相当)における処理のみを説明する。なお、その他の構成や処理については、第1から第3の実施の形態と同様である。
本形態のマスク作成部は、相対値が限定範囲の下限値aminである場合に0をとる第1の奇関数と、相対値が限定範囲の上限値amaxである場合に0をとる第2の奇関数との差の写像から得られる単峰性の関数を、滑らかな形状のマスクとして生成する。例えば、
DC(f,m)={tanh(z(f,m)−amin)−tanh(z(f,m)−amax)}αを「滑らかな形状のマスク」とする。なお、相対値z(f,m)には、第1の実施の形態等で示した位相差z(f,m)及び振幅比z(f,m)の少なくとも一方、或いはその写像(例えば、位相差から求められる信号の到来方向z(f,m))等を用いる。また、αは任意の正の数であり、amin、amaxは第4の実施の形態と同様に求められたものである。また、必要に応じて、
DC(f,m)=MDC(f,m)/max(MDC(f,m))
などの正規化を施してもよい。
〔第6の実施の形態〕
本形態も第1の本発明に係る実施の形態である。本形態のマスクは、図1及び図2のマスク作成部51−kにおいて作成され、V個の代表値を含む所定の範囲内にある相対値に対してハイレベル値をとり、この所定の範囲内にない代表値に対してローレベル値をとり、ハイレベル値からローレベル値への推移が不連続な関数(バイナリマスク)である。ただし、2≦V≦Mである。すなわち、例えば、
Figure 0003949150
をバイナリマスクとして作成する。なお、ak+1からak+VのV個の代表値を含む信号を抽出する場合、amin、amaxは、例えばa<amin<ak−1,ak+V<amax<ak−V−1の範囲で設定する。より具体的には、例えば第4の実施の形態で述べた方法と同様な手順により、amin、amaxを生成する。また、本形態でも、位相差z(f,m)、振幅比z(f,m)、位相差z(f,m)から得られる信号の到来方向z(f,m)等を、相対値z(f,m)として使用することができる。
また、aminからamaxの範囲に含まれる相対値z(f,m)の数は、2以上センサの数M以下であり、好ましくは、センサの数Mである。さらに、第1の実施の形態と同様、本形態では複数通りのバイナリマスクB(f,m)を作成する。
具体的には、例えば、マスク制御部40(図1,図2)が一時記憶部90から代表値a,a,...,aを読み出し、これら代表値a,a,...,aを要素に持つ集合Gを特定するデータを変数SGに代入し、この変数SGを一時記憶部90に格納する。また、マスク制御部40は、集合Gを特定する変数SGをG=φ(空集合)に初期化し、変数kを0とし、それらを一時記憶部90に格納する(図4:ステップS6)。次に、マスク制御部40での制御のもと、N個すべての分離信号が得られるまで、限定信号作成部50−k(k=1,...,u),限定信号分離部60−k及び時間領域変換部70−kの複数系統(u系統)による処理が行われる。まず、マスク制御部40は、一時記憶部90に格納された変数kに1を加えた値を新たな変数kとし、再び一時記憶部90に格納する(図4:ステップS7)。次に、マスク制御部40は、一時記憶部90から変数SG及びSGを呼び出す。そして、マスク制御部40は、変数SGによって特定される集合Gから、SGによって特定される集合Gの補集合(G(αはαの補集合を示す))の元を含む適当なV(≦M)個の代表値の集合Gを選択し、この集合Gを特定するデータを変数SGに代入し、この変数SGを一時記憶部90に格納する(図4:ステップS8)。限定信号作成部50−kのマスク作成部51−kは、一時記憶部90に格納された変数SGを読み出し、この変数SGによって特定される集合Gを代表値に持つクラスの信号を抽出するバイナリマスクを作成する(図4:ステップS9)。
図12Aは、本形態におけるバイナリマスクの例示である。この例は、2個の代表値a,aを含む所定の範囲内にある相対値z(f,m)に対してハイレベル値(例えば1)をとり、この所定の範囲内にない代表値aに対してローレベル値(例えば0)をとるバイナリマスクの例である。この図の縦軸はバイナリマスクのゲインを示し、横軸は相対値z(f,m)(信号の到来方向(deg.))。この図に示すように、この例のバイナリマスクのハイレベル値はフラットであり、このハイレベル値とローレベル値とは不連続である。
なお、その他の構成や処理については、第1及び第2の実施の形態と同様である。すなわち、本形態では、第1及び第2の実施の形態で使用した滑らかな形状のマスクMDC(f,m)の換わりにバイナリマスクB(f,m)を用い、周波数領域の信号値から、V個の信号源から発せられた信号からなる混合信号(本形態ではこれを「限定信号」と呼ぶ)の値を抽出し、第1或いは第2の実施の形態の処理を実行する。
また、バイナリマスクB(f,m)を用い、周波数領域の信号値から、V個の信号源から発せられた信号からなる混合信号の値を抽出する処理は、周波数領域の観測信号値X(f,m)にバイナリマスクB(f,m)を乗じることにより行う(X^(f,m)=B(f,m)X(f,m))。
<本形態の特徴>
従来の「従来法2:信号のスパース性を利用した方法」で分離性能を上げた際に分離信号の歪が大きくなるのは、分離性能を上げるために上述の式(3)のεを十分小さくすると、このバイナリマスクによって取り出される信号成分が制限され、本来原信号の成分として取り出されるべきサンプルの多くが取り出されないからである。つまり、この場合、各分離信号に多くの0成分が詰めこまれ、各分離信号を不連続とし、Musical Noiseを発生させることになる。
これに対し、この形態では、バイナリマスクB(f,m)によって、2個以上M個以下の原信号からなる混合信号(限定信号)を抽出する。そのため、1個のみの信号の値を抽出する[従来法2]のバイナリマスクよりも、広い範囲の相対値z(f,m)に対する信号(サンプル)を限定信号として抽出できる。例えば、図12Aの例の場合、相対値z(f,m)が代表値aやaの近傍となるサンプル値のみではなく、相対値z(f,m)がaとaとの間に位置するようなサンプル値も抽出できる。また、例えば、aとaとの間に位置するようなサンプルは、代表値a或いはaに対応するサンプルである可能性が高い。
そのため、ある時刻において同一周波数の観測信号が2個以上存在し、サンプル値が、本来対応すべき代表値から離れてしまった場合であっても、このようなサンプル値を抽出できる可能性は高くなる。その結果、分離信号に不連続に0成分が詰めこまれることによる品質劣化(Musical Noiseの発生)を抑制できる。
<バイナリマスクによる0詰めの影響の検証>
以下に、3人の話者による音声信号s、s、sが、2つの無指向性マイクで観測された場合(N=3,M=2の場合)について、バイナリマスクによる0詰めの影響を議論する。
バイナリマスクによって0が詰められ失われた信号のパワーの比率を、
Figure 0003949150
と定義すると、従来の「信号のスパース性を利用した方法(従来法2)」では、s:17%、s:14%、s:23%もの信号のパワーがバイナリマスクにより失われた。
一方、本形態のバイナリマスクB(f,m)による信号のパワー劣化は、限定信号をsとsの2つの信号の混合とした場合にはs:2.5%、s:5.7%であり、sとsの2つの信号の混合とした場合にはs:8.1%、s:0.7%であった。
すなわち、この形態では、バイナリマスクB(f,m)による信号の劣化が従来法に比べて少ないことが分かる。これは、この形態では、Musical Noiseが発生しにくいことを示している。
<性能比較>
以下に、本形態のシミュレーション結果を示す。
Figure 0003949150
この例は、本形態のバイナリマスクで限定信号を抽出し、その限定信号にICAを提供して信号分離を行った例である。またこの例では、原信号として、3人の話者(男性2名・女性1名)による音声信号を用い、残響の無い環境でのこれらの混合信号を、2つの無指向性マイクで観測する状況をシミュレートしている。この表に示すように、この形態の方法では、分離性能SIRをほとんど落すことなく、従来法2に比べ格段に高いSDRを得ることができる。これは、この形態の方法が、格段に低い歪で信号の分離を行っていることを示している。
〔第7の実施の形態〕
本形態も第1の本発明に係る実施の形態であり、上述の第6の実施の変形例である。すなわち、本形態も2≦V≦Mの場合にバイナリマスクを用いて限定信号を抽出する形態であるが、バイナリマスクB(f,m)の作成方法及び限定信号の算出処理に違いがある。以下では、このバイナリマスクB(f,m)の作成方法、及び限定信号の算出処理にのみについて説明を行い、その他の処理及び機能構成については、第1の実施の形態或いは第2の実施の形態と同一であるため、説明を省略する。
この形態のバイナリマスクB(f,m)は、上述の限定信号以外の観測信号成分を抽出するためのものである。すなわち、この形態のマスク作成部が作成するバイナリマスクB(f,m)は、V個の代表値(この集合をGとする)を含む所定の範囲内にある相対値に対してローレベル値をとり、この所定の範囲内にない代表値(G )に対してハイレベル値をとり、ハイレベル値からローレベル値への推移が不連続な関数である。ただし、2≦V≦Mである。
すなわち、この形態のマスク作成部51−kは、例えば、G に含まれる代表値について、上述の式(3)で示されるバイナリマスクを生成する。また、本形態でも、位相差z(f,m)、振幅比z(f,m)、位相差z(f,m)から得られる信号の到来方向z(f,m)等を、相対値z(f,m)として使用することができる。図12Bは、本形態のバイナリマスクB(f,m)の例示である。この例は、V=2個の代表値a,aを含む所定の範囲内にある相対値z(f,m)に対してローレベル値(例えば0)をとり、この所定の範囲内にない代表値aに対してハイレベル値(例えば1)をとるバイナリマスクの例である。この図の縦軸はバイナリマスクのゲインを示し、横軸は相対値z(f,m)(信号の到来方向(deg.))。この図に示すように、この例のバイナリマスクのハイレベル値はフラットであり、このハイレベル値とローレベル値とは不連続である。
また、この形態の限定信号抽出部は、周波数領域の信号値X(f,m)にこのバイナリマスクB(f,m)を乗じた値を、周波数領域の信号値X(f,m)から減算し、限定信号値X^(f,m)を抽出する。例えば、上述の式(3)で示されるバイナリマスクM(f,m)を集合G に含まれるN−M個の代表値について作成し、
Figure 0003949150
を計算することで、M個の原信号のみからなる限定信号の値X^(f,m)を算出する。なお、上述の式(3)のバイナリマスクM(f,m)は、それぞれ1つの代表値のみに対してハイレベル値をとるバイナリマスクであるが、2つ以上の代表値に対してハイレベル値をとるバイナリマスクを用いて本形態の処理を実行してもよい。また、バイナリマスクの変わりに上述した滑らかな形状のマスクを用いて本形態の処理を実行してもよい。
限定信号X^(f,m)が算出されると、以後第1の実施の形態或いは第2の実施の形態と同様な限定信号分離、時間領域変換、信号統合の処理が行われる。
〔第8の実施の形態〕
本形態は、第2の本発明に係る例であり、M個のセンサで信号が観測される状況において、観測値をM次元領域でクラスタリングし、マスクを定義する。なお、以下では第1の実施の形態との相違点を中心に説明し、第1の実施の形態と共通する事項については説明を省略する。
図13は、本形態における代表値生成部430、マスク制御部40及び限定信号作成部450−kの構成を例示したブロック図である。なお、この図はV個の分離信号を得る1系統のみを示している。なお、本形態では1≦V≦Mである。
本形態の信号分離装置と第1の実施の形態の信号分離装置1との構造上の相違点は代表値生成部及び限定信号作成部である。すなわち、第1の実施の形態の信号分離装置1の代表値生成部30(図1)の換わりに代表値生成部430(図13)が設けられ、信号分離装置1の限定信号作成部50−k(図1)の換わりに限定信号作成部450−k(図13)が設けられる。その他の構成については第1の実施の形態と同様である。
図14は、本形態における信号分離処理を説明するためのフローチャートである。以下、このフローチャートに添って、本形態の信号分離処理について説明する。
まず、前処理として、各センサにおいて観測された時間領域の各観測信号x(t)(j=1,...,M)を記憶部2(図1)に格納しておく。そして、信号分離処理が開始されると、信号分離プロセッサ3は制御部10の制御のもと以下の処理を実行する。
まず信号分離プロセッサ3は、制御部10の制御のもと記憶部2にアクセスし、そこから各観測信号値x(t)を順次読み込み、周波数領域変換部20に送る(ステップS21)。周波数領域変換部20は、短時間離散フーリエ変換等によって、これらの信号値を時間ごとの周波数領域の観測信号値X(f,m)に順次変換し、一時記憶部90に格納する(ステップS22)。
次に、クラスタリング部432(図13)が、一時記憶部90(図1)に格納された周波数領域の観測信号値X(f,m),...,X(f,m)を読み出す。そして、クラスタリング部432(図13)は、これら周波数領域の信号値X(f,m),...,X(f,m)からなる観測信号ベクトル(「第1のベクトル」に相当)X(f,m)=[X(f,m),...,X(f,m)]を、周波数fごとにN個ずつのクラスタC(f)(i=1,...,N)にクラスタリングし、信号源数Nと等しいN個のクラスタC(i=1,2,...,N)を生成する(ステップS23)。なお生成されたN個のクラスタCは、一時記憶部90(図1)に格納される。
ここで本形態におけるクラスタとは、観測信号ベクトルX(f,m)の集合であり、離散時間mの集合Tを用いてC(f)={X(f,m)|m∈T}と表記される。また、クラスタリングの目的は、同じ信号源が支配的である(主な成分を持つ)サンプル(観測信号ベクトルX(f,m))を同じクラスタに分類することである。なお、得られるN個のクラスタC(f),...,C(f)は、必ずしも、互いに素(C(f)∩C(f)が空集合,i≠j)である必要はなく、またクラスタに属さない要素
Figure 0003949150
が存在してもよい。
[クラスタリング部432での処理の詳細]
ここでクラスタリング部432の処理をさらに詳細に説明する。
この例のクラスタリング部432は、クラスタリングを適切に実行できるように、すなわち同じ信号源が支配的であるサンプル(観測信号ベクトルX(f,m))が同じクラスタに分類されるように、各サンプルの正規化を行ってからクラスタリングを行う。
具体的には、例えばまず正規化部432a(図13)が、一時記憶部90(図1)から観測信号ベクトルX(f,m)を読み込み、
Figure 0003949150
の正規化を行い、クラスタ生成部432bが、この正規化結果のクラスタリングを行う。
また、さらに必要であれば、この例の正規化部432aは、式(28)(29)の正規化を行った後、さらに、
Figure 0003949150
Figure 0003949150
の正規化を行い、クラスタ生成部432bが、この正規化結果のクラスタリングを行う。ただし、ベクトルの長さ‖X(f,m)‖はX(f,m)のノルムであり、具体的には、例えば、
Figure 0003949150
Figure 0003949150
また、クラスタ生成部432bが行うクラスタリングの方法としては、例えば、階層的クラスタリングやk−meansクラスタリング等の多くの教科書で説明されている方法を用いることができる(例えば、「尾上守夫 監訳“パターン識別”,新技術コミュニケーションズ,ISBN 4−915851−24−9,第10章」等参照。)。なお、いずれのクラスタリング方法も、2つのサンプルX(f,m)とX’(f,m)の距離が定義され、それに従ってサンプル間の近さが測られ、なるべく距離の近いサンプル同士が同じクラスタに含まれるようにクラスタリングするものである。
例えば、上述の式(29)のみによってサンプルが正規化された場合、クラスタ生成部432bは、正規化された2つの観測信号ベクトルX(f,m)間のコサイン距離を距離尺度として用いてクラスタリングを行う。なお、2つのサンプルX(f,m)とX’(f,m)のコサイン距離は、
Figure 0003949150
によって定義される。
また、上述の式(29)と式(30)によってサンプルが正規化された場合、クラスタ生成部432bは、正規化された2つの観測信号ベクトル間の差(X(f,m)−X’(f,m))のL2ノルム‖X(f,m)−X’(f,m)‖=L(X(f,m)−X’(f,m))や、任意のkによるLノルム、或いはコサイン距離(式(32))を距離尺度として用いてクラスタリングを行う([クラスタリング部432での処理の詳細]の説明終わり)。
次に、代表値計算部433が、一時記憶部90(図1)に格納された各クラス(f)を順次抽出し、各クラス(f)を代表する代表ベクトル(「第2のベクトル」に相当)a(f)を算出する(ステップS24)。
[代表値計算部433での処理の詳細]
例えば、まず代表値計算部433の代表ベクトル生成部433a(図13)が、一時記憶部90(図1)に格納された各クラスC(f)を順次抽出し、各クラスタC(f)に属するサンプルの値X(f,m)の平均値
Figure 0003949150
を各信号源に関する代表ベクトルa(f)として算出する。成いは、各クラスタC(f)に属するサンプルX(f,m)を適度に量子化し、最瀕値を求めてこれを代表ベクトルa(f)としてもよい。このように求められた代表ベクトルa(f)は一時記憶部90(図1)に格納される。
次に、並び替え部433b(図13)が、一時記憶部90(図1)から、これらの代表ベクトルa(f),...,a(f)を読み出し、これらの各代表ベクトルa(f),...,a(f)の各源信号s(t)との対応が、すべての周波数fにおいて等しくなるように、各代表ベクトルa(f)の添字iを付け替える(ステップS25)。
具体的には、例えばまず、並び替え部433b(図13)が、読み出した各周波数fの代表ベクトルa(f)を用い、
Figure 0003949150
の演算によって、各周波数fに対する源信号iの到来方向の推定値θ(f)を算出する。なお、dはセンサjの位置、v e は信号の速さ、aji(f)は代表ベクトルa(f)のi番目の要素であり、d及びv e は、例えば、予め一時記憶部90に格納されているデータを用いることとする。
算出された各推定値θ(f)は、例えば、その算出に用いた代表ベクトルa(f)に対応付けられて一時記憶部90(図1)に格納される。次に、並び替え部433b(図13)は、例えば、一時記憶部90から各推定値θ(f)を読み込み、これらを各周波数fごとに所定の順序(例えば、昇順、降順等)で並び替える。なお、この並び替えは、例えば公知の並び替えアルゴリズムによって行われる。そして、この並び替え後の各fにおける各代表ベクトルa(f)の順番を示す情報(j’(f,a(f))=1,2,...,N)が、一時記憶部90(図1)に格納される。そして、並び替え部433b(図13)は、例えば、この順序情報j’(f,a(f))を一時記憶部90から読み込み、当該a(f)j’(f,a(f))番目の源信号に対応するとして、各代表ベクトルとiとの対応付けを変更する(a(f)の添字iを付け替える)。そして、この添字iが付け替えられた各代表ベクトルa(f)は、一時記憶部90(図1)に格納される。
次に、マスク制御部40は、これら各代表ベクトルa(f)を要素に持つ集合Gを特定するデータを変数SGに代入し、この変数SGを一時記憶部90に格納する。また、マスク制御部40は、集合Gを特定する変数SGをG=φ(空集合)に初期化し、変数kを0とし、それらを一時記憶部90に格納する(ステップS26)。
次に、マスク制御部40での制御のもと、N個すべての分離信号が得られるまで、限定信号作成部50−k(k=1,...,u),限定信号分離部60−k及び時間領域変換部70−kの複数系統(u系統)による処理が行われる。
まず、マスク制御部40は、一時記憶部90に格納された変数kに1を加えた値を新たな変数kとし、再び一時記憶部90に格納する(ステップS27)。
次に、マスク制御部40は、一時記憶部90(図1)から変数SG及びSGを呼び出す。そして、マスク制御部40は、変数SGによって特定される集合Gから、SGによって特定される集合Gの補集合(G(αはαの補集合を示す))の元を含む適当なV(≦M)個の代表ベクトルa(f)(p=1,...,V)(「第3のベクトル」に相当)の集合Gを選択し、この集合Gを特定するデータを変数SGに代入し、この変数SGを一時記憶部90に格納する(ステップS28)。すなわち、マスク制御部40は、各代表ベクトルa(f),...,a(f)の中から、限定信号として取り出すV個の信号に対応するV個の代表ベクトルa(f)(p=1,...,V)を抽出する。
本形態では、この集合Gに含まれる代表ベクトルa(f)に近いサンプル値X(f,m)を抽出し、集合Gに含まれない代表ベクトル(集合G の要素、*は*の補集合を示す)に近いサンプル値X(f,m)を抽出しないことで、V個の信号が混合した限定信号X^(f,m)を作成する。
そのために、本形態では、限定信号作成部450−kのマスク作成部451−k(図13)が、一時記憶部90(図1)から変数SG、SG及び観測信号ベクトルX(f,m)を読み込み、以下のマスクM(f,m)を生成する(ステップS29)。
Figure 0003949150
を示し、|C|は、クラスタCに属するサンプル数を示す。また、源信号の大きさがほぼ同じであることが分かっている場合、共分散行列Σ=I(単位行列)としてもよい。
このマスクM(f,m)は、一時記憶部90(図1)に格納され、限定信号抽出部452−k(図13)は、一時記憶部90からマスクM(f,m)と観測信号ベクトルX(f,m)とを読み込み、マスクM(f,m)と観測信号ベクトルX(f,m)との積
^(f,m)=M(f,m)・X(f,m)
を演算し、V個の信号源から発せられた限定信号値X^(f,m)を抽出する(ステップS30)。
この限定信号値X^(f,m)は、一時記憶部90(図1)に格納された後、限定信号分離部60−kに送られ、限定信号分離部60−kは、この限定信号値X^(f,m)を用い、限定信号の信号分離を行う(ステップS31)。ここで、限定信号値X^(f,m)は、V(1≦V≦M)個の信号源から発せられた信号によって構成された混合信号の値であると近似される。よって、その分離行列の推定には[従来法1]で述べた独立成分分析による方法を利用できる。すなわち独立成分分析の入力として、観測信号値Xの代わりに限定信号値X^(f,m)を用い、例えば[従来法1]で述べた式(2)を用いて分離を行う。なお、V=1の場合は、ステップS31の処理は不要である。
本実施例におけるICAによる分離では、まず、ICA分離行列推定部61−k(図2)において、限定信号値X^(f,m)を用い、前述の式(2)の学習則に従い分離行列W(f,m)を生成し、この分離行列W(f,m)を一時記憶部90に格納する。なお、この分離行列W(f,m)の生成には、例えば、以下のパーミュテーション・スケーリング解決部62−kからの出力値Y(f,m)のフィードバックを用いる。生成された分離行列W(f,m)はパーミュテーション・スケーリング解決部62−kに送られる。パーミュテーション・スケーリング解決部62−kは、この分離行列W(f,m)と限定信号値X^(f,m)を用い、Y(f,m)=W(f,m)X^(f,m)の演算を行い、それぞれの分離信号値Y(f,m)=[Yk1 Πk1(f,m),...,YkV ΠkV(f,m)]を生成し、それを一時記憶部90に格納する。そして、パーミュテーション・スケーリング解決部62−kは、例えば、この分離信号値Y(f,m)をフィードバックし、[従来法1]で述べた方法でPermutation問題を解決する。Permutation問題の解決後、パーミュテーション・スケーリング解決部62−kは、さらに、分離信号値Ykq(q=1,...V)がどの源信号に対応するのかを示すタグΠkqを、分離信号値Ykq(q=1,...V)に付与し、これらを対応付けて一時記憶部90に格納する。ここでは、このタグΠkqを分離信号値Ykqの上付添字Πkqとして表記する。
具体的には、例えば、パーミュテーション・スケーリング解決部62−kが、一時記憶部90から抽出した分離行列W(f)の逆行列(N≠Mの場合はMoore-Penrose型擬似逆行列)を用い、
Figure 0003949150
(ここでv e は信号の速さ、dはセンサjの位置)
の演算によって得られる信号の推定到来方向θ(f)と、一時記憶部90から抽出した変数SGが示す集合Gに含まれる代表ベクトルa(f)とを比較し、θに最も近い代表ベクトルa(f)をq番目の分離信号Ykqに対応付ける(ステップS32)。つまり、パーミュテーション・スケーリング解決部62−kは、この分離信号Ykqに対し、代表値aを示すタグΠkqを付与する(対応付ける)。
この後、パーミュテーション・スケーリング解決部62−kが、一時記憶部90から分離行列W(f)を抽出し、その各行w(f)を
(f)←[W−1(f)]jq(f)
とすることにより、ICAのスケーリング問題を解決し、スケーリング問題解決後の分離行列W(f)を一時記憶部90に格納する。なお、後の信号統合部80における処理のため、この処理ではすべての系列kにおいて同じjを用いることが望ましい。
タグΠkqが付与された各分離信号値Ykqは、時間領域変換部70−kに送られる。時間領域変換部70−kは、例えば、短時間逆離散フーリエ変換等により、時間周波数領域で得られている各分離信号値Ykqを時間領域の信号値に変換し、その変換値を一時記憶部90に格納する。(ステップS33)。なお、これら時間領域の信号値y(t)=[yk1 Πk1(t),...,ykV ΠkV(t)]にも上述のタグΠkqが関連付けられる。この関連付けを行う場合、まず、時間領域変換部70−kが、一時記憶部90から、周波数領域の信号値Ykqに対応付けられているタグΠkqを各周波数及び時間について抽出する。次に、時間領域変換部70−kは、各周波数及び時間におけるタグΠkqがすべて等しいか否かを判断する。ここでこれらがすべて等しかった場合には、時間領域の信号値y のタグとして、周波数領域の信号値Ykqに対応付けられているタグΠkqを対応付ける。一方、これらがすべて等しくなかった場合には、多数決にて時間領域の信号値ykqのタグを決定する。
次に、マスク制御部40において、一時記憶部90から変数SGとSGとを抽出し、これらが示すGとGとの和集合Gを新たな集合Gとし、この集合Gを変数SGに代入し、この変数SGを一時記憶部90に格納する(ステップS34)。また、マスク制御部40は、一時記憶部90から変数SGとSGとを読み出し、この新たな集合Gが集合Gと等しいか否かを判断する(ステップS35)。ここで、G=GでなければステップS27の処理に戻る。
一方、G=Gであれば、信号統合部80において、一時記憶部90から各系統k(時間領域変換部70−k/k=1,...,u)から出力された分離信号ykp(t)を読み出し、これらの選択/統合を行い、N個すべての分離信号を得る(ステップS36)。具体的には、例えば、まず信号統合部80は、一時記憶部90から読み出した各分離信号ykp(t)のタグΠkqを比較する。ここで、複数の系統kにおいて同じタグを持つ分離信号値y (t)が存在しないと判断された場合、信号統合部80は、すべての分離信号値ykq(t)を最終的な分離信号値y(t)(i=1,...,N)として出力する(ステップS37)。一方、複数の系統において同じタグを持つ分離信号値が存在すると判断された場合、信号統合部80は、これらのタグが等しい分離信号値のどれか1つを適当に選択し、最終的な分離信号値y(t)として出力するか、同じタグを持つ分離信号値の平均を計算し、それを出力信号とする(ステップS37)。
ここで、どれか1つの分離信号値ykq(t)を適当に選択し、最終的な分離信号値y(t)として出力する処理の場合、信号統合部80は、例えば、同じタグaを持つ分離信号値ykq(t)の中で最大パワーを持つものを最終的な分離信号値y(t)として出力する。また、同じタグを持つ分離信号値の平均を最終的な分離信号値y(t)として出力する処理の場合、信号統合部80は、例えば、
Figure 0003949150
(Kは同じタグaを持つ分離信号の個数)
とする。以上により、N個の信号が少ない歪で分離される。
なお、本形態の変形として、マスクM(f,m)を生成せず、
Figure 0003949150
として、直接限定信号値を生成してもよい。すなわち、例えば、限定信号作成部450−kが、観測信号ベクトルX(f,m)に対し、
Figure 0003949150
を満たすか否かを判断し、満たすと判断した観測信号ベクトルX(f,m)を、信号源から発せられた信号の値として抽出することとしてもよい。
〔第9の実施の形態〕
本形態は、第3の本発明に係る実施の形態である。
<構成>
図15は、本形態におけるブランド信号分離装置500の構成を例示したブロック図である。なお、この図における矢印はデータの流れを示すが、制御部521や一時記憶部522に出入りするデータの流れは省略してある。すなわち、データが制御部521や一時記憶部522を経由する場合であっても、その経由の過程は省略してある。
まず、この図を用いて、本形態の構成について説明する。
図15に例示するように、本形態の信号分離装置500は、記憶部501とこれに有線或いは無線で電気的に接続された信号分離プロセッサ502とを有している。
記憶部501は、例えば、ハードディスク装置、フレキシブルディスク、磁気テープ等の磁気記録装置、DVD−RAM(Random Access Memory)、CD−R(Recordable)/RW(ReWritable)等の光ディスク装置、MO(Magneto−Optical disc)等の光磁気記録装置、EEP−ROM(Electronically Erasable and Programmable−Read Only Memory)、フラッシュメモリ(flash memory)等の半導体メモリ等である。また、記憶部501は、信号分離プロセッサ502と同一の筺体内に存在してもよいし、別個の筺体に構成されてもよい。
またこの例の信号分離プロセッサ502は、例えばプロセッサやRAM等によって構成されるハードウェアであり、周波数領域変換部511、混合行列推定部512、パーミュテーション問題解決部513、スケーリング問題解決部514、列選択部516、行列生成部517、分離行列生成部518、分離信号生成部519、時間領域変換部520、制御部521及び一時記憶部522を有している。また、この例の混合行列推定部512は、クラスタリング部512a、代表ベクトル計算部512b及びベクトル統合部512cを有している。さらに、クラスタリング部512aは、正規化部512aa及びクラスタ生成部512abを有している。
<処理>
図16は、本形態における信号分離装置500の処理の全体を説明するためのフローチャートである。以下、図15及び図16を用いて、信号分離装置500の処理を説明していく。なお、以下ではN(N≧2)個の信号源から発せられた信号が混合され、M個のセンサで観測された場合について説明する。
[処理の全体]
信号分離装置500は、制御部521の制御のもと、以下の処理を実行する。
まず、M個のセンサで観測された観測信号の値x(t),...,x(t)(tは時間)が、記憶部501から読み込まれ、周波数領域変換部511に入力される(図15)。周波数領域変換部511は、これらの観測信号値x(t),...,x(t)を、短時間離散フーリエ変換等により、周波数領域の信号値(周波数fごとの時系列データ)X(f,m),...,X(f,m)(mは離散時間)に変換する(ステップS51)。これら周波数領域の信号値X(f,m),...,X(f,m)は、一時記憶部522に格納され、混合行列推定部512のクラスタリング部512aによって読み込まれる。クラスタリング部512aは、これらによって構成される観測信号ベクトルX(f,m)=[X(f,m),...,X(f,m)]を、周波数fごとにN個ずつのクラスタC(f)(i=1,...,N)にクラスタリングする(ステップS52)。各クラスタC(f)は、代表ベクトル計算部512bに送られ、代表ベクトル計算部512bは、各クラスタC(f)の代表ベクトルa(f)を算出する(ステップS53)。各代表ベクトルa(f)は、一時記憶部522に格納され、ベクトル統合部512cは、これらを順次抽出し、各代表ベクトルa(f)を列とする推定混合行列A(f)=[a(f),...,a(f)]を生成する(ステップS54)。生成された推定混合行列A(f)は、一時記憶部522に格納される。
パーミュテーション問題解決部513は、推定混合行列A(f)を一時記憶部522から読み込み、推定混合行列A(f)の列を並び替えてパーミュテーション問題を解決する(ステップS55)。なお、この処理には、後述する分離信号の値Y(f,m),...,Y(f,m)をフィードバックして用いることも可能であり、その場合、より正確にパーミュテーション問題を解決できる。
次に、スケーリング問題解決部514において推定混合行列A(f)の列を正規化してスケーリング問題を解決した後(ステップS56)、この推定混合行列A(f)を用いて、分離行列生成部518が分離行列W(f,m)を生成する(ステップS57)。生成された分離行列W(f,m)は、一時記憶部522に格納された後、そこから分離信号生成部519に送られ、分離信号生成部519は、一時記憶部522から周波数領域の信号値X(f,m),...,X(f,m)を読み込み、Y(f,m)=W(f,m)X(f,m)の演算により、分離信号ベクトルY(f,m)=[Y(f,m),...,Y(f,m)]を算出する(ステップS58)。算出された分離信号値Y(f,m),...,Y(f,m)は、一時記憶部522に格納され、パーミュテーション問題解決部513にフィードバックされる他、時間領域変換部520にも送られる。そして、時間領域変換部520は、分離信号値Y(f,m),...,Y(f,m)を、添字iごとの短時間逆フーリエ変換等により時間領域の信号値y(t),...,y(t)に変換し(ステップS59)、時間領域での分離信号値y(t)が得られる。
[混合行列推定部512での処理の詳細]
次に、混合行列推定部512での処理の詳細について説明する。なお、以下の処理は、周波数ごとに適用されるものである。
まず、クラスタリング部512aは、一時記憶部522から読み込んだすべてのセンサの観測信号成分X(f,m),...,X(f,m)をまとめ、これらを観測信号ベクトルX(f,m)=[X(f,m),...,X(f,m)]として関連付ける。そして、クラスタリング部512aは、クラスタリングによって信号源と等しい数N個のクラスタC(f)を生成し、これらを一時記憶部522に格納する(ステップS52)。
ここでクラスタとは、観測信号ベクトルX(f,m)の集合であり、離散時間mの集合Tを用いてC(f)={X(f,m)|m∈T}と表記する。また、クラスタリングの目的は、同じ信号源が支配的である(主な成分を持つ)サンプル(観測信号ベクトルX(f,m))を同じクラスタに分類することである。なお、得られるN個のクラスタC(f),...,C(f)は、必ずしも、互いに素(C(f)∩C(f)が空集合,i≠j)である必要はなく、またクラスタに属さない要素
Figure 0003949150
が存在してもよい。
次に、代表ベクトル計算部512bは、一時記憶部522から各クラスタC(f)を読み込み、各クラスタC(f)に属するサンプルX(f,m)の平均値
Figure 0003949150
Figure 0003949150
を各信号源に関する代表ベクトルa(f)として算出する(ステップS53)。或いは、各クラスタC(f)に属するサンプルX(f,m)を適度に量子化し、最瀕値を求めてこれを代表ベクトルa(f)としてもよい。
最後に、ベクトル統合部12cでN個の代表ベクトルa(f)をまとめて、混合行列H(f)=[h(f),...,h(f)]の推定行列である推定混合行列A(f)=[a(f),...,a(f)]を生成して出力する(ステップS54)。なお、推定混合行列A(f)は、各ベクトルの順序に関する任意性(パーミュテーションの任意性)と、各ベクトルの大きさの任意性(スケーリングの任意性)を含んでいる。すなわち、代表ベクトルa(f)は、hΠ(i)(f)に任意の複素数を掛けたものとして推定される。ここで、Πは、パーミュテーションの任意性を表現する順列である。
[クラスタリング部512aでの処理の詳細]
次にクラスタリング部512aの処理をさらに詳細に説明する。
この例のクラスタリング部512aは、クラスタリングを適切に実行できるように、すなわち同じ信号源が支配的であるサンプル(観測信号ベクトルX(f,m))が同じクラスタに分類されるように、正規化部512aaで各サンプルの正規化を行ってからクラスタリングを行う。
具体的には、この例の正規化部512aaは、
Figure 0003949150
の正規化を行った後にクラスタリングを行う。
また、さらに必要であれば、この例の正規化部512aaは、さらに、
Figure 0003949150
Figure 0003949150
の正規化を行った後にクラスタリングを行う。ただし、ベクトルの長さ‖X(f,m)‖はX(f,m)のノルムであり、具体的には、例えば、
Figure 0003949150
Figure 0003949150
また、クラスタリングの方法としては、例えば、階層的クラスタリングやk−meansクラスタリング等の多くの教科書で説明されている方法を用いる(例えば、「尾上守夫 監訳“パターン識別”,新技術コミュニケーションズ,ISBN 4−915851−24−9,第10章」等参照。)。なお、いずれのクラスタリング方法も、2つのサンプルX(f,m)とX’(f,m)の距離が定義され、それに従ってサンプル間の近さが測られ、なるべく距離の近いサンプル同士が同じクラスタに含まれるようにクラスタリングするものである。
例えば、上述の式(36)のみによってサンプルが正規化された場合、クラスタリング部512aは、正規化された2つの観測信号ベクトルX(f,m)間のコサイン距離を距離尺度として用いてクラスタリングを行う。なお、2つのサンプルX(f,m)とX’(f,m)のコサイン距離は、
Figure 0003949150
によって定義される。
また、上述の式(36)と式(37)によってサンプルが正規化された場合、クラスタリング部512aは、クラスタ生成部512abにおいて、上記の正規化された2つの観測信号
Figure 0003949150
m)−X’(f,m))や、任意のkによるLノルム、或いはコサイン距離(式(39))を距離尺度として用いてクラスタリングを行う。
以上の操作により、各クラスタCの代表ベクトルa(f)が混合ベクトルh(f)の推定(大きさの任意性を含む)となる理由を説明する。
クラスタCには、ある源信号Sのみが支配的で他の源信号は0に近いような観測信号ベクトルX(f,m)が集められている。この状況は、
Figure 0003949150
と近似できる。
そしてこの関係と式(36)の正規化により、
Figure 0003949150
となる。なおここでは、sign(Hjk)=sign(Hjk)sign(S),1/sign(Hjk)=sign(Hjk)(・は複素数の共役をとる操作),及びS/sign(S)=|S|なる関係を用いた。また、これらの記載においてf,mは省略してある。
また、式(37)の正規化と式(40)により、
X←X/‖X‖=sign(Hjk)|S|h/(|S|・‖h‖)=sign(Hjk)h/‖h‖ …(42)
となる。なおここでは、‖sign(Hjk)|S|h‖=|S|・‖h‖なる関係を用いた。また、これらの記載においてもf,mは省略してある。
ここで、式(41)により、式(36)によって正規化された観測信号ベクトルX(f,m)は、混合ベクトルh(f)をsign(Hjk(f))倍したベクトルの直線上に集まることがわかる。そして、各ベクトルが直線上のどこに乗るかは、信号源の大きさ|S(f,m)|による。また、式(42)により、式(37)によって正規化された観測信号ベクトルX(f,m)は、複素空間での1点sign(Hjk(f))h(f)/‖h(f)‖に集まることがわかる。これらは、正規化された観測信号ベクトルX(f,m)の平均として算出した代表ベクトルa(f)が、大きさの任意性を含む混合ベクトルh(f)の推定となっていることを示している。
[パーミュテーション問題解決部513での処理の詳細]
次に、パーミュテーション問題解決部513での処理の詳細について説明する。
パーミュテーション問題解決部513では、各周波数fで算出された推定混合行列A(f)の列の並べ替えを行い、同じ信号源s(t)に関する代表ベクトルa(f)がすべての周波数fで同じになるようにする(ステップS55)。すなわち、各分離信号Y(f,m),…,Y(f,m)と各信号源との対応が各周波数fにおいて同一となるように添字iを付け替える。そのために、例えば、従来の技術と同様、非特許文献2の手順に基づいて2種類の情報を用いる。
1つ目の情報は、信号源の到来方向などの位置情報である。従来のICAを用いた方法では、分離行列WをICAにより求めて、そのムーア・ペンローズ(Moore-Penrose)型擬似逆行列W(M=Nの場合は逆行列W−1に一致)から位置情報を得ていた。ここで、このムーア・ペンローズ型擬似逆行列Wは、混合行列の推定A(f)とみなせる。そのため、本形態では従来のICAを用いた方法とは異なり、推定混合行列A(f)そのものをムーア・ペンローズ型擬似逆行列Wとみなし、その各列から直接位置情報を得ることができる。具体的には、例えば、
Figure 0003949150
によって位置情報を得ることができる。ここで、θiは、センサjとセンサj’とを結ぶ直線と、センサjとセンサj’との中心点と信号源iを結ぶ直線とのなす角度である。また、dはセンサjの位置を示すベクトルである。そして、例えば、各添字iとθiとの対応が各周波数fにおいて同一となるように推定混合行列A(f)の列の並び替えを行い、パーミュテーション問題の解決を図る。
2つ目の情報は、従来のICAを用いた方法と同様、分離信号成分の絶対値|Y(f,m)|の周波数間での相関である。すなわち、例えば、異なる周波数f1とf2において、同じ添字iに対する分離信号成分の絶対値の相関
Figure 0003949150
が最大化されるように推定混合行列A(f)の列の並び替えを行い、パーミュテーション問題の解決を図る。
なお、これらの処理に使用する分離信号は、分離信号生成部519の出力Y(f,m),...,Y(f,m)をフィードバックすることで得られる。
[スケーリング問題解決部514での処理の詳細]
次に、スケーリング問題解決部514での処理の詳細を説明する。
パーミュテーション問題解決部513から推定混合行列A(f)を受け取ったスケーリング問題解決部514は、各列の大きさの任意性を解決するために、まず推定混合行列A(f)の各列(代表ベクトル)a(f)に対し、正規化
(f)←a(f)/aji(f)
を行う(ステップS56)。なお、ajiは、代表ベクトルa(f)のj行目の要素である。また、jは各代表ベクトルa(f)ごとに違うものを選んでもよいが、同じiに対してはすべての各周波数fにおいて同じjを用いる必要がある。
[分離信号生成処理の詳細]
次に、分離信号生成処理の詳細について説明する。
本形態の場合、センサの数が信号源の数に対して十分であるか否かによって分離信号の生成手順が異なる。
まず、センサの数が十分な場合(M≧N)は、簡単に分離信号を生成できる。すなわち、分離行列生成部518がスケーリング問題解決部514から推定混合行列A(f)を受け取り、そのムーア・ペンローズ型擬似逆行列A(f)(M=Nの場合は逆行列A(f)−1に一致)を分離行列W(f)として生成する(ステップS57)。生成された分離行列W(f)は、一時記憶部522に格納される。分離信号生成部519は、この分離行列W(f)と観測信号ベクトルX(f,m)とを一時記憶部522から読み込み、これらを用いY(f,m)=W(f)X(f,m)の演算により、分離信号成分Y(f,m),...,Y(f,m)を生成する(ステップS58)。
一方、センサの数が不十分な場合(M<N)は、推定混合行列A(f)と観測信号ベクトルX(f,m)とに対し、分離信号Y(f,m)は一意には定まらない。
Figure 0003949150
を満たすY(f,m)が無数に存在するからである。源信号がスパース性を持つことに着目すると、無数の解のうちLノルム:
Figure 0003949150
を最小にする解Y(f,m)が最も正確な分離信号成分となることが知られている(甘利俊一,「総論――人と機械はどのように見分け,聞き分けるのか――」,電子情報通信学会誌,VOL.87,No.3,.l67,2004年3月)。このような最小化基準で分離を行う場合は、分離のための行列W(f,m)が時変となり、分離行列生成部518は、時間mごとに観測信号ベクトルX(f,m)と推定混合行列A(f)とから時間依存の分離行列W(f,m)を算出し(ステップS57)、分離信号生成部519が、Y(f,m)=W(f,m)X(f,m)として分離信号成分Y(f,m),...,Y(f,m)を計算する(ステップS58)。
しかし、L(Y(f,m))の最小化を厳密に行うのは計算量が大きいため、本形態では近似解法を用いて分離行列W(f,m)の生成を行う。この解法は、観測信号ベクトルX(f,m)(或いはある時点での残差ベクトルe)に最も方向が近い推定混合行列A(f)の列(代表ベクトル)a(f)を順次選択していき、それらがM個選択されるまで繰り返すというものである。
図17は、本形態の近似解法を説明するためのフローチャートである。以下、このフローチャートに沿って近似解法を用いて分離行列W(f,m)を算出する処理を説明する。
まず、列選択部516が、一時記憶部522から推定混合行列A(f)及び観測信号ベクトルX(f,m)を読み込み(ステップS61)、残差ベクトルeを観測信号ベクトルX(f,m)で初期化し、変数kに1を代入し(ステップS62)、これらの情報を一時記憶部522に格納する。
次に、列選択部516は、一時記憶部522内の変数kを参照し、k≦Mであるか否かを判断する(ステップS63)。ここで、k≦Mである場合、列選択部516は、
Figure 0003949150
となるq(k)を選択し、その選択結果を一時記憶部522に格納する(ステップS64)。こ
Figure 0003949150
の絶対値を最大化するもの、すなわち残差ベクトルeに最も方向が近い代表ベクトルa(f)を選択する演算を示している。残差ベクトルeに方向が最も近い代表ベクトルa(f)を選択する理由は、次の繰り返しでの残差ベクトルeがより小さくなることで、以降の各Y(f,m)が小さくなり、最終的に式(46)で定義されるY(f,m)のLノルムも小さくなると期待できるからである。
次に、列選択部516は、一時記憶部522に格納されている選択済みのすべての代表ベクトルaq(1)(f),…,aq(k)(f)によって張られる部分空間を示す行列Q=[aq(1)(f),…,aq(k)(f)]を設定し(ステップS65)、P=Q(QQ)−1を算出する(ステップS66)。そして、列選択部516は、
e=X(f,m)−P・X(f,m)
の演算によって残差ベクトルeを更新して一時記憶部522に格納する(ステップS67)。
ここで、P・X(f,m)は、観測信号ベクトルX(f,m)を部分空間Qに射影したもの、すなわち観測信号ベクトルX(f,m)のうち、これまで選択された代表ベクトルaq(1)(f),…,aq(k)(f)の線形和によって実現されるものである。残りのe=X(f,m)−P・X(f,m)は、他のベクトルによって実現され、具体的には以降のループ処理で選択される列(代表ベクトル)aq(i)によって実現される。
その後、順次、次の列を選択するため、列選択部516は、一時記憶部522の変数kに1を加えて新たなkとし、ステップS63に戻る(ステップS68)。なお、残差ベクトルeには、これまでに選択された代表ベクトルaq(i)と直交する成分しか含まれていないた
Figure 0003949150
基準のもと(ステップS64)で再び選択されることはない。
そして、ステップS63で、列選択部516がk≦Mと判断すると(min(M,N)個の代表ベクトルa(f)を選択したことに相当)、列選択部516はステップS64〜68のループ処理を終了させる。この時点では、選択済みのM個の代表ベクトルaq(i)が全空間を張ることになるため、残差ベクトルeは0となる。ステップS64〜68のループ処理が終了すると、行列生成部517は、これまで選択されたM個の代表ベクトルaq(i)を一時記憶部522から読み込み、ステップS63〜68の処理で選択されなかった推定混合行列A(f)のN−M個の代表ベクトル(列ベクトル)a(f)を0とした、
Figure 0003949150
という列ベクトルa’(f,m)を生成する(ステップS69)。さらに、行列生成部517は、式(48)の列ベクトルa’(f,m)を列とする行列A’(f,m)=[a’(f,m),...,a’(f,m)](「選択されたmin(M,N)個の代表ベクトルa(f)とmax(N−M,0)個の0ベクトルとを列とした行列A’(f,m)」に相当)を算出し、一時記憶部522に格納する(ステップS70)。なお、このように算出された行列A’(f,m)は、N×M行列であるが、そのうちN−M個の行は0ベクトルである。
分離行列生成部518は、このような行列A’(f,m)を一時記憶部522から読み出し、そのムーア・ペンローズ型擬似逆行列A’(f,m)を分離行列W(f,m)として生成する(ステップS71)。これは、N個の代表ベクトルa(f)の中の0個以上の当該代表ベクトルを0ベクトルに置換したM行N列の行列のムーア・ペンローズ型擬似逆行列であるN行M列の分離行列W(f,m)に相当する。
生成された分離行列W(f,m)は、一時記憶部522に格納される。分離信号生成部519は、この分離行列W(f,m)と、観測信号ベクトルX(f,m)と一時記憶部522から読み込み、Y(f,m)=W(f,m)X(f,m)として分離信号成分Y(f,m),...,Y(f,m)を生成し、一時記憶部522に格納する(ステップS58)。なお、このように生成された分離信号成分Y(f,m),...,Y(f,m)のうちN−M個の要素は必ず0になる。すなわち、ある離散時間mのみについてステップS61〜S71の処理を行っただけでは、最大M個の分離信号成分しか知ることができない。そのため、本形態では、これまで説明したM個の代表ベクトルa(f)の選択、行列A’(f,m)の生成、分離行列W(f,m)の算出、分離信号ベクトルY(f,m)の算出、及び時間領域の信号値y(t),…,y(t)への変換の処理を、離散時間mごとに行う。これにより、すべの分離信号成分を知ることができる。
<本形態の効果>
[N>Mでのブラインド信号分離]
以上説明した通り本形態では、センサ数が少ない(N>M)状況でも、源信号がスパース性を備えていればブラインド信号分離が達成できる。その結果、センサの数を低減でき装置のコスト低減にも貢献できる。
[正規化の効果]
図18〜23は、正規化部512aaで行われた正規化の効果を例示したプロットである。これらの例は、残響時間130msの部屋で1つ或いは2つの音声を2つのマイクで観測した場合の2773Hzにおける観測信号ベクトルX(f,m)のプロットである。なお、これらは2個のマイクで観測した例であるが、観測信号ベクトルX(f,m)は周波数領域における複素ベクトルであるため、実数では4次元空間でのベクトルとなる。そのため、図4〜9ではその4次元を4つの2次元空間に射影して表示した。なお、これらの図の「imag」は各観測信号の虚数項を示し、「real」は実数項を示す。また、Xは第1のマイクで観測された観測信号に係るデータを示し、Xは第2のマイクで観測された観測信号に係るデータを示している。
まず、1音源の場合における正規化の効果を図18〜20に示す。
図18は、正規化していない観測信号ベクトルX(f,m)のプロットである。この例では、原点を中心にクラスタが形成されているが、そのクラスタから源信号1に関する代表ベクトルa(f)につい有益な情報は得られない。一方、図19は、式(36)により正規化した観測信号ベクトルX(f,m)のプロットである。この例では、原点からある特定の方向にサンプルが散布されている。この方向が推定すべき代表ベクトルa(f)に対応する。これは代表ベクトルa(f)を決定するうえでの有益な情報となる。また、図20は、式(37)により正規化した観測信号ベクトルX(f,m)のプロットである。この例では、原点から離れた箇所にクラスタが形成されている。このクラスタの中心と原点を結ぶベクトルが推定すべき代表ベクトルa(f)に対応する。
次に、2音源の場合における正規化の効果を図21〜23に示す。
図21は、正規化していない観測信号ベクトルX(f,m)のプロットである。この例の場合も、1音源の場合と同様に、2つの源信号に関して有益な情報は得られない。図22は、式(36)により正規化した観測信号ベクトルX(f,m)のプロットである。この例の場合、原点から2つの方向にサンプルが散布している。そして、これら方向が推定すべき代表ベクトルa(f),a(f)に対応する。図23は、式(37)により正規化した観測信号ベクトルX(f,m)のプロットである。この例では、原点から離れた箇所に2個のクラスタを形成されていることがわかる。そして、このクラスタの中心と原点を結ぶベクトルが推定すべき代表ベクトルa(f),a(f)に対応する。
[近似解法を用いた分解行列生成の効果]
前述したように、N>Mの場合の分離行列W(f,m)の生成において最小化を厳密に行った場合、その計算量は膨大なものとなってしまう。例えば、N個の代表ベクトルa(f),...,a(f)からM個を選択する組合せは個あるため、厳密にLノルム(式(46))を極小化する組合せをみつけようとすれば、個の組についての並び替えの処理等が必要となる。しかし、図17に示した近似解法では、センサの数Mに相当する回数のループを繰り返せばよく、計算量は少なく済む。
なお、本形態では、センサの数が信号源の数に対して十分であるか否か、すなわちN≦Mであるか否かによって、分離行列W(f,m)の生成手順を相違させることとした。しかし、センサの数が信号源の数に対して十分であるか否かに係わらず同じルーチンを用いて分離行列W(f,m)を生成することとしてもよい。
図24は、このような例を説明するためのフローチャートである。
この変形例の場合、N≦Mであるか否かに係わらず、まず、列選択部516が、一時記憶部522から推定混合行列A(f)及び観測信号ベクトルX(f,m)を読み込み(ステップS81)、残差ベクトルeを観測信号ベクトルX(f,m)で初期化し、変数kに1を代入する(ステップS82)。そして、列選択部516が、k≦min(M,N)であるか否かを判断
Figure 0003949150
の共役転置行列)を最大にする列aq(u)(f)を選択し(ステップS84)、選択済みのすべての列aq(u)(u=1,…,k)によって張られる部分空間を示す行列Q=[aq(1)(f),…,aq(k)(f)]を設定し(ステップS85)、P=Q(QQ)−1を算出し(ステップS86)、X(f,m)−P・X(f,m)の演算結果によって残差ベクトルeを更新し(ステップS87)、変数kに1を加えた値を新たなkとして(ステップS88)、ステップS83に戻る。すなわち、ステップS83〜88の処理をmin(M,N)回繰り返す。なお、min(M,N)とは、M及びNの何れか小さい方の値を意味し、max(N−M,0)とは、N−M及び0の何れか大きい方の値を意味する。
その後、列選択部516は、これまで選択したmin(M,N)個の代表ベクトルaq(i)を一時記憶部522に格納する。
次に、行列生成部517は、一時記憶部522からこれらmin(M,N)個の代表ベクトルaq(i)を読み込み、
Figure 0003949150
という列ベクトルa’(f,m)を生成し(ステップS89)、ステップS83〜88で選択されたmin(M,N)個の代表ベクトルa(f)と、max(N−M,0)個の0ベクトルとを列とした行列A’(f,m)=[a’(f,m),...,a’(f,m)]を生成する(ステップS90)。このように生成された行列A’(f,m)は一時記憶部522に格納された後、分離行列生成部518に読み込まれ、分離行列生成部518は、そのムーア・ペンローズ型擬似逆行列A(f,m)(M=Nの場合は逆行に一致)を分離行列W(f,m)として生成する(ステップS91)。なお、これはN個の上記代表ベクトルa(f)の中の0個以上の当該代表ベクトルを0ベクトルに置換したM行N列の行列のムーア・ペンローズ型擬似逆行列であるN行M列の分離行列W(f,m)に相当する。
〔変形例等〕
なお、本発明は上述の各実施の形態に限定されるものではない。例えば、第1の実施の形態から第8の実施の形態では、抽出信号を時間領域に戻してから統合を行うこととしていたが周波数領域で信号統合を行ってから時間領域に変換してもよい。
図25は、周波数領域で信号統合を行ってから時間領域に変換する際の構成を例示したブロック図の一部である。この図の構成は、図1における限定信号分離部60−k、時間領域変換部70−k及び信号統合部80の換わりに設けられる構成である。
この例では、すべての系列限定信号分離部601−kから出力された周波数領域の信号値Ykq Πkq(f,m)について、信号統合部602が周波数領域にて信号の統合を行った後に、時間領域変換部603が時間領域へ変換する。ここで、信号統合部602は、ある周波数fにおいて、同じタグaを持つ分離信号Ykq Πkq(f,m)が一つしかない場合、
(f,m)=Ykq Πkq(f,m)
として分離信号値を求める。また、ある周波数fにおいて、同じタグaを持つ分離信号Ykq Πkq(f,m)が二つ以上ある場合、Y(f,m)は、例えば同じタグaを持つ分離信号Ykq Πkq(f,m)の平均として
Figure 0003949150
(Kは同じタグaを持つ分離信号の個数)
として求められる。
そして最後に、時間領域変換部603が、例えば短時間逆フーリエ変換などにより、周波数領域で統合された出力信号値Y(f,m)を時間領域y(t)に変換する。
また、第1の実施の形態から第8の実施の形態では、各分離信号にタグを付与して信号の統合処理を行うこととしたが、各分離信号にタグを付けるのではなく、各系統kにおいて分離される信号に対応するV個の代表値の集合Gを一時記憶部90に保持しておき、出力信号の統合を行うこととしてもよい。
具体的には、例えば、複数の系統においてGが同じ代表値を含むことがない場合は、すべての分離信号ykq(t)を最終的な分離信号y(t)(i=1,...,N)として出力する。また周波数領域におけるすべての分離信号Ykq(f,m)を周波数領域における最終的な分離信号Y(f,m)(i=1,...,N)とし、時間領域の信号に変換しても良い。
また、複数の系統においてGが同じ代表値をK個(K≧2)含む場合は、k系統の分離信号ykq(t)(q=1,...,V/VはGの個数)とk’系統の分離信号yk’r(t)(r=1,...,Vk’)についてのすべての組合せで信号の相関を計算し、相関の高いものK個についてykq(t)とyk’r(t)の平均をとる。これを、同じ代表値を含む複数の系統について繰り返し、信号を統合する。また、同じ操作を周波数領域におけるすべての分離信号について行うことで、周波数領域で信号を統合し、その後で時間領域の信号に変換してもよい。
さらに、上述の第1から第9の各実施の形態を複合したシステムによって信号分離を行ってもよい。
例えば、[第8の実施の形態]の方法で代表ベクトルを求め、その後[第2の実施の形態]の方法で限定信号を分離することとしてもよい。具体的には、例えば、代表値計算部430(図13)で求めた代表ベクトルを用い、[第2の実施の形態]における(18)式のかわりに
Figure 0003949150
としてMDC(f,m)を求め(M(f,m),MDC(f,m)は、図8参照。)、あとは[第2の実施の形態]の限定信号分離部160−kと同じ手順で限定信号を分離する。
ここで、上述のM(f,m),MDC(f,m)を求めず、直接
Figure 0003949150
にて限定信号値を生成してもよい(マスク作成部151−k及び限定信号抽出部152−k(図8)の処理に対応)。
また、上述の各実施の形態ではフーリエ変換/逆フーリエ変換によって時間領域−周波数領域間の変換を行うこととしたが、wavelet変換、DFTフィルタバンク、ポリフェイズフィルタバンクなどを用い、この変換を行うこととしてもよい(例えば、「R. E. Crochiere, L. R. Rabiner, "Multirate Digital Signal Processing." Eaglewood Cliffs, NJ: Prentice-Hall,1983 (ISBN 0-13-605162-6) )。
また、上述の第1から第9の各実施の形態をコンピュータで構成する場合は以下のようになる。
図26は、各実施の形態をコンピュータで構成した信号分離装置610の例である。
この例の信号分離装置610は、CPU(Central processing Unit:中央処理装置)620、RAM(Random Access Memory)630、ROM(Read Only Memory)640、外部記憶装置650、入力部660、インタフェース670及びバス680を有している。
CPU620は、例えば、演算部621、制御部622及びレジスタ623を有するCISC(Complex Instruction Set Computer)方式、RISC(Reduced Instruction Set Computer)方式等の中央処理装置である。また、レジスタ623は、例えばDRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)等の動作が高速なメモリである。
また、RAM630は、例えば、DRAM、SRAM、フラッシュメモリ、NV(Nonvolatile)RAM等の読書き可能な半導体メモリである。またROM640は、例えば、MROM(Mask Read Only Memory)等の読み出し専用の半導体メモリであり、各種プログラムやデータ等が記憶されている。
外部記憶装置650は、例えば、ハードディスク装置、フレキシブルディスク、磁気テープ等の磁気記録装置、DVD−RAM(Random Access Memory)、CD−R(Recordable)/RW(ReWritable)等の光ディスク装置、MO(Magneto−Optical disc)等の光磁気記録装置、EEP−ROM(Electronically Erasable and Programmable−Read Only Memory)、フラッシュメモリ(flash memory)等の半導体メモリ等である。
また、入力部660は、例えば、キーボード、マウス、ジョイスティック等の入力デバイスである。また、インタフェースは、例えば、データの入力、出力、或いはその双方を行う入力/出力ポートであり、例えば、センサ、通信ボード、記憶装置等の各種装置が接続可能となっている。
さらに、バス680は、例えば、データバス、アドレスバス、コントロールバス等によって構成され、CPU620、RAM630、ROM640、外部記憶装置650、入力部660及びインタフェース670でのデータのやり取りが可能なようにこれらを電気的に接続する。
また、信号分離装置610における処理の内容は、例えば、信号分離プログラムに記述され、このような信号分離プログラムは、例えば、コンピュータで読み取り可能な記録媒体に記録される。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable−Read Only Memory)等を用いることができる。
また、この信号分離プログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
信号分離装置610において処理を実行する場合、例えばまず、可搬型記録媒体に記録された信号分離プログラムもしくはサーバコンピュータから転送された信号分離プログラムを、外部記憶装置650のプログラム領域651にダウンロードする。
また、各センサにおいて観測された時間領域の各観測信号x(t)(j=1,...,M)も、事前に外部記憶装置650のデータ領域652に格納される。この各観測信号x(t)の格納は、センサから送られた各観測信号x(t)をインタフェース670に入力し、バス680を通じて外部記憶装置650に格納することとしてもよく、事前に別の装置で各観測信号x(t)を外部記憶装置650に格納しておき、この外部記憶装置650をバス680に接続する構成としてもよい。
次に、例えば、CPU620の制御部622の制御のもと、外部記憶装置650のプログラム領域651から信号分離プログラムが順次読み出され、RAM630のプログラム領域631に格納される。RAM630に格納された信号分離プログラムは、CPU620に読み込まれ、CPU620の制御部622は、この信号分離プログラムの内容に従い、データの入出力、演算部621での演算、レジスタ623へのデータ格納等の各処理を実行する。
CPU620による処理が開始されると、CPU620は、例えば外部記憶装置650のデータ領域652の各観測信号x(t)を読み出し、例えばRAM630のデータ領域632に書き込む。その後CPU620は、制御部622の制御のもと、RAM630のプログラム領域631の信号分離プログラム、及びデータ領域632の各観測信号x (t)を順次抽出しつつ、上述の各処理を実行する。なお、例えばRAM630或いは外部記憶装置650が、第1から第9の実施の形態における記憶部2,501として機能し、RAM630或いはレジスタ623が、第1から第9の実施の形態における一時記憶部90,522として機能する。

















また、このプログラムの別の実行形態として、CPU620が可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このCPU620にサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
さらに、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
本発明により、例えば、様々なノイズ・妨害信号が存在する環境下においても、目的信号を精度よく分離抽出することが可能となる。例えば、オーディオ分野に応用した場合、音声認識機の入力マイクロホンと話者が離れた位置にあり、マイクロホンが目的話者音声以外の音まで集音してしまうような状況でも、目的音声を分離抽出することにより、認識率の高い音声認識系を構築することができる。

Claims (27)

  1. N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離方法であって、
    前記センサにおいて観測された観測信号値を、離散時間・周波数毎の周波数領域の信号値に変換する手順と、
    任意に特定された2つの異なる前記センサにおいて観測された観測信号値からそれぞれ変換された前記周波数領域の信号値を用い、当該2つの前記センサ間における観測値の相対値(相対値の写像も含む)を、離散時間・周波数毎に算出する手順と、
    前記相対値をN個のクラスにクラスタリングする手順と、
    前記の各クラスの代表値を算出する手順と、
    前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順と、
    前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順と、
    前記混合信号の値からV個の信号の値を分離抽出する手順と、
    を有し、
    前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順は、
    前記の各クラスタの代表値から任意にV個の代表値を選択する手順と、
    前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとる関数である前記マスクを生成する手順と、を含み、
    前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順は、
    前記周波数領域の信号値に前記マスクを乗じる手順を含む
    ことを特徴とする信号分離方法。
  2. N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離方法であって、
    前記センサにおいて観測された観測信号値を、離散時間・周波数毎の周波数領域の信号値に変換する手順と、
    任意に特定された2つの異なる前記センサにおいて観測された観測信号値からそれぞれ変換された前記周波数領域の信号値を用い、当該2つの前記センサ間における観測値の相対値(相対値の写像も含む)を、離散時間・周波数毎に算出する手順と、
    前記相対値をN個のクラスにクラスタリングする手順と、
    前記の各クラスの代表値を算出する手順と、
    前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順と、
    前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順と、
    前記混合信号の値からV個の信号の値を分離抽出する手順と、
    を有し、
    前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順は、
    前記の各クラスタの代表値から任意にV個の代表値を選択する手順と、
    前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してローレベル値をとり、前記所定の範囲内にない前記代表値に対してハイレベル値をとる関数である前記マスクを生成する手順と、を含み、
    前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順は、
    前記周波数領域の信号値に前記マスクを乗じた値を、前記周波数領域の信号の値から減算する手順を含む
    ことを特徴とする信号分離方法。
  3. 請求項記載の信号分離方法であって、
    前記マスクは、
    前記相対値の変化に伴う前記ハイレベル値から前記ローレベル値への推移が連続的な関数である、
    ことを特徴とする信号分離方法。
  4. 請求項1記載の信号分離方法であって、
    前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順は、
    死角型ビームフォーマ(NBF)の指向特性を利用して前記マスクを作成する手順である、
    ことを特徴とする信号分離装置。
  5. 請求項1記載の信号分離方法であって、
    前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとる関数である前記マスクを生成する手順は、
    fを周波数の変数とし、θ前記V個の前記代表値に対応する信号源の推定方向の何れか1つとし、θ(i=2,...,N−V+1)を前記V個の代表値以外の前記代表値に対応する各信号源の推定方向とし、j=1,...,N−V+1とし、dをセンサ1とセンサjとの距離とし、v を信号の速さとし、τji=(d/v )cosθとした場合における、ji要素がexp(j2πfτji)である(N−V+1)×(N−V+1)の遅延行列HNBF(f)を生成する手順と、
    遅延行列HNBF(f)の逆行列W(f)=HNBF −1(f)をNBF行列W(f)として算出する手順と、
    前記NBF行列W(f)の1行目の要素をW1k(f)とし、θを信号の到来方向の変数とした場合における、指向特性関数
    Figure 0003949150
    を生成する手順と、
    前記指向特性関数F(f,θ)を用いて前記マスクを生成する手順と、
    を具備することを特徴とする信号分離方法。
  6. 請求項1記載の信号分離方法であって、
    前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとる関数である前記マスクを生成する手順は、
    前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとり、相対値の変化に伴う当該ハイレベル値から当該ローレベル値への推移が不連続な関数であるバイナリマスクに単峰性関数を畳み込んだ関数を生成する手順と、
    前記バイナリマスクに単峰性関数を畳み込んだ関数に前記相対値を代入した関数を前記マスクとして生成する手順と、
    を具備することを特徴とする信号分離方法。
  7. 請求項1記載の信号分離方法であって、
    前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとる関数である前記マスクを生成する手順は、
    前記相対値が前記V個の前記代表値を含む所定の範囲内の下限値aminである場合に0をとる第1の奇関数と、前記相対値が前記所定の範囲内の上限値amaxである場合に0をとる第2の奇関数との差の写像から得られる単峰性の関数を、前記マスクとして生成する手順である、
    ことを特徴とする信号分離方法。
  8. 請求項或いはに記載の信号分離方法であって、
    前記マスクは、
    前記ハイレベル値から前記ローレベル値への推移が不連続な関数である、
    ことを特徴とする信号分離方法。
  9. N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離方法であって、
    前記センサにおいて観測された観測信号値を、離散時間・周波数毎の周波数領域の信号値に変換する手順と、
    任意に特定された2つの異なる前記センサにおいて観測された観測信号値からそれぞれ変換された前記周波数領域の信号値を用い、当該2つの前記センサ間における観測値の相対値(相対値の写像も含む)を、離散時間・周波数毎に算出する手順と、
    前記相対値をN個のクラスにクラスタリングする手順と、
    前記の各クラスの代表値を算出する手順と、
    前記の各クラスタの代表値から任意に1個の代表値を選択する手順と、
    前記1個の代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとり、前記相対値の変化に伴う当該ハイレベル値から当該ローレベル値への推移が連続的な関数であるマスクを作成する手順と、
    前記周波数領域の信号値に前記マスクを乗じ、1個の信号源から発せられた信号の値を抽出する手順と、
    を有することを特徴とする信号分離方法。
  10. N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離方法であって、
    前記センサにおいて観測された観測信号値x(t),...,x(t)を、離散時間m・周波数f毎の周波数領域の信号値X(f,m),...,X(f,m)に変換する手順と、
    離散時間mと周波数fとの組み合わせが同一の前記周波数領域の信号値X(f,m),...,X(f,m)からなる第1のベクトルX(f,m)=[X(f,m),...,X(f,m)]を、周波数fごとにN個ずつのクラスタC(f)(i=1,...,N)にクラスタリングする手順と、
    前記各クラスタC(f)を代表する第2のベクトルa(f)を算出する手順と、
    前記第2のベクトルa(f)からV(1≦V≦M)個のベクトルを任意に選択し、選択した当該ベクトルを第3のベクトルa(f)(p=1,...,V)する手順と、
    前記第3のベクトルa(f)の集合をGとし、G をGの補集合とし、D(α,β)をベクトルαとβとのマハラノビス平方距離とした場合における、
    Figure 0003949150
    で示されるマスクM(f,m)を生成する手順と、
    前記マスクM(f,m)と前記第1のベクトルX(f,m)との積を演算し、V個の前記信号源から発せられた信号の値を抽出する手順と、
    を有することを特徴とする信号分離方法。
  11. N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離方法であって、
    前記センサにおいて観測された観測信号値x(t),...,x(t)を、離散時間m・周波数f毎の周波数領域の信号値X(f,m),...,X(f,m)に変換する手順と、
    離散時間mと周波数fとの組み合わせが同一の前記周波数領域の信号値X(f,m),...,X(f,m)からなる第1のベクトルX(f,m)=[X(f,m),...,X(f,m)]を、周波数fごとにN個ずつのクラスタC(f)(i=1,...,N)にクラスタリングする手順と、
    前記各クラスタC(f)を代表する第2のベクトルa(f)を算出する手順と、
    前記第2のベクトルa(f)からV(1≦V≦M)個のベクトルを任意に選択し、選択した当該ベクトルを第3のベクトルa(f)(p=1,...,V)する手順と、
    前記第1のベクトルX(f,m)に対し、前記第3のベクトルa(f)の集合をGとし、G をGの補集合とし、D(α,β)をベクトルαとβとのマハラノビス平方距離とした場合における、
    Figure 0003949150
    を満たすか否かを判断し、満たすと判断した前記第1のベクトルX(f,m)を、V個の前記信号源から発せられた信号の値として抽出する手順と、
    を有することを特徴とする信号分離方法。
  12. 請求項1或いは1記載の信号分離方法であって、
    前記クラスタリングする手順は、
    Figure 0003949150
    の演算を行った後に行われる、
    ことを特徴とする信号分離方法。
  13. 請求項12記載の信号分離方法であって、
    前記クラスタリングする手順は、前記の
    Figure 0003949150
    の演算を行った後に行われる、
    ことを特徴とする信号分離方法。
  14. N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離方法であって、
    前記センサにおいて観測された観測信号値x(t),...,x(t)を、離散時間m・周波数f毎の周波数領域の信号値X(f,m),...,X(f,m)に変換する手順と、
    離散時間mと周波数fとの組み合わせが同一の前記周波数領域の信号値X(f,m),...,X(f,m)からなる第1のベクトルX(f,m)=[X(f,m),...,X(f,m)]を、周波数fごとにN個ずつのクラスタC(f)(i=1,...,N)にクラスタリングする手順と、
    前記各クラスタC(f)を代表する第2のベクトルa(f)を算出する手順と、
    N個の前記第2のベクトルa(f)の中の0個以上の当該第2のベクトルを0ベクトルに置換したM行N列の行列のムーア・ペンローズ型擬似逆行列であるN行M列の分離行列W(f,m)を算出する手順と、
    Y(f,m)=W(f,m)X(f,m)の演算により、分離信号ベクトルY(f,m)=[Y(f,m),...,Y(f,m)]を算出する手順と、
    を有することを特徴とする信号分離方法。
  15. 請求項14記載の信号分離方法であって、
    前記分離行列W(f,m)を算出する手順は、
    min(M,N)個の前記第2のベクトルa(f)を選択し、選択したmin(M,N)個の前記第2のベクトルa(f)とmax(N−M,0)個の0ベクトルとを列とした行列A’(f,m)を生成し、前記行列A’(f,m)のムーア・ペンローズ型擬似逆行列を前記分離行列W(f,m)として算出する手順である、
    ことを特徴とする信号分離方法。
  16. 請求項14記載の信号分離方法であって、
    N>Mである場合における前記分離行列W(f,m)を算出する手順は、
    離散時間mごとに、M個の前記第2のベクトルa(f)を選択し、前記選択したM個の前記第2のベクトルa(f)とN−M個の0ベクトルとを列とした行列A’(f,m)を生成し、前記行列A’(f,m)のムーア・ペンローズ型擬似逆行列を、時間依存の前記分離行列W(f,m)として算出する手順であり、
    N≦Mである場合における前記分離行列W(f,m)を算出する手順は、
    前記各クラスタC(f)のN個の前記第2のベクトルa(f)からなる行列のムーア・ペンローズ型擬似逆行列を、時不変の前記分離行列W(f,m)として算出する手順である、
    ことを特徴とする信号分離方法。
  17. 請求項14記載の信号分離方法であって、
    前記クラスタリングする手順は、
    Figure 0003949150
    の演算を行った後に行われる、
    ことを特徴とする信号分離方法。
  18. 請求項17記載の信号分離方法であって、
    前記クラスタリングする手順は、前記の
    Figure 0003949150
    の演算を行った後に行われる、
    ことを特徴とする信号分離方法。
  19. 請求項15記載の信号分離方法であって、
    前記min(M,N)個の前記第2のベクトルa(f)を選択する手順は、
    第4のベクトルeを前記第1のベクトルX(f,m)で初期化した後、aq(u)(f)/‖aq(u)(f)‖と前記第4のベクトルeの内積の絶対値を最大化する前記第2のベクトルaq(u)(f)を選択し、選択済みのすべての前記第2のベクトルaq(u)(u=1,...,k)によって張られる部分空間を示す行列Q=[aq(1)(f),...,aq(k)(f)]を設定し、P=Q(QQ)−1を算出し、e=X(f,m)−P・X(f,m)の演算結果によって第4のベクトルeを更新する処理をmin(M,N)回繰り返す手順である、
    ことを特徴とする信号分離方法。
  20. N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離装置であって、
    前記センサにおいて観測された観測信号値を格納する記憶部と、
    前記記憶部に接続され、
    前記観測信号値を、離散時間・周波数毎の周波数領域の信号値に変換する手順と
    任意に特定された2つの異なる前記センサにおいて観測された観測信号値からそれぞれ変換された前記周波数領域の信号値を用い、当該2つの前記センサ間における観測値の相対値(相対値の写像も含む)を、離散時間・周波数毎に算出する手順と
    前記相対値をN個のクラスにクラスタリングする手順と
    前記の各クラスの代表値を算出する手順と
    前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順と
    前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順と
    前記混合信号の値からV個の信号の値を分離抽出する手順と、を実行するプロセッサと、
    を有し、
    前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順は、
    前記の各クラスタの代表値から任意にV個の代表値を選択する手順と、
    前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとる関数である前記マスクを生成する手順と、を含み、
    前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順は、
    前記周波数領域の信号値に前記マスクを乗じる手順を含む、
    ことを特徴とする信号分離装置。
  21. N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離装置であって、
    前記センサにおいて観測された観測信号値を格納する記憶部と、
    前記記憶部に接続され、
    前記観測信号値を、離散時間・周波数毎の周波数領域の信号値に変換する手順と
    任意に特定された2つの異なる前記センサにおいて観測された観測信号値からそれぞれ変換された前記周波数領域の信号値を用い、当該2つの前記センサ間における観測値の相対値(相対値の写像も含む)を、離散時間・周波数毎に算出する手順と
    前記相対値をN個のクラスにクラスタリングする手順と
    前記の各クラスの代表値を算出する手順と
    前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順と
    前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順と
    前記混合信号の値からV個の信号の値を分離抽出する手順と、を実行するプロセッサと、
    を有し、
    前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順は、
    前記の各クラスタの代表値から任意にV個の代表値を選択する手順と、
    前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してローレベル値をとり、前記所定の範囲内にない前記代表値に対してハイレベル値をとる関数である前記マスクを生成する手順と、を含み、
    前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順は、
    前記周波数領域の信号値に前記マスクを乗じた値を、前記周波数領域の信号の値から減算する手順を含む、
    ことを特徴とする信号分離装置。
  22. N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離装置であって、
    前記センサにおいて観測された観測信号値を格納する記憶部と、
    前記記憶部に接続され、
    前記観測信号値を、離散時間・周波数毎の周波数領域の信号値に変換する手順と
    任意に特定された2つの異なる前記センサにおいて観測された観測信号値からそれぞれ変換された前記周波数領域の信号値を用い、当該2つの前記センサ間における観測値の相対値(相対値の写像も含む)を、離散時間・周波数毎に算出する手順と
    前記相対値をN個のクラスにクラスタリングする手順と
    前記の各クラスの代表値を算出する手順と
    前記の各クラスタの代表値から任意に1個の代表値を選択する手順と、
    前記1個の代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとり、前記相対値の変化に伴う当該ハイレベル値から当該ローレベル値への推移が連続的な関数であるマスクを作成する手順と
    前記周波数領域の信号値に前記マスクを乗じ、1個の信号源から発せられた信号の値を抽出する手順と、を実行するプロセッサと、
    を有することを特徴とする信号分離装置。
  23. N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離装置であって、
    前記センサにおいて観測された観測信号値x(t),...,x(t)を格納する記憶部と、
    前記記憶部に接続され、
    前記観測信号値x(t),...,x(t)を、離散時間m・周波数f毎の周波数領域の信号値X(f,m),...,X(f,m)に変換する手順と
    離散時間mと周波数fとの組み合わせが同一の前記周波数領域の信号値X(f,m),...,X(f,m)からなる第1のベクトルX(f,m)=[X(f,m),...,X(f,m)]を、周波数fごとにN個ずつのクラスタC(f)(i=1,...,N)にクラスタリングする手順と
    前記各クラスタC(f)を代表する第2のベクトルa(f)を算出する手順と
    前記第2のベクトルa(f)からV(1≦V≦M)個のベクトルを任意に選択し、選択した当該ベクトルを第3のベクトルa(f)(p=1,...,V)する手順と、
    前記第3のベクトルa(f)の集合をGとし、G をGの補集合とし、D(α,β)をベクトルαとβとのマハラノビス平方距離とした場合における、
    Figure 0003949150
    で示されるマスクM(f,m)を生成する手順と
    前記マスクM(f,m)と前記第1のベクトルX(f,m)との積を演算し、V個の前記信号源から発せられた信号の値を抽出する手順と、を実行するプロセッサと、
    を有することを特徴とする信号分離装置。
  24. N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離装置であって、
    前記センサにおいて観測された観測信号値x(t),...,x(t)を格納する記憶部と、
    前記記憶部に接続され、
    前記観測信号値x(t),...,x(t)を、離散時間m・周波数f毎の周波数領域の信号値X(f,m),...,X(f,m)に変換する手順と
    離散時間mと周波数fとの組み合わせが同一の前記周波数領域の信号値X(f,m),...,X(f,m)からなる第1のベクトルX(f,m)=[X(f,m),...,X(f,m)]を、周波数fごとにN個ずつのクラスタC(f)(i=1,...,N)にクラスタリングする手順と
    前記各クラスタC(f)を代表する第2のベクトルa(f)を算出する手順と
    前記第2のベクトルa(f)からV(1≦V≦M)個のベクトルを任意に選択し、選択した当該ベクトルを第3のベクトルa(f)(p=1,...,V)する手順と、
    前記第1のベクトルX(f,m)に対し、前記第3のベクトルa(f)の集合をGとし、G をGの補集合とし、D(α,β)をベクトルαとβとのマハラノビス平方距離とした場合における、
    Figure 0003949150
    を満たすか否かを判断し、満たすと判断した前記第1のベクトルX(f,m)を、V個の前記信号源から発せられた信号の値として抽出する手順と、を実行するプロセッサと、
    を有することを特徴とする信号分離装置。
  25. N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離装置であって、
    前記センサにおいて観測された観測信号値x(t),...,x(t)を格納する記憶部と、
    前記記憶部に接続され、
    前記観測信号値x(t),...,x(t)を、離散時間m・周波数f毎の周波数領域の信号値X(f,m),...,X(f,m)に変換する手順と
    離散時間mと周波数fとの組み合わせが同一の前記周波数領域の信号値X(f,m),...,X(f,m)からなる第1のベクトルX(f,m)=[X(f,m),...,X(f,m)]を、周波数fごとにN個ずつのクラスタC(f)(i=1,...,N)にクラスタリングする手順と
    前記各クラスタC(f)を代表する第2のベクトルa(f)を算出する手順と
    N個の前記第2のベクトルa(f)の中の0個以上の当該第2のベクトルを0ベクトルに置換したM行N列の行列のムーア・ペンローズ型擬似逆行列であるN行M列の分離行列W(f,m)を算出する手順と
    Y(f,m)=W(f,m)X(f,m)の演算により、分離信号ベクトルY(f,m)=[Y(f,m),...,Y(f,m)]を算出する手順と、を実行するプロセッサと、
    を有することを特徴とする信号分離装置。
  26. 請求項1から19の何れかに記載の信号分離方法の手順をコンピュータに実行させるための信号分離プログラム。
  27. 請求項26記載の信号分離プログラムを格納したコンピュータ読み取り可能な記録媒体。
JP2005513646A 2003-09-02 2004-09-01 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 Expired - Fee Related JP3949150B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2003309720 2003-09-02
JP2003309720 2003-09-02
JP2004195867 2004-07-01
JP2004195818 2004-07-01
JP2004195818 2004-07-01
JP2004195867 2004-07-01
PCT/JP2004/012629 WO2005024788A1 (ja) 2003-09-02 2004-09-01 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JPWO2005024788A1 JPWO2005024788A1 (ja) 2006-11-09
JP3949150B2 true JP3949150B2 (ja) 2007-07-25

Family

ID=34279554

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005513646A Expired - Fee Related JP3949150B2 (ja) 2003-09-02 2004-09-01 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体

Country Status (5)

Country Link
US (1) US7496482B2 (ja)
EP (2) EP1662485B1 (ja)
JP (1) JP3949150B2 (ja)
DE (2) DE602004027774D1 (ja)
WO (1) WO2005024788A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2010092913A1 (ja) * 2009-02-13 2012-08-16 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
JPWO2010092915A1 (ja) * 2009-02-13 2012-08-16 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP2013186383A (ja) * 2012-03-09 2013-09-19 Nippon Telegr & Teleph Corp <Ntt> 音源分離装置、音源分離方法、およびプログラム
US9418678B2 (en) 2009-07-22 2016-08-16 Sony Corporation Sound processing device, sound processing method, and program

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1752969A4 (en) * 2005-02-08 2007-07-11 Nippon Telegraph & Telephone SIGNAL SEPARATION DEVICE, SIGNAL SEPARATION METHOD, SIGNAL SEPARATION PROGRAM, AND RECORDING MEDIUM
US20080262834A1 (en) * 2005-02-25 2008-10-23 Kensaku Obata Sound Separating Device, Sound Separating Method, Sound Separating Program, and Computer-Readable Recording Medium
JP4653674B2 (ja) * 2005-04-28 2011-03-16 日本電信電話株式会社 信号分離装置、信号分離方法、そのプログラムおよび記録媒体
WO2006131959A1 (ja) * 2005-06-06 2006-12-14 Saga University 信号分離装置
JP2007034184A (ja) * 2005-07-29 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
US7472041B2 (en) * 2005-08-26 2008-12-30 Step Communications Corporation Method and apparatus for accommodating device and/or signal mismatch in a sensor array
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
AU2006323242B2 (en) * 2005-12-05 2010-08-05 Telefonaktiebolaget Lm Ericsson (Publ) Echo detection
JP4496186B2 (ja) * 2006-01-23 2010-07-07 株式会社神戸製鋼所 音源分離装置、音源分離プログラム及び音源分離方法
JP2009529699A (ja) * 2006-03-01 2009-08-20 ソフトマックス,インコーポレイテッド 分離信号を生成するシステムおよび方法
JP4650891B2 (ja) * 2006-03-06 2011-03-16 三菱電機株式会社 信号分離方法およびその方法を使用した信号分離装置
JP2007295085A (ja) * 2006-04-21 2007-11-08 Kobe Steel Ltd 音源分離装置及び音源分離方法
WO2007127313A2 (en) * 2006-04-27 2007-11-08 Interdigital Technology Corporation Method and apparatus for performing blind signal separation in an ofdm mimo system
JP2008052117A (ja) * 2006-08-25 2008-03-06 Oki Electric Ind Co Ltd 雑音除去装置、方法及びプログラム
JP4849404B2 (ja) * 2006-11-27 2012-01-11 株式会社メガチップス 信号処理装置、信号処理方法およびプログラム
WO2008072566A1 (ja) * 2006-12-12 2008-06-19 Nec Corporation 信号分離再生装置および信号分離再生方法
JP4746533B2 (ja) * 2006-12-21 2011-08-10 日本電信電話株式会社 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP4891801B2 (ja) * 2007-02-20 2012-03-07 日本電信電話株式会社 多信号強調装置、方法、プログラム及びその記録媒体
JP4897519B2 (ja) * 2007-03-05 2012-03-14 株式会社神戸製鋼所 音源分離装置,音源分離プログラム及び音源分離方法
JP4787777B2 (ja) * 2007-03-13 2011-10-05 日本電信電話株式会社 信号分離装置、信号分離方法、信号分離プログラム、記録媒体
US8131542B2 (en) * 2007-06-08 2012-03-06 Honda Motor Co., Ltd. Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function
US7987090B2 (en) * 2007-08-09 2011-07-26 Honda Motor Co., Ltd. Sound-source separation system
US8175871B2 (en) * 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8223988B2 (en) * 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
US8755469B1 (en) * 2008-04-15 2014-06-17 The United States Of America, As Represented By The Secretary Of The Army Method of spectrum mapping and exploitation using distributed sensors
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
US20110112843A1 (en) * 2008-07-11 2011-05-12 Nec Corporation Signal analyzing device, signal control device, and method and program therefor
US8724829B2 (en) * 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
JP5277887B2 (ja) * 2008-11-14 2013-08-28 ヤマハ株式会社 信号処理装置およびプログラム
WO2010058230A2 (en) * 2008-11-24 2010-05-27 Institut Rudjer Boskovic Method of and system for blind extraction of more than two pure components out of spectroscopic or spectrometric measurements of only two mixtures by means of sparse component analysis
JP5233772B2 (ja) * 2009-03-18 2013-07-10 ヤマハ株式会社 信号処理装置およびプログラム
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
US20110058676A1 (en) * 2009-09-07 2011-03-10 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal
EP2476008B1 (en) * 2009-09-10 2015-04-29 Rudjer Boskovic Institute Underdetermined blind extraction of components from mixtures in 1d and 2d nmr spectroscopy and mass spectrometry by means of combined sparse component analysis and detection of single component points
KR101612704B1 (ko) * 2009-10-30 2016-04-18 삼성전자 주식회사 다중음원 위치 추적장치 및 그 방법
JP5299233B2 (ja) * 2009-11-20 2013-09-25 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
KR101419377B1 (ko) * 2009-12-18 2014-07-15 배재대학교 산학협력단 암묵신호 분리 방법 및 이를 수행하는 장치
US8521477B2 (en) * 2009-12-18 2013-08-27 Electronics And Telecommunications Research Institute Method for separating blind signal and apparatus for performing the same
US8897455B2 (en) * 2010-02-18 2014-11-25 Qualcomm Incorporated Microphone array subset selection for robust noise reduction
WO2012105385A1 (ja) * 2011-02-01 2012-08-09 日本電気株式会社 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
US9245539B2 (en) 2011-02-01 2016-01-26 Nec Corporation Voiced sound interval detection device, voiced sound interval detection method and voiced sound interval detection program
JP6057368B2 (ja) * 2012-10-11 2017-01-11 独立行政法人国立高等専門学校機構 信号処理方法、装置、プログラム、およびプログラムを記録したコンピュータ読み取り可能な記録媒体
JP6253226B2 (ja) * 2012-10-29 2017-12-27 三菱電機株式会社 音源分離装置
JP6059072B2 (ja) * 2013-04-24 2017-01-11 日本電信電話株式会社 モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム
JP2015135318A (ja) 2013-12-17 2015-07-27 キヤノン株式会社 データ処理装置、データ表示システム、試料データ取得システム、及びデータ処理方法
DE102015203003A1 (de) * 2015-02-19 2016-08-25 Robert Bosch Gmbh Batteriespeichersystem mit unterschiedlichen Zelltypen
US10991362B2 (en) * 2015-03-18 2021-04-27 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
US11694707B2 (en) 2015-03-18 2023-07-04 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
US10725174B2 (en) * 2015-08-24 2020-07-28 Hifi Engineering Inc. Method and system for determining the distance to an acoustically reflective object in a conduit
CN105352998B (zh) * 2015-11-17 2017-12-26 电子科技大学 脉冲涡流红外热图像的独立成分个数确定方法
CN109285557B (zh) * 2017-07-19 2022-11-01 杭州海康威视数字技术股份有限公司 一种定向拾音方法、装置及电子设备
US20190278551A1 (en) * 2018-03-06 2019-09-12 Silicon Video Systems, Inc. Variable layout module
CN110491410B (zh) * 2019-04-12 2020-11-20 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN115810364B (zh) * 2023-02-07 2023-04-28 海纳科德(湖北)科技有限公司 混音环境中的端到端目标声信号提取方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3480477B2 (ja) * 1995-07-26 2003-12-22 ソニー株式会社 動き検出回路および動き検出方法、並びに輝度・色信号分離装置
JPH1084284A (ja) * 1996-09-06 1998-03-31 Sony Corp 信号再生方法および装置
US6954494B2 (en) * 2001-10-25 2005-10-11 Siemens Corporate Research, Inc. Online blind source separation
JP3975153B2 (ja) 2002-10-28 2007-09-12 日本電信電話株式会社 ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2010092913A1 (ja) * 2009-02-13 2012-08-16 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
JPWO2010092915A1 (ja) * 2009-02-13 2012-08-16 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP5605573B2 (ja) * 2009-02-13 2014-10-15 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP5605575B2 (ja) * 2009-02-13 2014-10-15 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
US9418678B2 (en) 2009-07-22 2016-08-16 Sony Corporation Sound processing device, sound processing method, and program
JP2013186383A (ja) * 2012-03-09 2013-09-19 Nippon Telegr & Teleph Corp <Ntt> 音源分離装置、音源分離方法、およびプログラム

Also Published As

Publication number Publication date
EP1662485A4 (en) 2008-01-23
US20060058983A1 (en) 2006-03-16
DE602004022175D1 (de) 2009-09-03
WO2005024788A9 (ja) 2007-05-18
DE602004027774D1 (de) 2010-07-29
EP2068308A2 (en) 2009-06-10
EP1662485B1 (en) 2009-07-22
WO2005024788A1 (ja) 2005-03-17
EP2068308A3 (en) 2009-07-08
US7496482B2 (en) 2009-02-24
JPWO2005024788A1 (ja) 2006-11-09
EP1662485A1 (en) 2006-05-31
EP2068308B1 (en) 2010-06-16

Similar Documents

Publication Publication Date Title
JP3949150B2 (ja) 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
EP3479377B1 (en) Speech recognition
US20080215651A1 (en) Signal Separation Device, Signal Separation Method, Signal Separation Program and Recording Medium
US9971012B2 (en) Sound direction estimation device, sound direction estimation method, and sound direction estimation program
US10390130B2 (en) Sound processing apparatus and sound processing method
Leonid et al. Retracted article: statistical–model based voice activity identification for human-elephant conflict mitigation
US11120819B2 (en) Voice extraction device, voice extraction method, and non-transitory computer readable storage medium
Koluguri et al. Spectrogram enhancement using multiple window Savitzky-Golay (MWSG) filter for robust bird sound detection
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
Ma et al. Underdetermined blind source separation based on source number estimation and improved sparse component analysis
JP2009053349A (ja) 信号分離装置、信号分離方法、プログラム及び記録媒体
JP2014021315A (ja) 音源分離定位装置、方法、及びプログラム
JP6570673B2 (ja) 音声抽出装置、音声抽出方法および音声抽出プログラム
JP4630203B2 (ja) 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体、並びに、信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体
Arberet et al. A tractable framework for estimating and combining spectral source models for audio source separation
JP2013186383A (ja) 音源分離装置、音源分離方法、およびプログラム
WO2020184210A1 (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
Cipli et al. Multi-class acoustic event classification of hydrophone data
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
JP6114053B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP6911930B2 (ja) 信号処理装置、信号処理方法およびプログラム
Mirzaei et al. Two‐stage blind audio source counting and separation of stereo instantaneous mixtures using Bayesian tensor factorisation
JP4676920B2 (ja) 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
Ali et al. The identification and localization of speaker using fusion techniques and machine learning techniques
JP6915579B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070109

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070417

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100427

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110427

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120427

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130427

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140427

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees