JP3949150B2 - 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 - Google Patents
信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP3949150B2 JP3949150B2 JP2005513646A JP2005513646A JP3949150B2 JP 3949150 B2 JP3949150 B2 JP 3949150B2 JP 2005513646 A JP2005513646 A JP 2005513646A JP 2005513646 A JP2005513646 A JP 2005513646A JP 3949150 B2 JP3949150 B2 JP 3949150B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- value
- values
- mask
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2134—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
- G06F18/21347—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis using domain transformations
Description
図27Aは、このブラインド信号分離技術を概念的に例示したブロック図である。
この図に例示するように、ブラインド信号分離では、複数(この例ではN個)の信号源701から発せられた源信号si(i=1,…,N)が混合し、複数(この例ではM個)のセンサ702で観測される状況下において、その観測信号xj(j=1,…,M)のみから、源信号と推測される分離信号yk(k=1,…,N)を取り出す。ここで、信号源701から発せられた源信号siが混合し、センサ702で観測されるまでの過程を「混合過程」と呼び、センサ702の観測結果から分離信号を取り出す過程を「分離過程」と呼ぶ。
〔実環境での混合信号(観測信号)のモデル〕
まず、混合過程についてモデル化する。
Nを信号源701の個数、Mをセンサ702の個数、siをi番目の信号源701(信号源i)から発せられた信号(源信号)、hjiを信号源iからj番目のセンサ702(センサj)までのインパルス応答とする。この場合、センサjで観測される信号xjは、これら源信号siとインパルス応答hjiの畳み込み混合
でモデル化される。ここで「畳み込み」とは、信号の伝搬過程で、信号が遅延され、所定の係数が乗算された後、加算されることをいう。また、すべての信号はあるサンプリング周波数でサンプリングされ、離散的に表現されるものとする。そして、式(1)におけるPはインパルス応答長を、tはサンプリング時刻を、pは掃引(時間シフトした信号のサンプル値それぞれに異なる係数を作用させる操作)のための変数を、それぞれ示している。なお、N個の信号源701は統計的に互いに独立であり、それぞれの信号は十分スパースであると仮定する。また、「スパース」とは、信号が殆どの時刻tにおいて0であることを指し、このスパース性は、例えば音声信号で確認される。
また、畳み込み混合の問題は扱いが繁雑であること、さらに、スパース性の仮定は時間−周波数領域でよりよく成立することから、上述の式(1)に短時間離散フーリエ変換(DFT:Discrete Fourier Transform)を施して、信号を時間−周波数領域に変換した上で問題を扱うことが有効である。時間−周波数領域では、上述の式(1)は、
X(f,m)=H(f)S(f,m)
となる。ここで、fは周波数、mはDFTに用いるフレームの時刻を表す。また、H(f)は、そのij要素に信号源iからセンサjまでの周波数応答Hji(f)を持つ(M×N)行列であり、以後これを混合行列と呼ぶ。また、S(f,m)=[S1(f,m),…,SN(f,m)]T、X(f,m)=[X1(f,m),…,XM(f,m)]Tはそれぞれ、源信号と観測信号のDFT結果である。なお、記号[α]Tはαの転置行列を表す。また、S(f,m)及びX(f,m)はベクトルである。
<分離過程のモデル>
次に、分離過程についてモデル化する。
まず、W(f,m)を、そのjk要素にセンサjでの観測信号から分離信号ykまでの周波数応答Wjk(f,m)を持つ(N×M)行列であるとする。このW(f,m)を分離行列と呼ぶ。分離行列を用いると、分離信号は時間−周波数領域で、
Y(f,m)=W(f,m)X(f,m)
となる。ここでY(f,m)=[Y1(f,m),…,YN(f,m)]Tは、時間−周波数領域での分離信号であり、これを短時間逆離散フーリエ変換(IDFT:Inverse Discrete Fourier Transform)することで、源信号の推定結果である分離信号ykを得る。なお、分離された分離信号ykの順序は、源信号siの順序と必ずしも一致しない。すなわち、k=jとは限らない。また、Y(f,m)はベクトルである。
BSSでは、観測信号のみから分離行列W(f,m)を推定する。
分離信号Y(f,m)の推定のための従来手法には、(a)独立成分分析による方法、(b)信号のスパース性を利用した方法、(c)スパース性により混合行列を推定する方法が知られている。以下、それぞれについて説明を行う。
[従来法1:独立成分分析による方法]
前述の式(1)のように線形混合された信号を、信号の統計的独立性に基づいて分離する技術は、独立成分分析(ICA:Independent Component Analysis)と呼ばれる。N=M=2の場合について、このICAによる分離過程のブロック図を、図27Bに示す。時間−周波数領域のICAでは、出力信号Y(f,m)の各要素が互いに独立となるよう、学習則W(f)=W(f)+ΔW(f)により逐次的に学習を行い、各周波数における分離行列W(f,m)を求める。ここでは、ICA分離行列推定部705が、例えば、
という学習則によりΔW(f)を求める。但し[α]Hはαの共役転置を示す。なお、Iは単位行列、<・>は時間平均、φはある非線形関数、μは更新係数を、それぞれ表す。また、ICAで求められる分離システムは、時不変線形システムとなる。なお、ICAのアルゴリズムは、非特許文献1に記載されているものなど、様々なものが紹介されている。
順序の任意性を解くことをパーミュテーション(permutation)の解決と呼ぶが、これは、同じ源信号siに対応する分離信号成分が、すべての周波数で同じ添字iを持つ分離信号Yi(f,m)になるようにするものである。その方法としては、分離行列の逆行列(N≠Mの場合はMoore−Penrose型擬似逆行列)を用いて得られる信号の推定到来方向を検証し、i番目の分離信号に対応する推定到来方向が各周波数においてすべて同じとなるように分離行列W(f,m)の行を入れ換える方法や、周波数間でi番目の分離信号の絶対値|Yi(f,m)|の相関が最も高くなるように分離行列W(f,m)の行を入れ換える方法などがある。なお、この例のパーミュテーション/スケーリング解決部706は、分離信号Yi(f,m)をフィードバックしつつ、このパーミュテーションの解決を行う。
wi(f,m)←[W−1(f,m)]jiwi(f,m)
とし、このスケーリングの解決を行う。
そして、順序と大きさの任意性を解決した分離行列W(f,m)を用い、Y(f,m)=W(f,m)X(f,m)により各周波数での分離信号を得る。
φ(Y)=φ(|Y|)・exp(j・∠(Y))
φ(x)=sign(x)
などを用いることができる。また、上述のように、permutation解決法としては、例えば、信号到来方向推定法や分離信号の周波数成分の周波数間類似度を利用した方法の何れか、若しくは、両者を組み合わせた方法を用いることができ、それについては特許文献1や非特許文献2に詳しい。さらに、ICAでは、信号源の数Nとセンサ数MがM≧Nの関係にある必要がある。
信号源の数Nとセンサ数MがM<Nの関係にある場合の分離手法として、信号のスパース性による方法がある(例えば、非特許文献3)。
信号のスパース性と相互独立性を仮定することで、複数の信号が同時に存在していても、サンプルレベルでは、同時刻に互いに重なり合って観測される確率が低いということを仮定できる。すなわち、各時刻における観測信号には、高々1個の信号しか含まれないということを仮定できる。従って、それぞれの時刻で観測された信号が、どの信号源から発せられた信号であるかを何らかの方法で推定し、その時刻の信号のみを抽出するような関数(バイナリマスク)を分離システムW(f,m)として用いることで、信号を分離することが可能である。これがスパース性による方法である。
各時刻での信号源の推定には、以下の方法を用いるのが一般的である。すなわち、それぞれの信号源が空間的に離れて配置されているとすると、複数のセンサで観測される信号間に、各信号源とセンサの相対位置によって決まる位相差や振幅比が発生する。各時刻における観測信号には高々1つの信号しか含まれないという仮定から、各時刻における観測信号の位相差や振幅比は、その時刻の観測信号に含まれる1つの信号の位相や振幅となる。従って、各サンプルにおける観測信号の位相差や振幅比をクラスタリングすることができ、それぞれのクラスタに属する時刻の信号を再構成することで各源信号を推定することができる。
の少なくとも一方を計算し、それを相対値z(f,m)とする。また、或いは位相差そのものではなく、位相差から求められる信号の到来方向を相対値z(f,m)としてもよい。
そして、バイナリマスク作成部754において、
即ち、この例のスパース性による方法では、分離行列W(f,m)は時変であり、
Wjk(f,m)=Mk(f,m) for j∈{1,...,M}
Wkl(f,m)=0 for l≠j(l=1,…,M)
という非線型システムとなる。
信号源の数Nとセンサ数MがM=Nの関係にある場合の信号分離手法として、信号のスパース性を用いて混合行列H(f)を推定し、その逆行列を用いて信号を分離する方法がある(例えば、非特許文献4や非特許文献5参照。)。
図28(従来法3)は、このスパース性により混合行列を推定する方法を説明するためのブロック図である。
混合信号X(f,m)は、混合行列H(f)を用いて
分離信号Y(f,m)を得るまでの流れを説明する。なお、以下において、
を得る。ここでは、すべてのセンサの観測信号X(f,m)=[X1(f,m),…,XM(f,m)]TについてバイナリマスクMk(f,m)を適用する。このとき例えば、源信号Si(f,m)のみがアクティブな時刻miの観測信号は、
となる。
このように求められた分離信号X^j(f,mi)は混合過程計算部756に送られ、そこで
を計算することによりH^(f)が推定される。ここで、E[・]は、miに関する平均である。このように求められたH^(f)は、逆行列計算部757に送られ、そこでその逆行列H^(f)−1が求められる。そして、信号分離部758において、上述の式(7)の演算を行うことにより、分離信号Y(f,m)の推定ができる。
なお、この手法は、H^(f)の逆行列を用いるため、信号源の数Nとセンサ数MがM=Nの関係にある場合にしか適用できない。
つまり、前述のように、信号源の数Nとセンサの数MがN>Mの関係にある場合、独立成分分析による方法、及びスパース性により混合行列を推定する方法は使用できない。
また、信号のスパース性を利用した方法は使用できるが、この方法では、分離性能がよく、なおかつ歪みが小さい信号分離を行うことが困難である。つまり、上述の式(3)で示されるバイナリマスクの作成時、εを十分小さくすると良い分離性能を得ることができるが、その反面、このバイナリマスクによって排除されるサンプルの数が増加し、分離信号が劣化する。すなわち、信号のスパース性が完全なのであれば、各時刻の観測信号には高々1個の信号しか含まれず、各時刻における各相対値z(f,m)は、何れかの代表値a1,...,aNの近傍に収まるはずである。しかし、実際には信号のスパース性は完全ではないため、ある時刻において、同一周波数の観測信号が2個以上存在する場合もある。この場合、この時刻における相対値z(f,m)は、本来対応すべき代表値a1,...,aNから離れた値となり、εの値によってはバイナリマスクによって排除されてしまう。その結果、このサンプルに対応する観測信号が0として取り扱われ、分離信号に0成分が詰め込まれることになる。そして、この排除されるサンプルの割合はεの値が小さいほど大きいため、この0成分が詰め込まれる量もεの値が小さいほど大きくなる。そして、各分離信号に多くの0成分が詰めこまれた場合、これが原因となって、分離信号の歪みが大きくなり、Musical Noiseと呼ばれる聴感上不快なノイズが発生する。一方、バイナリマスクのεを大きくすると、分離信号に詰められる0成分が少なくなりMusical Noiseは減少するが、その反面、分離性能が劣化する。
まず、M個のセンサで観測されたN(N≧2)個の信号の混合である観測信号の値を周波数領域値に変換し、その周波数領域値を用い、センサ間における観測値の相対値(相対値の写像も含む)を、各周波数において算出する。そして、これらの相対値をN個のクラスタにクラスタリングし、それらの各クラスタの代表値を算出する。その後、それらの代表値を用い、周波数領域値からV(V≦M)個の信号源から発せられた信号の値を抽出するためのマスクを作成し、生成したマスクを用い、当該V個の信号源から発せられた信号から成る限定信号の値を抽出する。そして、V≧2の場合には、この限定信号はV個の信号源から発せられた信号から成る混合信号となるため、この限定信号をさらに分離して各分離信号の値を得る。一方、V=1の場合には、この限定信号の値を分離信号の値とする。
また、第2の本発明では、以下のように上記課題を解決する。
で示されるマスクM(f,m)を生成し、マスクM(f,m)と第1のベクトルX(f,m)との積を演算して、V個の信号源から発せられた信号からなる限定信号の値を抽出する。
まず、観測信号値x1(t),...,xM(t)を、周波数領域値X1(f,m),...,XM(f,m)に変換し、それらからなる第1のベクトルX(f,m)=[X1(f,m),...,XM(f,m)]Tを、周波数fごとにN個のクラスタCi(f)(i=1,...,N)にクラスタリングする。なお、源信号がスパースであれば、たとえセンサの数が不十分(N>M)の状況でも、N個のクラスタCi(f)にクラスタリングでき、それらN個の代表ベクトルai(f)を算出することも可能である。
ここで、源信号のスパース性により、たとえ信号源の数Nがセンサの数Mよりも多い(N>M)場合であっても、離散時間mごとに見れば、観測結果に影響を及ぼす値をとる信号源の数はM個以下である可能性が高い。そのため、離散時間mごとに見れば、上述のように生成された分離行列W(f,m)によって、これらM個以下の信号を分離することは可能である。そして、N>Mである場合、分離行列W(f,m)は時間依存となるのだから、離散時間mが相違すれば、得られる分離信号の組合せも相違しうる。そのため、複数の離散時間mについて分離信号を求めていくことにより、すべての分離信号を得ることもできる。
[図2]図1における代表値生成部、マスク制御部、限定信号作成部及び限定信号分離部の詳細を例示したブロック図。
[図3]図1及び図2のマスク作成部の詳細を例示したブロック図。
[図4]第1の実施の形態における信号分離装置の処理を説明するためのフローチャート。
[図5]クラスタリング部により作成されたヒストグラムの例示。
[図6]第1の実施の形態における滑らかな形状のマスクを生成する際使用する信号の推定到来方向θiのとり方を説明するための図。
[図7]第1の実施の形態におけるマスクの例示。
[図8]第2の実施の形態の信号分離装置の1系統を例示したブロック図。
[図9]第3の実施の形態の信号分離装置の1系統を例示したブロック図。
[図10]第3の実施の形態におけるマスクの例示。
[図11]第4の実施の形態におけるマスク作成部の構成を例示したブロック図。
[図12]Aは、第6の実施の形態におけるバイナリマスクの例示、Bは、第7の実施の形態におけるバイナリマスクの例示。
[図13]第8の実施の形態における代表値生成部、マスク制御部及び限定信号作成部の構成を例示したブロック図。
[図14]第8の実施の形態における信号分離処理を説明するためのフローチャート。
[図15]第9の実施の形態の信号分離装置の構成を例示したブロック図。
[図16]第9の実施の形態の信号分離装置の処理を説明するためのフローチャート。
[図17]センサの数が不十分な場合(M<N)における分離行列生成処理を説明するためのフローチャート。
[図18]1音源の場合の正規化していない観測信号ベクトルX(f,m)のプロット。
[図19]1音源の場合において、式(36)により正規化した観測信号ベクトルX(f,m)のプロット。
[図20]1音源の場合において、式(37)により正規化した観測信号ベクトルX(f,m)のプロット。
[図21]2音源の場合の正規化していない観測信号ベクトルX(f,m)のプロット。
[図22]2音源の場合において、式(36)により正規化した観測信号ベクトルX(f,m)のプロット。
[図23]2音源の場合において、式(37)により正規化した観測信号ベクトルX(f,m)のプロット。
[図24]センサの数が信号源の数に対して十分であるか否かに係わらず適用できる分離行列生成処理を説明するためのフローチャート。
[図25]周波数領域で信号統合を行ってから時間領域に変換する際の構成を例示したブロック図の一部。
[図26]各実施の形態をコンピュータで構成した信号分離装置の例。
[図27]Aは、従来のブラインド信号分離技術を概念的に例示したブロック図、Bは、ICAによる分離過程のブロック図。
[図28]スパース性による方法及びスパース性により混合行列を推定する方法を説明するためのブロック図。
[図29]相対値の分布の例示。
2,501 記憶部
3,502 信号分離プロセッサ
〔第1の実施の形態〕
本形態は、第1の本発明に係る実施の形態であり、死角型ビームフォーマの指向特性を用いた滑らかな形状のマスクを用い、観測信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号(本形態ではこれを「限定信号」と呼ぶ)の値を抽出し、抽出した限定信号値をICAによって信号分離する例である。
図1は、本形態の信号分離装置1の全体構成を例示したブロック図である。また、図2は、図1における代表値生成部30、マスク制御部40、限定信号作成部50−k(k=1,...,u、但しuは後述する系統数)及び限定信号分離部60−kの詳細を例示したブロック図である。また、図3は、図1及び図2のマスク作成部51−kの詳細を例示したブロック図である。なお、これらの図における矢印はデータの流れを示すが、制御部10や一時記憶部90に出入りするデータの流れは省略してある。すなわち、データが制御部10や一時記憶部90を経由する場合であっても、その経由の過程は省略してある。また、図4は、本形態における信号分離装置1の処理を説明するためのフローチャートである。以下、これらの図を用いて、この例の信号分離装置1の構成及び処理を説明していく。
まず、本形態の信号分離装置の全体構成について説明する。
図1に例示するように、本形態の信号分離装置1は、記憶部2とこれに有線或いは無線で電気的に接続された信号分離プロセッサ3とを有している。
記憶部2は、例えば、ハードディスク装置、フレキシブルディスク、磁気テープ等の磁気記録装置、DVD−RAM(Random Access Memory)、CD−R(Recordable)/RW(ReWritable)等の光ディスク装置、MO(Magneto−Optical disc)等の光磁気記録装置、EEP−ROM(Electronically Erasable and Programmable−Read Only Memory)、フラッシュメモリ(flash memory)等の半導体メモリ等である。また、記憶部2は、信号分離プロセッサ3と同一の筺体内に存在してもよいし、別個の筺体に構成されてもよい。
<信号分離処理の概略>
次に、信号分離装置1が行う信号分離処理の概略について説明する。
本形態では、N個の信号源から発せられた信号は統計的に互いに独立であり、それぞれの信号は十分スパースであると仮定する。ここで「スパース」とは、信号が殆どの時刻tにおいて0又は0に近く、大きな値をとることは稀であるという性質である。このスパース性は、例えば音声信号で確認される。なお、音声信号など白色でない信号は、短時間離散フーリエ変換等を施して周波数ごとの時間系列とすることで、より0に近い時刻が増えてスパース性が強調される。また、一般には信号のモデル化にガウス分布が用いられることが多いが、スパース性を持つ信号はガウス分布ではなくラプラス分布などでモデル化される。
次に、マスク制御部40にて代表値a1,a2,...,aNのうちV(2≦V≦M)個を適当に選び、限定信号作成部50−kにおいて、観測信号値Xj(f,m)からV個の源信号のみから構成される限定信号の値X^(f,m)を推定する。なお、V=1の場合には、後述する[第3の実施の形態]の方法を用いる。ここでは、マスク作成部51−kにおいてV個の信号を取りだすような滑らかな形状のマスクを作成し、限定信号抽出部52−kでこのマスクを観測信号値Xj(f,m)に作用させることで、限定信号値X^(f,m)を推定する。
しかし以上の処理だけではV個の分離信号しか得られない。よって、その他の分離信号を得るために、マスク制御部40で選択するV個の代表値の構成を変え、限定信号作成部50−kから時間領域変換部70−kまでの処理を複数系統(u系統)行う。
そして最後に、信号統合部80にて、各系統からの出力を統合し、N個全ての分離信号を得る。
次に、この例の構成及び処理の詳細について説明する。
この例は、N(N≧2)個の信号源から発せられた信号が混合し、M個のセンサにおいて観測される状況において、その観測信号から源信号を分離抽出するものである。なお、上述のようにこの例の信号は音声信号等のスパース性を仮定できる信号であり、その音源数Nは既知或いは推定可能とする。また、この例のセンサは、この信号を観測できるマイクロホン等であり、それらは直線上に配置されるものとする。
まず信号分離プロセッサ3は、記憶部2にアクセスし、そこから各観測信号値xj(t)を順次読み込み、周波数領域変換部20に送る(ステップS1)。周波数領域変換部20は、短時間離散フーリエ変換等によって、これらの信号値を時間ごとの周波数領域の観測信号値Xj(f,m)に順次変換し、一時記憶部90に格納する(ステップS2)。一時記憶部90に格納された周波数領域の観測信号値Xj(f,m)は、代表値生成部30に送られ、代表値生成部30の相対値算出部31は、送られた周波数領域の観測信号値Xj(f,m)を用い、各センサ間における観測値の相対値z(f,m)を、各周波数において算出する(ステップS3)。
この例では、j1番目とj2番目の任意の2つのセンサにおける観測信号間位相差z1(f,m)から得られる信号の到来方向
このように算出された相対値z3(f,m)は、一時記憶部90に格納される。次に、クラスタリング部32は、一時記憶部90から相対値z3(f,m)を順次読み込み、これら相対値z3(f,m)をN個のクラスタにクラスタリングする(ステップS4)。この例の場合、クラスタリング部32は、送られた相対値z3(f,m)からヒストグラムを作成する。
この図に例示するように、この例のヒストグラムは、N(=3)個のピークを持つ分布になる。この例のクラスタリング部32は、この分布をN(=3)個のクラスタ(この例ではクラスタ91〜93)にクラスタリングする。これは、例えば、適当な閾値を設定してクラスタリングしてもよいし、k−means法や階層的クラスタリング等の多くの教科書で説明されている方法を用いてもよい(例えば、「尾上守夫 監訳“パターン識別”,新技術コミュニケーションズ,ISBN 4−915851−24−9,第10章」等参照。)。ここでクラスタリングされた各クラスタCi(i=1,2,..,,N)は、相対値z3(f,m)の集合であり、離散時間の集合Tiを用いてCi(f)={z3(f,m)|m∈Ti}である。
次に、マスク制御部40での制御のもと、N個すべての分離信号が得られるまで、限定信号作成部50−k(k=1,...,u),限定信号分離部60−k及び時間領域変換部70−kの複数系統(u系統)による処理が行われる。
以下に、本形態の「滑らかな形状のマスク」の生成手順について説明する。
まず、マスク作成部51−kが、一時記憶部90から変数SGk、SG0及びSGk cを読み出す。次に、マスク作成部51−kは、変数SGkが示す集合Gkの要素(限定範囲内の代表値)の何れか一つを抽出し、これをθ1とする。また、マスク作成部51−kは、変数SG0及びSGk cによって特定されるG0∩Gk cの要素(限定範囲内にない代表値)すべてを抽出し、これらをθi(i=2,...,N−V+1)とする。そして、マスク作成部51−kは、θ1及びθiを一時記憶部90に格納する。次に、マスク作成部51−kは、一時記憶部90からθ1及びθi を抽出し、τji=(dj/v e )cosθi(j=1,...,N−V+1)を算出する。さらに、マスク作成部51−kは、遅延行列HNBF(f)のji要素HNBFji(f)=exp(j2πfτji)を算出して一時記憶部90に格納する。なお、djはセンサ1とセンサjとの距離(d1は0)であり、fは周波数の変数、v e は信号の速さである。これらのパラメータは、例えば事前に一時記憶部90に格納され、順次呼び出されて使用される。以上の処理により、((N−V+1)×(N−V+1))の遅延行列HNBF(f)が生成される(図3:51a−k)。
このNBF行列W(f)は、一時記憶部90(図1)に格納される。指向特性計算部51c−kは、このNBF行列W(f)の1行目の要素W1k(f)、dk及びv e を一時記憶部90から抽出し、θを信号の到来方向の変数とした場合における、指向特性関数
を用いたものを例示できる。
また、指向特性F(f,θ)の絶対値
を用いたものをマスクMDC(f,m)としてもよい。
図7Aは、[マスク2]の例(信号数N=3、センサ数M=2の場合)を示している。この例の「滑らかな形状のマスク」は、信号除去数N−M=1のものであり、一方向a1へ小さいゲインを持つものである。なお、この「滑らかな形状のマスク」は、M(=V)=2個の信号(ここではa2及びa3方向より到来する2個の信号)を限定信号として抽出するためのものである(後述の図7B,Cも同様)。
のように、限定信号領域の指向特性を一様にしたマスクMDC(f,m)を用いることも可能である。また、
のように、限定信号領域の指向特性を一様にしたマスクの絶対値を用いることもできる。
ここでaとしては例えば、除去信号領域の|F(f,θ)|の最大値などの0より十分大きい値を用い、bとしては例えば、指向特性のゲインの最小値などの小さな値を用いる。図7Cに[マスク6]の例(信号数N=3、センサ数M=2の場合)を示す(マスク作成部51−k/ステップS9の説明終わり)。
Permutation問題の解決後、パーミュテーション・スケーリング解決部62−kは、さらに、分離信号値Ykq(q=1,...V)がどの源信号に対応するのかを示すタグΠkqを、分離信号値Ykq(q=1,...V)に付与し、これらを対応付けて一時記憶部90に格納する。ここでは、このタグΠkqを分離信号値Ykqの上付添字Πkqとして表記する。
の演算によって得られる信号の推定到来方向θqと、一時記憶部90から抽出した変数SGkが示す集合Gkに含まれる代表値とを比較し、θqに最も近い代表値aiをq番目の分離信号Ykqに対応付ける(ステップS12)。つまり、パーミュテーション・スケーリング解決部62−kは、この分離信号Ykqに対し、代表値aiを示すタグΠkqを付与する(対応付ける)。
wq(f)←[W−1(f)]jqwq(f)
とすることにより、ICAのスケーリング問題を解決し、スケーリング問題解決後の分離行列W(f)を一時記憶部90に格納する。なお、後の信号統合部80における処理のため、この処理ではすべての系列kにおいて同じjを用いることが望ましい。
従来の「従来法2:信号のスパース性を利用した方法」で分離性能を上げた際に分離信号の歪が大きくなるのは、分離性能を上げるために上述の式(3)のεを十分小さくすると、このバイナリマスクによって取り出される信号成分が制限され、本来原信号の成分として取り出されるべきサンプルの多くが取り出されないからである。つまり、この場合、各分離信号に多くの0成分が詰めこまれ、各分離信号を不連続とし、Musical Noiseを発生させることになる。
そのため、ある時刻において同一周波数の観測信号が2個以上存在し、サンプル値が、本来対応すべき代表値から離れてしまった場合であっても、このようなサンプル値を抽出できる可能性は高くなる。その結果、分離信号に不連続に0成分が詰めこまれることによる品質劣化(Musical Noiseの発生)を抑制できる。
さらに、抽出される限定信号は、V(≦M)個の源信号のみからなると考えられるため、分離問題が簡単になっている。従って、限定信号については、[従来法1]や[従来法3]を用いて容易に信号の分離ができる。また、後述の第3の実施の形態で説明するように、V=1の場合には、[従来法1]や[従来法3]の方法を用いる必要もない。
以下は、[従来法2]で信号分離を行った場合と、本形態の方法で[マスク2]を用いて信号分離を行った場合との性能を比較した表である。
この例では、源信号として、3人の話者(男性2名・女性1名)による音声信号を用い、残響の無い環境でのこれらの混合信号を、2つの無指向性マイクで観測する状況をシミュレートしている。なお、表中のSIRは信号対妨害音比(Signal to interference ratio)(dB)であり、分離性能を示す指標である。また、SDRは信号対歪比(Signal to distortion ratio)(dB)であり、信号の歪の程度を示す指標である。双方とも値が大きい方が性能が良いことを示している。また、SIR1及びSDR1は話者1に、SIR2及びSDR2は話者2に、SIR3及びSDR3は話者3に、それぞれ対応している。また、本形態のデータは縦2段になっているが、これはk=1の系統の分離結果と、k=2の系統の分離結果にそれぞれ対応するものである。
〔第2の実施の形態〕
本形態も第1の本発明に係る実施の形態である。本形態では、限定信号作成部で「滑らかな形状のマスク」を用い、限定信号分離部で混合行列推定による分離方法を用いる例を示す。なお、本形態において第1の実施の形態と共通する事項については説明を省略する。
なお、図8において第1の実施の形態と共通する構成については、第1の実施の形態と同じ符号を付した。図8に例示するように、第1の実施の形態の信号分離装置1と本形態の信号分離装置と構成上の相違点は、限定信号作成部50−kが限定信号作成部150−kに置き換わり、限定信号分離部60−kが限定信号分離部160−kに置き換わる点である。また、マスク作成部151−kが2種類のマスクを作成する点、V=Mに限定される点も異なる。以下、本形態の構成及び処理について説明する。
である。これらのマスクは一時記憶部90(図1)に格納される。
によって推定された混合行列H^を算出する。なお、この混合行列H^のサイズはN×Mとなっている。なお、この混合行列は全ての系列kで求める必要はなく、ある系列で推定したH^を一時記憶部90に格納し、逐次読み出して用いてもよい。
本形態も第1の本発明に係る実施の形態である。本形態では、「滑らかな形状のマスク」を用い、観測信号から、何れか1個の信号源から発せられた信号によって構成される信号(本形態ではこれを「限定信号」と呼ぶ)のみを抽出し、抽出した限定信号を分離信号とする。なお、本形態において第1の実施の形態と共通する事項については説明を省略する。
図9は、本形態の信号分離装置のうち、1個の分離信号を得る1系統部分のみを例示したブロック図である。なお、図9において第1の実施の形態と共通する構成については、第1の実施の形態と同じ符号を付した。
まず、代表値生成部30(図9)は、周波数領域変換部20が生成した周波数領域の観測信号値Xj(f,m)を一時記憶部90(図1)から抽出する。代表値生成部30(図9)は、第1の実施の形態と同様、相対値算出部31において観測値の相対値z(f,m)を算出し、クラスタリング部32においてクラスタリングを行い、代表値算出部33において代表値a1,a2,...,aNを算出する。なお、相対値z(f,m)としては、位相差及び振幅比の少なくとも一方、或いはその写像(例えば、位相差から求められる信号の到来方向)等を用いることができるが、本形態では、観測信号間位相差から求められる信号の到来方向
まず、マスク作成部251−kは、(N×N)の遅延行列HNBF(f)を生成する。すなわち、マスク作成部251−kは、一時記憶部90(図1)に格納された代表値a1,a2,...,aNうちの一つ(抽出する信号の到来方向の推定値)を抽出し、これをθ1とする。また、マスク作成部251−kは、それ以外のN−1個の代表値(抽出しない信号の到来方向の推定値)を一時記憶部90(図1)から抽出し、それらをθi(i=2,...,N)とする。これらのθ1及びθiは一時記憶部90(図1)に格納される。マスク作成部251−kは、一時記憶部90からθ1及びθiを順次抽出し、τji=(dj/v e )cosθi(j=1,...,N)を算出し、遅延行列HNBF(f)のji要素HNBFji(f)=exp(j2πfτji)を算出して一時記憶部90に順次格納する。なお、djはセンサ1とセンサjとの距離(d1は0)であり、fは周波数の変数、v e は信号の速さである。これらのパラメータは、例えば事前に一時記憶部90に格納され、順次呼び出されて使用される。以上の処理により、(N×N)の遅延行列HNBF(f)が生成される。
また、例えば、以下のように除去信号領域のゲインを一様に小さくする特性を持つ[滑らかな形状のマスク]を生成することとしてもよい。
また、例えば、
マスク作成部251−kで生成された滑らかな形状のマスクMDC(f,m)は、限定信号抽出部252−kに送られ、限定信号抽出部252−kは、Yk(f,m)=MDC(f,m)Xj(f,m)により分離信号Yk(f,m)を抽出する。
以上の処理はすべての分離信号が抽出されるまで複数の系統で実施され、最終的にすべての分離信号Y(f,m)が得られる。そして、信号分離装置は、得られた分離信号Y(f,m)を、時間領域変換部において時間領域の信号に戻し、信号統合部をそのまま通過して出力する。
以下は、[従来法2]で信号分離を行った場合と、本形態の方法で[マスク8][マスク11]を用いて信号分離を行った場合との性能を比較した表である。
本形態も第1の本発明に係る実施の形態である。本形態では、バイナリマスクに滑らかな形状の関数を畳み込んで、滑らかな形状のマスクを生成する。以下ではマスク作成部(図1におけるマスク作成部51−kに相当)における処理のみを説明する。なお、その他の構成や処理については、第1から第3の実施の形態と同様である。また、本形態では、第1の実施の形態で説明した位相差z1(f,m)、振幅比z2(f,m)、位相差z1(f,m)から得られる信号の到来方向z3(f,m)等を、相対値z(f,m)として使用することができる。
マスク作成部300−kの処理が開始されると、まず、バイナリマスク作成部301−kは、V個の代表値を含む所定の範囲内にある相対値に対してハイレベル値をとり、この範囲内にない相対値に対してローレベル値をとり、相対値の変化に伴う当該ハイレベル値から当該ローレベル値への推移が不連続な関数であるバイナリマスクを生成する。例えば、マスク作成部300−kは、V個の信号が混合した信号を抽出するためのバイナリマスク
を生成する。
の演算によって算出する。なお、|Ci|とは、クラスタCiに属する相対値z(f,m)の数である。また、この分散値の算出を、例えば、EMアルゴリズム(例えば、「尾上守夫 監訳“パターン識別”,新技術コミュニケーションズ,ISBN 4−915851−24−9,第10章」等参照。)などを用い、データにガウシアンモデルのあてはめを行って求めてもよい。
算出された分散値σ2 iは一時記憶部90(図1)に格納され、次に、マスク作成部301−k(図11)は、一時記憶部90に格納されている分散値σ2 i及び代表値ai(この例ではクラスタCiの平均値)を読み込み、これらを用いて、
を算出する(amin、amaxの具体的な算出例の説明終わり)。
次に、単峰性関数生成部302−k(図11)が、zの変化に伴って値が連続的に変化する単峰性関数g(z)を生成し、一時記憶部90(図1)に格納する。なお、単峰性関数g(z)としては、例えば、ガウシアン
そして、次に、マスク構成部304−k(図11)が、一時記憶部90(図1)から、相対値z(f,m)及び関数F(z)を読み込み、関数F(z)に相対値z(f,m)を代入したマスク
を生成し、一時記憶部90(図1)に格納する。
を算出し、式(24)のマスクを求めてもよい。
本形態も第1の本発明に係る実施の形態である。本形態は、奇関数の差から滑らかな形状のマスクを生成する。以下ではマスク作成部(図1におけるマスク生成部51−kに相当)における処理のみを説明する。なお、その他の構成や処理については、第1から第3の実施の形態と同様である。
本形態のマスク作成部は、相対値が限定範囲の下限値aminである場合に0をとる第1の奇関数と、相対値が限定範囲の上限値amaxである場合に0をとる第2の奇関数との差の写像から得られる単峰性の関数を、滑らかな形状のマスクとして生成する。例えば、
MDC(f,m)={tanh(z(f,m)−amin)−tanh(z(f,m)−amax)}αを「滑らかな形状のマスク」とする。なお、相対値z(f,m)には、第1の実施の形態等で示した位相差z1(f,m)及び振幅比z2(f,m)の少なくとも一方、或いはその写像(例えば、位相差から求められる信号の到来方向z3(f,m))等を用いる。また、αは任意の正の数であり、amin、amaxは第4の実施の形態と同様に求められたものである。また、必要に応じて、
MDC(f,m)=MDC(f,m)/max(MDC(f,m))
などの正規化を施してもよい。
本形態も第1の本発明に係る実施の形態である。本形態のマスクは、図1及び図2のマスク作成部51−kにおいて作成され、V個の代表値を含む所定の範囲内にある相対値に対してハイレベル値をとり、この所定の範囲内にない代表値に対してローレベル値をとり、ハイレベル値からローレベル値への推移が不連続な関数(バイナリマスク)である。ただし、2≦V≦Mである。すなわち、例えば、
をバイナリマスクとして作成する。なお、ak+1からak+VのV個の代表値を含む信号を抽出する場合、amin、amaxは、例えばak<amin<ak−1,ak+V<amax<ak−V−1の範囲で設定する。より具体的には、例えば第4の実施の形態で述べた方法と同様な手順により、amin、amaxを生成する。また、本形態でも、位相差z1(f,m)、振幅比z2(f,m)、位相差z1(f,m)から得られる信号の到来方向z3(f,m)等を、相対値z(f,m)として使用することができる。
また、バイナリマスクB(f,m)を用い、周波数領域の信号値から、V個の信号源から発せられた信号からなる混合信号の値を抽出する処理は、周波数領域の観測信号値Xj(f,m)にバイナリマスクB(f,m)を乗じることにより行う(X^(f,m)=B(f,m)X(f,m))。
従来の「従来法2:信号のスパース性を利用した方法」で分離性能を上げた際に分離信号の歪が大きくなるのは、分離性能を上げるために上述の式(3)のεを十分小さくすると、このバイナリマスクによって取り出される信号成分が制限され、本来原信号の成分として取り出されるべきサンプルの多くが取り出されないからである。つまり、この場合、各分離信号に多くの0成分が詰めこまれ、各分離信号を不連続とし、Musical Noiseを発生させることになる。
以下に、3人の話者による音声信号s1、s2、s3が、2つの無指向性マイクで観測された場合(N=3,M=2の場合)について、バイナリマスクによる0詰めの影響を議論する。
バイナリマスクによって0が詰められ失われた信号のパワーの比率を、
と定義すると、従来の「信号のスパース性を利用した方法(従来法2)」では、s1:17%、s2:14%、s3:23%もの信号のパワーがバイナリマスクにより失われた。
すなわち、この形態では、バイナリマスクB(f,m)による信号の劣化が従来法に比べて少ないことが分かる。これは、この形態では、Musical Noiseが発生しにくいことを示している。
以下に、本形態のシミュレーション結果を示す。
この例は、本形態のバイナリマスクで限定信号を抽出し、その限定信号にICAを提供して信号分離を行った例である。またこの例では、原信号として、3人の話者(男性2名・女性1名)による音声信号を用い、残響の無い環境でのこれらの混合信号を、2つの無指向性マイクで観測する状況をシミュレートしている。この表に示すように、この形態の方法では、分離性能SIRをほとんど落すことなく、従来法2に比べ格段に高いSDRを得ることができる。これは、この形態の方法が、格段に低い歪で信号の分離を行っていることを示している。
本形態も第1の本発明に係る実施の形態であり、上述の第6の実施の変形例である。すなわち、本形態も2≦V≦Mの場合にバイナリマスクを用いて限定信号を抽出する形態であるが、バイナリマスクB(f,m)の作成方法及び限定信号の算出処理に違いがある。以下では、このバイナリマスクB(f,m)の作成方法、及び限定信号の算出処理にのみについて説明を行い、その他の処理及び機能構成については、第1の実施の形態或いは第2の実施の形態と同一であるため、説明を省略する。
を計算することで、M個の原信号のみからなる限定信号の値X^(f,m)を算出する。なお、上述の式(3)のバイナリマスクMi(f,m)は、それぞれ1つの代表値のみに対してハイレベル値をとるバイナリマスクであるが、2つ以上の代表値に対してハイレベル値をとるバイナリマスクを用いて本形態の処理を実行してもよい。また、バイナリマスクの変わりに上述した滑らかな形状のマスクを用いて本形態の処理を実行してもよい。
限定信号X^(f,m)が算出されると、以後第1の実施の形態或いは第2の実施の形態と同様な限定信号分離、時間領域変換、信号統合の処理が行われる。
本形態は、第2の本発明に係る例であり、M個のセンサで信号が観測される状況において、観測値をM次元領域でクラスタリングし、マスクを定義する。なお、以下では第1の実施の形態との相違点を中心に説明し、第1の実施の形態と共通する事項については説明を省略する。
図13は、本形態における代表値生成部430、マスク制御部40及び限定信号作成部450−kの構成を例示したブロック図である。なお、この図はV個の分離信号を得る1系統のみを示している。なお、本形態では1≦V≦Mである。
図14は、本形態における信号分離処理を説明するためのフローチャートである。以下、このフローチャートに添って、本形態の信号分離処理について説明する。
まず信号分離プロセッサ3は、制御部10の制御のもと記憶部2にアクセスし、そこから各観測信号値xj(t)を順次読み込み、周波数領域変換部20に送る(ステップS21)。周波数領域変換部20は、短時間離散フーリエ変換等によって、これらの信号値を時間ごとの周波数領域の観測信号値Xj(f,m)に順次変換し、一時記憶部90に格納する(ステップS22)。
が存在してもよい。
ここでクラスタリング部432の処理をさらに詳細に説明する。
この例のクラスタリング部432は、クラスタリングを適切に実行できるように、すなわち同じ信号源が支配的であるサンプル(観測信号ベクトルX(f,m))が同じクラスタに分類されるように、各サンプルの正規化を行ってからクラスタリングを行う。
具体的には、例えばまず正規化部432a(図13)が、一時記憶部90(図1)から観測信号ベクトルX(f,m)を読み込み、
の正規化を行い、クラスタ生成部432bが、この正規化結果のクラスタリングを行う。
の正規化を行い、クラスタ生成部432bが、この正規化結果のクラスタリングを行う。ただし、ベクトルの長さ‖X(f,m)‖はX(f,m)のノルムであり、具体的には、例えば、
によって定義される。
次に、代表値計算部433が、一時記憶部90(図1)に格納された各クラスタCi(f)を順次抽出し、各クラスタCi(f)を代表する代表ベクトル(「第2のベクトル」に相当)ai(f)を算出する(ステップS24)。
例えば、まず代表値計算部433の代表ベクトル生成部433a(図13)が、一時記憶部90(図1)に格納された各クラスCi(f)を順次抽出し、各クラスタCi(f)に属するサンプルの値X(f,m)の平均値
を各信号源に関する代表ベクトルai(f)として算出する。成いは、各クラスタCi(f)に属するサンプルX(f,m)を適度に量子化し、最瀕値を求めてこれを代表ベクトルai(f)としてもよい。このように求められた代表ベクトルai(f)は一時記憶部90(図1)に格納される。
具体的には、例えばまず、並び替え部433b(図13)が、読み出した各周波数fの代表ベクトルai(f)を用い、
次に、マスク制御部40での制御のもと、N個すべての分離信号が得られるまで、限定信号作成部50−k(k=1,...,u),限定信号分離部60−k及び時間領域変換部70−kの複数系統(u系統)による処理が行われる。
次に、マスク制御部40は、一時記憶部90(図1)から変数SG0及びSGを呼び出す。そして、マスク制御部40は、変数SG0によって特定される集合G0から、SGによって特定される集合Gの補集合(Gc(αcはαの補集合を示す))の元を含む適当なV(≦M)個の代表ベクトルap(f)(p=1,...,V)(「第3のベクトル」に相当)の集合Gkを選択し、この集合Gkを特定するデータを変数SGkに代入し、この変数SGkを一時記憶部90に格納する(ステップS28)。すなわち、マスク制御部40は、各代表ベクトルa1(f),...,aN(f)の中から、限定信号として取り出すV個の信号に対応するV個の代表ベクトルap(f)(p=1,...,V)を抽出する。
そのために、本形態では、限定信号作成部450−kのマスク作成部451−k(図13)が、一時記憶部90(図1)から変数SGk、SG0及び観測信号ベクトルX(f,m)を読み込み、以下のマスクMk(f,m)を生成する(ステップS29)。
Xk^(f,m)=Mk(f,m)・X(f,m)
を演算し、V個の信号源から発せられた限定信号値Xk^(f,m)を抽出する(ステップS30)。
の演算によって得られる信号の推定到来方向θq(f)と、一時記憶部90から抽出した変数SGkが示す集合Gkに含まれる代表ベクトルap(f)とを比較し、θqに最も近い代表ベクトルap(f)をq番目の分離信号Ykqに対応付ける(ステップS32)。つまり、パーミュテーション・スケーリング解決部62−kは、この分離信号Ykqに対し、代表値aiを示すタグΠkqを付与する(対応付ける)。
wq(f)←[W−1(f)]jqwq(f)
とすることにより、ICAのスケーリング問題を解決し、スケーリング問題解決後の分離行列W(f)を一時記憶部90に格納する。なお、後の信号統合部80における処理のため、この処理ではすべての系列kにおいて同じjを用いることが望ましい。
タグΠkqが付与された各分離信号値Ykqは、時間領域変換部70−kに送られる。時間領域変換部70−kは、例えば、短時間逆離散フーリエ変換等により、時間周波数領域で得られている各分離信号値Ykqを時間領域の信号値に変換し、その変換値を一時記憶部90に格納する。(ステップS33)。なお、これら時間領域の信号値yk(t)=[yk1 Πk1(t),...,ykV ΠkV(t)]Tにも上述のタグΠkqが関連付けられる。この関連付けを行う場合、まず、時間領域変換部70−kが、一時記憶部90から、周波数領域の信号値Ykqに対応付けられているタグΠkqを各周波数及び時間について抽出する。次に、時間領域変換部70−kは、各周波数及び時間におけるタグΠkqがすべて等しいか否かを判断する。ここでこれらがすべて等しかった場合には、時間領域の信号値yk qのタグとして、周波数領域の信号値Ykqに対応付けられているタグΠkqを対応付ける。一方、これらがすべて等しくなかった場合には、多数決にて時間領域の信号値ykqのタグを決定する。
(Kは同じタグaiを持つ分離信号の個数)
とする。以上により、N個の信号が少ない歪で分離される。
として、直接限定信号値を生成してもよい。すなわち、例えば、限定信号作成部450−kが、観測信号ベクトルX(f,m)に対し、
を満たすか否かを判断し、満たすと判断した観測信号ベクトルX(f,m)を、信号源から発せられた信号の値として抽出することとしてもよい。
本形態は、第3の本発明に係る実施の形態である。
<構成>
図15は、本形態におけるブランド信号分離装置500の構成を例示したブロック図である。なお、この図における矢印はデータの流れを示すが、制御部521や一時記憶部522に出入りするデータの流れは省略してある。すなわち、データが制御部521や一時記憶部522を経由する場合であっても、その経由の過程は省略してある。
図15に例示するように、本形態の信号分離装置500は、記憶部501とこれに有線或いは無線で電気的に接続された信号分離プロセッサ502とを有している。
記憶部501は、例えば、ハードディスク装置、フレキシブルディスク、磁気テープ等の磁気記録装置、DVD−RAM(Random Access Memory)、CD−R(Recordable)/RW(ReWritable)等の光ディスク装置、MO(Magneto−Optical disc)等の光磁気記録装置、EEP−ROM(Electronically Erasable and Programmable−Read Only Memory)、フラッシュメモリ(flash memory)等の半導体メモリ等である。また、記憶部501は、信号分離プロセッサ502と同一の筺体内に存在してもよいし、別個の筺体に構成されてもよい。
図16は、本形態における信号分離装置500の処理の全体を説明するためのフローチャートである。以下、図15及び図16を用いて、信号分離装置500の処理を説明していく。なお、以下ではN(N≧2)個の信号源から発せられた信号が混合され、M個のセンサで観測された場合について説明する。
信号分離装置500は、制御部521の制御のもと、以下の処理を実行する。
まず、M個のセンサで観測された観測信号の値x1(t),...,xM(t)(tは時間)が、記憶部501から読み込まれ、周波数領域変換部511に入力される(図15)。周波数領域変換部511は、これらの観測信号値x1(t),...,xM(t)を、短時間離散フーリエ変換等により、周波数領域の信号値(周波数fごとの時系列データ)X1(f,m),...,XM(f,m)(mは離散時間)に変換する(ステップS51)。これら周波数領域の信号値X1(f,m),...,XM(f,m)は、一時記憶部522に格納され、混合行列推定部512のクラスタリング部512aによって読み込まれる。クラスタリング部512aは、これらによって構成される観測信号ベクトルX(f,m)=[X1(f,m),...,XM(f,m)]Tを、周波数fごとにN個ずつのクラスタCi(f)(i=1,...,N)にクラスタリングする(ステップS52)。各クラスタCi(f)は、代表ベクトル計算部512bに送られ、代表ベクトル計算部512bは、各クラスタCi(f)の代表ベクトルai(f)を算出する(ステップS53)。各代表ベクトルai(f)は、一時記憶部522に格納され、ベクトル統合部512cは、これらを順次抽出し、各代表ベクトルai(f)を列とする推定混合行列A(f)=[a1(f),...,aN(f)]を生成する(ステップS54)。生成された推定混合行列A(f)は、一時記憶部522に格納される。
次に、混合行列推定部512での処理の詳細について説明する。なお、以下の処理は、周波数ごとに適用されるものである。
まず、クラスタリング部512aは、一時記憶部522から読み込んだすべてのセンサの観測信号成分X1(f,m),...,XM(f,m)をまとめ、これらを観測信号ベクトルX(f,m)=[X1(f,m),...,XM(f,m)]Tとして関連付ける。そして、クラスタリング部512aは、クラスタリングによって信号源と等しい数N個のクラスタCi(f)を生成し、これらを一時記憶部522に格納する(ステップS52)。
が存在してもよい。
を各信号源に関する代表ベクトルai(f)として算出する(ステップS53)。或いは、各クラスタCi(f)に属するサンプルX(f,m)を適度に量子化し、最瀕値を求めてこれを代表ベクトルai(f)としてもよい。
次にクラスタリング部512aの処理をさらに詳細に説明する。
この例のクラスタリング部512aは、クラスタリングを適切に実行できるように、すなわち同じ信号源が支配的であるサンプル(観測信号ベクトルX(f,m))が同じクラスタに分類されるように、正規化部512aaで各サンプルの正規化を行ってからクラスタリングを行う。
の正規化を行った後にクラスタリングを行う。
また、さらに必要であれば、この例の正規化部512aaは、さらに、
の正規化を行った後にクラスタリングを行う。ただし、ベクトルの長さ‖X(f,m)‖はX(f,m)のノルムであり、具体的には、例えば、
によって定義される。
m)−X’(f,m))や、任意のkによるLkノルム、或いはコサイン距離(式(39))を距離尺度として用いてクラスタリングを行う。
以上の操作により、各クラスタCiの代表ベクトルai(f)が混合ベクトルhk(f)の推定(大きさの任意性を含む)となる理由を説明する。
と近似できる。
そしてこの関係と式(36)の正規化により、
となる。なおここでは、sign(HjkSk)=sign(Hjk)sign(Sk),1/sign(Hjk)=sign*(Hjk)(・*は複素数の共役をとる操作),及びSk/sign(Sk)=|Sk|なる関係を用いた。また、これらの記載においてf,mは省略してある。
X←X/‖X‖=sign*(Hjk)|Sk|hk/(|Sk|・‖hk‖)=sign*(Hjk)hk/‖hk‖ …(42)
となる。なおここでは、‖sign*(Hjk)|Sk|hk‖=|Sk|・‖hk‖なる関係を用いた。また、これらの記載においてもf,mは省略してある。
ここで、式(41)により、式(36)によって正規化された観測信号ベクトルX(f,m)は、混合ベクトルhk(f)をsign*(Hjk(f))倍したベクトルの直線上に集まることがわかる。そして、各ベクトルが直線上のどこに乗るかは、信号源の大きさ|Sk(f,m)|による。また、式(42)により、式(37)によって正規化された観測信号ベクトルX(f,m)は、複素空間での1点sign*(Hjk(f))hk(f)/‖hk(f)‖に集まることがわかる。これらは、正規化された観測信号ベクトルX(f,m)の平均として算出した代表ベクトルai(f)が、大きさの任意性を含む混合ベクトルhk(f)の推定となっていることを示している。
次に、パーミュテーション問題解決部513での処理の詳細について説明する。
パーミュテーション問題解決部513では、各周波数fで算出された推定混合行列A(f)の列の並べ替えを行い、同じ信号源sk(t)に関する代表ベクトルai(f)がすべての周波数fで同じになるようにする(ステップS55)。すなわち、各分離信号Y1(f,m),…,YN(f,m)と各信号源との対応が各周波数fにおいて同一となるように添字iを付け替える。そのために、例えば、従来の技術と同様、非特許文献2の手順に基づいて2種類の情報を用いる。
が最大化されるように推定混合行列A(f)の列の並び替えを行い、パーミュテーション問題の解決を図る。
なお、これらの処理に使用する分離信号は、分離信号生成部519の出力Y1(f,m),...,YN(f,m)をフィードバックすることで得られる。
次に、スケーリング問題解決部514での処理の詳細を説明する。
パーミュテーション問題解決部513から推定混合行列A(f)を受け取ったスケーリング問題解決部514は、各列の大きさの任意性を解決するために、まず推定混合行列A(f)の各列(代表ベクトル)ai(f)に対し、正規化
ai(f)←ai(f)/aji(f)
を行う(ステップS56)。なお、ajiは、代表ベクトルai(f)のj行目の要素である。また、jは各代表ベクトルai(f)ごとに違うものを選んでもよいが、同じiに対してはすべての各周波数fにおいて同じjを用いる必要がある。
次に、分離信号生成処理の詳細について説明する。
本形態の場合、センサの数が信号源の数に対して十分であるか否かによって分離信号の生成手順が異なる。
まず、センサの数が十分な場合(M≧N)は、簡単に分離信号を生成できる。すなわち、分離行列生成部518がスケーリング問題解決部514から推定混合行列A(f)を受け取り、そのムーア・ペンローズ型擬似逆行列A(f)+(M=Nの場合は逆行列A(f)−1に一致)を分離行列W(f)として生成する(ステップS57)。生成された分離行列W(f)は、一時記憶部522に格納される。分離信号生成部519は、この分離行列W(f)と観測信号ベクトルX(f,m)とを一時記憶部522から読み込み、これらを用いY(f,m)=W(f)X(f,m)の演算により、分離信号成分Y1(f,m),...,YN(f,m)を生成する(ステップS58)。
図17は、本形態の近似解法を説明するためのフローチャートである。以下、このフローチャートに沿って近似解法を用いて分離行列W(f,m)を算出する処理を説明する。
次に、列選択部516は、一時記憶部522内の変数kを参照し、k≦Mであるか否かを判断する(ステップS63)。ここで、k≦Mである場合、列選択部516は、
となるq(k)を選択し、その選択結果を一時記憶部522に格納する(ステップS64)。こ
の絶対値を最大化するもの、すなわち残差ベクトルeに最も方向が近い代表ベクトルai(f)を選択する演算を示している。残差ベクトルeに方向が最も近い代表ベクトルai(f)を選択する理由は、次の繰り返しでの残差ベクトルeがより小さくなることで、以降の各Yi(f,m)が小さくなり、最終的に式(46)で定義されるY(f,m)のL1ノルムも小さくなると期待できるからである。
e=X(f,m)−P・X(f,m)
の演算によって残差ベクトルeを更新して一時記憶部522に格納する(ステップS67)。
その後、順次、次の列を選択するため、列選択部516は、一時記憶部522の変数kに1を加えて新たなkとし、ステップS63に戻る(ステップS68)。なお、残差ベクトルeには、これまでに選択された代表ベクトルaq(i)と直交する成分しか含まれていないた
基準のもと(ステップS64)で再び選択されることはない。
という列ベクトルai’(f,m)を生成する(ステップS69)。さらに、行列生成部517は、式(48)の列ベクトルai’(f,m)を列とする行列A’(f,m)=[a1’(f,m),...,aN’(f,m)](「選択されたmin(M,N)個の代表ベクトルai(f)とmax(N−M,0)個の0ベクトルとを列とした行列A’(f,m)」に相当)を算出し、一時記憶部522に格納する(ステップS70)。なお、このように算出された行列A’(f,m)は、N×M行列であるが、そのうちN−M個の行は0ベクトルである。
[N>Mでのブラインド信号分離]
以上説明した通り本形態では、センサ数が少ない(N>M)状況でも、源信号がスパース性を備えていればブラインド信号分離が達成できる。その結果、センサの数を低減でき装置のコスト低減にも貢献できる。
[正規化の効果]
図18〜23は、正規化部512aaで行われた正規化の効果を例示したプロットである。これらの例は、残響時間130msの部屋で1つ或いは2つの音声を2つのマイクで観測した場合の2773Hzにおける観測信号ベクトルX(f,m)のプロットである。なお、これらは2個のマイクで観測した例であるが、観測信号ベクトルX(f,m)は周波数領域における複素ベクトルであるため、実数では4次元空間でのベクトルとなる。そのため、図4〜9ではその4次元を4つの2次元空間に射影して表示した。なお、これらの図の「imag」は各観測信号の虚数項を示し、「real」は実数項を示す。また、X1は第1のマイクで観測された観測信号に係るデータを示し、X2は第2のマイクで観測された観測信号に係るデータを示している。
図18は、正規化していない観測信号ベクトルX(f,m)のプロットである。この例では、原点を中心にクラスタが形成されているが、そのクラスタから源信号1に関する代表ベクトルa1(f)について有益な情報は得られない。一方、図19は、式(36)により正規化した観測信号ベクトルX(f,m)のプロットである。この例では、原点からある特定の方向にサンプルが散布されている。この方向が推定すべき代表ベクトルa1(f)に対応する。これは代表ベクトルa1(f)を決定するうえでの有益な情報となる。また、図20は、式(37)により正規化した観測信号ベクトルX(f,m)のプロットである。この例では、原点から離れた箇所にクラスタが形成されている。このクラスタの中心と原点を結ぶベクトルが推定すべき代表ベクトルa1(f)に対応する。
図21は、正規化していない観測信号ベクトルX(f,m)のプロットである。この例の場合も、1音源の場合と同様に、2つの源信号に関して有益な情報は得られない。図22は、式(36)により正規化した観測信号ベクトルX(f,m)のプロットである。この例の場合、原点から2つの方向にサンプルが散布している。そして、これら方向が推定すべき代表ベクトルa1(f),a2(f)に対応する。図23は、式(37)により正規化した観測信号ベクトルX(f,m)のプロットである。この例では、原点から離れた箇所に2個のクラスタを形成されていることがわかる。そして、このクラスタの中心と原点を結ぶベクトルが推定すべき代表ベクトルa1(f),a2(f)に対応する。
前述したように、N>Mの場合の分離行列W(f,m)の生成において最小化を厳密に行った場合、その計算量は膨大なものとなってしまう。例えば、N個の代表ベクトルa1(f),...,aN(f)からM個を選択する組合せはNCM個あるため、厳密にL1ノルム(式(46))を極小化する組合せをみつけようとすれば、NCM個の組についての並び替えの処理等が必要となる。しかし、図17に示した近似解法では、センサの数Mに相当する回数のループを繰り返せばよく、計算量は少なく済む。
図24は、このような例を説明するためのフローチャートである。
この変形例の場合、N≦Mであるか否かに係わらず、まず、列選択部516が、一時記憶部522から推定混合行列A(f)及び観測信号ベクトルX(f,m)を読み込み(ステップS81)、残差ベクトルeを観測信号ベクトルX(f,m)で初期化し、変数kに1を代入する(ステップS82)。そして、列選択部516が、k≦min(M,N)であるか否かを判断
の共役転置行列)を最大にする列aq(u)(f)を選択し(ステップS84)、選択済みのすべての列aq(u)(u=1,…,k)によって張られる部分空間を示す行列Q=[aq(1)(f),…,aq(k)(f)]を設定し(ステップS85)、P=Q(QHQ)−1QHを算出し(ステップS86)、X(f,m)−P・X(f,m)の演算結果によって残差ベクトルeを更新し(ステップS87)、変数kに1を加えた値を新たなkとして(ステップS88)、ステップS83に戻る。すなわち、ステップS83〜88の処理をmin(M,N)回繰り返す。なお、min(M,N)とは、M及びNの何れか小さい方の値を意味し、max(N−M,0)とは、N−M及び0の何れか大きい方の値を意味する。
次に、行列生成部517は、一時記憶部522からこれらmin(M,N)個の代表ベクトルaq(i)を読み込み、
なお、本発明は上述の各実施の形態に限定されるものではない。例えば、第1の実施の形態から第8の実施の形態では、抽出信号を時間領域に戻してから統合を行うこととしていたが、周波数領域で信号統合を行ってから時間領域に変換してもよい。
図25は、周波数領域で信号統合を行ってから時間領域に変換する際の構成を例示したブロック図の一部である。この図の構成は、図1における限定信号分離部60−k、時間領域変換部70−k及び信号統合部80の換わりに設けられる構成である。
Yi(f,m)=Ykq Πkq(f,m)
として分離信号値を求める。また、ある周波数fにおいて、同じタグaiを持つ分離信号Ykq Πkq(f,m)が二つ以上ある場合、Yi(f,m)は、例えば同じタグaiを持つ分離信号Ykq Πkq(f,m)の平均として
として求められる。
また、第1の実施の形態から第8の実施の形態では、各分離信号にタグを付与して信号の統合処理を行うこととしたが、各分離信号にタグを付けるのではなく、各系統kにおいて分離される信号に対応するV個の代表値の集合Gkを一時記憶部90に保持しておき、出力信号の統合を行うこととしてもよい。
例えば、[第8の実施の形態]の方法で代表ベクトルを求め、その後[第2の実施の形態]の方法で限定信号を分離することとしてもよい。具体的には、例えば、代表値計算部430(図13)で求めた代表ベクトルを用い、[第2の実施の形態]における(18)式のかわりに
としてMDC(f,m)を求め(Mk(f,m),MDC(f,m)は、図8参照。)、あとは[第2の実施の形態]の限定信号分離部160−kと同じ手順で限定信号を分離する。
ここで、上述のMk(f,m),MDC(f,m)を求めず、直接
にて限定信号値を生成してもよい(マスク作成部151−k及び限定信号抽出部152−k(図8)の処理に対応)。
図26は、各実施の形態をコンピュータで構成した信号分離装置610の例である。
この例の信号分離装置610は、CPU(Central processing Unit:中央処理装置)620、RAM(Random Access Memory)630、ROM(Read Only Memory)640、外部記憶装置650、入力部660、インタフェース670及びバス680を有している。
また、RAM630は、例えば、DRAM、SRAM、フラッシュメモリ、NV(Nonvolatile)RAM等の読書き可能な半導体メモリである。またROM640は、例えば、MROM(Mask Read Only Memory)等の読み出し専用の半導体メモリであり、各種プログラムやデータ等が記憶されている。
また、入力部660は、例えば、キーボード、マウス、ジョイスティック等の入力デバイスである。また、インタフェースは、例えば、データの入力、出力、或いはその双方を行う入力/出力ポートであり、例えば、センサ、通信ボード、記憶装置等の各種装置が接続可能となっている。
また、信号分離装置610における処理の内容は、例えば、信号分離プログラムに記述され、このような信号分離プログラムは、例えば、コンピュータで読み取り可能な記録媒体に記録される。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable−Read Only Memory)等を用いることができる。
信号分離装置610において処理を実行する場合、例えばまず、可搬型記録媒体に記録された信号分離プログラムもしくはサーバコンピュータから転送された信号分離プログラムを、外部記憶装置650のプログラム領域651にダウンロードする。
次に、例えば、CPU620の制御部622の制御のもと、外部記憶装置650のプログラム領域651から信号分離プログラムが順次読み出され、RAM630のプログラム領域631に格納される。RAM630に格納された信号分離プログラムは、CPU620に読み込まれ、CPU620の制御部622は、この信号分離プログラムの内容に従い、データの入出力、演算部621での演算、レジスタ623へのデータ格納等の各処理を実行する。
Claims (27)
- N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離方法であって、
前記センサにおいて観測された観測信号値を、離散時間・周波数毎の周波数領域の信号値に変換する手順と、
任意に特定された2つの異なる前記センサにおいて観測された観測信号値からそれぞれ変換された前記周波数領域の信号値を用い、当該2つの前記センサ間における観測値の相対値(相対値の写像も含む)を、離散時間・周波数毎に算出する手順と、
前記相対値をN個のクラスタにクラスタリングする手順と、
前記の各クラスタの代表値を算出する手順と、
前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順と、
前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順と、
前記混合信号の値からV個の信号の値を分離抽出する手順と、
を有し、
前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順は、
前記の各クラスタの代表値から任意にV個の代表値を選択する手順と、
前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとる関数である前記マスクを生成する手順と、を含み、
前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順は、
前記周波数領域の信号値に前記マスクを乗じる手順を含む、
ことを特徴とする信号分離方法。 - N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離方法であって、
前記センサにおいて観測された観測信号値を、離散時間・周波数毎の周波数領域の信号値に変換する手順と、
任意に特定された2つの異なる前記センサにおいて観測された観測信号値からそれぞれ変換された前記周波数領域の信号値を用い、当該2つの前記センサ間における観測値の相対値(相対値の写像も含む)を、離散時間・周波数毎に算出する手順と、
前記相対値をN個のクラスタにクラスタリングする手順と、
前記の各クラスタの代表値を算出する手順と、
前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順と、
前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順と、
前記混合信号の値からV個の信号の値を分離抽出する手順と、
を有し、
前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順は、
前記の各クラスタの代表値から任意にV個の代表値を選択する手順と、
前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してローレベル値をとり、前記所定の範囲内にない前記代表値に対してハイレベル値をとる関数である前記マスクを生成する手順と、を含み、
前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順は、
前記周波数領域の信号値に前記マスクを乗じた値を、前記周波数領域の信号の値から減算する手順を含む、
ことを特徴とする信号分離方法。 - 請求項1記載の信号分離方法であって、
前記マスクは、
前記相対値の変化に伴う前記ハイレベル値から前記ローレベル値への推移が連続的な関数である、
ことを特徴とする信号分離方法。 - 請求項1記載の信号分離方法であって、
前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順は、
死角型ビームフォーマ(NBF)の指向特性を利用して前記マスクを作成する手順である、
ことを特徴とする信号分離装置。 - 請求項1記載の信号分離方法であって、
前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとる関数である前記マスクを生成する手順は、
fを周波数の変数とし、θ1を前記V個の前記代表値に対応する信号源の推定方向の何れか1つとし、θi(i=2,...,N−V+1)を前記V個の代表値以外の前記代表値に対応する各信号源の推定方向とし、j=1,...,N−V+1とし、djをセンサ1とセンサjとの距離とし、v e を信号の速さとし、τji=(dj/v e )cosθiとした場合における、ji要素がexp(j2πfτji)である(N−V+1)×(N−V+1)の遅延行列HNBF(f)を生成する手順と、
遅延行列HNBF(f)の逆行列W(f)=HNBF −1(f)をNBF行列W(f)として算出する手順と、
前記NBF行列W(f)の1行目の要素をW1k(f)とし、θを信号の到来方向の変数とした場合における、指向特性関数
前記指向特性関数F(f,θ)を用いて前記マスクを生成する手順と、
を具備することを特徴とする信号分離方法。 - 請求項1記載の信号分離方法であって、
前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとる関数である前記マスクを生成する手順は、
前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとり、相対値の変化に伴う当該ハイレベル値から当該ローレベル値への推移が不連続な関数であるバイナリマスクに単峰性関数を畳み込んだ関数を生成する手順と、
前記バイナリマスクに単峰性関数を畳み込んだ関数に前記相対値を代入した関数を前記マスクとして生成する手順と、
を具備することを特徴とする信号分離方法。 - 請求項1記載の信号分離方法であって、
前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとる関数である前記マスクを生成する手順は、
前記相対値が前記V個の前記代表値を含む所定の範囲内の下限値aminである場合に0をとる第1の奇関数と、前記相対値が前記所定の範囲内の上限値amaxである場合に0をとる第2の奇関数との差の写像から得られる単峰性の関数を、前記マスクとして生成する手順である、
ことを特徴とする信号分離方法。 - 請求項1或いは2に記載の信号分離方法であって、
前記マスクは、
前記ハイレベル値から前記ローレベル値への推移が不連続な関数である、
ことを特徴とする信号分離方法。 - N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離方法であって、
前記センサにおいて観測された観測信号値を、離散時間・周波数毎の周波数領域の信号値に変換する手順と、
任意に特定された2つの異なる前記センサにおいて観測された観測信号値からそれぞれ変換された前記周波数領域の信号値を用い、当該2つの前記センサ間における観測値の相対値(相対値の写像も含む)を、離散時間・周波数毎に算出する手順と、
前記相対値をN個のクラスタにクラスタリングする手順と、
前記の各クラスタの代表値を算出する手順と、
前記の各クラスタの代表値から任意に1個の代表値を選択する手順と、
前記1個の代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとり、前記相対値の変化に伴う当該ハイレベル値から当該ローレベル値への推移が連続的な関数であるマスクを作成する手順と、
前記周波数領域の信号値に前記マスクを乗じ、1個の信号源から発せられた信号の値を抽出する手順と、
を有することを特徴とする信号分離方法。 - N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離方法であって、
前記センサにおいて観測された観測信号値x1(t),...,xM(t)を、離散時間m・周波数f毎の周波数領域の信号値X1(f,m),...,XM(f,m)に変換する手順と、
離散時間mと周波数fとの組み合わせが同一の前記周波数領域の信号値X1(f,m),...,XM(f,m)からなる第1のベクトルX(f,m)=[X1(f,m),...,XM(f,m)]を、周波数fごとにN個ずつのクラスタCi(f)(i=1,...,N)にクラスタリングする手順と、
前記各クラスタCi(f)を代表する第2のベクトルai(f)を算出する手順と、
前記第2のベクトルai(f)からV(1≦V≦M)個のベクトルを任意に選択し、選択した当該ベクトルを第3のベクトルap(f)(p=1,...,V)とする手順と、
前記第3のベクトルap(f)の集合をGkとし、Gk cをGkの補集合とし、D(α,β)をベクトルαとβとのマハラノビス平方距離とした場合における、
前記マスクM(f,m)と前記第1のベクトルX(f,m)との積を演算し、V個の前記信号源から発せられた信号の値を抽出する手順と、
を有することを特徴とする信号分離方法。 - N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離方法であって、
前記センサにおいて観測された観測信号値x1(t),...,xM(t)を、離散時間m・周波数f毎の周波数領域の信号値X1(f,m),...,XM(f,m)に変換する手順と、
離散時間mと周波数fとの組み合わせが同一の前記周波数領域の信号値X1(f,m),...,XM(f,m)からなる第1のベクトルX(f,m)=[X1(f,m),...,XM(f,m)]を、周波数fごとにN個ずつのクラスタCi(f)(i=1,...,N)にクラスタリングする手順と、
前記各クラスタCi(f)を代表する第2のベクトルai(f)を算出する手順と、
前記第2のベクトルai(f)からV(1≦V≦M)個のベクトルを任意に選択し、選択した当該ベクトルを第3のベクトルap(f)(p=1,...,V)とする手順と、
前記第1のベクトルX(f,m)に対し、前記第3のベクトルap(f)の集合をGkとし、Gk cをGkの補集合とし、D(α,β)をベクトルαとβとのマハラノビス平方距離とした場合における、
を有することを特徴とする信号分離方法。 - N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離方法であって、
前記センサにおいて観測された観測信号値x1(t),...,xM(t)を、離散時間m・周波数f毎の周波数領域の信号値X1(f,m),...,XM(f,m)に変換する手順と、
離散時間mと周波数fとの組み合わせが同一の前記周波数領域の信号値X1(f,m),...,XM(f,m)からなる第1のベクトルX(f,m)=[X1(f,m),...,XM(f,m)]Tを、周波数fごとにN個ずつのクラスタCi(f)(i=1,...,N)にクラスタリングする手順と、
前記各クラスタCi(f)を代表する第2のベクトルai(f)を算出する手順と、
N個の前記第2のベクトルai(f)の中の0個以上の当該第2のベクトルを0ベクトルに置換したM行N列の行列のムーア・ペンローズ型擬似逆行列であるN行M列の分離行列W(f,m)を算出する手順と、
Y(f,m)=W(f,m)X(f,m)の演算により、分離信号ベクトルY(f,m)=[Y1(f,m),...,YN(f,m)]Tを算出する手順と、
を有することを特徴とする信号分離方法。 - 請求項14記載の信号分離方法であって、
前記分離行列W(f,m)を算出する手順は、
min(M,N)個の前記第2のベクトルai(f)を選択し、選択したmin(M,N)個の前記第2のベクトルai(f)とmax(N−M,0)個の0ベクトルとを列とした行列A’(f,m)を生成し、前記行列A’(f,m)のムーア・ペンローズ型擬似逆行列を前記分離行列W(f,m)として算出する手順である、
ことを特徴とする信号分離方法。 - 請求項14記載の信号分離方法であって、
N>Mである場合における前記分離行列W(f,m)を算出する手順は、
離散時間mごとに、M個の前記第2のベクトルai(f)を選択し、前記選択したM個の前記第2のベクトルai(f)とN−M個の0ベクトルとを列とした行列A’(f,m)を生成し、前記行列A’(f,m)のムーア・ペンローズ型擬似逆行列を、時間依存の前記分離行列W(f,m)として算出する手順であり、
N≦Mである場合における前記分離行列W(f,m)を算出する手順は、
前記各クラスタCi(f)のN個の前記第2のベクトルai(f)からなる行列のムーア・ペンローズ型擬似逆行列を、時不変の前記分離行列W(f,m)として算出する手順である、
ことを特徴とする信号分離方法。 - 請求項15記載の信号分離方法であって、
前記min(M,N)個の前記第2のベクトルai(f)を選択する手順は、
第4のベクトルeを前記第1のベクトルX(f,m)で初期化した後、aq(u)(f)/‖aq(u)(f)‖と前記第4のベクトルeの内積の絶対値を最大化する前記第2のベクトルaq(u)(f)を選択し、選択済みのすべての前記第2のベクトルaq(u)(u=1,...,k)によって張られる部分空間を示す行列Q=[aq(1)(f),...,aq(k)(f)]を設定し、P=Q(QHQ)−1QHを算出し、e=X(f,m)−P・X(f,m)の演算結果によって第4のベクトルeを更新する処理をmin(M,N)回繰り返す手順である、
ことを特徴とする信号分離方法。 - N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離装置であって、
前記センサにおいて観測された観測信号値を格納する記憶部と、
前記記憶部に接続され、
前記観測信号値を、離散時間・周波数毎の周波数領域の信号値に変換する手順と、
任意に特定された2つの異なる前記センサにおいて観測された観測信号値からそれぞれ変換された前記周波数領域の信号値を用い、当該2つの前記センサ間における観測値の相対値(相対値の写像も含む)を、離散時間・周波数毎に算出する手順と、
前記相対値をN個のクラスタにクラスタリングする手順と、
前記の各クラスタの代表値を算出する手順と、
前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順と、
前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順と、
前記混合信号の値からV個の信号の値を分離抽出する手順と、を実行するプロセッサと、
を有し、
前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順は、
前記の各クラスタの代表値から任意にV個の代表値を選択する手順と、
前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとる関数である前記マスクを生成する手順と、を含み、
前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順は、
前記周波数領域の信号値に前記マスクを乗じる手順を含む、
ことを特徴とする信号分離装置。 - N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離装置であって、
前記センサにおいて観測された観測信号値を格納する記憶部と、
前記記憶部に接続され、
前記観測信号値を、離散時間・周波数毎の周波数領域の信号値に変換する手順と、
任意に特定された2つの異なる前記センサにおいて観測された観測信号値からそれぞれ変換された前記周波数領域の信号値を用い、当該2つの前記センサ間における観測値の相対値(相対値の写像も含む)を、離散時間・周波数毎に算出する手順と、
前記相対値をN個のクラスタにクラスタリングする手順と、
前記の各クラスタの代表値を算出する手順と、
前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順と、
前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順と、
前記混合信号の値からV個の信号の値を分離抽出する手順と、を実行するプロセッサと、
を有し、
前記代表値を用い、前記周波数領域の信号値から、V(2≦V≦M)個の信号源から発せられた信号から成る混合信号の値を抽出するためのマスクを作成する手順は、
前記の各クラスタの代表値から任意にV個の代表値を選択する手順と、
前記V個の前記代表値を含む所定の範囲内にある前記相対値に対してローレベル値をとり、前記所定の範囲内にない前記代表値に対してハイレベル値をとる関数である前記マスクを生成する手順と、を含み、
前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手順は、
前記周波数領域の信号値に前記マスクを乗じた値を、前記周波数領域の信号の値から減算する手順を含む、
ことを特徴とする信号分離装置。 - N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離装置であって、
前記センサにおいて観測された観測信号値を格納する記憶部と、
前記記憶部に接続され、
前記観測信号値を、離散時間・周波数毎の周波数領域の信号値に変換する手順と、
任意に特定された2つの異なる前記センサにおいて観測された観測信号値からそれぞれ変換された前記周波数領域の信号値を用い、当該2つの前記センサ間における観測値の相対値(相対値の写像も含む)を、離散時間・周波数毎に算出する手順と、
前記相対値をN個のクラスタにクラスタリングする手順と、
前記の各クラスタの代表値を算出する手順と、
前記の各クラスタの代表値から任意に1個の代表値を選択する手順と、
前記1個の代表値を含む所定の範囲内にある前記相対値に対してハイレベル値をとり、前記所定の範囲内にない前記代表値に対してローレベル値をとり、前記相対値の変化に伴う当該ハイレベル値から当該ローレベル値への推移が連続的な関数であるマスクを作成する手順と、
前記周波数領域の信号値に前記マスクを乗じ、1個の信号源から発せられた信号の値を抽出する手順と、を実行するプロセッサと、
を有することを特徴とする信号分離装置。 - N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離装置であって、
前記センサにおいて観測された観測信号値x1(t),...,xM(t)を格納する記憶部と、
前記記憶部に接続され、
前記観測信号値x1(t),...,xM(t)を、離散時間m・周波数f毎の周波数領域の信号値X1(f,m),...,XM(f,m)に変換する手順と、
離散時間mと周波数fとの組み合わせが同一の前記周波数領域の信号値X1(f,m),...,XM(f,m)からなる第1のベクトルX(f,m)=[X1(f,m),...,XM(f,m)]を、周波数fごとにN個ずつのクラスタCi(f)(i=1,...,N)にクラスタリングする手順と、
前記各クラスタCi(f)を代表する第2のベクトルai(f)を算出する手順と、
前記第2のベクトルai(f)からV(1≦V≦M)個のベクトルを任意に選択し、選択した当該ベクトルを第3のベクトルap(f)(p=1,...,V)とする手順と、
前記第3のベクトルap(f)の集合をGkとし、Gk cをGkの補集合とし、D(α,β)をベクトルαとβとのマハラノビス平方距離とした場合における、
前記マスクM(f,m)と前記第1のベクトルX(f,m)との積を演算し、V個の前記信号源から発せられた信号の値を抽出する手順と、を実行するプロセッサと、
を有することを特徴とする信号分離装置。 - N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離装置であって、
前記センサにおいて観測された観測信号値x1(t),...,xM(t)を格納する記憶部と、
前記記憶部に接続され、
前記観測信号値x1(t),...,xM(t)を、離散時間m・周波数f毎の周波数領域の信号値X1(f,m),...,XM(f,m)に変換する手順と、
離散時間mと周波数fとの組み合わせが同一の前記周波数領域の信号値X1(f,m),...,XM(f,m)からなる第1のベクトルX(f,m)=[X1(f,m),...,XM(f,m)]を、周波数fごとにN個ずつのクラスタCi(f)(i=1,...,N)にクラスタリングする手順と、
前記各クラスタCi(f)を代表する第2のベクトルai(f)を算出する手順と、
前記第2のベクトルai(f)からV(1≦V≦M)個のベクトルを任意に選択し、選択した当該ベクトルを第3のベクトルap(f)(p=1,...,V)とする手順と、
前記第1のベクトルX(f,m)に対し、前記第3のベクトルap(f)の集合をGkとし、Gk cをGkの補集合とし、D(α,β)をベクトルαとβとのマハラノビス平方距離とした場合における、
を有することを特徴とする信号分離装置。 - N(N≧2)個の信号が混合し、M個のセンサで観測された状況において信号の分離抽出を行う信号分離装置であって、
前記センサにおいて観測された観測信号値x1(t),...,xM(t)を格納する記憶部と、
前記記憶部に接続され、
前記観測信号値x1(t),...,xM(t)を、離散時間m・周波数f毎の周波数領域の信号値X1(f,m),...,XM(f,m)に変換する手順と、
離散時間mと周波数fとの組み合わせが同一の前記周波数領域の信号値X1(f,m),...,XM(f,m)からなる第1のベクトルX(f,m)=[X1(f,m),...,XM(f,m)]Tを、周波数fごとにN個ずつのクラスタCi(f)(i=1,...,N)にクラスタリングする手順と、
前記各クラスタCi(f)を代表する第2のベクトルai(f)を算出する手順と、
N個の前記第2のベクトルai(f)の中の0個以上の当該第2のベクトルを0ベクトルに置換したM行N列の行列のムーア・ペンローズ型擬似逆行列であるN行M列の分離行列W(f,m)を算出する手順と、
Y(f,m)=W(f,m)X(f,m)の演算により、分離信号ベクトルY(f,m)=[Y1(f,m),...,YN(f,m)]Tを算出する手順と、を実行するプロセッサと、
を有することを特徴とする信号分離装置。 - 請求項1から19の何れかに記載の信号分離方法の手順をコンピュータに実行させるための信号分離プログラム。
- 請求項26に記載の信号分離プログラムを格納したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003309720 | 2003-09-02 | ||
JP2003309720 | 2003-09-02 | ||
JP2004195867 | 2004-07-01 | ||
JP2004195818 | 2004-07-01 | ||
JP2004195818 | 2004-07-01 | ||
JP2004195867 | 2004-07-01 | ||
PCT/JP2004/012629 WO2005024788A1 (ja) | 2003-09-02 | 2004-09-01 | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2005024788A1 JPWO2005024788A1 (ja) | 2006-11-09 |
JP3949150B2 true JP3949150B2 (ja) | 2007-07-25 |
Family
ID=34279554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005513646A Expired - Fee Related JP3949150B2 (ja) | 2003-09-02 | 2004-09-01 | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7496482B2 (ja) |
EP (2) | EP1662485B1 (ja) |
JP (1) | JP3949150B2 (ja) |
DE (2) | DE602004027774D1 (ja) |
WO (1) | WO2005024788A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2010092913A1 (ja) * | 2009-02-13 | 2012-08-16 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
JPWO2010092915A1 (ja) * | 2009-02-13 | 2012-08-16 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
JP2013186383A (ja) * | 2012-03-09 | 2013-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置、音源分離方法、およびプログラム |
US9418678B2 (en) | 2009-07-22 | 2016-08-16 | Sony Corporation | Sound processing device, sound processing method, and program |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1752969A4 (en) * | 2005-02-08 | 2007-07-11 | Nippon Telegraph & Telephone | SIGNAL SEPARATION DEVICE, SIGNAL SEPARATION METHOD, SIGNAL SEPARATION PROGRAM, AND RECORDING MEDIUM |
US20080262834A1 (en) * | 2005-02-25 | 2008-10-23 | Kensaku Obata | Sound Separating Device, Sound Separating Method, Sound Separating Program, and Computer-Readable Recording Medium |
JP4653674B2 (ja) * | 2005-04-28 | 2011-03-16 | 日本電信電話株式会社 | 信号分離装置、信号分離方法、そのプログラムおよび記録媒体 |
WO2006131959A1 (ja) * | 2005-06-06 | 2006-12-14 | Saga University | 信号分離装置 |
JP2007034184A (ja) * | 2005-07-29 | 2007-02-08 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
US7472041B2 (en) * | 2005-08-26 | 2008-12-30 | Step Communications Corporation | Method and apparatus for accommodating device and/or signal mismatch in a sensor array |
US20070083365A1 (en) * | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
AU2006323242B2 (en) * | 2005-12-05 | 2010-08-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Echo detection |
JP4496186B2 (ja) * | 2006-01-23 | 2010-07-07 | 株式会社神戸製鋼所 | 音源分離装置、音源分離プログラム及び音源分離方法 |
JP2009529699A (ja) * | 2006-03-01 | 2009-08-20 | ソフトマックス,インコーポレイテッド | 分離信号を生成するシステムおよび方法 |
JP4650891B2 (ja) * | 2006-03-06 | 2011-03-16 | 三菱電機株式会社 | 信号分離方法およびその方法を使用した信号分離装置 |
JP2007295085A (ja) * | 2006-04-21 | 2007-11-08 | Kobe Steel Ltd | 音源分離装置及び音源分離方法 |
WO2007127313A2 (en) * | 2006-04-27 | 2007-11-08 | Interdigital Technology Corporation | Method and apparatus for performing blind signal separation in an ofdm mimo system |
JP2008052117A (ja) * | 2006-08-25 | 2008-03-06 | Oki Electric Ind Co Ltd | 雑音除去装置、方法及びプログラム |
JP4849404B2 (ja) * | 2006-11-27 | 2012-01-11 | 株式会社メガチップス | 信号処理装置、信号処理方法およびプログラム |
WO2008072566A1 (ja) * | 2006-12-12 | 2008-06-19 | Nec Corporation | 信号分離再生装置および信号分離再生方法 |
JP4746533B2 (ja) * | 2006-12-21 | 2011-08-10 | 日本電信電話株式会社 | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 |
JP4891801B2 (ja) * | 2007-02-20 | 2012-03-07 | 日本電信電話株式会社 | 多信号強調装置、方法、プログラム及びその記録媒体 |
JP4897519B2 (ja) * | 2007-03-05 | 2012-03-14 | 株式会社神戸製鋼所 | 音源分離装置,音源分離プログラム及び音源分離方法 |
JP4787777B2 (ja) * | 2007-03-13 | 2011-10-05 | 日本電信電話株式会社 | 信号分離装置、信号分離方法、信号分離プログラム、記録媒体 |
US8131542B2 (en) * | 2007-06-08 | 2012-03-06 | Honda Motor Co., Ltd. | Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function |
US7987090B2 (en) * | 2007-08-09 | 2011-07-26 | Honda Motor Co., Ltd. | Sound-source separation system |
US8175871B2 (en) * | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
US8223988B2 (en) * | 2008-01-29 | 2012-07-17 | Qualcomm Incorporated | Enhanced blind source separation algorithm for highly correlated mixtures |
US8755469B1 (en) * | 2008-04-15 | 2014-06-17 | The United States Of America, As Represented By The Secretary Of The Army | Method of spectrum mapping and exploitation using distributed sensors |
US8321214B2 (en) * | 2008-06-02 | 2012-11-27 | Qualcomm Incorporated | Systems, methods, and apparatus for multichannel signal amplitude balancing |
US20110112843A1 (en) * | 2008-07-11 | 2011-05-12 | Nec Corporation | Signal analyzing device, signal control device, and method and program therefor |
US8724829B2 (en) * | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
JP5277887B2 (ja) * | 2008-11-14 | 2013-08-28 | ヤマハ株式会社 | 信号処理装置およびプログラム |
WO2010058230A2 (en) * | 2008-11-24 | 2010-05-27 | Institut Rudjer Boskovic | Method of and system for blind extraction of more than two pure components out of spectroscopic or spectrometric measurements of only two mixtures by means of sparse component analysis |
JP5233772B2 (ja) * | 2009-03-18 | 2013-07-10 | ヤマハ株式会社 | 信号処理装置およびプログラム |
US8620672B2 (en) | 2009-06-09 | 2013-12-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal |
US20110058676A1 (en) * | 2009-09-07 | 2011-03-10 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal |
EP2476008B1 (en) * | 2009-09-10 | 2015-04-29 | Rudjer Boskovic Institute | Underdetermined blind extraction of components from mixtures in 1d and 2d nmr spectroscopy and mass spectrometry by means of combined sparse component analysis and detection of single component points |
KR101612704B1 (ko) * | 2009-10-30 | 2016-04-18 | 삼성전자 주식회사 | 다중음원 위치 추적장치 및 그 방법 |
JP5299233B2 (ja) * | 2009-11-20 | 2013-09-25 | ソニー株式会社 | 信号処理装置、および信号処理方法、並びにプログラム |
KR101419377B1 (ko) * | 2009-12-18 | 2014-07-15 | 배재대학교 산학협력단 | 암묵신호 분리 방법 및 이를 수행하는 장치 |
US8521477B2 (en) * | 2009-12-18 | 2013-08-27 | Electronics And Telecommunications Research Institute | Method for separating blind signal and apparatus for performing the same |
US8897455B2 (en) * | 2010-02-18 | 2014-11-25 | Qualcomm Incorporated | Microphone array subset selection for robust noise reduction |
WO2012105385A1 (ja) * | 2011-02-01 | 2012-08-09 | 日本電気株式会社 | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム |
US9245539B2 (en) | 2011-02-01 | 2016-01-26 | Nec Corporation | Voiced sound interval detection device, voiced sound interval detection method and voiced sound interval detection program |
JP6057368B2 (ja) * | 2012-10-11 | 2017-01-11 | 独立行政法人国立高等専門学校機構 | 信号処理方法、装置、プログラム、およびプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP6253226B2 (ja) * | 2012-10-29 | 2017-12-27 | 三菱電機株式会社 | 音源分離装置 |
JP6059072B2 (ja) * | 2013-04-24 | 2017-01-11 | 日本電信電話株式会社 | モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム |
JP2015135318A (ja) | 2013-12-17 | 2015-07-27 | キヤノン株式会社 | データ処理装置、データ表示システム、試料データ取得システム、及びデータ処理方法 |
DE102015203003A1 (de) * | 2015-02-19 | 2016-08-25 | Robert Bosch Gmbh | Batteriespeichersystem mit unterschiedlichen Zelltypen |
US10991362B2 (en) * | 2015-03-18 | 2021-04-27 | Industry-University Cooperation Foundation Sogang University | Online target-speech extraction method based on auxiliary function for robust automatic speech recognition |
US11694707B2 (en) | 2015-03-18 | 2023-07-04 | Industry-University Cooperation Foundation Sogang University | Online target-speech extraction method based on auxiliary function for robust automatic speech recognition |
US10725174B2 (en) * | 2015-08-24 | 2020-07-28 | Hifi Engineering Inc. | Method and system for determining the distance to an acoustically reflective object in a conduit |
CN105352998B (zh) * | 2015-11-17 | 2017-12-26 | 电子科技大学 | 脉冲涡流红外热图像的独立成分个数确定方法 |
CN109285557B (zh) * | 2017-07-19 | 2022-11-01 | 杭州海康威视数字技术股份有限公司 | 一种定向拾音方法、装置及电子设备 |
US20190278551A1 (en) * | 2018-03-06 | 2019-09-12 | Silicon Video Systems, Inc. | Variable layout module |
CN110491410B (zh) * | 2019-04-12 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及相关设备 |
CN115810364B (zh) * | 2023-02-07 | 2023-04-28 | 海纳科德(湖北)科技有限公司 | 混音环境中的端到端目标声信号提取方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3480477B2 (ja) * | 1995-07-26 | 2003-12-22 | ソニー株式会社 | 動き検出回路および動き検出方法、並びに輝度・色信号分離装置 |
JPH1084284A (ja) * | 1996-09-06 | 1998-03-31 | Sony Corp | 信号再生方法および装置 |
US6954494B2 (en) * | 2001-10-25 | 2005-10-11 | Siemens Corporate Research, Inc. | Online blind source separation |
JP3975153B2 (ja) | 2002-10-28 | 2007-09-12 | 日本電信電話株式会社 | ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体 |
-
2004
- 2004-09-01 DE DE602004027774T patent/DE602004027774D1/de active Active
- 2004-09-01 EP EP04772585A patent/EP1662485B1/en not_active Expired - Fee Related
- 2004-09-01 DE DE602004022175T patent/DE602004022175D1/de active Active
- 2004-09-01 US US10/539,609 patent/US7496482B2/en not_active Expired - Fee Related
- 2004-09-01 JP JP2005513646A patent/JP3949150B2/ja not_active Expired - Fee Related
- 2004-09-01 EP EP09004195A patent/EP2068308B1/en not_active Expired - Fee Related
- 2004-09-01 WO PCT/JP2004/012629 patent/WO2005024788A1/ja active Application Filing
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2010092913A1 (ja) * | 2009-02-13 | 2012-08-16 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
JPWO2010092915A1 (ja) * | 2009-02-13 | 2012-08-16 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
JP5605573B2 (ja) * | 2009-02-13 | 2014-10-15 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
JP5605575B2 (ja) * | 2009-02-13 | 2014-10-15 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
US9418678B2 (en) | 2009-07-22 | 2016-08-16 | Sony Corporation | Sound processing device, sound processing method, and program |
JP2013186383A (ja) * | 2012-03-09 | 2013-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置、音源分離方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP1662485A4 (en) | 2008-01-23 |
US20060058983A1 (en) | 2006-03-16 |
DE602004022175D1 (de) | 2009-09-03 |
WO2005024788A9 (ja) | 2007-05-18 |
DE602004027774D1 (de) | 2010-07-29 |
EP2068308A2 (en) | 2009-06-10 |
EP1662485B1 (en) | 2009-07-22 |
WO2005024788A1 (ja) | 2005-03-17 |
EP2068308A3 (en) | 2009-07-08 |
US7496482B2 (en) | 2009-02-24 |
JPWO2005024788A1 (ja) | 2006-11-09 |
EP1662485A1 (en) | 2006-05-31 |
EP2068308B1 (en) | 2010-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3949150B2 (ja) | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 | |
EP3479377B1 (en) | Speech recognition | |
US20080215651A1 (en) | Signal Separation Device, Signal Separation Method, Signal Separation Program and Recording Medium | |
US9971012B2 (en) | Sound direction estimation device, sound direction estimation method, and sound direction estimation program | |
US10390130B2 (en) | Sound processing apparatus and sound processing method | |
Leonid et al. | Retracted article: statistical–model based voice activity identification for human-elephant conflict mitigation | |
US11120819B2 (en) | Voice extraction device, voice extraction method, and non-transitory computer readable storage medium | |
Koluguri et al. | Spectrogram enhancement using multiple window Savitzky-Golay (MWSG) filter for robust bird sound detection | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
Ma et al. | Underdetermined blind source separation based on source number estimation and improved sparse component analysis | |
JP2009053349A (ja) | 信号分離装置、信号分離方法、プログラム及び記録媒体 | |
JP2014021315A (ja) | 音源分離定位装置、方法、及びプログラム | |
JP6570673B2 (ja) | 音声抽出装置、音声抽出方法および音声抽出プログラム | |
JP4630203B2 (ja) | 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体、並びに、信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体 | |
Arberet et al. | A tractable framework for estimating and combining spectral source models for audio source separation | |
JP2013186383A (ja) | 音源分離装置、音源分離方法、およびプログラム | |
WO2020184210A1 (ja) | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム | |
Cipli et al. | Multi-class acoustic event classification of hydrophone data | |
US11297418B2 (en) | Acoustic signal separation apparatus, learning apparatus, method, and program thereof | |
JP6114053B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP6911930B2 (ja) | 信号処理装置、信号処理方法およびプログラム | |
Mirzaei et al. | Two‐stage blind audio source counting and separation of stereo instantaneous mixtures using Bayesian tensor factorisation | |
JP4676920B2 (ja) | 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体 | |
Ali et al. | The identification and localization of speaker using fusion techniques and machine learning techniques | |
JP6915579B2 (ja) | 信号分析装置、信号分析方法および信号分析プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070109 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20070301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070410 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070417 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100427 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110427 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120427 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130427 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140427 Year of fee payment: 7 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |