JP2003271168A - Method, device and program for extracting signal, and recording medium recorded with the program - Google Patents
Method, device and program for extracting signal, and recording medium recorded with the programInfo
- Publication number
- JP2003271168A JP2003271168A JP2002072111A JP2002072111A JP2003271168A JP 2003271168 A JP2003271168 A JP 2003271168A JP 2002072111 A JP2002072111 A JP 2002072111A JP 2002072111 A JP2002072111 A JP 2002072111A JP 2003271168 A JP2003271168 A JP 2003271168A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- band
- subband
- signals
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
Description
【0001】[0001]
【発明の属する技術分野】この発明は、信号抽出方法お
よび信号抽出装置、信号抽出プログラムとそのプログラ
ムを記録した記録媒体に関し、特に、観測したい原信号
は直接観測することはできずにノイズその他の信号が重
畳した状態で観測されるという状況下において、観測し
たい原信号を推定する技術であり、例えば音声認識装置
の入力マイクロホンと話者とが隔離してマイクロホンに
目的話者音声以外の音まで収音される様な状況下におい
ても目的話者音声を抽出して認識率の高い音声認識を実
施することができる信号抽出方法および信号抽出装置、
信号抽出プログラムとそのプログラムを記録した記録媒
体に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a signal extracting method, a signal extracting device, a signal extracting program and a recording medium having the program recorded therein. In particular, an original signal to be observed cannot be directly observed and noise and other Under the condition that signals are observed in a superposed state, it is a technology that estimates the original signal to be observed. A signal extracting method and a signal extracting apparatus capable of extracting a target speaker's voice and performing voice recognition with a high recognition rate even in a situation where sound is picked up,
The present invention relates to a signal extraction program and a recording medium recording the program.
【0002】[0002]
【従来の技術】原信号および混合過程の知識を全く使用
することなしに複数の線形混合された信号を推定する問
題はブラインド音源分離(Blind Source Separation:
BSS)と称されるが、この出願の発明もこのブライン
ド音源分離技術に属する。信号相互間の統計的独立性に
基づいて線形混合された信号を分離する技術は、独立成
分分析(Independent Component Analysis:ICA)と称
される。実音場における収音の如く、信号に録音装置の
インパルス応答が畳み込まれた状態で線形混合された信
号は、The problem of estimating multiple linearly mixed signals without using any knowledge of the original signal and the mixing process is the Blind Source Separation:
BSS), but the invention of this application also belongs to this blind sound source separation technology. The technique of separating linearly mixed signals based on the statistical independence between the signals is called Independent Component Analysis (ICA). A signal that is linearly mixed with the impulse response of the recording device convoluted into the signal, like a sound pickup in a real sound field,
【0003】[0003]
【数1】 [Equation 1]
【0004】の如くに表現される。ここで、
xj:センサjで観測される信号
si:信号源iの信号
hji:信号源iからマイクロホンjヘのPタップのイン
パルス応答(線形システム)
である。ブラインド音源分離を実用とする場合、インパ
ルス応答長Pは大きいことが多い。例えば、実環境にお
いて観測した混合音声の場合、残響が音声に畳み込まれ
ることになる。150〜300ms程度の一般の会議室
程度の残響時間でも、インパルス応答長Pが数千という
長さになる。It is expressed as follows. Here, x j : signal s i observed by sensor j : signal h ji of signal source i: impulse response (linear system) of P tap from signal source i to microphone j. When the blind sound source separation is practically used, the impulse response length P is often large. For example, in the case of mixed speech observed in a real environment, reverberation will be convoluted with the speech. Even in the reverberation time of a general conference room of about 150 to 300 ms, the impulse response length P is as long as several thousand.
【0005】独立成分分析においては、N個の信号源か
ら発せられる信号は統計的に互いに独立であると仮定
し、式(1)の形で得られる観測信号と長さがQタップ
の分離フィルタ群wijより成る分離系を使用して分離抽
出する。この分離フィルタ群w ijを使用して、分離抽出
して得られる信号yi(n)は、In independent component analysis, there are N signal sources.
The signals emitted from them are assumed to be statistically independent of each other
However, the observation signal obtained in the form of equation (1) and the length are Q taps.
Separation filter group wijUsing a separation system consisting of
Put out. This separation filter group w ijSeparation extraction using
Signal y obtained byi(N) is
【0006】[0006]
【数2】 [Equation 2]
【0007】と表現される。図1は以上の混合分離過程
をN=M=2の場合について説明する図である。分離系
は、或る学習則
wij k+1=wij k+△wij k (3)
を使用して出力yiを互いに独立にするように推定す
る。kは学習更新回数を示す。この問題は畳み込み混合
という複雑な問題であるので、分離フィルタ群を直接求
めることは難しい。そこで、離散フーリエ変換(DF
T)により周波数領域へ変換する方法がよく採用され
る。これを、周波数領域ブラインド音源分離(周波数領
域BBS)と称す。先ず、式(1)をDFTにより周波数
領域へ変換する。It is expressed as FIG. 1 is a diagram for explaining the above mixing and separating process when N = M = 2. The separating system estimates the outputs y i to be independent of each other using some learning rule w ij k + 1 = w ij k + Δw ij k (3). k indicates the number of learning updates. Since this problem is a complicated problem of convolutional mixing, it is difficult to directly obtain the separation filter group. Therefore, the discrete Fourier transform (DF
The method of converting to the frequency domain by T) is often adopted. This is called frequency domain blind source separation (frequency domain BBS). First, the equation (1) is transformed into the frequency domain by DFT.
【0008】
X(ω、m)=H(ω)S(ω、m) (4)
これにより、畳み込み混合問題を各周波数における瞬時
混合問題として表現し、問題を簡単化することができ
る。以上の様にして、分離過程の推定は各周波数におい
て出力信号Y1(ω、m)、Y2(ω、m)が互いに独立と
なる様に、N=M=2の場合は(2×2)の分離行列
W(ω)を推定すればよくなる。
Y(ω、m)=W(ω)X(ω、m) (5)
実環境の如くインパルス応答長Pが大きい残響時間が1
50〜300ms以上程度の場合、これと同程度の長さ
を有する分離フィルタを求める必要がある。従って、周
波数領域BSSにおいて分離行列W(ω)を求める場
合、部屋のインパルス応答長Pより長いフレームTを使
用してDFT分析を行い、周波数ビンの数を増やす必要
がある。しかし、決められた長さの学習データを、長い
フレームを使用して分析すると、各周波数におけるデー
タの数が少なくなり、各周波数においてデータの統計的
性質が悪化する。X (ω, m) = H (ω) S (ω, m) (4) Thus, the convolutional mixing problem can be expressed as an instantaneous mixing problem at each frequency, and the problem can be simplified. As described above, the estimation of the separation process is performed so that the output signals Y 1 (ω, m) and Y 2 (ω, m) are independent of each other at each frequency. It suffices to estimate the separation matrix W (ω) of 2). Y (ω, m) = W (ω) X (ω, m) (5) The reverberation time is 1 with a large impulse response length P as in a real environment.
In the case of about 50 to 300 ms or more, it is necessary to find a separation filter having a length comparable to this. Therefore, when obtaining the separation matrix W (ω) in the frequency domain BSS, it is necessary to perform the DFT analysis using the frame T longer than the impulse response length P of the room to increase the number of frequency bins. However, when the learning data of a fixed length is analyzed using a long frame, the number of data at each frequency is reduced, and the statistical property of the data is deteriorated at each frequency.
【0009】図2を参照してこれについて説明する。フ
レーム長が短い図2(a)の場合、各周波数におけるデ
ータ数が充分であるので、各周波数において統計的性質
は充分に保証される。しかし、推定することができる分
離フィルタの長さは短く、不充分なものとなる。一方、
フレーム長が長い図2(b)の場合、長い分離フィルタ
を準備することができるが、各周波数におけるデータ数
が少ないところから、データの統計的性質は悪化する。
統計的性質が悪化するという問題を図3を参照して説明
する。This will be described with reference to FIG. In the case of FIG. 2A where the frame length is short, the number of data at each frequency is sufficient, so that the statistical properties are sufficiently guaranteed at each frequency. However, the length of the separation filter that can be estimated is short, which is insufficient. on the other hand,
In the case of FIG. 2B where the frame length is long, a long separation filter can be prepared, but the statistical property of the data deteriorates because the number of data at each frequency is small.
The problem that the statistical properties deteriorate will be described with reference to FIG.
【0010】図3は相関係数γω(ωは添え字)を全て
の周波数で求め平均したIn FIG. 3, the correlation coefficient γω (ω is a subscript) is calculated at all frequencies and averaged.
【0011】[0011]
【数3】 [Equation 3]
【0012】を示している。フレーム長Tが大きい時
に、信号間の相関が高くなり、独立成分分析に必要な独
立性の仮定が崩れていることが分かる。この様に、周波
数領域BSSは、部屋のインパルス応答長Pより長いフ
レームTを使用してDFT分析し、周波数ビンの数を増
加する必要があるが、そうすると、各周波数においてデ
ータの統計的性質が悪化するので分離が困難になる。[0012] is shown. It can be seen that when the frame length T is large, the correlation between signals becomes high and the assumption of independence necessary for independent component analysis is broken. Thus, in the frequency domain BSS, it is necessary to perform the DFT analysis using the frame T longer than the impulse response length P of the room and increase the number of frequency bins. Separation becomes difficult because it deteriorates.
【0013】[0013]
【発明が解決しようとする課題】従来の周波数領域BS
Sにおいては、長い残響に対応する大きなフレーム長T
を使用した時に信号間の相関が高くなり、独立成分分析
に必要な独立性の仮定が崩れて高い性能が得られなかっ
た。そこで、この発明は、特にインパルス応答長Pが大
きい数千の場合のBSSにおいて、複数の混合信号をサ
ブバンド分析合成して原信号に対応する出力信号を求め
る構成を採用して各帯域で信号の独立性の仮定を保持し
たまま、分離に充分な長さの分離フィルタを推定する信
号抽出方法および信号抽出装置、信号抽出プログラムと
そのプログラムを記録した記録媒体を提供するものであ
る。Conventional frequency domain BS
At S, a large frame length T corresponding to long reverberation
When using, the correlation between signals became high, and the assumption of independence necessary for independent component analysis collapsed, and high performance could not be obtained. Therefore, the present invention adopts a configuration in which a mixed signal of a plurality of mixed signals is subjected to subband analysis and synthesis to obtain an output signal corresponding to an original signal in a BSS having a large impulse response length P of several thousand, and a signal in each band is adopted. The present invention provides a signal extraction method and a signal extraction device for estimating a separation filter having a sufficient length for separation while maintaining the independence assumption of (1), a signal extraction program, and a recording medium recording the program.
【0014】[0014]
【課題を解決するための手段】長いインパルス応答を有
する経路を介して観測される複数の混合信号から原信号
をその独立性に基づいて分離抽出する信号抽出方法にお
いて、複数の混合信号をサブバンド分析部に入力してそ
れぞれN個(N:整数)の帯域にサブバンド分析し、サ
ブバンド分析された各帯域の信号を対応する帯域の時間
領域BSS部に入力して各帯域毎に音源分離し、音源分
離した信号をサブバンド合成部に入力して原信号に対応
する出力信号を求める信号抽出方法を構成した。In a signal extraction method for separating and extracting an original signal based on its independence from a plurality of mixed signals observed through a path having a long impulse response, the plurality of mixed signals are subbanded. The signals are input to the analysis unit and subband-analyzed into N (N: integer) bands, and the signals of each band subjected to the subband analysis are input to the time-domain BSS unit of the corresponding band to separate the sound sources for each band. Then, a signal extraction method for obtaining the output signal corresponding to the original signal by inputting the source-separated signal to the subband synthesis unit was constructed.
【0015】そして、長いインパルス応答を有する経路
を介して観測される複数の混合信号から原信号をその独
立性に基づいて分離抽出する信号抽出装置において、複
数の混合信号を入力してそれぞれN個(N:整数)の帯
域に分析するサブバンド分析部を具備し、サブバンド分
析された各帯域の信号毎に音源分離する時間領域BSS
部を具備し、音原分離した信号を入力して原信号に対応
する出力信号を求めるサブバンド合成部を具備する信号
抽出装置を構成した。ここで、複数の混合信号をそれぞ
れN個(N:整数)の帯域にサブバンド分析し、サブバ
ンド分析された各帯域の信号を帯域毎に音源分離し、各
帯域に音源分離した信号から原信号に対応する出力信号
を求める、ことを実行させる信号抽出プログラムを構成
した。Then, in a signal extracting device for separating and extracting an original signal from a plurality of mixed signals observed through a path having a long impulse response on the basis of their independence, a plurality of mixed signals are input to each of N signals. A time domain BSS that includes a subband analysis unit that analyzes (N: integer) bands and separates sound sources for each signal in each band subjected to subband analysis.
A signal extraction device having a subband synthesizing unit for inputting a signal separated from a sound source and obtaining an output signal corresponding to the original signal is configured. Here, each of the plurality of mixed signals is subband-analyzed into N (N: integer) bands, the signals of each band subjected to the subband analysis are separated into sound sources for each band, and the original signals are extracted from the signals separated in each band. A signal extraction program was constructed to execute the calculation of the output signal corresponding to the signal.
【0016】そして、複数の混合信号をそれぞれN個
(N:整数)の帯域にサブバンド分析し、サブバンド分
析された各帯域の信号を帯域毎に音源分離し、各帯域に
音源分離した信号から原信号に対応する出力信号を求め
る、ことを実行させる信号抽出プログラムを記録した記
録媒体を構成した。Then, the plurality of mixed signals are subband-analyzed into N (N: integer) bands, the subband-analyzed signals of each band are separated into sound sources for each band, and the sound source is separated into each band. A recording medium having a signal extraction program for executing the operation of obtaining an output signal corresponding to the original signal is constructed.
【0017】[0017]
【発明の実施の形態】この発明は、サブバンド分析を利
用し、各帯域で信号分離を行う。これをサブバンドBS
Sと称す。サブバンドBSSは分割するサブバンドの個
数を自由に選ぶことができるので、図2(c)に示され
る如く各サブバンドで統計的性質を充分満足する帯域分
割数を選定することができる。そして、周波数領域BS
Sは各周波数で1タップのフィルタしか推定することが
できなかったが、サブバンドBSSは図2(c)に示さ
れる如く、各帯域毎に長いフィルタを持たせることがで
きるところから、分割数が少なくてもフルバンドで見た
ときに充分に長いフィルタを推定することができる。BEST MODE FOR CARRYING OUT THE INVENTION The present invention utilizes subband analysis to perform signal separation in each band. This is a sub band BS
It is called S. Since the subband BSS can freely select the number of subbands to be divided, as shown in FIG. 2C, it is possible to select the number of band divisions that sufficiently satisfies the statistical properties of each subband. And frequency domain BS
S was able to estimate only a 1-tap filter at each frequency, but subband BSS can have a long filter for each band as shown in FIG. It is possible to estimate a sufficiently long filter when viewed in the full band even if there are few.
【0018】以上の2点により、サブバンドBSSを使
用して、インパルス応答長Pが長い場合でも各帯域での
データの統計的性質を保持しながら残響に対応すること
ができる長い分離フィルタを推定することができる。From the above two points, the subband BSS is used to estimate a long separation filter capable of coping with reverberation while maintaining the statistical property of data in each band even when the impulse response length P is long. can do.
【0019】[0019]
【実施例】この発明の実施の形態を図4の実施例を参照
して説明する。図4はサブバンドBSSの全体を示す図
である。
(1)サブバンド分析過程
先ず、入力された観測信号x1(n)、x2(n)は、サブ
バンド分析部511、512にそれぞれ入力してサブバン
ド分析される。
(2)音源分離過程
次いで、観測信号x1(n)、x2(n)の各帯域にサブバ
ンド分析された信号の成分は、帯域分割数をNとして、
対応するそれぞれの帯域の時間領域BSS部531、・・・
・、53Nに入力して音源分離される。Embodiments of the present invention will be described with reference to the embodiment of FIG. FIG. 4 is a diagram showing the entire subband BSS. (1) Subband analysis process First, the input observed signals x 1 (n) and x 2 (n) are input to the subband analysis units 51 1 and 51 2 , respectively, and subband analyzed. (2) Sound source separation process Next, the component of the signal subjected to the subband analysis in each band of the observed signals x 1 (n) and x 2 (n) has the number of band divisions as N,
Time domain BSS units 53 1 , ...
Input to 53 N to separate sound sources.
【0020】(3)サブバンド合成過程
最後に、各帯域に分離した信号の成分を、各時間領域B
SS部531、・・・・・、53N からサブバンド合成部55
1、552に入力して信号s1(n)、s2(n)に対応する信
号y1、y2が合成、出力される。上述した通り、長いイ
ンパルス応答を有する経路を介して観測される複数の混
合信号から原信号をその独立性に基づいて分離抽出する
この発明による信号抽出装置は、複数の混合信号を入力
してそれぞれN個(N:整数)の帯域に分析するサブバ
ンド分析部51と、サブバンド分析された各帯域の信号
毎に音源分離する時間領域BSS部53と、音原分離し
た信号を入力して原信号に対応する出力信号を求めるサ
ブバンド合成部55とにより構成される。(3) Sub-band synthesis process Finally, the signal components separated into each band are divided into each time domain B
From SS section 53 1 , ..., 53 N to subband synthesis section 55
The signals y 1 and y 2 corresponding to the signals s 1 (n) and s 2 (n) are synthesized and output by inputting to 1 and 55 2 . As described above, the signal extraction device according to the present invention, which separates and extracts the original signal based on its independence from a plurality of mixed signals observed via a path having a long impulse response, inputs a plurality of mixed signals and A sub-band analysis unit 51 that analyzes N (N: integer) bands, a time-domain BSS unit 53 that separates sound sources for each signal of each band subjected to sub-band analysis, and a signal that has been subjected to sound source separation as input And a subband synthesis unit 55 for obtaining an output signal corresponding to the signal.
【0021】次に、図5を参照して詳細に説明するに、
最初に、サブバンド分析過程について説明する。(1)
サブバンド分析過程は、サブバンド分析部511および5
12とSSB変調部521および522とにより構成され
ている。帯域分割数をN、間引率をMとすると、x
j(n)のk番目の帯域における間引後の信号はNext, referring to FIG. 5, in detail,
First, the subband analysis process will be described. (1)
The subband analysis process is performed by the subband analysis units 51 1 and 5
1 2 and SSB modulators 52 1 and 52 2 . When the number of band divisions is N and the thinning rate is M, x
The signal after thinning in the k-th band of j (n) is
【0022】[0022]
【数4】 [Equation 4]
【0023】と計算される。ここで、WN=exp(j
2π/N)である。また、h(n)は分析に使用する帯
域[−π/N、π/N]のローパスフィルタであり、
h(n)={sin(n/N)}/(n/N) (8)
が使用される。この時、X(k、m)は複素数として得
られるが、後段の音源分離過程の時間領域BSS部53
1、・・・・、53Nが実数のアルゴリズムの場合は、各帯域
で信号を実数で扱うために、例えば、SSB(単側波
帯)変調部52を使用することができる。SSB変調部
52を使用するサブバンドは周波数領域のエイリアジン
グを回避するために帯域分割数Nのとき、間引率MをM
=N/4とする。Is calculated as Where W N = exp (j
2π / N). Further, h (n) is a low-pass filter in the band [−π / N, π / N] used for analysis, and h (n) = {sin (n / N)} / (n / N) (8) Is used. At this time, X (k, m) is obtained as a complex number, but the time domain BSS unit 53 in the sound source separation process in the latter stage is
1, ..., if 53 N is a real algorithm, in order to handle the signal in real each band, for example, it can be used SSB (single side band) modulation unit 52. The subband using the SSB modulator 52 has a thinning rate M of M when the number of band divisions is N in order to avoid aliasing in the frequency domain.
= N / 4.
【0024】SSB変調による実数の信号はX
j ssb(k、m)と表現すると、
Xj ssb(k、m)=Re[Xj(k、m)]cos(mπ/2)
+Im[Xj(k、m)]sin(mπ/2) (9)
により得られる。次に、音源分離過程について説明す
る。(2)音源分離過程はN個の時間領域BSS部53
1、・・・・、53Nにより構成される。ここで、各帯域で使
用する時間領域BSSアルゴリズムの一例として、信号
の非定常性に基づく評価関数から導出されたものを示
す。簡単のために、出力信号 Yi ssb(k、n)をy
i(n)と略記する。The real number signal by SSB modulation is X
When expressed as j ssb (k, m), X j ssb (k, m) = Re [X j (k, m)] cos (mπ / 2) + Im [X j (k, m)] sin (mπ / 2) Obtained by (9). Next, the sound source separation process will be described. (2) The sound source separation process includes N time-domain BSS units 53.
1, ..., constituted by 53 N. Here, as an example of the time domain BSS algorithm used in each band, the one derived from the evaluation function based on the non-stationarity of the signal is shown. For simplicity, the output signal Y i ssb (k, n) is y
It is abbreviated as i (n).
【0025】出力信号の相互相関が全ての時間ブロック
において0になった時に最小値0をとる非負の評価関数Non-negative evaluation function having a minimum value of 0 when the cross-correlation of output signals becomes 0 in all time blocks
【0026】[0026]
【数5】 [Equation 5]
【0027】を考える。ここで、y(n)=[y
1(n)、y2(n)]T は出力信号であり、Ry b(τ)
は出力信号の共分散行列(=<y(n)yT(n−
τ)>b )であり、<x>bはブロックb(b=1、・・・
・・・、B)についての時間平均である。分離フィルタw
ijの更新式は、この評価関数Qをw(k)で微分して
算出したnatural gradientにおいて、更に、性能を高め
るためにRy b(0)のみではなく、時間ずれの相関
Ry b(τ)も考慮することで次の様に得られる。Consider Where y (n) = [y
1 (n), y 2 (n)] T is an output signal, and R y b (τ)
Covariance matrix of the output signal (= <y (n) y T (n-
τ)> b ) and <x> b is a block b (b = 1, ...
..., B) is a time average. Separation filter w
In the natural gradient calculated by differentiating this evaluation function Q with w (k), the update formula of ij is not only R y b (0) but also the time-shift correlation R y b (for increasing the performance. By taking τ) into consideration, we can obtain
【0028】[0028]
【数6】 [Equation 6]
【0029】式(11)の導出はT.Nishikawa, H.Saruw
atari, K.Shikano,“Comparison ofblind source separ
ation methods based on time-domain ICA using nonst
ationarity and multistage ICA,”IEICE Tech.Rep.,Ja
n.2002.に詳しく記載されている。この更新式により求
まったwij(wの要素)を使用し、式(2)を使用し
て分離信号を得る。この分離信号が図5中のY
i ssb(k、n)となる。以上の方法は二次の統計量を使
用する方法であるが、高次の統計量を使用する方法を採
用することも可能である。Equation (11) is derived by T. Nishikawa, H. Saruw
atari, K. Shikano, “Comparison ofblind source separ
ation methods based on time-domain ICA using nonst
ationarity and multistage ICA, ”IEICE Tech.Rep., Ja
n.2002. Using w ij (element of w) obtained by this updating formula, the separated signal is obtained by using formula (2). This separated signal is Y in FIG.
i ssb (k, n). Although the above method uses the second-order statistics, it is also possible to adopt the method using the higher-order statistics.
【0030】最後に、サブバンド合成過程について説明
する。(3)サブバンド合成過程はSSB復調部5
41、542と、サブバンド合成部551、552とにより
構成される。先ず、各帯域で分離した信号Yi ssb(k、
m)をSSB復調部541、542によりSSB復調す
る。
Re[Yi(k、m)]=Yi ssb(k、m)cos(m
π/2)
Im[Yi(k、m)]=Yi ssb(k、m)sin(m
π/2)
この復調した信号Yi(k、m)はサブバンド合成部5
5に入力され、Finally, the subband synthesis process will be described. (3) The SSB demodulation unit 5 performs the subband synthesis process.
4 1 and 54 2 and sub-band synthesis units 55 1 and 55 2 . First, the signals Y i ssb (k,
m) is SSB demodulated by the SSB demodulators 54 1 and 54 2 . Re [Y i (k, m)] = Y i ssb (k, m) cos (m
π / 2) Im [Y i (k, m)] = Y i ssb (k, m) sin (m
π / 2) This demodulated signal Y i (k, m) is output to the subband synthesis unit 5
Entered in 5,
【0031】[0031]
【数7】 [Equation 7]
【0032】により合成された信号yi(n)が得られ
る。ここで、f(n)は、合成に使用する帯域[−π/
M、π/M]のローパスフィルタであり、
f(n)={sin(n/M)}/(n/M) (13)
が使用される。ここで、実施例の動作フローチャートを
示すと図7の如くになる。そして、以上の信号抽出装置
を電子計算機を主要な構成部材として構成してもよい。
また、この発明を、CDその他の記憶媒体からダウンロ
ードし或いは通信回線を介してダウンロードしたプログ
ラムをこの電子計算機にインストールして実施すること
ができる。A signal y i (n) synthesized by is obtained. Here, f (n) is a band [−π /
M, π / M] low-pass filter, and f (n) = {sin (n / M)} / (n / M) (13) is used. Here, the operation flow chart of the embodiment is shown in FIG. Then, the above signal extraction device may be configured by using an electronic computer as a main constituent member.
Further, the present invention can be implemented by installing a program downloaded from a storage medium such as a CD or downloaded via a communication line into this electronic computer.
【0033】[0033]
【発明の効果】以上の通りであって、この発明によれ
ば、各帯域の統計的性質を保持したままで各帯域で長い
フィルタを推定することができるので、原信号の高い分
離性能が期待される。図6にはこのサブバンドBSSの
効果が示されている。ここにおいては、帯域分割数N=
64、間引率M=16、各帯域の分離フィルタの長さQ
su b =64とした。これは間引率Mとしては周波数領域
BSSの「32」に相当し、フィルタ長としてはフルバ
ンドで1024タップの分離フィルタに相当する。実験
は部屋の残響が150ms、300msの2つの場合に
ついて行った。As described above, according to the present invention, it is possible to estimate a long filter in each band while maintaining the statistical properties of each band. Therefore, high separation performance of the original signal is expected. To be done. The effect of this subband BSS is shown in FIG. Here, the number of band divisions N =
64, thinning rate M = 16, separation filter length Q in each band
su b = 64. This corresponds to the decimation rate M of "32" in the frequency domain BSS, and the filter length of the full band to 1024 taps. The experiment was conducted for two cases where the room reverberation was 150 ms and 300 ms.
【0034】図6において、横軸の数字は周波数領域B
SSにおけるフレーム長(=フィルタ長)であり、その
フレーム長を使用した周波数領域BSSによる結果であ
る。また、「SUB」はサブバンドBSSによる結果で
ある。周波数領域BSSでは、長さ1024の長い分離
フィルタを求める時に性能が劣化していたが、サブバン
ドBSSでは長さ1024の分離フィルタを求めること
ができ、高い分離性能が得られている。なお、原信号を
サブバンド分割したものの式(6)の相関係数の値は、
男声と男声で0.028、男声と女声で0.018、女声
と女声で0.020であった。よって、独立性の仮定は
充分に保たれていると考えてよい。In FIG. 6, the numbers on the horizontal axis indicate the frequency domain B.
It is the frame length (= filter length) in SS, and is the result of the frequency domain BSS using the frame length. Further, “SUB” is the result of the subband BSS. In the frequency domain BSS, the performance deteriorates when a long separation filter with a length of 1024 is obtained, but with the subband BSS, a separation filter with a length of 1024 can be obtained, and high separation performance is obtained. The value of the correlation coefficient in equation (6) obtained by dividing the original signal into subbands is
The male and female voices were 0.028, the male and female voices were 0.018, and the female and female voices were 0.020. Therefore, it can be considered that the assumption of independence is sufficiently maintained.
【図1】信号分離モデルを示す図。FIG. 1 is a diagram showing a signal separation model.
【図2】各周波数各帯域の統計的性質およびフィルタ長
を説明する図。FIG. 2 is a diagram for explaining the statistical properties and filter length of each frequency band.
【図3】周波数領域BSSにおいて、大きなフレームサ
イズで独立性の仮定が崩れることを示す図。FIG. 3 is a diagram showing that the assumption of independence is broken at a large frame size in the frequency domain BSS.
【図4】サブバンドBSSの実施例を説明する図。FIG. 4 is a diagram illustrating an example of a subband BSS.
【図5】サブバンドBSSの実施例の詳細を説明する
図。FIG. 5 is a diagram illustrating details of an embodiment of a subband BSS.
【図6】実施例の効果を説明する図。FIG. 6 is a diagram for explaining the effect of the embodiment.
【図7】実施例のフローチャートFIG. 7 is a flowchart of an embodiment.
51 サブバンド分析部 53 時間領域BSS部 55 サブバンド合成部 51 Sub-band analysis section 53 hours BSS department 55 Subband synthesizer
───────────────────────────────────────────────────── フロントページの続き (72)発明者 向井 良 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 澤田 宏 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 猿渡 洋 奈良県生駒市高山8916−5 D−307 Fターム(参考) 5D015 EE05 ─────────────────────────────────────────────────── ─── Continued front page (72) Inventor Ryo Mukai 2-3-1, Otemachi, Chiyoda-ku, Tokyo Inside Telegraph and Telephone Corporation (72) Inventor Hiroshi Sawada 2-3-1, Otemachi, Chiyoda-ku, Tokyo Inside Telegraph and Telephone Corporation (72) Inventor Hiroshi Saruwatari 8916-5 Takayama, Ikoma City, Nara D-307 F-term (reference) 5D015 EE05
Claims (4)
て観測される複数の混合信号から原信号をその独立性に
基づいて分離抽出する信号抽出方法において、 複数の混合信号をサブバンド分析部に入力してそれぞれ
N個(N:整数)の帯域にサブバンド分析し、サブバン
ド分析された各帯域の信号を対応する帯域の時間領域B
SS部に入力して各帯域毎に音源分離し、音源分離した
信号をサブバンド合成部に入力して原信号に対応する出
力信号を求めることを特徴とする信号抽出方法。1. A signal extraction method for separating and extracting an original signal from a plurality of mixed signals observed through a path having a long impulse response based on their independence, and inputting the plurality of mixed signals to a subband analysis unit. Then, subband analysis is performed on each of N (N: integer) bands, and the signals of each band subjected to the subband analysis are time-domain B of the corresponding band.
A signal extraction method characterized by inputting to a SS section, separating sound sources for each band, and inputting the separated sound source signals to a subband combining section to obtain an output signal corresponding to an original signal.
て観測される複数の混合信号から原信号をその独立性に
基づいて分離抽出する信号抽出装置において、 複数の混合信号を入力してそれぞれN個(N:整数)の
帯域に分析するサブバンド分析部を具備し、 サブバンド分析された各帯域の信号毎に音源分離する時
間領域BSS部を具備し、 音原分離した信号を入力して原信号に対応する出力信号
を求めるサブバンド合成部を具備することを特徴とする
信号抽出装置。2. A signal extraction device for separating and extracting an original signal from a plurality of mixed signals observed via a path having a long impulse response based on their independence, and inputting a plurality of mixed signals, each of which is N in number. A sub-band analysis unit for analyzing the (N: integer) band is provided, and a time-domain BSS unit for separating the sound source for each signal of each band subjected to the sub-band analysis is provided. A signal extraction device comprising a subband synthesis unit for obtaining an output signal corresponding to a signal.
数)の帯域にサブバンド分析し、 サブバンド分析された各帯域の信号を帯域毎に音源分離
し、 各帯域に音源分離した信号から原信号に対応する出力信
号を求める、 ことを実行させる信号抽出プログラム。3. A signal obtained by subband-analyzing a plurality of mixed signals into N (N: integer) bands, separating the subband-analyzed signals in each band into sound sources, and separating the sound sources into each band. A signal extraction program that executes the process of obtaining the output signal corresponding to the original signal from.
数)の帯域にサブバンド分析し、 サブバンド分析された各帯域の信号を帯域毎に音源分離
し、 各帯域に音源分離した信号から原信号に対応する出力信
号を求める、 ことを実行させる信号抽出プログラムを記録した記録媒
体。4. A signal obtained by subband-analyzing a plurality of mixed signals into N (N: integer) bands, separating the subband-analyzed signals of each band into sound sources, and separating the sound sources into respective bands. A recording medium that records a signal extraction program that causes the output signal corresponding to the original signal to be obtained.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002072111A JP2003271168A (en) | 2002-03-15 | 2002-03-15 | Method, device and program for extracting signal, and recording medium recorded with the program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002072111A JP2003271168A (en) | 2002-03-15 | 2002-03-15 | Method, device and program for extracting signal, and recording medium recorded with the program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003271168A true JP2003271168A (en) | 2003-09-25 |
Family
ID=29202189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002072111A Pending JP2003271168A (en) | 2002-03-15 | 2002-03-15 | Method, device and program for extracting signal, and recording medium recorded with the program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003271168A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006030754A1 (en) * | 2004-09-17 | 2006-03-23 | Matsushita Electric Industrial Co., Ltd. | Audio encoding device, decoding device, method, and program |
KR100600313B1 (en) | 2004-02-26 | 2006-07-14 | 남승현 | Method and apparatus for frequency domain blind separation of multipath multichannel mixed signal |
KR100612870B1 (en) | 2004-11-10 | 2006-08-14 | 삼성전자주식회사 | Appratus and method for seperating implusive event |
JP2007226036A (en) * | 2006-02-24 | 2007-09-06 | Nippon Telegr & Teleph Corp <Ntt> | Signal separation device, signal separation method, signal separation program, and recording medium, and signal direction-of-arrival estimation device, signal direction-of-arrival estimation method, signal direction-of-arrival estimation program, and recording medium |
EP1895515A1 (en) * | 2006-07-28 | 2008-03-05 | Kabushiki Kaisha Kobe Seiko Sho | Sound source separation apparatus and sound source separation method |
US8095493B2 (en) | 2007-01-31 | 2012-01-10 | Sony Corporation | Information processing apparatus, information processing method and computer program |
JP2020042292A (en) * | 2017-06-26 | 2020-03-19 | Fairy Devices株式会社 | Voice information processing system, control method for voice information processing system, program for voice information processing system, and recording medium |
-
2002
- 2002-03-15 JP JP2002072111A patent/JP2003271168A/en active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100600313B1 (en) | 2004-02-26 | 2006-07-14 | 남승현 | Method and apparatus for frequency domain blind separation of multipath multichannel mixed signal |
JP2007526511A (en) * | 2004-02-26 | 2007-09-13 | ヒョン ナム,スン | Method and apparatus for blind separation of multipath multichannel mixed signals in the frequency domain |
WO2006030754A1 (en) * | 2004-09-17 | 2006-03-23 | Matsushita Electric Industrial Co., Ltd. | Audio encoding device, decoding device, method, and program |
US7860721B2 (en) | 2004-09-17 | 2010-12-28 | Panasonic Corporation | Audio encoding device, decoding device, and method capable of flexibly adjusting the optimal trade-off between a code rate and sound quality |
JP4809234B2 (en) * | 2004-09-17 | 2011-11-09 | パナソニック株式会社 | Audio encoding apparatus, decoding apparatus, method, and program |
KR100612870B1 (en) | 2004-11-10 | 2006-08-14 | 삼성전자주식회사 | Appratus and method for seperating implusive event |
JP2007226036A (en) * | 2006-02-24 | 2007-09-06 | Nippon Telegr & Teleph Corp <Ntt> | Signal separation device, signal separation method, signal separation program, and recording medium, and signal direction-of-arrival estimation device, signal direction-of-arrival estimation method, signal direction-of-arrival estimation program, and recording medium |
JP4630203B2 (en) * | 2006-02-24 | 2011-02-09 | 日本電信電話株式会社 | Signal separation device, signal separation method, signal separation program and recording medium, signal arrival direction estimation device, signal arrival direction estimation method, signal arrival direction estimation program and recording medium |
EP1895515A1 (en) * | 2006-07-28 | 2008-03-05 | Kabushiki Kaisha Kobe Seiko Sho | Sound source separation apparatus and sound source separation method |
US7650279B2 (en) | 2006-07-28 | 2010-01-19 | Kabushiki Kaisha Kobe Seiko Sho | Sound source separation apparatus and sound source separation method |
US8095493B2 (en) | 2007-01-31 | 2012-01-10 | Sony Corporation | Information processing apparatus, information processing method and computer program |
JP2020042292A (en) * | 2017-06-26 | 2020-03-19 | Fairy Devices株式会社 | Voice information processing system, control method for voice information processing system, program for voice information processing system, and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10455325B2 (en) | Direction of arrival estimation for multiple audio content streams | |
US9762742B2 (en) | Robust acoustic echo cancellation for loosely paired devices based on semi-blind multichannel demixing | |
CN110709924A (en) | Audio-visual speech separation | |
KR101224755B1 (en) | Multi-sensory speech enhancement using a speech-state model | |
KR101280253B1 (en) | Method for separating source signals and its apparatus | |
US20150262590A1 (en) | Method and Device for Reconstructing a Target Signal from a Noisy Input Signal | |
JP2007526511A (en) | Method and apparatus for blind separation of multipath multichannel mixed signals in the frequency domain | |
CN111899756B (en) | Single-channel voice separation method and device | |
US11404055B2 (en) | Simultaneous dereverberation and denoising via low latency deep learning | |
GB2510650A (en) | Sound source separation based on a Binary Activation model | |
JP2003271168A (en) | Method, device and program for extracting signal, and recording medium recorded with the program | |
US11902757B2 (en) | Techniques for unified acoustic echo suppression using a recurrent neural network | |
KR101356039B1 (en) | Blind source separation method using harmonic frequency dependency and de-mixing system therefor | |
JP6285855B2 (en) | Filter coefficient calculation apparatus, audio reproduction apparatus, filter coefficient calculation method, and program | |
EP3185242A1 (en) | Method and apparatus for processing audio content | |
CN114360572A (en) | Voice denoising method and device, electronic equipment and storage medium | |
WO2019208137A1 (en) | Sound source separation device, method therefor, and program | |
Oh et al. | Preprocessing of independent vector analysis using feed-forward network for robust speech recognition | |
Yoon et al. | A multirate DSP model for estimation of discrete probability density functions | |
Zhang et al. | URGENT Challenge: Universality, Robustness, and Generalizability For Speech Enhancement | |
Kokkinakis et al. | Multichannel speech separation using adaptive parameterization of source PDFs | |
JP4714892B2 (en) | High reverberation blind signal separation apparatus and method | |
Russell et al. | Blind source separation of nonstationary convolutively mixed signals in the subband domain | |
Aarabi et al. | The fusion of visual lip movements and mixed speech signals for robust speech separation | |
Lee et al. | Binaural semi-blind dereverberation of noisy convoluted speech signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050812 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050812 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060620 |