JP2011081293A - Signal separation device and signal separation method - Google Patents
Signal separation device and signal separation method Download PDFInfo
- Publication number
- JP2011081293A JP2011081293A JP2009234978A JP2009234978A JP2011081293A JP 2011081293 A JP2011081293 A JP 2011081293A JP 2009234978 A JP2009234978 A JP 2009234978A JP 2009234978 A JP2009234978 A JP 2009234978A JP 2011081293 A JP2011081293 A JP 2011081293A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- separation
- noise
- spikedness
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 61
- 238000012880 independent component analysis Methods 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000002372 labelling Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000000034 method Methods 0.000 description 7
- 230000001629 suppression Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
Description
本発明は、複数の信号が空間内で混合された状態において、特定の信号を抽出する信号分離装置および信号分離方法に関し、特に、パーミュテーション解決技術に関する。 The present invention relates to a signal separation device and a signal separation method for extracting a specific signal in a state where a plurality of signals are mixed in a space, and more particularly to a permutation solving technique.
複数の原信号が未知の係数によって線形に混合されているときに、統計的独立性を用いて原信号を分離・復元する独立成分分析(Independent Component Analysis; ICA)が知られている(特許文献1)。 Independent Component Analysis (ICA) is known that separates and restores original signals using statistical independence when multiple original signals are linearly mixed by unknown coefficients (Patent Literature). 1).
複数の原信号s(t)を複数のマイクロフォンで観測した観測信号をx(t)とする。 An observation signal obtained by observing a plurality of original signals s (t) with a plurality of microphones is defined as x (t).
ICAにおいては、観測信号x(t)を短時間離散フーリエ変換によって時間周波数領域の信号(X(f, t))に変換した信号を用い、周波数領域の独立成分分析によってS(f、t)を推定する。
ここで、原信号s(t)および観測信号x(t)を短時間フーリエ変換したものをそれぞれS(f、t)、X(f、t)とする。
時間周波数領域でS(f,t)を推定するには、先ず、下記式のような式を考える。
この式において、Y(f,t)はk番目の出力Yk(t)を要素とする列ベクトルを表す。
W(f)はwij(f)を要素とするn×nの行列(分離行列)を表す。
In ICA, the observed signal x (t) is converted into a time-frequency domain signal (X (f, t)) by short-time discrete Fourier transform, and S (f, t) is analyzed by frequency-domain independent component analysis. Is estimated.
Here, the original signal s (t) and the observation signal x (t), which are obtained by short-time Fourier transform, are S (f, t) and X (f, t), respectively.
To estimate S (f, t) in the time-frequency domain, first consider the following equation.
In this equation, Y (f, t) represents a column vector whose elements are the k-th output Y k (t).
W (f) represents an n × n matrix (separation matrix) whose elements are w ij (f).
次に、周波数ビンfを固定してtを変化させたときにY1(f,t)〜Yn(f,t)が統計的に独立となる(実際には、独立性が最大となる)ようなW(f)を求める。
統計的に独立となるY1(f,t)〜Yn(f,t)が全てのfについて得られたら、それらを逆フーリエ変換することで、時間領域の分離信号y(t)を得ることができる。
Next, when frequency bin f is fixed and t is changed, Y1 (f, t) to Yn (f, t) are statistically independent (in practice, the independence is maximized). Find W (f).
When Y1 (f, t) to Yn (f, t) that are statistically independent are obtained for all f, a time domain separation signal y (t) can be obtained by performing inverse Fourier transform on them. it can.
しかしながら、時間周波数領域の独立成分分析では、信号の分離処理を周波数binごとに行っており、周波数binの間の関係は考慮していない。
そのため、分離自体は成功しても、周波数binの間で分離先の不統一が発生する可能性がある。
分離先の不統一とは、例えばf=1ではY1にS1由来の信号が現れるのに対してf=2ではY1にS2由来の信号が現れる、というような現象のことであり、パーミュテーション(置換)の問題と呼ばれている。
However, in the independent component analysis in the time-frequency domain, signal separation processing is performed for each frequency bin, and the relationship between the frequencies bin is not considered.
For this reason, even if the separation itself is successful, there is a possibility that the separation destinations may be inconsistent among the frequency bins.
Separation of separation destinations is, for example, a phenomenon in which a signal derived from S1 appears in Y1 at f = 1, whereas a signal derived from S2 appears in Y1 at f = 2. It is called a (replacement) problem.
特許文献1では、信号の到来方向を推定し、各信号の方位情報に基づいて信号にラベル付けを行うことでパーミュテーション問題を解決する手法が開示されている。
しかしながら、実際にはすべての音源が点音源であるとは限らないので、信号の到来方向を正しく推定できるとは限らない。
たとえば拡散性ノイズの場合にはノイズの方位を特定することができず、ラベル付けの間違いが発生してしまう。
However, since not all sound sources are actually point sound sources, however, the arrival direction of a signal cannot always be estimated correctly.
For example, in the case of diffusive noise, the direction of the noise cannot be specified, and a labeling error occurs.
また、特許文献2、非特許文献1には、分離した信号の結合確率密度分布を求め、この結合確率密度分布の形状に基づいて分離した信号を音声とノイズとに振り分ける手法を開示している。この手法では、たとえば、結合確率密度分布が非ガウス分布である信号を特定の音声信号と判定し、ガウス分布である信号をノイズ信号と判定する。
この手法によれば、雑音(拡散性ノイズ)に対しても正確にラベル付けを行い、高い精度で信号の分離先を決定することができる。
Patent Document 2 and
According to this method, it is possible to accurately label noise (diffusive noise) and determine a signal separation destination with high accuracy.
ここで、実際に信号分離装置を利用する環境としては次のような場合が想定される。
図5は、音声認識機能を有するロボット10を示す図である。
このロボット10は、複数のマイク11からなるマイクアレイ12と、マイクアレイ12からの観測信号を信号処理する信号分離装置20と、を備えている。
この構成において、マイクアレイ12には、ユーザー音声S1とともに周辺ノイズS2が入る。
さらに、ロボット自身がノイズ発生源となる。
すなわち、ロボット10はモーターなどの動力源30を備えているので、この動力源30からのノイズ音S3もマイク11に入ってしまうことになる。
Here, as an environment in which the signal separation device is actually used, the following cases are assumed.
FIG. 5 is a diagram showing a
The
In this configuration, the
Further, the robot itself becomes a noise generation source.
That is, since the
したがって、観測信号x(t)には動力源30からのノイズS3が含まれることになる。
このようにユーザーの音声S1(f、t)、周辺ノイズS2(f、t)、および、動力ノイズS3(f、t)を含んだ信号を独立成分分析して、統計的に独立となるY1(f,t)〜Yn(f,t)を求めることとなる。
そのうえで各分離信号Y1(f,t)〜Yn(f,t)にラベル付けを行うことになる。
しかしながら、上記のように結合確率密度分布が非ガウス分布である信号を単純にユーザーの音声であると判定すると、ラベル付けに間違いが生じる恐れがある。
これは、動力源30のノイズS3も高い尖度を有する非ガウス分布の結合確率密度を示すからである。
Therefore, the observation signal x (t) includes the noise S3 from the
In this way, independent component analysis is performed on the signal including user's voice S 1 (f, t), ambient noise S 2 (f, t), and power noise S 3 (f, t), and statistically independent. Y1 (f, t) to Yn (f, t) are obtained.
In addition, the separation signals Y1 (f, t) to Yn (f, t) are labeled.
However, if it is determined that a signal having a joint probability density distribution having a non-Gaussian distribution is simply a user's voice as described above, there is a possibility that an error may occur in labeling.
This is because the noise S3 of the
このように特許文献2、非特許文献1に開示された従来の手法を実際の環境に適用した場合、分離信号のラベル付けを間違えてしまう恐れがある。
さらに、結合確率密度分布を求める演算は計算量が非常に多く、ユーザーの音声、周辺ノイズに加えて動力ノイズについても結合確率密度分布の形状を求めるとなると、その計算負荷が大きすぎる。
As described above, when the conventional methods disclosed in Patent Document 2 and
Furthermore, the calculation for obtaining the joint probability density distribution has a very large amount of calculation, and if the shape of the joint probability density distribution is obtained for the power noise in addition to the user's voice and ambient noise, the calculation load is too large.
本発明の信号分離システムは、
複数の信号が混合された時間領域の観測信号を独立成分分析を用いて信号ごとに分離し、分離した信号のうちから特定のユーザー音声を抽出する信号分離システムであって、
外部に向けて設けられた外部マイクと、
システム内に存在する内部ノイズ源からの内部ノイズのみを検知する内部センサと、
前記外部マイクおよび前記内部センサからの信号を離散フーリエ変換する離散フーリエ変換部と、
独立成分分析により互いに独立した分離信号を取り出す独立成分分析部と、
独立成分分析の結果に対してパーミュテーション解決を実行するパーミュテーション解決部と、を備え、
前記独立成分分析部は、前記内部センサからの検知信号を用いて特定の内部ノイズ分離信号が前記内部ノイズ源からのノイズだけを含むようにし、この内部ノイズ分離信号と独立になるように調整することにより前記内部ノイズを含まない分離信号を取り出し、
前記パーミュテーション解決部は、前記内部ノイズを含まない前記分離信号についてパーミュテーション解決を実行する
ことを特徴とする。
The signal separation system of the present invention comprises:
A signal separation system that separates a time domain observation signal in which a plurality of signals are mixed into each signal using independent component analysis, and extracts a specific user voice from the separated signals,
An external microphone provided to the outside,
An internal sensor that only detects internal noise from internal noise sources present in the system;
A discrete Fourier transform unit for performing a discrete Fourier transform on signals from the external microphone and the internal sensor;
An independent component analyzer that extracts independent separated signals by independent component analysis;
A permutation resolution unit that performs permutation resolution on the result of independent component analysis,
The independent component analysis unit uses a detection signal from the internal sensor so that a specific internal noise separation signal includes only noise from the internal noise source, and adjusts the internal noise separation signal to be independent of the internal noise separation signal. By taking out the separated signal not containing the internal noise,
The permutation resolution unit performs permutation resolution on the separated signal not including the internal noise.
本発明では、
前記パーミュテーション解決部は、
前記分離信号の確率密度分布の尖り度であるスパイクドネスを算出するスパイクドネス算出部と、
前記スパイクドネスに基づいて前記分離信号にユーザー音声または周辺ノイズのラベル付けを実行するクラスタリング部と、を備え、
前記スパイクドネス算出部は、前記スパイクドネスとして、分離信号をラプラス分布でフィッティングしたときのラプラス分布のスケールパラメータを求める
ことが好ましい。
In the present invention,
The permutation resolution unit
A spikedness calculating unit that calculates a spikedness that is a kurtosis of a probability density distribution of the separated signal;
A clustering unit that performs user voice or ambient noise labeling on the separated signal based on the spikedness, and
It is preferable that the spikedness calculating unit obtains a scale parameter of a Laplace distribution when the separated signal is fitted with a Laplace distribution as the spikedness.
本発明では、
前記クラスタリング部は、前記スパイクドネスが最も大きい分離信号をユーザー音声とする
ことが好ましい。
In the present invention,
The clustering unit preferably uses the separated signal having the largest spikedness as a user voice.
本発明の実施の形態を図示するとともに図中の各要素に付した符号を参照して説明する。
(第1実施形態)
本発明に係る第1実施形態について説明する。
図1は、第1実施形態に係る信号分離装置を搭載したロボットを示す図である。
ロボット100には、外部マイク110と、内部センサ120と、信号分離装置200と、が設けられている。
Embodiments of the present invention will be illustrated and described with reference to reference numerals attached to respective elements in the drawings.
(First embodiment)
A first embodiment according to the present invention will be described.
FIG. 1 is a diagram illustrating a robot equipped with the signal separation device according to the first embodiment.
The
外部マイク110はロボット100の体表面に設置された集音マイクである。
ここでは説明のため、第1外部マイク111と、第2外部マイク112と、が設けられているとする。
このとき、外部マイク110には、ユーザーからの音声S1および周辺からのノイズS2が入る。
加えて、外部マイク110には、動力源30からのノイズS3も入る。
The
Here, for the sake of explanation, it is assumed that a first external microphone 111 and a second external microphone 112 are provided.
At this time, voice S1 from the user and noise S2 from the surroundings enter the
In addition, noise S3 from the
内部センサ120は、動力源30からのノイズS3を限定的に検知するセンサである。
内部センサ120は、動力源30からのノイズを検知する一方、外部からの音信号(S1、S2)は検知しないようになっている。内部センサ120は、たとえば、外部マイク110の裏など、外部マイクに近接した位置に配設されることが好ましい。
このように動力源30からノイズS3を限定的に検知するセンサとしては、たとえば加速度センサあるいは指向性の高いマイクが例として挙げられる。
The
The
As examples of the sensor that detects the noise S3 from the
なお、外部マイク110および内部センサ120の数は限定されず、必要に応じて増減されるものである。
たとえば、外部マイク110が複数ある場合、外部マイクごとに内部センサを設けるようにしてもよい。
The numbers of
For example, when there are a plurality of
ここで、ユーザー音声をS1(f、t)とし、周辺ノイズをS2(f、t)とし、動力ノイズをS3(f、t)として表す。
また、第1外部マイク111による観測信号をX1(f、t)、第2外部マイク112による観測信号をX2(f、t)、内部センサ120による観測信号をR1(f、t)、として表す。
このとき、未知の係数行列A(f)を用いて、原信号と観測信号との関係は次のようになる。
Here, the user voice is represented as S 1 (f, t), the ambient noise is represented as S 2 (f, t), and the power noise is represented as S 3 (f, t).
The observation signal from the first external microphone 111 is X 1 (f, t), the observation signal from the second external microphone 112 is X 2 (f, t), and the observation signal from the
At this time, using the unknown coefficient matrix A (f), the relationship between the original signal and the observed signal is as follows.
ここで、第1外部マイク111および第2外部マイク112にはユーザー音声S1(f、t)、周辺ノイズS2(f、t)および動力ノイズS3(f、t)が入るので、X1(f、t)、X2(f、t)に対応する係数行列Aの成分(A11(f)、A12(f)、A13(f)、A21(f)、A22(f)、A23(f))は0ではない係数がはいる。
これに対し、内部センサ120には、ユーザー音声S1(f、t)および周辺ノイズS2(f、t)が入らないので、R1(f、t)に対応する係数行列Aの成分(0、0、A33(f))としては動力ノイズ30に対応する係数A33(f)の他は0になる。
Here, since the user voice S 1 (f, t), the ambient noise S 2 (f, t) and the power noise S 3 (f, t) are input to the first external microphone 111 and the second external microphone 112, X 1 (f, t), X 2 (f, t) components of coefficient matrix A (A 11 (f), A 12 (f), A 13 (f), A 21 (f), A 22 ( f) and A 23 (f)) have non-zero coefficients.
On the other hand, since the user sensor S 1 (f, t) and the ambient noise S 2 (f, t) do not enter the
図2は、信号分離装置のブロック図である。
信号分離装置200は、アナログ/デジタル(A/D)変換部210と、雑音抑圧処理部300と、音声認識部220を備えている。
FIG. 2 is a block diagram of the signal separation device.
The
A/D変換部210は、外部マイク110および内部センサ120から入力されたそれぞれの信号をデジタル信号に変換して雑音抑圧処理部300に出力する。
The A /
雑音抑圧処理部300は、入力されたデジタル信号に含まれるノイズを抑圧する処理を実行する。
雑音抑圧処理部300は、短時間離散フーリエ変換部310、独立成分分析部320、利得補正部330、パーミュテーション解決部340、逆離散フーリエ変換部350を備えている。
The noise
The noise
短時間離散フーリエ変換部310は、AD変換部210からの各デジタルデータに対して短時間離散フーリエ変換を実行する。
The short-time discrete
独立成分分析部320は、短時間離散フーリエ変換部310で得られた時間−周波数領域表現された観測信号に対して独立成分分析(ICA:Independent Component Analysis)を行い、各周波数ビンごとに分離行列を算出する。
独立成分分析の具体的な処理については、例えば、特許文献1に詳細に開示されている。
The independent
Specific processing of independent component analysis is disclosed in detail, for example, in
ここで、観測信号x1(t)、x2(t)、r1(t)、をそれぞれ短時間離散フーリエ変換したものをX1 (f, t)、X2 (f, t)、R1 (f, t)として表す。
そして、分離行列W(f)を用いて、統計的に独立な分離信号Y1 (f, t)、Y2 (f, t)、Q1 (f, t)が取り出されるとする。
Here, X 1 (f, t), X 2 (f, t), R, which are short-time discrete Fourier transforms of the observed signals x 1 (t), x 2 (t), r 1 (t), respectively Expressed as 1 (f, t).
Then, it is assumed that statistically independent separation signals Y 1 (f, t), Y 2 (f, t), and Q 1 (f, t) are extracted using the separation matrix W (f).
本実施形態では、動力ノイズS3 (f, t)だけを含むR1(f, t)に係数(W33(f))を乗算した分離信号Q1(f、t)(内部ノイズ分離信号)を生成する。
ICAは、このQ1(f、t)と分離信号Y1(f、t)、Y2(f、t)とが互いに独立になるように分離フィルタ行列W(f)を適応学習するので、動力ノイズを含まない分離信号Y1(f、t)、Y2(f、t)が取り出される(セミブラインド信号分離)。
すなわち、Y1(f、t)、Y2(f、t)は、動力ノイズ以外の成分、すなわち、ユーザー音声および周辺ノイズのいずれかである。
In this embodiment, a separated signal Q 1 (f, t) (internal noise separated signal) obtained by multiplying R 1 (f, t) including only the power noise S 3 (f, t) by a coefficient (W 33 (f)). ) Is generated.
ICA adaptively learns the separation filter matrix W (f) so that Q 1 (f, t) and separation signals Y 1 (f, t), Y 2 (f, t) are independent from each other. Separation signals Y 1 (f, t) and Y 2 (f, t) that do not include power noise are taken out (semi-blind signal separation).
That is, Y 1 (f, t) and Y 2 (f, t) are components other than power noise, that is, any of user voice and ambient noise.
利得補正部330は、独立成分分析部320によって算出された各周波数での分離行列に対して利得補正処理を実行する。
パーミュテーション解決部340は、パーミュテーション問題を解決するための処理を実行する。
図3は、パーミュテーション解決部340のブロック図である。
ここで、本実施形態においては、独立成分分析部320において分離されたY1(f、t)、Y2(f、t)、Q1(f、t)のうち、すでに、Y1(f、t)とY2(f、t)とが、動力ノイズ以外の成分、すなわち、ユーザー音声か周辺ノイズのいずれかであることがわかっている。
したがって、パーミュテーションの対象となるのは、Y1(f、t)とY2(f、t)である。
パーミュテーション解決部340には、分離信号Y1(f、t)、Y2(f、t)が入力され、分離信号Q1(f、t)については次段の逆フーリエ変換部350に直接送られる。
The
FIG. 3 is a block diagram of the
Here, in the present embodiment, among Y 1 (f, t), Y 2 (f, t), and Q 1 (f, t) separated by the independent
Therefore, the target of permutation is Y 1 (f, t) and Y 2 (f, t).
The
そして、本実施形態のパーミュテーション解決においては、ユーザー音声の確率密度分布が周辺ノイズの確率密度分布に比べてより鋭く尖った形状(spiker)であることを利用する。
さらに、確率密度分布のスパイクドネス(尖り度)を見積もるために、ラプラス分布のスケールパラメータαi(f)を用いる。
ここで、ラプラス分布のスケールパラメータαi(f)を推定するにあたっては、分離信号Y(f, t)の絶対値の期待値を利用する。
以下、順に説明する。
In the permutation solution of the present embodiment, the fact that the probability density distribution of user speech is sharper and sharper than the probability density distribution of ambient noise is utilized.
Further, the Laplace distribution scale parameter α i (f) is used to estimate the spikedness (sharpness) of the probability density distribution.
Here, in estimating the scale parameter α i (f) of the Laplace distribution, the expected value of the absolute value of the separated signal Y (f, t) is used.
Hereinafter, it demonstrates in order.
パーミュテーション解決部340は、スパイクドネス(Spikedness)算出部341と、クラスタリング決定部342と、を備える。
The
スパイクドネス算出部341は、分離信号Y1、Y2の確率密度分布のスパイクドネス(分布の尖り度)を求める。
スパイクドネスとしては、分離信号Yi(f、t)をラプラス分布でフィッティングしたときのラプラス分布のスケールパラメータαi(f)を用いる。
そして、スケールパラメータαi(f)は最尤推定法を用いることで、次式により算出ができる。
The
As spikedness, the scale parameter α i (f) of the Laplace distribution when the separation signal Y i (f, t) is fitted with the Laplace distribution is used.
The scale parameter α i (f) can be calculated by the following equation using the maximum likelihood estimation method.
ここで、Y(f、t)は複素スペクトルであるので、|Y(f、t)|は複素数の絶対値を意味する。
また、εt{|Y(f、t)|}は、所定フレーム数における|Y(f、t)|の平均を意味する。
Here, since Y (f, t) is a complex spectrum, | Y (f, t) | means the absolute value of a complex number.
Further, ε t {| Y (f, t) |} means an average of | Y (f, t) | in a predetermined number of frames.
ここで、図4は、観測信号x1(t)、x2(t)、r1(t)からスパイクドネス(スケールパラメータαi(f))を求めるまでの流れの概略を示す図である。
第1外部マイク111で集音された音声信号がx1(t)、第2外部マイク112で集音された音声信号がx2(t)、内部センサ120によって検知された信号がr1(t)である。
これを、所定時間幅の窓(フレーム)で離散フーリエ変換した結果がX1(f、t)、X2(f、t)、R1(f、t)である。
X1(f、t)、X2(f、t)、R1(f、t)に対する独立成分分析の結果がY1(f、t)、Y2(f、t)、Q1(f、t)である。
このとき、周波数ビン(bin)f=fkのときのスパイクドネス(スケールパラメータαi(fk))は、たとえば、t0−t2の時間幅を用いて次のように表わされる。
Here, FIG. 4 is a diagram showing an outline of a flow from the observation signals x 1 (t), x 2 (t), and r 1 (t) to obtaining the spikedness (scale parameter α i (f)).
The sound signal collected by the first external microphone 111 is x 1 (t), the sound signal collected by the second external microphone 112 is x 2 (t), and the signal detected by the
The result of performing discrete Fourier transform on a window (frame) having a predetermined time width is X 1 (f, t), X 2 (f, t), and R 1 (f, t).
The results of independent component analysis for X 1 (f, t), X 2 (f, t), R 1 (f, t) are Y 1 (f, t), Y 2 (f, t), Q 1 (f , T).
At this time, the spikedness (scale parameter α i (f k )) when the frequency bin (bin) f = f k is expressed as follows using a time width of t 0 −t 2 , for example.
クラスタリング決定部342は、前記のように求められたスパイクドネス(スケールパラメータαi(fk))を用いてY1(fk、t)、Y2(fk、t)のラベル付けを行い、必要があればY1(fk、t)、Y2(fk、t)の入れ替え作業を実行する。
すなわち、Y1(fk、t)、Y2(fk、t)のうちの一方をユーザー音声と判定し、他方を周辺ノイズと判定し、すべての周波数ビンにおいてユーザー音声と周辺ノイズとの振り分けが統一されるようにする。
具体的には、スパイクドネス(スケールパラメータαi(fk))が最も大きいものをユーザー音声であると判定する。
The
That is, one of Y 1 (f k , t) and Y 2 (f k , t) is determined as user speech, the other is determined as ambient noise, and the user speech and ambient noise between all frequency bins are determined. Ensure that the distribution is unified.
Specifically, the one having the largest spikedness (scale parameter α i (f k )) is determined as the user voice.
たとえば、インデックス番号1にユーザー音声を振り分け、インデックス番号2に周辺ノイズを振り分けるとすると、次のような処理になる。
(ケース1)
ケース1として、α1(fk)≧α2(fk)のときを考える。
この場合、Y1(fk, t)がユーザー音声となっており、Y2(fk, t)が周辺ノイズとなっていると判断できる。
この場合、入れ替え作業は必要ない。
For example, if user voice is assigned to
(Case 1)
As
In this case, it can be determined that Y 1 (f k , t) is the user voice and Y 2 (f k , t) is the ambient noise.
In this case, replacement work is not necessary.
(ケース2)
ケース2として、α1(fk)<α2(fk)のときを考える。
この場合、Y2(fk, t)がユーザー音声となっており、Y1(fk, t)が周辺ノイズとなっていると判断できる。
この場合、この周波数ビンfkでは入れ替え作業を実行する。
(Case 2)
Case 2 is considered when α 1 (f k ) <α 2 (f k ).
In this case, it can be determined that Y 2 (f k , t) is the user voice and Y 1 (f k , t) is the ambient noise.
In this case, the replacement work is executed in this frequency bin f k .
このようなクラスタリングをすべての周波数ビンで実行する。 Such clustering is performed on all frequency bins.
最後に、逆離散フーリエ変換部350は、逆離散フーリエ変換を実行し、周波数領域のデータY1(f, t)、Y2(f, t)、Q1(f, t)を時間領域のデータに変換して出力する。
Finally, the inverse discrete
このような構成によれば、次の効果を奏することができる。
(1)内部ノイズ源(動力源)30からのノイズだけを限定的に検知する内部センサ120を設けている。
そして、独立成分分析にあたっては、内部ノイズを推定するQ1(f、t)とそれ以外の分離信号Y1(f、t)、Y2(f、t)間が互いに独立になるように最適化される。
Q1(f、t)は内部センサ120からの信号R1(f、t)だけから生成されるのでQ1(f、t)に内部ノイズが必ず出力される。
仮に、分離信号Y1(f、t)、Y2(f、t)に内部ノイズが含まれた場合、相関が生じるので、その成分はICAの最適化により除去されることになる。
従って、内部ノイズはQ1(f、t)だけに出力される。
これにより、Q1(f、t)以外の分離信号Y1(f、t)、Y2(f、t)のどれかがユーザー音声となる。
すなわち、Q1(f、t)以外の分離信号Y1(f、t)、Y2(f、t)に対してパーミュテーション問題を解決すればよい。
したがって、パーミュテーション解決の計算負荷を減少させることができる。
According to such a configuration, the following effects can be achieved.
(1) An
For independent component analysis, it is optimal that Q 1 (f, t) for estimating internal noise and the other separated signals Y 1 (f, t), Y 2 (f, t) are independent from each other. It becomes.
Since Q 1 (f, t) is generated only from the signal R 1 (f, t) from the
If internal signals are included in the separated signals Y 1 (f, t) and Y 2 (f, t), correlation occurs, and the components are removed by ICA optimization.
Therefore, the internal noise is output only to Q 1 (f, t).
As a result, any one of the separated signals Y 1 (f, t) and Y 2 (f, t) other than Q 1 (f, t) becomes the user voice.
That is, the permutation problem may be solved for the separated signals Y 1 (f, t) and Y 2 (f, t) other than Q 1 (f, t).
Therefore, the calculation load of permutation solution can be reduced.
(2)内部ノイズ源(動力源)30からのノイズは、確率密度分布の尖度が大きいなどユーザー音声とよく似ており、内部ノイズとユーザー音声との間ではパーミュテーション問題を解決しにくい場合がある。
この点、本実施形態では、内部ノイズだけを検知するセンサを利用し、かつ、分離フィルタ行列W(f)の成分W31(f)、W32(f)を0としてモデル化することで分離信号Q1(f、t)に内部ノイズを集約させ、残りの分離信号Y1(f、t)、Y2(f、t)に含まれないようにしている。
したがって、ユーザー音声を分離して取り出す正確さを向上させることができる。
(2) The noise from the internal noise source (power source) 30 is very similar to the user voice, such as the kurtosis of the probability density distribution is large, and it is difficult to solve the permutation problem between the internal noise and the user voice. There is a case.
In this regard, in the present embodiment, separation is performed by using a sensor that detects only internal noise and modeling the components W 31 (f) and W 32 (f) of the separation filter matrix W (f) as 0. Internal noise is aggregated in the signal Q 1 (f, t) so that it is not included in the remaining separated signals Y 1 (f, t), Y 2 (f, t).
Therefore, it is possible to improve the accuracy of separating and extracting the user voice.
(3)本実施形態では、ラベル付けにあたっては、分離信号Y1(f、t)、Y2(f、t)の確率密度分布のスパイクドネス(分布の尖り度)を用い、さらに、スパイクドネスとしては、分離信号Yi(f、t)をラプラス分布でフィッティングしたときのラプラス分布のスケールパラメータαi(f)を用いる。
この手法によれば、計算量を格段に少なくすることができる。
(3) In the present embodiment, for labeling, the spikedness (distribution sharpness) of the probability density distribution of the separated signals Y 1 (f, t) and Y 2 (f, t) is used. The scale parameter α i (f) of the Laplace distribution when the separation signal Y i (f, t) is fitted with the Laplace distribution is used.
According to this method, the calculation amount can be remarkably reduced.
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。 Note that the present invention is not limited to the above-described embodiment, and can be changed as appropriate without departing from the spirit of the present invention.
10…ロボット、11…マイク、12…マイクアレイ、20…信号分離装置、30…動力源、100…ロボット、110…外部マイク、111…外部マイク、112…外部マイク、120…内部センサ、200…信号分離装置、210…AD変換部、220…音声認識部、300…雑音抑圧処理部、310…離散フーリエ変換部、320…独立成分分析部、330…利得補正部、340…パーミュテーション解決部、341…スパイクドネス算出部、342…クラスタリング決定部、350…逆離散フーリエ変換部。
10 ... Robot, 11 ... Microphone, 12 ... Microphone array, 20 ... Signal separation device, 30 ... Power source, 100 ... Robot, 110 ... External microphone, 111 ... External microphone, 112 ... External microphone, 120 ... Internal sensor, 200 ... Signal separation device, 210 ... AD conversion unit, 220 ... speech recognition unit, 300 ... noise suppression processing unit, 310 ... discrete Fourier transform unit, 320 ... independent component analysis unit, 330 ... gain correction unit, 340 ...
Claims (5)
外部に向けて設けられた外部マイクと、
システム内に存在する内部ノイズ源からの内部ノイズのみを検知する内部センサと、
前記外部マイクおよび前記内部センサからの信号を離散フーリエ変換する離散フーリエ変換部と、
独立成分分析により互いに独立した分離信号を取り出す独立成分分析部と、
独立成分分析の結果に対してパーミュテーション解決を実行するパーミュテーション解決部と、を備え、
前記独立成分分析部は、前記内部センサからの検知信号を用いて特定の内部ノイズ分離信号が前記内部ノイズ源からのノイズだけを含むようにし、この内部ノイズ分離信号と独立になるように調整することにより前記内部ノイズを含まない分離信号を取り出し、
前記パーミュテーション解決部は、前記内部ノイズを含まない前記分離信号についてパーミュテーション解決を実行する
ことを特徴とする信号分離システム。 A signal separation system that separates a time domain observation signal in which a plurality of signals are mixed into each signal using independent component analysis, and extracts a specific user voice from the separated signals,
An external microphone provided to the outside,
An internal sensor that only detects internal noise from internal noise sources present in the system;
A discrete Fourier transform unit for performing a discrete Fourier transform on signals from the external microphone and the internal sensor;
An independent component analyzer that extracts independent separated signals by independent component analysis;
A permutation resolution unit that performs permutation resolution on the result of independent component analysis,
The independent component analysis unit uses a detection signal from the internal sensor so that a specific internal noise separation signal includes only noise from the internal noise source, and adjusts the internal noise separation signal to be independent of the internal noise separation signal. By taking out the separated signal not containing the internal noise,
The permutation resolution unit performs permutation resolution on the separated signal not including the internal noise.
前記パーミュテーション解決部は、
前記分離信号の確率密度分布の尖り度であるスパイクドネスを算出するスパイクドネス算出部と、
前記スパイクドネスに基づいて前記分離信号にユーザー音声または周辺ノイズのラベル付けを実行するクラスタリング部と、を備え、
前記スパイクドネス算出部は、前記スパイクドネスとして、分離信号をラプラス分布でフィッティングしたときのラプラス分布のスケールパラメータを求める
ことを特徴とする信号分離システム。 In the signal separation system according to claim 1,
The permutation resolution unit
A spikedness calculating unit that calculates a spikedness that is a kurtosis of a probability density distribution of the separated signal;
A clustering unit that performs user voice or ambient noise labeling on the separated signal based on the spikedness, and
The spikedness calculation unit obtains a scale parameter of a Laplace distribution when the separated signal is fitted with a Laplace distribution as the spikedness.
前記スパイクドネス算出部は、
前記スケールパラメータの最尤推定値として、前記分離信号の絶対値の期待値を用いる
ことを特徴とする信号分離システム。 In the signal separation system according to claim 2,
The spikedness calculating unit
An expected value of an absolute value of the separated signal is used as the maximum likelihood estimated value of the scale parameter.
前記スパイクドネス算出部は、
分離信号をY(f、t)で表わすとき、
前記スケールパラメータαi(f)を次式で求める
ことを特徴とする信号分離システム。
ここで、εt{|Y(f、t)|}は所定フレーム数における|Y(f、t)|の平均である。 In the signal separation system according to claim 2 or claim 3,
The spikedness calculating unit
When the separated signal is represented by Y (f, t),
The signal separation system, wherein the scale parameter α i (f) is obtained by the following equation.
Here, ε t {| Y (f, t) |} is an average of | Y (f, t) | in a predetermined number of frames.
前記クラスタリング部は、前記スパイクドネスが最も大きい分離信号をユーザー音声とする
ことを特徴とする信号分離システム。 In the signal separation system according to any one of claims 2 to 4,
The clustering unit uses the separation signal having the largest spikedness as a user voice.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009234978A JP2011081293A (en) | 2009-10-09 | 2009-10-09 | Signal separation device and signal separation method |
PCT/IB2010/002660 WO2011042808A1 (en) | 2009-10-09 | 2010-10-07 | Signal separation system and signal separation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009234978A JP2011081293A (en) | 2009-10-09 | 2009-10-09 | Signal separation device and signal separation method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011081293A true JP2011081293A (en) | 2011-04-21 |
Family
ID=43302952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009234978A Pending JP2011081293A (en) | 2009-10-09 | 2009-10-09 | Signal separation device and signal separation method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2011081293A (en) |
WO (1) | WO2011042808A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019090839A (en) * | 2019-03-22 | 2019-06-13 | 国立研究開発法人海洋研究開発機構 | System and method for estimating resources |
US10802173B2 (en) | 2016-02-05 | 2020-10-13 | Japan Agency For Marine-Earth Science And Technology | Resource estimation system and resource estimation method |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111599234A (en) * | 2020-05-19 | 2020-08-28 | 黑龙江工业学院 | Automatic English spoken language scoring system based on voice recognition |
CN111682881B (en) * | 2020-06-17 | 2021-12-24 | 北京润科通用技术有限公司 | Communication reconnaissance simulation method and system suitable for multi-user signals |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002023776A (en) * | 2000-07-13 | 2002-01-25 | Univ Kinki | Method for identifying speaker voice and non-voice noise in blind separation, and method for specifying speaker voice channel |
JP2004145172A (en) * | 2002-10-28 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | Method, apparatus and program for blind signal separation, and recording medium where the program is recorded |
JP2005084244A (en) * | 2003-09-05 | 2005-03-31 | Univ Kinki | Method for restoration of target speech based upon speech section detection under stationary noise |
JP2005091732A (en) * | 2003-09-17 | 2005-04-07 | Univ Kinki | Method for restoring target speech based on shape of amplitude distribution of divided spectrum found by blind signal separation |
JP2007235646A (en) * | 2006-03-02 | 2007-09-13 | Hitachi Ltd | Sound source separation device, method and program |
JP2009217063A (en) * | 2008-03-11 | 2009-09-24 | Toyota Motor Corp | Signal separation device and signal separation method |
-
2009
- 2009-10-09 JP JP2009234978A patent/JP2011081293A/en active Pending
-
2010
- 2010-10-07 WO PCT/IB2010/002660 patent/WO2011042808A1/en active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002023776A (en) * | 2000-07-13 | 2002-01-25 | Univ Kinki | Method for identifying speaker voice and non-voice noise in blind separation, and method for specifying speaker voice channel |
JP2004145172A (en) * | 2002-10-28 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | Method, apparatus and program for blind signal separation, and recording medium where the program is recorded |
JP2005084244A (en) * | 2003-09-05 | 2005-03-31 | Univ Kinki | Method for restoration of target speech based upon speech section detection under stationary noise |
JP2005091732A (en) * | 2003-09-17 | 2005-04-07 | Univ Kinki | Method for restoring target speech based on shape of amplitude distribution of divided spectrum found by blind signal separation |
JP2007235646A (en) * | 2006-03-02 | 2007-09-13 | Hitachi Ltd | Sound source separation device, method and program |
JP2009217063A (en) * | 2008-03-11 | 2009-09-24 | Toyota Motor Corp | Signal separation device and signal separation method |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10802173B2 (en) | 2016-02-05 | 2020-10-13 | Japan Agency For Marine-Earth Science And Technology | Resource estimation system and resource estimation method |
JP2019090839A (en) * | 2019-03-22 | 2019-06-13 | 国立研究開発法人海洋研究開発機構 | System and method for estimating resources |
Also Published As
Publication number | Publication date |
---|---|
WO2011042808A8 (en) | 2011-10-20 |
WO2011042808A1 (en) | 2011-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112447191B (en) | Signal processing device and signal processing method | |
CN105448303B (en) | Voice signal processing method and device | |
JP2017044916A (en) | Sound source identifying apparatus and sound source identifying method | |
WO2008041730A1 (en) | Method and system for detecting wind noise | |
JP4816711B2 (en) | Call voice processing apparatus and call voice processing method | |
JP4825552B2 (en) | Speech recognition device, frequency spectrum acquisition device, and speech recognition method | |
JP6591477B2 (en) | Signal processing system, signal processing method, and signal processing program | |
JP2011191423A (en) | Device and method for recognition of speech | |
US8452592B2 (en) | Signal separating apparatus and signal separating method | |
JP2011081293A (en) | Signal separation device and signal separation method | |
JP2019066339A (en) | Diagnostic device, diagnostic method and diagnostic system each using sound | |
JP2008039694A (en) | Signal count estimation system and method | |
JP4543731B2 (en) | Noise elimination method, noise elimination apparatus and system, and noise elimination program | |
WO2005029463A1 (en) | A method for recovering target speech based on speech segment detection under a stationary noise | |
JP2002023776A (en) | Method for identifying speaker voice and non-voice noise in blind separation, and method for specifying speaker voice channel | |
KR101529647B1 (en) | Sound source separation method and system for using beamforming | |
JP4529611B2 (en) | Voice input device | |
WO2013091677A1 (en) | Speech recognition method and system | |
JP2015138100A (en) | Sound processing device and sound processing method | |
CN111880146B (en) | Sound source orientation method and device and storage medium | |
JP6106618B2 (en) | Speech section detection device, speech recognition device, method thereof, and program | |
JP2011176535A (en) | Signal processor | |
CN110675890B (en) | Audio signal processing device and audio signal processing method | |
CN108781317B (en) | Method and apparatus for detecting uncorrelated signal components using a linear sensor array | |
KR101740637B1 (en) | Method and apparatus for speech recognition using uncertainty in noise environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110903 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120228 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120703 |