JP2004191968A - Method and device for separating signal source - Google Patents

Method and device for separating signal source Download PDF

Info

Publication number
JP2004191968A
JP2004191968A JP2003400576A JP2003400576A JP2004191968A JP 2004191968 A JP2004191968 A JP 2004191968A JP 2003400576 A JP2003400576 A JP 2003400576A JP 2003400576 A JP2003400576 A JP 2003400576A JP 2004191968 A JP2004191968 A JP 2004191968A
Authority
JP
Japan
Prior art keywords
signal
source
source signal
separating
mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003400576A
Other languages
Japanese (ja)
Other versions
JP3999731B2 (en
Inventor
Sabine V Deligne
サビネ・ブイ・デライン
Satyanarayana Dharanipragada
サトヤナラヤナ・ダラニプラガダ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2004191968A publication Critical patent/JP2004191968A/en
Application granted granted Critical
Publication of JP3999731B2 publication Critical patent/JP3999731B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a technique for separating a signal from a mixture of a 1st source signal related to a 1st source and a 2nd source signal related to a 2nd source. <P>SOLUTION: Two signals are obtained first which represent two mixtures of the 1st source signal and 2nd source signal. Those two signals and at least one known statistical characteristic related to the 1st and 2nd sources are used and the 1st source signal is separated from the mixtures in a nonlinear signal domain without the need to use a reference signal. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

本発明は、概して云えば、信号分離技術に関し、詳しく言えば、各ソースに関する何らかの統計的特性がわかっている場合、例えば、各ソースの確率密度関数(probability density function)が既知のガウス混合(mixture of Gaussians)によってモデル化される場合、ソースの非線形混合を分離するための技術に関するものである。 The present invention relates generally to signal separation techniques, and more particularly, if some statistical property is known for each source, e.g., the probability density function of each source is a known Gaussian mixture. of the Gaussians, which relates to techniques for separating non-linear mixtures of sources.

ソース分離は、ソース信号に関する相異なる混合体を観察することによってこれらのソース信号を回復させるという問題を扱う。ソース分離に対する通常の取り組み方法は、一般に、ソース信号が線形に混合されるものと仮定する。また、ソース分離に対する通常の方法は、ソースの統計的特性に関する詳細情報が全く知られてなく(又は、セミブラインド(semi-blind)方法ではほとんど詳細情報がなく)、しかもその分離プロセスにおいて明示的に利用され得ることが仮定されていると云う意味で一般に盲目的(blind)ある。Proceedingsof the IEEE 誌の vol. 9, October 1998, pp. 2009-2025 における「Blind SignalSeparation: Statistical Principles」と題した J.F. Cardoso 氏による論文において開示された方法は線形混合体を仮定していてしかも盲目的であるソース分離方法の1つの例である。   Source separation addresses the problem of recovering these source signals by observing different mixtures of the source signals. The usual approach to source separation generally assumes that the source signals are mixed linearly. Also, the usual method for source separation is that no detailed information about the statistical properties of the source is known (or little detail in the semi-blind method) and that explicit Is generally blind in the sense that it is assumed that it can be used for The method disclosed in JF Cardoso's paper entitled "Blind SignalSeparation: Statistical Principles" in Proceedings of the IEEE, vol. 9, October 1998, pp. 2009-2025, assumes a linear mixture and is blind. Is an example of the source separation method.

Proceedings of ICSLP 2000 誌の「Speech/Noise Separation Using TwoMicrophones and a VQ Model of Speech Signals」と題した A. Acero 氏他による論文において開示された方法は、ソースの確率密度関数(pdf)に関する先験的な情報を使用するソース分離技術を提案している。しかし、その技術は、波形ドメインの線形変換に起因する線形予測係数(LinearPredictive Coefficient - LPC)ドメインにおいて動作するので、その技術は、被観察混合が線形であることを仮定している。従って、その技術は、非線形混合の場合には使用され得ない。 The method disclosed in the paper by A. Acero et al., Entitled "Speech / Noise Separation Using Two Microphones and a VQ Model of Speech Signals," Proceedings of ICSLP 2000, uses an a priori approach to the source probability density function (pdf). We propose a source separation technique that uses sensitive information. However, since the technique operates in the Linear Predictive Coefficient (LPC) domain due to the linear transformation of the waveform domain, the technique assumes that the observed mixture is linear. Therefore, the technique cannot be used in the case of non-linear mixing.

しかし、被観察混合が線形でない場合、及びソースの統計的特性に関する先見的情報が高い信頼性で得られる場合がある。これは、例えば、混合したオーディオ・ソースの分離を必要とする音声アプリケーションにおける場合である。そのような音声アプリケーションの例は、競合する音声、干渉する音楽、又は特殊なノイズ・ソース、例えば、自動車又は街頭のノイズが存在する場合の音声認識である。   However, in some cases, the observed mixture is not linear, and in some cases, a priori information regarding the statistical properties of the source can be obtained with high reliability. This is the case, for example, in audio applications that require the separation of mixed audio sources. Examples of such speech applications are speech recognition in the presence of competing speech, interfering music, or special noise sources, such as car or street noise.

たとえオーディオ・ソースが波形ドメインにおいて線形に混合されるものと仮定され得ても、波形の線形混合は、音声アプリケーションが通常動作するドメインであるケプストラル・ドメイン(cepstral domain)では非線形混合を生じる。既知のように、セプストラ(cepstra)は、音声波形のセグメントのログ・スペクトルから、音声認識システムのフロント・エンドによって計算されるベクトルである。それに関しては、例えば、PrenticeHall Signal Processing Series, 1993 誌の「Fundamentals of Speech Recognition」chapter3 と題した L. Rabiner 氏他による論文を参照してほしい。   Even though the audio source may be assumed to be linearly mixed in the waveform domain, linear mixing of the waveforms results in non-linear mixing in the cepstral domain, the domain where speech applications typically operate. As is known, cepstra is a vector calculated by the front end of a speech recognition system from the log spectrum of a segment of a speech waveform. See, for example, an article by L. Rabiner et al. In the PrenticeHall Signal Processing Series, 1993, entitled "Fundamentals of Speech Recognition" chapter 3.

このログ変換のために、波形信号の線形混合の結果、ケプストラル信号の非線形混合が生じる。しかし、それは、波形ドメインにおいてよりもケプストラル・ドメインにおいてソース分離を行うことが音声アプリケーションでは計算上有利である。実際に、発生音に対応するセプストラのストリームが音声波形の連続的に重畳したセグメントから計算される。セグメントは、通常、約100ミリ秒(ms)の長さであり、2つの隣接するセグメントの間のシフトは約10ms の長さである。従って、ケプストラル・ドメインにおいて11キロヘルツ(kHz)の音声データに関して動作する分離プロセスは、その分離プロセスが各サンプルに適用されなければならないという波形ドメインに比べて、110サンプル毎に適用される必要があるだけである。   Because of this log transformation, the linear mixing of the waveform signals results in the non-linear mixing of the cepstral signals. However, it is computationally advantageous in speech applications to perform source separation in the cepstral domain than in the waveform domain. In fact, a Sepstra stream corresponding to the generated sound is calculated from continuously superimposed segments of the audio waveform. A segment is typically about 100 milliseconds (ms) long, and the shift between two adjacent segments is about 10 ms long. Thus, a separation process that operates on 11 kilohertz (kHz) audio data in the cepstral domain needs to be applied every 110 samples, as compared to the waveform domain where the separation process must be applied to each sample. Only.

更に、音声のpdf及び多くの可能な干渉オーディオ信号(例えば、競合する音声、音楽、特定のノイズ・ソース等)のpdfはケプストラル・ドメインにおいて高い信頼性でモデル化され、分離プロセスにおいて統合され得る。ケプストラル・ドメインにおける音声のpdfは認識目的で算定され、干渉ソースのpdfは、同様のソースから収集されたデータの代表的なセットに関してオフラインで算定され得る。   Further, the pdf of speech and the pdf of many possible interfering audio signals (eg, competing speech, music, particular noise sources, etc.) can be reliably modeled in the cepstral domain and integrated in the separation process. . The pdf of the speech in the cepstral domain is calculated for recognition purposes, and the pdf of the interference source may be calculated off-line for a representative set of data collected from similar sources.

Proceedings of ASRU2001,2002 誌の「RobustSpeech Recognition with Multi-channel Codebook Dependent Cepstral Normalization(MCDCN)」と題した S. Deligne 及び R. Gopinath 氏による論文に開示された方法は、少なくとも1つのソースのpdfに関する先験的情報を統合し、線形混合を仮定しないソース分離技術を提案している。この方法では、不要なソース信号が所望のソース信号と干渉する。所望の信号及び干渉信号の混合が1つのチャネルに記録され、一方、干渉信号だけ(即ち、所望の信号を含まない)が、いわゆる、参照信号を形成して第2のチャネルに記録される。しかし、多くの場合、参照信号は使用可能ではない。例えば、自動車の音声認識アプリケーションと自動車の乗客の競合音声との関連において、音声認識システムのユーザ(例えば、運転手)の音声及び自動車における他の乗客の競合音声を分離して捕捉することは不可能である。   The method disclosed by S. Deligne and R. Gopinath, entitled "RobustSpeech Recognition with Multi-channel Codebook Dependent Cepstral Normalization (MCDCN)" in Proceedings of ASRU 2001 and 2002, is a method for pdfs of at least one source. We propose a source separation technique that integrates experimental information and does not assume linear mixing. In this method, unwanted source signals interfere with desired source signals. A mixture of the desired signal and the interfering signal is recorded on one channel, while only the interfering signal (ie, not containing the desired signal) is recorded on a second channel forming a so-called reference signal. However, in many cases, the reference signal is not available. For example, in the context of a car speech recognition application and the competing speech of a car passenger, it is not possible to separately capture the speech of the user (eg, driver) of the speech recognition system and the competing speech of other passengers in the car. It is possible.

従って、通常のソース分離技術と関連した欠点及び不利な点を克服するソース分離技術に対する要求がある。
Proceedings of the IEEE 誌のvol. 9, October 1998, pp. 2009-2025 における「Blind Signal Separation: StatisticalPrinciples」と題した J.F. Cardoso 氏による論文。 Proceedings of ICSLP2000 誌の「Speech/Noise Separation Using Two Microphones and a VQ Model of SpeechSignals」と題した A. Acero 氏他による論文。 Prentice Hall SignalProcessing Series, 1993 誌の「Fundamentals of Speech Recognition」chapter 3 と題した L.Rabiner 氏他による論文。 Proceedings ofASRU2001,2002 誌の「Robust Speech Recognition with Multi-channel CodebookDependent Cepstral Normalization (MCDCN)」と題した S. Deligne 及び R. Gopinath 氏による論文。
Accordingly, there is a need for a source separation technique that overcomes the disadvantages and disadvantages associated with conventional source separation techniques.
A paper by JF Cardoso entitled "Blind Signal Separation: StatisticalPrinciples" in Proceedings of the IEEE, vol. 9, October 1998, pp. 2009-2025. Proceedings of ICSLP2000, a paper by A. Acero and others entitled "Speech / Noise Separation Using Two Microphones and a VQ Model of SpeechSignals." A paper by L. Rabiner et al. Entitled Chapter 3, "Fundamentals of Speech Recognition", Prentice Hall SignalProcessing Series, 1993. A paper by S. Deligne and R. Gopinath entitled "Robust Speech Recognition with Multi-channel Codebook Dependent Cepstral Normalization (MCDCN)" in Proceedings of ASRU 2001 and 2002.

本発明の目的は、改良された音声分離技術を提供することにある。   It is an object of the present invention to provide an improved speech separation technique.

本発明の1つの局面では、第1ソースに関連した第1ソース信号と第2ソースに関連した第2ソース信号との混合体から信号を分離するための技術が次のようなステップ/操作を含む。先ず、第1ソース信号と第2ソース信号との2つの混合体をそれぞれ表す2つの混合信号が得られる。そこで、それら2つの混合信号と第1ソース及び第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して、しかも参照信号の使用を必要とすることなく、非線型信号ドメインにおいて、第1ソース信号がその混合体から分離される。   In one aspect of the invention, a technique for separating a signal from a mixture of a first source signal associated with a first source and a second source signal associated with a second source comprises the following steps / operations. Including. First, two mixed signals respectively representing two mixtures of the first source signal and the second source signal are obtained. Thus, using the two mixed signals and at least one known statistical property associated with the first and second sources, and without requiring the use of a reference signal, in the nonlinear signal domain, A first source signal is separated from the mixture.

それらの得られた2つの混合信号は、それぞれ、第1ソース信号及び第2ソース信号の非加重混合信号と、第1ソースの信号及び第2ソースの信号の加重混合信号とを表す。分離ステップ/操作は、非加重混合信号を第1ケプストラル混合信号に変換すること及び加重混合信号を第2ケプストラル混合信号に変換することにより非線形ドメインにおいて遂行され得る。   The two resulting mixed signals represent an unweighted mixed signal of the first and second source signals and a weighted mixed signal of the first and second source signals, respectively. The separation step / operation may be performed in the non-linear domain by converting the unweighted mixed signal to a first cepstral mixed signal and converting the weighted mixed signal to a second cepstral mixed signal.

従って、分離ステップ/操作は、更に、第2ケプストラル混合信号及び分離ステップ/操作における前の反復からの第1ソース信号に関する算定値に基づいた第2ソース信号に関する算定値を反復的に生成することを含み得る。望ましくは、第2ソース信号に関する算定値を生成するステップ/操作は、第2ソース信号がガウス混合によってモデル化されることを仮定する。   Accordingly, the separating step / operation further comprises iteratively generating an estimate for the second source signal based on the estimate for the second cepstral mixed signal and the first source signal from a previous iteration in the separating step / operation. May be included. Preferably, the step / operation of generating an estimate for the second source signal assumes that the second source signal is modeled by Gaussian mixing.

更に、分離ステップ/操作は、第1ケプストラル混合信号及び第2ソース信号に関する算定値に基づいて第1ソース信号に関する算定値を反復的に生成することを含み得る。望ましくは、第1ソース信号に関する算定値を生成するステップ/操作は、第1ソース信号がガウス混合によってモデル化されることを仮定する。   Further, the separating step / operation may include iteratively generating an estimate for the first source signal based on the estimate for the first cepstral mixed signal and the second source signal. Preferably, the step / operation of generating an estimate for the first source signal assumes that the first source signal is modeled by Gaussian mixing.

分離プロセスの後、その分離された第1ソース信号は、その後に信号処理アプリケーション、例えば、音声認識アプリケーションによって使用され得る。更に、或る音声処理アプリケーションでは、第1ソース信号が音声信号であってもよく、第2ソース信号が、競合する音声、干渉する音楽、及び特定のノイズ・ソースを表す信号であってもよい。   After the separation process, the separated first source signal may be subsequently used by a signal processing application, for example, a speech recognition application. Further, in some audio processing applications, the first source signal may be an audio signal and the second source signal may be a signal representing competing audio, interfering music, and a particular noise source. .

本発明のこれらの及び他の目的、特徴、及び利点が、添付図面と関連して読まれるべき本発明の説明上の実施例に関する以下の詳細な説明から明らかになるであろう。   These and other objects, features, and advantages of the present invention will become apparent from the following detailed description of illustrative embodiments of the invention, which should be read in conjunction with the accompanying drawings.

本発明は、例示的な音声認識アプリケーションと関連して後述される。更に、その例示的な音声認識アプリケーションは、「コードブック従属的である(codebook dependent)」と考えられる。「コードブック従属的である」というフレーズが、各ソース信号の確率密度関数をモデル化するためにガウス混合を使用することを指すことは理解されるべきである。ソース信号に関連したコードブックは、このソース信号を特徴付けるコードワードの集合を含む。各コードワードは、それの前の確率によって及びガウス分布のパラメータ、即ち、平均マトリクス及び共分散マトリクスによって指定される。換言すれば、ガウス混合はコードブックと同じである。   The present invention is described below in connection with an exemplary speech recognition application. Further, the exemplary speech recognition application is considered "codebook dependent." It should be understood that the phrase "codebook-dependent" refers to using Gaussian mixture to model the probability density function of each source signal. The codebook associated with a source signal includes a set of codewords that characterize the source signal. Each codeword is specified by its prior probabilities and by the parameters of the Gaussian distribution, namely the mean matrix and the covariance matrix. In other words, Gaussian mixture is the same as codebook.

しかし、本発明がこのアプリケーション及び任意の特定のアプリケーションに限定されないことは更に理解されるべきである。むしろ、本発明は、ソースの線形混合を仮定せず、ソースの少なくとも1つの統計的特性がわかっているものと仮定し、且つ参照信号を必要としないソース分離プロセスを遂行することが望ましい任意のアプリケーションに対してより一般的に適用可能である。   However, it should be further understood that the invention is not limited to this application and any particular application. Rather, the present invention does not assume linear mixing of the sources, assumes that at least one statistical characteristic of the sources is known, and is desirable to perform a source separation process that does not require a reference signal. More generally applicable to applications.

従って、音声認識に関連して、本発明のソース分離プロセスを説明する前に、先ず、本発明のソース分離の原理を一般的に説明することにする。   Therefore, before describing the source separation process of the present invention in the context of speech recognition, first the principles of the source separation of the present invention will be generally described.

ypcm1 及び ypcm2 は線形に混合された2つの波形信号であり、その結果、2つの混合xpcm1 及び xpcm2 が xpcm1 = ypcm1 + ypcm2 及び xpcm2 = a ypcm1 + ypcm2 (但し、a<1) に従って、生じるものと仮定する。更に、yf1及び yf2 が、それぞれ、信号 ypcm1 及び ypcm2 のスペクトルであり、xf1 及び xf2 が、それぞれ、信号 xpcm1 及び xpcm2 のスペクトルであると仮定する。   ypcm1 and ypcm2 are two waveform signals that are linearly mixed, so that the two mixed xpcm1 and xpcm2 result according to xpcm1 = ypcm1 + ypcm2 and xpcm2 = a ypcm1 + ypcm2, where a <1. Assume. Further assume that yf1 and yf2 are the spectra of signals ypcm1 and ypcm2, respectively, and xf1 and xf2 are the spectra of signals xpcm1 and xpcm2, respectively.

更に、y1、y2、x1 及び x2 は、それぞれ、y1 = Clog(yf1)、y2 = C log(yf2)、x1 = C log(xf1)、x2 = C log(xf2) に従って yf1、yf2、xf1、xf2 に対応するケプストラル信号である。なお、Cは、離散コサイン変換(Discrete Cosine Transform)を指す。従って、次式が示される:
y1 = x1-g(y1,y2,1) (1)
y2 =x2-g(y2,y1,a) (2)
なお、g(u,v,w) = C log(1+wexp(invC(v-u))) であり、invC は逆離散コサイン変換を指す。
Further, y1, y2, x1 and x2 are respectively y1 = Clog (yf1), y2 = C log (yf2), x1 = C log (xf1), and x2 = C log (xf2) according to yf1, yf2, xf1, This is a cepstral signal corresponding to xf2. Note that C indicates a discrete cosine transform. Therefore, the following equation is shown:
y1 = x1-g (y1, y2,1) (1)
y2 = x2-g (y2, y1, a) (2)
Note that g (u, v, w) = C log (1 + wexp (invC (vu))), and invC indicates an inverse discrete cosine transform.

等式(1)における y1 は未知であるので、その関数の値が、y1 を越えるそれの予測値、即ち、Ey1[g(y1,y2,1)|y2]によって概算される。但し、その予測値は、y1 のpdfをモデル化するガウス混合に関して計算される。また、等式(2)における y2 も未知であるので、関数 g の値が、y2を越えるそれの予測値、即ち、Ey2[g(y2,y1,a)|y1] によって概算される。但し、その予測値は、y2 のpdfをモデル化するガウス混合に関して計算される。等式(1)及び(2)における関数g の値を g の対応する予測値によって置換すると、y2 及び y1 の それぞれの算定値 y2(k) 及び y1(k) が次のような反復手順の各反復(k)において交互に計算される:
Initialization :
y1(0)=x1
Iteration n(n&#8805;1):
y2(n)=x2-Ey2[g(y2,y1,a)|y1=y1(n-1)]
y1(n)=x1-Ey1[g(y1,y2,1)|y2=y2(n)]
n=n+1
Since y1 in equation (1) is unknown, the value of the function is approximated by its predicted value beyond y1, ie, Ey1 [g (y1, y2,1) | y2]. Where the predicted value is calculated for a Gaussian mixture that models the pdf of y1. Also, since y2 in equation (2) is also unknown, the value of function g is approximated by its predicted value exceeding y2, ie, Ey2 [g (y2, y1, a) | y1]. Where the predicted value is calculated for a Gaussian mixture that models the pdf of y2. Replacing the value of the function g in equations (1) and (2) with the corresponding predicted value of g, the calculated values y2 (k) and y1 (k) of y2 and y1, respectively, become Calculated alternately at each iteration (k):
Initialization:
y1 (0) = x1
Iteration n (n &#8805; 1):
y2 (n) = x2-Ey2 [g (y2, y1, a) | y1 = y1 (n-1)]
y1 (n) = x1-Ey1 [g (y1, y2,1) | y2 = y2 (n)]
n = n + 1

一般的に上記した本発明のソース分離の原理を念頭において、音声認識の関連における本発明のソース分離プロセスを説明することにする。 With the principles of the source separation of the present invention generally described above, the source separation process of the present invention in the context of speech recognition will be described.

先ず、図1を参照すると、本発明の実施例に従って音声認識システムにおけるソース分離プロセスの統合をブロック図で示す。図示のように、音声認識システム100は、アライメント及びスケーリング・モジュール102、第1及び第2フィーチャ抽出装置104及び106、ソース分離モジュール108、事後分離処理(post separation processing)モジュール110、及び音声認識エンジン112を含む。   Referring first to FIG. 1, a block diagram illustrates the integration of a source separation process in a speech recognition system according to an embodiment of the present invention. As shown, the speech recognition system 100 includes an alignment and scaling module 102, first and second feature extractors 104 and 106, a source separation module 108, a post separation processing module 110, and a speech recognition engine. 112.

先ず、信号を捕捉するセンサ、たとえば、音声認識システムに関連したマイクロフォン(図示されてない)への信号の伝播中に導入された遅延及び減衰を補償するために、被観察波形混合 xpcm1 及び xpcm2 がアライメント及びスケーリング・モジュール102において揃えられ且つスケーリングされる。そのようなアライメント及びスケーリング操作は、音声信号処理の分野ではよく知られている。任意の適当なアライメント及びスケーリング技術が使用可能である。   First, in order to compensate for the delay and attenuation introduced during propagation of the signal to a sensor that captures the signal, for example, a microphone (not shown) associated with a speech recognition system, the observed waveform mixtures xpcm1 and xpcm2 are The alignment and scaling module 102 aligns and scales. Such alignment and scaling operations are well known in the art of audio signal processing. Any suitable alignment and scaling techniques can be used.

次に、第1及び第2フィーチャ抽出装置104及び106において、それぞれ、整列した及びスケーリングされた波形混合 xpcm1 及び xpcm2 から、ケプストラル・フィーチャが抽出される。ケプストラル・フィーチャ抽出のための技術は、音声信号処理の分野では周知である。任意の適当な抽出技術が使用可能である。   Next, cepstral features are extracted from the aligned and scaled waveform mixes xpcm1 and xpcm2 in first and second feature extraction devices 104 and 106, respectively. Techniques for cepstral feature extraction are well known in the field of audio signal processing. Any suitable extraction technique can be used.

次に、フィーチャ抽出装置104及び106によってそれぞれ出力されたセプトラル混合 x1 及び x2 が、本発明に従ってソース分離モジュール108によって分離される。ソース分離モジュール108の出力が、音声認識を適用すべき所望のソース、例えば、この場合には、算定ソース信号y1 の算定値であることが望ましいことは明らかである。ソース分離モジュール108がインプリメントし得る例示的なソース分離プロセスが図2及び図3に関連して詳細に後述される。   Next, the septal mixtures x1 and x2 output by the feature extractors 104 and 106, respectively, are separated by a source separation module 108 according to the present invention. Obviously, it is desirable that the output of the source separation module 108 is the desired source to which speech recognition is to be applied, for example, in this case the calculated value of the calculated source signal y1. An exemplary source separation process that the source separation module 108 may implement is described in detail below with respect to FIGS.

そこで、ソース分離モジュール108によって出力された、例えば、算定ソース信号 y1 に関連する機能強化されたケプストラル・フィーチャが正規化され、更に、事後分離処理モジュール110において処理される。モジュール110において遂行され得る処理技術の例は、ダイナミック・フィーチャ又はデルタ及びデルタ・デルタ・ケプストラル・フィーチャとも呼ばれ、これらのダイナミック・フィーチャが音声の一時的構造に関する情報(例えば、前記chapter 3 における Rabiner 氏他による文献参照)を保持するとき、それの第1及び第2オ−ダの一時的デリバティブ(first andsecond order temporal derivatives)を計算してそれをケプストラル・フィーチャのベクトルに付加することを含むが、それに限定されない。   The enhanced cepstral features associated with, for example, the calculated source signal y1 output by the source separation module 108 are then normalized and further processed in the post separation processing module 110. Examples of processing techniques that may be performed in the module 110 are also referred to as dynamic features or delta and delta delta cepstral features, where these dynamic features include information about the temporal structure of speech (eg, Rabiner in chapter 3 above). (See references by Mr. et al.), Including calculating its first and second order temporal derivatives and appending it to a vector of cepstral features. , But is not limited thereto.

最後に、算定ソース信号 y1 が、デコーディングのために音声認識エンジン112に送られる。音声認識を遂行するための技術は、音声信号処理の分野では周知である。任意の適当な認識技術が使用可能である。   Finally, the calculated source signal y1 is sent to the speech recognition engine 112 for decoding. Techniques for performing speech recognition are well known in the field of speech signal processing. Any suitable recognition technique can be used.

次に、図2及び図3を参照すると、それぞれ、本発明の実施例によるソース分離プロセスの第1部分及び第2部分の流れ図が示される。更に詳しく言えば、図2及び図3は、それぞれ、本発明の実施例に従ってソース分離プロセスの各反復を形成する2つのステップを示す。   Referring now to FIGS. 2 and 3, there are shown flowcharts of a first portion and a second portion, respectively, of a source isolation process according to an embodiment of the present invention. More specifically, FIGS. 2 and 3, respectively, show two steps forming each iteration of the source separation process according to an embodiment of the present invention.

先ず、プロセスは、時間 t において、y1(0,t)を、被観察混合x1(t) に等しくセットすることによって、即ち、各タイム・インデックス t に対して y1(0,t) = x1(t) をセットすることによって初期設定される。   First, at time t, the process sets y1 (0, t) equal to the observed mixture x1 (t), i.e., for each time index t, y1 (0, t) = x1 ( Initialized by setting t).

図2に示されるように、反復n(n&#8805;1)の第1ステップ200Aは、ランダム変数 y2 のpdfが k=1 乃至 K を有する K 個のガウス混合 N(μ2k,Σ2k) でもってモデル化されること(但し、N は平均的μ2k 及び差異Σ2k のガウスpdfを指す)を仮定することによって、被観察混合 x2 から及び算定された値 y1(n-1,t) から(但し、y1(0,t)はx1(t) でもって初期設定される)時間(t)におけるソース y2 の算定 y2(n,t) を計算することを含む。そのステップは、次のように表される:
y2(n,t) = x2(t)-Σkp(k|x2(t))g(μ2k,y1(n-1,t),a) (3)
なお、p(k|x2(t)) は、ランダム変数 x2 がガウス分布N(μ2k+g(μ2k,y(n-1,t),a),Ξ2k(n,t)) に後続するものと仮定することによって、サブステップ202(ガウスkに対する事後計算)において計算される(なお、Ξ2k(n,t)は、ランダム変数x2 の差異を概算するために計算される。なお、g(u,v,w)=C log(1+w exp(invC(v-u))) である)。サブステップ204がp(k|x2(t)) と g(μ2k,y1(n-1,t),a) との乗算を行い、一方、サブステップ206が x2(t) と Σp(k|x2(t))g(μ2k,y1(n-1,t),a)との減算を行う。その結果は、算定ソース y2(n,t) である。
As shown in FIG. 2, the first step 200A of the iteration n (n &#8805; 1) is performed with K Gaussian mixtures N (μ2k, Σ2k) in which the pdf of the random variable y2 has k = 1 to K. By assuming that it is modeled (where N refers to a Gaussian pdf of mean μ2k and difference Σ2k), from the observed mixture x2 and from the calculated value y1 (n-1, t), y1 (0, t) is initialized with x1 (t)) and involves calculating the estimate y2 (n, t) of source y2 at time (t). The steps are represented as follows:
y2 (n, t) = x2 (t) -Σ k p (k | x2 (t)) g (μ2k, y1 (n-1, t), a) (3)
Note that p (k | x2 (t)) is the random variable x2 following the Gaussian distribution N (μ2k + g (μ2k, y (n-1, t), a), Ξ2k (n, t)) Is calculated in sub-step 202 (post-calculation for Gauss k), where Ξ2k (n, t) is calculated to approximate the difference in random variable x2, where g (u , v, w) = C log (1 + w exp (invC (vu)))). Substep 204 performs a multiplication of p (k | x2 (t)) with g (μ2k, y1 (n-1, t), a), while substep 206 performs x2 (t) and Σ k p ( k | x2 (t)) g (μ2k, y1 (n-1, t), a) is subtracted. The result is the calculation source y2 (n, t).

図3に示されるように、反復n(n&#8805;1)の第2ステップ200Bは、ランダム変数 y1 のpdfが k=1 乃至 K を有する K 個のガウス混合 N(μ1k,Σ1k) でもってモデル化されること(但し、N は平均的μ1k 及び差異Σ1k のガウスpdfを指す)を仮定することによって、被観察混合 x1 から及び算定された値 y2(n,t) から時間(t)におけるソースy1 の算定 y1(n,t) を計算することを含む。そのステップは、次のように表される:
y1(n,t) = x1(t)-Σkp(k|x1(t))g(μ1k,y2(n,t),1) (4)
なお、p(k|x1(t)) は、ランダム変数 x1 がガウス分布N(μ1k+g(μ1k,y2(n,t),1),Ξ1k(n,t)) に後続するものと仮定することによって、サブステップ208(ガウスkに対する事後計算)において計算される(なお、Ξ1k(n,t)は、ランダム変数x1 の差異を概算するために計算される。なお、g(u,v,w)=C log(1+w exp(invC(v-u))) である)。サブステップ210がp(k|x1(t)) と g(μ1k,y2(n,t),1) との乗算を行い、一方、サブステップ212が x1(t) と Σp(k|x1(t))g(μ1k,y2(n,t),1)との減算を行う。その結果は、算定ソース y1(n,t) である。
As shown in FIG. 3, the second step 200B of the iteration n (n &#8805; 1) is performed with K Gaussian mixtures N (μ1k, Σ1k) in which the pdf of the random variable y1 has k = 1 to K. By assuming to be modeled (where N refers to the Gaussian pdf of the mean μ1k and the difference Σ1k), from the observed mixture x1 and from the calculated value y2 (n, t) at time (t) Includes calculating the calculation y1 (n, t) of source y1. The steps are represented as follows:
y1 (n, t) = x1 (t) -Σ k p (k | x1 (t)) g (μ1k, y2 (n, t), 1) (4)
Note that p (k | x1 (t)) assumes that the random variable x1 follows the Gaussian distribution N (μ1k + g (μ1k, y2 (n, t), 1), Ξ1k (n, t)) By doing so, it is calculated in sub-step 208 (post-calculation for Gaussian k) (note that Ξ1k (n, t) is calculated to approximate the difference in random variable x1; g (u, v , w) = C log (1 + w exp (invC (vu)))). Substep 210 performs a multiplication of p (k | x1 (t)) and g (μ1k, y2 (n, t), 1), while substep 212 performs x1 (t) and Σ k p (k | x1 (t)) g (μ1k, y2 (n, t), 1) is subtracted. The result is the calculation source y1 (n, t).

M 個の反復が行われた後(M1)、t=1 乃至 T の場合の T 個のケプストラル・フィーチャ・ベクトルy1(M,t)の算定ストリームがデコーディングのために音声認識エンジンに送られる。t=1 乃至 T の場合の T 個のケプストラル・フィーチャ・ベクトルy2(M,t)の算定ストリームが、それがデコードされないとき、廃棄される。 データ y1 のストリームが、ストリーム x1 及び x2 を捕捉するマイクロフォンの相対的位置に基づいてデコードされるべきソースであると決定される。デコードされるべき音声ソースに近接して置かれているマイクロフォンが信号x1 を捕捉する。デコードされるべき音声ソースから遠く離れて置かれているマイクロフォンが信号 x2 を捕捉する。   After M iterations have been performed (M1), a computational stream of T cepstral feature vectors y1 (M, t) for t = 1 to T is sent to the speech recognition engine for decoding. . The computed stream of T cepstral feature vectors y2 (M, t) for t = 1 to T is discarded when it is not decoded. The stream of data y1 is determined to be the source to be decoded based on the relative positions of the microphones capturing streams x1 and x2. A microphone located in close proximity to the audio source to be decoded captures signal x1. A microphone located far from the audio source to be decoded captures the signal x2.

本発明の前述した例示的ソース捕捉プロセスを更に詳しく説明すると、前に指摘したように、ソース捕捉プロセスは、各反復nのステップ200A及び200Bにおいて、それぞれ、使用される被観察混合 x1 及び x2 の共分散マトリクス Ξ1k(n,t) 又は Ξ2k(n,t) を算定する。共分散マトリクス Ξ1k(n,t) 又は Ξ2k(n,t)は、被観察混合からオン・ザ・フライで計算されるか、又は2つの 「log-正規分布したランダム変数」の和の指数に起因するランダム変数の共分散マトリクスを定義する並列モデル結合(ParallelModel Combination - PMC)方程式に従って計算され得る。これに関しては、例えば、IEEE Transactions on Speechand Audio Processing 誌の vol.4, 1996 における「Robust Continuous Speech RecognitionUsing Parallel Model Combination」と題した M.J.F. Gales 氏他による論文を参照してほしい。   To elaborate on the above-described exemplary source capture process of the present invention, as pointed out above, the source capture process, at each iteration n, steps 200A and 200B, respectively, of the observed mixtures x1 and x2 used, Calculate the covariance matrix Ξ1k (n, t) or Ξ2k (n, t). The covariance matrix Ξ1k (n, t) or Ξ2k (n, t) is calculated on-the-fly from the observed mixture or is the exponent of the sum of two “log-normally distributed random variables”. It can be calculated according to a Parallel Model Combination (PMC) equation that defines the covariance matrix of the resulting random variables. See, for example, a paper by M.J.F. Gales et al. Entitled "Robust Continuous Speech Recognition Using Parallel Model Combination" in IEEE Transactions on Speechand Audio Processing, vol. 4, 1996.

PMC方程式は、次のように使用され得る。μ1 及び Ξ1 は、それぞれ、ケプストラル・ドメインにおけるガウス・ランダム変数z1 の平均的マトリクス及び共分散マトリクスであると仮定する。μ2 及びΞ2 は、それぞれ、ケプストラル・ドメインにおけるガウスのランダム変数 z2 の平均的マトリクス及び共分散マトリクスであると仮定する。z1f=invClog(z1) 及び z2f=invC log(z2) は、ランダム変数 z1 及び z2 をスペクトル・ドメインに変換することによって得られるランダム変数であると仮定する。zf= z1f+z2f がランダム変数 z1f 及び z2f の和であると仮定する。そこで、PCM方程式は、ランダム変数 zf をケプストラル・ドメインに変換することによって得られるランダム変数z = C log(zf) の共分散マトリクスΞを次のように計算することを可能にする。
Ξij = log[((Ξ1fij+Ξ2fij)/((μ1fi+μ2fi)(μ1fj+μ2fj)))+1]
なお、Ξ1fij(resp., Ξ2fij) は、Ξ1fij =μ1fi*μ1fj(exp(Ξ1fij)-1)(resp.,Ξ2fij=μ2fi*μ2fj(exp(Ξ2fij-1))として定義された共分散マトリクスΞ1f (resp., Ξ2f) における (i,j)th 素子を示し、μ1fi(resp.,μ2fi) は、ベクトルμ1f(resp., μ2f) の ith 次元を指し、μ1fi=exp(μ1i+Ξ1ij/2))(resp., μ2fi=exp(μ2i+(Ξ2ij/2))) である。
The PMC equation can be used as follows. Let μ1 and Ξ1 be the average and covariance matrices of the Gaussian random variable z1 in the cepstral domain, respectively. Suppose that μ2 and Ξ2 are the average and covariance matrices of the Gaussian random variable z2 in the cepstral domain, respectively. Assume that z1f = invClog (z1) and z2f = invClog (z2) are random variables obtained by transforming random variables z1 and z2 into the spectral domain. Assume that zf = z1f + z2f is the sum of random variables z1f and z2f. Thus, the PCM equation makes it possible to calculate the covariance matrix の of the random variable z = C log (zf) obtained by transforming the random variable zf into the cepstral domain as follows:
Ξ ij = log [((Ξ1f ij + Ξ2f ij ) / ((μ1f i + μ2f i ) (μ1f j + μ2f j ))) + 1]
Note that Ξ1f ij (resp., Ξ2f ij ) is Ξ1f ij = μ1f i * μ1f j (exp (Ξ1f ij ) -1) (resp., Ξ2f ij = μ2f i * μ2f j (exp (Ξ2f ij -1) ) Indicates the (i, j) th element in the covariance matrix Ξ1f (resp., Ξ2f), and μ1f i (resp., Μ2f i ) indicates the i th dimension of the vector μ1f (resp., Μ2f). Μ1f i = exp (μ1 i + Ξ1 ij / 2)) (resp., Μ2f i = exp (μ2 i + (Ξ2 ij / 2))).

以下で明らかであるように、種々の話しての音声が自動車のノイズと混合される場合の実験では、音声ソースのpdfは、32個のガウス混合でもってモデル化され、ノイズ・ソースのpdfは、2個のガウス混合でもってモデル化される。テスト・データに関する限り、音声に対する32個のガウス混合及びノイズに対する2個のガウス混合は、認識精度及び複雑性の間の良好なトレードオフに相当するように見える。更に複雑なpdfを有するソースは更に多くのガウス混合を伴なうことがある。   As will be apparent below, in experiments where various spoken voices are mixed with car noise, the pdf of the voice source is modeled with 32 Gaussian mixtures and the pdf of the noise source is , Modeled with two Gaussian mixtures. As far as test data is concerned, 32 Gaussian mixtures for speech and 2 Gaussian mixtures for noise seem to represent a good trade-off between recognition accuracy and complexity. Sources with more complex pdfs may involve more Gaussian mixing.

最後に、図4を参照すると、本発明の実施例によるソース分離プロセス(例えば、図1、図2及び図3に示されるような)を組み込んだ音声認識システムの例示的インプリメンテーションのブロック図が示される。この特定のインプリメンテーション300では、本明細書において開示された操作(例えば、アライメント、スケーリング、フィーチャ抽出、ソース分離、事後分離処理、及び音声認識)を制御及び実行するためのプロセッサ302がコンピュータ・バス308を介してメモリ304及びユーザ・インターフェース306に結合される。   Finally, referring to FIG. 4, a block diagram of an exemplary implementation of a speech recognition system incorporating a source separation process (eg, as shown in FIGS. 1, 2 and 3) according to an embodiment of the present invention. Is shown. In this particular implementation 300, a processor 302 for controlling and performing the operations disclosed herein (eg, alignment, scaling, feature extraction, source separation, post-separation processing, and speech recognition) is implemented on a computer. Coupled to memory 304 and user interface 306 via bus 308.

本明細書において使用される用語「プロセッサ」は、たとえば、CPU(中央処理装置)及び(又は)他の適当な処理回路を含む装置のような任意の処理装置を含むように意図される。例えば、プロセッサは、従来技術において知られているようなディジタル信号プロセッサであってもよい。また、用語「プロセッサ」は、複数の個々のプロセッサを指してもよい。本明細書において使用される用語「メモリ」は、例えば、RAM、ROM、固定メモリ・デバイス(例えば、ハード・ドライブ)、取り外し可能メモリ・デバイス(例えば、フロッピ・ディスク)等のようなプロセッサ又はCPUに関連したメモリを含むように意図される。更に、本明細書において使用される用語「ユーザ・インターフェース」は、例えば、音声データを処理ユニットに入力するためのマイクロフォン及び、望ましくは、音声認識プロセスと関連した結果を表示するための可視表示装置を含むように意図される。   The term "processor" as used herein is intended to include any processing device, such as, for example, a device including a CPU (central processing unit) and / or other suitable processing circuitry. For example, the processor may be a digital signal processor as known in the art. Also, the term “processor” may refer to a plurality of individual processors. As used herein, the term “memory” refers to a processor or CPU, such as, for example, RAM, ROM, fixed memory devices (eg, hard drives), removable memory devices (eg, floppy disks), etc. It is intended to include memory associated with Further, as used herein, the term "user interface" refers to, for example, a microphone for inputting audio data to a processing unit and, preferably, a visual display device for displaying results associated with a voice recognition process. It is intended to include

従って、本明細書に開示されたような本発明の方法を遂行するための命令又はコードを含むコンピュータ・ソフトウェアが1つ又はそれ以上の関連のメモリ・デバイス(例えば、ROM、固定メモリ又は取り外し可能メモリ)に記憶され得るし、利用の準備ができているときには、部分的に又は全体的に(例えば、RAMに)ロードされ、そしてCPUによって実行され得る。   Accordingly, computer software containing instructions or code for performing the methods of the present invention as disclosed herein may comprise one or more associated memory devices (eg, ROM, fixed memory, or removable memory). Memory) and when ready for use, may be partially or fully loaded (eg, into RAM) and executed by the CPU.

いずれにしても、図1、図2及び図3に示された素子は、ハードウェア、ソフトウェア、或いはそれらの結合という種々の形式で、例えば、関連のメモリを有する1つ又はそれ以上のディジタル信号プロセッサ、アプリケーション独特の集積回路、機能的回路、関連のメモリを有する1つ又はそれ以上の適切にプログラムされた汎用ディジタル・コンピュータの形式でインプリメントされ得る。更に、本発明の方法は、実行時に本発明の方法のステップをインプリメントする1つ又はそれ以上のプログラムを含むマシン可読媒体においても具体化され得る。本願において提供された本発明に関する教示があれば、当業者は、本発明の構成要素における別のインプリメンテーションを予想することができるであろう。   In any event, the elements shown in FIGS. 1, 2 and 3 may be implemented in various forms of hardware, software, or a combination thereof, for example, one or more digital signals having an associated memory. It may be implemented in the form of one or more suitably programmed general purpose digital computers having a processor, application specific integrated circuits, functional circuits, and associated memory. Further, the method of the present invention may be embodied in a machine-readable medium that includes one or more programs that, when executed, implement the steps of the method of the present invention. Given the teachings provided herein regarding the present invention, those skilled in the art will be able to contemplate alternative implementations of the components of the present invention.

次に、音声と混合された信号が自動車の騒音である場合、音声認識と関連して使用される本発明の実施例に関する例示的評価を行うことにする。先ず、評価プロトコルが説明され、しかる後、本発明のソース分離プロセス(以下では、「コードブック従属ソース分離プロセス(codebook dependent source separation process)」又は「CDSS」と呼ばれる)に従って得られた認識スコアが、如何なる分離プロセスも無くて得られたスコアと比較され、更に、上記のMCDCNプロセスによって得られたスコアと比較される。   Next, an exemplary evaluation of an embodiment of the present invention used in connection with speech recognition, where the signal mixed with the speech is vehicle noise, will be performed. First, the evaluation protocol is described, after which the recognition scores obtained according to the source separation process of the present invention (hereinafter referred to as “codebook dependent source separation process” or “CDSS”) are obtained. , Is compared to the score obtained without any separation process, and further compared to the score obtained by the MDCCN process described above.

実験は、非走行車において、連結したディジット・シ−ケンスを発する12人の男性及び女性被験者のコーパス(corpus)に関して行われる。60mph(約96.5km/時間)の速度の自動車における事前記録されたノイズ信号が、1又は「a」の係数によって加重音声信号に人為的に加えられ、従って、音声波形及びノイズ波形の2つの異なる線形混合(前述のように「ypcm1+ypcm2」及び「aypcm1+ypcm2」が生じる。なお、ypcm1 は音声波形を指し、ypcm2 はノイズ波形を指す)。係数「a」を0.3、0.4、及び0.5にセットした場合の実験が行われた。音声及びノイズのすべてのレコーディングがAKG O400マイクロフォンによって22kHzで行われ、11kHz にダウンサンプルされた。   The experiment is performed on a corpus of twelve male and female subjects emitting a connected digit sequence in a non-moving vehicle. A pre-recorded noise signal in a car at a speed of 60 mph (approximately 96.5 km / hr) is artificially added to the weighted audio signal by a factor of 1 or "a", and therefore has two waveforms: an audio waveform and a noise waveform Different linear mixtures ("ypcm1 + ypcm2" and "aypcm1 + ypcm2" occur as described above, where ypcm1 refers to the speech waveform and ypcm2 refers to the noise waveform). Experiments were performed with coefficient "a" set to 0.3, 0.4, and 0.5. All recordings of speech and noise were made at 22 kHz with an AKG O400 microphone and downsampled to 11 kHz.

音声ソースのpdfをモデル化するためには、男性及び女性の両方によって発せられ、非走行の自動車及びノイズの無い環境においてAKG Q400マイクロフォンでもって記録された数千のセンテンスの集合体に関して32個のガウス混合が算定された。自動車ノイズのpdfをモデル化するために、テスト・データに対する設定と同じ設定を使用して、60mph(約96.5km/時間)の速度の自動車においてAKG Q400でもって記録された約4分のノイズに関し(実験に先立って)2個のガウス混合が算定された。   To model the pdf of an audio source, 32 of a collection of thousands of sentences emitted by both men and women and recorded with an AKG Q400 microphone in a non-moving car and noise-free environment were used. Gaussian mixture was calculated. Approximately 4 minutes of noise recorded with an AKG Q400 in a 60 mph (approximately 96.5 km / hr) vehicle using the same settings as for the test data to model the pdf of the vehicle noise For each (prior to the experiment) two Gaussian mixtures were calculated.

音声認識エンジンによってデコードされる音声及びノイズの混合は、
(A)分離されない、又は
(B)MCDCNプロセスによって分離される、又は
(C)CDSSプロセスによって分離される。
上記(A)、(B)及び(C)によって得られた音声認識エンジンのパフォーマンスがワード・エラー率(Word Error Rates - WER)によって比較される。
The mixture of speech and noise decoded by the speech recognition engine is
(A) not separated, or (B) separated by MDCCN process, or (C) separated by CDSS process.
The performance of the speech recognition engine obtained by the above (A), (B) and (C) is compared by Word Error Rates (WER).

その実験において使用された音声認識エンジンは、特に、携帯可能な装置において又は自動車のアプリケーションにおいて使用される。そのエンジンは、約10,000個のコンテキスト従属のガウス、即ち、一般的な英語の音声を数百時間も訓練された(これらの訓練データの約半分が自動車ノイズをディジタル的に付加したか、又は30mph及び60mph(約48km/時間及び約96.5km/時間)の速度で走行する自動車において記録された)決定木(decision tree)を使用することにより結束されたトライフォン・コンテキスト(triphonecontext)を有するスピーカ独立型の音響モデル(英語の音声をカバーする156個のサブフォン(subphone))のセットを含む。これに関しては、(Proceedingsof ICASSP 1995 誌の vol. 1, pp. 41-44 における「Performance of the IBM LargeVocabulary Continuous Speech Recognition System on the ARPA Wall Street JournalTask」 と題した L.R. Bahl 氏他による論文を参照してほしい)。システムのフロント・エンドは、24個のメルフィルタ・バンクを使用して15ms フレームから12個のセプストラ+エネルギ+デルタ及びデルタ−デルタ係数を計算する(例えば、前記のRabiner 氏他による chapter 3 の文献を参照してほしい)。   The speech recognition engine used in that experiment is used in particular in portable devices or in automotive applications. The engine was trained with about 10,000 context-dependent Gaussian, or general English, voices for hundreds of hours (approximately half of these training data digitally added car noise, Or a triphone context united by using a decision tree (recorded in a car traveling at speeds of 30 mph and 60 mph (about 48 km / hour and about 96.5 km / hour)). And a set of speaker independent acoustic models (156 subphones covering English voice). (See the paper by LR Bahl et al., Entitled "Performance of the IBM Large Vocabulary Continuous Speech Recognition System on the ARPA Wall Street JournalTask," in Proceedings of ICASSP 1995, vol. 1, pp. 41-44. want). The front end of the system computes twelve Sepstra + energy + delta and delta-delta coefficients from a 15 ms frame using a 24 mel filter bank (see, for example, Rabiner et al., Chapter 3, supra). Please see).

CDSSプロセスは、一般的に上記したように適用され、図1、図2、及び図3に関連して例示的に上記したように適用されることが望ましい。   The CDSS process is generally applied as described above, and is preferably applied as exemplified above in connection with FIGS. 1, 2, and 3.

下記の表1は、テスト・データをデコードした後に得られたワード・エラー率(WER)を示す。ノイズの付加前のきれいな音声において得られたWERは1.53%である。ノイズの付加後の且つ如何なる分離プロセスも使用せずにノイズのある音声において得られたWERは12.31%である。参照信号として第2混合(「ayf1+yf2」)を使用してMCDCNプロセス使用した後に得られたWERが、混合係数「a」の種々な値に対して与えられる。MCDCNは、参照信号における音声の漏洩が小さい(a= 0.3)ときにWERの減少を与えるが、漏洩がもっと重要になるに従ってそれのパフォーマンスは低下し、0.5に等しい係数「a」に対しては、MCDCNプロセスは、12.31%のベースラインWERよりも悪くなる。一方、CDSSプロセスは、係数「a」のすべての実験値に対してベースラインWERを大いに改善する。   Table 1 below shows the word error rate (WER) obtained after decoding the test data. The WER obtained for a clean speech before adding noise is 1.53%. The WER obtained in noisy speech after the addition of noise and without using any separation process is 12.31%. The WER obtained after using the MCDCN process using the second mixture ("ayf1 + yf2") as the reference signal is given for various values of the mixing coefficient "a". The MCDCN provides a reduction in WER when the speech leakage in the reference signal is small (a = 0.3), but its performance decreases as the leakage becomes more important, with a coefficient "a" equal to 0.5. , The MDCCN process is worse than the 12.31% baseline WER. On the other hand, the CDSS process greatly improves the baseline WER for all experimental values of the coefficient "a".

(表1)
オリジナル音声 1.53
ノイズのある音声、分離無し 12.31
a = 0.3 a = 0.4 a = 0.5
ノイズのある音声、MCDCN 7.86 10.00 15.51
ノイズのある音声、CDSS 6.35 6.87 7.59
(Table 1)
Original sound 1.53
Noisy voice, no separation 12.31
a = 0.3 a = 0.4 a = 0.5
Noisy voice, MCDCN 7.86 10.00 15.51
Noisy voice, CDSS 6.35 6.87 7.59

添付図面を参照して本発明の実施例を説明したけれども、本発明がそれらの実施例そのものに限定されないこと、及び、本発明の範囲又は精神から逸脱することなく、他の種々な変更及び修正が当業者によって行われ得ることは当然である。   Although the embodiments of the present invention have been described with reference to the accompanying drawings, the present invention is not limited to the embodiments themselves, and various other changes and modifications can be made without departing from the scope or spirit of the present invention. Can be performed by those skilled in the art.

まとめとして、本発明の構成に関して以下の事項を開示する。   In summary, the following matters are disclosed regarding the configuration of the present invention.

(1)第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離する方法であって、
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るステップと、
前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するステップと、
を含む方法。
(2)前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、上記(1)に記載の方法。
(3)前記分離するステップが、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより前記非線型ドメインにおいて遂行される、上記(2)に記載の方法。
(4)前記分離するステップが、前記第2ケプストラル混合信号と前記分離するステップにおける前の反復からの前記第1ソース信号に関する算定値とに基づいて前記第2ソース信号に関する算定値を反復的に生成するステップを含む、上記(3)に記載の方法。
(5)前記第2ソース信号に関する算定値を生成するステップは、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、上記(4)に記載の方法。
(6)前記分離するステップが、更に、前記第1ケプストラル混合信号と前記第2ソース信号に関する算定値とに基づいて前記第1ソース信号に関する算定値を反復的に生成するステップを含む、上記(4)に記載の方法。
(7)前記第1ソース信号に関する算定値を生成するステップは、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、上記(6)に記載の方法。
(8)前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、上記(1)に記載の方法。
(9)前記アプリケーションが音声認識である、上記(8)に記載の方法。
(10)前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、上記(1)に記載の方法。
(11)第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するための装置であって、
メモリと、
前記メモリに結合され、(i)前記第1ソース信号及び前記第2ソース信号の2つの体をそれぞれ表す2つの混合信号を得るように動作し、(ii)前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するように動作する少なくとも1つのプロセッサと、
を含む装置。
(12)前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、上記(11)に記載の装置。
(13)前記分離する操作が、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより、前記非線型ドメインにおいて遂行される、上記(12)に記載の装置。
(14)前記分離する操作が、前記第2ケプストラル混合信号及び前記分離する操作における前の反復からの前記第1ソース信号に関する算定値に基づいて前記第2ソース信号に関する算定値を反復的に生成する操作を含む、上記(13)に記載の装置。
(15)前記第2ソース信号に関する算定値を生成する操作は、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、上記(14)に記載の装置。
(16)前記分離する操作が、更に、前記第1ケプストラル混合信号及び前記第2ソース信号に関する算定値に基づいて前記第1ソース信号に関する算定値を反復的に生成する操作を含む、上記(14)に記載の装置。
(17)前記第1ソース信号に関する算定値を生成する操作は、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、上記(16)に記載の装置。
(18)前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、上記(11)に記載の装置。
(19)前記アプリケーションが音声認識である、上記(18)に記載の装置。
(20)前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、上記(11)に記載の装置。
(21)第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するためのコンピュータ・プログラムであって、
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るステップと、
前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するステップと、
を、実行時にインプリメントする1つ又はそれ以上のプログラムを含むマシン可読媒体を構成するコンピュータ・プログラム。
(22)前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、上記(21)に記載のコンピュータ・プログラム。
(23)前記分離するステップが、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより、前記非線型ドメインにおいて遂行される、上記(22)に記載のコンピュータ・プログラム。
(24)前記分離するステップが、前記第2ケプストラル混合信号及び前記分離するステップにおける前の反復からの前記第1ソース信号に関する算定値に基づいて前記第2ソース信号に関する算定値を反復的に生成するステップを含む、上記(23)に記載のコンピュータ・プログラム。
(25)前記第2ソース信号に関する算定値を生成するステップは、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、上記(24)に記載のコンピュータ・プログラム。
(26)前記分離するステップが、更に、前記第1ケプストラル混合信号及び前記第2ソース信号に関する算定値に基づいて前記第1ソース信号に関する算定値を反復的に生成するステップを含む、上記(24)に記載のコンピュータ・プログラム。
(27)前記第1ソース信号に関する算定値を生成するステップは、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、上記(26)に記載のコンピュータ・プログラム。
(28)前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、上記(21)に記載のコンピュータ・プログラム。
(29)前記アプリケーションがは音声認識である、上記(28)に記載のコンピュータ・プログラム。
(30)前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、上記(21)に記載のコンピュータ・プログラム。
(31)第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するための装置であって、
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るための手段と、
前記2つの信号を得るための手段に結合され、前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するための手段と、
を含む装置。
(1) A method for separating a signal from a mixture of a signal related to a first source (a first source signal) and a signal related to a second source (a second source signal),
Obtaining two signals, each representing two mixtures of the first source signal and the second source signal;
Using the two signals and at least one known statistical property associated with the first source and the second source and without using a reference signal from the mixture in the non-linear signal domain Separating the first source signal;
A method that includes
(2) The above (1), wherein the two signals respectively represent an unweighted mixed signal of the first source signal and the second source signal and a weighted mixed signal of the first source signal and the second source signal. ).
(3) the step of separating is performed in the non-linear domain by converting the unweighted mixed signal into a first cepstral mixed signal and converting the weighted mixed signal into a second cepstral mixed signal. The method according to (2).
(4) the separating step iteratively calculates a calculated value for the second source signal based on the second cepstral mixed signal and a calculated value for the first source signal from a previous iteration in the separating step. The method according to (3), further comprising the step of generating.
(5) The method according to (4), wherein the step of generating an estimate for the second source signal assumes that the second source signal is modeled by Gaussian mixing.
(6) The step of separating further includes a step of repeatedly generating a calculated value for the first source signal based on the calculated value for the first cepstral mixed signal and the calculated value for the second source signal. The method according to 4).
(7) The method according to (6), wherein the step of generating an estimate for the first source signal assumes that the first source signal is modeled by Gaussian mixing.
(8) The method according to (1), wherein the separated first source signal is subsequently used by a signal processing application.
(9) The method according to (8), wherein the application is speech recognition.
(10) The above (1), wherein the first source signal is an audio signal, and the second source signal is a signal representing at least one of competing audio, interfering music, and a specific noise source. the method of.
(11) An apparatus for separating a signal from a mixture of a signal related to a first source (first source signal) and a signal related to a second source (second source signal),
Memory and
Coupled to the memory, operative to obtain two mixed signals respectively representing two bodies of the first source signal and the second source signal; and (ii) the two signals and the first source signal. And separating the first source signal from the mixture in the non-linear signal domain using at least one known statistical property associated with the second source and without requiring the use of a reference signal. At least one processor operating on
Equipment including.
(12) The above (11), wherein the two signals respectively represent an unweighted mixed signal of the first source signal and the second source signal and a weighted mixed signal of the first source signal and the second source signal. The device according to (1).
(13) the separating operation is performed in the non-linear domain by converting the non-weighted mixed signal into a first cepstral mixed signal and converting the weighted mixed signal into a second cepstral mixed signal; The device according to the above (12).
(14) the separating operation iteratively generating a calculated value for the second source signal based on the second cepstral mixed signal and a calculated value for the first source signal from a previous iteration of the separating operation. The apparatus according to the above (13), including an operation of performing the following.
(15) The apparatus according to (14), wherein the operation of generating an estimate for the second source signal assumes that the second source signal is modeled by Gaussian mixing.
(16) The method according to (14), wherein the separating operation further includes an operation of repeatedly generating a calculated value for the first source signal based on the calculated value for the first cepstral mixed signal and the second source signal. The device according to (1).
(17) The apparatus according to (16), wherein the operation of generating an estimate for the first source signal assumes that the first source signal is modeled by Gaussian mixing.
(18) The apparatus according to (11), wherein the separated first source signal is subsequently used by a signal processing application.
(19) The device according to (18), wherein the application is voice recognition.
(20) The above (11), wherein the first source signal is an audio signal, and the second source signal is a signal representing at least one of competing audio, interfering music, and a specific noise source. Equipment.
(21) A computer program for separating a signal from a mixture of a signal related to a first source (a first source signal) and a signal related to a second source (a second source signal),
Obtaining two signals, each representing two mixtures of the first source signal and the second source signal;
Using the two signals and at least one known statistical property associated with the first source and the second source and without using a reference signal from the mixture in the non-linear signal domain Separating the first source signal;
A computer program comprising a machine-readable medium including one or more programs that implement at runtime.
(22) The above (21), wherein the two signals respectively represent an unweighted mixed signal of the first source signal and the second source signal and a weighted mixed signal of the first source signal and the second source signal. The computer program according to (1).
(23) the separating is performed in the non-linear domain by converting the unweighted mixed signal into a first cepstral mixed signal and converting the weighted mixed signal into a second cepstral mixed signal; The computer program according to the above (22).
(24) the separating step iteratively generating a calculated value for the second source signal based on the second cepstral mixed signal and a calculated value for the first source signal from a previous iteration of the separating step. The computer program according to the above (23), comprising the step of:
(25) The computer program according to (24), wherein the step of generating an estimate for the second source signal assumes that the second source signal is modeled by Gaussian mixture.
(26) The above (24), wherein the step of separating further includes the step of repeatedly generating a calculated value for the first source signal based on the calculated value for the first cepstral mixed signal and the second source signal. The computer program according to (1).
(27) The computer program according to (26), wherein the step of generating an estimate for the first source signal assumes that the first source signal is modeled by Gaussian mixture.
(28) The computer program according to (21), wherein the separated first source signal is subsequently used by a signal processing application.
(29) The computer program according to (28), wherein the application is voice recognition.
(30) The above (21), wherein the first source signal is an audio signal, and the second source signal is a signal representing at least one of competing audio, interfering music, and a specific noise source. Computer programs.
(31) An apparatus for separating a signal from a mixture of a signal related to a first source (first source signal) and a signal related to a second source (second source signal),
Means for obtaining two signals respectively representing two mixtures of said first source signal and said second source signal;
Coupled to the means for obtaining the two signals, using the two signals and at least one known statistical property associated with the first source and the second source and requiring the use of a reference signal Means for separating the first source signal from the mixture in the non-linear signal domain, and
Equipment including.

本発明の実施例に従って音声認識システムにおけるソース分離プロセスの統合を示すブロック図である。FIG. 4 is a block diagram illustrating integration of a source separation process in a speech recognition system according to an embodiment of the present invention. 本発明の実施例に従ってソース分離プロセスの第1部分を示す流れ図である。5 is a flowchart illustrating a first part of a source separation process according to an embodiment of the present invention. 本発明の実施例に従ってソース分離プロセスの第2部分を示す流れ図である。5 is a flowchart illustrating a second part of the source separation process according to an embodiment of the present invention. 本発明の実施例に従ってソース分離プロセスを組み込んだ音声認識システムの例示的インプリメンテーションを示すブロック図である。FIG. 2 is a block diagram illustrating an exemplary implementation of a speech recognition system incorporating a source separation process according to an embodiment of the present invention.

Claims (31)

第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離する方法であって、
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るステップと、
前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するステップと、
を含む方法。
A method for separating a signal from a mixture of a signal associated with a first source (a first source signal) and a signal associated with a second source (a second source signal),
Obtaining two signals, each representing two mixtures of the first source signal and the second source signal;
Using the two signals and at least one known statistical property associated with the first source and the second source and without using a reference signal from the mixture in the non-linear signal domain Separating the first source signal;
A method that includes
前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、請求項1に記載の方法。   2. The signal of claim 1, wherein the two signals represent an unweighted mixed signal of the first source signal and the second source signal and a weighted mixed signal of the first source signal and the second source signal, respectively. 3. Method. 前記分離するステップが、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより前記非線型ドメインにおいて遂行される、請求項2に記載の方法。   3. The method of claim 2, wherein the separating is performed in the non-linear domain by converting the non-weighted mixed signal to a first cepstral mixed signal and converting the weighted mixed signal to a second cepstral mixed signal. The described method. 前記分離するステップが、前記第2ケプストラル混合信号と前記分離するステップにおける前の反復からの前記第1ソース信号に関する算定値とに基づいて前記第2ソース信号に関する算定値を反復的に生成するステップを含む、請求項3に記載の方法。   The separating step iteratively generating a calculated value for the second source signal based on the second cepstral mixed signal and a calculated value for the first source signal from a previous iteration of the separating step. 4. The method of claim 3, comprising: 前記第2ソース信号に関する算定値を生成するステップは、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、請求項4に記載の方法。   The method of claim 4, wherein generating an estimate for the second source signal assumes that the second source signal is modeled by Gaussian mixing. 前記分離するステップが、更に、前記第1ケプストラル混合信号と前記第2ソース信号に関する算定値とに基づいて前記第1ソース信号に関する算定値を反復的に生成するステップを含む、請求項4に記載の方法。   5. The method of claim 4, wherein the separating step further comprises: iteratively generating a calculated value for the first source signal based on the first cepstral mixed signal and a calculated value for the second source signal. the method of. 前記第1ソース信号に関する算定値を生成するステップは、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、請求項6に記載の方法。   7. The method of claim 6, wherein generating an estimate for the first source signal assumes that the first source signal is modeled by Gaussian mixing. 前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、請求項1に記載の方法。   The method of claim 1, wherein the separated first source signal is subsequently used by a signal processing application. 前記アプリケーションが音声認識である、請求項8に記載の方法。   The method of claim 8, wherein the application is speech recognition. 前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、請求項1に記載の方法。   The method of claim 1, wherein the first source signal is an audio signal and the second source signal is a signal representing at least one of competing audio, interfering music, and a particular noise source. 第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するための装置であって、
メモリと、
前記メモリに結合され、(i)前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るように動作し、(ii)前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するように動作する少なくとも1つのプロセッサと、
を含む装置。
An apparatus for separating a signal from a mixture of a signal associated with a first source (a first source signal) and a signal associated with a second source (a second source signal),
Memory and
Coupled to the memory, operable to obtain two signals, each representing two mixtures of the first source signal and the second source signal, and (ii) the two signals and the first source signal. And separating the first source signal from the mixture in the non-linear signal domain using at least one known statistical property associated with the second source and without requiring the use of a reference signal. At least one processor operating on
Equipment including.
前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、請求項11に記載の装置。   The method of claim 11, wherein the two signals represent a non-weighted mixed signal of the first and second source signals and a weighted mixed signal of the first and second source signals, respectively. apparatus. 前記分離する操作が、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより、前記非線型ドメインにおいて遂行される、請求項12に記載の装置。   13. The method of claim 12, wherein the separating is performed in the non-linear domain by converting the non-weighted mixed signal to a first cepstral mixed signal and converting the weighted mixed signal to a second cepstral mixed signal. An apparatus according to claim 1. 前記分離する操作が、前記第2ケプストラル混合信号及び前記分離する操作における前の反復からの前記第1ソース信号に関する算定値に基づいて前記第2ソース信号に関する算定値を反復的に生成する操作を含む、請求項13に記載の装置。   The separating operation includes an iteratively generating a calculated value for the second source signal based on the second cepstral mixed signal and a calculated value for the first source signal from a previous iteration of the separating operation. 14. The device of claim 13, comprising. 前記第2ソース信号に関する算定値を生成する操作は、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、請求項14に記載の装置。   15. The apparatus of claim 14, wherein generating an estimate for the second source signal assumes that the second source signal is modeled by Gaussian mixing. 前記分離する操作が、更に、前記第1ケプストラル混合信号及び前記第2ソース信号に関する算定値に基づいて前記第1ソース信号に関する算定値を反復的に生成する操作を含む、請求項14に記載の装置。   The method of claim 14, wherein the separating operation further comprises: iteratively generating an estimate for the first source signal based on the estimate for the first cepstral mixed signal and the second source signal. apparatus. 前記第1ソース信号に関する算定値を生成する操作は、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、請求項16に記載の装置。   17. The apparatus of claim 16, wherein generating an estimate for the first source signal assumes that the first source signal is modeled by Gaussian mixing. 前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、請求項11に記載の装置。   The apparatus of claim 11, wherein the separated first source signal is subsequently used by a signal processing application. 前記アプリケーションが音声認識である、請求項18に記載の装置。   19. The device of claim 18, wherein the application is speech recognition. 前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、請求項11に記載の装置。   The apparatus of claim 11, wherein the first source signal is an audio signal and the second source signal is a signal representing at least one of competing audio, interfering music, and a particular noise source. 第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するためのコンピュータ・プログラムであって、
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るステップと、
前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するステップと、
を、実行時にインプリメントする1つ又はそれ以上のプログラムを含むマシン可読媒体を構成するコンピュータ・プログラム。
A computer program for separating a signal from a mixture of a signal associated with a first source (a first source signal) and a signal associated with a second source (a second source signal),
Obtaining two signals, each representing two mixtures of the first source signal and the second source signal;
Using the two signals and at least one known statistical property associated with the first source and the second source and without using a reference signal from the mixture in the non-linear signal domain Separating the first source signal;
A computer program comprising a machine-readable medium including one or more programs that implement at runtime.
前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、請求項21に記載のコンピュータ・プログラム。   22. The signal of claim 21, wherein the two signals respectively represent an unweighted mixed signal of the first source signal and the second source signal and a weighted mixed signal of the first source signal and the second source signal. Computer program. 前記分離するステップが、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより、前記非線型ドメインにおいて遂行される、請求項22に記載のコンピュータ・プログラム。   23. The separating step is performed in the non-linear domain by converting the unweighted mixed signal to a first cepstral mixed signal and converting the weighted mixed signal to a second cepstral mixed signal. A computer program according to claim 1. 前記分離するステップが、前記第2ケプストラル混合信号及び前記分離するステップにおける前の反復からの前記第1ソース信号に関する算定値に基づいて前記第2ソース信号に関する算定値を反復的に生成するステップを含む、請求項23に記載のコンピュータ・プログラム。   The separating step comprises the step of iteratively generating a calculated value for the second source signal based on the second cepstral mixed signal and a calculated value for the first source signal from a previous iteration of the separating step. 24. The computer program according to claim 23, comprising: 前記第2ソース信号に関する算定値を生成するステップは、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、請求項24に記載のコンピュータ・プログラム。   26. The computer program of claim 24, wherein generating an estimate for the second source signal assumes that the second source signal is modeled by Gaussian mixing. 前記分離するステップが、更に、前記第1ケプストラル混合信号及び前記第2ソース信号に関する算定値に基づいて前記第1ソース信号に関する算定値を反復的に生成するステップを含む、請求項24に記載のコンピュータ・プログラム。   25. The method of claim 24, wherein the separating further comprises: iteratively generating a calculated value for the first source signal based on the calculated value for the first cepstral mixed signal and the second source signal. Computer program. 前記第1ソース信号に関する算定値を生成するステップは、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、請求項26に記載のコンピュータ・プログラム。   27. The computer program of claim 26, wherein generating an estimate for the first source signal assumes that the first source signal is modeled by Gaussian mixing. 前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、請求項21に記載のコンピュータ・プログラム。   22. The computer program of claim 21, wherein the separated first source signal is subsequently used by a signal processing application. 前記アプリケーションがは音声認識である、請求項28に記載のコンピュータ・プログラム。   29. The computer program according to claim 28, wherein the application is speech recognition. 前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、請求項21に記載のコンピュータ・プログラム。   22. The computer program of claim 21, wherein the first source signal is a speech signal and the second source signal is a signal representing at least one of competing speech, interfering music, and a particular noise source. . 第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するための装置であって、
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るための手段と、
前記2つの信号を得るための手段に結合され、前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するための手段と、
を含む装置。
An apparatus for separating a signal from a mixture of a signal associated with a first source (a first source signal) and a signal associated with a second source (a second source signal),
Means for obtaining two signals respectively representing two mixtures of said first source signal and said second source signal;
Coupled to the means for obtaining the two signals, using the two signals and at least one known statistical property associated with the first source and the second source and requiring the use of a reference signal Means for separating the first source signal from the mixture in the non-linear signal domain, and
Equipment including.
JP2003400576A 2002-12-10 2003-11-28 Method and apparatus for isolating signal sources Expired - Fee Related JP3999731B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/315,680 US7225124B2 (en) 2002-12-10 2002-12-10 Methods and apparatus for multiple source signal separation

Publications (2)

Publication Number Publication Date
JP2004191968A true JP2004191968A (en) 2004-07-08
JP3999731B2 JP3999731B2 (en) 2007-10-31

Family

ID=32468771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003400576A Expired - Fee Related JP3999731B2 (en) 2002-12-10 2003-11-28 Method and apparatus for isolating signal sources

Country Status (2)

Country Link
US (1) US7225124B2 (en)
JP (1) JP3999731B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012155339A (en) * 2005-06-28 2012-08-16 Microsoft Corp Improvement in multisensor sound quality using sound state model

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4000095B2 (en) * 2003-07-30 2007-10-31 株式会社東芝 Speech recognition method, apparatus and program
US7893872B2 (en) * 2006-04-27 2011-02-22 Interdigital Technology Corporation Method and apparatus for performing blind signal separation in an OFDM MIMO system
JP2011107603A (en) * 2009-11-20 2011-06-02 Sony Corp Speech recognition device, speech recognition method and program
CN102723081B (en) * 2012-05-30 2014-05-21 无锡百互科技有限公司 Voice signal processing method, voice and voiceprint recognition method and device
EP2887233A1 (en) * 2013-12-20 2015-06-24 Thomson Licensing Method and system of audio retrieval and source separation
CN110544488B (en) * 2018-08-09 2022-01-28 腾讯科技(深圳)有限公司 Method and device for separating multi-person voice

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4209843A (en) * 1975-02-14 1980-06-24 Hyatt Gilbert P Method and apparatus for signal enhancement with improved digital filtering
SE511496C2 (en) * 1995-05-03 1999-10-11 Ulf Lindgren Mixed source signal separation method
JP2000242624A (en) 1999-02-18 2000-09-08 Retsu Yamakawa Signal separation device
US7116271B2 (en) * 2004-09-23 2006-10-03 Interdigital Technology Corporation Blind signal separation using spreading codes

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012155339A (en) * 2005-06-28 2012-08-16 Microsoft Corp Improvement in multisensor sound quality using sound state model

Also Published As

Publication number Publication date
JP3999731B2 (en) 2007-10-31
US7225124B2 (en) 2007-05-29
US20040111260A1 (en) 2004-06-10

Similar Documents

Publication Publication Date Title
Kumar et al. Delta-spectral cepstral coefficients for robust speech recognition
Delcroix et al. Compact network for speakerbeam target speaker extraction
US6804640B1 (en) Signal noise reduction using magnitude-domain spectral subtraction
JPH07271394A (en) Removal of signal bias for sure recognition of telephone voice
CN108198566B (en) Information processing method and device, electronic device and storage medium
JP4061094B2 (en) Speech recognition apparatus, speech recognition method and program thereof
Stouten et al. Model-based feature enhancement with uncertainty decoding for noise robust ASR
JP4457221B2 (en) Sound source separation method and system, and speech recognition method and system
Wolfel et al. Minimum variance distortionless response spectral estimation
Saleem et al. Unsupervised speech enhancement in low SNR environments via sparseness and temporal gradient regularization
Takiguchi et al. PCA-Based Speech Enhancement for Distorted Speech Recognition.
JP2003532162A (en) Robust parameters for speech recognition affected by noise
Algazi et al. Transform representation of the spectra of acoustic speech segments with applications. I. General approach and application to speech recognition
US7319955B2 (en) Audio-visual codebook dependent cepstral normalization
JP3999731B2 (en) Method and apparatus for isolating signal sources
JPH10149191A (en) Method and device for adapting model and its storage medium
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
Kaur et al. Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition
JP2000194392A (en) Noise adaptive type voice recognition device and recording medium recording noise adaptive type voice recognition program
KR101610708B1 (en) Voice recognition apparatus and method
JP3250604B2 (en) Voice recognition method and apparatus
JP4464797B2 (en) Speech recognition method, apparatus for implementing the method, program, and recording medium therefor
Acero et al. Speech/noise separation using two microphones and a VQ model of speech signals.
Bagi et al. Improved recognition rate of language identification system in noisy environment
Techini et al. Robust Front-End Based on MVA and HEQ Post-processing for Arabic Speech Recognition Using Hidden Markov Model Toolkit (HTK)

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060620

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060912

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070809

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120817

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130817

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees