JP2005031524A - Speech signal extracting method and speech recognition device - Google Patents
Speech signal extracting method and speech recognition device Download PDFInfo
- Publication number
- JP2005031524A JP2005031524A JP2003272569A JP2003272569A JP2005031524A JP 2005031524 A JP2005031524 A JP 2005031524A JP 2003272569 A JP2003272569 A JP 2003272569A JP 2003272569 A JP2003272569 A JP 2003272569A JP 2005031524 A JP2005031524 A JP 2005031524A
- Authority
- JP
- Japan
- Prior art keywords
- filter
- signal
- audio signal
- outputs
- filter output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
この発明は、雑音(ノイズ)が存在する環境下において、音声信号成分とノイズ成分とを含む1の信号から音声信号のみを抽出する音声信号抽出方法およびその音声信号抽出方法を利用した音声認識装置に関する。 The present invention relates to a speech signal extraction method for extracting only a speech signal from one signal including a speech signal component and a noise component in an environment where noise exists, and a speech recognition apparatus using the speech signal extraction method. About.
複数のマイクロフォンからの複数入力信号を用いた信号抽出方式として、例えば非特許文献1に記載されるように、独立成分解析を用いた信号抽出方式がある。この信号抽出方式は音声とノイズとが統計的に独立であることに着目し、独立成分解析を用いて音声信号を抽出する。
独立成分解析を用いた音声信号抽出は高精度な抽出性能が期待される手法である。しかしながら従来技術には以下の問題点がある。まず、複数の入力信号を必要とする。すなわち「ノイズ成分の数+1(抽出すべき音声信号)」の入力信号が必要となる。ノイズ成分の数は時々刻々と変化するものであり、これは非現実的である。さらに、複数の入力信号を処理することに伴いハードウエアが複雑になる。 Speech signal extraction using independent component analysis is a technique that is expected to have high-precision extraction performance. However, the prior art has the following problems. First, a plurality of input signals are required. That is, an input signal “number of noise components + 1 (audio signal to be extracted)” is required. The number of noise components changes from moment to moment, which is unrealistic. Furthermore, the hardware becomes complicated as a plurality of input signals are processed.
本発明は、上記の点に鑑みてなされたもので、音声信号成分とノイズ成分とを含む1つの入力信号から音声信号を抽出することが可能な音声信号抽出方法およびその音声信号抽出方法を利用した音声認識装置を提供することを目的とする。 The present invention has been made in view of the above points, and uses an audio signal extraction method and an audio signal extraction method capable of extracting an audio signal from one input signal including an audio signal component and a noise component. An object of the present invention is to provide a voice recognition apparatus.
上記目的を達成するために、請求項1に記載の音声信号抽出方法においては、音声信号とそれ以外のノイズ信号とが統計的に独立であることに着目し、1つの入力信号を複数のフィルタによりお互いに統計的に独立な信号成分(フィルタ出力)に分解する。音声とノイズとは統計的に独立であると見なせるため、分解された信号成分の中に音声とノイズが混ざった信号成分は存在しない。そこで音声の信号成分を選び出し、選び出した信号成分から音声信号を取得することで音声信号の抽出を実現する。
In order to achieve the above object, in the audio signal extraction method according to
複数のフィルタを決定する場合、請求項2に記載したように、独立成分解析を用いて複数のフィルタを決定することができる。これにより、決定されたフィルタの出力は、統計的に独立したものとすることができる。なお、このフィルタの具体例として、請求項3に記載したように、デジタルFIR(Finite Impulse Filter)フィルタを用いたり、請求項4に記載したように、デジタルIIR(Infinite Impulse Filter)フィルタを用いたりすることができる。 When determining a plurality of filters, as described in claim 2, the plurality of filters can be determined using independent component analysis. Thereby, the output of the determined filter can be made statistically independent. As a specific example of this filter, a digital FIR (Finite Impulse Filter) filter is used as described in claim 3, or a digital IIR (Infinite Impulse Filter) filter is used as described in claim 4. can do.
請求項5に記載の音声信号抽出方法においては、音声信号を取得するためのフィルタ出力として、フィルタ出力がガウス分布から離れている順にN(N≧1)個のフィルタ出力を選択することを特徴とする。世の中に存在する雑音は一般にガウス分布に近い振幅分布特性を持つ。一方、音声信号はガウス分布から離れた振幅分布を有する。そこで、ガウス分布から最も離れた分布を持つ信号成分から順にある特定の個数の信号成分(フィルタ出力)を選び出すことで音声信号に対応するフィルタ出力を選択することができる。また、そのガウス分布によらず、請求項6に記載したように、各フィルタ出力の音声特徴量に基づいても、音声信号に対応するフィルタ出力を選択することができる。そして、このように選択したフィルタ出力が複数である場合には、請求項7に記載したように、その複数のフィルタ出力の和を取ることで音声信号を合成することができる。 6. The audio signal extraction method according to claim 5, wherein N (N ≧ 1) filter outputs are selected as filter outputs for acquiring the audio signal in the order in which the filter outputs are separated from the Gaussian distribution. And Noise existing in the world generally has an amplitude distribution characteristic close to a Gaussian distribution. On the other hand, the audio signal has an amplitude distribution separated from the Gaussian distribution. Therefore, a filter output corresponding to the audio signal can be selected by selecting a specific number of signal components (filter outputs) in order from the signal component having the distribution farthest from the Gaussian distribution. Moreover, regardless of the Gaussian distribution, as described in claim 6, it is possible to select a filter output corresponding to an audio signal based on the audio feature amount of each filter output. And when there are a plurality of filter outputs selected in this way, as described in claim 7, the audio signal can be synthesized by taking the sum of the plurality of filter outputs.
請求項8〜請求項14には、上述した音声信号抽出方法を利用した音声認識装置が記載される。すなわち、上述した音声信号抽出方法を利用して、音声信号を取得した後、その取得音声信号を認識する音声認識部を備える。このように、上述した音声信号抽出方法を利用して取得した音声信号を音声認識に用いることにより、音声認識の精度の向上を図ることができる。 Claims 8 to 14 describe a speech recognition apparatus using the above-described speech signal extraction method. That is, a voice recognition unit that recognizes the acquired voice signal after the voice signal is acquired using the voice signal extraction method described above is provided. As described above, the accuracy of speech recognition can be improved by using the speech signal acquired using the speech signal extraction method described above for speech recognition.
以下、本発明の実施形態について、図面を用いて説明する。図1は、本実施形態による音声認識装置20の構成を示すブロック図である。この音声認識装置20は、以下に説明する音声信号抽出方法を利用して音声信号を抽出し、その抽出した音声信号を認識するものである。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the
図1において、10はマイクであり、音声とともに、周囲の雑音(ノイズ)を含む信号を生成する。11は、マイク10によって生成された信号を入力信号とし、現在時点から1秒遡った時点までの、入力信号を記憶する信号記憶部である。なお、入力信号は、サンプリング周波数10000Hzでサンプリングされ、デジタル信号に変換して信号記憶部11に記憶される。従って、信号記憶部11には、現在時点から1秒遡った時点までの入力信号として、10000個のデジタル信号が記憶されることになる。
In FIG. 1,
この10000個のデジタル信号は、1秒ごとに複数フィルタ決定部12に送られる。複数フィルタ決定部12では、3つの長さ3のFIR(Finite Impulse Response)フィルタの係数が決定され、その係数を使って信号記憶部11から送られた10000個のデジタル信号を入力として、3つのフィルタ出力が計算される。複数フィルタ決定部12は、計算した3つのFIRフィルタ出力とFIRフィルタ係数とをフィルタ出力選択部13に送る。フィルタ出力選択部13は、ノイズ成分であることを示すガウス分布との非近似性に基づいて、そのガウス分布と離れた分布を持つ2つのフィルタ出力を選択する。
The 10,000 digital signals are sent to the multiple
音声信号合成部14は、フィルタ出力選択部13によって選択された2つのフィルタ出力と2つの振幅を指定する係数を受け取って音声信号を合成する。このようにして1秒の長さを持つ抽出音声信号が次々に合成される。
The audio
すなわち、音声信号成分とノイズ成分とを含む1つの入力信号から音声信号を抽出する音声信号抽出方法は、信号記憶部11から音声信号合成部14において、入力信号に対して施される処理全体によって実現されるものである。
That is, an audio signal extraction method for extracting an audio signal from one input signal including an audio signal component and a noise component is performed by the entire processing performed on the input signal in the audio
音声認識部15は、音声信号合成部14によって合成された音声信号を入力し、その入力音声信号の音声認識を行なう。音声認識部15における音声認識結果は、認識音声を用いる処理部へ出力される。
The
以下、それぞれのブロックの処理について詳細に説明する。なお、以下の数式および図2において記号、Nは10000を表す。 Hereinafter, the processing of each block will be described in detail. In the following formula and FIG. 2, the symbol N represents 10,000.
信号記憶部11は、入力信号から配列mm(u)(u=0,1,...,10000-1)を作成する。複数フィルタ決定部12は、信号記憶部11の配列mm(u)から以下の数式1によって示される信号ベクトルx(u)を作成する。
The
次に、3つのFIRフィルタの係数をWij(i:フィルタ番号,0,1,2,j=0,1,2)として、以下の数式2に示すように、マトリクスWを作成する。 Next, a matrix W is created as shown in Equation 2 below, where the coefficients of the three FIR filters are W ij (i: filter number, 0, 1, 2, j = 0, 1, 2).
ここで、mm(u)を入力した時の3つのフィルタ出力y0(u), y1(u), y2(u)を要素とするベクトルをy(u)とすると、y(u)は以下の数式3によって表すことができる。 Here, if y (u) is a vector whose elements are the three filter outputs y 0 (u), y 1 (u), and y 2 (u) when mm (u) is input, y (u) Can be expressed by Equation 3 below.
出力同士がお互いに統計的に独立になるようにフィルタ係数を決定することは、「数式3のベクトルy(u)(u=2,3,...,10000-1)の要素同士が統計的に独立になるようにマトリクスWを決定すること」と言い換えられる。WはInfomaxアルゴリズム(Bell A.J. and Sejnowski T.J. 1995. “An information maximisation approach to blind separation and blind deconvolution”, Neural Computation, 7, 6, pp.1129-1159を参照)などの標準的な独立成分解析を使って決定する。図2に、Infomaxアルゴリズムを使用して、マトリクスWを決定する手法の一例を示す。このようにして決定したマトリクスWからフィルタ出力y0(u), y1(u), y2(u)を計算する。 Determining the filter coefficients so that the outputs are statistically independent of each other means that the elements of the vector y (u) (u = 2,3, ..., 10000-1) in Equation 3 are statistical In other words, “determining the matrix W so as to be independent”. W uses standard independent component analysis such as the Infomax algorithm (see Bell AJ and Sejnowski TJ 1995. “An information maximisation approach to blind separation and blind deconvolution”, Neural Computation, 7, 6, pp.1129-1159) To decide. FIG. 2 shows an example of a technique for determining the matrix W using the Infomax algorithm. Filter outputs y 0 (u), y 1 (u), y 2 (u) are calculated from the matrix W thus determined.
フィルタ出力選択部13は、複数フィルタ決定部12で得られたフィルタ出力y0(u), y1(u), y2(u)から音声の合成に使うフィルタ出力を選択する。まず、フィルタ出力y0(u), y1(u), y2(u)の平均を0、分散を1に正規化した後、フィルタ出力のガウス分布からの隔たりを表す指標gi(i=0,1,2)を以下の数式4によって計算する。(A. Hyvarinen. “New Approximations of Differential Entropy for Independent Component Analysis and Projection Pursuit”, In Advances in Neural Information Processing Systems 10 (NIPS*97), pp. 273-279, MIT Press, 1998.を参照)
The filter
指標giは正の値を取り、値が大きい程ガウス分布から離れていることを示す。フィルタ出力選択部13は、3つのフィルタ出力の内指標giの値が最大と2番目に大きい2つのフィルタ出力を音声信号合成部14に送る。
The index g i takes a positive value, and the larger the value, the farther from the Gaussian distribution. The filter
音声信号合成部14は、フィルタ出力選択部13で選択されたフィルタ出力と複数フィルタ決定部12で得られたマトリクスWを使って音声を合成する。選択されたフィルタ出力をy0(u), y1(u)とする。さらに、マトリクスWの逆マトリクスをAとすると、信号ベクトルx(u)は以下の数式5によって示される。
The
数式5における信号ベクトルx(u)の第一要素に着目すると、以下の数式6が成立する。 When attention is paid to the first element of the signal vector x (u) in Expression 5, the following Expression 6 is established.
数式6におけるx0(u)はもとの入力信号そのものであるから、入力信号はA00y0(u)、A01y1(u)、A02y2(u)の3つの和に分解されていることになる。そこで、数式7に示すように、A00y0(u)、A01y1(u)の和をとることで音声信号を合成する。 Since x 0 (u) in Equation 6 is the original input signal itself, the input signal is the sum of three of A 00 y 0 (u), A 01 y 1 (u), and A 02 y 2 (u). It will be disassembled. Therefore, as shown in Formula 7, the audio signal is synthesized by taking the sum of A 00 y 0 (u) and A 01 y 1 (u).
上述した各ブロックの処理により、1秒の長さを持つ抽出音声信号が次々に合成され、合成された抽出音声信号が音声認識部15へ送られる。すなわち、本実施形態による音声信号抽出方法によれば、複数のフィルタを用いた独立成分解析により、1つの入力信号から音声信号を抽出することが可能になるのである。
By the processing of each block described above, extracted speech signals having a length of 1 second are synthesized one after another, and the synthesized extracted speech signals are sent to the
なお、本発明は上述した実施形態に制限されることなく、本発明の主旨を逸脱しない範囲において、種々変形して実施することが可能である。 The present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the spirit of the present invention.
例えば、上記実施形態においては、フィルタ出力選択部13において各フィルタ出力のガウス分布からの隔たりを求めて、その隔たりの大きいフィルタ出力を選択した。しかしながら、各フィルタ出力y0(u), y1(u), y2(u)の音声らしさを表す特徴量を計算し、音声らしいフィルタ出力を選択しても良い。
For example, in the above embodiment, the filter
また、上記実施形態では、フィルタ出力選択部13において、2つのフィルタ出力を選択したが、その選択すべきフィルタの数は1つでも良いし、フィルタ出力の数が4以上である場合には、3以上のフィルタ出力を選択しても良い。
In the above embodiment, the filter
さらに、上述した実施形態においては、複数フィルタ決定部12は、フィルタとしてデジタルFIRフィルタを用いたが、それ以外にも、例えばデジタルIIR(Infinite Impulse Filter)フィルタを用いても良い。
Furthermore, in the above-described embodiment, the multiple
10 マイク
11 信号記憶部
12 複数フィルタ決定部
13 フィルタ出力選択部
14 音声信号合成部
15 音声認識部
20 音声認識装置
DESCRIPTION OF
Claims (14)
この記憶した信号を入力とした時にその出力がお互いに統計的に独立になるように複数のフィルタを決定するステップと、
その複数のフィルタの出力から音声信号成分に対応するフィルタ出力を選択するステップと、
その選択されたフィルタ出力から音声信号を取得するステップとからなることを特徴とする音声信号抽出方法。 Always storing one signal including an audio signal component and a noise component from a current time point to a finite past time point T;
Determining a plurality of filters so that the outputs are statistically independent of each other when the stored signal is input;
Selecting a filter output corresponding to the audio signal component from the outputs of the plurality of filters;
And obtaining an audio signal from the selected filter output.
前記信号入力部からの1つの入力信号を常に現在時点から有限の過去の時点Tまで記憶する信号記憶部と、
前記信号記憶部で記憶した信号を入力とした時に、その出力がお互いに統計的に独立になるように複数のフィルタを決定する複数フィルタ決定部と、
前記複数フィルタ決定部によって決定した複数フィルタ出力から音声信号成分に対応するフィルタ出力を選択するフィルタ出力選択部と、
前記フィルタ出力選択部で得られたフィルタ出力から音声信号を取得する音声信号取得部と、
前記音声信号取得部によって取得された音声信号を入力とする音声認識部とを備えることを特徴とする音声認識装置。 A signal input unit that receives one signal including an audio signal component and a noise component;
A signal storage unit that always stores one input signal from the signal input unit from a current time point to a finite past time point T;
When a signal stored in the signal storage unit is input, a plurality of filter determination units that determine a plurality of filters so that their outputs are statistically independent from each other;
A filter output selection unit that selects a filter output corresponding to an audio signal component from a plurality of filter outputs determined by the plurality of filter determination units;
An audio signal acquisition unit for acquiring an audio signal from the filter output obtained by the filter output selection unit;
A voice recognition apparatus comprising: a voice recognition unit that receives the voice signal acquired by the voice signal acquisition unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003272569A JP4107192B2 (en) | 2003-07-09 | 2003-07-09 | Voice signal extraction method and voice recognition apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003272569A JP4107192B2 (en) | 2003-07-09 | 2003-07-09 | Voice signal extraction method and voice recognition apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005031524A true JP2005031524A (en) | 2005-02-03 |
JP4107192B2 JP4107192B2 (en) | 2008-06-25 |
Family
ID=34210085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003272569A Expired - Fee Related JP4107192B2 (en) | 2003-07-09 | 2003-07-09 | Voice signal extraction method and voice recognition apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4107192B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005258068A (en) * | 2004-03-11 | 2005-09-22 | Denso Corp | Method and device for speech extraction, speech recognition device, and program |
-
2003
- 2003-07-09 JP JP2003272569A patent/JP4107192B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005258068A (en) * | 2004-03-11 | 2005-09-22 | Denso Corp | Method and device for speech extraction, speech recognition device, and program |
JP4529492B2 (en) * | 2004-03-11 | 2010-08-25 | 株式会社デンソー | Speech extraction method, speech extraction device, speech recognition device, and program |
Also Published As
Publication number | Publication date |
---|---|
JP4107192B2 (en) | 2008-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070882B (en) | Voice separation method, voice recognition method and electronic equipment | |
Gao et al. | 2.5 d visual sound | |
EP1160772A2 (en) | Multisensor based acoustic signal processing | |
JP5375400B2 (en) | Audio processing apparatus, audio processing method and program | |
KR100745976B1 (en) | Method and apparatus for classifying voice and non-voice using sound model | |
EP1160768A2 (en) | Robust features extraction for speech processing | |
JP2011107603A (en) | Speech recognition device, speech recognition method and program | |
JP2007235646A (en) | Sound source separation device, method and program | |
US7010483B2 (en) | Speech processing system | |
GB2548325A (en) | Acoustic source seperation systems | |
CN112567459A (en) | Sound separation device, sound separation method, sound separation program, and sound separation system | |
CN112489668A (en) | Dereverberation method, dereverberation device, electronic equipment and storage medium | |
Fitzgerald et al. | Projection-based demixing of spatial audio | |
CN113035225B (en) | Visual voiceprint assisted voice separation method and device | |
JP2010049249A (en) | Speech recognition device and mask generation method for the same | |
JP4107192B2 (en) | Voice signal extraction method and voice recognition apparatus | |
JP4891805B2 (en) | Reverberation removal apparatus, dereverberation method, dereverberation program, recording medium | |
JP5129794B2 (en) | Objective signal enhancement device, method and program | |
KR101658001B1 (en) | Online target-speech extraction method for robust automatic speech recognition | |
Yoshioka et al. | Dereverberation by using time-variant nature of speech production system | |
US11823698B2 (en) | Audio cropping | |
JP6930408B2 (en) | Estimator, estimation method and estimation program | |
Kim et al. | HD-DEMUCS: General Speech Restoration with Heterogeneous Decoders | |
KR20210145733A (en) | Signal processing apparatus and method, and program | |
Chhetri et al. | Speech Enhancement: A Survey of Approaches and Applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050727 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080324 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110411 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120411 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120411 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130411 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130411 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140411 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |