JP2009210647A - Noise canceler, method thereof, program thereof and recording medium - Google Patents
Noise canceler, method thereof, program thereof and recording medium Download PDFInfo
- Publication number
- JP2009210647A JP2009210647A JP2008051175A JP2008051175A JP2009210647A JP 2009210647 A JP2009210647 A JP 2009210647A JP 2008051175 A JP2008051175 A JP 2008051175A JP 2008051175 A JP2008051175 A JP 2008051175A JP 2009210647 A JP2009210647 A JP 2009210647A
- Authority
- JP
- Japan
- Prior art keywords
- probability
- speech
- noise
- model parameter
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、音声信号と雑音信号が含まれる音響信号から、音声信号が存在する区間を推定し、推定された区間の信号から音声信号以外の雑音信号を除去するための雑音除去技術に関する。 The present invention relates to a noise removal technique for estimating a section where a voice signal exists from an acoustic signal including a voice signal and a noise signal, and removing a noise signal other than the voice signal from the signal in the estimated section.
自動音声認識技術を実際の環境で利用する場合においては、処理対象とする音声信号以外の信号、つまり雑音信号が含まれる音響信号から、処理対象とする音声信号が存在する区間を推定し、さらに雑音を取り除く必要がある。自動音声認識の実際の環境での利用は今後の情報化社会の中で大きく期待されており、早急に解決されるべき問題である。 When the automatic speech recognition technology is used in an actual environment, an interval in which the speech signal to be processed exists is estimated from a signal other than the speech signal to be processed, that is, an acoustic signal including a noise signal. It is necessary to remove noise. The use of automatic speech recognition in the actual environment is highly expected in the information-oriented society in the future, and is a problem that should be solved as soon as possible.
後掲の非特許文献1には、入力となる音響信号の周波数スペクトル、信号の全帯域のエネルギー及び帯域分割後の各帯域のエネルギー、信号波形の零点差数、及びそれらの時間微分などの特徴量を利用した音声信号区間推定方法が開示されている。
Non-Patent
後掲の非特許文献2には、入力となる音響信号のケプストラムに含まれる雑音の成分を逐次EMアルゴリズムにより推定し、推定された雑音成分を入力音響信号より差し引くことによって雑音除去を行う方法が開示されている。 Non-Patent Document 2 described below has a method of performing noise removal by sequentially estimating a noise component included in a cepstrum of an input acoustic signal using an EM algorithm and subtracting the estimated noise component from the input acoustic signal. It is disclosed.
後掲の非特許文献3には、入力となる音響信号にWiener filter理論に基づく雑音除去を適用し、雑音除去後の信号の全帯域のエネルギー及び帯域分割後の各帯域のエネルギー、周波数スペクトルの分散値などの特徴量を利用した音声信号区間推定方法が開示されている。
実際の環境で自動音声認識を行うにあたり必要不可欠な技術は、入力音響信号から音声認識の対象とする音声信号が存在する区間を推定する音声信号区間推定技術と、入力音響信号から雑音を取り除き、高品質な音声信号を得る雑音除去技術である。 Indispensable technologies for performing automatic speech recognition in the actual environment are speech signal section estimation technology that estimates the section where the speech signal to be speech recognition exists from the input acoustic signal, and removes noise from the input acoustic signal, This is a noise removal technique for obtaining high-quality audio signals.
非特許文献1及び非特許文献2に記載の技術は、それぞれ音声信号区間推定と雑音除去単体の技術であり、一般にこれらの技術を処理フローの上で連結することにより、実際の環境での自働音声認識を行う。しかし、これらの技術間で必要となる情報、パラメータ等の共有はなく、あくまで個別の技術が単純に連結されているのみである。そのため、処理誤りやパラメータ推定誤差等の評価も技術ごとに別個に行わなければならない。そのため、両技術間で必要となる情報、パラメータ等を両方の技術で相互に評価できる場合に比べ、処理誤りやパラメータ推定誤り等を行うことが困難となり、高精度な音声信号区間推定及び雑音除去を行うことができない。
The technologies described in
非特許文献3の技術では、音声信号区間推定と雑音除去の二つの技術を内部で連結しており、雑音除去を行った後に音声信号区間推定が行われる。これは、雑音除去によって得られた雑音の影響が軽減された目的音声信号の特徴量を用いることにより、音声信号区間の推定性能を高精度化するのが目的である。しかし、この技術でも単に音声信号区間の推定に雑音除去の結果を利用しているのみであり、両技術間でのパラメータなどの共有は密に行われていない。そのため、非特許文献3の技術でも高精度な音声信号区間推定及び雑音除去を行うことは困難である。 In the technique of Non-Patent Document 3, two techniques of speech signal section estimation and noise removal are internally connected, and speech signal section estimation is performed after noise removal. The purpose of this is to improve the estimation performance of the speech signal section by using the feature amount of the target speech signal in which the influence of noise obtained by noise removal is reduced. However, even in this technique, the result of noise removal is merely used for estimating the speech signal section, and parameters and the like are not shared closely between the two techniques. Therefore, it is difficult to perform highly accurate speech signal section estimation and noise removal even with the technique of Non-Patent Document 3.
本発明は、このような問題に鑑みてなされたものであり、音声信号区間推定技術と雑音除去技術との間でパラメータ等の情報を密に共有し、音声信号区間推定技術と雑音除去技術とを統合的に扱うことにより、高精度な音声信号区間推定及び雑音除去を行うことを可能にする雑音除去技術を提供することを目的とする。 The present invention has been made in view of such a problem. Information such as parameters is closely shared between the speech signal section estimation technique and the noise removal technique, and the speech signal section estimation technique and the noise removal technique are provided. It is an object of the present invention to provide a noise removal technique that makes it possible to perform speech signal section estimation and noise removal with high accuracy by comprehensively handling.
本発明では、まず、クリーン音声信号と無音信号の各出力確率を、それぞれ、複数の正規分布を含有する混合正規分布で表現した確率モデルの確率モデルパラメータをモデルパラメータ記憶部に格納しておく。そして、前記入力信号の音声特徴量を一定時間区間であるフレームごとに抽出して出力する音響信号分析過程と、前記音声特徴量と、前記モデルパラメータ記憶部に記憶されたクリーン音声信号と無音信号の各確率モデルパラメータとが入力され、過去のフレームから現在のフレームに向かって並列非線形カルマンフィルタにより現在のフレームの雑音モデルパラメータを逐次推定して出力する前向き推定過程を実行する。また、前記雑音モデルパラメータと、前記クリーン音声信号と無音信号の各確率モデルパラメータとが入力され、未来のフレームから現在のフレームに向かって並列カルマンスムーザにより現在フレームの雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき、音声(雑音+クリーン音声)信号と非音声(雑音+無音)信号の各出力確率をそれぞれ混合正規分布で表現した確率モデルの確率モデルパラメータを逐次推定し、音声信号と非音声信号それぞれの出力確率を算出して出力する後向き推定過程を実行する。そして、前向き推定過程及び後向き推定過程で得られた計算結果をパラメータ記憶部に記憶する。 In the present invention, first, probability model parameters of a probability model in which the output probabilities of the clean speech signal and the silence signal are each expressed by a mixed normal distribution containing a plurality of normal distributions are stored in the model parameter storage unit. Then, an acoustic signal analysis process for extracting and outputting a voice feature amount of the input signal for each frame that is a certain time interval, the voice feature amount, a clean voice signal and a silence signal stored in the model parameter storage unit Each of the probability model parameters is input, and a forward estimation process is executed in which the noise model parameters of the current frame are sequentially estimated and output from the past frame to the current frame by the parallel nonlinear Kalman filter. In addition, the noise model parameters and the probability model parameters of the clean speech signal and the silence signal are input, and the noise model parameters of the current frame are sequentially estimated backward from the future frame to the current frame by a parallel Kalman smoother. Then, based on this backward estimated noise model parameter, the probability model parameter of the probability model that expresses each output probability of speech (noise + clean speech) signal and non-speech (noise + silence) signal with mixed normal distribution is estimated sequentially Then, a backward estimation process of calculating and outputting the output probabilities of the voice signal and the non-voice signal is executed. The calculation results obtained in the forward estimation process and the backward estimation process are stored in the parameter storage unit.
次に、前記音声信号及び非音声信号それぞれの出力確率が入力され、音声状態確率と、非音声状態確率と、当該非音声状態確率に対する当該音声状態確率の比とを算出し、これらを出力する状態確率比算出過程とを実行する。そして、前記状態確率の比が入力され、フレームごとに当該状態確率の比としきい値とを比較して、各フレームが音声状態に属するか非音声状態に属するかを示す判定結果を出力する音声信号区間推定過程を実行する。 Next, the output probabilities of each of the speech signal and the non-speech signal are input, and the speech state probability, the non-speech state probability, and the ratio of the speech state probability to the non-speech state probability are calculated and output. The state probability ratio calculation process is executed. Then, the state probability ratio is input, the state probability ratio is compared with a threshold value for each frame, and a determination result indicating whether each frame belongs to a voice state or a non-voice state is output. Perform signal interval estimation process.
さらに、前記音声信号及び非音声信号の各確率モデルパラメータである正規分布ごとの平均と、前記クリーン音声信号及び無音信号の各確率モデルパラメータである正規分布ごとの平均と、前記音声状態確率及び前記非音声状態確率とが入力され、前記音声信号と非音声信号の各確率モデルパラメータである正規分布ごとの前記平均に対する、前記クリーン音声信号と無音信号の各確率モデルパラメータである正規分布ごとの前記平均の各相対値を、前記音声状態確率及び前記非音声状態確率とを用いて加重平均し、雑音信号を除去する周波数応答フィルタを生成し、当該周波数応答フィルタをインパルス応答フィルタに変換し、前記入力信号に対して当該インパルス応答フィルタを畳み込んで雑音除去音声信号を生成して出力する雑音除去過程を実行する。 Further, an average for each normal distribution which is each probability model parameter of the speech signal and the non-speech signal, an average for each normal distribution which is each probability model parameter of the clean speech signal and the silence signal, the speech state probability and the A non-speech state probability is input, and the average for each normal distribution which is each probability model parameter of the speech signal and the non-speech signal, and the normal distribution for each probability model parameter of the clean speech signal and the silence signal Each average relative value is weighted averaged using the speech state probability and the non-speech state probability to generate a frequency response filter that removes a noise signal, and the frequency response filter is converted into an impulse response filter, Noise removal that convolves the impulse response filter with the input signal to generate and output a noise-removed speech signal To run the degree.
本発明では、音声信号区間推定過程を実行するために生成した各パラメータを、雑音除去過程を実行するためのパラメータとして流用できる。その結果、音声信号区間推定技術と雑音除去技術との間でパラメータ等の情報を密に共有し、音声信号区間推定技術と雑音除去技術とを統合的に扱うことにより、高精度な音声信号区間推定及び雑音除去を行うことができる。 In the present invention, each parameter generated for executing the speech signal section estimation process can be used as a parameter for executing the noise removal process. As a result, information such as parameters is closely shared between the speech signal section estimation technology and the noise removal technology, and the speech signal section estimation technology and the noise removal technology are handled in an integrated manner. Estimation and noise removal can be performed.
以下、図面を参照しつつ、本発明の実施例について説明する。なお、以下の説明に用いる図面では、同一の部分には同一の符号を記してある。それらの名称、機能も同一であり、それらについての説明は繰り返さない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings used in the following description, the same parts are denoted by the same reference numerals. Their names and functions are also the same, and description thereof will not be repeated.
以下の説明において、テキスト中で使用する記号「^」「〜」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。以下の説明において、ベクトルについては例えば「ベクトルA」のように直前に「ベクトル」を付与して記載する。また、ベクトルの各要素単位で行われる処理は、特に断りが無い限り、ベクトルの全ての要素に対して適用されるものとする。 In the following explanation, the symbols “^”, “˜”, etc. used in the text should be described immediately above the character that immediately follows, but are described immediately before the character due to restrictions on the text notation. . In the formula, these symbols are written in their original positions. In the following description, the vector is described with “vector” added immediately before, for example, “vector A”. Further, the processing performed for each element of the vector is applied to all elements of the vector unless otherwise specified.
〔第1実施形態〕
<構成>
まず、本形態の雑音除去装置1の構成を説明する。
図1は、第1実施形態の雑音除去装置1の機能構成を示すブロック図である。
図1に示すように、雑音除去装置1は、音響信号分析部10、モデルパラメータ記憶部20、前向き推定部30、後向き推定部40、推定処理用パラメータ記憶部50、状態確率比算出部60、音声信号区間推定部70、信号除去部80及び制御部90を有する。
[First Embodiment]
<Configuration>
First, the configuration of the
FIG. 1 is a block diagram illustrating a functional configuration of the
As shown in FIG. 1, the
なお、本形態の雑音除去装置1は、例えば、CPU(central processing unit),RAM(random-access memory)等からなる公知のコンピュータに所定のプログラムが読み込まれ、CPUがそのプログラムを実行することによって構築される。また、雑音除去装置1の各処理は制御部90によって制御され、特に明示しない限り、各処理結果は、逐一レジスタ等の一時記憶メモリ(図示せず)に格納され、その後の処理で読み込まれて利用される。すなわち、以下では特に明示はしないが、ある処理部から他の処理部にデータが送られるとは、ある処理部で生成されたデータが一時記憶メモリに格納され、他の処理部がこの一時記憶メモリからこのデータを読み出すことを意味する。
Note that the
図2(a)は、図1に示したモデルパラメータ記憶部20の詳細を示す図であり、図2(b)は、推定処理用パラメータ記憶部50の詳細を示す図である。
図2(a)に示すように、本形態のモデルパラメータ記憶部20は、無音GMM記憶部21、クリーン音声GMM記憶部22、非音声GMM記憶部23及び音声GMM記憶部24を有する。また、図2(b)に示すように、本形態の推定処理用パラメータ記憶部50は、初期雑音モデル推定用バッファ51及び雑音モデル推定用バッファ52を有する。
FIG. 2A is a diagram illustrating details of the model parameter storage unit 20 illustrated in FIG. 1, and FIG. 2B is a diagram illustrating details of the estimation processing parameter storage unit 50.
As shown in FIG. 2A, the model parameter storage unit 20 of this embodiment includes a silent GMM storage unit 21, a clean speech GMM storage unit 22, a non-speech GMM storage unit 23, and a speech GMM storage unit 24. As shown in FIG. 2B, the estimation processing parameter storage unit 50 of this embodiment includes an initial noise model estimation buffer 51 and a noise model estimation buffer 52.
図3は、図1に示した前向き推定部30の詳細構成を例示したブロック図である。図3に示すように、本形態の前向き推定部30は、雑音モデルパラメータ予測部31、雑音モデルパラメータ更新部32、前向き確率モデルパラメータ生成部33、前向き音声/非音声出力確率算出部34、前向き第1加重平均算出部35及び前向き第2加重平均算出部37を有する。 FIG. 3 is a block diagram illustrating a detailed configuration of the forward estimation unit 30 illustrated in FIG. 1. As shown in FIG. 3, the forward estimation unit 30 of the present embodiment includes a noise model parameter prediction unit 31, a noise model parameter update unit 32, a forward probability model parameter generation unit 33, a forward speech / non-speech output probability calculation unit 34, a forward A first weighted average calculator 35 and a forward second weighted average calculator 37 are included.
図4は、図1に示した後向き推定部40の詳細構成を例示したブロック図である。図4に示すように、本形態の後向き推定部40は、雑音モデルパラメータ再推定部42、後向き確率モデルパラメータ生成部43、後向き音声/非音声出力確率算出部44、後向き第1加重平均算出部45、及び後向き第2加重平均算出部47を有する。 FIG. 4 is a block diagram illustrating a detailed configuration of the backward estimation unit 40 illustrated in FIG. 1. As shown in FIG. 4, the backward estimation unit 40 of this embodiment includes a noise model parameter re-estimation unit 42, a backward probability model parameter generation unit 43, a backward speech / non-speech output probability calculation unit 44, and a backward first weighted average calculation unit. 45, and a backward second weighted average calculation unit 47.
図5は、図1に示した状態確率比算出部60の詳細構成を例示したブロック図である。図5に示すように、状態確率比算出部60は、状態遷移確率テーブル61、前向き確率算出部62、後向き確率算出部63、確率比算出用バッファ64及び確率比算出部65を有する。 FIG. 5 is a block diagram illustrating a detailed configuration of the state probability ratio calculation unit 60 illustrated in FIG. 1. As illustrated in FIG. 5, the state probability ratio calculation unit 60 includes a state transition probability table 61, a forward probability calculation unit 62, a backward probability calculation unit 63, a probability ratio calculation buffer 64, and a probability ratio calculation unit 65.
図6は、図1に示した音声信号区間推定部70の詳細構成を例示したブロック図である。図6に示すように、音声信号区間推定部70は、L(s)レジスタ71、閾値THレジスタ72及び比較部73を有する。 FIG. 6 is a block diagram illustrating a detailed configuration of the speech signal section estimation unit 70 shown in FIG. As shown in FIG. 6, the audio signal section estimation unit 70 includes an L (s) register 71, a threshold TH register 72, and a comparison unit 73.
図7は、図1に示した信号除去部80の詳細構成を例示したブロック図である。図7に示すように、信号除去部80は、周波数応答フィルタ生成部81、インパルス応答フィルタ変換部82、入力信号読み出し部83及びフィルタリング部84を有する。 FIG. 7 is a block diagram illustrating a detailed configuration of the signal removal unit 80 illustrated in FIG. 1. As illustrated in FIG. 7, the signal removal unit 80 includes a frequency response filter generation unit 81, an impulse response filter conversion unit 82, an input signal readout unit 83, and a filtering unit 84.
<処理の全体>
次に、本形態の処理の全体を説明する。
本形態では、前処理で、クリーン音声信号と無音信号の各出力確率を、それぞれ、複数の正規分布を含有する混合正規分布で表現した確率モデルの確率モデルパラメータをモデルパラメータ記憶部に格納しておく。そして、前記入力信号の音声特徴量を一定時間区間であるフレームごとに抽出して出力する音響信号分析過程と、前記音声特徴量と、前記モデルパラメータ記憶部に記憶されたクリーン音声信号と無音信号の各確率モデルパラメータとが入力され、過去のフレームから現在のフレームに向かって並列非線形カルマンフィルタにより現在のフレームの雑音モデルパラメータを逐次推定して出力する前向き推定過程と、前記雑音モデルパラメータと、前記クリーン音声信号と無音信号の各確率モデルパラメータとが入力され、未来のフレームから現在のフレームに向かって並列カルマンスムーザにより現在フレームの雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき、音声(雑音+クリーン音声)信号と非音声(雑音+無音)信号の各出力確率をそれぞれ混合正規分布で表現した確率モデルの確率モデルパラメータを逐次推定し、音声信号と非音声信号それぞれの出力確率を算出して出力する後向き推定過程と、前向き推定過程及び後向き推定過程で得られた計算結果をパラメータ記憶部に記憶する過程と、前記音声信号及び非音声信号それぞれの出力確率が入力され、音声状態確率と、非音声状態確率と、当該非音声状態確率に対する当該音声状態確率の比とを算出し、これらを出力する状態確率比算出過程とを実行する。そして、前記状態確率の比が入力され、フレームごとに当該状態確率の比としきい値とを比較して、各フレームが音声状態に属するか非音声状態に属するかを示す判定結果を出力する音声信号区間推定過程を実行する。さらに、前記音声信号及び非音声信号の各確率モデルパラメータである正規分布ごとの平均と、前記クリーン音声信号及び無音信号の各確率モデルパラメータである正規分布ごとの平均と、前記音声状態確率及び前記非音声状態確率とが入力され、前記音声信号と非音声信号の各確率モデルパラメータである正規分布ごとの前記平均に対する、前記クリーン音声信号と無音信号の各確率モデルパラメータである正規分布ごとの前記平均の各相対値を、前記音声状態確率及び前記非音声状態確率とを用いて加重平均し、雑音信号を除去する周波数応答フィルタを生成し、当該周波数応答フィルタをインパルス応答フィルタに変換し、前記入力信号に対して当該インパルス応答フィルタを畳み込んで雑音除去音声信号を生成して出力する雑音除去過程を実行する。
<Overall processing>
Next, the entire processing of this embodiment will be described.
In the present embodiment, in the preprocessing, the probability model parameters of the probability model in which the output probabilities of the clean speech signal and the silence signal are each expressed by a mixed normal distribution including a plurality of normal distributions are stored in the model parameter storage unit. deep. Then, an acoustic signal analysis process for extracting and outputting a voice feature amount of the input signal for each frame that is a certain time interval, the voice feature amount, a clean voice signal and a silence signal stored in the model parameter storage unit A forward estimation process of sequentially estimating and outputting a noise model parameter of a current frame from a past frame toward a current frame by a parallel nonlinear Kalman filter, and the noise model parameter; The probability model parameters of clean speech signal and silence signal are input, and the noise model parameters of the current frame are sequentially and backward estimated by the parallel Kalman smoother from the future frame to the current frame. Voice (noise + clean voice) signal Probability model parameters of a probability model that expresses the output probabilities of non-speech (noise + silence) signals in a mixed normal distribution, and then estimates the output probabilities of speech and non-speech signals and outputs them backwards A process, a process of storing calculation results obtained in the forward estimation process and the backward estimation process in a parameter storage unit, and output probabilities of the speech signal and the non-speech signal, respectively, and a speech state probability and a non-speech state probability And a ratio of the speech state probability to the non-speech state probability is calculated, and a state probability ratio calculation process of outputting these is executed. Then, the state probability ratio is input, the state probability ratio is compared with a threshold value for each frame, and a determination result indicating whether each frame belongs to a voice state or a non-voice state is output. Perform signal interval estimation process. Further, an average for each normal distribution which is each probability model parameter of the speech signal and the non-speech signal, an average for each normal distribution which is each probability model parameter of the clean speech signal and the silence signal, the speech state probability and the A non-speech state probability is input, and the average for each normal distribution which is each probability model parameter of the speech signal and the non-speech signal, and the normal distribution for each probability model parameter of the clean speech signal and the silence signal Each average relative value is weighted averaged using the speech state probability and the non-speech state probability to generate a frequency response filter that removes a noise signal, and the frequency response filter is converted into an impulse response filter, Noise removal that convolves the impulse response filter with the input signal to generate and output a noise-removed speech signal To run the degree.
このように本形態では、音声信号区間推定過程のためのパラメータを、雑音除去過程のためのパラメータとして流用する。これにより、音声信号区間推定技術と雑音除去技術とを統合的に扱うことができ、高精度な音声信号区間推定及び雑音除去を行うことができる。さらに、本形態では、前記音声信号と非音声信号の各確率モデルパラメータである正規分布ごとの前記平均に対する、前記クリーン音声信号と無音信号の各確率モデルパラメータである正規分布ごとの前記平均の各相対値を、音声状態確率及び非音声状態確率を用いて加重平均し、雑音信号を除去する周波数応答フィルタを生成している。このように音声状態確率及び非音声状態確率を用いて加重平均することによって周波数応答フィルタの精度が向上し、雑音除去精度が向上する。 As described above, in the present embodiment, the parameters for the speech signal section estimation process are used as the parameters for the noise removal process. Thereby, the speech signal section estimation technique and the noise removal technique can be handled in an integrated manner, and highly accurate speech signal section estimation and noise removal can be performed. Further, in the present embodiment, each of the averages for each normal distribution that is each probability model parameter of the clean speech signal and the silence signal, with respect to the averages for each normal distribution that is each probability model parameter of the speech signal and the non-speech signal. The relative value is weighted using the speech state probability and the non-speech state probability to generate a frequency response filter that removes the noise signal. Thus, by performing weighted averaging using the voice state probability and the non-voice state probability, the accuracy of the frequency response filter is improved, and the noise removal accuracy is improved.
なお、本形態では、音声信号(クリーン音声信号及び無音信号)並びに雑音信号を次のように定義する。 In this embodiment, an audio signal (clean audio signal and silence signal) and a noise signal are defined as follows.
雑音が全く存在しない防音室等で録音を行っても、録音された信号には極微小で白色的な雑音が観測される。本形態では、このような環境において観測される信号を無音信号と定義する。 Even when recording in a soundproof room or the like where no noise is present, a very small white noise is observed in the recorded signal. In this embodiment, a signal observed in such an environment is defined as a silence signal.
従って、無音信号も雑音の一種であるといえるが、この雑音は録音機材等の電気回路や転送系などの電気的要因により発生する雑音である。一方、自動車の走行音や風の音などは、音波が大気中を伝わって観測される音響的要因により発生する雑音である。本形態では、電気的要因による雑音と音響的要因による雑音とを区別し、後者のみを雑音信号と定義する。 Therefore, although a silence signal can also be said to be a kind of noise, this noise is generated due to electrical factors such as an electric circuit of a recording equipment or a transfer system. On the other hand, the driving sound of a car, the sound of wind, and the like are noises generated by acoustic factors observed when sound waves are transmitted through the atmosphere. In this embodiment, noise due to electrical factors and noise due to acoustic factors are distinguished, and only the latter is defined as a noise signal.
また、無音信号が観測されている環境において発話を行うと、発話音声信号が無音信号に重畳された形で観測される。本形態ではこの重畳された信号をクリーン音声信号と定義する。 Further, when an utterance is performed in an environment where a silence signal is observed, the utterance voice signal is observed in a form superimposed on the silence signal. In this embodiment, this superimposed signal is defined as a clean audio signal.
そして、雑音信号が存在しない環境では、連続する無音信号の合間にクリーン音声信号が観測される。本形態では、これら無音信号とクリーン音声信号を総称して音声信号と定義する。 In an environment where there is no noise signal, a clean voice signal is observed between successive silence signals. In this embodiment, the silence signal and the clean audio signal are collectively defined as an audio signal.
<処理の詳細>
次に、本形態の処理の詳細を説明する。
[前処理]
モデルパラメータ記憶部20の無音GMM記憶部21及びクリーン音声GMM記憶部22には、それぞれ、あらかじめ用意された無音信号及びクリーン音声信号の確率モデルのパラメータが格納される。本形態では、確率モデルとして複数の正規分布を含有する混合正規分布モデル(GMM:Gaussian Mixture Model)を利用する。なお、混合正規分布モデルに含まれる正規分布の数が多いほど推定精度は向上するが、処理速度は低下する。そのため、混合正規分布モデルに含まれる正規分布の数は、実効的には2〜512個の間の値が望ましく、32個程度が最も望ましい。また、それぞれの正規分布は混合重みwj,k、平均μS j,k,u、分散σS j,k,uをパラメータとして構成される。ここで、jはGMMの種別(j=0:無音GMM、j=1:クリーン音声GMM)であり、kは各正規分布の番号である。なお、GMMの構成方法については公知の技術なので説明を省略する(例えば、中川聖一著、「確率モデルによる音声認識」、電子情報通信学会等参照)。この前処理を前提として以下の処理が実行される。
<Details of processing>
Next, details of the processing of this embodiment will be described.
[Preprocessing]
The silence GMM storage unit 21 and the clean speech GMM storage unit 22 of the model parameter storage unit 20 store the parameters of the probabilistic models of the silence signal and the clean speech signal prepared in advance, respectively. In this embodiment, a mixed normal distribution model (GMM: Gaussian Mixture Model) containing a plurality of normal distributions is used as the probability model. Note that the estimation accuracy improves as the number of normal distributions included in the mixed normal distribution model increases, but the processing speed decreases. Therefore, the number of normal distributions included in the mixed normal distribution model is effectively a value between 2 and 512, and most preferably about 32. Further, each normal distribution is configured with the mixture weights w j, k , the average μ S j, k, u and the variance σ S j, k, u as parameters. Here, j is the type of GMM (j = 0: silent GMM, j = 1: clean speech GMM), and k is the number of each normal distribution. Since the GMM configuration method is a known technique, a description thereof will be omitted (see, for example, Seiichi Nakagawa, “Voice Recognition Using a Stochastic Model”, IEICE, etc.). The following processing is executed on the premise of this preprocessing.
[音響信号分析部10の処理]
まず、音響信号分析部10に、所定のサンプリング周波数(例えば、8000Hz)でサンプリングされ、離散信号に変換された音響信号oνが入力される。この音響信号oνは、目的信号である音声信号に雑音信号が重畳した信号となっており、本形態ではこれを入力信号oνと呼ぶ。また、νはサンプリング時刻を示す離散値である。
[Processing of Acoustic Signal Analysis Unit 10]
First, an acoustic signal o v sampled at a predetermined sampling frequency (for example, 8000 Hz) and converted into a discrete signal is input to the acoustic
音響信号分析部10は、入力信号oνを時間軸方向に一定時間幅で始点を移動させながら、一定時間長の入力信号ot,0,・・・,ot,m,・・・,ot,M-1をフレームとして切り出す。例えば、160サンプル点長(サンプリング周波数8000Hzで時間長20ms)の入力信号を80サンプル点(サンプリング周波数8000Hzで時間長10ms)ずつ始点を移動させながら切り出す。なお、tは各フレームに付されたフレーム番号を示す。フレーム番号tの初期値は0であり、新たにフレームが切り出されるたびに直前のフレーム番号に1を加算した値が新たなフレーム番号として付与される。また、Mはフレーム毎に切り出されたサンプルの数を示し、ot、mはフレーム番号tのフレームが含むm+1番目の入力信号を示す。
The acoustic
そして、音響信号分析部10は、フレーム毎に入力信号ot、0,・・・,ot、m,・・・,ot、M-1を高速フーリエ変換して周波数領域の信号に変換し、さらに24次元のメルフィルタバンク分析を適用して24個のスペクトルパワー係数を生成し、それらの対数をとることによって24次元の対数メルスペクトルを要素に持つ、ベクトルOt={Ot、0,・・・,Ot、u,・・・,Ot、23}を算出し出力する。本形態では、このベクトルOtを、フレーム番号tにおける音声特徴量として用いる(以下、音声特徴量Otと呼ぶ)。また、音声特徴量Otの要素の添字uはベクトルの要素番号であり、メルフィルタバンクのチャネル番号、すなわちメルフィルタバンク分析において周波数領域の信号にメルスケール上で掛け合わされる三角窓の番号に対応する。また、メルフィルタバンク分析の次数とは、フィルタバンクのチャネル数、すなわち上記三角窓の個数を意味する。本形態では、24次元のメルフィルタバンク分析を行う場合を例示するが、次元数はこれに限定されない。また、メルフィルタバンク分析の内容についは公知の技術なので説明を省略する(例えば、非特許文献3等参照)。
The sound
[前向き推定部30の処理]
図8は、第1実施形態の前向き推定部30の処理手順を説明するためのフローチャートである。以下、この図と前述の図3とを用い、前向き推定部30の処理を説明する。
[Processing of forward estimation unit 30]
FIG. 8 is a flowchart for explaining the processing procedure of the forward estimation unit 30 of the first embodiment. Hereinafter, the process of the forward estimation unit 30 will be described with reference to FIG.
まず、雑音モデルパラメータ予測部31に、前記音声特徴量Ot,uとフレーム番号t−1における前向き第2加重平均値^Nt-1,u、^σN t-1、uとが入力され、雑音モデルパラメータ予測部31が、平均値Nt,u predと分散値σN t,u predとからなる雑音モデルパラメータ予測値を生成して出力する。 First, the speech feature quantity O t, u and the forward second weighted average value ^ N t−1, u , ^ σ N t−1, u at the frame number t−1 are input to the noise model parameter prediction unit 31. Then, the noise model parameter prediction unit 31 generates and outputs a noise model parameter prediction value composed of the average value N t, u pred and the variance value σ N t, u pred .
この具体的処理を、図8の処理手順に従い説明する。なお、図8では1つのフレームに対する処理のみが示されているが、実際は各フレームに対して同様な処理が繰り返される(以降説明する他のフローチャートについても同様)。 This specific processing will be described according to the processing procedure of FIG. Although FIG. 8 shows only the processing for one frame, the same processing is actually repeated for each frame (the same applies to other flowcharts described below).
まず、制御部90がフレーム判定処理S301を行い、音響信号分析部10から出力される音声特徴量Otのフレーム番号を判定する。このフレーム判定処理S301においてt<10と判定されたのであれば、制御部90は、バッファリング処理S302において推定処理用パラメータ記憶部50の初期雑音モデル推定用バッファ51に前記音響特徴量Ot,uを記憶し、そのフレームの前向き推定部30の処理を終了する。
First, the control unit 90 performs frame determination processing S301, and determines the frame number of the audio feature amount O t output from the acoustic
また、フレーム判定処理S301においてt=10と判定されたのであれば、雑音モデルパラメータ予測部31は、読み出し処理S303において推定処理用パラメータ記憶部50の初期雑音モデル推定用バッファ51から音声特徴量O0,u、・・・、O9,uを読み出す。そして、雑音モデルパラメータ予測部31は、初期パラメータ推定処理S304において初期の雑音モデルパラメータNu init、σN u initを以下のように推定する。 If it is determined that t = 10 in the frame determination process S301, the noise model parameter prediction unit 31 reads the speech feature amount O from the initial noise model estimation buffer 51 of the estimation process parameter storage unit 50 in the read process S303. Read out 0, u , ..., O9 , u . Then, the noise model parameter prediction unit 31 estimates initial noise model parameters N u init and σ N u init in the initial parameter estimation process S304 as follows.
また、フレーム判定処理S301においてt>10と判定されたのであれば、雑音モデルパラメータ予測部31は、読み出し処理S305において推定処理用パラメータ記憶部50の雑音モデル推定用バッファ52から1フレーム前の前向き第2加重平均値^Nt-1,u、^σN t-1、uを読み出す。 If it is determined that t> 10 in the frame determination process S301, the noise model parameter prediction unit 31 moves forward one frame from the noise model estimation buffer 52 of the estimation process parameter storage unit 50 in the read process S305. The second weighted average values ^ N t-1, u and ^ σ N t-1, u are read out.
なお、S301〜305の処理においてt=10を基準に判定しているが、これは最も望ましい基準値としての例示であり、実効的にはt=1〜20の範囲で適宜設定してよい。 Note that although t = 10 is determined as a reference in the processing of S301 to S305, this is an example as the most desirable reference value, and may be set appropriately in the range of t = 1 to 20.
t≧10の場合は、次にパラメータ予測処理S306を行う。t>10の場合、雑音モデルパラメータ予測部31は、読み出したフレーム番号t−1における推定結果から現在のフレーム番号の雑音モデルパラメータを以下のランダムウォーク過程により予測する。 When t ≧ 10, parameter prediction processing S306 is performed next. When t> 10, the noise model parameter prediction unit 31 predicts the noise model parameter of the current frame number from the estimation result at the read frame number t−1 by the following random walk process.
上式において、Nt,u predとσN t,u predはフレーム番号tにおける雑音モデルパラメータ予測値(平均値Nt,u predと分散値σN t,u pred)であり、またεは雑音の変化の度合いを表す定数で実効的には0.0001〜0.001の間の値に設定するのが望ましく、0.001程度が最も望ましい。また、t=10の場合は以下のように予測する。 In the above equation, N t, u pred and σ N t, u pred are noise model parameter prediction values (average value N t, u pred and variance value σ N t, u pred ) at frame number t, and ε is It is desirable to set a value between 0.0001 and 0.001 in terms of a constant representing the degree of change in noise, and most preferably about 0.001. When t = 10, the prediction is as follows.
以上のように算出された平均値Nt,u predと分散値σN t,u predとからなる雑音モデルパラメータ予測値は、雑音モデルパラメータ更新部32に送られる。 The noise model parameter prediction value composed of the average value N t, u pred and the variance value σ N t, u pred calculated as described above is sent to the noise model parameter update unit 32.
雑音モデルパラメータ更新部32には、音響信号分析部10から送られた前記音声特徴量Ot,uと、前記雑音モデルパラメータ予測値Nt,u pred、σN t,u predと、モデルパラメータ記憶部20の無音GMM記憶部21及びクリーン音声GMM記憶部22から読み込まれた前記無音信号及びクリーン音声信号それぞれの確率モデルパラメータμS j,k,u、σS j,k,uとが入力される。雑音モデルパラメータ更新部32は、これらの情報を用い、平均値^Nt,j,k,uと分散値^σN t、j、k、uとからなる雑音モデルパラメータ更新値を生成して出力する。
The noise model parameter updating unit 32 includes the speech feature amount O t, u sent from the acoustic
この具体的処理を、図8の処理手順に従い説明する。
パラメータ更新処理S307においては、前記クリーン音声信号、無音信号それぞれの確率モデルパラメータは正規分布ごとに複数存在するため、これら複数のパラメータを使って、かつそれぞれ並行して前記雑音モデルパラメータ予測値の更新処理を行う。すなわち、前記クリーン音声信号、無音信号それぞれの確率モデルに含まれる正規分布の合計数と同数の更新結果を得る。雑音モデルパラメータ更新部32は、入力された各情報を用い、次式に従って雑音モデルパラメータの更新処理を行う。
This specific processing will be described according to the processing procedure of FIG.
In the parameter update process S307, since there are a plurality of probability model parameters for each of the clean speech signal and the silence signal for each normal distribution, the noise model parameter predicted value is updated using these parameters in parallel. Process. That is, the same number of update results as the total number of normal distributions included in the probability models of the clean speech signal and the silence signal are obtained. The noise model parameter update unit 32 performs the update process of the noise model parameter according to the following equation using each input information.
式(11)と式(12)で求められた^Nt,j,k,uと^σN t、j、k、uとが雑音モデルパラメータ更新値(平均値^Nt,j,k,uと分散値^σN t、j、k、u)である。算出された雑音モデルパラメータ更新値(平均値^Nt,j,k,uと分散値^σN t、j、k、u)は、確率モデルパラメータ生成部33に送られる。また、平均値^Nt,j,k,uと分散値^σN t、j、k、uは、前向き第1加重平均算出部35にも送られる。 ^ N t, j, k, u and ^ σ N t, j, k, u obtained by Equation (11) and Equation (12) are the noise model parameter update values (average value ^ N t, j, k , u and variance value ^ σ N t, j, k, u ). The calculated noise model parameter update values (average value ^ N t, j, k, u and variance value ^ σ N t, j, k, u ) are sent to the probability model parameter generation unit 33. The average value ^ N t, j, k, u and the variance value ^ σ N t, j, k, u are also sent to the forward first weighted average calculation unit 35.
前向き確率モデルパラメータ生成部33には、雑音モデルパラメータ更新部32から送られた前記雑音モデルパラメータ更新値^Nt,j,k,u、^σN t、j、k、uと、モデルパラメータ記憶部20の無音GMM記憶部21及びクリーン音声GMM記憶部22から読み込まれた前記無音信号及びクリーン音声信号それぞれの確率モデルパラメータμS j,k,u、σS j,k,uとが入力される。雑音モデルパラメータ更新部32は、これらの情報を用い、平均値μO t,j,k,uと分散値σO t、j、k、uとからなる前向き確率モデルパラメータを生成して出力する。 In the forward probability model parameter generation unit 33, the noise model parameter update values ^ N t, j, k, u , ^ σ N t, j, k, u sent from the noise model parameter update unit 32 , and model parameters Probability model parameters μ S j, k, u and σ S j, k, u of the silent signal and the clean speech signal read from the silent GMM storage unit 21 and the clean speech GMM storage unit 22 of the storage unit 20 are input. Is done. The noise model parameter updating unit 32 uses these pieces of information to generate and output a forward probability model parameter composed of the average value μ O t, j, k, u and the variance values σ O t, j, k, u. .
この具体的処理を、図8の処理手順に従い説明する。
確率モデルパラメータ生成処理S308では、前向き確率モデルパラメータ生成部33が、入力された各情報を用い、フレーム番号tにおける雑音環境に適合した、音声(雑音+クリーン音声:j=1)、非音声(雑音+無音:j=0)それぞれの確率モデルの平均μO t,j,k,uと分散σO t、j、k、uを次式により生成する。
This specific processing will be described according to the processing procedure of FIG.
In the probability model parameter generation process S308, the forward probability model parameter generation unit 33 uses each piece of input information, and is adapted to the noise environment at the frame number t (sound + clean speech: j = 1), non-speech ( Noise + Silence: j = 0) The average μ O t, j, k, u and variance σ O t, j, k, u of each probability model are generated by the following equations.
以上のように設定された音声、非音声それぞれの確率モデルのパラメータμO t,j,k,u、σO t、j、k、uは、それぞれ、モデルパラメータ記憶部20の音声GMM記憶部24及び非音声GMM記憶部23に格納されるとともに、前向き音声/非音声出力確率算出部34に送られる。なお、ここでの混合重みは前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みwj,kであるものとして以降の処理を行う。 The parameters μ O t, j, k, u , σ O t, j, k, u of the speech and non-voice probabilistic models set as described above are the speech GMM storage unit of the model parameter storage unit 20, respectively. 24 and the non-speech GMM storage unit 23 and sent to the forward speech / non-speech output probability calculation unit 34. The following processing is performed assuming that the mixing weight here is the mixing weight w j, k in the probability model parameters of the clean speech signal and the silence signal.
前向き音声/非音声出力確率算出部34には、音響信号分析部20から送られた前記音声特徴量Ot,uと、前記音声、非音声それぞれの確率モデルパラメータμO t,j,k,u、σO t、j、k、uと、モデルパラメータ記憶部20の無音GMM記憶部21及びクリーン音声GMM記憶部22から読み込まれた前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みwj,kとが入力される。前向き音声/非音声出力確率算出部34は、これらの情報を用い、フレーム番号tにおける音声・非音声の前向き出力確率bj(Ot)と、この前向き出力確率bj(Ot)を前記正規分布kごとに分解して正規化した前向き正規化出力確率wOF j,kとを生成して出力する。 The forward speech / non-speech output probability calculation unit 34 includes the speech feature amount O t, u sent from the acoustic signal analysis unit 20 and the probability model parameters μ O t, j, k, respectively for the speech and non-speech . u , σ O t, j, k, u and mixing weights in the probability model parameters of the clean speech signal and the silence signal read from the silence GMM storage unit 21 and the clean speech GMM storage unit 22 of the model parameter storage unit 20, respectively. w j, k are input. The forward speech / non-speech output probability calculation unit 34 uses these pieces of information to determine the speech / non-speech forward output probability b j (O t ) and the forward output probability b j (O t ) at the frame number t. A forward normalized output probability w OF j, k that is decomposed and normalized for each normal distribution k is generated and output.
この具体的処理を、図8の処理手順に従い説明する。
出力確率算出処理S309では、前向き音声/非音声出力確率算出部34が、前記音声特徴量Ot,uをS308の処理で生成された前記音声、非音声それぞれの確率モデルに入力した際の、前記音声、非音声それぞれの確率モデル全体における音声、非音声の前向き出力確率bj(Ot)を次式により求める。
This specific processing will be described according to the processing procedure of FIG.
In the output probability calculation process S309, the forward speech / non-speech output probability calculation unit 34 inputs the speech feature value O t, u to the speech and non-speech probability models generated in the process of S308. The forward output probability b j (O t ) of speech and non-speech in the whole probability model of speech and non-speech is obtained by the following equation.
また、上式のwj,kbj,k(Ot)は、音声、非音声それぞれの確率モデルに含まれる各正規分布kの出力確率である。前向き音声/非音声出力確率算出部34は、wj,kbj,k(Ot)の合計が1になるよう次式で正規化を行う。 Also, w j, k b j, k (O t ) in the above equation is the output probability of each normal distribution k included in the probability models of speech and non-speech. The forward speech / non-speech output probability calculation unit 34 performs normalization using the following equation so that the sum of w j, k b j, k (O t ) is 1.
上式のwOF t,j,kが、音声、非音声それぞれの確率モデルに含まれる各正規分布kの前向き正規化出力確率である。前向き音声/非音声出力確率算出部34は、生成した音声、非音声の前向き出力確率bj(Ot)を前向き第2加重平均算出部37及び状態確率比算出部60に送り、前向き正規化出力確率wOF t,j,kを前向き第1加重平均算出部35に送る。また、前向き正規化出力確率wOF t,j,kは、推定処理用パラメータ記憶部50の雑音モデル推定用バッファ52に格納される。 In the above equation, w OF t, j, k is the forward normalized output probability of each normal distribution k included in the probability models of speech and non-speech. The forward speech / non-speech output probability calculation unit 34 sends the generated speech and non-speech forward output probability b j (O t ) to the forward second weighted average calculation unit 37 and the state probability ratio calculation unit 60 to perform forward normalization. The output probability w OF t, j, k is sent to the forward first weighted average calculation unit 35. Further, the forward normalized output probability w OF t, j, k is stored in the noise model estimation buffer 52 of the estimation processing parameter storage unit 50.
前向き第1加重平均算出部35には、前記雑音モデルパラメータ更新値^Nt,j,k,u、^σN t、j、k、uと前記前向き正規化出力確率wOF t,j,kとが入力され、平均値^Nt,j,uと分散値^σN t、j、uとからなる雑音モデルパラメータの前向き第1加重平均値を出力する。 The forward first weighted average calculator 35 includes the noise model parameter update value ^ N t, j, k, u , ^ σ N t, j, k, u and the forward normalized output probability w OF t, j, k is input , and a forward first weighted average value of a noise model parameter including an average value ^ N t, j, u and a variance value ^ σ N t, j, u is output.
この具体的処理を、図8の処理手順に従い説明する。
第1加重平均処理S310では、前向き第1加重平均算出部35が、パラメータ更新処理S307で得られた複数の雑音モデルパラメータ更新結果を、出力確率算出処理S309で得られた前向き正規化出力確率wOF t,j,kを用いて加重平均することにより、音声、非音声それぞれの確率モデルに対応する雑音パラメータ推定結果である前向き第1加重平均値^Nt,j,u、^σN t、j、uを得る。加重平均は次式により行う。
This specific processing will be described according to the processing procedure of FIG.
In the first weighted average process S310, the forward first weighted average calculation unit 35 uses the plurality of noise model parameter update results obtained in the parameter update process S307 as forward normalized output probabilities w obtained in the output probability calculation process S309. By performing weighted averaging using OF t, j, k , forward first weighted average values ^ N t, j, u and ^ σ N t that are the noise parameter estimation results corresponding to the probabilistic models of speech and non-speech Get j, u . The weighted average is calculated by the following formula.
生成された前向き第1加重平均値^Nt,j,u、^σN t、j、uは前向き第2加重平均算出部37に送られる。 The generated forward first weighted average values ^ N t, j, u , ^ σ N t, j, u are sent to the forward second weighted average calculation unit 37.
前向き第2加重平均算出部37には、前記前向き第1加重平均値^Nt,j,u、^σN t、j、uと、前記前向き出力確率bj(Ot)とが入力され、前向き第2加重平均算出部37は、平均値^Nt,uと分散値^σN t、uとからなるフレーム番号tにおける前向き第2加重平均値を生成して出力する。 The forward second weighted average calculation unit 37 receives the forward first weighted average value ^ N t, j, u , ^ σ N t, j, u and the forward output probability b j (O t ). The forward second weighted average calculating unit 37 generates and outputs a forward second weighted average value at the frame number t composed of the average value ^ N t, u and the variance value ^ σ N t, u .
この具体的処理を、図8の処理手順に従い説明する。
第2加重平均処理S312では、前向き第2加重平均算出部37が、第1加重平均処理S310で得られた前向き第1加重平均値^Nt,j,u、^σN t、j、uを、出力確率算出処理S309で得られた前向き出力確率bj(Ot)を用いて加重平均することにより、フレーム番号tにおける雑音モデルパラメータ推定結果である前向き第2加重平均値^Nt,u、^σN t、uを算出し、次のフレームの雑音パラメータの推定に利用する。加重平均は次式により行う。
This specific processing will be described according to the processing procedure of FIG.
In the second weighted average process S312, the forward second weighted average calculation unit 37 performs the forward first weighted average value ^ N t, j, u , ^ σ N t, j, u obtained in the first weighted average process S310. Is weighted and averaged using the forward output probability b j (O t ) obtained in the output probability calculation process S309, the forward second weighted average value ^ N t, which is the noise model parameter estimation result at frame number t. u , ^ σ N t, u are calculated and used to estimate the noise parameters of the next frame. The weighted average is calculated by the following formula.
最後にS313のバッファリング処理で、制御部90が、フレーム番号tのフレームが含む各入力信号ot、0,・・・,ot、m,・・・,ot、M-1、S301〜312の処理により得られた当該フレーム番号tにおける音声特徴量Ot,u、雑音モデルパラメータ予測値Nt,u pred、σN t,u pred、雑音モデルパラメータ更新値^Nt,j,k,u、^σN t、j、k、u、及び前向き第2加重平均値^Nt,u、^σN t、uを推定処理用パラメータ記憶部50の雑音モデル推定用バッファ52に格納する。 Finally, in the buffering process of S313, the control unit 90 causes the input signals ot , 0 , ..., ot , m , ..., ot , M-1 , S301 included in the frame with the frame number t. ˜312, the speech feature amount O t, u , noise model parameter predicted value N t, u pred , σ N t, u pred , noise model parameter update value ^ N t, j, k, u , ^ σ N t, j, k, u and forward second weighted average value ^ N t, u , ^ σ N t, u are stored in the noise model estimation buffer 52 of the estimation processing parameter storage unit 50. Store.
式(3)(4)の予測処理、及び式(7)〜(12)の更新処理は、従来の非線形カルマンフィルタと計算式の構成自体は同様であるが、本形態ではクリーン音声信号、無音信号それぞれのGMMに含まれる複数の正規分布ごとに複数のフィルタを構成し、これらを利用することにより得られる複数の推定結果を加重平均する(並列非線形カルマンフィルタ)。このような処理を行うことによって、より正確な雑音モデルのパラメータ推定が実現される。 The prediction processing of formulas (3) and (4) and the update processing of formulas (7) to (12) are the same in the configuration of the conventional nonlinear Kalman filter and the calculation formula itself, but in this embodiment, clean speech signals and silence signals A plurality of filters are configured for each of a plurality of normal distributions included in each GMM, and a plurality of estimation results obtained by using these are weighted and averaged (parallel non-linear Kalman filter). By performing such processing, more accurate noise model parameter estimation is realized.
[後向き推定部40の処理]
図9は、第1実施形態の後向き推定部40の処理手順を説明するためのフローチャートである。以下、この図と前述の図4とを用い、後向き推定部40の処理を説明する。
[Processing of Backward Estimation Unit 40]
FIG. 9 is a flowchart for explaining the processing procedure of the backward estimation unit 40 of the first embodiment. Hereinafter, the processing of the backward estimation unit 40 will be described with reference to FIG. 4 and FIG. 4 described above.
まず、雑音モデルパラメータ再推定部42に、推定処理用パラメータ記憶部50の雑音モデル推定用バッファ52に記憶されたフレーム番号sにおける雑音モデルパラメータ予測値Ns,u pred、σN s,u pred、フレーム番号s−1における雑音モデルパラメータ更新値^Ns-1,j,k,u、^σN s-1、j、k、u及びフレーム番号sにおける雑音モデルパラメータ再推定値〜Ns,j,k,u、〜σN s、j、k、uとが入力され、雑音モデルパラメータ再推定部42は、平均値〜Ns-1,j,k,uと分散値〜σN s-1、j、k、uとからなるフレーム番号s−1における雑音モデルパラメータ再推定値を生成して出力する。 First, the noise model parameter re-estimation unit 42 stores the noise model parameter prediction values N s, u pred and σ N s, u pred at the frame number s stored in the noise model estimation buffer 52 of the estimation processing parameter storage unit 50. , Noise model parameter update value at frame number s-1 ^ N s-1, j, k, u , ^ σ N s-1, j, k, u and noise model parameter re-estimation value at frame number s ~ N s , j, k, u , ~ σ N s, j, k, u are input, and the noise model parameter re-estimator 42 calculates the mean value ~ N s-1, j, k, u and the variance ~ σ N A noise model parameter re-estimation value at frame number s-1 consisting of s-1, j, k, and u is generated and output.
この具体的処理を、図9の処理手順に従い説明する。
まず、制御部90がフレーム判定処理S401を行い、音響信号分析部10から出力される音声特徴量Otのフレーム番号を判定する。このフレーム判定処理S401においてt<10と判定されたのであれば、制御部90は、変数設定処理S402において変数tbを0に設定し、そのフレームの後向き推定部40の処理を終了する。
This specific processing will be described according to the processing procedure of FIG.
First, the control unit 90 performs a frame determination process S401 to determine the frame number of the audio feature amount O t output from the acoustic
また、t≧10と判定されたのであれば、制御部90は、変数判定処理S403においてtbが後向き推定に要するフレーム数B未満であれば変数書替処理S404にてtbの値を1加算して処理を終了し、tbの値がB以上であれば変数設定処理S405において後向き推定用カウンタ値bwにBを設定する。Bは大きいほど推定精度向上に寄与する反面、処理速度を損なうため、実効的には1〜10の間の値に設定するのが望ましく、10程度が最も望ましい。 If it is determined that t ≧ 10, the control unit 90 adds 1 to the value of tb in the variable rewriting process S404 if tb is less than the number of frames B required for backward estimation in the variable determination process S403. If the value of tb is equal to or greater than B, B is set to the backward estimation counter value bw in the variable setting process S405. A larger B contributes to an improvement in the estimation accuracy, but the processing speed is impaired. Therefore, it is desirable to set the value to a value between 1 and 10 and the most desirable is about 10.
次に、雑音モデルパラメータ再推定部42が、読み出し処理S406において、推定処理用パラメータ記憶部50の雑音モデル推定用バッファ52から前向き推定部30において算出されたフレーム番号s=t−B+bwにおける雑音モデルパラメータ予測値Ns,u pred、σN s,u pred、フレーム番号s−1における音響特徴量Os-1,u、フレーム番号s−1における雑音モデルパラメータ更新値^Ns-1,j,k,u、^σN s-1、j、k、u、及び後向き推定部40において算出されたフレーム番号s=t−B+bwにおける雑音モデルパラメータ再推定値〜Ns,j,k,u、〜σN s、j、k、uを読み出す。なお、bw=B、すなわちフレーム番号s=tの場合は、雑音モデルパラメータ再推定部42は、^Nt,j,k,u、^σN t、j、k、u、^Nt,u、^σN t、uを雑音モデル推定用バッファ52から読み出し、〜Ns,j,k,u=^Nt,j,k,u、〜σN s、j、k、u=^σN t、j、k、u、〜Ns,u=^Nt,u、〜σN s、u=^σN t、uとする。 Next, the noise model parameter re-estimating unit 42 reads the noise model at the frame number s = t−B + bw calculated in the forward estimation unit 30 from the noise model estimation buffer 52 of the estimation processing parameter storage unit 50 in the reading process S406. Parameter predicted value N s, u pred , σ N s, u pred , acoustic feature quantity O s-1, u at frame number s−1, noise model parameter update value at frame number s−1 ^ N s-1, j , k, u , ^ σ N s-1, j, k, u , and noise model parameter re-estimation value N s, j, k, u at the frame number s = t−B + bw calculated by the backward estimation unit 40 , ~ Σ N s, j, k, u are read out. When bw = B, that is, when the frame number s = t, the noise model parameter re-estimator 42 obtains ^ N t, j, k, u , ^ σ N t, j, k, u , ^ N t, u , ^ σ N t, u are read from the noise model estimation buffer 52, and ~ N s, j, k, u = ^ N t, j, k, u , ~ σ N s, j, k, u = ^ σ N t, j, k, u , ˜N s, u = ^ N t, u , ˜σ N s, u = ^ σ N t, u .
そして、雑音モデルパラメータ再推定部42は、パラメータ平滑処理S407において、後向き推定を用いて次式によるパラメータの再推定(平滑化)を行う。 Then, the noise model parameter re-estimator 42 performs parameter re-estimation (smoothing) by the following equation using backward estimation in the parameter smoothing process S407.
式(27)と式(28)で求められた〜Ns-1,j,k,uと〜σN s-1、j、k、uとが雑音モデルパラメータ再推定値である。なお、〜Ns-1,j,k,uと〜σN s-1、j、k、uは次回の平滑処理のために推定処理用パラメータ記憶部50の雑音モデル推定用バッファ52に記憶するとともに、後向き確率モデルパラメータ生成部43に送られる。 ˜N s−1, j, k, u and ˜σ N s−1, j, k, u obtained by Equation (27) and Equation (28) are noise model parameter re-estimation values. Note that ˜N s−1, j, k, u and ˜σ N s−1, j, k, u are stored in the noise model estimation buffer 52 of the estimation processing parameter storage unit 50 for the next smoothing process. And sent to the backward probability model parameter generation unit 43.
後向き確率モデルパラメータ生成部43には、前記雑音モデルパラメータ再推定値〜Ns-1,j,k,u、〜σN s-1、j、k、uと、モデルパラメータ記憶部20の無音GMM記憶部21及びクリーン音声GMM記憶部22から読み込まれた前記無音信号及びクリーン音声信号それぞれの確率モデルパラメータμS j,k,u、σS j,k,uとが入力される。後向き確率モデルパラメータ生成部43は、これらの情報を用い、平均値μO s-1,j,k,uと分散値σO s-1、j、k、uとからなる後向き確率モデルパラメータを算出して出力する。 The backward probability model parameter generation unit 43 includes the noise model parameter re-estimation value ~ N s-1, j, k, u , ~ σ N s-1, j, k, u and the silence of the model parameter storage unit 20. The silence model parameters μ S j, k, u and σ S j, k, u of the silence signal and the clean speech signal read from the GMM storage unit 21 and the clean speech GMM storage unit 22 are input. The backward probability model parameter generation unit 43 uses these pieces of information to determine a backward probability model parameter composed of the average value μ O s-1, j, k, u and the variance values σ O s-1, j, k, u. Calculate and output.
この具体的処理を、図9の処理手順に従い説明する。
確率モデルパラメータ生成処理S408では、後向き確率モデルパラメータ生成部43が、フレーム番号s−1における雑音環境に適合した、音声(雑音+クリーン音声:j=1)、非音声(雑音+無音:j=0)それぞれの確率モデルパラメータμO s-1,j,k,u、σO s-1、j、k、uを次式により生成する。
This specific processing will be described according to the processing procedure of FIG.
In the probability model parameter generation processing S408, the backward probability model parameter generation unit 43 is adapted to the noise environment in the frame number s-1 and is voice (noise + clean speech: j = 1), non-speech (noise + silence: j = 0) Each probability model parameter μ O s-1, j, k, u , σ O s-1, j, k, u is generated by the following equation.
以上のように設定された音声、非音声それぞれの確率モデルのパラメータμO s-1,j,k,u、σO s-1、j、k、uは、それぞれ、モデルパラメータ記憶部20の音声GMM記憶部24及び非音声GMM記憶部23に格納されるとともに、後向き音声/非音声出力確率算出部44に送られる。なお、ここでの混合重みについても前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みwj,kであるものとして以降の処理を行う。 The parameters μ O s−1, j, k, u and σ O s−1, j, k, u of the speech and non-speech models set as described above are respectively stored in the model parameter storage unit 20. While being stored in the speech GMM storage unit 24 and the non-speech GMM storage unit 23, it is sent to the backward speech / non-speech output probability calculation unit 44. The following processing is performed assuming that the mixing weight here is the mixing weight w j, k in the probability model parameters of the clean speech signal and the silence signal.
後向き音声/非音声出力確率算出部44には、音響信号分析部20から送られた前記音声特徴量Os-1,uと、前記音声、非音声それぞれの確率モデルパラメータμO s-1,j,k,u、σO s-1、j、k、uと、モデルパラメータ記憶部20の無音GMM記憶部21及びクリーン音声GMM記憶部22から読み込まれた前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みwj,kとが入力される。後向き音声/非音声出力確率算出部44は、これらの情報を用い、フレーム番号s−1における音声・非音声の出力確率bj(Os-1)と、この出力確率bj(Os-1)を前記正規分布kごとに分解して正規化した後向き正規化出力確率wOB s-1,j,kとを出力する。 The backward speech / non-speech output probability calculation unit 44 includes the speech feature quantity O s-1, u sent from the acoustic signal analysis unit 20 and the probability model parameters μ O s-1, for the speech and non-speech . j, k, u , σ O s-1, j, k, u, and each of the clean speech signal and the silence signal read from the silence GMM storage unit 21 and the clean speech GMM storage unit 22 of the model parameter storage unit 20, respectively. The mixture weight w j, k in the probability model parameter is input. The backward speech / non-speech output probability calculation unit 44 uses these pieces of information, and outputs the speech / non-speech output probability b j (O s-1 ) at the frame number s−1 and the output probability b j (O s− 1 ) A backward normalized output probability w OB s−1, j, k is output by decomposing and normalizing each normal distribution k.
この具体的処理を、図9の処理手順に従い説明する。
出力確率算出処理S409では、後向き音声/非音声出力確率算出部44が、前記音声特徴量Os-1,uをS408の処理で生成された前記音声、非音声それぞれの確率モデルに入力した際の、前記音声、非音声それぞれの確率モデル全体における音声、非音声の出力確率bj(Os-1)を次式により求める。
This specific processing will be described according to the processing procedure of FIG.
In the output probability calculation process S409, when the backward speech / non-speech output probability calculation unit 44 inputs the speech feature quantity O s-1, u to the probability models of the speech and non-speech generated in the process of S408. The speech and non-speech output probabilities b j (O s-1 ) in the overall probability models of the speech and non-speech are obtained by the following equation.
また、上式のwj,kbj,k(Os-1)は、音声、非音声それぞれの確率モデルに含まれる各正規分布kの出力確率である。後向き音声/非音声出力確率算出部44は、wj,kbj,k(Os-1)の合計が1になるよう次式で正規化を行う。 Also, w j, k b j, k (O s-1 ) in the above equation is the output probability of each normal distribution k included in the probability models of speech and non-speech. The backward speech / non-speech output probability calculation unit 44 performs normalization using the following equation so that the sum of w j, k b j, k (O s-1 ) is 1.
上式のwOB s-1,j,kが、音声、非音声それぞれの確率モデルに含まれる各正規分布kの後向き正規化出力確率である。後向き音声/非音声出力確率算出部44は、生成した音声、非音声の前向き出力確率bj,k(Os-1)を後向き第2加重平均算出部47及び状態確率比算出部60に送り、後向き正規化出力確率wOB s-1,j,kを後向き第1加重平均算出部45に送る。さらに、後向き音声/非音声出力確率算出部44は、後向き正規化出力確率wOB s-1,j,kを推定処理用パラメータ記憶部50の雑音モデル推定用バッファ52に格納する。 In the above equation, w OB s−1, j, k is the backward normalized output probability of each normal distribution k included in the probability models of speech and non-speech. The backward speech / non-speech output probability calculation unit 44 sends the generated speech and non-speech forward output probability b j, k (O s-1 ) to the backward second weighted average calculation unit 47 and the state probability ratio calculation unit 60. The backward normalized output probability w OB s−1, j, k is sent to the backward first weighted average calculation unit 45. Further, the backward speech / non-speech output probability calculation unit 44 stores the backward normalized output probability w OB s−1, j, k in the noise model estimation buffer 52 of the estimation processing parameter storage unit 50.
後向き第1加重平均算出部45には、前記雑音モデルパラメータ再推定値〜Ns-1,j,k,u、〜σN s-1、j、k、uと、前記後向き正規化出力確率wOB s-1,j,kとが入力され、後向き第1加重平均算出部45は、平均値〜Ns-1,j,uと分散値〜σN s-1、j、uとからなる雑音モデルパラメータの後向き第1加重平均値を出力する。 The backward first weighted average calculation unit 45 includes the noise model parameter re-estimation value ~ N s-1, j, k, u , ~ σ N s-1, j, k, u and the backward normalized output probability. w OB s-1, j, k is input, and the backward first weighted average calculating unit 45 calculates the average value ~ N s-1, j, u and the variance value ~ σ N s-1, j, u. The backward first weighted average value of the noise model parameter is output.
この具体的処理を、図9の処理手順に従い説明する。
第1加重平均処理S410では、後向き第1加重平均算出部45が、パラメータ平滑処理S407で得られた複数の雑音モデルパラメータ更新結果を出力確率算出処理S409で得られた後向き正規化出力確率wOB s-1,j,kを用いて加重平均することにより、音声、非音声それぞれの確率モデルに対応する雑音パラメータ推定結果である後向き第1加重平均値〜Ns-1,j,u、〜σN s-1、j、uを得る。加重平均は次式により行う。
This specific processing will be described according to the processing procedure of FIG.
In the first weighted average process S410, the backward first weighted average calculation unit 45 converts the plurality of noise model parameter update results obtained in the parameter smoothing process S407 into the backward normalized output probability w OB obtained in the output probability calculation process S409. By performing a weighted average using s-1, j, k , a backward first weighted average value ~ N s-1, j, u , which is a noise parameter estimation result corresponding to each probability model of speech and non-speech Obtain σ N s−1, j, u . The weighted average is calculated by the following formula.
生成された後向き第1加重平均値〜Ns-1,j,u、〜σN s-1、j、uは後向き第2加重平均算出部47に送られる。 The generated backward first weighted average values ˜N s−1, j, u , ˜σ N s−1, j, u are sent to the backward second weighted average calculating unit 47.
後向き第2加重平均算出部47には、前記後向き第1加重平均値〜Ns-1,j,u、〜σN s-1、j、uと前記出力確率bj(Os-1)とが入力され、平均値〜Ns-1,uと分散値〜σN s-1、uとからなるフレーム番号s−1における後向き第2加重平均値を出力する。 The backward second weighted average calculation unit 47 includes the backward first weighted average value ~ N s-1, j, u , ~ σ N s-1, j, u and the output probability b j (O s-1 ). Are input, and a backward second weighted average value in frame number s-1 consisting of average value ~ N s-1, u and variance value ~ σ N s-1, u is output.
この具体的処理を、図9の処理手順に従い説明する。
第2加重平均処理S412では、後向き第2加重平均算出部47が、第1加重平均処理S410で得られた後向き第1加重平均値〜Ns-1,j,u、〜σN s-1、j、uを、出力確率算出処理S409で得られた出力確率bj(Os-1)、を用いて加重平均することにより、フレーム番号s−1における雑音モデルパラメータ推定結果である後向き第2加重平均値〜Ns-1,u、〜σN s-1、uを算出し、次のフレーム番号の雑音パラメータの推定に利用する。加重平均は次式により行う。
This specific processing will be described according to the processing procedure of FIG.
In the second weighted average processing S412, backward second weighted average calculation section 47, first weighted average value retrospective obtained in the first weighted average processing S410 ~N s-1, j, u, ~σ N s-1 , J, and u are weighted averaged using the output probability b j (O s-1 ) obtained in the output probability calculation process S409, so that the backward model of the noise model parameter estimation result in the frame number s-1 is obtained. Two weighted average values ~ N s-1, u , ~ σ N s-1, u are calculated and used to estimate the noise parameter of the next frame number. The weighted average is calculated by the following formula.
生成された後向き第2加重平均値〜Ns-1,u、〜σN s-1、u推定処理用パラメータ記憶部50の雑音モデル推定用バッファ52に格納される。 The generated backward second weighted average values ~ N s-1, u , ~ σ N s-1 are stored in the noise model estimation buffer 52 of the u estimation processing parameter storage unit 50.
そして、制御部90が、変数書替処理S413において、bwの値を1減算(すなわちフレーム番号sの値を1減算)し、変数判定処理S414において、bw>0であれば処理をS406に戻し、そうでなければ処理を終了する。
Then, the controller 90
前向き推定部30の各処理で得られた結果のうち、出力確率算出処理S309で得られた出力確率bj(Ot)と、後向き推定部40の各処理で得られた結果のうち、出力確率算出処理S409で得られた出力確率bj(Os-1)が、状態確率比算出部60における処理に使用される。つまり、出力確率bj(Ot),..., bj(Ot-B)が状態確率比算出部60への入力パラメータとなる。 Of the results obtained in each process of the forward estimation unit 30, the output probability b j (O t ) obtained in the output probability calculation process S309 and the results obtained in each process of the backward estimation unit 40 are output. The output probability b j (O s-1 ) obtained in the probability calculation process S409 is used for the process in the state probability ratio calculation unit 60. That is, the output probabilities b j (O t ),..., B j (O tB ) are input parameters to the state probability ratio calculation unit 60.
式 (26)〜(28)の平滑処理は、従来のカルマンスムーザと計算式の構成自体は同様であるが、本形態ではクリーン音声信号、無音信号それぞれのGMMに含まれる複数の正規分布ごとに複数のフィルタを構成し、これらを利用することにより得られる複数の推定結果を加重平均する(並列カルマンスムーザ)。このような処理を行うことによって、より正確な雑音モデルのパラメータ推定が実現される。 The smoothing processing of formulas (26) to (28) is the same as the conventional Kalman smoother and the calculation formula itself, but in this embodiment, each of the normal distributions included in each GMM of the clean speech signal and the silence signal A plurality of filters are constructed, and a plurality of estimation results obtained by using these filters are weighted and averaged (parallel Kalman smoother). By performing such processing, more accurate noise model parameter estimation is realized.
パラメータ記憶部50の雑音モデル推定用バッファ52は、前向き推定部30と後向き推定部40における処理の過程で得られた計算結果を記憶する。 The noise model estimation buffer 52 of the parameter storage unit 50 stores calculation results obtained in the process of the forward estimation unit 30 and the backward estimation unit 40.
[状態確率比算出部60の処理]
状態遷移確率テーブル61は、有限状態機械により表現された音声/非音声の状態遷移モデルにおいて適宜設定した状態遷移確率ai,jを記憶する。
[Processing of State Probability Ratio Calculation Unit 60]
The state transition probability table 61 stores state transition probabilities a i, j appropriately set in a speech / non-speech state transition model expressed by a finite state machine.
図12は、音声状態/非音声状態の状態遷移モデルを示す概念図であり、非音声状態H0と音声状態H1と各状態への状態遷移確率ai,jとを含む(iは状態遷移元の状態番号、jは状態遷移先の状態番号で、状態番号0は非音声状態を、状態番号1は音声状態を示す)。ai,jは音声状態確率及び非音声状態確率を求める上での基準となる値で、定数を設定しても入力信号の特徴に応じて適応的に決定しても構わないが、本形態においては定数を設定し、これを状態遷移確率テーブル61に記憶して音声状態確率及び非音声状態確率の計算に使用する。設定するai,jはai,0+ai,1=1を満たす値で、a0,0及びa1,1を0.5〜0.9の範囲で、a0,1及びa1,0を0.5〜0.1の範囲で設定するのが望ましく、a0,0=0.8、a0,1=0.2、a1,0=0.1、a1,1=0.9程度が最も望ましい。
FIG. 12 is a conceptual diagram showing a state transition model of a voice state / non-voice state, and includes a non-voice state H 0 , a voice state H 1, and a state transition probability a i, j to each state (i is a state The state number of the transition source, j is the state number of the state transition destination,
前向き確率算出部62は、前記出力確率bj(Os)と、状態遷移確率ai,jと、フレーム番号s−1の前向き確率αs-1、jとが入力され、フレーム番号sの前向き確率αs、jを出力する。 The forward probability calculation unit 62 receives the output probability b j (O s ), the state transition probability a i, j, and the forward probability α s−1, j of the frame number s−1. Output the forward probability α s, j .
図10は、状態確率比算出部60の処理手順を説明するためのフローチャートである。
この具体的処理を、図10の処理手順に従い説明する。
音声状態確率及び非音声状態確率の算出は、まず前向き確率αs、jを求め、続いて後向き確率βs、jを求めて、それらの積をとることによって求める。そして、フレーム番号sの後向き確率βs、jは、前記後向き推定部40における計算と同様にBフレーム未来のフレーム番号s+Bから遡って算出する。
FIG. 10 is a flowchart for explaining the processing procedure of the state probability ratio calculation unit 60.
This specific processing will be described according to the processing procedure of FIG.
The speech state probability and the non-speech state probability are calculated by first obtaining the forward probability α s, j and then obtaining the backward probability β s, j and taking the product of them. The backward probability β s, j of the frame number s is calculated retrospectively from the future frame number s + B of the B frame, similarly to the calculation in the backward estimation unit 40.
そこで、まず、制御部90が、変数判定処理S601において、音響信号分析部10から出力される音声特徴量Otのフレーム番号を判定する。ここで、t<10+B、すなわちs<10と判定された場合は、前向き確率算出部62が、初期値設定処理S602において前向き確率αs、jを以下のように設定し、それらをバッファリング処理S603において確率比算出用バッファ64に記憶して処理を終了する。
Therefore, first, the control unit 90 determines the frame number of the audio feature amount O t output from the acoustic
αs,0=1 (42)
αs,1=0 (43)
t<10+Bでない場合、すなわちs≧10の場合は、前向き確率算出部62が、読み出し処理S604において、確率比算出用バッファ64からフレーム番号s−1の前向き確率αs-1、jを読み出す。
α s, 0 = 1 (42)
α s, 1 = 0 (43)
When t <10 + B is not satisfied, that is, when s ≧ 10, the forward probability calculation unit 62 reads the forward probability α s−1, j of the frame number s−1 from the probability ratio calculation buffer 64 in the reading process S604.
次に、前向き確率算出部62は、前向き確率算出処理S605において状態遷移確率テーブル61から音声状態確率ai,jを読み出し、これとフレーム番号sの前記出力確率bj(Os)と、フレーム番号s−1の前記前向き確率αs-1、jとから次式によりフレーム番号sの前向き確率αs、jを算出し、これらをバッファリング処理606において確率比算出用バッファ64に記憶する。 Next, the forward probability calculation unit 62 reads the speech state probability a i, j from the state transition probability table 61 in the forward probability calculation process S605, and the output probability b j (O s ) of the frame number s and the frame calculating the forward probability alpha s, j of the frame number s by the following equation from said forward probability α s-1, j of the number s-1, and stores them in the probability ratio calculation buffer 64 in the buffering process 606.
後向き確率算出部63は、フレーム番号s+1の前記出力確率bj(Os+1)と、状態遷移確率ai,jと、フレーム番号s+1の後向き確率βs+1、iとが入力され、フレーム番号sの後向き確率βs、iを出力する。 The backward probability calculation unit 63 receives the output probability b j (O s + 1 ) of the frame number s + 1, the state transition probability a i, j, and the backward probability β s + 1, i of the frame number s + 1, The backward probability β s, i of the frame number s is output.
この具体的処理を、図10の処理手順に従い説明する。
まず、変数設定処理S607において、制御部90が、後向き確率算出用のカウンタbwの値をBに設定する。
This specific processing will be described according to the processing procedure of FIG.
First, in the variable setting process S607, the control unit 90 sets the value of the counter bw for calculating the backward probability to B.
次に、後向き確率算出部63が、後向き確率算出処理S608において状態遷移確率テーブル61から音声状態確率ai,jを読み出し、これとフレーム番号s+bwの前記出力確率bj(Os+bw)とフレーム番号s+bwの前記後向き確率βbw、jとからフレーム番号s+bw−1の後向き確率βs+bw-1、iを次式により算出する。なお、bw=Bの場合は初期値βs+B,i=1を与える。 Next, the backward probability calculation unit 63 reads the speech state probability a i, j from the state transition probability table 61 in the backward probability calculation process S608, and the output probability b j (O s + bw ) of the frame number s + bw. From the backward probability β bw, j of the frame number s + bw, the backward probability β s + bw-1, i of the frame number s + bw-1 is calculated by the following equation. When bw = B, the initial value β s + B, i = 1 is given.
そして、制御部90が、変数書替処理S609においてbwの値を1減算し、変数判定処理S610においてbw>0であれば処理をS607に戻し、そうでなければこの時点でフレーム番号sにおける後向き確率βs,iが得られるので、これをバッファリング処理S611において確率比算出用バッファ64に記憶し、確率比算出処理S612に移行する。
Then, the control unit 90
確率比算出用バッファ64は、前向き確率算出部62で算出された前向き確率αs、jと、後向き確率算出部63で算出されたと後向き確率βs,iを記憶する。 The probability ratio calculation buffer 64 stores the forward probability α s, j calculated by the forward probability calculation unit 62 and the backward probability β s, i calculated by the backward probability calculation unit 63.
確率比算出部65には、前記前向き確率αs、jと前記後向き確率βs,iとが入力され、確率比算出部65は、図10の確率比算出処理S612において、非音声状態の確率に対する音声状態の確率の比L(s)を次式により算出する。 The probability ratio calculation unit 65 receives the forward probability α s, j and the backward probability β s, i, and the probability ratio calculation unit 65 determines the probability of the non-voice state in the probability ratio calculation process S612 of FIG. The ratio L (s) of the probability of the speech state with respect to is calculated by the following equation.
つまり、状態確率比算出部60は、該当フレーム番号tよりもBフレーム過去のフレーム番号s=t−Bにおける前向き確率αs,j、後向き確率βs,i、及び非音声状態の確率に対する音声状態の確率の比L(s)を算出することになる。このように算出された音声状態の確率の比L(s)は、音声信号区間推定部70に送られる。また、その生成過程で得られた音声状態/非音声状態確率γs,jは、推定処理用パラメータ記憶部50の雑音モデル推定用バッファ52に格納される。 That is, the state probability ratio calculation unit 60 performs the speech with respect to the forward probability α s, j , the backward probability β s, i , and the probability of the non-speech state at the frame number s = t−B that is B frames past the frame number t. The ratio L (s) of the state probabilities is calculated. The voice state probability ratio L (s) calculated in this way is sent to the voice signal section estimation unit 70. Also, the speech state / non-speech state probability γ s, j obtained in the generation process is stored in the noise model estimation buffer 52 of the estimation processing parameter storage unit 50.
なお、式(46)は以下に示す過程を経て導かれる。
まず、フレーム番号sにおける信号の状態をqs=Hjと定義すると、非音声状態確率p(qs=H0|O0:s)及び音声状態確率p(qs=H1|O0:s)はベイズの定理により次式により得られる。
Equation (46) is derived through the following process.
First, if the state of the signal at frame number s is defined as q s = H j , non-voice state probability p (q s = H 0 | O 0: s ) and voice state probability p (q s = H 1 | O 0 : s ) is obtained by the following equation according to Bayes' theorem.
上式において、O0:s={O0,・・・,Os}であり、雑音信号N0:s={N0,・・・,Ns}の時間変動を考慮すると、上式は次式のように拡張される。 In the above formula, O 0: s = {O 0, ···, O s} is, the noise signal N 0: s = {N 0 , ···, N s} Considering the time variation of the above formula Is expanded as:
上式は、過去のフレーム番号の状態を考慮した再帰式(1次マルコフ過程)により、次式のように展開される。 The above equation is developed as the following equation by a recursive equation (first-order Markov process) considering the state of the past frame number.
上式において、p(qs=Hj|qs-1=Hi)=ai,j、p(Os|qs=Hj,Ns)=bj(Os)、p(Ns|Ns-1)=1に相当し、またp(Os,qs=Hj,Ns)は時間軸方向に算出される前向き確率αs、jに相当する。すなわち上式は、次式の再帰式により得られる。 In the above equation, p (q s = H j | q s−1 = H i ) = a i, j , p (O s | q s = H j , N s ) = b j (O s ), p ( N s | N s-1 ) = 1, and p (O s , q s = H j , N s ) corresponds to the forward probability α s, j calculated in the time axis direction. That is, the above equation is obtained by the following recursive equation.
次に、時刻sより未来の時刻、すなわち時刻s+1,・・・,t=s+Bにおける状態の影響を考慮すると、非音声状態確率p(qs=H0|O0:t)及び音声状態確率p(qs=H1|O0:t)は以下のようになる。 Next, considering the influence of the state at a time later than time s, that is, time s + 1,..., T = s + B, non-voice state probability p (q s = H 0 | O 0: t ) and voice state probability p (q s = H 1 | O 0: t ) is as follows.
上式の確率p(Os+1:t,Ns+1:t|qs,Ns)は、フレーム番号sより未来のフレーム番号の状態を考慮した再帰式(1次マルコフ過程)により、次式のように展開される。 The probability p (O s + 1: t , N s + 1: t | q s , N s ) in the above equation is given by a recursive equation (first-order Markov process) that takes into consideration the state of the future frame number from frame number s Is expanded as follows:
上式において、p(qS+1=Hj|qs=Hi)=ai,j、p(OS+1|qS+1=Hj,NS+1) =bj(OS+1)、p(Ns+1|Ns)=1に相当し、またp(OS+1:t,NS+1:t|qs=Hi,Ns)は時間軸方向に算出される後向き確率βs、iに相当する。すなわち上式は、次式の再帰式により得られる。 In the above equation, p (q S + 1 = H j | q s = H i ) = a i, j , p (O S + 1 | q S + 1 = H j , N S + 1 ) = b j ( O S + 1), p ( N s + 1 | corresponds to N s) = 1, also p (O S + 1: t , N S + 1: t | q s = H i, N s) is the time axis direction This corresponds to the backward probability β s, i calculated by. That is, the above equation is obtained by the following recursive equation.
よって、式(51)の確率p(O0:s,qs=Hj,N0:s)・p(Os+1:t,Ns+1:t|qs=Hi,Ns) は、次式のような前向き確率αs,jと後向き確率βs,jの積で得られる。
γs,j=αs,j・βs,j (54)
ここで、音声状態確率と非音声状態の確率の比L(s)は次式により得られる。
Therefore, the probability p (O 0: s , q s = H j , N 0: s ) · p (O s + 1: t , N s + 1: t | q s = H i , N in equation (51) s ) is obtained by the product of the forward probability α s, j and the backward probability β s, j as shown in the following equation.
γ s, j = α s, j · β s, j (54)
Here, the ratio L (s) of the speech state probability and the non-speech state probability is obtained by the following equation.
また、雑音信号N0:s={N0,・・・,Ns}の時間変動を考慮すると、上式は次式のように拡張される。 Further, when the time variation of the noise signal N 0: s = {N 0 ,..., N s } is taken into consideration, the above equation is expanded as the following equation.
次に、フレーム番号sより未来のフレーム番号、すなわちフレーム番号s+1,・・・,t=s+Bにおける状態の影響を考慮すると、確率比L(s)は次式のように表現される。 Next, considering the influence of the state in the future frame number from the frame number s, that is, the frame numbers s + 1,..., T = s + B, the probability ratio L (s) is expressed as follows.
ここで、式(54)を用いて式(57)を変形すると以下のようになり、式(46)が導かれる。 Here, when Expression (57) is transformed using Expression (54), the following is obtained, and Expression (46) is derived.
[音声信号区間推定部70の処理]
音声信号区間推定部70に、状態確率比算出部60から出力さ音声状態の確率の比L(s)が入力され、音声信号区間推定部70は、フレーム番号sのフレームが音声状態に属するか非音声状態に属するかを判定する。
[Processing of Speech Signal Section Estimating Unit 70]
The speech signal interval estimation unit 70 receives the probability ratio L (s) of the speech state output from the state probability ratio calculation unit 60, and the speech signal interval estimation unit 70 determines whether the frame of frame number s belongs to the speech state. It is determined whether it belongs to the non-voice state.
L(s)レジスタ71(図6)は、状態確率比算出部60において算出された前記非音声状態の確率に対する音声状態の確率の比L(s)を入力し記憶する。 The L (s) register 71 (FIG. 6) inputs and stores the ratio L (s) of the voice state probability to the non-voice state probability calculated by the state probability ratio calculation unit 60.
閾値THレジスタ72は、比較部73において前記確率比L(s)が音声状態に属するか非音声状態に属するかを判断する閾値THを記憶する。なお、閾値THの値は、事前に固定された値に決定しておいても、入力信号の特徴に応じて適応的に決定してもよい。固定値を設定する場合は、一般的には10程度の値に設定するのが最も望ましいが、用途に応じ0.5〜10,000の範囲で適宜設定して構わない。 The threshold TH register 72 stores a threshold TH for determining in the comparison unit 73 whether the probability ratio L (s) belongs to a voice state or a non-voice state. Note that the value of the threshold TH may be determined in advance or may be determined adaptively according to the characteristics of the input signal. When setting a fixed value, it is generally most desirable to set it to a value of about 10, but it may be set appropriately in the range of 0.5 to 10,000 depending on the application.
比較部73は、L(s)レジスタ71から前記確率比L(s)を読み出すとともに、閾値レジスタ72から閾値THを読み出し、フレーム番号sのフレームが音声状態に属するか非音声状態に属するかを判定し、判定結果VAD(s)を出力する。 The comparison unit 73 reads the probability ratio L (s) from the L (s) register 71 and also reads the threshold value TH from the threshold value register 72 to determine whether the frame with the frame number s belongs to the voice state or the non-voice state. Judgment is made and a judgment result VAD (s) is output.
具体的には、例えばL(s)の値が閾値TH以上であれば、フレーム番号sのフレームが音声状態に属すると判断してVAD(s)=1を出力し、閾値TH未満であれば、フレーム番号sのフレームが非音声状態に属すると判断してVAD(s)=0を出力する。出力された判定結果は、信号除去部80に送られる。 Specifically, for example, if the value of L (s) is equal to or greater than the threshold value TH, it is determined that the frame with the frame number s belongs to the voice state, and VAD (s) = 1 is output. Therefore, it is determined that the frame of frame number s belongs to the non-voice state, and VAD (s) = 0 is output. The output determination result is sent to the signal removal unit 80.
[信号除去部80の処理]
図11(a)は、信号除去部80が行うフィルタ生成処理を説明するためのフローチャートであり、図11(b)は、フィルタリング処理を説明するためのフローチャートである。
[Processing of signal removal unit 80]
FIG. 11A is a flowchart for explaining the filter generation process performed by the signal removal unit 80, and FIG. 11B is a flowchart for explaining the filtering process.
信号除去部80(図7)には、前記音声信号及び非音声信号の各確率モデルパラメータである正規分布ごとの平均μS j,k,uと、前記クリーン音声信号及び無音信号の各確率モデルパラメータである正規分布ごとの平均μO s,j,k,uと、音声、非音声それぞれの確率モデルに含まれる各正規分布kの後向き正規化出力確率wOB s,j,kと、前記音声状態確率及び前記非音声状態確率γs,jとが入力される。信号除去部80は、前記音声信号と非音声信号の各確率モデルパラメータである正規分布ごとの前記平均μO s,j,k,uに対する、前記クリーン音声信号と無音信号の各確率モデルパラメータである正規分布ごとの前記平均μS j,k,uの各相対値(μS j,k,u−μO s,j,k,u)を、正規分布ごとの後向き正規化出力確率wOB s,j,kと、前記音声状態確率及び前記非音声状態確率γs,jとを用いて加重平均し、雑音信号を除去する周波数応答フィルタを生成し、当該周波数応答フィルタをインパルス応答フィルタに変換し、前記入力信号に対して当該インパルス応答フィルタを畳み込んで雑音除去音声信号を生成して出力する。 The signal removal unit 80 (FIG. 7) includes an average μ S j, k, u for each normal distribution that is each probability model parameter of the speech signal and the non-speech signal, and each probability model of the clean speech signal and the silence signal. The average μ O s, j, k, u for each normal distribution, which is a parameter, and the backward normalized output probability w OB s, j, k for each normal distribution k included in the probability models of speech and non-speech, The speech state probability and the non-speech state probability γ s, j are input. The signal removal unit 80 uses the probability model parameters of the clean speech signal and the silence signal for the average μ O s, j, k, u for each normal distribution that is the probability model parameters of the speech signal and the non-speech signal. the average mu S j for each certain normal distribution, k, each relative value of u (μ S j, k, u -μ O s, j, k, u) and backward normalization for each normal distribution output probability w OB s, j, k and the voice state probability and the non-speech state probability γ s, j are used for weighted averaging to generate a frequency response filter that removes a noise signal, and the frequency response filter is used as an impulse response filter. Then, the impulse response filter is convoluted with the input signal to generate and output a noise-removed speech signal.
この具体的処理を、図11(a)の処理手順に従い説明する。
信号除去部80は、現在のフレーム番号tのフレームよりもBフレーム遡ったフレームs=t−Bに視点を移して処理を行う。まず、制御部90がフレーム判定処理S701を行い、音響信号分析部10から出力される音声特徴量Ot+Bのフレーム番号を判定する。このフレーム判定処理S701においてt<10+B、すなわちs<10であると判定されたのであれば、制御部90は、そのフレームの信号除去部80の処理を終了する。
This specific processing will be described in accordance with the processing procedure of FIG.
The signal removal unit 80 performs processing by moving the viewpoint to a frame s = t−B that is B frames later than the frame of the current frame number t. First, the control unit 90 performs frame determination processing S701 to determine the frame number of the audio feature amount O t + B output from the acoustic
また、フレーム判定処理S301においてt<10+Bでないと判定されたのであれば、周波数応答フィルタ生成部81が、雑音モデル推定用バッファ読出処理702において、推定処理用パラメータ記憶部50の雑音モデル推定用バッファ52から、正規分布ごとの後向き正規化出力確率wOB s,j,kと、音声状態/非音声状態確率γs,jとを読み込む。さらに、周波数応答フィルタ生成部81が、GMMパラメータ読み出し処理703において、モデルパラメータ記憶部20の無音GMM記憶部21及びクリーン音声GMM記憶部22から無音信号及びクリーン音声信号の確率モデルのパラメータ(平均μS j,k,u)を読み出し、非音声GMM記憶部23及び音声GMM記憶部24から非音声信号及び音声信号の確率モデルのパラメータ(平均μO s,j,k,u)を読み込む。 If it is determined that t <10 + B is not satisfied in the frame determination process S301, the frequency response filter generation unit 81 performs the noise model estimation buffer of the estimation process parameter storage unit 50 in the noise model estimation buffer read process 702. From 52, the backward normalized output probability w OB s, j, k and the speech state / non-speech state probability γ s, j for each normal distribution are read. Further, in the GMM parameter read processing 703, the frequency response filter generation unit 81 performs a parameter (average μ) of a silence signal and a clean speech signal from the silent GMM storage unit 21 and the clean speech GMM storage unit 22 of the model parameter storage unit 20. S j, k, u ) are read out, and the parameters (average μ O s, j, k, u ) of the non-voice signal and the voice signal probability model are read from the non-voice GMM storage unit 23 and the voice GMM storage unit 24.
次に、周波数応答フィルタ生成部81が、周波数応答フィルタ生成処理S704により、雑音除去を行う周波数応答フィルタFILTERs,uを次式により算出する。 Next, the frequency response filter generation unit 81 calculates a frequency response filter FILTER s, u for performing noise removal by the following equation, in frequency response filter generation processing S704.
式中の(μS j,k,u−μO s,j,k,u)は、音声状態もしくは非音声状態の確率モデルの何れかの正規分布のパラメータ(平均)を用いて算出される雑音除去フィルタの対数周波数応答である。なお、これが対数周波数応答となるのは、本形態では音声特徴量として対数メルスペクトルを要素に持つベクトルを用いているからである。これを音声状態及び非音声状態の確率モデルの各正規分布に割り当てられた後向き正規化出力確率wOB s,j,kと、音声状態/非音声状態確率γs,jとを用いて加重平均し、指数変換することにより、雑音除去を行う周波数応答フィルタFILTERs,uが得られる。このように生成された周波数応答フィルタFILTERs,uは、インパルス応答フィルタ変換部82に送られる。 (Μ S j, k, u −μ O s, j, k, u ) in the equation is calculated using a parameter (average) of a normal distribution of either a speech state or a non-speech state probability model. It is a logarithmic frequency response of a noise removal filter. This is a logarithmic frequency response because in this embodiment, a vector having a log mel spectrum as an element is used as an audio feature quantity. This is a weighted average using the backward normalized output probability w OB s, j, k assigned to each normal distribution of the probability model of the speech state and the non-speech state and the speech state / non-speech state probability γ s, j. By performing exponential conversion, a frequency response filter FILTER s, u for removing noise is obtained. The frequency response filter FILTER s, u generated in this way is sent to the impulse response filter converter 82.
インパルス応答フィルタ変換部82は、インパルス応答変換処理S705において、周波数応答フィルタFILTERs,uを時間領域に変換してインパルス応答フィルタfilters,τに変換する。ただし、本形態では、音声特徴量として周波数について非線形なメルスケール上で生成された対数メルスペクトルを要素に持つベクトルを用いている。そこで、次式のようにメル周波数の重み付けがなされた逆離散コサイン変換(IDCT: Inverse Discrete Cosine Transform)によって、メルスケール上の周波数応答フィルタFILTERs,uを時間領域のインパルス応答フィルタfilters,τに変換する。 In the impulse response conversion processing S705, the impulse response filter conversion unit 82 converts the frequency response filter FILTER s, u into the time domain and converts it into the impulse response filter filter s, τ . However, in the present embodiment, a vector having a log mel spectrum generated on a mel scale nonlinear with respect to frequency as an element is used as a voice feature amount. Accordingly, the frequency response filter FILTER s, u on the mel scale is converted into the time domain impulse response filter filter s, τ by inverse discrete cosine transform (IDCT) in which the mel frequency is weighted as in the following equation. Convert to
ここで、τは離散時間であり、melIDECTu,τはメル周波数の重み付けがなされた逆離散コサイン変換係数であり、次式で表現される(非特許文献3参照)。 Here, τ is a discrete time, melIDECT u, τ is an inverse discrete cosine transform coefficient weighted with a mel frequency, and is expressed by the following equation (see Non-Patent Document 3).
ここで、fsampは入力信号のサンプリング周波数である。また、fcentr(u)は、音響信号分析部10でのメルフィルタバンク分析におけるチャネル番号uのバンドの中心周波数を意味し、次式によって表現される。
Here, f samp is the sampling frequency of the input signal. Further, f centerr (u) means the center frequency of the band of channel number u in the mel filter bank analysis in the acoustic
なお、NSPEC=(NFFT/2)+1であり、NFFTは音響信号分析部10での高速フーリエ変換の次元数であり、W(u,i)は音響信号分析部10でのメルフィルタバンク分析におけるチャネル番号uの三角窓関数であり、iは周波数ビンである。
N SPEC = (N FFT / 2) +1, where N FFT is the number of dimensions of the fast Fourier transform in the acoustic
以上のように生成されたインパルス応答フィルタfilters,τは、フィルタリング部84に送られる。 The impulse response filter filter s, τ generated as described above is sent to the filtering unit 84.
フィルタリング部84は、入力信号os,τ に対して当インパルス応答フィルタfilters,τを畳み込んで雑音除去音声信号ss,τを生成して出力する。 Filtering unit 84, an input signal o s, those impulse response filter filter s with respect to tau, noise cancellation sound signal s s convolving the tau, and generates and outputs tau.
この具体的処理を、図11(b)の処理手順に従い説明する。
入力信号読み出し部83(図7)には、音声信号区間推定部70から出力された判定結果VAD(s)が入力される。入力信号読み出し部83は、音声区間判定処理S801を行い、判定結果VAD(s)が0であるか1であるかを判定する。ここで、VAD(s)=0、すなわち、判定結果VAD(s)がフレーム番号sのフレームが非音声状態に属するとの判定結果を示す場合、入力信号読み出し部83は、このフレームについての信号除去部80の処理を終了させる。
This specific processing will be described in accordance with the processing procedure of FIG.
The determination result VAD (s) output from the audio signal section estimation unit 70 is input to the input signal reading unit 83 (FIG. 7). The input signal reading unit 83 performs a speech section determination process S801, and determines whether the determination result VAD (s) is 0 or 1. Here, when VAD (s) = 0, that is, when the determination result VAD (s) indicates the determination result that the frame with the frame number s belongs to the non-speech state, the input signal reading unit 83 determines the signal for this frame. The process of the removal part 80 is complete | finished.
一方、VAD(s)=1、すなわち、判定結果VAD(s)がフレーム番号sのフレームが音声状態に属するとの判定結果を示す場合、入力信号読み出し部83は、雑音モデル推定用バッファ読出処理S802において、推定処理用パラメータ記憶部50の雑音モデル推定用バッファ52から、フレーム番号sのフレームが含む各入力信号os、mを読み込み、それらをフィルタリング部84に送る。 On the other hand, when VAD (s) = 1, that is, when the determination result VAD (s) indicates the determination result that the frame with the frame number s belongs to the voice state, the input signal reading unit 83 performs the noise model estimation buffer reading process. In step S <b> 802, the input signals o s and m included in the frame with the frame number s are read from the noise model estimation buffer 52 of the estimation processing parameter storage unit 50 and sent to the filtering unit 84.
フィルタリング部84は、フィルタリング処理S803において、各入力信号os、mに対して、インパルス応答フィルタfilters,τを所定のフィルタタップ数Lで以下のように畳み込み、雑音除去音声信号ss、mを生成して出力する。 In the filtering process S803, the filtering unit 84 convolves the impulse response filter filter s, τ with the predetermined number of filter taps L with respect to the input signals o s, m as follows, and the noise-removed audio signal s s, m Is generated and output.
ここで得られた雑音除去音声信号ss、mが本形態の雑音除去装置1の出力となる。
The noise-removed speech signal s s, m obtained here is the output of the noise-removing
〔第2実施形態〕
本発明の第2実施形態は、第1実施形態における前向き第1加重平均算出部35、前向き第2加重平均算出部37、後向き第1加重平均算出部45、及び後向き第2加重平均算出部47における計算方法が異なるもので、装置構成は第1実施形態と同様である。
[Second Embodiment]
The second embodiment of the present invention includes a forward first weighted average calculator 35, a forward second weighted average calculator 37, a backward first weighted average calculator 45, and a backward second weighted average calculator 47 according to the first embodiment. The calculation method is different, and the apparatus configuration is the same as that of the first embodiment.
従って、機能構成例については第1実施形態における上記それぞれの部位の番号が異なるのみであるため、図を分けずに前向き推定部に係る図3及び後向き推定部に係る図4に第2実施形態における部位番号をカッコ書きで記すにとどめる。 Accordingly, since the numbers of the respective parts in the first embodiment are different only in the functional configuration example, the second embodiment is shown in FIG. 3 related to the forward estimation unit and FIG. 4 related to the backward estimation unit without dividing the figure. Just write the part number in parentheses.
前向き第1加重平均算出部135は、前記雑音モデルパラメータ更新値^Nt,j,k,u、^σN t、j、k、uと前記前向き正規化出力確率wOF t,j,kとが入力され、平均値^Nt,j,uと分散値^σN t、j、uとからなる雑音モデルパラメータの前向き第1加重平均値を出力する。
The forward first weighted
この実施形態では、前記正規分布kごとに算出される前記前向き正規化出力確率wOF t,j,kの中で最も確率の高いwOF t,j,kに該当する正規分布kの前記雑音モデルパラメータ更新値^Nt,j,k,u、^σN t、j、k、uを、前向き第1加重平均値^Nt,j,u、^σN t、j、uとして出力する。 In this embodiment, the noise of the normal distribution k corresponding to w OF t, j, k having the highest probability among the forward normalized output probabilities w OF t, j, k calculated for each normal distribution k. Model parameter update values ^ N t, j, k, u , ^ σ N t, j, k, u are output as forward first weighted average values ^ N t, j, u , ^ σ N t, j, u To do.
このように処理することで、加重平均の計算をせずに済むため、処理の高速化を図ることができる。ただし、前向き正規化出力確率が各正規分布について確率差が小さい場合には特定の正規分布において突出して確率が高い場合と比べて他の正規分布を無視することによる影響が大きくなるため、この実施形態の利用に際しては特定の正規分布における確率がその他の正規分布に比べて十分に高いことが望ましい。 By processing in this way, it is not necessary to calculate a weighted average, so that the processing speed can be increased. However, if the probability of forward normalized output is small for each normal distribution, the impact of ignoring other normal distributions will be greater than when the probability is prominent in a specific normal distribution and the probability is high. When using the form, it is desirable that the probability in a specific normal distribution is sufficiently high compared to other normal distributions.
前向き第2加重平均算出部137は、前記前向き第1加重平均値^Nt,j,u、^σN t、j、uと前記前向き出力確率bj(Ot)とが入力され、平均値^Nt,uと分散値^σN t、uとからなるフレーム番号tにおける前向き第2加重平均値を出力する。
The forward second weighted
この実施形態では、前記音声及び非音声について算出される前記前向き出力確率bj(Ot)のうち、確率の高い音声(j=1)又は非音声(j=0)に対応する前向き第1加重平均値^Nt,j,u、^σN t、j、uを、前向き第2加重平均値^Nt,j,u、^σN t、j、uとして出力する。 In this embodiment, out of the forward output probabilities b j (O t ) calculated for the speech and non-speech, the forward first corresponding to speech (j = 1) or non-speech (j = 0) with high probability. The weighted average values ^ N t, j, u , ^ σ N t, j, u are output as forward second weighted average values ^ N t, j, u , ^ σ N t, j, u .
このように処理することで、加重平均の計算をせずに済むため、処理の高速化を図ることができる。ただし、両者の確率差が小さい場合には一方を無視することによる影響が大きくなるため、この実施形態の利用に際しては双方の確率差が十分に大きいことが望ましい。 By processing in this way, it is not necessary to calculate a weighted average, so that the processing speed can be increased. However, if the probability difference between the two is small, the influence of ignoring one becomes large. Therefore, it is desirable that the probability difference between the two is sufficiently large when using this embodiment.
以上、前向き第1加重平均算出部135及び後向き第1加重平均算出部137について記したが、後向き第1加重平均算出部145及び後向き第2加重平均算出部147についても前向き第1加重平均算出部135及び前向き第2加重平均算出部137と同様な処理を行うことができる。
The forward first weighted
〔変更例等〕
上記各実施の形態において、パラメータ予測処理S306において、ランダムウォーク過程により1フレーム前の推定結果より現在の時刻のパラメータを予測しているが、自己回帰法(線形予測法)などを用いて予測してもよい。この場合、自己回帰係数の次数に応じて最終的な雑音モデルパラメータ推定性能が向上することが期待される。
[Examples of changes]
In each of the above embodiments, in the parameter prediction process S306, the parameter of the current time is predicted from the estimation result of one frame before by a random walk process, but is predicted using an autoregressive method (linear prediction method) or the like. May be. In this case, it is expected that the final noise model parameter estimation performance is improved according to the order of the autoregressive coefficient.
また、上記実施の形態において、音声信号区間推定部70における閾値判定後に、図6に破線で示すように音声信号区間及び非音声信号区間の継続長を調査して音声信号区間推定結果を自動訂正する突発異常検出補正部74を接続してもよい。又は、同じく図6に破線で示すように、音声状態/非音声状態の判定結果と入力信号oνとを掛け合わせた信号を出力するようにし、突発異常検出補正部74と同様に作用させてもよい。音声信号区間推定部70をこのように構成することにより、突発的な識別誤りを訂正することができるため、音声信号区間推定の性能が向上することが期待される。 Further, in the above embodiment, after the threshold value determination in the audio signal interval estimation unit 70, the duration of the audio signal interval and the non-audio signal interval is investigated and the audio signal interval estimation result is automatically corrected as shown by the broken line in FIG. A sudden abnormality detection correction unit 74 may be connected. Alternatively, as indicated by a broken line in FIG. 6, a signal obtained by multiplying the determination result of the voice state / non-voice state and the input signal o ν is output, and the same action as the sudden abnormality detection correction unit 74 is performed. Also good. By configuring the speech signal section estimation unit 70 in this way, sudden identification errors can be corrected, and it is expected that the performance of speech signal section estimation is improved.
また、周波数応答フィルタ生成処理S704において、後向き正規化出力確率wOB s,j,kの代わりに前向き正規化出力確率wOF t,j,kを用いて周波数応答フィルタFILTERs,uを生成してもよい。 Further, in the frequency response filter generation processing S704, the frequency response filter FILTER s, u is generated using the forward normalized output probability w OF t, j, k instead of the backward normalized output probability w OB s, j, k. May be.
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。 Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium may be any medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, the magnetic recording device may be a hard disk device or a flexible Discs, magnetic tapes, etc. as optical discs, DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD-R (Recordable) / RW (ReWritable), etc. As the magneto-optical recording medium, MO (Magneto-Optical disc) or the like can be used, and as the semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory) or the like can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
〔実験結果〕
実施形態の手法の効果を示すために、音声信号と雑音信号が混在する入力信号を第1実施形態の雑音除去装置1に入力し、雑音除去を行った実施例を示す。以下、実験方法及び結果について説明する。
〔Experimental result〕
In order to show the effect of the technique of the embodiment, an example is shown in which an input signal in which a voice signal and a noise signal are mixed is input to the
本実験では、音声区間検出(VAD: Voice Activity Detection)の評価用に設計されたデータベースCENSREC-1-C(北岡教英,山田武志,柘植覚,宮島千代美,西浦敬信,中山雅人,傳田遊亀,藤本雅清,山本一公 ,滝口哲也,黒岩眞吾,武田一哉,中村哲,“CENSREC-1-C:雑音下音声区間検出評価基盤の構築,”情報処理学会研究報告,SLP-63-1, pp.1-6, Oct.2006.)を用いて提案手法の評価を行った。 In this experiment, the database CENSREC-1-C designed for the evaluation of voice activity detection (VAD) (Norihide Kitaoka, Takeshi Yamada, Satoshi Tsuji, Chiyomi Miyajima, Takanobu Nishiura, Masato Nakayama, Yuka Tomita, Masayoshi Fujimoto, Kazuko Yamamoto, Tetsuya Takiguchi, Satoshi Kuroiwa, Kazuya Takeda, Satoshi Nakamura, “CENSREC-1-C: Construction of a noisy speech segment detection and evaluation platform,” Information Processing Society of Japan Research Report, SLP-63-1, pp .1-6, Oct. 2006.), the proposed method was evaluated.
CENSREC-1-Cは、人工的に作成したシミュレーションデータと、実環境で収録した実データの2種類のデータを含んでいる。本実験では、実環境における音声品質劣化の影響(雑音及び、発声変形の影響等)を調査するため、実データを用いて評価を行った。 CENSREC-1-C includes two types of data: artificially created simulation data and actual data recorded in an actual environment. In this experiment, in order to investigate the influence of voice quality degradation (noise, influence of utterance deformation, etc.) in the actual environment, evaluation was performed using actual data.
CENSREC-1-Cの実データの収録は、学生食堂(Restaurant)と高速道路付近(Street)の2種類の環境で行われており、SNRはそれぞれ、High SNR(騒音レベル60dB(A)前後)と、Low SNR(騒音レベル70dB(A)前後)である。音声データは、1名の話者が1〜12桁の連続数字を8〜10回、約2秒間隔で発話した音声を1ファイルとして収録しており、各環境において話者1名あたり4ファイルを収録している。発話者は10名(男女各5名)である(ただし評価対象は男性1名を除く9名分のデータ)。それぞれの信号は、サンプリング周波数は8,000Hz、量子化ビット数16ビットで離散サンプリングされた。この音響信号に対し、1フレームの時間長を25ms(200サンプル点)とし、10ms(80サンプル点)ごとにフレームの始点を移動させて、音響信号分析部10の処理を行った。
The actual data of CENSREC-1-C is recorded in two types of environments: the student cafeteria (Restaurant) and the highway (Street). The SNR is high SNR (noise level around 60dB (A)). And Low SNR (noise level around 70 dB (A)). Voice data is recorded as one file of voices spoken by a single speaker, 8 to 10 consecutive numbers of 1 to 12 digits at intervals of about 2 seconds, and 4 files per speaker in each environment. Is recorded. There are 10 speakers (five men and women each) (however, the object of evaluation is data for nine people excluding one man). Each signal was discretely sampled at a sampling frequency of 8,000 Hz and a quantization bit number of 16 bits. With respect to this acoustic signal, the time length of one frame is set to 25 ms (200 sample points), the start point of the frame is moved every 10 ms (80 sample points), and the processing of the acoustic
また、無音信号及びクリーン音声信号の確率モデルには、それぞれ、24次元の対数メルスペクトルを音響特徴量とする混合分布数32の混合正規分布モデルを用い、それぞれ無音信号及びクリーン音声信号を用いて学習した。 Further, as the probability models of the silence signal and the clean speech signal, respectively, a mixed normal distribution model having a mixture distribution number 32 having a 24-dimensional log mel spectrum as an acoustic feature amount is used, and the silence signal and the clean speech signal are respectively used. Learned.
また、パラメータ予測処理S306においてεのパラメータ値には0.001を設定し、変数判定処理S403において、後向き推定に要するフレーム数βには5を設定した。状態遷移確率テーブル61において、状態遷移確率ai,jとしてa0,0=0.8,a0,1=0.2,a1,1=0.1,a1,0=0.9を設定した。また、音声信号区間推定部70において、関値THの値に10を設定した。 In the parameter prediction process S306, the parameter value of ε is set to 0.001, and in the variable determination process S403, the number of frames β required for backward estimation is set to 5. In the state transition probability table 61, as a state transition probability a i, j , a 0,0 = 0.8, a 0,1 = 0.2, a 1,1 = 0.1, a 1,0 = 0.9 It was set. Further, the voice signal section estimation unit 70 sets 10 as the value of the function value TH.
図13(a)(b)は、それぞれ、音声信号区間検出のみを行った場合の音声信号波形、本形態の手法によって雑音除去を行った場合の音声信号波形である。これらの結果から、本形態の手法により効果的に雑音除去が行われていることが明らかとなった。 FIGS. 13A and 13B show the sound signal waveform when only the sound signal section detection is performed, and the sound signal waveform when noise removal is performed by the method of the present embodiment. From these results, it has been clarified that noise removal is effectively performed by the method of this embodiment.
また、図13(c)(d)(e)は、音声認識による評価結果であり、それぞれCENSREC-1-Cデータベースに規定されたベースライン、音声信号区間検出のみを行った場合、本形態の手法よる結果である。これらの結果から、本形態の手法により、雑音が存在する環境下で高い音声認識性能を得られることが明らかとなった。 FIGS. 13C, 13D, and 13E show the evaluation results by speech recognition. When only the baseline and speech signal section detection specified in the CENSREC-1-C database are performed, respectively, This is a result of the method. From these results, it became clear that the method of this embodiment can obtain high speech recognition performance in an environment where noise exists.
Claims (10)
前記入力信号の音声特徴量を一定時間区間であるフレームごとに抽出して出力する音響信号分析部と、
クリーン音声信号と無音信号の各出力確率を、それぞれ、複数の正規分布を含有する混合正規分布で表現した確率モデルの確率モデルパラメータを記憶するモデルパラメータ記憶部と、
前記音声特徴量と、前記モデルパラメータ記憶部に記憶されたクリーン音声信号と無音信号の各確率モデルパラメータとが入力され、過去のフレームから現在のフレームに向かって並列非線形カルマンフィルタにより現在のフレームの雑音モデルパラメータを逐次推定して出力する前向き推定部と、
前記前向き推定部から出力された雑音モデルパラメータと、前記モデルパラメータ記憶部に記憶されたクリーン音声信号と無音信号の各確率モデルパラメータとが入力され、未来のフレームから現在のフレームに向かって並列カルマンスムーザにより現在フレームの雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき、音声(雑音+クリーン音声)信号と非音声(雑音+無音)信号の各出力確率をそれぞれ混合正規分布で表現した確率モデルの確率モデルパラメータを逐次推定し、音声信号と非音声信号それぞれの出力確率を算出して出力する後向き推定部と、
前向き推定部及び後向き推定部における処理の過程で得られた計算結果を記憶するパラメータ記憶部と、
前記音声信号及び非音声信号それぞれの出力確率が入力され、音声状態確率と、非音声状態確率と、当該非音声状態確率に対する当該音声状態確率の比とを算出し、これらを出力する状態確率比算出部と、
前記状態確率の比が入力され、フレームごとに当該状態確率の比としきい値とを比較して、各フレームが音声状態に属するか非音声状態に属するかを示す判定結果を出力する音声信号区間推定部と、
前記音声信号及び非音声信号の各確率モデルパラメータである正規分布ごとの平均と、前記クリーン音声信号及び無音信号の各確率モデルパラメータである正規分布ごとの平均と、前記音声状態確率及び前記非音声状態確率とが入力され、前記音声信号と非音声信号の各確率モデルパラメータである正規分布ごとの前記平均に対する、前記クリーン音声信号と無音信号の各確率モデルパラメータである正規分布ごとの前記平均の各相対値を、前記音声状態確率及び前記非音声状態確率を用いて加重平均し、雑音信号を除去する周波数応答フィルタを生成し、当該周波数応答フィルタをインパルス応答フィルタに変換し、前記入力信号に対して当該インパルス応答フィルタを畳み込んで雑音除去音声信号を生成して出力する雑音除去部と、
を有することを特徴とする雑音除去装置。 A noise removing device that removes a noise signal from an input signal including an audio signal and a noise signal,
An acoustic signal analysis unit that extracts and outputs the audio feature amount of the input signal for each frame that is a certain time interval; and
A model parameter storage unit that stores probability model parameters of a probability model in which each output probability of the clean speech signal and the silence signal is expressed by a mixed normal distribution containing a plurality of normal distributions;
The speech feature value and each probability model parameter of the clean speech signal and the silence signal stored in the model parameter storage unit are input, and noise of the current frame is processed by a parallel nonlinear Kalman filter from the past frame toward the current frame. A forward estimation unit that sequentially estimates and outputs model parameters;
The noise model parameters output from the forward estimation unit and the probability model parameters of the clean speech signal and the silence signal stored in the model parameter storage unit are input, and the parallel Kalman from the future frame to the current frame is input. The noise model parameters of the current frame are sequentially backward estimated by the smoother, and the output probabilities of speech (noise + clean speech) and non-speech (noise + silence) signals are mixed and normalized based on the backward estimated noise model parameters. A backward estimation unit that sequentially estimates the probability model parameters of the probability model expressed by distribution, calculates and outputs the output probability of each of the speech signal and the non-speech signal,
A parameter storage unit for storing calculation results obtained in the course of processing in the forward estimation unit and the backward estimation unit;
Output probability of each of the speech signal and the non-speech signal is inputted, a speech state probability, a non-speech state probability, a ratio of the speech state probability to the non-speech state probability, and a state probability ratio for outputting them A calculation unit;
A voice signal section in which the ratio of the state probabilities is input, the ratio of the state probabilities for each frame is compared with a threshold value, and a determination result indicating whether each frame belongs to a voice state or a non-voice state is output. An estimation unit;
The average for each normal distribution that is each probability model parameter of the speech signal and the non-speech signal, the average for each normal distribution that is each probability model parameter of the clean speech signal and the silence signal, the speech state probability and the non-speech A state probability is input, and the average for each normal distribution that is each probability model parameter of the clean speech signal and silence signal is compared to the average for each normal distribution that is each probability model parameter of the speech signal and the non-speech signal. Each relative value is weighted and averaged using the speech state probability and the non-speech state probability to generate a frequency response filter that removes a noise signal, and the frequency response filter is converted into an impulse response filter. A noise removing unit that convolves the impulse response filter to generate and output a noise-removed voice signal,
A noise removal apparatus comprising:
前記前向き推定部は、
前記音響特徴量と、1フレーム前の前向き第2加重平均値とが入力され、過去のフレームから現在のフレームに向けて現フレームの雑音モデルパラメータ予測値を計算し出力する雑音モデルパラメータ予測部と、
前記音響特徴量と、前記雑音モデルパラメータ予測値と、前記クリーン音声信号及び無音信号の各確率モデルパラメータとが入力され、雑音モデルパラメータの更新処理を前記クリーン音声信号及び無音信号の各確率モデルの複数の正規分布ごとに並列に行って、雑音モデルパラメータ更新値を出力する雑音モデルパラメータ更新部と、
前記雑音モデルパラメータ更新値と、前記クリーン音声信号及び無音信号の各確率モデルパラメータとが入力され、前記各フレームを単位とする時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成して出力する前向き確率モデルパラメータ生成部と、
前記音響特徴量と、前記前向き確率モデルパラメータ生成部から出力される前記音声確率モデルパラメータ及び前記非音声確率モデルパラメータと、前記クリーン音声信号及び無音信号の各確率モデルパラメータである前記正規分布ごとの混合重みとが入力され、前記フレームごとに音声、非音声それぞれの前向き出力確率と、この前向き出力確率を前記正規分布ごとに分解した前向き正規化出力確率とを算出して出力する前向き音声/非音声出力確率算出部と、
前記雑音モデルパラメータ更新値と、前記前向き正規化出力確率とが入力され、雑音モデルパラメータの前向き第1加重平均値を算出して出力する前向き第1加重平均算出部と、
前記前向き第1加重平均値と、前記音声及び非音声それぞれの前向き出力確率とが入力され、現フレームの前向き第2加重平均値を算出して出力する前向き第2加重平均算出部と、
を有し、
前記後向き推定部は、
1フレーム後の前記雑音モデルパラメータ予測値と、現フレームの前記雑音モデルパラメータ更新値と、1フレーム後の雑音モデルパラメータ再推定値とが入力され、現フレームの前向き雑音モデルパラメータの再推定処理を前記クリーン音声信号及び無音信号の各確率モデルの複数の正規分布ごとに並列に、未来の時刻から現在の時刻に向けて行って、雑音モデルパラメータ再推定値を出力する雑音モデルパラメータ再推定部と、
前記雑音モデルパラメータ再推定値と、前記クリーン音声信号及び無音信号の各確率モデルパラメータとが入力され、前記フレームを単位とする当該時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成して出力する後向き確率モデルパラメータ生成部と、
前記音響特徴量と、前記後向き確率モデルパラメータ生成部から出力される前記音声確率モデルパラメータ及び前記非音声確率モデルパラメータと、前記クリーン音声信号及び無音信号の各確率モデルパラメータである前記正規分布ごとの混合重みとが入力され、前記フレームごとに音声、非音声それぞれの出力確率と、この出力確率を前記正規分布ごとに分解した後向き正規化出力確率とを算出して出力する後向き音声/非音声出力確率算出部と、
前記雑音モデルパラメータ再推定値と、前記後向き正規化出力確率とが入力され、雑音モデルパラメータの後向き第1加重平均値を算出して出力する後向き第1加重平均算出部と、
前記後向き第1加重平均値と、前記音声、非音声それぞれの出力確率とが入力され、現フレームの後向き第2加重平均値を算出して出力する後向き第2加重平均算出部と、
を有し、
前記雑音除去部には、さらに前記正規分布ごとの前向き正規化出力確率及び後向き正規化出力確率の少なくとも一方が入力され、
前記雑音除去部は、
前記音声信号と非音声信号の各確率モデルパラメータである正規分布ごとの前記平均に対する、前記クリーン音声信号と無音信号の各確率モデルパラメータである正規分布ごとの前記平均の各相対値を、さらに、前記正規分布ごとの前向き正規化出力確率及び後向き正規化出力確率の少なくとも一方を用いて加重平均し、前記周波数応答フィルタを生成するものである、
ことを特徴とする雑音除去装置。 In the noise removal apparatus of Claim 1,
The forward estimation unit includes:
A noise model parameter prediction unit that receives the acoustic feature value and a forward second weighted average value one frame before, calculates and outputs a noise model parameter prediction value of the current frame from the past frame toward the current frame; ,
The acoustic feature value, the noise model parameter prediction value, and each probability model parameter of the clean speech signal and silence signal are input, and the update process of the noise model parameter is performed for each probability model of the clean speech signal and silence signal. A noise model parameter update unit that outputs a noise model parameter update value in parallel for each of a plurality of normal distributions;
The noise model parameter update value and the probability model parameters of the clean speech signal and the silence signal are input, and the speech (noise + clean speech) probability model parameter suitable for the noise environment at the time in units of each frame; A forward probability model parameter generation unit that generates and outputs a non-voice (noise + silence) probability model parameter;
For each of the normal distributions, the acoustic feature amount, the speech probability model parameter and the non-speech probability model parameter output from the forward probability model parameter generation unit, and the probability model parameters of the clean speech signal and the silence signal. Forward weights of speech and non-speech output probabilities for each frame, and forward normalized output probabilities obtained by decomposing the forward output probabilities for each of the normal distributions, and output them. An audio output probability calculation unit;
A forward first weighted average calculating unit that receives the noise model parameter update value and the forward normalized output probability and calculates and outputs a forward first weighted average value of the noise model parameter;
A forward second weighted average calculating unit that receives the forward first weighted average value and the forward output probability of each of the speech and non-speech and calculates and outputs the forward second weighted average value of the current frame;
Have
The backward estimation unit is
The noise model parameter prediction value after one frame, the noise model parameter update value of the current frame, and the noise model parameter re-estimation value after one frame are input, and re-estimation processing of the forward noise model parameter of the current frame is performed. A noise model parameter re-estimation unit that outputs a noise model parameter re-estimation value in parallel for each of the plurality of normal distributions of each probability model of the clean speech signal and the silence signal from the future time to the current time; ,
The noise model parameter re-estimation value and the probability model parameters of the clean speech signal and silence signal are input, and the speech (noise + clean speech) probability model parameter suitable for the noise environment at the time in units of the frame And a backward probability model parameter generation unit that generates and outputs a non-voice (noise + silence) probability model parameter;
For each of the normal distributions, the acoustic feature amount, the speech probability model parameter and the non-speech probability model parameter output from the backward probability model parameter generation unit, and each probability model parameter of the clean speech signal and the silence signal Backward speech / non-speech output for calculating and outputting the output probability of each of speech and non-speech for each frame and the backward normalized output probability obtained by decomposing this output probability for each normal distribution A probability calculator;
A backward first weighted average calculating unit that receives the noise model parameter re-estimated value and the backward normalized output probability, calculates and outputs a backward first weighted average value of the noise model parameter;
A backward second weighted average calculating unit that receives the backward first weighted average value and the output probabilities of the speech and non-speech and calculates and outputs the backward second weighted average value of the current frame;
Have
The noise removal unit further receives at least one of a forward normalized output probability and a backward normalized output probability for each normal distribution,
The noise removing unit
The relative value of the average for each normal distribution that is each probability model parameter of the clean speech signal and the silence signal, with respect to the average for each normal distribution that is each probability model parameter of the speech signal and the non-speech signal, The frequency response filter is generated by weighted averaging using at least one of a forward normalized output probability and a backward normalized output probability for each normal distribution.
The noise removal apparatus characterized by the above-mentioned.
前記状態確率比算出部は、
有限状態機械により表現された音声/非音声の状態遷移モデルにおいて予め設定された状態遷移確率を記憶する状態遷移確率テーブルと、
現フレームの前記音声及び非音声それぞれの出力確率と、前記状態遷移確率と、1フレーム前の前向き確率とが入力され、現フレームの前向き確率を算出して出力する前向き確率算出部と、
1フレーム後の前記音声及び非音声それぞれの出力確率と、前記状態遷移確率と、1フレーム後の後向き確率とが入力され、現フレームの後向き確率を算出して出力する後向き確率算出部と、
前向き確率算出部及び後向き確率算出部における処理の過程で得られた前向き確率及び後向き確率を記憶する確率比算出用バッファと、
前記現フレームの前向き確率と前記現フレームの後向き確率とが入力され、前記現フレームの前向き確率と前記現フレームの後向き確率との積によって非音声状態確率及び音声状態確率を算出し、当該非音声状態確率に対する当該音声状態確率の比を算出し、当該非音声状態確率と、当該音声状態確率と、該非音声状態確率に対する当該音声状態確率の比とを出力する確率比算出部と、
を有することを特徴とする雑音除去装置。 In the noise removal apparatus according to claim 1 or 2,
The state probability ratio calculation unit
A state transition probability table that stores state transition probabilities set in advance in a speech / non-speech state transition model expressed by a finite state machine;
A forward probability calculation unit that inputs the output probability of each of the speech and non-speech of the current frame, the state transition probability, and the forward probability of one frame before, and calculates and outputs the forward probability of the current frame;
A backward probability calculation unit that receives the output probability of each of the speech and non-speech after one frame, the state transition probability, and the backward probability after one frame, and calculates and outputs the backward probability of the current frame;
A probability ratio calculation buffer for storing the forward probability and the backward probability obtained in the course of processing in the forward probability calculation unit and the backward probability calculation unit;
The forward probability of the current frame and the backward probability of the current frame are input, and the non-speech state probability and the speech state probability are calculated by a product of the forward probability of the current frame and the backward probability of the current frame, A ratio of the voice state probability to the state probability; and a probability ratio calculation unit that outputs the non-voice state probability, the voice state probability, and the ratio of the voice state probability to the non-voice state probability;
A noise removal apparatus comprising:
前記前向き第1加重平均算出部は、前記雑音モデルパラメータ更新値の中で最大の前記前向き正規化出力確率を持つ雑音モデルパラメータ更新値を雑音モデルパラメータの前向き第1加重平均値として出力するものであり、
前記前向き第2加重平均算出部は、前記前向き第1加重平均値の中で最大の前記前向き出力確率を持つ前向き第1加重平均値を現フレームの前向き第2加重平均値として出力するものであり、
前記後向き第1加重平均算出部は、前記雑音モデルパラメータ再推定値の中で最大の前記後向き正規化出力確率を持つ雑音モデルパラメータ再推定値を雑音モデルパラメータの後向き第1加重平均値として出力するものであり、
前記後向き第2加重平均算出部は、前記後向き第1加重平均値の中で最大の前記状態遷移確率を持つ後向き第1加重平均値を現フレームの後向き第2加重平均値として出力するものである、
ことを特徴とする雑音除去装置。 In the noise removal apparatus of Claim 2 or 3,
The forward first weighted average calculating unit outputs a noise model parameter update value having the maximum forward normalized output probability among the noise model parameter update values as a forward first weighted average value of the noise model parameters. Yes,
The forward second weighted average calculating unit outputs the forward first weighted average value having the maximum forward output probability among the forward first weighted average values as the forward second weighted average value of the current frame. ,
The backward first weighted average calculating unit outputs a noise model parameter reestimation value having the maximum backward normalized output probability among the noise model parameter reestimation values as a backward first weighted average value of the noise model parameters. Is,
The backward second weighted average calculating unit outputs the backward first weighted average value having the maximum state transition probability among the backward first weighted average values as the backward second weighted average value of the current frame. ,
The noise removal apparatus characterized by the above-mentioned.
クリーン音声信号と無音信号の各出力確率を、それぞれ、複数の正規分布を含有する混合正規分布で表現した確率モデルの確率モデルパラメータをモデルパラメータ記憶部に格納しておき、
音響信号分析部が、前記入力信号の音声特徴量を一定時間区間であるフレームごとに抽出して出力する音響信号分析過程と、
前記音声特徴量と、前記モデルパラメータ記憶部に記憶されたクリーン音声信号と無音信号の各確率モデルパラメータとが入力された前向き推定部が、過去のフレームから現在のフレームに向かって並列非線形カルマンフィルタにより現在のフレームの雑音モデルパラメータを逐次推定して出力する前向き推定過程と、
前記雑音モデルパラメータと、前記クリーン音声信号と無音信号の各確率モデルパラメータとが入力された後向き推定部が、未来のフレームから現在のフレームに向かって並列カルマンスムーザにより現在フレームの雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき、音声(雑音+クリーン音声)信号と非音声(雑音+無音)信号の各出力確率をそれぞれ混合正規分布で表現した確率モデルの確率モデルパラメータを逐次推定し、音声信号と非音声信号それぞれの出力確率を算出して出力する後向き推定過程と、
前向き推定過程及び後向き推定過程で得られた計算結果をパラメータ記憶部に記憶する過程と、
前記音声信号及び非音声信号それぞれの出力確率が入力された状態確率比算出部が、音声状態確率と、非音声状態確率と、当該非音声状態確率に対する当該音声状態確率の比とを算出し、これらを出力する状態確率比算出過程と、
前記状態確率の比が入力された音声信号区間推定部が、フレームごとに当該状態確率の比としきい値とを比較して、各フレームが音声状態に属するか非音声状態に属するかを示す判定結果を出力する音声信号区間推定過程と、
前記音声信号及び非音声信号の各確率モデルパラメータである正規分布ごとの平均と、前記クリーン音声信号及び無音信号の各確率モデルパラメータである正規分布ごとの平均と、前記音声状態確率及び前記非音声状態確率とが入力された雑音除去部が、前記音声信号と非音声信号の各確率モデルパラメータである正規分布ごとの前記平均に対する、前記クリーン音声信号と無音信号の各確率モデルパラメータである正規分布ごとの前記平均の各相対値を、前記音声状態確率及び前記非音声状態確率とを用いて加重平均し、雑音信号を除去する周波数応答フィルタを生成し、当該周波数応答フィルタをインパルス応答フィルタに変換し、前記入力信号に対して当該インパルス応答フィルタを畳み込んで雑音除去音声信号を生成して出力する雑音除去過程と、
を実行することを特徴とする雑音除去方法。 A noise removal method for removing a noise signal from an input signal including an audio signal and a noise signal,
Probability model parameters of a probability model in which each output probability of a clean speech signal and a silence signal is expressed by a mixed normal distribution containing a plurality of normal distributions is stored in the model parameter storage unit,
An acoustic signal analysis process in which the acoustic signal analysis unit extracts and outputs the audio feature amount of the input signal for each frame that is a fixed time interval;
The forward estimation unit to which the speech feature amount and each probability model parameter of the clean speech signal and the silence signal stored in the model parameter storage unit are input is performed by a parallel nonlinear Kalman filter from a past frame to a current frame. A forward estimation process that sequentially estimates and outputs the noise model parameters of the current frame;
The backward estimation unit, to which the noise model parameters and the probability model parameters of the clean speech signal and the silence signal are input, calculates the noise model parameters of the current frame from the future frame to the current frame by a parallel Kalman smoother. Probabilistic model parameters of a probability model in which each output probability of a speech (noise + clean speech) signal and a non-speech (noise + silence) signal is expressed by a mixed normal distribution based on successive backward estimation noise model parameters A backward estimation process that sequentially estimates and outputs the output probability of each of the speech signal and the non-speech signal,
Storing the calculation results obtained in the forward estimation process and the backward estimation process in the parameter storage unit;
The state probability ratio calculation unit to which the output probability of each of the speech signal and the non-speech signal is input calculates a speech state probability, a non-speech state probability, and a ratio of the speech state probability to the non-speech state probability, State probability ratio calculation process that outputs these,
The speech signal section estimation unit to which the state probability ratio is input compares the state probability ratio with a threshold value for each frame to determine whether each frame belongs to a speech state or a non-speech state A speech signal interval estimation process for outputting a result;
The average for each normal distribution that is each probability model parameter of the speech signal and the non-speech signal, the average for each normal distribution that is each probability model parameter of the clean speech signal and the silence signal, the speech state probability and the non-speech A normal distribution which is a probability model parameter of each of the clean speech signal and the silence signal with respect to the average of each normal distribution which is a probability model parameter of each of the speech signal and the non-speech signal. Each average value of each average is weighted and averaged using the speech state probability and the non-speech state probability to generate a frequency response filter that removes a noise signal, and the frequency response filter is converted into an impulse response filter Then, the impulse response filter is convoluted with the input signal to generate and output a noise-removed speech signal. And the removal process,
A denoising method characterized by comprising:
前記前向き推定過程は、
前記音響特徴量と、1フレーム前の前向き第2加重平均値とが入力された雑音モデルパラメータ予測部が、過去のフレームから現在のフレームに向けて現フレームの雑音モデルパラメータ予測値を計算し出力する雑音モデルパラメータ予測過程と、
前記音響特徴量と、前記雑音モデルパラメータ予測値と、前記クリーン音声信号及び無音信号の各確率モデルパラメータとが入力された雑音モデルパラメータ更新部が、雑音モデルパラメータの更新処理を前記クリーン音声信号及び無音信号の各確率モデルの複数の正規分布ごとに並列に行って、雑音モデルパラメータ更新値を出力する雑音モデルパラメータ更新過程と、
前記雑音モデルパラメータ更新値と、前記クリーン音声信号及び無音信号の各確率モデルパラメータとが入力された前向き確率モデルパラメータ生成部が、前記各フレームを単位とする時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成して出力する前向き確率モデルパラメータ生成過程と、
前記音響特徴量と、前記前向き確率モデルパラメータ生成部から出力される前記音声確率モデルパラメータ及び前記非音声確率モデルパラメータと、前記クリーン音声信号及び無音信号の各確率モデルパラメータである前記正規分布ごとの混合重みとが入力された前向き音声/非音声出力確率算出部が、前記フレームごとに音声、非音声それぞれの前向き出力確率と、この前向き出力確率を前記正規分布ごとに分解した前向き正規化出力確率とを算出して出力する前向き音声/非音声出力確率算出過程と、
前記雑音モデルパラメータ更新値と、前記前向き正規化出力確率とが入力された前向き第1加重平均算出部が、雑音モデルパラメータの前向き第1加重平均値を算出して出力する前向き第1加重平均算出過程と、
前記前向き第1加重平均値と、前記音声及び非音声それぞれの前向き出力確率とが入力された前向き第2加重平均算出部が、現フレームの前向き第2加重平均値を算出して出力する前向き第2加重平均算出過程と、
を有し、
前記後向き推定過程は、
1フレーム後の前記雑音モデルパラメータ予測値と、現フレームの前記雑音モデルパラメータ更新値と、1フレーム後の雑音モデルパラメータ再推定値とが入力された雑音モデルパラメータ再推定部が、現フレームの前向き雑音モデルパラメータの再推定処理を前記クリーン音声信号及び無音信号の各確率モデルの複数の正規分布ごとに並列に、未来の時刻から現在の時刻に向けて行って、雑音モデルパラメータ再推定値を出力する雑音モデルパラメータ再推定過程と、
前記雑音モデルパラメータ再推定値と、前記クリーン音声信号及び無音信号の各確率モデルパラメータとが入力された後向き確率モデルパラメータ生成部が、前記フレームを単位とする当該時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成して出力する後向き確率モデルパラメータ生成過程と、
前記音響特徴量と、前記後向き確率モデルパラメータ生成部から出力される前記音声確率モデルパラメータ及び前記非音声確率モデルパラメータと、前記クリーン音声信号及び無音信号の各確率モデルパラメータである前記正規分布ごとの混合重みとが入力された後向き音声/非音声出力確率算出部が、前記フレームごとに音声、非音声それぞれの出力確率と、この出力確率を前記正規分布ごとに分解した後向き正規化出力確率とを算出して出力する後向き音声/非音声出力確率算出過程と、
前記雑音モデルパラメータ再推定値と、前記後向き正規化出力確率とが入力された後向き第1加重平均算出部が、雑音モデルパラメータの後向き第1加重平均値を算出して出力する後向き第1加重平均算出過程と、
前記後向き第1加重平均値と、前記音声、非音声それぞれの出力確率とが入力された後向き第2加重平均算出部が、現フレームの後向き第2加重平均値を算出して出力する後向き第2加重平均算出過程と、
を有し、
前記雑音除去過程は、
さらに前記正規分布ごとの前向き正規化出力確率及び後向き正規化出力確率の少なくとも一方が入力された前記雑音除去部が、
前記音声信号と非音声信号の各確率モデルパラメータである正規分布ごとの前記平均に対する、前記クリーン音声信号と無音信号の各確率モデルパラメータである正規分布ごとの前記平均の各相対値を、さらに、前記正規分布ごとの前向き正規化出力確率及び後向き正規化出力確率の少なくとも一方を用いて加重平均し、前記周波数応答フィルタを生成する過程である、
を有することを特徴とする雑音除去方法。 In the noise removal method of Claim 5,
The forward estimation process includes:
The noise model parameter prediction unit to which the acoustic feature amount and the forward second weighted average value one frame before are input calculates and outputs the noise model parameter prediction value of the current frame from the past frame to the current frame Noise model parameter prediction process,
The noise model parameter update unit to which the acoustic feature amount, the noise model parameter prediction value, and each probability model parameter of the clean speech signal and the silence signal are input, the noise model parameter update processing, the clean speech signal and A noise model parameter update process in which the noise model parameter update value is output in parallel for each normal distribution of each probability model of the silence signal,
The forward probability model parameter generation unit to which the noise model parameter update value and the probability model parameters of the clean speech signal and the silence signal are input is a speech (noise) adapted to a noise environment at a time in units of the frames. + A forward speech model parameter generation process that generates and outputs a probability model parameter and a non-speech (noise + silence) probability model parameter;
For each of the normal distributions, the acoustic feature amount, the speech probability model parameter and the non-speech probability model parameter output from the forward probability model parameter generation unit, and the probability model parameters of the clean speech signal and the silence signal. The forward speech / non-speech output probability calculation unit to which the mixed weight is input has a forward output probability of each speech and non-speech for each frame, and a forward normalized output probability obtained by decomposing this forward output probability for each normal distribution A forward sound / non-speech output probability calculation process for calculating and outputting
A forward first weighted average calculation unit that receives the noise model parameter update value and the forward normalized output probability and calculates and outputs a forward first weighted average value of the noise model parameter. Process,
A forward second weighted average calculation unit, to which the forward first weighted average value and the forward output probabilities of the voice and non-voice are input, calculates and outputs the forward second weighted average value of the current frame. 2-weighted average calculation process;
Have
The backward estimation process includes:
The noise model parameter re-estimation unit, to which the noise model parameter prediction value after one frame, the noise model parameter update value of the current frame, and the noise model parameter re-estimation value after one frame are input, The noise model parameter re-estimation process is performed in parallel for each normal distribution of each probability model of the clean speech signal and silence signal, and the noise model parameter re-estimation value is output from the future time to the current time. Noise model parameter re-estimation process,
The backward probability model parameter generation unit to which the noise model parameter re-estimation value and the probability model parameters of the clean speech signal and the silence signal are input is a speech adapted to the noise environment at the time in units of the frame ( A process of generating a backward probability model parameter for generating and outputting a noise + clean speech) probability model parameter and a non-speech (noise + silence) probability model parameter;
For each of the normal distributions, the acoustic feature amount, the speech probability model parameter and the non-speech probability model parameter output from the backward probability model parameter generation unit, and each probability model parameter of the clean speech signal and the silence signal The backward speech / non-speech output probability calculation unit to which the mixed weight is input, outputs the speech and non-speech output probabilities for each frame, and the backward normalized output probability obtained by decomposing this output probability for each normal distribution. Backward voice / non-voice output probability calculation process to calculate and output,
A backward first weighted average calculation unit, to which the noise model parameter re-estimation value and the backward normalized output probability are input, calculates and outputs a backward first weighted average value of the noise model parameter, and outputs the backward first weighted average Calculation process,
A backward second weighted average calculation unit, to which the backward first weighted average value and the output probabilities of the voice and non-voice are input, calculates and outputs the backward second weighted average value of the current frame. A weighted average calculation process;
Have
The noise removal process includes:
Further, the noise removing unit to which at least one of a forward normalized output probability and a backward normalized output probability for each normal distribution is input,
The relative value of the average for each normal distribution that is each probability model parameter of the clean speech signal and the silence signal, with respect to the average for each normal distribution that is each probability model parameter of the speech signal and the non-speech signal, A step of generating a frequency response filter by weighted averaging using at least one of a forward normalized output probability and a backward normalized output probability for each normal distribution;
A noise removal method comprising:
前記状態確率比算出過程は、
有限状態機械により表現された音声/非音声の状態遷移モデルにおいて予め設定された状態遷移確率を状態遷移確率テーブルに格納しておき、
現フレームの前記音声及び非音声それぞれの出力確率と、前記状態遷移確率と、1フレーム前の前向き確率とが入力された前向き確率算出部が、現フレームの前向き確率を算出して出力する前向き確率算出過程と、
1フレーム後の前記音声及び非音声それぞれの出力確率と、前記状態遷移確率と、1フレーム後の後向き確率とが入力された後向き確率算出部が、現フレームの後向き確率を算出して出力する後向き確率算出過程と、
前向き確率算出過程及び後向き確率算出過程で得られた前向き確率及び後向き確率を確率比算出用バッファに格納するバッファリング過程と、
前記現フレームの前向き確率と前記現フレームの後向き確率とが入力された確率比算出部が、前記現フレームの前向き確率と前記現フレームの後向き確率との積によって非音声状態確率及び音声状態確率を算出し、当該非音声状態確率に対する当該音声状態確率の比を算出し、当該非音声状態確率と、当該音声状態確率と、該非音声状態確率に対する当該音声状態確率の比とを出力する確率比算出過程と、
を実行することを特徴とする雑音除去方法。 In the noise removal method of Claim 5 or 6,
The state probability ratio calculation process includes:
In the state transition probability table, state transition probabilities set in advance in a state transition model of speech / non-speech expressed by a finite state machine are stored.
A forward probability that the forward probability calculation unit to which the output probability of each of the speech and non-speech of the current frame, the state transition probability, and the forward probability of one frame before is input calculates and outputs the forward probability of the current frame Calculation process,
The backward probability calculation unit, to which the output probability of the speech and non-speech after one frame, the state transition probability, and the backward probability after one frame are input, calculates and outputs the backward probability of the current frame Probability calculation process;
A buffering process for storing the forward probability and the backward probability obtained in the forward probability calculation process and the backward probability calculation process in a probability ratio calculation buffer;
A probability ratio calculation unit that receives the forward probability of the current frame and the backward probability of the current frame calculates a non-speech state probability and a speech state probability by a product of the forward probability of the current frame and the backward probability of the current frame. Calculating a ratio of the speech state probability to the non-speech state probability, and outputting the non-speech state probability, the speech state probability, and a ratio of the speech state probability to the non-speech state probability Process,
A denoising method characterized by comprising:
前記前向き第1加重平均算出過程は、前記雑音モデルパラメータ更新値の中で最大の前記前向き正規化出力確率を持つ雑音モデルパラメータ更新値を雑音モデルパラメータの前向き第1加重平均値として出力する過程であり、
前記前向き第2加重平均算出過程は、前記前向き第1加重平均値の中で最大の前記前向き出力確率を持つ前向き第1加重平均値を現フレームの前向き第2加重平均値として出力する過程であり、
前記後向き第1加重平均算出過程は、前記雑音モデルパラメータ再推定値の中で最大の前記後向き正規化出力確率を持つ雑音モデルパラメータ再推定値を雑音モデルパラメータの後向き第1加重平均値として出力する過程であり、
前記後向き第2加重平均算出過程は、前記後向き第1加重平均値の中で最大の前記状態遷移確率を持つ後向き第1加重平均値を現フレームの後向き第2加重平均値として出力する過程である、
ことを特徴とする雑音除去方法。 In the noise removal method of Claim 6 or 7,
The forward first weighted average calculation process is a process of outputting a noise model parameter update value having the largest forward normalized output probability among the noise model parameter update values as a forward first weighted average value of the noise model parameters. Yes,
The forward second weighted average calculation process is a process of outputting the forward first weighted average value having the maximum forward output probability among the forward first weighted average values as the forward second weighted average value of the current frame. ,
The backward first weighted average calculation process outputs a noise model parameter reestimation value having the maximum backward normalized output probability among the noise model parameter reestimation values as a backward first weighted average value of the noise model parameters. Process,
The backward second weighted average calculation process is a process of outputting the backward first weighted average value having the maximum state transition probability among the backward first weighted average values as the backward second weighted average value of the current frame. ,
A noise removal method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008051175A JP4856662B2 (en) | 2008-02-29 | 2008-02-29 | Noise removing apparatus, method thereof, program thereof and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008051175A JP4856662B2 (en) | 2008-02-29 | 2008-02-29 | Noise removing apparatus, method thereof, program thereof and recording medium |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2009210647A true JP2009210647A (en) | 2009-09-17 |
JP2009210647A5 JP2009210647A5 (en) | 2011-11-10 |
JP4856662B2 JP4856662B2 (en) | 2012-01-18 |
Family
ID=41183897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008051175A Active JP4856662B2 (en) | 2008-02-29 | 2008-02-29 | Noise removing apparatus, method thereof, program thereof and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4856662B2 (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012048119A (en) * | 2010-08-30 | 2012-03-08 | Nippon Telegr & Teleph Corp <Ntt> | Voice interval detecting method, speech recognition method, voice interval detector, speech recognition device, and program and storage method therefor |
JP2012123185A (en) * | 2010-12-08 | 2012-06-28 | Nippon Telegr & Teleph Corp <Ntt> | Noise suppression device, and method and program thereof |
JP2013007975A (en) * | 2011-06-27 | 2013-01-10 | Nippon Telegr & Teleph Corp <Ntt> | Noise suppression device, method and program |
JP2015102702A (en) * | 2013-11-26 | 2015-06-04 | 日本電信電話株式会社 | Utterance section extraction device, method of the same and program |
WO2015093025A1 (en) * | 2013-12-17 | 2015-06-25 | 日本電気株式会社 | Speech processing device, speech processing method, and recording medium |
JP2015155982A (en) * | 2014-02-21 | 2015-08-27 | 日本電信電話株式会社 | Voice section detection device, speech recognition device, method thereof, and program |
CN105575395A (en) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | Voice wake-up method and apparatus, terminal, and processing method thereof |
CN114818799A (en) * | 2022-04-15 | 2022-07-29 | 西南交通大学 | Method for cutting monitoring signal for drilling and reaming integrated processing of composite laminated component |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240048363A (en) * | 2022-10-06 | 2024-04-15 | 삼성전자주식회사 | Electronic apparatus and controlling method thereof |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007041499A (en) * | 2005-07-01 | 2007-02-15 | Advanced Telecommunication Research Institute International | Noise suppressing device, computer program, and speech recognition system |
JP2008145923A (en) * | 2006-12-13 | 2008-06-26 | Nippon Telegr & Teleph Corp <Ntt> | Speech signal section estimating device, method thereof, program thereof, and recording medium |
-
2008
- 2008-02-29 JP JP2008051175A patent/JP4856662B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007041499A (en) * | 2005-07-01 | 2007-02-15 | Advanced Telecommunication Research Institute International | Noise suppressing device, computer program, and speech recognition system |
JP2008145923A (en) * | 2006-12-13 | 2008-06-26 | Nippon Telegr & Teleph Corp <Ntt> | Speech signal section estimating device, method thereof, program thereof, and recording medium |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012048119A (en) * | 2010-08-30 | 2012-03-08 | Nippon Telegr & Teleph Corp <Ntt> | Voice interval detecting method, speech recognition method, voice interval detector, speech recognition device, and program and storage method therefor |
JP2012123185A (en) * | 2010-12-08 | 2012-06-28 | Nippon Telegr & Teleph Corp <Ntt> | Noise suppression device, and method and program thereof |
JP2013007975A (en) * | 2011-06-27 | 2013-01-10 | Nippon Telegr & Teleph Corp <Ntt> | Noise suppression device, method and program |
JP2015102702A (en) * | 2013-11-26 | 2015-06-04 | 日本電信電話株式会社 | Utterance section extraction device, method of the same and program |
WO2015093025A1 (en) * | 2013-12-17 | 2015-06-25 | 日本電気株式会社 | Speech processing device, speech processing method, and recording medium |
JP2015155982A (en) * | 2014-02-21 | 2015-08-27 | 日本電信電話株式会社 | Voice section detection device, speech recognition device, method thereof, and program |
CN105575395A (en) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | Voice wake-up method and apparatus, terminal, and processing method thereof |
CN114818799A (en) * | 2022-04-15 | 2022-07-29 | 西南交通大学 | Method for cutting monitoring signal for drilling and reaming integrated processing of composite laminated component |
CN114818799B (en) * | 2022-04-15 | 2024-03-19 | 西南交通大学 | Method for segmenting composite laminated component drilling and reaming integrated processing monitoring signals |
Also Published As
Publication number | Publication date |
---|---|
JP4856662B2 (en) | 2012-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4856662B2 (en) | Noise removing apparatus, method thereof, program thereof and recording medium | |
JP5411936B2 (en) | Speech signal section estimation apparatus, speech signal section estimation method, program thereof, and recording medium | |
US7590526B2 (en) | Method for processing speech signal data and finding a filter coefficient | |
US7856353B2 (en) | Method for processing speech signal data with reverberation filtering | |
JP4586577B2 (en) | Disturbance component suppression device, computer program, and speech recognition system | |
JPH07271394A (en) | Removal of signal bias for sure recognition of telephone voice | |
US20060195317A1 (en) | Method and apparatus for recognizing speech in a noisy environment | |
JP4705414B2 (en) | Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium | |
US7120580B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
JP5713818B2 (en) | Noise suppression device, method and program | |
JP4965891B2 (en) | Signal processing apparatus and method | |
JP4673828B2 (en) | Speech signal section estimation apparatus, method thereof, program thereof and recording medium | |
JP2013114151A (en) | Noise suppression device, method and program | |
JP4977100B2 (en) | Reverberation removal apparatus, dereverberation removal method, program thereof, and recording medium | |
JP4755555B2 (en) | Speech signal section estimation method, apparatus thereof, program thereof, and storage medium thereof | |
JP4691079B2 (en) | Audio signal section estimation apparatus, method, program, and recording medium recording the same | |
JPH10133688A (en) | Speech recognition device | |
JP5457999B2 (en) | Noise suppressor, method and program thereof | |
JP4325044B2 (en) | Speech recognition system | |
JP4685735B2 (en) | Acoustic signal section detection method, apparatus, program, and recording medium therefor | |
Hirsch et al. | A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms | |
KR101005858B1 (en) | Apparatus and method for adapting model parameters of speech recognizer by utilizing histogram equalization | |
Hirsch | Automatic speech recognition in adverse acoustic conditions | |
Astudillo et al. | Uncertainty propagation for speech recognition using RASTA features in highly nonstationary noisy environments | |
JP2008064821A (en) | Signal section prediction apparatus, method, program and recording medium thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091120 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110729 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111018 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111028 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141104 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4856662 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |