JP4673828B2 - Speech signal section estimation apparatus, method thereof, program thereof and recording medium - Google Patents
Speech signal section estimation apparatus, method thereof, program thereof and recording medium Download PDFInfo
- Publication number
- JP4673828B2 JP4673828B2 JP2006335536A JP2006335536A JP4673828B2 JP 4673828 B2 JP4673828 B2 JP 4673828B2 JP 2006335536 A JP2006335536 A JP 2006335536A JP 2006335536 A JP2006335536 A JP 2006335536A JP 4673828 B2 JP4673828 B2 JP 4673828B2
- Authority
- JP
- Japan
- Prior art keywords
- probability
- speech
- noise
- backward
- model parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
Description
本発明は、音声信号と雑音信号が含まれる音響信号から、上記音声信号が存在する区間の推定を、音声状態確率、非音声状態確率を求めて行う音声信号区間推定装置、その方法、そのプログラム及びそのプログラムを記憶する記録媒体に関する。 The present invention relates to a speech signal section estimation apparatus, method and program for estimating a speech state probability and non-speech state probability from a sound signal including a speech signal and a noise signal by estimating a section in which the speech signal exists. And a recording medium for storing the program.
音声信号の符号化、雑音信号の抑圧、残響除去、自動音声認識などの音声信号処理技術の多くにおいては、処理対象とする音声信号以外の信号、つまり雑音信号が含まれる音響信号から、処理対象とする音声信号が存在する区間を推定する必要があり、この区間推定の精度がその後の処理の効果にも大きく影響する。よって、あらゆる音声信号処理技術の基礎となる技術であり、早急に解決されるべき問題である。
後掲の非特許文献1には、入力となる音響信号の周波数スペクトル、信号の全帯域のエネルギーおよび帯域分割後の各帯域のエネルギー、信号波形の零交差数、およびそれらの時間微分などの特徴量を利用した音声信号区間推定方法が開示されている。これらの音響特徴を用いた音声信号区間推定方法では、入力される音響信号を25ms程度のある一定時間長に分割し、分割された各信号区間で上述の音響特徴を算出し、その値が別途定めた閾値を超える場合には音声区間、そうでなければ非音声区間として判定する。
In many speech signal processing technologies such as speech signal coding, noise signal suppression, dereverberation, and automatic speech recognition, a signal other than the speech signal to be processed, that is, an acoustic signal including a noise signal is processed. It is necessary to estimate a section in which a speech signal is present, and the accuracy of this section estimation greatly affects the effect of subsequent processing. Therefore, it is a technology that is the basis of all audio signal processing technologies, and is a problem that should be solved immediately.
Non-Patent
後掲の非特許文献2には、入力となる音響信号にWiener filter理論に基づく雑音除去を適用し、雑音除去後の信号の全帯域のエネルギーおよび帯域分割後の各帯域のエネルギー、周波数スペクトルの分散値などの特徴量を利用した音声信号区間推定方法が開示されている。これらの音響特徴を用いた音声信号区間推定方法では、入力される音響信号を25ms程度のある一定時間長に分割し、分割された各信号区間で上述の音響特徴を算出し、その値が別途定めた閾値を超える場合には音声区間、そうでなければ非音声区間として判定する。
後掲の非特許文献3には、信号の状態遷移を定義した音声信号区間推定方法が開示されている。この方法では、入力となる音響信号が時間経過とともに音声状態、および非音声状態を遷移する信号であると見なす。音声状態、および非音声状態の状態遷移は、入力信号が音声状態に属する確率、非音声状態に属する確率を基準として決定され、音声状態に属する信号のみを出力する。
また、音声信号区間推定の性能を改善させるための技術として、入力となる音響信号に含まれる、雑音信号を正確に推定する技術が必要となる。このような技術において、信号の統計的な特徴が時々刻々と変化する、非定常的な雑音信号の逐次推定技術が極めて重要である。
In
Non-Patent
Further, as a technique for improving the performance of speech signal section estimation, a technique for accurately estimating a noise signal included in an input acoustic signal is required. In such a technique, a non-stationary noise signal successive estimation technique in which statistical characteristics of a signal change from moment to moment is extremely important.
後掲の非特許文献4には、時系列パラメータの一般的な逐次推定方法であるカルマンフィルタが開示されている。この方法では、過去の時刻のパラメータが現在の時刻のパラメータに与える影響を考慮することにより最適なパラメータ推定結果を得る。
後掲の非特許文献5には、前記カルマンフィルタを発展させて非線形モデルにおいても推定が行えるようにした拡張(非線形)カルマンフィルタが開示されている。また、同じく前記カルマンフィルタの発展形であるカルマンスムーザについても開示されている。カルマンスムーザにおいては、過去の時刻だけでなく、未来の時刻のパラメータの関係を考慮することにより、より正確なパラメータ推定結果を得る。
Non-Patent
非特許文献1、非特許文献2、および非特許文献3に記載の技術は、入力音響信号に含まれる雑音信号の特徴が、定常的なものであるという前提のもとで音声信号区間推定を行う技術である。しかし、実環境における雑音信号の多くは非定常的な特徴をもっている。すなわち、雑音信号の統計的な特徴が、時間の経過に伴い変動する。そのため、非特許文献1、非特許文献2、および非特許文献3に記載の技術では、雑音の時間変動に対応できず、高精度に音声信号区間の推定を行うことができない。
非定常的な雑音信号の推定について、非特許文献4、および非特許文献5に記載の技術では、カルマンフィルタ、およびカルマンスムーザを用いて目的信号の逐次推定を行う。前者のカルマンフィルタは時間に対して順方向に推定を行う方法であり、後者のカルマンスムーザはカルマンフィルタの推定結果を時間に対して逆方向に再推定を行う方法である。しかし、これらの逐次推定方法は、各時刻において1つの推定結果のみを出力する。つまり、ある時刻で致命的な誤差が発生した場合、その誤差が以降の時刻の推定結果に影響を与え、誤差の回復が困難となる。
The techniques described in
Regarding the non-stationary noise signal estimation, the techniques described in
また、非特許文献3に記載の技術は、入力音響信号が音声状態と非音声状態に相互に状態遷移することに着目して、音声信号区間推定を行う技術である。しかし、遷移先の状態の決定は、過去の信号の状態のみに依存し、未来の信号の状態に対する影響を考慮しておらず、信号の正確な状態遷移を表現できない。
それゆえに、本発明の目的は、入力音響信号に含まれる非定常的な雑音信号の推定を行って定常的な雑音信号以外にも適用可能であり、さらに入力音響信号の過去、現在のみでなく、未来の時刻における状態の影響を考慮した、高精度な音声信号区間を推定する装置、その方法、そのプログラム及び記録媒体を提供することにある。
The technique described in Non-Patent
Therefore, the object of the present invention is applicable to a non-stationary noise signal by estimating a non-stationary noise signal included in the input acoustic signal, and not only the past and present of the input acoustic signal. Another object of the present invention is to provide an apparatus, a method, a program, and a recording medium for estimating a voice signal section with high accuracy in consideration of the influence of a state at a future time.
本発明の音声信号区間推定装置は、音響信号分析部、無雑音モデル記憶部、前向き推定部、後向き推定部、パラメータ記憶部、状態確率比算出部、及び音声信号区間推定部を具備する。
音声信号分析部は、前記入力信号を一定区間ごとに切り出したフレームごとに音声特徴量を抽出する。
無雑音モデル記憶部は、クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM:Gaussian Mixture Model)パラメータを記憶する。
前向き推定部は、前記音声特徴量と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、過去の時刻から現在の時刻に向かって並列非線形カルマンフィルタにより現在時刻の雑音モデルパラメータを逐次推定して出力する。
The speech signal section estimation device of the present invention includes an acoustic signal analysis section, a noiseless model storage section, a forward estimation section, a backward estimation section, a parameter storage section, a state probability ratio calculation section, and a speech signal section estimation section.
The voice signal analysis unit extracts a voice feature amount for each frame obtained by cutting out the input signal for each predetermined section.
The noiseless model storage unit stores a probability model (GMM: Gaussian Mixture Model) parameter based on a mixed normal distribution containing a plurality of normal distributions of the clean speech signal and the silent signal.
The forward estimation unit receives the speech feature and each probability model parameter stored in the noiseless model storage unit, and calculates a noise model parameter at the current time from a past time to a current time by a parallel nonlinear Kalman filter. Estimate and output sequentially.
後向き推定部は、前記前向き推定部から出力された雑音モデルパラメータと前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、未来の時刻から現在の時刻に向かって並列カルマンスムーザにより現在時刻の雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき音声(雑音+クリーン音声)と非音声(雑音+無音)それぞれの確率モデルパラメータを逐次推定して音声と非音声それぞれの出力確率を算出し出力するとともに、この出力確率と前記後向き推定した雑音モデルパラメータとから雑音モデルパラメータの推定結果の1フレーム前から現フレームへの雑音状態遷移確率を算出し出力する。 The backward estimation unit receives the noise model parameter output from the forward estimation unit and each probability model parameter stored in the noiseless model storage unit, and performs a parallel Kalman smoother from a future time to a current time. The noise model parameters at the current time are sequentially estimated backward, and the stochastic model parameters for speech (noise + clean speech) and non-speech (noise + silence) are sequentially estimated based on the backward-estimated noise model parameters. The output probability of each voice is calculated and output, and the noise state transition probability from the previous frame of the noise model parameter estimation result to the current frame is calculated and output from this output probability and the backward estimated noise model parameter.
パラメータ記憶部は、前向き推定部及び後向き推定部における処理の過程で得られた計算結果を記憶する。
状態確率比算出部は、後向き推定部から出力された、前記音声の出力確率と前記非音声の出力確率と前記雑音状態遷移確率とが入力され、音声状態確率と非音声状態確率とを算出して、非音声状態確率に対する音声状態確率の比を出力する。
音声信号区間推定部は、前記状態確率の比が入力され、フレームごとにしきい値と比較して、音声状態か非音声状態のいずれかを比較結果として出力する。
The parameter storage unit stores calculation results obtained in the course of processing in the forward estimation unit and the backward estimation unit.
State probability ratio calculating unit, output from the backward estimation unit, the audio output probability and output probability of the Hioto voice and the noise state transition probabilities are inputted, calculates the audio state probability and non-speech state probability Then, the ratio of the speech state probability to the non-speech state probability is output.
The speech signal section estimation unit receives the state probability ratio, compares it with a threshold value for each frame, and outputs either a speech state or a non-speech state as a comparison result.
本発明の音声信号区間推定装置は、無音信号及びクリーン音声信号それぞれの確率モデル(GMM)に含まれる複数の正規分布ごとに、複数の雑音パラメータを時間に対して順方向に推定し、更に逆方向にも推定し、得られた複数の推定結果について加重平均をとることによりその時刻の雑音パラメータを決定する。そのため、雑音信号の統計的性質が時間に伴い変化する非定常雑音においても、信号の状態遷移を正確に把握して高精度に音声信号区間を推定でき、また、ある時刻で大きな誤差が生じたとしても、以降の時刻にその影響を及ぼすことなく推定をすることができる。 The speech signal section estimation device according to the present invention estimates a plurality of noise parameters in the forward direction with respect to time for each of a plurality of normal distributions included in the probability models (GMM) of the silence signal and the clean speech signal, and further reverses them. The direction is also estimated, and the noise parameter at that time is determined by taking a weighted average of a plurality of obtained estimation results. Therefore, even in the case of non-stationary noise in which the statistical properties of the noise signal change over time, it is possible to accurately grasp the signal state transition and estimate the speech signal section with high accuracy, and a large error occurred at a certain time. However, it is possible to estimate without affecting the subsequent time.
以下、図面を参照しつつ、本発明の実施例について説明する。なお、以下の説明に用いる図面では、同一の部品には同一の符号を記してある。それらの名称、機能も同一であり、それらについての説明は繰り返さない。
以下の説明において、テキスト中で使用する記号「^」「〜」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。以下の説明において、ベクトルについては例えば「ベクトルA」のように直前に「ベクトル」を付与して記載する。また、ベクトルの各要素単位で行われる処理は、特に断りが無い限り、ベクトルの全ての要素に対して適用されるものとする。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings used for the following description, the same parts are denoted by the same reference numerals. Their names and functions are also the same, and description thereof will not be repeated.
In the following explanation, the symbols “^”, “˜”, etc. used in the text should be described immediately above the character that immediately follows, but are described immediately before the character due to restrictions on the text notation. . In the formula, these symbols are written in their original positions. In the following description, the vector is described with “vector” added immediately before, for example, “vector A”. Further, the processing performed for each element of the vector is applied to all elements of the vector unless otherwise specified.
〔第1実施形態〕
図1は、本発明の音声信号区間推定装置1の機能構成例である。
音声信号区間推定装置1は、音響結合量分析部10、無雑音モデル記憶部20、前向き推定部30、後向き推定部40、パラメータ記憶部50、状態確率比算出部60、音声信号区間推定部70から構成される。
音響結合量分析部10は、音声信号と雑音信号が重畳された音響信号O(t)が入力され、まず、この音響信号O(t)を時間軸方向に一定時間幅で始点を移動させながら、一定時間長の音響信号をフレームとして切り出す。例えば、160サンプル点長(サンプリング周波数8000Hzで時間長20ms)の音響信号を80サンプル点(サンプリング周波数8000Hzで時間長10ms)ずつ始点を移動させながら切り出す。
そして、切り出された音響信号に対して高速フーリエ変換及び24次元のメルフィルタバンク分析を適用し、24次元の対数メルスペクトルを要素に持つ、ベクトルOt={Ot、0,・・・,Ot、l,・・・,Ot、23}(時刻tのフレームにおける音声特徴量、lはベクトルの要素番号)を算出し出力する。
[First Embodiment]
FIG. 1 is a functional configuration example of a speech signal
The speech signal
The acoustic coupling
Then, fast Fourier transform and 24-dimensional mel filter bank analysis are applied to the cut out acoustic signal, and a vector O t = {O t, 0 ,. O t, l ,..., O t, 23 } (speech feature quantity in the frame at time t, l is a vector element number) is calculated and output.
なお、本発明では音声信号(及び無音信号、クリーン音声信号)、雑音信号を次のように定義する。
雑音が全く存在しない防音室等で録音を行っても、録音された信号には極微小で白色的な雑音が観測される。本発明では、このような環境において観測される信号を無音信号と定義する。
従って、無音信号も雑音の一種であるといえるが、この雑音は録音機材等の電気回路や転送系などの電気的要因により発生する雑音である。一方、自動車の走行音や風の音などは、音波が大気中を伝わって観測される音響的要因により発生する雑音である。本発明では、電気的要因による雑音と音響的要因による雑音とを区別し、後者のみを雑音信号と定義する。
In the present invention, an audio signal (and a silence signal, a clean audio signal) and a noise signal are defined as follows.
Even when recording in a soundproof room or the like where no noise is present, a very small white noise is observed in the recorded signal. In the present invention, a signal observed in such an environment is defined as a silence signal.
Therefore, although a silence signal can also be said to be a kind of noise, this noise is generated due to electrical factors such as an electric circuit of a recording equipment or a transfer system. On the other hand, the driving sound of a car, the sound of wind, and the like are noises generated by acoustic factors observed when sound waves are transmitted through the atmosphere. In the present invention, noise caused by electrical factors and noise caused by acoustic factors are distinguished, and only the latter is defined as a noise signal.
また、無音信号が観測されている環境において発話を行うと、発話音声信号が無音信号に重畳された形で観測される。本発明ではこの重畳された信号をクリーン音声信号と定義する。
そして、雑音信号が存在しない環境では、連続する無音信号の合間にクリーン音声信号が観測される。本発明では、これら無音信号とクリーン音声信号を総称して音声信号と定義する。
無雑音モデル記憶部20は、あらかじめ用意したクリーン音声信号、無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM:Gaussian Mixture Model)を記憶する。複数の正規分布の数は多いほど推定精度の向上に寄与するが、処理速度上の問題とのトレードオフから実効的には2〜512個の間の値が望ましく、32個程度が最も望ましい。
それぞれの正規分布は混合重みwj,k、平均μS j,k,l、分散σS j,k,lをパラメータとして構成される。ここで、jはGMMの種別(j=0:無音GMM、j=1:クリーン音声GMM)であり、kは各正規分布の番号である。
Further, when an utterance is performed in an environment where a silence signal is observed, the utterance voice signal is observed in a form superimposed on the silence signal. In the present invention, this superimposed signal is defined as a clean audio signal.
In an environment where there is no noise signal, a clean voice signal is observed between successive silence signals. In the present invention, these silence signals and clean sound signals are collectively defined as sound signals.
The noiseless model storage unit 20 stores a probabilistic model (GMM: Gaussian Mixture Model) based on a mixed normal distribution including a plurality of normal distributions of each of a clean speech signal and a silence signal prepared in advance. A larger number of normal distributions contributes to an improvement in estimation accuracy. However, a value between 2 and 512 is practically desirable from a trade-off with a problem in processing speed, and about 32 is most desirable.
Each normal distribution is configured with the mixture weight w j, k , the average μ S j, k, l and the variance σ S j, k, l as parameters. Here, j is the type of GMM (j = 0: silent GMM, j = 1: clean speech GMM), and k is the number of each normal distribution.
なお、GMMの構成方法については公知の技術なので説明を省略する。
図2は前向き推定部30の機能構成例である。
前向き推定部30は、雑音モデルパラメータ予測部31、雑音モデルパラメータ更新部32、前向き確率モデルパラメータ生成部33、前向き音声/非音声出力確率算出部34、前向き第1加重平均算出部35、前向き雑音状態遷移確率推定部36、前向き第2加重平均算出部37から構成される。
雑音モデルパラメータ予測部31は、前記音声特徴量Ot,lと時刻t−1における前向き第2加重平均値^Nt-1,l、^σN t-1、lとが入力され、平均値Nt,l predと分散値σN t,l predとからなる雑音モデルパラメータ予測値を出力する。
Since the GMM configuration method is a known technique, a description thereof will be omitted.
FIG. 2 is a functional configuration example of the forward estimation unit 30.
The forward estimation unit 30 includes a noise model parameter prediction unit 31, a noise model parameter update unit 32, a forward probability model parameter generation unit 33, a forward speech / non-speech output probability calculation unit 34, a forward first weighted average calculation unit 35, a forward noise It comprises a state transition probability estimation unit 36 and a forward second weighted average calculation unit 37.
The noise model parameter prediction unit 31 receives the speech feature amount O t, l and the forward second weighted average value ^ N t-1, l , ^ σ N t-1, l at time t−1, and calculates the average A noise model parameter prediction value composed of the value N t, l pred and the variance value σ N t, l pred is output.
具体的処理について、図3の処理手順に従い説明する。
まず、フレーム判定処理S301においてt<10であれば、バッファリング処理S302においてパラメータ記憶部50に前記音響特徴量Ot,lを記憶する。フレーム判定処理S301においてt=10であれば、読み出し処理S303においてパラメータ記憶部50からO0,l、・・・、O9,lを読み出し、初期パラメータ推定処理S304において初期の雑音モデルパラメータNl init、σN l initを以下のように推定する。
Specific processing will be described in accordance with the processing procedure of FIG.
First, if t <10 in the frame determination process S301, the acoustic feature quantity O t, l is stored in the parameter storage unit 50 in the buffering process S302. If t = 10 in the frame determination process S301, O 0, l ,..., O 9, l are read from the parameter storage unit 50 in the read process S303, and the initial noise model parameter N l is read in the initial parameter estimation process S304. init and σ N l init are estimated as follows.
なお、S301〜305の処理においてt=10を基準に判定しているが、これは最も望ましい基準値としての例示であり、実効的にはt=1〜20の範囲で適宜設定してよい。
t≧10の場合は、次にパラメータ予測処理S306を行う。t>10の場合は時刻t−1における推定結果から現在の時刻の雑音モデルパラメータを以下のランダムウォーク過程により予測する。
Note that although t = 10 is determined as a reference in the processing of S301 to S305, this is an example as the most desirable reference value, and may be set appropriately in the range of t = 1 to 20.
When t ≧ 10, parameter prediction processing S306 is performed next. When t> 10, the noise model parameter at the current time is predicted from the estimation result at time t−1 by the following random walk process.
具体的処理について、図3の処理手順に従い説明する。
パラメータ更新処理S307においては、前記クリーン音声信号、無音信号それぞれの確率モデルパラメータは正規分布ごとに複数存在するため、これら複数のパラメータを使って、かつそれぞれ並行して前記雑音モデルパラメータ予測値の更新処理を行う。すなわち、前記クリーン音声信号、無音信号それぞれの確率モデルに含まれる正規分布の合計数と同数の更新結果を得る。更新処理は次式により行う。
Specific processing will be described in accordance with the processing procedure of FIG.
In the parameter update process S307, since there are a plurality of probability model parameters for each of the clean speech signal and the silence signal for each normal distribution, the noise model parameter predicted value is updated using these parameters in parallel. Process. That is, the same number of update results as the total number of normal distributions included in the probability models of the clean speech signal and the silence signal are obtained. The update process is performed according to the following formula.
前向き確率モデルパラメータ生成部33は、前記雑音モデルパラメータ更新値^Nt,j,k,l、^σN t、j、k、lと前記クリーン音声信号、無音信号それぞれの確率モデルパラメータμS j,k,l、σS j,k,lとが入力され、平均値μO t,j,k,lと分散値σO t、j、k、lとからなる前向き確率モデルパラメータを出力する。
The forward probability model parameter generation unit 33 generates the noise model parameter update values ^ N t, j, k, l , ^ σ N t, j, k, l and the probability model parameters μ S of the clean speech signal and the silence signal, respectively. j, k, l and σ S j, k, l are input , and a forward probability model parameter consisting of mean value μ O t, j, k, l and variance values σ O t, j, k, l is output To do.
具体的処理について、図3の処理手順に従い説明する。
確率モデルパラメータ生成処理S308では、時刻tにおける雑音環境に適合した、音声(雑音+クリーン音声:j=1)、非音声(雑音+無音:j=0)それぞれの確率モデルパラメータμO t,j,k,l、σO t、j、k、lを次式により生成する。
Specific processing will be described in accordance with the processing procedure of FIG.
In the probabilistic model parameter generation processing S308, the probability model parameters μ O t, j for speech (noise + clean speech: j = 1) and non-speech (noise + silence: j = 0) that are suitable for the noise environment at time t. , k, l , σ O t, j, k, l are generated by the following equations.
前向き音声/非音声出力確率算出部34は、前記音声特徴量Ot,lと前記音声、非音声それぞれの確率モデルパラメータμO t,j,k,l、σO t、j、k、lと前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みwj,kとが入力され、時刻tにおける音声・非音声の前向き出力確率bj(Ot)と、この前向き出力確率bj(Ot)を前記正規分布kごとに分解して正規化した前向き正規化出力確率wOF j,kとを出力する。
The forward speech / non-speech output probability calculation unit 34 calculates the speech feature amount O t, l and the probability model parameters μ O t, j, k, l , σ O t, j, k, l of the speech and non-speech. And the mixing weights w j, k in the probability model parameters of the clean speech signal and the silence signal are input, the forward output probability b j (O t ) of speech / non-speech at time t, and the forward output probability b j A forward normalized output probability w OF j, k obtained by decomposing and normalizing (O t ) for each normal distribution k is output.
具体的処理について、図3の処理手順に従い説明する。
出力確率算出処理S309では、前記音声特徴量Ot,lをS308の処理で生成された前記音声、非音声それぞれの確率モデルに入力した際の、前記音声、非音声それぞれの確率モデル全体における音声、非音声の前向き出力確率bj(Ot)を次式により求める。
In the output probability calculation process S309, the speech in the entire probability model of each of the speech and non-speech when the speech feature quantity O t, l is input to the probability model of each of speech and non-speech generated in the process of S308. The non-voice forward output probability b j (O t ) is obtained by the following equation.
前向き第1加重平均算出部35は、前記雑音モデルパラメータ更新値^Nt,j,k,l、^σN t、j、k、lと前記前向き正規化出力確率wOF j,kとが入力され、平均値^Nt,j,lと分散値^σN t、j、lとからなる雑音モデルパラメータの前向き第1加重平均値を出力する。
The forward first weighted average calculator 35 calculates the noise model parameter update value ^ N t, j, k, l , ^ σ N t, j, k, l and the forward normalized output probability w OF j, k. The forward first weighted average value of the noise model parameter which is input and has the average value ^ N t, j, l and the variance value ^ σ N t, j, l is output.
具体的処理について、図3の処理手順に従い説明する。
第1加重平均処理S310では、パラメータ更新処理S307で得られた複数の雑音モデルパラメータ更新結果を出力確率算出処理S309で得られた前向き正規化出力確率wOF j,kを用いて加重平均することにより、音声、非音声それぞれの確率モデルに対応する雑音パラメータ推定結果である前向き第1加重平均値^Nt,j,l、^σN t、j、lを得る。加重平均は次式により行う。
Specific processing will be described in accordance with the processing procedure of FIG.
In the first weighted average process S310, a plurality of noise model parameter update results obtained in the parameter update process S307 are weighted and averaged using the forward normalized output probability w OF j, k obtained in the output probability calculation process S309. Thus, the forward first weighted average values ^ N t, j, l , ^ σ N t, j, l which are noise parameter estimation results corresponding to the respective speech and non-speech probability models are obtained. The weighted average is calculated by the following formula.
具体的処理について、図3の処理手順に従い説明する。
状態遷移確率算出処理S311では、まず、時刻t−1における推定結果(前向き第2加重平均値^Nt-1,l)から時刻tにおける推定結果^Nt,j,lへの状態遷移確率dt,jを次式により算出する。
In the state transition probability calculation process S311, first, the state transition probability from the estimation result at time t-1 (the forward second weighted average value ^ N t-1, l ) to the estimation result ^ N t, j, l at time t. d t, j is calculated by the following equation.
具体的処理について、図3の処理手順に従い説明する。
第2加重平均処理S312では、第1加重平均処理S310で得られた前向き第1加重平均値^Nt,j,l、^σN t、j、lを、出力確率算出処理S309で得られた前向き出力確率bj(Ot)、及び状態遷移確率算出処理S311で得られた前向き雑音状態遷移確率ct,jとを用いて加重平均することにより、時刻tにおける雑音モデルパラメータ推定結果である前向き第2加重平均値^Nt,l、^σN t、lを算出し、次の時刻の雑音パラメータの推定に利用する。加重平均は次式により行う。
Specific processing will be described in accordance with the processing procedure of FIG.
In the second weighted average process S312, the forward first weighted average values ^ N t, j, l , ^ σ N t, j, l obtained in the first weighted average process S310 are obtained in the output probability calculation process S309. The weighted average using the forward output probability b j (O t ) and the forward noise state transition probability c t, j obtained in the state transition probability calculation process S311 gives the noise model parameter estimation result at time t. A certain forward second weighted average value ^ N t, l , ^ σ N t, l is calculated and used to estimate the noise parameter at the next time. The weighted average is calculated by the following formula.
式(3)(4)の予測処理、及び式(7)〜(12)の更新処理は、従来の非線形カルマンフィルタと計算式の構成自体は同様であるが、本発明ではクリーン音声信号、無音信号それぞれのGMMに含まれる複数の正規分布ごとに複数のフィルタを構成し、これらを利用することにより得られる複数の推定結果を加重平均する(並列非線形カルマンフィルタ)。このような処理を行うことによって、より正確な雑音モデルのパラメータ推定が実現される。
The prediction processing of Equations (3) and (4) and the updating processing of Equations (7) to (12) are the same as the conventional nonlinear Kalman filter and the calculation formula itself, but in the present invention, clean speech signals and silence signals are used. A plurality of filters are configured for each of a plurality of normal distributions included in each GMM, and a plurality of estimation results obtained by using these are weighted and averaged (parallel non-linear Kalman filter). By performing such processing, more accurate noise model parameter estimation is realized.
図4は後向き推定部40の機能構成例である。
後向き推定部40は、雑音モデルパラメータ再推定部42、後向き確率モデルパラメータ生成部43、後向き音声/非音声出力確率算出部44、後向き第1加重平均算出部45、後向き雑音状態遷移確率推定部46、後向き第2加重平均算出部47から構成される。
雑音モデルパラメータ再推定部42は、パラメータ記憶部50に記憶された時刻sにおける雑音モデルパラメータ予測値Ns,l pred、σN s,l pred、時刻s−1における雑音モデルパラメータ更新値^Ns-1,j,k,l、^σN s-1、j、k、l及び時刻sにおける雑音モデルパラメータ再推定値〜Ns,j,k,l、〜σN s、j、k、lとが入力され、平均値〜Ns-1,j,k,lと分散値〜σN s-1、j、k、lとからなる時刻s−1における雑音モデルパラメータ再推定値を出力する。
FIG. 4 is a functional configuration example of the backward estimation unit 40.
The backward estimation unit 40 includes a noise model parameter re-estimation unit 42, a backward probability model parameter generation unit 43, a backward speech / non-speech output probability calculation unit 44, a backward first weighted average calculation unit 45, and a backward noise state transition probability estimation unit 46. The rearward second weighted average calculating unit 47 is configured.
The noise model parameter re-estimation unit 42 stores the noise model parameter predicted value N s, l pred , σ N s, l pred at time s stored in the parameter storage unit 50, and the noise model parameter update value ^ N at time s−1. s-1, j, k, l , ^ σ N s-1, j, k, l and noise model parameter re-estimated value at time s ~ N s, j, k, l , ~ σ N s, j, k , L are input , and the noise model parameter re-estimation value at time s-1 including the average value ~ N s-1, j, k, l and the variance value ~ σ N s-1, j, k, l Output.
具体的処理について、図5の処理手順に従い説明する。
まず、フレーム判定処理S401においてt<10であれば、変数設定処理S402において変数tbを0に設定して処理を終了する。t≧10の場合、変数判定処理S403においてtbが後向き推定に要するフレーム数B未満であれば変数書替処理S404にてtbの値を1加算して処理を終了し、tbの値がB以上であれば変数設定処理S405において後向き推定用カウンタ値bwにBを設定する。Bは大きいほど推定精度向上に寄与する反面、処理速度を損なうため、実効的には1〜10の間の値に設定するのが望ましく、10程度が最も望ましい。
Specific processing will be described in accordance with the processing procedure of FIG.
First, if t <10 in the frame determination process S401, the variable tb is set to 0 in the variable setting process S402, and the process ends. In the case of t ≧ 10, if tb is less than the number of frames B required for backward estimation in the variable determination process S403, 1 is added to the value of tb in the variable rewriting process S404, and the process is terminated. If so, B is set to the counter value bw for backward estimation in the variable setting process S405. A larger B contributes to an improvement in the estimation accuracy, but the processing speed is impaired. Therefore, it is desirable to set the value to a value between 1 and 10 and the most desirable is about 10.
次に読み出し処理S406において、パラメータ記憶部50から前向き推定部30において算出された時刻s=t−B+bwにおける雑音モデルパラメータ予測値Ns,l pred、σN s,l pred、時刻s−1における音響特徴量Os-1,l、時刻s−1における雑音モデルパラメータ更新値^Ns-1,j,k,l、^σN s-1、j、k、l、及び後向き推定部40において算出された時刻s=t−B+bwにおける雑音モデルパラメータ再推定値〜Ns,j,k,l、〜σN s、j、k、lを読み出す。なお、bw=B、すなわち時刻s=tの場合は、^Nt,j,k,l、^σN t、j、k、l、^Nt,l、^σN t、lを読み出し、〜Ns,j,k,l=^Nt,j,k,l、〜σN s、j、k、l=^σN t、j、k、l、〜Ns,l=^Nt,l、〜σN s、l=^σN t、lとする。
そして、パラメータ平滑処理S407において、後向き推定を用いて次式によるパラメータの再推定(平滑化)を行う。
Next, in the reading process S406, the noise model parameter predicted values N s, l pred , σ N s, l pred at the time s = t−B + bw calculated from the parameter storage unit 50 at the forward estimation unit 30, at the time s−1. Acoustic feature value O s-1, l , noise model parameter update value at time s−1 ^ N s-1, j, k, l , ^ σ N s-1, j, k, l , and backward estimation unit 40 The noise model parameter re-estimated values ~ N s, j, k, l , ~ σ N s, j, k, l at the time s = t-B + bw calculated in step ii are read out. If bw = B, that is, time s = t, read ^ N t, j, k, l , ^ σ N t, j, k, l , ^ N t, l , ^ σ N t, l , ~ N s, j, k, l = ^ N t, j, k, l , ~ σ N s, j, k, l = ^ σ N t, j, k, l , ~ N s, l = ^ N t, l , ˜σ N s, l = ^ σ N t, l
Then, in parameter smoothing processing S407, parameters are re-estimated (smoothed) by the following equation using backward estimation.
後向き確率モデルパラメータ生成部43は、前記雑音モデルパラメータ再推定値〜Ns-1,j,k,l、〜σN s-1、j、k、lと前記クリーン音声信号、無音信号それぞれの確率モデルパラメータμS j,k,l、σS j,k,lとが入力され、平均値μO s-1,j,k,lと分散値σO s-1、j、k、lとからなる後向き確率モデルパラメータを出力する。
The backward probability model parameter generator 43 generates the noise model parameter re-estimation values ~ N s-1, j, k, l , ~ σ N s-1, j, k, l and the clean speech signal and the silence signal. The probability model parameters μ S j, k, l and σ S j, k, l are input, and the mean value μ O s-1, j, k, l and the variance value σ O s-1, j, k, l A backward probability model parameter consisting of
具体的処理について、図5の処理手順に従い説明する。
確率モデルパラメータ生成処理S408では、時刻s−1における雑音環境に適合した、音声(雑音+クリーン音声:j=1)、非音声(雑音+無音:j=0)それぞれの確率モデルパラメータμO s-1,j,k,l、σO s-1、j、k、lを次式により生成する。
後向き音声/非音声出力確率算出部44は、前記音声特徴量Os-1,lと前記音声、非音声それぞれの確率モデルパラメータμO s-1,j,k,l、σO s-1、j、k、lと前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みwj,kとが入力され、時刻s−1における音声・非音声の出力確率bj(Os-1)と、この出力確率bj(Os-1)を前記正規分布kごとに分解して正規化した後向き正規化出力確率wOB j,kとを出力する。
Specific processing will be described in accordance with the processing procedure of FIG.
In the probabilistic model parameter generation processing S408, the probability model parameters μ O s for speech (noise + clean speech: j = 1) and non-speech (noise + silence: j = 0) that are suitable for the noise environment at time s−1. −1, j, k, l , σ O s−1, j, k, l are generated by the following equations.
The backward speech / non-speech output probability calculation unit 44 includes the speech feature quantity O s-1, l and the probability model parameters μ O s-1, j, k, l , σ O s-1 of the speech and non-speech. , J, k, l and the mixing weights w j, k in the probability model parameters of the clean speech signal and the silence signal are input, and the speech / non-speech output probability b j (O s−1) at time s−1. And a backward normalized output probability w OB j, k obtained by decomposing and normalizing the output probability b j (O s-1 ) for each normal distribution k.
具体的処理について、図5の処理手順に従い説明する。
出力確率算出処理S409では、前記音声特徴量Os-1,lをS408の処理で生成された前記音声、非音声それぞれの確率モデルに入力した際の、前記音声、非音声それぞれの確率モデル全体における音声、非音声の出力確率bj(Os-1)を次式により求める。
Specific processing will be described in accordance with the processing procedure of FIG.
In the output probability calculation process S409, the entire probability model of each of the speech and non-speech when the speech feature quantity O s-1, l is input to the probability model of each of the speech and non-speech generated in the process of S408. The output probability b j (O s-1 ) of speech and non-speech at is obtained by the following equation.
後向き第1加重平均算出部45は、前記雑音モデルパラメータ再推定値〜Ns-1,j,k,l、〜σN s-1、j、k、lと前記後向き正規化出力確率wOB j,kとが入力され、平均値〜Ns-1,j,lと分散値〜σN s-1、j、lとからなる雑音モデルパラメータの後向き第1加重平均値を出力する。
The backward first weighted average calculating unit 45 calculates the noise model parameter re-estimated values ~ N s-1, j, k, l , ~ σ N s-1, j, k, l and the backward normalized output probability w OB. j, k are input , and a backward first weighted average value of the noise model parameter consisting of an average value ~ N s-1, j, l and a variance value ~ σ N s-1, j, l is output.
具体的処理について、図5の処理手順に従い説明する。
第1加重平均処理S410では、パラメータ平滑処理S407で得られた複数の雑音モデルパラメータ更新結果を出力確率算出処理S409で得られた後向き正規化出力確率wOB j,kを用いて加重平均することにより、音声、非音声それぞれの確率モデルに対応する雑音パラメータ推定結果である後向き第1加重平均値〜Ns-1,j,l、〜σN s-1、j、lを得る。加重平均は次式により行う。
In the first weighted average process S410, a plurality of noise model parameter update results obtained in the parameter smoothing process S407 are weighted and averaged using the backward normalized output probability w OB j, k obtained in the output probability calculation process S409. Thus, the backward first weighted average values ˜N s−1, j, l , ˜σ N s−1, j, l , which are noise parameter estimation results corresponding to the respective speech and non-speech probability models, are obtained. The weighted average is calculated by the following formula.
具体的処理について、図5の処理手順に従い説明する。
状態遷移確率算出処理S411では、まず、時刻s−1における推定結果(後向き第1加重平均値〜Ns-1,j,l)から時刻sにおける推定結果〜Ns,lへの状態遷移確率ds,jを次式により算出する。
In the state transition probability calculation process S411, first, the state transition probability from the estimation result at the time s-1 (the backward first weighted average value˜N s−1, j, l ) to the estimation result at the time s˜N s, l . d s, j is calculated by the following equation.
具体的処理について、図5の処理手順に従い説明する。
第2加重平均処理S412では、第1加重平均処理S410で得られた後向き第1加重平均値^Ns-1,j,l、^σN s-1、j、lを、出力確率算出処理S409で得られた出力確率bj(Os-1)、及び状態遷移確率算出処理S411で得られた雑音状態遷移確率cs,jとを用いて加重平均することにより、時刻s−1における雑音モデルパラメータ推定結果である後向き第2加重平均値〜Ns-1,l、〜σN s-1、lを算出し、次の時刻の雑音パラメータの推定に利用する。加重平均は次式により行う。
Specific processing will be described in accordance with the processing procedure of FIG.
In the second weighted average process S412, the first weighted average value retrospective obtained in the first weighted average processing S410 ^ N s-1, j , l, ^ σ N s-1, j, and l, the output probability calculation process By performing a weighted average using the output probability b j (O s-1 ) obtained in S409 and the noise state transition probability c s, j obtained in the state transition probability calculation process S411, at time s−1 The backward second weighted average values ~ N s-1, l , ~ σ N s-1, l , which are noise model parameter estimation results, are calculated and used to estimate the noise parameters at the next time. The weighted average is calculated by the following formula.
後向き推定部40の各処理で得られた結果のうち、出力確率算出処理S409で得られた出力確率bj(Os-1)と状態遷移確率算出処理S411で得られた雑音状態遷移確率cs,jとが、状態確率比算出部60における処理に使用される。
Of the results obtained in each process of the backward estimation unit 40, the output probability b j (O s-1 ) obtained in the output probability calculation process S409 and the noise state transition probability c obtained in the state transition probability calculation process S411. s, j are used for processing in the state probability ratio calculation unit 60.
式 (26)〜(28)の平滑処理は、従来のカルマンスムーザと計算式の構成自体は同様であるが、本発明ではクリーン音声信号、無音信号それぞれのGMMに含まれる複数の正規分布ごとに複数のフィルタを構成し、これらを利用することにより得られる複数の推定結果を加重平均する(並列カルマンスムーザ)。このような処理を行うことによって、より正確な雑音モデルのパラメータ推定が実現される。
パラメータ記憶部50は、前向き推定部30と後向き推定部40における処理の過程で得られた計算結果を記憶する。
The smoothing processing of Equations (26) to (28) has the same configuration as the conventional Kalman smoother, but in the present invention, each of the normal distributions included in each GMM of the clean speech signal and the silent signal is used. A plurality of filters are constructed, and a plurality of estimation results obtained by using these filters are weighted and averaged (parallel Kalman smoother). By performing such processing, more accurate noise model parameter estimation is realized.
The parameter storage unit 50 stores calculation results obtained in the course of processing in the forward estimation unit 30 and the backward estimation unit 40.
図6は状態確率比算出部60の機能構成例である。
状態確率比算出部60は、音声状態遷移確率テーブル61、前向き確率算出部62、後向き確率算出部63、確率比算出用バッファ64、確率比算出部65から構成される。
音声状態遷移確率テーブル61は、有限状態機械により表現された音声/非音声の状態遷移モデルにおいて適宜設定した音声状態遷移確率ai,jを記憶する。
FIG. 6 is a functional configuration example of the state probability ratio calculation unit 60.
The state probability ratio calculation unit 60 includes a speech state transition probability table 61, a forward probability calculation unit 62, a backward probability calculation unit 63, a probability ratio calculation buffer 64, and a probability ratio calculation unit 65.
The speech state transition probability table 61 stores speech state transition probabilities a i, j set as appropriate in a speech / non-speech state transition model expressed by a finite state machine.
図7は、音声状態/非音声状態の状態遷移モデルであり、非音声状態H0と音声状態H1と各状態への音声状態遷移確率ai,jとを含む(iは状態遷移元の状態番号、jは状態遷移先の状態番号で、状態番号0は非音声状態を、状態番号1は音声状態を示す)。ai,jは音声状態確率及び非音声状態確率を求める上での基準となる値で、定数を設定しても入力信号の特徴に応じて適応的に決定しても構わないが、本発明においては定数を設定し、これを音声状態遷移確率テーブル61に記憶して音声状態確率及び非音声状態確率の計算に使用する。この。設定するai,jはai,0+ai,1=1を満たす値で、a0,0及びa1,1を0.5〜0.9の範囲で、a0,1及びa1,0を0.5〜0.1の範囲で設定するのが望ましく、a0,0=0.8、a0,1=0.2、a1,0=0.1、a1,1=0.9程度が最も望ましい。
前向き確率算出部62は、前記出力確率bj(Os-1)と前記雑音状態遷移確率cs,jと、音声状態遷移確率ai,jと、時刻s−1の前向き確率αs-1、jとが入力され、時刻sの前向き確率αs、jを出力する。
FIG. 7 shows a state transition model of a speech state / non-speech state, which includes a non-speech state H 0 , a speech state H 1, and a speech state transition probability a i, j to each state (i is a state transition source) The state number, j is the state number of the state transition destination, the
The forward probability calculation unit 62 includes the output probability b j (O s-1 ), the noise state transition probability c s, j , the speech state transition probability a i, j, and the forward probability α s− at time s−1. 1 and j are input , and the forward probability α s, j at time s is output.
具体的処理について、図8の処理手順に従い説明する。
音声状態確率及び非音声状態確率の算出は、まず前向き確率αs、jを求め、続いて後向き確率βs、jを求めて、それらの積をとることによって求める。そして、現在の時刻sの後向き確率βs、jは、前記後向き推定部40における計算と同様にBフレーム未来の時刻s+Bから遡って算出する。
そこで、変数判定処理S601においては、例えばt<10+B、すなわちs<10の場合は初期値設定処理S602において前向き確率αs、jを以下のように設定し、それらをバッファリング処理S603において確率比算出用バッファ64に記憶して処理を終了する。
αs,0=1 (42)
αs,1=0 (43)
t<10+Bでない場合、すなわちs≧10の場合は、読み出し処理S604において、確率比算出用バッファ64から時刻s−1の前向き確率確率αs-1、jを読み出す。
Specific processing will be described in accordance with the processing procedure of FIG.
The speech state probability and the non-speech state probability are calculated by first obtaining the forward probability α s, j and then obtaining the backward probability β s, j and taking the product of them. The backward probability β s, j of the current time s is calculated retroactively from the future time s + B of the B frame in the same manner as the calculation in the backward estimation unit 40.
Therefore, in the variable determination process S601, for example, in the case of t <10 + B, that is, s <10, the forward probability α s, j is set as follows in the initial value setting process S602, and the probability ratio is set in the buffering process S603. The data is stored in the calculation buffer 64 and the process is terminated.
α s, 0 = 1 (42)
α s, 1 = 0 (43)
When t <10 + B is not satisfied, that is, when s ≧ 10, the forward probability probability α s−1, j at time s−1 is read from the probability ratio calculation buffer 64 in the reading process S604.
次に、前向き確率算出処理S605において音声状態遷移確率テーブル61から音声状態確率ai,jを読み出し、これと時刻s−1の前記出力確率bj(Os-1)と時刻sの前記雑音状態遷移確率cs,jと時刻s−1の前記前向き確率αs-1、jとから次式により時刻sの前向き確率αs、jを算出し、これらをバッファリング処理606において確率比算出用バッファ64に記憶する。
具体的処理について、図8の処理手順に従い説明する。
まず、変数設定処理S607において、後向き確率算出用のカウンタbwの値をBに設定する。
次に、後向き確率算出処理S608において音声状態遷移確率テーブル61から音声状態確率ai,jを読み出し、これと時刻s+bwの前記出力確率bj(Os+bw)と時刻sの前記雑音状態遷移確率cs+bw,jと時刻s+bwの前記後向き確率βbw、jとから時刻s+bw−1の後向き確率βs+bw-1、iを次式により算出する。なお、bw=Bの場合は初期値βs+B,i=1を与える。
確率比算出用バッファ64は、前向き確率算出部62で算出された前向き確率αs、jと、後向き確率算出部63で算出されたと後向き確率βs,iを記憶する。
Specific processing will be described in accordance with the processing procedure of FIG.
First, in the variable setting process S607, the value of the counter bw for calculating the backward probability is set to B.
Next, in the backward probability calculation process S608, the speech state probability a i, j is read from the speech state transition probability table 61, and the output probability b j (O s + bw ) at time s + bw and the noise state transition at time s. From the probability c s + bw, j and the backward probability β bw, j of the time s + bw, the backward probability β s + bw-1, i of the time s + bw-1 is calculated by the following equation. When bw = B, the initial value β s + B, i = 1 is given.
The probability ratio calculation buffer 64 stores the forward probability α s, j calculated by the forward probability calculation unit 62 and the backward probability β s, i calculated by the backward probability calculation unit 63.
確率比算出部65は、前記前向き確率αs、jと前記後向き確率βs,iとが入力され、図8の確率比算出処理S612において、非音声状態の確率に対する音声状態の確率の比L(s)を次式により算出する。
なお、式(46)は以下に示す過程を経て導かれる。
まず、時刻sにおける信号の状態をqs=Hjと定義すると、音声状態確率と非音声状態の確率の比L(s)は次式により得られる。
First, if the state of the signal at time s is defined as q s = H j , the ratio L (s) between the speech state probability and the non-speech state probability is obtained by the following equation.
図9は音声信号区間推定部70の機能構成例である。
音声信号区間推定部70は、L(s)レジスタ71、閾値THレジスタ72、比較部73から構成される。
L(s)レジスタ71は、状態確率比算出部60において算出された前記非音声状態の確率に対する音声状態の確率の比L(s)を入力し記憶する。
閾値THレジスタ72は、比較部73において前記確率比L(s)が音声状態に属するか非音声状態に属するかを判断する閾値THを記憶する。なお、閾値THの値は、事前に固定された値に決定しておいても、入力信号の特徴に応じて適応的に決定してもよい。固定値を設定する場合は、一般的には10程度の値に設定するのが最も望ましいが、用途に応じ0.5〜10,000の範囲で適宜設定して構わない。
比較部73は、L(s)レジスタ71から前記確率比L(s)を読み出すとともに、閾値レジスタ72から閾値THを読み出し、時刻sのフレームが音声状態に属するか非音声状態に属するかを判定し、判定結果を出力する。
具体的には、例えばL(s)の値が閾値TH以上であれば、時刻sのフレームが音声状態に属すると判断して1を出力し、閾値TH未満であれば、時刻sのフレームが非音声状態に属すると判断して0を出力する。
FIG. 9 is a functional configuration example of the speech signal section estimation unit 70.
The audio signal section estimation unit 70 includes an L (s) register 71, a threshold TH register 72, and a comparison unit 73.
The L (s) register 71 inputs and stores the ratio L (s) of the probability of the speech state to the probability of the non-speech state calculated by the state probability ratio calculation unit 60.
The threshold TH register 72 stores a threshold TH for determining in the comparison unit 73 whether the probability ratio L (s) belongs to a voice state or a non-voice state. Note that the value of the threshold TH may be determined in advance or may be determined adaptively according to the characteristics of the input signal. When setting a fixed value, it is generally most desirable to set it to a value of about 10, but it may be set appropriately in the range of 0.5 to 10,000 depending on the application.
The comparison unit 73 reads out the probability ratio L (s) from the L (s) register 71 and also reads out the threshold value TH from the threshold value register 72 to determine whether the frame at time s belongs to the voice state or the non-voice state. And output the determination result.
Specifically, for example, if the value of L (s) is greater than or equal to the threshold value TH, it is determined that the frame at time s belongs to the audio state, and 1 is output. It judges that it belongs to the non-voice state and outputs 0.
〔第2実施形態〕
本発明の第2実施形態は、第1実施形態における前向き第1加重平均算出部35、前向き第2加重平均算出部37、後向き第1加重平均算出部45、及び後向き第2加重平均算出部47における計算方法が異なるもので、装置構成は第1実施形態と同様である。
従って、機能構成例については第1実施形態における上記それぞれの部位の番号が異なるのみであるため、図を分けずに前向き推定部に係る図2及び後向き推定部に係る図4に第2実施形態における部位番号をカッコ書きで記すにとどめる。
前向き第1加重平均算出部135は、前記雑音モデルパラメータ更新値^Nt,j,k,l、^σN t、j、k、lと前記前向き正規化出力確率wOF j,kとが入力され、平均値^Nt,j,lと分散値^σN t、j、lとからなる雑音モデルパラメータの前向き第1加重平均値を出力する。
[Second Embodiment]
The second embodiment of the present invention includes a forward first weighted average calculator 35, a forward second weighted average calculator 37, a backward first weighted average calculator 45, and a backward second weighted average calculator 47 in the first embodiment. The calculation method is different, and the apparatus configuration is the same as that of the first embodiment.
Accordingly, since the numbers of the respective parts in the first embodiment are different only in the functional configuration example, the second embodiment is shown in FIG. 2 related to the forward estimation unit and FIG. 4 related to the backward estimation unit without dividing the figure. Only write the part number in parentheses.
The forward first weighted
この実施形態では、前記正規分布kごとに算出される前記前向き正規化出力確率wOF j,kの中で最も確率の高いwOF j,kに該当する正規分布kの前記雑音モデルパラメータ更新値^Nt,j,k,l、^σN t、j、k、lを、前向き第1加重平均値^Nt,j,l、^σN t、j、lとして出力する。
このように処理することで、加重平均の計算をせずに済むため、処理の高速化を図ることができる。ただし、前向き正規化出力確率が各正規分布について確率差が小さい場合には特定の正規分布において突出して確率が高い場合と比べて他の正規分布を無視することによる影響が大きくなるため、この実施形態の利用に際しては特定の正規分布における確率がその他の正規分布に比べて十分に高いことが望ましい。
前向き第2加重平均算出部137は、前記前向き第1加重平均値^Nt,j,l、^σN t、j、lと前記前向き出力確率bj(Ot)と前記前向き雑音状態遷移確率ct,jとが入力され、平均値^Nt,lと分散値^σN t、lとからなる時刻tにおける前向き第2加重平均値を出力する。
In this embodiment, the noise model parameter update value of the normal distribution k corresponding to w OF j, k having the highest probability among the forward normalized output probabilities w OF j, k calculated for each normal distribution k. ^ N t, j, k, l , ^ σ N t, j, k, l are output as forward first weighted average values ^ N t, j, l , ^ σ N t, j, l .
By processing in this way, it is not necessary to calculate a weighted average, so that the processing speed can be increased. However, if the probability of forward normalized output is small for each normal distribution, the impact of ignoring other normal distributions will be greater than when the probability is prominent in a specific normal distribution and the probability is high. When using the form, it is desirable that the probability in a specific normal distribution is sufficiently high compared to other normal distributions.
The forward second weighted
この実施形態では、前記音声及び非音声について算出される前記前向き雑音状態遷移確率ct,jのうち、確率の高い音声又は非音声の前向き第1加重平均値^Nt,j,l、^σN t、j、lを、前向き第2加重平均値^Nt,j,l、^σN t、j、lとして出力する。
このように処理することで、加重平均の計算をせずに済むため、処理の高速化を図ることができる。ただし、両者の確率差が小さい場合には一方を無視することによる影響が大きくなるため、この実施形態の利用に際しては双方の確率差が十分に大きいことが望ましい。
以上、前向き第1加重平均算出部135及び後向き第1加重平均算出部137について記したが、後向き第1加重平均算出部145及び後向き第2加重平均算出部147についても前向き第1加重平均算出部135及び前向き第2加重平均算出部137と同様な処理を行うことができる。
In this embodiment, among the forward noise state transition probabilities c t, j calculated for the speech and non-speech, the first weighted average value ^ N t, j, l , ^ σ N t, j, l is output as a forward second weighted average value ^ N t, j, l , ^ σ N t, j, l .
By processing in this way, it is not necessary to calculate a weighted average, so that the processing speed can be increased. However, if the probability difference between the two is small, the influence of ignoring one becomes large. Therefore, it is desirable that the probability difference between the two is sufficiently large when using this embodiment.
The forward first weighted
〔変更例〕
上記実施の形態において、パラメータ予測処理S306において、ランダムウォーク過程により1時刻前の推定結果より現在の時刻のパラメータを予測しているが、自己回帰法(線形予測法)などを用いて予測してもよい。この場合、自己回帰係数の次数に応じて最終的な雑音モデルパラメータ推定性能が向上することが期待される。
また、上記実施の形態において、音声信号区間推定部70における閾値判定後に、図9に破線で示すように音声信号区間及び非音声信号区間の継続長を調査して音声信号区間推定結果を自動訂正する突発異常検出補正部74を接続してもよい。又は、同じく図9に破線で示すように、音声状態/非音声状態の判定結果と入力信号O(t)とを掛け合わせた信号を出力するようにし、突発異常検出補正部74と同様に作用させてもよい。音声信号区間推定部70をこのように構成することにより、突発的な識別誤りを訂正することができるため、音声信号区間推定の性能が向上することが期待される。
[Example of change]
In the above embodiment, in the parameter prediction process S306, the parameter at the current time is predicted from the estimation result one time before by a random walk process. However, the parameter is predicted using an autoregressive method (linear prediction method) or the like. Also good. In this case, it is expected that the final noise model parameter estimation performance is improved according to the order of the autoregressive coefficient.
In the above embodiment, after the threshold value is determined by the audio signal interval estimation unit 70, the duration of the audio signal interval and the non-audio signal interval is investigated and the audio signal interval estimation result is automatically corrected as shown by the broken line in FIG. A sudden abnormality detection correction unit 74 may be connected. Alternatively, as indicated by a broken line in FIG. 9, a signal obtained by multiplying the determination result of the voice state / non-voice state and the input signal O (t) is output, and operates in the same manner as the sudden abnormality detection correction unit 74. You may let them. By configuring the speech signal section estimation unit 70 in this way, sudden identification errors can be corrected, and it is expected that the performance of speech signal section estimation is improved.
〔発明の実験結果〕
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を本発明の音声信号区間検出装置に入力し、音声信号区間を検出する実施例を示す。以下、実験方法及び結果について説明する。
本実験では、日本語旅行対話音声データベースに収録されたクリーン音声2,292文のデータをクリーン音声とし、空港ロビーにて収録した騒音を雑音として、それぞれを信号対雑音比0dBで人工的に加算した信号を入力信号O(t)として作成した。それぞれの信号は、サンプリング周波数8,000Hz、量子化ビット数16ビットで離散サンプリングした。この入力音響信号に対し、1フレームの時間長を20ms(160サンプル点)とし、10ms(80サンプル点)ごとにフレームの始点を移動させて、音響信号分析部11を適用し、24次元のメルスペクトルを音響特徴量として抽出した。
[Experimental result of the invention]
In order to show the effect of the present invention, an embodiment will be described in which an audio signal in which an audio signal and a noise signal are mixed is input to the audio signal interval detecting device of the present invention, and the audio signal interval is detected. Hereinafter, experimental methods and results will be described.
In this experiment, 2,292 sentences of clean speech recorded in the Japanese travel dialogue speech database were used as clean speech, and noise recorded in the airport lobby was regarded as noise, and each was artificially added with a signal-to-noise ratio of 0 dB. As an input signal O (t). Each signal was discretely sampled at a sampling frequency of 8,000 Hz and a quantization bit number of 16 bits. For this input acoustic signal, the time length of one frame is set to 20 ms (160 sample points), the start point of the frame is moved every 10 ms (80 sample points), and the acoustic signal analyzer 11 is applied. The spectrum was extracted as an acoustic feature.
GMMには24次元の対数メルスペクトルを音響特徴量とする混合分布数64のモデルを用い、それぞれ無音信号、クリーン音声信号を用いて学習した。パラメータ予測処理S306においてεのパラメータ値には0.001を設定し、処理S403において後向き推定に要するフレーム数Bには5を設定した。音声状態遷移確率テーブル61において、音声状態遷移確率ai,jの値にはそれぞれ0.8,0.2,0.9,0.1を設定した。音声信号区間推定部70において、閾値THの値には10を設定した。
性能の評価は、次式のFalse acceptanceとFalse rejectionの調和平均であるHarmonic meanにより行った。False acceptanceは、非音声区間を誤って音声区間と識別した割合、False rejectionは、音声区間を誤って非音声区間と識別した割合である。評価尺度にHarmonic meanを用いて、本発明の性能評価と従来技術との性能の比較を行った。
For GMM, a model with 64 mixed distributions using a 24-dimensional log mel spectrum as an acoustic feature was used, and learning was performed using a silence signal and a clean speech signal, respectively. In the parameter prediction process S306, 0.001 is set as the parameter value of ε, and in the process S403, 5 is set as the number of frames B required for backward estimation. In the voice state transition probability table 61, the values of the voice state transition probabilities a i, j are set to 0.8, 0.2, 0.9, and 0.1, respectively. In the audio signal
The performance was evaluated by Harmonic mean, which is the harmonic mean of False acceptance and False rejection of the following equation. False acceptance is the rate at which a non-speech segment is mistakenly identified as a speech segment, and False rejection is the rate at which a speech segment is mistakenly identified as a non-speech segment. Using Harmonic mean as an evaluation scale, the performance evaluation of the present invention was compared with the performance of the prior art.
図10の結果から、本発明により従来技術に比べて高い性能が得られることが明らかとなった。
From the results shown in FIG. 10, it has been clarified that the present invention can obtain higher performance than the prior art.
Claims (10)
前記入力信号を一定区間ごとに切り出したフレームごとに音声特徴量を抽出する音響信号分析部と、
クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM:Gaussian Mixture Model)パラメータを記憶する無雑音モデル記憶部と、
前記音声特徴量と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、過去の時刻から現在の時刻に向かって並列非線形カルマンフィルタにより現在時刻の雑音モデルパラメータを逐次推定して出力する前向き推定部と、
前記前向き推定部から出力された雑音モデルパラメータと前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、未来の時刻から現在の時刻に向かって並列カルマンスムーザにより現在時刻の雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき音声(雑音+クリーン音声)と非音声(雑音+無音)それぞれの確率モデルパラメータを逐次推定して音声と非音声それぞれの出力確率を算出し出力するとともに、この出力確率と前記後向き推定した雑音モデルパラメータとから雑音モデルパラメータの推定結果の1フレーム前から現フレームへの雑音状態遷移確率を算出し出力する後向き推定部と、
前向き推定部及び後向き推定部における処理の過程で得られた計算結果を記憶するパラメータ記憶部と、
前記後向き推定部から出力された、前記音声の出力確率と前記非音声の出力確率と前記雑音状態遷移確率とが入力され、音声状態確率と非音声状態確率とを算出して、非音声状態確率に対する音声状態確率の比を出力する状態確率比算出部と、
前記状態確率の比が入力され、フレームごとにしきい値と比較して、音声状態か非音声状態のいずれかを比較結果として出力する音声信号区間推定部と、
を具備することを特徴とする音声信号区間推定装置。 An audio signal interval estimation device that detects and estimates a time interval in which an audio signal exists in an input signal including an audio signal and a noise signal,
An acoustic signal analysis unit that extracts a voice feature amount for each frame obtained by cutting out the input signal at predetermined intervals;
A noiseless model storage unit for storing a probability model (GMM: Gaussian Mixture Model) parameter based on a mixed normal distribution including a plurality of normal distributions of each of the clean speech signal and the silence signal;
The speech feature and each probability model parameter stored in the noiseless model storage unit are input, and the noise model parameter at the current time is sequentially estimated and output from the past time to the current time by a parallel nonlinear Kalman filter. A forward estimator to perform,
The noise model parameter output from the forward estimation unit and each probability model parameter stored in the noiseless model storage unit are input, and the noise at the current time is detected by a parallel Kalman smoother from the future time to the current time. The model parameters are sequentially estimated backward. Based on the estimated noise model parameters, the probability model parameters for speech (noise + clean speech) and non-speech (noise + silence) are estimated sequentially, and the output probabilities for speech and non-speech. A backward estimation unit that calculates and outputs a noise state transition probability from the previous frame to the current frame of the estimation result of the noise model parameter from the output probability and the backward estimated noise model parameter;
A parameter storage unit for storing calculation results obtained in the course of processing in the forward estimation unit and the backward estimation unit;
The output from the backward estimation unit, the audio output probability and output probability of the Hioto voice and the noise state transition probabilities are inputted, it calculates the audio state probability and non-speech state probability, non-voice state A state probability ratio calculation unit that outputs a ratio of the voice state probability to the probability;
A ratio of the state probabilities is input, and compared with a threshold value for each frame, a speech signal section estimation unit that outputs either a speech state or a non-speech state as a comparison result;
A speech signal section estimation device comprising:
前記前向き推定部は、
前記音響特徴量と1フレーム前の前向き第2加重平均値とが入力され、過去の時刻から現在の時刻に向けて現フレームの雑音モデルパラメータ予測値を計算し出力する雑音モデルパラメータ予測部と、
前記音響特徴量と前記雑音モデルパラメータ予測値と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、雑音モデルパラメータの更新処理を前記無雑音モデル記憶部に記憶された各確率モデルの複数の正規分布ごとに並列に行って、雑音モデルパラメータ更新値を出力する雑音モデルパラメータ更新部と、
前記雑音モデルパラメータ更新値と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームを単位とする当該時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成して出力する前向き確率モデルパラメータ生成部と、
前記音響特徴量と前記前向き確率モデルパラメータ生成部から出力される各確率モデルパラメータと前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームごとに音声、非音声それぞれの前向き出力確率と、この前向き出力確率を前記正規分布ごとに分解した前向き正規化出力確率とを算出して出力する前向き音声/非音声出力確率算出部と、
前記雑音モデルパラメータ更新値と前記前向き正規化出力確率とが入力され、雑音モデルパラメータの前向き第1加重平均値を算出して出力する前向き第1加重平均算出部と、
1フレーム前の前向き第2加重平均値と前記雑音モデルパラメータ更新値と前記前向き正規化出力確率と前記前向き第1加重平均値とが入力され、1フレーム前の推定結果から現フレームの推定結果への前向き雑音状態遷移確率を算出して出力する前向き雑音状態遷移確率算出部と、
前記前向き第1加重平均値と前記音声と非音声それぞれの前向き出力確率と前記前向き雑音状態遷移確率とが入力され、現フレームの前向き第2加重平均値を算出して出力する前向き第2加重平均算出部と、
を具備し、
前記後向き推定部は、
1フレーム後の前記雑音モデルパラメータ予測値と現フレームの前記雑音モデルパラメータ更新値と1フレーム後の雑音モデルパラメータ再推定値とが入力され、現フレームの前向き雑音モデルパラメータの再推定処理を前記無雑音モデル記憶部に記憶された各確率モデルの複数の正規分布ごとに並列に、未来の時刻から現在の時刻に向けて行って、雑音モデルパラメータ再推定値を出力する雑音モデルパラメータ再推定部と、
前記雑音モデルパラメータ再推定値と、前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームを単位とする当該時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成して出力する後向き確率モデルパラメータ生成部と、
前記音響特徴量と前記後向き確率モデルパラメータ生成部から出力される各確率モデルパラメータと、前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームごとに音声、非音声それぞれの出力確率と、この出力確率を前記正規分布ごとに分解した後向き正規化出力確率とを算出して出力する後向き音声/非音声出力確率算出部と、
前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率とが入力され、雑音モデルパラメータの後向き第1加重平均値を算出して出力する後向き第1加重平均算出部と、
1フレーム前の後向き第2加重平均値と前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率と前記後向き第1加重平均値とが入力され、1フレーム前の推定結果から現フレームの推定結果への雑音状態遷移確率を算出して出力する後向き雑音状態遷移確率算出部と、
前記後向き第1加重平均算出部から出力された前記後向き第1加重平均値と、前記後向き音声/非音声出力確率算出部から出力された前記音声の出力確率と前記非音声の出力確率と、前記後向き雑音状態遷移確率算出部から出力された前記雑音状態遷移確率と、が入力され、現フレームの後向き第2加重平均値を算出して出力する後向き第2加重平均算出部と、
を具備することを特徴とする音声信号区間推定装置。 The speech signal section estimation device according to claim 1,
The forward estimation unit includes:
A noise model parameter prediction unit that receives the acoustic feature value and a forward second weighted average value one frame before, calculates a noise model parameter prediction value of the current frame from a past time to a current time, and outputs the noise model parameter prediction value of the current frame;
The acoustic feature quantity, the noise model parameter prediction value, and each probability model parameter stored in the noiseless model storage unit are input, and each probability stored in the noiseless model storage unit is a noise model parameter update process. A noise model parameter update unit that outputs the noise model parameter update value in parallel for each of the plurality of normal distributions of the model,
The noise model parameter update value and each probability model parameter stored in the noiseless model storage unit are input, and the speech (noise + clean speech) probability model parameter suitable for the noise environment at the time in units of the frame And a forward probability model parameter generation unit that generates and outputs a non-voice (noise + silence) probability model parameter;
The acoustic feature amount, each probability model parameter output from the forward probability model parameter generation unit, and each probability model parameter stored in the noiseless model storage unit are input, and for each frame, each of speech and non-speech A forward speech / non-speech output probability calculator that calculates and outputs a forward output probability and a forward normalized output probability obtained by decomposing the forward output probability for each normal distribution;
A forward first weighted average calculating unit that receives the noise model parameter update value and the forward normalized output probability and calculates and outputs a forward first weighted average value of the noise model parameter;
The forward second weighted average value of the previous frame, the noise model parameter update value, the forward normalized output probability, and the forward first weighted average value are input, and the estimated result of the previous frame is changed to the estimated result of the current frame. A forward noise state transition probability calculating unit for calculating and outputting the forward noise state transition probability of
The forward first weighted average value, the forward output probability of each of the speech and non-speech, and the forward noise state transition probability are input, and the forward second weighted average value of the forward second weighted average value of the current frame is calculated and output. A calculation unit;
Comprising
The backward estimation unit is
The noise model parameter prediction value after one frame, the noise model parameter update value for the current frame, and the noise model parameter re-estimation value after one frame are input, and the re-estimation processing of the forward noise model parameter for the current frame is not performed. A noise model parameter re-estimation unit that outputs a noise model parameter re-estimation value in parallel for each normal distribution of each probability model stored in the noise model storage unit from the future time to the current time; ,
The noise model parameter re-estimation value and each probability model parameter stored in the noiseless model storage unit are input, and the speech (noise + clean speech) probability suitable for the noise environment at the time in units of the frame A backward probability model parameter generation unit that generates and outputs model parameters and non-voice (noise + silence) probability model parameters;
The acoustic feature value, each probability model parameter output from the backward probability model parameter generation unit, and each probability model parameter stored in the noiseless model storage unit are input, and voice and non-speech for each frame A backward speech / non-speech output probability calculation unit that calculates and outputs the output probability and a backward normalized output probability obtained by decomposing the output probability for each normal distribution;
A backward first weighted average calculating unit that receives the noise model parameter re-estimated value and the backward normalized output probability, calculates and outputs a backward first weighted average value of the noise model parameter;
The backward second weighted average value one frame before, the noise model parameter re-estimation value, the backward normalized output probability, and the backward first weighted average value are input, and the estimation result of the current frame from the estimation result of the previous frame A backward noise state transition probability calculating unit that calculates and outputs the noise state transition probability to
Said rearward first weighted average value output from the backward first weighted average calculation unit, the output probability of the backward speech / non-speech output probability the sound output from the calculation section and the output probability of the Hioto voice, and said noise state transition probability output from said rearward noise state transition probability calculating unit is input, and a rearward second weighted average calculation unit which calculates and outputs the backward second weighted average value of the current frame,
A speech signal section estimation device comprising:
前記状態確率比算出部は、
有限状態機械により表現された音声/非音声の状態遷移モデルにおいて適宜設定した音声状態遷移確率を記憶する音声状態遷移確率テーブルと、
前記後向き推定部から出力された現フレームの前記音声の出力確率と現フレームの前記非音声の出力確率と現フレームの前記雑音状態遷移確率と、前記音声状態遷移確率と、1フレーム前の前向き確率と、が入力され、現フレームの前向き確率を算出して出力する前向き確率算出部と、
前記後向き推定部から出力された1フレーム後の前記音声の出力確率と1フレーム後の前記非音声の出力確率と1フレーム後の前記雑音状態遷移確率と、前記音声状態遷移確率と、1フレーム後の後向き確率と、が入力され、現フレームの後向き確率を算出して出力する後向き確率算出部と、
前向き確率算出部及び後向き確率算出部における処理の過程で得られた前向き確率及び後向き確率を記憶する確率比算出用バッファと、
前記現フレームの前向き確率と前記現フレームの後向き確率とが入力され、非音声状態確率に対する音声状態確率の比を算出して出力する確率比算出部と、
を具備することを特徴とする音声信号区間推定装置。 The speech signal section estimation device according to claim 1 or 2,
The state probability ratio calculation unit
A speech state transition probability table that stores speech state transition probabilities set appropriately in a speech / non-speech state transition model expressed by a finite state machine;
And said noise state transition probability of the output probabilities and the current frame of the Hioto voice output probabilities and the current frame of the speech of the current frame output from the backward estimation unit, and the voice state transition probabilities, the previous frame forward probability, is input, the forward probability calculation portion which calculates and outputs the forward probability of the current frame,
An output probability and said noise state transition probability after one frame of the Hioto voice after the output probability and a frame of the speech after one frame output from the backward estimation unit, and the voice state transition probabilities, one frame after the backward probabilities, is entered, the backward probability calculation portion which calculates and outputs the backward probability of the current frame,
A probability ratio calculation buffer for storing the forward probability and the backward probability obtained in the course of processing in the forward probability calculation unit and the backward probability calculation unit;
A probability ratio calculation unit that receives the forward probability of the current frame and the backward probability of the current frame, calculates a ratio of the speech state probability to the non-speech state probability, and outputs the ratio.
A speech signal section estimation device comprising:
前記前向き第1加重平均算出部は、前記雑音モデルパラメータ更新値の中で最大の前記前向き正規化出力確率を持つ雑音モデルパラメータ更新値を雑音モデルパラメータの前向き第1加重平均値として出力するものであり、
前記前向き第2加重平均算出部は、前記前向き第1加重平均値の中で最大の前記前向き雑音状態遷移確率を持つ前向き第1加重平均値を現フレームの前向き第2加重平均値として出力するものであり、
前記後向き第1加重平均算出部は、前記雑音モデルパラメータ再推定値の中で最大の前記後向き正規化出力確率を持つ雑音モデルパラメータ再推定値を雑音モデルパラメータの後向き第1加重平均値として出力するものであり、
前記後向き第2加重平均算出部は、前記後向き第1加重平均値の中で最大の前記状態遷移確率を持つ後向き第1加重平均値を現フレームの後向き第2加重平均値として出力するものであることを特徴とする音声信号区間推定装置。 The speech signal section estimation device according to claim 2 or 3,
The forward first weighted average calculating unit outputs a noise model parameter update value having the maximum forward normalized output probability among the noise model parameter update values as a forward first weighted average value of the noise model parameters. Yes,
The forward second weighted average calculating unit outputs the forward first weighted average value having the maximum forward noise state transition probability among the forward first weighted average values as the forward second weighted average value of the current frame. And
The backward first weighted average calculating unit outputs a noise model parameter reestimation value having the maximum backward normalized output probability among the noise model parameter reestimation values as a backward first weighted average value of the noise model parameters. Is,
The backward second weighted average calculating unit outputs the backward first weighted average value having the maximum state transition probability among the backward first weighted average values as the backward second weighted average value of the current frame. A speech signal section estimation device characterized by the above.
音声信号分析部が、前記入力信号を一定区間ごとに切り出したフレームごとに音声特徴量を抽出する過程と、
前向き推定部が、前記音声特徴量と、クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM:Gaussian Mixture Model)パラメータとから、過去の時刻から現在の時刻に向かって並列非線形カルマンフィルタにより現在時刻の雑音モデルパラメータを逐次推定する過程と、
後向き推定部が、前記前向き推定部から出力された雑音モデルパラメータと、クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、未来の時刻から現在の時刻に向かって並列カルマンスムーザにより現在時刻の雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき音声(雑音+クリーン音声)と非音声(雑音+無音)それぞれの確率モデルパラメータを逐次推定して音声と非音声それぞれの出力確率を算出するとともに、この出力確率と前記後向き推定した雑音モデルパラメータとから雑音モデルパラメータの推定結果の1フレーム前から現フレームへの雑音状態遷移確率を算出する過程と、
状態確率比算出部が、前記後向き推定部から出力された、前記音声の出力確率と前記非音声の出力確率と前記雑音状態遷移確率とから、音声状態確率と非音声状態確率とを算出して、非音声状態確率に対する音声状態確率の比を算出する過程と、
音声信号区間推定部が、前記状態確率の比をフレームごとにしきい値と比較して、音声状態と非音声状態のいずれであるかを推定する過程と、
からなることを特徴とする音声信号区間推定方法。 An audio signal interval estimation method for detecting and estimating a time interval in which an audio signal exists in an input signal including an audio signal and a noise signal,
A process in which an audio signal analysis unit extracts an audio feature amount for each frame obtained by cutting out the input signal at predetermined intervals;
From the past time, the forward estimation unit determines from the past time from a probability model (GMM: Gaussian Mixture Model) parameter based on a mixed normal distribution including a plurality of normal distributions of the clean speech signal and the silence signal. The process of sequentially estimating the noise model parameters at the current time by the parallel nonlinear Kalman filter toward the time of
A backward estimation unit determines a future model based on a noise model parameter output from the forward estimation unit and a probability model (GMM) parameter based on a mixed normal distribution including a plurality of normal distributions of the clean speech signal and the silence signal. The noise model parameters at the current time are sequentially and backward estimated from the time to the current time by the parallel Kalman smoother, and voice (noise + clean speech) and non-speech (noise + silence) respectively based on this backward estimated noise model parameter Are sequentially estimated to calculate the output probabilities of speech and non-speech, and from this output probability and the backward estimated noise model parameter, the estimation result of the noise model parameter from one frame before to the current frame is calculated. Calculating the noise state transition probability;
State probability ratio calculation unit, the output from the backward estimation unit, the output probability of the speech and the output probabilities of the Hioto voice and the noise state transition probability, and calculates the voice state probability and non-speech state probability Calculating the ratio of the speech state probability to the non-speech state probability;
A process in which the speech signal section estimation unit compares the state probability ratio with a threshold value for each frame to estimate whether the state is a speech state or a non-speech state;
A speech signal section estimation method comprising:
前記前向き推定部が雑音モデルパラメータを逐次推定する過程は、
雑音モデルパラメータ予測部が、前記音響特徴量と1フレーム前の前向き第2加重平均値とから、過去の時刻から現在の時刻に向けて現フレームの雑音モデルパラメータ予測値を算出する過程と、
雑音モデルパラメータ更新部が、前記音響特徴量と、前記雑音モデルパラメータ予測値と、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、雑音モデルパラメータの更新処理を前記正規分布ごとに並列に行って、雑音モデルパラメータ更新値を算出する過程と、
前向き確率モデルパラメータ生成部が、前記雑音モデルパラメータ更新値と、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、前記フレームを単位とする当該時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成する過程と、
前向き音声/非音声出力確率算出部が、前記音響特徴量と、前記前向き確率モデルパラメータ生成部で算出された各確率モデルパラメータと、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、前記フレームごとに音声、非音声それぞれの前向き出力確率と、この前向き出力確率を前記正規分布ごとに分解した前向き正規化出力確率とを算出する過程と、
前向き第1加重平均算出部が、前記雑音モデルパラメータ更新値と前記前向き正規化出力確率とから、雑音モデルパラメータの前向き第1加重平均値を算出する過程と、
前向き雑音状態遷移確率算出部が、1フレーム前の前向き第2加重平均値と前記雑音モデルパラメータ更新値と前記前向き正規化出力確率と前記前向き第1加重平均値とから、1フレーム前の推定結果から現フレームの推定結果への前向き雑音状態遷移確率を算出する過程と、
前向き第2加重平均算出部が、前記前向き第1加重平均値と前記音声と非音声それぞれの前向き出力確率と前記前向き雑音状態遷移確率とから、現フレームの前向き第2加重平均値を算出する過程と、
からなり、
前記後向き推定部が出力確率と雑音状態遷移確率を算出する過程は、
雑音モデルパラメータ再推定部が、1フレーム後の前記雑音モデルパラメータ予測値と現フレームの前記雑音モデルパラメータ更新値と1フレーム後の雑音モデルパラメータ再推定値とから、現フレームの前向き雑音モデルパラメータの再推定処理を、前記クリーン音声信号と無音信号それぞれの確率モデルに含まれる複数の正規分布ごとに並列に、未来の時刻から現在の時刻に向けて行って、雑音モデルパラメータ再推定値を算出する過程と、
後向き確率モデルパラメータ生成部が、前記雑音モデルパラメータ再推定値と、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、前記フレームを単位とする当該時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成する過程と、
後向き音声/非音声出力確率算出部が、前記音響特徴量と前記後向き確率モデルパラメータ生成部で算出された各確率モデルパラメータと、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、前記フレームごとに音声、非音声それぞれの出力確率と、この出力確率を前記正規分布ごとに分解した後向き正規化出力確率とを算出する過程と、
後向き第1加重平均算出部が、前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率とから、雑音モデルパラメータの後向き第1加重平均値を算出する過程と、
後向き雑音状態遷移確率算出部が、1フレーム前の後向き第2加重平均値と前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率と前記後向き第1加重平均値とから、1フレーム前の推定結果から現フレームの推定結果への雑音状態遷移確率を算出する過程と、
後向き第2加重平均算出部が、前記後向き第1加重平均算出部から出力された前記後向き第1加重平均値と、前記後向き音声/非音声出力確率算出部から出力された前記音声の出力確率と前記非音声の出力確率と、前記後向き雑音状態遷移確率算出部から出力された前記雑音状態遷移確率と、から、現フレームの後向き第2加重平均値を算出する過程と、
からなることを特徴とする音声信号区間推定方法。 The speech signal section estimation method according to claim 5,
The forward estimation unit sequentially estimates the noise model parameters,
A process of calculating a noise model parameter prediction value of the current frame from the past time to the current time from the acoustic feature quantity and the forward second weighted average value of the previous frame by the noise model parameter prediction unit;
A noise model parameter update unit includes: a probability model (GMM) parameter based on a mixed normal distribution including a plurality of normal distributions of the acoustic feature amount, the noise model parameter prediction value, and each of the clean speech signal and the silence signal. From the above, the noise model parameter update process is performed in parallel for each of the normal distributions, and the noise model parameter update value is calculated,
A forward probability model parameter generation unit generates the frame from the noise model parameter update value and a probability model (GMM) parameter based on a mixed normal distribution including a plurality of normal distributions of the clean speech signal and the silence signal. A process of generating a speech (noise + clean speech) probability model parameter and a non-speech (noise + silence) probability model parameter suitable for the noise environment at the time as a unit;
The forward speech / non-speech output probability calculation unit includes a plurality of normal distributions of the acoustic feature amount, each probability model parameter calculated by the forward probability model parameter generation unit, and each of the clean speech signal and the silence signal. From the probability model (GMM) parameters based on the mixed normal distribution, the forward output probabilities of speech and non-speech for each frame and the forward normalized output probability obtained by decomposing the forward output probability for each normal distribution are calculated. The process of
A forward first weighted average calculating unit calculating a forward first weighted average value of the noise model parameter from the noise model parameter update value and the forward normalized output probability;
The forward noise state transition probability calculation unit calculates an estimation result one frame before from the forward second weighted average value one frame before, the noise model parameter update value, the forward normalized output probability, and the forward first weighted average value. Calculating the forward noise state transition probability from the current frame to the current frame estimation result,
A process in which a forward second weighted average calculating unit calculates a forward second weighted average value of the current frame from the forward first weighted average value, the forward output probability of each of the speech and non-speech, and the forward noise state transition probability; When,
Consists of
The process of calculating the output probability and the noise state transition probability by the backward estimation unit,
The noise model parameter re-estimation unit calculates a forward noise model parameter of the current frame from the predicted noise model parameter value after one frame, the updated noise model parameter value of the current frame, and the re-estimated noise model parameter value after one frame. The re-estimation process is performed in parallel for each of a plurality of normal distributions included in the respective probability models of the clean speech signal and the silence signal, and the noise model parameter re-estimation value is calculated from the future time to the current time. Process,
A backward probability model parameter generation unit generates the frame from the noise model parameter re-estimation value and a probability model (GMM) parameter based on a mixed normal distribution including a plurality of normal distributions of the clean speech signal and the silence signal. Generating a speech (noise + clean speech) probability model parameter and a non-speech (noise + silence) probability model parameter suitable for the noise environment at the time in units of
The backward speech / non-speech output probability calculation unit includes a plurality of normal distributions of the acoustic feature amount, each probability model parameter calculated by the backward probability model parameter generation unit, and each of the clean speech signal and the silence signal. Calculating a speech and non-speech output probability for each frame and a backward normalized output probability by decomposing this output probability for each normal distribution from a probability model (GMM) parameter based on a mixed normal distribution; ,
A backward first weighted average calculation unit calculating a backward first weighted average value of the noise model parameter from the noise model parameter re-estimated value and the backward normalized output probability;
The backward noise state transition probability calculation unit estimates the previous frame from the backward second weighted average value one frame before, the noise model parameter re-estimation value, the backward normalized output probability, and the backward first weighted average value. Calculating the noise state transition probability from the result to the estimation result of the current frame;
Second weighted average calculation section backward is, with the backward first weighted average value output from the backward first weighted average calculation unit, the output probability of the audio output from the backward speech / non-speech output probability calculation unit an output probability of the Hioto voice from said noise state transition probability output from said rearward noise transition probability calculation portion, and a step of calculating a second weighted average value rearward of the current frame,
A speech signal section estimation method comprising:
前記状態確率比算出部が非音声状態確率に対する音声状態確率の比を算出する過程は、
前向き確率算出部が、前記後向き推定部から出力された現フレームの前記音声の出力確率と現フレームの前記非音声の出力確率と現フレームの前記雑音状態遷移確率と、有限状態機械により表現された音声/非音声の状態遷移モデルにおいて適宜設定した音声状態遷移確率と、1フレーム前の前向き確率と、から、現フレームの前向き確率を算出する過程と、
後向き確率算出部が、前記後向き推定部から出力された1フレーム後の前記音声の出力確率と1フレーム後の前記非音声の出力確率と1フレーム後の前記雑音状態遷移確率と、前記音声状態遷移確率と、1フレーム後の後向き確率と、から、現フレームの後向き確率を算出する過程と、
確率比算出部が、前記現フレームの前向き確率と前記現フレームの後向き確率とから非音声状態確率に対する音声状態確率の比を算出する過程と、
からなることを特徴とする音声信号区間推定方法。 The speech signal section estimation method according to claim 5 or 6,
The process in which the state probability ratio calculation unit calculates the ratio of the speech state probability to the non-speech state probability,
Forward probability calculation portion, the output probability of the speech of the current frame output from the backward estimation unit and the output probability of the Hioto voice of the current frame and the noise state transition probability of the current frame is represented by a finite state machine a process of calculating a voice state transition probability, and the forward probability in the previous frame, from the forward probability of the current frame is set as appropriate in the voice / non-voice state transition model,
Backward probability calculation portion, and the noise state transition probability after the output probability and one frame of said Hioto voice after the output probability and a frame of the speech after one frame output from the backward estimation unit, the voice state and transition probabilities from a backward probability after one frame, the process of calculating the backward probability of the current frame,
A process of calculating a ratio of a speech state probability to a non-speech state probability from a forward probability of the current frame and a backward probability of the current frame;
A speech signal section estimation method comprising:
前記前向き第1加重平均算出部が前向き第1加重平均値を算出する過程は、前記雑音モデルパラメータ更新値の中で最大の前記前向き正規化出力確率を持つ雑音モデルパラメータ更新値を雑音モデルパラメータの前向き第1加重平均値として算出する過程であり、
前記前向き第2加重平均算出部が前向き第2加重平均値を算出する過程は、前記前向き第1加重平均値の中で最大の前記前向き雑音状態遷移確率を持つ前向き第1加重平均値を現フレームの前向き第2加重平均値として算出する過程であり、
前記後向き第1加重平均算出部が後向き第1加重平均値を算出する過程は、前記雑音モデルパラメータ再推定値の中で最大の前記後向き正規化出力確率を持つ雑音モデルパラメータ再推定値を雑音モデルパラメータの後向き第1加重平均値として算出する過程であり、
前記後向き第2加重平均算出部が後向き第2加重平均値を算出する過程は、前記後向き第1加重平均値の中で最大の前記状態遷移確率を持つ後向き第1加重平均値を現フレームの後向き第2加重平均値として算出する過程であることを特徴とする音声信号区間推定方法。 The speech signal section estimation method according to claim 6 or 7,
The process of calculating the forward first weighted average value by the forward first weighted average calculating unit is to calculate a noise model parameter update value having the maximum forward normalized output probability among the noise model parameter update values as a noise model parameter. A process of calculating as a positive first weighted average value,
The process of calculating the forward second weighted average value by the forward second weighted average calculating unit includes a forward first weighted average value having the maximum forward noise state transition probability among the forward first weighted average values as a current frame. Is calculated as a positive second weighted average value of
The process of calculating the backward first weighted average value by the backward first weighted average calculating unit includes calculating a noise model parameter reestimation value having the maximum backward normalized output probability among the noise model parameter reestimation values as a noise model. A process of calculating the parameter as a backward first weighted average value,
The process of calculating the backward second weighted average value by the backward second weighted average calculating unit is performed by setting the backward first weighted average value having the maximum state transition probability among the backward first weighted average values to the backward direction of the current frame. A speech signal section estimation method, which is a process of calculating as a second weighted average value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006335536A JP4673828B2 (en) | 2006-12-13 | 2006-12-13 | Speech signal section estimation apparatus, method thereof, program thereof and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006335536A JP4673828B2 (en) | 2006-12-13 | 2006-12-13 | Speech signal section estimation apparatus, method thereof, program thereof and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008145923A JP2008145923A (en) | 2008-06-26 |
JP4673828B2 true JP4673828B2 (en) | 2011-04-20 |
Family
ID=39606147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006335536A Active JP4673828B2 (en) | 2006-12-13 | 2006-12-13 | Speech signal section estimation apparatus, method thereof, program thereof and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4673828B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170075312A (en) * | 2015-12-23 | 2017-07-03 | (주) 우림인포텍 | System and method for time-series predicting using integrated forward and backward trends, and a recording medium having computer readable program for executing the method |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4856662B2 (en) * | 2008-02-29 | 2012-01-18 | 日本電信電話株式会社 | Noise removing apparatus, method thereof, program thereof and recording medium |
CN102483916B (en) * | 2009-08-28 | 2014-08-06 | 国际商业机器公司 | Audio feature extracting apparatus, audio feature extracting method, and audio feature extracting program |
JP5457999B2 (en) * | 2010-12-08 | 2014-04-02 | 日本電信電話株式会社 | Noise suppressor, method and program thereof |
CN107799113B (en) * | 2017-09-26 | 2021-12-07 | Oppo广东移动通信有限公司 | Audio processing method and device, storage medium and mobile terminal |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0738454A (en) * | 1993-05-19 | 1995-02-07 | N T T Idou Tsuushinmou Kk | Noise reduction method |
JPH10254476A (en) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | Voice interval detecting method |
JP2002140096A (en) * | 2000-06-02 | 2002-05-17 | Canon Inc | Signal processing system |
JP2004503983A (en) * | 2000-06-16 | 2004-02-05 | エイティー アンド ティー ラボラトリーズ−ケンブリッジ リミテッド | How to extract the signal |
JP2006005918A (en) * | 2004-05-26 | 2006-01-05 | Honda Research Inst Europe Gmbh | Subtractive cancellation method of harmonic noise |
JP2006154819A (en) * | 2004-11-25 | 2006-06-15 | Lg Electronics Inc | Speech recognition method |
JP2006201287A (en) * | 2005-01-18 | 2006-08-03 | Advanced Telecommunication Research Institute International | Noise suppression device and speech recognition system |
-
2006
- 2006-12-13 JP JP2006335536A patent/JP4673828B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0738454A (en) * | 1993-05-19 | 1995-02-07 | N T T Idou Tsuushinmou Kk | Noise reduction method |
JPH10254476A (en) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | Voice interval detecting method |
JP2002140096A (en) * | 2000-06-02 | 2002-05-17 | Canon Inc | Signal processing system |
JP2004503983A (en) * | 2000-06-16 | 2004-02-05 | エイティー アンド ティー ラボラトリーズ−ケンブリッジ リミテッド | How to extract the signal |
JP2006005918A (en) * | 2004-05-26 | 2006-01-05 | Honda Research Inst Europe Gmbh | Subtractive cancellation method of harmonic noise |
JP2006154819A (en) * | 2004-11-25 | 2006-06-15 | Lg Electronics Inc | Speech recognition method |
JP2006201287A (en) * | 2005-01-18 | 2006-08-03 | Advanced Telecommunication Research Institute International | Noise suppression device and speech recognition system |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170075312A (en) * | 2015-12-23 | 2017-07-03 | (주) 우림인포텍 | System and method for time-series predicting using integrated forward and backward trends, and a recording medium having computer readable program for executing the method |
KR101901654B1 (en) * | 2015-12-23 | 2018-09-27 | (주) 우림인포텍 | System and method for time-series predicting using integrated forward and backward trends, and a recording medium having computer readable program for executing the method |
Also Published As
Publication number | Publication date |
---|---|
JP2008145923A (en) | 2008-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tan et al. | Low-complexity variable frame rate analysis for speech recognition and voice activity detection | |
US9208780B2 (en) | Audio signal section estimating apparatus, audio signal section estimating method, and recording medium | |
Wan et al. | Dual extended Kalman filter methods | |
US7590526B2 (en) | Method for processing speech signal data and finding a filter coefficient | |
EP2431972B1 (en) | Method and apparatus for multi-sensory speech enhancement | |
EP1995723B1 (en) | Neuroevolution training system | |
EP0871157B1 (en) | A method and a device for recognising speech | |
JP4856662B2 (en) | Noise removing apparatus, method thereof, program thereof and recording medium | |
Cui et al. | Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR | |
CN106486131A (en) | A kind of method and device of speech de-noising | |
Kim et al. | Cepstrum-domain acoustic feature compensation based on decomposition of speech and noise for ASR in noisy environments | |
JP4586577B2 (en) | Disturbance component suppression device, computer program, and speech recognition system | |
JPH07271394A (en) | Removal of signal bias for sure recognition of telephone voice | |
US7035790B2 (en) | Speech processing system | |
US20090043570A1 (en) | Method for processing speech signal data | |
JP2000099080A (en) | Voice recognizing method using evaluation of reliability scale | |
JP4673828B2 (en) | Speech signal section estimation apparatus, method thereof, program thereof and recording medium | |
JP5713818B2 (en) | Noise suppression device, method and program | |
JP2006349723A (en) | Acoustic model creating device, method, and program, speech recognition device, method, and program, and recording medium | |
Cheng et al. | Improving piano note tracking by HMM smoothing | |
Dionelis et al. | Modulation-domain Kalman filtering for monaural blind speech denoising and dereverberation | |
JP4755555B2 (en) | Speech signal section estimation method, apparatus thereof, program thereof, and storage medium thereof | |
JP2013114151A (en) | Noise suppression device, method and program | |
JP4691079B2 (en) | Audio signal section estimation apparatus, method, program, and recording medium recording the same | |
Hirsch et al. | A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100831 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110111 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4673828 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140128 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |