JP3423906B2 - Voice operation characteristic detection device and detection method - Google Patents
Voice operation characteristic detection device and detection methodInfo
- Publication number
- JP3423906B2 JP3423906B2 JP32819899A JP32819899A JP3423906B2 JP 3423906 B2 JP3423906 B2 JP 3423906B2 JP 32819899 A JP32819899 A JP 32819899A JP 32819899 A JP32819899 A JP 32819899A JP 3423906 B2 JP3423906 B2 JP 3423906B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- input signal
- speech
- value
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001514 detection method Methods 0.000 title claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 25
- 230000004044 response Effects 0.000 claims description 11
- 230000006399 behavior Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 description 23
- 239000013598 vector Substances 0.000 description 13
- 206010019133 Hangover Diseases 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 101710096660 Probable acetoacetate decarboxylase 2 Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 101150042711 adc2 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Noise Elimination (AREA)
- Mobile Radio Communication Systems (AREA)
- Geophysics And Detection Of Objects (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Description
【0001】[0001]
【発明の属する技術分野】音声の動作特性検出器(vo
ice activity detector)は、会
話の期間、又はノイズのみを含む期間を検出する目的を
有する信号が供給される装置である。この発明はこれら
の応用に限るものではなく、そのような検出器に関する
この発明の特定な実施例には、移動ラジオ電話システム
があり、このシステムにおいて会話は会話コ−ダ(co
der)によって利用され、電波スペクトルの有効な利
用法を改善し、又、それらのシステムではノイズレベル
(車に搭載されたユニットからの)は一般に大きい。BACKGROUND OF THE INVENTION Voice characteristic detector (vo)
An ice activity detector is a device supplied with a signal whose purpose is to detect the duration of a conversation, or the duration of noise alone. The invention is not limited to these applications, and a particular embodiment of the invention for such detectors is a mobile radiotelephone system in which speech is spoken by a speech coder.
der) to improve the effective utilization of the radio spectrum, and in these systems the noise level (from the onboard units) is generally high.
【0002】[0002]
【発明が解決しようとする課題】音声の動作特性検出の
本質は、会話と会話ではない期間の間で異なる分量を探
すことである。会話コ−ダを含む装置において、一つコ
−ダから、又は他のステ−ジから、多くのパラメ−タを
容易に用いることができ、従ってそのようなパラメ−タ
を利用することによって、必要な処理を経済的に簡素に
することが望まれる。多くの状況において、主要なノイ
ズはある周波数スペクトルの限られた領域内に発生す
る。例えば移動する車(自動車)のノイズ(例えばエン
ジンノイズ)は、低い周波数帯域スペクトルである。ノ
イズスペクトルのそのような位置に関する認識が利用で
きる場合は、比較的少ないノイズを含むスペクトル部分
から得られた測定量について、会話が存在するかどうか
の判断の基準を置くのが望ましい。勿論、会話の動作特
性を検出して分析する前に、信号を濾波することが実際
に可能であるが、音声の動作特性検出器が会話コ−ダの
出力に依存している場合、この前段濾波はコ−ド化され
る音声信号を妨害する。The essence of voice behavior characteristic detection is to look for different amounts between speech and non-speech periods. In a device containing a conversational coder, many parameters can easily be used from one coder, or from another stage, and by utilizing such parameters, It is desirable to economically simplify the processing required. In many situations, the dominant noise occurs within a limited region of some frequency spectrum. For example, noise (for example, engine noise) of a moving car (automobile) has a low frequency band spectrum. Where knowledge of such positions in the noise spectrum is available, it is desirable to base the decision on whether speech is present on the measure obtained from the spectral portion containing relatively little noise. Of course, it is actually possible to filter the signal before detecting and analyzing the behavioral characteristics of the speech, but if the speech behavioral characteristic detector relies on the output of the speech coder, then this Filtering interferes with the coded audio signal.
【0003】[0003]
【課題を解決するための手段】第3図にその実施の形態
を示す本発明によれば、入力信号内に会話が存在するか
存在しないかを示す出力信号を作成するため、入力信号
成分と会話がないと判断される入力信号の成分との間の
スペクトル的類似性の値を形成するように動作する第1
音声動作特性検出器と、前記会話がない部分から導かれ
たデータを格納するメモリと、補助的な音声動作特性検
出器とを有し、前記補助的な音声動作特性検出器は前記
メモリの更新を制御し、前記補助的な動作特性検出器は
入力信号の最新の成分と入力信号のより早期の成分との
間のスペクトル的類似性の値を形成するように動作する
音声動作特性検出装置が提供される。According to the present invention, the embodiment of which is shown in FIG. 3, an input signal component is generated in order to generate an output signal indicating whether or not conversation is present in the input signal. A first operative to form a value of spectral similarity between the components of the input signal determined to be speech-free
A voice activity characteristic detector; a memory for storing data derived from the non-speech portion; and an auxiliary voice activity characteristic detector, the auxiliary voice activity characteristic detector updating the memory. And the auxiliary behavioral characteristic detector operates to form a spectral similarity value between the most recent component of the input signal and the earlier component of the input signal. Provided.
【0004】また、入力信号の会話動作特性を検出する
方法であって、入力信号を受信し、入力信号のノイズ信
号部分を概算し、ノイズ信号部分を表現するデータを格
納し、入力信号の一部とノイズ信号部分との間のスペク
トル的類似性の値Mを形成し、スレショルド値(thr
eshold value)より高いか否かに従って会
話が存在するか存在しないかを示す第1の音声動作特性
指示を作成するため、上記値Mから導かれるパラメータ
を第1のスレショルド値Tと比較し、ここで概算するス
テップは補助的な音声動作特性指示の作成を含み、そし
て、補助的な音声動作特性指示の作成は、入力信号の最
新の成分と入力信号のより早期の成分との間の類似性の
スペクトル歪み値を形成し、その値を超えるか超えない
かに対応して会話が存在するか存在しないかの指示を作
成するために前記スペクトル歪み値を第2のスレショル
ド値と比較し、補助的な音声動作特性指示が会話が存在
しないと指示する期間においてのみ入力信号により前記
格納されたデータを更新するステップを含む方法が提供
される。Further, it is a method for detecting a conversational operation characteristic of an input signal, in which the input signal is received, a noise signal portion of the input signal is roughly estimated, data representing the noise signal portion is stored, and one of the input signal Form a value M of the spectral similarity between the part and the noise signal part, the threshold value (thr
The parameter derived from the above value M is compared with a first threshold value T, in order to create a first voice behavior characteristic indication indicating whether a conversation is present or absent according to whether it is higher than the threshold value), The step of approximating in the step of generating an auxiliary voice behavioral characteristic indication includes the generation of the auxiliary voice behavioral characteristic indication of the similarity between the latest component of the input signal and the earlier component of the input signal. The spectral distortion value of the second threshold value to generate an indication of whether speech is present or absent, corresponding to whether the spectral distortion value is exceeded or not exceeded. A method is provided which includes the step of updating the stored data with an input signal only during a period when the active voice behavior characteristic indication indicates the absence of speech.
【0005】上記値Mは、板倉・斎藤による歪み値であ
ることが望ましい。The above value M is preferably a distortion value by Itakura and Saito.
【0006】この発明の他の局面は特許請求の範囲に含
まれる。Other aspects of the invention are within the scope of the following claims.
【0007】[0007]
【発明の実施の形態】この発明の幾つかの実施例が添付
図面を参照してこれより説明される。Some embodiments of the present invention will now be described with reference to the accompanying drawings.
【0008】この発明による音声の動作特性検出器の第
1実施例を特徴付ける一般原則が次に示される。The general principles which characterize the first embodiment of the speech motion characteristic detector according to the invention will now be given.
【0009】n個の信号サンプル
(s0,s1,s2,s3,s4 … sn−1)は、
パルス応答(1,h0,h2,h3)の概念上の4次有
限パルス応答(FIR)デジタルフィルタを通過すると
き、濾波された信号となり(以前のフレ−ムからのサン
プルを無視する)、The n signal samples (s 0 , s 1 , s 2 , s 3 , s 4 ... s n-1 ) are
When passed through a conceptual 4th order finite pulse response (FIR) digital filter of pulse response (1, h 0 , h 2 , h 3 ), it becomes a filtered signal (ignoring the sample from the previous frame. ),
【0010】[0010]
【数1】 [Equation 1]
【0011】0次の自己相関係数は、各項の2乗の合計
値であり、それは正規化され、即ち項の全数によって分
割され(一定フレ−ム長に関し、その分割を省略するの
が容易である)、従って濾波された信号の合計値は、The zero-order autocorrelation coefficient is the sum of the squares of each term, which is normalized, that is, divided by the total number of terms (for a constant frame length, omitting that division. Easy), so the sum of the filtered signals is
【0012】[0012]
【数2】 [Equation 2]
【0013】従ってこれは、論理的に濾波された信号s
´の電力量、即ち概念的フィルタの通過帯域内の信号s
の部分の電力量である。This is therefore the logically filtered signal s
′ Power, ie the signal s in the passband of the conceptual filter
Is the electric energy of the part.
【0014】最初の4項を無視して拡張すると、Ignoring the first four terms and expanding,
【0015】[0015]
【数3】 [Equation 3]
【0016】従って、R´0は、値R´0が応答する周
波数帯域を決定する括弧でくくった定数によって重み付
けされた自己相関係数Riの結合によって得られる。実
際、括弧でくくった項は論理フィルタのパルス応答の自
己相関係数であり、従って上記表現は次のように簡単に
現すことができる。[0016] Thus, R'0 is obtained by coupling of the autocorrelation coefficients R i, weighted by constants in parentheses to determine the frequency band to a value R'0 responds. In fact, the bracketed terms are the autocorrelation coefficients of the pulse response of the logic filter, so the above expression can simply be expressed as:
【0017】[0017]
【数4】 [Equation 4]
【0018】ここで、Nはフィルタの次数、Hiはフィ
ルタのパルス応答の(正規化されていない)自己相関係
数。Where N is the order of the filter and H i is the (unnormalized) autocorrelation coefficient of the pulse response of the filter.
【0019】即ち、信号濾波の信号自己相関係数に関す
る効果は、要求されるフィルタが有するパルス応答を用
い、(濾波されていない)信号の自己相関係数の合計を
生成することによってシミュレ−ト(simulat
e)することができる。That is, the effect of the signal filtering on the signal autocorrelation coefficient is to simulate by using the pulse response of the required filter and generating the sum of the autocorrelation coefficients of the (unfiltered) signal. (Simulat
e) can be done.
【0020】従って、乗算動作の小さい数を含む比較的
簡単なアルゴリズムは、この数の100回の乗算動作を
一般に必要とするデジタルフィルタのシミュレ−ション
を行うことができる。Thus, a relatively simple algorithm involving a small number of multiply operations can perform a digital filter simulation that generally requires this number of 100 multiply operations.
【0021】一方、この濾波動作は、信号スペクトルが
参照スペクトルに対して整合している(matche
d)状態で(論理フィルタの逆相応答)、スペクトル比
較の形式として見ることができる。この応用における論
理フィルタはノイズスペクトルの逆を概算するように選
択されるので、この動作は、スペクトル間の非類似性を
を示す値のような、会話及びノイズのスペクトルと、生
成される0次自己相関係数(即ち逆濾波された信号のエ
ネルギ)とのスペクトル的比較として見ることができ
る。板倉・斎藤による歪み値が、予測フィルタ(pre
distor filter)と入力スペクトルの整合
を評価するLPC内に用いられ、一つの形式は次のよう
に示される。On the other hand, in this filtering operation, the signal spectrum is matched with the reference spectrum (match).
d) in the state (negative phase response of the logic filter), it can be seen as a form of spectral comparison. Since the logical filter in this application is chosen to approximate the inverse of the noise spectrum, this behavior is done with the spectrum of speech and noise, such as values that indicate dissimilarities between the spectra, and the 0th order generated. It can be viewed as a spectral comparison with the autocorrelation coefficient (ie the energy of the back-filtered signal). The distortion values by Itakura and Saito are predicted by the prediction filter (pre
Used in the LPC to evaluate the matching of the input filter and the input filter, one format is shown as follows.
【0022】[0022]
【数5】 [Equation 5]
【0023】ここで、A0などはLPCパラメ−タ・セ
ットの自己相関係数である。これは前記得られた関係に
非常に類似していることが判り、LPC係数が入力信号
の逆スペクト応答を有するFIRのタップ(taps)
であり、それによってLPC係数セットは逆LPCフィ
ルタのパルス応答であることを考えれば、実際、板倉・
斎藤による歪み値は単に式1の一形式であり、そこでフ
ィルタ応答Hは入力信号の全ポ−ルモデル(all−p
ole model)であることは明らかである。Here, A 0 and the like are autocorrelation coefficients of the LPC parameter set. It turns out that this is very similar to the relationship obtained above, where the LPC coefficients are the taps of the FIR with the inverse spectral response of the input signal.
Therefore, considering that the LPC coefficient set is the pulse response of the inverse LPC filter,
Saito's distortion value is simply one form of Equation 1, where the filter response H is the all-pol model (all-p) of the input signal.
ole model).
【0024】事実、試験スペクトルのLPC係数と参照
スペクトルの自己相関係数を用いて、転換し、スペクト
ル的類似性の異なる値を得ることができる。In fact, the LPC coefficient of the test spectrum and the autocorrelation coefficient of the reference spectrum can be used to transform and obtain different values of spectral similarity.
【0025】I−Sによる歪み値は、”ベクトル量子化
に基づく会話の符号化”(”Speech Codin
g based upon Vector Quant
isation”by A Buzo,A H Gra
y,R M Gray and J D Marke
l,IEE Trans on ASSP,Vol A
SSP−28,No5,October 1980)に
更に詳細に説明されている。The distortion value due to the IS is "encoding speech based on vector quantization"("SpeechCodin").
g based upon Vector Quant
isation ”by A Buzo, A H Gra
y, RM Gray and J D Marke
l, IEEE Trans on ASSP, Vol A
SSP-28, No. 5, October 1980).
【0026】信号のフレ−ムは単に有限値長を有し、項
の数(N、ここでNはフィルタ次数)は無視されるの
で、前述の結果は単に概算である。しかし、それは会話
があるかどうかを非常に良く示し、従って会話報告の値
Mとして用いられる。ノイズスペクトルが既知であり、
それが静的ノイズの場合、固定のh0、h1などの係数
を逆ノイズフィルタに適用することは十分可能である。The above results are only approximations, since the frame of the signal simply has a finite value length and the number of terms (N, where N is the filter order) is ignored. However, it very well indicates if there is a conversation and is therefore used as the value M in the conversation report. The noise spectrum is known,
If it is static noise, it is quite possible to apply fixed h 0 , h 1 etc coefficients to the inverse noise filter.
【0027】しかし、異なるノイズ状況に適合すること
ができる装置は更に有益である。However, a device that can adapt to different noise situations is more beneficial.
【0028】第1図にはこの発明の第1実施例が示さ
れ、マイクロホン(図示されず)からの信号sは入力1
に受信され、アナログ・デジタルコンバ−タ2によっ
て、適切なサンプリングレ−ト(sampling r
ate)でデジタルサンプルに変換される。LPC分析
ユニット3(一般的なLPCコ−ダ [coder])
は、n個(例えば160個)のサンプルの連続するフレ
−ムについて、入力の会話を示すために送信されるN個
(例えば8又は12個)のLPCフィルタ係数Liの一
組を得る。会話信号sは又、相関ユニット(corre
lator unit)4(通常これはLPCコ−ダ3
の一部分である。なぜならば、ここで分離相関器[se
parate crrelator]を供給することが
評価できるが、会話の自己相関ベクトルRiは通常LP
C分析の1ステップとして生成されるからである)に入
力される。相関器4は自己相関ベクトルRiを発生し、
ベクトルRiは0次相関係数R0、及び少なくとも更に
2つの自己相関係数R1、R2、R3を含む。これらは
マルチプライアユニット(multiplier un
it)5に供給される。FIG. 1 shows a first embodiment of the present invention in which a signal s from a microphone (not shown) is input 1
Received by the analog-to-digital converter 2 and the appropriate sampling rate (sampling r).
ate) and converted to digital samples. LPC analysis unit 3 (general LPC coder)
Obtains a set of N (eg, 8 or 12) LPC filter coefficients L i that are transmitted to indicate the input conversation for a continuous frame of n (eg, 160) samples. The speech signal s also has a correlation unit (corre).
later unit) 4 (usually this is the LPC coder 3
Is part of. Because here, the separating correlator [se
, but the autocorrelation vector R i of the speech is usually LP.
(Since it is generated as one step of C analysis). The correlator 4 generates an autocorrelation vector R i ,
The vector R i comprises a zero-order correlation coefficient R 0 and at least two further autocorrelation coefficients R1, R2, R3. These are multiplier units.
it) 5.
【0029】第2入力11はスピ−カから離れて配置さ
れる第2マイクロホンに接続され、背景ノイズのみが受
信される。このマイクロホンからの入力は、ADコンバ
−タ12によってデジタル入力サンプル列に変換され、
LPCアナライザ13によってLPC分析される。アナ
ライザ13から発生した”ノイズ”LPC係数は相関ユ
ニット14を通過し、それによって発生した自己相関ベ
クトルは、マルチプライア5の会話マイクロホンからの
入力信号の自己相関係数Riによって項ごとに乗算さ
れ、それによって生成された重み係数は等式1に従って
加算器6によって加算され、それによってノイズのみの
マイクロホンからのノイズスペクトルの逆相形状を有す
るフィルタを提供し(実際は信号・パルス・ノイズ・マ
イクロホンにおけるノイズスペクトルと同一形状であ
る)、従って殆どのノイズを濾波する。その結果的測定
値Mはスレショルダ(thresholder)7によ
ってスレショルド値(threshold)と比較さ
れ、会話が存在するかどうかを示すロジック出力8を発
生する。ここでMが大きい場合、会話が存在すると考え
られる。The second input 11 is connected to a second microphone located away from the speaker and receives only background noise. The input from this microphone is converted into a digital input sample string by the AD converter 12,
LPC analysis is performed by the LPC analyzer 13. The "noise" LPC coefficients generated by the analyzer 13 pass through the correlation unit 14 and the autocorrelation vector generated thereby is term-wise multiplied by the autocorrelation coefficient R i of the input signal from the speech microphone of the multiplier 5. , The weighting factors produced thereby are added by the adder 6 according to Equation 1, thereby providing a filter having the anti-phase shape of the noise spectrum from a noise-only microphone (actually in a signal / pulse / noise microphone). It has the same shape as the noise spectrum) and thus filters out most noise. The resulting measurement value M is compared with a threshold value by a thresholder 7 to produce a logic output 8 indicating whether speech is present. If M is large here, it is considered that a conversation exists.
【0030】この実施例では2つのマイクロホンと2つ
のLPCアナライザを使用するが、費用と複雑性が増大
するが、必要であればこれらを増やすことができる。This embodiment uses two microphones and two LPC analyzers, which adds cost and complexity, but these can be increased if desired.
【0031】一方、他の実施例では、ノイズマイクロホ
ン11からの自己相関、及びメインマイクロホン1から
のLPC係数を使用して形成される対応する値を使用す
る。その場合、LPCアナライザではなく、更に他の自
己相関器が必要となる。On the other hand, another embodiment uses the autocorrelation from the noise microphone 11 and the corresponding value formed using the LPC coefficients from the main microphone 1. In that case, another autocorrelator is needed instead of the LPC analyzer.
【0032】従ってこれらの実施例は、異なる周波数の
ノイズを有する異なる状況、又は与えられた一つの状況
において、変化するノイズスペクトルの存在する所で動
作することが可能である。Thus, these embodiments are capable of operating in different situations with different frequencies of noise, or in a given situation, in the presence of varying noise spectra.
【0033】第2図の好適実施例においては、LPC係
数の一組(又はその一組の自己相関ベクトル)を格納す
るバッファ15が提供され、これらの値は、”ノンスピ
−チ(non−speech)(即ちノイズのみ)”と
して定義される期間に、マイクロホン入力1から得られ
る。これらの値は等式1による値を得るために使用さ
れ、勿論この測定は、板倉・斎藤による歪み測定法に対
応するが、LPC係数の現在のフレ−ムではなく、逆相
ノイズスペクトルの概算値に一致する、LPC係数の格
納された単一フレ−ムが使用されるところが異なる。In the preferred embodiment of FIG. 2, a buffer 15 is provided which stores a set (or set of autocorrelation vectors) of LPC coefficients, the values of which are "non-speech". ) (I.e., noise only) ". These values are used to obtain the value according to Equation 1, which of course corresponds to the distortion measurement method of Itakura and Saito, but not the current frame of LPC coefficients, but an approximation of the anti-phase noise spectrum. The difference is that a single frame of LPC coefficients that matches the values is used.
【0034】アナライザ3によって出力されるLPC係
数ベクトルLiも又、相関器14に導かれ、それによっ
てLPC係数ベクトルの自己相関ベクトルを発生する。
バッファメモリ15はスレショルダ7のスピ−チ/ノン
スピ−チ出力によって制御され、 ”スピ−チ”フレ−
ムの間、バッファは”ノイズ”自己相関係数を保持する
が、”ノイズ”フレ−ムの間は、LPC係数の新たな一
組が、例えば複合スイッチ16によってバッファを更新
するのに使用することができ、このスイッチ16を介し
て、各自己相関係数を伝送する相関器14の出力がバッ
ファ15に接続される。相関器14がバッファ15の後
に配置されてもよい。更に、係数更新のためのスピ−チ
/ノンスピ−チの決定は出力8からである必要はなく、
(好適に)他の方法で得ることができる。The LPC coefficient vector L i output by the analyzer 3 is also directed to the correlator 14 and thereby produces the autocorrelation vector of the LPC coefficient vector.
Buffer memory 15 is controlled by the speech / non-speech output of thresholder 7 to provide a "speech" frame.
During the frame, the buffer holds the "noise" autocorrelation coefficient, but during the "noise" frame, a new set of LPC coefficients is used to update the buffer, for example by the composite switch 16. The output of the correlator 14 carrying each autocorrelation coefficient is connected to the buffer 15 via this switch 16. The correlator 14 may be placed after the buffer 15. Furthermore, the determination of the speech / non-speech for updating the coefficients need not be from output 8,
It can be obtained (preferably) in other ways.
【0035】会話の無い期間がしばしば発生するので、
バッファに格納されたLPC係数は時折更新され、それ
によって装置はノイズスペクトル内の変化に追随するこ
とができる。ノイズスペクトルが時間的に比較的安定し
ている場合(多くの場合そうであるが)、そのようなバ
ッファの更新は、極く希に、又は検出器の初期の動作の
みに必要とされると考えられが、移動する(車の)ラジ
オのような状況のときには、しばしば更新するのが望ま
しい。Since a period without conversation often occurs,
The LPC coefficients stored in the buffer are occasionally updated, which allows the device to follow changes in the noise spectrum. If the noise spectrum is relatively stable in time (as is often the case), then updating such a buffer may only be necessary infrequently or only for the initial operation of the detector. Though conceivable, it is often desirable to update in situations like mobile (car) radio.
【0036】この実施例の変更例として、簡単な固定ハ
イパス・フィルタに一致する係数項を有する等式1をシ
ステムは適用し、次に”ノイズ期間”LPC係数を使用
して切り替わることによってシステムは適合を開始す
る。幾つかの理由によって会話検出が失敗した場合、シ
ステムは簡単なハイパスフィルタを再び用いることがで
きる。As a modification of this embodiment, the system applies Equation 1 with coefficient terms that match a simple fixed highpass filter, and then switches by using the "noise period" LPC coefficients. Start fitting. If speech detection fails for some reason, the system can re-use a simple high pass filter.
【0037】上記値をR0で割ることによって正規化す
ることができ、スレショルドと比較される表現は、The expression that can be normalized by dividing the above value by R 0 and compared to the threshold is:
【0038】[0038]
【数6】 [Equation 6]
【0039】この値はフレ−ムの総合信号電力とは独立
しており、従って総合信号レベル変化に関しては補償さ
れるが、”ノイズ”と”会話”レベルの間の著しい対比
を与えず、従ってノイズの大きな環境では好適に使用さ
れることはない。This value is independent of the frame's total signal power and is therefore compensated for total signal level changes, but does not give a significant contrast between "noise" and "speech" levels, and thus It is not suitable for use in a noisy environment.
【0040】(後述されるように)ノイズスペクトルが
徐々に変化するとき、(前述の様々な実施例におけるノ
イズマイクロホン又はノイズのみの期間から得られる)
ノイズ信号の逆フィルタ係数を得るためにLPC分析を
用いる代わりに、一般的な適合性フィルタ(adapt
ive filter)を用いて逆相ノイズスペクトル
の原型を生成することができ、そのようなフィルタに共
通する比較的低速な適合率を得ることができる。第1図
に一致する実施例において、LPC分析ユニット13は
容易に適合性フィルタ(例えばトランスバ−サル (t
ransversal)FIR又はラティスフィルタ
(lattice filter))と交換することが
でき、そのフィルタは、逆フィルタの原型を生成するこ
とによって、ノイズ入力をホワイトノイズに転換するた
めにシステムに接続され、その係数は前述のように自己
相関器14に供給される。When the noise spectrum changes gradually (as described below) (obtained from a noise microphone or noise only period in the various embodiments described above).
Instead of using LPC analysis to obtain the inverse filter coefficients of the noise signal, a general adaptive filter (adapt) is used.
The ive filter) can be used to generate a prototype of the anti-phase noise spectrum, and a relatively slow precision common to such filters can be obtained. In the embodiment corresponding to FIG. 1, the LPC analysis unit 13 is easily adapted to the adaptive filter (eg transversal (t
FIR) or lattice filter
(Lattice filter), whose filter is connected to the system to convert the noise input into white noise by generating an inverse filter prototype, the coefficients of which are autocorrelated as described above. Is supplied to the container 14.
【0041】第2図に示される第2実施例において、L
PC分析手段3は、そのような適合性フィルタと置換さ
れ、バッファ手段15は省略される。しかし、スイッチ
16は、適合性フィルタが会話期間の間、その係数を適
合するのを防止するために動作する。In the second embodiment shown in FIG. 2, L
The PC analysis means 3 is replaced by such a fitness filter and the buffer means 15 is omitted. However, switch 16 operates to prevent the adaptive filter from matching its coefficients during the conversation period.
【0042】この発明の他の実施例に使用される第2の
音声の動作特性検出器がこれより説明される。A second speech motion characteristic detector used in another embodiment of the invention will now be described.
【0043】以下の説明において、LPC係数ベクトル
は、FIRフィルタの単にパルス応答であり、FIRフ
ィルタは入力信号の逆位相スペクトル形状であることは
明らかである。隣接するフレ−ムの間に板倉・斎藤によ
る歪み値が形成されるとき、以前のフレ−ムのLPCフ
ィルタによって濾波されているので、実際にその値は信
号の電力に等しい。従って隣接するフレ−ムのスペクト
ルに違いが殆どない場合、フレ−ムの対応する僅かなス
ペクトル電力は濾波を免れ、その値は小さいであろう。
同時に、フレ−ム間の大きなスペクトルの相違は大きな
板倉・斎藤歪み値を発生し、それによってその値は隣接
するフレ−ムのスペクトルの類似性を反映する。スピ−
チコ−ダに関して、デ−タレ−トを最小とすることによ
って、フレ−ム長をできるだけ長くするのが望ましい。
即ち、フレ−ム長が十分長ければ、会話信号はフレ−ム
からフレ−ムへの重要なスペクトル変化を示す(もしそ
うでなければコ−ド化は冗長である)。一方、ノイズは
フレ−ムからフレ−ムへ徐々に変化するスペクトル形状
を有し、会話が信号に存在しない期間において、以前の
フレ−ムから逆相LPCフィルタを適用し、殆どのノイ
ズ電力を”フィルタアウト(filter out)”
するので、板倉・斎藤による歪み値はそれに対応して少
ない。In the following description, it is clear that the LPC coefficient vector is simply the pulse response of the FIR filter, which is the anti-phase spectral shape of the input signal. When the distortion value by Itakura and Saito is formed between adjacent frames, it is actually equal to the power of the signal because it has been filtered by the LPC filter of the previous frame. Thus, if there is little difference in the spectra of adjacent frames, the corresponding little spectral power of the frames will escape filtering and its value will be small.
At the same time, the large spectral difference between the frames produces large Itakura-Saito distortion values, which reflect the spectral similarity of adjacent frames. Speed
With respect to the chillers, it is desirable to maximize the frame length by minimizing the data rate.
That is, if the frame length is long enough, the speech signal exhibits significant spectral changes from frame to frame (otherwise coded is redundant). On the other hand, noise has a spectral shape that gradually changes from frame to frame, and during periods when speech is not present in the signal, the anti-phase LPC filter is applied from the previous frame, and most noise power is removed. "Filter out"
Therefore, the distortion values due to Itakura and Saito are correspondingly small.
【0044】断続的な会話を含み、ノイズの多い信号の
隣接するフレ−ム間の板倉・斎藤歪み値は、一般にノイ
ズの期間より会話の期間の方が大きく、変化の程度(標
準偏倚によって示されるように)も大きく、断続的な変
化は少ない。The Itakura-Saito distortion value between adjacent frames of a noisy signal including an intermittent conversation is generally larger in the conversation period than in the noise period, and the degree of change (indicated by the standard deviation). Is large, and there are few intermittent changes.
【0045】ここで、Mの標準偏差(standard
deviation)も信頼できる値であり、各標準
偏差をとる効果は本質的に値を円滑にすることである。Here, the standard deviation (standard) of M
deviation) is also a reliable value, and the effect of taking each standard deviation is essentially to smooth the value.
【0046】音声の動作特性検出器のこの第2の形態に
おいて、会話が存在するかどうかを判断するのに用いる
測定されたパラメ−タは、板倉・斎藤歪み値の標準偏差
であることが望ましいが、変化を測定する他の方法、及
び(例えばFFT分析に基づく)スペクトル歪みを測定
する他の方法を適用することができる。In this second form of speech motion characteristic detector, the measured parameter used to determine whether speech is present is preferably the standard deviation of the Itakura-Saito distortion value. However, other methods of measuring change and other methods of measuring spectral distortion (eg, based on FFT analysis) can be applied.
【0047】音声の動作特性検出に適合性スレショルド
(adaptive threshold)を用いるこ
とにも利点がある。そのようなスレショルドは、会話期
間の間は調整されるべきではなく、調整されると会話信
号はスレショルドアウト(threshold ou
t)される。従ってスピ−チ/ノンスピ−チ制御信号を
用いてスレショルド・アダプタを制御する必要があり、
この制御信号はスレショルド・アダプタの出力から独立
しているのが望ましい。スレショルドTは、ノイズのみ
が存在するとき、値Mのレベル以上のレベルに保たれる
ように調整される。その値はノイズが存在するとき一般
にランダムに変化するので、多くのブロックについての
平均レベルを決定し、スレショルドをこの平均レベルに
比例するレベルに設定することによって、スレショルド
が変化する。しかし、これはノイズの多い状況では一般
に十分ではなく、幾つかのブロックについてのパラメ−
タの変化程度に関する査定が考慮される。There is also an advantage in using adaptive thresholds for voice performance characteristic detection. Such thresholds should not be adjusted for the duration of the speech, and if so, the speech signal will be threshold out.
t) is performed. Therefore, it is necessary to control the threshold adapter using the speech / non-speech control signal,
This control signal is preferably independent of the output of the threshold adapter. The threshold T is adjusted so that it is kept above the level of the value M when only noise is present. Since the value generally changes randomly in the presence of noise, the threshold is changed by determining the average level for many blocks and setting the threshold to a level proportional to this average level. However, this is generally not sufficient in noisy situations, and parameters for some blocks
The assessment regarding the degree of change of the data is considered.
【0048】従ってスレショルド値Tは次式に従って計
算される。Therefore, the threshold value T is calculated according to the following equation.
【0049】[0049]
【数7】 [Equation 7]
【0050】ここでMは、連続する多くのフレ−ムにつ
いての測定値の平均値であり、dはそれらフレ−ムにつ
いての測定値の標準偏差であり、Kは定数である(代表
的には2である)。Here, M is the average value of the measured values for many consecutive frames, d is the standard deviation of the measured values for those frames, and K is a constant (typically). Is 2.)
【0051】実際的に、会話の存在しないことが示され
た直後に再び適合動作を開始すべきではなく、(適合及
び非適合状態の間に繰り返される急速なスイッチングを
避けるために)降下が安定したことを確認するまで待つ
べきである。In practice, the adaptation action should not be started again immediately after the absence of speech is indicated, and the descent is stable (to avoid repeated rapid switching between conforming and nonconforming states). You should wait until you know what you have done.
【0052】第3図は前述の事柄を具備する本発明の好
適実施例であり、入力1はアナログ・デジタルコンバ−
タ(ADC)2によってサンプルされ、デジタル化され
た信号を受信し、逆相フィルタアナライザ3の入力に信
号を供給し、逆相フィルタアナライザ3は実際に音声の
動作特性検出器が動作するスピ−チコ−ダの一部であ
り、又、入力信号スペクトルの逆相に一致するフィルタ
の係数Li(代表的に8)を発生する。デジタル信号は
又、(アナライザ3の一部である)自己相関器4に供給
され、自己相関器4は入力信号(又は少なくともそれら
がLPC係数と同じくらい多くの低次項)の自己相関ベ
クトルRiを発生する。装置のこれらの部分の動作は第
1図及び第2図に示される。自己相関係数Riは好適
に、連続する幾つかのスピ−チフレ−ム(代表的に5〜
20ms)について平均値がとられ、それらの信頼度が
改善される。この平均化は、バッファ4a内の自己相関
器4によって出力される自己相関係数の各組を格納し、
平均器(averager)4bを用いて、現在の自己
相関係数Ri、及びバッファ4aに格納されバッファ4
aから供給される以前のフレ−ムからの係数の重み付け
された加算値を生成することによって達成される。それ
によって得られた平均化された自己相関係数Ra iは重
み付け及び加算手段5、6に供給され、この手段は又、
バッファ15を介して自己相関器14から格納されたノ
イズ期間の逆相フィルタ係数Liの自己相関ベクトルA
iを受信し、Rai及びAiから次式により定義される
値Mを形成する。FIG. 3 shows a preferred embodiment of the present invention having the above-mentioned matters.
This is a preferred embodiment, and input 1 is an analog / digital converter.
Sampled by an ADC 2 and digitized
Received signal and send it to the input of the anti-phase filter analyzer 3.
Signal, and the anti-phase filter analyzer 3 actually
Operating characteristic part of the speech coder where the detector operates
And a filter that matches the opposite phase of the input signal spectrum
Coefficient ofi(Typically 8). Digital signal
Also supplied to the autocorrelator 4 (which is part of the analyzer 3)
And the autocorrelator 4 receives the input signal (or at least those
Are as many low order terms as LPC coefficients).
Cutle RiTo occur. The operation of these parts of the device is
It is shown in FIGS. 1 and 2. Autocorrelation coefficient RiIs suitable
And several continuous flavor frames (typically 5 to
20 ms) averaged and their confidence
Be improved. This averaging is based on the autocorrelation in the buffer 4a.
Storing each set of autocorrelation coefficients output by the device 4,
Using the averager 4b, the current self
Correlation coefficient Ri, And the buffer 4 stored in the buffer 4a
Weighting of coefficients from the previous frame supplied by a
This is accomplished by producing a summed value that is calculated. It
Averaged autocorrelation coefficient Ra obtained by iIs heavy
The means for adding and adding 5, 6 are also provided, which means also
The data stored in the autocorrelator 14 via the buffer 15
Anti-phase filter coefficient L during noise periodiAutocorrelation vector A of
iAnd receive RaiAnd AiIs defined by
Form the value M.
【0053】[0053]
【数8】 [Equation 8]
【0054】この値はスレショルダ7によって、スレシ
ョド値と比較され、会話が存在するかしないかを示す論
理結果が出力8に発生する。This value is compared with the threshold value by the thresholder 7 and a logical result is produced at the output 8 indicating whether or not a conversation is present.
【0055】逆相フィルタ係数Liがノイズスペクトル
の逆相の適切な概算に一致するために、これらの係数を
ノイズの期間に更新するのが望ましい(勿論、会話の期
間には更新しない)。しかし、その更新に基づくスピ−
チ/ノンスピ−チの決定はその更新の結果に影響され
ず、又は誤って確認された信号の単一フレ−ムによっ
て、音声の動作特性検出器は結果的に”ロックはずれ
(out of lock)”となり、次のフレ−ムを
誤って認識する。従って制御信号発生回路20、即ち分
離音声の補助的な動作特性検出器が提供され、この検出
器は会話が存在するかどうかを示す独立制御信号を形成
し、逆相フィルタアナライザ3(又はバッファ8)を制
御し、それによって値Mを形成するのに用いられる逆相
フィルタ自己相関係数Aiは”ノイズ”期間にのみ更新
される。制御信号発生回路20はLPCアナライザ21
を含み(これは再び会話コ−ダの一部であり、特にアナ
ライザ3によって実行される)、このアナライザは、入
力信号及び自己相関器21a(自己相関器3aによって
実行することができる)に一致する一組のLPC係数M
iを発生し、自己相関器21aはMiの自己相関係数B
iを得る。アナライザ21がアナライザ3によって実行
された場合は、Mi=Li、及びBi=Aiである。こ
れら自己相関係数は、重み付け及び加算手段22、23
(5、6に同等)に供給され、この手段も自己相関器4
からの入力信号の自己相関ベクトルRiを受信する。従
って、入力スピ−チフレ−ムと以前のスピ−チフレ−ム
の間のスペクトル的類似性が計算される。これは前記し
たように、現在のフレ−ムのRiと以前のフレ−ムのB
iの間の板倉・斎藤歪み値、又現在のフレ−ムのRiと
Biに関する板倉・斎藤歪み値を計算することによって
得られ、又は対応する値をバッファ24に格納された以
前のフレ−ムに関して減算することによって得られ、ス
ペクトル的に異なる信号を発生する(それぞれの場合、
その値はRoで分割することによってエネルギ・正規化
されるのが望ましい)。勿論ここでバッファ24は更新
される。このスペクトル的に異なる信号は、スレショル
ダ26によってスレショルドと比較されたとき、前述の
ように、会話が存在するかどうかを示す。音声とはなら
ない会話からのノイズを区別するためにこの方法は優れ
ているが(従来のシステムにおいて可能なタスク(ta
sk))、音声となった会話からノイズを区別する能力
は一般に少ないことが発見された。従って、回路20に
は、ピッチアナライザ(pitch analyse
r)27(実際にスピ−チコ−ダの一部として動作する
ことができ、特にマルチパルスLPCコ−ダ内に生成さ
れる算定器(predictor)の長い遅延値測定す
ることができる)を具備する音声の会話検出回路が提供
されるのが望ましい。ピッチアナライザ27は、音声と
なった会話が検出されたとき”真理(true)”であ
るロジック信号を発生し、この信号は、スレショルダ2
6(音声とはならない会話が存在するとき、一般に”真
理”である)から得られるスレショルド値と結合され、
NORゲ−ト28の入力に供給され、会話が存在すると
き”誤り(false)”であり、ノイズが存在すると
き”真理”である信号を発生する。この信号はバッファ
8(又は逆相フィルタアナライザ3)に供給され、それ
によって逆相フィルタ係数Liは、ノイズ期間のみに更
新される。In order for the anti-phase filter coefficients L i to match a good approximation of the anti-phase of the noise spectrum, it is desirable to update these coefficients during the noise period (of course not during the conversation). However, the speed based on that update
Each non-speech decision is unaffected by the result of the update, or due to a single frame of falsely identified signal, the voice performance detector will eventually "out of lock". ", And the next frame is erroneously recognized. Therefore, a control signal generating circuit 20, that is to say an auxiliary operating characteristic detector for the separated voice, is provided, which forms an independent control signal which indicates whether speech is present, the anti-phase filter analyzer 3 (or the buffer 8). ), And therefore the anti-phase filter autocorrelation coefficient A i used to form the value M is updated only during the "noise" period. The control signal generation circuit 20 is an LPC analyzer 21.
(Which is again part of the speech coder and is especially implemented by the analyzer 3), which matches the input signal and the autocorrelator 21a (which can be implemented by the autocorrelator 3a). A set of LPC coefficients M
i , and the autocorrelator 21a outputs the autocorrelation coefficient B of M i.
get i . If the analyzer 21 is implemented by the analyzer 3, then M i = L i and B i = A i . These autocorrelation coefficients are weighted and added by means 22 and 23.
(Equal to 5 and 6), and this means is also autocorrelator 4
Receives an autocorrelation vector R i of the input signal from Therefore, the spectral similarity between the input and the previous speech frames is calculated. As described above, this is R i of the current frame and B of the previous frame.
The Itakura-Saito distortion value between i and the Itakura-Saito distortion value related to Ri and B i of the current frame, or the corresponding value stored in the buffer 24. Resulting in a spectrally distinct signal (in each case
Its value is preferably energy-normalized by dividing by Ro). Of course, the buffer 24 is updated here. This spectrally distinct signal, when compared to the threshold by thresholder 26, indicates whether speech is present, as described above. Although this method is excellent for distinguishing noise from speech that is not voice (a task (ta
sk)), it has been discovered that the ability to distinguish noise from spoken speech is generally low. Therefore, the circuit 20 includes a pitch analyzer.
r) 27 (actually capable of operating as part of a speech coder, in particular capable of measuring the long delay value of a calculator produced in a multi-pulse LPC coder) It would be desirable to provide a voice speech detection circuit. Pitch analyzer 27 generates a logic signal that is "true" when a spoken conversation is detected, which signal is threshold 2.
Combined with the threshold value obtained from 6 (generally "truth" when there is a non-speech conversation),
It is applied to the input of NOR gate 28 and produces a signal that is "false" when speech is present and "true" when noise is present. This signal is supplied to the buffer 8 (or the anti-phase filter analyzer 3), whereby the anti-phase filter coefficient Li is updated only during the noise period.
【0056】スレショルドアダプタ29も又接続され、
制御信号発生回路20のノンスピ−チ信号制御出力を受
信する。スレショルドアダプタ29の出力はスレショル
ダ7に供給される。スレショルドアダプタ29の出力は
スレショルダ7に供給される。スレショルドアダプタ
は、スレショルドがノイズ電力レベルに近付くまで(こ
れは、例えば回路22、23の加算及び重み付けするこ
とによって容易に得られる)、瞬時スレショルドレベル
に比例するステップに、スレショルドをインクリメント
(increment)又はデクリメント(decre
ment)するように動作する。入力信号が非常に小さ
いとき、スレショルドは自動的にロ−レベルに設定され
るのが望ましい。なぜならば、小さい信号レベルのと
き、ADC2によって生成される信号量は信頼できる結
果を生成できないからである。The threshold adapter 29 is also connected,
The non-speech signal control output of the control signal generation circuit 20 is received. The output of the threshold adapter 29 is supplied to the thresholder 7. The output of the threshold adapter 29 is supplied to the thresholder 7. The threshold adapter increments the threshold in steps proportional to the instantaneous threshold level until the threshold approaches the noise power level (which is easily obtained, for example, by adding and weighting circuits 22, 23). Decrement
ment). When the input signal is very small, the threshold is preferably set to low level automatically. This is because at low signal levels, the amount of signal produced by ADC2 cannot produce reliable results.
【0057】更に”ハングオ−バ(hangove
r)”発生手段30が提供され、これはスレショルダ7
の後の会話を示す期間を測定し、所定時定数を越える期
間の間、会話の存在が示されたとき、その出力は短い”
ハングオ−バ”の間、ハイに維持される。このようにし
て、ロ−レベルな会話バ−ストの中間の欠損(clip
ping)が避けられ、適切な時定数の選択によって、
会話のときに誤って示された短いスパイクノイズにより
ハングオ−バ発生器30の起動を防ぐことができる。勿
論、前述した全ての機能は、適切にプログラムされた単
一のデジタル処理手段、例えば、LPCコ−デックの一
部として構成され(これは所望される構成である)、又
は関連するメモリ装置を有する適切にプログラムされた
マイクロコンピュ−タやマイクロコントロ−ラチップと
して構成されるデジタル信号処理チップ(DSP)など
のような手段によって実行することができる。Furthermore, "hangover (hangover
r) "generating means 30 is provided, which is the threshold 7
After that, the duration of the conversation is measured and the output is short when the presence of the conversation is indicated for a period exceeding a predetermined time constant. "
It remains high during the "hangover." In this way, the clip in the middle of the low-level speech burst.
ping) is avoided, and by selecting an appropriate time constant,
A short spike noise that is erroneously displayed during a conversation can prevent the hangover generator 30 from being activated. Of course, all the functions described above may be implemented as part of a properly programmed single digital processing means, such as an LPC codec (which is the desired configuration), or an associated memory device. It can be implemented by means such as a suitably programmed micro-computer or a digital signal processing chip (DSP) configured as a micro-controller chip.
【0058】前述したように、音声検出装置はLPCコ
−デックの一部として容易に構成されることができる。
一方、信号の自己相関係数、又はそれに関連する値(部
分相関又は”パルコ−ル(parcor)”係数)が離
れたステ−ションに送信される場合、音声検出はコ−デ
ックから離れて行われる。As mentioned above, the voice detector can be easily constructed as part of the LPC codec.
On the other hand, if the autocorrelation coefficient of the signal, or its related value (partial correlation or "parcor" coefficient) is transmitted to the distant station, the speech detection will be done away from the codec. Be seen.
【図1】第1図はこの発明の第1実施例を示すブロック
図である。FIG. 1 is a block diagram showing a first embodiment of the present invention.
【図2】第2図はこの発明の第2実施例を示すブロック
図である。FIG. 2 is a block diagram showing a second embodiment of the present invention.
【図3】第3図はこの発明の好適な第3実施例を示す。FIG. 3 shows a preferred third embodiment of the present invention.
1 … 入力 2 … ADコンバータ 3 … アナライザ 4 … AFC 5 … マルチプライア 6 … 加算器 7 … スレショルダ 8 … 出力 11 … ノイズマイクロホン 12 … ADコンバータ 13 … アナライザ 14 … AFC 15 … バッファメモリ 16 … スイッチ 1 ... Input 2… AD converter 3… Analyzer 4… AFC 5 ... Multiplier 6 ... Adder 7 ... Threshold 8… Output 11… Noise microphone 12… AD converter 13… Analyzer 14… AFC 15… Buffer memory 16… Switch
フロントページの続き (72)発明者 ダニエル・ケネス・フリーマン イギリス国 アイ・ピー4,2エツチ テイ,サフォーク,アイプスウイツチ, フインチレイ・ロード 42 (72)発明者 イヴン・ボイド イギリス国 アイ・ピー9,2エツク ス・イー,サフォーク,アイプスウイツ チ,カペル・エス・テイ・マリー,ホー ムフイールド 5 (56)参考文献 特開 昭63−98700(JP,A) 特公 昭62−50837(JP,B2)Continued front page (72) Inventor Daniel Kenneth Freeman UK IP 4,4 Etch Tay, Suffolk, Ipswich, Huinchray Road 42 (72) Inventor Even Boyd British country IP 9,2 Etsuk Su Yi, Suffolk, Ips Wits Chi, Capel S. T. Marie, Ho Moufield 5 (56) References JP-A-63-98700 (JP, A) Japanese Patent Publication Sho 62-50837 (JP, B2)
Claims (7)
ないかを示す出力信号を作成するため、入力信号成分と
会話がないと判断される入力信号の成分との間のスペク
トル的類似性の値を形成するように動作する第1音声動
作特性検出器(3−6、14)と、 (ii)前記会話がない部分から導かれたデータを格納する
メモリ(15)と、 (iii)補助的な音声動作特性検出器(20)とを有し、 前記補助的な音声動作特性検出器(20)は単独で前記
メモリ(15)の更新を制御し、前記補助的な動作特性
検出器(20)は、入力信号に会話が存在するか存在し
ないかを示す前記出力信号から独立の制御信号を生成す
るために、入力信号の最新の成分と入力信号のより早期
の成分との間のスペクトル的類似性の値を形成するよう
に動作することを特徴とする音声動作特性検出装置。1. (i) Spectral similarity between an input signal component and a component of the input signal that is determined to be non-speech to produce an output signal that indicates the presence or absence of speech in the input signal. A first voice motion characteristic detector (3-6, 14) that operates to form a sex value; (ii) a memory (15) for storing data derived from the non-speech portion; (iii) ) An auxiliary voice operation characteristic detector (20), the auxiliary voice operation characteristic detector (20) independently controls the update of the memory (15) to detect the auxiliary operation characteristic detector. The container (20) is used to determine whether there is a conversation in the input signal.
Generate an independent control signal from the output signal indicating
In order to do so, a speech motion characteristic detection device is operative to form a value of the spectral similarity between the latest component of the input signal and the earlier component of the input signal.
イズ表現信号を格納するメモリ(15)と、 (iii)前記入力信号と前記ノイズ表現信号から、前記入
力信号の一部と前記概算されたノイズ部分との間のスペ
クトル的類似性の値を周期的に形成する手段(3−6、
14)と、 (iv)会話が存在するか存在しないかを示す出力信号を作
成するため前記値をスレショルド値と比較する手段
(7)と、 (v)補助的な音声動作特性検出器(20)と、そして (vi)前記入力信号により前記メモリを更新するメモリ
更新手段とを有し、 前記補助的な音声動作特性検出器は、会話が存在するか
又は存在しないかを示す前記出力信号から独立の制御信
号を生成するため、入力信号の最新の部分と入力信号の
以前の部分との間のスペクトル的類似性の値に対応して
動作し、そして前記制御信号は入力信号に会話が存在す
るか又は存在しないかを示し、そして前記メモリ更新手
段は前記制御信号が会話が存在しないことを示す場合の
み前記入力信号により前記メモリを更新するために動作
することを特徴とする音声動作特性検出装置。2. (i) means for receiving an input signal (1); (ii) a memory (15) for storing a noise expression signal representing an estimated noise portion of the input signal; and (iii) the above. Means (3-6, periodically forming from the input signal and the noise representation signal a value of the spectral similarity between the portion of the input signal and the estimated noise portion.
14), (iv) means (7) for comparing said value with a threshold value to produce an output signal indicating whether speech is present or absent, and (v) an auxiliary voice behavior characteristic detector (20). ), And (vi) a memory updating means for updating the memory with the input signal, wherein the auxiliary voice behavior characteristic detector is configured to detect the presence or absence of speech from the output signal. To generate an independent control signal, which operates in response to the value of the spectral similarity between the latest part of the input signal and the previous part of the input signal, and said control signal being present in the input signal You
Indicates no Luke or present, and the memory update unit voice activity characteristic detection, characterized in that the operation to update the memory by the input signal only when indicating that the control signal is not present conversations apparatus.
ないと示された期間の間に前記スレショルド値を調整す
る手段を含むことを特徴とする請求項2に記載の装置。3. The apparatus of claim 2, further comprising means for adjusting the threshold value during a period when the control signal indicates that no conversation is present.
に音声となった会話の存在を表示する信号を生成するピ
ッチアナライザ手段を含む音声となった会話を検出する
手段(27)を含み、これに前記補助的な音声動作特性
検出器(20)によって作成された前記制御信号がさら
に従うことを特徴とする請求項2または請求項3に記載
の装置。4. The auxiliary voice activity characteristic detector further comprises means (27) for detecting spoken speech including pitch analyzer means for generating a signal indicating the presence of the spoken speech. Device according to claim 2 or 3, characterized in that the control signal produced by the auxiliary voice behavior characteristic detector (20) is further followed.
記載の装置を含む会話信号をエンコードする装置。5. A device for encoding a speech signal, comprising a device according to any one of claims 1 to 4.
記載の装置を含む自動車電話装置。6. An automobile telephone device including the device according to claim 1.
であって、 前記入力信号を受信し、 前記入力信号のノイズ信号部分を概算し、 前記ノイズ信号部分を表現するデータを格納し、 入力信号の一部と前記ノイズ信号部分との間のスペクト
ル的類似性の値Mを形成し、 スレショルド値より高いか否かに従って会話が存在する
か存在しないかを示す第1の音声動作特性指示を作成す
るため、値Mから導かれるパラメータを第1のスレショ
ルド値Tと比較し、 ここで前記概算するステップは補助的な音声動作特性指
示の作成を含み、そして、 前記補助的な音声動作特性指示の作成は、 入力信号の最新の成分と入力信号のより早期の成分との
間の類似性のスペクトル歪み値を形成し、 その値を超えるか超えないかに対応して会話が存在する
か存在しないかを指示する前記補助的な音声動作特性指
示を作成するために前記スペクトル歪み値を第2のスレ
ショルド値と比較し、前記補助的な音声指示は前記第1
の音声動作特性 指示から独立しており、 前記補助的な音声動作特性指示が会話が存在しないと指
示する期間においてのみ入力信号により前記格納された
データを更新するステップを含むことを特徴とする方
法。7. A method for detecting a conversational operation characteristic of an input signal, comprising: receiving the input signal, estimating a noise signal portion of the input signal, storing data representing the noise signal portion, Forming a value M of the spectral similarity between a portion of the signal and the noise signal portion and providing a first voice behavior characteristic indication indicating whether speech is present or absent depending on whether it is above a threshold value or not. To produce, a parameter derived from the value M is compared to a first threshold value T, wherein the estimating step comprises producing an ancillary voice behavior characteristic indication, and To form a spectral distortion value of the similarity between the most recent component of the input signal and the earlier component of the input signal, and whether or not there is a conversation depending on whether or not that value is exceeded. The spectral distortion value is compared to a second threshold value to create the ancillary audio behavioral characteristic indication indicating absent, and the ancillary audio instruction is compared to the first threshold value .
How to the independent of the speech operation characteristics indicated, comprising the step of said auxiliary voice activity characteristic instruction to update the data said stored by an input signal only during a period for indicating that there is no conversation .
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB888805795A GB8805795D0 (en) | 1988-03-11 | 1988-03-11 | Voice activity detector |
GB888813346A GB8813346D0 (en) | 1988-06-06 | 1988-06-06 | Voice activity detection |
GB888820105A GB8820105D0 (en) | 1988-08-24 | 1988-08-24 | Voice activity detection |
GB8805795 | 1988-08-24 | ||
GB8813346.7 | 1988-08-24 | ||
GB8820105.8 | 1988-08-24 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP50377289A Division JP3321156B2 (en) | 1988-03-11 | 1989-03-10 | Voice operation characteristics detection |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000148172A JP2000148172A (en) | 2000-05-26 |
JP3423906B2 true JP3423906B2 (en) | 2003-07-07 |
Family
ID=27263821
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP50377289A Expired - Lifetime JP3321156B2 (en) | 1988-03-11 | 1989-03-10 | Voice operation characteristics detection |
JP32819899A Expired - Lifetime JP3423906B2 (en) | 1988-03-11 | 1999-11-18 | Voice operation characteristic detection device and detection method |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP50377289A Expired - Lifetime JP3321156B2 (en) | 1988-03-11 | 1989-03-10 | Voice operation characteristics detection |
Country Status (16)
Country | Link |
---|---|
EP (2) | EP0335521B1 (en) |
JP (2) | JP3321156B2 (en) |
KR (1) | KR0161258B1 (en) |
AU (1) | AU608432B2 (en) |
BR (1) | BR8907308A (en) |
CA (1) | CA1335003C (en) |
DE (2) | DE68929442T2 (en) |
DK (1) | DK175478B1 (en) |
ES (2) | ES2047664T3 (en) |
FI (2) | FI110726B (en) |
HK (1) | HK135896A (en) |
IE (1) | IE61863B1 (en) |
NO (2) | NO304858B1 (en) |
NZ (1) | NZ228290A (en) |
PT (1) | PT89978B (en) |
WO (1) | WO1989008910A1 (en) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2643593B2 (en) * | 1989-11-28 | 1997-08-20 | 日本電気株式会社 | Voice / modem signal identification circuit |
CA2040025A1 (en) * | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
US5241692A (en) * | 1991-02-19 | 1993-08-31 | Motorola, Inc. | Interference reduction system for a speech recognition device |
FR2697101B1 (en) * | 1992-10-21 | 1994-11-25 | Sextant Avionique | Speech detection method. |
SE470577B (en) * | 1993-01-29 | 1994-09-19 | Ericsson Telefon Ab L M | Method and apparatus for encoding and / or decoding background noise |
JPH06332492A (en) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | Method and device for voice detection |
SE501305C2 (en) * | 1993-05-26 | 1995-01-09 | Ericsson Telefon Ab L M | Method and apparatus for discriminating between stationary and non-stationary signals |
EP0633658A3 (en) * | 1993-07-06 | 1996-01-17 | Hughes Aircraft Co | Voice activated transmission coupled AGC circuit. |
IN184794B (en) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
SE501981C2 (en) * | 1993-11-02 | 1995-07-03 | Ericsson Telefon Ab L M | Method and apparatus for discriminating between stationary and non-stationary signals |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
FR2727236B1 (en) * | 1994-11-22 | 1996-12-27 | Alcatel Mobile Comm France | DETECTION OF VOICE ACTIVITY |
WO1996034382A1 (en) * | 1995-04-28 | 1996-10-31 | Northern Telecom Limited | Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals |
GB2306010A (en) * | 1995-10-04 | 1997-04-23 | Univ Wales Medicine | A method of classifying signals |
FR2739995B1 (en) * | 1995-10-13 | 1997-12-12 | Massaloux Dominique | METHOD AND DEVICE FOR CREATING COMFORT NOISE IN A DIGITAL SPEECH TRANSMISSION SYSTEM |
US5794199A (en) * | 1996-01-29 | 1998-08-11 | Texas Instruments Incorporated | Method and system for improved discontinuous speech transmission |
KR20000022285A (en) | 1996-07-03 | 2000-04-25 | 내쉬 로저 윌리엄 | Voice activity detector |
US6618701B2 (en) * | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
DE10052626A1 (en) * | 2000-10-24 | 2002-05-02 | Alcatel Sa | Adaptive noise level estimator |
CN1617606A (en) * | 2003-11-12 | 2005-05-18 | 皇家飞利浦电子股份有限公司 | Method and device for transmitting non voice data in voice channel |
US7155388B2 (en) * | 2004-06-30 | 2006-12-26 | Motorola, Inc. | Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization |
US7139701B2 (en) * | 2004-06-30 | 2006-11-21 | Motorola, Inc. | Method for detecting and attenuating inhalation noise in a communication system |
FI20045315A (en) * | 2004-08-30 | 2006-03-01 | Nokia Corp | Detection of voice activity in an audio signal |
US8708702B2 (en) * | 2004-09-16 | 2014-04-29 | Lena Foundation | Systems and methods for learning using contextual feedback |
US8775168B2 (en) | 2006-08-10 | 2014-07-08 | Stmicroelectronics Asia Pacific Pte, Ltd. | Yule walker based low-complexity voice activity detector in noise suppression systems |
US8175871B2 (en) | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
US8223988B2 (en) | 2008-01-29 | 2012-07-17 | Qualcomm Incorporated | Enhanced blind source separation algorithm for highly correlated mixtures |
US8275136B2 (en) | 2008-04-25 | 2012-09-25 | Nokia Corporation | Electronic device speech enhancement |
WO2009130388A1 (en) | 2008-04-25 | 2009-10-29 | Nokia Corporation | Calibrating multiple microphones |
US8244528B2 (en) | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
ES2371619B1 (en) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | VOICE SEGMENT DETECTION PROCEDURE. |
EP2491549A4 (en) | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | Detector and method for voice activity detection |
CN108985277B (en) * | 2018-08-24 | 2020-11-10 | 广东石油化工学院 | Method and system for filtering background noise in power signal |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3509281A (en) * | 1966-09-29 | 1970-04-28 | Ibm | Voicing detection system |
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
US4358738A (en) * | 1976-06-07 | 1982-11-09 | Kahn Leonard R | Signal presence determination method for use in a contaminated medium |
JPS5636246A (en) * | 1979-08-31 | 1981-04-09 | Nec Corp | Stereo signal demodulating circuit |
JPS59115625A (en) * | 1982-12-22 | 1984-07-04 | Nec Corp | Voice detector |
EP0127718B1 (en) * | 1983-06-07 | 1987-03-18 | International Business Machines Corporation | Process for activity detection in a voice transmission system |
JPS6196817A (en) * | 1984-10-17 | 1986-05-15 | Sharp Corp | Filter |
-
1989
- 1989-03-10 ES ES89302422T patent/ES2047664T3/en not_active Expired - Lifetime
- 1989-03-10 JP JP50377289A patent/JP3321156B2/en not_active Expired - Lifetime
- 1989-03-10 BR BR898907308A patent/BR8907308A/en not_active IP Right Cessation
- 1989-03-10 PT PT89978A patent/PT89978B/en not_active IP Right Cessation
- 1989-03-10 DE DE68929442T patent/DE68929442T2/en not_active Expired - Lifetime
- 1989-03-10 NZ NZ228290A patent/NZ228290A/en unknown
- 1989-03-10 IE IE77489A patent/IE61863B1/en not_active IP Right Cessation
- 1989-03-10 ES ES93200015T patent/ES2188588T3/en not_active Expired - Lifetime
- 1989-03-10 DE DE68910859T patent/DE68910859T2/en not_active Expired - Lifetime
- 1989-03-10 KR KR1019890702099A patent/KR0161258B1/en not_active IP Right Cessation
- 1989-03-10 AU AU33554/89A patent/AU608432B2/en not_active Expired
- 1989-03-10 CA CA000593386A patent/CA1335003C/en not_active Expired - Lifetime
- 1989-03-10 EP EP89302422A patent/EP0335521B1/en not_active Expired - Lifetime
- 1989-03-10 EP EP93200015A patent/EP0548054B1/en not_active Expired - Lifetime
- 1989-03-10 WO PCT/GB1989/000247 patent/WO1989008910A1/en active IP Right Grant
-
1990
- 1990-09-07 FI FI904410A patent/FI110726B/en not_active IP Right Cessation
- 1990-09-07 DK DK199002156A patent/DK175478B1/en not_active IP Right Cessation
- 1990-09-10 NO NO903936A patent/NO304858B1/en not_active IP Right Cessation
-
1996
- 1996-07-25 HK HK135896A patent/HK135896A/en not_active IP Right Cessation
-
1998
- 1998-06-04 NO NO982568A patent/NO316610B1/en not_active IP Right Cessation
-
1999
- 1999-11-18 JP JP32819899A patent/JP3423906B2/en not_active Expired - Lifetime
-
2001
- 2001-05-04 FI FI20010933A patent/FI115328B/en not_active IP Right Cessation
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3423906B2 (en) | Voice operation characteristic detection device and detection method | |
US5276765A (en) | Voice activity detection | |
JP3224132B2 (en) | Voice activity detector | |
US6023674A (en) | Non-parametric voice activity detection | |
US5970441A (en) | Detection of periodicity information from an audio signal | |
CA1123955A (en) | Speech analysis and synthesis apparatus | |
EP0871157B1 (en) | A method and a device for recognising speech | |
JP3297346B2 (en) | Voice detection device | |
JPH09212195A (en) | Device and method for voice activity detection and mobile station | |
EP0807305A1 (en) | Spectral subtraction noise suppression method | |
JPH08505715A (en) | Discrimination between stationary and nonstationary signals | |
US5579432A (en) | Discriminating between stationary and non-stationary signals | |
SE470577B (en) | Method and apparatus for encoding and / or decoding background noise | |
JP2001005486A (en) | Device and method for voice processing | |
JPH08160994A (en) | Noise suppression device | |
JP2007093635A (en) | Known noise removing device | |
JPH08221097A (en) | Detection method of audio component | |
JP3270866B2 (en) | Noise removal method and noise removal device | |
JPH1185185A (en) | Voice recognition system and storage medium with voice recognition control program | |
US6633847B1 (en) | Voice activated circuit and radio using same | |
JPH07283860A (en) | Noise eliminating device | |
JPH0844390A (en) | Voice recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080425 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090425 Year of fee payment: 6 |
|
EXPY | Cancellation because of completion of term |