JP2000148172A - Operating characteristic detecting device and detecting method for voice - Google Patents

Operating characteristic detecting device and detecting method for voice

Info

Publication number
JP2000148172A
JP2000148172A JP11328198A JP32819899A JP2000148172A JP 2000148172 A JP2000148172 A JP 2000148172A JP 11328198 A JP11328198 A JP 11328198A JP 32819899 A JP32819899 A JP 32819899A JP 2000148172 A JP2000148172 A JP 2000148172A
Authority
JP
Japan
Prior art keywords
input signal
signal
speech
value
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11328198A
Other languages
Japanese (ja)
Other versions
JP3423906B2 (en
Inventor
Daniel K Freeman
ダニエル・ケネス・フリーマン
Ivan Boyd
イヴン・ボイド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB888805795A external-priority patent/GB8805795D0/en
Priority claimed from GB888813346A external-priority patent/GB8813346D0/en
Priority claimed from GB888820105A external-priority patent/GB8820105D0/en
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JP2000148172A publication Critical patent/JP2000148172A/en
Application granted granted Critical
Publication of JP3423906B2 publication Critical patent/JP3423906B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

PROBLEM TO BE SOLVED: To detect the voice operating characteristic showing whether a conversation is present in an input signal or not. SOLUTION: In order to form an output signal whether a conversation is present in an input signal or not, this device is provided with first voice operating characteristic detectors 3-6, 14 operating so as to form a spectral similarity value between the input signal component and the component of an input signal judged to have no conversation, a memory 15 for storing the data derived from the part having no conversation, and an auxiliary voice operating characteristic detector 20. The auxiliary voice operating characteristic detector 20 controls updating of the memory 15, and operates so as to form the spectral similarity value between the latest component of the input signal and the earlier component of the input signal.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】音声の動作特性検出器(vo
ice activity detector)は、会
話の期間、又はノイズのみを含む期間を検出する目的を
有する信号が供給される装置である。この発明はこれら
の応用に限るものではなく、そのような検出器に関する
この発明の特定な実施例には、移動ラジオ電話システム
があり、このシステムにおいて会話は会話コ−ダ(co
der)によって利用され、電波スペクトルの有効な利
用法を改善し、又、それらのシステムではノイズレベル
(車に搭載されたユニットからの)は一般に大きい。
BACKGROUND OF THE INVENTION 1. Field of the Invention
An ice activity detector is a device to which a signal having the purpose of detecting a period of a conversation or a period including only noise is supplied. The invention is not limited to these applications, and a particular embodiment of the invention for such a detector is a mobile radiotelephone system, in which the conversation is performed by a conversation coder (co).
der) to improve the efficient use of the radio spectrum, and in those systems the noise level (from the on-board units) is generally high.

【0002】[0002]

【発明が解決しようとする課題】音声の動作特性検出の
本質は、会話と会話ではない期間の間で異なる分量を探
すことである。会話コ−ダを含む装置において、一つコ
−ダから、又は他のステ−ジから、多くのパラメ−タを
容易に用いることができ、従ってそのようなパラメ−タ
を利用することによって、必要な処理を経済的に簡素に
することが望まれる。多くの状況において、主要なノイ
ズはある周波数スペクトルの限られた領域内に発生す
る。例えば移動する車(自動車)のノイズ(例えばエン
ジンノイズ)は、低い周波数帯域スペクトルである。ノ
イズスペクトルのそのような位置に関する認識が利用で
きる場合は、比較的少ないノイズを含むスペクトル部分
から得られた測定量について、会話が存在するかどうか
の判断の基準を置くのが望ましい。勿論、会話の動作特
性を検出して分析する前に、信号を濾波することが実際
に可能であるが、音声の動作特性検出器が会話コ−ダの
出力に依存している場合、この前段濾波はコ−ド化され
る音声信号を妨害する。
The essence of speech motion characteristic detection is to look for different quantities between speech and non-speech periods. In an apparatus that includes a conversation coder, many parameters can be readily used from one coder or from another stage, and by utilizing such parameters, It is desirable to simplify the necessary processing economically. In many situations, dominant noise occurs within a limited region of a frequency spectrum. For example, the noise (eg, engine noise) of a moving car (vehicle) is a low frequency band spectrum. If knowledge of such locations in the noise spectrum is available, it is desirable to base the determination of whether speech is present on the measurand obtained from the relatively noisy portions of the spectrum. Of course, it is actually possible to filter the signal before detecting and analyzing the speech behavior characteristics, but if the speech behavior characteristic detector relies on the output of the speech coder, this precedent stage can be used. Filtering interferes with the coded audio signal.

【0003】[0003]

【課題を解決するための手段】第3図にその実施の形態
を示す本発明によれば、入力信号内に会話が存在するか
存在しないかを示す出力信号を作成するため、入力信号
成分と会話がないと判断される入力信号の成分との間の
スペクトル的類似性の値を形成するように動作する第1
音声動作特性検出器と、前記会話がない部分から導かれ
たデータを格納するメモリと、補助的な音声動作特性検
出器とを有し、前記補助的な音声動作特性検出器は前記
メモリの更新を制御し、前記補助的な動作特性検出器は
入力信号の最新の成分と入力信号のより早期の成分との
間のスペクトル的類似性の値を形成するように動作する
音声動作特性検出装置が提供される。
According to the present invention, an embodiment of which is shown in FIG. 3, an input signal component and an output signal indicating whether or not a conversation exists in the input signal are generated. A first operative to form a value of spectral similarity between components of the input signal determined to be free of speech;
A voice operation characteristic detector, a memory for storing data derived from the part where there is no conversation, and an auxiliary voice operation characteristic detector, wherein the auxiliary voice operation characteristic detector updates the memory. Wherein the auxiliary operating characteristic detector operates to form a value of spectral similarity between a current component of the input signal and an earlier component of the input signal. Provided.

【0004】また、入力信号の会話動作特性を検出する
方法であって、入力信号を受信し、入力信号のノイズ信
号部分を概算し、ノイズ信号部分を表現するデータを格
納し、入力信号の一部とノイズ信号部分との間のスペク
トル的類似性の値Mを形成し、スレショルド値(thr
eshold value)より高いか否かに従って会
話が存在するか存在しないかを示す第1の音声動作特性
指示を作成するため、上記値Mから導かれるパラメータ
を第1のスレショルド値Tと比較し、ここで概算するス
テップは補助的な音声動作特性指示の作成を含み、そし
て、補助的な音声動作特性指示の作成は、入力信号の最
新の成分と入力信号のより早期の成分との間の類似性の
スペクトル歪み値を形成し、その値を超えるか超えない
かに対応して会話が存在するか存在しないかの指示を作
成するために前記スペクトル歪み値を第2のスレショル
ド値と比較し、補助的な音声動作特性指示が会話が存在
しないと指示する期間においてのみ入力信号により前記
格納されたデータを更新するステップを含む方法が提供
される。
A method for detecting a conversational operation characteristic of an input signal, comprising the steps of: receiving an input signal; estimating a noise signal portion of the input signal; storing data representing the noise signal portion; Form a value M of spectral similarity between the portion and the noise signal portion, and define a threshold value (thr
The parameter derived from the value M is compared with a first threshold value T to create a first voice behavior characteristic indication that indicates whether a conversation is present or absent according to whether it is higher than the threshold value. The step of approximating comprises generating an auxiliary voice behavior indicator, and generating the auxiliary voice activity indicator comprises determining the similarity between the latest component of the input signal and the earlier component of the input signal. And comparing said spectral distortion value with a second threshold value to create an indication of the presence or absence of speech in response to exceeding or not exceeding that value, Updating the stored data with an input signal only during a period in which an appropriate voice behavior characteristic indication indicates that no conversation is present.

【0005】上記値Mは、板倉・斎藤による歪み値であ
ることが望ましい。
It is desirable that the value M is a distortion value by Itakura and Saito.

【0006】この発明の他の局面は特許請求の範囲に含
まれる。
[0006] Other aspects of the invention are within the scope of the claims.

【0007】[0007]

【発明の実施の形態】この発明の幾つかの実施例が添付
図面を参照してこれより説明される。
BRIEF DESCRIPTION OF THE DRAWINGS Several embodiments of the present invention will now be described with reference to the accompanying drawings.

【0008】この発明による音声の動作特性検出器の第
1実施例を特徴付ける一般原則が次に示される。
The general principle characterizing the first embodiment of the speech behavior characteristic detector according to the present invention is as follows.

【0009】n個の信号サンプル (s,s,s,s,s … sn−1)は、
パルス応答(1,h,h,h)の概念上の4次有
限パルス応答(FIR)デジタルフィルタを通過すると
き、濾波された信号となり(以前のフレ−ムからのサン
プルを無視する)、
The n signal samples (s 0 , s 1 , s 2 , s 3 , s 4 ... S n-1 ) are:
When passing through a conceptual fourth-order finite pulse response (FIR) digital filter of pulse response (1, h 0 , h 2 , h 3 ), it becomes a filtered signal (ignoring samples from previous frames). ),

【0010】[0010]

【数1】 (Equation 1)

【0011】0次の自己相関係数は、各項の2乗の合計
値であり、それは正規化され、即ち項の全数によって分
割され(一定フレ−ム長に関し、その分割を省略するの
が容易である)、従って濾波された信号の合計値は、
The zero-order autocorrelation coefficient is the sum of the squares of each term, which is normalized, that is, divided by the total number of terms (for a fixed frame length, the division is omitted. And therefore the sum of the filtered signals is

【0012】[0012]

【数2】 (Equation 2)

【0013】従ってこれは、論理的に濾波された信号s
´の電力量、即ち概念的フィルタの通過帯域内の信号s
の部分の電力量である。
This therefore corresponds to the logically filtered signal s
', The signal s in the pass band of the conceptual filter
Is the electric energy of the portion.

【0014】最初の4項を無視して拡張すると、When the expansion is performed ignoring the first four terms,

【0015】[0015]

【数3】 (Equation 3)

【0016】従って、R´は、値R´が応答する周
波数帯域を決定する括弧でくくった定数によって重み付
けされた自己相関係数Rの結合によって得られる。実
際、括弧でくくった項は論理フィルタのパルス応答の自
己相関係数であり、従って上記表現は次のように簡単に
現すことができる。
[0016] Thus, R'0 is obtained by coupling of the autocorrelation coefficients R i, weighted by constants in parentheses to determine the frequency band to a value R'0 responds. In fact, the term in parentheses is the autocorrelation coefficient of the pulse response of the logic filter, so the above expression can be expressed simply as:

【0017】[0017]

【数4】 (Equation 4)

【0018】ここで、Nはフィルタの次数、Hはフィ
ルタのパルス応答の(正規化されていない)自己相関係
数。
[0018] Here, N is the order of the filter, H i is (not normalized) of the pulse response of the filter autocorrelation coefficients.

【0019】即ち、信号濾波の信号自己相関係数に関す
る効果は、要求されるフィルタが有するパルス応答を用
い、(濾波されていない)信号の自己相関係数の合計を
生成することによってシミュレ−ト(simulat
e)することができる。
That is, the effect of signal filtering on the signal autocorrelation coefficient is simulated by using the pulse response of the required filter to produce the sum of the (unfiltered) signal autocorrelation coefficients. (Simult
e) Yes.

【0020】従って、乗算動作の小さい数を含む比較的
簡単なアルゴリズムは、この数の100回の乗算動作を
一般に必要とするデジタルフィルタのシミュレ−ション
を行うことができる。
Thus, a relatively simple algorithm involving a small number of multiplication operations can simulate a digital filter that generally requires this number of 100 multiplication operations.

【0021】一方、この濾波動作は、信号スペクトルが
参照スペクトルに対して整合している(matche
d)状態で(論理フィルタの逆相応答)、スペクトル比
較の形式として見ることができる。この応用における論
理フィルタはノイズスペクトルの逆を概算するように選
択されるので、この動作は、スペクトル間の非類似性を
を示す値のような、会話及びノイズのスペクトルと、生
成される0次自己相関係数(即ち逆濾波された信号のエ
ネルギ)とのスペクトル的比較として見ることができ
る。板倉・斎藤による歪み値が、予測フィルタ(pre
distor filter)と入力スペクトルの整合
を評価するLPC内に用いられ、一つの形式は次のよう
に示される。
On the other hand, in this filtering operation, the signal spectrum is matched with the reference spectrum (matche).
d) In state (negative phase response of logic filter), it can be seen as a form of spectral comparison. Since the logical filter in this application is chosen to approximate the inverse of the noise spectrum, this operation is based on the speech and noise spectra, such as values indicating dissimilarities between the spectra, and the generated 0th order. It can be seen as a spectral comparison with the autocorrelation coefficient (ie, the energy of the defiltered signal). The distortion value by Itakura and Saito is calculated by the prediction filter (pre
Used in LPC to evaluate the match between the distor filter and the input spectrum, one format is shown as follows:

【0022】[0022]

【数5】 (Equation 5)

【0023】ここで、AなどはLPCパラメ−タ・セ
ットの自己相関係数である。これは前記得られた関係に
非常に類似していることが判り、LPC係数が入力信号
の逆スペクト応答を有するFIRのタップ(taps)
であり、それによってLPC係数セットは逆LPCフィ
ルタのパルス応答であることを考えれば、実際、板倉・
斎藤による歪み値は単に式1の一形式であり、そこでフ
ィルタ応答Hは入力信号の全ポ−ルモデル(all−p
ole model)であることは明らかである。
[0023] In this case, such as A 0 is LPC parameters - it is a self-correlation coefficient of the data set. This turns out to be very similar to the relationship obtained above, where the LPC coefficients have the inverse spectral response of the input signal.
In fact, given that the LPC coefficient set is the pulse response of the inverse LPC filter,
Saito's distortion value is simply a form of equation 1, where the filter response H is the all-port model (all-p
ole model).

【0024】事実、試験スペクトルのLPC係数と参照
スペクトルの自己相関係数を用いて、転換し、スペクト
ル的類似性の異なる値を得ることができる。
In fact, the LPC coefficients of the test spectrum and the autocorrelation coefficients of the reference spectrum can be used to convert to obtain different values of spectral similarity.

【0025】I−Sによる歪み値は、”ベクトル量子化
に基づく会話の符号化”(”Speech Codin
g based upon Vector Quant
isation”by A Buzo,A H Gra
y,R M Gray and J D Marke
l,IEE Trans on ASSP,Vol A
SSP−28,No5,October 1980)に
更に詳細に説明されている。
The distortion value due to IS is calculated as “coding speech based on vector quantization” (“Speech Coden”).
g based up Vector Quant
isation "by A Buzo, AH Gra
y, RM Gray and JD Marke
1, IEEE Trans on ASSP, Vol A
SSP-28, No. 5, October 1980).

【0026】信号のフレ−ムは単に有限値長を有し、項
の数(N、ここでNはフィルタ次数)は無視されるの
で、前述の結果は単に概算である。しかし、それは会話
があるかどうかを非常に良く示し、従って会話報告の値
Mとして用いられる。ノイズスペクトルが既知であり、
それが静的ノイズの場合、固定のh、hなどの係数
を逆ノイズフィルタに適用することは十分可能である。
The above results are only approximate, since the signal frame has only a finite value length and the number of terms (N, where N is the filter order) is ignored. However, it shows very well whether there is a conversation and is therefore used as the value M of the conversation report. The noise spectrum is known,
If it is static noise, it is quite possible to apply fixed h 0 , h 1 etc. coefficients to the inverse noise filter.

【0027】しかし、異なるノイズ状況に適合すること
ができる装置は更に有益である。
However, a device that can adapt to different noise situations would be more beneficial.

【0028】第1図にはこの発明の第1実施例が示さ
れ、マイクロホン(図示されず)からの信号sは入力1
に受信され、アナログ・デジタルコンバ−タ2によっ
て、適切なサンプリングレ−ト(sampling r
ate)でデジタルサンプルに変換される。LPC分析
ユニット3(一般的なLPCコ−ダ [coder])
は、n個(例えば160個)のサンプルの連続するフレ
−ムについて、入力の会話を示すために送信されるN個
(例えば8又は12個)のLPCフィルタ係数Lの一
組を得る。会話信号sは又、相関ユニット(corre
lator unit)4(通常これはLPCコ−ダ3
の一部分である。なぜならば、ここで分離相関器[se
parate crrelator]を供給することが
評価できるが、会話の自己相関ベクトルRは通常LP
C分析の1ステップとして生成されるからである)に入
力される。相関器4は自己相関ベクトルRを発生し、
ベクトルRは0次相関係数R、及び少なくとも更に
2つの自己相関係数R1、R2、R3を含む。これらは
マルチプライアユニット(multiplier un
it)5に供給される。
FIG. 1 shows a first embodiment of the present invention, in which a signal s from a microphone (not shown) has an input 1
At the appropriate sampling rate by the analog / digital converter 2.
ate) to convert to digital samples. LPC analysis unit 3 (general LPC coder)
Is frame sequential samples of n (eg 160) - for arm, to obtain a set of LPC filter coefficients L i of N that are sent to indicate conversation input (eg 8 or 12). The speech signal s is also a correlation unit (corre
later unit 4) (usually this is LPC coder 3)
Is a part of Because, here, the separation correlator [se
It can be evaluated to provide a [automatic correlation correlation], but the autocorrelation vector R i of the conversation is usually LP
C is generated as one step of the C analysis). The correlator 4 generates an autocorrelation vector R i ,
The vector R i includes a zero-order correlation coefficient R 0 and at least two further auto-correlation coefficients R 1, R 2, R 3. These are multiplier units.
it) 5.

【0029】第2入力11はスピ−カから離れて配置さ
れる第2マイクロホンに接続され、背景ノイズのみが受
信される。このマイクロホンからの入力は、ADコンバ
−タ12によってデジタル入力サンプル列に変換され、
LPCアナライザ13によってLPC分析される。アナ
ライザ13から発生した”ノイズ”LPC係数は相関ユ
ニット14を通過し、それによって発生した自己相関ベ
クトルは、マルチプライア5の会話マイクロホンからの
入力信号の自己相関係数Rによって項ごとに乗算さ
れ、それによって生成された重み係数は等式1に従って
加算器6によって加算され、それによってノイズのみの
マイクロホンからのノイズスペクトルの逆相形状を有す
るフィルタを提供し(実際は信号・パルス・ノイズ・マ
イクロホンにおけるノイズスペクトルと同一形状であ
る)、従って殆どのノイズを濾波する。その結果的測定
値Mはスレショルダ(thresholder)7によ
ってスレショルド値(threshold)と比較さ
れ、会話が存在するかどうかを示すロジック出力8を発
生する。ここでMが大きい場合、会話が存在すると考え
られる。
The second input 11 is connected to a second microphone located away from the speaker, so that only background noise is received. The input from the microphone is converted into a digital input sample sequence by the AD converter 12, and
The LPC is analyzed by the LPC analyzer 13. "Noise" LPC coefficients produced from analyzer 13 passes through the correlation unit 14, the self-correlation vector generated by it is multiplied term by term with the autocorrelation coefficients R i of the input signal from the conversation microphone of the multiplier 5 , The weighting factors generated thereby are added by adder 6 according to equation 1, thereby providing a filter having the inverse phase shape of the noise spectrum from the noise-only microphone (actually at the signal-pulse-noise microphone). It has the same shape as the noise spectrum), thus filtering out most of the noise. The resulting measured value M is compared to a threshold value by a thresholder 7 to generate a logic output 8 indicating whether a conversation is present. Here, when M is large, it is considered that a conversation exists.

【0030】この実施例では2つのマイクロホンと2つ
のLPCアナライザを使用するが、費用と複雑性が増大
するが、必要であればこれらを増やすことができる。
Although this embodiment uses two microphones and two LPC analyzers, the cost and complexity increase, but they can be increased if necessary.

【0031】一方、他の実施例では、ノイズマイクロホ
ン11からの自己相関、及びメインマイクロホン1から
のLPC係数を使用して形成される対応する値を使用す
る。その場合、LPCアナライザではなく、更に他の自
己相関器が必要となる。
On the other hand, another embodiment uses the autocorrelation from the noise microphone 11 and the corresponding value formed using the LPC coefficients from the main microphone 1. In that case, not the LPC analyzer but another autocorrelator is required.

【0032】従ってこれらの実施例は、異なる周波数の
ノイズを有する異なる状況、又は与えられた一つの状況
において、変化するノイズスペクトルの存在する所で動
作することが可能である。
Thus, these embodiments can operate in different situations with noise of different frequencies, or in a given situation, where there is a changing noise spectrum.

【0033】第2図の好適実施例においては、LPC係
数の一組(又はその一組の自己相関ベクトル)を格納す
るバッファ15が提供され、これらの値は、”ノンスピ
−チ(non−speech)(即ちノイズのみ)”と
して定義される期間に、マイクロホン入力1から得られ
る。これらの値は等式1による値を得るために使用さ
れ、勿論この測定は、板倉・斎藤による歪み測定法に対
応するが、LPC係数の現在のフレ−ムではなく、逆相
ノイズスペクトルの概算値に一致する、LPC係数の格
納された単一フレ−ムが使用されるところが異なる。
In the preferred embodiment of FIG. 2, a buffer 15 is provided for storing a set of LPC coefficients (or a set of autocorrelation vectors), the values of which are "non-speech". ) (Ie, noise only) "from microphone input 1 during a period defined as"". These values are used to obtain the values according to Equation 1, and of course this measurement corresponds to the distortion measurement method by Itakura and Saito, but not the current frame of LPC coefficients, but an estimate of the inverse noise spectrum. The difference is that a single frame with stored LPC coefficients is used, which matches the value.

【0034】アナライザ3によって出力されるLPC係
数ベクトルLも又、相関器14に導かれ、それによっ
てLPC係数ベクトルの自己相関ベクトルを発生する。
バッファメモリ15はスレショルダ7のスピ−チ/ノン
スピ−チ出力によって制御され、 ”スピ−チ”フレ−
ムの間、バッファは”ノイズ”自己相関係数を保持する
が、”ノイズ”フレ−ムの間は、LPC係数の新たな一
組が、例えば複合スイッチ16によってバッファを更新
するのに使用することができ、このスイッチ16を介し
て、各自己相関係数を伝送する相関器14の出力がバッ
ファ15に接続される。相関器14がバッファ15の後
に配置されてもよい。更に、係数更新のためのスピ−チ
/ノンスピ−チの決定は出力8からである必要はなく、
(好適に)他の方法で得ることができる。
The LPC coefficient vector L i output by analyzer 3 is also directed to a correlator 14, thereby generating an autocorrelation vector of the LPC coefficient vector.
The buffer memory 15 is controlled by the speech / non-speech output of the thresholder 7 and provides a "speech" frame.
During the "noise" frame, the buffer retains the "noise" autocorrelation coefficient, but during the "noise" frame, a new set of LPC coefficients is used to update the buffer, e.g. The output of the correlator 14 for transmitting each autocorrelation coefficient is connected to the buffer 15 via the switch 16. The correlator 14 may be arranged after the buffer 15. Further, the speech / non-speech determination for updating the coefficients need not be from output 8;
It can (preferably) be obtained in other ways.

【0035】会話の無い期間がしばしば発生するので、
バッファに格納されたLPC係数は時折更新され、それ
によって装置はノイズスペクトル内の変化に追随するこ
とができる。ノイズスペクトルが時間的に比較的安定し
ている場合(多くの場合そうであるが)、そのようなバ
ッファの更新は、極く希に、又は検出器の初期の動作の
みに必要とされると考えられが、移動する(車の)ラジ
オのような状況のときには、しばしば更新するのが望ま
しい。
[0035] Since a period without a conversation often occurs,
The LPC coefficients stored in the buffer are updated from time to time, allowing the device to follow changes in the noise spectrum. If the noise spectrum is relatively stable in time (as is often the case), then such a buffer update may be needed very rarely or only for the initial operation of the detector. Though conceivable, it is often desirable to update in situations such as a moving (car) radio.

【0036】この実施例の変更例として、簡単な固定ハ
イパス・フィルタに一致する係数項を有する等式1をシ
ステムは適用し、次に”ノイズ期間”LPC係数を使用
して切り替わることによってシステムは適合を開始す
る。幾つかの理由によって会話検出が失敗した場合、シ
ステムは簡単なハイパスフィルタを再び用いることがで
きる。
As a variation on this embodiment, the system applies Equation 1 with the coefficient terms matching a simple fixed high-pass filter, and then switches using the "noise period" LPC coefficients, thereby reducing the system. Start adaptation. If speech detection fails for several reasons, the system can again use a simple high-pass filter.

【0037】上記値をRで割ることによって正規化す
ることができ、スレショルドと比較される表現は、
The above value can be normalized by dividing by R 0 , and the expression compared to the threshold is

【0038】[0038]

【数6】 (Equation 6)

【0039】この値はフレ−ムの総合信号電力とは独立
しており、従って総合信号レベル変化に関しては補償さ
れるが、”ノイズ”と”会話”レベルの間の著しい対比
を与えず、従ってノイズの大きな環境では好適に使用さ
れることはない。
This value is independent of the frame's total signal power and is therefore compensated for in terms of total signal level changes, but does not provide a significant contrast between "noise" and "talk" levels and therefore It is not suitable for use in noisy environments.

【0040】(後述されるように)ノイズスペクトルが
徐々に変化するとき、(前述の様々な実施例におけるノ
イズマイクロホン又はノイズのみの期間から得られる)
ノイズ信号の逆フィルタ係数を得るためにLPC分析を
用いる代わりに、一般的な適合性フィルタ(adapt
ive filter)を用いて逆相ノイズスペクトル
の原型を生成することができ、そのようなフィルタに共
通する比較的低速な適合率を得ることができる。第1図
に一致する実施例において、LPC分析ユニット13は
容易に適合性フィルタ(例えばトランスバ−サル (t
ransversal)FIR又はラティスフィルタ
(lattice filter))と交換することが
でき、そのフィルタは、逆フィルタの原型を生成するこ
とによって、ノイズ入力をホワイトノイズに転換するた
めにシステムに接続され、その係数は前述のように自己
相関器14に供給される。
When the noise spectrum changes gradually (as described below) (obtained from noise microphones or noise-only periods in the various embodiments described above).
Instead of using LPC analysis to obtain the inverse filter coefficients of the noise signal, a general adaptive filter (adapt
An ive filter can be used to generate a prototype of the inverse noise spectrum, and a relatively slow precision factor common to such filters can be obtained. In an embodiment consistent with FIG. 1, the LPC analysis unit 13 is easily adapted to a compatible filter (eg, transversal (t
(transversal) FIR or lattice filter
(Lattice filter), whose filter is connected to the system to convert the noise input to white noise by generating an inverse filter prototype, whose coefficients are autocorrelated as described above. Is supplied to the vessel 14.

【0041】第2図に示される第2実施例において、L
PC分析手段3は、そのような適合性フィルタと置換さ
れ、バッファ手段15は省略される。しかし、スイッチ
16は、適合性フィルタが会話期間の間、その係数を適
合するのを防止するために動作する。
In the second embodiment shown in FIG.
The PC analysis means 3 is replaced with such a compatible filter, and the buffer means 15 is omitted. However, switch 16 operates to prevent the adaptive filter from adapting its coefficients during the talk period.

【0042】この発明の他の実施例に使用される第2の
音声の動作特性検出器がこれより説明される。
A second audio performance detector used in another embodiment of the present invention will now be described.

【0043】以下の説明において、LPC係数ベクトル
は、FIRフィルタの単にパルス応答であり、FIRフ
ィルタは入力信号の逆位相スペクトル形状であることは
明らかである。隣接するフレ−ムの間に板倉・斎藤によ
る歪み値が形成されるとき、以前のフレ−ムのLPCフ
ィルタによって濾波されているので、実際にその値は信
号の電力に等しい。従って隣接するフレ−ムのスペクト
ルに違いが殆どない場合、フレ−ムの対応する僅かなス
ペクトル電力は濾波を免れ、その値は小さいであろう。
同時に、フレ−ム間の大きなスペクトルの相違は大きな
板倉・斎藤歪み値を発生し、それによってその値は隣接
するフレ−ムのスペクトルの類似性を反映する。スピ−
チコ−ダに関して、デ−タレ−トを最小とすることによ
って、フレ−ム長をできるだけ長くするのが望ましい。
即ち、フレ−ム長が十分長ければ、会話信号はフレ−ム
からフレ−ムへの重要なスペクトル変化を示す(もしそ
うでなければコ−ド化は冗長である)。一方、ノイズは
フレ−ムからフレ−ムへ徐々に変化するスペクトル形状
を有し、会話が信号に存在しない期間において、以前の
フレ−ムから逆相LPCフィルタを適用し、殆どのノイ
ズ電力を”フィルタアウト(filter out)”
するので、板倉・斎藤による歪み値はそれに対応して少
ない。
In the following description, it is clear that the LPC coefficient vector is simply the pulse response of the FIR filter, and that the FIR filter is the inverse phase spectral shape of the input signal. When a distortion value between Itakura and Saito is formed between adjacent frames, the value is actually equal to the power of the signal because it is filtered by the LPC filter of the previous frame. Thus, if there is little difference in the spectra of adjacent frames, the corresponding slight spectral power of the frames will escape filtering and its value will be small.
At the same time, large spectral differences between the frames generate large Itakura-Saito distortion values, whose values reflect the similarity of the spectra of adjacent frames. Speed
For the chicoder, it is desirable to maximize the frame length by minimizing the data rate.
That is, if the frame length is long enough, the speech signal will show significant spectral changes from frame to frame (otherwise the coding is redundant). On the other hand, noise has a spectral shape that gradually changes from frame to frame, and during periods when no speech is present in the signal, applying an anti-phase LPC filter from the previous frame to reduce most of the noise power. "Filter out"
Therefore, the distortion value by Itakura and Saito is correspondingly small.

【0044】断続的な会話を含み、ノイズの多い信号の
隣接するフレ−ム間の板倉・斎藤歪み値は、一般にノイ
ズの期間より会話の期間の方が大きく、変化の程度(標
準偏倚によって示されるように)も大きく、断続的な変
化は少ない。
The Itakura-Saito distortion value between adjacent frames of a noisy signal, including intermittent conversations, is generally greater during speech periods than during noise periods, and the degree of change (indicated by a standard deviation) ), And intermittent changes are small.

【0045】ここで、Mの標準偏差(standard
deviation)も信頼できる値であり、各標準
偏差をとる効果は本質的に値を円滑にすることである。
Here, the standard deviation of M (standard)
The deviation is also a reliable value, and the effect of taking each standard deviation is essentially to smooth the value.

【0046】音声の動作特性検出器のこの第2の形態に
おいて、会話が存在するかどうかを判断するのに用いる
測定されたパラメ−タは、板倉・斎藤歪み値の標準偏差
であることが望ましいが、変化を測定する他の方法、及
び(例えばFFT分析に基づく)スペクトル歪みを測定
する他の方法を適用することができる。
In this second version of the speech behavior characteristic detector, the measured parameter used to determine whether speech is present is preferably the standard deviation of the Itakura-Saito distortion value. However, other methods of measuring change and measuring spectral distortion (eg, based on FFT analysis) can be applied.

【0047】音声の動作特性検出に適合性スレショルド
(adaptive threshold)を用いるこ
とにも利点がある。そのようなスレショルドは、会話期
間の間は調整されるべきではなく、調整されると会話信
号はスレショルドアウト(threshold ou
t)される。従ってスピ−チ/ノンスピ−チ制御信号を
用いてスレショルド・アダプタを制御する必要があり、
この制御信号はスレショルド・アダプタの出力から独立
しているのが望ましい。スレショルドTは、ノイズのみ
が存在するとき、値Mのレベル以上のレベルに保たれる
ように調整される。その値はノイズが存在するとき一般
にランダムに変化するので、多くのブロックについての
平均レベルを決定し、スレショルドをこの平均レベルに
比例するレベルに設定することによって、スレショルド
が変化する。しかし、これはノイズの多い状況では一般
に十分ではなく、幾つかのブロックについてのパラメ−
タの変化程度に関する査定が考慮される。
There is also an advantage to using adaptive thresholds for detecting speech behavior characteristics. Such a threshold should not be adjusted during the duration of the conversation, at which point the speech signal will be thresholded out.
t). Therefore, it is necessary to control the threshold adapter using a speech / non-speech control signal,
This control signal is preferably independent of the output of the threshold adapter. The threshold T is adjusted so that it is kept at a level higher than the level of the value M when only noise is present. Since the value generally varies randomly in the presence of noise, the threshold is varied by determining the average level for many blocks and setting the threshold to a level proportional to this average level. However, this is generally not sufficient in noisy situations and the parameters for some blocks
An assessment of the degree of change in the data is taken into account.

【0048】従ってスレショルド値Tは次式に従って計
算される。
Therefore, the threshold value T is calculated according to the following equation.

【0049】[0049]

【数7】 (Equation 7)

【0050】ここでMは、連続する多くのフレ−ムにつ
いての測定値の平均値であり、dはそれらフレ−ムにつ
いての測定値の標準偏差であり、Kは定数である(代表
的には2である)。
Where M is the average of the measured values for many consecutive frames, d is the standard deviation of the measured values for those frames, and K is a constant (typically Is 2.)

【0051】実際的に、会話の存在しないことが示され
た直後に再び適合動作を開始すべきではなく、(適合及
び非適合状態の間に繰り返される急速なスイッチングを
避けるために)降下が安定したことを確認するまで待つ
べきである。
In practice, the adaptation operation should not be started again immediately after the indication that no conversation is present, and the descent is stable (to avoid repeated rapid switching during adaptation and non-adaptation conditions). You should wait until you confirm that you have done so.

【0052】第3図は前述の事柄を具備する本発明の好
適実施例であり、入力1はアナログ・デジタルコンバ−
タ(ADC)2によってサンプルされ、デジタル化され
た信号を受信し、逆相フィルタアナライザ3の入力に信
号を供給し、逆相フィルタアナライザ3は実際に音声の
動作特性検出器が動作するスピ−チコ−ダの一部であ
り、又、入力信号スペクトルの逆相に一致するフィルタ
の係数L(代表的に8)を発生する。デジタル信号は
又、(アナライザ3の一部である)自己相関器4に供給
され、自己相関器4は入力信号(又は少なくともそれら
がLPC係数と同じくらい多くの低次項)の自己相関ベ
クトルRを発生する。装置のこれらの部分の動作は第
1図及び第2図に示される。自己相関係数Rは好適
に、連続する幾つかのスピ−チフレ−ム(代表的に5〜
20ms)について平均値がとられ、それらの信頼度が
改善される。この平均化は、バッファ4a内の自己相関
器4によって出力される自己相関係数の各組を格納し、
平均器(averager)4bを用いて、現在の自己
相関係数R、及びバッファ4aに格納されバッファ4
aから供給される以前のフレ−ムからの係数の重み付け
された加算値を生成することによって達成される。それ
によって得られた平均化された自己相関係数Ra は重
み付け及び加算手段5、6に供給され、この手段は又、
バッファ15を介して自己相関器14から格納されたノ
イズ期間の逆相フィルタ係数Lの自己相関ベクトルA
を受信し、Ra及びAから次式により定義される
値Mを形成する。
FIG. 3 illustrates a preferred embodiment of the present invention having the foregoing.
In the preferred embodiment, input 1 is an analog / digital converter
Sampled and digitized by the ADC 2
Received by the input signal of the negative-phase filter analyzer 3.
And the inverted-phase filter analyzer 3 actually
Part of the speech coder on which the operating characteristic detector operates
Filter that matches the opposite phase of the input signal spectrum
Coefficient Li(Typically 8). Digital signal
Also supplied to autocorrelator 4 (which is part of analyzer 3)
And the autocorrelator 4 receives the input signal (or at least
Is as many low order terms as the LPC coefficient).
Kutor RiOccurs. The operation of these parts of the device is
This is shown in FIGS. 1 and 2. Autocorrelation coefficient RiIs suitable
Next, several consecutive speech frames (typically 5 to 5)
20ms) and their reliability is taken
Be improved. This averaging is performed by the autocorrelation in the buffer 4a.
Storing each set of autocorrelation coefficients output by the detector 4;
Using the averager 4b, the current self
Correlation coefficient RiAnd buffer 4 stored in buffer 4a.
weighting of coefficients from previous frames supplied from a
This is achieved by generating a summed value. It
Averaged autocorrelation coefficient Ra obtained by iIs heavy
Supplied to the locating and adding means 5, 6, which also comprises
The buffer stored from the autocorrelator 14 via the buffer 15
Negative phase filter coefficient L during the noise periodiAutocorrelation vector A
iAnd receive RaiAnd AiIs defined by
Form the value M.

【0053】[0053]

【数8】 (Equation 8)

【0054】この値はスレショルダ7によって、スレシ
ョド値と比較され、会話が存在するかしないかを示す論
理結果が出力8に発生する。
This value is compared by a thresholder 7 to a threshold value and a logical result is generated at output 8 indicating whether a conversation exists or not.

【0055】逆相フィルタ係数Lがノイズスペクトル
の逆相の適切な概算に一致するために、これらの係数を
ノイズの期間に更新するのが望ましい(勿論、会話の期
間には更新しない)。しかし、その更新に基づくスピ−
チ/ノンスピ−チの決定はその更新の結果に影響され
ず、又は誤って確認された信号の単一フレ−ムによっ
て、音声の動作特性検出器は結果的に”ロックはずれ
(out of lock)”となり、次のフレ−ムを
誤って認識する。従って制御信号発生回路20、即ち分
離音声の補助的な動作特性検出器が提供され、この検出
器は会話が存在するかどうかを示す独立制御信号を形成
し、逆相フィルタアナライザ3(又はバッファ8)を制
御し、それによって値Mを形成するのに用いられる逆相
フィルタ自己相関係数Aは”ノイズ”期間にのみ更新
される。制御信号発生回路20はLPCアナライザ21
を含み(これは再び会話コ−ダの一部であり、特にアナ
ライザ3によって実行される)、このアナライザは、入
力信号及び自己相関器21a(自己相関器3aによって
実行することができる)に一致する一組のLPC係数M
を発生し、自己相関器21aはMの自己相関係数B
を得る。アナライザ21がアナライザ3によって実行
された場合は、M=L、及びB=Aである。こ
れら自己相関係数は、重み付け及び加算手段22、23
(5、6に同等)に供給され、この手段も自己相関器4
からの入力信号の自己相関ベクトルRを受信する。従
って、入力スピ−チフレ−ムと以前のスピ−チフレ−ム
の間のスペクトル的類似性が計算される。これは前記し
たように、現在のフレ−ムのRと以前のフレ−ムのB
の間の板倉・斎藤歪み値、又現在のフレ−ムのRiと
に関する板倉・斎藤歪み値を計算することによって
得られ、又は対応する値をバッファ24に格納された以
前のフレ−ムに関して減算することによって得られ、ス
ペクトル的に異なる信号を発生する(それぞれの場合、
その値はRoで分割することによってエネルギ・正規化
されるのが望ましい)。勿論ここでバッファ24は更新
される。このスペクトル的に異なる信号は、スレショル
ダ26によってスレショルドと比較されたとき、前述の
ように、会話が存在するかどうかを示す。音声とはなら
ない会話からのノイズを区別するためにこの方法は優れ
ているが(従来のシステムにおいて可能なタスク(ta
sk))、音声となった会話からノイズを区別する能力
は一般に少ないことが発見された。従って、回路20に
は、ピッチアナライザ(pitch analyse
r)27(実際にスピ−チコ−ダの一部として動作する
ことができ、特にマルチパルスLPCコ−ダ内に生成さ
れる算定器(predictor)の長い遅延値測定す
ることができる)を具備する音声の会話検出回路が提供
されるのが望ましい。ピッチアナライザ27は、音声と
なった会話が検出されたとき”真理(true)”であ
るロジック信号を発生し、この信号は、スレショルダ2
6(音声とはならない会話が存在するとき、一般に”真
理”である)から得られるスレショルド値と結合され、
NORゲ−ト28の入力に供給され、会話が存在すると
き”誤り(false)”であり、ノイズが存在すると
き”真理”である信号を発生する。この信号はバッファ
8(又は逆相フィルタアナライザ3)に供給され、それ
によって逆相フィルタ係数Liは、ノイズ期間のみに更
新される。
[0055] In order to reverse phase filter coefficients L i matches the good estimate of the reverse-phase noise spectrum, it is desirable to update these coefficients during the noise (of course, does not update the duration of the conversation). However, speed based on that update
The chi / non-speech decision is unaffected by the result of the update, or a single frame of misidentified signal may result in the speech performance detector eventually "out of lock". And the next frame is erroneously recognized. Thus, a control signal generating circuit 20 is provided, i.e., an auxiliary operating characteristic detector of the separated voice, which forms an independent control signal indicating whether speech is present or not, and provides the antiphase filter analyzer 3 (or buffer 8). ), Whereby the anti-phase filter autocorrelation coefficients A i used to form the value M are updated only during the “noise” period. The control signal generation circuit 20 is an LPC analyzer 21
(Which is again part of the speech coder and is performed in particular by the analyzer 3), which matches the input signal and the autocorrelator 21a (which can be performed by the autocorrelator 3a). Set of LPC coefficients M
The i occurs, the autocorrelation coefficients of the autocorrelator 21a is M i B
Get i . When the analyzer 21 is executed by the analyzer 3, M i = L i and B i = A i . These autocorrelation coefficients are calculated by weighting and adding means 22 and 23.
(Equivalent to 5 and 6), and this means is also applied to the autocorrelator 4
Receive the autocorrelation vector R i of the input signal from. Therefore, the spectral similarity between the input speech frame and the previous speech frame is calculated. This is because, as mentioned above, current frame - beam of R i and the previous frame - beam of B
Itakura-Saito distortion value between the i, also the current frame - obtained by calculating the Itakura-Saito distortion values for beam of Ri and B i, or the corresponding stored values in the buffer 24 the previous frame - To generate a spectrally different signal (in each case,
The value is preferably energy-normalized by dividing by Ro). Of course, the buffer 24 is updated here. This spectrally different signal, when compared to the threshold by the thresholder 26, indicates whether speech is present, as described above. This method is excellent for discriminating noise from non-speech conversations (a possible task in conventional systems (ta
sk)), it has been discovered that the ability to distinguish noise from spoken conversation is generally low. Therefore, the circuit 20 includes a pitch analyzer.
r) 27 (actually capable of operating as part of a speech coder, in particular capable of measuring long delay values of a predictor generated in a multi-pulse LPC coder) It is desirable to provide a speech detection circuit for the audible speech. The pitch analyzer 27 generates a logic signal that is "true" when a spoken conversation is detected, and this signal is
6 (which is generally "truth" when there is a non-speech conversation),
Provided at the input of NOR gate 28, it generates a signal that is "false" when speech is present and "truth" when noise is present. This signal is supplied to the buffer 8 (or the anti-phase filter analyzer 3), whereby the anti-phase filter coefficient Li is updated only during the noise period.

【0056】スレショルドアダプタ29も又接続され、
制御信号発生回路20のノンスピ−チ信号制御出力を受
信する。スレショルドアダプタ29の出力はスレショル
ダ7に供給される。スレショルドアダプタ29の出力は
スレショルダ7に供給される。スレショルドアダプタ
は、スレショルドがノイズ電力レベルに近付くまで(こ
れは、例えば回路22、23の加算及び重み付けするこ
とによって容易に得られる)、瞬時スレショルドレベル
に比例するステップに、スレショルドをインクリメント
(increment)又はデクリメント(decre
ment)するように動作する。入力信号が非常に小さ
いとき、スレショルドは自動的にロ−レベルに設定され
るのが望ましい。なぜならば、小さい信号レベルのと
き、ADC2によって生成される信号量は信頼できる結
果を生成できないからである。
A threshold adapter 29 is also connected,
The non-speech signal control output of the control signal generation circuit 20 is received. The output of the threshold adapter 29 is supplied to the threshold 7. The output of the threshold adapter 29 is supplied to the threshold 7. The threshold adapter increments or increases the threshold in steps proportional to the instantaneous threshold level until the threshold approaches the noise power level (which is easily obtained, for example, by adding and weighting circuits 22, 23). Decrement
ment). Preferably, when the input signal is very small, the threshold is automatically set to low level. This is because, at small signal levels, the amount of signal generated by ADC 2 cannot produce reliable results.

【0057】更に”ハングオ−バ(hangove
r)”発生手段30が提供され、これはスレショルダ7
の後の会話を示す期間を測定し、所定時定数を越える期
間の間、会話の存在が示されたとき、その出力は短い”
ハングオ−バ”の間、ハイに維持される。このようにし
て、ロ−レベルな会話バ−ストの中間の欠損(clip
ping)が避けられ、適切な時定数の選択によって、
会話のときに誤って示された短いスパイクノイズにより
ハングオ−バ発生器30の起動を防ぐことができる。勿
論、前述した全ての機能は、適切にプログラムされた単
一のデジタル処理手段、例えば、LPCコ−デックの一
部として構成され(これは所望される構成である)、又
は関連するメモリ装置を有する適切にプログラムされた
マイクロコンピュ−タやマイクロコントロ−ラチップと
して構成されるデジタル信号処理チップ(DSP)など
のような手段によって実行することができる。
Further, "Hangove"
r) "means for generating 30 is provided, which comprises
Is measured, and the output is short when the presence of a conversation is indicated for a period exceeding a predetermined time constant.
During a "hangover". In this way, the intermediate loss of the low-level conversation burst (clip).
ping) can be avoided and by choosing an appropriate time constant,
The short spike noise erroneously shown during the conversation can prevent the hang-over generator 30 from being activated. Of course, all of the functions described above could be implemented as a single digital processing means, suitably programmed, for example, as part of an LPC codec (which is the desired configuration) or associated memory device. It can be implemented by means such as a suitably programmed microcomputer or a digital signal processing chip (DSP) configured as a microcontroller chip.

【0058】前述したように、音声検出装置はLPCコ
−デックの一部として容易に構成されることができる。
一方、信号の自己相関係数、又はそれに関連する値(部
分相関又は”パルコ−ル(parcor)”係数)が離
れたステ−ションに送信される場合、音声検出はコ−デ
ックから離れて行われる。
As described above, the voice detection device can be easily configured as a part of the LPC codec.
On the other hand, if the autocorrelation coefficient of the signal, or a value associated therewith (partial correlation or "parcor" coefficient), is transmitted to a remote station, speech detection will be performed away from the codec. Will be

【図面の簡単な説明】[Brief description of the drawings]

【図1】第1図はこの発明の第1実施例を示すブロック
図である。
FIG. 1 is a block diagram showing a first embodiment of the present invention.

【図2】第2図はこの発明の第2実施例を示すブロック
図である。
FIG. 2 is a block diagram showing a second embodiment of the present invention.

【図3】第3図はこの発明の好適な第3実施例を示す。FIG. 3 shows a third preferred embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 … 入力 2 … ADコンバータ 3 … アナライザ 4 … AFC 5 … マルチプライア 6 … 加算器 7 … スレショルダ 8 … 出力 11 … ノイズマイクロホン 12 … ADコンバータ 13 … アナライザ 14 … AFC 15 … バッファメモリ 16 … スイッチ Reference Signs List 1 ... input 2 ... AD converter 3 ... analyzer 4 ... AFC 5 ... multiplier 6 ... adder 7 ... thresholder 8 ... output 11 ... noise microphone 12 ... AD converter 13 ... analyzer 14 ... AFC 15 ... buffer memory 16 ... switch

───────────────────────────────────────────────────── フロントページの続き (72)発明者 イヴン・ボイド イギリス国 アイ・ピー9,2エツクス・ イー,サフォーク,アイプスウイツチ,カ ペル・エス・テイ・マリー,ホームフイー ルド 5 ──────────────────────────────────────────────────の Continuing on the front page (72) Inventor Even Boy United Kingdom IP9,2 ETXS, Suffolk, Ipswich, Kapel S.T.Marie, Homefield 5

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 (i)入力信号に会話が存在するか存在
しないかを示す出力信号を作成するため、入力信号成分
と会話がないと判断される入力信号の成分との間のスペ
クトル的類似性の値を形成するように動作する第1音声
動作特性検出器(3−6、14)と、 (ii)前記会話がない部分から導かれたデータを格納す
るメモリ(15)と、 (iii)補助的な音声動作特性検出器(20)とを有
し、 前記補助的な音声動作特性検出器(20)は前記メモリ
(15)の更新を制御し、前記補助的な動作特性検出器
(20)は入力信号の最新の成分と入力信号のより早期
の成分との間のスペクトル的類似性の値を形成するよう
に動作することを特徴とする音声動作特性検出装置。
(I) A spectral similarity between an input signal component and a component of an input signal determined to be free of speech to produce an output signal indicating whether speech is present or absent in the input signal. A first speech behavior characteristic detector (3-6, 14) operative to form a gender value; (ii) a memory (15) for storing data derived from the non-conversation-free part; ) An auxiliary voice performance detector (20), the auxiliary voice performance detector (20) controls updating of the memory (15), and the auxiliary voice performance detector (20). 20) An apparatus for detecting a speech behavior characteristic, which operates to form a value of spectral similarity between a latest component of the input signal and an earlier component of the input signal.
【請求項2】 前記補助的な音声動作特性検出器は単独
で前記メモリ(15)更新を制御することを特徴とする
請求項1記載の装置。
2. Apparatus according to claim 1, wherein the auxiliary voice behavior detector alone controls the updating of the memory.
【請求項3】 (i)入力信号を受信する手段(1)
と、 (ii)前記入力信号の概算されたノイズ部分を表現する
ノイズ表現信号を格納するメモリ(15)と、 (iii)前記入力信号と前記ノイズ表現信号から、前記
入力信号の一部と前記概算されたノイズ部分とのスペク
トル的類似性の値を周期的に形成する手段(3−6、1
4)と、 (iv)会話が存在するか存在しないかを示す出力信号を
作成するため前記値をスレショルド値と比較する手段
(7)と、 (v)補助的な音声動作特性検出器(20)と、そして (vi)前記入力信号により前記メモリを更新するメモリ
更新手段とを有し、 前記補助的な音声動作特性検出器は、会話が存在するか
存在しないかを示す制御信号を作成するため、入力信号
の最新の部分と入力信号の以前の部分との間のスペクト
ル的類似性の値に対応して動作し、前記メモリ更新手段
は前記制御信号が会話が存在しないことを示す場合のみ
前記入力信号によりメモリを更新するために動作するこ
とを特徴とする音声動作特性検出装置。
(I) means for receiving an input signal (1)
(Ii) a memory (15) for storing a noise expression signal representing the estimated noise portion of the input signal; and (iii) a part of the input signal and the noise from the input signal and the noise expression signal. Means (3-6, 1) for periodically forming a value of spectral similarity with the estimated noise portion;
(4); (iv) means (7) for comparing said value with a threshold value to produce an output signal indicative of the presence or absence of a conversation; and (v) an auxiliary voice behavior detector (20). And (vi) memory updating means for updating the memory with the input signal, wherein the auxiliary voice operation characteristic detector creates a control signal indicating whether or not a conversation exists. Therefore, it operates according to the value of the spectral similarity between the latest part of the input signal and the previous part of the input signal, and said memory updating means only when said control signal indicates that there is no conversation A voice operation characteristic detecting device operable to update a memory according to the input signal.
【請求項4】 さらに前記制御信号により会話が存在し
ないと示された期間の間に前記スレショルド値を調整す
る手段を含むことを特徴とする請求項3に記載の装置。
4. The apparatus according to claim 3, further comprising means for adjusting said threshold value during a period in which said control signal indicates that no conversation is present.
【請求項5】 前記補助的な音声動作特性検出器はさら
に音声となった会話の存在を表示する信号を生成するピ
ッチアナライザ手段を含む音声となった会話を検出する
手段(27)を含み、これに前記補助的な音声動作特性
検出器(20)によって作成された前記制御信号がさら
に従うことを特徴とする請求項3または請求項4に記載
の装置。
5. The auxiliary speech behavior characteristic detector further includes means for detecting spoken conversation including pitch analyzer means for generating a signal indicative of the presence of the spoken conversation; 5. The device according to claim 3, wherein the control signal generated by the auxiliary voice behavior detector (20) further obeys this.
【請求項6】 請求項1乃至請求項5のいずれか1項に
記載の装置を含む会話信号をエンコードする装置。
6. An apparatus for encoding a speech signal, comprising an apparatus according to any one of claims 1 to 5.
【請求項7】 請求項1乃至請求項6のいずれか1項に
記載の装置を含む自動車電話装置。
7. A mobile telephone device comprising the device according to claim 1.
【請求項8】 入力信号の会話動作特性を検出する方法
であって、 前記入力信号を受信し、 前記入力信号のノイズ信号部分を概算し、 前記ノイズ信号部分を表現するデータを格納し、 入力信号の一部と前記ノイズ信号部分との間のスペクト
ル的類似性の値Mを形成し、 スレショルド値より高いか否かに従って会話が存在する
か存在しないかを示す第1の音声動作特性指示を作成す
るため、値Mから導かれるパラメータを第1のスレショ
ルド値Tと比較し、 ここで前記概算するステップは補助的な音声動作特性指
示の作成を含み、そして、 前記補助的な音声動作特性指示の作成は、 入力信号の最新の成分と入力信号のより早期の成分との
間の類似性のスペクトル歪み値を形成し、 その値を超えるか超えないかに対応して会話が存在する
か存在しないかの指示を作成するために前記スペクトル
歪み値を第2のスレショルド値と比較し、 前記補助的な音声動作特性指示が会話が存在しないと指
示する期間においてのみ入力信号により前記格納された
データを更新するステップを含むことを特徴とする方
法。
8. A method for detecting conversational behavior characteristics of an input signal, comprising: receiving the input signal; estimating a noise signal portion of the input signal; storing data representing the noise signal portion; Forming a value M of spectral similarity between a portion of the signal and the portion of the noise signal, and providing a first speech behavior characteristic indication indicating whether speech is present or absent according to whether it is above a threshold value. Comparing the parameter derived from the value M with a first threshold value T to produce, wherein the estimating step comprises creating an auxiliary voice behavior characteristic indication; and The creation of the 形成 forms a spectral distortion value of the similarity between the latest component of the input signal and the earlier component of the input signal, and the presence or absence of conversation in response to exceeding or not exceeding that value. Comparing the spectral distortion value with a second threshold value to create an absent indication, wherein the auxiliary voice behavior characteristic indication is stored by the input signal only during a period indicating that no speech is present. Updating the data.
JP32819899A 1988-03-11 1999-11-18 Voice operation characteristic detection device and detection method Expired - Lifetime JP3423906B2 (en)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
GB888805795A GB8805795D0 (en) 1988-03-11 1988-03-11 Voice activity detector
GB8805795 1988-03-11
GB888813346A GB8813346D0 (en) 1988-06-06 1988-06-06 Voice activity detection
GB8813346.7 1988-06-06
GB888820105A GB8820105D0 (en) 1988-08-24 1988-08-24 Voice activity detection
GB8820105.8 1988-08-24

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP50377289A Division JP3321156B2 (en) 1988-03-11 1989-03-10 Voice operation characteristics detection

Publications (2)

Publication Number Publication Date
JP2000148172A true JP2000148172A (en) 2000-05-26
JP3423906B2 JP3423906B2 (en) 2003-07-07

Family

ID=27263821

Family Applications (2)

Application Number Title Priority Date Filing Date
JP50377289A Expired - Lifetime JP3321156B2 (en) 1988-03-11 1989-03-10 Voice operation characteristics detection
JP32819899A Expired - Lifetime JP3423906B2 (en) 1988-03-11 1999-11-18 Voice operation characteristic detection device and detection method

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP50377289A Expired - Lifetime JP3321156B2 (en) 1988-03-11 1989-03-10 Voice operation characteristics detection

Country Status (16)

Country Link
EP (2) EP0335521B1 (en)
JP (2) JP3321156B2 (en)
KR (1) KR0161258B1 (en)
AU (1) AU608432B2 (en)
BR (1) BR8907308A (en)
CA (1) CA1335003C (en)
DE (2) DE68929442T2 (en)
DK (1) DK175478B1 (en)
ES (2) ES2047664T3 (en)
FI (2) FI110726B (en)
HK (1) HK135896A (en)
IE (1) IE61863B1 (en)
NO (2) NO304858B1 (en)
NZ (1) NZ228290A (en)
PT (1) PT89978B (en)
WO (1) WO1989008910A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008513840A (en) * 2004-09-16 2008-05-01 インフォチュア インコーポレイテッド Learning system and method using situation feedback

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0435458B1 (en) * 1989-11-28 1995-02-01 Nec Corporation Speech/voiceband data discriminator
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
US5241692A (en) * 1991-02-19 1993-08-31 Motorola, Inc. Interference reduction system for a speech recognition device
FR2697101B1 (en) * 1992-10-21 1994-11-25 Sextant Avionique Speech detection method.
SE470577B (en) * 1993-01-29 1994-09-19 Ericsson Telefon Ab L M Method and apparatus for encoding and / or decoding background noise
JPH06332492A (en) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd Method and device for voice detection
SE501305C2 (en) * 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Method and apparatus for discriminating between stationary and non-stationary signals
EP0633658A3 (en) * 1993-07-06 1996-01-17 Hughes Aircraft Co Voice activated transmission coupled AGC circuit.
IN184794B (en) * 1993-09-14 2000-09-30 British Telecomm
SE501981C2 (en) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Method and apparatus for discriminating between stationary and non-stationary signals
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
FR2727236B1 (en) * 1994-11-22 1996-12-27 Alcatel Mobile Comm France DETECTION OF VOICE ACTIVITY
WO1996034382A1 (en) * 1995-04-28 1996-10-31 Northern Telecom Limited Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
GB2306010A (en) * 1995-10-04 1997-04-23 Univ Wales Medicine A method of classifying signals
FR2739995B1 (en) * 1995-10-13 1997-12-12 Massaloux Dominique METHOD AND DEVICE FOR CREATING COMFORT NOISE IN A DIGITAL SPEECH TRANSMISSION SYSTEM
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
JP4307557B2 (en) 1996-07-03 2009-08-05 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー Voice activity detector
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
DE10052626A1 (en) * 2000-10-24 2002-05-02 Alcatel Sa Adaptive noise level estimator
CN1617606A (en) * 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 Method and device for transmitting non voice data in voice channel
US7155388B2 (en) * 2004-06-30 2006-12-26 Motorola, Inc. Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
FI20045315A (en) * 2004-08-30 2006-03-01 Nokia Corp Detection of voice activity in an audio signal
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8275136B2 (en) 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
WO2009130388A1 (en) 2008-04-25 2009-10-29 Nokia Corporation Calibrating multiple microphones
ES2371619B1 (en) * 2009-10-08 2012-08-08 Telefónica, S.A. VOICE SEGMENT DETECTION PROCEDURE.
CN102576528A (en) * 2009-10-19 2012-07-11 瑞典爱立信有限公司 Detector and method for voice activity detection
CN108985277B (en) * 2018-08-24 2020-11-10 广东石油化工学院 Method and system for filtering background noise in power signal

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3509281A (en) * 1966-09-29 1970-04-28 Ibm Voicing detection system
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4358738A (en) * 1976-06-07 1982-11-09 Kahn Leonard R Signal presence determination method for use in a contaminated medium
JPS5636246A (en) * 1979-08-31 1981-04-09 Nec Corp Stereo signal demodulating circuit
JPS59115625A (en) * 1982-12-22 1984-07-04 Nec Corp Voice detector
DE3370423D1 (en) * 1983-06-07 1987-04-23 Ibm Process for activity detection in a voice transmission system
JPS6196817A (en) * 1984-10-17 1986-05-15 Sharp Corp Filter

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008513840A (en) * 2004-09-16 2008-05-01 インフォチュア インコーポレイテッド Learning system and method using situation feedback

Also Published As

Publication number Publication date
PT89978B (en) 1995-03-01
DE68910859D1 (en) 1994-01-05
FI115328B (en) 2005-04-15
DE68929442T2 (en) 2003-10-02
DE68929442D1 (en) 2003-01-23
JP3321156B2 (en) 2002-09-03
NO316610B1 (en) 2004-03-08
EP0548054A3 (en) 1994-01-12
HK135896A (en) 1996-08-02
AU608432B2 (en) 1991-03-28
NO903936L (en) 1990-11-09
AU3355489A (en) 1989-10-05
DK215690A (en) 1990-09-07
EP0335521A1 (en) 1989-10-04
PT89978A (en) 1989-11-10
KR0161258B1 (en) 1999-03-20
EP0548054B1 (en) 2002-12-11
BR8907308A (en) 1991-03-19
DE68910859T2 (en) 1994-12-08
JPH03504283A (en) 1991-09-19
NO982568D0 (en) 1998-06-04
JP3423906B2 (en) 2003-07-07
NZ228290A (en) 1992-01-29
KR900700993A (en) 1990-08-17
FI904410A0 (en) 1990-09-07
FI20010933A (en) 2001-05-04
EP0548054A2 (en) 1993-06-23
FI110726B (en) 2003-03-14
DK175478B1 (en) 2004-11-08
DK215690D0 (en) 1990-09-07
NO903936D0 (en) 1990-09-10
NO304858B1 (en) 1999-02-22
EP0335521B1 (en) 1993-11-24
ES2047664T3 (en) 1994-03-01
IE61863B1 (en) 1994-11-30
ES2188588T3 (en) 2003-07-01
IE890774L (en) 1989-09-11
NO982568L (en) 1990-11-09
CA1335003C (en) 1995-03-28
WO1989008910A1 (en) 1989-09-21

Similar Documents

Publication Publication Date Title
JP3423906B2 (en) Voice operation characteristic detection device and detection method
US5276765A (en) Voice activity detection
JP3224132B2 (en) Voice activity detector
US5970441A (en) Detection of periodicity information from an audio signal
CA1123955A (en) Speech analysis and synthesis apparatus
US6023674A (en) Non-parametric voice activity detection
JPH09212195A (en) Device and method for voice activity detection and mobile station
JPH08505715A (en) Discrimination between stationary and nonstationary signals
US5579432A (en) Discriminating between stationary and non-stationary signals
US5632004A (en) Method and apparatus for encoding/decoding of background sounds
US20120265526A1 (en) Apparatus and method for voice activity detection
JPH08221097A (en) Detection method of audio component
Vahatalo et al. Voice activity detection for GSM adaptive multi-rate codec
JP2007093635A (en) Known noise removing device
US6633847B1 (en) Voice activated circuit and radio using same
JPH10503299A (en) Transmission system and method for speech coding with improved pitch detection
JPH09198098A (en) Method and device for detecting pitch of speech signal
NZ286953A (en) Speech encoder/decoder: discriminating between speech and background sound

Legal Events

Date Code Title Description
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080425

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

EXPY Cancellation because of completion of term