JP3081264B2 - Voice detector - Google Patents

Voice detector

Info

Publication number
JP3081264B2
JP3081264B2 JP03087381A JP8738191A JP3081264B2 JP 3081264 B2 JP3081264 B2 JP 3081264B2 JP 03087381 A JP03087381 A JP 03087381A JP 8738191 A JP8738191 A JP 8738191A JP 3081264 B2 JP3081264 B2 JP 3081264B2
Authority
JP
Japan
Prior art keywords
sound
voice
signal
section
detector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03087381A
Other languages
Japanese (ja)
Other versions
JPH04299400A (en
Inventor
誠司 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Kokusai Electric Inc
Original Assignee
Hitachi Kokusai Electric Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Kokusai Electric Inc filed Critical Hitachi Kokusai Electric Inc
Priority to JP03087381A priority Critical patent/JP3081264B2/en
Publication of JPH04299400A publication Critical patent/JPH04299400A/en
Application granted granted Critical
Publication of JP3081264B2 publication Critical patent/JP3081264B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、音声通信における音声
検出器に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to voice communication in voice communication.
It relates to a detector.

【0002】[0002]

【従来の技術】ディジタルコードレス電話装置の如き携
帯型の無線機等では、送信時の消費電力を低減するため
に、音声があるときのみ送信し音声がない時には送信を
中断するVOX(Voice Operate Swi
tch Exchange)制御が使用されており、こ
れを用いると送信時の平均消費電力を約15%削減する
ことができる。このようなVOX機能を実行するために
送信出力回路の前段に音声信号の有無を検出する音声検
出器が必要になる。 このような音声検出器をディジタル
コードレス電話装置のVOX制御に適用することを前提
にして説明する。このディジタルコードレス電話装置で
は、音声符号化方式(CODEC)として、32kb/
s適応差分パルス符号化(ADPCM:Adaptiv
e Differential Pulse Code
Modulation)が用いられる。また、この装
置での処理遅延時間は7msec以下であることが要求
される。図6は従来の音声検出器のブロック図であり、
8kHzサンプリングで 8 =256レベルの量子化レ
ベルを用いて量子化された入力音声信号aを、20ms
ecフレーム単位(160サンプル)に分割して音声の
有無を判定し有音/無音フラグを出力する音声検出器で
ある。音声入力信号aは直流成分抑圧器11の高域通過
フィルタにより直流成分が取り除かれた信号bとなって
次の各回路に与える。
2. Description of the Related Art A portable telephone such as a digital cordless telephone device is used.
For band-type wireless devices, etc., to reduce power consumption during transmission
When there is audio, send only when there is no audio
Suspended VOX (Voice Operate Swi)
tch Exchange) control is used.
Using this reduces the average power consumption during transmission by about 15%
be able to. In order to execute such a VOX function
An audio detector that detects the presence or absence of an audio signal before the transmission output circuit
A dispatcher is required. A description will be given on the assumption that such a voice detector is applied to VOX control of a digital cordless telephone device. In this digital cordless telephone device, 32 kb / s is used as a voice coding system (CODEC).
s Adaptive differential pulse coding (ADPCM: Adaptive)
e Differential Pulse Code
Modulation) is used. Further, the processing delay time in this device is required to be 7 msec or less. FIG. 6 is a block diagram of a conventional voice detector.
Quantization level of 2 8 = 256 levels with 8 kHz sampling
The input audio signal a quantized using the bell is output for 20 ms.
This is a voice detector that divides the data into ec frames (160 samples), determines the presence / absence of voice, and outputs a voice / non-voice flag. The audio input signal a becomes a signal b from which the DC component has been removed by the high-pass filter of the DC component suppressor 11, and is supplied to the following circuits.

【0003】高レベルパワー検出器12では、20ms
ecの音声区間を4msec毎のサブフレーム(32サ
ンプル)に5分割し各サブフレームについて次の(1)
式により短区間パワーPskを算出する。 但し、xi はフィルタ出力,kはサブフレーム番号であ
る。算出された各サブフレームのPskに対して、パワー
しきい値Th2(−30dBm0)により次式のように
パワー検出を行う。 Psk≧Th2 のとき D2k=1 (2) Psk<Th2 のとき D2k=0 (3) さらに(4)式の重み付け総和D2 をとり、これを1フ
レームの検出結果として信号cを出力する。
In the high-level power detector 12, 20 ms
ec is divided into 5 subframes (32 samples) every 4 msec, and the following (1)
The short section power Psk is calculated by the equation. However, x i is the filter output, k is the subframe number. Against P sk for each subframe is calculated, performs power detection as in the following equation by power threshold Th2 (-30dBm0). P D 2k = 1 (2) D 2k = 0 (3) when P sk <Th2 when sk ≧ Th2 more (4) takes a weighted sum D 2 of formula, a signal c so as a detection result of the frame Output.

【0004】低レベルパワー検出器13では、(1)式
により算出した短区間パワーに対してパワーしきい値T
h1(−50dBm0)により次式のようにパワー検出
を行う。 Psk≧Th1 のとき D1k=1 (5) Psk<Th1 のとき D1k=0 (6) 同様に次式の重み付け総和D1 をとり、1フレームの検
出結果として信号dを出力する。 また、このとき同時に下式の値を求めておく。
The low-level power detector 13 has a power threshold T for the short section power calculated by the equation (1).
Based on h1 (−50 dBm0), power detection is performed as in the following equation. Take D 1k = 1 (5) D 1k = 0 (6) likewise weighted sum D 1 of the following formula when P sk <Th1 when P sk ≧ Th1, and outputs a signal d as a detection result of the frame. At this time, the value of the following equation is also obtained.

【0005】零交差数検出器14では、信号bの零クロ
ス数(連続した2サンプルの音声信号の符号ビットが異
符号となる数)をカウントするため、サブフレーム毎に
次の(9)式によるZskの演算を行う。 算出された各Zskに対して零クロスしきい値Th3(2
4個)により、次式のように零クロス数を検出する。 Zsk≧Th3 のとき DZsk=1 (10) Zsk<Th3 のとき DZsk=0 (11) 同様に、次式の重み付け総和Dz をとり1フレームの検
出結果として信号eを出力する。
[0005] The zero-crossing number detector 14 counts the number of zero-crossings of the signal b (the number of code bits of the audio signal of two consecutive samples having different codes). Zsk is calculated by For each calculated Zsk , the zero cross threshold Th3 (2
4), the number of zero crosses is detected as in the following equation. When Z sk ≧ Th3, DZ sk = 1 (10) When Z sk <Th 3, DZ sk = 0 (11) Similarly, a signal e is output as a detection result of one frame by taking the weighted sum D z of the following equation.

【0006】フレーム間パワー増分比較器15では、1
フレーム分のパワーPTnを次の(13)式の演算により求
める。 5 Tn= Σ Psk (13) k=1 さらに前フレームのフレーム間パワーPT(n-1)との比較
を行って次のパワー増分検出D4 を行い、その結果を
号fとして出力する。 PTn≧4PT(n-1) のとき D4 =1 (14) PTn<4PT(n-1) のとき D4 =0 (15)
In the inter-frame power increment comparator 15, 1
The power P Tn for the frame is calculated by the following equation (13). 5 P Tn = Σ P sk ( 13) by performing a comparison with k = 1 further previous frame of the frame between the power P T (n-1) performs the following power increment detection D 4, Shin results
And output as signal f . D 4 = 1 when P Tn ≧ 4P T (n-1) (14) D 4 = 0 when P Tn <4P T (n-1) (15)

【0007】判定器16では、これらの各信号c,d,
e,fを入力して図7の判定理論フローに従って音声検
出結果を示す有音/無音フラグを出力する。図7におい
て、HOTはハングオーバタイマ(語尾切れ防止のため
有音から無音に判定が変わった時それ以降の数フレーム
を有音に設定する機能)を意味し、SPフラグは有音/
無音フラグを意味する。
[0007] In the decision unit 16, these signals c, d,
e and f are input, and a sound / non-sound flag indicating a sound detection result is output in accordance with the decision theory flow of FIG. In FIG. 7, HOT means a hangover timer (a function of setting several frames after that when the determination changes from voiced to silent to prevent end of speech from being voiced), and the SP flag is voiced / voiced.
Means silence flag.

【0008】[0008]

【発明が解決しようとする課題】以上述べた従来の音声
検出器の処理は20msecフレーム単位で実行される
ため最低20msecの遅延時間を生じ、上述した7m
sec以下という条件を満たすことができない。また、
従来の音声検出器は音声符号化器と独立して構成されて
いるため処理量が大きくなるなどの欠点がある。本発明
の目的は、適応予測機能を有する音声符号化器の処理過
程で得られる予測係数を有効に利用して、短い処理時間
で、かつ、遅延時間を7msec以下に抑えて音声の有
無を検出することのできる音声検出器を提供することに
ある。
Since the above-described processing of the conventional speech detector is executed in units of 20 msec frame, a delay time of at least 20 msec is generated, and the above-described 7 m
sec. or less. Also,
The conventional speech detector is configured independently of the speech encoder, and thus has a drawback such as a large processing amount. An object of the present invention is to effectively use a prediction coefficient obtained in a process of a speech encoder having an adaptive prediction function to detect presence / absence of speech in a short processing time and a delay time of 7 msec or less. It is an object of the present invention to provide a voice detector capable of performing the above-mentioned operations.

【0009】[0009]

【課題を解決するための手段】本発明の音声検出器は、
入力音声信号を符号化して出力する音声符号化器に設け
られた適応予測器から得られる前記入力音声信号の相隣
接する2つの標本値に対する2つの予測係数を入力と
し、それぞれフレーム化された区間毎に平均値を求めて
出力する平均値計算手段と、 前記2つの予測係数の発生
分布から予め求めたそれぞれの予測係数用しきい値範囲
に前記2つの平均値が含まれるか否かの比較結果により
前記区間が有音区間であるか無音区間であるかを判定
し、有音または無音を示す有音/無音フラグを出力する
判定手段とを備えたことを特徴とするものである。
SUMMARY OF THE INVENTION A speech detector according to the present invention comprises:
Provided in an audio encoder that encodes and outputs the input audio signal
Adjacent to the input speech signal obtained from the
Input two prediction coefficients for the two sample values
And calculate the average value for each framed section
Mean value calculating means for outputting, and generation of the two prediction coefficients
Threshold range for each prediction coefficient obtained in advance from the distribution
The comparison result of whether or not the two average values are included in
Determines whether the section is a sound section or a silent section
And outputs a sound / silence flag indicating sound or silence.
And a determination means .

【0010】[0010]

【実施例】実施例として、本発明をディジタルコードレ
ス電話装置用の音声符号化器である32kb/s(キロ
ビット/秒)ADPCMに適用する例を以下に示す。図
3は本発明を適用する音声検出機能を有するADPCM
音声符号化器のブロック図であり、図1は本発明の音声
検出器の実施例を示すブロック図である。まず、図3の
ADPCM符号化器について説明する。21は64kb
/sのμ則PCM入力信号を線形13ビットPCMに変
換する均一PCM変換器である。22は均一PCM変換
器の出力から適応予測器23の出力である予測信号jを
差し引いて差分信号を得る減算器22である。この差
分信号は適応量子化器24により量子化され、ADP
CM音声符号化器の出力として32kb/sの音声デー
タが伝送路に送出される。一方、適応逆量子化器26
は、32kb/sの音声データを適応逆量子化すること
により量子化差分信号mを出力する。加算器25は、量
子化差分信号mと予測信号jを加算することにより再生
信号nを出力する。適応予測器23は、予測係数a1
2 を算出しそれを用いて量子化差分信号mおよび再生
信号nから予測信号jを生成する。適応予測器23が予
測信号jを生成するために算出する予測係数a1 ,a2
はある時点の標本値を隣接する過去の2つの標本値で
予測するための係数であり、その値は、自己相関が大き
い音声信号の場合と自己相関が小さい背景雑音の場合と
では異なった発生分布となる。この予測係数a1 ,a2
が本発明の音声検出器27に入力される。
DESCRIPTION OF THE PREFERRED EMBODIMENTS As an embodiment, an example in which the present invention is applied to a 32 kb / s (kilobits / second) ADPCM which is a voice encoder for a digital cordless telephone apparatus will be described below. FIG. 3 shows an ADPCM having a voice detection function to which the present invention is applied.
FIG. 1 is a block diagram of a speech encoder, and FIG. 1 is a block diagram showing an embodiment of a speech detector according to the present invention. First, the ADPCM encoder of FIG. 3 will be described. 21 is 64 kb
/ S μ-law PCM input signal is converted into a linear 13-bit PCM. Reference numeral 22 denotes a subtractor 22 that subtracts the prediction signal j, which is the output of the adaptive predictor 23, from the output of the uniform PCM converter to obtain a difference signal g . This difference signal g is quantized by the adaptive quantizer 24 and the ADP
32 kb / s voice data is transmitted to the transmission line as an output of the CM voice coder. On the other hand, the adaptive inverse quantizer 26
Outputs a quantized difference signal m by adaptively dequantizing audio data of 32 kb / s. The adder 25 outputs a reproduced signal n by adding the quantized difference signal m and the prediction signal j. The adaptive predictor 23 calculates prediction coefficients a 1 ,
It calculates a 2 generates a predicted signal j from the quantized difference signal m and a reproduction signal n with it. Prediction coefficients a 1 and a 2 calculated by the adaptive predictor 23 to generate the prediction signal j
Is a coefficient for predicting in two sample values of the past sample values adjacent to each of the point in, the value is different in the case where the autocorrelation is less background noise autocorrelation is larger audio signal Occurrence distribution. The prediction coefficients a 1 and a 2
Is input to the voice detector 27 of the present invention.

【0011】これを実証するため、予測係数a1 ,a2
の発生分布を測定した例を図4(A),(B)及び図5
(C),(D)に示す。図において、図4(A)は音声
信号(男声)、(B)は音声信号(女声)を示し、図5
(C)は白色雑音、(D)は有色雑音(−6dB/oc
t)を示す。これらの図では、各サンプル点〇,●,◎
が示す予測係数a1 ,a2 の範囲は、そのサンプル点を
原点とし−0.05より大きく+0.05より小さいも
のとしている。また、最大の発生頻度を示すサンプル点
を◎印で示し、最大の発生頻度で正規化した場合0.1
以上の値をとるサンプル点を●印で示している。図4,
図5の結果から、予測係数a1 ,a2 についてそれぞれ
適当なしきい値範囲を与えれば有音区間,背景雑音区間
(無音区間)の判定が可能となることが分かる。図4,
図5の予測係数a1 ,a2 の発生分布図より、音声検出
器27ではそれらが以下に示す〜の範囲の値となる
時は背景雑音区間(無音区間)であると判定し、その他
の場合は有音区間と判定し、それぞれLレベル,Hレベ
ルで示す音声検出フラグを出力する。 (0.70≦a1 ≦1.00) かつ (−0.45<a2 ≦−0.35) (0.75≦a1 ≦1.10) かつ (−0.55<a2 ≦−0.45) (0.85≦a1 ≦1.20) かつ (−0.65<a2 ≦−0.55) (0.95≦a1 ≦1.20) かつ (−0.70<a2 ≦−0.65) (a1 ≦0.75) かつ (a2 ≦0)
To prove this, the prediction coefficients a 1 and a 2
4 (A), (B) and FIG.
(C) and (D) show. 4A shows a voice signal (male voice), FIG. 4B shows a voice signal (female voice), and FIG.
(C) is white noise, (D) is colored noise (−6 dB / oc)
t). In these figures, each sample point 〇, ●, ◎
The ranges of the prediction coefficients a 1 and a 2 indicated by are set to be larger than −0.05 and smaller than +0.05 with the sample point as the origin. In addition, a sample point indicating the maximum occurrence frequency is indicated by a double-circle mark, and when normalized by the maximum occurrence frequency, 0.1
The sample points having the above values are indicated by ●. FIG.
From the results shown in FIG. 5, it can be seen that if an appropriate threshold range is given for each of the prediction coefficients a 1 and a 2, it is possible to determine a sound section and a background noise section (silence section). FIG.
Based on the occurrence distribution diagram of the prediction coefficients a 1 and a 2 in FIG. 5, the speech detector 27 determines that it is a background noise section (silent section) when they have a value in the range of the following. In this case, it is determined that the section is a sound section, and a sound detection flag indicated by the L level and the H level is output. (0.70 ≦ a 1 ≦ 1.00) and (−0.45 <a 2 ≦ −0.35) (0.75 ≦ a 1 ≦ 1.10) and (−0.55 <a 2 ≦ −0.45) (0.85 ≦ a 1 ≦ 1.20) and (−0.65 <A 2 ≦ −0.55) (0.95 ≦ a 1 ≦ 1.20) and (−0.70 <a 2 ≦ −0.65) (a 1 ≦ 0.75) and (a 2 ≦ 0)

【0012】図1は本発明の音声検出器の構成例を示す
ブロック図である。図1の各ブロックの処理内容につい
て説明する。予測係数a1 ,a2 をそれぞれフレーム化
器31,32に入力しそれぞれ5msec間隔にフレー
ム化して平均値計算器33,34に与える。平均値計算
器33,34では、1フレーム分の平均値を計算して有
音/無音判定器35に入力する。有音/無音判定器35
では、予測係数a1 ,a2 の平均値が、上記の〜の
しきい値範囲に入れば音声検出フラグuを無音(L)に
設定し、それ以外の場合は有音(H)に設定する。以上
で得られた結果に対してハングオーバ処理装置36によ
り100msecのハングオーバ処理を施し最終的な音
声検出出力vを得る。図2はコンピュータシミュレーシ
ョンによる音声検出の動作確認の結果を示すタイムチャ
ートである。入力信号には有色雑音(−6dB/oc
t)を重畳したものを用いている。同図(A)には入力
信号、(B)にはハングオーバ処理後の有音/無音判定
結果を示す。これらより、本方式は周囲雑音に対して誤
動作が少なく良好な結果が得られているのが分かる。ま
た、(C),(D)にはそれぞれ予測係数a1 ,a2
時間的変化を示す。これらより、有音区間と背景雑音区
間とでは予測係数a1 ,a2 の値が異なることが確認出
来る。
FIG. 1 is a block diagram showing a configuration example of a voice detector according to the present invention. The processing content of each block in FIG. 1 will be described. The prediction coefficients a 1 and a 2 are input to framers 31 and 32, respectively, and are framed at intervals of 5 msec and provided to average calculators 33 and 34. The average calculators 33 and 34 calculate the average of one frame and input the average to the sound / non-speech determiner 35. Sound / silence determiner 35
Then, the average value of the prediction coefficients a 1 and a 2 is
If it falls within the threshold range, the sound detection flag u is set to silence (L); otherwise, it is set to sound (H). The result obtained above is subjected to a hangover process of 100 msec by the hangover processing device 36 to obtain a final voice detection output v. FIG. 2 is a time chart showing the result of confirming the operation of voice detection by computer simulation. The input signal has colored noise (-6 dB / oc)
t) is used. FIG. 7A shows an input signal, and FIG. 7B shows a sound / non-sound determination result after the hangover process. From these results, it can be seen that the present system has less malfunction with respect to the ambient noise and obtains a good result. (C) and (D) show temporal changes of the prediction coefficients a 1 and a 2 , respectively. From these, it can be confirmed that the values of the prediction coefficients a 1 and a 2 are different between the sound section and the background noise section.

【0013】[0013]

【発明の効果】以上詳細に説明したように、本発明を実
施することにより、音声検出処理の所要処理時間は約5
msecと小さくなり、また、ADPCMの処理過程で
得られる係数を効率良く利用しているため小規模なハー
ドウェア(処理量はADPCMの15%)で実現するこ
とができるため実用上極めて大きい効果がある。
As described in detail above, by implementing the present invention, the processing time required for the voice detection processing is about 5 times.
msec, and the coefficient obtained in the process of ADPCM is efficiently used, so that it can be realized with small-scale hardware (the processing amount is 15% of ADPCM). is there.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の音声検出器のブロック図である。FIG. 1 is a block diagram of a voice detector according to the present invention.

【図2】本発明の動作を示すタイムチャートである。FIG. 2 is a time chart showing the operation of the present invention.

【図3】本発明の音声検出器を付加したADPCM符号
器のブロック図である。
FIG. 3 is a block diagram of an ADPCM encoder to which a speech detector according to the present invention is added.

【図4】予測係数a1 ,a2 の発生分布図である。FIG. 4 is an occurrence distribution diagram of prediction coefficients a 1 and a 2 .

【図5】予測係数a1 ,a2 の発生分布図である。FIG. 5 is an occurrence distribution diagram of prediction coefficients a 1 and a 2 .

【図6】従来の音声検出器のブロック図である。FIG. 6 is a block diagram of a conventional voice detector.

【図7】従来の判定論理フローチャートである。FIG. 7 is a conventional decision logic flowchart.

【符号の説明】[Explanation of symbols]

11 直流成分抑圧器 12 高レベルパワー検出器 13 低レベルパワー検出器 14 零交差数検出器 15 フレーム間パワー増分比較器 16 判定器 21 均一PCM変換器 22 減算器 23 適応予測器 24 適応量子化器 25 加算器 26 適応逆量子化器 27 音声検出器 31,32 フレーム化器 33,34 平均値計算器 35 有音/無音判定器 36 ハングオーバ処理装置 DESCRIPTION OF SYMBOLS 11 DC component suppressor 12 High level power detector 13 Low level power detector 14 Zero crossing number detector 15 Inter-frame power increment comparator 16 Judgment device 21 Uniform PCM converter 22 Subtractor 23 Adaptive predictor 24 Adaptive quantizer Reference Signs List 25 adder 26 adaptive inverse quantizer 27 speech detector 31, 32 frame generator 33, 34 average value calculator 35 sound / non-speech determiner 36 hangover processing device

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI H04B 14/06 G10L 9/14 301A (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 - 19/14 G10L 11/00 - 11/06 H04B 14/00 - 14/08 H03M 7/30 - 7/38 ──────────────────────────────────────────────────続 き Continuation of the front page (51) Int.Cl. 7 identification code FI H04B 14/06 G10L 9/14 301A (58) Investigated field (Int.Cl. 7 , DB name) G10L 19/00-19 / 14 G10L 11/00-11/06 H04B 14/00-14/08 H03M 7/30-7/38

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力音声信号を符号化して出力する音声
符号化器に設けられた適応予測器から得られる前記入力
音声信号の相隣接する2つの標本値に対する2つの予測
係数を入力とし、それぞれフレーム化された区間毎に平
均値を求めて出力する平均値計算手段と、 前記2つの予測係数の発生分布から予め求めたそれぞれ
の予測係数用しきい値範囲に前記2つの平均値が含まれ
るか否かの比較結果により前記区間が有音区間であるか
無音区間であるかを判定し、有音または無音を示す有音
/無音フラグを出力する判定手段とを備えた音声検出
器。
1. A sound output by encoding an input audio signal.
The input obtained from an adaptive predictor provided in the encoder
Two predictions for two adjacent samples of a speech signal
Coefficients are used as inputs, and the average
Average value calculating means for obtaining and outputting an average value; and each of the average value calculating means previously obtained from the occurrence distribution of the two prediction coefficients.
The above two averages are included in the threshold range for the prediction coefficient of
Whether the section is a sound section based on the comparison result
Judgment as to whether it is a silent section and a sound indicating sound or silence
/ Sound detection provided with judgment means for outputting a silence flag
vessel.
JP03087381A 1991-03-28 1991-03-28 Voice detector Expired - Fee Related JP3081264B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03087381A JP3081264B2 (en) 1991-03-28 1991-03-28 Voice detector

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03087381A JP3081264B2 (en) 1991-03-28 1991-03-28 Voice detector

Publications (2)

Publication Number Publication Date
JPH04299400A JPH04299400A (en) 1992-10-22
JP3081264B2 true JP3081264B2 (en) 2000-08-28

Family

ID=13913322

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03087381A Expired - Fee Related JP3081264B2 (en) 1991-03-28 1991-03-28 Voice detector

Country Status (1)

Country Link
JP (1) JP3081264B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172283A (en) 1998-12-01 2000-06-23 Nec Corp System and method for detecting sound
JP4758879B2 (en) * 2006-12-14 2011-08-31 日本電信電話株式会社 Temporary speech segment determination device, method, program and recording medium thereof, speech segment determination device, method

Also Published As

Publication number Publication date
JPH04299400A (en) 1992-10-22

Similar Documents

Publication Publication Date Title
US7539615B2 (en) Audio signal quality enhancement in a digital network
US5509102A (en) Voice encoder using a voice activity detector
EP0049271B1 (en) Predictive signals coding with partitioned quantization
US7050968B1 (en) Speech signal decoding method and apparatus using decoded information smoothed to produce reconstructed speech signal of enhanced quality
JP4551817B2 (en) Noise level estimation method and apparatus
JP3081264B2 (en) Voice detector
JPH11338499A (en) Noise canceller
JPS6347372B2 (en)
Peric et al. Multilevel delta modulation with switched first-order prediction for wideband speech coding
JPH021661A (en) Packet interpolation system
JPH0748696B2 (en) Speech coding system
JP3496618B2 (en) Apparatus and method for speech encoding / decoding including speechless encoding operating at multiple rates
JPH07202713A (en) Encoded transmission method of audio signal
JP3580906B2 (en) Voice decoding device
JPH0832526A (en) Voice detector
JPS6134697B2 (en)
JPS63289600A (en) Voice encoding system
CA1144651A (en) Echo detector particularly for speech interpolation communication systems
WO1998040974A1 (en) Echo reducing phone with state machine controlled switches
JPH0438169B2 (en)
KR101042479B1 (en) Apparatus and its method for providing echo cancellation using delay prediction
JPS5947903B2 (en) Digital call audio introduction method
GB2268669A (en) Voice activity detector
JPH05323996A (en) Sound/silence decision method
JPH06118993A (en) Voiced/voiceless decision circuit

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees