JP2539027B2 - Voice detection method - Google Patents

Voice detection method

Info

Publication number
JP2539027B2
JP2539027B2 JP1039315A JP3931589A JP2539027B2 JP 2539027 B2 JP2539027 B2 JP 2539027B2 JP 1039315 A JP1039315 A JP 1039315A JP 3931589 A JP3931589 A JP 3931589A JP 2539027 B2 JP2539027 B2 JP 2539027B2
Authority
JP
Japan
Prior art keywords
zero
value
power
crossing
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1039315A
Other languages
Japanese (ja)
Other versions
JPH02219100A (en
Inventor
裕一 白木
修 野口
孝夫 鈴木
保夫 庄司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP1039315A priority Critical patent/JP2539027B2/en
Publication of JPH02219100A publication Critical patent/JPH02219100A/en
Application granted granted Critical
Publication of JP2539027B2 publication Critical patent/JP2539027B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PURPOSE:To detect a consonant effectively by regarding a section other than three sections, derived from the nature of a voice, as a noise section and calculating a zero-cross different frequency threshold value successively from the zero-cross frequency distribution in the noise section. CONSTITUTION:An input sample signal is inputted to a power calculation part 11 and a zero-cross frequency calculation part 21 to calculate power P(i) and a zero-cross frequency Z(i) for each specific block length. The power P(i) calculated by the power calculation part 11 and a power threshold value Pth(i) outputted by a power threshold calculation part 13 are inputted to a detection part 12, which outputs a power detection signal Jp according to the large-small relation between the both. The zero-cross frequency Z(i) which is calculated by the zero-cross frequency calculation part 21 and the zero-cross frequency threshold value Zth(i) which is outputted from a zero-cross frequency threshold calculation part 23 are inputted to a zero-cross frequency detection part 22, which outputs a zero-cross frequency detection accumulation signal Jz according to the large-small relation between the both. Consequently, the constant can be detected without reference to the nature of a noise and without increasing malfunction due to a noise.

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は、ディジタル通信分野のディジタル音声挿
入システムあるいは音声パケット通信システムに用いら
れる音声検出方式に関するものである。
TECHNICAL FIELD The present invention relates to a voice detection system used in a digital voice insertion system or voice packet communication system in the field of digital communication.

[従来の技術] 従来、音声区間検出方式に適用される音声検出器とし
ては第2図に示すものが知られている。第2図によれ
ば、入力端子1に入力された入力サンプル信号Aのう
ち、母音等の比較的振幅の大きい信号A1は、振幅検出部
2に入力され、摩擦性子音による信号A2は、DC抑圧回路
4でオフセットを取り除かれた後、一定値aを加え、そ
の符号ビットを取り出したものが零交差検出部3に入力
される。
[Prior Art] Conventionally, as a voice detector applied to a voice section detection system, one shown in FIG. 2 is known. According to FIG. 2, of the input sample signal A input to the input terminal 1, a signal A1 having a relatively large amplitude such as a vowel is input to the amplitude detection unit 2, and a signal A2 due to the frictional consonant is DC. After the offset is removed by the suppression circuit 4, a constant value a is added and the sign bit thereof is extracted and input to the zero-crossing detector 3.

振幅検出部2では、比較回路2aで信号A1の絶対値と所
定値θとの大小の比較をなし、その結果によりカウンタ
2bを増減させ、このカウンタ2bのカウンタ値が閾値THv
より大きくなると、閾値回路2Cから出力αvを高レベル
「1」でOR回路5に出力する。
In the amplitude detector 2, the comparison circuit 2a compares the absolute value of the signal A1 with the predetermined value θ, and the result is counted by the counter.
2b is increased or decreased, and the counter value of this counter 2b becomes the threshold THv.
When it becomes larger, the output αv from the threshold circuit 2C is output to the OR circuit 5 at a high level “1”.

一方、零交差検出部3では、OR回路3aにて入力した符
号ビットと1サンプル前の符号ビットとの一致を判別
し、この結果が一致、不一致かによりカウンタ3bを増減
させる。このことは、入力が(−a)を横切る回数を数
えることと等価であり、カウンタ3bのカウンタ値が閾値
THzより大きくなると、閾値回路3Cから出力αzを高い
レベル「1」でOR回路5に出力する。
On the other hand, the zero-crossing detector 3 determines whether the sign bit input by the OR circuit 3a matches the sign bit one sample before, and the counter 3b is incremented or decremented depending on whether the result is a match or a mismatch. This is equivalent to counting the number of times the input crosses (-a), and the counter value of the counter 3b is the threshold value.
When it becomes larger than THz, the threshold value circuit 3C outputs the output αz to the OR circuit 5 at a high level “1”.

このOR回路5から閾値回路2C及び3Cからの出力αv及
びαzとの論理和αがハングオーバ制御回路6に入力さ
れ、ハングオーバ制御回路6にてOR回路5の出力αが高
レベル「1」から低レベル「0」になったとしても、一
定時間高レベル「1」を出力し続けるハングオーバ時間
が付加されて、出力端子7から出力α outとして出力す
る。そして、このα outが高レベル「1」である間は有
音であり、低レベル「0」であれば無音と判断するもの
である(文献1.昭和51年度電子通信学会総合全国大会、
1753「零交差頻度を利用した音声検出の一方式」荒関
卓、落合和雄)。
The OR circuit 5 inputs the logical sum α of the outputs αv and αz from the threshold circuits 2C and 3C to the hangover control circuit 6, and the hangover control circuit 6 outputs the output α of the OR circuit 5 from the high level “1” to the low level. Even if the level becomes "0", the hangover time for continuing to output the high level "1" for a certain period of time is added, and the output terminal 7 outputs the output as α out. And, while this α out is at a high level “1”, it is judged to be sound, and if it is at a low level “0”, it is judged to be silent (Reference 1. 1976 IEICE General Conference,
1753 "A method of voice detection using zero-crossing frequency" Araseki
Table, Kazuo Ochiai).

[発明が解決しようとする課題] しかしながら、以上述べた方法では、零交差閾値が固
定値THzなので次のような問題があった。
[Problems to be Solved by the Invention] However, the method described above has the following problem because the zero-crossing threshold is a fixed value THz.

雑音の周波数上の性質は、加入者側の背景雑音や回線
雑音等の影響により各加入者回線によって異なる。回線
雑音の影響が強い場合は、雑音は白色雑音的性質を持
ち、逆に加入者側の背景雑音が支配的であれば雑音は背
景雑音と似た性質を持つ。この背景雑音はHoth雑音特性
を持つ(文献2.「聴覚と音声」第3版p431〜433電子通
信学会)。
The frequency characteristics of noise vary depending on each subscriber line due to the influence of background noise and line noise on the subscriber side. When the influence of the line noise is strong, the noise has a white noise-like property, and conversely, when the background noise on the subscriber side is dominant, the noise has a property similar to the background noise. This background noise has a Hoth noise characteristic (Reference 2, "Audition and Speech", 3rd edition, p431-433 IEICE).

第3図に母音、子音、白色雑音、Hoth雑音の持つ零交
差分布の一例を示す。図示するようにHoth雑音性が強く
なると、その低域強調的性質により零交差回数の最大値
が白色雑音に比べて小さくなり、これ以上の零交差回数
を持つ子音が多くなり、そのため子音の検出が行いやす
くなる。
FIG. 3 shows an example of the zero-crossing distribution of vowels, consonants, white noise, and Hoth noise. As shown in the figure, when the Hoth noise characteristic becomes stronger, the maximum value of the number of zero crossings becomes smaller than that of white noise due to its low-frequency emphasis property, and more consonants with more number of zero crossings are detected. Is easier to do.

一方、白色性の強い雑音の場合、Hoth雑音に比べ大き
な値の零交差回数となり、最大値も大きくなるので、例
えばこの最大値と閾値とすればHoth雑音時に比べて子音
の検出には不利となる。
On the other hand, in the case of strong white noise, the number of zero-crossings is larger than Hoth noise and the maximum value is also large.For example, if this maximum value and a threshold value are used, it is disadvantageous in detecting consonants as compared with Hoth noise. Become.

このように、雑音の性質が白色的なものからHoth的な
ものまであり、またその性質のよって適切な閾値が変わ
りうる。このため、従来のように固定的な閾値の場合、
白色雑音を想定して高い閾値を設定すると、Hoth性の雑
音が重畳している加入者の音声の子音を検出するには不
利な設定となる。逆に、Hoth雑音を想定して低い閾値を
設定すると、白色性の雑音が乗った加入者回線では白色
雑音も子音と判定してしまう確率が高くなり、誤動作の
増大をもたらすという問題があった。
As described above, the noise has various properties from white to Hoth, and the appropriate threshold value may change depending on the property. Therefore, in the case of a fixed threshold as in the past,
If a high threshold value is set assuming white noise, it will be a disadvantageous setting for detecting the consonant of the subscriber's voice on which Hoth noise is superimposed. On the other hand, if a low threshold is set assuming Hoth noise, there is a problem that the white line noise increases the probability that white noise will also be judged as a consonant in the subscriber line, resulting in increased malfunction. .

この発明の目的は、従来のように固定的な零交差回数
閾値を採用しているため、雑音の性質によっては、閾値
が高すぎて子音の検出に不利となったり、逆に閾値が低
すぎて誤動作の増大をもたらすという欠点を解消し、雑
音の零交差分布に応じて適応的に閾値を設定することに
より、雑音の性質によらず、また、雑音に対する誤動作
を増大させることなく、さらにはHoth雑音のように子音
の検出に有利な状況では、その有利性を失わずに子音検
出が可能な音声検出方式を提供することにある。
Since the object of the present invention is to adopt a fixed zero-crossing threshold value as in the conventional art, depending on the nature of noise, the threshold value is too high, which is disadvantageous for consonant detection, or conversely, the threshold value is too low. By eliminating the disadvantage of increasing malfunctions and setting the threshold adaptively according to the noise zero-crossing distribution, it does not depend on the nature of the noise and does not increase malfunctions due to noise, and In a situation where it is advantageous to detect a consonant such as Hoth noise, it is to provide a voice detection method capable of detecting a consonant without losing its advantage.

[課題を解決するための手段] この発明の音声検出方式は、入力信号の所定ブロック
長のパワP(i)を算出し、このパワP(i)とパワ閾値Pth(i)
とを比較してパワP(i)がパワ閾値Pth(i)より大きい時有
音判定とするパワ判定手段と、入力信号の所定ブロック
長NBの零交差回数Z(i)を算出し、この零交差回数Z(i)
零交差回数閾値Zth(i)とを比較して零交差回数Z(i)が零
交差回数閾値Zth(i)よりも大きい時有音判定とする零交
差回数判定手段と、パワ判定手段と零交差回数判定手段
のいずれか一方が有音判定である場合に有音検出信号と
して有音判定を創出する有音・無音判定手段と、上記パ
ワ閾値Pth(i)として、パワ判定手段による無音判定区間
の平均パワPavに適応的に変動する閾値を与えるパワ閾
値算出手段と、上記零交差回数閾値Zth(i)として、パワ
判定手段による判定が無音判定で、かつ零交差回数判定
手段による判定が有音判定となる時点を開始点として、
第1の所定時間内にパワ判定による有音となる場合の、
上記開始点から有音判定となる時点までを第1の区間と
し、パワ判定により有音と判定される区間を第2の区間
とし、パワ判定による有音判定から無音判定となった後
の無音判定区間のうち最初の第2の所定時間以内を第3
の区間とし、上記第1、第2、第3の区間以外の区間を
雑音区間として、この雑音区間において雑音区間での零
交差回数分布に基づいて逐次的に算出した零交差回数閾
値Zth(i)を与える零交差回数閾値算出手段とを備えて構
成されたものである。
[Means for Solving the Problem] The voice detection method of the present invention calculates a power P (i) of a predetermined block length of an input signal, and calculates the power P (i) and the power threshold Pth (i).
Power P (i) is compared with the power threshold Pth (i) is larger than the power determination means to determine the presence of voice, and the number of zero crossings Z (i) of the predetermined block length NB of the input signal is calculated. zero-crossing times judging that number of zero-crossing times Z (i) and zero-crossing frequency threshold Zth (i) is compared with the number of zero-crossing times Z (i) is a sound presence judgment is greater than the zero-crossing count threshold Zth (i) Means, a sound determination unit that creates a voice determination as a voice detection signal when any one of the power determination unit and the zero-crossing number determination unit is a voice determination, and the power threshold Pth (i) As a power threshold calculation means for giving a threshold value that adaptively changes to the average power Pav of the silent judgment section by the power judgment means, and the zero crossing number threshold Zth (i) , the judgment by the power judgment means is a silent judgment, and Starting from the time when the determination by the zero-crossing number determination means becomes a voiced determination,
When there is sound due to power judgment within the first predetermined time,
The first section is from the start point to the time when the sound is judged, and the second section is the section which is judged as the sound by the power judgment, and the silence after the sound judgment by the power judgment is changed to the silence judgment. Within the first second predetermined time of the judgment section, the third
And a section other than the first, second, and third sections as a noise section, and in this noise section, a zero-crossing number threshold value Zth (i) sequentially calculated based on the zero-crossing number distribution in the noise section. ) Which gives a zero crossing frequency threshold value calculating means.

[作用] 入力サンプル信号が入力されると、有音/無音の判定
は、所定ブロック長NBのパワP(i),零交差回数Z(i),パワ
閾値Pth(i),零交差回数閾値Zth(i)を用いて、次のよう
に判定される。
[Operation] When the input sample signal is input, the presence / absence of sound is determined by determining the power P (i) of the predetermined block length NB, the number of zero crossings Z (i) , the power threshold Pth (i) , and the number of zero crossings thresholds. It is determined as follows using Zth (i) .

P(i)>Pth(i)又はZ(i)>Zth(i)の時、有音P(i)≦Pth
(i)及びZ(i)≦Zth(i)の時、無音ここで、パワ閾値Pth
(i)はパワ判定が無音(P(i)≦Pth(i))となる区間のパ
ワレベルに基づいて適応的に設定される。
When P (i) > Pth (i) or Z (i) > Zth (i) , voiced P (i) ≤Pth
When (i) and Z (i) ≤ Zth (i) , there is silence, where the power threshold Pth
(i) is adaptively set based on the power level in the section where the power judgment is silent (P (i) ≤ Pth (i) ).

一方、零交差回数閾値Zthは雑音の零交差回数分布に
対してより適応的となるように更新され、その更新区間
は音声の性質を利用することにより次の(i)または
(ii)の区間となる。
On the other hand, the zero-crossing threshold Zth is updated so as to be more adaptive to the zero-crossing distribution of noise, and the updated interval is defined by the following characteristic (i) or (ii) by utilizing the nature of the voice. Becomes

(i)連続するNブロックの無音判定区間。(I) N blocks of continuous silence determination.

この区間では、子音検出能力を上げるため、零交差回
数閾値Zthは雑音の性質が変化しない限り、より小さい
値に更新される。
In this section, in order to improve the consonant detection capability, the zero-crossing number threshold Zth is updated to a smaller value unless the property of noise changes.

(ii)零交差回数判定で一旦有音となった後、Nブロッ
クの間零交差回数の最大値が更新されず、かつその間パ
ワ判定により無音となる区間。
(Ii) A section in which the maximum value of the number of zero-crossings is not updated during N blocks after the sound is once determined by the number of zero-crossings determination, and there is no sound during the power determination during that period.

この区間では、雑音により有音となったと判断される
ことから、このような有音判定をする雑音により誤動作
しないように、零交差回数閾値Zthはより大きい値に更
新される。
In this section, since it is determined that noise has occurred due to noise, the zero-crossing number threshold Zth is updated to a larger value so as to prevent malfunction due to noise that makes such speech determination.

但しパワ判定が有音から無音判定に遷移した直後の一
定時間では、話中や語尾等で生じる子音部分の可能性が
あるので(i)(ii)は適用されない。
However, (i) and (ii) are not applicable at a certain time immediately after the power determination transits from voiced to silence determination, because there is a possibility of a consonant portion occurring at the time of talking, ending, or the like.

このように雑音の零交差回数分布に応じて適応的に零
交差回数閾値を設定するので、雑音の零交差回数分布に
より検出感度が左右されることがない。
In this way, the zero-crossing frequency threshold is set adaptively according to the noise zero-crossing frequency distribution, so that the detection sensitivity is not influenced by the noise zero-crossing frequency distribution.

[実施例] 以下、この発明の実施例を第1図および第4図を用い
て説明する。
[Embodiment] An embodiment of the present invention will be described below with reference to FIGS. 1 and 4.

第1図はこの発明方式を実施するための音声検出器の
実施例を示すブロック図である。
FIG. 1 is a block diagram showing an embodiment of a voice detector for carrying out the method of the present invention.

入力サンプル信号は、入力端子1からパワ算出部11と
零交差回数算出部21とに入力され、所定のブロック長毎
のパワP(i)と零交差回数Z(i)とが算出される。ここで所
定のブロック長とは入力サンプル信号の時間軸を所定間
隔で区切った区間の長さのことをいい、以下これをNBで
表す。
The input sample signal is input from the input terminal 1 to the power calculation unit 11 and the zero-crossing number calculation unit 21, and the power P (i) and the zero-crossing number Z (i) for each predetermined block length are calculated. Here, the predetermined block length refers to the length of a section obtained by dividing the time axis of the input sample signal at predetermined intervals, which will be represented by NB hereinafter.

またiはブロックの番号を意味する。 Further, i means the block number.

パワ算出部11により算出されたパワP(i)と、パワ閾値
算出部13により出力されるパワ閾値Pth(i)とがパワ検出
部12に入力され、パワP(i)とパワ閾値Pth(i)との大小関
係に従ってパワ検出信号Jpが出力される。ここで、パワ
閾値算出部13はパワP(i)と、後述する零交差回数検出信
号Jzおよびパワ検出信号Jpとの発生パターンに基づいて
上記パワ閾値Pth(i)を算出する。
The power P (i) calculated by the power calculator 11 and the power threshold Pth (i) output by the power threshold calculator 13 are input to the power detector 12, and the power P (i) and the power threshold Pth ( The power detection signal Jp is output according to the magnitude relationship with i) . Here, the power threshold calculation unit 13 calculates the power threshold Pth (i) based on the generation pattern of the power P (i) and the zero-crossing number detection signal Jz and the power detection signal Jp described later.

一方、零交差回数算出部21から算出された零交差回数
Z(i)と零交差回数閾値算出部23から出力される零交差回
数閾値Zth(i)とが零交差回数検出部22に入力され、零交
差回数Z(i)と零交差回数閾値Zth(i)との大小関係に従っ
て零交差回数検出信号Jzが出力される。ここで、零交差
回数閾値算出部23は零交差回数Z(i)と、パワ検出信号Jp
および零交差回数検出信号Jzの発生パターンに基づい
て、零交差回数閾値Zth(i)を算出する。
On the other hand, the number of zero crossings calculated from the zero crossing number calculation unit 21.
Z (i) and the zero-crossing number threshold Zth (i) output from the zero-crossing number threshold calculating unit 23 are input to the zero-crossing number detecting unit 22, and the zero-crossing number Z (i) and the zero-crossing number threshold Zth ( The zero-crossing number detection signal Jz is output according to the magnitude relationship with i) . Here, the zero-crossing number threshold calculation unit 23 calculates the number of zero-crossings Z (i) and the power detection signal Jp.
And the zero-crossing number threshold Zth (i) is calculated based on the generation pattern of the zero-crossing number detection signal Jz.

そして、パワ検出信号Jpと零交差回数検出信号Jzが有
音・無音判定部31に入力され、有音検出信号Jが出力端
子2より取り出される。
Then, the power detection signal Jp and the zero-crossing number detection signal Jz are input to the sound / silence determination section 31, and the sound detection signal J is taken out from the output terminal 2.

なお、上記したパワ算出部11及びパワ検出部12が本発
明のパワ判定手段を構成し、また零交差回数算出部21及
び零交差回数検出部22が本発明の零交差回数判定手段を
構成する。
The power calculation unit 11 and the power detection unit 12 described above constitute the power determination means of the present invention, and the zero-crossing number calculation unit 21 and the zero-crossing number detection unit 22 constitute the zero-crossing number determination means of the present invention. .

次に上述した各部における処理および動作を(A)〜
(G)に詳述する。
Next, the processing and operation in each of the above-mentioned units will be described in (A)-
This will be described in detail in (G).

(A)パワ算出部11では、入力サンプル信号のパワPを
所定のブロック長(NB)毎に(1)式に従って算出す
る。
(A) The power calculator 11 calculates the power P of the input sample signal for each predetermined block length (NB) according to the equation (1).

但し、NBは所定のブロック長におけるサンプル数,S
(j)は入力サンプル値である。
However, NB is the number of samples in a predetermined block length, S
(j) is the input sample value.

(B)パワ検出部12では、上記パワP(i)と現行の(現在
設定してある)パワ閾値Pth(i)とを用いて(2)式に従
いパワ検出信号Jpを創出する。
(B) The power detection unit 12 uses the power P (i) and the current (currently set) power threshold Pth (i) to generate the power detection signal Jp according to the equation (2).

(C)パワ閾値算出部13では、上記パワ検出信号Jpによ
り次の方法によってパワ閾値Pthを更新する。
(C) The power threshold calculation unit 13 updates the power threshold Pth by the following method based on the power detection signal Jp.

即ち、パワ検出信号Jpによって無音と判定された(Jp
=0)ブロックが所定のブロック数NBP(NBがP個の
意)以上連続して生じる毎に、その区間の平均パワPav
を算出し、その最小値をPminとして固定の係数α(α>
1)を用いて(3)式に従い算出する。
That is, it is determined that there is no sound by the power detection signal Jp (Jp
= 0) Every time a block is generated more than a predetermined number of blocks NBP (NB means P), the average power Pav of the section is increased.
And a fixed coefficient α (α>
It is calculated according to equation (3) using 1).

Pth=α・Pmin …(3) (D)零交差回数算出部21では、所定のブロック長NB毎
に、このブロック内で生じた入力サンプル信号の符号反
転回数をカウントし、これを零交差回数Z(i)として出力
する。
Pth = α · Pmin (3) (D) The zero-crossing number calculation unit 21 counts the number of sign inversions of the input sample signal generated in this block for each predetermined block length NB, and counts the number of zero-crossing numbers. Output as Z (i) .

(E)零交差回数検出部22では、上記零交差回数Z(i)
現行の零交差回数閾値Zth(i)とを用いて(4)式に従い
零交差回数検出信号Jzを創出する。
(E) The zero-crossing frequency detection unit 22 creates the zero-crossing frequency detection signal Jz according to the equation (4) using the zero-crossing frequency Z (i) and the current zero-crossing frequency threshold Zth (i) .

(F)零交差回数閾値算出部23では、後述する(i)あ
るいは(ii)の方法により零交差回数閾値Zthを更新す
る。
(F) The zero-crossing frequency threshold calculation unit 23 updates the zero-crossing frequency threshold Zth by the method (i) or (ii) described later.

(G)有音、無音判定部31では最終的な有音、無音の判
定を(11)式に従って行う。
(G) The voiced / non-voiced sound determination unit 31 finally determines the voiced / non-voiced sound according to the equation (11).

さて、零交差回数閾値算出部23で零交差回数閾値Zth
を更新する2つの方法は、次の通りである。
Now, in the zero-crossing number threshold calculation unit 23, the zero-crossing number threshold Zth
The two ways to update are:

(i)パワ検出信号Jpにより無音と判定され(P(i)≦Pt
h(i))、かつ零交差回数検出信号Jzにより無音と判定さ
れた(Z(i)≦Zth(i))ブロックが連続して所定のブロッ
ク数NBZ(NBがZ個の意)生じる無音判定区間毎に、次
式(6)〜(9)の処理によって零交差回数閾値Zth(i)
を算出する。
(I) It is determined that there is no sound by the power detection signal Jp (P (i) ≤ Pt
h (i) ) and the number of blocks (Z (i) ≤ Zth (i) ) that have been determined to be silent by the zero-crossing detection signal Jz continuously occur for a predetermined number of blocks NBZ (NB means Z). For each determination section, the zero crossing number threshold Zth (i) is calculated by the processing of the following equations (6) to (9 ).
Is calculated.

Zth(i+1)=Zmin(i)+D(i) …(9) 但し、Zav(i)は上記区間の平均零交差回数,Zmin(i)
平均零交差回数の最小値,D(i)は零交差回数のゆらぎ吸
収オフセット値,εは経験的に求められる有意差であっ
て、Zav(i)のゆらぎ範囲の設定値,DoはD(i)の初期値で
ある。
Zth (i + 1) = Zmin (i) + D (i) ... (9) where, Zav (i) the average number of zero-crossing times of the interval, Zmin (i) the minimum value of the average number of zero-crossing times, D (i ) Is the fluctuation absorption offset value of the number of zero crossings, ε is a significant difference empirically determined, the setting value of the fluctuation range of Zav (i) , and Do is the initial value of D (i) .

式(6)で平均零交差回数Zav(i)を求めるのは、無音
判定区間においてばらつく零交差回数の変化中心を知る
ためである。ここで、平均をとらえるための区間とし
て、今着目しているブロック(i)より常に所定数
(j)前の区間を用いているので、この区間で平均する
ことによって、瞬間的に発生する雑音がならされ瞬間的
な雑音により誤って有音と判定するのが防止される。
The reason why the average number of zero crossings Zav (i) is calculated by the equation (6) is to know the center of change in the number of zero crossings that varies in the silence determination section. Here, since a section that is a predetermined number (j) before the currently focused block (i) is always used as a section for capturing the average, noise generated instantaneously by averaging in this section It is prevented that the noise is erroneously determined and the sound is erroneously determined to be voiced.

式(7)で平均零交差回数の最小値Zmin(i)を求める
のは、最小値とすることにより検出能力を高めるためで
ある。
The reason why the minimum value Zmin (i ) of the average number of zero-crossings is calculated by the formula (7) is to increase the detection capability by setting the minimum value.

式(8)でオフセット値D(i)を求めるのは零交差回数
のゆらぎを吸収させて、ゆらぎの影響を断つためであ
る。オフセット値は、変化率の大きな瞬間的な雑音では
なく、変化率の小さなうねり雑音を吸収する。
The offset value D (i) is calculated by the equation (8) in order to absorb the fluctuation of the number of zero crossings and to cut off the influence of the fluctuation. The offset value absorbs undulation noise with a small change rate, rather than instantaneous noise with a large change rate.

式(7)(8)において、平均零交差回数の最小値Zm
in(i-1)と平均零交差回数Zav(i)との差の絶対値をと
り、その絶対値の設定値εに対する大小でZmin(i),D(i)
の取り得る値を場合分けしているのは、設定値εを基準
として上下に絶対値が変動すれば、その区間の雑音の性
質が変化したものとし、変化したその雑音の性質に対応
させるためである。
In formulas (7) and (8), the minimum value Zm of the average number of zero-crossings
The absolute value of the difference between in (i-1) and the average number of zero crossings Zav (i) is taken, and the absolute value of the difference is Zmin (i) , D (i)
The possible values of are divided into cases because if the absolute value fluctuates up and down with reference to the set value ε, it is assumed that the noise property in that section has changed, and that it corresponds to the changed noise property. Is.

また、式(7)において、絶対値がε以下のとき一つ
手前のブロックの最小値Zmin(i-1)または平均値Zav(i)
のうち、小さいほうを選んでいるのは、雑音の性質に変
化がないので更に検出能力を高めるためである。同じく
式(8)において絶対値がε以下のとき一つ手前のブロ
ックのオフセット値D(i-1)を選んでいるのは、上記と同
じ理由でゆらぎ吸収のオフセット値を下げて検出能力を
高めるためである。
Further, in the equation (7), when the absolute value is ε or less, the minimum value Zmin (i -1) or the average value Zav (i) of the immediately preceding block is
Among them, the smaller one is selected in order to further improve the detection capability because the property of noise does not change. Similarly, in equation (8), when the absolute value is ε or less, the offset value D (i-1) of the immediately preceding block is selected. For the same reason as above, the offset value of fluctuation absorption is lowered to improve the detection capability. This is to increase.

式(7)(8)において、絶対値がεよりも大きいと
き、最小値Zmin(i)とオフセット値D(i)とを初期化する
のは、雑音の性質が変化したので設定条件を元に戻すた
めである。
In equations (7) and (8), when the absolute value is larger than ε, the minimum value Zmin (i) and the offset value D (i) are initialized because the property of noise has changed. To return to.

式(9)でZmin(i)とD(i)とを加えて零交差回数閾値
を求めるのは、雑音に応じた最適な閾値を設定するため
である。
The reason why the zero-crossing threshold value is obtained by adding Zmin (i) and D (i) in the equation (9) is to set an optimum threshold value according to noise.

(ii)Z(j)>Zth(j)となると、その時点以後からはZ(k)
とZth(k)の大小関係にかかわらず、所定のブロック数の
間、更新されない零交差回数の最大値Zmaxが生じ、しか
もその区間の間、パワ検出信号Jpにより有音と判定され
るブロックが一つも生じなければこの区間の零交差回数
Z(k)を用いて(6)、(7)式を算出する一方、零交差
回数の最大値Zmaxを用いて(10)式によってオフセット
値D(i)を求め、(11)式によって零交差回数閾値Zthを
設定する。
(Ii) If Z (j) > Zth (j) , then Z (k) from that point onward.
And Zth (k) , the maximum value Zmax of the number of zero crossings that is not updated occurs for a predetermined number of blocks, and during that interval, the block that is determined to be voiced by the power detection signal Jp If none occur, the number of zero crossings in this section
While calculating equations (6) and (7) using Z (k) , the offset value D (i) is calculated using equation (10) using the maximum value Zmax of zero crossings, and is calculated using equation (11). Set the crossing threshold Zth.

Zth=Zmax …(11) 式(10)で絶対値がε以下のときZmaxとZminとの差を
求めるのは、雑音の性質に変化はないが(ii)の条件を
外れて(i)の条件に移行したときに、零交差回数閾値
Zth(i+1)が(ii)と同じZmaxから始まるようにして(式
(10)の結果を式(9)に代入すればZth=Zmaxとな
る)、移行を円滑にするためである。同じく式(10)で
絶対値がεよりも大きいときオフセット値をDoにリセッ
トするのは、雑音の性質が変化したため、これに対処す
るためである。
Zth = Zmax (11) In equation (10), when the absolute value is ε or less, the difference between Zmax and Zmin is obtained. Zero-crossing threshold when shifting to the condition
This is because Zth (i + 1) starts from the same Zmax as ( ii) (substituting the result of equation (10) into equation (9) yields Zth = Zmax) to smooth the transition. Similarly, the reason why the offset value is reset to Do when the absolute value is larger than ε in the equation (10) is to cope with the change in the property of noise.

式(11)で零交差回数閾値ZthをZmaxにするのは、今
までの閾値を上げることにより、雑音によって有音と判
定しないようにするためである。
The reason why the zero-crossing number threshold Zth is set to Zmax in the expression (11) is to prevent the noise from being determined by noise by increasing the threshold so far.

なお、ここで式(11)を算出するに当たって一見不用
と思われる式(10)を算出しているのは、(ii)の条件
を外れて(i)の条件に移行したときに、そこで用いる
オフセット値D(i)を予め求めておくためである。
It should be noted that the calculation of the expression (10), which seems to be unnecessary in calculating the expression (11), is used when the condition (ii) is deviated to the condition (i). This is because the offset value D (i) is obtained in advance.

但し、上記(i)(ii)の方法は、パワ検出信号Jpが
有音判定から無音判定になった後の無音判定区間の最初
の所定ブロック数NBZB(NBがZB個の意)の区間(禁止区
間)は適用しない。
However, the above methods (i) and (ii) are performed in the section of the first predetermined number of blocks NBZB (NB means ZB) of the silence determination section after the power detection signal Jp is changed from the sound determination to the silence determination. Prohibited section) does not apply.

以下に上記処理の意図について述べる。 The intention of the above processing will be described below.

上述した零交差回数閾値Zthの更新処理の目的は、雑
音のもつ零交差回数の最大値Zmaxを推定し、これを零交
差回数の閾値Zthとすることにある。
The purpose of the above-described updating process of the zero-crossing number threshold Zth is to estimate the maximum value Zmax of the zero-crossing number of noise and set it as the zero-crossing number threshold Zth.

そこで問題となるのは、雑音よりも大きな零交差回数
をもち得る子音部分において、零交差回数閾値Zthを必
要以上に大きな値に設定しないことである。また零交差
回数が雑音よりも比較的小さい値を持つ母音部等の部分
において、零交差回数閾値Zthを小さな値に設定するこ
とで、誤って雑音部分を有音と判定することのないよう
にすることである。
Therefore, the problem is not to set the zero-crossing threshold Zth to an unnecessarily large value in a consonant portion that may have a larger number of zero-crossings than noise. Also, by setting the zero-crossing threshold Zth to a small value in a part such as a vowel part where the number of zero-crossings is relatively smaller than noise, it is possible to prevent the noise part from being mistakenly recognized as voiced. It is to be.

そこで音声の次のような性質を利用して、雑音区間で
零交差回数閾値の更新が出来るようにする。なお、ここ
では、理解を容易にするため第4図を参考にする。この
ため、先に第4図について説明し、その後で音声の性質
について述べることとする。
Therefore, it is possible to update the threshold value of the number of zero crossings in the noise section by using the following property of the voice. Note that FIG. 4 is referred to here for easy understanding. Therefore, FIG. 4 will be described first, and then the nature of voice will be described.

第4図に本実施例による零交差回数閾値設定の動作例
を示す。第4図(a)(b)は例えば音声(雑音5を含
む)が入力された時のブロックパワとパワ閾値Pth及び
零交差回数閾値Zthの時間変化を示し、第4図(c)
(d)は雑音だけが入力されている時の時間変化の例を
示している。
FIG. 4 shows an example of the operation of setting the zero-crossing threshold value according to this embodiment. FIGS. 4 (a) and 4 (b) show time changes of the block power, the power threshold Pth, and the zero-crossing number threshold Zth, for example, when a voice (including noise 5) is input, and FIG.
(D) shows an example of time change when only noise is input.

第4図において上記(i)の方法が適用されるのは区
間(I)であり、また上記(ii)の方法が適用されるの
は区間(II)である。区間(III)は上記(i),(i
i)が適用されない禁止区間である。また、(i)(i
i)で使用したサフィックスi、j,kは、例えば第4図
(d)を例にとれば、今注目している時点を時刻T11と
すれば、この時点がiであり、この時点以前がjの領
域、以後がkの領域である。
In FIG. 4, the method (i) is applied to the section (I), and the method (ii) is applied to the section (II). The section (III) is the above (i), (i
i) is a prohibited section that does not apply. Also, (i) (i
Suffixes i, j, k used in i) are, for example, in FIG. 4 (d), if the time point of interest is time T11, this time point is i, and the time points before this time point are i. The area of j, and the area after that is the area of k.

第4図(a)(b)では時刻T1でZ(i)>Zth(i)とな
り、時刻T1以後Zmaxが更新され、パワ判定によって有音
となる時点T3で、時刻T2の時の零交差回数が最大Zmaxで
あった。T3−T2が一定時間TFよりも短いので零交差回
数閾値Zthは保持されたままである。
In FIGS. 4 (a) and 4 (b), Z (i) > Zth (i) at time T1, Zmax is updated after time T1, and at time T3 when the sound is judged by power judgment, zero crossing at time T2. The maximum number was Zmax. Since T3-T2 is shorter than the constant time TF, the zero-crossing number threshold Zth remains held.

パワ判定によって無音となる区間のはじまりである時
刻T4からT4+TE(一定時間)即ち時刻T5の間は、この
区間での零交差回数閾値Zthの更新に関する処理の禁止
区間である。
The period from time T4 to T4 + TE (constant time), that is, time T5, which is the beginning of the section in which there is no sound according to the power determination, is a prohibited section for the processing related to the update of the zero-crossing number threshold Zth in this section.

第4図(c)(d)では、時刻T11でZ(i)>Zth(i)
なり、最大零交差回数が更新され、時刻T12の零交差回
数が最大値Zmaxとなり、その値が一定時間TF保持され
る(それを上まわる零交差が生じない)。しかも、その
区間パワ判定により有音とならなかったので、時刻T13
で時刻T12の零交差回数Zmaxが零交差回数閾値Zthとして
設定される。
In FIGS. 4 (c) and (d), Z (i) > Zth (i) at time T11, the maximum number of zero crossings is updated, and the number of zero crossings at time T12 becomes the maximum value Zmax, which value is constant time. TF retained (no zero crossing above it). Moreover, because the section power judgment did not produce sound, time T13
Then, the zero-crossing number Zmax at time T12 is set as the zero-crossing number threshold Zth.

さて、本実施例では音声の次のような性質を利用して
いる。
In the present embodiment, the following properties of voice are used.

話頭における子音(第4図(b)の符号W)はパワは
小さいが、子音部の継続が終わった後には、母音(第4
図(a)の符号X)が続くことが多い。母音は子音に比
べてパワが大きく、その部分はパワ検出信号Jpによって
判定できる。したがって、もし子音部分で零交差回数検
出部22によって有音となった場合、一定時間TF内に母
音部Xが現れ、パワ検出部12による有音部が生じる。
The consonant (symbol W in FIG. 4 (b)) at the beginning of the speech has a small power, but after the consonant part is finished, the vowel (fourth
In many cases, the symbol X) in FIG. A vowel has a larger power than a consonant, and that portion can be determined by the power detection signal Jp. Therefore, if the zero crossing frequency detection unit 22 produces a sound in the consonant portion, the vowel portion X appears within the fixed time TF, and the power detection unit 12 produces a sound portion.

逆に、零交差回数検出による有音判定後の一定時間T
F内にパワ検出による有音部分が生じない時は(第4図
(c)(d))、その零交差回数検出による有音判定は
雑音(第4図(d)の符号Y)によるものであると考え
られるので、その零交差回数の値Zmaxを新たな閾値とす
る。
On the contrary, the fixed time T after the voice determination by the number of zero crossings is detected.
When there is no voiced part due to power detection in F (Figs. 4 (c) and (d)), the voiced determination by the number of times of zero crossings is due to noise (symbol Y in Fig. 4 (d)). Therefore, the value Zmax of the number of zero crossings is set as a new threshold value.

また、話頭に対して話中や語尾等で生じる子音部分で
は必ずしも母音を伴わないので、パワ検出による有音判
定後の一定時間TEのパワによる無音判定区間(第4図
(a)(b))では、その部分Vが子音部である可能性
もあるので、零交差回数の閾値Zthの更新処理は行わな
い。
In addition, since a vowel is not always accompanied in a consonant portion generated during talking or ending of a word with respect to the beginning of a speech, a silent determination section by power of a certain time TE after the voice determination by power detection (FIGS. 4A and 4B). In (), since the part V may be a consonant part, the updating process of the threshold value Zth of the number of zero crossings is not performed.

上記子音の継続時間TF,TEの値としては約200msec以
上を見積もればよい(上記文献2.p290〜289)。
About 200 msec or more may be estimated as the value of the duration time TF, TE of the consonant (above reference 2.p290-289).

さらに、雑音の性質が変化する場合、零交差回数分布
が変化するので、これまでの雑音のNBZブロックの平均
零交差回数Zavの最低値Zminよりも±ε以上の差を生じ
るNBZブロックの平均零交差回数の平均値Zavが生じる
と、その区間は性質の変化した雑音区間であると考え
て、最小零交差回数Zmin及びオフセット値D(i)の初期化
を行う。
Furthermore, when the property of noise changes, the zero-crossing number distribution changes, so the average zero of the NBZ block that produces a difference of ± ε or more than the minimum value Zmin of the average zero-crossing number Zav of the NBZ block of the noise so far. When the average value Zav of the number of crossings is generated, the section is considered to be a noise section with changed properties, and the minimum number of zero crossings Zmin and the offset value D (i) are initialized.

以上詳細に説明したように、本実施例によれば、入力
サンプル信号の所定ブロックのパワPを算出するパワ算
出部11と、零交差回数Zを算出する零交差回数算出部21
と、パワ閾値Pthを算出するパワ閾値算出部13と、零交
差回数閾値Zthを算出する零交差回数閾値算出部23と、
パワPとパワ閾値Pthとを比較し、パワPがパワ閾値Pth
が大きい時有音とするパワ検出信号Jpを出力するパワ検
出部12と、零交差回数Zが零交差回数閾値Zthよりも大
きいならば有音とする零交差回数検出信号Jzを出力する
零交差回数検出部22と、上記いずれか一方の検出が有音
尾であれば有音検出信号Jとして有音判定を出力する有
音・無音判定部31と、パワ検出部12により無音と検出さ
れるブロックが第1の所定ブロックだけ生じる毎にその
区間の平均パワPavを求め、その平均パワPavの最小値Pm
inを求めこれに一定値αを乗じた値でパワ閾値Pth(を更
新するパワ閾値算出部13と、そして次のような零交差回
数閾値Zthを算出する零交差回数閾値算出部23とを設け
て構成している。
As described in detail above, according to the present embodiment, the power calculation unit 11 that calculates the power P of the predetermined block of the input sample signal and the zero crossing number calculation unit 21 that calculates the zero crossing number Z.
A power threshold calculation unit 13 that calculates the power threshold Pth, and a zero-crossing number threshold calculation unit 23 that calculates the zero-crossing number threshold Zth,
The power P is compared with the power threshold Pth, and the power P is the power threshold Pth.
Power detection unit 12 that outputs a power detection signal Jp that indicates sound when the value is large, and a zero crossing that outputs a zero crossing number detection signal Jz that indicates sound when the number Z of zero crossings is larger than a threshold value Zth of zero crossings. The number-of-times detection unit 22, a sound / non-sound determination unit 31 that outputs a sound determination as a sound detection signal J if any one of the above detections is a sound tail, and the power detection unit 12 detects the sound. Every time a block occurs only in the first predetermined block, the average power Pav of the section is calculated, and the minimum value Pm of the average power Pav is calculated.
Provide a power threshold calculation unit 13 that updates the power threshold Pth ( with a value obtained by multiplying this by a constant value α, and a zero-crossing count threshold calculation unit 23 that calculates the following zero-crossing threshold Zth. Are configured.

上記零交差回数閾値算出部23は、パワ検出部12により
無音であり、かつ、零交差回数検出部22により無音であ
るブロックNBが連続して第1の所定ブロック数NBZ生
じ、しかもこの第1の所定ブロック数NBZ生じた無音区
間が、パワ判定が有音判定から無音判定になって第2の
所定ブロック数TE以上無音検出が連続して生じている
場合に、この区間の第1の所定のブロック数TEの全平
均零交差回数Zavを計算し、この値Zavと平均零交差回数
の最小値Zminとの差の絶対値が所定の固定値ε以下であ
れば、雑音の性質に変化が生じていないと判断し、上記
第1の所定ブロック数NBZ生じた無音区間の平均零交差Z
avと平均零交差の最小値Zminのうち小さい値を新しく平
均零交差回数の最小値Zminとして更新し、この最小値Zm
inと零交差回数のゆらぎ吸収のための現行のオフセット
値Dとを加算したものを新たに零交差回数閾値Zthとす
る。
In the zero-crossing number threshold calculation unit 23, blocks NB that are silent by the power detection unit 12 and are silent by the zero-crossing number detection unit 22 continuously generate the first predetermined block number NBZ, and the first block number NBZ is generated. In the silent section in which the predetermined block number NBZ has occurred, when the power determination is changed from the sound determination to the silence determination and the silence detection is continuously performed for the second predetermined block number TE or more, the first predetermined number of the section is determined. If the absolute value of the difference between this value Zav and the minimum value Zmin of the average number of zero crossings is less than or equal to a predetermined fixed value ε, the noise property changes. It is determined that the number has not occurred, and the average zero-crossing Z of the silent section in which the first predetermined number of blocks NBZ has occurred
av and the minimum value Zmin of the mean zero crossings are updated to the new minimum value Zmin of the number of mean zero crossings.
The sum of in and the current offset value D for absorbing the fluctuation of the number of zero crossings is newly set as the threshold value Zth of the number of zero crossings.

一方平均零交差回数Zavと平均零交差回数の最小値Zmi
nとの差の絶対値が固定値εより大きい時は、雑音の性
質が変わったと判断して、平均零交差回数の最小値Zmin
を上記第1の所定ブロック数NBZ生じた無音区間の平均
零交差回数Zavでリセットしたのち、平均零交差回数の
最小値Zminとオフセット値Dとの和により零交差回数閾
値Zthを更新する。
On the other hand, the average number of zero crossings Zav and the minimum value of the average zero crossings Zmi
When the absolute value of the difference from n is larger than the fixed value ε, it is judged that the property of noise has changed, and the minimum value Zmin
Is reset by the average zero-crossing count Zav in the silent section in which the first predetermined number of blocks NBZ has occurred, and then the zero-crossing count threshold Zth is updated by the sum of the minimum value Zmin of the average zero-crossing counts and the offset value D.

このように、無音判定区間では、雑音の性質が変化し
ない限りは、零交差回数閾値Zthを小さくして、雑音よ
りも大きな零交差回数を持ち得る子音部分において、零
交差回数閾値Zthを必要以上に大きな値に設定しないよ
うにしたので、子音の検出能力を上げることができる。
As described above, in the silence determination section, unless the property of noise changes, the zero-crossing number threshold Zth is reduced, and in the consonant part that may have a larger number of zero-crossing numbers than noise, the zero-crossing number threshold Zth is more than necessary. Since it is not set to a large value for, the ability to detect consonants can be improved.

一方、雑音の性質が変化したときは、零交差回数閾値
Zthをリセット値にして、変化した雑音に対して適応で
きるように初期化しているので、変化した雑音下におい
ても子音の検出能力が低下することはない。
On the other hand, when the noise property changes, the zero-crossing threshold
Since Zth is set to a reset value and initialized so that it can be adapted to the changed noise, the ability to detect consonants does not deteriorate even under changed noise.

また零交差回数Zが零交差回数閾値Zthよりも大きく
なると、それ以後は零交差回数と閾値の大小関係によら
ず、第1の所定ブロック数NBZの間更新されない零交差
回数の最大値Zmaxが生じ、しかもその第1の所定ブロッ
ク数NBZの間更新されない零交差回数の最大値Zmaxが生
じた区間の間パワ検出により有音と判定されるブロック
NBが一つも生じず、かつ、その最大値Zmaxが生じた区間
がパワ判定より有音判定から無音判定となってから無音
判定が第2の所定ブロック数TE以上生じている場合に
は、上記零交差回数検出による有音判定は雑音によるも
のであると考えられるので、上記最大値Zmaxが生じた区
間の平均零交差回数Zavと平均零交差回数の最小値Zmin
との差の絶対値の大きさにかかわらず、即ち雑音の性質
が変化したと否とにかかわらず、零交差回数の最大値Zm
axを新たな零交差回数閾値Zthとする。
Further, when the zero-crossing number Z becomes larger than the zero-crossing number threshold value Zth, the maximum value Zmax of the zero-crossing number that is not updated after the first predetermined block number NBZ is thereafter irrespective of the magnitude relation between the zero-crossing number and the threshold value. A block that is determined to be sound by power detection during a section in which a maximum value Zmax of the number of zero-crossings that has occurred and has not been updated for the first predetermined number of blocks NBZ has occurred
In the case where no NB is generated and the section in which the maximum value Zmax is generated has changed from the sound determination to the silence determination from the power determination and the silence determination has occurred for the second predetermined block number TE or more, Since it is considered that the voiced judgment by detecting the number of zero crossings is due to noise, the average number of zero crossings Zav and the minimum value of the average zero crossings Zmin in the section where the maximum value Zmax occurs.
The maximum value of the number of zero-crossings Zm regardless of the magnitude of the absolute value of the difference between
Let ax be a new zero-crossing threshold Zth.

このように、一定条件下で、零交差回数検出によって
のみ有音判定がなされるような場合には、雑音と考えて
零交差回数閾値Zthを最大値Zmaxとし、閾値を大きな値
に設定するようにしたので、零交差回数が雑音よりも比
較的小さい値を持つ母音部等の部分において、零交差回
数閾値Zthを小さな値に設定することで、誤って雑音部
分を有音と判定するようなことがない。
In this way, under a certain condition, when the voiced judgment is made only by detecting the number of zero-crossings, consider the noise and set the threshold Zth of the zero-crossings to the maximum value Zmax, and set the threshold to a large value. Therefore, by setting the zero-crossing number threshold Zth to a small value in a part such as a vowel part where the number of zero-crossings has a relatively smaller value than noise, the noise part is erroneously determined to be voiced. Never.

以上本実施例によれば、音声に雑音が加わった入力信
号のうちから雑音の零交差分布に応じた零交差回数閾値
を決定することができる。しかも、雑音の性質が変化し
ても、変化した新たな雑音の零交差分布に応じた閾値を
設定出来る。
As described above, according to the present embodiment, it is possible to determine the zero-crossing threshold value according to the zero-crossing distribution of noise from the input signal in which the noise is added to the voice. Moreover, even if the noise property changes, a threshold value can be set according to the changed new zero-crossing distribution of noise.

次に本実施例によるシミュレーション結果を説明す
る。
Next, the simulation result according to the present embodiment will be described.

第5図にHoth雑音パワPHと白色雑音パワPWのパワ比率
R(=PH/(PW+PH))を変化させたときの本実施例に
よる零交差回数閾値特性の一例を示す。Hoth性が強いほ
ど(R→1)閾値が低くなり、子音検出を有利なものと
しているのが分かる。
FIG. 5 shows an example of the zero-crossing number threshold characteristic according to the present embodiment when the power ratio R (= P H / (P W + P H )) of the Hoth noise power P H and the white noise power P W is changed. . It can be seen that the stronger the Hoth characteristic (R → 1), the lower the threshold value, which makes consonant detection more advantageous.

また、第6図にR=1即ちHoth雑音を付加した音声,
英語の“Four"(第6図(a))について本実施例のシ
ミュレーション結果を示す。
Also, in FIG. 6, R = 1, that is, a voice with Hoth noise added,
The simulation results of this example are shown for English "Four" (Fig. 6 (a)).

比較例として白色雑音に基づく従来の固定閾値方式を
示している。ここで、ブロック長8msec,N=32であり、
雑音レベル−50dB0,音声レベル−33dB0(子音部−49dB
0)である。従来例による固定閾値での話頭子音の脱落
を本実施例による閾値の適応化により防止できることが
わかる(第6図(b))。
As a comparative example, a conventional fixed threshold method based on white noise is shown. Here, the block length is 8 msec, N = 32,
Noise level −50 dB0, voice level −33 dB0 (consonant part −49 dB
0). It can be seen that dropout of consonant sounds with a fixed threshold value according to the conventional example can be prevented by adapting the threshold value according to the present embodiment (FIG. 6 (b)).

このように、本実施例によれば話頭子音の脱落がなく
なるので、特にディジタル通信分野のディジタル音声挿
入システムあるいは音声パケット通信システムに適用す
れば、通信の信頼性を一層向上させることができる。
As described above, according to the present embodiment, the loss of the initial consonant is eliminated, so that the reliability of the communication can be further improved when applied to a digital voice insertion system or a voice packet communication system especially in the field of digital communication.

[発明の効果] 本発明によれば、次の効果がある。[Effects of the Invention] The present invention has the following effects.

(1)請求項1記載の音声検出方式においては、音声の
性質から導き出した3つの区間以外の区間を、即ちパワ
判定で有音と判定される母音区間、後に母音が続くこと
が多い話頭における子音区間、及び必ずしも母音を伴わ
ない話中や語尾等で生じる子音区間以外の区間を雑音区
間として、この雑音区間において雑音区間での零交差回
数分布に基づいて逐次的に零交差回数閾値を算出するよ
うにしたので、閾値を固定させていた従来の場合に比し
て、雑音の性質によって、閾値が高すぎて子音の検出に
不利となったり、逆に閾値が低すぎて誤動作の増大をも
たらすということがなく、子音を有効に検出することが
できる。
(1) In the speech detection method according to claim 1, in a section other than the three sections derived from the nature of the speech, that is, a vowel section determined to be voiced by the power judgment, and a vowel often followed. A consonant section and a section other than a consonant section that is not necessarily accompanied by a vowel, such as a consonant section that occurs at the end of a speech, is used as a noise section, and the zero-crossing threshold value is sequentially calculated in this noise section based on the zero-crossing frequency distribution in the noise section. Therefore, compared to the conventional case where the threshold value is fixed, the threshold value is too high, which is disadvantageous in the detection of consonants, or conversely, the threshold value is too low, which increases malfunction due to the nature of noise. The consonant can be effectively detected without being brought.

(2)音声に雑音が加わった入力信号のうちから雑音の
零交差回数分布に応じた零交差回数閾値を決定すると共
に、雑音の性質の変化を検出して、変化した新たな雑音
の零交差回数分布に応じた閾値を再設定して、雑音に対
して閾値を適応させるようにしたので、閾値を固定させ
ていた従来の場合に比して、雑音の性質によって、閾値
が高すぎて子音の検出に不利となったり、逆に閾値が低
すぎて誤動作の増大をもたらすということがなく、雑音
の性質によらず、また、雑音に対する尾動作を増大させ
ることがなく、しかもHoth雑音のように子音の検出に有
利な状況では、その有利性を失わずに、子音を有効に検
出することができる。
(2) A zero-crossing frequency threshold value is determined from the input signal in which noise is added to the voice in accordance with the noise zero-crossing frequency distribution, and the change in the noise property is detected to detect a new zero-crossing noise. Since the threshold is set again according to the frequency distribution so that the threshold is adapted to noise, compared to the conventional case where the threshold is fixed, due to the nature of noise, the threshold is too high and consonants are generated. There is no disadvantage to the detection of noise, and conversely, the threshold is too low to cause an increase in malfunction, and it does not depend on the nature of noise, does not increase the tail motion against noise, and is similar to Hoth noise. In a situation where it is advantageous to detect a consonant, the consonant can be effectively detected without losing its advantage.

また、特に、零交差回数検出による有音判定後の一定
時間内にパワ検出による有音部分が生じないときは、そ
の零交差回数検出による有音判定は雑音によるものであ
る場合が多いという音声の性質を利用して、その場合に
は零交差回数閾値を最大値に設定するようにしたので、
雑音に対する誤動作を増大させることがなく、更に子音
を有効に検出できる。
Also, in particular, when no voiced part is generated by power detection within a certain time after the voiced determination by the zero-crossing number detection, the voiced determination by the zero-crossing number detection is often due to noise. By using the property of, in that case, the zero-crossing threshold is set to the maximum value.
Consonants can be effectively detected without increasing malfunction due to noise.

【図面の簡単な説明】[Brief description of drawings]

第1図は本発明による音声検出方式を実施するための音
声検出器の一実施例を示すブロック図、第2図は従来の
音声検出器例を示すブロック図、第3図は母音,子音,
白色雑音,Hoth雑音の各零交差回数分布の一例を示す説
明図、第4図は本発明方式例による零交差回数閾値設定
を説明するための動作例を示すタイミング図、第5図は
Hoth雑音パワと白色雑音パワのパワ比率を変化させた時
の本実施例による零交差回数閾値特性の一例を示す説明
図、第6図はHoth雑音を付加した音声について本実施例
と従来例とを比較したシミュレーション結果を示す動作
説明図である。 11及び12はパワ判定手段を構成するパワ算出部及びパワ
検出部、13はパワ閾値算出手段、21及び22は零交差回数
判定手段を構成する零交差回数算出部及び零交差回数検
出部、23は零交差回数閾値算出手段、31は有音・無音判
定手段、Pはパワ、Pthはパワ閾値、Zは零交差回数、Z
thは零交差回数閾値、Zavは平均零交差回数、Zminは平
均零交差回数の最小値、Zmaxは零交差回数の最大値、J
は有音検出信号、T1は開始点、S1は第1の区間、S2は第
2の区間、S3は第3の区間、NBは所定ブロック長、NBZ
は第1の所定ブロック数、TEは第2の所定時間ないし
第2の所定ブロック数、TFは第1の所定時間、εは所
定の固定値、Dは零交差回数のゆらぎ吸収のための現行
のオフセット値、Doは固定値である。
FIG. 1 is a block diagram showing an embodiment of a voice detector for implementing a voice detection system according to the present invention, FIG. 2 is a block diagram showing an example of a conventional voice detector, and FIG. 3 is a vowel, a consonant,
FIG. 4 is an explanatory diagram showing an example of each zero-crossing frequency distribution of white noise and Hoth noise, FIG. 4 is a timing diagram showing an operation example for explaining the zero-crossing frequency threshold setting according to the example of the present invention, and FIG.
FIG. 6 is an explanatory diagram showing an example of the zero-crossing threshold value characteristic according to the present embodiment when the power ratio of Hoth noise power and white noise power is changed, and FIG. 6 shows the present embodiment and the conventional example for speech to which Hoth noise is added. FIG. 6 is an operation explanatory view showing a simulation result comparing the above. Reference numerals 11 and 12 denote a power calculation unit and a power detection unit that constitute the power determination unit, 13 a power threshold value calculation unit, 21 and 22 a zero-crossing number calculation unit and a zero-crossing number detection unit that configure the zero-crossing number determination unit, and 23. Is a zero crossing frequency threshold calculating means, 31 is a voice / silence judging means, P is a power, Pth is a power threshold, Z is a zero crossing frequency, Z
th is the threshold value of the number of zero-crossings, Zav is the average number of zero-crossings, Zmin is the minimum value of the average number of zero-crossings, Zmax is the maximum value of the number of zero-crossings, J
Is a sound detection signal, T1 is a start point, S1 is a first section, S2 is a second section, S3 is a third section, NB is a predetermined block length, NBZ
Is a first predetermined block number, TE is a second predetermined time or a second predetermined block number, TF is a first predetermined time, ε is a predetermined fixed value, and D is a current value for absorbing fluctuations in the number of zero crossings. The offset value and Do are fixed values.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 庄司 保夫 東京都港区虎ノ門1丁目7番12号 沖電 気工業株式会社内 (56)参考文献 特開 平2−148099(JP,A) ─────────────────────────────────────────────────── ─── Continued Front Page (72) Inventor Yasuo Shoji 1-7-12 Toranomon, Minato-ku, Tokyo Oki Electric Industry Co., Ltd. (56)

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】入力信号の所定ブロック長のパワを算出
し、このパワとパワ閾値とを比較してパワがパワ閾値よ
り大きい時有音判定とするパワ判定手段と、 入力信号の所定ブロック長の零交差回数を算出し、この
零交差回数と零交差回数閾値とを比較して零交差回数が
零交差回数閾値よりも大きい時有音判定とする零交差回
数判定手段と、 パワ判定手段と零交差回数判定手段のいずれか一方が有
音判定である場合に、有音検出信号として有音判定を創
出する有音・無音判定手段と、 上記パワ閾値として、パワ判定手段による無音判定区間
の平均パワに適応的に変動する閾値を与えるパワ閾値算
出手段と、 上記零交差回数閾値として、パワ判定手段による判定が
無音判定で、かつ零交差回数検出手段による判定が有音
判定となる時点を開始点として、第1の所定時間内にパ
ワ判定による有音となる場合の、上記開始点から有音判
定となる時点までを第1の区間とし、パワ判定により有
音と判定される区間を第2の区間とし、パワ判定による
有音判定から無音判定になった後の無音判定区間のうち
最初の、第2の所定時間以内を第3の区間とし、上記第
1、第2、第3の区間以外の区間を雑音区間として、こ
の雑音区間において雑音区間での零交差回数分布に基づ
いて逐次的に算出した零交差回数閾値を与える零交差回
数閾値算出手段と を備えたことを特徴とする音声検出方式。
1. A power determining means for calculating a power of a predetermined block length of an input signal, comparing the power with a power threshold value, and making a voiced determination when the power is larger than the power threshold value, and a predetermined block length of the input signal. The number of zero crossings is calculated, and the number of zero crossings is compared with a threshold value of zero crossings, and when the number of zero crossings is greater than the threshold value of zero crossings, the number of zero crossings is determined to be voiced. When either one of the zero-crossing number determination means is a voiced determination, a voiced / non-voiced determination means for creating a voiced determination as a voiced detection signal, and the power threshold of a silence determination section by the power determination means. A power threshold calculation means for giving a threshold that adaptively changes to the average power, and a time point at which the determination by the power determination means is a silent determination and the determination by the zero crossing number detection means is a voice determination as the zero-crossing number threshold. Starting point and Then, when the sound is determined by the power judgment within the first predetermined time, the section from the start point to the time when the sound is determined is the first section, and the section determined to be the sound by the power judgment is the first section. The second section is defined as the second section, and the first, within a second predetermined time, of the silence determination section after the sound determination by the power determination is changed to the silence determination is defined as the third section, and the first, second, and third sections are included. A section other than the section is defined as a noise section, and a zero-crossing number threshold calculation unit that gives a zero-crossing number threshold value that is sequentially calculated based on the zero-crossing number distribution in the noise section in the noise section is provided. Voice detection method.
【請求項2】請求項1記載の音声検出方式における零交
差回数閾値算出手段が、 パワ判定が無音判定であり、かつ零交差回数判定により
無音判定であるブロックが第1の所定ブロック数を生
じ、しかもこの第1の所定ブロック数生じた無音区間
が、パワ判定が有音判定から無音判定となって第2の所
定ブロック数以上無音判定が連続して生じている場合
に、この区間の第1の所定ブロック数にわたる平均零交
差回数を計算し、この値と平均零交差回数の最小値との
差の絶対値が所定の固定値以下であれば、上記第1の所
定ブロック数生じた無音区間の平均零交差回数と平均零
交差回数の最小値とのうち小さい値を新しく平均零交差
回数の最小値として更新し、この最小値と零交差回数の
ゆらぎ吸収のための現行のオフセット値とを加算したも
のを新たに零交差回数閾値とする手段と、 平均零交差回数と平均零交差回数の最小値との差の絶対
値が固定値より大きい時、平均零交差回数の最小値を上
記第1の所定ブロック数生じた無音区間の平均零交差回
数でリセットし、かつ、オフセット値を予め定められた
固定値でリセットしたのち、これらリセットした平均零
交差回数の最小値とオフセット値との和により零交差回
数閾値を更新する手段と、 零交差回数が、零交差回数閾値よりも大きくなると、そ
れ以後は零交差回数と閾値の大小関係によらず、第1の
所定ブロック数の間更新されない零交差回数の最大値が
生じ、しかも、その第1の所定ブロック数の間更新され
ない零交差回数の最大値が生じた区間がパワ判定より有
音と判定されるブロックが一つも生じず、かつ、その最
大値が生じた区間がパワ判定より有音判定から無音判定
となってから無音判定が第2の所定ブロック数以上生じ
ている場合に、この最大値が生じた区間の第1の所定ブ
ロック数の平均零交差回数と平均零交差回数の最小値と
の差の絶対値が所定の固定値以下であれば、平均零交差
回数と平均零交差回数の最小値のうち小さい方を最小値
として更新し、零交差回数の最大値と平均零交差回数の
最小値の差を新たにオフセット値とし、零交差回数の最
大値を新たな零交差回数閾値とする手段と、 平均零交差回数と平均零交差回数の最小値との差の絶対
値が固定値よりも大きい時は、平均零交差回数で平均零
交差回数の最小値をリセットし、オフセットを固定値に
リセットし、零交差回数の最大値を新たな零交差回数閾
値とする手段と で構成されていることを特徴とする音声検出方式。
2. The zero-crossing number threshold calculating means in the voice detecting method according to claim 1, wherein the power determination is a silence determination and the block which is a silence determination by the zero-crossing number determination produces a first predetermined number of blocks. In addition, when the power determination changes from the sound determination to the silence determination in the silent section in which the first predetermined number of blocks have occurred, the second predetermined block number or more silence determination continuously occurs If the absolute value of the difference between this value and the minimum value of the average number of zero-crossings is equal to or less than a predetermined fixed value, the silence generated in the first number of the predetermined blocks is calculated. The smaller value of the average zero-crossing count and the minimum value of the average zero-crossing count of the section is updated as a new minimum value of the average zero-crossing count, and this minimum value and the current offset value for absorbing fluctuations of the zero-crossing count are set. Also added Is used as a new zero-crossing frequency threshold value, and when the absolute value of the difference between the average zero-crossing frequency and the minimum value of the average zero-crossing frequency is larger than a fixed value, the minimum value of the average zero-crossing frequency is set to the first value. After resetting the average number of zero crossings in the silent section generated by a predetermined number of blocks and resetting the offset value with a predetermined fixed value, the sum of the minimum value of the reset average zero crossings and the offset value A means for updating the threshold value of the number of crossings, and a zero crossing that is not updated for a first predetermined number of blocks after that, regardless of the magnitude relation between the number of the zero crossings and the threshold value, when the number of zero crossings becomes larger than the threshold value for the number of zero crossings. In the section in which the maximum value of the number of times occurs and the maximum value of the number of zero-crossings that is not updated for the first predetermined number of blocks occurs, no block is determined to be voice by the power determination, and maximum In the case where the number of silence determinations is equal to or greater than the second predetermined block number after the sound determination is changed from the power determination to the silence determination in the section in which the power generation determination is performed, the average of the first predetermined block numbers in the section in which the maximum value is generated is generated. If the absolute value of the difference between the number of zero crossings and the minimum value of the average zero crossings is equal to or less than a predetermined fixed value, the smaller one of the average zero crossings and the minimum value of the average zero crossings is updated as the minimum value, A means for newly setting the difference between the maximum value of the number of zero crossings and the minimum value of the average number of zero crossings as an offset value, and setting the maximum value of the number of zero crossings as a new threshold value of the number of zero crossings, and the average number of zero crossings and the average number of zero crossings When the absolute value of the difference from the minimum value of is larger than the fixed value, the minimum value of the average zero-crossing is reset by the average number of zero-crossings, the offset is reset to a fixed value, and the maximum value of the number of zero-crossings is updated. A zero crossing frequency threshold Speech detection method, characterized in that.
JP1039315A 1989-02-21 1989-02-21 Voice detection method Expired - Lifetime JP2539027B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1039315A JP2539027B2 (en) 1989-02-21 1989-02-21 Voice detection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1039315A JP2539027B2 (en) 1989-02-21 1989-02-21 Voice detection method

Publications (2)

Publication Number Publication Date
JPH02219100A JPH02219100A (en) 1990-08-31
JP2539027B2 true JP2539027B2 (en) 1996-10-02

Family

ID=12549678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1039315A Expired - Lifetime JP2539027B2 (en) 1989-02-21 1989-02-21 Voice detection method

Country Status (1)

Country Link
JP (1) JP2539027B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0867856B1 (en) * 1997-03-25 2005-10-26 Koninklijke Philips Electronics N.V. Method and apparatus for vocal activity detection

Also Published As

Publication number Publication date
JPH02219100A (en) 1990-08-31

Similar Documents

Publication Publication Date Title
JP4236726B2 (en) Voice activity detection method and voice activity detection apparatus
EP1861846B1 (en) Adaptive voice mode extension for a voice activity detector
CA2288115C (en) System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US7236929B2 (en) Echo suppression and speech detection techniques for telephony applications
KR930007298B1 (en) Circuit for detecting and suppressing pulse shaped interferences
JP2573352B2 (en) Voice detection device
JP2006189907A (en) Method of detecting voice activity of signal and voice signal coder including device for implementing method
US6285979B1 (en) Phoneme analyzer
EP1751740B1 (en) System and method for babble noise detection
JP2539027B2 (en) Voice detection method
JP2897628B2 (en) Voice detector
JPH0430040B2 (en)
JPH04251299A (en) Speech section detecting means
JPH0240700A (en) Voice detecting device
JPH02266626A (en) Voice detection reproducing device
JP3237350B2 (en) Automatic gain control device
JPH0394300A (en) Voice detector
JPS61140999A (en) Voice section detection system
Ahamed Idle Channel Noise Suppression by Relaxation of Binary ADM‐Encoded Speech
JPH0110024Y2 (en)
JPH02272836A (en) Voice section detection system
JPH0383100A (en) Detector for voice section
JPS61177499A (en) Voice section detecting system
JPS5925240B2 (en) Word beginning detection method for speech sections
JPH01255897A (en) Voice detection