JPH02272836A - Voice section detection system - Google Patents

Voice section detection system

Info

Publication number
JPH02272836A
JPH02272836A JP1092817A JP9281789A JPH02272836A JP H02272836 A JPH02272836 A JP H02272836A JP 1092817 A JP1092817 A JP 1092817A JP 9281789 A JP9281789 A JP 9281789A JP H02272836 A JPH02272836 A JP H02272836A
Authority
JP
Japan
Prior art keywords
power
value
power threshold
block
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1092817A
Other languages
Japanese (ja)
Other versions
JP2944098B2 (en
Inventor
Yuichi Shiraki
白木 裕一
Takao Suzuki
孝夫 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP1092817A priority Critical patent/JP2944098B2/en
Publication of JPH02272836A publication Critical patent/JPH02272836A/en
Application granted granted Critical
Publication of JP2944098B2 publication Critical patent/JP2944098B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Time-Division Multiplex Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

PURPOSE:To accurately estimate noise power even if noise power fluctuates large in the middle of communication, to update the power threshold and to reduce erroneous detection by updating the power threshold based on a specified system. CONSTITUTION:A power calculation part 12, a sound/silence decision part 13, a power threshold calculation part 14, a zerocross number calculation part 16 and a maximum zerocross interval calculation part 17 are provided. The power threshold calculation part 14 detects a noise part in a sound decision section based on the power P of the block of a sound input sampling signal, the number of zerocross times ZC, a maximum zerocross interval IZCmax and a sound/silence decision output VD by the difference of characteristics on frequencies between the sound and noise, and the power threshold is updated by power information on the detected noise part. Thus, fluctuated noise power can accurately be estimated even if noise power fluctuated large in the middle of communication, the power threshold can be updated, and errorneous detection by noise power fluctuation can be reduced.

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は音声区間検出方式に関し、例えば、ディジタル
通信分野におけるディジタル音声挿入システムや音声パ
ケット通信システムに適用し得るものである。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a voice section detection method, and can be applied to, for example, a digital voice insertion system or a voice packet communication system in the digital communication field.

[従来の技術] 第2図は、従来の音声区間検出方式の一構成例を示すブ
ロック図である。
[Prior Art] FIG. 2 is a block diagram showing an example of the configuration of a conventional voice section detection method.

第2図において、音声入力サンプル信号は入力端子1を
介してパワ算出部2に入力され、このパワ算出部2によ
って一定のサンプル数でなるブロックに区分され、各ブ
ロックのサンプル値の平均パワく電カニ以下では単にブ
ロックのパワと呼ぶ)Piが計算される。このようにし
て得られた各ブロックのパワPi (iはブロック番号
を示す)が有音/無音判定部3及びパワしきい値算出部
4に与えられる。
In FIG. 2, an audio input sample signal is input to a power calculation section 2 via an input terminal 1, and the power calculation section 2 divides it into blocks each having a fixed number of samples, and calculates the average power of the sample values of each block. Below Denkani, Pi (simply referred to as block power) is calculated. The power Pi of each block obtained in this way (i indicates the block number) is given to the voice/silence determination section 3 and the power threshold calculation section 4.

有音/無音判定部3は、パワPiと、パワしきい値算出
部4から入力される判定用パワしきい値Tiとを比較し
、パワPiがパワしきい値Ti以上のときに当該ブロッ
クiを有音ブロックと判定し、パワPiがパワしきい値
Tiより小さいときに当該ブロックiを無音ブロックと
判定して出力端子5を介して次段に出力する。
The sound/silence determining unit 3 compares the power Pi with a power threshold value Ti for determination inputted from the power threshold calculating unit 4, and when the power Pi is equal to or greater than the power threshold Ti, the block The block i is determined to be a sound block, and when the power Pi is smaller than the power threshold value Ti, the block i is determined to be a silent block and outputted to the next stage via the output terminal 5.

パワしきい値算出部4は、ブロック毎にパワしきい値を
更新する。ブロックiのパワPiがそのときのパワしき
い値Tiよりゆらぎ吸収オフセット値αを越えて小さい
ときには、すなわち、Pi<Ti−αのときには、次の
ブロックi+1のパワしきい値T1+1をTi1l =
Pi+αによって算出する。従って多少パワしきい値が
小さくなる。
The power threshold calculation unit 4 updates the power threshold for each block. When the power Pi of block i is smaller than the current power threshold Ti by more than the fluctuation absorption offset value α, that is, when Pi<Ti−α, the power threshold T1+1 of the next block i+1 is set as Ti1l =
Calculated by Pi+α. Therefore, the power threshold becomes somewhat smaller.

すなわち、パワしきい値Tiからゆらぎ吸収オフセット
値αを下まっな値Ti−αを現時点iまでにおけるパワ
の最小値と定義し、この最小値に背景雑音のパワのゆら
ぎ吸収係数αを加えた値を新たなブロックi+lのパワ
しきい値Ti÷1とする。
In other words, the value Ti - α that is the lowest value of the fluctuation absorption offset value α from the power threshold Ti is defined as the minimum value of power up to the current time i, and the power fluctuation absorption coefficient α of background noise is added to this minimum value. Let the value be the power threshold value Ti÷1 of the new block i+l.

他方、ブロックiのパワPiが、そのときのパワしきい
値Tiからゆらぎ吸収オフセット値αを減じた値までは
小さくないときには、すなわち、Pi≧Ti−αのとき
には、次のブロックi+1のパワしきい値Ti÷1とし
て今までのパワしきい値Tiを用いる。
On the other hand, when the power Pi of block i is not smaller than the value obtained by subtracting the fluctuation absorption offset value α from the power threshold value Ti at that time, that is, when Pi≧Ti−α, the power of the next block i+1 is The previous power threshold Ti is used as the threshold Ti÷1.

[発明が解決しようとする課題1 しかしながら、上述した方法では、パワがある程度小さ
い無音ブロックに対してはブロックパワの最小値を計算
し、これにオフセット値を加算して次のブロックの判定
のためのパワしきい値を適応的に制御するようにしてい
るが、有音ブロック及びパワしきい値に近い無音ブロッ
クに対しては、次のブロックの判定のためのパワしきい
値をそれまでのしき値と同一としているので、すなわち
、適応的な制御を行なっていないので、通話の途中で雑
音パワのレベルが大きく上昇した場合やパワしきい値に
近い雑音パワがさらに大きくなった場合には、雑音を誤
って有音と判定し続けてしまうという問題が生じていた
[Problem to be Solved by the Invention 1] However, in the above method, for a silent block whose power is small to a certain extent, the minimum value of the block power is calculated, and an offset value is added to this to determine the next block. The power threshold for the next block is controlled adaptively, but for a sound block or a silent block close to the power threshold, the power threshold for determining the next block is changed from the previous one. Since it is the same as the threshold, that is, no adaptive control is performed, so if the noise power level increases significantly during a call, or if the noise power close to the power threshold becomes even larger, , a problem has arisen in which noise is erroneously determined to be active.

本発明は、以上の点を考慮してなされたものであり、雑
音パワの大きな変動がある場合に雑音を誤って有音と判
定し続けるという問題を除去し、通話中に雑音パワが大
きく変動しても変動後の雑音パワを正しく推定し、雑音
パワの変動に追従し得るパワしきい値の適応的な設定を
可能とし、誤判定を減少させることができる音声区間検
出方式を提供しようとするものでする。
The present invention has been made in consideration of the above points, and eliminates the problem of continuously erroneously determining that noise is active when there is a large fluctuation in noise power. The present invention aims to provide a speech interval detection method that can accurately estimate the noise power after fluctuation even when the noise power fluctuates, enable adaptive setting of a power threshold that can follow fluctuations in noise power, and reduce false judgments. Do what you do.

[課題を解決するための手段] 本発明は、所定長のブロック毎に区切られている音声入
力信号から各ブロックのパワを算出するパワ算出手段と
、パワしきい値を算出して出力するパワしきい値算出手
段と、パワ算出手段で算出されたパワとパワしきい値算
出手段から出力されたパワしきい値とを比較して、パワ
がパワしきい値よりも大きいときに有音と判定し、パワ
がパワしきい値よりも小さいときに無音と判定する有音
/無音判定手段と、音声入力信号から各ブロックの零交
差回数及び最大零交差間隔を算出してパワしきい値算出
手段に与える零交差情報算出手段とを備えたものである
。パワしきい値算出手段が、実行するパワしきい値の算
出処理に特徴を有するものである。
[Means for Solving the Problems] The present invention provides a power calculating means for calculating the power of each block from an audio input signal divided into blocks of a predetermined length, and a power calculating means for calculating and outputting a power threshold value. The threshold calculation means compares the power calculated by the power calculation means with the power threshold output from the power threshold calculation means, and determines that there is a sound when the power is greater than the power threshold. voice/silence determination means for determining silence when the power is smaller than the power threshold; and power threshold calculation by calculating the number of zero crossings and maximum zero crossing interval of each block from the audio input signal. and zero-crossing information calculation means. The power threshold calculation means is characterized by the power threshold calculation processing that it executes.

パワしきい値算出手段が、実行するパワしきい値の算出
処理は、以下のようになされる。
The power threshold calculation process executed by the power threshold calculation means is performed as follows.

(a)有音/無音判定手段によって無音と判定された区
間が所定の第1の時間以上生じていれば、その区間の平
均パワを算出し、その最小値を第1の最小値として、こ
の値に一定の雑音パワのゆらぎ吸収係数を乗算して、こ
の乗算値を新しくパワしきい値とする。
(a) If the section determined to be silent by the sound/silence determining means occurs for a predetermined first time or longer, calculate the average power of that section, set the minimum value as the first minimum value, and The value is multiplied by a constant noise power fluctuation absorption coefficient, and this multiplied value is used as a new power threshold.

(b)現行のパワしきい値による判定で一旦有音となっ
た時点からは、この時刻を第1の時刻として、上記(a
)の処理と並行して、所定の第1の時間の平均パワを算
出し、この最小値を第2の最小値として求めていく。
(b) Once a sound is detected based on the judgment based on the current power threshold, this time is considered the first time and the above (a)
), the average power for a predetermined first time period is calculated, and this minimum value is determined as the second minimum value.

また、各ブロックの零交差回数と前ブロックの零交差回
数との差の絶対値が第1の一定値以内であることが連続
して第1の一定ブロック数以上生じているか、又は、ブ
ロックの最大零交差間隔と前ブロックの最大零交差間隔
の最大値との差の絶対値が第2の一定値以内であること
が連続して第2の一定ブロック数以上生じているかのい
ずれかを満たすブロックの数をカウントし、このカウン
ト値が第1の時刻から計測して所定の第2の時間内に、
所定値以上とならない場合に限り、第1の時刻から計測
して第2の時間だけ経過した時点で求められている第2
の最小値を上記(a)の処理における第1の最小値とし
て、これにゆらぎ吸収係数を乗じたものを新たにパワし
きい値として算出する。
Also, whether the absolute value of the difference between the number of zero crossings of each block and the number of zero crossings of the previous block is within the first certain value has occurred consecutively for a first certain number of blocks or more, or Either the absolute value of the difference between the maximum zero-crossing interval and the maximum value of the maximum zero-crossing interval of the previous block is within a second certain value occurs continuously for a second certain number of blocks or more. The number of blocks is counted, and this count value is measured from the first time within a predetermined second time,
Only when the value is not equal to or greater than the predetermined value, the second
The minimum value of is set as the first minimum value in the process of (a) above, and the value multiplied by the fluctuation absorption coefficient is calculated as a new power threshold value.

(C)第1の最小値が算出されてパワしきい値が更新さ
れたとき、及び、カウント値が所定値以上となったとき
に、カウント値をゼロクリアし、第2の最小値を初期値
にリセットする。
(C) When the first minimum value is calculated and the power threshold is updated, and when the count value exceeds a predetermined value, the count value is cleared to zero and the second minimum value is set to the initial value. Reset to .

[作用] 本発明は、基本的には、パワ算出手段が音声入力サンプ
ル信号の所定長のブロック毎のパワを算出し、このパワ
を有音/無音判定手段がパワしきい値算出手段から与え
られるパワしきい値と比較して判定を行なうものである
。また、パワしきい値算出手段が、ブロックのパワ、零
交差回数、最大零交差間隔及び有音/無音判定出力に基
づいて、パワしきい値を更新するものである。本発明は
、パワしきい値算出手段が実行するこのパワしきい値の
適応的な算出制御に特徴があるものである。
[Operation] Basically, in the present invention, the power calculating means calculates the power for each block of a predetermined length of the audio input sample signal, and the voice/silence determining means gives this power from the power threshold calculating means. The determination is made by comparing it with a power threshold value. Further, the power threshold calculation means updates the power threshold based on the power of the block, the number of zero crossings, the maximum zero crossing interval, and the voice/silence determination output. The present invention is characterized by the adaptive calculation control of the power threshold value executed by the power threshold calculation means.

以下に、このような適応的な算出制御を採用した理由に
ついて説明する。
The reason for adopting such adaptive calculation control will be explained below.

上記(a)の処理で、最小値を求めるのは、第1の時間
がある程度長ければ最小値を収り続けてもその値が雑音
の真の平均パワに近くなり、最小値を用いたパワしきい
値設定による検出感度が良好になるからである。
In the process (a) above, the minimum value is found because if the first time is long enough, even if the minimum value continues to fall, that value will be close to the true average power of the noise, and the power using the minimum value will be This is because the detection sensitivity by setting the threshold value becomes better.

しかし、通話の途中で雑音パワが大きく上昇した場合、
上記(a)の方法では平均パワの上昇した雑音に応じた
パワしきい値の設定ができない。
However, if the noise power increases significantly during a call,
With the method (a) above, it is not possible to set a power threshold according to noise with increased average power.

そこで、雑音と音声との次のような違いを利用する。音
声入力信号が雑音であれば、各ブロックでの零交差回数
及び最大零交差間隔は共にランダムに変化する。ところ
が、音声における母音部分では波形に周期性が現われ、
そのため、各ブロックでの零交差回数及び最大零交差間
隔が共にほぼ一定になる。
Therefore, the following differences between noise and speech are used. If the audio input signal is noise, both the number of zero crossings and the maximum zero crossing interval in each block change randomly. However, in the vowel part of speech, periodicity appears in the waveform,
Therefore, the number of zero crossings and the maximum zero crossing interval in each block are both approximately constant.

そこで、音声の平均長より長い第2の時間の中で零交差
回数及び最大零交差間隔がほぼ一定となる割合が一定値
(ブロックのカウント値)以上生じれば、その区間は音
声を含む区間と考えてこの区間ではパワしきい値の更新
を行なわない。逆に、第2の時間内に零交差回数及び最
大零交差間隔がほぼ一定となる割合が一定値以下であれ
ば、第2の時間中に雑音部分があり、その雑音部分の平
均パワを、上記(a)と同様に推定し、これを新しく雑
音パワとしてパワしきい値を更新する。
Therefore, if the rate at which the number of zero crossings and the maximum zero crossing interval are almost constant during the second time period, which is longer than the average length of the audio, is equal to or greater than a certain value (block count value), then that section is the section that includes the audio. Considering this, the power threshold value is not updated in this section. On the other hand, if the rate at which the number of zero crossings and the maximum zero crossing interval are approximately constant within the second time period is less than a certain value, there is a noise portion during the second time period, and the average power of the noise portion is Estimation is made in the same manner as in (a) above, and the power threshold is updated using this as new noise power.

無音が続いている状態でパワしきい値が更新されたとき
には、また、カウント値が所定値以上となったときには
、上記(b)の処理を最初からやり直すことができるよ
うに、上記(C)の処理によって初期状態とする。
When the power threshold is updated while silence continues, or when the count value exceeds a predetermined value, the above (C) is set so that the above process (b) can be restarted from the beginning. It is set to the initial state by processing.

[実施例] 以下、本発明の一実施例を図面を参照しながら説明する
[Example] Hereinafter, an example of the present invention will be described with reference to the drawings.

ここで、第1図はこの一実施例を示すブロック図である
Here, FIG. 1 is a block diagram showing this embodiment.

−の 、  几■ 第1図において、所定長毎のブロックに区切られている
音声入力サンプル信号は入力端子11を介してパワ算出
部12に与えられ、このパワ算出部12によって、各ブ
ロックの平均パワP(+)(電力を表している:iはブ
ロックの番号二辺下、単にブロックのパワと呼ぶ)が算
出されて有音/無音判定部13に与えられる。有音/無
音判定部13には、パワしきい値算出部14からパワし
きい値P th(i )が与えられており、各ブロック
のパワP(i)をパワしきい値Pth(i)と比較して
、有音/無音判定部13は、下記の(1)式に従って判
定する。
−の、几■ In FIG. 1, an audio input sample signal divided into blocks of a predetermined length is given to a power calculation section 12 via an input terminal 11, and the power calculation section 12 calculates the average of each block. The power P(+) (representing electric power: i is the number below the block number, simply referred to as the power of the block) is calculated and given to the voice/silence determining section 13. The voice/silence determination unit 13 is given a power threshold P th(i) from the power threshold calculation unit 14, and the power P(i) of each block is calculated as the power threshold Pth(i). In comparison, the sound/non-sound determining unit 13 makes a determination according to the following equation (1).

1(有音)  (P(i) >Pth(i))VD(i
)=                 ・・・(1)
0(無音)(P(i)≦Pth(i))このようにして
得られた判定出力VD(i)が出力端子15を介して次
段に出力される。
1 (sound) (P(i) >Pth(i)) VD(i
) = ... (1)
0 (silence) (P(i)≦Pth(i)) The judgment output VD(i) thus obtained is outputted to the next stage via the output terminal 15.

ブロックに区切られている音声入力サンプル信号はまた
、零交差回数算出部16に与えられる。
The audio input sample signal divided into blocks is also provided to the zero crossing number calculation unit 16.

零交差回数算出部16は、各ブロック内のサンプル信号
の符号反転回数である零交差回数(音声入力サンプル信
号の周波数情報を反映しており、母音と雑音では異なる
回数をとるものである)zC(i)を算出してパワしき
い値算出部14に与えると共に、各ブロック内のサンプ
ル信号にかかる零交差間隔を算出して最大零交差間隔検
出部17に与える。最大零交差間隔検出部17は、各ブ
ロックiの最大零交差間隔(音声入力サンプル信号の周
波数情報を反映しており、母音と雑音では異なる間隔を
とるものである) I ZCmax(i)を算出してパ
ワしきい値算出部14に与える。
The zero-crossing count calculation unit 16 calculates the zero-crossing count (reflects the frequency information of the audio input sample signal, and takes different counts for vowels and noise), which is the number of sign inversions of the sample signal in each block. (i) is calculated and given to the power threshold calculation section 14, and the zero-crossing interval of the sample signal in each block is calculated and given to the maximum zero-crossing interval detection section 17. The maximum zero-crossing interval detection unit 17 calculates the maximum zero-crossing interval (reflects the frequency information of the audio input sample signal, and takes different intervals for vowels and noise) IZCmax(i) for each block i. and gives it to the power threshold calculation section 14.

パワしきい値算出部14は、ブロックのパワP、零交差
回数ZC1最大零交差間隔IZCmaX及び有音/無音
判定出力VDに基づいて、パワしきい値pthを適応的
に算出して上述の有音/無音判定部13に与える。
The power threshold calculation unit 14 adaptively calculates the power threshold pth based on the power P of the block, the number of zero crossings ZC1, the maximum zero crossing interval IZCmaX, and the voice/silence determination output VD. The signal is given to the sound/silence determining section 13.

パワ Aい 、  ゛ 以下、パワしきい値算出部14が実行するパワしきい値
算出方法について説明する。
The power threshold calculation method executed by the power threshold calculation unit 14 will be described below.

パワしきい値P th(i )は、次の方法(i)又は
方法(ii)により更新される。
The power threshold P th(i) is updated by the following method (i) or method (ii).

(i)  現行のパワしきい値を用いた判定によって、
該有音・無音判定出力VDが無音と指示したブロックが
連続して所定のブロック数Nだけ生じる毎に、下記の計
算式に従ってパワしきい値pthを更新する。
(i) By determination using current power thresholds,
Every time a predetermined number N of blocks for which the sound/non-sound determination output VD indicates that there is no sound occur consecutively, the power threshold value pth is updated according to the following calculation formula.

P(i) = (ΣP(i−m/N       ・・
・(2)−Q Pmin(i)=min  (Pmin(i−1)、 
P(i))  −(3)Pth(i+1) =β−Pm
1n(i)       −(4)なお、これらの式は
ブロックiまでの連続するN個のブロックが無音判定ブ
ロックである場合であって、次のブロックi+1のパワ
しきい値pth(i+1)を算出する場合である。また
、βは1より大きい定数値である雑音パワのゆらぎ吸収
係数である。
P(i) = (ΣP(i-m/N...
・(2)-Q Pmin(i)=min (Pmin(i-1),
P(i)) −(3)Pth(i+1) =β−Pm
1n(i) - (4) These formulas are for the case where N consecutive blocks up to block i are silence judgment blocks, and the power threshold value pth(i+1) of the next block i+1 is calculated. This is the case. Further, β is a noise power fluctuation absorption coefficient which is a constant value larger than 1.

(ii)  第1の方法(+)に従っている状態におい
て、ブロックmについて有音判定がなされると、すなわ
ち、P(m) >Pth(m)となると、このブロック
m以降は、方法(+)に並行して方法(:i)の処理を
行なう。なお、この方法(ii)の処理を行なうように
なってから後述する所定の時間が経過するまでの間はパ
ワしきい値pthは更新されない。この方法(11)の
処理を行なっている後述する所定の時間は、この時間内
の背景雑音の影響をパワしきい値pthに反映させるよ
うな準備の演算を行なっている時間である。
(ii) In a state in which the first method (+) is followed, if a voice determination is made for block m, that is, if P(m) > Pth(m), from this block m onward, method (+) is applied. Processing of method (:i) is performed in parallel. Note that the power threshold pth is not updated until a predetermined time period described later has elapsed after the process of method (ii) is started. The predetermined time, which will be described later, during which the process of method (11) is performed is the time during which preparatory calculations are performed to reflect the influence of background noise on the power threshold value pth.

この第2の方法では、詳細には、以下の(i ia)さ
(i ic)の処理を行なう。
In detail, in this second method, the following processes (i ia) and (i ic) are performed.

(iia)−旦有音になると、この時刻t1以後からは
、所定のブロック数N毎にその区間のブロック間平均パ
ワを(2)式と同様な方法で算出し、得られたブロック
間平均パワを用いて(3)式と同様の方法でその最小値
P’ m1n(i)を求める。
(iia) - Once a sound is detected, from time t1 onwards, the inter-block average power in that section is calculated for each predetermined number of blocks N using a method similar to equation (2), and the obtained inter-block average power is Using the power, the minimum value P' m1n(i) is determined in the same manner as in equation (3).

(iib)この処理と並行して、零交差回数ZC(i)
と1ブロツク前の零交差回数ZC(i−1)との差の絶
対値を算出し、得られた絶対値が予め定まっている一定
値≦zth以下であるブロックが所定のブロック数N 
S Z th以上連続するが否かを判別する。
(iib) In parallel with this process, the number of zero crossings ZC(i)
The absolute value of the difference between and the number of zero crossings ZC(i-1) one block before is calculated, and the blocks for which the obtained absolute value is less than or equal to a predetermined constant value zth are determined to be the predetermined number N of blocks.
It is determined whether or not there are S Z th or more consecutive times.

また、最大零交差間隔IZCmax(i)と1ブロツク
前の最大零交差間隔I Z Cmax(i−1)の差の
絶対値を算出し、この絶対値が予め定まっている一定値
5IZth以下であるブロックが所定のブロック数N5
IZth以上連続しているが否かを判別する。
In addition, the absolute value of the difference between the maximum zero crossing interval IZCmax(i) and the maximum zero crossing interval IZCmax(i-1) one block before is calculated, and this absolute value is less than or equal to a predetermined constant value 5IZth. The block is the predetermined number of blocks N5
It is determined whether or not the number is continuous for IZth or more.

このような零交差回数の変化連続ブロック数又は最大零
交差間隔の変化連続ブロック数の判別で所定のブロック
数N S Z th又はN5IZthより大きいと判別
すると、母音ブロックカウンタのカウント値CZを1だ
けつインクリメントする。
When it is determined that the number of consecutive blocks changing in the number of zero crossings or the number of consecutive blocks changing in the maximum zero crossing interval is larger than the predetermined number of blocks N S Z th or N5IZth, the count value CZ of the vowel block counter is increased by 1. Increment by one.

そして、上述した有音になった時刻t1がら計測して所
゛定時間TA以内にカウント値CZが所定値c zth
以上にならない場合には、時刻t1がら所定時間TAだ
け経過した時刻t2において、上記(iia)の処理で
求まっている時刻t2での最小値P’ m1n(i)を
(3)式の左辺のpH1in(+)とし、(4)式を実
行してパワしきい値pthを算出する。
Then, the count value CZ reaches the predetermined value c zth within the predetermined time TA, measured from the time t1 when the sound is heard.
If this is not the case, at time t2 when a predetermined time TA has elapsed since time t1, the minimum value P' m1n(i) at time t2 found in the process (iia) above is calculated from the left side of equation (3). The pH is set to 1 in (+), and equation (4) is executed to calculate the power threshold pth.

(+ic)但し、上記(i)の方法によりパワしきい値
pthが更新された場合、及び、カウント値clが所定
時間TA内のある時点で所定値c zthを越えたとき
には、当該(ii)の方法に関する諸量をリセットする
(p′m1n(i)を初期値に置き換え、カウント値C
2をゼロクリアし、零交差回数ZC(i)の前ブロック
との差分値が一定以内のブロックの連続発生のカウント
及び最大零交差間隔IZCmax(i)の前ブロックと
の差分値が一定以内のブロックの連続発生のカウントを
ゼロクリアする)。
(+ic) However, if the power threshold pth is updated by the method in (i) above, and if the count value cl exceeds the predetermined value c zth at a certain point within the predetermined time TA, then (ii) Reset various quantities related to the method (replace p'm1n(i) with the initial value, count value C
2 is cleared to zero, and the count of successive occurrences of blocks where the difference value from the previous block in the number of zero crossings ZC(i) is within a certain level, and the block where the difference value from the previous block in the maximum zero crossing interval IZCmax(i) is within a certain level. (clears the count of consecutive occurrences to zero).

のパワ  い    ゛     t・次に、上述のよ
うに、パワしきい値を算出するようにした理由について
説明する。
Next, the reason why the power threshold is calculated as described above will be explained.

上記(i)の方法において最小値を求めていくようにし
たのは、ブロック数Nがある程度長ければ、最小値を取
り続′けてもその値が雑音の真の平均パワとごく近い値
となり、しがも、最小値によるしきい値設定は検出感度
上良好なものであるからである9 しかし、通話の途中で雑音パワが大きく上昇した場合、
上記(1)の方法では平均パワの上昇した雑音に応じた
パワしきい値を設定することができず、誤動作を増大さ
せてしまう。
The reason for finding the minimum value in method (i) above is that if the number of blocks N is long enough, even if you keep taking the minimum value, the value will be very close to the true average power of the noise. However, setting the threshold using the minimum value is good in terms of detection sensitivity.9 However, if the noise power increases significantly during a call,
In the method (1) above, it is not possible to set a power threshold according to the noise whose average power has increased, which increases malfunctions.

そこで、雑音と音声(特に母音)との次のような違いを
利用して、有音判定区間内の雑音パワに応じたパワしき
い値の設定を可能とした。
Therefore, by utilizing the following difference between noise and speech (particularly vowels), it is possible to set a power threshold according to the noise power within the voice determination interval.

音声入力信号が雑音であれば、母音のような周期的波形
をもたないので、短時間のブロックでの零交差回数や、
そのブロック内で生じる最大零交差間隔の値もランダム
に変化する。他方、音声における母音部分では波形に周
期性が現われ、そのため短時間のブロックでの零交差回
数が、相前後するブロックでほぼ一定になり、また、最
大零交差間隔もほぼ一定になる。
If the audio input signal is noise, it does not have a periodic waveform like a vowel, so the number of zero crossings in a short block,
The value of the maximum zero-crossing interval that occurs within that block also changes randomly. On the other hand, in the vowel part of speech, periodicity appears in the waveform, so the number of zero crossings in a short time block is almost constant in successive blocks, and the maximum zero crossing interval is also almost constant.

そこで、音声の平均長TOより長い一定区間(上述の所
定時間TA )の中で零交差回数ZC(i)及び最大零
交差間隔IZCmax(i)がほぼ一定となるブロック
割合が一定値(上述のカウント値CZth )以上であ
れば、その区間は音声を含む区間と考えて、この区間で
パワしきい値の更新を行なわない。逆に、一定時間TA
内に零交差回数ZC(i)及び最大零交差間隔IZCm
ax(i)がほぼ一定となる割合が一定値c zth以
下であれば、この−定時間TAの中に雑音部分があると
考えて、その雑音部分の平均パワを、上記(i)の方法
と同様にブロック数Nの平均パワの最小値を計算するこ
とで推定し、これを新しく雑音パワとしてパワしきい値
pthを更新するようにした。
Therefore, the proportion of blocks in which the number of zero crossings ZC(i) and the maximum zero-crossing interval IZCmax(i) are approximately constant within a certain period (the above-mentioned predetermined time TA) longer than the average length TO of the audio is a constant value (the above-mentioned predetermined time TA). If the count value CZth ) or more, that section is considered to be a section including audio, and the power threshold value is not updated in this section. On the contrary, TA for a certain period of time
The number of zero crossings ZC(i) and the maximum zero crossing interval IZCm
If the rate at which ax(i) is approximately constant is less than or equal to the constant value czth, it is assumed that there is a noise part in this - constant time TA, and the average power of that noise part is calculated using the method (i) above. Similarly, the minimum value of the average power of the number of blocks N is estimated, and this is used as a new noise power to update the power threshold pth.

すなわち、有音判定区間内の雑音部分を音声と雑音との
周波数上の特性の違いによって検出して、その検出され
た雑音部分のパワ情報によってパワしきい値を更新する
ようにした。
That is, the noise portion within the voice determination interval is detected based on the difference in frequency characteristics between speech and noise, and the power threshold is updated based on the power information of the detected noise portion.

叉旌旧Ω宏呈 上述の実施例によれば、現行のパワしきい値による判定
で無音が生じていれば、その無音区間のパワに基づいて
パワしきい値を更新し、他方、現行のパワしきい値によ
る判定で一旦有音となってからは、各ブロックの零交差
回数の前ブロックからの変動が一定値以内であることが
一定時間以上生じたときのブロック、又は、各ブロック
の最大零交差間隔の前ブロックからの変動が一定値以内
であることが一定時間以上生じたときのブロックの総数
を有音による周期性の検出に用い、この有音の割合が一
定時間内に一定値以下であるときに、この一定時間内に
雑音部分があると考え、この部分の雑音パワを所定ブロ
ック数の平均パワの最小値で推定し、これに基づいてパ
ワしきい値を更新するようにしたので、通話中に雑音パ
ワが大きく変動してもその変動した雑音パワを正しく推
定してパワしきい値の更新ができ、雑音パワ変動による
誤検出を軽減することができる。
According to the above embodiment, if silence occurs in the determination based on the current power threshold, the power threshold is updated based on the power of the silent section; Once the sound has been determined by the power threshold, the block when the change in the number of zero crossings from the previous block is within a certain value for a certain period of time or more, or the The total number of blocks in which the variation of the maximum zero-crossing interval from the previous block is within a certain value for a certain period of time is used to detect periodicity due to sound presence, and this percentage of sound presence remains constant within a certain time. When the value is less than or equal to this value, it is assumed that there is a noise part within this certain period of time, the noise power of this part is estimated by the minimum value of the average power of a predetermined number of blocks, and the power threshold is updated based on this. Therefore, even if the noise power fluctuates greatly during a call, the power threshold can be updated by correctly estimating the fluctuating noise power, and erroneous detection due to noise power fluctuations can be reduced.

皿ム実施」 なお、本発明はディジタル通信分野の各種システムだけ
でなく、音声区間の検出を要する各種システムに適用す
ることができる。
Incidentally, the present invention can be applied not only to various systems in the digital communication field, but also to various systems that require detection of voice sections.

また、(2)式に従ってブロック間パワ平均値を求める
N個のブロックは、ブロック1〜N、N+1〜2N、・
・・のように選定しても良く、また、ブロック1〜N、
2〜N+1.3〜N+2、・・・のように選定しても良
い。
In addition, the N blocks for which the inter-block power average value is calculated according to equation (2) are blocks 1 to N, N+1 to 2N, .
You may also select blocks 1 to N,
2 to N+1.3 to N+2, . . . may be selected.

[発明の効果1 以上のように、本発明によれば、現行のパワしきい値に
よる判定で無音が生じていればその無音区間のパワに基
づいてパワしきい値を更新し、他方、現行のパワしきい
値による判定で一旦有音となってからは、有音判定区間
内の雑音部分を音声と雑音との周波数上の特性の違いに
よって検出して、その検出された雑音部分のパワ情報に
よってパワしきい値を更新するようにしたので、通話中
に雑音パワが大きく変動してもその変動した雑音パワを
正しく推定してパワしきい値の更新を行なうことができ
、雑音パワ変動による誤検出を軽減することができる。
[Effect of the invention 1 As described above, according to the present invention, if silence occurs in the judgment based on the current power threshold, the power threshold is updated based on the power of the silent section; Once a voice is determined by the power threshold, the noise part within the voice judgment interval is detected based on the difference in frequency characteristics between the voice and the noise, and the power of the detected noise part is determined. Since the power threshold is updated based on the information, even if the noise power fluctuates greatly during a call, the power threshold can be updated by correctly estimating the fluctuating noise power. It is possible to reduce false detection caused by

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明による音声区間検出方式の一実施例を示
すブロック図、第2図は従来方式を示すブロック図であ
る。 12・・・パワ算出部、13・・・有音/無音判定部、
14・・・パワしきい値算出部、16・・・零交差回数
算出部、17・・・最大零交差間隔算出部。
FIG. 1 is a block diagram showing an embodiment of the voice section detection method according to the present invention, and FIG. 2 is a block diagram showing a conventional method. 12... Power calculation unit, 13... Sound/no-sound determination unit,
14... Power threshold calculation unit, 16... Zero crossing frequency calculation unit, 17... Maximum zero crossing interval calculation unit.

Claims (1)

【特許請求の範囲】 所定長のブロック毎に区切られている音声入力信号から
各ブロックのパワを算出するパワ算出手段と、パワしき
い値を算出して出力するパワしきい値算出手段と、上記
パワ算出手段で算出されたパワと上記パワしきい値算出
手段から出力されたパワしきい値とを比較して、パワが
パワしきい値よりも大きいときに有音と判定し、パワが
パワしきい値よりも小さいときに無音と判定する有音/
無音判定手段と、上記音声入力信号から各ブロックの零
交差回数及び最大零交差間隔を算出して上記パワしきい
値算出手段に与える零交差情報算出手段とを備えた音声
区間検出方式において、上記パワしきい値算出手段は、 (a)有音/無音判定手段によって無音と判定された区
間が所定の第1の時間以上生じていれば、その区間の平
均パワを算出し、その最小値を第1の最小値として、こ
の値に一定の雑音パワのゆらぎ吸収係数を乗算して、こ
の乗算値を新しくパワしきい値とし、 (b)現行のパワしきい値による判定で一旦有音となっ
た時点からは、この時刻を第1の時刻として、上記(a
)の処理と並行して、所定の第1の時間の平均パワを算
出し、この最小値を第2の最小値として求めていき、 各ブロックの零交差回数と前ブロックの零交差回数との
差の絶対値が第1の一定値以内であることが連続して第
1の一定ブロック数以上生じているか、又は、ブロック
の最大零交差間隔と前ブロックの最大零交差間隔の最大
値との差の絶対値が第2の一定値以内であることが連続
して第2の一定ブロック数以上生じているかのいずれか
を満たすブロックの数をカウントし、このカウント値が
第1の時刻から計測して所定の第2の時間内に、所定値
以上とならない場合に限り、第1の時刻から計測して第
2の時間だけ経過した時点で求められている第2の最小
値を第1の最小値として、これにゆらぎ吸収係数を乗じ
たものを新たにパワしきい値として算出し、 (c)第1の最小値が算出されてパワしきい値が更新さ
れたとき、及び、カウント値が所定値以上となったとき
に、カウント値をゼロクリアし、第2の最小値を初期値
にリセットする ことを特徴とする音声区間検出方式。
[Scope of Claims] Power calculation means for calculating the power of each block from an audio input signal divided into blocks of a predetermined length; power threshold calculation means for calculating and outputting a power threshold; The power calculated by the power calculation means is compared with the power threshold output from the power threshold calculation means, and when the power is greater than the power threshold, it is determined that there is a sound, and the power is Sound is determined to be silent when the power is less than the threshold value/
In the voice section detection method, the voice section detection method includes a silence determination means, and a zero crossing information calculation means that calculates the number of zero crossings and the maximum zero crossing interval of each block from the voice input signal and provides the calculated value to the power threshold calculation means. (a) If the section determined to be silent by the sound/silence determining section occurs for a predetermined first time or longer, the power threshold calculation means calculates the average power of the section, and calculates the minimum value thereof. As the first minimum value, this value is multiplied by a constant noise power fluctuation absorption coefficient, and this multiplied value is used as a new power threshold. From the time when
), calculate the average power for a predetermined first time, find this minimum value as the second minimum value, and calculate the number of zero crossings of each block and the number of zero crossings of the previous block. Either the absolute value of the difference is within the first certain value for a first certain number of blocks or more, or the maximum zero-crossing interval of the block and the maximum value of the maximum zero-crossing interval of the previous block. Count the number of blocks that satisfy either of the following conditions: the absolute value of the difference is within a second constant value, which occurs continuously for a second constant number of blocks, and this count value is measured from the first time. only when the value is not equal to or greater than the predetermined value within the predetermined second time, the second minimum value obtained at the time when the second time has elapsed from the first time is set to the first value. As the minimum value, multiply this value by the fluctuation absorption coefficient and calculate it as a new power threshold, (c) When the first minimum value is calculated and the power threshold is updated, and the count value A voice section detection method characterized in that when the count value becomes equal to or greater than a predetermined value, a count value is cleared to zero and a second minimum value is reset to an initial value.
JP1092817A 1989-04-14 1989-04-14 Voice section detection method Expired - Fee Related JP2944098B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1092817A JP2944098B2 (en) 1989-04-14 1989-04-14 Voice section detection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1092817A JP2944098B2 (en) 1989-04-14 1989-04-14 Voice section detection method

Publications (2)

Publication Number Publication Date
JPH02272836A true JPH02272836A (en) 1990-11-07
JP2944098B2 JP2944098B2 (en) 1999-08-30

Family

ID=14064978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1092817A Expired - Fee Related JP2944098B2 (en) 1989-04-14 1989-04-14 Voice section detection method

Country Status (1)

Country Link
JP (1) JP2944098B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015114674A1 (en) * 2014-01-28 2015-08-06 三菱電機株式会社 Sound collecting device, input signal correction method for sound collecting device, and mobile apparatus information system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015114674A1 (en) * 2014-01-28 2015-08-06 三菱電機株式会社 Sound collecting device, input signal correction method for sound collecting device, and mobile apparatus information system
CN105830152A (en) * 2014-01-28 2016-08-03 三菱电机株式会社 Sound collecting device, input signal correction method for sound collecting device, and mobile apparatus information system
JP6048596B2 (en) * 2014-01-28 2016-12-21 三菱電機株式会社 Sound collector, input signal correction method for sound collector, and mobile device information system
JPWO2015114674A1 (en) * 2014-01-28 2017-03-23 三菱電機株式会社 Sound collector, input signal correction method for sound collector, and mobile device information system
US9674607B2 (en) 2014-01-28 2017-06-06 Mitsubishi Electric Corporation Sound collecting apparatus, correction method of input signal of sound collecting apparatus, and mobile equipment information system

Also Published As

Publication number Publication date
JP2944098B2 (en) 1999-08-30

Similar Documents

Publication Publication Date Title
US5649055A (en) Voice activity detector for speech signals in variable background noise
JP4236726B2 (en) Voice activity detection method and voice activity detection apparatus
EP0979504B1 (en) System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
JP4995913B2 (en) System, method and apparatus for signal change detection
JP3297346B2 (en) Voice detection device
EP1521238A1 (en) Voice activity detection
JP2573352B2 (en) Voice detection device
EP1229520A2 (en) Silence insertion descriptor (sid) frame detection with human auditory perception compensation
KR930007298B1 (en) Circuit for detecting and suppressing pulse shaped interferences
EP2422343A1 (en) Pitch estimation
US7411985B2 (en) Low-complexity packet loss concealment method for voice-over-IP speech transmission
US20030220787A1 (en) Method of and apparatus for pitch period estimation
US20100125452A1 (en) Pitch range refinement
EP0882287A1 (en) System and method for error correction in a correlation-based pitch estimator
JP4551817B2 (en) Noise level estimation method and apparatus
US20120265526A1 (en) Apparatus and method for voice activity detection
EP0972283A1 (en) Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
US7254532B2 (en) Method for making a voice activity decision
JPH02272836A (en) Voice section detection system
JP2000250568A (en) Voice section detecting device
JP2002198918A (en) Adaptive noise level adaptor
JP3109978B2 (en) Voice section detection device
JP2624829B2 (en) Voice section detection method
JP2656069B2 (en) Voice detection device
JPS63281200A (en) Voice section detecting system

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees