JPH1091184A - Sound detection device - Google Patents

Sound detection device

Info

Publication number
JPH1091184A
JPH1091184A JP8241458A JP24145896A JPH1091184A JP H1091184 A JPH1091184 A JP H1091184A JP 8241458 A JP8241458 A JP 8241458A JP 24145896 A JP24145896 A JP 24145896A JP H1091184 A JPH1091184 A JP H1091184A
Authority
JP
Japan
Prior art keywords
sound
threshold value
voice
signal
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8241458A
Other languages
Japanese (ja)
Inventor
Shinichi Kawada
眞一 川田
Yoichiro Hosokawa
洋一郎 細川
Kenichi Aratatsu
健一 新立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP8241458A priority Critical patent/JPH1091184A/en
Publication of JPH1091184A publication Critical patent/JPH1091184A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To prevent a state of sound from continuing as a judgment by a sound detection in such a case as noises are suddenly increased in the surroundings and the noise level is maintained. SOLUTION: A speech detection circuit 4 compares a power level of an input signal Sin with a level of an adaptive threshold value ST set by an adaptive threshold value control circuit 3, and judges the state as sound when the level of the input signal Sin is higher than that of the threshold value, and judges as silence when the input is lower than the threshold value. Further, the sound detection circuit 4 is provided with a timer circuit 5 for measuring a succeeding time of sound after the sound detection circuit has judged the input signal as sound. The timer circuit 5 outputs a command signal 6 to an electric power calculation circuit 2 when a judgment signal C has become '1' after having continued for a fixed time T0 or longer, and commands the circuit to multiply the calculated mean electric power P of noises by k(>1.0) for outputting it.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、入力信号に含ま
れる雑音信号と音声信号との電力レベル差に基づいて音
声信号を検出する音声検出装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice detection device for detecting a voice signal based on a power level difference between a noise signal and a voice signal included in an input signal.

【0002】[0002]

【従来の技術】音声検出器は、TV会議システムのエコ
ーキャンセラや、電話など音声通信用の音声コーデック
(符号化・復号化装置)等の音声処理装置に使用される
もので、雑音信号と音声信号とが含まれている入力信号
から音声信号を検出する機能を有している。
2. Description of the Related Art A voice detector is used for a voice processing device such as an echo canceller of a TV conference system and a voice codec (encoding / decoding device) for voice communication such as a telephone. It has a function of detecting an audio signal from an input signal including the signal.

【0003】こうした音声信号の検出に際しては、入力
信号の電力レベルが所定のしきい値より大きいか、小さ
いかのみに基づいて、入力信号中に音声が含まれている
(有音)か、それとも雑音のみである(無音)かの判定
を行うことが可能である。しかし、音声処理装置の設置
場所が屋内であるか屋外であるかによって、雑音信号の
電力レベルは変化し、さらに同じ屋内で使用する場合で
も、そこでエアコン等が使用されているか否かによって
も、雑音の大きさは異なってくる。したがって、固定さ
れたしきい値による音声検出方法にあっては、装置の設
置場所の雑音レベルが変化する場合に、音声と誤まって
雑音を検出してしまう不都合があった。
In detecting such a voice signal, based on only whether the power level of the input signal is higher or lower than a predetermined threshold, the input signal contains voice (voice) or It is possible to determine whether there is only noise (silence). However, the power level of the noise signal changes depending on whether the voice processing device is installed indoors or outdoors, and even when used indoors, whether an air conditioner or the like is used there. The magnitude of the noise will be different. Therefore, in the voice detection method using a fixed threshold, when the noise level at the installation location of the device changes, there is a disadvantage that the noise is erroneously detected as a voice.

【0004】このような不都合を防止するためには、音
声処理装置が置かれている周囲の雑音レベルを算出し、
その雑音レベルより常に一定値だけ大きいレベルにしき
い値を設定し、このしきい値レベル以上の信号を検出す
る適応しきい値方法が有効である。
In order to prevent such inconvenience, the noise level around the voice processing device is calculated,
An adaptive thresholding method is effective in which a threshold is set to a level always higher than the noise level by a certain value, and a signal above the threshold level is detected.

【0005】図4には、従来の適応しきい値法による音
声検出装置の一例を示している。
FIG. 4 shows an example of a conventional voice detection apparatus using the adaptive threshold method.

【0006】図において、1は音声信号と雑音信号とが
入力されるマイクロフォン、2は電力算出回路である。
この電力算出回路2は、入力信号Sinの直前の短時間の
平均電力P(移動平均)を計算して、しきい値算出回路
3に出力する。しきい値算出回路3は、平均電力Pに一
定値を加算した適応しきい値ST を設定し、音声検出回
路4に出力している。音声検出回路4は、入力信号Sin
から有音/無音判定を行なうものであり、入力信号Sin
の電力レベルと、しきい値算出回路3で設定された適応
しきい値ST のレベルとを比較し、しきい値ST のレベ
ルより入力信号Sinのレべルの方が高ければ有音と判定
し、低ければ無音と判定している。この判定によって音
声検出回路4からは有音/無音判定信号Cが出力され
る。また、この有音/無音判定信号Cは電力算出回路2
及びしきい値算出回路3にも入力され、有音の場合に
は、平均電力Pの算出と適応しきい値ST の更新動作と
を停止させている。
In FIG. 1, reference numeral 1 denotes a microphone to which a voice signal and a noise signal are input, and 2 denotes a power calculation circuit.
The power calculation circuit 2 calculates the short-time average power P (moving average) immediately before the input signal S in and outputs the calculated power P to the threshold value calculation circuit 3. Threshold calculation circuit 3 sets an adaptive threshold S T obtained by adding a constant value to the average power P, and outputs the voice detection circuit 4. The voice detection circuit 4 receives the input signal S in
From the input signal S in
Yes and the power level is compared with the level of the adaptive threshold S T, which is set by the threshold value calculation circuit 3, the higher the better the leveling Le threshold S T input signal S in the level of It is determined to be sound, and if low, it is determined to be silent. By this determination, the voice detection circuit 4 outputs a voice / non-voice determination signal C. The sound / non-sound determination signal C is output from the power calculation circuit 2.
And also input to the threshold calculation circuit 3, when the sound is to stop the updating operation of the average power P calculated adaptive threshold S T of.

【0007】図5は、この音声検出装置の動作を説明す
る信号波形図である。
FIG. 5 is a signal waveform diagram for explaining the operation of the voice detection device.

【0008】同図(a)に示す音声は、同図(b)に示
す徐々に増大する周囲雑音とともにマイクロフォン1で
集音され、入力信号Sinとなる。
The sound shown in FIG. 1A is collected by the microphone 1 together with the gradually increasing ambient noise shown in FIG. 1B, and becomes an input signal S in .

【0009】同図(c)には、これら音声と雑音とが合
成された入力信号Sinから計算される平均電力Pと適応
しきい値ST とを示している。電力算出回路2では、有
音/無音判定信号Cに基づいて、無音区間だけで入力信
号Sinの平均電力値を計算しており、その短時間の平均
電力Pがしきい値算出回路3に出力される。適応しきい
値ST は、差分ΔPだけ平均電力Pより高いレべルに制
御され、音声検出回路4に出力されている。
[0009] FIG. (C) shows the average power P indicated threshold S T These voice and noise is calculated from the input signal S in, which is synthesized. The power calculation circuit 2 calculates the average power value of the input signal S in only the silent section based on the sound / non-speech determination signal C, and the short-time average power P is supplied to the threshold calculation circuit 3. Is output. Adaptive threshold S T is controlled to a high leveling Le than the average power P by the difference [Delta] P, is output to the voice detection circuit 4.

【0010】同図(d)には、音声検出回路4から出力
される有音/無音判定信号Cの波形を示している。音声
検出回路4では、入力信号Sinのレベルが適応しきい値
Tより高くなると有音と判定し、適応しきい値ST
り低い場合には、無音と判定する。そして、この有音/
無音判定信号Cが、それぞれ論理レベル1(以下、単に
「1」と記す)、論理レベル0(以下、単に「0」と記
す)の信号出力となる。
FIG. 1D shows the waveform of the sound / non-speech determination signal C output from the voice detection circuit 4. The speech detection circuit 4, voice and determine if the level of the input signal S in is higher than the adaptive threshold S T, is lower than the adaptive threshold S T, it is determined that the silence. And this sound /
The silence determination signal C is a signal output of a logical level 1 (hereinafter simply referred to as “1”) and a logical level 0 (hereinafter simply referred to as “0”).

【0011】ただし、有音から無音に変化するタイミン
グでは、一定時間、ここでは例えばTH だけ無音が継続
してはじめて、周囲雑音の平均電力Pの計算が再開さ
れ、音声検出回路4の有音/無音判定信号Cが「0」に
なる。この電力算出回路2に設定された時間TH は、い
わゆるハングオーバ時間であって、例えば電話などでは
話中なのに音声レベルが一時的に低下して、しきい値S
T を下回ったような場合でも、この時間TH の間だけ
は、音声検出回路4の出力を「1」に維持する働きをし
ている。
[0011] However, the timing of changing from voiced to silence certain time, wherein the first time is continuously silence only example T H, the calculation of the average power P of the ambient noise is resumed, sound of the voice detecting circuit 4 / The silence determination signal C becomes “0”. The power calculation circuit 2 time T H which is set to is a so-called hangover period, for example telephone voice levels for a busy like temporarily reduced, the threshold value S
Even if as below T, only during the time T H is a function of maintaining the output of the voice detection circuit 4 to "1".

【0012】図6は、周囲雑音が急激に増大した場合の
動作を説明するための信号波形図である。
FIG. 6 is a signal waveform diagram for explaining the operation when the ambient noise increases sharply.

【0013】図に示すように、例えば部屋の空調装置の
稼働を開始し、或いは、それまで閉められていたドアを
開けて室外からの騒音が入るなど、入力信号Sinがある
時点で急激に変化し、その変化量が適応しきい値ST
平均電力Pに対する差分ΔPを越えて、入力信号Sin
レベルが適応しきい値ST より高くなる場合がある。こ
のとき、音声検出回路4の出力である有音/無音判定信
号Cが「0」から「1」に変化する。この時点で、電力
算出回路2における平均電力Pの計算が停止され、しき
い値ST の更新も停止される。このように雑音レベルの
みが高くなって、適応しきい値ST が更新できないと、
入力信号Sinに雑音成分だけしか含まれていないにもか
かわらず、有音/無音判定信号Cがいつまでも「0」レ
ベルに戻らず、有音の判断が継続することとなる。
As shown in the figure, for example, the operation of the air conditioner in the room is started, or the door which has been closed until then is opened and noise from the outside enters, and the input signal S in suddenly rises at a certain point in time. changes, beyond the difference ΔP to the average power P of the amount of change is adaptive threshold S T, there is a case where the level of the input signal S in is higher than the adaptive threshold S T. At this time, the sound / non-speech determination signal C output from the voice detection circuit 4 changes from “0” to “1”. At this point, the calculation of the average power P is stopped at the power calculation circuit 2, also updates the threshold S T is stopped. In this way only the noise level is high, and the adaptive threshold S T can not update,
Even though only the noise component is included in the input signal S in , the sound / non-speech determination signal C does not return to the “0” level forever, and the sound determination continues.

【0014】[0014]

【発明が解決しようとする課題】上述のように、従来の
適応しきい値法による音声検出装置にあっては、周囲の
雑音レベルがしきい値を越える程に急激に高くなると、
それまで「0」であった有音/無音判定信号Cが「1」
に変化して有音と判定される。そして、有音と判定され
たら、その後は音声検出装置のしきい値ST が変らない
ために、同じ雑音レベルが維持された場合には、有音の
判断が継続するという問題があった。
As described above, in the conventional voice detection apparatus using the adaptive threshold method, when the surrounding noise level suddenly becomes higher as exceeding the threshold value,
The sound / non-speech determination signal C which was “0” until then becomes “1”
And it is determined that there is sound. Subsequently, upon determining that voice, to thereafter unchangeable threshold S T of the audio sensing device, when the same noise level is maintained, there is a problem that sound determination continues.

【0015】この発明は、このような課題を解決するた
めになされたもので、周囲雑音が急激に増大し、その雑
音レベルが維持されるような場合に、音声検出の判定で
有音の状態が継続することを防止した音声検出装置を提
供することを目的とするものである。
SUMMARY OF THE INVENTION The present invention has been made to solve such a problem, and when ambient noise increases rapidly and its noise level is maintained, a sound state is determined in the determination of voice detection. It is an object of the present invention to provide a voice detection device that prevents continuation.

【0016】[0016]

【課題を解決するための手段】請求項1に係る音声検出
装置は、入力信号に含まれる雑音信号と音声信号との電
力レベル差に基づいて音声信号を検出する音声検出装置
において、前記入力信号の電力レベルから、前記音声信
号を検出するためのしきい値を設定する適応しきい値制
御手段と、前記しきい値と前記入力信号とを比較して有
音/無音を判定する音声検出手段と、前記音声検出手段
で継続して有音と判定された時間を計る計時手段とを備
え、前記適応しきい値制御手段では、前記無音と判定さ
れている間は、前記しきい値を前記入力信号の電力レベ
ルに対応した値に設定し、前記計時手段にあらかじめ設
定された時間を越えて前記有音が検出されたときには、
前記しきい値を所定量だけ増加させるものである。
According to a first aspect of the present invention, there is provided a voice detecting apparatus for detecting a voice signal based on a power level difference between a noise signal and a voice signal included in the input signal. Adaptive threshold control means for setting a threshold value for detecting the audio signal from the power level of the audio signal, and audio detection means for comparing the threshold value with the input signal to determine presence / absence of sound And a timer for measuring the time continuously determined to be sound by the voice detection means, and the adaptive threshold control means sets the threshold to the threshold while the sound is determined to be silent. Set to a value corresponding to the power level of the input signal, and when the sound is detected for more than a predetermined time in the timing means,
The threshold value is increased by a predetermined amount.

【0017】請求項2に係る音声検出装置の適応しきい
値制御手段は、前記計時手段にあらかじめ設定された時
間を越えて前記有音が検出される毎に、前記しきい値を
所定量繰り返し増加させるものである。
The adaptive threshold value control means of the voice detection device according to claim 2 repeats the threshold value by a predetermined amount each time the sound is detected for a time exceeding a time preset in the time counting means. Is to increase.

【0018】請求項3に係る音声検出装置の適応しきい
値制御手段は、前記しきい値を所定の上限値以上にはし
ないものである。
According to a third aspect of the present invention, the adaptive threshold value control means of the voice detection device does not set the threshold value to a predetermined upper limit value or more.

【0019】[0019]

【発明の実施の形態】以下、添付した図面を参照して、
この発明の実施の形態を説明する。
BRIEF DESCRIPTION OF THE DRAWINGS FIG.
An embodiment of the present invention will be described.

【0020】図1は、本発明の音声検出装置の一例を示
すブロック図である。音声検出回路4は、入力信号Sin
から有音/無音判定を行なうものであり、入力信号Sin
の電力レベルと、しきい値算出回路3で設定された適応
しきい値ST のレベルとを比較し、しきい値ST のレベ
ルより入力信号Sinのレべルの方が高ければ有音と判定
し、低ければ無音と判定している。
FIG. 1 is a block diagram showing an example of a voice detection device according to the present invention. The voice detection circuit 4 receives the input signal S in
From the input signal S in
Yes and the power level is compared with the level of the adaptive threshold S T, which is set by the threshold value calculation circuit 3, the higher the better the leveling Le threshold S T input signal S in the level of It is determined to be sound, and if low, it is determined to be silent.

【0021】また音声検出装置は、音声検出回路4で有
音と判別された後の有音の継続時間を計るタイマ回路5
を備えている。このタイマ回路5は、有音/無音判定信
号Cが一定時間(T0 )以上、継続して「1」となった
ときに、電力算出回路2に指令信号6を出力して、既に
算出されている雑音の平均電力Pをk(>1.0)倍して
出力するように指令する。なお、図1において図4の従
来装置と同一符号を付してあるブロックや信号は、同一
又は対応するブロック及び信号を示している。また、し
きい値制御手段7とは、電力算出回路2としきい値算出
回路3とを含む回路構成を指している。
The voice detecting device includes a timer circuit 5 for measuring the duration of the voice after the voice detection circuit 4 determines that the voice is voiced.
It has. The timer circuit 5 outputs a command signal 6 to the power calculation circuit 2 when the sound / non-speech determination signal C continuously becomes “1” for a predetermined time (T 0 ) or more, and the timer signal 5 is already calculated. The average power P of the noise is multiplied by k (> 1.0) and output. In FIG. 1, blocks and signals denoted by the same reference numerals as those of the conventional device in FIG. 4 indicate the same or corresponding blocks and signals. Further, the threshold control means 7 indicates a circuit configuration including the power calculation circuit 2 and the threshold calculation circuit 3.

【0022】次に、図1の音声検出装置の動作を説明す
る。
Next, the operation of the voice detection device shown in FIG. 1 will be described.

【0023】同図において、電力算出回路2及びしきい
値算出回路3には有音/無音判定信号Cが入力され、有
音と判断された場合には、その平均電力Pの算出が停止
され、無音時の雑音の平均電力Pが継続してしきい値算
出回路3に出力される。その結果、適応しきい値ST
更新動作も、有音の場合には停止されることになる。
In the figure, a sound / non-speech determination signal C is input to a power calculation circuit 2 and a threshold value calculation circuit 3, and when it is determined that there is sound, the calculation of the average power P is stopped. , The average power P of the noise during silence is continuously output to the threshold value calculation circuit 3. As a result, operation of updating the adaptive threshold S T, will be stopped in case of voiced.

【0024】ここで、新たに追加されたタイマ回路5か
らの指令信号6は、有音/無音判定信号Cが一定時間
(T0 )以上、継続して「1」となったときに、電力算
出回路2に対して有音と判断される直前の雑音の平均電
力Pを逓倍してしきい値算出回路3に出力するように制
御する。これによって、電力算出回路2からしきい値算
出回路3に出力される平均電力Pは、有音区間と判定さ
れてから一定時間T0 が経過した後に、新しい値k×P
として出力される。
Here, the command signal 6 from the newly added timer circuit 5 is used when the presence / absence of the sound / non-speech determination signal C becomes "1" for a certain time (T 0 ) or more. The calculation circuit 2 is controlled so as to multiply the average power P of the noise immediately before the sound is determined to be sound and output the result to the threshold value calculation circuit 3. Thus, the average power P output from the power calculation circuit 2 to the threshold calculation circuit 3, after a predetermined time T 0 has elapsed since it is determined that the active interval, the new value k × P
Is output as

【0025】なお、必要に応じて音声検出回路4からの
有音/無音判定信号Cとともに音声出力Sout が、有音
区間で後段の図示しない音声処理装置へと出力される。
A sound output Sout is output together with a sound / non-sound determination signal C from the sound detection circuit 4 to a sound processing device (not shown) at a subsequent stage in a sound period as necessary.

【0026】さらに、上記音声検出装置の動作につい
て、図2に示すフローチャートによって説明する。
Further, the operation of the voice detecting device will be described with reference to a flowchart shown in FIG.

【0027】マイクロフォン1から入力された音声と背
景雑音とは入力信号Sinとして、電力算出回路2と音声
検出回路4に入力され、音声検出回路4で有音/無音判
定が実行される(ステップST1)。音声検出回路4で
しきい値ST より大きな入力信号Sinが検出されると、
有音/無音判定信号Cが「1」となって有音と判断され
(ステップST2)、ステップST3に進み、タイマ回
路5における計時動作が開始され、ハングオーバ時間T
H がセットされる(ステップST4)。
The voice and background noise input from the microphone 1 are input to the power calculation circuit 2 and the voice detection circuit 4 as an input signal S in , and the voice detection circuit 4 performs a sound / silence determination (step). ST1). When a large input signal S in is detected than the threshold S T voice detection circuit 4,
The sound / non-sound determination signal C becomes "1" and is determined to be a sound (step ST2), the process proceeds to step ST3, the timer circuit 5 starts a time counting operation, and the hangover time T
H is set (step ST4).

【0028】また、この音声検出回路4で、入力信号S
inがしきい値ST より小さいと判定されると、ステップ
ST5に進んで、ハングオーバ時間TH がタイムオーバ
しているか否かの判断が行なわれる。そして、ハングオ
ーバ時間TH がタイムオーバしている(TH ≦0)とき
には、有音/無音判定信号Cを「0」として(ステップ
ST6)、電力算出回路2で平均電力Pが算出される
(ステップST7)。ハングオーバ時間TH がタイムオ
ーバしていない(TH >0)ときには、有音/無音判定
信号Cを「1」として(ステップST8)、ハングオー
バ時間TH を単位時間ΔTH だけ低減して(ステップS
T9)、ステップST1に戻る。
Further, in the voice detection circuit 4, the input signal S
When in is determined that the threshold S T is less than, the flow proceeds to step ST5, it determines hangover time T H is whether or not the time over is performed. The hangover time T H is time-over (T H ≦ 0) Sometimes, the voice / silence decision signal C "0" (step ST6), the average power P is calculated by the power calculation circuit 2 ( Step ST7). Hangover time T H is not time-over (T H> 0) times, speech / silence decision signal C to "1" (step ST8), by reducing the hangover time T H by the unit time [Delta] T H (step S
T9), and return to step ST1.

【0029】タイマ回路5では、Δt毎に一定時間T0
が経過したか否かを判断して(ステップST10)、経
過していなければステップST1に戻る。そして、上述
の有音/無音判定が実行され、タイマ回路5により一定
時間T0 が経過したと判断されるまでステップST10
から、ステップST1〜4が繰り返し実行される。しか
し、この間に音声検出回路4でSin<ST がハングオー
バ時間TH 以上継続し、その出力である有音/無音判定
信号Cが「0」になれば、ステップST7に進み、電力
算出回路2での平均電力Pの算出が再開される。
In the timer circuit 5, a constant time T 0 is set at every Δt.
Is determined (step ST10), and if not, the process returns to step ST1. Then, the above-mentioned sound / non-sound determination is performed, and until the timer circuit 5 determines that the predetermined time T 0 has elapsed, the process proceeds to step ST10
Thereafter, steps ST1 to ST4 are repeatedly executed. However, S in <S T continues hangover time T H or more voice detection circuit 4 during this time, if voice / silence decision signal C which is the output to "0", the flow proceeds to step ST7, power calculation circuit The calculation of the average power P in 2 is restarted.

【0030】ステップST10において、タイマ回路5
で一定時間T0 が経過したとき、タイマ回路5から電力
算出回路2に対して指令信号6が出力される。これによ
り、電力算出回路2で算出された平均電力Pをk倍して
出力するようになる(ステップST11)。この平均電
力Pには、ステップST7において有音と判断される直
前に算出された値が使用される。
In step ST10, the timer circuit 5
When the predetermined time T 0 has elapsed, the command signal 6 is output from the timer circuit 5 to the power calculation circuit 2. As a result, the average power P calculated by the power calculation circuit 2 is multiplied by k and output (step ST11). As the average power P, a value calculated immediately before the sound is determined to be present in step ST7 is used.

【0031】その結果、しきい値算出回路3に出力され
る新しい平均電力Pの値が上昇し、しきい値算出回路3
では、新しい平均電力Pによってしきい値ST が更新さ
れる(ステップST12)。その後、タイマ回路5がリ
セットされ(ステップST13)、ステップST1に戻
って音声検出回路4で有音/無音判定が実行される。
As a result, the value of the new average power P output to the threshold value calculation circuit 3 increases,
In the threshold S T is updated with the new average power P (step ST12). After that, the timer circuit 5 is reset (step ST13), and the process returns to step ST1 and the sound detection circuit 4 performs the sound / non-speech determination.

【0032】このように、新しい平均電力Pに基づいて
更新されたしきい値ST が設定され、その更新されたし
きい値ST が音声検出回路4に入力するから、音声検出
回路4では前回とは異なる基準で有音/無音の判定が実
行される。そして、前回と同様に一定時間T0 が経過す
るまで、更新されたしきい値ST に基づいて、さらに有
音区間終了判定が繰り返し実行される。
[0032] Thus, the threshold S T, which is updated based on the new average power P is set, since the updated threshold S T is input to the voice detection circuit 4, the speech detection circuit 4 The sound / non-speech determination is performed based on a different reference from the previous time. Then, until a predetermined time has elapsed T 0 as before, based on the updated threshold value S T, it is repeatedly executed further sound interval end judgment.

【0033】なお、ステップST1で無音と判断された
後には、ステップST7で電力算出回路2での平均電力
Pの算出が再開され、ステップST12で新しい平均電
力Pに基づくしきい値ST に更新され(ステップST1
2)、タイマ回路5をリセットして(ステップST1
3)、ステップST1に戻って、有音/無音判定が繰り
返される。
[0033] Note that after it is determined that the silence in step ST1, the calculation of the average power P of the power calculation circuit 2 in step ST7 is restarted, updates the threshold S T based on the new average power P in step ST12 (Step ST1)
2) Reset the timer circuit 5 (step ST1)
3) Returning to step ST1, the sound / non-speech determination is repeated.

【0034】図3は、上述の音声検出装置の一連の動作
の具体例を示す信号波形図である。
FIG. 3 is a signal waveform diagram showing a specific example of a series of operations of the above-described voice detection device.

【0035】同図において、音声検出回路4における有
音/無音判定信号Cが「0」(無音)から「1」(有
音)に変化する時刻t1 までの動作は、従来の音声検出
装置(図4)の動作と全く同じである。本発明における
音声検出回路4では、有音/無音判定信号Cが「1」に
なると、タイマ回路5の計時動作がスタートする。タイ
マ回路5に設定されている一定時間(T0 )が経過する
までは、平均電力Pと適応しきい値ST は一定レベルを
保持する。
In the figure, the operation from time t 1 when the sound / non-speech determination signal C in the sound detection circuit 4 changes from “0” (silence) to “1” (sound) is the same as that of the conventional sound detection device. The operation is exactly the same as that shown in FIG. In the voice detection circuit 4 according to the present invention, when the presence / absence determination signal C becomes “1”, the timer circuit 5 starts the timekeeping operation. Until a certain time set in the timer circuit 5 (T 0) has elapsed, the adaptive threshold S T and the average power P maintains a constant level.

【0036】時刻t2 になると、電力算出回路2では最
後に算出された平均電力Pにk(>1.0)を乗じた値
(k×P)が新たな平均電力としてしきい値算出回路3
に入力され、これに伴い適応しきい値ST も同様に上昇
した値に更新される。この更新されたしきい値ST が、
図示のように入力信号Sinのレベルより高くなると、ハ
ングオーバ時間TH が経過した時刻t3 で、音声検出回
路4の有音/無音判定信号Cは「1」から「0」に変化
する。したがって、電力算出回路2では入力信号Sin
対応する平均電力Pの更新が再開され、これに伴って適
応しきい値ST の更新が再開される。
At time t 2 , the power calculating circuit 2 calculates a value (k × P) obtained by multiplying the average power P calculated last by k (> 1.0) as a new average power and sets the threshold calculating circuit 3
, And the adaptive threshold value ST is similarly updated to the increased value. This updated threshold ST is
It becomes higher than the level of the input signal S in as shown at time t 3 when the hangover time T H has elapsed, voice / silence decision signal C of the voice detecting circuit 4 is changed from "1" to "0". Therefore, updating of the average power P is resumed corresponding to the input signal in the power calculation circuit 2 S in the updating of the adaptive threshold S T is restarted accordingly.

【0037】図3に示す例では、周囲雑音によって有音
という判断が継続し、算出電力値を1回だけk倍するこ
とで、適応しきい値ST が入力信号Sinのレベルより高
くなるような周囲雑音が想定されている。しかし、雑音
の大きさや定数kの設定によっては、1回の逓倍操作だ
けでしきい値ST が入力信号Sinのレベルより高くなら
ないような場合も考えられる。そのような場合には、図
2のフローチャートに示すように、一定時間T0 が経過
する毎に徐々に算出電力値を高めていくことになる。
[0037] In the example shown in FIG. 3, continues to be determined that voiced by ambient noise, the calculated power value by multiplying once k, adaptive threshold S T is higher than the level of the input signal S in Such ambient noise is assumed. However, by setting the noise magnitude and constant k, it can be considered as the threshold S T is not higher than the level of the input signal S in with only a single multiplication operation. In such a case, as shown in the flowchart of FIG. 2, it will be gradually increased gradually calculated power value every time the predetermined time T 0 has elapsed.

【0038】なお、通常人間の話し言葉には、継続して
話を行っている場合でも、途中に必ず区切りや、途切れ
が入るので、音声信号を電力レベルで詳細に観察すれ
ば、その信号レベルは断続状態となっている。このた
め、図1のタイマ回路5における一定時間T0 を、例え
ば1〜10秒程度の幅で適当な値に選んでおけば、音声
信号によってしきい値ST が更新されてしまうおそれは
少ない。またたとえ、いったんしきい値ST が音声信号
によって更新されたとしても、その後に話が途切れれば
再び雑音のみによるしきい値ST の更新が行われるた
め、適切なしきい値ST に戻すことが可能である。
It is to be noted that, even when speech is normally spoken by a human, even if speech is continued, breaks and breaks always occur in the middle, so that if the audio signal is observed in detail at the power level, the signal level will be It is in an intermittent state. For this reason, if the fixed time T 0 in the timer circuit 5 of FIG. 1 is selected to be an appropriate value within a range of, for example, about 1 to 10 seconds, there is little possibility that the threshold value ST is updated by the audio signal. . The example, once for the threshold S T is even updated by the audio signal, after which the threshold updating S T only by again noise if Togirere talk takes place, be returned to the appropriate threshold ST Is possible.

【0039】以上説明したように、上記音声検出装置に
おいては、有音となった後も一定時間経過後に適応しき
い値ST を変化させているから、周囲雑音が急激に変化
して雑音を音声とする誤った検出をした場合でも、繰り
返し周囲雑音に対応して確実に有音/無音の判定を行な
うことができる。
As described above, in the above-described speech detection device, the adaptive threshold value ST is changed after a certain period of time has elapsed even after a sound is produced. Even if erroneous detection of voice is made, it is possible to reliably determine the presence or absence of sound in response to repeated ambient noise.

【0040】上述の実施の形態を変形して、入力信号S
inの平均電力Pの算出値、或いは適応しきい値ST のい
ずれかに上限を設け、それらの値が一定レベル以上にな
らないように制限して音声検出を行う装置を構成するこ
とも可能である。このような音声検出装置では、例えば
BGMのような音楽演奏などを音声信号とする入力信号
inのように、音声の連続した入力があった場合にも、
通常の周囲雑音が取り得る電力値より適応しきい値ST
の上限を高く設定しておけば、音声検出動作を保障でき
る。
By modifying the above-described embodiment, the input signal S
calculated value of the average power P in, or an upper limit to either the adaptive threshold S T provided to limit such that their values are not above a certain level is also possible to configure the apparatus to perform voice detection is there. In such a voice detection device, even when there is a continuous input of voice, such as an input signal S in which a music performance such as BGM is used as a voice signal,
Adaptive threshold S T from the power values that can take the normal ambient noise
If the upper limit is set high, the voice detection operation can be guaranteed.

【0041】また、上記電力算出回路2では所定の係数
kを平均電力Pに掛けて、新しい電力値を算出している
が、所定値ΔPを加算するものであってもよい。
Although the power calculation circuit 2 calculates a new power value by multiplying the average power P by a predetermined coefficient k, the power calculation circuit 2 may add a predetermined value ΔP.

【0042】さらに、上記音声検出装置では、タイマ回
路5の指令信号6は電力算出回路2に対する指令であっ
たが、例えばタイマ回路5の指令信号6をしきい値算出
回路3に供給して、有音となった後も、平均電力Pの値
はそのままに保持し、適応しきい値ST だけを一定時間
0 が経過する毎に徐々に高めるように制御するように
構成してもよい。
Further, in the above-mentioned voice detecting device, the command signal 6 of the timer circuit 5 is a command to the power calculation circuit 2. For example, the command signal 6 of the timer circuit 5 is supplied to the threshold value calculation circuit 3, even after a voice, the value of the average power P is held as it is, or may be configured to control only the adaptive threshold S T to increase gradually every time a predetermined time has elapsed T 0 .

【0043】したがって、請求項1に記載した「しきい
値を所定量だけ増加させる」とは、「所定の割合での増
加」及び「所定値の増加」並びにこれらの組合せを含む
意味に解するべきである。
Therefore, the expression "increase the threshold value by a predetermined amount" described in claim 1 means "increase at a predetermined ratio", "increase of a predetermined value", and a combination thereof. Should.

【0044】[0044]

【発明の効果】この発明の音声検出装置は、以上に説明
したように構成されているので、周囲雑音が急激に変化
した場合にも、新たな周囲雑音に対応してしきい値を更
新して、確実に有音/無音の判定を行なうことができ
る。
As described above, the speech detection device of the present invention is configured as described above, so that even when the ambient noise changes rapidly, the threshold value is updated in accordance with the new ambient noise. As a result, it is possible to reliably determine the presence or absence of sound.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の音声検出装置の一例を示すブロック
図である。
FIG. 1 is a block diagram illustrating an example of a voice detection device according to the present invention.

【図2】 図1の音声検出装置の動作を示すフローチャ
ートである。
FIG. 2 is a flowchart illustrating an operation of the voice detection device in FIG. 1;

【図3】 図1の音声検出装置の動作の具体例を示す信
号波形図である。
FIG. 3 is a signal waveform diagram showing a specific example of the operation of the voice detection device in FIG.

【図4】 従来の適応しきい値法による音声検出装置の
一例を示すブロック図である。
FIG. 4 is a block diagram illustrating an example of a conventional voice detection device using an adaptive threshold method.

【図5】 図4の音声検出装置の動作を説明する信号波
形図である。
FIG. 5 is a signal waveform diagram illustrating an operation of the voice detection device in FIG.

【図6】 周囲雑音が急激に増大した場合の動作を説明
するための信号波形図である。
FIG. 6 is a signal waveform diagram for explaining an operation in a case where ambient noise increases rapidly.

【符号の説明】[Explanation of symbols]

1 マイクロフォン、 2 電力算出回路、 3 しき
い値算出回路、 4音声検出回路、 5 タイマ回路、
6 指令信号、 7 しきい値制御手段、Sin 入力
信号、 ST 適応しきい値、 P 雑音の平均電力、
C 有音/無音判定信号。
1 microphone, 2 power calculation circuit, 3 threshold value calculation circuit, 4 voice detection circuit, 5 timer circuit,
6 instruction signal 7 the threshold control unit, S in the input signal, S T adaptive threshold, the average power of P noise,
C Voice / silence determination signal.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 入力信号に含まれる雑音信号と音声信号
との電力レベル差に基づいて音声信号を検出する音声検
出装置において、 前記入力信号の電力レベルから、前記音声信号を検出す
るためのしきい値を設定する適応しきい値制御手段と、 前記しきい値と前記入力信号とを比較して有音/無音を
判定する音声検出手段と、 前記音声検出手段で継続して有音と判定された時間を計
る計時手段とを備え、 前記適応しきい値制御手段では、前記無音と判定されて
いる間は、前記しきい値を前記入力信号の電力レベルに
対応した値に設定し、前記計時手段にあらかじめ設定さ
れた時間を越えて前記有音が検出されたときには、前記
しきい値を所定量だけ増加させることを特徴とする音声
検出装置。
1. A voice detection device for detecting a voice signal based on a power level difference between a noise signal and a voice signal included in an input signal, wherein the voice signal is detected from a power level of the input signal. Adaptive threshold value control means for setting a threshold value; sound detection means for comparing the threshold value with the input signal to determine sound / non-speech; The adaptive threshold value control means sets the threshold value to a value corresponding to the power level of the input signal while it is determined that the sound is silent. A voice detecting device, wherein when the sound is detected for a time longer than a preset time in a timer, the threshold value is increased by a predetermined amount.
【請求項2】 前記適応しきい値制御手段は、前記計時
手段にあらかじめ設定された時間を越えて前記有音が検
出される毎に、前記しきい値を所定量繰り返し増加させ
ることを特徴とする請求項1に記載の音声検出装置。
2. The apparatus according to claim 1, wherein said adaptive threshold value control means repeatedly increases said threshold value by a predetermined amount each time said sound is detected for a time exceeding a time preset in said timekeeping means. The voice detection device according to claim 1.
【請求項3】 前記適応しきい値制御手段は、前記しき
い値を所定の上限値以上にはしないことを特徴とする請
求項2に記載の音声検出装置。
3. The apparatus according to claim 2, wherein said adaptive threshold value control means does not set said threshold value to a predetermined upper limit value or more.
JP8241458A 1996-09-12 1996-09-12 Sound detection device Pending JPH1091184A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8241458A JPH1091184A (en) 1996-09-12 1996-09-12 Sound detection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8241458A JPH1091184A (en) 1996-09-12 1996-09-12 Sound detection device

Publications (1)

Publication Number Publication Date
JPH1091184A true JPH1091184A (en) 1998-04-10

Family

ID=17074621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8241458A Pending JPH1091184A (en) 1996-09-12 1996-09-12 Sound detection device

Country Status (1)

Country Link
JP (1) JPH1091184A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005215204A (en) * 2004-01-28 2005-08-11 Ntt Docomo Inc Device and method for judging voiced or unvoiced
US7283953B2 (en) * 1999-09-20 2007-10-16 International Business Machines Corporation Process for identifying excess noise in a computer system
JP2008170789A (en) * 2007-01-12 2008-07-24 Raytron:Kk Voice section detection apparatus and voice section detection method
US8442817B2 (en) 2003-12-25 2013-05-14 Ntt Docomo, Inc. Apparatus and method for voice activity detection
JP2013235032A (en) * 2012-05-02 2013-11-21 Nintendo Co Ltd Information processing program, information processing device, information processing system and information processing method
JP5863928B1 (en) * 2014-10-29 2016-02-17 シャープ株式会社 Audio adjustment device
JP2018081277A (en) * 2016-11-18 2018-05-24 富士通株式会社 Voice activity detecting method, voice activity detecting apparatus, and voice activity detecting program

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7283953B2 (en) * 1999-09-20 2007-10-16 International Business Machines Corporation Process for identifying excess noise in a computer system
US8442817B2 (en) 2003-12-25 2013-05-14 Ntt Docomo, Inc. Apparatus and method for voice activity detection
JP2005215204A (en) * 2004-01-28 2005-08-11 Ntt Docomo Inc Device and method for judging voiced or unvoiced
JP4601970B2 (en) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ Sound / silence determination device and sound / silence determination method
JP2008170789A (en) * 2007-01-12 2008-07-24 Raytron:Kk Voice section detection apparatus and voice section detection method
JP4607908B2 (en) * 2007-01-12 2011-01-05 株式会社レイトロン Speech segment detection apparatus and speech segment detection method
JP2013235032A (en) * 2012-05-02 2013-11-21 Nintendo Co Ltd Information processing program, information processing device, information processing system and information processing method
EP2660712A3 (en) * 2012-05-02 2017-05-03 Nintendo Co., Ltd. Information processing program, information processing device, information processing system and information processing method
JP5863928B1 (en) * 2014-10-29 2016-02-17 シャープ株式会社 Audio adjustment device
WO2016067644A1 (en) * 2014-10-29 2016-05-06 シャープ株式会社 Speech adjustment device
JP2016085420A (en) * 2014-10-29 2016-05-19 シャープ株式会社 Voice adjustment device
JP2018081277A (en) * 2016-11-18 2018-05-24 富士通株式会社 Voice activity detecting method, voice activity detecting apparatus, and voice activity detecting program

Similar Documents

Publication Publication Date Title
JP4282659B2 (en) Voice section detection apparatus and method for voice signal processing apparatus
US6574601B1 (en) Acoustic speech recognizer system and method
JP4236726B2 (en) Voice activity detection method and voice activity detection apparatus
US7069221B2 (en) Non-target barge-in detection
JP3363630B2 (en) Voice recognition method
JP3984526B2 (en) Spoken dialogue system and method
US6411927B1 (en) Robust preprocessing signal equalization system and method for normalizing to a target environment
US20020087306A1 (en) Computer-implemented noise normalization method and system
US20060247927A1 (en) Controlling an output while receiving a user input
JP2003524794A (en) Speech endpoint determination in noisy signals
US20080249779A1 (en) Speech dialog system
JP2004514926A (en) Control method of device provided with sound output means
WO2004015686A1 (en) Method for automatic speech recognition
JPS62274941A (en) Audio coding system
JP2586827B2 (en) Receiver
GB2347252A (en) Voice recognition system
JPH1091184A (en) Sound detection device
JP4551817B2 (en) Noise level estimation method and apparatus
US5054078A (en) Method and apparatus to suspend speech
JP3524370B2 (en) Voice activation system
JP2005534257A (en) Method for fast dynamic estimation of background noise
KR100200635B1 (en) The echo canceller and control method therefor in video conference system
JP3877271B2 (en) Audio cancellation device for speech recognition
JP2002198918A (en) Adaptive noise level adaptor
JP4552368B2 (en) Device control system, voice recognition apparatus and method, and program

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020813