JP3160228B2 - Voice section detection method and apparatus - Google Patents

Voice section detection method and apparatus

Info

Publication number
JP3160228B2
JP3160228B2 JP11282297A JP11282297A JP3160228B2 JP 3160228 B2 JP3160228 B2 JP 3160228B2 JP 11282297 A JP11282297 A JP 11282297A JP 11282297 A JP11282297 A JP 11282297A JP 3160228 B2 JP3160228 B2 JP 3160228B2
Authority
JP
Japan
Prior art keywords
value
power
frame
maximum value
voice section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP11282297A
Other languages
Japanese (ja)
Other versions
JPH10301593A (en
Inventor
徹 都木
信正 清山
篤 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP11282297A priority Critical patent/JP3160228B2/en
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to US09/202,867 priority patent/US6236970B1/en
Priority to CA002392849A priority patent/CA2392849C/en
Priority to EP98917743A priority patent/EP0944036A4/en
Priority to EP08005875A priority patent/EP1944753A3/en
Priority to EP04027925A priority patent/EP1517299A3/en
Priority to KR1019980710777A priority patent/KR100302370B1/en
Priority to PCT/JP1998/001984 priority patent/WO1998049673A1/en
Priority to CA002258908A priority patent/CA2258908C/en
Priority to CN98800566A priority patent/CN1117343C/en
Publication of JPH10301593A publication Critical patent/JPH10301593A/en
Priority to NO19986172A priority patent/NO317600B1/en
Priority to US09/781,634 priority patent/US6374213B2/en
Application granted granted Critical
Publication of JP3160228B2 publication Critical patent/JP3160228B2/en
Priority to CNB031192599A priority patent/CN1198263C/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、放送番組中や録音
テープあるいは日常生活で、雑音や背景音を伴って発声
された音声を加工して声の高さや話す速さを変えたり、
意味内容を機械的に認識したり、符号化して伝送あるい
は記録する場合などに、入力信号中の音声区間と、非音
声区間とを判別する音声区間検出方法およびその装置に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to processing a voice uttered with noise or background sound during a broadcast program, on a recording tape, or in daily life, to change the pitch or the speed of speech.
The present invention relates to a voice section detection method and apparatus for discriminating between a voice section and a non-voice section in an input signal when mechanically recognizing or encoding or transmitting or recording the meaning.

【0002】[発明の概要]本発明は、入力信号データ
に対し、所定の時間間隔毎に、所定の時間幅を有するフ
レーム単位で、そのパワーを算出し、過去の所定の時間
内におけるパワーの最大値と、最小値とを保持するとと
もに、その最大値、ならびに最大値と最小値との差に応
じて変化するパワーに関するしきい値を用いて、入力信
号中の音声と背景音とのそれぞれのパワーの変化に逐
次、適応しながら、フレーム毎に音声区間と、非音声区
間との判別を行なうことにより、入力信号中の音声区間
を正確に検出して、放送番組中や録音テープあるいは日
常生活で、雑音や背景音を伴って発声された音声を加工
して声の高さや話す速さを変えたり、意味内容を機械的
に認識したり、符号化して伝送あるいは記録する場合な
どに、加工音声の音質の向上、音声認識率の改善、符号
化効率の上昇や復号化音声の品質向上などを図る。
[Summary of the Invention] The present invention calculates the power of input signal data at predetermined time intervals in frame units having a predetermined time width, and calculates the power of the power within a predetermined time in the past. The maximum value and the minimum value are held, and the maximum value and the threshold value regarding the power that changes in accordance with the difference between the maximum value and the minimum value are used to determine each of the voice and the background sound in the input signal. The sound section and the non-speech section are discriminated for each frame while sequentially adapting to the power change, so that the sound section in the input signal can be accurately detected, so that the sound section can be accurately detected in the broadcast program, on a recording tape, or on a daily basis. In daily life, when processing voice uttered with noise and background sound to change the pitch and speaking speed, mechanically recognize the meaning, encode and transmit or record, etc. Processing sound The improvement, improvement of speech recognition rate, aim and quality increase and decoding speech coding efficiency.

【0003】さらに、パワーという比較的、簡便に求め
られる特徴量のみを用いることにより、演算時間を短く
するとともに、コストを低減させ、リアルタイムに音声
処理を行なうことを可能にする。
Further, by using only a relatively simple characteristic amount of power, the calculation time can be reduced, the cost can be reduced, and voice processing can be performed in real time.

【0004】[0004]

【従来の技術】従来の音声区間検出方式の1つとして、
音声信号のパワーなどを基に、雑音レベル、音声レベル
などを算出し、この算出結果に基づいてレベルしきい値
を設定し、このレベルしきい値と、入力信号とを比較し
て、入力信号のレベルが大である場合に、これを音声区
間と判定し、また小である場合に、これを非音声区間と
判定する方式が知られている。
2. Description of the Related Art As one of conventional voice section detection methods,
Calculate noise level, audio level, etc. based on the power of the audio signal, etc., set a level threshold based on the calculation result, compare this level threshold with the input signal, When the level of is high, it is determined to be a voice section, and when the level is low, it is determined to be a non-voice section.

【0005】この方式で用いるレベルしきい値を設定す
る方法としては、代表的な第1〜第3の方式があり、第
1の方式では、音声入力時の雑音レベル値に、予め定め
られている定数を加算した値をレベルしきい値とする。
またこれを改良した第2の方式では、入力音声信号レベ
ル最大値から雑音レベル値を減算した値が大であるとき
には、比較的大きい値に前記レベルしきい値を設定し、
小であるときには、比較的小さい値に前記レベルしきい
値を設定する(例えば、特開昭58−130395号公
報、特開昭61−272796号公報など)。
As methods for setting the level threshold value used in this method, there are representative first to third methods. In the first method, a noise level value at the time of voice input is determined in advance. The value obtained by adding the constants is used as the level threshold.
In a second method that improves this, when the value obtained by subtracting the noise level value from the maximum value of the input audio signal level is large, the level threshold is set to a relatively large value,
If it is small, the level threshold is set to a relatively small value (for example, Japanese Patent Application Laid-Open Nos. 58-130395 and 61-272796).

【0006】また、第3の方式では、これらの各レベル
しきい値の設定方法に加え、入力信号を連続的に観測
し、そのレベルが一定の時間以上にわたって定常なと
き、これを雑音レベルと見なし、逐次、雑音レベルを更
新しながら、音声区間検出のためのしきい値を設定する
(平成7年、電子情報通信学会総合大会講演論文集D−
695、301頁)。
In the third method, in addition to the method of setting these level thresholds, the input signal is continuously observed, and when the level of the input signal is stationary for a certain period of time or more, the level is regarded as a noise level. Assuming, successively updating the noise level and setting a threshold value for voice section detection (1995, IEICE General Conference Proceedings D-
695, 301).

【0007】[0007]

【発明が解決しようとする課題】しかしながら、上述し
た従来の音声区間検出方式においては、次に述べるよう
な問題があった。
However, the above-described conventional voice section detection method has the following problems.

【0008】まず、第1の方式は、簡便であるという利
点を持ち、音声の平均的なレベルが中程度の場合には、
うまく機能するものの、音声の平均的なレベルが大き過
ぎる場合には、雑音などを音声として誤検出し易く、ま
た小さ過ぎる場合には、音声の一部が欠落して検出され
易いという問題があった。
First, the first method has an advantage of being simple, and when the average level of the sound is medium,
Although it works well, if the average level of the voice is too high, noise or the like is likely to be erroneously detected as voice, and if it is too low, there is a problem that the voice is partially missing and easily detected. Was.

【0009】また、第2の方式は、このような第1の方
式の問題を解決することができるものの、入力信号中の
雑音や背景音のレベルがほぼ一定であることを前提にし
ていることから、音声のレベル変動に対しては、これに
追随するが、雑音や背景音のレベルが時々刻々、変化し
た場合には、正確な音声区間の検出が保証されていない
という問題があった。
The second method can solve the problem of the first method, but assumes that the level of noise and background sound in the input signal is substantially constant. Therefore, although the sound level fluctuation follows the fluctuation, if the level of the noise or the background sound changes every moment, there is a problem that the accurate detection of the sound section is not guaranteed.

【0010】また、第3の方式では、このような雑音レ
ベルの変動を考慮していることから、雑音レベルが逐
次、変化しても、誤検出が発生しない。
In the third method, since such a change in the noise level is taken into consideration, no erroneous detection occurs even if the noise level changes sequentially.

【0011】しかしながら、放送番組などでは、雑音の
みならず、効果音として、音楽や擬音などの背景音が存
在し、それらのレベルが時々刻々、変動するのが一般的
であり、しかもこれと同時に音声が常に発せられ続け、
入力信号レベルが一定時間以上にわたって定常になるこ
とが殆ど無いこともあり、このような場合には、第3の
方式でも、雑音レベルを正しく設定することができず、
音声区間を正確に検出することが難しいという問題があ
った。
However, in broadcast programs and the like, not only noise but also background sounds such as music and onomatopoeia exist as sound effects, and their levels generally fluctuate every moment. The sound is always emitted,
In some cases, the input signal level rarely becomes steady over a certain period of time. In such a case, the noise level cannot be set correctly even with the third method.
There is a problem that it is difficult to accurately detect a voice section.

【0012】本発明は上記の事情に鑑み、請求項1で
は、入力音声と、背景音とをそれぞれのレベルの変化に
逐次、適応しながら、リアルタイムで音声処理を行なっ
て、音声区間と、非音声区間とを判別することができる
音声区間検出方法を提供することを目的としている。
In view of the above circumstances, according to the present invention, the voice processing is performed in real time while sequentially adapting the input voice and the background sound to changes in the respective levels, and the voice section and the non-voice section are processed. It is an object of the present invention to provide a voice section detection method that can determine a voice section.

【0013】また、請求項2では、パワーという比較
的、簡便に求められる特徴量のみを用いていることか
ら、演算時間を短くするとともに、コストを低減させな
がら、入力音声と、背景音とをそれぞれのレベルの変化
に逐次、適応して、リアルタイムで音声処理を行なっ
て、音声区間と、非音声区間とを判別することができる
音声区間検出装置を提供することを目的としている。
According to the second aspect of the present invention, since only a relatively simple feature amount called power is used, the input sound and the background sound can be reduced while shortening the operation time and reducing the cost. It is an object of the present invention to provide a voice section detection device capable of performing voice processing in real time by sequentially adapting to changes in each level and discriminating between voice sections and non-voice sections.

【0014】[0014]

【課題を解決するための手段】上記の目的を達成するた
めに、本発明による音声区間検出方法では、入力された
信号データに対して、所定の時間間隔毎に、所定のフレ
ーム幅でフレームパワーを算出するとともに、過去の所
定の時間内のフレームパワーの最大値および最小値を保
持し、保持されている最大値より予め定めた値aだけ小
さいフレームパワーに関するしきい値Pthrを決定し、
さらに最大値と最小値との差dが予め定めた基準値より
小さくなった場合には、差dに応じて値aを減らしてし
きい値Pthrを大きくするように該しきい値Pthrを自動
的に調整し、このしきい値Pthrと、現在のフレームの
フレームパワーとを比較して、現在のフレームが音声区
間か、非音声区間かを決定することを特徴としている。
In order to achieve the above-mentioned object, in the voice section detection method according to the present invention, the input signal data is transmitted at predetermined time intervals at a predetermined frame width and a predetermined frame width. And holds the maximum value and the minimum value of the frame power within a predetermined time in the past, and determines a threshold value Pthr relating to the frame power smaller than the held maximum value by a predetermined value a,
Further, when the difference d between the maximum value and the minimum value becomes smaller than a predetermined reference value, the threshold value Pthr is automatically adjusted so as to decrease the value a according to the difference d and increase the threshold value Pthr. The threshold Pthr is compared with the frame power of the current frame to determine whether the current frame is a voice section or a non-voice section.

【0015】また、本発明による音声区間検出装置で
は、入力された信号データに対して、所定の時間間隔毎
に、所定のフレーム幅でフレームパワーを算出するパワ
ー算出部と、過去の所定の時間内のフレームパワーの最
大値を保持する瞬時パワー最大値保持部と、過去の所定
の時間内のフレームパワーの最小値を保持する瞬時パワ
ー最小値保持部と、瞬時パワー最大値保持部に保持され
ている最大値よりも予め定めた値aだけ小さいフレーム
パワーに関するしきい値Pthrを決定し、さらに瞬時パ
ワー最大値保持部に保持されている最大値と瞬時パワー
最小値保持部に保持されている最小値との差dが予め定
めた基準値より小さくなった場合には、差dに応じて値
aを減らしてしきい値Pthrを大きくするように該しき
い値Pthrを自動的に調整するパワーしきい値決定部
と、このパワーしきい値決定部によって得られたしきい
値Pthrと現在のフレームのフレームパワーとを比較し
て、音声区間か、非音声区間かを決定する判定部とを備
えたことを特徴としている。
Further, in the voice section detection device according to the present invention, a power calculating section for calculating a frame power with a predetermined frame width at predetermined time intervals for input signal data; The maximum value of the instantaneous power that holds the maximum value of the frame power within the above, the minimum value of the instantaneous power that holds the minimum value of the frame power within a predetermined time in the past, and the maximum value of the instantaneous power that is held by the maximum power holding unit The threshold value Pthr relating to the frame power smaller than the maximum value by a predetermined value a is determined, and the maximum value and the instantaneous power minimum value held in the instantaneous power maximum value holding unit are further held in the instantaneous power maximum value holding unit. When the difference d from the minimum value becomes smaller than a predetermined reference value, the threshold value Pthr is automatically adjusted so that the value a is reduced and the threshold value Pthr is increased according to the difference d. A threshold value Pthr obtained by the power threshold value determining unit and a frame power of the current frame to determine whether the frame is a voice section or a non-voice section. It is characterized by having.

【0016】上記の構成により、本発明による音声区間
検出方法では、入力された信号データに対して、所定の
時間間隔毎に、所定のフレーム幅でフレームパワーを算
出するとともに、過去の所定の時間内のフレームパワー
の最大値および最小値を保持する。そして、保持されて
いる最大値より予め定めた値aだけ小さいフレームパワ
ーに関するしきい値Pthrを決定し、さらに最大値と最
小値との差dが予め定めた基準値より小さくなった場合
には、差dに応じて値aを減らしてしきい値Pthrを大
きくするように該しきい値Pthrを自動的に調整する。
そして、このしきい値Pthrと、現在のフレームのフレ
ームパワーとを比較して、現在のフレームが音声区間
か、非音声区間かを決定する。これにより、入力音声
と、背景音とをそれぞれのレベルの変化に逐次、適応し
ながら、リアルタイムで音声処理を行なって、音声区間
と、非音声区間とを判別する。
According to the above configuration, in the voice section detection method according to the present invention, the frame power is calculated for the input signal data at a predetermined frame width at predetermined time intervals, and a predetermined predetermined time in the past is calculated. Holds the maximum value and the minimum value of the frame power in. Then, a threshold value Pthr relating to the frame power smaller than the held maximum value by a predetermined value a is determined, and when the difference d between the maximum value and the minimum value becomes smaller than a predetermined reference value, , The threshold value Pthr is automatically adjusted so as to decrease the value a according to the difference d and increase the threshold value Pthr.
Then, the threshold Pthr is compared with the frame power of the current frame to determine whether the current frame is a voice section or a non-voice section. In this way, the voice processing is performed in real time while sequentially adapting the input voice and the background sound to changes in the respective levels, and a voice section and a non-voice section are discriminated.

【0017】また、本発明による音声区間検出装置で
は、パワー算出部によって、所定の時間間隔毎に、所定
の時間幅を有するフレーム単位で入力された信号データ
を処理して、そのフレームパワーを算出するとともに、
瞬時パワー最大値保持部および瞬時パワー最小値保持部
によって、過去の所定の時間内におけるフレームパワー
の最大値および最小値を保持する。パワーしきい値決定
部では、瞬時パワー最大値保持部に保持されている最大
値よりも予め定めた値aだけ小さいフレームパワーに関
するしきい値Pthrを決定し、さらに瞬時パワー最大値
保持部に保持されている最大値と瞬時パワー最小値保持
部に保持されている最小値との差dが予め定めた基準値
より小さくなった場合には、差dに応じて値aを減らし
てしきい値Pthrを大きくするように該しきい値Pthrを
自動的に調整する。そして、判定部では、パワーしきい
値決定部によって得られたしきい値Pthrと現在のフレ
ームのフレームパワーとを比較して、音声区間か、非音
声区間かを決定する。これにより、フレームパワーとい
う比較的、簡便に求められる特徴量のみを用いて、演算
時間を短くするとともに、コストを低減させながら、入
力音声と、背景音とをそれぞれのレベルの変化に逐次、
適応して、リアルタイムで音声処理を行なって、音声区
間と、非音声区間とを判別する。
Further, in the voice section detection device according to the present invention, the power calculator calculates the frame power by processing the signal data inputted in frame units having a predetermined time width at predetermined time intervals. Along with
The instantaneous power maximum value holding unit and the instantaneous power minimum value holding unit hold the maximum value and the minimum value of the frame power within a predetermined past time. The power threshold value determining unit determines a threshold value Pthr for the frame power that is smaller by a predetermined value a than the maximum value held in the instantaneous power maximum value holding unit, and further holds the threshold value in the instantaneous power maximum value holding unit. If the difference d between the maximum value and the minimum value held in the instantaneous power minimum value holding unit becomes smaller than a predetermined reference value, the value a is reduced according to the difference d and the threshold value is reduced. The threshold value Pthr is automatically adjusted so as to increase Pthr. Then, the determination unit compares the threshold value Pthr obtained by the power threshold value determination unit with the frame power of the current frame to determine whether it is a voice section or a non-voice section. Thus, using only a relatively simple feature amount called frame power, the calculation time is shortened and the cost is reduced, while the input sound and the background sound are sequentially changed at respective levels.
The voice processing is adaptively performed in real time to determine a voice section and a non-voice section.

【0018】[0018]

【発明の実施の形態】BEST MODE FOR CARRYING OUT THE INVENTION

《発明の基本原理》本発明による音声区間検出方法およ
びその装置では、入力信号のパワーを指標とすると、入
力信号中の音声のレベル変動に関しては、直前までに入
力されたパワーの最大値に反映され、背景音のレベル変
動に関しては、直前までに入力されたパワーの最小値に
反映されていることに着目して、音声/非音声判別のし
きい値を決定する際、雑音が殆ど存在しないとき、直前
までに入力されたパワーの最大値から所定の値だけ減算
した値を基本のしきい値とし、直前までに入力されたパ
ワーの最大値から最小値を差し引いた値が小さくなるに
つれて(S/Nが小さくなるにつれて)、しきい値を大
きくしていくように、補正を加えるという処理で、しき
い値を決定する。
<< Basic Principle of the Invention >> In the voice section detection method and apparatus according to the present invention, when the power of the input signal is used as an index, the level fluctuation of the voice in the input signal is reflected in the maximum value of the power input immediately before. When determining the threshold value for speech / non-speech discrimination by paying attention to the fact that the level fluctuation of the background sound is reflected in the minimum value of the power input immediately before, almost no noise is present. At this time, a value obtained by subtracting a predetermined value from the maximum value of the power input immediately before is used as a basic threshold value, and as the value obtained by subtracting the minimum value from the maximum value of the power input immediately before becomes smaller ( The threshold value is determined by a process of adding a correction so that the threshold value increases as the S / N ratio decreases).

【0019】そして、入力音声データに対し、所定の時
間間隔毎に、所定の時間幅を有するフレーム単位で、そ
のパワーを算出し、過去の所定の時間内におけるパワー
の最大値と、最小値とを保持しながら、最大値、ならび
に最大値と最小値との差に応じて変化するパワーに関す
るしきい値を用いて、入力音声、背景音、それぞれのパ
ワーの変化に逐次、適応しながら、フレーム毎に音声区
間と、非音声区間とを判別する。
The power of the input audio data is calculated at predetermined time intervals in frame units having a predetermined time width, and the maximum value and the minimum value of the power within a predetermined time in the past are calculated. While maintaining the maximum value, and using a threshold value for the power that changes according to the difference between the maximum value and the minimum value, the input voice, the background sound, and the frame are successively adapted to changes in the respective powers. Each time, a voice section and a non-voice section are determined.

【0020】《実施の形態の説明》図1は本発明の実施
の形態としての音声区間検出装置の一例を示すブロック
図である。
<< Description of Embodiment >> FIG. 1 is a block diagram showing an example of a voice section detection apparatus according to an embodiment of the present invention.

【0021】この図に示す音声区間検出装置1は、デジ
タル化されて入力された入力信号データに対して所定の
時間間隔毎に所定のフレーム幅でパワーを算出するパワ
ー算出部2と、過去の所定の時間内のフレームパワーの
最大値を保持する瞬時パワー最大値保持部3と、過去の
所定の時間内のフレームパワーの最小値を保持する瞬時
パワー最小値保持部4と、これら瞬時パワー最大値保持
部3、瞬時パワー最小値保持部4に保持されている最大
値、ならびに最大値と最小値との差の両者に応じて変化
するパワーに関するしきい値を決定するパワーしきい値
決定部5と、このパワーしきい値決定部5によって決定
されたしきい値と現在のフレームのパワーとを比較して
音声区間か、非音声区間かを決定する判別部6とを備え
ている。
The voice section detection device 1 shown in FIG. 1 includes a power calculator 2 for calculating power at a predetermined frame width at predetermined time intervals for input signal data that has been digitized and input; An instantaneous power maximum value holding unit 3 for holding the maximum value of the frame power within a predetermined time; an instantaneous power minimum value holding unit 4 for holding the minimum value of the frame power within a predetermined time period in the past; A power threshold value determining unit that determines a threshold value for a power that changes in accordance with both the maximum value held in the value holding unit 3 and the instantaneous power minimum value holding unit 4 and a difference between the maximum value and the minimum value. 5 and a discriminating unit 6 for comparing the threshold value determined by the power threshold value determining unit 5 with the power of the current frame to determine a voice section or a non-voice section.

【0022】そして、この音声区間検出装置1では、入
力信号データに対し、所定の時間間隔毎に所定の時間幅
を有するフレーム単位でそのパワーを算出し、過去の所
定の時間内におけるパワーの最大値と最小値とを保持し
ながら、最大値、ならびに最大値と最小値との差に応じ
て変化するパワーに関するしきい値を用いて、入力音声
と背景音のそれぞれのパワーの変化に逐次適応しなが
ら、フレーム毎に音声区間と、非音声区間との判別を行
なう。
The voice section detecting device 1 calculates the power of the input signal data in units of frames having a predetermined time width at predetermined time intervals, and calculates the maximum power in a past predetermined time. Adapts to changes in the power of the input voice and the background sound sequentially, using a threshold value for the power that changes according to the difference between the maximum value and the minimum value while retaining the value and the minimum value. Meanwhile, a speech section and a non-speech section are determined for each frame.

【0023】パワー算出部2では、例えば5msの時間
間隔で、例えば20msのフレーム幅にわたり、信号の
自乗和ないし自乗平均値を算出し、これを対数化、即ち
デシベル化して、その時刻のフレームパワーを“P”と
し、これを瞬時パワー最大値保持部3と、瞬時パワー最
小値保持部4と、判別部6とに供給する。
The power calculator 2 calculates the sum of squares or the mean square value of the signal at a time interval of, for example, 5 ms and a frame width of, for example, 20 ms. Is set to “P”, and this is supplied to the maximum instantaneous power holding unit 3, the minimum instantaneous power holding unit 4, and the determination unit 6.

【0024】瞬時パワー最大値保持部3では、過去の所
定の時間内(例えば、6秒)のフレームパワー“P”の
最大値を保持するように設計されており、常にその保持
した値“Pupper”をパワーしきい値決定部5に供給す
る。但し、最大値“Pupper”は“P>Pupper”である
ような、フレームパワー“P”がパワー算出部2から供
給されると、直ちにその値が更新される。
The maximum instantaneous power holding unit 3 is designed to hold the maximum value of the frame power “P” within a predetermined time in the past (for example, 6 seconds), and always holds the held value “P”. upper "is supplied to the power threshold determination unit 5. However, when the frame power “P” is supplied from the power calculator 2 such that the maximum value “P upper ” is “P> P upper ”, the value is immediately updated.

【0025】また、瞬時パワー最小値保持部4では、過
去の所定の時間内(例えば、4秒)のフレームパワー
“P”の最小値を保持するように設計されており、常に
その保持した値“Plower”をパワーしきい値決定部5
に供給する。但し、最小値“Pl ower”は“P<
lower”であるような、フレームパワー“P”がパワ
ー算出部2から供給されると、直ちにその値が更新され
る。
The instantaneous power minimum value holding unit 4 is designed to hold the minimum value of the frame power "P" within a predetermined time in the past (for example, 4 seconds). “P lower ” is set to the power threshold determination unit 5
To supply. However, the minimum value "P l ower" is "P <
When the frame power “P”, such as “P lower ”, is supplied from the power calculation unit 2, the value is immediately updated.

【0026】パワーしきい値決定部5では、瞬時パワー
最大値保持部3および瞬時パワー最小値保持部4に保持
されている最大値“Pupper”と、最小値“Plower”と
を用いて、例えば、次式に示す演算を行なってパワーに
関するしきい値“Pthr”を決定し、これを判別部6に
供給する。
The power threshold value determining unit 5 uses the maximum value “P upper ” and the minimum value “P lower ” held in the instantaneous power maximum value holding unit 3 and the instantaneous power minimum value holding unit 4. For example, the threshold value “P thr ” for the power is determined by performing the calculation shown in the following equation, and this is supplied to the determination unit 6.

【0027】[0027]

【数1】Pupper−Plower≧60[dB]の場合: Pthr=Pupper−35 …(1) Pupper−Plower<60[dB]の場合: Pthr=Pupper−35+35・{1−(Pupper−Plower)/60}…(2)## EQU1 ## When P upper −P lower ≧ 60 [dB]: P thr = P upper −35 (1) When P upper −P lower <60 [dB]: P thr = P upper −35 + 35 · { 1- (P upper -P lower ) / 60 ° (2)

【0028】但し、背景音のレベルが音声のレベルに近
接してきた場合の本発明装置の誤動作を防ぐために、P
thrは、Pthr=Pupper−13を上限とするのが望まし
い。また、上式中の定数35は、前述の雑音が殆ど存在
しないときの基本のしきい値である。
However, in order to prevent a malfunction of the device of the present invention when the background sound level approaches the sound level, P
It is desirable that thr has an upper limit of P thr = P upper -13. The constant 35 in the above equation is a basic threshold value when the above-mentioned noise hardly exists.

【0029】また、判定部6では、パワー算出部2から
フレーム毎に供給されるパワー“P”と、パワーしきい
値決定部5から供給されるしきい値“Pthr”とを比較
して、フレーム毎に、“P>Pthr”ならば、当該フレ
ームを音声区間と判定し、また“P≦Pthr”ならば、
当該フレームを非音声区間と判定し、これらの各判定結
果に基づき音声/非音声の判別信号を出力する。
The determination section 6 compares the power “P” supplied from the power calculation section 2 for each frame with the threshold “P thr ” supplied from the power threshold determination section 5. , For each frame, if “P> P thr ”, the frame is determined as a voice section, and if “P ≦ P thr ”,
The frame is determined to be a non-voice section, and a voice / non-voice determination signal is output based on the results of these determinations.

【0030】これによって、図2に示すように、入力信
号データの値が変化しているとき、パワー算出部2から
出力されるパワー“P”に基づき、瞬時パワー最大値保
持部3と、瞬時パワー最小値保持部4とに各々、最大値
“Pupper”と、最小値“Pl ower”とが保持されるとと
もに、これら最大値“Pupper”と、最小値“Plower
とに基づいて、しきい値“Pthr”が決定され、このし
きい値“Pthr”に基づき、各フレームが音声区間、非
音声区間のいずれであるか判定される。
As a result, as shown in FIG. 2, when the value of the input signal data changes, the instantaneous power maximum value holding unit 3 and the instantaneous power maximum value holding unit 3 are controlled based on the power “P” output from the power calculation unit 2. each the power minimum value holding unit 4, the maximum value "P upper", with the minimum value "P l ower" and is held, these maximum value and "P upper", the minimum value "P lower"
, A threshold value “P thr ” is determined. Based on the threshold value “P thr ”, it is determined whether each frame is a voice section or a non-voice section.

【0031】このように、この実施の形態では、入力信
号データに対して、所定の時間間隔毎に所定の時間幅を
有するフレーム単位でそのフレームパワーを算出すると
ともに、過去の所定の時間内のフレームパワーの最大値
および最小値を保持し、保持されている最大値より予め
定めた値aだけ小さいフレームパワーに関するしきい値
Pthrを決定し、さらに最大値と最小値との差dが予め
定めた基準値より小さくなった場合には、差dに応じて
前記値aを減らしてしきい値Pthrを大きくするように
該しきい値Pthrを自動的に調整し、このしきい値Pthr
と、現在のフレームのフレームパワーとを比較して、現
在のフレームが音声区間か、非音声区間かを決定するよ
うにした。このため、放送番組中や録音テープあるいは
日常生活で、雑音や背景音を伴って発声された音声につ
いて、フレーム毎に、音声区間か、非音声区間かを正確
に判別することができる。
As described above, in this embodiment, the frame power of the input signal data is calculated for each frame having a predetermined time width at predetermined time intervals, and the frame power within a predetermined time in the past is calculated. A maximum value and a minimum value of the frame power are held, a threshold value Pthr for the frame power smaller than the held maximum value by a predetermined value a is determined, and a difference d between the maximum value and the minimum value is determined in advance. When the threshold value becomes smaller than the reference value, the threshold value Pthr is automatically adjusted so as to decrease the value a according to the difference d and increase the threshold value Pthr.
Is compared with the frame power of the current frame to determine whether the current frame is a voice section or a non-voice section. For this reason, it is possible to accurately determine, for each frame, a voice section or a non-voice section of a sound uttered with noise or background sound during a broadcast program, a recording tape, or daily life.

【0032】また、この実施の形態では、過去の所定の
時間内の瞬時パワーの最小値を基に、背景音のレベルを
推定しているので、放送番組中などで、背景音のレベル
が時々刻々、変動し、かつ同時に音声が発せられ続けて
いる場合においても、入力信号中の音声区間と、非音声
区間とを判別することができる。
In this embodiment, the level of the background sound is estimated based on the minimum value of the instantaneous power within a predetermined time in the past. Even in the case where the sound fluctuates every moment and the sound continues to be emitted at the same time, it is possible to determine the sound section and the non-speech section in the input signal.

【0033】この結果、入力信号中の音声に対して、
(a) 加工して声の高さや話す速さを変える、(b)
意味内容を機械的に音声認識する、(c) 符号化し
て伝送あるいは記録する、場合などにおいて、加工音声
の音質の向上、また音声認識率の改善、さらに符号化効
率の上昇や、復号化音声の品質の向上が可能となる。
As a result, for the sound in the input signal,
(A) processing to change the pitch and speaking speed of the voice, (b)
(C) Encoding and transmitting or recording by means of mechanical recognition of semantic content, such as in the case of improving the sound quality of the processed voice, improving the voice recognition rate, further increasing the coding efficiency, and decoding the decoded voice. Quality can be improved.

【0034】また、パワーという比較的簡便に求められ
る特徴量のみを用いているので、演算時間を短縮するこ
とができるとともに、装置全体の構成を簡素化して、コ
ストを低減することができ、さらにリアルタイムに音声
処理を行なうことが可能となる。
Further, since only the characteristic amount of power, which is relatively easily obtained, is used, the calculation time can be shortened, the configuration of the entire apparatus can be simplified, and the cost can be reduced. Audio processing can be performed in real time.

【0035】[0035]

【発明の効果】以上説明したように本発明によれば、請
求項1では、入力音声と、背景音とをそれぞれのレベル
の変化に逐次、適応しながら、リアルタイムで音声処理
を行なって、音声区間と、非音声区間とを判別すること
ができる。
As described above, according to the present invention, according to the first aspect, audio processing is performed in real time while sequentially adapting an input voice and a background sound to changes in their respective levels. The section and the non-voice section can be distinguished.

【0036】また、請求項2では、パワーという比較
的、簡便に求められる特徴量のみを用いていることか
ら、演算時間を短くするとともに、コストを低減させな
がら、入力音声と、背景音とをそれぞれのレベルの変化
に逐次、適応して、リアルタイムで音声処理を行なっ
て、音声区間と、非音声区間とを判別することができ
る。
According to the second aspect of the present invention, since only a relatively simple feature amount called power is used, the input time and the background sound can be reduced while shortening the calculation time and reducing the cost. Voice processing is performed in real time, adaptive to each level change, and a voice section and a non-voice section can be discriminated.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明による音声区間検出方法およびその装置
の一形態を適用した音声区間検出装置の一例を示すブロ
ック図である。
FIG. 1 is a block diagram showing an example of a voice section detection apparatus to which an embodiment of a voice section detection method and apparatus according to the present invention is applied.

【図2】図1に示す音声区間検出装置の動作例を示す模
式図である。
FIG. 2 is a schematic diagram showing an operation example of the voice section detection device shown in FIG.

【符号の説明】[Explanation of symbols]

1 音声区間検出装置 2 パワー算出部 3 瞬時パワー最大値保持部 4 瞬時パワー最小値保持部 5 パワーしきい値決定部 6 判別部 REFERENCE SIGNS LIST 1 voice section detection device 2 power calculation unit 3 instantaneous power maximum value holding unit 4 instantaneous power minimum value holding unit 5 power threshold value determination unit 6 discrimination unit

フロントページの続き (56)参考文献 特開 平8−294199(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 11/02 Continuation of the front page (56) References JP-A-8-294199 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G10L 11/02

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力された信号データに対して、所定の
時間間隔毎に、所定のフレーム幅でフレームパワーを算
出するとともに、過去の所定の時間内のフレームパワー
の最大値および最小値を保持し、 保持されている最大値より予め定めた値aだけ小さいフ
レームパワーに関するしきい値Pthrを決定し、さらに
最大値と最小値との差dが予め定めた基準値より小さく
なった場合には、差dに応じて値aを減らしてしきい値
Pthrを大きくするように該しきい値Pthrを自動的に調
整し、 このしきい値Pthrと、現在のフレームのフレームパワ
ーとを比較して、現在のフレームが音声区間か、非音声
区間かを決定することを特徴とする音声区間検出方法。
1. A method for calculating frame power at a predetermined frame width at predetermined time intervals for input signal data, and holding a maximum value and a minimum value of frame power within a predetermined time in the past. Then, a threshold value Pthr relating to a frame power smaller by a predetermined value a than the held maximum value is determined, and when the difference d between the maximum value and the minimum value becomes smaller than a predetermined reference value, , The threshold value Pthr is automatically adjusted so as to decrease the value a according to the difference d and increase the threshold value Pthr, and compare the threshold value Pthr with the frame power of the current frame. And determining whether the current frame is a voice section or a non-voice section.
【請求項2】 入力された信号データに対して、所定の
時間間隔毎に、所定のフレーム幅でフレームパワーを算
出するパワー算出部と、 過去の所定の時間内のフレームパワーの最大値を保持す
る瞬時パワー最大値保持部と、 過去の所定の時間内のフレームパワーの最小値を保持す
る瞬時パワー最小値保持部と、 瞬時パワー最大値保持部に保持されている最大値よりも
予め定めた値aだけ小さいフレームパワーに関するしき
い値Pthrを決定し、さらに瞬時パワー最大値保持部に
保持されている最大値と瞬時パワー最小値保持部に保持
されている最小値との差dが予め定めた基準値より小さ
くなった場合には、差dに応じて値aを減らしてしきい
値Pthrを大きくするように該しきい値Pthrを自動的に
調整するパワーしきい値決定部と、 このパワーしきい値決定部によって得られたしきい値P
thrと現在のフレームのフレームパワーとを比較して、
音声区間か、非音声区間かを決定する判定部と、 を備えたことを特徴とする音声区間検出装置。
2. A power calculator for calculating frame power with a predetermined frame width at predetermined time intervals for input signal data, and holding a maximum value of frame power within a predetermined time in the past. An instantaneous power maximum value holding unit, an instantaneous power minimum value holding unit that holds a minimum value of frame power within a predetermined time in the past, and a maximum value stored in the instantaneous power maximum value holding unit. The threshold value Pthr relating to the frame power smaller by the value a is determined, and the difference d between the maximum value held in the instantaneous power maximum value holding unit and the minimum value held in the instantaneous power minimum value holding unit is determined in advance. A power threshold value deciding unit for automatically adjusting the threshold value Pthr so as to decrease the value a according to the difference d and increase the threshold value Pthr when the reference value becomes smaller than the reference value. Power Threshold P obtained by the threshold determining unit
Compare thr with the frame power of the current frame,
A voice section detection device, comprising: a determination section that determines whether the section is a voice section or a non-voice section.
JP11282297A 1997-04-30 1997-04-30 Voice section detection method and apparatus Expired - Lifetime JP3160228B2 (en)

Priority Applications (13)

Application Number Priority Date Filing Date Title
JP11282297A JP3160228B2 (en) 1997-04-30 1997-04-30 Voice section detection method and apparatus
PCT/JP1998/001984 WO1998049673A1 (en) 1997-04-30 1998-04-30 Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device
EP98917743A EP0944036A4 (en) 1997-04-30 1998-04-30 Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device
EP08005875A EP1944753A3 (en) 1997-04-30 1998-04-30 Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device
EP04027925A EP1517299A3 (en) 1997-04-30 1998-04-30 Speech interval detecting method and system, and speech speed converting method and system using the speech interval detecting method and system
KR1019980710777A KR100302370B1 (en) 1997-04-30 1998-04-30 Speech interval detection method and system, and speech speed converting method and system using the speech interval detection method and system
US09/202,867 US6236970B1 (en) 1997-04-30 1998-04-30 Adaptive speech rate conversion without extension of input data duration, using speech interval detection
CA002258908A CA2258908C (en) 1997-04-30 1998-04-30 Speech rate conversion without extension of input data duration, using speech interval detection
CN98800566A CN1117343C (en) 1997-04-30 1998-04-30 Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device
CA002392849A CA2392849C (en) 1997-04-30 1998-04-30 Speech interval detecting method and device
NO19986172A NO317600B1 (en) 1997-04-30 1998-12-29 Speech conversion to provide enhanced comprehension and based on detection of speech intervals
US09/781,634 US6374213B2 (en) 1997-04-30 2001-02-12 Adaptive speech rate conversion without extension of input data duration, using speech interval detection
CNB031192599A CN1198263C (en) 1997-04-30 2003-03-06 Voice speed changing method and its device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11282297A JP3160228B2 (en) 1997-04-30 1997-04-30 Voice section detection method and apparatus

Publications (2)

Publication Number Publication Date
JPH10301593A JPH10301593A (en) 1998-11-13
JP3160228B2 true JP3160228B2 (en) 2001-04-25

Family

ID=14596411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11282297A Expired - Lifetime JP3160228B2 (en) 1997-04-30 1997-04-30 Voice section detection method and apparatus

Country Status (1)

Country Link
JP (1) JP3160228B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6205422B1 (en) * 1998-11-30 2001-03-20 Microsoft Corporation Morphological pure speech detection using valley percentage
KR100491753B1 (en) * 2002-10-10 2005-05-27 서울통신기술 주식회사 Method for detecting voice signals in voice processor
JP4521673B2 (en) * 2003-06-19 2010-08-11 株式会社国際電気通信基礎技術研究所 Utterance section detection device, computer program, and computer
JP5936378B2 (en) * 2012-02-06 2016-06-22 三菱電機株式会社 Voice segment detection device

Also Published As

Publication number Publication date
JPH10301593A (en) 1998-11-13

Similar Documents

Publication Publication Date Title
US9401160B2 (en) Methods and voice activity detectors for speech encoders
US5687285A (en) Noise reducing method, noise reducing apparatus and telephone set
US6236970B1 (en) Adaptive speech rate conversion without extension of input data duration, using speech interval detection
US6799161B2 (en) Variable bit rate speech encoding after gain suppression
KR101437830B1 (en) Method and apparatus for detecting voice activity
US20100088094A1 (en) Device and method for voice activity detection
JP3255584B2 (en) Sound detection device and method
US20010014857A1 (en) A voice activity detector for packet voice network
CN110265059B (en) Estimating background noise in an audio signal
US6226607B1 (en) Method and apparatus for eighth-rate random number generation for speech coders
RU2127912C1 (en) Method for detection and encoding and/or decoding of stationary background sounds and device for detection and encoding and/or decoding of stationary background sounds
JP3160228B2 (en) Voice section detection method and apparatus
US7254532B2 (en) Method for making a voice activity decision
JP3109978B2 (en) Voice section detection device
JP2000250568A (en) Voice section detecting device
JP3413862B2 (en) Voice section detection method
US6539350B1 (en) Method and circuit arrangement for speech level measurement in a speech signal processing system
US6157906A (en) Method for detecting speech in a vocoded signal
JP2656069B2 (en) Voice detection device
Chu Voice-activated AGC for teleconferencing
JPH11133997A (en) Equipment for determining presence or absence of sound
JPH07109559B2 (en) Voice section detection method
JPH034918B2 (en)
JP3026855B2 (en) Voice recognition device
JP3328642B2 (en) Voice discrimination device and voice discrimination method

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090216

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100216

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110216

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120216

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130216

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140216

Year of fee payment: 13

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term