JP3607775B2 - Voice state discrimination device - Google Patents

Voice state discrimination device Download PDF

Info

Publication number
JP3607775B2
JP3607775B2 JP09276896A JP9276896A JP3607775B2 JP 3607775 B2 JP3607775 B2 JP 3607775B2 JP 09276896 A JP09276896 A JP 09276896A JP 9276896 A JP9276896 A JP 9276896A JP 3607775 B2 JP3607775 B2 JP 3607775B2
Authority
JP
Japan
Prior art keywords
threshold value
level
input signal
rate
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP09276896A
Other languages
Japanese (ja)
Other versions
JPH09281987A (en
Inventor
秀享 ▲高▼橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp filed Critical Olympus Corp
Priority to JP09276896A priority Critical patent/JP3607775B2/en
Priority to GB9707087A priority patent/GB2312360B/en
Priority to GB0023247A priority patent/GB2351211B/en
Priority to GB0023246A priority patent/GB2350763B/en
Priority to US08/845,543 priority patent/US6272459B1/en
Priority to DE19715126A priority patent/DE19715126C2/en
Publication of JPH09281987A publication Critical patent/JPH09281987A/en
Application granted granted Critical
Publication of JP3607775B2 publication Critical patent/JP3607775B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声状態判別装置、より詳しくは、入力信号が音声信号または非音声信号の何れであるかを判別する音声状態判別装置に関する。
【0002】
【従来の技術】
従来より、音声のデータ圧縮をより高能率化する技術手段として、高能率な音声符号化と非音声圧縮機能とを組み合わせるものが知られている。これらの内の非音声圧縮機能としては、入力信号が音声信号または非音声信号の何れであるかを判定し、非音声信号である場合には、記録媒体へのデータ記録あるいはデータ伝送を停止することによりデータ量を節約する、VAD(Voice Activity Detection)と呼ばれる技術手段がよく知られた一例である。
【0003】
また、入力された音声信号の状態によってビットレートを変更する可変レート音声符号化技術が知られている。
【0004】
こうした従来技術としては、例えば、A.DeJaco,W.Gardner,P.Jacobs,and C.Lee,”QCELP:The North American CDMA Digital Cellular Variable Rate Speech Coding Standard,”Proceedings IEEE Workshop on Speech Coding for Telecommunications,pp.5−6,1993に記載されたものが挙げられる。
【0005】
これによれば、背景雑音のレベルが極めて低い環境から背景雑音がかなり混入する環境までを考慮して、始めは小さな判定しきい値からスタートして徐々にしきい値を増加させて行くことにより、しきい値を背景雑音レベルに適応させて行くようになっており、このような処理を行うことによって、背景雑音環境が混入しても音声状態の判別精度を保つことができるようになっている。
【0006】
【発明が解決しようとする課題】
しかしながら、上述した適応しきい値による音声状態の判別手段によれば、入力信号のレベルや背景雑音のレベルが大きくなるほど、しきい値が適応して音声状態を精度良く判別することができるまでに長い時間を要し、この間は所望の符号化能率を得ることができなかった。
【0007】
本発明は上記事情に鑑みてなされたものであり、しきい値の適応が速く、短時間で音声状態を精度良く判別することができる音声状態判別装置を提供することを目的としている。
【0008】
【課題を解決するための手段】
上記の目的を達成するために、本発明の第1の音声状態判別装置は、所定のフレーム間隔に分割された入力信号のレベルを測定するレベル測定手段と、このレベル測定手段により測定された上記入力信号のレベルと該入力信号が音声信号または非音声信号の何れであるかを判別するためのしきい値とを比較して出力する比較手段と、この比較手段により上記入力信号のレベルが現在設定されているしきい値よりも大きいと判断された場合にはそのしきい値を所定の割合で増加させ該比較手段により入力信号のレベルが現在設定されているしきい値よりも小さいと判断された場合にはそのしきい値を減少させるものであって、上記しきい値を増加させる所定の割合を過去の所定時間内における入力信号のレベルの最小値と現在のしきい値との差に基づいて設定するしきい値適応化手段とを備えたものである。
【0009】
また、本発明の第2の音声状態判別装置は、上記第1の音声状態判別装置において、上記比較手段により上記入力信号のレベルが現在設定されているしきい値よりも小さいと判断された場合には、上記しきい値適応化手段は、該入力信号のレベルを新たなしきい値として設定するものである。
【0010】
さらに、本発明の第3の音声状態判別装置は、上記第1または第2の音声状態判別装置において、音声状態判別処理の開始時から所定時間内における入力信号のレベルの最小値と現在のしきい値とを比較して、現在のしきい値が上記最小値よりも所定値以上小さい場合には、上記しきい値適応化手段は、上記しきい値を増加させる割合を通常時に増加させる割合よりも大きい所定の割合に設定し、該入力信号が非音声信号であると判別された時点で上記しきい値を増加させる割合を上記通常時に増加させる割合に戻すものである。
【0011】
従って、本発明の第1の音声状態判別装置は、レベル測定手段が所定のフレーム間隔に分割された入力信号のレベルを測定し、比較手段がこのレベル測定手段により測定された上記入力信号のレベルと該入力信号が音声信号または非音声信号の何れであるかを判別するためのしきい値とを比較して出力し、しきい値適応化手段がこの比較手段により上記入力信号のレベルが現在設定されているしきい値よりも大きいと判断された場合にはそのしきい値を所定の割合で増加させ、該比較手段により入力信号のレベルが現在設定されているしきい値よりも小さいと判断された場合にはそのしきい値を減少させ、このとき、上記しきい値を増加させる所定の割合を過去の所定時間内における入力信号のレベルの最小値と現在のしきい値との差に基づいて設定する。
【0012】
また、本発明の第2の音声状態判別装置は、上記比較手段により上記入力信号のレベルが現在設定されているしきい値よりも小さいと判断された場合には、上記しきい値適応化手段が該入力信号のレベルを新たなしきい値として設定する。
【0013】
さらに、本発明の第3の音声状態判別装置は、音声状態判別処理の開始時から所定時間内における入力信号のレベルの最小値と現在のしきい値とを比較して、現在のしきい値が上記最小値よりも所定値以上小さい場合には、上記しきい値適応化手段が、上記しきい値を増加させる割合を通常時に増加させる割合よりも大きい所定の割合に設定し、該入力信号が非音声信号であると判別された時点で上記しきい値を増加させる割合を上記通常時に増加させる割合に戻す。
【0014】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
図1から図4は本発明の一実施形態を示したものであり、図1は音声状態判別装置の構成を示すブロック図である。
【0015】
この音声状態判別装置1は、図1に示すように、入力信号が入力されてフレーム毎のレベルであるエネルギーを算出するフレームエネルギー計算部2と、このフレームエネルギー計算部2の出力と後述するしきい値計算部3の出力とに基づいてしきい値の計算を行うしきい値計算部3と、上記フレームエネルギー計算部2の出力を上記しきい値計算部3の出力と比較して出力する比較部4と、この比較部4の出力に基づき上記入力信号のエネルギーがしきい値よりも小さいフレームである非音声フレームの連続数をカウントし、そのカウント結果が所定数以上連続している場合には非音声であると判別してその判別結果を出力する非音声フレームカウンタ5とを有してなる。
【0016】
図2は音声状態判別装置1の動作の一部を示すフローチャート、図3は音声状態判別装置1の動作の他の一部を示すフローチャートである。
【0017】
動作が開始されると(ステップS1)、まず、各種の定数の設定を行う(ステップS2)。ここでは例えば、しきい値増加率を設定するための観測フレーム数obs_lim を50にし、しきい値の下限値trs_min を128にし、しきい値の上限値trs_max を262144にそれぞれ設定する。
【0018】
続いて、各種変数の初期化を行う(ステップS3)。つまり、処理フレームナンバーfrm としきい値trs と増加率設定の状態statusとハングオーバーフレーム数のカウントNoiseCntとをそれぞれ0にセットする。
【0019】
次に、フレームエネルギーeng を、例えば次に示すような数式1により計算する(ステップS4)。
【0020】
【数1】

Figure 0003607775
ここにs(n)はサンプルnにおける入力信号、Nはフレーム長をそれぞれ示している。
【0021】
続いて、しきい値trs がしきい値の下限値trs_min よりも小さいか否かを判断して(ステップS5)、小さい場合にはしきい値trs をしきい値の下限値trs_min に設定する(ステップS6)。
【0022】
上記ステップS5において、しきい値trs がしきい値の下限値trs_min 以上である場合、または上記ステップS6が終了した場合には、フレームエネルギーeng がしきい値trs よりも小さいか否かを判断して(ステップS7)、小さい場合にはしきい値trs をフレームエネルギーeng に更新する(ステップS8)。
【0023】
また、上記ステップS7において、フレームエネルギーeng がしきい値trs 以上である場合には、処理フレームナンバーfrm が観測フレーム数obs_lim よりも小さいか否か、すなわち上記ステップS2に示したように定数を設定した場合には、現在の処理フレームが処理開始から50未満であるか否かを判断する(ステップS9)。
【0024】
そして、小さい場合には、さらに処理フレームナンバーfrm が0であるかを判断し(ステップS10)、0である場合にはMinLevとしてフレームエネルギーeng を設定し(ステップS11)、0でない場合にはフレームエネルギーeng がMinLevよりも小さいか否かを判断する(ステップS12)。
【0025】
ここで小さい場合には、MinLevとしてフレームエネルギーeng を設定する(ステップS13)。上述したようなステップS10〜S13において、処理開始から50フレームまでのフレームエネルギーの最小値をMinLevに設定している。
【0026】
上記ステップS8,S11,S13の何れかが終了するか、あるいは上記ステップS9で処理フレームナンバーfrm が観測フレーム数obs_lim 以上である場合、または上記ステップS12でフレームエネルギーeng がMinLev以上である場合には、処理フレームナンバーfrm が観測フレーム数obs_lim 以上でありかつ増加率設定の状態statusが0であるか、つまり、フレーム数が50以上でありかつまだ1度も非音声状態であると判定されたことがないか、を判断する(ここに、図中の符号”&&”は「且つ」を表す。)(ステップS14)。
【0027】
このステップS14においてYESである場合には、しきい値trs がMinLevよりも小さいか否かを判断し(ステップS15)、小さい場合にはしきい値trs を該しきい値trs の32分の1(つまり、trs /32)だけ増加させる(後述する数式6参照)(ここに、図中の符号”+=”は既に入っている値にさらに右辺の値だけ加算することを表す。以下同様。)(ステップS16)。
【0028】
このステップS16が終了するか、上記ステップS14またはステップS15においてNOである場合には、しきい値trs を該しきい値trs の64分の1(つまり、trs /64)だけ増加させる(後述する数式2,数式6参照)(ステップS17)。
【0029】
ここで、このステップS17におけるしきい値の増加量は通常のものであり、これに比して上記ステップS16においては通常よりも高い増加率となるようにしている。
【0030】
そして、しきい値trs がしきい値の上限値trs_max より大きいかを判断し(ステップS18)、大きい場合にはしきい値trs をしきい値の上限値trs_max に設定する(ステップS19)。
【0031】
上記ステップS19が終了するかまたはステップS18においてNOである場合には、フレームエネルギーeng がしきい値trs よりも大きいか否かを判断し(ステップS20)、大きくない場合には、ハングオーバーフレーム数のカウントNoiseCntをインクリメント(図中、符号”++”で示す。以下同様。)し(ステップS21)、大きい場合には、このハングオーバーフレーム数のカウントNoiseCntを0に設定する(ステップS22)。
【0032】
上記ステップS21またはステップS22が終了したら、ハングオーバーフレーム数のカウントNoiseCntが4よりも大きいか否かを判断し(ステップS23)、大きくない場合には、音声であると判断し(ステップS24)、大きい場合には非音声であると判断して(ステップS25)から、増加率設定の状態statusに1を設定する(ステップS26)。このstatusが1になった状態では、上記ステップS14でNOに分岐するために、ステップS16における高い増加率の処理は行わず、ステップS17の通常の増加率の処理のみを行うことになる。
【0033】
上記ステップS24またはステップS26が終了したら、処理フレームナンバーfrm をインクリメントして(ステップS27)、次のフレーム処理に移行するために上記ステップS4に戻る。
【0034】
こうして、この実施形態においては、符号化開始から50フレーム(すなわち24ms×50=1.2s)内のフレームエネルギーeng の最小値MinLevを算出し、その時点でしきい値trs が最小値MinLevよりも小さければ該しきい値trs の増加率を上げ、一旦、非音声であると判定されたら通常の増加率に戻すことにより、しきい値trs の追従が速くなるように構成されている。
【0035】
この追従速度がどの程度速くなるかを数式を用いて具体的に説明すると、次のようになる。
【0036】
しきい値trs の増加率が上記ステップS17に示すように通常の増加率であるときには、次のフレームのしきい値trs’は、
【数2】
Figure 0003607775
【0037】
これにより、フレームエネルギーeng がそのときのしきい値よりも小さい限り、nフレーム後のしきい値trs_n は、
【数3】
Figure 0003607775
ここに、trs_0 はしきい値の初期値である。
【0038】
これは例えば、しきい値が2倍になるためには、
【数4】
Figure 0003607775
つまり、
【数5】
Figure 0003607775
となって、45フレームを必要とすることがわかる。
【0039】
一方、しきい値の増加率が、上記ステップS17に加えてステップS16に示すように上げられたときには、次のフレームのしきい値trs’は、
【数6】
Figure 0003607775
【0040】
これにより、フレームエネルギーeng がそのときのしきい値よりも小さい限り、nフレーム後のしきい値trs_nは、
【数7】
Figure 0003607775
【0041】
これはしきい値が2倍になるまでに、
【数8】
Figure 0003607775
つまり、
【数9】
Figure 0003607775
となって、15フレームで済むということである。
【0042】
次に、このようなアルゴリズムを用いた音声状態判別装置1による音声/非音声の判別例を、図4に示す。
【0043】
すなわち、図4(A)は原音を示したものであり、最初の音声区間の後の非音声区間は、図中点線で示す位置から始まる。このような原音に対して、従来においては図4(B)に示すようなしきい値を用いていたために、図4(C)に示すように、非音声区間の開始後もしばらくの間は音声区間であると判断してしまっていた。
【0044】
これに対して、本実施形態によれば、図4(D)に示すようなしきい値を用いるために、図4(E)に示すように、点線で示す非音声区間の開始とほぼ同時に、音声区間から非音声区間に移行したことを判定することができて、音声状態を精度良く判別することができるようになっている。
【0045】
なお上述では、しきい値trs と、処理開始から50フレームまでのフレームエネルギーeng の最小値MinLevとの大小関係のみを判断して、該しきい値trs の増加率を増加させるか否かを決定していたが、本発明はこれに限るものではなく、しきい値trs とMinLevの差の大きさに応じてしきい値trs の増加率を増加させる割合を変更するようにしても良い。
【0046】
こうしてこのような実施形態によれば、適応しきい値による音声状態判別を用いたときに、入力信号のレベルや背景雑音のレベルが大きくなっても、しきい値の適応スピードが従来例よりも高速になり、音声状態を精度良く判別することができるまでの時間が遅延することのない音声状態判別装置となる。
【0047】
【発明の効果】
以上説明したように請求項1に記載の発明によれば、しきい値の適応が速く、短時間で音声状態を精度良く判別することができる。
【0048】
また、請求項2に記載の発明によれば、請求項1に記載の発明と同様の効果を奏するとともに、入力信号が非音声信号である場合のしきい値を適切なものに維持することができる。
【0049】
さらに、請求項3に記載の発明によれば、請求項1または請求項2に記載の発明と同様の効果を奏するとともに、音声状態判別処理を開始して最初に入力信号が音声信号から非音声信号に移行したときに、しきい値を機敏に対応させることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態の音声状態判別装置の構成を示すブロック図。
【図2】上記実施形態の音声状態判別装置の動作の一部を示すフローチャート。
【図3】上記実施形態の音声状態判別装置の動作の他の一部を示すフローチャート。
【図4】上記実施形態の音声状態判別装置による音声/非音声の判別例を示すタイムチャート。
【符号の説明】
1…音声状態判別装置
2…フレームエネルギー計算部(レベル測定手段)
3…しきい値計算部(しきい値適応化手段)
4…比較部(比較手段)
5…非音声フレームカウンタ[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio state determination device, and more particularly to an audio state determination device that determines whether an input signal is an audio signal or a non-audio signal.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, as a technical means for improving the efficiency of voice data compression, a technique that combines a high-efficiency voice coding and a non-voice compression function is known. Among these, the non-sound compression function determines whether the input signal is a sound signal or a non-sound signal, and if it is a non-sound signal, stops data recording or data transmission to the recording medium. A technical means called VAD (Voice Activity Detection) that saves the amount of data is a well-known example.
[0003]
There is also known a variable rate speech coding technique that changes the bit rate according to the state of the input speech signal.
[0004]
Examples of such prior art include A.I. DeJaco, W.M. Gardner, P.M. Jacobs, and C.I. Lee, "QCELP: The North American CDMA Digital Cellular Variable Rate Speck Coding Standard," Proceedings IEEE Workshop on Speech Coding forTamp counseling. 5-6, 1993 are mentioned.
[0005]
According to this, considering the environment where the background noise level is very low to the environment where the background noise is considerably mixed, starting from a small judgment threshold and gradually increasing the threshold, The threshold is adapted to the background noise level, and by performing such processing, it is possible to maintain the discrimination accuracy of the voice state even if the background noise environment is mixed. .
[0006]
[Problems to be solved by the invention]
However, according to the voice state determination means based on the adaptive threshold value, the threshold value is adapted and the voice state can be accurately determined as the input signal level and the background noise level increase. It took a long time, and the desired encoding efficiency could not be obtained during this time.
[0007]
The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a voice state determination device that can quickly determine the voice state in a short time with quick adaptation of threshold values.
[0008]
[Means for Solving the Problems]
In order to achieve the above object, a first speech state determination device according to the present invention includes a level measuring unit that measures the level of an input signal divided into predetermined frame intervals, and the above-mentioned level measured by the level measuring unit. Comparing means for comparing and outputting the level of the input signal and a threshold value for determining whether the input signal is an audio signal or a non-audio signal; When it is determined that the threshold value is larger than the set threshold value, the threshold value is increased at a predetermined rate, and the comparison means determines that the level of the input signal is smaller than the currently set threshold value. The threshold value is decreased, and the predetermined ratio for increasing the threshold value is the difference between the minimum value of the input signal level in the past predetermined time and the current threshold value. Based those with a threshold adaptation means for setting.
[0009]
In the second sound state determination device according to the present invention, when the first sound state determination device determines that the level of the input signal is lower than a currently set threshold value by the comparing means. The threshold value adaptation means sets the level of the input signal as a new threshold value.
[0010]
Furthermore, the third audio state determination device of the present invention is the above first or second audio state determination device, wherein the minimum value of the level of the input signal within a predetermined time from the start of the audio state determination process and the current value. When the threshold value is compared with the threshold value and the current threshold value is smaller than the minimum value by a predetermined value or more, the threshold value adapting means increases the rate at which the threshold value is increased during normal times. Is set to a predetermined ratio that is larger than that, and when the input signal is determined to be a non-speech signal, the ratio at which the threshold value is increased is returned to the ratio at which the normal signal is increased.
[0011]
Therefore, in the first speech state determination device of the present invention, the level measuring unit measures the level of the input signal divided into predetermined frame intervals, and the comparing unit measures the level of the input signal measured by the level measuring unit. And a threshold value for determining whether the input signal is an audio signal or a non-speech signal, and the threshold value adaptation means uses the comparison means to determine the level of the input signal at present. When it is determined that the threshold value is larger than the set threshold value, the threshold value is increased at a predetermined rate, and when the level of the input signal is smaller than the currently set threshold value by the comparing means. If it is determined, the threshold value is decreased, and at this time, the predetermined ratio for increasing the threshold value is the difference between the minimum value of the input signal level in the past predetermined time and the current threshold value. Based on Set Te.
[0012]
Further, the second sound state discriminating apparatus according to the present invention, when the comparing means determines that the level of the input signal is smaller than a currently set threshold value, the threshold value adapting means. Sets the level of the input signal as a new threshold value.
[0013]
Furthermore, the third voice state determination device of the present invention compares the current threshold value with the minimum value of the level of the input signal within a predetermined time from the start of the voice state determination process. Is smaller than the minimum value by a predetermined value or more, the threshold value adaptation means sets the ratio for increasing the threshold value to a predetermined ratio larger than the ratio for increasing the normal time, and the input signal When it is determined that is a non-speech signal, the rate at which the threshold value is increased is returned to the rate at which it is increased during the normal time.
[0014]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings.
1 to 4 show an embodiment of the present invention, and FIG. 1 is a block diagram showing the configuration of a voice state determination device.
[0015]
As shown in FIG. 1, the voice state determination device 1 includes a frame energy calculation unit 2 that calculates energy at a level for each frame when an input signal is input, and an output of the frame energy calculation unit 2 and will be described later. The threshold value calculation unit 3 that calculates a threshold value based on the output of the threshold value calculation unit 3 and the output of the frame energy calculation unit 2 are compared with the output of the threshold value calculation unit 3 and output. When the number of consecutive non-voice frames, which are frames in which the energy of the input signal is smaller than the threshold, is counted based on the output of the comparison unit 4 and the comparison unit 4, and the count result continues for a predetermined number or more Has a non-speech frame counter 5 for discriminating that it is non-speech and outputting the discrimination result.
[0016]
FIG. 2 is a flowchart showing a part of the operation of the voice state determination device 1, and FIG. 3 is a flowchart showing another part of the operation of the voice state determination device 1.
[0017]
When the operation is started (step S1), first, various constants are set (step S2). Here, for example, the number of observation frames obs_lim for setting the threshold increase rate is set to 50, the threshold lower limit value trs_min is set to 128, and the threshold upper limit value trs_max is set to 262144.
[0018]
Subsequently, various variables are initialized (step S3). That is, the processing frame number frm, the threshold value trs, the increase rate setting status, and the hangover frame count NoiseCnt are set to 0, respectively.
[0019]
Next, the frame energy eng is calculated by, for example, the following formula 1 (step S4).
[0020]
[Expression 1]
Figure 0003607775
Here, s (n) represents the input signal in the sample n, and N represents the frame length.
[0021]
Subsequently, it is determined whether or not the threshold value trs is smaller than the lower limit value trs_min of the threshold value (step S5). If the threshold value trs is smaller, the threshold value trs is set to the lower limit value trs_min of the threshold value ( Step S6).
[0022]
In step S5, if the threshold value trs is equal to or greater than the lower limit value trs_min of the threshold value, or if step S6 is completed, it is determined whether or not the frame energy eng is smaller than the threshold value trs. (Step S7), if smaller, the threshold value trs is updated to the frame energy eng (Step S8).
[0023]
In step S7, if the frame energy eng is greater than or equal to the threshold trs, whether or not the processing frame number frm is smaller than the number of observed frames obs_lim, that is, a constant is set as shown in step S2. If so, it is determined whether the current processing frame is less than 50 from the start of processing (step S9).
[0024]
If it is smaller, it is further determined whether the processing frame number frm is 0 (step S10). If it is 0, the frame energy eng is set as MinLev (step S11). It is determined whether the energy eng is smaller than MinLev (step S12).
[0025]
If it is smaller, the frame energy eng is set as MinLev (step S13). In steps S10 to S13 as described above, the minimum value of the frame energy from the start of processing to 50 frames is set to MinLev.
[0026]
If any of the above steps S8, S11, S13 is completed, or if the processing frame number frm is greater than or equal to the number of observed frames obs_lim in step S9, or if the frame energy eng is greater than or equal to MinLev in step S12 It is determined that the processing frame number frm is equal to or greater than the number of observed frames obs_lim and the increase status setting status is 0, that is, the number of frames is equal to or greater than 50 and has never been in a non-voice state. (Here, the symbol “&&” in the figure represents “and”) (step S14).
[0027]
If YES in step S14, it is determined whether or not the threshold value trs is smaller than MinLev (step S15). If it is smaller, the threshold value trs is set to 1/32 of the threshold value trs. (In other words, the sign “+ =” in the figure indicates that only the value on the right side is added to the already entered value. The same applies hereinafter.) (Step S16).
[0028]
If this step S16 ends or if NO in step S14 or step S15, the threshold value trs is increased by 1 / 64th of the threshold value trs (that is, trs / 64) (described later). (Refer Formula 2 and Formula 6) (step S17).
[0029]
Here, the amount of increase in the threshold value in step S17 is normal, and in contrast to this, in step S16, the rate of increase is higher than usual.
[0030]
Then, it is determined whether the threshold value trs is larger than the upper threshold value trs_max (step S18). If the threshold value trs is larger, the threshold value trs is set to the upper threshold value trs_max (step S19).
[0031]
If step S19 is completed or NO in step S18, it is determined whether or not the frame energy eng is larger than the threshold value trs (step S20). The count NoiseCnt is incremented (indicated by a sign “++” in the figure. The same applies hereinafter) (step S21). If larger, the count NoiseCnt of the number of hangover frames is set to 0 (step S22).
[0032]
When step S21 or step S22 is completed, it is determined whether or not the count NoiseCnt of the number of hangover frames is larger than 4 (step S23). If not, it is determined that the sound is voice (step S24). If it is larger, it is determined that the sound is non-speech (step S25), and then 1 is set in the status status of the increase rate setting (step S26). When this status is 1, the process branches to NO in step S14, so that the high increase rate process in step S16 is not performed and only the normal increase rate process in step S17 is performed.
[0033]
When step S24 or step S26 is completed, the process frame number frm is incremented (step S27), and the process returns to step S4 to shift to the next frame process.
[0034]
Thus, in this embodiment, the minimum value MinLev of the frame energy eng within 50 frames (that is, 24 ms × 50 = 1.2 s) from the start of encoding is calculated, and at that time, the threshold value trs is greater than the minimum value MinLev. If it is smaller, the threshold trs is increased, and once it is determined to be non-speech, it is returned to the normal increase rate so that the threshold trs follows faster.
[0035]
The following is a specific description of how fast the follow-up speed is made using mathematical formulas.
[0036]
When the increase rate of the threshold trs is a normal increase rate as shown in step S17, the threshold trs ′ of the next frame is
[Expression 2]
Figure 0003607775
[0037]
Thus, as long as the frame energy eng is smaller than the current threshold, the threshold trs_n after n frames is
[Equation 3]
Figure 0003607775
Here, trs_0 is an initial value of the threshold value.
[0038]
For example, to double the threshold,
[Expression 4]
Figure 0003607775
That means
[Equation 5]
Figure 0003607775
Thus, it can be seen that 45 frames are required.
[0039]
On the other hand, when the threshold increase rate is increased as shown in step S16 in addition to step S17, the threshold trs ′ of the next frame is
[Formula 6]
Figure 0003607775
[0040]
Thus, as long as the frame energy eng is smaller than the threshold value at that time, the threshold value trs_n after n frames is
[Expression 7]
Figure 0003607775
[0041]
By the time the threshold is doubled,
[Equation 8]
Figure 0003607775
That means
[Equation 9]
Figure 0003607775
Thus, 15 frames are sufficient.
[0042]
Next, FIG. 4 shows an example of speech / non-speech discrimination by the speech state discrimination device 1 using such an algorithm.
[0043]
That is, FIG. 4A shows the original sound, and the non-speech section after the first speech section starts from the position indicated by the dotted line in the figure. Conventionally, a threshold as shown in FIG. 4 (B) is used for such an original sound, so as shown in FIG. 4 (C), the voice is kept for a while after the start of the non-voice interval. It was judged to be a section.
[0044]
On the other hand, according to the present embodiment, in order to use the threshold value as shown in FIG. 4D, as shown in FIG. 4E, almost simultaneously with the start of the non-voice section indicated by the dotted line, It is possible to determine the transition from the voice section to the non-voice section, and to determine the voice state with high accuracy.
[0045]
In the above description, only whether the threshold trs and the minimum value MinLev of the frame energy eng from the start of processing to the 50th frame are determined is determined to determine whether to increase the increase rate of the threshold trs. However, the present invention is not limited to this, and the rate of increasing the increase rate of the threshold value trs may be changed according to the magnitude of the difference between the threshold value trs and MinLev.
[0046]
Thus, according to such an embodiment, when the voice state determination based on the adaptive threshold is used, even if the level of the input signal or the background noise increases, the adaptive speed of the threshold is higher than that of the conventional example. It becomes a high-speed voice state discriminating apparatus that does not delay the time until the voice state can be discriminated with high accuracy.
[0047]
【The invention's effect】
As described above, according to the first aspect of the present invention, the adaptation of the threshold is fast, and the voice state can be accurately determined in a short time.
[0048]
According to the second aspect of the invention, the same effect as that of the first aspect of the invention can be achieved, and the threshold value when the input signal is a non-speech signal can be maintained at an appropriate level. it can.
[0049]
Furthermore, according to the invention described in claim 3, the same effect as that of the invention described in claim 1 or claim 2 can be obtained. When the signal is shifted, the threshold value can be quickly dealt with.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an audio state determination device according to an embodiment of the present invention.
FIG. 2 is a flowchart showing a part of the operation of the voice state determination apparatus according to the embodiment.
FIG. 3 is a flowchart showing another part of the operation of the sound state determination device of the embodiment.
FIG. 4 is a time chart showing an example of voice / non-voice discrimination by the voice state discrimination device of the embodiment.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Audio | voice state discrimination apparatus 2 ... Frame energy calculation part (level measurement means)
3. Threshold value calculation unit (threshold adaptation means)
4. Comparison unit (comparison means)
5 ... Non-voice frame counter

Claims (3)

所定のフレーム間隔に分割された入力信号のレベルを測定するレベル測定手段と、
このレベル測定手段により測定された上記入力信号のレベルと、該入力信号が音声信号または非音声信号の何れであるかを判別するためのしきい値とを比較して出力する比較手段と、
この比較手段により上記入力信号のレベルが現在設定されているしきい値よりも大きいと判断された場合には、そのしきい値を所定の割合で増加させ、該比較手段により入力信号のレベルが現在設定されているしきい値よりも小さいと判断された場合には、そのしきい値を減少させるものであって、上記しきい値を増加させる所定の割合を、過去の所定時間内における入力信号のレベルの最小値と、現在のしきい値との差に基づいて設定するしきい値適応化手段と、
を具備したことを特徴とする音声状態判別装置。
Level measuring means for measuring the level of the input signal divided into predetermined frame intervals;
A comparison means for comparing and outputting the level of the input signal measured by the level measurement means and a threshold value for determining whether the input signal is an audio signal or a non-audio signal;
If it is determined by the comparison means that the level of the input signal is greater than the currently set threshold value, the threshold value is increased at a predetermined rate, and the input signal level is increased by the comparison means. When it is determined that the threshold value is smaller than the currently set threshold value, the threshold value is decreased, and a predetermined ratio for increasing the threshold value is input within a past predetermined time. Threshold adaptation means for setting based on the difference between the minimum value of the signal level and the current threshold;
A voice state discrimination device comprising:
上記比較手段により上記入力信号のレベルが現在設定されているしきい値よりも小さいと判断された場合には、上記しきい値適応化手段は、該入力信号のレベルを新たなしきい値として設定するものであることを特徴とする請求項1に記載の音声状態判別装置。When the comparison means determines that the level of the input signal is lower than the currently set threshold value, the threshold value adaptation means sets the input signal level as a new threshold value. The voice state determination device according to claim 1, wherein 音声状態判別処理の開始時から所定時間内における入力信号のレベルの最小値と、現在のしきい値とを比較して、現在のしきい値が上記最小値よりも所定値以上小さい場合には、上記しきい値適応化手段は、上記しきい値を増加させる割合を通常時に増加させる割合よりも大きい所定の割合に設定し、該入力信号が非音声信号であると判別された時点で、上記しきい値を増加させる割合を上記通常時に増加させる割合に戻すものであることを特徴とする請求項1または請求項2に記載の音声状態判別装置。When the minimum value of the level of the input signal within a predetermined time from the start of the voice state determination process is compared with the current threshold value, and the current threshold value is smaller than the minimum value by a predetermined value or more, The threshold value adaptation means sets the rate for increasing the threshold value to a predetermined rate larger than the rate for increasing the normal time, and when it is determined that the input signal is a non-speech signal, The voice state determination apparatus according to claim 1 or 2, wherein a rate at which the threshold value is increased is returned to a rate at which the threshold value is increased at the normal time.
JP09276896A 1996-04-12 1996-04-15 Voice state discrimination device Expired - Lifetime JP3607775B2 (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP09276896A JP3607775B2 (en) 1996-04-15 1996-04-15 Voice state discrimination device
GB9707087A GB2312360B (en) 1996-04-12 1997-04-08 Voice signal coding apparatus
GB0023247A GB2351211B (en) 1996-04-12 1997-04-08 Voice signal coding apparatus
GB0023246A GB2350763B (en) 1996-04-12 1997-04-08 Voice signal coding apparatus
US08/845,543 US6272459B1 (en) 1996-04-12 1997-04-11 Voice signal coding apparatus
DE19715126A DE19715126C2 (en) 1996-04-12 1997-04-11 Speech signal coding device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09276896A JP3607775B2 (en) 1996-04-15 1996-04-15 Voice state discrimination device

Publications (2)

Publication Number Publication Date
JPH09281987A JPH09281987A (en) 1997-10-31
JP3607775B2 true JP3607775B2 (en) 2005-01-05

Family

ID=14063610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09276896A Expired - Lifetime JP3607775B2 (en) 1996-04-12 1996-04-15 Voice state discrimination device

Country Status (1)

Country Link
JP (1) JP3607775B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010162619A (en) * 2009-01-13 2010-07-29 Toyota Motor Corp Robot stop device and method

Also Published As

Publication number Publication date
JPH09281987A (en) 1997-10-31

Similar Documents

Publication Publication Date Title
US6205420B1 (en) Method and device for instantly changing the speed of a speech
JP4202090B2 (en) Speech synthesis system using smoothing filter and method thereof, smoothing filter characteristic control device and method thereof
US6799161B2 (en) Variable bit rate speech encoding after gain suppression
US6272459B1 (en) Voice signal coding apparatus
JP2573352B2 (en) Voice detection device
FI118359B (en) Method of speech recognition and speech recognition device and wireless communication
EP0972283A1 (en) Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
JP3607775B2 (en) Voice state discrimination device
JP2005189518A (en) Voiced/voiceless judgment apparatus and voiced/voiceless judgment method
JPH08292787A (en) Voice/non-voice discriminating method
JPH10301594A (en) Sound detecting device
JP3422716B2 (en) Speech rate conversion method and apparatus, and recording medium storing speech rate conversion program
JP4442239B2 (en) Voice speed conversion device and voice speed conversion method
JP2656069B2 (en) Voice detection device
JPH10222194A (en) Discriminating method for voice sound and voiceless sound in voice coding
JPS60129796A (en) Sillable boundary detection system
JP2867744B2 (en) Audio playback device
JPH04115299A (en) Method and device for voiced/voiceless sound decision making
JPH07191695A (en) Speaking speed conversion device
KR100345402B1 (en) An apparatus and method for real - time speech detection using pitch information
JPH1020880A (en) Voice state discrimination device
JPS59149400A (en) Syllable boundary selection system
JPH05224686A (en) Method and device for judging voiced/voiceless
JP3937688B2 (en) Speech speed conversion method and speech speed converter
JPS60198596A (en) Syllable boundary selection system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041008

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071015

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091015

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121015

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 9

EXPY Cancellation because of completion of term