JP2001306086A - Device and method for deciding voice section - Google Patents

Device and method for deciding voice section

Info

Publication number
JP2001306086A
JP2001306086A JP2000121400A JP2000121400A JP2001306086A JP 2001306086 A JP2001306086 A JP 2001306086A JP 2000121400 A JP2000121400 A JP 2000121400A JP 2000121400 A JP2000121400 A JP 2000121400A JP 2001306086 A JP2001306086 A JP 2001306086A
Authority
JP
Japan
Prior art keywords
input wave
determination
forgetting
analysis
voice section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000121400A
Other languages
Japanese (ja)
Inventor
Satoshi Furuta
訓 古田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2000121400A priority Critical patent/JP2001306086A/en
Publication of JP2001306086A publication Critical patent/JP2001306086A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To solve the problem in the convention system that the precision of voice section decision processing becomes deteriorated, if an input wave has abrupt change which is more than assumed in the voice section decision processing. SOLUTION: When the frequency of the voice section decision processing reaches previously set forgetfulness cycles, forgetfulness update processing for a criterion is performed by using an independent parameter which does not depend upon the input wave.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、断続的に発せら
れる音声信号と周囲環境において生じた環境雑音とが混
在した入力波を時間的な区間毎にそれぞれ分割し、入力
波に適応化する判定閾値を用いて音声信号の有無を区間
毎に判定する音声区間判定装置および音声区間判定方法
に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method of dividing an input wave in which an intermittently generated voice signal and environmental noise generated in the surrounding environment are divided into time sections and adapting the input wave to the input wave. The present invention relates to a voice section determination device and a voice section determination method for determining the presence or absence of a voice signal for each section using a threshold.

【0002】[0002]

【従来の技術】例えば、効率的な省消費電力化を要求さ
れる移動体通信端末間において、情報を通信するための
音声信号が入力波に存在するときにのみ移動体通信端末
のバッテリーを用いて通信を行うようにするバッテリー
セービング技術が求められている。
2. Description of the Related Art For example, a battery of a mobile communication terminal is used only when an audio signal for communicating information is present in an input wave between mobile communication terminals that require efficient power saving. There is a need for a battery saving technology that enables communication by using a battery.

【0003】このようなバッテリーセービング技術とし
て、一定の時間的な区間(フレームともいう)毎に入力
波をそれぞれ分割し、音声信号の有無を検出・判定する
音声区間判定装置がある。この音声区間判定装置は、区
間に分割された入力波から種々の分析パラメータを算出
し、この分析パラメータが所定の条件を満たすような場
合に入力波に音声信号が存在するものと判定する。
[0003] As such a battery saving technique, there is a voice section determination device that divides an input wave for each predetermined time section (also referred to as a frame) and detects and determines the presence or absence of a voice signal. The speech section determination device calculates various analysis parameters from the input wave divided into sections, and determines that a speech signal exists in the input wave when the analysis parameters satisfy a predetermined condition.

【0004】例えば、過去の音声区間判定装置では、分
析パラメータとして区間毎の入力波パワーを算出して一
定の判定閾値と比較する。一定の判定閾値以上の入力波
パワーを有する区間は音声の存在する有音区間と判定さ
れ(所定の条件を満たす)、一定の判定閾値に満たない
入力波パワーを有する区間は音声の存在しない無音区間
と判定される(所定の条件を満たさない)。しかしなが
ら、音声信号や環境雑音の音響的性質は常に一定ではな
く、レベル的・時間的に急峻な変化を生ずることがしば
しばあるため、一定の判定閾値を用いて音声区間判定処
理を行う単純な方法では対応しきれない場合が多い。
[0004] For example, in the past speech section determination apparatus, the input wave power for each section is calculated as an analysis parameter and is compared with a fixed determination threshold. A section having an input wave power equal to or higher than a predetermined determination threshold is determined as a sound section in which a voice is present (satisfies a predetermined condition), and a section having an input wave power lower than the predetermined determination threshold is a silent section in which no voice is present. It is determined to be a section (the predetermined condition is not satisfied). However, since the acoustic properties of audio signals and environmental noise are not always constant, and often change sharply in terms of level and time, a simple method of performing audio section determination processing using a constant determination threshold value Is often not enough.

【0005】このため、近年の音声区間判定装置では、
入力波から算出される種々の分析パラメータによって、
判定閾値を入力波に対して適応的に変化(適応化)させ
る方法が主流になってきている。音声区間判定装置は移
動体通信を含む音声通信技術に限らず、音声認識技術や
雑音抑圧システムなどにも応用することができ、その技
術的進歩に対する期待は大きい。
[0005] For this reason, in recent voice section determination devices,
By various analysis parameters calculated from the input wave,
A method of adaptively changing (adapting) a determination threshold with respect to an input wave has become mainstream. The voice section determination device can be applied not only to voice communication technology including mobile communication, but also to voice recognition technology, noise suppression system, and the like.

【0006】このような従来の音声区間判定装置には、
例えば特開平6−266380号公報に開示されたもの
が挙げられる。この音声区間判定装置では、人間の発し
た音声と雑音との性質を採り入れたメトリック法が用い
られている。
[0006] Such a conventional voice section determination device includes:
For example, one disclosed in JP-A-6-266380 can be mentioned. In this voice section determination device, a metric method that uses the characteristics of human-generated voice and noise is used.

【0007】図9および図10は従来の音声区間判定装
置の動作を示すフローチャートである。図9および図1
0において、ブロックBL110はk番目のフレームに
おける音声フレームメトリックSFM(k)を算出する
音声フレームメトリック算出処理ブロック、ブロックB
L120はk番目のフレームにおいて入力された入力波
パワーSE(k)に基づいて判定閾値Tm(k)を算出
する判定閾値算出ブロックである。
FIGS. 9 and 10 are flow charts showing the operation of the conventional voice section judging device. 9 and 1
0, a block BL110 is an audio frame metric calculation processing block for calculating an audio frame metric SFM (k) in the k-th frame, block B
L120 is a determination threshold calculation block that calculates a determination threshold Tm (k) based on the input wave power SE (k) input in the k-th frame.

【0008】また、ブロックBL140はk番目のフレ
ームにおける雑音フレームメトリックNFM(k)を算
出する雑音フレームメトリック算出処理ブロック、ブロ
ックBL150は算出された判定閾値Tm(k)に基づ
いてk番目のフレームにおける音声の有無を判定する音
声区間判定ブロック、BL160は音声フレームメトリ
ックSFM(k)および判定閾値Tm(k)を制御する
パラメータ制御ブロックである。
A block BL140 is a noise frame metric calculation processing block for calculating a noise frame metric NFM (k) in the k-th frame, and a block BL150 is a noise frame metric calculation block in the k-th frame based on the calculated determination threshold value Tm (k). A voice section determination block BL160 for determining the presence or absence of voice is a parameter control block for controlling the voice frame metric SFM (k) and the determination threshold Tm (k).

【0009】次に動作について説明する。環境雑音と混
在するパルス列の音声信号が入力波として従来の音声区
間判定装置に入力されると、フィルタ処理によって低域
の雑音成分が除去されて一定のフレーム長に分割処理さ
れた後に、k番目(kはフレーム番号)のフレームが有
するフレームパワーSE(k)が分析パラメータの一つ
として算出される(ステップST101)。
Next, the operation will be described. When an audio signal of a pulse train mixed with environmental noise is input as an input wave to a conventional audio section determination device, a low-frequency noise component is removed by a filtering process, and after division into a certain frame length, the k-th The frame power SE (k) of the frame (k is a frame number) is calculated as one of the analysis parameters (step ST101).

【0010】ステップST111では、フレームパワー
SE(k)と1フレーム前の音声フレームメトリックS
FM(k−1)とが比較判断される。SE(k)≧SF
M(k−1)であればステップST113へ移行し、S
E(k)<SFM(k−1)であればステップST11
2へと移行する。ステップST113では、k番目のフ
レームの音声フレームメトリックSFM(k)をSFM
(k)=SE(k)として、ステップST121へと移
行する。
In step ST111, the frame power SE (k) and the sound frame metric S
FM (k-1) is determined. SE (k) ≧ SF
If M (k−1), the process proceeds to step ST113,
If E (k) <SFM (k-1), step ST11
Move to 2. In step ST113, the audio frame metric SFM (k) of the k-th frame is set to SFM.
The process proceeds to step ST121 as (k) = SE (k).

【0011】一方、ステップST112では、k番目の
フレームの音声フレームメトリックSFM(k)を
(1)式によって算出し、ステップST141へと移行
する。ここでBSは音声フレームメトリックの減衰時定
数であり、STをサンプリング周期、TBを減衰時間と
して(2)式の指数関数で与えられる。
On the other hand, in step ST112, the voice frame metric SFM (k) of the k-th frame is calculated by equation (1), and the process proceeds to step ST141. Here, BS is the decay time constant of the voice frame metric, and is given by an exponential function of equation (2), where ST is the sampling period and TB is the decay time.

【0012】 SFM(k)=SFM(k−1)・BS+SE(k)・(1−BS) (1) BS=exp[−(ST/TB)] (2)SFM (k) = SFM (k−1) · BS + SE (k) · (1-BS) (1) BS = exp [− (ST / TB)] (2)

【0013】ステップST121では、1フレーム前の
音声区間判定結果VOUT(k−1)が有音区間判定か
無音区間判定かを判断する。VOUT(k−1)=0、
つまり無音区間判定の場合には、ステップST131に
おいて2フレーム前の音声区間判定結果VOUT(k−
2)にVOUT(k−1)の結果を記憶させ、ステップ
ST141へと移行する。
In step ST121, it is determined whether the voice section determination result VOUT (k-1) one frame before is a voice section determination or a silent section determination. VOUT (k-1) = 0,
That is, in the case of the silent section determination, in step ST131, the voice section determination result VOUT (k−
The result of VOUT (k-1) is stored in 2), and the process proceeds to step ST141.

【0014】一方、ステップST121においてVOU
T(k−1)=1、つまり有音区間判定の場合には、ス
テップST122においてtmp=SE(k)/fac
1として求められるパラメータtmpを計算し、ステッ
プST123に移行して(3)式または(4)式を満た
すかの判断が行われる。
On the other hand, in step ST121, VOU
In the case of T (k-1) = 1, that is, in the case of the sound section determination, in step ST122, tmp = SE (k) / fac
The parameter tmp obtained as 1 is calculated, and the process proceeds to step ST123 to determine whether the expression (3) or the expression (4) is satisfied.

【0015】 tmp>Tm(k−1) (3) VOUT(k−2)=0 (4)Tmp> Tm (k−1) (3) VOUT (k−2) = 0 (4)

【0016】(3),(4)式のいずれかを満たす場合
にはST124においてk番目の判定閾値Tm(k)=
tmpとし、ステップST131,ステップST141
へと移行する。(3),(4)式のいずれも満たさない
場合にはステップST131,ステップST141へと
移行する。
If either of the formulas (3) and (4) is satisfied, the k-th determination threshold value Tm (k) = STm in ST124.
tmp, steps ST131 and ST141.
Move to. If none of the equations (3) and (4) is satisfied, the process proceeds to steps ST131 and ST141.

【0017】ステップST131においてVOUT(k
−2)=VOUT(k−1)とされると、ステップST
141ではSE(k)と1フレーム前の雑音フレームメ
トリックNFM(k−1)との比較判断が行われる。
In step ST131, VOUT (k
-2) = VOUT (k-1), step ST
At 141, a comparison is made between SE (k) and the noise frame metric NFM (k-1) one frame before.

【0018】SE(k)≧NFM(k−1)ならばステ
ップST142の(5)式によって、一方SE(k)<
NFM(k−1)ならばステップST143の(6)式
によってk番目のフレームの雑音フレームメトリックN
FM(k)が算出される。なお、(5)式において、パ
ラメータBTは雑音フレームメトリックの減衰時定数で
あり、(2)式と同様にして求められる。
If SE (k) ≧ NFM (k−1), then according to equation (5) of step ST142, on the other hand, SE (k) <
If NFM (k-1), the noise frame metric N of the k-th frame is calculated by the equation (6) in step ST143.
FM (k) is calculated. In the equation (5), the parameter BT is an attenuation time constant of the noise frame metric, and is obtained in the same manner as the equation (2).

【0019】 NFM(k)=NFM(k−1)・BT+SE(k)・(1−BT) (5) NFM(k)=SE(k) (6)NFM (k) = NFM (k−1) · BT + SE (k) · (1-BT) (5) NFM (k) = SE (k) (6)

【0020】以上のように、ステップST101からブ
ロックBL110,ブロックBL120,ステップST
131,ブロックBL140までの処理によって、判定
閾値Tm(k),音声フレームメトリックSFM
(k),雑音フレームメトリックNFM(k)がそれぞ
れ算出されると、現在のフレームの音声区間判定処理が
行われる。
As described above, from step ST101 to block BL110, block BL120, and step ST101.
131, the processing up to the block BL140, the determination threshold Tm (k), the voice frame metric SFM
When (k) and the noise frame metric NFM (k) are respectively calculated, a speech section determination process of the current frame is performed.

【0021】つまり、ステップST151において、
(7)式にしたがって上限判定閾値upが計算され、ス
テップST152において上限判定閾値upとSFM
(k)との比較が行われる。ただし(7)式のTuは上
限保護定数である。
That is, in step ST151,
The upper limit determination threshold up is calculated according to the equation (7), and in step ST152, the upper limit determination threshold up and the SFM
A comparison with (k) is made. Here, Tu in equation (7) is an upper limit protection constant.

【0022】 up=Tm(k)+NFM(k)・Tu (7)Up = Tm (k) + NFM (k) · Tu (7)

【0023】ステップST152においてSFM(k)
>upと判断されると、k番目のフレームは有音区間と
判定され(VOUT(k)=1,ステップST15
3)、ステップST161へと移行する。一方、ステッ
プST152においてSFM(k)≦upと判断される
と、ステップST154において下限判定閾値lowが
(8)式にしたがって計算され、ステップST155に
おいて下限判定閾値lowとSFM(k)との比較が行
われる。ただし、(8)式のTlは下限保護定数であ
る。
In step ST152, SFM (k)
If> up is determined, the k-th frame is determined to be a voiced section (VOUT (k) = 1, step ST15)
3) The process proceeds to Step ST161. On the other hand, if it is determined in step ST152 that SFM (k) ≦ up, in step ST154, the lower limit determination threshold value low is calculated according to equation (8), and in step ST155, the lower limit determination threshold value low is compared with SFM (k). Done. Here, Tl in the equation (8) is a lower limit protection constant.

【0024】 low=Tm(k)+NFM(k)・Tl (8)Low = Tm (k) + NFM (k) · Tl (8)

【0025】ステップST155においてSFM(k)
<lowと判断されると、k番目のフレームは無音区間
と判定され(VOUT(k)=0,ステップST15
6)、ステップST161へと移行する。一方、ステッ
プST155においてSFM(k)≧lowと判断され
ると、k番目のフレームの音声区間判定結果VOUT
(k)は1フレーム前の音声区間判定結果VOUT(k
−1)から変化しないと判定され(VOUT(k)=V
OUT(k−1),ステップST157)、ステップS
T161へと移行する。
In step ST155, SFM (k)
If it is determined to be <low, the k-th frame is determined to be a silent section (VOUT (k) = 0, step ST15).
6) The process proceeds to Step ST161. On the other hand, if it is determined in step ST155 that SFM (k) ≧ low, the voice section determination result VOUT of the k-th frame
(K) is the voice section determination result VOUT (k
-1) is determined not to change (VOUT (k) = V
OUT (k-1), step ST157), step S
The process moves to T161.

【0026】ステップST161では、VOUT(k)
=0またはVOUT(k−1)=1を満たすかが判断さ
れる。VOUT(k)=0またはVOUT(k−1)=
1のいずれかの式がステップST161で満たされる
と、ステップST162においてSFM(k)=SE
(k)とし、ステップST163においてTm(k)を
(9)式のように算出してk番目のフレームの音声区間
判定処理を完了、次のフレームの音声区間判定処理に備
える。ステップST161において、VOUT(k)=
0またはVOUT(k−1)=1のいずれの式も満たさ
ない場合には、そのままk番目のフレームの音声区間判
定処理を完了し、次のフレームの音声区間判定処理に備
える。
In step ST161, VOUT (k)
= 0 or VOUT (k-1) = 1 is determined. VOUT (k) = 0 or VOUT (k-1) =
1 is satisfied in step ST161, in step ST162, SFM (k) = SE
In step ST163, Tm (k) is calculated as in equation (9) to complete the voice section determination process for the k-th frame, and prepare for the voice section determination process for the next frame. In step ST161, VOUT (k) =
If none of the expressions of 0 or VOUT (k-1) = 1 is satisfied, the voice section determination processing of the k-th frame is completed as it is, and preparation is made for the voice section determination processing of the next frame.

【0027】 Tbot<=Tm(k)=SE(k)/fac2 (9)Tbot <= Tm (k) = SE (k) / fac2 (9)

【0028】以上のように、従来の音声区間判定装置で
は、入力波のフレームパワーSE(k)に適応する判定
閾値Tm(k)を算出し、Tm(k)をもとに上限判定
閾値upおよび下限判定閾値lowを算出して音声区間
判定処理を行うようにしているので、入力波の変化に対
応して判定を行うことが可能になる。
As described above, in the conventional voice section determination device, the determination threshold value Tm (k) adapted to the frame power SE (k) of the input wave is calculated, and the upper limit determination threshold value up is determined based on Tm (k). Since the voice section determination process is performed by calculating the lower limit determination threshold value low and the lower limit determination threshold value low, the determination can be performed in response to a change in the input wave.

【0029】[0029]

【発明が解決しようとする課題】従来の音声区間判定装
置は以上のように構成されているので、音声区間判定処
理の際に想定以上の急峻な変化が入力波に生じた場合、
適応化する判定閾値の精度が急峻な入力波の変化に影響
を受けて劣化し、その後の音声区間判定処理の精度が劣
化してしまうという課題があった。
Since the conventional voice section determination apparatus is configured as described above, if a sudden change more than expected occurs in the input wave during the voice section determination process,
There has been a problem that the accuracy of the adaptation determination threshold is degraded by being affected by the steep change of the input wave, and the accuracy of the subsequent voice segment determination process is degraded.

【0030】これは、適応化する判定閾値が一定値とし
て減衰時定数を用いて算出されるために生じるものであ
り、想定以上の急峻な入力波の変化の影響という特殊な
状況に対しても判定閾値が適応化してしまい、その後の
音声区間判定処理の精度が劣化してしまう。
This is because the decision threshold to be adapted is calculated as a constant value using the decay time constant, and can be applied even to a special situation such as the influence of a sudden change of the input wave that is more than expected. The determination threshold value is adapted, and the accuracy of the subsequent voice section determination process is degraded.

【0031】また、従来の音声区間判定装置では、入力
波に適応化する判定閾値を算出する際に、フレーム過渡
部の不要なパワー成分の影響を除外することを考慮して
いないため、音声区間判定処理の精度が劣化してしまう
という課題があった。
Further, in the conventional voice section determination apparatus, when calculating the determination threshold value adapted to the input wave, it is not considered to exclude the influence of the unnecessary power component of the frame transient section. There is a problem that the accuracy of the determination processing is deteriorated.

【0032】この発明は上記のような課題を解決するた
めになされたものであり、想定以上の急峻な変化が入力
波に生じた場合にも、その後の音声区間判定処理の精度
劣化を抑制し、安定した精度を持った音声区間判定処理
を行うことができる音声区間判定装置および音声区間判
定方法を得ることを目的とする。
The present invention has been made to solve the above-described problem, and suppresses deterioration in accuracy of the subsequent voice section determination processing even when an unexpectedly sharp change occurs in an input wave. It is another object of the present invention to provide a voice section determination device and a voice section determination method capable of performing voice section determination processing with stable accuracy.

【0033】また、この発明は、過渡部フレームの不要
なパワー成分の影響を場外するように考慮して、音声区
間判定処理の精度劣化を防ぐことができる音声区間判定
装置および音声区間判定方法を得ることを目的とする。
Further, the present invention provides a voice section determination apparatus and a voice section determination method capable of preventing the accuracy of voice section determination processing from deteriorating by taking into account the influence of unnecessary power components of a transient part frame. The purpose is to gain.

【0034】[0034]

【課題を解決するための手段】この発明に係る音声区間
判定装置は、音声区間判定処理の処理回数があらかじめ
設定された忘却周期に到達すると、入力波に依存しない
独立パラメータを用いて判定閾値の忘却更新処理を行う
ようにしたものである。
According to the present invention, when the number of times of voice section determination processing reaches a preset forgetting cycle, the voice section determination apparatus of the present invention uses the independent parameter independent of the input wave to determine the determination threshold. Forgetting update processing is performed.

【0035】この発明に係る音声区間判定装置は、区間
毎に分割された入力波に依存する分析パラメータを算出
し、判定閾値と分析パラメータとの比較によって入力波
分析を行う入力波分析手段と、入力波分析の結果に基づ
いて、音声区間判定処理を行う音声区間判定手段と、分
析パラメータの適応更新処理を行い、適応更新処理され
た分析パラメータによって算出された判定閾値を入力波
分析手段に出力するとともに、音声区間判定処理の処理
回数があらかじめ設定された忘却周期に到達すると、入
力波に依存しない独立パラメータを用いて分析パラメー
タの忘却更新処理を行い、忘却更新処理された分析パラ
メータによって算出された判定閾値を入力波分析手段に
出力する判定閾値更新手段とを備えるようにしたもので
ある。
An audio section determining apparatus according to the present invention calculates an analysis parameter dependent on an input wave divided for each section, and performs an input wave analysis by comparing a determination threshold value with the analysis parameter; Based on the result of the input wave analysis, voice section determination means for performing voice section determination processing, adaptive update processing of analysis parameters, and output to the input wave analysis means a determination threshold calculated by the adaptively updated analysis parameters When the number of times of the voice section determination process reaches a preset forgetting cycle, the analysis parameter is subjected to a forgetting update process using an independent parameter that does not depend on the input wave. And a determination threshold updating means for outputting the determined threshold to the input wave analyzing means.

【0036】この発明に係る音声区間判定装置は、入力
波分析手段が、入力波を処理するローパスフィルタおよ
びハイパスフィルタを有し、区間毎に分割された入力波
の正規自己相関最大値、ローパスフィルタで処理された
入力波の正規自己相関正最大値、ローパスフィルタ残差
信号パワーおよびハイパスフィルタで処理された入力波
パワーを分析パラメータとして用いるようにしたもので
ある。
[0036] In the voice section determination apparatus according to the present invention, the input wave analysis means has a low-pass filter and a high-pass filter for processing the input wave, and a normal autocorrelation maximum value of the input wave divided for each section, a low-pass filter. The normal autocorrelation positive maximum value of the input wave processed by the above, the low-pass filter residual signal power, and the input wave power processed by the high-pass filter are used as analysis parameters.

【0037】この発明に係る音声区間判定装置は、判定
閾値更新手段が、入力波に依存する複数の分析パラメー
タの差分と差分閾値とを比較して、複数の分析パラメー
タの差分が差分閾値によって定められる差分範囲を超え
ると、複数の分析パラメータの差分を差分限界値に保つ
制限変更処理を行う分析パラメータ制限手段を備えるよ
うにしたものである。
In the voice segment determination apparatus according to the present invention, the determination threshold updating means compares a difference between a plurality of analysis parameters depending on an input wave and a difference threshold, and determines a difference between the plurality of analysis parameters based on the difference threshold. When the difference exceeds a predetermined difference range, an analysis parameter restricting means for performing a limit change process for keeping a difference between a plurality of analysis parameters at a difference limit value is provided.

【0038】この発明に係る音声区間判定装置は、判定
閾値更新手段が、入力波に依存する分析パラメータと限
界閾値とを比較し、分析パラメータが限界閾値によって
定められる限界範囲を超えると、分析パラメータを限界
範囲に収める制限更新処理を行う分析パラメータ制限手
段を備えるようにしたものである。
[0038] In the voice segment determination apparatus according to the present invention, the determination threshold updating means compares the analysis parameter dependent on the input wave with the limit threshold, and determines that the analysis parameter exceeds the limit range determined by the limit threshold. In the limit range for performing the limit update process.

【0039】この発明に係る音声区間判定装置は、判定
閾値更新手段が、入力波に依存しない複数の独立パラメ
ータを記憶する記憶手段を有し、区間毎の音声区間判定
処理された処理回数があらかじめ設定された忘却周期に
到達する毎に、入力波に依存する分析パラメータに最も
近い独立パラメータを記憶手段から引き出して判定閾値
の忘却更新処理を行うようにしたものである。
In the voice segment determination apparatus according to the present invention, the determination threshold updating means has a storage means for storing a plurality of independent parameters independent of the input wave, and the number of times of the voice section determination processing for each section is determined in advance. Each time the set forgetting cycle is reached, an independent parameter closest to the analysis parameter depending on the input wave is extracted from the storage means, and a forgetting update process of the determination threshold is performed.

【0040】この発明に係る音声区間判定装置は、入力
波分析手段によって算出された分析パラメータに忘却周
期を適応化させる忘却周期適応化手段とを備え、判定閾
値更新手段は、忘却周期適応化手段によって適応化され
た忘却周期にしたがって判定閾値の忘却更新処理を行う
ようにしたものである。
The voice section determining apparatus according to the present invention includes a forgetting cycle adapting means for adapting a forgetting cycle to the analysis parameter calculated by the input wave analyzing means, and the determining threshold updating means comprises a forgetting cycle adapting means. The forgetting update process of the determination threshold is performed according to the forgetting cycle adapted by the above.

【0041】この発明に係る音声区間判定装置は、判定
閾値更新手段が、音声区間判定処理が開始される初期フ
レームでは忘却周期を忘却周期最大値未満とし、音声区
間判定処理の進行とともに忘却周期を忘却周期最大値へ
増加させるようにしたものである。
In the voice segment determination apparatus according to the present invention, the determination threshold updating means sets the forgetting cycle to be less than the maximum forgetting cycle in the initial frame in which the voice section determining process is started, and sets the forgetting cycle as the voice section determining process proceeds. This is to increase the forgetting cycle to the maximum value.

【0042】この発明に係る音声区間判定装置は、判定
閾値更新手段が、入力波に依存しない重み付け係数を用
いて判定閾値を算出するとともに、入力波分析手段によ
って算出された分析パラメータに応じて重み付け係数を
変更処理するようにしたものである。
In the voice segment determination apparatus according to the present invention, the determination threshold updating means calculates the determination threshold using a weighting coefficient independent of the input wave, and assigns a weight in accordance with the analysis parameter calculated by the input wave analysis means. The coefficient is changed.

【0043】この発明に係る音声区間判定方法は、音声
区間判定処理の処理回数があらかじめ設定された忘却周
期に到達すると、入力波に依存しない独立パラメータを
用いて判定閾値の忘却更新処理が行われるようにしたも
のである。
In the voice section determination method according to the present invention, when the number of times of the voice section determination processing reaches a preset forgetting cycle, the forgetting update processing of the determination threshold is performed using an independent parameter independent of the input wave. It is like that.

【0044】この発明に係る音声区間判定方法は、区間
毎に分割された入力波に依存する分析パラメータが算出
され、判定閾値と分析パラメータとの比較によって入力
波分析が行われる第1のステップと、入力波分析の結果
に基づいて、音声区間判定処理が行われる第2のステッ
プと、分析パラメータの適応更新処理が行われ、適応更
新処理された分析パラメータによって算出された判定閾
値が第1のステップへ出力されるとともに、音声区間判
定処理の処理回数があらかじめ設定された忘却周期に到
達すると、入力波に依存しない独立パラメータを用いて
分析パラメータの忘却更新処理が行われ、忘却更新処理
された分析パラメータによって算出された判定閾値が第
1のステップへ出力される第3のステップとを備えるよ
うにしたものである。
The voice section determination method according to the present invention includes a first step in which an analysis parameter depending on an input wave divided for each section is calculated, and an input wave analysis is performed by comparing a determination threshold value with the analysis parameter. A second step in which a speech section determination process is performed based on a result of the input wave analysis, and an adaptive update process of an analysis parameter is performed, and a determination threshold calculated based on the analysis parameter subjected to the adaptive update process is a first threshold value. Output to the step and when the number of times of the voice section determination process reaches a preset forgetting period, a forgetting update process of the analysis parameter is performed using an independent parameter independent of the input wave, and the forgetting update process is performed. And a third step in which the determination threshold value calculated based on the analysis parameter is output to the first step. .

【0045】この発明に係る音声区間判定方法は、第1
のステップでは、ローパスフィルタおよびハイパスフィ
ルタによって入力波が処理され、区間毎に分割された入
力波の正規自己相関最大値、ローパスフィルタで処理さ
れた入力波の正規自己相関正最大値、ローパスフィルタ
残差信号パワーおよびハイパスフィルタで処理された入
力波パワーが分析パラメータとして用いられるようにし
たものである。
The voice section determination method according to the present invention comprises:
In the step, the input wave is processed by the low-pass filter and the high-pass filter, and the normal auto-correlation maximum value of the input wave divided by each section, the normal auto-correlation positive maximum value of the input wave processed by the low-pass filter, the low-pass filter residual The difference signal power and the input wave power processed by the high-pass filter are used as analysis parameters.

【0046】この発明に係る音声区間判定方法は、第3
のステップでは、入力波に依存する複数の分析パラメー
タの差分と差分閾値とが比較され、複数の分析パラメー
タの差分が差分閾値によって定められる差分範囲を超え
ると、複数の分析パラメータの差分を差分限界値に保つ
制限変更処理が行われる第4のステップを備えるように
したものである。
The voice section determination method according to the present invention
In the step, the difference between the plurality of analysis parameters depending on the input wave is compared with the difference threshold, and when the difference between the plurality of analysis parameters exceeds the difference range defined by the difference threshold, the difference between the plurality of analysis parameters is set to the difference limit. A fourth step is provided in which a limit change process for keeping the value is performed.

【0047】この発明に係る音声区間判定方法は、第3
のステップでは、入力波に依存する分析パラメータと限
界閾値とが比較され、分析パラメータが限界閾値によっ
て定められる限界範囲を超えると、分析パラメータを限
界範囲に収める制限更新処理が行われる第4のステップ
を備えるようにしたものである。
The voice section determination method according to the present invention
In the step, the analysis parameter dependent on the input wave is compared with the limit threshold, and when the analysis parameter exceeds the limit range defined by the limit threshold, a limit update process for keeping the analysis parameter within the limit range is performed. It is provided with.

【0048】この発明に係る音声区間判定方法は、第3
のステップでは、入力波に依存しない複数の独立パラメ
ータが記憶され、区間毎の音声区間判定処理された処理
回数があらかじめ設定された忘却周期に到達する毎に、
入力波に依存する分析パラメータに最も近い独立パラメ
ータを記憶された複数の独立パラメータから引き出して
判定閾値の忘却更新処理が行われるようにしたものであ
る。
The voice section determination method according to the present invention
In the step, a plurality of independent parameters that do not depend on the input wave are stored, and each time the number of times of the voice section determination processing for each section reaches a preset forgetting cycle,
An independent parameter closest to an analysis parameter depending on an input wave is extracted from a plurality of stored independent parameters, and a forgetting update process of a determination threshold is performed.

【0049】この発明に係る音声区間判定方法は、第1
のステップにおいて算出された分析パラメータに忘却周
期が適応化される第5のステップとを備え、第3のステ
ップでは、第5のステップにおいて適応化された忘却周
期にしたがって判定閾値の忘却更新処理が行われるよう
にしたものである。
The voice section determination method according to the present invention comprises:
And a fifth step in which the forgetting cycle is adapted to the analysis parameter calculated in the step (b). In the third step, the forgetting update process of the determination threshold is performed according to the forgetting cycle adapted in the fifth step. It is intended to be performed.

【0050】この発明に係る音声区間判定方法は、第3
のステップでは、音声区間判定処理が開始される初期フ
レームでは忘却周期が忘却周期最大値未満とされ、音声
区間判定処理の進行とともに忘却周期が忘却周期最大値
へ増加されるようにしたものである。
The voice section determination method according to the present invention
In the step, the forgetting cycle is set to be less than the forgetting cycle maximum value in the initial frame in which the voice section determining process is started, and the forgetting cycle is increased to the forgetting cycle maximum value as the voice section determining process proceeds. .

【0051】この発明に係る音声区間判定方法は、第3
のステップでは、入力波に依存しない重み付け係数を用
いて判定閾値が算出されるとともに、第1のステップに
おいて算出された分析パラメータに応じて重み付け係数
が変更処理されるようにしたものである。
The voice section determination method according to the present invention has a third
In the step (a), the determination threshold value is calculated using a weighting coefficient independent of the input wave, and the weighting coefficient is changed according to the analysis parameter calculated in the first step.

【0052】[0052]

【発明の実施の形態】以下、この発明の実施の一形態に
ついて説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声区間判定装置の構成を示す図である。図1において、
10は前処理部(入力波分析手段)であり、入力端子に
よって受信された入力波を一定のフレーム(区間)に分
割し、入力波を分析するための各処理を行う。20は入
力波分析部(入力波分析手段)であり、前処理部10の
各処理から種々の分析パラメータを算出して入力波を分
析する。30は判定部(音声区間判定手段)であり、入
力波分析部20の分析結果から音声区間判定結果Vを出
力し、音声区間判定装置の内部状態の保持・変更を行
う。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be described below. Embodiment 1 FIG. FIG. 1 is a diagram showing a configuration of a voice section determination device according to Embodiment 1 of the present invention. In FIG.
Reference numeral 10 denotes a pre-processing unit (input wave analysis means) that divides an input wave received by an input terminal into predetermined frames (sections) and performs various processes for analyzing the input wave. Reference numeral 20 denotes an input wave analysis unit (input wave analysis means) which calculates various analysis parameters from each processing of the preprocessing unit 10 and analyzes the input wave. Reference numeral 30 denotes a determination section (voice section determination means) which outputs a voice section determination result V from the analysis result of the input wave analysis section 20 and holds / changes the internal state of the voice section determination apparatus.

【0053】40は判定係数更新部(判定閾値更新手
段)であり、判定部30の音声区間判定結果Vを受けて
分析パラメータから算出される有音区間判定係数(分析
パラメータ)および無音区間判定係数(分析パラメー
タ)の更新を行う。60は判定閾値算出部(判定閾値更
新手段)であり、判定係数更新部40によって更新され
た有音区間判定係数および無音区間判定係数から判定閾
値を算出し、この判定閾値を判定部30へ出力する。
Numeral 40 denotes a judgment coefficient updating unit (judgment threshold updating means) which receives a voice section judgment result V of the judgment unit 30 and calculates a sound section judgment coefficient (analysis parameter) and a silent section judgment coefficient calculated from the analysis parameters. (Analysis parameters) is updated. Reference numeral 60 denotes a determination threshold calculating unit (determination threshold updating unit) that calculates a determination threshold from the sound section determination coefficient and the silent section determination coefficient updated by the determination coefficient update unit 40, and outputs the determination threshold to the determination unit 30. I do.

【0054】次に動作について説明する。断続的に発生
する音声信号と環境雑音とが混在する入力波が入力端子
によって受信されると、前処理部10は入力波をフレー
ム毎に分割処理し、音声区間判定処理の精度を向上させ
るためにハイパスフィルタ処理を行う。さらに、SNR
(Signal to Noise Ratio,信号
パワー対雑音パワー比)が悪く、音声信号のフレーム間
相関も低い高周波成分を除去するために、ローパスフィ
ルタ処理をハイパスフィルタ出力に対して施す。
Next, the operation will be described. When an input wave in which an intermittently generated voice signal and environmental noise are mixed is received by an input terminal, the preprocessing unit 10 divides the input wave for each frame to improve the accuracy of the voice section determination process. Is subjected to high-pass filtering. Further, the SNR
(Signal to Noise Ratio, signal power to noise power ratio) is low, and low-pass filter processing is performed on the high-pass filter output in order to remove high-frequency components having low inter-frame correlation of the audio signal.

【0055】入力波分析部20では、前処理部10の各
処理出力から入力波を分析するための分析パラメータを
算出する。この実施の形態1では、分析パラメータとし
て次のパラメータを用いる。すなわち、フレームで区切
られた入力波の正規自己相関最大値ac,ローパスフィ
ルタ出力を線形予測分析して得られるローパスフィルタ
残差信号の正規自己相関正最大値rac,ローパスフィ
ルタ残差信号パワーrpおよびハイパスフィルタ出力の
フレームパワーfpである。これらの分析パラメータは
入力波分析部20から判定部30へと出力される。
The input wave analyzer 20 calculates analysis parameters for analyzing the input wave from each processing output of the preprocessor 10. In the first embodiment, the following parameters are used as analysis parameters. That is, the normal autocorrelation maximum value ac of the input wave divided by the frame, the normal autocorrelation positive maximum value rac of the lowpass filter residual signal obtained by performing linear prediction analysis on the lowpass filter output, the lowpass filter residual signal power rp, and This is the frame power fp of the output of the high-pass filter. These analysis parameters are output from the input wave analysis unit 20 to the determination unit 30.

【0056】図2および図3はこの発明の実施の形態1
による音声区間判定装置に備えられた判定部30,判定
係数更新部40,判定閾値算出部60の動作を示すフロ
ーチャートである。判定部30は各フレームにおける音
声信号の有無を判定(音声区間判定処理)するものであ
り、判定の結果は状態メモリstateに記憶される。
状態メモリstateは−2から2までの範囲で変化
し、その値が0以上(state≧0)であれば有音区
間判定、負の値(state<0)であれば無音区間判
定である。
FIGS. 2 and 3 show Embodiment 1 of the present invention.
5 is a flowchart showing the operation of the determination unit 30, the determination coefficient update unit 40, and the determination threshold value calculation unit 60 provided in the voice section determination device according to the first embodiment. The determination unit 30 determines the presence or absence of a voice signal in each frame (voice section determination processing), and the result of the determination is stored in the state memory state.
The state memory state changes in the range from −2 to 2. If the value is 0 or more (state ≧ 0), a sound section is determined. If a negative value (state <0), a silent section is determined.

【0057】まず、判定部30の動作について図2を用
いて説明する。ブロックBL310では、ローパスフィ
ルタ残差信号の正規自己相関正最大値racを用いた処
理が次の各ステップ順に行われる。まずステップST3
11において、racに関する判定閾値TH_racと
racとが比較される。rac>TH_racであれば
ステップST312へ移行し、rac≦TH_racで
あればブロックBL320のステップST321へ移行
する。
First, the operation of the determination unit 30 will be described with reference to FIG. In block BL310, processing using the normal maximum positive value rac of the low-pass filter residual signal is performed in the order of the following steps. First, step ST3
At 11, the rac is compared with the determination threshold TH_rac for rac. If rac> TH_rac, the process proceeds to step ST312, and if rac ≦ TH_rac, the process proceeds to step ST321 of block BL320.

【0058】ステップST312ではstateの値を
判断し、state≧0であればステップST313へ
移行し、state<0であればステップST315で
state=0としてステップST341へ移行する。
ステップST313ではstate<2であるかどうか
を判断し、stateが最大値2に満たない場合にはス
テップST314でstateの値を1インクリメント
してステップST341へ移行し、stateに最大値
2が記憶されていればステップST341へ移行する。
In step ST312, the value of state is determined. If state ≧ 0, the process proceeds to step ST313, and if state <0, the process proceeds to step ST315, where state = 0 and the process proceeds to step ST341.
In step ST313, it is determined whether or not state <2. If the state is less than the maximum value 2, the state value is incremented by one in step ST314, and the process proceeds to step ST341, where the maximum value 2 is stored in the state. If it has, the process moves to step ST341.

【0059】ステップST311においてNOと判断さ
れると、ブロックBL320の処理に移る。このブロッ
クBL320では、ローパスフィルタ残差信号パワーr
pを用いた処理が次の各ステップ順に行われる。ステッ
プST321では、rpに関する判定閾値TH_rpと
rpとが比較される。rp>TH_rpであればステッ
プST322へ移行し、rp≦TH_rpであればブロ
ックBL330のステップST331へ移行する。
If NO is determined in the step ST311, the process proceeds to a block BL320. In this block BL320, the low-pass filter residual signal power r
Processing using p is performed in the order of the following steps. In step ST321, the judgment threshold value TH_rp regarding rp is compared with rp. If rp> TH_rp, the process proceeds to step ST322, and if rp ≦ TH_rp, the process proceeds to step ST331 of the block BL330.

【0060】ステップST322では、state<2
であるかどうかを判断し、stateが最大値2に満た
ない場合にはステップST323でstateの値を1
インクリメントしてステップST341へ移行し、st
ateに最大値2が記憶されていればステップST34
1へ移行する。
In step ST322, state <2
Is determined, and if the state is less than the maximum value 2, the value of the state is set to 1 in step ST323.
Increment and proceed to step ST341,
If the maximum value 2 is stored in ate, step ST34
Move to 1.

【0061】ステップST321においてNOと判断さ
れると、ブロックBL330の処理に移る。このブロッ
クBL330では、フレームで区切られた入力波の正規
自己相関最大値acを用いた処理が次の各ステップ順に
行われる。ステップST331では、acに関する判定
閾値TH_acとacとが比較される。ac>TH_a
cであればステップST332へ移行し、ac≦TH_
acであればステップST334へ移行する。
If NO is determined in the step ST321, the process proceeds to a block BL330. In this block BL330, processing using the normal autocorrelation maximum value ac of the input wave divided by the frame is performed in the order of the following steps. In step ST331, the judgment threshold value TH_ac regarding ac is compared with ac. ac> TH_a
If c, the process proceeds to step ST332, where ac ≦ TH_
If it is ac, the process proceeds to step ST334.

【0062】ステップST332では、state<2
であるかどうかを判断し、stateが最大値2に満た
ない場合にはステップST333でstateの値を1
インクリメントしてステップST341へ移行し、st
ateに最大値2が記憶されていればステップST34
1へ移行する。
In step ST332, state <2
Is determined, and if the state is less than the maximum value 2, the value of the state is set to 1 in step ST333.
Increment and proceed to step ST341,
If the maximum value 2 is stored in ate, step ST34
Move to 1.

【0063】ステップST334では、state>−
1であるかどうかを判断し、stateが−1より大き
ければステップST335へ移行してstateの値を
1インクリメントしてステップST341へ移行し、s
tateが−1または−2であればステップST341
へ移行する。
In step ST334, state>-
It is determined whether it is 1 or not. If the state is larger than -1, the process proceeds to step ST335, the value of the state is incremented by 1, and the process proceeds to step ST341.
If the state is -1 or -2, step ST341
Move to.

【0064】ブロックBL340およびブロックBL3
50では、ハイパスフィルタ出力のフレームパワーfp
を用いた処理が次の各ステップ順に行われる。ステップ
ST341では、k番目のフレームのfpから1フレー
ム前のfpを減算したフレームパワー差分dfpとdf
pに関する判定閾値TH_dfpとが比較判断される。
dfp>TH_dfpであればステップST342へ移
行し、dfp≦TH_dfpであればステップST35
1へ移行する。
Block BL340 and block BL3
At 50, the frame power fp of the high-pass filter output
Are performed in the order of the following steps. In step ST341, frame power differences dfp and df obtained by subtracting fp of the previous frame from fp of the k-th frame.
p is compared with a determination threshold value TH_dfp.
If dfp> TH_dfp, the process proceeds to step ST342, and if dfp ≦ TH_dfp, step ST35.
Move to 1.

【0065】ステップST342では、state<2
であるかどうかを判断し、stateが最大値2に満た
ない場合にはステップST343でstateの値を1
インクリメントしてステップST351へ移行し、st
ateに最大値2が記憶されていればステップST35
1へ移行する。
In step ST342, state <2
Is determined, and if the state is less than the maximum value 2, the value of the state is set to 1 in step ST343.
Increment and proceed to step ST351,
If the maximum value 2 is stored in ate, step ST35
Move to 1.

【0066】ステップST351では、fpに関する判
定閾値TH_fpとfpとが比較される。fp<TH_
fpであればステップST352へ移行し、fp≧TH
_fpであればステップST361へ移行する。ステッ
プST352では、state=−2としてステップS
T361へ移行する。
In step ST351, the judgment threshold value TH_fp regarding fp is compared with fp. fp <TH_
If fp, the process proceeds to step ST352, where fp ≧ TH
If _fp, the process moves to step ST361. In step ST352, state = −2 and step S352.
The process moves to T361.

【0067】以上の各判定閾値を用いた処理を踏まえ
て、ブロックBL360では、stateの値から音声
区間判定結果Vが次の各ステップ順にしたがって出力さ
れる。ステップST361ではstateの値を判断
し、stateに0から2の値が記憶されていればステ
ップST362で有音区間と判定し(V=1)、sta
teに−1または−2の値が記憶されていればステップ
ST363で無音区間と判定する(V=0)。
Based on the above-described processing using each determination threshold, in block BL360, the voice section determination result V is output from the value of state according to the following steps. In step ST361, the value of the state is determined. If a value from 0 to 2 is stored in the state, the state is determined to be a voiced section in step ST362 (V = 1).
If a value of -1 or -2 is stored in te, it is determined that there is a silent section in step ST363 (V = 0).

【0068】次に判定係数更新部40の動作について図
3を用いて説明する。説明を簡単にするために、各分析
パラメータからローパスフィルタ残差信号パワーrpだ
けを選んで説明するが、他の分析パラメータについても
同様に処理することができる。
Next, the operation of the determination coefficient updating section 40 will be described with reference to FIG. For the sake of simplicity, only the low-pass filter residual signal power rp will be described from each analysis parameter, but other analysis parameters can be processed in the same manner.

【0069】ステップST411では、前述したブロッ
クBL360の音声区間判定結果Vの値を判断する。V
=1であればブロックBL420へ移行して、ステップ
ST421,ステップST422の処理を行う。V=0
であればブロックBL430へ移行して、ステップST
431,ステップST432の処理を行う。
In step ST411, the value of the voice section determination result V of the block BL360 is determined. V
If = 1, the process proceeds to block BL420 to perform the processing of steps ST421 and ST422. V = 0
If so, the process proceeds to block BL430 and proceeds to step ST.
431, the process of step ST432 is performed.

【0070】BL420では有音区間判定係数Cs_r
pに関する処理を行う。Cs_rpは、判定閾値TH_
rpを算出する際に用いられるパラメータの一つであ
る。まずステップST421において、rpとCs_r
pとの差分の絶対値|rp−Cs_rp|と有音区間判
定係数更新閾値tcs_rpとを比較判断する。|rp
−Cs_rp|<tcs_rpであれば、ステップST
422へ移行して(10)式を用いてrpに適応するよ
うにCs_rpの適応更新処理を行い、ブロックBL4
40へ移行する。|rp−Cs_rp|≧tcs_rp
であれば、(10)式のCs_rpの適応更新処理を行
わずにブロックBL440へ移行する。なお、(10)
式のARs_rpはCs_rpに関する平滑化係数であ
り、0以上1未満の値である。
In BL420, the sound section determination coefficient Cs_r
Performs processing related to p. Cs_rp is the determination threshold TH_
This is one of the parameters used when calculating rp. First, in step ST421, rp and Cs_r
The absolute value | rp−Cs_rp | of the difference with p is compared with the sound section determination coefficient update threshold value tcs_rp. | Rp
If −Cs_rp | <tcs_rp, step ST
Then, the process proceeds to 422, where the adaptive update processing of Cs_rp is performed using equation (10) so as to adapt to rp, and block BL4
Move to 40. | Rp−Cs_rp | ≧ tcs_rp
If so, the process proceeds to block BL440 without performing the adaptive update process of Cs_rp in equation (10). (10)
ARs_rp in the expression is a smoothing coefficient for Cs_rp, and is a value of 0 or more and less than 1.

【0071】 Cs_rp=ARs_rp・rp+(1−ARs_rp)・Cs_rp (10)Cs_rp = ARs_rp · rp + (1−ARs_rp) · Cs_rp (10)

【0072】一方、BL430では無音区間判定係数C
n_rpに関する処理を行う。Cs_rpと同様にCn
_rpも判定閾値TH_rpを算出する際に用いられる
パラメータの一つである。まずステップST431にお
いて、rpとCn_rpとの差分の絶対値|rp−Cn
_rp|と無音区間判定係数更新閾値tcn_rpとを
比較判断する。|rp−Cn_rp|<tcn_rpで
あれば、ステップST432へ移行して(11)式を用
いてrpに適応するようにCn_rpの適応更新処理を
行い、ブロックBL440へ移行する。|rp−Cn_
rp|≧tcn_rpであれば、(11)式のCn_r
pの適応更新処理を行うことなくブロックBL440へ
移行する。なお、(11)式のARn_rpはCn_r
pに関する平滑化係数であり、0以上1未満の値であ
る。
On the other hand, in BL430, the silent section determination coefficient C
Perform processing related to n_rp. Cn similar to Cs_rp
_Rp is also one of the parameters used when calculating the determination threshold TH_rp. First, in step ST431, the absolute value | rp-Cn of the difference between rp and Cn_rp
_Rp | is compared with a silence section determination coefficient update threshold value tcn_rp. If | rp−Cn_rp | <tcn_rp, the process shifts to step ST432 to perform an adaptive update process of Cn_rp so as to adapt to rp by using equation (11), and shift to block BL440. | Rp-Cn_
If rp | ≧ tcn_rp, then Cn_r in equation (11)
The flow shifts to the block BL440 without performing the adaptive update processing of p. Note that ARn_rp in equation (11) is Cn_r
This is a smoothing coefficient for p, and is a value of 0 or more and less than 1.

【0073】 Cn_rp=ARn_rp・rp+(1−ARn_rp)・Cn_rp (11)Cn_rp = ARn_rp · rp + (1−ARn_rp) · Cn_rp (11)

【0074】ブロックBL440は、この実施の形態1
を特徴づける処理ブロックであり、繰り返し実行される
音声区間判定処理の処理回数(音声区間判定処理された
区関数)countをカウントし、処理回数count
があらかじめ設定した忘却周期updateに達する
と、入力波に依存しない独立パラメータRP_Sおよび
RP_Nを用いて有音区間判定係数Cs_rpおよび無
音区間判定係数Cn_rpの忘却更新処理を行う処理ブ
ロックである。
The block BL440 corresponds to the first embodiment.
Is a processing block that counts the number of times of the voice section determination processing (the section function subjected to the voice section determination processing) count that is repeatedly executed, and counts the number of processing count
Is a processing block for performing a forgetting update process of the voiced section determination coefficient Cs_rp and the silent section determination coefficient Cn_rp using the independent parameters RP_S and RP_N that do not depend on the input wave when a preset forgetting cycle update is reached.

【0075】前述したように、ローパスフィルタ残差信
号パワーrpに関する判定閾値TH_rpを算出するた
めの有音区間判定係数Cs_rpおよび無音区間判定係
数Cn_rpは、ブロックBL420およびブロックB
L430において入力波に依存する分析パラメータrp
に適応化するように適応更新処理がそれぞれ行われる。
したがって、想定以上の急峻な入力波の変化に対しても
rp,Cs_rp,Cn_rpを介してTH_rpは適
応化する。
As described above, the sound section judgment coefficient Cs_rp and the silent section judgment coefficient Cn_rp for calculating the judgment threshold value TH_rp regarding the low-pass filter residual signal power rp are determined by the block BL420 and the block B.
Analysis parameter rp depending on input wave in L430
Adaptation update processing is performed so as to adapt to.
Therefore, TH_rp is adapted through rp, Cs_rp, and Cn_rp even for a change in the input wave that is steeper than expected.

【0076】この想定以上の急峻な入力波の変化がこの
後のフレームにおける音声区間判定処理の精度を劣化さ
せる要因であるため、この実施の形態1では音声区間判
定処理が行われる毎に処理回数countをインクリメ
ントし、処理回数countがあらかじめ設定された忘
却周期updateに達する毎に、ブロックBL440
の入力波に依存しない独立パラメータRP_S,RP_
Nを用いた忘却更新処理によって入力波の影響を判定閾
値から軽減するようにして、想定以上の急峻な入力波の
変化が発生した場合にも、その後の音声区間判定処理の
精度を劣化させないようにしている。
Since the change of the input wave that is steeper than expected is a factor of deteriorating the accuracy of the voice section determination processing in the subsequent frame, in the first embodiment, the number of processing times is increased every time the voice section determination processing is performed. The count is incremented, and each time the number of processes count reaches a preset forgetting cycle update, the block BL440
Independent parameters RP_S, RP_ independent of the input wave of
The influence of the input wave is reduced from the determination threshold by the forgetting update process using N, so that even if a steep change of the input wave occurs more than expected, the accuracy of the subsequent voice segment determination process is not deteriorated. I have to.

【0077】ブロックBL440の忘却更新処理につい
て以下に説明する。ステップST441では、処理回数
countに記憶された値が忘却周期updateに達
したかどうかを判断する。countがupdateに
達していない場合には、ステップST444へと移行し
てcountを1インクリメントし、ステップST60
1へ移行する。なお、updateの値は、音声区間判
定処理の使用条件を考慮して、経験的、実験的に定める
ようにする。
The forgetting update processing of block BL440 will be described below. In step ST441, it is determined whether or not the value stored in the number of processes count has reached the forgetting cycle update. If count has not reached update, the process shifts to step ST444 to increment count by 1 and returns to step ST60.
Move to 1. The value of “update” is empirically and experimentally determined in consideration of the use conditions of the voice section determination processing.

【0078】ステップST601では、判定係数更新部
40から得られた有音区間判定係数Cs_rpおよび無
音区間判定係数Cn_rpを用いて、判定閾値算出部6
0が(12)式から判定閾値TH_rpを算出する。な
お、(12)式において、wt_rpは所定の重み付け
係数である。算出されたTH_rpは次のフレームの音
声区間判定処理に用いられるために、判定部30へと出
力される。この場合は、入力波に適応するように判定閾
値TH_rpの適応更新処理が繰り返されている。
In step ST601, the judgment threshold value calculation unit 6 uses the sound section judgment coefficient Cs_rp and the silent section judgment coefficient Cn_rp obtained from the judgment coefficient update unit 40.
0 calculates the determination threshold TH_rp from equation (12). In the expression (12), wt_rp is a predetermined weighting coefficient. The calculated TH_rp is output to the determination unit 30 to be used for the voice section determination process of the next frame. In this case, the adaptive update processing of the determination threshold TH_rp is repeated so as to adapt to the input wave.

【0079】 TH_rp=wt_rp・Cs_rp+(1−wt_rp)・Cn_rp (12)TH_rp = wt_rp · Cs_rp + (1−wt_rp) · Cn_rp (12)

【0080】音声区間判定処理が繰り返されて処理回数
countが増加していき、ステップST441におい
てcountが忘却周期updateに到達したものと
判断されると、ステップST441からステップST4
42へと移行する。ステップST442では、有音区間
判定係数Cs_rpおよび無音区間判定係数Cn_rp
の忘却更新処理が(13)式および(14)式にしたが
ってそれぞれ実行される。ここで、RP_SおよびRP
_Nは、音声区間判定処理の十分な精度が得られる理想
的条件の下における分析パラメータrpの有音時および
無音時の平均値であり、入力波に依存しない独立パラメ
ータである。
The voice section determination process is repeated to increase the number of processes count. If it is determined in step ST441 that the count has reached the forgetting cycle update, the process proceeds from step ST441 to step ST4.
Move to 42. In step ST442, the sound section determination coefficient Cs_rp and the silent section determination coefficient Cn_rp
Are performed according to the equations (13) and (14), respectively. Where RP_S and RP
_N is an average value of the analysis parameter rp at the time of sound and at the time of no sound under ideal conditions under which sufficient accuracy of the voice section determination processing is obtained, and is an independent parameter independent of the input wave.

【0081】 Cs_rp=ARs_rp・RP_S+(1−ARs_rp)・Cs_rp (13) Cn_rp=ARn_rp・RP_N+(1−ARn_rp)・Cn_rp (14)Cs_rp = ARs_rp · RP_S + (1-ARs_rp) · Cs_rp (13) Cn_rp = ARn_rp · RP_N + (1-ARn_rp) · Cn_rp (14)

【0082】(10)式と(13)式や(11)式と
(14)式をそれぞれ比較すると分かるように、(1
0),(11)式の入力波に依存する分析パラメータC
s_rp,Cn_rpが(13),(14)式では入力
波に依存しない独立パラメータRP_SおよびRP_N
にそれぞれ置き換わっている。このように、処理回数c
ountが忘却周期updateに達する毎に、入力波
に依存しない独立パラメータRP_SおよびRP_Nを
用いてCs_rpおよびCn_rpの忘却更新処理を行
うようにしているので、想定以上の急峻な入力波の変化
が発生した場合にも、忘却周期における忘却更新処理に
よって想定以上の急峻な入力波の変化の影響を軽減し、
安定した精度を持った音声区間判定処理を行うことがで
きる。
As can be seen by comparing equations (10) and (13) and equations (11) and (14), (1)
Analysis parameters C depending on input waves in equations (0) and (11)
In the expressions (13) and (14), s_rp and Cn_rp are independent parameters RP_S and RP_N independent of the input wave.
Has been replaced by each. Thus, the processing count c
Every time when the count reaches the forgetting cycle update, the forgetting update process of Cs_rp and Cn_rp is performed using the independent parameters RP_S and RP_N which do not depend on the input wave. In this case, too, the influence of the sudden change of the input wave is reduced by the forgetting update process in the forgetting cycle,
It is possible to perform voice section determination processing with stable accuracy.

【0083】(13)式および(14)式にしたがっ
て、Cs_rpおよびCn_rpの忘却更新処理がステ
ップST442で行われると、ステップST443にお
いてcountが0にリセットされる。忘却更新処理さ
れたCs_rp,Cn_rpはステップST601にお
いてTH_rpの算出に用いられて判定部30に出力さ
れる。以後、忘却更新処理されたTH_rpをrpの判
定閾値として、入力波に適応した音声区間判定処理が再
び繰り返される。
According to equations (13) and (14), when the forgetting update process of Cs_rp and Cn_rp is performed in step ST442, the count is reset to 0 in step ST443. Cs_rp and Cn_rp that have been subjected to the forgetting update processing are used to calculate TH_rp in step ST601 and output to the determination unit 30. Thereafter, the voice section determination process adapted to the input wave is repeated again using TH_rp, which has been subjected to the forgetting update process, as the determination threshold value of rp.

【0084】以上のように、この実施の形態1によれ
ば、判定閾値TH_rpの算出に用いられ、入力波のロ
ーパスフィルタ残差信号パワーrpに適応化する有音区
間判定係数Cs_rpおよび無音区間判定係数Cn_r
pを、音声区間判定処理の処理回数countが忘却周
期updateに到達する毎に判定係数更新部40が入
力波に依存しない独立パラメータRP_SおよびRP_
Nを用いて忘却更新処理するようにしたので、判定閾値
TH_rpに対する想定以上に急峻な入力波の変化の影
響を忘却周期update毎の忘却更新処理によって軽
減できるようになり、入力波の変化に対する耐性を高
め、安定した精度を持った音声区間判定処理を行うこと
ができるという効果が得られる。
As described above, according to the first embodiment, the sound interval determination coefficient Cs_rp and the silent interval determination which are used to calculate the determination threshold value TH_rp and are adapted to the low-pass filter residual signal power rp of the input wave. Coefficient Cn_r
The determination coefficient updating unit 40 sets the independent parameters RP_S and RP_ independent of the input wave every time the number of times count of the voice section determination processing reaches the forgetting cycle update.
Since the forgetting update processing is performed using N, the influence of a change in the input wave that is steeper than expected with respect to the determination threshold TH_rp can be reduced by the forgetting update processing for each forgetting cycle update, and the resistance to the change in the input wave can be reduced. And voice segment determination processing with stable accuracy can be performed.

【0085】また、この実施の形態1によれば、時間的
な区間毎に入力波を処理する前処理部10と、前処理部
10によって処理された入力波から分析パラメータを算
出し、判定閾値と分析パラメータとの比較によって入力
波分析を行う入力波分析部20と、入力波分析の結果に
基づいて区間の音声信号の有無を判定し、音声区間判定
結果Vを出力する判定部30と、音声区間判定結果Vを
受けて分析パラメータCs_rp,Cn_rpの適応更
新処理を行うとともに、音声区間判定処理の処理回数c
ountがあらかじめ設定された忘却周期update
に到達する毎に、入力波に依存しない独立パラメータR
P_SおよびRP_Nを用いて分析パラメータCs_r
p,Cn_rpの忘却更新処理を行う判定係数更新手段
40と、判定係数更新手段40から与えられる分析パラ
メータCs_rp,Cn_rpに基づいて判定閾値TH
_rpを算出し、判定部30に算出された判定閾値を出
力する判定閾値算出部60とを備えるようにしたので、
判定閾値TH_rpに対する想定以上に急峻な入力波の
変化の影響を忘却周期update毎の忘却更新処理に
よって軽減できるようになり、入力波の変化に対する耐
性を高め、安定した精度を持った音声区間判定処理を行
うことができるという効果が得られる。
Further, according to the first embodiment, the pre-processing unit 10 for processing the input wave for each time interval, and the analysis parameters are calculated from the input wave processed by the pre-processing unit 10, An input wave analysis unit 20 that performs an input wave analysis by comparing the input wave analysis with the analysis parameter, a determination unit 30 that determines the presence or absence of a voice signal in a section based on the result of the input wave analysis, and outputs a voice section determination result V; In response to the voice section determination result V, the adaptive update processing of the analysis parameters Cs_rp and Cn_rp is performed, and the number c of processing of the voice section determination processing is performed.
out is a preset forgetting cycle update
, An independent parameter R independent of the input wave
Analysis parameter Cs_r using P_S and RP_N
judgment coefficient updating means 40 for performing a forgetting update process of p and Cn_rp, and a judgment threshold value TH based on analysis parameters Cs_rp and Cn_rp given from the judgment coefficient updating means 40
_Rp, and the judgment threshold value calculation unit 60 that outputs the calculated judgment threshold value to the judgment unit 30.
The influence of the change of the input wave that is steeper than expected on the determination threshold TH_rp can be reduced by the forgetting update processing for each forgetting cycle update, thereby improving the resistance to the change of the input wave and the voice section determination processing with stable accuracy. Is obtained.

【0086】さらに、この実施の形態1によれば、入力
波を処理するローパスフィルタおよびハイパスフィルタ
を前処理部10が有し、区間毎に分割された入力波の正
規自己相関最大値、ローパスフィルタで処理された入力
波の正規自己相関正最大値、ローパスフィルタ残差信号
パワーおよびハイパスフィルタで処理された入力波パワ
ーを分析パラメータとして入力波分析部20が用いるよ
うにしたので、環境雑音に対して頑健な分析パラメータ
を用いて音声区間判定処理を行うことができるという効
果が得られる。
Further, according to the first embodiment, the pre-processing section 10 includes the low-pass filter and the high-pass filter for processing the input wave, and the normal auto-correlation maximum value of the input wave divided for each section, the low-pass filter The normal auto-correlation positive maximum value of the input wave processed by the above, the low-pass filter residual signal power and the input wave power processed by the high-pass filter are used by the input wave analysis unit 20 as analysis parameters. The advantage is that the voice section determination process can be performed using the robust and robust analysis parameters.

【0087】なお、この実施の形態1では、(13),
(14)式に基づいて有音区間判定係数Cs_rpおよ
び無音区間判定係数Cn_rpの忘却更新処理を行うよ
うにしたが、忘却更新処理の方法はこれに限定されるも
のではなく、入力波に適応化する判定閾値から入力波の
影響を軽減することができる方法であれば良い。
In the first embodiment, (13),
The forgetting update processing of the sound section determination coefficient Cs_rp and the silent section determination coefficient Cn_rp is performed based on the equation (14). However, the method of the forgetting update processing is not limited to this, and the forgetting update method is adapted to the input wave. Any method can be used as long as it can reduce the influence of the input wave from the determination threshold value.

【0088】実施の形態2.この実施の形態2では、実
施の形態1で示した判定係数更新部に判定係数リミッタ
部を備えるようにしたものである。図4はこの発明の実
施の形態2による音声区間判定装置の構成を示す図であ
る。図4において、40Aは有音区間判定係数Cs_r
pおよび無音区間判定係数Cn_rpが入力波に過度に
適応化することを防ぎ、Cs_rp,Cn_rpに対し
て制限更新処理を行う判定係数更新部(判定閾値更新手
段)であり、実施の形態1で示した判定係数更新部40
に判定係数リミッタ部50(分析パラメータ制限手段)
を備えたものである。図1と同一または相当する構成に
ついては同一の符号を付して重複する説明を省略する。
Embodiment 2 In the second embodiment, the determination coefficient updating unit shown in the first embodiment includes a determination coefficient limiter unit. FIG. 4 is a diagram showing a configuration of a voice section determination device according to Embodiment 2 of the present invention. In FIG. 4, reference numeral 40A denotes a sound section determination coefficient Cs_r.
p and a silent section determination coefficient Cn_rp are determination coefficient update units (determination threshold update means) that perform limit update processing on Cs_rp and Cn_rp while preventing excessive adaptation to an input wave, and are described in Embodiment 1. Judgment coefficient updating unit 40
Determination coefficient limiter 50 (analysis parameter limiting means)
It is provided with. Components that are the same as or correspond to those in FIG. 1 are denoted by the same reference numerals, and redundant description is omitted.

【0089】次に動作について説明する。図5はこの発
明の実施の形態2による音声区間判定装置に備えられた
判定係数更新部40A,判定係数リミッタ部50,判定
閾値算出部60の動作を示すフローチャートである。図
3と同一または相当する構成および動作については同一
の符号を付して重複する説明を省略する。
Next, the operation will be described. FIG. 5 is a flowchart showing the operation of the determination coefficient update unit 40A, the determination coefficient limiter unit 50, and the determination threshold value calculation unit 60 provided in the voice section determination device according to the second embodiment of the present invention. The same or equivalent components and operations as those in FIG.

【0090】実施の形態1で示したように、ブロックB
L420またはブロックBL430までの動作が行われ
ると、判定係数リミッタ部50の動作が行われる。例え
ば、ブロックBL420の処理が行われると、ステップ
ST511においてCs_rp=Cn_rpを満たすか
が判定係数リミッタ部50によって判断される。Cs_
rp≠Cn_rpの場合にはステップST531へ移行
し、Cs_rp=Cn_rpの場合にはステップST5
12へ移行して、Cs_rp=Cn_rp+Cとして制
限更新処理を行う。
As described in the first embodiment, block B
When the operation up to L420 or the block BL430 is performed, the operation of the determination coefficient limiter unit 50 is performed. For example, when the processing of the block BL420 is performed, the determination coefficient limiter 50 determines whether or not Cs_rp = Cn_rp is satisfied in step ST511. Cs_
If rp ≠ Cn_rp, the process proceeds to step ST531, and if Cs_rp = Cn_rp, step ST5.
Then, the process proceeds to step S12, and the limit update process is performed with Cs_rp = Cn_rp + C.

【0091】ブロックBL520の動作も、ステップS
T521でCn_rp=Cs_rpを満たすかが判断さ
れ、Cn_rp≠Cs_rpの場合にはステップST5
41へ、Cn_rp=Cs_rpの場合にはステップS
T522へ移行してCn_rp=Cs_rp−Cとして
制限更新処理を行う。なお、ステップST512,ステ
ップST522に示すように、Cs_rp,Cn_rp
のどちらを更新するかは、ステップST411の音声区
間判定結果Vによって定まるものであり、このために処
理ブロックBL510,BL520が用意されている。
The operation of block BL520 is also performed in step S
At T521, it is determined whether Cn_rp = Cs_rp is satisfied. If Cn_rp ≠ Cs_rp, then step ST5 is performed.
Step S 41 when Cn_rp = Cs_rp
The process shifts to T522, and performs limit update processing as Cn_rp = Cs_rp-C. Note that, as shown in steps ST512 and ST522, Cs_rp, Cn_rp
Which is to be updated is determined by the voice section determination result V in step ST411, and processing blocks BL510 and BL520 are prepared for this purpose.

【0092】ここでの処理は、過渡部フレームの不要な
パワー成分に対してCs_rpやCn_rpが適応化し
て、Cs_rp=Cn_rpとなってしまうことを防ぐ
ようにし、Cs_rpとCn_rpとの差分を所定値C
(差分限界値)だけは保つようにしている。このCs_
rpとCn_rpとの差分を所定値C(差分限界値)だ
けは保つようにする方法はステップST512,522
の等号の場合に限らず、マージンを持たせて所定値Cよ
りもやや大きくして保つ(Cs_rp≧Cn_rp+
C)ようにしても良い。
The processing here is to prevent Cs_rp and Cn_rp from adapting to unnecessary power components of the transient part frame and to prevent Cs_rp = Cn_rp, and to reduce the difference between Cs_rp and Cn_rp to a predetermined value. C
(Difference limit) only. This Cs_
The method for keeping the difference between rp and Cn_rp only at a predetermined value C (difference limit value) is described in steps ST512 and 522.
Not only in the case of the equal sign, but also with a margin and kept slightly larger than the predetermined value C (Cs_rp ≧ Cn_rp +
C).

【0093】所定値Cは音声区間判定処理の使用条件を
考慮して、音声区間判定処理が適切に行えるように、経
験的、実験的に定める。なお、ステップST511やス
テップST521の条件は等号の場合に限るものではな
く、Cs_rpとCn_rpとがある程度まで接近した
場合など、Cs_rpとCn_rpとの差分の限界値で
ある差分閾値を用いた不等号によって差分範囲を決める
ようにしても良い。ステップST521の等号の場合は
0が差分閾値に相当する。
The predetermined value C is empirically and experimentally determined in consideration of the use conditions of the voice section determination processing so that the voice section determination processing can be appropriately performed. Note that the conditions of step ST511 and step ST521 are not limited to the case of the equal sign, and the case where Cs_rp and Cn_rp approach to a certain extent, such as when Cs_rp and Cn_rp approach to a certain degree, is determined by the inequality using the difference threshold value that is the limit value of the difference between Cs_rp and Cn_rp. The difference range may be determined. In the case of the equal sign in step ST521, 0 corresponds to the difference threshold.

【0094】ブロックBL510またはブロックBL5
20の処理に続いて、ブロックBL530またはブロッ
クBL540のいずれかの処理が実行される。ブロック
BL530では、まずステップST531においてCs
_rpが所定値CS_RP_MAX(限界閾値)よりも
大きな値となっているかどうかを判断する。Cs_rp
≦CS_RP_MAXの場合にはブロックBL440へ
移行するが、Cs_rp>CS_RP_MAXの場合に
はステップST532へ移行してCs_rp=CS_R
P_MAXとして制限更新処理し、ブロックBL440
へと移行する。
Block BL510 or block BL5
Subsequent to the processing of 20, the processing of either the block BL530 or the block BL540 is executed. In block BL530, first, in step ST531, Cs
It is determined whether or not _rp is greater than a predetermined value CS_RP_MAX (limit threshold). Cs_rp
If ≦ CS_RP_MAX, the process proceeds to block BL440. However, if Cs_rp> CS_RP_MAX, the process proceeds to step ST532 and Cs_rp = CS_R.
Restriction update processing is performed as P_MAX, and block BL440
Move to.

【0095】ブロックBL540の動作も、ステップS
T541でCn_rpが所定値CN_RP_MIN(限
界閾値)よりも小さな値となっているかどうかを判断
し、Cn_rp≧CN_RP_MINの場合にはブロッ
クBL440へ移行するが、Cn_rp<CN_RP_
MINの場合にはステップST542へ移行して、Cn
_rp=CN_RP_MINとして制限更新処理してブ
ロックBL440へと移行する。
The operation of block BL540 is also performed in step S
At T541, it is determined whether or not Cn_rp is smaller than a predetermined value CN_RP_MIN (limit threshold value). If Cn_rp ≧ CN_RP_MIN, the process proceeds to block BL440, but Cn_rp <CN_RP_
In the case of MIN, the process proceeds to step ST542, where Cn
Restrict update processing is performed as _rp = CN_RP_MIN, and the process proceeds to block BL440.

【0096】ここでの処理は、過渡部フレームの不要な
パワー成分に対してCs_rpやCn_rpが適応化
し、上限の所定値CS_RP_MAXの定める限界範囲
をCs_rpが超えたり、また下限の所定値CN_RP
_MINの定める限界範囲をCn_rpが超えてしまう
ことを防ぎ、Cs_rp,Cn_rpが限界範囲に収ま
るようにしている。
In this processing, Cs_rp and Cn_rp are adapted to unnecessary power components of the transient part frame, and Cs_rp exceeds the limit range defined by the upper limit predetermined value CS_RP_MAX, and the lower limit predetermined value CN_RP
Cn_rp is prevented from exceeding the limit range defined by _MIN, and Cs_rp and Cn_rp fall within the limit range.

【0097】なお、Cs_rp,Cn_rpを限界範囲
に収める方法は、Cs_rp=CS_RP_MAX,C
n_rp=CN_RP_MINとする方法に限定され
ず、マージンを持たせてCs_rp<CS_RP_MA
X,Cn_rp>CN_RP_MINを満たすようにす
れば良く、他の方法、例えば所定の係数をCs_rp,
Cn_rpに乗算するような方法でも良い。
The method for keeping Cs_rp and Cn_rp within the limit range is as follows: Cs_rp = CS_RP_MAX, C
The method is not limited to the method of n_rp = CN_RP_MIN, but may have a margin and Cs_rp <CS_RP_MA
X, Cn_rp> CN_RP_MIN may be satisfied, and another method, for example, by setting a predetermined coefficient to Cs_rp,
A method of multiplying Cn_rp may be used.

【0098】これらの所定値CS_RP_MAXまたは
CN_RP_MAX(CS_RP_MAX,CN_RP
_MAXが定める限界範囲)は音声区間判定装置の様々
な使用条件を考慮して、経験的、実験的に定めるように
する。以上の判定係数リミッタ部50の処理動作が行わ
れると、実施の形態1で示したように、ブロックBL4
40以降の動作が行われる。
The predetermined values CS_RP_MAX or CN_RP_MAX (CS_RP_MAX, CN_RP
The limit range defined by _MAX) is empirically and experimentally determined in consideration of various use conditions of the voice section determination device. When the processing operation of the determination coefficient limiter unit 50 is performed, as described in the first embodiment, the block BL4
The operations after 40 are performed.

【0099】以上のように、この実施の形態2によれ
ば、判定係数更新部40Aに設けられた判定係数リミッ
タ部50が、2つの分析パラメータCs_rpとCn_
rpとの差分を比較して、適応化によってCs_rpと
Cn_rpとの差分が差分閾値によって定まる差分範囲
になると、Cs_rpとCn_rpとの差分を差分限界
値Cを保つように制限更新処理を行うようにしたので、
分析パラメータCs_rpやCn_rpに対する過渡部
フレームの不要なパワー成分の影響を防ぐことができ、
安定した精度を持った音声区間判定処理を行うことがで
きるという効果が得られる。
As described above, according to the second embodiment, determination coefficient limiter 50 provided in determination coefficient updater 40A includes two analysis parameters Cs_rp and Cn_rp.
When the difference between Cs_rp and Cn_rp becomes a difference range determined by the difference threshold value by the adaptation, the limit update process is performed so that the difference between Cs_rp and Cn_rp maintains the difference limit value C. Because
It is possible to prevent the influence of unnecessary power components of the transient part frame on the analysis parameters Cs_rp and Cn_rp,
The effect is obtained that the voice segment determination processing can be performed with stable accuracy.

【0100】また、この実施の形態2によれば、判定係
数更新部40Aに設けられた判定係数リミッタ部50
が、2つの分析パラメータCs_rp,Cn_rpを上
限の所定値CS_RP_MAXおよび下限の所定値CN
_RP_MINとそれぞれ比較して、入力波に対する適
応化によってCs_rp,Cn_rpが所定値CS_R
P_MAX,CN_RP_<MINが定める限界範囲を
超えてしまった場合には、Cs_rpまたはCn_rp
の値をCS_RP_MAXとCN_RP_<MINとが
定める限界範囲に収める制限更新処理を行うようにした
ので、Cs_rpやCn_rpに対する過渡部フレーム
の不要なパワー成分の影響を防ぐことができ、安定した
精度を持った音声区間判定処理を行うことができるとい
う効果が得られる。
Further, according to the second embodiment, determination coefficient limiter 50 provided in determination coefficient updater 40A.
Is determined by changing the two analysis parameters Cs_rp and Cn_rp to an upper limit predetermined value CS_RP_MAX and a lower limit predetermined value CN.
_RP_MIN, Cs_rp and Cn_rp are set to predetermined values CS_R by adaptation to the input wave.
If P_MAX, CN_RP_ <MIN exceeds the limit range defined by MIN, Cs_rp or Cn_rp
Is performed within a limit range defined by CS_RP_MAX and CN_RP_ <MIN, it is possible to prevent the influence of unnecessary power components of the transient part frame on Cs_rp and Cn_rp, and achieve stable accuracy. This makes it possible to perform the voice section determination process.

【0101】実施の形態3.実施の形態1では、入力波
に適応化した判定閾値を忘却周期毎に忘却更新処理する
ようにしたが、この実施の形態3では、忘却更新処理に
よって入力波を過度に忘却することを防ぐようにしてい
る。図6はこの発明の実施の形態3による音声区間判定
装置に備えられた判定係数更新部40B(判定閾値更新
手段)の動作を示すフローチャートである。図6におい
て、45は判定係数更新部40Bに設けられたメモリ
(記憶手段)であり、有音時における分析パラメータr
pを理想的にモデル化した複数の独立パラメータRP_
S(0),RP_S(1),・・・,RP_S(K)お
よび無音時における分析パラメータrpを理想的にモデ
ル化した複数の独立パラメータRP_N(0),RP_
N(1),・・・,RP_N(J)を記憶している。
Embodiment 3 FIG. In the first embodiment, the determination threshold value adapted to the input wave is subjected to the forgetting update processing for each forgetting cycle. In the third embodiment, the input wave is prevented from being excessively forgotten by the forgetting update processing. I have to. FIG. 6 is a flowchart showing the operation of the judgment coefficient updating unit 40B (judgment threshold updating means) provided in the voice segment judgment apparatus according to Embodiment 3 of the present invention. In FIG. 6, reference numeral 45 denotes a memory (storage means) provided in the determination coefficient updating unit 40B, and the analysis parameter r when sound is present
multiple independent parameters RP_ ideally modeling p
S (0), RP_S (1),..., RP_S (K) and a plurality of independent parameters RP_N (0), RP_
N (1),..., RP_N (J) are stored.

【0102】判定部30から区間判定結果Vを受け、ス
テップST451までの動作については、実施の形態1
と同様である。この実施の形態3では、ステップST4
51において処理回数countが忘却周期updat
eに到達すると、ステップST452において有音区間
判定係数Cs_rpおよび無音区間判定係数Cn_rp
をそれぞれ最も近似するRP_S(k),RP_N
(j)をメモリ45から引き出して検索する。ただし、
0≦k≦K,0≦j≦Jである。つまり、図6に示すよ
うに、差分の絶対値|Cs_rp−RP_S(k)|,
|Cn_rp−RP_N(j)|を算出して、この値が
最も小さくなるRP_S(k),RP_N(j)を用い
てステップST453の判定係数Cs_rp,Cn_r
pの忘却更新処理を(15),(16)式にしたがって
行う。
The section determination result V is received from the determination section 30, and the operation up to step ST451 is described in the first embodiment.
Is the same as In the third embodiment, step ST4
In 51, the number of processing count is equal to the forgetting cycle
e, the sound section determination coefficient Cs_rp and the silent section determination coefficient Cn_rp in step ST452.
RP_S (k) and RP_N that approximate
(J) is retrieved from the memory 45 and searched. However,
0 ≦ k ≦ K and 0 ≦ j ≦ J. That is, as shown in FIG. 6, the absolute value of the difference | Cs_rp-RP_S (k) |
| Cn_rp-RP_N (j) | is calculated, and the determination coefficients Cs_rp, Cn_r of step ST453 are determined using RP_S (k) and RP_N (j) that minimize this value.
The forgetting update process of p is performed according to the equations (15) and (16).

【0103】 Cs_rp=ARs_rp・RP_S(k) +(1−ARs_rp)・Cs_rp (15) Cn_rp=ARn_rp・RP_N(j) +(1−ARn_rp)・Cn_rp (16)Cs_rp = ARs_rp · RP_S (k) + (1-ARs_rp) · Cs_rp (15) Cn_rp = ARn_rp · RP_N (j) + (1-ARn_rp) · Cn_rp (16)

【0104】この実施の形態3の忘却更新処理は、判定
閾値から過度に適応化の効果を忘却しないように、忘却
更新処理の前にCs_rp,Cn_rpを最も近似する
独立パラメータRP_S(k),RP_N(j)を判定
係数更新部40Bがメモリ45から検索し、このRP_
S(k),RP_N(j)を用いて忘却更新処理を行う
ようにしている。RP_S(k),RP_N(j)は、
例えば入力波のSNRを変化させるようにしたり、様々
な入力波をモデル化して定めるようにする。(15),
(16)式から分かるように、入力波に適応化した分析
パラメータCs_rpを最も近似する独立パラメータR
P_S(k)を用いてCs_rpの忘却更新処理を行っ
ているため、判定閾値から入力波を必要以上に忘却する
ことを防ぎながら、Cs_rpの忘却更新処理を行うこ
とができる。また、無音区間判定係数Cn_rpに関し
ても同様である。
In the forgetting update processing according to the third embodiment, independent parameters RP_S (k) and RP_N that approximate Cs_rp and Cn_rp most closely before the forgetting update processing so that the effect of adaptation is not excessively forgotten based on the determination threshold. (J) is retrieved from the memory 45 by the determination coefficient update unit 40B, and this RP_
Forgetting update processing is performed using S (k) and RP_N (j). RP_S (k) and RP_N (j) are
For example, the SNR of the input wave is changed, or various input waves are modeled and determined. (15),
As can be seen from the equation (16), the independent parameter R that most approximates the analysis parameter Cs_rp adapted to the input wave
Since the forgetting update process of Cs_rp is performed using P_S (k), the forgetting update process of Cs_rp can be performed while preventing the input wave from being forgotten more than necessary based on the determination threshold. The same applies to the silent section determination coefficient Cn_rp.

【0105】以上のように、この実施の形態3によれ
ば、判定係数更新部40Bは、有音時における分析パラ
メータrpを理想的にモデル化した複数の独立パラメー
タRP_S(0),RP_S(1),・・・,RP_S
(K)および無音時における分析パラメータrpを理想
的にモデル化した複数の独立パラメータRP_N
(0),RP_N(1),・・・,RP_N(J)を記
憶したメモリ45を備え、処理回数countが忘却周
期updateに到達すると、Cs_rp,Cn_rp
にそれぞれ最も近いRP_S(k),RP_N(j)を
用いて有音区間判定係数Cs_rpおよび無音区間判定
係数Cn_rpの忘却更新処理を行うようにしたので、
判定閾値から入力波に対する適応化の効果を必要以上に
忘却することを防ぎながら、想定以上の急峻な入力波の
変化に対して適切に対応した安定な音声区間判定処理を
行うことができるという効果が得られる。
As described above, according to the third embodiment, the judgment coefficient updating unit 40B has a plurality of independent parameters RP_S (0), RP_S (1) that ideally model the analysis parameter rp when there is sound. ), ..., RP_S
(K) and a plurality of independent parameters RP_N ideally modeling the analysis parameter rp at the time of silence.
(0), RP_N (1),..., RP_N (J) are stored, and when the number of processes count reaches the forgetting cycle update, Cs_rp, Cn_rp
Since the RP_S (k) and RP_N (j) closest to the above are used to perform the forgetting update processing of the sound section determination coefficient Cs_rp and the silent section determination coefficient Cn_rp,
The effect that it is possible to perform a stable voice section determination process that appropriately copes with a sudden change in the input wave that is more than expected, while preventing the effect of the adaptation to the input wave from being unnecessarily forgotten based on the determination threshold. Is obtained.

【0106】なお、この実施の形態3では、(15),
(16)式に基づいて有音区間判定係数Cs_rpおよ
び無音区間判定係数Cn_rpの忘却更新処理を行うよ
うにしたが、忘却更新処理の方法はこれに限定されるも
のではなく、入力波に適応化する判定閾値から入力波の
影響を軽減することができる方法であれば良い。
In the third embodiment, (15),
Although the forgetting update processing of the sound section determination coefficient Cs_rp and the silent section determination coefficient Cn_rp is performed based on the equation (16), the method of the forgetting update processing is not limited to this. Any method can be used as long as it can reduce the influence of the input wave from the determination threshold value.

【0107】実施の形態4.以上の実施の形態では、忘
却周期updateを固定の値として音声区間判定処理
を行ってきたが、この実施の形態4では、忘却周期up
dateを入力波に適応化させるようにしたものであ
る。
Embodiment 4 In the above embodiment, the voice section determination process is performed with the forgetting period update being a fixed value. In the fourth embodiment, however, the forgetting period update is used.
The data is adapted to the input wave.

【0108】図7はこの発明の実施の形態4による音声
区間判定装置に備えられたパワー変動算出部、周期変更
部、判定係数更新部の動作を示すフローチャートであ
る。図7において、70はパワー変動算出部(入力波分
析手段)であり、入力波のフレームパワーfp(分析パ
ラメータ)から入力波のパワー変動dpow(分析パラ
メータ)を算出する。80は周期変更部(忘却周期変更
手段)であり、パワー変動算出部70が算出したパワー
変動dpowをパワー変動閾値th_dpowと比較し
て、入力波のパワー変動が大きい場合に忘却周期upd
ateの値を適応化し、判定係数更新部40(判定閾値
更新手段)に出力する。図3と同一または相当する構成
・動作については同一の符号を付して重複する説明を省
略する。
FIG. 7 is a flow chart showing the operation of the power fluctuation calculating section, cycle changing section, and determination coefficient updating section provided in the voice section determining apparatus according to Embodiment 4 of the present invention. In FIG. 7, reference numeral 70 denotes a power fluctuation calculation unit (input wave analysis means), which calculates the power fluctuation dpow (analysis parameter) of the input wave from the frame power fp (analysis parameter) of the input wave. Numeral 80 denotes a cycle changing unit (forgetting cycle changing means) which compares the power fluctuation dpow calculated by the power fluctuation calculating unit 70 with a power fluctuation threshold th_dpow, and when the power fluctuation of the input wave is large, the forgetting period upd.
ate, and outputs the result to the determination coefficient updating unit 40 (determination threshold updating unit). Configurations and operations that are the same as or correspond to those in FIG.

【0109】次に動作について説明する。音声区間判定
処理しようとしているフレームが有する入力信号のフレ
ームパワーfpがパワー変動算出部70に入力される
と、パワー変動算出部70は、音声区間判定処理された
過去のフレームパワーをもとにH個のフレームパワーの
平均値である平均フレームパワーfp_aveを(1
7)式にしたがって算出する。
Next, the operation will be described. When the frame power fp of the input signal of the frame to be subjected to the voice section determination processing is input to the power fluctuation calculation section 70, the power fluctuation calculation section 70 calculates H based on the past frame power subjected to the voice section determination processing. The average frame power fp_ave, which is the average value of the frame powers, is (1
7) Calculate according to equation.

【0110】 fp_ave=(1/H)・Σ[fp(h)] (h=1,…,H) (17)Fp_ave = (1 / H) Σ {fp (h)] (h = 1,..., H) (17)

【0111】ここで記号Σは、h=1,…,Hを和の指
数として、fp(h)の総和、すなわちfp(1)+…
+fp(H)を算出する演算子である。Hはfpを有す
るフレームの直前フレーム番号としても良いし、さらに
過去のフレーム番号としても良い。次に(18)式を用
いて、入力されたフレームパワーfpと平均フレームパ
ワーfp_aveとの差であるパワー変動dpowをパ
ワー変動算出部70が算出する。
Here, the symbol Σ is the sum of fp (h), that is, fp (1) +.
+ Fp (H). H may be the frame number immediately before the frame having fp or may be the past frame number. Next, using the equation (18), the power fluctuation calculator 70 calculates a power fluctuation dpow, which is a difference between the input frame power fp and the average frame power fp_ave.

【0112】 dpow=fp−fp_ave (18)Dpow = fp−fp_ave (18)

【0113】このようにして、パワー変動dpowが算
出されると、周期更新部80はこのパワー変動dpow
を受け、ステップST801において、パワー変動閾値
th_dpowとパワー変動dpowとの比較判断を行
う。dpow<th_dpow、すなわち入力波のパワ
ー変動がパワー変動閾値よりも小さい場合には入力波が
安定しているものとみなして、ステップST804へ移
行して忘却周期updateを忘却周期最大値UPDA
TEとして適応化(忘却周期の維持)し、実施の形態1
と同様の処理が行われる。
When the power fluctuation dpow is calculated as described above, the cycle updating unit 80 calculates the power fluctuation dpow.
Then, in step ST801, a comparison is made between the power fluctuation threshold th_dpow and the power fluctuation dpow. When dpow <th_dpow, that is, when the power fluctuation of the input wave is smaller than the power fluctuation threshold, it is considered that the input wave is stable, and the process proceeds to step ST804 to set the forgetting cycle update to the maximum forgetting cycle value UPDA.
Embodiment 1 is adapted as TE (maintaining a forgetting cycle), and
Is performed.

【0114】一方、ステップST801において、dp
ow≧th_dpow、すなわち入力波のパワー変動が
パワー変動閾値以上の場合には入力波が大きく変動して
いるものとみなして、想定以上の急峻な入力波の変化に
対応できるように、忘却周期updateをが短くして
適応化を行う(忘却周期の減少)。つまり、忘却更新処
理の頻度を高くして入力波の大きな変動にも対応できる
ようにする。この場合には、ステップST802へ移行
する。
On the other hand, in step ST801, dp
ow ≧ th_dpow, that is, when the power fluctuation of the input wave is equal to or larger than the power fluctuation threshold, the input wave is regarded as largely fluctuating, and the forgetting cycle update is performed so as to cope with a steep change of the input wave more than expected. Is shortened and adaptation is performed (reduction of the forgetting cycle). That is, the frequency of the forgetting update process is increased so that it is possible to cope with a large fluctuation of the input wave. In this case, the mobile terminal makes a transition to step ST802.

【0115】ステップST802では、忘却周期upd
ate>UPDATE/16と判断されると、ステップ
ST803へ移行してupdate=update・
(1/2)として、忘却更新処理の頻度が高くなるよう
に忘却周期を現在の忘却周期より小さな値に適応化し、
判定係数更新部40へ適応化したupdateの値を出
力する。一方、ステップST802において、忘却周期
updateがUPDATE/16よりも小さいと判断
された場合には、これ以上の忘却周期updateの適
応化をストップして、updateをそのまま判定係数
更新部40へ出力する。ここで示したUPDATE/1
6は、特にこれに限定されるものではなく、別の数値を
用いても良い。
In step ST802, the forgetting cycle upd
If it is determined that “ate> UPDATE / 16”, the process proceeds to step ST803 to update = update ·
As (1/2), the forgetting cycle is adapted to a value smaller than the current forgetting cycle so that the frequency of the forgetting update processing increases,
The adaptive update value is output to the determination coefficient update unit 40. On the other hand, when it is determined in step ST802 that the forgetting cycle update is smaller than UPDATE / 16, the adaptation of the forgetting cycle update is stopped, and the update is output to the determination coefficient updating unit 40 as it is. UPDATE / 1 shown here
6 is not particularly limited to this, and another numerical value may be used.

【0116】また図7には示していないが、大きく変動
していた入力波が安定した場合には、ステップST80
3の処理によって小さくなった忘却周期updateの
値を大きくしていき、忘却周期最大値UPDATEへ近
づけるように適応化(忘却周期の増加)しても良い。判
定係数更新部40は、周期変更部80から与えられた忘
却周期updateにしたがって実施の形態1と同様の
動作を行う。
Although not shown in FIG. 7, if the input wave that has fluctuated greatly becomes stable, the process proceeds to step ST80.
The value of the forgetting cycle update, which has been reduced by the process 3, may be increased, and may be adapted (increased forgetting cycle) so as to approach the maximum forgetting cycle value UPDATE. The determination coefficient updating unit 40 performs the same operation as in the first embodiment according to the forgetting cycle update provided from the cycle changing unit 80.

【0117】以上のように、この実施の形態4よれば、
入力波のフレームパワー変動dpowをパワー変動算出
部70が算出し、周期更新部80がフレームパワー変動
dpowから入力波の変動を判断し、判断された入力波
の変動に応じて忘却周期updateの値を入力波に適
応化(忘却周期の増加、減少、維持)し、適応化された
忘却周期updateを判定係数更新部40へ出力する
ようにしたので、入力波の変動の大きさに応じて忘却更
新処理の頻度を変更できるようになり、安定した精度を
持った音声区間判定処理を行うことができるという効果
が得られる。
As described above, according to the fourth embodiment,
The power fluctuation calculating unit 70 calculates the frame power fluctuation dpow of the input wave, the cycle updating unit 80 determines the fluctuation of the input wave from the frame power fluctuation dpow, and the value of the forgetting period update according to the determined fluctuation of the input wave. Is applied to the input wave (increase, decrease, and maintain the forgetting period), and the adapted forgetting period update is output to the determination coefficient updating unit 40. Therefore, the forgetting is performed according to the magnitude of the fluctuation of the input wave. The frequency of the update process can be changed, and the effect that the voice segment determination process can be performed with stable accuracy can be obtained.

【0118】なお、入力波の変動を示す分析パラメータ
の一例として入力波のフレームパワーの変動dpowを
用いて説明を行ったが、この実施の形態4はこれに限定
されるものではなく、他の分析パラメータを用いて忘却
周期updateの適応化を行うようにすることもでき
る。
Although the description has been made using the fluctuation dpow of the frame power of the input wave as an example of the analysis parameter indicating the fluctuation of the input wave, the fourth embodiment is not limited to this. It is also possible to adapt the forgetting cycle update using the analysis parameters.

【0119】実施の形態5.実施の形態5では、判定係
数更新部40(判定閾値更新手段)において、音声区間
判定処理の初期フレームから所定のフレームまでは係数
比較閾値tcs_rp,tcn_rpとの比較結果によ
らずに忘却周期updateの値を1として、この間の
各フレームにおいて得られたローパス残差信号パワーr
pだけを用いて有音区間判定係数Cs_rpおよび無音
区間判定係数Cn_rpの更新を行い、所定のフレーム
が経過した時点で忘却周期updateを忘却周期最大
値UPDATE(≠1)に変更処理して音声区間判定処
理を行うようにしても良い。このようにすることで、過
渡部フレームの不要なパワー成分の影響を防ぎ、判定閾
値TH_rpの適応化を高速化できるようになる。
Embodiment 5 FIG. In the fifth embodiment, the judgment coefficient updating unit 40 (judgment threshold updating unit) sets the forgetting cycle update from the initial frame to the predetermined frame of the voice section judgment processing without depending on the comparison result with the coefficient comparison thresholds tcs_rp and tcn_rp. Assuming that the value is 1, the low-pass residual signal power r obtained in each frame during this period
The speech section determination coefficient Cs_rp and the silent section determination coefficient Cn_rp are updated using only p, and when a predetermined frame has elapsed, the forgetting cycle update is changed to the forgetting cycle maximum value UPDATE (# 1), and the speech section is updated. The determination process may be performed. By doing so, the influence of unnecessary power components of the transient part frame can be prevented, and the adaptation of the decision threshold value TH_rp can be accelerated.

【0120】なお、初期フレームから所定フレームまで
の忘却周期updateの変更処理は、前述したような
忘却周期update=1からupdate=UPDA
TEへ変化させるような方法に限らず、例えば音声区間
判定処理の進行とともに忘却周期updateを1,
2,…,UPDATEと段階的に変化させるようにして
も良く、システム立ち上がり時の各フレームにおいて分
析パラメータに不適切に適応化することを防ぐことがで
きる。また、忘却周期updateを1から始めるだけ
でなく、忘却周期最大値UPDATEより小さな値から
始めても良い。
The process of changing the forgetting cycle update from the initial frame to the predetermined frame is performed by changing the forgetting cycle update = 1 to update = UPDA as described above.
Not limited to the method of changing to TE, for example, the forgetting period update is set to 1,
, UPDATE may be changed stepwise so as to prevent inappropriate adaptation to analysis parameters in each frame at the time of system startup. Further, the forgetting cycle update may be started not only from 1 but also from a value smaller than the forgetting cycle maximum value UPDATE.

【0121】以上のように、この実施の形態5によれ
ば、音声区間判定処理が開始される初期フレームでは、
忘却更新処理の頻度が高くなるように忘却周期upda
teの値を忘却周期最大値UPDATEよりも小さな値
に設定し、音声区間判定処理の進行とともに忘却周期u
pdateを増加させ、あらかじめ設定された所定フレ
ームにおいて忘却周期最大値UPDATEの値になるよ
うにしたので、過渡部フレームの不要なパワー成分の影
響を防ぎ、入力波に対する判定閾値TH_rpの適応化
を速くすることできるようになり、音声区間判定処理が
開始された初期フレームから所定フレームまでにおいて
も安定した精度を持った音声区間判定処理を行うことが
できるという効果が得られる。
As described above, according to the fifth embodiment, in the initial frame in which the voice section determination processing is started,
The forgetting cycle upda so that the frequency of the forgetting update processing becomes high.
The value of te is set to a value smaller than the maximum forgetting cycle value UPDATE, and the forgetting cycle u
Since pdate is increased so that it becomes the value of the forgetting cycle maximum value UPDATE in a predetermined frame set in advance, the influence of unnecessary power components of the transient part frame is prevented, and the adaptation of the decision threshold value TH_rp to the input wave is performed quickly. This makes it possible to perform the speech segment determination process with stable accuracy from the initial frame in which the speech segment decision process is started to a predetermined frame.

【0122】なお、忘却周期updateが忘却周期最
大値UPDATEとなる所定フレームは、音声区間判定
処理の使用条件を考慮して、経験的、実験的に定めるよ
うにする。
The predetermined frame in which the forgetting cycle update has the maximum forgetting cycle value UPDATE is determined empirically and experimentally in consideration of the use conditions of the voice section determination processing.

【0123】実施の形態6.図8はこの発明の実施の形
態6による音声区間判定装置に備えられた判定閾値算出
部の動作を示すフローチャートである。図8において、
60Aは判定閾値TH_rpの算出に用いる重み付け係
数wt_rpを入力波に適応化させる判定閾値算出部
(判定閾値更新手段)である。その他の構成について
は、同一の符号を付して重複する説明を省略する。
Embodiment 6 FIG. FIG. 8 is a flowchart showing the operation of the judgment threshold value calculation unit provided in the voice segment judgment device according to Embodiment 6 of the present invention. In FIG.
Reference numeral 60A denotes a judgment threshold value calculation unit (judgment threshold value updating means) for adapting the weighting coefficient wt_rp used for calculating the judgment threshold value TH_rp to the input wave. The other components are denoted by the same reference numerals, and redundant description will be omitted.

【0124】次に動作について説明する。有音区間判定
係数Cs_rpおよび無音区間判定係数Cn_rpが判
定係数更新部40から判定閾値算出部60Aに出力され
ると、ステップST611において、判定閾値算出部6
0AはCs_rpとCn_rpとの差分と閾値th_w
t_rpとの比較を(19)式のように行う。
Next, the operation will be described. When the sound section determination coefficient Cs_rp and the silent section determination coefficient Cn_rp are output from the determination coefficient update section 40 to the determination threshold calculation section 60A, in step ST611, the determination threshold calculation section 6 is determined.
0A is the difference between Cs_rp and Cn_rp and the threshold th_w
Comparison with t_rp is performed as in equation (19).

【0125】 Cs_rp−Cn_rp<th_wt_rp (19)Cs_rp−Cn_rp <th_wt_rp (19)

【0126】(19)式を満足すると判定閾値算出部6
0Aが判断した場合(有音判定と無音判定の条件が接近
している場合)には、入力波のSNRが低いものと判断
して判定閾値算出部60AはステップST612へ移行
し、重み付け係数wt_rpの値を所定値WT_RP_
HIGHに設定する。一方、(19)式が満たされない
場合、すなわち、(20)式が成り立つものと判断され
た場合には、入力波のSNRが高いものと判断して、ス
テップST613へ移行し、重み付け係数wt_rpの
値を所定値WT_RP_LOWに設定する。
When the expression (19) is satisfied, the judgment threshold value calculation unit 6
When 0A is determined (when the conditions of the sound determination and the silence determination are close), the determination threshold calculation unit 60A determines that the SNR of the input wave is low, and proceeds to step ST612, where the weighting coefficient wt_rp Is a predetermined value WT_RP_
Set to HIGH. On the other hand, if Expression (19) is not satisfied, that is, if it is determined that Expression (20) holds, it is determined that the SNR of the input wave is high, and the process shifts to Step ST613 to set the weighting coefficient wt_rp. The value is set to a predetermined value WT_RP_LOW.

【0127】 Cs_rp−Cn_rp≧th_wt_rp (20)Cs_rp−Cn_rp ≧ th_wt_rp (20)

【0128】ここで、所定値WT_RP_HIGHは0
より大きく1未満の値であり、音声区間判定結果Vが有
音区間判定(V=1)となりやすい値を実験的、経験的
に求めたものである。また、所定値WT_RP_LOW
も0より大きく1未満の値であり、SNRの高い状態に
おいて、音声区間判定処理が適切に実行されるように実
験的、経験的に求めたものである。このように入力波の
SNRから環境雑音の影響を判断し、これに応じて重み
付け係数wt_rpを音声区間判定処理にとって適切な
数値に変更処理することで、判定閾値TH_rpを算出
する分析パラメータCs_rp,Cn_rpが入力波に
応じて不適当な値に適応化した場合においても、安定し
た精度を持った音声区間判定処理が行えるようになる。
Here, the predetermined value WT_RP_HIGH is 0
It is a value that is larger and less than 1, and a value in which the voice section determination result V is likely to be a voiced section determination (V = 1) is experimentally and empirically obtained. Also, a predetermined value WT_RP_LOW
Is also a value greater than 0 and less than 1, and is experimentally and empirically determined so that the voice section determination process is appropriately performed in a state where the SNR is high. As described above, the influence of environmental noise is determined from the SNR of the input wave, and the weighting coefficient wt_rp is changed to an appropriate value for the voice section determination processing in accordance with the determination, thereby analyzing parameters Cs_rp, Cn_rp for calculating the determination threshold TH_rp. Is adapted to an inappropriate value according to the input wave, the voice section determination processing with stable accuracy can be performed.

【0129】以上のように、この実施の形態6によれ
ば、判定閾値算出部60Aは、有音区間判定係数Cs_
rpと無音区間判定係数Cn_rpの2つの分析パラメ
ータと固定値である重み付け係数wt_rpとから判定
閾値TH_rpを算出し、分析パラメータである有音区
間判定係数Cs_rpと無音区間判定係数Cn_rpと
から入力波を推定し、この推定された入力波に応じて判
定閾値wt_thを変更処理するようにしたので、判定
閾値TH_rpを算出する分析パラメータCs_rp,
Cn_rpが入力波に応じて不適当な値に適応化した場
合においても、安定した精度を持った音声区間判定処理
が行えるようになる。
As described above, according to the sixth embodiment, the judgment threshold value calculation unit 60A sets the sound section judgment coefficient Cs_
rp and a silent section determination coefficient Cn_rp, and a determination threshold value TH_rp is calculated from a fixed value weighting coefficient wt_rp. Since the estimation threshold is changed and the judgment threshold wt_th is changed according to the estimated input wave, the analysis parameters Cs_rp,
Even when Cn_rp is adapted to an inappropriate value according to the input wave, the voice segment determination processing with stable accuracy can be performed.

【0130】なお、この実施の形態6では、入力波を推
定する方法として、有音区間判定係数と無音区間判定係
数との差分を用いた例を示したが、他の分析パラメータ
によって入力波を判断するようにして重み付け係数wt
_rpを変更するようにしても良い。
In the sixth embodiment, as an example of a method of estimating an input wave, an example using a difference between a sound section determination coefficient and a silent section determination coefficient is used. Determine the weighting coefficient wt
_Rp may be changed.

【0131】なお、以上の実施の形態1〜6は、音声フ
レームメトリック法など他の入力波に適応化する判定閾
値を用いた音声区間判定装置および音声区間判定方法に
適用することも可能である。
The above first to sixth embodiments can also be applied to a voice section determination apparatus and a voice section determination method using a determination threshold adapted to another input wave, such as a voice frame metric method. .

【0132】[0132]

【発明の効果】以上のようにこの発明によれば、音声区
間判定処理の処理回数があらかじめ設定された忘却周期
に到達すると、入力波に依存しない独立パラメータを用
いて判定閾値の忘却更新処理を行うようにしたので、想
定以上に急峻な入力波の変化の影響を忘却周期毎の忘却
更新処理によって軽減できるようになり、入力波の変化
に対する耐性を高め、安定した精度を持った音声区間判
定処理を行うことができるという効果が得られる。
As described above, according to the present invention, when the number of times of the voice section determination processing reaches a preset forgetting cycle, the forgetting update processing of the determination threshold is performed using an independent parameter independent of the input wave. Since it is performed, the influence of the change of the input wave that is steeper than expected can be reduced by the forgetting update processing for each forgetting cycle, the tolerance to the change of the input wave is increased, and the voice segment determination with stable accuracy is achieved. The effect that processing can be performed is acquired.

【0133】この発明によれば、区間毎に分割された入
力波に依存する分析パラメータを算出し、判定閾値と分
析パラメータとの比較によって入力波分析を行う入力波
分析手段と、入力波分析の結果に基づいて、音声区間判
定処理を行う音声区間判定手段と、分析パラメータの適
応更新処理を行い、適応更新処理された分析パラメータ
によって算出された判定閾値を入力波分析手段に出力す
るとともに、音声区間判定処理の処理回数があらかじめ
設定された忘却周期に到達すると、入力波に依存しない
独立パラメータを用いて分析パラメータの忘却更新処理
を行い、忘却更新処理された分析パラメータによって算
出された判定閾値を入力波分析手段に出力する判定閾値
更新手段とを備えるようにしたので、想定以上に急峻な
入力波の変化の影響を忘却周期毎の忘却更新処理によっ
て軽減できるようになり、入力波の変化に対する耐性を
高め、安定した精度を持った音声区間判定処理を行うこ
とができるという効果が得られる。
According to the present invention, an input wave analyzing means for calculating an analysis parameter depending on an input wave divided for each section and performing an input wave analysis by comparing a judgment threshold value with the analysis parameter; Based on the result, voice section determination means for performing voice section determination processing, and adaptive update processing of analysis parameters, and output a determination threshold calculated based on the analysis parameters subjected to adaptive update processing to input wave analysis means, and When the number of times of the section determination processing reaches a preset forgetting cycle, a forgetting update processing of an analysis parameter is performed using an independent parameter independent of an input wave, and a determination threshold calculated based on the analysis parameter subjected to the forgetting update processing is determined. Since the judgment threshold updating means for outputting to the input wave analyzing means is provided, the influence of the change of the input wave which is sharper than expected The now be reduced by forgetting updating process for each forgetting cycle, enhance the resistance to change of the input wave, there is an advantage that it is possible to perform a stable speech segment determination processing with accuracy.

【0134】この発明によれば、入力波分析手段が、入
力波を処理するローパスフィルタおよびハイパスフィル
タを有し、区間毎に分割された入力波の正規自己相関最
大値、ローパスフィルタで処理された入力波の正規自己
相関正最大値、ローパスフィルタ残差信号パワーおよび
ハイパスフィルタで処理された入力波パワーを分析パラ
メータとして用いるようにしたので、環境雑音に対して
頑健な性質を有する分析パラメータを用いて音声区間判
定処理を行うことができるという効果が得られる。
According to the present invention, the input wave analyzing means has the low-pass filter and the high-pass filter for processing the input wave, and the normal auto-correlation maximum value of the input wave divided for each section is processed by the low-pass filter. Since the normal autocorrelation positive maximum value of the input wave, the low-pass filter residual signal power, and the input wave power processed by the high-pass filter are used as analysis parameters, use analysis parameters having properties that are robust against environmental noise. This makes it possible to perform the voice section determination process.

【0135】この発明によれば、判定閾値更新手段が、
入力波に依存する複数の分析パラメータの差分と差分閾
値とを比較して、複数の分析パラメータの差分が差分閾
値によって定められる差分範囲を超えると、複数の分析
パラメータの差分を差分限界値に保つ制限変更処理を行
う分析パラメータ制限手段を備えるようにしたので、過
渡部フレームの不要なパワー成分の影響を防ぐことがで
き、安定した精度を持った音声区間判定処理を行うこと
ができるという効果が得られる。
According to the present invention, the determination threshold updating means includes:
A difference between a plurality of analysis parameters depending on an input wave is compared with a difference threshold, and when a difference between the plurality of analysis parameters exceeds a difference range defined by the difference threshold, the difference between the plurality of analysis parameters is kept at a difference limit value. Since the analysis parameter limiting means for performing the limit change processing is provided, the effect of unnecessary power components of the transient part frame can be prevented, and the effect of performing the voice segment determination processing with stable accuracy can be obtained. can get.

【0136】この発明によれば、判定閾値更新手段が、
入力波に依存する分析パラメータと限界閾値とを比較
し、分析パラメータが限界閾値によって定められる限界
範囲を超えると、分析パラメータを限界範囲に収める制
限更新処理を行う分析パラメータ制限手段を備えるよう
にしたので、過渡部フレームの不要なパワー成分の影響
を防ぐことができ、安定した精度を持った音声区間判定
処理を行うことができるという効果が得られる。
According to the present invention, the determination threshold updating means includes:
An analysis parameter limiting means for comparing an analysis parameter depending on an input wave with a limit threshold and performing a limit update process for limiting the analysis parameter to a limit range when the analysis parameter exceeds a limit range defined by the limit threshold is provided. Therefore, the effect of unnecessary power components of the transient part frame can be prevented, and the effect of performing the voice segment determination processing with stable accuracy can be obtained.

【0137】この発明によれば、判定閾値更新手段が、
入力波に依存しない複数の独立パラメータを記憶する記
憶手段を有し、区間毎の音声区間判定処理された処理回
数があらかじめ設定された忘却周期に到達する毎に、入
力波に依存する分析パラメータに最も近い独立パラメー
タを記憶手段から引き出して判定閾値の忘却更新処理を
行うようにしたので、判定閾値から適応化の効果を必要
以上に忘却することを防ぐとともに、入力波の変化に対
する耐性を高め、安定な音声区間判定処理を行うことが
できるという効果が得られる。
According to the present invention, the determination threshold updating means includes:
It has storage means for storing a plurality of independent parameters that do not depend on the input wave, and each time the number of times of the sound section determination processing for each section reaches a preset forgetting cycle, an analysis parameter that depends on the input wave Since the closest independent parameter is extracted from the storage unit and the forgetting update process of the determination threshold is performed, it is possible to prevent the effect of the adaptation from being unnecessarily forgotten from the determination threshold, and increase the resistance to the change of the input wave, An effect is obtained that stable voice section determination processing can be performed.

【0138】この発明によれば、入力波分析手段によっ
て算出された分析パラメータに忘却周期を適応化させる
忘却周期適応化手段とを備え、判定閾値更新手段は、忘
却周期適応化手段によって適応化された忘却周期にした
がって判定閾値の忘却更新処理を行うようにしたので、
入力波に応じて忘却更新処理の頻度を変更できるように
なり、安定した精度を持った音声区間判定処理を行うこ
とができるという効果が得られる。
According to the present invention, there is provided the forgetting cycle adapting means for adapting the forgetting cycle to the analysis parameter calculated by the input wave analyzing means, and the determination threshold updating means is adapted by the forgetting cycle adapting means. Since the forgetting update process of the judgment threshold is performed according to the forgetting cycle
The frequency of the forgetting update process can be changed according to the input wave, and the effect that the voice segment determination process can be performed with stable accuracy can be obtained.

【0139】この発明によれば、判定閾値更新手段が、
音声区間判定処理が開始される初期フレームでは忘却周
期を忘却周期最大値未満とし、音声区間判定処理の進行
とともに忘却周期を忘却周期最大値へ増加させるように
したので、過渡部フレームなどの不要なパワー成分の影
響を防ぎ、判定閾値の適応化を速くすることできるよう
になり、音声区間判定処理の初期においても安定した精
度を持った音声区間判定処理を行うことができるという
効果が得られる。
According to the present invention, the determination threshold updating means includes:
In the initial frame in which the voice section determination process is started, the forgetting cycle is set to be less than the forgetting cycle maximum value, and the forgetting cycle is increased to the forgetting cycle maximum value as the voice section determining process proceeds. The effect of the power component can be prevented, and the adaptation of the determination threshold can be accelerated, so that the effect that the voice section determination processing with stable accuracy can be performed even at the beginning of the voice section determination processing is obtained.

【0140】この発明によれば、判定閾値更新手段が、
入力波に依存しない重み付け係数を用いて判定閾値を算
出するとともに、入力波分析手段によって算出された分
析パラメータに応じて重み付け係数を変更処理するよう
にしたので、判定閾値を算出する分析パラメータが入力
波に応じて不適当な値に適応化した場合においても、安
定した精度を持った音声区間判定処理を行うことができ
るという効果が得られる。
According to the present invention, the determination threshold updating means includes:
The determination threshold is calculated using a weighting coefficient independent of the input wave, and the weighting coefficient is changed according to the analysis parameter calculated by the input wave analysis means. Even when the value is adapted to an inappropriate value according to the wave, an effect is obtained that the voice section determination processing can be performed with stable accuracy.

【0141】この発明によれば、音声区間判定処理の処
理回数があらかじめ設定された忘却周期に到達すると、
入力波に依存しない独立パラメータを用いて判定閾値の
忘却更新処理が行われるようにしたので、想定以上に急
峻な入力波の変化の影響を忘却周期毎の忘却更新処理に
よって軽減できるようになり、入力波の変化に対する耐
性を高め、安定した精度を持った音声区間判定処理を行
うことができるという効果が得られる。
According to the present invention, when the number of times of the voice section determination processing reaches a preset forgetting cycle,
Since the forgetting update process of the determination threshold is performed using an independent parameter that does not depend on the input wave, the influence of the change of the input wave that is steeper than expected can be reduced by the forgetting update process for each forgetting cycle. This has the effect of increasing the resistance to changes in the input wave and performing the voice segment determination process with stable accuracy.

【0142】この発明によれば、区間毎に分割された入
力波に依存する分析パラメータが算出され、判定閾値と
分析パラメータとの比較によって入力波分析が行われる
第1のステップと、入力波分析の結果に基づいて、音声
区間判定処理が行われる第2のステップと、分析パラメ
ータの適応更新処理が行われ、適応更新処理された分析
パラメータによって算出された判定閾値が第1のステッ
プへ出力されるとともに、音声区間判定処理の処理回数
があらかじめ設定された忘却周期に到達すると、入力波
に依存しない独立パラメータを用いて分析パラメータの
忘却更新処理が行われ、忘却更新処理された分析パラメ
ータによって算出された判定閾値が第1のステップへ出
力される第3のステップとを備えるようにしたので、想
定以上に急峻な入力波の変化の影響を忘却周期毎の忘却
更新処理によって軽減できるようになり、入力波の変化
に対する耐性を高め、安定した精度を持った音声区間判
定処理を行うことができるという効果が得られる。
According to the present invention, the first step in which the analysis parameter depending on the input wave divided for each section is calculated, and the input wave analysis is performed by comparing the determination threshold with the analysis parameter, Based on the result of the above, a second step in which a speech section determination process is performed and an adaptive update process of an analysis parameter are performed, and a determination threshold calculated based on the analysis parameter subjected to the adaptive update process is output to the first step. At the same time, when the number of times of the voice section determination processing reaches a preset forgetting cycle, the forgetting update processing of the analysis parameter is performed using the independent parameter independent of the input wave, and the calculation is performed based on the analysis parameter subjected to the forgetting update processing. And a third step in which the determined determination threshold is output to the first step, so that the input threshold becomes steeper than expected. The influence of the wave changes in will be able to reduce the forgetting process of updating each forgetting cycle, enhance the resistance to change of the input wave, there is an advantage that it is possible to perform a stable speech segment determination processing with accuracy.

【0143】この発明によれば、第1のステップでは、
ローパスフィルタおよびハイパスフィルタによって入力
波が処理され、区間毎に分割された入力波の正規自己相
関最大値、ローパスフィルタで処理された入力波の正規
自己相関正最大値、ローパスフィルタ残差信号パワーお
よびハイパスフィルタで処理された入力波パワーが分析
パラメータとして用いられるようにしたので、環境雑音
に対して頑健な性質を有する分析パラメータを用いて音
声区間判定処理を行うことができるという効果が得られ
る。
According to the present invention, in the first step,
The input wave is processed by the low-pass filter and the high-pass filter, the normal auto-correlation maximum value of the input wave divided for each section, the normal auto-correlation positive maximum value of the input wave processed by the low-pass filter, the low-pass filter residual signal power and Since the input wave power processed by the high-pass filter is used as the analysis parameter, an effect is obtained that the speech section determination process can be performed using the analysis parameter having a property robust to environmental noise.

【0144】この発明によれば、第3のステップでは、
入力波に依存する複数の分析パラメータの差分と差分閾
値とが比較され、複数の分析パラメータの差分が差分閾
値によって定められる差分範囲を超えると、複数の分析
パラメータの差分を差分限界値に保つ制限変更処理が行
われる第4のステップを備えるようにしたので、分析パ
ラメータに対する過渡部フレームの不要なパワー成分の
影響を防ぐことができ、安定した精度を持った音声区間
判定処理を行うことができるという効果が得られる。
According to the present invention, in the third step,
A difference between a plurality of analysis parameters depending on an input wave is compared with a difference threshold, and when the difference between the plurality of analysis parameters exceeds a difference range defined by the difference threshold, a limit for keeping the difference between the plurality of analysis parameters at a difference limit value. Since the fourth step in which the change processing is performed is provided, the influence of unnecessary power components of the transient part frame on the analysis parameters can be prevented, and the voice segment determination processing with stable accuracy can be performed. The effect is obtained.

【0145】この発明によれば、第3のステップでは、
入力波に依存する分析パラメータと限界閾値とが比較さ
れ、分析パラメータが限界閾値によって定められる限界
範囲を超えると、分析パラメータを限界範囲に収める制
限更新処理が行われる第4のステップを備えるようにし
たので、過渡部フレームの不要なパワー成分の影響を防
ぐことができ、安定した精度を持った音声区間判定処理
を行うことができるという効果が得られる。
According to the present invention, in the third step,
An analysis parameter dependent on an input wave is compared with a limit threshold, and when the analysis parameter exceeds a limit range defined by the limit threshold, a limit update process for keeping the analysis parameter within the limit range is performed. Therefore, the effect of unnecessary power components of the transient part frame can be prevented, and the effect of performing the voice segment determination processing with stable accuracy can be obtained.

【0146】この発明によれば、第3のステップでは、
入力波に依存しない複数の独立パラメータが記憶され、
区間毎の音声区間判定処理された処理回数があらかじめ
設定された忘却周期に到達する毎に、入力波に依存する
分析パラメータに最も近い独立パラメータを記憶された
複数の独立パラメータから引き出して判定閾値の忘却更
新処理が行われるようにしたので、判定閾値から適応化
の効果を必要以上に忘却することを防ぐとともに、入力
波の変化に対する耐性を高め、安定した精度を持った音
声区間判定処理を行うことができるという効果が得られ
る。
According to the present invention, in the third step,
A plurality of independent parameters independent of the input wave are stored,
Each time the number of times of the voice segment determination processing for each section reaches the preset forgetting cycle, the independent parameter closest to the analysis parameter depending on the input wave is extracted from the stored plurality of independent parameters to determine the determination threshold. Since the forgetting update process is performed, it is possible to prevent the effect of the adaptation from being forgotten more than necessary from the determination threshold value, increase the resistance to changes in the input wave, and perform the voice segment determination process with stable accuracy. The effect that it can be obtained is obtained.

【0147】この発明によれば、第1のステップにおい
て算出された分析パラメータに忘却周期が適応化される
第5のステップとを備え、第3のステップでは、第5の
ステップにおいて適応化された忘却周期にしたがって判
定閾値の忘却更新処理が行われるようにしたので、入力
波に応じて忘却更新処理の頻度を変更できるようにな
り、安定した精度を持った音声区間判定処理を行うこと
ができるという効果が得られる。
According to the present invention, there is provided a fifth step in which the forgetting period is adapted to the analysis parameter calculated in the first step, and the third step is adapted in the fifth step. Since the forgetting update process of the determination threshold is performed according to the forgetting cycle, the frequency of the forgetting update process can be changed according to the input wave, and the voice segment determination process with stable accuracy can be performed. The effect is obtained.

【0148】この発明によれば、第3のステップでは、
音声区間判定処理が開始される初期フレームでは忘却周
期が忘却周期最大値未満とされ、音声区間判定処理の進
行とともに忘却周期が忘却周期最大値へ増加されるよう
にしたので、過渡部フレームの不要なパワー成分の影響
を防ぎ、判定閾値の適応化を速くすることできるように
なり、音声区間判定処理の初期においても安定した精度
を持った音声区間判定処理を行うことができるという効
果が得られる。
According to the present invention, in the third step,
In the initial frame in which the voice section determination process is started, the forgetting cycle is set to be less than the maximum value of the forgetting cycle, and the forgetting cycle is increased to the maximum value of the forgetting cycle as the voice section determining process proceeds. Effect of the power section can be prevented, and the adaptation of the decision threshold can be accelerated, so that the effect that the speech section determination processing with stable accuracy can be performed even at the beginning of the speech section determination processing is obtained. .

【0149】この発明によれば、第3のステップでは、
入力波に依存しない重み付け係数を用いて判定閾値が算
出されるとともに、第1のステップにおいて算出された
分析パラメータに応じて重み付け係数が変更処理される
ようにしたので、判定閾値を算出する分析パラメータが
入力波に応じて不適当な値に適応化した場合において
も、安定した精度を持った音声区間判定処理を行うこと
ができるという効果が得られる。
According to the present invention, in the third step,
The determination threshold value is calculated using the weighting coefficient independent of the input wave, and the weighting coefficient is changed according to the analysis parameter calculated in the first step. Is adapted to an inappropriate value in accordance with the input wave, an effect is obtained that the voice section determination processing with stable accuracy can be performed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 この発明の実施の形態1による音声区間判定
装置の構成を示す図である。
FIG. 1 is a diagram showing a configuration of a voice section determination device according to a first embodiment of the present invention.

【図2】 この発明の実施の形態1による音声区間判定
装置に備えられた判定部、判定係数更新部、判定閾値算
出部の動作を示すフローチャートである。
FIG. 2 is a flowchart illustrating operations of a determination unit, a determination coefficient update unit, and a determination threshold calculation unit included in the voice section determination device according to the first embodiment of the present invention.

【図3】 この発明の実施の形態1による音声区間判定
装置に備えられた判定部、判定係数更新部、判定閾値算
出部の動作を示すフローチャートである。
FIG. 3 is a flowchart illustrating operations of a determination unit, a determination coefficient update unit, and a determination threshold calculation unit included in the voice section determination device according to the first embodiment of the present invention.

【図4】 この発明の実施の形態2による音声区間判定
装置の構成を示す図である。
FIG. 4 is a diagram showing a configuration of a voice section determination device according to a second embodiment of the present invention.

【図5】 この発明の実施の形態2による音声区間判定
装置に備えられた判定係数更新部、判定係数リミッタ
部、判定閾値算出部の動作を示すフローチャートであ
る。
FIG. 5 is a flowchart illustrating operations of a determination coefficient update unit, a determination coefficient limiter unit, and a determination threshold value calculation unit provided in the voice section determination device according to the second embodiment of the present invention.

【図6】 この発明の実施の形態3による音声区間判定
装置に備えられた判定係数更新部の動作を示すフローチ
ャートである。
FIG. 6 is a flowchart illustrating an operation of a determination coefficient updating unit provided in the voice section determination device according to the third embodiment of the present invention.

【図7】 この発明の実施の形態4による音声区間判定
装置に備えられたパワー変動算出部、周期変更部、判定
係数更新部の動作を示すフローチャートである。
FIG. 7 is a flowchart illustrating operations of a power fluctuation calculating unit, a cycle changing unit, and a determination coefficient updating unit included in a voice section determining device according to a fourth embodiment of the present invention.

【図8】 この発明の実施の形態6による音声区間判定
装置に備えられた判定閾値算出部の動作を示すフローチ
ャートである。
FIG. 8 is a flowchart illustrating an operation of a determination threshold value calculation unit provided in a voice section determination device according to a sixth embodiment of the present invention.

【図9】 従来の音声区間判定装置の動作を示すフロー
チャートである。
FIG. 9 is a flowchart showing the operation of the conventional voice section determination device.

【図10】 従来の音声区間判定装置の動作を示すフロ
ーチャートである。
FIG. 10 is a flowchart showing the operation of a conventional voice section determination device.

【符号の説明】[Explanation of symbols]

10 前処理部(入力波分析手段)、20 入力波分析
部(入力波分析手段)、30 判定部(音声区間判定手
段)、40,40A,40B 判定係数更新部(判定閾
値更新手段)、45 メモリ(記憶手段)、50 判定
係数リミッタ部(分析パラメータ制限手段)、60,6
0A 判定閾値算出部(判定閾値更新手段)、70 パ
ワー変動算出部(入力波分析手段)、80 周期変更部
(忘却周期変更手段)。
Reference Signs List 10 preprocessing unit (input wave analysis unit), 20 input wave analysis unit (input wave analysis unit), 30 judgment unit (voice section judgment unit), 40, 40A, 40B judgment coefficient update unit (judgment threshold update unit), 45 Memory (storage means), 50 determination coefficient limiter section (analysis parameter limiting means), 60, 6
0A judgment threshold calculation unit (judgment threshold update unit), 70 power fluctuation calculation unit (input wave analysis unit), 80 cycle change unit (forgetting cycle change means).

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 101:14 G10L 9/08 301A ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) G10L 101: 14 G10L 9/08 301A

Claims (18)

【特許請求の範囲】[Claims] 【請求項1】 断続的に発せられる音声信号と上記音声
信号の周囲環境に生じた環境雑音とが混在した入力波を
時間的な区間毎にそれぞれ分割し、上記入力波に適応化
する判定閾値を用いて上記区間毎の音声区間判定処理を
行う音声区間判定装置において、 上記音声区間判定処理の処理回数があらかじめ設定され
た忘却周期に到達すると、上記入力波に依存しない独立
パラメータを用いて上記判定閾値の忘却更新処理を行う
ことを特徴とする音声区間判定装置。
1. A decision threshold for dividing an input wave in which an intermittently emitted audio signal and an environmental noise generated in the surrounding environment of the audio signal are respectively divided into time sections and adapting the input wave to the input wave. In the voice section determination device that performs the voice section determination processing for each section using the above, when the number of times of the voice section determination processing reaches a preset forgetting cycle, the above-mentioned using an independent parameter independent of the input wave A voice section determination device for performing a forgetting update process of a determination threshold.
【請求項2】 断続的に発せられる音声信号と上記音声
信号の周囲環境に生じた環境雑音とが混在した入力波を
時間的な区間毎にそれぞれ分割し、上記入力波に適応化
する判定閾値を用いて上記区間毎の音声区間判定処理を
行う音声区間判定装置において、 上記区間毎に分割された上記入力波に依存する分析パラ
メータを算出し、上記判定閾値と上記分析パラメータと
の比較によって入力波分析を行う入力波分析手段と、 上記入力波分析の結果に基づいて、上記音声区間判定処
理を行う音声区間判定手段と、 上記分析パラメータの適応更新処理を行い、適応更新処
理された上記分析パラメータによって算出された上記判
定閾値を上記入力波分析手段に出力するとともに、上記
音声区間判定処理の処理回数があらかじめ設定された忘
却周期に到達すると、上記入力波に依存しない独立パラ
メータを用いて上記分析パラメータの忘却更新処理を行
い、忘却更新処理された上記分析パラメータによって算
出された上記判定閾値を上記入力波分析手段に出力する
判定閾値更新手段とを備えることを特徴とする音声区間
判定装置。
2. A decision threshold value for dividing an input wave in which an intermittently emitted audio signal and an environmental noise generated in the surrounding environment of the audio signal are divided into respective time sections, and adapted to the input wave. A voice section determination device that performs a voice section determination process for each section by using the above. An analysis parameter dependent on the input wave divided for each section is calculated, and input is performed by comparing the determination threshold with the analysis parameter. Input wave analysis means for performing a wave analysis; voice section determination means for performing the voice section determination processing based on a result of the input wave analysis; and adaptive analysis processing for the analysis parameter, The judgment threshold value calculated by the parameter is output to the input wave analysis means, and the number of times of the voice segment judgment processing reaches a preset forgetting cycle. Upon reaching, a determination threshold for performing a forgetting update process of the analysis parameter using the independent parameter independent of the input wave, and outputting the determination threshold calculated by the analysis parameter subjected to the forgetting update process to the input wave analysis means. An audio section determination device, comprising: updating means.
【請求項3】 入力波分析手段は、 入力波を処理するローパスフィルタおよびハイパスフィ
ルタを有し、区間毎に分割された上記入力波の正規自己
相関最大値、上記ローパスフィルタで処理された上記入
力波の正規自己相関正最大値、ローパスフィルタ残差信
号パワーおよび上記ハイパスフィルタで処理された上記
入力波パワーを分析パラメータとして用いることを特徴
とする請求項2記載の音声区間判定装置。
3. The input wave analysis means has a low-pass filter and a high-pass filter for processing the input wave, and has a normal autocorrelation maximum value of the input wave divided for each section, and the input signal processed by the low-pass filter. 3. The voice section determination device according to claim 2, wherein a normal autocorrelation positive maximum value of the wave, a low-pass filter residual signal power, and the input wave power processed by the high-pass filter are used as analysis parameters.
【請求項4】 判定閾値更新手段は、 入力波に依存する複数の分析パラメータの差分と差分閾
値とを比較して、上記複数の分析パラメータの差分が上
記差分閾値によって定められる差分範囲を超えると、上
記複数の分析パラメータの差分を差分限界値に保つ制限
変更処理を行う分析パラメータ制限手段を備えることを
特徴とする請求項2または請求項3記載の音声区間判定
装置。
4. The determination threshold updating unit compares a difference between a plurality of analysis parameters depending on an input wave and a difference threshold, and determines that the difference between the plurality of analysis parameters exceeds a difference range defined by the difference threshold. 4. The apparatus according to claim 2, further comprising an analysis parameter restriction unit for performing a restriction change process for maintaining a difference between the plurality of analysis parameters at a difference limit value.
【請求項5】 判定閾値更新手段は、 入力波に依存する分析パラメータと限界閾値とを比較
し、上記分析パラメータが上記限界閾値によって定めら
れる限界範囲を超えると、上記分析パラメータを上記限
界範囲に収める制限更新処理を行う分析パラメータ制限
手段を備えることを特徴とする請求項2または請求項3
記載の音声区間判定装置。
5. The determination threshold updating means compares an analysis parameter dependent on an input wave with a limit threshold, and when the analysis parameter exceeds a limit range defined by the limit threshold, sets the analysis parameter to the limit range. 4. The apparatus according to claim 2, further comprising an analysis parameter restriction unit for performing a restriction update process.
The voice section determination device according to the above.
【請求項6】 判定閾値更新手段は、 入力波に依存しない複数の独立パラメータを記憶する記
憶手段を有し、区間毎の音声区間判定処理された処理回
数があらかじめ設定された忘却周期に到達する毎に、上
記入力波に依存する分析パラメータに最も近い上記独立
パラメータを上記記憶手段から引き出して判定閾値の忘
却更新処理を行うことを特徴とする請求項2または請求
項3記載の音声区間判定装置。
6. The determination threshold updating means has a storage means for storing a plurality of independent parameters independent of an input wave, and the number of times of the voice section determination processing for each section reaches a preset forgetting cycle. 4. The voice section determination device according to claim 2, wherein the independent parameter closest to the analysis parameter dependent on the input wave is retrieved from the storage unit and the forgetting update process of the determination threshold is performed every time. .
【請求項7】 入力波分析手段によって算出された分析
パラメータに忘却周期を適応化させる忘却周期適応化手
段とを備え、 判定閾値更新手段は、上記忘却周期適応化手段によって
適応化された上記忘却周期にしたがって判定閾値の忘却
更新処理を行うことを特徴とする請求項2または請求項
3記載の音声区間判定装置。
7. A forgetting cycle adapting means for adapting a forgetting cycle to an analysis parameter calculated by the input wave analyzing means, wherein the judgment threshold updating means is adapted to the forgetting cycle adapted by the forgetting cycle adapting means. 4. The voice segment determination device according to claim 2, wherein the forgetting update process of the determination threshold is performed according to a cycle.
【請求項8】 判定閾値更新手段は、 音声区間判定処理が開始される初期フレームでは忘却周
期を忘却周期最大値未満とし、上記音声区間判定処理の
進行とともに上記忘却周期を上記忘却周期最大値へ増加
させることを特徴とする請求項2または請求項3記載の
音声区間判定装置。
8. The determination threshold updating means sets the forgetting cycle to be less than the maximum value of the forgetting cycle in the initial frame in which the voice section determining processing is started, and sets the forgetting cycle to the maximum value of the forgetting cycle with the progress of the voice section determining processing. The voice section determination device according to claim 2 or 3, wherein the number is increased.
【請求項9】 判定閾値更新手段は、 入力波に依存しない重み付け係数を用いて判定閾値を算
出するとともに、入力波分析手段によって算出された分
析パラメータに応じて上記重み付け係数を変更処理する
ことを特徴とする請求項2または請求項3記載の音声区
間判定装置。
9. The determination threshold updating means calculates a determination threshold using a weighting coefficient independent of an input wave, and changes the weighting coefficient according to the analysis parameter calculated by the input wave analysis means. The voice section determination device according to claim 2 or 3, wherein:
【請求項10】 断続的に発せられる音声信号と上記音
声信号の周囲環境に生じた環境雑音とが混在した入力波
を時間的な区間毎にそれぞれ分割し、上記入力波に適応
化する判定閾値を用いて上記区間毎の音声区間判定処理
が行われる音声区間判定方法において、 上記音声区間判定処理の処理回数があらかじめ設定され
た忘却周期に到達すると、上記入力波に依存しない独立
パラメータを用いて上記判定閾値の忘却更新処理が行わ
れることを特徴とする音声区間判定方法。
10. A decision threshold value for dividing an input wave in which an intermittently emitted audio signal and an environmental noise generated in the surrounding environment of the audio signal are respectively divided into time sections and adapting the input wave to the input wave. In the voice section determination method in which the voice section determination processing for each section is performed using the above, when the number of times of the voice section determination processing reaches a preset forgetting cycle, an independent parameter independent of the input wave is used. A voice section determination method, wherein a forgetting update process of the determination threshold is performed.
【請求項11】 断続的に発せられる音声信号と上記音
声信号の周囲環境に生じた環境雑音とが混在した入力波
を時間的な区間毎にそれぞれ分割し、上記入力波に適応
化する判定閾値を用いて上記区間毎の音声区間判定処理
が行われる音声区間判定方法において、 上記区間毎に分割された上記入力波に依存する分析パラ
メータが算出され、上記判定閾値と上記分析パラメータ
との比較によって入力波分析が行われる第1のステップ
と、 上記入力波分析の結果に基づいて、上記音声区間判定処
理が行われる第2のステップと、 上記分析パラメータの適応更新処理が行われ、適応更新
処理された上記分析パラメータによって算出された上記
判定閾値が上記第1のステップへ出力されるとともに、
上記音声区間判定処理の処理回数があらかじめ設定され
た忘却周期に到達すると、上記入力波に依存しない独立
パラメータを用いて上記分析パラメータの忘却更新処理
が行われ、忘却更新処理された上記分析パラメータによ
って算出された上記判定閾値が上記第1のステップへ出
力される第3のステップとを備えることを特徴とする音
声区間判定方法。
11. A decision threshold value for dividing an input wave in which an intermittently emitted audio signal and an environmental noise generated in the surrounding environment of the audio signal are respectively divided into time sections and adapting the input wave to the input wave. In the voice section determination method in which the voice section determination processing for each section is performed using, the analysis parameter dependent on the input wave divided for each section is calculated, and the determination threshold and the analysis parameter are compared. A first step in which an input wave analysis is performed; a second step in which the speech section determination processing is performed based on the result of the input wave analysis; and an adaptive update processing of the analysis parameter, the adaptive update processing The determination threshold value calculated based on the analyzed analysis parameter is output to the first step,
When the number of times of the voice section determination process reaches a preset forgetting cycle, a forgetting update process of the analysis parameter is performed using an independent parameter that does not depend on the input wave, and the forgetting update process performs the forgetting update process. A third step in which the calculated determination threshold is output to the first step.
【請求項12】 第1のステップでは、 ローパスフィルタおよびハイパスフィルタによって入力
波が処理され、区間毎に分割された上記入力波の正規自
己相関最大値、上記ローパスフィルタで処理された上記
入力波の正規自己相関正最大値、ローパスフィルタ残差
信号パワーおよび上記ハイパスフィルタで処理された上
記入力波パワーが分析パラメータとして用いられること
を特徴とする請求項11記載の音声区間判定方法。
12. In a first step, an input wave is processed by a low-pass filter and a high-pass filter, and a normal autocorrelation maximum value of the input wave divided for each section is calculated. The voice section determination method according to claim 11, wherein the normal autocorrelation positive maximum value, the low-pass filter residual signal power, and the input wave power processed by the high-pass filter are used as analysis parameters.
【請求項13】 第3のステップでは、 入力波に依存する複数の分析パラメータの差分と差分閾
値とが比較され、上記複数の分析パラメータの差分が上
記差分閾値によって定められる差分範囲を超えると、上
記複数の分析パラメータの差分を差分限界値に保つ制限
変更処理が行われる第4のステップを備えることを特徴
とする請求項11または請求項12記載の音声区間判定
方法。
In a third step, a difference between a plurality of analysis parameters dependent on an input wave and a difference threshold are compared, and when the difference between the plurality of analysis parameters exceeds a difference range defined by the difference threshold, 13. The voice segment determination method according to claim 11, further comprising a fourth step of performing a limit change process for maintaining a difference between the plurality of analysis parameters at a difference limit value.
【請求項14】 第3のステップでは、 入力波に依存する分析パラメータと限界閾値とが比較さ
れ、上記分析パラメータが上記限界閾値によって定めら
れる限界範囲を超えると、上記分析パラメータを上記限
界範囲に収める制限更新処理が行われる第4のステップ
を備えることを特徴とする請求項11または請求項12
記載の音声区間判定方法。
14. In a third step, an analysis parameter dependent on an input wave is compared with a limit threshold, and when the analysis parameter exceeds a limit range defined by the limit threshold, the analysis parameter is set to the limit range. 13. The method according to claim 11, further comprising a fourth step of performing a limit update process.
Voice section determination method described.
【請求項15】 第3のステップでは、 入力波に依存しない複数の独立パラメータが記憶され、
区間毎の音声区間判定処理された処理回数があらかじめ
設定された忘却周期に到達する毎に、上記入力波に依存
する分析パラメータに最も近い上記独立パラメータを上
記記憶された複数の独立パラメータから引き出して判定
閾値の忘却更新処理が行われることを特徴とする請求項
11または請求項12記載の音声区間判定方法。
15. In a third step, a plurality of independent parameters independent of an input wave are stored.
Each time the number of times the voice section determination processing for each section reaches the preset forgetting cycle, the independent parameter closest to the analysis parameter depending on the input wave is extracted from the stored plurality of independent parameters. 13. The voice segment determination method according to claim 11, wherein a forgetting update process of a determination threshold is performed.
【請求項16】 第1のステップにおいて算出された分
析パラメータに忘却周期が適応化される第5のステップ
とを備え、 第3のステップでは、上記第5のステップにおいて適応
化された上記忘却周期にしたがって判定閾値の忘却更新
処理が行われることを特徴とする請求項11または請求
項12記載の音声区間判定方法。
16. A fifth step in which a forgetting cycle is adapted to the analysis parameter calculated in the first step, wherein the third step includes the step of adapting the forgetting cycle adapted in the fifth step. 13. The voice segment determination method according to claim 11, wherein a forgetting update process of the determination threshold is performed according to the following.
【請求項17】 第3のステップでは、 音声区間判定処理が開始される初期フレームでは忘却周
期が忘却周期最大値未満とされ、上記音声区間判定処理
の進行とともに上記忘却周期が上記忘却周期最大値へ増
加されることを特徴とする請求項11または請求項12
記載の音声区間判定方法。
17. In a third step, the forgetting cycle is set to be smaller than the maximum forgetting cycle in the initial frame in which the voice section determining process is started, and the forgetting cycle is set to the maximum value of the forgetting cycle as the voice section determining process proceeds. 13. The method according to claim 11, wherein
Voice section determination method described.
【請求項18】 第3のステップでは、 入力波に依存しない重み付け係数を用いて判定閾値が算
出されるとともに、第1のステップにおいて算出された
分析パラメータに応じて上記重み付け係数が変更処理さ
れることを特徴とする請求項11または請求項12記載
の音声区間判定方法。
18. In a third step, a determination threshold is calculated using a weighting coefficient that does not depend on an input wave, and the weighting coefficient is changed according to the analysis parameter calculated in the first step. The voice section determination method according to claim 11 or 12, wherein:
JP2000121400A 2000-04-21 2000-04-21 Device and method for deciding voice section Pending JP2001306086A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000121400A JP2001306086A (en) 2000-04-21 2000-04-21 Device and method for deciding voice section

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000121400A JP2001306086A (en) 2000-04-21 2000-04-21 Device and method for deciding voice section

Publications (1)

Publication Number Publication Date
JP2001306086A true JP2001306086A (en) 2001-11-02

Family

ID=18632054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000121400A Pending JP2001306086A (en) 2000-04-21 2000-04-21 Device and method for deciding voice section

Country Status (1)

Country Link
JP (1) JP2001306086A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005215204A (en) * 2004-01-28 2005-08-11 Ntt Docomo Inc Device and method for judging voiced or unvoiced
JP2010078986A (en) * 2008-09-26 2010-04-08 Hitachi Ltd Equipment controller by speech recognition
US8442817B2 (en) 2003-12-25 2013-05-14 Ntt Docomo, Inc. Apparatus and method for voice activity detection

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8442817B2 (en) 2003-12-25 2013-05-14 Ntt Docomo, Inc. Apparatus and method for voice activity detection
JP2005215204A (en) * 2004-01-28 2005-08-11 Ntt Docomo Inc Device and method for judging voiced or unvoiced
JP4601970B2 (en) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ Sound / silence determination device and sound / silence determination method
JP2010078986A (en) * 2008-09-26 2010-04-08 Hitachi Ltd Equipment controller by speech recognition

Similar Documents

Publication Publication Date Title
EP1766615B1 (en) System and method for enhanced artificial bandwidth expansion
US5970441A (en) Detection of periodicity information from an audio signal
US7873114B2 (en) Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
EP1887559B1 (en) Yule walker based low-complexity voice activity detector in noise suppression systems
US7411985B2 (en) Low-complexity packet loss concealment method for voice-over-IP speech transmission
US20100088094A1 (en) Device and method for voice activity detection
JP3273599B2 (en) Speech coding rate selector and speech coding device
WO2001073761A9 (en) Relative noise ratio weighting techniques for adaptive noise cancellation
JP2000347688A (en) Noise suppressor
JP2000132177A (en) Device and method for processing voice
EP1287520A1 (en) Spectrally interdependent gain adjustment techniques
EP0871157A2 (en) A method and a device for recognising speech
CN107331386B (en) Audio signal endpoint detection method and device, processing system and computer equipment
EP1312075B1 (en) Method for noise robust classification in speech coding
KR101868767B1 (en) Decoding method and decoding device
WO2001073751A9 (en) Speech presence measurement detection techniques
US9583120B2 (en) Noise cancellation apparatus and method
JP2000132181A (en) Device and method for processing voice
Stenger et al. A new error concealment technique for audio transmission with packet loss
WO1997035301A1 (en) Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
JP2000330597A (en) Noise suppressing device
US20120265526A1 (en) Apparatus and method for voice activity detection
JP2000122688A (en) Voice processing device and method
EP1548703B1 (en) Apparatus and method for voice activity detection
JP2001306086A (en) Device and method for deciding voice section

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050526

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051220