JPH0823756B2 - Voice section detection method - Google Patents

Voice section detection method

Info

Publication number
JPH0823756B2
JPH0823756B2 JP63198162A JP19816288A JPH0823756B2 JP H0823756 B2 JPH0823756 B2 JP H0823756B2 JP 63198162 A JP63198162 A JP 63198162A JP 19816288 A JP19816288 A JP 19816288A JP H0823756 B2 JPH0823756 B2 JP H0823756B2
Authority
JP
Japan
Prior art keywords
voice
power
average noise
voice section
acoustic power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63198162A
Other languages
Japanese (ja)
Other versions
JPH0247698A (en
Inventor
敬 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP63198162A priority Critical patent/JPH0823756B2/en
Publication of JPH0247698A publication Critical patent/JPH0247698A/en
Publication of JPH0823756B2 publication Critical patent/JPH0823756B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は音声認識装置における音声区間の検出方式
に関するものである。
The present invention relates to a method of detecting a voice section in a voice recognition device.

(従来の技術) 通常の音声認識装置では、入力された音響信号より音
声が存在する区間を検出する処理(以下音声区間検出処
理と呼ぶ)と、検出された音声の内容を認識判定する
(以下認識処理と呼ぶ)処理に大別できる。
(Prior Art) In a normal voice recognition device, a process of detecting a section in which a voice exists from an input acoustic signal (hereinafter referred to as a voice section detection process) and a determination of the content of the detected voice (hereinafter It can be roughly divided into processing (called recognition processing).

通例このような動作を行うために音声認識装置では入
力された音響フレームと呼ばれている微小時間毎に音響
信号を分析してその特徴パラメータを算出している。特
徴パラメータとしては音響パワー、パワースペクトル等
が代表的なものである。
In order to perform such an operation, a speech recognition apparatus usually analyzes an acoustic signal at every minute time called an acoustic frame and calculates a characteristic parameter thereof. Representative examples of characteristic parameters are acoustic power and power spectrum.

音声区間検出は音声区間がそれ以外の区間に比べ音響
パワーが大きいという性質を利用している。
The voice section detection utilizes the property that the sound power of the voice section is larger than that of other sections.

このような従来の音声区間の検出処理方式としては例
えば文献:特開昭60−114900号公報に開示されたものが
ある。この従来方式の一構成例を第2図を参照して説明
する。
As such a conventional voice section detection processing method, for example, there is one disclosed in the document: Japanese Patent Laid-Open No. 60-114900. An example of the configuration of this conventional method will be described with reference to FIG.

外部入力部10、例えば、マイクロホン、電話機等から
入力した音響信号をA/D変換部12において標本化しディ
ジタル信号系列に変換する。次のパワー算出部14ではこ
のディジタル信号系列(以下単に入力信号とする)から
フレーム毎に音響パワーPI(Iはフレーム番号を示す)
を演算し、これを音声区間検出部16及び閾値設定部18に
それぞれ送出する。閾値設定部18において、後述するよ
うに、この音響パワーPIに基づいて平均雑音レベルを算
定して音声区間検出部16へ送り、この音声区間検出部16
において、音響パワーPIと平均雑音レベルとから音声区
間を検出して判定する。次の認識部20においては、音声
区間の音響パワー系列からなる音声パタンに対して認識
処理が行なわれ、その認識結果が外部機器22、例えば、
コンピュータとかその他所要の表示装置等へ送られる。
An acoustic signal input from an external input unit 10, such as a microphone or a telephone, is sampled by the A / D conversion unit 12 and converted into a digital signal sequence. In the next power calculation unit 14, the acoustic power P I (I indicates a frame number) for each frame from this digital signal sequence (hereinafter simply referred to as an input signal)
Is calculated and transmitted to the voice section detection unit 16 and the threshold value setting unit 18, respectively. In the threshold setting unit 18, as will be described later, an average noise level is calculated based on the sound power P I and sent to the voice section detection unit 16, and the voice section detection unit 16
In, the voice section is detected and determined from the sound power P I and the average noise level. In the next recognition unit 20, a recognition process is performed on a voice pattern composed of a sound power sequence of a voice section, and the recognition result is an external device 22, for example,
It is sent to a computer or other required display device.

このような構成の従来の音声認識装置では認識動作に
先立って前述したように音声区間検出のための平均雑音
レベルを設定する目的で、背景雑音レベルの測定を行っ
ている。これは無入力状態での音響パワーの性質を測定
し適切な音声区間検出用闘値を決定するためである。
In the conventional voice recognition apparatus having such a configuration, the background noise level is measured for the purpose of setting the average noise level for voice section detection as described above prior to the recognition operation. This is to measure the property of the sound power in the non-input state and determine an appropriate threshold for detecting the voice section.

以下、この処理につき説明する。外部入力部10より入
力された音響信号からパワー算出部14で得られた音響パ
ワーPIに基づいて、闘値設定部18では平均雑音レベル
NL、平均雑音分散NDを算出する。これら平均雑音レベル
NL及び平均雑音分散NDは、Nを測定フレーム数とすると
次の(1)及び(2)式でそれぞれ与えられている。
Hereinafter, this process will be described. Based on the acoustic power P I obtained by the power calculation unit 14 from the acoustic signal input from the external input unit 10, the average noise level is set by the threshold value setting unit 18.
Calculate N L and average noise variance N D. These average noise levels
N L and average noise variance N D are given by the following equations (1) and (2), respectively, where N is the number of measurement frames.

さらに平均雑音レベルNL及び平均雑音分散NDから下記
の(3)式に従って音声切り出しレベルVLを決定してい
る。
Further, the voice cut-out level V L is determined from the average noise level N L and the average noise variance N D according to the following equation (3).

VL=NL+N1×ND ・・・・(3) ここで、N1はあらかじめシステムで定めた計数であり
通例2〜4程度の値となる。このように算定された音声
切り出しレベルVLを以後音声区間検出部16で利用する。
V L = N L + N 1 × N D (3) Here, N 1 is a count determined in advance by the system and usually has a value of about 2 to 4. The voice cut-out level V L calculated in this way is used by the voice section detection unit 16 thereafter.

次に従来の音声区間検出動作について簡単に説明す
る。
Next, a conventional voice section detection operation will be briefly described.

先ず、通常の如く、外部入力部10より入力された音響
信号をA/D変換部12において入力信号に変換した後、パ
ワー算出部14にて音響パワーPIを算出する。この音響パ
ワーPIの一例を第3図に示す。同図において、縦軸に音
響パワーPI、横軸にフレーム番号Iをとって示してあ
る。図中、破線は音声切り出しレベルVLを表している。
IS及びIEは音声区間の音声始端及び音声終端である。ま
た、VS、VEは音声始端フレーム及び音声終端フレームで
あり、通常はフレーム周期を8ミリ秒程度としている。
First, as usual, after converting the acoustic signal input from the external input unit 10 into an input signal in the A / D conversion unit 12, the power calculation unit 14 calculates the acoustic power P I. An example of this acoustic power P I is shown in FIG. In the figure, the vertical axis represents the acoustic power P I and the horizontal axis represents the frame number I. In the figure, the broken line represents the audio cutout level V L.
I S and I E are the voice start end and voice end of the voice section. Further, V S and V E are a voice start frame and a voice end frame, and the frame period is usually set to about 8 milliseconds.

音声区間検出部16では上述した音声区間を切り出す処
理を行うもので、従来は音響パワーPIに対して次の条件
〜が成立する最初のフレームを音声区間の始端フレ
ームとしている。
The voice section detection unit 16 performs the above-described processing of cutting out the voice section, and conventionally, the first frame satisfying the following conditions ( 1) to the acoustic power P I is set as the start frame of the voice section.

始端条件 P≧VLとなるフレームがあるフレームI以降、予め経
験により定められている複数個すなわちN2個のフレーム
以上継続したとき、このフレームIを始端フレームVS
する。
After a frame I having a frame satisfying the starting condition P ≧ V L , when a plurality of frames, that is, N 2 frames which are predetermined by experience, are continued, the frame I is set as a starting frame V S.

終端条件 また、又始端フレームVSを検出後、以下の条件が最初
に成立するフレームの直前のフレームを音声区間の終端
フレームVEとする。
Termination Condition Further, after detecting the beginning frame V S , the frame immediately before the frame in which the following condition is first satisfied is set as the termination frame V E of the voice section.

P<VLとなるフレームがフレームI以降、予め経験に
より定められている複数個すなわちN3個のフレーム以上
継続したとき。
When the number of frames satisfying P <V L continues from the frame I onward for a plurality of frames, which is predetermined by experience, that is, N 3 frames or more.

除外条件 さらに音声区間長VLENが以下の条件にかかる場合には
音声区間とみなさない。
Exclusion condition If the voice section length V LEN satisfies the following conditions, it is not considered as a voice section.

VLEN<N4又はVLEN>N5 但し VLEN=VE−VS+1 でありかつN4及びN5は経験により予め定められたフレー
ム数である。
V LEN <N 4 or V LEN > N 5 where V LEN = V E −V S +1 and N 4 and N 5 are empirically predetermined number of frames.

(発明が解決しようとする課題) 上述した従来の音声切り出しレベルVLの算定は、背景
雑音の音響パワーの分布が正規分布に近いことを仮定し
ている。実際静かな環境下ではこのような近似がよく当
てはまる。しかし騒音レベルが高いような環境か、もし
くは電話等の回線を経由してきたような入力条件では、
クリック音等の継続時間は短いがピークの音響パワーが
極めて高い雑音が存在するため、この近似から外れる場
合が多く、これがため、第4図に示される様に音響パワ
ーレベルのかなり高いところの分布が増加する。
(Problems to be Solved by the Invention) In the above-described conventional calculation of the voice cut-out level VL , it is assumed that the distribution of the acoustic power of the background noise is close to the normal distribution. In fact, such an approximation is often true in a quiet environment. However, in an environment where the noise level is high, or in the input conditions where the line such as a telephone is used,
Since there are noises such as click sounds that have a short duration but extremely high peak sound power, they often deviate from this approximation, and as a result, as shown in Fig. 4, the distribution of sound power levels at a fairly high level. Will increase.

従ってこのような雑音がちょうど背景雑音レベルの測
定時に発生すると、平均雑音レベルNL、平均雑音分散ND
が共に高く算定されてしまい、これは音声区間検出誤り
の原因となる。このような減少を軽減する一手法として
平均雑音レベルの測定時間Nを長くする手法があるが、
この手法では認識開始に至るまでの準備時間が長くなり
音声認識装置自体の応答性が低下してしまうため、充分
な測定時間Nを採用出来なかった。
Therefore, if such noise occurs just when measuring the background noise level, the average noise level N L and the average noise variance N D
Both are calculated to be high, which causes a voice section detection error. As a method of reducing such a decrease, there is a method of lengthening the measurement time N of the average noise level.
With this method, the preparation time until the start of recognition becomes long and the responsiveness of the voice recognition device itself deteriorates, so a sufficient measurement time N could not be adopted.

この発明の目的は、上述したクリック音等の雑音環境
下においても音声区間検出誤りを著しく減少させること
が出来るような音声切り出しレベルVLを設定出来る音声
区間検出方式を提供することにある。
An object of the present invention is to provide a voice section detection method capable of setting a voice cutout level VL capable of significantly reducing a voice section detection error even in a noise environment such as the above-mentioned click sound.

(課題を解決するための手段) この目的の達成を図るため、この発明の音声区間検出
方式によれば、閾値算出部において、音響パワーPIのう
ち最も大なる値を持つものから順に、第一の所定の個数
Nmaxの音響パワーと、最も小なる値をもつものから順に
第二の所定の個数Nminの音響パワーとを除いた残りの全
ての音響パワーPIに対して平均雑音レベルNL′、平均雑
音分散ND′を算出した後、当該平均雑音レベルNL′及び
平均雑音分散ND′より音声切り出しレベルVLを算定する
ことを特徴とする。
(Means for Solving the Problem) In order to achieve this object, according to the voice section detection method of the present invention, in the threshold value calculation unit, the sound power P I having the largest value is sequentially arranged from the one having the largest value. One predetermined number
Average noise level N L ′, average for all remaining sound power P I except N max sound power and second predetermined number N min of sound powers in order from the smallest value After the noise variance N D ′ is calculated, the speech cutout level V L is calculated from the average noise level N L ′ and the average noise variance N D ′.

(作用) このように構成すれば、音声無入力時の音響パワー分
布のうちクリック音等の雑音に起因する高音響パワー側
と、その他の雑音に起因する低音響パワー側を除いた、
本来の音響パワーが集中する中間の分布領域中の音響パ
ワーを用いて音声切り出しレベルVLを定める方式である
ので、ピークパワーの高い雑音成分にほとんど影響され
ずに適切な音声切り出しレベルVLを著しく簡単に決定出
来る。その結果、音声区間検出の誤りが減少する。従っ
て、総合的な認識性能に優れた音声認識装置を提供する
ことになる。
(Operation) With this configuration, the high acoustic power side caused by noise such as a click sound and the low acoustic power side caused by other noise are excluded from the acoustic power distribution when no voice is input,
This is a method to determine the voice cutout level VL using the sound power in the middle distribution area where the original sound power is concentrated, so an appropriate voice cutout level VL is hardly affected by the noise component with high peak power. It's extremely easy to determine. As a result, erroneous voice segment detection is reduced. Therefore, it is possible to provide a voice recognition device having excellent overall recognition performance.

(実施例) 以下、図面を参照してこの発明の音声区間検出方式の
実施例を説明する。
(Embodiment) An embodiment of the voice section detection method of the present invention will be described below with reference to the drawings.

第1図はこの発明の音声区間検出方式の実施例の説明
に供するブロック図、第5図は閾値設定部での処理の流
れ図である。
FIG. 1 is a block diagram for explaining an embodiment of a voice section detection system of the present invention, and FIG. 5 is a flow chart of processing in a threshold value setting unit.

第1図において、第2図に示した構成成分と同一の構
成成分については同一の符号を付して示し、その詳細な
説明を省略する。
In FIG. 1, the same components as those shown in FIG. 2 are designated by the same reference numerals, and detailed description thereof will be omitted.

又、第1図において、24は第2図に示す従来の閾値設
定部18に対応する閾値設定部であるが、この従来の閾値
設定部18とはその機能従って内部構成が異なる。
Further, in FIG. 1, reference numeral 24 is a threshold value setting unit corresponding to the conventional threshold value setting unit 18 shown in FIG. 2, but the internal structure is different from the conventional threshold value setting unit 18 because of its function.

先ず、この実施例における閾値設定部24につき第5図
を併用しながら説明する。
First, the threshold value setting unit 24 in this embodiment will be described with reference to FIG.

この実施例では、先ず、音声無入力状態で各フレーム
I(I=1、・・・、N)毎の音響パワーP(I)をパ
ワー算出部14で算出し、これを閾値設定部24及び音声区
間検出部16に送る。
In this embodiment, first, the sound calculation unit 14 calculates the acoustic power P (I) for each frame I (I = 1, ..., N) in the state of no audio input, and the calculated sound power P (I) is calculated by the threshold setting unit 24 and It is sent to the voice section detection unit 16.

閾値設定部24においては、マイクロプロセッサ30の制
御の下で、これら音響パワーP(I)をパワー算出部14
からシステムバス36を経てメモリ32の各メモリ領域RMEM
(1)、RMEM(2)、RM・・・PMEM(N)に一時記憶す
る。この場合、I=1(1番目)のフレームから処理を
開始する(ステップS1)。次にI>Nであるかを判定し
(ステップS2)、I≦Nである場合には1番目のフレー
ムの音響パワーP1をメモリ領域RMEM(1)に一時記憶す
る(ステップS3)。次にフレーム番号Iを次のI=2へ
進め(ステップS4)、上述したステップS2へ戻し、ステ
ップS2及びS3の処理を行って2番目(I=2)のフレー
ムの音響パワーP2をメモリ領域RMEM(2)へ一時記憶す
る。このように、順次に、I=Nまで各音響パワーPI
それぞれ対応するメモリ領域RMEM(N)へ一時記憶す
る。
Under the control of the microprocessor 30, the threshold setting unit 24 calculates the acoustic power P (I) as the power calculation unit 14
Through the system bus 36 to each memory area RMEM of the memory 32
(1), RMEM (2), RM ... PMEM (N) temporarily stores. In this case, the process is started from the frame of I = 1 (first) (step S1). Next, it is determined whether I> N (step S2). If I ≦ N, the acoustic power P 1 of the first frame is temporarily stored in the memory area RMEM (1) (step S3). Next, the frame number I is advanced to the next I = 2 (step S4), the process returns to step S2 described above, and the processes of steps S2 and S3 are performed to store the acoustic power P 2 of the second (I = 2) frame. Temporarily store in area RMEM (2). In this way, the acoustic powers P I are sequentially temporarily stored in the corresponding memory areas RMEM (N) until I = N.

ステップS2において、I>Nと判定されると、マイク
ロプロセッサの制御の下で、メモリ32の各メモリ領域RM
EM(1)〜RMEM(N)に記憶されている音響パワーP1
PNを昇順にソーティングを行って、その結果をシステム
バス36を経てワークメモリ34へ送り、このワークメモリ
34のメモリ領域SMEM(1)、SMEM(2)、...SMEM
(N)へ大きさの順に再格納させる(ステップS5)。従
って、例えば、メモリ領域SMEM(1)には音響パワーPI
のうち一番ピーク値の小さいものが記憶され、逆にメモ
リ領域SMEM(N)には一番ピーク値の大きいものが記憶
される。すなわち、この実施例では、メモリ領域SMEM
(J)(J=1、・・・、N)に格納される音響パワー
PIの大きさは次の関係が成立する。
If I> N is determined in step S2, each memory area RM of the memory 32 is controlled under the control of the microprocessor.
Sound power P 1 stored in EM (1) to RMEM (N)
P N is sorted in ascending order and the result is sent to the work memory 34 via the system bus 36.
34 memory areas SMEM (1), SMEM (2), ... SMEM
It is stored again in the order of size in (N) (step S5). Therefore, for example, in the memory area SMEM (1), the acoustic power P I
The one having the smallest peak value is stored, and conversely, the one having the largest peak value is stored in the memory area SMEM (N). That is, in this embodiment, the memory area SMEM
(J) Sound power stored in (J = 1, ..., N)
The following relationship holds for the magnitude of P I.

SMEM(1)≦SMEM(2)≦・・・SMEM(N) ・・・・
(4) 次にマイクロプロセッサ30において、次の式で示され
る平均雑音レベルNL′を算出する。
SMEM (1) ≦ SMEM (2) ≦ ・ ・ ・ SMEM (N) ・ ・ ・ ・
(4) Next, the microprocessor 30 calculates the average noise level N L ′ represented by the following equation.

この目的のため、マイクロプロセッサ30のメモリ(図
示せず)に、経験によって予め定められた、最大音響パ
ワーから順に小さい方へ数えてこの平均雑音レベルの計
算に用いない音響レベルの個数Nmaxと、同様に経験によ
って予め定められた、最小音響パワーから順に大きい方
へ数えて、この平均雑音レベルの計算に用いない音響レ
ベルの個数Nminとを格納しておき、これら格納されたN
max及びNminをマイクロプロセッサ30自身で読み出しか
つ、これら個数に対応する音響パワーPIを除いた残りの
全ての音響パワーPIをワークメモリ34からマイクロプロ
セッサ30へ読み出す(ステップS6)。
For this purpose, in a memory (not shown) of the microprocessor 30, the number N max of sound levels, which is predetermined by experience, is counted from the maximum sound power to the smaller one in order, and is not used in the calculation of this average noise level. Similarly, the number of sound levels N min that is not used in the calculation of this average noise level is stored in advance, counting from the smallest sound power to a larger one, which is also predetermined by experience.
reads max and N min microprocessor 30 itself and reads all the rest except the sound power P I corresponding to these numbers of sound power P I from the work memory 34 to the microprocessor 30 (step S6).

次に、マイクロプロセッサ30において、次式(5)に
従った平均雑音レベルNL′の算出処理を行ない、その結
果をマイクロプロセッサ30のメモリに一時記憶しておく
(ステップS7)。
Next, in the microprocessor 30, the average noise level N L ′ is calculated according to the following equation (5), and the result is temporarily stored in the memory of the microprocessor 30 (step S7).

次に、マイクロプロセッサ30において、メモリからN
max及びNminと平均雑音レベルNL′とを読み出して次式
(6)で与えられる平均雑音分散ND′を算出し、その結
果ND′を当該メモリに一時記憶させる(ステップS8)。
Next, in the microprocessor 30, the N
Max and N min and the average noise level N L ′ are read to calculate the average noise variance N D ′ given by the following equation (6), and the result N D ′ is temporarily stored in the memory (step S8).

次に、これら平均雑音レベルNL′、平均雑音分散ND
及び予め経験によって定められてマイクロプロセッサ30
中のメモリに格納されている係数N1をそれぞれ読み出し
て次式(7)に従って音声切り出しレベルVL′を求める
(ステップS9)。
Next, these average noise level N L ′ and average noise variance N D
And a microprocessor 30 that is predetermined by experience
The coefficient N 1 stored in the internal memory is read out to obtain the voice cut-out level V L ′ according to the following equation (7) (step S9).

VL′=NL′+N1×ND ・・・・(7) 閾値設定部24において上述したステップS1〜S9の処理
が完了すると、その結果である音声切り出しレベルVL
がマイクロプロセッサ30の制御によってシステムバス36
を経て音声区間検出部16へ送られる。尚、測定時間Nは
通例0.16〜0.32秒程度が好適であり、フレーム周期が8
ミリ秒の場合、N=20〜40となる。Nmax、Nminはピーク
性雑音の発生確率、継続時間の性質によって適切な値に
設定する必要がある。通例Nmaxは測定フレーム数のNの
1/10〜1/50程度、NminはNの1/10〜1/50ないし0の値と
するのが好適である。
V L ′ = N L ′ + N 1 × N D (7) When the processes of steps S1 to S9 described above are completed in the threshold setting unit 24, the resulting voice cut-out level V L
System bus 36 under the control of microprocessor 30
And is sent to the voice section detection unit 16 via. In addition, the measurement time N is generally preferably 0.16 to 0.32 seconds, and the frame period is 8
In the case of milliseconds, N = 20-40. N max and N min must be set to appropriate values depending on the occurrence probability of peak noise and the nature of the duration. Usually N max is the number of measured frames N
It is preferable that the value of N min is about 1/10 to 1/50 and N min is 1/10 to 1/50 to 0.

音声区間検出処理、認識処理については従来例の通り
であるのでその説明を省略する。
Since the voice section detection process and the recognition process are the same as those in the conventional example, the description thereof is omitted.

上述した実施例はこの発明の好適例であるにすぎず、
この発明は上述した実施例にのみ限定されるものではな
いこと明らかである。
The above-described embodiments are merely preferred examples of the present invention,
Obviously, the invention is not limited to the embodiments described above.

(発明の効果) 上述した説明からも明らかなようにこの発明の音声区
間検出方式によれば、背景雑音レベル測定に際してサン
プルされた音響パワーPIのうち最も大なる値を持つもの
からNmax個の音響パワーと、最も小なる値を持つものか
ら順にNmin個の音響パワーを除いた残りの全ての音響パ
ワーPIの平均雑音レベル値NL′、平均雑音分散ND′を求
めることにより、ピークパワーの高い雑音成分が多い環
境下でもその影響を受けることなく、適切な音声切り出
しレベルを設定出来るように構成したものであるから、
高雑音下でも音声区間検出誤りが非常に少なくなり、こ
れがため総合的な認識性能に優れた認識装置を実現する
ことが出来る。
(Effects of the Invention) As is apparent from the above description, according to the voice section detection method of the present invention, N max pieces are selected from the one having the largest value of the acoustic power P I sampled in the background noise level measurement. By calculating the average noise level value N L ′ and the average noise variance N D ′ of all remaining sound power P I except N min sound powers in order from the one with the smallest value. Since it is configured so that an appropriate audio cutout level can be set without being affected by it even in an environment with a high peak power noise component,
Even under high noise, the voice section detection error is very small, which makes it possible to realize a recognition apparatus having excellent overall recognition performance.

【図面の簡単な説明】[Brief description of drawings]

第1図はこの発明の音声区間検出方式の説明に供するブ
ロック図、 第2図は従来の音声区間検出方式の説明に供するブロッ
ク図、 第3図はこの発明及び従来の説明に供する音声パワーの
一例を示す図、 第4図は音響パワー分布を示す図、 第5図は音声切り出しレベルの算出処理の動作の流れ図
である。 10…外部入力部、12…A/D変換部 14…パワー算出部、16…音声区間検出部 20…認識部、22…外部機器 24…閾値設定部、30…マイクロプロセッサ 32…メモリ、34…ワークメモリ 36…システムバス。
FIG. 1 is a block diagram used for explaining a voice section detection method of the present invention, FIG. 2 is a block diagram used for explaining a conventional voice section detection method, and FIG. 3 is a voice power used for explaining the present invention and the conventional art. FIG. 4 is a diagram showing an example, FIG. 4 is a diagram showing an acoustic power distribution, and FIG. 5 is a flow chart of the operation of the calculation process of the audio cutout level. 10 ... External input section, 12 ... A / D conversion section 14 ... Power calculation section, 16 ... Voice section detection section 20 ... Recognition section, 22 ... External device 24 ... Threshold setting section, 30 ... Microprocessor 32 ... Memory, 34 ... Work memory 36 ... System bus.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】外部入力部からの入力音響信号からパワー
算出部においてフレームと呼ばれる微小時間毎に音響パ
ワーPIを算出し、閾値設定部において該音響パワーPI
基づいて平均雑音レベルを算定し、前記音響パワーPI
平均雑音レベルとから音声区間を検出し、認識部におい
て当該音声区間で定まる音声パタンに対して認識処理を
行ってその結果を外部機器へ出力するように構成した音
声認識装置において、前記音声区間を検出するに当り、 前記パワー算出部においては音声無入力状態での音響パ
ワーPIを定められた時間分測定し、 前記閾値算出部においては、当該音響パワーPIのうち最
も大なる値を持つものから順に第一の所定の個数Nmax
音響パワーと、最も小なる値を持つものから順に第二の
所定の個数Nminの音響パワーとを除いた残りの全ての音
響パワーPIに対して平均雑音レベルNL′、平均雑音分散
ND′を算出した後、当該平均雑音レベルNL′及び平均雑
音分散ND′より音声切り出しレベルVLを算定する ことを特徴とする音声区間検出方式。
1. A power calculation unit calculates an acoustic power P I for each minute time called a frame from an input acoustic signal from an external input unit, and a threshold setting unit calculates an average noise level based on the acoustic power P I. Then, a voice section is detected from the acoustic power P I and the average noise level, the recognition section performs a recognition process on the voice pattern defined by the voice section, and outputs the result to an external device. In the recognition device, in detecting the voice section, the power calculation unit measures the acoustic power P I in a voice non-input state for a predetermined time, and in the threshold value calculation unit, the acoustic power P I is measured. except the acoustic power of the first predetermined number N max in order from one with the largest becomes the value, the acoustic power of the second predetermined number N min in order from the one with the smallest becomes the value of the The average noise level for all of the remaining sound power P I N L ', the average noise variance
'After calculating the, the average noise level N L' N D and average noise variance N D 'VAD method, characterized in that to calculate the voice clipping level V L from.
JP63198162A 1988-08-09 1988-08-09 Voice section detection method Expired - Lifetime JPH0823756B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63198162A JPH0823756B2 (en) 1988-08-09 1988-08-09 Voice section detection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63198162A JPH0823756B2 (en) 1988-08-09 1988-08-09 Voice section detection method

Publications (2)

Publication Number Publication Date
JPH0247698A JPH0247698A (en) 1990-02-16
JPH0823756B2 true JPH0823756B2 (en) 1996-03-06

Family

ID=16386496

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63198162A Expired - Lifetime JPH0823756B2 (en) 1988-08-09 1988-08-09 Voice section detection method

Country Status (1)

Country Link
JP (1) JPH0823756B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031632A (en) * 2003-06-19 2005-02-03 Advanced Telecommunication Research Institute International Utterance section detecting device, voice energy normalizing device, computer program, and computer

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2754960B2 (en) * 1991-07-26 1998-05-20 日本電気株式会社 Voice recognition device
JP4798601B2 (en) * 2004-12-28 2011-10-19 株式会社国際電気通信基礎技術研究所 Voice segment detection device and voice segment detection program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031632A (en) * 2003-06-19 2005-02-03 Advanced Telecommunication Research Institute International Utterance section detecting device, voice energy normalizing device, computer program, and computer
JP4521673B2 (en) * 2003-06-19 2010-08-11 株式会社国際電気通信基礎技術研究所 Utterance section detection device, computer program, and computer

Also Published As

Publication number Publication date
JPH0247698A (en) 1990-02-16

Similar Documents

Publication Publication Date Title
EP0979504B1 (en) System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US6236970B1 (en) Adaptive speech rate conversion without extension of input data duration, using speech interval detection
KR900700993A (en) Voice activity detection method and device
US6360199B1 (en) Speech coding rate selector and speech coding apparatus
JP2002237785A (en) Method for detecting sid frame by compensation of human audibility
US6385548B2 (en) Apparatus and method for detecting and characterizing signals in a communication system
JP3992545B2 (en) A method for detecting speech activity of a signal and a speech signal coder including an apparatus for performing the method
JP3194135B2 (en) Digital audio processor
JP2000250568A (en) Voice section detecting device
JPH0823756B2 (en) Voice section detection method
EP1229517B1 (en) Method for recognizing speech with noise-dependent variance normalization
JP2002198918A (en) Adaptive noise level adaptor
WO1988007738A1 (en) An adaptive multivariate estimating apparatus
JP3594356B2 (en) Audio processing device
JPH10171487A (en) Voice section discrimination device
JP2772598B2 (en) Audio coding device
JP3026855B2 (en) Voice recognition device
JP3607775B2 (en) Voice state discrimination device
WO1988007739A1 (en) An adaptive threshold voiced detector
JPH07225592A (en) Device for detecting sound section
WO1988007740A1 (en) Distance measurement control of a multiple detector system
JPH0844385A (en) Noise section detecting device
JPS61273596A (en) Voice section detection system
JPH0415585A (en) Underwater acoustic signal detecting system
JPH06130991A (en) Collision block detecting method