JP2003223175A - Sound block detector - Google Patents

Sound block detector

Info

Publication number
JP2003223175A
JP2003223175A JP2002024351A JP2002024351A JP2003223175A JP 2003223175 A JP2003223175 A JP 2003223175A JP 2002024351 A JP2002024351 A JP 2002024351A JP 2002024351 A JP2002024351 A JP 2002024351A JP 2003223175 A JP2003223175 A JP 2003223175A
Authority
JP
Japan
Prior art keywords
signal
extraction signal
voice
voice section
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002024351A
Other languages
Japanese (ja)
Other versions
JP2003223175A5 (en
Inventor
Hideki Kitao
英樹 北尾
Osamu Iwata
收 岩田
Masataka Nakamura
正孝 中村
Kazuya Terao
和也 寺尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Tsuru Gakuen
Original Assignee
Denso Ten Ltd
Tsuru Gakuen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd, Tsuru Gakuen filed Critical Denso Ten Ltd
Priority to JP2002024351A priority Critical patent/JP2003223175A/en
Publication of JP2003223175A publication Critical patent/JP2003223175A/en
Publication of JP2003223175A5 publication Critical patent/JP2003223175A5/ja
Pending legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To provide a sound block detector by which a sound block can be surely detected even in the sound signal of a low S/N. <P>SOLUTION: The sound signal collected by a microphone 11 and amplified by a line amplifier 12 is converted to a digital value by an A/D 101 and stored in a storage part 102. After a noise is removed, the digitized sound signal improves the S/N by taking a self-correlation in a short time and when the period of the S/N greater than a threshold is continued for a prescribed period, the sound block is decided. Further, in order to surely detect the head and end of the sound block, the preceding part and the following part of the sound block are forcibly opened for a predetermined period. Besides, in order to prevent the threshold from becoming too great by storing noises, the prescribed multiple of a moving average value for the predetermined period of a non-sound block is successively updated as a threshold. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は音声区間検出装置に
係り、特に信号対雑音比の低い音声信号であっても音声
区間を確実に検出することの可能な音声区間検出装置に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice section detecting device, and more particularly to a voice section detecting device capable of surely detecting a voice section even for a voice signal having a low signal-to-noise ratio.

【0002】[0002]

【従来の技術】音声認識にあっては、マイクロフォンを
介して取り込んだ雑音を含む音声信号の中から音声認識
の対象となる音声区間を正確に抽出することが必要とな
る。
2. Description of the Related Art In voice recognition, it is necessary to accurately extract a voice section to be voice-recognized from a voice signal containing noise captured through a microphone.

【0003】従来は、音声レベルが所定の閾値以上であ
る状態が所定時間以上継続したときに音声区間であると
判定する音声区間検出方法が一般的に適用されていた
が、不特定話者の音声信号から多種類の単語を認識しよ
うとする場合には十分な精度を確保することは困難であ
った。
Conventionally, a voice section detection method for determining a voice section when a state in which the voice level is equal to or higher than a predetermined threshold value continues for a predetermined time or longer is generally applied. It is difficult to secure sufficient accuracy when trying to recognize many kinds of words from a voice signal.

【0004】上記課題を解決するために、本出願人は既
に音声ピッチ信号に基づいて音声区間を検出する音声区
間検出装置を既に提案している。
In order to solve the above problems, the present applicant has already proposed a voice section detecting device for detecting a voice section based on a voice pitch signal.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、音声ピ
ッチに基づく音声区間検出装置は、促音を含む単語、又
はサ行若しくはハ行音が連続する単語に対しても音声区
間を確実に検出することが可能となるものの、話者の音
声レベルが低い場合、例えば話者が女性である場合、音
声区間の先頭若しくは末尾には、十分な信号対雑音比が
確保できないために音声ピッチを抽出することができ
ず、音声区間を検出することが困難である。
However, the voice pitch-based voice section detection device can reliably detect the voice section even for a word including a consonant, or for a word in which the Sa or Ha sound is continuous. Although it is possible, when the voice level of the speaker is low, for example, when the speaker is a female, the voice pitch can be extracted at the beginning or end of the voice section because a sufficient signal-to-noise ratio cannot be secured. This is impossible and it is difficult to detect the voice section.

【0006】本出願は上記課題に鑑みなされたものであ
って、信号対雑音比の低い音声信号であっても確実に音
声区間を検出することが可能な音声区間検出装置を提供
することを目的とする。
The present application has been made in view of the above problems, and an object of the present invention is to provide a voice section detection device capable of surely detecting a voice section even for a voice signal having a low signal-to-noise ratio. And

【0007】[0007]

【課題を解決するための手段】第一の発明に係る音声区
間検出装置は、音声信号中に含まれる雑音を除去する前
処理手段と、前処理手段により雑音が除去された音声信
号の信号対雑音比を改善する信号対雑音比改善手段と、
信号対雑音比改善手段で信号対雑音比が改善された音声
信号に基づいて音声区間抽出信号を生成する音声区間抽
出信号生成手段を具備する。
According to a first aspect of the present invention, there is provided a voice section detecting device comprising a pre-processing means for removing noise contained in a voice signal, and a signal pair of the voice signal from which noise has been removed by the pre-processing means. Signal-to-noise ratio improving means for improving the noise ratio,
A voice section extraction signal generating means for generating a voice section extraction signal based on the voice signal whose signal to noise ratio has been improved by the signal to noise ratio improving means is provided.

【0008】本発明にあっては、雑音を除去した後に、
信号対雑音比を改善し、信号対雑音比が改善された音声
信号に基づいて音声区間抽出信号が生成される。
In the present invention, after removing the noise,
The signal-to-noise ratio is improved, and the voice segment extraction signal is generated based on the voice signal with the improved signal-to-noise ratio.

【0009】第二の発明に係る音声区間検出装置は、信
号対雑音比改善手段が、前処理手段により雑音が除去さ
れた音声信号の短時間自己相関値を算出する短時間自己
相関値算出手段である。
In the voice section detecting apparatus according to the second aspect of the present invention, the signal-to-noise ratio improving means calculates the short-time autocorrelation value calculating means for calculating the short-time autocorrelation value of the voice signal from which noise has been removed by the preprocessing means. Is.

【0010】本発明にあっては、音声信号の信号対雑音
比を改善するために音声信号の短時間自己相関値が算出
される。
In the present invention, the short-time autocorrelation value of the voice signal is calculated in order to improve the signal-to-noise ratio of the voice signal.

【0011】第三の発明に係る音声区間検出装置は、短
時間自己相関値算出手段で算出された短時間自己相関値
が予め定められた閾値以上である状態が予め定められた
時間継続したときに音声区間抽出信号を開とするもので
ある。
According to a third aspect of the present invention, a voice section detecting device is provided when a state where the short time autocorrelation value calculated by the short time autocorrelation value calculating means is equal to or more than a predetermined threshold value continues for a predetermined time. The speech segment extraction signal is opened.

【0012】本発明にあっては、短時間自己相関値が予
め定められた閾値以上である状態が予め定められた時間
継続したときに音声区間抽出信号が開とされる。
According to the present invention, the voice segment extraction signal is opened when the state in which the short-time autocorrelation value is equal to or greater than the predetermined threshold value continues for the predetermined time period.

【0013】第四の発明に係る音声区間検出装置は、音
声区間抽出信号生成手段が、音声区間抽出信号が閉であ
るときの音声信号の平均レベルと予め定められた倍率の
乗算値を閾値に設定する閾値設定手段を含む。
In the voice section detection device according to the fourth aspect of the present invention, the voice section extraction signal generating means uses a threshold value which is a multiplication value of the average level of the voice signal when the voice section extraction signal is closed and a predetermined scaling factor. Includes threshold setting means for setting.

【0014】本発明にあっては、閾値が音声信号に含ま
れる雑音レベルの平均値の所定倍として逐次更新され
る。
In the present invention, the threshold value is sequentially updated as a predetermined multiple of the average value of the noise level included in the voice signal.

【0015】第五の発明に係る音声区間検出装置は、音
声区間抽出信号生成手段が、短時間自己相関値算出手段
で算出された短時間自己相関値のレベルが予め定められ
た閾値以上である状態が予め定められた時間継続したと
きに抽出信号を開とする抽出信号開手段と、抽出信号開
手段で抽出信号が開とされたときは抽出信号を予め定め
られた期間遡及的に開としたものを音声区間抽出信号と
して出力する抽出信号遡及開手段を具備する。
In the voice section detecting device according to the fifth aspect of the present invention, the level of the short time autocorrelation value calculated by the short time autocorrelation value calculating means by the voice section extraction signal generating means is equal to or higher than a predetermined threshold value. Extraction signal opening means for opening the extraction signal when the state continues for a predetermined time, and when the extraction signal is opened by the extraction signal opening means, the extraction signal is opened retrospectively for a predetermined period. The extraction signal retroactive opening means for outputting the extracted signal as a voice section extraction signal is provided.

【0016】本発明にあっては、抽出信号は短時間自己
相関値予め定められた閾値以上である状態が予め定めら
れた時間継続したときに開とされ、抽出信号を所定期間
遡及的に開としたものが音声区間抽出信号として出力さ
れる。
According to the present invention, the extracted signal is opened when the state in which the short-time autocorrelation value is equal to or greater than the predetermined threshold value continues for a predetermined time, and the extracted signal is opened retrospectively for a predetermined period. Is output as a voice segment extraction signal.

【0017】第六の発明に係る音声区間検出装置は、音
声区間抽出信号生成手段が、短時間自己相関値算出手段
で算出された短時間相関値が予め定められた閾値以上で
ある状態が予め定められた時間継続したときに抽出信号
を開とする抽出信号開手段と、抽出信号開手段で抽出信
号が開とされたときは抽出信号が閉となった後も抽出信
号を予め定められた期間開に維持したものを音声区間抽
出信号として出力する抽出信号開維持手段を具備する。
In the voice section detection device according to the sixth aspect of the present invention, the voice section extraction signal generating means preliminarily sets a state in which the short time correlation value calculated by the short time autocorrelation value calculating means is equal to or more than a predetermined threshold value. Extraction signal opening means for opening the extraction signal when the extraction signal is opened for a predetermined time, and extraction signal is predetermined even after the extraction signal is closed when the extraction signal is opened by the extraction signal opening means An extraction signal open maintaining unit is provided for outputting a signal maintained for a period of time as a voice section extraction signal.

【0018】本発明にあっては、抽出信号は短時間自己
相関値のレベルが予め定められた閾値以上である状態が
予め定められた時間継続したときに開となり、抽出信号
が閉となった後所定期間は開状態に維持されたものが音
声区間抽出信号として出力される。
In the present invention, the extraction signal is opened and the extraction signal is closed when the state in which the level of the short-time autocorrelation value is equal to or higher than a predetermined threshold value continues for a predetermined time. The signal maintained in the open state for the subsequent predetermined period is output as the voice section extraction signal.

【0019】[0019]

【発明の実施の形態】図1は本発明に係る音声区間検出
装置の機能構成図であって、音声区間検出装置10は、
マイクロフォン11で電気信号に変換されライン増幅器
12で増幅された音声信号を取り込む。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 is a functional block diagram of a voice section detecting device according to the present invention.
An audio signal converted into an electric signal by the microphone 11 and amplified by the line amplifier 12 is taken in.

【0020】音声区間検出装置10はアナログ/ディジ
タル変換部(A/D)101、記憶部102、音声信号
処理部103、音声区間抽出信号生成部104、音声区
間抽出部105から構成される。
The voice section detection device 10 comprises an analog / digital conversion section (A / D) 101, a storage section 102, a voice signal processing section 103, a voice section extraction signal generation section 104, and a voice section extraction section 105.

【0021】即ち、音声信号はA/D101において予
め定められたサンプリング時間T秒ごとにサンプリング
されて記憶部102に記憶される。
That is, the audio signal is sampled in the A / D 101 every predetermined sampling time T seconds and stored in the storage unit 102.

【0022】音声区間抽出信号生成部104は音声処理
部103の出力に基づいて音声区間抽出信号を生成し、
音声区間抽出部105ではこの音声区間抽出信号に基づ
いて記憶部102に記憶されたディジタル化音声信号の
中から音声区間を抽出する。
The voice section extraction signal generation unit 104 generates a voice section extraction signal based on the output of the voice processing unit 103,
The voice section extraction unit 105 extracts a voice section from the digitized voice signal stored in the storage unit 102 based on the voice section extraction signal.

【0023】なお、本実施例においては、A/D10
1、記憶部102、音声信号処理部103、音声区間抽
出信号生成部104、音声区間抽出部105はパーソナ
ルコンピュータ(PC)を使用して構成され、音声信号
処理部103、ゲート信号生成部104、音声区間出部
105はソフトウエア的に構成され、プログラムをPC
にインストールすることによって音声区間検出装置とし
て機能する。
In this embodiment, the A / D 10
1, the storage unit 102, the voice signal processing unit 103, the voice section extraction signal generation unit 104, the voice section extraction unit 105 is configured by using a personal computer (PC), the voice signal processing unit 103, the gate signal generation unit 104, The voice section output unit 105 is configured as software, and the program is stored in the PC.
Installed in to function as a voice section detection device.

【0024】図2は例えばCD−ROMである記憶媒体
に記録され、PCにインストールされるプログラムのメ
インルーチンのフローチャートであって、ステップ20
において処理対象の音声信号をA/D101で予め定め
られたサンプリング時間でサンプリングして取り込み記
憶部102に記憶する。サンプリング時間は適宜定める
ことができるが、本実施形態においてはサンプリング時
間T=0.08333ミリ秒(サンプリング周波数=1
2キロヘルツ)とする。
FIG. 2 is a flow chart of a main routine of a program which is recorded in a storage medium such as a CD-ROM and is installed in the PC.
In step A, the audio signal to be processed is sampled by the A / D 101 for a predetermined sampling time and stored in the storage unit 102. Although the sampling time can be set as appropriate, in the present embodiment, the sampling time T = 0.08333 milliseconds (sampling frequency = 1
2 kHz).

【0025】ステップ21において音声処理に使用する
パラメータを初期化する初期値設定ルーチンを、ステッ
プ22において音声信号の信号対雑音比を改善する音声
処理ルーチンを、ステップ23において信号対雑音比改
善後の音声信号に基づいて音声区間抽出信号を生成する
音声区間抽出信号生成ルーチンを実行する。
In step 21, an initial value setting routine for initializing parameters used for voice processing, a voice processing routine for improving the signal-to-noise ratio of the voice signal in step 22, and a voice-processing routine after improving the signal-to-noise ratio in step 23. A voice section extraction signal generation routine for generating a voice section extraction signal based on the voice signal is executed.

【0026】最後にステップ24において音声区間抽出
信号に基づいて記憶部102に記憶されている音声信号
から音声区間を抽出する音声区間抽出ルーチンを実行し
て、このルーチンを終了する。
Finally, in step 24, a voice segment extraction routine for extracting a voice segment from the voice signal stored in the storage unit 102 is executed based on the voice segment extraction signal, and this routine is ended.

【0027】図3はステップ21で実行される初期値設
定ルーチンのフローチャートであって、ステップ210
において音声信号処理ルーチンで使用されるハイパスフ
ィルタのパラメータが[数2]に基づいて初期値に設定
される。
FIG. 3 is a flow chart of the initial value setting routine executed in step 21.
In, the parameter of the high-pass filter used in the audio signal processing routine is set to the initial value based on [Equation 2].

【0028】[0028]

【数2】 [Equation 2]

【0029】次にステップ211においてローパスフィ
ルタのパラメータが[数3]に基づいて設定される。
Next, in step 211, the parameters of the low pass filter are set based on [Equation 3].

【0030】[0030]

【数3】 [Equation 3]

【0031】その後ステップ212において短時間自己
相関ルーチンで使用されるパラメータを、ステップ21
3において二乗平均ルーチンで使用されるパラメータを
初期化する。
Then, in step 212, the parameters used in the short-time autocorrelation routine are set in step 21.
At 3, the parameters used in the root mean square routine are initialized.

【0032】次にステップ214において平滑ルーチン
で使用されるパラメータを[数4]、[数5]及び[数
6]によって初期化する。
Next, in step 214, the parameters used in the smoothing routine are initialized by [Equation 4], [Equation 5] and [Equation 6].

【0033】[0033]

【数4】 [Equation 4]

【0034】[0034]

【数5】 [Equation 5]

【0035】[0035]

【数6】 [Equation 6]

【0036】さらに、ステップ215において音声区間
抽出信号生成ルーチンで使用されるパラメータを初期化
してこのルーチンを終了する。
Further, in step 215, the parameters used in the voice section extraction signal generation routine are initialized, and this routine is ended.

【0037】図4はメインルーチンのステップ22で実
行される音声信号処理ルーチンのフローチャートであっ
て、ステップ220でサンプリング点を表すパラメータ
nを初期値“0”に設定する。
FIG. 4 is a flow chart of the audio signal processing routine executed in step 22 of the main routine. In step 220, the parameter n representing the sampling point is set to the initial value "0".

【0038】ステップ221でパラメータ設定ルーチン
のステップ210で決定されたハイパスフィルタのパラ
メータを使用して[数7]に基づいて記憶部102に記
憶されている音声信号Xi(n)に対してハイパスフィ
ルタルーチンを実行してハイパスフィルタリング信号X
h(n)を出力する。
Using the parameters of the high-pass filter determined in step 210 of the parameter setting routine in step 221, the high-pass filter is applied to the audio signal X i (n) stored in the storage unit 102 based on [Equation 7]. Execute the filter routine to execute the high-pass filtered signal X
Output h (n).

【0039】[0039]

【数7】 [Equation 7]

【0040】この処理は車室内に放射されるエアコンデ
ィショナの雑音を取り除くためのものであって、ハイパ
スフィルタの遮断周波数fchは例えば300ヘルツに選
択される。
This processing is for removing the noise of the air conditioner radiated into the passenger compartment, and the cutoff frequency f ch of the high pass filter is selected to be 300 hertz, for example.

【0041】次にステップ222でパラメータ設定ルー
チンのステップ211で決定されたローパスフィルタの
パラメータを使用して[数8]に基づいてハイパスフィ
ルタ出力信号Xh(n)に対してローパスフィルタルー
チンを実行してローパスフィルタリング信号XL(n)
を出力する。
Next, in step 222, the low-pass filter routine is executed on the high-pass filter output signal X h (n) based on [Equation 8] using the parameters of the low-pass filter determined in step 211 of the parameter setting routine. And low-pass filtered signal X L (n)
Is output.

【0042】[0042]

【数8】 [Equation 8]

【0043】この処理は突発的に発生する高周波雑音を
取り除くためのものであって、ローパスフィルタの遮断
周波数fcLは例えば3000ヘルツに選択される。
This processing is for removing high frequency noise that is suddenly generated, and the cutoff frequency f cL of the low pass filter is selected to be 3000 hertz, for example.

【0044】そしてステップ223で信号/雑音比を改
善するために、ローパスフィルタ出力信号XL(n)に
対して短時間自己相関ルーチンを実行し、短時間自己相
関信号Xc(n)を算出する。
Then, in step 223, in order to improve the signal / noise ratio, a short-time autocorrelation routine is executed on the low-pass filter output signal X L (n) to calculate the short-time autocorrelation signal X c (n). To do.

【0045】次にステップ224で短時間自己相関信号
c(n)の二乗平均値Xp(n)を算出し、ステップ2
25で二乗平均値Xp(n)をローパスフィルタによっ
て平滑して平滑化出力Xs(n)を算出する。
Next, in step 224, the root mean square value X p (n) of the short-time autocorrelation signal X c (n) is calculated, and in step 2
At 25, the root mean square value X p (n) is smoothed by a low pass filter to calculate a smoothed output X s (n).

【0046】さらにステップ226で平滑化出力X
s(n)に対してゲートルーチンを行い、ゲート信号G
(n)を算出する。
Further, in step 226, the smoothed output X
Perform a gate routine on s (n) to obtain a gate signal G
Calculate (n).

【0047】そして、ステップ227でN個の音声信号
iに対してゲート信号Gの算出が終了したかを判定
し、否定判定されたときはステップ228でパラメータ
nをインクリメントしてステップ221以後の処理を繰
り返す。
Then, in step 227, it is determined whether or not the calculation of the gate signal G has been completed for the N audio signals X i , and if a negative determination is made, the parameter n is incremented in step 228 and the steps from step 221 onward are performed. Repeat the process.

【0048】逆にステップ227で肯定判定されたと
き、即ちN個の音声信号Xiに対して音声信号処理が完
了したときはこのルーチンを終了する。
On the contrary, when the affirmative determination is made in step 227, that is, when the audio signal processing is completed for the N audio signals X i , this routine is ended.

【0049】なおステップ223〜226の処理の詳細
は以下に詳述する。
The details of the processing of steps 223 to 226 will be described below.

【0050】図5は音声処理ルーチンのステップ223
で実行される短時間自己相関ルーチンのフローチャート
であって、予め定められた隔たりサンプル数M隔たった
ローパスフィルタ処理音声信号XL(n)とこれから予
め定められた隔たりサンプル数M隔たったローパスフィ
ルタ処理音声信号XL(n−M)の間の予め定められた
個数Jの相関値を[数9]に基づいて算出することによ
り非音声区間の雑音レベルに対して音声区間の信号レベ
ルを相対的に大きくする。
FIG. 5 shows step 223 of the voice processing routine.
2 is a flowchart of a short-time autocorrelation routine executed by the low-pass filter processing audio signal XL (n) separated by a predetermined number of samples M and a low-pass filtered audio signal separated by a predetermined number of samples M from the signal XL (n). By calculating a predetermined number J of correlation values between the signals XL (n-M) based on [Equation 9], the signal level in the voice section is relatively set with respect to the noise level in the non-voice section. Enlarge.

【0051】[0051]

【数9】 [Equation 9]

【0052】まず、ステップ2230において現在のサ
ンプリング点nが隔たり数Mと相関個数Jの和以上であ
るかを判定する。なお、隔たり数Mと相関個数Jはパラ
メータ設定ルーチンのステップ212において設定され
る。
First, at step 2230, it is determined whether the current sampling point n is equal to or more than the sum of the separation number M and the correlation number J. The distance M and the correlation number J are set in step 212 of the parameter setting routine.

【0053】ステップ2230で肯定判定されたとき、
即ち現在のサンプル点nが隔たりサンプル数Mと相関個
数Jの和以上であり、自己相関の算出が可能となったと
きは、ステップ2231に進み積算回数を表すパラメー
タj及び積算値Sを“0”に初期化し、ステップ223
2でXL(n-j)とXL(n−j−M)の積算値とSの
和を改めてSとする。
When an affirmative decision is made in step 2230,
That is, when the current sample point n is more than the sum of the number of samples M and the number of correlations J and the autocorrelation can be calculated, the process proceeds to step 2231 and the parameter j representing the number of integrations and the integration value S are set to "0". Initialization to step 223
2 again and S the sum of the integrated value and S of X L (n-j) and X L (n-j-M ) at.

【0054】ステップ2233においてパラメータjが
相関個数J以上であるかを判定し、否定判定されたと
き、即ちパラメータjが相関個数J未満であるときはス
テップ2234でパラメータjをインクリメントしてス
テップ2232の処理を繰り返す。
In step 2233, it is determined whether the parameter j is greater than or equal to the correlation number J, and when a negative determination is made, that is, when the parameter j is less than the correlation number J, the parameter j is incremented in step 2234 and step 2232 is performed. Repeat the process.

【0055】ステップ2233で肯定判定されたとき、
即ちパラメータjが相関個数J以上となったときは、ス
テップ2235において積算値Sを相関個数Jで除して
短時間自己相関信号Xc(n)を算出してこのルーチン
を終了する。
When an affirmative decision is made in step 2233,
That is, when the parameter j becomes equal to or larger than the correlation number J, the integrated value S is divided by the correlation number J in step 2235 to calculate the short-time autocorrelation signal X c (n), and this routine is finished.

【0056】なお、ステップ2230で否定判定された
とき、即ち現在サンプル点nが隔たりサンプル数Mと相
関個数Jの和未満であるときは、自己相関の算出が不可
能であるのでステップ2236で短時間除個相関信号X
c(n)を“0”としてこのルーチンを終了する。
When the negative determination is made in step 2230, that is, when the current sample point n is separated and is less than the sum of the number of samples M and the number of correlations J, the autocorrelation cannot be calculated. Time-divided correlation signal X
This routine is ended by setting c (n) to "0".

【0057】ここで、隔たり数M及び相関個数Jは話者
によらず音声区間が正確に検出可能となるように実験的
に決定する必要があるが、隔たり数Mは隔たり時間が3
ミリ秒に相当するように(例えばサンプリング時間が
0.08333ミリ秒であるときには36)に定めるこ
とが、また相関個数Jは5とすることが望ましい。
Here, the separation number M and the correlation number J must be experimentally determined so that the voice section can be accurately detected regardless of the speaker, but the separation number M is 3
It is desirable to set it so as to correspond to milliseconds (for example, 36 when the sampling time is 0.08333 milliseconds), and it is desirable that the number of correlations J is 5.

【0058】図6は短時間自己相関処理の効果の説明図
であって、(イ)はローパスフィルタ処理後信号X
L(n)を、(ロ)はこの波形を隔たり時間(=3ミリ
秒)ずらした音声信号波形を、(ハ)は短時間自己相関
信号Xc(n)の波形を示す。この図から、短時間自己
相関処理を施すことにより信号対雑音比が向上すること
が理解できる。
FIG. 6 is an explanatory view of the effect of the short-time autocorrelation processing, in which (a) shows the signal X after the low-pass filter processing.
L (n), (B) shows a voice signal waveform obtained by shifting this waveform by a time interval (= 3 milliseconds), and (C) shows a waveform of the short-time autocorrelation signal X c (n). From this figure, it can be understood that the signal-to-noise ratio is improved by performing the autocorrelation processing for a short time.

【0059】図7は音声処理ルーチンのステップ224
で実行される二乗平均ルーチンのフローチャートであっ
て、短時間自己相関処理後信号Xcの振幅方向の影響を
排除するために、短時間自己相関信号Xc(n)に対し
て二乗平均処理を実行する。
FIG. 7 shows step 224 of the voice processing routine.
2 is a flow chart of a root mean square routine executed in step 1, wherein root mean square processing is performed on the short time autocorrelation signal X c (n) in order to eliminate the influence in the amplitude direction of the short time autocorrelation processing signal X c. Run.

【0060】まず、ステップ2240で現在のサンプリ
ング番号nが予め定められた数Np(例えば200)以
下であるかを判定し、肯定判定されたときは、ステップ
2241で二乗平均処理後信号Xp(n)を“0”に設
定してこのルーチンを終了する。これは短時間自己相関
信号Xc(n)の先頭部分の雑音を除去するためであ
る。
First, in step 2240, it is determined whether or not the current sampling number n is equal to or less than a predetermined number N p (for example, 200). If a positive determination is made, in step 2241, the root mean square processed signal X p (N) is set to "0" and this routine ends. This is to remove noise at the beginning of the short-time autocorrelation signal X c (n).

【0061】ステップ2240で否定判定されたとき、
即ち先頭部分を除外し終えたときは、ステップ2242
に進みパラメータkが予め定められた所定値K(例えば
32)に到達したかを判定し、否定判定されたときはス
テップ2243でSとXc(n)の二乗値の加算値を改
めてSとおく。
When a negative decision is made in step 2240,
That is, when the removal of the top portion is completed, step 2242
It is determined whether or not the parameter k has reached a predetermined value K (for example, 32) which has been set in advance, and when a negative determination is made, the addition value of the squared value of S and X c (n) is changed to S again in step 2243. deep.

【0062】次にステップ2244で二乗平均信号Xp
(n)を保持信号Xpoに設定するとともにパラメータk
をインクリメントしてこのルーチンを終了する。
Next, at step 2244, the root mean square signal X p
(N) is set to the hold signal X po and the parameter k
Is incremented and this routine ends.

【0063】ステップ2242で肯定判定されたとき、
即ちパラメータkが所定値Kに到達したときはステップ
2245で積算値SをJで除した値を開平して二乗平均
信号Xp(n)を算出し、保持出力Xpoを二乗平均信号
p(n)に設定する。
When an affirmative decision is made in step 2242,
That is, when the parameter k reaches the predetermined value K, the value obtained by dividing the integrated value S by J is squared in step 2245 to calculate the root mean square signal X p (n), and the holding output X po is calculated as the root mean square signal X p. Set to (n).

【0064】そして、ステップ2246でパラメータS
及びkをリセットしてこのルーチンを終了する。
Then, in step 2246, the parameter S
And k are reset and this routine is finished.

【0065】二乗平均処理が終了すると、音声信号処理
ルーチンのステップ225において二乗平均信号Xpに
含まれる高周波成分(特にインパルス成分)を除去する
ために、[数10]で表される5次のローパスIIRフ
ィルタを使用して平滑処理を施す。
When the root mean square processing is completed, in order to remove the high frequency component (particularly the impulse component) contained in the root mean square signal Xp in step 225 of the audio signal processing routine, the fifth-order low-pass represented by [Equation 10] is used. Smooth using IIR filter.

【0066】[0066]

【数10】 [Equation 10]

【0067】図8は平滑処理の効果の説明図であって、
(ニ)に示す短時間自己相関信号X c(n)に対して二
乗平均処理を施すと(ホ)に示す二乗平均信号X
p(n)には相当の高周波成分が含まれていることが判
る。そこで、さらに平滑処理を施すと(ヘ)に示す平滑
信号Xs(n)は滑らかとなり閾値を決定し易くなるこ
とが判る。
FIG. 8 is an explanatory view of the effect of the smoothing process.
Short-time autocorrelation signal X shown in (d) cTwo for (n)
The root mean square signal X shown in FIG.
pIt was found that (n) contains a considerable high frequency component.
It Therefore, when further smoothing processing is performed, the smoothing shown in (F)
Signal Xs(N) is smooth and the threshold value can be easily determined.
I understand.

【0068】図9は音声処理ルーチンのステップ226
で実行されるゲートルーチンのフローチャートであっ
て、ステップ2260でゲート開閉ルーチンが、ステッ
プ2261で閾値設定ルーチンが実行される。
FIG. 9 shows step 226 of the voice processing routine.
It is a flowchart of the gate routine executed in step 2, in which a gate opening / closing routine is executed in step 2260 and a threshold value setting routine is executed in step 2261.

【0069】図10はゲートルーチンのステップ226
0で実行されるゲート開閉ルーチンのフローチャートで
あって、ステップ60aで閾値TLを1サンプル前の雑
音レベルZL(n−1)の所定値TR(例えば1.8)
倍に設定し、ステップ60bで平滑信号Xs(n)が閾
値TL以下であるかを判定する。なお、n=0の場合
は、1サンプル前の雑音レベルの初期値は初期値設定ル
ーチンのステップ215において“0”に初期化され
る。
FIG. 10 shows step 226 of the gate routine.
In the flowchart of the gate opening / closing routine executed at 0, the threshold value TL is set to a predetermined value TR of the noise level ZL (n-1) one sample before at step 60a (for example, 1.8).
It is set to double, and it is determined in step 60b whether the smoothed signal X s (n) is less than or equal to the threshold value TL. When n = 0, the initial value of the noise level one sample before is initialized to "0" in step 215 of the initial value setting routine.

【0070】ステップ60bで肯定判定されたとき、即
ち平滑信号Xs(n)が閾値TL以下であるときはステ
ップ60cで現在のサンプル点のゲートG信号(n)を
“1”(開)に設定してこのルーチンを終了する。
When an affirmative decision is made in step 60b, that is, when the smoothed signal X s (n) is below the threshold value TL, the gate G signal (n) at the current sample point is set to "1" (open) in step 60c. Set and exit this routine.

【0071】逆に、ステップ60bで否定判定されたと
き、即ち平滑信号Xs(n)が閾値TLより大きいとき
はステップ60dで現在のサンプル点のゲート信号G
(n)を“0”(閉)に設定してこのルーチンを終了す
る。
On the contrary, when a negative determination is made in step 60b, that is, when the smoothed signal X s (n) is larger than the threshold value TL, in step 60d the gate signal G of the current sampling point is obtained.
(N) is set to "0" (closed) and this routine ends.

【0072】図11はゲートルーチンのステップ226
2で実行される閾値設定ルーチンのフローチャートであ
って、音声レベルは個人差を有するので閾値を固定値と
した場合には話者によらない音声区間の検出が困難であ
るため、閾値を自動更新するものである。
FIG. 11 shows step 226 of the gate routine.
2 is a flowchart of a threshold value setting routine executed in step 2. Since the voice level has individual differences, it is difficult to detect a voice section that does not depend on the speaker when the threshold value is a fixed value. Therefore, the threshold value is automatically updated. To do.

【0073】即ち、音声が存在しない非音声区間の二乗
平均信号Xpの平均値を雑音レベルとして、この雑音レ
ベルの所定倍率を閾値とすることとした。しかし、平均
値算出の対象とするサンプル数を無制限とした場合に
は、相当以前に発生した高レベルの雑音の影響により閾
値が高に維持されてしまうおそれがあるため、平均値算
出の対象とする二乗平均信号Xpの数を予め定められた
所定数M(例えば1200個)に制限することとした。
That is, the average value of the root-mean-square signal X p in the non-voice section in which no voice is present is set as the noise level, and the predetermined magnification of this noise level is set as the threshold value. However, if the number of samples for which the average value is calculated is unlimited, there is a risk that the threshold value will be kept high due to the influence of high-level noise that occurred a long time ago. The number of root mean square signals X p to be set is limited to a predetermined number M (for example, 1200).

【0074】図12は音声区間及び非音声区間の説明図
であって、(チ)の二乗平均信号X pが閾値より大きい
区間(b区間)を音声区間とし、二乗平均信号Xpが閾
値よ小さい区間(a区間及びc区間)を非音声区間とす
る。なお、ゲート信号G(n)はb区間において開とな
っている。
FIG. 12 is an explanatory diagram of a voice section and a non-voice section.
And the square mean signal X of (h) pIs greater than the threshold
The section (section b) is the speech section, and the root mean square signal XpThe threshold
Sections smaller than the value (sections a and c) are non-voice sections
It The gate signal G (n) does not open in the section b.
ing.

【0075】即ち、ステップ61aでゲート信号G
(n)が“0”であるかを判定し、肯定判定されたと
き、即ち音声が存在していないときは、ステップ61b
でパラメータmが予め定められた雑音レベル算出の対象
個数M以下であるかを判定する。
That is, in step 61a, the gate signal G
If (n) is "0", and a positive determination is made, that is, if there is no voice, step 61b.
Then, it is determined whether or not the parameter m is equal to or less than the predetermined number M of targets for noise level calculation.

【0076】ステップ61bで肯定判定されたとき、即
ちパラメータmが所定値M未満であればステップ61c
で雑音積算値ZTに二乗平均信号Xp(n)を加算して
雑音積算値ZTを更新する。
When a positive determination is made in step 61b, that is, when the parameter m is less than the predetermined value M, step 61c
Then, the root mean square signal X p (n) is added to the noise integrated value ZT to update the noise integrated value ZT.

【0077】次にステップ61dで二乗平均信号X
p(n)を保持用二乗平均信号Xpo(n)に保持し、ス
テップ61eでパラメータmをインクリメントする。
Next, at step 61d, the root mean square signal X
p (n) is held in the holding root mean square signal X po (n), and the parameter m is incremented in step 61e.

【0078】そして、ステップ61fで雑音積算値ZT
を所定数M(例えば1200)で除した値を雑音レベル
ZL(n)に設定し、ステップ61gで雑音レベル保持
値ZLBを現在の雑音レベルZL(n)で更新してこの
ルーチンを終了する。
Then, in step 61f, the noise integrated value ZT
Is divided by a predetermined number M (for example, 1200) to set the noise level ZL (n), the noise level holding value ZLB is updated with the current noise level ZL (n) in step 61g, and this routine is finished.

【0079】なお、ステップ61f及び61gの処理は
次のサンプリング番号のゲートG信号(n+1)が
“1”に移行した場合に備えての処理である。
The processing in steps 61f and 61g is prepared in case the gate G signal (n + 1) of the next sampling number shifts to "1".

【0080】逆にステップ61bで否定判定されたと
き、即ちパラメータmが所定値M以上のときはステップ
61hで雑音積算値ZTから保持用二乗平均信号X
po(0)を減算する。これは平均値算出対象の個数を1
200に制限したので雑音積算値ZTを更新する前に保
持用平滑信号Xsoの最も古い値であるXpo(0)を取り
除き1199個の積算値としておくための処理である。
On the contrary, when a negative determination is made in step 61b, that is, when the parameter m is equal to or larger than the predetermined value M, the holding root mean square signal X is calculated from the noise integrated value ZT in step 61h.
Subtract po (0). This is 1 for the average value calculation target
Since it is limited to 200, this is a process for removing the oldest value X po (0) of the smoothing signal for holding X so (1), and setting it as 1199 integrated values before updating the noise integrated value ZT.

【0081】次にステップ61iで保持用二乗平均信号
poを1つ前送りするシフト処理を実行するが、シフト
処理の詳細は後述する。
Next, at step 61i, a shift process for advancing the holding mean square signal X po by one is executed. The details of the shift process will be described later.

【0082】次にステップ61jで雑音積算値ZTに現
在の二乗平均信号X(n)を加算して加算個数をM個
として雑音積算値ZTを更新し、ステップ61kで雑音
積算値ZTを所定数Mで除した値を雑音レベルZL
(n)に設定する。
Next, at step 61j, the current root mean square signal X p (n) is added to the noise integrated value ZT to set the number of additions to M, and the noise integrated value ZT is updated. At step 61k, the noise integrated value ZT is predetermined. Noise level ZL divided by the number M
Set to (n).

【0083】そしてステップ61mで雑音レベル保持値
を現在の雑音レベルZL(n)で更新してこのルーチン
を終了する。
Then, in step 61m, the noise level holding value is updated with the current noise level ZL (n), and this routine ends.

【0084】なお、ステップ61aで否定判定されたと
き、即ち音声区間であればステップ61nで現在の雑音
レベルZL(n)を直前の非音声区間で算出された雑音
レベルである雑音レベル保持値ZLBに設定してこのル
ーチンを終了する。
If a negative determination is made in step 61a, that is, if it is a voice section, the current noise level ZL (n) is the noise level holding value ZLB which is the noise level calculated in the immediately preceding non-voice section in step 61n. To end this routine.

【0085】図13は閾値設定ルーチンのステップ61
iで実行されるシフトルーチンのフローチャートであっ
て、ステップ61i0でパラメータmpを“0”に初期
化し、ステップ61i1で保持用二乗平均信号Xpo(m
p+1)をXpo(mp)として保持用二乗平均信号Xpo
前方にシフトする。ステップ61i2でパラメータm p
が所定値“M−1”未満であるかを判定し、肯定判定さ
れたときはステップ61i3でパラメータmpをインク
リメントしてステップ61i1の処理を繰り返す。
FIG. 13 shows step 61 of the threshold setting routine.
i is a flowchart of the shift routine executed in i.
Then, in step 61i0, the parameter mpInitial to "0"
And the holding root mean square signal X in step 61i1.po(M
p+1) to Xpo(Mp) As holding mean square signal XpoTo
Shift forward. Parameter m in step 61i2 p
Is less than a predetermined value "M-1", and a positive determination is made.
Parameter 61, the parameter mpThe ink
Then, the process of step 61i1 is repeated.

【0086】逆にステップ61i2で否定判定されたと
き、即ちパラメータmpが所定値“M−1”に到達した
ときはステップ61i4で現在の二乗平均値信号X
P(n)をM−1番目の保持用二乗平均値信号XPo(M
−1)に保持してこのルーチンを終了する。
On the contrary, when a negative determination is made in step 61i2, that is, when the parameter m p reaches the predetermined value "M-1", the current mean square value signal X is calculated in step 61i4.
Let P (n) be the M-1th holding root mean square signal X Po (M
-1) is kept and this routine is finished.

【0087】以上でメインルーチンのステップ22にお
ける音声信号処理ルーチンの処理を終了し、次にメイン
ルーチンのステップ23で音声区間抽出信号生成ルーチ
ンを実行する。
As described above, the processing of the voice signal processing routine in step 22 of the main routine is completed, and then the voice section extraction signal generating routine is executed in step 23 of the main routine.

【0088】図14はメインルーチンのステップ23で
実行される音声区間抽出信号生成ルーチンのフローチャ
ートであって、ステップ230で音声区間抽出の基本と
なる抽出信号を生成する基本抽出信号生成ルーチンが、
ステップ231で基本抽出信号を遡及的に開状態とする
前方付加ルーチンが、ステップ232で基本抽出信号が
閉となった後に所定時間開状態を維持するための後方付
加ルーチンが実行される。
FIG. 14 is a flow chart of the voice section extraction signal generation routine executed in step 23 of the main routine. In step 230, the basic extraction signal generation routine for generating the extraction signal which is the basis of the voice section extraction is
In step 231, a front addition routine for retroactively opening the basic extraction signal is executed, and in step 232, a rear addition routine for maintaining the opening state for a predetermined time after the basic extraction signal is closed is executed.

【0089】図15は音声区間抽出信号生成ルーチンの
ステップ230で実行される基本抽出信号生成ルーチン
のフローチャートであって、ゲート開閉ルーチンでゲー
ト開に設定されたときに開状態が所定期間継続した場合
に基本的な音声区間であると判定するためのルーチンで
ある。
FIG. 15 is a flow chart of the basic extraction signal generation routine executed in step 230 of the voice section extraction signal generation routine, in the case where the open state continues for a predetermined period when the gate is opened in the gate opening / closing routine. It is a routine for determining that the basic voice section.

【0090】まず、ステップ2300でこのルーチンで
使用するパラメータn(サンプリング点を表すパラメー
タ)、F(開移行処理が実行済みであるか否かを示すフ
ラグ)、及びi(開状態を継続するサンプリング点数を
計数するパラメータ)をリセットする。
First, in step 2300, a parameter n (parameter indicating a sampling point) used in this routine, F (a flag indicating whether or not the open transition process has been executed), and i (a sampling for continuing the open state). Reset the parameter for counting points).

【0091】ステップ2301においてゲート開閉ルー
チンで設定されたゲート信号G(n)が“1(開)”で
あるかを判定し、肯定判定されたときはステップ230
2でパラメータiをインクリメントする。
In step 2301, it is determined whether the gate signal G (n) set in the gate opening / closing routine is "1 (open)", and if a positive determination is made, step 230
At 2, the parameter i is incremented.

【0092】ステップ2303でパラメータiが予め定
められた数I(例えば480個)以上となったかを判定
するが、Iはゲート信号G(n)が“1(開)”状態を
維持し確実に音声区間に入っていると判断できる時間に
対応する数であって、40ミリ秒であればサンプリング
時間が0.08333ミリ秒の場合、Iは480とな
る。
In step 2303, it is determined whether or not the parameter i is equal to or larger than a predetermined number I (for example, 480), and I ensures that the gate signal G (n) maintains the "1 (open)" state. It is a number corresponding to the time during which it can be determined that it is in the voice section, and if it is 40 milliseconds and the sampling time is 0.08333 milliseconds, I will be 480.

【0093】ステップ2303で肯定判定されたとき、
即ちゲート信号G(n)の開状態が所定数I継続してい
るときは、ステップ2304で開処理ルーチンが実行さ
れるが詳細は後述する。
When an affirmative decision is made in step 2303,
That is, when the open state of the gate signal G (n) continues for the predetermined number I, the open processing routine is executed in step 2304, which will be described in detail later.

【0094】開処理ルーチンが終了すると、ステップ2
305でパラメータnが全サンプリング点数N未満であ
るかを判定する。そして肯定判定されたとき、即ち全サ
ンプル点について処理が完了していないときは、ステッ
プ2306でパラメータnをインクリメントしてステッ
プ2301からステップ2304の処理を繰り返す。
When the open processing routine is completed, step 2
At 305, it is determined whether the parameter n is less than the total number N of sampling points. When the determination is affirmative, that is, when the processing has not been completed for all the sample points, the parameter n is incremented in step 2306 and the processing of steps 2301 to 2304 is repeated.

【0095】逆にステップ2305で否定判定されたと
き、即ち全サンプリング点について処理が完了したとき
は、このルーチンを終了する。
On the contrary, when a negative determination is made in step 2305, that is, when the processing is completed for all sampling points, this routine is ended.

【0096】ステップ2301で否定判定されたとき、
即ちゲート信号G(n)が“0(閉)”であるときは、
抽出信号E(n)を零に設定するとともに、パラメータ
F及びiをリセットしてステップ2306に進む。
When a negative decision is made in step 2301,
That is, when the gate signal G (n) is “0 (closed)”,
The extraction signal E (n) is set to zero, the parameters F and i are reset, and the process proceeds to step 2306.

【0097】またステップ2303で否定判定されたと
き、即ちゲート信号G(n)の開状態継続数iが所定数
II以下であるときは、抽出信号E(n)を零に設定す
るとともに、パラメータFをリセットしてステップ23
06に進む。
When a negative determination is made in step 2303, that is, when the number i of open states of the gate signal G (n) is equal to or less than the predetermined number II, the extraction signal E (n) is set to zero and the parameter is set to zero. Step 23 after resetting F
Proceed to 06.

【0098】図16は基本抽出信号生成ルーチンのステ
ップ2304で実行される開処理ルーチンのフローチャ
ートであって、ステップ4aでフラグFが“1”である
かを判定する。
FIG. 16 is a flowchart of the open processing routine executed in step 2304 of the basic extraction signal generation routine, and it is determined in step 4a whether the flag F is "1".

【0099】ステップ4aで肯定判定されたとき、即ち
開移行処理が既に終了しているときは、ステップ4bで
現在の抽出信号E(n)を“1”に設定してこのルーチ
ンを終了する。
When an affirmative decision is made in step 4a, that is, when the open transition processing has already ended, the current extraction signal E (n) is set to "1" in step 4b and this routine ends.

【0100】逆にステップ4aで否定判定されたとき、
即ち開移行処理が未了であるときは、ゲート信号G
(n)は“1”であるがII個継続していないとして
“0”に設定された抽出信号Eを遡及的に“1”に設定
する開移行処理4c〜4gを実行する。
Conversely, when a negative decision is made in step 4a,
That is, when the open transition processing is not completed, the gate signal G
(N) is "1", but the open transition processing 4c to 4g is performed to retroactively set "1" to the extracted signal E set to "0" because it has not continued II pieces.

【0101】即ち、ステップ4cで遡及サンプリング数
を表すパラメータjをリセットし、ステップ4dで現在
よりj個遡った抽出信号E(n−j)を“1”に設定す
る。
That is, in step 4c, the parameter j representing the retrospective sampling number is reset, and in step 4d, the extracted signal E (n-j) traced back j times from the present is set to "1".

【0102】次にステップ4eでパラメータjが所定数
II以上であるかを判定し、否定判定されたとき、即ち
遡及処理が未了であるときはステップ4fでパラメータ
jをインクリメントしてステップ4dに戻る。
Next, in step 4e, it is determined whether or not the parameter j is equal to or greater than the predetermined number II, and when a negative determination is made, that is, when the retroactive process is not completed, the parameter j is incremented in step 4f and the process proceeds to step 4d. Return.

【0103】逆にステップ4eで肯定判定されたとき、
即ち所定のサンプリング数について遡及処理が終了した
ときは、フラグFを“1”に設定してこのルーチンを終
了する。
Conversely, when an affirmative decision is made in step 4e,
That is, when the retroactive process is completed for the predetermined number of samplings, the flag F is set to "1" and this routine is completed.

【0104】図17は音声区間抽出信号生成ルーチンの
ステップ231で実行される前方付加ルーチンのフロー
チャートであって、音声の開始時点は音声レベルが小さ
いことが一般的であることを考慮して音声区間の先頭を
確実に検出するために、抽出信号Eを前方に所定期間遡
及的に伸延する。
FIG. 17 is a flowchart of the forward addition routine executed in step 231 of the voice section extraction signal generation routine. Considering that the voice level is generally low at the start point of voice, the voice section is considered. In order to reliably detect the beginning of the, the extracted signal E is retroactively extended forward for a predetermined period.

【0105】即ち、ステップ2310でこのルーチンで
使用するパラメータn(サンプリング点を表すパラメー
タ)及びFB(前方付加処理済みであるか否かを示すフ
ラグ)、及びi(開状態を継続するサンプル点数を計数
するパラメータ)をリセットする。
That is, in step 2310, the parameter n (parameter indicating the sampling point) and FB (flag indicating whether or not the forward addition processing is completed) used in this routine, and i (the number of sample points for continuing the open state) are set. Parameter to be counted) is reset.

【0106】次にステップ2311で抽出信号E(n)
が“1(開)”であるかを判定し、肯定判定されたとき
はステップ2312で前方付加処理ルーチンを実行して
ステップ2314に進む。逆に、ステップ2311で否
定判定されたとき、即ち抽出信号E(n)が“0
(閉)”であるときはステップ2313でフラグFBを
“0”に設定してステップ2314に進む。
Next, at step 2311, the extracted signal E (n)
Is "1 (open)", and if the result is affirmative, the front addition processing routine is executed in step 2312 and the process proceeds to step 2314. Conversely, when a negative determination is made in step 2311, that is, the extraction signal E (n) is “0.
If it is (closed) ", the flag FB is set to" 0 "in step 2313 and the process proceeds to step 2314.

【0107】ステップ2314ではパラメータnが全サ
ンプリング点数N未満であるかを判定し、肯定判定され
たとき、即ち全サンプリング点について処理が完了して
いないときは、ステップ2315でパラメータnをイン
クリメントしてステップ2311に戻る。逆にステップ
2314で否定判定されたとき、即ち全サンプル点につ
いて処理が完了したときは、このルーチンを終了する。
In step 2314, it is determined whether or not the parameter n is less than the total number N of sampling points, and when a positive determination is made, that is, when the processing has not been completed for all sampling points, the parameter n is incremented in step 2315. Returning to step 2311. On the contrary, when a negative determination is made in step 2314, that is, when the processing is completed for all the sample points, this routine is ended.

【0108】図18は前方付加ルーチンのステップ23
12で実行される前方付加処理ルーチンのフローチャー
トであって、ステップ12aで現在のサンプル点nが基
本抽出信号を前方に伸延(例えば50ミリ秒)すべき期
間に相当するサンプル数NB未満であるかを判定する。
FIG. 18 shows step 23 of the front addition routine.
12 is a flowchart of the forward addition processing routine executed in step 12, wherein the current sample point n is less than the number of samples NB corresponding to a period in which the basic extraction signal should be extended forward (for example, 50 milliseconds) in step 12a? To judge.

【0109】ステップ12aで肯定判定されたとき、即
ち先頭の抽出信号E(0)から現在より1つ前の抽出信
号E(n−1)までを“1”に設定するときは、ステッ
プ12bに進む。ステップ12bで前方付加処理済みで
あるか、即ちフラグFBが“1”であるかを判定し、否
定判定されたときはステップ12cで遡及するサンプル
数を表すパラメータjをnに設定する。
When a positive determination is made in step 12a, that is, when the extraction signal E (0) at the beginning to the extraction signal E (n-1) immediately before the present is set to "1", the process proceeds to step 12b. move on. In step 12b, it is determined whether or not the front addition processing has been completed, that is, whether the flag FB is "1". If a negative determination is made, the parameter j indicating the number of retroactive samples is set to n in step 12c.

【0110】そして、ステップ12dで抽出信号E(j
−1)を“1”に設定し、ステップ12eでパラメータ
jが“1”であるかを判定する。
Then, in step 12d, the extracted signal E (j
-1) is set to "1" and it is determined in step 12e whether the parameter j is "1".

【0111】ステップ12eで否定判定されたときはス
テップ12fでパラメータjをデクリメントしてステッ
プ12dの処理を繰り返す。逆にステップ12eで肯定
判定されたときは前方付加処理が終了したものとしてス
テップ12gでフラグFBを“1”に設定してこのルー
チンを終了する。
When a negative decision is made in step 12e, the parameter j is decremented in step 12f and the process of step 12d is repeated. On the contrary, if the affirmative decision is made in step 12e, it is considered that the front addition process has been finished, and the flag FB is set to "1" in step 12g, and this routine is finished.

【0112】ステップ12aで否定判定されたとき、即
ち抽出信号E(n−NB)から現在より1つ前の抽出信
号E(n−1)までを“1”に設定する場合は、ステッ
プ12hに進む。ステップ12hで前方付加処理済みで
あるか、即ちフラグFBが“1”であるかを判定し、否
定判定されたときはステップ12iで遡及するサンプル
数を表すパラメータjをNBに設定する。
If a negative determination is made in step 12a, that is, if the extraction signal E (n-NB) to the extraction signal E (n-1) immediately before the current one is set to "1", step 12h is executed. move on. In step 12h, it is determined whether the front addition processing has been completed, that is, whether the flag FB is "1". If a negative determination is made, the parameter j representing the number of retroactive samples is set to NB in step 12i.

【0113】そして、ステップ12jで抽出信号E(j
−1)を“1”に設定し、ステップ12kでパラメータ
jが“1”であるかを判定する。
Then, in step 12j, the extracted signal E (j
-1) is set to "1", and it is determined in step 12k whether the parameter j is "1".

【0114】ステップ12kで否定判定されたときはス
テップ12mでパラメータjをデクリメントしてステッ
プ12jの処理を繰り返す。逆にステップ12kで肯定
判定されたときは前方付加処理が終了したものとしてス
テップ12gでフラグFBを“1”に設定してこのルー
チンを終了する。
When a negative decision is made in step 12k, the parameter j is decremented in step 12m and the process of step 12j is repeated. On the other hand, if the affirmative decision is made in step 12k, it is considered that the front addition process is completed, and the flag FB is set to "1" in step 12g, and this routine is completed.

【0115】なお、ステップ12b又はステップ12h
で肯定判定されたとき、即ちすでに前方付加処理を完了
しているときは現在の抽出信号E(n)の値“1”を維
持し、ステップ12gでフラグFBを“1”に設定して
このルーチンを終了する。
Incidentally, step 12b or step 12h
If the affirmative determination is made in step S21, that is, if the forward addition process has already been completed, the current value of the extraction signal E (n) is maintained at "1", and the flag FB is set to "1" at step 12g. Exit the routine.

【0116】図19は音声区間抽出信号生成ルーチンの
ステップ232で実行される後方付加ルーチンのフロー
チャートであって、音声の終了時点は音声レベルが小さ
いことが一般的であることを考慮して音声区間の末尾を
確実に検出するために、抽出信号Eを後方に所定期間に
伸延する。
FIG. 19 is a flowchart of the rearward addition routine executed in step 232 of the voice section extraction signal generation routine. Considering that the voice level is generally low at the end point of voice, the voice section is considered. In order to reliably detect the end of the, the extracted signal E is extended backward for a predetermined period.

【0117】ステップ2320でこのルーチンで使用す
るパラメータn(サンプリング点を表すパラメータ)を
“0”に設定し、ステップ2321でパラメータnが
“0”であるかを判定する。
In step 2320, the parameter n (parameter representing the sampling point) used in this routine is set to "0", and in step 2321 it is determined whether the parameter n is "0".

【0118】ステップ2321で否定判定されたとき、
即ち先頭以外のサンプリング点を処理するときは、ステ
ップ2322で前回の抽出信号E(n−1)が今回の抽
出信号E(n)より大であるかを判定する。
When a negative decision is made in step 2321,
That is, when processing sampling points other than the first sampling point, it is determined in step 2322 whether the previous extraction signal E (n-1) is larger than the current extraction signal E (n).

【0119】ステップ2322で肯定判定されたとき、
即ち抽出信号Eが“1(開)”から“0(閉)”に遷移
したときにはステップ2323でパラメータnと予め定
められた数NBの和が全サンプル数N未満であるかを判
定する。ここで、NBは抽出信号を後方に伸延すべき期
間に相当するサンプル数であり、この期間が100ミリ
秒であればサンプル時間が0.08333ミリ秒である
ときはNB=1200となる。
When an affirmative decision is made in step 2322,
That is, when the extraction signal E transits from "1 (open)" to "0 (closed)", it is determined in step 2323 whether the sum of the parameter n and the predetermined number NB is less than the total number N of samples. Here, NB is the number of samples corresponding to the period for extending the extracted signal backward. If this period is 100 milliseconds, NB = 1200 when the sampling time is 0.08333 milliseconds.

【0120】ステップ2323で否定判定されたとき、
即ち後方に伸延すべき数が全サンプル数を越えるとき
は、抽出信号E(n)からE(N)まで“1(開)”に
設定するために、ステップ2324で開維持ルーチンを
実行してこのルーチンを終了する。
When a negative decision is made in step 2323,
That is, when the number of samples to be extended backward exceeds the total number of samples, the open maintenance routine is executed in step 2324 to set "1 (open)" from the extraction signals E (n) to E (N). This routine ends.

【0121】逆にステップ2323で肯定判定されたと
き、即ち後方に伸延すべき数が全サンプル数を越えない
ときは、抽出信号E(n)からE(n+NA)まで“1
(開)”に設定するためにステップ2325で途中開維
持ルーチンを実行してステップ2326に進む。
On the other hand, when an affirmative decision is made in step 2323, that is, when the number of signals to be extended backward does not exceed the total number of samples, the extraction signals E (n) to E (n + NA) are set to "1".
In order to set "open", a halfway open maintenance routine is executed in step 2325, and the flow proceeds to step 2326.

【0122】ステップ2326でパラメータnが全サン
プリングル点数N未満であるかを判定し、肯定判定され
たとき、即ち全サンプリング点についての処理が未了で
あるときは、ステップ2327でパラメータnをインク
リメントしてステップ2321からの処理を繰り返す。
In step 2326, it is determined whether or not the parameter n is less than the total number N of sampling points, and when a positive determination is made, that is, when the processing for all sampling points is not completed, the parameter n is incremented in step 2327. Then, the processing from step 2321 is repeated.

【0123】なお、ステップ2321で肯定判定された
とき、即ち先頭データを処理するときはステップ232
8で抽出信号E(n)を“0”に設定してこのルーチン
を終了する。また、ステップ2322で否定判定された
とき、即ち抽出信号Eが“1(開)”から“0(閉)”
に遷移したとき以外であるときには現在の抽出信号E
(n)の値を維持するために特に処理を行わず直接ステ
ップ2326に進む。
When the affirmative judgment is made in step 2321, that is, when the head data is processed, step 232
In step 8, the extraction signal E (n) is set to "0", and this routine ends. When a negative determination is made in step 2322, that is, the extraction signal E changes from "1 (open)" to "0 (closed)".
When the transition is to a time other than the current extraction signal E
No processing is performed to maintain the value of (n), and the process proceeds directly to step 2326.

【0124】図20は後方付加ルーチンのステップ23
24で実行される開維持ルーチンのフローチャートであ
って、ステップ24aでパラメータjをリセットし、ス
テップ24bで抽出信号E(n+j)を“1(開)”に
設定する。
FIG. 20 shows step 23 of the rear addition routine.
24 is a flowchart of the open maintaining routine executed in 24, in which the parameter j is reset in step 24a, and the extraction signal E (n + j) is set to "1 (open)" in step 24b.

【0125】次にステップ24cでn+jが全サンプル
数N未満であるかを判定し、肯定判定されたとき、即ち
最後の抽出信号E(N)まで“1(開)”に設定し終わ
っていないときはステップ24dでパラメータjをイン
クリメントしてステップ24bに戻る。
Next, in step 24c, it is determined whether or not n + j is less than the total number N of samples, and when the determination is affirmative, that is, "1 (open)" has not been set until the final extraction signal E (N). In this case, the parameter j is incremented in step 24d and the process returns to step 24b.

【0126】逆にステップ24cで否定判定されたと
き、即ち最後の抽出信号E(N)まで“1(開)”に設
定し終わったときはこのルーチンを終了する。
On the contrary, when a negative determination is made in step 24c, that is, when the setting to "1 (open)" is completed up to the final extraction signal E (N), this routine is ended.

【0127】図21は後方付加ルーチンのステップ23
24で実行される中途開維持ルーチンのフローチャート
であって、ステップ25aでパラメータjをリセット
し、ステップ25bで抽出信号E(n+j)を“1
(開)”に設定する。
FIG. 21 shows step 23 of the rear addition routine.
It is a flowchart of the halfway open maintenance routine executed in 24, wherein the parameter j is reset in step 25a, and the extraction signal E (n + j) is set to "1" in step 25b.
(Open) ”.

【0128】次にステップ25cでjが所定数NA未満
であるかを判定し、肯定判定されたとき、即ちNA個の
抽出信号Eを“1(開)”に設定し終わっていないとき
はステップ25dでパラメータjをインクリメントして
ステップ25bに戻る。
Next, in step 25c, it is determined whether or not j is less than a predetermined number NA, and when a positive determination is made, that is, when the NA extraction signals E have not been set to "1 (open)", the step is performed. The parameter j is incremented in 25d and the process returns to step 25b.

【0129】逆にステップ25cで否定判定されたと
き、即ちNA個の抽出信号EAを“1(開)”に設定し
終わったときは、ステップ25eでパラメータnをNA
増加してこのルーチンを終了する。
On the contrary, when a negative determination is made in step 25c, that is, when the NA extraction signals EA have been set to "1 (open)", the parameter n is set to NA in step 25e.
Increase and end this routine.

【0130】以上でメインルーチンの音声区間抽出信号
生成ルーチンが終了し、音声区間抽出信号Eが生成され
る。
With the above, the voice section extraction signal generation routine of the main routine is completed, and the voice section extraction signal E is generated.

【0131】図22は、前方付加及び後方付加処理の効
果の説明図であって、二乗平均信号Xpと閾値の比較に
よって開閉を決定した場合には(リ)に示すようにゲー
ト信号Gは頻繁に開閉を繰り返すため、正確に音声区間
を抽出することはできない。
FIG. 22 is an explanatory diagram of the effect of the forward addition and backward addition processing. When the opening / closing is determined by comparing the root mean square signal X p with the threshold value, the gate signal G is Since the opening and closing are frequently repeated, it is not possible to accurately extract the voice section.

【0132】これに対し、上記に説明したようにゲート
信号Gに対して前方付加及び後方付加処理を施すと、
(ヌ)に示すように音声が存在する37446サンプリ
ング点から57591サンプリング点までの間で音声区
間抽出信号は開となる。
On the other hand, when the gate signal G is subjected to the front addition and the rear addition as described above,
As shown in (e), the voice segment extraction signal is open between the 37446 sampling point and the 57591 sampling point where the voice exists.

【0133】なお、(リ)のaはゲート信号Gの開継続
時間が40ミリ秒以下であるため、音声区間抽出信号で
は除去されている。
Note that (a) in (a) is removed from the voice section extraction signal because the open duration of the gate signal G is 40 milliseconds or less.

【0134】最後にメインルーチンのステップ24にお
いて記憶部に記憶されている音声信号Xi(n)と抽出
信号E(n)を同期させて積算することにより、抽出信
号Eが“1(開)”である区間の音声信号Xiを抽出す
ることが可能となる。
Finally, in step 24 of the main routine, the extraction signal E is "1 (open)" by synchronizing and integrating the audio signal Xi (n) and the extraction signal E (n) stored in the storage section. It is possible to extract the audio signal Xi in a certain section.

【0135】図23及び図24は本発明に係る音声区間
検出装置における音声信号処理過程の説明図であって、
(ル)は車中で女性が発音した「アイスクリーム」の原
信号Xi(n)の波形、(オ)はハイパスフィルタ処理
後の信号XL(n)の波形、(ワ)はローパスフィルタ
処理後の信号Xh(n)の波形、(カ)は短時間自己相
関信号Xc(n)の波形である。
23 and 24 are explanatory views of a voice signal processing process in the voice section detecting apparatus according to the present invention.
( L ) is the waveform of the original signal X i (n) of "ice cream" pronounced by a woman in the car, (O) is the waveform of the signal X L (n) after high-pass filtering, and (W) is the low-pass filter. The waveform of the processed signal X h (n), ( f ) is the waveform of the short-time autocorrelation signal X c (n).

【0136】さらに、(ヨ)は二乗平均信号Xp(n)
の波形、(タ)は平滑信号Xs(n)の波形、(レ)は
ゲート信号G(n)の波形、(ソ)は音声区間抽出信号
E(n)の波形を示す。
Further, (Yo) is the root mean square signal X p (n)
, (T) shows the waveform of the smoothed signal X s (n), (L) shows the waveform of the gate signal G (n), and (S) shows the waveform of the voice section extraction signal E (n).

【0137】抽出された音声区間は後続の装置、例えば
音声認識装置に入力され、音声認識率を向上するために
利用することが可能である。
The extracted voice section can be input to a subsequent device, for example, a voice recognition device, and used to improve the voice recognition rate.

【0138】[0138]

【発明の効果】第一の発明に係る音声区間検出装置によ
れば、信号対雑音比が改善された音声信号に基づいて音
声区間抽出信号が生成されるので信号対雑音比が悪い状
況においても音声区間を確実に検出することが可能とな
る。
According to the voice section detecting device of the first aspect of the present invention, the voice section extraction signal is generated based on the voice signal having the improved signal-to-noise ratio, so that the signal-to-noise ratio is low. It is possible to reliably detect the voice section.

【0139】第二の発明に係る音声区間検出装置によれ
ば、音声信号の短時間自己相関値により音声信号の信号
対雑音比を改善することが可能となる。
According to the voice section detecting device of the second invention, it is possible to improve the signal-to-noise ratio of the voice signal by the short time autocorrelation value of the voice signal.

【0140】第三の発明に係る音声区間検出装置によれ
ば、短時間自己相関値のレベルが予め定められた閾値以
上である状態が予め定められた時間継続したときに音声
区間抽出信号を開とすることにより、信号対雑音比が悪
い状況においても音声区間を確実に検出することが可能
となる。
According to the speech segment detection apparatus of the third invention, the speech segment extraction signal is opened when the state in which the level of the short-time autocorrelation value is equal to or higher than the predetermined threshold value continues for the predetermined period. By so doing, it becomes possible to reliably detect the voice section even in a situation where the signal-to-noise ratio is poor.

【0141】第四の発明に係る音声区間検出装置によれ
ば、閾値を逐次更新することが可能となる。
According to the voice section detection device of the fourth aspect of the present invention, it becomes possible to successively update the threshold value.

【0142】第五の発明に係る音声区間検出装置によれ
ば、抽出信号を所定期間遡及的に開としたものを音声区
間抽出信号とすることにより、音声区間の先頭を確実に
検出することが可能となる。
According to the voice section detecting device of the fifth aspect of the present invention, the beginning of the voice section can be reliably detected by making the extraction signal retroactively open for a predetermined period as the voice section extraction signal. It will be possible.

【0143】第六の発明に係る音声区間検出装置によれ
ば、抽出信号が閉となった後所定期間開状態に維持した
ものを音声区間抽出信号とすることにより、音声区間の
末尾を確実に検出することが可能となる。
According to the voice section detecting device of the sixth aspect of the present invention, the end of the voice section is surely secured by using the voice section extraction signal which is kept open for a predetermined period after the extraction signal is closed. It becomes possible to detect.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明に係る音声区間検出装置の構成図であ
る。
FIG. 1 is a configuration diagram of a voice section detection device according to the present invention.

【図2】メインルーチンのフローチャートである。FIG. 2 is a flowchart of a main routine.

【図3】初期値設定ルーチンのフローチャートである。FIG. 3 is a flowchart of an initial value setting routine.

【図4】音声信号処理ルーチンのフローチャートであ
る。
FIG. 4 is a flowchart of an audio signal processing routine.

【図5】短時間自己相関ルーチンのフローチャートであ
る。
FIG. 5 is a flowchart of a short time autocorrelation routine.

【図6】短時間自己相関処理の効果の説明図である。FIG. 6 is an explanatory diagram of an effect of short-time autocorrelation processing.

【図7】二乗平均ルーチンのフローチャートである。FIG. 7 is a flowchart of a root mean square routine.

【図8】平滑処理の効果の説明図である。FIG. 8 is an explanatory diagram of an effect of smoothing processing.

【図9】ゲートルーチンのフローチャートである。FIG. 9 is a flowchart of a gate routine.

【図10】ゲート開閉ルーチンのフローチャートであ
る。
FIG. 10 is a flowchart of a gate opening / closing routine.

【図11】閾値設定ルーチンのフローチャートである。FIG. 11 is a flowchart of a threshold setting routine.

【図12】音声区間及び非音声区間の説明図である。FIG. 12 is an explanatory diagram of a voice section and a non-voice section.

【図13】シフトルーチンのフローチャートである。FIG. 13 is a flowchart of a shift routine.

【図14】音声区間抽出信号生成ルーチンのフローチャ
ートである。
FIG. 14 is a flowchart of a voice segment extraction signal generation routine.

【図15】基本抽出信号生成ルーチンのフローチャート
である。
FIG. 15 is a flowchart of a basic extraction signal generation routine.

【図16】開処理ルーチンのフローチャートである。FIG. 16 is a flowchart of an open processing routine.

【図17】前方付加ルーチンのフローチャートである。FIG. 17 is a flowchart of a front addition routine.

【図18】前方付加処理ルーチンのフローチャートであ
る。
FIG. 18 is a flowchart of a front addition processing routine.

【図19】後方付加ルーチンのフローチャートである。FIG. 19 is a flowchart of a rear addition routine.

【図20】開維持ルーチンのフローチャートである。FIG. 20 is a flowchart of an open maintenance routine.

【図21】中途開維持ルーチンのフローチャートであ
る。
FIG. 21 is a flowchart of a halfway open maintenance routine.

【図22】前方付加及び後方付加の効果の説明図であ
る。
FIG. 22 is an explanatory diagram of effects of front addition and rear addition.

【図23】本発明に係る音声区間検出装置における音声
信号処理過程の説明図(1/2)である。
FIG. 23 is an explanatory diagram (1/2) of a voice signal processing process in the voice section detection device according to the present invention.

【図24】本発明に係る音声区間検出装置における音声
信号処理過程の説明図(2/2)である。
FIG. 24 is an explanatory diagram (2/2) of a voice signal processing process in the voice section detection device according to the present invention.

【符号の説明】[Explanation of symbols]

10…音声区間検出装置 101…A/D 102…記憶部 103…音声信号処理部 104…音声区間抽出信号生成部 105…音声区間抽出部 11…マイクロフォン 12…ライン増幅器 10 ... Voice section detection device 101 ... A / D 102 ... storage unit 103 ... Audio signal processing unit 104 ... Voice section extraction signal generation unit 105 ... Voice section extraction unit 11 ... Microphone 12 ... Line amplifier

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 513Z (72)発明者 岩田 收 兵庫県神戸市兵庫区御所通1丁目2番28号 富士通テン株式会社内 (72)発明者 中村 正孝 広島県広島市佐伯区三宅二丁目1−1 学 校法人鶴学園内 (72)発明者 寺尾 和也 広島県広島市佐伯区三宅二丁目1−1 学 校法人鶴学園内 Fターム(参考) 5D015 AA01 CC05 DD02 DD03 DD04 DD05 EE05 ─────────────────────────────────────────────────── ─── Continuation of front page (51) Int.Cl. 7 Identification code FI theme code (reference) G10L 3/00 513Z (72) Inventor Osamu Iwata 1-2-2 Goshodori, Hyogo-ku, Hyogo Prefecture Fujitsu Ten Co., Ltd. (72) Inventor Masataka Nakamura 1-1, Miyake, Saiki-ku, Hiroshima City, Hiroshima Prefectural school Tsuru Gakuen (72) Inventor Kazuya Terao 1-1, Miyake, Saiki-ku, Hiroshima City, Hiroshima Prefecture Incorporated Tsuru Gakuen F-term (reference) 5D015 AA01 CC05 DD02 DD03 DD04 DD05 EE05

Claims (10)

【特許請求の範囲】[Claims] 【請求項1】 音声信号中に含まれる雑音を除去する前
処理手段と、 前記前処理手段により雑音が除去された音声信号の信号
対雑音比を改善する信号対雑音比改善手段と、 前記信号対雑音比改善手段で信号対雑音比が改善された
音声信号に基づいて音声区間抽出信号を生成する音声区
間抽出信号生成手段を具備する音声区間検出装置。
1. Pre-processing means for removing noise contained in a voice signal; signal-to-noise ratio improving means for improving the signal-to-noise ratio of the voice signal from which noise has been removed by the pre-processing means; A voice section detection device comprising voice section extraction signal generating means for generating a voice section extraction signal based on a voice signal having a signal-to-noise ratio improved by a noise-to-noise ratio improving means.
【請求項2】 前記信号対雑音比改善手段が、 前記前処理手段により雑音が除去された音声信号の短時
間自己相関値を、[数1]に基づいて算出する短時間自
己相関値算出手段である請求項1に記載の音声区間検出
装置。 【数1】
2. The short-time autocorrelation value calculation means for calculating the short-time autocorrelation value of the speech signal from which noise has been removed by the preprocessing means, based on [Equation 1]. The voice section detection device according to claim 1. [Equation 1]
【請求項3】 前記前処理手段が、 音声信号中の低周波雑音を遮断するハイパスフィルタ
と、 音声信号中の高周波雑音を遮断するローパスフィルタを
具備する請求項1に記載の音声区間検出装置。
3. The voice activity detection apparatus according to claim 1, wherein the preprocessing means comprises a high-pass filter for blocking low-frequency noise in a voice signal and a low-pass filter for blocking high-frequency noise in a voice signal.
【請求項4】 前記音声区間抽出信号生成手段が、 前記信号対雑音比改善手段で信号対雑音比が改善された
音声信号のレベルが予め定められた閾値以上である状態
が予め定められた時間継続したときに音声区間抽出信号
を開とするものである請求項1に記載の音声区間検出装
置。
4. A state in which the voice section extraction signal generating means has a state in which the level of the voice signal whose signal-to-noise ratio improving means has improved the signal-to-noise ratio is equal to or higher than a predetermined threshold value for a predetermined time. The speech segment detection device according to claim 1, wherein the speech segment extraction signal is opened when the speech segment extraction signal is continued.
【請求項5】 前記音声区間抽出信号生成手段が、 前記短時間自己相関値算出手段で算出された短時間相関
値のレベルが予め定められた閾値以上である状態が予め
定められた時間継続したときに音声区間抽出信号を開と
するものである請求項2に記載の音声区間検出装置。
5. The state in which the level of the short-time correlation value calculated by the short-time autocorrelation value calculation means is equal to or higher than a predetermined threshold value is maintained by the voice section extraction signal generation means for a predetermined time period. The voice section detection device according to claim 2, wherein the voice section extraction signal is opened at times.
【請求項6】 前記音声区間抽出信号生成手段が、 音声区間抽出信号が閉であるときの、音声信号の平均レ
ベルと予め定められた倍率の乗算値を閾値に設定する閾
値設定手段を含む請求項4又は5に記載の音声区間検出
装置。
6. The voice section extraction signal generating means includes a threshold value setting means for setting a threshold value to be a multiplication value of an average level of the voice signal and a predetermined scaling factor when the voice section extraction signal is closed. Item 4. The voice section detection device according to Item 4 or 5.
【請求項7】 前記音声区間抽出信号生成手段が、 前記短時間自己相関値算出手段で算出された短時間自己
相関値の二乗平均値を算出する二乗平均値算出手段と、 前記二乗平均値算出手段で算出された短時間自己相関値
の二乗平均値を平滑化する平滑化手段と、 音声区間抽出信号が閉であるときの、前記平滑化手段で
平滑化された短時間自己相関値の二乗平均値と予め定め
られた倍率の乗算値を閾値に設定する閾値設定手段を含
む請求項5に記載の音声区間検出装置。
7. The root mean square value calculating means for calculating the root mean square value of the short time autocorrelation values calculated by the short time autocorrelation value calculating means, and the mean square value calculation. Smoothing means for smoothing the mean square value of the short-time autocorrelation values calculated by the means, and the square of the short-time autocorrelation values smoothed by the smoothing means when the speech segment extraction signal is closed. The voice section detection device according to claim 5, further comprising a threshold value setting unit that sets a threshold value to a multiplication value of an average value and a predetermined scaling factor.
【請求項8】 前記音声区間抽出信号生成手段が、 前記短時間自己相関値算出手段で算出された短時間自己
相関値が予め定められた閾値以上である状態が予め定め
られた時間継続したときに抽出信号を開とする抽出信号
開手段と、 前記抽出信号開手段で抽出信号が開とされたときは、抽
出信号を予め定められた期間遡及的に開としたものを音
声区間抽出信号として出力する抽出信号遡及開手段を具
備する請求項2に記載の音声区間検出装置。
8. The voice section extraction signal generation means, when the short time autocorrelation value calculated by the short time autocorrelation value calculation means is equal to or more than a predetermined threshold value for a predetermined time. When the extraction signal is opened by the extraction signal opening means for opening the extraction signal, the extraction signal is opened by the extraction signal opening means retrospectively for a predetermined period as a voice section extraction signal. The voice section detection device according to claim 2, further comprising a retrospective opening means for outputting the extracted signal.
【請求項9】 前記音声区間抽出信号生成手段が、 前記短時間自己相関値算出手段で算出された短時間自己
相関値が予め定められた閾値以上である状態が予め定め
られた時間継続したときに抽出信号を開とする抽出信号
開手段と、 前記抽出信号開手段で抽出信号が開とされたときは、抽
出信号が閉となった後も抽出信号を予め定められた期間
開に維持したものを音声区間抽出信号として出力する抽
出信号開維持手段を具備する請求項2に記載の音声区間
検出装置。
9. The speech section extraction signal generating means, when the short-time autocorrelation value calculated by the short-time autocorrelation value calculating means is equal to or more than a predetermined threshold value for a predetermined time. And an extraction signal opening means for opening the extraction signal, and when the extraction signal is opened by the extraction signal opening means, the extraction signal is kept open for a predetermined period even after the extraction signal is closed. 3. The voice section detection device according to claim 2, further comprising extraction signal open maintaining means for outputting a signal as a voice section extraction signal.
【請求項10】 前記音声区間抽出信号生成手段が、 前記短時間自己相関値算出手段で算出された短時間自己
相関値が予め定められた閾値以上である状態が予め定め
られた時間継続したときに抽出信号を開とする抽出信号
開手段と、 前記抽出信号開手段で抽出信号が開とされたときは、抽
出信号を予め定められた期間遡及的に開とする抽出信号
遡及開手段と、 前記遡及開手段で抽出信号が遡及開されたときは、遡及
開された抽出信号が閉となった後も抽出信号を予め定め
られた期間開に維持したものを音声区間抽出信号として
出力する抽出信号開維持手段を具備する請求項2に記載
の音声区間検出装置。
10. The voice section extraction signal generating means, when the short time autocorrelation value calculated by the short time autocorrelation value calculating means is equal to or more than a predetermined threshold value for a predetermined time. Extraction signal opening means to open the extraction signal to, when the extraction signal is opened by the extraction signal opening means, the extraction signal retrospective opening means to open the extraction signal retrospectively for a predetermined period, When the extraction signal is retrospectively opened by the retrospective opening means, the extraction signal that is kept open for a predetermined period even after the retrospectively opened extraction signal is closed is output as a voice section extraction signal. The voice section detecting device according to claim 2, further comprising a signal open maintaining unit.
JP2002024351A 2002-01-31 2002-01-31 Sound block detector Pending JP2003223175A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002024351A JP2003223175A (en) 2002-01-31 2002-01-31 Sound block detector

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002024351A JP2003223175A (en) 2002-01-31 2002-01-31 Sound block detector

Publications (2)

Publication Number Publication Date
JP2003223175A true JP2003223175A (en) 2003-08-08
JP2003223175A5 JP2003223175A5 (en) 2005-08-18

Family

ID=27746829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002024351A Pending JP2003223175A (en) 2002-01-31 2002-01-31 Sound block detector

Country Status (1)

Country Link
JP (1) JP2003223175A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006194700A (en) * 2005-01-12 2006-07-27 Hiroshima Industrial Promotion Organization Sound source direction estimation system, sound source direction estimation method and sound source direction estimation program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006194700A (en) * 2005-01-12 2006-07-27 Hiroshima Industrial Promotion Organization Sound source direction estimation system, sound source direction estimation method and sound source direction estimation program

Similar Documents

Publication Publication Date Title
US8768692B2 (en) Speech recognition method, speech recognition apparatus and computer program
JP2638499B2 (en) Method for determining voice pitch and voice transmission system
KR101444099B1 (en) Method and apparatus for detecting voice activity
CN101625858B (en) Method for extracting short-time energy frequency value in voice endpoint detection
JP3105465B2 (en) Voice section detection method
Govind et al. Epoch extraction from emotional speech
JP3033061B2 (en) Voice noise separation device
JP4705414B2 (en) Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium
US7231346B2 (en) Speech section detection apparatus
JP2000310993A (en) Voice detector
JP2003223175A (en) Sound block detector
JPH0229232B2 (en)
JP2000163099A (en) Noise eliminating device, speech recognition device, and storage medium
JP2006154212A (en) Speech evaluation method and evaluation device
JP4166405B2 (en) Drive signal analyzer
JP4408205B2 (en) Speaker recognition device
KR100345402B1 (en) An apparatus and method for real - time speech detection using pitch information
Park et al. Pitch detection based on signal-to-noise-ratio estimation and compensation for continuous speech signal
JP3190231B2 (en) Apparatus and method for extracting pitch period of voiced sound signal
JPH05100661A (en) Measure border time extraction device
JP2002091470A (en) Voice section detecting device
JP2003280678A (en) Speech recognizing device
JP2005266098A (en) Speech signal segmenting method, speech pitch detecting method, and speech section detection processing method
JP4882152B2 (en) Speech speed detection method and audio signal processing apparatus
JP3937688B2 (en) Speech speed conversion method and speech speed converter

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050128

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070703