JPH0222960B2 - - Google Patents

Info

Publication number
JPH0222960B2
JPH0222960B2 JP59056622A JP5662284A JPH0222960B2 JP H0222960 B2 JPH0222960 B2 JP H0222960B2 JP 59056622 A JP59056622 A JP 59056622A JP 5662284 A JP5662284 A JP 5662284A JP H0222960 B2 JPH0222960 B2 JP H0222960B2
Authority
JP
Japan
Prior art keywords
sound
voice
frame
signal
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59056622A
Other languages
Japanese (ja)
Other versions
JPS60200300A (en
Inventor
Hideji Morii
Satoshi Fujii
Masakatsu Hoshimi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59056622A priority Critical patent/JPS60200300A/en
Publication of JPS60200300A publication Critical patent/JPS60200300A/en
Publication of JPH0222960B2 publication Critical patent/JPH0222960B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識装置に用いられる音声の始
端・終端の検出装置に関するものである。
DETAILED DESCRIPTION OF THE INVENTION FIELD OF INDUSTRIAL APPLICATION The present invention relates to a device for detecting the start and end of speech used in a speech recognition device.

従来例の構成とその問題点 音声の始端、終端の検出方法に関する従来例と
しては、信号のエネルギーと零交差回数を用いた
方法が知られている。これは、新美康永:音声認
識、共立出版(1979)、あるいは、L.R.Rabiner
and M.R.Sambur:An algovithm for
determining the endpoint of isolated
utterances、Bell Syst.Tech.J.、(1975)に示さ
れている。
Configuration of Conventional Example and Its Problems As a conventional example of a method for detecting the start and end of speech, a method using signal energy and the number of zero crossings is known. This is Yasunaga Niimi: Speech Recognition, Kyoritsu Shuppan (1979), or LRRabiner
and MRSambur: An algovithm for
determining the endpoint of isolation
utterances, Bell Syst.Tech.J., (1975).

零交差回数というのは信号の符号のみを残し、
振幅を1ビツトに量子化した零交差波の一定時間
長の区間における零交差の平均回数である。音声
のようにスペクトル構造をもつた信号の零交差回
数はスペクトル中の優勢な周波数成分とよく対応
する。第1図a〜cは音声信号の零交差回数の分
布を示したもので、aは無音、bは無声音、cは
有声音の分布である。図から分るように、音声信
号の零交差回数は、有声音のように低域の周波数
成分の優勢は音声では第1図cのように小さな値
を示し、無声音のように高域の周波数成分の優勢
な音声では第1図bのように大きな値を示す。従
来法による音声の始端・終端検出方法はこの零交
差回数を利用することにより信号のエネルギーは
小さいが、零交差回数は大きな値をとる無声子音
の検出精度を上げた方法である。
The number of zero crossings means leaving only the sign of the signal,
This is the average number of zero-crossings in a certain time period of a zero-crossing wave whose amplitude is quantized to 1 bit. The number of zero crossings of a signal with a spectral structure, such as voice, corresponds well to the dominant frequency components in the spectrum. Figures 1a to 1c show the distribution of the number of zero crossings of the audio signal, where a is the distribution of silent sounds, b is the distribution of unvoiced sounds, and c is the distribution of voiced sounds. As can be seen from the figure, the number of zero-crossings in the audio signal is dominated by low frequency components like voiced sounds, small values as shown in Figure 1c in voiced sounds, and high frequency components like unvoiced sounds. Speech with a dominant component shows a large value as shown in FIG. 1b. The conventional method for detecting the beginning and end of a voice uses the number of zero crossings to improve the detection accuracy of unvoiced consonants, which have a small signal energy but a large number of zero crossings.

以下図面を参照しながら従来例の音声の始端・
終端検出方法について説明する。
Referring to the drawings below, we will explain the starting point and
The termination detection method will be explained.

第2図は従来例の構成を示したものであり、第
3図は従来例における音声の始端・終端検出方法
の動作を説明するための例を示したものである。
音声を含む信号は第2図に示すエネルギー算出部
1と零交差回数算出部2によりフレーム(例えば
10msec長)毎に信号エネルギーE(n)(nはフ
レーム番号)と零交差回数Nz(n)という2つの
特徴パラメータに変換される。3は信号のエネル
ギーレベルにより確実に音声区間であるという部
分を検出する始端・終端候補決定部であり、信号
エネルギーE(n)に対対し2つの閾値E1,E2
(E1>E2)を適用し音声の始端候補n1、終端候補
n2を求める。これは第3図aの例に示すように、
エネルギーの値がE2を越え、かつその後E2以下
になることなしにE1を越えるとき、音声区間に
入つたとみなし、E2を越えた点を始端候補n1とす
るものである。終端候補n2は時間軸を逆にして、
同様の方法で決定する。第2図の4は音声の始
端・終端決定部である。ここでは、零交差回数算
出部2で計算された信号の零交差回数Nz(n)と
閾値Noを用いて、エネルギーE(n)は小さいが
零交差回数Nz(n)が大きな値をとる無声音が、
始端・終端候補決定部3で定められた音声の始
端・終端候補(n1,n2)の外側にないか検査す
る。第3図bの例に示すように、始端候補n1より
前の数フレームの区間において零交差回数Nz
(n)が閾値Noより大となるフレームの数を数
え、その数が一定値(たとえば3)以上であれば
始端候補n1より前に無声音があるとみなし最初に
閾値Noを越えたフレームn′1に始端を移す。終端
についても同様である。ただし、第3図bでは終
端n2はもとのままである場合を示している。この
ようにして最終的な音声の始端、終端(n′1、n2
が決定される。
FIG. 2 shows the configuration of a conventional example, and FIG. 3 shows an example for explaining the operation of the voice start/end detection method in the conventional example.
A signal including audio is divided into frames (e.g.
(10 msec length), the signal energy E(n) (n is the frame number) and the number of zero crossings Nz(n) are converted into two characteristic parameters. Reference numeral 3 denotes a start/end candidate determination unit that detects a portion that is definitely a voice section based on the energy level of the signal, and has two thresholds E 1 and E 2 for the signal energy E(n).
Applying (E 1 > E 2 ), start candidate n 1 and end candidate of audio
Find n 2 . This is shown in the example in Figure 3a,
When the energy value exceeds E 2 and then exceeds E 1 without falling below E 2 , it is considered that the voice section has entered, and the point where it exceeds E 2 is set as the starting point candidate n 1 . Termination candidate n 2 reverses the time axis,
Determine in a similar manner. 4 in FIG. 2 is a voice start/end determining section. Here, using the number of zero crossings Nz(n) of the signal calculated by the number of zero crossings calculation unit 2 and the threshold value No. but,
It is checked whether there is a voice start/end candidate (n 1 , n 2 ) determined by the start/end candidate determining unit 3. As shown in the example in Figure 3b, the number of zero crossings Nz in the section of several frames before the starting edge candidate n 1
Count the number of frames in which (n) is greater than the threshold No. If the number is greater than a certain value (for example, 3), it is assumed that there is an unvoiced sound before the starting point candidate n 1 , and the frame n that exceeds the threshold No. ′ Move the starting end to 1 . The same applies to the termination. However, FIG. 3b shows the case where the terminal end n2 remains as it was. In this way, the final beginning and end of the voice (n′ 1 , n 2 )
is determined.

しかし、上記のように零交差回数を用いた方法
では、エネルギーが小さく零交差回数も小さい有
声子音(例えば、/b/、/d/)などの脱落を
減小することはできない。また、音声の始端、終
端には唇を開けたときの雑音とか呼吸音による雑
音が付加しやすい。第4図a,bは上記雑音が付
加した音声のエネルギー変化を示したもので、a
は唇の動きによる雑音が始端に付加した場合の例
として異様(/ijoo/)という音声のパワー変化
を示し、bは呼吸音による雑音が始端に付加した
場合の例として出場(/ideju/)という音声の
パワー変化を示したものである。図に示した例の
ような場合、従来例では始端は雑音部分となつて
しまう。このように、従来例による方法では始
端、終端の位置を誤つてしまい音素の脱落や雑音
による音素の付加がさけられない場合があるとい
う欠点がある。
However, the method using the number of zero crossings as described above cannot reduce the dropout of voiced consonants (for example, /b/, /d/), which have small energy and a small number of zero crossings. In addition, noise caused by opening the lips or breathing sounds is likely to be added to the beginning and end of the voice. Figures 4a and 4b show the energy changes of the voice added with the above noise, and a
shows the power change of the strange voice (/ijoo/) as an example when noise due to lip movements is added to the beginning, and b shows the power change of the voice (/ideju/) as an example when noise due to breathing sounds is added to the beginning. This shows the change in the power of the voice. In a case like the example shown in the figure, in the conventional example, the starting end becomes a noise part. As described above, the conventional method has the disadvantage that the beginning and end positions may be incorrect and phonemes may be dropped or phonemes may be added due to noise.

発明の目的 本発明は上記欠点に鑑み、音声の脱落、雑音の
付加が少なく、位置精度の高い音声の始端、終端
検出装置を提供するものである。
OBJECTS OF THE INVENTION In view of the above-mentioned drawbacks, the present invention provides a voice start/end detection device that is less likely to drop out of voice, add less noise, and has high positional accuracy.

発明の構成 上記目的を達成するためには、信号のエネルギ
ーとスペクトル形状によりフレーム毎(例えば
10msec)に有音・無音の判定を行なう有音・無
音判定部と、フレーム毎の有音・無音判定結果の
持続性により音声の始端・終端候補を検出する部
分と、無音から有音またはその逆の有音から無音
に変化する場合における信号のエネルギーの変化
とスペクトルの変化の大きさという動的な特徴に
より始端・終端の位置を決定する部分とを備え、
入力された音声を含む信号から音声の始端・終端
の位置を検出するようにしたものである。
Structure of the Invention In order to achieve the above object, it is necessary to
10msec), a voice/non-speech determination section that determines whether there is voice or no voice, a section that detects voice start/end candidates based on the persistence of voice/silence determination results for each frame, and a section that detects voice start/end candidates based on the persistence of voice/silence determination results for each frame; A part that determines the starting and ending positions based on the dynamic characteristics of the change in the energy of the signal and the magnitude of the change in the spectrum when the signal changes from sound to silence,
The position of the start and end of the voice is detected from a signal including the input voice.

実施例の説明 以下、本発明の実施例について図面を参照しな
がら説明する。
DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments of the present invention will be described with reference to the drawings.

第5図は本発明の一実施例における音声認識装
置に組込まれた音声の始端・終端検出装置のブロ
ツク図を示したものである。図において5はエネ
ルギー抽出部で、整流平滑回路で構成され信号の
パワーをフレーム毎に抽出する。6はスペクトル
形状抽出部で、例えば、低域(250〜600Hz)、中
域(600〜1500Hz)、高域(1500〜4000Hz)の3種
類の帯域通過フイルタ群と整流平滑回路で構成さ
れ、各帯域におけるフレーム毎のパワーがスペク
トル情報として用いられている。エネルギー抽出
部5とスペクトル形状抽出部6とで特徴量抽出部
13を構成する。7はマルチプレクサで、エネル
ギー抽出部5からの信号のパワーとスペクトル形
状抽出部6からの帯域フイルタパワーを時分割で
有音・無音判定部8へ入力するためのものであ
る。8は有音・無音判定部で、無音、無声音、有
声音の判別を行うためのものである。9,10は
閾値メモリと標準パターンメモリであり有音・無
音判定部8で用いられる定数値が格納されてい
る。閾値メモリ9には、パワーの2つの閾値E1
E2(E1>E2)が格納してある。また、標準パター
ンメモリ10には、無音・無声音を判別するため
の線形判別関数と無音・有声音を判別するための
線形判別関数の2種類の線形判別関数の係数が格
納されている。そして、これら2つの閾値E1
E2と2つの線形判別関数の係数は、あらかじめ
使用する環境下で発声された音声データの統計処
理により求められ、格納されている。11は始
端・終端候補検出部であり、有音・無音判定部8
より送られてくるフレーム毎の有音・無音判定結
果の持続時間により、音声の始端・終端候補を検
出する。12は始端・終端決定部で、最終的な始
端・終端を決定する。なお、第5図8〜12はマ
イクロプロセツサ1台で構成される。
FIG. 5 shows a block diagram of a speech start/end detection device incorporated in a speech recognition device according to an embodiment of the present invention. In the figure, reference numeral 5 denotes an energy extraction section, which is composed of a rectifying and smoothing circuit and extracts the power of the signal for each frame. 6 is a spectrum shape extraction section, which is composed of three types of bandpass filter groups for low frequency (250 to 600 Hz), mid frequency (600 to 1500 Hz), and high frequency (1500 to 4000 Hz), and a rectification and smoothing circuit. The power per frame in the band is used as spectral information. The energy extractor 5 and the spectral shape extractor 6 constitute a feature extractor 13. Reference numeral 7 denotes a multiplexer for inputting the signal power from the energy extraction section 5 and the band filter power from the spectrum shape extraction section 6 to the sound/non-sound determination section 8 in a time-division manner. Reference numeral 8 denotes a voiced/non-sound determining section, which is used to determine whether there is no voice, unvoiced sound, or voiced sound. Reference numerals 9 and 10 are threshold memories and standard pattern memories, in which constant values used by the voice/silence determining section 8 are stored. The threshold memory 9 stores two power thresholds E 1 ,
E 2 (E 1 > E 2 ) is stored. Further, the standard pattern memory 10 stores coefficients of two types of linear discriminant functions: a linear discriminant function for discriminating silent/voiceless sounds, and a linear discriminant function for discriminating silent/voiced sounds. And these two threshold values E 1 ,
E 2 and the coefficients of the two linear discriminant functions are obtained in advance by statistical processing of voice data uttered under the environment to be used and are stored. 11 is a start/end candidate detection unit, and a voice/non-speech determination unit 8
Based on the duration of the sound/non-sound determination results for each frame sent from the system, candidates for the start and end of the audio are detected. Reference numeral 12 denotes a starting end/terminating end determining section, which determines the final starting end/end end. Note that FIGS. 8 to 12 are constructed with one microprocessor.

以上のように構成された音声の始端・終端検出
装置についてその動作を説明する。
The operation of the audio start/end detection device configured as described above will be explained.

マイク等より入力される音声を含む信号は第5
図のエネルギー抽出部5およびスペクトル形状抽
出部6によりフレーム毎にパワーPWと3つの帯
域パワーPi(i=1〜3)に変換される。この
PW、Piはマルチプレクサ7を経て有音・無音判
定部8に入力される。有音・無音判定部8では入
力されたPW、Pi(i=1〜3)の4つのパラメ
ータを対数変換し対数パワーLPWと対数帯域パ
ワーLPi(i=1〜3)を求める。そして、LPW
とLPi(i=1〜3)の4つのパラメータと閾値
メモリ9と標準パターンメモリ10に格納されて
いる閾値E1,E2と2つの線形判別関数の係数と
を用いて、入力されたフレームが有音であるか無
音であるかを判定する。この有音・無音判定はま
ず最初に2つのエネルギー閾値E1,E2(E1>E2
と対数パワーLPWとの比較による判定が行なわ
れる。2つの閾値E1,E2はLPW>E1ならば確実
に有音であり、LPW<E2ならば確実に無音であ
るという値に設定されているため判定結果は式(1)
に示すようなものとなる。
The signal containing the voice input from the microphone etc. is the fifth
Each frame is converted into power PW and three band powers P i (i=1 to 3) by the energy extractor 5 and spectral shape extractor 6 shown in the figure. this
PW and P i are input to the sound/non-sound determination unit 8 via the multiplexer 7 . The voice/silence determination unit 8 logarithmically transforms the input four parameters PW and P i (i=1 to 3) to obtain logarithmic power LPW and logarithmic band power LP i (i=1 to 3). And L.P.W.
and LP i (i = 1 to 3), the thresholds E 1 and E 2 stored in the threshold memory 9 and the standard pattern memory 10, and the coefficients of the two linear discriminant functions. Determine whether the frame is speech or silent. This sound/non-sound judgment first uses two energy thresholds E 1 and E 2 (E 1 > E 2 ).
Judgment is made by comparing the logarithmic power LPW with the logarithmic power LPW. The two thresholds E 1 and E 2 are set to values such that if LPW>E 1 , there is definitely a sound, and if LPW<E 2 , there is definitely no sound, so the judgment result is given by formula (1)
It will look like the one shown below.

LPW>E1 ならば 有音 LPW<E2 ならば 無音 E2LPWE1 ならば 不定 式(1) LPWというエネルギー量を用いた判定で不定
という判定結果を得た場合は、さらにスペクトル
形状による有音・無音判定を行なう。これは、低
域、中域、高域の3つの帯域の対数パワーLPi
(i=1〜3)をスペクトル形状を表わすパラメ
ータとし、標準パターンメモリ10に格納してあ
る2種類の線形判別関数の係数を用い判別関数の
値を計算することにより有音・無音を判定するも
のである。この2つの線形判別関数のうち1つは
有音/無声音を判別するためのものであり、もう
1つは有音/無声音を判別するためのものであ
る。線形判別関数FXは式(2)に示すものであり、
標準パターンメモリ10には式(2)のAi(i=1〜
3)とi(i=1〜3)が無音/無声音、無
音/有声音という2種類の線形判別関数毎に格納
されている。
If LPW>E 1 then sound LPW<E 2 then no sound E 2 If LPWE 1 then Indefinite Equation (1) If the determination using the amount of energy called LPW yields an undetermined result, then we can further consider the existence by the spectral shape. Performs sound/silence judgment. This is the logarithmic power LP i of the three bands: low, mid, and high.
(i=1 to 3) is a parameter representing the spectral shape, and the presence/absence of speech is determined by calculating the value of the discriminant function using the coefficients of two types of linear discriminant functions stored in the standard pattern memory 10. It is something. One of these two linear discriminant functions is for discriminating between voiced and unvoiced sounds, and the other is for discriminating between voiced and unvoiced sounds. The linear discriminant function FX is shown in equation (2),
The standard pattern memory 10 stores A i (i=1~
3) and i (i=1 to 3) are stored for each of two types of linear discriminant functions: silent/unvoiced and silent/voiced.

FX=3i=1 Ai(LPii) ……式(2) (ただし、Aiは係数、iは平均値) 式(2)におけるAiは2つのクラスの最適な判別を
行なうように設定され2つのクラスの級内分散、
級間分散の比であるFisher比の最大化条件から求
められる。本実施例において、式(2)のAiおよび
LPiはあらかじめ使用環境下で発声された音声デ
ータの無音・無声音・有声音を統計処理して求め
られる。そしてFXの値は入力が無音のとき負で、
入力が無声音あるいは有声音のときは正の値をと
るように設定してある。したがつて、スペクトル
形状による有音、無音判定は無音/無声音と無
音/有声音の2つの線形判別関数を計算しいずれ
か一方でも正の値をとるならば有音、2つとも負
の値ならば無音と判定する。このようにして得ら
れたフレーム毎の有音・無音の判定結果は第5図
の始端・終端候補検出部11に送られる。始端・
終端候補検出部11ではフレーム毎に得られる有
音・無音の判定結果の持続時間により音声の始端
候補および終端候補を検出する。11の始端・終
端候補検出部はマイクロプロセツサの2つのレジ
スタをカウンタとして用い、さらに比較演算機能
を用いて構成される。そして、始端候補検出にお
いては1つのカウンタだけを用い、終端候補検出
ではカウンタを2つとも用いている。第6図は始
端候補検出のための処理の流れを示したものであ
る。第6図は有音と判定されたフレームが5フレ
ーム以上連続したときその先頭のフレームを始端
候補とすることを示している。第6図の処理イは
有音フレームのカウンタ(第6図のCOUNT)、
始端候補フレーム番号格納領域(第6図
FRAMES)そして処理フレームポジシヨン(第
6図I)の初期化のためのリセツトである。第6
図処理ロは処理フレームポジシヨンの更新であ
る。処理ハは処理フレームが有音であるか無音で
あるかの比較による分岐である。処理しているフ
レームが有音である場合は有音フレームのカウン
タ(COUNT)に1を加える(第6図処理ニ)。
さらに、始端候補フレーム番号格納領域
(FRAMES)が0にリセツトされたままである
場合は現在処理を行なつているフレームの番号
(I)を格納する(処理ホ,ヘ)。処理トでは有音
フレームのカウンタ5になつたかの判定を行な
う。そして、カウンタが5以下の場合は処理ロに
戻り、カウンタが5以上になつた場合は始端候補
が検出されたということで始端候補検出処理を終
了する。処理が終了するまでの間に処理ハにおい
て無音であるというフレームがあつた場合は、処
理チにおいて有音フレームカウンタおよび始端候
補フレーム番号格納領域はリセツトされ処理はロ
に戻る。有音フレームカウンタは無音フレームが
あると処理チによりリセツトされるため有音が連
続したフレーム数のカウンタとなる。したがつ
て、処理トの判定は有音が5フレーム以上連続し
たかの判定となる。したがつて、音声の始端の前
に唇の動きによる雑音などで有声と判定されたフ
レームが2〜3フレームあつてもその後に1フレ
ームでも無音と判定されるフレームがあればそれ
は除去される。このようにして始端候補が検出さ
れると次に終端候補検出のための処理が行なわれ
る。第7図は終端候補検出のための処理の流れを
示したものである。
FX= 3i=1 A i (LP ii ) ...Equation (2) (A i is a coefficient, i is an average value) A i in Equation (2) is the optimal discrimination between two classes. Intraclass variance of two classes,
It is obtained from the condition for maximizing the Fisher ratio, which is the ratio of interclass variance. In this example, A i and
LP i is determined in advance by statistically processing the silence, unvoiced sounds, and voiced sounds of the audio data uttered under the usage environment. And the FX value is negative when the input is silent,
It is set to take a positive value when the input is an unvoiced sound or a voiced sound. Therefore, to determine voice presence or non-voice based on the spectral shape, calculate two linear discriminant functions: silent/unvoiced and silent/voiced, and if either one takes a positive value, there is a voice, and both have negative values. If so, it is determined that there is no sound. The sound/silence determination result for each frame thus obtained is sent to the start/end candidate detection section 11 shown in FIG. Starting point/
The end candidate detection unit 11 detects a start end candidate and an end end candidate of the audio based on the duration of the sound/silence determination result obtained for each frame. The start/end candidate detection section 11 is constructed using two registers of a microprocessor as a counter and further uses a comparison calculation function. Only one counter is used to detect the starting edge candidate, and both counters are used to detect the ending edge candidate. FIG. 6 shows the flow of processing for detecting a starting edge candidate. FIG. 6 shows that when five or more consecutive frames are determined to have sound, the first frame is selected as the starting edge candidate. Processing A in Fig. 6 is a counter of sound frames (COUNT in Fig. 6),
Starting edge candidate frame number storage area (Fig. 6
FRAMES) and a reset for initializing the processing frame position (FIG. 6I). 6th
Figure processing b is an update of the processing frame position. Process C is branching based on a comparison of whether the processing frame is sound or silent. If the frame being processed is a sound frame, 1 is added to the sound frame counter (COUNT) (processing d in Figure 6).
Further, if the starting edge candidate frame number storage area (FRAMES) remains reset to 0, the number (I) of the frame currently being processed is stored (processing E, F). In the processing step, it is determined whether the counter 5 of a sound frame has been reached. If the counter is less than or equal to 5, the process returns to step B. If the counter is greater than or equal to 5, it means that a starting edge candidate has been detected, and the starting edge candidate detection process ends. If a silent frame is found in process C until the process is completed, the sound frame counter and the starting edge candidate frame number storage area are reset in process C, and the process returns to B. Since the sound frame counter is reset by the processing unit when there is a silent frame, it becomes a counter for the number of consecutive frames with sound. Therefore, the determination as to whether or not to process is a determination as to whether there is a continuous sound for five or more frames. Therefore, even if there are two or three frames that are determined to be voiced due to noise caused by lip movement before the start of the voice, if there is even one frame that is determined to be silent after that, that frame is removed. Once the starting edge candidate is detected in this way, processing for detecting the ending edge candidate is then performed. FIG. 7 shows the flow of processing for detecting termination candidates.

第7図の処理イは無音フレームのカウンタ(第
7図のCOUNT1)、有音フレームのカウンタ(第
7図のCOUNT2)そして終端候補フレーム番号
格納領域(第7図FRAMEE)の初期化のための
リセツトである。第7図処理ロは処理フレームポ
ジシヨン(第7図I)の更新である。処理ハは処
理フレームが有音であるか無音であるかの比較に
よる分岐である。処理しているフレームが無音で
ある場合は無音フレームカウンタを更新し、有音
フレームカウンタをリセツトする(処理ニ,ホ)。
さらに無音カウンタが2以上でかつ終端フレーム
番号格納領域がリセツトされている場合には無音
フレームカウンタが1となつたフレームの番号を
終端候補フレームとして終端フレーム格納領域に
格納する(処理ヘ,ト)。処理チでは無音フレー
ムカウンタが30になつたかの判定を行なう。そし
て、無音フレームカウンタが30未満の場合は処理
ロに戻り、30以上となつた場合は音声が終了した
とみなし処理を終了する。処理ハにおいて有音で
あつた場合に分岐する処理リ,ヌ,ルは終端候補
フレームが格納されてから有音のフレームが何フ
レーム連続したかの処理で5フレーム以上連続し
た場合は、音声は終了していないとみなし処理イ
に戻り終端候補検出をやり直す。有音フレームが
5フレーム未満の場合は雑音とみなし、その区間
は無音区間であるということで処理ニにおいて無
音フレームカウンタにその区間長が加えられる。
Process A in Fig. 7 is for initializing the silent frame counter (COUNT1 in Fig. 7), the sound frame counter (COUNT2 in Fig. 7), and the end candidate frame number storage area (FRAMEE in Fig. 7). This is a reset. Process B in FIG. 7 is an update of the processing frame position (FIG. 7 I). Process C is branching based on a comparison of whether the processing frame is sound or silent. If the frame being processed is silent, the silent frame counter is updated and the sound frame counter is reset (processing D, E).
Furthermore, if the silent frame counter is 2 or more and the end frame number storage area has been reset, the number of the frame for which the silent frame counter becomes 1 is stored as the end candidate frame in the end frame storage area (processes B and T). . In processing Q, it is determined whether the silent frame counter has reached 30 or not. Then, if the silent frame counter is less than 30, the process returns to processing, and if it becomes 30 or more, it is assumed that the audio has ended and the process ends. Processing 3, which branches when there is sound in processing C, is a process that determines how many consecutive frames have had sound after the end candidate frame is stored, and if there are 5 or more consecutive frames, the sound is If it is not completed, return to processing A and redo the terminal candidate detection. If the number of sound frames is less than 5 frames, it is regarded as noise, and since that section is a silent section, the section length is added to the silent frame counter in process 2.

終端候補は無音フレームが2フレーム連続した
とき音声の終了の可能性があるとし先頭の無音フ
レームを音声の終了候補とし、その終了候補フレ
ームから29フレームの間に有音フレームが5フレ
ーム以上連続することがない場合は先の終了候補
フレームを終端候補とする。もし、終了候補から
29フレーム後の間に有音フレームが5フレーム以
上連続した場合は、音声はまだ終了していないと
し、カウンタおよび終了候補フレームをすべてリ
セツトし第7図に示す終端検出処理を次のフレー
ムからやり直す。このような処理により終端に付
加された4フレーム以下の雑音は取り除かれる。
始端・終端決定部12では始端・終端候補検出部
11により検出された始端・終端候補フレーム付
近におけるパワーLPWとスペクトルLPiの変化の
大きさにより最終的な始端・終端を決定する。パ
ワーの変化の大きさを表わすパラメータとしては
式(3)に示すようにフレーム毎に得られる対数パワ
ーLPWの差分値LPWDが用いられる。
The end candidate is the possibility of the end of the audio when there are two consecutive silent frames, so the first silent frame is the end candidate for the audio, and there are 5 or more consecutive frames with sound within 29 frames from the end candidate frame. If there is no end candidate frame, the previous end candidate frame is set as the end candidate frame. If from the end candidate
If there are 5 or more consecutive frames with sound after 29 frames, it is assumed that the audio has not ended yet, the counter and end candidate frames are all reset, and the end detection process shown in Figure 7 is restarted from the next frame. . Through such processing, noise added to the end of 4 frames or less is removed.
The start/end determination unit 12 determines the final start/end based on the magnitude of change in the power LPW and spectrum LP i in the vicinity of the start/end candidate frame detected by the start/end candidate detection unit 11 . As a parameter representing the magnitude of power change, the difference value LPWD of logarithmic power LPW obtained for each frame is used as shown in equation (3).

LPWDj=LPWj−LPWj-1 ……式(3) (ただし、jはフレーム番号) また、スペクトルの変化の大きさを表わすパラ
メータとしては式(4)に示す帯域対数パワーLPi
ユークリツド距離SPDを用いる。
LPWD j = LPW j −LPW j-1 ...Equation (3) (where j is the frame number) In addition, as a parameter representing the magnitude of the change in the spectrum, the Euclidean value of the band logarithmic power LP i shown in Equation (4) is Use distance SPD.

SPDj3i=1 (LPij-LPij-1)2 ……(4) (ただし、iは帯域を表わし、jはフレーム番号
を表わす) LPWDというパラメータはパワーが増加して
いる場合正の値をとり、パワーが減少している場
合は負の値をとる。また、SPDは無音から有音
へと変化する場合のようにスペクトルの形状が大
きく変化するところでは大きな値をとる。始端の
決定はまず始めにLPWDが正の値をとるフレー
ムを始端候補から後端に向つて検索する。次に
LPWDが最初に正となつたフレームから後2フ
レームの計3フレームの中でLPWDが正の値で
SPDが最大となるフレームを求め、そのフレー
ムを始端フレームと決定する。
SPD j = 3i=1 (LP ij -LP ij-1 ) 2 ...(4) (However, i represents the band and j represents the frame number) The parameter LPWD is used when the power is increasing. It takes a positive value, and if the power is decreasing, it takes a negative value. Furthermore, SPD takes a large value where the shape of the spectrum changes significantly, such as when changing from silence to sound. To determine the starting edge, first, a frame in which LPWD takes a positive value is searched from the starting edge candidate toward the trailing edge. next
LPWD has a positive value in a total of 3 frames, from the first frame where LPWD becomes positive to the next two frames.
Find the frame with the maximum SPD and determine that frame as the starting frame.

終端の決定は、まず始めにLPWDが負の値を
とるフレームを終端候補フレームから始端方向に
向つて検索する。次にLPWDが最初に負となつ
たフレームから2フレーム前の計3フレームの中
でLPWDが負の値でSPDが最大となるフレーム
を求め、そのフレームの1つ前のフレームを終端
フレームと決定する。このようにして得られた始
端・終端は音声認識装置にて利用される。
To determine the end, first, a frame whose LPWD takes a negative value is searched from the end candidate frame toward the start end. Next, find the frame in which LPWD has a negative value and SPD is maximum among a total of three frames, two frames before the frame where LPWD first becomes negative, and determine the frame one before that frame as the terminal frame. do. The start and end points obtained in this way are used in a speech recognition device.

本実施例によれば、有音・無音判定部8におい
てエネルギーレベルが低い入力信号に対し、線形
判別関数を用い無音とのスペクトル形状の相異に
より有音であるか判定する方法をとつているた
め、エネルギーの小さな無声子音や有声子音の脱
落を減少することができる。また、始端・終端候
補検出部11において、音声の持続性を考慮した
検出を行なつているので、音声の始端・終端前後
に付加された短かい雑音を取り除くことができ
る。さらに、始端・終端決定部12では、無音か
ら有音あるいは逆の場合におけるエネルギーの変
化とスペクトル形状の変化の大きさを利用して始
端・終端の位置を決定しているために位置精度の
高い音声の始端・終端を得ることができる。第8
図は「土台」(/dodai/)と発声された音声に
本発明の一実施例における始端・終端検出を適応
した例で、第8図aは対数パワーLPWを示し、
bはスペクトル変化SPD、cはパワー変化
LPWD、dの実線は無音/無声音を判別する線
形判別関数の値、破線は無音/有声音を判別する
線形判別関数の値を示したものである。第8図の
例においては、始端・終端にそれぞれ雑音が見ら
れる。フレーム毎の無音・有音判定部8では、
LPWがE1以上であるか、またはLPWがE1とE2
間にある場合はdに示す二つの線形判別関数の正
負を勘案することにより、aに示すイからロおよ
びハからニの区間を有音と判定する。これにより
始端の雑音が取り除かれる。始端・終端候補検出
部11においては、有音・無音フレームの持続性
により始端候補フレームをイとし、終端候補フレ
ームをロとする。このときハからニの有音区間は
5フレーム未満であるため雑音と判定される。そ
して、始端・終端決定部12では対数パワーの変
化cとスペクトルの変化bにより始端イ′、終端
ロ′が決定され雑音が除去された正しい始端・終
端の位置が得られる。あらかじめ目視による始
端・終端のラベル付けが行なわれている男性話者
1名が発声した212単語を用いて本発明の一実施
例の評価実験を行なつた結果、ラベルとの差が2
フレーム以内となるものが始端で93.4%、終端
92.9%、ラベルとの差が3フレーム以内となるも
のが始端で97.6%、終端で97.2%という結果を得
た。そして、始端の音素脱落という重大な誤りは
2単語、終端の音素脱落という重大な誤りは2単
語と少なく、また雑音の付加による誤りはなく、
良好な結果を得ることができ、本発明による音声
の始端・終端検出装置が有効に動作することを確
めることができた。
According to this embodiment, the sound/silence determination unit 8 uses a linear discriminant function for an input signal with a low energy level to determine whether or not there is sound based on the difference in spectral shape from silence. Therefore, dropout of voiceless consonants and voiced consonants with low energy can be reduced. Furthermore, since the start/end candidate detection unit 11 performs detection taking into consideration the continuity of the voice, short noises added before and after the start/end of the voice can be removed. Furthermore, the start/end determining unit 12 determines the start/end positions using the change in energy and the magnitude of the change in spectral shape from silent to active or vice versa, resulting in high positional accuracy. You can get the start and end of the audio. 8th
The figure shows an example in which the start/end detection according to an embodiment of the present invention is applied to a voice uttered as "base" (/dodai/), and FIG. 8a shows the logarithmic power LPW.
b is spectrum change SPD, c is power change
The solid line of LPWD, d shows the value of the linear discriminant function for discriminating silent/voiceless sound, and the broken line shows the value of the linear discriminant function for discriminating silent/voiced sound. In the example shown in FIG. 8, noise can be seen at both the start and end ends. In the silence/speech determination unit 8 for each frame,
If LPW is greater than or equal to E 1 , or if LPW is between E 1 and E 2 , then by considering the sign of the two linear discriminant functions shown in d, we can calculate the difference between A to B and C to D shown in a. Determine the interval as having sound. This removes the noise at the beginning. The start/end candidate detection unit 11 sets the start end candidate frame as A and the end candidate frame as B depending on the persistence of the voiced and silent frames. At this time, since the sound intervals from C to D are less than 5 frames, they are determined to be noise. Then, the start/end determining section 12 determines the start/end A' and the end/B' based on the change c in the logarithmic power and the change b in the spectrum, thereby obtaining the correct start/end positions from which noise has been removed. As a result of conducting an evaluation experiment of an embodiment of the present invention using 212 words uttered by one male speaker whose starting and ending points have been visually labeled in advance, it was found that the difference from the label was 2.
93.4% are within the frame at the start end, and 93.4% at the end
We obtained results of 92.9%, 97.6% at the start end, and 97.2% at the end, where the difference from the label was within 3 frames. There were only two words with serious errors in which a phoneme was dropped at the beginning, and only two words in which a phoneme was dropped at the end, and there were no errors caused by the addition of noise.
Good results were obtained, and it was confirmed that the audio start/end detection device according to the present invention operates effectively.

なお、以上の説明ではスペクトル形状を表わす
パラメータとして帯域対数パワーを用いた有音・
無音の判定として線形判別関数を用いた場合につ
いて説明したが、スペクトル形状を表わすパラメ
ータとして信号のフーリエ変換や線形予測分析に
より得られるパワースペクトルや線形予測分析に
より得られるLPC−ケプストラム係数を用い、
有音・無音の判定法としてベイズ判定やマハラノ
ビス距離などの統計的距離尺度を用いても良い。
In addition, in the above explanation, we use band logarithmic power as a parameter representing the spectrum shape.
We have explained the case where a linear discriminant function is used to determine silence, but the power spectrum obtained by Fourier transform of the signal or linear predictive analysis and the LPC-cepstral coefficient obtained by linear predictive analysis are used as parameters representing the spectral shape.
A statistical distance measure such as Bayesian judgment or Mahalanobis distance may be used to determine whether there is a sound or no sound.

発明の効果 以上のように、本発明は信号のエネルギー情報
だけでなくスペクトル形状をも用いたフレーム毎
の有音・無音判定部と、音声の持続性を考慮した
始端・終端候補検出部と、エネルギーの変化およ
びスペクトル形状の変化量により始端・終端位置
を決定する決定部により構成される音声の始端・
終端検出装置を提供するもので、有音・無音判定
として、無音・無声音・有声音のスペクトル標準
パターンとの統計的距離尺度を用いたスペクトル
形状の相異を利用しているため、エネルギーの小
さな無声子音や有声子音の脱落を少なくでき、ま
た有音の持続性による始端・終端候補検出を行な
つているため雑音の付加が少なく、しかもエネル
ギーとスペクトルの変化の大きさにより始端・終
端の位置を決定するための位置情報が高いという
すぐれた効果が得られる。
Effects of the Invention As described above, the present invention includes a speech presence/non-speech determination unit for each frame that uses not only signal energy information but also spectral shape, a start/end candidate detection unit that takes into consideration the continuity of audio, The voice start/end position is composed of a determining section that determines the start/end position based on changes in energy and amount of change in spectral shape.
This device provides an end detection device that uses the difference in spectral shape using a statistical distance measure from standard spectral patterns of silence, unvoiced sounds, and voiced sounds to determine whether there is a sound or not. It is possible to reduce the dropout of unvoiced consonants and voiced consonants, and since starting and ending candidates are detected based on the persistence of voicing, there is less noise added, and the starting and ending positions can be determined based on the magnitude of changes in energy and spectrum. This has the advantage of providing a high level of location information for determining the location.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は従来用いられている零交差回数の分布
図、第2図は従来の始端・終端検出装置のブロツ
ク図、第3図は従来の始端・終端検出装置の動作
例を説明する図、第4図は従来で雑音が付加した
音声のエネルギー変化を示す図、第5図は本発明
の一実施例における音声の始端・終端検出装置の
ブロツク図、第6図は本発明の一実施例における
始端候補検出処理を示すフローチヤート図、第7
図は本発明の一実施例における終端候補検出処理
を示すフローチヤート図、第8図は本発明の一実
施例における動作例を説明する図である。 5……エネルギー抽出部、6……スペクトル形
状抽出部、7……マルチプレクサ、8……有音・
無音判定部、9……閾値メモリ、10……標準パ
ターンメモリ、11……始端・終端候補検出部、
12……始端・終端決定部、13……特徴量抽出
部。
Fig. 1 is a distribution diagram of the number of zero crossings used in the past, Fig. 2 is a block diagram of a conventional start/end detection device, and Fig. 3 is a diagram illustrating an example of the operation of the conventional start/end detection device. FIG. 4 is a diagram showing the energy change of a voice to which noise has been added in a conventional method. FIG. 5 is a block diagram of a voice start/end detection device according to an embodiment of the present invention. FIG. 6 is an example of an embodiment of the present invention. Flowchart diagram showing the start end candidate detection process in 7th
FIG. 8 is a flowchart showing termination candidate detection processing in an embodiment of the present invention, and FIG. 8 is a diagram illustrating an example of operation in the embodiment of the present invention. 5...Energy extractor, 6...Spectrum shape extractor, 7...Multiplexer, 8...Sound/
Silence determination unit, 9... Threshold memory, 10... Standard pattern memory, 11... Start/end candidate detection unit,
12... Start/end determining unit, 13... Feature extraction unit.

Claims (1)

【特許請求の範囲】 1 音声を含む信号から一定時間長の区間毎に信
号のエネルギーとスペクトル形状を表わす特徴量
を抽出する特徴量抽出部と、前記特徴量を用いて
入力された信号が有音であるか無音であるか一定
時間長の区間毎に判定する有音・無音判定部と、
前記有音・無音の判定結果の時系列を用い判定結
果の持続時間により音声の始端・終端の候補を検
出する始端・終端候補検出部と、始端・終端候補
の前後における信号のエネルギー変化とスペクト
ルの変化の大きさを用いて始端・終端の位置を決
定する始端・終端決定部とを具備することを特徴
とする音声の始端・終端検出装置。 2 信号のスペクトル形状を表わす特徴量とし
て、帯域フイルタ群、フーリエ変換若しくは線形
予測分析のいずれかの方法により求められるパワ
ースペクトルまたは線形予測分析により得られる
LPCケプストラム係数のいずれかを用いること
を特徴とする特許請求の範囲第1項記載の音声の
始端・終端検出装置。 3 有音・無音判定部が、信号のエネルギーと二
つの閾値との比較を行う第1判定部と、無音、無
声音、有声音の三つの標準パターンと入力信号の
スペクトルとの統計的距離尺度を用いスペクトル
の類似度による判定を行う第2判定部とを備え、
前記統計的距離尺度として線形判別関数、マハラ
ノビス距離、ベイズ判定のいずれかを用いること
を特徴とする特許請求の範囲第1項記載の音声の
始端・終端検出装置。 4 始端・終端決定部のスペクトルの変化の大き
さを表わす特徴量として、一定時間長の区間にお
けるスペクトルを表わす特徴量と前の区間のスペ
クトルを表わす特徴量とのユークリツド距離を用
いることを特徴とする特許請求の範囲第1項記載
の音声の始端・終端検出装置。
[Claims] 1. A feature extraction unit that extracts feature quantities representing the energy and spectral shape of the signal from a signal containing audio for each section of a certain time length, and a signal input using the feature quantities. a sound/silence determination unit that determines whether there is sound or silence for each section of a certain length of time;
A start/end candidate detection unit that detects candidates for the start/end of speech based on the duration of the judgment results using the time series of the voice/silence judgment results, and a signal energy change and spectrum before and after the start/end candidates. 1. A voice start/end detection device comprising: a start/end determining section that determines the start/end positions using the magnitude of change in the voice. 2. As a feature representing the spectral shape of the signal, a power spectrum obtained by a group of band filters, Fourier transform, or linear predictive analysis, or obtained by linear predictive analysis.
2. The audio start/end detection device according to claim 1, which uses any of the LPC cepstrum coefficients. 3 The voiced/non-sounded determination unit compares the energy of the signal with two threshold values, and the first determination unit compares the energy of the signal with two threshold values, and the statistical distance measure between the spectrum of the input signal and the three standard patterns of silence, unvoiced sound, and voiced sound. and a second determination unit that performs determination based on the similarity of the used spectra,
2. The speech start/end detection device according to claim 1, wherein one of a linear discriminant function, Mahalanobis distance, and Bayesian judgment is used as the statistical distance measure. 4. The feature is that the Euclidean distance between the feature representing the spectrum in an interval of a certain time length and the feature representing the spectrum in the previous interval is used as the feature representing the magnitude of change in the spectrum of the start/end determining section. A voice start/end detection device according to claim 1.
JP59056622A 1984-03-23 1984-03-23 Voice head/end detector Granted JPS60200300A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59056622A JPS60200300A (en) 1984-03-23 1984-03-23 Voice head/end detector

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59056622A JPS60200300A (en) 1984-03-23 1984-03-23 Voice head/end detector

Publications (2)

Publication Number Publication Date
JPS60200300A JPS60200300A (en) 1985-10-09
JPH0222960B2 true JPH0222960B2 (en) 1990-05-22

Family

ID=13032381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59056622A Granted JPS60200300A (en) 1984-03-23 1984-03-23 Voice head/end detector

Country Status (1)

Country Link
JP (1) JPS60200300A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132177A (en) * 1998-10-20 2000-05-12 Canon Inc Device and method for processing voice

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62244100A (en) * 1986-04-17 1987-10-24 株式会社リコー Voice section detecting system
JPH07101354B2 (en) * 1986-12-26 1995-11-01 松下電器産業株式会社 Voice section detector
WO1988007739A1 (en) * 1987-04-03 1988-10-06 American Telephone & Telegraph Company An adaptive threshold voiced detector
EP0310636B1 (en) * 1987-04-03 1992-09-09 AT&T Corp. Distance measurement control of a multiple detector system
JPH07113834B2 (en) * 1987-05-23 1995-12-06 日本電気株式会社 Voice section detection method
JPH07113836B2 (en) * 1987-05-29 1995-12-06 日本電気株式会社 Voice recognizer
JP2656069B2 (en) * 1988-05-13 1997-09-24 富士通株式会社 Voice detection device
JP2599974B2 (en) * 1988-09-13 1997-04-16 積水化学工業株式会社 Voice detection method
JP2559475B2 (en) * 1988-09-22 1996-12-04 積水化学工業株式会社 Voice detection method
JP4758879B2 (en) * 2006-12-14 2011-08-31 日本電信電話株式会社 Temporary speech segment determination device, method, program and recording medium thereof, speech segment determination device, method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132177A (en) * 1998-10-20 2000-05-12 Canon Inc Device and method for processing voice

Also Published As

Publication number Publication date
JPS60200300A (en) 1985-10-09

Similar Documents

Publication Publication Date Title
Evangelopoulos et al. Multiband modulation energy tracking for noisy speech detection
JP3180655B2 (en) Word speech recognition method by pattern matching and apparatus for implementing the method
CA2098629C (en) Speech recognition method using time-frequency masking mechanism
JPS6336676B2 (en)
Khoa Noise robust voice activity detection
US4937871A (en) Speech recognition device
Wilpon et al. Application of hidden Markov models to automatic speech endpoint detection
JPH0222960B2 (en)
Costa et al. Speech and phoneme segmentation under noisy environment through spectrogram image analysis
JPH0449952B2 (en)
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP2797861B2 (en) Voice detection method and voice detection device
Hahn et al. An improved speech detection algorithm for isolated Korean utterances
GB2216320A (en) Selective addition of noise to templates employed in automatic speech recognition systems
Seltzer et al. Automatic detection of corrupt spectrographic features for robust speech recognition
Seman et al. Evaluating endpoint detection algorithms for isolated word from Malay parliamentary speech
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
Amrous et al. Robust Arabic speech recognition in noisy environments using prosodic features and formant
JPS60129796A (en) Sillable boundary detection system
Gulzar et al. An improved endpoint detection algorithm using bit wise approach for isolated, spoken paired and Hindi hybrid paired words
JPH034918B2 (en)
Waardenburg et al. The automatic recognition of stop consonants using hidden Markov models
JP2557497B2 (en) How to identify male and female voices
Cosi Evidence against frame-based analysis techniques
Ananthapadmanabha et al. Relative occurrences and difference of extrema for detection of transitions between broad phonetic classes