JPS60191300A - Voice section detecting circuit - Google Patents

Voice section detecting circuit

Info

Publication number
JPS60191300A
JPS60191300A JP59047940A JP4794084A JPS60191300A JP S60191300 A JPS60191300 A JP S60191300A JP 59047940 A JP59047940 A JP 59047940A JP 4794084 A JP4794084 A JP 4794084A JP S60191300 A JPS60191300 A JP S60191300A
Authority
JP
Japan
Prior art keywords
peak value
value
voice
noise
signal level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59047940A
Other languages
Japanese (ja)
Inventor
中谷 奉公
安田 晴剛
河本 俊毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP59047940A priority Critical patent/JPS60191300A/en
Publication of JPS60191300A publication Critical patent/JPS60191300A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 良亙分1 本発明は、音声認識装置における音声区間検出回路、よ
り詳細には、音声区間の切り出し安定化に関する。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a speech segment detection circuit in a speech recognition device, and more particularly to stabilization of segmentation of speech segments.

【末盈遺 音声認識装置において、入力音声の信号対雑音比が良好
な音声を対象とする場合には、音声の存在する区間を抽
出することは比較的容易なことである。しかし音声認識
装置が実際に使用されているような環境においては種々
の騒音を含み、音声は騒音と仄畳された形で入力される
。このときの騒音は、時々刻々と変化するので固定的な
閾値を設けておいて音声区間を切り出すような方法では
安定な音声区間の検出は困難であり誤認識の一因となる
。また、このような固定閾値による切り出しでは音声の
語頭語尾及び無声子音のようなパワーの低い部分がカッ
トされることになる。更に、高騒音下では本来音声区間
であるべきところの前後に騒音が付加して切り出される
ことになる。
[In a speech recognition device, when input speech is targeted at speech with a good signal-to-noise ratio, it is relatively easy to extract sections where speech exists. However, the environment in which a speech recognition device is actually used includes various types of noise, and speech is input in a form mixed with noise. Since the noise at this time changes from moment to moment, it is difficult to detect a stable voice section using a method that sets a fixed threshold value and cuts out the voice section, which may cause misrecognition. Further, when clipping is performed using such a fixed threshold, low-power parts such as the beginning and end of speech and voiceless consonants are cut. Furthermore, under high noise conditions, noise is added before and after what should normally be a voice section and is cut out.

貝−一一一的 本発明は、上述のごとき従来技術の欠点を解決するため
になされたもので、特に、周囲の定常騒音レベルの大小
にかかわりなく安定な音声区間の検出を行ない、安定し
た認識率を確保することのできる音声区間検出回路を提
供することを目的としてなされたものである。
The present invention was made in order to solve the above-mentioned shortcomings of the prior art, and in particular detects a stable voice section regardless of the magnitude of the surrounding steady noise level. The purpose of this invention is to provide a speech section detection circuit that can ensure a high recognition rate.

1−一誠 本発明の構成について、以下、実施例に基づいて説明す
る。
1-Issei The configuration of the present invention will be described below based on examples.

本発明は、音声を続けて発声する離散的な音節、単語の
間のノイズレベルが前後に離散発声する音節なり単語間
で大きく変化しないという仮定に基づいている。従って
、音声切り出しの閾値を一つ前の音声のピーク値をホー
ルドしておき、次の音声の始端以前のノイズレベルのピ
ーク又は平均値で除算してそのときのS/Nをめ、これ
を閾値として音声の始端と終端を検出することにある。
The present invention is based on the assumption that the noise level between consecutively uttered discrete syllables or words does not change significantly between consecutively uttered syllables or words. Therefore, set the threshold for audio extraction by holding the peak value of the previous audio and dividing it by the peak or average value of the noise level before the start of the next audio to find the S/N at that time. The goal is to detect the beginning and end of audio as thresholds.

このときノイズレベルを検出するポイントは前の音声の
終端から時間Tだけ遅れた時点である。この時間Tは、
一般に、単語なら語中の促音/ツ/などの無音区間が2
00〜400m5存在することに基づいており、これ以
下′で次の音声が入力すれば前後する音声は一つの単語
(又は単位)として処理されるような配慮から決定され
る。
At this time, the point at which the noise level is detected is a time point delayed by a time T from the end of the previous voice. This time T is
Generally, in a word, there are 2 silent intervals such as the consonant /tsu/ in the word.
This is based on the fact that there are 00 to 400 m5, and the decision is made with the consideration that if the next voice is input within this range, the preceding and succeeding voices will be processed as one word (or unit).

第1図は、本発明の動作原理を説明するためのタイムチ
ャートで、(a)は入力信号の平均信号レベルの例であ
り、T、、T2は閾値THの切り変わり時点を、A、B
、C,Dはそれぞれ音声の始端(A 、 C) 、及び
終端(B 、 D)を示している。(b)はピークホー
ルド波形を示し、D点でリセットされており、・と0印
でノイズレベルとピークレベルが検出されている様子を
示している。(C)はもう一方のピークホールド波形を
示しくb)と同様であるがB点でリセットされ・と・印
でピークレベルとノイズレベルが検出されている様子を
示している。(d)は(a)の閾(+Uで検出した、音
声区間検出パルス信号である。(e)は(d)の立ち下
がりでオンするフリップフロップ信号出力Qを示し、(
f)は(e)の逆相qを示している。つまりこの(e)
と(f)のパルスの立ち一ヒがりてピークホールド回路
をリセットする((b)及び(c)参照)。(g)は(
d)の時間Tだけ遅延した波形を示し、(h)は(g)
の立ち下がりでオンするフリップフロップ出力を示し、
この信号でピークホールド信号の切換えを行なう。
FIG. 1 is a time chart for explaining the operating principle of the present invention, in which (a) is an example of the average signal level of the input signal, T, , T2 are the switching points of the threshold TH, A, B
, C, and D indicate the beginning (A, C) and end (B, D) of the audio, respectively. (b) shows a peak hold waveform, which is reset at point D, and indicates that the noise level and peak level are detected by the . and 0 marks. (C) shows the other peak hold waveform, which is similar to b), but has been reset at point B, and indicates that the peak level and noise level have been detected by the dot marks. (d) is the voice section detection pulse signal detected at the threshold (+U) in (a). (e) shows the flip-flop signal output Q that turns on at the falling edge of (d);
f) shows the reverse phase q of (e). In other words, this (e)
The rise and fall of the pulses (f) and (f) reset the peak hold circuit (see (b) and (c)). (g) is (
d) shows the waveform delayed by time T, and (h) shows the waveform of (g).
shows a flip-flop output that turns on at the falling edge of
This signal is used to switch the peak hold signal.

第2図は、本発明の一実施例を説明するための電気的ブ
ロック線図で、図中、lは入力部、2は検波回路、3は
平滑回路、4及び5はピークホールド回路、6はレベル
比較回路、7及び8はスイッチ、9及び10は除算回路
、11及び12はフリップフロップ回路、13は出力部
で、入力部lからの入力信号は、検波回路2及び平滑回
路3を通してその平均信号レベルが検出され、ピークホ
ールド回路4,5及びレベル比較回路6に入力される。
FIG. 2 is an electrical block diagram for explaining one embodiment of the present invention, in which l is an input section, 2 is a detection circuit, 3 is a smoothing circuit, 4 and 5 are peak hold circuits, and 6 1 is a level comparison circuit, 7 and 8 are switches, 9 and 10 are division circuits, 11 and 12 are flip-flop circuits, 13 is an output section, and the input signal from the input section l passes through the detection circuit 2 and the smoothing circuit 3. The average signal level is detected and input to peak hold circuits 4 and 5 and level comparison circuit 6.

夫々ピークホールド信号はそれぞれスイッチ7.8の一
方の入力端子に印加されスイッチ7からはピークホール
ド値が、スイッチ8からはノイズレベルが同期して出力
される。この信号は除算回路9でS/Nかめられ閾値が
決定され、レベル比較回路6の基準端子に加えられる。
Each peak hold signal is applied to one input terminal of a switch 7, 8, and the peak hold value is outputted from the switch 7, and the noise level is outputted from the switch 8 in synchronization. This signal is divided by S/N in a division circuit 9 to determine a threshold value, and is applied to a reference terminal of a level comparison circuit 6.

この除算回路9はスイッチ7.8に連動して該スイッチ
が切変った時点で除算した結果を保持し続は第1図(g
)の立ち下がり時点でリセットと除算保持を繰り返す。
This division circuit 9 is linked to the switch 7.8 and holds the result of division at the time when the switch is turned on.
) repeats the reset and division hold at the falling edge.

比較器6から第1図(d)の区間信号が出力され、出力
端子13に導かれると同時に遅延時間Tの遅延器10と
フリップフロップ回路12に印加される。遅延器10の
出力はフリップフロップ回路11で第1図(h)の出力
信号が得られスイッチ7.8を制御する。一方、フリッ
プフロップ回路12F7)Q 、 ’Clイi号(第1
図(e)及び(f)参照)はピークホールド回路4,5
のリセット信号としてホールド回路を制御する。このよ
うにして第1図(a)に示す閾値が設定され、区間信号
(第1図(a))が検出される。上記第2図に示した実
施例は、ピークホールド回路での信号ピーク値とノイズ
ピーク値を用いてS/Nをめる方式であるが、ノイズは
ピーク値でなく平均値を使用して信号のピーク値とノイ
ズの+F均値からS/Nをめるようにしてもよい。
The section signal shown in FIG. 1(d) is outputted from the comparator 6, guided to the output terminal 13, and simultaneously applied to the delay device 10 having a delay time T and the flip-flop circuit 12. The output of the delay device 10 is outputted to a flip-flop circuit 11 to obtain the output signal shown in FIG. 1(h), which controls the switch 7.8. On the other hand, the flip-flop circuit 12F7)Q, 'Clii No.
(See Figures (e) and (f)) are peak hold circuits 4 and 5.
The hold circuit is controlled as a reset signal. In this way, the threshold shown in FIG. 1(a) is set, and the section signal (FIG. 1(a)) is detected. The embodiment shown in Fig. 2 above uses the signal peak value and the noise peak value in the peak hold circuit to calculate the S/N, but for noise, the average value is used instead of the peak value. The S/N may be calculated from the peak value of the noise and the +F average value of the noise.

第3図は、上記信号のピーク値とノイズの平均値とから
S/Nをめるようにした場合の実施例を示す図で、図中
、第2図と同様の作用をする部分には第2図の場合と同
一の参照番号が付しである。而して、この第3図に示し
た実施例が第2図に示した実施例と異なっているところ
は、第2図の実施例において使用していたスイッチ8を
具備せず、除算回路9に平均信号レベル信号が直接印加
されていることである。この除算回路9は第2図と同様
、スイッチに連動して除算値を保持する。なお、他の動
作は第2図と同様であるので、その説明は省略するが、
この実施例は第2図と比べると閾イ1aが小さくでる傾
向にある。
FIG. 3 is a diagram showing an example in which the S/N is calculated from the peak value of the signal and the average value of the noise. The same reference numbers as in FIG. 2 are provided. The difference between the embodiment shown in FIG. 3 and the embodiment shown in FIG. 2 is that the switch 8 used in the embodiment of FIG. The average signal level signal is directly applied to the signal. Similar to FIG. 2, this division circuit 9 holds the division value in conjunction with the switch. Note that the other operations are the same as those in Figure 2, so their explanation will be omitted.
In this embodiment, the threshold value 1a tends to be smaller than that in FIG.

丸−−〕 以上の説明から明らかなように、本発明によると、音声
の間でノイズレベルを検出して、前の音声のレベルが次
の音声レベルと変らないとの仮定から直前の音声レベル
のピーク値をめてこの間のS/Nをめ、これを閾値とし
て次の@岸の始端と終端を検出することによりノイズレ
ベルと音声レベルの両方の変化に対応して音声区間を切
り出すことができ、従って、より現実に即した区間検出
が可能となる。
Circle --] As is clear from the above description, according to the present invention, the noise level is detected between voices, and the previous voice level is determined based on the assumption that the level of the previous voice is the same as the next voice level. By determining the peak value of , the S/N ratio during this period, and using this as a threshold to detect the start and end of the next @ shore, it is possible to cut out a voice section in response to changes in both the noise level and the voice level. Therefore, more realistic section detection becomes possible.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の動作説明をするだめのタイムチャート
、第2図及び第3図は、それぞれ本発明の詳細な説明す
るための電気的ブロック線図である。 1・・・入力部、2・・・検波回路、3・・・平滑回路
、4.5・・・ピークホールド回路、6・・・レベル比
較口−路、7.8・・・スイッチ、9.10・・・除算
回路、11.12・・・フリップフロップ回路、13・
・・出力部。 第1図 第2図 手続補正書(岐) 昭和59年4月23日 昭和59年 特許願 第47940号 2、発明の名称 音声区間検出回路 3、補正をする者 事件との関係 特許出願人 オオタ り ナカマゴメ 住所 東京都大田区中馬−込 1丁目3番6号氏名(名
称) (67,4)株式会社リコー代表省 浜 1) 
広 4、代 理 人 住 所 〒231 横浜市中区不老町1−2−7シヤト
レーイン横浜807号 7、補正の内容 (1)、明細書第6頁第2行目に記載の「9及びlOは
除算回路、」を「9は除算回路、1oは遅延回路、」に
補正する。 (2)、明細書第9頁第2行目に記載のr9,10川除
算回路、」を「9・・・除算回路、10山遅延回路、」
に補正する。 (3)、第1図を別紙の通り補正する。 第 1 図
FIG. 1 is a time chart for explaining the operation of the present invention, and FIGS. 2 and 3 are electrical block diagrams for explaining the present invention in detail. DESCRIPTION OF SYMBOLS 1...Input part, 2...Detection circuit, 3...Smoothing circuit, 4.5...Peak hold circuit, 6...Level comparison port-path, 7.8...Switch, 9 .10... Division circuit, 11.12... Flip-flop circuit, 13.
...Output section. Figure 1 Figure 2 Procedural Amendment (Kiji) April 23, 1980 Patent Application No. 47940 2, Name of the invention Speech section detection circuit 3, Relationship with the person making the amendment Case Patent applicant Ota ri Nakamagome Address 1-3-6 Nakama-kome, Ota-ku, Tokyo Name (67,4) Ricoh Co., Ltd. Representative Ministry Hama 1)
Hiro 4, Agent Address: 7, Sha Train Yokohama 807, 1-2-7, Furo-cho, Naka-ku, Yokohama 231, Contents of amendment (1), "9 and 1O described in the second line of page 6 of the specification" is a division circuit," is corrected to "9 is a division circuit, and 1o is a delay circuit." (2) "r9, 10 river division circuit described in the second line of page 9 of the specification," was replaced with "9... division circuit, 10 river delay circuit,"
Correct to. (3) Correct Figure 1 as shown in the attached sheet. Figure 1

Claims (4)

【特許請求の範囲】[Claims] (1)、音声認識装置において、入力信号の平均信号レ
ベルを検出する手段と、この平均信号レベルのピーク値
を並列に発声単位ごとに切り換えて検出保持する手段と
、2つのピーク値検出信号から音声のピーク値とノイズ
のピーク値を切り換えてめる手段と、この信号のピーク
値をノイズのピーク値で除算してその除算値を保持する
手段と、この除算値を閾値として平均信号レベルとを比
較する手段とを有することを特徴とする音声区間検出回
路。
(1) In a speech recognition device, means for detecting the average signal level of an input signal, means for detecting and holding the peak value of this average signal level in parallel for each utterance unit, and detecting and holding the peak value of the average signal level for each utterance unit; means for switching between the peak value of the voice and the peak value of the noise; means for dividing the peak value of the signal by the peak value of the noise and holding the divided value; A voice section detection circuit characterized in that it has a means for comparing.
(2)、音声の終端から一定時間遅れて闇値を設定する
ことを特徴とする特許請求の範囲第(1)項に記載の音
声区間検出回路。
(2) The voice section detection circuit according to claim (1), wherein the dark value is set after a certain time delay from the end of the voice.
(3)、音声認識装置において、入力4g号の平均信号
レベルを検出する手段と、この平均信号レベルのピーク
値を並列に発声単位ごとに切り換えて検出保持する手段
と、2つのピーク値検出信号から音声のピーク値をめる
手段と、この信号のピーク値をノイズの平均信号レベル
で除算してその除算値を保持する手段と、この除算値を
闇値として平均信号レベルと比較する手段とを有するこ
とを特徴とする音声区間検出回路。
(3) In the speech recognition device, means for detecting the average signal level of the input No. 4g, means for detecting and holding the peak value of this average signal level in parallel for each utterance unit, and two peak value detection signals. means for calculating the peak value of the voice from , means for dividing the peak value of the signal by the average signal level of the noise and holding the divided value, and means for comparing the divided value with the average signal level as a dark value. What is claimed is: 1. A voice section detection circuit comprising:
(4)、音声の終端から一定時間だけ遅れて閾値を設定
することを特徴とする特許請求の範囲第(3)項に記載
の音声区間検出回路。
(4) The voice section detection circuit according to claim (3), wherein the threshold value is set with a certain time delay from the end of the voice.
JP59047940A 1984-03-13 1984-03-13 Voice section detecting circuit Pending JPS60191300A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59047940A JPS60191300A (en) 1984-03-13 1984-03-13 Voice section detecting circuit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59047940A JPS60191300A (en) 1984-03-13 1984-03-13 Voice section detecting circuit

Publications (1)

Publication Number Publication Date
JPS60191300A true JPS60191300A (en) 1985-09-28

Family

ID=12789364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59047940A Pending JPS60191300A (en) 1984-03-13 1984-03-13 Voice section detecting circuit

Country Status (1)

Country Link
JP (1) JPS60191300A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01321499A (en) * 1988-06-23 1989-12-27 Matsushita Electric Ind Co Ltd Speech recognizing device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01321499A (en) * 1988-06-23 1989-12-27 Matsushita Electric Ind Co Ltd Speech recognizing device

Similar Documents

Publication Publication Date Title
JPH11327582A (en) Voice detection system in noist environment
JPS60191300A (en) Voice section detecting circuit
EP1784817B1 (en) Modification of an audio signal
EP0047589A1 (en) Method and apparatus for detecting speech in a voice channel signal
JPH04115299A (en) Method and device for voiced/voiceless sound decision making
JPS60129796A (en) Sillable boundary detection system
JPS5925237B2 (en) Speech segment determination method using speech analysis and synthesis method
JPS60216400A (en) Voice section detecting circuit
KR950001540B1 (en) Sound cognition apparatus
JPH0631997B2 (en) Output holding circuit of voice detector
JPS5834986B2 (en) Adaptive voice detection circuit
JPS62194299A (en) Voice/voicelessness discrimination system
JPS61140999A (en) Voice section detection system
JPS59180594A (en) Voice recognition equipment
JPH0713585A (en) Speech section segmentation device
JPS63220295A (en) Voice section detecting system
JPS60216399A (en) Voice section detecting circuit for voice recognition equipment
JPS61259296A (en) Voice section detection system
JPH03233600A (en) Voice segmenting method and voice recognition device
JPS6397999A (en) Voice section detection for voice recognition equipment
JPS607499A (en) Pitch extraction circuit
JPS63306498A (en) Voice section detecting system
JPS63155200A (en) Pitch detection
JPS62238599A (en) Voice section detecting system
JPS63124100A (en) Fundamental frequency analyzer