JP2625682B2 - Voice section start detection device - Google Patents

Voice section start detection device

Info

Publication number
JP2625682B2
JP2625682B2 JP61223147A JP22314786A JP2625682B2 JP 2625682 B2 JP2625682 B2 JP 2625682B2 JP 61223147 A JP61223147 A JP 61223147A JP 22314786 A JP22314786 A JP 22314786A JP 2625682 B2 JP2625682 B2 JP 2625682B2
Authority
JP
Japan
Prior art keywords
voice
maximum
input voice
input
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61223147A
Other languages
Japanese (ja)
Other versions
JPS6377095A (en
Inventor
正明 北野
正宏 浜田
博之 直野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP61223147A priority Critical patent/JP2625682B2/en
Publication of JPS6377095A publication Critical patent/JPS6377095A/en
Application granted granted Critical
Publication of JP2625682B2 publication Critical patent/JP2625682B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、音声認識装置へ音声を入力するために用い
られる音声区間の始端検出装置に関するものである。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an apparatus for detecting the start of a speech section used for inputting speech to a speech recognition apparatus.

従来の技術 近年、音声認識等の音声情報処理、およびLSIの技術
の発達に伴い、音声認識装置は民生機器、産業機器等に
利用され始め、この音声認識装置への入力に用いられる
音声区間検出装置も種々研究されてきた(例えば、特公
昭58−120297号公報)。
2. Description of the Related Art In recent years, with the development of speech information processing such as speech recognition and LSI technology, speech recognition devices have begun to be used in consumer equipment, industrial equipment, and the like, and voice section detection used for input to the speech recognition device. Various devices have been studied (for example, Japanese Patent Publication No. 58-120297).

以下図面を参照しながら、上述した従来の音声区間検
出装置の一例について説明する。
Hereinafter, an example of the above-described conventional voice section detection device will be described with reference to the drawings.

第3図は従来の音声区間検出装置の一例のブロック図
を示すものである。
FIG. 3 is a block diagram showing an example of a conventional voice section detection device.

第3図において、2は入力音声の始端を検出する始端
判定部、3は入力音声の終端を検出する終端判定部であ
る。
In FIG. 3, reference numeral 2 denotes a start end determining unit for detecting a start end of the input voice, and 3 denotes an end determining unit for detecting the end of the input voice.

以上のように構成された音声区間検出装置について、
以下その動作を説明する。
Regarding the voice section detection device configured as described above,
The operation will be described below.

まず、始端判定部2は入力音声のエネルギーをあらか
じめ与えられた閾値と比較して、始端を決定する。次に
終端判定部3は入力音声のエネルギーをあらかじめ与え
られた閾値と比較して、終端を決定する。
First, the start end determination unit 2 determines the start end by comparing the energy of the input voice with a predetermined threshold value. Next, the termination determining unit 3 determines the termination by comparing the energy of the input voice with a threshold value given in advance.

発明が解決しようとする問題点 しかしながら、上記のような構成では、入力音声のレ
ベルのばらつきに対して検出された音声区間の始端には
ばらつきがあり、高品質の音声認識装置を実現する障害
になるという問題点を有していた。
Problems to be Solved by the Invention However, in the above-described configuration, there is a variation at the beginning of the detected voice section with respect to the variation in the level of the input voice, which is an obstacle to realize a high-quality voice recognition device. Had the problem of becoming

本発明は上記問題点に鑑み、入力音声のレベルのばら
つきによる音声区間の始端検出のばらつきを補正して、
高品質の音声区間の始端検出装置を提供するものであ
る。
In view of the above problems, the present invention corrects the variation in the detection of the beginning of a voice section due to the variation in the level of the input voice,
An object of the present invention is to provide a high-quality voice section start detection device.

問題点を解決するための手段 本発明は上記目的を達成するため、入力音声を常時蓄
えるメモリバッファと、前記入力音声の最大エネルギー
を検出する最大音声検出部と、前記入力音声の最大エネ
ルギーによって音声検出の閾値を設定する閾値設定部
と、設定された閾値により入力されてくる音声の始端を
判定すると同時に、前記最大音声検出部が、入力されて
きた音声中において、これまでの最大値かつ極大値を検
出した時点で、前記閾値設定部によって新しく設定され
た閾値を用いて、新たな始端の判定を行ない直す始端判
定部とを備えた構成である。
Means for Solving the Problems In order to achieve the above object, the present invention provides a memory buffer that constantly stores input voice, a maximum voice detection unit that detects a maximum energy of the input voice, and a voice based on the maximum energy of the input voice. A threshold setting unit for setting a threshold for detection, and at the same time judging a starting point of the input voice by the set threshold, the maximum voice detection unit detects a maximum value and a local maximum in the input voice so far. When a value is detected, a start-end determining unit that performs a new start-end determination using a threshold newly set by the threshold setting unit is provided.

作用 これにより、設定された閾値により入力されてくる音
声の始端を判定すると同時に、前記最大音声検出部が、
入力されてきた音声中において、これまでの最大値かつ
極大値を検出した時点で、前記閾値設定部によって新し
く設定された閾値を用いて、新たな始端の判定を行ない
直すので、リアルタイムで、入力レベルの平均値の変動
が原因となる始端の誤検出の低減を可能とし、より正確
な始端の検出を行なう。
By this, at the same time as determining the beginning of the input voice by the set threshold, the maximum voice detection unit,
In the input voice, at the time when the maximum value and the maximum value are detected so far, using the threshold value newly set by the threshold value setting unit, the determination of the new starting point is performed again. It is possible to reduce erroneous detection of the leading edge caused by the fluctuation of the average value of the level, and to detect the leading edge more accurately.

実施例 以下、本発明の実施例について、図面を参照しながら
説明する。第1図は本発明の一実施例における音声区間
の始端検出装置のブロック図、第2図は同動作を示すフ
ローチャートである。
Embodiments Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram of an apparatus for detecting the beginning of a voice section in one embodiment of the present invention, and FIG. 2 is a flowchart showing the same operation.

第1図において、1はメモリバッファであり、入力音
声を常時記憶する。なお、メモリバッファ1は、ループ
状になっており、メモリサイズは、認識装置の認識対象
単語長の最大のものが格納できる大きさである。終端が
検出されるまで、このメモリバッファ1に入力音声は記
憶され続けられる。2は始端判定部であり、入力音声の
エネルギー、あるいは、メモリバッファ1に蓄えられて
いる音声のエネルギーを閾値と比較して入力音声の始端
を決定する。3は終端判定部であり、入力音声のエネル
ギー、あるいはメモリバッファに蓄えられている音声の
エネルギーを閾値と比較して終端を決定し、メモリバッ
ファ1から、始端から終端までの音声データを出力させ
る。4は最大音声検出部であり、入力音声のその時点ま
での最大かつ極大エネルギーを検出して、閾値設定部5
へ最大エネルギーを送り、始端判定部2,終端判定部3で
は、新しく設定された閾値により、以前に始端判定部2
で決められた始端以降、現時点までの音声エネルギーを
バッファメモリ1より読み込み始端検出あるいは終端検
出を行う。
In FIG. 1, reference numeral 1 denotes a memory buffer which constantly stores input voice. The memory buffer 1 has a loop shape, and the memory size is large enough to store the maximum word length to be recognized by the recognition device. Until the end is detected, the input voice is kept stored in the memory buffer 1. Reference numeral 2 denotes a start end determination unit that determines the start end of the input voice by comparing the energy of the input voice or the energy of the voice stored in the memory buffer 1 with a threshold. Reference numeral 3 denotes an end determining unit which determines the end by comparing the energy of the input sound or the energy of the sound stored in the memory buffer with a threshold value, and outputs the sound data from the start end to the end from the memory buffer 1. . Reference numeral 4 denotes a maximum voice detection unit which detects the maximum and maximum energy of the input voice up to that point and sets a threshold value setting unit 5
The maximum energy is sent to the start-end determination unit 2 and the end-end determination unit 3 based on the newly set threshold value.
After that, the voice energy up to the present time is read from the buffer memory 1 and the start end or the end is detected.

以上のように構成された音声区間の始端検出装置につ
いて、以下第1図および第2図を用いてその動作を説明
する。
The operation of the apparatus for detecting the beginning of a speech section configured as described above will be described below with reference to FIGS. 1 and 2.

尚、第2図においては、ステップ番号(以下Sとい
う)を用いて説明する。
In FIG. 2, description will be made using step numbers (hereinafter, referred to as S).

1フレーム音声入力があると(S11)、この入力音声
をメモリバッファ1に書き込む(S12)。また同時にこ
の入力音声の音声エネルギーを最大音声検出部4で判定
して(S13)、入力音声エネルギーが最大であれば、閾
値設定部5で閾値の設定を行う(S15)。そして、始端
判定部2、終端判定部3では始端,終端の判定を行ない
(S16)、終端であれば、音声区間検出は終了し、終端
でない場合は(S11)に戻り、次のフレームの入力を待
つ(S17)。
When there is a one-frame sound input (S11), the input sound is written into the memory buffer 1 (S12). At the same time, the voice energy of the input voice is determined by the maximum voice detection unit 4 (S13). If the input voice energy is the maximum, the threshold setting unit 5 sets a threshold (S15). Then, the start-end determination unit 2 and the end-end determination unit 3 determine the start end and the end (S16). If it is the end, the voice section detection ends, and if it is not the end, the process returns to (S11) to input the next frame. Wait (S17).

一方、入力音声の音声エネルギーを最大音声検出部4
で判定して(S13)、入力音声エネルギーが最大でない
場合、さらに最大音声検出部4で最大の次のフレームを
判定する(S14)。ここで最大の次のフレームと判定さ
れた場合、以前に決定された始点から現時点まで(S1
9)、メモリバッファ1から音声エネルギーを読み出し
(S18),始端判定部2,終端判定部3により、始端の判
定を行ない直し、および終端の設定を行なう(S20)。
最大音声検出部4で最大音量の次のフレームと判定され
なかった場合、始端判定部2,終端判定部3により、始
端,終端の判定を行なう(S16)。
On the other hand, the audio energy of the input audio is
(S13), if the input voice energy is not the maximum, the maximum voice detection unit 4 further determines the next frame that is the maximum (S14). If it is determined that the next frame is the largest next frame, the previously determined start point to the present time (S1
9) The voice energy is read from the memory buffer 1 (S18), and the start end determination unit 2 and the end end determination unit 3 re-determine the start end and set the end (S20).
If the maximum sound detection unit 4 does not determine that the frame is the next frame of the maximum volume, the start end determination unit 2 and the end determination unit 3 determine the start end and the end (S16).

以上のように本実施例によれば、入力音声をメモリバ
ッファ1に蓄え、最大音声検出部4で検出された音声最
大エネルギーを閾値設定部5により音声検出の閾値を設
定して音声区間の始端を検出することにより、高品質の
音声区間の始端検出を行なうことができる。さらに最大
音声検出部4では音声エネルギーの最大かつ極大を検出
次第、始端判定部2,終端判定部3によりメモリバッファ
1に格納されている音声エネルギーの判定を行なうの
で、リアルタイムで音声区間検出を行なうことができ
る。またメモリバッファ1は、ループ状に入力音声を記
憶するため、メモリの容量が音声認識装置の認識対象単
語のなかで最長のものが格納できる大きさですみ、小さ
い容量のメモリで良い。
As described above, according to the present embodiment, the input voice is stored in the memory buffer 1, the maximum voice energy detected by the maximum voice detector 4 is set by the threshold setting unit 5 for the threshold of voice detection, and the start of the voice section is set. , It is possible to detect the beginning of a high-quality voice section. Further, as soon as the maximum and maximum sound energy is detected in the maximum sound detection unit 4, the start and end judgment units 2 and 3 determine the sound energy stored in the memory buffer 1, so that the sound section is detected in real time. be able to. Further, since the memory buffer 1 stores the input voice in a loop, the memory capacity is sufficient to store the longest word among the words to be recognized by the voice recognition device, and may be a small memory.

発明の効果 以上のように本発明によれば、リアルタイムで、入力
レベルの平均値の変動が原因となる始端の誤検出の低減
を可能とし、より正確な始端の検出を行なうことができ
る。
Advantageous Effects of the Invention As described above, according to the present invention, it is possible to reduce the erroneous detection of the leading edge caused by the fluctuation of the average value of the input level in real time, and to more accurately detect the leading edge.

【図面の簡単な説明】[Brief description of the drawings]

第1図は本発明の一実施例における音声区間の始端検出
装置のブロック図、第2図は本発明の一実施例における
音声区間の始端検出装置の動作を示すフローチャート、
第3図は従来の音声区間検出装置のブロック図である。 1……メモリバッファ、2……始端判定部、3……終端
判定部、4……最大音声検出部、5……閾値設定部。
FIG. 1 is a block diagram of an apparatus for detecting the start of a voice section in one embodiment of the present invention, FIG. 2 is a flowchart showing the operation of the apparatus for detecting the start of a voice section in one embodiment of the present invention,
FIG. 3 is a block diagram of a conventional voice section detection device. 1 ... memory buffer, 2 ... start-end determination unit, 3 ... end determination unit, 4 ... maximum sound detection unit, 5 ... threshold setting unit.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭57−97599(JP,A) 特開 昭60−39691(JP,A) 特開 昭61−223796(JP,A) 特開 昭59−111697(JP,A) 特開 昭60−499(JP,A) ──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-57-97599 (JP, A) JP-A-60-39691 (JP, A) JP-A-61-223796 (JP, A) JP-A-59-97 111697 (JP, A) JP-A-60-499 (JP, A)

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】入力音声を常時蓄えるメモリバッファと、
前記入力音声の最大エネルギーを検出する最大音声検出
部と、前記入力音声の最大エネルギーによって音声検出
の閾値を設定する閾値設定部と、設定された閾値により
入力されてくる音声の始端を判定すると同時に、前記最
大音声検出部が、入力されてきた音声中において、これ
までの最大値かつ極大値を検出した時点で、前記閾値設
定部によって新しく設定された閾値を用いて、新たな始
端の判定を行ない直す始端判定部とを備えたことを特徴
とする音声区間の始端検出装置。
1. A memory buffer for constantly storing input voice,
A maximum voice detection unit that detects the maximum energy of the input voice, a threshold setting unit that sets a threshold value of voice detection based on the maximum energy of the input voice, and simultaneously determines a start edge of the input voice based on the set threshold. When the maximum sound detection unit detects the maximum value and the maximum value so far in the input sound, the determination of the new start end is performed by using the threshold newly set by the threshold setting unit. A start detection unit for a voice section, comprising: a start determination unit for performing a restart.
【請求項2】メモリバッファは、ループ状に入力音声を
記憶することを特徴とする特許請求の範囲第1項記載の
音声区間の始端検出装置。
2. The apparatus according to claim 1, wherein the memory buffer stores the input voice in a loop.
【請求項3】メモリバッファは、そのメモリの容量を音
声認識装置の認識対象単語のなかで最長のものが格納で
きる大きさであることを特徴とする特許請求の範囲第1
項記載の音声区間の始端検出装置。
3. The memory buffer according to claim 1, wherein the capacity of the memory is large enough to store the longest word among words to be recognized by the speech recognition device.
Item.
JP61223147A 1986-09-19 1986-09-19 Voice section start detection device Expired - Lifetime JP2625682B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61223147A JP2625682B2 (en) 1986-09-19 1986-09-19 Voice section start detection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61223147A JP2625682B2 (en) 1986-09-19 1986-09-19 Voice section start detection device

Publications (2)

Publication Number Publication Date
JPS6377095A JPS6377095A (en) 1988-04-07
JP2625682B2 true JP2625682B2 (en) 1997-07-02

Family

ID=16793520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61223147A Expired - Lifetime JP2625682B2 (en) 1986-09-19 1986-09-19 Voice section start detection device

Country Status (1)

Country Link
JP (1) JP2625682B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7991614B2 (en) 2007-03-20 2011-08-02 Fujitsu Limited Correction of matching results for speech recognition

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2898018B2 (en) * 1989-08-14 1999-05-31 出光興産株式会社 Slippery film

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5797599A (en) * 1980-12-10 1982-06-17 Matsushita Electric Ind Co Ltd System of detecting final end of each voice section
JPS59111697A (en) * 1982-12-17 1984-06-27 株式会社日立製作所 Voice recognition system
JPS60499A (en) * 1983-06-17 1985-01-05 カシオ計算機株式会社 Threshold setting system for voice recogntion equipment
JPS6039691A (en) * 1983-08-13 1985-03-01 電子計算機基本技術研究組合 Voice recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7991614B2 (en) 2007-03-20 2011-08-02 Fujitsu Limited Correction of matching results for speech recognition

Also Published As

Publication number Publication date
JPS6377095A (en) 1988-04-07

Similar Documents

Publication Publication Date Title
US20200227049A1 (en) Method, apparatus and device for waking up voice interaction device, and storage medium
US8145486B2 (en) Indexing apparatus, indexing method, and computer program product
CN110875059A (en) Method and device for judging reception end and storage device
JP2625682B2 (en) Voice section start detection device
JP3625002B2 (en) Voice recognition device
US10818298B2 (en) Audio processing
JPS6123560B2 (en)
US6157911A (en) Method and a system for substantially eliminating speech recognition error in detecting repetitive sound elements
JP2002073061A (en) Voice recognition device and its method
JPS6312312B2 (en)
JPS62150295A (en) Voice recognition
AU2019447456B2 (en) Information processing device, sound masking system, control method, and control program
JP2975772B2 (en) Voice recognition device
JP3360978B2 (en) Voice recognition device
JP3031081B2 (en) Voice recognition device
JPS6332596A (en) Voice recognition equipment
JP3346285B2 (en) Voice recognition device and method
JP3515143B2 (en) Pattern registration device
JPS60159899A (en) Voice recognition equipment with learning function
JPH0262879B2 (en)
JPS60198596A (en) Syllable boundary selection system
JPH11341334A (en) Method and device for controlling camera, and storage medium thereof
JPS6247319B2 (en)
JP3063856B2 (en) Finding the minimum value of matching distance value in speech recognition
JPH04199198A (en) Speech recognition device

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term