JPS59170894A - Voice section starting system - Google Patents

Voice section starting system

Info

Publication number
JPS59170894A
JPS59170894A JP58044194A JP4419483A JPS59170894A JP S59170894 A JPS59170894 A JP S59170894A JP 58044194 A JP58044194 A JP 58044194A JP 4419483 A JP4419483 A JP 4419483A JP S59170894 A JPS59170894 A JP S59170894A
Authority
JP
Japan
Prior art keywords
section
noise
speech
voice
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58044194A
Other languages
Japanese (ja)
Inventor
康雄 黒須
小松 昭男
市川 「あきら」
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP58044194A priority Critical patent/JPS59170894A/en
Publication of JPS59170894A publication Critical patent/JPS59170894A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明(・ま音声認識装置の音声区間切り出し方式に係
り、特に電話回線を介[7た音声認識装置や工場内や室
外等の高騒音下で使用される音声認識装置に好適な音声
区間切り出し方式に関する。
[Detailed Description of the Invention] [Field of Application of the Invention] The present invention relates to a speech segment segmentation method for a speech recognition device, and particularly relates to a speech recognition device that uses a telephone line [7] or under high noise environments such as inside a factory or outdoors. The present invention relates to a speech segment extraction method suitable for speech recognition devices used in.

〔従来技術〕[Prior art]

従来の音声認識装置の音声区間切り出し方式は、音声区
間と無音区間のパワー情報のみの差異に注目して、信号
レベルに適当な閾値を設け、閾値μ上の部分を音声区間
とし7て切り出す方式となつ−しいた。1〜たがって、
入力手段として電話回線や低品質なマイクを用いる場合
、あるいは高騒音を発生する工場や室外で用いられる場
合には、音I用区間と無音区間との間のパワーに顕著な
差異が見られなくなり、音声区間を誤1って切り出すと
いう欠点があった。
The speech segment extraction method of conventional speech recognition devices is a method that focuses only on the difference in power information between the speech segment and the silent segment, sets an appropriate threshold for the signal level, and extracts the portion above the threshold μ as a speech segment. Tonatsu Shiita. 1 ~ Therefore,
If a telephone line or low-quality microphone is used as the input method, or if it is used in a factory or outdoors where high noise is generated, there will be no noticeable difference in power between the sound I section and the silent section. However, there was a drawback that a voice section was cut out by mistake.

〔発明の目的〕[Purpose of the invention]

本発明の目的は、信号対雑音比の劣悪な環境−トにおい
て発声された音声を正確に検出し得る音声区間切り出し
方式を提供することV′cある。
SUMMARY OF THE INVENTION An object of the present invention is to provide a speech section extraction method that can accurately detect speech uttered in an environment with a poor signal-to-noise ratio.

〔発明の概要〕[Summary of the invention]

本発明による音声認識装置は、入カイ菖号を分析する分
析部と、雑音の標準バタンを作成−する雑音バタン作成
部と、前記雑音バタンを用いて、分析された入力信号が
音声か否かを判定し −音、声の場合は切り出し処理を
おこなう音声区間切り出(一部と、前記音声切り出し部
において切り出された音声に対して識別処理を施こす識
別部とにより構成さ′i1でいる。
The speech recognition device according to the present invention includes an analysis section that analyzes an input signal, a noise stamp creation section that creates a standard noise stamp, and a speech recognition device that determines whether or not the analyzed input signal is speech using the noise stamp. -In the case of sound or voice, the voice section cutout section (comprised of a part and an identification section that performs a discrimination process on the voice cut out by the voice cutout section) performs cutout processing. .

ここに雑音とは電話回線で発生する回線雑Efや発声渚
の周囲で発生する環境騒音等の音甫以外の音を指してい
る。これに対して音声(lゴ声弗の振動波Cζ、p道が
励起され発声される有声音と声道中における空気流の摩
擦や破裂によって励起され、角帯の振動を伴なわない無
声音にょシ構成さ牡ており、本質的に雑音とは異なる性
質を肩している。
Here, the noise refers to sounds other than sound waves, such as line noise Ef generated on the telephone line and environmental noise generated around the vocal shore. On the other hand, voiced sounds (vibration waves Cζ of l go voice 弗, voiced sounds that are uttered when the p-way is excited, and unvoiced sounds that are excited by friction and rupture of airflow in the vocal tract and are not accompanied by vibration of the horn band) It is structured and has properties that are essentially different from noise.

特に、波の性質を顕在化させる周波数領域において顕著
な差異が生ずる。それ故、周波数領域において、採取(
−だ雑音パターンと入力信号を比較することによって、
入力信号が音声であるか否が判定することができる。す
なわち、本発明によるとパワーの大きい雑音によって誤
って音声区間を切り出すことの少ない安定し7だ音声認
識装置を実現できる。
In particular, significant differences occur in the frequency range where the properties of waves become apparent. Therefore, in the frequency domain, the sampling (
- By comparing the noise pattern and the input signal,
It is possible to determine whether the input signal is audio. That is, according to the present invention, it is possible to realize a stable speech recognition device that is less likely to erroneously cut out a speech section due to high-power noise.

雑音は種々雑多な要因により発生するものであるから、
かならずしも性質が明確化されているとは断言できない
部分が少なからずある。(〜がし、統計的にはJ(ot
h雑音と呼ばれその周波数スペクトラムは第1NN’こ
テ1くすように高域よりも低域にパワーが集中する傾向
がある。こiに対して、無声音は、−道中の空気摩擦に
よって励起さiLるものであるからその周波数スペクト
ラムは第2図(tこ示すように低域よりも高域にパワー
が集中する構造である。゛まだ、壱声廿(fJ声帯の撮
動によって励起されるものであるからその周波数スペク
]・ラムは第3図に示すように声帯倣動を基本周波数(
ピッチ周波数)とする高調波音構成を41する。さらり
こ、爬道の形状変動がゆるやかであるからその共振特性
を表わすホルマントを廟する。かくの如く、音声と雑音
とはその周波数スペクトル構造に著しい相違が存在する
。しだがって、雑音バタン作成部で雑音の標準バメンを
作成し、この雑音バタンと分析さDた入力信号を比較す
ることによって、入力信号が音声か否か判定することが
できる。それ故、本発明によるとパワーの大きな雑音に
よって誤って音両区間を切り出すことのない安定な汗声
認識装置が実現できる。
Since noise is generated by various miscellaneous factors,
There are quite a few areas in which it cannot be said with certainty that the properties have been clearly defined. (~gashi, statistically J(ot
This is called h-noise, and its frequency spectrum tends to have more power concentrated in the low range than in the high range, as shown in the first NN'. On the other hand, unvoiced sounds are excited by air friction on the road, so their frequency spectrum has a structure in which the power is concentrated in the high range rather than the low range, as shown in Figure 2. .゛However, the frequency spectrum of fJ vocal folds is excited by imaging the vocal cords.As shown in Figure 3, Lam expresses the vocal fold movements at the fundamental frequency (fJ).
The harmonic sound structure with pitch frequency) is set as 41. Since the shape of the Sarariko and the torpedo changes slowly, we use the formant that represents its resonance characteristics. As described above, there are significant differences in the frequency spectrum structures of speech and noise. Therefore, it is possible to determine whether or not the input signal is speech by creating a standard noise template in the noise template creation section and comparing this noise template with the analyzed input signal. Therefore, according to the present invention, it is possible to realize a stable sweat voice recognition device that does not erroneously cut out both sound sections due to high-power noise.

〔発明の実施例〕[Embodiments of the invention]

以下、本発明の一実施例を第4図により説明する。マイ
クロホン1より入力される入力信号Sは分析部2に入力
され、パワー情報及び周波数情報を抽出する分析処理が
行なわれる。一方、電話回線における回線雑音は一通話
の間はぼ不変であるという性質が期待できる。この性質
を利用して、電話回線が接線した向後の無音区間におけ
る雑音を分析し、雑音バタン作成部3に格納する。音声
区間切り出し部4は、分析された入力信号が雑音バタン
作成部3に格納されている雑音バタンと比較され、相異
なる性質を示す場合は、音声区間と判定され切り出すよ
うに構成されている。類似度算出部6(ハ、標準バタン
記憶部に格納されている認識されるべきm語セットと音
声区間と判定された入力音声との間で類似度を算出する
。判定部7では、Ail記類似度算出部6で′Q出され
た類似度に基づいて判定処理が行なわれ、入力音声の識
別結果を決定する。上述各部(1,2,3,4,5゜6
.7.8)はアナログ的にもデジタル的にも実現可曲で
ある。以下では主に、ディジタル回路で構成されている
場合を例(・ことって説明を続ける。
An embodiment of the present invention will be described below with reference to FIG. An input signal S input from the microphone 1 is input to an analysis section 2, and an analysis process is performed to extract power information and frequency information. On the other hand, line noise on a telephone line can be expected to remain virtually unchanged during a single call. Utilizing this property, the noise in the silent section after the telephone line is tangential is analyzed and stored in the noise buzz generator 3. The voice section cutout section 4 is configured to compare the analyzed input signal with the noise beat stored in the noise beat generation section 3, and if it exhibits different characteristics, it is determined to be a voice section and is cut out. Similarity calculation unit 6 (C) calculates the similarity between the m-word set to be recognized stored in the standard slam storage unit and the input speech determined to be a speech section. Judgment processing is performed based on the similarity calculated by the similarity calculation unit 6, and the identification result of the input voice is determined.
.. 7.8) can be realized both analogously and digitally. Below, we will mainly explain the case where the circuit is configured with digital circuits.

分析部2における分析原理として柿々のものが提案され
ているが、それらはいず7’Lも声道の共振特性を陰に
陽に表わし、ている。したがつで、いずれの手法であっ
ても本発明の原理は適用i■詣である。−例としては公
知のチャンネルノ・イルタ型スペクトラド分析器が考え
られる。すなわち、マイクロホンより入力される入力信
号SはA / I)変換され、チャンネルフィルタ型ス
ペクトル分析器に入力される。チャンネルフィルタ型ス
ペクトル分析器の各チャンネルが各周波数帯域に対応し
ており、各周波数゛帯域のスペクトラムが時系列の周波
数情報として出力される。この分析部2の具体的構成は
本発明の要部と直接関係しないので省略する。
Persimmons have been proposed as analysis principles for the analysis section 2, but all of them express the resonance characteristics of the vocal tract both implicitly and explicitly. However, regardless of which method is used, the principles of the present invention can be easily applied. - By way of example, the known Channelo-Iruta type spectrado analyzer may be considered. That is, an input signal S input from a microphone is A/I) converted and input to a channel filter type spectrum analyzer. Each channel of the channel filter type spectrum analyzer corresponds to each frequency band, and the spectrum of each frequency band is output as time-series frequency information. The specific configuration of this analysis section 2 is not directly related to the main part of the present invention, and will therefore be omitted.

壕だ、類似度算出部6、判定部7、標準バタン記憶部5
を包含した識別部における識別原理も種種のものが提案
されており、そnr:)はいずれであっても適用可能で
ある。−例として公知のバタンマツチング法が考えられ
る。すなわち、あらがしめ認識されるべき単語セットを
定め、個々の単語を適切なパラメータによって記述した
ものを標準バタン記憶部に格納しておく。入力信号は前
記分析部においてパラメータに変換され、音声区間切り
出し部において、音声と判定されると、識別部に入力さ
れる。この人力バタンと前記標準バタンとの比較、すな
わちバタンマツチングを行なって最大一致が得られる標
準バタンと同一単語であると決定する。この識別部の具
体的構成も本発明の要部と直接関係しないので省略する
It's a moat, similarity calculation section 6, judgment section 7, standard slam storage section 5
Various types of identification principles have been proposed for the identification unit including the above, and nr:) can be applied to any of them. - As an example, the known slam matching method may be considered. That is, a set of words to be recognized and recognized is determined, and each word is described using appropriate parameters and stored in the standard button storage section. The input signal is converted into a parameter in the analysis section, and when it is determined to be speech in the speech section extraction section, it is input to the identification section. This manual click is compared with the standard click, ie, click matching is performed, and it is determined that the word is the same as the standard click that gives the maximum match. The specific configuration of this identification section is also omitted since it is not directly related to the main part of the present invention.

次に、音声区間切り出し部4と雑音バタン作成部3の具
体的構成例を第5図により説明する。パワー及び周波数
情報を表わすパラメータに変換された入力信号は選択部
41に入力される。選択部41において、無音区間の一
部は雑音バタン作成部へ選択きれ、入力バッファ31に
入力される。
Next, a specific example of the configuration of the voice section cutting section 4 and the noise bang creating section 3 will be explained with reference to FIG. The input signal converted into parameters representing power and frequency information is input to the selection section 41. In the selection section 41, a part of the silent section is selected for the noise bang generation section and inputted to the input buffer 31.

また、認識処理を施こすべき音声区間を含む入力信号S
は音声区間切り出し部へ選択され、入カバツ7742,
44に入力される。ここで雑音バタンを作成するタイミ
ングは、−例として音声応答装置の質問区間が考えられ
る。すなわち、音声認識装置は通常、音声応答システム
の一部として運用されている。したがって、實間時には
発話者の発声はないと期待されるので、音声応答からの
質問文中の音声出力休止区間には無声音が入力される。
In addition, the input signal S including the speech section to be subjected to recognition processing is
is selected to the voice section extraction section, and the input part 7742,
44. Here, the timing for creating the noise bang can be considered, for example, during the question section of the voice response device. That is, speech recognition devices are typically operated as part of a voice response system. Therefore, since the speaker is not expected to make any utterances during the actual time, unvoiced sounds are input into the voice output pause section in the question sentence from the voice response.

次に、入力バッファ内の雑音パラメータは相加平均部3
2で長時間(例えば、400018α]以上)の時間平
均を取られ、安定な雑音バタンとなり、雑音バタン記憶
部33に格納される。
Next, the noise parameters in the input buffer are calculated by the arithmetic averaging section 3.
2, the time average over a long period of time (for example, 400018α or more) is taken, resulting in a stable noise slam, which is stored in the noise bang storage unit 33.

一方、入力バッファ44に格納された認識処理を施こす
べき入力信号Sは、マツチング部45において、雑音バ
タン記憶部33に格納されている雑音バタンとの間で1
フレーム毎I/i:類似度がt4禅される。次に判定部
46において、適切な閾値θ全基準として、該当フレー
ムが雑音か否かを判定する。すなわち、θ以下の類似度
を持つフレームがNフレーム続けば、音声区間の始点と
児なし、選択部43において切り出し操作を開始する。
On the other hand, the input signal S to be subjected to the recognition process stored in the input buffer 44 is 1
Every frame I/i: Similarity is measured t4. Next, the determination unit 46 determines whether or not the relevant frame is noise using an appropriate threshold value θ as a total criterion. That is, if frames having a similarity of θ or less continue for N frames, the selection unit 43 starts a cutting operation at the starting point of the voice section.

逆に、0以上の類似度を持つフレームがNフレーム以上
続けば、音声区間の終点と児な(〜、選択部43におい
て、切り出し操作を終了する。
Conversely, if frames having a similarity of 0 or more continue for N or more frames, the selection unit 43 ends the extraction operation.

かくの如く、本発明によれば、パワーの大きな雑音によ
って、誤って音声区間を切り出すことのない安定な音声
認識装置を実現できる。
As described above, according to the present invention, it is possible to realize a stable speech recognition device that does not erroneously cut out speech sections due to high-power noise.

さらに、不特定話者用認識装置において、入力音声中の
母音等の特徴的な音韻の位置の情報を得ることができれ
ば、本発明で述べた方法により、標準バタンとして登録
し利用することが可能である。すなわち、当該話者に固
有な音韻標準バタンを使ったマツチングを行なうことが
でき、高い認識率を期待することができる。
Furthermore, if the speaker-independent recognition device can obtain information on the position of characteristic phonemes such as vowels in the input speech, it can be registered and used as a standard button using the method described in the present invention. It is. That is, it is possible to perform matching using a phonetic standard pattern unique to the speaker, and a high recognition rate can be expected.

〔発明の効果〕〔Effect of the invention〕

本発明によれば、高雑音下で発声された音声を正確に切
り出すことができるので、音声認識装置の認識精度向上
の効果がある。また、周囲騒音のため従来使用不可能で
あった高騒音を発生する工場内に音声認識装置を導入す
ることができるので、音声認識装置の市場拡張の効果が
ある。さらに、高品質で高価なマイクを必ずしも使用す
る必要がなくなり、低廉なマイクが使用できるので、音
声認識装置の価格低減の効果がある。
According to the present invention, since speech uttered under high noise can be accurately extracted, there is an effect of improving recognition accuracy of a speech recognition device. Furthermore, since the voice recognition device can be introduced into a factory that generates high noise, which was previously unusable due to ambient noise, there is an effect of expanding the market for voice recognition devices. Furthermore, it is no longer necessary to use a high-quality, expensive microphone, and an inexpensive microphone can be used, which has the effect of reducing the cost of the speech recognition device.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、雑音のスペクトラム構成を説明するための図
、第2図は無声音のスペクトラム構成を説明するだめの
図、第3図は有声音のスペクトラム構成を説明するだめ
の図、第4図は本発明による音声認識装置の一構成例を
示すブロック図、第5図は本発明による音声区間切り出
し部の一構成例を示すブロック図である。 第4図において、1はマイクロホン、2は分析部、3は
雑音バタン作成部、4は音声区間切り出し部、5は標準
バタン記憶部、6は類似度算出部、7は判定部、8は認
識制御部。 第5図において、31Vi人カバッファ1.32は相加
平均部、33は雑音バタン記憶部、41は選択部、42
は入力バッファ3.43は選択部、44は入力バッファ
2.45Hマッチンク部、第   1   (2) 第 2 図 木 1 図 宴  4−  図 3′ ′″f−J  5  図
Figure 1 is a diagram for explaining the spectrum structure of noise, Figure 2 is a diagram for explaining the spectrum composition of unvoiced sounds, Figure 3 is a diagram for explaining the spectrum composition of voiced sounds, and Figure 4 is a diagram for explaining the spectrum composition of voiced sounds. FIG. 5 is a block diagram showing an example of the configuration of a speech recognition device according to the present invention, and FIG. 5 is a block diagram showing an example of the configuration of a speech segment cutting section according to the present invention. In FIG. 4, 1 is a microphone, 2 is an analysis unit, 3 is a noise bang generation unit, 4 is a voice section extraction unit, 5 is a standard bang storage unit, 6 is a similarity calculation unit, 7 is a judgment unit, and 8 is a recognition unit. control section. In FIG. 5, 31Vi buffer 1.32 is an arithmetic averaging section, 33 is a noise button storage section, 41 is a selection section, and 42
is the input buffer 3. 43 is the selection section, 44 is the input buffer 2. 45H matching section, 1st (2) 2nd Fig.

Claims (1)

【特許請求の範囲】[Claims] 1、 音声信号の観測部と分析部と音声区間の切り出し
部と認識論理部より成る音声認識装置においで、特定区
間を検出する手段と、検出し7た信号を分析する手段と
、分析(〜だ信号を格納する手段と、当該の特定区間の
分析結果と入力音声のパワー及び周波数情報の差異を計
算する手段を有することを特徴とする音声区間切り出し
方式。
1. In a speech recognition device comprising a speech signal observation section, an analysis section, a speech section extraction section, and a recognition logic section, a means for detecting a specific section, a means for analyzing the detected signal, and an analysis (~ 1. A voice section extraction method, comprising means for storing a signal, and means for calculating a difference between an analysis result of the particular section and power and frequency information of input voice.
JP58044194A 1983-03-18 1983-03-18 Voice section starting system Pending JPS59170894A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58044194A JPS59170894A (en) 1983-03-18 1983-03-18 Voice section starting system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58044194A JPS59170894A (en) 1983-03-18 1983-03-18 Voice section starting system

Publications (1)

Publication Number Publication Date
JPS59170894A true JPS59170894A (en) 1984-09-27

Family

ID=12684760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58044194A Pending JPS59170894A (en) 1983-03-18 1983-03-18 Voice section starting system

Country Status (1)

Country Link
JP (1) JPS59170894A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704702B2 (en) 1997-01-23 2004-03-09 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
JP2007248692A (en) * 2006-03-15 2007-09-27 Kawai Musical Instr Mfg Co Ltd Butt of upright piano

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704702B2 (en) 1997-01-23 2004-03-09 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
US7191120B2 (en) 1997-01-23 2007-03-13 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
JP2007248692A (en) * 2006-03-15 2007-09-27 Kawai Musical Instr Mfg Co Ltd Butt of upright piano

Similar Documents

Publication Publication Date Title
JP3180655B2 (en) Word speech recognition method by pattern matching and apparatus for implementing the method
KR100870889B1 (en) Sound signal processing method, sound signal processing apparatus and recording medium
US8036884B2 (en) Identification of the presence of speech in digital audio data
EP0077194B1 (en) Speech recognition system
JPWO2007046267A1 (en) Voice discrimination system, voice discrimination method, and voice discrimination program
JP3069531B2 (en) Voice recognition method
JP2996019B2 (en) Voice recognition device
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
JP3119510B2 (en) Voice recognition device
JP3523382B2 (en) Voice recognition device and voice recognition method
JPS60114900A (en) Voice/voiceless discrimination
JPS59170894A (en) Voice section starting system
JP2798919B2 (en) Voice section detection method
JP2882791B2 (en) Pattern comparison method
JP2666296B2 (en) Voice recognition device
KR100677224B1 (en) Speech recognition method using anti-word model
JP3049711B2 (en) Audio processing device
JP3020999B2 (en) Pattern registration method
JP3357752B2 (en) Pattern matching device
JPH0640274B2 (en) Voice recognizer
JPS6227798A (en) Voice recognition equipment
JPS63226691A (en) Reference pattern generation system
JPS63300295A (en) Voice recognition equipment
JPS6039699A (en) Voice recognition
JP2002287781A (en) Voice recognition system