JPH02278295A - Voice pattern registering system and voice recognizing device - Google Patents
Voice pattern registering system and voice recognizing deviceInfo
- Publication number
- JPH02278295A JPH02278295A JP1101144A JP10114489A JPH02278295A JP H02278295 A JPH02278295 A JP H02278295A JP 1101144 A JP1101144 A JP 1101144A JP 10114489 A JP10114489 A JP 10114489A JP H02278295 A JPH02278295 A JP H02278295A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- pattern
- voice
- parts
- decided
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 16
- 230000003595 spectral effect Effects 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101100455730 Mus musculus Sell gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Abstract
Description
【発明の詳細な説明】
伎亙分更
本発明は、音声認識用のパターン登録方式、及び、該パ
ターン登録方式によって28したパターンを用いた音声
認識装置に関する。DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a pattern registration method for speech recognition, and a speech recognition device using 28 patterns created by the pattern registration method.
灸未皮逢
音声認識装置が実眉に近付くに従い、実環境の中での使
用を考慮するための研究が行なわれてきた。特に、音声
認識の場合は周囲の騒音が問題で、音声と騒音の区別が
できないと認識することができない、!I音の中で認識
するために、いくつかの方法が提案されている。例えば
、音声が入力されない時の騒音のスペクトルをメモリー
に保存しておいて、音声が入力された時、そのスペクト
ル成分から騒音の分を差引いてからtL&するもの(日
本音響学会講演論文集 昭和57年3月 P141〜1
42 3−4−6.単語認識の雑音処理に関する実験)
が良く知られている。しかし、この方法ではあらかじめ
メモリーにたくねえた騒音のスペクトル成分が変化した
時には、逆効果となることもある。その他に、音声が入
力される前に騒音の大きさを測定しておいて、それより
も大きな音が入力された時、またはその測定値よりも小
さくなった時、それぞれを音声の始端と終端として騒音
中から取りだすものがある。しかし、この方法では、音
声発声中に騒音が大きくなると、始端検出後の音声レベ
ルがあらかじめ測定しておいたしきい値より下がること
がなくなる。このために、音声の終端が見つからないと
いった現象を引き起こしてしまうことになる。また、2
つの音声入力手段を持ち、一方には音声と周@騒音が、
他方には周囲騒音が主入力となるようにし、両者の誤差
が最小になるようにフィルター特性を変えていくもの、
いわゆる、アダプティブフィルタによるものがある(音
声研究会資料 581−81p651.高速マイクロ・
プロセッサーを用いた雑音除去)。この方法は精度も良
く、入力される騒音が定常的ではなくとも、それを減ら
した信号を取りだすことができるという長所を持ってい
る。As moxibustion-based speech recognition devices approach real eyebrows, research has been conducted to consider their use in real environments. In particular, in the case of voice recognition, ambient noise is a problem, and recognition cannot be achieved unless it is possible to distinguish between voice and noise! Several methods have been proposed for recognition in I sounds. For example, the spectrum of noise when no audio is input is stored in memory, and when audio is input, the noise component is subtracted from the spectral component and then tL& is performed (Proceedings of the Acoustical Society of Japan, 1977) March P141-1
42 3-4-6. Experiments on noise processing for word recognition)
is well known. However, this method may have the opposite effect if the spectral components of the noise stored in memory change. In addition, you can measure the loudness of the noise before the audio is input, and when a louder sound is input or the noise is lower than the measured value, you can measure the noise level at the beginning and end of the audio, respectively. There are things that can be extracted from the noise. However, with this method, if the noise increases during voice production, the voice level after detecting the start point will not fall below a pre-measured threshold. This causes a phenomenon in which the end of the audio cannot be found. Also, 2
It has two audio input means, one for audio and one for ambient noise.
On the other hand, the main input is ambient noise, and the filter characteristics are changed to minimize the error between the two.
There is a so-called adaptive filter (Voice Research Group Materials 581-81 p651.
noise removal using a processor). This method is highly accurate and has the advantage that even if the input noise is not constant, a signal with reduced noise can be extracted.
しかし、この方法では、誤差最小に収束させるための計
算量が多く1通常の音声認識のように10m5ごとにデ
ータを取込めば、取込時間中に収束させることができに
くい。どのような方法であっても、音声を発声している
間に突発的な騒音が発生した場合、これに対処すること
ができない。However, this method requires a large amount of calculation to converge to the minimum error.1 If data is acquired every 10 m5 as in normal speech recognition, it is difficult to converge within the acquisition time. No matter what method is used, it is impossible to deal with sudden noises that occur while uttering voice.
几−一並
本発明は、上述のごとき従来技術の欠点に鑑みなされた
もので、音声入力中に騒音が発生しても特徴パターンを
修正して認識するための、パターンの作成法を提供する
ことを目的としてなされたものである。The present invention has been made in view of the above-mentioned shortcomings of the prior art, and provides a pattern creation method for modifying and recognizing characteristic patterns even when noise occurs during voice input. It was done for that purpose.
眉ニー」又
本発明は、上記目的を達成するために、音声を収集して
電気信号に変換する部分と、変換された電気信号を周波
数分析する部分と、分析された結果から周波数成分の大
なる位置を取り出し、周波数成分の大なる位置が所定の
時間継続するか否かを判定する部分と、所定の時間以上
継続する部分(以降スペクトル安定部と称する)が複数
存在した場合、隣り合うスペクトル安定部が同種のもの
であるかどうかを判定し、同種の時にはそれらを一つの
スペクトル安定部が継続しているものとして修正してパ
ターン登録することを特徴としだものである。以下、本
発明の実施例に基づいて説明する。In order to achieve the above object, the present invention includes a part that collects audio and converts it into an electrical signal, a part that analyzes the frequency of the converted electrical signal, and a part that analyzes the frequency components from the analyzed results. If there are multiple parts where the position where the frequency component is large continues for a predetermined time or not (hereinafter referred to as spectral stable part), the adjacent spectrum This method is characterized by determining whether the stable parts are of the same type, and if they are of the same type, correcting them as one continuous spectral stable part and registering the pattern. Hereinafter, the present invention will be explained based on examples.
第1図は、本発明の一実施例を説明するための構成図で
、図中、1はマイクロフォン、2はフィルタバンク部、
3はサンプリング部、4はピーク検出部、5は時間カウ
ンタ、6は比較部、7はメモリ部、8はパターン比較部
、9はパターン置き換え部、10は登録メモリ部で、本
発明は、音声中に含まれる定常的な音韻の並びと、出現
順序だけでもかなり良い精度で認識結果をしぼり込むこ
とができるという事実に基づいてなされたものであり、
具体的には、音声を収集して電気信号に変換する部分と
、変換された電気信号を周波数分析する部分と、分析さ
れた結果から周波数成分の大なる位置を取りだし、周波
数成分の大なる位置が所定の時間継続するか否かを判定
する部分と、所定の時間以上継続する部分(以降スペク
トル安定部と称する)が複数存在した場合、隣り合うス
ペクトル安定部が同種のものであるかどうかを判定し、
同種の時にはそれらを一つのスペクトル安定部が継続し
ているものとして修正してパターン登録するようにした
ものである。これを第1図によって説明すると、まず、
マイクロフォン1によって音声を入力し、電気信号に変
換する。変換された信号を周波数分析する周波数分析部
としては、例えばバンドパスフィルタ群2などを使用す
れば良い。あるいは、波形をサンプル3してからFFT
により周波数変換しても良い。周波数変換した結果の中
で、成分が大きい周波数をピーク検出部4で検出する。FIG. 1 is a configuration diagram for explaining one embodiment of the present invention, in which 1 is a microphone, 2 is a filter bank section,
3 is a sampling section, 4 is a peak detection section, 5 is a time counter, 6 is a comparison section, 7 is a memory section, 8 is a pattern comparison section, 9 is a pattern replacement section, and 10 is a registration memory section. This was done based on the fact that recognition results can be narrowed down with fairly high accuracy based on the constant arrangement of phonemes contained within and the order of appearance.
Specifically, there is a part that collects audio and converts it into an electrical signal, a part that analyzes the frequency of the converted electrical signal, and a part that extracts the major positions of frequency components from the analyzed results and calculates the major positions of the frequency components. If there is a part that determines whether or not the spectral stability continues for a predetermined time and a part that continues for a predetermined time or more (hereinafter referred to as spectral stable parts), it is determined whether the adjacent spectral stable parts are of the same type. judge,
When they are of the same type, they are corrected and registered as a continuous spectral stable region. To explain this using Figure 1, first,
Voice is input through the microphone 1 and converted into an electrical signal. As a frequency analysis section that performs frequency analysis of the converted signal, for example, band pass filter group 2 may be used. Alternatively, sample the waveform 3 and then perform FFT
The frequency may be converted by A peak detection unit 4 detects a frequency with a large component among the results of frequency conversion.
ここでは周波数軸上で成分の大きさを比較しながら、極
大値を取り出す方法で実行するが、周波数軸上の隣り合
うデータの差を取り、その符号が逆転するところをピー
クとするなど、他の方法でも良いことは言うまでもない
。次に、この取り出した極大値が時間的に連続する長さ
を時間カウンタ5で測定し、これを決められた時間長と
比較部6で比較してそれよりも長いかどうかをチエツク
する。決められた時間長としては30m5程度が良い。Here, we compare the magnitudes of the components on the frequency axis and extract the maximum value, but other methods, such as taking the difference between adjacent data on the frequency axis and determining the peak where the sign is reversed, are used. It goes without saying that this method is also good. Next, a time counter 5 measures the length of time in which the extracted local maximum values continue, and a comparator 6 compares this with a predetermined time length to check whether it is longer than that. The recommended length of time is about 30m5.
これよりも長い部分に、メモリ部7において、マークを
つける。A mark is placed on a portion longer than this in the memory section 7.
ここでマークがつけられるのは母音と/S/。What is marked here is the vowel and /S/.
/f/、/l f/などの音韻である。しかもこれらの
音韻の定常的な安定部(スペクトル安定部)にマークが
つけられることになる。例えば、異なる母音が2個連続
する場合は、母音の変り目でパターンに定常性がなくな
るため、2つに分割される。マークをつけられた部分で
、隣り合う部分をパターン比較部8において比較するこ
とにより、隣り合う2つが同じ音韻かそうでないかを判
定する。これは隣り合う部分の類似度を求め、その値が
一定値以上であるのか否かで判定できる。同じ音韻なら
、その2つの部分を連結して1つにまとめてしまう。ま
とめる時にはマークを連続させても良いし、同じ母音の
パターンを挿入して作り替えても良い。このようにして
、このようなパターンを登録しておいて、まず、通常の
認識の前に該パターンによって認識対象を限定してから
、通常のLy22を行なうのも効果的であるが、登録単
語数があまり多くない場合や、母音や、定常性を持つ子
音の存在位置と組合せの同じものがない場合は、このま
までLy&識結果が得られる。These are phonemes such as /f/ and /l f/. Moreover, the stationary stable parts (spectral stable parts) of these phonemes are marked. For example, when two different vowels are consecutive, the pattern loses stability at the transition between vowels, so it is divided into two. By comparing adjacent portions of the marked portions in the pattern comparing section 8, it is determined whether two adjacent portions have the same phoneme or not. This can be determined by determining the degree of similarity between adjacent parts and determining whether the value is greater than a certain value. If they have the same phoneme, we connect the two parts and combine them into one. When grouping the marks, you can make them consecutive, or you can insert the same vowel pattern to rearrange the marks. It is also effective to register such a pattern in this way, first limit the recognition target by the pattern before normal recognition, and then perform normal Ly22. If the number is not very large, or if there are no vowels or constant consonants in the same position and combination, Ly& identification results can be obtained as is.
もし、母音発声中に突発的な雑音が入り込んだ場合には
、母音の中に雑音が入り込むことになるが、上記の操作
により、母音を復元することができる。また、雑音が定
常性のない子音に混入した時、また、母音の末尾に付い
た時も上記のマークの修正で混入しないものと同じ状態
に戻すことができる。If a sudden noise occurs during vowel pronunciation, the noise will enter the vowel, but the vowel can be restored by the above operation. Furthermore, when noise is mixed into a non-stationary consonant, or when it is attached to the end of a vowel, it is possible to return to the same state as when noise was not mixed in by correcting the mark as described above.
なお、第1図に示した例は、予備的な認識にこの方法を
使う例であって、認識部がどのような手法を使うかは制
限していない。予備的なLy3識でもマークの並び方か
ら辞書中の同じパターンを取りだしてくるもので、特に
パターンマツチングの必要はない。勿論、パターンマツ
チングをしてもよい。Note that the example shown in FIG. 1 is an example in which this method is used for preliminary recognition, and there is no restriction on what kind of method the recognition unit uses. Even in the preliminary Ly3 knowledge, the same pattern in the dictionary is retrieved from the arrangement of marks, so there is no particular need for pattern matching. Of course, pattern matching may be used.
勿−一二隈
以上の説明から明らかなように、本発明によると、突発
的な雑音が加すっだ音声の定常部から雑音部を取除き正
しいパターンに置き換えることができるようになり、こ
の結果、雑音の中でも正しい認識ができるようになった
。Of course - IchikumaAs is clear from the above explanation, according to the present invention, it becomes possible to remove the noise part from the steady part of speech to which sudden noise has been added and replace it with the correct pattern. , I was able to make correct recognition even in noise.
第1図は、本発明の一実施例を説明するための構成図で
ある。
1・・・マイクロフォン、2・・・フィルタバンク部、
3サンプリング部、4・・・ピーク検出部、5・・・時
間カウンタ、6・・・比較部、7・・・メモリ部、8・
・・パターン比較部、9・・・パターン置き換え部、1
0・・・登録メモリ部。
第1図
特許出願人 株式会社 リコーFIG. 1 is a configuration diagram for explaining one embodiment of the present invention. 1...Microphone, 2...Filter bank section,
3 sampling section, 4... peak detection section, 5... time counter, 6... comparison section, 7... memory section, 8.
...Pattern comparison section, 9...Pattern replacement section, 1
0...Registered memory section. Figure 1 Patent applicant Ricoh Co., Ltd.
Claims (1)
れた電気信号を周波数分析する部分と、分析された結果
から周波数成分の大なる位置を取り出し、周波数成分の
大なる位置が所定の時間継続するか否かを判定する部分
と、所定の時間以上継続する部分(以降スペクトル安定
部と称する)が複数存在した場合、隣り合うスペクトル
安定部が同種のものであるかどうかを判定し、同種の時
にはそれらを一つのスペクトル安定部が継続しているも
のとして修正してパターン登録することを特徴とする音
声パターン登録方式。 2、請求項第1項に記載のパターン登録方式によって登
録したパターンを用いた音声認識装置。[Claims] 1. A part that collects audio and converts it into an electrical signal, a part that analyzes the frequency of the converted electrical signal, and extracts the major positions of frequency components from the analyzed results. If there are multiple parts that determine whether or not a large position continues for a predetermined time and parts that continue for more than a predetermined time (hereinafter referred to as spectral stable parts), adjacent spectral stable parts are of the same type. A voice pattern registration method characterized by determining whether or not they are the same, and registering the patterns by correcting them as if they are a continuous spectral stable part if they are the same. 2. A speech recognition device using a pattern registered by the pattern registration method according to claim 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1101144A JPH02278295A (en) | 1989-04-19 | 1989-04-19 | Voice pattern registering system and voice recognizing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1101144A JPH02278295A (en) | 1989-04-19 | 1989-04-19 | Voice pattern registering system and voice recognizing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02278295A true JPH02278295A (en) | 1990-11-14 |
Family
ID=14292885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1101144A Pending JPH02278295A (en) | 1989-04-19 | 1989-04-19 | Voice pattern registering system and voice recognizing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02278295A (en) |
-
1989
- 1989-04-19 JP JP1101144A patent/JPH02278295A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | On the use of variable frame rate analysis in speech recognition | |
US5025471A (en) | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns | |
EP0237934B1 (en) | Speech recognition system | |
US8069039B2 (en) | Sound signal processing apparatus and program | |
US4769844A (en) | Voice recognition system having a check scheme for registration of reference data | |
US4924518A (en) | Phoneme similarity calculating apparatus | |
JPH0558553B2 (en) | ||
JPH02278295A (en) | Voice pattern registering system and voice recognizing device | |
JPS58108590A (en) | Voice recognition equipment | |
JPH045198B2 (en) | ||
JP2666296B2 (en) | Voice recognition device | |
JPS63213899A (en) | Speaker collation system | |
JPS5936759B2 (en) | Voice recognition method | |
JP2844592B2 (en) | Discrete word speech recognition device | |
JPH01209499A (en) | Pattern matching system | |
JPH0682275B2 (en) | Voice recognizer | |
JPS6148898A (en) | Voice/voiceless discriminator for voice | |
JPS6227798A (en) | Voice recognition equipment | |
JPH04365100A (en) | Recognition method for consonant used for voice recognition | |
JPH0667695A (en) | Method and device for speech recognition | |
WO1989003519A1 (en) | Speech processing apparatus and methods for processing burst-friction sounds | |
JPH06110491A (en) | Speech recognition device | |
JPH0424697A (en) | Voice recognizing device | |
JPS6236699A (en) | Voice identifier | |
Cheng et al. | A simple tone classifier for Cantonese recognition |