JPS59137999A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPS59137999A
JPS59137999A JP58011761A JP1176183A JPS59137999A JP S59137999 A JPS59137999 A JP S59137999A JP 58011761 A JP58011761 A JP 58011761A JP 1176183 A JP1176183 A JP 1176183A JP S59137999 A JPS59137999 A JP S59137999A
Authority
JP
Japan
Prior art keywords
noise
standard pattern
standard
phoneme
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58011761A
Other languages
Japanese (ja)
Other versions
JPS6367197B2 (en
Inventor
二矢田 勝行
前田 ゆかり
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58011761A priority Critical patent/JPS59137999A/en
Publication of JPS59137999A publication Critical patent/JPS59137999A/en
Publication of JPS6367197B2 publication Critical patent/JPS6367197B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、音声認識技術に関するものである。[Detailed description of the invention] Industrial applications The present invention relates to speech recognition technology.

従来例の構成とその問題点 音声認識の方法において、入力音声と標準パターンを比
較して、最も類似度の高いもの全出力する方法が一般的
である。この場合、標準パターンの単位として単語を用
いるもの、音素を用いるものが代表的である。以下の説
明では、不特定話者全対象とした音声認識によって説明
を行なうので、音素を単位とした認識方法が有効であり
、以下の説明は音素の認識によって説明を行なう。しか
し、本発明の内容は音素の認識方法に止どするものでな
く、単語や文を単位とした場合も全く同様な方法が使用
できる。
Conventional configurations and their problems In speech recognition methods, a common method is to compare input speech with a standard pattern and output all patterns with the highest degree of similarity. In this case, it is typical to use a word or a phoneme as a standard pattern unit. Since the following explanation will be based on speech recognition for all speakers, a recognition method using phonemes as a unit is effective, and the following explanation will be based on phoneme recognition. However, the content of the present invention is not limited to the method of recognizing phonemes, and the same method can be used even when words or sentences are used as units.

従来の装置における音素副職を行なう部分のブo、yり
図全第1図に示す。1は分析部、2は音素認識比較部、
3は音素標準パターン格納部である。
FIG. 1 shows a complete diagram of the part of the conventional device that performs the phoneme subfunction. 1 is an analysis section, 2 is a phoneme recognition comparison section,
3 is a phoneme standard pattern storage section.

格納部3には、各音素に対応する標準的な特徴・ぐラメ
ータが音素の数たけ入っている。この各々の標準パター
ンと分析部1τ分析された入力特徴ノくラメータが比較
部2で比較され、入力特徴・シラメータと類似度が最も
大きい標準・ぐターンにおける音素の記号又は番号が音
素認識結果として出力される。
The storage unit 3 contains as many standard features and parameters corresponding to each phoneme as there are phonemes. The comparison unit 2 compares each standard pattern with the input feature parameter analyzed by the analysis unit 1τ, and the symbol or number of the phoneme in the standard pattern that has the highest degree of similarity to the input feature/parameter is used as the phoneme recognition result. Output.

不特定話者全対象とするシステムでの標準ノくターンの
作成には、多くの人のデータが必要である。
Creating standard nokuturns in a system that targets all speakers requires data from many people.

したがって、使用環境下でいちいち多くの人のデータを
収録する事は出来ない為一定環境(?lJえば防音室内
)において収録したデータを使って作成せざる全得ない
。この為騒音下(使用環境下)での入力音声と騒音なし
標準パターンとのマツチング(照合)がうまくいかず認
識率が低下する原因゛ となっていた。5g2図にS/
N比(信号対騒音比)と音素4識率の関係を示す。これ
を見ると、騒音のない場合の認識率は86.2%となる
がS/N 比が低くなるにつれ認識率も低下し、SZN
比6dB(デシベル)になると72.7%と12.6%
も低下してし1い騒音の影響を考慮していない従来の方
法は明らかに問題がある。
Therefore, since it is not possible to record the data of many people under each usage environment, it is absolutely necessary to create the data using data recorded in a certain environment (for example, in a soundproof room). For this reason, the matching between the input speech in a noisy environment (in a usage environment) and the noise-free standard pattern was not successful, leading to a decrease in the recognition rate. 5g2 figure S/
The relationship between N ratio (signal-to-noise ratio) and phoneme 4 recognition rate is shown. Looking at this, the recognition rate in the absence of noise is 86.2%, but as the S/N ratio decreases, the recognition rate also decreases, and SZN
When the ratio is 6dB (decibel), it is 72.7% and 12.6%.
Conventional methods that do not take into account the effects of noise, which can also be reduced, are clearly problematic.

発明の目的 本発明は、以上のような従来の問題点を解決する為にな
されたもので、騒音を考慮した標準パターンを作成し、
それ全使用し音素認識をする事によって誤認識を少なく
する事を目的とする。
Purpose of the Invention The present invention was made in order to solve the above-mentioned conventional problems, and it creates a standard pattern taking noise into consideration.
The aim is to reduce misrecognition by using all of them to perform phoneme recognition.

発明の構成 この目的を達成するために本発明は騒音の種類に対応し
て複数の標準パターンを用意しておき環境騒音に応じて
最適な標準パターンを選択するようにしたものである。
Structure of the Invention In order to achieve this object, the present invention prepares a plurality of standard patterns corresponding to the types of noise, and selects the optimum standard pattern according to the environmental noise.

実施例の説明 agS図は本発明の一実施?llを示すもので、1は分
析部、2は音素認識比較部でこれらは第1図と対応して
いる。3は騒音レベル検出部、4は標準パターン選択&
B、6は標準バクーン格納部である。
Is the agS diagram an implementation of the present invention? ll, 1 is an analysis section, 2 is a phoneme recognition comparison section, and these correspond to FIG. 3 is the noise level detection section, 4 is the standard pattern selection &
B, 6 is a standard Bakun storage section.

標準パターン格納部6には、第1図の格納部3とは異な
り、騒音のレベルと対応した複数の標準パターンが格納
されている。6はモードの切り替えを行なうスイッチで
あり、a911に倒れていると認識モード、b側に倒れ
ていると環境学習モードとなる。
The standard pattern storage section 6, unlike the storage section 3 of FIG. 1, stores a plurality of standard patterns corresponding to the noise level. Reference numeral 6 is a switch for switching modes, and when it is turned to the a911 side, it is the recognition mode, and when it is turned to the b side, it is the environment learning mode.

音声認識装置使用前(音声が入っていない状態)にスイ
ッチeib側に切り替えて、まず使用環境騒音のみを騒
音レベル検出部3の騒音レベル検出部で検出する。4で
は検出された騒音レベルによって標準バター7格納部6
の中から対応する音素標準パターンを選択する。以後の
認識では、この標準パターンを使用する事になる。音声
認識装置使用時にはスイッチ6をa側に切り替え、第1
図の場合と同様に入力音声を分析部1で特徴パラメータ
に変換し、比較gl12で標準パターンと比較して音素
の、認識を行なう。
Before using the voice recognition device (in a state where no voice is being input), the switch is switched to the eib side, and first only the noise in the usage environment is detected by the noise level detection section of the noise level detection section 3. 4 the standard butter 7 storage section 6 depending on the detected noise level.
Select the corresponding phoneme standard pattern from among. This standard pattern will be used for subsequent recognition. When using the voice recognition device, switch switch 6 to side a,
As in the case shown in the figure, the input speech is converted into characteristic parameters in the analysis section 1, and compared with a standard pattern in the comparison gl12 to recognize phonemes.

次に騒音全イ慮した標準パターンの作成法について説明
を行なう。使用環境下における騒音の性質をその捷ま1
更用して標準パターンを作成すれば、認識率の向上に対
する貢献度が敢も太きいが、環境騒音の種類はさまざま
であるのでこの方法は現実的でない。従ってここ・では
騒音の性質をモテル化する事によって、標準パターンを
作成する。
Next, we will explain how to create a standard pattern that takes all noise into account. Reduce the nature of noise in the usage environment1.
If a standard pattern was created by modifying the method, it would make a significant contribution to improving the recognition rate, but this method is not realistic because there are various types of environmental noise. Therefore, here we will create a standard pattern by modeling the characteristics of the noise.

環境騒音−のIM波叔特性は統d1的には第4Nに示す
HOTHスペクトル特性であることが知られている。騒
音の代表として、HOTHスペクトル特性を有するモデ
ル騒音を作成しておく。このモデル騒音と防音室内で収
録した音声データをS/N比が一定値になるように混合
して騒音入りの音声データを作成する。次に、このデー
タを使用して従来と同様の方法で音素標準パターンを作
成する。このような手続きをいくつかのS/N比に対し
て行ない、複数の標準パターンを作成して標準パターン
格納部6に格納しである。本実施例では、S/N比6d
B〜36dB’ii対象とし、5dBおきに標準パター
ンを作成し、合計8種類の標準パターンを作成して標準
パターン格納iB sに格納している。このようにして
作成した標準パターンは汎用的なものであり、一度作成
しておけば変更する必要がないのが特徴である。
It is known that the IM wave characteristic of environmental noise is the HOTH spectrum characteristic shown in the 4th N in general d1. A model noise having HOTH spectrum characteristics is created as a representative noise. This model noise and audio data recorded in a soundproof room are mixed so that the S/N ratio is a constant value to create audio data containing noise. Next, using this data, a phoneme standard pattern is created in the same manner as before. Such a procedure is performed for several S/N ratios, and a plurality of standard patterns are created and stored in the standard pattern storage section 6. In this example, the S/N ratio is 6d.
B to 36 dB'ii, standard patterns are created every 5 dB, and a total of 8 types of standard patterns are created and stored in the standard pattern storage iBs. The standard pattern created in this way is general-purpose, and once created, there is no need to change it.

騒音レベル検出部3は、マイクロホンから入力きれた騒
音信号の自乗和?計算してパワーを求める部分である。
The noise level detection unit 3 calculates the sum of squares of the noise signals input from the microphone. This is the part that calculates the power.

標準パターン選択部4は騒音パワーをS/N比に変換し
、標準パターン格納部6の中から対応するS/N比に最
も近い標準パターンを選択する。S/N比と騒音パワー
の変換は次式で行なう。
The standard pattern selection unit 4 converts the noise power into an S/N ratio, and selects the standard pattern closest to the corresponding S/N ratio from the standard pattern storage unit 6. Conversion between S/N ratio and noise power is performed using the following equation.

S/N比=1010g(音声パワー)−1010q(騒
音パワー) ここでマイクに入力される音声パワー(右辺第1項)は
、はぼ一定と考えて良いから上式で。
S/N ratio = 1010g (sound power) - 1010q (noise power) Here, the sound power input to the microphone (first term on the right side) can be considered to be approximately constant, so use the above equation.

S/N比と騒音パワーを対応づけることができる。It is possible to correlate S/N ratio and noise power.

発明の効果 本発明による効果を音素認識率で評価する。ここで用い
る音素認識率とは、正しく認識されたフレームの数(1
フレームは10m5ec長の音声データ)の全フレーム
数に対する割合で定義される。
Effects of the Invention The effects of the present invention will be evaluated based on the phoneme recognition rate. The phoneme recognition rate used here is the number of correctly recognized frames (1
A frame is defined as the ratio of 10m5ec length audio data) to the total number of frames.

第6図は例としてS/N比26dBに相当する騒音環境
下における5母音と鼻音(/m/、/n/。
FIG. 6 shows, as an example, five vowels and nasal sounds (/m/, /n/) in a noisy environment corresponding to an S/N ratio of 26 dB.

はつ音)に対する評価結果を示したものである。This figure shows the evaluation results for the sound.

実線7が本発明による標準パターンを便用した場合の結
果であり、破線8は従来の標準パターンを使用した場合
の結果である。平均認識率で3.6%の向上が認められ
、鼻音では26%も向上した。
The solid line 7 is the result when the standard pattern according to the present invention is used, and the broken line 8 is the result when the conventional standard pattern is used. The average recognition rate improved by 3.6%, and nasal sounds improved by 26%.

従って、本発明の効果は太きいと言える。Therefore, it can be said that the effects of the present invention are significant.

尚、第6図は、男性10名が発声した212単語の中の
音素を対象として評価したもので、各音素共約1600
0フレ一ム程度のデータ量があり、十分信頼できる結果
である。
Figure 6 shows the evaluation of phonemes in 212 words uttered by 10 men.
The amount of data is approximately 0 frames, and the result is sufficiently reliable.

このように本発明は、比較的単純で一般性のある方法で
あり、しかも音素認識率の改善に対する効果が大きく有
効である。
As described above, the present invention is a relatively simple and general method, and is highly effective in improving the phoneme recognition rate.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は:標準パターンマツチングによって音素認識を
行なう従来の方法のブロック図、第2図はS/N比と音
素認識率の関係を示す図、第3図は本発明の一実施例に
おける音声認識装置ブロック図、渠4図は騒音の周彼数
スペクトルを示す図、第6図は本発明の装置による認識
率を従来の装置によるそれと比較して示す図である。 1・・・・・・分析部、2・・・・・・音素認識比較部
、3・・・・・・騒音レベル検出部、4・・・・・・標
準パターン選択部。 6・・・・・・標準パターン格納部、6・・・・・・モ
ード切り替えスイッチ。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
図 第2図 第41!!1 @  ミd−綴 (KH2) 第5図 /6’/  /e/  /(11/if  /ltl 
 /N/j′   素 日
Figure 1 is a block diagram of a conventional method for phoneme recognition using standard pattern matching, Figure 2 is a diagram showing the relationship between S/N ratio and phoneme recognition rate, and Figure 3 is a block diagram of a conventional method for phoneme recognition using standard pattern matching. FIG. 4 is a block diagram of a speech recognition device, and FIG. 4 is a diagram showing a frequency spectrum of noise. FIG. 6 is a diagram showing a recognition rate by the device of the present invention in comparison with that by a conventional device. 1... Analysis section, 2... Phoneme recognition comparison section, 3... Noise level detection section, 4... Standard pattern selection section. 6...Standard pattern storage section, 6...Mode changeover switch. Name of agent: Patent attorney Toshio Nakao and 1 other person No. 1
Figure 2 Figure 41! ! 1 @ Mid-Tsuzuri (KH2) Fig. 5 /6'/ /e/ /(11/if /ltl
/N/j′

Claims (1)

【特許請求の範囲】[Claims] 音声と標準パターン全比較する手段を有し、騒音の種類
に応じて複数の標準パターンを用意しておき、装置便用
前に、環境騒音を学習し、学習結果によって、上記標準
パターンの中から対応する標準パターン1種類の選択全
行ない、この標準パターンを便用して騒音環境下で発声
した音声の認識を行なうことを特徴とする音声認識装置
It has a means to compare all the sound and standard patterns, prepares multiple standard patterns according to the type of noise, learns the environmental noise before using the device, and selects one of the above standard patterns according to the learning results. A speech recognition device characterized in that one type of corresponding standard pattern is selected and this standard pattern is conveniently used to recognize speech uttered in a noisy environment.
JP58011761A 1983-01-27 1983-01-27 Voice recognition equipment Granted JPS59137999A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58011761A JPS59137999A (en) 1983-01-27 1983-01-27 Voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58011761A JPS59137999A (en) 1983-01-27 1983-01-27 Voice recognition equipment

Publications (2)

Publication Number Publication Date
JPS59137999A true JPS59137999A (en) 1984-08-08
JPS6367197B2 JPS6367197B2 (en) 1988-12-23

Family

ID=11786959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58011761A Granted JPS59137999A (en) 1983-01-27 1983-01-27 Voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS59137999A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6184694A (en) * 1984-10-02 1986-04-30 株式会社東芝 Dictionary learning system for voice recognition
JPS6191700A (en) * 1984-10-11 1986-05-09 株式会社日立製作所 Voice input unit
JPS6242198A (en) * 1985-08-20 1987-02-24 松下電器産業株式会社 Voice recognition equipment
JPH0192699U (en) * 1987-12-11 1989-06-16
JPH05515U (en) * 1991-06-25 1993-01-08 東プレ株式会社 Anti-luggage device for luggage door in van type car
JP2002366192A (en) * 2001-06-08 2002-12-20 Nec Corp Method and device for recognizing voice
JP2004163458A (en) * 2002-11-08 2004-06-10 Sony Corp Speech recognition apparatus

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5934595A (en) * 1982-08-20 1984-02-24 富士通株式会社 Voice recognition processing system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5934595A (en) * 1982-08-20 1984-02-24 富士通株式会社 Voice recognition processing system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6184694A (en) * 1984-10-02 1986-04-30 株式会社東芝 Dictionary learning system for voice recognition
JPS6191700A (en) * 1984-10-11 1986-05-09 株式会社日立製作所 Voice input unit
JPS6242198A (en) * 1985-08-20 1987-02-24 松下電器産業株式会社 Voice recognition equipment
JPH0192699U (en) * 1987-12-11 1989-06-16
JPH05515U (en) * 1991-06-25 1993-01-08 東プレ株式会社 Anti-luggage device for luggage door in van type car
JP2002366192A (en) * 2001-06-08 2002-12-20 Nec Corp Method and device for recognizing voice
JP2004163458A (en) * 2002-11-08 2004-06-10 Sony Corp Speech recognition apparatus

Also Published As

Publication number Publication date
JPS6367197B2 (en) 1988-12-23

Similar Documents

Publication Publication Date Title
US7469207B1 (en) Method and system for providing automated audible backchannel responses
US6182044B1 (en) System and methods for analyzing and critiquing a vocal performance
JPH096390A (en) Voice recognition interactive processing method and processor therefor
JPH02242298A (en) Speaker identifying device based on glottis waveform
JP2008233672A (en) Masking sound generation apparatus, masking sound generation method, program, and recording medium
JPS59137999A (en) Voice recognition equipment
Aarts et al. A real-time speech-music discriminator
JPS60181798A (en) Voice recognition system
JPS63149699A (en) Voice input/output device
JPS6242198A (en) Voice recognition equipment
JPH04324499A (en) Speech recognition device
JPH10133678A (en) Voice reproducing device
US11501752B2 (en) Enhanced reproduction of speech on a computing system
JPS613241A (en) Speech recognition system
JPS5912479A (en) Pronuntiation practicing apparatus
CN118116392A (en) Digital conference voice processing method, system, storage medium and computer
JPS6239899A (en) Conversation voice understanding system
JP2975808B2 (en) Voice recognition device
JPS61292699A (en) Voice pass filter
Haderlein et al. Speech recognition with μ-law companded features on reverberated signals
JP2002196789A (en) Speech interactive device
JPH0449715B2 (en)
JPH04347898A (en) Voice recognizing method
JPS59170894A (en) Voice section starting system
JPH06138895A (en) Speech recognition device