JPH0449715B2 - - Google Patents

Info

Publication number
JPH0449715B2
JPH0449715B2 JP58007782A JP778283A JPH0449715B2 JP H0449715 B2 JPH0449715 B2 JP H0449715B2 JP 58007782 A JP58007782 A JP 58007782A JP 778283 A JP778283 A JP 778283A JP H0449715 B2 JPH0449715 B2 JP H0449715B2
Authority
JP
Japan
Prior art keywords
noise
data
microphone
standard pattern
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP58007782A
Other languages
Japanese (ja)
Other versions
JPS59132000A (en
Inventor
Katsuyuki Futayada
Satoshi Fujii
Hideji Morii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58007782A priority Critical patent/JPS59132000A/en
Publication of JPS59132000A publication Critical patent/JPS59132000A/en
Publication of JPH0449715B2 publication Critical patent/JPH0449715B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識における音声の標準パターン
作成法に関するものである。
DETAILED DESCRIPTION OF THE INVENTION Field of Industrial Application The present invention relates to a method for creating standard speech patterns in speech recognition.

従来例の構成とその問題点 話者を限定しない音声認識装置において、音声
を認識する前段階として音素の認識を行なうのが
有効である。第1図に音素認識を行なう部分のブ
ロツク図を示す。1は比較部、2は音素標準パタ
ーン格納部である。音素標準パターン格納部2に
は各音素に対応する標準的な特徴パラメータが音
素の数だけ入つている。入力特徴パラメータが比
較部1で各音素の標準パターンと比較され、最も
類似度の大きい音素の記号または番号が結果とし
て出力される。
Configuration of conventional example and its problems In a speech recognition device that does not limit speakers, it is effective to perform phoneme recognition as a step before recognizing speech. FIG. 1 shows a block diagram of the part that performs phoneme recognition. 1 is a comparison section, and 2 is a phoneme standard pattern storage section. The phoneme standard pattern storage section 2 stores standard feature parameters corresponding to each phoneme in the number of phonemes. The input feature parameters are compared with the standard pattern of each phoneme in the comparison unit 1, and the symbol or number of the phoneme with the highest degree of similarity is output as a result.

不特定話者を対象とするシステムでは、標準パ
ターンは多くの人のデータを使用して、あらかじ
め作成しておく必要がある。すなわち、使用環境
のもとで作成することはできない。一方、入力音
声は環境の影響やマイクロホンの特性の影響を受
けるため、必ずしも標準パターンを作成した環境
と同じ条件で使用されるとは限らない。このため
に、入力音声と標準パターンとのマツチングがう
まくゆかず、誤認識となる場合がある。環境やマ
イクロホン特性の影響に起因する、この種の誤認
識に対して、従来の方法では対処がなされていな
い。
In systems that target unspecified speakers, standard patterns must be created in advance using data from many people. In other words, it cannot be created under the usage environment. On the other hand, input audio is affected by the environment and microphone characteristics, so it is not necessarily used under the same conditions as the environment in which the standard pattern was created. For this reason, matching between the input voice and the standard pattern may not be successful, resulting in erroneous recognition. Conventional methods do not deal with this type of misrecognition caused by the influence of the environment or microphone characteristics.

発明の目的 本発明の目的は、騒音やマイクロホンの特性を
考慮した標準パターンを作成し、それを使用する
ことによつて、上記問題点の解決することであ
る。
OBJECT OF THE INVENTION An object of the present invention is to solve the above-mentioned problems by creating a standard pattern that takes noise and microphone characteristics into consideration and using it.

発明の構成 本発明は上記目的を達成するもので、音声認識
における標準パターン作成法に関して、環境騒音
をモデル騒音とし、またマイクロホンの騒音に対
する特性をフイルタの周波数特性で近似し、モデ
ル騒音に対して前記騒音用のフイルタを適用して
マイクロホン特性を考慮した騒音データを作成す
る。次に音声データと前記マイクロホン特性を考
慮した騒音データを信号対雑音比が一定になるよ
うに加えてノイズが付加した音声データを作成
し、このデータを使用して音声標準パターンを作
成することを特徴とする音声の標準パターン作成
法を提供するものである。
Composition of the Invention The present invention achieves the above object, and relates to a standard pattern creation method for speech recognition, in which environmental noise is used as a model noise, and the characteristics of a microphone with respect to noise are approximated by the frequency characteristics of a filter. The noise filter is applied to create noise data that takes microphone characteristics into consideration. Next, add the audio data and noise data that takes into account the microphone characteristics so that the signal-to-noise ratio is constant, create audio data with added noise, and use this data to create an audio standard pattern. It provides a method for creating standard patterns of distinctive voices.

実施例の説明 本発明の一実施例による標準パターン作成法に
ついて述べる。
DESCRIPTION OF EMBODIMENTS A standard pattern creation method according to an embodiment of the present invention will be described.

騒音をモデル騒音(たとえばHOTHスペク
トル騒音)と仮定し、騒音データを用意する。
Assume that the noise is model noise (for example, HOTH spectrum noise) and prepare noise data.

マイクロホンの騒音に対する周波数特性(遠
距離特性)を近似するフイルタを設計する。
Design a filter that approximates the frequency characteristics (long-distance characteristics) of microphone noise.

マイクロホンの音声に対する周波数特性(近
距離特性)を近似するフイルタを設計する。
Design a filter that approximates the frequency characteristics (near-field characteristics) of the microphone's voice.

上記に対してのフイルタを適用し、マイ
クロホン特性を考慮した騒音データを作成す
る。
A filter is applied to the above to create noise data that takes microphone characteristics into consideration.

防音室内で周波数特性が平坦なマイクロホン
を使用して収録した音声データ(クリーンデー
タ)に対して、のフイルタを適用し、マイク
ロホン特性を考慮した音声データを作成する。
The filter is applied to audio data (clean data) recorded using a microphone with flat frequency characteristics in a soundproof room to create audio data that takes into account the microphone characteristics.

で作成した音声データとで作成した騒音
データを、音声区間での信号対雑音比(S/N
比)が一定となるように加え合わせ、騒音入り
のデータを作成する。
The voice data created in 1 and the noise data created in
(ratio) is added so that the ratio is constant to create data with noise included.

騒音入りデータを使つて標準パターンを作
る。
Create a standard pattern using data with noise.

上記の手順で作成した標準パターンを使用すれ
ば、騒音の統計的な性質とマイクロホンの特性が
考慮されているため、これらの影響を少なくする
ことができ、誤認識が少なくなる。
If the standard pattern created in the above procedure is used, the statistical properties of the noise and the characteristics of the microphone are taken into account, so the effects of these can be reduced and misrecognitions are reduced.

具体的実施例についてさらに詳しく説明する。 Specific examples will be described in more detail.

騒音のスペクトル特性は音声認識装置が使用さ
れる環境によつて差異があるが、統計的に環境騒
音はHOTHスペクトル特性を示すことが知られ
ている。第2図に実線3でHOTHスペクトル特
性を示す。モデル騒音としてHOTHスペクトル
騒音を用いれば、それは環境騒音の特性を最もよ
く代表している。本実施例では−6dB/octの周
波数特性の騒音(第2図の破線4)でHOTHス
ペクトル特性を近似する。
Although the spectral characteristics of noise differ depending on the environment in which a speech recognition device is used, it is known that environmental noise statistically exhibits HOTH spectral characteristics. In Fig. 2, solid line 3 shows the HOTH spectrum characteristics. If we use HOTH spectrum noise as the model noise, it best represents the characteristics of environmental noise. In this embodiment, the HOTH spectrum characteristic is approximated by noise having a frequency characteristic of -6 dB/oct (broken line 4 in FIG. 2).

次にマイクロホンの周波数特性を近似する方法
を述べる。ここでは例として接話型マイクロホン
を使用した場合について説明する。
Next, we will explain how to approximate the frequency characteristics of a microphone. Here, a case where a close-talk type microphone is used will be explained as an example.

第3図は代表的な接話型マイクロホンの周波数
特性を示したものである。細実線5は近距離特性
であり、入力音声に対する特性である。太実線6
は遠距離特性であり、環境騒音に対する特性であ
る。第3図の例では近距離特性5は100〜2000Hz
までは平坦であり、5000Hz付近でも3dB高くなつ
ている程度なので、音声帯域においてほぼ平坦な
特性と考えてよい。このため、近距離特性を近似
するフイルタを設計する必要がない。
FIG. 3 shows the frequency characteristics of a typical close-talk type microphone. A thin solid line 5 is a short-distance characteristic, which is a characteristic for the input voice. Thick solid line 6
is a long-distance characteristic and a characteristic for environmental noise. In the example in Figure 3, short-range characteristic 5 is 100 to 2000Hz.
It is flat up to 5000 Hz, and is only 3 dB higher even around 5000 Hz, so it can be considered a nearly flat characteristic in the audio band. Therefore, there is no need to design a filter that approximates the short-range characteristics.

遠距離特性6は低域から2000Hz近辺まで大体
6dB/cotで上昇し、それ以上は飽和曲線の形状
となつている。この形状は1次のハイパスフイル
ターで近似することができる。第4図は遠距離特
性6をカツトオフ周波数1900Hzの1次のハイパス
フイルタで近似したものである。(破線7)。図か
ら明らかなように、100〜6000Hzの領域(音声帯
域)では、実によく近似されている。マイクの特
性が複雑な場合でも、同様な考え方でフイルタを
設計することが可能である。また、もし必要なら
ば、近距離特性に対しても近似フイルタを設計す
ることができる。
Long distance characteristic 6 is approximately from low range to around 2000Hz.
It rises at 6 dB/cot, and above that it takes the shape of a saturation curve. This shape can be approximated by a first-order high-pass filter. FIG. 4 shows the long-distance characteristic 6 approximated by a first-order high-pass filter with a cutoff frequency of 1900 Hz. (Dashed line 7). As is clear from the figure, the approximation is very good in the 100 to 6000 Hz region (audio band). Even if the characteristics of the microphone are complex, it is possible to design a filter using the same concept. Also, if necessary, an approximation filter can be designed for short-range characteristics as well.

次には、モデル騒音(白色騒音を積分して−
6dB/cot騒音を発声させる)に対して、上記の
フイルタを適用し、マイクロホン特性を考慮した
騒音を作る。
Next, integrate the model noise (white noise and -
6dB/cot noise), the above filter is applied to create noise that takes into account the microphone characteristics.

そして、この騒音を音声データ(クリーンデー
タまたはクリーンデータにマイクロホンの近距離
特性を考慮したもの)に、S/N比が一定となる
ように加え、騒音入りの音声データを作る。次に
この音声データを使用して標準パターンを作成す
る。標準パターンを作成する手順はクリーンデー
タで作成する場合と全く同様であるので説明を省
略する。
Then, this noise is added to the audio data (clean data or clean data with the close-range characteristics of the microphone taken into consideration) so that the S/N ratio is constant, creating audio data with noise added. Next, a standard pattern is created using this audio data. The procedure for creating a standard pattern is exactly the same as that for creating it using clean data, so the explanation will be omitted.

マイクロホンは用途が決まれば固定されてしま
うので、せいぜい2〜3種類の機種を考慮してお
けばよい。または騒音は環境によつてその性質が
異なるが、ここで使用しているのは統計的な性質
のみである。したがつて、本実施例で述べた方法
は一般性のある方法である。また1つのマイクロ
ホンに対して1度作成しておけばよい。標準パタ
ーンを作成する一連の手順は、計算機を使つて行
なうことができ、人手を煩わせる必要がないなど
の利点がある。
Since microphones are fixed once the purpose is determined, it is sufficient to consider at most two or three types of models. Also, the properties of noise vary depending on the environment, but only statistical properties are used here. Therefore, the method described in this embodiment is a general method. Also, it is only necessary to create it once for each microphone. The series of steps for creating a standard pattern can be performed using a computer, which has the advantage of not requiring any manual effort.

前記実施例による効果を音素認識率で評価す
る。音素認識率は、正しく認識された音素の数
(正確にはフレームの数:1フレームは10msec
の音声データ)の全音素数(全フレーム数)に対
する割合で定義される。
The effect of the above embodiment will be evaluated based on the phoneme recognition rate. The phoneme recognition rate is defined as the ratio of the number of correctly recognized phonemes (more precisely, the number of frames: one frame is 10 m sec of audio data) to the total number of phonemes (total number of frames).

第5図は、5母音と鼻音(/m/、/n/、は
つ音)に対する評価結果である。実線8が本実施
例による標準パターンを使用した場合の結果であ
り、破線9は従来の標準パターンを使用した場合
の結果である。平均認識率で3.6%の向上が認め
られ、鼻音では26%も向上した。したがつて、本
実施例の効果は大きいと言える。なお第5図は男
性10名が発声した212単語の中の音素を対象とし
て評価したもので、各音素とも約15000フレーム
程度のデータ量があり、十分信頼のできる結果で
ある。
FIG. 5 shows the evaluation results for five vowels and nasal sounds (/m/, /n/, nasal sounds). The solid line 8 is the result when the standard pattern according to this embodiment is used, and the broken line 9 is the result when the conventional standard pattern is used. The average recognition rate improved by 3.6%, and nasal sounds improved by 26%. Therefore, it can be said that the effects of this embodiment are significant. Figure 5 shows an evaluation of the phonemes in 212 words uttered by 10 men, and each phoneme has an amount of data of about 15,000 frames, so the results are sufficiently reliable.

このように本実施例は一般性のある方法であ
り、人手を要せず、しかも音素認識率の改善に対
する効果が大きく有効である。
As described above, the present embodiment is a general method, does not require human labor, and is highly effective in improving the phoneme recognition rate.

発明の効果 以上のように本発明は環境騒音をモデル騒音と
仮定し、マイクロホンの騒音に対する周波数特性
を所似する騒音用近似フイルタを準備し、モデル
騒音に対して前記騒音用近似フイルタを適用して
騒音データを作成し、音声データと騒音データを
信号対雑音比が一定になるように加え合わせて騒
音付加音声データを作成し、前記騒音付加音声デ
ータを用いて標準パターンを作成するもので、騒
音やマイクロホンの特性による影響を防止し、認
識率の向上がはかれる。
Effects of the Invention As described above, the present invention assumes that environmental noise is a model noise, prepares a noise approximation filter that has similar frequency characteristics to the noise of a microphone, and applies the noise approximation filter to the model noise. create noise data, add the audio data and noise data so that the signal-to-noise ratio is constant to create noise-added audio data, and create a standard pattern using the noise-added audio data, The recognition rate is improved by preventing the effects of noise and microphone characteristics.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、パターンマツチングによつて音素認
識を行なう方法のブロツク図、第2図はモデル騒
音の周波数特性を示した図、第3図は接話型マイ
クロホンの特性図、第4図は遠距離特性をフイル
タの特性で近似した図、第5図は本発明の効果を
示す音素認識率を示す図である。 1……比較部、2……音素標準パターン格納
部。
Figure 1 is a block diagram of a method for phoneme recognition using pattern matching, Figure 2 is a diagram showing the frequency characteristics of model noise, Figure 3 is a characteristic diagram of a close-talking microphone, and Figure 4 is a diagram showing the frequency characteristics of a model noise. FIG. 5, which is a diagram in which long-distance characteristics are approximated by filter characteristics, is a diagram showing the phoneme recognition rate showing the effects of the present invention. 1... Comparison section, 2... Phoneme standard pattern storage section.

Claims (1)

【特許請求の範囲】 1 環境騒音をモデル騒音と仮定し、マイクロホ
ンの騒音に対する周波数特性を近似する騒音用近
似フイルタを準備し、モデル騒音に対して前記騒
音用近似フイルタを適用して騒音データを作成
し、音声データと騒音データを信号対雑音比が一
定になるように加え合わせて騒音付加音声データ
を作成し、前記騒音付加音声データを用いて標準
パターンを作成することを特徴とする音声の標準
パターン作成法。 2 音声データが、マイクロホンの音声に対する
周波数特性を近似する音声用近似フイルタにより
作成されていることを特徴とする特許請求の範囲
第1項記載の音声の標準パターン作成法。
[Claims] 1. Assuming that environmental noise is model noise, preparing a noise approximation filter that approximates the frequency characteristics of the microphone noise, and applying the noise approximation filter to the model noise to obtain noise data. the noise-added audio data is created by adding the audio data and the noise data so that the signal-to-noise ratio is constant, and the standard pattern is created using the noise-added audio data. Standard pattern making method. 2. The method for creating a standard sound pattern according to claim 1, wherein the sound data is created using a sound approximation filter that approximates the frequency characteristics of a microphone's sound.
JP58007782A 1983-01-19 1983-01-19 Preparation of standard voice pattern Granted JPS59132000A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58007782A JPS59132000A (en) 1983-01-19 1983-01-19 Preparation of standard voice pattern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58007782A JPS59132000A (en) 1983-01-19 1983-01-19 Preparation of standard voice pattern

Publications (2)

Publication Number Publication Date
JPS59132000A JPS59132000A (en) 1984-07-28
JPH0449715B2 true JPH0449715B2 (en) 1992-08-12

Family

ID=11675239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58007782A Granted JPS59132000A (en) 1983-01-19 1983-01-19 Preparation of standard voice pattern

Country Status (1)

Country Link
JP (1) JPS59132000A (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0199093A (en) * 1987-10-12 1989-04-17 Nec Corp Reference pattern generator for voice recognition
JP5605052B2 (en) * 2010-07-22 2014-10-15 パナソニック株式会社 Hearing aid, hearing aid fitting method and hearing aid adjustment program

Also Published As

Publication number Publication date
JPS59132000A (en) 1984-07-28

Similar Documents

Publication Publication Date Title
Macho et al. Evaluation of a noise-robust DSR front-end on Aurora databases.
Hermansky et al. RASTA processing of speech
CN110383798A (en) Acoustic signal processing device, acoustics signal processing method and hands-free message equipment
Maruri et al. V-Speech: noise-robust speech capturing glasses using vibration sensors
JPH01296299A (en) Speech recognizing device
Rao et al. Robust speaker recognition on mobile devices
Sadjadi et al. A comparison of front-end compensation strategies for robust LVCSR under room reverberation and increased vocal effort
JPH0222960B2 (en)
JPH0449715B2 (en)
Kurcan Isolated word recognition from in-ear microphone data using hidden markov models (HMM)
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
JPS6367197B2 (en)
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
JPS60114900A (en) Voice/voiceless discrimination
CN111717754A (en) Car type elevator control method based on safety alarm words
CN112118511A (en) Earphone noise reduction method and device, earphone and computer readable storage medium
JP3011997B2 (en) Reference vector update method
WO2023104215A1 (en) Methods for synthesis-based clear hearing under noisy conditions
Seyedin et al. A new subband-weighted MVDR-based front-end for robust speech recognition
Cheng et al. A robust front-end algorithm for distributed speech recognition
Pujol et al. Speech recognition experiments with the SPEECON database using several robust front-ends.
Leng et al. Selective gammatone envelope feature for robust sound event recognition
Haderlein et al. Speech recognition with μ-law companded features on reverberated signals
Kurian et al. PNCC based speech enhancement and its performance evaluation using SNR Loss
Indrebo et al. Third-order moments of filtered speech signals for robust speech recognition