JPH06149285A - Speech recognizing device - Google Patents

Speech recognizing device

Info

Publication number
JPH06149285A
JPH06149285A JP4294884A JP29488492A JPH06149285A JP H06149285 A JPH06149285 A JP H06149285A JP 4294884 A JP4294884 A JP 4294884A JP 29488492 A JP29488492 A JP 29488492A JP H06149285 A JPH06149285 A JP H06149285A
Authority
JP
Japan
Prior art keywords
voice
speech
parameter
spectrum
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4294884A
Other languages
Japanese (ja)
Other versions
JP3335389B2 (en
Inventor
Hiroyuki Fujimoto
博之 藤本
Kazuya Sako
和也 佐古
Shoji Fujimoto
昇治 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP29488492A priority Critical patent/JP3335389B2/en
Publication of JPH06149285A publication Critical patent/JPH06149285A/en
Application granted granted Critical
Publication of JP3335389B2 publication Critical patent/JP3335389B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To reduce speech misrecognition of the speech recognizing device which controls equipment by recognizing a speech. CONSTITUTION:The speech recognizing device which recognizes the speech by preprocessing the input signal of the speech and controls the equipment on the basis of the recognition result is provided with a parameter setting part 10 in which parameters for roughly classifying spectrum patterns of the speech by respective features and optimizing preprocessing by the roughly classified spectrum patterns of the speech are stored and a parameter switching part 11 which analyzes the frequency of the input signal of the speech, decides which of the roughly classified speech spectrum patterns the frequency-analyzed spectrum belongs to, and switches the set parameters of the parameter setting part 10.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は音声を認識することによ
り機器の制御を行うための音声認識装置に関し、特に本
発明では音声認識の誤認識を低減することに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition apparatus for controlling equipment by recognizing voice, and more particularly to reducing false recognition of voice recognition in the present invention.

【0002】[0002]

【従来の技術】従来このような分野の技術として以下に
説明するものがあった。図5は従来の音声認識装置を用
いた制御システムを示す図である。本図に示すように、
音声認識装置を用いた制御システムは、車両の車室30
0内の話者の音声を捕捉するマイクロフォン200と、
該マイクロフォン200からの音声の方向、音源からの
距離から話者を識別する話者方向・距離判定部201
と、該話者方向・距離判定部201に接続され話者を識
別した音声信号から雑音を消去する適応形処理さらに自
動利得制御(AGC)を行う音声認識の前処理部202
と、該前処理部202に接続され音声を登録されたどの
単語に一致するかを認識する音声認識部203と、該音
声認識部203で認識された単語に基づき制御信号を形
成する各種制御部204と、該各種制御部204を介し
て認識された単語を音声に合成する音声合成部205
と、該音声合成部205に接続され合成された音声を再
生するスピーカ206と、前記各種制御部204により
制御されるオーディオ207と、エアコンデショナー2
08と、電話209と、ナビゲーション210と、オー
トドライブ211等を含む。
2. Description of the Related Art Conventionally, there have been techniques described below as techniques in such a field. FIG. 5 is a diagram showing a control system using a conventional voice recognition device. As shown in this figure,
A control system using a voice recognition device is used in a vehicle interior 30
A microphone 200 for capturing the voice of the speaker in 0;
A speaker direction / distance determining unit 201 for identifying a speaker based on the direction of the voice from the microphone 200 and the distance from the sound source.
And a speech recognition preprocessing unit 202 which is connected to the speaker direction / distance determining unit 201 and performs adaptive processing for eliminating noise from a voice signal that identifies a speaker and further performs automatic gain control (AGC).
And a voice recognition unit 203 connected to the pre-processing unit 202 for recognizing which of the registered words the voice matches, and various control units for forming control signals based on the words recognized by the voice recognition unit 203. 204, and a voice synthesis unit 205 for synthesizing words recognized through the various control units 204 into voice.
A speaker 206 connected to the voice synthesizing unit 205 for reproducing synthesized voice, an audio 207 controlled by the various control units 204, and an air conditioner 2
08, telephone 209, navigation 210, auto drive 211 and the like.

【0003】すなわち、マイクロフォン200で捕捉さ
れた音声は、話者方向距離判定部201、前処理部20
2を介して音声認識部203により認識され、その結果
を各種制御部204、音声合成205を介してスピーカ
206により話者に伝え、各種制御部204によりオー
ディオ207等のそれぞれが制御される。ここでマイク
ロフォン200〜スピーカ206は音声認識装置を構成
する。このような制御システムにおいては、制御の信頼
性の向上の観点から音声の認識率が高いことが要求され
ている。このため音声認識部203の性能向上が求めら
れるが、その前段である信号処理の結果にも大きく影響
を受ける。したがって、特にマイクロフォン200につ
いては話者方向距離判定部201によりマイクロフォン
相互間の遅延量の差、利得量の差の最適化を図ってい
る。さらに前処理部202により、雑音低減用適応型フ
ィルタ(ADF)のタップ長、遅延量、更新係数の最適
化、自動利得制御装置(AGC)の設定値の最適化、帯
域制限フィルタのカットオフ周波数の最適化、遮断特性
(減衰特性)の最適化を行っている。
That is, the voice captured by the microphone 200 is processed by the speaker direction distance determination unit 201 and the preprocessing unit 20.
2 is recognized by the voice recognition unit 203, the result is transmitted to the speaker by the speaker 206 via the various control units 204 and the voice synthesis 205, and the various control units 204 control the audio 207 and the like. Here, the microphone 200 to the speaker 206 constitute a voice recognition device. In such a control system, a high voice recognition rate is required from the viewpoint of improving control reliability. Therefore, the performance of the voice recognition unit 203 is required to be improved, but the result of the signal processing that is the preceding stage is also greatly affected. Therefore, particularly for the microphone 200, the speaker direction distance determination unit 201 optimizes the difference in delay amount and the difference in gain amount between the microphones. Further, the preprocessing unit 202 optimizes the tap length, delay amount, and update coefficient of the noise reduction adaptive filter (ADF), optimizes the setting value of the automatic gain control device (AGC), and cuts off the frequency of the band limiting filter. And the cutoff characteristics (attenuation characteristics) are optimized.

【0004】[0004]

【発明が解決しようとする課題】しかしながら従来の音
声認識装置の前処理部202では、前記各種最適化は経
験的に行われるが、話者の影響を強く受け最適化するの
が困難で、話者による認識率のばらつきが大きく安定し
て高認識率を得ることができないという問題があった。
However, in the pre-processing unit 202 of the conventional speech recognition apparatus, although the various optimizations described above are performed empirically, it is difficult to optimize because of the strong influence of the speaker. There is a problem that the recognition rate varies widely among persons and a stable high recognition rate cannot be obtained.

【0005】したがって本発明は上記問題点に鑑み異な
る話者に対しても認識率が高められる信号前処理を行う
ことができる音声認識装置を提供することを目的とす
る。
SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a voice recognition device capable of performing signal preprocessing for increasing the recognition rate even for different speakers in view of the above problems.

【0006】[0006]

【課題を解決するための手段】本発明は前記問題点を解
決するために、音声の入力信号を前処理し音声を認識
し、この認識結果に基づき機器を制御する音声認識装置
に、パラメータ設定部及びパラメータ切換部を設ける。
前記パラメータ設定部は前記音声のスペクトルパターン
をそれぞれの特徴に基づき大別し、大別された音声のス
ペクトルパターン毎に前記前処理の最適化が図れるパラ
メータを格納するようにしてある。
SUMMARY OF THE INVENTION In order to solve the above problems, the present invention sets a parameter in a voice recognition device which preprocesses an input signal of voice to recognize the voice and controls a device based on the recognition result. Section and parameter switching section.
The parameter setting unit roughly divides the spectrum pattern of the voice on the basis of each characteristic, and stores a parameter capable of optimizing the preprocessing for each broad spectrum pattern of the voice.

【0007】前記パラメータ切換部は前記音声の入力信
号を周波数分析し、周波数分析されたスペクトル分析が
前記大別されたどの音声のスペクトルパターンに属する
かを判定して前記パラメータ設定部の設定パラメータを
切り換えるようにしてある。さらに音声のスペクトルパ
ターンを特徴づける第1ホルマント周波数を基準にして
前記音声のスペクトルパターンを大別し、さらに入力信
号の第1ホルマント周波数により前記パラメータを切り
換えるようにしてある。
The parameter switching unit frequency-analyzes the input signal of the voice, determines which of the broad-spectrum voice spectrum patterns the frequency-analyzed spectrum analysis belongs to, and sets the setting parameter of the parameter setting unit. It is designed to be switched. Further, the spectrum pattern of the voice is roughly classified based on the first formant frequency which characterizes the spectrum pattern of the voice, and the parameter is switched according to the first formant frequency of the input signal.

【0008】[0008]

【作用】本発明の音声認識装置によれば、音声のスペク
トルパターンがそれぞれの特徴に基づき大別され、大別
された音声のスペクトルパターン毎に前記前処理の最適
化が図れるパラメータが格納され、前記音声の入力信号
が周波数分析され、周波数分析されたスペクトル分析が
前記大別されたどの音声のスペクトルパターンに属する
かが判定されて前記パラメータが切り換えられることに
より、従来ではパラメータを固定していたものを話者に
より可変にしたので、発声話者による認識率のばらつき
がなくなり、安定して高認識率を得ることができる。
According to the speech recognition apparatus of the present invention, the speech spectrum patterns are roughly classified based on their respective characteristics, and the parameters for optimizing the preprocessing are stored for each of the roughly classified speech spectrum patterns, The input signal of the voice is frequency-analyzed, the frequency-analyzed spectrum analysis is determined to belong to the broadly divided spectrum spectrum of the voice, and the parameter is switched, so that the parameter is conventionally fixed. Since the speaker is variable depending on the speaker, there is no variation in the recognition rate among the speaking speakers, and a high recognition rate can be stably obtained.

【0009】さらに音声のスペクトルパターンを特徴づ
ける第1ホルマント周波数が基準にされ前記音声のスペ
クトルパターンが大別され、さらに入力信号の第1ホル
マント周波数により前記パラメータが切り換えられるこ
とにより、容易に実現可能できる。また前記第1ホルマ
ント周波数が基準とされ前記音声のスペクトルパターン
が男女に大別され、さらに入力信号の第1ホルマント周
波数により男女のパラメータが切り換えられることによ
り、男女の第1ホルマント周波数の顕著な相違を利用し
てさらに容易に実現が可能になる。
Further, the first formant frequency that characterizes the spectrum pattern of the voice is used as a reference to roughly divide the spectrum pattern of the voice, and the parameter can be switched according to the first formant frequency of the input signal. it can. Further, the first formant frequency is used as a reference, the spectrum pattern of the voice is roughly classified into male and female, and the parameters of the male and female are switched by the first formant frequency of the input signal, so that the first formant frequency of the male and female is significantly different. Can be realized more easily by using.

【0010】[0010]

【実施例】以下本発明の実施例について図面を参照して
説明する。図1は本発明の実施例に係る音声認識装置を
示す図である。なお、全図を通じて同様の構成要素につ
いては同一参照番号又は記号をもって表す。本図に示す
音声認識装置は、話者の音声を捕捉する複数のマイクロ
フォン200と、該マイクロフォン200に接続され音
声の方向、音源からの距離から話者を識別する話者方向
距離判定部201と、該話者方向距離判定部201に接
続され話者を識別した音声信号から雑音を消去する適応
形処理さらに自動利得制御(AGC)を行う音声認識の
前処理部202と、該前処理部202に接続され音声を
登録されたどの単語に一致するかを認識しその結果を各
種制御部204(図5参照)に出力する音声認識部20
3と、前記前処理部202の各種処理のパラメータを切
換設定するパラメータ設定部10と、前記マイクロフォ
ン200からの音声信号に基づき前記パラメータ設定部
のパラメータの切換を判定するパラメータ切換判定部1
1を具備する。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a diagram showing a voice recognition device according to an embodiment of the present invention. In addition, the same reference number or symbol is used to represent the same component throughout the drawings. The voice recognition device shown in the figure includes a plurality of microphones 200 for capturing a voice of a speaker, a speaker direction distance determination unit 201 connected to the microphones 200 for identifying a speaker based on a direction of the voice and a distance from a sound source. , A speech recognition preprocessing unit 202 which is connected to the speaker direction distance determination unit 201 to eliminate noise from a voice signal which identifies a speaker and further performs automatic gain control (AGC), and the preprocessing unit 202 Connected to the voice recognition unit 20 for recognizing which word matches the registered voice and outputting the result to the various control units 204 (see FIG. 5).
3, a parameter setting unit 10 for switching and setting various processing parameters of the preprocessing unit 202, and a parameter switching determination unit 1 for determining switching of parameters of the parameter setting unit based on a voice signal from the microphone 200.
1 is provided.

【0011】次にパラメータ設定部10及びパラメータ
切換判定部11について説明する。図2は図1のパラメ
ータ設定部10及びパラメータ切換判定部における信号
処理を説明するフローチャートである。本図に示すよう
に、ステップ1及び2は認識システム外の処理であって
予め下記パラメータ値を決定するものであり、ステップ
3以降では認識システム内の処理を行う。
Next, the parameter setting unit 10 and the parameter switching determination unit 11 will be described. FIG. 2 is a flowchart for explaining signal processing in the parameter setting unit 10 and the parameter switching determination unit of FIG. As shown in the figure, steps 1 and 2 are processes outside the recognition system, and determine the following parameter values in advance, and after step 3, the processes inside the recognition system are performed.

【0012】先ずステップ1においては、マイクロフォ
ン200からの音声に基づきパラメータ切換判定部11
により音声波形のスペクトルパターン(第1ホルマント
周波数)の違いにより音声をn個のパターンに大別して
設定され、このn個のスペクトルパターンが格納され
る。この格納技術自体は周知のものなものであるから、
説明を省略する。ここで音声をn個のパターンに大別す
る方法として第1ホルマント周波数により音声をパター
ン化するものを以下に説明する。先ず音声生成について
簡単に説明する。音声の音響的特性を決める物理的要因
は、音源の特性、声道の共鳴特性及び唇ないし鼻孔から
の音波の放射特性であるといわれている。図3は音声波
のスペクトルを示す図である。本図に示すように、音声
波のスペクトルでは、周波数が高くなると一定の傾斜で
音声の強さが小さくなり、声道の共鳴に対応したいくつ
かの山がありこれをホルマントという。周波数が一番低
い山を第1ホルマントと呼ぶ。この第1ホルマントが生
じる第1ホルマント周波数は個人差があり、個人により
ばらつくが生じている。この第1ホルマント周波数のば
らつきに対応して認識率のばらつきが生じていることに
本発明者は気がついた。このため、第1ホルマント周波
数に対応して前記前処理部202に設定すべきパラメー
タを変更することにより前処理の最適化が図れることに
なる。したがってパラメータ切換判定部11にはスペク
トルパターンとしてn個の第1ホルマント周波数領域、
例えば第ホルマント周波数を100Hz、125Hz、
150Hz、175Hzを中心に一定幅を記憶する。
First, in step 1, the parameter switching determination unit 11 is based on the voice from the microphone 200.
According to the difference in the spectrum pattern (first formant frequency) of the voice waveform, the voice is roughly divided into n patterns and set, and the n spectrum patterns are stored. Since this storage technology itself is well known,
The description is omitted. Here, as a method of roughly classifying speech into n patterns, a method of patterning speech by the first formant frequency will be described below. First, the voice generation will be briefly described. It is said that the physical factors that determine the acoustic characteristics of voice are the characteristics of the sound source, the resonance characteristics of the vocal tract, and the emission characteristics of sound waves from the lips or nostrils. FIG. 3 is a diagram showing a spectrum of a sound wave. As shown in this figure, in the spectrum of a voice wave, the intensity of the voice decreases with a certain slope as the frequency increases, and there are several peaks corresponding to the resonance of the vocal tract, which is called a formant. The mountain with the lowest frequency is called the first formant. The first formant frequency generated by the first formant varies from person to person and varies from person to person. The present inventor has noticed that the recognition rate varies depending on the variation of the first formant frequency. Therefore, the preprocessing can be optimized by changing the parameter to be set in the preprocessing unit 202 according to the first formant frequency. Therefore, the parameter switching determination unit 11 includes n first formant frequency regions as spectral patterns,
For example, the first formant frequency is 100Hz, 125Hz,
A certain width is stored around 150 Hz and 175 Hz.

【0013】ステップ2においては、ステップ1で第1
ホルマント周波数により大別したn種類の音声パターン
についてシミュレーション、エミュレーションを繰り返
し、各制御パラメータの最適を決定する。この最適値は
理論的裏付けがなく実験による経験則により決定され
る。なおシミュレーションでは本制御システムの音声認
識装置を用いず、例えば、パーソナルコンピュータに前
処理部202、音声認識装置を構成し、理想状態で、各
大別された第1ホルマントで最適パラーメタを求めるも
のである。エミューレションでは、DSP(Digital Si
gnal Processor)で構成され、実機である本制御システ
ムの音声認識装置により、シミュレーションで決定され
たパラメータが実用できるかをチェックするものであ
る。
In step 2, first in step 1
Simulation and emulation are repeated for n kinds of voice patterns roughly classified by formant frequencies, and the optimum of each control parameter is determined. This optimum value has no theoretical support and is determined by experimental empirical rules. In the simulation, the voice recognition device of the present control system is not used, but for example, the preprocessing unit 202 and the voice recognition device are configured in a personal computer, and in the ideal state, the optimal parameters are roughly classified by the first formants. is there. In emulation, DSP (Digital Si
gnal processor) and the actual voice recognition device of this control system checks whether the parameters determined by simulation can be used.

【0014】ここでパラメータの内容は前述したよう
に、前処理部202における雑音低減用適応型フィルタ
(ADF)のタップ長、遅延量、更新係数、自動利得制
御装置(AGC)の設定値、帯域制限フィルタのカット
オフ周波数、遮断特性(減衰特性)等である。ステップ
3においては、メモリで構成されるパラメータ設定部1
0に、上記のようにして得られた各最適パラメータが第
1ホルマント周波数別に格納される。
Here, the contents of the parameters are, as described above, the tap length, the delay amount, the update coefficient of the noise reduction adaptive filter (ADF) in the pre-processing unit 202, the set value of the automatic gain controller (AGC), and the band. The cutoff frequency of the limiting filter, the cutoff characteristic (attenuation characteristic), and the like. In step 3, the parameter setting unit 1 including a memory
The optimum parameters obtained as described above are stored in 0 for each first formant frequency.

【0015】ステップ4においては、マイクロフォン2
00に入力した音声をパラメータ切換判定部11により
スペクトル分析し、話者の音声パターンとパラメータ切
換判定部11に格納されたn種の音声パターンを比較す
る。すなわち、スペクトル分析により得られた第1ホル
マント周波数がパラメータ切換判定部11に格納された
第1ホルマント周波数を求め、この第1ホルマント周波
数が格納されているn個の第1ホルマント周波数のどの
領域に属するかを比較する。
In step 4, the microphone 2
The voice input to 00 is spectrum-analyzed by the parameter switching determination unit 11, and the voice pattern of the speaker is compared with the n types of voice patterns stored in the parameter switching determination unit 11. That is, the first formant frequency obtained by the spectrum analysis determines the first formant frequency stored in the parameter switching determination unit 11, and the region of the n first formant frequencies in which the first formant frequency is stored is determined. Compare if they belong.

【0016】ステップ5においては、ステップ4での比
較からパラメータ切換判定部11によりn種の音声パタ
ーンの中から話者の音声パターンと最も類似したものを
選ぶ。ステップ6においては、ステップ5で選択した音
声パターンの各制御パラメータをパラメータ設定部10
のメモリから読み出し、このパラメータを用いて前処理
部202で信号の前処理を行い、この前処理された信号
により音声認識部203により音声認識を行う。
In step 5, from the comparison in step 4, the parameter switching determination unit 11 selects the most similar to the speaker's voice pattern from the n types of voice patterns. In step 6, each control parameter of the voice pattern selected in step 5 is set to the parameter setting unit 10
, The signal is pre-processed by the pre-processing unit 202 using this parameter, and the voice recognition unit 203 performs voice recognition based on the pre-processed signal.

【0017】したがって本実施例によれば、従来では前
処理の最適パラメータが固定されていたが、話者により
最適パラメータを変化させるので、話者に依存せず安定
して高い認識率を得ることが可能になる。図4は図1の
パラメータ設定部10及びパラメータ切換判定部におけ
る別の信号処理を説明するフローチャートである。本図
に示すように、ステップ11は認識システム外の信号処
理を説明し、ステップ12以降では認識システム内の信
号処理を説明する。ステップ11において、シミュレー
ション、エミュレーションで各制御パラメータの最適値
を男女別に決定する。このように、大別するのは音声ス
ペクトルのパターンについては、男性の場合には概ね第
1ホルマント周波数が100Hz〜175Hzにあり、
女性の場合には第1ホルマント周波数が200Hz〜3
00Hzにあるからである。すなわち、特に第1ホルマ
ント周波数において男女間の差異が顕著に現れている。
なお、前記制御パラメータついては、前述のように、そ
の最適値は理論的裏付けがなく経験則から決定される。
Therefore, according to the present embodiment, the optimum parameters for preprocessing have been fixed in the past, but since the optimum parameters are changed by the speaker, it is possible to stably obtain a high recognition rate without depending on the speaker. Will be possible. FIG. 4 is a flowchart illustrating another signal processing in the parameter setting unit 10 and the parameter switching determination unit in FIG. As shown in the figure, step 11 describes signal processing outside the recognition system, and step 12 and subsequent steps describe signal processing inside the recognition system. In step 11, the optimum value of each control parameter is determined for each gender by simulation and emulation. As described above, the patterns of the voice spectrum are roughly classified into the first formant frequency of 100 Hz to 175 Hz in the case of men,
In the case of women, the first formant frequency is 200 Hz to 3
This is because it is at 00 Hz. That is, the difference between men and women is particularly remarkable in the first formant frequency.
As described above, the optimum value of the control parameter is not theoretically supported and is determined from an empirical rule.

【0018】ステップ12において、ステップ11で決
定した制御パラメータ、すなわち男女用、女性用の2系
列のパラメータの最適パラメータをパラメータ設定部1
0に格納する。ステップ13において、パラメータ切換
判定部11によりマイクロフォン200からの入力音声
のスペクトルのパターンを分析し、この分析により第1
ホルマント周波数から音声パターンが男性のものか、又
は女性のものかを判定する。
In step 12, the control parameters determined in step 11, that is, the optimum parameters of the two series of parameters for male and female, are set to the parameter setting unit 1.
Store in 0. In step 13, the parameter switching determination unit 11 analyzes the spectrum pattern of the input voice from the microphone 200, and the first pattern is analyzed by this analysis.
From the formant frequency, it is determined whether the voice pattern is male or female.

【0019】ステップ14において、話者の性別により
パラメータ設定部10のメモリ内に格納したパラメータ
のうち該当する方を選択する。ステップ15において、
ステップ4で選択したパラメータを用いて前処理部20
2に設定し音声認識を行う。本信号処理例によれば、前
記例と比較して構成が簡単化するという効果がある。
In step 14, one of the parameters stored in the memory of the parameter setting section 10 is selected according to the gender of the speaker. In step 15,
Using the parameters selected in step 4, the preprocessing unit 20
Set to 2 for voice recognition. According to this signal processing example, there is an effect that the configuration is simplified as compared with the above example.

【0020】[0020]

【発明の効果】以上説明したように本発明によれば、音
声のスペクトルパターンをそれぞれの特徴に基づき大別
し、大別された音声のスペクトルパターン毎に前処理の
最適化が図れるパラメータを格納し、音声の入力信号を
周波数分析し、周波数分析されたスペクトル分析が大別
されたどの音声のスペクトルパターンに属するかを判定
しパラメータを切り換えるようにし、従来ではパラメー
タを固定していたものを話者により可変にしたので、発
声話者による認識率のばらつきがなくなり、安定して高
認識率を得ることができる。音声のスペクトルパターン
を特徴づける第1ホルマント周波数が基準にされ前記音
声のスペクトルパターンが大別され、さらに入力信号の
第1ホルマント周波数によりパラメータが切り換えられ
ることにより、容易に実現可能できる。
As described above, according to the present invention, the speech spectrum patterns are roughly classified based on their respective characteristics, and the parameters for pre-processing optimization are stored for each of the roughly classified speech spectrum patterns. Then, the input signal of the voice is frequency-analyzed, the frequency-analyzed spectrum analysis is roughly classified to determine which voice's spectrum pattern belongs, and the parameters are switched. Since it is variable depending on the person, it is possible to stably obtain a high recognition rate without variations in the recognition rate depending on the speaker. This can be easily realized by roughly classifying the speech spectrum pattern based on the first formant frequency that characterizes the speech spectrum pattern, and by switching the parameter according to the first formant frequency of the input signal.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施例に係る音声認識装置を示す図で
ある。
FIG. 1 is a diagram showing a voice recognition device according to an embodiment of the present invention.

【図2】図1のパラメータ設定部10及びパラメータ切
換判定部11における信号処理を説明するフローチャー
トである。
2 is a flowchart illustrating signal processing in a parameter setting unit 10 and a parameter switching determination unit 11 of FIG.

【図3】音声波のスペクトルを示す図である。FIG. 3 is a diagram showing a spectrum of a voice wave.

【図4】図1のパラメータ設定部10及びパラメータ切
換判定部11における別の信号処理を説明するフローチ
ャートである。
FIG. 4 is a flowchart illustrating another signal processing in the parameter setting unit 10 and the parameter switching determination unit 11 in FIG.

【図5】従来の音声認識装置を用いた制御システムを示
す図である。
FIG. 5 is a diagram showing a control system using a conventional voice recognition device.

【符号の説明】[Explanation of symbols]

10…パラメータ設定部 11…パラメータ切換判定部 200…マイクロフォン 201…話者方向・距離判定部 202…前処理部 203…音声認識部 10 ... Parameter setting unit 11 ... Parameter switching determination unit 200 ... Microphone 201 ... Speaker direction / distance determination unit 202 ... Preprocessing unit 203 ... Speech recognition unit

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 音声の入力信号を前処理し音声を認識
し、この認識結果に基づき機器を制御する音声認識装置
であって、 前記音声のスペクトルパターンをそれぞれの特徴に基づ
き大別し、大別された音声のスペクトルパターン毎に前
記前処理の最適化が図れるパラメータを格納するパラメ
ータ設定部(10)と、 前記音声の入力信号を周波数分析し、周波数分析された
スペクトル分析が前記大別されたどの音声のスペクトル
パターンに属するかを判定して前記パラメータ設定部
(10)の設定パラメータを切り換えるパラメータ切換
部(11)とを備えることを特徴とする音声認識装置。
1. A voice recognition device for pre-processing an input signal of voice, recognizing voice, and controlling a device based on the recognition result, wherein the spectrum pattern of the voice is roughly classified according to each feature, and A parameter setting unit (10) that stores a parameter capable of optimizing the pre-processing for each of the separated speech spectrum patterns; and frequency analysis of the input signal of the speech, and the spectrum analysis subjected to the frequency analysis is roughly classified into the following. A voice recognition device, comprising: a parameter switching unit (11) for determining which of the voices the spectrum pattern belongs to and switching the setting parameter of the parameter setting unit (10).
【請求項2】 音声のスペクトルパターンを特徴づける
第1ホルマント周波数を基準にして前記音声のスペクト
ルパターンを大別し、この大別結果に基づき前記パラメ
ータを最もスペクトルパターンの類似したパラメータに
切り換える請求項1記載の音声認識装置。
2. The spectrum pattern of the voice is roughly classified on the basis of a first formant frequency which characterizes the spectrum pattern of the voice, and the parameter is switched to a parameter having the most similar spectrum pattern based on the result of the rough classification. 1. The voice recognition device according to 1.
JP29488492A 1992-11-04 1992-11-04 Voice recognition device Expired - Fee Related JP3335389B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29488492A JP3335389B2 (en) 1992-11-04 1992-11-04 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29488492A JP3335389B2 (en) 1992-11-04 1992-11-04 Voice recognition device

Publications (2)

Publication Number Publication Date
JPH06149285A true JPH06149285A (en) 1994-05-27
JP3335389B2 JP3335389B2 (en) 2002-10-15

Family

ID=17813499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29488492A Expired - Fee Related JP3335389B2 (en) 1992-11-04 1992-11-04 Voice recognition device

Country Status (1)

Country Link
JP (1) JP3335389B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005164988A (en) * 2003-12-03 2005-06-23 Xanavi Informatics Corp Frequency switching device and information processing apparatus
JP2006039447A (en) * 2004-07-30 2006-02-09 Nissan Motor Co Ltd Voice input device
JP2006047447A (en) * 2004-08-02 2006-02-16 Nissan Motor Co Ltd Speech input device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005164988A (en) * 2003-12-03 2005-06-23 Xanavi Informatics Corp Frequency switching device and information processing apparatus
JP2006039447A (en) * 2004-07-30 2006-02-09 Nissan Motor Co Ltd Voice input device
JP4561222B2 (en) * 2004-07-30 2010-10-13 日産自動車株式会社 Voice input device
JP2006047447A (en) * 2004-08-02 2006-02-16 Nissan Motor Co Ltd Speech input device
JP4649905B2 (en) * 2004-08-02 2011-03-16 日産自動車株式会社 Voice input device

Also Published As

Publication number Publication date
JP3335389B2 (en) 2002-10-15

Similar Documents

Publication Publication Date Title
US20080082327A1 (en) Sound Processing Apparatus
US8311842B2 (en) Method and apparatus for expanding bandwidth of voice signal
US20150256930A1 (en) Masking sound data generating device, method for generating masking sound data, and masking sound data generating system
JP2007507119A (en) Binaural hearing aid system with matched acoustic processing
KR20010089769A (en) System and method for segmentation and recognition of speech signals
JP4185866B2 (en) Acoustic signal processing apparatus and acoustic signal processing method
JP2002051392A (en) In-vehicle conversation assisting device
JPH0879897A (en) Hearing aid
JPH0968997A (en) Method and device for processing voice
JP3789503B2 (en) Audio processing device
JPH06149285A (en) Speech recognizing device
JP2000081900A (en) Sound absorbing method, and device and program recording medium therefor
JP2701431B2 (en) Voice recognition device
US9318126B2 (en) Voice clarification apparatus
JP2023539121A (en) Audio content identification
JP3822397B2 (en) Voice input / output system
JP4552533B2 (en) Acoustic signal processing apparatus and voice level calculation method
CN113707156A (en) Vehicle-mounted voice recognition method and system
JPH04230796A (en) Voice signal processor
JPS6367197B2 (en)
JPH04230800A (en) Voice signal processor
JP3958009B2 (en) Voice recognition device
JP2020194093A (en) Voice recognition device, voice recognition program, and voice recognition method
JP4079478B2 (en) Audio signal processing circuit and processing method
US11996073B2 (en) Masking sound adjustment method and masking sound adjustment device

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19991214

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090802

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees