JPH05165492A - Voice recognizing device - Google Patents

Voice recognizing device

Info

Publication number
JPH05165492A
JPH05165492A JP3329063A JP32906391A JPH05165492A JP H05165492 A JPH05165492 A JP H05165492A JP 3329063 A JP3329063 A JP 3329063A JP 32906391 A JP32906391 A JP 32906391A JP H05165492 A JPH05165492 A JP H05165492A
Authority
JP
Japan
Prior art keywords
noise
voice
standard pattern
unit
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3329063A
Other languages
Japanese (ja)
Other versions
JP3098593B2 (en
Inventor
Hiroaki Kokubo
浩明 小窪
Akio Amano
明雄 天野
Akira Ichikawa
▲あきら▼ 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP03329063A priority Critical patent/JP3098593B2/en
Publication of JPH05165492A publication Critical patent/JPH05165492A/en
Application granted granted Critical
Publication of JP3098593B2 publication Critical patent/JP3098593B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To improve the rate of recognition for the recognizing device by improving the S/N of an input voice by executing a preliminary processing due to a spectrum transaction to the input voice, and executing collation even to noise not completely removed while using a standard pattern from voice data having a character close to a noisy environment. CONSTITUTION:This device is equipped with a voice input part 102 for the voice as a recognizing object, noise processing part 106 to remove the noise by analyzing the frequency of an input voice signal and subtracting an estimated noise spectrum from an analyzed voice spectrum, analysis part 108 to calculate the feature vector of the input voice based on the voice signal obtained at the noise processing part, standard pattern selection part 110 to store the prepared standard pattern by using noise superimpose voice data corresponding to the noisy environment, to calculate the noise information of residual noise not completely removed by the noise processing part 106 and to select the optimum standard pattern out of the plural standard patterns based on the noise information, and collation part 112 to recognize the input voice by collating the standard pattern selected by the standard pattern selection part 12 with a feature vector.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は音声認識装置に係り、特
に騒音下で認識を可能にするための耐雑音性の高い音声
認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device, and more particularly to a voice recognition device having high noise resistance for enabling recognition under noise.

【0002】[0002]

【従来の技術】音声認識装置を実用化するためには、騒
音下で発声した音声でも正しく認識するような耐雑音化
のための技術が不可欠である。そこで従来では、専ら接
話型マイクロフォンを用いてなるべく音声以外の周囲雑
音を拾わないようにしてきた。しかし、接話型マイクロ
フォンは音声入力環境を非常に限定したものとしてお
り、もっと使用用途の広いハンズフリー型マイクロフォ
ンを用いた音声認識装置のニーズが高まっている。その
ニーズの一つとして、例えば、車載用の音声認識装置が
ある。ハンズフリーマイクロフォンを用いた音声認識装
置を実現するためには、前処理によって雑音が重畳した
音声から雑音を除去する手法、或は雑音が混入されてい
ても正しく認識が行なえる手法が必要である。
2. Description of the Related Art In order to put a voice recognition device into practical use, it is essential to have a noise resistance technique that correctly recognizes even a voice uttered in a noisy environment. Therefore, conventionally, a close-talking type microphone has been used exclusively to prevent ambient noise other than voice from being picked up as much as possible. However, the close-talking type microphone makes the voice input environment very limited, and there is an increasing need for a voice recognition device using a hands-free type microphone, which has a wider use. One of the needs is, for example, a vehicle-mounted voice recognition device. In order to realize a speech recognition system using a hands-free microphone, it is necessary to remove noise from speech with noise pre-processed or to perform recognition correctly even if noise is mixed. ..

【0003】[0003]

【発明が解決しようとする課題】従来、雑音を除去する
手段としては、適応フィルタを用いて雑音を除去するも
の、音声に混入した雑音を推定した雑音スペクトルを入
力音声スペクトルから差し引くスペクトルサブトラクシ
ョン法などがある。しかしながら、実際の環境下では、
音声に様々な音源からなる定常、非定常の雑音が混入し
ており、入力信号の中からこれらの雑音成分をすべて除
去することは非常に困難である。
Conventionally, as means for removing noise, a means for removing noise using an adaptive filter, a spectral subtraction method for subtracting a noise spectrum estimated from noise mixed in speech from an input speech spectrum, etc. There is. However, in an actual environment,
Stationary and non-stationary noises from various sound sources are mixed in the speech, and it is very difficult to remove all these noise components from the input signal.

【0004】また、パタンマッチング認識手法の耐雑音
性を向上させる手法には、雑音の影響を受けにくいパラ
メータを用いて照合を行う手法、距離尺度を用いる手
法、および雑音を予め標準パタンに重畳しておく雑音重
畳法などがある。雑音重畳法は雑音を重畳した標準パタ
ンを予め用意しておかなければならず、また標準パタン
に重畳しておく雑音の性質やS/N等の条件が入力時の
ものと異なっていると、耐雑音性の効果が少ないという
問題があるため、騒音環境に応じて標準パタンを複数用
意する必要がある。しかし、標準パタンの種類を増やす
ことにより、必要となるメモリ量が非常に大きくなって
しまうという問題が或る。
Further, as a method of improving noise resistance of the pattern matching recognition method, a method of performing matching using a parameter which is not easily influenced by noise, a method of using a distance measure, and noise being superposed on a standard pattern in advance. There is a noise superposition method. In the noise superimposition method, a standard pattern on which noise is superimposed must be prepared in advance, and if the characteristics of the noise to be superimposed on the standard pattern and the conditions such as S / N are different from those at the time of input, Since there is a problem that the effect of noise resistance is small, it is necessary to prepare a plurality of standard patterns according to the noise environment. However, there is a problem that the required memory amount becomes very large by increasing the types of standard patterns.

【0005】また、音声認識装置を実用化するためのも
う一つの問題は処理量の問題である。一般に音声認識に
は非常に大きな処理量を必要とするため、限られたリソ
ースの中で雑音対策のための処理量を充分確保するため
には、音声認識全体の処理用を削減する必要がある。音
声認識全体の中で特に入力音声の特徴系列と標準パタン
との照合処理が特に大きな比重を有する。従って、音声
認識装置の実用化のためには照合処理部の処理量の削減
も大きな課題の一つである。
Another problem in putting the voice recognition apparatus into practical use is the problem of processing amount. In general, speech recognition requires a very large amount of processing. Therefore, in order to secure a sufficient amount of processing for noise countermeasures with limited resources, it is necessary to reduce the total processing for speech recognition. .. In the entire speech recognition, the matching process between the feature sequence of the input speech and the standard pattern has a particularly large weight. Therefore, reduction of the processing amount of the collation processing unit is one of the major problems for practical use of the voice recognition device.

【0006】本発明の目的は、耐雑音性をさらに向上さ
せ騒音下でも高い認識率が得られる音声認識装置を提供
することにある。
It is an object of the present invention to provide a voice recognition device which is further improved in noise resistance and which can obtain a high recognition rate even in noise.

【0007】本発明の他の目的は、雑音重畳法で標準パ
タンを複数種類用意しておく場合に必要となるメモリ量
の削減と、照合処理で必要となる処理量を削減すること
により、より実用的な音声認識装置を提供することにあ
る。
Another object of the present invention is to reduce the amount of memory required when a plurality of types of standard patterns are prepared by the noise superposition method and the amount of processing required for collation processing. It is to provide a practical voice recognition device.

【0008】[0008]

【課題を解決するための手段】上記目的を達成するため
に、本発明による音声認識装置は、認識対象となる音声
を入力する音声入力部と、該音声入力部により得られた
入力音声信号を周波数分析し、該周波数分析された音声
スペクトルに対し推定雑音スペクトルを引き算すること
により、雑音を除去する雑音処理部と、該雑音処理部に
より得られた音声信号に基づき当該入力音声の特徴ベク
トルを求める分析部と、予め想定される騒音環境に応じ
た雑音重畳音声データを用いて作成した複数個の標準パ
タンを格納しておき、前記雑音処理部から得られた音声
信号から雑音処理により除去しきれなかった残差雑音に
関する雑音情報を求め、該雑音情報に基づいて前記複数
個の標準パタンの中から最適な標準パタンを選択する標
準パタン選択部と、該標準パタン選択部により選択され
た標準パタンと前記特徴ベクトルとを照合して前記入力
音声を認識する照合部とを備えたものである。
In order to achieve the above object, a voice recognition apparatus according to the present invention provides a voice input section for inputting a voice to be recognized and an input voice signal obtained by the voice input section. A frequency analysis is performed, and a noise processing unit that removes noise by subtracting the estimated noise spectrum from the frequency-analyzed speech spectrum, and a feature vector of the input speech based on the speech signal obtained by the noise processing unit. It stores a plurality of standard patterns created by using the analysis unit to be obtained and noise-superimposed voice data corresponding to a presumed noise environment, and removes it from the voice signal obtained from the noise processing unit by noise processing. A standard pattern selection unit that obtains noise information about the residual noise that cannot be cut off, and selects an optimum standard pattern from the plurality of standard patterns based on the noise information. Those having a recognizing matching unit the input voice against the standard pattern selected and the feature vector by the standard pattern selection unit.

【0009】本発明による他の音声認識装置は、認識対
象となる音声を入力する音声入力部と、前記音声入力部
により得られた入力音声信号を周波数分析し、該周波数
分析された音声スペクトルに対し推定雑音スペクトルを
引き算することにより、雑音を除去する雑音処理部と、
該雑音処理部により得られた音声信号に基づき当該入力
音声の特徴ベクトルを求める分析部と、予め想定される
騒音環境に応じて作成された複数種類のコードブック
と、該コードブックを用いたベクトル量子化により得ら
れたコード系列としての複数種類の標準パタンとを格納
しておき、前記雑音処理部から得られた音声信号から雑
音処理により除去しきれなかった残差雑音に関する情報
を分析し、その結果を用いることにより前記コードブッ
クの種類および前記標準パタンの種類を選択する選択部
と、前記分析部により得られた特徴ベクトルに対して、
前記選択された種類のコードブックを用いてベクトル量
子化を行なうことにより、音声特徴パタンを得るベクト
ル量子化部と、該音声特徴パタンと前記選択された種類
の標準パタンとを照合して前記入力音声を認識する照合
部とを備えたものである。
Another voice recognition device according to the present invention is a voice input section for inputting a voice to be recognized and a frequency analysis of an input voice signal obtained by the voice input section to obtain a voice spectrum obtained by the frequency analysis. A noise processing unit that removes noise by subtracting the estimated noise spectrum,
An analysis unit that obtains a feature vector of the input voice based on the voice signal obtained by the noise processing unit, a plurality of types of codebooks created according to a presumed noise environment, and a vector using the codebook. A plurality of types of standard patterns as a code sequence obtained by quantization are stored, and information about residual noise that cannot be completely removed by noise processing from the voice signal obtained from the noise processing unit is analyzed. A selection unit that selects the type of the codebook and the type of the standard pattern by using the result, and the feature vector obtained by the analysis unit,
A vector quantizer that obtains a voice feature pattern by performing vector quantization using the selected type codebook, and the input by comparing the voice feature pattern with the selected type standard pattern. And a collating unit for recognizing voice.

【0010】[0010]

【作用】本発明には数々の変形が考えられるが、その中
で代表的な構成についてその作用を説明する。
The present invention can be modified in various ways, and the operation of a typical structure will be described.

【0011】音声入力部により得られた入力音声信号
は、まず、雑音処理部により周波数分析され、周波数分
析された音声スペクトルから推定雑音スペクトルを引き
算することで雑音が除去され、信号のS/Nが改善され
る。次に、標準パタン選択部で、雑音処理部で除去しき
れなかった残差雑音に関する雑音情報を求め、該雑音情
報に基づいて予め想定される騒音環境に応じた雑音重畳
音声データを用いて作成しておいた複数個の標準パタン
の中から最適な標準パタンを選択する。雑音処理部でS
/Nを改善された音声信号に対しては、分析部において
その特徴ベクトルが算出される。照合部では、この特徴
ベクトルと標準パタン選択部で選択された標準パタンと
を照合することにより音声の認識が行なわれる。
The input speech signal obtained by the speech input section is first subjected to frequency analysis by the noise processing section, noise is removed by subtracting the estimated noise spectrum from the frequency-analyzed speech spectrum, and the S / N ratio of the signal is reduced. Is improved. Next, the standard pattern selection unit obtains noise information about the residual noise that could not be removed by the noise processing unit, and created using noise-superimposed voice data according to the noise environment presumed based on the noise information. The optimum standard pattern is selected from the plurality of standard patterns that have been set. S in the noise processing unit
With respect to the voice signal with improved / N, its feature vector is calculated in the analysis unit. The collating unit collates the feature vector with the standard pattern selected by the standard pattern selecting unit to recognize the voice.

【0012】従って本発明によれば、雑音処理部におけ
る前処理によって入力音声信号のS/Nが改善され、ま
た予め標準パタンに重畳しておくことが難しい非定常な
雑音成分もある程度除去しておくことが可能である。さ
らに照合部においては、S/Nが改善された入力音声信
号の雑音の状況に応じて標準パタンの選択を行うことが
出来るので、雑音環境下でも高い認識率を得ることが出
来る。
Therefore, according to the present invention, the S / N of the input voice signal is improved by the pre-processing in the noise processing section, and the non-stationary noise component which is difficult to be superposed on the standard pattern in advance is removed to some extent. It is possible to set. Further, in the collating unit, the standard pattern can be selected according to the noise condition of the input voice signal with improved S / N, so that a high recognition rate can be obtained even in a noisy environment.

【0013】本発明の他の構成によれば、上記と同様
に、まず入力音声信号に対して周波数分析された音声ス
ペクトルに対し推定雑音スペクトルを引き算すること
で、信号のS/Nが改善される。一方、選択部におい
て、予め想定される騒音環境に応じて作成した複数種類
のコードベクトル及び標準パタンを予め用意しておく。
ここで、標準パタンの特徴ベクトルは予めベクトル量子
化しておくことにより、コード系列のみを格納しておけ
ば良く、その格納に少ないメモリ量しか必要としない。
選択部では、雑音処理部で除去しきれなかった残差雑音
に関する雑音情報を求め、該雑音情報に基づいて予め格
納しておいた標準パタン及びコードブックの中から最適
なものを選択する。他方、分析部においては雑音処理部
でS/Nを改善された音声信号に対してその特徴ベクト
ルが抽出され、この特徴ベクトルがベクトル量子化部で
ベクトル量子化される。照合部では、この量子化された
特徴ベクトルと選択部で選択された標準パタンとを照合
することで音声の認識を行なう。照合部での照合のため
の距離計算は、コードベクトル同士の組合せに限定され
るため、予め計算テーブルを用意しておく等の手法を用
いることにより処理量を削減することが出来る。
According to another structure of the present invention, similarly to the above, the S / N of the signal is improved by first subtracting the estimated noise spectrum from the speech spectrum obtained by frequency analysis of the input speech signal. It On the other hand, in the selection unit, a plurality of types of code vectors and standard patterns created according to a presumed noise environment are prepared in advance.
Here, it is sufficient to store only the code sequence by vector-quantizing the feature vector of the standard pattern in advance, and the storage requires a small memory amount.
The selection unit obtains noise information regarding the residual noise that cannot be completely removed by the noise processing unit, and selects the optimum one from the standard patterns and codebooks stored in advance based on the noise information. On the other hand, in the analysis section, the feature vector is extracted from the speech signal whose S / N has been improved in the noise processing section, and this feature vector is vector quantized in the vector quantization section. The collating unit collates the quantized feature vector with the standard pattern selected by the selecting unit to recognize the voice. Since the distance calculation for matching in the matching unit is limited to the combination of code vectors, the amount of processing can be reduced by using a method such as preparing a calculation table in advance.

【0014】従って本発明によれば、雑音環境下でも高
い認識率を得ることが出来るのみならず、予め用意して
ある標準パタンがベクトル量子化されているため、記憶
メモリが少なくて済み、また、照合部の距離計算も少な
い処理量で済ますことが出来る。
Therefore, according to the present invention, not only a high recognition rate can be obtained even in a noisy environment, but also the standard pattern prepared in advance is vector-quantized, so that the storage memory is small, and Also, the distance calculation of the matching unit can be done with a small amount of processing.

【0015】[0015]

【実施例】以下、本発明の実施例を図面により詳細に説
明する。
Embodiments of the present invention will now be described in detail with reference to the drawings.

【0016】図1は、本発明による音声認識装置の一実
施例のブロック図である。同図において、音声101は
音声入力部102に取り込まれ、アナログ音声信号10
3としてA/D変換部104へ入力される。A/D変換
部104は、音声信号103をディジタル信号105に
変換し、これを雑音処理部106へ入力する。雑音処理
部106は、ディジタル化された入力音声105をスペ
クトル分析し、その音声スペクトルから推定雑音スペク
トルを引き算することによって、入力音声に混入されて
いる雑音成分を除去する。雑音処理部106によって雑
音を除去された音声信号107は、標準パタン選択部1
10および分析部108にそれぞれ入力される。分析部
108は、音声信号107に基づいて、認識の判定に用
いる音声の特徴パラメータ109を算出する。標準パタ
ン選択部110では、雑音処理部106で除去しきれな
かった残差雑音成分に関する情報を音声信号107から
抽出し、予め格納してあった複数種類の標準パタンの中
からその雑音条件に最適な標準パタン111を選択す
る。照合部112は、入力音声から求めた特徴パラメー
タ109と標準パタン選択部110で選択された標準パ
タン111との照合を行なうことにより音声認識を行な
い、認識結果113を出力する。
FIG. 1 is a block diagram of an embodiment of a voice recognition apparatus according to the present invention. In the figure, a voice 101 is captured by a voice input unit 102, and an analog voice signal 10
3 is input to the A / D conversion unit 104. The A / D conversion unit 104 converts the audio signal 103 into a digital signal 105 and inputs this to the noise processing unit 106. The noise processing unit 106 spectrally analyzes the digitized input speech 105 and subtracts the estimated noise spectrum from the speech spectrum to remove noise components mixed in the input speech. The speech signal 107 from which the noise has been removed by the noise processing unit 106 is the standard pattern selection unit 1
10 and the analysis unit 108, respectively. The analysis unit 108 calculates, based on the voice signal 107, a voice feature parameter 109 used for recognition determination. The standard pattern selection unit 110 extracts information about the residual noise component that could not be removed by the noise processing unit 106 from the audio signal 107, and optimally fits the noise condition from a plurality of standard patterns stored in advance. A standard pattern 111 is selected. The matching unit 112 performs voice recognition by matching the feature parameter 109 obtained from the input voice with the standard pattern 111 selected by the standard pattern selection unit 110, and outputs a recognition result 113.

【0017】以下、各部分を詳細に説明する。Hereinafter, each part will be described in detail.

【0018】図2に雑音処理部106の一構成例を示
す。雑音処理部106ではスペクトルサブトラクション
法と呼ばれる手法を用いて雑音の除去を行なっている。
スペクトルサブトラクションについては、Boll,“Suppr
ession of AcousticNoise inSpeech Using Spectral Su
btraction",IEEE Trsns. on Acoustics, Speech, andSi
gnal processing, Vol.ASSP-27,No.2,April 1979, pp.1
13-120に詳しい。図2において、202は波形切り出し
部、204はフーリエ変換部、206は無音区間検出
部、208は雑音スペクトル推定部、210はサブトラ
クション部、212はフーリエ逆変換部、214は波形
合成部である。
FIG. 2 shows an example of the configuration of the noise processing unit 106. The noise processing unit 106 removes noise using a method called a spectral subtraction method.
For spectral subtraction, see Boll, “Suppr
ession of AcousticNoise inSpeech Using Spectral Su
btraction ", IEEE Trsns. on Acoustics, Speech, andSi
gnal processing, Vol.ASSP-27, No.2, April 1979, pp.1
Detailed on 13-120. In FIG. 2, 202 is a waveform cutout unit, 204 is a Fourier transform unit, 206 is a silent section detection unit, 208 is a noise spectrum estimation unit, 210 is a subtraction unit, 212 is a Fourier inverse transform unit, and 214 is a waveform synthesis unit.

【0019】図2の雑音処理部において、A/D変換部
104でデジタイズされた入力信号105は波形切り出
し部202に入力される。波形切り出し部202は、入
力信号からスペクトル情報を分析するための波形区間を
切り出すものであり、数十ms程度の区間を一定間隔で切
り出す。切り出された区間信号波形203は、フーリエ
変換部204においてスペクトルデータに変換される。
ここで、切り出された波形にハミング窓等、従来用いら
れている窓関数を掛けた後、前後に零データを埋め込
み、2の階乗点数のデータとすることで高速フーリエ変
換をすることが出来、高速なデータ処理が実現される。
フーリエ変換されたスペクトル信号205は無音区間検
出部206に入力される。無音区間検出部206は、区
間スペクトル信号のパワーを計算し、そのパワーの値が
一定時間以上閾値の下回る区間を無音区間とみなし、そ
の区間のスペクトル信号207を雑音スペクトル推定部
208に出力する。無音区間(音声区間)の検出法には
この他にも幾つもの手法が提案されており、それらの手
法を用いて無音区間を検出することも可能である。雑音
スペクトル推定部208では入力された無音声区間のス
ペクトル207から雑音スペクトルを推定し、記憶して
おく。雑音スペクトルの推定法についても幾つか考えら
れるが、例えば数フレーム分のスペクトルの平均スペク
トルを計算するなどして推定する。サブトラクション部
210ではスペクトル信号205に対して雑音スペクト
ル推定部208で推定された雑音スペクトル209を用
いてスペクトルの引き算を行なう。いま、入力音声のス
ペクトルをX(f)、推定雑音スペクトルをN(f)とするとサ
ブトラクションは次式で表される。
In the noise processing section of FIG. 2, the input signal 105 digitized by the A / D conversion section 104 is input to the waveform cutting section 202. The waveform cutout unit 202 cuts out a waveform section for analyzing spectrum information from the input signal, and cuts out a section of about several tens ms at regular intervals. The cut section signal waveform 203 is converted into spectrum data by the Fourier transform unit 204.
Here, a fast Fourier transform can be performed by multiplying the cut-out waveform by a window function that has been conventionally used such as a Hamming window, and then embedding zero data before and after it to obtain the data of the factorial factor of 2. High-speed data processing is realized.
The Fourier-transformed spectrum signal 205 is input to the silent section detection unit 206. The silent section detection unit 206 calculates the power of the section spectrum signal, regards the section whose power value is lower than the threshold value for a certain time or longer as a silent section, and outputs the spectrum signal 207 of the section to the noise spectrum estimation unit 208. Several other methods have been proposed as methods for detecting a silent section (speech section), and it is possible to detect a silent section using these methods. The noise spectrum estimation unit 208 estimates the noise spectrum from the inputted spectrum 207 of the non-voice section and stores it. There are several possible methods for estimating the noise spectrum. For example, the estimation is performed by calculating an average spectrum of spectra for several frames. The subtraction unit 210 subtracts the spectrum of the spectrum signal 205 using the noise spectrum 209 estimated by the noise spectrum estimation unit 208. Now, assuming that the spectrum of the input speech is X (f) and the estimated noise spectrum is N (f), the subtraction is expressed by the following equation.

【0020】[0020]

【数1】 [Equation 1]

【0021】数1ではスペクトルの振幅に対して引き算
を行なっているが、パワースペクトラムを用いて引き算
を行なったり、位相成分も入れて引き算を行なうといっ
たことも可能である。サブトラクション部210で雑音
成分を除去したスペクトル211は、フーリエ逆変換部
212で再び時間領域の信号213に変換される。この
信号213は、波形合成部214で分析フレーム周期で
切り出された波形を音声波形107として合成し、出力
する。
In Equation 1, the subtraction is performed on the amplitude of the spectrum, but it is also possible to perform the subtraction by using the power spectrum or by adding the phase component. The spectrum 211 from which the noise component has been removed by the subtraction unit 210 is transformed again into the time domain signal 213 by the Fourier inverse transformation unit 212. This signal 213 synthesizes the waveform cut out at the analysis frame period by the waveform synthesizing unit 214 as the voice waveform 107 and outputs it.

【0022】図3は、雑音処理部106の他の例を示す
ものであり、参照入力を用いて雑音スペクトルを推定す
るものである。同図において、302,308は波形切
り出し部、303,309はフーリエ変換部、306は
参照入力部、307はA/D変換部、311はサブトラ
クション部、312はフーリエ逆変換部、313は波形
合成部である。
FIG. 3 shows another example of the noise processing unit 106, which estimates a noise spectrum using a reference input. In the figure, reference numerals 302 and 308 are waveform cutout sections, 303 and 309 are Fourier transform sections, 306 is a reference input section, 307 is an A / D conversion section, 311 is a subtraction section, 312 is a Fourier inverse transform section, and 313 is waveform synthesis. It is a department.

【0023】図3の雑音処理部において、入力音声10
5は、図2で説明したように波形切り出し部302、フ
ーリエ変換部303により、音声スペクトル304に変
換され、サブトラクション部311に入力される。一
方、参照入力部306には雑音成分305が入力され
る。この際、参照入力部306には音声がなるべく入ら
ず、雑音成分のみを選択的に入力できるようにしておく
ことが望ましい。参照入力部306から入力した雑音成
分は入力音声信号と同様、A/D変換部307でデジタ
イズされ、波形切り出し部308、フーリエ変換部30
9により雑音スペクトル信号310に変換された後、サ
ブトラクション部311に入力される。なお、入力した
雑音成分を直接利用するのではなく、図2のように雑音
スペクトル推定部を設けて、例えば、数フレーム分のス
ペクトルを用いて雑音スペクトルを推定し、用いること
も可能である。サブトラクション部311では、図2の
場合と同様に、音声スペクトル304から雑音スペクト
ル310を引き算することにより、雑音成分を除去し、
フーリエ逆変換部312および波形合成部313を介し
て音声波形107を得る。
In the noise processing section of FIG. 3, the input voice 10
As described with reference to FIG. 2, the waveform 5 is converted into the voice spectrum 304 by the waveform cutout unit 302 and the Fourier transform unit 303, and is input to the subtraction unit 311. On the other hand, the noise component 305 is input to the reference input unit 306. At this time, it is desirable that the reference input unit 306 is configured so that the voice is not input as much as possible and only the noise component is selectively input. The noise component input from the reference input unit 306 is digitized by the A / D conversion unit 307 similarly to the input audio signal, and the waveform cutout unit 308 and the Fourier transform unit 30.
After being converted into the noise spectrum signal 310 by 9, the signal is input to the subtraction unit 311. Instead of directly using the input noise component, it is also possible to provide a noise spectrum estimating unit as shown in FIG. 2 and estimate and use the noise spectrum by using the spectrum of several frames, for example. As in the case of FIG. 2, the subtraction unit 311 removes the noise component by subtracting the noise spectrum 310 from the speech spectrum 304,
The voice waveform 107 is obtained via the inverse Fourier transform unit 312 and the waveform synthesis unit 313.

【0024】なお、図3の様に2チャネルの信号に対し
てフーリエ変換を行なうような場合、フーリエ変換の持
つ冗長性を利用して、2信号のフーリエ係数を同時に求
める手法を用いることにより処理量を低減することが出
来る。この2信号同時FFT法に関しては、中野等、
“高速フーリエ変換による船舶走行音の分析”、日本音
響学会講演論文集(昭43−11)に詳細に述べられて
いる。ここではその概要を述べる。
Incidentally, in the case where the Fourier transform is performed on the signals of two channels as shown in FIG. 3, the processing is performed by using the method of simultaneously obtaining the Fourier coefficients of the two signals by utilizing the redundancy of the Fourier transform. The amount can be reduced. Regarding this two-signal simultaneous FFT method, Nakano et al.
It is described in detail in "Analysis of Ship Running Sound by Fast Fourier Transform", Proceedings of Acoustical Society of Japan (Sho 43-11). The outline is given here.

【0025】FFTは通常複素演算を行なっているが、
実際の信号は実数であるため冗長性が生じる。いま2種
類の入力データをXi,Yi(i=0〜N-1)とし、それぞれの
フーリエ変換をAk,Bk(k=0〜N-1)とする時、2入力の
データXi,Yiについて、
The FFT normally performs a complex operation,
Since the actual signal is a real number, redundancy occurs. Now, assuming that two kinds of input data are Xi, Yi (i = 0 to N-1) and respective Fourier transforms are Ak and Bk (k = 0 to N-1), two-input data Xi, Yi ,

【0026】[0026]

【数2】 [Equation 2]

【0027】とおき、Ziのフーリエ変換Ckを求める
と、フーリエ変換の定義より明らかなように、
When the Fourier transform Ck of Zi is obtained, as is clear from the definition of the Fourier transform,

【0028】[0028]

【数3】 [Equation 3]

【0029】である。一方、*は共役複素を表すとする
と、
[0029] On the other hand, if * represents a conjugate complex,

【0030】[0030]

【数4】 [Equation 4]

【0031】という関係があるので、Because of the relationship

【0032】[0032]

【数5】 [Equation 5]

【0033】したがって、Therefore,

【0034】[0034]

【数6】 [Equation 6]

【0035】[0035]

【数7】 [Equation 7]

【0036】が得られる。但し、Reは実部、Imは虚
部を示す。即ち、Ckが得られれば、これから簡単にA
k、Bkが得られる。Ckを得るのに要する演算量はAk、
或はBkを得るための演算量と全く同一であり、またCk
からAk、Bkを得るための演算量はCkを得るための演
算量に比べ無視できる程度のものであるため、従来とほ
とんど変わらない演算量で2種類の信号を同時にフーリ
エ変換を行なうことが出来る。
Is obtained. However, Re represents a real part and Im represents an imaginary part. In other words, if Ck is obtained, then A
k and Bk are obtained. The calculation amount required to obtain Ck is Ak,
Alternatively, it is exactly the same as the calculation amount for obtaining Bk, and Ck
Since the calculation amount for obtaining Ak and Bk is negligible as compared with the calculation amount for obtaining Ck, it is possible to simultaneously perform the Fourier transform of two kinds of signals with the calculation amount which is almost the same as the conventional one. ..

【0037】図4は、図1に示した分析部108を説明
するための図である。本実施例では分析パラメータとし
てLPCケプストラムを採用しているが、もちろん他の
分析パラメータを用いても良い。
FIG. 4 is a diagram for explaining the analysis unit 108 shown in FIG. Although the LPC cepstrum is used as the analysis parameter in this embodiment, other analysis parameters may of course be used.

【0038】図4において、402は音声区間検出部、
404はLPC分析部、406はLPCケプストラム作
成部である。音声区間検出部402は、雑音処理部10
6より出力された雑音除去信号107から音声区間を検
出し、音声区間の信号波形403を出力する。音声区間
の検出の手法としては、田和,小畑,“雑音中の音声区
間の高精度検出法”日本音響学会講演論文集(昭62.
3)等種々の手法が提案されているが、簡単な例として
例えば、信号の短時間パワーを計算し、一定の閾値以上
のパワーが、一定時間以上継続したか否かによって判定
する。音声信号403は、一定の区間毎に切り出され、
LPC分析部404に送られる。LPC分析部404
は、入力したフレーム毎の区間信号403を用いてLP
C係数405を算出する。LPC分析については、音声
認識の分野で非常に一般的に用いられる技術であり多く
の文献で解説されている。例えば、古井,“ディジタル
音声処理”東海大学出版会などに詳細に解説されてい
る。ここでは、LPC係数の求め方について簡単に述べ
る。P次のLPC係数αjは、区間信号系列xt(t=0
〜N)の自己相関関数
In FIG. 4, reference numeral 402 denotes a voice section detection unit,
404 is an LPC analysis unit, and 406 is an LPC cepstrum creation unit. The voice section detection unit 402 includes a noise processing unit 10
The speech section is detected from the noise-removed signal 107 output from the signal No. 6, and the signal waveform 403 of the speech section is output. As a method of detecting the voice section, Tawa, Obata, “High-accuracy detection method of voice section in noise”, Proceedings of Acoustical Society of Japan (Sho 62.
Although various methods such as 3) have been proposed, as a simple example, for example, the short-time power of a signal is calculated, and it is determined whether or not the power of a certain threshold value or more continues for a certain time or more. The audio signal 403 is cut out for each fixed section,
It is sent to the LPC analysis unit 404. LPC analysis unit 404
Is an LP using the input section signal 403 for each frame.
The C coefficient 405 is calculated. LPC analysis is a technique that is very commonly used in the field of speech recognition and is described in many documents. For example, Furui, "Digital Audio Processing" Tokai University Press and so on are explained in detail. Here, how to obtain the LPC coefficient will be briefly described. The Pth-order LPC coefficient αj is the interval signal sequence xt (t = 0
~ N) autocorrelation function

【0039】[0039]

【数8】 [Equation 8]

【0040】を用いて、Using

【0041】[0041]

【数9】 [Equation 9]

【0042】を解くことによって求めることが出来る。
数9の方程式はDurbinの再帰的解法により効率的に解く
ことが可能である。LPCケプストラム作成部406
は、LPC分析部404で計算されたLPC係数405
を用いてLPCケプストラム109を計算し、出力す
る。LPCケプストラム109はLPC係数αn(n=0,n)
を用いて、次の再帰式より得ることが出来る。
It can be obtained by solving
Equation 9 can be efficiently solved by Durbin's recursive solution method. LPC cepstrum creation unit 406
Is the LPC coefficient 405 calculated by the LPC analysis unit 404.
Is used to calculate and output the LPC cepstrum 109. LPC cepstrum 109 has LPC coefficient αn (n = 0, n)
Can be obtained from the following recursive expression.

【0043】[0043]

【数10】 [Equation 10]

【0044】図5に、図1に示した標準パタン選択部1
10の構成例を示す。同図において、502は音声区間
検出部、505は雑音情報分析部、506は標準パタン
格納部、507は雑音情報照合部である。標準パタン作
成に用いる音声データは音声認識装置の使用環境に合わ
せて音声に雑音を重畳したものを用いる。また、作成し
た音声データを雑音処理部106と同様な手法を用いて
雑音除去したものを用いてもよい。雑音処理部106よ
り出力された雑音除去信号107は、音声区間検出部5
02において音声区間信号503と雑音区間信号504
とに分離される。雑音情報分析部505では音声区間信
号503の平均パワーと雑音区間信号504との平均パ
ワーの比をとるなどの手段によりS/Nを計算する。標
準パタン格納部506には、S/Nの異なる音声データ
より作成した数種類の標準パタンと作成に用いた音声デ
ータのS/Nを格納してある。雑音情報照合部507
は、雑音情報分析部505で計算した雑音処理信号のS
/Nの値を用いて標準パタン格納部506にある標準パ
タンの中から雑音処理信号のS/Nに最も近いS/Nの
音声データを用いて作成した標準パタン111を出力す
る。
FIG. 5 shows the standard pattern selection unit 1 shown in FIG.
10 shows a configuration example of 10. In the figure, 502 is a voice section detection unit, 505 is a noise information analysis unit, 506 is a standard pattern storage unit, and 507 is a noise information collation unit. As the voice data used for creating the standard pattern, voice data in which noise is superimposed is used according to the usage environment of the voice recognition device. Alternatively, the created voice data may be noise-removed using the same method as the noise processing unit 106. The noise-removed signal 107 output from the noise processing unit 106 is the voice section detection unit 5
02, the voice section signal 503 and the noise section signal 504
Separated into and. The noise information analysis unit 505 calculates the S / N by means such as taking the ratio of the average power of the voice section signal 503 and the average power of the noise section signal 504. The standard pattern storage unit 506 stores several types of standard patterns created from audio data having different S / N and S / N of the audio data used for the creation. Noise information matching unit 507
Is the S of the noise-processed signal calculated by the noise information analysis unit 505.
Using the value of / N, the standard pattern 111 created using the S / N voice data closest to the S / N of the noise-processed signal from the standard patterns stored in the standard pattern storage unit 506 is output.

【0045】また、標準パタン選択部110としては次
の様な構成も可能である。図5の雑音情報分析部505
では、入力した雑音成分504を分析し、その分析パラ
メータを出力する。ここで用いる分析手法は図4で用い
たLPC分析を用いたものでも良いし、雑音成分の特徴
を良く表すような他の分析手法を用いても良い。標準パ
タン格納部506には、種類の異なった雑音をそれぞれ
重畳した音声データより作成した数種類の標準パタンと
作成に用いた音声データに重畳した雑音成分の特徴量と
を格納しておく。雑音成分の特徴量は、雑音情報分析部
505で用いたものと同じ分析手法を用いて分析したも
のである。雑音情報照合部507は、雑音処理信号の雑
音成分の特徴量と標準パタン格納部506に格納されて
いる重畳雑音の特徴量とを照合し、その照合結果から標
準パタン格納部506にある標準パタンの中から雑音処
理信号の雑音成分と最も近い雑音を重畳した音声を用い
て作成した標準パタン111を選択し、出力する。
Further, the standard pattern selection unit 110 may have the following configuration. The noise information analysis unit 505 of FIG.
Then, the input noise component 504 is analyzed and the analysis parameter is output. The analysis method used here may be the one using the LPC analysis used in FIG. 4, or another analysis method that well expresses the characteristics of the noise component may be used. The standard pattern storage unit 506 stores several types of standard patterns created from voice data on which different types of noises are respectively superimposed, and the characteristic amount of the noise component superimposed on the voice data used for generation. The feature amount of the noise component is analyzed using the same analysis method as that used in the noise information analysis unit 505. The noise information matching unit 507 matches the feature amount of the noise component of the noise-processed signal with the feature amount of the superimposed noise stored in the standard pattern storage unit 506, and based on the matching result, the standard pattern stored in the standard pattern storage unit 506. Among them, the standard pattern 111 created by using the voice on which the noise closest to the noise component of the noise-processed signal is superimposed is selected and output.

【0046】また、標準パタン選択部110は、上述し
た2つの構成を組み合わせて用いることも可能である。
つまり、雑音情報分析部505で雑音除去信号のS/N
と残差雑音の特徴量を抽出し、雑音情報照合部507で
はS/Nと雑音の特徴量を用いて照合を行なうことによ
って標準パタン格納部506の中から最適な標準パタン
111を出力する。
Further, the standard pattern selection section 110 can also be used in combination with the above two configurations.
That is, the S / N of the noise-removed signal in the noise information analysis unit 505
Then, the noise information matching unit 507 outputs the optimum standard pattern 111 from the standard pattern storage unit 506 by performing matching using the S / N and the noise feature amount in the noise information matching unit 507.

【0047】図1の照合部112は、分析部108で分
析した分析パラメータ109と標準パタン選択部110
で選択された標準パタン111との間でDPマッチング
等の手法を用いて標準パタンとの類似度を求め、一番類
似度の大きいものを認識結果113として出力する。D
Pマッチングは、音声認識の分野では不可欠な技術とな
っており多数の文献が発表されているが、例えば追江,
千葉,“動的計画法を利用した音声の時間正規化に基づ
く連続単語認識”,音響学会誌27,9,第483頁〜第500頁
(昭46)や前述した古井,“ディジタル音声処理”東
海大学出版会などが詳しい。
The collating unit 112 shown in FIG. 1 includes an analysis parameter 109 analyzed by the analysis unit 108 and a standard pattern selection unit 110.
The degree of similarity with the standard pattern 111 is selected by using a method such as DP matching with the standard pattern 111 selected in step 1, and the highest degree of similarity is output as the recognition result 113. D
P matching has become an indispensable technology in the field of speech recognition, and many documents have been published.
Chiba, “Continuous word recognition based on time normalization of speech using dynamic programming”, ASJ Journal 27, 9, pp. 483 to 500 (Showa 46), and Furui, “Digital Speech Processing” mentioned above. Tokai University Press Association is detailed.

【0048】このように、本実施例によれば、まず雑音
処理部106におけるスペクトルサブトラクションによ
り、雑音レベルが低減され、また、予め標準パタンに重
畳しておくことが困難な衝撃音等の非定常雑音もある程
度除去しておくことが出来るので、後続の標準パタン選
択部110での重畳雑音法の処理において、非定常雑音
に対してあまり考慮する必要はない。換言すれば、スペ
クトルサブトラクションによる前処理を行うことによ
り、標準パタンに予め重畳しておくべき雑音の性質やS
/N等の条件が限定される。したがって、予め用意して
おくべき標準パタンの個数が低減されるとともに、照合
精度が高まり、雑音下での認識率が改善される。
As described above, according to the present embodiment, first, the noise level is reduced by the spectral subtraction in the noise processing unit 106, and the unsteady noise such as impact sound which is difficult to superimpose on the standard pattern in advance. Since noise can be removed to some extent, it is not necessary to consider non-stationary noise so much in the subsequent process of the superposed noise method in the standard pattern selection unit 110. In other words, by performing the pre-processing by the spectral subtraction, the nature of the noise and the S
Conditions such as / N are limited. Therefore, the number of standard patterns to be prepared in advance is reduced, the matching accuracy is increased, and the recognition rate in noise is improved.

【0049】次に、図6に、本発明の他の実施例の構成
を示す。同図において、図1に示した要素と同一の要素
には同一の参照番号を付してある。
Next, FIG. 6 shows the configuration of another embodiment of the present invention. In the figure, the same elements as those shown in FIG. 1 are designated by the same reference numerals.

【0050】図1の構成と異なるのは、標準パタン選択
部110に代えて選択部605を設け、ベクトル量子化
部606を新たに設けている点である。選択部605で
は、雑音処理部106で除去し切れなかった残差雑音成
分の情報を分析し、予め格納してある複数種類のコード
ブックおよび複数種類の標準パタンの中から、最適なコ
ードブックと最適な標準パタンを選択する。ベクトル量
子化部606は、分析部108で分析した音声信号の特
徴ベクトルに対し、選択部605で選択したコードブッ
クを用いてベクトル量子化を行う。照合部112はベク
トル量子化部606でベクトル量子化された入力音声の
特徴ベクトルと選択部605で選択された標準パタンと
の照合を行い、認識結果を出力する。以下、本実施例の
主要部の構成および動作を詳細に説明する。
The difference from the configuration of FIG. 1 is that a selection unit 605 is provided instead of the standard pattern selection unit 110, and a vector quantization unit 606 is newly provided. The selection unit 605 analyzes the information of the residual noise components that cannot be completely removed by the noise processing unit 106, and selects the optimum codebook from the plurality of types of codebooks and the plurality of types of standard patterns stored in advance. Select the best standard pattern. The vector quantization unit 606 performs vector quantization on the feature vector of the audio signal analyzed by the analysis unit 108 using the codebook selected by the selection unit 605. The collation unit 112 collates the feature vector of the input speech vector-quantized by the vector quantization unit 606 with the standard pattern selected by the selection unit 605, and outputs the recognition result. Hereinafter, the configuration and operation of the main part of this embodiment will be described in detail.

【0051】まず、図7を用いて選択部605を説明す
る。図7において701は区間検出部、702は雑音情
報分析部、703は雑音情報照合部、704は雑音情
報、705はコードブック選択部、706はコードブッ
ク、707は標準パタン選択部、708は標準パタンで
ある。選択部605では、予め使用される環境を想定し
て、想定雑音を任意のS/Nで重畳した音声に対して雑
音処理部106と同等な手法を用いて雑音除去の前処理
を行ったものを音声データとしてn種類作成し、それら
の音声データを用いてベクトル量子化に用いるコードブ
ック706−1〜706−nを各々作成する。ベクトル
量子化は複数のパラメータの組(ベクトル)をまとめて
1つの符合で表現する量子化手法である。図9に示すよ
うに、コードブック706−1〜706−nの各々は、
予めクラスタリングの手法を用いて種々のベクトル(コ
ードベクトル)902を蓄え、各々に符合(コードワー
ド)901を対応付けたものである。すなわち、コード
ブックNo.900ごとに、コードワード901とコー
ドベクトル902との対応を示すものがコードブックで
ある。
First, the selection unit 605 will be described with reference to FIG. In FIG. 7, 701 is a section detection unit, 702 is a noise information analysis unit, 703 is a noise information matching unit, 704 is noise information, 705 is a codebook selection unit, 706 is a codebook, 707 is a standard pattern selection unit, and 708 is a standard. It is a pattern. In the selection unit 605, assuming the environment to be used in advance, pre-processing for noise removal is performed on the speech in which the assumed noise is superimposed with an arbitrary S / N using a method similar to that of the noise processing unit 106. Are created as voice data, and codebooks 706-1 to 706-n used for vector quantization are created using these voice data. Vector quantization is a quantization method in which a plurality of parameter sets (vectors) are collectively represented by one code. As shown in FIG. 9, each of the codebooks 706-1 to 706-n has
Various vectors (code vectors) 902 are stored in advance by using a clustering method, and a code (codeword) 901 is associated with each vector. That is, the codebook No. A codebook shows the correspondence between the codeword 901 and the code vector 902 for each 900.

【0052】図10に、ベクトル量子化部606の動作
の概要を示す。ベクトル量子化部606は、分析部10
8の1フレーム分の出力である分析パラメータに対して
選択されたコードブックの複数のコードベクトルとの間
でベクトル間距離をそれぞれ算出し、その距離が最小の
コードベクトルを選択し、そのコードワードを出力す
る。図示の例では、入力した分析パラメータに対してコ
ードワードiのコードベクトルとの間のベクトル間距離
が最小なので、コードワードiを出力している。ベクト
ル量子化部606では、この処理をフレームごとに繰り
返して行う。
FIG. 10 shows an outline of the operation of the vector quantizer 606. The vector quantizer 606 includes an analyzer 10
The inter-vector distances are respectively calculated with respect to the plurality of code vectors of the selected codebook for the analysis parameter which is the output of one frame of 8, and the code vector with the smallest distance is selected, and the codeword Is output. In the illustrated example, the codeword i is output because the inter-vector distance between the code vector of the codeword i and the code vector of the input analysis parameter is minimum. The vector quantizer 606 repeats this process for each frame.

【0053】なお、ベクトル量子化に関する文献として
は、Y.Linde,A.Buzo et al, “An Algorithm for Vecto
r Quantizer Design”IEEE Trans. on Communications,
vol.COM-28, No.1 Jan.1980,pp.84-95等がある。
Note that as a literature on vector quantization, Y. Linde, A. Buzo et al, "An Algorithm for Vecto
r Quantizer Design ”IEEE Trans. on Communications,
vol.COM-28, No.1 Jan.1980, pp.84-95, etc.

【0054】同様に、図11に示すように、n種類の音
声データを用いて、照合に用いる標準パタンをn種類
(708−1〜708−n)作成する。n種類の音声デ
ータの各々について、予め定めたN個の単語の番号N
o.にコード列を対応付けている。各コード列は、対応
するコードブックでベクトル量子化して得たものであ
る。このように、標準パタンとして、同じ音声データを
用いて作成したコードブック706−1〜706−nを
用いてベクトル量子化したコード列を採用することによ
り、標準パタン格納に必要なメモリ量を削減することが
できる。また、特徴ベクトルの比較対象標準パタンを限
定することにより、照合における距離計算を効率的に行
うことが出来る。この特徴は、装置の小型化、処理の高
速化に寄与し、特に車載用及び形態用音声認識装置等に
好適である。
Similarly, as shown in FIG. 11, n types (708-1 to 708-n) of standard patterns used for collation are created using n types of voice data. A predetermined number N of N words for each of the n types of voice data
o. The code string is associated with. Each code string is obtained by vector quantization with the corresponding codebook. As described above, by adopting a vector-quantized code string using the codebooks 706-1 to 706-n created by using the same voice data as the standard pattern, the amount of memory required for storing the standard pattern is reduced. can do. Further, by limiting the comparison target standard pattern of the feature vector, the distance calculation in the collation can be efficiently performed. This feature contributes to downsizing of the device and speeding up of processing, and is particularly suitable for in-vehicle and form voice recognition devices.

【0055】他方、後述する音声区間検出部701及び
雑音情報分析部702と同様な手法を用いて残差雑音情
報を求めておく。図12に残差雑音情報704−1〜7
04−nの例を示す。同図(a)は雑音情報としてS/
Nを採用したものであり、同図(b)は雑音情報として
雑音成分のパワースペクトラムを採用したものである。
On the other hand, residual noise information is obtained in advance by using a method similar to that of the voice section detecting unit 701 and the noise information analyzing unit 702 described later. The residual noise information 704-1-7 is shown in FIG.
An example of 04-n is shown. The same figure (a) shows S / as noise information.
N is adopted, and FIG. 7B shows that the power spectrum of the noise component is adopted as the noise information.

【0056】以上のようにして、n種類の音声データに
対しそれぞれ、雑音情報704−1〜704−n、コー
ドブック706−1〜706−n及び、ベクトル量子化
された標準パタン708−1〜708−nを作成し、格
納しておく。ここで、雑音情報704−kはk番目に作
成した音声データに対するものであり、同様にコードブ
ック706−kはk番目に作成した音声データを用いて
作成したもの、標準パタン708−kはk番目に作成し
た音声データを用いて作成したものである。この時のk
を騒音環境番号と呼ぶことにする。
As described above, the noise information 704-1 to 704-n, the codebooks 706-1 to 706-n, and the vector quantized standard pattern 708-1 to n are respectively applied to the n kinds of voice data. 708-n is created and stored. Here, the noise information 704-k is for the kth speech data created, similarly, the codebook 706-k is created using the kth speech data, and the standard pattern 708-k is k. It was created using the audio data created in the third step. K at this time
Is called the noise environment number.

【0057】雑音処理部106より出力された雑音除去
信号は、音声区間検出部701において音声区間信号と
無音声区間(雑音区間)とに分離される。音声区間の検
出法については雑音スペクトル推定部208で説明した
区間検出手法と同様の手法を用いれば良い。雑音情報分
析部702は、音声区間検出部701の出力から雑音処
理部106で除去し切れなかった残差雑音成分に関する
情報を分析し、出力する。この出力する情報としては、
例えば、入力した音声区間信号と雑音区間信号とを用い
て入力音声のS/N比を求め、これを用いることも、ま
た、LPC分析等の分析手法を用いて雑音区間信号から
雑音成分に関する特徴パラメータ(図12(b)の例で
はパワースペクトル)を求め、これを用いることも可能
である。
The noise removal signal output from the noise processing unit 106 is separated by the voice section detection unit 701 into a voice section signal and a non-voice section (noise section). As a method of detecting the voice section, the same method as the section detection method described in the noise spectrum estimation unit 208 may be used. The noise information analysis unit 702 analyzes and outputs information regarding the residual noise component that cannot be completely removed by the noise processing unit 106 from the output of the voice section detection unit 701. The information to be output is
For example, the S / N ratio of the input voice is obtained using the input voice section signal and the noise section signal, and the S / N ratio is also used. It is also possible to obtain a parameter (power spectrum in the example of FIG. 12B) and use it.

【0058】雑音情報照合部703では、雑音情報分析
部702で求めた入力音声の残差雑音情報と、格納して
ある雑音情報704−1〜704−nとを照合すること
により、予め想定したn種類の騒音環境の中から現在の
環境に一番適合しているものを見つけ、その騒音環境番
号kを出力する。コードブック選択部705では雑音照
合部703から得られた情報kをもとに、予め格納して
おいたn種類のコードブック706−1〜706−nの
中から現在の騒音環境に最も適合している音声データを
用いて作成したコードブック706−kを選択し、ベク
トル量子化部606に出力する。同様に、標準パタン選
択部707も雑音照合部703から得られた情報kをも
とに、予め格納しておいたn種類の標準パタン708−
1〜708−nの中から現在の騒音環境に最も適合して
いる音声データを用いて作成した標準パタン708−k
を選択し、照合部112に出力する。なお、選択部60
5におけるコードブック及び標準パタンの選択は、分析
フレーム毎に行っても、単位時間毎に行っても、音声の
入力単位毎に行っても良い。
The noise information collating unit 703 collates the residual noise information of the input voice obtained by the noise information analyzing unit 702 with the stored noise information 704-1 to 704-n to make an assumption beforehand. From the n types of noise environments, the one that best matches the current environment is found, and the noise environment number k is output. Based on the information k obtained from the noise matching unit 703, the codebook selecting unit 705 is the most suitable for the current noise environment from the n kinds of codebooks 706-1 to 706-n stored in advance. The codebook 706-k created by using the voice data is selected and output to the vector quantization unit 606. Similarly, the standard pattern selection unit 707 also stores n types of standard patterns 708-stored in advance based on the information k obtained from the noise matching unit 703.
Standard pattern 708-k created by using audio data most suitable for the current noise environment from 1 to 708-n
Is selected and output to the matching unit 112. The selection unit 60
The codebook and the standard pattern in 5 may be selected for each analysis frame, for each unit time, or for each input unit of voice.

【0059】次にベクトル量子化部606は、選択部6
05で選択されたコードブック706−kを用いて、分
析部104で分析された入力音声の特徴ベクトルに対し
てベクトル量子化を行い、量子化されたコード列を出力
する。
Next, the vector quantizer 606 includes a selector 6
Using the codebook 706-k selected in 05, vector quantization is performed on the feature vector of the input speech analyzed by the analysis unit 104, and a quantized code string is output.

【0060】照合部112はベクトル量子化した入力音
声の特徴ベクトルと選択部605で選択された標準パタ
ンとの間で前述したDPマッチング等の手法を用いて各
認識対象との類似度を求め、一番類似度の高いものを認
識結果として出力する。ここで、入力音声の特徴ベクト
ルと標準パタンの特徴ベクトルの両者は既にベクトル量
子化されているため、特徴ベクトル間の距離計算は、ベ
クトル量子化に用いたコードベクトル同士の組合せしか
ない。そこで、コードブックごとに、コードベクトル同
士の距離を各組合せで予め計算し、それを図13に示す
ようなテーブルに持っておく。照合時に、対応するテー
ブルを参照することにより、特徴ベクトル間の距離を求
め、照合の処理量を大幅に削減することが出来る。図1
3の例では、例えばコードワード2とコードワード3の
距離が“3.2”であると直ちに分かる。
The matching unit 112 obtains the degree of similarity between the feature vector of the vector-quantized input voice and the standard pattern selected by the selection unit 605, using the above-described method such as DP matching, with each recognition target, The one with the highest similarity is output as the recognition result. Here, since both the feature vector of the input voice and the feature vector of the standard pattern have already been vector quantized, the distance calculation between the feature vectors is only a combination of code vectors used for vector quantization. Therefore, for each codebook, the distance between code vectors is calculated in advance for each combination, and the calculated distances are stored in a table as shown in FIG. At the time of matching, the distance between the feature vectors can be obtained by referring to the corresponding table, and the amount of matching processing can be greatly reduced. Figure 1
In the example of No. 3, it is immediately known that the distance between codeword 2 and codeword 3 is “3.2”, for example.

【0061】なお、入力音声のベクトル量子化に用いた
コードブックと、選択された標準パタンのベクトル量子
化に用いたコードブックとが異なり得る場合には、異な
るコードブック間の距離テーブルを用意することもでき
る。また、各コードブック毎にテーブルを予め用意して
おく代わりに、使用するコードブックを切替える毎にテ
ーブル内容を更新するようにしても良い。さらに、予め
テーブルを用意せずに距離計算を行ない、計算した値と
ベクトルの組合せを順次記憶していき、再び同じベクト
ルの組合せの距離計算が必要な時には記憶しておいた値
を用いるようにすることも可能である。
If the codebook used for vector quantization of the input speech and the codebook used for vector quantization of the selected standard pattern can be different, a distance table between different codebooks is prepared. You can also Further, instead of preparing a table for each codebook in advance, the table contents may be updated each time the codebook to be used is switched. Further, the distance calculation is performed without preparing a table in advance, the combinations of calculated values and vectors are sequentially stored, and the stored values are used when the distance calculation of the same vector combination is required again. It is also possible to do so.

【0062】本実施例において、コードブック及び、標
準パタンの選択は次のような構成を用いて行なっても良
い。
In this embodiment, the codebook and standard patterns may be selected by using the following configuration.

【0063】図8はコードブック及び、標準パタンの選
択のためのシステム構成を説明するための図である。図
8において、606はベクトル量子化部、803は量子
化評価部、804は標準パタン選択部である。本構成に
おいて、ベクトル量子化部606は予め用意しておいた
n個のコードブック802−1〜802−nの各々を用
いて、分析部108で得られた入力音声の特徴ベクトル
に対してベクトル量子化を行い、ベクトル量子化したコ
ード列及び、量子化誤差を出力する。量子化評価部80
3はベクトル量子化部606から出力された個々のコー
ドブックを用いた時の量子化誤差の中で最小のものを検
出し、その時に用いたコードベクトル802−kを現在
の騒音環境に最適なコードブックであるとみなし、その
騒音環境番号kとベクトル量子化した特徴ベクトルのコ
ード列を出力する。標準パタン選択部804では、予め
用意しておいたn個の標準パタン805−1〜805−
nの中から、量子化評価部803で得られた騒音環境番
号kを用いて、現在の騒音環境に最適な標準パタン80
5−kを選択する。
FIG. 8 is a diagram for explaining a system configuration for selecting a codebook and standard patterns. In FIG. 8, reference numeral 606 is a vector quantization unit, 803 is a quantization evaluation unit, and 804 is a standard pattern selection unit. In the present configuration, the vector quantization unit 606 uses each of the n number of codebooks 802-1 to 802-n prepared in advance to obtain a vector for the feature vector of the input voice obtained by the analysis unit 108. Quantization is performed, and the vector-quantized code string and the quantization error are output. Quantization evaluation unit 80
3 detects the minimum quantization error when using the individual codebooks output from the vector quantization unit 606, and the code vector 802-k used at that time is optimal for the current noise environment. The code string is regarded as a codebook, and the noise environment number k and a vector-quantized feature vector code string are output. In the standard pattern selection section 804, n standard patterns 805-1 to 805 prepared in advance are prepared.
Using the noise environment number k obtained by the quantization evaluation unit 803 from among n, the standard pattern 80 optimal for the current noise environment is obtained.
Select 5-k.

【0064】これまでは、予め想定した騒音環境と、コ
ードブックおよび標準パタンとが1対1に対応している
として説明してきたが、想定騒音環境に対してどのコー
ドブックを用いるか、或はどの標準パタンを用いるかと
いった対応関係が明確に対応づけられていれば、各々が
1対1に対応している必要は無く、従って、予め記憶し
ておくコードブック及び標準パタンの種類は、想定した
騒音環境の種類よりも少なくて構わない。
Up to now, it has been explained that the noise environment assumed in advance and the codebook and the standard pattern have a one-to-one correspondence, but which codebook is used for the assumed noise environment, or If the correspondence such as which standard pattern is used is clearly associated, it is not necessary for each to correspond one-to-one. Therefore, the types of codebooks and standard patterns to be stored in advance are assumed. It can be less than the type of noise environment.

【0065】例えば、各々のコードブックにおいて、同
一のコードワードをもつコードベクトルが持っている音
声成分の特徴が等しくなるように、各々のコードブック
を作成しておけば、雑音のない音声データを用いて作成
した標準パタンを用いて1種類のコード列データを作成
しておき、各々の騒音環境に対応したコードブックと組
み合わせて用いることで各々の騒音環境に対応させるこ
とが出来る。このようなコードブックの作成は、次のよ
うな手法を用いれば良い。音声データから特徴ベクトル
を作成する時に、分析フレームに番号を付け、クラスタ
リング終了時にその番号を参照することで、各々のクラ
スタ内の特徴ベクトルが音声データのどのフレームから
得られたものかの情報が得られる。そこで、雑音重畳音
声に対して分析して得られた特徴ベクトルをこのフレー
ムの情報を用いてクラスタリングを行い、コードブック
を作成すれば、どの雑音重畳音声を用いて作成したコー
ドブックであっても同一のコードワードのコードベクト
ルが持っている音声成分の特徴は等しくなるはずであ
る。また、雑音の重畳していない音声データから得られ
た特徴ベクトルを用いてコードブックを作成しておき、
次に各々のコードベクトルに想定騒音環境に応じた雑音
の特徴ベクトルを重畳することでも同様のコードブック
を作成することが可能である。このように、全ての騒音
環境に対して共通の標準パタンを使用すれば、本実施例
で標準パタン選択部を省略することが出来る。
For example, in each codebook, if each codebook is created so that the features of the voice components possessed by the code vectors having the same codeword are equal, noise-free voice data can be obtained. It is possible to correspond to each noise environment by preparing one kind of code string data using the standard pattern created by using it and using it in combination with a codebook corresponding to each noise environment. The following method may be used to create such a codebook. When creating a feature vector from voice data, by assigning a number to the analysis frame and referring to that number at the end of clustering, information about from which frame of voice data the feature vector in each cluster is obtained. can get. Therefore, if the feature vector obtained by analyzing the noise-superimposed speech is clustered using the information of this frame to create a codebook, no matter which noise-superimposed speech is used for the codebook, The characteristics of the voice components possessed by the code vectors of the same codeword should be equal. In addition, a codebook is created by using the feature vector obtained from the voice data in which noise is not superimposed,
Next, a similar codebook can be created by superimposing a noise feature vector according to the assumed noise environment on each code vector. As described above, if the common standard pattern is used for all noise environments, the standard pattern selection unit can be omitted in this embodiment.

【0066】[0066]

【発明の効果】以上述べたように、本発明によれば入力
音声にスペクトルサブトラクションによる前処理を施す
ことにより入力音声のS/Nが改善し、また、前処理で
除去しきれなかった雑音に対しても、雑音除去信号の雑
音環境に近い性質の音声データから作成した標準パタン
を用いて照合を行なうことにより、認識装置の認識率を
向上させることが出来る。
As described above, according to the present invention, the S / N of the input speech is improved by performing the preprocessing by the spectral subtraction on the input speech, and the noise which cannot be removed by the preprocessing is eliminated. On the other hand, the recognition rate of the recognition device can be improved by performing the matching using the standard pattern created from the voice data of the noise-removed signal having a property close to the noise environment.

【0067】また、予め用意しておく標準パタンをベク
トル量子化しておくことにより、記憶メモリが少なくて
済み、また、照合部の距離計算もコードベクトル同士の
組合せに限定されるため、予め計算テーブルを用意して
おく等の手法を用いることにより、少ない処理量で済ま
すことが出来る。
Further, since the standard pattern prepared in advance is vector-quantized, the storage memory can be reduced, and the distance calculation of the collation unit is limited to the combination of code vectors. It is possible to reduce the processing amount by using a method such as preparing.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例のシステム構成を説明する図
である。
FIG. 1 is a diagram illustrating a system configuration of an embodiment of the present invention.

【図2】図1の雑音処理部の一構成例のブロック図であ
る。
FIG. 2 is a block diagram of a configuration example of a noise processing unit in FIG.

【図3】図1の雑音処理部の他の構成例のブロック図で
ある。
FIG. 3 is a block diagram of another configuration example of the noise processing unit in FIG.

【図4】図1の分析部の一構成例のブロック図である。FIG. 4 is a block diagram of a configuration example of an analysis unit in FIG.

【図5】図1の標準パタン選択部の一構成例のブロック
図である。
5 is a block diagram of a configuration example of a standard pattern selection unit in FIG.

【図6】本発明の第2の実施例のシステム構成を示すブ
ロック図である。
FIG. 6 is a block diagram showing a system configuration of a second exemplary embodiment of the present invention.

【図7】図6の選択部の一構成例のブロック図である。7 is a block diagram of a configuration example of a selection unit in FIG.

【図8】コードブック及び標準パタン選択のためのシス
テム構成例を示すブロック図である。
FIG. 8 is a block diagram showing a system configuration example for selecting a codebook and standard patterns.

【図9】図7のコードブックの内容の説明図である。9 is an explanatory diagram of the contents of the codebook of FIG. 7.

【図10】図6のベクトル量子化部の動作の説明図であ
る。
10 is an explanatory diagram of an operation of the vector quantization unit in FIG.

【図11】図7の標準パタンの内容の説明図である。FIG. 11 is an explanatory diagram of the contents of the standard pattern of FIG.

【図12】図7の雑音情報の内容の説明図である。12 is an explanatory diagram of contents of noise information of FIG. 7. FIG.

【図13】図6の照合部での照合に用いうるテーブルの
内容の説明図である。
13 is an explanatory diagram of contents of a table that can be used for collation by the collating unit in FIG.

【符号の説明】[Explanation of symbols]

101…入力音声、102…音声入力部、104…A/
D変換部、106…雑音処理部、108…分析部、11
0…標準パタン選択部、112…照合部、113…認識
結果、605…選択部、606…ベクトル量子化部。
101 ... Input voice, 102 ... Voice input unit, 104 ... A /
D conversion unit, 106 ... Noise processing unit, 108 ... Analysis unit, 11
0 ... Standard pattern selection unit, 112 ... Collation unit, 113 ... Recognition result, 605 ... Selection unit, 606 ... Vector quantization unit.

Claims (21)

【特許請求の範囲】[Claims] 【請求項1】認識対象となる音声を入力する音声入力部
と、 該音声入力部により得られた入力音声信号を周波数分析
し、該周波数分析された音声スペクトルに対し推定雑音
スペクトルを引き算することにより、雑音を除去する雑
音処理部と、 該雑音処理部により得られた音声信号に基づき当該入力
音声の特徴ベクトルを求める分析部と、 予め想定される騒音環境に応じた雑音重畳音声データを
用いて作成した複数個の標準パタンを格納しておき、前
記雑音処理部から得られた音声信号から雑音処理により
除去しきれなかった残差雑音に関する雑音情報を求め、
該雑音情報に基づいて前記複数個の標準パタンの中から
最適な標準パタンを選択する標準パタン選択部と、 該標準パタン選択部により選択された標準パタンと前記
特徴ベクトルとを照合して前記入力音声を認識する照合
部とを備えたことを特徴とする音声認識装置。
1. A voice input section for inputting a voice to be recognized, frequency analysis of an input voice signal obtained by the voice input section, and subtraction of an estimated noise spectrum from the frequency-analyzed voice spectrum. By using a noise processing unit that removes noise, an analysis unit that obtains a feature vector of the input speech based on the speech signal obtained by the noise processing unit, and noise-superimposed speech data that corresponds to a presumed noise environment. A plurality of standard patterns created in advance are stored, and noise information regarding residual noise that cannot be completely removed by noise processing from the voice signal obtained from the noise processing unit is obtained,
A standard pattern selection unit that selects an optimum standard pattern from the plurality of standard patterns based on the noise information, and a standard pattern selected by the standard pattern selection unit and the feature vector are collated and input. A voice recognition device comprising: a collating unit for recognizing voice.
【請求項2】前記雑音処理部におけるスペクトルの引き
算はスペクトルの振幅情報のみを用いて行なうことを特
徴とする請求項1記載の音声認識装置。
2. The speech recognition apparatus according to claim 1, wherein the subtraction of the spectrum in the noise processing unit is performed using only the amplitude information of the spectrum.
【請求項3】前記雑音処理部におけるスペクトルの引き
算はスペクトルの振幅情報と位相情報とを用いて行なう
ことを特徴とする請求項1記載の音声認識装置。
3. The speech recognition apparatus according to claim 1, wherein the subtraction of the spectrum in the noise processing unit is performed using amplitude information and phase information of the spectrum.
【請求項4】前記雑音処理部において、前記音声入力部
から得られる入力音声信号を用いて雑音スペクトルを推
定することを特徴とする請求項1、2または3に記載の
音声認識装置。
4. The speech recognition apparatus according to claim 1, wherein the noise processing section estimates a noise spectrum using an input speech signal obtained from the speech input section.
【請求項5】前記雑音処理部において、前記音声入力部
の出力信号から無音声区間を検出し、この無音声区間の
情報を用いて雑音スペクトルを推定することを特徴とす
る請求項4記載の音声認識装置。
5. The noise processing section detects a voiceless section from an output signal of the voice input section and estimates a noise spectrum using information of the voiceless section. Speech recognizer.
【請求項6】前記音声入力部の他に雑音を参照するため
の雑音参照用入力部を設け、前記雑音処理部では、前記
雑音参照用入力部から得られる参照雑音信号から得られ
たスペクトルを推定雑音スペクトルとして用いることを
特徴とする請求項1、2または3記載の音声認識装置。
6. A noise reference input section for referring to noise is provided in addition to the voice input section, and the noise processing section obtains a spectrum obtained from a reference noise signal obtained from the noise reference input section. The speech recognition apparatus according to claim 1, wherein the speech recognition apparatus is used as an estimated noise spectrum.
【請求項7】前記雑音処理部において、スペクトルを計
算する手段として、入力音声信号と参照雑音信号のうち
一方を実部、他方を虚部とする複素数の信号系列とみな
してフーリエ変換する手段と、該フーリエ変換した結果
から2信号のフーリエ変換を分離する手段とを備えたこ
とを特徴とする請求項6記載の音声認識装置。
7. The means for calculating a spectrum in the noise processing section, which performs Fourier transform by regarding one of an input speech signal and a reference noise signal as a complex number signal sequence having a real part and the other as an imaginary part. 7. The speech recognition apparatus according to claim 6, further comprising means for separating the Fourier transform of two signals from the result of the Fourier transform.
【請求項8】前記標準パタン選択部は、S/Nの異なっ
た音声データから作成した複数個の標準パタンを持って
おり、前記雑音処理部より得られた音声信号からS/N
を計算し、そのS/Nの値に最も近い音声データから作
成した標準パタンを前記照合部で用いる標準パタンとし
て選択することを特徴とする請求項1記載の音声認識装
置。
8. The standard pattern selection unit has a plurality of standard patterns created from voice data having different S / N, and the S / N from the voice signal obtained by the noise processing unit.
2. The voice recognition device according to claim 1, wherein the standard pattern created from the voice data closest to the S / N value is selected as the standard pattern used in the matching unit.
【請求項9】前記標準パタン選択部は、それぞれ性質の
異なった雑音を重畳した音声データから作成した複数の
標準パタンを持っており、前記雑音処理部より得られた
音声信号から残差雑音成分の特徴量を抽出し、その残差
雑音成分の性質と最も近い性質の雑音を重畳した音声デ
ータから作成した標準パタンを前記照合部で用いる標準
パタンとして選択することを特徴とする請求項1記載の
音声認識装置。
9. The standard pattern selection unit has a plurality of standard patterns created from voice data on which noises having different properties are superimposed, and a residual noise component is obtained from the voice signal obtained by the noise processing unit. 2. A standard pattern created from voice data obtained by extracting the feature amount of ## EQU1 ## and superimposing noise having a property closest to the property of the residual noise component is selected as a standard pattern used in the matching unit. Voice recognition device.
【請求項10】前記標準パタン選択部は、それぞれ性質
の異なった雑音をS/Nを変えて重畳した音声データか
ら作成した複数の標準パタンを持っており、前記雑音処
理部より得られた音声信号からS/Nと残差雑音成分の
特徴量を計算し、それらの値に一番近い音声データから
作成した標準パタンを前記照合部で用いる標準パタンと
して選択することを特徴とする請求項1記載の音声認識
装置。
10. The standard pattern selection unit has a plurality of standard patterns created from voice data in which noises having different properties are superimposed by changing S / N, and the voices obtained by the noise processing unit are included. 2. The S / N and residual noise component feature quantities are calculated from the signal, and the standard pattern created from the voice data closest to these values is selected as the standard pattern used by the matching unit. The voice recognition device described.
【請求項11】前記標準パタン選択部において、標準パ
タン作成に用いる音声データは、雑音を重畳した音声デ
ータに対して前記雑音処理部と同等な処理を施したもの
を用いることを特徴とする請求項8、9または10記載
の音声認識装置。
11. The standard pattern selecting section uses, as the voice data used for creating the standard pattern, voice data on which noise is superimposed, which is subjected to processing equivalent to that of the noise processing section. The speech recognition device according to Item 8, 9 or 10.
【請求項12】認識対象となる音声を入力する音声入力
部と、 前記音声入力部により得られた入力音声信号を周波数分
析し、該周波数分析された音声スペクトルに対し推定雑
音スペクトルを引き算することにより、雑音を除去する
雑音処理部と、 該雑音処理部により得られた音声信号に基づき当該入力
音声の特徴ベクトルを求める分析部と、 予め想定される騒音環境に応じて作成された複数種類の
コードブックと、該コードブックを用いたベクトル量子
化により得られたコード系列としての複数種類の標準パ
タンとを格納しておき、前記雑音処理部から得られた音
声信号から雑音処理により除去しきれなかった残差雑音
に関する雑音情報を求め、該雑音情報に基づいて前記コ
ードブックの種類および前記標準パタンの種類を選択す
る選択部と、 前記分析部により得られた特徴ベクトルに対して、前記
選択された種類のコードブックを用いてベクトル量子化
を行なうことにより、音声特徴パタンを得るベクトル量
子化部と、 該音声特徴パタンと前記選択された種類の標準パタンと
を照合して前記入力音声を認識する照合部とを備えたこ
とを特徴とする音声認識装置。
12. A voice input unit for inputting a voice to be recognized, frequency analysis of an input voice signal obtained by the voice input unit, and subtraction of an estimated noise spectrum from the frequency-analyzed voice spectrum. A noise processing unit for removing noise, an analysis unit that obtains a feature vector of the input voice based on a voice signal obtained by the noise processing unit, and a plurality of types of noise generated in advance according to a noise environment assumed. A codebook and a plurality of types of standard patterns as a code sequence obtained by vector quantization using the codebook are stored, and the speech signal obtained from the noise processing section can be completely removed by noise processing. A selection unit that obtains noise information related to residual noise that has not existed and selects the type of the codebook and the type of the standard pattern based on the noise information. , A vector quantizer that obtains a voice feature pattern by performing vector quantization on the feature vector obtained by the analysis unit using the codebook of the selected type; A voice recognition device comprising: a collating unit that collates with a standard pattern of a selected type to recognize the input voice.
【請求項13】前記選択部を用いる代わりに、予め複数
種類用意してある前記コードブックの各々を用い前記ベ
クトル量子化部においてベクトル量子化を行ない、その
中でベクトル量子化の量子化誤差が最小であるものをベ
クトル量子化の結果として採用し、該採用した量子化に
用いたコードブックがどれかという情報を用いて前記標
準パタンを選択することを特徴とする請求項12記載の
音声認識装置。
13. Instead of using the selecting unit, vector quantization is performed in the vector quantizing unit using each of the codebooks prepared in advance, and the quantization error of the vector quantization is 13. The speech recognition according to claim 12, wherein the smallest one is adopted as a result of vector quantization, and the standard pattern is selected by using information on which codebook is used for the adopted quantization. apparatus.
【請求項14】予め複数種類用意しておく前記コードブ
ックおよび前記標準パタンの作成は、それぞれS/Nが
異なっている複数の音声データを用いて行うことを特徴
とする請求項12または13記載の音声認識装置。
14. The code book and the standard pattern prepared in advance in plural types are created by using a plurality of audio data having different S / N. Voice recognition device.
【請求項15】予め複数種類用意しておく前記コードブ
ックおよび前記標準パタンの作成は、それぞれ性質の異
なった雑音を重畳した複数の音声データを用いて行うこ
とを特徴とする請求項12または13記載の音声認識装
置。
15. The code book and the standard pattern prepared in advance in a plurality of types are created using a plurality of audio data on which noises having different properties are superimposed. The voice recognition device described.
【請求項16】予め複数種類用意しておく前記コードブ
ックおよび前記標準パタンの作成は、それぞれ性質の異
なった雑音を種々のS/Nで重畳した複数の音声データ
を用いて行うことを特徴とする請求項12または13記
載の音声認識装置。
16. The code book and the standard pattern prepared in advance in a plurality of types are created by using a plurality of voice data in which noises having different properties are superimposed at various S / Ns. The voice recognition device according to claim 12 or 13.
【請求項17】予め複数種類用意してある前記コードブ
ックは、雑音を重畳していない音声データを用いて作成
したコードブックに対し、後から雑音成分を重畳するこ
とにより作成することを特徴とする請求項12または1
3記載の音声認識装置。
17. The codebook prepared in advance in a plurality of types is created by superimposing a noise component on a codebook created using speech data on which noise is not superposed. Claim 12 or 1
The voice recognition device according to 3.
【請求項18】予め複数種類用意してある前記コードブ
ックの各々において、同じ音声の特徴を示すコードベク
トルが同じコードワードに対応していることを特徴とす
る請求項12または13記載の音声認識装置。
18. The voice recognition according to claim 12, wherein, in each of the codebooks prepared in advance, a plurality of code vectors having the same voice feature correspond to the same codeword. apparatus.
【請求項19】一つの標準パタンのコード系列に対して
各々別個のコードブックを対応させることによって、各
種の騒音環境に対応させることを特徴とする請求項12
または13記載の音声認識装置。
19. The method according to claim 12, wherein the code sequences of one standard pattern are made to correspond to different code books, respectively, so as to correspond to various noise environments.
Alternatively, the voice recognition device according to item 13.
【請求項20】前記照合部において、入力音声のベクト
ル量子化に用いたコードブックと標準パタンのベクトル
量子化に用いたコードブックとの間で、コードベクトル
間の距離をあらゆる組合せで計算したテーブルを予め用
意しておき、入力音声の特徴パタンと標準パタンとの照
合のための距離計算は、前記テーブルを参照することに
よって行うことを特徴とする請求項12記載の音声認識
装置。
20. A table in which the distance between code vectors is calculated in any combination between the codebook used for vector quantization of the input speech and the codebook used for vector quantization of the standard pattern in the matching unit. 13. The voice recognition device according to claim 12, wherein the distance calculation for collating the characteristic pattern of the input voice with the standard pattern is performed by referring to the table.
【請求項21】前記照合部は、前記音声特徴パタンと前
記標準パタンとの照合のための距離計算において、一度
計算したコードベクトルの組合せとその時の距離を記憶
しておき、再び同じ組合せの距離計算を行う際は記憶し
た値を用いることを特徴とする請求項12記載の音声認
識装置。
21. In the distance calculation for matching the voice feature pattern and the standard pattern, the matching unit stores a combination of code vectors calculated once and the distance at that time, and again stores the distance of the same combination. 13. The voice recognition apparatus according to claim 12, wherein the stored value is used when the calculation is performed.
JP03329063A 1991-12-12 1991-12-12 Voice recognition device Expired - Fee Related JP3098593B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03329063A JP3098593B2 (en) 1991-12-12 1991-12-12 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03329063A JP3098593B2 (en) 1991-12-12 1991-12-12 Voice recognition device

Publications (2)

Publication Number Publication Date
JPH05165492A true JPH05165492A (en) 1993-07-02
JP3098593B2 JP3098593B2 (en) 2000-10-16

Family

ID=18217199

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03329063A Expired - Fee Related JP3098593B2 (en) 1991-12-12 1991-12-12 Voice recognition device

Country Status (1)

Country Link
JP (1) JP3098593B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075580A (en) * 1999-08-18 2001-03-23 Siemens Ag Method and device for voice recognition
JP2003504653A (en) * 1999-07-01 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Robust speech processing from noisy speech models
KR100393196B1 (en) * 1996-10-23 2004-01-28 삼성전자주식회사 Apparatus and method for recognizing speech
JP2014078863A (en) * 2012-10-11 2014-05-01 Iwate Prefectural Univ Apparatus and method for encoding and decoding acoustic code
CN103811012A (en) * 2012-11-07 2014-05-21 联想(北京)有限公司 Voice processing method and electronic device
CN104269177A (en) * 2014-09-22 2015-01-07 联想(北京)有限公司 Voice processing method and electronic device

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100393196B1 (en) * 1996-10-23 2004-01-28 삼성전자주식회사 Apparatus and method for recognizing speech
JP2003504653A (en) * 1999-07-01 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Robust speech processing from noisy speech models
JP4818556B2 (en) * 1999-07-01 2011-11-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Probabilistic robust speech processing
JP2001075580A (en) * 1999-08-18 2001-03-23 Siemens Ag Method and device for voice recognition
JP4520596B2 (en) * 1999-08-18 2010-08-04 シーメンス アクチエンゲゼルシヤフト Speech recognition method and speech recognition apparatus
JP2014078863A (en) * 2012-10-11 2014-05-01 Iwate Prefectural Univ Apparatus and method for encoding and decoding acoustic code
CN103811012A (en) * 2012-11-07 2014-05-21 联想(北京)有限公司 Voice processing method and electronic device
CN103811012B (en) * 2012-11-07 2017-11-24 联想(北京)有限公司 A kind of method of speech processing and a kind of electronic equipment
CN104269177A (en) * 2014-09-22 2015-01-07 联想(北京)有限公司 Voice processing method and electronic device

Also Published As

Publication number Publication date
JP3098593B2 (en) 2000-10-16

Similar Documents

Publication Publication Date Title
Kurzekar et al. A comparative study of feature extraction techniques for speech recognition system
US5583961A (en) Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
JP5230103B2 (en) Method and system for generating training data for an automatic speech recognizer
US5749068A (en) Speech recognition apparatus and method in noisy circumstances
US5459815A (en) Speech recognition method using time-frequency masking mechanism
JP3154487B2 (en) A method of spectral estimation to improve noise robustness in speech recognition
KR100766761B1 (en) Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
KR20010102549A (en) Speaker recognition
AU776919B2 (en) Robust parameters for noisy speech recognition
Ming et al. Robust speech recognition using probabilistic union models
US5487129A (en) Speech pattern matching in non-white noise
JP3098593B2 (en) Voice recognition device
De Lara A method of automatic speaker recognition using cepstral features and vectorial quantization
Xiao et al. Speech enhancement with inventory style speech resynthesis
Makhijani et al. Speech enhancement using pitch detection approach for noisy environment
Omer Joint MFCC-and-vector quantization based text-independent speaker recognition system
Maged et al. Improving speaker identification system using discrete wavelet transform and AWGN
Xiao et al. Inventory based speech enhancement for speaker dedicated speech communication systems
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Nair et al. A reliable speaker verification system based on LPCC and DTW
Kumar et al. Significance of acoustic features for designing an emotion classification system
Ta Speaker recognition system usi stress Co
JP2658426B2 (en) Voice recognition method
Hmich et al. Discriminating coding applied to the Automatic Speaker Identification
Cong et al. Combining fuzzy vector quantization and neural network classification for robust isolated word speech recognition

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees