JP2000075889A - Voice recognizing system and its method - Google Patents

Voice recognizing system and its method

Info

Publication number
JP2000075889A
JP2000075889A JP10246768A JP24676898A JP2000075889A JP 2000075889 A JP2000075889 A JP 2000075889A JP 10246768 A JP10246768 A JP 10246768A JP 24676898 A JP24676898 A JP 24676898A JP 2000075889 A JP2000075889 A JP 2000075889A
Authority
JP
Japan
Prior art keywords
speech
model
voice
noise
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10246768A
Other languages
Japanese (ja)
Inventor
Kazuhiko Shudo
和彦 首藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10246768A priority Critical patent/JP2000075889A/en
Publication of JP2000075889A publication Critical patent/JP2000075889A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a voice recognizing system, which is capable of following various changes in noise environment and constantly achieving a superior recognition rate, by selecting the optimal voice model in accordance with a noise environment at the time of recognition and performing a voice recognition processing by means of the voice model so selected. SOLUTION: An analytical result from a voice analyzer 11, and plural voice models 12 (voice model 1-N) are outputted to a voice recognizing part 13. The voice recognizing part 13 performs voice recognition processing independently for each voice model 1-N by referring a voice feature quantity obtained from the voice analyzer 11 to a template stored in the voice models, and outputs to a probability comparing part 14. In addition, the voice recognizing part 13 also calculates a numerical value indicating certainty other than a recognized symbol, outputting such certainty also to the probability comparing part 14. The probability comparing part 14 compares the output of the voice recognizing part 13, outputting the recognized symbol as the recognized result 15 of the system.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、耐雑音音声認識シ
ステム及び音声認識方法に関し、例えば、音声による操
作が可能なカーナビゲーションなどで用いられる、車内
のような雑音環境下において好適な音声認識システム及
び音声認識方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a noise-tolerant speech recognition system and a speech recognition method. For example, the present invention relates to a speech recognition system suitable for use in a car navigation system which can be operated by voice and suitable in a noise environment such as a car. And a speech recognition method.

【0002】[0002]

【従来の技術】音声認識技術として、古典的なパターン
・マッチング手法から、近年では統計的な手法に変わ
り、後者が主流になりつつある。後者の統計的な手法で
は、確率的な有限状態を持つマルコフ・モデルが提案さ
れており、通常、HMM(hiddenMarkov model:隠れマ
ルコフモデル)と呼ぶ。HMMでは、学習用音声データ
を用いて音声モデルの学習を行うことで高い認識率を上
げることが可能となっている。
2. Description of the Related Art As a speech recognition technique, the classical pattern matching technique has been changed to a statistical technique in recent years, and the latter is becoming mainstream. In the latter statistical method, a Markov model having a probabilistic finite state has been proposed, and is usually referred to as an HMM (hidden Markov model: hidden Markov model). In the HMM, it is possible to increase a high recognition rate by learning a speech model using learning speech data.

【0003】図3は従来のこの種のHMMを用いた連続
音声認識システムの構成を示すブロック図である。
FIG. 3 is a block diagram showing the configuration of a conventional continuous speech recognition system using this type of HMM.

【0004】図3において、連続音声認識システムは、
A/D変換部1、LPC分析部2、背景雑音逐次学習部
3、音声検出部4、切替え部5、ビタビ照合部6、HM
Mパラメータ推定部7及びHMM音声辞書8から構成さ
れている。このうち、A/D変換部1とLPC分析部2
とで音声分析ブロックが構成され、背景雑音逐次学習部
3と音声検出部4とで音声区間検出ブロックが、切替え
部5とビタビ照合部6とでHMM照合ブロックが、HM
Mパラメータ推定部7とHMM音声辞書8とでHMMモ
デル学習ブロックがそれぞれ構成されている。
In FIG. 3, a continuous speech recognition system comprises:
A / D conversion unit 1, LPC analysis unit 2, background noise sequential learning unit 3, voice detection unit 4, switching unit 5, Viterbi matching unit 6, HM
It comprises an M parameter estimator 7 and an HMM speech dictionary 8. The A / D converter 1 and the LPC analyzer 2
Constitutes a speech analysis block, the background noise sequential learning section 3 and the speech detection section 4 constitute a speech section detection block, and the switching section 5 and the Viterbi comparison section 6 constitute an HMM collation block.
An HMM model learning block is composed of the M parameter estimating unit 7 and the HMM speech dictionary 8.

【0005】A/D変換部1は、入力音声信号を所定の
サンプリング周波数(例えば、8kHz)でサンプリン
グしディジタル信号に変換する。
The A / D converter 1 samples an input audio signal at a predetermined sampling frequency (for example, 8 kHz) and converts it into a digital signal.

【0006】LPC分析部2は、音声波形を短い区間
(フレームと呼び、長さは通常10ミリ〜30ミリ秒で
ある)に区切り、フレーム毎に特徴パラメータを抽出す
る。音声分析には、音声の特性に合った能率的方法とし
て広く使用されているLPC(Linear Predictive Codi
ng:線形予測符号化)分析を用い、LPC係数からLP
Cケプストラム(Cepstrum)を算出する。ここで、ケプ
ストラムとは、対数スペクトラム(Logarithm)を逆フ
ーリエ変換したもので、人間の聴覚特性に近い性質を持
ち、比較的少ない数のパラメータで効率良く音声を表現
できる。
[0006] The LPC analysis unit 2 divides a speech waveform into short sections (referred to as frames, whose length is usually 10 to 30 ms), and extracts characteristic parameters for each frame. For speech analysis, LPC (Linear Predictive Code), which is widely used as an efficient method suited to the characteristics of speech, is used.
ng: Linear Predictive Coding) analysis using LPC coefficients to LP
Calculate Cepstrum. Here, the cepstrum is obtained by performing an inverse Fourier transform of a logarithmic spectrum (Logarithm), has a property close to human auditory characteristics, and can express speech efficiently with a relatively small number of parameters.

【0007】音声検出部4は、雑音区間における対数パ
ワーとLPCケプストラムの推定平均値を雑音特徴スペ
クトルとして記憶し、この雑音特徴ベクトルと入力信号
の特徴ベクトルとの距離を求め、その時間的変化から音
声区間を検出する。
The speech detector 4 stores the logarithmic power in the noise section and the estimated average value of the LPC cepstrum as a noise feature spectrum, finds the distance between the noise feature vector and the feature vector of the input signal, and calculates the distance from the time change. Detect voice section.

【0008】背景雑音逐次学習部3は、雑音区間と判定
された区間で雑音特徴ベクトルを更新することにより、
雑音特徴の逐次適応学習を行うとともに、距離変動の適
応学習によるしきい値の自動設定も行う。
[0008] The background noise sequential learning unit 3 updates the noise feature vector in the section determined to be a noise section,
In addition to performing the sequential adaptive learning of the noise feature, the threshold is also automatically set by the adaptive learning of the distance variation.

【0009】ビタビ照合部6は、ビタビ(Viterbi)ア
リゴリズムを用いてHMM照合を行う。HMM照合で
は、音素や単語を表現したHMMモデルと未知入力音声
とを比較し、類似度を求める。
The Viterbi collation unit 6 performs HMM collation using the Viterbi algorithm. In the HMM collation, a similarity is obtained by comparing an HMM model representing a phoneme or a word with an unknown input speech.

【0010】HMMパラメータ推定部7は、EM(Expe
ctation Maximization)アルゴリズムを用いてHMMモ
デル学習を行う。HMMモデル学習では、あらかじめ用
意した音声データでHMMモデルのパラメータを推定す
る。
[0010] The HMM parameter estimating unit 7 generates an EM (Expe
HMM model learning is performed using an ctation Maximization algorithm. In the HMM model learning, the parameters of the HMM model are estimated from voice data prepared in advance.

【0011】切替え部5は、上記HMM照合とHMMモ
デル学習との処理を切り替えるものである。また、HM
M音声辞書8は、HMMパラメータ推定部7によるHM
Mモデル学習結果を記憶し、ビタビ照合部6によるHM
M照合において参照される。
The switching unit 5 switches the processing between the HMM collation and the HMM model learning. Also, HM
The M speech dictionary 8 stores the HM
The M model learning result is stored, and the HM
Referenced in M matching.

【0012】一般に、HMMは、複数の状態(例えば、
音声の特徴等)と状態間の遷移からなる。さらに、HM
Mは状態間の遷移を表す遷移確率と、遷移する際に伴う
特徴ベクトルを出力する出力確率分布(通常はガウス分
布を用いる)を有している。このようなHMMを用いた
単語音声認識の例を図4に示す。
In general, an HMM has multiple states (eg,
And the transition between states. Furthermore, HM
M has a transition probability representing transition between states and an output probability distribution (usually using a Gaussian distribution) for outputting a feature vector accompanying the transition. FIG. 4 shows an example of word speech recognition using such an HMM.

【0013】図4は、音声認識方法に用いられる単語H
MMの構造を示す状態遷移図である。
FIG. 4 shows a word H used in the speech recognition method.
It is a state transition diagram which shows the structure of MM.

【0014】図4中のs1,s2,s3,s4はHMMにお
ける音声の特徴等の状態を表し、a11,a12,a22,a
23,a33,a34,a44,a45は状態遷移確率、(u1,
σ1)、(u2,σ2)、(u3,σ3)、(u4,σ4)は
出力確率分布を表す。
In FIG. 4, s1, s2, s3, and s4 represent states of voice features in the HMM, and a11, a12, a22, a
23, a33, a34, a44, a45 are state transition probabilities, (u1,
.sigma.1), (u2, .sigma.2), (u3, .sigma.3), and (u4, .sigma.4) represent output probability distributions.

【0015】HMMでは、状態遷移確率aij(i=1,
…,4、j=1,…,5)で状態遷移が行なわれる際、
出力確率分布(uk、σk)でべクトルを出力する。発
声された単語をHMMを用いて認識するには、まず、各
単語に対して用意された学習データを用いて、その単語
のベクトル列を最も高い確率で出力するようにHMMを
学習する。次に、発声された未知単語のべクトル列を入
力し、最も高い出力確率を与えた単語HMMを認識結果
とする。
In the HMM, the state transition probability aij (i = 1,
, 4, j = 1,..., 5)
The vector is output using the output probability distribution (uk, σk). In order to recognize an uttered word using the HMM, the HMM is first learned by using learning data prepared for each word so as to output a vector sequence of the word with the highest probability. Next, the vector sequence of the uttered unknown word is input, and the word HMM that gives the highest output probability is set as the recognition result.

【0016】この種の音声認識方法では、発声された単
語そのものにHMMを与えて学習し、尤度(すなわち、
べクトル列の出力確率)によって認識結果を判断するも
のである。このような単語HMMは、優れた認識精度を
保証するが、認識語彙数が増大することによって膨大な
学習データが必要となることや、学習対象語以外の音声
が全く認識できないことなどの欠点がある。
In this type of speech recognition method, an uttered word itself is given an HMM and learned, and the likelihood (ie,
The recognition result is determined based on the output probability of the vector train). Although such a word HMM guarantees excellent recognition accuracy, it has disadvantages such as an enormous amount of learning data required due to an increase in the number of recognition vocabularies, and the inability to recognize speech other than the learning target words at all. is there.

【0017】近年、カーナビゲーションなどの商品にお
いて、その操作を音声認識を用いてユーザからの音声に
よって行うことが試みられている。この場合、車内のよ
うに、車外からの騒音や走行音といった、雑音の激しい
環境では、雑音対策を考えずに、音声認識をそのまま適
用したのでは認識率が低く、実用的でない。そこで、従
来さまざまな雑音対策手法が提案されてきた。例えば、
スペクトルサブトラクションと呼ばれるノイズ除去方
式、複数マイクを用いた個応処理方式、PMC(Parall
el Model Combination)方法と呼ばれるHMMモデルの
雑音への適応などである。
In recent years, in a product such as a car navigation system, it has been attempted to perform the operation by voice from a user using voice recognition. In this case, in an environment where noise is intense, such as noise from outside the vehicle or running noise, such as inside a vehicle, it is not practical to apply speech recognition as it is without considering noise measures, as it is not practical. Therefore, various noise suppression methods have been conventionally proposed. For example,
Noise removal method called spectral subtraction, individual processing method using multiple microphones, PMC (Parallel
el Model Combination), which is an adaptation of the HMM model to noise.

【0018】現状ではこれらの方法を用いても、実際の
フィールドでユーザに受け入れられる認識率を達成する
ことは困難である。一方で静かな環境ではなく、雑音環
境の中で発声した音声データを用いてΗMM学習を行
い、雑音が混合した音声モデルを作成することが考えら
れる。この方法をここでは雑音学習法と呼ぶ。この方法
から得られる音声モデルを用いれば実際のフィールドで
もかなりの認識率を達成できる。
At present, even with these methods, it is difficult to achieve a recognition rate that is acceptable to the user in the actual field. On the other hand, it is conceivable to perform ΗMM learning using voice data uttered in a noise environment instead of a quiet environment to create a voice model mixed with noise. This method is referred to herein as a noise learning method. By using the speech model obtained from this method, a considerable recognition rate can be achieved even in an actual field.

【0019】[0019]

【発明が解決しようとする課題】しかしながら、このよ
うな従来の耐雑音音声認識システムにあっては、以下の
ような問題点があった。
However, such a conventional noise-tolerant speech recognition system has the following problems.

【0020】すなわち、この雑音学習法は、良好な認識
率を達成するには学習時とテスト時の雑音環境が同じで
なければならないという重大な制約を抱えている。例え
ば、カーナビゲーションにおける地名の音声入力といっ
たアプリケーションを考えてみよう。天候、路面の状
態、車外の騒音、走行速度など、車内をとりまく環境は
さまざまに変化し、従ってその雑音の様子も変化する。
特定の天候、路面状態、車外騒音、走行速度で採取され
た学習用音声データベースで雑音学習された音声モデル
を用いると、学習時の条件と同一の場面では良好な認識
率を与えるものの、路面状態が変わったり走行速度が変
わったりすると、とたんに認識率が落ちてしまう。
That is, this noise learning method has a serious restriction that the noise environment at the time of learning and the noise environment at the time of testing must be the same to achieve a good recognition rate. For example, consider an application such as voice input of a place name in car navigation. The environment surrounding the vehicle changes in various ways, such as the weather, road surface conditions, noise outside the vehicle, and traveling speed, and thus the appearance of the noise also changes.
Using a speech model trained with noise in a training speech database collected at specific weather, road surface conditions, outside noise, and traveling speed, a good recognition rate is given in the same scene as the learning conditions, but the road surface conditions If the speed changes or the running speed changes, the recognition rate will drop immediately.

【0021】このように、雑音環境がさまざまに変化す
るフィールドでこの雑音学習方法をそのままの形で適用
するのは実用的ではない。
As described above, it is not practical to apply the noise learning method as it is in a field where the noise environment changes variously.

【0022】本発明は、雑音環境が様々に変化するフィ
ールドにおいて、雑音環境が様々に変化してもそれに追
随して常に良好な認識率を上げることができる音声認識
システム及び音声認識方法を提供することを目的とす
る。
The present invention provides a speech recognition system and a speech recognition method capable of always improving a good recognition rate in a field where the noise environment changes variously, even if the noise environment changes variously. The purpose is to:

【0023】[0023]

【課題を解決するための手段】本発明に係る音声認識シ
ステムは、音声モデルを用いて音声認識を行う音声認識
システムにおいて、異なる雑音環境に対応して用意され
た複数の音声モデルと、認識時の雑音環境に応じて最適
な音声モデルを選択する音声モデル選択手段と、音声モ
デル選択手段により選択された音声モデルを用いて音声
認識処理を行う音声認識手段とを備えて構成する。
A speech recognition system according to the present invention is a speech recognition system for performing speech recognition using a speech model, comprising: a plurality of speech models prepared for different noise environments; And a voice recognition means for performing a voice recognition process using the voice model selected by the voice model selection means.

【0024】本発明に係る音声認識システムは、音声モ
デルを用いて音声認識を行う音声認識システムにおい
て、異なる雑音環境に対応して用意された複数の音声モ
デルと、各音声モデルを用いて音声認識処理を行う音声
認識手段と、音声認識手段により認識した認識結果のう
ちの一つを選択する音声モデル選択手段とを備えて構成
する。
A speech recognition system according to the present invention is a speech recognition system for performing speech recognition using a speech model. In the speech recognition system, a plurality of speech models prepared for different noise environments and speech recognition using each speech model are provided. It comprises a voice recognition means for performing processing and a voice model selection means for selecting one of the recognition results recognized by the voice recognition means.

【0025】上記音声認識処理は、ヒドン・マルコフ・
モデル(HMM)による音声認識処理であってもよく、
また、上記複数の音声モデルは、システムが使用される
フィールドにおいて想定される異なる雑音の程度、種類
等に応じて用意された複数の音声モデルであってもよ
い。
The above speech recognition processing is performed by Hidden Markov
It may be a speech recognition process using a model (HMM),
Further, the plurality of speech models may be a plurality of speech models prepared in accordance with different degrees and types of noise assumed in a field where the system is used.

【0026】また、上記複数の音声モデルは、HMM単
語モデル又はHMM音韻モデルであってもよく、上記複
数の音声モデルは、異なる雑音環境下で発声した音声デ
ータベースを基にHMM学習により作成した雑音環境に
対応した音声モデルであってもよい。
Further, the plurality of speech models may be an HMM word model or an HMM phoneme model, and the plurality of speech models are noise models created by HMM learning based on speech databases uttered under different noise environments. A sound model corresponding to the environment may be used.

【0027】上記音声モデル選択手段は、各音声モデル
について、該当音声モデルを用いて個別に音声認識処理
を行い、その際の認識の確からしさが最も高いものを与
えた音声モデルを選択するものであってもよい。
The voice model selecting means individually performs voice recognition processing for each voice model using the corresponding voice model, and selects a voice model given the one with the highest probability of recognition at that time. There may be.

【0028】本発明に係る音声認識システムは、入力中
に含まれる雑音を推定する雑音推定手段を備え、各音声
モデルは対応する雑音モデルを含んでおり、音声モデル
選択手段は、雑音推定手段により推定された推定雑音と
各音声モデルの雑音モデルとを照合し、最も類似した雑
音モデルを持った音声モデルを選択するものであっても
よい。
The speech recognition system according to the present invention includes noise estimation means for estimating noise included in an input, each speech model includes a corresponding noise model, and the speech model selection means uses the noise estimation means. The estimated noise may be compared with the noise model of each speech model, and the speech model having the most similar noise model may be selected.

【0029】上記推定雑音と雑音モデルとの照合は、雑
音モデルと推定雑音との間でマッチング処理を行い、該
マッチング度を類似度の尺度とするものであってもよ
く、また、上記マッチング処理は、ビタビ照合であって
もよい。
The matching between the estimated noise and the noise model may be performed by performing a matching process between the noise model and the estimated noise, and using the degree of matching as a measure of similarity. May be Viterbi collation.

【0030】また、本発明に係る音声認識方法は、音声
モデルを用いて音声認識を行う音声認識方法において、
異なる雑音環境に対応して複数の音声モデルを用意し、
認識時の雑音環境に応じて最適な音声モデルを選択し、
選択された音声モデルを用いて音声認識処理を行うこと
を特徴とする。
The speech recognition method according to the present invention is a speech recognition method for performing speech recognition using a speech model.
Prepare multiple voice models for different noise environments,
Select the optimal speech model according to the noise environment at the time of recognition,
The speech recognition process is performed using the selected speech model.

【0031】本発明に係る音声認識方法は、音声モデル
を用いて音声認識を行う音声認識方法において、異なる
雑音環境に対応して複数の音声モデルを用意し、各音声
モデルを用いて音声認識処理を行い、認識した認識結果
のうちの一つを選択することを特徴とする。
A speech recognition method according to the present invention is a speech recognition method for performing speech recognition using a speech model, wherein a plurality of speech models are prepared corresponding to different noise environments, and speech recognition processing is performed using each speech model. And selecting one of the recognized recognition results.

【0032】本発明に係る音声認識方法は、入力中に含
まれる雑音を推定し、各音声モデルは対応する雑音モデ
ルを含んでおり、音声モデルの選択において、推定され
た推定雑音と各音声モデルの雑音モデルとを照合し、最
も類似した雑音モデルを持った音声モデルを選択するこ
とを特徴とする。
A speech recognition method according to the present invention estimates noise included in an input, and each speech model includes a corresponding noise model. In selecting a speech model, the estimated estimated noise and each speech model are selected. And a voice model having the most similar noise model is selected.

【0033】[0033]

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0034】第1の実施形態 図1は本発明の第1の実施形態に係る音声認識システム
の構成及び処理を示すフローチャートである。
First Embodiment FIG. 1 is a flowchart showing the configuration and processing of a speech recognition system according to a first embodiment of the present invention.

【0035】図1において、10はマイクなどからの音
声入力をディジタル信号に変換して入力する音声入力
部、11は音声波形を短い区間に区切り、フレーム毎に
特徴パラメータを抽出して音声を分析するLPC分析部
からなる音声分析部である。音声分析部11では、音声
の特性に合った能率的方法として広く使用されているL
PC分析を用い、LPC係数からLPCケプストラムを
算出する。
In FIG. 1, reference numeral 10 denotes a voice input unit for converting a voice input from a microphone or the like into a digital signal and inputting it. This is a voice analysis unit including an LPC analysis unit. In the voice analysis unit 11, L which is widely used as an efficient method suitable for the characteristics of the voice is used.
The LPC cepstrum is calculated from the LPC coefficient using PC analysis.

【0036】また、本音声認識システムはあらかじめ複
数の音声モデル12(音声モデル1〜N)を持つ。この
音声モデル12は、システムが使用されるフィールドに
おいて想定される異なる雑音環境1〜Nに対応する異な
る音声モデル1〜Nである。
The speech recognition system has a plurality of speech models 12 (speech models 1 to N) in advance. The speech models 12 are different speech models 1 to N corresponding to different noise environments 1 to N assumed in a field where the system is used.

【0037】上記音声分析部11からの分析結果、及び
複数の音声モデル12(音声モデル1〜N)は、音声認
識部13(音声認識手段)に出力される。
The analysis result from the voice analysis unit 11 and a plurality of voice models 12 (voice models 1 to N) are output to a voice recognition unit 13 (voice recognition means).

【0038】音声認識部13は、音声分析部11から得
た音声特徴量を音声モデルに蓄えられているテンプレー
トと照合することによって各音声モデル1〜Nについて
独立に音声認識処理を行い、確率比較部14(音声モデ
ル選択手段)に出力する。また、音声認識部13は、音
声認識処理において、認識されたシンボル(認識された
単語)の他にその確からしさを示す数値も計算し、その
確からしさP−1〜P−Nも確率比較部14に出力す
る。
The voice recognition unit 13 performs voice recognition processing independently for each of the voice models 1 to N by comparing the voice feature amount obtained from the voice analysis unit 11 with a template stored in the voice model, and performs a probability comparison. Output to the unit 14 (speech model selection means). Further, in the voice recognition process, the voice recognition unit 13 also calculates a numerical value indicating the probability in addition to the recognized symbol (recognized word), and also calculates the probability P-1 to PN in the probability comparison unit. 14 is output.

【0039】確率比較部14は、音声認識部13の出力
である確からしさΡ−1〜P−Nを比較し、その最も大
きいものΡ−MAXを取り出し、それに対応した認識シ
ンボルS−MAXをシステムの認識結果15として出力
する。
The probability comparing unit 14 compares the probabilities Ρ-1 to PN output from the speech recognizing unit 13, extracts the largest one Ρ-MAX, and converts the corresponding recognition symbol S-MAX into the system. Is output as the recognition result 15.

【0040】上記音声認識部13は、異なる雑音環境に
対応して用意された各音声モデル1〜Nを用いて音声認
識処理を行う音声認識手段を構成するとともに、認識結
果の確からしさを示す数値も計算することによって音声
モデル選択手段の一部をも構成する。
The speech recognition section 13 constitutes speech recognition means for performing speech recognition processing using each of the speech models 1 to N prepared corresponding to different noise environments, and a numerical value indicating the likelihood of the recognition result. Also, a part of the speech model selecting means is configured by calculating

【0041】また、上記確率比較部14は、確からしさ
Ρ−1〜P−Nを比較することにより最適な認識結果を
選択する音声モデル選択手段を構成する。
The probability comparing section 14 constitutes a speech model selecting means for selecting an optimal recognition result by comparing the likelihood Ρ-1 to PN.

【0042】このように、本実施形態に係る音声認識シ
ステムは、異なる雑音の程度、種類等に応じて対応する
複数の音声モデル12(音声モデル1〜N)と、各音声
モデル1〜Nについて独立に音声認識処理を行う音声認
識部13と、音声認識部13により認識した認識結果の
うちの一つを選択する確率比較部14とを持つことを特
徴とする。
As described above, the speech recognition system according to the present embodiment comprises a plurality of speech models 12 (speech models 1 to N) corresponding to different degrees and types of noise, and It is characterized by having a voice recognition unit 13 that performs voice recognition processing independently and a probability comparison unit 14 that selects one of the recognition results recognized by the voice recognition unit 13.

【0043】以下、上述のように構成された音声認識シ
ステムの動作を説明する。
Hereinafter, the operation of the speech recognition system configured as described above will be described.

【0044】音声入力部10では、マイクなどから音を
入力し、A/D変換により信号をデジタル信号に変換す
る。
The audio input unit 10 receives a sound from a microphone or the like and converts the signal into a digital signal by A / D conversion.

【0045】音声分析部11では、音声入力部10から
の信号に対して例えばLPC分析を行い、その特徴量を
抽出し、後段の音声認識部13への入力とする。
The voice analysis unit 11 performs, for example, an LPC analysis on the signal from the voice input unit 10 to extract the characteristic amount thereof, which is input to the voice recognition unit 13 at the subsequent stage.

【0046】システムはあらかじめ複数の音声モデル1
2(音声モデル1〜N)を持つ。ここで音声モデルとし
ては、HMM単語モデルあるいはHMM音韻モデルとし
てよい。システムが使用されるフィールドにおいて想定
される異なる雑音環境1〜Nに対処するため、それに対
応する異なる音声モデル1〜Nを用意する。
The system has a plurality of speech models 1 in advance.
2 (voice models 1 to N). Here, the speech model may be an HMM word model or an HMM phoneme model. In order to cope with different noise environments 1 to N assumed in a field where the system is used, corresponding different speech models 1 to N are prepared.

【0047】これらの音声モデルの作成方法としては、
可能であればシステムが使用される実際のフィールドで
の様々な雑音環境下(異なるSN比、雑音の種類など)
で発声した音声データベースを作成し、同一あるいは類
似した雑音環境毎にHMM学習によってその雑音環境に
対応した音声モデルを得ることが望ましい。しかし、そ
れが困難ならば雑音データのみを取得して、それと静か
な環境で発声した音声データベースとを計算機上で加算
し、そのSN比を変えたり、雑音データの種類を変えた
りして、擬似的に様々な雑音環境下での音声データベー
スを作成し、それからHMM学習によって音声モデルを
得てもよい。
As a method of creating these voice models,
If possible, under various noise environments in the actual field where the system is used (different SNR, type of noise, etc.)
It is desirable to create a speech database uttered in step (1) and obtain a speech model corresponding to the noise environment by HMM learning for each identical or similar noise environment. However, if it is difficult, only the noise data is obtained, and it is added to the voice database uttered in a quiet environment on a computer, and the SN ratio is changed or the type of the noise data is changed. Alternatively, a speech database may be created under various noise environments, and then a speech model may be obtained by HMM learning.

【0048】音声認識部13では、音声分析部11から
得た音声特徴量を音声モデルに蓄えられているテンプレ
ートと照合することによって音声の認識を行う。通常の
音声認識システムでは使用する音声モデルは1つである
が、本実施形態では、異なった雑音環境に対応するた
め、前述の複数の音声モデル12(音声モデル1〜N)
を使用する。そして、音声認識部13では、各音声モデ
ル1〜Nについて独立に音声認識処理を行う。HMMな
どに基づく音声認識処理では認識されたシンボル(認識
された単語)の他にその確からしさを示す数値も計算さ
れる。したがって、音声認識部13では、各音声モデル
1〜Nを使用した場合の認識シンボルS−1〜S−Nと
同時にその確からしさP−1〜P−Nをも出力する。
The voice recognition section 13 recognizes voice by comparing the voice feature amount obtained from the voice analysis section 11 with a template stored in the voice model. In a normal speech recognition system, one speech model is used. However, in the present embodiment, in order to cope with different noise environments, the plurality of speech models 12 (speech models 1 to N) described above are used.
Use Then, the voice recognition unit 13 performs voice recognition processing independently for each of the voice models 1 to N. In speech recognition processing based on HMM or the like, a numerical value indicating the likelihood is calculated in addition to the recognized symbol (recognized word). Therefore, the voice recognition unit 13 outputs the recognition symbols S-1 to SN when each of the voice models 1 to N is used, and also outputs the probabilities P-1 to PN at the same time.

【0049】確率比較部14では、音声認識部14の出
力である確からしさΡ−1〜P−Nを比較し、その最も
大きいものΡ−MAXを取り出し、このΡ−MAXに対
応した認識シンボルS−MAXをシステムの認識結果1
5として出力する。
The probability comparing section 14 compares the likelihoods Ρ-1 to PN output from the speech recognizing section 14, extracts the largest one Ρ-MAX, and extracts the recognition symbol S corresponding to the Ρ-MAX. -MAX is the system recognition result 1
Output as 5.

【0050】以上説明したように、第1の実施形態に係
る音声認識システムは、システムが使用されるフィール
ドにおいて想定される異なる雑音環境1〜Nに対応する
異なる音声モデル1〜Nと、各音声モデル1〜Nについ
て独立に音声認識処理を行うとともに、音声認識処理に
おいて、認識されたシンボル(認識された単語)の他に
その確からしさを示す数値も計算し、その確からしさP
−1〜P−Nも出力する音声認識部13と、音声認識部
13の出力である確からしさΡ−1〜P−Nを比較し、
その最も大きいものΡ−MAXを取り出し、それに対応
した認識シンボルS−MAXをシステムの認識結果15
として出力する確率比較部14とを備え、選択された音
声モデルを用いて音声認識処理を行うように構成したの
で、音声認識をする際には各音声モデルごとに認識処理
を行い、そのうち最も高い確からしさを出力した音声モ
デルの認識結果が採用されることになり、車内のように
時々刻々雑音環境が変わっているような状況でも環境に
追随して一貫して高い認識率を達成することができる。
As described above, the speech recognition system according to the first embodiment includes different speech models 1 to N corresponding to different noise environments 1 to N assumed in a field where the system is used, and each speech model. The voice recognition process is independently performed on the models 1 to N. In the voice recognition process, a numerical value indicating the certainty is calculated in addition to the recognized symbol (recognized word).
-1 to PN are also output, and the probabilities Ρ-1 to PN which are outputs of the voice recognition unit 13 are compared with each other.
The largest Ρ-MAX is taken out, and the corresponding recognition symbol S-MAX is extracted from the system recognition result 15.
And a probability comparison unit 14 that outputs the selected speech model. The speech recognition process is performed using the selected speech model. Therefore, when speech recognition is performed, the recognition process is performed for each speech model. The recognition result of the voice model that outputs the certainty will be adopted, so that even in a situation where the noise environment changes every moment like in a car, it is possible to consistently achieve a high recognition rate following the environment. it can.

【0051】上述した第1の実施形態に係る音声認識シ
ステムでは、異なる雑音環境に対応して複数の音声モデ
ル12を用意し、各音声モデル12を用いて音声認識処
理を行い、認識した認識結果のうちの一つを選択するよ
うにしているが、これに代えて、まず、音声モデル12
を選択し、選択された音声モデルを用いて音声認識処理
を行うようにしてもよい。以下、この例を第2の実施形
態として説明する。
In the speech recognition system according to the first embodiment described above, a plurality of speech models 12 are prepared corresponding to different noise environments, speech recognition processing is performed using each speech model 12, and the recognized recognition result is obtained. Is selected, but instead of this, first, the voice model 12
May be selected, and speech recognition processing may be performed using the selected speech model. Hereinafter, this example will be described as a second embodiment.

【0052】第2の実施形態 図2は本発明の第2の実施形態に係る音声認識システム
の構成及び処理を示すフローチャートである。本実施形
態に係る音声認識システムの説明にあたり図1に示す音
声認識システムの構成及び処理と同一部分には同一符号
を付している。
Second Embodiment FIG. 2 is a flowchart showing the configuration and processing of a speech recognition system according to a second embodiment of the present invention. In the description of the speech recognition system according to the present embodiment, the same parts as those in the configuration and processing of the speech recognition system shown in FIG.

【0053】図2において、10はマイクなどからの音
声入力をディジタル信号に変換して入力する音声入力
部、11は音声波形を短い区間に区切り、フレーム毎に
特徴パラメータを抽出して音声を分析するLPC分析部
からなる音声分析部である。音声分析部11では、第1
の実施形態と同様に、音声の特性に合った能率的方法と
して広く使用されているLPC分析を用い、LPC係数
からLPCケプストラムを算出する。
In FIG. 2, reference numeral 10 denotes a voice input unit for converting a voice input from a microphone or the like into a digital signal and inputting it. Reference numeral 11 divides a voice waveform into short sections, extracts characteristic parameters for each frame, and analyzes the voice. This is a voice analysis unit including an LPC analysis unit. In the voice analysis unit 11, the first
As in the embodiment, the LPC cepstrum is calculated from the LPC coefficient using the LPC analysis widely used as an efficient method suitable for the characteristics of the voice.

【0054】雑音推定部13(雑音推定手段)は、入力
信号に含まれる雑音を推定し、推定雑音22を出力す
る。
The noise estimating section 13 (noise estimating means) estimates the noise contained in the input signal and outputs an estimated noise 22.

【0055】また、第1の実施形態と同様に、あらかじ
め複数の音声モデル23(音声モデル1〜N)を持つ。
この音声モデル23は、システムが使用されるフィール
ドにおいて想定される異なる雑音環境1〜Nに対応する
異なる音声モデル1〜Nであることに加え、さらに各音
声モデル23(音声モデル1〜N)ごとに、音声モデル
1〜Nに対応して学習の際の雑音環境の雑音モデル24
(雑音モデル1〜N)も用意する。
Further, similarly to the first embodiment, a plurality of voice models 23 (voice models 1 to N) are provided in advance.
The voice models 23 are different voice models 1 to N corresponding to different noise environments 1 to N assumed in a field where the system is used, and further, each voice model 23 (voice models 1 to N). In addition, the noise model 24 of the noise environment at the time of learning corresponding to the speech models 1 to N
(Noise models 1 to N) are also prepared.

【0056】音声モデル選択部25(音声モデル選択手
段)は、音声モデル1〜Nのうちで、雑音推定部21の
出力の推定雑音22と各音声モデル23に蓄えられた雑
音モデル24とを比較し、最も類似している雑音モデル
を持った音声モデルを選択する。
The speech model selection unit 25 (speech model selection means) compares the estimated noise 22 output from the noise estimation unit 21 with the noise model 24 stored in each speech model 23 among the speech models 1 to N. Then, the speech model having the most similar noise model is selected.

【0057】音声認識部26は、音声モデル選択部25
によって選択された音声モデルを用いてHMM認識処理
を行い、認識結果27として出力する。
The speech recognition section 26 is composed of a speech model selection section 25
The HMM recognition processing is performed using the speech model selected by the above, and is output as a recognition result 27.

【0058】以下、上述のように構成された音声認識シ
ステムの動作を説明する。
The operation of the speech recognition system configured as described above will be described below.

【0059】音声入力部10では、マイクなどから音を
入力し、A/D変換により信号をデジタル信号に変換す
る。音声分析部11では、音声入力部10からの信号に
対して例えばLPC分析を行い、その特徴量を抽出し、
雑音推定部21及び音声認識部26に出力する。
The voice input unit 10 receives a sound from a microphone or the like and converts the signal into a digital signal by A / D conversion. The voice analysis unit 11 performs, for example, LPC analysis on the signal from the voice input unit 10 and extracts the feature amount thereof.
Output to the noise estimation unit 21 and the speech recognition unit 26.

【0060】雑音推定部21では、入力信号に含まれる
雑音を推定する。推定方法としては従来様々な手法が提
案されており、それを用いればよい。例えば、信号中の
発声区間を同定し、非発声区間での信号を雑音とみなす
などすればよい。
The noise estimator 21 estimates the noise contained in the input signal. Conventionally, various methods have been proposed as estimating methods, and these may be used. For example, a speech section in a signal may be identified, and a signal in a non-speech section may be regarded as noise.

【0061】音声モデル23(音声モデル1〜N)につ
いては第1の実施形態で説明したが、ここではさらに各
音声モデル1〜Nごとに、学習の際の雑音環境の雑音モ
デル24(雑音モデル1〜N)も別個用意する。雑音モ
デル24の作成方法としては、騒音環境下で実際に発声
した音声データベースを用いた場合には、非発話区間で
の信号を雑音とみなし、HMM学習によって求めること
ができるし、雑音データから計算機上で擬似的に作成し
た音声データベースを用いた場合には、もともとの雑音
データからHMM学習によって求めればよい。こうして
音声モデル1〜Nに対応して雑音モデル1〜Nを作成す
る。
Although the speech model 23 (speech models 1 to N) has been described in the first embodiment, here, the noise model 24 (noise model) of the noise environment at the time of learning is further provided for each speech model 1 to N. 1 to N) are also prepared separately. As a method for creating the noise model 24, when a speech database actually uttered in a noisy environment is used, a signal in a non-speech section can be regarded as noise and can be obtained by HMM learning. In the case of using the speech database created simulated above, the speech data may be obtained by HMM learning from the original noise data. Thus, the noise models 1 to N are created corresponding to the speech models 1 to N.

【0062】音声モデル選択部25では、音声モデル1
〜Nのうちで、雑音推定部21の出力の推定雑音22と
各音声モデル23に蓄えられた雑音モデル24とを比較
し、最も類似している雑音モデルを持った音声モデルを
選択する。類似尺度としては、雑音モデルを用いて従来
のマッチング手法(ビタビ照合など)で推定雑音とのマ
ッチングを行い、結果として出力されるマッチング度
(HMMでは確率)を用いる。雑音モデルとして1ステ
ート、1混合のHMMモデルを選んだ場合には、雑音モ
デルは平均と分散のみで表されるので、推定雑音からあ
らかじめその平均と分散を計算し、それと雑音モデルと
の間のガウス距離を類似尺度として用いてもよい。
The voice model selecting section 25 outputs the voice model 1
Among the noise models, the estimated noise 22 output from the noise estimating unit 21 is compared with the noise model 24 stored in each audio model 23, and the audio model having the most similar noise model is selected. As the similarity measure, a matching with the estimated noise is performed by a conventional matching method (Viterbi matching or the like) using a noise model, and a matching degree (probability in HMM) output as a result is used. When a one-state, one-mixture HMM model is selected as the noise model, the noise model is expressed only by the mean and the variance. Therefore, the mean and the variance are calculated in advance from the estimated noise, and the difference between the estimated noise and the noise model is calculated. Gaussian distance may be used as a similarity measure.

【0063】音声認識部26では、音声モデル選択部2
5によって選択された音声モデルを用いてHMM認識処
理を行い、認識結果27を出力して処理を終える。この
場合、第1の実施形態のように複数の音声モデルについ
て認識処理を行う必要はない。
In the speech recognition section 26, the speech model selection section 2
The HMM recognition process is performed using the speech model selected in Step 5, and a recognition result 27 is output, and the process ends. In this case, there is no need to perform recognition processing on a plurality of speech models as in the first embodiment.

【0064】以上説明したように、第2の実施形態に係
る音声認識システムは、さらに各音声モデル23(音声
モデル1〜N)ごとに、音声モデル1〜Nに対応して学
習の際の雑音環境の雑音モデル24(雑音モデル1〜
N)も用意し、音声モデル1〜Nのうちで、雑音推定部
21の出力の推定雑音22と各音声モデルに蓄えられた
雑音モデル24とを比較し、最も類似している雑音モデ
ルを持った音声モデルを選択する音声モデル選択部25
と、音声モデル選択部25によって選択された音声モデ
ルを用いてHMM認識処理を行う音声認識部26とを備
え、入力から雑音成分を推定し、複数の音声モデルのう
ち、その推定雑音に最も類似した雑音モデルを持つ音声
モデルをあらかじめ選択して、その音声モデルについて
のみ認識処理を行うようにしたので、第1の実施形態と
比べて、音声認識部26の処理の負荷が大幅に軽減さ
れ、リアルタイムの音声認識が可能になる。
As described above, the speech recognition system according to the second embodiment further includes, for each of the speech models 23 (speech models 1 to N), the noise at the time of learning corresponding to the speech models 1 to N. Environmental noise model 24 (noise models 1 to
N) is also prepared, and among the speech models 1 to N, the estimated noise 22 output from the noise estimating unit 21 is compared with the noise model 24 stored in each speech model, and the most similar noise model is obtained. Voice model selection unit 25 for selecting a voice model
And a speech recognition unit 26 that performs HMM recognition processing using the speech model selected by the speech model selection unit 25, estimates a noise component from an input, and is most similar to the estimated noise among a plurality of speech models. Since a speech model having the noise model obtained in advance is selected and recognition processing is performed only on the speech model, the processing load of the speech recognition unit 26 is significantly reduced as compared with the first embodiment. Real-time speech recognition becomes possible.

【0065】したがって、このような優れた特長を有す
る音声認識システムを、例えば音声による操作が可能な
カーナビゲーションに用いられる耐雑音音声認識システ
ムに適用すれば、この装置において認識率の大幅な向上
を図ることができる。
Therefore, if the speech recognition system having such excellent features is applied to, for example, a noise-tolerant speech recognition system used for car navigation which can be operated by voice, the recognition rate can be greatly improved in this device. Can be planned.

【0066】なお、上記各実施形態に係る音声認識シス
テム及び音声認識方法は、音声モデルを用いて音声認識
を行う音声認識システムには全て適用することができ、
各種端末に組み込まれる回路として実施することもでき
る。
The speech recognition system and the speech recognition method according to each of the above embodiments can be applied to any speech recognition system that performs speech recognition using a speech model.
The present invention can be implemented as a circuit incorporated in various terminals.

【0067】また、上記各実施形態では、複数の音声モ
デルが、HMM学習により作成された音声モデル、特
に、異なる雑音環境下で発声した音声データベースを基
にHMM学習により作成した雑音環境に対応した音声モ
デルであることが望ましいが、雑音の程度、種類等に応
じて複数の音声モデルを用いるものであればどのような
方法であってもよい。
Further, in each of the above embodiments, the plurality of speech models correspond to speech models created by HMM learning, in particular, noise environments created by HMM learning based on speech databases uttered under different noise environments. It is desirable to use a voice model, but any method may be used as long as a plurality of voice models are used according to the degree and type of noise.

【0068】さらに、上記各実施形態に係る音声認識シ
ステムを構成する各処理部や各種プロセスの数、種類接
続状態などは前述した各実施形態に限られない。
Further, the number of processing units and various processes constituting the speech recognition system according to each of the above embodiments, the type of connection, and the like are not limited to the above embodiments.

【0069】[0069]

【発明の効果】本発明に係る音声認識システム及び音声
認識方法では、異なる雑音環境に対応して用意された複
数の音声モデルと、各音声モデルを用いて音声認識処理
を行う音声認識手段と、音声認識手段により認識した認
識結果のうちの一つを選択する音声モデル選択手段とを
備えているので、雑音環境が様々に変化するフィールド
において、雑音環境が様々に変化してもそれに追随して
常に良好な認識率を上げることができる。
According to the speech recognition system and the speech recognition method of the present invention, a plurality of speech models prepared corresponding to different noise environments, speech recognition means for performing speech recognition processing using each speech model, Since it has a voice model selecting means for selecting one of the recognition results recognized by the voice recognizing means, in a field where the noise environment changes variously, even if the noise environment changes variously, it follows the noise environment. A good recognition rate can always be raised.

【0070】本発明に係る音声認識システム及び音声認
識方法では、異なる雑音環境に対応して用意された複数
の音声モデルと、認識時の雑音環境に応じて最適な音声
モデルを選択する音声モデル選択手段と、音声モデル選
択手段により選択された音声モデルを用いて音声認識処
理を行う音声認識手段とを備えているので、音声認識処
理の負荷を大幅に軽減しつつ認識率を上げることがで
き、リアルタイムの音声認識が可能になる。
In the speech recognition system and the speech recognition method according to the present invention, a plurality of speech models prepared corresponding to different noise environments and a speech model selection for selecting an optimal speech model according to the noise environment at the time of recognition. Means and voice recognition means for performing voice recognition processing using the voice model selected by the voice model selection means, it is possible to increase the recognition rate while significantly reducing the load of voice recognition processing, Real-time speech recognition becomes possible.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明を適用した第1の実施形態に係る音声認
識システムの構成及び処理を示すフローチャートであ
る。
FIG. 1 is a flowchart showing the configuration and processing of a speech recognition system according to a first embodiment to which the present invention has been applied.

【図2】本発明を適用した第2の実施形態に係る音声認
識システムの構成及び処理を示すフローチャートであ
る。
FIG. 2 is a flowchart showing the configuration and processing of a speech recognition system according to a second embodiment to which the present invention has been applied.

【図3】従来のHMMを用いた連続音声認識システムの
構成を示すブロック図である。
FIG. 3 is a block diagram showing a configuration of a conventional continuous speech recognition system using an HMM.

【図4】音声認識方法に用いられる単語ヒドン・マルコ
フ・モデルの構造を示す図である。
FIG. 4 is a diagram showing a structure of a word Hidden Markov Model used in a speech recognition method.

【符号の説明】[Explanation of symbols]

10 音声入力部、11 音声分析部、12,23 複
数の音声モデル(音声モデル1〜N)、13 音声認識
部(音声認識手段)、14 確率比較部(音声モデル選
択手段)、15 認識結果、21 雑音推定部(雑音推
定手段)、22推定雑音、24 雑音モデル、25 音
声モデル選択部(音声モデル選択手段)、26 音声認
識部、27 認識結果
Reference Signs List 10 voice input unit, 11 voice analysis unit, 12, 23 multiple voice models (voice models 1 to N), 13 voice recognition unit (voice recognition unit), 14 probability comparison unit (voice model selection unit), 15 recognition result, 21 noise estimation unit (noise estimation means), 22 estimated noise, 24 noise model, 25 speech model selection unit (speech model selection means), 26 speech recognition unit, 27 recognition result

Claims (13)

【特許請求の範囲】[Claims] 【請求項1】 音声モデルを用いて音声認識を行う音声
認識システムにおいて、 異なる雑音環境に対応して用意された複数の音声モデル
と、 認識時の雑音環境に応じて最適な前記音声モデルを選択
する音声モデル選択手段と、 前記音声モデル選択手段により選択された音声モデルを
用いて音声認識処理を行う音声認識手段とを備えたこと
を特徴とする音声認識システム。
1. A speech recognition system for performing speech recognition using a speech model, wherein a plurality of speech models prepared for different noise environments and an optimal speech model are selected according to the noise environment at the time of recognition. A voice model selecting means for performing a voice recognition process using the voice model selected by the voice model selecting means.
【請求項2】 音声モデルを用いて音声認識を行う音声
認識システムにおいて、 異なる雑音環境に対応して用意された複数の音声モデル
と、 各音声モデルを用いて音声認識処理を行う音声認識手段
と、 前記音声認識手段により認識した認識結果のうちの一つ
を選択する音声モデル選択手段とを備えたことを特徴と
する音声認識システム。
2. A speech recognition system for performing speech recognition using a speech model, comprising: a plurality of speech models prepared corresponding to different noise environments; and speech recognition means for performing speech recognition processing using each speech model. And a voice model selecting means for selecting one of the recognition results recognized by the voice recognizing means.
【請求項3】 前記音声認識処理は、ヒドン・マルコフ
・モデル(HMM)による音声認識処理であることを特
徴とする請求項1又は2の何れかに記載の音声認識シス
テム。
3. The speech recognition system according to claim 1, wherein the speech recognition process is a speech recognition process based on a Hidden Markov Model (HMM).
【請求項4】 前記複数の音声モデルは、システムが使
用されるフィールドにおいて想定される異なる雑音の程
度、種類等に応じて用意された複数の音声モデルである
ことを特徴とする請求項1又は2の何れかに記載の音声
認識システム。
4. The voice model according to claim 1, wherein the voice models are voice models prepared according to different noise levels and types assumed in a field where the system is used. 3. The speech recognition system according to any one of 2.
【請求項5】 前記複数の音声モデルは、HMM単語モ
デル又はHMM音韻モデルであることを特徴とする請求
項1、2又は4の何れかに記載の音声認識システム。
5. The speech recognition system according to claim 1, wherein the plurality of speech models are HMM word models or HMM phoneme models.
【請求項6】 前記複数の音声モデルは、 異なる雑音環境下で発声した音声データベースを基にH
MM学習により作成した雑音環境に対応した音声モデル
であることを特徴とする請求項1、2、4又は5の何れ
かに記載の音声認識システム。
6. The plurality of speech models are based on speech databases uttered under different noise environments.
The speech recognition system according to claim 1, wherein the speech model is a speech model corresponding to a noise environment created by MM learning.
【請求項7】 前記音声認識手段は、各音声モデルにつ
いて個別に音声認識処理を行い、 前記音声モデル選択手段は、前記音声認識処理におい
て、認識の確からしさが最も高いものを与えた音声モデ
ルを選択することを特徴とする請求項2記載の音声認識
システム。
7. The voice recognition means performs voice recognition processing individually for each voice model, and the voice model selection means selects a voice model given the highest probability of recognition in the voice recognition processing. 3. The speech recognition system according to claim 2, wherein said speech recognition system is selected.
【請求項8】 入力中に含まれる雑音を推定する雑音推
定手段を備え、 各音声モデルは対応する雑音モデルを含んでおり、 前記音声モデル選択手段は、前記雑音推定手段により推
定された推定雑音と各音声モデルの雑音モデルとを照合
し、最も類似した雑音モデルを持った音声モデルを選択
することを特徴とする請求項1記載の音声認識システ
ム。
8. A noise estimation unit for estimating noise included in the input, each speech model includes a corresponding noise model, and the speech model selection unit includes an estimated noise estimated by the noise estimation unit. 2. The speech recognition system according to claim 1, wherein the speech model is compared with a noise model of each speech model, and a speech model having the most similar noise model is selected.
【請求項9】 前記推定雑音と雑音モデルとの照合は、
雑音モデルと推定雑音との間でマッチング処理を行い、
該マッチング度を類似度の尺度とすることを特徴とする
請求項8記載の音声認識システム。
9. The collation between the estimated noise and the noise model is as follows:
Perform a matching process between the noise model and the estimated noise,
9. The speech recognition system according to claim 8, wherein the degree of matching is used as a measure of similarity.
【請求項10】 前記マッチング処理は、ビタビ照合で
あることを特徴とする請求項9記載の音声認識システ
ム。
10. The speech recognition system according to claim 9, wherein said matching processing is Viterbi matching.
【請求項11】 音声モデルを用いて音声認識を行う音
声認識方法において、 異なる雑音環境に対応して複数の音声モデルを用意し、 認識時の雑音環境に応じて最適な前記音声モデルを選択
し、 前記選択された音声モデルを用いて音声認識処理を行う
ことを特徴とする音声認識方法。
11. A speech recognition method for performing speech recognition using a speech model, comprising preparing a plurality of speech models corresponding to different noise environments, and selecting an optimal speech model according to the noise environment at the time of recognition. And performing a voice recognition process using the selected voice model.
【請求項12】 音声モデルを用いて音声認識を行う音
声認識方法において、 異なる雑音環境に対応して複数の音声モデルを用意し、 各音声モデルを用いて音声認識処理を行い、 認識した認識結果のうちの一つを選択することを特徴と
する音声認識方法。
12. A speech recognition method for performing speech recognition using a speech model, comprising: preparing a plurality of speech models corresponding to different noise environments; performing speech recognition processing using each speech model; A voice recognition method comprising selecting one of the following.
【請求項13】 入力中に含まれる雑音を推定し、 各音声モデルは対応する雑音モデルを含んでおり、 前記音声モデルの選択において、前記推定された推定雑
音と各音声モデルの雑音モデルとを照合し、最も類似し
た雑音モデルを持った音声モデルを選択することを特徴
とする請求項11記載の音声認識方法。
13. Estimating noise included in an input, wherein each speech model includes a corresponding noise model. In selecting the speech model, the estimated noise and the noise model of each speech model are combined. The speech recognition method according to claim 11, wherein the speech model having the most similar noise model is selected by collation.
JP10246768A 1998-09-01 1998-09-01 Voice recognizing system and its method Pending JP2000075889A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10246768A JP2000075889A (en) 1998-09-01 1998-09-01 Voice recognizing system and its method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10246768A JP2000075889A (en) 1998-09-01 1998-09-01 Voice recognizing system and its method

Publications (1)

Publication Number Publication Date
JP2000075889A true JP2000075889A (en) 2000-03-14

Family

ID=17153386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10246768A Pending JP2000075889A (en) 1998-09-01 1998-09-01 Voice recognizing system and its method

Country Status (1)

Country Link
JP (1) JP2000075889A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002123278A (en) * 2000-08-23 2002-04-26 Koninkl Philips Electronics Nv Method for controlling apparatus through speech signal particularly in automobile
JP2006510933A (en) * 2002-12-20 2006-03-30 インターナショナル・ビジネス・マシーンズ・コーポレーション Sensor-based speech recognition device selection, adaptation, and combination
JP2007025076A (en) * 2005-07-13 2007-02-01 Xanavi Informatics Corp On-vehicle voice recognition apparatus
US7209881B2 (en) 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
US7403896B2 (en) 2002-03-15 2008-07-22 International Business Machines Corporation Speech recognition system and program thereof
JP2015018015A (en) * 2013-07-08 2015-01-29 本田技研工業株式会社 Voice processing apparatus, voice processing method and voice processing program
JP2016006504A (en) * 2014-05-29 2016-01-14 日本電気株式会社 Voice data processor, voice data processing method and voice data processing program
JPWO2023053364A1 (en) * 2021-09-30 2023-04-06
WO2024029851A1 (en) * 2022-08-05 2024-02-08 삼성전자주식회사 Electronic device and speech recognition method

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002123278A (en) * 2000-08-23 2002-04-26 Koninkl Philips Electronics Nv Method for controlling apparatus through speech signal particularly in automobile
US7209881B2 (en) 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
US7403896B2 (en) 2002-03-15 2008-07-22 International Business Machines Corporation Speech recognition system and program thereof
US7660717B2 (en) 2002-03-15 2010-02-09 Nuance Communications, Inc. Speech recognition system and program thereof
JP2006510933A (en) * 2002-12-20 2006-03-30 インターナショナル・ビジネス・マシーンズ・コーポレーション Sensor-based speech recognition device selection, adaptation, and combination
JP2007025076A (en) * 2005-07-13 2007-02-01 Xanavi Informatics Corp On-vehicle voice recognition apparatus
JP2015018015A (en) * 2013-07-08 2015-01-29 本田技研工業株式会社 Voice processing apparatus, voice processing method and voice processing program
JP2016006504A (en) * 2014-05-29 2016-01-14 日本電気株式会社 Voice data processor, voice data processing method and voice data processing program
JPWO2023053364A1 (en) * 2021-09-30 2023-04-06
JP7395767B2 (en) 2021-09-30 2023-12-11 楽天グループ株式会社 Information processing device, information processing method, and information processing program
WO2024029851A1 (en) * 2022-08-05 2024-02-08 삼성전자주식회사 Electronic device and speech recognition method

Similar Documents

Publication Publication Date Title
EP1199708B1 (en) Noise robust pattern recognition
Tan et al. Low-complexity variable frame rate analysis for speech recognition and voice activity detection
EP1515305B1 (en) Noise adaption for speech recognition
US5459815A (en) Speech recognition method using time-frequency masking mechanism
EP1457968B1 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
JPH11511567A (en) Pattern recognition
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
EP1443495A1 (en) Method of speech recognition using hidden trajectory hidden markov models
KR101065188B1 (en) Apparatus and method for speaker adaptation by evolutional learning, and speech recognition system using thereof
US20030036902A1 (en) Method and apparatus for recognizing speech in a noisy environment
JP2000075889A (en) Voice recognizing system and its method
US5487129A (en) Speech pattern matching in non-white noise
JP2000194392A (en) Noise adaptive type voice recognition device and recording medium recording noise adaptive type voice recognition program
JP2000075888A (en) Learning method of hidden markov model and voice recognition system
JP3250604B2 (en) Voice recognition method and apparatus
JPH10133688A (en) Speech recognition device
JP2000075890A (en) Learning method of hidden markov model and voice recognition system
JP2000259198A (en) Device and method for recognizing pattern and providing medium
JP2002091480A (en) Acoustic model generator and voice recognition device
JP2001083978A (en) Speech recognition device
JPH0772899A (en) Device for voice recognition
JPH10149190A (en) Method and device for recognizing sound
JPH10232694A (en) Device and method for voice recognition
JP3900628B2 (en) Voice recognition device
JP3105708B2 (en) Voice recognition device

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040323

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041005