JP2002055691A - Voice-recognition method - Google Patents

Voice-recognition method

Info

Publication number
JP2002055691A
JP2002055691A JP2000240283A JP2000240283A JP2002055691A JP 2002055691 A JP2002055691 A JP 2002055691A JP 2000240283 A JP2000240283 A JP 2000240283A JP 2000240283 A JP2000240283 A JP 2000240283A JP 2002055691 A JP2002055691 A JP 2002055691A
Authority
JP
Japan
Prior art keywords
evaluation value
feature
template
section
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000240283A
Other languages
Japanese (ja)
Other versions
JP3605011B2 (en
Inventor
Kazuyoshi Okura
計美 大倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2000240283A priority Critical patent/JP3605011B2/en
Publication of JP2002055691A publication Critical patent/JP2002055691A/en
Application granted granted Critical
Publication of JP3605011B2 publication Critical patent/JP3605011B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a voice recognition method by which recognition accuracy is improved, when conducting voice recognition of a voice uttered in a environment in which noise exists. SOLUTION: The voice recognition method includes a first step for preparing noise characteristic from the noise section of inputted voice characteristic; a second step for calculating a first evaluation value, in a section where power is smaller than the prescribed threshold of the template, by comparing the voice characteristic of the section of the template with the inputted voice characteristic and for calculating a second evaluation value, by comparing the noise characteristic prepared in the first step with the inputted voice characteristic; and a third step for adopting an evaluation value, having a higher matching degree between the first evaluation value and the second evaluation value as the evaluation value of the section.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、音声認識方法に
関する。
[0001] The present invention relates to a speech recognition method.

【0002】[0002]

【従来の技術】音声認識においては、DPマッチングを
用いたもの、確率モデル(HMM; Hidden Markov Mode
l) を用いたもの等がある。DPマッチングを用いた単
語認識では、単語単位にテンプレートが作成されてい
る。HMMを用いた単語認識では、より小さな単位でテ
ンプレートが作成される。
2. Description of the Related Art In speech recognition, a method using DP matching, a probability model (HMM; Hidden Markov Mode
l) and others. In word recognition using DP matching, a template is created for each word. In word recognition using the HMM, a template is created in smaller units.

【0003】DPマッチングを用いた単語認識では、よ
く知られているように、入力音声とテンプレートのマッ
チング度を評価する評価値として、距離が用いられる。
距離が小さいほどマッチング度が高いと判定される。
In word recognition using DP matching, as is well known, distance is used as an evaluation value for evaluating the degree of matching between an input voice and a template.
The smaller the distance, the higher the matching degree is determined.

【0004】HMMを用いた単語認識では、よく知られ
ているように、入力音声とテンプレートのマッチング度
を評価する評価値として、尤度が用いられる。尤度が大
きいほどマッチング度が高いと判定される。
In the word recognition using the HMM, as is well known, likelihood is used as an evaluation value for evaluating a matching degree between an input voice and a template. It is determined that the matching degree is higher as the likelihood is larger.

【0005】ところで、雑音がある環境下で音声を発声
した場合、パワーの小さい子音等は、雑音によりその音
響特徴が汚されてしまい、テンプレートとのマッチング
の結果得られる尤度(HMMを用いた場合)や距離(D
Pマッチングを用いた場合)は信頼性が低くなってしま
う。また、テンプレート作成時の雑音パターンと認識時
の雑音パターンとが異なる場合、雑音区間における距離
や尤度は信頼性が低くなってしまう。
[0005] By the way, when a voice is uttered in an environment where noise is present, the acoustic characteristics of consonants and the like having low power are contaminated by noise, and the likelihood (HMM using a HMM) obtained as a result of matching with a template is obtained. Case) and distance (D
When P matching is used), the reliability is reduced. If the noise pattern at the time of template creation and the noise pattern at the time of recognition are different, the reliability and the distance and likelihood in the noise section will be low.

【0006】そこで、従来においては、実際の雑音環境
から無音モデルを学習して、テンプレートの音声区間以
外の部分に無音モデルを追加することにより、雑音区間
の認識精度を向上する手法が提案されている。しかしな
がら、この手法では、本来パワーが小さく、雑音に埋も
れてしまう音声区間の認識精度を向上させることはでき
ない。
Therefore, conventionally, there has been proposed a method of improving a recognition accuracy of a noise section by learning a silent model from an actual noise environment and adding a silent model to a portion other than a voice section of the template. I have. However, this method cannot improve the recognition accuracy of a voice section that is originally low in power and buried in noise.

【0007】[0007]

【発明が解決しようとする課題】この発明は、雑音があ
る環境下で発声された音声に対して音声認識を行なう場
合に、認識精度の向上化が図れる音声認識方法を提供す
ることを目的とする。
SUMMARY OF THE INVENTION It is an object of the present invention to provide a speech recognition method capable of improving recognition accuracy when speech recognition is performed on speech uttered in an environment having noise. I do.

【0008】[0008]

【課題を解決するための手段】この発明による第1の音
声認識方法は、入力音声特徴とテンプレートとのマッチ
ング度を評価値に基づいて判定することにより、最適な
標準パターンを選択する音声認識方法において、入力音
声特徴の雑音区間から雑音特徴を作成する第1ステッ
プ、テンプレートの所定の閾値よりパワーが小さい区間
においては、テンプレートの当該区間の音声特徴と入力
音声特徴とを比較することによって第1の評価値を算出
するとともに、第1ステップで作成された雑音特徴と入
力音声特徴とを比較することによって第2の評価値を算
出する第2ステップ、および第1の評価値と第2の評価
値のうち、マッチング度の高い方の評価値を、当該区間
に対する評価値として採用する第3ステップを備えてい
ることを特徴とする。
According to a first aspect of the present invention, there is provided a voice recognition method for selecting an optimal standard pattern by determining a matching degree between an input voice feature and a template based on an evaluation value. A first step of generating a noise feature from a noise section of the input speech feature, in a section having a power smaller than a predetermined threshold value of the template, comparing the speech feature of the template with the input speech feature in the first step by comparing A second step of calculating a second evaluation value by comparing the noise feature created in the first step with the input speech feature, and a first evaluation value and a second evaluation. And a third step of employing, as the evaluation value for the section, an evaluation value having a higher matching degree among the values.

【0009】この発明による第2の音声認識方法は、入
力音声特徴とテンプレートとのマッチング度を評価値に
基づいて判定することにより、最適な標準パターンを選
択する音声認識方法において、入力音声特徴の雑音区間
から雑音特徴を作成する第1ステップ、入力音声特徴の
所定の閾値よりパワーが小さい区間においては、テンプ
レートの当該区間の音声特徴と入力音声特徴とを比較す
ることによって第1の評価値を算出するとともに、第1
ステップで作成された雑音特徴と入力音声特徴とを比較
することによって第2の評価値を算出する第2ステッ
プ、および第1の評価値と第2の評価値のうち、マッチ
ング度の高い方の評価値を、当該区間に対する評価値と
して採用する第3ステップを備えていることを特徴とす
る。
A second speech recognition method according to the present invention is a speech recognition method for selecting an optimal standard pattern by determining a matching degree between an input speech feature and a template based on an evaluation value. A first step of generating a noise feature from a noise section, in a section having a power smaller than a predetermined threshold of an input speech feature, a first evaluation value is obtained by comparing the speech feature of the template with the input speech feature in the section. Calculation and the first
A second step of calculating a second evaluation value by comparing the noise feature created in the step with the input speech feature, and, of the first evaluation value and the second evaluation value, A third step of employing the evaluation value as the evaluation value for the section.

【0010】この発明による第3の音声認識方法は、入
力音声特徴とテンプレートとのマッチング度を評価値に
基づいて判定することにより、最適な標準パターンを選
択する音声認識方法において、入力音声特徴の雑音区間
から雑音特徴を作成する第1ステップ、テンプレートの
所定の閾値よりパワーが小さい区間であってかつ入力音
声特徴の所定の閾値よりパワーが小さい区間において
は、テンプレートの当該区間の音声特徴と入力音声特徴
とを比較することによって第1の評価値を算出するとと
もに、第1ステップで作成された雑音特徴と入力音声特
徴とを比較することによって第2の評価値を算出する第
2ステップ、および第1の評価値と第2の評価値のう
ち、マッチング度の高い方の評価値を、当該区間に対す
る評価値として採用する第3ステップを備えていること
を特徴とする。
A third speech recognition method according to the present invention is a speech recognition method for selecting an optimal standard pattern by determining a matching degree between an input speech feature and a template based on an evaluation value. A first step of creating a noise feature from a noise section, in a section in which the power is smaller than a predetermined threshold of the template and in a section in which the power is smaller than the predetermined threshold of the input speech feature, the speech feature and the input of the corresponding section of the template are input; A second step of calculating a first evaluation value by comparing the voice feature with the input feature, and calculating a second evaluation value by comparing the noise feature created in the first step with the input voice feature; and Of the first evaluation value and the second evaluation value, the evaluation value with the higher matching degree is adopted as the evaluation value for the section. Characterized in that it comprises a third step.

【0011】[0011]

【発明の実施の形態】以下、図面を参照して、この発明
の実施の形態について説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0012】〔1〕本発明の考え方についての説明 本発明の考え方について説明する。[1] Description of Concept of the Present Invention The concept of the present invention will be described.

【0013】図1(a)はテンプレートを示し、図1
(b)は入力音声特徴を示している。図1(a)におい
て、Thは、予め設定された評価区間決定用の閾値を示
している。また、図1(a)および図1(b)におい
て、区間A、A’は雑音区間を、区間B、B’は音声区
間を、区間C、C’は雑音区間を示している。
FIG. 1A shows a template.
(B) shows the input voice feature. In FIG. 1A, Th indicates a preset threshold for determining an evaluation section. In FIGS. 1A and 1B, sections A and A ′ indicate noise sections, sections B and B ′ indicate voice sections, and sections C and C ′ indicate noise sections.

【0014】以下、音声認識方法について説明する。Hereinafter, a speech recognition method will be described.

【0015】まず、入力音声特徴の雑音区間A’または
C’から、雑音特徴を作成する。
First, a noise feature is created from the noise section A 'or C' of the input speech feature.

【0016】テンプレートの閾値Thよりパワーが大き
い区間U1、U2については、テンプレートのかかる部
分の音声特徴と、入力音声特徴とを比較することによ
り、評価を行なう。つまり、評価値(尤度または距離)
を算出する。
In the sections U1 and U2 where the power is larger than the threshold value Th of the template, evaluation is performed by comparing the audio feature of the portion of the template with the input audio feature. In other words, the evaluation value (likelihood or distance)
Is calculated.

【0017】テンプレートの閾値Thよりパワーが小さ
い区間、A、D1、D2、D3、Cについては、2種類
の評価を行なう。第1は、テンプレートのかかる部分の
音声特徴と、入力音声特徴とを比較することにより、評
価を行なう。第2は、入力音声特徴の雑音区間A’また
はC’から作成された雑音特徴と、入力音声特徴とを比
較することにより、評価を行なう。そして、第1の評価
結果と第2の評価結果とを比較し、マッチング度の高い
方の評価値を当該区間の評価値として用いる。つまり、
評価値が尤度である場合には評価値が大きい方の尤度を
当該区間の評価値として用い、評価値が距離である場合
には評価値が小さい方の距離を当該区間の評価値として
用いる。
Two types of evaluation are performed for sections A, D1, D2, D3, and C whose power is smaller than the template threshold Th. First, evaluation is performed by comparing the audio features of such a portion of the template with the input audio features. Second, the evaluation is performed by comparing the noise feature created from the noise section A ′ or C ′ of the input speech feature with the input speech feature. Then, the first evaluation result is compared with the second evaluation result, and the evaluation value with the higher matching degree is used as the evaluation value of the section. That is,
If the evaluation value is likelihood, the larger likelihood is used as the evaluation value for the section. If the evaluation value is distance, the smaller distance is used as the evaluation value for the section. Used.

【0018】SNR値が小さいために音声の特徴である
スペクトルが雑音より完全にマスクされている区間で
は、テンプレートの特徴として雑音特徴を用いた場合の
マッチング度が高くなる。一方、本来の音声特徴が残っ
ている区間においては、テンプレートの特徴としてテン
プレートのかかる部分の音声特徴を用いた場合のマッチ
ング度が高くなる。したがって、上記実施の形態のよう
に、テンプレートの閾値Thよりパワーが小さい区間
A、D1、D2、D3、Cについて、2種類の評価を行
なって、マッチング度の高い方の評価値を用いることに
より、音声認識精度が向上する。
In a section where the spectrum, which is a feature of speech, is completely masked from noise because of a small SNR value, the matching degree when the noise feature is used as the template feature is high. On the other hand, in the section in which the original voice feature remains, the matching degree when the voice feature of such a portion of the template is used as the template feature is high. Therefore, as in the above-described embodiment, two types of evaluations are performed for sections A, D1, D2, D3, and C whose power is smaller than the threshold value Th of the template, and the evaluation value with the higher matching degree is used. And the accuracy of speech recognition is improved.

【0019】上記実施の形態では、テンプレートの閾値
Thよりパワーが小さい区間A、D1、D2、D3、C
について、2種類の評価が行なわれているが、入力音声
特徴の閾値Th’(図1(b)参照)よりパワーが小さ
い区間A’、D1’、D2’、D3’、C’について、
2種類の評価を行なうようにしてもよい。
In the above embodiment, the sections A, D1, D2, D3, C in which the power is smaller than the template threshold Th.
, Two types of evaluations are performed. For the sections A ′, D1 ′, D2 ′, D3 ′, and C ′ having powers smaller than the threshold value Th ′ (see FIG. 1B) of the input voice feature,
Two types of evaluation may be performed.

【0020】また、テンプレートの閾値Thよりパワー
が小さい区間であってかつ入力音声特徴の閾値Th’よ
りパワーが小さい区間について、2種類の評価を行なう
ようにしてもよい。
In addition, two types of evaluation may be performed for a section whose power is smaller than the threshold value Th of the template and whose power is smaller than the threshold value Th ′ of the input speech feature.

【0021】〔2〕HMMを用いた音声認識に適用した
場合の実施例の説明 HMMを用いた音声認識に適用した場合の実施例につい
て説明する。
[2] Description of Embodiment When Applied to Speech Recognition Using HMM An embodiment when applied to speech recognition using an HMM will be described.

【0022】図2(a)は”SAKAI”のテンプレー
トを示している。テンプレートは、HMM状態列と各状
態毎のパワーとからなる。
FIG. 2A shows a "SAKAI" template. The template includes an HMM state sequence and power for each state.

【0023】テンプレートの学習時は、図2(b)に示
すように、学習用音声データからテンプレートを学習す
る。この場合、単語単位に学習してもよいし、単語より
細かな単位、例えば音素単位に学習してもよい。また、
各状態毎のパワーは、他のパラメータ(例えばケプトラ
ム)と同様にEM推定によって求められる。あるいは、
各状態毎のパワーは、他のパラメータ(例えばケプトラ
ム)を用いて学習したモデルを用いて、学習用データと
学習によって得られたモデルとのアライメントをとり、
各状態と対応する学習データのアライメント部分から各
状態の平均パワーを算出することによって、求めるよう
にしてもよい。
When learning the template, the template is learned from the learning voice data as shown in FIG. 2 (b). In this case, the learning may be performed in units of words or in units smaller than words, for example, in units of phonemes. Also,
The power for each state is obtained by EM estimation, like other parameters (for example, ceptoram). Or,
The power for each state is obtained by aligning the learning data with the model obtained by learning using a model learned using other parameters (for example, ceptoram).
Alternatively, the average power of each state may be calculated from the alignment portion of the learning data corresponding to each state.

【0024】図3は、テンプレートと入力音声特徴を示
している。
FIG. 3 shows a template and input speech features.

【0025】まず、入力音声特徴の雑音区間から、雑音
特徴を作成する。
First, a noise feature is created from a noise section of an input speech feature.

【0026】テンプレート(図2)の閾値Thをこの例
では5とする。テンプレートのパワーが大きい部分、つ
まり、テンプレート中の”A”の部分については、テン
プレートのかかる部分の音声特徴と、入力音声特徴とを
比較することにより、尤度を算出する。
The threshold value Th of the template (FIG. 2) is set to 5 in this example. For a portion where the power of the template is large, that is, for the portion “A” in the template, the likelihood is calculated by comparing the audio feature of such portion of the template with the input audio feature.

【0027】テンプレート(図2)の閾値Thより平均
パワーが小さい部分、つまり、テンプレート中の”無
音”、”S”、”K”の部分については、2種類の評価
を行なう。第1は、テンプレートのかかる部分の音声特
徴と、入力音声特徴とを比較することにより、尤度を求
める。第2は、入力音声特徴の雑音区間から作成された
雑音特徴と、入力音声特徴とを比較することにより、尤
度を求める。そして、第1の評価結果と第2の評価結果
とを比較し、尤度の大きい方を当該区間の尤度として用
いる。
Two types of evaluations are performed on a portion of the template (FIG. 2) where the average power is smaller than the threshold Th, that is, a portion of "silent", "S", and "K" in the template. First, the likelihood is obtained by comparing the speech feature of such a portion of the template with the input speech feature. Second, the likelihood is obtained by comparing the noise feature created from the noise section of the input speech feature with the input speech feature. Then, the first evaluation result and the second evaluation result are compared, and the one with the larger likelihood is used as the likelihood of the section.

【0028】なお、入力音声特徴(図3)の閾値Th’
よりパワーが小さい部分”無音”、”S”、”A”、”
I”について、2種類の評価を行なうようにしてもよ
い。
The threshold value Th 'of the input voice feature (FIG. 3)
Parts with lower power "silence", "S", "A", "
Two types of evaluation may be performed on I ″.

【0029】また、テンプレート(図2)の閾値Thよ
りパワーが小さい部分であってかつ入力音声特徴(図
3)の閾値Th’よりパワーが小さい部分”無音”、”
S”について、2種類の評価を行なうようにしてもよ
い。
Also, the portions "silence", which are portions whose power is smaller than the threshold value Th of the template (FIG. 2) and whose power is smaller than the threshold value Th 'of the input voice feature (FIG. 3).
For S ″, two types of evaluations may be performed.

【0030】テンプレートの閾値Thよりパワーが小さ
い部分であってかつ入力音声特徴の閾値Th’よりパワ
ーが小さい部分について2種類の評価を行なう音声認識
方法(本発明方法という)と、従来の音声認識方法(従
来法という)とについて、次の比較実験を行なった。
A speech recognition method for performing two kinds of evaluations on a portion having a power smaller than the threshold value Th of the template and a power smaller than the threshold value Th ′ of the input speech feature (the method of the present invention), and a conventional speech recognition method The following comparative experiment was conducted with the method (referred to as a conventional method).

【0031】つまり、SN比5dBの雑音環境下におい
て、100個の地名の単語に対して男女計5名に発声を
行なわせ、これらの音声に対して本発明方法と従来法と
によって音声認識を行い、音声認識率を求めた。従来法
では認識率が94.8%であったのに対して、本発明方
法では認識率が96.0%に向上した。
That is, in a noise environment with an S / N ratio of 5 dB, a total of five men and women make utterances for 100 place name words, and these voices are subjected to voice recognition by the method of the present invention and the conventional method. And the speech recognition rate was determined. While the recognition rate was 94.8% in the conventional method, the recognition rate was improved to 96.0% in the method of the present invention.

【0032】[0032]

【発明の効果】この発明によれば、雑音がある環境下で
発声された音声に対して音声認識を行なう場合に、認識
精度の向上化が図れるようになる。
According to the present invention, when speech recognition is performed on a voice uttered in an environment with noise, recognition accuracy can be improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】テンプレートと入力音声特徴とを示す波形図で
ある。
FIG. 1 is a waveform diagram showing a template and input speech features.

【図2】HMMを用いた音声認識でのテンプレートを示
す模式図である。
FIG. 2 is a schematic diagram showing a template in speech recognition using an HMM.

【図3】HMMを用いた音声認識でのテンプレートと入
力音声特徴を示す模式図である。
FIG. 3 is a schematic diagram showing templates and input speech features in speech recognition using an HMM.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 入力音声特徴とテンプレートとのマッチ
ング度を評価値に基づいて判定することにより、最適な
標準パターンを選択する音声認識方法において、 入力音声特徴の雑音区間から雑音特徴を作成する第1ス
テップ、 テンプレートの所定の閾値よりパワーが小さい区間にお
いては、テンプレートの当該区間の音声特徴と入力音声
特徴とを比較することによって第1の評価値を算出する
とともに、第1ステップで作成された雑音特徴と入力音
声特徴とを比較することによって第2の評価値を算出す
る第2ステップ、および第1の評価値と第2の評価値の
うち、マッチング度の高い方の評価値を、当該区間に対
する評価値として採用する第3ステップ、 を備えていることを特徴とする音声認識方法。
1. A speech recognition method for selecting an optimal standard pattern by determining a matching degree between an input speech feature and a template based on an evaluation value, wherein a noise feature is created from a noise section of the input speech feature. In one step, in a section where the power is smaller than a predetermined threshold value of the template, the first evaluation value is calculated by comparing the speech feature of the template with the input speech feature and the first evaluation value is created in the first step. A second step of calculating a second evaluation value by comparing the noise feature and the input speech feature, and, among the first evaluation value and the second evaluation value, an evaluation value having a higher matching degree, And a third step of adopting as an evaluation value for the section.
【請求項2】 入力音声特徴とテンプレートとのマッチ
ング度を評価値に基づいて判定することにより、最適な
標準パターンを選択する音声認識方法において、 入力音声特徴の雑音区間から雑音特徴を作成する第1ス
テップ、 入力音声特徴の所定の閾値よりパワーが小さい区間にお
いては、テンプレートの当該区間の音声特徴と入力音声
特徴とを比較することによって第1の評価値を算出する
とともに、第1ステップで作成された雑音特徴と入力音
声特徴とを比較することによって第2の評価値を算出す
る第2ステップ、および第1の評価値と第2の評価値の
うち、マッチング度の高い方の評価値を、当該区間に対
する評価値として採用する第3ステップ、 を備えていることを特徴とする音声認識方法。
2. A speech recognition method for selecting an optimal standard pattern by determining a matching degree between an input speech feature and a template based on an evaluation value, wherein a noise feature is created from a noise section of the input speech feature. One step, in a section whose power is smaller than a predetermined threshold value of the input speech feature, calculate a first evaluation value by comparing the speech feature of the template with the input speech feature and create the first evaluation value. A second step of calculating a second evaluation value by comparing the obtained noise feature with the input voice feature, and, of the first evaluation value and the second evaluation value, And a third step of adopting as an evaluation value for the section.
【請求項3】 入力音声特徴とテンプレートとのマッチ
ング度を評価値に基づいて判定することにより、最適な
標準パターンを選択する音声認識方法において、 入力音声特徴の雑音区間から雑音特徴を作成する第1ス
テップ、 テンプレートの所定の閾値よりパワーが小さい区間であ
ってかつ入力音声特徴の所定の閾値よりパワーが小さい
区間においては、テンプレートの当該区間の音声特徴と
入力音声特徴とを比較することによって第1の評価値を
算出するとともに、第1ステップで作成された雑音特徴
と入力音声特徴とを比較することによって第2の評価値
を算出する第2ステップ、および第1の評価値と第2の
評価値のうち、マッチング度の高い方の評価値を、当該
区間に対する評価値として採用する第3ステップ、 を備えていることを特徴とする音声認識方法。
3. A speech recognition method for selecting an optimal standard pattern by determining a matching degree between an input speech feature and a template based on an evaluation value, wherein a noise feature is created from a noise section of the input speech feature. One step, in a section in which the power is smaller than the predetermined threshold of the template and in which the power is smaller than the predetermined threshold of the input voice feature, the voice feature of the template in the corresponding section is compared with the input voice feature by comparing the voice feature of the template with the input voice feature. A second step of calculating a second evaluation value by comparing the noise feature created in the first step with the input voice feature, and a second evaluation value of the first evaluation value and the second evaluation value. A third step of adopting, from among the evaluation values, the evaluation value with the higher matching degree as the evaluation value for the section. Characteristic speech recognition method.
JP2000240283A 2000-08-08 2000-08-08 Voice recognition method Expired - Fee Related JP3605011B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000240283A JP3605011B2 (en) 2000-08-08 2000-08-08 Voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000240283A JP3605011B2 (en) 2000-08-08 2000-08-08 Voice recognition method

Publications (2)

Publication Number Publication Date
JP2002055691A true JP2002055691A (en) 2002-02-20
JP3605011B2 JP3605011B2 (en) 2004-12-22

Family

ID=18731671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000240283A Expired - Fee Related JP3605011B2 (en) 2000-08-08 2000-08-08 Voice recognition method

Country Status (1)

Country Link
JP (1) JP3605011B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181458A (en) * 2003-12-16 2005-07-07 Canon Inc Device and method for signal detection, and device and method for noise tracking
WO2015059946A1 (en) * 2013-10-22 2015-04-30 日本電気株式会社 Speech detection device, speech detection method, and program
CN111429911A (en) * 2020-03-11 2020-07-17 云知声智能科技股份有限公司 Method and device for reducing power consumption of speech recognition engine in noise scene

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181458A (en) * 2003-12-16 2005-07-07 Canon Inc Device and method for signal detection, and device and method for noise tracking
JP4497911B2 (en) * 2003-12-16 2010-07-07 キヤノン株式会社 Signal detection apparatus and method, and program
WO2015059946A1 (en) * 2013-10-22 2015-04-30 日本電気株式会社 Speech detection device, speech detection method, and program
JPWO2015059946A1 (en) * 2013-10-22 2017-03-09 日本電気株式会社 Voice detection device, voice detection method, and program
CN111429911A (en) * 2020-03-11 2020-07-17 云知声智能科技股份有限公司 Method and device for reducing power consumption of speech recognition engine in noise scene

Also Published As

Publication number Publication date
JP3605011B2 (en) 2004-12-22

Similar Documents

Publication Publication Date Title
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
Bell et al. Prosodic adaptation in human-computer interaction
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
Bourlard et al. Optimizing recognition and rejection performance in wordspotting systems
JP4274962B2 (en) Speech recognition system
US7529665B2 (en) Two stage utterance verification device and method thereof in speech recognition system
KR20180087942A (en) Method and apparatus for speech recognition
US20110054892A1 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
US6931374B2 (en) Method of speech recognition using variational inference with switching state space models
JP2000029495A (en) Method and device for voice recognition using recognition techniques of a neural network and a markov model
WO2010128560A1 (en) Voice recognition device, voice recognition method, and voice recognition program
WO2018173270A1 (en) Voice recognition device and voice recognition method
JP2012503212A (en) Audio signal analysis method
Boite et al. A new approach towards keyword spotting.
JP3535292B2 (en) Speech recognition system
JP4960845B2 (en) Speech parameter learning device and method thereof, speech recognition device and speech recognition method using them, program and recording medium thereof
JP2002358097A (en) Voice recognition device
JP3605011B2 (en) Voice recognition method
JP3039634B2 (en) Voice recognition device
JP2004251998A (en) Conversation understanding device
JPS60114900A (en) Voice/voiceless discrimination
JP2006243213A (en) Language model conversion device, sound model conversion device, and computer program
Yoma et al. On including temporal constraints in Viterbi alignment for speech recognition in noise
JP2004133477A (en) Speech recognition method, computer program for speech recognition method, and storage medium with the computer program recorded thereon
KR20110071742A (en) Apparatus for utterance verification based on word specific confidence threshold

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040930

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081008

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091008

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees