JP2002215185A - Speech recognition system and voice recognition program - Google Patents

Speech recognition system and voice recognition program

Info

Publication number
JP2002215185A
JP2002215185A JP2001012358A JP2001012358A JP2002215185A JP 2002215185 A JP2002215185 A JP 2002215185A JP 2001012358 A JP2001012358 A JP 2001012358A JP 2001012358 A JP2001012358 A JP 2001012358A JP 2002215185 A JP2002215185 A JP 2002215185A
Authority
JP
Japan
Prior art keywords
evaluation distance
feature
correct
candidate
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001012358A
Other languages
Japanese (ja)
Inventor
Takeshi Hanazawa
健 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001012358A priority Critical patent/JP2002215185A/en
Publication of JP2002215185A publication Critical patent/JP2002215185A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a speech recognition system which outputs a highly accurate recognized result, and to provide a voice recognition program. SOLUTION: The speech recognition system is provided with a microphone 102 for performing a voice input, an acoustic analysis part 103 for analyzing an inputted voice 101 inputted from the microphone 102, a sound/language processing part 105 which applies sound processing and language processing to the featured values series 104 of the analyzed sound to produce an answer candidate, and a sounding verification part 108 for calculating the probability of the answer candidate.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声認識方式およ
び音声認識プログラムに関する。
[0001] The present invention relates to a speech recognition system and a speech recognition program.

【0002】[0002]

【従来の技術】音声認識方式において、音響モデルや言
語モデルの確からしさを利用して認識結果が妥当である
かどうかの判定を行う手法はいくつか提案されている。
例えば、モデルとのパターンマッチ結果を直接利用する
手法では、出力されるスコアがあらかじめ定められたあ
る閾値を越えているかどうかの判定を行い、越えている
もののみを結果とすることで精度の高い認識結果を得よ
うとする。また、出力されるスコアの継続時間長にも閾
値を設け、時間方向の情報も併用することでより精度の
高い認識結果を得ようとする手法もある。
2. Description of the Related Art In a speech recognition system, there have been proposed some methods for determining whether or not a recognition result is appropriate by using the certainty of an acoustic model or a language model.
For example, in the method of directly using the result of pattern matching with the model, it is determined whether or not the output score exceeds a predetermined threshold value, and only the one that exceeds the threshold value is determined as a result. Try to get recognition results. There is also a method in which a threshold value is set for the duration of the output score and information in the time direction is also used to obtain a more accurate recognition result.

【0003】[0003]

【発明が解決しようとする課題】従来の手法では、判定
基準となる閾値はあらかじめ定められた値であり、その
判定方法もまた時間方向の伸縮が考慮されておらず、精
度の限界があった。すなわち、入力される音声と標準パ
ターンとの評価距離は話者や環境によって値が変わるも
のであり、また同じ話者や環境であってもその値と継続
時間は一定しないため、ある一定の閾値では判定精度が
悪くなるという問題がある。また、全音素ネットなどを
用いて参照すべきモデルの尤度を動的に対応させられる
場合においても、その判定尺度はある一定の閾値を用い
るものであり同様な問題を有している。
In the conventional method, the threshold value used as a criterion is a predetermined value, and the criterion does not take account of expansion and contraction in the time direction, so that the accuracy is limited. . That is, the value of the evaluation distance between the input voice and the standard pattern changes depending on the speaker and the environment, and the value and the duration are not constant even for the same speaker or environment. In this case, there is a problem that the determination accuracy is deteriorated. Further, even when the likelihood of a model to be referred to can be dynamically corresponded using an all-phoneme net or the like, the judgment scale uses a certain fixed threshold value and has the same problem.

【0004】そこで本発明の目的は、高精度の認識結果
を出力することが可能な音声認識方式および音声認識プ
ログラムを実現することにある。
An object of the present invention is to realize a speech recognition method and a speech recognition program capable of outputting a highly accurate recognition result.

【0005】[0005]

【課題を解決するための手段】本発明の音声認識方式
は、認識結果候補のモデルとの評価距離を時系列として
算出し、その評価距離系列から時間変化特性をスコア変
化特徴量と呼ばれる特徴量として抽出し、そのスコア変
化特徴量を、あらかじめ保持している正解および誤りで
のスコア変化特徴量の標準パターンとのマッチングを行
い、誤りモデルに対して正解モデルが出力する尤度がど
れだけ高いかで確からしさを算出し、前記算出された確
からしさに基づいて認識結果候補を出力することで高精
度な認識結果を得る構成を有したことを特徴とする。
According to the speech recognition method of the present invention, an evaluation distance between a recognition result candidate and a model is calculated as a time series, and a time change characteristic is calculated from the evaluation distance series as a characteristic amount called a score change characteristic amount. Is extracted, and the score change feature amount is matched with the standard pattern of the score change feature amount in the correct answer and the error held in advance, and how high the likelihood that the correct answer model outputs to the error model is And outputting a recognition result candidate based on the calculated likelihood to obtain a highly accurate recognition result.

【0006】本発明の音声認識プログラムは、入力され
た音声を分析して特徴抽出を行う特徴抽出処理と、前記
特徴抽出処理により抽出された前記入力された音声の特
徴量とあらかじめ保持している音声の特徴量の標準パタ
ーンとのマッチングを行い、評価距離を算出する評価距
離算出処理と、前記評価距離算出処理により算出された
評価距離に基づいて正解候補を生成する候補生成処理
と、前記評価距離算出処理で行う評価距離の算出時に定
められた各フレーム毎の評価距離系列からその時間変化
特性をあらわすスコア変化特徴量を抽出する抽出処理
と、前記抽出処理で抽出した前記スコア変化特徴量と、
あらかじめ保持している正解例のスコア変化特徴量の標
準パターンとのマッチングを行い、正解候補の確からし
さを算出する確度算出処理と、前記確度算出処理で算出
した正解候補の確からしさに基づいて正解候補を出力す
る正解候補出力処理とをコンピュータに実行させること
を特徴とする。
A speech recognition program according to the present invention stores a feature extraction process of analyzing input speech and extracting features, and features of the input speech extracted by the feature extraction process. An evaluation distance calculation process of calculating an evaluation distance by performing matching with a standard pattern of a voice feature amount; a candidate generation process of generating a correct answer candidate based on the evaluation distance calculated by the evaluation distance calculation process; An extraction process of extracting a score change feature amount representing a time change characteristic from an evaluation distance sequence for each frame determined at the time of calculation of the evaluation distance performed in the distance calculation process, and the score change feature amount extracted in the extraction process. ,
The accuracy calculation process of matching the score change feature amount of the correct answer example held in advance with the standard pattern and calculating the certainty of the correct candidate, and the correct answer based on the certainty of the correct candidate calculated in the certainty calculation process And causing the computer to execute a correct answer candidate output process of outputting candidates.

【0007】本発明による音声認識方式および音声認識
プログラムは、判定基準となるスコア変化特徴量には評
価距離の時間変化が考慮されており、さらに正解モデル
と誤りモデルをそれぞれ作成することで評価距離の絶対
値の変動に頑健な判定基準を用いることが可能であり、
高精度の認識結果を出力するように作用する。
In the speech recognition method and the speech recognition program according to the present invention, the score change feature quantity serving as a criterion takes into account the time change of the evaluation distance, and furthermore, the correct distance model and the error model are created to create the evaluation distance. It is possible to use a criterion that is robust to the change in the absolute value of
It acts to output a highly accurate recognition result.

【0008】[0008]

【発明の実施の形態】先ず、本発明の音声認識方式の原
理について説明する。図4は評価距離であるスコア変化
特徴量の時間変化の一例を示す特性図である。図4に示
すように、評価距離の時間変化は正解の場合には符号4
01で示すようにほぼ平坦であるのに対し、誤りを含む
場合には音響的ミスマッチのために符号402で示すよ
うに誤り部分の評価距離であるスコアが局所的に落ち込
むことが考えられる。そこでこのような評価距離の時間
変化をモデル化することで、正解候補が本当に正解らし
いかの判定に利用できると考えられる。モデル化におい
ては、スコアの時系列を直接特徴量として用いるのでは
なく、時系列の概形をモデル化するためにバンドパスフ
ィルタなどを用いて抽出した特徴量を用いる。バンドパ
スフィルタを用いて特徴抽出を行うと周波数成分に分解
できるため、例えばパルス的なスコアの落ち込みとミス
マッチによるある一定区間以上のスコアの落ち込みとを
区別することが容易になる。この判定方法によれば、ス
コアの絶対値によらず、また時間方向の伸縮にも頑健な
正解候補の正誤判定が行える。なお、正解モデルのみモ
デル化しても、誤りモデルを併用しても原理的には実行
可能である。
DESCRIPTION OF THE PREFERRED EMBODIMENTS First, the principle of the speech recognition system of the present invention will be described. FIG. 4 is a characteristic diagram illustrating an example of a time change of the score change feature amount which is an evaluation distance. As shown in FIG. 4, the time change of the evaluation distance is 4 when the answer is correct.
In contrast to the case where the score is almost flat as indicated by 01, when an error is included, the score, which is the evaluation distance of the erroneous portion, may be locally reduced as indicated by reference numeral 402 due to an acoustic mismatch. Therefore, by modeling such a change in the evaluation distance with time, it can be considered that the correct answer candidate can be used to determine whether or not the answer candidate is really correct. In the modeling, a time series of scores is not directly used as a feature amount, but a feature amount extracted using a band-pass filter or the like is used to model an outline of the time series. When feature extraction is performed using a band-pass filter, the feature can be decomposed into frequency components. For example, it is easy to distinguish between a drop in a pulse-like score and a drop in a score over a certain section due to a mismatch. According to this determination method, correct / incorrect determination of a correct answer candidate that is robust not only in the absolute value of the score but also in expansion and contraction in the time direction can be performed. It should be noted that, in principle, even if only the correct answer model is modeled or an error model is used, it can be executed in principle.

【0009】次に、この発明の第1の実施の形態の音声
認識方式について図面を参照して詳細に説明する。図1
は、この第1の実施の形態の音声認識方式の全体構成を
示すブロック図である。この音声認識方式は、音声入力
を行うマイクロフォン(入力手段)102と、マイクロ
フォン102より入力された入力音声101を分析する
音響分析部(特徴抽出手段)103と、分析された音響
特徴量系列104を音響処理および言語処理して正解候
補を生成する音響・言語処理部(評価距離算出手段,候
補生成手段,正解候補出力手段)105と、正解候補の
確からしさを算出する発声確認部(確度算出手段,抽出
手段)108とからなる。また、音響・言語処理部10
5には音響モデル106である隠れマルコフモデル(H
MM)、言語モデル107である統計的言語モデル(N
グラム)、発声確認部108には判定用モデル109と
して混合ガウス分布モデル(GMM)があらかじめ用意
されている。
Next, a speech recognition system according to a first embodiment of the present invention will be described in detail with reference to the drawings. Figure 1
FIG. 1 is a block diagram showing an overall configuration of a voice recognition system according to the first embodiment. This voice recognition method includes a microphone (input means) 102 for performing voice input, an acoustic analysis unit (feature extraction means) 103 for analyzing an input voice 101 input from the microphone 102, and an analyzed acoustic feature amount sequence 104. A sound / language processing unit (evaluation distance calculating means, candidate generating means, correct candidate output means) 105 for generating correct candidates by performing sound processing and language processing, and an utterance checking unit (probability calculating means) for calculating the probability of a correct candidate , Extraction means) 108. The sound / language processing unit 10
5 includes a hidden Markov model (H
MM), a statistical language model (N
Gram), and the utterance confirmation unit 108 is provided with a Gaussian mixture model (GMM) as a judgment model 109 in advance.

【0010】次に、図1を用いて動作を説明する。マイ
クロフォン102より入力された入力音声101は、音
響分析部103によって音響特徴量系列104に分析さ
れる。音響・言語処理部105では、前記入力音声の特
徴量とあらかじめ保持している音声の特徴量の標準パタ
ーンとのマッチングを行い、評価距離を算出し、前記算
出された評価距離に基づいて正解候補を生成する。すな
わち、入力された音響特徴量系列104に対して、音響
モデル106の与える尤度と言語モデル107が与える
尤度の積が最大となるような単語系列の候補および、そ
れに続く尤度をもつ複数の候補を生成する。この各候補
が認識結果となるが、このとき発声確認部108におい
て判定用モデル109を用いてその正解候補の尤度時系
列111に対する確からしさの判定が行われ、その判定
結果のうち発声確認部108で受理された判定結果11
2に対応する候補のみが認識結果110となって出力さ
れる。
Next, the operation will be described with reference to FIG. An input voice 101 input from a microphone 102 is analyzed by a sound analysis unit 103 into a sound feature amount sequence 104. The sound / language processing unit 105 performs matching between the feature amount of the input voice and a standard pattern of the feature amount of the voice stored in advance, calculates an evaluation distance, and based on the calculated evaluation distance, a correct answer candidate. Generate That is, for the input acoustic feature amount sequence 104, a word sequence candidate that maximizes the product of the likelihood given by the acoustic model 106 and the likelihood given by the language model 107, and a plurality of candidates having the following likelihoods Generate candidates. Each candidate becomes a recognition result. At this time, the utterance confirmation unit 108 determines the likelihood of the correct answer candidate with respect to the likelihood time series 111 using the determination model 109, and among the determination results, Decision result 11 received at 108
Only the candidate corresponding to No. 2 is output as the recognition result 110.

【0011】次に、図2を用いて発声確認部108の詳
細な動作例を説明する。発声確認部108には、正解候
補の尤度時系列111が入力される。この正解候補の尤
度時系列はバンドパスフィルタ部201によってスコア
変化特徴量202に変換される。すなわち、音響・言語
処理部105で評価距離の算出時に定められた各フレー
ム毎の評価距離系列からその時間変化特性をあらわすス
コア変化特徴量を抽出する。そして、スコア変化特徴量
202に対し、判定部203において判定用モデル10
9との距離計算が行われる。
Next, a detailed operation example of the utterance confirmation unit 108 will be described with reference to FIG. The utterance confirmation unit 108 receives the likelihood time series 111 of the correct answer candidates. The likelihood time series of the correct answer candidates is converted into a score change feature amount 202 by the band pass filter unit 201. That is, the sound / language processing unit 105 extracts a score change feature amount representing the time change characteristic from the evaluation distance sequence for each frame determined when calculating the evaluation distance. Then, the judgment model 203 compares the score change feature amount 202 with the judgment model 10.
9 is calculated.

【0012】判定用モデル109には正解モデル、ある
いは正解モデルと誤りモデルがあり、正解モデルが出力
する尤度がどれだけ高いか、あるいは誤りモデルに対し
て正解モデルが出力する尤度がどれだけ高いかによっ
て、正解候補の判定を行う。判定結果112は音響・言
語処理部105に戻され、受理であれば対応する正解候
補が出力される。棄却であれば次候補の処理を行う。
The judgment model 109 includes a correct model, or a correct model and an error model. How high the likelihood that the correct model outputs is, or how much the likelihood that the correct model outputs with respect to the error model Whether the answer is high or not is determined. The determination result 112 is returned to the sound / language processing unit 105, and if accepted, the corresponding correct answer candidate is output. If rejected, the next candidate is processed.

【0013】図3は、図1に示す発声確認部108にお
ける判定処理動作を示すフローチャートである。音響・
言語処理部105から正解候補の尤度時系列111を受
け取り(ステップS301)、その尤度の時間変化をス
コア変化特徴量として抽出し(ステップS302)、抽
出されたスコア変化特徴量に対して、あらかじめ用意さ
れている判定用モデルによる判定を行い(ステップS3
03)、前記判定の結果、棄却されれば(ステップS3
04)、次の処理に移りステップS301以下の処理を
次候補に対し行う。一方、ステップS303における判
定の結果、受理されれば判定結果112を出力して終了
する。
FIG. 3 is a flow chart showing the determination processing operation in the utterance confirmation unit 108 shown in FIG. acoustic·
The likelihood time series 111 of the correct answer candidate is received from the language processing unit 105 (step S301), and the time change of the likelihood is extracted as a score change feature amount (step S302). A determination is made using a determination model prepared in advance (step S3
03), if the result of the determination is rejection (step S3)
04) Then, the processing proceeds to the next processing, and the processing from step S301 is performed on the next candidate. On the other hand, if the result of the determination in step S303 is accepted, the determination result 112 is output, and the process ends.

【0014】なお、以上説明した音響分析部103、音
響・言語処理部105,発声確認部112は、入力され
た音声を分析して特徴抽出を行う特徴抽出処理と、前記
特徴抽出処理により抽出された前記入力された音声の特
徴量とあらかじめ保持している音声の特徴量の標準パタ
ーンとのマッチングを行い、評価距離を算出する評価距
離算出処理と、前記評価距離算出処理により算出された
評価距離に基づいて正解候補を生成する候補生成処理
と、前記評価距離算出処理で行う評価距離の算出時に定
められた各フレーム毎の評価距離系列からその時間変化
特性をあらわすスコア変化特徴量を抽出する抽出処理
と、前記抽出処理で抽出した前記スコア変化特徴量と、
あらかじめ保持している正解例のスコア変化特徴量の標
準パターンとのマッチングを行い、正解候補の確からし
さを算出する確度算出処理と、前記確度算出処理で算出
した正解候補の確からしさに基づいて正解候補を出力す
る正解候補出力処理とをコンピュータに実行させるため
の音声認識プログラムとしてソフトウェア的に実現でき
る。
The above-described sound analysis unit 103, sound / language processing unit 105, and utterance confirmation unit 112 analyze the input speech and perform feature extraction, and the feature extraction process extracts the features. An evaluation distance calculation process of calculating the evaluation distance by performing matching between the feature amount of the input voice and a standard pattern of the feature amount of the voice held in advance, and an evaluation distance calculated by the evaluation distance calculation process. Candidate generation processing for generating a correct answer candidate based on the above, and extraction for extracting a score change feature amount representing a time change characteristic from an evaluation distance sequence for each frame determined at the time of evaluation distance calculation performed in the evaluation distance calculation processing Processing, the score change feature amount extracted in the extraction processing,
The accuracy calculation process of matching the score change feature amount of the correct answer example held in advance with the standard pattern and calculating the certainty of the correct candidate, and the correct answer based on the certainty of the correct candidate calculated in the certainty calculation process This can be realized as software as a speech recognition program for causing a computer to execute a correct answer candidate output process of outputting candidates.

【0015】以上のように、この第1の実施の形態によ
れば、正解候補の尤度時系列111に対する確からしさ
の判定を行い、その判定結果112が受理となったもの
のみが認識結果110となって出力されるため、認識結
果の出力について精度を向上できる音声認識方式および
音声認識プログラムを提供できる効果がある。
As described above, according to the first embodiment, the likelihood is determined for the likelihood time series 111 of the correct answer candidates, and only those for which the determination result 112 is accepted are the recognition results 110. Therefore, there is an effect that a voice recognition method and a voice recognition program which can improve the accuracy of the output of the recognition result can be provided.

【0016】次に、本発明の第2の実施の形態について
説明する。この第2の実施の形態では、図4におけるス
コアとしてその時刻での音響モデルの出力尤度の最大値
を用いて正規化した値を用いることで、音響モデルの出
力尤度の絶対値に左右されにくい頑健な判定基準を利用
することが出来る。
Next, a second embodiment of the present invention will be described. In the second embodiment, the absolute value of the output likelihood of the acoustic model is controlled by using the value normalized using the maximum value of the output likelihood of the acoustic model at that time as the score in FIG. It is possible to use a robust determination criterion that is difficult to be performed.

【0017】次に、本発明の第3の実施の形態について
説明する。この第3の実施の形態では、図4におけるス
コアとして音響モデルの出力尤度とNグラム言語モデル
のスコアを併用する。具体的には、音響モデルの出力尤
度と、Nグラム言語モデルスコアをフレーム単位に分割
・平均化した値を、各フレーム毎に積算してスコアとす
る。この第3の実施の形態では、言語モデルスコアも併
用することで、より高精度な判定基準を用いることが出
来る。
Next, a third embodiment of the present invention will be described. In the third embodiment, the output likelihood of the acoustic model and the score of the N-gram language model are used together as the score in FIG. Specifically, the output likelihood of the acoustic model and the value obtained by dividing and averaging the N-gram language model score for each frame are integrated for each frame to obtain a score. In the third embodiment, a more accurate judgment criterion can be used by using the language model score together.

【0018】[0018]

【発明の効果】本発明によれば、正解候補の確からしさ
の判定処理を行う結果、応用システムにとって望ましく
ない候補、または望ましくない部分を含む候補を棄却で
きるため、高精度な認識結果の出力が可能になる効果が
ある。
According to the present invention, as a result of the process of determining the likelihood of a correct answer candidate, a candidate that is not desirable for the application system or a candidate containing an undesired part can be rejected. There is an effect that becomes possible.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明における第1の実施の形態による音声認
識方式の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a voice recognition system according to a first embodiment of the present invention.

【図2】本発明における第1の実施の形態による音声認
識方式の発声確認部の詳細な構成を示すブロック図であ
る。
FIG. 2 is a block diagram illustrating a detailed configuration of an utterance confirmation unit of the voice recognition system according to the first embodiment of the present invention.

【図3】本発明における第1の実施の形態による音声認
識方式の発声確認部における判定処理動作を示すフロー
チャートである。
FIG. 3 is a flowchart showing a determination processing operation in an utterance confirmation unit of the voice recognition system according to the first embodiment of the present invention.

【図4】本発明における第1の実施の形態による音声認
識方式の評価距離であるスコア変化特徴量の時間変化の
一例を示す特性図である。
FIG. 4 is a characteristic diagram illustrating an example of a time change of a score change feature amount which is an evaluation distance of the voice recognition method according to the first embodiment of the present invention.

【符号の説明】[Explanation of symbols]

102……マイクロフォン(入力手段)、103……音
響分析部(特徴抽出手段)、104……音響特徴量系
列、105……音響・言語処理部(評価距離算出手段,
候補生成手段,正解候補出力手段)、108……発声確
認部(確度算出手段,抽出手段)。
Reference numeral 102: microphone (input means), 103: sound analysis unit (feature extraction means), 104: sound feature amount sequence, 105: sound / language processing unit (evaluation distance calculation means,
Candidate generating means, correct answer candidate outputting means),... Utterance confirmation section (probability calculating means, extracting means).

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 音声を入力するための入力手段と、 前記入力手段により入力された音声を分析して特徴抽出
を行う特徴抽出手段と、 前記特徴抽出手段により抽出された前記入力された音声
の特徴量とあらかじめ保持している音声の特徴量の標準
パターンとのマッチングを行い、評価距離を算出する評
価距離算出手段と、 前記評価距離算出手段により算出された評価距離に基づ
いて正解候補を生成する候補生成手段と、 前記評価距離算出手段が行う評価距離の算出時に定めら
れた各フレーム毎の評価距離系列からその時間変化特性
をあらわすスコア変化特徴量を抽出する抽出手段と、 前記抽出手段が抽出した前記スコア変化特徴量と、あら
かじめ保持している正解例のスコア変化特徴量の標準パ
ターンとのマッチングを行い、正解候補の確からしさを
算出する確度算出手段と、 前記確度算出手段が算出した正解候補の確からしさに基
づいて正解候補を出力する正解候補出力手段と、 を備えたことを特徴とした音声認識方式。
1. An input unit for inputting a voice, a feature extracting unit for analyzing a voice input by the input unit and extracting a feature, and a feature of the input voice extracted by the feature extracting unit An evaluation distance calculation unit that performs matching between the feature amount and a standard pattern of the feature amount of the voice held in advance, and calculates an evaluation distance; and generates a correct answer candidate based on the evaluation distance calculated by the evaluation distance calculation unit. Candidate generating means, and extracting means for extracting, from the evaluation distance sequence for each frame determined at the time of calculating the evaluation distance performed by the evaluation distance calculating means, a score change feature representing the time change characteristic thereof; Matching of the extracted score change feature quantity with the standard pattern of the score change feature quantity of the correct answer example held in advance is performed, and the correct answer candidate is confirmed. And probability calculating means for calculating and of speech recognition system in which the correct candidate output means, and comprising the outputting the correct candidates based on likelihood of correct candidates the probability calculating means is calculated.
【請求項2】 前記マッチング用の標準パターンとし
て、正解例だけでなく誤り例のスコア変化特徴量も併用
することを特徴とした請求項1記載の音声認識方式。
2. The speech recognition method according to claim 1, wherein not only the correct answer example but also the score change feature amount of the error example are used together as the standard pattern for matching.
【請求項3】 前記評価距離の時間変化の特徴量とし
て、発話全体での評価距離の時間変化を帯域フィルタ群
を利用して分析し、特徴量とすることを特徴とした請求
項1または2記載の音声認識方式。
3. The method according to claim 1, wherein the temporal change in the evaluation distance over the entire utterance is analyzed using a band-pass filter group, and the characteristic amount is used as the characteristic amount of the temporal change in the evaluation distance. The described speech recognition method.
【請求項4】 前記評価距離として、その時刻での音響
モデルの出力尤度の最大値を用いて正規化した値を用い
ることを特徴とした請求項1または2記載の音声認識方
式。
4. The speech recognition method according to claim 1, wherein a value normalized using a maximum value of the output likelihood of the acoustic model at that time is used as the evaluation distance.
【請求項5】 前記評価距離算出手段において、評価距
離として音響モデルの出力尤度とNグラム言語モデルの
スコアを併用することを特徴とした請求項1または2記
載の音声認識方式。
5. The speech recognition method according to claim 1, wherein said evaluation distance calculating means uses an output likelihood of an acoustic model and a score of an N-gram language model as an evaluation distance.
【請求項6】 入力された音声を分析して特徴抽出を行
う特徴抽出処理と、 前記特徴抽出処理により抽出された前記入力された音声
の特徴量とあらかじめ保持している音声の特徴量の標準
パターンとのマッチングを行い、評価距離を算出する評
価距離算出処理と、 前記評価距離算出処理により算出された評価距離に基づ
いて正解候補を生成する候補生成処理と、 前記評価距離算出処理で行う評価距離の算出時に定めら
れた各フレーム毎の評価距離系列からその時間変化特性
をあらわすスコア変化特徴量を抽出する抽出処理と、 前記抽出処理で抽出した前記スコア変化特徴量と、あら
かじめ保持している正解例のスコア変化特徴量の標準パ
ターンとのマッチングを行い、正解候補の確からしさを
算出する確度算出処理と、 前記確度算出処理で算出した正解候補の確からしさに基
づいて正解候補を出力する正解候補出力処理と、 をコンピュータに実行させるための音声認識プログラ
ム。
6. A feature extraction process for analyzing an input voice to extract features, and a standard of a feature value of the input voice extracted by the feature extraction process and a feature value of a voice stored in advance. An evaluation distance calculation process of calculating an evaluation distance by performing matching with a pattern; a candidate generation process of generating a correct answer candidate based on the evaluation distance calculated by the evaluation distance calculation process; and an evaluation performed by the evaluation distance calculation process. An extraction process of extracting a score change feature representing a time change characteristic from an evaluation distance sequence for each frame determined at the time of calculating the distance, and the score change feature extracted in the extraction process are stored in advance. The accuracy calculation process of matching the score change feature amount of the correct answer example with the standard pattern and calculating the likelihood of the correct answer candidate, and the accuracy calculation process Speech recognition program for executing a correct candidate output process of outputting the correct candidates based on likelihood of correct candidates out, to a computer.
JP2001012358A 2001-01-19 2001-01-19 Speech recognition system and voice recognition program Pending JP2002215185A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001012358A JP2002215185A (en) 2001-01-19 2001-01-19 Speech recognition system and voice recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001012358A JP2002215185A (en) 2001-01-19 2001-01-19 Speech recognition system and voice recognition program

Publications (1)

Publication Number Publication Date
JP2002215185A true JP2002215185A (en) 2002-07-31

Family

ID=18879375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001012358A Pending JP2002215185A (en) 2001-01-19 2001-01-19 Speech recognition system and voice recognition program

Country Status (1)

Country Link
JP (1) JP2002215185A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008292789A (en) * 2007-05-25 2008-12-04 Nippon Telegr & Teleph Corp <Ntt> Label error candidate extraction device of learning data, its method and program, and its recording medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008292789A (en) * 2007-05-25 2008-12-04 Nippon Telegr & Teleph Corp <Ntt> Label error candidate extraction device of learning data, its method and program, and its recording medium

Similar Documents

Publication Publication Date Title
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
US8818813B2 (en) Methods and system for grammar fitness evaluation as speech recognition error predictor
US20020173953A1 (en) Method and apparatus for removing noise from feature vectors
JP5200712B2 (en) Speech recognition apparatus, speech recognition method, and computer program
JP3834169B2 (en) Continuous speech recognition apparatus and recording medium
JP4515054B2 (en) Method for speech recognition and method for decoding speech signals
JP6464005B2 (en) Noise suppression speech recognition apparatus and program thereof
WO2018051945A1 (en) Speech processing device, speech processing method, and recording medium
KR20040088368A (en) Method of speech recognition using variational inference with switching state space models
JP6276513B2 (en) Speech recognition apparatus and speech recognition program
JP3403838B2 (en) Phrase boundary probability calculator and phrase boundary probability continuous speech recognizer
JP3039634B2 (en) Voice recognition device
JP2000250593A (en) Device and method for speaker recognition
JP2002215185A (en) Speech recognition system and voice recognition program
JPH1083195A (en) Input language recognition device and input language recognizing method
JPH06266386A (en) Word spotting method
JP5344396B2 (en) Language learning device, language learning program, and language learning method
JPH11249688A (en) Device and method for recognizing voice
JP2003271185A (en) Device and method for preparing information for voice recognition, device and method for recognizing voice, information preparation program for voice recognition, recording medium recorded with the program, voice recognition program and recording medium recorded with the program
JP4297349B2 (en) Speech recognition system
JPH0777998A (en) Successive word speech recognition device
JP3011421B2 (en) Voice recognition device
JPH0283595A (en) Speech recognizing method
JPH08314490A (en) Word spotting type method and device for recognizing voice
JP2004309654A (en) Speech recognition apparatus