JP3819896B2 - Speech recognition method, apparatus for implementing this method, program, and recording medium - Google Patents

Speech recognition method, apparatus for implementing this method, program, and recording medium Download PDF

Info

Publication number
JP3819896B2
JP3819896B2 JP2003384627A JP2003384627A JP3819896B2 JP 3819896 B2 JP3819896 B2 JP 3819896B2 JP 2003384627 A JP2003384627 A JP 2003384627A JP 2003384627 A JP2003384627 A JP 2003384627A JP 3819896 B2 JP3819896 B2 JP 3819896B2
Authority
JP
Japan
Prior art keywords
recognition result
word
score
result candidate
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003384627A
Other languages
Japanese (ja)
Other versions
JP2005148342A (en
Inventor
克年 大附
貴明 堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003384627A priority Critical patent/JP3819896B2/en
Publication of JP2005148342A publication Critical patent/JP2005148342A/en
Application granted granted Critical
Publication of JP3819896B2 publication Critical patent/JP3819896B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

この発明は、音声認識方法、この方法を実施する装置、プログラムおよび記録媒体に関し、特に、入力音声信号に対する音声認識処理により得られる認識結果に付随して、認識結果の信頼度を出力する音声認識方法、この方法を実施する装置、プログラムおよび記録媒体に関する。   The present invention relates to a speech recognition method, an apparatus for implementing the method, a program, and a recording medium, and more particularly, speech recognition that outputs a reliability of a recognition result accompanying a recognition result obtained by speech recognition processing on an input speech signal. The present invention relates to a method, an apparatus for implementing the method, a program, and a recording medium.

音声認識においては、一般に、入力音声を分析して得られる音声特徴パラメータ系列と音声をモデル化した音響モデルとの間の尤度を計算し、認識すべき単語の集合である語彙、単語の接続のし易さ、規則を表す言語モデルという言語的制約の中で、尤度の最も高い候補を認識結果として出力する。しかし、入力音声の発声が曖昧であったり、音声に雑音が重畳していたり、また、音声以外の音響信号が入力された場合は、尤度の最も高い候補であっても誤った認識結果を出力する可能性が高くなる。更に、入力音声が未登録語である場合は正しい認識結果を出力することができない。   In speech recognition, in general, the likelihood between a speech feature parameter sequence obtained by analyzing input speech and an acoustic model that models speech is calculated, and a vocabulary or word connection that is a set of words to be recognized. The candidate with the highest likelihood is output as a recognition result within the linguistic constraint of a language model representing ease of operation and rules. However, if the utterance of the input speech is ambiguous, noise is superimposed on the speech, or an acoustic signal other than speech is input, an erroneous recognition result may be obtained even for the highest likelihood candidate. The possibility of output increases. Furthermore, when the input speech is an unregistered word, a correct recognition result cannot be output.

以上の問題に対して、音声認識結果に信頼度を付与することにより、信頼度が高い場合はこの音声認識結果を受理し、信頼度が低い場合はこの音声認識結果を棄却し、或いは発声者に対して結果を確認したりすることができるに到り、音声認識を採用する種々の装置において音声認識誤りに起因する発声者の想定しない動作を抑制することができる。
ここで、音声認識結果に信頼度を付与する方法として、対象カテゴリと非対象カテゴリ(対立モデル)からそれぞれ得られる確率の差を用いて得られる確率を認識結果の信頼度とする方法が開示されている(特許文献1 参照)。そして、単語グラフ或いは上位N位までの単語或いは単語列であるNベスト候補における単語の事後確率に基づいて認識結果の信頼度を求める方法が開示されている(非特許文献1 参照)。
特開平11−85188号 公報 Frank Wessel, Ralf Schluter, KIaus Macherey and Hermann Ney,“Confidence Measures for Large Vocabulary Continuous Speech Recognition”、IEEE Transactions on Speech and Audio Processing, Vol.9, No.3,March 2001.
For the above problems, by giving reliability to the speech recognition result, if the reliability is high, the speech recognition result is accepted, and if the reliability is low, the speech recognition result is rejected, or the speaker As a result, it is possible to suppress an unexpected operation of a speaker due to a voice recognition error in various devices that employ voice recognition.
Here, as a method of giving reliability to the speech recognition result, a method is disclosed in which the probability obtained by using the difference between the probabilities obtained from the target category and the non-target category (conflict model) is used as the reliability of the recognition result. (See Patent Document 1). And the method of calculating | requiring the reliability of a recognition result based on the posterior probability of the word in the N best candidate which is a word graph or a word to a top N rank, or a word string is disclosed (refer nonpatent literature 1).
JP-A-11-85188 Frank Wessel, Ralf Schluter, KIaus Macherey and Hermann Ney, “Confidence Measures for Large Vocabulary Continuous Speech Recognition”, IEEE Transactions on Speech and Audio Processing, Vol. 9, No. 3, March 2001.

しかし、特許文献1に記載される方法は、対象カテゴリのモデルと非対象カテゴリのモデルとそれぞれについて認識処理を行う必要があるので、通常の認識処理と比較して必要な計算量が多くなるという問題点があった。
また、非特許文献1に記載される方法は、単語の事後確率を求めるに際して、認識結果の中間的表現である単語グラフ(単語ラティス)を求める必要があり、第1パスで粗い探索をしてから第2パスで詳細な探索をする2パス探索においては、第1パスの出力である単語グラフを用いるか、第2パスで単語グラフを生成しなければならない。しかし、第1パスの出力である単語グラフは粗い探索の結果であるので精度が悪く、従って、そこから求められる信頼度の精度も悪くなるという問題点があった。また、第2パスで単語グラフを生成すると最終的なNベスト候補を出力するために第3パスを実行しなければならず、必要な処理量が多くなるという問題点があった。
However, since the method described in Patent Document 1 needs to perform recognition processing for each of the target category model and the non-target category model, it requires a larger amount of calculation than the normal recognition processing. There was a problem.
Further, in the method described in Non-Patent Document 1, it is necessary to obtain a word graph (word lattice) that is an intermediate expression of a recognition result when obtaining a posterior probability of a word. In the 2-pass search in which the detailed search is performed in the second pass, the word graph that is the output of the first pass must be used, or the word graph must be generated in the second pass. However, the word graph that is the output of the first pass is a result of a rough search, so the accuracy is low, and therefore the accuracy of the reliability obtained therefrom is also poor. Further, when the word graph is generated in the second pass, the third pass has to be executed in order to output the final N best candidate, and there is a problem that a necessary processing amount increases.

非特許文献1に記載されるNベスト候補を用いた単語の事後確率を求める方法は、得られたNベスト候補に対して動的計画法を用いてアライメントをとる必要があるので、やはり必要な計算量が多くなるという問題点があった。
この発明は、音声認識結果として得られたNベスト候補において、1位の単語と1位の単語と異なる単語の内でスコアの最も高い単語との間の、音響分析フレーム当たりのスコア差を求め、そのスコア差を連続するフレーム区間において正規化する構成を採用して、通常の認識処理と同程度の計算量で音声認識結果に対する精度の高い信頼度を求めることができる音声認識方法、この方法を実施する装置、プログラムおよび記録媒体を提供するものである。
The method for obtaining the posterior probabilities of words using the N best candidates described in Non-Patent Document 1 is necessary because the obtained N best candidates need to be aligned using dynamic programming. There was a problem that the amount of calculation increased.
The present invention obtains a score difference per acoustic analysis frame between a first word and a word having the highest score among words different from the first word in the N best candidates obtained as a speech recognition result. , A speech recognition method that adopts a configuration that normalizes the score difference in successive frame sections, and can obtain a highly reliable reliability with respect to a speech recognition result with the same amount of calculation as a normal recognition process, and this method The present invention provides a device, a program, and a recording medium for performing the above.

請求項1:入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、スコアの高い上位N位までの単語列であるNベスト認識結果候補中の最も高いスコアを示す第1位の認識結果候補と共にその候補中の単語の信頼度を出力する音声認識方法において、第1位の認識結果候補中の単語を構成する各フレームについて、第2位以下の認識結果候補の中に第1位の認識結果候補と単語の異なるものがある場合、第2位以下の認識結果候補中の最も高いスコアと第1位の認識結果候補のスコアとの差をスコア差として求め、単語の異なるものが無い場合、予め設定した値をスコア差として求めるステップと、単語を構成する全フレームのスコア差の合計を求めて、これをその単語を構成するフレーム数で正規化したものを第1位の認識結果候補中の単語に対する信頼度スコアとして出力するステップとを有する音声認識方法を構成した。 Claim 1: An input speech signal is converted into a digital signal, an acoustic feature parameter is extracted from the digital signal, and the extracted acoustic feature parameter is linguistically subject to given linguistic constraints. Calculate the score based on the probability output by the probability model that expresses the characteristics of each category of the unit, and show the highest score among the N best recognition result candidates that are word strings up to the top N ranking with the highest score In the speech recognition method for outputting the recognition result candidate and the reliability of the word in the candidate , the first recognition result candidate among the second and lower recognition result candidates for each frame constituting the word in the first recognition result candidate. If there is a different word from the recognition result candidate of the rank, the difference between the highest score among the recognition result candidates of the second rank and lower and the score of the first recognition result candidate is obtained as a score difference, If there is no such thing, a step of obtaining a preset value as a score difference, a sum of score differences of all frames constituting the word, and normalizing this by the number of frames constituting the word are the first. to constitute a speech recognition method for chromatic and outputting a confidence score for the word in place of the recognition result candidates.

そして、請求項2:第1位の認識結果候補を構成する単語の信頼度スコアの合計を第1位の認識結果候補の単語列に対する信頼度スコアとして出力する音声認識方法を構成した According to the second aspect of the present invention, the speech recognition method is configured to output the total reliability score of the words constituting the first recognition result candidate as the reliability score for the word string of the first recognition result candidate .

ここで、請求項:入力される音声信号をディジタル信号に変換し、このディジタル信号から音響特徴パラメータ系列130を抽出する音響分析部120と、音響モデルが格納される音響モデル格納部140、語彙および言語モデルを格納する辞書・言語モデル格納部150、音響モデル格納部140および辞書・言語モデル格納部150から音響モデルおよび辞書・言語モデルを入力し、入力音声の音響特徴パラメータ系列に対して、認識結果候補の探索を行って、上位N位までの単語列であるNベスト認識結果候補をスコアとともに求める探索部160と、認識結果候補とスコアに基づいて第1位の認識結果候補中の単語に対する信頼度スコアを計算する信頼度計算部190とを具備し、信頼度計算部190は、第1位の認識結果候補中の単語を構成する各フレームについて、第2位以下の認識結果候補の中に第1位の認識結果候補と単語の異なるものがある場合、第2位以下の認識結果候補中の最も高いスコアと第1位の認識結果候補のスコアとの差をスコア差として求め、単語の異なるものが無い場合、予め設定した値をスコア差として求め、単語を構成する全フレームのスコア差の合計を求めて、これをその単語を構成するフレーム数で正規化したものを、第1位の認識結果候補中の単語に対する信頼度スコアとして出力する音声認識装置を構成した。 Here, claim 3 is : an acoustic analysis unit 120 that converts an input audio signal into a digital signal and extracts an acoustic feature parameter series 130 from the digital signal; an acoustic model storage unit 140 that stores an acoustic model; A dictionary / language model storage unit 150 that stores vocabulary and a language model, and an acoustic model and dictionary / language model are input from the acoustic model storage unit 140 and the dictionary / language model storage unit 150, and an acoustic feature parameter series of the input speech is input. The search unit 160 searches for the recognition result candidate and obtains the N best recognition result candidate that is a word string up to the top N ranks together with the score, and the first recognition result candidate based on the recognition result candidate and the score. A reliability calculation unit 190 that calculates a reliability score for the word of the first word, and the reliability calculation unit 190 is the first recognition result candidate. For each frame constituting the word, if there is a word that is different from the first recognition result candidate in the second and lower recognition result candidates, the highest score among the second and lower recognition result candidates The difference from the score of the first recognition result candidate is obtained as a score difference, and when there is no different word, a preset value is obtained as a score difference, and the total score difference of all frames constituting the word is obtained. The speech recognition apparatus is configured to output a result obtained by normalizing the number of frames constituting the word as a reliability score for the word in the first recognition result candidate .

そして、請求項4:第1位の認識結果候補を構成する単語の信頼度スコアの合計を第1位の認識結果候補の単語列に対する信頼度スコアとして出力する音声認識装置を構成した。According to a fourth aspect of the present invention, there is provided a speech recognition apparatus that outputs the sum of the reliability scores of the words constituting the first recognition result candidate as a reliability score for the word string of the first recognition result candidate.

また、請求項:入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータ系列を抽出し、音響モデル格納部および辞書・言語モデル格納部から音響モデルおよび辞書・言語モデルを入力し、入力音声の音響特徴パラメータ系列に対して、認識結果候補の探索を行って、上位N位までの単語列であるNベスト認識結果候補をスコアとともに求め、第1位の認識結果候補中の単語を構成する各フレームについて、第2位以下の認識結果候補の中に第1位の認識結果候補と単語の異なるものがある場合、第2位以下の認識結果候補中の最も高いスコアと第1位の認識結果候補のスコアとの差をスコア差として求め、単語の異なるものが無い場合、予め設定した値をスコア差として求め、単語を構成する全フレームのスコア差の合計を求めて、これをその単語を構成するフレーム数で正規化したものを第1位の認識結果候補中の単語に対する信頼度スコアとして出力する、指令をCPUに対して実行する音声認識プログラムを構成した。
また、請求項6:第1位の認識結果候補を構成する単語の信頼度スコアの合計を第1位の認識結果候補の単語列に対する信頼度スコアとして出力する、指令をCPUに対して実行する音声認識プログラムを構成した。
更に、請求項7:請求項5,6に記載される音声認識プログラムを記憶した記録媒体を構成した。
Moreover, they claim 5 converts the audio signal inputted to digital signal, extracting an acoustic feature parameter sequence from the digital signal, an acoustic model and a dictionary and language model from the acoustic model storage unit and the dictionary and language model storage unit Input, search for recognition result candidates for the acoustic feature parameter series of the input speech, obtain N best recognition result candidates that are word strings up to the top N, together with the score, and are among the first recognition result candidates For each frame constituting the word, if there is a word that is different from the first recognition result candidate in the second and lower recognition result candidates, the highest score among the second and lower recognition result candidates The difference from the score of the first recognition result candidate is obtained as a score difference, and when there are no different words, a preset value is obtained as a score difference, and all frames constituting the word Seeking total score difference, and outputs the normalized with the number of frames constituting the word as confidence score for the word in the first of the recognition result candidates, and executes the command to the CPU speech A recognition program was constructed.
Claim 6: A command for outputting the sum of the reliability scores of the words constituting the first recognition result candidate as the reliability score for the word string of the first recognition result candidate is executed to the CPU. A speech recognition program was constructed.
Furthermore, the recording medium which memorize | stored the voice recognition program as described in Claim 7: Claim 5 and 6 was comprised.

この発明によれば、信頼度を求める計算は、Nベスト候補におけるフレーム当たりのスコア差の算出およびそれらの正規化であり、これは音声認識処理と比較して非常に少ない計算量で実行することができる。また、実施例の実験結果に示される如く従来の方法と比較して精度の高い信頼度を求めることができる。   According to the present invention, the calculation for determining the reliability is the calculation of the score difference per frame in the N best candidates and the normalization thereof, which is executed with a very small amount of calculation compared with the speech recognition processing. Can do. Further, as shown in the experimental results of the embodiment, it is possible to obtain a highly reliable reliability as compared with the conventional method.

発明を実施するための最良の形態を図を参照して説明する。
図1は音声認識装置の実施例を説明する図である。入力音声110は、音響分析部120において音響特徴パラメータ系列130に変換される。音響特徴パラメータ系列とは、入力音声を数十msecのフレームと呼ばれる単位で分析して得られるLPCケプストラム、MFCCその他のパラメータ系列である。探索部160においては、音響モデル格納部140と辞書・言語モデル格納部150とを用いて、入力音声に対する認識結果候補の探索を音響特徴パラメータ系列について行う。探索の結果、上位N位までのNベスト候補がスコア180と共に音声認識結果170として出力される。信頼度計算部190においては、音声認識結果170とスコア180に基づいて音声認識結果170に対する信頼度スコア200を計算して出力する。
The best mode for carrying out the invention will be described with reference to the drawings.
FIG. 1 is a diagram for explaining an embodiment of a speech recognition apparatus. The input speech 110 is converted into an acoustic feature parameter series 130 by the acoustic analysis unit 120. The acoustic feature parameter series is an LPC cepstrum, MFCC, or other parameter series obtained by analyzing input speech in units called frames of several tens of msec. The search unit 160 uses the acoustic model storage unit 140 and the dictionary / language model storage unit 150 to search for recognition result candidates for the input speech for the acoustic feature parameter series. As a result of the search, N best candidates up to the top N are output as a speech recognition result 170 together with the score 180. The reliability calculation unit 190 calculates and outputs a reliability score 200 for the speech recognition result 170 based on the speech recognition result 170 and the score 180.

図2のフローチャートを参照して、信頼度計算部190において実行される音声認識結果に対する信頼度スコアを計算する過程を説明する。音声認識処理により入力音声に対する音声認識結果の単語列とスコアが得られると、先ず、ステップ(S01)で、単語番号wおよびフレーム番号tを1に初期化する。そして、ステップ(S02)で、単語信頼度スコア累積用変数Aを0に初期化する。また、ステップ(S03)で、フレームtにおいて単語wと異なる単語がNベスト候補中に存在するYesの場合は、ステップ(S04)で、単語wのフレームtにおけるスコアと対立候補単語のフレームtにおけるスコアとの間のスコア差D(t)を求める。対立候補がNベスト候補中に存在しないNoの場合は、ステップ(S05)で、D(t)に予め指定しておいた固定値を代入する。この固定値は、対立候補が存在する場合のスコア差D(t)と比較して大きくなる様に設定しておく。ステップ(S06)で、単語区間内のフレームにおいて得られたスコア差D(t)を累積する。ステップ(S07)でフレームtが単語wの最終フレームではないNoの場合は、ステップ(S08)でフレームtを一つ進めて、ステップ(S02)へ戻る。ステップ(S07)でフレームtが単語wの最終フレームであるYesの場合は、正規化処理として、ステップ(S09)で累積スコアAを単語wのフレーム数で除することにより単語wの区間における信頼度スコアの加算平均を求める。ステップ(S10)で単語wが認識結果単語列の最終単語ではないNoの場合は、ステップ(S11)で単語wを一つ進めて処理を繰り返す。ステップ(S10)で単語wが認識結果単語列の最終単語であるYesの場合は、ステップ(S12)で認識結果の各単語に対する信頼度スコアC(w)および単語列全体に対する信頼度スコアC(W)=ΣC(w)を出力する。   With reference to the flowchart of FIG. 2, the process of calculating the reliability score for the speech recognition result executed in the reliability calculation unit 190 will be described. When the word sequence and the score of the speech recognition result for the input speech are obtained by the speech recognition processing, first, the word number w and the frame number t are initialized to 1 in step (S01). In step (S02), the word reliability score accumulation variable A is initialized to zero. In step (S03), if the word w is different from the word w in the frame t and the answer is Yes in the N best candidates, the score of the word w in the frame t and the opposite candidate word in the frame t in step (S04). A score difference D (t) from the score is obtained. If the conflict candidate is No in the N best candidates, a fixed value designated in advance is substituted for D (t) in step (S05). This fixed value is set so as to be larger than the score difference D (t) when there is an opposing candidate. In step (S06), the score difference D (t) obtained in the frames in the word section is accumulated. In step (S07), if the frame t is No which is not the last frame of the word w, the frame t is advanced by one in step (S08), and the process returns to step (S02). If the frame t is Yes, which is the final frame of the word w, in step (S07), as a normalization process, the confidence in the section of the word w is obtained by dividing the cumulative score A by the number of frames of the word w in step (S09). Calculate the average of degree scores. If the word w is No in step (S10) and is not the final word in the recognition result word string, the word w is advanced by one in step (S11) and the process is repeated. If the word w is Yes in step (S10), which is the final word of the recognition result word string, the reliability score C (w) for each word of the recognition result and the reliability score C ( W) = ΣC (w) is output.

図2において、ステップ(S03)は、単語wの各フレームtにおいて単語wと異なる単語がNベスト候補中に存在するか否かを検出する対立候補検出部400を構成している。ステップ(S04)、(S05)は、単語wのフレームtにおけるスコアと対立候補単語のフレームtにおけるスコアとの間のスコア差D(t)を求めるスコア差計算部410を構成している。ステップ(S06)は、各フレームtのスコア差D(t)を累積するスコア差累積計算部420を構成している。ステップ(S09)は、正規化処理として累積スコア差Aを単語wのフレーム数で除することにより単語wの区間における信頼度スコアの加算平均を求める信頼度スコア計算部430を構成している。信頼度計算部190は、これら対立候補検出部400、スコア差計算部410、スコア差累積計算部420、信頼度スコア計算部430をその主要な構成要素としている。
In FIG. 2, step (S03) constitutes the conflict candidate detection unit 400 that detects whether or not a word different from the word w exists in the N best candidates in each frame t of the word w. Steps (S04) and (S05) constitute a score difference calculation unit 410 that calculates a score difference D (t) between the score of the word w in the frame t and the score of the opponent candidate word in the frame t. Step (S06) constitutes a score difference accumulation calculation unit 420 that accumulates the score difference D (t) of each frame t. Step (S09) constitutes a reliability score calculation unit 430 that obtains an average of reliability scores in the section of word w by dividing cumulative score difference A by the number of frames of word w as normalization processing. The reliability calculation unit 190 includes the conflict candidate detection unit 400, the score difference calculation unit 410, the score difference accumulation calculation unit 420, and the reliability score calculation unit 430 as main components.

図3は信頼度計算部の動作を説明するブロック図である。
図3を参照して、図1の信頼度計算部190における信頼度スコアを計算する過程を説明する。210は音声認識結果の第1位候補を示し、220は音声認識結果の第2位候補を示し、230は音声認識結果の第3位候補を表示している。第1位候補210は単語A、単語B、単語Cより成り、第2位候補は単語A、単語D、単語Cより成り、第3位候補は単語E、単語F、単語Cより成る。ここで、一つの正方形は音響特徴パラメータのフレーム240を表している。
FIG. 3 is a block diagram for explaining the operation of the reliability calculation unit.
With reference to FIG. 3, the process of calculating the reliability score in the reliability calculation unit 190 of FIG. 1 will be described. 210 indicates the first candidate of the speech recognition result, 220 indicates the second candidate of the speech recognition result, and 230 displays the third candidate of the speech recognition result. The first candidate 210 is composed of word A, word B, and word C, the second candidate is composed of word A, word D, and word C, and the third candidate is composed of word E, word F, and word C. Here, one square represents a frame 240 of acoustic feature parameters.

先ず、第1位候補の単語Aの信頼度を求める。単語Aの各フレームにおいて、第2位以下の対立候補の中で単語が異なりスコアの最も高いフレームと単語Aのフレームとの間のスコア差250を計算する。各フレームにおいて計算したスコア差250を正規化、即ち、加算平均した値を単語Aの信頼度とする。同様に、単語B、単語Cについても信頼度を求める。単語Cの様に単語の異なる対立候補がない場合には、単語Cの信頼度が高いと考えて、充分に大きい予め定義した固定値をスコア差として与える。
また、単語その他の認識結果として出力したいカテゴリには含まれないポーズ、雑音の如き音より成る非カテゴリ区間についても同様にスコア差を用いて信頼度を求めることができ、これらの信頼度を含めて認識結果の信頼度を求めることもできる。孤立単語認識の場合、連続単語認識の場合と比較して、認識する音声区間全体に占める非カテゴリ区間が大きく、その区間が単語の一部として認識されるか非カテゴリとして認識されるかによってスコアが大きく異なるところから、非カテゴリ区間を含めて信頼度を算出することが望ましい。
First, the reliability of the first candidate word A is obtained. In each frame of the word A, the score difference 250 between the frame having the highest score and the frame having the highest score and the frame of the word A among the second and lower opposing candidates is calculated. The score difference 250 calculated in each frame is normalized, that is, a value obtained by averaging is used as the reliability of the word A. Similarly, the reliability is also obtained for the words B and C. When there is no conflict candidate with different words like the word C, it is considered that the reliability of the word C is high, and a sufficiently large predefined fixed value is given as a score difference.
In addition, for non-category sections consisting of poses and noises such as noise that are not included in the category to be output as words or other recognition results, the reliability can be obtained using the score difference in the same way. Thus, the reliability of the recognition result can be obtained. In the case of isolated word recognition, compared to the case of continuous word recognition, the non-category section occupies the entire speech section to be recognized, and the score is based on whether the section is recognized as a part of the word or as a non-category. It is desirable to calculate the reliability including the non-category section because of the large difference.

従来の対立モデルを用いる信頼度の計算方法は、信頼度を求めるために対立モデルを用いた認識処理を行う必要があったが、この発明の方法によれば、音声認識結果として得られるNベスト候補およびそれらのスコアの単純なスコア差と加算平均の計算のみで認識結果の信頼度を求めることができる。
また、従来の事後確率を用いる信頼度の計算方法は、精度の低い単語グラフを用いるか、精度の高い単語グラフを信頼度の計算のために用意する必要があったが、この発明の方法によれば、通常の2パス認識の結果として得られるNベスト候補を利用して少ない処理量により音声認識結果の信頼度を求めることができる。Nベスト候補から事後確率を求める従来の方法は、結果の単語列のアライメントをとるために少なくとも、
(単語数(文長))2 ×Nベスト候補数
に比例する計算量、即ち、文の長さの2乗に比例する計算量を必要とするのに対して、この発明の方法によれば、
(フレーム数(文長))×Nベスト候補数
に比例する計算量、即ち、文の長さに比例する計算量となり、文の長さが長い程この発明の方法による計算量削減効果は大きくなる。
In the conventional calculation method of the reliability using the conflict model, it is necessary to perform a recognition process using the conflict model in order to obtain the reliability. However, according to the method of the present invention, the N best obtained as a speech recognition result. The reliability of the recognition result can be obtained only by calculating a candidate and a simple score difference between the scores and an addition average.
In addition, the conventional calculation method of reliability using posterior probabilities requires using a low-precision word graph or preparing a high-precision word graph for calculation of reliability. Accordingly, the reliability of the speech recognition result can be obtained with a small amount of processing by using the N best candidate obtained as a result of the normal two-pass recognition. The traditional method of finding the posterior probability from the N-best candidates is at least to align the resulting word string,
(Number of words (sentence length)) The calculation amount proportional to the number of 2 × N best candidates, that is, the calculation amount proportional to the square of the sentence length is required. ,
The amount of calculation is proportional to the number of (frame number (sentence length)) × N best candidates, that is, the amount of calculation proportional to the length of the sentence. Become.

上述した音声認識方法は、CPUに対してプログラムを介して指令を実行させて実施することができる。例えば、図4を参照するに、330はCPUである。140は音響モデルが格納される音響モデル格納部である。150は語彙および言語モデルを格納する辞書・言語モデル格納部である。320は音声認識プログラムメモリであり、音声認識プログラムがCD・ROM、ハードディスクその他の記憶媒体からインストールされ、或いは通信回線を介してインストールされている。340は音響分析、探索、信頼度スコア計算時に一時的にデータを記憶しておく記憶部である。この発明を実施する音声認識装置は、以上の構成部材をバス310を介して相互接続して構成される。この音声認識装置は、入力音声信号110に対する音声認識結果170とスコア180を求め、その後、上述の方法で信頼度スコア200を求める。   The voice recognition method described above can be implemented by causing a CPU to execute a command via a program. For example, referring to FIG. 4, 330 is a CPU. An acoustic model storage unit 140 stores an acoustic model. A dictionary / language model storage unit 150 stores vocabulary and language models. Reference numeral 320 denotes a voice recognition program memory, which is installed from a CD / ROM, a hard disk or other storage medium, or installed via a communication line. A storage unit 340 temporarily stores data during acoustic analysis, search, and reliability score calculation. A speech recognition apparatus embodying the present invention is configured by interconnecting the above-described constituent members via a bus 310. The speech recognition apparatus obtains a speech recognition result 170 and a score 180 for the input speech signal 110, and then obtains a reliability score 200 by the method described above.

この発明による効果を孤立単語認識実験において評価した。語彙サイズを5114語とする会社名認識タスクにおいて、従来の対立モデルを用いた信頼度とこの実施例による信頼度とを比較した。先ず、認識結果に対する信頼度を各方法により求め、その信頼度が閾値より大きい場合は受理とし、小さい場合は棄却とする場合において、誤受理率、即ち、誤った認識結果を受理する確率を求めると共に、誤棄却率、即ち、正しい認識結果を棄却する確率を求める。誤受理率と誤棄却率とはトレードオフの関係にあり、閾値を大きくすると誤受理率は下がって誤棄却率は上がり、閾値を小さくすればその逆となる。評価は、閾値を様々に変更した場合に、誤受理率と誤棄却率とが等しくなるときの確率である等誤り率によって行った。音声認識結果の第1位候補の正解率は85.5%であった。信頼度の評価結果を表1に示す。また、従来例の処理時間を1とした場合のこの発明による方法の処理時間比を示した。

Figure 0003819896
表1を参照するに、実施例による信頼度は、従来例より少ない処理時間で従来例の半分以下の等誤り率を達成していることを認識することができる。 The effect of this invention was evaluated in an isolated word recognition experiment. In the company name recognition task with a vocabulary size of 5114 words, the reliability using the conventional conflict model was compared with the reliability according to this example. First, the reliability for the recognition result is obtained by each method, and when the reliability is larger than the threshold value, it is accepted, and when it is small, the acceptance rate is obtained, that is, the probability of accepting the wrong recognition result is obtained. At the same time, the false rejection rate, that is, the probability of rejecting the correct recognition result is obtained. There is a trade-off relationship between the false acceptance rate and the false rejection rate. When the threshold value is increased, the false acceptance rate decreases and the false rejection rate increases, and when the threshold value is reduced, the opposite is true. The evaluation was performed based on an equal error rate, which is a probability when the false acceptance rate and the false rejection rate are equal when the threshold value is variously changed. The accuracy rate of the first candidate of the speech recognition result was 85.5%. Table 1 shows the reliability evaluation results. Further, the processing time ratio of the method according to the present invention when the processing time of the conventional example is set to 1 is shown.
Figure 0003819896
Referring to Table 1, it can be recognized that the reliability according to the embodiment achieves an equal error rate of half or less that of the conventional example in a processing time shorter than that of the conventional example.

この発明による効果を連続単語認識において評価した。音声対話装置に対する音声発話のキーワード部分について評価を行った。語彙サイズ1124語の航空券予約タスク(キーワード正解精度:78.7%)による評価結果を表2に示す。また、語彙サイズ421語の店舗検索タスク(キーワード正解精度:86.8%)による評価結果を表3に示す。

Figure 0003819896
Figure 0003819896
The effect of this invention was evaluated in continuous word recognition. We evaluated the keyword part of speech utterance for a spoken dialogue device. Table 2 shows the evaluation results of the airline ticket reservation task (keyword accuracy: 78.7%) with a vocabulary size of 1124 words. Table 3 shows the evaluation result of the store search task (keyword accuracy: 86.8%) with a vocabulary size of 421 words.
Figure 0003819896
Figure 0003819896

表2および表3をみると、実施例による信頼度は、連続単語認識においても従来例より少ない処理時間で、従来例より低い等誤り率を達成していることを認識することができる。
この発明による音声認識方法を用いることにより、音声対話装置において、すべての認識結果を発声者に対して確認するのではなく、信頼度の低い認識結果についてのみ発声者に確認を行ったり、音声書き起こし装置において、信頼度の低い部分の認識結果は表示しない様にしたりして、効率的な音声認識応用装置を開発することができる。
From Table 2 and Table 3, it can be recognized that the reliability according to the example achieves an equal error rate lower than that of the conventional example in continuous word recognition with a processing time shorter than that of the conventional example.
By using the speech recognition method according to the present invention, in the speech dialogue apparatus, not all the recognition results are confirmed with respect to the speaker, but only the recognition results with low reliability are confirmed with the speaker, In the wake-up device, it is possible to develop an efficient speech recognition application device by not displaying the recognition result of the portion with low reliability.

実施例を説明するブロック図。The block diagram explaining an Example. 実施例の信頼度計算部の処理の流れを説明するフローチャート。The flowchart explaining the flow of a process of the reliability calculation part of an Example. 実施例の信頼度計算部の構成を示すブロック図。The block diagram which shows the structure of the reliability calculation part of an Example. CPUを採用する実施例を説明するブロック図。The block diagram explaining the Example which employ | adopts CPU.

符号の説明Explanation of symbols

110 入力音声信号 120 音響分析部
130 音響特徴パラメータ系列 140 音響モデル格納部
150 辞書・言語モデル格納部 160 探索部
170 音声認識結果 180 スコア
190 信頼度計算部 200 信頼度スコア
210 第1位候補 220 第2位候補
230 第3位候補 240 フレーム
250 スコア差 310 バス
320 音声認識プログラムメモリ 330 CPU
340 記憶部 400 対立候補検出部
410 スコア差計算部 420 スコア差累積計算部
430 信頼度スコア計算部
DESCRIPTION OF SYMBOLS 110 Input speech signal 120 Acoustic analysis part 130 Acoustic feature parameter series 140 Acoustic model storage part 150 Dictionary and language model storage part 160 Search part 170 Speech recognition result 180 Score 190 Reliability calculation part 200 Reliability score 210 First candidate 220 2nd candidate 230 3rd candidate 240 Frame 250 Score difference 310 Bus 320 Speech recognition program memory 330 CPU
340 Storage unit 400 Opposition candidate detection unit 410 Score difference calculation unit 420 Score difference accumulation calculation unit 430 Reliability score calculation unit

Claims (7)

入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、スコアの高い上位N位までの単語列であるNベスト認識結果候補中の最も高いスコアを示す第1位の認識結果候補と共にその候補中の単語の信頼度を出力する音声認識方法において、
上記第1位の認識結果候補中の単語を構成する各フレームについて、第2位以下の認識結果候補の中に第1位の認識結果候補と単語の異なるものがある場合、第2位以下の認識結果候補中の最も高いスコアと第1位の認識結果候補のスコアとの差をスコア差として求め、単語の異なるものが無い場合、予め設定した値をスコア差として求めるステップと、
単語を構成する全フレームのスコア差の合計を求めて、これをその単語を構成するフレーム数で正規化したものを第1位の認識結果候補中の単語に対する信頼度スコアとして出力するステップとを有することを特徴とする音声認識方法。
The input speech signal is converted into a digital signal, and acoustic feature parameters are extracted from the digital signal. Each category of linguistic units is applied to the extracted acoustic feature parameters under given linguistic constraints. Together with the first recognition result candidate indicating the highest score among the N best recognition result candidates that are word strings up to the top N ranks with the highest score. In the speech recognition method for outputting the reliability of the word in the candidate ,
For each frame composing a word in the first recognition result candidate, if there is a difference between the second recognition result candidate and the first recognition result candidate, the second or lower recognition result candidate Obtaining a difference between the highest score in the recognition result candidates and the score of the first recognition result candidate as a score difference, and when there is no different word, obtaining a preset value as a score difference;
Obtaining a total score difference of all the frames constituting the word, and normalizing it by the number of frames constituting the word, and outputting as a reliability score for the word in the first recognition result candidate; speech recognition method which is characterized in that chromatic.
入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、スコアの高い上位N位までの単語列であるNベスト認識結果候補中の最も高いスコアを示す第1位の認識結果候補と共にその信頼度を出力する音声認識方法において、
第1位の認識結果候補中の各単語を構成する各フレームについて、第2位以下の認識結果候補の中に第1位の認識結果候補と単語の異なるものがある場合、第2位以下の認識結果候補中の最も高いスコアと第1位の認識結果候補のスコアとの差をスコア差として求め、単語の異なるものが無い場合、予め設定した値をスコア差として求めるステップと、
単語を構成する全フレームのスコア差の合計を求めて、これをその単語を構成するフレーム数で正規化したものを該単語に対する信頼度スコアとするステップと
第1位の認識結果候補の単語列を構成する各単語の信頼度スコアの合計を第1位の認識結果候補の単語列に対する信頼度スコアとして出力することを特徴とする音声認識方法。
The input speech signal is converted into a digital signal, and acoustic feature parameters are extracted from the digital signal. Each category of linguistic units is applied to the extracted acoustic feature parameters under given linguistic constraints. Together with the first recognition result candidate indicating the highest score among the N best recognition result candidates that are word strings up to the top N ranks with the highest score. in the speech recognition method for outputting a reliability of that,
For each frame constituting each word in the first recognition result candidate, if there is a word that is different from the first recognition result candidate in the second or lower recognition result candidate, the second or lower recognition result candidate Obtaining a difference between the highest score in the recognition result candidates and the score of the first recognition result candidate as a score difference, and when there is no different word, obtaining a preset value as a score difference;
Obtaining a total score difference of all the frames constituting the word and normalizing it by the number of frames constituting the word as a confidence score for the word;
A speech recognition method, comprising: outputting a total reliability score of each word constituting a first recognition result candidate word string as a reliability score for the first recognition result candidate word string .
入力される音声信号をディジタル信号に変換し、このディジタル信号から音響特徴パラメータ系列130を抽出する音響分析部120と
音響モデルが格納される音響モデル格納部140
語彙および言語モデルを格納する辞書・言語モデル格納部150
音響モデル格納部140および辞書・言語モデル格納部150から音響モデルおよび辞書・言語モデルを入力し、入力音声の音響特徴パラメータ系列に対して、認識結果候補の探索を行って、上位N位までの単語列であるNベスト認識結果候補をスコアとともに求める探索部160と、
上記認識結果候補とスコアに基づいて第1位の認識結果候補中の単語に対する信頼度スコアを計算する信頼度計算部190とを具備し、
上記信頼度計算部190は、
第1位の認識結果候補中の単語を構成する各フレームについて、第2位以下の認識結果候補の中に第1位の認識結果候補と単語の異なるものがある場合、第2位以下の認識結果候補中の最も高いスコアと第1位の認識結果候補のスコアとの差をスコア差として求め、単語の異なるものが無い場合、予め設定した値をスコア差として求め、
単語を構成する全フレームのスコア差の合計を求めて、これをその単語を構成するフレーム数で正規化したものを、第1位の認識結果候補中の単語に対する信頼度スコアとして出力するものであることを特徴とする音声認識装置。
An acoustic analysis unit 120 that converts an input speech signal into a digital signal and extracts an acoustic feature parameter series 130 from the digital signal;
An acoustic model storage unit 140 in which an acoustic model is stored;
A dictionary and language model storage unit 150 to store the vocabulary and language model,
The acoustic model and the dictionary / language model are input from the acoustic model storage unit 140 and the dictionary / language model storage unit 150 , and the recognition result candidates are searched for the acoustic feature parameter series of the input speech . A search unit 160 that obtains N best recognition result candidates that are word strings together with scores;
A reliability calculation unit 190 that calculates a reliability score for the word in the first recognition result candidate based on the recognition result candidate and the score,
The reliability calculation unit 190
For each frame constituting the word in the first recognition result candidate, if there is a difference in word from the first recognition result candidate in the second or lower recognition result candidate, the second or lower recognition result Find the difference between the highest score among the result candidates and the score of the first recognition result candidate as a score difference, and if there are no different words, obtain a preset value as the score difference,
The total score difference of all the frames that make up a word is calculated, and this is normalized by the number of frames that make up that word, and output as a confidence score for the word in the first recognition result candidate. A speech recognition apparatus characterized by being.
入力される音声信号をディジタル信号に変換し、このディジタル信号から音響特徴パラメータ系列130を抽出する音響分析部120と
音響モデルが格納される音響モデル格納部140
語彙および言語モデルを格納する辞書・言語モデル格納部150
音響モデル格納部140および辞書・言語モデル格納部150から音響モデルおよび辞書・言語モデルを入力し、入力音声の音響特徴パラメータ系列に対して、認識結果候補の探索を行って、上位N位までの単語列であるNベスト認識結果候補をスコアとともに求める探索部160と、
上記認識結果候補とスコアに基づいて第1位の認識結果候補に対する信頼度スコアを計算する信頼度計算部190とを具備し、
上記信頼度計算部190は、
第1位の認識結果候補中の各単語を構成する各フレームについて、第2位以下の認識結果候補の中に第1位の認識結果候補と単語の異なるものがある場合、第2位以下の認識結果候補中の最も高いスコアと第1位の認識結果候補のスコアとの差をスコア差として求め、単語の異なるものが無い場合、予め設定した値をスコア差として求め、
単語を構成する全フレームのスコア差の合計を求めて、これをその単語を構成するフレーム数で正規化したものを第1位の認識結果候補中の単語に対する信頼度スコアとし、
第1位の認識結果候補の単語列を構成する単語の信頼度スコアの合計を第1位の認識結果候補の単語列に対する信頼度スコアとして出力することを特徴とする音声認識装置。
An acoustic analysis unit 120 that converts an input speech signal into a digital signal and extracts an acoustic feature parameter series 130 from the digital signal;
An acoustic model storage unit 140 in which an acoustic model is stored;
A dictionary and language model storage unit 150 to store the vocabulary and language model,
The acoustic model and the dictionary / language model are input from the acoustic model storage unit 140 and the dictionary / language model storage unit 150 , and the recognition result candidates are searched for the acoustic feature parameter series of the input speech . A search unit 160 that obtains N best recognition result candidates that are word strings together with scores;
A reliability calculation unit 190 that calculates a reliability score for the first recognition result candidate based on the recognition result candidate and the score,
The reliability calculation unit 190
For each frame constituting each word in the first recognition result candidate, if there is a word that is different from the first recognition result candidate in the second or lower recognition result candidate, the second or lower recognition result candidate Find the difference between the highest score in the recognition result candidates and the score of the first recognition result candidate as a score difference, and if there are no different words, obtain a preset value as the score difference,
Find the total score difference of all the frames that make up a word, normalize this with the number of frames that make up that word, and make it the confidence score for the word in the first recognition result candidate,
A speech recognition apparatus, characterized in that a sum of reliability scores of words constituting a word string of a first recognition result candidate is output as a reliability score for a word string of a first recognition result candidate.
入力される音声信号をディジタル信号に変換し、
そのディジタル信号から音響特徴パラメータ系列を抽出し、
音響モデル格納部および辞書・言語モデル格納部から音響モデルおよび辞書・言語モデルを入力し、入力音声の音響特徴パラメータ系列に対して、認識結果候補の探索を行って、上位N位までの単語列であるNベスト認識結果候補をスコアとともに求め、
第1位の認識結果候補中の単語を構成する各フレームについて、第2位以下の認識結果候補の中に第1位の認識結果候補と単語の異なるものがある場合、第2位以下の認識結果候補中の最も高いスコアと第1位の認識結果候補のスコアとの差をスコア差として求め、単語の異なるものが無い場合、予め設定した値をスコア差として求め、
単語を構成する全フレームのスコア差の合計を求めて、これをその単語を構成するフレーム数で正規化したものを第1位の認識結果候補中の単語に対する信頼度スコアとして出力する指令をCPUに対して実行することを特徴とする音声認識プログラム。
Convert the input audio signal into a digital signal,
An acoustic feature parameter series is extracted from the digital signal,
Input the acoustic model and dictionary / language model from the acoustic model storage unit and dictionary / language model storage unit, search the recognition feature candidates for the acoustic feature parameter series of the input speech, and the word string up to the top N N best recognition result candidates that are
For each frame constituting the word in the first recognition result candidate, if there is a difference in word from the first recognition result candidate in the second or lower recognition result candidate, the second or lower recognition result Find the difference between the highest score among the result candidates and the score of the first recognition result candidate as a score difference, and if there are no different words, obtain a preset value as the score difference,
Seeking total score difference of all the frames constituting the word, and outputs the normalized with the number of frames constituting the word as confidence score for the word in the first of the recognition result candidates, the command speech recognition program and executes against the CPU.
入力される音声信号をディジタル信号に変換し、
そのディジタル信号から音響特徴パラメータ系列を抽出し、
音響モデル格納部および辞書・言語モデル格納部から音響モデルおよび辞書・言語モデルを入力し、入力音声の音響特徴パラメータ系列に対して、認識結果候補の探索を行って、上位N位までの単語列であるNベスト認識結果候補をスコアとともに求め、
第1位の認識結果候補中の各単語を構成する各フレームについて、第2位以下の認識結果候補の中に第1位の認識結果候補と単語の異なるものがある場合、第2位以下の認識結果候補中の最も高いスコアと第1位の認識結果候補のスコアとの差をスコア差として求め、単語の異なるものが無い場合、予め設定した値をスコア差として求め、
単語を構成する全フレームのスコア差の合計を求め、これをその単語を構成するフレーム数で正規化したものを第1位の認識結果候補中の単語に対する信頼度スコアとして求め、
第1位の認識結果候補の単語列を構成する単語の信頼度スコアの合計を第1位の認識結果候補の単語列に対する信頼度スコアとして出力する、指令をCPUに対して実行することを特徴とする音声認識プログラム。
Convert the input audio signal into a digital signal,
An acoustic feature parameter series is extracted from the digital signal,
Input the acoustic model and dictionary / language model from the acoustic model storage unit and dictionary / language model storage unit, search the recognition feature candidates for the acoustic feature parameter series of the input speech, and the word string up to the top N N best recognition result candidates that are
For each frame constituting each word in the first recognition result candidate, if there is a word that is different from the first recognition result candidate in the second or lower recognition result candidate, the second or lower recognition result candidate Find the difference between the highest score in the recognition result candidates and the score of the first recognition result candidate as a score difference, and if there are no different words, obtain a preset value as the score difference,
Find the total score difference of all the frames that make up a word, normalize this with the number of frames that make up that word, and find the confidence score for the word in the first recognition result candidate,
A command is output to the CPU for outputting a total reliability score of words constituting the word string of the first recognition result candidate as a reliability score for the word string of the first recognition result candidate. Voice recognition program.
請求項5又は請求項6に記載される音声認識プログラムを記憶した記録媒体。 A recording medium storing the voice recognition program according to claim 5 .
JP2003384627A 2003-11-14 2003-11-14 Speech recognition method, apparatus for implementing this method, program, and recording medium Expired - Lifetime JP3819896B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003384627A JP3819896B2 (en) 2003-11-14 2003-11-14 Speech recognition method, apparatus for implementing this method, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003384627A JP3819896B2 (en) 2003-11-14 2003-11-14 Speech recognition method, apparatus for implementing this method, program, and recording medium

Publications (2)

Publication Number Publication Date
JP2005148342A JP2005148342A (en) 2005-06-09
JP3819896B2 true JP3819896B2 (en) 2006-09-13

Family

ID=34692956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003384627A Expired - Lifetime JP3819896B2 (en) 2003-11-14 2003-11-14 Speech recognition method, apparatus for implementing this method, program, and recording medium

Country Status (1)

Country Link
JP (1) JP3819896B2 (en)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4735958B2 (en) * 2005-07-21 2011-07-27 日本電気株式会社 Text mining device, text mining method, and text mining program
JP5066668B2 (en) * 2005-11-08 2012-11-07 株式会社国際電気通信基礎技術研究所 Speech recognition apparatus and program
KR100717385B1 (en) 2006-02-09 2007-05-11 삼성전자주식회사 Recognition confidence measuring by lexical distance between candidates
JP4981519B2 (en) * 2007-05-25 2012-07-25 日本電信電話株式会社 Learning data label error candidate extraction apparatus, method and program thereof, and recording medium thereof
JP4922377B2 (en) * 2009-10-01 2012-04-25 日本電信電話株式会社 Speech recognition apparatus, method and program
JP5406797B2 (en) * 2010-07-13 2014-02-05 日本電信電話株式会社 Speech recognition method, apparatus and program thereof
US9443511B2 (en) 2011-03-04 2016-09-13 Qualcomm Incorporated System and method for recognizing environmental sound
JP6131537B2 (en) * 2012-07-04 2017-05-24 セイコーエプソン株式会社 Speech recognition system, speech recognition program, recording medium, and speech recognition method
JP5749230B2 (en) * 2012-08-07 2015-07-15 日本電信電話株式会社 Speech recognition apparatus, method and program thereof
JP6148150B2 (en) * 2013-10-23 2017-06-14 日本電信電話株式会社 Acoustic analysis frame reliability calculation device, acoustic model adaptation device, speech recognition device, their program, and acoustic analysis frame reliability calculation method
US20200168221A1 (en) * 2017-08-08 2020-05-28 Mitsubishi Electric Corporation Voice recognition apparatus and method of voice recognition
US10964311B2 (en) * 2018-02-23 2021-03-30 Kabushiki Kaisha Toshiba Word detection system, word detection method, and storage medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05314320A (en) * 1992-05-08 1993-11-26 Fujitsu Ltd Recognition result evaluating system using difference of recognition distance and candidate order
JP3496706B2 (en) * 1997-09-12 2004-02-16 日本電信電話株式会社 Voice recognition method and its program recording medium
EP1425737A4 (en) * 2001-08-14 2005-11-09 Sony Electronics Inc System and method for speech verification using a robust confidence measure

Also Published As

Publication number Publication date
JP2005148342A (en) 2005-06-09

Similar Documents

Publication Publication Date Title
US7249017B2 (en) Speech recognition with score calculation
US7013277B2 (en) Speech recognition apparatus, speech recognition method, and storage medium
US6961701B2 (en) Voice recognition apparatus and method, and recording medium
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
JP4195428B2 (en) Speech recognition using multiple speech features
JP5533042B2 (en) Voice search device, voice search method, program, and recording medium
JP3716870B2 (en) Speech recognition apparatus and speech recognition method
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
US20050182628A1 (en) Domain-based dialog speech recognition method and apparatus
US7263487B2 (en) Generating a task-adapted acoustic model from one or more different corpora
JP4802434B2 (en) Voice recognition apparatus, voice recognition method, and recording medium recording program
JP4224250B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US7401019B2 (en) Phonetic fragment search in speech data
JP3819896B2 (en) Speech recognition method, apparatus for implementing this method, program, and recording medium
JP4769098B2 (en) Speech recognition reliability estimation apparatus, method thereof, and program
JP3444108B2 (en) Voice recognition device
JP2005275348A (en) Speech recognition method, device, program and recording medium for executing the method
JPH09134192A (en) Statistical language model forming device and speech recognition device
JP2938865B1 (en) Voice recognition device
US20220005462A1 (en) Method and device for generating optimal language model using big data
JP6497651B2 (en) Speech recognition apparatus and speech recognition program
JP2001109491A (en) Continuous voice recognition device and continuous voice recognition method
JPWO2013125203A1 (en) Speech recognition apparatus, speech recognition method, and computer program
JP3591695B2 (en) Topic extraction method and its program recording medium

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060428

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060615

R150 Certificate of patent or registration of utility model

Ref document number: 3819896

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090623

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100623

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100623

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110623

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120623

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130623

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140623

Year of fee payment: 8

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term