JP2002358097A - Voice recognition device - Google Patents

Voice recognition device

Info

Publication number
JP2002358097A
JP2002358097A JP2001167041A JP2001167041A JP2002358097A JP 2002358097 A JP2002358097 A JP 2002358097A JP 2001167041 A JP2001167041 A JP 2001167041A JP 2001167041 A JP2001167041 A JP 2001167041A JP 2002358097 A JP2002358097 A JP 2002358097A
Authority
JP
Japan
Prior art keywords
reliability
word
statistical language
speech recognition
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2001167041A
Other languages
Japanese (ja)
Inventor
Toshiyuki Hanazawa
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001167041A priority Critical patent/JP2002358097A/en
Publication of JP2002358097A publication Critical patent/JP2002358097A/en
Abandoned legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To improve the precision by giving a low reliability to a word, which is an erroneously recognized word though acoustically resembling a correct answer word, when giving the reliability showing certainty of the recognition result to each of words constituting a word string which is the recognition result of continuous voice recognition. SOLUTION: A voice recognition device is provided with a linguistic reliability calculation means 13 which uses a forward statistical language model 14 for reliability calculation and a backward statistical language model 15 for reliability calculation to calculate the reliability showing whether a word has been correctly recognized or not to each of words constituting the word string, which is the result of continuous voice recognition, on the basis of a linguistic statistic.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は音声認識装置に関
し、特に、連続音声認識の認識結果である単語列を構成
する単語の各々に対して認識結果の確からしさを示す信
頼度を付与する機能を有する音声認識装置に関するもの
である。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition apparatus, and more particularly, to a speech recognition apparatus having a function of assigning a reliability indicating the certainty of a recognition result to each of words forming a word string as a result of continuous speech recognition. The present invention relates to a voice recognition device having the same.

【0002】[0002]

【従来の技術】現在の音声認識技術では常に100%の
認識率が得られるわけではない。特に連続音声認識で認
識対象とする発話には複数個の単語が含まれることが多
いため、1発話中のいずれかの単語で誤認識が発生する
機会が多くなる。
2. Description of the Related Art Current speech recognition technology does not always provide a recognition rate of 100%. In particular, an utterance to be recognized in continuous speech recognition often includes a plurality of words, and therefore, there is a greater chance of erroneous recognition occurring in any one of the words in one utterance.

【0003】この種の誤認識に対する対策として、認識
結果の各単語に認識の確からしさを示す信頼度を計算
し、信頼度の低い単語はリジェクトしたりユーザに確認
する等の方法が考えられる。認識結果の信頼度を計算す
る方法としては、例えば、特開平4−255900号公
報がある。ここでは従来技術として、当該特開平4−2
55900号公報で開示された技術を説明する。
As a countermeasure against this kind of erroneous recognition, a method of calculating the reliability indicating the certainty of the recognition for each word of the recognition result, and rejecting the word with low reliability or confirming it with the user can be considered. As a method of calculating the reliability of the recognition result, there is, for example, Japanese Patent Application Laid-Open No. 4-255900. Here, as a prior art, Japanese Patent Application Laid-Open No.
The technique disclosed in Japanese Patent No. 55900 will be described.

【0004】図3は、当該特開平4−255900号公
報で開示されている従来の音声認識装置の構成を示した
ブロック図である。図3において、1は音声信号の入力
端、2は入力端1により入力された入力音声信号、3は
入力音声信号2の音響分析を行う分析手段、4は分析手
段3により得られた入力音声信号2の特徴ベクトルの時
系列、5は特徴ベクトルの時系列4を用いて連続音声認
識を行う連続音声認識手段、6は音響モデル、7は音声
認識用言語モデル、8は連続音声認識手段5による音声
認識結果、9は音響モデル6を用いて入力音声信号2の
特徴ベクトルの時系列4の参照尤度を計算する参照尤度
計算手段、10は参照尤度計算手段9により得られた参
照尤度、11は参照尤度10を用いて音声認識結果8に
含まれる単語列の各単語に対する信頼度を計算する音響
的信頼度計算手段、12は当該信頼度を付与された認識
結果である。
FIG. 3 is a block diagram showing the configuration of a conventional speech recognition apparatus disclosed in Japanese Patent Application Laid-Open No. 4-255900. In FIG. 3, reference numeral 1 denotes an input end of an audio signal, 2 denotes an input audio signal input from the input end 1, 3 denotes analysis means for performing an acoustic analysis of the input audio signal 2, and 4 denotes an input audio obtained by the analysis means 3. 5 is a continuous speech recognition means for performing continuous speech recognition using the feature vector time series 4, 6 is an acoustic model, 7 is a speech recognition language model, and 8 is a continuous speech recognition means 5. The reference likelihood calculating means 9 calculates the reference likelihood of the time series 4 of the feature vector of the input speech signal 2 using the acoustic model 6, and the reference 10 obtained by the reference likelihood calculating means 9 Likelihood, 11 is an acoustic reliability calculating means for calculating the reliability of each word of the word string included in the speech recognition result 8 using the reference likelihood 10, and 12 is a recognition result provided with the reliability. .

【0005】なお、音響モデル6として連続分布型のH
MM(Hidden Markov Model,隠れマルコフモデル)を
用いる。音響モデル6は、単語単位、すなわち、1個の
モデルで1個の単語をモデル化するものとする。したが
って、認識対象語彙数と同数の音響モデルを用意する。
1個のモデルは複数個の状態で構成し、モデルのトポロ
ジーはleft−to−right型とする。
The acoustic model 6 is a continuous distribution type H
MM (Hidden Markov Model, Hidden Markov Model) is used. The acoustic model 6 models one word with a word unit, that is, one model. Therefore, the same number of acoustic models as the number of words to be recognized are prepared.
One model is composed of a plurality of states, and the topology of the model is a left-to-right type.

【0006】また、音声認識用言語モデル7として統計
言語モデルである単語バイグラムモデルを用いることと
する。認識対象は例えばホテル予約に関するユーザ発話
とする。音声認識用言語モデル7は、あらかじめホテル
予約に関する大量のユーザ発話を書き起こしたテキスト
データを用いて学習しておくものとする。
Further, a word bigram model, which is a statistical language model, is used as the language model 7 for speech recognition. The recognition target is, for example, a user utterance related to hotel reservation. The speech recognition language model 7 is learned in advance using text data in which a large amount of user utterances related to hotel reservations are transcribed.

【0007】次に、図3に基づいて、従来の本音声認識
装置の動作について説明する。音声信号の入力端1から
音声信号2を入力すると分析手段3は音声信号2を時間
軸上で短時間ごとの複数個の区間(以後、この区間をフ
レームと呼ぶ)に分割し、各フレームごとに、例えば、
LPC(Linear Predictive Coding)法を用いて音響分
析を行い、特徴ベクトルXに変換する。この特徴ベクト
ルXは例えばLPCケプストラムである。分析手段3は
全フレームに対して前記音響分析を行い、特徴ベクトル
の時系列4であるX1,X2,X3, ..., XTを出
力する。ここで添字は各特徴ベクトルのフレーム番号を
示し、Tは音声信号2の全フレーム数を示す。
Next, the operation of the conventional speech recognition apparatus will be described with reference to FIG. When an audio signal 2 is input from the input terminal 1 of the audio signal, the analysis means 3 divides the audio signal 2 into a plurality of short time intervals (hereinafter referred to as frames) on a time axis. For example,
Acoustic analysis is performed using the LPC (Linear Predictive Coding) method, and converted into a feature vector X. This feature vector X is, for example, an LPC cepstrum. The analysis means 3 performs the acoustic analysis on all frames, and obtains a time series 4 of feature vectors X 1 , X 2 , X 3 ,. . . , And outputs the X T. Here, the subscript indicates the frame number of each feature vector, and T indicates the total number of frames of the audio signal 2.

【0008】連続音声認識手段5は、分析手段3の出力
である特徴ベクトルの時系列4を入力として、特徴ベク
トルの時系列4と単語単位の音響モデル6とのパターン
マッチングを行う。パターンマッチングの方法としては
例えばワンパスDPマッチング法を用い、フレーム1か
ら時間軸順方向に処理を行い、パターンマッチングのフ
レームが進むにしたがって、音声認識用言語モデル7の
単語バイグラム確率にしたがって音響モデル6を接続し
てパターンマッチングを行う。フレームTまでのパター
ンマッチングを終了すると連続音声認識手段5は、音声
認識結果8として単語列w1,w2,…,wi,…,w
N(wiは認識結果の単語列中で先頭からi番目の単語、
Nは単語列の長さ)と各単語wn(n=1〜N)の開始
フレームsn(n=1〜N)、終了フレームen(n=1
〜N)、および各単語の尤度Ln(n=1〜N)を出力
する。なお、前記各単語wn(n=1〜N)の開始フレ
ームsn(n=1〜N)、終了フレームen(n=1〜
N)は、ワンパスDPマッチング法によるパターンマッ
チングをフレーム1から特徴ベクトルの時系列4である
1,X2,X3,…,XTの終了フレームTまで行ったの
ち、終了フレームTからフレーム1まで時間軸を逆方向
にパターンマッチング結果をトレースバックすることに
よって得ることができる。
[0008] The continuous voice recognition means 5 outputs the output of the analysis means 3.
The time vector 4 of the feature vector
Pattern of time series 4 of Torr and acoustic model 6 in word units
Perform matching. As a method of pattern matching
For example, using the one-pass DP matching method,
Process in the forward direction of the time axis from
As the game progresses, the speech recognition language model 7
Connect acoustic model 6 according to word bigram probability
To perform pattern matching. Putter up to frame T
When the matching is completed, the continuous speech recognition means 5
Word string w as recognition result 81, WTwo, ..., wi, ..., w
N(WiIs the ith word from the beginning in the word string of the recognition result,
N is the length of the word string) and each word wn(N = 1 to N) start
Frame sn(N = 1 to N), end frame en(N = 1
~ N) and the likelihood L of each wordn(N = 1 to N) is output
I do. Each word wn(N = 1 to N) start frame
Sn(N = 1 to N), end frame en(N = 1 ~
N) is a pattern map by the one-pass DP matching method.
Ching is a time series 4 of feature vectors from frame 1
X 1, XTwo, XThree, ..., XTUp to the end frame T
The time axis is reversed from the end frame T to frame 1.
Traceback the pattern matching result to
Therefore, it can be obtained.

【0009】一方、参照尤度計算手段9は、分析手段3
の出力である特徴ベクトルの時系列4を入力として、以
下の(1)式によって各フレームごとの参照尤度10で
あるLRi(i=1〜T)を出力する。
On the other hand, the reference likelihood calculating means 9 comprises the analyzing means 3
LR i (i = 1 to T), which is the reference likelihood 10 for each frame, is output according to the following equation (1) by using the time series 4 of the feature vector output as the input.

【0010】[0010]

【数1】 (Equation 1)

【0011】上記(1)式における右辺のbk(Xi
は、フレームiの特徴ベクトルXiに対する、音響モデ
ル6の状態kの尤度である。したがって(1)式は全音
響モデルの状態中で最大の尤度を参照尤度LRiとする
ことを意味する。
[0011] b k (X i ) on the right side of the above equation (1)
Is the likelihood of the state k of the acoustic model 6 with respect to the feature vector X i of the frame i. Therefore equation (1) means that the reference likelihood LR i the maximum likelihood in states of all the acoustic model.

【0012】次に音響的信頼度計算手段11は、音声認
識結果8である単語列w1,w2,…,wi,…,wNと各
単語wn(n=1〜N)の開始フレームsn(n=1〜
N)、終了フレームen(n=1〜N)、および、各単
語の尤度Ln(n=1〜N)と、参照尤度10であるL
i(i=1〜 T)を入力として以下の(2)式にし
たがって各単語の信頼度S(1) n(n=1〜N)を求め
る。そして信頼度を付与された認識結果12として、単
語列w1,w2,…,wi,…,wNと信頼度S(1) 1,S
(1) 2,…,S(1) i,…,S(1) Nを出力する。
Next, the acoustic reliability calculation means 11 outputs
Word sequence w that is knowledge result 81, WTwo, ..., wi, ..., wNAnd each
Word wn(N = 1 to N) start frame sn(N = 1 ~
N), end frame en(N = 1 to N) and each unit
Word likelihood Ln(N = 1 to N) and L which is the reference likelihood 10
Ri(I = 1 to T) as input and make the following equation (2)
Thus, the reliability S of each word(1) n(N = 1 to N)
You. Then, simply as the recognition result 12 to which the reliability is given,
Word string w1, WTwo, ..., wi, ..., wNAnd reliability S(1) 1, S
(1) Two, ..., S(1) i, ..., S(1) NIs output.

【0013】[0013]

【数2】 (Equation 2)

【0014】単語の尤度Lnは話者の違い等によって変
動するが、参照尤度LRiも同様に話者の違い等によっ
て変動する。したがって(2)式で示したとおり両者の
差をとり、単語のフレーム数(en−sn+1)で正規化
することによって話者の違い等による変動が低減され、
認識結果の信頼度を表す指標として用いることができ
る。なお参照尤度LRiは各フレーム毎の全音響モデル
の尤度の最大値なので、常にLn <=ΣiLRiの関係
が成立する。したがって、(2)式で計算されるS (1) n
は、信頼度が最も高い場合でS(1) n=0であり、信頼度
が低下するにしたがって負の大きな値となる。
Word likelihood LnDepends on the speakers
Move, but the reference likelihood LRiAlso depends on the speakers
Fluctuate. Therefore, as shown in equation (2),
Taking the difference, the number of word frames (en-Sn+1)
By doing so, fluctuations due to differences in speakers are reduced,
Can be used as an index to indicate the reliability of recognition results
You. Note that the reference likelihood LRiIs the total acoustic model for each frame
Ln <= ΣiLRiconnection of
Holds. Therefore, S calculated by equation (2) (1) n
Is S when the reliability is the highest(1) n= 0 and reliability
Becomes a large negative value as the value decreases.

【0015】[0015]

【発明が解決しようとする課題】従来の音声認識装置に
おいては、上述のように構成されているため、例えば、
発話が「(ポーズ)二泊宿泊します(ポーズ)」で、連
続音声認識結果が「(ポーズ)二泊近くします(ポー
ズ)」(w1=ポーズ、w2=「二泊」、w3=「近
く」、w4=「します」、w5=ポーズ)であった場合、
3=「近く」は誤認識であるが、音響的には「宿泊」
と類似しているため、開始フレームs3から終了フレー
ムe3までの区間における参照尤度の累積値ΣiLRi
単語の尤度L3は近い値となり、信頼度が高い(0に近
い)値になる。すなわち、誤認識した単語が、正解単語
と音響的に類似している場合には、信頼度が高くなって
しまうという問題点があった。
In the conventional speech recognition apparatus, since it is configured as described above, for example,
The utterance is “(pause) staying for two nights (pause)” and the continuous speech recognition result is “(pause) staying for almost two nights (pause)” (w 1 = pause, w 2 = “two nights”, w 3 = “near”, w 4 = “do”, w 5 = pose)
w 3 = “Nearby” is misrecognized, but acoustically “Accommodation”
Due to the similar, start frame s 3 end frame e cumulative value sigma i LR i and likelihood L 3 word reference likelihood at intervals of up to 3 becomes a value close, close to the high reliability (0 ) Value. That is, when the incorrectly recognized word is acoustically similar to the correct word, there is a problem that the reliability increases.

【0016】この発明はかかる問題点を解決するために
なされたものであり、認識した単語が正解単語と音響的
に類似している場合でも、当該単語が誤認識単語であれ
ば、低い信頼度を与えることができる音声認識装置を提
供することを目的とする。
The present invention has been made to solve such a problem. Even when a recognized word is acoustically similar to a correct word, if the word is a misrecognized word, the reliability is low. It is an object of the present invention to provide a speech recognition device that can provide the following.

【0017】[0017]

【課題を解決するための手段】この発明は、入力された
音声の連続音声認識を行い、認識結果として当該入力さ
れた音声に対応する単語列を出力する連続音声認識手段
と、所定単語の前後に言語的に続き得る各単語の出現確
率を与える1種類以上の信頼度計算用統計言語モデルを
格納している信頼度計算用統計言語モデル格納手段と、
前記認識結果の単語列を構成している各単語のそれぞれ
に対して、前記信頼度計算用統計言語モデルを用いて、
前記各単語が正認識であるか否かの信頼度を算出する言
語的信頼度計算手段とを備えた音声認識装置である。
According to the present invention, there is provided a continuous voice recognition means for performing continuous voice recognition of an input voice and outputting a word string corresponding to the input voice as a recognition result; Means for storing a statistical language model for calculating reliability, which stores at least one statistical language model for calculating reliability, which gives the probability of occurrence of each word that can be linguistically followed by
For each of the words constituting the word string of the recognition result, using the statistical language model for reliability calculation,
A linguistic reliability calculation means for calculating the reliability of whether or not each word is correctly recognized.

【0018】また、前記認識結果の単語列を構成してい
る各単語のそれぞれに対して、前記各単語が正認識であ
るか否かの信頼度を音響尤度に基づいて算出する音響的
信頼度計算手段と、前記言語的信頼度計算手段によって
算出された信頼度と前記音響的信頼度計算手段によって
算出された信頼度の両者の値を用いて、統合信頼度を算
出する信頼度統合手段とをさらに備えている。
In addition, for each of the words constituting the word string of the recognition result, the reliability of whether or not each word is correctly recognized is calculated based on the acoustic likelihood. Reliability calculating means, and reliability integrating means for calculating integrated reliability using both values of the reliability calculated by the linguistic reliability calculating means and the reliability calculated by the acoustic reliability calculating means. And further comprising:

【0019】また、前記信頼度計算用統計言語モデルと
して単語n−gramモデルを用いる。
Further, a word n-gram model is used as the reliability calculation statistical language model.

【0020】また、前記信頼度計算用統計言語モデルと
して単語を幾つかのクラスに分類してまとめた単語クラ
スn−gramモデルを用いる。
A word class n-gram model in which words are classified into several classes and summarized is used as the reliability calculation statistical language model.

【0021】また、1種類以上の信頼度計算用統計言語
モデルとして、当該単語と先行の所定個の単語との条件
付き確率モデルである信頼度計算用前向き統計言語モデ
ルと、当該単語と後続の所定個の単語との条件付き確率
モデルである信頼度計算用後向き統計言語モデルとを備
え、前記言語的信頼度計算手段が、前記連続音声認識の
認識結果の単語列を構成する各単語のそれぞれに対して
前記信頼度計算用前向き統計言語モデルを用いて前記各
単語が正認識であるか否かの第一の信頼度を算出し、前
記信頼度計算用後向き統計言語モデルを用いて前記各単
語が正認識であるか否かの第二の信頼度を算出する。
As one or more kinds of statistical language models for calculating reliability, a forward statistical language model for calculating reliability, which is a conditional probability model of the word and a predetermined number of preceding words, A backward statistical language model for reliability calculation, which is a conditional probability model with a predetermined number of words, wherein the linguistic reliability calculation means is configured to generate a word sequence of a recognition result of the continuous speech recognition. Using the reliability calculation forward statistical language model to calculate a first reliability of whether or not each word is correctly recognized, using the reliability calculation backward statistical language model A second reliability of whether the word is correctly recognized is calculated.

【0022】また、前記言語的信頼度計算手段が、前記
第一の信頼度と前記第二の信頼度のうち、大きい方の値
を当該単語の信頼度として出力する。
Further, the linguistic reliability calculating means outputs a larger one of the first reliability and the second reliability as the reliability of the word.

【0023】また、前記言語的信頼度計算手段が、前記
第一の信頼度と前記第二の信頼度との荷重和を当該単語
の信頼度として出力する。
Further, the linguistic reliability calculating means outputs a weighted sum of the first reliability and the second reliability as the reliability of the word.

【0024】[0024]

【発明の実施の形態】実施の形態1.図1は本発明の実
施の形態1による音声認識装置の構成を示すブロック図
である。同図において、1は音声信号の入力端、2は入
力端1により入力された入力音声信号、3は入力音声信
号2の音響分析を行う分析手段、4は分析手段3により
得られた入力音声信号2の特徴ベクトルの時系列、5は
入力音声信号2の特徴ベクトルの時系列4が入力されて
入力音声の連続音声認識を行い認識結果として単語列を
出力する連続音声認識手段、6は音響モデル、7は音声
認識用言語モデル、8は連続音声認識手段5から出力さ
れた音声認識結果、14は、所定の単語の後に続き得る
単語の出現確率(すなわち、単語wn-1の次に単語wn
接続する条件付き確率)を示す1種類以上の信頼度計算
用前向き統計言語モデル、15は、所定の単語の前に続
き得る単語の出現確率(すなわち、単語wn+1の前に単
語wnが接続する条件付き確率)を示す1種類以上の信
頼度計算用後向き統計言語モデル、13は、信頼度計算
用前向き統計言語モデル14及び信頼度計算用後向き統
計言語モデル15を用いて前記連続音声認識結果8であ
る単語列を構成する各単語のそれぞれに対して前記各単
語が正認識であるか否かの信頼度を算出する言語的信頼
度計算手段である。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiment 1 FIG. 1 is a block diagram showing a configuration of the speech recognition device according to the first embodiment of the present invention. 1, reference numeral 1 denotes an input end of an audio signal, 2 denotes an input audio signal input from the input end 1, 3 denotes an analysis unit for performing an acoustic analysis of the input audio signal 2, and 4 denotes an input audio obtained by the analysis unit 3 A time series of feature vectors of the signal 2, a continuous speech recognition means 5 for receiving a time series 4 of the feature vectors of the input speech signal 2, performing continuous speech recognition of the input speech, and outputting a word string as a recognition result, and 6 a sound Model, 7 is a language model for speech recognition, 8 is a speech recognition result output from the continuous speech recognition means 5, and 14 is a probability of occurrence of a word that can follow a predetermined word (that is, next to the word w n−1 ). One or more types of forward-looking statistical language models for calculating reliability, indicating the conditional probability that a word w n is connected, 15 is a probability of appearance of a word that can follow a given word (ie, a word before a word w n + 1 ). conditional probability that the word w n is connected to the ), One or more types of backward statistical language models for calculating reliability, 13 are words that are the continuous speech recognition results 8 using the forward statistical language model 14 for calculating reliability and the backward statistical language model 15 for calculating reliability. A linguistic reliability calculating means for calculating the reliability of each word constituting the column as to whether or not each word is correctly recognized.

【0025】従来技術と同様に、本実施の形態では、音
響モデル6として連続分布型のHMMを用いる。音響モ
デル6は単語単位、すなわち1個のモデルで1個の単語
をモデル化するものとする。したがって認識対象語彙数
と同数の音響モデルを用意する。1個のモデルは複数個
の状態で構成し、モデルのトポロジーはleft−to
−right型とする。
As in the prior art, in this embodiment, a continuous distribution type HMM is used as the acoustic model 6. The acoustic model 6 models one word with one word, that is, one model. Therefore, the same number of acoustic models as the number of words to be recognized are prepared. One model is composed of a plurality of states, and the topology of the model is left-to-to.
-A right type.

【0026】音声認識用言語モデル7も従来技術と同様
に統計言語モデルである単語バイグラムモデルを用いる
こととする。認識対象は例えばホテル予約に関するユー
ザ発話とする。音声認識用言語モデル7は、あらかじめ
ホテル予約に関する大量のユーザ発話を書き起こしたテ
キストデータを用いて学習しておくものとする。
The speech recognition language model 7 uses a word bigram model, which is a statistical language model, as in the prior art. The recognition target is, for example, a user utterance related to hotel reservation. The speech recognition language model 7 is learned in advance using text data in which a large amount of user utterances related to hotel reservations are transcribed.

【0027】本発明で新たに追加した信頼度計算用前向
き統計言語モデル14としては、本実施の形態では音声
認識用言語モデル7と同じモデルを用いることとする。
In the present embodiment, the same model as the language model 7 for speech recognition is used as the forward statistical language model 14 for reliability calculation newly added in the present invention.

【0028】また、信頼度計算用後向き統計言語モデル
15は、通常のn−gramモデルでは当該単語の生起
確率は先行する数単語との条件付き確率であるのに対
し、本実施の形態では、当該単語の生起確率を後続する
数単語との条件付き確率とするものである。例えば信頼
度計算用後向き統計言語モデル15として、後向きバイ
グラムモデルを用いる場合、「明日」+「二泊」+「宿
泊」という単語列における「二泊」の生起確率はP(二
泊|宿泊)として計算する。信頼度計算用後向き統計言
語モデル15もあらかじめホテル予約に関する大量のユ
ーザ発話を書き起こしたテキストデータを用いて学習し
ておくものとする。
In the backward statistical language model 15 for calculating reliability, the occurrence probability of the word in the ordinary n-gram model is the conditional probability with the preceding several words, whereas in the present embodiment, The occurrence probability of the word is set as a conditional probability with the following several words. For example, when a backward bigram model is used as the backward statistical language model 15 for calculating reliability, the occurrence probability of “two nights” in the word string “tomorrow” + “two nights” + “stay” is P (two nights | stay). Is calculated as The backward statistical language model 15 for reliability calculation is also learned in advance using text data in which a large amount of user utterances related to hotel reservations are transcribed.

【0029】次に、本実施の形態における音声認識装置
の動作について説明する。音声信号の入力端1から音声
信号2を入力すると、分析手段3と連続音声手段5は従
来技術の音声認識装置と同様の動作を行い、連続音声手
段5は音声認識結果8として単語列w1,w2,…,
i,…,wN(wiは認識結果の単語列中で先頭からi
番目の単語、Nは単語列の長さ)を出力する。
Next, the operation of the speech recognition apparatus according to the present embodiment will be described. When a voice signal 2 is input from a voice signal input terminal 1, the analysis means 3 and the continuous voice means 5 perform the same operation as the conventional voice recognition apparatus, and the continuous voice means 5 outputs the word string w 1 as the voice recognition result 8. , W 2 , ...,
w i ,..., w N (where w i is i
The second word, N, is the length of the word string.

【0030】次に、言語的信頼度計算手段13は、音声
認識結果8である単語列w1,w2,…,wi,…,wN
入力として、信頼度計算用前向き統計言語モデル14と
信頼度計算用後向き統計言語モデル15とを用いて、以
下の(3)式にしたがって各単語の信頼度S(2) n(n=
1〜N)を求める。(3)式中のP(wn|wn-1)は、
信頼度計算用前向き統計言語モデル13が保持している
単語wn-1の次に単語wnが接続する条件付き確率であ
る。すなわち単語wnの信頼度として統計言語モデルの
確率値を利用する。そして言語的信頼度計算手段13は
信頼度を付与された認識結果16として単語列w1
2,…,wi,…,wNと信頼度S(2) 1,S(2 ) 2,…,
(2) i,…,S(2) Nを出力する。
Next, linguistic reliability calculation means 13, a word string w 1, w 2 is a speech recognition result 8, ..., w i, ..., as an input w N, forward statistical language model for reliability calculation 14 and the backward statistical language model 15 for reliability calculation, the reliability S (2) n (n =
1 to N). P (w n | w n-1 ) in the equation (3) is
This is the conditional probability that the word w n is connected next to the word w n −1 held by the reliability calculation forward statistical language model 13. That is, using the probability value of statistical language models as the reliability of the word w n. Then, the linguistic reliability calculating means 13 outputs the word string w 1 ,
w 2 ,..., w i ,..., w N and the reliability S (2) 1 , S (2 ) 2 ,.
S (2) i , ..., S (2) N are output.

【0031】[0031]

【数3】 (Equation 3)

【0032】通常の音声認識では統計言語モデルは単語
列w1,w2,…,wi,…,wNの全体に対する言語尤度
を求めるのに用いる。そして前記単語列全体に対する言
語尤度を音響尤度と荷重和することによって単語列
1,w2,…,wi,…,wNの音声認識スコアを算出す
る。したがって例えば発話が「(ポーズ)二泊宿泊しま
す(ポーズ)」で、音声認識結果の候補として「(ポー
ズ)二泊近くします(ポーズ)」と「(ポーズ)二泊宿
泊します(ポーズ)」の2つを比較した場合、言語尤度
は後者が高くなることが期待できるが、音響尤度は前者
のほうが高く、言語尤度と音響尤度を荷重和した音声認
識スコアも前者のほうが高くなることが起こり得る。こ
の場合、誤認識単語である「近く」に対する信頼度を低
くすることは前述した従来技術においては困難であっ
た。
[0032] In the normal voice recognition statistical language model is a word string w 1, w 2, ..., w i, ..., used to determine the language likelihood for the entire w N. And the word sequence language likelihood for the entire word string by acoustic likelihood and weighted sum w 1, w 2, ..., w i, ..., and calculates a speech recognition score w N. Therefore, for example, the utterance is “(pause) staying for two nights (pause)”, and “(pause) staying for nearly two nights (pause)” and “(pause) staying for two nights (pause) as voice recognition result candidates )), It can be expected that the latter has a higher language likelihood, but the acoustic likelihood is higher in the former, and the speech recognition score obtained by weighted sum of the language likelihood and the acoustic likelihood is also higher in the former. Can be higher. In this case, it is difficult in the above-described related art to lower the reliability of the word “near” which is an erroneously recognized word.

【0033】一方、本実施の形態では認識結果の単語列
に対して改めて個々の単語ごとに言語尤度を求め、その
言語尤度を当該単語の信頼度とすることに特徴がある。
これによって音響的に類似した単語による認識誤りの場
合でも、言語的に先行単語w n-1との接続確率が低い場
合には当該単語wnに対する信頼度を低くすることが可
能となる。例えば発話が「(ポーズ)二泊宿泊します
(ポーズ)」で、連続音声認識結果が「(ポーズ)二泊
近くします(ポーズ)」(w1=ポーズ, w2=「二
泊」、w3=「近く」、w4=「します」、w5=ポー
ズ)であった場合、w3=「近く」は誤認識で正解の
「宿泊」と音響的に類似しているが通常の日本語では
「二泊」+「近く」という単語の連鎖はまれなので、言
語モデルの尤度P(近く|二泊)が低くなり、w3
「近く」に対する信頼度を低くすることができる。
On the other hand, in this embodiment, a word string
The language likelihood for each individual word
The feature is that the language likelihood is used as the reliability of the word.
Thus, the field of recognition errors due to acoustically similar words
Linguistically preceding word w n-1When the connection probability with is low
If the word wnCan be less reliable
It works. For example, the utterance is "(pause) I will stay for two nights
(Pause) "and the continuous speech recognition result is" (pause)
I'll be close (pause) "(w1= Pause, wTwo= "Two
Night ", wThree= "Near", wFour= "I do", wFive= Poe
Z), wThree= "Nearby" is incorrect and incorrect
It is acoustically similar to "Accommodation", but in normal Japanese
The word "Night Night" + "Near" is rare, so the word
Likelihood P (near | two nights) of the Japanese language model decreases, wThree=
The reliability for “near” can be reduced.

【0034】なお、信頼度は以下の(4)式または
(5)式によって計算することも可能である。(4)式
及び(5)式中のP(wn|wn+1)は、信頼度計算用後
向き統計言語モデル15が保持している単語wn+1の前
に単語wnが接続する条件付き確率である。(4)式中
のMAX( , )は2つの値のうち大きい方を選択す
る演算子である。また、(5)式中のαは事前に設定す
る定数であり例えばα=0.5である。なお、(4)式
及び(5)式においては、信頼度計算用前向き統計言語
モデル14を用いて各単語が正認識であるか否かの第一
の信頼度と、信頼度計算用後向き統計言語モデル15を
用いて各単語が正認識であるか否かの第二の信頼度とを
求め、(4)式においては、第一及び第二の信頼度のう
ち、大きい方の値を当該単語の信頼度として算出し、
(5)式においては、第一及び第二の信頼度の荷重和を
当該単語の信頼度として算出している。
The reliability can be calculated by the following equation (4) or (5). P (w n | w n + 1 ) in the equations (4) and (5) indicates that the word w n is connected before the word w n + 1 held by the reliability calculation backward statistical language model 15. Is the conditional probability of MAX (,) in the expression (4) is an operator for selecting the larger one of the two values. Further, α in the equation (5) is a constant set in advance, for example, α = 0.5. In the expressions (4) and (5), the first reliability of whether each word is correctly recognized and the backward statistics for reliability calculation are calculated by using the reliability calculation forward statistical language model 14. Using the language model 15, a second reliability indicating whether each word is correctly recognized is obtained. In the equation (4), the larger value of the first and second reliability is determined. Calculated as word reliability,
In the equation (5), the weighted sum of the first and second reliability is calculated as the reliability of the word.

【0035】[0035]

【数4】 (Equation 4)

【0036】[0036]

【数5】 (Equation 5)

【0037】このように前方と後方の両方からの単語接
続の条件付き確率を考慮することにより、さらに高精度
に信頼度を計算することができる。例えば発話が「(ポ
ーズ)二泊宿泊します(ポーズ)」で、音声認識結果が
「(ポーズ)二泊近くします(ポーズ)」(w1=ポー
ズ, w2=「二泊」、w3=「近く」、w4=「しま
す」、w5=ポーズ)であった場合、w4=「します」は
正認識であるが、w3=「近く」が誤認識のため、
(3)式による単語w4に対する信頼度の計算ではP
(します|近く)の値を用いることになる。「近く」が
誤認識のため「近く」+「します」の単語連鎖は通常の
日本語ではまれなので、w4は正認識であるが信頼度が
低くなってしまう。これに対して(4)及び(5)式で
はP(します|近く)の値の他に、Pbw(します|ポー
ズ)の値を考慮しており、「します」+「ポーズ」の単
語連鎖は日本語としてよく生じるので、Pbw(します|
ポーズ)は高い値となり、正認識であるw4に対する信
頼度が低くなることを抑制するという効果を有する。
As described above, the reliability can be calculated with higher accuracy by considering the conditional probability of the word connection from both the front and the rear. For example, the utterance is “(pause) staying for two nights (pause)”, and the speech recognition result is “(pause) staying near two nights (pause)” (w 1 = pause, w 2 = “two nights”, w 3 = “near”, w 4 = “do”, w 5 = pause), w 4 = “do” is correct recognition, but w 3 = “near” is erroneous recognition.
In the calculation of the reliability of the word w 4 by the equation (3), P
(Near | near) value will be used. Since the "near" because of erroneous recognition "near" + word chain of "you" is rare in normal Japanese, w 4 is a positive recognition reliability becomes low. On the other hand, in the formulas (4) and (5), in addition to the value of P (do | near), the value of P bw (do | pause) is considered, and "do" + "pause" Word chains often occur in Japanese, so P bw (I |
Pause) becomes a high value, reliability of w 4 is a correct recognition has the effect of suppressing be lower.

【0038】なお、以上では信頼度計算用前向き統計言
語モデル14と信頼度計算用後向き統計言語モデル15
は単語単位のバイグラムを例に挙げて説明したが、品詞
や単語を幾つかのクラスに分類してまとめた単語クラス
を言語モデルの単位としてもよい。またトライグラムや
他の統計言語モデルを用いても同様の効果を得ることが
できる。
In the above description, the forward statistical language model 14 for calculating reliability and the backward statistical language model 15 for calculating reliability are described.
Has been described using a bigram in word units as an example, but a word class in which parts of speech and words are classified into several classes and put together may be used as a unit of the language model. Similar effects can be obtained by using a trigram or another statistical language model.

【0039】例えば、単語クラスバイグラム(単語クラ
スn−gramモデル)を用いる場合には、(3)式の
代りに以下の(6)式あるいは(7)式によって信頼度
を計算すればよい。
For example, when a word class bigram (word class n-gram model) is used, the reliability may be calculated by the following expression (6) or (7) instead of expression (3).

【0040】[0040]

【数6】 (Equation 6)

【0041】[0041]

【数7】 (Equation 7)

【0042】(6)式及び(7)式中でcnは単語wn
属するクラス、cn-1は単語wn-1が属するクラスであ
る。またP(cn|cn-1)は先行クラスがcn-1であっ
たときに次に接続するクラスがcnである条件付き確率
である。またP(wn|cn)はクラスcn内での単語wn
の出現確率である。なお(6)式に対して(7)式の違
いはP(wn|cn)を乗じていないことであるが、これ
は単語クラスcnに属する単語数が多い場合にはP(wn
|cn)の値が小さくなり、単語クラス間のバイグラム
確率P(cn|cn-1)は大きい場合でも、信頼度が低く
なってしまうことを防ぐ効果がある。例えば本例のよう
にホテル予約に関する統計言語モデルでホテル名を一つ
のクラスとし、そのクラス内での各ホテル名の出現確率
P(wn|cn)を等確率と設定した場合、ホテル数をN
個とすると前記ホテル名のクラスからのホテル名の出現
確率であるP(wn|cn)の値は1/Nとなる。したが
ってNが大きくなるほど(6)式で計算される信頼度は
低くなるが、(7)式ではP(wn|cn)を乗じていな
いため信頼度の値はNの値に依存しないという効果があ
る。
In the equations (6) and (7), c n is a class to which the word w n belongs, and c n-1 is a class to which the word w n-1 belongs. P (c n | c n-1 ) is a conditional probability that the class to be connected next is c n when the preceding class is c n-1 . The P (w n | c n) the word w n in the class c n
Is the appearance probability of. Note that the difference between equation (6) and equation (7) is that P (w n | c n ) is not multiplied. This is because if the number of words belonging to word class c n is large, P (w n n
| C n ) is reduced, and even if the bigram probability P (c n | c n-1 ) between word classes is large, there is an effect of preventing the reliability from being lowered. For example, as shown in this example, in a statistical language model relating to hotel reservation, a hotel name is set as one class, and the appearance probability P (w n | c n ) of each hotel name in the class is set as an equal probability. To N
If the number is P, the value of P (w n | c n ), which is the appearance probability of the hotel name from the class of the hotel name, is 1 / N. Therefore, as N increases, the reliability calculated by equation (6) decreases, but in equation (7), the value of reliability does not depend on the value of N because P (w n | c n ) is not multiplied. effective.

【0043】また、単語クラスバイグラムを用いる場合
の(4)式の代りとしては(8)式あるいは(9)式に
よって信頼度を計算すればよい。(8)式及び(9)式
中でPbw(cn|cn+1)は単語クラスcn+1の前が単語
クラスcnである条件付き確率である。
When the word class bigram is used, instead of the expression (4), the reliability may be calculated by the expression (8) or the expression (9). In Equations (8) and (9), P bw (c n | c n + 1 ) is a conditional probability that the word class c n + 1 precedes the word class c n .

【0044】[0044]

【数8】 (Equation 8)

【0045】[0045]

【数9】 (Equation 9)

【0046】同様に(5)式の代りとしては(10)式
あるいは(11)式によって信頼度を計算すればよい。
Similarly, instead of equation (5), the reliability may be calculated by equation (10) or (11).

【0047】[0047]

【数10】 (Equation 10)

【0048】[0048]

【数11】 [Equation 11]

【0049】以上のように、本実施の形態における音声
認識装置においては、認識対象の単語の生起確率を当該
単語に先行するn個の単語との条件付き確率とした信頼
度計算用前向き統計言語モデル14と、認識対象の単語
の生起確率を当該単語に後続するn個の単語との条件付
き確率とした信頼度計算用後向き統計言語モデル15と
を備え、連続音声認識の結果である単語列を構成する各
単語のそれぞれに対して、各単語が正認識であるか否か
の信頼度を、単語の前後関係の尤度に関する言語的な統
計量に基づいて算出するようにしたので、認識した単語
が正解単語と音響的に類似している場合でも、当該単語
が誤認識単語であれば、低い信頼度を与えることがで
き、音声認識の精度を高くすることができる。
As described above, in the speech recognition apparatus according to the present embodiment, the forward statistical language for calculating the reliability is defined as the occurrence probability of the word to be recognized as the conditional probability with the n words preceding the word. A word sequence which is a result of continuous speech recognition, comprising a model 14, and a backward statistical language model 15 for reliability calculation in which the occurrence probability of the word to be recognized is a conditional probability of n words following the word. The reliability of whether each word is correctly recognized is calculated based on the linguistic statistic about the likelihood of the context of the word for each of the words constituting Even when the word is acoustically similar to the correct word, if the word is a misrecognized word, low reliability can be given, and the accuracy of speech recognition can be increased.

【0050】実施の形態2.図2は、本実施の形態によ
る音声認識装置の他の構成例を示すブロック図である。
図2において、上述の従来例または実施の形態1と同等
部分には同一番号を付してここではその説明を省略す
る。本実施の形態において新たに追加した部分は、言語
的信頼度計算手段13によって算出された信頼度16と
音響的信頼度計算手段11によって算出された信頼度1
2との荷重和を最終的な信頼度18として算出する信頼
度統合手段17である。
Embodiment 2 FIG. 2 is a block diagram showing another configuration example of the speech recognition device according to the present embodiment.
In FIG. 2, the same parts as those in the above-described conventional example or the first embodiment are denoted by the same reference numerals, and description thereof will be omitted. In the present embodiment, the newly added portions are the reliability 16 calculated by the linguistic reliability calculation means 13 and the reliability 1 calculated by the acoustic reliability calculation means 11.
The reliability integration means 17 calculates the sum of the weights with 2 as the final reliability 18.

【0051】実施の形態1と同様に本実施の形態では音
響モデル6として連続分布型のHMMを用いる。音響モ
デル6は単語単位、すなわち、1個のモデルで1個の単
語をモデル化するものとする。したがって認識対象語彙
数と同数の音響モデルを用意する。1個のモデルは複数
個の状態で構成し、モデルのトポロジーはleft−t
o−right型とする。
In the present embodiment, a continuous distribution type HMM is used as the acoustic model 6 as in the first embodiment. It is assumed that the acoustic model 6 models one word with a word unit, that is, one model. Therefore, the same number of acoustic models as the number of words to be recognized are prepared. One model is composed of a plurality of states, and the topology of the model is left-t
o-right type.

【0052】音声認識用言語モデル7も、実施の形態1
と同様に統計言語モデルである単語バイグラムモデルを
用いることとする。認識対象は例えばホテル予約に関す
るユーザ発話とする。音声認識用言語モデル7は、あら
かじめホテル予約に関する大量のユーザ発話を書き起こ
したテキストデータを用いて学習しておくものとする。
The speech recognition language model 7 is also used in the first embodiment.
The word bigram model, which is a statistical language model, is used in the same manner as described above. The recognition target is, for example, a user utterance related to hotel reservation. The speech recognition language model 7 is learned in advance using text data in which a large amount of user utterances related to hotel reservations are transcribed.

【0053】本発明で新たに追加した信頼度計算用前向
き統計言語モデルとしては、本実施例では音声認識用言
語モデル7と同じモデルを用いることとする。
As the forward-looking statistical language model for reliability calculation newly added in the present invention, the same model as the speech recognition language model 7 is used in this embodiment.

【0054】また、信頼度計算用後向き統計言語モデル
15は、実施の形態1と同様に後向きバイグラムモデル
を用い、あらかじめホテル予約に関する大量のユーザ発
話を書き起こしたテキストデータを用いて学習しておく
ものとする。
The backward statistical language model 15 for calculating the reliability uses a backward bigram model as in the first embodiment, and learns in advance using text data in which a large amount of user utterances related to hotel reservation have been transcribed. Shall be.

【0055】次に、本実施の形態における音声認識装置
の動作について説明する。音声信号の入力端1から音声
信号2を入力すると、分析手段3と連続音声手段5と言
語的信頼度計算手段13は実施の形態1の音声認識装置
と同様の動作を行い、言語的信頼度計算手段13は信頼
度を付与された認識結果16として、単語列w1,w2
…,wi,…,wNと信頼度S(2) 1,S(2) 2,…,
(2) i,…,S(2) Nを出力する。
Next, the operation of the speech recognition apparatus according to the present embodiment will be described. When the voice signal 2 is input from the voice signal input terminal 1, the analyzing means 3, the continuous voice means 5, and the linguistic reliability calculating means 13 perform the same operations as those of the voice recognition apparatus of the first embodiment, and The calculating means 13 outputs the word strings w 1 , w 2 ,
…, W i ,…, w N and reliability S (2) 1 , S (2) 2 ,…,
S (2) i , ..., S (2) N are output.

【0056】また、分析手段3の出力である特徴ベクト
ルの時系列4と音響モデル6が参照尤度計算手段9に入
力され、参照尤度計算手段9と音響的信頼度計算手段1
1は従来技術と同様の動作をして、その結果、音響的信
頼度計算手段11は、信頼度S(1) 1,S(1) 2,…,S
(1) i,…,S(1) Nを出力する。
The time series 4 of the feature vector and the acoustic model 6 which are the outputs of the analysis means 3 are input to the reference likelihood calculation means 9, and the reference likelihood calculation means 9 and the acoustic reliability calculation means 1
1 operate in the same manner as in the prior art, and as a result, the acoustic reliability calculation means 11 outputs the reliability S (1) 1 , S (1) 2 ,.
(1) i , ..., S (1) Output N.

【0057】次に、信頼度統合手段17は、言語的信頼
度計算手段13から出力された認識結果16である単語
列w1,w2,…,wi,…,wNと信頼度S(2) 1
(2) 2,…,S(2) i,…,S(2) Nと、音響的信頼度計算
手段11の出力である信頼度S(1) 1,S(1) 2,…,S
(1) i,…,S(1) Nを入力として、以下の(12)式にし
たがって統合信頼度S(10) 1,S(10) 2,…,S(10) i
…,S(10) Nを計算する。(12)式のβは事前に設定
する定数であり例えばβ=0.5である。
Next, the reliability integration means 17 outputs the word strings w 1 , w 2 ,..., W i ,..., W N which are the recognition results 16 output from the linguistic reliability calculation means 13 and the reliability S (2) 1 ,
S (2) 2 ,..., S (2) i ,..., S (2) N and the reliability S (1) 1 , S (1) 2 ,. S
(1) i, ..., S (1) where N is the input, the following (12) integrated reliability according formula S (10) 1, S ( 10) 2, ..., S (10) i,
…, S (10) N is calculated. Β in the equation (12) is a constant set in advance, for example, β = 0.5.

【0058】[0058]

【数12】 (Equation 12)

【0059】そして信頼度統合手段17は信頼度を付与
された認識結果18として単語列w 1,w2,…,wi
…,wNと統合信頼度S(10) 1,S(10) 2,…,S(10) i
…,S(10) Nを出力する。
The reliability integration means 17 gives the reliability.
Word string w as the recognized recognition result 18 1, WTwo, ..., wi,
…, WNAnd integrated reliability S(Ten) 1, S(Ten) Two, ..., S(Ten) i,
…, S(Ten) NIs output.

【0060】以上のように、本実施の形態においては、
上述の実施の形態1と同様の効果が得られるとともに、
さらに、信頼度統合手段17を設けて、音響尤度に基づ
く信頼度12と言語的な信頼度16とを統合するように
したので、音響と言語の両面から信頼度を考慮すること
が可能になり、より高精度な信頼度を得ることができ
る。
As described above, in the present embodiment,
The same effects as in the first embodiment can be obtained, and
Furthermore, since the reliability integration means 17 is provided to integrate the reliability 12 based on the acoustic likelihood and the linguistic reliability 16, it is possible to consider the reliability from both sound and language. Therefore, a higher degree of reliability can be obtained.

【0061】なお、本例で言語的な信頼度として(3)
式で計算されるS(2) 1,S(2) 2,…,S(2) i,…,S
(2) Nとを用いたが、(4)式または(8)式または
(9)式で計算されるS(3) 1,S(3) 2,…,S(3) i
…,S(3) Nあるいは(5)式または(10)式または
(11)式で計算されるS(4) 1,S(4) 2,…,S(4) i
…,S(4 ) Nを用いてもかまわない。また、音響尤度に基
づく信頼度は従来技術と同様の方法によって求めた値を
用いたが他の方法によって求めた値を用いてかまわな
い。
In this example, the linguistic reliability is (3)
S (2) 1 , S (2) 2 ,..., S (2) i ,.
(2) N was used, but S (3) 1 , S (3) 2 ,..., S (3) i , calculated by equation (4) or (8) or (9)
, S (3) N or S (4) 1 , S (4) 2 ,..., S (4) i , calculated by equation (5), equation (10), or equation (11)
.., S (4 ) N may be used. As the reliability based on the acoustic likelihood, a value obtained by the same method as that of the related art is used, but a value obtained by another method may be used.

【0062】[0062]

【発明の効果】この発明は、入力された音声の連続音声
認識を行い、認識結果として当該入力された音声に対応
する単語列を出力する連続音声認識手段と、所定単語の
前後に言語的に続き得る各単語の出現確率を与える1種
類以上の信頼度計算用統計言語モデルを格納している信
頼度計算用統計言語モデル格納手段と、前記認識結果の
単語列を構成している各単語のそれぞれに対して、前記
信頼度計算用統計言語モデルを用いて、前記各単語が正
認識であるか否かの信頼度を算出する言語的信頼度計算
手段とを備えた音声認識装置であるので、正解単語と音
響的に類似している場合でも誤認識単語であれば低い信
頼度を与えることを可能にし、音声認識の精度を向上さ
せることができる。
According to the present invention, there is provided a continuous voice recognition means for performing continuous voice recognition of an input voice and outputting a word string corresponding to the input voice as a recognition result, and linguistically before and after a predetermined word. Means for storing a statistical language model for reliability calculation that stores one or more statistical language models for reliability calculation that give the probability of appearance of each possible word; For each of the above, the speech recognition device includes linguistic reliability calculation means for calculating the reliability of whether each of the words is correctly recognized using the statistical language model for reliability calculation. Even if the word is acoustically similar to the correct word, it can be given low reliability if the word is an erroneously recognized word, and the accuracy of voice recognition can be improved.

【0063】また、前記認識結果の単語列を構成してい
る各単語のそれぞれに対して、前記各単語が正認識であ
るか否かの信頼度を音響尤度に基づいて算出する音響的
信頼度計算手段と、前記言語的信頼度計算手段によって
算出された信頼度と前記音響的信頼度計算手段によって
算出された信頼度の両者の値を用いて、統合信頼度を算
出する信頼度統合手段とをさらに備えているので、音響
と言語の両面から信頼度を考慮することが可能になり、
より高精度な信頼度を得ることができる。
Further, for each of the words constituting the word string of the recognition result, the reliability of whether or not each word is correctly recognized is calculated based on the acoustic likelihood. Reliability calculating means, and reliability integrating means for calculating integrated reliability using both values of the reliability calculated by the linguistic reliability calculating means and the reliability calculated by the acoustic reliability calculating means. It is possible to consider the reliability from both the sound and the language,
Higher accuracy reliability can be obtained.

【0064】また、前記信頼度計算用統計言語モデルと
して単語n−gramモデルを用いるようにしたので、
単語に先行するまたは後続する単語との条件付き確率を
元に、認識結果の単語列を構成する各単語の信頼度を求
めることができる。
Since the word n-gram model is used as the statistical language model for calculating the reliability,
Based on the conditional probability of the word preceding or succeeding the word, the reliability of each word constituting the word string of the recognition result can be obtained.

【0065】また、前記信頼度計算用統計言語モデルと
して単語を幾つかのクラスに分類してまとめた単語クラ
スn−gramモデルを用いるようにしたので、単語に
先行するまたは後続する単語との条件付き確率を元に、
認識結果の単語列を構成する各単語の信頼度を求めるこ
とができる。
Further, since the word class n-gram model in which words are classified into several classes and put together is used as the statistical language model for calculating the reliability, the condition for the word preceding or following the word is used. Based on the attached probability,
The reliability of each word constituting the word string of the recognition result can be obtained.

【0066】また、1種類以上の信頼度計算用統計言語
モデルとして、当該単語と先行の所定個の単語との条件
付き確率モデルである信頼度計算用前向き統計言語モデ
ルと、当該単語と後続の所定個の単語との条件付き確率
モデルである信頼度計算用後向き統計言語モデルとを備
え、前記言語的信頼度計算手段が、前記連続音声認識の
認識結果の単語列を構成する各単語のそれぞれに対して
前記信頼度計算用前向き統計言語モデルを用いて前記各
単語が正認識であるか否かの第一の信頼度を算出し、前
記信頼度計算用後向き統計言語モデルを用いて前記各単
語が正認識であるか否かの第二の信頼度を算出するよう
にしたので、さらに高精度に信頼度を計算することがで
きる。
As one or more kinds of statistical language models for calculating reliability, a forward statistical language model for calculating reliability, which is a conditional probability model of the word and a predetermined number of preceding words, A backward statistical language model for reliability calculation, which is a conditional probability model with a predetermined number of words, wherein the linguistic reliability calculation means is configured to generate a word sequence of a recognition result of the continuous speech recognition. Using the reliability calculation forward statistical language model to calculate a first reliability of whether or not each word is correctly recognized, using the reliability calculation backward statistical language model Since the second reliability of whether the word is correctly recognized is calculated, the reliability can be calculated with higher accuracy.

【0067】また、前記言語的信頼度計算手段が、前記
第一の信頼度と前記第二の信頼度のうち、大きい方の値
を当該単語の信頼度として出力するようにしたので、さ
らに高精度に信頼度を計算することができる。
Further, the linguistic reliability calculating means outputs the larger value of the first reliability and the second reliability as the reliability of the word, so that the linguistic reliability can be further increased. Accuracy can calculate reliability.

【0068】また、前記言語的信頼度計算手段が、前記
第一の信頼度と前記第二の信頼度との荷重和を当該単語
の信頼度として出力するようにしたので、さらに高精度
に信頼度を計算することができる。
Further, the linguistic reliability calculating means outputs the weighted sum of the first reliability and the second reliability as the reliability of the word. Degrees can be calculated.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の実施の形態1における音声認識装置
の構成を示した構成図である。
FIG. 1 is a configuration diagram showing a configuration of a speech recognition device according to Embodiment 1 of the present invention.

【図2】 本発明の実施の形態2における音声認識装置
の構成を示した構成図である。
FIG. 2 is a configuration diagram showing a configuration of a speech recognition device according to a second embodiment of the present invention.

【図3】 従来の音声認識装置の構成を示した構成図で
ある。
FIG. 3 is a configuration diagram showing a configuration of a conventional voice recognition device.

【符号の説明】[Explanation of symbols]

1 音声信号の入力端、2 入力音声信号、3 分析手
段、4 入力音声信号の特徴ベクトルの時系列、5 連
続音声認識手段、6 音響モデル、7 音声認識用言語
モデル、8 音声認識結果、9 参照尤度計算手段、1
0 参照尤度、11 音響的信頼度計算手段、12 認
識結果、13 言語的信頼度計算手段、14 信頼度計
算用前向き統計言語モデル、15 信頼度計算用後向き
統計言語モデル、16,18 信頼度、17 信頼度統
合手段。
Reference Signs List 1 input terminal of voice signal, 2 input voice signal, 3 analysis means, 4 time series of feature vector of input voice signal, 5 continuous voice recognition means, 6 acoustic model, 7 language model for voice recognition, 8 voice recognition result, 9 Reference likelihood calculating means, 1
0 reference likelihood, 11 acoustic reliability calculation means, 12 recognition result, 13 linguistic reliability calculation means, 14 forward statistical language model for reliability calculation, 15 backward statistical language model for reliability calculation, 16, 18 reliability , 17 Reliability integration means.

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 入力された音声の連続音声認識を行い、
認識結果として当該入力された音声に対応する単語列を
出力する連続音声認識手段と、 所定単語の前後に言語的に続き得る各単語の出現確率を
与える1種類以上の信頼度計算用統計言語モデルを格納
している信頼度計算用統計言語モデル格納手段と、 前記認識結果の単語列を構成している各単語のそれぞれ
に対して、前記信頼度計算用統計言語モデルを用いて、
前記各単語が正認識であるか否かの信頼度を算出する言
語的信頼度計算手段とを備えたことを特徴とする音声認
識装置。
1. Continuous speech recognition of input speech is performed,
Continuous speech recognition means for outputting a word sequence corresponding to the input speech as a recognition result; and one or more statistical language models for calculating reliability, which give the appearance probabilities of words that can be linguistically continued before and after a predetermined word Using a statistical language model for reliability calculation, for each of the words forming the word string of the recognition result,
A speech recognition device comprising: a linguistic reliability calculation unit that calculates a reliability of whether each of the words is correctly recognized.
【請求項2】 前記認識結果の単語列を構成している各
単語のそれぞれに対して、前記各単語が正認識であるか
否かの信頼度を音響尤度に基づいて算出する音響的信頼
度計算手段と、 前記言語的信頼度計算手段によって算出された信頼度と
前記音響的信頼度計算手段によって算出された信頼度の
両者の値を用いて、統合信頼度を算出する信頼度統合手
段とをさらに備えたことを特徴とする請求項1に記載の
音声認識装置。
2. An acoustic reliability for each word constituting a word sequence of the recognition result, wherein the reliability of whether or not each word is correctly recognized is calculated based on the acoustic likelihood. Reliability calculation means; and reliability integration means for calculating integrated reliability using both values of the reliability calculated by the linguistic reliability calculation means and the reliability calculated by the acoustic reliability calculation means. The speech recognition device according to claim 1, further comprising:
【請求項3】 前記信頼度計算用統計言語モデルとして
単語n−gramモデルを用いることを特徴とする請求
項1または2に記載の音声認識装置。
3. The speech recognition device according to claim 1, wherein a word n-gram model is used as the reliability calculation statistical language model.
【請求項4】 前記信頼度計算用統計言語モデルとして
単語を幾つかのクラスに分類してまとめた単語クラスn
−gramモデルを用いることを特徴とする請求項1ま
たは2に記載の音声認識装置。
4. A word class n in which words are classified into several classes and compiled as the statistical language model for calculating reliability.
The speech recognition device according to claim 1 or 2, wherein a -gram model is used.
【請求項5】 1種類以上の信頼度計算用統計言語モデ
ルとして、 当該単語と先行の所定個の単語との条件付き確率モデル
である信頼度計算用前向き統計言語モデルと、当該単語
と後続の所定個の単語との条件付き確率モデルである信
頼度計算用後向き統計言語モデルとを備え、 前記言語的信頼度計算手段が、 前記連続音声認識の認識結果の単語列を構成する各単語
のそれぞれに対して前記信頼度計算用前向き統計言語モ
デルを用いて前記各単語が正認識であるか否かの第一の
信頼度を算出し、 前記信頼度計算用後向き統計言語モデルを用いて前記各
単語が正認識であるか否かの第二の信頼度を算出するこ
とを特徴とする請求項1ないし4のいずれかに記載の音
声認識装置。
5. One or more types of statistical language models for calculating reliability, a forward statistical language model for calculating reliability, which is a conditional probability model of the word and a predetermined number of preceding words, A backward statistical language model for reliability calculation, which is a conditional probability model with a predetermined number of words, wherein the linguistic reliability calculation means comprises: Using the reliability calculation forward statistical language model to calculate a first reliability of whether or not each word is correctly recognized, using the reliability calculation backward statistical language model 5. The speech recognition device according to claim 1, wherein a second reliability of whether or not the word is correctly recognized is calculated.
【請求項6】 前記言語的信頼度計算手段が、 前記第一の信頼度と前記第二の信頼度のうち、大きい方
の値を当該単語の信頼度として出力することを特徴とす
る請求項5に記載の音声認識装置。
6. The linguistic reliability calculating means outputs a larger value of the first reliability and the second reliability as the reliability of the word. 6. The voice recognition device according to 5.
【請求項7】 前記言語的信頼度計算手段が、 前記第一の信頼度と前記第二の信頼度との荷重和を当該
単語の信頼度として出力することを特徴とする請求項5
に記載の音声認識装置。
7. The linguistic reliability calculating means outputs a weighted sum of the first reliability and the second reliability as the reliability of the word.
A speech recognition device according to claim 1.
JP2001167041A 2001-06-01 2001-06-01 Voice recognition device Abandoned JP2002358097A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001167041A JP2002358097A (en) 2001-06-01 2001-06-01 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001167041A JP2002358097A (en) 2001-06-01 2001-06-01 Voice recognition device

Publications (1)

Publication Number Publication Date
JP2002358097A true JP2002358097A (en) 2002-12-13

Family

ID=19009483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001167041A Abandoned JP2002358097A (en) 2001-06-01 2001-06-01 Voice recognition device

Country Status (1)

Country Link
JP (1) JP2002358097A (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240086A (en) * 2003-02-05 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> Method and system for evaluating reliability of speech recognition, program for evaluating reliability of speech recognition and recording medium with the program recorded thereon
JP2005275348A (en) * 2004-02-23 2005-10-06 Nippon Telegr & Teleph Corp <Ntt> Speech recognition method, device, program and recording medium for executing the method
JP2005284018A (en) * 2004-03-30 2005-10-13 Kddi Corp Voice recognition system
JP2007232967A (en) * 2006-02-28 2007-09-13 Mitsubishi Electric Corp Voice recognition apparatus
JP2007240589A (en) * 2006-03-06 2007-09-20 Nippon Telegr & Teleph Corp <Ntt> Speech recognition reliability estimating device, and method and program therefor
JP2010020102A (en) * 2008-07-10 2010-01-28 Fujitsu Ltd Speech recognition apparatus, speech recognition method and computer program
JP2010039539A (en) * 2008-07-31 2010-02-18 Ntt Docomo Inc Language model generating device and language model generating method
JP2013050742A (en) * 2012-12-11 2013-03-14 Ntt Docomo Inc Speech recognition device and speech recognition method
JP2016503908A (en) * 2013-01-22 2016-02-08 インタラクティブ・インテリジェンス・インコーポレイテッド False alarm reduction in speech recognition systems using contextual information
JP2016110087A (en) * 2014-12-02 2016-06-20 三星電子株式会社Samsung Electronics Co.,Ltd. Method and apparatus for speech recognition
JP2017167378A (en) * 2016-03-17 2017-09-21 株式会社東芝 Word score calculation device, word score calculation method, and program
WO2018047421A1 (en) * 2016-09-09 2018-03-15 ソニー株式会社 Speech processing device, information processing device, speech processing method, and information processing method

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240086A (en) * 2003-02-05 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> Method and system for evaluating reliability of speech recognition, program for evaluating reliability of speech recognition and recording medium with the program recorded thereon
JP2005275348A (en) * 2004-02-23 2005-10-06 Nippon Telegr & Teleph Corp <Ntt> Speech recognition method, device, program and recording medium for executing the method
JP2005284018A (en) * 2004-03-30 2005-10-13 Kddi Corp Voice recognition system
JP4689497B2 (en) * 2006-02-28 2011-05-25 三菱電機株式会社 Voice recognition device
JP2007232967A (en) * 2006-02-28 2007-09-13 Mitsubishi Electric Corp Voice recognition apparatus
JP2007240589A (en) * 2006-03-06 2007-09-20 Nippon Telegr & Teleph Corp <Ntt> Speech recognition reliability estimating device, and method and program therefor
US8271282B2 (en) 2008-07-10 2012-09-18 Fujitsu Limited Voice recognition apparatus, voice recognition method and recording medium
JP2010020102A (en) * 2008-07-10 2010-01-28 Fujitsu Ltd Speech recognition apparatus, speech recognition method and computer program
JP2010039539A (en) * 2008-07-31 2010-02-18 Ntt Docomo Inc Language model generating device and language model generating method
JP2013050742A (en) * 2012-12-11 2013-03-14 Ntt Docomo Inc Speech recognition device and speech recognition method
JP2016503908A (en) * 2013-01-22 2016-02-08 インタラクティブ・インテリジェンス・インコーポレイテッド False alarm reduction in speech recognition systems using contextual information
JP2016110087A (en) * 2014-12-02 2016-06-20 三星電子株式会社Samsung Electronics Co.,Ltd. Method and apparatus for speech recognition
JP2017167378A (en) * 2016-03-17 2017-09-21 株式会社東芝 Word score calculation device, word score calculation method, and program
WO2018047421A1 (en) * 2016-09-09 2018-03-15 ソニー株式会社 Speech processing device, information processing device, speech processing method, and information processing method
JPWO2018047421A1 (en) * 2016-09-09 2019-06-24 ソニー株式会社 Voice processing apparatus, information processing apparatus, voice processing method, and information processing method
EP3511931A4 (en) * 2016-09-09 2019-08-21 Sony Corporation Speech processing device, information processing device, speech processing method, and information processing method
US10957322B2 (en) 2016-09-09 2021-03-23 Sony Corporation Speech processing apparatus, information processing apparatus, speech processing method, and information processing method
JP7040449B2 (en) 2016-09-09 2022-03-23 ソニーグループ株式会社 Voice processing device, information processing device, voice processing method and information processing method

Similar Documents

Publication Publication Date Title
KR101183344B1 (en) Automatic speech recognition learning using user corrections
US6385579B1 (en) Methods and apparatus for forming compound words for use in a continuous speech recognition system
JP4301102B2 (en) Audio processing apparatus, audio processing method, program, and recording medium
US5268990A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
EP1603116A1 (en) Speech recognition device and speech recognition method
EP1447792A2 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
JPS62231995A (en) Decision of probability value
JPWO2007142102A1 (en) Language model learning system, language model learning method, and language model learning program
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
EP0903730A2 (en) Search and rescoring method for a speech recognition system
CN112951211B (en) Voice awakening method and device
JP2002358097A (en) Voice recognition device
JP6027754B2 (en) Adaptation device, speech recognition device, and program thereof
EP3309778A1 (en) Method for real-time keyword spotting for speech analytics
JP2000352993A (en) Voice recognition system and learning method of hidden markov model
JP2011053312A (en) Adaptive acoustic model generating device and program
JP2008026721A (en) Speech recognizer, speech recognition method, and program for speech recognition
JP3042455B2 (en) Continuous speech recognition method
JP3104900B2 (en) Voice recognition method
JP2996925B2 (en) Phoneme boundary detection device and speech recognition device
JP2005091504A (en) Voice recognition device
JP3873418B2 (en) Voice spotting device
JP3868798B2 (en) Voice recognition device
JP2738508B2 (en) Statistical language model creation device and speech recognition device
JPH08314490A (en) Word spotting type method and device for recognizing voice

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061212

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20070123