JP2886121B2 - Statistical language model generation device and speech recognition device - Google Patents

Statistical language model generation device and speech recognition device

Info

Publication number
JP2886121B2
JP2886121B2 JP7292685A JP29268595A JP2886121B2 JP 2886121 B2 JP2886121 B2 JP 2886121B2 JP 7292685 A JP7292685 A JP 7292685A JP 29268595 A JP29268595 A JP 29268595A JP 2886121 B2 JP2886121 B2 JP 2886121B2
Authority
JP
Japan
Prior art keywords
word
speech
language model
class
statistical language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7292685A
Other languages
Japanese (ja)
Other versions
JPH09134192A (en
Inventor
浩和 政瀧
芳典 匂坂
昭一 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Original Assignee
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk filed Critical Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority to JP7292685A priority Critical patent/JP2886121B2/en
Publication of JPH09134192A publication Critical patent/JPH09134192A/en
Application granted granted Critical
Publication of JP2886121B2 publication Critical patent/JP2886121B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、学習用テキストデ
ータに基づいて統計的言語モデルを生成する統計的言語
モデル生成装置、及び上記統計的言語モデルを用いて、
入力される発声音声文の音声信号を音声認識する音声認
識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a statistical language model generating apparatus for generating a statistical language model based on learning text data, and a statistical language model using the statistical language model.
The present invention relates to a voice recognition device that recognizes a voice signal of an input uttered voice sentence.

【0002】[0002]

【従来の技術】近年、連続音声認識装置において、その
性能を高めるために言語モデルを用いる方法が研究され
ている。これは、言語モデルを用いて、次単語を予測し
探索空間を削減することにより、認識率の向上および計
算時間の削減の効果を狙ったものである。最近盛んに用
いられている言語モデルとしてN−グラム(N−gra
m)がある。これは、大規模なテキストデータを学習
し、直前のN−1個の単語から次の単語への遷移確率を
統計的に与えるものである。複数L個の単語列w1 L=w
1,w2,…,wLの生成確率P(w1 L)は次式で表され
る。
2. Description of the Related Art In recent years, a method of using a language model has been studied to improve the performance of a continuous speech recognition apparatus. This aims to improve the recognition rate and reduce the calculation time by predicting the next word and reducing the search space using a language model. Recently, N-gram (N-gram) has been widely used as a language model.
m). It learns large-scale text data and statistically gives the transition probability from the previous N-1 words to the next word. Multiple L word strings w 1 L = w
The generation probability P (w 1 L ) of 1 , w 2 ,..., W L is expressed by the following equation.

【0003】[0003]

【数1】 (Equation 1)

【0004】ここで、wtは単語列w1 Lのうちt番目の
1つの単語を表し、wi jはi番目からj番目の単語列を
表わす。上記数1において、確率P(wt
t+1-N t-1)は、N個の単語からなる単語列wt+1-N t-1
が発声された後に単語wtが発声される確率であり、以
下同様に、確率P(A|B)は単語又は単語列Bが発声
された後に単語Aが発声される確率を意味する。また、
数1における「Π」はt=1からLまでの確率P(wt
|wt+1-N t-1)の積を意味し、以下同様である。
[0004] Here, w t represents a t-th one word of the word string w 1 L, w i j represents the j-th word string from the i-th. In the above equation 1, the probability P (w t |
wt + 1- Nt-1 ) is a word sequence wt + 1- Nt-1 composed of N words.
Is the probability that the word w t will be uttered after is uttered, and similarly, the probability P (A | B) means the probability that the word A will be uttered after the word or word string B has been uttered. Also,
“Π” in Equation 1 represents the probability P (w t from t = 1 to L
| W t + 1−N t−1 ), and so on.

【0005】N−グラムは極めて単純なものでありなが
ら、構築の容易さ、統計的音響モデルとの相性の良さ、
認識率向上や計算時間の短縮の効果が大きい等の理由
で、連続音声認識には非常に有効である(例えば、従来
文献1「L.R.Bahlほか,“A Maximum
Likelihood Approach to C
ontinuous Speech Recognit
ion”,IEEE Transaction on
Pattern Analysis and Mach
ine Intelligence, pp.179−
190,1983年」、従来文献2「P.C.Wood
landほか,“THE 1994 HTK Larg
e Vocabulary Speech Recog
nition System”,Proceeding
s of ICASSP95’,Vol.1,pp.7
3−76,1995年」、従来文献3「村上ほか,“単
語のtrigramを利用した文音声認識と自由発話認
識への拡張”,電子情報通信学会技術研究報告,SP9
3−127,pp71−78,平成6年」参照。)。
Although the N-gram is extremely simple, it is easy to construct, has good compatibility with the statistical acoustic model,
It is very effective for continuous speech recognition because it has a significant effect of improving the recognition rate and shortening the calculation time (for example, see LR Bahl et al., "A Maximum" in Reference 1).
Likelihood Approach to C
ontinous Speech Recognit
ion ", IEEE Transaction on
Pattern Analysis and Mach
intelIntelligence, pp. 179-
190, 1983 "and Conventional Document 2" PC Wood
Land et al., "THE 1994 HTK Large.
e Vocabulary Speech Recog
Nation System ”, Proceeding
s of CASSP95 ', Vol. 1, pp. 7
3-76, 1995 ", and conventional literature 3," Murakami et al., "Extension to Sentence Speech Recognition and Free Utterance Recognition Using Word Trigram", IEICE Technical Report, SP9.
3-127, pp71-78, 1994 ". ).

【0006】一般に、N−グラムの言語モデルは、Nを
大きくすると長い単語連鎖を取り扱うことにより次単語
の精度は高くなるが、パラメータ数が多くなり、学習デ
ータ量が少ない場合は出現頻度の低い単語に信頼できる
遷移確率を与えることはできない。例えば語彙数が5,
000語のとき、トライグラム(trigram)(N
=3)の全ての単語の遷移組は(5,000)3=1,
250億であるから、信頼できる遷移確率を求めるため
には、数千億単語以上からなる膨大なテキストデータが
必要となる。これだけの膨大なテキストデータを集める
のは事実上不可能である。逆に、Nを小さくすると、遷
移確率の信頼性は高くなるが、短い単語連鎖しか取り扱
うことができず、次単語の予測精度は低くなる。
In general, the N-gram language model increases the accuracy of the next word by handling a long word chain when N is increased, but the frequency of appearance is low when the number of parameters is large and the amount of learning data is small. Words cannot be given reliable transition probabilities. For example, if the vocabulary number is 5,
For 000 words, trigram (N
= 3) is (5,000) 3 = 1
Since it is 25 billion, a large amount of text data consisting of hundreds of billions of words or more is required to obtain a reliable transition probability. It is virtually impossible to collect such a huge amount of text data. Conversely, when N is reduced, the reliability of the transition probability increases, but only short word chains can be handled, and the prediction accuracy of the next word decreases.

【0007】[0007]

【発明が解決しようとする課題】この問題を解決するた
め、次のような方法が提案されている。 (1)補間による未学習遷移確率の推定方法 この方法は、例えば、Deleted Interpo
lation(削除補間法)(例えば、従来文献4
「F.Jelinekほか,“Interpolate
d estimation of Markov So
urce Parameters from Spar
se Data”,Proceedingsof Wo
rkshop Pattern Recognitio
n inPractice,pp.381−37,19
80年」参照。)や、Back−off Smooth
ing法(従来文献5「S.M.Katz,“Esti
mation of Probabilities f
rom Sparse Data for the L
anguage model Componentof
a Speech Recognizer”,IEE
E Transaction on Acoustic
s, Speech, and Signal Pro
cessing,Vol.ASSP−35,No.3,
pp.400−401,1987年3月」参照。)等に
代表される方法で、小さいNのN−グラム(N−gra
m)の値で遷移確率を補間することにより、学習用テキ
ストデータには存在しない単語遷移に対しても、遷移確
率を与えることができる。しかしながら、出現頻度の低
い単語に関しては信頼できる遷移確率を与えられない恐
れがある。
In order to solve this problem, the following method has been proposed. (1) Method of Estimating Unlearned Transition Probability by Interpolation This method uses, for example, Deleted Interpo.
ration (deletion interpolation method) (for example,
"F. Jelinek et al.," Interpolate
de estimation of Markov So
source Parameters from Spar
se Data ", Proceedingsof Wo
rkshop Pattern Recognition
n inPractice, pp. 381-37, 19
80 years ". ) And Back-off Smooth
ing method (conventional document 5, "SM Katz," Esti
nation of Probabilities f
rom Sparse Data for the L
angle model Componentof
a Speech Recognizer ", IEEE
E Transaction on Acoustic
s, Speech, and Signal Pro
sessing, Vol. ASSP-35, No. 3,
pp. 400-401, March 1987 ". )), A small N-gram (N-gram)
By interpolating the transition probabilities with the value of m), transition probabilities can be given to word transitions that do not exist in the learning text data. However, there is a risk that reliable transition probabilities may not be given for words that appear infrequently.

【0008】(2)クラスN−グラムによるパラメータ
数の削減方法 この方法は、相互情報量に基づくクラスタリング(例え
ば、従来文献6「P.F.Brownほか,“Clas
s−Based n−gram modelsof n
atural language”,Computat
ionalLinguistics,Vol.18,N
o.4,pp467−479,1992年」参照。)
や、品詞(従来文献7「周ほか,“確率モデルによる日
本語の大語彙連続音声認識”,情報処理学会,第51回
全国大会講演論文集,pp119−120,平成7年」
参照。)等によるクラス間のN−グラムを考えたもの
で、L個の単語の文生成確率P(w1 L)は一般に次式で
表される。
(2) Method for Reducing the Number of Parameters by Class N-gram This method is based on clustering based on mutual information (for example, see Reference 6 “PF Brown et al.,“ Class ”
s-Based n-gram modelofn
atarulanguage ", Computat
ionicLinguistics, Vol. 18, N
o. 4, pp 467-479, 1992 ". )
And part-of-speech (Conventional Document 7, “Zhou et al.,“ Large Vocabulary Continuous Speech Recognition of Japanese Using Probability Model ”, Information Processing Society of Japan, Proc. Of the 51st Annual Convention, pp119-120, 1995.)
reference. )), And the sentence generation probability P (w 1 L ) of L words is generally expressed by the following equation.

【0009】[0009]

【数2】 (Equation 2)

【0010】ここで、ctは単語wtの属するクラスを表
し、ci jはi番目からj番目のクラス列を表わす。上記
数2で、P(ct|ct-N+1 t+1)は、直前の(N−1)
個の単語の属するクラスから次の単語の属するクラスへ
の遷移確率を表す。クラス数が50のとき、トライグラ
ムの全てのクラス間の遷移の組は503=125,00
0であるから、数十万単語程度と単語N−グラムに比べ
てかなり小規模なテキストデータで遷移確率が求められ
ると考えられる。しかしながら、単語間の特有な連接関
係を表現することができないので、次単語の予測精度は
悪くなると考えられる。
[0010] Here, c t represents a class that belongs word w t, c i j represents the j-th class sequence from the i-th. In the above equation 2, P ( ct | ct-N + 1t + 1 ) is equal to the immediately preceding (N-1).
It represents the transition probability from the class to which the word belongs to the class to which the next word belongs. When the number of classes is 50, the set of transitions between all classes of the trigram is 50 3 = 125,000.
Since it is 0, it is considered that the transition probability can be obtained with text data of several hundred thousand words, which is considerably smaller than the word N-gram. However, since it is not possible to express a specific connection between words, the prediction accuracy of the next word is considered to be poor.

【0011】本発明の目的は以上の問題点を解決し、従
来例に比較して遷移確率の予測精度及び信頼性を改善す
ることができる統計的言語モデルを生成することができ
る統計的言語モデル生成装置、及び、当該統計的言語モ
デルを用いて従来例に比較して高い音声認識率で音声認
識することができる音声認識装置を提供することにあ
る。
An object of the present invention is to solve the above-mentioned problems, and to generate a statistical language model capable of generating a statistical language model capable of improving the prediction accuracy and reliability of transition probability as compared with the conventional example. An object of the present invention is to provide a generation device and a speech recognition device that can perform speech recognition at a higher speech recognition rate than a conventional example using the statistical language model.

【0012】[0012]

【課題を解決するための手段】本発明に係る請求項1記
載の統計的言語モデル生成装置は、所定の話者の発声音
声文を書き下した学習用テキストデータに基づいて、す
べての語彙を品詞毎にクラスタリングされた品詞クラス
に分類し、それらの品詞クラス間のバイグラムを初期状
態の統計的言語モデルとして生成する生成手段と、上記
生成手段によって生成された初期状態の統計的言語モデ
ルに基づいて、単語の品詞クラスからの分離することが
できる第1の分離クラス候補と、1つの単語と1つの単
語との結合、1つの単語と複数の単語の単語列との結
合、複数の単語の単語列と1つの単語との結合、複数の
単語の単語列と、複数の単語の単語列との結合とを含む
連接単語又は連接単語列の結合によって単語の品詞クラ
スから分離することができる第2の分離クラス候補とを
検索する検索手段と、上記検索手段によって検索された
第1と第2の分離クラス候補に対して、次単語の予測の
難易度を表わす所定のエントロピーを用いて、クラスを
分離することによる当該エントロピーの減少量を計算す
る計算手段と、上記計算手段によって計算された上記第
1と第2の分離クラス候補に対するエントロピーの減少
量の中で最大のクラス分離を選択して、選択されたクラ
スの分離を実行することにより、品詞のバイグラムと可
変長Nの単語のN−グラムとを含む統計的言語モデルを
生成する分離手段と、上記分離手段によって生成された
統計的言語モデルのクラス数が所定のクラス数になるま
で、上記分離手段によって生成された統計的言語モデル
を処理対象モデルとして、上記検索手段の処理と、上記
計算手段の処理と、上記分離手段の処理とを繰り返すこ
とにより、所定のクラス数を有する統計的言語モデルを
生成する制御手段とを備えたことを特徴とする。
According to a first aspect of the present invention, there is provided a statistical language model generating apparatus which converts all vocabulary parts of speech based on learning text data in which uttered voice sentences of a predetermined speaker are written. Generating means for classifying each part-of-speech class into clustered part-of-speech classes, and generating a bigram between those part-of-speech classes as an initial state statistical language model; and an initial state statistical language model generated by the generating means. , A first separation class candidate that can be separated from a part of speech class of a word, a combination of one word and one word, a combination of one word and a word string of a plurality of words, a word of a plurality of words Separation from a word class by combining concatenated words or concatenated word strings, including concatenation of strings with one word, concatenation of word strings of multiple words, and word strings of multiple words Search means for searching for a possible second separation class candidate, and for the first and second separation class candidates searched for by the search means, using a predetermined entropy representing the difficulty of predicting the next word. Calculating means for calculating the amount of reduction in entropy by separating classes, and selecting the largest class separation from the amount of reduction in entropy for the first and second separation class candidates calculated by the calculation means And separating the selected class to generate a statistical language model including the part-of-speech bigram and the N-gram of the variable-length N word, and a statistic generated by the separating unit. Until the number of classes of the statistical language model reaches a predetermined number of classes, the statistical language model generated by the separating means is used as a processing target model, and the search method is performed. And processing, the processing of the calculation means, by repeating the process of the separating means, characterized in that a control means for generating a statistical language model having a predetermined number of classes.

【0013】本発明に係る請求項2記載の音声認識装置
は、入力される発声音声文の音声信号に基づいて、所定
の統計的言語モデルを用いて音声認識する音声認識手段
を備えた音声認識装置において、上記音声認識手段は、
品詞のバイグラムと可変長Nの単語のN−グラムとを含
む統計的言語モデルを用いて音声認識することを特徴と
する。
According to a second aspect of the present invention, there is provided a speech recognition apparatus comprising: a speech recognition unit for recognizing a speech based on a speech signal of an input uttered speech sentence using a predetermined statistical language model. In the apparatus, the voice recognition means includes:
It is characterized in that speech recognition is performed using a statistical language model including a part-of-speech bigram and a variable-length N-word N-gram.

【0014】また、請求項3記載の音声認識装置におい
ては、上記統計的言語モデルは、請求項1記載の統計的
言語モデル生成装置によって生成されたことを特徴とす
る。
According to a third aspect of the present invention, the statistical language model is generated by the statistical language model generating apparatus according to the first aspect.

【0015】本発明に係る請求項4記載の連続音声認識
装置は、入力される発声音声文の音声信号に基づいて上
記発声音声文の単語仮説を検出し尤度を計算することに
より、連続的に音声認識する音声認識手段を備えた連続
音声認識装置において、上記音声認識手段は、請求項1
記載の統計的言語モデル生成装置によって生成された統
計的言語モデルを参照して、終了時刻が等しく開始時刻
が異なる同一の単語の単語仮説に対して、当該単語の先
頭音素環境毎に、発声開始時刻から当該単語の終了時刻
に至る計算された総尤度のうちの最も高い尤度を有する
1つの単語仮説で代表させるように単語仮説の絞り込み
を行うことを特徴とする。
According to a fourth aspect of the present invention, a continuous speech recognition apparatus detects a word hypothesis of the uttered speech sentence based on an input speech signal of the uttered speech sentence and calculates a likelihood to obtain a continuous speech. In a continuous speech recognition apparatus provided with a speech recognition means for recognizing a speech, the speech recognition means comprises:
With reference to the statistical language model generated by the described statistical language model generation device, for each word hypothesis of the same word having the same end time and different start time, the utterance starts for each head phoneme environment of the word. It is characterized in that word hypotheses are narrowed down so as to be represented by one word hypothesis having the highest likelihood among the total likelihoods calculated from the time to the end time of the word.

【0016】[0016]

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1に本発明に係る一実
施形態の連続音声認識装置のブロック図を示す。本実施
形態の連続音声認識装置は、公知のワン−パス・ビタビ
復号化法を用いて、入力される発声音声文の音声信号の
特徴パラメータに基づいて上記発声音声文の単語仮説を
検出し尤度を計算して出力する単語照合部4を備えた連
続音声認識装置において、単語照合部4からバッファメ
モリ5を介して出力される、終了時刻が等しく開始時刻
が異なる同一の単語の単語仮説に対して、統計的言語モ
デル22を参照して、当該単語の先頭音素環境毎に、発
声開始時刻から当該単語の終了時刻に至る計算された総
尤度のうちの最も高い尤度を有する1つの単語仮説で代
表させるように単語仮説の絞り込みを行う単語仮説絞込
部6を備えたことを特徴とする。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows a block diagram of a continuous speech recognition apparatus according to an embodiment of the present invention. The continuous speech recognition apparatus according to the present embodiment detects the word hypothesis of the uttered speech sentence based on the characteristic parameter of the speech signal of the input uttered speech sentence using a known one-pass Viterbi decoding method. In a continuous speech recognition device provided with a word matching unit 4 for calculating and outputting a degree, a word hypothesis of the same word having the same end time and different start time, which is output from the word matching unit 4 via the buffer memory 5, is obtained. On the other hand, with reference to the statistical language model 22, one of the total likelihoods calculated from the utterance start time to the end time of the word for each head phoneme environment of the word has one of the highest likelihoods. A word hypothesis narrowing unit 6 for narrowing down word hypotheses so as to be represented by word hypotheses is provided.

【0017】ここで用いる統計的言語モデル22は、学
習用テキストデータに基づいて言語モデル生成部20に
より生成されたものであって、統計的言語モデル22
は、品詞クラス間のバイグラム(N=2)を基本とした
ものであるが、単独で信頼できる単語は品詞クラスより
分離させ、単独のクラスとして取り扱い、さらに、予測
精度を向上させるため、頻出単語列に関してはそれらの
単語を結合して一つのクラスとして取り扱い、長い単語
連鎖の表現を可能にさせ、こうして、生成されたモデル
は、品詞バイグラムと可変長単語N−グラムとの特徴を
併せ持つ統計的言語モデルとなり、遷移確率の精度と信
頼性とのバランスをとられたものであることを特徴とす
る。
The statistical language model 22 used here is generated by the language model generator 20 based on the learning text data.
Is based on bigrams between part-of-speech classes (N = 2), but words that can be independently trusted are separated from part-of-speech classes, treated as a single class, and frequent words are used to improve prediction accuracy. For sequences, those words are combined and treated as a class, allowing the representation of long word chains, and thus the model generated is a statistical model that combines the features of part-of-speech bigrams and variable-length word N-grams. It is a language model, characterized by a balance between accuracy and reliability of transition probability.

【0018】まず、本実施形態において用いる可変長N
−グラムの概念について以下に説明する。N−グラム
は、(N−1)重のマルコフモデルであり、これは、過
去(N−1)回の状態遷移を記憶するように単純(1
重)マルコフモデルの各状態が分離されたものと解釈さ
れる。例として、図3にバイグラムをマルコフモデルと
して図式化した状態遷移図を示し、図4にトライグラム
をマルコフモデルとして図式化した状態遷移図を示す。
First, the variable length N used in this embodiment
-The concept of gram is explained below. The N-gram is a (N-1) -fold Markov model, which is simple (1-1) to store the past (N-1) state transitions.
Heavy) Each state of the Markov model is interpreted as being separated. As an example, FIG. 3 shows a state transition diagram in which a bigram is represented as a Markov model, and FIG. 4 shows a state transition diagram in which a trigram is represented as a Markov model.

【0019】図3においては、状態s1においてシンボ
ルaを出力されたとき状態s1のままであるが、状態s1
でシンボルbを出力した状態s2に遷移する。状態s2
シンボルbを出力したときは状態s2のままであるが、
状態s2でシンボルaを出力したとき状態s1に戻る。図
4のトライグラムは、バイグラムの状態s1を状態s11
と状態s12とに分離しかつ、状態s2を状態s21と状態
22とに分離したものと考えられる。さらに、全ての状
態の分離を進めることにより、より高次のN−グラムと
なる。
[0019] In FIG. 3, but remains in state s 1 when output symbol a in state s 1, the state s 1
In a transition to a state s 2 which has output the symbol b. But it remains in the state s 2 when outputting the symbol b in the state s 2,
Back in state s 2 to the state s 1 when outputting the symbol a. Figure 4 trigram, state status s 1 bigrams s 11
Vital separated into state s 12 and it is believed that separation of the state s 2 in the state s 21 and the state s 22. Further, by promoting the separation of all states, a higher-order N-gram is obtained.

【0020】図5に示す可変長N−グラムは、単純マル
コフモデルの状態を部分的に分離させたものである。す
なわち、図3のバイグラムにおいて、状態s2から、シ
ンボルaが出力される際に、続けてシンボルbを出力す
る場合(これをabと表わし、シンボルabを出力する
という。)、続けてb以外のシンボルを出力する場合
(これをa(/b)と表し、シンボルa(/b)を出力
するという。ここで、/は否定の意味を表しバー(上
線)である。)とに分け、前者の場合、状態s1から状
態s12に遷移させる一方、後者の場合、状態s2から状
態s11に遷移させる。すなわち、前者の場合において、
状態s1から状態s12へと分離させ、シンボルaを出力
する残りの遷移(a(/b))を状態s11に残したもの
である。なお、このモデルにおいて、状態s11でシンボ
ルabを出力したとき状態s12に遷移する一方、状態s
11でシンボルa(/b)を出力したとき状態s11のまま
である。また、状態s12でシンボルabを出力したとき
状態s12のままである一方、状態s12でシンボルa(/
b)を出力したとき状態s11に遷移する。
The variable length N-gram shown in FIG. 5 is obtained by partially separating the states of the simple Markov model. That is, in the bigram of FIG. 3, when the symbol a is output from the state s 2 and the symbol b is continuously output (this is referred to as ab, and the symbol ab is output), the state other than b is continued. (This is expressed as a (/ b) and the symbol a (/ b) is output. Here, / represents a negative meaning and is a bar (overline)). in the former case, while transitioning from state s 1 to the state s 12, in the latter case, the transition from state s 2 to the state s 11. That is, in the former case,
Separated from the state s 1 to state s 12, in which left remaining transition for outputting the symbols a to (a (/ b)) in the state s 11. Incidentally, in this model, whereas a transition to the state s 12 when outputting the symbol ab in the state s 11, the state s
When the symbol a (/ b) is output in step 11 , the state remains s11. Further, while in the state s 12 and remain in the state s 12 when outputting the symbol ab, while s 12 symbols a (/
b) a transition to the state s 11 when the output.

【0021】このモデルは、複数の連続したシンボルを
新しいシンボルとみなすことで、単純マルコフモデルの
構造のまま、長い連鎖を表すことができるという特徴が
ある。同様の状態分離を繰り返すことで、局所的にさら
に長い連鎖を表すことができる。これが可変長N−グラ
ムである。すなわち、シンボルを単語とみなした言語モ
デルとしての可変長単語N−グラムは、単語列(1単語
も含む)間のバイグラムと表される。
This model has a feature that long chains can be represented with a simple Markov model structure by regarding a plurality of consecutive symbols as new symbols. By repeating the same state separation, a longer chain can be represented locally. This is the variable length N-gram. That is, a variable-length word N-gram as a language model in which a symbol is regarded as a word is represented as a bigram between word strings (including one word).

【0022】次いで、可変長N−グラムの動作について
説明する。本実施形態で用いる統計的言語モデル22
は、品詞クラスと単語との可変長N−グラムであり、次
の3種類のクラス間のバイグラムとして表現する。 (1)品詞クラス(以下、第1のクラスという。)、
(2)品詞クラスから分離した単語のクラス(以下、第
2のクラスという。)、及び、(3)連接単語が結合し
てできたクラス(以下、第3のクラスという。)。
Next, the operation of the variable length N-gram will be described. Statistical language model 22 used in this embodiment
Is a variable length N-gram of a part of speech class and a word, and is expressed as a bigram between the following three types of classes. (1) part of speech class (hereinafter referred to as first class),
(2) A class of a word separated from the part of speech class (hereinafter, referred to as a second class), and (3) a class formed by combining connected words (hereinafter, referred to as a third class).

【0023】上記第1のクラスに属する単語は、主とし
て出現頻度の小さいもので、単語単独で取り扱うよりも
遷移確率の信頼性が高められる。また、第2のクラスに
属する単語は、主として出現頻度が高いもので、単独で
取り扱っても十分な信頼性があり、さらに、連接単語が
結合して上記第3のクラスに分類されることにより、可
変長N−グラムとして動作し、次単語の予測精度が高め
られる。ただし、本実施形態において、連接する品詞ク
ラスと品詞クラス、および、品詞クラスと単語の結合は
考えない。複数L個の単語からなる文の生成確率P(w
1 L)は、次式で与えられる。
The words belonging to the first class have a low appearance frequency, and the reliability of the transition probability is improved as compared with the case where the words are handled alone. In addition, the words belonging to the second class are mainly those having a high frequency of appearance, and have sufficient reliability even if handled alone. Furthermore, the words connected to each other are combined and classified into the third class. , Operates as a variable-length N-gram, and the prediction accuracy of the next word is improved. However, in the present embodiment, it is not considered that the part-of-speech class and the part-of-speech class that are connected to each other and the combination of the part-of-speech class and the word are considered. Generation probability P (w of a sentence composed of a plurality of L words
1 L ) is given by the following equation.

【0024】[0024]

【数3】 (Equation 3)

【0025】ここで、wstは文章を上記のクラスに分
類した時の、t番目の単語列(単独の単語も含める)を
意味する。従って、P(wst|ct)は、t番目のクラ
スがわかったときに単語列wstが出現する確率であ
り、P(ct|ct-1)は1つ前の(t−1)番目のクラ
スから当該t番目のクラスの単語が出現する確率であ
る。また、文章のKは単語列の個数を表し、K≦Lであ
る。従って、数3のΠはt=1からKまでの積である。
ここで、例として、次の7単語からなる発声音声文の文
章を考える。
[0025] In this case, ws t means the sentence at the time of the classification of the above class, t-th word string (a stand-alone word, is also included). Therefore, P (ws t | c t ) is the probability that the word string ws t appears when found t-th class, P (c t | c t -1) is the previous (t- 1) Probability that a word of the t-th class appears from the class. Further, K in the text represents the number of word strings, and K ≦ L. Therefore, Π in Equation 3 is a product from t = 1 to K.
Here, as an example, consider a sentence of an uttered voice sentence composed of the following seven words.

【0026】[0026]

【数4】「わたくし−村山−と−言−い−ま−す」[Equation 4] "I, Murayama, and-Words-I-Mas-"

【0027】この文章の生成確率P(w1 L)は、数3を
用いて、次の式で与えられる。
The generation probability P (w 1 L ) of this sentence is given by the following equation using Expression 3.

【0028】[0028]

【数5】 P(w1 L)=P(わたくし|{わたくし})・P({わたくし}) ・P(村山|<固有名詞>)・P(<固有名詞>|{わたくし}) ・P(と|{と})・P({と}|<固有名詞>) ・P(言います|[言います])・P([言います]|{と})P (w 1 L ) = P (Watakushi | {Watakushi) · P ({Watakushi) · P (Murayama | <proper noun>) · P (<proper noun> | {Watakushi) ・ P (And | {and}) · P ({and} | <proper noun>) · P (say | [say]) · P ([say] | {and})

【0029】ただし、<>,{},[]はそれぞれ、第
1のクラス、第2のクラス、第3のクラスに属している
ことを表す。ただし、各単語および単語列は次のように
属している。 (1)「村山」は固有名詞なので、第1のクラスに属す
る。 (2)「わたくし」、「と」はそれぞれ、名詞から分離
した単語、助詞から分離した単語であり、第2のクラス
に属する。 (3)「言います」は動詞と、動詞の接尾辞と、助動詞
と、助動詞の接尾辞との組み合わせであり、第3のクラ
スに属する。ここで、第2と第3のクラスにおいて、単
語とクラスの出現頻度は等しいので、P(わたくし|
{わたくし})=1、P(と|{と})=1、P(言い
ます|[言います])=1であり、従って、上記数5は
次の式のようになる。
However, <>, {}, and [] indicate that they belong to the first class, the second class, and the third class, respectively. However, each word and word string belong as follows. (1) "Murayama" belongs to the first class because it is a proper noun. (2) “I” and “to” are words separated from nouns and words separated from particles, respectively, and belong to the second class. (3) "I say" is a combination of a verb, a verb suffix, an auxiliary verb, and an auxiliary verb suffix, and belongs to the third class. Here, in the second and third classes, the frequency of appearance of the word and the class is equal, so that P (I |
(I) = 1, P (and | {and}) = 1, and P (say | [say]) = 1, therefore, the above equation 5 becomes the following equation.

【0030】[0030]

【数6】 P(w1 L)=P(わたくし) ・P(村山|<固有名詞>)・P(<固有名詞>|わたくし) ・P(と|<固有名詞>) ・P(言います|と)[Equation 6] P (w 1 L ) = P (Watakushi) ・ P (Murayama | <proper noun>) ・ P (<proper noun> | Watakushi) ・ P (and | <proper noun>) ・ P (say | And)

【0031】次いで、本実施形態で用いる可変長N−グ
ラムである統計的言語モデル22を生成するための言語
モデル生成処理について参照して説明する。本実施形態
で用いる統計的言語モデル22は、品詞クラスのバイグ
ラムを初期状態とし、エントロピーの最小化の基準によ
るクラス分離という形で生成される。エントロピーの減
少は正になることが保証されており、クラス分離によっ
て、学習用テキストデータに関してエントロピーは単調
に減少する。ここで用いるエントロピーは、一般には、
「あいまいさ」の尺度を表わすものであり、言語モデル
において、エントロピーが小さいことは、言語としてあ
いまいさが小さく、次の単語の予測が容易であることを
意味する。すなわち、エントロピーは次単語の予測の難
易度を表わす。yという条件のもとでのxの確率である
条件付き確率P(x|y)のエントロピーH(X|Y)
は次式で表される。
Next, a language model generation process for generating a statistical language model 22 which is a variable length N-gram used in the present embodiment will be described with reference to FIG. The statistical language model 22 used in the present embodiment is generated in the form of class separation based on the criterion for minimizing entropy with the bigram of the part of speech class as an initial state. The decrease in entropy is guaranteed to be positive, and the class separation causes the entropy to decrease monotonically with respect to the training text data. The entropy used here is generally
It represents a measure of "ambiguity". In a language model, a small entropy means that the language has small ambiguity and that the next word is easy to predict. That is, entropy indicates the difficulty of predicting the next word. Entropy H (X | Y) of conditional probability P (x | y) which is the probability of x under the condition of y
Is represented by the following equation.

【0032】[0032]

【数7】 H(X|Y)=−ΣP(y)ΣP(x|y)log2P(x|y)H (X | Y) = − {P (y)} P (x | y) log 2 P (x | y)

【0033】従って、上記数7に基づいて、本実施形態
で用いるエントロピーは次式で計算される。
Therefore, based on the above equation (7), the entropy used in this embodiment is calculated by the following equation.

【0034】[0034]

【数8】 ここで、wk∈cj (Equation 8) Where w k ∈c j

【0035】図6は、言語モデル生成部20によって実
行される言語モデル生成処理の詳細を示すフローチャー
トであり、以下、図6を参照して当該処理について説明
する。まず、ステップS1では、所定の話者の発声音声
文を書き下した学習用テキストデータに含まれる全語彙
を品詞クラス(ここで、品詞クラスとは、品詞毎にクラ
スタリングされたクラスをいう。)に分類し、それらの
クラス間のバイグラムを初期状態の統計的言語モデルと
する。次いで、次のステップS2乃至S4でクラスの分
離を行う。すなわち、ステップS2で、クラス分離する
ことが可能な分離クラス候補を検索することによりリス
トアップを行う。ここでは、次の2種類のクラス分離を
考える。 (1)単語の品詞クラスからの分離(以下、第1のクラ
ス分離という。)、(2)連接単語又は連接単語列の結
合によるクラス分離(以下、第2のクラス分離とい
う。)。ここで、連接単語又は連接単語列の結合とは、
連接する(時間的に隣接して入力される)1つの単語と
1つの単語との結合、1つの単語と複数の単語の単語列
との結合、複数の単語の単語列と1つの単語との結合、
複数の単語の単語列と、複数の単語の単語列との結合と
を含む。
FIG. 6 is a flowchart showing details of the language model generation processing executed by the language model generation unit 20. The processing will be described below with reference to FIG. First, in step S1, all the vocabulary included in the learning text data in which the uttered voice sentence of a predetermined speaker has been written is converted into a part-of-speech class (here, the part-of-speech class means a class that is clustered for each part of speech). Classify, and the bigram between those classes is used as an initial statistical language model. Next, classes are separated in the next steps S2 to S4. That is, in step S2, a list is made by searching for separated class candidates that can be separated into classes. Here, the following two types of class separation are considered. (1) Separation of a word from a part-of-speech class (hereinafter, referred to as a first class separation), (2) Class separation by combining a connected word or a connected word string (hereinafter, referred to as a second class separation). Here, the concatenation word or the concatenation of the concatenation word string is
Concatenation (joined in time) of one word and one word, concatenation of one word and plural word strings, plural word word string and one word Join,
It includes a word string of a plurality of words and a combination of the word strings of a plurality of words.

【0036】前者の単語の品詞クラスからの分離におい
ては、当初品詞クラスに属している単語が、そのクラス
から分離し、分離した単語は、その単語で単独のクラス
を形成する。
In the former separation of the word from the part-of-speech class, a word originally belonging to the part-of-speech class is separated from the class, and the separated word forms a single class by the word.

【0037】[0037]

【数9】cξ→{wx}+cξ\{wx} ここで、wx∈cξ [Mathematical formula 9] c ξ → {w x } + c ξ \ {w x } where w x ∈c ξ

【0038】ここで、cξ\{wx}はクラスcξから
単語wxのクラスを除いたクラスであることを意味し、
単語wxはクラスcξに属している。従って、数9の意
味するところは、例えば、名詞のクラスcξは、「机」
という単語wxのクラス{wx}と、「机」という単語w
xのクラス{wx}をクラスcξから除いたクラスとに分
離することを意味する。
Here, c ξ {w x } means a class obtained by removing the class of the word w x from the class c 、,
Word w x belongs to the class c ξ. Therefore, the meaning of Expression 9 is, for example, that the class of the noun cc is “desk”
Class {w x } of the word w x and the word w of “desk”
means separated into the classes excluding the x classes {w x} from class c xi].

【0039】後者の連接単語又は連接単語列の結合によ
るクラス分離においては、既に初期クラスより分離され
ている単語クラス及び単語列クラスについて、連接した
2クラス間の結合を考える。結合した単語列は、その単
語列で単独のクラスを形成する。
In the latter class separation by connecting the connected words or the connected word strings, a connection between two connected classes is considered for the word class and the word string class that have already been separated from the initial class. The combined word string forms a single class with the word string.

【0040】[0040]

【数10】{wx}→{wx,wy}+{wx,/wy[Equation 10] {w x } → {w x , w y } + {w x , / w y }

【0041】ここで、{wx,wy}は連接単語列wx
yのクラスを表し、{wx,/wy}は単語wxの次に単
語wyが後続しない単語wxのクラスを表わす。すなわ
ち、/wyは単語wy以外の単語を表わす。数10の意味
するところは、例えば、「机」という単語のクラス{w
x}は、「机の」という単語列のクラス{wx,wy
と、「机の」以外の例えば「机は」、「机が」などの単
語列のクラス{wx,/wy}とに分離することを意味す
る。上記数10は、単語の結合に関する式であるが、単
語列と単語の結合、および、単語列と単語列との結合も
同様に表される。従って、第2のクラス分離では、これ
らのクラス分離を含む。
Here, {w x , w y } is a concatenated word sequence w x ,
represent classes of w y, representing the class of {w x, / w y} is not word w y is subsequent to the next word w x word w x. In other words, / w y represents a word other than the word w y. The meaning of Equation 10 is, for example, the class “w” of the word “desk”
x } is the class {w x , w y
Means that the words are separated into classes {w x , / w y } of word strings other than “desk”, such as “desk” and “desk”. Equation (10) is an expression relating to the combination of words, but the combination of a word string and a word and the combination of a word string and a word string are similarly expressed. Therefore, the second class separation includes these class separations.

【0042】次いで、ステップS3で、ステップS2で
リストアップされた上記第1と第2の分離クラス候補に
対して次の数11及び数12を用いてエントロピー減少
量を計算する。ここで、上記第1のクラス分離である初
期クラスの分離に対して数11を用いる一方、上記第2
のクラス分離である連接単語又は連接単語列の結合によ
るクラス分離に対して数12を用いる。
Next, in step S3, the amount of entropy reduction is calculated using the following equations (11) and (12) for the first and second separation class candidates listed in step S2. Here, while using Equation 11 for the separation of the initial class, which is the first class separation,
Equation 12 is used for class separation by combining connected words or connected word strings, which is the class separation of.

【0043】[0043]

【数11】 ΔH =H({ci})−H({ci\cξ}+{wx}+{cξ\wx})Equation 11] ΔH = H ({c i} ) - H ({c i \c ξ} + {w x} + {c ξ \w x})

【数12】 ΔH =H({ci})−H({ci\wx}+{wx,wy}+{wx,/wy})ΔH = H ({c i }) − H ({c i \w x } + {w x , w y } + {w x , / w y })

【0044】ここで、数11及び数12において、H
({ci})は元のすべての品詞クラスciについてのエ
ントロピーであり、数11においてH({ci\cξ
+{wx}+{cξ\wx})は元のすべての品詞クラス
iから単語wxのクラスを分離したときのエントロピー
であり、数11のΔHは単語wxのクラスを分離したと
きのエントロピーの減少量である。また、数12におい
てH({ci\wx}+{wx,wy}+{wx,/wy})
は、元のすべての品詞クラスciから単語列{wx
y}のクラスを分離したときのエントロピーであり、
数12のΔHは単語列{wx,wy}のクラスを分離した
ときのエントロピーの減少量である。
Here, in Equations 11 and 12, H
({C i }) is the entropy for all original part-of-speech classes c i , and H ({c i \c ξ }
+ {W x } + {c ξ \w x }) is the entropy when the class of the word w x is separated from all the original part-of-speech classes c i , and ΔH in Equation 11 separates the class of the word w x It is the amount of decrease in entropy when doing. Further, the number 12 H ({c i \w x } + {w x, w y} + {w x, / w y})
The word string from the original of all the part-of-speech class c i {w x,
entropy when the class of w yス is separated,
ΔH in Expression 12 is the amount of decrease in entropy when the class of the word sequence {w x , w y } is separated.

【0045】次いで、ステップS4においては、ステッ
プS2でリストアップされたすべての分離クラス候補の
中で、ステップS3で計算したエントロピー減少量ΔH
を最大にするクラスのみを実際にクラス分離する。そし
て、ステップS5で分離クラス数が所定のしきい値の所
望分離クラス数(例えば、500、1000など)以上
になったか否かを判断し、なっていないときは、ステッ
プS2に戻って上記の処理を繰り返す。一方、ステップ
S5で所望分離クラス数以上になっているときは、ステ
ップS6で、得られた統計的言語モデル22をメモリに
格納した後、当該言語モデル生成処理を終了する。この
言語モデル生成処理のアルゴリズムは、品詞間、およ
び、品詞と単語間の結合は行なわないため、生成完了時
点では、品詞のバイグラムと可変長単語のN−グラムの
特徴を併せた統計的言語モデル22となる。
Next, in step S4, of all the separation class candidates listed in step S2, the entropy reduction amount ΔH calculated in step S3 is used.
Only the class that maximizes is actually separated. Then, in step S5, it is determined whether or not the number of separation classes is equal to or more than a desired number of separation classes of a predetermined threshold (for example, 500, 1000, etc.). Repeat the process. On the other hand, if the number is equal to or larger than the desired number of separation classes in step S5, the obtained statistical language model 22 is stored in the memory in step S6, and then the language model generation processing ends. Since the algorithm of this language model generation processing does not perform a part-of-speech or a connection between a part-of-speech and a word, a statistical language model combining features of a part-of-speech bigram and a variable-length word N-gram at the time of completion of generation. 22.

【0046】図1において、単語照合部4に接続され、
例えばハードディスクメモリに格納される音素HMM1
1は、各状態を含んで表され、各状態はそれぞれ以下の
情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施形態において用いる音素HMM11は、各
分布がどの話者に由来するかを特定する必要があるた
め、所定の話者混合HMMを変換して生成する。ここ
で、出力確率密度関数は34次元の対角共分散行列をも
つ混合ガウス分布である。
In FIG. 1, it is connected to the word collating unit 4,
For example, a phoneme HMM1 stored in a hard disk memory
1 includes each state, and each state has the following information. (A) State number (b) Acceptable context class (c) List of preceding state and succeeding state (d) Parameter of output probability density distribution (e) Self transition probability and transition probability to succeeding state Since it is necessary to specify which speaker each distribution originates from, the phoneme HMM 11 used in the embodiment is generated by converting a predetermined speaker mixed HMM. Here, the output probability density function is a Gaussian mixture distribution having a 34-dimensional diagonal covariance matrix.

【0047】また、単語照合部4に接続され、例えばハ
ードディスクに格納される単語辞書12は、音素HMM
11の各単語毎にシンボルで表した読みを示すシンボル
列を格納する。
The word dictionary 12 connected to the word collating unit 4 and stored in, for example, a hard disk is a phoneme HMM
For each of the eleven words, a symbol sequence indicating a reading represented by a symbol is stored.

【0048】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
In FIG. 1, a uttered voice of a speaker is input to a microphone 1 and converted into a voice signal, and then input to a feature extracting unit 2. After performing A / D conversion on the input audio signal, the feature extraction unit 2 performs, for example, LPC analysis, and performs 34-dimensional feature parameters including logarithmic power, 16th-order cepstrum coefficient, Δlogarithmic power, and 16th-order Δcepstrum coefficient. Is extracted. The time series of the extracted feature parameters is input to the word matching unit 4 via the buffer memory 3.

【0049】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMM11と単
語辞書12とを用いて単語仮説を検出し尤度を計算して
出力する。ここで、単語照合部4は、各時刻の各HMM
の状態毎に、単語内の尤度と発声開始からの尤度を計算
する。尤度は、単語の識別番号、単語の開始時刻、先行
単語の違い毎に個別にもつ。また、計算処理量の削減の
ために、音素HMM11及び単語辞書12とに基づいて
計算される総尤度のうちの低い尤度のグリッド仮説を削
減する。単語照合部4は、その結果の単語仮説と尤度の
情報を発声開始時刻からの時間情報(具体的には、例え
ばフレーム番号)とともにバッファメモリ5を介して単
語仮説絞込部6に出力する。
The word collating unit 4 uses the one-pass Viterbi decoding method and the word hypothesis using the phoneme HMM 11 and the word dictionary 12 based on the characteristic parameter data input via the buffer memory 3. Is detected, the likelihood is calculated and output. Here, the word matching unit 4 determines whether each HMM
The likelihood within a word and the likelihood from the start of utterance are calculated for each state. The likelihood is individually provided for each word identification number, word start time, and difference between preceding words. Further, in order to reduce the amount of calculation processing, the grid hypothesis of a low likelihood among the total likelihoods calculated based on the phoneme HMM 11 and the word dictionary 12 is reduced. The word matching unit 4 outputs the resulting word hypothesis and likelihood information to the word hypothesis narrowing unit 6 via the buffer memory 5 together with time information (specifically, for example, a frame number) from the utterance start time. .

【0050】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデル22を参照して、終了時刻が等し
く開始時刻が異なる同一の単語の単語仮説に対して、当
該単語の先頭音素環境毎に、発声開始時刻から当該単語
の終了時刻に至る計算された総尤度のうちの最も高い尤
度を有する1つの単語仮説で代表させるように単語仮説
の絞り込みを行った後、絞り込み後のすべての単語仮説
の単語列のうち、最大の総尤度を有する仮説の単語列を
認識結果として出力する。本実施形態においては、好ま
しくは、処理すべき当該単語の先頭音素環境とは、当該
単語より先行する単語仮説の最終音素と、当該単語の単
語仮説の最初の2つの音素とを含む3つの音素並びをい
う。
The word hypothesis narrowing section 6 refers to the statistical language model 22 based on the word hypothesis output from the word matching section 4 via the buffer memory 5 and has the same end time and the same start time. Is represented by one word hypothesis having the highest likelihood among the total likelihoods calculated from the utterance start time to the end time of the word for each head phoneme environment of the word. After narrowing down the word hypotheses so as to cause them, the word string of the hypothesis having the maximum total likelihood is output as the recognition result among the word strings of all the narrowed word hypotheses. In the present embodiment, preferably, the first phoneme environment of the word to be processed is three phonemes including the last phoneme of the word hypothesis preceding the word and the first two phonemes of the word hypothesis of the word. I mean a line.

【0051】例えば、図2に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図2
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
[0051] For example, as shown in FIG. 2, the (i-1) th word W i-1 of the following, a phoneme string a 1, a 2, ..., comes i-th word W i, which consists of a n Sometimes, six hypotheses Wa, Wb, Wc, Wd, We, and Wf are assumed as the word hypotheses of the word Wi -1.
Exists. Here, the former three word hypotheses Wa, W
It is assumed that the final phonemes of b and Wc are / x /, and the final phonemes of the latter three word hypotheses Wd, We and Wf are / y /. The hypothesis with the highest total likelihood among the hypotheses in which the end time t e is equal to the first phoneme environment (the top three word hypotheses in which the first phoneme environment is “x / a 1 / a 2 ” in FIG. 2) (for example, FIG. 2
Are deleted except for the top hypothesis). Note that the fourth hypothesis from the top has a different phoneme environment, that is, since the last phoneme of the preceding word hypothesis is y instead of x,
Do not delete the fourth hypothesis from the top. That is, only one hypothesis is left for each final phoneme of the preceding word hypothesis. In the example of FIG. 2, one hypothesis is left for the final phoneme / x /, and one hypothesis is left for the final phoneme / y /.

【0052】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
In the above embodiment, the head phoneme environment of the word is defined as a sequence of three phonemes including the last phoneme of the word hypothesis preceding the word and the first two phonemes of the word hypothesis of the word. Although defined, the present invention is not limited to this. The phoneme sequence of the preceding word hypothesis including the final phoneme of the preceding word hypothesis, and at least one phoneme of the preceding word hypothesis that is continuous with the final phoneme, And a phoneme sequence that includes a phoneme sequence that includes the first phoneme of the word hypothesis.

【0053】以上の実施形態において、特徴抽出部2
と、単語照合部4と、単語仮説絞込部6と、言語モデル
生成部20とは、例えば、デジタル電子計算機で構成さ
れ、バッファメモリ3,5は例えばハードデイスクメモ
リで構成され、音素HMM11と単語辞書12と学習用
テキストデータ21と統計的言語モデル22とは、例え
ばハードデイスクメモリなどの記憶装置に記憶される。
In the above embodiment, the feature extraction unit 2
The word matching unit 4, the word hypothesis narrowing unit 6, and the language model generation unit 20 are constituted by, for example, a digital computer. The buffer memories 3 and 5 are constituted by, for example, hard disk memories. The dictionary 12, the learning text data 21, and the statistical language model 22 are stored in a storage device such as a hard disk memory.

【0054】以上実施形態においては、単語照合部4と
単語仮説絞込部6とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素HMM11を参照
する音素照合部と、例えばOne Pass DPアル
ゴリズムを用いて統計的言語モデル22を参照して単語
の音声認識を行う音声認識部とで構成してもよい。
In the above embodiment, speech recognition is performed using the word collating unit 4 and the word hypothesis narrowing unit 6.
The present invention is not limited to this, and includes, for example, a phoneme matching unit that refers to the phoneme HMM 11 and a speech recognition unit that performs speech recognition of a word by referring to the statistical language model 22 using, for example, the One Pass DP algorithm. You may.

【0055】[0055]

【実施例】本発明者は、本実施形態で用いる統計的言語
モデル22の性能を確認するため、パープレキシティお
よびパラメータ数について従来の単語N−グラムとの比
較を行った。実験に用いたデータは本出願人が所有する
自然発話旅行会話データベース(従来文献8「Mori
motoほか,“A Speech and Lang
uage Database for Speech
Translation Research”,ICS
LP,pp1791−1794,1994年」参照。)
であって、846対話、354,700語から構成され
る。このうち、統計的言語モデル22を生成するための
学習用テキストデータ(トレーニングセットともい
う。)として、828対話、347,299語を使用
し、残りのデータをテスト用テキストデータ(テストセ
ットともいう。)とした。本実施形態に係る統計的言語
モデル22は、初期クラスを活用形も含めた80品詞と
し、1000個まで分離を行い、100個おきにデータ
を採取した。また、本実施形態に係る統計的言語モデル
22と、単語N−グラムとともに、未知単語遷移に対す
る対策として、クラスおよび単語の遷移確率を削除補間
法(従来文献4参照。)によって補間し、テストセット
において、未知語が出現したときは、所定の固定値(例
えば、7.0×10-6)を与えた。ここで、本発明に係
る統計的言語モデル22を評価するために、パープレキ
シティを用いる。例えば、複数n個の単語からなる長い
単語列w1 n=w12…wnがあるときのエントロピーH
(n)は次式で表される。
EXAMPLE The present inventor compared the perplexity and the number of parameters with a conventional word N-gram in order to confirm the performance of the statistical language model 22 used in the present embodiment. The data used in the experiment is a naturally spoken travel conversation database owned by the present applicant (refer to the conventional document 8 “Mori”).
Moto et al., “A Speech and Lang
age Database for Speech
Translation Research ”, ICS
LP, pp 1791-1794, 1994. " )
846 dialogues, consisting of 354,700 words. Among them, 828 dialogues, 347,299 words are used as learning text data (also called a training set) for generating the statistical language model 22, and the remaining data is used as test text data (also called a test set). ). In the statistical language model 22 according to the present embodiment, the initial class is set to 80 parts of speech including the inflected form, separated up to 1000 parts, and data is collected every 100 parts. In addition to the statistical language model 22 according to the present embodiment and the word N-gram, as a measure against unknown word transition, the class and the transition probability of the word are interpolated by a deletion interpolation method (see conventional literature 4), and the test set is set. In, when an unknown word appeared, a predetermined fixed value (for example, 7.0 × 10 −6 ) was given. Here, perplexity is used to evaluate the statistical language model 22 according to the present invention. For example, the entropy H when there is a long word string w 1 n = w 1 w 2 ... w n comprising a plurality of n words
(N) is represented by the following equation.

【0056】[0056]

【数13】 H(n)=−(1/n)・log2P(w1 nH (n) = − (1 / n) · log 2 P (w 1 n )

【0057】ここで、P(w1 n)は単語列w1 nの生成確
率であり、パープレキシティPP(n)は次式で表され
る。
Here, P (w 1 n ) is the generation probability of the word string w 1 n , and the perplexity PP (n) is expressed by the following equation.

【0058】[0058]

【数14】PP(n)=2H(n) ## EQU14 ## PP (n) = 2 H (n)

【0059】ここで、単語列としてテスト用テキストデ
ータを用いたときのパープレキシティをテストセットパ
ープレキシティといい、単語列として学習用テキストデ
ータを用いたときのパープレキシティをトレーニングセ
ットパープレキシティという。
Here, the perplexity when the test text data is used as the word string is called a test set perplexity, and the perplexity when the learning text data is used as the word string is the training set perplexity. Called Tee.

【0060】当該実験結果におけるテストセットパープ
レキシティの値の変化の様子を図7に示す。図7から明
らかなように、分離クラス数が増加するに従って、テス
トセットパープレキシティは減少し、分離クラス数が2
00で単語バイグラムと、分離クラス数が600で単語
トライグラムと同程度の値となることが分かる。分離ク
ラス数が600以上になると、パープレキシティの減少
の割合が極端に小さくなるため、分離クラス600程度
で、本実施形態の統計的言語モデル22が最も有効に働
いていると考えられる。従って、本実施形態の統計的言
語モデル22は単語バイグラム以上、単語トライグラム
と同程度の予測精度の言語モデルと考えられる。
FIG. 7 shows how the value of the test set perplexity changes in the experimental results. As is clear from FIG. 7, as the number of separation classes increases, the test set perplexity decreases, and the number of separation classes decreases by two.
It can be seen that the value of 00 is a word bigram and the number of separation classes is 600, which is almost the same value as the word trigram. When the number of separation classes exceeds 600, the rate of decrease in perplexity becomes extremely small. Therefore, it is considered that the statistical language model 22 of the present embodiment works most effectively with the separation classes of about 600. Therefore, the statistical language model 22 of the present embodiment is considered to be a language model having a prediction accuracy equal to or greater than a word bigram and a word trigram.

【0061】表1にまた、分離クラス数が0,500,
1000の時のパープレキシティの値、およびパラメー
タ数を示す。
Table 1 also shows that the number of separated classes is 0,500,
The value of the perplexity at the time of 1000 and the number of parameters are shown.

【0062】[0062]

【表1】 各言語モデルの性能比較 ─────────────────────────────────── バイグラム トライグラム 本実施形態(分離クラス数) 0 500 1000 ─────────────────────────────────── テストセット 20.31 16.96 41.68 17.61 16.75 パープレキシティ ─────────────────────────────────── トレーニングセット 13.50 5.99 48.77 18.77 15.05 パープレキシティ ─────────────────────────────────── パラメータ数(1) 4.10×107 2.62×1011 1.28×104 3.43×105 1.17×106 ─────────────────────────────────── パラメータ数(2) 52,244 165,139
7,991 27,830 43,075 ───────────────────────────────────
[Table 1] Performance comparison of each language model ─────────────────────────────────── bigram trigram Form (number of separated classes) 0 500 1000 ─────────────────────────────────── Test set 20.31 16.96 41.68 17.61 16.75 Perplexity ─────────────────────────────────── Training set 13.50 5.99 48.77 18.77 15.05 Perplexity ─数 Number of parameters (1) 4.10 × 10 7 2.62 × 10 11 1.28 × 10 4 3.43 × 10 5 1.17 × 10 6数 Number of parameters (2) 52 , 244 165, 139
7,991 27,830 43,075}

【0063】ここで、パラメータ数(1)は全クラス
(単語)の遷移の組み合わせ数を意味し、パラメータ数
(2)は、トレーニングセットにおいて実際に存在する
クラス(単語)遷移の組み合わせ数を意味する。表1よ
り、本実施形態の統計的言語モデル22は、テストセッ
トとトレーニングセットとのパープレキシティの差が、
単語バイグラム及び単語トライグラムと比較して非常に
小さいことが分かる。また、パラメータ数は、1000
クラス分離した時でも、単語バイグラムよりも少なく、
単語トライグラムよりもはるかに少ない。したがって、
本実施形態の統計的言語モデル22は、与えられたパラ
メータで言語特徴を効率的に表現できる優れた言語モデ
ルであると言える。従って、当該統計的言語モデル22
は従来の単語バイグラム、単語トライグラムよりも信頼
性が高い言語モデルであると考えられる。
Here, the number of parameters (1) means the number of combinations of transitions of all classes (words), and the number of parameters (2) means the number of combinations of class (word) transitions actually existing in the training set. I do. From Table 1, the statistical language model 22 of the present embodiment has a difference in perplexity between the test set and the training set.
It can be seen that it is very small compared to the word bigram and the word trigram. The number of parameters is 1000
Even when classes are separated, less than a word bigram,
Much less than a word trigram. Therefore,
It can be said that the statistical language model 22 of the present embodiment is an excellent language model that can efficiently express language features with given parameters. Therefore, the statistical language model 22
Is considered to be a more reliable language model than conventional word bigrams and word trigrams.

【0064】また、本実施形態の統計的言語モデル22
の信頼性を確認するため、学習単語数を変化させてテス
トセットパープレキシティの値の変化を調べた結果を図
8に示す。この図8から明らかなように、全ての学習セ
ット(約35万語)を用いたときは、単語バイグラム
と、本実施形態の統計的言語モデル22(200クラ
ス)(カッコ内の数字は分離クラス数を表す、以下同様
である。)とは、ほぼ同じパープレキシティ値である
が、学習単語数を減少させても当該統計的言語モデル2
2のパープレキシティの増加は比較的小さく、単語バイ
グラムよりも値が低くなることが分かる。同様に、単語
トライグラムと、当該統計的言語モデル22(600ク
ラス)とを比較しても、学習単語数が減少すると、当該
統計的言語モデル22の方が低いパープレキシティを呈
する。
The statistical language model 22 of the present embodiment
FIG. 8 shows the result of examining the change in the value of the test set perplexity by changing the number of learning words to confirm the reliability of the test set. As is clear from FIG. 8, when all the learning sets (about 350,000 words) are used, the word bigram and the statistical language model 22 (200 classes) of the present embodiment (the numbers in parentheses indicate the separation classes) Are the same perplexity values, but even if the number of learning words is reduced, the statistical language model 2
It can be seen that the increase in perplexity of 2 is relatively small and has a lower value than the word bigram. Similarly, even when the word trigram is compared with the statistical language model 22 (600 classes), when the number of learning words decreases, the statistical language model 22 exhibits lower perplexity.

【0065】次いで、本発明者は、本実施形態の統計的
言語モデル22を図1の連続音声認識装置に適用し、統
計的言語モデル22の効果を確認した。音素認識の実験
条件を表2に示す。また、音響をパラメータもあわせて
表2に示す。
Next, the inventor applied the statistical language model 22 of the present embodiment to the continuous speech recognition apparatus of FIG. 1 and confirmed the effect of the statistical language model 22. Table 2 shows the experimental conditions for phoneme recognition. Table 2 also shows the sound parameters.

【0066】[0066]

【表2】 実験条件 ─────────────────────────────────── 分析条件 サンプリング周波数:12KHz, ハミング窓:20ms, フレーム周期:10ms ─────────────────────────────────── 使用パラメータ 16次LPCケプストラム+16次Δケプストラム +logパワー+Δlogパワー ─────────────────────────────────── 音響モデル HM網の男女別不特定話者モデル 400状態,5混合 ───────────────────────────────────[Table 2] Experimental conditions ─────────────────────────────────── Analysis conditions Sampling frequency: 12 KHz, Hamming window : 20 ms, Frame period: 10 ms 使用 Parameters used 16th order LPC cepstrum + 16th order ΔCepstrum + log power + Δlog power ─────────────────────────────────── Acoustic model Unspecified gender of HM network Speaker model 400 states, 5 mixed ───────────────────────────────────

【0067】表2において、HM網の男女別不特定話者
モデルについては、従来文献9「小坂ほか,“話者混合
SSSによる不特定話者音声認識”,日本音響学会講演
論文集,2−5−9,pp135−136,平成4年」
に開示されている。この実験では、単語グラフを用いた
連続音声認識法を用いて音響モデルおよび言語モデルを
連続音声認識装置に適用した。また、認識の対象は、統
計的言語モデル22のトレーニングセット中の16対話
であり、学習に用いられていないテストセットは18対
話である。各言語モデルで尤度1位の文認識候補の正解
単語含有率を表3に示す。
In Table 2, with regard to the gender-specific unspecified speaker model of the HM network, see Reference 9 "Kosaka et al.," Unspecified speaker speech recognition using mixed speaker SSS ", Proceedings of the Acoustical Society of Japan, 2- 5-9, pp 135-136, 1992 "
Is disclosed. In this experiment, an acoustic model and a language model were applied to a continuous speech recognizer using a continuous speech recognition method using a word graph. The recognition target is 16 conversations in the training set of the statistical language model 22, and the test set not used for learning is 18 conversations. Table 3 shows the correct word content rates of the sentence recognition candidates having the highest likelihood in each language model.

【0068】[0068]

【表3】 正解単語含有率 ─────────────────────────────────── バイグラム 本実施形態(分離クラス数) 0 500 ─────────────────────────────────── 辞書サブセット テストセット 71.4 67.3 72.2 トレーニンク゛セット 69.4 63.4
69.7 ─────────────────────────────────── 辞書フルセット テストセット −− 57.1 58.4 トレーニンク゛セット −− 54.6 56.0 ───────────────────────────────────
[Table 3] Correct word content rate ─────────────────────────────────── bigram This embodiment (separation class Number) 0 500 ─────────────────────────────────── dictionary subset test set 71.4 67.3 72 .2 Training set 69.4 63.4
69.7 ─────────────────────────────────── Dictionary full set Test set --- 57.1 58. 4 Training set-54.6 56.0

【0069】表3において、辞書サブセットは認識対象
に含まれる単語のみを辞書に登録したもの(750
語)、辞書フルセットは、統計的言語モデルの生成のた
めの学習に用いた全単語よりなる辞書(6,400語)
を表す。ただし、従来の単語バイグラムは、メモリ容量
と計算時間の都合上で、辞書フルセットの辞書の認識
は、今回の実験では計算を行なっていない。この場合
は、言い換えれば、大容量のメモリと莫大な処理時間が
必要である。
In Table 3, the dictionary subset is obtained by registering only words included in the recognition target in the dictionary (750).
Word), dictionary full set is a dictionary (6,400 words) consisting of all words used for learning to generate a statistical language model
Represents However, in the conventional word bigram, the recognition of the dictionary of the full dictionary was not performed in this experiment because of the memory capacity and the calculation time. In this case, in other words, a large-capacity memory and a huge processing time are required.

【0070】テストセットに関しては、パープレキシテ
ィの低い順、すなわち本実施形態の統計的言語モデル2
2(0クラス)→単語バイグラム→本実施形態の統計的
言語モデル22(500クラス)の順で正解単語含有率
が良くなっており、本実施形態の統計的言語モデル22
(500クラス)は、単語のバイグラムよりも若干では
あるが正解単語含有率が向上している。トレーニングセ
ットに関しては、本実施形態の統計的言語モデル22
(500クラス)は単語バイグラムよりも高いパープレ
キシティであるが、正解単語含有率は高くなっている。
また、本実施形態の統計的言語モデル22はパラメータ
数が少ないので、大語彙の認識への拡張が容易ある。し
たがって、本実施形態の統計的言語モデル22は連続音
声認識に対しても単語バイグラムより有効な言語モデル
であると考えられる。
Regarding the test set, in order of decreasing perplexity, that is, the statistical language model 2 of this embodiment
The correct word content rate is improved in the order of 2 (0 class) → word bigram → statistical language model 22 of this embodiment (500 classes).
(500 classes) have a slightly higher correct word content ratio than the word bigram. Regarding the training set, the statistical language model 22 of the present embodiment is used.
(500 classes) have higher perplexity than word bigrams, but have a higher correct word content rate.
Further, since the statistical language model 22 of the present embodiment has a small number of parameters, it can be easily extended to recognition of a large vocabulary. Therefore, the statistical language model 22 of the present embodiment is considered to be a language model that is more effective than the word bigram for continuous speech recognition.

【0071】以上説明したように、N−グラムの精度・
信頼性の向上を目的とした可変長N−グラムの統計的言
語モデル22の生成装置及びこれを用いた連続音声認識
装置を実現することができる。当該統計的言語モデル2
2は、品詞バイグラムを初期状態とし、品詞クラスから
の単語分離、および、連接単語の結合という、2種類の
状態分離を行なうことにより生成されるもので、品詞バ
イグラムと可変長単語N−グラムの特徴を併せ持つモデ
ルである。当該統計的言語モデル22の評価実験の結
果、当該統計的言語モデル22は、単語バイグラム以
上、単語トライグラムと同等のパープレキシティを、は
るかに少ないパラメータで実現できることが分かり、目
的とした性能が実現されていることが確認できた。ま
た、連続音声認識に適用した結果、単語バイグラムと同
じ程度の正解単語含有率を得ることができた。当該統計
的言語モデル22は少ないパラメータで実現できるた
め、大語彙の音声認識にも容易に拡張可能である。
As described above, the accuracy of the N-gram
A variable-length N-gram statistical language model 22 generation apparatus for improving reliability and a continuous speech recognition apparatus using the same can be realized. Statistical language model 2
2 is generated by performing two types of state separation, that is, separating the part of speech bigram from the part of speech class and combining the concatenated words with the part of speech bigram as an initial state. It is a model that combines features. As a result of the evaluation experiment of the statistical language model 22, it was found that the statistical language model 22 can realize a perplexity equal to or larger than a word bigram and a word trigram with far fewer parameters. It was confirmed that it was realized. In addition, as a result of applying the method to continuous speech recognition, it was possible to obtain a correct word content rate equivalent to that of a word bigram. Since the statistical language model 22 can be realized with a small number of parameters, it can be easily extended to speech recognition of a large vocabulary.

【0072】従って、遷移確率の予測精度及び信頼性を
改善することができる統計的言語モデル22を生成する
ことができる統計的言語モデル生成装置を提供すること
ができるとともに、当該統計的言語モデル22を用いて
より高い音声認識率で連続的に音声認識することができ
る連続音声認識装置を提供することができる。
Therefore, it is possible to provide a statistical language model generation device capable of generating the statistical language model 22 capable of improving the prediction accuracy and reliability of the transition probability, and to provide the statistical language model 22 , A continuous speech recognition device capable of continuously performing speech recognition at a higher speech recognition rate can be provided.

【0073】[0073]

【発明の効果】以上詳述したように本発明に係る請求項
1記載の統計的言語モデル生成装置によれば、所定の話
者の発声音声文を書き下した学習用テキストデータに基
づいて、すべての語彙を品詞毎にクラスタリングされた
品詞クラスに分類し、それらの品詞クラス間のバイグラ
ムを初期状態の統計的言語モデルとして生成する生成手
段と、上記生成手段によって生成された初期状態の統計
的言語モデルに基づいて、単語の品詞クラスからの分離
することができる第1の分離クラス候補と、1つの単語
と1つの単語との結合、1つの単語と複数の単語の単語
列との結合、複数の単語の単語列と1つの単語との結
合、複数の単語の単語列と、複数の単語の単語列との結
合とを含む連接単語又は連接単語列の結合によって単語
の品詞クラスから分離することができる第2の分離クラ
ス候補とを検索する検索手段と、上記検索手段によって
検索された第1と第2の分離クラス候補に対して、次単
語の予測の難易度を表わす所定のエントロピーを用い
て、クラスを分離することによる当該エントロピーの減
少量を計算する計算手段と、上記計算手段によって計算
された上記第1と第2の分離クラス候補に対するエント
ロピーの減少量の中で最大のクラス分離を選択して、選
択されたクラスの分離を実行することにより、品詞のバ
イグラムと可変長Nの単語のN−グラムとを含む統計的
言語モデルを生成する分離手段と、上記分離手段によっ
て生成された統計的言語モデルのクラス数が所定のクラ
ス数になるまで、上記分離手段によって生成された統計
的言語モデルを処理対象モデルとして、上記検索手段の
処理と、上記計算手段の処理と、上記分離手段の処理と
を繰り返すことにより、所定のクラス数を有する統計的
言語モデルを生成する制御手段とを備える。従って、遷
移確率の予測精度及び信頼性を改善することができる統
計的言語モデルを生成することができる。また、当該統
計的言語モデルは少ないパラメータで実現できるため、
大語彙の音声認識にも容易に拡張可能であるという特有
の利点を有する。
As described above in detail, according to the statistical language model generating apparatus according to the first aspect of the present invention, based on the learning text data in which the uttered voice sentence of a predetermined speaker is written, Means for classifying the vocabulary of words into part-of-speech classes clustered for each part-of-speech, and generating a bigram between the part-of-speech classes as an initial state statistical language model; and an initial state statistical language generated by the generator. A first separation class candidate that can be separated from a part of speech class of a word based on a model, a combination of one word and one word, a combination of one word and a word string of a plurality of words, From the part of speech class of a word by combining a word string of a word with one word, a word string of a plurality of words and a word string of a plurality of words. Search means for searching for a second separation class candidate that can be performed, and a predetermined entropy indicating the difficulty of predicting the next word for the first and second separation class candidates searched for by the search means. Calculating means for calculating the amount of decrease in the entropy by separating the classes, and the largest class of the amount of decrease in entropy for the first and second separation class candidates calculated by the calculating means. Separating means for selecting a separation and performing separation of the selected class to generate a statistical language model including a part-of-speech bigram and an N-gram of a variable-length N word; Until the number of classes of the statistical language model thus obtained reaches a predetermined number of classes, the statistical language model generated by the separating means as a processing target model, Comprising a processing of the serial retrieval means, the processing of the calculation means, by repeating the process of the separating means, and control means for generating a statistical language model having a predetermined number of classes. Therefore, a statistical language model that can improve the prediction accuracy and reliability of the transition probability can be generated. Also, since the statistical language model can be realized with few parameters,
It has the unique advantage that it can be easily extended to large vocabulary speech recognition.

【0074】本発明に係る請求項2記載の音声認識装置
においては、入力される発声音声文の音声信号に基づい
て、所定の統計的言語モデルを用いて音声認識する音声
認識手段を備えた音声認識装置において、上記音声認識
手段は、品詞のバイグラムと可変長Nの単語のN−グラ
ムとを含む統計的言語モデルを用いて音声認識する。従
って、遷移確率の予測精度及び信頼性を改善することが
できる統計的言語モデルを用いて音声認識するので、よ
り高い音声認識率で音声認識することができる音声認識
装置を提供することができる。
According to a second aspect of the present invention, there is provided a speech recognition apparatus comprising a speech recognition means for recognizing a speech by using a predetermined statistical language model based on a speech signal of an input uttered speech sentence. In the recognition device, the voice recognition means performs voice recognition using a statistical language model including a bigram of a part of speech and an N-gram of a word having a variable length. Therefore, since the speech recognition is performed using the statistical language model that can improve the prediction accuracy and reliability of the transition probability, it is possible to provide a speech recognition device that can perform speech recognition at a higher speech recognition rate.

【0075】また、請求項3記載の音声認識装置におい
ては、上記統計的言語モデルは、請求項1記載の統計的
言語モデル生成装置によって生成された。従って、遷移
確率の予測精度及び信頼性を改善することができる統計
的言語モデルを用いて音声認識するので、より高い音声
認識率で音声認識することができる音声認識装置を提供
することができる。
In the speech recognition apparatus according to the third aspect, the statistical language model is generated by the statistical language model generation apparatus according to the first aspect. Therefore, since the speech recognition is performed using the statistical language model that can improve the prediction accuracy and reliability of the transition probability, it is possible to provide a speech recognition device that can perform speech recognition at a higher speech recognition rate.

【0076】本発明に係る請求項4記載の連続音声認識
装置は、入力される発声音声文の音声信号に基づいて上
記発声音声文の単語仮説を検出し尤度を計算することに
より、連続的に音声認識する音声認識手段を備えた連続
音声認識装置において、上記音声認識手段は、請求項1
記載の統計的言語モデル生成装置によって生成された統
計的言語モデルを参照して、終了時刻が等しく開始時刻
が異なる同一の単語の単語仮説に対して、当該単語の先
頭音素環境毎に、発声開始時刻から当該単語の終了時刻
に至る計算された総尤度のうちの最も高い尤度を有する
1つの単語仮説で代表させるように単語仮説の絞り込み
を行う。すなわち、先行単語毎に1つの単語仮説で代表
させる従来技術の単語ペア近似法に比較して、単語の先
頭音素の先行音素(つまり、先行単語の最終音素)が等
しいものをひとまとめに扱うために、単語仮説数を削減
することができ、近似効果は大きい。特に、語彙数が増
加した場合において削減効果が大きい。従って、当該連
続音声認識装置を、間投詞の挿入や、言い淀み、言い直
しが頻繁に生じる自然発話の認識に用いた場合であって
も、単語仮説の併合又は分割に要する計算コストは従来
例に比較して小さくなる。すなわち、音声認識のために
必要な処理量が小さくなり、それ故、音声認識のための
記憶装置において必要な記憶容量は小さくなる一方、処
理量が小さくなるので音声認識のための処理時間を短縮
することができる。さらに、遷移確率の予測精度及び信
頼性を改善することができる統計的言語モデルを用いて
音声認識するので、より高い音声認識率で連続的に音声
認識することができる連続音声認識装置を提供すること
ができる。
A continuous speech recognition apparatus according to a fourth aspect of the present invention detects a word hypothesis of the uttered speech sentence based on an input speech signal of the uttered speech sentence and calculates a likelihood to thereby obtain a continuous speech. In a continuous speech recognition apparatus provided with a speech recognition means for recognizing a speech, the speech recognition means comprises:
With reference to the statistical language model generated by the described statistical language model generation device, for each word hypothesis of the same word having the same end time and different start time, the utterance starts for each head phoneme environment of the word. The word hypotheses are narrowed down so as to be represented by one word hypothesis having the highest likelihood among the total likelihoods calculated from the time to the end time of the word. That is, as compared with the prior art word pair approximation method in which each preceding word is represented by one word hypothesis, those in which the leading phoneme of the word (that is, the last phoneme of the preceding word) is equal are collectively handled. Therefore, the number of word hypotheses can be reduced, and the approximation effect is large. In particular, when the number of words increases, the reduction effect is large. Therefore, even when the continuous speech recognition device is used for recognizing natural utterances in which interjections are inserted, stagnant, and rephrased frequently, the calculation cost required for merging or dividing word hypotheses is lower than in the conventional example. It will be smaller compared to That is, the amount of processing required for speech recognition is reduced, and therefore, the storage capacity required for the storage device for speech recognition is reduced, while the amount of processing is reduced, so that the processing time for speech recognition is reduced. can do. Furthermore, since speech recognition is performed using a statistical language model that can improve the prediction accuracy and reliability of transition probability, a continuous speech recognition device that can continuously perform speech recognition at a higher speech recognition rate is provided. be able to.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
FIG. 1 is a block diagram of a continuous speech recognition apparatus according to an embodiment of the present invention.

【図2】 図1の連続音声認識装置における単語仮説絞
込部6の処理を示すタイミングチャートである。
FIG. 2 is a timing chart showing a process of a word hypothesis narrowing section 6 in the continuous speech recognition device of FIG.

【図3】 バイグラムの統計的言語モデルを示す状態遷
移図である。
FIG. 3 is a state transition diagram showing a bigram statistical language model.

【図4】 トライグラムの統計的言語モデルを示す状態
遷移図である。
FIG. 4 is a state transition diagram showing a statistical language model of a trigram.

【図5】 図1の連続音声認識装置において用いる可変
長N−グラムの下のモデルを示す状態遷移図である。
FIG. 5 is a state transition diagram showing a model under a variable length N-gram used in the continuous speech recognition device of FIG. 1;

【図6】 図1の言語モデル生成部20によって実行さ
れる言語モデル生成処理を示すフローチャートである。
FIG. 6 is a flowchart illustrating a language model generation process executed by the language model generation unit 20 of FIG. 1;

【図7】 図1の言語モデル生成部20によって生成さ
れる統計的言語モデルにおける分離クラス数に対するテ
ストセットパープレキシティを示すグラフである。
FIG. 7 is a graph showing test set perplexity with respect to the number of separated classes in a statistical language model generated by the language model generation unit 20 of FIG. 1;

【図8】 図1の言語モデル生成部20によって生成さ
れる統計的言語モデルにおける学習データの単語数に対
するテストセットパープレキシティを示すグラフであ
る。
8 is a graph showing test set perplexity with respect to the number of words of learning data in the statistical language model generated by the language model generation unit 20 of FIG.

【符号の説明】[Explanation of symbols]

1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 11…音素HMM、 12…単語辞書、 20…言語モデル生成部、 21…学習用テキストデータ、 22…統計的言語モデル。 DESCRIPTION OF SYMBOLS 1 ... Microphone, 2 ... Feature extraction part, 3, 5 ... Buffer memory, 4 ... Word collation part, 6 ... Word hypothesis narrowing part, 11 ... Phoneme HMM, 12 ... Word dictionary, 20 ... Language model generation part, 21 ... Learning text data, 22 ... Statistical language model.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 松永 昭一 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (56)参考文献 特開 平5−108704(JP,A) 特開 平5−250405(JP,A) 日本音響学会講演論文集(平成8年3 月)1−P−17,p.195〜196 (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 535 G10L 3/00 561 JICSTファイル(JOIS)────────────────────────────────────────────────── ─── Continuing on the front page (72) Inventor Shoichi Matsunaga 5th place Sanraya, Daiyaku small character, Seika-cho, Soraku-gun, Kyoto A.T. 108704 (JP, A) JP-A-5-250405 (JP, A) Proceedings of the Acoustical Society of Japan (March 1996) 1-P-17, p. 195-196 (58) Fields investigated (Int. Cl. 6 , DB name) G10L 3/00 535 G10L 3/00 561 JICST file (JOIS)

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 所定の話者の発声音声文を書き下した学
習用テキストデータに基づいて、すべての語彙を品詞毎
にクラスタリングされた品詞クラスに分類し、それらの
品詞クラス間のバイグラムを初期状態の統計的言語モデ
ルとして生成する生成手段と、 上記生成手段によって生成された初期状態の統計的言語
モデルに基づいて、単語の品詞クラスからの分離するこ
とができる第1の分離クラス候補と、1つの単語と1つ
の単語との結合、1つの単語と複数の単語の単語列との
結合、複数の単語の単語列と1つの単語との結合、複数
の単語の単語列と、複数の単語の単語列との結合とを含
む連接単語又は連接単語列の結合によって単語の品詞ク
ラスから分離することができる第2の分離クラス候補と
を検索する検索手段と、 上記検索手段によって検索された第1と第2の分離クラ
ス候補に対して、次単語の予測の難易度を表わす所定の
エントロピーを用いて、クラスを分離することによる当
該エントロピーの減少量を計算する計算手段と、 上記計算手段によって計算された上記第1と第2の分離
クラス候補に対するエントロピーの減少量の中で最大の
クラス分離を選択して、選択されたクラスの分離を実行
することにより、品詞のバイグラムと可変長Nの単語の
N−グラムとを含む統計的言語モデルを生成する分離手
段と、 上記分離手段によって生成された統計的言語モデルのク
ラス数が所定のクラス数になるまで、上記分離手段によ
って生成された統計的言語モデルを処理対象モデルとし
て、上記検索手段の処理と、上記計算手段の処理と、上
記分離手段の処理とを繰り返すことにより、所定のクラ
ス数を有する統計的言語モデルを生成する制御手段とを
備えたことを特徴とする統計的言語モデル生成装置。
1. Classifying all vocabulary into part-of-speech classes clustered for each part-of-speech based on learning text data in which uttered voice sentences of a predetermined speaker have been written, and setting a bigram between these part-of-speech classes in an initial state A first separation class candidate capable of separating words from a part of speech class based on the initial state statistical language model generated by the generation unit; Combination of one word and one word, combination of one word and multiple word strings, combination of multiple word word strings and one word, multiple word word strings and multiple word A search unit for searching for a connected word including a combination with a word string or a second separation class candidate that can be separated from a word class based on the combination of the connected word strings; Calculating means for calculating, using the predetermined entropy representing the difficulty level of the prediction of the next word, for the first and second separation class candidates retrieved by the search, the amount of reduction of the entropy by separating the classes Selecting the largest class separation among the reduced amounts of entropy for the first and second separation class candidates calculated by the calculation means, and executing the separation of the selected class, whereby the bigram of the part of speech is obtained. Separating means for generating a statistical language model including N-grams of words of variable length N, and the separating means until the number of classes of the statistical language model generated by the separating means reaches a predetermined number of classes. Using the statistical language model generated by the above as a processing target model, and repeating the processing of the search means, the processing of the calculation means, and the processing of the separation means And a control unit for generating a statistical language model having a predetermined number of classes.
【請求項2】 入力される発声音声文の音声信号に基づ
いて、所定の統計的言語モデルを用いて音声認識する音
声認識手段を備えた音声認識装置において、 上記音声認識手段は、品詞のバイグラムと可変長Nの単
語のN−グラムとを含む統計的言語モデルを用いて音声
認識することを特徴とする音声認識装置。
2. A speech recognition apparatus comprising speech recognition means for recognizing speech based on a speech signal of an input uttered speech sentence using a predetermined statistical language model, wherein the speech recognition means comprises a part-of-speech bigram. A speech recognition apparatus characterized in that speech recognition is performed using a statistical language model including N-grams of words of variable length N.
【請求項3】 上記統計的言語モデルは、請求項1記載
の統計的言語モデル生成装置によって生成されたことを
特徴とする音声認識装置。
3. A speech recognition device, wherein the statistical language model is generated by the statistical language model generation device according to claim 1.
【請求項4】 入力される発声音声文の音声信号に基づ
いて上記発声音声文の単語仮説を検出し尤度を計算する
ことにより、連続的に音声認識する音声認識手段を備え
た連続音声認識装置において、 上記音声認識手段は、請求項1記載の統計的言語モデル
生成装置によって生成された統計的言語モデルを参照し
て、終了時刻が等しく開始時刻が異なる同一の単語の単
語仮説に対して、当該単語の先頭音素環境毎に、発声開
始時刻から当該単語の終了時刻に至る計算された総尤度
のうちの最も高い尤度を有する1つの単語仮説で代表さ
せるように単語仮説の絞り込みを行うことを特徴とする
連続音声認識装置。
4. A continuous speech recognition device comprising a speech recognition means for continuously recognizing speech by detecting a word hypothesis of the speech speech sentence based on an input speech signal of the speech speech and calculating a likelihood. In the apparatus, the speech recognition unit refers to the statistical language model generated by the statistical language model generating apparatus according to claim 1 and, for a word hypothesis of the same word having equal end times and different start times. For each leading phoneme environment of the word, the word hypothesis is narrowed down so as to be represented by one word hypothesis having the highest likelihood among the total likelihoods calculated from the utterance start time to the end time of the word. A continuous speech recognition apparatus characterized by performing.
JP7292685A 1995-11-10 1995-11-10 Statistical language model generation device and speech recognition device Expired - Fee Related JP2886121B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7292685A JP2886121B2 (en) 1995-11-10 1995-11-10 Statistical language model generation device and speech recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7292685A JP2886121B2 (en) 1995-11-10 1995-11-10 Statistical language model generation device and speech recognition device

Publications (2)

Publication Number Publication Date
JPH09134192A JPH09134192A (en) 1997-05-20
JP2886121B2 true JP2886121B2 (en) 1999-04-26

Family

ID=17784982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7292685A Expired - Fee Related JP2886121B2 (en) 1995-11-10 1995-11-10 Statistical language model generation device and speech recognition device

Country Status (1)

Country Link
JP (1) JP2886121B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319989A (en) * 1997-05-16 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> Statistical language model and its formation
JP3004254B2 (en) * 1998-06-12 2000-01-31 株式会社エイ・ティ・アール音声翻訳通信研究所 Statistical sequence model generation device, statistical language model generation device, and speech recognition device
JP4215418B2 (en) 2001-08-24 2009-01-28 インターナショナル・ビジネス・マシーンズ・コーポレーション Word prediction method, speech recognition method, speech recognition apparatus and program using the method
JP2005275348A (en) * 2004-02-23 2005-10-06 Nippon Telegr & Teleph Corp <Ntt> Speech recognition method, device, program and recording medium for executing the method
US7406416B2 (en) * 2004-03-26 2008-07-29 Microsoft Corporation Representation of a deleted interpolation N-gram language model in ARPA standard format
US9128926B2 (en) 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集(平成8年3月)1−P−17,p.195〜196

Also Published As

Publication number Publication date
JPH09134192A (en) 1997-05-20

Similar Documents

Publication Publication Date Title
EP1922653B1 (en) Word clustering for input data
Jelinek et al. 25 Continuous speech recognition: Statistical methods
JPH10501078A (en) Method and apparatus for adapting the size of a language model of a speech recognition system
JPH0372997B2 (en)
JP2886121B2 (en) Statistical language model generation device and speech recognition device
JP3364631B2 (en) Statistical language model generation apparatus and speech recognition apparatus
Shikano Improvement of word recognition results by trigram model
JP3444108B2 (en) Voice recognition device
JP3027544B2 (en) Statistical language model generation device and speech recognition device
JP2938866B1 (en) Statistical language model generation device and speech recognition device
JP2974621B2 (en) Speech recognition word dictionary creation device and continuous speech recognition device
JP2938865B1 (en) Voice recognition device
JP2852210B2 (en) Unspecified speaker model creation device and speech recognition device
JP2002091484A (en) Language model generator and voice recognition device using the generator, language model generating method and voice recognition method using the method, computer readable recording medium which records language model generating program and computer readable recording medium which records voice recognition program
JP2002082690A (en) Language model generating method, voice recognition method and its program recording medium
JP2968792B1 (en) Statistical language model generation device and speech recognition device
JP2000356997A (en) Statistical language model generator and voice recognition device
Ma et al. Recognize foreign low-frequency words with similar pairs
Ma et al. Low-frequency word enhancement with similar pairs in speech recognition
JPH1185184A (en) Speech recognition device
JP2731133B2 (en) Continuous speech recognition device
JP2905686B2 (en) Voice recognition device
JPH10254477A (en) Phonemic boundary detector and speech recognition device
KR20000037625A (en) Method for recognizing voice using speech characteristic information
JP2999727B2 (en) Voice recognition device

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090212

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100212

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110212

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120212

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees