JPH09134192A - Statistical language model forming device and speech recognition device - Google Patents

Statistical language model forming device and speech recognition device

Info

Publication number
JPH09134192A
JPH09134192A JP7292685A JP29268595A JPH09134192A JP H09134192 A JPH09134192 A JP H09134192A JP 7292685 A JP7292685 A JP 7292685A JP 29268595 A JP29268595 A JP 29268595A JP H09134192 A JPH09134192 A JP H09134192A
Authority
JP
Japan
Prior art keywords
word
language model
class
statistical language
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7292685A
Other languages
Japanese (ja)
Other versions
JP2886121B2 (en
Inventor
Hirokazu Masataki
浩和 政瀧
Yoshinori Kosaka
芳典 匂坂
Shoichi Matsunaga
昭一 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP7292685A priority Critical patent/JP2886121B2/en
Publication of JPH09134192A publication Critical patent/JPH09134192A/en
Application granted granted Critical
Publication of JP2886121B2 publication Critical patent/JP2886121B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To improve the prediction accuracy and reliability of a transition probability by setting part-of-speech bigrams into an initial state and executing two kinds of state sepn. of word separation and integration of concatenated words from part-of-speech classes, thereby forming a statistical language model of variable length N-grams. SOLUTION: A word hypothesis converging section 6 converges the word hypothesis in such a manner that the word hypothesis of the same words of the equal end time and the different start time is represented by the one word hypothesis having the highest likelihood by referencing the statistical language model 22. The statistical language model 22 used here separates the words reliable with the words alone from the part-of-speech classes and handles these words as the independent classes on the basis of the bigram (N=2) between the part-of-speech classes. As to frequently appearing word strings, the model integrates these word strings and handles the same as one class, thereby making the expression of the long word concatenation possible. The statistical language model 22 having the characteristics of the part-of-speech bigrams and the variable length word N-grams in combination is thus formed.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、学習用テキストデ
ータに基づいて統計的言語モデルを生成する統計的言語
モデル生成装置、及び上記統計的言語モデルを用いて、
入力される発声音声文の音声信号を音声認識する音声認
識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a statistical language model generating apparatus for generating a statistical language model based on learning text data, and a statistical language model using the statistical language model.
The present invention relates to a voice recognition device that recognizes a voice signal of an input uttered voice sentence.

【0002】[0002]

【従来の技術】近年、連続音声認識装置において、その
性能を高めるために言語モデルを用いる方法が研究され
ている。これは、言語モデルを用いて、次単語を予測し
探索空間を削減することにより、認識率の向上および計
算時間の削減の効果を狙ったものである。最近盛んに用
いられている言語モデルとしてN−グラム(N−gra
m)がある。これは、大規模なテキストデータを学習
し、直前のN−1個の単語から次の単語への遷移確率を
統計的に与えるものである。複数L個の単語列w1 L=w
1,w2,…,wLの生成確率P(w1 L)は次式で表され
る。
2. Description of the Related Art In recent years, a method of using a language model has been studied to improve the performance of a continuous speech recognition apparatus. This aims to improve the recognition rate and reduce the calculation time by predicting the next word and reducing the search space using a language model. N-Gram (N-Gram) is a language model that has been widely used recently.
m). It learns large-scale text data and statistically gives the transition probability from the previous N-1 words to the next word. Multiple L word strings w 1 L = w
The generation probability P (w 1 L ) of 1 , w 2 , ..., W L is expressed by the following equation.

【0003】[0003]

【数1】 (Equation 1)

【0004】ここで、wtは単語列w1 Lのうちt番目の
1つの単語を表し、wi jはi番目からj番目の単語列を
表わす。上記数1において、確率P(wt
t+1-N t-1)は、N個の単語からなる単語列wt+1-N t-1
が発声された後に単語wtが発声される確率であり、以
下同様に、確率P(A|B)は単語又は単語列Bが発声
された後に単語Aが発声される確率を意味する。また、
数1における「Π」はt=1からLまでの確率P(wt
|wt+1-N t-1)の積を意味し、以下同様である。
[0004] Here, w t represents a t-th one word of the word string w 1 L, w i j represents the j-th word string from the i-th. In the above equation 1, the probability P (w t |
wt + 1- Nt-1 ) is a word sequence wt + 1- Nt-1 composed of N words.
Is the probability that the word w t will be uttered after is uttered, and similarly, the probability P (A | B) means the probability that the word A will be uttered after the word or word string B has been uttered. Also,
“Π” in Equation 1 represents the probability P (w t from t = 1 to L
| W t + 1−N t−1 ), and so on.

【0005】N−グラムは極めて単純なものでありなが
ら、構築の容易さ、統計的音響モデルとの相性の良さ、
認識率向上や計算時間の短縮の効果が大きい等の理由
で、連続音声認識には非常に有効である(例えば、従来
文献1「L.R.Bahlほか,“A Maximum
Likelihood Approach to C
ontinuous Speech Recognit
ion”,IEEE Transaction on
Pattern Analysis and Mach
ine Intelligence, pp.179−
190,1983年」、従来文献2「P.C.Wood
landほか,“THE 1994 HTK Larg
e Vocabulary Speech Recog
nition System”,Proceeding
s of ICASSP95’,Vol.1,pp.7
3−76,1995年」、従来文献3「村上ほか,“単
語のtrigramを利用した文音声認識と自由発話認
識への拡張”,電子情報通信学会技術研究報告,SP9
3−127,pp71−78,平成6年」参照。)。
N-grams are extremely simple, yet easy to construct, compatible with statistical acoustic models,
It is very effective for continuous speech recognition because it has a large effect of improving the recognition rate and shortening the calculation time (for example, in the conventional document 1, “LR Bahl et al.,“ A Maximummum ”).
Likelihood Approach to C
ontinous Speech Recognit
Ion ”, IEEE Transaction on
Pattern Analysis and Mach
ine Intelligence, pp. 179-
190, 1983 ", the conventional document 2" PC Wood "
Land et al., "THE 1994 HTK Larg"
e Vocabulary Speech Recog
Nation System ”, Proceeding
s of ICASSP95 ', Vol. 1, pp. 7
3-76, 1995 ”, conventional document 3“ Murakami et al., “Sentence Speech Recognition Using Word Trigram and Extension to Free Speech Recognition”, IEICE Technical Research Report, SP9.
3-127, pp71-78, 1994 ". ).

【0006】一般に、N−グラムの言語モデルは、Nを
大きくすると長い単語連鎖を取り扱うことにより次単語
の精度は高くなるが、パラメータ数が多くなり、学習デ
ータ量が少ない場合は出現頻度の低い単語に信頼できる
遷移確率を与えることはできない。例えば語彙数が5,
000語のとき、トライグラム(trigram)(N
=3)の全ての単語の遷移組は(5,000)3=1,
250億であるから、信頼できる遷移確率を求めるため
には、数千億単語以上からなる膨大なテキストデータが
必要となる。これだけの膨大なテキストデータを集める
のは事実上不可能である。逆に、Nを小さくすると、遷
移確率の信頼性は高くなるが、短い単語連鎖しか取り扱
うことができず、次単語の予測精度は低くなる。
Generally, in the N-gram language model, the accuracy of the next word is improved by handling a long word chain when N is increased, but the number of parameters is large and the frequency of appearance is low when the learning data amount is small. It is not possible to give a word a reliable transition probability. For example, the number of vocabulary is 5,
When there are 000 words, trigram (N
= 3), the transition set of all words is (5,000) 3 = 1,
Since it is 25 billion, a huge amount of text data of several hundred billion words or more is required to obtain a reliable transition probability. It is virtually impossible to collect such a huge amount of text data. Conversely, if N is made small, the reliability of the transition probability becomes high, but only a short word chain can be handled, and the prediction accuracy of the next word becomes low.

【0007】[0007]

【発明が解決しようとする課題】この問題を解決するた
め、次のような方法が提案されている。 (1)補間による未学習遷移確率の推定方法 この方法は、例えば、Deleted Interpo
lation(削除補間法)(例えば、従来文献4
「F.Jelinekほか,“Interpolate
d estimation of Markov So
urce Parameters from Spar
se Data”,Proceedingsof Wo
rkshop Pattern Recognitio
n inPractice,pp.381−37,19
80年」参照。)や、Back−off Smooth
ing法(従来文献5「S.M.Katz,“Esti
mation of Probabilities f
rom Sparse Data for the L
anguage model Componentof
a Speech Recognizer”,IEE
E Transaction on Acoustic
s, Speech, and Signal Pro
cessing,Vol.ASSP−35,No.3,
pp.400−401,1987年3月」参照。)等に
代表される方法で、小さいNのN−グラム(N−gra
m)の値で遷移確率を補間することにより、学習用テキ
ストデータには存在しない単語遷移に対しても、遷移確
率を与えることができる。しかしながら、出現頻度の低
い単語に関しては信頼できる遷移確率を与えられない恐
れがある。
In order to solve this problem, the following method has been proposed. (1) Method of Estimating Unlearned Transition Probability by Interpolation This method is based on, for example, Deleted Interpo
(deletion interpolation method) (for example, conventional document 4
"F. Jelinek et al.," Interpolate
d estimation of Markov So
urce Parameters from Spar
se Data ”, Proceedings of Wo
rkshop Pattern Recognitio
n inPractice, pp. 381-37, 19
80 years ". ), Back-off Smooth
ing method (conventional document 5 “SM Katz,“ Esti.
marriage of Probabilities f
rom Sparse Data for the L
Angular model component of
a Speech Recognizer ", IEEE
E Transaction on Acoustic
s, Speech, and Signal Pro
cessing, Vol. ASSP-35, No. 3,
pp. 400-401, March 1987 ". ) Etc., a small N N-gram (N-gra).
By interpolating the transition probability with the value of m), the transition probability can be given to a word transition that does not exist in the learning text data. However, there is a possibility that a reliable transition probability cannot be given to a word having a low appearance frequency.

【0008】(2)クラスN−グラムによるパラメータ
数の削減方法 この方法は、相互情報量に基づくクラスタリング(例え
ば、従来文献6「P.F.Brownほか,“Clas
s−Based n−gram modelsof n
atural language”,Computat
ionalLinguistics,Vol.18,N
o.4,pp467−479,1992年」参照。)
や、品詞(従来文献7「周ほか,“確率モデルによる日
本語の大語彙連続音声認識”,情報処理学会,第51回
全国大会講演論文集,pp119−120,平成7年」
参照。)等によるクラス間のN−グラムを考えたもの
で、L個の単語の文生成確率P(w1 L)は一般に次式で
表される。
(2) Method for reducing the number of parameters by class N-gram This method uses clustering based on mutual information (see, for example, the conventional document 6 “PF Brown et al.,“ Clas.
s-Based n-gram model of n
atatural language ”, Computat
ional Linguistics, Vol. 18, N
o. 4, pp 467-479, 1992 ". )
And part-of-speech (Conventional document 7 "Zhou et al.," Large vocabulary continuous speech recognition of Japanese by probabilistic model ", Information Processing Society of Japan, Proc. Of the 51st National Convention, pp. 119-120, 1995).
reference. ) Etc., the sentence generation probability P (w 1 L ) of L words is generally expressed by the following equation.

【0009】[0009]

【数2】 (Equation 2)

【0010】ここで、ctは単語wtの属するクラスを表
し、ci jはi番目からj番目のクラス列を表わす。上記
数2で、P(ct|ct-N+1 t+1)は、直前の(N−1)
個の単語の属するクラスから次の単語の属するクラスへ
の遷移確率を表す。クラス数が50のとき、トライグラ
ムの全てのクラス間の遷移の組は503=125,00
0であるから、数十万単語程度と単語N−グラムに比べ
てかなり小規模なテキストデータで遷移確率が求められ
ると考えられる。しかしながら、単語間の特有な連接関
係を表現することができないので、次単語の予測精度は
悪くなると考えられる。
Here, c t represents a class to which the word w t belongs, and c i j represents an i-th to j-th class string. In the above equation 2, P ( ct | ct-N + 1t + 1 ) is the immediately preceding (N-1)
Represents the transition probability from the class to which this word belongs to the class to which the next word belongs. When the number of classes is 50, the set of transitions between all the classes of the trigram is 50 3 = 125,00.
Since it is 0, it is considered that the transition probability can be obtained with text data of several hundred thousand words, which is considerably smaller than the word N-gram. However, since it is not possible to express a unique concatenation relationship between words, it is considered that the prediction accuracy of the next word becomes poor.

【0011】本発明の目的は以上の問題点を解決し、従
来例に比較して遷移確率の予測精度及び信頼性を改善す
ることができる統計的言語モデルを生成することができ
る統計的言語モデル生成装置、及び、当該統計的言語モ
デルを用いて従来例に比較して高い音声認識率で音声認
識することができる音声認識装置を提供することにあ
る。
An object of the present invention is to solve the above-mentioned problems, and to generate a statistical language model capable of generating a statistical language model capable of improving the prediction accuracy and reliability of transition probability as compared with the conventional example. An object of the present invention is to provide a generation device and a speech recognition device that can perform speech recognition at a higher speech recognition rate than a conventional example using the statistical language model.

【0012】[0012]

【課題を解決するための手段】本発明に係る請求項1記
載の統計的言語モデル生成装置は、所定の話者の発声音
声文を書き下した学習用テキストデータに基づいて、す
べての語彙を品詞毎にクラスタリングされた品詞クラス
に分類し、それらの品詞クラス間のバイグラムを初期状
態の統計的言語モデルとして生成する生成手段と、上記
生成手段によって生成された初期状態の統計的言語モデ
ルに基づいて、単語の品詞クラスからの分離することが
できる第1の分離クラス候補と、1つの単語と1つの単
語との結合、1つの単語と複数の単語の単語列との結
合、複数の単語の単語列と1つの単語との結合、複数の
単語の単語列と、複数の単語の単語列との結合とを含む
連接単語又は連接単語列の結合によって単語の品詞クラ
スから分離することができる第2の分離クラス候補とを
検索する検索手段と、上記検索手段によって検索された
第1と第2の分離クラス候補に対して、次単語の予測の
難易度を表わす所定のエントロピーを用いて、クラスを
分離することによる当該エントロピーの減少量を計算す
る計算手段と、上記計算手段によって計算された上記第
1と第2の分離クラス候補に対するエントロピーの減少
量の中で最大のクラス分離を選択して、選択されたクラ
スの分離を実行することにより、品詞のバイグラムと可
変長Nの単語のN−グラムとを含む統計的言語モデルを
生成する分離手段と、上記分離手段によって生成された
統計的言語モデルのクラス数が所定のクラス数になるま
で、上記分離手段によって生成された統計的言語モデル
を処理対象モデルとして、上記検索手段の処理と、上記
計算手段の処理と、上記分離手段の処理とを繰り返すこ
とにより、所定のクラス数を有する統計的言語モデルを
生成する制御手段とを備えたことを特徴とする。
According to a first aspect of the present invention, there is provided a statistical language model generating apparatus according to the first aspect of the present invention, in which all vocabularies are part-of-speech based on learning text data in which uttered voice sentences of a predetermined speaker are written down. Based on the generating means for classifying each part of speech into a part-of-speech class and generating a bigram between these part-of-speech classes as a statistical language model of the initial state, and the statistical language model of the initial state generated by the generating means. , A first separation class candidate that can be separated from a part-of-speech class of a word, a combination of a word and a word, a combination of a word string of a word and a plurality of words, a word of a plurality of words Separation from a word part-of-speech class by a concatenated word or a concatenation of concatenated word strings, including a concatenation of a sequence and a word, a concatenation of a plurality of word sequences and a concatenation of a plurality of word sequences. Search means for searching for possible second separation class candidates and predetermined entropy representing the difficulty level of prediction of the next word for the first and second separation class candidates searched by the search means. , Calculating means for calculating a reduction amount of the entropy by separating the classes, and selecting the largest class separation among the reduction amounts of entropy for the first and second separation class candidates calculated by the calculating means And performing the separation of the selected class to generate a statistical language model including the bigram of the part of speech and the N-gram of the word of variable length N, and the statistics generated by the separation means. Until the number of classes of the dynamic language model reaches a predetermined number of classes, the statistical language model generated by the separating means is used as the processing target model, And processing, the processing of the calculation means, by repeating the process of the separating means, characterized in that a control means for generating a statistical language model having a predetermined number of classes.

【0013】本発明に係る請求項2記載の音声認識装置
は、入力される発声音声文の音声信号に基づいて、所定
の統計的言語モデルを用いて音声認識する音声認識手段
を備えた音声認識装置において、上記音声認識手段は、
品詞のバイグラムと可変長Nの単語のN−グラムとを含
む統計的言語モデルを用いて音声認識することを特徴と
する。
According to a second aspect of the present invention, there is provided a voice recognition device comprising voice recognition means for recognizing voice using a predetermined statistical language model based on a voice signal of an input utterance voice sentence. In the device, the voice recognition means,
It is characterized in that speech recognition is performed using a statistical language model including a part-of-speech bigram and a variable length N word N-gram.

【0014】また、請求項3記載の音声認識装置におい
ては、上記統計的言語モデルは、請求項1記載の統計的
言語モデル生成装置によって生成されたことを特徴とす
る。
According to a third aspect of the speech recognition apparatus, the statistical language model is generated by the statistical language model generation apparatus according to the first aspect.

【0015】本発明に係る請求項4記載の連続音声認識
装置は、入力される発声音声文の音声信号に基づいて上
記発声音声文の単語仮説を検出し尤度を計算することに
より、連続的に音声認識する音声認識手段を備えた連続
音声認識装置において、上記音声認識手段は、請求項1
記載の統計的言語モデル生成装置によって生成された統
計的言語モデルを参照して、終了時刻が等しく開始時刻
が異なる同一の単語の単語仮説に対して、当該単語の先
頭音素環境毎に、発声開始時刻から当該単語の終了時刻
に至る計算された総尤度のうちの最も高い尤度を有する
1つの単語仮説で代表させるように単語仮説の絞り込み
を行うことを特徴とする。
A continuous speech recognition apparatus according to a fourth aspect of the present invention continuously detects the word hypothesis of the uttered voice sentence based on the input voice signal of the uttered voice sentence and calculates the likelihood, In a continuous voice recognition device equipped with voice recognition means for recognizing voices, the voice recognition means comprises:
With reference to the statistical language model generated by the described statistical language model generation device, with respect to the word hypothesis of the same word having the same end time but different start time, utterance start for each head phoneme environment of the word It is characterized in that the word hypotheses are narrowed down so as to be represented by one word hypothesis having the highest likelihood of the total likelihood calculated from the time to the end time of the word.

【0016】[0016]

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1に本発明に係る一実
施形態の連続音声認識装置のブロック図を示す。本実施
形態の連続音声認識装置は、公知のワン−パス・ビタビ
復号化法を用いて、入力される発声音声文の音声信号の
特徴パラメータに基づいて上記発声音声文の単語仮説を
検出し尤度を計算して出力する単語照合部4を備えた連
続音声認識装置において、単語照合部4からバッファメ
モリ5を介して出力される、終了時刻が等しく開始時刻
が異なる同一の単語の単語仮説に対して、統計的言語モ
デル22を参照して、当該単語の先頭音素環境毎に、発
声開始時刻から当該単語の終了時刻に至る計算された総
尤度のうちの最も高い尤度を有する1つの単語仮説で代
表させるように単語仮説の絞り込みを行う単語仮説絞込
部6を備えたことを特徴とする。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows a block diagram of a continuous speech recognition apparatus according to an embodiment of the present invention. The continuous speech recognition apparatus of the present embodiment uses a known one-pass Viterbi decoding method to detect the word hypothesis of the uttered voice sentence based on the characteristic parameters of the voice signal of the input uttered voice sentence. In a continuous speech recognition apparatus having a word matching unit 4 for calculating and outputting a degree, a word hypothesis of the same word output from the word matching unit 4 via the buffer memory 5 and having the same end time but different start time is used. On the other hand, with reference to the statistical language model 22, one having the highest likelihood of the total likelihood calculated from the utterance start time to the end time of the word for each head phoneme environment of the word. It is characterized in that a word hypothesis narrowing unit 6 for narrowing down the word hypotheses so as to be represented by the word hypotheses is provided.

【0017】ここで用いる統計的言語モデル22は、学
習用テキストデータに基づいて言語モデル生成部20に
より生成されたものであって、統計的言語モデル22
は、品詞クラス間のバイグラム(N=2)を基本とした
ものであるが、単独で信頼できる単語は品詞クラスより
分離させ、単独のクラスとして取り扱い、さらに、予測
精度を向上させるため、頻出単語列に関してはそれらの
単語を結合して一つのクラスとして取り扱い、長い単語
連鎖の表現を可能にさせ、こうして、生成されたモデル
は、品詞バイグラムと可変長単語N−グラムとの特徴を
併せ持つ統計的言語モデルとなり、遷移確率の精度と信
頼性とのバランスをとられたものであることを特徴とす
る。
The statistical language model 22 used here is generated by the language model generator 20 based on the learning text data, and the statistical language model 22 is used.
Is based on a bigram (N = 2) between parts-of-speech classes, but separate and reliable words are separated from the parts-of-speech class and treated as a single class. For the sequence, those words are combined and treated as one class to enable the expression of a long word chain. In this way, the generated model is a statistical model that has characteristics of a part-of-speech bigram and a variable length word N-gram. It is a language model, and is characterized in that the accuracy and reliability of transition probabilities are balanced.

【0018】まず、本実施形態において用いる可変長N
−グラムの概念について以下に説明する。N−グラム
は、(N−1)重のマルコフモデルであり、これは、過
去(N−1)回の状態遷移を記憶するように単純(1
重)マルコフモデルの各状態が分離されたものと解釈さ
れる。例として、図3にバイグラムをマルコフモデルと
して図式化した状態遷移図を示し、図4にトライグラム
をマルコフモデルとして図式化した状態遷移図を示す。
First, the variable length N used in this embodiment.
-The concept of grams is explained below. The N-gram is a (N-1) -weighted Markov model, which is as simple as (1) to remember past (N-1) state transitions.
Heavy) It is interpreted that each state of the Markov model is separated. As an example, FIG. 3 shows a state transition diagram in which a bigram is modeled as a Markov model, and FIG. 4 shows a state transition diagram in which a trigram is modeled as a Markov model.

【0019】図3においては、状態s1においてシンボ
ルaを出力されたとき状態s1のままであるが、状態s1
でシンボルbを出力した状態s2に遷移する。状態s2
シンボルbを出力したときは状態s2のままであるが、
状態s2でシンボルaを出力したとき状態s1に戻る。図
4のトライグラムは、バイグラムの状態s1を状態s11
と状態s12とに分離しかつ、状態s2を状態s21と状態
22とに分離したものと考えられる。さらに、全ての状
態の分離を進めることにより、より高次のN−グラムと
なる。
[0019] In FIG. 3, but remains in state s 1 when output symbol a in state s 1, the state s 1
Makes a transition to the state s 2 in which the symbol b is output. But it remains in the state s 2 when outputting the symbol b in the state s 2,
When the symbol a is output in the state s 2 , the state returns to the state s 1 . In the trigram of FIG. 4, the state s 1 of the bigram is changed to the state s 11
And state s 12 and state s 2 is separated into state s 21 and state s 22 . Furthermore, by proceeding with the separation of all the states, a higher-order N-gram is obtained.

【0020】図5に示す可変長N−グラムは、単純マル
コフモデルの状態を部分的に分離させたものである。す
なわち、図3のバイグラムにおいて、状態s2から、シ
ンボルaが出力される際に、続けてシンボルbを出力す
る場合(これをabと表わし、シンボルabを出力する
という。)、続けてb以外のシンボルを出力する場合
(これをa(/b)と表し、シンボルa(/b)を出力
するという。ここで、/は否定の意味を表しバー(上
線)である。)とに分け、前者の場合、状態s1から状
態s12に遷移させる一方、後者の場合、状態s2から状
態s11に遷移させる。すなわち、前者の場合において、
状態s1から状態s12へと分離させ、シンボルaを出力
する残りの遷移(a(/b))を状態s11に残したもの
である。なお、このモデルにおいて、状態s11でシンボ
ルabを出力したとき状態s12に遷移する一方、状態s
11でシンボルa(/b)を出力したとき状態s11のまま
である。また、状態s12でシンボルabを出力したとき
状態s12のままである一方、状態s12でシンボルa(/
b)を出力したとき状態s11に遷移する。
The variable length N-gram shown in FIG. 5 is a partial separation of the states of a simple Markov model. That is, in the bigram of FIG. 3, when the symbol a is output from the state s 2 , when the symbol b is continuously output (this is referred to as ab and the symbol ab is output), then other than b is continuously output. The symbol is output (this is referred to as a (/ b) and the symbol a (/ b) is output. Here, / represents a negative meaning and is a bar (overline)). In the former case, the state s 1 is changed to the state s 12 , while in the latter case, the state s 2 is changed to the state s 11 . That is, in the former case,
The state s 1 is separated into the state s 12 , and the remaining transition (a (/ b)) that outputs the symbol a is left in the state s 11 . In this model, when the symbol ab is output in the state s 11 , the state transitions to the state s 12 while the state s 11
When the symbol a (/ b) is output at 11 , the state remains s 11 . Further, while in the state s 12 and remain in the state s 12 when outputting the symbol ab, while s 12 symbols a (/
When b) is output, the state transits to the state s 11 .

【0021】このモデルは、複数の連続したシンボルを
新しいシンボルとみなすことで、単純マルコフモデルの
構造のまま、長い連鎖を表すことができるという特徴が
ある。同様の状態分離を繰り返すことで、局所的にさら
に長い連鎖を表すことができる。これが可変長N−グラ
ムである。すなわち、シンボルを単語とみなした言語モ
デルとしての可変長単語N−グラムは、単語列(1単語
も含む)間のバイグラムと表される。
This model is characterized in that a long chain can be represented with the structure of the simple Markov model as it is by treating a plurality of continuous symbols as new symbols. By repeating the same state separation, it is possible to locally represent a longer chain. This is a variable length N-gram. That is, the variable-length word N-gram as a language model in which the symbols are regarded as words is represented as a bigram between word strings (including one word).

【0022】次いで、可変長N−グラムの動作について
説明する。本実施形態で用いる統計的言語モデル22
は、品詞クラスと単語との可変長N−グラムであり、次
の3種類のクラス間のバイグラムとして表現する。 (1)品詞クラス(以下、第1のクラスという。)、
(2)品詞クラスから分離した単語のクラス(以下、第
2のクラスという。)、及び、(3)連接単語が結合し
てできたクラス(以下、第3のクラスという。)。
Next, the operation of the variable length N-gram will be described. Statistical language model 22 used in this embodiment
Is a variable length N-gram of a part-of-speech class and a word, and is expressed as a bigram between the following three types of classes. (1) Part of speech class (hereinafter referred to as the first class),
(2) A class of words separated from the part-of-speech class (hereinafter referred to as a second class), and (3) a class formed by combining concatenated words (hereinafter referred to as a third class).

【0023】上記第1のクラスに属する単語は、主とし
て出現頻度の小さいもので、単語単独で取り扱うよりも
遷移確率の信頼性が高められる。また、第2のクラスに
属する単語は、主として出現頻度が高いもので、単独で
取り扱っても十分な信頼性があり、さらに、連接単語が
結合して上記第3のクラスに分類されることにより、可
変長N−グラムとして動作し、次単語の予測精度が高め
られる。ただし、本実施形態において、連接する品詞ク
ラスと品詞クラス、および、品詞クラスと単語の結合は
考えない。複数L個の単語からなる文の生成確率P(w
1 L)は、次式で与えられる。
The words belonging to the first class have a low frequency of occurrence, and the reliability of the transition probability is improved as compared with the case of handling the words alone. In addition, the words belonging to the second class are mainly high in frequency of occurrence, and are sufficiently reliable to be handled alone, and further, concatenated words are combined and classified into the third class. , Variable length N-gram, the prediction accuracy of the next word is improved. However, in the present embodiment, the concatenation of the part-of-speech class and the part-of-speech class and the combination of the part-of-speech class and the word that are connected are not considered. Generation probability P (w of a sentence composed of a plurality of L words
1 L ) is given by the following equation.

【0024】[0024]

【数3】 (Equation 3)

【0025】ここで、wstは文章を上記のクラスに分
類した時の、t番目の単語列(単独の単語も含める)を
意味する。従って、P(wst|ct)は、t番目のクラ
スがわかったときに単語列wstが出現する確率であ
り、P(ct|ct-1)は1つ前の(t−1)番目のクラ
スから当該t番目のクラスの単語が出現する確率であ
る。また、文章のKは単語列の個数を表し、K≦Lであ
る。従って、数3のΠはt=1からKまでの積である。
ここで、例として、次の7単語からなる発声音声文の文
章を考える。
Here, ws t means a t-th word string (including a single word) when sentences are classified into the above classes. Therefore, P (ws t | c t ) is the probability that the word string ws t appears when found t-th class, P (c t | c t -1) is the previous (t- 1) Probability that the word of the t-th class appears from the 1st class. Further, K of the sentence represents the number of word strings, and K ≦ L. Therefore, Π in Equation 3 is a product of t = 1 to K.
Here, as an example, consider a sentence of an uttered voice sentence consisting of the following seven words.

【0026】[0026]

【数4】「わたくし−村山−と−言−い−ま−す」[Equation 4] "I-Murayama-and-Word-I-Mas"

【0027】この文章の生成確率P(w1 L)は、数3を
用いて、次の式で与えられる。
The generation probability P (w 1 L ) of this sentence is given by the following equation using the equation (3).

【0028】[0028]

【数5】 P(w1 L)=P(わたくし|{わたくし})・P({わたくし}) ・P(村山|<固有名詞>)・(<固有名詞>|{わたくし}) ・P(と|{と})・P({と}|<固有名詞>) ・P(言います|[言います])・P([言います]|{と})[Formula 5] P (w 1 L ) = P (Watashi | {Watashi}) ・ P ({Watashi}) ・ P (Murayama | <proper noun>) ・ (<Proper noun> | {Wataku}}) P ( And | {and}) ・ P ({and} | <proper noun>) ・ P (say || say]) ・ P ([say] | {and})

【0029】ただし、<>,{},[]はそれぞれ、第
1のクラス、第2のクラス、第3のクラスに属するして
いることを表す。ただし、各単語および単語列は次のよ
うに属している。 (1)「村山」は名詞なので、第1のクラスに属する。 (2)「わたくし」、「と」は名詞と助詞との組み合わ
せであり、第2のクラスに属する。 (3)「言います」は動詞と、動詞の接尾辞と、助動詞
と、助動詞の接尾辞との組み合わせであり、第3のクラ
スに属する。 ここで、第2と第3のクラスにおいて、単語とクラスの
出現頻度は等しいので、P(わたくし|{わたくし})
=1、P(と|{と})=1、P(言います|[言いま
す])=1であり、従って、上記数5は次の式のように
なる。
However, <>, {}, and [] represent that they belong to the first class, the second class, and the third class, respectively. However, each word and word string belong as follows. (1) "Murayama" belongs to the first class because it is a noun. (2) "Watakushi" and "to" are a combination of a noun and a particle, and belong to the second class. (3) “I say” is a combination of a verb, a verb suffix, an auxiliary verb, and an auxiliary verb suffix, and belongs to the third class. Here, in the second and third classes, the appearance frequency of the word and the class is the same, so P (Watashi | {Watashi})
= 1 and P (and | {and}) = 1, P (say | [say]) = 1, and therefore, the above equation 5 becomes the following equation.

【0030】[0030]

【数6】 P(w1 L)=P(わたくし) ・P(村山|<固有名詞>)・P(<固有名詞>|わたくし) ・P(と|<固有名詞>) ・P(言います|と)[Equation 6] P (w 1 L ) = P (Watakushi) -P (Murayama | <proper noun>)-P (<proper noun> | Watakushi) -P (and | <proper noun>)-P (say | And)

【0031】次いで、本実施形態で用いる可変長N−グ
ラムである統計的言語モデル22を生成するための言語
モデル生成処理について参照して説明する。本実施形態
で用いる統計的言語モデル22は、品詞クラスのバイグ
ラムを初期状態とし、エントロピーの最小化の基準によ
るクラス分離という形で生成される。エントロピーの減
少は正になることが保証されており、クラス分離によっ
て、学習用テキストデータに関してエントロピーは単調
に減少する。ここで用いるエントロピーは、一般には、
「あいまいさ」の尺度を表わすものであり、言語モデル
において、エントロピーが小さいことは、言語としてあ
いまいさが小さく、次の単語の予測が容易であることを
意味する。すなわち、エントロピーは次単語の予測の難
易度を表わす。yという条件のもとでのxの確率である
条件付き確率P(x|y)のエントロピーH(X|Y)
は次式で表される。
Next, a language model generation process for generating the statistical language model 22 which is a variable length N-gram used in this embodiment will be described with reference to FIG. The statistical language model 22 used in the present embodiment is generated in the form of class separation based on a criterion of entropy minimization, with a part-of-speech class bigram as an initial state. The reduction of entropy is guaranteed to be positive, and the class separation reduces the entropy monotonically with respect to the training text data. The entropy used here is generally
It represents a measure of "ambiguity", and a small entropy in a language model means that the language is less ambiguous and the next word can be easily predicted. That is, entropy represents the difficulty of predicting the next word. Entropy H (X | Y) of conditional probability P (x | y) that is the probability of x under the condition of y
Is represented by the following equation.

【0032】[0032]

【数7】H(X|Y)=−ΣP(y)ΣP(x|y)l
og2(x|y)
## EQU7 ## H (X | Y) =-. SIGMA.P (y) .SIGMA.P (x | y) l
og 2 (x | y)

【0033】従って、上記数7に基づいて、本実施形態
で用いるエントロピーは次式で計算される。
Therefore, the entropy used in this embodiment is calculated by the following equation based on the above equation (7).

【0034】[0034]

【数8】 ここで、wk∈cj (Equation 8) Where w k ∈ c j

【0035】図6は、言語モデル生成部20によって実
行される言語モデル生成処理の詳細を示すフローチャー
トであり、以下、図6を参照して当該処理について説明
する。まず、ステップS1では、所定の話者の発声音声
文を書き下した学習用テキストデータに含まれる全語彙
を品詞クラス(ここで、品詞クラスとは、品詞毎にクラ
スタリングされたクラスをいう。)に分類し、それらの
クラス間のバイグラムを初期状態の統計的言語モデルと
する。次いで、次のステップS2乃至S4でクラスの分
離を行う。すなわち、ステップS2で、クラス分離する
ことが可能な分離クラス候補を検索することによりリス
トアップを行う。ここでは、次の2種類のクラス分離を
考える。 (1)単語の品詞クラスからの分離(以下、第1のクラ
ス分離という。)、(2)連接単語又は連接単語列の結
合によるクラス分離(以下、第2のクラス分離とい
う。)。ここで、連接単語又は連接単語列の結合とは、
連接する(時間的に隣接して入力される)1つの単語と
1つの単語との結合、1つの単語と複数の単語の単語列
との結合、複数の単語の単語列と1つの単語との結合、
複数の単語の単語列と、複数の単語の単語列との結合と
を含む。
FIG. 6 is a flow chart showing the details of the language model generation processing executed by the language model generation unit 20, and the processing will be described below with reference to FIG. First, in step S1, all vocabulary included in the learning text data in which the uttered voice sentence of a predetermined speaker is written is made into a part-of-speech class (here, a part-of-speech class is a class clustered for each part-of-speech). We classify and make bigram between these classes a statistical language model in the initial state. Next, classes are separated in the next steps S2 to S4. That is, in step S2, a list is made by searching for a separated class candidate that can be separated into classes. Here, consider the following two types of class separation. (1) Separation of words from a part-of-speech class (hereinafter referred to as first class separation), (2) Class separation by combining concatenated words or concatenated word strings (hereinafter referred to as second class separation). Here, the concatenation of concatenated words or concatenated word strings means
Concatenation of one word and one word that are concatenated (input adjacently in time), one word and a word string of a plurality of words, a word string of a plurality of words and a word Binding,
It includes a word string of a plurality of words and a combination of the word strings of a plurality of words.

【0036】前者の単語の品詞クラスからの分離におい
ては、当初品詞クラスに属している単語が、そのクラス
から分離し、分離した単語は、その単語で単独のクラス
を形成する。
In separating the former word from the part-of-speech class, words originally belonging to the part-of-speech class are separated from the class, and the separated words form a single class with the word.

【0037】[0037]

【数9】cξ→{wx}+cξ\{wx} ここで、wx∈cξ ## EQU9 ## c ξ → {w x } + c ξ \ {w x } where w x ∈ c ξ

【0038】ここで、cξ\{wx}はクラスcξから
単語wxのクラスを除いたクラスであることを意味し、
単語wxはクラスcξに属している。従って、数9の意
味するところは、例えば、名詞のクラスcξは、「机」
という単語wxのクラス{wx}と、「机」という単語w
xのクラス{wx}をクラスcξから除いたクラスとに分
離することを意味する。
Here, c ξ \ {w x } means a class excluding the class of the word w x from the class c ξ ,
The word w x belongs to the class c ξ . Therefore, what is meant by Equation 9 is, for example, that the noun class c ξ is “desk”.
The class {w x } of the word w x and the word w of "desk"
This means separating the class {w x } of x into a class excluding the class c ξ .

【0039】後者の連接単語又は連接単語列の結合によ
るクラス分離においては、既に初期クラスより分離され
ている単語クラス及び単語列クラスについて、連接した
2クラス間の結合を考える。結合した単語列は、その単
語列で単独のクラスを形成する。
In the latter class separation by concatenating concatenated words or concatenated word strings, concatenation between two concatenated classes is considered for a word class and a word string class already separated from the initial class. The combined word strings form a single class with the word strings.

【0040】[0040]

【数10】{wx}→{wx,wy}+{wx,/wy[Expression 10] {w x } → {w x , w y } + {w x , / w y }

【0041】ここで、{wx,wy}は連接単語列wx
yのクラスを表し、{wx,/wy}は単語wxの次に単
語wyが後続しない単語wxのクラスを表わす。すなわ
ち、/wyは単語wy以外の単語を表わす。数10の意味
するところは、例えば、「机」という単語のクラス{w
x}は、「机の」という単語列のクラス{wx,wy
と、「机の」以外の例えば「机は」、「机が」などの単
語列のクラス{wx,/wy}とに分離することを意味す
る。上記数10は、単語の結合に関する式であるが、単
語列と単語の結合、および、単語列と単語列との結合も
同様に表される。従って、第2のクラス分離では、これ
らのクラス分離を含む。
Here, {w x , w y } is a concatenated word string w x ,
represent classes of w y, representing the class of {w x, / w y} is not word w y is subsequent to the next word w x word w x. That is, / w y represents a word other than the word w y . The meaning of the expression 10 is, for example, the class of the word "desk" {w
x } is the class of the word sequence “desk” {w x , w y }
And a class of word strings such as “desk is” and “desk is” other than “of desk” {w x , / w y }. The above formula 10 is an expression relating to the word combination, but the word string-word combination and the word string-word string combination are also similarly expressed. Therefore, the second class separation includes these class separations.

【0042】次いで、ステップS3で、ステップS2で
リストアップされた上記第1と第2の分離クラス候補に
対して次の数11及び数12を用いてエントロピー減少
量を計算する。ここで、上記第1のクラス分離である初
期クラスの分離に対して数11を用いる一方、上記第2
のクラス分離である連接単語又は連接単語列の結合によ
るクラス分離に対して数12を用いる。
Then, in step S3, the entropy reduction amount is calculated using the following equations 11 and 12 for the first and second separated class candidates listed in step S2. Here, Equation 11 is used for the first class separation, which is the initial class separation, while the second class separation is used.
Equation 12 is used for class separation by concatenating concatenated words or concatenated word strings, which is the class separation of.

【0043】[0043]

【数11】 ΔH =H({ci})−H({ci\cξ}+{wx}+{cξ\wx})ΔH = H ({c i }) − H ({c i \ c ξ } + {w x } + {c ξ \ w x })

【数12】 ΔH =H({ci})−H({ci\wx}+{wx,wy}+{wx,/wy})Equation 12] ΔH = H ({c i} ) - H ({c i \w x} + {w x, w y} + {w x, / w y})

【0044】ここで、数11及び数12において、H
({ci})は元のすべての品詞クラスciについてのエ
ントロピーであり、数11においてH({ci\cξ
+{wx}+{cξ\wx})は元のすべての品詞クラス
iから単語wxのクラスを分離したときのエントロピー
であり、数11のΔHは単語wxのクラスを分離したと
きのエントロピーの減少量である。また、数12におい
てH({ci\wx}+{wx,wy}+{wx,/wy})
は、元のすべての品詞クラスciから単語列{wx
y}のクラスを分離したときのエントロピーであり、
数12のΔHは単語列{wx,wy}のクラスを分離した
ときのエントロピーの減少量である。
Here, in equations 11 and 12, H
({C i }) is the entropy for all the original part-of-speech classes c i , and H ({c i \ c ξ } in Eq.
+ {W x} + {c ξ \w x}) is the entropy of the time separating the classes of word w x from all the original word class class c i, [Delta] H having 11 separate classes of word w x It is the amount of decrease in entropy. Further, the number 12 H ({c i \w x } + {w x, w y} + {w x, / w y})
Is a word string {w x , from all original part-of-speech classes c i
is the entropy when the class of w y } is separated,
ΔH in Expression 12 is the amount of decrease in entropy when the classes of the word string {w x , w y } are separated.

【0045】次いで、ステップS4においては、ステッ
プS2でリストアップされたすべての分離クラス候補の
中で、ステップS3で計算したエントロピー減少量ΔH
を最大にするクラスのみを実際にクラス分離する。そし
て、ステップS5で分離クラス数が所定のしきい値の所
望分離クラス数(例えば、500、1000など)以上
になったか否かを判断し、なっていないときは、ステッ
プS2に戻って上記の処理を繰り返す。一方、ステップ
S5で所望分離クラス数以上になっているときは、ステ
ップS6で、得られた統計的言語モデル22をメモリに
格納した後、当該言語モデル生成処理を終了する。この
言語モデル生成処理のアルゴリズムは、品詞間、およ
び、品詞と単語間の結合は行なわないため、生成完了時
点では、品詞のバイグラムと可変長単語のN−グラムの
特徴を併せた統計的言語モデル22となる。
Next, in step S4, the entropy reduction amount ΔH calculated in step S3 among all the separated class candidates listed in step S2.
Actually separate only the class that maximizes. Then, in step S5, it is determined whether or not the number of separation classes has become equal to or larger than the desired number of separation classes of a predetermined threshold value (for example, 500, 1000, etc.). Repeat the process. On the other hand, if the number of classes is equal to or larger than the desired number of separated classes in step S5, the obtained statistical language model 22 is stored in the memory in step S6, and then the language model generation process is terminated. Since the algorithm of this language model generation processing does not combine parts of speech and between parts of speech and words, at the time of completion of generation, a statistical language model that combines the features of the bigram of parts of speech and the N-gram of variable-length words is used. 22.

【0046】図1において、単語照合部4に接続され、
例えばハードディスクメモリに格納される音素HMM1
1は、各状態を含んで表され、各状態はそれぞれ以下の
情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施形態において用いる音素HMM11は、各
分布がどの話者に由来するかを特定する必要があるた
め、所定の話者混合HMMを変換して生成する。ここ
で、出力確率密度関数は34次元の対角共分散行列をも
つ混合ガウス分布である。
In FIG. 1, connected to the word matching unit 4,
For example, a phoneme HMM1 stored in a hard disk memory
1 is represented including each state, and each state has the following information. (A) State number (b) Acceptable context class (c) List of preceding states and succeeding states (d) Parameter of output probability density distribution (e) Probability of self transition and transition probability to subsequent states The phoneme HMM 11 used in the embodiment is generated by converting a predetermined speaker mixed HMM because it is necessary to specify which speaker each distribution is derived from. Here, the output probability density function is a Gaussian mixture mixture having a 34-dimensional diagonal covariance matrix.

【0047】また、単語照合部4に接続され、例えばハ
ードディスクに格納される単語辞書12は、音素HMM
11の各単語毎にシンボルで表した読みを示すシンボル
列を格納する。
The word dictionary 12 connected to the word matching unit 4 and stored in, for example, a hard disk is a phoneme HMM.
For each of the eleven words, a symbol sequence indicating a reading represented by a symbol is stored.

【0048】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
In FIG. 1, the uttered voice of the speaker is input to the microphone 1 and converted into a voice signal, and then input to the feature extraction unit 2. After performing A / D conversion on the input audio signal, the feature extraction unit 2 performs, for example, LPC analysis, and obtains a 34-dimensional feature parameter including logarithmic power, 16th cepstrum coefficient, Δlog power, and 16th Δcepstrum coefficient. Is extracted. The time series of the extracted feature parameters is input to the word matching unit 4 via the buffer memory 3.

【0049】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMM11と単
語辞書12とを用いて単語仮説を検出し尤度を計算して
出力する。ここで、単語照合部4は、各時刻の各HMM
の状態毎に、単語内の尤度と発声開始からの尤度を計算
する。尤度は、単語の識別番号、単語の開始時刻、先行
単語の違い毎に個別にもつ。また、計算処理量の削減の
ために、音素HMM11及び単語辞書12とに基づいて
計算される総尤度のうちの低い尤度のグリッド仮説を削
減する。単語照合部4は、その結果の単語仮説と尤度の
情報を発声開始時刻からの時間情報(具体的には、例え
ばフレーム番号)とともにバッファメモリ5を介して単
語仮説絞込部6に出力する。
The word matching unit 4 uses the one-pass Viterbi decoding method, and uses the phoneme HMM 11 and the word dictionary 12 based on the feature parameter data input via the buffer memory 3 to perform a word hypothesis. Is detected and the likelihood is calculated and output. Here, the word matching unit 4 determines whether each HMM
The likelihood within a word and the likelihood from the start of utterance are calculated for each state. The likelihood is individually provided for each word identification number, word start time, and difference between preceding words. Further, in order to reduce the amount of calculation processing, the grid hypothesis of a low likelihood among the total likelihoods calculated based on the phoneme HMM 11 and the word dictionary 12 is reduced. The word collating unit 4 outputs the resulting word hypothesis and likelihood information to the word hypothesis narrowing unit 6 via the buffer memory 5 together with time information (specifically, a frame number, for example) from the utterance start time. .

【0050】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデル22を参照して、終了時刻が等し
く開始時刻が異なる同一の単語の単語仮説に対して、当
該単語の先頭音素環境毎に、発声開始時刻から当該単語
の終了時刻に至る計算された総尤度のうちの最も高い尤
度を有する1つの単語仮説で代表させるように単語仮説
の絞り込みを行った後、絞り込み後のすべての単語仮説
の単語列のうち、最大の総尤度を有する仮説の単語列を
認識結果として出力する。本実施形態においては、好ま
しくは、処理すべき当該単語の先頭音素環境とは、当該
単語より先行する単語仮説の最終音素と、当該単語の単
語仮説の最初の2つの音素とを含む3つの音素並びをい
う。
The word hypothesis narrowing unit 6 refers to the statistical language model 22 based on the word hypothesis output from the word matching unit 4 via the buffer memory 5, and the end times are the same and the start times are different. The word hypothesis of the word is represented by one word hypothesis having the highest likelihood of the total likelihood calculated from the utterance start time to the end time of the word for each head phoneme environment of the word. After narrowing down the word hypotheses as described above, the word line of the hypothesis having the maximum total likelihood is output as the recognition result among the word strings of all the word hypotheses after the narrowing down. In the present embodiment, preferably, the first phoneme environment of the word to be processed is the three phonemes including the final phoneme of the word hypothesis preceding the word and the first two phonemes of the word hypothesis of the word. Say a line.

【0051】例えば、図2に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図2
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
[0051] For example, as shown in FIG. 2, the (i-1) th word W i-1 of the following, a phoneme string a 1, a 2, ..., comes i-th word W i, which consists of a n Sometimes, six hypotheses Wa, Wb, Wc, Wd, We, Wf are used as word hypotheses for the word W i-1.
Exists. Here, the former three word hypotheses Wa, W
It is assumed that the final phonemes of b and Wc are / x /, and the final phonemes of the latter three word hypotheses Wd, We and Wf are / y /. Of the hypotheses in which the end time t e is equal to the head phoneme environment (in FIG. 2, the top phoneme environment is “x / a 1 / a 2 ”, the three word hypotheses from the top), the hypothesis with the highest total likelihood (for example, FIG. Two
Are deleted except for the top hypothesis). Since the fourth hypothesis from the top has a different phoneme environment, that is, since the last phoneme of the preceding word hypothesis is y instead of x,
Do not delete the fourth hypothesis from the top. That is, only one hypothesis is left for each final phoneme of the preceding word hypothesis. In the example of FIG. 2, one hypothesis is left for the final phoneme / x /, and one hypothesis is left for the final phoneme / y /.

【0052】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
In the above embodiment, the leading phoneme environment of the word is defined as three phoneme sequences including the final phoneme of the word hypothesis preceding the word and the first two phonemes of the word hypothesis of the word. Although defined, the present invention is not limited to this, and the phoneme string of the preceding word hypothesis including the final phoneme of the preceding word hypothesis and at least one phoneme of the preceding word hypothesis continuous with the final phoneme, and the word May be a phoneme sequence including a phoneme sequence including the first phoneme of the word hypothesis.

【0053】以上の実施形態において、特徴抽出部2
と、単語照合部4と、単語仮説絞込部6と、言語モデル
生成部20とは、例えば、デジタル電子計算機で構成さ
れ、バッファメモリ3,5は例えばハードデイスクメモ
リで構成され、音素HMM11と単語辞書12と学習用
テキストデータ21と統計的言語モデル22とは、例え
ばハードデイスクメモリなどの記憶装置に記憶される。
In the above embodiment, the feature extraction unit 2
The word collation unit 4, the word hypothesis narrowing unit 6, and the language model generation unit 20 are composed of, for example, a digital computer, the buffer memories 3 and 5 are composed of, for example, a hard disk memory, and the phoneme HMM 11 and words are composed. The dictionary 12, the learning text data 21, and the statistical language model 22 are stored in a storage device such as a hard disk memory.

【0054】以上実施形態においては、単語照合部4と
単語仮説絞込部6とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素HMM11を参照
する音素照合部と、例えばOne Pass DPアル
ゴリズムを用いて統計的言語モデル22を参照して単語
の音声認識を行う音声認識部とで構成してもよい。
In the above embodiment, the speech recognition is performed using the word collating unit 4 and the word hypothesis narrowing unit 6.
The present invention is not limited to this, and includes, for example, a phoneme collation unit that refers to the phoneme HMM 11 and a speech recognition unit that performs speech recognition of a word by referring to the statistical language model 22 using, for example, the One Pass DP algorithm. May be.

【0055】[0055]

【実施例】本発明者は、本実施形態で用いる統計的言語
モデル22の性能を確認するため、パープレキシティお
よびパラメータ数について従来の単語N−グラムとの比
較を行った。実験に用いたデータは本出願人が所有する
自然発話旅行会話データベース(従来文献8「Mori
motoほか,“A Speech and Lang
uage Database for Speech
Translation Research”,ICS
LP,pp1791−1794,1994年」参照。)
であって、846対話、354,700語から構成され
る。このうち、統計的言語モデル22を生成するための
学習用テキストデータ(トレーニングセットともい
う。)として、828対話、347,299語を使用
し、残りのデータをテスト用テキストデータ(テストセ
ットともいう。)とした。本実施形態に係る統計的言語
モデル22は、初期クラスを活用形も含めた80品詞と
し、1000個まで分離を行い、100個おきにデータ
を採取した。また、本実施形態に係る統計的言語モデル
22と、単語N−グラムとともに、未知単語遷移に対す
る対策として、クラスおよび単語の遷移確率を削除補間
法(従来文献4参照。)によって補間し、テストセット
において、未知語が出現したときは、所定の固定値(例
えば、7.0×10-6)を与えた。ここで、本発明に係
る統計的言語モデル22を評価するために、パープレキ
シティを用いる。例えば、複数n個の単語からなる長い
単語列w1 n=w12…wnがあるときのエントロピーH
(n)は次式で表される。
EXAMPLES In order to confirm the performance of the statistical language model 22 used in the present embodiment, the present inventor compared the perplexity and the number of parameters with the conventional word N-gram. The data used in the experiment is a natural speech travel conversation database (hereinafter referred to as “Mori”) owned by the applicant.
Moto et al., “A Speech and Lang”
uage Database for Speech
Translation Research ”, ICS
LP, pp 1791-1794, 1994 ". )
And is composed of 354 dialogues and 354,700 words. Of these, 828 dialogues, 347,299 words are used as learning text data (also referred to as a training set) for generating the statistical language model 22, and the remaining data is used as test text data (also referred to as a test set). .) In the statistical language model 22 according to this embodiment, the initial class has 80 parts-of-speech including the inflected forms, is separated up to 1000 pieces, and data is collected every 100 pieces. In addition to the statistical language model 22 according to the present embodiment and the word N-gram, as a measure against the unknown word transition, the transition probabilities of the class and the word are interpolated by the deletion interpolation method (see conventional document 4), and the test set is set. In, when an unknown word appeared, a predetermined fixed value (for example, 7.0 × 10 −6 ) was given. Here, perplexity is used to evaluate the statistical language model 22 according to the present invention. For example, entropy H when there is a long word string w 1 n = w 1 w 2 ... W n consisting of a plurality of n words
(N) is expressed by the following equation.

【0056】[0056]

【数13】 H(n)=−(1/n)・log2P(w1 n[Equation 13] H (n) =-(1 / n) · log 2 P (w 1 n )

【0057】ここで、P(w1 n)は単語列w1 nの生成確
率であり、パープレキシティPP(n)は次式で表され
る。
Here, P (w 1 n ) is the generation probability of the word string w 1 n , and the perplexity PP (n) is expressed by the following equation.

【0058】[0058]

【数14】PP(n)=2H(n) ## EQU14 ## PP (n) = 2 H (n)

【0059】ここで、単語列としてテスト用テキストデ
ータを用いたときのパープレキシティをテストセットパ
ープレキシティといい、単語列として学習用テキストデ
ータを用いたときのパープレキシティをトレーニングセ
ットパープレキシティという。
Here, the perplexity when the test text data is used as the word string is called the test set perplexity, and the perplexity when the learning text data is used as the word string is the training set perplexity. Tee.

【0060】当該実験結果におけるテストセットパープ
レキシティの値の変化の様子を図7に示す。図7から明
らかなように、分離クラス数が増加するに従って、テス
トセットパープレキシティは減少し、分離クラス数が2
00で単語バイグラムと、分離クラス数が600で単語
トライグラムと同程度の値となることが分かる。分離ク
ラス数が600以上になると、パープレキシティの減少
の割合が極端に小さくなるため、分離クラス600程度
で、本実施形態の統計的言語モデル22が最も有効に働
いていると考えられる。従って、本実施形態の統計的言
語モデル22は単語バイグラム以上、単語トライグラム
と同程度の予測精度の言語モデルと考えられる。
FIG. 7 shows how the value of the test set perplexity changes with the experimental result. As is clear from FIG. 7, the test set perplexity decreases as the number of separation classes increases, and the number of separation classes increases by 2
It can be seen that the value of 00 is the same as that of the word trigram, and the number of separated classes is 600, which is about the same value as the word trigram. When the number of separation classes is 600 or more, the rate of decrease in perplexity becomes extremely small. Therefore, it is considered that the statistical language model 22 of the present embodiment works most effectively when the number of separation classes is about 600. Therefore, the statistical language model 22 of the present embodiment is considered to be a language model having a prediction accuracy equal to or higher than the word trigram and higher than the word trigram.

【0061】表1にまた、分離クラス数が0,500,
1000の時のパープレキシティの値、およびパラメー
タ数を示す。
In Table 1, the number of separation classes is 0,500,
The value of perplexity at the time of 1000 and the number of parameters are shown.

【0062】[0062]

【表1】 各言語モデルの性能比較 ─────────────────────────────────── バイグラム トライグラム 本実施形態(分離クラス数) 0 500 1000 ─────────────────────────────────── テストセット 20.31 16.96 41.68 17.61 16.75 パープレキシティ ─────────────────────────────────── トレーニングセット 13.50 5.99 48.77 18.77 15.05 パープレキシティ ─────────────────────────────────── パラメータ数(1) 4.10×107 2.62×1011 1.28×104 3.43×105 1.17×106 ─────────────────────────────────── パラメータ数(2) 52,244 165,139
7,991 27,830 43,075 ───────────────────────────────────
[Table 1] Performance comparison of each language model ─────────────────────────────────── Bigram Trigram Form (number of separated classes) 0 500 1000 ─────────────────────────────────── Test set 20.31 16.96 41.68 17.61 16.75 Perplexity ─────────────────────────────────── Training set 13.50 5.99 48.77 18.77 15.05 Perplexity ─ ────────────────────────────────── Number of parameters (1) 4.10 × 10 7 2.62 × 10 11 1.28 × 10 4 3.43 × 10 5 1.17 × 10 6 ─────────────────────────────────── Number of parameters (2) 52 , 244 165, 139
7,991 27,830 43,075 ────────────────────────────────────

【0063】ここで、パラメータ数(1)は全クラス
(単語)の遷移の組み合わせ数を意味し、パラメータ数
(2)は、トレーニングセットにおいて実際に存在する
クラス(単語)遷移の組み合わせ数を意味する。表1よ
り、本実施形態の統計的言語モデル22は、テストセッ
トとトレーニングセットとのパープレキシティの差が、
単語バイグラム及び単語トライグラムと比較して非常に
小さいことが分かる。また、パラメータ数は、1000
クラス分離した時でも、単語バイグラムよりも少なく、
単語トライグラムよりもはるかに少ない。したがって、
本実施形態の統計的言語モデル22は、与えられたパラ
メータで言語特徴を効率的に表現できる優れた言語モデ
ルであると言える。従って、当該統計的言語モデル22
は従来の単語バイグラム、単語トライグラムよりも信頼
性が高い言語モデルであると考えられる。
Here, the number of parameters (1) means the number of combinations of transitions of all classes (words), and the number of parameters (2) means the number of combinations of class (words) transitions that actually exist in the training set. To do. From Table 1, in the statistical language model 22 of the present embodiment, the difference in perplexity between the test set and the training set is
It can be seen that it is very small compared to the word bigram and the word trigram. The number of parameters is 1000
Even when the classes are separated, less than the word bigram,
Much less than the word trigram. Therefore,
It can be said that the statistical language model 22 of the present embodiment is an excellent language model that can efficiently express language features with given parameters. Therefore, the statistical language model 22
Is considered to be a more reliable language model than the conventional word bigram and word trigram.

【0064】また、本実施形態の統計的言語モデル22
の信頼性を確認するため、学習単語数を変化させてテス
トセットパープレキシティの値の変化を調べた結果を図
8に示す。この図8から明らかなように、全ての学習セ
ット(約35万語)を用いたときは、単語バイグラム
と、本実施形態の統計的言語モデル22(200クラ
ス)(カッコ内の数字は分離クラス数を表す、以下同様
である。)とは、ほぼ同じパープレキシティ値である
が、学習単語数を減少させても当該統計的言語モデル2
2のパープレキシティの増加は比較的小さく、単語バイ
グラムよりも値が低くなることが分かる。同様に、単語
トライグラムと、当該統計的言語モデル22(600ク
ラス)とを比較しても、学習単語数が減少すると、当該
統計的言語モデル22の方が低いパープレキシティを呈
する。
The statistical language model 22 of this embodiment is also used.
FIG. 8 shows the result of examining the change in the value of the test set perplexity by changing the number of learning words in order to confirm the reliability of. As is clear from FIG. 8, when all learning sets (about 350,000 words) are used, the word bigram and the statistical language model 22 (200 classes) of the present embodiment (the numbers in parentheses are the separation classes). The same applies to the statistical language model 2 even if the number of learning words is reduced.
It can be seen that the increase in perplexity of 2 is relatively small and lower than the word bigram. Similarly, even when the word trigram is compared with the statistical language model 22 (600 class), the statistical language model 22 exhibits lower perplexity when the number of learning words decreases.

【0065】次いで、本発明者は、本実施形態の統計的
言語モデル22を図1の連続音声認識装置に適用し、統
計的言語モデル22の効果を確認した。音素認識の実験
条件を表2に示す。また、音響をパラメータもあわせて
表2に示す。
Next, the present inventor applied the statistical language model 22 of this embodiment to the continuous speech recognition apparatus of FIG. 1 and confirmed the effect of the statistical language model 22. Table 2 shows the experimental conditions for phoneme recognition. Table 2 also shows the sound parameters.

【0066】[0066]

【表2】 実験条件 ─────────────────────────────────── 分析条件 サンプリング周波数:12KHz, ハミング窓:20ms, フレーム周期:10ms ─────────────────────────────────── 使用パラメータ 16次LPCケプストラム+16次Δケプストラム +logパワー+Δlogパワー ─────────────────────────────────── 音響モデル HM網の男女別不特定話者モデル 400状態,5混合 ───────────────────────────────────[Table 2] Experimental conditions ─────────────────────────────────── Analysis conditions Sampling frequency: 12 KHz, Hamming window : 20 ms, frame period: 10 ms ─────────────────────────────────── Used parameter 16th LPC cepstrum + 16th ΔCepstrum + log power + Δlog power ─────────────────────────────────── Acoustic model HM net by gender Speaker model 400 states, 5 mixed ───────────────────────────────────

【0067】表2において、HM網の男女別不特定話者
モデルについては、従来文献9「小坂ほか,“話者混合
SSSによる不特定話者音声認識”,日本音響学会講演
論文集,2−5−9,pp135−136,平成4年」
に開示されている。この実験では、単語グラフを用いた
連続音声認識法を用いて音響モデルおよび言語モデルを
連続音声認識装置に適用した。また、認識の対象は、統
計的言語モデル22のトレーニングセット中の16対話
であり、学習に用いられていないテストセットは18対
話である。各言語モデルで尤度1位の文認識候補の正解
単語含有率を表3に示す。
In Table 2, for the male-and-female unspecified speaker models of the HM network, the conventional literature 9 "Kosaka et al.," Unspecified speaker speech recognition by mixed speaker SSS ", Proceedings of the Acoustical Society of Japan, 2- 5-9, pp135-136, 1992 "
Is disclosed. In this experiment, an acoustic model and a language model were applied to a continuous speech recognizer using a continuous speech recognition method using a word graph. The recognition target is 16 dialogues in the training set of the statistical language model 22, and the test set not used for learning is 18 dialogues. Table 3 shows the correct word content rate of the sentence recognition candidate having the first highest likelihood in each language model.

【0068】[0068]

【表3】 正解単語含有率 ─────────────────────────────────── バイグラム 本実施形態(分離クラス数) 0 500 ─────────────────────────────────── 辞書サブセット テストセット 71.4 67.3 72.2 トレーニンク゛セット 69.4 63.4
69.7 ─────────────────────────────────── 辞書フルセット テストセット −− 57.1 58.4 トレーニンク゛セット −− 54.6 56.0 ───────────────────────────────────
[Table 3] Correct word content rate ─────────────────────────────────── Bigram This embodiment (separation class Number) 0 500 ─────────────────────────────────── Dictionary subset test set 71.4 67.3 72 .2 Training Set 69.4 63.4
69.7 ─────────────────────────────────── Dictionary full set Test set −− 57.1 58. 4 Training set --- 54.6 56.0 ────────────────────────────────────

【0069】表3において、辞書サブセットは認識対象
に含まれる単語のみを辞書に登録したもの(750
語)、辞書フルセットは、統計的言語モデルの生成のた
めの学習に用いた全単語よりなる辞書(6,400語)
を表す。ただし、従来の単語バイグラムは、メモリ容量
と計算時間の都合上で、辞書フルセットの辞書の認識
は、今回の実験では計算を行なっていない。この場合
は、言い換えれば、大容量のメモリと莫大な処理時間が
必要である。
In Table 3, the dictionary subset is a dictionary in which only the words included in the recognition target are registered (750).
, Dictionary full set is a dictionary (6,400 words) consisting of all words used for learning to generate a statistical language model.
Represents However, in the conventional word bigram, due to the memory capacity and the calculation time, recognition of the full dictionary is not performed in this experiment. In this case, in other words, a large capacity memory and a huge processing time are required.

【0070】テストセットに関しては、パープレキシテ
ィの低い順、すなわち本実施形態の統計的言語モデル2
2(0クラス)→単語バイグラム→本実施形態の統計的
言語モデル22(500クラス)の順で正解単語含有率
が良くなっており、本実施形態の統計的言語モデル22
(500クラス)は、単語のバイグラムよりも若干では
あるが正解単語含有率が向上している。トレーニングセ
ットに関しては、本実施形態の統計的言語モデル22
(500クラス)は単語バイグラムよりも高いパープレ
キシティであるが、正解単語含有率は高くなっている。
また、本実施形態の統計的言語モデル22はパラメータ
数が少ないので、大語彙の認識への拡張が容易ある。し
たがって、本実施形態の統計的言語モデル22は連続音
声認識に対しても単語バイグラムより有効な言語モデル
であると考えられる。
Regarding the test set, the perplexity is ascending, that is, the statistical language model 2 of the present embodiment.
The correct word content rate is improved in the order of 2 (0 class) → word bigram → statistical language model 22 (500 class) of this embodiment, and the statistical language model 22 of this embodiment is shown.
In the (500 class), the correct word content rate is slightly higher than the word bigram. Regarding the training set, the statistical language model 22 of the present embodiment is used.
(500 class) has higher perplexity than the word bigram, but the correct word content rate is high.
Further, since the statistical language model 22 of this embodiment has a small number of parameters, it can be easily expanded to recognize a large vocabulary. Therefore, the statistical language model 22 of the present embodiment is considered to be a more effective language model than the word bigram even for continuous speech recognition.

【0071】以上説明したように、N−グラムの精度・
信頼性の向上を目的とした可変長N−グラムの統計的言
語モデル22の生成装置及びこれを用いた連続音声認識
装置を実現することができる。当該統計的言語モデル2
2は、品詞バイグラムを初期状態とし、品詞クラスから
の単語分離、および、連接単語の結合という、2種類の
状態分離を行なうことにより生成されるもので、品詞バ
イグラムと可変長単語N−グラムの特徴を併せ持つモデ
ルである。当該統計的言語モデル22の評価実験の結
果、当該統計的言語モデル22は、単語バイグラム以
上、単語トライグラムと同等のパープレキシティを、は
るかに少ないパラメータで実現できることが分かり、目
的とした性能が実現されていることが確認できた。ま
た、連続音声認識に適用した結果、単語バイグラムと同
じ程度の正解単語含有率を得ることができた。当該統計
的言語モデル22は少ないパラメータで実現できるた
め、大語彙の音声認識にも容易に拡張可能である。
As described above, the accuracy of N-gram
It is possible to realize a device for generating a statistical language model 22 of variable length N-gram and a continuous speech recognition device using the same for the purpose of improving reliability. The statistical language model 2
2 is generated by initializing a part-of-speech bigram, separating words from a part-of-speech class, and concatenating concatenated words into two kinds of states. Part-of-speech bigram and variable-length word N-gram are generated. It is a model that also has features. As a result of the evaluation experiment of the statistical language model 22, it was found that the statistical language model 22 can achieve perplexity equal to or larger than the word bigram and equal to the word trigram with far fewer parameters, and the target performance is It was confirmed that it was realized. Moreover, as a result of applying it to continuous speech recognition, we were able to obtain the correct word content rate similar to the word bigram. Since the statistical language model 22 can be realized with a small number of parameters, it can be easily extended to speech recognition of a large vocabulary.

【0072】従って、遷移確率の予測精度及び信頼性を
改善することができる統計的言語モデル22を生成する
ことができる統計的言語モデル生成装置を提供すること
ができるとともに、当該統計的言語モデル22を用いて
より高い音声認識率で連続的に音声認識することができ
る連続音声認識装置を提供することができる。
Accordingly, it is possible to provide a statistical language model generation device capable of generating the statistical language model 22 capable of improving the prediction accuracy and reliability of the transition probability, and also the statistical language model 22. It is possible to provide a continuous speech recognition device capable of continuously recognizing speech with a higher speech recognition rate by using.

【0073】[0073]

【発明の効果】以上詳述したように本発明に係る請求項
1記載の統計的言語モデル生成装置によれば、所定の話
者の発声音声文を書き下した学習用テキストデータに基
づいて、すべての語彙を品詞毎にクラスタリングされた
品詞クラスに分類し、それらの品詞クラス間のバイグラ
ムを初期状態の統計的言語モデルとして生成する生成手
段と、上記生成手段によって生成された初期状態の統計
的言語モデルに基づいて、単語の品詞クラスからの分離
することができる第1の分離クラス候補と、1つの単語
と1つの単語との結合、1つの単語と複数の単語の単語
列との結合、複数の単語の単語列と1つの単語との結
合、複数の単語の単語列と、複数の単語の単語列との結
合とを含む連接単語又は連接単語列の結合によって単語
の品詞クラスから分離することができる第2の分離クラ
ス候補とを検索する検索手段と、上記検索手段によって
検索された第1と第2の分離クラス候補に対して、次単
語の予測の難易度を表わす所定のエントロピーを用い
て、クラスを分離することによる当該エントロピーの減
少量を計算する計算手段と、上記計算手段によって計算
された上記第1と第2の分離クラス候補に対するエント
ロピーの減少量の中で最大のクラス分離を選択して、選
択されたクラスの分離を実行することにより、品詞のバ
イグラムと可変長Nの単語のN−グラムとを含む統計的
言語モデルを生成する分離手段と、上記分離手段によっ
て生成された統計的言語モデルのクラス数が所定のクラ
ス数になるまで、上記分離手段によって生成された統計
的言語モデルを処理対象モデルとして、上記検索手段の
処理と、上記計算手段の処理と、上記分離手段の処理と
を繰り返すことにより、所定のクラス数を有する統計的
言語モデルを生成する制御手段とを備える。従って、遷
移確率の予測精度及び信頼性を改善することができる統
計的言語モデルを生成することができる。また、当該統
計的言語モデルは少ないパラメータで実現できるため、
大語彙の音声認識にも容易に拡張可能であるという特有
の利点を有する。
As described above in detail, according to the statistical language model generating apparatus according to the first aspect of the present invention, the statistical language model generating apparatus according to the present invention is based on the learning text data in which the uttered voice sentence of the predetermined speaker is written. The vocabulary of is classified into a part-of-speech class clustered for each part-of-speech, and a generation means for generating a bigram between these part-of-speech classes as a statistical language model of the initial state, and a statistical language of the initial state generated by the generation means. A first separation class candidate capable of separating a word from a part-of-speech class based on a model, a combination of one word and one word, a combination of a word string of one word and a plurality of words, and a plurality of combinations. From the word part-of-speech class by a concatenated word or a concatenation of concatenated word strings including a concatenation of a word string of one word and a single word, a combination of a word string of a plurality of words and a combination of a word string of a plurality of words. Search means for searching for a possible second separation class candidate, and a predetermined entropy representing the difficulty level of prediction of the next word for the first and second separation class candidates searched by the search means. And a calculation means for calculating a reduction amount of the entropy by separating the classes, and a maximum class among the reduction amounts of entropy for the first and second separation class candidates calculated by the calculation means. Separation means for generating a statistical language model including a bigram of parts of speech and an N-gram of words of variable length N by selecting separation and performing separation of the selected class; The statistical language model generated by the separating means is set as a processing target model until the number of classes of the statistical language model is a predetermined number of classes, Comprising a processing of the serial retrieval means, the processing of the calculation means, by repeating the process of the separating means, and control means for generating a statistical language model having a predetermined number of classes. Therefore, it is possible to generate a statistical language model that can improve the prediction accuracy and reliability of the transition probability. Also, since the statistical language model can be realized with a small number of parameters,
It has the unique advantage that it can be easily extended to large vocabulary speech recognition.

【0074】本発明に係る請求項2記載の音声認識装置
においては、入力される発声音声文の音声信号に基づい
て、所定の統計的言語モデルを用いて音声認識する音声
認識手段を備えた音声認識装置において、上記音声認識
手段は、品詞のバイグラムと可変長Nの単語のN−グラ
ムとを含む統計的言語モデルを用いて音声認識する。従
って、遷移確率の予測精度及び信頼性を改善することが
できる統計的言語モデルを用いて音声認識するので、よ
り高い音声認識率で音声認識することができる音声認識
装置を提供することができる。
In the speech recognition apparatus according to the second aspect of the present invention, the speech recognition means includes a speech recognition means for recognizing the speech signal of the uttered speech sentence by using a predetermined statistical language model. In the recognition device, the voice recognition means performs voice recognition using a statistical language model including a bigram of a part of speech and an N-gram of a word of variable length N. Therefore, since the speech recognition is performed using the statistical language model that can improve the prediction accuracy and reliability of the transition probability, it is possible to provide the speech recognition device that can perform the speech recognition with a higher speech recognition rate.

【0075】また、請求項3記載の音声認識装置におい
ては、上記統計的言語モデルは、請求項1記載の統計的
言語モデル生成装置によって生成された。従って、遷移
確率の予測精度及び信頼性を改善することができる統計
的言語モデルを用いて音声認識するので、より高い音声
認識率で音声認識することができる音声認識装置を提供
することができる。
Further, in the speech recognition apparatus according to claim 3, the statistical language model is generated by the statistical language model generation apparatus according to claim 1. Therefore, since the speech recognition is performed using the statistical language model that can improve the prediction accuracy and reliability of the transition probability, it is possible to provide the speech recognition device that can perform the speech recognition with a higher speech recognition rate.

【0076】本発明に係る請求項4記載の連続音声認識
装置は、入力される発声音声文の音声信号に基づいて上
記発声音声文の単語仮説を検出し尤度を計算することに
より、連続的に音声認識する音声認識手段を備えた連続
音声認識装置において、上記音声認識手段は、請求項1
記載の統計的言語モデル生成装置によって生成された統
計的言語モデルを参照して、終了時刻が等しく開始時刻
が異なる同一の単語の単語仮説に対して、当該単語の先
頭音素環境毎に、発声開始時刻から当該単語の終了時刻
に至る計算された総尤度のうちの最も高い尤度を有する
1つの単語仮説で代表させるように単語仮説の絞り込み
を行う。すなわち、先行単語毎に1つの単語仮説で代表
させる従来技術の単語ペア近似法に比較して、単語の先
頭音素の先行音素(つまり、先行単語の最終音素)が等
しいものをひとまとめに扱うために、単語仮説数を削減
することができ、近似効果は大きい。特に、語彙数が増
加した場合において削減効果が大きい。従って、当該連
続音声認識装置を、間投詞の挿入や、言い淀み、言い直
しが頻繁に生じる自然発話の認識に用いた場合であって
も、単語仮説の併合又は分割に要する計算コストは従来
例に比較して小さくなる。すなわち、音声認識のために
必要な処理量が小さくなり、それ故、音声認識のための
記憶装置において必要な記憶容量は小さくなる一方、処
理量が小さくなるので音声認識のための処理時間を短縮
することができる。さらに、遷移確率の予測精度及び信
頼性を改善することができる統計的言語モデルを用いて
音声認識するので、より高い音声認識率で連続的に音声
認識することができる連続音声認識装置を提供すること
ができる。
A continuous speech recognition apparatus according to a fourth aspect of the present invention continuously detects the word hypothesis of the uttered voice sentence based on the input voice signal of the uttered voice sentence and calculates the likelihood. In a continuous voice recognition device equipped with voice recognition means for recognizing voices, the voice recognition means comprises:
With reference to the statistical language model generated by the described statistical language model generation device, with respect to the word hypothesis of the same word having the same end time but different start time, utterance start for each head phoneme environment of the word The word hypotheses are narrowed down so that one word hypothesis having the highest likelihood of the calculated total likelihood from the time to the end time of the word is represented. That is, as compared with the conventional word pair approximation method in which each preceding word is represented by one word hypothesis, to handle collectively the preceding phonemes of the first phoneme of a word (that is, the final phoneme of the preceding word) , The number of word hypotheses can be reduced, and the approximation effect is large. In particular, when the number of words increases, the reduction effect is large. Therefore, even when the continuous speech recognition device is used for recognizing natural utterances in which interjections are inserted, stagnant, and rephrased frequently, the calculation cost required for merging or dividing word hypotheses is lower than in the conventional example. It will be smaller than that. That is, the amount of processing required for speech recognition is reduced, and therefore, the storage capacity required for the storage device for speech recognition is reduced, while the amount of processing is reduced, so that the processing time for speech recognition is reduced. can do. Further, since the speech recognition is performed by using the statistical language model capable of improving the prediction accuracy and reliability of the transition probability, the continuous speech recognition device capable of continuously recognizing the speech with a higher speech recognition rate is provided. be able to.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
FIG. 1 is a block diagram of a continuous speech recognition apparatus according to an embodiment of the present invention.

【図2】 図1の連続音声認識装置における単語仮説絞
込部6の処理を示すタイミングチャートである。
FIG. 2 is a timing chart showing a process of a word hypothesis narrowing section 6 in the continuous speech recognition device of FIG.

【図3】 バイグラムの統計的言語モデルを示す状態遷
移図である。
FIG. 3 is a state transition diagram showing a statistical language model of a bigram.

【図4】 トライグラムの統計的言語モデルを示す状態
遷移図である。
FIG. 4 is a state transition diagram showing a statistical language model of a trigram.

【図5】 図1の連続音声認識装置において用いる可変
長N−グラムの下のモデルを示す状態遷移図である。
5 is a state transition diagram showing a model under a variable length N-gram used in the continuous speech recognition apparatus of FIG.

【図6】 図1の言語モデル生成部20によって実行さ
れる言語モデル生成処理を示すフローチャートである。
FIG. 6 is a flowchart showing a language model generation process executed by the language model generation unit 20 of FIG.

【図7】 図1の言語モデル生成部20によって生成さ
れる統計的言語モデルにおける分離クラス数に対するテ
ストセットパープレキシティを示すグラフである。
7 is a graph showing test set perplexity with respect to the number of separated classes in the statistical language model generated by the language model generation unit 20 of FIG.

【図8】 図1の言語モデル生成部20によって生成さ
れる統計的言語モデルにおける学習データの単語数に対
するテストセットパープレキシティを示すグラフであ
る。
8 is a graph showing test set perplexity with respect to the number of words of learning data in the statistical language model generated by the language model generation unit 20 of FIG.

【符号の説明】[Explanation of symbols]

1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 11…音素HMM、 12…単語辞書、 20…言語モデル生成部、 21…学習用テキストデータ、 22…統計的言語モデル。 DESCRIPTION OF SYMBOLS 1 ... Microphone, 2 ... Feature extraction part, 3, 5 ... Buffer memory, 4 ... Word collation part, 6 ... Word hypothesis narrowing part, 11 ... Phoneme HMM, 12 ... Word dictionary, 20 ... Language model generation part, 21 ... Text data for learning, 22 ... Statistical language model.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 匂坂 芳典 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 松永 昭一 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Yoshinori Kosaka, No. 5 Mihiradani, Seiji-cho, Seika-cho, Soraku-gun, Kyoto Prefecture (72) In-T-V Speech Translation Laboratory (72) Shoichi Matsunaga, Kyoto Prefecture Soraku, Kyoto Prefecture Gunma Seika-cho, Osamu Osamu, Osamu Osamu, 5 Hiratani, A-T Co., Ltd.

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 所定の話者の発声音声文を書き下した学
習用テキストデータに基づいて、すべての語彙を品詞毎
にクラスタリングされた品詞クラスに分類し、それらの
品詞クラス間のバイグラムを初期状態の統計的言語モデ
ルとして生成する生成手段と、 上記生成手段によって生成された初期状態の統計的言語
モデルに基づいて、単語の品詞クラスからの分離するこ
とができる第1の分離クラス候補と、1つの単語と1つ
の単語との結合、1つの単語と複数の単語の単語列との
結合、複数の単語の単語列と1つの単語との結合、複数
の単語の単語列と、複数の単語の単語列との結合とを含
む連接単語又は連接単語列の結合によって単語の品詞ク
ラスから分離することができる第2の分離クラス候補と
を検索する検索手段と、 上記検索手段によって検索された第1と第2の分離クラ
ス候補に対して、次単語の予測の難易度を表わす所定の
エントロピーを用いて、クラスを分離することによる当
該エントロピーの減少量を計算する計算手段と、 上記計算手段によって計算された上記第1と第2の分離
クラス候補に対するエントロピーの減少量の中で最大の
クラス分離を選択して、選択されたクラスの分離を実行
することにより、品詞のバイグラムと可変長Nの単語の
N−グラムとを含む統計的言語モデルを生成する分離手
段と、 上記分離手段によって生成された統計的言語モデルのク
ラス数が所定のクラス数になるまで、上記分離手段によ
って生成された統計的言語モデルを処理対象モデルとし
て、上記検索手段の処理と、上記計算手段の処理と、上
記分離手段の処理とを繰り返すことにより、所定のクラ
ス数を有する統計的言語モデルを生成する制御手段とを
備えたことを特徴とする統計的言語モデル生成装置。
1. Based on learning text data in which a uttered voice sentence of a predetermined speaker is written, all vocabularies are classified into a part-of-speech class clustered for each part-of-speech, and a bigram between these part-of-speech classes is initialized. And a first separation class candidate that can be separated from the part-of-speech class of the word based on the initial-state statistical language model generated by the generation means. Combining one word with one word Combining one word with a word string of multiple words, combining word strings with multiple words with one word, word string with multiple words with multiple words Search means for searching a concatenated word including a combination with a word string or a second separated class candidate that can be separated from a part-of-speech class of a word by combining the concatenated word strings; and the searching means. And a calculation means for calculating a reduction amount of the entropy due to class separation, using a predetermined entropy representing the difficulty level of prediction of the next word for the first and second separation class candidates retrieved by By selecting the largest class separation among the reduction amounts of entropy for the first and second separation class candidates calculated by the calculating means, and executing the separation of the selected class, the part-of-speech bigram And a separating means for generating a statistical language model including N-grams of words of variable length N, and the separating means until the number of classes of the statistical language model generated by the separating means reaches a predetermined number of classes. Repeating the processing of the search means, the processing of the calculation means, and the processing of the separation means with the statistical language model generated by And a control means for generating a statistical language model having a predetermined number of classes.
【請求項2】 入力される発声音声文の音声信号に基づ
いて、所定の統計的言語モデルを用いて音声認識する音
声認識手段を備えた音声認識装置において、 上記音声認識手段は、品詞のバイグラムと可変長Nの単
語のN−グラムとを含む統計的言語モデルを用いて音声
認識することを特徴とする音声認識装置。
2. A voice recognition device comprising a voice recognition means for recognizing a voice using a predetermined statistical language model based on a voice signal of an uttered voice sentence inputted, wherein the voice recognition means is a part-of-speech bigram. A speech recognition apparatus, which performs speech recognition using a statistical language model including a variable length N word N-gram.
【請求項3】 上記統計的言語モデルは、請求項1記載
の統計的言語モデル生成装置によって生成されたことを
特徴とする音声認識装置。
3. The speech recognition device, wherein the statistical language model is generated by the statistical language model generation device according to claim 1.
【請求項4】 入力される発声音声文の音声信号に基づ
いて上記発声音声文の単語仮説を検出し尤度を計算する
ことにより、連続的に音声認識する音声認識手段を備え
た連続音声認識装置において、 上記音声認識手段は、請求項1記載の統計的言語モデル
生成装置によって生成された統計的言語モデルを参照し
て、終了時刻が等しく開始時刻が異なる同一の単語の単
語仮説に対して、当該単語の先頭音素環境毎に、発声開
始時刻から当該単語の終了時刻に至る計算された総尤度
のうちの最も高い尤度を有する1つの単語仮説で代表さ
せるように単語仮説の絞り込みを行うことを特徴とする
連続音声認識装置。
4. Continuous speech recognition provided with a voice recognition means for continuously recognizing a voice by detecting a word hypothesis of the uttered voice sentence based on an input voice signal of the uttered voice sentence and calculating a likelihood. In the apparatus, the speech recognition means refers to the statistical language model generated by the statistical language model generation apparatus according to claim 1, and refers to the word hypotheses of the same word having the same end time but different start times. , For each head phoneme environment of the word, the word hypothesis is narrowed down so that it is represented by one word hypothesis having the highest likelihood of the total likelihood calculated from the utterance start time to the end time of the word. A continuous speech recognition device characterized by performing.
JP7292685A 1995-11-10 1995-11-10 Statistical language model generation device and speech recognition device Expired - Fee Related JP2886121B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7292685A JP2886121B2 (en) 1995-11-10 1995-11-10 Statistical language model generation device and speech recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7292685A JP2886121B2 (en) 1995-11-10 1995-11-10 Statistical language model generation device and speech recognition device

Publications (2)

Publication Number Publication Date
JPH09134192A true JPH09134192A (en) 1997-05-20
JP2886121B2 JP2886121B2 (en) 1999-04-26

Family

ID=17784982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7292685A Expired - Fee Related JP2886121B2 (en) 1995-11-10 1995-11-10 Statistical language model generation device and speech recognition device

Country Status (1)

Country Link
JP (1) JP2886121B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319989A (en) * 1997-05-16 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> Statistical language model and its formation
EP0964389A2 (en) * 1998-06-12 1999-12-15 ATR Interpreting Telecommunications Research Laboratories Apparatus for generating a statistical model called class bi-multigram model with bigram dependencies assumed between adjacent sequences
JP2005275348A (en) * 2004-02-23 2005-10-06 Nippon Telegr & Teleph Corp <Ntt> Speech recognition method, device, program and recording medium for executing the method
JP2005293580A (en) * 2004-03-26 2005-10-20 Microsoft Corp Representation of deleted interpolation n-gram language model in arpa standard format
US7480612B2 (en) 2001-08-24 2009-01-20 International Business Machines Corporation Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods
US9524295B2 (en) 2006-10-26 2016-12-20 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US9753918B2 (en) 2008-04-15 2017-09-05 Facebook, Inc. Lexicon development via shared translation database
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319989A (en) * 1997-05-16 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> Statistical language model and its formation
EP0964389A2 (en) * 1998-06-12 1999-12-15 ATR Interpreting Telecommunications Research Laboratories Apparatus for generating a statistical model called class bi-multigram model with bigram dependencies assumed between adjacent sequences
EP0964389A3 (en) * 1998-06-12 2001-12-12 ATR Interpreting Telecommunications Research Laboratories Apparatus for generating a statistical model called class bi-multigram model with bigram dependencies assumed between adjacent sequences
US7480612B2 (en) 2001-08-24 2009-01-20 International Business Machines Corporation Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods
JP2005275348A (en) * 2004-02-23 2005-10-06 Nippon Telegr & Teleph Corp <Ntt> Speech recognition method, device, program and recording medium for executing the method
JP2005293580A (en) * 2004-03-26 2005-10-20 Microsoft Corp Representation of deleted interpolation n-gram language model in arpa standard format
US9524295B2 (en) 2006-10-26 2016-12-20 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US9830318B2 (en) 2006-10-26 2017-11-28 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US9753918B2 (en) 2008-04-15 2017-09-05 Facebook, Inc. Lexicon development via shared translation database

Also Published As

Publication number Publication date
JP2886121B2 (en) 1999-04-26

Similar Documents

Publication Publication Date Title
CN109410914B (en) Method for identifying Jiangxi dialect speech and dialect point
US5878390A (en) Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
JP5440177B2 (en) Word category estimation device, word category estimation method, speech recognition device, speech recognition method, program, and recording medium
CN101548285A (en) Automatic speech recognition method and apparatus
JPH08328585A (en) Method and device for natural language processing and method and device for voice recognition
Demuynck Extracting, modelling and combining information in speech recognition
Yamamoto et al. Multi-class composite N-gram language model
JP2004170765A (en) Apparatus and method for speech processing, recording medium, and program
JP2886121B2 (en) Statistical language model generation device and speech recognition device
JP3364631B2 (en) Statistical language model generation apparatus and speech recognition apparatus
JP3444108B2 (en) Voice recognition device
JP2938866B1 (en) Statistical language model generation device and speech recognition device
JP3027544B2 (en) Statistical language model generation device and speech recognition device
JP2974621B2 (en) Speech recognition word dictionary creation device and continuous speech recognition device
JP4595415B2 (en) Voice search system, method and program
JP2938865B1 (en) Voice recognition device
KR20050101695A (en) A system for statistical speech recognition using recognition results, and method thereof
JP4987530B2 (en) Speech recognition dictionary creation device and speech recognition device
JP2002091484A (en) Language model generator and voice recognition device using the generator, language model generating method and voice recognition method using the method, computer readable recording medium which records language model generating program and computer readable recording medium which records voice recognition program
JP2002082690A (en) Language model generating method, voice recognition method and its program recording medium
KR100277690B1 (en) Speech Recognition Using Speech Act Information
KR20050101694A (en) A system for statistical speech recognition with grammatical constraints, and method thereof
JP2968792B1 (en) Statistical language model generation device and speech recognition device
JP2000356997A (en) Statistical language model generator and voice recognition device
JP2000259175A (en) Voice recognition device

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090212

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100212

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110212

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120212

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees