JP3004254B2 - Statistical sequence model generation device, statistical language model generation device, and speech recognition device - Google Patents

Statistical sequence model generation device, statistical language model generation device, and speech recognition device

Info

Publication number
JP3004254B2
JP3004254B2 JP10165030A JP16503098A JP3004254B2 JP 3004254 B2 JP3004254 B2 JP 3004254B2 JP 10165030 A JP10165030 A JP 10165030A JP 16503098 A JP16503098 A JP 16503098A JP 3004254 B2 JP3004254 B2 JP 3004254B2
Authority
JP
Japan
Prior art keywords
sequence
unit
statistical
class
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10165030A
Other languages
Japanese (ja)
Other versions
JPH11352994A (en
Inventor
サビン・デリン
芳典 匂坂
秀治 中嶋
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP10165030A priority Critical patent/JP3004254B2/en
Priority to US09/290,584 priority patent/US6314399B1/en
Priority to EP99107525A priority patent/EP0964389A3/en
Publication of JPH11352994A publication Critical patent/JPH11352994A/en
Application granted granted Critical
Publication of JP3004254B2 publication Critical patent/JP3004254B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Abstract

An apparatus is disclosed for generating a statistical class sequence model called class bi-multigram model from input strings of discrete-valued units, where bigram dependencies are assumed between adjacent variable length sequences of maximum length N units, and where class labels are assigned to the sequences. There are counted the number of times all sequences of units occur and the number of times all pairs of sequences of units co-occur in the input training strings of units, and an initial bigram probability distribution of all the pairs of sequences is computed as the counted number of times the two sequences co-occur divided by the counted number of times the first sequence occurs in the input training string. Then the input sequences are classified into a pre-specified desired number of classes. Further, an estimate of the bigram probability distribution of the sequences is calculated by using an EM algorithm to maximize the likelihood of the input training string computed with the input probability distributions, and the above processes are iteratively performed to generate a statistical class sequence model. <IMAGE>

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、学習用シーケンス
データに基づいて統計的シーケンスモデルを生成する統
計的シーケンスモデル生成装置、学習用テキストデータ
に基づいて統計的言語モデルを生成する統計的言語モデ
ル生成装置、及び上記統計的言語モデルを用いて、入力
される発声音声文の音声信号を音声認識する音声認識装
置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a statistical sequence model generation device for generating a statistical sequence model based on learning sequence data, and a statistical language model for generating a statistical language model based on learning text data. The present invention relates to a generation device and a speech recognition device that recognizes a speech signal of an input uttered speech sentence using the statistical language model.

【0002】[0002]

【従来の技術】近年、連続音声認識装置において、その
性能を高めるために言語モデルを用いる方法が研究され
ている。これは、シーケンスモデルである言語モデルを
用いて、次単語を予測し探索空間を削減することによ
り、認識率の向上及び計算時間の削減の効果を狙ったも
のである。ここで、シーケンスとは、具体的には、文字
のシーケンスでは単語であり、単語のシーケンスではフ
レーズ(又は句)である。最近盛んに用いられている言
語モデルとしてN−gram(N−グラム;ここで、N
は2以上の自然数である。)がある。これは、大規模な
テキストデータを学習し、直前のN−1個の単語から次
の単語への遷移確率を統計的に与えるものである。複数
L個の単語列w1 L=w1,w2,…,wLの生成確率P
(w1 L)は次式で表される。
2. Description of the Related Art In recent years, a method of using a language model has been studied to improve the performance of a continuous speech recognition apparatus. This aims at improving the recognition rate and reducing the calculation time by predicting the next word and reducing the search space using a language model that is a sequence model. Here, the sequence is, specifically, a word in a sequence of characters and a phrase (or phrase) in a sequence of words. N-gram (N-gram; here, N-gram)
Is a natural number of 2 or more. ). It learns large-scale text data and statistically gives the transition probability from the previous N-1 words to the next word. Generation probability P of a plurality of L word strings w 1 L = w 1 , w 2 ,..., W L
(W 1 L ) is expressed by the following equation.

【0003】[0003]

【数1】 (Equation 1)

【0004】ここで、wtは単語列w1 Lのうちt番目の
1つの単語を表し、wi jはi番目からj番目の単語列を
表わす。上記数1において、確率P(wt
t+1-N t-1)は、N個の単語からなる単語列wt+1-N t-1
が発声された後に単語wtが発声される確率であり、以
下同様に、確率P(A|B)は単語又は単語列Bが発声
された後に単語Aが発声される確率を意味する。また、
数1における「Π」はt=1からLまでの確率P(wt
|wt+1-N t-1)の積を意味する。
[0004] Here, w t represents a t-th one word of the word string w 1 L, w i j represents the j-th word string from the i-th. In the above equation 1, the probability P (w t |
wt + 1- Nt-1 ) is a word sequence wt + 1- Nt-1 composed of N words.
Is the probability that the word w t will be uttered after is uttered, and similarly, the probability P (A | B) means the probability that the word A will be uttered after the word or word string B has been uttered. Also,
“Π” in Equation 1 represents the probability P (w t from t = 1 to L
| W t + 1−N t−1 ).

【0005】ところで、近年、上記統計的言語モデルの
N−gramを用いて連続音声認識の性能を向上させる
手法が盛んに提案されており、そのいくつかのモデルで
は、可変長の単語列にわたる単語の依存性を利用する方
法を用いている。これらのモデルは、共通して従来のN
−gramモデルにみられる固定長の依存性の仮定を緩
和するために用いられており、種々のより広い仮定をカ
バーしている。
In recent years, techniques for improving the performance of continuous speech recognition using the above-described statistical language model N-gram have been actively proposed. It uses a method that takes advantage of dependencies. These models have in common the traditional N
Used to mitigate the fixed-length dependency assumption found in the -gram model, covering a variety of broader assumptions.

【0006】フレーズを純粋に統計的方法(すなわち、
統計的文脈自由文法(Stochastic Context Free Gramma
rs)にあるような文法的規則を用いない方法)で導くた
めには、種々の基準を使用する必要があり、例えば、以
下の基準が提案されてきた。 (a)従来技術文献1「K. Ries et al.,”Class phra
se models for languagemodeling”,Proceedings of I
CSLP 96, 1996」において開示されたリーブ・ワン・ア
ウト(leave-one-out)尤度、及び (b)従来技術文献2「H. Masataki et al., Variable
-order n-gram generation by word-class splitting a
nd consecutive word grouping. Proceedings ofICASSP
96,1996」において開示されたエントロピー。
[0006] Phrases are expressed in a purely statistical manner (ie,
Stochastic Context Free Gramma
rs), it is necessary to use various criteria in order to derive it in a manner that does not use grammatical rules, for example, the following criteria have been proposed. (A) Prior art document 1 "K. Ries et al.," Class phra
se models for languagemodeling ”, Proceedings of I
Leave-one-out likelihood disclosed in CSLP 96, 1996, and (b) Prior art document 2 “H. Masataki et al., Variable
-order n-gram generation by word-class splitting a
nd consecutive word grouping.Proceedings ofICASSP
96, 1996 ".

【0007】[0007]

【発明が解決しようとする課題】これらの方法におい
て、尤度の基準を統計的枠組みの中で用いることで、E
M(Expectation Maximum;すなわち、期待値の最大化)
アルゴリズムを用いた最適化の方法を用いることができ
るが、過学習となる傾向がある。また、最適化処理にお
いては、例えば、従来技術文献3「S. Matsunaga et a
l.,”Variable-length language modeling integrating
global constraints”,Proceedings of EUROSPEECH 9
7,1997」において発見的手法を用いられているが、統計
的言語モデルの収束と最適化は理論的に保証されていな
い。
In these methods, by using the likelihood criterion in a statistical framework, the E
M (Expectation Maximum; ie, maximization of expected value)
Although an optimization method using an algorithm can be used, it tends to be over-learned. Further, in the optimization processing, for example, the related art document 3 “S. Matsunaga et a
l., ”Variable-length language modeling integrating
global constraints ”, Proceedings of EUROSPEECH 9
7,1997], the convergence and optimization of statistical language models are not theoretically guaranteed.

【0008】ここで、さらに、例えば、従来技術文献1
において提案された尤度の基準を用いたときの問題点に
ついて述べると以下の通りである。 <問題点1>単語のシーケンスの頻度確率が貪欲なアル
ゴリズム(greedy algorithm)によって得られるために、
最適な状態に向かう単調な収束が保証されない。 <問題点2>この方法は確定的なものである。つまり、
仮にシーケンス[bcd]がシーケンスの目録(invent
ory)に在れば、入力文字列に”bcd”が発生しても、
これが[bc]+[d]、[b]+[cd]、[b]+
[c]+[d]等のサブシーケンスに分割されることは
ない。言い換えれば、シーケンスへの解析において自由
度が無い。 <問題点3>シーケンスのクラスの定義が先行する単語
のクラス分類を基礎としている。すなわち、まず、単語
が分類され、次に、単語のクラスのラベルの各シーケン
スは、シーケンスのクラスを定義するために使用され
る。従って、同一クラスに長さの違うシーケンスを入れ
ることはできない。例えば、”thank you for”と”tha
nk you very much for”は同じクラスに入らない。
Here, for example, prior art document 1
The following describes problems when the likelihood criterion proposed in is used. <Problem 1> Since the frequency probability of a sequence of words can be obtained by a greedy algorithm,
Monotonic convergence towards optimal conditions is not guaranteed. <Problem 2> This method is definite. That is,
If the sequence [bcd] is a list of sequences (invent
ory), even if "bcd" occurs in the input character string,
This is [bc] + [d], [b] + [cd], [b] +
It is not divided into sub-sequences such as [c] + [d]. In other words, there is no degree of freedom in analyzing the sequence. <Problem 3> The definition of the class of the sequence is based on the class classification of the preceding word. That is, first the words are classified, and then each sequence of labels of the class of words is used to define the class of the sequence. Therefore, sequences with different lengths cannot be included in the same class. For example, “thank you for” and “tha
nk you very much for ”does not belong to the same class.

【0009】これを解決するために、本発明者は、従来
技術文献4「S. Deligne et al.,”Introducing statis
tical dependencies and structural constraints in v
ariable-length sequence models”、In Grammatical In
ference: Learning Syntaxfrom Sentences, Lecture No
tes in Artificial Intelligence 1147, pp.156-167,Sp
ringer,1996」において、可変長のシーケンスであるマ
ルチグラムを用いる統計的言語モデルについて、当該従
来技術文献4の(16)式を用いて、それらのパラメー
タを計算できる可能性だけを示しているが、当該(1
6)式は、実際にディジタル計算機を用いて計算するこ
とができる形式とはなっておらず、実用化することがで
きないという問題点があった。ここで、マルチグラムと
は、他のシーケンスとの依存性を特定しない可変長のシ
ーケンスである。
In order to solve this problem, the present inventor has proposed a technique disclosed in prior art document 4 “S. Deligne et al.,” Introducing statis.
tical dependencies and structural constraints in v
ariable-length sequence models ”, In Grammatical In
ference: Learning Syntaxfrom Sentences, Lecture No
tes in Artificial Intelligence 1147, pp.156-167, Sp
ringer, 1996 ", for a statistical language model using a multigram that is a variable-length sequence, only the possibility of calculating those parameters using Equation (16) of the related art document 4 is shown. , The (1)
Equation (6) is not in a format that can be actually calculated using a digital computer, and has a problem that it cannot be put to practical use. Here, a multigram is a variable-length sequence that does not specify dependence on other sequences.

【0010】本発明の目的は以上の問題点を解決し、従
来例に比較して、最適な状態に向かう単調な収束を保証
することができ、解析結果に自由度があり、可変長のシ
ーケンスを同一のクラスで取り扱うことができ、ディジ
タル計算機を用いて実用的に高速処理して統計的モデル
を生成することができる統計的シーケンスモデル生成装
置、統計的言語モデル生成装置及び音声認識装置を提供
することにある。
[0010] An object of the present invention is to solve the above-mentioned problems, to assure monotonous convergence toward an optimum state as compared with the conventional example, to provide a degree of freedom in the analysis result, and to obtain a variable-length sequence. A statistical sequence model generation device, a statistical language model generation device, and a speech recognition device capable of handling statistical information in the same class and generating a statistical model by practically performing high-speed processing using a digital computer. Is to do.

【0011】[0011]

【課題を解決するための手段】本発明に係る統計的シー
ケンスモデル生成装置は、1個又は複数の単位からなる
単位列であるシーケンスを含む入力データに基づいて、
可変長の自然数N1個の単位列であるマルチグラムと、
可変長の自然数N2個の単位列であるマルチグラムとの
間のバイグラムであるバイ−マルチグラムの統計的シー
ケンスモデルを生成する統計的シーケンスモデル生成装
置であって、上記入力データに基づいて、予め決められ
たN1,N2の最大値の拘束条件のもとで、すべての単位
列の組み合わせの上記バイグラムの頻度確率を計数する
初期化手段と、上記初期化手段によって計数された上記
バイグラムの頻度確率に基づいて、各クラスの対をマー
ジしたときの相互情報量の損失が最小となるようにマー
ジして各クラスの頻度確率を更新して予め決められた数
の複数のクラスに分類することにより、分類されたクラ
スに含まれる単位列と、分類されたクラスの条件付きの
単位列の頻度確率と、分類されたクラス間のバイグラム
の頻度確率を計算して出力する分類手段と、上記分類処
理手段から出力される分類されたクラスに含まれる単位
列と、分類されたクラスの条件付きの単位列の頻度確率
と、分類されたクラス間のバイグラムの頻度確率とに基
づいて、EMアルゴリズムを用いて、最尤推定値を得る
ように再推定し、ここで、フォワード・バックワードア
ルゴリズムを用いて、処理対象の各単位列に対して、時
系列的に前方にとり得る処理対象の当該単位列に対する
前方尤度と、当該単位列の直前の単位列を条件としたと
きの当該単位列の頻度確率と、時系列的に後方にとり得
る当該単位列に対する後方尤度とに基づいてシーケンス
間のバイグラムの頻度確率を示す式を用いて、当該シー
ケンス間のバイグラムの頻度確率を再推定することによ
り、再推定結果である上記バイ−マルチグラムの統計的
シーケンスモデルを生成して出力する再推定手段と、上
記分類手段の処理と上記再推定手段の処理を所定の終了
条件を満たすまで繰り返し実行するように制御する制御
手段とを備えたことを特徴とする。
According to the present invention, there is provided a statistical sequence model generating apparatus based on input data including a sequence which is a unit sequence of one or more units.
A multigram that is a unit sequence of variable-length natural numbers N 1 ,
A is bi bigram between multigram a natural number N 2 pieces of unit columns of variable length - a statistical sequence model generating device for generating a statistical sequence model of multi-gram, based on the input data, Initializing means for counting the frequency probabilities of the bigrams of all combinations of unit strings under the constraint of predetermined maximum values of N 1 and N 2, and the bigram counted by the initializing means Based on the frequency probabilities of each class, the classes are merged so that the loss of mutual information when the pairs of classes are merged is minimized, and the frequency probabilities of each class are updated to classify them into a predetermined number of classes. By calculating the unit sequence included in the classified class, the frequency probability of the conditional unit sequence of the classified class, and the frequency probability of the bigram between the classified classes Classifying means, and a unit sequence included in the classified class output from the classification processing means, a frequency probability of a conditional unit sequence of the classified class, and a bigram between the classified classes. Based on the frequency probabilities, re-estimation is performed using the EM algorithm to obtain a maximum likelihood estimation value. Here, using the forward / backward algorithm, each unit sequence to be processed is time-series , The forward likelihood of the unit sequence of the processing target that can be taken forward, the frequency probability of the unit sequence when the unit sequence immediately before the unit sequence is a condition, and the backward possibility of the unit sequence that can be taken backward in chronological order. By re-estimating the frequency probability of the bigram between the sequences using an expression indicating the frequency probability of the bigram between the sequences based on the likelihood, Re-estimating means for generating and outputting a statistical sequence model of the chigram; and control means for controlling the processing of the classifying means and the processing of the re-estimating means to be repeatedly executed until a predetermined end condition is satisfied. It is characterized by the following.

【0012】また、上記統計的シーケンスモデル生成装
置において、上記初期化手段はさらに、上記計数された
バイグラムの頻度確率のうち、所定の頻度確率以下のバ
イグラムの組み合わせのデータを除去することを特徴と
する。
In the above-mentioned statistical sequence model generating apparatus, the initialization means may further remove, from among the counted frequency counts of the bigram, data of a combination of bigrams having a predetermined frequency probability or less. I do.

【0013】さらに、上記統計的シーケンスモデル生成
装置において、上記分類手段は、上記初期化手段によっ
て計数された上記バイグラムの頻度確率に基づいて、ブ
ラウンアルゴリズムを用いて、上記複数のクラスに分類
することを特徴とする。
Further, in the statistical sequence model generation device, the classification means classifies the plurality of classes using a Brownian algorithm based on the frequency probability of the bigram counted by the initialization means. It is characterized by.

【0014】また、上記統計的シーケンスモデル生成装
置において、上記式は、上記入力データにおいて、当該
単位列である第2の単位列が第1の単位列に続くときの
単位列のシーケンス間のバイグラムの頻度確率を、上記
入力データにおける処理対象の各単位列に対して計算す
るための式であり、上記シーケンス間のバイグラムの頻
度確率は、第1と第2の単位列を含むすべてのセグメン
ト化での尤度の和を、第1の単位列を含むすべてのセグ
メント化での尤度の和で除算することによって得られ
る。また、ここで、上記式は、上記入力データにおいて
各単位列が発生する平均回数を示す分母と、上記入力デ
ータにおいて第2の単位列が第1の単位列に続くときの
各単位列に対する平均回数を示す分子とを有し、上記分
子は、処理対象の各単位列に対する、上記前方尤度と、
当該単位列の直前の単位列を条件としたときの当該単位
列の頻度確率と、上記後方尤度の積の和であり、上記分
母は、処理対象の各単位列に対する、上記前方尤度と、
当該単位列の直前の単位列を条件としたときのすべての
単位列の頻度確率と、上記後方尤度の積の和である。
In the above-mentioned statistical sequence model generating apparatus, the above equation may be a bigram between a sequence of unit sequences when a second unit sequence as the unit sequence follows the first unit sequence in the input data. Is a formula for calculating the frequency probability of each of the unit strings to be processed in the input data. The frequency probability of the bigram between the sequences is obtained by dividing all of the segmentation including the first and second unit strings. Is obtained by dividing the sum of likelihoods by the sum of likelihoods in all the segmentations including the first unit sequence. In this case, the above formula is obtained by calculating a denominator indicating an average number of times each unit sequence occurs in the input data, and an average for each unit sequence when the second unit sequence follows the first unit sequence in the input data. A numerator indicating the number of times, the numerator, for each unit sequence of the processing target, the forward likelihood,
The sum of the product of the frequency probability of the unit sequence and the backward likelihood when the unit sequence immediately before the unit sequence is a condition, and the denominator is the forward likelihood for each unit sequence to be processed. ,
This is the sum of the product of the frequency probabilities of all the unit columns and the above-mentioned backward likelihood when the unit column immediately before the unit column is used as a condition.

【0015】さらに、上記統計的シーケンスモデル生成
装置において、上記終了条件は、上記分類手段の処理
と、上記再推定手段の処理との反復回数が予め決められ
た回数に達したときであることを特徴とする。
Further, in the above-mentioned statistical sequence model generating apparatus, the termination condition is that the number of repetitions of the processing of the classifying means and the processing of the re-estimating means has reached a predetermined number. Features.

【0016】また、本発明に係る統計的言語モデル生成
装置は、上記統計的シーケンスモデル生成装置におい
て、上記単位は自然言語の文字であり、上記シーケンス
は単語であり、上記分類手段は、文字列を複数の単語の
列に分類し、上記統計的シーケンスモデルは、統計的言
語モデルであることを特徴とする。
In the statistical language model generating apparatus according to the present invention, in the statistical sequence model generating apparatus, the unit is a character of a natural language, the sequence is a word, and the classifying means is a character string. Is classified into a plurality of word strings, and the statistical sequence model is a statistical language model.

【0017】さらに、本発明に係る統計的言語モデル生
成装置は、上記統計的シーケンスモデル生成装置におい
て、上記単位は自然言語の単語であり、上記シーケンス
はフレーズであり、上記分類手段は、単語列を複数のフ
レーズの列に分類し、上記統計的シーケンスモデルは、
統計的言語モデルであることを特徴とする。
Further, in the statistical language model generating apparatus according to the present invention, in the statistical sequence model generating apparatus, the unit is a word of a natural language, the sequence is a phrase, and the classification means includes a word string. Into a series of phrases, and the statistical sequence model
It is characterized by being a statistical language model.

【0018】またさらに、本発明に係る音声認識装置
は、入力される発声音声文の音声信号に基づいて、所定
の統計的言語モデルを用いて音声認識する音声認識手段
を備えた音声認識装置において、上記音声認識手段は、
上記統計的言語モデル生成装置によって生成された統計
的言語モデルを参照して音声認識することを特徴とす
る。
Still further, the speech recognition apparatus according to the present invention is a speech recognition apparatus provided with speech recognition means for recognizing a speech using a predetermined statistical language model based on an input speech signal of an uttered speech sentence. , The voice recognition means,
The speech recognition is performed by referring to the statistical language model generated by the statistical language model generation device.

【0019】[0019]

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。以下の実施形態において
は、単位は文字であり、文字のシーケンスである文字列
を単語列に分類する一例、並びに、単位は単語であり、
単語のシーケンスである単語列をフレーズ(句)に分類
する一例について説明しているが、本発明はこれに限ら
ず、単位はDNAであり、DNAのシーケンスであるD
NA列を所定のDNA配列に分類するように構成しても
よい。また、単位は塩基であり、塩基のシーケンスであ
る塩基列を所定のコドンに分類するように構成してもよ
い。
Embodiments of the present invention will be described below with reference to the drawings. In the following embodiments, the unit is a character, an example of classifying a character string that is a sequence of characters into a word string, and the unit is a word,
An example of classifying a word sequence, which is a sequence of words, into phrases (phrases) has been described. However, the present invention is not limited to this, and the unit is DNA, and the sequence of DNA, D
You may comprise so that an NA row | line may be classified into a predetermined DNA sequence. Further, the unit may be a base, and a base sequence as a base sequence may be classified into predetermined codons.

【0020】図1は、本発明に係る一実施形態である連
続音声認識装置のブロック図である。本実施形態の連続
音声認識装置は、学習用テキストデータメモリ21に記
憶された文字列であるテキストデータに基づいて、ワー
キングRAM30を用いて、可変長のバイ−マルチグラ
ムの言語モデルを生成する統計的言語モデル生成部20
を備え、ここで、統計的言語モデル生成部20の処理
は、図3に示すように、大きく分けると、ブラウンアル
ゴリズムを用いた分類処理(ステップS3)と、バイ−
マルチグラムを用いた再推定処理(ステップS4)とを
含むことを特徴としている。
FIG. 1 is a block diagram of a continuous speech recognition apparatus according to an embodiment of the present invention. The continuous speech recognition apparatus according to the present embodiment uses the working RAM 30 to generate a variable-length bi-multigram language model based on text data that is a character string stored in the learning text data memory 21. Language model generation unit 20
Here, as shown in FIG. 3, the processing of the statistical language model generation unit 20 can be roughly classified into a classification processing using the Brown algorithm (step S3),
And a re-estimation process using a multigram (step S4).

【0021】すなわち、本実施形態の統計的言語モデル
生成装置は、1個又は複数の文字からなる文字列のシー
ケンスを含む入力データに基づいて、可変長の自然数N
1個の文字列と可変長の自然数N2個の文字列との間のバ
イグラムであるバイ−マルチグラムの統計的言語モデル
を生成する統計的言語モデル生成装置であり、ここで、
図3に示すように、(a)上記入力データに基づいて、
予め決められたN1,N2の最大値の拘束条件のもとで、
すべての文字列の組み合わせの上記バイグラムの頻度確
率を計数する初期化処理(ステップS2)と、(b)上
記初期化処理によって計数された上記バイグラムの頻度
確率に基づいて、各クラスの対をマージしたときの相互
情報量の損失が最小となるようにマージして各クラスの
頻度確率を更新して予め決められた数の複数のクラスに
分類することにより、分類されたクラスに含まれる文字
列と、分類されたクラスの条件付きの文字列の頻度確率
と、分類されたクラス間のバイグラムの頻度確率を計算
して出力する分類処理(ステップS3)と、(c)上記
分類処理によって得られた分類されたクラスに含まれる
文字列と、分類されたクラスの条件付きの文字列の頻度
確率と、分類されたクラス間のバイグラムの頻度確率と
に基づいて、EMアルゴリズムを用いて、最尤推定値を
得るように再推定し、ここで、フォワード・バックワー
ドアルゴリズムを用いて、処理対象の各文字列に対し
て、時系列的に前方にとり得る処理対象の当該文字列に
対する前方尤度と、当該文字列の直前の文字列を条件と
したときの当該文字列の頻度確率と、時系列的に後方に
とり得る当該文字列に対する後方尤度とに基づいてシー
ケンス間のバイグラムの頻度確率を示す式(数22−数
24)を用いて、当該シーケンス間のバイグラムの頻度
確率を再推定することにより、再推定結果である上記バ
イ−マルチグラムの統計的シーケンスモデルを生成して
出力する再推定処理(ステップS4)と、(d)上記分
類処理と上記再推定処理を所定の終了条件を満たすまで
繰り返し実行するように制御する処理(ステップS5)
を含むことを特徴とする。
That is, the statistical language model generating apparatus according to the present embodiment uses a variable-length natural number N based on input data including a character string sequence composed of one or more characters.
A is bi bigram between one string and a natural number N 2 pieces of string length - a statistical language model generating device for generating a statistical language model of a multi-gram, wherein
As shown in FIG. 3, (a) based on the input data,
Under the constraint of the predetermined maximum value of N 1 and N 2 ,
Initialization processing (step S2) for counting the frequency probabilities of the bigrams of all combinations of character strings, and (b) merging pairs of each class based on the frequency probabilities of the bigrams counted by the initialization processing Character strings included in the classified classes by merging so as to minimize the loss of mutual information when doing so and updating the frequency probability of each class and classifying it into a predetermined number of multiple classes A classification process (step S3) for calculating and outputting the frequency probability of a conditional character string of the classified class and the frequency probability of a bigram between the classified classes (step S3); EM based on the character strings included in the classified class, the frequency probability of the conditional character string of the classified class, and the frequency probability of the bigram between the classified classes. The algorithm is re-estimated so as to obtain the maximum likelihood estimation value. Here, using the forward / backward algorithm, for each character string to be processed, Based on the forward likelihood for the character string, the frequency probability of the character string under the condition of the character string immediately before the character string, and the backward likelihood for the character string that can be backward in time series, By re-estimating the frequency probability of the bigram between the sequences using the equation (equation 22-equation 24) indicating the frequency probability of the bigram, the statistical sequence model of the bi-multigram as the re-estimation result is obtained. A re-estimation process (step S4) to generate and output, and (d) a process of controlling to repeatedly execute the classification process and the re-estimation process until predetermined end conditions are satisfied. Step S5)
It is characterized by including.

【0022】本実施形態では、単語のN−gramに基
づく手法に対向する、フレーズに基づく方法に焦点を当
てる。ここで、複数の文はフレーズに構成され、頻度確
率は、単語に代わってフレーズに割り当てられる。モデ
ルがN−gramに基づくか、フレーズに基づくかに関
わらず、それらは確定的モデルあるいは統計的モデルの
いずれかに該当する。フレーズに基づく枠組みでは、非
確定性はその文の解析結果の曖昧さを通じてフレーズに
導入される。すなわち、これは実際においては、フレー
ズ”abc”がフレーズとして登録されているにもかか
わらず、文字列の解析結果が例えば[ab][c]とな
る確率が皆無でないことを意味する。これとは対照的
に、確定的手法ではa、b、cすべての同時出現はシス
テマティックにフレーズ[abc]の出現と解釈され
る。
This embodiment focuses on a phrase-based method as opposed to a word N-gram-based method. Here, the plurality of sentences are formed into phrases, and the frequency probabilities are assigned to the phrases in place of the words. Regardless of whether the models are based on N-grams or phrases, they correspond to either deterministic or statistical models. In a phrase-based framework, uncertainty is introduced into a phrase through ambiguity in the parsing of the sentence. That is, this means that, in fact, even though the phrase "abc" is registered as a phrase, there is no probability that the analysis result of the character string is, for example, [ab] [c]. In contrast, in the deterministic approach, the simultaneous occurrence of all a, b, and c is systematically interpreted as the occurrence of the phrase [abc].

【0023】また、本実施形態では、統計的言語モデル
の処理は、バイ−マルチグラムを用いて実行され、当該
バイ−マルチグラムの言語モデルは、フレーズに基づく
統計的モデルであり、そのパラメータは尤度基準に従っ
て推定される。
In this embodiment, the processing of the statistical language model is executed by using a bi-multigram, and the language model of the bi-multigram is a statistical model based on phrases, and its parameter is Estimated according to likelihood criteria.

【0024】まず、マルチグラムの理論的な定式化につ
いて説明する。マルチグラムの枠組みでは、T個の単語
からなる文
First, the theoretical formulation of the multigram will be described. In the multigram framework, a sentence consisting of T words

【数2】W=w(1)(2)…w(T) は、それぞれ最大長n個の単語からなる各々のフレーズ
が連鎖(シーケンス)したものと仮定される。ここで、
SはTs個のフレーズへのセグメント化を示し、s(t)
セグメント化Sにおける時刻インデックス(最初の語か
らのシリアル番号を示す。)(t)のフレーズとした場
合、WのSでのセグメント化の結果は、次式で表すこと
ができる。
[Mathematical formula-see original document] W = w (1) w (2) ... W (T) is assumed to be a sequence (sequence) of phrases having a maximum length of n words. here,
S indicates segmentation into T s phrases, and s (t) is the time index (indicating the serial number from the first word ) in the segmentation S. Can be represented by the following equation.

【数3】(W,S)=s(1)…s(Ts) ## EQU3 ## (W, S) = s (1) ... S (Ts)

【0025】ここで、セグメント化された複数のフレー
ズからなる辞書は、語彙から1,2…からnにいたるま
での単語を組み合わせて形成されるものであり、ここで
は,次式のように表す。
Here, a dictionary composed of a plurality of segmented phrases is formed by combining words from 1, 2,... To n from the vocabulary, and is represented by the following equation. .

【数4】Ds={sjj そして、文の尤度は、各セグメント化に対する尤度の和
として、次式のように計算される。
Ds = {s j } j The sentence likelihood is calculated as the following equation as the sum of likelihoods for each segmentation.

【0026】[0026]

【数5】 (Equation 5)

【0027】モデルの決定指向的手法により、文Wは、
最も尤らしいセグメント化に従って解析され、次の近似
式が得られる。
According to the decision-oriented method of the model, the sentence W is
Analyzed according to the most likely segmentation, the following approximation is obtained.

【0028】[0028]

【数6】 (Equation 6)

【0029】ここで、フレーズ間のn−gramの相関
を仮定し、特定のセグメント化Sの結果の尤度の値を次
式のように計算する。
Here, assuming an n-gram correlation between phrases, the likelihood value of the result of the specific segmentation S is calculated as follows.

【0030】[0030]

【数7】 (Equation 7)

【0031】ここで、以下、符号nは複数のフレーズ間
の依存度を表し、従来のn−gramの表記法のnとし
て使用する。また、符号nmaxは、フレーズの最大長を
表す。従って、ここで、尤度の計算例を次式に示す。こ
の例では、バイ−マルチグラムモデル(nmax=3,n
=2)の”abcd”の尤度を示す。記号#は空のシー
ケンスを表す。
Here, the symbol n represents the degree of dependence between a plurality of phrases, and is used as n in the conventional n-gram notation. The code n max indicates the maximum length of the phrase. Therefore, an example of calculating the likelihood is shown in the following equation. In this example, the bi-multigram model (n max = 3, n
= 2) indicates the likelihood of “abcd”. The symbol # represents an empty sequence.

【0032】[0032]

【数8】 尤度 =p([a]|#)p([b]|[a])p([c]|[b])p([d]|[c]) +p([a]|#)p([b]|[a])p([cd]|[b]) +p([a]|#)p([bc]|[a])p([d]|[bc]) +p([a]|#)p([bcd]|[a]) +p([ab]|#)p([c]|[ab])p([d]|[c]) +p([ab]|#)p([cd]|[ab]) +p([abc]|#)p([d]|[abc])Equation 8 Likelihood = p ([a] | #) p ([b] | [a]) p ([c] | [b]) p ([d] | [c]) + p ([a] | #) P ([b] | [a]) p ([cd] | [b]) + p ([a] | #) p ([bc] | [a]) p ([d] | [bc] ) + P ([a] | #) p ([bcd] | [a]) + p ([ab] | #) p ([c] | [ab]) p ([d] | [c]) + p ( [Ab] | #) p ([cd] | [ab]) + p ([abc] | #) p ([d] | [abc])

【0033】上記数8から明らかなように、当該尤度
は、シーケンス”abcd”をセグメント化するときの
すべての組み合わせについての頻度確率の和を表してい
る。
As is apparent from the above equation 8, the likelihood represents the sum of the frequency probabilities of all combinations when segmenting the sequence “abcd”.

【0034】次いで、言語モデルのパラメータの推定に
ついて説明する。マルチグラムのn−gramモデル
は、パラメータΘのセットによって完全に定義され、次
式のパラメータΘは、辞書Dsを用いて、
Next, the estimation of the language model parameters will be described. The multigram n-gram model is completely defined by a set of parameters Θ, and the parameter の in the following equation is obtained using a dictionary Ds:

【数9】 Θ={p(sin|si1…sin-1)|si1…sin∈Ds} n個のフレーズのあらゆる組み合わせに関係するn−g
ramの条件付き確率によって構成される。パラメータ
Θのセットの推定値は、例えば、不完全なデータから得
られる想定しうる最大の尤度値、すなわち最尤推定値
(Maximum Likelihood Estimation)として得られ、こ
こで、未知のデータは基礎をなすセグメント化Sであ
る。従って、パラメータΘの反復的な最尤推定値は、公
知のEMアルゴリズム(Expectation Maximization Alg
orithm)によって計算することができる。ここで、Q
(k,k+1)を、反復回数パラメータk及びk+1の
尤度を用いて計算される、次式の補助関数とする。
9 = {p (s in | s i1 ... s in-1 ) | s i1 ... s in {Ds} ng related to any combination of n phrases
ram. The estimate of the set of parameters Θ is obtained, for example, as the maximum possible likelihood value obtained from incomplete data, ie, the Maximum Likelihood Estimation, where the unknown data is based on This is the segmentation S to be made. Therefore, the iterative maximum likelihood estimate of the parameter Θ is calculated using the well-known EM algorithm (Expectation Maximization Alg
orithm). Where Q
Let (k, k + 1) be an auxiliary function of the following equation, which is calculated using the likelihood of the iteration number parameters k and k + 1.

【0035】[0035]

【数10】 (Equation 10)

【0036】公知のEMアルゴリズムにおいて示される
ように、
As shown in the known EM algorithm,

【数11】Q(k,k+1)≧Q(k,k) であれば、If Q (k, k + 1) ≧ Q (k, k), then

【数12】L(k+1)(W)≧L(k)(W) である。従って、反復回数パラメータ(k+1)におけ
る次式の再推定式
L (k + 1) (W) ≧ L (k) (W) Therefore, the following re-estimation formula for the number of iterations parameter (k + 1)

【数13】p(k+1)(sin|si1…sin-1) は、次式の拘束条件## EQU13 ## p (k + 1) (s in | s i1 ... S in-1 ) is a constraint condition of the following equation.

【数14】 のもとで、モデルパラメータΘ(k+1)について補助関数
Q(k,k+1)を最大化することにより、次式のよう
に直接的に導くことができる。なお、本明細書におい
て、下付きの下付きの表記及び上付きの下付きの表記は
できないので、下層の下付きの表記を省略している。
[Equation 14] By maximizing the auxiliary function Q (k, k + 1) for the model parameter Θ (k + 1) under the following equation, the following equation can be directly derived. In this specification, the subscript notation and the subscript notation of the superscript are not possible, so the subscript notation of the lower layer is omitted.

【0037】[0037]

【数15】 (Equation 15)

【0038】ここで、c(si1…sin,S)は、セグメ
ント化Sにおける複数のフレーズsi1…sinの組み合わ
せの出現数を示す。数15の再推定式は、バイ−マルチ
グラム(n=2)について詳細後述されるように、フォ
ワード・バックワードアルゴリズム(forward backward
algorithm)(以下、FB法ともいう。)を用いて実行さ
れる。決定指向の方法では、再推定式は、次式のように
簡略化される。
[0038] Here, c (s i1 ... s in , S) indicates the number of occurrences of the combination of a plurality of phrases s i1 ... s in the segmentation S. The re-estimation equation of equation (15) is described in detail later for the bi-multigram (n = 2), by using a forward backward algorithm (forward backward algorithm).
algorithm) (hereinafter also referred to as the FB method). In a decision-oriented method, the re-estimation equation is simplified as:

【0039】[0039]

【数16】p(k+1)(sin…sin-1)={c(si1…s
in-1in,S*(k))}/{c(si1…sin-1
*(k))}
## EQU16 ## p (k + 1) (s in ... S in-1 ) = {c (s i1 .
in-1 s in , S * (k) )} /} c (s i1 ... s in-1 ,
S * (k) )}

【0040】ここで、S*(k)は、L(k)(S|W)を最大
化する文の解析結果であり、ビタビ(Viterbi)アルゴ
リズムによって導かれる。各反復は、尤度L(k)(W)
を増大させる意味において言語モデルを改善し、最終的
には臨界点(おそらくは、局所最大値)へ収束する。モ
デルパラメータΘのセットは、学習用コーパス、すなわ
ち学習用テキストデータにおいて観察されるすべてのフ
レーズの組み合わせの相対的頻度を用いて初期化され
る。
Here, S * (k) is an analysis result of a sentence that maximizes L (k) (S | W), and is derived by the Viterbi algorithm. Each iteration has a likelihood L (k) (W)
Improve the language model in the sense of increasing and eventually converge to a critical point (perhaps a local maximum). The set of model parameters Θ is initialized using the learning corpus, ie, the relative frequency of all phrase combinations observed in the training text data.

【0041】次いで、可変長フレーズのクラスタリング
(分類処理)について説明する。従来技術文献1によれ
ば、近年、クラス−フレーズに基づくモデルが注目され
ているが、通常、それは従来の単語クラスタリングを仮
定している。典型的には、各単語はまず、単語が属する
クラスのラベルCkを割り当てられ、単語−クラスラベ
ルの可変長フレーズ[Ck1,Ck2…Ckn]が導かれる。
各可変長フレーズによって、“<[Ck1,Ck2…Ckn
>”として示されるフレーズが属するクラスのラベルが
定義される。しかしながら、この手法では、同じ長さの
フレーズのみにしか同じフレーズ−クラスラベルを割り
当てることができない。例えば、”thank you for”
と”thank you very much for”というフレーズを同じ
クラスラベルに割り当てることができない。本実施形態
では、このような限界に対する解決法として、単語に代
わり直接フレーズをクラスタリングする方法を提案す
る。この目的を達成するためには、2個のフレーズ間の
バイグラムの相関(nmax=2)を仮定し、上述したバ
イ−マルチグラムモデルの学習手法に変更を加え、各反
復が次の2つの段階より構成されるようにする。
Next, clustering of variable-length phrases (classification processing) will be described. According to the prior art document 1, a model based on class-phrases has recently attracted attention, but it usually assumes conventional word clustering. Typically, each word is first assigned the label C k of the class to which the word belongs, and a variable-length phrase [C k1 , C k2 ... C kn ] of the word-class label is derived.
By each variable length phrase, “<[C k1 , C k2 ... C kn ]
The label of the class to which the phrase denoted as >> is defined. However, with this approach, only phrases of the same length can be assigned the same phrase-class label. For example, "thank you for"
And the phrase "thank you very much for" cannot be assigned to the same class label. In the present embodiment, as a solution to such a limitation, a method of directly clustering phrases instead of words is proposed. To this end, assuming a bigram correlation (n max = 2) between the two phrases, and modifying the bi-multigram model learning method described above, each iteration has the following two Be composed of stages.

【0042】(I)ステップSS1:クラス割り当て
(図3のステップS3に対応する。)
(I) Step SS1: Class assignment (corresponding to step S3 in FIG. 3)

【数17】{p(k)(sj|si)}→{p(k)(Ck(sj)
|Ck(sj)),p(k)(sj|Ck(sj))} (II)ステップSS2:マルチグラムの再推定(図3
のステップS4に対応する。)
[Equation 17] {p (k) (s j | s i )} → {p (k) (C k (sj)
| C k (sj) ), p (k) (s j | C k (sj) )} (II) Step SS2: Re-estimation of multigram (FIG. 3
Corresponds to step S4. )

【数18】{p(k)(Ck(sj)|Ck(si)),p(k)(sj
|Ck(sj))}→{p(k+1)(sj|si)}
18p (k) (C k (sj) | C k (si) ), p (k) (s j
| C k (sj) )} → {p (k + 1) (s j | s i )}

【0043】上記ステップSS1では、フレーズバイグ
ラムの頻度確率を入力とし、クラスバイグラムの頻度確
率を出力する。クラス割り当ては、例えば、従来技術文
献5「P. F. Brown et al., ”Class-based n-gram mod
els of natural language”,Computational Linguistic
s, Vol.18,No.4,pp.467-479,1992」によれば、隣り合う
フレーズ間の相関情報を最大化することによって行われ
る。ここで、クラスタリングの候補は単語ではなくフレ
ーズとする。上述のように、{p(0)(sj|si)}
は、学習用テキストデータにおけるフレーズの同時出現
の相対的頻度を用いて初期化される。上記ステップSS
2では、マルチグラムの再推定式(数15)又はその近
似式(数16)を用いてフレーズの頻度確率を再推定す
る。ここで、唯一の違いは、解析結果の尤度は以下の式
により計算される。
In step SS1, the frequency probability of the phrase bigram is input and the frequency probability of the class bigram is output. The class assignment is performed, for example, according to the conventional technique 5 “PF Brown et al.,” “Class-based n-gram mod.
els of natural language ”, Computational Linguistic
s, Vol. 18, No. 4, pp. 467-479, 1992 ", this is performed by maximizing correlation information between adjacent phrases. Here, the clustering candidates are not words but phrases. As described above, {p (0) (s j | s i )}
Is initialized using the relative frequency of simultaneous appearance of phrases in the learning text data. The above step SS
In step 2, the phrase frequency probability is re-estimated using the multigram re-estimation equation (Equation 15) or its approximate equation (Equation 16). Here, the only difference is that the likelihood of the analysis result is calculated by the following equation.

【0044】[0044]

【数19】 [Equation 19]

【0045】これは、上述したように、頻度確率p(k)
(sj|si)に対する処理と同様に、頻度確率p
(k)(Ck(sj)|Ck(si))×p(k)(sj|Ck(sj))に基
づいて頻度確率p(k+1)(sj|si)を再推定すること
に等しい。
This is, as described above, the frequency probability p (k)
(S j | s i ), the frequency probability p
(k) The frequency probability p (k + 1) (s j | s i ) is calculated based on (C k (sj) | C k (si) ) × p (k) (s j | C k (sj) ). Equivalent to re-estimation.

【0046】要約すれば、上記ステップSS1によっ
て、現在のフレーズ分布に関し、相互情報量の基準に基
づくクラス割り当てが最適化されるよう保証され、上記
ステップSS2によって、現在のクラスの頻度確率を用
いて、上記数19に従って、計算された尤度がフレーズ
の頻度確率により最適化されるよう保証される。学習デ
ータは、従って、完全に統合化された方法により連合的
(paradigmatic)かつ統合的(syntagmatic)(それぞ
れ言語学の用語である。)レベルの双方において反復的
に構成される。すなわち、クラス割り当てにより表現さ
れるフレーズ間の連合的関係はフレーズの頻度確率の再
推定に影響を与え、フレーズの頻度確率は後続するクラ
ス割り当てを決定する。
In summary, the above-mentioned step SS1 guarantees that the class assignment based on the mutual information criterion is optimized with respect to the current phrase distribution, and the above-mentioned step SS2 uses the frequency probabilities of the current class. According to Equation 19 above, it is ensured that the calculated likelihood is optimized by the frequency probability of the phrase. The training data is thus constructed iteratively at both a paradigmatic and a syntagmatic (each a linguistic term) level in a completely integrated manner. That is, the associative relationship between phrases represented by class assignments affects the re-estimation of phrase frequency probabilities, and the phrase frequency probabilities determine subsequent class assignments.

【0047】本実施形態では、上述のように、バイ−マ
ルチグラムのパラメータの推定のために、フォワード・
バックワードアルゴリズム(FB法)を用いる。これに
ついて、以下に、詳述する。
In the present embodiment, as described above, the forward and
The backward algorithm (FB method) is used. This will be described in detail below.

【0048】上記数15は、フォワード・バックワード
アルゴリズムを用いて、nmaxをシーケンスの最大長と
し、Tをコーパス(学習用テキストデータ)の語数とし
て、複雑さの度合いであるコンプレキシティO(nmax 2
T)で計算することができる。ここで、コンプレキシテ
ィO(nmax 2T)は計算コストのオーダーに対応する。
すなわち、当該数15の計算コストは、シーケンスの最
大長nmaxの2乗に比例し、コーパスの語数に比例す
る。本実施形態においては、基本的には、セグメント化
{S}のセットではなく、単語のタイムインデックス
(t)にわたって加算を行い、数15の分子及び分母を
計算する。ここで、当該計算は、次式の前方向の変数α
(t,li)及び後ろ方向の変数β(t,lj)の定義に
依存する。
The above equation (15) uses the forward / backward algorithm, where n max is the maximum length of the sequence and T is the number of words in the corpus (learning text data). n max 2
T). Here, the complexity O (n max 2 T) corresponds to the order of the calculation cost.
That is, the calculation cost of Equation 15 is proportional to the square of the maximum length n max of the sequence, and is proportional to the number of words in the corpus. In this embodiment, basically, the addition is performed over the time index (t) of the word, not the set of segmentation {S}, and the numerator and denominator of Expression 15 are calculated. Here, the calculation is based on the forward variable α in the following equation.
(T, l i ) and the backward variable β (t, l j ).

【0049】[0049]

【数20】 α(t,li)=L(W(1) (t-li)
[W(t-li+1) (t)])
Α (t, l i ) = L (W (1) (t-li) |
[W (t-li + 1) (t) ])

【数21】 β(t,lj)=L(W(t+1) (T)|[W(t-lj+1) (t)])Β (t, l j ) = L (W (t + 1) (T) | [W (t−lj + 1) (t) ])

【0050】前方向の変数α(t,li)は、最初のt
個の単語の尤度を表し、ここで、最後のli個の単語は、
1つのシーケンスを形成するように制限される。また、
後ろ方向の変数β(t,lj)は、最後の(T−t)個
の語の条件付き尤度を示し、最後の(T−t)個の単語
は、シーケンス[w(t-lj+1)…w(t)]に後続する。こ
こで、例えば、W(1) (t-li)は、時刻インデックス
(1)から(t−li)までの単語からなる単語列を表
す。そして、解析結果の尤度は、数7によって計算され
ると仮定すると、数15は次式のように書き換えられ
る。
The forward variable α (t, l i ) is the first t
Represents the likelihood of the words, where the last l i words are
Limited to form one sequence. Also,
The backward variable β (t, l j ) indicates the conditional likelihood of the last (Tt) words, and the last (Tt) words are the sequence [w (t-lj +1) ... W (t) ]. Here, for example, W (1) (t-li) represents a word sequence composed of words from the time index (1) to (t-l i). Then, assuming that the likelihood of the analysis result is calculated by Expression 7, Expression 15 is rewritten as the following expression.

【0051】[0051]

【数22】p(k+1)(sj|si)=pc/pd ここで、P (k + 1) (s j | s i ) = p c / p d where:

【数23】 (Equation 23)

【数24】 (Equation 24)

【0052】ここで、li及びljはそれぞれシーケンス
i及びsjの長さを示す。クロネッカー関数δk(t)
は、時刻インデックスtで開始する単語のシーケンスが
kであるときは1となる一方、そうでない場合は0と
なる関数である。また、変数α及びβは以下の反復式
(又は帰納式)によって計算できる。ここで、時刻イン
デックスt=0及びt=T+1においてそれぞれ開始及
び終了シンボルを仮定する。
Here, l i and l j indicate the lengths of the sequences s i and s j , respectively. Kronecker function δ k (t)
When the sequence of words that started at time index t is s k whereas a 1, a 0 to become function otherwise. The variables α and β can be calculated by the following iterative formula (or induction formula). Here, start and end symbols are assumed at time indices t = 0 and t = T + 1, respectively.

【0053】1≦t≦T+1に対して:For 1 ≦ t ≦ T + 1:

【数25】 ここで、(Equation 25) here,

【数26】α(0,1)=1,α(0,2)=…=α
(0,nmax)=0 である。
Α (0,1) = 1, α (0,2) =... = Α
(0, n max ) = 0.

【0054】0≦t≦Tに対して:For 0 ≦ t ≦ T:

【数27】 ここで、[Equation 27] here,

【数28】β(T+1,1)=1,β(T+1,2)=
…=β(T+1,nmax)=0 である。
(28) β (T + 1,1) = 1, β (T + 1,2) =
.. = Β (T + 1, n max ) = 0.

【0055】解析結果の尤度がクラスの仮定を用いて計
算される場合、すなわち、数19に従って計算される場
合は、再推定式(数22−数24)の項p(k)(sj|s
i)はそのクラスの等価物、すなわちp(k)(Ck(sj)
k(si))p(k)(sj|Ck(sj))に置き換えられる。α
の反復式において、項p([W(t-li+1) (t)]|[W
(t-li-l+1) (t-li)])は、シーケンス
[W(t-li+1) (t)]のクラスの条件付き確率を乗算した
対応するクラスのバイグラム確率に置き換えられる。同
様の変形を反復式における変数βについても行う。
When the likelihood of the analysis result is calculated using the class assumption, that is, when it is calculated according to Equation 19, the term p (k) (s j ) in the re-estimation equation (Equation 22-Equation 24) | S
i ) is the equivalent of that class, ie p (k) (C k (sj) |
C k (si) ) p (k) (s j | C k (sj) ). α
In the iterative expression, the term p ([W (t-li + 1) (t) ] | [W
(t-li-l + 1) (t-li) ]) is replaced by the corresponding class bigram probability multiplied by the conditional probability of the class of the sequence [W (t-li + 1) (t) ]. . The same modification is performed for the variable β in the iterative equation.

【0056】次いで、本実施形態におけるフォワード・
バックワードアルゴリズムを用いた再推定処理につい
て、一例を参照して、以下に詳述する。前方向及び後ろ
方向(以下、前後方向という。)の再推定処理は、数2
2の分子の加算、及び分母の加算が、可能な解析結果集
合{S}に代わって、学習データにおける単位の時刻イ
ンデックスtについて計算されるように、数15におけ
る複数の項を配列し直して行う。この方法は、前方向の
変数α及び後ろ方向の変数βの定義に依存している。 (a)下記のパラグラフ<<A1>>では、クラスのな
いことを仮定している。 (b)下記のパラグラフ<<A1.1>>では、変数α
及びβを定義し、例を提供する。 (c)下記のパラグラフ<<A1.2>>では、変数α
及びβを使用した頻度確率に関する前後方向の再推定に
ついて例示する。 (d)下記のパラグラフ<<A1.3>>では、反復
(又は帰納)による変数αとβの計算方法に関して例示
する。 (e)下記のパラグラフ<<A2>>では、クラスが存
在する場合のパラグラフ<<A1.2>>及び<<A
1.3>>の修正方法を示す。 (f)下記の例はすべて、次の表に示すデータに基づい
ている。
Next, in the present embodiment, the forward
The re-estimation process using the backward algorithm will be described in detail below with reference to an example. The re-estimation process in the forward direction and the backward direction (hereinafter, referred to as the front-back direction) is represented by Equation 2
Rearrange the multiple terms in Equation 15 so that the addition of the numerator of 2 and the addition of the denominator are calculated for the time index t of the unit in the learning data, instead of the possible analysis result set {S}. Do. This method relies on the definition of the forward variable α and the backward variable β. (A) In the following paragraph << A1 >>, it is assumed that there is no class. (B) In the following paragraph << A1.1 >>, the variable α
And β are defined and examples are provided. (C) In the following paragraph << A1.2 >>, the variable α
The following describes an example of re-estimation in the front-rear direction with respect to the frequency probability using. (D) In the following paragraph << A1.3 >>, an example is given of a method of calculating the variables α and β by iteration (or induction). (E) In the following paragraph << A2 >>, the paragraphs << A1.2 >> and << A
1.3 shows a correction method. (F) All the examples below are based on the data shown in the following table.

【0057】[0057]

【表1】 ――――――――――――――――――――――――――――――――――― 入力学習データ(下記): o n e s i x o n e e i g h t s i x t h r e e t w o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 単位の時刻インデックス(上記): ――――――――――――――――――――――――――――――――――― (注)学習データの1つの文字は、1つの時刻インデックスに対応している。[Table 1] ――――――――――――――――――――――――――――――――― Input training data (below): onesixoneeightsixthre etwo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Time index (unit above): ――――――――――――――――――― ―――――――――――――――― (Note) One character of the learning data corresponds to one time index.

【0058】<<A1.1>>前方向の変数α及び後ろ
方向の変数βの定義 変数α(t,l)は、長さlのシーケンスで終了する、
時刻インデックス(t)までのデータの尤度である。例
えば、変数α(9,3)は、シーケンス「o ne s i x o
_n_e」の尤度である。また、変数β(t,l)は、長さ
lのシーケンスが時刻インデックス(t)で終了すると
いうことが知られているときに、時刻インデックス(t
+1)で開始されるデータの条件つき尤度である。例え
ば、変数β(9,3)は、先行するシーケンスが「o_n_
e」であるときの、シーケンス「e i g h t s i x t h r
e e tw o」の尤度である。反復又は帰納による変数α
及びβの計算方法に関する例を、下記のパラグラフ<<
A1.3>>に示す。
<< A1.1 >> Definition of Forward Variable α and Backward Variable β Variable α (t, l) ends with a sequence of length l.
This is the likelihood of the data up to the time index (t). For example, the variable α (9,3) corresponds to the sequence “o ne sixo
_n_e ”. Also, the variable β (t, l) indicates that when the sequence of length l is known to end at the time index (t), the time index (t
+1) is the conditional likelihood of the data starting at +1). For example, for the variable β (9,3), the preceding sequence is “o_n_
e ", the sequence" eightsixthr
ee tw o ”. Variable α by iteration or induction
Examples of how to calculate and β are given in the following paragraphs <<
A1.3 >>.

【0059】<<A1.2>>変数α及びβに基づく確
率の再推定 例として、上記の学習データ例に関する、変数α及びβ
を使用した頻度確率p(o_n_e|s_i_x)の再推定式を示
す。頻度確率p(o_n_e|s_i_x)の一般的な再推定式
(数15))は次のような意味を持つ。 (a)分子は、学習データにおいてシーケンス「o_n_
e」がシーケンス「s_i_x」に続く平均回数である。 (b)分母は、学習データにおいてシーケンス「s_i_
x」が発生する平均回数である。 (c)ここで、平均回数の値は、学習データのシーケン
スにおけるすべての可能な解析結果について求める。
<< A1.2 >> Re-estimation of Probability Based on Variables α and β As an example, the variables α and β
Is a formula for re-estimating the frequency probability p (o_n_e | s_i_x) using The general re-estimation formula (Equation 15) for the frequency probability p (o_n_e | s_i_x) has the following meaning. (A) The numerator is the sequence “o_n_
"e" is the average number of times following the sequence "s_i_x". (B) The denominator uses the sequence “s_i_
"x" is the average number of occurrences. (C) Here, the value of the average number is determined for all possible analysis results in the sequence of the learning data.

【0060】フォワード・バックワードアルゴリズムを
用いた再推定式(数22−24)の分子(数23)及び
分母(数24)はそれぞれ、数15の分子及び分母に等
しいが、これらは解析結果集合にわたる加算ではなく、
時刻インデックスにわたる加算によって計算したもので
ある。再推定式(数15)の分子では、「s_i_x」と「o
_n_e」の2個のシーケンスが連続して発生する毎に、各
可能な解析結果の尤度が加算される。一方、フォワード
・バックワードアルゴリズムを用いた再推定式(数22
−数24)においては、「s_i_x」と「o_n_e」の2個の
シーケンスが連続して発生し、また、シーケンス「o_n_
e」が時刻インデックス(t+1)で開始するようなす
べての解析結果の尤度値をまずグループ化して、加算す
る。時刻インデックスtまで加算した時点で加算計算は
完了する。
The numerator (Equation 23) and the denominator (Equation 24) of the re-estimation equation (Equation 22-24) using the forward / backward algorithm are equal to the numerator and the denominator of Equation 15, respectively. Rather than addition over
It is calculated by addition over a time index. In the numerator of the re-estimation equation (Equation 15), “s_i_x” and “o
Each time two sequences of “_n_e” occur consecutively, the likelihood of each possible analysis result is added. On the other hand, a re-estimation formula using the forward / backward algorithm (Equation 22)
In (Equation 24), two sequences of “s_i_x” and “o_n_e” continuously occur, and the sequence “o_n_e”
First, likelihood values of all analysis results such that “e” starts at the time index (t + 1) are grouped and added. The addition calculation is completed when the addition is performed up to the time index t.

【0061】上記の例では、「s_i_x」と「o_n_e」の2
個のシーケンスが連続して発生し、しかもシーケンス
「o_n_e」が時刻インデックス(7)でのみ開始してい
る。ここで、「s_i_x」と「o_n_e」の2個のシーケンス
が連続して発生し、また、時刻インデックス(7)でシ
ーケンス「o_n_e」が開始するようなすべての解析結果
の尤度値の和は、シーケンス「o n e s_i_x o_n_e e i
g h t s i x t h r e et w o」の尤度であり、これは、
次式に等しい。
In the above example, “s_i_x” and “o_n_e”
Sequences occur consecutively, and the sequence “o_n_e” starts only at the time index (7). Here, two sequences of “s_i_x” and “o_n_e” continuously occur, and the sum of likelihood values of all analysis results such that the sequence “o_n_e” starts at the time index (7) is , The sequence "one s_i_x o_n_e ei
ghtsixthre et wo ", which is
It is equal to:

【数29】 (Equation 29)

【0062】ここで、第2項のp(o_n_e|s_i_x)は、
反復回数パラメータ(k)における頻度確率である。ま
た、前方向の変数αの定義により、変数α(6,3)は
シーケンス「o n e s_i_x」の尤度であり、さらに、後
ろ方向の変数βの定義により、変数β(9,3)は、シ
ーケンス「o_n_e」が得られたときの、シーケンス「ei
g h t s i x t h r e e t w o」の尤度である。
Here, p (o_n_e | s_i_x) of the second term is
This is the frequency probability in the number of iterations parameter (k). According to the definition of the variable α in the forward direction, the variable α (6, 3) is the likelihood of the sequence “one s_i_x”. Further, according to the definition of the variable β in the backward direction, the variable β (9, 3) becomes When the sequence “o_n_e” is obtained, the sequence “ei
ghtsixthreetwo ”.

【0063】数15の分母では、可能な各解析結果の尤
度を、シーケンス「s_i_x」がこの解析において発生す
るのと同じ回数で加算する。等価である、フォワード・
バックワードアルゴリズムを用いた前後方向の定式化で
は、シーケンス「s_i_x」が発生し、時刻インデックス
(t)で終了するすべての全解析結果の尤度値をまずグ
ループ化した後に加算し、時刻インデックスtを越えた
時点で加算を終了する。
In the denominator of equation 15, the likelihood of each possible analysis result is added the same number of times as the sequence "s_i_x" occurs in this analysis. Equivalent, forward
In the forward-backward formulation using the backward algorithm, a sequence “s_i_x” is generated, the likelihood values of all analysis results ending at the time index (t) are first grouped, and then added, and the time index t The addition ends when the value exceeds.

【0064】上述の例では、シーケンス「s_i_x」は、
時刻インデックス(6)と時刻インデックス(17)で
終了するように発生している。シーケンス「s_i_x」が
時刻インデックス(6)で終了するように発生するすべ
ての解析結果の尤度値の加算は、シーケンス「o n e s_
i_x o_n_e e i g h t s i x t h r e e t w o」の尤度
であり、これは次式に等しい。
In the above example, the sequence “s_i_x” is
It is generated to end at the time index (6) and the time index (17). The addition of the likelihood values of all the analysis results that occur so that the sequence “s_i_x” ends at the time index (6) is the sequence “one s_
i_x o_n_e eightsixthreetwo ”, which is equal to:

【0065】[0065]

【数30】 [Equation 30]

【0066】ここで、前方向の変数αの定義により、変
数α(6,3)はシーケンス「o ne s_i_x」の尤度であ
り、後ろ方向の変数βの定義により、変数β(9,3)
は、シーケンス「o_n_e」が与えられたときの、シーケ
ンス「e i g h t s i x t hr e e t w o」の尤度であ
る。
Here, according to the definition of the forward variable α, the variable α (6, 3) is the likelihood of the sequence “ones_i_x”, and according to the definition of the backward variable β, the variable β (9, 3) )
Is the likelihood of the sequence “eightsixt hr eetwo” when the sequence “o_n_e” is given.

【0067】次いで、時刻インデックス(17)におい
てシーケンス「s_i_x」が終了するすべての解析結果の
尤度値の加算は、シーケンス「o n e s i x o n e e i
g ht s_i_x t_h_r_e_e t w o」の尤度であり、これは次
式に等しい。
Next, at the time index (17), the addition of the likelihood values of all the analysis results at which the sequence “s_i_x” ends is determined by the sequence “onesixoneei”.
g ht s_i_x t_h_r_e_e two ”, which is equal to the following equation.

【0068】[0068]

【数31】 (Equation 31)

【0069】ここで、前方向の変数αの定義により、変
数α(17,3)はシーケンス「on e s i x o n e e i
g h t s_i_x」の尤度であり、後ろ方向の変数βの定義
により、変数β(22,5)は、シーケンス「t_h_r_e_
e」が与えられたときの、シーケンス「t w o」の尤度で
ある。
Here, according to the definition of the variable α in the forward direction, the variable α (17, 3) is changed to the sequence “on esixoneei
ght s_i_x ”, and according to the definition of the variable β in the backward direction, the variable β (22, 5) corresponds to the sequence“ t_h_r_e_x ”.
The likelihood of the sequence "two" given "e".

【0070】従って、「o n e s i x o n e e i g h t
s i x t h r e e t w o」なる学習データにおける、反
復回数パラメータ(k+1)における頻度確率p(o_n_e
│s_i_x)に対する、フォワード・バックワードアルゴリ
ズムを用いた再推定式は次式のようになる。
Therefore, "onesixoneeight
In the learning data "sixthreetwo", the frequency probability p (o_n_e
| S_i_x) is given by the following equation using the forward / backward algorithm.

【0071】[0071]

【数32】 ここで、(Equation 32) here,

【数33】 [Equation 33]

【数34】 (Equation 34)

【0072】以上説明したように、本発明の実施形態に
おける特徴は、フォワード・バックワードアルゴリズム
を用いて、数23及び数24を含む数22を定式化した
ことにあるが、当該特徴とする数式は、以下の意味を有
する。当該式は、入力データにおいて、当該単位列であ
る第2の単位列が第1の単位列に続くときの単位列のシ
ーケンス間のバイグラムの頻度確率を、上記入力データ
における処理対象の各単位列に対して計算するための式
であり、上記シーケンス間のバイグラムの頻度確率は、
第1と第2の単位列を含むすべてのセグメント化での尤
度の和を、第1の単位列を含むすべてのセグメント化で
の尤度の和で除算することによって得られる。また、上
記式は、上記入力データにおいて各単位列が発生する平
均回数を示す分母と、上記入力データにおいて第2の単
位列が第1の単位列に続くときの各単位列に対する平均
回数を示す分子とを有し、上記分子は、処理対象の各単
位列に対する、上記前方尤度と、当該単位列の直前の単
位列を条件としたときの当該単位列の頻度確率と、上記
後方尤度の積の和であり、上記分母は、処理対象の各単
位列に対する、上記前方尤度と、当該単位列の直前の単
位列を条件としたときのすべての単位列の頻度確率と、
上記後方尤度の積の和である。
As described above, the feature of the embodiment of the present invention is that Formula 22 including Formula 23 and Formula 24 is formulated using the forward-backward algorithm. Has the following meaning. The expression is used to calculate the frequency of the bigram between the sequences of unit columns when the second unit column, which is the unit column, follows the first unit column in the input data, and the processing target unit columns in the input data. Where the frequency probability of a bigram between the above sequences is
It is obtained by dividing the sum of the likelihoods in all the segmentations including the first and second unit strings by the sum of the likelihoods in all the segmentations including the first unit string. Further, the above expression shows a denominator indicating the average number of times each unit column occurs in the input data, and an average number of times for each unit column when the second unit column follows the first unit column in the input data. A numerator, the numerator is the forward likelihood for each unit sequence to be processed, the frequency probability of the unit sequence when a unit sequence immediately before the unit sequence is a condition, and the backward likelihood Where the denominator is the forward likelihood for each unit sequence to be processed, the frequency probabilities of all unit sequences on the condition of the unit sequence immediately before the unit sequence,
This is the sum of the products of the backward likelihood.

【0073】<<A1.3>>前方向の変数αと後ろ方
向の変数βの計算例 例として、データ「o n e s i x o n e e i g h t s i
x t h r e e t w o」について変数α(9,3)と変数
β(9,3)を以下に計算する。ここで、変数α(9,
3)は、シーケンス「o n e s i x o_n_e」の尤度であ
り、このシーケンスは、時刻インデックス9までのシー
ケンスであって、最後尾において長さ3のシーケンスを
有する。また、変数β(9,3)は、シーケンス「o_n_
e」が与えられたときの、シーケンス「e i g h t s i x
t h r e e t w o」の条件つき尤度であり、このシーケ
ンスは、時刻インデックス9以降のシーケンスであっ
て、先行するシーケンス”o_n_e”は予め知られてい
る。
<< A1.3 >> Calculation Example of Forward Variable α and Backward Variable β As an example, the data “onesixoneeightsi
The variable α (9,3) and the variable β (9,3) for “xthreetwo” are calculated below. Here, the variable α (9,
3) is the likelihood of the sequence “onesix o_n_e”, which is the sequence up to the time index 9 and has a length 3 sequence at the end. Further, the variable β (9, 3) corresponds to the sequence “o_n_
sequence "eightsix" given "e"
This sequence is a conditional likelihood of "threetwo", and this sequence is a sequence after time index 9, and the preceding sequence "o_n_e" is known in advance.

【0074】シーケンス”o_n_e”までの尤度(前方の
変数)α(9,3)は、次式で計算される。なお、シー
ケンス(系列)の長さの最大値を”5”に指定した場合
について考える。
The likelihood (forward variable) α (9, 3) up to the sequence “o_n_e” is calculated by the following equation. It is assumed that the maximum value of the length of a sequence is set to “5”.

【数35】α(9,3)=下記の加算値 (a)n_e_s_i_xについて:α(6,5)×p(o_n_e|
n_e_s_i_x) (b)e_s_i_xについて:α(6,4)×p(o_n_e|e_
s_i_x) (c)s_i_xについて:α(6,3)×p(o_n_e|s_i_
x) (d)i_xについて:α(6,2)×p(o_n_e|i_x) (e)xについて:α(6,1)×p(o_n_e|x)
Α (9,3) = added value below (a) For n_e_s_i_x: α (6,5) × p (o_n_e |
n_e_s_i_x) (b) Regarding e_s_i_x: α (6,4) × p (o_n_e | e_
s_i_x) (c) Regarding s_i_x: α (6,3) × p (o_n_e | s_i_
x) (d) For i_x: α (6,2) × p (o_n_e | i_x) (e) For x: α (6,1) × p (o_n_e | x)

【0075】シーケンス”o_n_e”の条件のもとでのそ
の後方の尤度(後方の変数)β(9,3)は、次式で計
算される。
The backward likelihood (backward variable) β (9, 3) under the condition of the sequence “o_n_e” is calculated by the following equation.

【数36】β(9,3)=下記の加算値 (a)e_i_g_h_tについて:p(e_i_g_h_t|o_n_e)×
β(9+5,5)(b)e_i_g_hについて:p(e_i_g_h
|o_n_e)×β(9+4,4)(c)e_i_gについて:p
(e_i_g|o_n_e)×β(9+3,3)(d)e_iについ
て:p(e_i|o_n_e)×β(9+2,2) (e)eについて:p(e|o_n_e)×β(9+1,1)
(36) β (9,3) = added value below (a) For e_i_g_h_t: p (e_i_g_h_t | o_n_e) ×
β (9 + 5,5) (b) For e_i_g_h: p (e_i_g_h
| O_n_e) × β (9 + 4,4) (c) For e_i_g: p
(E_i_g | o_n_e) × β (9 + 3, 3) (d) For e_i: p (e_i | o_n_e) × β (9 + 2, 2) (e) For e: p (e | o_n_e) × β (9 + 1, 1)

【0076】<<A2>>クラスの事例 シーケンスがクラスに属するケースでは、上述の例のバ
イグラムの確率部分を、以下のように置き換えることに
よって変数α,βが計算される。 (a)p(o_n_e|n_e_s_i_x)は、p(class of o_n_e
|class of n_e_s_i_x)×p(o_n_e|class of o_n_
e)と取って換えられる。 (b)p(o_n_e|e_s_i_x)は、p(class of o_n_e
| class of e_s_i_x)×p(o_n_e|class of o_n_
e)と取って換えられる。(c)p(o_n_e|s_i_x)
は、p(class of o_n_e|class of s_i_x)×p(o_n_
e|class of o_n_e)と取って換えられる。 (d)p(o_n_e|i_x)は、p(class of o_n_e|clas
s of i_x)×p(o_n_e|class of o_n_e)と取って換
えられる。 (e)p(o_n_e|x)は、p(class of o_n_e|class
of x)×p(o_n_e|class of o_n_e)と取って換えら
れる。 (f)p(e_i_g_h_t|o_n_e)は、p(class of e_i_g
_h_t|class of o_n_e)×p(e_i_g_h_t|class of e_
i_g_h_t)と取って換えられる。 (g)p(e_i_g_h|o_n_e)は、p(class of e_i_g_h
|class of o_n_e)×p(e_i_g_h|class of e_i_g_
h)と取って換えられる。 (h)p(e_i_g|o_n_e)は、p(class of e_i_g|cl
ass of o_n_e)×p(e_i_g|class of e_i_g)と取っ
て換えられる。 (i)p(e_i|o_n_e)は、p(class of e_i|class
of o_n_e)×p(e_i|class of e_i)と取って換えら
れる。 (j)p(e|o_n_e)は、p(class of e|class of o
_n_e)×p(e|class of e)と取って換えられる。
<< A2 >> Class Case In the case where a sequence belongs to a class, variables α and β are calculated by replacing the probability part of the bigram in the above example as follows. (A) p (o_n_e | n_e_s_i_x) is p (class of o_n_e
| Class of n_e_s_i_x) × p (o_n_e | class of o_n_
Replaced with e). (B) p (o_n_e | e_s_i_x) is p (class of o_n_e
| Class of e_s_i_x) x p (o_n_e | class of o_n_
Replaced with e). (C) p (o_n_e | s_i_x)
Is p (class of o_n_e | class of s_i_x) × p (o_n_
e | class of o_n_e). (D) p (o_n_e | i_x) is p (class of o_n_e | clas
s of i_x) × p (o_n_e | class of o_n_e). (E) p (o_n_e | x) is p (class of o_n_e | class
of x) × p (o_n_e | class of o_n_e). (F) p (e_i_g_h_t | o_n_e) is p (class of e_i_g
_h_t | class of o_n_e) × p (e_i_g_h_t | class of e_
i_g_h_t). (G) p (e_i_g_h | o_n_e) is p (class of e_i_g_h)
| Class of o_n_e) × p (e_i_g_h | class of e_i_g_
Replaced with h). (H) p (e_i_g | o_n_e) is p (class of e_i_g | cl
ass of o_n_e) × p (e_i_g | class of e_i_g). (I) p (e_i | o_n_e) is p (class of e_i | class
of o_n_e) × p (e_i | class of e_i). (J) p (e | o_n_e) is p (class of e | class of o
_n_e) × p (e | class of e).

【0077】<統計的言語モデル生成処理>図3は、図
1の統計的言語モデル生成部20によって実行される統
計的言語モデル生成処理を示すフローチャートである。
ここで、統計的言語モデル生成部20は、図1に示すよ
うに、次のメモリ31乃至36に区分されたワーキング
RAM30を備える。 (a)パラメータメモリ31:当該生成処理で用いる種
々の設定パラメータを記憶するメモリである。 (b)シーケンス頻度確率メモリ32:計算された各シ
ーケンスの頻度確率を記憶するメモリである。 (c)クラス定義メモリ33:推定された各クラスに属
する文字列を記憶するメモリである。 (d)クラス条件付き頻度確率メモリ34:推定された
各クラスに属する各文字列に対する頻度確率、すなわ
ち、クラスの条件付きのクラス間の文字列の頻度確率を
記憶するメモリである。 (e)クラスバイグラム頻度確率メモリ35:クラスの
バイグラムの頻度確率を記憶するメモリである。 (f)セグメント化されたシーケンスメモリ36:再推
定処理後のセグメント化されたシーケンス(文字列)を
記憶するメモリである。
<Statistical Language Model Generation Processing> FIG. 3 is a flowchart showing the statistical language model generation processing executed by the statistical language model generation unit 20 of FIG.
Here, the statistical language model generation unit 20 includes a working RAM 30 divided into the following memories 31 to 36, as shown in FIG. (A) Parameter memory 31: A memory for storing various setting parameters used in the generation processing. (B) Sequence frequency probability memory 32: A memory for storing the calculated frequency probability of each sequence. (C) Class definition memory 33: a memory for storing character strings belonging to each estimated class. (D) Class conditional frequency probability memory 34: A memory for storing the estimated frequency probability for each character string belonging to each class, that is, the frequency probability of a character string between class conditional classes. (E) Class bigram frequency probability memory 35: A memory that stores the frequency probability of a bigram of a class. (F) Segmented sequence memory 36: A memory for storing a segmented sequence (character string) after the re-estimation processing.

【0078】図3において、まず、ステップS1では、
学習用テキストデータメモリ21からテキストデータを
読み込む。ここで、入力される学習用テキストデータ
は、離散的な単位のシーケンスであり、ここで、単位と
は例えば、文字であり、シーケンスは単語又は文となり
得る文字列である。また、予め下記の入力パラメータが
設定されてパラメータメモリ31に記憶されている。 (a)シーケンスの最大長(単位の数で表す。)、
(b)再推定処理後のクラス数、(c)廃棄するシーケ
ンス数のしきい値(すなわち、廃棄するシーケンスの発
生数の最小値)、及び(d)終了条件。ここで、終了条
件は、例えば、反復回数kのしきい値である。
In FIG. 3, first, in step S1,
The text data is read from the learning text data memory 21. Here, the input learning text data is a sequence of discrete units, where the unit is, for example, a character, and the sequence is a character string that can be a word or a sentence. The following input parameters are set in advance and stored in the parameter memory 31. (A) the maximum length of the sequence (represented by the number of units),
(B) the number of classes after the re-estimation process; (c) a threshold value for the number of discarded sequences (that is, the minimum value of the number of occurrences of discarded sequences); and (d) termination conditions. Here, the termination condition is, for example, a threshold value of the number of repetitions k.

【0079】次いで、ステップS2で、初期化処理が実
行される。入力された学習用テキストデータにおいて、
複数の単位からなるシーケンスの相対的な頻度を計数し
て、それに基づいて各シーケンスの頻度確率を初期設定
する。また、上記設定された廃棄するシーケンス数のし
きい値以下のシーケンスについては廃棄する。そして、
反復回数パラメータkを0にリセットする。
Next, in step S2, an initialization process is executed. In the input training text data,
The relative frequency of the sequence consisting of a plurality of units is counted, and the frequency probability of each sequence is initialized based on the relative frequency. Also, a sequence that is equal to or less than the set threshold value of the number of sequences to be discarded is discarded. And
Reset the iteration number parameter k to zero.

【0080】次いで、ステップS3では、ブラウンアル
ゴリズムを用いた分類処理を実行する。この分類処理で
は、反復回数パラメータkのときの各シーケンスの頻度
確率に基づいて、クラス間の相互情報量の損失が最小と
なるように、反復回数パラメータkのときの、クラス定
義、クラス条件付きクラス間のシーケンスの頻度確率、
及びクラスバイグラムの頻度確率を計算してそれぞれメ
モリ32乃至35に出力して記憶する。この処理におけ
る分類基準は、隣接するシーケンス間の相互情報量であ
り、上述のアルゴリズムを用いる。これらの相互情報量
とアルゴリズムは、隣接する単語の場合に対して、ブラ
ウンによって提案されており、本実施形態では、ブラウ
ンアルゴリズムを用いる。しかしながら、本発明はこれ
に限らず、単位の頻度確率を基礎とする他の分類アルゴ
リズムを使用することができる。
Next, in step S3, a classification process using the Brownian algorithm is executed. In this classification processing, based on the frequency probability of each sequence at the time of the iteration number parameter k, the class definition and the class condition with the class number at the time of the iteration number parameter k are set so as to minimize the loss of mutual information between classes. Frequency probability of the sequence between classes,
And the frequency probability of the class bigram is calculated and output to and stored in the memories 32 to 35, respectively. The classification criterion in this process is the mutual information amount between adjacent sequences, and the above-described algorithm is used. These mutual information and algorithms are proposed by Brown for the case of adjacent words, and in this embodiment, the Brown algorithm is used. However, the invention is not so limited and other classification algorithms based on unit frequency probabilities can be used.

【0081】次いで、ステップS4において、フォワー
ド・バックワードアルゴリズムを参照して得られた数2
2−数24を用いて、バイ−マルチグラムを用いた再推
定処理を実行する。この処理では、直前のステップS3
で計算された、反復回数パラメータkのときの、クラス
定義、クラス条件付きクラス間のシーケンスの頻度確
率、及びクラスバイグラムの頻度確率に基づいて、次の
反復パラメータのときのシーケンス間のバイグラムの頻
度確率の最尤推定値を得るように、反復回数パラメータ
(k+1)のときの、各シーケンスの頻度確率を再推定
して計算して、メモリ32に出力して記憶する。この処
理における処理基準は、上記数22−数24を用いて、
すなわち、複数のシーケンスのクラスとバイグラムの依
存性を仮定して計算された解析結果の尤度の中の最大値
である最尤推定値を基準値として用いることであり、再
推定のためのアルゴリズムとしてEMアルゴリズムを用
いる。
Next, in step S4, the number 2 obtained by referring to the forward / backward algorithm
2—Re-estimation processing using bi-multigrams is performed using Equation 24. In this process, the immediately preceding step S3
Based on the class definition, the frequency probability of the sequence between classes with class conditions, and the frequency probability of the class bigram for the iteration number parameter k calculated in the above, the frequency of the bigram between the sequences for the next iteration parameter In order to obtain the maximum likelihood estimation value of the probability, the frequency probability of each sequence in the case of the number of iterations parameter (k + 1) is re-estimated and calculated, output to the memory 32, and stored. The processing criterion in this processing is expressed by using the above equations (22) to (24).
That is, the maximum likelihood estimation value that is the maximum value among the likelihoods of the analysis results calculated assuming the dependence of the classes of a plurality of sequences and the bigram is used as a reference value. EM algorithm is used.

【0082】次いで、ステップS5で、所定の終了条件
を満足するか否かが判断され、NOのときは、ステップ
S6で反復回数パラメータkを1だけインクリメントし
てステップS3及びS4の処理を繰り返す。一方、ステ
ップS5でYESであれば、生成された統計的言語モデ
ルのデータを統計的言語モデルメモリ22に出力して記
憶する。ここで、生成された統計的言語モデルのデータ
とは、各シーケンスの頻度確率に関するデータであり、
具体的には、下記のデータである。 (a)入力されたデータを複数のシーケンスにセグメン
ト化したときの最尤推定値を有する各シーケンスのデー
タ; (b)クラス定義、すなわち、各クラスにおけるシーケ
ンス;及び (c)クラスの頻度確率、すなわち、各クラスのバイグ
ラム確率、各シーケンスのクラス条件付き確率。
Next, in step S5, it is determined whether or not a predetermined end condition is satisfied. If NO, the repetition number parameter k is incremented by 1 in step S6, and the processing in steps S3 and S4 is repeated. On the other hand, if “YES” in the step S5, data of the generated statistical language model is output to the statistical language model memory 22 and stored. Here, the data of the generated statistical language model is data on the frequency probability of each sequence,
Specifically, it is the following data. (A) data of each sequence having a maximum likelihood estimate when the input data is segmented into a plurality of sequences; (b) class definitions, ie, sequences in each class; and (c) frequency probabilities of the classes; The bigram probability for each class, the class conditional probability for each sequence.

【0083】図4は、図3のサブルーチンであるブラウ
ンアルゴリズムを用いた分類処理を示すフローチャート
である。単語の自動分類のために、ブラウン他によって
シーケンスの自動分類に使用するためのアルゴリズム
(例えば、従来技術文献5参照。)が提案されており、
本実施形態では、これを使用する。ブラウンらは、文章
の尤度を最大化するクラスへの分割又はセグメント化
が、隣接する単語間の相互情報量を最大化する分割又は
セグメント化でもあることを示している。彼らは単語の
バイグラム分布を入力とし、単語クラスへの分割及びク
ラス分布を出力する貪欲なアルゴリズム(greedy algori
thm)を提案している。一方、本発明者は、入力としてバ
イ−マルチグラムの頻度確率の分布(すなわち、シーケ
ンスのバイグラムの頻度確率の分布)を採用することに
より、このアルゴリズムを適用している。出力は、シー
ケンスのクラスへのセグメント化及びその各シーケンス
の頻度確率の分布である。
FIG. 4 is a flowchart showing a classification process using the Brownian algorithm which is a subroutine of FIG. For automatic word classification, Brown et al. Have proposed an algorithm for use in automatic sequence classification (for example, see Prior Art Document 5).
In the present embodiment, this is used. Brown et al. Show that the division or segmentation of a sentence into classes that maximizes the likelihood is also the division or segmentation that maximizes the mutual information between adjacent words. They take as input a bigram distribution of words, split them into word classes, and output a class distribution (greedy algori
thm). On the other hand, the present inventor has applied this algorithm by employing the distribution of bi-multigram frequency probabilities (ie, the distribution of sequence bigram frequency probabilities) as input. The output is the segmentation of the sequences into classes and the distribution of the frequency probabilities of each sequence.

【0084】この分類処理で用いる相互情報量を用いた
単語のクラスタリングについて詳細説明する(例えば、
従来技術文献6「北研二ほか著,”音声言語処理”,森
北出版,pp.110−113,1996年11月15
日発行」参照。)。ここでは、隣接する単語に基づく単
語の分類法として、クラス間の相互情報量を最大にする
方法について説明する。相互情報量に基づくクラスタリ
ングは、バイグラムのクラスモデルにおいて単語をクラ
スへ分割する最尤な方法は、隣接するクラスの平均相互
情報量を最大にするようなクラス割り当てであること
を、理論的な根拠としている。N−gramのクラスモ
デルとは、次式のように、単語のクラスのN−gram
とクラス別の単語の出現分布の組み合わせで、単語のN
−gramを近似する言語モデルのことである(この式
は、単語クラスを品詞に置き換えれば、形態素解析にお
けるHMMの式と同じになる。従って、この単語分類法
は、最適な品詞体系を自動的に求める方法とも考えられ
る。
The clustering of words using mutual information used in this classification processing will be described in detail (for example,
Prior Art Document 6: Kenji Kita et al., "Speech Language Processing", Morikita Publishing, pp. 110-113, November 15, 1996.
Day issue ”. ). Here, a method of maximizing mutual information between classes will be described as a method of classifying words based on adjacent words. The theoretical basis for mutual information-based clustering is that the maximum likelihood method of dividing words into classes in a bigram class model is a class assignment that maximizes the average mutual information of adjacent classes. And The N-gram class model is an N-gram of a word class as shown in the following equation.
And the word's N
(This expression is the same as the HMM expression in morphological analysis if the word class is replaced by the part of speech. Therefore, this word classification method automatically determines the optimal part of speech system. It is also conceivable to ask for it.

【数37】P(wi|w1 i-1)≒P(wi|ci)P(ci
|ci-n+1 i-1
P (w i | w 1 i-1 ) ≒ P (w i | c i ) P (c i
| C i-n + 1 i-1 )

【0085】ここで、単語wiをクラスciに写像する関
数πを用いて、V個の単語をC個のクラスに分割すると
仮定する。学習テキストt1 Tが与えられたとき、P(t
2 T|t1)=P(T2|T1)P(t3|t2)…P(tT
T-1)を最大にするように関数πを決めればよい。詳
細は省略するが、単語あたりの対数尤度L(π)、単語
のエントロピーH(w)、隣接するクラスの平均相互情
報量I(c1;c2)の間には、近似的に次式の関係が成
り立つ。
Here, it is assumed that V words are divided into C classes using a function π that maps the words w i to classes c i . Given a learning text t 1 T , P (t
2 T | t 1) = P (T 2 | T 1) P (t 3 | t 2) ... P (t T |
The function π may be determined so as to maximize t T-1 ). Although details are omitted, the log likelihood L (π) per word, the entropy H (w) of the word, and the average mutual information I (c 1 ; c 2 ) of the adjacent classes are approximately The relationship of the expression holds.

【0086】[0086]

【数38】 (38)

【0087】ここで、H(w)は分割πに依存しないか
ら、L(π)を最大化するためには、I(c1;c2)を
最大化すればよい。いまのところ、平均相互情報量を最
大化するような分割を求めるアルゴリズムは知られてい
ない。しかしながら、本実施形態で用いる次のような貪
欲なアルゴリズム(greedy algorithm)でも、かなり興
味深いクラスタを得ることができる。このように包含関
係を持つクラスタを生成する方法は、階層的クラスタリ
ングと呼ばれる。これに対して、k平均アルゴリズムの
ように、重なりを持たないクラスタを生成する方法は非
階層的クラスタリングと呼ばれる。
Since H (w) does not depend on the division π, L (π) can be maximized by maximizing I (c 1 ; c 2 ). At present, there is no known algorithm for obtaining a partition that maximizes the average mutual information amount. However, even the following greedy algorithm used in the present embodiment can obtain a rather interesting cluster. Such a method of generating a cluster having an inclusion relation is called hierarchical clustering. On the other hand, a method of generating clusters having no overlap, such as the k-means algorithm, is called non-hierarchical clustering.

【0088】次の併合をV−1回繰り返すと、すべての
単語が一つのクラスになる。すなわち、クラスが併合さ
れる順序から、単語を葉とする二分木ができる。 1.すべての単語に対して、一つのクラスを割り当て
る。 2.可能な二つのクラスの組み合わせの中で、平均相互
情報量の損失を最小にする組み合わせを選択し、これら
を一つのクラスに併合する。 3.ステップ2をV−C回繰り返すとC個のクラスが得
られる。
When the next merging is repeated V-1 times, all the words are in one class. That is, from the order in which the classes are merged, a binary tree having words as leaves is created. 1. Assign one class to all words. 2. Among the possible combinations of the two classes, the combination that minimizes the loss of the average mutual information is selected, and these are combined into one class. 3. By repeating Step 2 VC times, C classes are obtained.

【0089】一般に、クラスタが形成される過程を表す
階層構造は樹形図(dendrogram)と呼ばれるが、自然言
語処理ではこれをシソーラスの代わりに使うことができ
る。単純に考えると、この準最適なアルゴリズムは、語
彙数Vに対してV5の計算量を必要とする。しかし、
(1)二つのクラスタを併合したときの情報量の変化だ
けを求めればよいことや、(2)二つのクラスタの併合
により相互情報量が変化するのは全体の一部に過ぎない
ことを利用すれば、O(V3)の計算、すなわち、繰り
返し回数Vの三乗に比例するオーダーの計算コストで済
む。
In general, a hierarchical structure representing a process of forming a cluster is called a dendrogram. In natural language processing, this can be used instead of a thesaurus. To put it simply, this sub-optimal algorithm requires V 5 computations for V vocabulary. But,
(1) It is necessary to obtain only the change in the information amount when two clusters are merged. (2) It is used that the mutual information amount changes by merging two clusters is only a part of the whole. Then, the calculation cost of O (V 3 ), that is, the calculation cost of the order proportional to the cube of the number of repetitions V is sufficient.

【0090】分類処理(又はクラスタリング処理)を示
す図4において、まず、ステップS11では、初期設定
処理が実行され、各シーケンスをその自らのクラスに割
り当てる。すなわち、各シーケンスsiそれぞれ各クラ
スCiに割り当てる。従って、クラスの初期バイグラム
の頻度確率の分布はシーケンスのバイグラムの頻度確率
の分布に等しく、また、
In FIG. 4 showing the classification processing (or clustering processing), first, in step S11, an initial setting processing is executed, and each sequence is assigned to its own class. That is assigned to each class C i respectively each sequence s i. Thus, the distribution of the frequency probabilities of the initial bigrams of a class is equal to the distribution of the frequency probabilities of the bigrams of the sequence, and

【数39】p(si|Ci)=1 である。P (s i | C i ) = 1.

【0091】次いで、ステップS12で、各クラスの対
(Ck,Cl)について、クラスCkとクラスClとをマー
ジしたときの相互情報量の損失を計算した後、ステップ
S13で、相互情報量の損失が最小であるクラスの対を
マージする。そして、ステップS14で、上記マージに
従って、メモリ34及び35に記憶されたクラスの頻度
確率の分布を更新する。次いで、ステップS15で、ス
テップS2の初期化処理で設定された必要なクラス数が
得られたか否かが判断され、NOであるときは、ステッ
プS12に戻り、上記の処理を繰り返す。一方、ステッ
プS15で、YESのときは、元のメインルーチンに戻
る。
Next, in step S12, for each pair of classes (C k , C l ), the mutual information loss when class C k and class C l are merged is calculated. Merge pairs of classes with the least loss of information. Then, in step S14, the distribution of the frequency probabilities of the classes stored in the memories 34 and 35 is updated according to the merge. Next, in step S15, it is determined whether or not the required number of classes set in the initialization processing in step S2 has been obtained. If NO, the process returns to step S12, and the above processing is repeated. On the other hand, if YES in step S15, the process returns to the main routine.

【0092】<音声認識装置>次いで、図1に示す連続
音声認識装置の構成及び動作について説明する。図1に
おいて、単語照合部4に接続された音素隠れマルコフモ
デル(以下、隠れマルコフモデルをHMMという。)メ
モリ11内の音素HMMは、各状態を含んで表され、各
状態はそれぞれ以下の情報を有する。 (a)状態番号、(b)受理可能なコンテキストクラ
ス、(c)先行状態、及び後続状態のリスト、(d)出
力確率密度分布のパラメータ、及び(e)自己遷移確率
及び後続状態への遷移確率。なお、本実施形態において
用いる音素HMMは、各分布がどの話者に由来するかを
特定する必要があるため、所定の話者混合HMMを変換
して生成する。ここで、出力確率密度関数は34次元の
対角共分散行列をもつ混合ガウス分布である。また、単
語照合部4に接続された単語辞書メモリ12内の単語辞
書は、音素HMMメモリ11内の音素HMMの各単語毎
にシンボルで表した読みを示すシンボル列を格納する。
<Speech Recognition Apparatus> Next, the configuration and operation of the continuous speech recognition apparatus shown in FIG. 1 will be described. In FIG. 1, the phoneme HMM in the phoneme hidden Markov model (hereinafter, referred to as HMM) memory 11 connected to the word matching unit 4 is represented by including each state, and each state includes the following information. Having. (A) state number, (b) acceptable context class, (c) list of preceding and succeeding states, (d) parameters of output probability density distribution, and (e) self-transition probability and transition to succeeding state probability. Note that the phoneme HMM used in the present embodiment is generated by converting a predetermined speaker-mixed HMM because it is necessary to specify which speaker each distribution originates from. Here, the output probability density function is a Gaussian mixture distribution having a 34-dimensional diagonal covariance matrix. Further, the word dictionary in the word dictionary memory 12 connected to the word matching unit 4 stores a symbol string indicating a reading represented by a symbol for each word of the phoneme HMM in the phoneme HMM memory 11.

【0093】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
In FIG. 1, a uttered voice of a speaker is input to a microphone 1 and converted into a voice signal, and then input to a feature extracting unit 2. After performing A / D conversion on the input audio signal, the feature extraction unit 2 performs, for example, LPC analysis, and performs 34-dimensional feature parameters including logarithmic power, 16th-order cepstrum coefficient, Δlogarithmic power, and 16th-order Δcepstrum coefficient. Is extracted. The time series of the extracted feature parameters is input to the word matching unit 4 via the buffer memory 3.

【0094】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMM11と単
語辞書12とを用いて単語仮説を検出し尤度を計算して
出力する。ここで、単語照合部4は、各時刻の各HMM
の状態毎に、単語内の尤度と発声開始からの尤度を計算
する。尤度は、単語の識別番号、単語の開始時刻、先行
単語の違い毎に個別にもつ。また、計算処理量の削減の
ために、音素HMM11及び単語辞書12とに基づいて
計算される総尤度のうちの低い尤度のグリッド仮説を削
減する。単語照合部4は、その結果の単語仮説と尤度の
情報を発声開始時刻からの時間情報(具体的には、例え
ばフレーム番号)とともにバッファメモリ5を介して単
語仮説絞込部6に出力する。
The word collating unit 4 uses the one-pass Viterbi decoding method and the word hypothesis using the phoneme HMM 11 and the word dictionary 12 based on feature parameter data input via the buffer memory 3. Is detected, the likelihood is calculated and output. Here, the word matching unit 4 determines whether each HMM
The likelihood within a word and the likelihood from the start of utterance are calculated for each state. The likelihood is individually provided for each word identification number, word start time, and difference between preceding words. Further, in order to reduce the amount of calculation processing, the grid hypothesis of a low likelihood among the total likelihoods calculated based on the phoneme HMM 11 and the word dictionary 12 is reduced. The word collating unit 4 outputs the resulting word hypothesis and likelihood information to the word hypothesis narrowing unit 6 via the buffer memory 5 together with time information (specifically, a frame number, for example) from the utterance start time. .

【0095】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデルメモリ22内の統計的言語モデル
を参照して、終了時刻が等しく開始時刻が異なる同一の
単語の単語仮説に対して、当該単語の先頭音素環境毎
に、発声開始時刻から当該単語の終了時刻に至る計算さ
れた総尤度のうちの最も高い尤度を有する1つの単語仮
説で代表させるように単語仮説の絞り込みを行った後、
絞り込み後のすべての単語仮説の単語列のうち、最大の
総尤度を有する仮説の単語列を認識結果として出力す
る。本実施形態においては、好ましくは、処理すべき当
該単語の先頭音素環境とは、当該単語より先行する単語
仮説の最終音素と、当該単語の単語仮説の最初の2つの
音素とを含む3つの音素並びをいう。
The word hypothesis narrowing section 6 refers to the statistical language model in the statistical language model memory 22 based on the word hypothesis output from the word collating section 4 via the buffer memory 5 and determines the end time. For the word hypothesis of the same word having the same start time but different start times, the highest likelihood among the total likelihoods calculated from the utterance start time to the end time of the word is determined for each head phoneme environment of the word. After narrowing down word hypotheses so that they are represented by one word hypothesis,
The word string of the hypothesis having the maximum total likelihood among the word strings of all the narrowed word hypotheses is output as the recognition result. In the present embodiment, preferably, the first phoneme environment of the word to be processed is three phonemes including the last phoneme of the word hypothesis preceding the word and the first two phonemes of the word hypothesis of the word. I mean a line.

【0096】例えば、図2に示すように、(i−1)番
目の単語Wi−1の次に、音素列a1,a2,…,an
からなるi番目の単語Wiがくるときに、単語Wi−1
の単語仮説として6つの仮説Wa,Wb,Wc,Wd,
We,Wfが存在している。ここで、前者3つの単語仮
説Wa,Wb,Wcの最終音素は/x/であるとし、後
者3つの単語仮説Wd,We,Wfの最終音素は/y/
であるとする。終了時刻teと先頭音素環境が等しい仮
説(図2では先頭音素環境が“x/a1/a2”である
上から3つの単語仮説)のうち総尤度が最も高い仮説
(例えば、図2において1番上の仮説)以外を削除す
る。なお、上から4番めの仮説は先頭音素環境が違うた
め、すなわち、先行する単語仮説の最終音素がxではな
くyであるので、上から4番めの仮説を削除しない。す
なわち、先行する単語仮説の最終音素毎に1つのみ仮説
を残す。図2の例では、最終音素/x/に対して1つの
仮説を残し、最終音素/y/に対して1つの仮説を残
す。
For example, as shown in FIG. 2, following the (i-1) -th word Wi-1, phoneme strings a1, a2,.
When the i-th word Wi consisting of
The six hypotheses Wa, Wb, Wc, Wd,
We and Wf exist. Here, the final phoneme of the former three word hypotheses Wa, Wb, Wc is / x /, and the final phoneme of the latter three word hypotheses Wd, We, Wf is / y /
And The hypothesis with the highest total likelihood (for example, 1 in FIG. 2) is the hypothesis in which the end time te is the same as the first phoneme environment (the top three word hypotheses in which the first phoneme environment is “x / a1 / a2” in FIG. 2). Delete the hypothesis). The fourth hypothesis from the top is not deleted because the first phoneme environment is different, that is, the last phoneme of the preceding word hypothesis is y instead of x. That is, only one hypothesis is left for each final phoneme of the preceding word hypothesis. In the example of FIG. 2, one hypothesis is left for the final phoneme / x /, and one hypothesis is left for the final phoneme / y /.

【0097】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
In the above embodiment, the head phoneme environment of the word is defined as a sequence of three phonemes including the last phoneme of the word hypothesis preceding the word and the first two phonemes of the word hypothesis of the word. Although defined, the present invention is not limited to this. The phoneme sequence of the preceding word hypothesis including the final phoneme of the preceding word hypothesis, and at least one phoneme of the preceding word hypothesis that is continuous with the final phoneme, And a phoneme sequence that includes a phoneme sequence that includes the first phoneme of the word hypothesis.

【0098】以上の実施形態において、特徴抽出部2
と、単語照合部4と、単語仮説絞込部6と、統計的言語
モデル生成部20とは、例えば、デジタル電子計算機な
どのコンピュータで構成され、バッファメモリ3,5
と、音素HMMメモリ11と、単語辞書メモリ12と、
学習用テキストデータメモリ21と、統計的言語モデル
メモリ22とは、例えばハードデイスクメモリなどの記
憶装置で構成される。
In the above embodiment, the feature extraction unit 2
The word collating unit 4, the word hypothesis narrowing unit 6, and the statistical language model generating unit 20 are constituted by a computer such as a digital computer, for example.
A phoneme HMM memory 11, a word dictionary memory 12,
The learning text data memory 21 and the statistical language model memory 22 are configured by a storage device such as a hard disk memory.

【0099】以上実施形態においては、単語照合部4と
単語仮説絞込部6とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素HMM11を参照
する音素照合部と、例えばOne Pass DPアル
ゴリズムを用いて統計的言語モデルを参照して単語の音
声認識を行う音声認識部とで構成してもよい。
In the above embodiment, speech recognition is performed using the word collating unit 4 and the word hypothesis narrowing unit 6.
The present invention is not limited to this. For example, the present invention includes a phoneme matching unit that refers to the phoneme HMM 11 and a speech recognition unit that performs speech recognition of a word by referring to a statistical language model using, for example, the One Pass DP algorithm. Is also good.

【0100】[0100]

【実施例】<統計的言語モデル生成処理の第1の実施例
>入力される学習データが、以下のような1000文字
列の場合であり、単位である文字から単語にセグメント
化するための例である。 「o n e s i x o n e e i g h t f i v e z e r o
...」 但し、奇数の単語の後には必ず偶数の単語が後続し、偶
数の単語の後には必ず奇数の単語が後続する場合であ
る。当該実施例における入力パラメータは以下の通りで
ある。 (a)1個のシーケンスの最大長=5、(b)クラス数
=2、及び(c)廃棄するシーケンスのしきい値=10
0。
<Embodiment><First Embodiment of Statistical Language Model Generation Processing> An example in which input learning data is a 1000-character string as shown below, and segments from a unit character to a word. It is. "Onesixoneeightfivezer o
... "However, the odd-numbered word always follows the even-numbered word, and the even-numbered word always follows the odd-numbered word. The input parameters in this embodiment are as follows. (A) Maximum length of one sequence = 5, (b) number of classes = 2, and (c) threshold of sequence to be discarded = 10
0.

【0101】初期化処理(k=0)では、学習データに
おいて、100回を越えて観測した文字のすべての組合
せの相対的な計数値を初期値とする。従って、反復パラ
メータk=0におけるシーケンスの頻度確率の分布の計
数結果は次の表のようになる。なお、各シーケンスのn
b(・)は計数値を表す。
In the initialization processing (k = 0), relative count values of all combinations of characters observed more than 100 times in the learning data are set as initial values. Therefore, the counting result of the distribution of the frequency probability of the sequence at the repetition parameter k = 0 is as shown in the following table. Note that n of each sequence
b (·) represents a count value.

【0102】[0102]

【表2】 ―――――――――――――――――――――――――――――――――― P(n|o)=nb(on)/nb(o)=0.08 p(n e|o)=nb(one)/nb(o)=0.06 ... p(n e s i x|o)=nb(onesix)/nb(o)=0.005 p(e|o n)=nb(one)/nb(on)=0.9 p(e s|o n)=nb(ones)/nb(on)=0.005 ... p(e s i x o|o n)=nb(onesixo)/nb(on)=0.001 ... p(s i x|o n e)=nb(onesix)/nb(one)=0.05 ... ――――――――――――――――――――――――――――――――――[Table 2] ―――――――――――――――――――――――――――――――――― P (n | o) = nb (on) / nb (o) = 0.08 p (n e | o) = nb (one) / nb (o) = 0.06. . . p (n e s i x | o) = nb (onesix) / nb (o) = 0.005 p (e | o n) = nb (one) / nb (on) = 0.9 p (e s | o n) = nb (ones) / nb (on) = 0.005. . . p (e s i x o | o n) = nb (onesixo) / nb (on) = 0.001. . . p (s i x | o n e) = nb (onesix) / nb (one) = 0.05. . . ――――――――――――――――――――――――――――――――――

【0103】ステップS3の分類処理では、入力データ
は、反復パラメータk=0のときのシーケンスの頻度確
率の分布であり、当該分類処理における出力データは、
以下のようになる。 (a)反復パラメータk=1のときのクラス定義
In the classification processing in step S3, the input data is the distribution of the frequency probability of the sequence when the repetition parameter k = 0, and the output data in the classification processing is
It looks like this: (A) Class definition when iterative parameter k = 1

【数40】class1={e s i x o;e;e t w o;n e
s i x;......;f o u r;f o u r f;...;g h t s;g h t o
n e;e i g h t}
[Equation 40] class1 = {e s i x o; e; e t w o; n e
s i x; ......; f o u r; f o u r f; ...; g h t s; g h t o
n e; e i g h t}

【数41】class2={o n e;e s i x o;x;f i v;
f i v e;t s e v;s e v e n;......;x n i;x n i n e;n
i n e;...} class3=…… (b)反復パラメータk=1のときのクラス条件付き頻
度確率の分布
[Equation 41] class2 = {o n e; e s i x o; x; f i v;
f i v e; t s e v; s e v e n; ......; x n i; x n i n e; n
i n e; ...} class3 = ... (b) Distribution of class conditional frequency probabilities when the repetition parameter k = 1

【数42】 p(e s i x o|class 1),p(e|class 1),... p(o n e|class 2),p(e s i x o|class
2),... (c)反復パラメータk=1のときのクラスバイグラム
の頻度確率の分布
[Mathematical formula-see original document] p (e s i x o | class 1), p (e | class 1),. . . p (o n e | class 2), p (e s i x o | class
2),. . . (C) Distribution of frequency probability of class bigram when iterative parameter k = 1

【数43】p(class 1|class 2)=0.3 p(class 2|class 1)=0.1 p(class 3|class 1)=0.4 ...P (class1 | class2) = 0.3 p (class2 | class1) = 0.1 p (class3 | class1) = 0.4. . .

【0104】ステップS4の再推定処理では、反復パラ
メータk=1のときのクラス定義及びクラスの頻度確率
の分布を入力データとし、次に示す反復パラメータk=
1のときのシーケンスの頻度確率の分布を出力する。
In the re-estimation process in step S4, the class definition and the distribution of the class frequency probability when the iteration parameter k = 1 are used as input data, and the following iteration parameter k =
The distribution of the frequency probability of the sequence at 1 is output.

【数44】p(n|o)=0.9 p(n e|o)=0.8 p(n e s|o)=0.05 ... p(n e s i x|o)=0P (n | o) = 0.9 p (n e | o) = 0.8 p (n e s | o) = 0.05. . . p (n e s i x | o) = 0

【数45】p(e|o n)=0.02 p(e s|o n)=0.001 ... p(e s i x o|o n)=0 ... p(s i x|o n e)=0.5 ...[Equation 45] p (e | o n) = 0.02 p (e s | o n) = 0.001. . . p (e s i x o | o n) = 0. . . p (s i x | o n e) = 0.5. . .

【0105】以下同様に処理が実行され、第1の実施例
における出力結果は以下のようになる。 (a)セグメント化された入力文字列(MLセグメント
化) ”o n e s i x o n e e i g h t f i v e z e r o
...” (b)クラス定義
Thereafter, the same processing is executed, and the output result in the first embodiment is as follows. (A) Input character string segmented (ML segmentation) "o n es i xo n ee i g h tf i v ez e r o
... ”(b) Class definition

【数46】class1={o n e;t h r e e;f i v e;
s e v e n;n i n e} class2={z e r o;t w o;f o u r;s i x;e i g
h t} (c)クラス条件付きの頻度確率の分布
[Equation 46] class1 = {o n e; t h r e e; f i v e;
s e v e n; n i n e} class2 = {z e r o; t w o; f o u r; s i x; e i g
h t} (c) Distribution of frequency probabilities with class conditions

【数47】p(o n e|class 1)=0.2 p(t h r e e|class 1)=0.2 p(f i v e|class 1)=0.2 ... p(z e r o|class 2)=0.2 p(t w o|class 2)=0.2 (d)クラスバイグラムの頻度確率の分布[Equation 47] p (o n e | class 1) = 0.2 p (t h r e e | class 1) = 0.2 p (f i v e | class 1) = 0.2. . . p (z e r o | class 2) = 0.2 p (t w o | class 2) = 0.2 (d) Distribution of frequency probability of class bigram

【数48】p(class 1|class 2)=1 p(class 2|class 1)=1P (class1 | class2) = 1 p (class2 | class1) = 1

【0106】<統計的言語モデル生成処理の第2の実施
例>入力される学習データが、自然言語のテキストデー
タによる以下の文、すなわち単語列である場合であっ
て、単位である単語をフレーズにセグメント化する場合
を説明するための実施例である。ここで、<s>は開始
を示す記号であり、</s>は終了を示す記号である。 「<s> good afternoon new washington hotel may i he
lp you ...</s>」 ここで、入力パラメータは、以下の通りである。 (a)シーケンスの最大長=数個の単語(例えば、1乃
至5個の単語、以下の実施例では、4)、(b)クラス
数=1000、及び(c)初期化処理のしきい値=3
0。
<Second Embodiment of Statistical Language Model Generation Processing> In the case where the input learning data is the following sentence based on natural language text data, that is, a word string, the unit word is a phrase. 7 is an embodiment for explaining a case where the segmentation is performed. Here, <s> is a symbol indicating the start, and </ s> is a symbol indicating the end. "<S> good afternoon new washington hotel may i he
lp you ... </ s>] Here, the input parameters are as follows. (A) maximum length of sequence = several words (eg, 1 to 5 words, 4 in the following embodiment), (b) number of classes = 1000, and (c) threshold value of initialization processing = 3
0.

【0107】初期化処理(k=0)では、学習データに
おいて、30回を越えて観測した単語のすべての組合せ
の相対的な計数値を初期値とする。従って、反復パラメ
ータk=0におけるシーケンスの頻度確率の分布の計数
結果は次の表のようになる。
In the initialization process (k = 0), relative count values of all combinations of words observed more than 30 times in the learning data are set as initial values. Therefore, the counting result of the distribution of the frequency probability of the sequence at the repetition parameter k = 0 is as shown in the following table.

【0108】[0108]

【表3】 [Table 3]

【0109】そして、第2の実施例における出力結果は
以下のようになる。 (a)セグメント化された入力文字列(MLセグメント
化) 「good_afternoon new_washington_hotel may_i_help_y
ou」 (b)クラス定義
The output result in the second embodiment is as follows. (A) Input character string segmented (ML segmentation) "good_afternoon new_washington_hotel may_i_help_y
ou "(b) Class definition

【数49】class1={good afternoon ; good mo
rning;hello ; may i help you...} ... class2={new washington hotel ; sheraton ho
tel ; plaza;...} ... class1000={give me some ; tell me} (c)クラス条件付き頻度確率の分布
[Equation 49] class1 = {good afternoon; good mo
rning; hello; may i help you ...} ... class2 = {new washington hotel; sheraton ho
tel; plaza; ...} ... class1000 = {give me some; tell me} (c) Distribution of frequency probability with class condition

【数50】 p(good afternoon|class 1)=0.003 p(good morning|class 1)=0.002 p(hello|class 1)=0.002 ... (d)クラスバイグラムの頻度確率の分布[Mathematical formula-see original document] p (good afternoon | class 1) = 0.003 p (good morning | class 1) = 0.002 p (hello | class 1) = 0.002. . . (D) Distribution of class bigram frequency probabilities

【数51】p(class 2|class 1)=0.04 p(class 3|class 1)=0.005 ...P (class2 | class1) = 0.04 p (class3 | class1) = 0.005. . .

【0110】<実験及び実験結果>本発明者は、実施形
態の装置の性能を実験するために、下記の実験を行っ
た。まず、プロトコル及びデータベースの実験及び実験
結果について述べる。可変長フレーズ間のバイグラム依
存を学習する目的は、従来のワードバイグラムモデルの
限界を改善する一方で、モデル内のパラメータ数を単語
のトライグラムの場合よりも少なくすることにある。従
って、バイ−マルチグラムモデルの評価を行うために適
する基準は、その予測能力、パラメータ数を測定し、従
来のバイグラム、トライグラムモデルのそれらと比較す
ることである。予測能力は通常、次式のパープレキシテ
ィの測定によって評価される。
<Experiment and Experimental Results> The present inventor conducted the following experiment in order to experiment the performance of the device of the embodiment. First, the protocol and database experiments and experimental results will be described. The purpose of learning bigram dependencies between variable length phrases is to improve the limitations of the conventional word bigram model while reducing the number of parameters in the model to that of a word trigram. Therefore, a suitable criterion for performing an evaluation of a bi-multigram model is to measure its predictive ability, number of parameters, and compare it to those of the conventional bigram, trigram model. The predictive ability is usually evaluated by measuring perplexity as:

【0111】[0111]

【数52】 PP=exp{−(1/T)log(L(W))}52 = PP = exp {-(1 / T) log (L (W))}

【0112】ここで、Tを文Wにおける単語の数であ
る。パープレキシティPPが低いほど、モデルの予測が
より高精度であることを示す。統計的モデルでは、実際
には2つのパープレキシティ値PP及びPP*が存在
し、数52の中のL(W)をそれぞれ次式として計算さ
れる。
Here, T is the number of words in the sentence W. A lower perplexity PP indicates that the prediction of the model is more accurate. In the statistical model, there are actually two perplexity values PP and PP * , and L (W) in Equation 52 is calculated as follows.

【0113】[0113]

【数53】 及び(Equation 53) as well as

【数54】L(W)=L(W,S*L (W) = L (W, S * )

【0114】2つのパープレキシティPP*−PPの差
は、常に正の数又は零であり、文Wの解析結果Sの曖昧
さの度合い、あるいは発話認識機のように最良の解析結
果の尤度を用いて文の尤度に到達する場合は、予測の正
確さにおける損失を測定する。
The difference between the two perplexities PP * -PP is always a positive number or zero, and the degree of ambiguity of the analysis result S of the sentence W, or the likelihood of the best analysis result like an utterance recognizer. If degrees are used to reach the likelihood of a sentence, measure the loss in prediction accuracy.

【0115】以下では、先ず、ある推定手順における損
失(PP*−PP)を評価し、この推定手順自体の影響
力についてフォワード・バックワードアルゴリズム(数
15)又は決定論的方法(数16)を用いて考察する。
最後に、これら結果を従来のn−gramモデルを用い
て得られた結果と比較する。本目的の達成のため、クラ
ークソン((Clarkson)ほか1997年)による公知のCM
Uツールキットを用いる。実験対象として、次の表の本
特許出願人が所有する「旅行の手配」に関するデータを
使用する。
In the following, first, the loss (PP * -PP) in a certain estimation procedure is evaluated, and the forward-backward algorithm (Equation 15) or the deterministic method (Equation 16) is used for the influence of the estimation procedure itself. Consider using
Finally, these results are compared with those obtained using the conventional n-gram model. To achieve this goal, a well-known CM by Clarkson et al. (1997)
Use the U toolkit. As the experimental object, the data of “Travel arrangement” owned by the present applicant in the following table is used.

【0116】[0116]

【表4】 本特許出願人が所有する「旅行の手配」に関するデータ ――――――――――――――――――――――――――――――――― 学習 テスト ――――――――――――――――――――――――――――――――― 文の数 13650 2430 トークンの数 167000 29000(1%OOV) 語彙数 3525 +280OOV ――――――――――――――――――――――――――――――――― (注)OOVは、Out Of Vocabularyの略であり、語彙にない 単語をいう。[Table 4] Data on “Travel arrangements” owned by the applicant of the present invention ―――――――――――――――――――――――――――――――― ― Learning test ――――――――――――――――――――――――――――――――― Number of sentences 13650 2430 Number of tokens 167000 29000 (1% OOV ) Number of vocabulary 3525 + 280OOV ――――――――――――――――――――――――――――――― (Note) OOV is an abbreviation of Out Of Vocabulary Yes, words that are not in the vocabulary.

【0117】本データベースは、ホテルのクラークと顧
客の間で自発的に行われた旅行/宿泊施設情報について
の対話である。言いよどみの単語、及び間違った開始
は、単一のマーカー“*uh*”にマッピングされる。本
実験において、フレーズの最大長はn=1語から4語ま
で変化させた(n=1ではバイ−マルチグラムは従来の
バイグラムに相当する)。すべてのバイ−マルチグラム
の頻度確率は、6回のトレーニング反復で推定され、初
期化において20回以下、各反復において10回以下の
頻度でしか現れないすべての文を放棄し、フレーズ辞書
の枝刈りを行った。ここで、初期化におけるしきい値が
10−30の範囲にあるとき、本データにおいて、異な
る枝刈り限界値を用いても結果に重大な影響が及ぶこと
はない。反復の場合のしきい値はその約半分である。
This database is a conversation about travel / accommodation information which is spontaneously performed between a hotel clerk and a customer. Words that are stagnant, and incorrect start, are mapped to a single marker " * uh * ". In this experiment, the maximum length of the phrase was changed from n = 1 word to 4 words (when n = 1, the bi-multigram corresponds to the conventional bigram). The frequency probabilities of all bi-multigrams are estimated in 6 training iterations, discarding all sentences that appear less than 20 times in initialization and less than 10 times in each iteration, and branching the phrase dictionary. I mowed. Here, when the threshold value in the initialization is in the range of 10-30, using a different pruning limit value in the data does not significantly affect the result. The threshold for iteration is about half of that.

【0118】しかしながら、すべての1単語フレーズ
は、その推定出現回数にかかわらず維持されるため(フ
レーズsi及びsjが1単語フレーズであり、組み合わせ
c(si,sj)の再推定値が零であると、組み合わせc
(si,sj)は1にリセットされる。)、すべてのワード
バイグラムが最終辞書に現れることになる。さらに、す
べてのn−gram及びフレーズのバイグラム確率は、
ウィッテン(Witten)ほか(1991年)による公知の
Witten-Bellディスカウンティング法を用いて、カッツ
(Katz)(1987年)による公知のバックオフ・スム
ージング法で平滑化される。ここで、Witten-Bellディ
スカウンティング法を選択したのは、本テストデータに
おいて従来のn−gramを用いた場合、最良のパープ
レキシティスコアが得られるためである。
However, since all the one-word phrases are maintained irrespective of the estimated number of occurrences (the phrases s i and s j are one-word phrases, the re-estimated value of the combination c (s i , s j )) Is zero, the combination c
(S i , s j ) is reset to 1. ), All word bigrams will appear in the final dictionary. In addition, the bigram probabilities of all n-grams and phrases are
Known by Witten et al. (1991)
Using the Witten-Bell discounting method, smoothing is performed by the well-known back-off smoothing method by Katz (1987). Here, the reason why the Witten-Bell counting method is selected is that the best perplexity score can be obtained when the conventional n-gram is used in the test data.

【0119】次いで、クラスタリングを行わない実験に
ついて述べる。まず、非決定性の方式の度合いにおいて
は、表4の本特許出願人が所有する「旅行の手配」に関
するデータに対するテストで、フォワード・バックワー
ドアルゴリズムによる学習の後に得られたパープレキシ
ティ値PP*及びPPを次の表に示す。パープレキシテ
ィ値の差(PP*−PP)は通常、パープレキシティの
約1ポイント以内にとどまる。すなわち、単一の最良フ
レーズに依存しても、予測の正確さが大幅に損なわれる
ことがあってはならないことを意味している。
Next, an experiment in which clustering is not performed will be described. First, in terms of the degree of non-determinism, the perplexity value PP * obtained after learning by the forward-backward algorithm in a test on data on “travel arrangement” owned by the present applicant in Table 4 And PP are shown in the following table. The difference in perplexity values (PP * -PP) typically stays within about one point of perplexity. This means that relying on a single best phrase should not significantly impair the accuracy of the prediction.

【0120】[0120]

【表5】 非決定性の方式の度合い ―――――――――――――――――――――――――――――― n 1 2 3 4 ―――――――――――――――――――――――――――――― PP 56.0 43.9 44.2 45.0 PP* 56.0 45.1 45.4 46.3 ――――――――――――――――――――――――――――――[Table 5] Degree of nondeterminism method ―――――――――――――――――――――――――――― n 1 2 3 4 ―――――― ――――――――――――――――――――――――― PP 56.0 43.9 44.2 45.0 PP * 56.0 45.1 45.4 46 3 ――――――――――――――――――――――――――――――

【0121】次いで、再推定手順の影響力では、フォワ
ード・バックワードアルゴリズム又はビタビ推定アルゴ
リズムのいずれかを用いたパープレキシティ値PP*
びモデルサイズを次の表に示す。
Next, in the influence of the re-estimation procedure, the perplexity value PP * and the model size using either the forward-backward algorithm or the Viterbi estimation algorithm are shown in the following table.

【0122】[0122]

【表6】 推定方法の影響:テストパープレキシティ値 PP* ――――――――――――――――――――――――――――――――― n 1 2 3 4 ――――――――――――――――――――――――――――――――― FB法 56.0 45.1 45.4 46.3 ビタビ法 56.0 45.7 45.9 46.2 ―――――――――――――――――――――――――――――――――[Table 6] Effect of estimation method: Test perplexity value PP * ――――――――――――――――――――――――――――――― n 1 2 3 4 ――――――――――――――――――――――――――――― FB method 56.0 45.1 45.4 46. 3 Viterbi method 56.0 45.7 45.9 46.2 ―――――――――――――――――――――――――――――――――

【0123】[0123]

【表7】 推定方法の影響:モデルのサイズ ――――――――――――――――――――――――――――――――― n 1 2 3 4 ――――――――――――――――――――――――――――――――― FB法 32505 44382 43672 43186 ビタビ法 32505 65141 67258 67295 ―――――――――――――――――――――――――――――――――[Table 7] Influence of estimation method: Model size ――――――――――――――――――――――――――――――― n 1 2 3 4 ――――――――――――――――――――――――――――――― FB method 32505 44382 43672 43186 Viterbi method 32505 65141 67258 67295 ――――― ――――――――――――――――――――――――――――

【0124】表6及び表7から明らかなように、パープ
レキシティ値に関する限り、推定方法はほとんど影響を
及ぼさず、フォワード・バックワードアルゴリズムによ
る学習を用いる方がわずかながら有利であるように見え
る。一方、モデルのサイズは、学習終了時に個々のバイ
−マルチグラム数として測定された場合、フォワード・
バックワードアルゴリズムによる学習において約30%
も減少する。すなわち、同じテストパープレキシティ値
に対して、おおよそ40,000対60,000の違い
となる。
As can be seen from Tables 6 and 7, as far as the perplexity values are concerned, the estimation method has little effect and it seems to be slightly advantageous to use the learning by the forward-backward algorithm. On the other hand, the size of the model, when measured as individual bi-multigrams at the end of training,
About 30% in backward algorithm learning
Also decreases. That is, for the same test perplexity value, the difference is about 40,000 to 60,000.

【0125】バイ−マルチグラム結果は、概して、フレ
ーズ放棄を行う枝刈りのための発見的知識では完全に過
学習を回避できないことを示唆する。確かに、(おそら
くは6から8語にまたがる依存性を意味する)n=3,
4のパープレキシティ値は、(依存性が4語に限定され
る)n=2のときのそれよりも高くなる。他の方法、お
そらくは短いものよりも長いフレーズを不利にするよう
な方法であれば成功ものと考えられる。
The bi-multigram results generally suggest that heuristics for pruning with phrase abandonment cannot completely avoid overlearning. Indeed, n = 3 (perhaps implying a dependency spanning 6 to 8 words)
The perplexity value of 4 is higher than that for n = 2 (dependency is limited to 4 words). Other methods, perhaps those that favor longer phrases over shorter ones, are considered successful.

【0126】さらに、n−gramとの比較において
は、フォワード・バックワードアルゴリズムによる学習
から得られたパープレキシティ値(PP)、n−gra
mに対するモデルサイズ、及びバイ−マルチグラムを次
の表に示す。
Further, in comparison with n-gram, the perplexity value (PP) obtained from learning by the forward-backward algorithm, n-gram
The model size for m and the bi-multigram are shown in the following table.

【0127】[0127]

【表8】 n−gramの比較 ―――――――――――――――――――――――――――――――――― テストパープレキシティ値 PP ―――――――――――――――――――――――――――――――――― nの値 1 2 3 4 ―――――――――――――――――――――――――――――――――― n−gram 314.2 56.0 40.4 39.8 バイ−マルチグラム 56.0 43.9 44.2 45.0 ――――――――――――――――――――――――――――――――――[Table 8] Comparison of n-gram ―――――――――――――――――――――――――――――――― Test perplexity value PP ― ――――――――――――――――――――――――――――――――― Value of n 1 2 3 4 ―――――――――― ―――――――――――――――――――――――― n-gram 314.2 56.0 40.4 39.8 Bi-multigram 56.0 43.9 44 .2 45.0 ――――――――――――――――――――――――――――――――――

【0128】[0128]

【表9】 n−gramの比較 ―――――――――――――――――――――――――――――――――― モデルのサイズ ―――――――――――――――――――――――――――――――――― n値 1 2 3 4 ―――――――――――――――――――――――――――――――――― n−gram 3526 32505 75511 112148 バイ−マルチグラム 32505 44382 43672 43186 ――――――――――――――――――――――――――――――――――[Table 9] Comparison of n-gram ―――――――――――――――――――――――――――――――― Model size ―――― ―――――――――――――――――――――――――――――― n value 1 2 3 4 ―――――――――――――― ―――――――――――――――――――― n-gram 3526 32505 75511 112148 Bi-multigram 32505 44382 43672 43186 ――――――――――――――― ―――――――――――――――――――

【0129】表8及び表9から明らかなように、最も低
いバイ−マルチグラムパープレキシティスコア(43.
9)は、トライグラムの値よりも依然として高いが、バ
イグラム値(56.0)よりもトライグラム値(40.
4)により近い値となっている。さらに、トライグラム
スコアはディスカウントされた方法に依存する。なお、
線形ディスカウンティング法では、本テストにおけるト
ライグラムのパープレキシティは、48.1であった。
As can be seen from Tables 8 and 9, the lowest bi-multigram perplexity score (43.
9) is still higher than the trigram value, but is higher than the bigram value (56.0).
4) The value is closer. In addition, the trigram score depends on the discounted method. In addition,
According to the linear counting method, the perplexity of the trigram in this test was 48.1.

【0130】5−グラムのパープレキシティ値(上記表
に示さず)は40.8であり、4−gramスコアより
もやや高い。これは、バイ−マルチグラムパープレキシ
ティがn>2(すなわち、依存性が4語以上にわたる場
合)のとき減少しないという事実に一致する。最後に、
バイ−マルチグラムモデルのエントリ数はトライグラム
モデルのエントリ数よりも少なく(45000に対して
75000)、マルチグラムが達成するモデルの正確性
とモデルサイズ間のトレードオフが示されている。
The 5-gram perplexity value (not shown in the above table) is 40.8, which is slightly higher than the 4-gram score. This is consistent with the fact that the bi-multigram perplexity does not decrease when n> 2 (ie, where the dependency spans more than four words). Finally,
The number of entries in the bi-multigram model is smaller than the number of entries in the trigram model (75000 versus 45000), indicating a trade-off between model accuracy and model size achieved by multigram.

【0131】さらに、クラスタリングを用いた実験及び
実験結果について述べる。本実験では、フレーズのクラ
スタリングによってパープレキシティスコアは改善され
なかった。パープレキシティの増加が非常に少なくなる
(1ポイント以下)のは、フレーズのほんの一部(10
〜20%)のみがクラスタとなる時であり、これを越え
るとパープレキシティはかなり悪化する。この効果は、
クラス推定が単語推定に統合されない時、n−gram
の枠組みにおいても度々報告されている。しかしなが
ら、フレーズのクラスタリングによって、自然発話を特
徴づける言いよどみの語の挿入等、ことばの非流暢性の
いくつかを自然に扱うことができる。この点を説明する
ために、先ずn=4語までのフレーズを扱うモデルの学
習の間に統合されるフレーズを次の表に列挙する。ここ
で、言いよどみを示す“*uh*”を含むフレーズはこの
表の上部に示す。主に、話者の言いよどみによるフレー
ズの違いは、共に統合されることが多い。
Further, an experiment using clustering and an experimental result will be described. In this experiment, perplexity scores were not improved by phrase clustering. The increase in perplexity is very small (less than 1 point) only for a small part of the phrase (10
(.About.20%) is the time when it becomes a cluster, beyond which perplexity deteriorates considerably. This effect
When the class estimate is not integrated with the word estimate, n-gram
In the framework of the report. However, by clustering phrases, some of the verbal fluency, such as the insertion of words that characterize spontaneous speech, can be handled naturally. To illustrate this point, the following table first lists the phrases that are integrated during learning of a model that handles phrases up to n = 4 words. Here, the phrase including “ * uh * ” indicating the stagnation is shown at the top of the table. Mainly, the differences in phrases due to the speaker's depressing are often integrated together.

【0132】[0132]

【表10】 4語シーケンスまでを扱うモデルにおける統合されたフレーズの一例 ―――――――――――――――――――――――――――――――――― {yes that will;*uh* that would} {yes that will be;*uh* yes that's} {*uh* by the;and by the} {yes *uh* i;i see i} {okay i understand;*uh* yes please} {could you recommend;*uh* is there} {*uh* could you tell;and could you tell} {so that will;yes that will;yes that would;uh* that would} {if possible i'd like;we would like;*uh* i want} {that sounds good;*uh* i understand} {*uh* i really;*uh* i don't} {*uh* i'm staying;and i'm staying} {all right we;*uh* yes i} ――――――――――――――――――――――――――――――――――― {good morning this;good afternoon this} {yes i do;yes thank you} {we'll be looking forward;we look forward} {dollars a night;and forty yen} {for your help;for your information} {hold the line;want for a moment} {yes that will be;and could you tell} {please go ahead;you like to know} {want time would you;and you would} {yes there is;but there is} {join phillips in room;ms. suzuki in} {name is suzuki;name is ms. suzuki} {i'm calling from;a;also i'd like} {much does it cost;can reach you} {thousand yen room;dollars per person} {yes i do;yes thank you;i see sir} {you tell me where;you tell me what} {a reservation for the;the reservation for} {your name and the;you give me the} {amy harris in;is amy harris in} {name is mary phillips;name is kazuo suzuki} {hold on a moment;wait a moment} {give me some;also tell me} ――――――――――――――――――――――――――――――――――[Table 10] Examples of integrated phrases in a model that handles up to four-word sequences ―――――――――――――――――――――――――――――――― -(Yes that will; * uh * that would} {yes that will be; * uh * yes that's} { * uh * by the; and by the} {yes * uh * i; i see i} {okay i understand; * uh * yes please} {could you recommend; * uh * is there} { * uh * could you tell; and could you tell} {so that will; yes that will; yes that would; uh * that would} {if possible i'd like; we would like; * uh * i want} {that sounds good; * uh * i understand} { * uh * i really; * uh * i don't} { * uh * i'm staying; and i'm staying} {all right we; * uh * yes i} ――――――――――――――――――――――――――――――――――― {good morning this; good afternoon this} {yes i do; yes thank you} {we'll be looking forward; we look forward} {dollars a night; and forty yen} {for your help; for your information} {hold the line; want for a moment} {yes that will be; and could you tell} {please go ahead; you like to know} {want time would you; and you would} {yes there is; but there is} {join phillips in room; ms. suzuki in} {name is suzuki; name is ms. suzuki} {i'm calling from; a; also i'd like} {much does it cost; can reach you} {thousand yen room; dollars per person} {yes i do; yes thank you; i see sir} {you tell me where; you tell me what} {a reservation for the; the reservation for} {your name and the; you give me the} {amy harris in; is amy harris in} {name is mary phillips; name is kazuo suzuki} {hold on a moment; wait a moment} {give me some; also tell me} ――――――――――――――――――――――――――――――――――

【0133】カワハラ(Kawahara)ら(1997年)に
よれば、上記の表はさらに、単語予測とは別に、フレー
ズ検索及びクラスタリングを行う他の動機づけ、すなわ
ちトピックの識別や対話のモデリング、及び言語理解に
関する問題への対応を示している。確かに本実験におけ
るクラスタとなったフレーズは、完全盲目的、すなわち
意味論的/語用論的情報を全くなくして導かれたもので
あるが、クラス内フレーズには強固な意味論的相関関係
が示されている。しかしながら、本手法を音声理解に効
率的に使用できるようにするためには、拘束条件は、例
えばスピーチアクトタグ(speech act tags)のような
いくつかのより高いレベルの情報を用いてフレーズクラ
スタリング処理に設定する必要がある。
According to Kawahara et al. (1997), the above table further provides other motivations for performing phrase search and clustering, apart from word prediction, namely topic identification and modeling of dialogue, and language. It shows how to deal with issues related to understanding. Certainly, the clustered phrases in this experiment were derived completely blind, ie, without any semantic / pragmatic information, but the in-class phrases had strong semantic correlations. It is shown. However, in order to be able to use this technique efficiently for speech understanding, the constraints must be a phrase clustering process using some higher level information, such as speech act tags. Must be set to

【0134】以上説明したように、フレーズ間にn−g
ram依存を仮定する可変長フレーズを導くアルゴリズ
ムは、言語モデリングのタスクのために提案され、推定
されてきた。特定タスクの言語コーパスは、文をフレー
ズに構成することによりバイグラムパープレキシティ値
を大幅に減らし、一方で言語モデルにおけるエントリ数
をトライグラムモデルの場合に比べてより低い値に保つ
ことが可能であることを示している。しかしながら、こ
れら結果は、より効率的な枝刈り方法によってさらに改
善され、不要な学習を行わずにより長い依存性について
学習することが可能となる。さらに、語形変化の態様を
簡単に本枠組み内に統合することができるため、異なる
長さを有するフレーズに共通のラベルを割り当てること
が可能である。フレーズの意味論的関係が統合されるの
で、本手法は対話モデリングや言語理解の分野において
も用いられる。その場合、意味論的/語用論的情報を用
いれば、フレーズクラスを得るための処理に制限を設け
ることができる。
As described above, ng between phrases is used.
Algorithms for deriving variable-length phrases that assume ram dependence have been proposed and estimated for the task of language modeling. The language corpus for a particular task can greatly reduce the bigram perplexity value by composing sentences into phrases, while keeping the number of entries in the language model lower than in the trigram model. It indicates that there is. However, these results are further improved by a more efficient pruning method, which makes it possible to learn about longer dependencies without performing unnecessary learning. Furthermore, since the forms of inflection can be easily integrated into the framework, it is possible to assign a common label to phrases having different lengths. Since the semantic relations of phrases are integrated, this method is also used in the field of dialog modeling and language understanding. In this case, if semantic / pragmatic information is used, a process for obtaining a phrase class can be limited.

【0135】<変形例>以上の実施形態においては、単
位は英語の文字であり、シーケンスは単語であり、上記
分類処理は、文字列を複数の単語の列に分類し、上記統
計的シーケンスモデルは、統計的言語モデルである。本
発明はこれに限らず、単位は、日本語などの他の自然言
語の文字であってもよい。また、単位は自然言語の単語
であり、シーケンスはフレーズであり、上記分類処理
は、単語列を複数のフレーズの列に分類し、上記統計的
シーケンスモデルは、統計的言語モデルであってもよ
い。
<Modification> In the above embodiment, the unit is English characters, the sequence is a word, and the classification process classifies a character string into a plurality of word sequences, and the statistical sequence model Is a statistical language model. The present invention is not limited to this, and the unit may be a character of another natural language such as Japanese. The unit may be a word in a natural language, the sequence may be a phrase, and the classification processing may classify the word string into a plurality of phrase strings, and the statistical sequence model may be a statistical language model. .

【0136】<実施形態の効果>以上説明したように,
本発明に係る実施形態によれば、以下のような特有の効
果を有する。 (A)EMアルゴリズムを使用して単語のシーケンスの
頻度分布を計算することができ、ML基準を最適化する
ことができる。すなわち、本実施形態のアルゴリズムを
用いられば、必ず、クラスタリングの処理を単調収束さ
せることができて、最適値の解析結果を得ることができ
る。 (B)シーケンス分類の解析を自由にすることができ
る。具体的には、上述のフォワード・バックワードアル
ゴリズムを用いた非決定性の手法を用いるので、自由度
のある解が得られる。なお、当該非決定性の手法を用い
ることができるのは、変数α,βを決めることができる
からである。従って、入力データの尤度を改善すること
により、シーケンス[bcd]が入力シーケンスにあっ
たときに、[bc]+[d]、[b]+[cd]、
[b]+[c]+[d]等の小シーケンスへの分割が可
能である。言い換えれば、あるシーケンスが入力シーケ
ンスに与えられていても、解析は事前に決定されず、す
べては入力データの尤度に依存する、つまり確定的では
なく、入力データの頻度確率に依存してクラスタリング
の処理が行われる。 (C)可変長のシーケンスの自動的分類を行うことがで
きる。ここで、シーケンスの分類を、単語の分類に依存
させない。また、シーケンスの分類を直接的に自動的に
行なって、長さの違う共通のクラスシーケンスに高精度
で分類できる。
<Effects of Embodiment> As described above,
According to the embodiment of the present invention, the following specific effects are obtained. (A) The frequency distribution of a sequence of words can be calculated using the EM algorithm, and the ML criteria can be optimized. That is, if the algorithm of the present embodiment is used, the clustering process can always be monotonically converged, and an analysis result of the optimum value can be obtained. (B) Analysis of sequence classification can be freely performed. Specifically, since a non-deterministic method using the above-described forward-backward algorithm is used, a solution having a degree of freedom can be obtained. It should be noted that the nondeterminism technique can be used because the variables α and β can be determined. Therefore, by improving the likelihood of the input data, when the sequence [bcd] is in the input sequence, [bc] + [d], [b] + [cd],
Division into small sequences such as [b] + [c] + [d] is possible. In other words, even if a sequence is given to the input sequence, the analysis is not predetermined and everything depends on the likelihood of the input data, i.e. it is not deterministic but clusters on the frequency probabilities of the input data Is performed. (C) Automatic classification of variable-length sequences can be performed. Here, the classification of the sequence does not depend on the classification of the word. In addition, the sequences are directly and automatically classified, and can be classified into common class sequences having different lengths with high accuracy.

【0137】従って、本発明に係る実施形態によれば、
従来例に比較して、最適な状態に向かう単調な収束を保
証することができ、自由度があり、可変長のシーケンス
を同一のクラスで取り扱うことができ、ディジタル計算
機を用いて実用的に高速処理することができる統計的シ
ーケンスモデル生成装置、統計的言語モデル生成装置及
び音声認識装置を提供することができる。
Therefore, according to the embodiment of the present invention,
Compared to the conventional example, monotonous convergence toward the optimal state can be guaranteed, there is a degree of freedom, variable-length sequences can be handled in the same class, and practically high-speed using a digital computer It is possible to provide a statistical sequence model generation device, a statistical language model generation device, and a speech recognition device capable of processing.

【0138】[0138]

【発明の効果】以上詳述したように本発明に係る統計的
シーケンスモデル生成装置によれば、1個又は複数の単
位からなる単位列であるシーケンスを含む入力データに
基づいて、可変長の自然数N1個の単位列であるマルチ
グラムと、可変長の自然数N2個の単位列であるマルチ
グラムとの間のバイグラムであるバイ−マルチグラムの
統計的シーケンスモデルを生成する統計的シーケンスモ
デル生成装置であって、上記入力データに基づいて、予
め決められたN1,N2の最大値の拘束条件のもとで、す
べての単位列の組み合わせの上記バイグラムの頻度確率
を計数する初期化手段と、上記初期化手段によって計数
された上記バイグラムの頻度確率に基づいて、各クラス
の対をマージしたときの相互情報量の損失が最小となる
ようにマージして各クラスの頻度確率を更新して予め決
められた数の複数のクラスに分類することにより、分類
されたクラスに含まれる単位列と、分類されたクラスの
条件付きの単位列の頻度確率と、分類されたクラス間の
バイグラムの頻度確率を計算して出力する分類手段と、
上記分類処理手段から出力される分類されたクラスに含
まれる単位列と、分類されたクラスの条件付きの単位列
の頻度確率と、分類されたクラス間のバイグラムの頻度
確率とに基づいて、EMアルゴリズムを用いて、最尤推
定値を得るように再推定し、ここで、フォワード・バッ
クワードアルゴリズムを用いて、処理対象の各単位列に
対して、時系列的に前方にとり得る処理対象の当該単位
列に対する前方尤度と、当該単位列の直前の単位列を条
件としたときの当該単位列の頻度確率と、時系列的に後
方にとり得る当該単位列に対する後方尤度とに基づいて
シーケンス間のバイグラムの頻度確率を示す式を用い
て、当該シーケンス間のバイグラムの頻度確率を再推定
することにより、再推定結果である上記バイ−マルチグ
ラムの統計的シーケンスモデルを生成して出力する再推
定手段と、上記分類手段の処理と上記再推定手段の処理
を所定の終了条件を満たすまで繰り返し実行するように
制御する制御手段とを備える。従って、本発明によれ
ば、従来例に比較して、最適な状態に向かう単調な収束
を保証することができ、自由度があり、可変長のシーケ
ンスを同一のクラスで取り扱うことができ、ディジタル
計算機を用いて実用的に高速処理して統計的シーケンス
モデルを生成することができる統計的シーケンスモデル
生成装置を提供することができる。
As described above in detail, according to the statistical sequence model generating apparatus according to the present invention, a variable length natural number is determined based on input data including a sequence which is a unit sequence composed of one or more units. Statistical sequence model generation for generating a bi-multigram statistical sequence model which is a bigram between a multigram which is N 1 unit sequences and a multigram which is a variable length natural number N 2 unit sequence. An initialization means for counting the bigram frequency probabilities of all combinations of unit sequences under the constraint of predetermined maximum values of N 1 and N 2 based on the input data. And, based on the frequency probabilities of the bigrams counted by the initialization means, merging so that the loss of mutual information when the pairs of each class are merged is minimized. By updating the frequency probability of a class and classifying it into a predetermined number of classes, the unit sequence included in the classified class, the frequency probability of a conditional unit sequence of the classified class, and the classification Classifying means for calculating and outputting the frequency probability of the bigram between the classes,
On the basis of the unit sequence included in the classified class output from the classification processing unit, the frequency probability of the conditional unit sequence of the classified class, and the frequency probability of the bigram between the classified classes, Using the algorithm, re-estimate to obtain the maximum likelihood estimation value. Here, using the forward-backward algorithm, for each unit sequence to be processed, Based on the forward likelihood for the unit sequence, the frequency probability of the unit sequence assuming the unit sequence immediately before the unit sequence as a condition, and the backward likelihood for the unit sequence that can be backward in time series, By re-estimating the probabilities of the bigrams between the sequences using an expression indicating the probabilities of the bigrams of the bigram, the statistical sequence of the bi-multigram as the re-estimation result is obtained. Comprising a re-estimation means for generating and outputting a Sumoderu, and control means for controlling to repeatedly execute the processing of the processing and the re-estimation means of the classification means until a predetermined termination condition is satisfied. Therefore, according to the present invention, it is possible to guarantee monotonous convergence toward an optimal state as compared with the conventional example, and it is possible to handle a variable-length sequence with the same degree of freedom and the same class, It is possible to provide a statistical sequence model generation device capable of generating a statistical sequence model through practical high-speed processing using a computer.

【0139】また、本発明に係る統計的言語モデル生成
装置によれば、上記統計的シーケンスモデル生成装置に
おいて、上記単位は自然言語の文字であり、上記シーケ
ンスは単語であり、上記分類手段は、文字列を複数の単
語の列に分類し、上記統計的シーケンスモデルは、統計
的言語モデルである。従って、本発明によれば、従来例
に比較して、最適な状態に向かう単調な収束を保証する
ことができ、自由度があり、可変長のシーケンスを同一
のクラスで取り扱うことができ、ディジタル計算機を用
いて実用的に高速処理して統計的言語モデルを生成する
ことができる統計的言語モデル生成装置を提供すること
ができる。
Further, according to the statistical language model generating apparatus of the present invention, in the statistical sequence model generating apparatus, the unit is a character of a natural language, the sequence is a word, and the classifying means includes: The character string is classified into a plurality of word strings, and the statistical sequence model is a statistical language model. Therefore, according to the present invention, it is possible to guarantee monotonous convergence toward an optimum state as compared with the conventional example, and it is possible to handle a variable-length sequence with the same class with a degree of freedom, A statistical language model generation device capable of generating a statistical language model by practically performing high-speed processing using a computer can be provided.

【0140】さらに、本発明に係る統計的言語モデル生
成装置によれば、上記統計的シーケンスモデル生成装置
において、上記単位は自然言語の単語であり、上記シー
ケンスはフレーズであり、上記分類手段は、単語列を複
数のフレーズの列に分類し、上記統計的シーケンスモデ
ルは、統計的言語モデルである。従って、本発明によれ
ば、従来例に比較して、最適な状態に向かう単調な収束
を保証することができ、自由度があり、可変長のシーケ
ンスを同一のクラスで取り扱うことができ、ディジタル
計算機を用いて実用的に高速処理して統計的言語モデル
を生成することができる統計的言語モデル生成装置を提
供することができる。
Further, according to the statistical language model generating device of the present invention, in the statistical sequence model generating device, the unit is a word of a natural language, the sequence is a phrase, and the classifying means includes: The word sequence is classified into a plurality of phrase sequences, and the statistical sequence model is a statistical language model. Therefore, according to the present invention, it is possible to guarantee monotonous convergence toward an optimum state as compared with the conventional example, and it is possible to handle a variable-length sequence with the same class with a degree of freedom, A statistical language model generation device capable of generating a statistical language model by practically performing high-speed processing using a computer can be provided.

【0141】またさらに、本発明に係る音声認識装置に
よれば、入力される発声音声文の音声信号に基づいて、
所定の統計的言語モデルを用いて音声認識する音声認識
手段を備えた音声認識装置において、上記音声認識手段
は、上記統計的言語モデル生成装置によって生成された
統計的言語モデルを参照して音声認識する。従って、本
発明によれば、従来例に比較して、最適な状態に向かう
単調な収束を保証することができ、自由度があり、可変
長のシーケンスを同一のクラスで取り扱うことができ、
ディジタル計算機を用いて実用的に高速処理して統計的
言語モデルを生成することができる。また、当該生成さ
れた統計的言語モデルを用いて音声認識することによ
り、従来例に比較して高い音声認識率で音声認識するこ
とができる。
Further, according to the speech recognition apparatus of the present invention, based on the speech signal of the input speech sentence,
In a speech recognition apparatus provided with speech recognition means for recognizing speech using a predetermined statistical language model, the speech recognition means refers to a statistical language model generated by the statistical language model generation apparatus and performs speech recognition. I do. Therefore, according to the present invention, it is possible to guarantee monotonous convergence toward an optimum state as compared with the conventional example, and it is possible to handle a variable-length sequence having the degree of freedom in the same class,
A statistical language model can be generated by practically high-speed processing using a digital computer. Also, by performing voice recognition using the generated statistical language model, voice recognition can be performed at a higher voice recognition rate than in the conventional example.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
FIG. 1 is a block diagram of a continuous speech recognition apparatus according to an embodiment of the present invention.

【図2】 図1の連続音声認識装置における単語仮説絞
込部6の処理を示すタイミングチャートである。
FIG. 2 is a timing chart showing a process of a word hypothesis narrowing section 6 in the continuous speech recognition device of FIG.

【図3】 図1の統計的言語モデル生成部20によって
実行される統計的言語モデル生成処理を示すフローチャ
ートである。
FIG. 3 is a flowchart showing a statistical language model generation process executed by a statistical language model generation unit 20 of FIG. 1;

【図4】 図3のサブルーチンであるブラウンアルゴリ
ズムを用いた分類処理を示すフローチャートである。
FIG. 4 is a flowchart showing a classification process using the Brownian algorithm, which is a subroutine of FIG.

【符号の説明】[Explanation of symbols]

1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 11…音素HMMメモリ、 12…単語辞書メモリ、 20…統計的言語モデル生成部、 21…学習用テキストデータメモリ、 22…統計的言語モデルメモリ、 30…ワーキングRAM、 31…パラメータメモリ、 32…シーケンス頻度確率メモリ、 33…クラス定義メモリ、 34…クラス条件付き頻度確率メモリ、 35…クラスバイグラム頻度確率メモリ、 36…セグメント化されたシーケンスメモリ。 DESCRIPTION OF SYMBOLS 1 ... Microphone, 2 ... Feature extraction part, 3, 5 ... Buffer memory, 4 ... Word collation part, 6 ... Word hypothesis narrowing part, 11 ... Phoneme HMM memory, 12 ... Word dictionary memory, 20 ... Statistical language model generation 21: learning text data memory, 22: statistical language model memory, 30: working RAM, 31: parameter memory, 32: sequence frequency probability memory, 33: class definition memory, 34: class conditional frequency probability memory, 35: class bigram frequency probability memory; 36 ... segmented sequence memory.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 中嶋 秀治 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (56)参考文献 DELIGNE S.”LANGUA GE MODELING BY VAR IABLE LENGTH SEQUE NCES:THEORETICAL F ORMULATION AND EVA LUATION OF MULTIGR AMS”,ICASSP 1995,Vo l.1,pp169−172 Deligne S.”INFERE NCE OF VARIABLE−LE NGTH ACOUSTIC UNIT S FOR CONTINUOUS S PEECH RECOGNITIO N”,ICASSP 1997,Vol. 3,pp1731−1734 Frederic B.et.al. Variable−Length Se quence Modeling:Mu ltigrams”,IEEE Sig nal Processing Let ters,Vol.2,No.6,pp 111−113,JUNE 1995 (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 - 9/20 C12N 15/00 JICSTファイル(JOIS)──────────────────────────────────────────────────続 き Continuation of the front page (72) Inventor Hideharu Nakajima 5th Sanraya, Inaya, Koika-cho, Soraku-cho, Kyoto Prefecture ATIR Corporation Voice Translation and Communication Research Laboratories (56) References DELIGNES S. "LANGUA GE MODELING BY VAR IABLE LENGTH SEQUENCE NESS: THEORETALIC FORMULATION AND EVA LUTION OF MULTIGR AMS", ICASP 1995, Vol. 1, pp. 169-172 Deligne S .; "INFIRE NCE OF VARIABLE-LE NGTH ACOUSTIC UNITS FOR CONTINOUUS S PEECH RECOGNITION N", ICASSP 1997, Vol. 3, pp 1731-1734 Frederic B. et. al. Variable-Length Sequence Modeling: Multigrams ", IEEE Signal Processing Letters, Vol. 2, No. 6, pp 111-113, JUNE 1995 (58) Fields investigated (Int. Cl. 7 , DB name 7 ). G10L 3/00-9/20 C12N 15/00 JICST file (JOIS)

Claims (9)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 1個又は複数の単位からなる単位列であ
るシーケンスを含む入力データに基づいて、可変長の自
然数N1個の単位列であるマルチグラムと、可変長の自
然数N2個の単位列であるマルチグラムとの間のバイグ
ラムであるバイ−マルチグラムの統計的シーケンスモデ
ルを生成する統計的シーケンスモデル生成装置であっ
て、 上記入力データに基づいて、予め決められたN1,N2
最大値の拘束条件のもとで、すべての単位列の組み合わ
せの上記バイグラムの頻度確率を計数する初期化手段
と、 上記初期化手段によって計数された上記バイグラムの頻
度確率に基づいて、各クラスの対をマージしたときの相
互情報量の損失が最小となるようにマージして各クラス
の頻度確率を更新して予め決められた数の複数のクラス
に分類することにより、分類されたクラスに含まれる単
位列と、分類されたクラスの条件付きの単位列の頻度確
率と、分類されたクラス間のバイグラムの頻度確率を計
算して出力する分類手段と、 上記分類処理手段から出力される分類されたクラスに含
まれる単位列と、分類されたクラスの条件付きの単位列
の頻度確率と、分類されたクラス間のバイグラムの頻度
確率とに基づいて、EMアルゴリズムを用いて、最尤推
定値を得るように再推定し、ここで、フォワード・バッ
クワードアルゴリズムを用いて、処理対象の各単位列に
対して、時系列的に前方にとり得る処理対象の当該単位
列に対する前方尤度と、当該単位列の直前の単位列を条
件としたときの当該単位列の頻度確率と、時系列的に後
方にとり得る当該単位列に対する後方尤度とに基づいて
シーケンス間のバイグラムの頻度確率を示す式を用い
て、当該シーケンス間のバイグラムの頻度確率を再推定
することにより、再推定結果である上記バイ−マルチグ
ラムの統計的シーケンスモデルを生成して出力する再推
定手段と、 上記分類手段の処理と上記再推定手段の処理を所定の終
了条件を満たすまで繰り返し実行するように制御する制
御手段とを備えたことを特徴とする統計的シーケンスモ
デル生成装置。
1. A multigram that is a unit string of variable-length natural numbers N 1 and a multi-gram that is a variable-length natural number N 2 based on input data including a sequence that is a unit string composed of one or a plurality of units. A statistical sequence model generation device for generating a bi-multigram statistical sequence model which is a bigram between a unit sequence and a multigram, wherein N 1 and N are predetermined based on the input data. Under the constraint of the maximum value of 2 , initialization means for counting the frequency probabilities of the bigrams of all combinations of unit sequences, based on the frequency probabilities of the bigrams counted by the initialization means, Class pairs are merged so that the loss of mutual information when merged is minimized, the frequency probability of each class is updated, and the classes are classified into a predetermined number of classes. Classifying means for calculating and outputting a unit sequence included in the classified class, a frequency probability of a conditional unit sequence of the classified class, and a frequency probability of a bigram between the classified classes; The EM algorithm is performed based on the unit sequence included in the classified class output from the processing unit, the frequency probability of the conditional unit sequence of the classified class, and the bigram frequency probability between the classified classes. Is used to re-estimate to obtain the maximum likelihood estimation value. Here, using a forward / backward algorithm, for each unit sequence to be processed, the unit sequence to be processed can be taken forward in time series. Based on the forward likelihood of the unit sequence, the frequency probability of the unit sequence on the condition of the unit sequence immediately before the unit sequence, and the backward likelihood of the unit sequence that can be backward in time series. By re-estimating the frequency probabilities of the bigrams between the sequences using an expression indicating the frequency probabilities of the bigrams between the cans, a statistical sequence model of the bi-multigram, which is the re-estimation result, is generated and output. A statistical sequence model generation apparatus, comprising: a re-estimation unit; and a control unit that controls the process of the classification unit and the process of the re-estimation unit to be repeatedly executed until a predetermined end condition is satisfied.
【請求項2】 上記初期化手段はさらに、上記計数され
たバイグラムの頻度確率のうち、所定の頻度確率以下の
バイグラムの組み合わせのデータを除去することを特徴
とする請求項1記載の統計的シーケンスモデル生成装
置。
2. The statistical sequence according to claim 1, wherein said initialization means further removes data of a combination of bigrams having a predetermined frequency probability or less from the frequency probabilities of the counted bigrams. Model generator.
【請求項3】 上記分類手段は、上記初期化手段によっ
て計数された上記バイグラムの頻度確率に基づいて、ブ
ラウンアルゴリズムを用いて、上記複数のクラスに分類
することを特徴とする請求項1又は2記載の統計的シー
ケンスモデル生成装置。
3. The classifying unit according to claim 1, wherein the classifying unit classifies into the plurality of classes using a Brownian algorithm based on the frequency probability of the bigram counted by the initialization unit. The described statistical sequence model generator.
【請求項4】 上記式は、上記入力データにおいて、当
該単位列である第2の単位列が第1の単位列に続くとき
の単位列のシーケンス間のバイグラムの頻度確率を、上
記入力データにおける処理対象の各単位列に対して計算
するための式であり、 上記シーケンス間のバイグラムの頻度確率は、第1と第
2の単位列を含むすべてのセグメント化での尤度の和
を、第1の単位列を含むすべてのセグメント化での尤度
の和で除算することによって得られたことを特徴とする
請求項1乃至3のうちの1つに記載の統計的シーケンス
モデル生成装置。
4. The above formula is used to calculate the frequency probability of a bigram between sequences of unit columns when the second unit column, which is the unit column, follows the first unit column in the input data. Expression for calculating for each unit sequence to be processed, the frequency probability of the bigram between the sequences is the sum of the likelihood in all the segmentations including the first and second unit sequences, 4. The statistical sequence model generation device according to claim 1, wherein the statistical sequence model generation device is obtained by dividing by a sum of likelihoods in all segmentations including one unit sequence.
【請求項5】 上記式は、上記入力データにおいて各単
位列が発生する平均回数を示す分母と、上記入力データ
において第2の単位列が第1の単位列に続くときの各単
位列に対する平均回数を示す分子とを有し、 上記分子は、処理対象の各単位列に対する、上記前方尤
度と、当該単位列の直前の単位列を条件としたときの当
該単位列の頻度確率と、上記後方尤度の積の和であり、 上記分母は、処理対象の各単位列に対する、上記前方尤
度と、当該単位列の直前の単位列を条件としたときのす
べての単位列の頻度確率と、上記後方尤度の積の和であ
ることを特徴とする請求項4記載の統計的シーケンスモ
デル生成装置。
5. The above-mentioned formula is a denominator indicating an average number of occurrences of each unit string in the input data, and an average for each unit string when a second unit string follows the first unit string in the input data. A numerator indicating the number of times, the numerator, for each unit sequence to be processed, the forward likelihood, the frequency probability of the unit sequence when the unit sequence immediately before the unit sequence is a condition, The denominator is the sum of the products of the backward likelihoods.The denominator is the forward likelihood for each unit sequence to be processed, and the frequency probabilities of all the unit sequences under the condition of the unit sequence immediately before the unit sequence. 5. The statistical sequence model generation apparatus according to claim 4, wherein the sum is the sum of the products of the backward likelihood.
【請求項6】 上記終了条件は、上記分類手段の処理
と、上記再推定手段の処理との反復回数が予め決められ
た回数に達したときであることを特徴とする請求項1乃
至5のうちの1つに記載の統計的シーケンスモデル生成
装置。
6. The method according to claim 1, wherein the ending condition is when the number of repetitions of the processing of the classifying means and the processing of the re-estimating means reaches a predetermined number. The statistical sequence model generation device according to one of the above.
【請求項7】 請求項1乃至6のうちの1つに記載の統
計的シーケンスモデル生成装置において、 上記単位は自然言語の文字であり、上記シーケンスは単
語であり、上記分類手段は、文字列を複数の単語の列に
分類し、上記統計的シーケンスモデルは、統計的言語モ
デルであることを特徴とする統計的言語モデル生成装
置。
7. The statistical sequence model generation device according to claim 1, wherein the unit is a character of a natural language, the sequence is a word, and the classifying unit includes a character string. Is classified into a plurality of word strings, and the statistical sequence model is a statistical language model.
【請求項8】 請求項1乃至6のうちの1つに記載の統
計的シーケンスモデル生成装置において、上記単位は自
然言語の単語であり、上記シーケンスはフレーズであ
り、上記分類手段は、単語列を複数のフレーズの列に分
類し、上記統計的シーケンスモデルは、統計的言語モデ
ルであることを特徴とする統計的言語モデル生成装置。
8. The statistical sequence model generating apparatus according to claim 1, wherein the unit is a word in a natural language, the sequence is a phrase, and the classifying unit includes a word string. Are classified into a plurality of phrase columns, and the statistical sequence model is a statistical language model.
【請求項9】 入力される発声音声文の音声信号に基づ
いて、所定の統計的言語モデルを用いて音声認識する音
声認識手段を備えた音声認識装置において、上記音声認
識手段は、請求項7又は8記載の統計的言語モデル生成
装置によって生成された統計的言語モデルを参照して音
声認識することを特徴とする音声認識装置。
9. A speech recognition device comprising speech recognition means for recognizing speech using a predetermined statistical language model based on a speech signal of an input uttered speech sentence, wherein the speech recognition means is provided. Or a speech recognition device characterized by performing speech recognition with reference to the statistical language model generated by the statistical language model generation device according to 8.
JP10165030A 1998-06-12 1998-06-12 Statistical sequence model generation device, statistical language model generation device, and speech recognition device Expired - Fee Related JP3004254B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP10165030A JP3004254B2 (en) 1998-06-12 1998-06-12 Statistical sequence model generation device, statistical language model generation device, and speech recognition device
US09/290,584 US6314399B1 (en) 1998-06-12 1999-04-13 Apparatus for generating a statistical sequence model called class bi-multigram model with bigram dependencies assumed between adjacent sequences
EP99107525A EP0964389A3 (en) 1998-06-12 1999-04-15 Apparatus for generating a statistical model called class bi-multigram model with bigram dependencies assumed between adjacent sequences

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10165030A JP3004254B2 (en) 1998-06-12 1998-06-12 Statistical sequence model generation device, statistical language model generation device, and speech recognition device

Publications (2)

Publication Number Publication Date
JPH11352994A JPH11352994A (en) 1999-12-24
JP3004254B2 true JP3004254B2 (en) 2000-01-31

Family

ID=15804520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10165030A Expired - Fee Related JP3004254B2 (en) 1998-06-12 1998-06-12 Statistical sequence model generation device, statistical language model generation device, and speech recognition device

Country Status (3)

Country Link
US (1) US6314399B1 (en)
EP (1) EP0964389A3 (en)
JP (1) JP3004254B2 (en)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
JP3426176B2 (en) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション Speech recognition device, method, computer system and storage medium
JP2001249175A (en) * 2000-03-06 2001-09-14 Honda Motor Co Ltd Inter-moving body distance measuring communication system
US7219056B2 (en) * 2000-04-20 2007-05-15 International Business Machines Corporation Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate
US6694296B1 (en) * 2000-07-20 2004-02-17 Microsoft Corporation Method and apparatus for the recognition of spelled spoken words
US7139709B2 (en) * 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
US6957184B2 (en) * 2000-07-20 2005-10-18 Microsoft Corporation Context free grammar engine for speech recognition system
US6931376B2 (en) * 2000-07-20 2005-08-16 Microsoft Corporation Speech-related event notification system
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
US7451075B2 (en) * 2000-12-29 2008-11-11 Microsoft Corporation Compressed speech lexicon and method and apparatus for creating and accessing the speech lexicon
DE10100725C1 (en) * 2001-01-10 2002-01-24 Philips Corp Intellectual Pty Automatic dialogue system for speech interrogation of databank entries uses speech recognition system assisted by speech model obtained before beginning of dialogue
JP3782943B2 (en) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション Speech recognition apparatus, computer system, speech recognition method, program, and recording medium
US7103533B2 (en) * 2001-02-21 2006-09-05 International Business Machines Corporation Method for preserving contextual accuracy in an extendible speech recognition language model
US6928407B2 (en) * 2002-03-29 2005-08-09 International Business Machines Corporation System and method for the automatic discovery of salient segments in speech transcripts
US7805302B2 (en) * 2002-05-20 2010-09-28 Microsoft Corporation Applying a structured language model to information extraction
US7107207B2 (en) * 2002-06-19 2006-09-12 Microsoft Corporation Training machine learning by sequential conditional generalized iterative scaling
US20040093331A1 (en) * 2002-09-20 2004-05-13 Board Of Regents, University Of Texas System Computer program products, systems and methods for information discovery and relational analyses
US7158983B2 (en) 2002-09-23 2007-01-02 Battelle Memorial Institute Text analysis technique
EP1551007A4 (en) * 2002-10-08 2008-05-21 Matsushita Electric Ind Co Ltd Language model creation/accumulation device, speech recognition device, language model creation method, and speech recognition method
US7379867B2 (en) * 2003-06-03 2008-05-27 Microsoft Corporation Discriminative training of language models for text and speech classification
US20040267529A1 (en) * 2003-06-24 2004-12-30 Aurilab, Llc N-gram spotting followed by matching continuation tree forward and backward from a spotted n-gram
US7593845B2 (en) * 2003-10-06 2009-09-22 Microsoflt Corporation Method and apparatus for identifying semantic structures from text
US8010357B2 (en) * 2004-03-02 2011-08-30 At&T Intellectual Property Ii, L.P. Combining active and semi-supervised learning for spoken language understanding
JP4631076B2 (en) * 2004-11-01 2011-02-16 株式会社国際電気通信基礎技術研究所 Method and system for optimizing phoneme unit sets
CN100454849C (en) * 2005-08-05 2009-01-21 华为技术有限公司 Fault detecting method in next generation network
US8700404B1 (en) 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US9507778B2 (en) 2006-05-19 2016-11-29 Yahoo! Inc. Summarization of media object collections
WO2007138875A1 (en) * 2006-05-31 2007-12-06 Nec Corporation Speech recognition word dictionary/language model making system, method, and program, and speech recognition system
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US7848918B2 (en) * 2006-10-04 2010-12-07 Microsoft Corporation Abbreviation expansion based on learned weights
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US9128926B2 (en) 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US8594702B2 (en) 2006-11-06 2013-11-26 Yahoo! Inc. Context server for associating information based on context
JP4741452B2 (en) * 2006-11-21 2011-08-03 日本放送協会 Language model creation device, language model creation program, speech recognition device, and speech recognition program
US9110903B2 (en) 2006-11-22 2015-08-18 Yahoo! Inc. Method, system and apparatus for using user profile electronic device data in media delivery
US8402356B2 (en) 2006-11-22 2013-03-19 Yahoo! Inc. Methods, systems and apparatus for delivery of media
US8769099B2 (en) 2006-12-28 2014-07-01 Yahoo! Inc. Methods and systems for pre-caching information on a mobile computing device
US8332207B2 (en) * 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
US8037086B1 (en) 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
US8069142B2 (en) 2007-12-06 2011-11-29 Yahoo! Inc. System and method for synchronizing data on a network
US8307029B2 (en) 2007-12-10 2012-11-06 Yahoo! Inc. System and method for conditional delivery of messages
US8671154B2 (en) 2007-12-10 2014-03-11 Yahoo! Inc. System and method for contextual addressing of communications on a network
US8275607B2 (en) * 2007-12-12 2012-09-25 Microsoft Corporation Semi-supervised part-of-speech tagging
US8166168B2 (en) 2007-12-17 2012-04-24 Yahoo! Inc. System and method for disambiguating non-unique identifiers using information obtained from disparate communication channels
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9626685B2 (en) 2008-01-04 2017-04-18 Excalibur Ip, Llc Systems and methods of mapping attention
US9706345B2 (en) 2008-01-04 2017-07-11 Excalibur Ip, Llc Interest mapping system
US8762285B2 (en) 2008-01-06 2014-06-24 Yahoo! Inc. System and method for message clustering
US20090182618A1 (en) 2008-01-16 2009-07-16 Yahoo! Inc. System and Method for Word-of-Mouth Advertising
US8554623B2 (en) 2008-03-03 2013-10-08 Yahoo! Inc. Method and apparatus for social network marketing with consumer referral
US8560390B2 (en) 2008-03-03 2013-10-15 Yahoo! Inc. Method and apparatus for social network marketing with brand referral
US8538811B2 (en) 2008-03-03 2013-09-17 Yahoo! Inc. Method and apparatus for social network marketing with advocate referral
US8745133B2 (en) 2008-03-28 2014-06-03 Yahoo! Inc. System and method for optimizing the storage of data
US8589486B2 (en) * 2008-03-28 2013-11-19 Yahoo! Inc. System and method for addressing communications
US8271506B2 (en) 2008-03-31 2012-09-18 Yahoo! Inc. System and method for modeling relationships between entities
US8706406B2 (en) 2008-06-27 2014-04-22 Yahoo! Inc. System and method for determination and display of personalized distance
US8452855B2 (en) 2008-06-27 2013-05-28 Yahoo! Inc. System and method for presentation of media related to a context
US8813107B2 (en) 2008-06-27 2014-08-19 Yahoo! Inc. System and method for location based media delivery
US10230803B2 (en) 2008-07-30 2019-03-12 Excalibur Ip, Llc System and method for improved mapping and routing
US8583668B2 (en) 2008-07-30 2013-11-12 Yahoo! Inc. System and method for context enhanced mapping
US8386506B2 (en) 2008-08-21 2013-02-26 Yahoo! Inc. System and method for context enhanced messaging
US8281027B2 (en) 2008-09-19 2012-10-02 Yahoo! Inc. System and method for distributing media related to a location
US8108778B2 (en) 2008-09-30 2012-01-31 Yahoo! Inc. System and method for context enhanced mapping within a user interface
US9600484B2 (en) 2008-09-30 2017-03-21 Excalibur Ip, Llc System and method for reporting and analysis of media consumption data
US8024317B2 (en) 2008-11-18 2011-09-20 Yahoo! Inc. System and method for deriving income from URL based context queries
US9805123B2 (en) 2008-11-18 2017-10-31 Excalibur Ip, Llc System and method for data privacy in URL based context queries
US8060492B2 (en) 2008-11-18 2011-11-15 Yahoo! Inc. System and method for generation of URL based context queries
US8032508B2 (en) 2008-11-18 2011-10-04 Yahoo! Inc. System and method for URL based query for retrieving data related to a context
US9224172B2 (en) 2008-12-02 2015-12-29 Yahoo! Inc. Customizable content for distribution in social networks
US8055675B2 (en) 2008-12-05 2011-11-08 Yahoo! Inc. System and method for context based query augmentation
US8166016B2 (en) 2008-12-19 2012-04-24 Yahoo! Inc. System and method for automated service recommendations
US8150967B2 (en) * 2009-03-24 2012-04-03 Yahoo! Inc. System and method for verified presence tracking
US10223701B2 (en) 2009-08-06 2019-03-05 Excalibur Ip, Llc System and method for verified monetization of commercial campaigns
US8914342B2 (en) 2009-08-12 2014-12-16 Yahoo! Inc. Personal data platform
US8364611B2 (en) 2009-08-13 2013-01-29 Yahoo! Inc. System and method for precaching information on a mobile device
WO2011083528A1 (en) * 2010-01-06 2011-07-14 日本電気株式会社 Data processing apparatus, computer program therefor, and data processing method
US8655647B2 (en) * 2010-03-11 2014-02-18 Microsoft Corporation N-gram selection for practical-sized language models
US8972260B2 (en) * 2011-04-20 2015-03-03 Robert Bosch Gmbh Speech recognition using multiple language models
WO2012165529A1 (en) * 2011-06-03 2012-12-06 日本電気株式会社 Language model construction support device, method and program
US8938391B2 (en) 2011-06-12 2015-01-20 Microsoft Corporation Dynamically adding personalization features to language models for voice search
JP5799733B2 (en) * 2011-10-12 2015-10-28 富士通株式会社 Recognition device, recognition program, and recognition method
KR20130059476A (en) * 2011-11-28 2013-06-07 한국전자통신연구원 Method and system for generating search network for voice recognition
US9020911B2 (en) 2012-01-18 2015-04-28 International Business Machines Corporation Name search using multiple bitmap distributions
EP2823409A4 (en) * 2012-03-04 2015-12-02 Adam Jeffries Data systems processing
US9020806B2 (en) * 2012-11-30 2015-04-28 Microsoft Technology Licensing, Llc Generating sentence completion questions
US9437189B2 (en) 2014-05-29 2016-09-06 Google Inc. Generating language models
US9703394B2 (en) * 2015-03-24 2017-07-11 Google Inc. Unlearning techniques for adaptive language models in text entry
US20170235724A1 (en) * 2016-02-11 2017-08-17 Emily Grewal Systems and methods for generating personalized language models and translation using the same
CN106409291B (en) * 2016-11-04 2019-12-17 南京侃侃信息科技有限公司 Method for implementing voice search list
US11138506B2 (en) 2017-10-10 2021-10-05 International Business Machines Corporation Abstraction and portability to intent recognition
FR3077656A1 (en) * 2018-02-07 2019-08-09 Christophe Leveque METHOD FOR TRANSFORMING A SEQUENCE TO MAKE IT EXECUTABLE BY A MACHINE

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
JP2886121B2 (en) * 1995-11-10 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 Statistical language model generation device and speech recognition device
US5987404A (en) * 1996-01-29 1999-11-16 International Business Machines Corporation Statistical natural language understanding using hidden clumpings
US6021384A (en) * 1997-10-29 2000-02-01 At&T Corp. Automatic generation of superwords

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deligne S."INFERENCE OF VARIABLE−LENGTH ACOUSTIC UNITS FOR CONTINUOUS SPEECH RECOGNITION",ICASSP 1997,Vol.3,pp1731−1734
DELIGNE S."LANGUAGE MODELING BY VARIABLE LENGTH SEQUENCES:THEORETICAL FORMULATION AND EVALUATION OF MULTIGRAMS",ICASSP 1995,Vol.1,pp169−172
Frederic B.et.al.Variable−Length Sequence Modeling:Multigrams",IEEE Signal Processing Letters,Vol.2,No.6,pp111−113,JUNE 1995

Also Published As

Publication number Publication date
US6314399B1 (en) 2001-11-06
JPH11352994A (en) 1999-12-24
EP0964389A3 (en) 2001-12-12
EP0964389A2 (en) 1999-12-15

Similar Documents

Publication Publication Date Title
JP3004254B2 (en) Statistical sequence model generation device, statistical language model generation device, and speech recognition device
Odell The use of context in large vocabulary speech recognition
Hwang et al. Character-level incremental speech recognition with recurrent neural networks
Ney et al. Progress in dynamic programming search for LVCSR
Kirchhoff et al. Morphology-based language modeling for conversational Arabic speech recognition
JP2965537B2 (en) Speaker clustering processing device and speech recognition device
JP4215418B2 (en) Word prediction method, speech recognition method, speech recognition apparatus and program using the method
JPH08278794A (en) Speech recognition device and its method and phonetic translation device
Demuynck Extracting, modelling and combining information in speech recognition
Pakoci et al. Improvements in Serbian speech recognition using sequence-trained deep neural networks
Robinson The 1994 ABBOT hybrid connectionist-HMM large-vocabulary recognition system
Ablimit et al. Lexicon optimization based on discriminative learning for automatic speech recognition of agglutinative language
JP3364631B2 (en) Statistical language model generation apparatus and speech recognition apparatus
Meyer et al. Boosting HMM acoustic models in large vocabulary speech recognition
Pylkkönen Towards efficient and robust automatic speech recognition: decoding techniques and discriminative training
Enarvi Modeling conversational Finnish for automatic speech recognition
JPH09134192A (en) Statistical language model forming device and speech recognition device
JP2905674B2 (en) Unspecified speaker continuous speech recognition method
JP2002091484A (en) Language model generator and voice recognition device using the generator, language model generating method and voice recognition method using the method, computer readable recording medium which records language model generating program and computer readable recording medium which records voice recognition program
Lee et al. A survey on automatic speech recognition with an illustrative example on continuous speech recognition of Mandarin
Lei et al. Data-driven lexicon expansion for Mandarin broadcast news and conversation speech recognition
JP2938865B1 (en) Voice recognition device
Breslin Generation and combination of complementary systems for automatic speech recognition
Deligne et al. Statistical language modeling with a class-basedn-multigram model
JP2968792B1 (en) Statistical language model generation device and speech recognition device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091119

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101119

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111119

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111119

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121119

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees