JP2002091484A - Language model generator and voice recognition device using the generator, language model generating method and voice recognition method using the method, computer readable recording medium which records language model generating program and computer readable recording medium which records voice recognition program - Google Patents

Language model generator and voice recognition device using the generator, language model generating method and voice recognition method using the method, computer readable recording medium which records language model generating program and computer readable recording medium which records voice recognition program

Info

Publication number
JP2002091484A
JP2002091484A JP2000280655A JP2000280655A JP2002091484A JP 2002091484 A JP2002091484 A JP 2002091484A JP 2000280655 A JP2000280655 A JP 2000280655A JP 2000280655 A JP2000280655 A JP 2000280655A JP 2002091484 A JP2002091484 A JP 2002091484A
Authority
JP
Japan
Prior art keywords
language model
cluster
tree structure
text data
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000280655A
Other languages
Japanese (ja)
Other versions
JP4270732B2 (en
Inventor
Jun Ishii
純 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2000280655A priority Critical patent/JP4270732B2/en
Publication of JP2002091484A publication Critical patent/JP2002091484A/en
Application granted granted Critical
Publication of JP4270732B2 publication Critical patent/JP4270732B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To obtain a language model having high estimation precision and a voice recognition device having high recoginition precision. SOLUTION: A learning text data tree structure clustering means 2001 conducts a tree structure clustering to hierarchically divide learning text data 1001 so as to have a linguistically similar nature and generates a tree structure learning text data cluster 2002. A language model generating means 1004 generates a tree structure cluster language model 2003 employing each learning text data which belongs to the cluster 2002.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、音声認識を行う
際に参照する言語モデル生成装置及びこれを用いた音声
認識装置、言語モデル生成方法及びこれを用いた音声認
識方法、並びに言語モデル生成プログラムを記録したコ
ンピュータ読み取り可能な記録媒体及び音声認識プログ
ラムを記録したコンピュータ読み取り可能な記録媒体に
関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a language model generating apparatus to be referred to when performing speech recognition, a speech recognizing apparatus using the same, a language model generating method, a speech recognizing method using the same, and a language model generating program. And a computer-readable recording medium on which a voice recognition program is recorded.

【0002】[0002]

【従来の技術】近年、使用話者が単語を連続して入力で
きる連続音声認識技術の実用化検討が盛んに行われてい
る。連続音声認識は、単語の復号列が最大事後確率を持
つように、音声の音響的な観測系列に基づいて復号する
ことである。これは次の(1)式で表される。
2. Description of the Related Art In recent years, the practical use of continuous speech recognition technology that enables a user to continuously input words has been actively studied. Continuous speech recognition is decoding based on an acoustic observation sequence of speech such that a decoded sequence of words has a maximum posterior probability. This is expressed by the following equation (1).

【数1】 ここで、Oは音声の音響的な観測値系列[o1 ,o2
3 ,...,oT ]であり、Wは単語列[w1
2 ,w3 ,...,wn ]である。P(O|W)は単
語列Wが与えられたときの観測値系列Oに対する確率で
あり、音響モデルによって計算するものである。P
(W)は単語列Wの生起確率(出現確率)であり、言語
モデルによって計算するものである。
(Equation 1) Here, O is an acoustic observation value sequence [o 1 , o 2 ,
o 3 ,. . . , O T ], and W is the word string [w 1 ,
w 2 , w 3 ,. . . , W n ]. P (O | W) is a probability for the observed value series O when the word string W is given, and is calculated by an acoustic model. P
(W) is the occurrence probability (appearance probability) of the word string W, which is calculated by a language model.

【0003】音声認識については、森北出版(株)から
出版されている古井貞煕著の「音声情報処理」(以降、
文献1とする)、電子情報通信学会から出版されている
中川聖一著の「確率モデルによる音声認識」(以降、文
献2とする)、NTTアドバンステクノロジ(株)から
出版されているLawrence Rabiner、B
iing−Hwang Juang著、古井貞煕監訳の
「音声認識の基礎(上、下)」(以降、文献3とする)
に詳しく説明されている。
[0003] Speech recognition is described in "Speech Information Processing" by Sadahiro Furui, published by Morikita Publishing Co., Ltd.
Reference 1), "Speech Recognition by Stochastic Model" by Seichi Nakagawa published by the Institute of Electronics, Information and Communication Engineers (hereinafter referred to as Reference 2), Lawrence Rabiner, published by NTT Advanced Technology Corporation, B
"Basics of Speech Recognition (upper and lower)", translated by Iing-Hwang Jung and translated by Sadahiro Furui (hereinafter referred to as Reference 3)
Is described in detail.

【0004】音響モデルによって計算するP(O|W)
は、最近は統計的手法である隠れマルコフモデル(HM
M)を用いる検討が盛んである。隠れマルコフモデルを
用いた音響モデルは、例えば文献3の6章に詳しく述べ
られている。
[0004] P (O | W) calculated by an acoustic model
Is based on the Hidden Markov Model (HM
M) has been actively studied. The acoustic model using the hidden Markov model is described in detail in, for example, Chapter 6 of Reference 3.

【0005】また、言語モデルによって計算するP
(W)は統計的な手法を用いることが多く、代表的なも
のにN−gramモデルがある(Nは2以上)。これら
については、東京大学出版会から出版されている北研二
著の「確率的言語モデル」(以下文献4とする)の3章
において詳しく説明されている。N−gramモデル
は、直前の(N−1)個の単語から次の単語への遷移確
率を統計的に与えるものである。N−gramモデルに
よる単語列wL 1 =w1 ...wL の生起確率は、次の
(2)式によって与えられる。
[0005] In addition, P calculated by a language model
(W) often uses a statistical method, and a typical example is an N-gram model (N is 2 or more). These are described in detail in Chapter 3 of “Probabilistic Language Model” (hereinafter referred to as Reference 4) by Kenji Kita published by The University of Tokyo Press. The N-gram model statistically gives a transition probability from the immediately preceding (N-1) words to the next word. Word strings w L 1 = w 1 . . . The occurrence probability of w L is given by the following equation (2).

【数2】 (Equation 2)

【0006】上記(2)式において、確率P(wt |w
t+1-N t-1 )は(N−1)個の単語からなる単語列w
t+1-N t-1 の後に単語wt が生起する確率であり、Πは
積を表している。例えば、「私・は・駅・へ・行く」
(・は単語の区切りを表す)といった単語列の生起確率
を2−gram(バイグラム)で求める場合は、次の
(3)式のようになる。(3)式において、#は文頭、
文末を表す記号である。 P(私・は・駅・へ・行く)= P(私|#)P(は|私)P(駅|は)P(へ|駅)P(行く|へ) P(#|行く) (3)
In the above equation (2), the probability P (w t | w
t + 1-N t-1 ) is a word string w composed of (N-1) words
The probability that the word w t will occur after t + 1−N t−1 , and Π indicates the product. For example, "I, ha, station, go, go"
When the occurrence probability of a word string such as (• represents a word delimiter) is determined by 2-gram (bigram), the following equation (3) is used. In equation (3), # is the beginning of a sentence,
This is a symbol indicating the end of a sentence. P (I ・ Ha ・ Station ・ Go ・ Go) = P (I│ #) P (Ha│I) P (Station│Ha) P (To│Station) P (Go│To) P (# │Go) ( 3)

【0007】確率P(wt |wt+1-N t-1 )は学習用テ
キストデータの単語列の相対頻度によって求められる。
単語列Wの学習用テキストデータにおける出現頻度をC
(W)とすれば、例えば、「私・は」の2−gram確
率P(は|私)は、次の(4)式によって計算される。
(4)式において、C(私・は)は単語列「私・は」の
出現頻度、C(私)は「私」の出現頻度である。 P(は|私)=C(私・は)/C(私) (4)
[0007] The probability P (w t | w t + 1-N t-1) is determined by the relative frequency of the word sequence of the learning text data.
The appearance frequency of the word string W in the learning text data is represented by C
Assuming (W), for example, the 2-gram probability P (ha | I) of “I.ha” is calculated by the following equation (4).
In the equation (4), C (I. ha) is the frequency of appearance of the word string "I. ha", and C (I) is the frequency of appearance of "I". P (ha | me) = C (me ・ ha) / C (me) (4)

【0008】しかしながら、N−gramモデルの確率
値を単純に相対頻度によって推定すると、学習用テキス
トデータ中に出現しない単語組を0にしてしまうという
大きな欠点がある(ゼロ頻度問題)。また、例え学習用
テキストデータ中に出現したとしても出現頻度の小さな
単語列に対しては、統計的に信頼性のある確率値を推定
するのが難しい(スパースネスの問題)。これらの問題
に対処するために、通常はスムージングあるいは平滑化
と呼ばれる手法を用いる。スムージングについては、上
記文献4の3.3章にいくつかの手法が述べられている
ので、ここでは、具体的な説明は省略する。
However, if the probability value of the N-gram model is simply estimated based on the relative frequency, there is a major drawback that a word set that does not appear in the learning text data is set to 0 (zero frequency problem). Further, even if it appears in the learning text data, it is difficult to estimate a statistically reliable probability value for a word string having a low appearance frequency (sparseness problem). To address these problems, a technique called smoothing or smoothing is usually used. Regarding smoothing, some methods are described in Chapter 3.3 of the above-mentioned Document 4, and a specific description is omitted here.

【0009】言語モデルの学習には、音声認識の対象と
する分野や場面・状況の文を学習用テキストデータとし
て用いるが、実際のアプリケーションでは、音声認識の
対象がさまざまな分野や、さまざまな場面・状況の音声
である場合が多い。単語列の生起確率は分野、場面・状
況が違うと異なった確率となるので、分野、場面・状況
の異なりを無視して学習用テキストデータを一括して学
習して言語モデルを生成した場合は、言語モデルの精度
は良くない。
In learning a language model, sentences in fields, scenes, and situations to be subjected to speech recognition are used as learning text data. However, in an actual application, speech recognition is performed in various fields and in various scenes.・ It is often voice of situation. Since the probability of occurrence of word strings will be different for different fields, scenes and situations, if the language model is generated by learning the learning text data collectively and ignoring the differences in fields, scenes and situations However, the accuracy of the language model is not good.

【0010】このような、さまざまな分野や、さまざま
な場面・状況を音声認識の対象とした音声認識装置の性
能を上げるために、言語モデルの学習用テキストデータ
をクラスタリングして、分割されたクラスタ毎に言語モ
デルを作成する方法が検討されている。従来技術として
は、例えば、公開特許公報2000−75886号の
「統計的言語モデル生成装置及び音声認識装置」(以
降、文献5とする)がある。ここで、クラスタとは、例
えばクラスタ1が政治、クラスタ2がスポーツといった
分野別の分割や、文の距離を定義して文をクラスタリン
グして得ることができる。
[0010] In order to improve the performance of a speech recognition apparatus for speech recognition in various fields and various scenes and situations, text data for learning a language model is clustered and divided into clusters. A method of creating a language model for each is being studied. As a conventional technique, for example, there is “Statistical Language Model Generation Apparatus and Speech Recognition Apparatus” of JP-A-2000-75886 (hereinafter referred to as Document 5). Here, the cluster can be obtained by, for example, dividing the fields into categories such as cluster 1 for politics and cluster 2 for sports, or clustering sentences by defining the distance between sentences.

【0011】学習用テキストデータをクラスタに分割し
た場合には、クラスタ当たりの学習用テキストデータは
少なくなるので、更に前述のゼロ頻度問題やスパースネ
スの問題が大きくなる。これに対して文献5では、クラ
スタに分割しない全学習用テキストデータを用いて推定
した言語モデルLMa と、クラスタに分割された学習用
テキストデータを用いて推定したクラスタ別の言語モデ
ルLMc k(kはクラスタ番号)を用いて、最大事後確率
推定法によってLMmap kを推定することで精度の高い言
語モデルを得ている。
When the text data for learning is divided into clusters, the text data for learning per cluster is reduced, so that the above-mentioned problem of zero frequency and sparseness is further increased. In [5 contrast, the language model LM a and, in another cluster estimated using training text data divided into clusters language model LM c k estimated using the entire training text data is not divided into clusters (K is a cluster number), and a highly accurate language model is obtained by estimating LM map k by a maximum posterior probability estimation method.

【0012】図13は文献5に記述されている従来の言
語モデル生成装置の構成を示すブロック図である。図に
おいて、1001は言語モデルの学習用テキストデー
タ、1002は学習用テキストデータクラスタリング手
段、1003は学習用テキストデータクラスタ、100
3−1〜1003−Mはクラスタ1〜Mの学習用テキス
トデータ、1004は言語モデル生成手段、1005は
クラスタ別言語モデル、1005−1〜1005−Mは
クラスタ1〜Mの言語モデルである。
FIG. 13 is a block diagram showing a configuration of a conventional language model generation device described in Reference 5. In the figure, 1001 is text data for learning a language model, 1002 is texturing clustering means for learning, 1003 is a text data cluster for learning, 100
Reference numerals 3-1 to 1003-M denote learning text data of clusters 1 to M, 1004 denotes a language model generating unit, 1005 denotes a language model for each cluster, and 1005-1 to 1005-M denote language models of clusters 1 to M.

【0013】次に動作について説明する。学習用テキス
トデータ1001は、言語モデルを学習するためのテキ
ストデータであり、音声認識装置が認識対象とする単語
や文を文字にしたものである。この学習用テキストデー
タ1001は、学習用テキストデータクラスタリング手
段1002へ入力される。
Next, the operation will be described. The learning text data 1001 is text data for learning a language model, and is obtained by converting words or sentences to be recognized by the speech recognition device into characters. The learning text data 1001 is input to the learning text data clustering means 1002.

【0014】学習用テキストデータクラスタリング手段
1002は、学習用テキストデータ1001をクラスタ
リングする。文献5では、k−means法に類似した
方法を用いてテキストを文単位でクラスタリングしてい
る。通常のk−means法と異なる点は、(1)クラ
スタ中心ベクトルを、そのクラスタに属する文で生成さ
れる言語モデルとすること、(2)距離尺度に文の生成
確率を用いていることである。また、言語モデルにはN
−gramモデルを用いている。
The learning text data clustering means 1002 clusters the learning text data 1001. In Reference 5, texts are clustered on a sentence basis using a method similar to the k-means method. The points different from the ordinary k-means method are that (1) the cluster center vector is a language model generated by a sentence belonging to the cluster, and (2) the sentence generation probability is used as a distance scale. is there. The language model has N
-The gram model is used.

【0015】学習用テキストデータクラスタ1003
は、学習用テキストデータクラスタリング手段1002
によって、M個のクラスタにクラスタリングされたクラ
スタ1の学習用テキストデータ1003−1〜クラスタ
Mの学習用テキストデータ1003−Mで構成されてい
る。
Learning text data cluster 1003
Is a learning text data clustering means 1002
Thus, the learning text data 1003-1 of the cluster 1 and the learning text data 1003-M of the cluster M are clustered into M clusters.

【0016】言語モデル生成手段1004は、学習用テ
キストデータクラスタリング手段1002によって得ら
れたクラスタ1の学習用テキストデータ1003−1〜
クラスタMの学習用テキストデータ1003−Mをそれ
ぞれ入力して、クラスタ1の言語モデル1005−1〜
クラスタMの言語モデル1005−Mで構成するクラス
タ別言語モデル1005を生成する。言語モデル生成手
段1004は、クラスタ毎の学習用テキストデータ数の
減少による言語モデルの推定精度の低下を防ぐために、
クラスタ分割しない全学習用テキストデータを用いて推
定した言語モデルLMと、クラスタに分割された学習
用テキストデータを用いて推定したクラスタ別の言語モ
デルLMc kを用いて、最大事後確率推定法によってクラ
スタ別の言語モデルLMmap kを推定している。
The language model generating means 1004 includes the learning text data 1003-1 to 1003-1 for the cluster 1 obtained by the learning text data clustering means 1002.
The learning text data 1003-M of the cluster M is input, and the language model 1005-1 of the cluster 1 is input.
A language model 1005 for each cluster composed of the language models 1005-M of the cluster M is generated. The language model generation unit 1004 is provided to prevent a decrease in the estimation accuracy of the language model due to a decrease in the number of learning text data for each cluster.
By using the language model LM a estimated using the whole learning text data that does not cluster split, the cluster-specific language model LM c k estimated using the learning text data that has been divided into clusters, the maximum a posteriori probability estimation method Is used to estimate a language model LM map k for each cluster.

【0017】次に上記言語モデル生成装置を用いた従来
の音声認識装置の説明を行う。図14は文献5に開示さ
れた従来の音声認識装置の構成を示すブロック図であ
る。図において、1101は認識対象音声、1102は
音声特徴量抽出手段、1103は音響モデル、1104
は言語モデル選択手段、1105は照合手段、1106
は音声認識結果である。クラスタ別言語モデル1005
は、図13と同一の機能ブロックであり、同一の符号を
付すと共に説明は省略する。
Next, a conventional speech recognition apparatus using the above-described language model generation apparatus will be described. FIG. 14 is a block diagram showing a configuration of a conventional speech recognition device disclosed in Reference 5. In the figure, reference numeral 1101 denotes a recognition target voice; 1102, a voice feature amount extraction unit; 1103, an acoustic model;
Is a language model selecting means, 1105 is a matching means, 1106
Is the speech recognition result. Cluster-based language model 1005
Are the same functional blocks as those in FIG. 13, and are denoted by the same reference numerals and description thereof is omitted.

【0018】次に動作について説明する。認識対象音声
1101は認識対象とする音声であり、音声特徴量抽出
手段1102へ入力される。音声特徴量抽出手段110
2は、認識対象音声1101に含まれている音声特徴量
を抽出する。音響モデル1103は音声の音響的な照合
を行うためのモデルである。音響モデル1103は、例
えば、多数の話者が発声した文や単語の音声を用いて学
習した、前後音素環境を考慮した音素を認識ユニットと
したHMMを用いる。
Next, the operation will be described. The recognition target voice 1101 is a voice to be recognized, and is input to the voice feature amount extraction unit 1102. Voice feature extraction means 110
2 extracts a speech feature amount included in the recognition target speech 1101. The acoustic model 1103 is a model for performing acoustic collation of voice. As the acoustic model 1103, for example, an HMM using a phoneme that recognizes a phoneme environment before and after, which is learned using sentences or words uttered by a large number of speakers, is used as a recognition unit.

【0019】言語モデル選択手段1104は、言語モデ
ル生成装置を用いて生成したクラスタ1の言語モデル1
005−1〜クラスタMの言語モデル1005−Mで構
成されるクラスタ別言語モデル1005の中から、照合
手段1105で用いる言語モデルを選択する。文献5で
は、クラスタに分割する前の不特定言語モデルを用いて
照合を行い、得られた認識結果候補の単語列に対して、
最も生起確率が高いクラスタ別言語モデルを、クラスタ
1の言語モデル1005−1〜クラスタMの言語モデル
1005−Mから1つ選択している。
The language model selecting means 1104 outputs the language model 1 of the cluster 1 generated using the language model generating device.
A language model to be used by the matching unit 1105 is selected from the cluster-specific language models 1005 composed of the language models 1005-M of the clusters 005-1 to M. In Reference 5, collation is performed using an unspecified language model before being divided into clusters.
One cluster-specific language model having the highest probability of occurrence is selected from the language model 1005-1 of the cluster 1 to the language model 1005-M of the cluster M.

【0020】照合手段1105は、言語モデル選択手段
1104によって選択された言語モデルが設定している
認識対象の単語[W(1),W(2),・・・,W(w
n)](wnは認識対象とする単語数)の発音表記を認
識ユニットラベル表記に変換し、このラベルにしたがっ
て、音響モデル1103に格納されている音素単位のH
MMを連結し、認識対象単語の標準パターン[λW(1)
λW(2),...,λW( wn)]を作成する。
The collating unit 1105 includes a recognition target word [W (1), W (2),..., W (w) set by the language model selected by the language model selecting unit 1104.
n)] (where wn is the number of words to be recognized) is converted into a recognition unit label notation, and according to this label, H in phoneme units stored in the acoustic model 1103 is converted.
The MMs are concatenated and the standard pattern of the word to be recognized [λ W (1) ,
λ W (2) ,. . . , Λ W ( wn) ].

【0021】そして、照合手段1105は、認識対象単
語の標準パターンと選択された言語モデルによって表さ
れる単語列の生起確率を用いて、音声特徴量分析手段1
102の出力である音声特徴量に対して照合を行い、音
声認識結果1106を出力する。音声認識結果1106
は、認識対象音声1101に対して、認識対象単語で最
も照合スコアが高い単語の単語番号系列Rn=[r
(1),r(2),...,r(m)]を計算し、単語
番号に対応する単語Rw=[W(r(1)),W(r
(2)),...,W(r(m))]を出力する。ここ
で、r(i)は音声認識結果1106の単語系列のi番
目の単語の単語番号を示す。また、mは認識単語系列の
単語数を示す。
The collation means 1105 uses the standard pattern of the word to be recognized and the occurrence probability of the word string represented by the selected language model, and
The collation is performed on the speech feature amount output from 102, and a speech recognition result 1106 is output. Voice recognition result 1106
Is a word number sequence Rn = [r of the word having the highest matching score among the words to be recognized with respect to the voice to be recognized 1101.
(1), r (2),. . . , R (m)], and the word Rw = [W (r (1)), W (r
(2)),. . . , W (r (m))]. Here, r (i) indicates the word number of the i-th word in the word sequence of the speech recognition result 1106. M indicates the number of words in the recognized word sequence.

【0022】[0022]

【発明が解決しようとする課題】従来の言語モデル生成
装置は以上のように構成されているので、クラスタリン
グによって分割するクラスタ数が多くなると、クラスタ
当たりの学習用テキストデータ数が少なくなり、言語モ
デルの推定精度が悪くなるので音声認識精度が高くなら
ないという課題があった。
Since the conventional language model generator is configured as described above, if the number of clusters to be divided by clustering increases, the number of text data for learning per cluster decreases, and the language model There is a problem that the accuracy of speech recognition does not increase because the estimation accuracy of the speech recognition becomes worse.

【0023】また、分割するクラスタ数が多くなると、
1発声が複数のクラスタの言語性質を持つような場合、
認識率が高くならないという課題があった。
When the number of clusters to be divided increases,
If one utterance has the linguistic properties of multiple clusters,
There was a problem that the recognition rate did not increase.

【0024】この発明は、上記のような課題を解決する
ためになされたものであり、推定精度の高い言語モデル
を作成できる言語モデル生成装置、言語モデル生成方法
及び言語モデル生成プログラムを記録したコンピュータ
読み取り可能な記録媒体を得ることを目的とする。
SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and has a language model generating apparatus, a language model generating method, and a computer storing a language model generating program capable of generating a language model with high estimation accuracy. It is an object to obtain a readable recording medium.

【0025】また、この発明は、推定精度の高い言語モ
デルを用いて、音声認識精度の高い音声認識装置、音声
認識方法及び音声認識プログラムを記録したコンピュー
タ読み取り可能な記録媒体を得ることを目的とする。
It is another object of the present invention to provide a computer-readable recording medium storing a speech recognition device, a speech recognition method, and a speech recognition program with high speech recognition accuracy using a language model with high estimation accuracy. I do.

【0026】[0026]

【課題を解決するための手段】この発明に係る言語モデ
ル生成装置は、学習用テキストデータを入力して、単語
列の生起確率を求める言語モデルを生成するものにおい
て、上記学習用テキストデータを言語的に類似した性質
を持つように階層的に分割する木構造クラスタリングを
行い、木構造学習用テキストデータクラスタを生成する
学習用テキストデータ木構造クラスタリング手段と、上
記木構造学習用テキストデータクラスタに属する各学習
用テキストデータを用いて、木構造クラスタ別言語モデ
ルを生成する言語モデル生成手段とを備えたものであ
る。
A language model generating apparatus according to the present invention is configured to generate a language model for inputting learning text data and calculating the occurrence probability of a word string. A learning text data tree structure clustering means for performing a tree structure clustering for hierarchically dividing so as to have a property similar to each other and generating a tree structure learning text data cluster; and belonging to the tree structure learning text data cluster. Language model generating means for generating a language model for each tree structure cluster using each learning text data.

【0027】この発明に係る言語モデル生成装置は、木
構造クラスタ別言語モデルが位置する木構造の上位に位
置する木構造クラスタ別言語モデルを用いて補間処理を
行い、補間処理された木構造クラスタ別言語モデルを生
成する言語モデル補間手段を備えたものである。
The language model generating apparatus according to the present invention performs an interpolation process using a tree structure cluster-based language model located above a tree structure in which the tree structure cluster-based language model is located, and performs the interpolation-processed tree structure cluster. It is provided with a language model interpolation means for generating another language model.

【0028】この発明に係る音声認識装置は、認識対象
音声を入力して音声認識を行い音声認識結果を出力する
ものにおいて、上記認識対象音声を入力し音声特徴量を
抽出する音声特徴量抽出手段と、音声の音響的な観測値
系列の確率を求める音響モデルと、学習用テキストデー
タを言語的に類似した性質を持つように階層的に分割す
る木構造クラスタリングを行い、各木構造クラスタの学
習用テキストデータを用いて生成された木構造クラスタ
別言語モデルと、上記木構造クラスタ別言語モデルか
ら、音声認識結果候補の単語列に対して最も生起確率が
高い言語モデルを選択する言語モデル選択手段と、上記
言語モデル選択手段により選択された言語モデルと上記
音響モデルを用いて、上記音声特徴量抽出手段が抽出し
た音声特徴量に対して照合を行い音声認識結果を出力す
る照合手段とを備えたものである。
A speech recognition apparatus according to the present invention, wherein a speech to be recognized is inputted, speech recognition is performed, and a speech recognition result is output. And a tree model clustering that hierarchically divides the training text data into linguistically similar properties by performing an acoustic model that calculates the probability of the acoustic observation sequence of speech Model selecting means for selecting a language model having the highest probability of occurrence for a word string of a speech recognition result candidate from the language model for each tree structure cluster generated using the text data for speech and the language model for each tree structure cluster And using the language model selected by the language model selection means and the acoustic model, the speech feature quantity extracted by the speech feature quantity extraction means When the comparison is that a matching means for outputting a speech recognition result.

【0029】この発明に係る音声認識装置は、言語モデ
ル選択手段が、木構造クラスタ別言語モデルにおける最
も下層の葉ノードのクラスタ別言語モデルから言語モデ
ルを選択するものである。
In the speech recognition apparatus according to the present invention, the language model selecting means selects a language model from the cluster-based language model of the lowest leaf node in the tree-structure cluster-based language model.

【0030】この発明に係る音声認識装置は、認識対象
音声を入力して音声認識を行い音声認識結果を出力する
ものにおいて、上記認識対象音声を入力し音声特徴量を
抽出する音声特徴量抽出手段と、音声の音響的な観測値
系列の確率を求める音響モデルと、学習用テキストデー
タを言語的に類似した性質を持つように階層的に分割す
る木構造クラスタリングを行い、各木構造クラスタの学
習用テキストデータを用いて生成された木構造クラスタ
別言語モデルと、上記木構造クラスタ別言語モデルか
ら、音声認識結果候補の単語列に対して生起確率の高い
複数の言語モデルを選択する複数言語モデル選択手段
と、上記複数言語モデル選択手段によって選択された複
数の言語モデルを入力して混合言語モデルを生成する混
合言語モデル生成手段と、上記混合言語モデル生成手段
により生成された言語モデルと上記音響モデルを用い
て、上記音声特徴量抽出手段が抽出した音声特徴量に対
して照合を行い音声認識結果を出力する照合手段とを備
えたものである。
A speech recognition apparatus according to the present invention, wherein a speech to be recognized is inputted, speech recognition is performed, and a speech recognition result is output. And a tree model clustering that hierarchically divides the training text data into linguistically similar properties by performing an acoustic model that calculates the probability of the acoustic observation sequence of speech -Language model for each tree-structured cluster generated using text data for speech, and a multi-language model for selecting a plurality of language models having a high probability of occurrence for a word string of a speech recognition result candidate from the language model for each tree-structured cluster Selecting means, and a mixed language model generating means for generating a mixed language model by inputting a plurality of language models selected by the plurality of language model selecting means Using the language model generated by the mixed language model generating unit and the acoustic model, performing matching against the voice feature amount extracted by the voice feature amount extracting unit and outputting a voice recognition result. It is a thing.

【0031】この発明に係る音声認識装置は、複数言語
モデル選択手段が、木構造クラスタ別言語モデルにおけ
る最も下層の葉ノードのクラスタ別言語モデルから複数
の言語モデルを選択するものである。
In the speech recognition apparatus according to the present invention, the plurality of language models selecting means selects a plurality of language models from the cluster-based language model of the lowest leaf node in the tree-structure cluster-based language model.

【0032】この発明に係る音声認識装置は、木構造ク
ラスタ別言語モデルが、木構造の上位に位置する木構造
クラスタ別言語モデルを用いて補間処理が行われた補間
処理された木構造クラスタ別言語モデルであることを特
徴とするものである。
In the speech recognition apparatus according to the present invention, the language model for each tree structure cluster is obtained by performing an interpolation process using a language model for each tree structure cluster located at a higher level of the tree structure. It is a language model.

【0033】この発明に係る言語モデル生成方法は、学
習用テキストデータを入力して、単語列の生起確率を求
める言語モデルを生成するものにおいて、上記学習用テ
キストデータを言語的に類似した性質を持つように階層
的に分割する木構造クラスタリングを行い、木構造学習
用テキストデータクラスタを生成する第1のステップ
と、上記木構造学習用テキストデータクラスタに属する
各学習用テキストデータを用いて、木構造クラスタ別言
語モデルを生成する第2のステップとを備えたものであ
る。
A language model generating method according to the present invention is a method for generating a language model for inputting learning text data and calculating the probability of occurrence of a word string, wherein the learning text data has a linguistically similar property. The first step of generating a tree structure learning text data cluster by performing tree structure clustering that hierarchically divides into a tree structure, and using each learning text data belonging to the tree structure learning text data cluster to generate a tree And a second step of generating a language model for each structural cluster.

【0034】この発明に係る言語モデル生成方法は、木
構造クラスタ別言語モデルが位置する木構造の上位に位
置する木構造クラスタ別言語モデルを用いて補間処理を
行い、補間処理された木構造クラスタ別言語モデルを生
成する第3のステップを備えたものである。
In the language model generating method according to the present invention, an interpolation process is performed by using a tree structure cluster-based language model located above a tree structure in which a tree structure cluster-based language model is located, and the interpolated tree structure cluster is obtained. And a third step of generating a different language model.

【0035】この発明に係る音声認識方法は、認識対象
音声を入力して音声認識を行い音声認識結果を出力する
ものにおいて、上記認識対象音声を入力し音声特徴量を
抽出する第1のステップと、学習用テキストデータを言
語的に類似した性質を持つように階層的に分割する木構
造クラスタリングを行い、各木構造クラスタの学習用テ
キストデータを用いて生成された木構造クラスタ別言語
モデルから、音声認識結果候補の単語列に対して最も生
起確率が高い言語モデルを選択する第2のステップと、
音声の音響的な観測値系列の確率を求める音響モデル
と、上記第2のステップで選択された言語モデルを用い
て、上記第1のステップで抽出した音声特徴量に対して
照合を行い音声認識結果を出力する第3のステップとを
備えたものである。
A speech recognition method according to the present invention is characterized in that a speech to be recognized is inputted, speech recognition is performed, and a speech recognition result is output. , Perform tree structure clustering that hierarchically divides the training text data so as to have linguistically similar properties, and from the language model for each tree structure cluster generated using the training text data of each tree structure cluster, A second step of selecting a language model having the highest occurrence probability for the word string of the speech recognition result candidate;
Speech recognition is performed by using the acoustic model for calculating the probability of the acoustic observation sequence of the speech and the language model selected in the second step to the speech features extracted in the first step. And a third step of outputting a result.

【0036】この発明に係る音声認識方法は、第2のス
テップで、木構造クラスタ別言語モデルにおける最も下
層の葉ノードのクラスタ別言語モデルから言語モデルを
選択するものである。
In the speech recognition method according to the present invention, in the second step, a language model is selected from the cluster-based language model of the lowest leaf node in the tree-structured cluster-based language model.

【0037】この発明に係る音声認識方法は、認識対象
音声を入力した音声認識を行い音声認識結果を出力する
ものにおいて、上記認識対象音声を入力し音声特徴量を
抽出する第1のステップと、学習用テキストデータを言
語的に類似した性質を持つように階層的に分割する木構
造クラスタリングを行い、各木構造クラスタの学習用テ
キストデータを用いて生成された木構造クラスタ別言語
モデルから、音声認識結果候補の単語列に対して生起確
率が高い複数の言語モデルを選択する第2のステップ
と、上記第2のステップで選択された複数の言語モデル
を入力して混合言語モデルを生成する第3のステップ
と、音声の音響的な観測値系列の確率を求める音響モデ
ルと、上記第3のステップで生成された言語モデルを用
いて、上記第1のステップで抽出した音声特徴量に対し
て照合を行い音声認識結果を出力する第4のステップと
を備えたものである。
A speech recognition method according to the present invention performs a speech recognition in which a recognition target speech is input and outputs a speech recognition result, wherein a first step of inputting the recognition target speech and extracting a speech feature amount; Tree structure clustering is performed to divide the training text data hierarchically so as to have linguistically similar properties, and speech is generated from the language model for each tree structure cluster generated using the training text data for each tree structure cluster. A second step of selecting a plurality of language models having a high occurrence probability for the word string of the recognition result candidate; and a second step of inputting the plurality of language models selected in the second step to generate a mixed language model. Step 3, using the acoustic model for obtaining the probability of the acoustic observation sequence of the speech and the language model generated in the third step, It is obtained and a fourth step of outputting a speech recognition result collates the speech features extracted by the flop.

【0038】この発明に係る音声認識方法は、第2のス
テップで、木構造クラスタ別言語モデルにおける最も下
層の葉ノードのクラスタ別言語モデルから複数の言語モ
デルを選択するものである。
In the speech recognition method according to the present invention, in the second step, a plurality of language models are selected from the cluster-based language model of the lowest leaf node in the tree-structured cluster-based language model.

【0039】この発明に係る言語モデル生成プログラム
を記録したコンピュータ読み取り可能な記録媒体は、学
習用テキストデータを入力して、単語列の生起確率を求
める言語モデルを生成するものであって、上記学習用テ
キストデータを言語的に類似した性質を持つように階層
的に分割する木構造クラスタリングを行い、木構造学習
用テキストデータクラスタを生成する学習用テキストデ
ータ木構造クラスタリング手順と、上記木構造学習用テ
キストデータクラスタに属する各学習用テキストデータ
を用いて、木構造クラスタ別言語モデルを生成する言語
モデル生成手順とを実現させるものである。
A computer-readable recording medium on which a language model generating program according to the present invention is recorded is for inputting learning text data and generating a language model for obtaining a word string occurrence probability. Tree clustering procedure for performing tree structure clustering that hierarchically divides text data for learning so as to have linguistically similar properties to generate text data clusters for tree structure learning, A language model generation procedure for generating a language model for each tree structure cluster using each learning text data belonging to the text data cluster.

【0040】この発明に係る言語モデル生成プログラム
を記録したコンピュータ読み取り可能な記録媒体は、木
構造クラスタ別言語モデルが位置する木構造の上位に位
置する木構造クラスタ別言語モデルを用いて補間処理を
行い、補間処理された木構造クラスタ別言語モデルを生
成する言語モデル補間手順を実現させるものである。
A computer-readable recording medium having recorded thereon a language model generation program according to the present invention performs interpolation processing using a tree-structure cluster language model located above a tree structure in which a tree-structure cluster language model is located. This implements a language model interpolation procedure for generating a language model for each tree structure cluster subjected to interpolation processing.

【0041】この発明に係る音声認識プログラムを記録
したコンピュータ読み取り可能な記録媒体は、認識対象
音声を入力して音声認識を行い音声認識結果を出力する
もので、上記認識対象音声を入力し音声特徴量を抽出す
る音声特徴量抽出手順と、学習用テキストデータを言語
的に類似した性質を持つように階層的に分割する木構造
クラスタリングを行い、各木構造クラスタの学習用テキ
ストデータを用いて生成された木構造クラスタ別言語モ
デルから、音声認識結果候補の単語列に対して最も生起
確率が高い言語モデルを選択する言語モデル選択手順
と、音声の音響的な観測値系列の確率を求める音響モデ
ルと、上記言語モデル選択手順により選択された言語モ
デルを用いて、上記音声特徴量抽出手順により抽出され
た音声特徴量に対して照合を行い音声認識結果を出力す
る照合手順とを実現させるものである。
A computer-readable recording medium on which a speech recognition program according to the present invention is recorded is for inputting a speech to be recognized and performing speech recognition and outputting a speech recognition result. Speech feature extraction procedure to extract the amount, and tree structure clustering that hierarchically divides the training text data so that it has linguistically similar properties, and generates using the training text data of each tree structure cluster Language model selection procedure to select the language model with the highest probability of occurrence for the word sequence of the speech recognition result candidate from the extracted tree model cluster-based language models, and an acoustic model to obtain the probability of the acoustic observation value sequence of the speech And using the language model selected in the language model selection procedure, the speech feature quantity extracted in the speech feature quantity extraction procedure Verification was carried out is used for realizing a matching procedure for outputting the result of speech recognition.

【0042】この発明に係る音声認識プログラムを記録
したコンピュータ読み取り可能な記録媒体は、言語モデ
ル選択手順が、木構造クラスタ別言語モデルにおける最
も下層の葉ノードのクラスタ別言語モデルから言語モデ
ルを選択するものである。
In the computer-readable recording medium storing the speech recognition program according to the present invention, the language model selecting step selects a language model from the cluster-based language model of the lowest leaf node in the tree-structure cluster-based language model. Things.

【0043】この発明に係る音声認識プログラムを記録
したコンピュータ読み取り可能な記録媒体は、認識対象
音声を入力して音声認識を行い音声認識結果を出力する
ものであって、上記認識対象音声を入力し音声特徴量を
抽出する音声特徴量抽出手順と、学習用テキストデータ
を言語的に類似した性質を持つように階層的に分割する
木構造クラスタリングを行い、各木構造クラスタの学習
用テキストデータを用いて生成された木構造クラスタ別
言語モデルから、音声認識結果候補の単語列に対して生
起確率の高い複数の言語モデルを選択する複数言語モデ
ル選択手順と、上記複数言語モデル選択手順によって選
択された複数の言語モデルを入力して混合言語モデルを
生成する混合言語モデル生成手順と、音声の音響的な観
測値系列の確率を求める音響モデルと、上記混合言語モ
デル生成手順により生成された言語モデルを用いて、上
記音声特徴量抽出手順により抽出された音声特徴量に対
して照合を行い音声認識結果を出力する照合手順とを実
現させるものである。
A computer-readable recording medium on which a speech recognition program according to the present invention is recorded is for inputting a speech to be recognized, performing speech recognition and outputting a speech recognition result. A speech feature extraction procedure for extracting speech features and a tree structure clustering that hierarchically divides the learning text data into linguistically similar properties are performed, and the training text data of each tree structure cluster is used. A multi-language model selecting step of selecting a plurality of language models having a high probability of occurrence for a word string of a speech recognition result candidate from the tree model cluster-based language model generated by A mixed-language model generation procedure for generating a mixed-language model by inputting multiple language models Using a language model generated by the mixed language model generation procedure, and using a language model generated by the mixed language model generation procedure to perform a verification on the voice features extracted by the voice feature extraction procedure and output a voice recognition result. Is realized.

【0044】この発明に係る音声認識プログラムを記録
したコンピュータ読み取り可能な記録媒体は、複数言語
モデル選択手順が、木構造クラスタ別言語モデルにおけ
る最も下層の葉ノードのクラスタ別言語モデルから複数
の言語モデルを選択するものである。
In a computer-readable recording medium storing a speech recognition program according to the present invention, a plurality of language models are selected by selecting a plurality of language models from a cluster-based language model of the lowest leaf node in a tree-structured cluster-based language model. Is to select.

【0045】[0045]

【発明の実施の形態】以下、この発明の一形態を説明す
る。 実施の形態1.図1はこの発明の実施の形態1による言
語モデル生成装置の構成を示すブロック図である。図に
おいて、2001は学習用テキストデータ木構造クラス
タリング手段、2002は木構造学習用テキストデータ
クラスタ、2002−1〜2002−Mは木構造クラス
タ1〜Mの学習用テキストデータ、2003は木構造ク
ラスタ別言語モデル、2003−1〜2003−Mは木
構造クラスタ1〜Mの言語モデルである。従来の言語モ
デル生成装置の構成を示す図13と同一の機能ブロック
については、同一の符号を付し説明を省略する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be described below. Embodiment 1 FIG. FIG. 1 is a block diagram showing a configuration of a language model generating device according to Embodiment 1 of the present invention. In the figure, 2001 is a learning text data tree structure clustering means, 2002 is a tree structure learning text data cluster, 2002-1 to 2002-M are learning text data of tree structure clusters 1 to M, and 2003 is a tree structure cluster by cluster. Language models 2003-1 to 2003-M are language models of the tree-structure clusters 1 to M. The same functional blocks as those in FIG. 13 showing the configuration of the conventional language model generation device are denoted by the same reference numerals and description thereof will be omitted.

【0046】なお、言語モデルの学習用テキストデータ
1001は、音声認識の認識対象とする分野や場面・状
況において用いられる単語や文を文字化したものであ
る。例えば、アナウンサーが発声する政治のニュースを
音声認識対象とした場合は、新聞の政治欄の記事や、政
治の放送ニュースの発声内容を文字として書き起こした
テキストデータである。
The language model learning text data 1001 is obtained by converting words and sentences used in a field, a scene, and a situation to be recognized by speech recognition into characters. For example, when a political news uttered by an announcer is targeted for speech recognition, it is text data in which an utterance content of a politics section of a newspaper or a politics news is transcribed as characters.

【0047】次に動作について説明する。図2はこの発
明の実施の形態1による言語モデル生成装置における言
語モデル生成方法を示すフローチャートである。学習用
テキストデータ木構造クラスタリング手段2001は、
ステップST101において、学習用テキストデータ1
001を入力し、ステップST102において、クラス
タリングの階層Iを0とし、ステップST103におい
て、初めに学習用テキストデータ1001の全てに対し
てクラスタリングを行う。この学習用テキストデータ1
001全てに対するクラスタリングを、階層0のクラス
タリングとする。
Next, the operation will be described. FIG. 2 is a flowchart showing a language model generation method in the language model generation device according to the first embodiment of the present invention. The text data tree structure clustering means 2001 for learning includes:
In step ST101, the learning text data 1
001 is input, and in step ST102, the hierarchical level I of clustering is set to 0. In step ST103, clustering is first performed on all the learning text data 1001. This text data for learning 1
The clustering for all 001 is referred to as the hierarchical 0 clustering.

【0048】ここで、クラスタリングとは、人手で2つ
以上の分野に分けることや、文献5に示してあるk−m
eansアルゴリズムに類似した方法を用いて、学習用
テキストデータを2つ以上の集合に分割することであ
る。クラスタリングによって得られるクラスタに属する
学習用テキストデータは、言語的に類似した性質を持つ
ものとなる。
Here, clustering refers to dividing manually into two or more fields, or using km-m shown in Reference 5.
This is to divide the learning text data into two or more sets using a method similar to the eans algorithm. The learning text data belonging to the cluster obtained by the clustering has linguistically similar properties.

【0049】図3は学習用テキストデータ木構造クラス
タリング手段2001で行われる学習用テキストデータ
木構造クラスタリングの説明図であり、文を単位として
階層的にクラスタリングしている様子を示したものであ
る。図3では、階層0の木構造クラスタ00のクラスタ
リングにより、学習用テキストデータ1001全てを2
つのクラスタに分割している。分割された学習用テキス
トデータの集合は、階層1の木構造クラスタ10と木構
造クラスタ11となっている。
FIG. 3 is an explanatory diagram of the learning text data tree structure clustering performed by the learning text data tree structure clustering means 2001, and shows a state in which sentences are hierarchically clustered in units. In FIG. 3, all of the learning text data 1001 is changed to 2 by clustering the tree structure cluster 00 of the hierarchy 0.
Divided into two clusters. The set of the divided learning text data is a tree-structure cluster 10 and a tree-structure cluster 11 of the hierarchy 1.

【0050】図2のステップST104において、学習
用テキストデータ木構造クラスタリング手段2001
は、階層Iをインクリメントし、ステップST105に
おいて、学習用テキストデータ木構造クラスタリング手
段2001は、階層I−1(ここでは、I=0)でクラ
スタリングされた各クラスタに属する学習用テキストデ
ータに対してクラスタリングを行う。図3では、階層1
のクラスタリングにより、階層1の木構造クラスタ10
から階層2の木構造クラスタ20と木構造クラスタ21
を生成し、木構造クラスタ11から階層2の木構造クラ
スタ22と木構造クラスタ23を生成している。
In step ST104 of FIG. 2, the learning text data tree structure clustering means 2001 is used.
Increments the hierarchy I, and in step ST105, the learning text data tree structure clustering means 2001 assigns the learning text data tree structure clustering unit 2001 to the learning text data belonging to each cluster clustered at the hierarchy I-1 (here, I = 0). Perform clustering. In FIG.
Of the tree structure cluster 10 of the hierarchy 1
Tree structure cluster 20 and tree structure cluster 21
Are generated, and a tree structure cluster 22 and a tree structure cluster 23 of the hierarchy 2 are generated from the tree structure cluster 11.

【0051】ステップST106において、クラスタ数
が予め定めた数Mになったかを調べて、予め定めた数M
にならない場合には、ステップST104に戻り、階層
Iをインクリメントし、ステップST105のクラスタ
リングの処理を繰り返す。以上の処理をクラスタ数が予
め定めた数Mになるまで繰り返して、木構造クラスタ1
の学習用テキストデータ2002−1〜木構造クラスタ
Mの学習用テキストデータ2002−Mを生成する。
In step ST106, it is checked whether or not the number of clusters has reached a predetermined number M.
Otherwise, the process returns to step ST104, increments the hierarchy I, and repeats the clustering process of step ST105. The above processing is repeated until the number of clusters reaches a predetermined number M, and the tree structure cluster 1
Of the tree structure cluster M is generated.

【0052】予め定めたクラスタ数まで学習用テキスト
データの木構造クラスタリングを行った後に、ステップ
ST107において、言語モデル生成手段1004は、
クラスタリングされた木構造クラスタ別に、各クラスタ
に属する学習用テキストデータを用いて言語モデルの生
成を行い、木構造クラスタ1の言語モデル2003−1
〜木構造クラスタMの言語モデル2003−Mで構成さ
れる木構造クラスタ別言語モデル2003を生成する。
After performing tree structure clustering of the text data for learning up to a predetermined number of clusters, in step ST107, the language model generation means 1004
A language model is generated for each of the clustered tree-structured clusters using learning text data belonging to each cluster, and a language model 2003-1 of the tree-structured cluster 1 is generated.
A tree model cluster-specific language model 2003 composed of the language model 2003-M of the tree structure cluster M is generated.

【0053】上記ステップST106において、階層的
な学習用テキストデータのクラスタリングを、予め定め
たクラスタ数Mになるまで繰り返す。ここでは、クラス
タ数をクラスタリングの終了の基準にしているが、階層
数を基準としても、クラスタ内の学習用テキストデータ
数がある値以下であるならば、クラスタリングを終了す
るとしても良い。階層的なクラスタリングによって得ら
れるクラスタは、階層が下になるほどクラスタに属する
学習テキストデータの性質は分野や場面・状況の違いを
よく表現している。
In step ST106, the hierarchical clustering of the learning text data is repeated until the number of clusters reaches a predetermined number M. Here, the number of clusters is used as a criterion for terminating clustering. However, if the number of text data for learning in a cluster is equal to or less than a certain value, clustering may be terminated based on the number of layers. In the cluster obtained by the hierarchical clustering, the properties of the learning text data belonging to the cluster at the lower level express the difference in the field, scene, and situation.

【0054】図4は木構造クラスタ別の言語モデル生成
の説明図である。図4では木構造のノードが学習用テキ
ストデータの木構造クラスタを表しており、各木構造ク
ラスタ毎にそこに属する学習用テキストデータを用いて
言語モデルの生成を行う。木構造の親ノードの木構造ク
ラスタは、子ノードの木構造クラスタに属する学習用テ
キストデータ全てを含むものとなっている。図4では、
例えば、木構造クラスタ00に属する学習用テキストデ
ータを用いて生成した言語モデルが、木構造クラスタ0
0の言語モデルLM00,木構造クラスタ10に属する
学習用テキストデータを用いて生成した言語モデルが、
木構造クラスタ10の言語モデルLM10にそれぞれ対
応している。
FIG. 4 is an explanatory diagram of language model generation for each tree structure cluster. In FIG. 4, the nodes of the tree structure represent the tree structure clusters of the learning text data, and a language model is generated for each tree structure cluster using the learning text data belonging to the cluster. The tree structure cluster of the parent node of the tree structure includes all the learning text data belonging to the tree structure cluster of the child node. In FIG.
For example, the language model generated using the learning text data belonging to the tree structure cluster 00 is the tree structure cluster 0
The language model generated using the language model LM00 of 0 and the text data for learning belonging to the tree structure cluster 10 is
It corresponds to the language model LM10 of the tree structure cluster 10, respectively.

【0055】生成される言語モデルの性質は、下層の木
構造クラスタの言語モデルへいくほど、分野や場面・状
況の違いによる言語の性質の違いを、より表現した言語
モデルとなる。また、上層の木構造クラスタの言語モデ
ルは、分野や場面・状況の違いによる言語の性質の違い
は細かく表していないが、複数の分野や場面・状況の言
語特徴を含んでいるので、発声が複数の分野や場面・状
況を含んでいる場合には、有効な言語モデルとなってい
る。さらに、上層の木構造クラスタの言語モデルは学習
テキストデータが多いので、木構造クラスタと同数のク
ラスタ数に一度に分割した場合に比べてパラメータ推定
精度が高い。
The nature of the generated language model is such that the closer to the language model of the lower-level tree-structured cluster, the more the language model expresses differences in language properties due to differences in fields, scenes, and situations. In addition, the language model of the tree structure cluster in the upper layer does not finely express the difference in language properties due to differences in fields, scenes, and situations. It is a valid language model when it includes multiple fields, scenes and situations. Further, since the language model of the upper-layer tree-structured cluster has a large amount of learning text data, the parameter estimation accuracy is higher than that in a case where the number of clusters is equal to the number of tree-structured clusters at once.

【0056】言語モデルの生成の具体的方法は、文献4
の3章から5章に述べられている、N−gramモデ
ル、隠れマルコフモデル、確率文脈自由文法等である。
A specific method of generating a language model is described in Reference 4.
, An N-gram model, a hidden Markov model, a stochastic context-free grammar, and the like described in Chapters 3 to 5.

【0057】また、この実施の形態1における言語モデ
ル生成方法を言語モデル生成プログラムとして記録媒体
に記録することもできる。この場合には、学習用テキス
トデータ木構造クラスタリング手段2001と同様の処
理を実現する学習用テキストデータ木構造クラスタリン
グ手順と、言語モデル生成手段1004と同様の処理を
実現する言語モデル生成手順とから構成される言語モデ
ル生成プログラムを記録媒体に記録する。
Further, the language model generating method according to the first embodiment can be recorded on a recording medium as a language model generating program. In this case, it is composed of a learning text data tree structure clustering procedure for realizing the same processing as the learning text data tree structure clustering means 2001, and a language model generation procedure for realizing the same processing as the language model generating means 1004. The generated language model generation program is recorded on a recording medium.

【0058】以上のように、この実施の形態1の言語モ
デル生成装置及び言語モデル生成方法によれば、学習用
テキストデータを階層的に木構造クラスタリングし、各
木構造クラスタに属する学習用テキストデータを用い
て、木構造クラスタ別言語モデルを生成するので、学習
用テキストデータが少量であることによって生じる言語
モデルのゼロ頻度問題やスパースネスの問題を軽減で
き、認識率の高い言語モデルが生成できる効果が得られ
る。また、認識対象の1発声が複数の分野や場面・状況
を含む場合であっても、複数の分野や場面・状況の言語
特徴を学習した言語モデルが存在するので、認識率の高
い言語モデルが生成できる効果が得られる。
As described above, according to the language model generating apparatus and the language model generating method of the first embodiment, the learning text data is hierarchically clustered into a tree structure, and the learning text data belonging to each tree structure cluster is clustered. Generates language models for each tree-structured cluster using, thus reducing the problem of zero frequency and sparseness of language models caused by a small amount of text data for learning, and the effect of generating language models with high recognition rates Is obtained. Even when one utterance to be recognized includes a plurality of fields, scenes, and situations, there is a language model that has learned the language features of the plurality of fields, scenes, and situations. An effect that can be generated is obtained.

【0059】実施の形態2.図5はこの発明の実施の形
態2による言語モデル生成装置の構成を示すブロック図
である。図において、3001は言語モデル補間手段、
3002は補間処理された木構造クラスタ別言語モデ
ル、3002−1〜3002−Mは補間処理された木構
造クラスタ1〜Mの言語モデルである。実施の形態1の
図1と同一の機能ブロックについては、同一の符号を付
し説明を省略する。
Embodiment 2 FIG. 5 is a block diagram showing a configuration of a language model generating device according to Embodiment 2 of the present invention. In the figure, reference numeral 3001 denotes a language model interpolation unit;
Reference numeral 3002 denotes a language model for each tree structure cluster subjected to interpolation processing, and reference numerals 3002-1 to 3002-M denote language models of the tree structure clusters 1 to M subjected to interpolation processing. The same functional blocks as in FIG. 1 of the first embodiment are denoted by the same reference numerals, and description thereof is omitted.

【0060】次に動作について説明する。図6はこの発
明の実施の形態2による言語モデル生成装置における言
語モデル生成方法を示すフローチャートである。ステッ
プST201からステップST207までの処理は、実
施の形態1の図2におけるステップST101からステ
ップST107までの処理と同一である。
Next, the operation will be described. FIG. 6 is a flowchart showing a language model generation method in the language model generation device according to the second embodiment of the present invention. The processing from step ST201 to step ST207 is the same as the processing from step ST101 to step ST107 in FIG. 2 of the first embodiment.

【0061】ステップST208において、言語モデル
補間手段3001は、言語モデル生成手段1004によ
って生成された木構造クラスタ別言語モデルである木構
造クラスタ1の言語モデル2003−1〜木構造クラス
タMの言語モデル2003−Mを入力し、補間処理され
た木構造クラスタ1の言語モデル3002−1〜補間処
理された木構造クラスタMの言語モデル3002−Mを
生成する。このときの補間処理は、補間対象のクラスタ
言語モデルが位置する木構造のノードの親ノードの木構
造クラスタの言語モデルを用いて補間処理を行う。
In step ST208, the language model interpolation means 3001 generates the language model 2003-1 of the tree structure cluster 1, which is the language model for each tree structure cluster generated by the language model generation means 1004, and the language model 2003 of the tree structure cluster M. -M is input to generate a language model 3002-1 of the tree structure cluster 1 subjected to the interpolation processing to a language model 3002-M of the tree structure cluster M subjected to the interpolation processing. In the interpolation processing at this time, the interpolation processing is performed using the language model of the tree structure cluster of the parent node of the tree structure node where the cluster language model to be interpolated is located.

【0062】図4の例では、木構造クラスタ20の言語
モデルLM20を補間する場合は、親ノードである木構
造クラスタ10の言語モデルLM10と、更に上層の親
ノードである木構造クラスタ00の言語モデルLM00
とを用いて補間する。この補間処理において、例えば言
語モデルがN−gramモデルである場合には、単語列
n+1-N n-1に続いてwn が生起する確率がパラメータで
あり、次の(5)式によって求める。
In the example of FIG. 4, when the language model LM20 of the tree structure cluster 20 is interpolated, the language model LM10 of the tree structure cluster 10 which is the parent node and the language model LM20 of the tree structure cluster 00 which is a further upper parent node are interpolated. Model LM00
And interpolate using In this interpolation process, for example, when the language model is N-gram model, the probability of following the word sequence w n + 1-N n- 1 occurring is w n is a parameter, the following expression (5) Ask by.

【数3】 (Equation 3)

【0063】上記(5)式において、P’s (wn |w
n+1-N n-1)は補間処理された木構造クラスタSの言語モ
デルにおける単語列wn+1-N n-1に続いてwn が生起する
確率、Ωは木構造クラスタSとその親ノードのクラスタ
番号の集合、Pi (wn |w n+1-N n-1)は木構造クラス
タiの言語モデルにおける単語列wn+1-N n-1に続いてw
n が生起する確率、αi は重み係数である。このα
i は、例えば、文献4の3章に述べられている削除補間
法によって推定可能である。
In the above equation (5), P 's(Wn| W
n + 1-N n-1) Is the language model of the tree structure cluster S subjected to the interpolation processing.
The word sequence w in Delln + 1-N n-1Followed by wnOccurs
Probability, Ω is the cluster of the tree structure cluster S and its parent node
Set of numbers, Pi(Wn| W n + 1-N n-1) Is the tree structure class
Word sequence w in the language model of in + 1-N n-1Followed by w
nProbability of occurrence of αiIs a weight coefficient. This α
iIs, for example, the deletion interpolation described in Chapter 3 of Reference 4.
It can be estimated by the method.

【0064】この説明では、Pi (wn |wn+1-N n-1
は補間する前の生起確率としたが、木構造の上層から補
間し、補間処理された生起確率P’i (wn |wn+1-N
n-1)を用いても良い。木構造クラスタでは、下層のク
ラスタは学習用テキストデータが少量であるので、言語
モデル生成において、ゼロ頻度問題やスパースネスの問
題が生じやすいが、このように、学習用テキストデータ
数が多い親ノードのクラスタの言語モデルを用いて、パ
ラメータすなわち単語列wn+1-N n-1に続いてwnが生起
する確率の補間処理を行うので、言語モデル推定精度が
高くなる。
In this description, P i (w n | w n + 1−N n−1 )
Is the occurrence probability before interpolation, but the occurrence probability P ′ i (w n | w n + 1−N) obtained by performing interpolation from the upper layer of the tree structure and performing interpolation processing
n-1 ) may be used. In the tree-structured cluster, since the lower-level cluster has a small amount of text data for learning, a zero frequency problem and a problem of sparseness tend to occur in language model generation. using cluster language model, since the interpolation process of the probability of occurrence is w n Following parameters: the word sequence w n + 1-n n- 1, the language model estimation accuracy is increased.

【0065】また、実施の形態2における言語モデル生
成方法を言語モデル生成プログラムとして記録媒体に記
録することもできる。この場合には、学習用テキストデ
ータ木構造クラスタリング手段2001と同様の処理を
実現する学習用テキストデータ木構造クラスタリング手
順と、言語モデル生成手段1004と同様の処理を実現
する言語モデル生成手順と、言語モデル補間手段300
1と同様の処理を実現する言語モデル補間手順とから構
成される言語モデル生成プログラムを記録媒体に記録す
る。
Further, the language model generating method according to the second embodiment can be recorded on a recording medium as a language model generating program. In this case, a learning text data tree structure clustering procedure for realizing the same processing as the learning text data tree structure clustering means 2001, a language model generation procedure for realizing the same processing as the language model generating means 1004, Model interpolation means 300
A language model generation program including a language model interpolation procedure for realizing the same processing as in step 1 is recorded on a recording medium.

【0066】以上のように、この実施の形態2の言語モ
デル生成装置及び言語モデル生成方法によれば、学習用
テキストデータを階層的に木構造クラスタリングし、各
木構造クラスタに属する学習用テキストデータを用いて
木構造クラスタ別言語モデルを生成し、生成されたクラ
スタ言語モデルを木構造の親ノードのクラスタ言語モデ
ルを用いて補間するので、学習用テキストデータが少量
であることによって生じる言語モデルのゼロ頻度問題や
スパースネスの問題を軽減でき、さらに認識率の高い言
語モデルを生成できるという効果が得られる。
As described above, according to the language model generating apparatus and the language model generating method of the second embodiment, the learning text data is hierarchically clustered into a tree structure, and the learning text data belonging to each tree structure cluster is obtained. Is used to generate a language model for each tree structure cluster, and the generated cluster language model is interpolated using the cluster language model of the parent node of the tree structure. The effect of reducing the problem of zero frequency and the problem of sparseness can be obtained, and a language model with a high recognition rate can be generated.

【0067】また、認識対象の1発声が複数の分野や場
面・状況を含む場合であっても、複数の分野や場面・状
況の言語特徴を学習した言語モデルが存在するので、認
識率の高い言語モデルが生成できるという効果が得られ
る。
Even if one utterance to be recognized includes a plurality of fields, scenes, and situations, there is a language model that has learned the language features of the plurality of fields, scenes, and situations, so that the recognition rate is high. The advantage is that a language model can be generated.

【0068】実施の形態3.図7はこの発明の実施の形
態3による音声認識装置の構成を示すブロック図であ
る。図において、実施の形態1の図1,及び従来の音声
認識装置の図14と同一の機能ブロックについては、同
一の符号を付し説明を省略する。
Embodiment 3 FIG. 7 is a block diagram showing a configuration of a voice recognition device according to Embodiment 3 of the present invention. In the figure, the same functional blocks as those in FIG. 1 of Embodiment 1 and FIG. 14 of the conventional speech recognition apparatus are denoted by the same reference numerals, and description thereof will be omitted.

【0069】次に動作について説明する。図8はこの発
明の実施の形態3による音声認識装置における音声認識
方法を示すフローチャートである。音声特徴量抽出手段
1102は、ステップST301において認識対象音声
1101を入力し、ステップST302において音声特
徴量を抽出する。ここで、音声特徴量とは少ない情報量
で音声の特徴を表すものであり、例えば、文献1の5章
で述べているようなケプストラム、ケプストラムの動的
特徴で構成する特徴ベクトルである。
Next, the operation will be described. FIG. 8 is a flowchart showing a voice recognition method in the voice recognition device according to the third embodiment of the present invention. The voice feature amount extraction unit 1102 inputs the recognition target voice 1101 in step ST301, and extracts a voice feature amount in step ST302. Here, the speech feature amount represents a feature of speech with a small amount of information, and is, for example, a cepstrum described in Chapter 5 of Document 1 and a feature vector composed of dynamic features of the cepstrum.

【0070】ステップST303において、言語モデル
選択手段1104は、照合手段1105で用いる言語モ
デルを、木構造クラスタ別言語モデル2003の木構造
クラスタ1の言語モデル2003−1〜木構造クラスタ
Mの言語モデル2003−Mから1つ選択する。言語モ
デルの選択は、例えば文献5に示されている方法を用
い、最も生起確率が高い木構造クラスタの言語モデルを
選択する。
In step ST303, the language model selecting means 1104 converts the language model used by the matching means 1105 into the language model 2003-1 of the tree-structure cluster 1 and the language model 2003 of the tree-structure cluster M by the tree-structure cluster-based language model 2003. -Select one from M. The language model is selected by using, for example, the method described in Reference 5, and the language model of the tree-structure cluster having the highest occurrence probability is selected.

【0071】ステップST304において、照合手段1
105は、言語モデル選択手段1104によって選択さ
れた木構造クラスタ言語モデルと、音響モデル1103
を入力して認識対象音声1101の音声特徴量に対して
照合を行い、最も尤度(照合スコア)が高い単語列を音
声認識結果1106として出力する。
In step ST304, the matching means 1
Reference numeral 105 denotes a tree structure cluster language model selected by the language model selecting unit 1104 and an acoustic model 1103.
Is input to perform matching on the speech feature amount of the recognition target speech 1101, and a word string having the highest likelihood (matching score) is output as the speech recognition result 1106.

【0072】この場合の照合処理を具体的に説明する。
照合手段1105は、言語モデル選択手段1104によ
って選択された木構造クラスタ言語モデルが設定してい
る認識対象の単語[W(1),W(2),...,W
(wn)](wnは認識対象とする単語数)の発音表記
を、認識ユニットラベル表記に変換し、このラベルにし
たがって、音響モデル1103に格納されている音素ユ
ニットのHMMを連結し、認識対象単語の標準パターン
[λW(1),λW(2),...,λW(wn)]を作成する。
The collation processing in this case will be specifically described.
The matching unit 1105 outputs the recognition target words [W (1), W (2),...) Set by the tree-structure cluster language model selected by the language model selecting unit 1104. . . , W
(Wn)] (where wn is the number of words to be recognized) is converted into a recognition unit label notation, and HMMs of phoneme units stored in the acoustic model 1103 are connected according to the label, and Standard patterns of words [λ W (1) , λ W (2) ,. . . , Λ W (wn) ].

【0073】そして、照合手段1105は、認識対象単
語標準パターンと選択された木構造クラスタ言語モデル
によって表される単語列の生起確率を用いて、音声特徴
量分析手段1102の出力である音声特徴量に対して照
合を行い、音声認識結果1106を出力する。音声認識
結果1106は、認識対象音声に対して認識対象単語で
最も尤度が高い単語の単語番号系列Rn=[r(1),
r(2),...,r(m)]を計算し、単語番号に対
応する単語Rw=[W(r(1)),W(r
(2)),...,W(r(m))]を出力する。ここ
で、r(i)は音声認識結果の単語系列のi番目の単語
の単語番号を示し、mは認識単語系列の単語数を示す。
The collation unit 1105 uses the recognition target word standard pattern and the occurrence probability of the word string represented by the selected tree-structured cluster language model to generate the speech feature amount output from the speech feature amount analysis unit 1102. And outputs a speech recognition result 1106. The speech recognition result 1106 is a word number sequence Rn = [r (1),
r (2),. . . , R (m)], and the word Rw = [W (r (1)), W (r
(2)),. . . , W (r (m))]. Here, r (i) indicates the word number of the i-th word in the word sequence of the speech recognition result, and m indicates the number of words in the recognized word sequence.

【0074】以上は、選択対象の木構造クラスタ別言語
モデルを、実施の形態1で生成した木構造クラスタ1の
言語モデル2003−1〜木構造クラスタMの言語モデ
ル2003−Mとして説明したが、実施の形態2で生成
した補間処理された木構造クラスタ1の言語モデル30
02−1〜補間処理された木構造クラスタMの言語モデ
ル3002−Mとしても良い。
The language model for each tree structure cluster to be selected has been described above as the language model 2003-1 of the tree structure cluster 1 generated in the first embodiment and the language model 2003-M of the tree structure cluster M. Language Model 30 of Interpolated Tree Structure Cluster 1 Generated in Embodiment 2
The language model 3002-M of the tree structure cluster M subjected to the interpolation processing 02-1 to 02 may be used.

【0075】また、実施の形態3における音声認識方法
を音声認識プログラムとして記録媒体に記録することも
できる。この場合には、実施の形態1の言語モデル生成
プログラムに加えて、音声特徴量抽出手段1102と同
様の処理を実現する音声特徴量抽出手順と、言語モデル
選択手段1104と同様の処理を実現する言語モデル選
択手順と、照合手段1105と同様の処理を実現する照
合手順を含む音声認識プログラムを記録媒体に記録す
る。
The voice recognition method according to the third embodiment can be recorded on a recording medium as a voice recognition program. In this case, in addition to the language model generation program of the first embodiment, a speech feature extraction procedure for realizing the same processing as that of the speech feature extraction unit 1102 and a process similar to the language model selection unit 1104 are realized. A speech recognition program including a language model selection procedure and a collation procedure for realizing the same processing as the collation unit 1105 is recorded on a recording medium.

【0076】以上のように、この実施の形態3における
音声認識装置及び音声認識方法によれば、学習用テキス
トデータ1001を階層的に木構造クラスタリングし、
各木構造クラスタに属する学習用テキストデータ200
2−1〜2002−Mを用いて、木構造クラスタ別言語
モデル2003−1〜2003−Mを生成するので、学
習用テキストデータが少量であることによって生じる言
語モデルのゼロ頻度問題やスパースネスの問題を軽減で
き、この木構造クラスタ別言語モデル2003から言語
モデルを選択して音声認識を行うので、認識精度が高い
音声認識ができるという効果が得られる。
As described above, according to the speech recognition apparatus and the speech recognition method in the third embodiment, the learning text data 1001 is hierarchically clustered in a tree structure.
Learning text data 200 belonging to each tree structure cluster
Since the language model for each tree structure cluster 2003-1 to 2003-M is generated using 2-1 to 2002-M, the problem of zero frequency and sparseness of the language model caused by a small amount of text data for learning is generated. Can be reduced, and a language model is selected from the tree model cluster-based language model 2003 to perform speech recognition. Therefore, an effect that speech recognition with high recognition accuracy can be performed can be obtained.

【0077】また、認識対象の音声が複数の分野や場面
・状況を含む場合であっても、複数の分野や場面・状況
の言語特徴を学習した木構造クラスタ言語モデルを選択
し音声認識を行うので、認識性能が高い音声認識ができ
る効果が得られる。
Even when the speech to be recognized includes a plurality of fields, scenes, and situations, a tree-structure cluster language model that has learned the language features of the plurality of fields, scenes, and situations is selected and speech recognition is performed. Therefore, an effect of enabling speech recognition with high recognition performance can be obtained.

【0078】実施の形態4.図9はこの発明の実施の形
態4による音声認識装置の構成を示すブロック図であ
る。図において、5001は複数言語モデル選択手段、
5002は混合言語モデル生成手段である。実施の形態
3の図7と同一の機能ブロックについては、同一の符号
を付し説明を省略する。
Embodiment 4 FIG. 9 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 4 of the present invention. In the figure, reference numeral 5001 denotes a multiple language model selecting unit;
Reference numeral 5002 denotes a mixed language model generation unit. The same functional blocks as in FIG. 7 of the third embodiment are denoted by the same reference numerals, and description thereof is omitted.

【0079】次に動作について説明する。図10はこの
発明の実施の形態4による音声認識装置における音声認
識方法を示すフローチャートである。ステップST40
1及びステップST402の処理は、実施の形態3にお
ける図8のステップST301及びステップST302
の処理と同一である。
Next, the operation will be described. FIG. 10 is a flowchart showing a voice recognition method in the voice recognition device according to Embodiment 4 of the present invention. Step ST40
1 and step ST402 correspond to steps ST301 and ST302 in FIG.
Is the same as the processing of

【0080】ステップST403において、複数言語モ
デル選択手段5001は、木構造クラスタ1の言語モデ
ル2003−1〜木構造クラスタMの言語モデル200
3−Mから2つ以上(K個以下)の木構造クラスタの言
語モデルを選択する。言語モデルの選択は、例えば文献
5に示されている方法を拡張し、生起確率が高い順から
K個の言語モデルを選択する方法を用いる。
In step ST403, the multiple language model selecting means 5001 selects the language model 2003-1 of the tree structure cluster 1 to the language model 200 of the tree structure cluster M.
Select language models of two or more (K or less) tree-structure clusters from 3-M. The selection of the language model uses, for example, a method that extends the method described in Document 5 and selects K language models in descending order of occurrence probability.

【0081】ステップST404において、混合言語モ
デル生成手段5002は、複数言語モデル選択手段50
01によって選択された複数の木構造クラスタ言語モデ
ルを入力し、1つの混合言語モデルを生成する。混合モ
デルは、例えばN−gramモデルであるならば、次の
(6)式によって生起確率を計算する。
In step ST404, the mixed language model generating means 5002 sets the plural language model selecting means 50
01, a plurality of tree-structure cluster language models selected as input, and one mixed language model is generated. If the mixed model is, for example, an N-gram model, the occurrence probability is calculated by the following equation (6).

【数4】 (Equation 4)

【0082】上記(6)式において、Pm (wn |w
n+1-N n-1)は混合言語モデルの生起確率であり、Ψは複
数言語モデル選択手段5001によって選択された木構
造クラスタ言語モデルの番号の集合、Pi (wn |w
n+1-N n-1)は選択された言語モデルの生起確率であり、
βi は重み係数である。ここでβi については、例えば
文献5に示されている言語モデル選択時の生起確率にし
たがって、生起確率が高い言語モデルはβi が大きくな
るように設定する。
In the above equation (6), P m (w n | w
n + 1-N n-1 ) is the occurrence probability of the mixed language model, Ψ is the set of numbers of the tree-structured cluster language model selected by the multiple language model selecting means 5001, and P i (w n | w)
n + 1-N n-1 ) is the probability of occurrence of the selected language model,
β i is a weight coefficient. Here, with respect to β i , for example, a language model with a high occurrence probability is set to have a large β i in accordance with the occurrence probability at the time of selecting a language model shown in Document 5.

【0083】ステップST405において、照合手段1
105は、混合言語モデル生成手段5002によって生
成された混合言語モデルと、音響モデル1103を入力
し、認識対象音声1101の音声特徴量に対して照合を
行い、最も尤度が高い単語列を音声認識結果1106と
して出力する。
In step ST405, the matching means 1
105, the mixed language model generated by the mixed language model generating means 5002 and the acoustic model 1103 are input, and a collation is performed on the speech feature amount of the recognition target speech 1101, and a word string having the highest likelihood is subjected to speech recognition. The result is output as 1106.

【0084】以上は、選択対象の木構造クラスタ言語モ
デルを、実施の形態1で生成した木構造クラスタ1の言
語モデル2003−1〜木構造クラスタMの言語モデル
2003−Mとして説明したが、実施の形態2で生成し
た補間処理された木構造クラスタ1の言語モデル300
2−1〜補間処理された木構造クラスタMの言語モデル
3002−Mとしても良い。
In the above, the tree structure cluster language model to be selected has been described as the language model 2003-1 of the tree structure cluster 1 generated in the first embodiment to the language model 2003-M of the tree structure cluster M. Language Model 300 of Interpolated Tree Structure Cluster 1 Generated in Form 2
2-1 may be a language model 3002-M of the tree-structured cluster M subjected to the interpolation processing.

【0085】また、実施の形態4における音声認識方法
を音声認識プログラムとして記録媒体に記録することも
できる。この場合には、実施の形態1の言語モデル生成
プログラムに加えて、音声特徴量抽出手段1102と同
様の処理を実現する音声特徴量抽出手順と、照合手段1
105と同様の処理を実現する照合手順と、複数言語モ
デル選択手段5001と同様の処理を実現する複数言語
モデル選択手順と、混合言語モデル生成手段5002と
同様の処理を実現する混合言語モデル生成手順とを含む
音声認識プログラムを記録媒体に記録する。
Further, the voice recognition method according to the fourth embodiment can be recorded on a recording medium as a voice recognition program. In this case, in addition to the language model generation program of the first embodiment, a speech feature amount extraction procedure for realizing the same processing as the speech feature amount extraction unit 1102, and a matching unit 1
105, a multilingual model selecting procedure for realizing the same processing as the multilingual model selecting means 5001, and a mixed language model generating procedure for realizing the same processing as the mixed language model generating means 5002 Is recorded on a recording medium.

【0086】以上のように、この実施の形態4における
音声認識装置及び音声認識方法によれば、学習用テキス
トデータ1001を階層的に木構造クラスタリングし、
各木構造クラスタの学習用テキストデータ2002−1
〜2002−Mを用いて、木構造クラスタ別言語モデル
2003−1〜2003−Mを生成し、学習用テキスト
データが少量であることによって生じる言語モデルのゼ
ロ頻度問題やスパースネスの問題を軽減でき、この木構
造クラスタ別言語モデル2003から複数選択した木構
造クラスタ言語モデルによって混合言語モデルを生成し
て、音声認識に用いるので、さらに認識精度が高い音声
認識ができるという効果が得られる。
As described above, according to the speech recognition apparatus and the speech recognition method in the fourth embodiment, the learning text data 1001 is hierarchically clustered in a tree structure.
Learning text data 2002-1 for each tree structure cluster
-2002-M, the tree-structure cluster-based language models 2003-1 to 2003-M are generated, and the zero frequency problem and the sparseness problem of the language model caused by a small amount of text data for learning can be reduced. Since a mixed language model is generated by using a plurality of tree-structure cluster language models selected from the tree-structure cluster language model 2003 and is used for speech recognition, an effect that speech recognition with higher recognition accuracy can be performed can be obtained.

【0087】また、認識対象の1発声が複数の分野や場
面・状況を含む場合であっても、複数の分野や場面・状
況の言語特徴を学習した言語モデルを選択し混合言語モ
デルを生成して音声認識に用いるので、認識性能が高い
音声認識ができる効果が得られる。
Even when one utterance to be recognized includes a plurality of fields, scenes, and situations, a language model that has learned language features of a plurality of fields, scenes, and situations is selected to generate a mixed language model. Therefore, the present invention has the effect of enabling speech recognition with high recognition performance.

【0088】実施の形態5.図11はこの発明の実施の
形態5による音声認識装置の構成を示すブロック図であ
る。図において、6001は葉ノードのクラスタ別言語
モデル、6001−1〜6001−Lは葉ノードクラス
タ1〜Lの言語モデルである。実施の形態3の図7と同
一の機能ブロックについては、同一の符号を付し説明を
省略する。
Embodiment 5 FIG. 11 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 5 of the present invention. In the figure, 6001 is a language model for each leaf node cluster, and 6001-1 to 6001-L are language models for leaf node clusters 1 to L. The same functional blocks as in FIG. 7 of the third embodiment are denoted by the same reference numerals, and description thereof is omitted.

【0089】次に動作について説明する。図12はこの
発明の実施の形態5による音声認識装置における音声認
識方法を示すフローチャートである。ステップST50
1及びステップST502の処理は、実施の形態3にお
ける図8のステップST301及びステップST302
の処理と同一である。
Next, the operation will be described. FIG. 12 is a flowchart showing a voice recognition method in the voice recognition device according to the fifth embodiment of the present invention. Step ST50
1 and step ST502 correspond to steps ST301 and ST302 in FIG.
Is the same as the processing of

【0090】ステップST503において、言語モデル
選択手段1104は、木構造クラスタの葉ノードクラス
タの言語モデルから、照合手段1105で用いる言語モ
デルを、葉ノードクラスタ1の言語モデル6001−1
〜葉ノードクラスタLの言語モデル6001−Lから1
つ選択する。ここで、葉ノードクラスタの言語モデルと
は、木構造の最も下層の木構造クラスタの言語モデルで
ある。図4の例では、木構造クラスタ20の言語モデル
LM20,木構造クラスタ21の言語モデルLM21,
木構造クラスタ22の言語モデルLM22,木構造クラ
スタ23の言語モデルLM23が葉ノードクラスタの言
語モデルに相当する。
In step ST503, the language model selecting means 1104 converts the language model used by the matching means 1105 from the language model of the leaf node cluster of the tree structure cluster into the language model 6001-1 of the leaf node cluster 1.
~ 1 from language model 6001-L of leaf node cluster L
Choose one. Here, the language model of the leaf node cluster is the language model of the lowest tree structure cluster of the tree structure. In the example of FIG. 4, the language model LM20 of the tree structure cluster 20, the language model LM21 of the tree structure cluster 21,
The language model LM22 of the tree structure cluster 22 and the language model LM23 of the tree structure cluster 23 correspond to the language model of the leaf node cluster.

【0091】このような葉ノードクラスタの言語モデル
は、分野や場面・状況の違いによる言語の性質の違いを
詳細に表現するモデルとなっているので、分野や場面・
状況が明確に分かれるような認識対象の音声である場合
は有効である。また、全ての木構造クラスタ別の言語モ
デルを用いる場合に比べて、選択対象のクラスタ言語モ
デルの数が少ないので、省メモリー、演算量削減の効果
がある。葉ノードクラスタの言語モデルの選択は、例え
ば文献5に示されている方法を用い、最も生起確率が高
い葉ノードクラスタの言語モデルを選択する。
The language model of such a leaf node cluster is a model that expresses in detail the differences in the language properties due to the differences in fields, scenes, and situations.
This is effective when the recognition target speech is such that the situation is clearly separated. Further, the number of cluster language models to be selected is smaller than in the case where language models for all tree-structured clusters are used, so that there is an effect of saving memory and reducing the amount of calculation. The language model of the leaf node cluster is selected by using, for example, the method described in Reference 5, and the language model of the leaf node cluster having the highest occurrence probability is selected.

【0092】ステップST504において、照合手段1
105は、言語モデル選択手段1104によって選択さ
れた葉ノードクラスタの言語モデルと、音響モデル11
03を入力して、認識対象音声1101の音声特徴量に
対して照合を行い、最も尤度が高い単語列を音声認識結
果1106として出力する。
In step ST504, the matching means 1
Reference numeral 105 denotes a language model of the leaf node cluster selected by the language model selecting unit 1104 and the acoustic model 11
03 is input, the speech feature amount of the recognition target speech 1101 is collated, and the word string having the highest likelihood is output as the speech recognition result 1106.

【0093】以上は、選択対象の葉ノードクラスタの言
語モデルを、実施の形態1で生成した木構造クラスタ別
言語モデル2003の葉ノードクラスタの言語モデルと
したが、実施の形態2で生成した補間処理された木構造
クラスタ別言語モデル3002の葉ノードクラスタの言
語モデルとしても良い。また、言語モデル選択手段11
04を複数言語モデル選択手段5001とし、後段に混
合言語モデル生成手段5002を接続し、混合言語モデ
ルを用いて照合処理を行っても良い。
In the above description, the language model of the leaf node cluster to be selected is the language model of the leaf node cluster generated by the tree structure cluster 2003 generated in the first embodiment. A language model of the leaf node cluster of the processed tree structure cluster language model 3002 may be used. Language model selection means 11
04 may be a multiple language model selecting means 5001, and a mixed language model generating means 5002 may be connected at a later stage to perform the collation processing using the mixed language model.

【0094】また、実施の形態5における音声認識方法
を音声認識プログラムとして記録媒体に記録することも
できる。この場合には、実施の形態1の言語モデル生成
プログラムに加えて、音声特徴量抽出手段1102と同
様の処理を実現する音声特徴量抽出手順と、言語モデル
選択手段1104と同様の処理を実現する言語モデル選
択手順と、照合手段1105と同様の処理を実現する照
合手順を含む音声認識プログラムを記録媒体に記録す
る。
Further, the voice recognition method according to Embodiment 5 can be recorded on a recording medium as a voice recognition program. In this case, in addition to the language model generation program of the first embodiment, a speech feature extraction procedure for realizing the same processing as that of the speech feature extraction unit 1102 and a process similar to the language model selection unit 1104 are realized. A speech recognition program including a language model selection procedure and a collation procedure for realizing the same processing as the collation unit 1105 is recorded on a recording medium.

【0095】以上のように、この実施の形態5における
音声認識装置及び音声認識方法によれば、学習用テキス
トデータ1001を階層的に木構造クラスタリングし、
各木構造クラスタの学習用テキストデータ2002−1
〜2002−Mを用いて、木構造クラスタ言語モデル2
003を生成するので、学習用テキストデータが少量で
あることによって生じる言語モデルのゼロ頻度問題やス
パースネスの問題を軽減でき、この木構造クラスタ言語
モデル2003の葉ノードクラスタの言語モデル600
1から選択した言語モデルを音声認識に用いるので、認
識精度が高い音声認識ができると共に、言語モデルのメ
モリ容量を削減でき、言語モデルを選択する際の演算量
を削減できるという効果が得られる。
As described above, according to the speech recognition apparatus and the speech recognition method in the fifth embodiment, the learning text data 1001 is hierarchically clustered in a tree structure.
Learning text data 2002-1 for each tree structure cluster
-2002-M, the tree structure cluster language model 2
Since 003 is generated, the zero frequency problem and the sparseness problem of the language model caused by a small amount of learning text data can be reduced, and the language model 600 of the leaf node cluster of the tree structure cluster language model 2003 can be reduced.
Since the language model selected from No. 1 is used for speech recognition, speech recognition with high recognition accuracy can be performed, the memory capacity of the language model can be reduced, and the amount of calculation when selecting the language model can be reduced.

【0096】また、認識対象の1発声が複数の分野や場
面・状況を含む場合であっても、複数の葉ノードクラス
タの言語モデルを選択し混合言語モデルを生成すれば、
複数の分野や場面・状況の言語特徴を学習した言語モデ
ルを音声認識に用いることになるので、認識性能が高い
音声認識ができる効果が得られる。
Even if one utterance to be recognized includes a plurality of fields, scenes, and situations, if a language model of a plurality of leaf node clusters is selected and a mixed language model is generated,
Since a language model that has learned language features of a plurality of fields, scenes, and situations is used for speech recognition, an effect of enabling speech recognition with high recognition performance can be obtained.

【0097】[0097]

【発明の効果】以上のように、この発明によれば、言語
モデル生成装置が、学習用テキストデータを言語的に類
似した性質を持つように階層的に分割する木構造クラス
タリングを行い、木構造学習用テキストデータクラスタ
を生成する学習用テキストデータ木構造クラスタリング
手段と、木構造学習用テキストデータクラスタに属する
各学習用テキストデータを用いて、木構造クラスタ別言
語モデルを生成する言語モデル生成手段とを備えたこと
により、学習用テキストデータが少量であることによっ
て生じる言語モデルのゼロ頻度問題やスパースネスの問
題を軽減でき、認識率の高い言語モデルが生成できると
共に、認識対象の1発声が複数の分野や場面・状況を含
む場合であっても、複数の分野や場面・状況の言語特徴
を学習した言語モデルが存在するので、認識率の高い言
語モデルが生成できる効果がある。
As described above, according to the present invention, the language model generating apparatus performs tree structure clustering for hierarchically dividing the learning text data so as to have linguistically similar properties. A learning text data tree structure clustering means for generating a learning text data cluster; and a language model generating means for generating a language model for each tree structure cluster using each learning text data belonging to the tree structure learning text data cluster. , The problem of zero frequency and sparseness of the language model caused by a small amount of text data for learning can be reduced, a language model with a high recognition rate can be generated, and one utterance of the recognition target Even if it includes fields, scenes, and situations, language models that have learned the language features of multiple fields, scenes, and situations Since Le is present, the effect of high recognition rate language model can be generated.

【0098】この発明によれば、言語モデル生成装置
が、木構造クラスタ別言語モデルが位置する木構造の上
位に位置する木構造クラスタ別言語モデルを用いて補間
処理を行い、補間処理された木構造クラスタ別言語モデ
ルを生成する言語モデル補間手段を備えたことにより、
学習用テキストデータが少量であることによって生じる
言語モデルのゼロ頻度問題やスパースネスの問題を軽減
でき、さらに認識率の高い言語モデルを生成できると共
に、認識対象の1発声が複数の分野や場面・状況を含む
場合であっても、複数の分野や場面・状況の言語特徴を
学習した言語モデルが存在するので、認識率の高い言語
モデルが生成できるという効果がある。
According to the present invention, the language model generating apparatus performs an interpolation process using the tree-structure-cluster-based language model located above the tree structure in which the tree-structure-cluster-based language model is located. By providing a language model interpolation means for generating a language model for each structural cluster,
It can reduce the problem of zero frequency and sparseness of language models caused by a small amount of text data for learning, can generate a language model with high recognition rate, and can recognize one utterance in multiple fields, scenes and situations. Is included, there is a language model that has learned the language features of a plurality of fields and scenes / situations, so that there is an effect that a language model with a high recognition rate can be generated.

【0099】この発明によれば、音声認識装置が、音声
特徴量抽出手段と、音響モデルと、学習用テキストデー
タを言語的に類似した性質を持つように階層的に分割す
る木構造クラスタリングを行い、各木構造クラスタの学
習用テキストデータを用いて生成された木構造クラスタ
別言語モデルと、木構造クラスタ別言語モデルから、音
声認識結果候補の単語列に対して最も生起確率が高い言
語モデルを選択する言語モデル選択手段と、選択された
言語モデルと音響モデルを用いて、音声特徴量抽出手段
が抽出した音声特徴量に対して照合を行い音声認識結果
を出力する照合手段とを備えたことにより、学習用テキ
ストデータが少量であることによって生じる言語モデル
のゼロ頻度問題やスパースネスの問題を軽減でき、木構
造クラスタ別言語モデルから言語モデルを選択して音声
認識を行うので、認識精度が高い音声認識ができると共
に、認識対象の音声が複数の分野や場面・状況を含む場
合であっても、複数の分野や場面・状況の言語特徴を学
習した木構造クラスタ言語モデルを選択し音声認識を行
うので、認識性能が高い音声認識ができる効果がある。
According to the present invention, the speech recognition apparatus performs tree structure clustering for hierarchically dividing the speech feature amount extracting means, the acoustic model, and the learning text data so as to have linguistically similar properties. From the language model for each tree structure cluster generated using the training text data of each tree structure cluster and the language model for each tree structure cluster, the language model with the highest probability of occurrence for the word string of the speech recognition result candidate is A language model selecting means for selecting, and a matching means for performing matching with respect to the speech feature quantity extracted by the speech feature quantity extracting means using the selected language model and acoustic model and outputting a speech recognition result. Can reduce the problem of zero frequency and sparseness of the language model caused by a small amount of text data for training. Since speech recognition is performed by selecting a language model from Dell, high-accuracy speech recognition can be performed, and even when the recognition target speech includes multiple fields, scenes, and situations, multiple fields, scenes, and situations are recognized. Since the tree structure cluster language model that has learned the language features of the situation is selected and speech recognition is performed, there is an effect that speech recognition with high recognition performance can be performed.

【0100】この発明によれば、音声認識装置の言語モ
デル選択手段が、木構造クラスタ別言語モデルにおける
最も下層の葉ノードのクラスタ別言語モデルから言語モ
デルを選択することにより、言語モデルのメモリ容量を
削減でき、言語モデルを選択する際の演算量を削減でき
るという効果がある。
According to the present invention, the language model selecting means of the speech recognition apparatus selects the language model from the cluster-based language model of the lowest leaf node in the tree-structure cluster-based language model, so that the memory capacity of the language model is And the amount of calculation when selecting a language model can be reduced.

【0101】この発明によれば、音声認識装置が、音声
特徴量抽出手段と、音響モデルと、学習用テキストデー
タを言語的に類似した性質を持つように階層的に分割す
る木構造クラスタリングを行い、各木構造クラスタの学
習用テキストデータを用いて生成された木構造クラスタ
別言語モデルと、木構造クラスタ別言語モデルから、音
声認識結果候補の単語列に対して生起確率の高い複数の
言語モデルを選択する複数言語モデル選択手段と、選択
された複数の言語モデルを入力して混合言語モデルを生
成する混合言語モデル生成手段と、生成された言語モデ
ルと音響モデルを用いて、音声特徴量抽出手段が抽出し
た音声特徴量に対して照合を行い音声認識結果を出力す
る照合手段とを備えたことにより、学習用テキストデー
タが少量であることによって生じる言語モデルのゼロ頻
度問題やスパースネスの問題を軽減でき、木構造クラス
タ別言語モデルから複数選択した木構造クラスタ言語モ
デルによって混合言語モデルを生成して、音声認識に用
いるので、さらに認識精度が高い音声認識ができると共
に、認識対象の1発声が複数の分野や場面・状況を含む
場合であっても、複数の分野や場面・状況の言語特徴を
学習した言語モデルを選択し混合言語モデルを生成して
音声認識に用いるので、認識性能が高い音声認識ができ
る効果がある。
According to the present invention, the speech recognition device performs tree structure clustering for hierarchically dividing the speech feature amount extracting means, the acoustic model, and the learning text data into linguistically similar properties. From the language model for each tree structure cluster generated using the training text data of each tree structure cluster and the language model for each tree structure cluster, a plurality of language models with a high probability of occurrence for the word sequence of the speech recognition result candidate Multi-language model selecting means for selecting a language model, a mixed language model generating means for generating a mixed language model by inputting a plurality of selected language models, and speech feature extraction using the generated language model and acoustic model Means for collating the speech features extracted by the means and outputting a speech recognition result, so that the amount of text data for learning is small. It can reduce the problem of zero frequency and sparseness of the language model caused by the language model, and generate a mixed language model by using a tree structure cluster language model selected from multiple language models for each tree structure cluster, and use it for speech recognition. In addition to high speech recognition, even if one utterance to be recognized includes multiple fields, scenes, and situations, a language model that has learned the language features of multiple fields, scenes, and situations is selected and a mixed language model is created. Since it is generated and used for speech recognition, there is an effect that speech recognition with high recognition performance can be performed.

【0102】この発明によれば、音声認識装置の複数言
語モデル選択手段が、木構造クラスタ別言語モデルにお
ける最も下層の葉ノードのクラスタ別言語モデルから複
数の言語モデルを選択することにより、言語モデルのメ
モリ容量を削減でき、言語モデルを選択する際の演算量
を削減できるという効果がある。
According to the present invention, the plurality of language models selecting means of the speech recognition apparatus selects a plurality of language models from the cluster-based language models of the lowest leaf node in the tree-structure cluster-based language model, whereby the language model is selected. This has the effect of reducing the memory capacity of the device and the amount of calculation when selecting a language model.

【0103】この発明によれば、音声認識装置の木構造
クラスタ別言語モデルが、木構造の上位に位置する木構
造クラスタ別言語モデルを用いて補間処理が行われた補
間処理された木構造クラスタ別言語モデルであることに
より、学習用テキストデータが少量であることによって
生じる言語モデルのゼロ頻度問題やスパースネスの問題
を軽減でき、さらに認識率の高い言語モデルを生成でき
ると共に、認識対象の1発声が複数の分野や場面・状況
を含む場合であっても、複数の分野や場面・状況の言語
特徴を学習した言語モデルが存在するので、認識率の高
い言語モデルが生成できるという効果がある。
According to the present invention, the language model for each tree structure cluster in the speech recognition apparatus is an interpolated tree structure cluster obtained by performing an interpolation process using the language model for each tree structure cluster positioned at the top of the tree structure. By using a different language model, the problem of zero frequency and sparseness of the language model caused by a small amount of training text data can be reduced, a language model with a higher recognition rate can be generated, and one utterance of the recognition target can be generated. However, even if includes a plurality of fields, scenes, and situations, there is a language model that has learned the linguistic features of the plurality of fields, scenes, and situations, so that a language model with a high recognition rate can be generated.

【0104】この発明によれば、言語モデル生成方法と
して、学習用テキストデータを言語的に類似した性質を
持つように階層的に分割する木構造クラスタリングを行
い、木構造学習用テキストデータクラスタを生成する第
1のステップと、木構造学習用テキストデータクラスタ
に属する各学習用テキストデータを用いて、木構造クラ
スタ別言語モデルを生成する第2のステップとを備えた
ことにより、学習用テキストデータが少量であることに
よって生じる言語モデルのゼロ頻度問題やスパースネス
の問題を軽減でき、認識率の高い言語モデルが生成でき
ると共に、認識対象の1発声が複数の分野や場面・状況
を含む場合であっても、複数の分野や場面・状況の言語
特徴を学習した言語モデルが存在するので、認識率の高
い言語モデルが生成できる効果がある。
According to the present invention, as a language model generation method, tree structure clustering for hierarchically dividing learning text data so as to have linguistically similar properties is performed to generate a tree structure learning text data cluster. And a second step of generating a language model for each tree structure cluster using each text data for learning belonging to the text data cluster for tree structure learning. It is possible to reduce the problem of zero frequency and sparseness of the language model caused by a small amount, to generate a language model with a high recognition rate, and to have one utterance to be recognized includes multiple fields, scenes and situations. However, there are language models that have learned the language features of multiple fields and scenes / situations. There can be effectively.

【0105】この発明によれば、言語モデル生成方法と
して、木構造クラスタ別言語モデルが位置する木構造の
上位に位置する木構造クラスタ別言語モデルを用いて補
間処理を行い、補間処理された木構造クラスタ別言語モ
デルを生成する第3のステップを備えたことにより、学
習用テキストデータが少量であることによって生じる言
語モデルのゼロ頻度問題やスパースネスの問題を軽減で
き、さらに認識率の高い言語モデルを生成できると共
に、認識対象の1発声が複数の分野や場面・状況を含む
場合であっても、複数の分野や場面・状況の言語特徴を
学習した言語モデルが存在するので、認識率の高い言語
モデルが生成できるという効果がある。
According to the present invention, as a language model generation method, an interpolation process is performed by using a tree structure cluster-based language model located above a tree structure in which a tree structure cluster-based language model is located, and the interpolated tree The provision of the third step of generating the language model for each structural cluster can reduce the zero frequency problem and the sparseness problem of the language model caused by a small amount of text data for learning, and can further reduce the language model having a high recognition rate. Can be generated, and even when one utterance to be recognized includes a plurality of fields, scenes, and situations, there is a language model that has learned the language features of the plurality of fields, scenes, and situations. There is an effect that a language model can be generated.

【0106】この発明によれば、音声認識方法として、
音声特徴量を抽出する第1のステップと、学習用テキス
トデータを言語的に類似した性質を持つように階層的に
分割する木構造クラスタリングを行い、各木構造クラス
タの学習用テキストデータを用いて生成された木構造ク
ラスタ別言語モデルから、音声認識結果候補の単語列に
対して最も生起確率が高い言語モデルを選択する第2の
ステップと、音響モデルと選択された言語モデルを用い
て、音声特徴量に対して照合を行い音声認識結果を出力
する第3のステップとを備えたことにより、学習用テキ
ストデータが少量であることによって生じる言語モデル
のゼロ頻度問題やスパースネスの問題を軽減でき、木構
造クラスタ別言語モデルから言語モデルを選択して音声
認識を行うので、認識精度が高い音声認識ができると共
に、認識対象の音声が複数の分野や場面・状況を含む場
合であっても、複数の分野や場面・状況の言語特徴を学
習した木構造クラスタ言語モデルを選択し音声認識を行
うので、認識性能が高い音声認識ができる効果がある。
According to the present invention, as a voice recognition method,
A first step of extracting speech features and a tree structure clustering that hierarchically divides the learning text data so as to have linguistically similar properties are performed, and using the learning text data of each tree structure cluster. A second step of selecting a language model having the highest occurrence probability for the word string of the speech recognition result candidate from the generated language model for each tree structure cluster, and using the acoustic model and the selected language model, A third step of collating feature amounts and outputting a speech recognition result can reduce a zero frequency problem and a sparseness problem of a language model caused by a small amount of learning text data, Speech recognition is performed by selecting a language model from the language model for each tree-structured cluster. Even if the data includes multiple fields, scenes, and situations, it selects a tree-structured cluster language model that has learned the language features of multiple fields, scenes, and situations, and performs speech recognition. There is an effect that can be done.

【0107】この発明によれば、音声認識方法の第2の
ステップで、木構造クラスタ別言語モデルにおける最も
下層の葉ノードのクラスタ別言語モデルから言語モデル
を選択することにより、言語モデルを選択する際の演算
量を削減できるという効果がある。
According to the present invention, in the second step of the speech recognition method, the language model is selected by selecting the language model from the cluster-based language model of the lowest leaf node in the tree-structure cluster-based language model. This has the effect of reducing the amount of computation at the time.

【0108】この発明によれば、音声認識方法として、
音声特徴量を抽出する第1のステップと、学習用テキス
トデータを言語的に類似した性質を持つように階層的に
分割する木構造クラスタリングを行い、各木構造クラス
タの学習用テキストデータを用いて生成された木構造ク
ラスタ別言語モデルから、音声認識結果候補の単語列に
対して生起確率が高い複数の言語モデルを選択する第2
のステップと、選択された複数の言語モデルを入力して
混合言語モデルを生成する第3のステップと、音響モデ
ルと生成された言語モデルを用いて、抽出した音声特徴
量に対して照合を行い音声認識結果を出力する第4のス
テップとを備えたことにより、学習用テキストデータが
少量であることによって生じる言語モデルのゼロ頻度問
題やスパースネスの問題を軽減でき、木構造クラスタ別
言語モデルから複数選択した木構造クラスタ言語モデル
によって混合言語モデルを生成して、音声認識に用いる
ので、さらに認識精度が高い音声認識ができると共に、
認識対象の1発声が複数の分野や場面・状況を含む場合
であっても、複数の分野や場面・状況の言語特徴を学習
した言語モデルを選択し混合言語モデルを生成して音声
認識に用いるので、認識性能が高い音声認識ができる効
果がある。
According to the present invention, as a speech recognition method,
A first step of extracting speech features and a tree structure clustering that hierarchically divides the learning text data so as to have linguistically similar properties are performed, and using the learning text data of each tree structure cluster. A second method of selecting a plurality of language models having a high probability of occurrence with respect to the word string of the speech recognition result candidate from the generated language model for each tree structure cluster;
And a third step of generating a mixed language model by inputting a plurality of selected language models, and performing matching on the extracted speech feature using the acoustic model and the generated language model. And the fourth step of outputting a speech recognition result can reduce a zero frequency problem and a sparseness problem of the language model caused by a small amount of text data for learning. Since a mixed language model is generated using the selected tree-structure cluster language model and used for speech recognition, speech recognition with higher recognition accuracy can be performed.
Even if one utterance to be recognized includes a plurality of fields, scenes, and situations, a language model that has learned language features of the plurality of fields, scenes, and situations is selected, and a mixed language model is generated and used for speech recognition. Therefore, there is an effect that voice recognition with high recognition performance can be performed.

【0109】この発明によれば、音声認識方法の第2の
ステップで、木構造クラスタ別言語モデルにおける最も
下層の葉ノードのクラスタ別言語モデルから複数の言語
モデルを選択することにより、言語モデルを選択する際
の演算量を削減できるという効果がある。
According to the present invention, in the second step of the speech recognition method, the language model is selected by selecting a plurality of language models from the cluster-based language model of the lowest leaf node in the tree-structure cluster-based language model. This has the effect of reducing the amount of calculation when selecting.

【0110】この発明によれば、言語モデル生成プログ
ラムを記録した記録媒体で、学習用テキストデータを言
語的に類似した性質を持つように階層的に分割する木構
造クラスタリングを行い、木構造学習用テキストデータ
クラスタを生成する学習用テキストデータ木構造クラス
タリング手順と、木構造学習用テキストデータクラスタ
に属する各学習用テキストデータを用いて、木構造クラ
スタ別言語モデルを生成する言語モデル生成手順とを実
現させることにより、学習用テキストデータが少量であ
ることによって生じる言語モデルのゼロ頻度問題やスパ
ースネスの問題を軽減でき、認識率の高い言語モデルが
生成できると共に、認識対象の1発声が複数の分野や場
面・状況を含む場合であっても、複数の分野や場面・状
況の言語特徴を学習した言語モデルが存在するので、認
識率の高い言語モデルが生成できる効果がある。
According to the present invention, tree structure clustering for hierarchically dividing learning text data so as to have linguistically similar properties is performed on a recording medium storing a language model generation program. A learning text data tree structure clustering procedure for generating text data clusters and a language model generation procedure for generating a tree model cluster-specific language model using each learning text data belonging to the tree structure learning text data cluster are realized. By doing so, the problem of zero frequency and sparseness of the language model caused by a small amount of text data for learning can be reduced, and a language model with a high recognition rate can be generated. Learn the linguistic features of multiple disciplines and scenes / situations, even if they include scenes / situations. Since the language model is present, the effect of high recognition rate language model can be generated.

【0111】この発明によれば、言語モデル生成プログ
ラムを記録した記録媒体で、木構造クラスタ別言語モデ
ルが位置する木構造の上位に位置する木構造クラスタ別
言語モデルを用いて補間処理を行い、補間処理された木
構造クラスタ別言語モデルを生成する言語モデル補間手
順を実現させることにより、学習用テキストデータが少
量であることによって生じる言語モデルのゼロ頻度問題
やスパースネスの問題を軽減でき、さらに認識率の高い
言語モデルを生成できると共に、認識対象の1発声が複
数の分野や場面・状況を含む場合であっても、複数の分
野や場面・状況の言語特徴を学習した言語モデルが存在
するので、認識率の高い言語モデルが生成できるという
効果がある。
According to the present invention, an interpolation process is performed on a recording medium on which a language model generation program is recorded, using a tree structure cluster language model located above a tree structure where the tree structure cluster language model is located. By implementing a language model interpolation procedure that generates an interpolated tree-structured cluster-based language model, it is possible to reduce the zero frequency problem and sparseness problem of the language model caused by a small amount of text data for learning, and further recognize In addition to generating a language model with a high rate, even if one utterance to be recognized includes multiple fields, scenes, and situations, there is a language model that has learned the language features of multiple fields, scenes, and situations. This has the effect that a language model with a high recognition rate can be generated.

【0112】この発明によれば、音声認識プログラムを
記録した記録媒体で、音声特徴量を抽出する音声特徴量
抽出手順と、学習用テキストデータを言語的に類似した
性質を持つように階層的に分割する木構造クラスタリン
グを行い、各木構造クラスタの学習用テキストデータを
用いて生成された木構造クラスタ別言語モデルから、音
声認識結果候補の単語列に対して最も生起確率が高い言
語モデルを選択する言語モデル選択手順と、音響モデル
と選択された言語モデルを用いて、抽出された音声特徴
量に対して照合を行い音声認識結果を出力する照合手順
とを実現させることにより、学習用テキストデータが少
量であることによって生じる言語モデルのゼロ頻度問題
やスパースネスの問題を軽減でき、木構造クラスタ別言
語モデルから言語モデルを選択して音声認識を行うの
で、認識精度が高い音声認識ができると共に、認識対象
の音声が複数の分野や場面・状況を含む場合であって
も、複数の分野や場面・状況の言語特徴を学習した木構
造クラスタ言語モデルを選択し音声認識を行うので、認
識性能が高い音声認識ができる効果がある。
According to the present invention, on the recording medium on which the speech recognition program is recorded, the speech feature amount extracting procedure for extracting the speech feature amount and the learning text data are hierarchically arranged so as to have linguistically similar properties. Perform a tree structure clustering to divide, and select the language model with the highest probability of occurrence for the word string of the speech recognition result candidate from the language model for each tree structure cluster generated using the training text data of each tree structure cluster The learning text data is realized by realizing a language model selection procedure to perform matching, and a matching procedure of performing matching on the extracted speech features and outputting a speech recognition result using the acoustic model and the selected language model. Can reduce the problem of zero frequency and sparseness of the language model caused by a small amount of language. Selects Dell and performs speech recognition, enabling high-accuracy speech recognition.Also, even when the speech to be recognized includes multiple fields, scenes, and situations, the language of multiple fields, scenes, and situations is used. Since speech recognition is performed by selecting a tree-structured cluster language model whose features have been learned, there is an effect that speech recognition with high recognition performance can be performed.

【0113】この発明によれば、音声認識プログラムの
言語モデル選択手順が、木構造クラスタ別言語モデルに
おける最も下層の葉ノードのクラスタ別言語モデルから
言語モデルを選択することにより、言語モデルを選択す
る際の演算量を削減できるという効果が得られる。
According to the present invention, the language model is selected by selecting the language model from the cluster-based language model of the lowest leaf node in the tree-structure cluster-based language model in the language model selection procedure of the speech recognition program. In this case, the effect of reducing the amount of calculation can be obtained.

【0114】この発明によれば、音声認識プログラムを
記録した記録媒体で、音声特徴量を抽出する音声特徴量
抽出手順と、学習用テキストデータを言語的に類似した
性質を持つように階層的に分割する木構造クラスタリン
グを行い、各木構造クラスタの学習用テキストデータを
用いて生成された木構造クラスタ別言語モデルから、音
声認識結果候補の単語列に対して生起確率の高い複数の
言語モデルを選択する複数言語モデル選択手順と、選択
された複数の言語モデルを入力して混合言語モデルを生
成する混合言語モデル生成手順と、音響モデルと、生成
された言語モデルを用いて、抽出された音声特徴量に対
して照合を行い音声認識結果を出力する照合手順とを実
現させることにより、学習用テキストデータが少量であ
ることによって生じる言語モデルのゼロ頻度問題やスパ
ースネスの問題を軽減でき、木構造クラスタ別言語モデ
ルから複数選択した木構造クラスタ言語モデルによって
混合言語モデルを生成して、音声認識に用いるので、さ
らに認識精度が高い音声認識ができると共に、認識対象
の1発声が複数の分野や場面・状況を含む場合であって
も、複数の分野や場面・状況の言語特徴を学習した言語
モデルを選択し混合言語モデルを生成して音声認識に用
いるので、認識性能が高い音声認識ができる効果があ
る。
According to the present invention, on a recording medium on which a speech recognition program is recorded, a speech feature amount extraction procedure for extracting a speech feature amount and a learning text data are hierarchically arranged so as to have linguistically similar properties. Performing tree structure clustering to divide, and from the language model for each tree structure cluster generated using the text data for learning of each tree structure cluster, a plurality of language models with high probability of occurrence for the word sequence of the speech recognition result candidate A multi-language model selection procedure to select, a mixed-language model generation procedure to generate a mixed-language model by inputting a plurality of selected language models, an acoustic model, and a speech extracted using the generated language model By implementing the matching procedure that performs matching on the feature amount and outputs the speech recognition result, the small amount of training text data The problem of zero frequency and sparseness of language models can be reduced, and a mixed language model is generated using a tree-structured cluster language model selected from multiple language models for each tree-structured cluster and used for speech recognition. Generates a mixed language model by selecting a language model that has learned the language features of multiple fields, scenes, and situations, even if one utterance to be recognized includes multiple fields, scenes, and situations Since it is used for speech recognition, there is an effect that speech recognition with high recognition performance can be performed.

【0115】この発明によれば、音声認識プログラムの
複数言語モデル選択手順が、木構造クラスタ別言語モデ
ルにおける最も下層の葉ノードのクラスタ別言語モデル
から複数の言語モデルを選択することにより、言語モデ
ルを選択する際の演算量を削減できるという効果が得ら
れる。
According to the present invention, the step of selecting a plurality of language models in the speech recognition program includes the step of selecting a plurality of language models from the cluster-based language models of the lowest leaf node in the tree-structure cluster-based language model. The effect of reducing the amount of computation when selecting is obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 この発明の実施の形態1による言語モデル生
成装置の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a language model generation device according to a first embodiment of the present invention.

【図2】 この発明の実施の形態1による言語モデル生
成装置における言語モデル生成方法を示すフローチャー
トである。
FIG. 2 is a flowchart showing a language model generation method in the language model generation device according to the first embodiment of the present invention.

【図3】 この発明の実施の形態1による学習用テキス
トデータ木構造クラスタリングの説明図である。
FIG. 3 is an explanatory diagram of learning text data tree structure clustering according to the first embodiment of the present invention;

【図4】 この発明の実施の形態1による木構造クラス
タ別の言語モデル生成の説明図である。
FIG. 4 is an explanatory diagram of generation of a language model for each tree structure cluster according to the first embodiment of the present invention;

【図5】 この発明の実施の形態2による言語モデル生
成装置の構成を示すブロック図である。
FIG. 5 is a block diagram showing a configuration of a language model generation device according to a second embodiment of the present invention.

【図6】 この発明の実施の形態2による言語モデル生
成装置における言語モデル生成方法を示すフローチャー
トである。
FIG. 6 is a flowchart showing a language model generation method in the language model generation device according to the second embodiment of the present invention.

【図7】 この発明の実施の形態3による音声認識装置
の構成を示すブロック図である。
FIG. 7 is a block diagram showing a configuration of a voice recognition device according to a third embodiment of the present invention.

【図8】 この発明の実施の形態3による音声認識装置
における音声認識方法を示すフローチャートである。
FIG. 8 is a flowchart showing a voice recognition method in a voice recognition device according to Embodiment 3 of the present invention.

【図9】 この発明の実施の形態4による音声認識装置
の構成を示すブロック図である。
FIG. 9 is a block diagram showing a configuration of a voice recognition device according to a fourth embodiment of the present invention.

【図10】 この発明の実施の形態4による音声認識装
置における音声認識方法を示すフローチャートである。
FIG. 10 is a flowchart showing a voice recognition method in a voice recognition device according to Embodiment 4 of the present invention.

【図11】 この発明の実施の形態5による音声認識装
置の構成を示すブロック図である。
FIG. 11 is a block diagram showing a configuration of a voice recognition device according to a fifth embodiment of the present invention.

【図12】 この発明の実施の形態5による音声認識装
置における音声認識方法を示すフローチャートである。
FIG. 12 is a flowchart showing a voice recognition method in a voice recognition device according to Embodiment 5 of the present invention.

【図13】 従来の言語モデル生成装置の構成を示すブ
ロック図である。
FIG. 13 is a block diagram illustrating a configuration of a conventional language model generation device.

【図14】 従来の音声認識装置の構成を示すブロック
図である。
FIG. 14 is a block diagram illustrating a configuration of a conventional voice recognition device.

【符号の説明】[Explanation of symbols]

1001 学習用テキストデータ、1004 言語モデ
ル生成手段、1101認識対象音声、1102 音声特
徴量抽出手段、1103 音響モデル、1104 言語
モデル選択手段、1105 照合手段、1106 音声
認識結果、2001 学習用テキストデータ木構造クラ
スタリング手段、2002 木構造学習用テキストデー
タクラスタ、2002−1 木構造クラスタ1の学習用
テキストデータ、2002−2 木構造クラスタ2の学
習用テキストデータ、2002−M 木構造クラスタM
の学習用テキストデータ、2003 木構造クラスタ別
言語モデル、2003−1 木構造クラスタ1の言語モ
デル、2003−2 木構造クラスタ2の言語モデル、
2003−M 木構造クラスタMの言語モデル、300
1 言語モデル補間手段、3002 補間処理された木
構造クラスタ別言語モデル、3002−1 補間処理さ
れた木構造クラスタ1の言語モデル、3002−2 補
間処理された木構造クラスタ2の言語モデル、3002
−M 補間処理された木構造クラスタMの言語モデル、
5001 複数言語モデル選択手段、5002 混合言
語モデル生成手段、6001 葉ノードのクラスタ別言
語モデル、6001−1 葉ノードクラスタ1の言語モ
デル、6001−2 葉ノードクラスタ2の言語モデ
ル、6001−L 葉ノードクラスタLの言語モデル。
1001 text data for learning, 1004 language model generating means, 1101 recognition target speech, 1102 voice feature quantity extracting means, 1103 acoustic model, 1104 language model selecting means, 1105 collating means, 1106 voice recognition result, 2001 text data tree structure for learning Clustering means, 2002 tree structure learning text data cluster, 2002-1 tree structure cluster 1 learning text data, 2002-2 tree structure cluster 2 learning text data, 2002-M tree structure cluster M
Learning text data of 2003, a language model by tree structure cluster 2003, a language model of 2003-1 tree structure cluster 1, a language model of 2003-2 tree structure cluster 2,
2003-M Language model of tree-structured cluster M, 300
1 Language Model Interpolating Means, 3002 Interpolated Tree Model by Tree Structure Cluster, 3002-1 Interpolated Tree Model of Tree Structure Cluster 1, 3002-2 Interpolated Tree Model of Tree Structure Cluster 2, 3002
-M a language model of the interpolated tree-structured cluster M,
5001 plural language model selection means, 5002 mixed language model generation means, 6001 language model for each leaf node cluster, 6001-1 language model for leaf node cluster 1, 6001-2 language model for leaf node cluster 2, 6001-L leaf node Language model of cluster L.

───────────────────────────────────────────────────── フロントページの続き (54)【発明の名称】 言語モデル生成装置及びこれを用いた音声認識装置、言語モデル生成方法及びこれを用いた音声 認識方法、並びに言語モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体及 び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 ──────────────────────────────────────────────────続 き Continuation of the front page (54) [Title of the Invention] A language model generation device and a speech recognition device using the same, a language model generation method and a speech recognition method using the same, and a computer recording a language model generation program Readable recording medium and computer readable recording medium on which voice recognition program is recorded

Claims (19)

【特許請求の範囲】[Claims] 【請求項1】 学習用テキストデータを入力して、単語
列の生起確率を求める言語モデルを生成する言語モデル
生成装置において、 上記学習用テキストデータを言語的に類似した性質を持
つように階層的に分割する木構造クラスタリングを行
い、木構造学習用テキストデータクラスタを生成する学
習用テキストデータ木構造クラスタリング手段と、 上記木構造学習用テキストデータクラスタに属する各学
習用テキストデータを用いて、木構造クラスタ別言語モ
デルを生成する言語モデル生成手段とを備えたことを特
徴とする言語モデル生成装置。
1. A language model generating apparatus for inputting learning text data and generating a language model for obtaining an occurrence probability of a word string, wherein the learning text data is hierarchically structured so as to have linguistically similar properties. A learning text data tree structure clustering means for performing tree structure clustering for generating a tree structure learning text data cluster, and a tree structure using each learning text data belonging to the tree structure learning text data cluster. A language model generating apparatus, comprising: a language model generating means for generating a cluster-specific language model.
【請求項2】 木構造クラスタ別言語モデルが位置する
木構造の上位に位置する木構造クラスタ別言語モデルを
用いて補間処理を行い、補間処理された木構造クラスタ
別言語モデルを生成する言語モデル補間手段を備えたこ
とを特徴とする請求項1記載の言語モデル生成装置。
2. A language model for performing an interpolation process using a tree structure cluster-based language model located above a tree structure in which a tree structure cluster-based language model is located, and generating an interpolated tree structure cluster-based language model. 2. The language model generating apparatus according to claim 1, further comprising an interpolation unit.
【請求項3】 認識対象音声を入力して音声認識を行い
音声認識結果を出力する音声認識装置において、 上記認識対象音声を入力し音声特徴量を抽出する音声特
徴量抽出手段と、 音声の音響的な観測値系列の確率を求める音響モデル
と、 学習用テキストデータを言語的に類似した性質を持つよ
うに階層的に分割する木構造クラスタリングを行い、各
木構造クラスタの学習用テキストデータを用いて生成さ
れた木構造クラスタ別言語モデルと、 上記木構造クラスタ別言語モデルから、音声認識結果候
補の単語列に対して最も生起確率が高い言語モデルを選
択する言語モデル選択手段と、 上記言語モデル選択手段により選択された言語モデルと
上記音響モデルを用いて、上記音声特徴量抽出手段が抽
出した音声特徴量に対して照合を行い音声認識結果を出
力する照合手段とを備えたことを特徴とする音声認識装
置。
3. A speech recognition apparatus for inputting a speech to be recognized, performing speech recognition and outputting a speech recognition result, comprising: a speech feature amount extraction unit for inputting the speech to be recognized and extracting a speech feature amount; Model that calculates the probability of a series of observed values and tree structure clustering that hierarchically divides the training text data into linguistically similar properties, and uses the training text data of each tree structure cluster. A language model having a highest probability of occurrence for a word string of a speech recognition result candidate from the language model having a tree structure cluster generated by the above-mentioned language model; Using the language model selected by the selection means and the acoustic model, the speech feature quantity extracted by the speech feature quantity extraction means is collated to perform speech recognition. Speech recognition apparatus characterized by comprising a verification means for outputting a result.
【請求項4】 言語モデル選択手段が、木構造クラスタ
別言語モデルにおける最も下層の葉ノードのクラスタ別
言語モデルから言語モデルを選択することを特徴とする
請求項3記載の音声認識装置。
4. The speech recognition apparatus according to claim 3, wherein the language model selecting means selects a language model from a cluster-based language model of a leaf node at the lowest layer in the tree-structure cluster-based language model.
【請求項5】 認識対象音声を入力して音声認識を行い
音声認識結果を出力する音声認識装置において、 上記認識対象音声を入力し音声特徴量を抽出する音声特
徴量抽出手段と、 音声の音響的な観測値系列の確率を求める音響モデル
と、 学習用テキストデータを言語的に類似した性質を持つよ
うに階層的に分割する木構造クラスタリングを行い、各
木構造クラスタの学習用テキストデータを用いて生成さ
れた木構造クラスタ別言語モデルと、 上記木構造クラスタ別言語モデルから、音声認識結果候
補の単語列に対して生起確率の高い複数の言語モデルを
選択する複数言語モデル選択手段と、 上記複数言語モデル選択手段によって選択された複数の
言語モデルを入力して混合言語モデルを生成する混合言
語モデル生成手段と、 上記混合言語モデル生成手段により生成された言語モデ
ルと上記音響モデルを用いて、上記音声特徴量抽出手段
が抽出した音声特徴量に対して照合を行い音声認識結果
を出力する照合手段とを備えたことを特徴とする音声認
識装置。
5. A voice recognition device for inputting a voice to be recognized, performing voice recognition and outputting a voice recognition result, wherein: a voice feature amount extraction means for inputting the voice to be recognized and extracting a voice feature amount; Model that calculates the probability of a series of observed values and tree structure clustering that hierarchically divides the training text data into linguistically similar properties, and uses the training text data of each tree structure cluster. A multi-language model selecting means for selecting a plurality of language models having a high probability of occurrence for a word sequence of a speech recognition result candidate from the tree model cluster-based language model generated by the above-mentioned language model; A mixed language model generating means for generating a mixed language model by inputting a plurality of language models selected by the plurality of language model selecting means; Using the language model generated by the Dell generating unit and the acoustic model, performing matching against the voice feature amount extracted by the voice feature amount extracting unit and outputting a voice recognition result. Speech recognition device.
【請求項6】 複数言語モデル選択手段が、木構造クラ
スタ別言語モデルにおける最も下層の葉ノードのクラス
タ別言語モデルから複数の言語モデルを選択することを
特徴とする請求項5記載の音声認識装置。
6. The speech recognition apparatus according to claim 5, wherein said plurality of language model selecting means selects a plurality of language models from cluster-based language models of the lowest leaf node in the tree-structure cluster-based language model. .
【請求項7】 木構造クラスタ別言語モデルが、木構造
の上位に位置する木構造クラスタ別言語モデルを用いて
補間処理が行われた補間処理された木構造クラスタ別言
語モデルであることを特徴とする請求項3又は請求項5
記載の音声認識装置。
7. The tree-structure-cluster language model is an interpolated tree-structure-cluster language model obtained by performing an interpolation process using a tree-structure-cluster language model located at a higher level of the tree structure. Claim 3 or Claim 5
The speech recognition device according to the above.
【請求項8】 学習用テキストデータを入力して、単語
列の生起確率を求める言語モデルを生成する言語モデル
生成方法において、 上記学習用テキストデータを言語的に類似した性質を持
つように階層的に分割する木構造クラスタリングを行
い、木構造学習用テキストデータクラスタを生成する第
1のステップと、 上記木構造学習用テキストデータクラスタに属する各学
習用テキストデータを用いて、木構造クラスタ別言語モ
デルを生成する第2のステップとを備えたことを特徴と
する言語モデル生成方法。
8. A language model generating method for inputting learning text data and generating a language model for obtaining an occurrence probability of a word string, wherein the learning text data is hierarchically structured so as to have linguistically similar properties. A first step of generating a tree structure learning text data cluster by performing tree structure clustering for dividing into tree structures, and using each of the learning text data belonging to the tree structure learning text data cluster, by using a tree structure cluster-specific language model. And a second step of generating a language model.
【請求項9】 木構造クラスタ別言語モデルが位置する
木構造の上位に位置する木構造クラスタ別言語モデルを
用いて補間処理を行い、補間処理された木構造クラスタ
別言語モデルを生成する第3のステップを備えたことを
特徴とする請求項8記載の言語モデル生成方法。
9. A third step of performing an interpolation process using a tree structure cluster-based language model located above the tree structure in which the tree structure cluster-based language model is located, and generating an interpolated tree structure cluster-based language model. 9. The language model generating method according to claim 8, further comprising the step of:
【請求項10】 認識対象音声を入力して音声認識を行
い音声認識結果を出力する音声認識方法において、 上記認識対象音声を入力し音声特徴量を抽出する第1の
ステップと、 学習用テキストデータを言語的に類似した性質を持つよ
うに階層的に分割する木構造クラスタリングを行い、各
木構造クラスタの学習用テキストデータを用いて生成さ
れた木構造クラスタ別言語モデルから、音声認識結果候
補の単語列に対して最も生起確率が高い言語モデルを選
択する第2のステップと、 音声の音響的な観測値系列の確率を求める音響モデル
と、上記第2のステップで選択された言語モデルを用い
て、上記第1のステップで抽出した音声特徴量に対して
照合を行い音声認識結果を出力する第3のステップとを
備えたことを特徴とする音声認識方法。
10. A voice recognition method for inputting a voice to be recognized, performing voice recognition and outputting a voice recognition result, wherein: a first step of inputting the voice to be recognized and extracting a voice feature amount; Tree-structure clustering, which hierarchically divides the tree structure so that it has linguistically similar properties, and uses the tree-structure-cluster-based language model generated using the training text data of each tree-structure cluster A second step of selecting a language model having the highest probability of occurrence for the word string; an acoustic model for obtaining a probability of an acoustic observation value sequence of speech; and a language model selected in the second step. And a third step of comparing the voice feature quantity extracted in the first step and outputting a voice recognition result.
【請求項11】 第2のステップで、木構造クラスタ別
言語モデルにおける最も下層の葉ノードのクラスタ別言
語モデルから言語モデルを選択することを特徴とする請
求項10記載の音声認識方法。
11. The speech recognition method according to claim 10, wherein in the second step, a language model is selected from the cluster-based language model of the lowest leaf node in the tree-structure cluster-based language model.
【請求項12】 認識対象音声を入力した音声認識を行
い音声認識結果を出力する音声認識方法において、 上記認識対象音声を入力し音声特徴量を抽出する第1の
ステップと、 学習用テキストデータを言語的に類似した性質を持つよ
うに階層的に分割する木構造クラスタリングを行い、各
木構造クラスタの学習用テキストデータを用いて生成さ
れた木構造クラスタ別言語モデルから、音声認識結果候
補の単語列に対して生起確率が高い複数の言語モデルを
選択する第2のステップと、 上記第2のステップで選択された複数の言語モデルを入
力して混合言語モデルを生成する第3のステップと、 音声の音響的な観測値系列の確率を求める音響モデル
と、上記第3のステップで生成された言語モデルを用い
て、上記第1のステップで抽出した音声特徴量に対して
照合を行い音声認識結果を出力する第4のステップとを
備えたことを特徴とする音声認識方法。
12. A voice recognition method for performing voice recognition by inputting a voice to be recognized and outputting a voice recognition result, comprising: a first step of inputting the voice to be recognized and extracting a voice feature amount; Tree structure clustering is performed by hierarchically dividing the tree so as to have linguistically similar properties. From the language model for each tree structure cluster generated using the training text data of each tree structure cluster, the words of speech recognition result candidates are A second step of selecting a plurality of language models having a high probability of occurrence for the column, a third step of inputting the plurality of language models selected in the second step and generating a mixed language model, The sound extracted in the first step using the acoustic model for obtaining the probability of the acoustic observation sequence of the speech and the language model generated in the third step. Speech recognition method characterized by comprising a fourth step of outputting a speech recognition result collates the feature quantity.
【請求項13】 第2のステップで、木構造クラスタ別
言語モデルにおける最も下層の葉ノードのクラスタ別言
語モデルから複数の言語モデルを選択することを特徴と
する請求項12記載の音声認識方法。
13. The speech recognition method according to claim 12, wherein in the second step, a plurality of language models are selected from the cluster-based language models of the lowest leaf node in the tree-structure cluster-based language model.
【請求項14】 学習用テキストデータを入力して、単
語列の生起確率を求める言語モデルを生成する言語モデ
ル生成プログラムを記録した記録媒体であって、 上記学習用テキストデータを言語的に類似した性質を持
つように階層的に分割する木構造クラスタリングを行
い、木構造学習用テキストデータクラスタを生成する学
習用テキストデータ木構造クラスタリング手順と、 上記木構造学習用テキストデータクラスタに属する各学
習用テキストデータを用いて、木構造クラスタ別言語モ
デルを生成する言語モデル生成手順とを実現させる言語
モデル生成プログラムを記録したコンピュータ読み取り
可能な記録媒体。
14. A recording medium recording a language model generating program for inputting learning text data and generating a language model for obtaining an occurrence probability of a word string, wherein the learning text data is linguistically similar. A learning text data tree structure clustering procedure for performing tree structure clustering that hierarchically divides to have a property and generating a tree structure learning text data cluster; and a learning text belonging to the tree structure learning text data cluster. A computer-readable storage medium storing a language model generation program for realizing a language model generation procedure for generating a tree model cluster-based language model using data.
【請求項15】 木構造クラスタ別言語モデルが位置す
る木構造の上位に位置する木構造クラスタ別言語モデル
を用いて補間処理を行い、補間処理された木構造クラス
タ別言語モデルを生成する言語モデル補間手順を実現さ
せる請求項14記載の言語モデル生成プログラムを記録
したコンピュータ読み取り可能な記録媒体。
15. A language model for performing an interpolation process using a tree structure cluster-based language model positioned above a tree structure in which a tree structure cluster-based language model is located, and generating an interpolated tree structure cluster-based language model. 15. A computer-readable recording medium on which the language model generating program according to claim 14 for realizing an interpolation procedure.
【請求項16】 認識対象音声を入力して音声認識を行
い音声認識結果を出力する音声認識プログラムを記録し
た記録媒体であって、 上記認識対象音声を入力し音声特徴量を抽出する音声特
徴量抽出手順と、 学習用テキストデータを言語的に類似した性質を持つよ
うに階層的に分割する木構造クラスタリングを行い、各
木構造クラスタの学習用テキストデータを用いて生成さ
れた木構造クラスタ別言語モデルから、音声認識結果候
補の単語列に対して最も生起確率が高い言語モデルを選
択する言語モデル選択手順と、 音声の音響的な観測値系列の確率を求める音響モデル
と、上記言語モデル選択手順により選択された言語モデ
ルを用いて、上記音声特徴量抽出手順により抽出された
音声特徴量に対して照合を行い音声認識結果を出力する
照合手順とを実現させる音声認識プログラムを記録した
コンピュータ読み取り可能な記録媒体。
16. A recording medium storing a speech recognition program for inputting a speech to be recognized and performing speech recognition and outputting a speech recognition result, wherein the speech feature quantity for inputting the speech to be recognized and extracting a speech feature quantity. An extraction procedure and tree-structure clustering that hierarchically divides the learning text data into linguistically similar properties, and a tree-structure cluster language generated using the learning text data of each tree-structure cluster A language model selection procedure for selecting a language model having the highest probability of occurrence for a word sequence of a speech recognition result candidate from a model; an acoustic model for obtaining a probability of an acoustic observation sequence of speech; Collating using the language model selected by the above with respect to the speech feature extracted by the above speech feature extracting procedure and outputting a speech recognition result. And a computer-readable recording medium on which a voice recognition program for realizing the above procedure is recorded.
【請求項17】 言語モデル選択手順が、木構造クラス
タ別言語モデルにおける最も下層の葉ノードのクラスタ
別言語モデルから言語モデルを選択することを特徴とす
る請求項16記載の音声認識プログラムを記録したコン
ピュータ読み取り可能な記録媒体。
17. The recorded speech recognition program according to claim 16, wherein the language model selecting step selects a language model from a cluster language model of a leaf node at the lowest layer in the tree structure cluster language model. Computer readable recording medium.
【請求項18】 認識対象音声を入力して音声認識を行
い音声認識結果を出力する音声認識プログラムを記録し
た記録媒体であって、 上記認識対象音声を入力し音声特徴量を抽出する音声特
徴量抽出手順と、 学習用テキストデータを言語的に類似した性質を持つよ
うに階層的に分割する木構造クラスタリングを行い、各
木構造クラスタの学習用テキストデータを用いて生成さ
れた木構造クラスタ別言語モデルから、音声認識結果候
補の単語列に対して生起確率の高い複数の言語モデルを
選択する複数言語モデル選択手順と、 上記複数言語モデル選択手順によって選択された複数の
言語モデルを入力して混合言語モデルを生成する混合言
語モデル生成手順と、 音声の音響的な観測値系列の確率を求める音響モデル
と、上記混合言語モデル生成手順により生成された言語
モデルを用いて、上記音声特徴量抽出手順により抽出さ
れた音声特徴量に対して照合を行い音声認識結果を出力
する照合手順とを実現させる音声認識プログラムを記録
したコンピュータ読み取り可能な記録媒体。
18. A recording medium on which a speech recognition program for inputting a speech to be recognized and performing speech recognition and outputting a speech recognition result is recorded, wherein a speech feature quantity for inputting the speech to be recognized and extracting a speech feature quantity. An extraction procedure and tree-structure clustering that hierarchically divides the learning text data into linguistically similar properties, and a tree-structure cluster language generated using the learning text data of each tree-structure cluster A multi-language model selection procedure for selecting a plurality of language models having a high probability of occurrence for a word string of a speech recognition result candidate from a model; A mixed language model generation procedure for generating a language model, an acoustic model for determining the probability of an acoustic observation sequence of speech, and the mixed language model generation Computer-readable recording of a speech recognition program for realizing a collation procedure of outputting a speech recognition result by performing collation on speech features extracted by the speech feature extraction procedure using the language model generated in order. Possible recording medium.
【請求項19】 複数言語モデル選択手順が、木構造ク
ラスタ別言語モデルにおける最も下層の葉ノードのクラ
スタ別言語モデルから複数の言語モデルを選択すること
を特徴とする請求項18記載の音声認識プログラムを記
録したコンピュータ読み取り可能な記録媒体。
19. The speech recognition program according to claim 18, wherein the step of selecting a plurality of language models selects a plurality of language models from cluster-based language models of the lowest leaf node in the tree-structure cluster-based language model. A computer-readable recording medium on which is recorded.
JP2000280655A 2000-09-14 2000-09-14 Voice recognition apparatus, voice recognition method, and computer-readable recording medium recording voice recognition program Expired - Fee Related JP4270732B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000280655A JP4270732B2 (en) 2000-09-14 2000-09-14 Voice recognition apparatus, voice recognition method, and computer-readable recording medium recording voice recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000280655A JP4270732B2 (en) 2000-09-14 2000-09-14 Voice recognition apparatus, voice recognition method, and computer-readable recording medium recording voice recognition program

Publications (2)

Publication Number Publication Date
JP2002091484A true JP2002091484A (en) 2002-03-27
JP4270732B2 JP4270732B2 (en) 2009-06-03

Family

ID=18765444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000280655A Expired - Fee Related JP4270732B2 (en) 2000-09-14 2000-09-14 Voice recognition apparatus, voice recognition method, and computer-readable recording medium recording voice recognition program

Country Status (1)

Country Link
JP (1) JP4270732B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004317845A (en) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst Model data generation device, model data generation method, and method therefor
CN1329883C (en) * 2003-09-12 2007-08-01 古井贞熙 Noise adaptation system and method for speech model, noise adaptation program for speech recognition
JP2007249050A (en) * 2006-03-17 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> Language model generating device, language model generating method, program thereof, and recording medium thereof
KR100776730B1 (en) * 2006-08-29 2007-11-19 울산대학교 산학협력단 Speaker-independent variable-word keyword spotting system including garbage modeling unit using gaussian mixture model and method thereof
KR100776729B1 (en) 2006-08-29 2007-11-19 울산대학교 산학협력단 Speaker-independent variable-word keyword spotting system including garbage modeling unit using decision tree-based state clustering and method thereof
WO2010100853A1 (en) * 2009-03-04 2010-09-10 日本電気株式会社 Language model adaptation device, speech recognition device, language model adaptation method, and computer-readable recording medium
US9142211B2 (en) 2012-02-14 2015-09-22 Nec Corporation Speech recognition apparatus, speech recognition method, and computer-readable recording medium
KR20190050224A (en) * 2017-11-02 2019-05-10 현대자동차주식회사 Apparatus and method for recoginizing voice in vehicle

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004317845A (en) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst Model data generation device, model data generation method, and method therefor
CN1329883C (en) * 2003-09-12 2007-08-01 古井贞熙 Noise adaptation system and method for speech model, noise adaptation program for speech recognition
US7424426B2 (en) 2003-09-12 2008-09-09 Sadaoki Furui And Ntt Docomo, Inc. Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
JP2007249050A (en) * 2006-03-17 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> Language model generating device, language model generating method, program thereof, and recording medium thereof
JP4537970B2 (en) * 2006-03-17 2010-09-08 日本電信電話株式会社 Language model creation device, language model creation method, program thereof, and recording medium thereof
KR100776730B1 (en) * 2006-08-29 2007-11-19 울산대학교 산학협력단 Speaker-independent variable-word keyword spotting system including garbage modeling unit using gaussian mixture model and method thereof
KR100776729B1 (en) 2006-08-29 2007-11-19 울산대학교 산학협력단 Speaker-independent variable-word keyword spotting system including garbage modeling unit using decision tree-based state clustering and method thereof
WO2010100853A1 (en) * 2009-03-04 2010-09-10 日本電気株式会社 Language model adaptation device, speech recognition device, language model adaptation method, and computer-readable recording medium
US9142211B2 (en) 2012-02-14 2015-09-22 Nec Corporation Speech recognition apparatus, speech recognition method, and computer-readable recording medium
KR20190050224A (en) * 2017-11-02 2019-05-10 현대자동차주식회사 Apparatus and method for recoginizing voice in vehicle
KR102552486B1 (en) 2017-11-02 2023-07-06 현대자동차주식회사 Apparatus and method for recoginizing voice in vehicle

Also Published As

Publication number Publication date
JP4270732B2 (en) 2009-06-03

Similar Documents

Publication Publication Date Title
JP6188831B2 (en) Voice search apparatus and voice search method
JP4267385B2 (en) Statistical language model generation device, speech recognition device, statistical language model generation method, speech recognition method, and program
JP4195428B2 (en) Speech recognition using multiple speech features
JP3004254B2 (en) Statistical sequence model generation device, statistical language model generation device, and speech recognition device
JP3933750B2 (en) Speech recognition method and apparatus using continuous density Hidden Markov model
JP5141695B2 (en) Symbol insertion device and symbol insertion method
JP5533042B2 (en) Voice search device, voice search method, program, and recording medium
JP4215418B2 (en) Word prediction method, speech recognition method, speech recognition apparatus and program using the method
US20010053974A1 (en) Speech recognition apparatus, speech recognition method, and recording medium
JPH11175090A (en) Speaker clustering processor and voice recognition device
JPH08328585A (en) Method and device for natural language processing and method and device for voice recognition
WO2010100853A1 (en) Language model adaptation device, speech recognition device, language model adaptation method, and computer-readable recording medium
CN104750677A (en) Speech translation apparatus, speech translation method and speech translation program
Suzuki et al. Music information retrieval from a singing voice using lyrics and melody information
JP3961780B2 (en) Language model learning apparatus and speech recognition apparatus using the same
JP4270732B2 (en) Voice recognition apparatus, voice recognition method, and computer-readable recording medium recording voice recognition program
JP2886121B2 (en) Statistical language model generation device and speech recognition device
JP2974621B2 (en) Speech recognition word dictionary creation device and continuous speech recognition device
JP4987530B2 (en) Speech recognition dictionary creation device and speech recognition device
JP2938865B1 (en) Voice recognition device
CN117043859A (en) Lookup table cyclic language model
JP6078435B2 (en) Symbol string conversion method, speech recognition method, apparatus and program thereof
JP4362054B2 (en) Speech recognition apparatus and speech recognition program
JP3894419B2 (en) Speech recognition apparatus, method thereof, and computer-readable recording medium recording these programs
KR20000037625A (en) Method for recognizing voice using speech characteristic information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071112

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071112

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080124

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090127

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090224

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140306

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees