JP4067776B2 - 言語モデル構成装置及び音声認識装置 - Google Patents

言語モデル構成装置及び音声認識装置 Download PDF

Info

Publication number
JP4067776B2
JP4067776B2 JP2001070952A JP2001070952A JP4067776B2 JP 4067776 B2 JP4067776 B2 JP 4067776B2 JP 2001070952 A JP2001070952 A JP 2001070952A JP 2001070952 A JP2001070952 A JP 2001070952A JP 4067776 B2 JP4067776 B2 JP 4067776B2
Authority
JP
Japan
Prior art keywords
vocabulary
corpus
sentence
language model
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001070952A
Other languages
English (en)
Other versions
JP2002268678A (ja
Inventor
芳春 阿部
裕三 丸田
啓恭 伍井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001070952A priority Critical patent/JP4067776B2/ja
Publication of JP2002268678A publication Critical patent/JP2002268678A/ja
Application granted granted Critical
Publication of JP4067776B2 publication Critical patent/JP4067776B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、音声を認識して文章を入力する音声認識文章入力装置のための言語モデル構成装置およびこのための音声認識装置に関するものである。
【0002】
【従来の技術】
利便性や特別な訓練が不要であることなどから、音声入力による文書作成への期待は極めて高く、音声認識による日本語の文章入力ソフトウェアが各社から市販され注目を浴びている。
【0003】
図20は、これらのソフトウェアをコンピュータで動作させることで実現される従来の音声認識文章入力装置の構成図である。図20において、2は入力の音声1を取り込む音声入力手段であり、21は例えば音素環境依存音素HMM(Hidden Marcov Model:隠れマルコフモデル)からなる音響モデルであり、31は例えば単語のNグラムからなる言語モデルである。
【0004】
4は音響モデル21と言語モデル31を参照して音声入力手段2が取得した入力の音声1を単語の列に変換する音声文字変換手段である。5は音声文字変換手段4の出力単語列である認識結果であり、6は複数の文を含む学習用テキストからなるコーパスを記憶するコーパス記憶手段である。71はコーパス中の文を解析して単語の連鎖に変換し言語モデル31を生成する言語モデル生成手段である。
【0005】
言語モデル31としては、単語連鎖の統計量に基づくn−gramモデル(例えばn=3)が用いられる。ここでn−gramモデルとは、ある時点で生起する事象の確率がその直前のn個の時点で生起した事象だけの影響を受けるときこれをn重マルコフ過程といい、単語の生起をn−1重マルコフ過程で近似したモデルをn−gramモデルと呼ぶ。このn−gramモデルでは、ある時点での単語の生起は直前のn−1単語のみに依存すると考えている。
【0006】
次に動作について説明する。
この構成において、ユーザの音声1は音声入力手段2によって取り込まれて、音声文字変換手段4によって言語モデル31に記憶された単語連鎖の情報に従って単語列に変換され、認識結果5が作成される。
【0007】
近年、音声認識の適用分野が広がり、認識対象が細分化されるに伴い、より広い話題をカバーする言語モデルが必要となっている。すなわち、話題は文によって構成され、文は、単語の連鎖によって構成されるため、単語連鎖のカバー率の高い言語モデルが要求される。
【0008】
言語モデルとして、上記の単語連鎖の統計量に基づくn−gramモデルを用いる場合、語彙数の増大と共に探索空間が莫大となるため、n−gramの足切りを行う必要があり、話題のカバー率は制限される。また、話題のカバー率を高く保つためにn−gramの足切りを行わない場合は、音響処理と組み合わせたとき、出現確率の低いテキストは、音響的に類似した出現確率の高いテキストに圧倒され、けっして認識されず、認識性能が低下するという課題がある。
【0009】
このように、単一の言語モデルでは、話題のカバー率と認識性能を両立させるのは難しい。これに対し、コーパスをクラスタに分類し各クラスタから要素言語モデルを作成し、これらの要素言語モデルを係数で重み付けして混合した混合言語モデルを構成し、少量の適応データにより混合言語モデルに対する重み係数を話題適応する方法が試みられている(この種の従来技術は、例えば、R.Iyer M.Ostendof, J.R. Rohlicek,「Language modeling with sentence−level mixtures」Proc. of ARPA Workshop on Human Language Technology,pp.82−87(1994)や、P.R.Clarkson,A.Robinson「Language model adaptation using mixtures and an exponentially decaying cache」Proc. of ICASSP97,pp.799−802や、清水徹、大野晃生、樋口宜男「文のクラスタリングに基づく統計的言語モデル」日本音響学会講演論文集1−6−14(1998−03)などの文献に記載されている)。
【0010】
また、話題ごとに分割されたコーパスから独立に複数の言語モデルを作成して、話題の制約をかけた単語列探索を行った後、各言語モデルに渡って正規化尤度が最大の単語列を認識結果とする方法(話題分割モデル)が提案されている(例えば、「H.Itsui,Y.Maruta,Y.Abe,K.Nakajima「A study on topic−dependnet language modeling」Proc. WESTPRAC VII,pp.137−140(2000−10)など)。ここでは、話題ごとの分割は、新聞記事を対象としており、記事ごとに人手で付与した「社会」、「政治」、「経済」などの「タグ」を頼りに、コーパス全体を分割し、それぞれのコーパスについて、言語モデルを作成していた。このため、業務文書やWebなどの文書など大量に得られるタグなしのコーパスについては、適用できないという課題がある。
【0011】
コーパスの自動クラスタリングに基づく、話題分割に関して、前記文献でIyerらは、1つの文書は1つの話題に属すると仮定して、文書を単位とした話題のクラスタリングを行い、さらにEmアルゴリズムにより、文の話題クラスタへの帰属確率を求めている。D.Cater,「Improving language models by clustering training sentences」SRI Technical Report(1994)には、文内の単語間の依存性を扱うため、文を最小単位としたコーパスのクラスタリングを行うことが記載されている。また、特開2000−75886号公報「統計的言語モデル生成装置及び音声認識装置」では、遷移確率の予測制度・信頼性を改善可能な統計的言語モデルを生成し、統計的言語モデルを用いてより高い音声認識率で音声認識するため、コーパス全体をクラスタリングする手段とクラスタごとにMAP推定法を用いてn−gram言語モデルを作成している。ここで、クラスタリングは、公知のK−means法に類似した方法で、文の分類は各クラスタごとの言語モデルによる文の生成確率を用いて行っている。なお、クラスタリングとは、データを構成している個体(文または文例)を何らかの属性に注目して分類することであり、クラスタリングによる分類でクラスタが生成される。
【0012】
図21は、前記特開2000−75886号公報で開示された技術に基づく音声認識装置の構成例を示す図である。図21において、7はコーパス記憶手段に記憶されたコーパスをクラスタに分類して複数の小コーパスからなる小コーパス群61を生成するクラスタリング手段である。72は小コーパス群61から、複数の要素言語モデルからなる要素言語モデル群32を生成する言語モデル生成手段である。その他の構成要素は、図20の従来の音声認識装置の構成要素と等しい。
【0013】
次に動作について説明する。
クラスタリング手段7は、コーパス記憶手段6に記憶されたコーパスとしての学習テキストから、C個(Cはクラスタ数)に分割された小コーパス群61内の小コーパス61−1〜61−Cを生成する。
【0014】
言語モデル生成手段72は、小コーパス群61内の小コーパス61−1〜61−Cから、要素言語モデル群32内の要素言語モデル32−1〜32−Cを生成する。
【0015】
単語列探索手段43は要素言語モデル群32の要素言語モデルのそれぞれについて予備探索手段41で得られた単語列について尤度を計算し、最大の尤度を有する要素言語モデルを適用したときに得られる単語列を認識結果として出力する。
【0016】
クラスタリング手段7は、文をクラスタへ分類するために、各クラスタにおける統計的言語モデルの文生成確率を計算して最大の文生成確率を有するクラスタを選択する。これにより、単一のタスクのデータであるコーパスを自動的に分類して、単語列ごとにn−gram遷移確率の平均、及び分散を求め、各クラスタの言語モデルの遷移確率推定に必要とする事前確率を求めている。また、同一のタスクの文でも、様々な内容の文が存在し、文ごとの内容で分類して、クラスタごとの言語的特徴を明確にさせ言語モデルの精度を向上させている。
【0017】
さらに、単語列探索手段43において、入力された音声の発話文が属するクラスタを知るため、入力音声をコーパス全体で作成した言語モデルで認識を行い、次に、認識結果から、クラスタ別の言語モデルを1つのみ選択し、再度認識を行っている。
【0018】
以上の説明中で用いられた「コーパス」とは、電子化された電子計算機等で読み取ることのできる大量の音声・言語データのことである。また、「タスク」とは、対象とする業務のことであり、例えば、「国際会議の受け付け」、「ホテルの予約」、「観光案内」などである。コーパス記憶手段に記憶される学習テキストであるコーパスは、通常これらの対象業務の大量の文例からなる。
【0019】
【発明が解決しようとする課題】
従来の単語連鎖の統計量に基づくn−gram言語モデルは、多くの話題から構成されるような大規模なコーパスに適用した場合に、単語連鎖n−gramの種類数を大きくする必要があるが、音声認識の単語列探索における探索空間が増大するため、話題のカバー率を高くできないという課題がある。
【0020】
また、音響処理と組み合せたとき、確率の低い文が認識できないという課題がある。
【0021】
一方、所定のコーパスの文をクラスタリングし、各クラスタから生成された要素言語モデルを混合して用いる従来の混合言語モデルは、文のクラスタ分類において、統計的言語モデルによる文の生成確率のみに基づいて分類を行っているため、多くの話題から構成されるような大規模なコーパスに適用した場合に、分類の結果クラスタごとに生成される要素言語モデルに含まれるn−gramの種類数が大きくなり、探索空間の問題から足切りが必要になる可能性があるという課題がある。
【0022】
また、音声認識の単語列探索に適用した場合に、要素言語モデルによっては、探索空間が大きくなる可能性が残るという課題がある。
【0023】
この発明は上記のような課題を解決するためになされたもので、多くの話題から構成されるような大規模なコーパスに適用した場合に、話題のカバー率が高く音声認識の単語列探索に適用した場合探索空間が小さい言語モデルを構成する言語モデル構成装置、および、複数の要素言語モデルを用いて単語列探索を効率的に行うことのできる音声認識装置を得ることを目的とする。
【0024】
【課題を解決するための手段】
この発明に係る言語モデル構成装置は、複数の文からなるコーパスを記憶するコーパス記憶手段と、コーパス中の各文を分類し、この分類に従ってコーパス中の文を複数のクラスタに分割して小コーパスからなる小コーパス群を生成するクラスタリング手段と、クラスタリング手段により生成された小コーパス内の文に基づいて小コーパスごとに要素言語モデルからなる要素言語モデル群を生成する言語モデル生成手段とを備え、クラスタリング手段は、小コーパス内の文に含まれる語彙あるいは語彙の組の頻度情報を含むセントロイドベクトルを計算するセントロイドベクトル計算手段と、小コーパス内の各文の語彙あるいは語彙の組みの頻度情報を含む文ベクトルとセントロイドベクトル計算手段が計算した各小コーパスのセントロイドベクトルとの間の演算によって文と各セントロイドベクトルとの類似度を計算するクラスタリング尺度計算手段と、クラスタリング尺度計算手段が計算した類似度に基づいて各文の所属クラスタを決定する文クラスタ番号決定手段とを備えたものである。
【0025】
この発明に係る言語モデル構成装置は、クラスタリング手段は、さらに、各文の語彙を話題独立語彙と話題依存語彙とに分類する語彙話題依存度計算手段を含み、セントロイドベクトル計算手段は、セントロイドベクトルの次元として、上記語彙話題依存度計算手段が計算した分類に基づき、各小コーパスで共通の値を話題共通語彙に対応する各次元とし、各小コーパスの文の語彙あるいは語彙の組みの頻度情報を話題依存語彙に対応する各次元としたセントロイドベクトルを計算するものである。
【0026】
この発明に係る言語モデル構成装置は、語彙話題依存度計算手段は、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙を話題独立語彙とするものである。
【0027】
この発明に係る言語モデル構成装置は、語彙話題依存度計算手段は、各文の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙とするものである。
【0028】
この発明に係る言語モデル構成装置は、語彙話題依存度計算手段は、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙と、所定の品詞の語彙以外の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙とするものである。
【0029】
この発明に係る言語モデル構成装置は、クラスタリング手段は、さらに、コーパス内の語彙を分類する語彙分類手段を含み、セントロイドベクトル計算手段は、各次元は各クラスタの文の語彙あるいは語彙の組みの頻度情報を語彙分類手段が分類した語彙の分類内で平滑化した頻度情報からなるセントロイドベクトルを計算するものである。
【0030】
この発明に係る言語モデル構成装置は、語彙分類手段は、文書あるいは段落を含む所定の相互に関連づけられた文セットに含まれる文の語彙あるいは語彙の組を同じ分類に分類するものである。
【0031】
この発明に係る言語モデル構成装置は、複数の文からなるコーパスを記憶するコーパス記憶手段と、コーパス中の各文を分類し、この分類に従ってコーパス中の文を複数のクラスタに分割して小コーパスからなる小コーパス群を生成するクラスタリング手段と、クラスタリング手段により生成された小コーパス内の文に基づいて小コーパスごとに要素言語モデルからなる要素言語モデル群を生成する言語モデル生成手段と、クラスタ数を所定の範囲で指定するクラスタ数制御手段と、クラスタリングの結果得られる各小コーパス内の語彙数を計算するクラスタ語彙数計算手段と、クラスタ数制御手段の指定したクラスタ数とクラスタ語彙数計算手段が計算した各小コーパスの語彙数とから探索空間の大きさを推定する探索空間推定手段と、探索空間推定手段が推定した探索空間の大きさに基づいて最適なクラスタ数を決定する最適クラスタ数決定手段とを有し、クラスタリング手段が上記クラスタ数制御手段の指定したクラスタ数でクラスタリングを実行するものである。
【0032】
この発明に係る音声認識装置は、音声を取り込む音声入力手段と、音声入力手段で取り込まれた音声を単語列に変換し認識結果を作成する音声文字変換手段と、言語モデル構成装置が構成した要素言語モデルを参照して並列的に仮説展開を実行する単語列探索手段とを有するものである。
【0033】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1を示すブロック構成図である。図1において、2はユーザの発話した音声1を取り込む音声入力手段であり、4は要素言語モデル群32を参照して音声入力手段2が取得した音声1を単語の列に変換する音声文字変換手段である。
【0034】
5は音声文字変換手段4の出力単語列である認識結果であり、21は公知の音素環境依存型の音素HMMから構成される音響モデルであり、41aは基本記号列認識手段である。
【0035】
44は基本記号列の認識誤り傾向を記憶した差分モデルであり、43aは差分モデル44および要素言語モデル群32を参照する単語列探索手段である。6は要素言語モデル群32の学習用の文例を含むコーパスを記憶したコーパス記憶手段であり、7はコーパス内の学習テキストを分類するクラスタリング手段である。
【0036】
61はクラスタリング手段7によって分類された複数の小コーパス61−1〜61−Cからなる小コーパス群であり、72は小コーパス群61内の小コーパス61−1〜61−Cから対応する要素言語モデル32−1〜32−Cを生成する言語モデル生成手段である。32は複数の要素言語モデル32−1〜32−Cからなる要素言語モデル群である。
【0037】
図2はコーパス中の文例1、文例2、文例3および文例4を示す図であり、図2において、文例1は「扁桃腺[名詞]の[助詞]炎症[名詞]は[助詞]、[読点]悪化[名詞]して[助詞]いる[助動詞]。[句点]eos[文末]」である。
【0038】
文例2は「胸部[名詞]の[助詞]X線[名詞]画像[名詞]から[助詞]、[読点]横隔膜[名詞]の[助詞]癒着[名詞]が[助詞]見[動詞]られる[助動詞]。[句点]eos[文末]」である。
【0039】
文例3は「胸部[名詞]横隔膜[名詞]の[助詞]癒着[名詞]が[助詞]見[動詞]られる[助動詞]。[句点]eos[文末]」である。
【0040】
文例4は「胸部[名詞]の[助詞]横隔膜[名詞]が[助詞]癒着[名詞]して[助詞]いる[助動詞]。[句点]eos[文末]」である。
【0041】
図3はクラスタリング手段7の構成を示す図であり、図3において701は学習テキストバッファであり、702は学習テキスト文ベクトル変換手段であり、703は語彙話題依存度計算手段であり、704は文クラスタ番号初期化手段であり、705はセントロイドベクトル計算手段であり、706は文クラスタ番号決定手段であり、707はクラスタリング尺度計算手段である。
【0042】
712は、分類結果出力手段であり、713は語彙分類手段であり、711は文ベクトル記憶手段であり、710は語彙話題依存度記憶手段であり、709は文クラスタ番号記憶手段であり、708はセントロイドベクトル記憶手段である。
【0043】
図4は語彙空間の分割の概念図であり、語彙空間が話題依存語彙空間(D+1〜V0次元)と話題独立語彙空間(1〜D次元)に分割されている。
【0044】
図5はクラスタリング手段7で記憶されるセントロイドベクトルFcの構成を示す図であり、セントロイドベクトルFcは、話題独立語彙であるFc[1]〜Fc[D]と、話題依存語彙であるFc[D+1]からFc[V0]とからなる。
【0045】
図6はコーパス分割(クラスタリング)処理の流れ図であり、コーパス分割処理は、初期分割処理をおこなうステップST701及びステップST702と、反復処理をおこなうステップST703からステップST709とからなる。
【0046】
次に、この実施の形態1のクラスタリング手段7の動作について説明する。
まず、クラスタリングの基本概念を図4を参照して以下に説明する。ここでは、1つの文は1つの話題に属すると仮定する。さらに、1つの文には話題依存の語彙と話題独立の語彙が混在すると仮定する。図4の外側の大きな領域が語彙全体が張る空間を表し、内側の斜線部分が話題共通の語彙が張る空間を表す。このような語彙の張る空間で、クラスタ1〜クラスタCの各クラスタの話題独立語彙は、共通する話題独立語彙空間内に含まれ、各クラスタの話題依存語彙は話題依存語彙空間内に含まれるようになっていると考える。
【0047】
クラスタリング手段7は、コーパス記憶手段6に記憶されたコーパスをこのように分割された語彙の空間内に含まれるクラスタ1からクラスタCに対応する小コーパス61−1〜小コーパス61−Cに分割する。このような分割により、話題カバー率が高く、それぞれの間では語彙の分離度が高い、クラスタ1〜クラスタCに対応する小コーパス61−1〜小コーパス61−Cからなる小コーパス群61を作成する。
【0048】
言語モデル生成手段72は、このような小コーパス群から探索空間が小さい要素言語モデル群32を生成する。なお、ここでは、語彙が張る空間として説明したが、文中の語彙の組が張る空間としても同様の効果を奏する。
【0049】
次にクラスタリングアルゴリズムについて説明する。
上記の概念に基づき、学習データ全体(コーパス)を所定のC個のクラスタに分類するため、次のようなK−meansアルゴリズムを用いる。
(S1)各文にランダムにC個のクラスを割当て初期クラスを作る。
(S2)全文について、後述するクラスタリングの尺度が最大となるクラスタを選択し、それをその文の新しいクラスとする。
(S3)S2の結果に基づいて、新しいクラスタを作る。
(S4)S2〜S3を所定の回数繰り返す。
【0050】
文クラスタ番号.
上記クラスタリングを実行するため、コーパス6中の各文s(s∈{1,…,S})について、各文sのクラスタ番号である文クラスタ番号c[s]を文クラスタ番号記憶手段709(図3)に記憶する。ここで、Sはコーパス全体の文の総数である。
【0051】
文クラスタ番号初期化.
文クラスタ番号初期化手段704(図3)は、1から所定のクラスタ数Cまでの一様乱数を生成し、各文sにランダムに文のクラスタ番号c[s]を与える。セントロイドベクトル計算手段705(図3)は、各文sのクラス番号c[s]を参照して、クラスcの文を選択して、選択されたクラスcの文について、次の構成のセントロイドベクトルを生成する。
【0052】
セントロイドベクトルの構成.
セントロイドベクトルFcは、図5のように構成され、一つのクラスタから一つのセントロイドベクトルが作成される。次に、セントロイドベクトルの構成について説明する。
【0053】
コーパスの異なり語彙数をV0として、全文の全語彙に番号v∈{1,…,V0}を付ける。各クラスタに属する全文について語彙の頻度を求め、番号vの語彙の頻度を第v次元の値とするV0次元のベクトルを構成し、これをクラスタc∈{1,…,C}のセントロイドベクトルFcとする。
【0054】
ここで、語彙の番号は、語彙の話題独立度の高さの降順につけてあり、セントロイドベクトルFcの低次D次元までの語彙を全クラスタ共通の話題独立の語彙として扱う。
【0055】
なお、語彙の話題独立度の高さは、次に説明する語彙話題依存度計算手段703(図3)によって、語彙話題依存度記憶手段710(図3)に記憶されている。
【0056】
語彙話題依存度.
語彙話題依存度計算手段703は、全コーパス中の語彙の頻度を求め、頻度の高い語彙を話題とは独立である、すなわち、話題依存度が低いとし、頻度の比較的低い語彙を話題に依存する語彙である、すなわち、話題依存度が高いとして、話題依存度を語彙話題依存度記憶手段710(図3)に記憶する。なお、語彙の話題独立度の決定については、後述の他の実施の形態によるものであってもよい。
【0057】
学習テキスト文ベクトル変換手段702は、コーパス中の各文sについて、次の構成の文ベクトルFsを生成し、文ベクトル記憶手段711に記憶する。
【0058】
文ベクトルの構成.
文sの文ベクトルFs(s∈{1,…,S})は、セントロイドベトクルと同様の構成を有する。ただし、各次元は、文中の語彙の頻度である。
【0059】
クラスタリング尺度計算手段707(図3)は、文ベクトルFsとセントロイドベクトルFcとから、文sがクラスタcに属する度合いとして次のようなクラスタリング尺度を計算する。
【0060】
クラスタリング尺度.
クラスタリング尺度Mc(s)は、文ベクトルFsとセントロイドベクトルFcとの類似度として、次式のような対数確率で表される。
L(Fs,Fc)
=Σ(v=1,V0)Fs[v]・log(Fc[v]/F0[c]) (1)
【0061】
ここで、関数Σは次の式により定義される。
Σ(i=1,n)X(i)=X(1)+X(2)+・・・+X(n)
【0062】
また、F0[c]は次式で計算されるクラスタc内の語彙の総頻度である。
F0[c]=Σ(v=1,v0)Fc[v]
【0063】
ここで、L(Fs,Fc)は文ベクトルFsとセントロイドベクトルとの類似度、Fs[v]は文ベクトルFsのv次元の値、Fc[v]はセントロイドベクトルFcのv次元の値である。また、上式で対数計算を省いた次式のような(頻度重み付き)ヒット率とすることもできる。
L(Fs,Fc)
=Σ(v=1,V0)Fs[v](Fc[v]/F0[c]) (2)
【0064】
文クラス番号再決定.
文クラスタ番号決定手段706(図3)は、文sについて、クラスタcとの例えば式(1)のクラスタリング尺度Mc(s)を参照して、最大のクラスタリング尺度を有するクラスタcmaxを決定し、文sのクラスタをcmaxに変更する。
【0065】
上述したように、図6は、この実施の形態1のクラスタリング処理を表す流れ図である。
【0066】
図6のステップST701では、一様乱数を用いて1からCの何れかのクラスタ番号c(s)を文例1から文例Sにランダムに割り当てる。このステップST701の処理は、上記の「文クラスタ番号の初期化」に対応する。
【0067】
ステップST702では、反復回数を表す変数iを0とする。
【0068】
ステップST703では、クラスcのセントロイドベクトルFcをクラス1からクラスCについて求める。このステップST703は、上記の「セントロイドベクトルの構成」に対応する。
【0069】
ステップST704では、コーパスから文例sを選択する。
【0070】
ステップST705では、文sについてクラスタリングの尺度Mc(s)をクラス1からクラスCについて求める。このステップST705は、上記の「クラスタリング尺度」に対応する。
【0071】
ステップST706では、クラスタリング尺度Mc(s)が最大であるクラスタcを選択して、文sのクラスタとする。このステップST706は、上記の「文クラス番号再決定」に対応する。
【0072】
ステップST707では、全ての文(文例)について、ステップST704からステップST706での処理が行われたか否かを判定し、行われた場合には、ステップST708に進み、行われていない場合には、ステップST704に進む。
【0073】
ステップST708では、反復回数を表す変数iを1増加する。
【0074】
ステップST709では、変数iの値が所定の反復回数に達したか否かを判定し、達した場合にはこの処理を終了し、達していない場合にはステップST703に進む。
【0075】
つぎに、文例を用いて、この実施の形態1のクラスタリング手段7の作用を説明する。
【0076】
図2に示した4つの文例「文例1:扁桃腺 の 炎症 は 、 悪化 している 。」、「文例2:胸部 の X線 画像 から 、 横隔膜 の 癒着 が見 られる 。」、「文例3:胸部 横隔膜 の 癒着 が 見 られる 。」および「文例4:胸部 の 横隔膜 が 癒着 して いる 。」を含むコーパスについて、この実施の形態1の効果を説明する。
【0077】
手順1.
コーパス全体の異なり語彙を求める。文例1〜文例4に含まれる語彙と頻度を頻度の大きい方から並べると、図7のようになる。なお、文例の数によって、語彙と頻度は変化し、さらに頻度の順番も変化するが、ここでは、コーパスに3つの文例しかないとして説明する。
【0078】
図7から、コーパス全体の異なり語彙数V0は、19となる。従って,文ベクトル、セントロイドベクトルは19次元のベクトルとなり、各次元は各語彙に対応した値となる。
【0079】
手順2.
文例1〜文例4の文ベクトルは各文例に現れる語彙の頻度として定義される。したがって、文例1から文例4の文ベクトルは、それぞれ、図8から図11のようになる。なお、各図右半分には参考として図7と同内容を示してある。
【0080】
手順3.
コーパスを2つのクラスタに分割する場合、ランダムに2つのクラスタに分割する。ここでは、図12に示すように、文例1および文例3はクラスタ1に、文例2および文例4はクラスタ2に、それぞれ、属したとする。
【0081】
各クラスタのセントロイドベクトルは、各クラスタに属する文例全体の異なり語彙数を各次元の値としたベクトルなので、この場合、各クラスタのセントロイドベクトルは、図13および図14のようになる。なお、コーパスが少ないので、各次元にはα(=1とする)を加えて、値が0とならないようにしている。
【0082】
手順4.
各セントロイドベクトルと各文のベクトルの類似度L(Fs、Fc)を計算する。
【0083】
まず、クラスタ内の異なり語彙数は、次のようになる。
Figure 0004067776
【0084】
Figure 0004067776
【0085】
したがって、各文とクラスタ1のセントロイドベクトルとの類似度は次のようになる。
【0086】
L(Fs1,Fc1)
=Σ(v=1,19)Fs1[v]log(Fc1[v]/F0[c1])
=−12.259
【0087】
L(Fs2,Fc1)
=Σ(v=1,19)Fs2[v]log(Fc1[v]/F0[c1])
=−18.101
【0088】
L(Fs3,Fc1)
=Σ(v=1,19)Fs3[v]log(Fc1[v]/F0[c1])
=−10.981
【0089】
L(Fs4,Fc1)
=Σ(v=1,19)Fs4[v]log(Fc1[v]/F0[c1])
=−10.981
【0090】
同様に、各文とクラスタ2のセントロイドベクトルとの類似度は次のようになる。
【0091】
L(Fs1,Fc2)
=Σ(v=1,19)Fs1[v]log(Fc2[v]/F0[c2])
=−13.773
【0092】
L(Fs2,Fc2)
=Σ(v=1,19)Fs2[v]log(Fc2[v]/F0[c2])
=−16.852
【0093】
L(Fs3,Fc2)
=Σ(v=1,19)Fs3[v]log(Fc2[v]/F0[c2])
=−10.542
【0094】
L(Fs4,Fc2)
=Σ(v=1,19)Fs4[v]log(Fc2[v]/F0[c2])
=−10.542
【0095】
手順5.
上記の類似度を比較すると、
Figure 0004067776
となり、各文は図15に示すようにクラスタに分類される。
【0096】
手順6.
上記の結果から2回目の繰返しにおけるセントロイドベクトルを求めると図16及び図17のようになる。
【0097】
手順7.
図16に示されたセントロイドベクトルFc1及び図17に示されたセントロイドベクトルFc2と、各文ベクトルFs1からFs4との類似度を計算すると次のようになる。
L(Fs1,Fc1)=−11.614
L(Fs2,Fc1)=−18.968
L(Fs3,Fc1)=−12.258
L(Fs4,Fc1)=−11.656
L(Fs1,Fc2)=−14.616
L(Fs2,Fc2)=−16.803
L(Fs3,Fc2)=−10.071
L(Fs4,Fc2)=−11.477
【0098】
手順8.
上記類似度の比較をすると、
Figure 0004067776
【0099】
したがって、各文は図18に示すように分類される。
【0100】
以下、所定の回数(例えば20回)だけ反復するが、クラスタの分類は変化しない。
【0101】
手順9.
これで、コーパスの分割を終了する。
【0102】
このようなコーパスに対して、本実施形態のクラスタリング手段7は、文例1の語彙を全て含むように、小コーパス1を作成し、その結果、小コーパス1には、語彙として、「語彙:扁桃腺 の 炎症 は 悪化 して いる 、 。」が含まれる。また、文例2の語彙を全て含むように、小コーパス2を作成し、その結果、小コーパス2には、語彙として、「語彙:胸部 の X線 画像 から 横隔膜 癒着 が 見 られる 、 。」が含まれる。
【0103】
一方、従来のコーパス全体から言語モデルを作成する場合、コーパスには、語彙として、「語彙:扁桃腺 の 炎症 は 悪化 して いる 胸部 X線 画像 から 横隔膜 癒着 が 見 られる 、 。」が含まれ、言語処理の探索空間(=語彙の組み合わせ)が大きいため、計算量が急激に増加する。
従って、この実施の形態1のクラスタリング手段7を用いると、小コーパスから得られる要素言語モデルを用いた言語処理(=単語列探索)の探索空間(=語彙の組み合わせ)が小さいため、計算量は少なく、要素言語モデルを複数探索しても、全体の処理量は小さくすることができる。また、「胸部の扁桃腺」などの誤認識を防止する効果がある。
【0104】
以上説明したように、この実施の形態1の言語モデル構成装置は、複数の文からなるコーパスを記憶するコーパス記憶手段6と、コーパス中の各文を分類し、この分類に従ってコーパス中の文を複数のクラスタに分割して小コーパス61−1〜61−Cからなる小コーパス群61を生成するクラスタリング手段7と、クラスタリング手段7により生成された小コーパス内の文に基づいて小コーパスごとに要素言語モデル32−1〜32−Cからなる要素言語モデル群32を生成する言語モデル生成手段72とを備え、クラスタリング手段7は、小コーパス内の文に含まれる語彙あるいは語彙の組の頻度情報を含むセントロイドベクトルを計算するセントロイドベクトル計算手段705と、小コーパス内の各文の語彙あるいは語彙の組みの頻度情報を含む文ベクトルとセントロイドベクトル計算手段705が計算した各小コーパスのセントロイドベクトルとの間の演算によって文と各セントロイドベクトルとの類似度を計算するクラスタリング尺度計算手段707と、クラスタリング尺度計算手段707が計算した類似度に基づいて各文の所属クラスタを決定する文クラスタ番号決定手段706とを備えたものである。
【0105】
また、この実施の形態1の言語モデル構成装置は、単一のn−gram言語モデルを用いる場合では事実上不可能であった、広い範囲の話題を対象とする音声認識において、言語処理の計算量が語彙数と共に急激に増加せず、効率的な音声認識が可能である。また、認識結果は、要素言語モデル内の語彙接続に限定されるため、認識精度が向上する。
【0106】
以上のように、この実施の形態1によれば、コーパスを分割して複数の小コーパスからなる小コーパス群を生成したので、単一のn−gram言語モデルを用いる場合では事実上不可能であった、広い範囲の話題を対象とする音声認識において、言語処理の計算量が語彙数と共に急激に増加せず、効率的な音声認識が可能である効果が得られる。また、認識結果は、要素言語モデル内の語彙接続に限定されるため、認識精度が向上する効果が得られる。
【0107】
実施の形態2.
この実施の形態2では、実施の形態1の言語モデル構成装置において、クラスタリング手段7は、さらに、各文の語彙を話題独立語彙と話題依存語彙とに分類する語彙話題依存度計算手段703を含み、セントロイドベクトル計算手段705は、セントロイドベクトルの次元として、語彙話題依存度計算手段703が計算した分類に基づき、各小コーパスで共通の値を話題共通語彙に対応する各次元とし、各小コーパスの文の語彙あるいは語彙の組みの頻度情報を話題依存語彙に対応する各次元としたセントロイドベクトルを計算するものである。
【0108】
この実施の形態2の語彙話題依存度計算手段703は、たとえば、所定の語彙分類テーブルを参照することで、また、コーパス中の語彙の出現傾向から語彙の話題依存度を計算することで、その処理を実施することができる。後者のコーパス中の語彙の出現傾向から語彙の話題依存度の計算は、実施の形態1では、コーパスの語彙出現頻度から語彙の話題依存度を計算し、頻度の高い語彙ほど話題共通性が高く頻度の低い語彙ほど話題依存度が高いとした。また、前者の所定の語彙分類テーブルの参照は、人手で作成した語彙分類テーブルとして、一般的な用語は話題独立性が高く、一般以外の用語は専門語である可能性が高く話題依存性が高いとすることで実施することができる。なお、この実施の形態2についての説明では、語彙の出現頻度を用いた場合について説明したが、文中の語彙の組の出現頻度を用いた場合も同様の効果を奏する。
【0109】
以上のように、この実施の形態2によれば、各小コーパスで共通の値を話題共通語彙に対応する各次元とし、各小コーパスの文の語彙あるいは語彙の組みの頻度情報を話題依存語彙に対応する各次元としたセントロイドベクトルを計算するようにしたので、生成された各小コーパスが、互いに重複した語彙の少ない独立度の高いものとなり、言語処理の計算量が語彙数と共に急激に増加せず、効率的な音声認識が可能である効果が得られる。
【0110】
実施の形態3.
この実施の形態3では、実施の形態2の言語モデル構成装置において、語彙話題依存度計算手段703は、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙を話題独立語彙とするものである。
【0111】
形態素解析の結果、文中の語彙について、図2の各文例の語彙の[]内に示すように、各語彙の品詞が副産物として得られる。この実施の形態3は、このように助詞や助動詞とされた語彙は話題に依存する情報をほとんど有していないという直感から、これらの語彙を話題独立語彙としたものである。一方、名詞や動詞とされた語彙は話題を表しているという直感から、話題に依存する語彙であるとしたものである。また、未定義語は業務特有の用語や固有名詞であるので、話題依存度の高い語彙である可能性が高いので、話題依存語彙とすることができる。
【0112】
この実施の形態3では、形態素解析における副産物である語彙の品詞を用いることができるという効果を有する。なお、ここでは、語彙として説明したが、文中の語彙の組としても同様の効果を奏する。
【0113】
以上のように、この実施の形態3によれば、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙を話題独立語彙とするようにしたので、セントロイドベクトルの各次元の決定において、話題独立語彙と話題依存語彙とを判定するための基準を新たに必要とせず、判定が明確かつ容易となる効果が得られる。
【0114】
実施の形態4.
この実施の形態4は、実施の形態2で述べた言語モデル構成装置において、語彙話題依存度計算手段703は、各文の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙としたものである。
【0115】
この実施の形態4では、コーパスから自動的に話題独立度が得られるという効果を有する。なお、ここでは、各文の語彙として説明したが、各文の語彙の組としても同様の効果を奏する。
【0116】
以上のように、この実施の形態4によれば、各文の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙としたので、コーパスから自動的に話題独立度が得られるという効果が得られる。
【0117】
実施の形態5.
この実施の形態5は、実施の形態2で述べた言語モデル構成装置において、語彙話題依存度計算手段703は、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙と、所定の品詞の語彙以外の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙としたものである。
【0118】
この実施の形態5は、まず、助詞や助動詞などの品詞の語彙は、話題独立語とする。つぎに、品詞により話題依存語とされた語彙についてだけ、コーパスにおける語彙の出現頻度を求め、比較的頻度の高い語彙は話題独立語とし、比較的頻度の低い語彙を話題依存語とするものである。
【0119】
この実施の形態5によれば、実施の形態3と実施の形態4の特徴の両方を併せ持つという効果を有する。なお、ここでは、各文の語彙として説明したが、各文の語彙の組としても同様の効果を奏する。
【0120】
以上のように、この実施の形態5によれば、助詞や助動詞などの品詞の語彙は、話題独立語とし、品詞により話題依存語とされた語彙についてだけ、コーパスにおける語彙の出現頻度を求め、比較的頻度の高い語彙は話題独立語とし、比較的頻度の低い語彙を話題依存語としたので、セントロイドベクトルの各次元の決定において、話題独立語彙と話題依存語彙とを判定するための基準を新たに必要とせず、判定が明確かつ容易となり、コーパスから自動的に話題独立度が得られるという効果が得られる。
【0121】
実施の形態6.
この実施の形態6は、実施の形態1の言語モデル構成装置において、クラスタリング手段7は、さらに、コーパス内の語彙を分類する語彙分類手段713を含み、セントロイドベクトル計算手段705は、各次元は各クラスタの文の語彙あるいは語彙の組みの頻度情報を語彙分類手段713が分類した語彙の分類内で平滑化した頻度情報からなるセントロイドベクトルを計算するものである。
【0122】
語彙分類手段713は、所定の語彙分類テーブルを有して、語彙の分類を行う。セントロイドベクトル計算手段705は、語彙の分類の結果同一である語彙の次元については、頻度を平滑化した値として平均値(=語彙分類中の語彙の総頻度数を語彙分類中の語彙の種類で除した値)を代入する。
【0123】
この実施の形態6によれば、語彙の分類による話題共通性を扱えるという効果を有する。なお、ここでは、語彙として説明したが、語彙の組としても構わない。
【0124】
以上のように、この実施の形態6によれば、セントロイドベクトルの各次元が各クラスタの文の語彙あるいは語彙の組みの頻度情報を語彙の分類内で平滑化した頻度情報からなるようにしたので、語彙の分類による話題共通性を扱えるという効果が得られる。
【0125】
実施の形態7.
この実施の形態7は、実施の形態6の言語モデル構成装置において、語彙分類手段713は、文書あるいは段落を含む所定の相互に関連づけられた文セットに含まれる文の語彙あるいは語彙の組を同じ分類に分類するものである。
【0126】
この実施の形態7によれば、コーパスにおける文の出現位置が近いものは同じ話題に属するという直感を生かした話題の共通性を扱えるという効果を有する。なお、ここでは、語彙として説明したが、語彙の組としても構わない。
【0127】
以上のように、この実施の形態7によれば、文書あるいは段落を含む所定の相互に関連づけられた文セットに含まれる文の語彙あるいは語彙の組を同じ分類に分類するようにしたので、コーパスにおける文の出現位置が近いものは同じ話題に属するという直感を生かした話題の共通性を扱えるという効果が得られる。
【0128】
実施の形態8.
図19は、この発明の実施の形態8を示すブロック構成図である。図19において、73はクラスタ数制御手段であり、74はクラスタ語彙数計算手段であり、75は探索空間推定手段であり、76は最適クラスタ数決定手段である。
【0129】
この実施の形態8は、複数の文からなるコーパスを記憶するコーパス記憶手段6と、コーパス中の各文を分類し、この分類に従ってコーパス中の文を複数のクラスタに分割して小コーパス61−1〜61−Cからなる小コーパス群61を生成するクラスタリング手段7と、クラスタリング手段7により生成された小コーパス内の文に基づいて小コーパスごとに要素言語モデル32−1〜32−Cからなる要素言語モデル群32を生成する言語モデル生成手段72と、クラスタ数を所定の範囲で指定するクラスタ数制御手段73と、クラスタリングの結果得られる各小コーパス内の語彙数を計算するクラスタ語彙数計算手段74と、クラスタ数制御手段73の指定したクラスタ数とクラスタ語彙数計算手段74が計算した各小コーパスの語彙数とから探索空間の大きさを推定する探索空間推定手段75と、探索空間推定手段75が推定した探索空間の大きさに基づいて最適なクラスタ数を決定する最適クラスタ数決定手段76とを有し、クラスタリング手段7がクラスタ数制御手段73の指定したクラスタ数でクラスタリングを実行するものである。
【0130】
次に動作について説明する。
クラスタ数制御手段73は、所定の範囲でクラスタ数Cを指定する。クラスタ数Cは、大規模なコーパスの場合、たとえば、10から1000の範囲で1,2,5の系列で変化させる。なお、クラスタ数は、クラスタ数あたりの平均サンプル文例数が大きいようであれば、さらに、1000を超えるようにすることもできる。
【0131】
クラスタリング手段7は、たとえば、前記各実施形態において説明した構成のクラスタリング手段を用いることができる。
【0132】
クラスタ語彙数計算手段74は、クラスタリング手段7の出力した小コーパス群61内の各小コーパスに含まれる語彙数をカウントし、クラスタあたりの平均語彙数Vを計算する。
【0133】
探索空間推定手段75は、探索空間を、クラスタ数Cと各クラスタの語彙数Vc(c∈{1,…,C})の関数を用いて求める。各クラスタの語彙数の平均をVとすると、探索空間と、クラスタ数C及び平均語彙数Vの関係を、多数の例から求めて、これらを代表するように作られたモデル式に基づいて計算する。モデル式としては、次式を用いる。
S(C,V)= Ca (V/V0)b (3)
【0134】
ここで、V0はコーパス6中の語彙の種類数、aおよびbはモデル式(3)のパラメータであり、多くの実例を近似するように決定された実数値である。
【0135】
なお、モデル式(3)の関数形はこれに限らず実例を近似するものであれば良いが、クラスタ数Cが1すなわちコーパス全体から言語モデルを生成する場合に1となるように正規化がなされている必要がある。
【0136】
最適クラスタ数決定手段76は、探索空間推定手段75が計算した探索空間の大きさとクラスタ数の関係で、クラスタ数を2から1000まで1,2,5の系列で変化させたときに探索空間が最小値または所定の値より下回ったクラス数を最適なクラス数と決定する。
【0137】
以上説明したように、この実施の形態8の言語モデル構成装置は、複数の文からなるコーパスを記憶するコーパス記憶手段6と、コーパス中の各文を分類し、この分類に従って上記コーパス中の文を複数のクラスタに分割して小コーパス61−1〜61−Cからなる小コーパス群61を生成するクラスタリング手段7と、クラスタリング手段7により生成された小コーパス内の文に基づいて小コーパスごとに要素言語モデル32−1〜32−Cからなる要素言語モデル群32を生成する言語モデル生成手段72と、クラスタ数を所定の範囲で指定するクラスタ数制御手段73と、クラスタリングの結果得られる各小コーパス内の語彙数を計算するクラスタ語彙数計算手段74と、クラスタ数制御手段73の指定したクラスタ数とクラスタ語彙数計算手段74が計算した各小コーパスの語彙数とから探索空間の大きさを推定する探索空間推定手段75と、探索空間推定手段75が推定した探索空間の大きさに基づいて最適なクラスタ数を決定する最適クラスタ数決定手段76とを有し、クラスタリング手段7が上記クラスタ数制御手段73の指定したクラスタ数でクラスタリングを実行するものである。
【0138】
以上のように、この実施の形態8によれば、探索空間の大きさとクラスタ数の関係で、探索空間が最小値または所定の値より下回ったクラス数を最適なクラス数として決定するようにしたので、大規模なコーパスの場合にも効率的な音声認識が可能である効果が得られる。
【0139】
実施の形態9.
この実施の形態9は、入力される文の音声信号に基づいて、所定の統計的言語モデルを用いて音声認識する音声認識装置において、単語列探索手段として、実施の形態1〜実施の形態8で説明した言語モデル構成装置が構成した要素言語モデルのいずれをも参照して並列的に仮説展開を実行する単語列探索手段としたものである。
【0140】
この実施の形態9の音声認識装置の構成は図1と同様である。
【0141】
次に動作について説明する。
基本記号列認識手段41aは、音響モデル21を参照して音節認識を行い基本記号列として音節系列候補を求める。単語列探索手段43aは基本記号列認識手段41aが求めた音節系列候補に対して差分モデル44および要素言語モデル群32内の要素言語モデル32−1〜32−Cを参照して、単語列探索を行う。ここで、単語列探索の目的は、要素言語モデルのいずれかを用いたときに最大の尤度を有する単語列を効率的に探索することである。この目的のため、単語列探索手段43aは、要素言語モデルに対応する数だけの単語列仮説を保持するスタック群を有し、入力の音節系列に対して、各スタックに格納されている評価値最大の仮説のうちさらにスタック群の中で最大の評価値を有する仮説を優先的に展開する。すなわち、各スタックには、複数の仮説が記憶(保持)されていて、スタック毎に評価値が最大の仮説を選択し、さらに選択された各スタックからの仮説のうち最大の評価値を有する仮説を優先的に展開する。また、仮説とは、入力の音節系列に対して、その音節系列が表していると思われる文(=単語列)のことで、たとえば、入力の音節系列が「センコウスル」であった場合、仮説としては「選考する」「専攻する」などの文が対応する。
【0142】
このように複数のスタック群を用いて評価値が最大の仮説を展開するため、従来要素言語モデルごとに単語列を探索してその結果として得られる要素言語モデルごとの尤度を比較し最大の尤度を有する単語列を認識結果5として選択しているよりも、大幅に計算量が少なく、効率的に目的の単語列を探索することができる。
【0143】
以上説明したように、この実施の形態9の音声認識装置は、音声1を取り込む音声入力手段2と、音声入力手段2で取り込まれた音声1を単語列に変換し認識結果5を作成する音声文字変換手段4と、実施の形態1乃至実施の形態8のうちのいずれかの言語モデル構成装置が構成した要素言語モデルを参照して並列的に仮説展開を実行する単語列探索手段とを有するものである。
【0144】
以上のように、この実施の形態9によれば、複数のスタック群を用いて評価値が最大の仮説を展開するようにしたので、従来要素言語モデルごとに単語列を探索してその結果として得られる要素言語モデルごとの尤度を比較し最大の尤度を有する単語列を認識結果として選択しているよりも、大幅に計算量が少なく、効率的に目的の単語列を探索することができる効果が得られる。
【0145】
実施例.
この発明の発明者は、前記実施の形態の言語モデル構成装置の効果を確認するため、評価実験を行った。実験で用いたコーパスは、新聞記事の94年1月から9月を学習用とし、10月から12月を評価用とした。含まれる文の数および語彙数を表1に示す。全期間の異なり語彙数V0は349,580(学習用のみでは300,034)であった。
【0146】
【表1】
Figure 0004067776
【0147】
ここでは、認識系として、公知の音節認識を行い音節系列候補を求める1段階と、音節系列候補に対して単語列探索を行う2段階探索法(阿部芳春,伍井啓恭,丸田裕三,中島邦男,「認識誤り傾向の確率モデルを用いた2段階探索法による大語彙連続音声認識」電子情報通信学会論文誌Vol.J83−D−II,No.12,pp.2545−2553(2000−12)を用いる場合を想定する。この場合、2段目のみで言語モデルが用いられ、言語モデルは2段目の探索空間に影響を与える。
【0148】
言語モデルとして話題分割モデルを用いる場合の探索空間の(相対的な)大きさを要素言語モデルの平均語彙サイズVと要素言語モデルの数C(=クラスタ数)の関数S(C,V)で近似し、つぎのような関係が成立する(ような探索アルゴリズムが存在する)と仮定する。
【0149】
S(C,V)=Ca (V/V0)b (3’)
ここで、a=1/2かつb=3/2
【0150】
結果.
表2にクラスタリングの繰返し回数と全クラスタの語彙数を平均した平均語彙数の関係を示す。
【0151】
各クラスタの語彙数は、カウントが1以上の語彙数とした。式(1)の尺度を用いる場合、ランダムに文のクラスを決定した初期値(繰返し回数0)から、繰返し回数の増大とともに、平均語彙数が単調減少しており、文クラスタリングにより文間の語彙の共通性が補足されていると推察される。式(2)の尺度を用いる場合、平均語彙数の収束は不安定で、語彙数標準偏差で示されるように、クラスタ間の語彙数のばらつきが大きい。以下の実験では、収束結果の良かった尺度の式(1)を用いた。
【0152】
【表2】
Figure 0004067776
【0153】
次に、繰返しを20回として、クラスタ数C、話題独立度の高い語彙の次元数Dを変化させ、平均語彙数V、探索空間の大きさの指標S(C,V)式(3’)、及び評価文の文単位のヒット率(1文中の全語彙が特定の1クラスタに含まれる率)を求めた。語彙の番号は、コーパス中の出現頻度の降順につけて、高頻度語彙を話題独立度の高い語彙として扱った。結果を表3に示す。
【0154】
【表3】
Figure 0004067776
【0155】
検討.
クラスタ数Cの増大と共に式(3’)に基づく探索空間の大きさに減少傾向が見られる。しかし、同時に評価文に対する文単位のヒット率は低下している。
【0156】
また、話題独立語彙の次元数Dの増大と共に、探索空間は若干増加している。しかし、文単位のヒット率は僅かであるが向上している。具体的には、表3で、例えば、クラスタ数Cが200の場合について、各話題独立次元数Dにおける文単位ヒット率を比較すると、D=0のときのヒット率は0.48296、D=500のときのヒット率は0.48420、D=2000のときのヒット率は0.48450、D=5000のときのヒット率は0.50071というように、Dの増加とともにヒット率が向上している。
【0157】
このように、広い話題を含むコーパスから、話題分割言語モデルを作成するためのクラスタリングの尺度として、各クラスタが話題独立部分と話題依存部分とを有し、話題依存部分についての文単位の類似度に基づいて、探索空間の大きさを考慮して、コーパスを分割することにより、新聞記事を用いた実験で、話題分割言語モデルに対する探索空間の大きさを式(3’)のように仮定したとき、評価文の文単位カバー率の低下を許せば、探索空間の小さい言語モデルが構築できる。なお、評価文の文単位カバー率の低下は、コーパスに含まれる文のサンプルを今後増大されることで、改善できるものと考えられる。
【0158】
【発明の効果】
以上のように、この発明によれば、コーパスを分割して複数の小コーパスからなる小コーパス群を生成したので、単一のn−gram言語モデルを用いる場合では事実上不可能であった、広い範囲の話題を対象とする音声認識において、言語処理の計算量が語彙数と共に急激に増加せず、効率的な音声認識が可能である効果が得られる。また、認識結果は、要素言語モデル内の語彙接続に限定されるため、認識精度が向上する効果がある。
【0159】
この発明によれば、各小コーパスで共通の値を話題共通語彙に対応する各次元とし、各小コーパスの文の語彙あるいは語彙の組みの頻度情報を話題依存語彙に対応する各次元としたセントロイドベクトルを計算するようにしたので、生成された各小コーパスが、互いに重複した語彙の少ない独立度の高いものとなり、言語処理の計算量が語彙数と共に急激に増加せず、効率的な音声認識が可能である効果がある。
【0160】
この発明によれば、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙を話題独立語彙とするようにしたので、セントロイドベクトルの各次元の決定において、話題独立語彙と話題依存語彙とを判定するための基準を新たに必要とせず、判定が明確かつ容易となる効果がある。
【0161】
この発明によれば、各文の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙としたので、コーパスから自動的に話題独立度が得られるという効果がある。
【0162】
この発明によれば、助詞や助動詞などの品詞の語彙は、話題独立語とし、品詞により話題依存語とされた語彙についてだけ、コーパスにおける語彙の出現頻度を求め、比較的頻度の高い語彙は話題独立語とし、比較的頻度の低い語彙を話題依存語としたので、セントロイドベクトルの各次元の決定において、話題独立語彙と話題依存語彙とを判定するための基準を新たに必要とせず、判定が明確かつ容易となり、コーパスから自動的に話題独立度が得られるという効果がある。
【0163】
この発明によれば、セントロイドベクトルの各次元が各クラスタの文の語彙あるいは語彙の組みの頻度情報を語彙の分類内で平滑化した頻度情報からなるようにしたので、語彙の分類による話題共通性を扱えるという効果がある。
【0164】
この発明によれば、文書あるいは段落を含む所定の相互に関連づけられた文セットに含まれる文の語彙あるいは語彙の組を同じ分類に分類するようにしたので、コーパスにおける文の出現位置が近いものは同じ話題に属するという直感を生かした話題の共通性を扱えるという効果がある。
【0165】
この発明によれば、探索空間の大きさとクラスタ数の関係で、探索空間が最小値または所定の値より下回ったクラス数を最適なクラス数として決定するようにしたので、大規模なコーパスの場合にも効率的な音声認識が可能である効果がある。
【0166】
この発明によれば、複数のスタック群を用いて評価値が最大の仮説を展開するようにしたので、従来要素言語モデルごとに単語列を探索してその結果として得られる要素言語モデルごとの尤度を比較し最大の尤度を有する単語列を認識結果として選択しているよりも、大幅に計算量が少なく、効率的に目的の単語列を探索することができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1を示すブロック図である。
【図2】 この発明の実施の形態1のコーパス内の学習用テキストの説明図である。
【図3】 この発明の実施の形態1のクラスタリング手段のブロック図である。
【図4】 この発明の実施の形態1の語彙空間の分割の概念図である。
【図5】 この発明の実施の形態1のセントロイドベクトルの構成図である。
【図6】 この発明の実施の形態1のコーパス分割処理の流れ図である。
【図7】 異なり語彙と頻度を表す図である。
【図8】 文例1の文ベクトルを表す図である。
【図9】 文例2の文ベクトルを表す図である。
【図10】 文例3の文ベクトルを表す図である。
【図11】 文例4の文ベクトルを表す図である。
【図12】 コーパスの分割を表す図である。
【図13】 クラスタ1のセントロイドベクトルを表す図である。
【図14】 クラスタ2のセントロイドベクトルを表す図である。
【図15】 コーパスの分割を表す図である。
【図16】 クラスタ1のセントロイドベクトルを表す図である。
【図17】 クラスタ2のセントロイドベクトルを表す図である。
【図18】 コーパスの分割を表す図である。
【図19】 この発明の実施の形態8を示すブロック図である。
【図20】 従来の音声認識装置を説明するブロック図である。
【図21】 他の従来の音声認識装置を説明するブロック図である。
【符号の説明】
1 音声、2 音声入力手段、4 音声文字変換手段、5 認識結果、6 コーパス記憶手段、7 クラスタリング手段、21 音響モデル、32 要素言語モデル群、32−1,32−2,32−C 要素言語モデル、41a 基本記号列認識手段、43a 単語列探索手段、44 差分モデル、61 小コーパス群、61−1,61−2,61−C 小コーパス、72 言語モデル生成手段、73 クラスタ数制御手段、74 クラスタ語彙数計算手段、75 探索空間推定手段、76 最適クラスタ数決定手段、701 学習テキストバッファ、702学習テキスト文ベクトル変換手段、703 語彙話題依存度計算手段、704文クラスタ番号初期化手段、705 セントロイドベクトル計算手段、706文クラスタ番号決定手段、707 クラスタリング尺度計算手段、708 セントロイドベクトル記憶手段、709 文クラスタ番号記憶手段、710 語彙話題依存度記憶手段、711 文ベクトル記憶手段、712 分類結果出力手段、713 語彙分類手段。

Claims (9)

  1. 複数の文からなるコーパスを記憶するコーパス記憶手段と、上記コーパス中の各文を分類し、この分類に従って上記コーパス中の文を複数のクラスタに分割して小コーパスからなる小コーパス群を生成するクラスタリング手段と、
    上記クラスタリング手段により生成された上記小コーパス内の文に基づいて上記小コーパスごとに要素言語モデルからなる要素言語モデル群を生成する言語モデル生成手段とを備え、
    上記クラスタリング手段は、
    上記小コーパス内の文に含まれる語彙あるいは語彙の組の頻度情報を含むセントロイドベクトルを計算するセントロイドベクトル計算手段と、
    上記小コーパス内の各文の語彙あるいは語彙の組みの頻度情報を含む文ベクトルと上記セントロイドベクトル計算手段が計算した各小コーパスのセントロイドベクトルとの間の演算によって上記文と上記各セントロイドベクトルとの類似度を計算するクラスタリング尺度計算手段と、
    上記クラスタリング尺度計算手段が計算した類似度に基づいて各文の所属クラスタを決定する文クラスタ番号決定手段とを備えたことを特徴とする言語モデル構成装置。
  2. クラスタリング手段は、さらに、各文の語彙を話題独立語彙と話題依存語彙とに分類する語彙話題依存度計算手段を含み、
    セントロイドベクトル計算手段は、セントロイドベクトルの次元として、上記語彙話題依存度計算手段が計算した分類に基づき、各小コーパスで共通の値を話題共通語彙に対応する各次元とし、各小コーパスの文の語彙あるいは語彙の組みの頻度情報を話題依存語彙に対応する各次元としたセントロイドベクトルを計算することを特徴とする請求項1記載の言語モデル構成装置。
  3. 語彙話題依存度計算手段は、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙を話題独立語彙とすることを特徴とする請求項2記載の言語モデル構成装置。
  4. 語彙話題依存度計算手段は、各文の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙とすることを特徴とする請求項2記載の言語モデル構成装置。
  5. 語彙話題依存度計算手段は、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙と、上記所定の品詞の語彙以外の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙とすることを特徴とする請求項2記載の言語モデル構成装置。
  6. クラスタリング手段は、さらに、コーパス内の語彙を分類する語彙分類手段を含み、
    セントロイドベクトル計算手段は、各次元は各クラスタの文の語彙あるいは語彙の組みの頻度情報を上記語彙分類手段が分類した語彙の分類内で平滑化した頻度情報からなるセントロイドベクトルを計算することを特徴とする請求項1記載の言語モデル構成装置。
  7. 語彙分類手段は、文書あるいは段落を含む所定の相互に関連づけられた文セットに含まれる文の語彙あるいは語彙の組を同じ分類に分類することを特徴とする請求項6記載の言語モデル構成装置。
  8. 複数の文からなるコーパスを記憶するコーパス記憶手段と、上記コーパス中の各文を分類し、この分類に従って上記コーパス中の文を複数のクラスタに分割して小コーパスからなる小コーパス群を生成するクラスタリング手段と、
    上記クラスタリング手段により生成された上記小コーパス内の文に基づいて上記小コーパスごとに要素言語モデルからなる要素言語モデル群を生成する言語モデル生成手段と、
    クラスタ数を所定の範囲で指定するクラスタ数制御手段と、
    クラスタリングの結果得られる各小コーパス内の語彙数を計算するクラスタ語彙数計算手段と、
    上記クラスタ数制御手段の指定したクラスタ数と上記クラスタ語彙数計算手段が計算した各小コーパスの語彙数とから探索空間の大きさを推定する探索空間推定手段と、
    上記探索空間推定手段が推定した探索空間の大きさに基づいて最適なクラスタ数を決定する最適クラスタ数決定手段とを有し、
    上記クラスタリング手段が上記クラスタ数制御手段の指定したクラスタ数でクラスタリングを実行することを特徴とする言語モデル構成装置。
  9. 音声を取り込む音声入力手段と、
    上記音声入力手段で取り込まれた音声を単語列に変換し認識結果を作成する音声文字変換手段と、
    請求項1乃至請求項8記載のうちのいずれか1項記載の言語モデル構成装置が構成した要素言語モデルを参照して並列的に仮説展開を実行する単語列探索手段とを有することを特徴とする音声認識装置。
JP2001070952A 2001-03-13 2001-03-13 言語モデル構成装置及び音声認識装置 Expired - Fee Related JP4067776B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001070952A JP4067776B2 (ja) 2001-03-13 2001-03-13 言語モデル構成装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001070952A JP4067776B2 (ja) 2001-03-13 2001-03-13 言語モデル構成装置及び音声認識装置

Publications (2)

Publication Number Publication Date
JP2002268678A JP2002268678A (ja) 2002-09-20
JP4067776B2 true JP4067776B2 (ja) 2008-03-26

Family

ID=18928731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001070952A Expired - Fee Related JP4067776B2 (ja) 2001-03-13 2001-03-13 言語モデル構成装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JP4067776B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8967361B2 (en) 2013-02-27 2015-03-03 Outerwall Inc. Coin counting and sorting machines
US10460726B2 (en) 2016-06-28 2019-10-29 Samsung Electronics Co., Ltd. Language processing method and apparatus

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4810789B2 (ja) * 2003-09-26 2011-11-09 日本電気株式会社 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
JP2008226104A (ja) * 2007-03-15 2008-09-25 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム
WO2010051654A1 (en) * 2008-11-05 2010-05-14 Google Inc. Custom language models
CN103971675B (zh) * 2013-01-29 2016-03-02 腾讯科技(深圳)有限公司 自动语音识别方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8967361B2 (en) 2013-02-27 2015-03-03 Outerwall Inc. Coin counting and sorting machines
US10460726B2 (en) 2016-06-28 2019-10-29 Samsung Electronics Co., Ltd. Language processing method and apparatus

Also Published As

Publication number Publication date
JP2002268678A (ja) 2002-09-20

Similar Documents

Publication Publication Date Title
EP1462950B1 (en) Method for language modelling
KR100388344B1 (ko) 컨텐츠 및 화자 정보를 이용한 오디오 정보 검색 방법 및장치
US7831425B2 (en) Time-anchored posterior indexing of speech
US7620548B2 (en) Method and system for automatic detecting morphemes in a task classification system using lattices
KR101143030B1 (ko) 자연어 입력을 분류하는 컴퓨터 구현 방법
US8793130B2 (en) Confidence measure generation for speech related searching
US6877001B2 (en) Method and system for retrieving documents with spoken queries
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
He et al. Discriminative learning for speech recognition: theory and practice
US20070179784A1 (en) Dynamic match lattice spotting for indexing speech content
US20030204399A1 (en) Key word and key phrase based speech recognizer for information retrieval systems
WO2003010754A1 (fr) Systeme de recherche a entree vocale
Federico et al. Language modelling for efficient beam-search
Bazzi et al. A multi-class approach for modelling out-of-vocabulary words
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
Moyal et al. Phonetic search methods for large speech databases
JP4067776B2 (ja) 言語モデル構成装置及び音声認識装置
JP2000259645A (ja) 音声処理装置及び音声データ検索装置
Moore Adaptive statistical class-based language modelling
Donaj et al. Context-dependent factored language models
JP2000267693A (ja) 音声処理装置及び索引作成装置
Sas et al. Pipelined language model construction for Polish speech recognition
JP2004109906A (ja) テキストクラスタリング方法および音声認識方法
Dzhambazov et al. Searching lyrical phrases in a-capella turkish makam recordings
Sheng-Hui et al. A Novel Method for Speech Data Mining

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071109

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071109

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120118

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130118

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130118

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees