JP2002268678A - 言語モデル構成装置及び音声認識装置 - Google Patents

言語モデル構成装置及び音声認識装置

Info

Publication number
JP2002268678A
JP2002268678A JP2001070952A JP2001070952A JP2002268678A JP 2002268678 A JP2002268678 A JP 2002268678A JP 2001070952 A JP2001070952 A JP 2001070952A JP 2001070952 A JP2001070952 A JP 2001070952A JP 2002268678 A JP2002268678 A JP 2002268678A
Authority
JP
Japan
Prior art keywords
vocabulary
corpus
sentence
language model
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001070952A
Other languages
English (en)
Other versions
JP4067776B2 (ja
Inventor
Yoshiharu Abe
芳春 阿部
Yuzo Maruta
裕三 丸田
Hirotaka Goi
啓恭 伍井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001070952A priority Critical patent/JP4067776B2/ja
Publication of JP2002268678A publication Critical patent/JP2002268678A/ja
Application granted granted Critical
Publication of JP4067776B2 publication Critical patent/JP4067776B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 多くの話題から構成されるような大規模なコ
ーパスに適用した場合に、話題のカバー率が高く音声認
識の単語列探索に適用した場合探索空間が小さい言語モ
デルを構成する言語モデル構成装置、および、複数の要
素言語モデルを用いて単語列探索を効率的に行うことの
できる音声認識装置を得ることを目的とする。 【解決手段】 複数の文からなるコーパスを記憶するコ
ーパス記憶手段6と、コーパス中の各文を分類し、この
分類に従ってコーパス中の文を複数のクラスタに分割し
て小コーパス61−1〜61−Cからなる小コーパス群
61を生成するクラスタリング手段7と、クラスタリン
グ手段7により生成された小コーパス61−1〜61−
C内の文に基づいて小コーパスごとに要素言語モデル3
2−1〜32−Cからなる要素言語モデル群32を生成
する言語モデル生成手段72とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声を認識して
文章を入力する音声認識文章入力装置のための言語モデ
ル構成装置およびこのための音声認識装置に関するもの
である。
【0002】
【従来の技術】利便性や特別な訓練が不要であることな
どから、音声入力による文書作成への期待は極めて高
く、音声認識による日本語の文章入力ソフトウェアが各
社から市販され注目を浴びている。
【0003】図20は、これらのソフトウェアをコンピ
ュータで動作させることで実現される従来の音声認識文
章入力装置の構成図である。図20において、2は入力
の音声1を取り込む音声入力手段であり、21は例えば
音素環境依存音素HMM(Hidden Marcov
Model:隠れマルコフモデル)からなる音響モデ
ルであり、31は例えば単語のNグラムからなる言語モ
デルである。
【0004】4は音響モデル21と言語モデル31を参
照して音声入力手段2が取得した入力の音声1を単語の
列に変換する音声文字変換手段である。5は音声文字変
換手段4の出力単語列である認識結果であり、6は複数
の文を含む学習用テキストからなるコーパスを記憶する
コーパス記憶手段である。71はコーパス中の文を解析
して単語の連鎖に変換し言語モデル31を生成する言語
モデル生成手段である。
【0005】言語モデル31としては、単語連鎖の統計
量に基づくn−gramモデル(例えばn=3)が用い
られる。ここでn−gramモデルとは、ある時点で生
起する事象の確率がその直前のn個の時点で生起した事
象だけの影響を受けるときこれをn重マルコフ過程とい
い、単語の生起をn−1重マルコフ過程で近似したモデ
ルをn−gramモデルと呼ぶ。このn−gramモデ
ルでは、ある時点での単語の生起は直前のn−1単語の
みに依存すると考えている。
【0006】次に動作について説明する。この構成にお
いて、ユーザの音声1は音声入力手段2によって取り込
まれて、音声文字変換手段4によって言語モデル31に
記憶された単語連鎖の情報に従って単語列に変換され、
認識結果5が作成される。
【0007】近年、音声認識の適用分野が広がり、認識
対象が細分化されるに伴い、より広い話題をカバーする
言語モデルが必要となっている。すなわち、話題は文に
よって構成され、文は、単語の連鎖によって構成される
ため、単語連鎖のカバー率の高い言語モデルが要求され
る。
【0008】言語モデルとして、上記の単語連鎖の統計
量に基づくn−gramモデルを用いる場合、語彙数の
増大と共に探索空間が莫大となるため、n−gramの
足切りを行う必要があり、話題のカバー率は制限され
る。また、話題のカバー率を高く保つためにn−gra
mの足切りを行わない場合は、音響処理と組み合わせた
とき、出現確率の低いテキストは、音響的に類似した出
現確率の高いテキストに圧倒され、けっして認識され
ず、認識性能が低下するという課題がある。
【0009】このように、単一の言語モデルでは、話題
のカバー率と認識性能を両立させるのは難しい。これに
対し、コーパスをクラスタに分類し各クラスタから要素
言語モデルを作成し、これらの要素言語モデルを係数で
重み付けして混合した混合言語モデルを構成し、少量の
適応データにより混合言語モデルに対する重み係数を話
題適応する方法が試みられている(この種の従来技術
は、例えば、R.Iyer M.Ostendof,
J.R. Rohlicek,「Language m
odeling with sentence−lev
el mixtures」Proc. of ARPA
Workshop on HumanLanguag
e Technology,pp.82−87(199
4)や、P.R.Clarkson,A.Robins
on「Language model adaptat
ion using mixtures and an
exponentially decaying ca
che」Proc. of ICASSP97,pp.
799−802や、清水徹、大野晃生、樋口宜男「文の
クラスタリングに基づく統計的言語モデル」日本音響学
会講演論文集1−6−14(1998−03)などの文
献に記載されている)。
【0010】また、話題ごとに分割されたコーパスから
独立に複数の言語モデルを作成して、話題の制約をかけ
た単語列探索を行った後、各言語モデルに渡って正規化
尤度が最大の単語列を認識結果とする方法(話題分割モ
デル)が提案されている(例えば、「H.Itsui,
Y.Maruta,Y.Abe,K.Nakajima
「A study on topic−dependn
et language modeling」Pro
c. WESTPRAC VII,pp.137−14
0(2000−10)など)。ここでは、話題ごとの分
割は、新聞記事を対象としており、記事ごとに人手で付
与した「社会」、「政治」、「経済」などの「タグ」を
頼りに、コーパス全体を分割し、それぞれのコーパスに
ついて、言語モデルを作成していた。このため、業務文
書やWebなどの文書など大量に得られるタグなしのコ
ーパスについては、適用できないという課題がある。
【0011】コーパスの自動クラスタリングに基づく、
話題分割に関して、前記文献でIyerらは、1つの文
書は1つの話題に属すると仮定して、文書を単位とした
話題のクラスタリングを行い、さらにEmアルゴリズム
により、文の話題クラスタへの帰属確率を求めている。
D.Cater,「Improving langua
ge models by clustering t
raining sentences」SRI Tec
hnical Report(1994)には、文内の
単語間の依存性を扱うため、文を最小単位としたコーパ
スのクラスタリングを行うことが記載されている。ま
た、特開2000−75886号公報「統計的言語モデ
ル生成装置及び音声認識装置」では、遷移確率の予測制
度・信頼性を改善可能な統計的言語モデルを生成し、統
計的言語モデルを用いてより高い音声認識率で音声認識
するため、コーパス全体をクラスタリングする手段とク
ラスタごとにMAP推定法を用いてn−gram言語モ
デルを作成している。ここで、クラスタリングは、公知
のK−means法に類似した方法で、文の分類は各ク
ラスタごとの言語モデルによる文の生成確率を用いて行
っている。なお、クラスタリングとは、データを構成し
ている個体(文または文例)を何らかの属性に注目して
分類することであり、クラスタリングによる分類でクラ
スタが生成される。
【0012】図21は、前記特開2000−75886
号公報で開示された技術に基づく音声認識装置の構成例
を示す図である。図21において、7はコーパス記憶手
段に記憶されたコーパスをクラスタに分類して複数の小
コーパスからなる小コーパス群61を生成するクラスタ
リング手段である。72は小コーパス群61から、複数
の要素言語モデルからなる要素言語モデル群32を生成
する言語モデル生成手段である。その他の構成要素は、
図20の従来の音声認識装置の構成要素と等しい。
【0013】次に動作について説明する。クラスタリン
グ手段7は、コーパス記憶手段6に記憶されたコーパス
としての学習テキストから、C個(Cはクラスタ数)に
分割された小コーパス群61内の小コーパス61−1〜
61−Cを生成する。
【0014】言語モデル生成手段72は、小コーパス群
61内の小コーパス61−1〜61−Cから、要素言語
モデル群32内の要素言語モデル32−1〜32−Cを
生成する。
【0015】単語列探索手段43は要素言語モデル群3
2の要素言語モデルのそれぞれについて予備探索手段4
1で得られた単語列について尤度を計算し、最大の尤度
を有する要素言語モデルを適用したときに得られる単語
列を認識結果として出力する。
【0016】クラスタリング手段7は、文をクラスタへ
分類するために、各クラスタにおける統計的言語モデル
の文生成確率を計算して最大の文生成確率を有するクラ
スタを選択する。これにより、単一のタスクのデータで
あるコーパスを自動的に分類して、単語列ごとにn−g
ram遷移確率の平均、及び分散を求め、各クラスタの
言語モデルの遷移確率推定に必要とする事前確率を求め
ている。また、同一のタスクの文でも、様々な内容の文
が存在し、文ごとの内容で分類して、クラスタごとの言
語的特徴を明確にさせ言語モデルの精度を向上させてい
る。
【0017】さらに、単語列探索手段43において、入
力された音声の発話文が属するクラスタを知るため、入
力音声をコーパス全体で作成した言語モデルで認識を行
い、次に、認識結果から、クラスタ別の言語モデルを1
つのみ選択し、再度認識を行っている。
【0018】以上の説明中で用いられた「コーパス」と
は、電子化された電子計算機等で読み取ることのできる
大量の音声・言語データのことである。また、「タス
ク」とは、対象とする業務のことであり、例えば、「国
際会議の受け付け」、「ホテルの予約」、「観光案内」
などである。コーパス記憶手段に記憶される学習テキス
トであるコーパスは、通常これらの対象業務の大量の文
例からなる。
【0019】
【発明が解決しようとする課題】従来の単語連鎖の統計
量に基づくn−gram言語モデルは、多くの話題から
構成されるような大規模なコーパスに適用した場合に、
単語連鎖n−gramの種類数を大きくする必要がある
が、音声認識の単語列探索における探索空間が増大する
ため、話題のカバー率を高くできないという課題があ
る。
【0020】また、音響処理と組み合せたとき、確率の
低い文が認識できないという課題がある。
【0021】一方、所定のコーパスの文をクラスタリン
グし、各クラスタから生成された要素言語モデルを混合
して用いる従来の混合言語モデルは、文のクラスタ分類
において、統計的言語モデルによる文の生成確率のみに
基づいて分類を行っているため、多くの話題から構成さ
れるような大規模なコーパスに適用した場合に、分類の
結果クラスタごとに生成される要素言語モデルに含まれ
るn−gramの種類数が大きくなり、探索空間の問題
から足切りが必要になる可能性があるという課題があ
る。
【0022】また、音声認識の単語列探索に適用した場
合に、要素言語モデルによっては、探索空間が大きくな
る可能性が残るという課題がある。
【0023】この発明は上記のような課題を解決するた
めになされたもので、多くの話題から構成されるような
大規模なコーパスに適用した場合に、話題のカバー率が
高く音声認識の単語列探索に適用した場合探索空間が小
さい言語モデルを構成する言語モデル構成装置、およ
び、複数の要素言語モデルを用いて単語列探索を効率的
に行うことのできる音声認識装置を得ることを目的とす
る。
【0024】
【課題を解決するための手段】この発明に係る言語モデ
ル構成装置は、複数の文からなるコーパスを記憶するコ
ーパス記憶手段と、コーパス中の各文を分類し、この分
類に従ってコーパス中の文を複数のクラスタに分割して
小コーパスからなる小コーパス群を生成するクラスタリ
ング手段と、クラスタリング手段により生成された小コ
ーパス内の文に基づいて小コーパスごとに要素言語モデ
ルからなる要素言語モデル群を生成する言語モデル生成
手段とを備え、クラスタリング手段は、小コーパス内の
文に含まれる語彙あるいは語彙の組の頻度情報を含むセ
ントロイドベクトルを計算するセントロイドベクトル計
算手段と、小コーパス内の各文の語彙あるいは語彙の組
みの頻度情報を含む文ベクトルとセントロイドベクトル
計算手段が計算した各小コーパスのセントロイドベクト
ルとの間の演算によって文と各セントロイドベクトルと
の類似度を計算するクラスタリング尺度計算手段と、ク
ラスタリング尺度計算手段が計算した類似度に基づいて
各文の所属クラスタを決定する文クラスタ番号決定手段
とを備えたものである。
【0025】この発明に係る言語モデル構成装置は、ク
ラスタリング手段は、さらに、各文の語彙を話題独立語
彙と話題依存語彙とに分類する語彙話題依存度計算手段
を含み、セントロイドベクトル計算手段は、セントロイ
ドベクトルの次元として、上記語彙話題依存度計算手段
が計算した分類に基づき、各小コーパスで共通の値を話
題共通語彙に対応する各次元とし、各小コーパスの文の
語彙あるいは語彙の組みの頻度情報を話題依存語彙に対
応する各次元としたセントロイドベクトルを計算するも
のである。
【0026】この発明に係る言語モデル構成装置は、語
彙話題依存度計算手段は、各文の語彙のうち助詞、助動
詞を含む所定の品詞の語彙を話題独立語彙とするもので
ある。
【0027】この発明に係る言語モデル構成装置は、語
彙話題依存度計算手段は、各文の語彙のうちコーパス内
の出現頻度の大きいものから所定の個数までを話題独立
語彙とするものである。
【0028】この発明に係る言語モデル構成装置は、語
彙話題依存度計算手段は、各文の語彙のうち助詞、助動
詞を含む所定の品詞の語彙と、所定の品詞の語彙以外の
語彙のうちコーパス内の出現頻度の大きいものから所定
の個数までを話題独立語彙とするものである。
【0029】この発明に係る言語モデル構成装置は、ク
ラスタリング手段は、さらに、コーパス内の語彙を分類
する語彙分類手段を含み、セントロイドベクトル計算手
段は、各次元は各クラスタの文の語彙あるいは語彙の組
みの頻度情報を語彙分類手段が分類した語彙の分類内で
平滑化した頻度情報からなるセントロイドベクトルを計
算するものである。
【0030】この発明に係る言語モデル構成装置は、語
彙分類手段は、文書あるいは段落を含む所定の相互に関
連づけられた文セットに含まれる文の語彙あるいは語彙
の組を同じ分類に分類するものである。
【0031】この発明に係る言語モデル構成装置は、複
数の文からなるコーパスを記憶するコーパス記憶手段
と、コーパス中の各文を分類し、この分類に従ってコー
パス中の文を複数のクラスタに分割して小コーパスから
なる小コーパス群を生成するクラスタリング手段と、ク
ラスタリング手段により生成された小コーパス内の文に
基づいて小コーパスごとに要素言語モデルからなる要素
言語モデル群を生成する言語モデル生成手段と、クラス
タ数を所定の範囲で指定するクラスタ数制御手段と、ク
ラスタリングの結果得られる各小コーパス内の語彙数を
計算するクラスタ語彙数計算手段と、クラスタ数制御手
段の指定したクラスタ数とクラスタ語彙数計算手段が計
算した各小コーパスの語彙数とから探索空間の大きさを
推定する探索空間推定手段と、探索空間推定手段が推定
した探索空間の大きさに基づいて最適なクラスタ数を決
定する最適クラスタ数決定手段とを有し、クラスタリン
グ手段が上記クラスタ数制御手段の指定したクラスタ数
でクラスタリングを実行するものである。
【0032】この発明に係る音声認識装置は、音声を取
り込む音声入力手段と、音声入力手段で取り込まれた音
声を単語列に変換し認識結果を作成する音声文字変換手
段と、言語モデル構成装置が構成した要素言語モデルを
参照して並列的に仮説展開を実行する単語列探索手段と
を有するものである。
【0033】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1を示すブ
ロック構成図である。図1において、2はユーザの発話
した音声1を取り込む音声入力手段であり、4は要素言
語モデル群32を参照して音声入力手段2が取得した音
声1を単語の列に変換する音声文字変換手段である。
【0034】5は音声文字変換手段4の出力単語列であ
る認識結果であり、21は公知の音素環境依存型の音素
HMMから構成される音響モデルであり、41aは基本
記号列認識手段である。
【0035】44は基本記号列の認識誤り傾向を記憶し
た差分モデルであり、43aは差分モデル44および要
素言語モデル群32を参照する単語列探索手段である。
6は要素言語モデル群32の学習用の文例を含むコーパ
スを記憶したコーパス記憶手段であり、7はコーパス内
の学習テキストを分類するクラスタリング手段である。
【0036】61はクラスタリング手段7によって分類
された複数の小コーパス61−1〜61−Cからなる小
コーパス群であり、72は小コーパス群61内の小コー
パス61−1〜61−Cから対応する要素言語モデル3
2−1〜32−Cを生成する言語モデル生成手段であ
る。32は複数の要素言語モデル32−1〜32−Cか
らなる要素言語モデル群である。
【0037】図2はコーパス中の文例1、文例2、文例
3および文例4を示す図であり、図2において、文例1
は「扁桃腺[名詞]の[助詞]炎症[名詞]は[助
詞]、[読点]悪化[名詞]して[助詞]いる[助動
詞]。[句点]eos[文末]」である。
【0038】文例2は「胸部[名詞]の[助詞]X線
[名詞]画像[名詞]から[助詞]、[読点]横隔膜
[名詞]の[助詞]癒着[名詞]が[助詞]見[動詞]
られる[助動詞]。[句点]eos[文末]」である。
【0039】文例3は「胸部[名詞]横隔膜[名詞]の
[助詞]癒着[名詞]が[助詞]見[動詞]られる[助
動詞]。[句点]eos[文末]」である。
【0040】文例4は「胸部[名詞]の[助詞]横隔膜
[名詞]が[助詞]癒着[名詞]して[助詞]いる[助
動詞]。[句点]eos[文末]」である。
【0041】図3はクラスタリング手段7の構成を示す
図であり、図3において701は学習テキストバッファ
であり、702は学習テキスト文ベクトル変換手段であ
り、703は語彙話題依存度計算手段であり、704は
文クラスタ番号初期化手段であり、705はセントロイ
ドベクトル計算手段であり、706は文クラスタ番号決
定手段であり、707はクラスタリング尺度計算手段で
ある。
【0042】712は、分類結果出力手段であり、71
3は語彙分類手段であり、711は文ベクトル記憶手段
であり、710は語彙話題依存度記憶手段であり、70
9は文クラスタ番号記憶手段であり、708はセントロ
イドベクトル記憶手段である。
【0043】図4は語彙空間の分割の概念図であり、語
彙空間が話題依存語彙空間(D+1〜V0次元)と話題
独立語彙空間(1〜D次元)に分割されている。
【0044】図5はクラスタリング手段7で記憶される
セントロイドベクトルFcの構成を示す図であり、セン
トロイドベクトルFcは、話題独立語彙であるFc
[1]〜Fc[D]と、話題依存語彙であるFc[D+
1]からFc[V0]とからなる。
【0045】図6はコーパス分割(クラスタリング)処
理の流れ図であり、コーパス分割処理は、初期分割処理
をおこなうステップST701及びステップST702
と、反復処理をおこなうステップST703からステッ
プST709とからなる。
【0046】次に、この実施の形態1のクラスタリング
手段7の動作について説明する。まず、クラスタリング
の基本概念を図4を参照して以下に説明する。ここで
は、1つの文は1つの話題に属すると仮定する。さら
に、1つの文には話題依存の語彙と話題独立の語彙が混
在すると仮定する。図4の外側の大きな領域が語彙全体
が張る空間を表し、内側の斜線部分が話題共通の語彙が
張る空間を表す。このような語彙の張る空間で、クラス
タ1〜クラスタCの各クラスタの話題独立語彙は、共通
する話題独立語彙空間内に含まれ、各クラスタの話題依
存語彙は話題依存語彙空間内に含まれるようになってい
ると考える。
【0047】クラスタリング手段7は、コーパス記憶手
段6に記憶されたコーパスをこのように分割された語彙
の空間内に含まれるクラスタ1からクラスタCに対応す
る小コーパス61−1〜小コーパス61−Cに分割す
る。このような分割により、話題カバー率が高く、それ
ぞれの間では語彙の分離度が高い、クラスタ1〜クラス
タCに対応する小コーパス61−1〜小コーパス61−
Cからなる小コーパス群61を作成する。
【0048】言語モデル生成手段72は、このような小
コーパス群から探索空間が小さい要素言語モデル群32
を生成する。なお、ここでは、語彙が張る空間として説
明したが、文中の語彙の組が張る空間としても同様の効
果を奏する。
【0049】次にクラスタリングアルゴリズムについて
説明する。上記の概念に基づき、学習データ全体(コー
パス)を所定のC個のクラスタに分類するため、次のよ
うなK−meansアルゴリズムを用いる。 (S1)各文にランダムにC個のクラスを割当て初期ク
ラスを作る。 (S2)全文について、後述するクラスタリングの尺度
が最大となるクラスタを選択し、それをその文の新しい
クラスとする。 (S3)S2の結果に基づいて、新しいクラスタを作
る。 (S4)S2〜S3を所定の回数繰り返す。
【0050】文クラスタ番号.上記クラスタリングを実
行するため、コーパス6中の各文s(s∈{1,…,
S})について、各文sのクラスタ番号である文クラス
タ番号c[s]を文クラスタ番号記憶手段709(図
3)に記憶する。ここで、Sはコーパス全体の文の総数
である。
【0051】文クラスタ番号初期化.文クラスタ番号初
期化手段704(図3)は、1から所定のクラスタ数C
までの一様乱数を生成し、各文sにランダムに文のクラ
スタ番号c[s]を与える。セントロイドベクトル計算
手段705(図3)は、各文sのクラス番号c[s]を
参照して、クラスcの文を選択して、選択されたクラス
cの文について、次の構成のセントロイドベクトルを生
成する。
【0052】セントロイドベクトルの構成.セントロイ
ドベクトルFcは、図5のように構成され、一つのクラ
スタから一つのセントロイドベクトルが作成される。次
に、セントロイドベクトルの構成について説明する。
【0053】コーパスの異なり語彙数をV0として、全
文の全語彙に番号v∈{1,…,V0}を付ける。各ク
ラスタに属する全文について語彙の頻度を求め、番号v
の語彙の頻度を第v次元の値とするV0次元のベクトル
を構成し、これをクラスタc∈{1,…,C}のセント
ロイドベクトルFcとする。
【0054】ここで、語彙の番号は、語彙の話題独立度
の高さの降順につけてあり、セントロイドベクトルFc
の低次D次元までの語彙を全クラスタ共通の話題独立の
語彙として扱う。
【0055】なお、語彙の話題独立度の高さは、次に説
明する語彙話題依存度計算手段703(図3)によっ
て、語彙話題依存度記憶手段710(図3)に記憶され
ている。
【0056】語彙話題依存度.語彙話題依存度計算手段
703は、全コーパス中の語彙の頻度を求め、頻度の高
い語彙を話題とは独立である、すなわち、話題依存度が
低いとし、頻度の比較的低い語彙を話題に依存する語彙
である、すなわち、話題依存度が高いとして、話題依存
度を語彙話題依存度記憶手段710(図3)に記憶す
る。なお、語彙の話題独立度の決定については、後述の
他の実施の形態によるものであってもよい。
【0057】学習テキスト文ベクトル変換手段702
は、コーパス中の各文sについて、次の構成の文ベクト
ルFsを生成し、文ベクトル記憶手段711に記憶す
る。
【0058】文ベクトルの構成.文sの文ベクトルFs
(s∈{1,…,S})は、セントロイドベトクルと同
様の構成を有する。ただし、各次元は、文中の語彙の頻
度である。
【0059】クラスタリング尺度計算手段707(図
3)は、文ベクトルFsとセントロイドベクトルFcと
から、文sがクラスタcに属する度合いとして次のよう
なクラスタリング尺度を計算する。
【0060】クラスタリング尺度.クラスタリング尺度
Mc(s)は、文ベクトルFsとセントロイドベクトル
Fcとの類似度として、次式のような対数確率で表され
る。 L(Fs,Fc) =Σ(v=1,V0)Fs[v]・log(Fc[v]/F0[c]) (1)
【0061】ここで、関数Σは次の式により定義され
る。 Σ(i=1,n)X(i)=X(1)+X(2)+・・
・+X(n)
【0062】また、F0[c]は次式で計算されるクラ
スタc内の語彙の総頻度である。 F0[c]=Σ(v=1,v0)Fc[v]
【0063】ここで、L(Fs,Fc)は文ベクトルF
sとセントロイドベクトルとの類似度、Fs[v]は文
ベクトルFsのv次元の値、Fc[v]はセントロイド
ベクトルFcのv次元の値である。また、上式で対数計
算を省いた次式のような(頻度重み付き)ヒット率とする
こともできる。 L(Fs,Fc) =Σ(v=1,V0)Fs[v](Fc[v]/F0[c]) (2)
【0064】文クラス番号再決定.文クラスタ番号決定
手段706(図3)は、文sについて、クラスタcとの
例えば式(1)のクラスタリング尺度Mc(s)を参照
して、最大のクラスタリング尺度を有するクラスタcm
axを決定し、文sのクラスタをcmaxに変更する。
【0065】上述したように、図6は、この実施の形態
1のクラスタリング処理を表す流れ図である。
【0066】図6のステップST701では、一様乱数
を用いて1からCの何れかのクラスタ番号c(s)を文
例1から文例Sにランダムに割り当てる。このステップ
ST701の処理は、上記の「文クラスタ番号の初期
化」に対応する。
【0067】ステップST702では、反復回数を表す
変数iを0とする。
【0068】ステップST703では、クラスcのセン
トロイドベクトルFcをクラス1からクラスCについて
求める。このステップST703は、上記の「セントロ
イドベクトルの構成」に対応する。
【0069】ステップST704では、コーパスから文
例sを選択する。
【0070】ステップST705では、文sについてク
ラスタリングの尺度Mc(s)をクラス1からクラスC
について求める。このステップST705は、上記の
「クラスタリング尺度」に対応する。
【0071】ステップST706では、クラスタリング
尺度Mc(s)が最大であるクラスタcを選択して、文
sのクラスタとする。このステップST706は、上記
の「文クラス番号再決定」に対応する。
【0072】ステップST707では、全ての文(文
例)について、ステップST704からステップST7
06での処理が行われたか否かを判定し、行われた場合
には、ステップST708に進み、行われていない場合
には、ステップST704に進む。
【0073】ステップST708では、反復回数を表す
変数iを1増加する。
【0074】ステップST709では、変数iの値が所
定の反復回数に達したか否かを判定し、達した場合には
この処理を終了し、達していない場合にはステップST
703に進む。
【0075】つぎに、文例を用いて、この実施の形態1
のクラスタリング手段7の作用を説明する。
【0076】図2に示した4つの文例「文例1:扁桃腺
の 炎症 は 、 悪化 している 。」、「文例
2:胸部 の X線 画像 から 、 横隔膜 の 癒
着 が見 られる 。」、「文例3:胸部 横隔膜 の
癒着 が 見 られる 。」および「文例4:胸部
の 横隔膜 が 癒着 して いる 。」を含むコーパ
スについて、この実施の形態1の効果を説明する。
【0077】手順1.コーパス全体の異なり語彙を求め
る。文例1〜文例4に含まれる語彙と頻度を頻度の大き
い方から並べると、図7のようになる。なお、文例の数
によって、語彙と頻度は変化し、さらに頻度の順番も変
化するが、ここでは、コーパスに3つの文例しかないと
して説明する。
【0078】図7から、コーパス全体の異なり語彙数V
0は、19となる。従って,文ベクトル、セントロイド
ベクトルは19次元のベクトルとなり、各次元は各語彙
に対応した値となる。
【0079】手順2.文例1〜文例4の文ベクトルは各
文例に現れる語彙の頻度として定義される。したがっ
て、文例1から文例4の文ベクトルは、それぞれ、図8
から図11のようになる。なお、各図右半分には参考と
して図7と同内容を示してある。
【0080】手順3.コーパスを2つのクラスタに分割
する場合、ランダムに2つのクラスタに分割する。ここ
では、図12に示すように、文例1および文例3はクラ
スタ1に、文例2および文例4はクラスタ2に、それぞ
れ、属したとする。
【0081】各クラスタのセントロイドベクトルは、各
クラスタに属する文例全体の異なり語彙数を各次元の値
としたベクトルなので、この場合、各クラスタのセント
ロイドベクトルは、図13および図14のようになる。
なお、コーパスが少ないので、各次元にはα(=1とす
る)を加えて、値が0とならないようにしている。
【0082】手順4.各セントロイドベクトルと各文の
ベクトルの類似度L(Fs、Fc)を計算する。
【0083】まず、クラスタ内の異なり語彙数は、次の
ようになる。 F0[c1]=Σ(v=1,19)Fc1[v] =2×3+1×13+19×α(=1)=19+19
【0084】 F0[c2]=Σ(v=1,19)Fc2[v] =3×1+2×6+1×8+19×α(=1)=23+19
【0085】したがって、各文とクラスタ1のセントロ
イドベクトルとの類似度は次のようになる。
【0086】 L(Fs1,Fc1) =Σ(v=1,19)Fs1[v]log(Fc1[v]/F0[c1]) =−12.259
【0087】 L(Fs2,Fc1) =Σ(v=1,19)Fs2[v]log(Fc1[v]/F0[c1]) =−18.101
【0088】 L(Fs3,Fc1) =Σ(v=1,19)Fs3[v]log(Fc1[v]/F0[c1]) =−10.981
【0089】 L(Fs4,Fc1) =Σ(v=1,19)Fs4[v]log(Fc1[v]/F0[c1]) =−10.981
【0090】同様に、各文とクラスタ2のセントロイド
ベクトルとの類似度は次のようになる。
【0091】 L(Fs1,Fc2) =Σ(v=1,19)Fs1[v]log(Fc2[v]/F0[c2]) =−13.773
【0092】 L(Fs2,Fc2) =Σ(v=1,19)Fs2[v]log(Fc2[v]/F0[c2]) =−16.852
【0093】 L(Fs3,Fc2) =Σ(v=1,19)Fs3[v]log(Fc2[v]/F0[c2]) =−10.542
【0094】 L(Fs4,Fc2) =Σ(v=1,19)Fs4[v]log(Fc2[v]/F0[c2]) =−10.542
【0095】手順5.上記の類似度を比較すると、 L(Fs1,Fc1)=−12.259>L(Fs1,Fc2) =−13.773 L(Fs2,Fc1)=−18.101<L(Fs2,Fc2) =−16.852 L(Fs3,Fc1)=−10.981<L(Fs3,Fc2) =−10.542 L(Fs4,Fc1)=−10.981<L(Fs4,Fc2) =−10.542 となり、各文は図15に示すようにクラスタに分類され
る。
【0096】手順6.上記の結果から2回目の繰返しに
おけるセントロイドベクトルを求めると図16及び図1
7のようになる。
【0097】手順7.図16に示されたセントロイドベ
クトルFc1及び図17に示されたセントロイドベクト
ルFc2と、各文ベクトルFs1からFs4との類似度
を計算すると次のようになる。 L(Fs1,Fc1)=−11.614 L(Fs2,Fc1)=−18.968 L(Fs3,Fc1)=−12.258 L(Fs4,Fc1)=−11.656 L(Fs1,Fc2)=−14.616 L(Fs2,Fc2)=−16.803 L(Fs3,Fc2)=−10.071 L(Fs4,Fc2)=−11.477
【0098】手順8.上記類似度の比較をすると、 L(Fs1,Fc1)=−11.614>L(Fs1,Fc2) =−14.616 L(Fs2,Fc1)=−18.968<L(Fs2,Fc2) =−16.803 L(Fs3,Fc1)=−12.258<L(Fs3,Fc2) =−10.071 L(Fs4,Fc1)=−11.656<L(Fs4,Fc2) =−11.477
【0099】したがって、各文は図18に示すように分
類される。
【0100】以下、所定の回数(例えば20回)だけ反
復するが、クラスタの分類は変化しない。
【0101】手順9.これで、コーパスの分割を終了す
る。
【0102】このようなコーパスに対して、本実施形態
のクラスタリング手段7は、文例1の語彙を全て含むよ
うに、小コーパス1を作成し、その結果、小コーパス1
には、語彙として、「語彙:扁桃腺 の 炎症 は 悪
化 して いる 、 。」が含まれる。また、文例2の
語彙を全て含むように、小コーパス2を作成し、その結
果、小コーパス2には、語彙として、「語彙:胸部 の
X線 画像 から横隔膜 癒着 が 見 られる 、
。」が含まれる。
【0103】一方、従来のコーパス全体から言語モデル
を作成する場合、コーパスには、語彙として、「語彙:
扁桃腺 の 炎症 は 悪化 して いる 胸部 X線
画像 から 横隔膜 癒着 が 見 られる 、
。」が含まれ、言語処理の探索空間(=語彙の組み合
わせ)が大きいため、計算量が急激に増加する。従っ
て、この実施の形態1のクラスタリング手段7を用いる
と、小コーパスから得られる要素言語モデルを用いた言
語処理(=単語列探索)の探索空間(=語彙の組み合わ
せ)が小さいため、計算量は少なく、要素言語モデルを
複数探索しても、全体の処理量は小さくすることができ
る。また、「胸部の扁桃腺」などの誤認識を防止する効
果がある。
【0104】以上説明したように、この実施の形態1の
言語モデル構成装置は、複数の文からなるコーパスを記
憶するコーパス記憶手段6と、コーパス中の各文を分類
し、この分類に従ってコーパス中の文を複数のクラスタ
に分割して小コーパス61−1〜61−Cからなる小コ
ーパス群61を生成するクラスタリング手段7と、クラ
スタリング手段7により生成された小コーパス内の文に
基づいて小コーパスごとに要素言語モデル32−1〜3
2−Cからなる要素言語モデル群32を生成する言語モ
デル生成手段72とを備え、クラスタリング手段7は、
小コーパス内の文に含まれる語彙あるいは語彙の組の頻
度情報を含むセントロイドベクトルを計算するセントロ
イドベクトル計算手段705と、小コーパス内の各文の
語彙あるいは語彙の組みの頻度情報を含む文ベクトルと
セントロイドベクトル計算手段705が計算した各小コ
ーパスのセントロイドベクトルとの間の演算によって文
と各セントロイドベクトルとの類似度を計算するクラス
タリング尺度計算手段707と、クラスタリング尺度計
算手段707が計算した類似度に基づいて各文の所属ク
ラスタを決定する文クラスタ番号決定手段706とを備
えたものである。
【0105】また、この実施の形態1の言語モデル構成
装置は、単一のn−gram言語モデルを用いる場合で
は事実上不可能であった、広い範囲の話題を対象とする
音声認識において、言語処理の計算量が語彙数と共に急
激に増加せず、効率的な音声認識が可能である。また、
認識結果は、要素言語モデル内の語彙接続に限定される
ため、認識精度が向上する。
【0106】以上のように、この実施の形態1によれ
ば、コーパスを分割して複数の小コーパスからなる小コ
ーパス群を生成したので、単一のn−gram言語モデ
ルを用いる場合では事実上不可能であった、広い範囲の
話題を対象とする音声認識において、言語処理の計算量
が語彙数と共に急激に増加せず、効率的な音声認識が可
能である効果が得られる。また、認識結果は、要素言語
モデル内の語彙接続に限定されるため、認識精度が向上
する効果が得られる。
【0107】実施の形態2.この実施の形態2では、実
施の形態1の言語モデル構成装置において、クラスタリ
ング手段7は、さらに、各文の語彙を話題独立語彙と話
題依存語彙とに分類する語彙話題依存度計算手段703
を含み、セントロイドベクトル計算手段705は、セン
トロイドベクトルの次元として、語彙話題依存度計算手
段703が計算した分類に基づき、各小コーパスで共通
の値を話題共通語彙に対応する各次元とし、各小コーパ
スの文の語彙あるいは語彙の組みの頻度情報を話題依存
語彙に対応する各次元としたセントロイドベクトルを計
算するものである。
【0108】この実施の形態2の語彙話題依存度計算手
段703は、たとえば、所定の語彙分類テーブルを参照
することで、また、コーパス中の語彙の出現傾向から語
彙の話題依存度を計算することで、その処理を実施する
ことができる。後者のコーパス中の語彙の出現傾向から
語彙の話題依存度の計算は、実施の形態1では、コーパ
スの語彙出現頻度から語彙の話題依存度を計算し、頻度
の高い語彙ほど話題共通性が高く頻度の低い語彙ほど話
題依存度が高いとした。また、前者の所定の語彙分類テ
ーブルの参照は、人手で作成した語彙分類テーブルとし
て、一般的な用語は話題独立性が高く、一般以外の用語
は専門語である可能性が高く話題依存性が高いとするこ
とで実施することができる。なお、この実施の形態2に
ついての説明では、語彙の出現頻度を用いた場合につい
て説明したが、文中の語彙の組の出現頻度を用いた場合
も同様の効果を奏する。
【0109】以上のように、この実施の形態2によれ
ば、各小コーパスで共通の値を話題共通語彙に対応する
各次元とし、各小コーパスの文の語彙あるいは語彙の組
みの頻度情報を話題依存語彙に対応する各次元としたセ
ントロイドベクトルを計算するようにしたので、生成さ
れた各小コーパスが、互いに重複した語彙の少ない独立
度の高いものとなり、言語処理の計算量が語彙数と共に
急激に増加せず、効率的な音声認識が可能である効果が
得られる。
【0110】実施の形態3.この実施の形態3では、実
施の形態2の言語モデル構成装置において、語彙話題依
存度計算手段703は、各文の語彙のうち助詞、助動詞
を含む所定の品詞の語彙を話題独立語彙とするものであ
る。
【0111】形態素解析の結果、文中の語彙について、
図2の各文例の語彙の[]内に示すように、各語彙の品
詞が副産物として得られる。この実施の形態3は、この
ように助詞や助動詞とされた語彙は話題に依存する情報
をほとんど有していないという直感から、これらの語彙
を話題独立語彙としたものである。一方、名詞や動詞と
された語彙は話題を表しているという直感から、話題に
依存する語彙であるとしたものである。また、未定義語
は業務特有の用語や固有名詞であるので、話題依存度の
高い語彙である可能性が高いので、話題依存語彙とする
ことができる。
【0112】この実施の形態3では、形態素解析におけ
る副産物である語彙の品詞を用いることができるという
効果を有する。なお、ここでは、語彙として説明した
が、文中の語彙の組としても同様の効果を奏する。
【0113】以上のように、この実施の形態3によれ
ば、各文の語彙のうち助詞、助動詞を含む所定の品詞の
語彙を話題独立語彙とするようにしたので、セントロイ
ドベクトルの各次元の決定において、話題独立語彙と話
題依存語彙とを判定するための基準を新たに必要とせ
ず、判定が明確かつ容易となる効果が得られる。
【0114】実施の形態4.この実施の形態4は、実施
の形態2で述べた言語モデル構成装置において、語彙話
題依存度計算手段703は、各文の語彙のうちコーパス
内の出現頻度の大きいものから所定の個数までを話題独
立語彙としたものである。
【0115】この実施の形態4では、コーパスから自動
的に話題独立度が得られるという効果を有する。なお、
ここでは、各文の語彙として説明したが、各文の語彙の
組としても同様の効果を奏する。
【0116】以上のように、この実施の形態4によれ
ば、各文の語彙のうちコーパス内の出現頻度の大きいも
のから所定の個数までを話題独立語彙としたので、コー
パスから自動的に話題独立度が得られるという効果が得
られる。
【0117】実施の形態5.この実施の形態5は、実施
の形態2で述べた言語モデル構成装置において、語彙話
題依存度計算手段703は、各文の語彙のうち助詞、助
動詞を含む所定の品詞の語彙と、所定の品詞の語彙以外
の語彙のうちコーパス内の出現頻度の大きいものから所
定の個数までを話題独立語彙としたものである。
【0118】この実施の形態5は、まず、助詞や助動詞
などの品詞の語彙は、話題独立語とする。つぎに、品詞
により話題依存語とされた語彙についてだけ、コーパス
における語彙の出現頻度を求め、比較的頻度の高い語彙
は話題独立語とし、比較的頻度の低い語彙を話題依存語
とするものである。
【0119】この実施の形態5によれば、実施の形態3
と実施の形態4の特徴の両方を併せ持つという効果を有
する。なお、ここでは、各文の語彙として説明したが、
各文の語彙の組としても同様の効果を奏する。
【0120】以上のように、この実施の形態5によれ
ば、助詞や助動詞などの品詞の語彙は、話題独立語と
し、品詞により話題依存語とされた語彙についてだけ、
コーパスにおける語彙の出現頻度を求め、比較的頻度の
高い語彙は話題独立語とし、比較的頻度の低い語彙を話
題依存語としたので、セントロイドベクトルの各次元の
決定において、話題独立語彙と話題依存語彙とを判定す
るための基準を新たに必要とせず、判定が明確かつ容易
となり、コーパスから自動的に話題独立度が得られると
いう効果が得られる。
【0121】実施の形態6.この実施の形態6は、実施
の形態1の言語モデル構成装置において、クラスタリン
グ手段7は、さらに、コーパス内の語彙を分類する語彙
分類手段713を含み、セントロイドベクトル計算手段
705は、各次元は各クラスタの文の語彙あるいは語彙
の組みの頻度情報を語彙分類手段713が分類した語彙
の分類内で平滑化した頻度情報からなるセントロイドベ
クトルを計算するものである。
【0122】語彙分類手段713は、所定の語彙分類テ
ーブルを有して、語彙の分類を行う。セントロイドベク
トル計算手段705は、語彙の分類の結果同一である語
彙の次元については、頻度を平滑化した値として平均値
(=語彙分類中の語彙の総頻度数を語彙分類中の語彙の
種類で除した値)を代入する。
【0123】この実施の形態6によれば、語彙の分類に
よる話題共通性を扱えるという効果を有する。なお、こ
こでは、語彙として説明したが、語彙の組としても構わ
ない。
【0124】以上のように、この実施の形態6によれ
ば、セントロイドベクトルの各次元が各クラスタの文の
語彙あるいは語彙の組みの頻度情報を語彙の分類内で平
滑化した頻度情報からなるようにしたので、語彙の分類
による話題共通性を扱えるという効果が得られる。
【0125】実施の形態7.この実施の形態7は、実施
の形態6の言語モデル構成装置において、語彙分類手段
713は、文書あるいは段落を含む所定の相互に関連づ
けられた文セットに含まれる文の語彙あるいは語彙の組
を同じ分類に分類するものである。
【0126】この実施の形態7によれば、コーパスにお
ける文の出現位置が近いものは同じ話題に属するという
直感を生かした話題の共通性を扱えるという効果を有す
る。なお、ここでは、語彙として説明したが、語彙の組
としても構わない。
【0127】以上のように、この実施の形態7によれ
ば、文書あるいは段落を含む所定の相互に関連づけられ
た文セットに含まれる文の語彙あるいは語彙の組を同じ
分類に分類するようにしたので、コーパスにおける文の
出現位置が近いものは同じ話題に属するという直感を生
かした話題の共通性を扱えるという効果が得られる。
【0128】実施の形態8.図19は、この発明の実施
の形態8を示すブロック構成図である。図19におい
て、73はクラスタ数制御手段であり、74はクラスタ
語彙数計算手段であり、75は探索空間推定手段であ
り、76は最適クラスタ数決定手段である。
【0129】この実施の形態8は、複数の文からなるコ
ーパスを記憶するコーパス記憶手段6と、コーパス中の
各文を分類し、この分類に従ってコーパス中の文を複数
のクラスタに分割して小コーパス61−1〜61−Cか
らなる小コーパス群61を生成するクラスタリング手段
7と、クラスタリング手段7により生成された小コーパ
ス内の文に基づいて小コーパスごとに要素言語モデル3
2−1〜32−Cからなる要素言語モデル群32を生成
する言語モデル生成手段72と、クラスタ数を所定の範
囲で指定するクラスタ数制御手段73と、クラスタリン
グの結果得られる各小コーパス内の語彙数を計算するク
ラスタ語彙数計算手段74と、クラスタ数制御手段73
の指定したクラスタ数とクラスタ語彙数計算手段74が
計算した各小コーパスの語彙数とから探索空間の大きさ
を推定する探索空間推定手段75と、探索空間推定手段
75が推定した探索空間の大きさに基づいて最適なクラ
スタ数を決定する最適クラスタ数決定手段76とを有
し、クラスタリング手段7がクラスタ数制御手段73の
指定したクラスタ数でクラスタリングを実行するもので
ある。
【0130】次に動作について説明する。クラスタ数制
御手段73は、所定の範囲でクラスタ数Cを指定する。
クラスタ数Cは、大規模なコーパスの場合、たとえば、
10から1000の範囲で1,2,5の系列で変化させ
る。なお、クラスタ数は、クラスタ数あたりの平均サン
プル文例数が大きいようであれば、さらに、1000を
超えるようにすることもできる。
【0131】クラスタリング手段7は、たとえば、前記
各実施形態において説明した構成のクラスタリング手段
を用いることができる。
【0132】クラスタ語彙数計算手段74は、クラスタ
リング手段7の出力した小コーパス群61内の各小コー
パスに含まれる語彙数をカウントし、クラスタあたりの
平均語彙数Vを計算する。
【0133】探索空間推定手段75は、探索空間を、ク
ラスタ数Cと各クラスタの語彙数Vc(c∈{1,…,
C})の関数を用いて求める。各クラスタの語彙数の平
均をVとすると、探索空間と、クラスタ数C及び平均語
彙数Vの関係を、多数の例から求めて、これらを代表す
るように作られたモデル式に基づいて計算する。モデル
式としては、次式を用いる。 S(C,V)= Ca (V/V0)b (3)
【0134】ここで、V0はコーパス6中の語彙の種類
数、aおよびbはモデル式(3)のパラメータであり、
多くの実例を近似するように決定された実数値である。
【0135】なお、モデル式(3)の関数形はこれに限
らず実例を近似するものであれば良いが、クラスタ数C
が1すなわちコーパス全体から言語モデルを生成する場
合に1となるように正規化がなされている必要がある。
【0136】最適クラスタ数決定手段76は、探索空間
推定手段75が計算した探索空間の大きさとクラスタ数
の関係で、クラスタ数を2から1000まで1,2,5
の系列で変化させたときに探索空間が最小値または所定
の値より下回ったクラス数を最適なクラス数と決定す
る。
【0137】以上説明したように、この実施の形態8の
言語モデル構成装置は、複数の文からなるコーパスを記
憶するコーパス記憶手段6と、コーパス中の各文を分類
し、この分類に従って上記コーパス中の文を複数のクラ
スタに分割して小コーパス61−1〜61−Cからなる
小コーパス群61を生成するクラスタリング手段7と、
クラスタリング手段7により生成された小コーパス内の
文に基づいて小コーパスごとに要素言語モデル32−1
〜32−Cからなる要素言語モデル群32を生成する言
語モデル生成手段72と、クラスタ数を所定の範囲で指
定するクラスタ数制御手段73と、クラスタリングの結
果得られる各小コーパス内の語彙数を計算するクラスタ
語彙数計算手段74と、クラスタ数制御手段73の指定
したクラスタ数とクラスタ語彙数計算手段74が計算し
た各小コーパスの語彙数とから探索空間の大きさを推定
する探索空間推定手段75と、探索空間推定手段75が
推定した探索空間の大きさに基づいて最適なクラスタ数
を決定する最適クラスタ数決定手段76とを有し、クラ
スタリング手段7が上記クラスタ数制御手段73の指定
したクラスタ数でクラスタリングを実行するものであ
る。
【0138】以上のように、この実施の形態8によれ
ば、探索空間の大きさとクラスタ数の関係で、探索空間
が最小値または所定の値より下回ったクラス数を最適な
クラス数として決定するようにしたので、大規模なコー
パスの場合にも効率的な音声認識が可能である効果が得
られる。
【0139】実施の形態9.この実施の形態9は、入力
される文の音声信号に基づいて、所定の統計的言語モデ
ルを用いて音声認識する音声認識装置において、単語列
探索手段として、実施の形態1〜実施の形態8で説明し
た言語モデル構成装置が構成した要素言語モデルのいず
れをも参照して並列的に仮説展開を実行する単語列探索
手段としたものである。
【0140】この実施の形態9の音声認識装置の構成は
図1と同様である。
【0141】次に動作について説明する。基本記号列認
識手段41aは、音響モデル21を参照して音節認識を
行い基本記号列として音節系列候補を求める。単語列探
索手段43aは基本記号列認識手段41aが求めた音節
系列候補に対して差分モデル44および要素言語モデル
群32内の要素言語モデル32−1〜32−Cを参照し
て、単語列探索を行う。ここで、単語列探索の目的は、
要素言語モデルのいずれかを用いたときに最大の尤度を
有する単語列を効率的に探索することである。この目的
のため、単語列探索手段43aは、要素言語モデルに対
応する数だけの単語列仮説を保持するスタック群を有
し、入力の音節系列に対して、各スタックに格納されて
いる評価値最大の仮説のうちさらにスタック群の中で最
大の評価値を有する仮説を優先的に展開する。すなわ
ち、各スタックには、複数の仮説が記憶(保持)されて
いて、スタック毎に評価値が最大の仮説を選択し、さら
に選択された各スタックからの仮説のうち最大の評価値
を有する仮説を優先的に展開する。また、仮説とは、入
力の音節系列に対して、その音節系列が表していると思
われる文(=単語列)のことで、たとえば、入力の音節
系列が「センコウスル」であった場合、仮説としては
「選考する」「専攻する」などの文が対応する。
【0142】このように複数のスタック群を用いて評価
値が最大の仮説を展開するため、従来要素言語モデルご
とに単語列を探索してその結果として得られる要素言語
モデルごとの尤度を比較し最大の尤度を有する単語列を
認識結果5として選択しているよりも、大幅に計算量が
少なく、効率的に目的の単語列を探索することができ
る。
【0143】以上説明したように、この実施の形態9の
音声認識装置は、音声1を取り込む音声入力手段2と、
音声入力手段2で取り込まれた音声1を単語列に変換し
認識結果5を作成する音声文字変換手段4と、実施の形
態1乃至実施の形態8のうちのいずれかの言語モデル構
成装置が構成した要素言語モデルを参照して並列的に仮
説展開を実行する単語列探索手段とを有するものであ
る。
【0144】以上のように、この実施の形態9によれ
ば、複数のスタック群を用いて評価値が最大の仮説を展
開するようにしたので、従来要素言語モデルごとに単語
列を探索してその結果として得られる要素言語モデルご
との尤度を比較し最大の尤度を有する単語列を認識結果
として選択しているよりも、大幅に計算量が少なく、効
率的に目的の単語列を探索することができる効果が得ら
れる。
【0145】実施例.この発明の発明者は、前記実施の
形態の言語モデル構成装置の効果を確認するため、評価
実験を行った。実験で用いたコーパスは、新聞記事の9
4年1月から9月を学習用とし、10月から12月を評
価用とした。含まれる文の数および語彙数を表1に示
す。全期間の異なり語彙数V0は349,580(学習
用のみでは300,034)であった。
【0146】
【表1】
【0147】ここでは、認識系として、公知の音節認識
を行い音節系列候補を求める1段階と、音節系列候補に
対して単語列探索を行う2段階探索法(阿部芳春,伍井
啓恭,丸田裕三,中島邦男,「認識誤り傾向の確率モデ
ルを用いた2段階探索法による大語彙連続音声認識」電
子情報通信学会論文誌Vol.J83−D−II,N
o.12,pp.2545−2553(2000−1
2)を用いる場合を想定する。この場合、2段目のみで
言語モデルが用いられ、言語モデルは2段目の探索空間
に影響を与える。
【0148】言語モデルとして話題分割モデルを用いる
場合の探索空間の(相対的な)大きさを要素言語モデル
の平均語彙サイズVと要素言語モデルの数C(=クラス
タ数)の関数S(C,V)で近似し、つぎのような関係
が成立する(ような探索アルゴリズムが存在する)と仮
定する。
【0149】 S(C,V)=Ca (V/V0)b (3’) ここで、a=1/2かつb=3/2
【0150】結果.表2にクラスタリングの繰返し回数
と全クラスタの語彙数を平均した平均語彙数の関係を示
す。
【0151】各クラスタの語彙数は、カウントが1以上
の語彙数とした。式(1)の尺度を用いる場合、ランダ
ムに文のクラスを決定した初期値(繰返し回数0)か
ら、繰返し回数の増大とともに、平均語彙数が単調減少
しており、文クラスタリングにより文間の語彙の共通性
が補足されていると推察される。式(2)の尺度を用い
る場合、平均語彙数の収束は不安定で、語彙数標準偏差
で示されるように、クラスタ間の語彙数のばらつきが大
きい。以下の実験では、収束結果の良かった尺度の式
(1)を用いた。
【0152】
【表2】
【0153】次に、繰返しを20回として、クラスタ数
C、話題独立度の高い語彙の次元数Dを変化させ、平均
語彙数V、探索空間の大きさの指標S(C,V)式
(3’)、及び評価文の文単位のヒット率(1文中の全
語彙が特定の1クラスタに含まれる率)を求めた。語彙
の番号は、コーパス中の出現頻度の降順につけて、高頻
度語彙を話題独立度の高い語彙として扱った。結果を表
3に示す。
【0154】
【表3】
【0155】検討.クラスタ数Cの増大と共に式
(3’)に基づく探索空間の大きさに減少傾向が見られ
る。しかし、同時に評価文に対する文単位のヒット率は
低下している。
【0156】また、話題独立語彙の次元数Dの増大と共
に、探索空間は若干増加している。しかし、文単位のヒ
ット率は僅かであるが向上している。具体的には、表3
で、例えば、クラスタ数Cが200の場合について、各
話題独立次元数Dにおける文単位ヒット率を比較する
と、D=0のときのヒット率は0.48296、D=5
00のときのヒット率は0.48420、D=2000
のときのヒット率は0.48450、D=5000のと
きのヒット率は0.50071というように、Dの増加
とともにヒット率が向上している。
【0157】このように、広い話題を含むコーパスか
ら、話題分割言語モデルを作成するためのクラスタリン
グの尺度として、各クラスタが話題独立部分と話題依存
部分とを有し、話題依存部分についての文単位の類似度
に基づいて、探索空間の大きさを考慮して、コーパスを
分割することにより、新聞記事を用いた実験で、話題分
割言語モデルに対する探索空間の大きさを式(3’)の
ように仮定したとき、評価文の文単位カバー率の低下を
許せば、探索空間の小さい言語モデルが構築できる。な
お、評価文の文単位カバー率の低下は、コーパスに含ま
れる文のサンプルを今後増大されることで、改善できる
ものと考えられる。
【0158】
【発明の効果】以上のように、この発明によれば、コー
パスを分割して複数の小コーパスからなる小コーパス群
を生成したので、単一のn−gram言語モデルを用い
る場合では事実上不可能であった、広い範囲の話題を対
象とする音声認識において、言語処理の計算量が語彙数
と共に急激に増加せず、効率的な音声認識が可能である
効果が得られる。また、認識結果は、要素言語モデル内
の語彙接続に限定されるため、認識精度が向上する効果
がある。
【0159】この発明によれば、各小コーパスで共通の
値を話題共通語彙に対応する各次元とし、各小コーパス
の文の語彙あるいは語彙の組みの頻度情報を話題依存語
彙に対応する各次元としたセントロイドベクトルを計算
するようにしたので、生成された各小コーパスが、互い
に重複した語彙の少ない独立度の高いものとなり、言語
処理の計算量が語彙数と共に急激に増加せず、効率的な
音声認識が可能である効果がある。
【0160】この発明によれば、各文の語彙のうち助
詞、助動詞を含む所定の品詞の語彙を話題独立語彙とす
るようにしたので、セントロイドベクトルの各次元の決
定において、話題独立語彙と話題依存語彙とを判定する
ための基準を新たに必要とせず、判定が明確かつ容易と
なる効果がある。
【0161】この発明によれば、各文の語彙のうちコー
パス内の出現頻度の大きいものから所定の個数までを話
題独立語彙としたので、コーパスから自動的に話題独立
度が得られるという効果がある。
【0162】この発明によれば、助詞や助動詞などの品
詞の語彙は、話題独立語とし、品詞により話題依存語と
された語彙についてだけ、コーパスにおける語彙の出現
頻度を求め、比較的頻度の高い語彙は話題独立語とし、
比較的頻度の低い語彙を話題依存語としたので、セント
ロイドベクトルの各次元の決定において、話題独立語彙
と話題依存語彙とを判定するための基準を新たに必要と
せず、判定が明確かつ容易となり、コーパスから自動的
に話題独立度が得られるという効果がある。
【0163】この発明によれば、セントロイドベクトル
の各次元が各クラスタの文の語彙あるいは語彙の組みの
頻度情報を語彙の分類内で平滑化した頻度情報からなる
ようにしたので、語彙の分類による話題共通性を扱える
という効果がある。
【0164】この発明によれば、文書あるいは段落を含
む所定の相互に関連づけられた文セットに含まれる文の
語彙あるいは語彙の組を同じ分類に分類するようにした
ので、コーパスにおける文の出現位置が近いものは同じ
話題に属するという直感を生かした話題の共通性を扱え
るという効果がある。
【0165】この発明によれば、探索空間の大きさとク
ラスタ数の関係で、探索空間が最小値または所定の値よ
り下回ったクラス数を最適なクラス数として決定するよ
うにしたので、大規模なコーパスの場合にも効率的な音
声認識が可能である効果がある。
【0166】この発明によれば、複数のスタック群を用
いて評価値が最大の仮説を展開するようにしたので、従
来要素言語モデルごとに単語列を探索してその結果とし
て得られる要素言語モデルごとの尤度を比較し最大の尤
度を有する単語列を認識結果として選択しているより
も、大幅に計算量が少なく、効率的に目的の単語列を探
索することができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1を示すブロック図で
ある。
【図2】 この発明の実施の形態1のコーパス内の学習
用テキストの説明図である。
【図3】 この発明の実施の形態1のクラスタリング手
段のブロック図である。
【図4】 この発明の実施の形態1の語彙空間の分割の
概念図である。
【図5】 この発明の実施の形態1のセントロイドベク
トルの構成図である。
【図6】 この発明の実施の形態1のコーパス分割処理
の流れ図である。
【図7】 異なり語彙と頻度を表す図である。
【図8】 文例1の文ベクトルを表す図である。
【図9】 文例2の文ベクトルを表す図である。
【図10】 文例3の文ベクトルを表す図である。
【図11】 文例4の文ベクトルを表す図である。
【図12】 コーパスの分割を表す図である。
【図13】 クラスタ1のセントロイドベクトルを表す
図である。
【図14】 クラスタ2のセントロイドベクトルを表す
図である。
【図15】 コーパスの分割を表す図である。
【図16】 クラスタ1のセントロイドベクトルを表す
図である。
【図17】 クラスタ2のセントロイドベクトルを表す
図である。
【図18】 コーパスの分割を表す図である。
【図19】 この発明の実施の形態8を示すブロック図
である。
【図20】 従来の音声認識装置を説明するブロック図
である。
【図21】 他の従来の音声認識装置を説明するブロッ
ク図である。
【符号の説明】
1 音声、2 音声入力手段、4 音声文字変換手段、
5 認識結果、6 コーパス記憶手段、7 クラスタリ
ング手段、21 音響モデル、32 要素言語モデル
群、32−1,32−2,32−C 要素言語モデル、
41a 基本記号列認識手段、43a 単語列探索手
段、44 差分モデル、61 小コーパス群、61−
1,61−2,61−C 小コーパス、72 言語モデ
ル生成手段、73 クラスタ数制御手段、74 クラス
タ語彙数計算手段、75 探索空間推定手段、76 最
適クラスタ数決定手段、701 学習テキストバッフ
ァ、702学習テキスト文ベクトル変換手段、703
語彙話題依存度計算手段、704文クラスタ番号初期化
手段、705 セントロイドベクトル計算手段、706
文クラスタ番号決定手段、707 クラスタリング尺度
計算手段、708 セントロイドベクトル記憶手段、7
09 文クラスタ番号記憶手段、710 語彙話題依存
度記憶手段、711 文ベクトル記憶手段、712 分
類結果出力手段、713 語彙分類手段。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/14 G10L 3/00 535Z 537G 537C (72)発明者 伍井 啓恭 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5B091 BA03 BA19 CA05 CA24 CB12 CB24 CC04 5D015 HH00 HH23 LL09

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 複数の文からなるコーパスを記憶するコ
    ーパス記憶手段と、 上記コーパス中の各文を分類し、この分類に従って上記
    コーパス中の文を複数のクラスタに分割して小コーパス
    からなる小コーパス群を生成するクラスタリング手段
    と、 上記クラスタリング手段により生成された上記小コーパ
    ス内の文に基づいて上記小コーパスごとに要素言語モデ
    ルからなる要素言語モデル群を生成する言語モデル生成
    手段とを備え、 上記クラスタリング手段は、 上記小コーパス内の文に含まれる語彙あるいは語彙の組
    の頻度情報を含むセントロイドベクトルを計算するセン
    トロイドベクトル計算手段と、 上記小コーパス内の各文の語彙あるいは語彙の組みの頻
    度情報を含む文ベクトルと上記セントロイドベクトル計
    算手段が計算した各小コーパスのセントロイドベクトル
    との間の演算によって上記文と上記各セントロイドベク
    トルとの類似度を計算するクラスタリング尺度計算手段
    と、 上記クラスタリング尺度計算手段が計算した類似度に基
    づいて各文の所属クラスタを決定する文クラスタ番号決
    定手段とを備えたことを特徴とする言語モデル構成装
    置。
  2. 【請求項2】 クラスタリング手段は、さらに、各文の
    語彙を話題独立語彙と話題依存語彙とに分類する語彙話
    題依存度計算手段を含み、 セントロイドベクトル計算手段は、セントロイドベクト
    ルの次元として、上記語彙話題依存度計算手段が計算し
    た分類に基づき、各小コーパスで共通の値を話題共通語
    彙に対応する各次元とし、各小コーパスの文の語彙ある
    いは語彙の組みの頻度情報を話題依存語彙に対応する各
    次元としたセントロイドベクトルを計算することを特徴
    とする請求項1記載の言語モデル構成装置。
  3. 【請求項3】 語彙話題依存度計算手段は、各文の語彙
    のうち助詞、助動詞を含む所定の品詞の語彙を話題独立
    語彙とすることを特徴とする請求項2記載の言語モデル
    構成装置。
  4. 【請求項4】 語彙話題依存度計算手段は、各文の語彙
    のうちコーパス内の出現頻度の大きいものから所定の個
    数までを話題独立語彙とすることを特徴とする請求項2
    記載の言語モデル構成装置。
  5. 【請求項5】 語彙話題依存度計算手段は、各文の語彙
    のうち助詞、助動詞を含む所定の品詞の語彙と、上記所
    定の品詞の語彙以外の語彙のうちコーパス内の出現頻度
    の大きいものから所定の個数までを話題独立語彙とする
    ことを特徴とする請求項2記載の言語モデル構成装置。
  6. 【請求項6】 クラスタリング手段は、さらに、コーパ
    ス内の語彙を分類する語彙分類手段を含み、 セントロイドベクトル計算手段は、各次元は各クラスタ
    の文の語彙あるいは語彙の組みの頻度情報を上記語彙分
    類手段が分類した語彙の分類内で平滑化した頻度情報か
    らなるセントロイドベクトルを計算することを特徴とす
    る請求項1記載の言語モデル構成装置。
  7. 【請求項7】 語彙分類手段は、文書あるいは段落を含
    む所定の相互に関連づけられた文セットに含まれる文の
    語彙あるいは語彙の組を同じ分類に分類することを特徴
    とする請求項6記載の言語モデル構成装置。
  8. 【請求項8】 複数の文からなるコーパスを記憶するコ
    ーパス記憶手段と、 上記コーパス中の各文を分類し、この分類に従って上記
    コーパス中の文を複数のクラスタに分割して小コーパス
    からなる小コーパス群を生成するクラスタリング手段
    と、 上記クラスタリング手段により生成された上記小コーパ
    ス内の文に基づいて上記小コーパスごとに要素言語モデ
    ルからなる要素言語モデル群を生成する言語モデル生成
    手段と、 クラスタ数を所定の範囲で指定するクラスタ数制御手段
    と、 クラスタリングの結果得られる各小コーパス内の語彙数
    を計算するクラスタ語彙数計算手段と、 上記クラスタ数制御手段の指定したクラスタ数と上記ク
    ラスタ語彙数計算手段が計算した各小コーパスの語彙数
    とから探索空間の大きさを推定する探索空間推定手段
    と、 上記探索空間推定手段が推定した探索空間の大きさに基
    づいて最適なクラスタ数を決定する最適クラスタ数決定
    手段とを有し、 上記クラスタリング手段が上記クラスタ数制御手段の指
    定したクラスタ数でクラスタリングを実行することを特
    徴とする言語モデル構成装置。
  9. 【請求項9】 音声を取り込む音声入力手段と、 上記音声入力手段で取り込まれた音声を単語列に変換し
    認識結果を作成する音声文字変換手段と、 請求項1乃至請求項8記載のうちのいずれか1項記載の
    言語モデル構成装置が構成した要素言語モデルを参照し
    て並列的に仮説展開を実行する単語列探索手段とを有す
    ることを特徴とする音声認識装置。
JP2001070952A 2001-03-13 2001-03-13 言語モデル構成装置及び音声認識装置 Expired - Fee Related JP4067776B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001070952A JP4067776B2 (ja) 2001-03-13 2001-03-13 言語モデル構成装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001070952A JP4067776B2 (ja) 2001-03-13 2001-03-13 言語モデル構成装置及び音声認識装置

Publications (2)

Publication Number Publication Date
JP2002268678A true JP2002268678A (ja) 2002-09-20
JP4067776B2 JP4067776B2 (ja) 2008-03-26

Family

ID=18928731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001070952A Expired - Fee Related JP4067776B2 (ja) 2001-03-13 2001-03-13 言語モデル構成装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JP4067776B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005106853A (ja) * 2003-09-26 2005-04-21 Nec Corp 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
JP2008226104A (ja) * 2007-03-15 2008-09-25 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム
WO2010051654A1 (en) * 2008-11-05 2010-05-14 Google Inc. Custom language models
JP2017049612A (ja) * 2013-01-29 2017-03-09 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8967361B2 (en) 2013-02-27 2015-03-03 Outerwall Inc. Coin counting and sorting machines
KR20180001889A (ko) 2016-06-28 2018-01-05 삼성전자주식회사 언어 처리 방법 및 장치

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005106853A (ja) * 2003-09-26 2005-04-21 Nec Corp 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
US7310601B2 (en) 2004-06-08 2007-12-18 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus and speech recognition method
JP2008226104A (ja) * 2007-03-15 2008-09-25 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム
WO2010051654A1 (en) * 2008-11-05 2010-05-14 Google Inc. Custom language models
JP2012507809A (ja) * 2008-11-05 2012-03-29 グーグル・インコーポレーテッド カスタム言語モデル
US8826226B2 (en) 2008-11-05 2014-09-02 Google Inc. Custom language models
JP2017049612A (ja) * 2013-01-29 2017-03-09 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム

Also Published As

Publication number Publication date
JP4067776B2 (ja) 2008-03-26

Similar Documents

Publication Publication Date Title
He et al. Discriminative learning for speech recognition: theory and practice
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
US8200491B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
EP1462950B1 (en) Method for language modelling
US5842163A (en) Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
US5870706A (en) Method and apparatus for an improved language recognition system
US6044337A (en) Selection of superwords based on criteria relevant to both speech recognition and understanding
EP0771461B1 (en) Method and apparatus for speech recognition using optimised partial probability mixture tying
US6856956B2 (en) Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
CN110377916B (zh) 词预测方法、装置、计算机设备及存储介质
US20040024598A1 (en) Thematic segmentation of speech
JP2004362584A (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
US20030204399A1 (en) Key word and key phrase based speech recognizer for information retrieval systems
JP2003076392A (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
Lane et al. Out-of-domain utterance detection using classification confidences of multiple topics
US20040215457A1 (en) Selection of alternative word sequences for discriminative adaptation
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
Bazzi et al. A multi-class approach for modelling out-of-vocabulary words
US7085720B1 (en) Method for task classification using morphemes
JP2002268678A (ja) 言語モデル構成装置及び音声認識装置
Rose Word spotting from continuous speech utterances
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP3176210B2 (ja) 音声認識方法及び音声認識装置
Breslin Generation and combination of complementary systems for automatic speech recognition
WO2002029612A1 (en) Method and system for generating and searching an optimal maximum likelihood decision tree for hidden markov model (hmm) based speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071109

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071109

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120118

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130118

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130118

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees