JP2000148762A - 動詞クラスタリング装置および方法と動詞クラスタリングプログラムを記録した記録媒体 - Google Patents

動詞クラスタリング装置および方法と動詞クラスタリングプログラムを記録した記録媒体

Info

Publication number
JP2000148762A
JP2000148762A JP10313591A JP31359198A JP2000148762A JP 2000148762 A JP2000148762 A JP 2000148762A JP 10313591 A JP10313591 A JP 10313591A JP 31359198 A JP31359198 A JP 31359198A JP 2000148762 A JP2000148762 A JP 2000148762A
Authority
JP
Japan
Prior art keywords
verb
node
cluster
noun
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10313591A
Other languages
English (en)
Inventor
Yasunari Maeda
康成 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10313591A priority Critical patent/JP2000148762A/ja
Publication of JP2000148762A publication Critical patent/JP2000148762A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 統計的に精度が良く、意味的に近い動詞を同
じクラスタに分類する動詞クラスタリング装置および方
法と動詞クラスタリングプログラムを記録した記録媒体
を提供する。 【解決手段】 動詞集合が共起頻度算出部100に入力
されると、共起頻度算出部は動詞集合内の各動詞と人手
によって意味的に名詞が木構造に分類された名詞シソー
ラスの各ノードとの共起頻度を算出し、ベイズ推定量算
出部200は共起頻度情報を用いて有限のサンプルに対
して真の分布との2乗誤差がベイズ基準のもとで最小と
なることが保証されたベイズ推定量を算出し、クラスタ
マージ部300は動詞集合とベイズ推定量を入力され、
KL情報量を評価尺度にして動詞集合のクラスタリング
を行い、該クラスタリングによって得られた統計的に精
度が良く意味的に近い動詞が同じクラスタに所属するよ
うにクラスタリングされた動詞集合のクラスタリング結
果を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、意味的に近い動詞
を同じクラスタにクラスタリングする動詞クラスタリン
グ装置および方法に関し、更に詳しくは、動詞と名詞シ
ソーラス中の各ノードとの同一文中における共起に多項
分布を仮定したもとで動詞のクラスタと名詞シソーラス
の各ノードとの共起する多項分布がクラスタ内の各動詞
と名詞シソーラスの各ノードとの共起する多項分布にな
るべく近い近似になるような動詞のクラスタリングを行
う動詞クラスタリング装置および方法と動詞クラスタリ
ングプログラムを記録した記録媒体に関する。
【0002】
【従来の技術】自然言語処理の分野において、情報検索
や文書クラスタリングなどへの利用を目的として、広く
単語の自動クラスタリングに関する手法が提案されてい
る。単語の自動クラスタリングは、「単語の意味はどの
ような単語と共起するかという観点から特徴付けられ
る」というHarris(Harris,Zelig S. "Mathematical St
ructures of Language" ,New York:Wiley(1968).)の
分布仮説(distributionalhypothesis )に基づいてい
る。つまり、単語の共起に多項分布などの分布を仮定
し、似たような分布形を有する単語を意味が近いと判断
して同じクラスタにまとめていく方法である。
【0003】単語の自動クラスタリングは、確率モデル
を元のモデルよりも少ないパラメータで近似する問題と
して定式化することができる。
【0004】従来から、分布仮説に基づく単語の自動ク
ラスタリングは多々行われてきた。Hindle(Hindle,Don
ald "Noun Classification from Predicative-Argument
Structures",ACL90,pp.268-275(1990))は、(1)式
による事象xと事象yの相関関係を示す相互情報量を用
いて、(2)式による2つの名詞nj ,nk 間の類似度
を定義している。
【0005】
【数1】 但し、p(x),p(y)はそれぞれ事象xと事象yの
生起する確率、p(x,y)は事象xと事象yが同時に
生起する同時確率を示す。
【0006】
【数2】 但し、
【0007】
【数3】 obj (vi ,nj )は動詞vi とその目的語の名詞n
j との共起スコア、fob j (vi ,nj )は名詞nj
動詞vi の目的語として出現した回数、fobj (nj
は名詞nj が動詞の目的語として出現した回数、f(v
i )は動詞vi の出現回数、Nは学習サンプル中の節の
数で、SIMsubj(vi ,nj ,nk )も同様に定義さ
れる。
【0008】また、 Pereira(Pereira,F.,Tishby,N.an
d Lee,L.: "Distributional Clustering of English Wo
rds", ACL-93,pp.183-190(1193).)は(5)式で示され
る2つの確率分布p(x)とq(x)間の擬距離である
カルバック・ライブラー情報量(KL情報量)を用い
て、動詞の直接目的語としての分布に基づいて、近い名
詞をクラスタにまとめることによって名詞のクラスタリ
ングを行っている。
【0009】
【数4】 図7にその動作原理を示す。名詞集合と動詞集合が入力
されると、文章のデータベースであるコーパス中の同一
文において各名詞と各動詞が共起した総回数である共起
頻度を算出する(ステップS100)。次に、共起頻度
を基にその相対頻度で計算される最尤推定量を算出する
(ステップS102)。次に、カルバック・ライブラー
(KL)情報量を評価尺度に名詞集合のクラスタリング
を行い(ステップS104)、最後に名詞集合のクラス
タリング結果を出力する。
【0010】
【発明が解決しようとする課題】上述した従来の技術に
はいくつかの問題点が挙げられる。第1に、いずれの手
法においても、文章のデータベースであるコーパス等を
学習サンプルとして各分布の推定を行うが、その推定量
として最尤推定量((4)式の分母分子に現れているよ
うな相対頻度による推定量)を用いている。しかし、最
尤推定量はサンプル数が無限の場合に真の分布への収束
が保証されているだけで、有限のサンプル数のもとでは
何も保証されていない。実際に得られるサンプルは有限
であるため、最尤推定量を用いたのでは、統計的には精
度の良いクラスタリングは行われない。更に、頻度がゼ
ロの分布の推定量が求められないというゼロ頻度問題が
生じる。
【0011】第2に、従来手法では、例えば名詞と動詞
の共起情報を用いて名詞のクラスタリングを行う際に、
動詞そのものとの共起を考慮しているので動詞の数の増
加に伴って、その計算量は膨大になってしまう。
【0012】第3に、従来手法では、例えば名詞と動詞
の共起情報を用いて名詞のクラスタリングを行う際に、
名詞と各動詞との共起情報をそのまま用いていたので
は、共起する動詞をそれぞれ独立に扱っているため、
「似た意味の動詞との共起」というような特徴を無視し
ている。
【0013】以上の問題点により、従来手法によってク
ラスタリングされた結果は、統計的に精度が悪く、意味
の似た単語が同じクラスタに存在しないことが多いとい
う問題がある。
【0014】本発明は、上記に鑑みてなされたもので、
その目的とするところは、有限のサンプルのもとで保証
のあるベイズ推定量と名詞を人手で意味的に木構造に分
類した既存の名詞シソーラスの各ノードとの共起頻度を
用いて、統計的に精度が良く、更に意味的に近い動詞を
同じクラスタに分類する動詞クラスタリング装置および
方法と動詞クラスタリングプログラムを記録した記録媒
体を提供することにある。
【0015】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、動詞集合を入力され、コ
ーパス中の文書データにおける名詞シソーラスの各ノー
ドと動詞集合の各動詞との共起頻度を算出する共起頻度
算出手段と、この算出された共起頻度情報を入力され、
各動詞または動詞クラスタが名詞シソーラスの各ノード
と共起する多項分布のベイズ推定量を算出するベイズ推
定量算出手段と、前記動詞集合と前記ベイズ推定量を入
力され、カルバック・ライブラー情報量を評価尺度とし
て動詞のクラスタと名詞シソーラスの各ノードとの共起
する多項分布がクラスタ内の各動詞と名詞シソーラスの
各ノードとの共起する多項分布に近い近似となるような
動詞集合のクラスタリング結果を出力するクラスタマー
ジ手段とを有し、前記動詞集合からカルバック・ライブ
ラー情報量を評価尺度にして動詞のクラスタと名詞シソ
ーラスの各ノードとの共起する多項分布が前記クラスタ
内の各動詞と名詞シソーラスの各ノードとの共起する多
項分布に近い近似となる動詞集合のクラスタリング結果
を出力することを要旨とする。
【0016】請求項1記載の本発明にあっては、動詞集
合を入力され、コーパス中の文書データにおける名詞シ
ソーラスの各ノードと動詞集合の各動詞との共起頻度を
共起頻度算出手段で算出し、この共起頻度情報を用い
て、各動詞または動詞クラスタが名詞シソーラスの各ノ
ードと共起する多項分布のベイズ推定量をベイズ推定量
算出手段で算出し、動詞集合とベイズ推定量を入力さ
れ、カルバック・ライブラー情報量を評価尺度として動
詞のクラスタと名詞シソーラスの各ノードとの共起する
多項分布がクラスタ内の各動詞と名詞シソーラスの各ノ
ードとの共起する多項分布に近い近似となるような動詞
集合のクラスタリング結果をクラスタマージ手段で出力
し、動詞集合からカルバック・ライブラー情報量を評価
尺度にして動詞のクラスタと名詞シソーラスの各ノード
との共起する多項分布がクラスタ内の各動詞と名詞シソ
ーラスの各ノードとの共起する多項分布に近い近似とな
る動詞集合のクラスタリング結果を出力するため、入力
された動詞集合に対して統計的に精度が良く、意味的に
近い動詞が同じクラスタに分類されたクラスタリング結
果を共起する名詞の意味による特徴も考慮して、少ない
計算量で提示することができる。
【0017】また、請求項2記載の本発明は、動詞集合
を入力され、コーパス中の文書データにおける名詞シソ
ーラスの各ノードと動詞集合の各動詞との共起頻度を算
出し、この算出された共起頻度情報を入力され、各動詞
または動詞クラスタが名詞シソーラスの各ノードと共起
する多項分布のベイズ推定量を算出し、前記動詞集合と
前記ベイズ推定量を入力され、カルバック・ライブラー
情報量を評価尺度として動詞のクラスタと名詞シソーラ
スの各ノードとの共起する多項分布がクラスタ内の各動
詞と名詞シソーラスの各ノードとの共起する多項分布に
近い近似となるような動詞集合のクラスタリング結果を
出力し、前記動詞集合からカルバック・ライブラー情報
量を評価尺度にして動詞のクラスタと名詞シソーラスの
各ノードとの共起する多項分布が前記クラスタ内の各動
詞と名詞シソーラスの各ノードとの共起する多項分布に
近い近似となる動詞集合のクラスタリング結果を出力す
ることを要旨とする。
【0018】請求項2記載の本発明にあっては、入力さ
れた動詞集合の各動詞と人手によって意味的に名詞が木
構造に分類されている名詞シソーラスの各ノードとのコ
ーパス中における共起頻度を算出し、この共起頻度情報
を基にベイズ推定量を算出して、カルバック・ライブラ
ー情報量を評価尺度にして動詞集合のクラスタリングを
行うため、入力された動詞集合に対して統計的に精度が
良く、意味的に近い動詞が同じクラスタに分類されたク
ラスタリング結果を共起する名詞の意味による特徴も考
慮して、少ない計算量で提示することができる。
【0019】更に、請求項3記載の本発明は、動詞集合
を入力され、コーパス中の文書データにおける名詞シソ
ーラスの各ノードと動詞集合の各動詞との共起頻度を算
出し、この算出された共起頻度情報を入力され、各動詞
または動詞クラスタが名詞シソーラスの各ノードと共起
する多項分布のベイズ推定量を算出し、前記動詞集合と
前記ベイズ推定量を入力され、カルバック・ライブラー
情報量を評価尺度として動詞のクラスタと名詞シソーラ
スの各ノードとの共起する多項分布がクラスタ内の各動
詞と名詞シソーラスの各ノードとの共起する多項分布に
近い近似となるような動詞集合のクラスタリング結果を
入力し、前記動詞集合からカルバック・ライブラー情報
量を評価尺度にして動詞のクラスタと名詞シソーラスの
各ノードとの共起する多項分布が前記クラスタ内の各動
詞と名詞シソーラスの各ノードとの共起する多項分布に
近い近似となる動詞集合のクラスタリング結果を出力す
る動詞クラスタリングプログラムを記録媒体に記録する
ことを要旨とする。
【0020】請求項3記載の本発明にあっては、動詞集
合を入力され、コーパス中の文書データにおける名詞シ
ソーラスの各ノードと動詞集合の各動詞との共起頻度を
算出し、この共起頻度情報を用いて、各動詞または動詞
クラスタが名詞シソーラスの各ノードと共起する多項分
布のベイズ推定量を算出し、動詞集合とベイズ推定量を
入力され、カルバック・ライブラー情報量を評価尺度と
して動詞のクラスタと名詞シソーラスの各ノードとの共
起する多項分布がクラスタ内の各動詞と名詞シソーラス
の各ノードとの共起する多項分布に近い近似となるよう
な動詞集合のクラスタリング結果を出力し、動詞集合か
らカルバック・ライブラー情報量を評価尺度にして動詞
のクラスタと名詞シソーラスの各ノードとの共起する多
項分布がクラスタ内の各動詞と名詞シソーラスの各ノー
ドとの共起する多項分布に近い近似となる動詞集合のク
ラスタリング結果を出力する動詞クラスタリングプログ
ラムを記録媒体に記録するため、該記録媒体を用いて、
その流通性を高めることができる。
【0021】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。図1は、一実施形態に係る動
詞クラスタリング装置の構成を示すブロック図である。
同図に示す動詞クラスタリング装置は、動詞集合を入力
データとして与えられると、各動詞の名詞シソーラスの
各ノードとの共起の仕方を表す多項分布間のカルバック
・ライブラー情報量を評価尺度にしてクラスタリングし
た動詞集合クラスタリング結果、すなわち、動詞集合が
統計的に精度良くかつ意味的に近い動詞が同じクラスタ
に分類されたクラスタリング結果を出力する装置であっ
て、動詞集合が与えられると、共起頻度情報と動詞集合
を出力する共起頻度算出部100と、共起頻度情報が与
えられると、ベイズ推定量を出力するベイズ推定量算出
部200と、動詞集合とベイズ推定量が与えられると、
動詞集合クラスタリング結果を出力するクラスタマージ
部300とを有する。
【0022】次に、図2に示すフローチャートを参照し
て、図1に示す動詞クラスタリング装置の作用を説明す
る。まず、動詞集合が共起頻度算出部100に入力され
ると(ステップS10)、共起頻度算出部100は動詞
集合内の各動詞と人手によって意味的に名詞が木構造に
分類された名詞シソーラスの各ノードとの共起頻度を算
出し、該共起頻度情報をベイズ推定量算出部200に供
給する(ステップS20)。ベイズ推定量算出部200
は、この共起頻度情報を用いて、有限のサンプルに対し
て真の分布との2乗誤差がベイズ基準のもとで最小とな
ることが保証されたベイズ推定量を算出し、クラスタマ
ージ部300に供給する(ステップS30)。
【0023】クラスタマージ部300は、動詞集合とベ
イズ推定量を入力されると、カルバック・ライブラー
(KL)情報量を評価尺度にして動詞集合のクラスタリ
ングを行う(ステップS40)。このクラスタリングに
よって得られた統計的に精度が良く、意味的に近い動詞
が同じクラスタに所属するようにクラスタリングされた
動詞集合のクラスタリング結果を出力する(ステップS
50)。
【0024】従って、本実施形態の動詞クラスタリング
装置は第1に、有限のサンプルに対して真の分布との2
乗誤差がベイズ基準のもとで最小となることが保証され
たベイズ推定量を用いているので、統計的にも精度の良
いクラスタリング結果が得られる。2乗誤差に関するベ
イズ推定量は(6)式で示される。
【0025】
【数5】 但し、
【0026】
【数6】 θは分布を支配する連続パラメータを示す。更に、パラ
メータθに対する事前分布p(θ)の設定により、ゼロ
頻度問題にも対処できる。第2に、動詞と各名詞との共
起頻度ではなく、人手によって名詞を意味的に木構造に
分類した名詞シソーラスの各ノードとの共起頻度を用い
るので膨大な名詞を考慮しながらも計算量はノード数分
に抑えることができる。第3に、動詞と各名詞との共起
頻度ではなく、名詞シソーラスの各ノードとの共起頻度
を用いるので、意味的に近い名詞との共起情報をまとめ
て特徴として利用できる。
【0027】図3は、図1に示した動詞クラスタリング
装置の詳細な内部構成を示すブロック図である。図3に
示す動詞クラスタリング装置は、図1と同様に、共起頻
度算出部100、ベイズ推定量算出部200、クラスタ
マージ部300で構成されている。そして、共起頻度算
出部100は、共起頻度算出器110と、コーパス12
0と、名詞シソーラス130とからなる。ベイズ推定量
算出部200は、ベイズ推定量算出器210と、共起頻
度テーブル220と、ベータ分布パラメータテーブル2
30とからなる。クラスタマージ部300は、クラスタ
マージ対決定器310と、クラスタ記憶テーブル320
と、KL情報量算出器330とからなる。
【0028】最初に、図4に示された共起情報算出部1
00の動作フローチャートを参照して、共起情報算出部
100の動作を説明する。まず、動詞集合が与えられる
と(ステップS60)、共起頻度算出器110は、動詞
i (vi ∈V,V:動詞集合、 V={v1 ,v2 ,…,v|V |} )と名詞シソーラス130のノードnnodej (n
nodej ∈Nnode,Nnode:名詞シソ
ーラスのノード集合、
【0029】
【数7】 Nnode={nnode1 ,nnode2
…,nnode|N-node|} )の共起頻度co(vi ,nnodej )、すなわ
ち、文書データベースであるコーパス120中の同一文
において共起した総回数を算出する(ステップS6
2)。但し、
【0030】
【数8】 co(vi ,nk )は動詞vi と名詞nk (nk ∈N,
N:名詞集合、 N={n1 ,n2 ,…,n|N |} )のコーパス120中における共起頻度を示す。共起頻
度の算出後、共起頻度算出器110は、動詞集合と共起
頻度情報を出力する(ステップS64)。
【0031】図5に示されたベイズ推定量算出部200
の動作フローチャートを参照して、ベイズ推定量算出部
200の動作を説明する。まず、共起頻度情報が共起頻
度テーブル220に与えられる(ステップS70)。ベ
イズ推定量算出器210は共起頻度テーブル220の共
起頻度情報とベータ分布パラメータテーブル230のベ
ータ分布のパラメータβ(vi ,nnodej )(真
の分布を支配するパラメータの事前分布を示す)を用い
て、(8)式で示されるある一文の中で動詞vi が観測
された条件の下で、名詞シソーラスのノードnnod
j 中の任意の名詞が観測される条件付き確率分布の2
乗誤差に関するベイズ推定量
【0032】
【数9】 または、(9)式で示されるある一文の中で動詞クラス
タci 中の任意の動詞が観測された条件の下で、名詞シ
ソーラスのノードnnodej 中の任意の名詞が観測
される条件付き確率分布の2乗誤差に関するベイズ推定
【0033】
【数10】 を算出する(ステップS72)。
【0034】
【数11】 但し、β(vi ,n−nodej )はベータ分布のパラ
メータで、真の p(n−nodej |vi ,θ* (vi )) を支配するパラメータθ* (vi )の事前分布を示す。
【0035】
【数12】 図6に示されたクラスタマージ部300の動作フローチ
ャートを参照して、クラスタマージ部300の動作を説
明する。まず、動詞集合を与えられる(ステップS8
0)。クラスタマージ対決定器310は各動詞vi に1
つのクラスタci(ci ∈C,C:動詞クラスタ集合、 C={c1 ,c2 ,…,c|C |}、 CはVの分割で、
【0036】
【数13】 )を割り当てる(ステップS82)。なお、初期のクラ
スタ集合Cは動詞集合Vそのもので|V|個の要素を持
つ、
【0037】
【数14】C={c1 ,c2 ,…,c|C |}=
{v1 ,v2 ,…,v|V |}=V クラスタの情報はクラスタ記憶テーブル320に記憶さ
れる。次に、クラスタマージ対決定器310は動詞クラ
スタのマージ回数を示すカウンタtを0に設定する(ス
テップS84)。
【0038】次に、クラスタマージ対決定器310は、
KL情報量算出器330が算出するクラスタ集合 C={c1 ,c2 ,…,c|C |} の内の異なる2つのクラスタci とcj をマージして、
新たなクラスタ集合 C′={c1 ,c2 ,…,c|C |-1} を作成し、クラスタ集合 C={c1 ,c2 ,…,c|C |} による分布
【0039】
【数15】 を新たなクラスタ集合 C′={c1 ,c2 ,…,c|C |-1} による分布
【0040】
【数16】 で近似するときの損失であるカルバック・ライブラー情
報量(KL情報量)D(C‖C′)が最小になるような
クラスタ対をマージし、クラスタ記憶テーブル320を
更新する(ステップS86)。なお、カルバック・ライ
ブラー情報量D(C‖C′)は(10)式で示される。
【0041】
【数17】 但し、
【0042】
【数18】 また、新しいクラスタ集合による近似の損失が最小にな
るようにマージするクラスタ対(ci ,cj )は次式で
決定される。
【0043】
【数19】 このマージ操作により、新たなクラスタ集合C′、|
C′|=|C|−1が作成される。次に、クラスタマー
ジ対決定器310は、動詞クラスタのマージ回数を示す
カウンタtを1増加させる(ステップS88)。次にク
ラスタマージ対決定器310は、動詞クラスタのマージ
回数を示すカウンタtがMと等しいか確認し、等しくな
ければステップS86に戻り、等しければクラスタリン
グを終了する(ステップS90)。このように、逐次的
にマージ操作をM回繰り返すことにより、最終的には要
素数|V|−Mの動詞クラスタ集合が作成され、分布の
パラメータの次元数は|V|(|Nnode|−1)
から(|V|−M)(|Nnode|−1)に削減さ
れる。
【0044】
【発明の効果】以上説明したように、本発明によれば、
入力される動詞集合の各動詞と人手によって意味的に名
詞が木構造に分類されている名詞シソーラスの各ノード
とのコーパス中における共起頻度を算出し、この共起頻
度情報を基にベイズ推定量を算出し、カルバック・ライ
ブラー情報量を評価尺度にして動詞集合のクラスタリン
グを行うので、入力された動詞集合に対して統計的に精
度が良く、意味的に近い動詞が同じクラスタに分類され
たクラスタリング結果を共起する名詞の意味による特徴
も考慮して、少ない計算量で提示することができる。
【図面の簡単な説明】
【図1】一実施形態に係る動詞クラスタリング装置の構
成を示すブロック図である。
【図2】図1に示す動詞クラスタリング装置の作用を示
すフローチャートである。
【図3】図1に示した動詞クラスタリング装置の詳細な
内部構成を示すブロック図である。
【図4】図3に示した動詞クラスタリング装置に使用さ
れている共起頻度算出部の作用を示すフローチャートで
ある。
【図5】図3に示した動詞クラスタリング装置に使用さ
れているベイズ推定量算出部の作用を示すフローチャー
トである。
【図6】図3に示した動詞クラスタリング装置に使用さ
れているクラスタマージ部の作用を示すフローチャート
である。
【図7】従来技術による名詞クラスタリング手法の動作
原理を示すフローチャートである。
【符号の説明】
100 共起頻度算出部 110 共起頻度算出器 120 コーパス 130 名詞シソーラス 200 ベイズ推定量算出部 210 ベイズ推定量算出器 220 共起頻度テーブル 230 ベータ分布パラメータテーブル 300 クラスタマージ部 310 クラスタマージ対決定器 320 クラスタ記憶テーブル 330 カルバック・ライブラー情報量算出器

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 動詞集合を入力され、コーパス中の文書
    データにおける名詞シソーラスの各ノードと動詞集合の
    各動詞との共起頻度を算出する共起頻度算出手段と、 この算出された共起頻度情報を入力され、各動詞または
    動詞クラスタが名詞シソーラスの各ノードと共起する多
    項分布のベイズ推定量を算出するベイズ推定量算出手段
    と、 前記動詞集合と前記ベイズ推定量を入力され、カルバッ
    ク・ライブラー情報量を評価尺度として動詞のクラスタ
    と名詞シソーラスの各ノードとの共起する多項分布がク
    ラスタ内の各動詞と名詞シソーラスの各ノードとの共起
    する多項分布に近い近似となるような動詞集合のクラス
    タリング結果を出力するクラスタマージ手段とを有し、 前記動詞集合からカルバック・ライブラー情報量を評価
    尺度にして動詞のクラスタと名詞シソーラスの各ノード
    との共起する多項分布が前記クラスタ内の各動詞と名詞
    シソーラスの各ノードとの共起する多項分布に近い近似
    となる動詞集合のクラスタリング結果を出力することを
    特徴とする動詞クラスタリング装置。
  2. 【請求項2】 動詞集合を入力され、コーパス中の文書
    データにおける名詞シソーラスの各ノードと動詞集合の
    各動詞との共起頻度を算出し、 この算出された共起頻度情報を入力され、各動詞または
    動詞クラスタが名詞シソーラスの各ノードと共起する多
    項分布のベイズ推定量を算出し、 前記動詞集合と前記ベイズ推定量を入力され、カルバッ
    ク・ライブラー情報量を評価尺度として動詞のクラスタ
    と名詞シソーラスの各ノードとの共起する多項分布がク
    ラスタ内の各動詞と名詞シソーラスの各ノードとの共起
    する多項分布に近い近似となるような動詞集合のクラス
    タリング結果を出力し、 前記動詞集合からカルバック・ライブラー情報量を評価
    尺度にして動詞のクラスタと名詞シソーラスの各ノード
    との共起する多項分布が前記クラスタ内の各動詞と名詞
    シソーラスの各ノードとの共起する多項分布に近い近似
    となる動詞集合のクラスタリング結果を出力することを
    特徴とする動詞クラスタリング方法。
  3. 【請求項3】 動詞集合を入力され、コーパス中の文書
    データにおける名詞シソーラスの各ノードと動詞集合の
    各動詞との共起頻度を算出し、 この算出された共起頻度情報を入力され、各動詞または
    動詞クラスタが名詞シソーラスの各ノードと共起する多
    項分布のベイズ推定量を算出し、 前記動詞集合と前記ベイズ推定量を入力され、カルバッ
    ク・ライブラー情報量を評価尺度として動詞のクラスタ
    と名詞シソーラスの各ノードとの共起する多項分布がク
    ラスタ内の各動詞と名詞シソーラスの各ノードとの共起
    する多項分布に近い近似となるような動詞集合のクラス
    タリング結果を入力し、 前記動詞集合からカルバック・ライブラー情報量を評価
    尺度にして動詞のクラスタと名詞シソーラスの各ノード
    との共起する多項分布が前記クラスタ内の各動詞と名詞
    シソーラスの各ノードとの共起する多項分布に近い近似
    となる動詞集合のクラスタリング結果を出力することを
    特徴とする動詞クラスタリングプログラムを記録した記
    録媒体。
JP10313591A 1998-11-04 1998-11-04 動詞クラスタリング装置および方法と動詞クラスタリングプログラムを記録した記録媒体 Pending JP2000148762A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10313591A JP2000148762A (ja) 1998-11-04 1998-11-04 動詞クラスタリング装置および方法と動詞クラスタリングプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10313591A JP2000148762A (ja) 1998-11-04 1998-11-04 動詞クラスタリング装置および方法と動詞クラスタリングプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2000148762A true JP2000148762A (ja) 2000-05-30

Family

ID=18043169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10313591A Pending JP2000148762A (ja) 1998-11-04 1998-11-04 動詞クラスタリング装置および方法と動詞クラスタリングプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2000148762A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001087659A1 (en) 2000-05-16 2001-11-22 Nissan Motor Co., Ltd. System and method for controlling vehicle velocity and inter-vehicle distance
JP2007325277A (ja) * 2006-06-05 2007-12-13 Fuji Xerox Co Ltd 協調フレームワークのサポートシステム、監視ビデオのマイニングのサポート方法、及びプログラム
JP2012014476A (ja) * 2010-07-01 2012-01-19 National Institute Of Information & Communication Technology 類似度算出装置、類似度算出方法、及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001087659A1 (en) 2000-05-16 2001-11-22 Nissan Motor Co., Ltd. System and method for controlling vehicle velocity and inter-vehicle distance
JP2007325277A (ja) * 2006-06-05 2007-12-13 Fuji Xerox Co Ltd 協調フレームワークのサポートシステム、監視ビデオのマイニングのサポート方法、及びプログラム
JP2012014476A (ja) * 2010-07-01 2012-01-19 National Institute Of Information & Communication Technology 類似度算出装置、類似度算出方法、及びプログラム

Similar Documents

Publication Publication Date Title
CN108280061B (zh) 基于歧义实体词的文本处理方法和装置
Badjatiya et al. Attention-based neural text segmentation
US9606988B2 (en) Predicting the quality of automatic translation of an entire document
EP1396795B1 (en) Method and apparatus for aligning bilingual corpora
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
US20040024598A1 (en) Thematic segmentation of speech
JP2003223456A (ja) 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
CN112347241A (zh) 一种摘要提取方法、装置、设备及存储介质
Bölücü et al. Unsupervised joint PoS tagging and stemming for agglutinative languages
Gao et al. A unified approach to statistical language modeling for Chinese
JP2001273293A (ja) 単語推定方法及び装置及び単語推定プログラムを格納した記録媒体
Foster Text prediction for translators
Bigi et al. A fuzzy decision strategy for topic identification and dynamic selection of language models
Manik et al. Evaluating the morphological and capitalization features for word embedding-based POS tagger in bahasa Indonesia
JP2000148762A (ja) 動詞クラスタリング装置および方法と動詞クラスタリングプログラムを記録した記録媒体
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Salvetti et al. Opinion polarity identification of movie reviews
Mammadov et al. Part-of-speech tagging for azerbaijani language
JP2000231572A (ja) 名詞シソ−ラスへの未知語登録方法、その装置及び未知語登録プログラムを記録した記録媒体
CN113128224B (zh) 一种中文纠错方法、装置、设备以及可读存储介质
JPH11143875A (ja) 単語自動分類装置及び単語自動分類方法
Zavrel et al. Feature-Rich Memory-Based Classification for Shallow NLP and Information Extraction.
Wenchao et al. A modified approach to keyword extraction based on word-similarity
CN114341867A (zh) 翻译方法、装置、客户端、服务器和存储介质
Kim et al. Fuzzy network model for part-of-speech tagging under small training data