JP2000231572A - Method and device for registering unknown word with noun thesaurus and recording medium with unknown word registration program recorded therein - Google Patents

Method and device for registering unknown word with noun thesaurus and recording medium with unknown word registration program recorded therein

Info

Publication number
JP2000231572A
JP2000231572A JP11032475A JP3247599A JP2000231572A JP 2000231572 A JP2000231572 A JP 2000231572A JP 11032475 A JP11032475 A JP 11032475A JP 3247599 A JP3247599 A JP 3247599A JP 2000231572 A JP2000231572 A JP 2000231572A
Authority
JP
Japan
Prior art keywords
unknown word
node
verb
thesaurus
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11032475A
Other languages
Japanese (ja)
Inventor
Yasunari Maeda
康成 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11032475A priority Critical patent/JP2000231572A/en
Publication of JP2000231572A publication Critical patent/JP2000231572A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To statistically strictly decide a node of a noun thesaurus having a multinomial distribution being close to the multinomial distribution of unknown words as an unknown work registration node by using a Bayesian estimator logically having guarantee under a limited sample instead of a cooccurrence frequency and Kullback-Leibler information quantity(KL information quantity) being an inter-distribution distance in probability distribution space instead of a cosine between vectors in vector space. SOLUTION: This device consists of a means 100 which calculates the cooccurrence frequency of an unknown word and each verb in document data in corpus 120 and the cooccurrence frequency of each node and each verb of a noun thesaurus 130 in the document data in the corpus, a means 200 which uses the cooccurrence frequency information and calculates the Bayesian estimator of a multinominal distribution in which the unknown word co-occurs with each verb and the Bayesian estimator of a multinomial distribution in which each node of the noun thesaurus co-occurs with each verb and a means 300 which uses the Bayesian estimators and outputs a node of the noun thesaurus having a multinomial distribution being the closest to the unknown word as an unknown work registration node with Kullback-Leibler information quantity as a standard.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、名詞シソ−ラスへ
の未知語登録技術に関し、詳しくは、未知語とコーパス
中の各動詞との共起及び名詞シソーラスの各ノードとコ
ーパス中の各動詞との共起に多項分布を仮定したもと
で、カルバック・ライブラー情報量を尺度に最も未知語
の多項分布に近い多項分布を有す名詞シソーラスのノー
ドを未知語登録ノードとして既存の名詞シソーラスに未
知語を登録する方法及び装置、並びにそのプログラムを
記録した記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a technique for registering an unknown word in a noun thesaurus, and more particularly, to co-occurrence of an unknown word with each verb in a corpus and each node of the noun thesaurus and each verb in the corpus. Based on the assumption of a polynomial distribution for co-occurrence with the existing noun thesaurus, the node of the noun thesaurus having a polynomial distribution closest to the polynomial distribution of the unknown word is used as the unknown word registration node using the Kullback-Leibler information as a scale. The present invention relates to a method and an apparatus for registering an unknown word in a computer, and a recording medium on which the program is recorded.

【0002】[0002]

【従来の技術】自然言語処理の分野において、情報検索
や文書クラスタリングなどへの利用を目的として、名詞
を意味的に木構造に分類した多くの名詞シソーラスが構
築されている(例えば「NTTシソーラス」;池原外
「日本語語彙大系」、岩波書店、1997)。また、既
存の名詞シソーラスの管理方法の一部として、既存の名
詞シソーラスへの未知語登録方法が提案されている。
2. Description of the Related Art In the field of natural language processing, many noun thesauruses in which nouns are semantically classified into a tree structure have been constructed for use in information retrieval and document clustering (for example, the "NTT Thesaurus"). Ikehara et al., “Japanese vocabulary system”, Iwanami Shoten, 1997). Further, as a part of the management method of the existing noun thesaurus, a method of registering an unknown word in the existing noun thesaurus has been proposed.

【0003】従来の名詞シソ−ラスへの未知語登録方法
の多くは、「単語の意味はどのような単語と共起するか
という観点から特徴付けられる」というHarrisの分布
仮説(Harris,Zelig S.「Mathematical Srtuctu
res of Language」,NewYork:Wiley(1968))
に基づいて、どのような単語とどれくらい共起している
かを示す共起ベクトル間の余弦を尺度にして、未知語を
登録するノードを決定している。
Many of the conventional methods for registering unknown words in the noun thesaurus include the Harris distribution hypothesis (Harris, Zelig S.) that "the meaning of a word is characterized from the viewpoint of co-occurring with the word.""Mathematical Srtuctu
res of Language ", New York: Willey (1968))
, A node for registering an unknown word is determined based on the cosine between co-occurrence vectors indicating what word and how much co-occurrence.

【0004】ここで、浦本「コーパスに基づくシソーラ
ス」(情報処理学会論文誌、Vol.37,No.12,pp.
2182−2189、1996)等、多くの従来方法に
共通する、未知語及び名詞シソーラスの各ノードの共起
ベクトル間の余弦による未知語登録方法の概要をまとめ
ると、以下の通りである。 (1) 未知語が与えられると、コーパス中の文書データ
における未知語と各動詞の共起頻度及びコーパス中の文
書データにおける名詞シソーラスの各ノードと各動詞の
共起頻度を算出する。 (2) 共起頻度で構成される共起ベクトル間の余弦を算
出し、余弦が最大となる名詞シソーラスのノードを未知
語登録ノードに決定する。
Here, Uramoto "Corpus based thesaurus" (Transactions of Information Processing Society of Japan, Vol.
2182-2189, 1996) and the like, the outline of an unknown word registration method based on the cosine between co-occurrence vectors of each node of an unknown word and a noun thesaurus common to many conventional methods is as follows. (1) Given an unknown word, calculate the co-occurrence frequency of the unknown word and each verb in the document data in the corpus and the co-occurrence frequency of each node and each verb in the noun thesaurus in the document data in the corpus. (2) The cosine between co-occurrence vectors composed of co-occurrence frequencies is calculated, and the node of the noun thesaurus with the maximum cosine is determined as the unknown word registration node.

【0005】名詞niの共起ベクトルは次式で与えられ
る。
[0005] The co-occurrence vector of noun n i is given by the following equation.

【0006】[0006]

【数1】 (Equation 1)

【0007】但し、ni∈N(Nは名詞集合)、vj∈V
(Vは動詞集合)、|・|は集合の濃度、co(ni
j)は文書のデータベースであるコーパス中の同一文
において名詞niと動詞vjが共起した総回数である共起
頻度を示す。
However, n i ∈N (N is a set of nouns), v j ∈V
(V is a verb set), | · | is the density of the set, co (n i ,
v j ) indicates the co-occurrence frequency which is the total number of times a noun ni and a verb v j co-occur in the same sentence in a corpus which is a database of documents.

【0008】名詞シソーラスのノードnodeiの共起ベク
トルは次式で与えられる。
[0008] The co-occurrence vector of node node i of the noun thesaurus is given by the following equation.

【0009】[0009]

【数2】 (Equation 2)

【0010】但し、nodei∈NODE(NODEは名詞
シソーラスのノード集合)、co(nodei,vj)は文書の
データベースであるコーパス中の同一文において名詞シ
ソーラスのノードnodeiと動詞vjが共起した総数である
共起頻度を示し、次式で計算される。
[0010] However, node i ∈NODE (NODE is the node set of noun thesaurus), co (node i, v j) node of the noun thesaurus in the same sentence in the corpus is a database of document node i and a verb v j is Indicates the co-occurrence frequency, which is the total number of co-occurrences, and is calculated by the following equation.

【0011】[0011]

【数3】 (Equation 3)

【0012】なお、シソーラスには、その木構造の葉の
みに単語が登録されている分類シソーラスと、葉及び中
間ノードにも単語が登録されている上位下位シソーラス
があるが、ここでは特にその区別は行わない。
The thesaurus includes a classification thesaurus in which words are registered only in the leaves of the tree structure, and an upper / lower thesaurus in which words are also registered in leaves and intermediate nodes. Is not performed.

【0013】未知語unknownの共起ベクトルは次式で与
えられる。
The co-occurrence vector of the unknown word unknown is given by the following equation.

【0014】[0014]

【数4】 (Equation 4)

【0015】但し、co(unknown,vj)は文書のデータ
ベースであるコーパス中の同一文において未知語unknow
nと動詞vjが共起した総回数である共起頻度を示す。
Here, co (unknown, v j ) is an unknown word unknow in the same sentence in a corpus which is a document database.
Indicates the co-occurrence frequency, which is the total number of times n and the verb v j co-occur.

【0016】未知語unknownを登録する未知語登録ノー
ドdnode_vec(unknown)は次式で決定される。
An unknown word registration node dnode_vec (unknown) for registering an unknown word unknown is determined by the following equation.

【0017】[0017]

【数5】 (Equation 5)

【0018】但し、cosはベクトル間の余弦、「・」は
ベクトルの内積、‖vec‖はベクトルvecのノレムを示
す。
Here, cos is the cosine between the vectors, “•” is the inner product of the vectors, and {vec} is the norem of the vector vec.

【0019】[0019]

【発明が解決しようとする課題】上記従来方法にはいく
つかの問題点が挙げられる。第1に、分布仮説に基づい
ているので、共起頻度には何らかの確率分布を仮定して
いるはずであるが、実際には共起頻度の値をそのまま用
いているだけで、真の分布を推定しようとはしていな
い。これでは、どのような尺度で未知語と名詞シソーラ
スの各ノードとの類似度あるいは距離を測定しても、厳
密な大小判定は出来ない。
The above-mentioned conventional method has several problems. First, since it is based on the distribution hypothesis, some probability distribution should be assumed for the co-occurrence frequency, but in practice, the true distribution is calculated only by using the value of the co-occurrence frequency as it is. I do not try to estimate. In this case, even if the similarity or the distance between the unknown word and each node of the noun thesaurus is measured by any scale, it is not possible to make a strict magnitude judgment.

【0020】第2に、分布仮説に基づいているので、共
起頻度には何らかの確率分布を仮定しているはずである
が、実際にはベクトル空間における共起ベクトル間の余
弦を尺度として用いている。ベクトル空間における共起
ベクトル間の余弦は、必ずしも確率分布空間における尺
度にはなり得ない。確率分布を仮定しているからには、
確率分布空間における何らかの尺度を用いない限り、厳
密な類似度あるいは距離は計算できない。
Second, since it is based on the distribution hypothesis, some probability distribution should be assumed for the co-occurrence frequency, but in practice, the cosine between co-occurrence vectors in the vector space is used as a measure. I have. The cosine between co-occurrence vectors in vector space cannot always be a measure in probability distribution space. Assuming a probability distribution,
Exact similarity or distance cannot be calculated unless some measure in the probability distribution space is used.

【0021】本発明の目的は、上記従来の問題点を踏ま
えた上で、共起頻度の代わりに有限のサンプルのもとで
理論的に保証のあるベイズ推定量と、ベクトル空間にお
けるベクトル間の余弦の代わりに確率分布空間における
分布間の距離であるカルバック・ライブラー情報量(K
L情報量)を用いることによって、従来方法よりも統計
的に厳密に、未知語の多項分布に近い多項分布を有す名
詞シソーラスのノードを未知語登録ノードとして決定す
ることにある。
An object of the present invention is to provide a Bayesian estimator theoretically guaranteed under a finite sample instead of a co-occurrence frequency, and Kullback-Leibler information (K), which is the distance between distributions in the probability distribution space instead of the cosine
L information), the node of the noun thesaurus having a polynomial distribution close to the polynomial distribution of the unknown word is determined more strictly statistically than the conventional method as an unknown word registration node.

【0022】[0022]

【課題を解決するための手段】本発明の名詞シソーラス
への未知語登録手法は、未知語を入力データとして与え
られると、未知語と各動詞との多項分布と名詞シソーラ
スの各ノードと各動詞との多項分布間のベイズ推定量と
カルバック・ライブラー情報量(KL情報量)を用いて
算出した距離が最小の名詞シソーラスのノード、すなわ
ち、統計的に未知語と最も似た共起の仕方をする名詞シ
ソーラスのノードを未知語登録ノードとして出力するも
のである。
According to the method of registering unknown words in a noun thesaurus according to the present invention, when an unknown word is given as input data, a polynomial distribution of the unknown word and each verb, each node of the noun thesaurus, and each verb A node of the noun thesaurus whose distance calculated using the Bayesian estimator between the polynomial distributions and the Kullback-Leibler information (KL information), that is, the co-occurrence method that is statistically most similar to the unknown word Is output as an unknown word registration node.

【0023】なお、確率分布p(x),q(x)間のKL情
報量は、次式で示される(例えば、平澤「情報理論」
(情報数理シリーズB−1)22〜23頁,培風館,1
996)。
The KL information amount between the probability distributions p (x) and q (x) is expressed by the following equation (for example, Hirasawa "Information Theory")
(Information Mathematics Series B-1) pages 22-23, Baifukan, 1
996).

【0024】[0024]

【数6】 (Equation 6)

【0025】また、カルバック・ライブラー情報量に関
するベイズ推定量は次式で示される(例えば「IEEE TRA
NSACTIONS ON INFORMATION THEORY」VOL.37,NO.5,PP.
1288〜1291,SEPTEMBER 1991参照)。
The Bayesian estimator for the Kullback-Leibler information is expressed by the following equation (for example, “IEEE TRA”).
NSACTIONS ON INFORMATION THEORY ”VOL.37, NO.5, PP.
1288-1291, see SEPTEMBER 1991).

【0026】[0026]

【数7】 (Equation 7)

【0027】但し、θは分布を支配する連続パラメー
タ、p(θ)はパラメータに対する事前分布を示す。
Here, θ is a continuous parameter that controls the distribution, and p (θ) is a prior distribution for the parameter.

【0028】図1は、本発明の原理構成図である。即
ち、本発明の名詞シソーラスへの未知語登録装置は、未
知語が与えられると、コーパス中の文書データにおける
未知語と各動詞の共起頻度及びコーパス中の文書データ
における名詞シソーラスの各ノードと各動詞の共起頻度
を算出し、未知語と共起頻度情報を出力する共起頻度算
出部100と、未知語と共起頻度情報が与えられると、
未知語が各動詞と共起する多項分布のベイズ推定量及び
名詞シソーラスの各ノードと各動詞が共起する多項分布
のベイズ推定量を算出し、未知語とベイズ推定量を出力
するベイズ推定量算出部200と、未知語とベイズ推定
量が与えられると、カルバック・ライブラー情報量を尺
度に未知語と最も近い多項分布を有す名詞シソーラスの
ノードを未知語登録ノードとして出力する未知語登録ノ
ード決定部300とにより構成される。
FIG. 1 is a diagram showing the principle of the present invention. That is, the unknown word registration device for the noun thesaurus of the present invention, when given an unknown word, the co-occurrence frequency of the unknown word and each verb in the document data in the corpus and each node of the noun thesaurus in the document data in the corpus. When the co-occurrence frequency of each verb is calculated and the unknown word and the co-occurrence frequency information are given,
A Bayesian estimator that calculates the Bayesian estimator of a polynomial distribution in which an unknown word co-occurs with each verb and a Bayesian estimator of a polynomial distribution in which each verb co-occurs with each node in the noun thesaurus, and outputs the unknown word and the Bayesian estimator Given the calculation unit 200 and the unknown word and the Bayesian estimator, unknown word registration that outputs a node of a noun thesaurus having a polynomial distribution closest to the unknown word on the basis of the Kullback-Leibler information amount as an unknown word registration node And a node determining unit 300.

【0029】図2は、図1の本発明の原理構成を説明す
るためのフローチャートである。即ち、本発明の名詞シ
ソーラスへの未知語登録方法は、未知語を入力する段階
S10と、コーパス中の文書データにおける未知語と各
動詞の共起頻度及びコーパス中の文書データにおける名
詞シソーラスの各ノードと各動詞の共起頻度を算出して
共起頻度情報を出力する段階S20と、共起頻度情報を
用いて多項分布の場合には有限のサンプルに対して真の
分布とのカルバック・ライブラー情報量がベイズ基準の
もとで最小になることが保証された未知語と名詞シソー
ラスの各ノードのベイズ推定量を算出して出力する段階
S30と、ベイズ推定量を用いて未知語の多項分布と名
詞シソーラスの各ノードの多項分布とのカルバック・ラ
イブラー情報量を算出して出力する段階S40と、カル
バック・ライブラー情報量を用いて未知語登録ノードを
決定する段階S50と、該段階S50において求められ
た、統計的に厳密に未知語の多項分布に最も近い多項分
布を有す名詞シソーラスのノードを未知語登録ノードと
して出力する段階S60とからなる。
FIG. 2 is a flowchart for explaining the principle configuration of the present invention shown in FIG. That is, in the method of registering an unknown word in the noun thesaurus of the present invention, the unknown word is input in step S10, the co-occurrence frequency of the unknown word and each verb in the document data in the corpus, and each of the noun thesaurus in the document data in the corpus. Calculating the co-occurrence frequency of the node and each verb and outputting the co-occurrence frequency information; and, in the case of a polynomial distribution using the co-occurrence frequency information, a Kullback live between the finite sample and the true distribution. Calculating and outputting a Bayesian estimator of each node of the unknown word and the noun thesaurus whose error information amount is guaranteed to be minimum under the Bayesian criterion, and a polynomial of the unknown word using the Bayesian estimator Calculating and outputting the Kullback-Leibler information amount between the distribution and the multinomial distribution of each node of the noun thesaurus; And a step S60 of outputting, as an unknown word registration node, a node of a noun thesaurus having a polynomial distribution that is statistically closest to the polynomial distribution of an unknown word, which is obtained in the step S50. .

【0030】本発明の名詞シソーラスへの未知語登録手
法は、第1に、有限のサンプルに対して真の分布とのカ
ルバック・ライブラー情報量がベイズ基準のもとで最小
になることが保証されたベイズ推定量を用いているの
で、従来の共起頻度をそのまま用いるのとは違い、共起
頻度の持つ統計情報を完全に利用することが出来る。ま
た、第2には、確率分布空間における距離であるカルバ
ック・ライブラー情報量を尺度として用いているので、
統計的に厳密に未知語の多項分布に最も近い多項分布を
有す名詞シソーラスのノードを未知語登録ノードとして
出力することが出来る。
The method of registering unknown words in a noun thesaurus according to the present invention firstly guarantees that the amount of Kullback-Leibler information with a true distribution for a finite sample is minimized under the Bayes criterion. Since the obtained Bayesian estimator is used, the statistical information of the co-occurrence frequency can be completely used, unlike the conventional method of using the co-occurrence frequency as it is. Secondly, since the Kullback-Leibler information amount, which is the distance in the probability distribution space, is used as a measure,
A node of a noun thesaurus having a polynomial distribution that is statistically strictly closest to the polynomial distribution of an unknown word can be output as an unknown word registration node.

【0031】[0031]

【発明の実施の形態】図3は、本発明による一実施の形
態の構成図である。図3において、100は共起頻度算
出部、200はベイズ推定量算出部、300は未知語登
録ノード決定部である。共起頻度算出部100は、共起
頻度算出器110と文書データベースのコーパス120
と既存の名詞シソーラス130とからなる。シソーラス
には、その木構造の葉のみに単語が登録されている分類
シソーラスと、葉及び中間ノードにも単語が登録されて
いる上位下位シソーラスがあるが、ここでは、その区別
は行わない。ベイズ推定量算出部200は、ベイズ推定
量算出器210とベータ分布パラメータテーブル220
とからなる。未知語登録ノード決定部300は、KL情
報量算出器310と未知語登録ノード決定器320とか
らなる。以下、共起頻度算出部100、ベイズ推定量算
出部200、未知語登録ノード決定部300の動作につ
いて説明する。
FIG. 3 is a block diagram of an embodiment according to the present invention. In FIG. 3, 100 is a co-occurrence frequency calculation unit, 200 is a Bayesian estimation amount calculation unit, and 300 is an unknown word registration node determination unit. The co-occurrence frequency calculator 100 includes a co-occurrence frequency calculator 110 and a corpus 120 of a document database.
And an existing noun thesaurus 130. The thesaurus includes a classified thesaurus in which words are registered only in the leaves of the tree structure, and an upper / lower thesaurus in which words are also registered in leaves and intermediate nodes. However, no distinction is made here. The Bayesian estimator calculator 200 includes a Bayesian estimator calculator 210 and a beta distribution parameter table 220.
Consists of The unknown word registration node determining unit 300 includes a KL information amount calculator 310 and an unknown word registration node determining unit 320. Hereinafter, the operations of the co-occurrence frequency calculation unit 100, the Bayesian estimation amount calculation unit 200, and the unknown word registration node determination unit 300 will be described.

【0032】図4は共起頻度算出部100の動作フロー
チャートである。まず、共起頻度算出器110に未知語
が入力される(ステップ70)。未知語が入力される
と、共起頻度算出器110は、コーパス120中の文書
データにおける未知語unknownと動詞vjの共起頻度co(u
nknown,vj)を算出する(ステップ72)。次に、共
起頻度算出器110は、コーパス120中の文書データ
における名詞シソーラス130のノードnodeiと動詞vj
の共起頻度co(nodei,vj)を算出する(ステップ7
4)。ここで、
FIG. 4 is an operation flowchart of the co-occurrence frequency calculating section 100. First, an unknown word is input to the co-occurrence frequency calculator 110 (Step 70). When an unknown word is input, the co-occurrence frequency calculator 110 calculates the co-occurrence frequency co (u) of the unknown word unknown and the verb v j in the document data in the corpus 120.
nknown, v j ) is calculated (step 72). Next, the co-occurrence frequency calculator 110 calculates the node node i and the verb v j of the noun thesaurus 130 in the document data in the corpus 120.
Of the co-occurrence frequency co (node i , v j ) (Step 7)
4). here,

【0033】[0033]

【数8】 (Equation 8)

【0034】であり、名詞nkと動詞vjのコーパス12
0における共起頻度を示す。
The corpus 12 of the noun nk and the verb v j
The co-occurrence frequency at 0 is shown.

【0035】共起頻度の算出後、共起頻度算出器110
は、未知語とそれぞれの共起頻度情報を出力する(ステ
ップ76)。
After calculating the co-occurrence frequency, the co-occurrence frequency calculator 110
Outputs unknown word and respective co-occurrence frequency information (step 76).

【0036】図5はベイズ推定量算出部200の動作フ
ローチャートである。まず、ベイズ推定量算出器210
に、共起頻度算出器110から未知語と共起頻度情報が
入力される(ステップ80)。未知語と共起頻度情報が
入力されると、ベイズ推定量算出器210は、共起頻度
情報とべ−タ分布パラメータテーブル220のベータ分
布のパラメータβ(vj|nodei)とβ(vj|unknown)
を用いて、名詞シソーラス130の各ノード対応のベイ
ス推定量と未知語に対応するベイズ推定量を算出する
(ステップ82、84)。ここで、β(vj|nodei)や
β(vj|unknown)は、名詞シソ−ラス130のノード
nodeiと動詞vj、または、未知語unknownと動詞vjの共
起の仕方を表わす多項分布を支配するパラメータθの事
前分布p(θ)を意味する。ベータ分布パラメータテーブ
ル220の概念図を図6に示す。各ベイズ推定量は次の
ようにして計算される。
FIG. 5 is a flowchart of the operation of the Bayesian estimation amount calculating section 200. First, the Bayesian estimator calculator 210
The unknown word and co-occurrence frequency information are input from the co-occurrence frequency calculator 110 (step 80). When the unknown word and the co-occurrence frequency information are input, the Bayesian estimator calculator 210 calculates the co-occurrence frequency information and the beta distribution parameters β (v j | node i ) and β (v j ) of the beta distribution parameter table 220. | unknown)
Is used to calculate a Bayesian estimator corresponding to each node of the noun thesaurus 130 and a Bayesian estimator corresponding to the unknown word (steps 82 and 84). Here, β (v j | node i ) and β (v j | unknown) are the nodes of the noun thesaurus 130
A node i and a verb v j , or a prior distribution p (θ) of a parameter θ governing a polynomial distribution representing a co-occurrence of an unknown word unknown and a verb v j . FIG. 6 is a conceptual diagram of the beta distribution parameter table 220. Each Bayesian estimator is calculated as follows.

【0037】コーパス120の中で名詞シソーラス13
0のノードnodeiに含まれる任意の名詞nk(nk∈nod
ei)が存在する条件の下で、動詞vjが存在する条件付
き確率分布のカルバック・ライブラー情報量に関するベ
イズ推定量p′(vj|nodei)は
Noun Thesaurus 13 in Corpus 120
Any noun nk ( nk k nod included in node i of node 0
Under the condition that e i ) exists, the Bayesian estimator p ′ (v j | node i ) for the Kullback-Leibler information of the conditional probability distribution in which the verb v j exists is

【0038】[0038]

【数9】 (Equation 9)

【0039】で計算される(ステップ82)。但し、β
(vj|nodei)は、図6に示すようにベータ分布のパラ
メータであり、真の多項分布p(vj|nodei,θ′node
i))を支配するパラメータθの事前分布p(θ)を意味す
る。
Is calculated (step 82). Where β
(V j | node i ) is a parameter of the beta distribution as shown in FIG. 6, and is a true multinomial distribution p (v j | node i , θ′node).
i ) means the prior distribution p (θ) of the parameter θ that governs it.

【0040】なお、θ′(nodei)はこの多項分布p(v
j|nodei,θ′(nodei))を支配する真のパラメータ
θ′(nodei)∈Θ、また、(7)式による推定量は、有
限のサンプルに対して真の分布とカルバック・ライブラ
ー情報量がベイズ基準のもとで最小になることが保証さ
れた推定量であり、次式が成立している。
Note that θ ′ (node i ) is the polynomial distribution p (v
j | node i , θ ′ (node i )), the true parameter θ ′ (node i ) ∈Θ, and the estimator according to equation (7) are the true distribution and the culvert This is an estimated amount that is guaranteed that the amount of the information on the liver is minimized under the Bayes criterion, and the following equation holds.

【0041】[0041]

【数10】 (Equation 10)

【0042】また、コーパス120の中で未知語unknow
nが存在する条件の下で、動詞vjが存在する条件付き確
率分布のカルバック・ライブラー情報量に関するベイズ
推定量p′(vj|unknown)は
The unknown word unknow in the corpus 120
Under the condition that n exists, the Bayesian estimator p ′ (v j | unknown) regarding the Kullback-Leibler information of the conditional probability distribution in which the verb v j exists is

【0043】[0043]

【数11】 [Equation 11]

【0044】で計算される(ステップ84)。この推定
量は、未知語unknownと各動詞との真の多項分布p(vj
|unknown,θ′(unknown))のベイズ推定量を示す。
Is calculated (step 84). This estimator calculates the true polynomial distribution p (v j ) between the unknown word unknown and each verb.
| Unknown, θ ′ (unknown)).

【0045】ベイズ推定量の算出後、ベイズ推定量算出
器210は、未知語とベイズ推定量を出力する(ステッ
プ86)。
After calculating the Bayesian estimator, the Bayesian estimator calculator 210 outputs the unknown word and the Bayesian estimator (step 86).

【0046】図7は未知語登録ノード決定部300の動
作フローチャートである。まず、KL情報量算出器31
0に、ベイズ推定量算出器210から未知語とベイズ推
定量が入力される(ステップ90)。未知語とベイズ推
定量が入力されると、KL情報量算出器310は、未知
語unknownのベイズ推定量p′(vj|unknown)と名詞シ
ソーラスの各ノードnodeiのベイズ推定量p′(vj|nod
ei)との間のカルバック・ライブラー情報量を次の(1
2)式によって算出する(ステップ92)。
FIG. 7 is an operation flowchart of the unknown word registration node determining section 300. First, the KL information amount calculator 31
At 0, the unknown word and the Bayesian estimator are input from the Bayesian estimator calculator 210 (step 90). When an unknown word and Bayesian estimator is input, KL information amount calculator 310, Bayesian estimator of the unknown word unknown p '(v j | unknown ) and Bayesian estimator of the nodes node i noun thesaurus p' ( v j | nod
e i ) and the amount of Kullback-Leibler information between
It is calculated by the expression 2) (step 92).

【0047】[0047]

【数12】 (Equation 12)

【0048】次に、未知語登録ノード決定器320は、
KL情報量算出器310によって算出されたカルバック
・ライブラ−情報量D(p′(・|unknown);p′(・|n
odei))の各値を比較して、該カルバック・ライブラー
情報量の値が最小となる名詞シソーラスのノードnodei
を次の(13)式によって決定し、未知語unknownに対
する未知語登録ノードdnode_prob(unknown)とする
(ステップ94)。
Next, the unknown word registration node determiner 320
The Kullback library information amount D (p '(• unknown); p' (• | n calculated by the KL information amount calculator 310
ode i )) are compared, and the node node i of the noun thesaurus that minimizes the value of the Kullback-Leibler information amount
Is determined by the following equation (13), and is set as an unknown word registration node dnode_prob (unknown) for the unknown word unknown (step 94).

【0049】[0049]

【数13】 (Equation 13)

【0050】最後に、未知語登録ノード決定器320
は、未知語登録ノードdnode_prob(unknown)を出力す
る(ステップ96)。
Finally, unknown word registration node determiner 320
Outputs the unknown word registration node dnode_prob (unknown) (step 96).

【0051】図8は、本発明による名詞シソーラスへの
未知語登録のシミュレーション結果を説明する図であ
る。実際の既存の名詞シソーラスに既に登録されている
名詞約1000語を抜き取り、その1000語を未知語
と仮定して登録実験を行い、従来の名詞シソーラスへの
未知語登録手法と本発明による名詞シソーラスへの未知
語登録手法の比較を行った。なお、名詞シソーラスには
NTTシソーラス(池原外,「日本語語彙大系」、岩波
書店、1997)を用い、文章のデータベースであるコ
ーパスにはEDRコーパス(日本電子化辞書研究所,
「EDR電子化辞書利用マニュアル第2.1版」、19
94)を用いて、EDRコーパス中の頻出動詞上位50
0語との共起頻度を用いた。
FIG. 8 is a view for explaining a simulation result of registering an unknown word in a noun thesaurus according to the present invention. Approximately 1000 nouns already registered in the actual existing noun thesaurus are extracted, and a registration experiment is performed by assuming the 1000 words as unknown words, and a conventional noun thesaurus registration method to the noun thesaurus and a noun thesaurus according to the present invention are used. We compared the method of registering unknown words to Wikipedia. The noun thesaurus uses the NTT thesaurus (Nagai Ikehara, “Japanese vocabulary system”, Iwanami Shoten, 1997), and the corpus which is a database of sentences is the EDR corpus (Japan Electronic Dictionary Research Institute,
"EDR Electronic Dictionary User Manual Version 2.1", 19
94), the top 50 most frequent verbs in the EDR corpus
The co-occurrence frequency with 0 words was used.

【0052】図8において、横軸はカルバック・ライブ
ラー情報量が最小のノード1つのみではなく、候補順位
の数だけ考慮していることを示す。縦軸は、最小のノー
ドからその候補順位のノードまで見て、その中に元のN
TTシソーラスと同じノードがあれば正解とし、パーセ
ンテージで累積の正解率を示している。従来と記したの
が従来の共起ベクトル間の余弦による名詞シソーラスへ
の未知語登録結果、本発明としたのが本発明による名詞
シソーラスへの未知語登録結果を示す。図8が示すよう
に、本発明による名詞シソーラスへの未知語登録手法の
正解率は、従来の名詞シソーラスへの未知語登録手法よ
りも常に20%以上高い正解率を達成していることが分
かる。
In FIG. 8, the horizontal axis indicates that not only one node having the minimum Kullback-Leibler information amount but also the number of candidate ranks is considered. The vertical axis shows the original N in the view from the smallest node to the node of the candidate rank.
If there is a node that is the same as the TT thesaurus, the correct answer is determined, and the cumulative correct answer rate is shown as a percentage. The word "conventional" indicates the result of registration of an unknown word in a noun thesaurus using a cosine between conventional co-occurrence vectors, and the present invention indicates the result of registering an unknown word in a noun thesaurus according to the present invention. As shown in FIG. 8, the correct answer rate of the method for registering an unknown word in a noun thesaurus according to the present invention always achieves a correct rate of 20% or more higher than that of the conventional method of registering an unknown word in a noun thesaurus. .

【0053】以上、本発明の一実施の形態について説明
したが、図3の構成などは、実際には所謂コンピュータ
上で構築されるものである。また、図3の各部の処理手
順やアルゴリズムは、コンピュータで実行可能な形式に
まとめて記述し、コンピュータが読み取り可能な記録媒
体、例えばフロッピーディスクやコンパクトディスク
(CD−ROM)等に記録して提供することが可能であ
る。
Although the embodiment of the present invention has been described above, the configuration shown in FIG. 3 is actually constructed on a so-called computer. The processing procedure and algorithm of each unit in FIG. 3 are collectively described in a computer-executable format, and are provided by being recorded on a computer-readable recording medium such as a floppy disk or a compact disk (CD-ROM). It is possible to

【0054】[0054]

【発明の効果】上述のように、本発明によれば、有限の
サンプルに対して真の分布とのカルバックー・ライブラ
ー情報量がベイズ基準のもとで最小になることが保証さ
れたベイズ推定量を用いて、確率分布空間における距離
であるカルバック・ライブラー情報量を尺度として未知
語登録ノードを決定しているので、統計的に厳密に未知
語の多項分布に最も近い多項分布を有する名詞シソーラ
スのノードを未知語登録ノードとして出力することが可
能になる。
As described above, according to the present invention, a Bayesian estimation that guarantees that the amount of Kullback-Leibler information with a true distribution for a finite sample is minimized under the Bayesian criterion Since the unknown word registration node is determined using the quantity and the Kullback-Leibler information amount, which is the distance in the probability distribution space, the noun having a polynomial distribution that is statistically strictly closest to the polynomial distribution of the unknown word. It becomes possible to output the thesaurus nodes as unknown word registration nodes.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の原理構成図である。FIG. 1 is a principle configuration diagram of the present invention.

【図2】本発明の原理構成を説明するフローチャートで
ある。
FIG. 2 is a flowchart illustrating the principle configuration of the present invention.

【図3】本発明による一実施の形態の構成図である。FIG. 3 is a configuration diagram of an embodiment according to the present invention.

【図4】図3の共起頻度算出部の動作フローチャートで
ある。
FIG. 4 is an operation flowchart of a co-occurrence frequency calculation unit in FIG. 3;

【図5】図3のベイズ推定量算出部の動作フローチャー
トである。
FIG. 5 is an operation flowchart of a Bayesian estimation amount calculation unit in FIG. 3;

【図6】図3のベータ分布パラメータテーブルの概念図
である。
FIG. 6 is a conceptual diagram of a beta distribution parameter table of FIG. 3;

【図7】図3の未知語登録ノード決定部の動作フローチ
ャートである。
FIG. 7 is an operation flowchart of an unknown word registration node determining unit of FIG. 3;

【図8】本発明による名詞シソーラスへの未知語登録の
シミュレーション結果の説明図である。
FIG. 8 is an explanatory diagram of a simulation result of registering an unknown word in a noun thesaurus according to the present invention.

【符号の説明】[Explanation of symbols]

100 共起頻度算出部 120 コーパス 130 名詞シソーラス 200 ベイズ推定量算出部 220 ベータ分布パラメータテーブル 300 未語登録ノード決定部 Reference Signs List 100 Co-occurrence frequency calculating unit 120 Corpus 130 Noun thesaurus 200 Bayesian estimator calculating unit 220 Beta distribution parameter table 300 Non-word registered node determining unit

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 既存の名詞シソーラスに未知語を登録す
る方法において、未知語が与えられるとコーパス中の文
書データにおける未知語と各動詞の共起頻度及びコーパ
ス中の文書データにおける名詞シソーラスの各ノードと
各動詞の共起頻度を算出するステップと、前記共起頻度
を用いて未知語が各動詞と共起する多項分布のベイズ推
定量及び名詞シソーラスの各ノードと各動詞が共起する
多項分布のベイズ推定量を算出するステップと、前記ベ
イズ推定量を用いてカルバック・ライブラー情報量を尺
度に未知語と最も近い多項分布を有す名詞シソーラスの
ノードを未知語登録ノードとして決定するステップとを
有することを特徴とする名詞シソーラスへの未知語登録
方法。
In the method of registering an unknown word in an existing noun thesaurus, when an unknown word is given, the co-occurrence frequency of the unknown word and each verb in the document data in the corpus and each of the noun thesaurus in the document data in the corpus are provided. Calculating a co-occurrence frequency of a node and each verb; a Bayesian estimator of a polynomial distribution in which an unknown word co-occurs with each verb using the co-occurrence frequency; and a polynomial in which each node and each verb of the noun thesaurus co-occur. Calculating a Bayesian estimator of the distribution, and using the Bayesian estimator to determine, as an unknown word registration node, a node of a noun thesaurus having a polynomial distribution closest to the unknown word on the basis of the amount of Kullback-Leibler information And a method for registering unknown words in a noun thesaurus.
【請求項2】 既存の名詞シソーラスに未知語を登録す
る装置であって、未知語が与えられると、コーパス中の
文書データにおける未知語と各動詞の共起頻度及びコー
パス中の文書データにおける名詞シソーラスの各ノード
と各動詞の共起頻度を算出する共起頻度算出部と、未知
語と共起頻度情報が与えられると、未知語が各動詞と共
起する多項分布のベイズ推定量及び名詞シソーラスの各
ノードと各動詞が共起する多項分布のベイズ推定量を算
出するベイズ推定量算出部と、未知語とベイズ推定量が
与えられると、カルバック・ライブラー情報量を尺度に
未知語と最も近い多項分布を有す名詞シソーラスのノー
ドを未知語登録ノードとして出力する未知語登録ノード
決定部とにより構成されることを特徴とする名詞シソー
ラスへの未知語登録装置。
2. An apparatus for registering an unknown word in an existing noun thesaurus, wherein when an unknown word is given, the co-occurrence frequency of the unknown word and each verb in the document data in the corpus and the noun in the document data in the corpus. A Bayesian estimator and a noun for a polynomial distribution in which an unknown word co-occurs with each verb, given a co-occurrence frequency calculator that calculates the co-occurrence frequency of each node and each verb in the thesaurus, and given the unknown word and co-occurrence frequency information A Bayesian estimator calculator that calculates a Bayesian estimator of a polynomial distribution in which each node of the thesaurus and each verb co-occurs, and given an unknown word and a Bayesian estimator, the unknown word and the Kullback-Leibler information amount are used as scales. An unknown word registration node determining unit that outputs a node of the noun thesaurus having the closest polynomial distribution as an unknown word registration node; apparatus.
【請求項3】 既存の名詞シソーラスに未知語を登録す
るためのプログラムを記録したコンピュータで読み取り
可能な記録媒体であって、未知語が与えられると、コー
パス中の文書データにおける未知語と各動詞の共起頻度
及びコーパス中の文書データにおける名詞シソーラスの
各ノードと各動詞の共起頻度を算出する処理プロセス、
前記共起頻度を用いて未知語が各動詞と共起する多項分
布のベイズ推定量及び名詞シソーラスの各ノードと各動
詞が共起する多項分布のベイズ推定量を算出する処理プ
ロセス、前記ベイズ推定量を用いてカルバック・ライブ
ラー情報量を尺度に未知語と最も近い多項分布を有す名
詞シソーラスのノードを未知語登録ノードとして決定す
る処理プロセスが記録されていることを特徴とする記録
媒体。
3. A computer-readable recording medium storing a program for registering an unknown word in an existing noun thesaurus, wherein when the unknown word is given, the unknown word and each verb in the document data in the corpus are provided. Processing for calculating the co-occurrence frequency of each node and the co-occurrence frequency of each node and each verb of the noun thesaurus in the document data in the corpus,
A process of calculating a Bayesian estimator of a polynomial distribution in which an unknown word co-occurs with each verb and a Bayesian estimator of a polynomial distribution in which each verb co-occurs with each node of the noun thesaurus using the co-occurrence frequency, A recording medium characterized by recording a process of determining a node of a noun thesaurus having a polynomial distribution closest to an unknown word as an unknown word registration node using the amount as a measure of the amount of Kullback-Leibler information.
JP11032475A 1999-02-10 1999-02-10 Method and device for registering unknown word with noun thesaurus and recording medium with unknown word registration program recorded therein Pending JP2000231572A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11032475A JP2000231572A (en) 1999-02-10 1999-02-10 Method and device for registering unknown word with noun thesaurus and recording medium with unknown word registration program recorded therein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11032475A JP2000231572A (en) 1999-02-10 1999-02-10 Method and device for registering unknown word with noun thesaurus and recording medium with unknown word registration program recorded therein

Publications (1)

Publication Number Publication Date
JP2000231572A true JP2000231572A (en) 2000-08-22

Family

ID=12360016

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11032475A Pending JP2000231572A (en) 1999-02-10 1999-02-10 Method and device for registering unknown word with noun thesaurus and recording medium with unknown word registration program recorded therein

Country Status (1)

Country Link
JP (1) JP2000231572A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282517A (en) * 2009-06-05 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> Language resource information generation device and method, and program and recording medium
WO2011013229A1 (en) * 2009-07-30 2011-02-03 株式会社東芝 Behavior recommendation device
JP2011060214A (en) * 2009-09-14 2011-03-24 Toshiba Corp Device and program for generating semantic relation information
JP2012014476A (en) * 2010-07-01 2012-01-19 National Institute Of Information & Communication Technology Similarity calculation device, similarity calculation method, and program
CN106095736A (en) * 2016-06-07 2016-11-09 华东师范大学 A kind of method of field neologisms extraction

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282517A (en) * 2009-06-05 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> Language resource information generation device and method, and program and recording medium
WO2011013229A1 (en) * 2009-07-30 2011-02-03 株式会社東芝 Behavior recommendation device
JP2011060214A (en) * 2009-09-14 2011-03-24 Toshiba Corp Device and program for generating semantic relation information
JP2012014476A (en) * 2010-07-01 2012-01-19 National Institute Of Information & Communication Technology Similarity calculation device, similarity calculation method, and program
CN106095736A (en) * 2016-06-07 2016-11-09 华东师范大学 A kind of method of field neologisms extraction

Similar Documents

Publication Publication Date Title
CN108280061B (en) Text processing method and device based on ambiguous entity words
Martin et al. Algorithms for bigram and trigram word clustering
Goldwater et al. A fully Bayesian approach to unsupervised part-of-speech tagging
US7680647B2 (en) Association-based bilingual word alignment
US20040024598A1 (en) Thematic segmentation of speech
WO2020207179A1 (en) Method for extracting concept word from video caption
JP2003288362A (en) Specified element vector generating device, character string vector generating device, similarity calculation device, specified element vector generating program, character string vector generating program, similarity calculation program, specified element vector generating method, character string vector generating method, and similarity calculation method
CN110210028A (en) For domain feature words extracting method, device, equipment and the medium of speech translation text
CN112347241A (en) Abstract extraction method, device, equipment and storage medium
JP5234232B2 (en) Synonymous expression determination device, method and program
JP2006285418A (en) Information processor, processing method, and program
CN112650836B (en) Text analysis method and device based on syntax structure element semantics and computing terminal
JP2000231572A (en) Method and device for registering unknown word with noun thesaurus and recording medium with unknown word registration program recorded therein
JP2001273293A (en) Method and device for estimating word and recording medium storing word estimation program
CN112151021A (en) Language model training method, speech recognition device and electronic equipment
Vlachos et al. Bootstrapping the recognition and anaphoric linking of named entities in drosophila articles
KR100559472B1 (en) System for Target word selection using sense vectors and Korean local context information for English-Korean Machine Translation and thereof
TWI764480B (en) A method and system for discovering new words
KR20190050180A (en) keyword extraction method and apparatus for science document
CN107729509A (en) The chapter similarity decision method represented based on recessive higher-dimension distributed nature
JP2006107353A (en) Information processor, information processing method, recording medium and program
JP4576977B2 (en) Information processing apparatus and method, and program
JP4314271B2 (en) Inter-word relevance calculation device, inter-word relevance calculation method, inter-word relevance calculation program, and recording medium recording the program
JP2000148762A (en) Device and method for verb clustering and record medium where verb clustering program is recorded
JP3775239B2 (en) Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program