JP3379608B2 - Method of determining meaning similarity between words - Google Patents

Method of determining meaning similarity between words

Info

Publication number
JP3379608B2
JP3379608B2 JP29000494A JP29000494A JP3379608B2 JP 3379608 B2 JP3379608 B2 JP 3379608B2 JP 29000494 A JP29000494 A JP 29000494A JP 29000494 A JP29000494 A JP 29000494A JP 3379608 B2 JP3379608 B2 JP 3379608B2
Authority
JP
Japan
Prior art keywords
attributes
word
words
similarity
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP29000494A
Other languages
Japanese (ja)
Other versions
JPH08147324A (en
Inventor
勉 石川
和光 松沢
要 笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP29000494A priority Critical patent/JP3379608B2/en
Publication of JPH08147324A publication Critical patent/JPH08147324A/en
Application granted granted Critical
Publication of JP3379608B2 publication Critical patent/JP3379608B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は、単語間意味類似性判
別方法に関し、特に、データベースの曖昧検索処理、機
械翻訳の様な各種の自然言語処理において必要とされる
単語間の意味の類似性を判別する単語間意味類似性判別
方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for determining semantic similarity between words, and more particularly to the similarity of meaning between words required in various natural language processing such as fuzzy search processing of database and machine translation. The present invention relates to a method for determining the meaning similarity between words for determining.

【0002】[0002]

【従来の技術】ワークステーションWSその他のデータ
処理装置が発達したことにより、文献データベースの様
にその記憶内容が数値ではなくして自然言語により表現
されている大容量データベースが広く利用されつつあ
る。この種の大容量データベースについて、検索したい
文献の内容を表す単語の集合をキーワードとして入力
し、その文献自体或はそれに関連する文献を検索するこ
とが行われている。この様なデータベースの検索処理に
おいては、その処理の中核をなす技術は比較される単語
間の意味の類似性を判別する技術であり、この類似性判
別技術の良否により検索処理の性能が決定されることに
なる。このことはデータベースの検索処理のみに限ら
ず、機械翻訳を始めとする各種の自然言語処理について
も当てはまることである。
2. Description of the Related Art With the development of workstations WS and other data processing devices, large-capacity databases whose stored contents are expressed in natural language rather than numerical values, such as document databases, are being widely used. With respect to this kind of large-capacity database, a set of words representing the contents of a document to be searched is input as a keyword, and the document itself or a document related thereto is searched. In such a database search process, the technology that is the core of the process is a technique that determines the similarity in meaning between compared words, and the performance of the search process is determined by the quality of this similarity determination technique. Will be. This applies not only to database search processing, but also to various natural language processing such as machine translation.

【0003】この様な単語間の意味の類似性判別は、基
本的には、多数の単語の意味を記憶した概念ベースと呼
ばれる単語意味データベースを予め準備しておき、これ
に基づいて行われている。図1を参照するに、この概念
ベースにおいては、単語wiそれぞれについて、単語w
i の特徴を表す属性vj と、その単語wi とその属性v
j との間の関連の深さを示す重要度aijの対を複数対準
備することが一般的に行われている。この概念ベースを
表形式に表現すると図1の様になる。図1において、w
l 〜wn は各単語を示し、vl 〜vm は各属性を示す。
属性v1〜vm全体を属性集合と称する。重要度aijは、
その単語wi がその属性vj によって特徴付けられてい
ない場合、即ち、その単語wi がその属性vj に関連し
ない場合、aij=0である。なお、重要度aijは何らか
の方法により正規化されている。例えば、重要度の平方
の総和の平方根=1という様に正規化される。
Basically, such a similarity determination of meanings between words is performed based on a word meaning database called a concept base in which meanings of a large number of words are stored in advance. There is. Referring to FIG. 1, in this concept base, for each word w i , the word w
An attribute v j representing the feature of i , its word w i and its attribute v
It is common practice to prepare a plurality of pairs of importance a ij indicating the depth of the relationship with j . If this concept base is expressed in a table format, it becomes as shown in FIG. In FIG. 1, w
l to w n indicate each word, and v l to v m indicate each attribute.
The entire attributes v 1 to v m are called an attribute set. The importance a ij is
If the word w i is not characterized by the attribute v j , ie, the word w i is not associated with the attribute v j , then a ij = 0. The importance a ij is normalized by some method. For example, the square root of the sum of squares of importance = 1 is normalized.

【0004】この様な概念ベースを使用して単語間の意
味の類似性を判別する場合、基本的には、比較されるべ
き2個の単語間の何らかの意味の距離計算をする仕方が
提案されている。例えば、2個の単語wi および単語w
j が属性vh を要素とするベクトルにより表現されてい
るものとして取り扱い、次の式の様にその内積により類
似性の尺度である類似度を算出している(詳細は、当該
特許出願人の出願に係わる特願平4−315233号明
細書参照)。
In the case of determining the similarity of meaning between words using such a concept base, basically, a method of calculating a distance of some meaning between two words to be compared has been proposed. ing. For example, two words w i and word w
It is assumed that j is represented by a vector having the attribute v h as an element, and the similarity, which is a measure of similarity, is calculated by the inner product as in the following formula (for details, see the patent applicant). See the specification of Japanese Patent Application No. 4-315233 related to the application).

【0005】 以上を、単語wl =“馬”、単語w2 =“豚”を例に取
って説明する。“馬”について、v2 =“たてがみ
(0.3)”、v3 =“動物(0.8)”、v8 =“尾
(0.7)”をその属性とすることができる。単語
“豚”w2 について、v 3 =“動物(0.8)”、v7
=“食肉(0.5)”、v9 =“しっぽ(0.2)”を
その属性とすることができる。なお、()内の数字は1
に正規化された重要度を示す。単語“馬”と単語“豚”
の間の類似性を判別する類似度を(1)式に依り計算す
ると、共通する属性はv3 に着目してその重要度に基づ
いて下記の如く求めることができる。 類似度=0.8×0.8=0.64 上述の通りに類似度を(1)式に依り計算する場合、概
念ベースにおける属性集合として何を選択するかが重要
となる。最も単純には、単語を特徴付けの対象としてい
るのであるが、この単語を属性として選択することが考
えられる。属性集合は単語全体の集合と同一となる訳で
ある。この場合、上述の如く単語“馬”を例にとる場
合、“たてがみ”“尾”その他をその属性とすることが
できる。しかし、属性として単語を選択する方法の場
合、属性集合の内に同義語が存在することがあり、
(1)式の計算に依っては正確な類似度が得られなくな
る。即ち、(1)式においては意味的に同一である
“尾”と“しっぽ”は相異なる属性として取り扱われ、
これらの属性の重要度は類似度に寄与しない。“馬”或
は“豚”の属性の何れか一方が“0”であるのでこれら
属性間の積は零であり、結局、類似度として加算されな
いのである。
[0005] The above is the word wl= "Horse", word w2 = Taking "pig" as an example
I will explain. About "horse", v2 = “Mane
(0.3) ”, v3 = "Animal (0.8)", v8 = "Tail
(0.7) ”can be used as the attribute.
"Pig" w2 About v 3 = "Animal (0.8)", v7 
= "Meat (0.5)", v9 = “Tail (0.2)”
It can be the attribute. The number in () is 1
Shows the normalized importance to. The word "horse" and the word "pig"
Calculate the degree of similarity to determine the similarity between
Then, the common attribute is v3 Focus on the importance of
And can be calculated as follows. Similarity = 0.8 × 0.8 = 0.64 As described above, when the similarity is calculated by the equation (1),
What is important to choose as a set of attributes in the mind-based
Becomes In the simplest case, the word is to be characterized.
However, it is a good idea to select this word as an attribute.
available. The attribute set is the same as the set of all words.
is there. In this case, if the word "horse" is taken as an example, as described above.
In that case, "mane," "tail," and other attributes can be used as its attributes.
it can. However, in the case of the method of selecting a word as an attribute,
Synonyms may exist in the attribute set,
Accurate similarity cannot be obtained depending on the calculation of equation (1).
It That is, the expressions (1) are semantically the same.
"Tail" and "tail" are treated as different attributes,
The importance of these attributes does not contribute to the similarity. "Horse" or
Since one of the attributes of "pig" is "0", these
The product between attributes is zero, and as a result, it is not added as a similarity.
It is.

【0006】以上の理由から、判別の精度を向上させる
ために同義語については、例えば、一つの単語を属性と
して代表させるか、或はシソーラスを採用して特徴とな
る単語の上位概念を表す単語を属性とするかして属性集
合を構成している。一つの単語を属性として代表させる
には、“尾”、“しっぽ”の同義語については“尾”が
全てを代表するものとする。シソーラスを採用する場合
は、特徴となる単語として“親指”、“子指”その他指
の種類を表す単語が選択されていれば、属性としてその
上位概念である“指”を属性として代表させる。即ち、
高い判別精度を得るには、属性集合は理想的には各属性
が互に意味的に独立して互に直交する様に構成されるべ
きであり、そのため様々な工夫がなされてきた訳であ
る。ところが、如何に工夫しようとも属性集合として単
語の様に意味をもつものが選択される限り、互に意味的
に独立な属性群を選択することは不可能であり、以上の
工夫もこれに近づけるための一方法であるに過ぎない。
“尾”が同義語の代表として属性とされたとしても、他
の全ての属性が意味的に“尾”とは独立、換言すれば非
類似であると保証することはできない。また、特徴とな
る単語の上位概念を表す単語を属性としたとしても同様
である。
For the above reason, in order to improve the accuracy of discrimination, for synonyms, for example, one word is represented as an attribute, or a thesaurus is used to represent a superordinate concept of a characteristic word. Is defined as an attribute to form an attribute set. In order to represent one word as an attribute, the synonyms of “tail” and “tail” are all represented by “tail”. When the thesaurus is adopted, if "thumb", "child finger" or other words representing the kind of finger is selected as the characteristic word, "finger" which is a superordinate concept thereof is represented as the attribute. That is,
In order to obtain high discrimination accuracy, the attribute set should ideally be constructed so that the attributes are semantically independent of each other and orthogonal to each other, and various innovations have been made for that reason. . However, no matter how you try, it is impossible to select attribute groups that are semantically independent of each other, as long as the ones that have meaning like words are selected as the attribute set. It's just one way to do it.
Even if "tail" is used as a representative of synonyms, it cannot be guaranteed that all other attributes are semantically independent of, or in other words dissimilar to, "tail". The same applies when a word representing a superordinate concept of a characteristic word is used as an attribute.

【0007】以上の通り、概念ベースを使用して単語間
の意味的な類似性を判別する場合、(1)式の様な2個
の単語間の何らかの意味の距離を計算することによる判
別の仕方には、判別の精度を低下させる要因が内在して
いる。属性が全く意味を持たない様に何らかの変換操作
を施し、互に独立な属性からなる属性集合を構成するこ
とも考えられるが、これも現実的には極めて困難である
と考えられる。
As described above, when the semantic similarity between words is determined by using the concept base, the determination is made by calculating the distance of some meaning between two words as shown in equation (1). There is an inherent factor in the method that reduces the accuracy of discrimination. It is possible to perform some conversion operation so that the attributes do not have any meaning to form an attribute set consisting of mutually independent attributes, but this is also considered to be extremely difficult in reality.

【0008】[0008]

【発明が解決しようとする課題】この発明は、上述の様
な概念ベースを使用して単語間の意味的な類似性を判別
する単語間意味類似性判別方法において、概念ベースに
おける属性集合の属性群として単語群を選択し、これら
の単語群が意味的に互に独立ではなくとも、高い判別精
度を得る単語間意味類似性判別方法を提供するものであ
る。
SUMMARY OF THE INVENTION The present invention is an inter-word semantic similarity discrimination method for discriminating semantic similarity between words using the concept base as described above. Provided is a method of determining semantic similarity between words, which selects a word group as a group and obtains high discrimination accuracy even if these word groups are not semantically independent of each other.

【0009】[0009]

【課題を解決するための手段】単語wの特徴を表す属性
vと、当該単語と属性との間の関連の深さを示す当該属
性の重要度aの対の集合により単語の意味を表現してい
る単語意味データベースを使用して単語相互間の意味の
距離計算をして単語相互間の類似性を判別する単語間意
味類似性判別方法において、類似性判別の対象とされる
2個の単語wi およびwj のそれぞれについて属性vk
およびvl を選択し、選択された2個の属性の重要度a
ikおよびajlと、これら2個の属性vk およびvl 間の
意味的な近さを表す量Lklの3者の積aik×ajl×Lkl
を2個の単語に含まれる全属性の組み合わせについて総
和した結果を類似度とする単語間意味類似性判別方法を
構成した。
Meaning of a word is expressed by a set of a pair of an attribute v representing a feature of a word w and an importance a of the attribute indicating the depth of the relation between the word and the attribute. Of the meaning of each word using a word meaning database
In the inter- word semantic similarity determination method of calculating the distance to determine the similarity between words , the attribute v k is associated with each of the two words w i and w j that are targets of the similarity determination.
And v l , the importance a of the two selected attributes
A product of ik and a jl and a quantity L kl representing the semantic closeness between these two attributes v k and v l a ik × a jl × L kl
We constructed a method for determining the semantic similarity between words, where the similarity is the result of summing all the attributes included in two words.

【0010】そして、2個の属性間の意味的な近さを表
す量を、選択された2個の属性間のシソーラス上におけ
る距離の逆数とする単語間意味類似性判別方法を構成し
た。また、2個の属性間の意味的な近さを表す量を、選
択された2個の属性に共通するシソーラス上における上
位概念の情報量とする単語間意味類似性判別方法を構成
した。
Then, a method for discriminating semantic similarity between words is constructed in which the amount representing the semantic closeness between the two attributes is the reciprocal of the distance on the thesaurus between the two selected attributes. In addition, a method for determining the meaning similarity between words is configured in which the amount representing the semantic closeness between the two attributes is the information amount of the superordinate concept on the thesaurus common to the two selected attributes.

【0011】[0011]

【実施例】この発明の実施例を説明する。この発明は、
単語間の意味的な類似性を判別する際の指標となる類似
度を、上述された従来例の様に単に2個の単語間の距離
を計算するというものではなくして、2個の単語wi
よび単語wj それぞれについて属性vk および属性vl
を選択し、選択された属性vk の重要度aikと、属性v
l の重要度ajlと、これら属性vk および属性vl 間の
意味的な近さを表す量Lklの3者の積を、全属性の組み
合わせについて以下の(2)式の通りに総和することに
より算出する。
Embodiments of the present invention will be described. This invention
The degree of similarity, which is an index for determining the semantic similarity between words, is not calculated by simply calculating the distance between two words as in the above-described conventional example, but two words w Attribute v k and attribute v l for i and word w j respectively
, The importance a ik of the selected attribute v k and the attribute v
and severity a jl of l, summing the three parties of the product of the amount L kl representing the semantic proximity between these attributes v k and attribute v l, as the following expression (2) for the combination of all the attributes It is calculated by

【0012】 klは属性vk および属性vlの間のシソーラス上の意
味的な近さを表す量である。
[0012] L kl is a quantity that represents the semantic closeness on the thesaurus between the attributes v k and v l .

【0013】意味的な近さを表す量としては、属性間の
シソーラス上における距離の逆数、或はこれら属性に共
通するシソーラス上における上位概念の情報量その他の
量を適用することができる。そして、シソーラスは全単
語が意味的に階層化されたツリー状に構成する。この様
なシソーラスの一例を図2に示す。ここで、この発明
は、属性集合の属性としてどの様な単語が選択されて
も、この単語は他の全ての単語と何れかのレベルの上位
概念において意味的に同一となることを考慮したもので
ある。2個の単語の対応する属性の内の一方の重要度が
“0”である場合、(1)式による計算に依ると、2個
の単語の対応する属性即ち、hが同一である属性vh
ついて何れか一方の重要度aih或はajhが“0”であれ
ばこれらの積である類似度は“0”となり、他方の属性
の重要度は類似度に一切寄与しなくなる。ところが、こ
の発明は、意味の類似性を判別する2個の単語の全ての
属性の組合せについて、これらの重要度と、これら重要
度間の意味的な近さを表す量の3者の積を計算し、これ
らの積を総和することにより類似度を算出するものであ
るところから、2個の単語の対応する属性の内の一方の
重要度が“0”であっても、重要度が“0”ではない他
方の属性が他の対応していない属性の何れかと意味的に
類似していればこれらの間の積は“0”ではないので、
この類似性は(2)式の類似度の計算に加算、反映され
ることになる。
As the quantity representing the semantic closeness, the reciprocal of the distance between the attributes on the thesaurus, or the information quantity of the superordinate concept on the thesaurus common to these attributes and other quantities can be applied. Then, the thesaurus is structured in a tree structure in which all words are semantically hierarchized. An example of such a thesaurus is shown in FIG. Here, the present invention considers that, no matter what word is selected as an attribute of the attribute set, this word is semantically the same as all other words in the superordinate concept of any level. Is. When one of the corresponding attributes of the two words has an importance of “0”, the corresponding attribute of the two words, that is, the attribute v in which h is the same, is calculated according to the equation (1). If either importance a ih or a jh of h is “0”, the product of these, the similarity, is “0”, and the importance of the other attribute does not contribute to the similarity at all. However, the present invention, for all combinations of attributes of two words that determine the similarity of meanings, calculates the product of these importance levels and the quantity representing the semantic closeness between these importance levels. Since the similarity is calculated by calculating and summing these products, even if one of the corresponding attributes of two words has an importance of “0”, the importance is “ If the other attribute that is not "0" is semantically similar to any of the other uncorresponding attributes, the product between them is not "0".
This similarity will be added and reflected in the calculation of the degree of similarity in Expression (2).

【0014】この発明による(2)式の類似度の計算に
おいては、更に、意味的な近さを表す量Lklが乗じられ
るので、これら2個の属性が意味的に類似している程そ
の類似性は類似度の計算により大きく反映されることに
なる。即ち、この発明は、単語間の意味的な類似性の判
別において全ての属性間の類似性が類似度の計算におい
て考慮されるので、属性集合の中に意味的に類似する属
性が含まれていて独立ではなくても、高い類似性判別精
度を得ることができる。
In the calculation of the degree of similarity of the formula (2) according to the present invention, the quantity L kl representing the semantic closeness is further multiplied, so that the more similar these two attributes are in terms of meaning, the better. The similarity will be largely reflected by the calculation of the similarity. That is, according to the present invention, since the similarity between all attributes is considered in the calculation of the similarity in the determination of the semantic similarity between words, the attribute set includes semantically similar attributes. Even if they are not independent, high similarity discrimination accuracy can be obtained.

【0015】この発明の実施例を更に具体的に説明す
る。ここで、属性間の意味的な近さを表す量として、こ
れら属性間のシソーラス上における距離の逆数を使用す
る場合について説明する。この場合、単語間の意味的な
類似度は、(2)式においてシソーラス上における距離
の逆数をLとして使用し、計算される。
The embodiment of the present invention will be described more specifically. Here, a case will be described in which the reciprocal of the distance on the thesaurus between these attributes is used as a quantity representing the semantic closeness between the attributes. In this case, the semantic similarity between words is calculated by using the reciprocal of the distance on the thesaurus as L in Expression (2).

【0016】図1を参照するに、比較されるべき2個の
単語をwi および単語wj とし、属性集合はv1 〜vm
とすると、単語wi および単語wj は属性v1 〜vm
重要度(ai1〜aim,aj1〜ajm)を要素とするm次元
のベクトルであり、以下の様に表される。 wi =(ai1,ai2,・・・,aik,・・・aim) wj =(aj1,aj2,・・・,ajl,・・・ajm) ここで、単語wi について属性vh がこれを特徴付ける
属性ではない場合、重要度aihは“0”であることは言
うまでもない。単語wj についても同様である。属性集
合の各属性は意味を有するものであり、ここにおいては
単語自体であるものとする。即ち、単語wi は単語v1
〜vm を属性とし、これら属性それぞれの重要度ai1
imにより特徴付けられているものとする。
Referring to FIG. 1, the two words to be compared are w i and w j , and the attribute sets are v 1 to v m.
Then, the word w i and the word w j are m-dimensional vectors having the importance (a i1 to a im , a j1 to a jm ) of the attributes v 1 to v m as elements, and are represented as follows. It w i = (a i1 , a i2 , ..., a ik , ... a im ) w j = (a j1 , a j2 , ..., a jl , ... a jm ) where the word Needless to say, the importance level a ih is “0” when the attribute v h is not a characteristic of w i . The same applies to the word w j . Each attribute of the attribute set has a meaning, and here is a word itself. That is, the word w i is the word v 1
~ V m as attributes, and the importance a i1 of each of these attributes ~
Let it be characterized by a im .

【0017】図3は属性集合の各属性である単語群のシ
ソーラスの例を示す。即ち、シソーラスはツリー構造を
有しており、属性である単語v1 は上位概念J11に属
し、この上位概念J11自体は更にその上位概念J21に属
している。上位概念が単語自体であっても差し支えな
い。この様なシソーラスを想定すると、何れの属性間に
も必ず距離が存在し、その距離が近い程両属性は意味的
に近いものとすることができる。ここで、両属性間の距
離は一方の属性から他方の属性に到達するまでの枝の数
である。図3において、例えば属性vk と属性vl との
間の距離は“6”となる。
FIG. 3 shows an example of a thesaurus of word groups which are each attribute of the attribute set. That is, the thesaurus has a tree structure, the word v 1 is the attribute belongs to the preamble J 11, the preamble J 11 itself is further belong to the broader concept J 21. It does not matter if the superordinate concept is the word itself. Assuming such a thesaurus, there is always a distance between any attributes, and the closer the distance is, the closer the attributes can be to each other. Here, the distance between both attributes is the number of branches from one attribute to the other attribute. In FIG. 3, for example, the distance between the attribute v k and the attribute v l is “6”.

【0018】この実施例においては、類似度は、(2)
式に基づいて、各単語について選択された2個の属性の
重要度と、これら属性間のシソーラス上における距離の
逆数の3者の積の総和として計算されることになる。即
ち、単語wi および単語wjにおけるベクトル要素の積
に、更に、これら対応する属性間の距離の逆数を乗じ
て、これらの積を総和したものが類似度である。なお、
対応する属性間の距離の逆数は先の例においては1/6
である。従って、比較される2個の単語間において、重
要度が“0”ではない属性がシソーラス上において互に
接近していると、類似度は高くなり、互に遠く離隔して
いると類似度は低くなる。これは、両単語について、重
要度が共に非零である属性がない場合についても成り立
つことは言うまでもない。この場合、(1)式による従
来例の計算に依っては、共通する属性の重要度の積の総
和を類似度としているので、類似度は常に“0”となっ
た。
In this embodiment, the similarity is (2)
It will be calculated as the sum of the product of the importance of the two attributes selected for each word and the reciprocal of the distance on the thesaurus between these attributes, based on the formula. That is, the similarity is obtained by multiplying the product of the vector elements in the word w i and the word w j by the reciprocal of the distance between the corresponding attributes and summing these products. In addition,
The reciprocal of the distance between the corresponding attributes is 1/6 in the previous example.
Is. Therefore, between two words to be compared, the similarity is high when the attributes whose importance is not “0” are close to each other on the thesaurus, and the similarity is high when they are far from each other. Get lower. It goes without saying that this is true even when there is no attribute whose importance is non-zero for both words. In this case, according to the calculation of the conventional example by the formula (1), the sum of products of the importance of common attributes is used as the similarity, and thus the similarity is always “0”.

【0019】次に、属性間の意味的な近さを表す量とし
てシソーラス上におけるこれら属性に共通する上位概念
の情報量を使用する方法を他の実施例として説明する。
先の実施例とは、この意味的な近さを表す量だけが異な
り、その他については全く同様であるので、この情報量
の求め方のみについて説明する。この上位概念の情報量
lは下記の通りに定義する。
Next, a method of using the information amount of the superordinate concept common to these attributes on the thesaurus as the amount representing the semantic closeness between the attributes will be described as another embodiment.
Only the amount representing this semantic closeness is different from the previous embodiment, and the others are exactly the same, so only the method for obtaining this information amount will be described. The information amount l of this superordinate concept is defined as follows.

【0020】 l=log2 (A/n) (3) ここで、A:共通する上位概念の下位に位置する属性の
内の何れかの属性の重要度が非零となる単語の総数 n:概念ベースの全単語数 図3を参照して、属性v2 と属性v4 との間の関係につ
いて考える。これらの属性の共通する上位概念はJ21
ある。ここで、Aは属性v1 〜v4 の何れかの重要度が
非零となる単語の総数であり、概念ベースが図4に示さ
れる通りのものであり、図中○印が重要度が非零である
ことを示すものとすると、該当する単語はw1 、w2
3 、w5 、w6 、w8 の合計6個であり、A=6とな
る。情報量をこの様に定義すると、2個の属性がシソー
ラス上において接近していると、これらに共通する上位
概念の情報量は大きく、また、遠く離隔していると小さ
くなる。即ち、この情報量は等価的に属性間の意味的な
近さを表していることになる。
L = log 2 (A / n) (3) Here, A: the total number of words in which the importance of any one of the attributes located in the lower order of the common superordinate concept is non-zero n: Concept-Based Total Word Count With reference to FIG. 3, consider the relationship between attributes v 2 and v 4 . The common superordinate concept of these attributes is J 21 . Here, A is the total number of words in which any of the attributes v 1 to v 4 has a non-zero importance, the concept base is as shown in FIG. 4, and the circles in the figure indicate the importance. Assuming it is non-zero, the corresponding words are w 1 , w 2 ,
There are a total of 6 of w 3 , w 5 , w 6 , and w 8 , and A = 6. When the information amount is defined in this way, when two attributes are close to each other on the thesaurus, the information amount of the superordinate concept common to them is large, and when they are far apart, the information amount is small. That is, this information amount equivalently represents the semantic closeness between the attributes.

【0021】以上の通り、属性間の意味的な近さを表す
量として、属性間のシソーラス上における距離の逆数、
或はシソーラス上におけるこれら属性に共通する上位概
念の情報量を選択した例について説明したが、属性間の
意味的な近さを表す量でありさえすれば、これらの例に
類する如何なる量を選択しても差し支えない。
As described above, the reciprocal of the distance between the attributes on the thesaurus is defined as the quantity representing the semantic closeness between the attributes.
Or, the example of selecting the information amount of the superordinate concept common to these attributes on the thesaurus was explained, but any amount similar to these examples can be selected as long as it is the amount indicating the semantic closeness between attributes. It doesn't matter.

【0022】[0022]

【発明の効果】上述した通りであって、この発明は、単
語間の意味的な類似性の判別をするに際して、比較され
るべき2個の単語の全ての属性の組合せについてこれら
の重要度とこれら重要度の間の意味的な近さを表す量の
3者の積を計算し、これらの積を総和することにより類
似度を計算するものであるので、属性集合の中に意味的
に類似する属性が含まれていて互に独立ではなくても、
高い類似性判別精度を得ることができる。更に、従来の
計算の仕方に依っては、重要度が非零の特徴付ける属性
が少ない単語間については、共通な属性が少なくなると
ころから、類似性判別精度が低下することが考えられる
が、この発明においては全ての属性の組合せを考慮して
類似度が計算されるので、この様な欠点も解消される。
As described above, according to the present invention, when determining the semantic similarity between words, the significance levels of all the attribute combinations of two words to be compared are calculated. The similarity is calculated by calculating the product of three parties of the quantities that represent the semantic closeness between these degrees of importance, and summing these products to calculate the similarity. Even if the attributes to be included are not independent of each other,
High similarity discrimination accuracy can be obtained. Furthermore, depending on the conventional calculation method, for words with few non-zero importance attributes that characterize, the similarity determination accuracy may decrease because there are few common attributes. In the present invention, since the similarity is calculated in consideration of all the attribute combinations, such a drawback is eliminated.

【図面の簡単な説明】[Brief description of drawings]

【図1】概念ベースを示す図。FIG. 1 is a diagram showing a concept base.

【図2】シソーラスの構成を示す図。FIG. 2 is a diagram showing a structure of a thesaurus.

【図3】属性間の意味的な距離を説明する図。FIG. 3 is a diagram illustrating a semantic distance between attributes.

【図4】共通上位概念の情報量の計算方法を説明する
図。
FIG. 4 is a diagram illustrating a method of calculating an information amount of a common superordinate concept.

【符号の説明】[Explanation of symbols]

i 単語 wj 単語 vk 属性 vl 属性 aik 重要度 ajl 重要度 Lkl 2個の属性間の意味的な近さを表す量w i word w j word v k attribute v l attribute a ik importance degree a jl importance degree L kl quantity representing the semantic closeness between two attributes

フロントページの続き (56)参考文献 特開 平6−162099(JP,A) 特開 平6−208590(JP,A) 特開 平6−131184(JP,A) 沢田裕司,大川剛直,馬場口登,観点 を考慮した連想機構の実現,情報処理学 会論文誌,1994年5月15日,第35巻,第 5号,pp.714−724 酒匂孝之,中村順一,吉田将,概念間 の外見的な類似性と心理的な評価を利用 した比喩表現の生成,電子情報通信学会 技術研究報告,1993年7月8日,第93 巻,第131号,pp.17−24 笠原要,松澤和光,石川勉,河岡司, 観点に基づく該年間の類似性判別,情報 処理学会論文誌,1994年3月15日,第35 巻,第3号,pp.505−509 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 17/27 JICSTファイル(JOIS)Continuation of front page (56) References JP-A-6-162099 (JP, A) JP-A-6-208590 (JP, A) JP-A-6-131184 (JP, A) Yuji Sawada, Takenao Okawa, Babaguchi Noboru, Realization of Association Mechanism Considering Point of View, Journal of Information Processing Society, May 15, 1994, Volume 35, No. 5, pp. 714-724 Takayuki Sakano, Junichi Nakamura, Masashi Yoshida, Generating Metaphorical Expressions Utilizing Appearance Similarity and Psychological Evaluation between Concepts, IEICE Technical Report, July 8, 1993, 93rd Vol. 131, pp. 17-24 Kasahara Kaname, Matsuzawa Kazumitsu, Ishikawa Tsutomu, Kawaoka Tsukasa, Similarity Discrimination for the year based on viewpoint, Journal of Information Processing, March 15, 1994, Vol. 35, No. 3, pp. 505-509 (58) Fields investigated (Int.Cl. 7 , DB name) G06F 17/30 G06F 17/27 JISST file (JOIS)

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 単語の特徴を表す属性と、当該単語と属
性との間の関連の深さを示す当該属性の重要度の対の集
合により単語の意味を表現している単語意味データベー
スを使用して単語相互間の意味の距離計算をして単語相
互間の類似性を判別する単語間意味類似性判別方法にお
いて、 類似性判別の対象とされる2個の単語のそれぞれについ
て属性を選択し、選択された2個の属性の重要度と、こ
れら2個の属性間の意味的な近さを表す量の3者の積
を、2個の単語に含まれる全属性の組み合わせについて
総和した結果を類似度とすることを特徴とする単語間意
味類似性判別方法。
1. A word meaning database is used which expresses the meaning of a word by a set of a pair of an attribute representing a feature of a word and a degree of importance of the attribute indicating a depth of association between the word and the attribute. Then, the distance between the words is calculated and the word phase is calculated.
In a method for determining a meaning between words, which determines similarity between words, an attribute is selected for each of the two words that are the objects of similarity determination, and the importance of the two selected attributes and the Inter-word semantic similarity, characterized in that the similarity is the result of summing the products of three parties representing the amount of semantic closeness between two attributes for all combinations of attributes included in two words. Gender discrimination method.
【請求項2】 請求項1に記載される単語間意味類似性
判別方法において、2個の属性間の意味的な近さを表す
量を、選択された2個の属性間のシソーラス上における
距離の逆数とすることを特徴とする単語間意味類似性判
別方法。
2. The inter-word semantic similarity determination method according to claim 1, wherein an amount representing a semantic closeness between two attributes is a distance between two selected attributes on a thesaurus. A method for discriminating semantic similarity between words, which is a reciprocal of.
【請求項3】 請求項1に記載される単語間意味類似性
判別方法において、2個の属性間の意味的な近さを表す
量を、選択された2個の属性に共通するシソーラス上に
おける上位概念の情報量とすることを特徴とする単語間
意味類似性判別方法。
3. The inter-word semantic similarity determination method according to claim 1, wherein an amount representing a semantic closeness between two attributes is set on a thesaurus common to the two selected attributes. A method for determining semantic similarity between words, which is characterized in that the information amount of a superordinate concept is used.
JP29000494A 1994-11-24 1994-11-24 Method of determining meaning similarity between words Expired - Fee Related JP3379608B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29000494A JP3379608B2 (en) 1994-11-24 1994-11-24 Method of determining meaning similarity between words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29000494A JP3379608B2 (en) 1994-11-24 1994-11-24 Method of determining meaning similarity between words

Publications (2)

Publication Number Publication Date
JPH08147324A JPH08147324A (en) 1996-06-07
JP3379608B2 true JP3379608B2 (en) 2003-02-24

Family

ID=17750540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29000494A Expired - Fee Related JP3379608B2 (en) 1994-11-24 1994-11-24 Method of determining meaning similarity between words

Country Status (1)

Country Link
JP (1) JP3379608B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006085565A1 (en) * 2005-02-08 2006-08-17 Nippon Telegraph And Telephone Corporation Information communication terminal, information communication system, information communication method, information communication program, and recording medium on which program is recorded

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4645676B2 (en) 2008-04-28 2011-03-09 ソニー株式会社 Information processing apparatus, related item providing method, and program
CN102637163A (en) * 2011-01-09 2012-08-15 华东师范大学 Method and system for controlling multi-level ontology matching based on semantemes
CN103136262B (en) * 2011-11-30 2016-08-24 阿里巴巴集团控股有限公司 Information retrieval method and device
JP6476638B2 (en) * 2014-08-05 2019-03-06 日本電気株式会社 Specific term candidate extraction device, specific term candidate extraction method, and specific term candidate extraction program
CN107133218A (en) * 2017-05-26 2017-09-05 北京惠商之星网络科技有限公司 Trade name intelligent Matching method, system and computer-readable recording medium
KR101991019B1 (en) * 2017-11-30 2019-06-19 서울대학교병원 System and method for cognitive rehabilitation training based semantic distance

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
沢田裕司,大川剛直,馬場口登,観点を考慮した連想機構の実現,情報処理学会論文誌,1994年5月15日,第35巻,第5号,pp.714−724
笠原要,松澤和光,石川勉,河岡司,観点に基づく該年間の類似性判別,情報処理学会論文誌,1994年3月15日,第35巻,第3号,pp.505−509
酒匂孝之,中村順一,吉田将,概念間の外見的な類似性と心理的な評価を利用した比喩表現の生成,電子情報通信学会技術研究報告,1993年7月8日,第93巻,第131号,pp.17−24

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006085565A1 (en) * 2005-02-08 2006-08-17 Nippon Telegraph And Telephone Corporation Information communication terminal, information communication system, information communication method, information communication program, and recording medium on which program is recorded

Also Published As

Publication number Publication date
JPH08147324A (en) 1996-06-07

Similar Documents

Publication Publication Date Title
US7593932B2 (en) Information data retrieval, where the data is organized in terms, documents and document corpora
CN106708966B (en) Junk comment detection method based on similarity calculation
EP1225517B1 (en) System and methods for computer based searching for relevant texts
US7636713B2 (en) Using activation paths to cluster proximity query results
US6738678B1 (en) Method for ranking hyperlinked pages using content and connectivity analysis
CN108920556B (en) Expert recommending method based on discipline knowledge graph
US8041729B2 (en) Categorizing queries and expanding keywords with a coreference graph
US20060155751A1 (en) System and method for document analysis, processing and information extraction
Ceri et al. An introduction to information retrieval
CN107402954A (en) Establish the method for order models, application process and device based on the model
JP5859606B2 (en) Ad source and keyword set adaptation in online commerce platforms
US20100312767A1 (en) Information Process Apparatus, Information Process Method, and Program
JP5160312B2 (en) Document classification device
Zhang et al. STCS lexicon: Spectral-clustering-based topic-specific Chinese sentiment lexicon construction for social networks
JP3379608B2 (en) Method of determining meaning similarity between words
US6785669B1 (en) Methods and apparatus for flexible indexing of text for use in similarity searches
Gleich et al. SVD based term suggestion and ranking system
JP3418876B2 (en) Data base search apparatus and method
CN112650869B (en) Image retrieval reordering method and device, electronic equipment and storage medium
US7523115B2 (en) Method for finding objects
Yang et al. A Weighted-Tree Simplicity Algorithm for Similarity Matching of Partial Product Descriptions.
US20040205051A1 (en) Dynamic comparison of search systems in a controlled environment
Lee Document vectorization method using network information of words
US20020152182A1 (en) Auction method and auction system, and storage medium therefor
Wolin Automatic classification in product catalogs

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071213

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081213

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091213

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101213

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101213

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111213

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111213

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121213

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121213

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131213

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees