JPH06208590A - Method for calculating degree of similarity between words - Google Patents

Method for calculating degree of similarity between words

Info

Publication number
JPH06208590A
JPH06208590A JP5003333A JP333393A JPH06208590A JP H06208590 A JPH06208590 A JP H06208590A JP 5003333 A JP5003333 A JP 5003333A JP 333393 A JP333393 A JP 333393A JP H06208590 A JPH06208590 A JP H06208590A
Authority
JP
Japan
Prior art keywords
similarity
concept
word
words
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5003333A
Other languages
Japanese (ja)
Inventor
Susumu Sai
進 崔
Eiji Komatsu
英二 小松
Hiroshi Yasuhara
宏 安原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NIPPON DENSHIKA JISHO KENKYUSH
NIPPON DENSHIKA JISHO KENKYUSHO KK
Original Assignee
NIPPON DENSHIKA JISHO KENKYUSH
NIPPON DENSHIKA JISHO KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NIPPON DENSHIKA JISHO KENKYUSH, NIPPON DENSHIKA JISHO KENKYUSHO KK filed Critical NIPPON DENSHIKA JISHO KENKYUSH
Priority to JP5003333A priority Critical patent/JPH06208590A/en
Publication of JPH06208590A publication Critical patent/JPH06208590A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To calculate the degree of similarity between polysemy words or between words in different languages by using a word dictionary describing corresponding relation between each word and its concept and a concept system describing the master-slave relation of concepts and independent of languages in respect to a similarity degree calculating method for calculating the degree of similarity between words. CONSTITUTION:This similarity degree calculating method is provided with the word dictionary 1 and the concept system 2, concept groups corresponding to plural inputted words are respectively extracted by retrieving the dictionary 1, the degree alpha of similarity between the extracted concept groups is calculated, corresponding master concepts (and/or slave concepts) are extracted from these extracted concept groups by retrieving the system 2, and the degree beta of similarity between the extracted master concepts (and/or the slave concepts) is calculated. These degrees alpha, beta of similarity are weighted to calculate the degree deltaof similarity as the degree of similarity between words.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、単語間の類似度を算出
する類似度算出方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a similarity calculation method for calculating the similarity between words.

【0002】[0002]

【従来の技術】従来、単語間の類似度算出は、分類語彙
表、類語辞典、シソーラスなどを用いて、単語間の距離
を測定して算出していた。
2. Description of the Related Art Heretofore, the similarity between words has been calculated by measuring the distance between words using a categorized vocabulary table, a thesaurus, a thesaurus, and the like.

【0003】[0003]

【発明が解決しようとする課題】これら従来の類似度算
出は、いずれも単語体系を利用した類似度を算出するも
のであって、単語の持つ概念および概念体系上の上位下
位関係を利用した類似度算出でないため、多義性を持つ
単語に対する処理の仕方の問題や、異なる言語の単語間
の類似度を算出できないなどの問題があった。
All of these conventional similarity calculation methods calculate the similarity using the word system, and the similarity using the concept of words and the upper and lower relations in the concept system. Since it is not a degree calculation, there is a problem of how to process a word having polysemy and a problem that the degree of similarity between words in different languages cannot be calculated.

【0004】本発明は、これらの問題を解決するため、
単語と概念の対応関係を記述した単語辞書および概念の
上位下位関係を記述した言語に依存しない概念体系を用
い、多義性の単語や異なる言語の単語間の類似度を算出
可能にすることを目的としている。
The present invention solves these problems.
The purpose is to be able to calculate polysemy words and similarity between words in different languages by using a word dictionary that describes the correspondence between words and concepts and a language-independent concept system that describes the superordinate and subordinate relationships of concepts. I am trying.

【0005】[0005]

【課題を解決するための手段】図1を参照して課題を解
決するための手段を説明する。図1において、単語辞書
1は、単語とその概念集合を予め登録したものである。
[Means for Solving the Problems] Means for solving the problems will be described with reference to FIG. In FIG. 1, a word dictionary 1 is a dictionary in which words and their concept sets are registered in advance.

【0006】概念体系2は、単語とその概念集合の上位
概念および/あるいは下位概念を予め登録したものであ
る。概念集合類似度算出部5は、単語辞書1を検索して
取り出した単語の概念集合をもとに、単語間の概念集合
の類似度αを算出するものである。
The concept system 2 is a system in which a word and a superordinate concept and / or a subordinate concept of the concept set are registered in advance. The concept set similarity calculation unit 5 calculates the concept set similarity α between words based on the concept set of words retrieved by searching the word dictionary 1.

【0007】概念集合類似度算出部6は、概念体系2を
検索して取り出した単語の概念集合の上位概念(および
/あるいは下位概念)をもとに、概念集合の類似度βを
算出するものである。
The concept set similarity calculation unit 6 calculates the concept set similarity β based on the superordinate concept (and / or subordinate concept) of the concept set of the words retrieved by searching the concept system 2. Is.

【0008】単語間類似度算出部7は、類似度αおよび
類似度βに重み付けをそれぞれ行って単語間の類似度δ
を算出するものである。
The word similarity calculation unit 7 weights the similarity α and the similarity β, respectively, and calculates the similarity δ between the words.
Is calculated.

【0009】[0009]

【作用】本発明は、図1に示すように、概念集合類似度
算出部5が、入力された複数の単語について、単語辞書
1を検索して取り出した概念集合の間の類似度αを算出
し、概念集合類似度算出部6がこれら取り出した概念集
合について、概念体系2を検索して取り出した上位概念
(および/あるいは下位概念)の間の類似度βを算出
し、単語間類似度算出部7がこれら算出した類似度αお
よび類似度βにそれぞれ重み付けを行って単語間の類似
度δを算出するようにしている。
In the present invention, as shown in FIG. 1, the concept set similarity calculation unit 5 calculates the similarity α between the concept sets retrieved by searching the word dictionary 1 for a plurality of input words. Then, the concept set similarity calculation unit 6 searches the concept system 2 for these extracted concept sets, calculates the similarity β between the extracted upper concepts (and / or lower concepts), and calculates the inter-word similarity. The unit 7 weights the calculated similarity α and similarity β to calculate the similarity δ between words.

【0010】この際、単語辞書1を異なる言語毎に設け
ると共に、これらの単語辞書1からリンクする共通の上
記概念体系2とするようにしている。従って、単語と概
念の対応関係を記述した単語辞書1および概念の上位下
位関係を記述した言語に依存しない概念体系2を用い、
従来の類似度では算出できなかった多義性の単語や異な
る言語の単語などの間の類似度を算出することが可能と
なる。
At this time, the word dictionary 1 is provided for each different language, and the common concept system 2 linked from these word dictionaries 1 is used. Therefore, using the word dictionary 1 that describes the correspondence between words and concepts and the language-independent concept system 2 that describes the superordinate and subordinate relationships of concepts,
It is possible to calculate the similarity between ambiguous words and words in different languages, which could not be calculated by the conventional similarity.

【0011】[0011]

【実施例】次に、図1から図9を用いて本発明の実施例
の構成および動作を順次詳細に説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Next, the construction and operation of an embodiment of the present invention will be described in detail with reference to FIGS.

【0012】図1は、本発明の1実施例構成図を示す。
図1において、単語辞書1は、単語の概念集合を予め登
録したものである。例えば後述するように、単語“リン
ゴ”に対応づけて概念集合 ・林檎という植物 ・林檎という植物の果実 を登録したものである(図6、図7参照)。
FIG. 1 shows a block diagram of an embodiment of the present invention.
In FIG. 1, a word dictionary 1 is one in which a concept set of words is registered in advance. For example, as will be described later, the concept set, the plant called apple, and the fruit of the plant called apple are registered in association with the word “apple” (see FIGS. 6 and 7).

【0013】概念体系2は、単語辞書1に登録した単語
の概念集合の上位概念および下位概念を予め登録したも
のである。例えば後述するように、単語の概念集合につ
いて、i段目(i=1、2・・・・、整数)に対応づけ
て上位概念を下記のように登録する。
The concept system 2 is a system in which a superordinate concept and a subordinate concept of a concept set of words registered in the word dictionary 1 are registered in advance. For example, as will be described later, with respect to the concept set of words, the superordinate concept is registered as below in association with the i-th stage (i = 1, 2, ..., Integer).

【0014】・単語の概念集合:林檎という植物 ・上位概念(1段目):樹木 ・上位概念(2段目):種で捕えた植物 単語辞書検索部3は、類似度の算出対象の単語W1、単
語W2について、単語辞書1を検索して該当する単語の
概念集合をそれぞれ取り出すものである。例えば後述す
るように、単語W1“リンゴ”に対応して、概念集合と
して、図6に示すように、 ・林檎という植物 ・林檎という植物の果実 を取り出すものである。
-Concept set of words: plant called apple-superordinate concept (first stage): tree-superordinate concept (second stage): plant caught by seed The word dictionary search unit 3 calculates words for which similarity is calculated. With respect to W1 and word W2, the word dictionary 1 is searched to extract the concept set of the corresponding word. For example, as will be described later, as shown in FIG. 6, corresponding to the word W1 “apple”, the plant of apples and the fruits of the plant of apples are extracted as shown in FIG.

【0015】概念集合類似度算出部5は、単語辞書検索
部3によって取り出された単語W1の概念集合51およ
び単語W2の概念集合52をもとに、下式(1)から類
似度αを算出するものである。
The concept set similarity calculation unit 5 calculates the similarity α from the following equation (1) based on the concept set 51 of the word W1 and the concept set 52 of the word W2 extracted by the word dictionary search unit 3. To do.

【0016】 α=|C1∩C2| (1) ここで、C1は単語W1の概念集合を表し、C2は単語
W2の概念集合を表す。従って、類似度αは、概念集合
C1と概念集合C2に共通に存在する概念の数となる
(図6、図7参照)。
Α = | C1∩C2 | (1) Here, C1 represents the concept set of the word W1, and C2 represents the concept set of the word W2. Therefore, the degree of similarity α is the number of concepts that commonly exist in the concept set C1 and the concept set C2 (see FIGS. 6 and 7).

【0017】概念体系検索部4は、W1の概念集合5
1、W2の概念集合52について、ここでは、概念体系
2を検索してW1の上位概念集合61、W2の上位概念
集合62をそれぞれ取り出すものである。例えばW1の
概念集合51 ・林檎という植物 に対応して上位概念(1段目)として ・樹木 を取り出し、上位概念(2段目)として ・種で捉えた植物 をそれぞれ取り出すものである(図6、図7参照)。
The concept system search unit 4 uses the concept set 5 of W1.
For the concept set 52 of 1 and W2, here, the concept system 2 is searched to extract the super concept set 61 of W1 and the super concept set 62 of W2, respectively. For example, the concept set 51 of W1 ・ As a superordinate concept (first stage) corresponding to a plant called an apple ・ A tree is taken out and as a superordinate concept (second stage) ・ A plant caught by a seed is taken out respectively (Fig. 6). , See FIG. 7).

【0018】概念集合類似度算出部6は、概念体系2か
ら取り出された単語W1の上位概念集合61、単語W2
の上位概念集合62をもとに、下式(2)、(3)から
類似度βを算出するものである。まず、W1とW2の概
念体系上のi段目の上位概念集合間の類似度βiを下式
(2)によって算出する。
The concept set similarity calculator 6 calculates a superordinate concept set 61 of the word W1 extracted from the concept system 2 and a word W2.
Based on the superordinate concept set 62, the similarity β is calculated from the following equations (2) and (3). First, the similarity βi between the i-th superordinate concept sets in the conceptual system of W1 and W2 is calculated by the following equation (2).

【0019】 βi=(1+Kβi1×CSi) (1+Kβi2(CSi/Ni1+CSi/Ni2)))−1 (2) ここで、 i=1、2・・・(概念体系2の最大段数) Kβi1、Kβi2:重み Ni1:W1のi段目の上位概念集合内の異なる概念の
数 Ni2:W2のi段目の上位概念集合内の異なる概念の
数 CSi:W1のi段目の上位概念集合とW2のi段目の
上位概念集合の間の共通な概念の数 である。例えばCSiの値が大きいほど類似度βiの値
は大きくなる。CSi=0のとき、類似度βi=0とな
る。Ni1あるいはNi2の値が大きいほど類似度βi
の値は小さくなる。CSi/Nik(k=1、2)は、
共通な上位概念数対上位概念の集合内の異なる概念数の
比率である。例えば5つの上位概念の中に1つが他と同
じ(CSi/Nik=1/5)であることより、2つの
上位概念の中に1つが他と同じ(CSi/Nik=1/
2)であることの方が類似度βiが大きい。Kβi1を
用いてCSiの重みを調整し、Kβi2を用いてCSi
/Ni1+CSi/Ni2の重みを調整する。Kβi2
=0のとき、Ni1とNi2がβiに作用しなくなる。
これら求めた類似度βiをもとに全体の類似度βを下式
(3)を用いて算出する。
Βi = (1 + Kβi1 × CSi) (1 + Kβi2 (CSi / Ni1 + CSi / Ni2))-1 (2) Here, i = 1, 2, ... (Maximum number of stages of concept system 2) Kβi1, Kβi2: weight Ni1: Number of different concepts in i-th superordinate concept set of W1 Ni2: Number of different concepts in i-th superordinate concept set of W2 CSi: W1 i-th superordinate concept set and W2 i-th stage It is the number of common concepts between the superordinate sets of eyes. For example, the larger the value of CSi, the larger the value of the similarity βi. When CSi = 0, the similarity βi = 0. The larger the value of Ni1 or Ni2, the similarity βi
Becomes smaller. CSi / Nik (k = 1, 2) is
It is the ratio of the number of common superordinate concepts to the number of different concepts in the set of superordinate concepts. For example, one of the five superordinate concepts is the same as the others (CSi / Nik = 1/5), and thus one of the two superordinate concepts is the same (CSi / Nik = 1 /).
In the case of 2), the similarity βi is larger. Adjust the weight of CSi using Kβi1 and use Cβi2 to adjust CSi
Adjust the weight of / Ni1 + CSi / Ni2. Kβi2
When = 0, Ni1 and Ni2 do not act on βi.
Based on the obtained similarity βi, the overall similarity β is calculated using the following equation (3).

【0020】 β=Kβ1×β1+Kβ2×β2+・・・+Kβi×βi (3) ここで、i=1、2、3・・・i(整数) Kβi:βiの重み βi:W1およびW2の上位概念上のi段目の上位概念
間の類似度である。
Β = Kβ1 × β1 + Kβ2 × β2 + ... + Kβi × βi (3) where i = 1, 2, 3 ... i (integer) Kβi: Weight of βi βi: In the superordinate concept of W1 and W2 Is the similarity between the superordinate concepts of the i-th stage.

【0021】単語間類似度算出部7は、類似度αおよび
類似度βに重み付けをそれぞれ行って単語間の類似度δ
を下式(4)を用いて算出するものである。 δ=1−exp(−(Kα×α+Kβ×β)) (4) ここで、 Kα:αの重み Kβ:βの重み である。Kαを用いて類似度αの重みを調整し、Kαの
値が大きいほど類似度αの重みは大きくなる。Kβを用
いて類似度βの重みを調整し、Kβの値が大きいほど類
似度βの重みは大きくなる。KαとKβの値を調整する
ことにより、類似度δの値の範囲を、0から1の範囲で
調整することができる。
The inter-word similarity calculation unit 7 weights the similarity α and the similarity β, respectively, and calculates the similarity δ between words.
Is calculated using the following equation (4). δ = 1−exp (− (Kα × α + Kβ × β)) (4) Here, Kα: α weight Kβ: β weight. The weight of the similarity α is adjusted using Kα, and the larger the value of Kα, the larger the weight of the similarity α. The weight of the similarity β is adjusted using Kβ, and the larger the value of Kβ, the larger the weight of the similarity β. By adjusting the values of Kα and Kβ, the range of the value of the similarity δ can be adjusted within the range of 0 to 1.

【0022】以下詳細に順次説明する。図2は、本発明
の動作説明フローチャートを示す。図2において、A1
は、単語W1、単語W2の入力を行う。これは、図1の
左側から類似度δの算出対象の単語W1、単語W2とし
て、例えば後述する図6の ・単語W1“リンゴ” ・単語W2“オレンジ” を入力する。
Details will be sequentially described below. FIG. 2 shows a flowchart for explaining the operation of the present invention. In FIG. 2, A1
Inputs the word W1 and the word W2. For this purpose, from the left side of FIG. 1, for example, the word W1 “apple” and the word W2 “orange” in FIG.

【0023】A2は、単語辞書の検索を行う。A3は、
概念集合の取り出しを行う。これらA2、A3は、図1
の単語辞書検索部3が単語辞書1を検索し、A1で入力
された単語W1、単語W2の概念集合を図6の概念集合
C1、概念集合C2に示すように取り出す。
A2 searches the word dictionary. A3 is
Extract the concept set. These A2 and A3 are shown in FIG.
The word dictionary searching unit 3 searches the word dictionary 1 and extracts the concept sets of the words W1 and W2 input in A1 as shown in the concept sets C1 and C2 of FIG.

【0024】A4は、類似度αの算出を行う。これは、
A3で取り出した単語W1、単語W2の概念集合C1、
概念集合C2について、式(1)をもとに、概念集合C
1と概念集合C2に共通に存在する概念集合の数を類似
度αとして算出する。例えば図6の場合には概念集合C
1と概念集合C2に共通に存在する概念集合がないた
め、類似度α=0と算出する。
At A4, the degree of similarity α is calculated. this is,
A word W1 extracted in A3, a concept set C1 of word W2,
For concept set C2, based on equation (1), concept set C2
1 and the number of concept sets commonly existing in the concept set C2 are calculated as the similarity α. For example, in the case of FIG. 6, the concept set C
1 and the concept set C2 do not have a common concept set, the similarity α = 0 is calculated.

【0025】A5は、概念体系の検索を行う。A6は、
上位概念の取り出しを行う。これらA5、A6は、A3
で取り出した概念集合C1および概念集合C2につい
て、概念体系2を検索し、上位概念をそれぞれ取り出
す。例えば図6に示すように、概念集合C1の“林檎と
いう植物”の1段目の上位概念として、 ・樹木 2段目の上位概念として ・種で捉えた植物 を取り出す。
A5 searches the concept system. A6 is
Extract the superordinate concept. These A5 and A6 are A3
The concept system 2 is searched for the concept set C1 and the concept set C2 extracted in step S1, and the superordinate concepts are extracted. For example, as shown in FIG. 6, as a superordinate concept of the first stage of the “plant called apple” in the concept set C1, as a superordinate concept of the second stage of trees, the plant captured by the seed is extracted.

【0026】A7は、類似度βの算出を行う。これは、
A6で取り出した上位概念について、1段目、2段目に
ついてそれぞれ既述した式(2)、(3)に代入して、
類似度β1、類似度β2を例えば図6に示すようにそれ
ぞれ算出する。
At A7, the similarity β is calculated. this is,
Substituting the superordinate concept extracted in A6 into the equations (2) and (3) already described for the first and second stages,
The similarity β1 and the similarity β2 are calculated, for example, as shown in FIG.

【0027】A8は、類似度δの算出を行う。これは、
A4で算出した類似度α、およびA7で算出した類似度
β1、類似度β2を既述した式(4)に代入して、類似
度δを例えば図6に示すように算出する。
At A8, the similarity δ is calculated. this is,
The similarity α calculated in A4 and the similarity β1 and the similarity β2 calculated in A7 are substituted into the above-described equation (4) to calculate the similarity δ as shown in FIG. 6, for example.

【0028】以上によって、単語W1、単語W2の入力
に対応して、単語辞書1を検索して単語に対応する概念
集合C1、概念集合C2を取り出して類似度αを算出
し、次にこれら概念集合C1、概念集合C2について概
念体系2を検索して上位概念S1、上位概念S2を取り
出して類似度β1、類似度β2を算出し、これらから全
体の類似度δを算出して単語間の類似度とする。これに
より、単語間の類似度を算出する際に、当該単語の概念
を考慮した類似度を算出することが可能となり、多義性
を持つ単語間の類似度を算出したり、異なる言語の単語
間の類似度を算出することが可能となる。以下更に詳細
に説明する。
As described above, in response to the input of the word W1 and the word W2, the word dictionary 1 is searched, the concept set C1 and the concept set C2 corresponding to the word are extracted, the similarity α is calculated, and then these concepts are calculated. The concept system 2 is searched for the set C1 and the concept set C2, the superordinate concept S1 and the superordinate concept S2 are extracted, the similarity β1 and the similarity β2 are calculated, and the overall similarity δ is calculated from these to calculate the similarity between words. Degree. This makes it possible to calculate the degree of similarity in consideration of the concept of the word when calculating the degree of similarity between words, and to calculate the degree of similarity between words with polysemy or between words in different languages. It is possible to calculate the degree of similarity of. The details will be described below.

【0029】図3は、本発明の類似度αの算出フローチ
ャートを示す。これは、図2のA3およびA4の詳細な
フローチャートである。ここでは、図7を参照して具体
的に説明する。
FIG. 3 shows a flowchart for calculating the similarity α according to the present invention. This is a detailed flowchart of A3 and A4 in FIG. Here, a specific description will be given with reference to FIG. 7.

【0030】図3において、A11は、単語W1、W2
の概念集合C1、C2の取り出しを行う。これは、例え
ば図7に示すように、単語W1、単語W2について、単
語辞書1を検索して図示のような概念集合C1、概念集
合C2をそれぞれ取り出す。
In FIG. 3, A11 is the words W1 and W2.
The concept sets C1 and C2 are extracted. For example, as shown in FIG. 7, the word dictionary 1 is searched for the word W1 and the word W2, and the concept set C1 and the concept set C2 shown in the drawing are extracted.

【0031】A12は、概念集合C1、C2の比較を行
う。A13は、一致数を算出し、類似度αとして保存す
る。これらA12、A13は、図7に示すように、単語
W1および単語W2の概念集合C1および概念集合C2
を比較し、ここでは、“蜜柑という果実”が1つ一致し
たので、この一致数を類似度α=1として保存する。
A12 compares the concept sets C1 and C2. At A13, the number of matches is calculated and stored as the similarity α. These A12 and A13 are, as shown in FIG. 7, a concept set C1 and a concept set C2 of the word W1 and the word W2.
Are compared, and here, one "fruit called tangerine" is matched, so the number of matches is stored as the degree of similarity α = 1.

【0032】以上によって、単語W1の概念集合C1、
単語W2の概念集合C2を取り出し、類似度αを算出す
る。図4は、本発明の類似度βの算出フローチャートを
示す。これは、図2のA5からA7の詳細なフローチャ
ートである。ここでは、図7を参照して具体的に説明す
る。
From the above, the concept set C1 of the word W1,
The concept set C2 of the word W2 is taken out, and the similarity α is calculated. FIG. 4 shows a flowchart for calculating the similarity β according to the present invention. This is a detailed flowchart of A5 to A7 in FIG. Here, a specific description will be given with reference to FIG. 7.

【0033】図4において、A21は、概念集合C1、
C2をもとに、概念体系を検索し、上位概念Sを取り出
す。これは、例えば図7の概念集合C1および概念集合
C2について、概念体系2を検索して図示のような上位
概念(i=1、1段目)S1および上位概念(i=2、
2段目)S2をそれぞれ取り出す。
In FIG. 4, A21 is a concept set C1,
The concept system is searched based on C2, and the superordinate concept S is extracted. For example, the concept system 2 is searched for the concept set C1 and the concept set C2 in FIG. 7, and the superordinate concept (i = 1, first stage) S1 and superordinate concept (i = 2,
(2nd step) Take out S2.

【0034】A22は、上位概念Siを比較する。A2
3は、一致数を算出し、CSiとする。A24は、Si
の要素数をNiとする。
A22 compares the superordinate concept Si. A2
3 calculates the number of coincidences and sets it as CSi. A24 is Si
Let Ni be the number of elements of.

【0035】A25は、式(2)に代入し、類似度βi
を算出して保存する。これらは、後述する図7に示すよ
うにして類似度β1=95.07、類似度β2=95.
07としてそれぞれ算出して保存する。
Substituting A25 into equation (2), the similarity βi
Calculate and save. These are similarities β1 = 95.07 and similarity β2 = 95.
07 are calculated and saved.

【0036】S26は、指定されたiか判別する。YE
Sの場合には、指定された段数iについて類似度βiの
算出を終了したので、A28に進む。一方、NOの場合
には、指定された段数iまで類似度βの算出を終了して
いないので、A27でi=i+1してA22に戻る。
In step S26, it is determined whether the designated i. YE
In the case of S, the calculation of the degree of similarity βi has been completed for the specified number of stages i, and thus the process proceeds to A28. On the other hand, in the case of NO, since the calculation of the similarity β has not been completed until the designated number of stages i, i = i + 1 in A27 and the process returns to A22.

【0037】A28は、保存したβiを式(3)に代入
して類似度βを算出し、保存する。これは、A25で保
存した類似度βiについて、式(3)に代入して全体の
類似度βを算出して保存する。これにより、図7の場合
には、類似度β1、β2を式(3)に代入して類似度β
=99.82として算出し、保存する。
At step A28, the stored βi is substituted into the equation (3) to calculate the similarity β, which is then stored. This is performed by substituting the similarity βi stored in A25 into the equation (3) and calculating and storing the overall similarity β. As a result, in the case of FIG. 7, the similarities β1 and β2 are substituted into the equation (3) to calculate the similarity β.
= 99.82 and save.

【0038】以上によって、単語W1の概念集合C1、
単語W2の概念集合C2の入力に対応して、概念体系2
を検索して上位概念S1、上位概念S2を取り出して類
似度β1、β2をそれぞれ算出し、これら類似度β1、
β2を式(3)に代入して全体の類似度βを算出する。
これらにより、単語の概念集合の上位概念間の類似度β
を算出することが可能となり、多義性を持つ単語間の類
似度を算出したり、異なる言語の単語間の類似度を算出
することが可能となる。
From the above, the concept set C1 of the word W1
Corresponding to the input of the concept set C2 of the word W2, the concept system 2
Is searched for, the superordinate concept S1 and the superordinate concept S2 are extracted, and the similarities β1 and β2 are calculated.
Substituting β2 into equation (3), the overall similarity β is calculated.
From these, the similarity β between superordinate concepts of the concept set of words
Can be calculated, and it is possible to calculate the degree of similarity between words having polysemy and the degree of similarity between words in different languages.

【0039】図5は、本発明の類似度δの算出フローチ
ャートを示す。これは、図2のA8の詳細なフローチャ
ートである。ここでは、図7を参照して具体的に説明す
る。図5において、A31は、保存したα、βを取り出
す。これは、既述した図3のA13で保存した類似度α
および図4のA28で保存した類似度βをそれぞれ取り
出す。
FIG. 5 shows a flowchart for calculating the similarity δ according to the present invention. This is a detailed flowchart of A8 in FIG. Here, a specific description will be given with reference to FIG. 7. In FIG. 5, A31 retrieves the stored α and β. This is the similarity α saved in A13 of FIG.
And the similarity β stored in A28 of FIG. 4 is extracted.

【0040】A32は、α、βを式(4)に代入して、
類似度δを算出する。これは、A31で取り出した単語
の概念集合間の類似度α、および上位概念間の類似度β
を式(4)に代入し、全体の類似度δを算出する。例え
ば図7の(4)に示すように、代入してここで、類似度
δ=0.97として算出する。
A32 substitutes α and β into the equation (4) to obtain
The similarity δ is calculated. This is the similarity α between the concept sets of the words extracted in A31 and the similarity β between the superordinate concepts.
Is substituted into equation (4) to calculate the overall similarity δ. For example, as shown in (4) of FIG. 7, substitution is performed here to calculate the similarity δ = 0.97.

【0041】以上によって、単語の概念集合C1、C2
の間の類似度α、およびこれら概念集合C1、C2の上
位概念S1、S2などの間の類似度βを求め、これら類
似度αおよび類似度βを式(4)に代入して全体の類似
度δを算出することが可能となる。これらにより、多義
性を持つ単語や異なる言語の単語間の類似度を算出する
ことが可能となる。
From the above, the word concept sets C1 and C2
Between the concept sets C1 and C2, and the similarity β between the superordinate concepts S1 and S2 of the concept sets C1 and C2. The similarity α and the similarity β are substituted into the equation (4) to obtain the overall similarity. It is possible to calculate the degree δ. With these, it becomes possible to calculate the degree of polysemy and the similarity between words in different languages.

【0042】図6は、本発明の具体例(その1)を示
す。この具体例は、単語W1“リンゴ”および単語W2
“オレンジ”の場合のものである。ここで、矢印はポイ
ント先を表し、ポイント先の<3bd8dc>などは概
念集合(あるいは上位概念)のインデックスIDを表
す。
FIG. 6 shows a specific example (1) of the present invention. In this example, the word W1 "apple" and the word W2
This is for "orange". Here, the arrow indicates the point destination, and <3bd8dc> at the point destination indicates the index ID of the concept set (or the superordinate concept).

【0043】(1) 係数として予め実験で求めてその
値を図示の下記のように設定する。 ・Kα=0.45 ・Kβ=0.028 ・Kβ1=2.75 ・Kβ2=8.25 ・K1=1 ・K2=0.05 (2) 単語W1“リンゴ”および単語W2“オレン
ジ”について、単語辞書1を検索し、 ・単語W1“リンゴ”の概念集合C1として、 ・<3bd8dc>林檎という植物 ・<3bd8db>林檎という植物の果実 ・単語W2“オレンジ”の概念集合C2として、 ・<0e844e>オレンジという植物 ・<3c0e74>オレンジという色 ・<3c0735>蜜柑という果実 をそれぞれ取り出した様子を示す。
(1) The coefficient is obtained in advance by experiments and the value is set as shown below.・ Kα = 0.45 ・ Kβ = 0.028 ・ Kβ1 = 2.75 ・ Kβ2 = 8.25 ・ K1 = 1 ・ K2 = 0.05 (2) For the word W1 "apple" and the word W2 "orange", The word dictionary 1 is searched, -as the concept set C1 of the word W1 "apple",-<3bd8dc> the plant called apple, <3bd8db> the fruit of the plant called apple, -as the concept set C2 of the word W2 "orange",-<0e844e > A plant called orange. <3c0e74> A color called orange. <3c0735> A fruit called tangerine is taken out.

【0044】(3) 単語W1の概念集合C1と単語W
2の概念集合C2の類似度αを計算すると、式(1)に
示すように、ここでは概念集合C1と概念集合C2に同
じ概念がないので、 ・類似度α=0 となる。
(3) Concept set C1 of word W1 and word W
When the similarity α of the concept set C2 of 2 is calculated, there is no same concept in the concept set C1 and the concept set C2 as shown in Expression (1), and therefore the similarity α = 0.

【0045】(4) 概念集合C1および概念集合C2
について、概念体系2を検索し、 ・概念集合C1の上位概念S1 1(1段目)として、 ・<30f6cc>樹木 ・<30f6ce>果物 ・概念集合C2の上位概念S1 2(1段目)として、 ・<30f6cc>樹木 ・<30f6ce>果物 ・<30f944>色の値 をそれぞれ取り出した様子を示す。
(4) Concept set C1 and concept set C2
For, searches the conceptual system 2, as the preamble S 1 1 of-concept set C1 (1 stage), · <30f6cc> preamble S 1 2 (1 stage of trees · <30f6ce> fruit and concept set C2 ), <30f6cc> tree, <30f6ce> fruit, <30f944> color value, respectively.

【0046】(5) 概念集合C1の上位概念S1 1と概
念集合C2の上位概念S1 2の類似度β1を計算すると、
式(2.1)に示すように、 ・類似度β1=95.07 となる。ここで、 ・N11=2は、上位概念S1 1の数が2つを表す。
(5) When the similarity β1 between the superordinate concept S 1 1 of the concept set C1 and the superordinate concept S 1 2 of the concept set C2 is calculated,
As shown in Expression (2.1): The similarity β1 = 95.07. Here, · N11 = 2, the number of preamble S 1 1 represents two.

【0047】 ・N12=3は、上位概念S1 2の数が3つを表す。 ・CS1=2は、上位概念S1 1と上位概念S1 2のうちの
一致する概念の数が2つを表す。
N12 = 3 indicates that the number of superordinate concepts S 1 2 is three. CS1 = 2 indicates that the number of matching concepts in the superordinate concept S 1 1 and the superordinate concept S 1 2 is two.

【0048】(6) 概念集合C1および概念集合C2
について、概念体系2を検索し、 ・概念集合C1の上位概念S2 1(2段目)として、 ・<30f6cb>種で捉えた植物 ・<3f9639>飲食物 ・概念集合C2の上位概念S2 2(2段目)として、 ・<30f6cb>種で捉えた植物 ・<3f9639>飲食物 ・<3f9892>具体物の質的属性 をそれぞれ取り出した様子を示す。
(6) Concept set C1 and concept set C2
, The concept system 2 is searched, as a superordinate concept S 2 1 (second stage) of the concept set C 1 , a plant caught by <30f6cb> species, <3f9639> food and drink, and a superordinate concept S 2 of the concept set C2 2 (2nd tier): <30f6cb> plant captured by <30f6cb> species <3f9639> food / drink <3f9892> qualitative attributes of concrete objects are shown.

【0049】(7) 概念集合C1の上位概念S2 1と概
念集合C2の上位概念S2 2の類似度β2を計算すると、
式(2.2)に示すように、 ・類似度β2=95.07 となる。ここで、 ・N21=2は、上位概念S2 1の数が2つを表す。
[0049] (7) When calculating the generic concept S 2 2 of the similarity β2 generic term S 2 1 and concepts set C2 concepts set C1,
As shown in Expression (2.2): The similarity β2 = 95.07. Here, · N21 = 2, the number of preamble S 2 1 represents two.

【0050】 ・N22=3は、上位概念S2 2の数が3つを表す。 ・CS2=2は、上位概念S2 1と上位概念S2 2のうちの
一致する概念の数が2つを表す。
N22 = 3 indicates that the number of superordinate concepts S 2 2 is three. CS2 = 2 indicates that the number of matching concepts in the superordinate concepts S 2 1 and S 2 2 is two.

【0051】(8) 次に類似度α、類似度β1、類似
度β2から全体の類似度δを式(4)に示すように ・類似度δ=0.94 と算出する。
(8) Next, from the similarity α, the similarity β1, and the similarity β2, the overall similarity δ is calculated as shown in equation (4): similarity δ = 0.94.

【0052】以上のように、単語W1“リンゴ”および
単語W2“オレンジ”が入力されたことに対応して、単
語辞書1および概念体系2を検索して、類似度α、類似
度β1、β2を算出し、これらをもとに全体の類似度δ
=0.94として算出する。これらにより、単語W1
“リンゴ”と単語W2“オレンジ”の概念集合の間に同
一のものがなくても、当該概念集合の上位概念の間の類
似度β1、β2をもとに単語間の類似度δを算出するこ
とが可能となる。
As described above, in response to the input of the word W1 "apple" and the word W2 "orange", the word dictionary 1 and the concept system 2 are searched, and the similarity α, the similarity β1, and β2 are obtained. Is calculated, and based on these, the overall similarity δ
It is calculated as = 0.94. With these, the word W1
Even if the concept set of “apple” and the word W2 “orange” are not the same, the similarity δ between words is calculated based on the similarities β1 and β2 between superordinate concepts of the concept set. It becomes possible.

【0053】図7は、本発明の具体例(その2)を示
す。この具体例は、単語W1“オレンジ”および単語W
2“橘”の場合のものである。ここで、矢印はポイント
先を表し、ポイント先の<0e844e>などは概念集
合(あるいは上位概念)のインデックスIDを表す。
FIG. 7 shows a specific example (No. 2) of the present invention. In this example, the word W1 "orange" and the word W
2 This is for "Tachibana". Here, the arrow indicates the point destination, and <0e844e> at the point destination indicates the index ID of the concept set (or the superordinate concept).

【0054】(1) 係数として予め実験で求めてその
値を図示の下記のように設定する。 ・Kα=0.45 ・Kβ=0.028 ・Kβ1=2.75 ・Kβ2=8.25 ・K1=1 ・K2=0.05 (2) 以下図6の(2)から(8)と同様にして 類似度α=1 類似度β1=95.07 類似度β2=95.07 類似度δ=0.97 を算出する。
(1) The coefficient is obtained in advance by experiments and the value is set as shown below.・ Kα = 0.45 ・ Kβ = 0.028 ・ Kβ1 = 2.75 ・ Kβ2 = 8.25 ・ K1 = 1 ・ K2 = 0.05 (2) The same as (2) to (8) in FIG. 6 below. Then, the degree of similarity α = 1, the degree of similarity β1 = 95.07, the degree of similarity β2 = 95.07, and the degree of similarity δ = 0.97 are calculated.

【0055】以上のように、単語W1“オレンジ”およ
び単語W2“橘”が入力されたことに対応して、単語辞
書1および概念体系2を検索して、類似度α、類似度β
1、β2を算出し、これらをもとに全体の類似度δ=
0.97として算出する。これらにより、単語W1“オ
レンジ”と単語W2“橘”の概念集合の間の類似度α、
および当該概念集合の上位概念の間の類似度β1、β2
をもとに単語間の類似度δを算出することが可能とな
る。このときの重み付けは、KαおよびKβの値を実験
的に決めることにより設定する。
As described above, in response to the input of the word W1 "orange" and the word W2 "tachibana", the word dictionary 1 and the concept system 2 are searched for the similarity α and the similarity β.
1 and β2 are calculated, and the overall similarity δ =
Calculated as 0.97. From these, the similarity α between the concept set of the word W1 “orange” and the word W2 “tachibana”,
And the degrees of similarity β1 and β2 between the superordinate concepts of the concept set
It is possible to calculate the similarity δ between words based on. The weighting at this time is set by experimentally determining the values of Kα and Kβ.

【0056】図8は、本発明の単語辞書と概念体系の関
係図を示す。図8の(a)は、日本語単語辞書11、英
語単語辞書12および概念体系2の関係図を示す。この
関係図は、日本語単語辞書11および英語単語辞書12
が共通な概念を持ち、概念体系2にリンクする。概念体
系2は言語に依存しないので、概念レベルで単語の類似
度を算出する場合、日本語の単語同士、英語の単語同
士、日本語と英語の類似度δを算出することが可能とな
る。ここで、本発明の単語間の類似度は、従来の単語間
の距離と違い、単語の振る舞い、使い方の観点から見た
類似度であって、既述した図6、図7で説明したように
して算出する。
FIG. 8 shows the relationship between the word dictionary and the concept system of the present invention. FIG. 8A shows a relationship diagram of the Japanese word dictionary 11, the English word dictionary 12, and the concept system 2. This relationship diagram is represented by a Japanese word dictionary 11 and an English word dictionary 12.
Have common concepts and are linked to Concept System 2. Since the concept system 2 does not depend on the language, when calculating the word similarity at the concept level, it is possible to calculate the Japanese words, the English words, and the Japanese and English similarity δ. Here, unlike the distance between words in the related art, the similarity between words of the present invention is a similarity from the viewpoint of word behavior and usage, and as described above with reference to FIGS. 6 and 7. And calculate.

【0057】図8の(b)は、単語W1の概念集合C1
と、単語W2の概念集合C2とが同一の場合を示す。こ
のような関係を同一関係と呼ぶ。この同一関係の場合、
例えば ・英国とイギリス ・辞書と字典 ・外国と海外 の場合には、単語W1の概念集合C1と単語W2の概念
集合C2が同一であるため、類似度を算出する必要がな
い。
FIG. 8B shows the concept set C1 of the word W1.
And the concept set C2 of the word W2 are the same. Such a relationship is called an identical relationship. In this same relationship,
For example: -UK and the UK-Dictionary and dictionary-Foreign and foreign countries, the concept set C1 of the word W1 and the concept set C2 of the word W2 are the same, so there is no need to calculate the degree of similarity.

【0058】図8の(c)は、単語W1の概念集合C1
と、単語W2の概念集合C2とが全く同一ではないが、
共通な概念が存在する場合を示す。このような関係を同
義関係と呼ぶ。この同義関係の場合、例えば ・男と男子 ・犬とスパイ ・国語と日本語 の場合には、単語W1の概念集合C1と、単語W2の概
念集合C2とが全く同一ではないが共通な概念が存在
し、共通な概念の数が多いほど単語W1と単語W2の類
似度は大きい。類似度αは同義関係での類似度である。
FIG. 8C shows the concept set C1 of the word W1.
And the concept set C2 of the word W2 is not exactly the same,
The case where there is a common concept is shown. Such a relationship is called a synonymous relationship. In the case of this synonym, for example: -male and boy-dog and spy-national language and Japanese, the concept set C1 of the word W1 and the concept set C2 of the word W2 are not exactly the same, but there is a common concept. The greater the number of existing and common concepts, the greater the similarity between the word W1 and the word W2. The similarity α is a similarity in a synonymous relationship.

【0059】図8の(d)は、単語W1の概念集合C1
と、単語W2の概念集合C2の間に共通な概念が存在し
ないが、上位概念の間に共通な概念が存在する場合を示
す。このような関係を類似関係と呼ぶ。この類似関係の
場合、例えば ・部長と社長 ・部長と私 ・アメリカとイギリス の場合には、単語W1の概念集合C1と、単語W2の概
念集合C2の間に共通な概念が存在しないが、ある階層
iまでの上位概念Siの間に共通な概念が存在する。こ
の際、類似関係にある2つの単語W1と単語W2の間の
類似度は、図6、図7を用いて既述したように共通の上
位概念数以外、両単語の上位概念の数にも関係し、例え
ば5つの上位概念の中に1つが他と同じである場合(1
/5)よりも、2つの上位概念の中に1つが他と同じで
ある場合(1/2)の方が類似度が大きい。類似度βは
類似関係での類似度である。
FIG. 8D shows the concept set C1 of the word W1.
And a common concept does not exist between the concept sets C2 of the word W2, but a common concept exists between the superordinate concepts. Such a relationship is called a similarity relationship. In the case of this similar relationship, for example: -Manager and President-Manager and I-America and United Kingdom, there is no common concept between the concept set C1 of word W1 and the concept set C2 of word W2. There is a common concept among the superordinate concepts Si up to the hierarchy i. At this time, the degree of similarity between two words W1 and W2 having a similar relationship is not limited to the number of common superordinate concepts as described above with reference to FIGS. Related, for example, if one of the five superordinate concepts is the same as the other (1
/ 5), the similarity is higher when one of the two superordinate concepts is the same as the other (1/2). The similarity β is the similarity in the similarity relationship.

【0060】図9は、本発明の具体例を示す。図9の
(a)は、重み値のサンプル例を示す。これは、既述し
た図6、図7で用いた重み値のサンプル例である。
FIG. 9 shows a specific example of the present invention. FIG. 9A shows an example of sample weight values. This is a sample example of the weight values used in FIGS. 6 and 7 described above.

【0061】図9の(b)および(c)図、は、図9の
(a)の重み値のサンプル例を用いたときの単語間の類
似度δの算出例を示す。ここで、類似度δは0から1の
値を持ち、大きいほど類似度が高い。図9の(b)は日
本語の単語同士の類似度δの例を示し、図9の(c)は
英語と英語および日本語と英語の単語の類似度δの例を
示す。
FIGS. 9B and 9C show an example of calculating the similarity δ between words when the sample example of the weight value of FIG. 9A is used. Here, the similarity δ has a value of 0 to 1, and the larger the similarity, the higher the similarity. 9B shows an example of the similarity δ between Japanese words, and FIG. 9C shows an example of the similarity δ between English and English and between Japanese and English words.

【0062】[0062]

【発明の効果】以上説明したように、本発明によれば、
入力された複数の単語について、単語辞書1を検索して
該当する概念集合をそれぞれ取り出し、これら取り出し
た概念集合の間の類似度αを算出し、これら取り出した
概念集合について、概念体系2を検索して該当する上位
概念(および/あるいは下位概念)を取り出し、これら
取り出した上位概念(および/あるいは下位概念)の間
の類似度βを算出し、これら算出した類似度αおよび類
似度βにそれぞれ重み付けを行って類似度δを算出し、
これを単語間の類似度とする構成を採用しているため、
単語の文法や意味情報(概念の集合)を記述した単語辞
書1および概念の上位下位関係を記述した言語に依存し
ない概念体系2を用い、従来の類似度を算出できなかっ
た多義性の単語や異なる言語の単語などの間の類似度を
算出することができる。
As described above, according to the present invention,
With respect to a plurality of input words, the word dictionary 1 is searched to extract the corresponding concept sets, the similarity α between the extracted concept sets is calculated, and the concept system 2 is searched for the extracted concept sets. Then, the corresponding superordinate concept (and / or subordinate concept) is extracted, the similarity β between the extracted superordinate concepts (and / or subordinate concepts) is calculated, and the calculated similarity α and similarity β are respectively calculated. Weighting is performed to calculate the similarity δ,
Since we have adopted a structure that uses this as the degree of similarity between words,
Using the word dictionary 1 that describes the grammar and semantic information of a word (set of concepts) and the concept system 2 that does not depend on the language that describes the superordinate and subordinate relations of the concepts Similarities between words in different languages can be calculated.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の1実施例構成図である。FIG. 1 is a configuration diagram of an embodiment of the present invention.

【図2】本発明の動作説明フローチャートである。FIG. 2 is a flowchart explaining the operation of the present invention.

【図3】本発明の類似度αの算出フローチャートであ
る。
FIG. 3 is a flowchart for calculating a similarity α according to the present invention.

【図4】本発明の類似度βの算出フローチャートであ
る。
FIG. 4 is a flowchart for calculating a similarity β according to the present invention.

【図5】本発明の類似度δの算出フローチャートであ
る。
FIG. 5 is a flowchart for calculating a similarity δ according to the present invention.

【図6】本発明の具体例(その1)である。FIG. 6 is a specific example (1) of the present invention.

【図7】本発明の具体例(その2)である。FIG. 7 is a specific example (2) of the present invention.

【図8】本発明の単語辞書と概念体系の関係図である。FIG. 8 is a diagram showing the relationship between the word dictionary and the concept system of the present invention.

【図9】本発明の具体例である。FIG. 9 is a specific example of the present invention.

【符号の説明】[Explanation of symbols]

1:単語辞書 11:日本語単語辞書 12:英語単語辞書 2:概念体系 3:単語辞書検索部 4:概念体系検索部 5:概念集合類似度算出部(類似度α) 51:W1の概念集合 52:W2の概念集合 6:概念集合類似度算出部(類似度β) 61:W1の概念集合 62:W2の概念集合 7:単語間類似度算出部(類似度δ) 1: Word dictionary 11: Japanese word dictionary 12: English word dictionary 2: Concept system 3: Word dictionary search unit 4: Concept system search unit 5: Concept set similarity calculation unit (similarity α) 51: W1 concept set 52: Concept set of W2 6: Concept set similarity calculation unit (similarity β) 61: Concept set of W1 62: Concept set of W2 7: Inter-word similarity calculation unit (similarity δ)

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】単語間の類似度を算出する類似度算出方法
において、 単語とその概念集合を予め登録する単語辞書(1)と、 この単語辞書(1)に登録した単語の概念集合の上位概
念(および/あるいは下位概念)を予め登録する概念体
系(2)とを備え、 入力された複数の単語について、上記単語辞書(1)を
検索して該当する概念集合をそれぞれ取り出し、これら
取り出した概念集合の間の類似度αを算出し、 これら取り出した概念集合について、上記概念体系
(2)を検索して該当する上位概念(および/あるいは
下位概念)を取り出し、これら取り出した上位概念(お
よび/あるいは下位概念)の間の類似度βを算出し、 これら算出した上記類似度αおよび上記類似度βにそれ
ぞれ重み付けを行って類似度δを算出し、これを単語間
の類似度とするように構成したことを特徴とする単語間
の類似度算出方法。
1. A similarity calculation method for calculating similarity between words, comprising: a word dictionary (1) in which a word and its concept set are registered in advance; and a concept set of words registered in this word dictionary (1). A concept system (2) for pre-registering a concept (and / or a subordinate concept) is provided, the word dictionary (1) is searched for a plurality of input words, and a corresponding concept set is extracted, respectively. The similarity α between the concept sets is calculated, the concept system (2) is searched for the extracted concept sets, the corresponding superordinate concept (and / or subordinate concept) is extracted, and the extracted superordinate concept (and (Or subordinate concept), the similarity β is calculated, the calculated similarity α and the similarity β are weighted to calculate the similarity δ, and the similarity δ is calculated. Similarity calculation method between the words, characterized by being configured so as to similarity score.
【請求項2】上記単語辞書(1)を異なる言語毎に設け
ると共に、これらの単語辞書(1)からリンクする共通
の上記概念体系(2)としたことを特徴とする請求項1
記載の単語間の類似度算出方法。
2. The word dictionary (1) is provided for each different language, and the common concept system (2) linked from these word dictionaries (1) is used.
A method for calculating the degree of similarity between written words.
JP5003333A 1993-01-12 1993-01-12 Method for calculating degree of similarity between words Pending JPH06208590A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5003333A JPH06208590A (en) 1993-01-12 1993-01-12 Method for calculating degree of similarity between words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5003333A JPH06208590A (en) 1993-01-12 1993-01-12 Method for calculating degree of similarity between words

Publications (1)

Publication Number Publication Date
JPH06208590A true JPH06208590A (en) 1994-07-26

Family

ID=11554431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5003333A Pending JPH06208590A (en) 1993-01-12 1993-01-12 Method for calculating degree of similarity between words

Country Status (1)

Country Link
JP (1) JPH06208590A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012108006A1 (en) * 2011-02-08 2012-08-16 富士通株式会社 Search program, search apparatus, and search method
WO2013021875A1 (en) * 2011-08-08 2013-02-14 日本電気株式会社 System for assessing association among data, method for assessing association among data, and recording medium
JP2013125442A (en) * 2011-12-15 2013-06-24 Nec Corp Consistency determining system, method and program
CN103853701A (en) * 2012-11-30 2014-06-11 中国科学院声学研究所 Neural-network-based self-learning semantic detection method and system
US20230081737A1 (en) * 2019-06-28 2023-03-16 Capital One Services, Llc Determining data categorizations based on an ontology and a machine-learning model

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0439706A (en) * 1990-06-05 1992-02-10 Mitsubishi Electric Corp Nc program generating method
JPH04114277A (en) * 1990-09-04 1992-04-15 Matsushita Electric Ind Co Ltd Information retrieving device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0439706A (en) * 1990-06-05 1992-02-10 Mitsubishi Electric Corp Nc program generating method
JPH04114277A (en) * 1990-09-04 1992-04-15 Matsushita Electric Ind Co Ltd Information retrieving device

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012108006A1 (en) * 2011-02-08 2012-08-16 富士通株式会社 Search program, search apparatus, and search method
JP5510563B2 (en) * 2011-02-08 2014-06-04 富士通株式会社 Search program, search device, and search method
WO2013021875A1 (en) * 2011-08-08 2013-02-14 日本電気株式会社 System for assessing association among data, method for assessing association among data, and recording medium
JPWO2013021875A1 (en) * 2011-08-08 2015-03-05 日本電気株式会社 Data relevance determination system, data relevance determination method, and recording medium
JP2013125442A (en) * 2011-12-15 2013-06-24 Nec Corp Consistency determining system, method and program
CN103853701A (en) * 2012-11-30 2014-06-11 中国科学院声学研究所 Neural-network-based self-learning semantic detection method and system
US20230081737A1 (en) * 2019-06-28 2023-03-16 Capital One Services, Llc Determining data categorizations based on an ontology and a machine-learning model

Similar Documents

Publication Publication Date Title
US6308149B1 (en) Grouping words with equivalent substrings by automatic clustering based on suffix relationships
Pal et al. Word sense disambiguation: A survey
Sharma et al. Stemming algorithms: a comparative study and their analysis
US5406480A (en) Building and updating of co-occurrence dictionary and analyzing of co-occurrence and meaning
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US7783640B2 (en) Document summarization
US5227971A (en) Apparatus for and method of selecting a target language equivalent of a predicate word in a source language word string in a machine translation system
JPH0675992A (en) Limited-state transducer in related work pattern for indexing and retrieving text
JPH0242572A (en) Preparation/maintenance method for co-occurrence relation dictionary
JPH09128396A (en) Preparation method for bilingual dictionary
US20030065658A1 (en) Method of searching similar document, system for performing the same and program for processing the same
US7676358B2 (en) System and method for the recognition of organic chemical names in text documents
JPH03172966A (en) Similar document retrieving device
Dahab et al. A comparative study on Arabic stemmers
Medelyan et al. Thesaurus-based index term extraction for agricultural documents
Haroon Comparative analysis of stemming algorithms for web text mining
Goldsmith et al. Automatic language-specific stemming in information retrieval
JPH06208590A (en) Method for calculating degree of similarity between words
CN111428031A (en) Graph model filtering method fusing shallow semantic information
Rachidi et al. Arabic user search query correction and expansion
Ahmed et al. Gold dataset for the evaluation of bangla stemmer
Grefenstette SEXTANT: Extracting semantics from raw text implementation details
US11520989B1 (en) Natural language processing with keywords
Al-Taani et al. Searching concepts and keywords in the Holy Quran
Selvaramalakshmi et al. A novel PSS stemmer for string similarity joins