JPH02129756A - Word collating device - Google Patents

Word collating device

Info

Publication number
JPH02129756A
JPH02129756A JP63284266A JP28426688A JPH02129756A JP H02129756 A JPH02129756 A JP H02129756A JP 63284266 A JP63284266 A JP 63284266A JP 28426688 A JP28426688 A JP 28426688A JP H02129756 A JPH02129756 A JP H02129756A
Authority
JP
Japan
Prior art keywords
word
synonym
unit
short
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63284266A
Other languages
Japanese (ja)
Inventor
Atsuo Kawai
河合 敦夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63284266A priority Critical patent/JPH02129756A/en
Publication of JPH02129756A publication Critical patent/JPH02129756A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To prevent a synonym dictionary from increasing its storage capacity and to execute word collation considering the meaning of a word by dividing the word to be collated into nouns consisting of short units, replacing a part or the whole of the word by its synonym and then collating the character string. CONSTITUTION:A word A is divided into nouns consisting of short units by a divided writing part 100. A synonym replacing part 200 searches the synonym of the noun of the short unit by using its internal synonym dictionary. Preferably, a long unit noun coupling plural short unit nouns is formed and the synonym of the long unit noun is obtd. from a synonym dictionary. The work formed by the synonym replacing part 200 and including a synonym in a part or the whole of the word and the original word A are sent to a decision part 300 and compared with a word B. Thereby, it is unnecessary to store all synonyms corresponding to respective appearing words in the synonym dictionary and whether the word is a synonym or not can be accurately decided while considering the meansings of individual nouns constituting the word.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は2つの単語を照合して両者の表わす概念が同じ
であるかどうかを認識する技術に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a technology for comparing two words and recognizing whether the two words express the same concept.

更に詳細には、本発明は自然言語で書かれた文書を計算
機で処理する際に、文字コードで記述された単語同士の
意味的な一致度を判定する装置に関するものであり、キ
ーワード自動生成装置9交書検索装置等に組み込んで用
いることができる。
More specifically, the present invention relates to a device for determining the degree of semantic matching between words written in character codes when a document written in a natural language is processed by a computer, and relates to an automatic keyword generation device. It can be used by incorporating it into a correspondence search device, etc.

例えば、文書検索において、文書データベース作成者は
文献の主題をキーワードと呼ばれる単語で表現し、検索
者は検索したい情報の概念をキーワードで置き換えて検
索する。したがって、データベース作成者の付与するキ
ーワードと、検索者が検索時に使用するキーワードが、
文字列として一致した場合には、検索が成功することに
なる。
For example, in a document search, a document database creator expresses the subject of a document using words called keywords, and a searcher searches by replacing the concept of the information he/she wants to search with the keyword. Therefore, the keywords assigned by the database creator and the keywords used by searchers when searching are
If the strings match, the search is successful.

しかし、作成者と検索者の付与する単語(キーワード)
は、たとえ同じ概念を表していても、同義語の存在や単
語の表記のずれにより、必ずしも文字列としては一致し
ないことがある。こうした場合には、2つの単語の表わ
す概念が同じであることを認識する単語照合装置が必要
となる。
However, the words (keywords) given by the creator and the searcher
Even if they represent the same concept, they may not necessarily match as character strings due to the existence of synonyms or discrepancies in word notation. In such a case, a word matching device is required that recognizes that two words express the same concept.

〔従来の技術〕[Conventional technology]

従来の単語照合装置において、文字コードで与えられた
単語同士が同義語であるかどうかの照合方式として次の
ような方式が用いられている。
In conventional word matching devices, the following method is used to check whether words given by character codes are synonymous.

(1)辞書中に記述しである同義語を参照する方式。(1) A method of referring to synonyms written in a dictionary.

これは、辞書中に同義語関係にあるすべての単語を記述
しておき、その辞書を参照することにより同義語である
かどうかの判定を行う方式である。
This is a method in which all words that are synonymous are written in a dictionary, and whether or not words are synonymous is determined by referring to the dictionary.

■ 文字列の一致の程度により、同義語であるかどうか
を判定する方式。
■ A method that determines whether or not the strings are synonyms based on the degree of matching.

これは、特に個々の名詞の意味を考慮することなく、単
語中の文字列レベルでの一致度に従い、照合を行うもの
である。
This method performs matching according to the degree of matching at the character string level within a word, without particularly considering the meaning of individual nouns.

(発明が解決しようとする課題) しかしながら、上記0)及び■の従来技術は、以下の問
題点がある。
(Problems to be Solved by the Invention) However, the conventional techniques 0) and 2 above have the following problems.

(′l)の手法は、前述したように、同義語のすべてを
辞書に記憶する方式である。この方式は、照合すべき単
語が短単位(日本語の単語として意味をなす最小単位の
単語)の名詞である場合は有効である。しかし、単語が
短単位名詞の結合によって作られる名詞連続複合語の場
合は、必ずしも有効ではない。この理由を以下に述べる
。一般に、科学技術分野などでは、短単位の名詞同士が
結合したり、これに、接頭辞、接尾辞が結合してできた
名詞連続複合語等が科学技術用語として使われる。
As mentioned above, the method ('l) is a method of storing all synonyms in a dictionary. This method is effective when the word to be matched is a short-unit noun (the smallest meaningful unit of a Japanese word). However, this is not necessarily effective if the word is a noun continuous compound word formed by combining short unit nouns. The reason for this will be explained below. Generally, in the field of science and technology, noun continuous compounds formed by combining short nouns, prefixes, and suffixes are used as science and technology terms.

こうした場合に、■短単位ごとで、同義語1表記の揺れ
が存在する。■短単位の名詞が結合する場合に、′  
、     “/′°等の記号や接頭辞。
In such cases, there is a fluctuation in the number of synonyms written in each short unit. ■When short unit nouns are combined, ′
, “/′° and other symbols and prefixes.

接尾辞等が名詞の間に入り込んで派生的な複合語を形成
する。■省略語等では、もとの複合語に比べると、短単
位の名詞中の文字列の一部がなかったり、短単位の名詞
そのものが省略されることがある。こうした■、■、■
の原因およびその組み合せにより、1つの概念を表す名
詞連続複合語(同義語〉が非常に多く存在することにな
る。こうした同義語を網羅して辞書に記述しておくこと
は、辞書作成、メンテナンスの点からも大きな工数がか
かるし、計算機の記憶容量も同義語の数だけ増大すると
いう欠点がある。
Suffixes etc. are inserted between nouns to form derived compounds. ■Compared to the original compound word, an abbreviated word may be missing some of the character strings in the short noun, or the short noun itself may be omitted. These ■, ■, ■
Due to the causes and combinations thereof, there are a large number of noun continuous compound words (synonyms) that express one concept.It is important to cover all these synonyms and write them in a dictionary. It also requires a large amount of man-hours, and the computer's storage capacity also increases by the number of synonyms.

また、■の方式では、辞書の記憶容量の増大や辞書メン
テナンスの問題は回避できる。しかし、文字列のレベル
での一致をみるため、文字列としては異なるが、意味が
同じ同義語(例えば、”li−二次電池”′、“li二
次電池”、“リチウム二次バッテリー′°)の判定はで
きないという欠点がある。
Furthermore, in the method (2), problems such as an increase in dictionary storage capacity and dictionary maintenance can be avoided. However, in order to match at the character string level, synonyms that are different as character strings but have the same meaning (for example, "li secondary battery", "li secondary battery", "lithium secondary battery") The disadvantage is that it is not possible to determine

従って、本発明は上記従来技術の問題点を解決し、多大
な辞書の記憶容量を必要とせず、しかも辞書作成及びメ
ンテナンスが容易で、精度良く単語照合が行える単語照
合装置を提供することを目的とする。
SUMMARY OF THE INVENTION Therefore, an object of the present invention is to solve the problems of the prior art described above, and to provide a word matching device that does not require a large storage capacity of a dictionary, is easy to create and maintain a dictionary, and can perform word matching with high accuracy. shall be.

(課題を解決するための手段〕 第1図は本発明の原理ブロック図である。(Means for solving problems) FIG. 1 is a block diagram of the principle of the present invention.

分かち書き部100は、照合すべき一方の単語(以下、
単語Aという)を日本語の単語として意味をなす最小単
位の単語である短単位の名詞に分割する。
The parting section 100 selects one of the words to be matched (hereinafter referred to as
Word A) is divided into short nouns, which are the smallest meaningful words in Japanese.

同義語置換部200は、同義語辞書を用いて単語の一部
又は全部を同義語に置換する。
The synonym replacement unit 200 replaces part or all of a word with a synonym using a synonym dictionary.

判定部30Gは、照合すべき単語及び一部又は全部に同
義語を含む単語を照合すべき他方の単語(以下、単語B
という)と比較することにより、単語同士が同義語であ
るかどうかを判定する。
The determining unit 30G selects the word to be matched and the word that includes a synonym in part or all as the other word to be matched (hereinafter, word B).
) to determine whether the words are synonymous.

〔作用〕[Effect]

単HAは分かち書き部100で、短単位の8語に分割さ
れる。例えば、単語Aがat T a2 、a3の短単
位の名詞から構成されているときは、aa2 、a3に
それぞれ分割される。同義語置換部200は内部の同義
語辞書を用いて短単位の名詞の同義語を探す。例えば、
atの同6語にaI′があり、a3の同義語にa3′が
あるとする。これにより、単語Aに関しては、a、’ 
、al 、a3なる同義語の候補と、at 、al 、
a3’ なる同義語の候補と、al’+azsa3’な
る同義語の候補が得られる。ここで、好ましくは、短単
位名詞を複数結合させた長単位名詞を作成して、同義語
辞書から長単位名詞の同義語(例えば、alとalに対
するa+’、a2’)を得る。
The single HA is divided into eight short words by the dividing section 100. For example, when word A is composed of short unit nouns at T a2 and a3, it is divided into aa2 and a3, respectively. The synonym substitution unit 200 uses an internal synonym dictionary to search for synonyms of short unit nouns. for example,
Assume that aI' is one of the six same words of at, and a3' is a synonym of a3. As a result, for word A, a,'
, al , a3 and at , al ,
A synonym candidate a3' and a synonym candidate al'+azsa3' are obtained. Here, preferably, a long unit noun is created by combining a plurality of short unit nouns, and synonyms of the long unit noun (for example, al and a+', a2' for al) are obtained from a synonym dictionary.

以上のようにして同義語置換部200で作成された、一
部又は全部に同義語を含む単語(上記の例Fはal ’
  al 、a3’  :aI 、al、a3’  :
aI  、al、ax’ )及び単語Aを判定部300
に送り、単語Bと比較する。判定部300は、例えば比
較結果である一致度が所定の同値以上であれば、単語A
とBとは同義語であるという照合結果を出力する。例え
ば、aI * a2* a3からなる単語Aそのものと
、単語Bとの比較では所定の閾値に達していない場合で
も、al ’ 、 az 。
Words that include synonyms in part or in whole, created by the synonym replacement unit 200 as described above (the above example F is al'
al, a3': aI, al, a3':
aI, al, ax') and word A by the determining unit 300
and compare it with word B. For example, if the matching degree as a comparison result is equal to or higher than a predetermined equivalence value, the determination unit 300 determines that the word A
A comparison result indicating that and B are synonyms is output. For example, even if the comparison between the word A consisting of aI*a2*a3 and the word B does not reach a predetermined threshold, al', az.

a31 からなる単語が所定の閾値を越えた場合には、
単HAとBとは同義語であると判定する。
If the word consisting of a31 exceeds a predetermined threshold,
It is determined that single HA and B are synonymous.

このように、出現する単語それぞれに対してすべての同
義語を同義語辞書に記憶させておく必要がなく、単語全
体の文字列だけではなく、その単語を構成している個々
の名詞の意味を考慮して、同義語であるかどうかを精度
良く判定することができる。
In this way, there is no need to store all synonyms for each word in a synonym dictionary, and it is possible to store not only the string of the entire word but also the meaning of the individual nouns that make up the word. Taking this into account, it is possible to accurately determine whether or not they are synonyms.

〔実施例〕〔Example〕

以下、本発明の一実施例を図面を参照して詳細に説明す
る。
Hereinafter, one embodiment of the present invention will be described in detail with reference to the drawings.

第2図は、本発明の一実施例のハードウェア構成を示す
ブロック図である。同図において、入力装置1は文字列
で記述された単語を読み込むものである。入力装置1は
例えばキーボードで構成しても良いし、図示するハード
ウェア構成がホストコンピュータ等に接続され、ここか
ら文字列が与えられるときはインタフェース回路で構成
する。
FIG. 2 is a block diagram showing the hardware configuration of one embodiment of the present invention. In the figure, an input device 1 reads words written in character strings. The input device 1 may be configured with a keyboard, for example, or may be configured with an interface circuit when the illustrated hardware configuration is connected to a host computer or the like and a character string is supplied from there.

出力装置2は照合した2つの単語が同義語であるかどう
かの照合結果を出力するもので、例えばデイスプレィや
プリンタ等で構成する。中央処理装置(以下、単にCP
JJという)3は、単語照合のプログラムを実行する。
The output device 2 outputs the result of the comparison to determine whether or not the two words are synonymous, and is composed of, for example, a display or a printer. Central processing unit (hereinafter simply CP)
JJ) 3 executes a word matching program.

このプログラムは、後で詳しく説明するが、分かち書き
処理、短単位置換処理、長単位@換処理及び−政変計算
処理を含む。
This program, which will be explained in detail later, includes a separation process, a short unit replacement process, a long unit @ conversion process, and a -political change calculation process.

単語テーブル4は、入力装置1から与えられた照合すべ
き単語を格納するものである。短単位テーブル5は、照
合する一方の単語の分かち畠き結果を格納する。すなわ
ち、短単位テーブル5は、照合する一方の単語を、日本
語として意味をなす最小単位の単語に分割した結果を格
納する。候補テーブル6は、単語の一部または全部を同
義語で置換して得られる単語を格納する。プログラムメ
モリ7は、CPU3が実行する単語照合のプログラムを
格納するもので、例えばROMで構成する。
The word table 4 stores words to be matched given from the input device 1. The short unit table 5 stores the dividing result of one word to be compared. That is, the short unit table 5 stores the results of dividing one of the words to be compared into minimum unit words that have meaning in Japanese. The candidate table 6 stores words obtained by replacing part or all of a word with a synonym. The program memory 7 stores a word matching program executed by the CPU 3, and is composed of, for example, a ROM.

作業メモリ8は、単語照合のプログラムを実行する際に
使用する作業メモリである。この作業メモリ8と、単語
テーブル4.短単位テーブル5及び候補テーブル6とは
、例えばRAMのメモリ空間上に展開される。日本語辞
19は短単位名詞、接頭辞・接尾辞、記号からなる日本
語辞書であり、例えばハードディスク上に構成される。
The working memory 8 is a working memory used when executing a word matching program. This working memory 8 and the word table 4. The short unit table 5 and candidate table 6 are developed, for example, in a RAM memory space. The Japanese dictionary 19 is a Japanese dictionary consisting of short unit nouns, prefixes/suffixes, and symbols, and is configured on, for example, a hard disk.

同義語辞書10は、同義語関係にある単語を記述した同
義語辞書であり、例えばハードディスク上に構成される
The synonym dictionary 10 is a synonym dictionary that describes words having a synonym relationship, and is configured, for example, on a hard disk.

第3図は、第2図に示す実施例の機能ブロック図である
。単語テーブル4は、照合すべき一方の単語を記憶する
単語テーブルA11及び他方の単語を格納する単語テー
ブル812とを具備する。
FIG. 3 is a functional block diagram of the embodiment shown in FIG. 2. The word table 4 includes a word table A11 that stores one word to be compared and a word table 812 that stores the other word.

CPU3は、分かち書き部16.短単位置換部17、良
単位置換部18.及び−政変計算部19の機能を具備し
て構成される。分かち書き部16は、日本語辞書9を参
照して、単語テーブルA11に記憶されている単語を短
単位の名詞に分割して、短単位テーブル5に格納する。
The CPU 3 has a parting section 16. Short unit replacement section 17, good unit replacement section 18. and - It is configured with the functions of a political change calculation section 19. The parting section 16 refers to the Japanese dictionary 9, divides the words stored in the word table A11 into short noun units, and stores the nouns in the short unit table 5.

短単位置換部17は、短単位テーブル5中の短単位名詞
をキーとして、短単位ごとに同s1語辞110中の短単
位同義語辞書20を検索する。そして、短単位名詞に同
II語が存在した場合には、短単位置換部17は、短単
位テーブル5中の短単位の名詞を同義語に置換した単語
を生成し、もとの単語(単語テーブルA11中の単語)
とともに候補テーブル6中の参照番号13で示す候補テ
ーブル1中に格納する。民事位置換部18は、候補テー
ブル1中の各単語中の短単位名詞を複数結合させた民事
位名詞を作り、これをキーとして民事位同義訊辞綱10
中の民事位同義語辞1121を検索する。そして、民事
位名詞にJf51義語が存在した場合には、民事位置換
部18は、その民事位名詞を同@語で置換した単語を生
成する。そして、民事位置換部18は、候補テーブル1
中の単語及びその艮単位名詞ごとに同義語に置換した単
語を、参照番号14で示す候補テーブル2に格納する。
The short unit replacement unit 17 searches the short unit synonym dictionary 20 in the s1 dictionary 110 for each short unit using the short unit noun in the short unit table 5 as a key. Then, if the same II word exists in the short unit noun, the short unit replacement unit 17 generates a word in which the short unit noun in the short unit table 5 is replaced with a synonym, and replaces the original word (word words in table A11)
It is also stored in candidate table 1 indicated by reference number 13 in candidate table 6. The civil position substitution unit 18 creates a civil position noun by combining a plurality of short unit nouns in each word in the candidate table 1, and uses this as a key to create a civil position synonym dictionary 10.
Search for civil position synonym dictionary 1121 inside. If a Jf51 meaning word exists in a civil position noun, the civil position substitution unit 18 generates a word by replacing the civil position noun with the same @ word. Then, the civil position replacement unit 18 converts the candidate table 1
The words inside and the words replaced with synonyms for each unit noun are stored in the candidate table 2 indicated by reference number 14.

−政変計算部19は、候補テーブル2のそれぞれの単語
と単語テーブル4中の単語テーブル812の単語との間
での一致度を計算し、その結果を単語一致度テーブル1
5(例えば、第2図の作業メモリ8上)へ格納する。一
致度は(式1)により計算する。
- The political change calculation unit 19 calculates the degree of matching between each word in the candidate table 2 and the word in the word table 812 in the word table 4, and applies the result to the word matching table 1.
5 (for example, on the working memory 8 in FIG. 2). The degree of matching is calculated using (Equation 1).

そして、一致度の最大値があらかじめ決められた閾値以
上であれば、同義語であると判定する。
Then, if the maximum value of the degree of matching is greater than or equal to a predetermined threshold, it is determined that the words are synonymous.

(一致度)− 次に、本実施例の動作を、第4図に示す処理過程の様子
を参照して説明する。図示する例では、照合すべき2つ
の単語“高速・省力型検索装置゛。
(Degree of Matching) - Next, the operation of this embodiment will be explained with reference to the processing process shown in FIG. In the illustrated example, the two words to be matched are "high-speed and labor-saving search device."

゛高速省力検索システム”は、それぞれ、単語テーブル
A11.単語テーブル812へ格納されている。このう
ち単語Aを、分かち書き部16により、短単位の名詞、
接頭辞・接尾辞、記号へ分割し、分割した結果を短単位
テーブル5に格納する。
The "high-speed labor-saving search system" is stored in the word table A11 and the word table 812, respectively. Among these, the word A is divided into short unit nouns,
It is divided into prefixes, suffixes, and symbols, and the divided results are stored in the short unit table 5.

次に、短単位置換部17は、まず、短単位テーブル5中
の短単位名詞をキーとして、短単位名詞ごとに同義語を
技術した短単位同義語辞書20を検索する。ここで、短
単位同義語辞1120は、第5図に示すように、見出し
語(短単位名詞キーワード)と見出し語の同義語を対応
付けて記憶している。単語Aからは、「装置」なる短単
位名詞の同義語として「システム」があることが規定さ
れている。そして、短単位置換部17は、この短単位名
詞「装置」を同義語「システム」で置換した単語、すな
わち[高速・省力型検索システム」を生成する。そして
、短単位置換部17はもとの単語及び置換した単語を、
候補テーブル1へ格納する。
Next, the short unit replacement unit 17 first searches the short unit synonym dictionary 20 containing synonyms for each short unit noun using the short unit noun in the short unit table 5 as a key. Here, as shown in FIG. 5, the short unit synonym dictionary 1120 stores headwords (short unit noun keywords) and synonyms of the headword in association with each other. From word A, it is specified that "system" is a synonym for the short unit noun "device". Then, the short unit replacement unit 17 generates a word by replacing the short unit noun "apparatus" with the synonym "system", that is, "high-speed/labor-saving search system". Then, the short unit replacement unit 17 replaces the original word and the replaced word with
Store in candidate table 1.

次に、民事位置換部18は、短単位名詞を複数結合させ
た民事位名詞を作り、この民事位名詞をキーとして、民
事位同義語辞書1Bを検索する。
Next, the civil position substitution unit 18 creates a civil position noun by combining a plurality of short unit nouns, and searches the civil position synonym dictionary 1B using this civil position noun as a key.

ここで、民事位同!I語辞書21は、第6図に示すよう
に、見出し語(民事位名詞キーワード)と見出し語の同
義語を対応付けて記憶している。図示する民事位同ai
m辞書21の例では、単1)Aにおける民事位の同義語
がない。従って、第4図に示すように、候補テーブル1
と候補テーブル2の内容は同じとなる。そして、−政変
計算部19は候補テーブル2の単語を単語テーブルB1
2の単語Bとの皿で上記(1)式に従い、一致度を計算
する。
Here, civil rank is the same! As shown in FIG. 6, the I-word dictionary 21 stores headwords (civil position noun keywords) and synonyms of the headword in association with each other. Illustrated civil rank ai
In the example of the m dictionary 21, there is no synonym for the civil position in unit 1)A. Therefore, as shown in FIG.
and the contents of candidate table 2 are the same. Then, the political change calculation unit 19 converts the words of the candidate table 2 into the word table B1.
The degree of matching is calculated according to the above equation (1) for the dish with word B of No. 2.

例えば、候補テーブル2中の[高速・省力型検索装置」
と単語8との照合の場合、これと11語テーブルB12
中の[高速省力検索システム」との間の一致文字数は「
高」・「速」・「省」・r力」・「検」・[索Jの6つ
であり、両方とも10の文字数で構成されているので、
一致度は0,36となる。一方、[高速・省力型検索シ
ステム」と単語との照合の場合、同様にして一致度を求
めると、0.83となる。例えば、一致度の閾値を0.
8とした場合、「高速・省力型検索システム」の照合は
0.83でこの閘値をこえる。従って、単mAと8とは
同義°語であると判定できる。
For example, [high-speed/labor-saving search device] in candidate table 2.
In the case of matching with word 8, this and 11 word table B12
The number of matching characters between "High-speed labor-saving search system" is "
There are 6 types: ``High'', ``Speed'', ``Relief'', ``Riki'', ``Detection'', and [Search J, both of which are composed of 10 characters, so
The degree of coincidence is 0.36. On the other hand, in the case of matching the word ``high-speed/labor-saving search system'', the degree of matching is found to be 0.83 in the same manner. For example, set the matching degree threshold to 0.
When it is set to 8, the matching value of the "high-speed, labor-saving search system" exceeds this threshold at 0.83. Therefore, it can be determined that mA and 8 are synonymous words.

第7図は別の処理過程の様子を示す図である。FIG. 7 is a diagram showing another process.

照合すべき2つの単語“小型化シンクロトロン放射施設
′″と“小型SOR施設”は、それぞれ@語テーブルA
11.単語テーブルB12へ格納されている。単mAを
、分かち書き部16により、短単位の名詞、接頭辞・接
尾辞、記号へ分割し、その結果を短単位テーブル5に格
納する。次に、短単位置換部17は、まず、短単位テー
ブル5の短単位名詞をキーとして、第5図の短単位同義
語辞書を検索する。ここでは、置換すべき短単位の同義
語がないので、短単位テーブル5と候補テーブル1の内
容は同じとなる。次に、長単位置換部18は、短単位名
詞を複数結合させた民事位名詞を作り、この民事位名詞
をキーとして、第6図の民事位同義語辞書を検索する。
The two words to be matched, “miniature synchrotron radiation facility’” and “miniature SOR facility,” are respectively @word table A.
11. It is stored in the word table B12. The single mA is divided into short unit nouns, prefixes/suffixes, and symbols by the dividing unit 16, and the results are stored in the short unit table 5. Next, the short unit replacement unit 17 first searches the short unit synonym dictionary of FIG. 5 using the short unit noun of the short unit table 5 as a key. Here, since there is no synonym for the short unit to be replaced, the contents of short unit table 5 and candidate table 1 are the same. Next, the long unit substitution unit 18 creates a civil position noun by combining a plurality of short unit nouns, and uses this civil position noun as a key to search the civil position synonym dictionary shown in FIG. 6.

そして、長里位名詞を同義語で置換した単語を生成する
。そして、もとの単語および置換した単語を、候補テー
ブル2へ格納する。−政変計算部19は、候補テーブル
2の単語と単語テーブル812との間での一致度を計算
し、その結果を単語一致度テーブル15へ格納する。そ
して、単語一致度テーブル15に閾値(例えば0.8)
以上である組み合せ(“小型化SOR施設″と“小型S
OR施設”)が存在するので同義語であると判定する。
Then, a word is generated by replacing the Nagasato noun with a synonym. Then, the original word and the replaced word are stored in the candidate table 2. - The political change calculation unit 19 calculates the degree of matching between the words in the candidate table 2 and the word table 812, and stores the result in the word matching degree table 15. Then, a threshold value (for example, 0.8) is added to the word matching table 15.
A combination of the above (“compact SOR facility” and “compact SOR facility”)
Since "OR facility") exists, it is determined that they are synonyms.

(発明の効果) 以上説明したように、本発明では、照合すべき単語を短
単位の名詞に分割し、同義語辞書を用いて単語の一部ま
たは全部を同義語に置換し、その後に文字列照合を行う
ことにより、もとの単語同士が同義語であるかを判定す
る。従って、出現する単語それぞれに対して、その同義
語のすべてを辞書に記述する必要がないため、同義語辞
書の記憶容量の増大や辞書メンテナンスの工数増大の問
題は回避できるという点、単語の文字列だけではなくそ
の意味を考慮した単語照合が可能であるという点で、効
果がある。
(Effects of the Invention) As explained above, in the present invention, words to be matched are divided into short nouns, part or all of the words are replaced with synonyms using a synonym dictionary, and then By performing column matching, it is determined whether the original words are synonymous. Therefore, it is not necessary to write all of the synonyms for each word that appears in the dictionary, so it is possible to avoid the problems of increasing the storage capacity of synonym dictionaries and increasing the man-hours of dictionary maintenance. This is effective in that it is possible to perform word matching that takes into account not only the columns but also their meanings.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の原理ブロック図、 第2図は本発明の一実施例のハードウェア構成のブロッ
ク図、 第3図は第2図に示す実施例の機能ブロック図、第4図
は本発明の実施例の処理過程を示す図、第5図は短単位
同義語辞120の一例を示す図、第6図は民事位同義語
辞書21の一例を示す図、及び 第7図は本発明の実施例の別の処理過程を示す図である
。 1・・・入力装置、2・・・出力装置、3・・・CPU
、4・・・単語テーブル、5・・・短単位テーブル、6
・・・候補テーブル、7・・・プログラムメモリ、8・
・・作業メモリ、9・・・日本語辞書、10・・・同義
語辞書、11・・・単語テーブルA112・・・単語テ
ーブルB113・・・候補テーブル1.14・・・候補
テーブル2.15・・・単語一致度テーブル、16・・
・分かち書き部、17・・・短単位置換部、18・・・
民事位置換部、19・・・−政変計算部、20・・・短
単位同義語辞書、21・・・民事位同義語辞書、100
・・・分かち書き部、200・・・同義語置換部、30
0・・・判定部。 本発明の原理ブロック図 第1図 本発明の一実施例のハードウェア構成のグロック図第2
F!J 第2図に示す実施例の機能ブロック口 笛1M /:*語の区切り 本発明の実施例の処理過程を示す国 策4図 短単位同義語辞書20の一例全示す関
Fig. 1 is a block diagram of the principle of the present invention, Fig. 2 is a block diagram of the hardware configuration of an embodiment of the present invention, Fig. 3 is a functional block diagram of the embodiment shown in Fig. 2, and Fig. 4 is a block diagram of the embodiment of the present invention. FIG. 5 is a diagram showing an example of the short unit synonym dictionary 120, FIG. 6 is a diagram showing an example of the civil unit synonym dictionary 21, and FIG. 7 is a diagram showing the processing process of the embodiment of the invention. It is a figure which shows another processing process of an Example. 1... Input device, 2... Output device, 3... CPU
, 4... Word table, 5... Short unit table, 6
...Candidate table, 7.Program memory, 8.
...Working memory, 9...Japanese dictionary, 10...Synonym dictionary, 11...Word table A112...Word table B113...Candidate table 1.14...Candidate table 2.15 ...Word matching table, 16...
- Breaking section, 17...Short unit replacement section, 18...
Civil rank replacement department, 19... - Political change calculation department, 20... Short unit synonym dictionary, 21... Civil rank synonym dictionary, 100
... Separation section, 200 ... Synonym replacement section, 30
0... Judgment section. Figure 1 is a block diagram of the principle of the present invention. Figure 2 is a block diagram of the hardware configuration of an embodiment of the present invention.
F! J Functional block whistle 1M of the embodiment shown in FIG.

Claims (1)

【特許請求の範囲】 照合すべき一方の単語を日本語の単語として意味をなす
最小単位の単語である短単位の名詞に分割する分かち書
き部と、 同義語辞書を用いて単語の一部又は全部を同義語に置換
する同義語置換部と、 照合すべき単語及び一部又は全部に同義語を含む単語を
照合すべき他方の単語と比較することにより、単語同士
が同義語であるかどうかを判定する判定部とを備えたこ
とを特徴とする単語照合装置。
[Claims] A separating section that divides one word to be matched into short nouns, which are the smallest meaningful words as Japanese words; A synonym substitution unit that replaces words with synonyms, and a word to be matched and a word that partially or completely includes a synonym are compared with the other word to be matched to determine whether or not the words are synonyms. A word matching device comprising: a determining unit that makes a determination.
JP63284266A 1988-11-10 1988-11-10 Word collating device Pending JPH02129756A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63284266A JPH02129756A (en) 1988-11-10 1988-11-10 Word collating device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63284266A JPH02129756A (en) 1988-11-10 1988-11-10 Word collating device

Publications (1)

Publication Number Publication Date
JPH02129756A true JPH02129756A (en) 1990-05-17

Family

ID=17676306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63284266A Pending JPH02129756A (en) 1988-11-10 1988-11-10 Word collating device

Country Status (1)

Country Link
JP (1) JPH02129756A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0496176A (en) * 1990-08-08 1992-03-27 Ricoh Co Ltd Document retrieving device
US5469355A (en) * 1992-11-24 1995-11-21 Fujitsu Limited Near-synonym generating method
JP2000076293A (en) * 1998-09-02 2000-03-14 Nec Corp Abbreviated name extraction device/method and record medium
US20090187629A1 (en) * 2008-01-17 2009-07-23 International Business Machines Corporation Embedding a unque serial number into the content of an email for tracking information dispersion
JP2011511341A (en) * 2008-01-16 2011-04-07 アビニシオ テクノロジー エルエルシー Archive management method for approximate string matching
US9037589B2 (en) 2011-11-15 2015-05-19 Ab Initio Technology Llc Data clustering based on variant token networks
US9607103B2 (en) 2008-10-23 2017-03-28 Ab Initio Technology Llc Fuzzy data operations

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0496176A (en) * 1990-08-08 1992-03-27 Ricoh Co Ltd Document retrieving device
US5469355A (en) * 1992-11-24 1995-11-21 Fujitsu Limited Near-synonym generating method
JP2000076293A (en) * 1998-09-02 2000-03-14 Nec Corp Abbreviated name extraction device/method and record medium
US9563721B2 (en) 2008-01-16 2017-02-07 Ab Initio Technology Llc Managing an archive for approximate string matching
JP2011511341A (en) * 2008-01-16 2011-04-07 アビニシオ テクノロジー エルエルシー Archive management method for approximate string matching
US8775441B2 (en) 2008-01-16 2014-07-08 Ab Initio Technology Llc Managing an archive for approximate string matching
US8392511B2 (en) * 2008-01-17 2013-03-05 International Business Machines Corporation Embedding a unique serial number into the content of an email for tracking information dispersion
US20090187629A1 (en) * 2008-01-17 2009-07-23 International Business Machines Corporation Embedding a unque serial number into the content of an email for tracking information dispersion
US9607103B2 (en) 2008-10-23 2017-03-28 Ab Initio Technology Llc Fuzzy data operations
US11615093B2 (en) 2008-10-23 2023-03-28 Ab Initio Technology Llc Fuzzy data operations
US9037589B2 (en) 2011-11-15 2015-05-19 Ab Initio Technology Llc Data clustering based on variant token networks
US9361355B2 (en) 2011-11-15 2016-06-07 Ab Initio Technology Llc Data clustering based on candidate queries
US10503755B2 (en) 2011-11-15 2019-12-10 Ab Initio Technology Llc Data clustering, segmentation, and parallelization
US10572511B2 (en) 2011-11-15 2020-02-25 Ab Initio Technology Llc Data clustering based on candidate queries

Similar Documents

Publication Publication Date Title
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
JP3196868B2 (en) Relevant word form restricted state transducer for indexing and searching text
KR101004515B1 (en) Method and system for retrieving confirming sentences
JP4911028B2 (en) Word translation device, translation method, and translation program
JP2742115B2 (en) Similar document search device
JPH10240759A (en) Retrieval device
JP2006506692A (en) A new computer-aided memory translation scheme based on template automata and latent semantic indexing principle
JP3220865B2 (en) Full text search method
JPS592125A (en) "kana" (japanese syllabary) "kanji" (chinese character) converting system
US20220121666A1 (en) Creating a trained database
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
JPH02129756A (en) Word collating device
JP3303881B2 (en) Document search method and apparatus
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JPH04156663A (en) Sentence compressing device
JPH04139580A (en) Keyword searching system
JPH0228769A (en) Automatic key word generating device
JPS62196726A (en) Semantic collating device
JP2778025B2 (en) Learning Co-occurrence Dictionary
JP2001243245A (en) Similar sentence retrieving method, its device and recording medium storing similar sentence retrieval program
JP3376996B2 (en) Full text search method
JPH0320866A (en) Text base retrieval system
JPH0827803B2 (en) Text-based search method
JPH0793345A (en) Document retrieval device