JPH0981578A - Likeness retrieval method based on viewpoint - Google Patents

Likeness retrieval method based on viewpoint

Info

Publication number
JPH0981578A
JPH0981578A JP7231589A JP23158995A JPH0981578A JP H0981578 A JPH0981578 A JP H0981578A JP 7231589 A JP7231589 A JP 7231589A JP 23158995 A JP23158995 A JP 23158995A JP H0981578 A JPH0981578 A JP H0981578A
Authority
JP
Japan
Prior art keywords
viewpoint
database
search
similar
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7231589A
Other languages
Japanese (ja)
Other versions
JP3422396B2 (en
Inventor
Kaname Kasahara
要 笠原
Kazumitsu Matsuzawa
和光 松澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP23158995A priority Critical patent/JP3422396B2/en
Publication of JPH0981578A publication Critical patent/JPH0981578A/en
Application granted granted Critical
Publication of JP3422396B2 publication Critical patent/JP3422396B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide the likeness retrieval method based on the viewpoint which retrieves synonyms based on the viewpoint to perform flexible likeness retrieval in accordance with the retrieval condition. SOLUTION: An element A as the retrieval object and a viewpoint (a) of retrieval are designated (step S1), and it is checked whether the viewpoint (a) is included in the feature concept of the element A or not (step S13) and if it is included, the element A is added to a retrieval candidate α (step S14). This processing is performed for all elements, and the similarities between the element A and elements in the retrieval candidate α are calculated (step S16), and the element having the highest similarity in the retrieval candidate is outputted as the likeness retrieval result (step S17).

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、単語の意味属性の
データベースを用いて単語の類似性に基づいて類似語を
検索する類似検索方法に関し、更に詳しくは、検索にお
いて重視する特徴概念である観点に基づいて類似語を検
索する観点に基づく類似検索方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a similarity retrieval method for retrieving similar words based on the similarity of words using a database of word semantic attributes, and more specifically, a feature concept to be emphasized in retrieval. The present invention relates to a similarity search method based on the viewpoint of searching for similar words based on.

【0002】[0002]

【従来の技術】近年、WSに代表されるコンピュータの
処理能力の飛躍的な向上と、大容量で安価な記憶媒体の
出現に起因して、各種のデータベースが数多く作成、使
用されるに至った。このようなデータベースについて、
データベースを構成する個々のデータ(以下、要素と称
する)相互間、或いは外部から入力されるデータと要素
との間の類似性を判別することにより要素を検索、分類
することが行われている。例えば、種々の文献に関する
情報を蓄積した文献データベースの場合、指定した文献
に類似した文献があるか否かを検索する。また、特許明
細書その他のテキストデータの集合については、内容が
類似したものを収集、分類することも頻繁に行われてい
る。更に、画像データベースの類似検索を行う際には、
個々の要素に画像の特徴語を複数付与し、この特徴語を
用いた類似検索が行われている。
2. Description of the Related Art In recent years, various databases have been created and used due to the dramatic improvement in the processing capacity of a computer typified by WS and the advent of a large-capacity and inexpensive storage medium. . For such a database,
Elements are searched and classified by determining the similarity between individual data (hereinafter, referred to as elements) forming a database or between data and an element input from the outside. For example, in the case of a document database storing information on various documents, a search is made to determine whether there is a document similar to the specified document. In addition, regarding a set of text data such as a patent specification, those having similar contents are often collected and classified. Furthermore, when performing a similar search of the image database,
A plurality of characteristic words of an image are given to each element, and a similarity search using this characteristic word is performed.

【0003】このような類似検索を行う際には要素間の
類似性判別が必要であり、その代表的な例として特徴概
念を用いる方法があるのでこれについて説明する。この
方法は、データベース中の各要素に特徴概念を付与し、
これについての比較を行うことにより類似した要素を判
別する方法である。ここで言う特徴概念とは、キーワー
ド、属性とも呼ばれ、要素の特徴を表す単語により表現
される。動物に関するデータベースの場合、要素『馬』
については、その特徴を表す『蹄』、『たてがみ』、
『家畜』、『走る』その他の単語が特徴概念となり得
る。全文検索と呼ばれる技術においては、テキストに含
まれる単語のそれぞれをテキストの特徴概念としてテキ
スト同士の類似性を判別することが行われる。
When performing such a similarity search, it is necessary to determine the similarity between elements, and as a typical example, there is a method using a characteristic concept, which will be described. This method gives each element in the database a characteristic concept,
This is a method of discriminating similar elements by making a comparison about this. The feature concept here is also called a keyword or an attribute, and is expressed by a word representing the feature of an element. In the case of a database on animals, the element "horse"
About, "hoof", "mane",
"Livestock", "run" and other words can be characteristic concepts. In a technique called full-text search, similarity between texts is determined by using each word included in the text as a characteristic concept of the text.

【0004】このような特徴概念を複数付与された要素
同士の類似性の判別には種々の方法が存在する。例え
ば、共通の特徴概念が比較する要素中に存在するときは
類似度1を与え、存在しない時には類似度0を与える方
法や、比較する要素中の一致する特徴概念の数に比例し
て類似度を与える方法その他の方法がある。
There are various methods for determining the similarity between elements to which a plurality of such characteristic concepts are added. For example, a method of giving a similarity of 1 when a common feature concept exists in the elements to be compared and a similarity of 0 when there is no common feature concept, or a similarity in proportion to the number of matching feature concepts in the elements to be compared. There are other ways to give.

【0005】上記特徴概念に基づく要素類似性判別を用
いて類似要素の検索を行うことが行われている。その一
般的な方法としては、要素或いは外部から入力される特
徴概念を付与されたデータと類似した要素をデータベー
スから検索する際に、その要素とデータベース中の全て
の要素との類似度を算出し、類似度の高い要素を検索結
果として出力する方法がある。
[0005] A similar element is searched by using the element similarity determination based on the characteristic concept. The general method is to calculate the degree of similarity between an element or all the elements in the database when searching the database for an element or an element similar to the data to which the characteristic concept input from the outside is added. , There is a method of outputting an element having a high degree of similarity as a search result.

【0006】[0006]

【発明が解決しようとする課題】上述した従来の類似検
索方法には、要素間の類似の関係が状況に応じて変動す
るにもかかわらず、固定的な検索結果しか与えることが
できず、検索の状況に応じた柔軟な類似検索を行えない
問題点がある。単語『林檎』、『南天』、『鯛』、
『猿』、『蜜柑』、『唐辛子』それぞれが特徴概念を保
有するデータベースを例にとり、この問題を説明する。
The above-described conventional similarity search method can only give a fixed search result even though the similar relationship between elements varies depending on the situation. There is a problem in that a similar similarity search cannot be performed according to the situation. The words "apple", "nanten", "sea bream",
This problem will be explained by using a database in which "monkey", "tangerine", and "chili pepper" have characteristic concepts.

【0007】図6は、単語のデータベースの一例であ
る。要素番号1の『林檎』に類似した要素をこのデータ
ベース中から検索する際には、特徴概念を比較し要素間
の類似度を求め、類似度に基づいて検索結果を出力する
のが一般的である。例えば、比較する要素同士で共通な
要素の数を類似度とした場合、『林檎』に対する類似度
は、『南天』が2、『猿』が1、『蜜柑』が5、『唐辛
子』が2となり、類似度の最も大きな『蜜柑』を検索結
果として出力する。
FIG. 6 shows an example of a word database. When searching the database for an element similar to "Ringo" with element number 1, it is common to compare the characteristic concepts to find the similarity between the elements and output the search result based on the similarity. is there. For example, if the number of common elements among the compared elements is the similarity, the similarity to “apple” is 2 for “nanten”, 1 for “monkey”, 5 for “tangerine”, and 2 for “chili pepper”. Then, "Tangerine" with the highest similarity is output as the search result.

【0008】しかし、ユーザが『林檎』の特徴概念「赤
い」を重視した検索結果を期待するとき、上記検索方法
では、「赤い」を特徴概念に含まない『蜜柑』が得ら
れ、「赤い」を含み、特徴概念の比較により類似語と見
なせる『南天』や『唐辛子』を得ることができない。
However, when the user expects a search result in which the feature concept "red" of "apple" is emphasized, "tangerine" which does not include "red" in the feature concept is obtained by the above search method, and "red" is obtained. It is impossible to obtain "nanten" and "chili pepper" that are regarded as similar words by comparing the characteristic concepts.

【0009】このような、検索に対して重視すべき特徴
概念を観点と呼ぶ。検索は様々な状況、或いは条件で行
われるので、検索の観点は状況等に応じて変化する。同
じ要素に対する類似検索を行う場合であっても、検索の
観点に応じた類似検索結果を求める必要がある。
Such a characteristic concept that should be emphasized for retrieval is called a viewpoint. Since the search is performed in various situations or conditions, the viewpoint of the search changes depending on the situation or the like. Even when the similar search is performed for the same element, it is necessary to obtain the similar search result according to the viewpoint of the search.

【0010】一方、検索の観点を検索キーワードと見な
して単純な検索を行っても、検索を行う要素の特徴概念
を考慮に入れない類似検索では、比較要素と全く無関係
な要素が検索される。例えば、観点「赤い」を保有する
単語を検索結果として与える従来方式であるキーワード
検索では、『南天』以外に、期待していない『猿』が同
時に得られることになる。また、『唐辛子』の特徴概念
「赤色」は「赤い」と同義であり、検索結果として『唐
辛子』が含まれるべきであるが、上記キーワード検索の
方法で検索結果として含まれない。
On the other hand, even if a simple search is performed by regarding the viewpoint of the search as a search keyword, in the similar search in which the characteristic concept of the element to be searched is not taken into consideration, an element completely unrelated to the comparison element is searched. For example, in the keyword search which is a conventional method in which a word having the viewpoint “red” is given as a search result, an unexpected “monkey” is obtained at the same time in addition to “nanten”. Further, the characteristic concept "red" of "chili pepper" is synonymous with "red" and "chili pepper" should be included in the search result, but it is not included in the search result by the above keyword search method.

【0011】本発明は、上記に鑑みてなされたもので、
その目的とするところは、検索の状況に応じた柔軟な類
似検索を行うべく観点に基づいて類似語を検索する観点
に基づく類似検索方法を提供することにある。
[0011] The present invention has been made in view of the above,
It is an object of the present invention to provide a similarity search method based on the viewpoint of searching for similar words in order to perform flexible similarity search according to the search situation.

【0012】[0012]

【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、複数の要素の各々が要素
の特徴を表す単語である特徴概念を保有するデータベー
スについてデータベース中の指定した要素と類似した要
素を検索するに際して、検索において重視する特徴概念
である観点を指定し、観点と等しい特徴概念を保有する
要素を前記データベースから検索して類似要素候補と
し、該類似要素候補より類似要素を検索することを要旨
とする。
In order to achieve the above object, the present invention according to claim 1 specifies, in a database, a database having a characteristic concept in which each of a plurality of elements is a word representing a characteristic of the element. When searching for an element similar to the specified element, a viewpoint that is a characteristic concept to be emphasized in the search is specified, an element having a characteristic concept equal to the viewpoint is searched from the database as a similar element candidate, and the similar element candidate The point is to search for similar elements.

【0013】請求項1記載の本発明では、検索において
重視する観点を指定し、該観点と等しい特徴概念を保有
する要素をデータベースから検索して類似要素候補と
し、該類似要素候補より類似要素を検索している。
According to the first aspect of the present invention, a viewpoint to be emphasized in the search is designated, an element having a characteristic concept equal to the viewpoint is searched from the database to be a similar element candidate, and the similar element is selected from the similar element candidates. I am searching.

【0014】また、請求項2記載の本発明は、請求項1
記載の発明において、前記観点を保有する要素を検索す
る際に、前記データベース中の各特徴概念について該特
徴概念を含む要素一覧表を作成し、該要素一覧表を用い
て前記要素を検索することを要旨とする。
The present invention according to claim 2 is the same as claim 1.
In the invention described above, when searching an element having the viewpoint, an element list including the characteristic concept is created for each characteristic concept in the database, and the element is searched using the element list. Is the gist.

【0015】請求項2記載の本発明では、データベース
中の各特徴概念について該特徴概念を含む要素一覧表を
作成し、該要素一覧表を用いて要素を検索する。
According to the second aspect of the present invention, an element list including the characteristic concept is created for each characteristic concept in the database, and the element is searched using the element list.

【0016】更に、請求項3記載の本発明は、複数の要
素の各々が要素の特徴を表す単語である特徴概念を保有
するデータベースについてデータベース中の指定した要
素と類似した要素を検索するに際して、前記データベー
ス中の全特徴概念を意味に基づく分類名である意味分類
で置き換え、検索において重視する特徴概念である観点
を指定し、観点の意味分類と等しい意味分類を保有する
要素を前記データベースから検索して類似要素候補と
し、該類似要素候補より類似要素を検索することを要旨
とする。
Further, according to the present invention as set forth in claim 3, in searching a database having a feature concept in which each of the plurality of components is a word representing the feature of the component, a similar component to the designated component in the database is searched, All the characteristic concepts in the database are replaced with semantic classifications that are classification names based on meanings, a viewpoint that is a characteristic concept to be emphasized in search is specified, and an element that holds a semantic classification equal to the semantic classification of viewpoints is searched from the database. The main point is to search for similar elements from the similar element candidates.

【0017】請求項3記載の本発明では、データベース
中の全特徴概念を意味に基づく意味分類で置き換え、検
索において重視する特徴概念である観点を指定し、観点
の意味分類と等しい意味分類を保有する要素をデータベ
ースから検索して類似要素候補とし、該類似要素候補よ
り類似要素を検索する。
According to the third aspect of the present invention, all characteristic concepts in the database are replaced with semantic classifications based on meanings, a viewpoint which is a characteristic concept to be emphasized in the search is designated, and a semantic classification equal to the semantic classification of viewpoints is held. The element to be searched is searched from the database as a similar element candidate, and the similar element is searched from the similar element candidate.

【0018】請求項4記載の本発明は、請求項3記載の
発明において、前記観点の意味分類を保有する要素を検
索する際に、データベース中の各要素の各意味分類につ
いて該意味分類を含む要素一覧表を作成し、該要素一覧
表を用いて前記要素を検索することを要旨とする。
According to a fourth aspect of the present invention, in the invention according to the third aspect, when the element having the semantic classification of the viewpoint is searched, the semantic classification is included for each semantic classification of each element in the database. The gist is to create an element list and search for the element using the element list.

【0019】請求項4記載の本発明では、データベース
中の各要素の各意味分類について該意味分類を含む要素
一覧表を作成し、該要素一覧表を用いて要素を検索す
る。
According to the fourth aspect of the present invention, an element list including the semantic classification is created for each semantic classification of each element in the database, and the element is searched using the element list.

【0020】[0020]

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings.

【0021】図1は、本発明の第1の実施形態に係る観
点に基づく類似検索方法の作用を示すフローチャートで
ある。同図に示す観点に基づく類似検索方法は、データ
ベース中の要素Aに類似した要素をデータベース中より
検索する際に、検索において重視する観点となる特徴概
念aを導入するものである。
FIG. 1 is a flowchart showing the operation of the similarity search method based on the viewpoint according to the first embodiment of the present invention. The similar search method based on the viewpoint shown in the figure introduces a characteristic concept a which is a viewpoint to be emphasized in the search when searching the database for an element similar to the element A in the database.

【0022】図1に示すフローチャートに従って類似検
索方法の作用を説明する。図1においては、まず検索の
対象となる要素Aと検索の観点aを指定するとともに、
要素数を計数するパラメータiを1にセットする(ステ
ップS11)。検索の対象は、データベース中から指定
しても、またはデータベース中の要素と同じように特徴
概念を保有するデータならばどのようなデータでもよ
い。また、観点aは検索を行う際に重要となる特徴概念
を検索者が入力する。その際、観点を要素A中の特徴概
念から選んでもよい。
The operation of the similarity search method will be described with reference to the flowchart shown in FIG. In FIG. 1, first, the element A to be searched and the viewpoint a of the search are specified, and
A parameter i for counting the number of elements is set to 1 (step S11). The target of the search may be specified from the database, or may be any data as long as it has the characteristic concept like the elements in the database. Further, from the viewpoint a, the searcher inputs a characteristic concept that is important when performing a search. At that time, the viewpoint may be selected from the characteristic concept in the element A.

【0023】次に、パラメータiが要素数よりも小さい
か否かをチェックする(ステップS12)。パラメータ
iが要素数よりも小さい場合には、全ての要素について
検索を行うためにステップS13に進み、要素Aiの特
徴概念中に観点aが含まれるか否かをチェックし、含ま
れない場合には、ステップS15でパラメータiをイン
クリメントして次の要素について同様に処理を行うべく
ステップS12に戻るが、要素Aiの特徴概念中に観点
aが含まれる場合には、該要素Aiを検索候補α中に追
加する(ステップS14)。それから、パラメータiを
インクリメントして(ステップS15)、ステップS1
2に戻る。
Next, it is checked whether the parameter i is smaller than the number of elements (step S12). If the parameter i is smaller than the number of elements, the process proceeds to step S13 to search for all the elements, and it is checked whether or not the viewpoint a is included in the characteristic concept of the element Ai. Returns to step S12 to increment the parameter i in step S15 and perform the same process for the next element. However, if the viewpoint a is included in the characteristic concept of the element Ai, the element Ai is set as the search candidate α. Add to the inside (step S14). Then, the parameter i is incremented (step S15), and step S1
Return to 2.

【0024】以上のようにして、データベース中の全て
の要素について観点aと等しい特徴概念が含まれている
か否かを判定し、含まれている要素からなる検索候補α
を生成する。
As described above, it is determined whether or not the feature concept equal to the viewpoint a is included for all the elements in the database, and the search candidate α consisting of the included elements is determined.
Generate

【0025】データベース中の全ての要素について前記
判定を行い、検索候補を生成すると、ステップS12に
おいて、パラメータiが要素数よりも大きくなるので、
ステップS16に進む。
When the above determination is made for all the elements in the database and search candidates are generated, the parameter i becomes larger than the number of elements in step S12.
Proceed to step S16.

【0026】ステップS16では、要素Aと検索候補α
中の要素との類似度を計算する。類似度の計算法は、比
較する要素中の特徴概念の共通数が多いほど類似度が高
くなるような計算法であれば、どのようなものであって
も構わない。最後に、検索候補α中の類似度の高い要素
を類似検索結果として出力する(ステップS17)。類
似度の高い要素の決定方法としては、類似度の高い上位
複数の要素を結果として出力する方法や、類似度の下限
を予め決定しておき、その類似度の下限以上の類似度を
与える要素全てを出力する方法など、いかなる方法であ
っても構わない。
In step S16, the element A and the search candidate α
Calculate the similarity with the elements inside. Any calculation method may be used as the calculation method of the similarity degree as long as the common number of the characteristic concepts in the elements to be compared increases, the similarity degree increases. Finally, the element having a high degree of similarity in the search candidates α is output as a similarity search result (step S17). As a method of determining a high similarity element, a method of outputting a plurality of high similarity similarity elements as a result, or a lower limit of similarity is determined in advance, and an element giving a similarity equal to or higher than the lower limit of similarity is given. Any method such as a method of outputting everything may be used.

【0027】次に、図1の類似検索方法について図6を
用いて更に具体的に説明する。図6のデータベース中の
要素A『林檎』と類似した要素を観点a「赤い」につい
て検索して獲得する。
Next, the similarity search method of FIG. 1 will be described more specifically with reference to FIG. An element similar to the element A “apple” in the database of FIG. 6 is searched and acquired for the viewpoint a “red”.

【0028】最初に、データベース中から観点「赤い」
を含む要素を調べると、『南天』、『猿』が得られ、こ
れらを類似検索候補αとする。次に、要素A『林檎』と
類似検索候補α中の各々の要素と類似度を計算する。こ
こでは、比較する要素で共通な特徴概念の数を類似度と
する。この場合、類似度は、『南天』と『林檎』が2、
『猿』と『林檎』が1となる。類似度の最も高い要素を
検索結果として出力する場合、「赤い」という観点で
『林檎』と類似した要素として『南天』を出力する。
First, the viewpoint "red" from the database
When the element including is searched, "nanten" and "monkey" are obtained, and these are set as similar search candidates α. Next, the degree of similarity with the element A “apple” and each element in the similar search candidate α is calculated. Here, the number of feature concepts common to the elements to be compared is the similarity. In this case, the degree of similarity is 2 for "South Ten" and "Apple",
"Monkey" and "Apple" become 1. When outputting the element with the highest degree of similarity as a search result, "nanten" is output as an element similar to "apple" in terms of "red".

【0029】上記実施形態の類似検索方法において、デ
ータベース中の全要素について観点aと等しい特徴概念
が含まれているかを判定する際、検索を行う度にデータ
ベース中の全要素を判定する必要がある。そこで、デー
タベース中に含まれる全ての種類の特徴概念について、
特徴概念ごとにそれを含む要素名の集合からなる要素一
覧表を予め作成しておく。そして、観点と等しい特徴概
念を検索する際に、要素一覧表中の観点に対応する特徴
概念を参照し、その特徴概念を含む要素名の集合を検索
候補とし、この検索候補について類似検索を行う。上記
要素一覧表の参照により、観点aと等しい特徴概念が含
まれているかの判定は、要素一覧表のみで可能となる。
In the similarity search method of the above embodiment, when it is determined whether or not all the elements in the database include the characteristic concept equal to the viewpoint a, it is necessary to determine all the elements in the database each time a search is performed. . Therefore, for all types of feature concepts included in the database,
An element list including a set of element names including the characteristic concepts is created in advance. Then, when searching for a feature concept equal to the viewpoint, the feature concept corresponding to the viewpoint in the element list is referred to, a set of element names including the feature concept is set as a search candidate, and similar search is performed for this search candidate. . By referring to the element list, it is possible to determine whether or not the feature concept equal to the viewpoint a is included only in the element list.

【0030】ここで、先に具体例として示した図6のデ
ータベースについて「赤い」を観点とした要素『林檎』
の類似要素を検索する方法を例として説明する。図6の
データベース中から観点「赤い」を含む要素を調べる際
に、データベースに含まれる特徴要素毎に、その特徴要
素を含む要素一覧表を作成すると図2のようになる。こ
の要素一覧表中を参照することにより、特徴概念「赤
い」を含む要素は、データベース中の全要素について調
べることなく『南天』、『猿』であることを判定するこ
とができる。
Here, with respect to the database shown in FIG. 6 as a concrete example, the element "apple" from the viewpoint of "red"
A method of searching for a similar element will be described as an example. When an element including the viewpoint “red” is searched from the database of FIG. 6, an element list including the characteristic element is created for each characteristic element included in the database, as shown in FIG. By referring to this element list, it is possible to determine that the element including the characteristic concept "red" is "southern" or "monkey" without checking all the elements in the database.

【0031】次に、第2の実施形態について説明する。
この実施形態は、検索の観点を含むデータベース中の要
素を検索するために観点と特徴概念を比較する際に、観
点と特徴概念それぞれを意味に基づいた意味分類名に変
換し、文字列は異なるが観点と意味のほぼ同一の特徴概
念を検索して、単語の意味を考慮した類似検索を行うも
のである。
Next, a second embodiment will be described.
In this embodiment, when comparing a viewpoint and a characteristic concept in order to search an element in a database including a viewpoint of a search, each viewpoint and the characteristic concept are converted into meaning-based semantic classification names, and character strings are different. Is a feature concept that has almost the same viewpoint and meaning, and performs a similarity search considering the meaning of words.

【0032】検索を行う前に、データベース中の各要素
の全ての特徴概念を意味分類名に変換する。意味分類名
とは、特徴概念で意味の類似したもの同士をクラスタリ
ング(意味分類)し、そのクラスタに付与された名前を
表す。意味分類の方法としては、分類語彙を参照して決
定する方法、全種類の特徴概念間の類似度に基づいてク
ラスタ分析を行い、得られたクラスタから意味分類名を
付与する方法、或いは、既存の類語辞典やシソーラスを
用いる方法など、どのようなものであっても構わない。
Before searching, all the characteristic concepts of each element in the database are converted into semantic classification names. The meaning classification name represents a name given to the cluster by clustering (semantic classification) of features having similar meanings. As a method of semantic classification, a method of determining by referring to the classification vocabulary, a cluster analysis based on the similarity between all types of characteristic concepts, and a method of assigning a semantic classification name from the obtained cluster, or an existing method Any method may be used, such as a thesaurus or a thesaurus method.

【0033】検索時には、まず、検索の対象となる要素
Aと検索の観点となる意味分類aを指定する。検索の対
象は、データベース中から指定しても、或いは、データ
ベース中の要素と同じように特徴概念を保有するデータ
ならばどのようなデータであっても構わない。データベ
ース外のデータを検索対象とする時には、データ中の特
徴概念を意味分類に変換する。また、観点aは検索を行
う際に重要となる特徴概念を検索者が入力する。その
際、観点を要素A中の特徴概念を変換した意味分類から
選んでも構わない。観点aを検索者が入力する場合、観
点aを意味分類に変換しておく。次に、データベース中
の全要素について、観点aと等しい意味分類が含まれて
いるかを判定し、含まれている要素からなる検索候補α
を生成する。
At the time of search, first, the element A to be searched and the semantic classification a from the viewpoint of search are specified. The target of the search may be designated from the database, or may be any data as long as it has the characteristic concept like the elements in the database. When searching data outside the database, the characteristic concepts in the data are converted into semantic categories. Further, from the viewpoint a, the searcher inputs a characteristic concept that is important when performing a search. At that time, the viewpoint may be selected from the semantic classification obtained by converting the characteristic concept in the element A. When the searcher inputs the viewpoint a, the viewpoint a is converted into the semantic classification. Next, for all elements in the database, it is determined whether or not the semantic classification equal to the viewpoint a is included, and the search candidate α consisting of the included elements is determined.
Generate

【0034】そして、要素Aと検索候補α中の要素との
類似度を計算する。類似度の計算法は、比較する要素中
の意味分類の共通数が多いほど類似度が高くなるような
計算法であれば、どのようなものであっても構わない。
最後に、検索候補α中の類似度の高い要素を類似検索結
果として出力する。類似度の高い要素の決定方法として
は、類似度の高い上位複数の要素を結果として出力する
方法や、類似度の下限を予め決定しておき、その類似度
の下限以上の類似度を与える要素全てを出力する方法な
ど、いかなる方法であっても構わない。
Then, the degree of similarity between the element A and the element in the search candidate α is calculated. Any calculation method may be used as the similarity calculation method as long as the larger the common number of semantic classifications among the compared elements, the higher the similarity.
Finally, the element with a high degree of similarity in the search candidates α is output as a similarity search result. As a method of determining a high similarity element, a method of outputting a plurality of high similarity similarity elements as a result, or a lower limit of similarity is determined in advance, and an element giving a similarity equal to or higher than the lower limit of similarity is given. Any method such as a method of outputting everything may be used.

【0035】ここで、本実施形態について図6のデータ
ベースを用いて更に具体的に説明する。最初に、データ
ベース中の各要素の全ての特徴概念について、図3の意
味分類表を用いて意味分類に変換する。例えば、要素
『唐辛子』の特徴概念「赤色」を変換する際には、意味
分類表中で、「赤色」を含む意味分類を探し、その意味
分類名「赤」でデータベース中の「赤色」を置き換え
る。このようにして、図6のデータベースは図4のよう
に変換される。
Here, the present embodiment will be described more specifically using the database shown in FIG. First, all the characteristic concepts of each element in the database are converted into the semantic classification using the semantic classification table of FIG. For example, when converting the characteristic concept "red" of the element "chili pepper", search for a meaning classification that includes "red" in the meaning classification table, and use the meaning classification name "red" to identify "red" in the database. replace. In this way, the database of FIG. 6 is converted as shown in FIG.

【0036】次に、検索の観点「赤い」を図3の意味分
類表を用いて意味分類「赤」に検索する。そして、図4
のデータベース中で、要素毎に意味分類「赤」を含むか
を調べ、含まれる要素『林檎』、『南天』、『猿』、
『唐辛子』からなる集合を検索候補αとする。
Next, the viewpoint "red" of the search is searched for the meaning classification "red" using the meaning classification table of FIG. And FIG.
In the database of, check whether each element includes the meaning classification "red", and include the elements "apple", "nanten", "monkey",
A set of "chili peppers" is set as a search candidate α.

【0037】それから、要素A『林檎』と類似検索候補
α中の各々の要素との類似度を計算する。ここでは、比
較する要素で共通な特徴概念の数を類似度とする。この
場合、類似度は、『南天』と『林檎』が3、『猿』と
『林檎』が1、『唐辛子』と『林檎』が3となる。類似
度の最も高い要素を検索結果として出力する場合、「赤
い」という観点で『林檎』と類似した要素として、『南
天』と『唐辛子』を出力する。第1の実施形態では、要
素『唐辛子』中には観点「赤い」と意味の近い「赤色」
を含んでいるにも関わらず、検索候補および検索結果に
含まれなかった。図3のような意味分類表を利用するこ
とにより、第2の実施形態では、「赤い」という観点で
『林檎』と類似した『唐辛子』を『南天』とともに出力
することができる。
Then, the degree of similarity between the element A "apple" and each element in the similar search candidate α is calculated. Here, the number of feature concepts common to the elements to be compared is the similarity. In this case, the degree of similarity is 3 for "nanten" and "apple", 1 for "monkey" and "apple", and 3 for "chili pepper" and "apple". When outputting the element with the highest degree of similarity as a search result, "nanten" and "chili pepper" are output as elements similar to "apple" in terms of "red". In the first embodiment, the viewpoint "red" and the meaning "red" are similar in the element "chili pepper".
Despite being included, it was not included in the search candidates and search results. By using the semantic classification table as shown in FIG. 3, in the second embodiment, “chili pepper” similar to “apple” in terms of “red” can be output together with “nanten”.

【0038】第2の実施形態において、データベース中
の全要素について、観点aと等しい意味分類が含まれて
いるかを判定する際、検索を行う度にデータベース中の
全ての要素を調べる場合、毎回判定のための時間を要す
る。そこで、データベース中に含まれる全ての種類の意
味分類について、意味分類ごとにそれを含む要素名の集
合からなる要素一覧表を予め作成しておく。そして、観
点と等しい意味分類を検索する際に、要素一覧表中の観
点に対応する意味分類を参照し、その意味分類を含む要
素名の集合を検索候補とし、この検索候補について類似
検索を行う。
In the second embodiment, when it is determined whether or not all elements in the database include the semantic classification equal to the viewpoint a, when every element in the database is checked each time a search is performed, the determination is made every time. Take time for. Therefore, for all types of semantic classifications included in the database, an element list including a set of element names including the semantic classifications is created in advance. Then, when searching a semantic classification that is equal to a viewpoint, the semantic classification corresponding to the viewpoint in the element list is referred to, a set of element names including the semantic classification is set as a search candidate, and similar search is performed for this search candidate. .

【0039】ここで、第2の実施形態について更に具体
的に説明する。上述した図4のデータベースについて
「赤い」を観点とした要素『林檎』の類似要素を検索す
る方法を例として説明する。図4のデータベース中から
観点「赤い」を含む要素を調べる際に、データベースに
含まれる意味分類毎に、その意味分類を含む要素一覧表
を作成すると図5のようになる。この要素一覧表中を参
照することにより、特徴概念「赤い」を含む要素は、デ
ータベース中の全要素について調べることなく『南
天』、『猿』、『唐辛子』であることを判定することが
できる。
Now, the second embodiment will be described more specifically. An example of a method of searching for similar elements of the element "apple" from the viewpoint of "red" in the database of FIG. 4 will be described. FIG. 5 shows a list of elements including the meaning classification for each meaning classification included in the database when checking the elements including the viewpoint “red” from the database of FIG. By referring to this element list, it is possible to determine that the element including the characteristic concept "red" is "nanten", "monkey", "chili pepper" without checking all the elements in the database. .

【0040】[0040]

【発明の効果】以上説明したように、請求項1記載の本
発明によれば、検索において重視する観点を指定し、該
観点と等しい特徴概念を保有する要素をデータベースか
ら検索して類似要素候補とし、該類似要素候補より類似
要素を検索しているので、従来では固定的であった検索
結果の出力しか得られない類似検索結果に比較して、検
索の状況を表す観点に応じた類似検索結果を得ることが
できるとともに、検索処理時間を短縮することができ
る。
As described above, according to the present invention as set forth in claim 1, a viewpoint to be emphasized in a search is designated, an element having a characteristic concept equal to the viewpoint is searched from a database, and similar element candidates are searched. Since similar elements are searched from the similar element candidates, the similar search according to the viewpoint of the search situation is made in comparison with the similar search result in which only the output of the search result which has been fixed in the past is obtained. The result can be obtained and the search processing time can be shortened.

【0041】また、請求項2記載の本発明によれば、デ
ータベース中の各特徴概念について該特徴概念を含む要
素一覧表を作成し、該要素一覧表を用いて要素を検索す
るので、要素一覧表の参照のみ行われ、検索処理時間を
短縮することができる。
According to the second aspect of the present invention, an element list including the characteristic concept is created for each characteristic concept in the database, and an element is searched using the element list. Only the table is referenced, and the search processing time can be shortened.

【0042】更に、請求項3記載の本発明によれば、デ
ータベース中の全特徴概念を意味に基づく意味分類で置
き換え、検索において重視する特徴概念である観点を指
定し、観点の意味分類と等しい意味分類を保有する要素
をデータベースから検索して類似要素候補とし、該類似
要素候補より類似要素を検索するので、意味において観
点と同義または意味の近い特徴概念を検出することがで
き、人間の感覚に近い柔軟な類似検索を行うことができ
る。
Further, according to the present invention as set forth in claim 3, all the characteristic concepts in the database are replaced with the semantic classification based on the meaning, the viewpoint which is the characteristic concept to be emphasized in the search is designated, and is equal to the semantic classification of the viewpoint. Since an element having a semantic classification is searched from a database as a similar element candidate and a similar element is searched from the similar element candidate, it is possible to detect a characteristic concept that is synonymous with or similar in meaning to the viewpoint, and a human sense. It is possible to perform a flexible similarity search close to.

【0043】請求項4記載の本発明によれば、データベ
ース中の各要素の各意味分類について該意味分類を含む
要素一覧表を作成し、該要素一覧表を用いて要素を検索
するので、要素一覧表の参照のみ行われ、検索処理時間
を短縮することができる。
According to the present invention as set forth in claim 4, since an element list including the meaning classification of each element of each element in the database is created and the element list is searched, the element is searched. Since only the list is referenced, the search processing time can be shortened.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施形態に係る観点に基づく類
似検索方法の作用を示すフローチャートである。
FIG. 1 is a flowchart showing an operation of a similarity search method based on a viewpoint according to a first embodiment of the present invention.

【図2】特徴概念を含む要素一覧表の一例を示す図であ
る。
FIG. 2 is a diagram showing an example of an element list including a characteristic concept.

【図3】特徴概念を意味分類に変換した単語データベー
スの一例を示す図である。
FIG. 3 is a diagram showing an example of a word database in which a characteristic concept is converted into a semantic classification.

【図4】意味分類名を用いて表されたデータベースの一
例を示す図である。
FIG. 4 is a diagram showing an example of a database represented using semantic classification names.

【図5】意味分類を含む要素一覧表の一例を示す図であ
る。
FIG. 5 is a diagram showing an example of an element list including meaning classifications.

【図6】単語のデータベースの一例を示す図である。FIG. 6 is a diagram showing an example of a word database.

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 複数の要素の各々が要素の特徴を表す単
語である特徴概念を保有するデータベースについてデー
タベース中の指定した要素と類似した要素を検索するに
際して、検索において重視する特徴概念である観点を指
定し、観点と等しい特徴概念を保有する要素を前記デー
タベースから検索して類似要素候補とし、該類似要素候
補より類似要素を検索することを特徴とする観点に基づ
く類似検索方法。
1. A database having a feature concept, each of a plurality of elements being a word representing a feature of the element, when searching for an element similar to a designated element in the database, the feature concept to be emphasized in the search The similarity search method based on the viewpoint, characterized in that an element having a characteristic concept equal to the viewpoint is searched from the database as a similar element candidate, and the similar element is searched from the similar element candidate.
【請求項2】 前記観点を保有する要素を検索する際
に、前記データベース中の各特徴概念について該特徴概
念を含む要素一覧表を作成し、該要素一覧表を用いて前
記要素を検索することを特徴とする請求項1記載の観点
に基づく類似検索方法。
2. When retrieving an element having the viewpoint, an element list including the characteristic concept is created for each characteristic concept in the database, and the element is retrieved using the element list. A similarity search method based on the viewpoint of claim 1.
【請求項3】 複数の要素の各々が要素の特徴を表す単
語である特徴概念を保有するデータベースについてデー
タベース中の指定した要素と類似した要素を検索するに
際して、前記データベース中の全特徴概念を意味に基づ
く分類名である意味分類で置き換え、検索において重視
する特徴概念である観点を指定し、観点の意味分類と等
しい意味分類を保有する要素を前記データベースから検
索して類似要素候補とし、該類似要素候補より類似要素
を検索することを特徴とする観点に基づく類似検索方
法。
3. A database having a characteristic concept in which each of a plurality of elements is a word representing a characteristic of the element is searched for an element similar to a designated element in the database, meaning all characteristic concepts in the database. Is replaced with a semantic classification that is a classification name based on the above, a viewpoint that is a characteristic concept to be emphasized in the search is specified, and an element having a semantic classification equal to the semantic classification of the viewpoint is searched from the database as a similar element candidate, and the similarity A similar search method based on a viewpoint characterized by searching similar elements from element candidates.
【請求項4】 前記観点の意味分類を保有する要素を検
索する際に、データベース中の各要素の各意味分類につ
いて該意味分類を含む要素一覧表を作成し、該要素一覧
表を用いて前記要素を検索することを特徴とする請求項
3記載の観点に基づく類似検索方法。
4. When searching for an element having a semantic classification of the viewpoint, an element list including the semantic classification is created for each semantic classification of each element in the database, and the element list is used to generate the element list. 4. The similarity search method based on the viewpoint of claim 3, wherein elements are searched.
JP23158995A 1995-09-08 1995-09-08 Similarity search method based on viewpoint Expired - Fee Related JP3422396B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23158995A JP3422396B2 (en) 1995-09-08 1995-09-08 Similarity search method based on viewpoint

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23158995A JP3422396B2 (en) 1995-09-08 1995-09-08 Similarity search method based on viewpoint

Publications (2)

Publication Number Publication Date
JPH0981578A true JPH0981578A (en) 1997-03-28
JP3422396B2 JP3422396B2 (en) 2003-06-30

Family

ID=16925891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23158995A Expired - Fee Related JP3422396B2 (en) 1995-09-08 1995-09-08 Similarity search method based on viewpoint

Country Status (1)

Country Link
JP (1) JP3422396B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322445A (en) * 1999-05-14 2000-11-24 Mitsubishi Electric Corp Information retrieval system and recording medium recording program thereof
US7054861B2 (en) 1998-09-30 2006-05-30 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
JP2015232802A (en) * 2014-06-10 2015-12-24 日本電信電話株式会社 Destination extraction method, destination extraction device, and destination extraction program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7054861B2 (en) 1998-09-30 2006-05-30 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
US7664803B2 (en) 1998-09-30 2010-02-16 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
JP2000322445A (en) * 1999-05-14 2000-11-24 Mitsubishi Electric Corp Information retrieval system and recording medium recording program thereof
JP2015232802A (en) * 2014-06-10 2015-12-24 日本電信電話株式会社 Destination extraction method, destination extraction device, and destination extraction program

Also Published As

Publication number Publication date
JP3422396B2 (en) 2003-06-30

Similar Documents

Publication Publication Date Title
KR101201037B1 (en) Verifying relevance between keywords and web site contents
EP1585073B1 (en) Method for duplicate detection and suppression
US8832655B2 (en) Systems and methods for finding project-related information by clustering applications into related concept categories
JP6118414B2 (en) Context Blind Data Transformation Using Indexed String Matching
US6480835B1 (en) Method and system for searching on integrated metadata
JP4664423B2 (en) How to find relevant information
JP5346279B2 (en) Annotation by search
US20040049499A1 (en) Document retrieval system and question answering system
KR101339103B1 (en) Document classifying system and method using semantic feature
US20020174095A1 (en) Very-large-scale automatic categorizer for web content
US20120254143A1 (en) Natural language querying with cascaded conditional random fields
JP2020500371A (en) Apparatus and method for semantic search
US8346800B2 (en) Content-based information retrieval
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
JP2006227823A (en) Information processor and its control method
US20040186833A1 (en) Requirements -based knowledge discovery for technology management
JP2001184358A (en) Device and method for retrieving information with category factor and program recording medium therefor
CN116501875A (en) Document processing method and system based on natural language and knowledge graph
JP3422396B2 (en) Similarity search method based on viewpoint
Bouskila et al. The Role of Ėemantic Locality in Hierarchical Distributed Dynamic Indexing
WO2008083447A1 (en) Method and system of obtaining related information
JP2001101184A (en) Method and device for generating structurized document and storage medium with structurized document generation program stored therein
JP6040141B2 (en) Keyword assigning device, keyword assigning method, and program
JP3287307B2 (en) Structured document search system, structured document search method, and recording medium storing structured document search program

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100425

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100425

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees