JPH09101951A - Document retrieving device - Google Patents

Document retrieving device

Info

Publication number
JPH09101951A
JPH09101951A JP7260097A JP26009795A JPH09101951A JP H09101951 A JPH09101951 A JP H09101951A JP 7260097 A JP7260097 A JP 7260097A JP 26009795 A JP26009795 A JP 26009795A JP H09101951 A JPH09101951 A JP H09101951A
Authority
JP
Japan
Prior art keywords
document
documents
similarity
search
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7260097A
Other languages
Japanese (ja)
Inventor
Junichi Fukumoto
淳一 福本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP7260097A priority Critical patent/JPH09101951A/en
Publication of JPH09101951A publication Critical patent/JPH09101951A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To save labor for adding an index by selecting a document at one part of all the documents, calculating and extracting the degree of similarity between the selected document and any strongly related document when narrowing the documents retrieved by a keyword into the target document. SOLUTION: A document retrieving part 4 performs the retrieval of documents from a document data base 3 while using the keyword. Besides, the high-order and low-order bocaburaries of the retrieval keyword are extracted while using a thesaurus table 2, the retrieval of documents is performed, and the results are held in a retrieved result holding part 5. Next, a user interface 1 selects the document of the requested field for narrowing down the retrieved results. Afterwards, a word extracting part 6 extracts words contained in the respective documents in the retrieved result holding part. A similarity degree calculating part 7 outputs the degree of similarity between the selected document and the documents in the retrieved result holding part 5 by mutually comparing the words extracted by the extracting part 6. A document selecting part 8 selects the respective documents out of the holding part 5 from the highest rank of similarity degree, narrows them down and displays the result for a user.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、指定された文字列
を用いて文書データベースを検索する文書検索装置に関
するもので、特に、検索された文書をさらに細かく検索
する機能に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document retrieval apparatus for retrieving a document database using a designated character string, and more particularly to a function for retrieving retrieved documents in more detail.

【0002】[0002]

【従来の技術】従来の文書検索装置としては、特開平4
−10062号に開示されているものがある。従来の文
書データベース検索においては、検索時に文字列を指定
し、その指定された文字列をインデックスとして持つ文
書を検索結果として出力するという手法が取られてい
る。また、上記文献では、検索時に指定された文字列を
あらかじめ登録された上位−下位の関係を保持した辞書
データを用いることで、検索時に指定された文字列と関
係のある文字列を取り出し、その文字列を用いても検索
することが可能である。これにより、検索時に指定した
キーワードが、検索対象である文書データベースにあら
かじめ付けられたインデックスと異なる場合も検索が可
能となっていた。
2. Description of the Related Art As a conventional document retrieval apparatus, Japanese Patent Laid-Open No.
No. -10062 is disclosed. In the conventional document database search, a method is used in which a character string is specified at the time of search and a document having the specified character string as an index is output as a search result. Further, in the above-mentioned document, by using the dictionary data that holds the upper-lower relationship in which the character string specified at the time of search is registered in advance, the character string related to the character string specified at the time of retrieval is extracted, It is also possible to search using a character string. As a result, it is possible to perform a search even when the keyword specified at the time of the search is different from the index provided in advance in the document database that is the search target.

【0003】[0003]

【発明が解決しようとする課題】一般に、従来の文書デ
ータベース検索において目的とする文書をキーワードの
指定のみで検索するためには、有効な検索キーワードが
選択されなければならない。また、そのようなキーワー
ドを一度で与えることができなかった場合、一旦あるキ
ーワードで検索された文書に対し、さらにキーワードを
追加するという手法を用いなければならない。このよう
な文書データベースから目的とする文書の絞り込みのた
めに、どのようなキーワードが有効であるかといった判
断は、検索者自身で行わなければならないという問題が
ある。
Generally, in the conventional document database search, in order to search a target document only by designating a keyword, a valid search keyword must be selected. Further, when such a keyword cannot be given at once, it is necessary to use a method of adding a keyword to a document once searched with a certain keyword. There is a problem that the searcher himself must determine what keywords are effective in order to narrow down target documents from such a document database.

【0004】例えば、最初に「車」といったキーワード
で文書データベースを検索し、その結果、「車の開
発」、「車の事故」、「車の貿易問題」等の車に関連す
る話題の文書が検索結果として得られたとする。このと
き、最初の検索の段階では、検索された全体の文書とし
て、どのような話題のものが検索されたのかといった情
報を得るためには、文書全体を調べなければならず、そ
のような状況で検索の目的である「車の開発」といった
話題の文書を得るためには、それらの文書に付与されて
いるキーワードの中から適切なものを選択する必要があ
る。
For example, first, a document database is searched with a keyword such as "car", and as a result, documents of topics related to cars such as "car development", "car accident", and "car trade problem" are found. It is assumed that it is obtained as a search result. At this time, in the first search stage, in order to obtain information such as what topic was searched as the entire searched document, it was necessary to search the entire document. In order to obtain a topical document such as "development of car", which is the purpose of the search, it is necessary to select an appropriate keyword from the keywords assigned to those documents.

【0005】また、以上の検索が有効であるためには、
検索対象である大量の文書データベース中の各文書に対
し、検索用のインデックスが付与されている必要がある
が、そのような大量の文書に対してインデックスを付与
するためには多くの労力が必要であるといった問題もあ
る。
In order for the above search to be effective,
It is necessary to add an index for searching to each document in a large number of document databases to be searched, but a lot of effort is required to add an index to such a large number of documents. There is also the problem that

【0006】[0006]

【課題を解決するための手段】上述した課題を解決する
ため、本発明は、指定された文字列を用いて検索された
複数の文書からユーザの目的に応じた文書を検索する文
書検索装置において、検索された複数の文書を一時的に
保持する手段と、前記一時的に保持した文書からユーザ
の目的とする文書を選択させる手段と、前記ユーザの選
択した文書と類似した文書を前記一時的に保持した文章
中から検索する手段を有するものである。
In order to solve the above-mentioned problems, the present invention provides a document search apparatus for searching a document according to a user's purpose from a plurality of documents searched using a designated character string. A means for temporarily holding a plurality of retrieved documents, a means for selecting a document intended by the user from the temporarily held documents, and a document similar to the document selected by the user for the temporary It has a means to search from the sentences stored in.

【0007】[0007]

【発明の実施の形態】図1は本発明の実施の形態の一例
を示す文書検索装置のブロック図である。1は検索キー
ワードの入力や検索結果から適当な文書の選択を行うユ
ーザインタフェース、2は語彙間の上位−下位の関係の
辞書データを保持したシソーラステーブル、3は検索対
象である文書を保持した文書データベース、4は前記ユ
ーザインタフェース1で入力された検索キーワードとシ
ソーラステーブル2を用いて文書データベース3におい
て文書の検索を行う文書検索部、5は前記文書検索部4
の結果であるいくつかの文書を保持する検索結果保持
部、6は前記検索結果保持部5に保持されている検索結
果の文書の各文書について文書中に含まれる単語を抽出
する単語抽出部、7はユーザインタフェース1で選択さ
れた文書と検索結果の各文書との類似度を計算する類似
度計算部、8はユーザインタフェース1で選択された文
書と検索結果の各文書との前記類似度計算部7で計算し
た類似度情報を用いて文書の絞り込みを行う文書選択部
である。
1 is a block diagram of a document retrieval apparatus showing an example of an embodiment of the present invention. 1 is a user interface for inputting a search keyword and selecting an appropriate document from search results, 2 is a thesaurus table that holds dictionary data of upper-lower relationships between vocabularies, and 3 is a document that holds documents to be searched The database 4 is a document search unit that searches for documents in the document database 3 using the search keyword input in the user interface 1 and the thesaurus table 2. Reference numeral 5 is the document search unit 4
A search result holding unit that holds some documents that are the results of the search result; a word extraction unit 6 that extracts words included in each document of the search result documents held in the search result holding unit 5; Reference numeral 7 denotes a similarity calculation unit that calculates the similarity between the document selected by the user interface 1 and each search result document, and 8 indicates the similarity calculation between the document selected by the user interface 1 and each search result document. A document selection unit that narrows down documents using the similarity information calculated by the unit 7.

【0008】次に、上述した文書検索装置の動作を説明
する。まず、ユーザは、ユーザインタフェース1におい
て文書データベース3中の文書検索のための検索キーワ
ードを入力する。文書検索部4においては、ユーザイン
タフェース1で入力された検索キーワードを用いて文書
データベース3から文書の検索を行う。また、その検索
キーワードの上位または下位にあたる語彙をシソーラス
テーブル2を用いて抽出し、それらの語彙も用いて文書
の検索を行う。そして、検索結果である文書は検索結果
保持部5において保持される。
Next, the operation of the above-described document search device will be described. First, the user inputs a search keyword for searching a document in the document database 3 on the user interface 1. The document search unit 4 searches for a document from the document database 3 using the search keyword input through the user interface 1. Further, the vocabulary that is higher or lower than the search keyword is extracted using the thesaurus table 2, and the documents are searched using these vocabulary as well. Then, the document as the search result is held in the search result holding unit 5.

【0009】図2は検索結果保持部5において保持され
る検索結果の一例を示す説明図である。図2において、
11〜15の各文書は、「車」というキーワードを用い
て検索された結果の文書例を示す。次に、検索結果の絞
り込みを行うため、ユーザはユーザインタフェース1に
より、検索結果からユーザの要求する分野の文書を選択
する。この選択は、検索された文書の一部をユーザに対
して表示することで行う。
FIG. 2 is an explanatory diagram showing an example of the search results stored in the search result storage unit 5. In FIG.
Each of documents 11 to 15 is an example of a document obtained as a result of retrieval using the keyword “car”. Next, in order to narrow down the search results, the user selects a document in the field requested by the user from the search results using the user interface 1. This selection is made by displaying a part of the retrieved document to the user.

【0010】この選択は1つの文書であってもそれ以上
であってもよいが、複数の文書を選択するためには、多
くの文書を表示する必要があるので、通常は1つの文書
が選択されるものとする。次に、単語抽出部6により検
索結果保持部の文書の各文書について文書中に含まれる
単語を抽出する。
This selection may be one document or more. However, in order to select a plurality of documents, it is necessary to display many documents, so normally one document is selected. Shall be done. Next, the word extraction unit 6 extracts the words contained in each document of the search result holding unit.

【0011】図3は図2に示す文書から抽出された単語
の一例を示す説明図である。図3において、21の単語
列は図2の文書11から抽出されたもの、22の単語列
は図2の文書12から抽出されたもの、23の単語列は
図2の文書13から抽出されたもの、24の単語列は図
2の文書14から抽出されたもの、25の単語列は図2
の文書15から抽出されたものの例を示す。なお、この
図3においては、単語は“/”で区切られている。
FIG. 3 is an explanatory diagram showing an example of words extracted from the document shown in FIG. In FIG. 3, 21 word strings are extracted from the document 11 in FIG. 2, 22 word strings are extracted from the document 12 in FIG. 2, and 23 word strings are extracted from the document 13 in FIG. 2, the 24 word strings are extracted from the document 14 of FIG. 2, and the 25 word strings are shown in FIG.
An example of what is extracted from the document 15 of FIG. In FIG. 3, words are separated by "/".

【0012】次に、類似度計算部7では、ユーザインタ
フェース1で選択された文書と検索結果保持部5の各文
書との類似度を、単語抽出部6において抽出された単語
同士を比較することで行う。文書の類似度計算の一例と
しては、ユーザによって指定された文書中の単語と同じ
ものが、検索された各文書にいくつ存在するのかを数
え、その数値を文書の類似度として取り扱うといった方
法が考えられる。また、単語間の意味的関係として、K.
W.Church et al..“Using Statistics in Lexical Anal
ysis”,Lexicalacquisition:Exploiting on-line resou
rces to build a lexicon.(Zernik Uri(ed.)),London,L
awrence Erlbaum Associates,1991,pp.115-164 で提案
されたmutual informationの値を比較する各文書中の単
語間について計算し、それを合計する等の方法で文書の
類似度を計算するといった方法も考えられる。
Next, the similarity calculation unit 7 compares the words extracted by the word extraction unit 6 with the similarity between the document selected by the user interface 1 and each document in the search result holding unit 5. Done in. As an example of document similarity calculation, a method of counting how many same words as the word in the document specified by the user exist in each retrieved document and treating the numerical value as the document similarity is considered. To be Also, as a semantic relationship between words, K.
W. Church et al .. “Using Statistics in Lexical Anal
ysis ”, Lexicalacquisition: Exploiting on-line resou
rces to build a lexicon. (Zernik Uri (ed.)), London, L
awrence Erlbaum Associates, 1991, pp.115-164, which compares the values of mutual information, calculates between words in each document, and calculates the similarity between documents by summing them. Conceivable.

【0013】図4はユーザにより図2中の文書11が選
択された場合の検索結果保持部の各文書との類似度と類
似度を計算した結果を示す説明図である。ここでの類似
度の計算は、ユーザによって指定された文書中の単語と
同じものが、検索された各文書にいくつ存在するのかを
数えるという上述した手法の中の前者の手法を用いてい
る。
FIG. 4 is an explanatory diagram showing the similarity and the result of calculation of the similarity with each document in the search result holding portion when the document 11 in FIG. 2 is selected by the user. The calculation of the degree of similarity here uses the former method of the above-mentioned methods of counting how many same words as the word in the document designated by the user exist in each retrieved document.

【0014】図4において、31は図2の文書12を示
し、35はその文書中で選択された文書と同じ単語の数
を示す。32は図2の文書13を示し、36はその文書
中で選択された文書と同じ単語の数を示す。33は図2
の文書14を示し、37はその文書中で選択された文書
と同じ単語の数を示す。34は図2の文書15を示し、
38はその文書中で選択された文書と同じ単語の数を示
す。
In FIG. 4, 31 indicates the document 12 of FIG. 2, and 35 indicates the same number of words as the selected document in the document. 32 shows the document 13 of FIG. 2 and 36 shows the same number of words as the selected document in the document. 33 is shown in FIG.
Document 14 and 37 indicates the same number of words as the selected document in the document. 34 indicates the document 15 in FIG.
38 indicates the same number of words as the selected document in the document.

【0015】最後に、文書選択部8では、類似度計算部
7で計算された文書の類似度情報を用い、検索結果保持
部5中に各文書を類似度の高い順に選択することで文書
の絞り込みを行い、ユーザインタフェース1を通じてユ
ーザに対して表示する。例えば、図4の結果を用いた場
合、33,31,32,34の順に類似度が高いものと
判断され、例えば上位10%を表示するとした場合、文
書33が表示される。
Finally, the document selecting section 8 uses the similarity information of the documents calculated by the similarity calculating section 7 to select each document in the search result holding section 5 in the descending order of similarity. The result is narrowed down and displayed to the user through the user interface 1. For example, when the result of FIG. 4 is used, it is determined that the degree of similarity is high in the order of 33, 31, 32, 34, and for example, when the top 10% is displayed, the document 33 is displayed.

【0016】[0016]

【発明の効果】以上説明したように、本発明は、キーワ
ードによって一時的に検索された文書からさらに目的と
する文書に絞り込みを行う際、これらの文書の中の一部
の文書を選択させて、選択された文書と関連の強い文書
を文書の類似度を計算することにより抽出するものであ
る。これにより、目的とする文書の絞り込みのために、
どのようなキーワードが有効であるのかといった判断
は、検索者自身が行う必要がなくなり、キーワードを知
らなくとも検索したい文書を絞り込むことができる。
As described above, according to the present invention, when the documents temporarily searched by the keyword are narrowed down to the target documents, some of the documents are selected. A document having a strong relationship with the selected document is extracted by calculating the document similarity. With this, in order to narrow down the target documents,
It is not necessary for the searcher to determine which keyword is valid, and it is possible to narrow down the documents to be searched without knowing the keyword.

【0017】また、検索対象である文書データベースの
中の大量の文書に対し、数多くの検索用のインデックス
を付与しておく必要がなくなり、インデックスを付与す
るための労力を削減することができる。
Further, it is not necessary to add a large number of search indexes to a large number of documents in the document database to be searched, and the labor for adding indexes can be reduced.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の形態の一例を示す文書検索装置
のブロック図
FIG. 1 is a block diagram of a document search device showing an example of an embodiment of the present invention.

【図2】検索結果の一例を示す説明図FIG. 2 is an explanatory diagram showing an example of a search result.

【図3】文書から抽出された単語の一例を示す説明図FIG. 3 is an explanatory diagram showing an example of words extracted from a document.

【図4】類似度の計算結果を示す説明図FIG. 4 is an explanatory diagram showing a calculation result of similarity.

【符号の説明】[Explanation of symbols]

1 ユーザインタフェース 2 シソーラステーブル 3 文書データベース 4 文書検索部 5 検索結果保持部 6 単語抽出部 7 類似度計算部 8 文書選択部 1 User Interface 2 Thesaurus Table 3 Document Database 4 Document Search Section 5 Search Result Holding Section 6 Word Extraction Section 7 Similarity Calculation Section 8 Document Selection Section

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 指定された文字列を用いて検索された複
数の文書からユーザの目的に応じた文書を検索する文書
検索装置において、 検索された複数の文書を一時的に保持する手段と、 前記一時的に保持した文書からユーザの目的とする文書
を選択させる手段と、 前記ユーザの選択した文書と類似した文書を前記一時的
に保持した文章中から検索する手段を有することを特徴
とする文書検索装置。
1. A document retrieval apparatus for retrieving a document according to a user's purpose from a plurality of documents retrieved using a designated character string, and means for temporarily holding the retrieved plurality of documents. It has means for selecting a document intended by the user from the temporarily stored documents, and means for searching a document similar to the document selected by the user from the temporarily stored sentences. Document retrieval device.
【請求項2】 請求項1記載の文書検索装置において、 前記一時的に保持された文書中の単語を抽出する手段
と、 この単語情報を用いて前記ユーザが選択した文書との類
似度を求める手段と、 この類似度情報を用いて前記ユーザが選択した文書と類
似した文書を検索する手段を有することを特徴とする文
書検索装置。
2. The document search device according to claim 1, wherein a means for extracting a word in the temporarily held document and a similarity between the word information and the document selected by the user are obtained. A document retrieving apparatus comprising means and means for retrieving a document similar to the document selected by the user using the similarity information.
JP7260097A 1995-10-06 1995-10-06 Document retrieving device Withdrawn JPH09101951A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7260097A JPH09101951A (en) 1995-10-06 1995-10-06 Document retrieving device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7260097A JPH09101951A (en) 1995-10-06 1995-10-06 Document retrieving device

Publications (1)

Publication Number Publication Date
JPH09101951A true JPH09101951A (en) 1997-04-15

Family

ID=17343258

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7260097A Withdrawn JPH09101951A (en) 1995-10-06 1995-10-06 Document retrieving device

Country Status (1)

Country Link
JP (1) JPH09101951A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009019858A1 (en) * 2007-08-08 2009-02-12 Panasonic Corporation Program retrieval support device and its method
JP2011519103A (en) * 2008-04-29 2011-06-30 エヌエイチエヌ ビジネス プラットフォーム コーポレーション Search result providing system and method for providing search result or advertisement based on similarity between contents

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009019858A1 (en) * 2007-08-08 2009-02-12 Panasonic Corporation Program retrieval support device and its method
US8195687B2 (en) 2007-08-08 2012-06-05 Panasonic Corporation Program retrieval support device for accumulating and searching pieces of program information and corresponding programs and a method for performing the same
JP2011519103A (en) * 2008-04-29 2011-06-30 エヌエイチエヌ ビジネス プラットフォーム コーポレーション Search result providing system and method for providing search result or advertisement based on similarity between contents

Similar Documents

Publication Publication Date Title
US6366908B1 (en) Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method
JP3820242B2 (en) Question answer type document search system and question answer type document search program
US6904429B2 (en) Information retrieval apparatus and information retrieval method
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP2742115B2 (en) Similar document search device
JPH0424869A (en) Document processing system
JPWO2018097091A1 (en) Model creation device, text search device, model creation method, text search method, data structure, and program
US20100293162A1 (en) Automated Keyword Generation Method for Searching a Database
JP3173411B2 (en) Related document search device and recording medium storing related document search program
KR100396826B1 (en) Term-based cluster management system and method for query processing in information retrieval
JPH1049543A (en) Document retrieval device
JP4888677B2 (en) Document search system
JPH09319767A (en) Synonym dictionary registering method
JPH06215035A (en) Text retrieving device
JPH09101951A (en) Document retrieving device
JPH10149370A (en) Document retrieval method and device using context information
JPH03132872A (en) Index information generating device
JP2732661B2 (en) Text type database device
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
JPH08339376A (en) Foreign language retrieving device and information retrieving system
JPH0950435A (en) Translation device
JP3436109B2 (en) Related search formula search device and computer-readable recording medium storing related search formula search program
JPH0793345A (en) Document retrieval device
JPH08249341A (en) Document storage and retrieval device for document data base
JP2003263458A (en) Method and device for analyzing text

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20030107