JP2002049638A - Document information retrieval device, method, document information retrieval program and computer readable recording medium storing document information retrieval program - Google Patents

Document information retrieval device, method, document information retrieval program and computer readable recording medium storing document information retrieval program

Info

Publication number
JP2002049638A
JP2002049638A JP2001131097A JP2001131097A JP2002049638A JP 2002049638 A JP2002049638 A JP 2002049638A JP 2001131097 A JP2001131097 A JP 2001131097A JP 2001131097 A JP2001131097 A JP 2001131097A JP 2002049638 A JP2002049638 A JP 2002049638A
Authority
JP
Japan
Prior art keywords
search
document
file
keyword
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001131097A
Other languages
Japanese (ja)
Inventor
Seiichiro Abe
静一郎 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001131097A priority Critical patent/JP2002049638A/en
Publication of JP2002049638A publication Critical patent/JP2002049638A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To retrieve a document similar to a document that is not registered in a retrieval database by a simple operation quickly. SOLUTION: This document information retrieval device retrieves document information in a server 10 and replies on the basis of a retrieval request from a client 12, and when a retrieval condition designating part 26 in the client 12 designates a document file as a retrieval condition, transmits the designated contents of the file through a network. A document retrieving part 30 in a retrieval machine 20 installed on the server 10 side generates a key word from the contents of the file transmitted from the retrieval condition designating part 26, and retrieves a similar document by an index (important word string extracted from a retrieval subject document 25).

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、大量の文書データ
の中から必要な文書を迅速に探し出すための文書情報検
索装置、方法及び文書情報検索プログラムを格納したコ
ンピュータ可読の記録媒体に関し、特に、文書ファイル
そのものを検索条件に指定するという簡単な操作で内容
が類似する文書を捜し出す文書情報検索装置、方法及び
文書情報検索プログラムを格納したコンピュータ可読の
記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document information retrieving apparatus and method for quickly retrieving a required document from a large amount of document data, and a computer-readable recording medium storing a document information retrieving program. The present invention relates to a document information search device and method for searching for documents having similar contents by a simple operation of designating a document file itself as a search condition, and a computer-readable recording medium storing a document information search program.

【0002】[0002]

【従来の技術】従来、ネットワーク環境を利用した文書
管理システムにあっては、インターネットやイーサネッ
ト(R)上に存在する大量の文書データから必要な文書
を検索してすばやく参照することのできる文書情報検索
装置を提供している。
2. Description of the Related Art Conventionally, in a document management system using a network environment, document information which allows a user to search for a required document from a large amount of document data existing on the Internet or Ethernet (R) and to quickly refer to the document information. Provides a search device.

【0003】この場合の文書検索は、ユーザが必要とす
る文書に含まれていると思われる1又は複数の適当な単
語や文字列をキーワードとして指定し、この指定したキ
ーワードの単語を含む文書を検索データベースから検索
し、文書一覧を検索結果として表示する。
[0003] In this case, in the document search, one or a plurality of appropriate words or character strings that are considered to be included in a document required by the user are designated as keywords, and a document containing the word of the designated keyword is searched. Search from the search database and display a list of documents as search results.

【0004】この文書情報検索装置にあっては、ネット
ワーク上に存在する検索対象文書について、その内容か
ら重要語を抽出して列挙したインデックスを文書毎に作
成して検索データベースに保存している。そしてユーザ
からキーワードを指定した検索要求があれば、検索デー
タベースのインデックスを検索して文書一覧の検索結果
を出すようにしている。
In this document information search apparatus, for a search target document existing on a network, an important word is extracted from the contents and an enumerated index is created for each document and stored in a search database. When a user issues a search request specifying a keyword, an index of a search database is searched to obtain a search result of a document list.

【0005】更に、従来の文書情報検索装置は、ユーザ
がキーワード指定で検索した文書一覧の中から必要と思
われる文書を検索した後、文書一覧の中から選んだ文書
について類似文書検索を指定すると、検索文書の中に出
現する頻度の高い用語が自動的に抽出され、前回実行さ
れた検索条件に論理和の条件で付加され、類似文書の検
索を行うことができる。
Further, the conventional document information search apparatus searches for a document that is deemed necessary from a list of documents searched by a user by specifying a keyword, and then specifies a similar document search for a document selected from the list of documents. A term frequently appearing in a search document is automatically extracted and added to the previously executed search condition by a logical sum condition, so that a similar document can be searched.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、ユーザ
が電子メールやインターネットで、興味ある文書を入手
し、この文書に類似した内容の文書を検索したい場合、
現状では入手した文書に含まれている単語や文字列を選
んでキーワードにいちいち指定し、まず検索結果として
文書一覧を得る。次に、検索した文書一覧の中から文書
を選択して類似文書検索を指定して類似文書の検索を行
わなければならない。
However, if a user obtains a document of interest via e-mail or the Internet and wants to search for a document similar in content to this document,
At present, a word or a character string included in an obtained document is selected and designated as a keyword, and a document list is first obtained as a search result. Next, a similar document must be searched by selecting a document from the searched document list and specifying a similar document search.

【0007】即ち、電子メールやインターネットで入手
した文書の類似検索を行おうとしても、従来の文書情報
検索装置は、既に検索データベースに登録されている文
書しか、文書を検索条件に指定した類似文書の検索はで
きず、ユーザが電子メールやインターネットで入手した
文書を検索条件に使って直接的に類似文書の検索を行う
ことができない。
That is, even if a similar search for a document obtained by e-mail or the Internet is to be performed, the conventional document information search apparatus only searches for a document already registered in the search database, and searches for a similar document that specifies the document as a search condition. Cannot be searched, and a user cannot directly search for a similar document by using a document obtained by e-mail or the Internet as a search condition.

【0008】このためユーザが電子メールやインターネ
ットで入手した文書の中から、文書検索に必要と思われ
るキーワードを選んで検索条件として入力する必要があ
り、キーワードが多くある場合は入力に手間がかかる。
またキーワードの指定が十分でないと検索漏れを生じ、
期待した検索結果が得られない場合がある。
For this reason, it is necessary for the user to select a keyword deemed necessary for document search from the documents obtained by e-mail or the Internet and input it as a search condition. If there are many keywords, it takes time to input. .
If the keyword is not specified enough, search omission will occur,
In some cases, expected search results cannot be obtained.

【0009】更に文書一覧として得られる検索数が膨大
となることもあり、文書一覧から関連すると思われる文
書を開いて必要な文書を捜し出す大変な手間がかかる場
合がある。
Further, the number of searches obtained as a document list may be enormous, and it may take a great deal of trouble to open a document considered to be related from the document list and search for a necessary document.

【0010】本発明は、検索データベースに登録されて
いない文書に類似した文書の検索を簡単な操作ですばや
くできる文書情報検索装置、方法及び文書情報検索プロ
グラムを格納したコンピュータ可読の記録媒体を提供す
ることを目的とする。
SUMMARY OF THE INVENTION The present invention provides a document information search apparatus and method capable of quickly searching for a document similar to a document not registered in a search database by a simple operation, and a computer-readable recording medium storing a document information search program. The purpose is to:

【0011】[0011]

【課題を解決するための手段】図1は本発明の原理説明
図である。本発明は、クライアント12等からのネット
ワークを経由した検索要求に基づいてサーバ10等の検
索側で文書情報を検索して応答する文書情報検索装置で
あって、クライアント12等の要求元に、検索条件にフ
ァイルを指定した場合に、指定したファイル内容をネッ
トワークを経由して送信する検索条件指定部26を設
け、サーバ10等の検索側に、検索条件指定部26から
送信されたファイル内容からキーワードを生成して類似
文書を検索する検索マシン20を設けたことを特徴とす
る。
FIG. 1 is a diagram illustrating the principle of the present invention. The present invention relates to a document information search apparatus that searches and responds to document information on a search side such as a server 10 based on a search request from a client 12 or the like via a network. When a file is specified as a condition, a search condition specifying unit 26 that transmits the specified file content via a network is provided. A search side such as the server 10 transmits a keyword based on the file content transmitted from the search condition specifying unit 26 to the server 10 or the like. , And a search machine 20 for searching for similar documents is provided.

【0012】このため電子メールやインターネット等で
興味のある内容を含む文書を入手し、この文書に類似し
た内容の文書を検索したい場合等に、文書の指定により
アップロードされたファイルを検索条件に指定すること
で、内容が類似する文書を検索することができる。この
ためデータベース登録されていない文書であっても自由
に検索条件として指定することができ、手間のかかる文
書内容に基づいたキーワードの入力を不要とし、簡単且
つ迅速に類似文書を探し出すことができる。
For this reason, when a document containing the content of interest is obtained by e-mail, the Internet, or the like, and a user wants to search for a document having a content similar to this document, the uploaded file is specified as a search condition by specifying the document. By doing so, documents with similar contents can be searched. Therefore, even a document that is not registered in the database can be freely designated as a search condition, and it is not necessary to input a keyword based on the troublesome document content, and a similar document can be found easily and quickly.

【0013】検索要求元の検索条件指定部26は、指定
されたファイル内容の先頭ファイル部分を送信する。通
常、文書検索に必要な重要なキーワードは文書の先頭部
分に多く存在することから、ファイル内容の先頭部分だ
け、例えば先頭の1KB部分を検索条件として送信す
る。また検索条件に使用する文書ファイルのサイズは様
々であることから、検索条件として送信するファイル容
量を決めることで、通信負荷と検索側の処理を軽減す
る。
The search condition specifying unit 26 of the search request source transmits the first file portion of the specified file contents. Normally, since important keywords required for document search are often present at the beginning of a document, only the beginning of the file contents, for example, the first 1 KB portion, is transmitted as a search condition. Further, since the size of the document file used for the search condition varies, the communication load and the processing on the search side are reduced by determining the size of the file to be transmitted as the search condition.

【0014】検索条件指定部26は検索条件として指定
するファイルにHTMLファイル及びエクセルファイル
を含む。勿論、これ以外のファイル形式であっても、テ
キスト文書の抽出が可能なファイルであれぱ、任意のフ
ァイル形式のものを含む。
The search condition specification section 26 includes HTML files and Excel files in files specified as search conditions. Of course, other file formats include any file format as long as the text document can be extracted.

【0015】サーバ10側の検索マシン20には、検索
対象文書から抽出した重要語を列挙したインデックス情
報を文書毎に保存したデータベース22が設けられる。
また検索マシン20のファイル指定検索部30は、検索
要求に伴って受信したファイル内容からテキスト文を抽
出するテキスト抽出処理部36、テキスト文の形態素解
析により名詞を抽出する形態素回析部38、名詞の中か
ら重要語を抽出して論理和でつなげたキーワードを生成
するキーワード生成部40、及びキーワードによる検索
データベース22の検索で類似する文書を検索してクラ
イアントに検索結果を通知する検索実行部42を備え
る。
The search machine 20 on the server 10 side is provided with a database 22 in which index information listing key words extracted from documents to be searched is stored for each document.
The file designation search unit 30 of the search machine 20 includes a text extraction processing unit 36 that extracts a text sentence from the file content received in response to the search request, a morphological analysis unit 38 that extracts a noun by morphological analysis of the text sentence, A keyword generation unit 40 that extracts keywords from among the keywords and generates a keyword connected by a logical sum, and a search execution unit 42 that searches for a similar document by searching the search database 22 using the keyword and notifies the client of the search result. Is provided.

【0016】キーワード生成部40は、各名詞が検索デ
ータベース22に格納した検索文書毎のインデックス中
の何文書に出現するかの出現数Hをカウントし、所定範
囲の出現数Hをもつ上位の所定数の単語を選択してキー
ワードを生成する。
The keyword generation section 40 counts the number of appearances H of each document in the index of each search document stored in the search database 22 and determines the number of occurrences H in a predetermined range. Select a number of words to generate keywords.

【0017】キーワード生成部40は、インデックス中
の文書数Nとした場合、例えば出現数Hが 2N/3≧H≧1 の範囲の出現数をもつ上位の10個の単語を選択してキ
ーワードを生成する。これによりデータベースのインデ
ックスに登録している既存文書の類似検索に必要な重要
語を絞り込み、類似検索の精度を高める。
When the number of documents in the index is N, the keyword generation unit 40 selects, for example, the top 10 words having the number of appearances H in the range of 2N / 3 ≧ H ≧ 1 and selects the keyword as a keyword. Generate. This narrows down important words necessary for similarity search of existing documents registered in the index of the database, and improves the accuracy of similarity search.

【0018】更にキーワード生成部40は、検索要求に
伴って受信したファイルから抽出したプロパティ情報を
キーワードに含めて検索させる。この場合のプロパティ
情報は、検索要求に伴って受信したファイルの作成者、
文書タイトル等である。このように検索条件に、ファイ
ルのプロパティ情報を加えることで、例えば作成者等を
特定したい場合の類似文書の絞り込みが適切にできる。
Further, the keyword generation section 40 causes the property information extracted from the file received along with the search request to be included in the keyword and searched. In this case, the property information includes the creator of the file received with the search request,
Document title, etc. By adding the property information of the file to the search condition in this way, it is possible to appropriately narrow down the similar documents when it is desired to specify the creator, for example.

【0019】検索要求元の検索条件指定部26はクライ
アント12のWWWブラウザ16で提供され、WWWブ
ラウザ16の検索要求画面で指定したファイル内容をネ
ットワークを介してWWWサーバ18に送信して検索マ
シン20に引き渡す。
The search condition specifying unit 26 of the search request source is provided by the WWW browser 16 of the client 12, transmits the file contents specified on the search request screen of the WWW browser 16 to the WWW server 18 via the network, and Hand over to

【0020】本発明は、またサーバ等の検索側の文書情
報検索装置となる検索マシン20を提供する。この検索
マシン20としての文書情報検索装置は、検索対象文書
から抽出した重要語を列挙したインデックス情報を文書
毎に保存している検索データベース22、文書ファイル
を検索条件に指定したネットワークからの検索要求によ
って受信したファイル内容からテキスト文を抽出するテ
キスト抽出処理部36、テキスト文の形態素解析により
名詞を抽出する形態素解析部28、名詞の中から重要語
を抽出して論理和でつなげたキーワードを生成するキー
ワード生成部40、及びキーワードによる検索データベ
ースの検索で類似する文書検索して要求元に検索結果を
通知する検索実行部42を備える。
The present invention also provides a search machine 20 serving as a document information search device on the search side such as a server. The document information search device as the search machine 20 includes a search database 22 storing index information listing key words extracted from a search target document for each document, and a search request from a network specifying a document file as a search condition. A text extraction processing unit 36 that extracts a text sentence from the file content received by the morphological analysis unit 28, a morphological analysis unit 28 that extracts a noun by morphological analysis of the text sentence, and extracts a key word from the noun to generate a keyword connected by a logical sum And a search execution unit 42 that searches for a similar document by searching a search database using a keyword and notifies the request source of the search result.

【0021】本発明は、クライアント等の検索要求元か
らのネットワークを経由した検索要求に基づいてサーバ
等の検索マシン側で文書情報を検索して応答する文書情
報検索方法を提供する。この文書情報検索方法は、検索
対象文書から抽出した重要語を列挙したインデックス情
報を文書毎にサーバの検索データベースに保存し;文書
ファイルを検索条件に指定した場合に、指定したファイ
ル内容を検索要求と共にネットワークを経由して検索側
に送信し;検索側で、検索要求に伴って受信したファイ
ル内容からテキスト文を抽出すると共にテキスト文の形
態素解析により名詞を抽出し、次に名詞の中から重要語
を抽出して論理和でつなげたキーワードを生成し、該キ
ーワードによる検索データベースの検索で類似する文書
を検索してクライアントに検索結果を通知することを特
徴とする。この文書情報検索方法の詳細は装置構成と基
本的に同じになる。
The present invention provides a document information search method for searching and responding to document information on a search machine such as a server based on a search request via a network from a search request source such as a client. In this document information search method, index information in which important words extracted from a search target document are listed is stored in a search database of a server for each document; when a document file is specified as a search condition, a search request for the specified file content is made. With the searcher via the network; the searcher extracts the text sentence from the file content received in response to the search request, and extracts the noun by morphological analysis of the text sentence. The method is characterized in that keywords are extracted and a keyword connected by a logical sum is generated, a similar document is searched by searching the search database using the keyword, and a search result is notified to a client. The details of this document information search method are basically the same as the device configuration.

【0022】更に、本発明は、文書情報検索プログラム
を格納したコンピュータ可読の記録媒体を提供するもの
で、この文書情報検索プログラムは、文書ファイルを検
索条件に指定した検索要求を受信するステップと、検索
要求に伴って受信したファイル内容からテキスト文を抽
出するステップと、テキスト文の形態素解析により名詞
を抽出するステップと、名詞の中から重要語を抽出して
論理和でつなげたキーワードを生成するステップと、キ
ーワードによるデータベースの検索で類似する文書を検
索して要求元に検索結果を通知するステップとを備え
る。
Further, the present invention provides a computer-readable recording medium storing a document information search program, the document information search program receiving a search request specifying a document file as a search condition; Extracting a text sentence from the file content received in response to the search request, extracting a noun by morphological analysis of the text sentence, extracting an important word from the noun and generating a keyword connected by a logical sum And a step of searching for a similar document by searching the database using a keyword and notifying the request source of the search result.

【0023】更に本発明は、文書情報検索プログラムを
提供するものであり、このプログラムは、コンピュータ
に、文書ファイルを検索条件に指定した検索要求を受信
するステップと、検索要求に伴って受信したファイル内
容からテキスト文を抽出するステップと、テキスト文の
形態素解析により名詞を抽出するステップと、名詞の中
から重要語を抽出して論理和でつなげたキーワードを生
成するステップと、キーワードによるデータベースの検
索で類似する文書を検索して要求元に検索結果を通知す
るステップとを実行させることを特徴とする。
Further, the present invention provides a document information search program, the program comprising: a step of receiving a search request in which a document file is specified as a search condition; Extracting a text sentence from the content, extracting a noun by morphological analysis of the text sentence, extracting an important word from the noun and generating a keyword connected by a logical sum, and searching the database by the keyword And searching for similar documents and notifying the requester of the search result.

【0024】[0024]

【発明の実施の形態】図2は、本発明による文書情報検
索装置のシステム構成であり、インターネットやイーサ
ネット(R)を利用したサーバクライアント型の検索シ
ステムとして構築した場合を例にとっている。
FIG. 2 shows a system configuration of a document information retrieval apparatus according to the present invention, taking as an example a case where the document information retrieval apparatus is constructed as a server-client type retrieval system using the Internet or Ethernet (R).

【0025】図2において、サーバ10に対しては、ユ
ーザ側のクライアント12がインターネット/イントラ
ネット14を介して接続される。クライアント12には
検索用のWWWブラウザ16が設けられており、このW
WWブラウザ16を利用してサーバ10に対し文書情報
の検索要求を行い、サーバ10側の検索結果を表示す
る。
In FIG. 2, a client 12 on the user side is connected to the server 10 via the Internet / intranet 14. The client 12 is provided with a WWW browser 16 for searching.
A search request for document information is made to the server 10 using the WW browser 16, and the search result on the server 10 side is displayed.

【0026】サーバ10には、WWWサーバ18、検索
マシン20、文書データベース24が設けられている。
検索マシン20には検索データベース22が格納されて
いる。また文書データベース24には検索対象文書25
が格納されている。更にWWWサーバ18に対して外部
の文書管理サーバ44,48が接続され、この文書管理
サーバ44,48にも文書データベース46,50が設
けられており、それぞれ検索対象文書25を格納してい
る。
The server 10 includes a WWW server 18, a search machine 20, and a document database 24.
The search machine 20 stores a search database 22. The document database 24 has a search target document 25.
Is stored. Further, external document management servers 44 and 48 are connected to the WWW server 18, and the document management servers 44 and 48 are also provided with document databases 46 and 50, respectively, and store the search target documents 25.

【0027】サーバ10に設けているWWWサーバ18
は、ブラウザ16からの検索要求を受信して検索マシン
20に対し検索を依頼する。また検索マシン20から返
ってきた検索結果をブラウザ16に返して表示させる。
The WWW server 18 provided in the server 10
Receives the search request from the browser 16 and requests the search machine 20 for the search. The search result returned from the search machine 20 is returned to the browser 16 for display.

【0028】検索データベース22は、全文検索を高速
に処理するために、検索対象となる文書に記述されてい
る重要な単語の集合で作られたインデックスを管理する
保管庫として機能する。このインデックスには文書の文
書名やその保管場所が記録されており、ブラウザ16か
ら検索要求を受けた際には、検索データベース22のイ
ンデックスを対象に検索マシン20が検索処理を実行す
る。
The search database 22 functions as a repository for managing an index made up of a set of important words described in a document to be searched in order to process a full-text search at high speed. The index records the document name of the document and its storage location. When a search request is received from the browser 16, the search machine 20 executes a search process on the index of the search database 22.

【0029】文書データベース24には、文書管理サー
バ44,48から収集した検索対象文書25が格納され
ており、この文書データベース検索対象文書25を対象
に検索データベース22のインデックスが作成されてい
る。
The document database 24 stores search target documents 25 collected from the document management servers 44 and 48, and an index of the search database 22 is created for the document database search target documents 25.

【0030】このようなサーバクライアント型の検索シ
ステムにあっては、クライアント12のブラウザ16を
使用して、ユーザが指定した検索条件をインターネット
/イントラネット14を経由してサーバ10側のWWW
サーバ18に送る。WWWサーバ18で受信された検索
要求に含まれる指定された検索条件が、WWWサーバ1
8から検索マシン20に送られる。
In such a server-client type search system, using the browser 16 of the client 12, the search condition specified by the user is transmitted to the WWW of the server 10 via the Internet / intranet 14.
Send to server 18. The specified search condition included in the search request received by the WWW server 18 is the WWW server 1
8 to the search machine 20.

【0031】検索マシン20は検索データベース22か
ら検索条件にあった文書を検索し、検索結果をWWWサ
ーバ18に通知する。WWWサーバ18は検索マシン2
0からの検索結果をクライアント12のブラウザ16に
送って表示させる。
The search machine 20 searches the search database 22 for documents that meet the search conditions, and notifies the WWW server 18 of the search results. WWW server 18 is search machine 2
The search result from 0 is sent to the browser 16 of the client 12 and displayed.

【0032】ユーザはブラウザ16で処理された検索結
果を見て、検索結果に記述されたリンクを選択すること
で、選択された文書の中からユーザが希望する検索対象
文書25をWWWサーバ18経由でアップロードして内
容を見ることができる。
The user looks at the search result processed by the browser 16 and selects a link described in the search result, so that the search target document 25 desired by the user is selected from the selected documents via the WWW server 18. You can upload and view the contents.

【0033】図3は図2の検索システムにおける機能構
成のブロック図である。まずユーザ側となるWWWブラ
ウザ16には検索条件指定部26が設けられている。本
発明の検索条件指定部26は、検索条件としてユーザが
インターネットや電子メールなどで入手した文書ファイ
ルを直接、検索条件として指定し、指定したファイル内
容をインターネット/イントラネット14経由でWWW
サーバ18を経由して検索マシン20の文書検索部30
に送信する。
FIG. 3 is a block diagram of a functional configuration in the search system of FIG. First, the WWW browser 16 on the user side is provided with a search condition specifying unit 26. The search condition specifying unit 26 according to the present invention directly specifies a document file obtained by the user via the Internet or e-mail as a search condition, and specifies the specified file content via the Internet / intranet 14 via the WWW.
Document search unit 30 of search machine 20 via server 18
Send to

【0034】また検索条件指定部26は、本発明で新た
に提供されるファイル指定の検索条件とする以外に、
(1)キーワード検索、(2)文書のタイトル、作成
者、本文ごとにキーワードを指定して検索する詳細検
索、(3)日常的な言葉や文章を入力することにより本
文内容を関連する文書を検索する文章検索、更に、
(4)検索データベース22に登録済みの既存文書を検
索条件に使用した類似文書検索、などの検索条件の指定
も可能である。
The search condition designating section 26 includes a search condition for file designation newly provided in the present invention,
(1) Keyword search, (2) Detailed search to search by specifying keywords for each document title, creator, text, and (3) Document related to text content by inputting everyday words and sentences Sentence search to search, furthermore
(4) It is also possible to specify search conditions such as similar document search using an existing document registered in the search database 22 as a search condition.

【0035】WWWサーバ18側に設けられた検索マシ
ン20には、検索データベース作成部28、文書検索部
30及び文書参照部32が設けられている。検索データ
ベース作成部28は検索データベース22にインデック
スを作成して登録する。
The search machine 20 provided on the WWW server 18 is provided with a search database creation unit 28, a document search unit 30, and a document reference unit 32. The search database creation unit 28 creates and registers an index in the search database 22.

【0036】即ち検索データベース作成部28は、文書
データベース24に収集されて保存されている検索対象
文書25の1つ1つについて、検索対象文書25に記述
されている重要語を抽出し、抽出された単語の集合で構
成されたインデックスを作成して保存する。もちろん、
このインデックスには検索対象文書の文書名や保管場所
などが併せて記録されている。
That is, the search database creation unit 28 extracts the key words described in the search target document 25 from each of the search target documents 25 collected and stored in the document database 24, and Create and save an index composed of a set of words. of course,
The index also records the document name and storage location of the search target document.

【0037】文書検索部30は、WWWブラウザ16の
検索条件指定部26から送信された検索条件としてファ
イルを指定した際のファイル内容からキーワードを生成
し、検索データベース22のインデックスに含まれてい
る重要単語の集合との検索照合を行い、WWWブラウザ
16で検索条件として指定したファイルの文書に類似す
る文書を検索し、検索結果をWWWサーバ18からWW
Wブラウザ16に返して表示させる。
The document search unit 30 generates a keyword from the file content when a file is specified as the search condition transmitted from the search condition specification unit 26 of the WWW browser 16, and generates an important keyword included in the index of the search database 22. A search and collation with a set of words are performed, a document similar to the document of the file specified as the search condition is searched by the WWW browser 16, and the search result is sent from the WWW server 18 to the WWW server 18.
It is returned to the W browser 16 and displayed.

【0038】文書参照部32は、WWWブラウザ16で
送出された検索結果としての文書一覧から参照したい文
書を選択すると、WWWサーバ18を介して文書参照部
32に通知されると、文書データベース24の中から要
求された参照文書を取り出してWWWブラウザ16に返
す。
When the document reference unit 32 selects a document to be referenced from the document list as a search result sent from the WWW browser 16 and notifies the document reference unit 32 via the WWW server 18, the document reference unit 32 The requested reference document is extracted from the inside and returned to the WWW browser 16.

【0039】図4は、図3の検索マシン20に設けた本
発明の文書検索部30の機能構成の詳細である。
FIG. 4 shows details of the functional configuration of the document search unit 30 of the present invention provided in the search machine 20 of FIG.

【0040】図4において、文書検索部30には、検索
指定ファイル格納部34、テキスト抽出処理部36、形
態素解析部38、キーワード作成部40及び検索実行部
42が設けられている。また検索データベース22内に
は、図3の検索データベース作成部28で作成された文
書データベース24内の検索対象文書25のそれぞれの
重要単語の集合、文書名、保管場所などで構成されたイ
ンデックス52が格納されている。
In FIG. 4, the document search unit 30 includes a search designation file storage unit 34, a text extraction processing unit 36, a morphological analysis unit 38, a keyword creation unit 40, and a search execution unit 42. In the search database 22, an index 52 including a set of important words, a document name, a storage location, and the like of each of the search target documents 25 in the document database 24 created by the search database creation unit 28 of FIG. Is stored.

【0041】文書検索部30の検索指定ファイル格納部
34には、図3のWWWブラウザ16における検索条件
指定部26のファイル指定により送信されたファイル内
容が格納される。
The file content transmitted by the file designation of the search condition designation unit 26 in the WWW browser 16 of FIG. 3 is stored in the search designation file storage unit 34 of the document search unit 30.

【0042】ここでWWWブラウザ16側からのファイ
ル内容の転送は、検索条件として指定した文書ファイル
の先頭ファイル部分、例えば先頭の1KBを切り出して
WWWサーバ18側に検索要求と共に送信する。
Here, the transfer of the file contents from the WWW browser 16 is performed by cutting out the first file portion of the document file designated as the search condition, for example, the first 1 KB, and transmitting it to the WWW server 18 together with the search request.

【0043】このように検索条件として送信するファイ
ル容量を例えば1KBというように固定容量とすること
で、検索条件として指定している文書ファイルのサイズ
の大小に関わらず、検索マシン20側に対する文書内容
の転送負荷を一定にし、また検索マシン20におけるフ
ァイル指定部検索部30による検索処理の安定化と迅速
化を図る。
As described above, by setting the file capacity to be transmitted as the search condition to a fixed capacity, for example, 1 KB, the content of the document to the search machine 20 can be determined regardless of the size of the document file specified as the search condition. In this case, the transfer load on the search machine 20 is made constant, and the search processing by the file specifying unit search unit 30 in the search machine 20 is stabilized and speeded up.

【0044】テキスト抽出処理部36は、検索指定ファ
イル格納部34に格納された検索条件として指定された
ファイル内容からテキスト文書を抽出する。WWWブラ
ウザ16における検索条件として指定される文書ファイ
ルの形式としては、電子メールのテキストファイル、イ
ンターネットにおけるHTMLファイル、更には集計リ
ストのエクセルファイルなどの様々なファイル形式があ
ることから、これらのファイル形式の相違に対して検索
機能を提供可能とするため、各種の形式の文書ファイル
の中からテキスト抽出処理部36によりテキスト文書の
みを抽出して検索条件に使用するようにしている。
The text extraction processing unit 36 extracts a text document from the contents of a file specified as a search condition stored in the search specification file storage unit 34. As a format of a document file specified as a search condition in the WWW browser 16, there are various file formats such as an e-mail text file, an HTML file on the Internet, and an Excel file of a summary list. In order to be able to provide a search function with respect to the differences, only the text documents are extracted from the document files of various formats by the text extraction processing unit 36 and used as search conditions.

【0045】続いて設けた形態素解析部38は、抽出さ
れたテキスト文書の中に含まれる名詞を形態素解析を用
いて抽出する。形態素解析部38で抽出された文書内容
の中の名詞はキーワード作成部40に送られ、キーワー
ド作成部40においては重要な名詞をキーワード作成の
ために抽出する。
Subsequently, a morphological analysis unit 38 extracts nouns included in the extracted text document by using morphological analysis. Nouns in the document content extracted by the morphological analysis unit 38 are sent to the keyword creation unit 40, and the keyword creation unit 40 extracts important nouns for keyword creation.

【0046】キーワード作成部40における重要語の抽
出は、まず各名詞が検索データベース22のインデック
ス52の中に登録している文書数Nの内の何文書で出現
するかの出現数Hのカウントを行う。
The keyword extraction unit 40 first extracts the important words by counting the number H of occurrences of each noun in the number N of documents registered in the index 52 of the search database 22. Do.

【0047】そして、インデックス52中における文書
出現数Hが求められたならば、出現数Hが予め定めた範
囲内、例えば (2N/3)≧H≧1 となる出現数の単語を選択する。このように選択された
単語の内の出現数Hが大きい上位10個の単語をキーワ
ード作成のために選択する。そして選択した重要単語1
0個を論理和で繋げたクエリ式を作成して検索実行部4
2に提供する。
When the document appearance number H in the index 52 is obtained, a word having the appearance number H within a predetermined range, for example, (2N / 3) ≧ H ≧ 1 is selected. Among the words selected in this way, the top 10 words having a large number of appearances H are selected for keyword creation. And the selected important word 1
Create a query expression by connecting 0 items with a logical sum, and execute the search execution unit 4
2 provided.

【0048】検索実行部42はキーワード作成部40か
ら与えられたクエリ式に基づいて検索データベース22
のインデックス52との検索照合を行い、所定の類似度
を満たすインデックスを検索結果として抽出し、検索結
果をWWWサーバ18によりWWWブラウザ16側に送
信し、検索結果の文書一覧の形でユーザに参照できるよ
うにする。
The search execution section 42 searches the search database 22 based on the query formula given from the keyword creation section 40.
Of the search 52, the index satisfying a predetermined similarity is extracted as a search result, the search result is transmitted to the WWW browser 16 side by the WWW server 18, and the search result is referred to the user in the form of a document list. It can be so.

【0049】更に文書検索部30にあっては、検索指定
ファイル格納部34に格納された検索条件として指定さ
れたファイルのプロパティ情報を利用した文書検索もで
きる。このためWWWブラウザ16の検索条件指定部2
6は、検索条件として文書ファイルを指定した際に、指
定した文書ファイルのプロパティ情報を抽出し、検索条
件として指定した文書の先頭ファイル部分、例えば先頭
ファイル部分1KBと共にプロパティ情報を検索マシン
20側に送信する。
Further, the document search unit 30 can perform a document search using property information of a file specified as a search condition stored in the search specification file storage unit 34. For this reason, the search condition specifying unit 2 of the WWW browser 16
6 extracts the property information of the specified document file when the document file is specified as the search condition, and sends the property information to the search machine 20 together with the first file portion of the document specified as the search condition, for example, 1 KB of the first file portion. Send.

【0050】図14の文書検索部30にあっては、ファ
イル内容からのテキスト文の抽出、形態素解析による名
詞抽出、名詞について重要語の選択によるキーワード作
成に加え、検索指定ファイル格納部34に格納されてい
るファイル内容に付加されたプロパティ情報から例えば
作成日や作成者、題名などを抽出し、キーワード作成部
40でプロパティ情報をキーワードに含め、検索実行部
42で検索データベース22のインデックス52の検索
を行う。
The document search unit 30 shown in FIG. 14 extracts text sentences from file contents, extracts nouns by morphological analysis, creates keywords by selecting important words for nouns, and stores them in a search designation file storage unit 34. For example, a creation date, a creator, a title, and the like are extracted from the property information added to the contents of the file, and the keyword creation unit 40 includes the property information in the keyword, and the search execution unit 42 searches the index 52 of the search database 22. I do.

【0051】図5は、図3の検索マシン20に設けてい
る検索データベース作成部28によるインデックス作成
処理の説明図である。この検索データベース作成部28
にあっては、ロボット54が外部の文書データベース4
6,50から文書66を収集してテンポラリファイル6
2に格納し、同時に収集文書リストファイル64に収集
した文書66のリストを加える。
FIG. 5 is an explanatory diagram of index creation processing by the search database creation unit 28 provided in the search machine 20 of FIG. This search database creation unit 28
, The robot 54 is connected to the external document database 4
Collect documents 66 from 6,50 and create temporary file 6
2 and a list of collected documents 66 is added to the collected document list file 64 at the same time.

【0052】続いてロボット54はテキスト抽出部56
に処理を渡し、テキスト抽出部56は収集文書リストフ
ァイル64から収集文書66を取り出し、抽出テキスト
ファイル68に格納する。
Subsequently, the robot 54 sets the text extraction unit 56
The text extracting unit 56 extracts the collected document 66 from the collected document list file 64 and stores it in the extracted text file 68.

【0053】次に重要語抽出部58に処理を渡し、重要
語抽出部58は抽出テキストファイル68の該当テキス
ト文書の中から形態素解析により名詞を抽出し、名詞に
ついてそれぞれ出現頻度をカウントし、例えば出現頻度
の高い単語の上位10個を重要語として抽出して重要語
ファイル70に格納する。
Next, the process is passed to an important word extraction unit 58, which extracts nouns from the corresponding text document of the extracted text file 68 by morphological analysis, counts the appearance frequency of each noun, and The top 10 words that appear frequently are extracted as important words and stored in the important word file 70.

【0054】次にインデックス作成部60に処理を渡
し、インデックス作成部60は重要語ファイル70か
ら、その文書について例えば上位10個の重要語の集合
を取り出し、更に文書名と保管場所を加えたインデック
スを作成し、検索データベース22にインデックス情報
として保存する。
Next, the process is passed to the index creation unit 60, and the index creation unit 60 extracts a set of, for example, the top 10 important words for the document from the keyword file 70, and further adds the document name and the storage location to the index. Is created and stored in the search database 22 as index information.

【0055】図6は、図3のWWWブラウザ16による
検索条件の指定と検索結果の表示を行うブラウザ処理の
フローチャートである。ユーザがWWWブラウザ16の
検索機能を開くと、ステップS1で検索画面が表示さ
れ、この検索画面を表示して、ステップS2で文書ファ
イルを指定した検索条件の指定操作を行う。
FIG. 6 is a flowchart of a browser process for specifying search conditions and displaying search results by the WWW browser 16 of FIG. When the user opens the search function of the WWW browser 16, a search screen is displayed in step S1, the search screen is displayed, and in step S2, a search condition specifying a document file is performed.

【0056】続いてステップS3で検索起動の有無をチ
ェックしており、検索起動を判別すると、ステップS4
でファイル指定検索か否かチェックする。ファイル指定
検索であればステップS5に進み、ユーザが指定したフ
ァイルを読み出し、ステップS6で指定ファイルの先頭
1KBを検索要求メッセージと共にサーバに送信する。
Subsequently, in step S3, the presence / absence of a search start is checked.
Check if it is a file specified search. If the search is a file designation search, the process proceeds to step S5, where a file designated by the user is read, and in step S6, the first 1 KB of the designated file is transmitted to the server together with a search request message.

【0057】ファイル指定検索でなければ、ステップS
7で、それ以外の検索例えばキーワード検索に対応した
検索要求メッセージをサーバに送信する。ステップS6
で指定ファイルの先頭部分をサーバに送信すると、ステ
ップS8で検索結果の受信待ちとなる。
If it is not a file designation search, step S
At 7, a search request message corresponding to another search, for example, a keyword search, is transmitted to the server. Step S6
When the head portion of the specified file is transmitted to the server in step, the process waits for reception of the search result in step S8.

【0058】ステップS8でサーバから検索結果が受信
されると、ステップS9に進み、検索結果の表示操作処
理を行ってユーザは検索内容を見る。このようなステッ
プS1〜S9の処理を、ステップS10で検索画面を閉
じる検索終了指示があるまで繰り返す。
When the search result is received from the server in step S8, the process proceeds to step S9, where the display result of the search operation is performed, and the user views the search content. Such processing of steps S1 to S9 is repeated until there is a search end instruction to close the search screen in step S10.

【0059】図7は、図6のブラウザ処理において検索
条件として文書ファイルを指定した場合の具体的な手順
と画面の様子を表わしている。
FIG. 7 shows a concrete procedure and a screen when a document file is specified as a search condition in the browser processing of FIG.

【0060】図7において、まずユーザは検索条件に指
定しようとする文書ファイル72を例えばインターネッ
トから取得している。そしてユーザは文書ファイル72
の内容を見て、この文書ファイル72に類似する文書検
索を行うため、文書ファイル72の内容を予め指定した
ファイル、例えばファイル「news.txt」に保存
する。
In FIG. 7, the user first obtains a document file 72 to be specified as a search condition from, for example, the Internet. Then, the user enters the document file 72
The contents of the document file 72 are saved in a file designated in advance, for example, a file “news.txt” in order to perform a document search similar to the document file 72 by looking at the contents of the document file 72.

【0061】続いてユーザはキーワード入力画面74を
開く。キーワード入力画面74にはキーワード入力部7
6、ファイル指定部78、参照ボタン80及び検索実行
ボタン82が設けられている。そこで、ユーザがキーワ
ード入力画面74の参照ボタン80を押すことでファイ
ル選択ダイアログ84を表示する。
Subsequently, the user opens the keyword input screen 74. The keyword input screen 74 has a keyword input section 7
6, a file designation section 78, a reference button 80, and a search execution button 82 are provided. Therefore, when the user presses the reference button 80 on the keyword input screen 74, a file selection dialog 84 is displayed.

【0062】このファイル選択ダイアログ84の中に
は、検索条件として指定したい文書ファイル72が保存
されていることから、ファイル名「news.txt」
をマウスクリックして選択すると、キーワード入力画面
74のファイル指定部78に選択したファイル名「ne
ws.txt」が設定される。
Since the file selection dialog box 84 stores the document file 72 to be specified as a search condition, the file name is “news.txt”.
Is selected by clicking with the mouse, and the selected file name “ne” is displayed in the file specification section 78 of the keyword input screen 74.
ws. txt ”is set.

【0063】このようにしてファイル指定部78による
ファイル指定が済んだならば、検索実行ボタン82を押
すことで、検索条件として指定された文書ファイル「n
ews.txt」の文書内容の先頭1KBが検索要求と
共にサーバに対し送信される。
When the file designation by the file designation section 78 is completed in this way, by pressing the search execution button 82, the document file "n" designated as the search condition is pressed.
ews. The first 1 KB of the document content of “txt” is transmitted to the server together with the search request.

【0064】図8は、図4の文書検索部30によって実
現されるサーバ検索処理のフローチャートである。この
サーバ検索処理は、ステップS1で検索条件として指定
された文書ファイルを読み込み、ステップS2で文書フ
ァイルからテキスト文書の抽出処理を行う。次にステッ
プS3で、抽出したテキスト文書の内容について形態素
解析を用いて名詞を抽出する。次にステップS4で、名
詞として抽出した各単語が検索データベース22に設け
ているインデックス52の中の文書数Nの内の何文書に
出現するかの出現数Hのカウント処理を行う。
FIG. 8 is a flowchart of a server search process realized by the document search unit 30 of FIG. In this server search process, a document file specified as a search condition is read in step S1, and a text document is extracted from the document file in step S2. Next, in step S3, nouns are extracted from the contents of the extracted text document using morphological analysis. Next, in step S4, a process of counting the number of occurrences H of the number of documents in the index 52 provided in the search database 22 in which each word extracted as a noun appears in the search database 22 is performed.

【0065】各単語のインデックス中の出現数Hがカウ
ントできたならば、ステップS5で出現数Hが(2N/
3)以下で1以上となる範囲の単語をまず選択し、この
選択した単語のうち出現数Hが大きい上位10個の単語
をキーワードに使用する重要語として選択する。続いて
ステップS6で、重要語として選択した10個の単語を
論理和で繋げたクエリ式を生成する。
If the number of appearances H in the index of each word has been counted, the number of appearances H is calculated as (2N /
3) First, words in a range of 1 or more are selected first, and among the selected words, the top 10 words having a large number of appearances H are selected as important words to be used as keywords. Subsequently, in step S6, a query expression in which the ten words selected as important words are connected by a logical sum is generated.

【0066】そしてステップS7で、検索キーワードと
して生成されたクエリ式による検索データベースのイン
デックスの検索を行い、生成したキーワードに対し所定
の類似度を持つインデックスの内容を検索文書として一
覧表にまとめ、ステップS8で検索結果をブラウザに送
信する。
In step S7, the search of the index of the search database is performed using the query expression generated as the search keyword, and the contents of the index having a predetermined similarity to the generated keyword are summarized in a list as a search document. In S8, the search result is transmitted to the browser.

【0067】図9は、図8のステップS2のテキスト抽
出処理の詳細である。このテキスト抽出処理にあって
は、ステップS1で文書ファイルの拡張子を解読する。
ファイル拡張子からステップS2でHTML文書である
ことが認識されると、ステップS3に進み、HTML文
書におけるボディタグ内のデータをテキストデータ本文
として抽出し、タグデータは取り除く。
FIG. 9 shows details of the text extraction process in step S2 of FIG. In this text extraction process, the extension of the document file is decoded in step S1.
If it is recognized from the file extension in step S2 that the document is an HTML document, the process proceeds to step S3, in which the data in the body tag in the HTML document is extracted as the text data body, and the tag data is removed.

【0068】例えば図10(A)のようなHTMLファ
イルを例にとると、< >で挟まれたボディ単語の中の
データをテキストデータ本文として取り出して、このタ
グデータは取り除くことで、図10(B)のような抽出
テキスト文書が得られる。
For example, taking an HTML file as shown in FIG. 10A as an example, the data in the body word sandwiched between <> is extracted as the text data body, and this tag data is removed. An extracted text document as shown in (B) is obtained.

【0069】次にステップS4で、OSで管理している
ファイルのプロパティ情報を獲得する。このプロパティ
情報は、例えばファイル所有者や文書タイプなどを含ん
でいる。
Next, in step S4, the property information of the file managed by the OS is obtained. This property information includes, for example, the file owner and the document type.

【0070】図11は、インターネットから入手した文
書ファイルのプロパティ情報の例であり、このプロパテ
ィ情報にあっては文書タイトル「文書管理システムにつ
いて」や作成日、変更日などが存在し、これらのプロパ
ティデータをキーワード生成のために獲得する。
FIG. 11 shows an example of property information of a document file obtained from the Internet. The property information includes a document title “about the document management system”, a creation date, a change date, and the like. Acquire data for keyword generation.

【0071】一方、ステップS2でHTML文書ではな
く例えばエクセル文書などであった場合には、ステップ
S5で文書ライブラリにファイルを渡し、テキストデー
タを獲得する。続いてステップS6で、プロパティ情報
獲得関数により文書ごとに設定されているファイルプロ
パティ情報例えば作成者や文書タイトルなどを獲得す
る。
On the other hand, if the document is not an HTML document but an Excel document, for example, in step S2, the file is transferred to the document library in step S5 to acquire text data. Subsequently, in step S6, file property information, such as a creator and a document title, set for each document is obtained by a property information obtaining function.

【0072】図12は本発明で検索条件として指定する
HTMLファイル以外のファイルとしてエクセルファイ
ルを示している。この図12のエクセルファイルについ
て、文書ライブラリに渡してテキストデータを獲得する
と、図13の抽出テキスト文書に示すようなエクセル文
書中に書き込まれているテキスト文書を抽出した結果が
得られる。
FIG. 12 shows an Excel file as a file other than the HTML file designated as a search condition in the present invention. When the text file is obtained by passing the Excel file of FIG. 12 to the document library, a result obtained by extracting the text document written in the Excel document as shown in the extracted text document of FIG. 13 is obtained.

【0073】このようなテキスト抽出処理で得られたH
TML文書やエクセル文書からのテキスト文書、更には
プロパティ情報から得られたテキスト文書をひとまとめ
にして、図8のステップS3で形態素解析を用いて名詞
を抽出し、ステップS4,S5で、データベースのイン
デックスの参照で重要語の上位10個をキーワードに選
択してクエリ式を作り、データベースのインデックス検
索を行って検索結果を得ることができる。
The H obtained by such a text extraction process
A text document from a TML document or an Excel document, and a text document obtained from property information are put together, and a noun is extracted using morphological analysis in step S3 of FIG. 8, and a database index is extracted in steps S4 and S5. , A query formula is created by selecting the top 10 important words as keywords, and a search result can be obtained by performing an index search of the database.

【0074】尚、図9のテキスト抽出処理におけるステ
ップS4,S6のプロパティ情報の獲得は、WWWブラ
ウザ16におけるユーザ側の指定によってプロパティ情
報を使用するか否かの選択が可能であり、プロパティ情
報を使うか否かは検索結果をどの程度絞り込むかのユー
ザ判断に依存する。
The property information acquisition in steps S4 and S6 in the text extraction processing in FIG. 9 can be selected by the user on the WWW browser 16 as to whether or not to use the property information. Whether to use it depends on the user's judgment on how narrow the search results should be.

【0075】本発明はまた、図4の検索マシン20に文
書検索部30の処理機能を実行させる文書情報検索プロ
グラムを記録したコンピュータ読取り可能な記録媒体を
提供する。この記録媒体の実施形態としては、CD−R
OMやフロッピディスクなどのリムーバブルな可搬型記
録媒体、回線によりプログラムを提供するプログラム提
供者の記憶装置、更にプログラムをインストールした処
理装置のRAMやハードディスクなどのメモリ装置を含
む。
The present invention also provides a computer-readable recording medium in which a document information search program for causing the search machine 20 of FIG. 4 to execute the processing function of the document search unit 30 is recorded. As an embodiment of this recording medium, a CD-R
It includes a removable portable recording medium such as an OM or a floppy disk, a storage device of a program provider that provides a program via a line, and a memory device such as a RAM or a hard disk of a processing device in which the program is installed.

【0076】また記録媒体によって提供された図4の文
書検索部30の機能を実現する文書情報検索プログラ
ム、具体的には図8及び図9のフローチャートの処理を
実行するステップを備えた文書情報検索プログラムは、
サーバなどの処理装置にローディングされ、その主メモ
リ上で実行される。
A document information search program for realizing the function of the document search unit 30 shown in FIG. 4 provided by the recording medium, more specifically, a document information search program having steps for executing the processing in the flowcharts shown in FIGS. The program is
It is loaded into a processing device such as a server and executed on its main memory.

【0077】またサーバ側にローディングされた本発明
の文書情報検索プログラムは、クライアント側からサー
ビス要求を受けると、クライアント12側にファイル指
定による検索条件の指定を行うWWWブラウザ機能をア
ップロードし、ユーザによる検索システムの利用を可能
とする。
The document information retrieval program of the present invention loaded on the server side, upon receiving a service request from the client side, uploads a WWW browser function for designating a retrieval condition by specifying a file to the client 12 side. Enable the use of a search system.

【0078】尚、上記の実施形態はサーバクライアント
型の検索システムを例にとるものであったが、本発明は
これに限定されず、ホスト端末型や適宜のシステム形態
をとることができる。また本発明は上記の実施形態に限
定されず、その目的と利点を損なわない適宜の変形を含
む。更にまた本発明は上記の実施形態に示した数値によ
る限定は受けない。
Although the above embodiment has been described with reference to the server-client type search system as an example, the present invention is not limited to this, and may take the form of a host terminal or an appropriate system. In addition, the present invention is not limited to the above-described embodiments, and includes appropriate modifications that do not impair the objects and advantages thereof. Furthermore, the present invention is not limited by the numerical values shown in the above embodiments.

【0079】(付記1)ネットワークを経由した検索要
求に基づいて文書情報を検索して応答する文書情報検索
装置に於いて、検索要求元に、検索条件としてファイル
を指定し、指定したファイル内容をネットワークを経由
して送信する検索条件指定部を設け、検索側に、前記検
索条件指定部から送信されたファイル内容からキーワー
ドを生成してデータベースから類似文書を検索する文書
検索部を設けたことを特徴とする文書情報検索装置。
(1)
(Supplementary Note 1) In a document information search apparatus that searches for and responds to document information based on a search request via a network, a file is specified as a search condition as a search request source, and the content of the specified file is specified. A search condition specifying unit for transmitting the data via the network; and a search unit for generating a keyword from the file content transmitted from the search condition specifying unit and searching the database for a similar document. Characteristic document information search device.
(1)

【0080】(付記2)付記1記載の文書情報検索装置
に於いて、前記検索条件指定部は、指定されたファイル
内容の先頭ファイル部分を送信することを特徴する文書
情報検索装置。
(Supplementary Note 2) In the document information search device according to Supplementary Note 1, the search condition specifying unit transmits a first file portion of the specified file content.

【0081】(付記3)付記1記載の文書情報検索装置
に於いて、前記検索条件指定部は検索条件として指定す
るファイルにHTMLファイル及びエクセルファイルを
含むことを特徴とする文書情報検索装置。
(Supplementary Note 3) The document information search device according to Supplementary Note 1, wherein the search condition specifying unit includes an HTML file and an Excel file in files specified as search conditions.

【0082】(付記4)付記1記載の文書情報検索装置
に於いて、前記データベースは、検索対象文書から抽出
した重要語を列挙したインデックス情報を文書毎に保存
し、サーバの文書検索部は、検索要求に伴って受信した
ファイル内容からテキスト文を抽出するテキスト抽出処
理部と、前記テキスト文の形態素解析により名詞を抽出
する形態素回析部と、前記名詞の中から重要語を抽出し
て論理和でつなげたキーワードを生成するキーワード生
成部と、前記キーワードによる検索データベースの検索
で類似する文書を検索してクライアントに検索結果を通
知する検索実行部と、を備えたことを特徴とする文書情
報検索装置。(2)
(Supplementary Note 4) In the document information search device according to Supplementary Note 1, the database stores, for each document, index information that lists important words extracted from the search target document, and the document search unit of the server includes: A text extraction processing unit that extracts a text sentence from the file content received along with the search request; a morpheme analysis unit that extracts a noun by morphological analysis of the text sentence; Document information, comprising: a keyword generation unit that generates a keyword connected by a sum; and a search execution unit that searches for a similar document by searching a search database using the keyword and notifies a client of a search result. Search device. (2)

【0083】(付記5)付記4記載の文書情報検索装置
に於いて、前記キーワード生成部は、各名詞が前記文書
データベースに格納した検索文書毎のインデックス中の
何文書に出現するかの出現数をカウントし、所定範囲の
出現数をもつ上位の所定数の単語を選択してキーワード
を生成することを特徴とする文書情報検索装置。(3)
(Supplementary Note 5) In the document information search device according to Supplementary Note 4, the keyword generation unit may determine the number of occurrences of each document in the index of each search document stored in the document database. A document information search apparatus, which counts a number of words and selects a predetermined number of upper words having a number of occurrences within a predetermined range to generate a keyword. (3)

【0084】(付記6)付記5記載の文書情報検索装置
に於いて、前記キーワード生成部は、インデックス中の
文書数Nとした場合、出現数Hが2N/3≧H≧1の範
囲の出現数をもつ上位の10個の単語を選択してキーワ
ードを生成することを特徴とする文書情報検索装置。
(4)
(Supplementary Note 6) In the document information search device according to Supplementary Note 5, when the number of documents in the index is N, the keyword generation unit may include an appearance number H in the range of 2N / 3 ≧ H ≧ 1 A document information search apparatus characterized by selecting top 10 words having a number and generating a keyword.
(4)

【0085】(付記7)付記5記載の文書情報検索装置
に於いて、前記キーワード生成部は検索要求に伴って受
信したファイルから抽出したプロパティ情報を前記キー
ワードに含めて検索させることを特徴とする文書情報検
索装置。(5)
(Supplementary Note 7) In the document information search device according to Supplementary Note 5, the keyword generation unit may perform a search by including property information extracted from a file received along with the search request in the keyword. Document information retrieval device. (5)

【0086】(付記8)付記7記載の文書情報検索装置
に於いて、前記プロパティ情報は、検索要求に伴って受
信したファイルの作成者、文書タイトル等であることを
特徴とする文書情報検索装置。
(Supplementary Note 8) In the document information search device according to supplementary note 7, the property information is a creator of a file, a document title, and the like received in response to the search request. .

【0087】(付記9)付記1記載の文書情報検索装置
に於いて、前記検索要求元の検索条件指定部はクライア
ントのWWWブラウザで提供され、前記WWWブラウザ
の検索要求画面で指定したファイル内容をネットワーク
を介してWWWサーバの検索マシンに送信して前記文書
検索部に引き渡すことを特徴とする文書情報検索装置。
(Supplementary Note 9) In the document information search device according to Supplementary Note 1, the search condition specifying unit of the search request source is provided by a WWW browser of a client, and a file content specified on a search request screen of the WWW browser is read A document information retrieval apparatus, which transmits the document information to a retrieval machine of a WWW server via a network and delivers the document to the document retrieval unit.

【0088】(付記10)検索対象文書から抽出した重
要語を列挙したインデックス情報を文書毎に保存してい
るデータベースと、文書ファイルを検索条件に指定した
ネットワークからの検索要求によって受信したファイル
内容からテキスト文を抽出するテキスト抽出処理部と、
前記テキスト文の形態素解析により名詞を抽出する形態
素解析部と、前記名詞の中から重要語を抽出して論理和
でつなげたキーワードを生成するキーワード生成部と、
前記キーワードによるデータベースの検索で類似する文
書を検索して要求元に検索結果を通知する検索実行部
と、を備えたことを特徴とする文書情報検索装置。
(6)
(Supplementary Note 10) A database storing index information listing important words extracted from a search target document for each document, and a file content received by a search request from a network specifying a document file as a search condition. A text extraction processing unit for extracting a text sentence,
A morphological analysis unit that extracts a noun by morphological analysis of the text sentence, and a keyword generation unit that extracts an important word from the noun and generates a keyword connected by OR.
A document information search device, comprising: a search execution unit that searches for a similar document by searching the database using the keyword and notifies a search result to a request source.
(6)

【0089】(付記11)付記10記載の文書情報検索
装置に於いて、前記キーワード生成部は、各名詞が前記
文書データベースに格納した検索文書毎のインデックス
中の何文書に出現するかの出現数をカウントし、所定範
囲の出現数をもつ上位の所定数の単語を選択してキーワ
ードを生成することを特徴とする文書情報検索装置。
(Supplementary note 11) In the document information search device according to supplementary note 10, the keyword generation unit may determine the number of occurrences of each document in the index of each search document stored in the document database. A document information search apparatus, which counts a number of words and selects a predetermined number of upper words having a number of occurrences within a predetermined range to generate a keyword.

【0090】(付記12)付記10記載の文書情報検索
装置に於いて、前記データベースにインデックス情報と
共に検索対象文書から抽出したプロパティ情報を保存
し、前記キーワード生成部は検索要求に伴って受信した
ファイルから抽出したプロパティ情報を前記キーワード
に含めて検索することを特徴とする文書情報検索装置。
(7)
(Supplementary note 12) In the document information search device according to supplementary note 10, the database stores the index information and the property information extracted from the search target document, and the keyword generation unit stores the file received in response to the search request. A document information search device for searching by including the property information extracted from the keyword in the keyword.
(7)

【0091】(付記13)ネットワークを経由した検索
要求に基づいて文書情報を検索して応答する文書情報検
索方法に於いて、検索対象文書から抽出した重要語を列
挙したインデックス情報を文書毎にデータベースに保存
し、検索要求元で検索条件にファイルを指定した場合
に、指定したファイル内容を検索要求と共にネットワー
クを経由してサーバに送信し、検索側で、検索要求に伴
って受信したファイル内容からテキスト文を抽出すると
共にテキスト文の形態素解析により名詞を抽出し、次に
名詞の中から重要語を抽出して論理和でつなげたキーワ
ードを生成し、該キーワードによるデータベースの検索
で類似する文書を検索して検索結果を応答することを特
徴とする文書情報検索方法。(8)
(Supplementary Note 13) In a document information retrieval method for retrieving and responding to document information based on a retrieval request via a network, index information listing key words extracted from a retrieval target document is stored in a database for each document. When a file is specified in the search conditions at the search request source, the specified file content is transmitted to the server via the network together with the search request, and the search side receives the file content from the file content received with the search request. A text sentence is extracted and a noun is extracted by morphological analysis of the text sentence. Then, an important word is extracted from the noun to generate a keyword connected by a logical sum, and a similar document is searched by searching the database using the keyword. A document information search method characterized by performing a search and responding a search result. (8)

【0092】(付記14)付記13記載の文書情報検索
方法に於いて、前記キーワードの生成として、各名詞が
前記データベースに格納した文書毎のインデックス中の
何文書に出現するかの出現数をカウントし、所定範囲の
出現数をもつ上位の所定数の単語を選択してキーワード
を生成することを特徴とする文書情報検索方法。
(Supplementary Note 14) In the document information search method according to supplementary note 13, as the generation of the keyword, the number of appearances of each document in the index of each document stored in the database is counted. A document information search method, wherein a keyword is generated by selecting a predetermined number of upper words having the number of appearances in a predetermined range.

【0093】(付記15)付記14記載の文書情報検索
方法に於いて、検索要求に伴って受信したファイルから
抽出したプロパティ情報を前記キーワードに含めて検索
することを特徴とする文書情報検索方法。(9)
(Supplementary note 15) The document information search method according to supplementary note 14, characterized in that property information extracted from a file received in response to the search request is included in the keyword and searched. (9)

【0094】(付記16)文書ファイルを検索条件に指
定した検索要求を受信するステップと、検索要求に伴っ
て受信したファイル内容からテキスト文を抽出するステ
ップと、テキスト文の形態素解析により名詞を抽出する
ステップと、名詞の中から重要語を抽出して論理和でつ
なげたキーワードを生成するステップと、前記キーワー
ドによるデータベースの検索で類似する文書を検索して
要求元に検索結果を通知するステップと、を備えた文書
情報検索プログラムを格納したコンピュータ可読の記録
媒体。(10)
(Supplementary Note 16) A step of receiving a search request specifying a document file as a search condition, a step of extracting a text sentence from the content of the file received in response to the search request, and a step of extracting a noun by morphological analysis of the text sentence Performing a keyword extraction from the noun to generate a keyword connected by logical OR, and searching a database based on the keyword for a similar document and notifying the request source of the search result. A computer-readable recording medium storing a document information search program comprising: (10)

【0095】(付記17)付記16記載の記録媒体に於
いて、前記文書情報検索プログラムのキーワードを生成
するステップは、各名詞が前記データベースに格納した
文書毎のインデックス中の何文書に出現するかの出現数
をカウントし、所定範囲の出現数をもつ上位の所定数の
単語を選択してキーワードを生成することを特徴とする
記録媒体。
(Supplementary Note 17) In the recording medium according to Supplementary Note 16, the step of generating a keyword of the document information search program may include determining which document in the index of each document stored in the database for each noun. A recording medium characterized by counting the number of occurrences of a word, and selecting a predetermined number of upper words having a number of occurrences within a predetermined range to generate a keyword.

【0096】(付記18)付記14記載の記録媒体に於
いて、前記文書情報検索プログラムは、更に検索要求に
伴って受信したファイルから抽出したプロパティ情報を
前記キーワードに含めて検索するステップを備えたこと
を特徴とする記録媒体。
(Supplementary Note 18) In the recording medium according to Supplementary Note 14, the document information search program further includes a step of searching the property information extracted from the file received in response to the search request by including the property information in the keyword. A recording medium characterized by the above-mentioned.

【0097】(付記19)コンピュータに、文書ファイ
ルを検索条件に指定した検索要求を受信するステップ
と、検索要求に伴って受信したファイル内容からテキス
ト文を抽出するステップと、テキスト文の形態素解析に
より名詞を抽出するステップと、名詞の中から重要語を
抽出して論理和でつなげたキーワードを生成するステッ
プと、前記キーワードによるデータベースの検索で類似
する文書を検索して要求元に検索結果を通知するステッ
プと、を実行させることを特徴とする文書情報検索プロ
グラム。(11)
(Supplementary Note 19) A step of receiving a search request in which a document file is specified as a search condition in a computer, a step of extracting a text sentence from the file content received along with the search request, and a morphological analysis of the text sentence A step of extracting a noun, a step of extracting a keyword from the noun to generate a keyword connected by a logical sum, and a step of searching for a similar document by searching the database using the keyword and notifying the request source of the search result. And a step of executing the document information search program. (11)

【0098】[0098]

【発明の効果】以上説明してきたように本発明によれ
ば、ユーザが電子メールやインターネットなどで興味の
ある内容を含む文書を入手した際に、この文書に類似し
た内容の文書検索を文書ファイルを直接検索条件として
指定することで、内容が類似する文書を簡単且つ素早く
検索することができ、手間の掛かる文書内容に基づいた
キーワードの入力を不要とし、ユーザによる類似文書の
探し出しが極めて効率的に実現できる。
As described above, according to the present invention, when a user obtains a document containing contents of interest via e-mail, the Internet, or the like, a document search similar to this document is performed in a document file. Is directly specified as a search condition, it is possible to easily and quickly search for documents with similar contents, eliminating the need to enter a keyword based on the time-consuming document contents, and making it extremely efficient for the user to search for similar documents. Can be realized.

【0099】またファイル指定による文書検索に必要な
キーワードの生成において、文書内容から重要な単語を
抽出する以外に、文書ファイルの持っているプロパティ
情報からも重要な単語を抽出してキーワードに含めるこ
とで、データベースに登録している既存文書の類似検索
の絞り込みが、より適切に行われ、検索の精度を高める
ことができる。
In addition, in generating a keyword necessary for a document search by specifying a file, in addition to extracting an important word from the document content, an important word is also extracted from property information of the document file and included in the keyword. Thus, the similarity search of the existing document registered in the database can be narrowed down more appropriately, and the accuracy of the search can be improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の原理説明図FIG. 1 is a diagram illustrating the principle of the present invention.

【図2】本発明のシステム構成の説明図FIG. 2 is an explanatory diagram of a system configuration of the present invention.

【図3】本発明の機能構成のブロック図FIG. 3 is a block diagram of a functional configuration of the present invention.

【図4】本発明による文書検索部のブロック図FIG. 4 is a block diagram of a document search unit according to the present invention.

【図5】図3の検索データベース作成部の処理説明図FIG. 5 is an explanatory diagram of a process performed by a search database creation unit in FIG. 3;

【図6】図3のブラウザ処理のフローチャートFIG. 6 is a flowchart of a browser process of FIG. 3;

【図7】本発明の検索条件に文書ファイルを指定する検
索要求操作の説明図
FIG. 7 is an explanatory diagram of a search request operation for designating a document file as a search condition according to the present invention.

【図8】本発明のサーバ検索処理のフローチャートFIG. 8 is a flowchart of a server search process according to the present invention.

【図9】図8のテキスト抽出処理のフローチャートFIG. 9 is a flowchart of a text extraction process in FIG. 8;

【図10】図8の処理によりHTMLファイルからのテ
キスト文書を抽出する説明図
FIG. 10 is an explanatory diagram for extracting a text document from an HTML file by the processing of FIG. 8;

【図11】本発明の検索に使用するHTMLファイルに
設けたプロパティ情報の説明図
FIG. 11 is an explanatory diagram of property information provided in an HTML file used for a search according to the present invention.

【図12】図8の処理によりテキスト抽出対象とするE
xcel文書の説明図
12 is a diagram illustrating an example of a text extraction target E by the processing of FIG.
Illustration of xcel document

【図13】図12のExcel文書から抽出したテキス
ト文書の説明図
13 is an explanatory diagram of a text document extracted from the Excel document of FIG.

【符号の説明】[Explanation of symbols]

10:サーバ 12:クライアント 14:インターネット/イントラネット 16:WWWブラウザ 18:WWWサーバ 20:検索マシン 22:検索データベース 24,46,50:文書データベース 25:検索対象文書 26:検索条件指定部 28:検索データベース作成部 30:文書検索部 32:文書参照部 34:検索指定ファイル格納部 36:テキスト抽出処理部 38:形態素解析部 40:キーワード作成部 42:検索実行部 44,48:文書管理サーバ 54:ロボット 56:テキスト抽出部 58:重要語抽出部 60:インデックス作成部 62:テンポラリファイル 64:収集文書リストフアァイル 66:文書 68:抽出テキストファイル 70:重要語ファイル 10: server 12: client 14: Internet / intranet 16: WWW browser 18: WWW server 20: search machine 22: search database 24, 46, 50: document database 25: search target document 26: search condition specification unit 28: search database Creation unit 30: Document search unit 32: Document reference unit 34: Search designation file storage unit 36: Text extraction processing unit 38: Morphological analysis unit 40: Keyword creation unit 42: Search execution unit 44, 48: Document management server 54: Robot 56: Text extraction unit 58: Key word extraction unit 60: Index creation unit 62: Temporary file 64: Collected document list file 66: Document 68: Extracted text file 70: Key word file

Claims (11)

【特許請求の範囲】[Claims] 【請求項1】ネットワークを経由した検索要求に基づい
て文書情報を検索して応答する文書情報検索装置に於い
て、 前記検索要求元に、検索条件としてファイルを指定し、
指定したファイル内容をネットワークを経由して送信す
る検索条件指定部を設け、 検索側に、前記検索条件指定部から送信されたファイル
内容からキーワードを生成してデータベースから類似文
書を検索する検索マシンを設けたことを特徴とする文書
情報検索装置。
1. A document information retrieval apparatus which retrieves and responds to document information based on a retrieval request via a network, wherein a file is designated as a retrieval condition to the retrieval request source.
A search condition specifying unit for transmitting the specified file content via the network is provided, and a search machine for generating a keyword from the file content transmitted from the search condition specifying unit and searching for a similar document from the database is provided on the search side. A document information search device characterized by being provided.
【請求項2】請求項1記載の文書情報検索装置に於い
て、 前記データベースは、検索対象文書から抽出した重要語
を列挙したインデックス情報を文書毎に保存し、 前記検索マシンは、 検索要求に伴って受信したファイル内容からテキスト文
を抽出するテキスト抽出処理部と、 前記テキスト文の形態素解析により名詞を抽出する形態
素回析部と、 前記名詞の中から重要語を抽出して論理和でつなげたキ
ーワードを生成するキーワード生成部と、 前記キーワードによる検索データベースの検索で類似す
る文書を検索してクライアントに検索結果を通知する検
索実行部と、を備えたことを特徴とする文書情報検索装
置。
2. The document information search device according to claim 1, wherein the database stores, for each document, index information listing important words extracted from the search target document, and the search machine responds to the search request. A text extraction processing unit for extracting a text sentence from the file content received therewith; a morphological analysis unit for extracting a noun by morphological analysis of the text sentence; an important word extracted from the noun and connected by a logical sum A document information search device, comprising: a keyword generation unit that generates a keyword; and a search execution unit that searches for a similar document by searching the search database using the keyword and notifies a client of a search result.
【請求項3】請求項2記載の文書情報検索装置に於い
て、前記キーワード生成部は、各名詞が前記文書データ
ベースに格納した検索文書毎のインデックス中の何文書
に出現するかの出現数をカウントし、所定範囲の出現数
をもつ上位の所定数の単語を選択してキーワードを生成
することを特徴とする文書情報検索装置。
3. The document information search device according to claim 2, wherein the keyword generation unit determines the number of occurrences of each noun in an index for each search document stored in the document database. A document information search device which counts and selects a predetermined number of upper words having a number of occurrences within a predetermined range to generate a keyword.
【請求項4】請求項3記載の文書情報検索装置に於い
て、前記キーワード生成部は、インデックス中の文書数
Nとした場合、出現数Hが 2N/3≧H≧1 の範囲の出現数をもつ上位の10個の単語を選択してキ
ーワードを生成することを特徴とする文書情報検索装
置。
4. The document information search device according to claim 3, wherein the keyword generation unit sets the number of occurrences H in the range of 2N / 3 ≧ H ≧ 1 where N is the number of documents in the index. A document information search apparatus characterized in that a keyword is generated by selecting the top 10 words having the following.
【請求項5】請求項3記載の文書情報検索装置に於い
て、前記キーワード生成部は検索要求に伴って受信した
ファイルから抽出したプロパティ情報を前記キーワード
に含めて検索させることを特徴とする文書情報検索装
置。
5. The document information retrieval apparatus according to claim 3, wherein the keyword generation unit causes the keyword to include property information extracted from a file received in response to a search request and search the document. Information retrieval device.
【請求項6】検索対象文書から抽出した重要語を列挙し
たインデックス情報を文書毎に保存しているデータベー
スと、 前記検索データベースに登録されていない文書ファイル
を検索条件に指定したネットワークからの検索要求によ
って受信したファイル内容からテキスト文を抽出するテ
キスト抽出処理部と、 前記テキスト文の形態素解析により名詞を抽出する形態
素解析部と、 前記名詞の中から重要語を抽出して論理和でつなげたキ
ーワードを生成するキーワード生成部と、 前記キーワードによるデータベースの検索で類似する文
書を検索して要求元に検索結果を通知する検索実行部
と、を備えたことを特徴とする文書情報検索装置。
6. A database storing index information listing key words extracted from a search target document for each document, and a search request from a network that specifies a document file not registered in the search database as a search condition. A text extraction processing unit for extracting a text sentence from the file content received by the above, a morphological analysis unit for extracting a noun by morphological analysis of the text sentence, and a keyword obtained by extracting important words from the noun and connecting them by logical OR And a search execution unit that searches for a similar document by searching the database using the keyword and notifies a search result to a request source.
【請求項7】請求項6記載の文書情報検索装置に於い
て、前記キーワード生成部は検索要求に伴って受信した
ファイルから抽出したプロパティ情報を前記キーワード
に含めて検索することを特徴とする文書情報検索装置。
7. The document information search apparatus according to claim 6, wherein said keyword generation unit searches for the property information extracted from the file received in response to the search request by including the property information in the keyword. Information retrieval device.
【請求項8】ネットワークを経由した検索要求に基づい
て文書情報を検索して応答する文書情報検索方法に於い
て、 検索対象文書から抽出した重要語を列挙したインデック
ス情報を文書毎にデータベースに保存し、 検索要求元で検索条件にファイルを指定した場合に、指
定したファイル内容を検索要求と共にネットワークを経
由して検索先に送信し、 検索側で、検索要求に伴って受信したファイル内容から
テキスト文を抽出すると共にテキスト文の形態素解析に
より名詞を抽出し、次に名詞の中から重要語を抽出して
論理和でつなげたキーワードを生成し、該キーワードに
よるデータベースの検索で類似する文書を検索して検索
結果を応答することを特徴とする文書情報検索方法。
8. A document information retrieval method for retrieving and responding to document information based on a retrieval request via a network, wherein index information listing important words extracted from a retrieval target document is stored in a database for each document. When a file is specified in the search conditions at the search request source, the specified file content is transmitted to the search destination via the network together with the search request, and the search side converts the text from the file content received with the search request to text. Extract a sentence and extract a noun by morphological analysis of the text sentence, then extract key words from the noun, generate keywords connected by logical OR, and search for similar documents by searching the database using the keywords And responding a search result.
【請求項9】請求項8記載の文書情報検索方法に於い
て、検索要求に伴って受信したファイルから抽出したプ
ロパティ情報を前記キーワードに含めて検索することを
特徴とする文書情報検索方法。
9. The document information search method according to claim 8, wherein property information extracted from a file received along with the search request is included in the keyword and searched.
【請求項10】文書ファイルを検索条件に指定した検索
要求を受信するステップと、 検索要求に伴って受信したファイル内容からテキスト文
を抽出するステップと、 テキスト文の形態素解析により名詞を抽出するステップ
と、 名詞の中から重要語を抽出して論理和でつなげたキーワ
ードを生成するステップと、 前記キーワードによるデータベースの検索で類似する文
書を検索して要求元に検索結果を通知するステップと、
を備えた文書情報検索プログラムを格納したコンピュー
タ可読の記録媒体。
10. A step of receiving a search request specifying a document file as a search condition, a step of extracting a text sentence from the file content received with the search request, and a step of extracting a noun by morphological analysis of the text sentence Extracting key words from the nouns to generate keywords connected by logical OR; searching a database based on the keywords for similar documents and notifying the requester of the search result;
A computer-readable recording medium storing a document information search program comprising:
【請求項11】コンピュータに、 文書ファイルを検索条件に指定した検索要求を受信する
ステップと、 検索要求に伴って受信したファイル内容からテキスト文
を抽出するステップと、 テキスト文の形態素解析により名詞を抽出するステップ
と、 名詞の中から重要語を抽出して論理和でつなげたキーワ
ードを生成するステップと、 前記キーワードによるデータベースの検索で類似する文
書を検索して要求元に検索結果を通知するステップと、
を実行させることを特徴とする文書情報検索プログラ
ム。
11. A computer, comprising: a step of receiving a search request in which a document file is specified as a search condition; a step of extracting a text sentence from the content of the file received in accordance with the search request; Extracting, extracting key words from the nouns to generate keywords connected by logical OR, searching a database based on the keywords to search for similar documents and notifying the request source of the search result When,
A document information search program characterized by executing the following.
JP2001131097A 2000-05-26 2001-04-27 Document information retrieval device, method, document information retrieval program and computer readable recording medium storing document information retrieval program Pending JP2002049638A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001131097A JP2002049638A (en) 2000-05-26 2001-04-27 Document information retrieval device, method, document information retrieval program and computer readable recording medium storing document information retrieval program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000155867 2000-05-26
JP2000-155867 2000-05-26
JP2001131097A JP2002049638A (en) 2000-05-26 2001-04-27 Document information retrieval device, method, document information retrieval program and computer readable recording medium storing document information retrieval program

Publications (1)

Publication Number Publication Date
JP2002049638A true JP2002049638A (en) 2002-02-15

Family

ID=26592660

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001131097A Pending JP2002049638A (en) 2000-05-26 2001-04-27 Document information retrieval device, method, document information retrieval program and computer readable recording medium storing document information retrieval program

Country Status (1)

Country Link
JP (1) JP2002049638A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005173999A (en) * 2003-12-11 2005-06-30 Ricoh Co Ltd Device, system and method for searching electronic file, program, and recording media
JP2005352979A (en) * 2004-06-14 2005-12-22 Nitto Denko Corp Composite database management system
JP2007157132A (en) * 2005-12-08 2007-06-21 Internatl Business Mach Corp <Ibm> Document-based information and uniform resource locator (url) management method, and program
JP2010055518A (en) * 2008-08-29 2010-03-11 Nippon Telegraph & Telephone West Corp Searching device, method, and computer program
US7797477B2 (en) 2003-04-10 2010-09-14 Hitachi, Ltd. File access method in a storage system, and programs for performing the file access
JP2015038781A (en) * 2014-11-25 2015-02-26 レノボ・イノベーションズ・リミテッド(香港) Information processing apparatus, interest information provision method, and interest information provision program
KR101850886B1 (en) 2010-12-23 2018-04-23 네이버 주식회사 Search system and mehtod for recommending reduction query

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7797477B2 (en) 2003-04-10 2010-09-14 Hitachi, Ltd. File access method in a storage system, and programs for performing the file access
JP2005173999A (en) * 2003-12-11 2005-06-30 Ricoh Co Ltd Device, system and method for searching electronic file, program, and recording media
JP2005352979A (en) * 2004-06-14 2005-12-22 Nitto Denko Corp Composite database management system
JP4518481B2 (en) * 2004-06-14 2010-08-04 日東電工株式会社 Complex database management system
JP2007157132A (en) * 2005-12-08 2007-06-21 Internatl Business Mach Corp <Ibm> Document-based information and uniform resource locator (url) management method, and program
JP2010055518A (en) * 2008-08-29 2010-03-11 Nippon Telegraph & Telephone West Corp Searching device, method, and computer program
KR101850886B1 (en) 2010-12-23 2018-04-23 네이버 주식회사 Search system and mehtod for recommending reduction query
JP2015038781A (en) * 2014-11-25 2015-02-26 レノボ・イノベーションズ・リミテッド(香港) Information processing apparatus, interest information provision method, and interest information provision program

Similar Documents

Publication Publication Date Title
US6883001B2 (en) Document information search apparatus and method and recording medium storing document information search program therein
US7890485B2 (en) Knowledge management tool
US20070022085A1 (en) Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
US20120059822A1 (en) Knowledge management tool
US20100131485A1 (en) Method and system for automatic construction of information organization structure for related information browsing
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
JP2015525929A (en) Weight-based stemming to improve search quality
US9971782B2 (en) Document tagging and retrieval using entity specifiers
JP3501799B2 (en) Information search support device, computer program, and program storage medium
JP2010128928A (en) Retrieval system and retrieval method
JP2001290843A (en) Device and method for document retrieval, document retrieving program, and recording medium having the same program recorded
US20110252313A1 (en) Document information selection method and computer program product
JP4469432B2 (en) INTERNET INFORMATION PROCESSING DEVICE, INTERNET INFORMATION PROCESSING METHOD, AND COMPUTER-READABLE RECORDING MEDIUM CONTAINING PROGRAM FOR CAUSING COMPUTER TO EXECUTE THE METHOD
JP2002049638A (en) Document information retrieval device, method, document information retrieval program and computer readable recording medium storing document information retrieval program
JP3786233B2 (en) Information search method and information search system
JP7125322B2 (en) Attribute extraction device and attribute extraction method
JPH09223150A (en) Information classification processing method
US20070244861A1 (en) Knowledge management tool
KR100667917B1 (en) A method of providing website searching service and a system thereof
KR100942902B1 (en) A method of searching web page and computer readable recording media for recording the method program
JP2011086156A (en) System and program for tracking of leaked information
JP2003173351A (en) Method, device, program and storage medium for analysis, collection and retrieval of information
KR100371805B1 (en) Method and system for providing related web sites for the current visitting of client
JP2000105769A (en) Document display method
JP5525424B2 (en) Document search apparatus, document search method, and document search program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090602

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091013