JP2001344246A - Method for preparing term table data base and method for retrieving electronic document - Google Patents

Method for preparing term table data base and method for retrieving electronic document

Info

Publication number
JP2001344246A
JP2001344246A JP2000160950A JP2000160950A JP2001344246A JP 2001344246 A JP2001344246 A JP 2001344246A JP 2000160950 A JP2000160950 A JP 2000160950A JP 2000160950 A JP2000160950 A JP 2000160950A JP 2001344246 A JP2001344246 A JP 2001344246A
Authority
JP
Japan
Prior art keywords
electronic document
search
data
term
network address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000160950A
Other languages
Japanese (ja)
Inventor
Hajime Iwamoto
元 岩本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kansai Electric Power Co Inc
Original Assignee
Kansai Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kansai Electric Power Co Inc filed Critical Kansai Electric Power Co Inc
Priority to JP2000160950A priority Critical patent/JP2001344246A/en
Publication of JP2001344246A publication Critical patent/JP2001344246A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a method for reducing the redundancy of a retrieved result due to the ambiguity of meaning of a retrieving keyword and the variety of meaning relation among plural retrieving keywords in the retrieval of an electronic document and realizing a highly efficient electronic document retrieval. SOLUTION: The network address of an electronic document file group stored in a computer connected to a computer network is specified, a sentence including a specific term is extracted from the contents of the electronic document file group on the basis of a previously prepared extraction rule and an explanation category indicating which explanation document for terms corresponds to the extracted sentence, the network address of an electronic document file in which the extracted terms appears, the term, sentence including the term, and the type of the electronic document file are registered in a term table data base as a data set of five items.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この出願の発明は、用語集デ
ータベース作成方法および電子文書検索方法に関するも
のである。さらに詳しくは、この発明は、検索条件とな
る単語と電子文書中の特定の単語との意味的な関係を電
子文書から抽出することで作成された検索条件となる用
語に関する用語集データベースを構築する方法と、その
用語集データベースをインターフェースとして利用する
ことで実現される電子文書検索方法に関するものであ
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a glossary database creation method and an electronic document search method. More specifically, the present invention constructs a glossary database of terms serving as search conditions created by extracting, from an electronic document, a semantic relationship between a word serving as a search condition and a specific word in an electronic document. The present invention relates to a method and an electronic document search method realized by using the glossary database as an interface.

【0002】[0002]

【従来の技術とその課題】高速コンピュータネットワー
クの普及、拡大に伴い、電子化された文書情報を検索す
るための検索サービスが数多く提供されている。それら
の多くは、検索キーワードのマッチングによる全文検索
によるものであるが、次の挙げるような理由により、利
用者の満足のいくような検索結果が得られない場合も多
い。
2. Description of the Related Art With the spread and expansion of high-speed computer networks, many search services for searching electronic document information have been provided. Most of them are based on full-text searches by matching search keywords. However, in many cases, satisfactory search results cannot be obtained for users for the following reasons.

【0003】例えば、「ネットワーク」という単語は、
「通信用のネットワーク」といった意味や「テレビ局や
ラジオ局の番組供給網」といった意味などの複数の意味
を持っている。このため、利用者が「通信用のネットワ
ーク」という意味を意図して「ネットワーク」という単
語を検索キーワードとして入力した場合にも、「通信用
のネットワーク」という意味以外の文書も検索結果とし
て出力されることになり、ユーザーはその膨大な出力結
果から欲する文書を選択しなければならない。
[0003] For example, the word "network"
It has a plurality of meanings, such as "communication network" and "program supply network for television and radio stations". For this reason, even if the user inputs the word "network" as a search keyword with the intention of "communication network", documents other than "communication network" are also output as search results. That is, the user must select the desired document from the huge output.

【0004】検索キーワードの多義性に起因する問題を
解決する方法として、検索キーワードを複数指定する方
法がある。上記の例においては、「ネットワーク」とい
う検索キーワードに「通信」という単語を検索キーワー
ドとして付加し、ふたつの検索キーワードの論理積(A
ND)を検索条件として設定することで、意味が限定さ
れ検索結果もある程度絞り込まれることが期待される。
しかしながら、文中における検索キーワード同士の関係
が多様性を持つことから、例えば「ネットワーク」AN
D「通信」を検索条件とした場合には、結果として「通
信用のネットワーク」だけでなく、「通信会社間のネッ
トワーク」などといったユーザーが意図した対象とは異
なる文書までもが検索結果として出力される場合も少な
くない。
As a method of solving the problem caused by the ambiguity of a search keyword, there is a method of specifying a plurality of search keywords. In the above example, the word “communication” is added as a search keyword to the search keyword “network”, and the logical product (A) of the two search keywords is added.
By setting ND) as a search condition, it is expected that the meaning is limited and the search results are narrowed down to some extent.
However, since the relationship between search keywords in a sentence has diversity, for example, "network" AN
D When "Communication" is used as a search condition, as a result, not only "network for communication" but also documents different from the intended one such as "network between communication companies" are output as search results. It is not rare.

【0005】検索キーワードの持つ意味の範囲を拡張し
たり類義語を得る方法として予めシソーラスデータベー
スを構築しておく方法が知られている。しかしシソーラ
スデータベースの構築は人手によるものであり、専門領
域ひとつのデータベースを構築する作業であってもその
作業量は膨大である。また、文書群から得られた単語の
共起関係に基づき関連語をデータベース化しておき検索
結果として提示する方法も提案されているが、実際の単
語間の意味における類義性が低く、かえって、検索結果
が冗長なものとなることも頻繁に発生する。
[0005] As a method of extending the range of meaning of a search keyword or obtaining a synonym, there is known a method of constructing a thesaurus database in advance. However, the construction of a thesaurus database is manual, and the amount of work involved in constructing a database for one specialized field is enormous. Also, a method has been proposed in which related words are compiled into a database based on the co-occurrence relation of words obtained from a document group and presented as a search result. However, the similarity in the meaning between actual words is low. It often happens that search results become redundant.

【0006】この出願の発明は、以上の通りの事情に鑑
みてなされたものであり、電子文書の検索において検索
キーワードの持つ意味の多義性や複数の検索キーワード
間の意味的な関係の多様性による検索結果の冗長性を削
減し、効率の高い電子文書検索を実現する方法を提供す
ることを課題としている。
[0006] The invention of this application has been made in view of the circumstances described above, and in the retrieval of electronic documents, the ambiguity of the meaning of search keywords and the diversity of semantic relationships among a plurality of search keywords. It is an object of the present invention to provide a method for realizing a highly efficient electronic document search by reducing the redundancy of the search result by the search.

【0007】[0007]

【課題を解決するための手段】この出願の発明は、上記
の課題を解決するものとして、コンピュータネットワー
クに接続されているコンピュータに保存されている電子
文書ファイル群のネットワークアドレスを指定し、これ
らの電子文書ファイル群の文面からあらかじめ作成され
ていた抽出ルールに基づき特定の用語が含まれる文章を
抽出し、この抽出された文章が用語についてのいかなる
解説文書であるかを示す解説カテゴリ、抽出された用語
が掲載されている電子文書ファイルのネットワークアド
レス、用語、および用語が記載されている文章、電子文
書ファイルのタイトルの5項目を1組のデータセットと
して用語集データベースに登録することを特徴とする用
語集データベース作成方法を提供する。
SUMMARY OF THE INVENTION The present invention solves the above-mentioned problems by designating a network address of an electronic document file group stored in a computer connected to a computer network. Based on the extraction rules created in advance from the text of the electronic document file group, a sentence containing a specific term is extracted based on the extraction rule, and the commentary category that indicates what kind of commentary this term is for the term is extracted. The network address of the electronic document file in which the term is published, the term, the sentence in which the term is described, and the title of the electronic document file are registered in the glossary database as a set of five items. Provides a method for creating a glossary database.

【0008】また、この出願の発明は、上記の用語集デ
ータベース作成方法により構築された用語集データベー
スを、利用者により入力された検索条件に基づく検索を
実行し、登録されている用語データが検索条件に合致す
る場合には、用語データが属するデータセットを検索結
果として出力し、利用者が出力された検索結果の中から
選択したデータセットに含まれるネットワークアドレス
データに基づき電子文書のネットワークアドレスを参照
し、参照されたネットワークアドレスに格納されている
電子文書の内容を出力することを特徴とする電子文書検
索方法を提供する。
Further, the invention of this application executes a search based on a search condition input by a user in a glossary database constructed by the above-described glossary database creation method, and searches for registered term data. If the conditions are met, the data set to which the term data belongs is output as a search result, and the user sets the network address of the electronic document based on the network address data included in the data set selected from the output search results. An electronic document search method characterized by referring to and outputting the contents of an electronic document stored at a referred network address.

【0009】さらに、この出願の発明は、前記の用語集
データベース作成方法により構築された用語集データベ
ースと、電子文書検索クライアントから送信されるデー
タを受信するデータ受信機能と、電子文書検索クライア
ントから受信した検索条件データに基づき用語集データ
ベースに格納されたネットワークアドレスデータを対象
とする検索を実行する用語集データベース検索機能と、
電子文書検索クライアントから受信したネットワークア
ドレスデータに基づき電子文書のネットワークアドレス
を参照し、参照されたネットワークアドレスに格納され
ている電子文書データを受信する電子文書受信機能と、
用語集データベース検索機能により得られた検索結果デ
ータおよび電子文書受信機能により得られた電子文書デ
ータを電子文書検索クライアントへ送信するためのデー
タ送信機能とを具備する電子文書検索サーバと、利用者
が外部入力装置により入力した検索条件に関するデータ
および利用者が外部入力装置により選択入力したネット
ワークアドレスデータを電子文書検索サーバに送信する
データ送信機能と、電子文書検索サーバより送信された
検索結果データおよび電子文書データを受信するデータ
受信機能と、この受信したデータを外部出力装置へ出力
するデータ外部出力機能とを具備する電子文書検索クラ
イアントとが、コンピュータネットワークにより接続さ
れていることを特徴とする電子文書検索システムを提供
する。この電子文書検索システムは、コンピュータネッ
トワークがインターネットであり、電子文書検索サーバ
がWWWサーバ機能を具備すること、検索対象である電
子文書がHTML文書であること、および、電子文書検
索クライアントがWWWブラウザ機能を具備することを
特徴とする。
Further, the invention of this application provides a glossary database constructed by the above-described glossary database creation method, a data receiving function of receiving data transmitted from an electronic document search client, and a data receiving function of receiving data from an electronic document search client. A glossary database search function for performing a search on network address data stored in the glossary database based on the searched search data;
An electronic document receiving function of referring to a network address of an electronic document based on network address data received from the electronic document search client, and receiving electronic document data stored at the referenced network address;
An electronic document search server having a data transmission function for transmitting search result data obtained by a glossary database search function and electronic document data obtained by an electronic document reception function to an electronic document search client; A data transmission function of transmitting to the electronic document search server data relating to search conditions input by the external input device and network address data selected and input by the user through the external input device; search result data and electronic data transmitted from the electronic document search server; An electronic document, wherein an electronic document search client having a data receiving function of receiving document data and an electronic document search client having a data external output function of outputting the received data to an external output device is connected by a computer network. Provide a search system. In this electronic document search system, a computer network is the Internet, an electronic document search server has a WWW server function, an electronic document to be searched is an HTML document, and an electronic document search client has a WWW browser function. It is characterized by having.

【0010】そして、この出願の発明は、前記用語集デ
ータベース作成方法および前記電子文書検索方法をコン
ピュータにより機能させるプログラムとして記録されて
いることを特徴とするコンピュータ読み取り可能な記憶
媒体をも提供する。
The invention of this application also provides a computer-readable storage medium recorded as a program that causes the computer to execute the glossary database creation method and the electronic document search method.

【0011】[0011]

【発明の実施の形態】この出願の発明は上記のとおりの
特徴をもつものであるが、以下にその実施の形態につい
て説明する。
BEST MODE FOR CARRYING OUT THE INVENTION The invention of this application has the features as described above, and embodiments thereof will be described below.

【0012】この出願の発明の電子文書検索方法を実現
する電子文書検索システムは、コンピュータネットワー
クに接続された用語集データベース、電子文書検索サー
バ、および、電子文書検索クライアントを、基本構成と
する。
An electronic document search system for realizing an electronic document search method according to the present invention has a basic configuration including a glossary database, an electronic document search server, and an electronic document search client connected to a computer network.

【0013】用語集データベースには、用語と電子文書
ファイルの文面との関係がデータとして登録される。す
なわち電子文書ファイルに記載されている文面の内容
が、検索キーワードに関するどのような情報であるかと
いうことが、データとして登録される。この出願の発明
に係る電子文書検索は、この用語集データベースをイン
ターフェースとして実行されるものであり、この用語集
データベースは、前もって構築されていることが前提と
なる。用語集データベースの構築の手順について、図1
を用いながら以下に示す。
In the glossary database, the relationship between the terms and the text of the electronic document file is registered as data. That is, what kind of information about the search keyword is the content of the text described in the electronic document file is registered as data. The electronic document search according to the invention of this application is executed using this glossary database as an interface, and it is premised that this glossary database is constructed in advance. Figure 1 shows the procedure for building a glossary database.
It is shown below using.

【0014】まず、電子文書読み出し機能を備えるコン
ピュータ(101)によりネットワークアドレス一覧フ
ァイル(102)が参照される。このネットワークアド
レス一覧ファイル(102)に記述されているネットワ
ークアドレスが参照され、コンピュータネットワーク
(103)に接続されたコンピュータに格納されている
電子文書ファイル群(104)中から、ネットワークア
ドレス一覧ファイル(102)により指定されたネット
ワークアドレスに格納されている電子文書ファイルが読
み込まれ補助記憶装置(105)に登録される。次い
で、用語抽出機能を備えるコンピュータ(106)によ
り補助記憶装置(105)に保存された文書ファイル群
が読み出され、あらかじめ作成されていた用語抽出ルー
ルファイル(107)に記述されている用語抽出ルール
が適用され、検索キーワードになりうる用語の抽出が行
われる。用語の抽出は、電子文書の字面上のパターン分
析を利用した汎用情報抽出ソフトウェアにより自動的に
行われる。
First, a network (101) having an electronic document reading function refers to a network address list file (102). The network address described in the network address list file (102) is referred to, and the network address list file (102) is selected from the electronic document file group (104) stored in the computer connected to the computer network (103). The electronic document file stored at the network address specified by ()) is read and registered in the auxiliary storage device (105). Next, the document file group stored in the auxiliary storage device (105) is read out by the computer (106) having the term extraction function, and the term extraction rule described in the term extraction rule file (107) created in advance is used. Is applied, and terms that can be search keywords are extracted. The term extraction is automatically performed by general-purpose information extraction software using pattern analysis on the character surface of the electronic document.

【0015】用語抽出ルールは、文章が用語に関して何
らかの解説をおこなっている場合においてのみ抽出が行
われるように、例えば、以下の様に設定されている。 (1)漢字または英数字からなる文字列の直後
に“(”、“)”(カッコ)で囲まれている文字列を抽
出する。 (2)“「A」とは「B」である。”という表現から、
AとBにあたる文字列を抽出する。 (3)“「A」を開発する。”という表現から、Aにあ
たる文字列を抽出する。
The term extraction rule is set, for example, as follows so that extraction is performed only when a sentence gives some explanation about a term. (1) A character string surrounded by "(", ")" (parentheses) immediately after a character string composed of kanji or alphanumeric characters is extracted. (2) “A” is “B”. From the expression "
Character strings corresponding to A and B are extracted. (3) Develop "A". The character string corresponding to A is extracted from the expression "."

【0016】上に例示したような用語抽出ルールは用い
たとき、文書ファイル中に抽出された文章がある場合に
は、その文章は特定の用語に関する解説を含んでいるも
のと判断され、抽出された用語、抽出対象となった文書
ファイルのネットワークアドレス、文章が用語に関する
どのような解説文であるかを表す解説カテゴリ、電子文
書ファイルのタイトル、および抽出された文章の5つ項
目が、1単位のデータセットとして用語集データベース
(108)に登録される。ここで、解説カテゴリとして
は、単語に関する「定義」、「訳語」、「性質」、「同
意語」、「反意語」などが基本項目として設定されてお
り、さらには、その用語のもつ属性に関しても各種の解
説カテゴリが適宜に追加設定される。
When the term extraction rule as exemplified above is used, if there is an extracted sentence in the document file, it is determined that the sentence includes commentary on a specific term, and the extracted sentence is extracted. The five items of the term, the network address of the extracted document file, the comment category indicating what the sentence is about the term, the title of the electronic document file, and the extracted sentence are one unit. Is registered in the glossary database (108). Here, as the explanation category, “definition”, “translation”, “property”, “synonym”, “antonymous”, etc. regarding the word are set as basic items, and furthermore, the attribute of the term is also set. Various commentary categories are additionally set as appropriate.

【0017】具体的には、上記の用語抽出ルール(2)
においては、「B」は「A」の「定義」の基本項目に属
するものと判定される。用語抽出ルールは、解説カテゴ
リのそれぞれについて、予め用意されている。
More specifically, the above term extraction rule (2)
In, "B" is determined to belong to the basic item of "definition" of "A". Term extraction rules are prepared in advance for each of the commentary categories.

【0018】この出願の発明に係る電子文書検索方法に
ついて、図2〜6を用いて説明する。
An electronic document search method according to the present invention will be described with reference to FIGS.

【0019】まず、電子文書検索サービス利用者は、電
子文書検索クライアント(201)の外部入力装置(2
02)により検索条件を入力する。入力された検索条件
は、電子文書検索クライアント(201)の備えるデー
タ送信機能により電子文書検索サーバ(203)に送信
される。
First, the user of the electronic document search service operates the external input device (2) of the electronic document search client (201).
02), a search condition is input. The input search conditions are transmitted to the electronic document search server (203) by the data transmission function of the electronic document search client (201).

【0020】電子文書検索サーバ(203)において
は、受信した検索条件に基づき用語集データベース(2
04)に格納されている用語データを検索し、検索条件
と一致するものがあれば、その用語データに関するデー
タセット(用語データ、組となる文書ファイルのネット
ワークアドレス、解説カテゴリ、文章、電子文書ファイ
ルのタイトル)は全て、検索結果として電子文書検索サ
ーバ(203)の備え持つデータ送信機能により電子文
書検索クライアント(201)へと送信される。
In the electronic document search server (203), a glossary database (2) is created based on the received search conditions.
04) is searched for term data, and if there is one that matches the search condition, a data set (term data, network address of a document file to be a set, a comment category, a sentence, an electronic document file) relating to the term data Are transmitted to the electronic document search client (201) by the data transmission function of the electronic document search server (203) as search results.

【0021】電子文書検索クライアント(201)にお
いては、受信した検索結果であるデータセット(用語デ
ータ、文書ファイルのアドレスデータ、解説カテゴリデ
ータ、文書データ)が外部出力装置(205)により出
力される。
In the electronic document search client (201), a data set (term data, address data of a document file, commentary category data, document data) as a received search result is output by an external output device (205).

【0022】外部出力装置に出力される内容について
は、図3に例示するように、まず、検索条件(301)
が用語集データベースに登録された用語にヒットした場
合には、表示欄(A)にヒットした用語(302)が表
示される。また、検索条件(301)が、用語集データ
ベースに登録された用語を解説する文書中に記載されて
いた場合には、表示欄(B)に、解説対象である用語
(303)が表示される。
Regarding the contents output to the external output device, as shown in FIG. 3, first, a search condition (301)
Hits a term registered in the glossary database, the hit term (302) is displayed in the display column (A). Further, when the search condition (301) is described in a document explaining the terms registered in the glossary database, the term to be explained (303) is displayed in the display column (B). .

【0023】電子文書検索サービス利用者が、電子文書
検索クライアントに接続されている外部入力装置を用い
て、表示されたヒットした用語(302)の中から目的
とする用語を選択すると、図4に例示したように、その
用語に対応する用語データの解説カテゴリ(401)の
一覧が表示される。次いで、電子文書検索サービス利用
者が、電子文書検索クライアントに接続されている外部
入力装置を用いて、表示された解説カテゴリ(401)
の中から目的とする解説カテゴリを選択すると、図5に
例示したように、表示欄(C)に選択した解説カテゴリ
に関する電子文書ファイルの文章(501)と電子文書
ファイルのタイトル(502)が表示される。
When the user of the electronic document search service selects a target term from the displayed hit terms (302) using the external input device connected to the electronic document search client, the user selects the target term from FIG. As illustrated, a list of explanation categories (401) of term data corresponding to the term is displayed. Next, the user of the electronic document search service uses the external input device connected to the electronic document search client to display the displayed comment category (401).
When a target commentary category is selected from the list, as shown in FIG. 5, the text (501) of the electronic document file and the title (502) of the electronic document file relating to the selected commentary category are displayed in the display column (C). Is done.

【0024】さらに、電子文書検索サービス利用者が、
電子文書検索クライアントに接続されている外部入力装
置を用いて、表示された電子文書ファイルのタイトル
(502)の中から目的とする電子文書ファイルのタイ
トルを選択することで、選択に関するデータが電子文書
検索サーバに送信され、電子文書検索サーバは選択され
た電子文書ファイルを読み出し、電子文書検索クライア
ントに送信する。具体的には、図6に示すように、電子
文書検索クライアント(601)においては、電子文書
検索サービス利用者が外部入力装置(602)より選択
した文書ファイルに関するネットワークアドレスデータ
が、電子文書検索クライアント(601)の備えるデー
タ送信機能により電子文書検索サーバ(603)へと送
信される。
Further, the user of the electronic document search service can
By using an external input device connected to the electronic document search client and selecting a target electronic document file title from among the displayed electronic document file titles (502), the data relating to the selection is displayed in the electronic document file. Sent to the search server, the electronic document search server reads the selected electronic document file and sends it to the electronic document search client. Specifically, as shown in FIG. 6, in the electronic document search client (601), the network address data relating to the document file selected by the electronic document search service user from the external input device (602) is stored in the electronic document search client. The data is transmitted to the electronic document search server (603) by the data transmission function of (601).

【0025】電子文書検索サーバ(603)において
は、電子文書検索サービス利用者により選択した文書フ
ァイルのネットワークアドレスデータに基づき、電子文
書検索サービス利用者により選択された文書ファイルの
格納されているコンピュータネットワーク(604)に
接続されたコンピュータから電子文書ファイル(60
5)が読み込まれる。読み込まれた電子文書ファイル
は、電子文書検索クライアント(601)へ送信され、
文面が外部出力装置(605)により外部出力される。
このとき、外部出力装置には、電子文書検索サービス利
用者が図5において選択した用語の解説文にあたる部分
が出力画面の最初に来るように、自動的に表示される。
In the electronic document search server (603), based on the network address data of the document file selected by the user of the electronic document search service, a computer network in which the document file selected by the user of the electronic document search service is stored. From the computer connected to (604), the electronic document file (60
5) is read. The read electronic document file is transmitted to the electronic document search client (601),
The text is externally output by the external output device (605).
At this time, the external output device is automatically displayed such that the part corresponding to the commentary of the term selected by the user of the electronic document retrieval service in FIG. 5 comes first on the output screen.

【0026】この出願において、コンピュータネットワ
ークは、どのような規模を持つものであってもよく、ま
た、ネットワークプロトコルやネットワークトポロジー
に関しても、特に限定されるものではない。例えば、コ
ンピュータネットワークはTCP/IPにより接続され
た企業内LANやインターネットであり、電子文書検索
サーバはWWWサーバとしての機能を備え、また検索対
象である電子文書がHTML文書である。このとき、電
子文書検索クライアントは、WWWブラウザとしての機
能を具備するものである。
In this application, the computer network may have any size, and the network protocol and network topology are not particularly limited. For example, a computer network is a corporate LAN or the Internet connected by TCP / IP, an electronic document search server has a function as a WWW server, and an electronic document to be searched is an HTML document. At this time, the electronic document search client has a function as a WWW browser.

【0027】さらに、この出願の発明の用語集データベ
ース作成方法および電子文書検索方法は、コンピュータ
により機能させるプログラムとして記憶媒体に記録され
る。
Further, the method for creating a glossary database and the method for retrieving electronic documents according to the invention of this application are recorded on a storage medium as a program to be operated by a computer.

【0028】[0028]

【発明の効果】以上、詳しく説明した通り、この出願の
発明により、電子文書の検索において検索キーワードの
持つ意味の多義性や複数の検索キーワード間の意味的な
関係の多様性による検索結果の冗長性を削減し、効率の
高い電子文書検索方法が提供される。この出願の発明に
より、検索キーワードの多義性を意識した検索が可能と
なり、検索キーワードに関連する情報をも含む情報に対
して系統立てられた検索が実現する。
As described above in detail, according to the invention of the present application, in the retrieval of an electronic document, the redundancy of the search result due to the polysemy of the meaning of the search keyword and the diversity of the semantic relationship between the plurality of search keywords. And a highly efficient electronic document search method is provided. According to the invention of this application, it is possible to perform a search conscious of the ambiguity of a search keyword, and a systematic search for information including information related to the search keyword is realized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この出願の発明である用語集データベース作成
方法における処理とデータの流れを示した概要図であ
る。
FIG. 1 is a schematic diagram showing a process and data flow in a glossary database creation method according to the invention of the present application.

【図2】この出願の発明である電子文書検索方法におけ
る処理とデータの流れを示した概要図である。
FIG. 2 is a schematic diagram showing a process and a data flow in an electronic document search method according to the invention of the present application.

【図3】この出願の発明である電子文書検索方法におい
て電子文書検索クライアントの外部出力装置に出力され
る画面構成を例示した概要図である。
FIG. 3 is a schematic diagram illustrating a screen configuration output to an external output device of an electronic document search client in the electronic document search method according to the present invention.

【図4】この出願の発明である電子文書検索方法におい
て電子文書検索クライアントの外部出力装置に出力され
る画面構成を例示した概要図である。
FIG. 4 is a schematic diagram illustrating a screen configuration output to an external output device of an electronic document search client in the electronic document search method according to the present invention.

【図5】この出願の発明である電子文書検索方法におい
て電子文書検索クライアントの外部出力装置に出力され
る画面構成を例示した概要図である。
FIG. 5 is a schematic diagram illustrating a screen configuration output to an external output device of an electronic document search client in the electronic document search method according to the present invention.

【図6】この出願の発明である電子文書検索方法におけ
る処理とデータの流れを示した概要図である。
FIG. 6 is a schematic diagram showing a process and a data flow in the electronic document search method according to the invention of the present application.

【符号の説明】[Explanation of symbols]

101 電子文書読み出し機能を備えるコンピュータ 102 ネットワークアドレス一覧ファイル 103 コンピュータネットワーク 104 電子文書ファイル群 105 補助記憶装置 106 用語抽出機能を備えるコンピュータ 107 用語抽出ルールファイル 108 用語集データベース 201 電子文書検索クライアント 202 外部入力装置 203 電子文書検索サーバ 204 用語集データベース 204 電子文書検索サーバ 205 外部出力装置 301 検索条件 302 用語 303 用語 401 解説カテゴリ 501 電子文書ファイルの文章 502 電子文書ファイルのタイトル 601 電子文書検索クライアント 602 外部入力装置 603 電子文書検索サーバ 604 コンピュータネットワーク 605 電子文書ファイル 606 外部出力装置 101 Computer with Electronic Document Reading Function 102 Network Address List File 103 Computer Network 104 Electronic Document File Group 105 Auxiliary Storage 106 Computer with Term Extraction Function 107 Term Extraction Rule File 108 Glossary Database 201 Electronic Document Search Client 202 External Input Device 203 Electronic document search server 204 Glossary database 204 Electronic document search server 205 External output device 301 Search condition 302 Term 303 Term 401 Commentary category 501 Text of electronic document file 502 Title of electronic document file 601 Electronic document search client 602 External input device 603 Electronic document search server 604 Computer network 605 Electronic document file 606 Outside Equipment

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 コンピュータネットワークに接続されて
いるコンピュータに保存されている電子文書ファイル群
のネットワークアドレスを指定し、これらの電子文書フ
ァイル群の文面からあらかじめ作成されていた抽出ルー
ルに基づき特定の用語が含まれる文章を抽出し、この抽
出された文章が用語についてのいかなる解説文書である
かを示す解説カテゴリ、抽出された用語が掲載されてい
る電子文書ファイルのネットワークアドレス、用語、お
よび用語が記載されている文章、電子文書ファイルのタ
イトルの5項目を1組のデータセットとして用語集デー
タベースに登録することを特徴とする用語集データベー
ス作成方法。
1. Designating a network address of an electronic document file group stored in a computer connected to a computer network, and using a specific term based on an extraction rule created in advance from the text of these electronic document file group. Is extracted, and the description category indicating what the extracted text is a description document about the term, the network address of the electronic document file in which the extracted term is published, the term, and the term are described. A terminology database creation method characterized by registering, in a terminology database, five items of a sentence and a title of an electronic document file as a set of data.
【請求項2】 請求項1記載の用語集データベース作成
方法により構築された用語集データベースを、利用者に
より入力された検索条件に基づく検索を実行し、登録さ
れている用語データが検索条件に合致する場合には、用
語データが属するデータセットを検索結果として出力
し、利用者が出力された検索結果の中から選択したデー
タセットに含まれるネットワークアドレスデータに基づ
き電子文書のネットワークアドレスを参照し、参照され
たネットワークアドレスに格納されている電子文書の内
容を出力することを特徴とする電子文書検索方法。
2. A terminology database constructed by the terminology database creation method according to claim 1 is searched based on a search condition entered by a user, and registered term data matches the search condition. In this case, the data set to which the term data belongs is output as a search result, and the user refers to the network address of the electronic document based on the network address data included in the data set selected from the output search results, An electronic document search method characterized by outputting the contents of an electronic document stored at a referenced network address.
【請求項3】 請求項1記載の用語集データベース作成
方法により構築された用語集データベースと、電子文書
検索クライアントから送信されるデータを受信するデー
タ受信機能と、電子文書検索クライアントから受信した
検索条件データに基づき用語集データベースに格納され
たネットワークアドレスデータを対象とする検索を実行
する用語集データベース検索機能と、電子文書検索クラ
イアントから受信したネットワークアドレスデータに基
づき電子文書のネットワークアドレスを参照し、参照さ
れたネットワークアドレスに格納されている電子文書デ
ータを受信する電子文書受信機能と、用語集データベー
ス検索機能により得られた検索結果データおよび電子文
書受信機能により得られた電子文書データを電子文書検
索クライアントへ送信するためのデータ送信機能とを具
備する電子文書検索サーバと、利用者が外部入力装置に
より入力した検索条件に関するデータおよび利用者が外
部入力装置により選択入力したネットワークアドレスデ
ータを電子文書検索サーバに送信するデータ送信機能
と、電子文書検索サーバより送信された検索結果データ
および電子文書データを受信するデータ受信機能と、こ
の受信したデータを外部出力装置へ出力するデータ外部
出力機能とを具備する電子文書検索クライアントとが、
コンピュータネットワークにより接続されていることを
特徴とする電子文書検索システム。
3. A terminology database constructed by the terminology database creation method according to claim 1, a data reception function for receiving data transmitted from an electronic document search client, and a search condition received from the electronic document search client. A glossary database search function that executes a search for network address data stored in a glossary database based on data, and refers to and references the network address of an electronic document based on network address data received from an electronic document search client. An electronic document receiving function for receiving electronic document data stored at a given network address, an electronic document search client for search result data obtained by a glossary database search function, and electronic document data obtained by the electronic document receiving function Send to An electronic document search server having a data transmission function for communicating with the electronic document search server, and data relating to search conditions input by a user through an external input device and network address data selected and input by the user through the external input device to the electronic document search server An electronic device having a data transmission function for transmitting, a data receiving function for receiving search result data and electronic document data transmitted from the electronic document search server, and a data external output function for outputting the received data to an external output device. Document search client and
An electronic document retrieval system connected by a computer network.
【請求項4】 コンピュータネットワークがインターネ
ットであり、電子文書検索サーバがWWWサーバ機能を
具備することを特徴とする請求項3記載の電子文書検索
システム。
4. The electronic document search system according to claim 3, wherein the computer network is the Internet, and the electronic document search server has a WWW server function.
【請求項5】 検索対象である電子文書がHTML文書
であることを特徴とする請求項3記載の電子文書検索シ
ステム。
5. The electronic document search system according to claim 3, wherein the electronic document to be searched is an HTML document.
【請求項6】 電子文書検索クライアントがWWWブラ
ウザ機能を具備することを特徴とする請求項3記載の電
子文書検索システム。
6. The electronic document search system according to claim 3, wherein the electronic document search client has a WWW browser function.
【請求項7】 請求項1記載の用語集データベース作成
方法および請求項2記載の電子文書検索方法をコンピュ
ータにより機能させるプログラムとして記録されている
ことを特徴とするコンピュータ読み取り可能な記憶媒
体。
7. A computer-readable storage medium recorded as a program for causing a computer to execute the glossary database creation method according to claim 1 and the electronic document search method according to claim 2.
JP2000160950A 2000-05-30 2000-05-30 Method for preparing term table data base and method for retrieving electronic document Withdrawn JP2001344246A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000160950A JP2001344246A (en) 2000-05-30 2000-05-30 Method for preparing term table data base and method for retrieving electronic document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000160950A JP2001344246A (en) 2000-05-30 2000-05-30 Method for preparing term table data base and method for retrieving electronic document

Publications (1)

Publication Number Publication Date
JP2001344246A true JP2001344246A (en) 2001-12-14

Family

ID=18665065

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000160950A Withdrawn JP2001344246A (en) 2000-05-30 2000-05-30 Method for preparing term table data base and method for retrieving electronic document

Country Status (1)

Country Link
JP (1) JP2001344246A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007317133A (en) * 2006-05-29 2007-12-06 Nippon Telegr & Teleph Corp <Ntt> Image classification method, device, and program
US7321880B2 (en) 2003-07-02 2008-01-22 International Business Machines Corporation Web services access to classification engines
US7412453B2 (en) 2002-12-30 2008-08-12 International Business Machines Corporation Document analysis and retrieval
JP2011150611A (en) * 2010-01-25 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> Method, apparatus and program for retrieving document
JP2011170700A (en) * 2010-02-19 2011-09-01 Nippon Telegr & Teleph Corp <Ntt> Document retrieval device, document retrieval method, document retrieval program

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7412453B2 (en) 2002-12-30 2008-08-12 International Business Machines Corporation Document analysis and retrieval
US8015171B2 (en) 2002-12-30 2011-09-06 International Business Machines Corporation Document analysis and retrieval
US8015206B2 (en) 2002-12-30 2011-09-06 International Business Machines Corporation Document analysis and retrieval
US7321880B2 (en) 2003-07-02 2008-01-22 International Business Machines Corporation Web services access to classification engines
JP2007317133A (en) * 2006-05-29 2007-12-06 Nippon Telegr & Teleph Corp <Ntt> Image classification method, device, and program
JP4703487B2 (en) * 2006-05-29 2011-06-15 日本電信電話株式会社 Image classification method, apparatus and program
JP2011150611A (en) * 2010-01-25 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> Method, apparatus and program for retrieving document
JP2011170700A (en) * 2010-02-19 2011-09-01 Nippon Telegr & Teleph Corp <Ntt> Document retrieval device, document retrieval method, document retrieval program

Similar Documents

Publication Publication Date Title
US6094649A (en) Keyword searches of structured databases
US6321228B1 (en) Internet search system for retrieving selected results from a previous search
US5920859A (en) Hypertext document retrieval system and method
US6970863B2 (en) Front-end weight factor search criteria
US9111008B2 (en) Document information management system
US6338059B1 (en) Hyperlinked search interface for distributed database
US8271486B2 (en) System and method for searching a bookmark and tag database for relevant bookmarks
US8862565B1 (en) Techniques for web site integration
US9075881B2 (en) System and method for identifying the owner of a document on the world-wide web
US20020099685A1 (en) Document retrieval system; method of document retrieval; and search server
JPH09311870A (en) Hyper text retrieving device
WO2002101588A1 (en) Content management system
WO2001016807A1 (en) An internet search system for tracking and ranking selected records from a previous search
US7783643B2 (en) Direct navigation for information retrieval
JP2005346495A (en) Information processing system, information processing method, and information processing program
KR20000050225A (en) Internet information searching system and method by document auto summation
JPH10187752A (en) Inter-language information retrieval backup system
WO1997049048A1 (en) Hypertext document retrieval system and method
JP2001188802A (en) Device and method for retrieving information
JP2001344246A (en) Method for preparing term table data base and method for retrieving electronic document
JP4649036B2 (en) Category reporting method, record reporting method, search service device by search server
KR20000071937A (en) Method for retrieving data on internet through constructing site information database
JP4094844B2 (en) Document collection apparatus for specific use, method thereof, and program for causing computer to execute
JP2006529044A (en) Definition system and method
JP2007188134A (en) Method of document retrieval using index file

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070409

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20070420