JP2549745B2 - Document search device - Google Patents

Document search device

Info

Publication number
JP2549745B2
JP2549745B2 JP2103606A JP10360690A JP2549745B2 JP 2549745 B2 JP2549745 B2 JP 2549745B2 JP 2103606 A JP2103606 A JP 2103606A JP 10360690 A JP10360690 A JP 10360690A JP 2549745 B2 JP2549745 B2 JP 2549745B2
Authority
JP
Japan
Prior art keywords
document
data
paragraph
format
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2103606A
Other languages
Japanese (ja)
Other versions
JPH041853A (en
Inventor
剛 七野
靖忠 永野
聡 田中
孝雄 平田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2103606A priority Critical patent/JP2549745B2/en
Publication of JPH041853A publication Critical patent/JPH041853A/en
Application granted granted Critical
Publication of JP2549745B2 publication Critical patent/JP2549745B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は、蓄積された複数の文書の中からインデッ
クスを用いて指定された文書を検索する文書検索装置に
係わり、特に書式が予め決まっている文書の検索装置に
関するものである。
Description: TECHNICAL FIELD The present invention relates to a document search device for searching a document specified by an index from a plurality of stored documents, and in particular, a format is predetermined. The present invention relates to a device for retrieving existing documents.

[従来の技術] 計算機システムを用いて文書データベースを構築する
には、利用目的に応じて、文書内容を適切に表わすキー
ワードを含むインデックスを作成する必要がある。従来
の文書検索装置においては、一般にインデックスは人手
で作成されており、人間が文書そのものを見て、その文
書の中から書式等に基づき必要なキーワードを見つけ出
して、表形式のインデックスに入力することにより作成
されていた。従って、文書データベースの構築には、多
大の費用と時間がかかっていた。
[Prior Art] In order to construct a document database using a computer system, it is necessary to create an index including a keyword that appropriately represents the contents of a document, depending on the purpose of use. In a conventional document retrieval apparatus, an index is generally created manually, and a person looks at the document itself, finds out a necessary keyword from the document based on a format, etc., and inputs it into a tabular index. Was created by. Therefore, the construction of the document database has required a great deal of cost and time.

そこで、第11図に示すようなデータベースシステムが
実用化されている。図において、1は文書を入力するワ
ープロ等の文書入力手段、2は入力された文書を格納す
る磁気ディスク装置等の文書記憶手段、3は格納された
文書から自然言語処理機能によりキーワードを自動的に
抽出するキーワード自動抽出手段、4は抽出されたキー
ワードを格納するキーワード記憶手段、5は検索要求と
して検索条件となるキーワード等を入力するキーボード
やディスプレイ等の検索要求入力手段、6は入力された
キーワードに基づきキーワード記憶手段4を参照して文
書記憶手段2に記憶された文書の中から指定された文書
を検索する検索手段、7はこの検索結果を出力するディ
スプレイ等の検索結果出力手段である。
Therefore, a database system as shown in FIG. 11 has been put into practical use. In the figure, 1 is a document inputting means such as a word processor for inputting a document, 2 is a document storing means such as a magnetic disk device for storing the input document, and 3 is a keyword automatically stored in the stored document by a natural language processing function. Automatic keyword extracting means for extracting into 4 is a keyword storing means for storing the extracted keywords, 5 is a search request inputting means such as a keyboard or display for inputting keywords as search conditions as a search request, and 6 is input Search means for searching the specified document from the documents stored in the document storage means 2 by referring to the keyword storage means 4 based on the keyword, and 7 is a search result output means such as a display for outputting the search result. .

このシステムにおいては、入力された文書を文法に基
づき単語毎に分割する分かち書き処理を行った後、分割
された単語を評価して助詞等の不要な用語を除去するこ
とにより、検索時に必要となるキーワードを自動的に抽
出し設定するようにしている。
In this system, the input document is divided into words based on the grammar, and is divided into words. After that, the divided words are evaluated and unnecessary words such as particles are removed. Keywords are automatically extracted and set.

[発明が解決しようとする課題] 従来の文書検索装置は以上のように構成されていたの
で、上述したように一般にインデックスを人手で作成し
なければならず、データベース構築に多大の費用と時間
かかかるという問題点があった。また、自然言語処理機
能により文書中からキーワードを自動抽出するものも実
用化されているが、名刺や動詞等が全てキーワードとな
るので、抽出されるキーワードが曖昧であったり、不適
当であったりすることが多く、キーワードの抽出,設定
に時間を要したり、検索が効率的に行えないなどの問題
点があった。
[Problems to be Solved by the Invention] Since the conventional document retrieval apparatus is configured as described above, it is generally necessary to manually create an index as described above, which requires a great deal of cost and time for database construction. There was a problem of this. In addition, automatic extraction of keywords from documents using a natural language processing function has also been put into practical use, but since all business cards and verbs are keywords, the extracted keywords may be ambiguous or inappropriate. However, there are problems that it takes time to extract and set the keywords, and the search cannot be performed efficiently.

この発明は上記のような問題点を解消するためになさ
れたものであり、本当に必要なキーワードだけを自動的
に抽出することができ、文書内容の詳細な事項を正確に
イデックスとして自動抽出し、効率よく検索できる文書
検索装置を得ることを目的とする。
The present invention has been made to solve the above-mentioned problems, and it is possible to automatically extract only really necessary keywords, and automatically extract detailed items of the document contents accurately as an index, It is an object of the present invention to obtain a document search device capable of efficiently searching.

[課題を解決するための手段] この発明に係る文書検索装置は、文書入力手段を介し
て入力された文書を記憶する文書記憶手段と、文書書式
入力手段を介して入力された文書の書式を記憶する文書
書式記憶手段と、上記文書記憶手段に格納された文書デ
ータをいくつかの要素データに分解して、文書書式記憶
手段に格納された書式データ中のパラグラフタイトルに
基づいて上記要素データの中からパラグラフデータの候
補を抽出し、パラグラフの順番の整合性やパラグラフと
しての確からしさなどの文書書式に関する規則に適合す
るパラグラフデータの候補をパラグラフデータと決定
し、決定したパラグラフデータを組合せて文書のインデ
ックスを生成するインデックス抽出手段と、検索時に上
記文書書式記憶手段に格納された書式データを表示し、
これに対して入力された検索条件に基づき上記インデッ
クスを用いて文書を検索する検索手段とを備えたもので
ある。
[Means for Solving the Problem] A document search device according to the present invention stores a document storage unit for storing a document input via a document input unit and a document format input via a document format input unit. The document format storage means to be stored and the document data stored in the document storage means are decomposed into some element data, and the element data of the element data is stored based on the paragraph title in the format data stored in the document format storage means. Paragraph data candidates are extracted from the paragraphs, paragraph data candidates that conform to the rules for document formats such as consistency of paragraph order and certainty as paragraphs are determined as paragraph data, and the determined paragraph data is combined and documented. The index extraction means for generating the index of and the format data stored in the document format storage means at the time of retrieval Display,
On the other hand, a search means for searching the document using the index based on the input search condition is provided.

[作用] この発明においては、文書が一般に定形の書式に従っ
て書かれている点に着目し、この文書書式を文書書式記
憶手段に格納しておく。インデックス抽出手段は、文書
記憶手段に格納された文書データをいくつかの要素デー
タに分解して、文書書式記憶手段に格納された書式デー
タ中のパラグラフタイトルに基づいて上記要素データの
中からパラグラフデータの候補を抽出して、文書書式に
関する規則に適合するパラグラフデータの候補をパラグ
ラフデータと決定し、決定したパラグラフデータを組合
せて文書のインデックスを生成する。このように生成さ
れたインデックスは信頼性が高く、よって、検索時の信
頼性も高くなる。また、文書の各パラグラフのデータ,
すなわち、文書の内容の詳細な事項をインデックスとす
ることができる。また、検索において、書式を検索者に
提示することができるため、検索者は特別な検索言語を
知らなくても、検索条件を穴埋め式に簡単に与えること
ができる。
[Operation] In the present invention, attention is paid to the fact that a document is generally written according to a fixed format, and this document format is stored in the document format storage means. The index extraction means decomposes the document data stored in the document storage means into some element data, and based on the paragraph title in the format data stored in the document format storage means, the paragraph data from the element data. Are extracted, the paragraph data candidates that conform to the rules regarding the document format are determined as paragraph data, and the determined paragraph data are combined to generate a document index. The index generated in this way is highly reliable, and therefore the reliability at the time of retrieval is also high. Also, the data of each paragraph of the document,
That is, detailed items of the contents of the document can be used as the index. Further, since the format can be presented to the searcher in the search, the searcher can easily give the search condition to the fill-in-the-blank formula without knowing a special search language.

[実施例] 以下、この発明の一実施例を図において説明する。[Embodiment] An embodiment of the present invention will be described below with reference to the drawings.

第1図は実施例の文書検索装置の全体構成を示すブロ
ック図であり、前記第11図と同一又は相当部分には同一
符号を用いてその説明は省略する。図において、8は検
索する文書に定められた書式を入力するワープロ等の文
書書式入力手段、9は入力された文書書式を格納する磁
気ディスク装置等の文書書式記憶手段、10はインデック
ス抽出手段であり、これは、上記文書記憶手段2に格納
された文書データをいくつかの要素データに分解して、
文書書式記憶手段9に格納された書式データ中のパラグ
ラフタイトルに基づいて上記要素データの中からパラグ
ラフデータの候補を抽出して、パラグラフの順番の整合
性やパラグラフとしての確からしさなどの文書書式に関
する規則に適合するパラグラフデータの候補をパラグラ
フデータと決定し、決定したパラグラフデータを組合せ
て文書のインデックスを生成するものである。11は、上
記インデックス抽出手段10によって生成されたインデッ
クスが格納される磁気ディスク装置等のインデックス記
憶手段、12は検索時に上記文書書式記憶手段9に格納さ
れた文書書式を検索要求入力手段5のディスプレイに表
示し、これに対してキーボードから入力された検索条件
に基づき、インデックス記憶手段11中のインデクスを用
いて文書記憶手段2内の文書を検索する検索手段であ
り、検索結果はディスプレイ等の検索結果出力手段7に
出力される。なお、上記インデックス抽出手段10及び検
索手段12は、計算機システムを構成するプロセッサとそ
の上で動作するソウトウェアによって実現されている。
FIG. 1 is a block diagram showing the overall configuration of the document retrieval apparatus of the embodiment. The same or corresponding parts as in FIG. 11 are designated by the same reference numerals and the description thereof is omitted. In the figure, 8 is a document format input means such as a word processor for inputting a predetermined format for a document to be searched, 9 is a document format storage means such as a magnetic disk device for storing the input document format, and 10 is an index extracting means. Yes, this decomposes the document data stored in the document storage means 2 into some element data,
A candidate for paragraph data is extracted from the element data based on the paragraph title in the format data stored in the document format storage means 9, and is related to the document format such as consistency of paragraph order and certainty as a paragraph. The paragraph data candidates that conform to the rules are determined as paragraph data, and the determined paragraph data are combined to generate a document index. Reference numeral 11 is an index storage means such as a magnetic disk device in which the index generated by the index extraction means 10 is stored, and 12 is a display of the search request input means 5 for displaying the document format stored in the document format storage means 9 at the time of retrieval. Is a search means for searching the document in the document storage means 2 using the index in the index storage means 11 based on the search condition input from the keyboard. It is output to the result output means 7. The index extracting means 10 and the searching means 12 are realized by a processor that constitutes a computer system and software that operates on the processor.

次に動作について説明する。 Next, the operation will be described.

前述したように、本願は、文書が一般に定形の書式に
従って書かれている点に着目したもので、特に文書デー
タベースの対象となる技術文書、例えば研究報告,規格
書,仕様書等は第2図に示すように、1ページ目の表紙
や2ページ目の目次が罫線の枠で種別や表題を示す各フ
ィールドが区画された共通の書式を有している。なお、
本願で扱う書式としては、上記の他に、文書中の表(例
えば○○の規格表など)や、明細書のように枠などはな
くともよい。
As described above, the present application focuses on the fact that documents are generally written according to a fixed format, and in particular, technical documents, such as research reports, standards, and specifications, that are subject to the document database are shown in FIG. As shown in, the cover of the first page and the table of contents of the second page have a common format in which each field indicating the type and title is divided by a ruled frame. In addition,
In addition to the above, the format used in the present application may be a table in a document (for example, a standard table of XX) or a frame such as a specification.

先ず、文書そのものは、従来と同様に文書入力手段1
によって入力され、文書記憶手段2に格納される。また
本装置では、その文書の書式が文書書式入力手段8から
入力され、文書書式記憶手段9に格納される。この文書
書式は、書式の同じ文書のみを扱う場合は1種類でよい
が、書式の異なる文書を扱う場合はその種類だけ入力さ
れ、インデックス抽出時や検索時にはその種類が指定さ
れる。一般に文書は、パラグラフ(ある意味でもってか
たまりとみなせる論理的な単位)の集まりからなる。従
って、書式として入力されるデータは、第3図に示すよ
うに、文書がどのようなパラグラフから構成されている
かをあらわす文書構造(枠,パラグラフタイトル)と、
抽出するデータの位置(斜線部)及び抽出したデータの
インデックスとの対応関係(矢印で示すポインタ)など
である。なお、第3図の場合、パラグラフとは罫線で囲
まれた内部をあらわす。
First, the document itself is the document input means 1 as in the conventional case.
Is input and stored in the document storage means 2. Further, in this apparatus, the format of the document is input from the document format input means 8 and stored in the document format storage means 9. This document format may be of one type when handling only documents of the same format, but only that type is input when handling documents of different formats, and that type is specified during index extraction and retrieval. In general, a document consists of a set of paragraphs (logical units that in a sense can be regarded as a block). Therefore, as shown in FIG. 3, the data input as the format includes a document structure (frame, paragraph title) showing what kind of paragraph the document is composed of,
The correspondence between the position of the data to be extracted (hatched portion) and the index of the extracted data (pointer indicated by an arrow) and the like. In the case of FIG. 3, the paragraph means the inside surrounded by ruled lines.

一方、インデックス抽出手段10は、文書入力手段1か
ら文書が入力され文書記憶手段2に格納される度に、第
4図(a)に示す文書構造解析処理(ステップS1)と抽
出データ決定処理(ステップS2)とインデックス生成処
理(ステップS3)の一連の処理を実行する。第4図
(b)に各処理ステップでの入力と処理内容と出力を示
し、そのデータの流れを第4図(c)に示す。なお、同
図の文書構造解析では、罫線で囲まれた文書の表紙から
インデックスを生成する例を取り上げたが、文書構造解
析は、第5図(a)に示すようにパラグラフが罫線で囲
まれていなくても、また、第5図(b)に示すようにパ
ラグラウの長さが可変長であっても対応できる。
On the other hand, the index extracting means 10 each time a document is input from the document inputting means 1 and stored in the document storing means 2, the document structure analyzing process (step S1) and the extracted data determining process (step S1) shown in FIG. A series of processing of step S2) and index generation processing (step S3) is executed. FIG. 4 (b) shows the input, processing contents, and output at each processing step, and the data flow is shown in FIG. 4 (c). In the document structure analysis of the figure, an example of generating an index from the cover of a document surrounded by ruled lines has been taken, but in the document structure analysis, paragraphs are surrounded by ruled lines as shown in FIG. 5 (a). Alternatively, it is possible to cope with the paragrow having a variable length as shown in FIG. 5 (b).

第6図は上記文書構造解析処理を更に詳細に説明する
ための図であり、文書構造解析処理(ステップS1)は推
論部であり、文書記憶手段2から取り出された文書デー
タを最小構成要素に分解する文書要素解析処理(ステッ
プS11)と、得られた各最小構成要素を文書書式記憶手
段9から取り出された書式データのパラグラフに対応
(いくつかの代替案が可能)させるパラグラフ対応処理
(ステップS12)と、得られたパラグラフの対応の中か
ら最も可能性の高い対応を選択して出力する構造解析処
理(ステップS13)に分けられ、それぞれ以下に示すよ
うな処理が行われる。
FIG. 6 is a diagram for explaining the document structure analysis process in more detail. The document structure analysis process (step S1) is an inference unit, and the document data retrieved from the document storage means 2 is used as the minimum component. A document element analysis process for decomposing (step S11) and a paragraph correspondence process (step S11) for corresponding each obtained minimum constituent element to a paragraph of the format data retrieved from the document format storage means 9 (several alternatives are possible). S12) and the structural analysis processing (step S13) of selecting and outputting the correspondence having the highest possibility from the correspondence of the obtained paragraphs, and the following processing is performed respectively.

(1)ステップS11(文書要素解析) ここでは、文書データの内容を最小構成要素に分解し
て、それぞれの要素に順番に番号を付ける。番号を付け
た最小構成要素を要素データと呼ぶ。ここで言う最小構
成要素とは、 a)行 b)表の中の行 c)図やグラフ等,文書以外の領域 であり、行とは、改行記号又は表の罫線があるところま
での文字列である。
(1) Step S11 (Document Element Analysis) Here, the contents of the document data are decomposed into the minimum constituent elements, and the respective elements are sequentially numbered. The smallest numbered constituent elements are called element data. The minimum components mentioned here are: a) rows b) rows in a table c) areas other than documents, such as figures and graphs, and rows are character strings up to where there are line feed symbols or table ruled lines. Is.

(2)ステップS12(パラグラフ対応) ここでは、要素データの先頭を書式データにある各パ
ラグラフのパラグラフタイトル(パラグラフを見つける
ためのキーワード)とマッチングさせ、各パラグラフの
始まりとなる要素データを選択する(複数選択可)。こ
れらの対応付けをパラグラフ対応データと呼ぶ。具体的
な例を第7図(a),(b)に示す。同図(a),
(b)に示したような2つのデータから第8図に示すよ
うな5つのパラグラフ対応データが得られる。同図に示
すパラグラフ対応データととは互いに矛盾するデー
タであるが、この段階では2つとも候補として保持して
おき、次のステップS13(構造解析)でとのどちら
かを選ぶ。
(2) Step S12 (corresponding to paragraph) Here, the head of the element data is matched with the paragraph title (keyword for finding the paragraph) of each paragraph in the format data, and the element data to be the start of each paragraph is selected ( You can select more than one). These correspondences are called paragraph correspondence data. Specific examples are shown in FIGS. 7 (a) and 7 (b). The same figure (a),
From the two data shown in (b), five paragraph corresponding data as shown in FIG. 8 are obtained. The paragraph-corresponding data shown in the figure are data that contradict each other, but at this stage, both of them are held as candidates, and either of and is selected in the next step S13 (structural analysis).

(3)ステップS13(構造解析) 上記ステップS12で得られたパラグラフ対応データの
中から最も適当な組み合わせをプロダクション・ルール
セットを用いて選択し、最終的に決定したパラグラフ対
応データの集合をパラグラフ切り分けデータとして確保
する。これによって、各パラグラフの先頭にくる要素デ
ータが決定され、従って各パラグラフを構成する要素デ
ータの集合も決定される。
(3) Step S13 (Structural analysis) The most appropriate combination is selected from the paragraph corresponding data obtained in step S12 using the production rule set, and the finally determined set of paragraph corresponding data is divided into paragraphs. Secure as data. As a result, the element data at the head of each paragraph is determined, and thus the set of element data forming each paragraph is also determined.

プロダクション・ルールセットとしては、パラグラフ
の順番の整合性や、パラグラフとしての確からしさなど
が考えられる。以下にプロダクション・ルールセットの
例を示す。
As for the production ruleset, the consistency of the paragraph order and the certainty of the paragraph can be considered. Below is an example of a production ruleset.

上記のパラグラフ対応データ(第8図)では、3
ルールセットb)により、2**がルールセットa)に
より候補から外される。そして、残りの対応付けが最も
適当な組み合わせとして選択される。
In the above paragraph-corresponding data (FIG. 8), 3 * is excluded from the candidates by rule set b) and 2 ** is excluded from the rule set a). Then, the remaining associations are selected as the most appropriate combination.

以上のようにして文書構造解析処理(ステップS1)が
終了すると、次の抽出データ決定処理(ステップS2)で
は、上記ステップS13(構造解析)で得られた各パラグ
ラフを構成する要素データ集合から、そのパラグラフの
パラグラフタイトルを除いたものがインデックスとなる
データとして抽出される(第9図及び前記第4図(c)
参照)。
When the document structure analysis process (step S1) is completed as described above, in the next extraction data determination process (step S2), from the element data set forming each paragraph obtained in step S13 (structure analysis), The data excluding the paragraph title of the paragraph is extracted as index data (Fig. 9 and Fig. 4 (c)).
reference).

そして、最後のインデックス生成処理(ステップS3)
において、上記ステップS2(抽出データ決定処理)で抽
出したデータをインデックスデータを格納する表のフィ
ールドに投入することにより(前記第4図(c)参
照)、インデックスをインデックス記憶手段11上に生成
する。
And the final index generation process (step S3)
In step S2 (extracted data determination process), the index is generated in the index storage means 11 by inputting the data extracted in the field of the table storing index data (see FIG. 4 (c)). .

次に検索時について説明すると、例えば、第10図
(a)に示すようなインデックスデータが上述した自動
抽出によって用意されている場合に、検索者が「‘山
口’が書いた,大要に‘ソフトウェア設計’という言葉
がある。‘研究報告’の大要の部分を見たい」という検
索要求を行うときは、第10図(b)に示すように、検索
要求入力画面に検索手段12が対応する書式の枠組みを表
示し、検索者はシステムが表示したこの書式に必要項目
を入力するだけで、検索条件が検索手段12に与えられ
る。なお、図中の*は周知のワイルドカードであり、こ
れが与えられたときはテキストサーチを行う。これによ
り、検索手段12はインデックスを用いた通常の検索を行
い、検索結果として、第10図(c)のように、検索要求
を満足する文書の指定した所が出力され、文書が複数あ
る場合はマルチウインドウで出力される。
Next, the search will be described. For example, when the index data as shown in FIG. 10 (a) is prepared by the automatic extraction described above, the searcher writes “'Yamaguchi' wrote, There is a word "software design." I want to see the main part of the "research report"", the search means 12 corresponds to the search request input screen as shown in FIG. 10 (b). The frame of the format to be displayed is displayed, and the searcher simply inputs the necessary items in this format displayed by the system, and the search condition is given to the search means 12. It should be noted that * in the figure is a well-known wild card, and when given, a text search is performed. As a result, the search means 12 performs a normal search using the index, and as a search result, the designated place of the document satisfying the search request is output as shown in FIG. Is output in multiple windows.

[発明の効果] 以上のように、この発明によれば、文書入力手段を介
して入力された文書を記憶する文書記憶手段と、文書書
式入力手段を介して入力された文書の書式を記憶する文
書書式記憶手段と、上記文書記憶手段に格納された文書
データをいくつかの要素データに分解して、文書書式記
憶手段に格納された書式データ中のパラグラフスタイル
に基づいて上記要素データの中からパラグラフデータの
候補を抽出し、パラグラウの順番の整合性やパラグラフ
としての確からしさなどの文書書式に関する規則に適合
するパラグラフデータの候補をパラグラフデータと決定
し、決定したパラグラフデータを組合せて文書のインデ
ックスを生成するインデックス抽出手段と、検索時に上
記文書書式記憶手段に格納された書式データを表示し、
これに対して入力された検索条件に基づき上記インデッ
クスを用いて文書を検索する検索手段とを備えたので、
インデックスを自動的に作成できるとともに、文書から
抽出するデータを書式によって指定してしているので正
確に行え、また、書式を用いて文書構造の解析が行える
ので、文書内容の詳細な事項をインデックスとすること
ができ、さらに、最も適当なパラグラフの組み合わせに
よる信頼性の高いインデックスが得られ、検索時の信頼
性も高くなる。また、検索において、書式を検索者に提
示することができるため、検索者は特別な検索言語を知
らなくても、検索条件を穴埋め式に簡単に与えることが
できる。
[Effects of the Invention] As described above, according to the present invention, the document storage means for storing the document input via the document input means and the format of the document input via the document format input means are stored. The document format storage means and the document data stored in the document storage means are decomposed into some element data, and based on the paragraph style in the format data stored in the document format storage means Paragraph data candidates are extracted, paragraph data candidates that conform to the rules for document formats such as consistency of paragraph order and certainty as paragraphs are determined as paragraph data, and the determined paragraph data are combined to index the document. Displaying the format data stored in the document format storage means at the time of retrieval,
On the other hand, since a search means for searching a document using the above-mentioned index based on the input search condition is provided,
An index can be created automatically, and the data to be extracted from the document is specified by the format, so it can be performed accurately, and since the document structure can be analyzed using the format, detailed items of the document content can be indexed. In addition, a highly reliable index can be obtained by the most appropriate combination of paragraphs, and the reliability at the time of search is also high. Further, since the format can be presented to the searcher in the search, the searcher can easily give the search condition to the fill-in-the-blank formula without knowing a special search language.

【図面の簡単な説明】[Brief description of drawings]

第1図はこの発明の一実施例による文書検索装置の全体
構成を示すブロック図、第2図は文書書式を説明するた
めの図、第3図は書式として入力されるデータを説明す
るための図、第4図はインデックス抽出手段の作用を説
明するための図、第5図はインデックス抽出が可能な文
書の他の例を示す図、第6図は文書構造解析処理を更に
詳細に説明するための図、第7図はパラグラフ対応の一
例を示す図、第8図はパラグラフ対応データの一例を示
す図、第9図は抽出データの一例を示す図、第10図は検
索手段の作用を説明するための図、第11図は従来例の構
成を示すブロック図である。 1は文書入力手段、2は文書記憶手段、5は検索要求入
力手段、7は検索結果出力手段、8は文書書式入力手
段、9は文書書式記憶手段、10はインデックス抽出手
段、11はインデックス記憶手段、12は検索手段。 なお、図中、同一符号は同一、又は相当部分を示す。
FIG. 1 is a block diagram showing the overall configuration of a document retrieval apparatus according to an embodiment of the present invention, FIG. 2 is a diagram for explaining a document format, and FIG. 3 is a diagram for explaining data input as a format. 4 and FIG. 4 are diagrams for explaining the operation of the index extracting means, FIG. 5 is a diagram showing another example of a document in which index extraction is possible, and FIG. 6 is a detailed explanation of the document structure analysis process. FIG. 7, FIG. 7 shows an example of paragraph correspondence, FIG. 8 shows an example of paragraph correspondence data, FIG. 9 shows an example of extracted data, and FIG. FIG. 11 is a block diagram showing a configuration of a conventional example for the purpose of explanation. 1 is a document input means, 2 is a document storage means, 5 is a search request input means, 7 is a search result output means, 8 is a document format input means, 9 is a document format storage means, 10 is an index extraction means, 11 is an index storage Means, 12 is a search means. In the drawings, the same reference numerals indicate the same or corresponding parts.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 平田 孝雄 神奈川県鎌倉市大船5丁目1番1号 三 菱電機株式会社情報電子研究所内 (56)参考文献 特開 平2−72468(JP,A) 特開 昭63−226765(JP,A) 情報処理学会第39回(平成元年後期) 全国大会講演論文集P.953 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Takao Hirata 5-1-1, Ofuna, Kamakura-shi, Kanagawa Sanryo Electric Co., Ltd. Information Electronics Research Laboratory (56) Reference JP-A-2-72468 (JP, A) JP 63-226765 (JP, A) Proc. Of the 39th National Conference of Information Processing Society of Japan (Late 1989) 953

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】蓄積された複数の文書の中からインデック
スを用いて指定された文書を検索する文書検索装置であ
って、 文書入力手段を介して入力された文書を記憶する文書記
憶手段と、 文書書式入力手段を介して入力された文書の書式を記憶
する文書書式記憶手段と、 上記文書記憶手段に格納された文書データをいくつかの
要素データに分離して、文書書式記憶手段に格納された
書式データ中のパラグラフタイトルに基づいて上記要素
データの中からパラグラフデータの候補を抽出し、パラ
グラフの順番の整合性やパラグラフとしての確からしさ
などの文書書式に関する規則に適合するパラグラフデー
タの候補をパラグラフデータと決定し、決定したパラグ
ラフデータを組合せて文書のインデックスを生成するイ
ンデックス抽出手段と、 検索時に上記文書書式記憶手段に格納された書式データ
を表示し、これに対して入力された検索条件に基づき上
記インデックスを用いて文書を検索する検索手段とを備
えたことを特徴とする文書検索装置。
1. A document retrieval device for retrieving a document designated by using an index from a plurality of stored documents, and a document storage means for storing the document inputted via the document input means. A document format storage means for storing the format of the document input via the document format input means, and the document data stored in the document storage means are separated into some element data and stored in the document format storage means. Paragraph data candidates are extracted from the above element data based on the paragraph title in the formatted data, and paragraph data candidates conforming to the document format rules such as consistency of paragraph order and certainty as paragraphs are selected. Index extraction means for determining the paragraph data and combining the determined paragraph data to generate a document index; Document search characterized by comprising a search means for displaying the format data stored in the document format storage means at the time of searching, and for searching the document using the index based on the search condition input thereto. apparatus.
JP2103606A 1990-04-19 1990-04-19 Document search device Expired - Fee Related JP2549745B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2103606A JP2549745B2 (en) 1990-04-19 1990-04-19 Document search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2103606A JP2549745B2 (en) 1990-04-19 1990-04-19 Document search device

Publications (2)

Publication Number Publication Date
JPH041853A JPH041853A (en) 1992-01-07
JP2549745B2 true JP2549745B2 (en) 1996-10-30

Family

ID=14358433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2103606A Expired - Fee Related JP2549745B2 (en) 1990-04-19 1990-04-19 Document search device

Country Status (1)

Country Link
JP (1) JP2549745B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3416780B2 (en) * 1993-05-17 2003-06-16 株式会社日立製作所 Structured document browsing device
US6823492B1 (en) * 2000-01-06 2004-11-23 Sun Microsystems, Inc. Method and apparatus for creating an index for a structured document based on a stylesheet

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
情報処理学会第39回(平成元年後期)全国大会講演論文集P.953

Also Published As

Publication number Publication date
JPH041853A (en) 1992-01-07

Similar Documents

Publication Publication Date Title
US9256798B2 (en) Document alteration based on native text analysis and OCR
JP5241828B2 (en) Dictionary word and idiom determination
US8645184B2 (en) Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service
US9785707B2 (en) Method and system for converting audio text files originating from audio files to searchable text and for processing the searchable text
US20160358274A1 (en) Patent Claims Analysis System and Method
US10528609B2 (en) Aggregating procedures for automatic document analysis
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JP4832952B2 (en) Database analysis system, database analysis method and program
CN110489032B (en) Dictionary query method for electronic book and electronic equipment
KR101651963B1 (en) Method of generating time and space associated data, time and space associated data generation server performing the same and storage medium storing the same
US11676231B1 (en) Aggregating procedures for automatic document analysis
JP2549745B2 (en) Document search device
US20080162165A1 (en) Method and system for analyzing non-patent references in a set of patents
CN113032515A (en) Method, system, device and storage medium for generating chart based on multiple data sources
JPH10307837A (en) Retrieval device and recording medium recording retrieval program
JP2000020549A (en) Device for assisting input to document database system
JP2009282903A (en) Knowledge extraction/search apparatus and method thereof
JP2010262332A (en) System, method and program for creation of extraction rule
JP2003058559A (en) Document classification method, retrieval method, classification system, and retrieval system
JPS63175965A (en) Document processor
JP2002259426A (en) Similar document retrieval device, similar document retrieval method, recording medium with similar document retrieval program recorded thereon and similar document retrieval program
JP3471666B2 (en) Keyword search method over multiple tables
JP3210842B2 (en) Information processing device
JP2008305127A (en) Keyword extraction device, keyword extraction method, program and recording medium
JP4248828B2 (en) Document processing apparatus, document processing method, and recording medium

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees