JPH0567147A - Document retriever - Google Patents

Document retriever

Info

Publication number
JPH0567147A
JPH0567147A JP3230143A JP23014391A JPH0567147A JP H0567147 A JPH0567147 A JP H0567147A JP 3230143 A JP3230143 A JP 3230143A JP 23014391 A JP23014391 A JP 23014391A JP H0567147 A JPH0567147 A JP H0567147A
Authority
JP
Japan
Prior art keywords
data
data structure
unit
index
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3230143A
Other languages
Japanese (ja)
Other versions
JP2751681B2 (en
Inventor
Masao Ito
正雄 伊藤
Atsushi Ando
敦史 安藤
Yuji Sugano
祐司 菅野
Noboru Tamura
登 田村
健 ▲つる▼林
Takeshi Tsurubayashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3230143A priority Critical patent/JP2751681B2/en
Publication of JPH0567147A publication Critical patent/JPH0567147A/en
Application granted granted Critical
Publication of JP2751681B2 publication Critical patent/JP2751681B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To retrieve document data as it is without converting into a format proper to a retriever in advance by providing a data structure detecting means and a data structure generating means, and generating an index based on the result of the data structure generating means. CONSTITUTION:The data structure detecting means 13 detects the structure of data inputted based on information stored in a data structure storage means 14 according to an input document in advance. The data structure generating means 16 generates data structure information such as the start and end cut of a field record, etc., based on the result of the data structure detecting means 13, and synthesizes the data structure information with inputted data. An index generating means 18 generates the index based on data generated at the data structure generating means 16. Thereby, the retrieval can be performed without performing data formatting work for a document data base as in a conventional system.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は電子化された膨大な文書
データベースから全文検索を行なう文書検索装置に関す
るものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document retrieving apparatus for performing full-text retrieval from an enormous computerized document database.

【0002】[0002]

【従来の技術】近年、ワードプロセッサやパーソナルコ
ンピュータの普及、コンピュータによる文字認識の実用
化に伴い、これらによって作成される電子化文書が多く
なってきた。このため、大量の文書情報を蓄積し、必要
に応じて文書情報を検索するための文書データベースに
対する関心が高まってきている。従来の文書データベー
スでは、文書を検索する場合、文書毎に付されたキーワ
ードを利用するキーワード検索が一般的であった。しか
し、キーワード付け作業が蓄積文書の増加に間に合わな
い、時間が経過するとキーワードが陳腐化する、データ
ベース管理者の予想を越えたキーワードによる検索には
対応できず検索漏れが多くなる、等の問題点があった。
2. Description of the Related Art In recent years, with the spread of word processors and personal computers and the practical use of character recognition by computers, the number of electronic documents created by these has increased. Therefore, interest in a document database for accumulating a large amount of document information and retrieving the document information as needed is increasing. In a conventional document database, when searching for a document, a keyword search using a keyword attached to each document is generally used. However, there are problems such as keyword addition work not keeping up with the increase of accumulated documents, keywords becoming obsolete over time, and it is not possible to support searches by keywords beyond the expectation of the database administrator, resulting in frequent omission of searches. was there.

【0003】このような背景から最近は、全文データベ
ースと呼ばれる文書データベースが注目されている。全
文データベースでは、利用者から与えられた検索条件と
蓄積されている文書の全ての情報との間で照合を行い、
検索条件を満たす文書を出力する。検索条件では、従来
のキーワードのような単語以外に文などの文字列を用い
ても良い。
From such a background, recently, a document database called a full-text database has attracted attention. In the full-text database, the search conditions given by the user and all the information of the stored documents are collated,
Output documents that meet the search conditions. In the search condition, a character string such as a sentence may be used in addition to a word such as a conventional keyword.

【0004】以下、従来の文書検索装置について説明す
る。図9は従来の文書検索装置を示すものである。図9
において、901はデータ入力部である。902はデー
タ記憶部で、データ入力部901で入力したデータを一
時記憶する。903は検索部であり、904は検索条件
記憶部であり、検索部903で読み込まれながら、検索
が行なわれる。905はデータ出力部である。
A conventional document retrieval device will be described below. FIG. 9 shows a conventional document retrieval device. Figure 9
In 901, 901 is a data input unit. A data storage unit 902 temporarily stores the data input by the data input unit 901. A search unit 903 and a search condition storage unit 904 are searched by the search unit 903 while being searched. Reference numeral 905 is a data output unit.

【0005】以上のように構成された文書検索装置につ
いて、以下その動作について説明する。まず、データ入
力部用にフォーマット化されたデータをデータ入力部9
01で入力し、データ記憶部902に記憶する。記憶さ
れたデータに対して、検索部903が検索条件記憶部9
04の検索条件に従って検索を行ない、条件に一致する
レコードのみデータ出力部905で出力を行なう。
The operation of the document retrieval apparatus configured as described above will be described below. First of all, the data formatted for the data input section is transferred to the data input section 9
The data is input at 01 and stored in the data storage unit 902. For the stored data, the search unit 903 causes the search condition storage unit 9 to
The search is performed according to the search condition 04, and only the records that match the condition are output by the data output unit 905.

【0006】[0006]

【発明が解決しようとする課題】しかしながら上記の従
来の構成では、データ入力部が単純な為、入力部用のデ
ータフォーマットに予め変換するなどの前処理が必要で
あり、新たに入手した文書データベースから即座に検索
できないという課題を有していた。
However, in the above-mentioned conventional structure, since the data input section is simple, it is necessary to perform preprocessing such as conversion into a data format for the input section beforehand, and a newly acquired document database. There was a problem that it was not possible to search immediately from.

【0007】本発明は上記従来技術の課題を解決するも
ので、文書データベース固有のフォーマット情報を予め
登録するだけで、文書データベースのフォーマット変換
をせずに文書検索できる装置の提供を目的とする。
The present invention solves the above-mentioned problems of the prior art, and an object of the present invention is to provide an apparatus capable of retrieving a document by simply pre-registering format information unique to the document database and without converting the format of the document database.

【0008】[0008]

【課題を解決するための手段】上記目的を達成するため
に本発明の文書検索装置は、第1に、文書データを入力
するデータ入力手段と、データ構造記憶手段に記憶され
た情報に基づき前記入力手段により入力されたデータの
構造を検出するデータ構造検出手段と、前記データ構造
検出手段の結果に基づきデータ構造情報を発生しデータ
構造情報と入力されたデータを合成するデータ構造発生
手段と、前記データ構造発生手段で発生したデータに基
づきインデックスを作成するインデックス生成手段と、
検索条件データを記憶する検索条件データ記憶手段と、
前記インデックス生成手段により作成されたインデック
スに基づき前記データ構造発生手段の結果に対し前記検
索条件データ記憶手段に従い検索を行う検索手段と、検
索結果を出力するデータ出力手段とを備えた構成と成っ
ている。
In order to achieve the above-mentioned object, the document retrieval apparatus of the present invention is, firstly, based on the information stored in the data input means for inputting document data and the data structure storage means. Data structure detecting means for detecting the structure of the data input by the input means, and data structure generating means for generating data structure information based on the result of the data structure detecting means and combining the data structure information with the input data. Index generating means for generating an index based on the data generated by the data structure generating means,
Search condition data storage means for storing search condition data,
And a data output means for outputting the search result, the search condition data storing means searching for the result of the data structure generating means based on the index created by the index creating means. There is.

【0009】第2に、前記構成においてデータ構造発生
手段がデータ構造検出手段の結果に基づきデータ構造情
報と共に検索対象になるかどうかの検索対象情報を発生
しデータ構造情報と検索対象情報と入力されたデータと
を合成する構成と成っている。
Secondly, in the above structure, the data structure generating means generates search object information as to whether or not it becomes a search object together with the data structure information based on the result of the data structure detecting means, and inputs the data structure information and the search object information. It is configured to combine the data with the data.

【0010】[0010]

【作用】本発明は上記構成において、第1に、データ構
造検出手段が予め入力文書に対応してデータ構造記憶手
段に記憶された情報に基づき入力されたデータの構造を
検出し、データ構造発生手段が前記データ構造検出手段
の結果に基づきフィールド・レコードの開始や終了句切
り等のデータ構造情報を発生しデータ構造情報と入力さ
れたデータを合成し、インデックス生成手段が前記デー
タ構造発生手段で発生したデータに基づきインデックス
を作成することにより従来のように文書データベースの
フォーマット化作業を行なうことなく検索が可能とな
る。
According to the present invention, in the above structure, firstly, the data structure detecting means detects the structure of the data inputted based on the information previously stored in the data structure storing means corresponding to the input document, and the data structure is generated. Means generates data structure information such as start and end phrase breaks of field records based on the result of the data structure detecting means, synthesizes the data structure information and the input data, and the index generating means is the data structure generating means. By creating an index based on the generated data, it is possible to search without formatting the document database as in the conventional case.

【0011】第2に、前記構成においてデータ構造発生
手段がデータ構造検出手段の結果に基づき前記データ構
造情報と共に、検索対象になるかどうかの検索対象情報
を発生しデータ構造情報と検索対象情報と入力されたデ
ータとを合成することによりフォーマット化作業を行な
うことなく高速な検索が可能となる。
Secondly, in the above structure, the data structure generating means generates search object information as to whether or not it becomes a search object together with the data structure information based on the result of the data structure detecting means. By synthesizing the input data, high-speed search can be performed without performing formatting work.

【0012】[0012]

【実施例】【Example】

(実施例1)以下、本発明の第1の実施例について、図
面を参照しながら説明する。図1は本発明の第1の実施
例における文書検索装置の構成図である。図1におい
て、11はデータ入力部であり、12はデータ入力部1
1で入力したデータを記憶する第1データ記憶部であ
り、13は第1データ記憶部12で記憶したデータの構
造を検出するデータ構造検出部であり、14はデータ構
造検出部13で検出するデータ構造を記憶するデータ構
造記憶部であり、15はデータ構造記憶部14にデータ
構造を入力するデータ構造入力部であり、16は第1デ
ータ記憶部12のデータを読み出してデータ構造検出部
13の検出結果に従って構造情報をデータ線に付加する
データ構造発生部であり、17はデータ構造発生部16
で作成したデータを記憶する第2データ記憶部であり、
18はデータ構造発生部16で作成したデータからデー
タ構造の単位毎にインデックスアドレスを生成するイン
デックス生成部であり、19はインデックス生成部18
で生成したインデックス情報を記憶するインデックス記
憶部であり、20は第2データ記憶部17から検索を行
なう検索部であり、21は検索部20の条件を格納する
検索条件記憶部であり、22は検索部20の結果から文
書データの出力を制御するデータ出力部である。
(Embodiment 1) Hereinafter, a first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram of a document search device according to a first embodiment of the present invention. In FIG. 1, 11 is a data input unit, and 12 is a data input unit 1.
1 is a first data storage unit that stores the data input, 13 is a data structure detection unit that detects the structure of the data stored in the first data storage unit 12, and 14 is a data structure detection unit 13 that detects the data structure. A data structure storage unit for storing a data structure, a data structure input unit 15 for inputting a data structure to the data structure storage unit 14, and a data structure detection unit 13 for reading data from the first data storage unit 12 17 is a data structure generation unit that adds structure information to the data line according to the detection result of
Is a second data storage unit that stores the data created in
Reference numeral 18 denotes an index generation unit that generates an index address for each data structure unit from the data generated by the data structure generation unit 16, and 19 denotes the index generation unit 18
An index storage unit that stores the index information generated in step 2, a search unit 20 that searches the second data storage unit 17, a search condition storage unit 21 that stores the conditions of the search unit 20, and a reference numeral 22 A data output unit that controls the output of document data based on the result of the search unit 20.

【0013】また、30は入力データ線であり、31は
データ入力部11から第1データ記憶部12へのデータ
線であり、32は第1データ記憶部から読み出したデー
タ線であり、33はデータ構造検出部13がデータ構造
記憶部14からデータ構造を読み出すデータ線であり、
34はデータ構造入力部15がデータ構造をデータ構造
記憶部14に書き込むデータ線であり、35はデータ構
造検出部13で検出した結果をデータ構造発生部16に
送る検出信号線であり、36はデータ構造発生部16で
付加したデータを第2データ記憶部17とインデックス
生成部18に送るデータ線であり、37はインデックス
生成部18で生成したインデックス情報をインデックス
記憶部19に書き込むデータ線であり、38はインデッ
クス記憶部19からインデックス情報を読み出すデータ
線であり、39は検索部20から第2データ記憶部17
を読み出すデータ線であり、40は検索部20が検索条
件記憶部21から検索条件を読み出すデータ線であり、
41はデータ出力部22が第2データ記憶部17からデ
ータを読み出すデータ線であり、42は検索部20が条
件に一致したかどうかをデータ出力部22に知らせる一
致信号線であり、43はデータ出力部22からデータを
出力するデータ線である。
Reference numeral 30 is an input data line, 31 is a data line from the data input unit 11 to the first data storage unit 12, 32 is a data line read from the first data storage unit, and 33 is a data line. A data line from which the data structure detection unit 13 reads the data structure from the data structure storage unit 14,
Reference numeral 34 is a data line for the data structure input unit 15 to write the data structure to the data structure storage unit 14, 35 is a detection signal line for sending the result detected by the data structure detection unit 13 to the data structure generation unit 16, and 36 is Reference numeral 37 is a data line for sending the data added by the data structure generation unit 16 to the second data storage unit 17 and index generation unit 18, and 37 is a data line for writing the index information generated by the index generation unit 18 into the index storage unit 19. , 38 are data lines for reading the index information from the index storage unit 19, and 39 is from the search unit 20 to the second data storage unit 17.
Is a data line from which the search unit 20 reads the search condition from the search condition storage unit 21.
Reference numeral 41 is a data line for the data output unit 22 to read data from the second data storage unit 17, 42 is a match signal line for notifying the data output unit 22 whether the search unit 20 matches the condition, and 43 is a data line. It is a data line that outputs data from the output unit 22.

【0014】以上のように構成された文書検索装置につ
いて、図2に示す構造を持ったデータ列を入力した場合
の動作を説明する。図2でC(111)からC(LM
N)のCを文字とし、またC(111)からC(L1
1)、C(121)からC(L21)というように文字
Cがある単位で集まったものをフィールドとし、フィー
ルドとフィールドがある単位で集まったものをレコード
とする。各フィールドの文字数、各レコードのフィール
ド数は異なっても良いものとする。またフィールドとレ
コードの区別を付ける為の文字または文字列がそれぞれ
フィールド内,レコード内に含まれているものとし、デ
ータ構造入力部15により、これらの文字または文字列
がデータ構造記憶部14に記憶される。
The operation of the document retrieval apparatus configured as above when a data string having the structure shown in FIG. 2 is input will be described. In FIG. 2, C (111) to C (LM
N) C as a character, and C (111) to C (L1
1), C (121) to C (L21) such that characters C are gathered in a unit of a field are fields, and fields and fields are gathered in a unit of a field are records. The number of characters in each field and the number of fields in each record may be different. Further, it is assumed that the character or character string for distinguishing the field and the record is included in the field and the record, respectively, and these characters or character strings are stored in the data structure storage unit 14 by the data structure input unit 15. To be done.

【0015】このようなデータ列をデータ入力部11に
入力すると、データ入力部11は第1データ記憶部12
にデータを書き込む。書き込みと同時にデータ構造検出
部13がデータ構造記憶部14に記憶された情報に基づ
きフィールドとレコードの区別を付ける為の文字または
文字列を検出する。この文字または文字列は正規表現で
受理するものとする。データ構造検出部13で検出した
場合には、データ構造発生部16で第1データ記憶部か
ら逐次データ読み込み、入力データに対してデータ構造
情報を付加し、第2データ記憶部17に書き込み、同時
にデータ構造発生部16で作成したタグ部からインデッ
クス生成部18でインデックスアドレスを生成し、イン
デックス記憶部19に書き込む。
When such a data string is input to the data input unit 11, the data input unit 11 causes the first data storage unit 12 to operate.
Write data to. Simultaneously with writing, the data structure detection unit 13 detects a character or a character string for distinguishing a field from a record based on the information stored in the data structure storage unit 14. This character or string should be accepted as a regular expression. When the data structure detection unit 13 detects the data structure, the data structure generation unit 16 sequentially reads the data from the first data storage unit, adds the data structure information to the input data, and writes it to the second data storage unit 17, and at the same time. The index generation unit 18 generates an index address from the tag unit generated by the data structure generation unit 16 and writes the index address in the index storage unit 19.

【0016】図3がデータ構造情報を付加した例であ
り、第2データ記憶部とインデックス記憶部の内容を示
す。第2データ記憶部のタグ部がデータ構造情報を付加
した結果である。タグ部の内容は図4に示すようにFS
がフィールドの開始を示し、Dが通常データを示す。ま
たFEはフィールドの終了を示し、RSはレコードの買
いしを示し、REはレコードの終了を示し、Kはフィー
ルドとフィールド・レコードとレコードを区切る為の区
切り文字を示す。更にインデックス記憶部の内容はFS
の付いた文字のアドレスが付いている。
FIG. 3 is an example in which data structure information is added, and shows the contents of the second data storage section and the index storage section. The result is that the tag portion of the second data storage unit adds the data structure information. The contents of the tag part are FS as shown in FIG.
Indicates the start of the field, and D indicates normal data. Further, FE indicates the end of the field, RS indicates the purchase of the record, RE indicates the end of the record, and K indicates a delimiter for separating the field from the field record. Furthermore, the contents of the index storage section are FS
The address of the letter with is attached.

【0017】検索部20はインデックス記憶部19から
インデックス情報を読み取り、インデックス情報に基づ
き第2データ記憶部から検索対象のフィールドを読み込
むことが可能になる。
The search unit 20 can read the index information from the index storage unit 19 and read the field to be searched from the second data storage unit based on the index information.

【0018】図5に入力データの例として新聞情報と図
書情報の2種類のデータと、それぞれのデータに対しデ
ータ構造記憶に登録されるデータ構造の例を示す。
FIG. 5 shows two types of data, newspaper information and book information, as an example of input data, and an example of a data structure registered in the data structure memory for each data.

【0019】以上のように本実施例によれば、データ構
造検出部とデータ構造記憶部とデータ構造発生部を設け
ることにより、文書データの構造を予めデータ構造記憶
部に登録しておき、入力されたデータに対して、データ
構造検出部でデータ構造を検出し、データ構造発生部で
データ線以外の信号線に構造情報を付加することによっ
て、文書データのフォーマット化処理をせずに、検索が
可能となる。
As described above, according to this embodiment, the structure of document data is registered in advance in the data structure storage unit by providing the data structure detection unit, the data structure storage unit, and the data structure generation unit, and the input is made. The data structure detection unit detects the data structure of the generated data, and the data structure generation unit adds the structure information to the signal lines other than the data line, thereby searching without formatting the document data. Is possible.

【0020】(実施例2)以下、本発明の第2の実施例
について、図面を参照しながら説明する。図6は本発明
の第2の実施例における文書検索装置を示し、図7は本
発明の第2の実施例における文書検索装置のデータ構造
挿入部の出力の例である。
(Second Embodiment) A second embodiment of the present invention will be described below with reference to the drawings. FIG. 6 shows a document retrieval apparatus according to the second embodiment of the present invention, and FIG. 7 shows an example of the output of the data structure insertion unit of the document retrieval apparatus according to the second embodiment of the present invention.

【0021】図6において、61はデータ入力部であ
り、62はデータ入力部61で入力したデータを記憶す
る第1データ記憶部であり、63は第1データ記憶部6
2で記憶したデータの構造を検出するデータ構造検出部
であり、64はデータ構造検出部63で検出するデータ
構造を記憶するデータ構造記憶部であり、65はデータ
構造記憶部64にデータ構造を入力するデータ構造入力
部であり、66は第1データ記憶部62のデータを読み
出してデータ構造検出部63の検出結果に従って構造情
報をデータ間に挿入するデータ構造挿入部であり、67
はデータ構造挿入部66で作成したデータを記憶する第
2データ記憶部であり、68はデータ構造挿入部66で
作成したデータからデータ構造の単位毎にインデックス
アドレスを生成するインデックス生成部であり、69は
インデックス生成部68で生成したインデックス情報を
記憶するインデックス記憶部であり、70は第2データ
記憶部67から検索を行なう検索部であり、71は検索
部70の条件を格納する検索条件記憶部であり、72は
検索部70の結果から文書データの出力を制御するデー
タ出力部であり、73はデータ構造挿入部で挿入した構
造を表すデータを削除するデータ構造削除部である。
In FIG. 6, 61 is a data input section, 62 is a first data storage section for storing the data input by the data input section 61, and 63 is the first data storage section 6
2 is a data structure detecting unit that detects the structure of the data stored in 2, 64 is a data structure storing unit that stores the data structure detected by the data structure detecting unit 63, and 65 is a data structure that is stored in the data structure storing unit 64. Reference numeral 66 denotes a data structure input unit for inputting, 66 is a data structure insertion unit for reading the data of the first data storage unit 62 and inserting structure information between the data according to the detection result of the data structure detection unit 63, 67
Is a second data storage unit that stores the data created by the data structure insertion unit 66, and 68 is an index generation unit that creates an index address for each data structure unit from the data created by the data structure insertion unit 66, 69 is an index storage unit that stores the index information generated by the index generation unit 68, 70 is a search unit that searches the second data storage unit 67, and 71 is a search condition storage that stores the conditions of the search unit 70. 72 is a data output unit that controls the output of the document data from the result of the search unit 70, and 73 is a data structure deletion unit that deletes the data representing the structure inserted by the data structure insertion unit.

【0022】また80は入力データ線であり、81はデ
ータ入力部61から第1データ記憶部62へのデータ線
であり、82は第1データ記憶部から読み出したデータ
線であり、83はデータ構造検出部63がデータ構造記
憶部64からデータ構造を読み出すデータ線であり、8
4はデータ構造入力部65がデータ構造をデータ構造記
憶部64に書き込むデータ線であり、85はデータ構造
検出部63で検出した結果をデータ構造挿入部66に送
る信号線であり、86はデータ構造挿入部66で挿入し
たデータを第2データ記憶部67とインデックス生成部
68に送るデータ線であり、87はインデックス生成部
68で生成したインデックス情報をインデックス記憶部
69に書き込むデータ線であり、88はインデックス記
憶部69からインデックス情報を読み出すデータ線であ
り、89は検索部70から第2データ記憶部67を読み
出すデータ線であり、90は検索部70が検索条件記憶
部71から検索条件を読み出すデータ線であり、91は
データ出力部72が第2データ記憶部67からデータを
読み出すデータ線であり、92は検索部70が条件に一
致したかどうかをデータ出力部72に知らせる一致信号
線であり、93はデータ出力部72からデータを出力す
るデータ線であり、94はデータ構造削除部73で挿入
したデータを削除した信号線である。
Reference numeral 80 is an input data line, 81 is a data line from the data input unit 61 to the first data storage unit 62, 82 is a data line read from the first data storage unit, and 83 is a data line. The structure detection unit 63 is a data line for reading the data structure from the data structure storage unit 64, and
Reference numeral 4 is a data line for the data structure input unit 65 to write the data structure to the data structure storage unit 64, 85 is a signal line for sending the result detected by the data structure detection unit 63 to the data structure insertion unit 66, and 86 is a data line. A data line for sending the data inserted by the structure inserting unit 66 to the second data storage unit 67 and the index generation unit 68, and 87 for writing the index information generated by the index generation unit 68 in the index storage unit 69, Reference numeral 88 is a data line for reading index information from the index storage unit 69, 89 is a data line for reading the second data storage unit 67 from the search unit 70, and 90 is a search condition from the search condition storage unit 71 to the search unit 70. Reference numeral 91 is a data line for reading, and 91 is a data line for the data output unit 72 to read data from the second data storage unit 67. Yes, 92 is a match signal line that informs the data output unit 72 whether the search unit 70 matches the condition, 93 is a data line that outputs data from the data output unit 72, and 94 is a data structure deletion unit 73. It is a signal line in which the data inserted in step 3 is deleted.

【0023】第1の実施例図1の構成と異なるのは16
のデータ構造発生部ではデータ線を拡張してデータ構造
を付加するのに対して66のデータ構造挿入部ではデー
タ線は拡張せず、区別がつく特別な文字コードを挿入す
ることにより構造情報を作成する、63がデータ構造挿
入部66で挿入した文字を削除する点である。
First Embodiment 16 is different from the configuration of FIG.
In the data structure generation unit of No. 6, the data line is expanded and the data structure is added, whereas in the data structure insertion unit of No. 66, the data line is not expanded, and the structure information is inserted by inserting the special character code that can be distinguished. 63 is a point to delete the character inserted by the data structure insertion unit 66.

【0024】上記のように構成された文書検索装置につ
いて、図2のデータを入力した場合の動作を説明する。
まず、図2のデータ列をデータ入力部61に入力する
と、データ入力部61は第1データ記憶部62にデータ
を書き込む。書き込みと同時にデータ構造検出部63が
フィールドとレコードの区別を付ける為の文字または文
字列を検出する。この文字または文字列は正規表現で受
理するものとする。データ構造検出部63で検出した場
合には、データ構造挿入部66で第1データ記憶部から
逐次データ読み込み、入力データに対してをデータ構造
情報を挿入し、第2データ記憶部67に書き込み、同時
に挿入したデータからインデックス生成部68でインデ
ックスアドレスを生成し、インデックス記憶部69に書
き込む。
The operation of the document search apparatus configured as described above when the data shown in FIG. 2 is input will be described.
First, when the data string of FIG. 2 is input to the data input unit 61, the data input unit 61 writes the data in the first data storage unit 62. Simultaneously with writing, the data structure detection unit 63 detects a character or a character string for distinguishing a field from a record. This character or string should be accepted as a regular expression. When detected by the data structure detection unit 63, the data structure insertion unit 66 sequentially reads the data from the first data storage unit, inserts the data structure information into the input data, and writes it in the second data storage unit 67. An index address is generated by the index generation unit 68 from the data inserted at the same time and written in the index storage unit 69.

【0025】図7がデータ構造情報を付加した例であ
り、第2データ記憶部とインデックス記憶部の内容を示
す。第2データ記憶部の内容がデータ構造情報を挿入し
た結果である。挿入した内容は図4に示すようにFSが
フィールドの開始を示す。またインデックス記憶部の内
容はFSの付いた文字のアドレスが付いている。
FIG. 7 shows an example in which data structure information is added, and shows the contents of the second data storage section and the index storage section. The content of the second data storage unit is the result of inserting the data structure information. In the inserted contents, the FS indicates the start of the field as shown in FIG. Further, the contents of the index storage section are provided with the addresses of characters with FS.

【0026】検索部70はインデックス記憶部69から
インデックス情報を読み取り、第2データ記憶部から検
索対象のフィールドを読み込むことが可能になる。
The search unit 70 can read the index information from the index storage unit 69 and the field to be searched from the second data storage unit.

【0027】以上のように本実施例によれば、データ構
造検出部とデータ構造記憶部とデータ構造挿入部を設け
ることにより、文書データの構造予め構造データ記憶部
に登録しておき、入力されたデータに対して、データ構
造検出部でデータ構造を検出し、データ構造挿入部でデ
ータに挿入することによって、文書データのフォーマッ
ト化処理をせずに、検索が可能となる。
As described above, according to the present embodiment, by providing the data structure detection unit, the data structure storage unit, and the data structure insertion unit, the structure of the document data is registered in advance in the structure data storage unit and input. The data structure detecting unit detects the data structure of the data, and the data structure inserting unit inserts the data structure into the data, so that the search can be performed without formatting the document data.

【0028】(実施例3)以下、本発明の第3の実施例
について説明する。
(Embodiment 3) A third embodiment of the present invention will be described below.

【0029】構成は図1と同様なものであるが、第1の
実施例と異なるのはデータ構造発生部16で発生する構
造を示すタグ以外にデータの照合・非照合を発生するこ
とである。図8はデータ構造発生部16で発生したデー
タの例を示す。図8でデータ部とタグ部については図3
と同じであるが、照合モードの○が照合を示し,×が非
照合を示す1ビットの情報を付け加えることにより検索
部20でその情報を読みとり、検索対象にするかどうか
の決める。
The configuration is the same as that of FIG. 1, but the difference from the first embodiment is that data collation / non-collation is generated in addition to the tag indicating the structure generated in the data structure generation unit 16. .. FIG. 8 shows an example of data generated by the data structure generation unit 16. The data section and the tag section in FIG. 8 are shown in FIG.
However, by adding 1-bit information in which the check mode ∘ indicates the check and the cross indicates the non-check, the search unit 20 reads the information and determines whether or not it is the search target.

【0030】以上のように、データ構造発生部16で発
生したデータの照合・非照合を示すモードを設けること
により、照合対象から除外したいデータから検索しない
ことが可能になる。
As described above, by providing the mode indicating the collation / non-collation of the data generated in the data structure generation unit 16, it is possible to search from the data to be excluded from the collation target.

【0031】[0031]

【発明の効果】以上のように本発明は第1に、データ構
造検出手段とデータ構造発生手段とデータ構造発生手段
の結果に基づきインデックスを作成するインデックス生
成手段を設けることにより文書データを予め検索装置特
有のフォーマットに変換せずに、文書データそのままか
ら検索することができる。
As described above, according to the first aspect of the present invention, the document data is searched in advance by providing the data structure detecting means, the data structure generating means, and the index generating means for generating an index based on the result of the data structure generating means. It is possible to search from the document data as it is without converting to a device-specific format.

【0032】さらに第2の手段として、構造発生手段が
データ構造検出手段の結果に基づき前記データ構造情報
と共に、検索対象になるかどうかの検索対象情報を発生
しデータ構造情報と検索対象情報と入力されたデータと
を合成することにより、参照対象から不必要なデータを
排除することによりより高速な処理が可能となる。
Further, as a second means, the structure generating means generates search target information as to whether or not it becomes a search target together with the data structure information based on the result of the data structure detecting means, and inputs the data structure information and the search target information. By synthesizing the generated data with each other, unnecessary data is excluded from the reference target, which enables higher-speed processing.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施例における文書検索装置の
構成図
FIG. 1 is a configuration diagram of a document search device according to a first embodiment of the present invention.

【図2】第1の実施例における文書検索装置で扱う文書
データの図
FIG. 2 is a diagram of document data handled by the document search device according to the first embodiment.

【図3】第1の実施例における第2データ記憶部とイン
デックス記憶部の内容を示す図
FIG. 3 is a diagram showing contents of a second data storage unit and an index storage unit in the first embodiment.

【図4】第1の実施例におけるデータ構造生成部で生成
するタグ部の内容を示す図
FIG. 4 is a diagram showing the contents of a tag section generated by a data structure generation section in the first embodiment.

【図5】(a)第1の実施例における文書検索装置で扱
う新聞情報データの例示図 (b)第1の実施例における文書検索装置で扱う図書情
報データの例示図
FIG. 5A is an exemplary diagram of newspaper information data handled by the document search device in the first embodiment. FIG. 5B is an exemplary diagram of book information data handled by the document search device in the first embodiment.

【図6】本発明の第2の実施例における文書検索装置の
構成図
FIG. 6 is a configuration diagram of a document search device according to a second embodiment of the present invention.

【図7】第2の実施例における第2データ記憶部とイン
デックス記憶部の内容を示す図
FIG. 7 is a diagram showing the contents of a second data storage unit and an index storage unit in the second embodiment.

【図8】第3の実施例における第2データ記憶部とイン
デックス記憶部の内容を示す図
FIG. 8 is a diagram showing the contents of a second data storage unit and an index storage unit in the third embodiment.

【図9】従来の文書検索装置の構成図FIG. 9 is a configuration diagram of a conventional document search device.

【符号の説明】[Explanation of symbols]

11 データ入力部 12 第1データ記憶部 13 データ構造検出部 14 データ構造記憶部 15 データ構造入力部 16 データ構造発生部 17 第2データ記憶部 18 インデックス生成部 19 インデックス記憶部 20 検索部 21 検索条件記憶部 22 データ出力部 30 データ線 31 データ線 32 データ線 33 データ線 34 データ線 35 検出信号線 36 データ線 37 データ線 38 データ線 39 データ線 40 データ線 41 データ線 42 一致信号線 43 データ線 61 データ入力部 62 第1データ記憶部 63 データ構造検出部 64 データ構造記憶部 65 データ構造入力部 66 データ構造挿入部 67 第2データ記憶部 68 インデックス生成部 69 インデックス記憶部 70 検索部 71 検索条件記憶部 72 データ出力部 73 データ構造削除部 80 データ線 81 データ線 82 データ線 83 データ線 84 データ線 85 検出信号線 86 データ線 87 データ線 88 データ線 89 データ線 90 データ線 91 データ線 92 一致信号線 93 データ線 94 データ線 901 データ入力部 902 データ記憶部 903 検索部 904 検索条件記憶部 905 データ出力部 910 データ線 911 データ線 912 データ線 913 データ線 914 一致信号線 915 データ線 916 データ線 11 data input unit 12 first data storage unit 13 data structure detection unit 14 data structure storage unit 15 data structure input unit 16 data structure generation unit 17 second data storage unit 18 index generation unit 19 index storage unit 20 search unit 21 search condition 21 Storage unit 22 Data output unit 30 Data line 31 Data line 32 Data line 33 Data line 34 Data line 35 Detection signal line 36 Data line 37 Data line 38 Data line 39 Data line 40 Data line 41 Data line 42 Data line 42 Data line 43 Data line 61 data input unit 62 first data storage unit 63 data structure detection unit 64 data structure storage unit 65 data structure input unit 66 data structure insertion unit 67 second data storage unit 68 index generation unit 69 index storage unit 70 search unit 71 search condition 71 Memory 72 Data output Part 73 Data structure deletion part 80 Data line 81 Data line 82 Data line 83 Data line 84 Data line 85 Detection signal line 86 Data line 87 Data line 88 Data line 89 Data line 90 Data line 91 Data line 92 Data line 92 Data line 93 Data line 94 data line 901 data input unit 902 data storage unit 903 search unit 904 search condition storage unit 905 data output unit 910 data line 911 data line 912 data line 913 data line 914 match signal line 915 data line 916 data line

フロントページの続き (72)発明者 田村 登 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 ▲つる▼林 健 大阪府門真市大字門真1006番地 松下電器 産業株式会社内Front page continuation (72) Inventor Noboru Tamura 1006 Kadoma, Kadoma City, Osaka Prefecture Matsushita Electric Industrial Co., Ltd. (72) Inventor ▲ Tsuru ▼ Ken Hayashi, Kadoma City, Osaka Prefecture

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】文書データを入力するデータ入力手段と、
データ構造記憶手段に記憶された情報に基づき前記入力
手段により入力されたデータの構造を検出するデータ構
造検出手段と、前記データ構造検出手段の結果に基づき
データ構造情報を発生しデータ構造情報と入力されたデ
ータを合成するデータ構造発生手段と、前記データ構造
発生手段で発生したデータに基づきインデックスを作成
するインデックス生成手段と、検索条件データを記憶す
る検索条件データ記憶手段と、前記インデックス生成手
段により作成されたインデックスに基づき前記データ構
造発生手段の出力に対し前記検索条件データ記憶手段に
従い検索を行う検索手段と、検索結果を出力するデータ
出力手段とを備えた文書検索装置。
1. Data input means for inputting document data,
Data structure detecting means for detecting the structure of the data input by the input means based on the information stored in the data structure storing means, and generating data structure information based on the result of the data structure detecting means and inputting the data structure information. Data structure generating means for synthesizing the generated data, index generating means for creating an index based on the data generated by the data structure generating means, search condition data storing means for storing search condition data, and the index generating means. A document retrieval device comprising: a retrieval unit for conducting a retrieval according to the retrieval condition data storage unit on the output of the data structure generation unit based on the created index; and a data output unit for outputting a retrieval result.
【請求項2】データ構造発生手段がデータの構造情報を
入力データに挿入することを特徴とする請求項1記載の
文書検索装置。
2. The document search device according to claim 1, wherein the data structure generating means inserts structure information of the data into the input data.
【請求項3】データ構造発生手段がデータの構造情報を
入力データに付加することを特徴とする請求項1記載の
文書検索装置。
3. The document retrieval apparatus according to claim 1, wherein the data structure generating means adds the structure information of the data to the input data.
【請求項4】データ構造発生手段がデータ構造検出手段
の結果に基づきデータ構造情報と共に検索対象情報を発
生しデータ構造情報と検索対象情報と入力されたデータ
とを合成する請求項1記載の文書検索装置。
4. The document according to claim 1, wherein the data structure generating means generates search object information together with the data structure information based on the result of the data structure detecting means and synthesizes the data structure information, the search object information and the input data. Search device.
JP3230143A 1991-09-10 1991-09-10 Document search device Expired - Fee Related JP2751681B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3230143A JP2751681B2 (en) 1991-09-10 1991-09-10 Document search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3230143A JP2751681B2 (en) 1991-09-10 1991-09-10 Document search device

Publications (2)

Publication Number Publication Date
JPH0567147A true JPH0567147A (en) 1993-03-19
JP2751681B2 JP2751681B2 (en) 1998-05-18

Family

ID=16903264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3230143A Expired - Fee Related JP2751681B2 (en) 1991-09-10 1991-09-10 Document search device

Country Status (1)

Country Link
JP (1) JP2751681B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556224B1 (en) 1998-11-06 2003-04-29 Nec Corporation Data displaying apparatus which can effectively use data display section of small area

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5660935A (en) * 1979-10-23 1981-05-26 Toshiba Corp Data input system
JPS62229368A (en) * 1986-03-29 1987-10-08 Toshiba Corp Document processor
JPS6429930A (en) * 1987-07-24 1989-01-31 Matsushita Electric Ind Co Ltd Program data register
JPS6435627A (en) * 1987-07-31 1989-02-06 Fujitsu Ltd Data retrieving system
JPH02109166A (en) * 1988-10-18 1990-04-20 Matsushita Electric Ind Co Ltd Retrieving device for character string
JPH02110772A (en) * 1988-10-20 1990-04-23 Matsushita Electric Ind Co Ltd Character string retrieving device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5660935A (en) * 1979-10-23 1981-05-26 Toshiba Corp Data input system
JPS62229368A (en) * 1986-03-29 1987-10-08 Toshiba Corp Document processor
JPS6429930A (en) * 1987-07-24 1989-01-31 Matsushita Electric Ind Co Ltd Program data register
JPS6435627A (en) * 1987-07-31 1989-02-06 Fujitsu Ltd Data retrieving system
JPH02109166A (en) * 1988-10-18 1990-04-20 Matsushita Electric Ind Co Ltd Retrieving device for character string
JPH02110772A (en) * 1988-10-20 1990-04-23 Matsushita Electric Ind Co Ltd Character string retrieving device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556224B1 (en) 1998-11-06 2003-04-29 Nec Corporation Data displaying apparatus which can effectively use data display section of small area

Also Published As

Publication number Publication date
JP2751681B2 (en) 1998-05-18

Similar Documents

Publication Publication Date Title
JP3178475B2 (en) Data processing device
JP2896634B2 (en) Full-text registered word search device and full-text registered word search method
US5396588A (en) Data processing using digitized images
JP2000029902A (en) Structure document classifying device and recording medium where program actualizing same structured document classifying device by computer is recorded, and structured document retrieval system and recording medium where program actualizing same structured document retrieval system by computer is recorded
Lesk Some applications of inverted indexes on the UNIX system
JP3545824B2 (en) Data retrieval device
US6470334B1 (en) Document retrieval apparatus
JP2693914B2 (en) Search system
JPH067385B2 (en) Automatic keyword extraction method
JPWO2020166569A1 (en) Document search device, document search system, document search program and document search method
JP2751681B2 (en) Document search device
JP3477822B2 (en) Document registration search system
JP2925042B2 (en) Information link generation method
JPH10307837A (en) Retrieval device and recording medium recording retrieval program
JP2962287B2 (en) Structured document search device and machine-readable recording medium recording program
US20040164989A1 (en) Method and apparatus for disclosing information, and medium for recording information disclosure program
JP3239845B2 (en) Full-text search apparatus and method
JPH0635971A (en) Document retrieving device
JPS58201140A (en) Japanese word processor
JP3187671B2 (en) Electronic dictionary display
JPH10240763A (en) System for managing document information
JPH08314975A (en) Information retrieving device
JP2563645B2 (en) Document search device
JPH02148174A (en) Data retrieving device
JP4769379B2 (en) Document search device

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees