JP2751681B2 - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JP2751681B2
JP2751681B2 JP3230143A JP23014391A JP2751681B2 JP 2751681 B2 JP2751681 B2 JP 2751681B2 JP 3230143 A JP3230143 A JP 3230143A JP 23014391 A JP23014391 A JP 23014391A JP 2751681 B2 JP2751681 B2 JP 2751681B2
Authority
JP
Japan
Prior art keywords
data
unit
data structure
search
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3230143A
Other languages
English (en)
Other versions
JPH0567147A (ja
Inventor
正雄 伊藤
敦史 安藤
祐司 菅野
登 田村
健 ▲つる▼林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3230143A priority Critical patent/JP2751681B2/ja
Publication of JPH0567147A publication Critical patent/JPH0567147A/ja
Application granted granted Critical
Publication of JP2751681B2 publication Critical patent/JP2751681B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は電子化された膨大な文書
データベースから全文検索を行なう文書検索装置に関す
るものである。
【0002】
【従来の技術】近年、ワードプロセッサやパーソナルコ
ンピュータの普及、コンピュータによる文字認識の実用
化に伴い、これらによって作成される電子化文書が多く
なってきた。このため、大量の文書情報を蓄積し、必要
に応じて文書情報を検索するための文書データベースに
対する関心が高まってきている。従来の文書データベー
スでは、文書を検索する場合、文書毎に付されたキーワ
ードを利用するキーワード検索が一般的であった。しか
し、キーワード付け作業が蓄積文書の増加に間に合わな
い、時間が経過するとキーワードが陳腐化する、データ
ベース管理者の予想を越えたキーワードによる検索には
対応できず検索漏れが多くなる、等の問題点があった。
【0003】このような背景から最近は、全文データベ
ースと呼ばれる文書データベースが注目されている。全
文データベースでは、利用者から与えられた検索条件と
蓄積されている文書の全ての情報との間で照合を行い、
検索条件を満たす文書を出力する。検索条件では、従来
のキーワードのような単語以外に文などの文字列を用い
ても良い。
【0004】以下、従来の文書検索装置について説明す
る。図9は従来の文書検索装置を示すものである。図9
において、901はデータ入力部である。902はデー
タ記憶部で、データ入力部901で入力したデータを一
時記憶する。903は検索部であり、904は検索条件
記憶部であり、検索部903で読み込まれながら、検索
が行なわれる。905はデータ出力部である。
【0005】以上のように構成された文書検索装置につ
いて、以下その動作について説明する。まず、データ入
力部用にフォーマット化されたデータをデータ入力部9
01で入力し、データ記憶部902に記憶する。記憶さ
れたデータに対して、検索部903が検索条件記憶部9
04の検索条件に従って検索を行ない、条件に一致する
レコードのみデータ出力部905で出力を行なう。
【0006】
【発明が解決しようとする課題】しかしながら上記の従
来の構成では、データ入力部が単純な為、入力部用のデ
ータフォーマットに予め変換するなどの前処理が必要で
あり、新たに入手した文書データベースから即座に検索
できないという課題を有していた。
【0007】本発明は上記従来技術の課題を解決するも
ので、文書データベース固有のフォーマット情報を予め
登録するだけで、文書データベースのフォーマット変換
をせずに文書検索できる装置の提供を目的とする。
【0008】
【課題を解決するための手段】上記目的を達成するため
に本発明の文書検索装置は、文書データを入力するデー
タ入力手段と、予め前記文書データに固有の検索単位の
区切りを示す情報を記憶するデータ構造記憶手段と、前
データ構造記憶手段に記憶された情報に基づき前記入
力手段により入力されたデータの構造を検出するデータ
構造検出手段と、前記データ構造検出手段の結果に基づ
前記文書データに固有の検索単位の区切りを認識でき
データ構造情報を発生し、前記データ構造情報入力
された文書データの構造を変換することなく前記文書デ
ータに付加するデータ構造発生手段と、前記データ構造
発生手段で発生したデータ構造情報を付加した文書デー
タに基づきインデックスを作成するインデックス作成手
段と、検索条件データを記憶する検索条件データ記憶手
段と、前記インデックス生成手段により作成されたイン
デックスに基づき前記データ構造発生手段の出力に対し
前記検索条件データ記憶手段に記憶された検索条件デー
タに従い検索を行う検索手段と、検索結果を出力するデ
ータ出力手段とを備えた構成と成っている。
【0009】
【0010】
【作用】本発明は上記構成において、データ構造検出手
段が予め入力文書に対応してデータ構造記憶手段に記憶
された情報に基づき入力された文書データの構造を検出
し、データ構造発生手段が前記データ構造検出手段の結
果に基づきフィールド・レコードの開始や終了句切り等
のデータ構造情報を発生し、そのデータ構造情報入力
された文書データに付加し、インデックス生成手段が前
記データ構造発生手段で発生したデータに基づきインデ
ックスを作成することにより従来のように文書データベ
ースのフォーマット化作業を行なうことなく検索が可能
となる。
【0011】
【0012】
【実施例】(実施例1) 以下、本発明の第1の実施例について、図面を参照しな
がら説明する。図1は本発明の第1の実施例における文
書検索装置の構成図である。図1において、11はデー
タ入力部であり、12はデータ入力部11で入力したデ
ータを記憶する第1データ記憶部であり、13は第1デ
ータ記憶部12で記憶したデータの構造を検出するデー
タ構造検出部であり、14はデータ構造検出部13で検
出するデータ構造を記憶するデータ構造記憶部であり、
15はデータ構造記憶部14にデータ構造を入力するデ
ータ構造入力部であり、16は第1データ記憶部12の
データを読み出してデータ構造検出部13の検出結果に
従ってデータ構造情報をデータ線に付加するデータ構造
発生部であり、17はデータ構造発生部16で作成した
データを記憶する第2データ記憶部であり、18はデー
タ構造発生部16で作成したデータからデータ構造の単
位毎にインデックスアドレスを生成するインデックス生
成部であり、19はインデックス生成部18で生成した
インデックス情報を記憶するインデックス記憶部であ
り、20は第2データ記憶部17から検索を行なう検索
部であり、21は検索部20の条件を格納する検索条件
記憶部であり、22は検索部20の結果から文書データ
の出力を制御するデータ出力部である。
【0013】また、30は入力データ線であり、31は
データ入力部11から第1データ記憶部12へのデータ
線であり、32は第1データ記憶部から読み出したデー
タ線であり、33はデータ構造検出部13がデータ構造
記憶部14からデータ構造を読み出すデータ線であり、
34はデータ構造入力部15がデータ構造をデータ構造
記憶部14に書き込むデータ線であり、35はデータ構
造検出部13で検出した結果をデータ構造発生部16に
送る検出信号線であり、36はデータ構造発生部16で
付加したデータを第2データ記憶部17とインデックス
生成部18に送るデータ線であり、37はインデックス
生成部18で生成したインデックス情報をインデックス
記憶部19に書き込むデータ線であり、38はインデッ
クス記憶部19からインデックス情報を読み出すデータ
線であり、39は検索部20から第2データ記憶部17
を読み出すデータ線であり、40は検索部20が検索条
件記憶部21から検索条件を読み出すデータ線であり、
41はデータ出力部22が第2データ記憶部17からデ
ータを読み出すデータ線であり、42は検索部20が条
件に一致したかどうかをデータ出力部22に知らせる一
致信号線であり、43はデータ出力部22からデータを
出力するデータ線である。
【0014】以上のように構成された文書検索装置につ
いて、図2に示す構造を持ったデータ列を入力した場合
の動作を説明する。図2でC(111)からC(LM
N)のCを文字とし、またC(111)からC(L1
1)、C(121)からC(L21)というように文字
Cがある単位で集まったものをフィールドとし、フィー
ルドとフィールドがある単位で集まったものをレコード
とする。各フィールドの文字数、各レコードのフィール
ド数は異なっても良いものとする。またフィールドとレ
コードの区別を付ける為の文字または文字列がそれぞれ
フィールド内,レコード内に含まれているものとし、デ
ータ構造入力部15により、これらの文字または文字列
がデータ構造記憶部14に記憶される。
【0015】このようなデータ列をデータ入力部11に
入力すると、データ入力部11は第1データ記憶部12
にデータを書き込む。書き込みと同時にデータ構造検出
部13がデータ構造記憶部14に記憶された情報に基づ
きフィールドとレコードの区別を付ける為の文字または
文字列を検出する。この文字または文字列は正規表現で
受理するものとする。データ構造検出部13で検出した
場合には、データ構造発生部16で第1データ記憶部か
ら逐次データ読み込み、入力データに対してデータ構造
情報を付加し、第2データ記憶部17に書き込み、同時
にデータ構造発生部16で作成したタグ部からインデッ
クス生成部18でインデックスアドレスを生成し、イン
デックス記憶部19に書き込む。
【0016】図3がデータ構造情報を付加した例であ
り、第2データ記憶部とインデックス記憶部の内容を示
す。第2データ記憶部のタグ部がデータ構造情報を付加
した結果である。タグ部の内容は図4に示すようにFS
がフィールドの開始を示し、Dが通常データを示す。ま
たFEはフィールドの終了を示し、RSはレコードの
を示し、REはレコードの終了を示し、Kはフィール
ドとフィールド・レコードとレコードを区切る為の区切
り文字を示す。更にインデックス記憶部の内容はFSの
付いた文字のアドレスが付いている。
【0017】検索部20はインデックス記憶部19から
インデックス情報を読み取り、インデックス情報に基づ
き第2データ記憶部から検索対象のフィールドを読み込
むことが可能になる。
【0018】図5に入力データの例として新聞情報と図
書情報の2種類のデータと、それぞれのデータに対しデ
ータ構造記憶部14に登録されるデータ構造の例を示
す。
【0019】以上のように本実施例によれば、データ構
造検出部とデータ構造記憶部とデータ構造発生部を設け
ることにより、文書データの構造を予めデータ構造記憶
部に登録しておき、入力されたデータに対して、データ
構造検出部でデータ構造を検出し、データ構造発生部で
データ線以外の信号線にデータ構造情報を付加すること
によって、文書データのフォーマット化処理をせずに、
つまり、データ構造の異なる様々な文書データの入力に
対応できるとともに、その入力文書データそのままから
検索が可能となる。
【0020】(実施例2)以下、本発明の第2の実施例
について、図面を参照しながら説明する。図6は本発明
の第2の実施例における文書検索装置を示し、図7は本
発明の第2の実施例における文書検索装置のデータ構造
挿入部の出力の例である。
【0021】図6において、61はデータ入力部であ
り、62はデータ入力部61で入力したデータを記憶す
る第1データ記憶部であり、63は第1データ記憶部6
2で記憶したデータの構造を検出するデータ構造検出部
であり、64はデータ構造検出部63で検出するデータ
構造を記憶するデータ構造記憶部であり、65はデータ
構造記憶部64にデータ構造を入力するデータ構造入力
部であり、66は第1データ記憶部62のデータを読み
出してデータ構造検出部63の検出結果に従って構造情
報をデータ間に挿入するデータ構造挿入部であり、67
はデータ構造挿入部66で作成したデータを記憶する第
2データ記憶部であり、68はデータ構造挿入部66で
作成したデータからデータ構造の単位毎にインデックス
アドレスを生成するインデックス生成部であり、69は
インデックス生成部68で生成したインデックス情報を
記憶するインデックス記憶部であり、70は第2データ
記憶部67から検索を行なう検索部であり、71は検索
部70の条件を格納する検索条件記憶部であり、72は
検索部70の結果から文書データの出力を制御するデー
タ出力部であり、73はデータ構造挿入部で挿入した構
造を表すデータを削除するデータ構造削除部である。
【0022】また80は入力データ線であり、81はデ
ータ入力部61から第1データ記憶部62へのデータ線
であり、82は第1データ記憶部から読み出したデータ
線であり、83はデータ構造検出部63がデータ構造記
憶部64からデータ構造を読み出すデータ線であり、8
4はデータ構造入力部65がデータ構造をデータ構造記
憶部64に書き込むデータ線であり、85はデータ構造
検出部63で検出した結果をデータ構造挿入部66に送
る信号線であり、86はデータ構造挿入部66で挿入し
たデータを第2データ記憶部67とインデックス生成部
68に送るデータ線であり、87はインデックス生成部
68で生成したインデックス情報をインデックス記憶部
69に書き込むデータ線であり、88はインデックス記
憶部69からインデックス情報を読み出すデータ線であ
り、89は検索部70から第2データ記憶部67を読み
出すデータ線であり、90は検索部70が検索条件記憶
部71から検索条件を読み出すデータ線であり、91は
データ出力部72が第2データ記憶部67からデータを
読み出すデータ線であり、92は検索部70が条件に一
致したかどうかをデータ出力部72に知らせる一致信号
線であり、93はデータ出力部72からデータを出力す
るデータ線であり、94はデータ構造削除部73で挿入
したデータを削除した信号線である。
【0023】第1の実施例図1の構成と異なるのは16
のデータ構造発生部ではデータ線を拡張してデータ構造
を付加するのに対して66のデータ構造挿入部ではデー
タ線は拡張せず、区別がつく特別な文字コードを挿入す
ることにより構造情報を作成し、データ構造削除部7
がデータ構造挿入部66で挿入した文字を削除する点で
ある。
【0024】上記のように構成された文書検索装置につ
いて、図2のデータを入力した場合の動作を説明する。
まず、図2のデータ列をデータ入力部61に入力する
と、データ入力部61は第1データ記憶部62にデータ
を書き込む。書き込みと同時にデータ構造検出部63が
フィールドとレコードの区別を付ける為の文字または文
字列を検出する。この文字または文字列は正規表現で受
理するものとする。データ構造検出部63で検出した場
合には、データ構造挿入部66で第1データ記憶部から
逐次データ読み込み、入力データに対してをデータ構造
情報を挿入し、第2データ記憶部67に書き込み、同時
に挿入したデータからインデックス生成部68でインデ
ックスアドレスを生成し、インデックス記憶部69に書
き込む。
【0025】図7がデータ構造情報を付加した例であ
り、第2データ記憶部とインデックス記憶部の内容を示
す。第2データ記憶部の内容がデータ構造情報を挿入し
た結果である。挿入した内容は図4に示すようにFSが
フィールドの開始を示す。またインデックス記憶部の内
容はFSの付いた文字のアドレスが付いている。
【0026】検索部70はインデックス記憶部69から
インデックス情報を読み取り、第2データ記憶部から検
索対象のフィールドを読み込むことが可能になる。
【0027】以上のように本実施例によれば、データ構
造検出部とデータ構造記憶部とデータ構造挿入部を設け
ることにより、文書データの構造予め構造データ記憶部
に登録しておき、入力されたデータに対して、データ構
造検出部でデータ構造を検出し、データ構造挿入部でデ
ータに挿入することによって、文書データのフォーマッ
ト化処理をせずに、検索が可能となり、また、データ構
造削除部を設けることにより、データ構造挿入部で挿入
されたデータを削除することによって、入力された文書
データを入力時と同じ構造のまま出力することが可能と
なる。
【0028】(実施例3)以下、本発明の第3の実施例
について説明する。
【0029】構成は図1と同様なものであるが、第1の
実施例と異なるのはデータ構造発生部16で発生する構
造を示すタグ以外にデータの照合・非照合を発生するこ
とである。図8はデータ構造発生部16で発生したデー
タの例を示す。図8でデータ部とタグ部については図3
と同じであるが、照合モードの○が照合を示し,×が非
照合を示す1ビットの情報を付け加えることにより検索
部20でその情報を読みとり、検索対象にするかどうか
の決める。
【0030】以上のように、データ構造発生部16で発
生したデータの照合・非照合を示すモードを設けること
により、照合対象から除外したいデータから検索しない
ことが可能になり、高速な処理を行うことができる
【0031】
【発明の効果】以上のように本発明は、データ構造検出
手段とデータ構造発生手段とデータ構造発生手段の結果
に基づきインデックスを作成するインデックス生成手段
を設けることにより文書データを予め検索装置特有のフ
ォーマットに変換せずに、つまり、データ構造の異なる
様々な文書データの入力に対応できるとともに、その入
力された文書データそのままから即座に検索することが
できる。
【0032】
【図面の簡単な説明】
【図1】本発明の第1の実施例における文書検索装置の
構成図
【図2】第1の実施例における文書検索装置で扱う文書
データの図
【図3】第1の実施例における第2データ記憶部とイン
デックス記憶部の内容を示す図
【図4】第1の実施例におけるデータ構造生成部で生成
するタグ部の内容を示す図
【図5】(a)第1の実施例における文書検索装置で扱
う新聞情報データの例示図 (b)第1の実施例における文書検索装置で扱う図書情
報データの例示図
【図6】本発明の第2の実施例における文書検索装置の
構成図
【図7】第2の実施例における第2データ記憶部とイン
デックス記憶部の内容を示す図
【図8】第3の実施例における第2データ記憶部とイン
デックス記憶部の内容を示す図
【図9】従来の文書検索装置の構成図
【符号の説明】
11 データ入力部 12 第1データ記憶部 13 データ構造検出部 14 データ構造記憶部 15 データ構造入力部 16 データ構造発生部 17 第2データ記憶部 18 インデックス生成部 19 インデックス記憶部 20 検索部 21 検索条件記憶部 22 データ出力部 30 データ線 31 データ線 32 データ線 33 データ線 34 データ線 35 検出信号線 36 データ線 37 データ線 38 データ線 39 データ線 40 データ線 41 データ線 42 一致信号線 43 データ線 61 データ入力部 62 第1データ記憶部 63 データ構造検出部 64 データ構造記憶部 65 データ構造入力部 66 データ構造挿入部 67 第2データ記憶部 68 インデックス生成部 69 インデックス記憶部 70 検索部 71 検索条件記憶部 72 データ出力部 73 データ構造削除部 80 データ線 81 データ線 82 データ線 83 データ線 84 データ線 85 検出信号線 86 データ線 87 データ線 88 データ線 89 データ線 90 データ線 91 データ線 92 一致信号線 93 データ線 94 データ線 901 データ入力部 902 データ記憶部 903 検索部 904 検索条件記憶部 905 データ出力部 910 データ線 911 データ線 912 データ線 913 データ線 914 一致信号線 915 データ線 916 データ線
フロントページの続き (72)発明者 田村 登 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (72)発明者 ▲つる▼林 健 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (56)参考文献 特開 平2−110772(JP,A) 特開 平2−109166(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06F 17/30

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文書データを入力するデータ入力手段と、
    予め前記文書データに固有の検索単位の区切りを示す情
    報を記憶するデータ構造記憶手段と、前記データ構造記
    憶手段に記憶された情報に基づき前記入力手段により入
    力されたデータの構造を検出するデータ構造検出手段
    と、前記データ構造検出手段の結果に基づき前記文書デ
    ータに固有の検索単位の区切りを認識できるデータ構造
    情報を発生し、前記データ構造情報を入力された文書デ
    ータの構造を変換することなく前記文書データに付加す
    るデータ構造発生手段と、前記データ構造発生手段で発
    生したデータ構造情報を付加した文書データに基づきイ
    ンデックスを作成するインデックス作成手段と、検索条
    件データを記憶する検索条件データ記憶手段と、前記イ
    ンデックス生成手段により作成されたインデックスに基
    づき前記データ構造発生手段の出力に対し前記検索条件
    データ記憶手段に記憶された検索条件データに従い検索
    を行う検索手段と、検索結果を出力するデータ出力手段
    とを備え、入力された文書データのデータ構造を変更す
    ることなく検索を行うことを特徴とする文書検索装置。
JP3230143A 1991-09-10 1991-09-10 文書検索装置 Expired - Fee Related JP2751681B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3230143A JP2751681B2 (ja) 1991-09-10 1991-09-10 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3230143A JP2751681B2 (ja) 1991-09-10 1991-09-10 文書検索装置

Publications (2)

Publication Number Publication Date
JPH0567147A JPH0567147A (ja) 1993-03-19
JP2751681B2 true JP2751681B2 (ja) 1998-05-18

Family

ID=16903264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3230143A Expired - Fee Related JP2751681B2 (ja) 1991-09-10 1991-09-10 文書検索装置

Country Status (1)

Country Link
JP (1) JP2751681B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3226164B2 (ja) 1998-11-06 2001-11-05 日本電気株式会社 移動携帯情報端末装置およびそのデータ表示方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5660935A (en) * 1979-10-23 1981-05-26 Toshiba Corp Data input system
JPH0823864B2 (ja) * 1986-03-29 1996-03-06 株式会社東芝 見出し判定方法
JPS6429930A (en) * 1987-07-24 1989-01-31 Matsushita Electric Ind Co Ltd Program data register
JPS6435627A (en) * 1987-07-31 1989-02-06 Fujitsu Ltd Data retrieving system
JPH02109166A (ja) * 1988-10-18 1990-04-20 Matsushita Electric Ind Co Ltd 文字列検索装置
JPH02110772A (ja) * 1988-10-20 1990-04-23 Matsushita Electric Ind Co Ltd 文字列検索装置

Also Published As

Publication number Publication date
JPH0567147A (ja) 1993-03-19

Similar Documents

Publication Publication Date Title
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
JP3178475B2 (ja) データ処理装置
US5745745A (en) Text search method and apparatus for structured documents
US6862602B2 (en) System and method for rapidly identifying the existence and location of an item in a file
JP2783558B2 (ja) 要約生成方法および要約生成装置
US5396588A (en) Data processing using digitized images
Lesk Some applications of inverted indexes on the UNIX system
JP2885487B2 (ja) 文書内情報検索装置
JP2693914B2 (ja) 検索システム
JPH08147311A (ja) 構造化文書検索方法及び装置
JPH067385B2 (ja) キ−ワ−ド自動抽出方式
JP2751681B2 (ja) 文書検索装置
JP2503333B2 (ja) 全文インデックス検索方法
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JP3477822B2 (ja) 文書登録検索システム
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JPS59105141A (ja) 電子的文書の管理方法
CN110347804A (zh) 一种线性时间复杂度的敏感信息检测方法
JPH08314975A (ja) 情報検索装置
US20040164989A1 (en) Method and apparatus for disclosing information, and medium for recording information disclosure program
JPH0991305A (ja) 情報処理方法及び装置
JP3239845B2 (ja) 全文検索装置および方法
JPH0635971A (ja) 文書検索装置
JPH09114856A (ja) 検索用索引生成装置
JPH09259132A (ja) 情報登録検索装置及びその方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees