JPH0765035A - 構造化文書検索装置 - Google Patents

構造化文書検索装置

Info

Publication number
JPH0765035A
JPH0765035A JP5232455A JP23245593A JPH0765035A JP H0765035 A JPH0765035 A JP H0765035A JP 5232455 A JP5232455 A JP 5232455A JP 23245593 A JP23245593 A JP 23245593A JP H0765035 A JPH0765035 A JP H0765035A
Authority
JP
Japan
Prior art keywords
document
logical structure
search
unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5232455A
Other languages
English (en)
Other versions
JP2770715B2 (ja
Inventor
Toshiaki Ando
俊明 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP5232455A priority Critical patent/JP2770715B2/ja
Publication of JPH0765035A publication Critical patent/JPH0765035A/ja
Priority to US08/785,282 priority patent/US5752020A/en
Application granted granted Critical
Publication of JP2770715B2 publication Critical patent/JP2770715B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 記憶装置に記憶させてある多数の文書の中か
ら、目的とする文書を取り出すための構造化文書検索装
置において、情報の重複管理を避けると共に、検索を短
時間で行えるようにすること。 【構成】 構造化文書の論理構造,文書属性,文書内容
を論理構造抽出部7で抽出し、これらを文書情報格納部
8に格納する。格納する場所はここだけであるので、情
報の整合性を常に保つ等の、煩わしい重複管理をする必
要がない。検索は、まず検索式に記述されたのと同じ論
理構造の文書かどうかを、論理構造判定部9で判定させ
る。次に、同じであった文書についてのみ、最終的な検
索標的である構成要素(例、著者名)にいきなりアクセ
スして検索する。従って、文書の冒頭から順に見て行っ
て最終的な検索標的の構成要素に辿りつき、検索を行っ
ていた従来の検索装置に比べて、検索が短時間ででき
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、記憶装置に記憶させて
ある多数の文書の中から、目的とする文書を取り出すた
めの構造化文書検索装置に関するものである。
【0002】
【従来の技術】図9は、従来の文書検索装置を示す図で
ある。図9において、1は入力部、2は表示部、3は検
索部、4は文書属性管理部、5は文書格納部、6は登録
部である。これらは、実際にはコンピュータ上で実現さ
れる。入力部1はキーボードやマウスであり、表示部2
はディスプレイ装置である。文書属性管理部4,文書格
納部5は、記憶装置で構成される。検索部3は、検索動
作を行うためのソフトウエアで構成され、登録部6は、
文書の登録動作を行うためのソフトウエアで構成され
る。
【0003】文書を登録する場合、文書は入力部1から
登録部6へ渡される。登録部6での作用を説明する前
に、文書,文書属性および文書識別子について説明す
る。図11は文書を説明する図である。これは、田中一
郎氏が1993年2月6日に作成した「〇〇技術の△△
への適用について」という論文である。第1章のタイト
ルは「〇〇技術の最近の動向」であり、第1節,第2節
が設けられ、それぞれ節の内容12,13が書かれてい
る。章は、第2章以下も続いている。最後に、参考文献
が幾つか記載されている。このような論文とか報告書と
か自体が、文書である。
【0004】文書の特徴を表す情報、例えば、文書名,
著者名,作成日,キーワード等が、文書属性と言われる
ものであるが、従来、文書を検索対象として蓄積する場
合には、それらが付与されていた。文書識別子は、文書
が記憶装置に格納された時に、その文書を他の文書と区
別して特定するための手段であり、例えば、格納文書の
「通し番号」とか、「ファイル名」とかが用いられる。
【0005】(登録動作)図9に戻って、文書の登録動
作について説明する。登録動作の順序は、登録部6に関
係して引かれている実線矢印や点線矢印により、その概
略が示されている。文書が登録部6に渡されると、ま
ず、登録部6では文書に付与されている文書属性を抽出
して、文書属性管理部4に格納する。また、文書内容を
特殊な規則を用いて文書属性として抽出し、文書属性管
理部4に格納する。ただし、文書検索装置を作成した時
点で、どの文書属性を格納するかは決められている。文
書自体は、文書格納部5に格納する。文書格納部5は、
例えば磁気ディスク装置で構成される。格納することに
よって文書識別子が確定するが、登録部6はそれを文書
属性管理部4に送り、文書属性と共に格納する。
【0006】図10は、文書属性管理部を説明する図で
ある。図11の文書の場合、文書識別子としては通し番
号「3276」が採用されると共に、種々の文書属性が
記録されている。例えば、論文名としては「〇〇技術の
△△への適用について」が記録され、著者名としては
「田中一郎」が記録され、作成日としては「1993.2.6」
が記録されている。また、キーワードとしては「〇〇技
術」が記録されている。検索対象とする文書の登録は、
以上のようにして行われる。その結果、文書属性は文書
属性管理部4に蓄積され、文書自体は文書格納部5に格
納される。
【0007】(検索動作)次に、前記のようにして格納
された文書の検索動作について説明する。検索動作の順
序は、入力部1から検索部3を経て表示部2に至るまで
の実線矢印や点線矢印により、その概要が示されてい
る。まず、文書を検索するための検索式が入力部1より
入力され、検索部3に渡される。検索式は、文書属性を
手掛かりにして検索する式とされている。その検索式に
より文書属性管理部4を検索し、該当する文書属性があ
れば、その文書属性に対応する文書識別子を得る(文書
属性管理部4から検索部3に向かう矢印が、これを表し
ている)。例えば、著者名が「田中一郎」である文書を
検索せよという場合、図10の例では、検索の結果、文
書識別子「3276」が得られる。
【0008】文書識別子が分かれば、それを手掛かりに
して、文書格納部5よりそれに対応する文書全体(図1
1の文書11)を取り出すことが出来る。取り出された
文書の必要な部分(例えば、参考文献欄)が、表示部2
に送られて表示される。文書格納部5→検索部3→表示
部2に向かう矢印が、取り出して表示する経路を表して
いる。
【0009】
【発明が解決しようとする課題】 (問題点)しかしながら、前記した従来の文書検索装置
には、次のような問題点があった。第1の問題点は、文
書に関する情報を重複して管理する必要があり、管理が
面倒であると共に、記憶領域を多く必要とするという点
である。第2の問題点は、文書格納部5には文書全体を
単位として格納されているので、検索結果は文書単位で
しか得られず、文書の論理構造をナビゲーションする
(辿る)場合の処理が高速に行えないという点である。
【0010】(問題点の説明)まず第1の問題点につい
て説明する。図9の従来の文書検索装置では、文書に関
する情報は、文書属性管理部4と文書格納部5とに重複
して管理されている。従って、文書を更新する場合に
は、両方とも整合をとりながら更新する必要があり、管
理が面倒であった。また、文書属性管理部4に格納する
情報(例、文書名)は、当然文書格納部5に格納した文
書にも含まれており、同じ情報を2重に記憶するから、
記憶領域も多く必要とする。
【0011】次に第2の問題点について説明する。文書
の検索を行う場合、文書の論理構造を辿ってゆくこと
(ナビゲーション)をしばしば必要とする。その場合に
は、文書の論理構造を構成している構成要素(文書の骨
組を成している要素。例、著者名など。図5で説明す
る)を、最初から1つづつ参照してゆくことになる。例
えば、実際に検索して表示部2に表示したいのは論文の
参考文献欄であるという場合、検索により取り出した文
書の最初の構成要素から、それが参考文献欄かどうかい
ちいちチェックしながら進んで行き、最後にようやく参
考文献欄に辿りつくということになる。いきなり参考文
献欄にアクセスすることは出来ず、そこまでに存在する
多くの他の構成要素との照合を行わなければならないの
で、処理を速やかに終えることが出来ない。また、文書
全体という大量のデータを扱うので、それをいったんキ
ャッシュメモリに入れて処理するというわけにもいか
ず、キャッシングによる処理高速化も図れない。本発明
は、以上のような問題点を解決することを課題とするも
のである。
【0012】
【課題を解決するための手段】前記課題を解決するた
め、本発明では、構造化文書を格納しておき、それを検
索式により検索する構造化文書検索装置において、入力
部から受け取った構造化文書を格納するための前処理を
行う登録部と、文書の論理構造に関する知識が組み込ま
れ、入力された構造化文書から論理構造,文書属性,文
書内容を抽出する論理構造抽出部と、抽出した論理構
造,文書属性,文書内容を同種のもの毎に分けて格納す
る文書情報格納部と、文書の論理構造に関する知識が組
み込まれ、該文書情報格納部から読み出した論理構造と
検索式に記述された論理構造とが一致するかどうかを判
定する論理構造判定部と、論理構造が一致すると判定さ
れた文書の最終的な検索標的である情報のみを文書情報
格納部から読み出して検索し、検索して得た構造化文書
を再構成して出力する検索部とを具えることとした。
【0013】なお、前記の構造化文書検索装置におい
て、文書の論理構造に関する知識を格納した論理構造知
識ベースを独立して設け、これを論理構造抽出部および
論理構造判定部が共用する構成としてもよい。
【0014】
【作 用】本発明では、構造化文書の論理構造,文書
属性,文書内容を抽出し、これらを文書情報格納部に格
納するが、格納する場所はここだけとする。同じ情報を
別々のところに重複して格納しないから、情報の整合性
を常に保つ等の重複管理をする必要がなく、煩わしさが
なくなる。検索は、まず検索式に記述されたのと同じ論
理構造の文書を探し、次にその文書の最終的な検索標的
である構成要素にいきなりアクセスして検索するという
やり方で検索する。従って、文書の冒頭から順に見て行
って最終的な検索標的の構成要素にアクセスしていた従
来の検索装置に比べて、検索が短時間でできる。
【0015】
【実施例】
〔第1の実施例〕 (装置の構成および概要)以下、本発明の実施例を図面
に基づいて詳細に説明する。図1は、本発明の第1の実
施例にかかわる構造化文書検索装置を示す図である。符
号は図9のものに対応し、7は論理構造抽出部、7−1
は論理構造知識ベース、8は文書情報格納部、9は論理
構造判定部、9−1は論理構造知識ベースである。本発
明では、入力部1から入力する文書は、通常の文書では
なく「構造化文書」である。構造化文書については、図
4で説明する。
【0016】論理構造抽出部7は、構造化文書から「論
理構造」,「文書属性」,「文書内容」等の文書情報を
抽出する部分であり、ソフトウエアまたはハードウェア
で構成される。なお、「論理構造」および「文書内容」
については、後で説明する。抽出に当たっては、論理構
造に関する知識(例えば、論理構造に関する規則とか、
文書の構成要素のデータフォーマットなど)のデータベ
ースが必要であるから、論理構造抽出部7には論理構造
知識ベース7−1が組み込まれる。
【0017】文書情報格納部8は、論理構造抽出部7で
抽出した文書情報を格納する部分であり、記憶装置で構
成される。本発明で文書情報を格納するのは、ここだけ
であり、他の部分に重複して格納することはしていな
い。文書情報格納部8には、よく使用する検索式を予め
作成して、格納しておくことも出来る。
【0018】検索部3は、検索式を受け取り、まず論理
構造判定部9で、文書情報格納部8に格納されている論
理構造の内、どの構造化文書の論理構造が、検索式に記
述された論理構造と一致するかを判定させる。次に、論
理構造が一致した構造化文書の情報を文書情報格納部8
から取り寄せて検索し、検索結果を表示部2に表示させ
る。
【0019】なお、検索部3は、ソフトウエアで構成さ
れる。論理構造判定部9はソフトウエアで構成されても
よいし、ハードウェアで構成されてもよい。論理構造を
判定するに当たっても、論理構造に関する知識のデータ
ベースが必要であるから、論理構造判定部9にも論理構
造知識ベース9−1が組み込まれる。
【0020】(構造化文書)図4は、構造化文書の概念
を説明する図である。これは、図11のような紙の文書
を表しているわけではない。ここでは、図11の文書を
例にとっている。15は第1章の章内容であり、16は
第2章の章内容である。17,18は、それぞれ参考文
献の内容である。文書は、種々の構成要素から成る構造
となっているが、文書の各構成要素に、それがどんな構
造であるかを表す情報が付されている。このような文書
のことを、「構造化文書」という。例えば、図5は、論
理構造だけを表している。
【0021】例えば、図4の構造化文書で、「〇〇技術
の△△への適用について」というのは論文のタイトルと
いう構造を成しているが、これが論文のタイトルという
構造であることを表すため、 “タイトル「〇〇技術の△△への適用について」” という具合に、「タイトル」という語句が冒頭に付され
ている。この冒頭に付された「タイトル」が、構造を構
成する構成要素の名前である。「 」で囲まれた部分
が文書内容を表し、図11のように紙面に現れる情報と
なる。 “著者名「田中一郎」” にしても、冒頭の「著者名」が構成要素の名前である。
図4の例では「タイトル」とか「著者名」といった特定
の文字を用いているが、その代わりに特定の符号や記号
を用いてもよい。そのようなことに関する知識は、予め
論理構造知識ベース7−1,9−1に組み込んでおく。
【0022】(論理構造)論理構造は、文書の各構成要
素の論理的な関係のことを言う。図5は、図4の構造化
文書14の論理構造を示す図である。構造化文書14の
各構成要素は、全体で「論文」を構成しているから、論
理的な関係の根元(文書論理根)に相当するのは「論
文」である。構造化文書14の「論文」は、「(論文
の)タイトル」,「著者名」,「作成日」,「本文」お
よび「参考文献欄」から成るという関係になっている。
そして、「本文」は幾つかの「章」から成り、各「章」
は「(章の)タイトル」および幾つかの「節」から成る
という関係にある。また「参考文献欄」は、幾つかの
「参考文献」から成り、各「参考文献」は「(参考文献
の)タイトル」,「著者名」および「出典」から成ると
いう関係にある。即ち、論理構造は、構造化文書には必
ず存在する。
【0023】(構造化文書の登録)図1に戻り、登録動
作について説明する。最初に構造化文書を入力部1より
登録部6に渡すが、具体的には、図3の如く表示部2の
ウィンドゥに現れている論文アイコン2−1なり報告書
アイコン2−2なりを、構造化文書検索装置アイコン2
−3に重ねる操作をすることによって、渡される。登録
部6に構造化文書が与えられると、まず論理構造抽出部
7にて処理し、その構造化文書から論理構造,文書属
性,文書内容を抽出する。
【0024】例えば、構成要素「著者名」を抽出する場
合には、構造化文書に付されている「著者名」という構
造情報を手掛かりにして、その文書内容として「田中一
郎」を抽出する。
【0025】(文書内容)文書内容は、各構成要素
(例、第2章の第1節)におけるテキスト情報,文字の
サイズ,字体等である。
【0026】抽出された「論理構造」,「文書属性」,
「文書内容」は、文書情報格納部8に格納される。図7
は文書情報格納部8を説明する図である。文書情報格納
部8では、同じ名前を持っている同種の構成要素に属す
る文書内容は、1箇所にまとめて格納される。例えば、
図5で(論文の)著者名は、論文著者名格納部82にま
とめて格納される。このようにまとめて格納すると、同
種の論理構造や構成要素を持つ文書をすばやく検索する
ことができる。
【0027】参考文献の著者名は、別の領域である参考
文献著者名格納部85に格納される。従って、参考文献
の著者名の「鈴木栄一」は、ここに格納される。同様
に、論文タイトル格納部81には論文のタイトルばかり
が格納され、論文作成日格納部83には論文の作成日ば
かりが格納される。また、論理構造格納部87には、論
理構造ばかりが格納される。従って、入力された構造化
文書は、構成要素毎にバラバラに格納される。なお、論
理構造には、構成要素の文書内容に関するリンク情報が
付与される。同様にして、構成要素に属する論理構造を
識別するために、文書識別子を付与してもよい。
【0028】(検索式の登録)登録部6は、前記したよ
うな構造化文書の登録の他に、しばしば使用する検索式
を予め作成して登録しておくことも出来る。登録のため
に入力された検索式は、文書情報格納部8の領域の内、
検索式ばかりを格納しておく領域に格納される。
【0029】(検索式の入力)検索は、検索式を検索部
3に渡すことによって開始される。文書情報格納部8内
に既に登録してある検索式を使用する場合は、それを指
定することによって検索部3へ渡すことが出来る。具体
的には、図3の如く表示部2のウィンドゥに表われてい
る検索式アイコン2−4をマウスでクリックして、登録
してある検索式を表示させ、その中の1つをクリックす
ることによって指定できる。登録してない場合には、検
索式を新たに作成し、入力部1に入力することによって
検索部3へ渡す。図1で、入力部1から検索部3に直接
引かれている実線の矢印は、そのことを表している。
【0030】(検索式について)図6は、検索式の例を
示す図である。まず、検索式の意味を説明し、次にこの
検索式を用いての検索について説明する。検索式の名前
は、「参考文献検索(著者名=鈴木栄一)」である。検
索式の最も右側の縦列の SELECT * FROM 参考文献 WHERE 著者名=鈴木栄一 は、参考文献を見て、著者名が「鈴木栄一」である場合
には、その参考文献についての記載全てを抜き出せとい
うことを意味している。参考文献についての記載項目に
は、「タイトル」,「著者名」,「出典」があるが、そ
れら全てを抜き出せということである。「*」は、全て
という意味を持たされている。例えば、もし図4の構造
化文書14が検索された場合には、 「〇〇技術の使い方,鈴木栄一,××学会論文」 という記載が表示部2に表示されることになる。
【0031】検索式の中の前記以外の部分、即ち図6の
中央の縦列より左側の部分 は、最終的な検索標的である「(参考文献の)著者名」
に辿りつくまでの論理構造を示している。即ち、「論文
の中の参考文献欄の中の」ということを意味している。
従って、検索式の意味(目的)は、いろいろな「論文」
の「参考文献欄」の中から、著者名が鈴木栄一である参
考文献を探し出し、その参考文献に関する記載全て(出
典等も含めて)をリストアップせよという意味になる。
このように、論理構造を利用した検索式にすることで、
論文自身の著者名と参考文献の著者名とを明確に区別す
ることが出来る。
【0032】(検索動作)次に、このような検索式での
検索動作を説明する。図2は、検索部3の機能構成を示
す図である。検索動作は、次の4つの段階を経て行う。 検索式のチェック 論理構造の照合 最終的な検索標的内での検索 検索したものの出力 以下、これらについて順を追って説明する。
【0033】 検索式のチェック 検索部3は、検索式を受け取ると、検索式解析部3−1
にて、検索式が構文規則に適合しているかどうかどうか
を調べる。適合していなければ、検索できないからであ
る。検索式を登録する際、予め構文規則に適合するかど
うかを調べ、適合するもののみを登録するというように
することも出来るが、もしそのようにしてあれば、検索
式解析部3−1は不用である。
【0034】 論理構造の照合 検索式は、次に検索式評価部3−3に送られ、検索式で
記載されている検索を実行する。まず、論理構造を手掛
かりにした検索を行う。即ち、図6の検索式に記述され
た「論文」→「参考文献欄」→「参考文献」→「(参考
文献の)著者名」という論理構造を持つ文書を探す。そ
れには、構造化文書入力部3−2を介して文書情報格納
部8の論理構造格納部87(図7参照)より、各文書の
論理構造を取り寄せ、それを検索式と共に論理構造判定
部9に送り、論理構造が一致しているかどうか判定して
もらう。判定は、論理構造知識ベース9−1を参照して
行う。そして、論理構造が一致した文書の文書識別子
(例、3276)を記憶しておく。更に、該当する著者
名に付与したリンク情報を記憶しておく。文書の内容情
報に比較して論理構造についてのデータ量は少ないの
で、この検索は短時間で行える。
【0035】 最終的な検索標的内での検索 次に、検索式評価部3−3は、検索式が最終的な検索標
的としている構成要素を取り寄せ、照合する。図6の検
索式での最終的な検索標的である構成要素は、「(参考
文献の)著者名」である。そこで、構造化文書入力部3
−2を介して、文書情報格納部8の参考文献著者名格納
部85より、リンク情報や文書識別子をもとに、論理構
造が一致した文書の著者名を、次々と取り寄せる。そし
て、それが検索式の「鈴木栄一」と一致するか照合し、
一致した場合の文書識別子のみを記憶しておく。このと
き、一致した「著者名」を記憶しておけば、ステップ
で「著者名」を取り出す必要がなくなる。
【0036】 検索したものの出力 検索に成功した場合、その文書識別子(例、3276)
を構造化文書生成出力部3−4に伝える。構造化文書生
成出力部3−4は、検索式で要求している表示事項(図
6の例では、参考文献に関する事項すべて…タイトル,
著者名,出典)を文書情報格納部8より取り寄せ、それ
を論理構造の情報を元にして、構造化文書の記載と同じ
に再構成して表示部2へ出力する。
【0037】〔第2の実施例〕図8は、本発明の第2の
実施例を示す図である。符号は図1のものに対応し、1
0は論理構造知識ベースである。図1の第1の実施例と
異なる点は、論理構造判定部9,論理構造抽出部7に組
み込まれていた論理構造知識ベースを、論理構造知識ベ
ース10に格納して独立させ、共用するようにした点で
ある。
【0038】論理構造知識ベースには、論理構造に関す
る規則とか、構成要素のデータフォーマットなどの、論
理構造に関する知識が保持されているが、第1の実施例
では、これが論理構造抽出部7,論理構造判定部9の論
理構造を扱うプログラムに組み込まれていた。そのた
め、構成要素のデータフォーマットが変更された場合に
は、それらのプログラムも修正する必要があった。しか
し、第2の実施例では、それらのプログラムとは独立さ
せたので、データフォーマットの変更があったとして
も、論理構造知識ベース10の内容を変更するだけでよ
く、プログラムまでも修正する必要はない。また、1つ
のデータベースを共用するので、同じ知識を重複して持
つ必要がない。また、新たな文書の知識の追加も容易に
なる。
【0039】
【発明の効果】以上述べた如く、本発明の構造化文書検
索装置によれば、次のような効果を奏する。 (1)同じ情報を重複して管理する必要がなくなった。
従来は、図9の文書属性管理部4に格納されている情報
は、文書格納部5にも格納されていたが、本発明では文
書情報格納部8のみに格納される。従って、情報の整合
性を常に保つ等の、煩わしい重複管理をする必要がな
い。また、記憶領域も少なくて済む。 (2)検索が短時間で行えるようになった。本発明で
は、論理構造を抽出して格納しておき、まず検索式に記
述されたのと同じ論理構造の文書を探し、次にその文書
の最終的な検索標的である構成要素にいきなりアクセス
して検索するので、文書の冒頭から順に見て行って最終
的な検索標的の構成要素に辿りついて検索する従来の検
索装置に比べて、作業量が少なくなり、検索時間が短か
くなる。 (3)副次的な効果として、文書の内容を直接検索する
ために、予め文書属性を決めておいたり、付与したりす
る手間がなくなった。
【図面の簡単な説明】
【図1】 本発明の第1の実施例にかかわる構造化文書
検索装置を示す図
【図2】 検索部の機能構成を示す図
【図3】 表示部のウィンドゥを示す図
【図4】 構造化文書の概念を説明する図
【図5】 論理構造の例を示す図
【図6】 検索式の例を示す図
【図7】 文書情報格納部を説明する図
【図8】 本発明の第2の実施例を示す図
【図9】 従来の文書検索装置を示す図
【図10】 文書属性管理部を説明する図
【図11】 文書を説明する図
【符号の説明】
1…入力部、2…表示部、2−0…ウィンドゥ、2−1
…論文アイコン、2−2…報告書アイコン、2−3…構
造化文書検索装置アイコン、2−4…検索式アイコン、
3…検索部、4…文書属性管理部、5…文書格納部、6
…登録部、7…論理構造抽出部、7−1…論理構造知識
ベース、8…文書情報格納部、9…論理構造判定部、9
−1…論理構造知識ベース、10…論理構造知識ベー
ス、11…文書、12,13…節の内容、14…構造化
文書、15,16…章内容、17,18…参考文献内
容、3−1…検索式解析部、3−2…構造化文書入力
部、3−3…検索式評価部、3−4…構造化文書生成出
力部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 7315−5L G06F 15/20 570 N

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 構造化文書を格納しておき、それを検索
    式により検索する構造化文書検索装置において、入力部
    から受け取った構造化文書を格納するための前処理を行
    う登録部と、文書の論理構造に関する知識が組み込ま
    れ、入力された構造化文書から論理構造,文書属性,文
    書内容を抽出する論理構造抽出部と、抽出した論理構
    造,文書属性,文書内容を同種のもの毎に分けて格納す
    る文書情報格納部と、文書の論理構造に関する知識が組
    み込まれ、該文書情報格納部から読み出した論理構造と
    検索式に記述された論理構造とが一致するかどうかを判
    定する論理構造判定部と、論理構造が一致すると判定さ
    れた文書の最終的な検索標的である情報のみを文書情報
    格納部から読み出して検索し、検索して得た構造化文書
    を再構成して出力する検索部とを具えたことを特徴とす
    る構造化文書検索装置。
  2. 【請求項2】 文書の論理構造に関する知識を格納した
    論理構造知識ベースを独立して設け、これを論理構造抽
    出部および論理構造判定部が共用する構成としたことを
    特徴とする請求項1記載の構造化文書検索装置。
JP5232455A 1993-08-25 1993-08-25 構造化文書検索装置 Expired - Fee Related JP2770715B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP5232455A JP2770715B2 (ja) 1993-08-25 1993-08-25 構造化文書検索装置
US08/785,282 US5752020A (en) 1993-08-25 1997-01-23 Structured document retrieval system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5232455A JP2770715B2 (ja) 1993-08-25 1993-08-25 構造化文書検索装置

Publications (2)

Publication Number Publication Date
JPH0765035A true JPH0765035A (ja) 1995-03-10
JP2770715B2 JP2770715B2 (ja) 1998-07-02

Family

ID=16939561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5232455A Expired - Fee Related JP2770715B2 (ja) 1993-08-25 1993-08-25 構造化文書検索装置

Country Status (2)

Country Link
US (1) US5752020A (ja)
JP (1) JP2770715B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002269073A (ja) * 2001-03-14 2002-09-20 Ricoh Co Ltd 文書管理システム及びプログラム

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3724847B2 (ja) 1995-06-05 2005-12-07 株式会社日立製作所 構造化文書差分抽出方法および装置
US5893102A (en) * 1996-12-06 1999-04-06 Unisys Corporation Textual database management, storage and retrieval system utilizing word-oriented, dictionary-based data compression/decompression
JPH10228486A (ja) * 1997-02-14 1998-08-25 Nec Corp 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体
US6236982B1 (en) * 1998-09-14 2001-05-22 Lucent Technologies, Inc. System and method for discovering calendric association rules
US6598046B1 (en) 1998-09-29 2003-07-22 Qwest Communications International Inc. System and method for retrieving documents responsive to a given user's role and scenario
JP2002536745A (ja) * 1999-02-03 2002-10-29 クォーク・メディア・ハウス・ソシエテ・ア・レスポンサビリテ・リミテ 文書の構造化タグ表現を作成するための、システムおよびプロセス
US20020002563A1 (en) 1999-08-23 2002-01-03 Mary M. Bendik Document management systems and methods
US20010053252A1 (en) * 2000-06-13 2001-12-20 Stuart Creque Method of knowledge management and information retrieval utilizing natural characteristics of published documents as an index method to a digital content store
US20050101012A1 (en) 2001-03-12 2005-05-12 Gerold Schuler CD4+CD25+ regulatory T cells from human blood
US20030004922A1 (en) * 2001-06-27 2003-01-02 Ontrack Data International, Inc. System and method for data management
JP4045400B2 (ja) * 2001-08-24 2008-02-13 富士ゼロックス株式会社 検索装置及び検索方法
US7814025B2 (en) * 2002-05-15 2010-10-12 Navio Systems, Inc. Methods and apparatus for title protocol, authentication, and sharing
US20030217006A1 (en) * 2002-05-15 2003-11-20 Stefan Roever Methods and apparatus for a title transaction network
US7707066B2 (en) * 2002-05-15 2010-04-27 Navio Systems, Inc. Methods of facilitating merchant transactions using a computerized system including a set of titles
US7707121B1 (en) * 2002-05-15 2010-04-27 Navio Systems, Inc. Methods and apparatus for title structure and management
US20060036447A1 (en) * 2002-05-15 2006-02-16 Stefan Roever Methods of facilitating contact management using a computerized system including a set of titles
US8222033B2 (en) 2002-08-12 2012-07-17 Argos Therapeutics, Inc. CD4+CD25− T cells and Tr1-like regulatory T cells
US20050234860A1 (en) * 2002-08-30 2005-10-20 Navio Systems, Inc. User agent for facilitating transactions in networks
US20050038707A1 (en) * 2002-08-30 2005-02-17 Navio Systems, Inc. Methods and apparatus for enabling transactions in networks
US20050246193A1 (en) * 2002-08-30 2005-11-03 Navio Systems, Inc. Methods and apparatus for enabling transaction relating to digital assets
US20050038724A1 (en) * 2002-08-30 2005-02-17 Navio Systems, Inc. Methods and apparatus for enabling transaction relating to digital assets
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
US20080021798A1 (en) * 2004-03-04 2008-01-24 Bayer Business Services Gmbh Method For Providing Any Type Of Storage Media Containing Prerecorded Structured Information
EP1836584A4 (en) * 2004-11-16 2009-05-06 Zalag Corp DISPLAY / PRESENTATION METHODS AND DEVICES CORRESPONDING TO CONTENT ELEMENTS AND DISPLAY CONTAINERS
US20060174350A1 (en) * 2005-02-03 2006-08-03 Navio Systems, Inc. Methods and apparatus for optimizing identity management
US20060170759A1 (en) * 2005-02-03 2006-08-03 Navio Systems Inc. Methods and apparatus for optimizing digital asset distribution
US9177338B2 (en) * 2005-12-29 2015-11-03 Oncircle, Inc. Software, systems, and methods for processing digital bearer instruments
WO2007078987A2 (en) 2005-12-29 2007-07-12 Navio Systems, Inc. Software, systems, and methods for processing digital bearer instruments
US10467606B2 (en) * 2006-04-29 2019-11-05 Api Market, Inc. Enhanced title processing arrangement
US10192234B2 (en) * 2006-11-15 2019-01-29 Api Market, Inc. Title materials embedded within media formats and related applications
JP4544315B2 (ja) * 2008-02-29 2010-09-15 富士ゼロックス株式会社 紙文書処理装置及びプログラム
JP5477376B2 (ja) * 2009-03-30 2014-04-23 富士通株式会社 情報管理装置および情報管理プログラム
WO2013019519A1 (en) 2011-08-02 2013-02-07 Rights Over Ip, Llc Rights-based system
US8595221B2 (en) 2012-04-03 2013-11-26 Python4Fun, Inc. Identifying web pages of the world wide web having relevance to a first file
US8843576B2 (en) 2012-04-03 2014-09-23 Python4Fun, Inc. Identifying audio files of an audio file storage system having relevance to a first file
US8612496B2 (en) 2012-04-03 2013-12-17 Python4Fun, Inc. Identification of files of a collaborative file storage system having relevance to a first file
US8606783B2 (en) * 2012-04-03 2013-12-10 Python4Fun, Inc. Identifying video files of a video file storage system having relevance to a first file
US8812602B2 (en) 2012-04-03 2014-08-19 Python4Fun, Inc. Identifying conversations in a social network system having relevance to a first file
US8612434B2 (en) 2012-04-03 2013-12-17 Python4Fun, Inc. Identifying social profiles in a social network having relevance to a first file
US8909720B2 (en) 2012-04-03 2014-12-09 Python4Fun, Inc. Identifying message threads of a message storage system having relevance to a first file

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2745794B2 (ja) * 1990-08-24 1998-04-28 富士ゼロックス株式会社 文書処理装置
JP3303926B2 (ja) * 1991-09-27 2002-07-22 富士ゼロックス株式会社 構造化文書分類装置及び方法
US5438512A (en) * 1993-10-22 1995-08-01 Xerox Corporation Method and apparatus for specifying layout processing of structured documents

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002269073A (ja) * 2001-03-14 2002-09-20 Ricoh Co Ltd 文書管理システム及びプログラム

Also Published As

Publication number Publication date
US5752020A (en) 1998-05-12
JP2770715B2 (ja) 1998-07-02

Similar Documents

Publication Publication Date Title
JP2770715B2 (ja) 構造化文書検索装置
US5745745A (en) Text search method and apparatus for structured documents
US6477528B1 (en) File management system, electronic filing system, hierarchical structure display method of file, computer readable recording medium recording program in which function thereof is executable
US5499359A (en) Methods for improved referential integrity in a relational database management system
JP3341988B2 (ja) インデックス表示方法
JP3836928B2 (ja) データベース処理方法
US20090198693A1 (en) Method and apparatus for ordering items within datasets
CA2048039A1 (en) Data processing system and method for generating a representation for and random access rendering of electronic documents
JP2001075969A (ja) 画像管理検索装置、画像管理検索方法及び記憶媒体
JP2003518664A (ja) パーソナライズされた結果セットを構成する方法およびシステム
WO2005045564A2 (en) Term database extension for label system
JPH08305616A (ja) データ管理システム
JP2669601B2 (ja) 情報検索方法及びシステム
JP3356519B2 (ja) 文書情報検索装置
US7509303B1 (en) Information retrieval system using attribute normalization
JPH07146880A (ja) 文書検索装置及び方法
JP2000003366A (ja) 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体
JP2002202973A (ja) 構造化文書管理装置
JP2001297089A (ja) 文書検索方法およびその方法を実施するためのプログラムを記憶した記憶媒体
JP2003058559A (ja) 文書分類方法、検索方法、分類システム及び検索システム
JPH0635971A (ja) 文書検索装置
JP2888458B2 (ja) ファイル格納装置
JPH10228489A (ja) データベース管理システムおよび記録媒体
JP2838972B2 (ja) 自動索引作成装置
JPH04250568A (ja) レコード検索装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080417

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090417

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100417

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110417

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130417

Year of fee payment: 15

LAPS Cancellation because of no payment of annual fees