JPH09282326A - 文書高速構造検索方式 - Google Patents

文書高速構造検索方式

Info

Publication number
JPH09282326A
JPH09282326A JP8087933A JP8793396A JPH09282326A JP H09282326 A JPH09282326 A JP H09282326A JP 8087933 A JP8087933 A JP 8087933A JP 8793396 A JP8793396 A JP 8793396A JP H09282326 A JPH09282326 A JP H09282326A
Authority
JP
Japan
Prior art keywords
document
search
information
file
structural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8087933A
Other languages
English (en)
Inventor
Kentaro Hirose
賢太郎 広瀬
Katsuya Nagano
勝也 永野
Isao Yasuda
功 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8087933A priority Critical patent/JPH09282326A/ja
Publication of JPH09282326A publication Critical patent/JPH09282326A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】階層構造を持った文書の検索方式において、大
量の文書を高速に階層構造を意識して検索することを実
現し、大容量高速全文検索システムの実現を可能とす
る。 【解決手段】大規模検索システムの特徴である検索イン
デクスファイル上の検索において、文書の階層構造を圧
縮化して保有させ、文書の高速構造検索を従来の検索シ
ステムの上で実現することを可能とする。また、簡単
で、一意に決定できる階層構造を検索のキーとして保有
させるため、テキスト、イメージ混在のミクストモード
型データベースの管理情報として利用できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、キーワードを収録
する文書から直接または、自動的にインデキシングし、
そのインデクスファイル上で検索を実現しようとするデ
ータベース検索方法に関する。
【0002】
【従来の技術】文書のインデクス作成は、収録する文書
の本文を自動または人手により、インデキシングし、イ
ンデクスファイルを作成し、文書検索を実現する方式
や、文書そのものを全文データベースとして、予め人手
によるキーワードの付与を必要とせず検索する方式があ
る。特に、数十万件を超える文献を取り扱う大規模な文
書検索方法では、検索速度の維持の為に、専用のインデ
クスファイルを構築し、インデクスファイル上での検索
を行っている。
【0003】また一方では、文書の論理構造を持った電
子化文書技術があり、文書そのものの構造を意識した状
態で、データベース化ができる。このような技術の公知
例として、特開平03−62169号公報では、写真、
図表、テキストなどの各種メディアが混在した文書をマ
ルチメディアファイルに格納し、文書の論理構造や、意
味情報をもとに検索を行うことができる。
【0004】前記技術の組合せを行うと、従来、抽出す
るキーワードの増大により、目的としない文書が検索さ
れるという、検索精度の劣化が懸念された全文データベ
ースにおいても文書の論理構造を指定した検索要求によ
り、より精度の高いデータベース検索の実現が可能とな
ると、容易に予測できる。
【0005】
【発明が解決しようとする課題】上記従来技術および、
従来技術の組合せから予測できる文書検索方式では、文
書の論理構造は、文書ファイルそのものや、専用のデー
タベース管理システムによって管理される。このため、
専用のインデクスファイル上でデーベース検索を実現し
ようとする数十万件を超える大規模検索システム上で
は、取扱う情報の数が増大し、システム化の実現が困難
であった。
【0006】また、大規模検索システムでは、従来のイ
ンデクスファイルを用いた構造検索を実現する必要があ
るのとともに、全文から抽出した検索キーワードに対
し、各々抽出した文順序番号、語順序番号を付与する
と、爆発的な検索インデクスファイルの増加につながる
という課題がある。
【0007】本発明の目的は、文書の論理構造を、その
階層関係を検索可能な状態で、より単純で少ない情報量
で、かつ、より高速に検索できるよう表現し、大容量全
文高速データベースシステムの構築を実現する。
【0008】
【課題を解決するための手段】本発明は、階層情報の単
純化のために、文書の構成要素単位で文書を分解して取
得できる構造情報を、本発明の定める規則によって解析
する文書構造解析ステップと、情報量の削減の為に、文
書の論理構造を圧縮表現可能なインデクスレコード上に
展開し記述するインデクスデータベース作成ステップ
と、作成したデータベースをもとに、文書論理構造の高
速検索を実現する構造検索ステップと、検索結果に対応
する文書中の構造要素をテキスト部分及びイメージデー
タを共に、速やかに出力する検索結果表示ステップから
構成される。
【0009】文書を構造の要素に分けて階層化して表現
する手段では、文書の構造要素について、文書中の階層
位置及び、上位、下位階層の関係にある他の構造要素を
簡単に識別可能で、一意な規則にて付与可能なレベル番
号を発明した。
【0010】文書の構造情報を圧縮して格納する手段
と、圧縮して格納した構造情報を検索する手段では、こ
のレベル番号を、従来のインデクスレコード上に、ビッ
ト列データとして表現し、文書の構造検索を実現した。
さらにこの検索は、ビット列演算にて、文書の構造及
び、上下関係を求めることを可能とするため、情報量の
削減と、検索の高速化の実現が行なえる。
【0011】階層化して表現した構造情報に対応する構
造要素を出力する手段では、文書構造検索で発明したレ
ベル番号を、文書の格納のためのキーとして利用するこ
とにより、検索結果に対応するテキストや、関連する
図、イメージデータといったマルチメディア情報を容易
に出力することを可能とする。
【0012】
【発明の実施の形態】以下に本発明による一実施例につ
き図1、図2、図3、図4、図5、図6、図7、図8、
図9、図10を参照しながら詳細に説明する。
【0013】図1は、本発明の一実施例のシステム構成
図である。
【0014】1は本発明を実行する処理部であり、2は
本発明で作成利用されるDBである。3はデータベース
作成部、4は構造情報検索部、5は表示部、6は検索イ
ンデクスファイル、7は本文テキストファイル、8は本
文イメージデータファイル、9は原文書、10は検索端
末である。原文9からデータベース作成部3にて本発明
の形式の検索インデクスファイル6を作成する。検索端
末10から検索要求がくることにより構造情報検索部4
がその要求を解析し、検索インデクスファイル6を本発
明により検索し、検索回答を検索端末10に返す。ま
た、検索端末10から検索ヒットしたデータの中身を表
示する要求時には、表示部5が、検索インデクスファイ
ルの検索ヒットしたレコードから本文テキストファイル
7、本文イメージデータファイル8を検索し検索端末に
表示回答を行う。
【0015】本実施例で原文書は、SGML等の文書構
造が解読可能な形式で記述された文書であり、その文書
の構造要素はSGMLで用いられるタグ等により抽出が
出来ることを前提としている。また文書中のイメージデ
ータは、そのイメージタイトルと共に抽出可能な電子文
書を入力とする。
【0016】図2は、原文書の階層構造を抽出した結果
を示す。
【0017】ここで、公開特許公報を原文書の例とした
原文書の入力を考える。第1階層に位置するものは、
「発明の名称」であり、第2階層に位置するものは、
「特許請求の範囲」及び、「発明の詳細な説明」であ
り、第3階層に位置するものは、「発明の属する技術分
野」、「従来の技術」等を指す。特許公報の場合、前記
各々の階層に、本文に相当する文書を持つ階層は、「発
明の名称」であり、「発明の属する技術分野」に記述さ
れた本文は、第4階層として取り扱う。これは、特許公
報の場合、「発明の属する技術分野」には、著作者独自
のタイトルが付くことは少ないが、他の文書の場合、各
々の節ごとに、著作者独自の小見出しが付くことが予想
されるからである。
【0018】図3は、抽出した階層構造に対するレベル
番号の付与の方法を示す。
【0019】レベル番号は、上位階層から下位階層にむ
けて、さらに同一階層では、文書中での出現順序の順に
付与する。
【0020】図4は、本文から切り出された検索用語に
対するレベルキーの付与の方法を示す。
【0021】ここで、図3に示す階層構造を持った文書
のレベル番号10の本文から「自動」という、検索語が
発生したと仮定する。レベルキーは、レベル番号をビッ
ト列に展開した構造を持つ。レベル番号10の本文から
抽出された検索用語のレベルキーはビット列にて表現
し、付与を行う。ビット列は、該当するレベル番号の位
置「10」がビットONとなると同時に、上位階層に当
たるレベル番号の位置のビット「1」、「2」、「4」
もONとする。また、1文献中の異なる複数のレベルに
検索語がある場合、各々レベルキーを付与する。本方式
により、検索語「自動」が文書のどの階層に位置するか
を、ビット列によって表現することを実現する。
【0022】図5に抽出したレコードの論理構造を示
す。
【0023】ここでは、文献番号02010と0204
0に検索用語「データベース」、「自動」、「サーチ」
が存在したことを示す。又、検索用語「データベース」
が、文献番号02010中の異なるレベル4、5の2か
所に存在したことをも示す。
【0024】図6に抽出レコードの構造の実装形態とし
て、検索インデックスファイルを示す。
【0025】検索インデクスファイルは、文献番号イン
デクスファイルとレベルサーチサブファイルにより構成
される。文献番号インデクスは検索用語をキーとした、
文献番号の集合ファイルである。また、文献番号と対応
するレベルキーを示すポインタ情報を持つ。文献中に異
なる複数のレベルに検索用語が存在する場合、ポインタ
情報もレベルに対応して複数存在する。レベルキーサブ
ファイルは検索用語のポインタ情報に対応する文書階層
構造(「レベルキー」)を格納したファイルである。文
献中に異なる複数のレベルに検索用語が存在する場合に
は、各レベルに対応したレベルキーが存在する。そし
て、それぞれのレベルキーは、検索インデックスファイ
ルに展開される。
【0026】図7、図8にレベルキーを用いた演算につ
いて示す。
【0027】図7は、同一レベルに2つのレコードが存
在するかを検索する演算である。レコード201とレコ
ード202についてレベルキーのビット毎の排他的論理
和をとる。同一レベルであれば、演算結果は「0」とな
る。図8は、レコード203の上位レベルにレコード2
04が存在するかを検索する演算である。ここでは、上
位レベルの下に下位レベルのレコードがある場合、下位
レベルのレベルキーのビットが上位レベルのビットを包
含するという特徴を用いる。2つのレコードについてビ
ット毎の論理和演算を行う。演算結果が自レコード(レ
コード203)と一致すれば、レコード204はレコー
ド203の上位レベルにあるレコードである。
【0028】図9にレベルキーを用いた構造情報検索と
検索結果出力のフローチャートを示す。
【0029】構造情報の検索では、ステップ101で検
索端末からの検索指示の解析を行う。これが構造情報検
索であれば、ステップ102でまず文献番号のマッチン
グ処理を行う。ステップ103で検索指示の解析により
得た検索指示の種別により演算の種類を選択する。同一
レベル検索である場合、ステップ104で同一レベル検
索の演算を行う。上位/下位レベルの検索の場合、ステ
ップ105、ステップ106で上位/下位レベル検索の
演算を行う。ステップ103からステップ106をレベ
ルキー分繰返す。そして、ステップ102からステップ
106を文献数分繰り返すことにより、検索回答を得、
ステップ107で出力する。
【0030】次に、ステップ108で検索結果の回答出
力要求が検索端末から与えられた場合、ステップ109
で出力するデータを文献番号とレベルキーを用いて本文
テキストファイルをサーチする。ステップ110とステ
ップ111でこれを編集し、検索端末に回答出力する。
【0031】次に、検索の方式及び、検索結果の出力の
方式について、詳細に説明する。
【0032】図5、図6、図7、図8、図9を用いて検
索におけるインデクスファイルの利用方法を示す。
【0033】ここで検索の指定は、上位階層に「データ
ベース」が存在し、下位階層に「自動」と「サーチ」が
同一レベルで出現する文献を検索することとする。これ
を「データベース > (自動[L*]サーチ)」と入
力することとする。
【0034】まず、上記の入力の検索指示を解析する。
次に、文献番号のマッチングを行い、同じ文献番号のレ
コードを抽出する。これにより、文献番号が02010
であるレコード1、2、4、6が抽出される。ここで、
「(自動[L*]サーチ)」は同一レベル検索であるた
め、レベルキーが一致する必要がある。図5では、レコ
ード4及びレコード6が該当し、「(自動[L*]サー
チ)」の検索条件にヒットする。次に上位階層で「デー
タベース」が存在するためには、「自動」、「サーチ」
と異なるレベルのビットが存在しないことが条件とな
る。この条件には、レコード2がヒットとなる。この結
果、レコード2、レコード4、レコード6がヒットとな
り、文献番号02010は、検索条件「(自動[L*]
サーチ)」にヒットとなる。以上の検索演算をそれぞれ
の文献番号に対して行なう。
【0035】このレベルキーを用いた検索は、さらに多
くの条件指定が可能となる。「自動」と「サーチ」は、
同一階層に存在することを必要としない場合、検索の入
力として「データベース>(自動*サーチ)」と入力す
ることとする。この時には、文献番号のマッチングによ
り、(自動*サーチ)も含めて実行されるため、「デー
タベース>自動」と「データベース>サーチ」の上位/
下位レベル検索演算をすることになる。そのため、レコ
ード2、レコード4、レコード6及び、レコード3、レ
コード5、レコード7がヒットとなる。これにより、文
献番号02010、02040の2件が、検索条件「デ
ータベース>(自動*サーチ)」にヒットとなる。
【0036】図10は、検索結果の出力の方式を示す。
【0037】既に定義したレベルキーを、さらに文書管
理そのものの管理情報として利用することにより、検索
ヒットした本文の出力を速やかに実現することが可能と
なる。本文データを格納したファイルには、レベルキー
に対応した本文位置を示すポインタ情報と、該当するレ
ベルの本文から切り出されたイメージデータの格納位置
を示すポインタ情報を持つ。これにより、検索ヒットし
た本文や、関連する図、表を速やかに出力することに特
徴を持つ。
【0038】
【発明の効果】本発明によれば、以下のような効果が得
られる。
【0039】階層的構造を持った文書の検索を行う方式
において、文書の構造によって、一意に判定できる構造
情報を抽出し、圧縮化したビット列で表現することを実
現し、この結果、大量の文書を構造を意識して、高速に
検索、表示することを実現する。
【図面の簡単な説明】
【図1】本発明の一実施例のシステム構成を示す図であ
る。
【図2】文書の階層構造を示す図である。
【図3】階層構造を持った文書に対する階層化して表現
する手段を示す図である。
【図4】階層情報を圧縮化して格納する手段を示す図で
ある。
【図5】圧縮化して表現した階層情報の例を示す図であ
る。
【図6】圧縮化して表現した階層情報をもとに検索を実
現することを示す図である。
【図7】階層構造検索が単純なビット列演算(ビット列
和)にて実現可能なことを説明する図である。
【図8】階層構造検索が単純なビット列演算(ビット列
積)にて実現可能なことを説明する図である。
【図9】階層構造検索と、検索結果出力のフローチャー
トを示す図である。
【図10】求めた構造情報から一意にその本文データを
抽出できることを示す図である。
【符号の説明】
1…文書構造検索部、2…構造データベース部、3…デ
ータベース作成部、4…構造情報検索部、5…表示部、
6…検索インデクスファイル、 7…本
文テキストファイル、8…本文イメージデータファイ
ル、 9…原文書、10…検索端末。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】階層的構造を持った文書の検索を行う方法
    において、文書を構造の要素に分けて階層化して表現す
    る手段と、文書の構造情報を圧縮して格納する手段と、
    圧縮して格納した構造情報を検索する手段と、階層化し
    て表現した構造情報に対応する構造要素を出力する手段
    を含むことを特徴とした文書高速構造検索方式。
  2. 【請求項2】文書を構造の要素に分けて階層化して表現
    する手段において、構造要素に対し、階層順及び、出現
    順にしたがって番号を付与し、抽出した構造要素の文書
    中の階層位置と、階層の上下関係を表現することを特徴
    とする文書高速構造検索方式。
  3. 【請求項3】文書の構造情報を圧縮して格納する手段
    と、圧縮して格納した構造情報を検索する手段におい
    て、構造要素に対して、前記文書を構造の要素に分けて
    階層化して表現する手段をビット列に配置することによ
    り、構造情報の圧縮化を実現し、ビット列の演算処理に
    よって構造要素の上下階層関係を高速に検索可能とする
    ことを特徴とした文書高速構造検索方式。
  4. 【請求項4】階層化して表現した構造情報に対応する構
    造要素を出力する手段において、前記文書を構造の要素
    に分けて階層化して表現する手段を、文書ファイル上
    と、文書ファイル上の構造要素の存在する位置を示すポ
    インタ情報と、前記文書の構造情報を圧縮して格納する
    手段とを同期して各々に格納することにより、検索結果
    に対応するテキスト部及び、イメージ情報を速やかに出
    力することを特徴とした文書高速構造検索方式。
JP8087933A 1996-04-10 1996-04-10 文書高速構造検索方式 Pending JPH09282326A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8087933A JPH09282326A (ja) 1996-04-10 1996-04-10 文書高速構造検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8087933A JPH09282326A (ja) 1996-04-10 1996-04-10 文書高速構造検索方式

Publications (1)

Publication Number Publication Date
JPH09282326A true JPH09282326A (ja) 1997-10-31

Family

ID=13928718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8087933A Pending JPH09282326A (ja) 1996-04-10 1996-04-10 文書高速構造検索方式

Country Status (1)

Country Link
JP (1) JPH09282326A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100786342B1 (ko) * 2007-01-30 2007-12-17 (주) 프람트 사용자 동적 정보를 이용한 콘텐츠의 검색 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100786342B1 (ko) * 2007-01-30 2007-12-17 (주) 프람트 사용자 동적 정보를 이용한 콘텐츠의 검색 방법

Similar Documents

Publication Publication Date Title
US20040024778A1 (en) System for indexing textual and non-textual files
JPH0424869A (ja) 文書処理システム
US9020811B2 (en) Method and system for converting text files searchable text and for processing the searchable text
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
JPH11110413A (ja) データベース検索結果を生成するための方法および装置
JPH0484271A (ja) 文書内情報検索装置
JPH0628403A (ja) 文書検索装置
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0844771A (ja) 情報検索装置
JPH09223150A (ja) 情報分類処理方法
JPH09282326A (ja) 文書高速構造検索方式
JP2009140113A (ja) 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP3578045B2 (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JPH06348756A (ja) 索引作成装置及び索引利用装置
JP3239845B2 (ja) 全文検索装置および方法
JPH1145238A (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR101142062B1 (ko) 멀티미디어 데이터의 문자 기반 메타데이터 검색을수행하는 데이터 베이스 장치 및 방법
JP2001229178A (ja) 文書検索方法および装置およびこの方法を記録した記録媒体
JPH08249346A (ja) 文書検索装置及び文書生成方法
JP2006163723A (ja) ドキュメント検索方法
JPH11203312A (ja) キーワード検索装置、文書検索装置、キーワード検索プログラムを記録した記録媒体及び文書検索プログラムを記録した記録媒体
KR100289332B1 (ko) 전자화된 문서의 어절 데이터베이스 자동 구축장치 및 방법
JPH0410062A (ja) 語彙拡張機能を有する文書検索方法
JP2003263458A (ja) テキスト分析方法及び装置