JP2000207409A - 構造化文書管理装置及び構造化文書検索方法 - Google Patents

構造化文書管理装置及び構造化文書検索方法

Info

Publication number
JP2000207409A
JP2000207409A JP11007616A JP761699A JP2000207409A JP 2000207409 A JP2000207409 A JP 2000207409A JP 11007616 A JP11007616 A JP 11007616A JP 761699 A JP761699 A JP 761699A JP 2000207409 A JP2000207409 A JP 2000207409A
Authority
JP
Japan
Prior art keywords
unit
search
structured document
document
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11007616A
Other languages
English (en)
Inventor
Masao Ito
正雄 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP11007616A priority Critical patent/JP2000207409A/ja
Publication of JP2000207409A publication Critical patent/JP2000207409A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 構造化文書の全文検索に関するもので、構造
化文書の構造情報を符号化して索引ファイルに付加する
ことで、構造化文書の要素を指定した全文検索を高速に
行うことを目的としている。 【解決手段】 登録部11aは構造化情報から構造情報
とタグ管理情報と索引情報とテキスト情報を作成しデー
タ管理部12に登録する。索引情報格納部12cには高
速検索のための索引情報と構造情報を符号化した情報も
同時に管理する。検索部11cは入力された検索条件に
従ってデータ登録部の索引情報を読み出してから高速全
文検索する。更に要素を指定した検索の場合は、文書構
造判定部11eで索引に付けられた構造情報と照合を行
って検索条件を絞り込む。結果作成部11fは検索条件
を満たした文書を結果出力部18に返す。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はSGMLやXMLな
どの論理構造を持った構造化文書を管理し、論理構造を
利用した全文検索を高速に行う構造化文書管理装置及び
構造化文書検索方法に関するものである。
【0002】
【従来の技術】ワープロやパソコンの普及により、大量
の文書情報が作成されるようになってきている。またネ
ットワークの整備により、文書を配布したり共有したり
するような環境が整ってきた。しかし作成された文書
は、アプリケーションに依存したデータ形式で保存され
るため、文書を再利用するためには同じアプリケーショ
ンを持っている必要があった。このためアプリケーショ
ンを実行する環境がなくなると文書を再利用できなくな
るなどの問題があった。これを解決する手段として、プ
ラットフォームやアプリケーションに依存しないデータ
形式としてSGMLといった構造化文書がISO(国際
標準化機構)によって規格化され、CALSなどで利用
されるようになってきた。さらに最近ではW3Cによっ
て規格化されたXMLといった新しい構造化文書も登場
し、構造化文書の利用範囲が拡大してきている。このよ
うな文書が大量に蓄積されると、必要に応じて文書情報
を検索して再利用できる文書データベースに対する関心
が高まってきている。その中には、文書情報に対して、
キーワードを付けずに文書の内容から検索する全文検索
システムや、構造化文書を効率よく管理し、論理構造を
利用して検索ができる構造化文書管理システムなどが開
発されつつある。しかしながら従来の構造化文書管理シ
ステムは、構造化文書を管理する際に要素単位に分解し
てリレーショナルデータベースなどに格納するため、構
造化文書全体から検索しようとすると非常に時間がかか
るという欠点があった。
【0003】以下、従来の構造化文書管理装置について
説明する。図17は従来の構造化文書管理装置の構成を
示すものである。
【0004】図17において、171は構造化文書管理
サーバ部であり、登録部171aとSQL生成部171
bと結果作成部171cとからなる。172はリレーシ
ョナルデータベースであり、構造情報格納部172aと
タグ管理情報格納部172bとテキスト情報格納部17
2cからなる。173は構造化文書で、174はDTD
(文書型定義)で、175は構造化文書入力部で、17
6は端末で、177は検索条件入力部で、178は結果
出力部である。
【0005】以上のように構成された構造化文書管理装
置について、以下その動作について説明する。まず、構
造化文書173とDTD174は構造化文書入力部17
5に送られる。構造化文書サーバ部171の登録部17
1aはDTD174の構造情報をもとに構造化文書17
3を分解して、構造情報とタグ情報とテキスト情報を作
成する。更に登録部171aはリレーショナルデータベ
ース172の構造情報格納部172aに構造情報を格納
し、タグ情報格納部172bにタグ情報を格納し、テキ
スト情報格納部172cにテキスト情報を格納する。S
QL生成部171bは端末176から検索条件入力部1
77で入力された検索要求をリレーショナルデータベー
ス検索言語であるSQLを生成する。リレーショナルデ
ータベース172はSQLに対応した検索処理を行う。
検索結果は結果作成部171cで構造化文書に編成し、
結果出力部178に送られ、端末で表示される。
【0006】
【発明が解決しようとする課題】しかしながら上記の従
来の構成では、構造化文書の各要素を分解した形でリレ
ーショナルデータベースのテーブルに格納しているた
め、分解された文書に対して全文検索を行う場合には、
指定された要素に対して1要素単位に文字列照合を行う
ため、文書数が多くなると文書数または要素数に比例し
た時間がかかるという問題がある。
【0007】本発明は上記従来技術の課題を解決するも
ので、構造化文書の論理構造を利用した全文検索を高速
にすることを目的とする。
【0008】
【課題を解決するための手段】この目的を達成するため
に本発明は、全文検索で使われている索引情報を用いた
検索方式を用い、かつ論理構造の位置を符号化した情報
を全文検索の索引情報に埋め込むことで高速な構造化文
書の検索を実現するという作用を有する。更に論理構造
を利用しない文書全体からの検索や、論理構造を指定し
た検索や、更に論理構造の上位層または中間層を指定す
る場合(例えば「章」は「表題」と「節」からなってい
る場合に、「章」から検索するような場合)でも同じよ
うな検索時間で検索することができるという作用を有す
る。
【0009】
【発明の実施の形態】(実施の形態1)以下、本発明の
第1の実施の形態について、図面を参照しながら説明す
る。
【0010】図1は本発明の一実施の形態における構造
化文書管理装置の構成図である。図1において、構造化
文書管理サーバ部11は、文書構造解析部11bを有す
る登録部11aと、全文検索部11dおよび文書構造判
定部11eを有する検索部11cと、結果作成部11f
からなる。データ格納部12は、構造情報格納部12a
と、タグ管理情報格納部12bと、索引情報格納部12
cと、テキスト情報格納部12dからなる。13は構造
化文書で、14はDTD(文書型定義)で、15は構造
化文書入力部で、16は端末で、17は検索条件入力部
で、18は結果出力部である。
【0011】以上のように構成された構造化文書管理装
置について、その動作を説明する。まず、構造化文書入
力部15は入力された構造化文書13とDTD14を構
造化文書管理サーバ部11の登録部11aに送る。登録
部11aの文書構造解析部11bは文書構造を記述した
DTD14から文書構造を解析し、構造情報と高速全文
検索のための索引情報に付加する論理構造の位置を符号
化したタグIDと要素番号を作成する。登録部11aは
索引情報とタグ管理情報とテキスト情報を作成し、デー
タ格納部12の構造情報格納部12aには構造情報を格
納し、タグ情報格納部12bにはタグ情報を格納し、索
引情報格納部12cには索引情報とタグIDと要素番号
を格納し、テキスト情報格納部12dにはテキスト情報
を格納する。検索条件入力部17は端末16から入力さ
れた検索条件を構造化文書管理サーバ部11の検索部1
1cに送る。検索部11cは検索条件の検索文字列と論
理構造の指定部分とに分解し、検索文字列は全文検索部
11dに送り、論理構造指定部分は文書構造判定部11
eに送る。全文検索部11dはデータ格納部12の索引
情報格納部12cの索引情報を読み出して高速全文検索
を行い、検索条件を満たした文書の番号とタグIDと要
素番号を取得する。文書構造判定部11eは全文検索部
11dで検索した結果に対して検索条件で指定された要
素に一致しているか否かをタグIDを用いて判定する。
指定された要素に一致している場合には、要素番号を結
果作成部11fに送る。結果作成部11fは要素番号を
用いてタグ管理情報格納部12bを読み出して開始位置
とバイト数を取得し、開始位置とバイト数を用いてテキ
スト情報格納部12dからテキスト情報を読み出して検
索結果として作成し、結果出力部18に送る。
【0012】次に本発明の第1の実施の形態について図
2から図8に示す例を用いて詳細に説明する。
【0013】図2は構造化文書の論理構造を現すタグの
例を示す図である。図2において、文書21は書誌22
と本文26と付録2dから構成され、書誌22は題名2
3と著者24と日付25で構成され、本文26は章27
で構成され、章27は見出し28と段落29と節2aで
構成され、節2aは強調2bと下線2cで構成されるこ
とを示す。以下この論理構造を持った構造化文書を中心
に説明する。
【0014】図3は、図2の論理構造に対する各階層に
おけるタグの種類を示す図である。図3において第1階
層のタグの種類は文書31の1つであり、第2階層のタ
グの種類は書誌32と本文36と付録3dの3つであ
り、第3階層のタグの種類は題名33と著者34と日付
35と章37の4つであり、第4階層のタグの種類は見
出し38と段落39と節3aの3つであり、第5階層の
タグの種類は強調3bと下線3cの2つである。
【0015】図4は、図3で求めたタグの種類から各層
に必要なビット数を求めてタグのIDを求めた図であ
る。
【0016】図4において41は各階層のビット数を示
している。各層のビット数は、タグの個数をNとすると
log(N+1)で求めるものとする。但し、小数点以
下は切り上げとする。例えば第1階層はタグの個数が1
なのでlog(2)=1となり1ビットになる。また第
2階層はタグの個数が3なのでlog(4)=2となり
2ビットになる。その他の階層も同様な操作でビット数
を求める。42は図3の論理構造に出てきたタグを示
す。43は各タグの各階層での出現の順番を2進数で表
したもので、例えば「文書」タグは第1階層は1番目で
その他の階層は関係ないので全て0である。また「題
名」は第1階層は1番目の「文書」タグに含まれている
ので1で、第2階層は1番目の「書誌」タグに含まれて
いるので01で、第3階層は1番目のタグなので001
である。このようにして全てのタグに対して各階層の順
番に相当する値を求める。44はそれぞれのデータを合
計12ビットのデータとして結合し、16進に変換した
値(以下、タグIDと呼ぶ)である。このタグIDを用
いることにより、タグIDから各要素の上位の要素を簡
単に求めることができ、このタグIDを索引情報に付加
して索引情報格納部12cに格納することで、論理構造
を利用した検索を高速に実行することができる。
【0017】図5は図2の論理構造に基づいて作成され
た文書の例を示す図である。以下、この構造化文書51
を主に用いて説明する。
【0018】図6は図5の文書例に対して構造を解析し
た図である。図6において各タグの下に括弧で書いたも
のは要素番号と16進数で示したタグIDであり、要素
番号は各要素に対して順番に番号付けたものである。こ
の要素番号はタグ管理情報からテキストの開始位置とバ
イト数を取得する際に用いる。
【0019】図6において、本文66に章が例えば2つ
ある場合、章67と章6cには見出し68、6dと、段
落69、6eが共通して構成される。章67には節6a
が1つあり、章6cには節6f、6gの2つある。節6
aには強調6bがあり、同様に節6fには強調6hがあ
る。
【0020】図7は図5の文書例に対して索引情報格納
部12cの内容例を示す図である。図7において、70
は32ビットの索引情報をあらわす例であり、80は6
4ビットでの索引情報をあらわす例である。図7の7
0、80において、文書番号71と75は登録した文書
に対して1から順番に付けた値でビット数は各々10と
16である。位置72と76は文字の位置をあらわす値
でビット数は各々7と16である。タグID73と77
は論理構造をあらわす値でビット数は各々10と24あ
る。要素番号74と78は文書中の要素に対して1から
順番に付けた値でビット数は各々5と8である。
【0021】図8は図5の文書例に対してタグ管理情報
格納部12bの内容例を示す図である。
【0022】図8において各要素番号81について開始
位置82とバイト数83とタグID84を管理すること
で、テキスト情報格納部85(図1の12d)からテキ
スト情報を抽出する場合に、開始位置とバイト数を用い
て目的の要素を抽出することができる。
【0023】図9は図5の文書に対して文書全体から
「構造化」という文字列で検索する例を示す図である。
【0024】図9において91は全文検索のための索引
情報を格納する索引情報格納部で、索引情報格納部91
には図5に示す文書のみが格納されているとする。この
状態において文書全体に対して全文検索部11d「構造
化」という文字列で検索すると、92に示すように要素
番号とタグIDをペアとする4つの要素を検索すること
ができる。これらの要素番号からタグ管理情報格納部9
3の開始位置とバイト数を求め、テキスト情報格納部9
4に対して開始位置とバイト数でテキストを求めること
により、検索結果として95のような結果を得ることが
できる。
【0025】図10は図5の文書に対して「本文」要素
から「構造化」という文字列で検索する例を示す図であ
る。
【0026】図10において101は全文検索用の索引
情報を格納する索引情報格納部で、索引情報格納部10
1には図5に示す文書の索引情報のみが格納されている
とする。この状態において全文検索部11dで「構造
化」という文字列で検索すると、102に示すような検
索結果を4件の取得することができる。次に文書構造判
定部11eで「本文」要素から検索する場合のタグID
を求める。「本文」は第1階層が「1」で第2階層が
「10」で第3階層以降は「0」であるため、タグID
の上位3ビットが「110」である文書が「本文」であ
る。文書構造判定部11eは全文検索で検索された4件
の検索結果に対してタグIDの上位が「110」である
ものを判定すると104に示す2件の検索結果を得るこ
とができる。さらに要素番号からタグ管理情報格納部1
05の開始位置とバイト数を求め、テキスト情報格納部
106に対して開始位置とバイト数でテキストを求める
ことにより、検索結果として107のような結果を得る
ことができる。
【0027】以上のように本実施の形態によれば、登録
部11aが高速全文検索のための索引情報の作成と、論
理構造の位置を符号化したタグIDと要素番号を索引情
報に付加することで、全文検索部11の出力する検索結
果に対して文書構造判定部11eでタグIDから論理構
造を判定することができ、構造化文書の要素に対する全
文検索を高速に行うことができる。また論理構造の上位
層または中間層を指定する場合(例えば「章」は「表
題」と「節」からなっている場合に、「章」から検索す
るような場合)でもほぼ同じ時間で検索することができ
る。更に構造化文書の全体から検索するような場合は文
書構造判定部で論理構造の判定を行う必要がないので、
より短い時間で検索することができる。
【0028】なお、本実施の形態で文書構造解析部11
bはDTDを用いて構造化文書の木構造を作成するが、
DTDがない場合には、構造化文書から直接木構造を作
成してもよい。また、本実施の形態では文書構造が予め
決められた場合について各階層のビット数を決めたが、
文書構造が予め与えられない場合には各階層のビット数
を予め4ビットなどと決めておいて使用することもでき
る。また各階層のビット数の合計は予め与えられた構造
化文書を解析して各階層で異なるタグの数からビット数
を決めてもよい。また、本実施の形態で結果作成部11
fは検索結果として1文書で複数の要素が一致した場合
に複数の要素を結果として作成したが、1文書に複数の
要素が一致しても1つの結果として結果出力部18に返
してもよい。この場合に、どの要素を返すかは検索条件
入力部17で指定しても良いし、予め返す要素を決めて
いてもよいとする。また、本実施の形態で索引情報管理
部のビット構成を図7に示したが、各ビット数は構造化
文書の論理構造や最大文書数や1要素当たりの文字数な
どによって決定しても良いし、予め決めておいてもよい
ものとする。また、本実施の形態の図5から図10では
1文書を対象とした構造化文書の全文検索の例を示した
が、複数文書に拡張した場合でも同様な処理で実現でき
る。また、全文検索部11dの全文検索方式は特に規定
はしなかったが、文字連鎖を用いた高速検索方式などを
用いても良い。
【0029】(実施の形態2)以下、本発明の第2の実
施の形態について、図面を参照しながら説明する。
【0030】図11は本発明の一実施の形態における構
造化文書管理装置を示す図である。図11において、構
造化文書管理サーバ部111は、文書構造解析部111
bを有する登録部111aと、全文検索部111dおよ
び文書構造判定部111eを有する検索部111cと、
結果作成部111fと、書誌一覧作成部111gからな
る。データ格納部112は、構造情報格納部112a
と、タグ管理情報格納部112bと、索引情報格納部1
12cと、テキスト情報格納部112dと、書誌情報格
納部112eとからなる。113は構造化文書で、11
4はDTD(文書型定義)で、115は構造化文書入力
部で、116は端末で、117は検索条件入力部で、1
18は結果出力部であり、図1の構成と異なるのは構造
化文書管理サーバ部111に書誌一覧作成部111eを
追加した点である。
【0031】以上のように構成された構造化文書管理装
置について、その動作を説明する。基本的な動作は本発
明の第1の実施の形態と同じである。第1の実施の形態
と異なる点は、登録部111aでは索引情報とタグ管理
情報とテキスト情報以外に書誌情報を作成し、作成した
書誌情報を書誌情報格納部112eに格納する。また検
索部11cが検索した結果は書誌一覧情報作成部111
gに送られ、検索結果の文書番号を書誌一覧作成部11
1gに送る。書誌一覧作成部111gは文書番号から書
誌情報格納部112eの書誌情報を取得して結果出力部
118に送る。
【0032】次に本発明の第2の実施の形態について図
12の例を用いて説明する。図12は図5の文書に対し
て文書全体から「構造化」という文字列で検索し、書誌
事項を取得する例を示す図である。
【0033】図12において121は全文検索用の索引
情報を格納する索引情報格納部で、索引情報格納部12
1には図5に示す文書のみが格納されているとする。こ
の状態において文書全体に対して全文検索部111dで
「構造化」という文字列で検索すると、122に示すよ
うに要素番号とタグIDをペアとする4つの要素を検索
することができる。これら4つの要素は文書番号1の文
書であることから、書誌情報格納部124から文書番号
1の書誌事項を抽出し、125に示す結果を出力する。
【0034】以上のように本実施の形態によれば、書誌
一覧表示に必要な情報を書誌情報格納部112eからま
とめて取得することができるので、テキスト情報格納部
112dからテキスト情報を取得する方法に比較して高
速に書誌一覧を作成することができる。
【0035】なお、本実施の形態では、結果一覧情報は
指定した複数の要素から登録部111aで作成して書誌
情報格納部112eに格納したが、別途書誌事項として
入力したデータを書誌事項として格納してもよい。ま
た、本実施の形態では、検索条件を満たした全ての結果
を出力するとしたが、検索条件を満たした全ての結果を
出力するのではなく、予め決められた件数のみ出力して
もよい。また端末から指定された件数を出力してもよ
い。
【0036】(実施の形態3)以下、本発明の第3の実
施の形態について、図面を参照しながら説明する。
【0037】図13は本発明の一実施の形態における構
造化文書管理装置の構成図である。図13において、構
造化文書管理サーバ部131は、文書構造解析部131
bおよび更新部131gを有する登録部131aと、全
文検索部131dおよび文書構造判定部131eを有す
る検索部131cと、131fは結果作成部とからな
る。データ格納部132は、構造情報格納部132a
と、タグ管理情報格納部132bと、索引情報格納部1
32cと、テキスト情報格納部132dからなる。13
3は構造化文書で、134はDTD(文書型定義)で、
135は構造化文書入力部で、136は端末で、137
は検索条件入力部で、138は結果出力部であり、図1
の構成と異なるのは登録部131aに更新部131gを
追加した点である。
【0038】上記のように構成された構造化文書管理装
置について、以下その動作を説明する。基本的な動作は
本発明の第1の実施の形態と同じである。第1の実施の
形態と異なる点は登録部131aで構造化文書を追加登
録するだけでなく、更新部131gを設けることで構造
化文書を削除、変更を行うことができる。また構造化文
書の部分的な要素の追加、削除、変更を行った場合で
も、データ格納部132に格納されているデータの該当
するデータのみの変更で索引情報などを更新することが
できる。
【0039】次に本発明の第3の実施の形態について図
14に示す例を用いて説明する。図14は図6の各要素
番号は形式上異なるが、同一要素名は同じ内容である。
【0040】図14は図5の文書例に対する構造図であ
り、部分的な要素を削除する例である。
【0041】図14において各タグの下に括弧で書いた
ものは要素番号とタグIDであり、要素番号は各要素に
対して順番に番号付けたものである。また削除対象とな
る要素は節14fと強調14gである。この2つの要素
を削除した場合でも要素番号は15と17が削除される
が要素番号はテキスト情報を取得するために用いるもの
であるため15と17が削除されてもタグ管理情報格納
部12bの全体を修正する必要はない。またタグIDの
0x34Cと0x34Dは構造化文書の構造から作成し
たものであるため削除しても索引情報格納部12cで1
4fと14gに該当する部分だけを未使用領域にするだ
けで全体を修正する必要はない。
【0042】以上のように本実施の形態によれば、構造
化文書の部分的な要素の追加、削除、変更を行った場合
でも、データ格納部132に格納されているデータに対
して更新対象となる該当部分の変更で索引情報などを更
新することができる。
【0043】なお、本実施の形態では、更新部131g
は要素単位の削除の例を示したが、要素単位の追加の場
合にも要素番号については使用していない要素番号を使
用すれば良いし、タグIDは文書構造のどこに追加した
かによって一意に決まるのでデータ格納部132の全体
に影響を与えることなない。また修正についても同様な
処理で簡単にデータ格納部132を更新することができ
る。
【0044】(実施の形態4)以下、本発明の第4の実
施の形態について、図面を参照しながら説明する。
【0045】図15は本発明の一実施の形態における構
造化文書管理装置を示す図である。図15において、構
造化文書管理サーバ部151は、文書構造解析部151
bを有する登録部151aと、全文検索部151d、文
書構造判定部151e及びランキング検索部151gを
有する検索部151cと、、結果作成部151fとから
なる。データ格納部152は、構造情報格納部152a
と、タグ管理情報格納部152bと、索引情報格納部1
52cと、テキスト情報格納部152dとからなる。1
53は構造化文書で、154はDTD(文書型定義)
で、155は構造化文書入力部で、156は端末で、1
57は検索条件入力部で、158は結果出力部であり、
図1の構成と異なるのは検索部151cにランキング検
索部151gを追加した点である。
【0046】上記のように構成された構造化文書管理装
置について、以下その動作を説明する。基本的な動作は
本発明の第1の実施の形態と同じである。第1の実施の
形態と異なる点は、検索条件入力部157で検索文字列
について重みを指定することができ、全文検索部151
dで全文検索した結果に対してランキング検索部151
gがヒットした要素に対する重みWi(iは検索文字列
の個数)と式番号に対するヒットした個数NiからW1
×N1+W2×N2+...+Wi×Niを求め各文書
に対してスコアを計算する。全ての文書に対してスコア
を計算した後にスコアでソートして、スコアの高いほう
から順番に結果を出力する。
【0047】次に本発明の第4の実施の形態について図
16に示す例を用いて説明する。図16は検索条件に重
みを付けた例を示す図である。
【0048】161は式番号で、162は検索対象のタ
グ名で、163は検索文字列で、164は重みである。
式番号1の検索対象は「題名」で検索文字列は「SGM
L」で重みは「50」であり、式番号2の検索対象は
「本文」で検索文字列は「XML」で重みは「30」で
あり、式番号3の検索対象は「付録」で検索文字列は
「HTML」で重みは「10」であり、式番号4は論理
式で式1と式2と式3の和演算を示す。この例では「題
名」から「SGML」でヒットした場合の重みが高く、
次が「本文」から「XML」でヒットした場合であり、
最後が「付録」から「HTML」でヒットした場合であ
る。
【0049】以上のように本実施の形態によれば、ラン
キング検索部151gを設けることにより、一致した要
素の重要度によって重み付けを行うことでき、重み付け
と一致した個数によってスコアを計算し、スコア順にソ
ートして検索結果を並べ替えることにより、検索条件と
の一致度の高い構造化文書を最初に端末に表示すること
ができる。
【0050】なお、本実施の形態では、検索条件に重み
付けを行った例を示したが、登録部151aが索引情報
登録部152cに索引情報を登録する際に、索引情報の
文字連鎖単位に重み付けを行ってもよく、式番号に対す
る1検索文字列の平均の重みSi(iは式番号)として
スコアは(W1+S1)×N1+(W2+S2)×N2
+...+(Wi+Si)×Niで計算してもよい。ま
た本実施の形態では、検索条件に重み付けを行った例を
示したが、検索式に対して重み付けを行うのではなく、
要素単位に重み付けを予め指定しておいてもよい。ま
た、本実施の形態で用いたスコアの計算式は一例であり
別の計算式を用いてもよい。
【0051】
【発明の効果】以上のように本発明は、構造化文書の論
理構造を利用した管理装置と全文検索方法に関するもの
で、構造化文書の構造情報を符号化して索引情報に付加
することで、構造化文書の要素を指定した全文検索を高
速に行うことができるという効果を有する。
【0052】また、論理構造を利用しない文書全体から
の検索や、論理構造の上位層または中間層を指定する場
合でも同じような検索時間で検索することができるとい
う効果を有する。
【0053】また、書誌一覧表示に必要な情報を書誌情
報格納部にまとめて格納することで、書誌一覧作成時に
は書誌情報をまとめて取得することができるので、テキ
スト情報格納部から必要な要素を複数個取得する方法に
比較して高速に書誌一覧を作成することができるという
効果を有する。
【0054】また、構造化文書の部分的な要素の追加、
削除、変更を行った場合でも、データ格納部に格納され
ているデータに対して更新対象となる該当部分の変更で
索引情報などを更新することができるという効果を有す
る。
【0055】更にランキング検索部を設けることによ
り、一致した要素の重要度によって重み付けを行うこと
でき、重み付けと一致した個数によってスコアを計算
し、スコア順にソートして検索結果を並べ替えることに
より、検索条件との一致度の高い構造化文書を最初に表
示することができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における構造化文書
管理装置の構成図
【図2】第1の実施の形態における構造化文書の論理構
造例を示す図
【図3】第1の実施の形態における構造化文書の各階層
における要素の個数を示す図
【図4】第1の実施の形態におけるタグIDのビット構
成を示す図
【図5】第1の実施の形態における構造化文書の例を示
す図
【図6】第1の実施の形態における要素番号とタグID
を示す図
【図7】第1の実施の形態における索引情報を示す図
【図8】第1の実施の形態におけるタグ管理情報を示す
【図9】第1の実施の形態における「構造化」での検索
例を示す図
【図10】第1の実施の形態における「本文」から「構
造化」で検索する例を示す図
【図11】本発明の第2の実施の形態における構造化文
書管理装置の構成図
【図12】第2の実施の形態における結果一覧の利用を
示す図
【図13】本発明の第3の実施の形態における構造化文
書管理装置の構成図
【図14】第3の実施の形態における削除例を示す図
【図15】本発明の第4の実施の形態における構造化文
書管理装置の構成図
【図16】第4の実施の形態における検索条件の例を示
す図
【図17】従来の構造化文書管理装置の構成図
【符号の説明】
11 構造化文書管理サーバ部 11a 登録部 11b 文書構造解析部 11c 検索部 11d 全文検索部 11e 文書構造判定部 11f 結果作成部 12 データ格納部 12a 構造情報格納部 12b タグ管理情報格納部 12c 索引情報格納部 12d テキスト情報格納部 13 構造化文書 14 DTD 15 構造化文書入力部 16 端末 17 検索条件入力部 18 結果出力部 21 文書 22 書誌 23 題名 24 著者 25 日付 26 本文 27 章 28 見出し 29 段落 2a 節 2b 強調 2c 下線 2d 付録 31 文書 32 書誌 33 題名 34 著者 35 日付 36 本文 37 章 38 見出し 39 段落 3a 節 3b 強調 3c 下線 3d 付録 41 各階層のビット数 42 タグ名 43 順序の2進表現 44 タグID 51 構造化文書の例 61 文書 62 書誌 63 題名 64 著者 65 日付 66 本文 67 章 68 見出し 69 段落 6a 節 6b 強調 6c 章 6d 見出し 6e 段落 6f 節 6g 節 6h 強調 6i 付録 71 文書番号 72 位置 73 タグID 74 要素番号 75 文書番号 76 位置 77 タグID 78 要素番号 81 要素番号 82 開始位置 83 バイト数 84 タグID 85 テキスト情報格納部 91 索引情報格納部 92 要素番号とタグID 93 タグ管理情報格納部 94 テキスト情報格納部 95 検索結果 101 索引情報格納部 102 要素番号とタグID 103 タグIDの判定条件 104 判定結果の要素番号とタグID 105 タグ管理情報格納部 106 テキスト情報格納部 107 検索結果 111 構造化文書管理サーバ部 111a 登録部 111b 文書構造解析部 111c 検索部 111d 全文検索部 111e 文書構造判定部 111f 結果作成部 111g 書誌一覧作成部 112 データ格納部 112a 構造情報格納部 112b タグ管理情報格納部 112c 索引情報格納部 112d テキスト情報格納部 113 構造化文書 114 DTD 115 構造化文書入力部 116 端末 117 検索条件入力部 118 結果出力部 121 索引情報格納部 122 要素番号とタグID 123 文書番号 124 書誌情報格納部 125 検索結果 131 構造化文書管理サーバ部 131a 登録部 131b 文書構造解析部 131c 検索部 131d 全文検索部 131e 文書構造判定部 131f 結果作成部 131g 更新部 132 データ格納部 132a 構造情報格納部 132b タグ管理情報格納部 132c 索引情報格納部 132d テキスト情報格納部 133 構造化文書 134 DTD 135 構造化文書入力部 136 端末 137 検索条件入力部 138 結果出力部 141 文書 142 書誌 143 題名 144 著者 145 日付 146 本文 147 章 148 見出し 149 段落 14a 節 14b 強調 14c 章 14d 見出し 14e 段落 14f 節 14g 強調 14h 節 14i 付録 151 構造化文書管理サーバ部 151a 登録部 151b 文書構造解析部 151c 検索部 151d 全文検索部 151e 文書構造判定部 151f 結果作成部 151g ランキング検索部 152 データ格納部 152a 構造情報格納部 152b タグ管理情報格納部 152c 索引情報格納部 152d テキスト情報格納部 153 構造化文書 154 DTD 155 構造化文書入力部 156 端末 157 検索条件入力部 158 結果出力部 161 式番号 162 検索対象 163 検索文字列 164 重み 171 構造化文書管理サーバ部 171a 登録部 171b SQL生成部 171c 結果作成部 172 リレーショナルデータベース 172a 構造情報格納部 172b タグ管理情報格納部 172c テキスト情報格納部 173 構造化文書 174 DTD 175 構造化文書入力部 176 端末 177 検索条件入力部 178 結果出力部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 論理的構造を持った構造化文書を管理す
    る処理を行う際に、構造化文書の検索を行うための索引
    情報と論理構造の位置を符号化した情報を格納する索引
    情報格納部を有するデータ格納部を備え、 このデータ格納部に格納された構造化文書の要素間の関
    係を解析する文書構造解析部を有し、前記索引情報と前
    記論理構造の位置を符号化した情報と前記文書構造解析
    部で解析した結果としての構造情報と構造化文書とを前
    記データ格納部に格納する登録部と、 外部から検索条件として論理構造の要素を指定できる検
    索条件入力部と、 前記検索条件入力部から送られる検索式から前記データ
    格納部の索引情報を読み込んで検索を行う全文検索部
    と、検索式で指定された論理構造の要素指定を満たして
    いるか否か判定する文書構造判定部とを有し、前記全文
    検索部と前記文書構造判定部から構成され検索結果件数
    を出力する検索部とを有する構造化文書管理サーバ部を
    備えることを特徴とする構造化文書管理装置。
  2. 【請求項2】 論理的構造を持った構造化文書を管理す
    る処理を行う際に、構造化文書の各要素間の関係を格納
    する構造情報格納部と、構造化文書のタグの位置を格納
    するタグ管理情報格納部と、構造化文書の検索を行うた
    めの索引情報と論理構造の位置を符号化した情報を格納
    する索引情報格納部と、検索結果として提示するための
    構造化文書を格納するテキスト情報格納部からなるデー
    タ格納部を備え、 このデータ格納部に格納された構造化文書の要素間の関
    係を解析する文書構造解析部を有し、前記索引情報と前
    記論理構造の位置を符号化した情報と前記文書構造解析
    部で解析した結果としての構造情報と構造化文書とを前
    記データ格納部に格納する登録部と、 外部から検索条件として論理構造の要素を指定できる検
    索条件入力部と、 前記検索条件入力部から送られる検索式から前記データ
    格納部の索引情報を読み込んで検索を行う全文検索部
    と、検索式で指定された論理構造の要素指定を満たして
    いるか否か判定する文書構造判定部とを有し、前記全文
    検索部と前記文書構造判定部から構成され検索結果件数
    を出力する検索部と、 前記検索部の検索結果を満たす構造化文書を前記データ
    格納部から読み出して検索結果を作成する結果作成部と
    からなる構造化文書管理サーバ部を備えることを特徴と
    する構造化文書管理装置。
  3. 【請求項3】 請求項1または2に記載の検索部で論理
    構造の要素を指定した検索の場合は、前記全文検索部に
    よって全文検索した結果に対してさらに索引情報格納部
    に格納されている論理構造の位置を符号化した情報を用
    いて簡単な論理演算を行うことにより検索結果を求める
    ステップと、論理構造の要素を指定しない検索の場合
    は、前記索引情報格納部から読み出した索引情報に対し
    て全文検索することで検索結果を求めるステップとから
    なる構造化文書検索方法。
  4. 【請求項4】 前記登録部で検索結果の書誌一覧表示の
    際に使われる情報をあらかじめ前記データ格納部の書誌
    情報格納部に格納し、前記検索部で検索された文書の番
    号をもとにして前記書誌情報格納部から書誌情報を取得
    して検索結果としての書誌一覧情報を作成する書誌一覧
    作成部をさらに設けることを特徴とする請求項2記載の
    構造化文書管理装置。
  5. 【請求項5】 前記データ格納部に格納した構造化文書
    に対して、文書を追加するだけではなく、一度登録した
    文書に対して要素を削除、要素を追加、要素を変更でき
    る更新部をさらに設けることにより、データ格納部の内
    容を該当要素だけで論理構造の要素を更新することが可
    能な請求項2記載の構造化文書管理装置。
  6. 【請求項6】 請求項2記載の構造化文書管理サーバ部
    は、論理構造の要素を指定した検索処理を行う際に、論
    理構造の要素に対して重み付けを指定する検索条件入力
    部と、前記索引情報格納部から索引情報を読み出して全
    文検索すると同時に重み付けと出現頻度によってスコア
    を計算し、前記スコアによって検索された文書を並び替
    えることができるランキング検索部を有することによ
    り、重み付けの高い要素でヒットした文書を最初に端末
    に表示することを特徴とした請求項2記載の構造化文書
    管理装置。
JP11007616A 1999-01-14 1999-01-14 構造化文書管理装置及び構造化文書検索方法 Pending JP2000207409A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11007616A JP2000207409A (ja) 1999-01-14 1999-01-14 構造化文書管理装置及び構造化文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11007616A JP2000207409A (ja) 1999-01-14 1999-01-14 構造化文書管理装置及び構造化文書検索方法

Publications (1)

Publication Number Publication Date
JP2000207409A true JP2000207409A (ja) 2000-07-28

Family

ID=11670755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11007616A Pending JP2000207409A (ja) 1999-01-14 1999-01-14 構造化文書管理装置及び構造化文書検索方法

Country Status (1)

Country Link
JP (1) JP2000207409A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002202973A (ja) * 2000-10-25 2002-07-19 Matsushita Electric Ind Co Ltd 構造化文書管理装置
WO2005006192A1 (ja) * 2003-07-10 2005-01-20 Fujitsu Limited 構造化文書処理方法及び装置並びに記憶媒体
JP2005018811A (ja) * 2000-10-25 2005-01-20 Matsushita Electric Ind Co Ltd 文字列検索装置
JP2007188134A (ja) * 2006-01-11 2007-07-26 Yafoo Japan Corp 索引ファイルを用いた文書検索の方法
JP2017500632A (ja) * 2013-10-31 2017-01-05 アルカテル−ルーセント 補助情報へのアクセスを提供するための方法およびシステム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002202973A (ja) * 2000-10-25 2002-07-19 Matsushita Electric Ind Co Ltd 構造化文書管理装置
JP2005018811A (ja) * 2000-10-25 2005-01-20 Matsushita Electric Ind Co Ltd 文字列検索装置
WO2005006192A1 (ja) * 2003-07-10 2005-01-20 Fujitsu Limited 構造化文書処理方法及び装置並びに記憶媒体
EP1645961A1 (en) * 2003-07-10 2006-04-12 Fujitsu Limited Structured document processing method, device, and storage medium
EP1645961A4 (en) * 2003-07-10 2006-09-27 Fujitsu Ltd METHOD AND DEVICE FOR PROCESSING A STRUCTURED DOCUMENT, AND ASSOCIATED STORAGE MEDIUM
JP2007188134A (ja) * 2006-01-11 2007-07-26 Yafoo Japan Corp 索引ファイルを用いた文書検索の方法
JP4728125B2 (ja) * 2006-01-11 2011-07-20 ヤフー株式会社 索引ファイルを用いた文書検索の方法、索引ファイルを用いた文書検索サーバ、及び索引ファイルを用いた文書検索プログラム
JP2017500632A (ja) * 2013-10-31 2017-01-05 アルカテル−ルーセント 補助情報へのアクセスを提供するための方法およびシステム

Similar Documents

Publication Publication Date Title
US6782380B1 (en) Method and system for indexing and searching contents of extensible mark-up language (XML) documents
US7962474B2 (en) Parent-child query indexing for XML databases
US6826567B2 (en) Registration method and search method for structured documents
US7739257B2 (en) Search engine
US6738759B1 (en) System and method for performing similarity searching using pointer optimization
US8370328B2 (en) System and method for creating and maintaining a database of disambiguated entity mentions and relations from a corpus of electronic documents
US6965900B2 (en) Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US7444325B2 (en) Method and system for information extraction
US7516125B2 (en) Processor for fast contextual searching
US7680783B2 (en) Configurable search strategy
JP4688111B2 (ja) 情報処理装置、データベース・システム、情報処理方法、およびプログラム
KR101646754B1 (ko) 모바일 시멘틱 검색 장치 및 그 방법
US20030033275A1 (en) Combined database index of unstructured and structured columns
JP2001167087A (ja) 構造化文書検索装置,構造化文書検索方法,構造化文書検索用プログラム記録媒体および構造化文書検索用インデックス作成方法
US20120265778A1 (en) Fuzzy searching in a geocoding application
US20040221229A1 (en) Data structures related to documents, and querying such data structures
JPWO2009063925A1 (ja) 文書管理・検索システムおよび文書の管理・検索方法
JPH11110413A (ja) データベース検索結果を生成するための方法および装置
US6691103B1 (en) Method for searching a database, search engine system for searching a database, and method of providing a key table for use by a search engine for a database
JP2008269643A (ja) データベース・システムでデータを編成し、問合せを処理する方法、およびそのような方法を実施するためのデータベース・システムおよびソフトウェア製品
JP2000207409A (ja) 構造化文書管理装置及び構造化文書検索方法
JPH0844771A (ja) 情報検索装置
JP4439497B2 (ja) 検索処理装置及びプログラム
US8745035B1 (en) Multistage pipeline for feeding joined tables to a search system
JP2002202973A (ja) 構造化文書管理装置