JPH1153400A - 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体 - Google Patents

構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体

Info

Publication number
JPH1153400A
JPH1153400A JP9220233A JP22023397A JPH1153400A JP H1153400 A JPH1153400 A JP H1153400A JP 9220233 A JP9220233 A JP 9220233A JP 22023397 A JP22023397 A JP 22023397A JP H1153400 A JPH1153400 A JP H1153400A
Authority
JP
Japan
Prior art keywords
document
zone
search
keyword
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9220233A
Other languages
English (en)
Other versions
JP2962287B2 (ja
Inventor
Susumu Akamine
享 赤峯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9220233A priority Critical patent/JP2962287B2/ja
Publication of JPH1153400A publication Critical patent/JPH1153400A/ja
Application granted granted Critical
Publication of JP2962287B2 publication Critical patent/JP2962287B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 構造化文書検索装置に於いて、ゾーン検索を
高速に行う。 【解決手段】 ゾーン情報テーブル3には、各ゾーンの
ゾーン名と、そのゾーンが取り得る位置の範囲を全検索
対象文書で共通に定めて保持している。文書内位置変換
手段2は、インデックス作成時に、ゾーン情報テーブル
3を参照して、オリジナルの文書の各ゾーンの文字列
を、ゾーン情報テーブル3によって示される位置に移動
したゾーン位置変換文書を作成する。これにより、文書
内位置から文字列がどのゾーンに存在するかの識別が可
能になる。インデックス作成手段4は、文書内位置変換
手段2により作成されたゾーン位置変換文書を対象にし
てインデックス5を作成する。キーワード検索手段6
は、キーワードを検索する際に、キーワードの出現位置
がユーザによって検索対象とすることが指示されたゾー
ンのゾーン名に対応するものだけを選択することで、ゾ
ーン検索を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、1件の文書が複数
の論理構造(ゾーン)から構成されている構造化文書を
対象にした検索技術に関し、特に、ユーザによって指定
されたゾーンのみを検索対象にして構造化文書の検索を
行う技術に関する。
【0002】
【従来の技術】近年、SGML(Standard Generalized
Markup Language)に代表される、1件の文書を複数のゾ
ーンで構成した構造化文書が頻繁に用いられるようにな
ってきている。それにつれて、構造化文書の特定ゾーン
のみを検索対象にした検索(ゾーン検索)を行うこと
が、精度の高い検索を行う上で重要な機能になってきて
いる。
【0003】ゾーン検索を行う従来の技術としては、例
えば、検索条件を「検索対象とするゾーンの開始タグと
終了タグの間にキーワードを含む文書」とし、テキスト
全体を対象にして文字列照合を行うことにより、検索条
件を満足させる文書を検索するようにしたものがある。
しかし、この方法は、テキスト全体を対象にして文字列
照合を行うので、検索時間が非常に長くなってしまう。
このような問題点を解決するため、テキストの不要部分
(検索対象とすることが指定されたゾーン以外のゾー
ン)をスキップして検索を行うようにした技術も提案さ
れている(例えば、特開平8−16600号公報)。こ
の技術によれば、文字列照合を行う範囲が少なくなるた
め、先の従来例に比較して検索時間を短くすることがで
きる。しかし、ギガバイトクラスの大規模データに対す
る検索では、不要部分をスキップすることにより文字列
照合範囲を例えば10分の1程度に縮小できたとして
も、百メガバイトクラスのテキストを対象にして文字列
照合を行うことが必要になるため、高速な検索は望めな
い。
【0004】このように、文字列照合によりゾーン検索
を行う方法では、高速な検索を行うことが難しいため、
大規模データに対する高速な検索を可能にするために作
成された全文インデックスを利用してゾーン検索を行う
ことが考えられる。全文インデックスは、キー文字列が
キー情報として格納されたキー情報部と、キー情報部に
格納された各キー文字列それぞれについてそのキー文字
列が存在する文書の文書識別子,文書内位置が位置情報
として格納された位置情報部とから構成されるものであ
り、このような全文インデックスを利用してゾーン検索
を行う方法としては、下記(A)〜(C)の3つの方法
が考えられる。
【0005】 (A)ゾーンに関する情報をキー情報部に持たせる方
法。 (B)ゾーンに関する情報を位置情報部に持たせる方
法。 (C)全文インデックスとは別のゾーンに関するインデ
ックスを作成する方法。
【0006】(A)の方法では、全文インデックスのキ
ー情報部に、キー文字列とそのキー文字列が存在するゾ
ーンのゾーン名とのペアからなるキー情報を格納してお
く。その際、複数のゾーンに存在するキー文字列につい
ては、各ゾーン毎にキー文字列とゾーン名との対からな
るキー情報を格納する。位置情報部には、各キーワード
毎に該当する文書の文書識別子,文書内位置が格納され
る。そして、検索時には、ユーザによって指定されたゾ
ーン名とキーワードとをキーにして全文インデックスを
検索することにより、上記ゾーン名のゾーンに、上記キ
ーワードを含む文書を探し出すようにしている。
【0007】(B)の方法では、位置情報部に格納する
位置情報に、位置情報として文書識別子,文書内位置の
他にゾーン名も併せ持たせておく。そして、検索時に
は、先ず、ユーザによって指定されたキーワードをキー
にして全文インデックスを検索することにより、上記キ
ーワードを含む文書の位置情報を全て求め、その後、上
記位置情報の中からユーザによって指定されたゾーン名
を含む位置情報を選択することにより、ゾーン検索を行
うようにしている。
【0008】(C)の方法では、全文インデックスとは
別に、検索対象とする全ての文書それぞれの、各ゾーン
の開始位置,終了位置が格納されたゾーン用インデック
スを作成しておく。そして、検索時には、先ず、全文イ
ンデックスを検索することにより、ユーザが指定したキ
ーワードを含む文書の位置情報を取得する。その後、ゾ
ーン用インデックスを検索し、上記文書の、ユーザによ
って指定されたゾーンの開始位置,終了位置を取得す
る。更に、位置情報中の文書内位置と取得した上記ゾー
ンの開始位置,終了位置とに基づいて、上記文書のユー
ザによって指定されたゾーン内に、ユーザによって指定
されたキーワードが存在するか否かをチェックすること
により、ゾーン検索を行う(例えば、特開平8−314
966号公報)。
【0009】
【発明が解決しようとする課題】しかしながら、上述し
た(A)の方法は、ゾーンの数に比例してキー情報数が
多くなるため、全文インデックスのサイズが大きくなる
という問題がある。更に、全文インデックスのサイズが
大きくなることにより、検索速度が低下するという問題
もある。
【0010】また、(B)の方法は、全文インデックス
の位置情報部の容量が多くなるため、全文インデックス
のサイズが大きくなるという問題がある。更に、位置情
報部からの読み出し量が多くなるため、検索速度が低下
するという問題もある。
【0011】また、(C)の方法は、検索対象とする全
ての文書それぞれの、各ゾーンの開始位置,終了位置を
格納したゾーン用インデックスが必要になるため、イン
デックスサイズが大きくなるという問題がある。更に、
全文インデックスを検索することにより探し出した各該
当文書について、ゾーン用インデックスを検索し、ユー
ザが指定したキーワードが、ユーザが指定したゾーン内
に存在するか否かをチェックする必要があるため、この
処理がオーバーヘッドになって検索速度が低下してしま
うという問題が生じる。
【0012】そこで、本発明の目的は、全文インデック
スを利用したゾーン検索に於いて、インデックスサイズ
を小さくし、且つ検索速度を高速化することにある。
【0013】
【課題を解決するための手段】本発明の構造化文書検索
装置は、上記目的を達成するため、複数のゾーンから構
成される構造化文書が複数格納された文書格納手段と、
ゾーン位置変換文書に於ける各ゾーンの位置を示す情報
が格納されたゾーン情報テーブルと、前記文書格納手段
に格納されている構造化文書中の各ゾーンを前記ゾーン
情報テーブルの内容によって示される位置に移動させた
ゾーン位置変換文書を作成する文書内位置変換手段と、
該文書内位置変換手段によって作成されたゾーン位置変
換文書に基づいて、キー文字列と、そのキー文字列が存
在する構造化文書の文書識別子と、そのキー文字列のゾ
ーン位置変換文書に於ける文書内位置とが対応して格納
されたインデックスを作成するインデックス作成手段
と、検索対象にするゾーンのゾーン名とキーワードとを
含む検索条件式を受け付ける検索条件入力手段と、該検
索条件入力手段が受け付けた検索条件式中のキーワード
をキーにして前記インデックスを検索し、その結果得ら
れた前記キーワードが存在する構造化文書の文書識別
子,文書内位置と前記ゾーン情報テーブルの内容とに基
づいて、前記検索条件式中のゾーン名によって示される
ゾーンに前記キーワードが存在する構造化文書の文書識
別子を求めるキーワード検索手段とを備えたものであ
る。
【0014】この構成に於いては、ゾーン検索を行うた
めの準備として、文書内位置変換手段が、文書格納手段
に格納されている構造化文書中の各ゾーンをゾーン情報
テーブルの内容によって示される位置に移動させたゾー
ン位置変換文書を作成し、インデックス作成手段が、文
書内位置変換手段によって作成されたゾーン位置変換文
書に基づいて、キー文字列と、そのキー文字列が存在す
る構造化文書の文書識別子と、そのキー文字列のゾーン
位置変換文書に於ける文書内位置とが対応して格納され
たインデックスを作成する。
【0015】そして、ゾーン検索時に、ユーザが検索対
象にするゾーンのゾーン名とキーワードとを含む検索条
件式を入力すると、検索条件入力手段がそれを受け付
け、キーワード検索手段が上記検索条件式中のキーワー
ドをキーにしてインデックスを検索し、その結果得られ
た前記キーワードが存在する構造化文書の文書識別子,
文書内位置とゾーン情報テーブルの内容とに基づいて、
上記検索条件式中のゾーン名によって示されるゾーンに
前記キーワードが存在する構造化文書の文書識別子を求
める。
【0016】
【発明の実施の形態】次に本発明の実施の形態について
図面を参照して詳細に説明する。
【0017】図1は本発明の実施例のブロック図であ
り、文書格納手段1と、文書内位置変換手段2と、ゾー
ン情報テーブル3と、インデックス作成手段4と、イン
デックス5と、キーワード検索手段6と、検索条件入力
手段7と、キーワード検索結果格納手段8と、論理条件
解析手段9と、検索結果出力手段10とから構成されて
いる。
【0018】文書格納手段1には、検索対象となる複数
の構造化文書が格納されている。図2は文書格納手段1
の内容例を示した図である。本実施例では、説明を簡単
にするため、文書格納手段1には、文書識別子ID1,
ID2の2つの構造化文書21,22が格納されている
とする。各構造化文書21,22は、それぞれゾーン名
「全体」,「発明の名称」,「要約」,「目的」,「構
成」の各ゾーンから構成され、各ゾーンは、ゾーン開始
タグ,ゾーン終了タグ等により分割されている。
【0019】ゾーン情報テーブル3には、文書内位置変
換手段2で作成するゾーン位置変換文書に於ける各ゾー
ンの位置を示す情報が格納されている。図3はゾーン情
報テーブル3の内容例を示した図であり、ゾーン名と、
そのゾーン名のゾーンをゾーン位置変換文書内のどの位
置に配置するのかを示すゾーン位置情報とが格納されて
いる。図3の例は、ゾーン名「全体」,「発明の名
称」,「要約」,「目的」,「構成」のゾーンを、それ
ぞれゾーン位置変換文書内の「第1文字目〜第2000
文字目」,「第1文字目〜第500文字目」,「第50
1文字目〜第2000文字目」,「第501文字目〜第
1000文字目」,「第1001文字目〜第2000文
字目」に配置することを示している。
【0020】文書内位置変換手段2は、ゾーン情報テー
ブル3を参照し、文書格納手段1に格納されている構造
化文書に対して、各ゾーンの文字列をゾーン情報テーブ
ル3中のゾーン位置情報によって示される位置に移動し
たゾーン位置変換文書を作成する機能を有する。従っ
て、各構造化文書では異なる位置に存在していた各ゾー
ンの文字列は、文書内位置変換手段2によって作成され
たゾーン位置変換文書では、同じ範囲に存在することに
なる。
【0021】インデックス作成手段4は、文書内位置変
換手段2で作成された各構造化文書に対応するゾーン位
置変換文書に基づいてインデックス5を作成する機能を
有する。インデックス5は、図4に示すように、キー情
報部51と、位置情報部52とを有している。キー情報
部51にはN文字組や単語等のキー情報が格納され、位
置情報部51には、キー情報が存在する構造化文書の文
書識別子と、そのキー情報が存在するゾーン位置変換文
書内の位置とが格納される。ここで、位置情報「i−
j」は、文書識別子IDiの構造化文書に対応するゾー
ン位置変換文書の第j文字目を表している。従って、図
4の例の第1番目のエリアは、文字「文」が文書識別子
ID1の構造化文書21中に存在し、それと対応するゾ
ーン位置変換文書21’では第1文字目,第504文字
目に存在することと、文字「文」が文書識別子ID2の
構造化文書22中に存在し、それと対応するゾーン位置
変換文書22’では第1文字目,第501文字目に存在
することを表している。
【0022】検索条件入力手段7は、ユーザによって入
力された検索条件式を受け付ける機能,論理条件解析手
段9を利用して検索条件式を検索項目に分解する機能,
検索項目をキーワード検索手段6に渡す機能等を有す
る。ユーザが入力する検索条件式は、検索対象とするゾ
ーン名とキーワードとのペアからなる検索項目を1つ或
いは複数含むものであり、検索項目を複数含む場合は、
各検索項目は、AND,OR等の論理演算記号によって
結合される。図5は、ユーザが入力する検索条件式の1
例を示した図であり、2つの検索項目が論理演算記号A
NDによって結合されている。この検索条件式は、ゾー
ン名「発明の名称」のゾーンにキーワード「検索」を含
み、且つゾーン名「要約」のゾーンにキーワード「イン
デックス」を含む構造化文書の検索を指示するものであ
る。
【0023】キーワード検索手段6は、検索条件入力手
段7から渡された各検索項目中のキーワードをキーにし
てインデックス5を検索することにより、各検索項目そ
れぞれについて、その検索項目中のキーワードが現れる
文書の文書識別子,文書内位置を全て求める機能や、各
検索項目それぞれについて、ゾーン情報テーブル3を参
照して検索項目に含まれているゾーン名によって示され
るゾーンのゾーン位置を求める機能や、各検索項目それ
ぞれについて、その検索結果(文書識別子,文書内位
置)の中に上記ゾーン位置内の位置を示す検索結果があ
れば、その検索結果中の文書識別子とそれが何番目の検
索項目についてのものなのかを示す情報とをペアにして
キーワード検索結果格納手段8に格納する機能等を有す
る。
【0024】論理条件解析手段9は、キーワード検索結
果格納手段8に格納されている検索項目毎の検索結果
(文書識別子)と、検索条件入力手段7が受け付けた検
索条件式中の各検索項目を結合する論理演算記号とに基
づいて、上記検索条件式を満足させる構造化文書の文書
識別子を求める機能を有する。
【0025】検索結果出力手段10は、論理条件解析手
段9が求めた文書識別子を有する構造化文書を文書格納
手段1から取り出し、プリンタ,CRT等の出力装置
(図示せず)に出力する機能を有する。
【0026】図6は文書内位置変換手段2の処理例を示
す流れ図、図7はインデックス作成手段4の処理例を示
す流れ図、図8は検索条件入力手段7の処理例を示す流
れ図、図9は検索条件入力手段7から検索条件式が渡さ
れたときの論理条件解析手段9の処理例を示す流れ図、
図10はキーワード検索手段6から終了通知が送られて
きたときの論理条件解析手段9の処理例を示す流れ図、
図11はキーワード検索手段6の処理例を示す流れ図で
あり、以下各図を参照して本実施例の動作を説明する。
【0027】先ず、インデックス5の作成時の動作を説
明する。
【0028】インデックス5の作成時、文書内位置変換
手段2は、図6の流れ図に示すように、文書格納手段1
から未処理の構造化文書を1つ入力する(S61)。そ
の後、文書内位置変換手段2は、入力した構造化文書の
各ゾーン中の文字列をゾーン情報テーブル3中のゾーン
位置情報によって示される位置に移動させたゾーン位置
変換文書を作成し(S63)、作成したゾーン位置変換
文書とS61で入力した構造化文書の文書識別子とをイ
ンデックス作成手段4に渡す(S64)。以上の処理を
未処理の構造化文書がなくなるまで(S62がNO)、
繰り返し行う。
【0029】本実施例の場合、文書格納手段1には図2
に示すような文書識別子ID1,ID2の構造化文書2
1,22が格納され、更に、ゾーン情報テーブル3の内
容は図3に示すものになっているので、文書内位置変換
手段2は、図12に示すようなゾーン位置変換文書2
1’,22’を順次作成してインデックス作成手段4に
渡すことになる。
【0030】つまり、文書内位置変換手段2は、図3に
示したゾーン情報テーブル3の内容を参照し、その内容
に従って、構造化文書21のゾーン「発明の名称」中に
存在する文字列「文書検索装置」を第1文字目から始ま
る位置に移動させ、ゾーン「目的」中に存在する文字列
「高速に文書を検索する。」を第501文字目から始ま
る位置に移動させ、ゾーン「構成」中に存在する文字列
「インデックス作成手段と……。」を第1001文字目
から始まる位置に移動させた図12に示すようなゾーン
位置変換文書21’を作成して文書識別子ID1と共に
インデックス作成手段4に渡す。同様に、文書内位置変
換手段2は、構造化文書22のゾーン「発明の名称」中
に存在する文字列「文書処理装置」を第1文字目から始
まる位置に移動させ、ゾーン「目的」中に存在する文字
列「文書を……。」を第501文字目から始まる位置に
移動させ、ゾーン「構成」中に存在する文字列「検索手
段と……。」を第1001文字目から始まる位置に移動
させた図12に示すようなゾーン位置変換文書22’を
作成して文書識別子ID2と共にインデックス作成手段
4に渡す。
【0031】図12から判るように、変換処理後の各ゾ
ーン位置変換文書21’,22’は、ゾーン名「全
体」,「発明の名称」,「要約」,「目的」,「構成」
の各ゾーンが、ゾーン情報テーブル3中のゾーン位置情
報によって示される位置に必ず存在することになる。
【0032】インデックス作成手段4は、文書内位置変
換手段2からゾーン位置変換文書,文書識別子が渡され
ると、図7の流れ図に示すように、ゾーン位置変換文書
の先頭位置に注目する(S71)。そして注目位置に、
インデックス5のキー情報部51に格納すべき文字が存
在するか否かを判断する(S72)。格納すべき文字か
否かの判断は、例えば、空白文字,句読点等、格納する
必要のない文字を予め定めておき、注目位置に存在する
文字がそれ以外の文字であるか否かを判断することによ
り行う。
【0033】そして、S72に於いて、格納すべき文字
が注目位置に存在すると判断した場合(S72がYE
S)は、その文字が既に格納済みか否かを判断する(S
73)。格納済みでないと判断した場合は、注目位置に
存在する文字をインデックス5のキー情報部51に格納
すると共に、文書内位置変換手段2から渡された文書識
別子と文書内位置(現在の注目位置)とからなる位置情
報を位置情報部52に格納する(S73がNO,S7
4)。これに対して、格納済みであると判断した場合
は、位置情報部52に文書内位置変換手段2から渡され
た文書識別子と文書内位置とからなる位置情報を位置情
報部52に格納する(S73がYES,S75)。
【0034】S74,75の処理が終了すると、インデ
ックス作成手段4は、注目位置を次の位置に移し(S7
6)、前述したと同様の処理を行う。また、S72で格
納すべき文字が注目位置に存在しないと判断した場合
も、S76の処理を行う。
【0035】以上の処理を文書内位置変換手段2から渡
されたゾーン位置変換文書の終わりまで(S77がYE
S)、繰り返し行う。
【0036】本実施例の場合、インデックス作成手段4
には、図12に示すようなゾーン位置変換文書21’,
文書識別子ID1と、ゾーン位置変換文書22’,文書
識別子ID2とが渡されるので、インデックス作成手段
4に於いては、次のような処理が行われることになる。
【0037】文書内位置変換手段2からゾーン位置変換
文書21’と文書識別子ID1とが渡された場合は、イ
ンデックス作成手段4は、先頭位置に注目したときに、
文字「文」をキー情報部51に格納し、位置情報「1−
1」を位置情報部52に格納する(S71,S74)。
また、インデックス作成手段4は、ゾーン位置変換文書
21’中の次に位置(第2文字目)に注目したときは、
注目位置に存在する文字「書」をキー情報部51に格納
し、位置情報「1−2」を位置情報部52に格納する
(S74)。また、例えば、注目位置をゾーン位置変換
文書21’の第504文字目にしたときは、注目位置に
存在する文字「文」は既に格納済みであるので、位置情
報部52中の上記文字「文」に対応するエントリに位置
情報「1−504」を格納することになる(S75)。
このような処理を、ゾーン位置変換文書21’の終わり
まで行う。ゾーン位置変換文書22’と文書IDとが渡
された場合も、インデックス作成手段4は前述したと同
様の処理を行う。この結果、インデックス5の内容は、
図4に示すものとなる。
【0038】尚、ここでは、説明を簡単に行うため、キ
ー情報部51に格納する文字列の文字長を1文字とした
が、これに限られるものではなく、文字長が2以上のN
文字組でも、単語であっても構わない。
【0039】次に、ゾーン検索時の動作について説明す
る。
【0040】ゾーン検索を行う場合、ユーザは、検索対
象とするゾーンのゾーン名とキーワードとのペアからな
る検索項目を1つ或いは複数含む検索条件式を検索条件
入力手段7に入力する。前述したように、検索項目を複
数含む検索条件式の場合は、各検索項目は、AND,O
R等の論理演算記号によって結合されている。
【0041】今、例えば、ユーザが検索条件式として、
図5に示した検索条件式「(発明の名称=検索)AND
(要約=インデックス)」を検索条件入力手段7に入力
したとする。この検索条件式は、前述したように、ゾー
ン名「発明の名称」の部分に文字列「検索」が現れ、且
つゾーン名「要約」の部分に文字列「インデックス」が
現れる構造化文書の検索を指示するものである。
【0042】ユーザが検索条件式「(発明の名称=検
索)AND(要約=インデックス)」を入力すると、検
索条件入力手段7は、図8の流れ図に示すように、それ
を受け付け、論理条件解析手段9に渡す(S81,S8
2)。
【0043】論理条件解析手段9は、検索条件式「(発
明の名称=検索)AND(要約=インデックス)」が渡
されると、図9の流れ図に示すように、検索条件式を第
1番目の検索項目「発明の名称=検索」と、第2番目の
検索項目「要約=インデックス」との2つの検索項目に
分割し、それらを検索条件入力手段7に返す(S91,
S92)。
【0044】検索条件入力手段7は、論理条件解析手段
9から第1番目,第2番目の検索項目「発明の名称=検
索」,「要約=インデックス」を受け取ると、それらを
キーワード検索手段6に渡す(図8のS83,S8
4)。
【0045】キーワード検索手段6は、検索条件入力手
段7から第1番目,第2番目の検索項目「発明の名称=
検索」,「要約=インデックス」が渡されると、図11
の流れ図に示すように、その内の1つに注目する(S1
11)。
【0046】今、例えば、第1番目の検索項目「発明の
名称=検索」に注目したとすると、キーワード検索手段
6は、先ず、第1番目の検索項目「発明の名称=検索」
中のキーワード「検索」をキーにしてインデックス5を
検索することにより、キーワード「検索」が現れるゾー
ン位置変換文書の文書識別子と、文書内位置とを求める
(S113)。本実施例の場合、インデックス5の内容
は、図5に示すものになっているので、S113を行う
ことにより、キーワード「検索」が、文書識別子ID1
のゾーン位置変換文書21’の第3文字目〜第4文字目
と、文書識別子がID2のゾーン位置変換文書22’の
第1001文字目〜第1002文字目に現れることが求
められる。
【0047】その後、キーワード検索手段6は、ゾーン
情報テーブル3を参照し、第1番目の検索項目中のゾー
ン名「発明の名称」によって示されるゾーンのゾーン位
置を求める(S114)。本実施例の場合、「第1文字
目〜第500文字目」がゾーン位置として求められる
(図3参照)。
【0048】次いで、キーワード検索手段6は、S11
3の検索結果の中に、S114で求めたゾーン位置内の
位置を示すものがあれば、その検索結果中の文書識別子
とそれが第1番目の検索項目についてのものであること
を示す情報とをペアにしてキーワード検索結果格納手段
8に格納する(S115)。この例では、S113の検
索結果が、「文書識別子ID1のゾーン位置変換文書2
1’の第3文字目〜第4文字目」,「文書識別子がID
2のゾーン位置変換文書22’の第1001文字目〜第
1002文字目」で、S114で求めたゾーン位置が
「第1文字目〜第500文字目」であるので、キーワー
ド検索手段6は、文書識別子ID1とそれが第1番目の
検索項目についてのものであることを示す情報とをペア
にしてキーワード検索結果格納手段8に格納することに
なる。
【0049】その後、キーワード検索手段6は、第2番
目の検索項目「要約=インデックス」に注目し(S11
1)、前述したと同様の処理を行う(S113〜S11
5)。第2番目の検索項目の場合、キーワード「インデ
ックス」は、文書識別子ID1のゾーン位置変換文書2
1’の第1001文字目〜第1006文字目に現れ、ゾ
ーン名「要約」のゾーンのゾーン位置は、「第501文
字目〜第2000文字目」であるので、キーワード検索
手段6は、文書識別子ID1とそれが第2番目の検索項
目についてのものであることを示す情報とをペアにして
キーワード検索結果格納手段8に格納する。
【0050】そして、検索条件入力手段7から渡された
全ての検索項目について上述した処理を行うと(S11
2がNO)、キーワード検索手段6は、論理条件解析手
段9に対して終了通知を送る(S116)。
【0051】論理条件解析手段9は、キーワード検索手
段6から終了通知が送られてくると、図10の流れ図に
示すように、キーワード検索結果格納手段8に格納され
ている各検索項目についての検索結果と、検索条件入力
手段7から渡された検索条件式中の論理演算記号とに基
づいて、検索条件式を満足させる構造化文書の文書識別
子を求め、それを検索結果出力手段10に渡す(S10
1,S102)。
【0052】この例の場合、キーワード検索結果格納手
段8には、第1番目,第2番目の検索項目の検索結果と
してそれぞれ文書識別子「ID1」,「ID1」が格納
され、検索条件式中の第1番目の検索項目と第2番目の
検索項目とを結合する論理演算式が「AND」であるこ
とから、両方の検索結果中に存在する文書識別子「ID
1」を検索結果出力手段10に渡すことになる。
【0053】検索結果出力手段10は、文書識別子「I
D1」が渡されると、文書格納手段1から文書識別子が
「ID1」の構造化文書21を読み込み、プリンタ,C
RT等の出力装置(図示せず)に出力する。
【0054】図13は、図1に示した構造化文書検索装
置のハードウェア構成の一例を示したブロック図であ
り、コンピュータ131と、記録媒体132と、記憶装
置133とから構成されている。記録媒体132は、磁
気ディスク,半導体メモリ,その他の記録媒体であり、
コンピュータ131を構造化文書検索装置として機能さ
せるためのプログラムが記録されている。
【0055】記録媒体132に記録されているプログラ
ムは、コンピュータ131によって読み込まれ、コンピ
ュータ131の動作を制御することにより、コンピュー
タ131上に図1に示した文書内位置変換手段2,イン
デックス作成手段4,キーワード検索手段6,検索条件
入力手段7,論理条件解析手段9,検索結果出力手段1
0を実現する。尚、文書格納手段1,ゾーン情報テーブ
ル3,インデックス5,キーワード検索結果格納手段8
は、記憶装置133上に構成される。
【0056】
【発明の効果】以上説明したように、本発明の構造化文
書検索装置によれば、従来の全文インデックスを利用し
てゾーン検索を行う従来の技術に比較してインデックス
サイズを小さくすることができ、且つ検索速度を高速化
することができる。その理由は、ゾーンの位置情報が全
ての構造化文書で共通になるような形でインデックスを
作成するため、検索時に、非常に小規模なゾーン情報テ
ーブルを参照するだけでゾーン検索を行うことができる
からである。
【図面の簡単な説明】
【図1】本発明の実施例のブロック図である。
【図2】文書格納手段1の内容例を示す図である。
【図3】ゾーン情報テーブル3の内容例を示す図であ
る。
【図4】インデックス5の内容例を示す図である。
【図5】検索条件式の一例を示す図である。
【図6】文書内位置変換手段2の処理例を示す流れ図で
ある。
【図7】インデックス作成手段4の処理例を示す流れ図
である。
【図8】検索条件入力手段7の処理例を示す流れ図であ
る。
【図9】検索条件入力手段7から検索条件式が渡された
ときの論理条件解析手段9の処理例を示す流れ図であ
る。
【図10】キーワード検索手段6から終了通知が送られ
てきたときの論理条件解析手段9の処理例を示す流れ図
である。
【図11】キーワード検索手段6の処理例を示す流れ図
である。
【図12】文書内位置変換手段2で作成されたゾーン位
置変換文書の一例を示す図である。
【図13】図1に示した構造化文書検索装置のハードウ
ェア構成の一例を示すブロック図である。
【符号の説明】
1…文書格納手段 2…文書内位置変換手段 3…ゾーン情報テーブル 4…インデックス作成手段 5…インデックス 6…キーワード検索手段 7…検索条件入力手段 8…キーワード検索結果格納手段 9…論理条件解析手段 10…検索結果出力手段 21,22…構造化文書 21’,22’…ゾーン位置変換文書 51…キー情報部 52…位置情報部 131…コンピュータ 132…記録媒体 133…記憶装置

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 複数のゾーンから構成される構造化文書
    が複数格納された文書格納手段と、 ゾーン位置変換文書に於ける各ゾーンの位置を示す情報
    が格納されたゾーン情報テーブルと、 前記文書格納手段に格納されている構造化文書中の各ゾ
    ーンを前記ゾーン情報テーブルの内容によって示される
    位置に移動させたゾーン位置変換文書を作成する文書内
    位置変換手段と、 該文書内位置変換手段によって作成されたゾーン位置変
    換文書に基づいて、キー文字列と、そのキー文字列が存
    在する構造化文書の文書識別子と、そのキー文字列のゾ
    ーン位置変換文書に於ける文書内位置とが対応して格納
    されたインデックスを作成するインデックス作成手段
    と、 検索対象にするゾーンのゾーン名とキーワードとを含む
    検索条件式を受け付ける検索条件入力手段と、 該検索条件入力手段が受け付けた検索条件式中のキーワ
    ードをキーにして前記インデックスを検索し、その結果
    得られた前記キーワードが存在する構造化文書の文書識
    別子,文書内位置と、前記ゾーン情報テーブルの内容と
    に基づいて、前記検索条件式中のゾーン名によって示さ
    れるゾーンに前記キーワードが存在する構造化文書の文
    書識別子を求めるキーワード検索手段とを備えたことを
    特徴とする構造化文書検索装置。
  2. 【請求項2】 前記ゾーン情報テーブルには、ゾーン名
    と、そのゾーン名のゾーンをゾーン位置変換文書内のど
    の位置に配置するのかを示すゾーン位置情報とが対応し
    て格納されていることを特徴とする請求項1記載の構造
    化文書検索装置。
  3. 【請求項3】 前記検索条件式は、検索対象にするゾー
    ンのゾーン名とキーワードとから構成される検索項目が
    論理演算記号によって複数結合された形式を有し、 前記キーワード検索手段は、前記検索条件入力手段が受
    け付けた検索条件式の各検索項目それぞれについて、そ
    の検索項目中のキーワードをキーにして前記インデック
    スを検索し、その検索結果と、前記ゾーン情報テーブル
    の内容とに基づいて、前記検索項目中のゾーン名によっ
    て示されるゾーンに前記キーワードが存在する構造化文
    書の文書識別子を求める構成を有し、且つ、 前記キーワード検索手段が求めた各検索項目毎の文書識
    別子と、前記検索条件入力手段が受け付けた検索条件式
    中の各検索項目を結合する論理演算記号とに基づいて、
    前記検索条件式を満足させる構造化文書の文書識別子を
    求める論理条件解析手段を備えたことを特徴とする請求
    項2記載の構造化文書検索装置。
  4. 【請求項4】 前記論理条件解析手段が求めた文書識別
    子の構造化文書を前記文書格納手段から読み出して出力
    する検索結果出力手段を備えたことを特徴とする請求項
    3記載の構造化文書検索装置。
  5. 【請求項5】 複数のゾーンから構成される構造化文書
    が複数格納された文書格納手段と、ゾーン位置変換文書
    に於ける各ゾーンの位置を示すゾーン位置情報が格納さ
    れたゾーン情報テーブルとを備えたコンピュータを、 前記文書格納手段に格納されている構造化文書中の各ゾ
    ーンを前記ゾーン情報テーブルの内容によって示される
    位置に移動させたゾーン位置変換文書を作成する文書内
    位置変換手段、 該文書内位置変換手段によって作成されたゾーン位置変
    換文書に基づいて、キー文字列と、そのキー文字列が存
    在する構造化文書の文書識別子と、そのキー文字列の文
    書内位置とが対応して格納されたインデックスを作成す
    るインデックス作成手段、 検索対象にするゾーンのゾーン名とキーワードとを含む
    検索条件式を受け付ける検索条件入力手段、 該検索条件入力手段が受け付けた検索条件式中のキーワ
    ードをキーにして前記インデックスを検索し、その結果
    得られた前記キーワードを含む文書の文書識別子,文書
    内位置と、前記ゾーン情報テーブルの内容とに基づい
    て、前記検索条件式中のゾーン名によって示されるゾー
    ンに前記キーワードが存在する構造化文書の文書識別子
    を求めるキーワード検索手段として機能させるためのプ
    ログラムを記録した機械読み取り可能な記録媒体。
JP9220233A 1997-07-31 1997-07-31 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体 Expired - Fee Related JP2962287B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9220233A JP2962287B2 (ja) 1997-07-31 1997-07-31 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9220233A JP2962287B2 (ja) 1997-07-31 1997-07-31 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPH1153400A true JPH1153400A (ja) 1999-02-26
JP2962287B2 JP2962287B2 (ja) 1999-10-12

Family

ID=16747981

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9220233A Expired - Fee Related JP2962287B2 (ja) 1997-07-31 1997-07-31 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2962287B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249943A (ja) * 2000-03-03 2001-09-14 Ricoh Co Ltd 文書検索システム、文書検索方法およびその方法を実施するためのプログラムを記憶した記憶媒体
US6853992B2 (en) 1999-12-14 2005-02-08 Fujitsu Limited Structured-document search apparatus and method, recording medium storing structured-document searching program, and method of creating indexes for searching structured documents
US7246107B2 (en) 2003-01-10 2007-07-17 International Business Machines Corporation System and method for creating a data file for use in searching a database
JP2014215982A (ja) * 2013-04-30 2014-11-17 富士通株式会社 検索制御装置、検索制御方法、生成装置および生成方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6853992B2 (en) 1999-12-14 2005-02-08 Fujitsu Limited Structured-document search apparatus and method, recording medium storing structured-document searching program, and method of creating indexes for searching structured documents
JP2001249943A (ja) * 2000-03-03 2001-09-14 Ricoh Co Ltd 文書検索システム、文書検索方法およびその方法を実施するためのプログラムを記憶した記憶媒体
US7246107B2 (en) 2003-01-10 2007-07-17 International Business Machines Corporation System and method for creating a data file for use in searching a database
JP2014215982A (ja) * 2013-04-30 2014-11-17 富士通株式会社 検索制御装置、検索制御方法、生成装置および生成方法
US9576008B2 (en) 2013-04-30 2017-02-21 Fujitsu Limited System and method for search indexing
US10303672B2 (en) 2013-04-30 2019-05-28 Fujitsu Limited System and method for search indexing

Also Published As

Publication number Publication date
JP2962287B2 (ja) 1999-10-12

Similar Documents

Publication Publication Date Title
KR100372582B1 (ko) 데이터처리방법 및 시스템 및 그 처리프로그램을 기록한계산기판독이 가능한 기록매체
US6377946B1 (en) Document search method and apparatus and portable medium used therefor
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
JP4365162B2 (ja) 構造化文書のデータを検索する装置および方法
US20060080361A1 (en) Document information processing apparatus, document information processing method, and document information processing program
JPH04102171A (ja) 文書処理システム及び文書処理方法
JP4247108B2 (ja) 構造化文書検索方法、構造化文書検索装置、及びプログラム
JPH0484271A (ja) 文書内情報検索装置
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3612769B2 (ja) 情報検索装置および情報検索方法
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JP2962287B2 (ja) 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体
JP2002202973A (ja) 構造化文書管理装置
JP3427679B2 (ja) 単語検索装置及び単語検索プログラムを記録したコンピュータ読取り可能な記録媒体
JP2001060164A (ja) データ処理方法およびデータ処理システム並びにその実施装置及びその処理プログラムを記録した記録媒体
US20230409620A1 (en) Non-transitory computer-readable recording medium storing information processing program, information processing method, information processing device, and information processing system
JP3239845B2 (ja) 全文検索装置および方法
JPH1011424A (ja) 文章作成支援装置
JP2005018811A (ja) 文字列検索装置
JP4334450B2 (ja) 構造化文書検索装置及び構造化文書検索方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
CN117743640A (zh) Xml文档的查询方法、装置、介质和计算机设备
JP2001052022A (ja) データ集計・参照型検索システム
JPH11161726A (ja) 電子帳票システム
JPH09305618A (ja) 文書検索装置及び文書検索方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070806

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090806

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090806

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100806

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110806

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110806

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120806

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130806

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees