JP2000003366A

JP2000003366A - 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体

Info

Publication number: JP2000003366A
Application number: JP10163901A
Authority: JP
Inventors: Katsumi Tada; 勝己多田; Takuya Okamoto; 卓哉岡本; Natsuko Sugaya; 菅谷　　奈津子; Tadataka Matsubayashi; 忠孝松林; Yasushi Kawashita; 靖司川下
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-06-11
Filing date: 1998-06-11
Publication date: 2000-01-07

Abstract

(57)【要約】【課題】目的とする論理構造だけを対象に指定する構
造指定検索を高速に実現することが可能な技術を提供す
る。【解決手段】登録対象文書における論理構造定義情報
またはインデックスグループ定義情報により、検索時に
一括して参照される可能性の高い文字列データの組に所
定のインデックスグループ識別子を付与し、登録対象文
書中に出現した文字列データにインデックスグループ識
別子を付与し、メタ要素群及びメタ文字列群の木構造か
ら構成される構造インデックスを生成し、登録対象文書
中に出現した各論理構造に属する文字列データに対し
て、前記構造インデックスの文脈識別子とインデックス
グループ識別子を対応付け、当該文字列データの文書識
別子、文脈識別子及び構造化文字位置情報をインデック
スグループ識別子毎に蓄積、管理するものである。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は構造化文書の検索を
行う構造化文書検索システムに関し、特にSGML形式で記
述された文書等の様に、１件の文書が複数の論理構造で
構成される構造化文書に対し、目的とする論理構造だけ
を対象とした検索を高速に行う構造化文書検索システム
に適用して有効な技術に関するものである。

【０００２】

【従来の技術】近年、情報化社会の急速な進展に伴い、
ワードプロセッサやパーソナルコンピュータ等を用いて
作成される電子化文書情報も爆発的な勢いで増加しつつ
ある。この様な状況下で、蓄積された膨大な電子化文書
群の中から、必要とする情報を含んだ文書を高速かつ高
精度に検索したいという要求が高まっている。

【０００３】この様な要求に応える技術として全文検索
がある。全文検索では、登録時に登録対象文書中のテキ
スト全体を計算機システムに入力してデータベース化
し、検索時には該当データベース中からユーザの指定し
た文字列（以下、検索タームと呼ぶ）を含む全ての文書
を探し出すことにより、登録時にキーワード付けを行な
うことなく、目的とする文書を漏れなく検索することが
可能である。

【０００４】また、例えばSGML(ISO 8879:Standard Gen
eralized Markup Language)で記述された文書等、文書
を構成する個々の論理的な構造要素を識別できる文書
（以下、構造化文書と呼ぶ）を対象として、目的とする
論理構造だけを対象に指定する検索（以下、構造指定検
索と呼ぶ）を行うことにより精度の高い検索を実現する
ことができる。構造指定検索を可能にする方法として
は、例えば特願平９−４１８５５号に記載された発明
（以下、公知例１と呼ぶ）がある。

【０００５】以下、公知例１の概要について説明する。
公知例１における文書検索方法では、構造化文書をデー
タベースに登録する際に、登録対象文書の持つ論理構造
の解析を行う。

【０００６】そして、文書の登録順に従って各文書の持
つ論理構造を順次重ね合わせ、文書中における出現位置
及び種別が同じである論理構造の要素群及び文字列デー
タ群を、それぞれ単一の構造要素（以下、メタ要素と呼
ぶ）及び文字列データ（以下、メタ文字列と呼ぶ）とし
て代表させることにより、メタ要素群及びメタ文字列デ
ータ群（以下、これらを総称してメタノードと呼ぶ）に
よる木構造データを作成する。そして、これらのメタノ
ードを識別する為の一意の識別子（以下、文脈識別子と
呼ぶ）を付与することにより、文書データベース中の全
文書の論理構造を表わすインデックス（以下、構造イン
デックスと呼ぶ）を作成する。

【０００７】次に、登録対象文書について該当文書中に
含まれる全ての文字列と、前記構造インデックスにおけ
るメタ文字列データの識別子との対応関係を記録したデ
ータ（以下、構造化全文データ）を生成する。更に、登
録対象文書に関する構造化全文データにおいて、各文字
列から所定の部分文字列を抽出し、それらを文書データ
ベース中で識別する為の文書識別子、メタ文字列データ
の文脈識別子及び登録対象文書中での文字位置と対応付
けたデータ（構造化文字位置情報）として登録すること
により検索用のインデックスを生成する。

【０００８】そして、検索時には、始めに前記構造イン
デックスを参照し、検索対象に指定された構造に対応す
るメタ文字列データの文脈識別子を抽出する。

【０００９】次に、検索タームから所定の部分文字列を
抽出し、各部分文字列について検索用のインデックスを
参照することにより、検索タームを構成する部分文字列
に関する構造化文字位置情報を抽出する。

【００１０】最後に、各部分文字列の構造化文字位置情
報について、これらの隣接判定処理を行なう。すなわ
ち、検索タームを構成する各部分文字列の構造化文字位
置情報から検索対象に指定した論理構造に対応する文脈
識別子を持つものを抽出し、その中で指定された検索タ
ームと同じ部分文字列の並びを持つ文書の文書識別子を
抽出することにより構造指定検索を実現している。

【００１１】以上が、公知例１における登録処理及び検
索処理の概要である。次に、本公知例における登録処理
について、図２２に示す構造化文書が登録された場合を
例に説明する。

【００１２】図２２はSGML形式で記述された構造化文書
の例を示す図である。図２３は図２２に示した構造化文
書の構造定義であるDTD(Document Type Definition)を
示す図である。図２４は公知例１における解析済み木構
造データの例を示す図である。図２５は公知例１におけ
る構造インデックスの例を示す図である。文書登録時に
は、まず図２３のSGML文書における文書の型定義文であ
るDTDを基に、論理構造の解析処理を行い図２４の木構
造データに展開する。

【００１３】そして、各登録対象文書についてこの木構
造の重ね合わせ処理を行うことにより構造インデックス
を生成する。本例では、構造インデックスは初期状態
（空）である為、図２４の解析済み文書と等価な木構造
を生成し、これに対しメタ要素に対する文脈識別子とし
てE1〜E26を、またメタ文字列データに対する文脈識別
子としてC1〜C16を割り当てることにより図２５の構造
インデックスを生成する。

【００１４】図２６は公知例１における構造化全文デー
タの例を示す図である。次に、登録対象文書中の文字列
について、図２５の構造インデックスにおけるメタ文字
列データの文脈識別子を対応付けることにより、図２６
の構造化全文データを生成する。

【００１５】図２７は公知例１における検索用インデッ
クスの例を示す図である。更に検索用インデックスの生
成処理として、構造化全文データ中の内容文字列から本
公知例では隣り合う２文字の部分文字列を抽出し、該当
する文書識別子、文脈識別子及び文書中での文字位置の
組を構造化文字位置情報として追記、登録することによ
り、例えば図２６の構造化全文データにおける“SGML”
については図２７のインデックスを生成する。

【００１６】次に、検索時の処理例として“本文”にお
ける“章題”の論理構造中に検索ターム“SGML”を含む
文書を検索する際の処理について説明する。

【００１７】検索時には、検索ターム“SGML”から隣り
合う２文字の文字列として“SG”及び“ML”を抽出す
る。そして、検索用インデックスから“SG”及び“ML”
に関するデータを抽出する。そしてその中で、文脈識別
子が検索対象の論理構造である“本文”における“章
題”のメタ文字列データに対応するC5またはC8であるも
のを取得する。

【００１８】最後に、こうして得られた検索用インデッ
クスデータに対し、図２８の様に文書識別子及び文脈識
別子が同一であり、かつ文字位置が２文字離れて隣接す
るものを判定することにより、“本文”における“章
題”の論理構造中に検索ターム“SGML”を含む文書を検
索することが可能になる。

【００１９】

【発明が解決しようとする課題】この様に、前記従来の
技術では登録対象文書中に出現した各論理構造に対し、
それらを一意に識別する為の文脈識別子を登録時に割り
当て、登録対象文書中に現われた各文字列に対し、該当
文書の文書識別子と各文書内での出現文字位置に加え文
脈識別子を付加したインデックスを生成することによ
り、目的とする論理構造だけを対象に指定した検索を実
現している。

【００２０】しかし、前記従来の技術における構造化文
書の検索方法では、図２７の様に各文字列について全て
の構造におけるインデックスデータを一連のデータ領域
に格納している為、検索時には検索対象に指定した論理
構造以外の、照合に必要のないインデックスも参照する
ことになり、検索に不要な時間を要してしまうという問
題がある。

【００２１】すなわち、検索用インデックスは一般にテ
キストの数倍程度の容量となり、大規模な構造化文書を
対象とした場合には磁気ディスク等の二次記憶上に格納
されることになるが、例えば図２８の様に、照合処理に
必要となるインデックスは“本文”における“章題”の
構造（文脈識別子＝C5またはC8）に関するデータのみで
あるにもかかわらず、全ての論理構造におけるインデッ
クスが混在した形で登録されている為、“SG”と“ML”
に関する全てのインデックスを二次記憶から読み出す処
理が必要が生じてしまう。

【００２２】例えば、図２２に示した構造化文書の平均
文字数が約2,000文字（A4約２頁分）であり、その内
“本文”における“章題”の構造に対応する文字数の総
和が約20文字（図２２の例では17文字）であった場合に
は、検索対象に指定されている“本文”における“章
題”の構造の約100倍（＝2,000文字÷20文字）に相当す
る論文全体のインデックスデータを参照することにな
る。この為、検索に不必要な時間を要してしまうことに
なる。

【００２３】また、これを回避する方法として、各論理
構造毎にインデックスを分割して格納する方法が考えら
れる。しかし、この方法では“本文”における“章題”
の様に、繰り返しを持つ論理構造において、繰り返し数
が増加した場合にはインデックスデータを読み出す為の
二次記憶に対するリード回数が増加してしまう為、検索
に多くの時間を要してしまうことになる。

【００２４】すなわち、図２５の構造インデックスにお
いては“本文”における“章題”を検索対象とした場合
には、文脈識別子C5とC8に対するインデックスデータ
を、二次記憶上の別領域から読み出すことになる。この
様に、繰り返し回数の多い論理構造が検索対象に指定さ
れた場合には検索レスポンスが著しく低下してしまうと
いう問題がある。

【００２５】本発明の目的は上記問題を解決し、目的と
する論理構造だけを対象に指定する構造指定検索を高速
に実現することが可能な技術を提供することにある。

【００２６】

【課題を解決するための手段】本発明は、１件の文書が
複数の論理構造で構成される構造化文書を検索する構造
化文書検索システムにおいて、検索時に一括して参照さ
れる可能性の高い文字列データに所定のインデックスグ
ループ識別子を付与して文書登録し、インデックスグル
ープ識別子の等しいインデックスデータを用いて文書検
索を行うものである。

【００２７】本発明の構造化文書検索システムで文書登
録を行う場合には、まず論理構造管理テーブル生成登録
ステップで、登録対象となる構造化文書データベースに
おいて、既に登録済みの文書が存在するか否かを判定
し、存在しない場合には該登録対象文書における論理構
造定義情報を解析し、該構造化文書データベースに関す
る論理構造の階層関係を管理すると共に、該論理構造定
義情報またはデータベース設計者が予め作成したインデ
ックスグループ定義情報を参照することにより、検索時
に一括して参照される可能性の高い文字列データの組を
判定し、それらに対して所定の識別子をインデックスグ
ループ識別子として付与した論理構造管理テーブルを作
成して登録する。

【００２８】次にインデックスグループ識別子付加型解
析済みデータ生成ステップで、該論理構造管理テーブル
を参照しながら登録対象文書の持つ論理構造を解析し、
登録対象文書における論理構造を木構造データとして抽
出すると共に、該登録対象文書中に出現した文字列デー
タに対応してインデックスグループ識別子を付与した解
析済みデータを生成する。

【００２９】構造インデックス生成ステップでは、該イ
ンデックスグループ識別子付加型解析済みデータを入力
として、各登録対象文書の持つ論理構造を登録対象文書
順に従って順次重ね合わせ、文書中における出現位置が
同じである要素群は単一のメタ要素によって代表させ、
文書中における出現位置が同じである文字列データは単
一にメタ文字列データによって代表させることにより、
メタ要素群及びメタ文字列群の木構造から構成される構
造インデックスを生成し、該構造インデックスを構成す
る全てのメタノードに対して、それらを構造インデック
ス内で一意に識別する識別子である文脈識別子を付与
し、これを管理する。

【００３０】インデックスグループ識別子付加型構造化
全文データ生成ステップは、該インデックスグループ識
別子付加型解析済みデータと構造インデックスを入力と
して、該登録対象文書中に出現した各論理構造に属する
文字列データに対して、文脈識別子とインデックスグル
ープ識別子を対応付けて構成したインデックスグループ
識別子付加型の構造化全文データを生成する。

【００３１】そして文字列インデックス生成ステップ
で、該インデックスグループ識別子付加型構造化全文デ
ータにおける文字列データから所定の部分文字列を抽出
し、前記登録対象文書を文書データベースにおいて一意
に識別する為の文書識別子と、前記部分文字列に対応す
る論理構造の文脈識別子と、該登録対象文書中での文字
位置情報を組とした構造化文字位置情報を生成し、これ
を各部分文字列に関する論理構造のインデックスグルー
プ識別子毎に蓄積、管理することにより、構造指定検索
用の文字列インデックスを生成する。

【００３２】次に本発明の構造化文書検索システムで文
書検索を行う場合には、検索条件解析ステップで、検索
条件式を解析し、指定された構造指定検索条件を満たす
要素名と、検索タームからインデックスの照合処理に用
いる部分文字列を抽出し、更に前記構造インデックスを
参照することにより該当する要素名に関する文脈識別子
を抽出する。

【００３３】次にインデックスグループ識別子抽出ステ
ップで、前記論理構造管理テーブルを参照し、指定され
た検索条件を満たす文脈識別子に対応するインデックス
グループ識別子を抽出する。

【００３４】構造化文字位置データ抽出ステップでは、
検索タームから所定の部分文字列を抽出し、該部分文字
列に関し、前記インデックスグループ識別子抽出ステッ
プにおいて抽出されたインデックスグループ識別子に関
する構造化文字位置情報を前記文字列インデックスから
抽出する。

【００３５】そしてインデックス検索ステップでは、前
記構造化文字位置情報の集合中から、前記検索条件解析
ステップで決定した集合中に含まれる文脈識別子を持
ち、かつ前記検索タームにおける部分文字列の並びと同
じ位置関係を持つ構造化文字位置情報を抽出する。

【００３６】前記の様に本発明によると、検索用の文字
列インデックスは構造指定検索時に参照される単位に分
割して二次記憶上に格納される為、検索時に検索対象に
指定されている論理構造以外の検索に不要なインデック
スデータを読み出し対象から除外し、ひいては高速な構
造指定検索機能を実現することが可能になる。

【００３７】以上の様に本発明の構造化文書検索システ
ムによれば、検索用の文字列インデックスを構造指定検
索時に参照される単位に分割して二次記憶上に格納する
ので、目的とする論理構造だけを対象に指定する構造指
定検索を高速に実現することが可能である。

【００３８】

【発明の実施の形態】（実施形態１）以下に１件の文書
が複数の論理構造で構成される構造化文書に対し、目的
とする論理構造だけを対象とした検索を高速に行う実施
形態１の構造化文書検索システムについて説明する。

【００３９】本実施形態は、構造化文書において、繰り
返し構造を持つメタ要素化の同一要素型に属する文字列
データ群（例えば図２２の構造化においては、“論文”
における“執筆者”の構造に属する“東京一郎”や“神
奈川二郎”等）については、検索時に一括参照される可
能性が高いものとして、それら全体に対し１個のインデ
ックスグループ識別子を割り当て、インデックスを分割
管理するものである。

【００４０】図１は本実施形態の構造化文書検索システ
ムの概略構成を示す図である。図１の様に本実施形態の
構造化文書検索システムは、論理構造管理テーブル生成
プログラム１３０と、インデックスグループ識別子付加
型解析済みデータ生成プログラム１４０と、構造インデ
ックス生成プログラム１５０と、インデックスグループ
識別子付加型構造化全文データ生成プログラム１６０
と、文字列インデックス生成プログラム１７０と、検索
条件解析プログラム１８０と、インデックスグループ識
別子抽出プログラム１９０と、構造化文字位置データ抽
出プログラム２００と、インデックス検索プログラム２
１０とを有している。

【００４１】論理構造管理テーブル生成プログラム１３
０は登録対象文書における論理構造定義情報により、検
索時に一括して参照される可能性の高い文字列データの
組に所定のインデックスグループ識別子を付与した論理
構造管理テーブルを作成する処理部である。

【００４２】インデックスグループ識別子付加型解析済
みデータ生成プログラム１４０は該論理構造管理テーブ
ルを参照しながら登録対象文書の持つ論理構造を解析
し、該登録対象文書中に出現した文字列データにインデ
ックスグループ識別子を付与した解析済みデータを生成
する処理部である。

【００４３】構造インデックス生成プログラム１５０は
該インデックスグループ識別子付加型解析済みデータを
入力として、メタ要素群及びメタ文字列群の木構造から
構成される構造インデックスを生成し、該構造インデッ
クスを構成するメタノードを構造インデックス内で一意
に識別する識別子である文脈識別子を付与する処理部で
ある。

【００４４】インデックスグループ識別子付加型構造化
全文データ生成プログラム１６０は該インデックスグル
ープ識別子付加型解析済みデータと構造インデックスを
入力として、該登録対象文書中に出現した各論理構造に
属する文字列データに対して、文脈識別子とインデック
スグループ識別子を対応付けて構成したインデックスグ
ループ識別子付加型の構造化全文データを生成する処理
部である。

【００４５】文字列インデックス生成プログラム１７０
は該インデックスグループ識別子付加型構造化全文デー
タにおける文字列データから所定の部分文字列を抽出
し、前記登録対象文書を文書データベースにおいて一意
に識別する為の文書識別子と、前記部分文字列に対応す
る論理構造の文脈識別子と、該登録対象文書中での文字
位置情報を組とした構造化文字位置情報を生成し、これ
を各部分文字列に関する論理構造のインデックスグルー
プ識別子毎に蓄積、管理することにより、構造指定検索
用の文字列インデックスを生成する処理部である。

【００４６】検索条件解析プログラム１８０は検索条件
式を解析し、指定された構造指定検索条件を満たす要素
名と、検索タームからインデックスの照合処理に用いる
部分文字列を抽出し、更に前記構造インデックスを参照
することにより該当する要素名に関する文脈識別子を抽
出する処理部である。

【００４７】インデックスグループ識別子抽出プログラ
ム１９０は前記論理構造管理テーブルを参照し、指定さ
れた検索条件を満たす文脈識別子に対応するインデック
スグループ識別子を抽出する処理部である。構造化文字
位置データ抽出プログラム２００は検索ターム中の所定
の部分文字列について、インデックスグループ識別子抽
出プログラム１９０において抽出されたインデックスグ
ループ識別子に関する構造化文字位置情報を文字列イン
デックスから抽出する処理部である。

【００４８】インデックス検索プログラム２１０は前記
構造化文字位置情報中から、検索条件解析プログラム１
８０で抽出した文脈識別子を持ち、かつ前記検索ターム
における部分文字列の並びと同じ位置関係を持つ構造化
文字位置情報を抽出するインデックス検索処理部であ
る。

【００４９】コンピュータを構造化文書検索システムと
して機能させる為の論理構造管理テーブル生成プログラ
ム１３０、インデックスグループ識別子付加型解析済み
データ生成プログラム１４０、構造インデックス生成プ
ログラム１５０、インデックスグループ識別子付加型構
造化全文データ生成プログラム１６０、文字列インデッ
クス生成プログラム１７０、検索条件解析プログラム１
８０、インデックスグループ識別子抽出プログラム１９
０、構造化文字位置データ抽出プログラム２００及びイ
ンデックス検索プログラム２１０は、ＣＤ−ＲＯＭ等の
記録媒体に記録され磁気ディスク等に格納された後、メ
モリにロードされて実行されるものとする。なお前記プ
ログラムを記録する媒体はＣＤ−ＲＯＭ以外の他の媒体
でも良い。

【００５０】本図の構造化文書検索システムは、検索結
果を表示するディスプレイ１０、登録及び検索のコマン
ドを入力するキーボード２０、登録処理及び検索処理を
実行する中央演算処理装置ＣＰＵ３０、フロッピディス
ク５０からデータを読み出すフロッピディスクドライブ
４０、データベースへ登録する構造化文書データを格納
したフロッピディスク５０、登録及び検索用のプログラ
ム並びにデータ等を一時的に格納する主メモリ６０、各
種データ及びプログラムを格納する磁気ディスク装置７
０及びこれらを接続するバス８０で構成される。

【００５１】主メモリ６０にはシステム制御プログラム
１００、登録制御プログラム１１０、検索制御プログラ
ム１２０、論理構造管理テーブル生成プログラム１３
０、インデックスグループ識別子付加型解析済みデータ
生成プログラム１４０、構造インデックス生成プログラ
ム１５０、インデックスグループ識別子付加型構造化全
文データ生成プログラム１６０、文字列インデックス生
成プログラム１７０、検索条件解析プログラム１８０、
インデックスグループ識別子抽出プログラム１９０、構
造化文字位置データ抽出プログラム２００及びインデッ
クス検索プログラム２１０が磁気ディスク装置７０から
読み出されると共に、ワークエリア２２０が確保され
る。

【００５２】また、磁気ディスク装置７０には論理構造
管理テーブル格納領域３００、インデックスグループ識
別子付加型解析済みデータ格納領域３１０、構造インデ
ックス格納領域３２０、インデックスグループ識別子付
加型構造化全文データ格納領域３３０及び文字インデッ
クス格納領域３４０が確保されている。なお、本実施形
態ではこれらの格納領域を磁気ディスク装置７０上に確
保したが、光磁気ディスク装置等他の二次記憶装置であ
っても構わない。

【００５３】以上が本実施形態の構成である。次に本実
施形態の文書登録時の処理の概要について説明する。始
めに、キーボード２０から入力される登録コマンドによ
りシステム制御プログラム１００は登録制御プログラム
１１０を起動し、文書の登録処理を開始する。文書登録
処理の流れを図２に示すPAD(Problem Analysis Diagra
m)を用いて説明する。

【００５４】図２は本実施形態の文書登録処理の処理内
容を示すPAD図である。登録制御プログラム１１０は、
まずステップ１０００を実行し、フロッピディスク５０
に格納されている全ての登録対象文書について、ステッ
プ１０１０からステップ１０９０までに示す一連の処理
を繰り返し実行する。

【００５５】まず、ステップ１０１０でフロッピディス
クドライブ４０を通じてフロッピディスク５０に格納さ
れている登録対象文書群から未処理の文書を１個選択
し、主メモリ６０上のワークエリア２２０に読み出し、
ステップ１０２０で登録対象文書に対し、文書データベ
ース中で該当文書を一意に識別する為の番号である文書
識別子を割り当てる。更に、ステップ１０３０において
登録対象SGML文書の先頭行から該当するDTDのファイル
名を抽出し、該当ファイルから主メモリ６０上のワーク
エリア２２０にDTDを読み込む。

【００５６】次に、ステップ１０４０で該当構造化文書
データベースに既に登録済みの文書が存在するか否かを
判定し、登録済みの文書が存在しない場合にはステップ
１０５０において論理構造管理テーブル生成プログラム
１３０を実行する。すなわち、論理構造管理テーブル生
成プログラム１３０では、DTDに記述されている論理構
造を解析し、DTDに内部矛盾等のエラーがないか検証し
た後、各論理構造の階層関係を管理する為の木構造デー
タと、その中のメタ文字列データに対して、それらを一
意に識別する為のインデックスグループ識別子を付与し
た論理構造管理テーブルを生成する。

【００５７】更に、登録制御プログラム１１０はステッ
プ１０６０でインデックスグループ識別子付加型解析済
みデータ生成プログラム１４０を実行し、ワークエリア
２２０内に読み込まれたの登録対象文書に対し、論理構
造管理テーブルを参照しながら論理構造の解析処理を行
い、該当文書中に論理構造の誤りが存在しないか否かを
判定する。また、登録対象文書内に出現した論理構造を
木構造データとして展開すると共に、文字列データに対
しては該当するインデックスグループ識別子を付与した
インデックスグループ識別子付加型解析済みデータを生
成する。

【００５８】更に、ステップ１０７０で構造インデック
ス生成プログラム１５０を実行し、インデックスグルー
プ識別子付加型解析済みデータ中に出現したメタ要素を
重ね合わせることにより、登録対象文書中に出現したメ
タ要素を一意に識別する為の構造インデックスを生成す
る。

【００５９】また、ステップ１０８０においてインデッ
クスグループ識別子付加型構造化全文データ生成プログ
ラム１６０を起動し、登録対象文書の文書識別子と、該
当文書中に出現した各論理構造に対する文脈識別子、該
当文脈識別子に対するインデックスグループ識別子及び
該当構造中に含まれる文字列データを対応付けたインデ
ックスグループ識別子付加型構造化全文データを生成す
る。

【００６０】最後に、ステップ１０９０において文字列
インデックス生成プログラム１７０を実行し、インデッ
クスグループ識別子付加型構造化全文データ中の文字列
データから所定の部分文字列を抽出し、該当文書の文書
識別子、文脈識別子、文書内での文字位置を汲みにした
構造化文字位置情報を作成し、これをインデックスグル
ープ識別子毎に分割管理することにより検索用の文字列
インデックスを生成する。

【００６１】以上が本実施形態における登録処理の概要
である。次に図２に示した登録処理フローに関するPAD
における、各ステップの処理内容について、更に詳細に
説明する。はじめに、ステップ１０５０における論理構
造管理テーブル生成プログラム１３０の処理内容につい
て説明するが、その前に本実施形態が対象としているSG
ML文書及びDTD(Document Type Definition)の内容につ
いて説明する。

【００６２】SGMLでは、特定の種別に属する論理構造を
DTDにより定義している。図２３がDTDの一例である。DT
Dは文書を構成する論理要素（以下、単に要素と呼ぶ）
の集合を定義することによって、文書の論理的構造を定
義する。図２３において文字列“<!ELEMENT”と“>”に
囲まれた部分を要素型宣言と呼び、１個の要素型宣言
が、１種類の要素型宣言に属する要素群が共通して持つ
名前（これを要素型名前と呼ぶ）とその構造を規定して
いる。要素型宣言中の左側に示されている文字列が要素
型名、右側に示されている部分がその内容が取る構造の
定義である。

【００６３】図２３のDTDにおいて、要素型“論文”に
関する要素型宣言は、この要素型に属する要素の内容が
“タイトル”、“執筆者”、“日付”、“本文”及び
“文献リスト”という要素型に属する要素１個ずつを、
この順序に従って並べた構造を持つことを規定してい
る。すなわち、複数の要素型名を文字“,”で区切って
並べることにより、それらの要素型名に属する要素が指
定した順番で出現しなければならないことを表現してい
る。

【００６４】要素型“執筆者”に関する要素型宣言は、
この要素型に属する要素の内容が、要素型“名前”に属
する要素の１個以上の繰り返しからなる構造を持つこと
を規定している。すなわち、要素型名の後ろに文字
“+”を付加することにより、その型名に属する要素が
１個以上出現することを表現している。

【００６５】要素型“本文”に関する要素型宣言は、こ
の要素型に属する要素の内容が“章”に属する要素が０
個以上の繰り返しからなる構造を持つことを規定してい
る。すなわち、要素型名の後ろに文字“*”を付加する
ことにより、その型名に属する要素が０個以上出現する
ことを表現している。

【００６６】要素型“章”に関する要素型宣言は、この
要素型に属する要素の内容が、要素型“章題”に属する
要素１個の後ろに、要素型“段落”または“節”に属す
る要素を０個以上繰り返した構造を持つことを規定して
いる。すなわち、複数要素型名を文字“|”で区切って
並べることにより、それらのいずれかの要素型に属する
要素が出現することを表現している。

【００６７】また、要素型“節”に関する要素型宣言
は、この要素型に属する要素の内容が、要素型“節題”
に属する要素１個の後ろに、要素型“段落”に属する要
素を０個以上繰り返した構造を持つことを規定してい
る。

【００６８】要素型“文献リスト”に関する要素型宣言
は、この要素型に属する要素の内容が、要素型“文献”
に属する要素の１個以上の繰り返しからなる構造を持つ
ことを規定している。要素型“文献”に関する要素型宣
言は、この要素型に属する要素の内容が、要素型“タイ
トル”に属する要素１個の後ろに、要素型“執筆者”に
属する要素を１個以上繰り返した後、要素型“出典”に
属する要素が出現する構造を持つことを規定している。

【００６９】また、“タイトル”、“名前”、“日
付”、“章題”、“節題”、“段落”及び“出典名”に
属する要素の内容は、単に“#PCDATA”と規定されてい
る。これは、これらの要素がそれ以上の下位構造を持た
ず、単なる文字の列からなる内容を持つことを規定して
いる。

【００７０】図２３のDTDに従って記述されたSGML文書
の一例が図２２に示されている。文書先頭の文字列“<!
DOCTYPE”と文字列“>”で囲まれた部分を文書型宣言と
呼び、そのSGML文書が従うDTDと、最上位要素の要素型
名を宣言する。図２２に示した例では、この文書がファ
イル“ronbun.dtd”に格納されているDTDに従い、最上
位要素の要素型名が“論文”であることが規定されてい
る。ここでは、ファイル“ronbun.dtd”に図２３に示し
た前記DTDが格納されているものとする。

【００７１】図２２の通り、SGMLでは文書を構成する個
々の要素について、その先頭位置と末尾位置を示すマー
クを付加することにより、文書構造を明示的に記述す
る。各要素の先頭位置を示すマークを“開始タグ”、末
尾位置を示すマークを“終了タグ”と呼ぶ。開始タグは
文字列“<”と“>”の間に、その要素の要素型名を記述
することによって示す。終了タグは文字列“</”と
“>”の間に、その要素の要素型名を記述することによ
って示す。また、SGML文書において、これらのタグを用
いて文書構造を記述している部分を「文書インスタン
ス」と呼ぶ。

【００７２】以上でSGML文書並びにDTDに関する説明を
終了し、引き続き論理構造管理テーブル生成プログラム
１３０（図２におけるステップ１０５０）の処理内容に
ついて、図３に示すPADを用いて説明する。

【００７３】図３は本実施形態の論理構造管理テーブル
生成プログラム１３０の処理内容を示すPAD図である。
本実施形態における論理構造管理テーブル生成プログラ
ム１３０では、はじめにステップ１１００を実行し、主
メモリ６０上のワークエリア２２０に読み込んだDTDに
示される文書の論理構造を上位から順々に展開してい
き、要素の内容が文字列“#PCDATA”で表される最下位
構造に至るまで主メモリ上のワークエリア２２０に木構
造データとして展開する。

【００７４】また、ステップ１１１０においてDTDの構
文内部矛盾や未定義要素が存在する等のエラーがあった
か否かを判定し、エラーがあった場合にはステップ１１
２０でエラーメッセージを出力して処理を中断する。

【００７５】そして、ステップ１１３０において該当木
構造データ中の最下位の要素である文字列データに対し
てそれらを一意に識別する為の識別子を割り当て、これ
をインデックスグループ識別子として格納することによ
り論理構造管理テーブルを生成する。最後に、ステップ
１１４０でこれを磁気ディスク装置７０上の論理構造管
理テーブル格納領域３００に格納し、処理を終了する。

【００７６】次に、図２におけるステップ１０６０の処
理、すなわちインデックスグループ識別子付加型解析済
みデータ生成プログラム１４０の処理内容について図４
に示すPADを用いて説明する。

【００７７】図４は本実施形態のインデックスグループ
識別子付加型解析済みデータ生成プログラム１４０の処
理内容を示すPAD図である。本実施形態におけるインデ
ックスグループ識別子付加型解析済みデータ生成プログ
ラム１４０では、はじめにステップ１２００を実行し、
論理構造管理テーブルを参照しながら登録対象文書イン
スタンスに対して論理構造の解析処理を行い、登録対象
文書中に出現した論理構造を木構造データとして展開す
る。

【００７８】また、ステップ１２１０において、該当文
書中に、定義されていないタグが存在する等のエラーが
あったか否かを判定し、エラーがあった場合にはステッ
プ１２２０でエラーメッセージを出力して処理を中断す
る。

【００７９】更に、ステップ１２３０において、ステッ
プ１２００で生成した木構造データから文字列データに
関するノードを抽出し、該当ノードにインデックスグル
ープ識別子を付加することによりインデックスグループ
識別子付加型解析済みデータを生成する。

【００８０】最後にステップ１２４０では、前記生成し
たインデックスグループ識別子付加型の解析済みデータ
を磁気ディスク装置７０上のインデックスグループ識別
子付加型解析済みデータ格納領域３１０に格納し、処理
を終了する。

【００８１】また、図２におけるステップ１０７０の処
理、すなわち構造インデックス生成プログラム１５０の
処理内容について図５に示すPADを用いて説明する。

【００８２】図５は本実施形態の構造インデックス生成
プログラム１５０の処理内容を示すPAD図である。構造
インデックス生成プログラム１５０では、ステップ１３
００において該当構造化文書データベースにおいて既に
生成された構造インデックスが磁気ディスク装置７０上
の構造インデックス格納領域３２０に既に存在するか否
かを判定する。

【００８３】そして、該当領域に構造インデックスが存
在しない場合には、ステップ１３１０において初期状態
（空）の構造インデックスを生成する。また、存在する
場合には、ステップ１３２０において既存の構造インデ
ックスを主メモリ６０上のワークエリア２２０に読み込
む。

【００８４】次に、ステップ１３３０において、インデ
ックスグループ識別子付加型解析済みデータ格納領域３
１０から登録対象文書に関するインデックスグループ識
別子付加型の解析済みデータを読み込み、ステップ１３
４０において、インデックスグループ識別子付加型の解
析済みデータの木構造を構成する全てのノード（要素及
び文字列データ）を対象としてステップ１３５０からス
テップ１３８０に示す一連の処理を実行することによ
り、構造インデックスの重ね合わせ処理を行う。

【００８５】すなわち、ステップ１３５０ではインデッ
クスグループ識別子付加型の解析済みデータにおいて、
現在着目しているノードについて構造インデックス中に
対応するメタノード（メタ要素またはメタ文字列デー
タ）が存在するか否かを判定し、存在しない場合にはス
テップ１３６０において該ノードに対応するメタノード
を生成し、ワークエリア２２０上の構造インデックスに
登録した後、ステップ１３７０において該メタノードを
構造インデックス内で一意に識別する番号である文脈識
別子を新たに割り当てる。

【００８６】そしてステップ１３８０では、インデック
スグループ識別子付加型解析済みデータで着目している
ノードと、構造インデックス中で該ノードに対応するメ
タノードを識別する文脈識別子との対応関係を解析済み
データに付加してインデックスグループ識別子付加型解
析済みデータを更新する。

【００８７】更に、ステップ１３９０においてワークエ
リア２２０上のインデックスグループ識別子付加型解析
済みデータをインデックスグループ識別子付加型解析済
みデータ格納領域３１０に格納する。また、最後にステ
ップ１４００において、主メモリ６０のワークエリア２
２０上の構造インデックスを構造インデックス格納領域
３２０に出力して処理を終了する。

【００８８】更に、図２におけるステップ１０８０の処
理、すなわちインデックスグループ識別子付加型構造化
全文データ生成プログラム１６０の処理内容について図
６に示すPADを用いて説明する。

【００８９】図６は本実施形態のインデックスグループ
識別子付加型構造化全文データ生成プログラム１６０の
処理内容を示すPAD図である。インデックスグループ識
別子付加型構造化全文データ生成プログラム１６０で
は、はじめにステップ１５００においてインデックスグ
ループ識別子付加型解析済みデータ格納領域３１０から
登録対象文書に関するインデックスグループ識別子付加
型の解析済みデータをワークエリア２２０に読み込む。

【００９０】そして、ステップ１５１０において、該当
文書を識別する為の文書識別子をインデックスグループ
識別子付加型構造化全文データ格納領域３３０に出力す
る。

【００９１】更に、ステップ１５２０においてインデッ
クスグループ識別子付加型解析済みデータの木構造を構
成する全てのノードについてステップ１５３０からステ
ップ１５６０に至る一連の処理を繰り返す。

【００９２】すなわち、ステップ１５３０では現在着目
しているインデックスグループ識別子付加型解析済みデ
ータ上のノードが文字列データに関するノードであるか
否かを判定し、文字列データに関するノードである場合
にはステップ１５４０において該当ノードに対する文脈
識別子を、ステップ１５５０においてインデックスグル
ープ識別子を、ステップ１５６０においては内容文字列
を、インデックスグループ識別子付加型構造化全文デー
タ格納領域３３０に出力する。

【００９３】そして、ステップ１５２０においてインデ
ックスグループ識別子付加型解析済みデータの木構造を
構成する全てのノードについて処理が終了した場合に本
プログラムは終了する。

【００９４】最後に、図２におけるステップ１０９０の
処理、すなわち文字列インデックス生成プログラム１７
０の処理内容について図７に示すPADを用いて説明す
る。

【００９５】図７は本実施形態の文字列インデックス生
成プログラム１７０の処理内容を示すPAD図である。文
字列インデックス生成プログラム１７０では、ステップ
１６００において磁気ディスク装置７０上の文字インデ
ックス格納領域３４０に既作成の文字列インデックスデ
ータが存在するか否かを判定し、該当領域に文字列イン
デックスが存在しない場合には、ステップ１６１０にお
いて初期状態（空）の文字列インデックスを生成する。

【００９６】そして、ステップ１６２０において、イン
デックスグループ識別子付加型構造化全文データ格納領
域３３０から登録対象文書に関するインデックスグルー
プ識別子付加型の構造化全文データを読み込み、ワーク
エリア２２０に読み込む。そして、ステップ１６３０に
おいて該当文書の識別子を抽出する。

【００９７】更に、文字列インデックス生成プログラム
１７０はステップ１６４０を実行し、インデックスグル
ープ識別子付加型構造化全文データに格納されている全
ての構造要素について現在着目している構造要素につい
て該当する文脈識別子、インデックスグループ識別子並
びに文字列データの抽出（ステップ１６５０）及び文字
列データに対するインデックスの生成処理（ステップ１
６６０）を実行する。

【００９８】ここで、ステップ１６６０における文字列
データに対するインデックス生成処理としては、文字列
データの先頭から末尾に至る全ての文字列に対し、ステ
ップ１６７０からステップ１７３０に至る一連の処理を
繰り返す。

【００９９】すなわち、ステップ１６７０では文字列デ
ータからインデックス作成対象となる部分文字列（本例
では、連続する２文字の部分文字列）を抽出する。そし
て、ステップ１６８０では当該２文字について文字列イ
ンデックスを参照し、当該２文字が既に文字列インデッ
クスに登録されているか否かを判定し、まだ登録されて
いない時にはステップ１６９０において、文字列インデ
ックスに対し当該２文字の連接情報を格納したノード
と、該当ノードに関するインデックスを参照する為のポ
インタ情報をインデックスグループ単位に管理する為の
インデックスポインタテーブルの初期化、生成処理を行
う。

【０１００】更に、ステップ１７００において、現在着
目している論理構造に関するインデックスグループ識別
子がインデックスポインタテーブルに格納されているか
を判定し、格納されていない場合にはステップ１７１０
においてインデックスポインタテーブルに対し、該当イ
ンデックスグループ識別子に関するエントリを付加す
る。

【０１０１】そしてステップ１７２０において、現在着
目している論理構造に関するインデックスグループ識別
子に対応するインデックスデータ格納領域の末尾に該当
する文書識別子、文脈識別子並びに文字位置情報をイン
デックスデータとして追加登録する。また、ステップ１
７３０ではデータ追加登録に伴い該当インデックスグル
ープ識別子に対するインデックスポインタテーブルの末
尾文字位置情報を更新する。

【０１０２】以上が、本実施形態の文書登録時処理の説
明である。次に本実施形態において図２３のDTDに従う
文書構造を持つ図２２の文書が登録された時の処理につ
いて例を挙げて説明する。

【０１０３】始めに、登録制御プログラム１１０は図２
におけるステップ１０１０を実行することにより、図２
２の登録対象文書をワークエリア２２０に読み込む。更
に、ステップ１０２０を実行することにより、文書デー
タベースにおいて本文書を一意に識別する為の文書識別
子としてD1を割り当てる。そして、ステップ１０３０に
おいて図２２の文書の一行目の文字列である“<!DOCTYP
E 論文 SYSTEM "ronbun.dtd">”から“ronbun.dtd”と
いう名称のファイルが該当文書のDTDであることを識別
し、これをワークエリア２２０に読み込読み込んでく
る。

【０１０４】図８は本実施形態の論理構造管理テーブル
の構成例を示す図である。次に、ステップ１０４０にお
いて本構造化文書データベースに登録済みの文書がある
か否かを判定するが、ここでは図２２の文書が最初の登
録対象文書であり、登録済みの文書が存在しない為、ス
テップ１０５０を実行する。

【０１０５】すなわち、図３におけるステップ１１００
において、図２３のDTDを図８の様に上位から順々に展
開していき、これを最下位構造である文字列データ（図
２３のDTDにおいては“#PCDATA”と定義されている）ま
で繰り返すことにより要素間の階層関係を記述した木構
造データを生成する。

【０１０６】なお、本図における“SEQ”,“REP(+)”,
“REP(*)”及び“OR”は要素間の関係を表しており、
“SEQ”は該当階層における各要素がこの順序で出現す
ることを、“REP(+)”は該当構造が1回以上繰り返して
出現することを、“REP(*)”は該当構造が0回以上繰り
返して出現することを、また“OR”は該当階層の構造の
内のいづれかが出現することを表している。

【０１０７】また、図２３のDTDにおいては内部矛盾や
未定義要素が存在しない為、ステップ１１１０における
判定処理の結果は“エラーなし”となり、ステップ１１
２０を実行することなくステップ１１３０を実行するこ
とになる。

【０１０８】そして、ステップ１１３０では、図８に示
した木構造データにおける文字列データ（図８において
“#PCDATA”で記述）に対してインデックスグループ識
別子G1〜G10を割り当てることにより論理構造管理テー
ブルを生成する。これを、ステップ１１４０において論
理構造管理テーブル格納領域３００に格納することによ
り、図２におけるステップ１０５０の処理を終了する。

【０１０９】図９は本実施形態のインデックスグループ
識別子付加型解析済み構造木の例を示す図である。次
に、登録制御プログラム１１０は図２におけるステップ
１０６０を実行する。すなわち、図４におけるステップ
１２００を実行し、図８の論理構造管理テーブルを論理
構造管理テーブル格納領域３００から読み出し、これを
参照しながら図２２の文書インスタンスの解析処理を行
うことにより図９の木構造データを生成する。なお、本
図において楕円形は要素を、矩形は文字列データを表し
ている。

【０１１０】また、本SGML文書インスタンスにおいて
は、定義されていないタグが存在する等のエラーが存在
しない為、ステップ１２１０における判定結果は“エラ
ーなし”となり、ステップ１２２０を実行することなく
ステップ１２３０を実行する。すなわち、図８の各文字
列データとの対応関係から、図９の木構造の最下位に位
置する文字列データに対し、インデックスグループ識別
子を付与することにより、インデックスグループ識別子
付加型の解析済みデータを生成する。これをステップ１
２４０においてインデックスグループ識別子付加型解析
済みデータ格納領域に格納することにより、図２におけ
るステップ１０６０の処理を終了する。

【０１１１】更に、登録制御プログラム１１０は図２に
おけるステップ１０７０を実行する。すなわち、図５に
おけるステップ１３００を実行し、該当データベースに
ついて既に作成済みの構造インデックスが存在するか否
かを判定する。

【０１１２】本例の場合、本登録対象文書の前に登録さ
れた文書が存在しない為、ステップ１３００における判
定結果は“なし”であり、ステップ１３１０において初
期（空）の構造インデックスを生成する。

【０１１３】引き続き、ステップ１３３０において登録
対象文書のインデックスグループ識別子付加型解析済み
データ、すなわち図９のデータをインデックスグループ
識別子付加型解析済みデータ格納領域３１０からワーク
エリア２２０に読み出してくる。

【０１１４】そして、ステップ１３４０において、登録
対象文書に関するインデックスグループ識別子付加型解
析済みデータの全てのノードに対しステップ１３５０か
らステップ１３８０に至る一連の処理を繰り返すが、構
造インデックスは空の状態である為、登録対象文書にお
けるインデックスグループ識別子付加型解析済みデータ
の全てのノードが構造インデックスにコピーされること
になる。

【０１１５】また、その全てのノードに対し各ノードを
一意に識別する為の文脈識別子を割り当てることにより
図１０における構造インデックスが生成されることにな
る。

【０１１６】図１０は本実施形態の構造インデックスの
例を示す図である。なお、本例では最初の文書が登録さ
れる場合の処理について説明した為、全てのノードが新
たに生成されることになったが、２番号目の文書以降に
ついては新規に出現した要素に対してのみ新たなノード
及び文脈識別子が割り当てられることになる。

【０１１７】更に、ステップ１３８０においてノードと
文脈識別子との対応をインデックスグループ識別子付加
型の解析済みデータに追加し、ステップ１３９０におい
て該当のインデックスグループ識別子付加型解析済みデ
ータをインデックスグループ識別子付加型解析済みデー
タ格納領域３１０に出力した後、構造インデックスを構
造インデックス格納領域３２０に出力して、図２におけ
るステップ１０７０の処理、すなわち構造インデックス
の更新処理を終了する。

【０１１８】図１１は本実施形態のインデックスグルー
プ識別子付加型の構造化全文データの例を示す図であ
る。登録制御プログラム１１０は、図２におけるステッ
プ１０８０を実行することによりインデックスグループ
識別子付加型の構造化全文データを生成する。すなわ
ち、図６におけるステップ１５００を実行し、登録対象
文書に関するインデックスグループ識別子付加型解析済
みデータをインデックスグループ識別子付加型解析済み
データ格納領域３１０から読み出し、ステップ１５１０
において、登録対象文書における文書識別子であるＤ１
を出力する。

【０１１９】そして、ステップ１５２０からステップ１
５６０に至る一連の処理を繰り返し、インデックスグル
ープ識別子付加型解析済みデータに格納された全ての文
字列データに対し、文脈識別子並びにインデックスグル
ープ識別子との対応を記録することにより、図１１のイ
ンデックスグループ識別子付加型の構造化全文データを
生成し、図２におけるステップ１０８０の処理を終了す
る。

【０１２０】最後に、登録制御プログラム１１０は図２
におけるステップ１０９０を実行することにより検索用
の文字列インデックスを生成する。すなわち、まずはじ
めに図７におけるステップ１６００を実行し、既に作成
された文字列インデックスが存在するか否かを判定す
る。本例においては本登録対象文書が最初の文書であ
り、未だ文字列インデックスが生成されていない為、判
定結果は“なし”となり、ステップ１６１０において初
期状態（空）の文字列インデックスを生成する。

【０１２１】そして、ステップ１６２０で図１１のイン
デックスグループ識別子付加型の構造化全文データをイ
ンデックスグループ識別子付加型構造化全文データ格納
領域３３０からワークエリア２２０に読み出し、ステッ
プ１６５０において文書識別子としてD1を抽出する。

【０１２２】そして、インデックスグループ識別子付加
型の構造化全文データの全ての構造の全ての文字列デー
タから所定の部分文字列、すなわち本例においては隣り
合う２文字の文字列を抽出しステップ１６６０からステ
ップ１７３０までの処理を実行することによって検索用
の文字列インデックスを生成する。

【０１２３】本例に示す文字列インデックスは、部分文
字列の接続情報を管理する文字列接続情報管理部、各部
分文字列の出現情報を追加格納していく文字列インデッ
クスデータ並びに各部分文字列に対する各インデックス
グループ識別子毎に、対応するインデックスデータの存
在領域を格納するインデックスポインタテーブルにより
構成され、図１２に示す構成を取るものとする。以下、
本処理の内容を図１２を用いて説明する。

【０１２４】図１２は本実施形態の文字列インデックス
更新処理の第１の例を示す図である。まず、インデック
スグループ識別子付加型構造化全文データの先頭の要素
に対応する文字列“SGML文書変換機能の概要と適用事
例”に着目する。そして、先頭から連続する２文字を順
に抽出していく。初め、“SG”が文字列接続情報管理部
に存在しない為、この２文字の連なりを文字列接続情報
管理部に登録する。そして“SG”に対して、初期状態の
インデックスポインタテーブルを割り当てる。

【０１２５】次に、ステップ１７００において、該当す
るインデックスグループ識別子がインデックスポインタ
テーブルに格納されているか否かを判定するが、当然未
登録である為、インデックスポインタテーブルにインデ
ックスグループ識別子G1を登録する。そして、ステップ
１７２０で“SG”に関するインデックス情報、すなわち
文書識別子D1と文脈識別子C1と文字位置情報“１”を組
みとして文字列インデックスデータに追加登録する。

【０１２６】また、文字列インデックスデータは複数の
物理的なファイルから構成されるものとして、インデッ
クスデータを格納したファイル識別子“３”、該当デー
タの先頭ポインタ“Ps3”をインデックスポインタテー
ブルに記録する。また、ステップ１７３０でインデック
スポインタテーブルにおける末尾位置“Pe3”を更新す
る。以下、“GM”,“ML”等の文字列に対しても同様の
処理を繰り返すことにより図１２に示す、文字列インデ
ックスを生成する。

【０１２７】更に、登録処理が進み、図１１のインデッ
クスグループ識別子付加型構造化全文データにおける文
脈識別子“C6”に関する内容文字列“文書記述にSGMLを
用いることで”中の“SGML”に対して文字列インデック
スを生成する処理を図１３を用いて説明する。

【０１２８】図１３は本実施形態の文字列インデックス
更新処理の第２の例を示す図である。“SGML”からは、
図７におけるステップ１６７０において“SG”,“GM”
及び“ML”を抽出することとなるが、これらはいずれも
図１２の登録処理において文字列インデックスにおける
文字列接続情報管理部に登録済みであり、ステップ１６
８０における判定結果はいずれも“yes”である為、ス
テップ１６９０に示す処理は実行されない。

【０１２９】次に、ステップ１７００において該当イン
デックスグループ識別子がインデックスポインタテーブ
ル中に存在するか否かを判定するが、この時点ではイン
デックスグループ識別子G1は存在するが、今回登録対象
となるインデックスグループ識別子G5は未だ登録されて
いない為、ステップ１７１０を実行する。すなわち、図
１３におけるインデックスポインタテーブルにインデッ
クスグループ識別子Ｇ５に関するエントリを作成し、更
にステップ１７２０において“ＳＧ”,“GM”及び“M
L”に関する文書識別子、文脈識別子及び文字位置をイ
ンデックスデータに格納した後、ステップ１７３０にお
いて該当インデックスデータに関するファイル識別子、
先頭ポインタ及び末尾ポインタを更新する。

【０１３０】最後に、図１１のインデックスグループ識
別子付加型構造化全文データにおける文脈識別子“C7”
に関する内容文字列“作成したSGML文書をさまざまな・・
・”中の“SGML”に対して文字列インデックスを生成す
る処理を図１４を用いて説明する。

【０１３１】図１４は本実施形態の文字列インデックス
更新処理の第３の例を示す図である。ここでも、図７に
おけるステップ１６７０において“SGML”からは、“S
G”,“GM”及び“ML”を抽出することとなるが、これら
はいずれも図１２の登録処理において文字列インデック
スにおける文字列接続情報管理部に登録済みである為、
ステップ１６８０における判定結果はいずれも“yes”
である為、ステップ１６９０に示す処理は実行されな
い。

【０１３２】次に、ステップ１７００において該当イン
デックスグループ識別子がインデックスポインタテーブ
ル中に存在するか否かを判定するが、既にインデックス
グループ識別子G5はインデックスポインタテーブルに登
録されているので、ステップ１７２０において“SG”,
“GM”及び“ML”に関する文書識別子、文脈識別子及び
文字位置をインデックスデータを該当するインデックス
グループのデータ末尾に付加する。そして、ステップ１
７３０において該当インデックスデータに関する末尾ポ
インタを更新する。

【０１３３】以上が本実施形態における登録処理の内容
である。次に、本実施形態における検索時の処理につい
て説明する。本実施形態に対してネットワーク（図示せ
ず）を介してユーザから検索コマンドが入力されると、
システム制御プログラム１００は検索制御プログラム１
２０を起動し、文書の検索処理を開始する。文書検索時
の処理を図１５に示すPADを用いて説明する。

【０１３４】図１５は本実施形態の文書検索処理の処理
内容を示すPAD図である。始めに、検索制御プログラム
１２０はステップ２０００で検索条件解析プログラム１
８０を実行する。すなわち、本処理では検索条件式を解
析し、検索タームからインデックスの照合処理に用いる
部分文字列を抽出する。部分文字列の抽出方法として
は、文字列インデックスとして隣接する２文字を抽出し
ている本例においては、検索タームが２文字以内の場合
には検索タームそのものを、検索タームが４文字以上の
偶数の文字数（文字数＝４、６、８、…）の場合には検
索ターム中の隣り合う２文字を互いに重複する文字が存
在しない様に抽出する。また検索タームが３文字以上の
奇数の文字数（文字数＝３、５、７、…）の場合には、
先頭から互いに重複しない２文字を抽出していき、最後
の２文字についてのみ１文字重複させる様に抽出する。
また、指定された構造指定検索条件で、構造インデック
ス格納領域３２０に格納された構造インデックスを参照
することにより、指定された要素の下位に存在する全て
の文字列データに関する文脈識別子を抽出する。

【０１３５】次に、ステップ２０１０においてインデッ
クスグループ識別子抽出プログラム１９０を実行し、論
理構造管理テーブル格納領域３００に格納された論理構
造管理テーブルを参照することにより検索対象に指定さ
れた要素に関するインデックスグループ識別子を抽出す
る。

【０１３６】更に、ステップ２０２０において構造化文
字位置データ抽出プログラム２００を実行し、ステップ
２０００において抽出した部分文字列についてステップ
２０１０において抽出したインデックスグループ識別子
に関するインデックスデータを文字インデックス格納領
域３４０からワークエリア２２０に読み出した後、検索
対象に指定した要素に関する文脈識別子に関するインデ
ックスデータのみを抽出する。

【０１３７】最後に、検索制御プログラム１２０はステ
ップ２０３０においてインデックス検索プログラム２１
０を実行し、ステップ２０２０において抽出した検索タ
ームから抽出した部分文字列に関するインデックスデー
タ間の隣接判定を行うことにより、指定した検索ターム
が指定した論理構造中に含まれる文書を抽出する。この
結果を検索制御プログラム１２０がユーザに返送し、検
索処理を完了する。

【０１３８】以上が本実施形態における検索処理の内容
である。引き続き、登録処理の例において示した様に、
図２２に示した文書が登録された構造化文書データベー
スを対象として、“論文”における“本文”中の“章”
に含まれる“段落”を対象として“SGML”という検索タ
ームを含む文書の検索処理について例を挙げて説明す
る。

【０１３９】まず、図１５におけるステップ２０００に
おいて、検索ターム“SGML”から、インデックスの照合
処理に使用する部分文字列を抽出する。すなわち、検索
ターム“SGML”は４文字以上の偶数文字列であるから、
部分文字列としては互いに重複しない隣接する２文字の
部分文字列として“SG”と“ML”を抽出する。更に、検
索対象の構造名である“論文”における“本文”中の
“章”に含まれる“段落”をキーに図１０における構造
インデックスを参照していくことにより、該当要素の下
位に存在する文字列データに関する文脈識別子として
“C6”と“C7”を抽出する。

【０１４０】次に、図１５におけるステップ２０１０に
おいて、検索対象の構造名である“論文”における“本
文”中の“章”に含まれる“段落”をキーに、図８の論
理構造管理テーブルを参照することにより、該当するイ
ンデックスグループ識別子“G5”を抽出する。

【０１４１】図１６は本実施形態の文字列インデックス
の抽出処理を示す図である。更に、図１５におけるステ
ップ２０２０において構造化文字位置データ抽出プログ
ラム２００を実行することにより、文字インデックス格
納領域３４０中に格納されたインデックスデータの中か
ら、照合処理に必要となるインデックスデータを抽出す
る。すなわち、図１６の様に文字列インデックスを参照
し、まず文字列接続情報を“SG”で探索することによ
り、部分文字列“SG”に関するインデックスポインタテ
ーブルを参照する。

【０１４２】そして、インデックスポインタテーブルに
おいて検索対象構造に関するインデックスグループ識別
子G5を抽出することにより読み出し対象となるインデッ
クスデータのファイル識別子として“３”を、また先頭
ポインタ及び末尾ポインタとして、それぞれ“Ps6”及
び“Pe6”を抽出し、その中から文脈識別子が所定の条
件を満たす、すなわち“C6”または“C7”に属するもの
を抽出し、インデックスデータ[D1,C6,6]及び[D1,C7,5]
を得る。また、“ML”についても同様にインデックスデ
ータ[D1,C6,7]及び[D1,C7,6]を読み出す。

【０１４３】図１７は本実施形態の構造化文書検索シス
テムのインデックス検索処理を示す図である。最後に、
図１５におけるステップ２０３０においてインデックス
データ間の隣接関係を判定することにより、検索ターム
で指定された論理構造中に含まれる文書を抽出する構造
化文字位置データ抽出プログラム２００を実行する。す
なわち、ステップ２０２０において、抽出されるインデ
ックスデータは検索対象構造の文脈識別子に属すること
が保証されている為、ここでは図１７の通り、(1)文書
識別子が同一であり、(2)文脈識別子が同一であり、(3)
文字位置が２文字隣接している条件で照合することによ
り、これら２組のインデックスが検索条件を満たしてい
ることを判定できる。

【０１４４】以上が本実施形態における検索処理の内容
である。この様に、本実施形態では構造化文書の論理構
造定義情報（DTD）を基に、繰り返しを持つ要素におい
て、同一の要素名を持つ文字列データに対し、同一のイ
ンデックスグループを割り当て、これらを連続したデー
タ領域に格納する。そして検索時には、該当インデック
スグループのインデックスデータのみを読み込み、それ
以外の論理構造のインデックスデータを読み込みの対象
から外すことにより、無駄なデータ読み出しを省き、ひ
いては高速な構造指定検索を実現することが可能にな
る。

【０１４５】なお、本実施形態では文字列インデックス
として、文書中の隣接する２文字の部分文字列を抽出す
る方法について述べたが、１文字または３文字以上の文
字列を抽出する方法についても同様に適用することが可
能である。また、形態素解析、文字種別情報、データベ
ース内の頻度情報及び単語辞書等を用いて抽出した単語
を単位にインデックスを作成する方法についても同様に
適用することが可能である。

【０１４６】更に、本実施形態では構造化文書としてSG
ML文書を対象として説明を行ったが、そのサブセットで
あるXML(eXtensible Markup Language)や、別の構造化
文書形式であるODA(Office Document Architecture)に
ついても適用可能である。

【０１４７】以上説明した様に本実施形態の構造化文書
検索システムによれば、検索用の文字列インデックスを
構造指定検索時に参照される単位に分割して二次記憶上
に格納するので、目的とする論理構造だけを対象に指定
する構造指定検索を高速に実現することが可能である。

【０１４８】（実施形態２）以下に１件の文書が複数の
論理構造で構成される構造化文書に対し、文書の登録時
に該当データベースに対して設定されたインデックスグ
ループ定義ファイルを参照することにより、検索時に同
時に指定される可能性の高い論理構造群を抽出し、これ
らに対して同一のインデックスグループ識別子を割り当
てて、目的とする論理構造だけを対象とした検索を高速
に行う実施形態２の構造化文書検索システムについて説
明する。

【０１４９】実施形態１では、文書データベースに登録
済み文書が存在しない状態の段階、すなわちデータベー
スの初期時に論理構造管理テーブル生成プログラム１３
０を実行し、構造化文書の論理構造定義情報DTDから繰
り返しのある論理構造を抽出し、その中の同一の要素名
を持つ文字列データに対し、同一のインデックスグルー
プ識別子を付与し、検索時には、該当インデックスグル
ープのインデックスデータのみを読み出し、それ以外の
論理構造のインデックスデータを読み込みの対象から外
すことにより、無駄なデータ読み出しを省き、ひいては
高速な構造指定検索を実現する方法について説明した。

【０１５０】これに対し、以下に説明する実施形態２で
は、文書の登録時に該当データベースに対して設定され
たインデックスグループ定義ファイルを参照することに
より、検索時に同時に指定される可能性の高い論理構造
群を抽出し、これらに対して同一のインデックスグルー
プ識別子を割り当てる。そして、検索時に該当インデッ
クスグループに属する構造が検索対象に指定された場合
には、これらのインデックスデータを一括して読み出
し、データの読み出し回数を低減することにより、高速
な構造指定検索を実現する方法について説明する。

【０１５１】図１８は本実施形態の構造化文書検索シス
テムの概略構成を示す図である。図１８の様に本実施形
態の構造化文書検索システムは定義ファイル参照型論理
構造管理テーブル生成プログラム１３１を有している。
定義ファイル参照型論理構造管理テーブル生成プログラ
ム１３１はインデックスグループ定義情報により、検索
時に一括して参照される可能性の高い文字列データの組
に所定のインデックスグループ識別子を付与した論理構
造管理テーブルを作成する処理部である。

【０１５２】コンピュータを構造化文書検索システムと
して機能させる為の定義ファイル参照型論理構造管理テ
ーブル生成プログラム１３１は、ＣＤ−ＲＯＭ等の記録
媒体に記録され磁気ディスク等に格納された後、メモリ
にロードされて実行されるものとする。なお前記プログ
ラムを記録する媒体はＣＤ−ＲＯＭ以外の他の媒体でも
良い。

【０１５３】本図に示す構造化文書検索システムの構成
は、図１に示した実施形態１における構成図において論
理構造管理テーブル生成プログラム１３０が定義ファイ
ル参照型論理構造管理テーブル生成プログラム１３１に
置き換わる構成となっている。

【０１５４】まず、本実施形態における構造化文書検索
方法では、文書登録の前にシステム管理者が検索時に同
時に参照される可能性の高い構造群を、例えば、図１９
の構成のインデックスグループ定義ファイルとして格納
しておく。

【０１５５】図１９は本実施形態のインデックスグルー
プ定義ファイルの例を示す図である。また、ここで言
う、検索時に同時に参照される可能性の高い構造群とし
ては、主に以下に示す構造群を想定している。

【０１５６】・同一の構造を親（上位）の構造として
持つ構造群（例えば、図２２の構造化文書における<タ
イトル>と<出典>等。出典を指定して論文タイトルを検
索する時に、同時に指定される可能性が高い。この様な
例としては他に、<姓>と<名>の構造（図示せず）、<氏
名>の構造の下位構造としての定義や<所属>と<氏名>
（図示せず）、<著者>の構造の下位構造としての定義等
がある）。

【０１５７】・ある構造の下位の構造全てを含む構造
群（例えば図２２の構造化文書における<論文.本文.章>
の下位構造である、<章題>、<段落>及び<論文.本文.章.
節>の下位構造である<節題>、<段落>等。検索時には、
本文を対象として検索を実行される可能性が高く、その
場合にはこれらの構造に関するインデックスは一括して
参照される可能性が高い）。

【０１５８】そして、図１９のインデックスグループ定
義ファイルでは、最上位構造である<論文>の構造からの
階層関係を“.”（ピリオド）で区切って記述してお
り、またこれらの構造群の間を“,”（コンマ）で区切
って記述することにより、これらの構造群を同一のイン
デックスグループとして扱うものとして定義している。

【０１５９】次に、実施形態１と構成の異なる定義ファ
イル参照型論理構造管理テーブル生成プログラム１３１
の処理内容について説明する。はじめに、定義ファイル
参照型論理構造管理テーブル生成プログラム１３１の処
理フローを説明する。

【０１６０】図２０は本実施形態の定義ファイル参照型
論理構造管理テーブル生成プログラム１３１の処理内容
を示すPAD図である。本実施形態における定義ファイル
参照型論理構造管理テーブル生成プログラム１３１で
は、はじめにステップ１１０１を実行し、主メモリ６０
上のワークエリア２２０に読み込んだDTDに示される文
書の論理構造を上位から順々に展開していき、要素の内
容が文字列“#PCDATA”で表される最下位構造に至るま
で主メモリ上のワークエリア２２０に木構造データとし
て展開する。

【０１６１】また、ステップ１１１１においてDTDの構
文内部矛盾や未定義要素が存在する等のエラーがあった
か否かを判定し、エラーがあった場合にはステップ１１
２１でエラーメッセージを出力して処理を中断する。こ
こまでは、図３に示した実施形態１における論理構造管
理テーブル生成プログラム１３０と同一の処理内容であ
る。

【０１６２】そして、ステップ１１３１において図２０
に示したインデックスグループ定義ファイルを参照し、
検索時に同時に参照される可能性の高い構造群を抽出す
る。論理構造管理テーブルの最上位から該当構造名で順
次照合していき、図２１の様に、該当する構造群に対し
て同一のインデックスグループ識別子を割り当てること
により、論理構造管理テーブルを生成する。

【０１６３】図２１は本実施形態の論理構造管理テーブ
ルの構成例を示す図である。すなわち、〈論文.文献リ
スト.文献.タイトル〉の構造と〈論文.文献リスト.文
献.出典〉の構造に同一のインデックスグループ識別子
“G8”を、また〈論文.本文.章.章題〉,〈論文.本文.
章.段落〉,〈論文.本文.章.節.節題〉及び〈論文.本文.
章.節.段落〉の構造に同一のインデックスグループ識別
子“G4”を割り当てる。最後に、ステップ１１４１でこ
れを磁気ディスク装置７０上の論理構造管理テーブル格
納領域３００に格納し、処理を終了する。

【０１６４】以上が本実施形態における定義ファイル参
照型論理構造管理テーブル生成プログラム１３１の処理
内容である。

【０１６５】この様に、本実施形態における定義ファイ
ル参照型論理構造管理テーブル生成プログラム１３１で
は、登録時に予め作成されたインデックスグループ定義
ファイルを参照することにより、同時に参照される可能
性の高い構造群に対して同一のインデックスグループ識
別子を割り当てた論理構造管理テーブルを生成する。こ
れにより、検索時には該当する構造群に関するインデッ
クスデータを一括して読み出すことが可能になり、デー
タの読み出し回数を低減することにより高速な構造指定
検索を実現することが可能になる。

【０１６６】なお、本実施形態においてはインデックス
グループの作成対象となる構造群をシステム管理者が予
め定義しておく方法について説明したが、例えば〈書
誌〉と〈本文〉等の様に検索目的が異なる構造群に対し
ては、システムが自動的にインデックスグループを設定
することも可能である。

【０１６７】以上説明した様に本実施形態の構造化文書
検索システムによれば、検索用の文字列インデックスを
構造指定検索時に参照される単位に分割して二次記憶上
に格納するので、目的とする論理構造だけを対象に指定
する構造指定検索を高速に実現することが可能である。

【０１６８】

【発明の効果】本発明によれば検索用の文字列インデッ
クスを構造指定検索時に参照される単位に分割して二次
記憶上に格納するので、目的とする論理構造だけを対象
に指定する構造指定検索を高速に実現することが可能で
ある。

【図面の簡単な説明】

【図１】実施形態１の構造化文書検索システムの概略構
成を示す図である。

【図２】実施形態１の文書登録処理の処理内容を示すPA
D図である。

【図３】実施形態１の論理構造管理テーブル生成プログ
ラム１３０の処理内容を示すPAD図である。

【図４】実施形態１のインデックスグループ識別子付加
型解析済みデータ生成プログラム１４０の処理内容を示
すPAD図である。

【図５】実施形態１の構造インデックス生成プログラム
１５０の処理内容を示すPAD図である。

【図６】実施形態１のインデックスグループ識別子付加
型構造化全文データ生成プログラム１６０の処理内容を
示すPAD図である。

【図７】実施形態１の文字列インデックス生成プログラ
ム１７０の処理内容を示すPAD図である。

【図８】実施形態１の論理構造管理テーブルの構成例を
示す図である。

【図９】実施形態１のインデックスグループ識別子付加
型解析済み構造木の例を示す図である。

【図１０】実施形態１の構造インデックスの例を示す図
である。

【図１１】実施形態１のインデックスグループ識別子付
加型の構造化全文データの例を示す図である。

【図１２】実施形態１の文字列インデックス更新処理の
第１の例を示す図である。

【図１３】実施形態１の文字列インデックス更新処理の
第２の例を示す図である。

【図１４】実施形態１の文字列インデックス更新処理の
第３の例を示す図である。

【図１５】実施形態１の文書検索処理の処理内容を示す
PAD図である。

【図１６】実施形態１の文字列インデックスの抽出処理
を示す図である。

【図１７】実施形態１の構造化文書検索システムのイン
デックス検索処理を示す図である。

【図１８】実施形態２の構造化文書検索システムの概略
構成を示す図である。

【図１９】実施形態２のインデックスグループ定義ファ
イルの例を示す図である。

【図２０】実施形態２の定義ファイル参照型論理構造管
理テーブル生成プログラム１３１の処理内容を示すPAD
図である。

【図２１】実施形態２の論理構造管理テーブルの構成例
を示す図である。

【図２２】従来のSGML形式で記述された構造化文書の例
を示す図である。

【図２３】図２２に示した構造化文書の構造定義DTDを
示す図である。

【図２４】公知例１における解析済み木構造データの例
を示す図である。

【図２５】公知例１における構造インデックスの例を示
す図である。

【図２６】公知例１における構造化全文データの例を示
す図である。

【図２７】公知例１における検索用インデックスの例を
示す図である。

【図２８】公知例１において各構造の構造長を検索用イ
ンデックス内に格納する方法の概略を示す図である。

【符号の説明】

１０…ディスプレイ、２０…キーボード、３０…ＣＰ
Ｕ、４０…フロッピディスクドライブ、５０…フロッピ
ディスク、６０…主メモリ、７０…磁気ディスク装置、
８０…バス、１００…システム制御プログラム、１１０
…登録制御プログラム、１２０…検索制御プログラム、
２２０…ワークエリア、３００…論理構造管理テーブル
格納領域、３１０…インデックスグループ識別子付加型
解析済みデータ格納領域、３２０…構造インデックス格
納領域、３３０…インデックスグループ識別子付加型構
造化全文データ格納領域、３４０…文字インデックス格
納領域、１３０…論理構造管理テーブル生成プログラ
ム、１４０…インデックスグループ識別子付加型解析済
みデータ生成プログラム、１５０…構造インデックス生
成プログラム、１６０…インデックスグループ識別子付
加型構造化全文データ生成プログラム、１７０…文字列
インデックス生成プログラム、１８０…検索条件解析プ
ログラム、１９０…インデックスグループ識別子抽出プ
ログラム、２００…構造化文字位置データ抽出プログラ
ム、２１０…インデックス検索プログラム、１３１…定
義ファイル参照型論理構造管理テーブル生成プログラ
ム。

───────────────────────────────────────────────────── フロントページの続き (72)発明者菅谷奈津子神奈川県横浜市都筑区加賀原二丁目２番株式会社日立製作所システム開発本部内 (72)発明者松林忠孝神奈川県横浜市都筑区加賀原二丁目２番株式会社日立製作所システム開発本部内 (72)発明者川下靖司神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア開発本部内Ｆターム(参考） 5B075 ND03 ND35 NK02 NK22 NK43 NR06 NR12 UU06

Claims

【特許請求の範囲】

【請求項１】１件の文書が複数の論理構造で構成され
る構造化文書を登録する文書登録方法において、登録対象文書における論理構造定義情報またはインデッ
クスグループ定義情報により、検索時に一括して参照さ
れる可能性の高い文字列データの組に所定のインデック
スグループ識別子を付与した論理構造管理テーブルを作
成する論理構造管理テーブル生成登録ステップと、該論理構造管理テーブルを参照しながら登録対象文書の
持つ論理構造を解析し、該登録対象文書中に出現した文
字列データにインデックスグループ識別子を付与した解
析済みデータを生成するインデックスグループ識別子付
加型解析済みデータ生成ステップと、該インデックスグループ識別子付加型解析済みデータを
入力として、メタ要素群及びメタ文字列群の木構造から
構成される構造インデックスを生成し、該構造インデッ
クスを構成するメタノードを構造インデックス内で一意
に識別する識別子である文脈識別子を付与する構造イン
デックス生成ステップと、該インデックスグループ識別子付加型解析済みデータと
構造インデックスを入力として、該登録対象文書中に出
現した各論理構造に属する文字列データに対して、文脈
識別子とインデックスグループ識別子を対応付けて構成
したインデックスグループ識別子付加型の構造化全文デ
ータを生成するインデックスグループ識別子付加型構造
化全文データ生成ステップと、該インデックスグループ識別子付加型構造化全文データ
における文字列データから所定の部分文字列を抽出し、
前記登録対象文書を文書データベースにおいて一意に識
別する為の文書識別子と、前記部分文字列に対応する論
理構造の文脈識別子と、該登録対象文書中での文字位置
情報を組とした構造化文字位置情報を生成し、これを各
部分文字列に関する論理構造のインデックスグループ識
別子毎に蓄積、管理することにより、構造指定検索用の
文字列インデックスを生成する文字列インデックス生成
ステップとを有することを特徴とする文書登録方法。
【請求項２】前記インデックスグループ定義情報は、
同一の構造を上位構造として持つ構造群におけるインデ
ックスデータを同一のインデックスグループとして集約
化するものであることを特徴とする請求項１に記載され
た文書登録方法。
【請求項３】前記インデックスグループ定義情報は、
所定の構造の下位の構造として位置付けられる構造群に
おけるインデックスデータを同一のインデックスグルー
プとして集約化するものであることを特徴とする請求項
１に記載された文書登録方法。
【請求項４】１件の文書が複数の論理構造で構成され
る構造化文書を検索する文書検索方法において、検索条件式を解析し、指定された構造指定検索条件を満
たす要素名と、検索タームからインデックスの照合処理
に用いる部分文字列を抽出し、更にメタ要素群及びメタ
文字列群の木構造から構成される構造インデックスを参
照することにより該当する要素名に関する文脈識別子を
抽出する検索条件解析ステップと、検索時に一括して参照される可能性の高い文字列データ
を示すインデックスグループ識別子を付与した論理構造
管理テーブルを参照し、指定された検索条件を満たす文
脈識別子に対応するインデックスグループ識別子を抽出
するインデックスグループ識別子抽出ステップと、検索ターム中の所定の部分文字列について、前記インデ
ックスグループ識別子抽出ステップにおいて抽出された
インデックスグループ識別子に関する構造化文字位置情
報を文字列インデックスから抽出する構造化文字位置デ
ータ抽出ステップと、前記構造化文字位置情報中から、前記検索条件解析ステ
ップで抽出した文脈識別子を持ち、かつ前記検索ターム
における部分文字列の並びと同じ位置関係を持つ構造化
文字位置情報を抽出するインデックス検索ステップとを
有することを特徴とする文書検索方法。
【請求項５】１件の文書が複数の論理構造で構成され
る構造化文書を登録する文書登録装置において、登録対象文書における論理構造定義情報またはインデッ
クスグループ定義情報により、検索時に一括して参照さ
れる可能性の高い文字列データの組に所定のインデック
スグループ識別子を付与した論理構造管理テーブルを作
成する論理構造管理テーブル生成登録処理部と、該論理構造管理テーブルを参照しながら登録対象文書の
持つ論理構造を解析し、該登録対象文書中に出現した文
字列データにインデックスグループ識別子を付与した解
析済みデータを生成するインデックスグループ識別子付
加型解析済みデータ生成処理部と、該インデックスグループ識別子付加型解析済みデータを
入力として、メタ要素群及びメタ文字列群の木構造から
構成される構造インデックスを生成し、該構造インデッ
クスを構成するメタノードを構造インデックス内で一意
に識別する識別子である文脈識別子を付与する構造イン
デックス生成処理部と、該インデックスグループ識別子付加型解析済みデータと
構造インデックスを入力として、該登録対象文書中に出
現した各論理構造に属する文字列データに対して、文脈
識別子とインデックスグループ識別子を対応付けて構成
したインデックスグループ識別子付加型の構造化全文デ
ータを生成するインデックスグループ識別子付加型構造
化全文データ生成処理部と、該インデックスグループ識別子付加型構造化全文データ
における文字列データから所定の部分文字列を抽出し、
前記登録対象文書を文書データベースにおいて一意に識
別する為の文書識別子と、前記部分文字列に対応する論
理構造の文脈識別子と、該登録対象文書中での文字位置
情報を組とした構造化文字位置情報を生成し、これを各
部分文字列に関する論理構造のインデックスグループ識
別子毎に蓄積、管理することにより、構造指定検索用の
文字列インデックスを生成する文字列インデックス生成
処理部とを備えることを特徴とする文書登録装置。
【請求項６】１件の文書が複数の論理構造で構成され
る構造化文書を検索する文書検索装置において、検索条件式を解析し、指定された構造指定検索条件を満
たす要素名と、検索タームからインデックスの照合処理
に用いる部分文字列を抽出し、更にメタ要素群及びメタ
文字列群の木構造から構成される構造インデックスを参
照することにより該当する要素名に関する文脈識別子を
抽出する検索条件解析処理部と、検索時に一括して参照される可能性の高い文字列データ
を示すインデックスグループ識別子を付与した論理構造
管理テーブルを参照し、指定された検索条件を満たす文
脈識別子に対応するインデックスグループ識別子を抽出
するインデックスグループ識別子抽出処理部と、検索ターム中の所定の部分文字列について、前記インデ
ックスグループ識別子抽出処理部において抽出されたイ
ンデックスグループ識別子に関する構造化文字位置情報
を文字列インデックスから抽出する構造化文字位置デー
タ抽出処理部と、前記構造化文字位置情報中から、前記検索条件解析処理
部で抽出した文脈識別子を持ち、かつ前記検索タームに
おける部分文字列の並びと同じ位置関係を持つ構造化文
字位置情報を抽出するインデックス検索処理部とを備え
ることを特徴とする文書検索装置。
【請求項７】１件の文書が複数の論理構造で構成され
る構造化文書を登録する文書登録装置としてコンピュー
タを機能させる為のプログラムを記録した媒体におい
て、登録対象文書における論理構造定義情報またはインデッ
クスグループ定義情報により、検索時に一括して参照さ
れる可能性の高い文字列データの組に所定のインデック
スグループ識別子を付与した論理構造管理テーブルを作
成する論理構造管理テーブル生成登録処理部と、該論理構造管理テーブルを参照しながら登録対象文書の
持つ論理構造を解析し、該登録対象文書中に出現した文
字列データにインデックスグループ識別子を付与した解
析済みデータを生成するインデックスグループ識別子付
加型解析済みデータ生成処理部と、該インデックスグループ識別子付加型解析済みデータを
入力として、メタ要素群及びメタ文字列群の木構造から
構成される構造インデックスを生成し、該構造インデッ
クスを構成するメタノードを構造インデックス内で一意
に識別する識別子である文脈識別子を付与する構造イン
デックス生成処理部と、該インデックスグループ識別子付加型解析済みデータと
構造インデックスを入力として、該登録対象文書中に出
現した各論理構造に属する文字列データに対して、文脈
識別子とインデックスグループ識別子を対応付けて構成
したインデックスグループ識別子付加型の構造化全文デ
ータを生成するインデックスグループ識別子付加型構造
化全文データ生成処理部と、該インデックスグループ識別子付加型構造化全文データ
における文字列データから所定の部分文字列を抽出し、
前記登録対象文書を文書データベースにおいて一意に識
別する為の文書識別子と、前記部分文字列に対応する論
理構造の文脈識別子と、該登録対象文書中での文字位置
情報を組とした構造化文字位置情報を生成し、これを各
部分文字列に関する論理構造のインデックスグループ識
別子毎に蓄積、管理することにより、構造指定検索用の
文字列インデックスを生成する文字列インデックス生成
処理部としてコンピュータを機能させる為のプログラム
を記録したことを特徴とする媒体。
【請求項８】１件の文書が複数の論理構造で構成され
る構造化文書を検索する文書検索装置としてコンピュー
タを機能させる為のプログラムを記録した媒体におい
て、検索条件式を解析し、指定された構造指定検索条件を満
たす要素名と、検索タームからインデックスの照合処理
に用いる部分文字列を抽出し、更にメタ要素群及びメタ
文字列群の木構造から構成される構造インデックスを参
照することにより該当する要素名に関する文脈識別子を
抽出する検索条件解析処理部と、検索時に一括して参照される可能性の高い文字列データ
を示すインデックスグループ識別子を付与した論理構造
管理テーブルを参照し、指定された検索条件を満たす文
脈識別子に対応するインデックスグループ識別子を抽出
するインデックスグループ識別子抽出処理部と、検索ターム中の所定の部分文字列について、前記インデ
ックスグループ識別子抽出処理部において抽出されたイ
ンデックスグループ識別子に関する構造化文字位置情報
を文字列インデックスから抽出する構造化文字位置デー
タ抽出処理部と、前記構造化文字位置情報中から、前記検索条件解析処理
部で抽出した文脈識別子を持ち、かつ前記検索タームに
おける部分文字列の並びと同じ位置関係を持つ構造化文
字位置情報を抽出するインデックス検索処理部としてコ
ンピュータを機能させる為のプログラムを記録したこと
を特徴とする媒体。