JP4234698B2

JP4234698B2 - 構造化文書処理システム

Info

Publication number: JP4234698B2
Application number: JP2005179120A
Authority: JP
Inventors: 淳一小田切; 哲中島; 茂吉田; 卓郎山口
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-06-20
Filing date: 2005-06-20
Publication date: 2009-03-04
Anticipated expiration: 2025-06-20
Also published as: JP2006350901A; US20060288276A1

Description

本発明は，SGML(Standard Generated Markup Language)，XML( Extensible Markup Language)，HTML(HyperText Markup Language)文書などの構造化文書を処理する構造化文書処理システムに関する。

インターネットの目覚しい普及に伴い，インターネットを通じて複数のシステム，サービス間で連携するデータを構造化文書で記述するケースが増えてきた。これは，データの連携が多様化するに連れ，データ構造を容易に決定，拡張できるようにする必要が生じたことによる。構造化文書は，データのみならずデータの意味を表わすタグを持つ。

図２３は、構造化文書のデータ構成を説明する図である。
＜商品名＞が商品名のデータのはじめを示すタグであり、＜／商品名＞が商品名のデータの終わりを示すタグである。このように、はじめのタグと終わりのタグではさまれたものが、タグがあらわす種類のデータの中身となる。

各システム，サービスはこのタグを元にデータの意味を理解して自動的に処理する。この構造化文書は単なるテキスト文書であるため，例えば、あるデータを追加したい場合などは，そのデータをタグで囲んで挿入すればよい。現在は構造化文書の中でもXMLが特に使用されるようになっている。

XMLデータは，データ構造を容易に決定，拡張できる反面，タグの分だけ単純にデータ量が増大する。更に，データ構造を解析する必要があるため，正味のデータのみを処理するのに比較して計算量が増大する。このため，XMLを活用するシステムでは，既存のシステムと比較して処理速度が低下する，メインメモリの消費量が多くなるといった，コンピュータのリソース消費が課題となる。この結果，特にRDB（relational database）などのレガシーから出力された大容量データを処理する場合，例えば，日々大量に出力されるデータ（店舗から日々計上される売上データなど）などを処理する場合などは，リソースの消費を如何に抑えるかが重要となる。

しかし,従来のXMLパーサー（XMLを解析する基盤ソフトウェア）で，XMLデータを処理しようとするとメモリ容量が不足する，処理速度が低下する，あるいはプログラマの作りこみが増大する，などの課題が生じている。以下に従来技術として2種類のXMLパーサーを示す。
従来技術１： SAXを使う場合
図２４は、SAXを説明する図である。

データを一回だけ参照して処理するような簡単なデータ処理では， SAX(Simple API for XML)パーサーが使われる。これは，データを要素単位にストリーム状に解析，処理する。この技術には以下のような利点・欠点が存在する。

利点：
データを読み込んだ際に、オブジェクトを生成，蓄積せずに次の処理へ渡すため、メモリ使用量は少ない
欠点：
オブジェクトを生成しないため、参照するだけならば最適だが，既存のデータに処理を行って、更に次の処理を行う場合などは、処理の必要性から、後でオブジェクトを生成することになる。

更に，データの参照は一回のみ可能であるため，データをランダムアクセスして複数のデータをつき合わせるマージ（RDBのテーブル同士の結合処理）のような処理はほぼ不可能である。

従来技術２： DOMを使う場合
図２５〜図２７は、DOMを説明する図である。
DOM(Document Object Model)パーサーは、全データを一旦メモリ上に木構造状のオブジェクトとして展開する。検索，編集時の手順は次のようになる。
１．全データを一旦メモリ中に木構造状に展開する
２．メモリ上の木構造を辿ってデータを検索，編集する
利点：
メモリ上にデータが展開されているため、1回しかデータを参照できないSAXとは異なりランダムアクセスを行うことができる。このため検索，編集の操作が容易である。

欠点：
XMLデータ中の全てのタグと、タグの内容を木構造のオブジェクトとして展開する。しかし、木構造状のオブジェクトを形成するためにはタグ毎にオブジェクトを生成することになり、このタグのオブジェクトは図２６のように親のタグ（販売結果）のオブジェクトに対するポインタ，子供のタグ（小計、単価、個数、商品番号）のオブジェクトに対するポインタなど,非常に多くの情報(メンバ変数)を持つ必要がある。

このため、一度に多くのメモリと処理時間を必要とする。典型的には、ファイルサイズの約4倍のメモリを使用し，メモリ消費量が余りにも多いと、システムの処理中に、ページング、スワップが起きてシステム性能が極端に悪くなる可能性がある。

このため、例えば、図２７のような結合処理を行う場合は、一度に非常に多くのメモリ量を必要とする。
図２７の場合、商品番号と個数をデータとして持つ、販売数を登録した販売結果と、商品番号、商品名、単価からなる商品のデータを登録する商品マスタのデータを商品番号で照らし合わせ、販売小計を出す処理をしている。まず、DOMは、販売結果のデータと商品マスタのデータをそれぞれ木構造のオブジェクトデータに展開し、それぞれのオブジェクトデータから商品番号を抜き出し、同じ商品番号のデータをマージする。これにより、販売結果のオブジェクトは、各販売数に登録されるデータとして、新たに単価を持つことになる。そして、このようにして得られた販売結果のデータを用いて、各販売数のデータについて小計を計算し、データとして加える。

従来の構造化文書を扱う装置として、特許文献１と２が知られている。特許文献１においては、構造化文書を部分構造に分解してリレーショナルデータベースに格納し、構造化文書の文書構造の検索や属性の検索を高速化している。特許文献２においては、構造化文書を木構造に展開し、これを部分木に分けて管理し、部分木の展開によって処理を行うことにより、処理の高速化を図っている。
特開２００３−６７４０２号公報特開２００３−１７８０４９号公報

SAXはメモリ消費量が少なく，処理時間も短いことが利点だが，データのランダムアクセスが不可能であったため，複数データの突合せ処理のような複雑な処理は現実的には不可能であった。DOMはランダムアクセスが可能なことが利点だが，全データを木構造のオブジェクトとして展開するため，メモリ消費量および処理時間の増大と、次の処理へのデータの引渡しが困難であった。

本発明の課題は、メモリ消費量が少なく、複雑な処理がデータに対して可能になる構造化文書処理システムを提供することである。

構造化文書から必要なデータ群が記述されている部分を特定し、該データ群をテキストデータとして保持するデータ抽出保持手段と、本発明の構造化文書処理システムは、該抽出されたテキストデータ内から特定情報をテキスト検索によって抽出する特定情報抽出手段と、該抽出された特定情報を用いて所望の処理を該データ群に対し施す処理手段とを備えることを特徴とする。

本発明によれば，構造化文書を木構造を生成せずに部分的に参照、検索、編集処理が可能となるため、計算コストの軽減、メモリ使用量の削減に大きな効果がある。

本発明の実施形態においては，構造化文書中のタグデータを処理解析して，その一部をユーザアプリケーションに渡すものである。ユーザアプリケーションは渡された文書をもとにデータ処理を行い、各種サービスなどを提供する。

特に、XML文書をレコード(処理の最小単位)ごとに文字列として抽出して、該文字列データとして抽出されたレコードのデータをテキストベースで扱うことで課題を解決する。
図１は、本発明の実施形態のデータの扱い方法を説明する図である。

XML文書には、先に説明したように、タグが設けられ、タグによって囲まれたデータをそれぞれ個別に処理することができる。図１に示されるように、商品情報のデータには、商品名、価格、品番のデータがあるが、これらは商品情報の１つのレコードを構成している。本発明の実施形態では、このレコードを文字列として抽出し、文字列データとして保持しておく。このようにして保持されたレコードのデータは、文字列データとしてテキストベースで格納されるので、データ容量が小さくてすむ。この文字列データを基に、後にオブジェクトを展開するか否かは任意である。

RDB等から出力されるデータは複数のレコードから構成される。レコードとは各処理で必要なデータの最小単位である。このためレコード単位で引き渡して順次処理を行うことが可能となる。

図２は、レコード単位の処理の例を示す図である。
図２では、販売情報のデータと、商品情報のデータを処理して、販売情報に、価格と販売額の合計のデータを付け加える処理を示している。

この場合，各レコードの特定情報を引き出せれば，データ同士の結合処理が可能となる。図２では，品番がこれに該当する。また，レコードを文字列と見なすと、１塊のデータであるため，図２５および図２６に記載したDOMのように多数のメンバ変数を持つ必要は無い。このため，処理に必要なメモリ使用量は非常に少なくなる。

各レコードを文字列と見なして、図２の処理1を行う際には，例えば、構造化文書処理システム（特開2003-178049号、あるいは、特願2004- 42289号の技術）を利用して、次のような処理を実行する。このシステムは，各レコードの開始タグの先頭位置と終了タグのバイト位置およびそのレコード内部の要素の開始タグと終了タグのバイト位置を取得する。このため，下記のような手順で結合処理を実行できる。

図３〜図７は、図２の結合処理を説明する図である。
１．販売情報の“レコード”タグの開始タグと終了タグの先頭からのバイト位置を取得する（図３）。
２．バイト位置からレコード内の要素群を全て抽出する（図４）。
３．１．で取得したバイト位置内部に存在する品番タグを取得し，これをIDとする（図５）。
４．商品情報に対しても同様のことを行い，ID(品番)およびの“レコード”タグの開始タグと終了タグの先頭からのバイト位置を取得する（図６）。
５．同じIDを持つレコードの価格タグを２．で抽出した要素群の最後尾にマージして，この要素群を元のレコードに戻す（図７）。

この場合、各タグで示されるデータは、１塊の文字列データとして扱われることになる。このため，処理速度及びメモリ使用量は軽減される。特に，結合処理などはIDの要素内容さえ分かればよいので，全タグを木構造状に展開する必要はない。

図８は、レコード単位でのパイプライン処理を説明する図である。
また、一度に多数のレコードを処理する必要がある場合は、図８のパイプライン処理のように，各レコードに対してある処理を行ったら次の処理へ順次引き渡してゆく。図８では、処理１と処理２が独立になっており、レコードＩＤが１のレコードが処理２で処理されている間に、レコードＩＤが２のレコードが処理１で処理される。

また、XML文書の部分文書解析では、データ毎にXML宣言の部分等を参照して，XML文書がどのような文字エンコーディングで記述されているかを解析する必要がある。
図９は、XML宣言部を説明する図である。

レコードを複数含んだXML文書では、先頭に１つだけXML宣言文があれば、すべてのレコードについて、この宣言文が有効となる。しかし、各レコードを別々のXML文書とした場合には、各文書の先頭にXML宣言文が必要であり、また、文書を処理する場合に、毎回この宣言文を解析する必要がある。

この解析は時間が掛かるため，全レコードが１データに収まっているXML文書に対して処理を行えばXML宣言部の解析が一回で済むため，例えば各文書に各レコードが一つ収まっているXML文書に対してそれぞれXML宣言部の解析を行うより処理時間が非常に高速になる。

本発明の実施形態を用いると、構造化文書のパースの計算量を削減でき、パイプライン処理を行うことが可能になる。データの処理中では，データ全体を参照する必要はない場合がある。このような場合は、オブジェクトのようにパースして全データを木構造状に保持する必要はない。木構造状にオブジェクトを保持する場合は、通常、コンピュータはオブジェクト毎にこれらを管理する必要があるため、DOMオブジェクトのような複数のオブジェクトから構成されるものは特に管理するのに多くのメモリ量，多くの計算量を必要とする。このため，レコードを単一の文字列として抽出すれば，それは１塊のデータなので、メモリ量および計算量の削減につながる。

また、本発明の実施形態によれば、構造化文書パースの計算量を分散することができる。前述したように，オブジェクトを生成するのは多くのメモリ量と計算量を必要とするが、パースは他のCPUまたは他のマシンで行い、パース後のオブジェクトをアプリケーションに渡せば，アプリケーションに掛かる計算負荷を軽減させることができる。このように部分構造化文書ではなく，部分オブジェクトとして抽出することも効果がある。このようにして計算量を削減，分散させることができる。

また、特定情報の照合を高速化できる。図２では，品番を起点にして二つのデータのマージを行っている。このようなデータは，各レコードを一意に特定するものである。通常は、これを事前にピンポイントに抽出して図８のような各パイプライン処理に渡せば，各処理が即座にこの部分を参照できるため，高速に処理することが可能になる。

加えて、特定情報の照合を高速化することができる。インデックスをXMLデータ自体に埋め込めば、レコードの送信先で照合処理が高速化できる。このようにして、特定情報の照合を高速化することができる。

以下においては、二つのデータに対して結合処理を行い，販売結果を算出する処理を例に説明する。
図１０は、販売情報と商品情報を結合し、単価と小計を情報として持つ販売情報を生成する処理の概念を示す図である。

販売情報には、データの処理単位であるレコードが複数格納されており、各レコードは、品番、商品名、数量からなっている。商品情報は、商品名、価格、品番を持つレコードが複数格納されている。以下の処理においては、販売情報と商品情報の品番をつき合わせ、対応する販売情報のレコードに、単価としての価格と計算の結果得られる小計を格納する処理を行う。

図１１〜図１３は、本発明の構造化文書処理システムの第１の構成を説明する図である。
図１１において、コンピュータ１は、構造化文書保持部001、位置保持部002、部分文書抽出部003、特定情報抽出部004、ハッシュ値算出部006を保持する。構造化文書保持部001は、構造化文書を保持する。位置保持部002は、予め構造化文書を解析し，“レコード”タグおよび“品番”タグの位置情報(先頭からのバイト位置)のみを保持しておく。

部分文書抽出部003は、位置保持部002で保持している“レコード”タグのバイト位置を元に、これらレコードを部分構造化文書および構造化文書を抽出する。特定情報抽出部004は、位置保持部002で保持している“品番”タグのバイト位置を元に、この品番情報を抽出する。特定情報005は、各レコードを特定するために使用する特定情報である。ハッシュ値算出部006は、品番のバイト配列からハッシュ値を算出する。ハッシュ値007は、照合を行うためのインデックスである。照合部008で使用される。コンピュータ2は、照合部008を保持する。照合部009は、品番の照合を行う処理部である。アプリケーション011は、コンピュータ３に保持され、オブジェクト毎に数量と価格を積算して小計を算出する。

図１４〜図２０は、本発明の構造化文書処理システムの第１の構成による処理を説明する図である。
図２０のフローチャートに従い、図１４〜図１９を参照して説明する。
S001：構造化文書全体を解析し，“レコード”タグのバイト位置を取得する。はじめに販売情報の“レコード”タグの開始タグと終了タグの先頭からのバイト位置を取得，これを位置保持に保持する。図１４に示されているように、”レコード”タグのバイト位置は、読み込んだXML文書データの中をテキスト検索することにより得る。
S002： S001と同様の手法で，”レコード”タグの開始タグと終了タグの間にある品番タグのバイト位置を取得し，これを位置保持部に保持する。
S003： ”レコード”タグのバイト位置から部分構造化文書をテキストとして抽出し，部分構造化文書をテキストとして保持する。図１５に示されるように、”レコード”タグではさまれた部分のデータをテキストデータとして保持する。
S004： ”品番”タグのバイト位置から”品番”タグの内容を特定情報として抽出，保持する。図１６に示されるように、”品番”タグとその内容データである「０２０３４」を抽出、保持する。
S005：特定情報に対するハッシュ値を算出する。図１７に示されるように、”品番”タグの内容データである「０２０３４」という番号からハッシュ値を計算する。
S006：部分構造化文書毎に特定情報およびハッシュ値を付与する。
S007：特定情報の照合，結合処理を行う。すなわち、図１８に示されるように、商品情報についても同様のことを行い、品番及びレコードのタグの開始タグと終了タグの先頭からのバイト位置を取得し、品番を抽出し、品番に対応するハッシュ値を計算する。そして、商品情報から得られた部分構造化文書にハッシュ値を付与し、販売情報から得られたハッシュ値と商品情報から得られたハッシュ値を照合し、一致したものについて、販売情報の部分構造化文書に価格をマージしてもとの販売情報の部分構造化文書に書き込む。

上記構成によれば、各コンピュータにおいて各レコードの処理を行い次第、次のコンピュータにレコードを引き渡すことができるため、各コンピュータの負荷の軽減をすることができるとともに、各コンピュータが他のコンピュータの処理に依存せずに独立に行うことが可能となる。また、DOMのように木構造上のオブジェクトを生成しないため、コンピュータの付加が軽減される。

なお、ここで使用する抽出部003及び位置保持部002は、たとえば、特開２００３−１７８０４９号公報、あるいは、特願２００４−４２２８９号の技術を使用してもよいし、タグ位置を取得できるものならば、同等の効果がある。

図２１は、本発明の実施形態の構造化文書処理システムの第２の構成を示す図である。
各レコード中の発送先IDに応じて，其々の発送先が有するデータベースに振り分けて格納する処理である。

コンピュータ１は、構造化文書保持部101，位置保持部102，部分文書抽出部103，オブジェクト生成部104，オブジェクトキャッシュ部105およびアプリケーション106を保持する。構造化文書保持部101は、処理の対象となる構造化文書を保持する。部分文書抽出部102は、予め保持している“レコード”タグのバイト位置を元に，これらレコードを部分構造化文書として抽出する。タグ位置保持部103は、予め構造化文書を解析し“レコード”タグの位置情報のみを保持する。オブジェクト生成部104は、部分構造化文書から部分オブジェクトを生成する。オブジェクト生成部104は、たとえば、DOMなどである。オブジェクトキャッシュ部105は、生成したオブジェクトをキャッシュする。アプリケーション106は、生成したオブジェクトを処理する。データベース107は、各レコードを保持する。データベース108も、各レコードを保持する。データベース107、108には、アプリケーションによって、処理された後のレコードを分類して、それぞれに格納するものであり、必ずしも別のデータベースである必要はない。

図２２は、本発明の実施形態の構造化文書処理システムの第２の構成による処理を示す図である。
以下、頭２２を参照して、処理の流れについて説明する。
S101：構造化文書全体を解析し，“レコード”タグのバイト位置を取得する。はじめに販売情報の“レコード”タグの開始タグと終了タグの先頭からのバイト位置を取得し、これを位置保持に保持する。
S002： ”レコード”タグのバイト位置から部分構造化文書をテキストとして抽出し，部分構造化文書をテキストとして保持する。
S103：部分構造化文書毎に部分オブジェクトを生成し，オブジェクトキャッシュ部105に格納する。ここでは，ページング，スワッピングなどの性能劣化要因が起きない程度に生成される部分オブジェクトの数や容量を制限して、キャッシュ部に格納する。
S104：各オブジェクトの発送先IDの要素内容を見て，アプリケーションが各データベースに転送する。アプリケーションが振り分けたら，オブジェクトキャッシュ部105に格納されているオブジェクトを消去する。

（付記１）
構造化文書から必要なデータ群が記述されている部分を特定し、該データ群をテキストデータとして保持するデータ抽出保持手段と、
該抽出されたテキストデータ内から特定情報をテキスト検索によって抽出する特定情報抽出手段と、
該抽出された特定情報を用いて所望の処理を該データ群に対し施す処理手段と、
を備えることを特徴とする構造化文書処理システム。

（付記２）
前記抽出された特定情報を基に、テキストデータとして抽出されたデータ群をオブジェクトとして展開するオブジェクト展開手段を更に備えることを特徴とする付記１に記載の構造化文書処理システム。

（付記３）
前記オブジェクト展開手段は、展開するオブジェクトの数あるいは容量を、前記構造化文書処理システムが負荷により性能劣化を引き起こさない程度に制限して、オブジェクトを展開することを特徴とする付記２に記載の構造化文書処理システム。

（付記４）
前記特定情報は、前記抽出されたテキストデータを一意に特定する情報であることを特徴とする付記１に記載の構造化文書処理システム。

（付記５）
前記特定情報より、前記抽出されたテキストデータの特定のためのインデックスを生成することを特徴とする付記４に記載の構造化文書処理システム。

（付記６）
前記テキストデータとして保持された前記データ群に対し、パイプライン処理によって、前記所望の処理を施すことを特徴とする付記１に記載の構造化文書処理システム。

（付記７）
構造化文書から必要なデータ群が記述されている部分を特定し、該データ群をテキストデータとして保持し、
該抽出されたテキストデータ内から特定情報をテキスト検索によって抽出し、
該抽出された特定情報を用いて所望の処理を該データ群に対し施す、
ことを特徴とする構造化文書処理方法。

（付記８）
構造化文書から必要なデータ群が記述されている部分を特定し、該データ群をテキストデータとして保持し、
該抽出されたテキストデータ内から特定情報をテキスト検索によって抽出し、
該抽出された特定情報を用いて所望の処理を該データ群に対し施す、
ことを特徴とする構造化文書処理方法をコンピュータに実現させるプログラム。

本発明の実施形態のデータの扱い方法を説明する図である。レコード単位の処理の例を示す図である。図２の結合処理を説明する図（その１）である。図２の結合処理を説明する図（その２）である。図２の結合処理を説明する図（その３）である。図２の結合処理を説明する図（その４）である。図２の結合処理を説明する図（その５）である。レコード単位でのパイプライン処理を説明する図である。 XML宣言部を説明する図である。販売情報と商品情報を結合し、単価と小計を情報として持つ販売情報を生成する処理の概念を示す図である。本発明の構造化文書処理システムの第１の構成を説明する図（その１）である。本発明の構造化文書処理システムの第１の構成を説明する図（その２）である。本発明の構造化文書処理システムの第１の構成を説明する図（その３）である。本発明の構造化文書処理システムの第１の構成による処理を説明する図（その１）である。本発明の構造化文書処理システムの第１の構成による処理を説明する図（その２）である。本発明の構造化文書処理システムの第１の構成による処理を説明する図（その３）である。本発明の構造化文書処理システムの第１の構成による処理を説明する図（その４）である。本発明の構造化文書処理システムの第１の構成による処理を説明する図（その５）である。本発明の構造化文書処理システムの第１の構成による処理を説明する図（その６）である。本発明の構造化文書処理システムの第１の構成による処理を説明する図（その７）である。本発明の実施形態の構造化文書処理システムの第２の構成を示す図である。本発明の実施形態の構造化文書処理システムの第２の構成による処理を示す図である。構造化文書のデータ構成を説明する図である。 SAXを説明する図である。 DOMを説明する図（その１）である。 DOMを説明する図（その２）である。 DOMを説明する図（その３）である。

符号の説明

001 構造化文書保持部
002 位置保持部
003 部分文書抽出部
004 特定情報抽出部
006 ハッシュ値算出部
101 構造化文書保持部
102 位置保持部
103 部分文書抽出部
104 オブジェクト生成部
105 オブジェクトキャッシュ部
106 アプリケーション

Claims

複数種類の開始タグおよび終了タグと、それぞれの該開始タグと終了タグとの間に挟まれた、該タグが表す種類のデータとを有する構造化文書から、特定の前記開始タグと前記終了タグとに挟まれている部分の位置を特定し、該特定した位置に示される前記構造化文書の部分である部分構造化文書をテキストデータとして抽出し、保持するデータ抽出保持手段と、
該抽出されたテキストデータ内から特定情報をテキスト検索によって抽出する特定情報抽出手段と、
該抽出された特定情報を用いて所望の処理を該テキストデータとして抽出した部分構造化文書に対し施す処理手段と、
を備えることを特徴とする構造化文書処理システム。
前記抽出された特定情報を基に、テキストデータとして抽出されたデータ群をオブジェクトとして展開するオブジェクト展開手段を更に備えることを特徴とする請求項１に記載の構造化文書処理システム。
前記オブジェクト展開手段は、展開するオブジェクトの数あるいは容量を、ページングもしくはスワッピングが起きないように制限して、オブジェクトを展開することを特徴とする請求項２に記載の構造化文書処理システム。
コンピュータが、
複数種類の開始タグおよび終了タグと、それぞれの該開始タグと終了タグとの間に挟まれた、該タグが表す種類のデータとを有する構造化文書から、特定の前記開始タグと前記終了タグとに挟まれている部分の位置を特定し、該特定した位置に示される前記構造化文書の部分である部分構造化文書をテキストデータとして抽出し、メモリ内に保持し、
該メモリ内に保持されたテキストデータ内から特定情報をテキスト検索によって抽出し、
該抽出された特定情報を用いて所望の処理を該テキストデータとして抽出した部分構造化文書に対し施す、
ことを特徴とする構造化文書処理方法。
コンピュータが、
複数種類の開始タグおよび終了タグと、それぞれの該開始タグと終了タグとの間に挟まれた、該タグが表す種類のデータとを有する構造化文書から、特定の前記開始タグと前記終了タグとに挟まれている部分の位置を特定し、該特定した位置に示される前記構造化文書の部分である部分構造化文書をテキストデータとして抽出し、メモリ内に保持し、
該メモリ内に保持されたテキストデータ内から特定情報をテキスト検索によって抽出し、
該抽出された特定情報を用いて所望の処理を該テキストデータとして抽出した部分構造化文書に対し施す、
ことを特徴とする構造化文書処理方法をコンピュータに実現させるプログラム。