JP4234698B2 - 構造化文書処理システム - Google Patents

構造化文書処理システム Download PDF

Info

Publication number
JP4234698B2
JP4234698B2 JP2005179120A JP2005179120A JP4234698B2 JP 4234698 B2 JP4234698 B2 JP 4234698B2 JP 2005179120 A JP2005179120 A JP 2005179120A JP 2005179120 A JP2005179120 A JP 2005179120A JP 4234698 B2 JP4234698 B2 JP 4234698B2
Authority
JP
Japan
Prior art keywords
structured document
data
tags
extracted
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005179120A
Other languages
English (en)
Other versions
JP2006350901A (ja
Inventor
淳一 小田切
哲 中島
茂 吉田
卓郎 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005179120A priority Critical patent/JP4234698B2/ja
Priority to US11/236,608 priority patent/US20060288276A1/en
Publication of JP2006350901A publication Critical patent/JP2006350901A/ja
Application granted granted Critical
Publication of JP4234698B2 publication Critical patent/JP4234698B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Description

本発明は,SGML(Standard Generated Markup Language),XML( Extensible Markup Language),HTML(HyperText Markup Language)文書などの構造化文書を処理する構造化文書処理システムに関する。
インターネットの目覚しい普及に伴い,インターネットを通じて複数のシステム,サービス間で連携するデータを構造化文書で記述するケースが増えてきた。これは,データの連携が多様化するに連れ,データ構造を容易に決定,拡張できるようにする必要が生じたことによる。構造化文書は,データのみならずデータの意味を表わすタグを持つ。
図23は、構造化文書のデータ構成を説明する図である。
<商品名>が商品名のデータのはじめを示すタグであり、</商品名>が商品名のデータの終わりを示すタグである。このように、はじめのタグと終わりのタグではさまれたものが、タグがあらわす種類のデータの中身となる。
各システム,サービスはこのタグを元にデータの意味を理解して自動的に処理する。この構造化文書は単なるテキスト文書であるため,例えば、あるデータを追加したい場合などは,そのデータをタグで囲んで挿入すればよい。現在は構造化文書の中でもXMLが特に使用されるようになっている。
XMLデータは,データ構造を容易に決定,拡張できる反面,タグの分だけ単純にデータ量が増大する。更に,データ構造を解析する必要があるため,正味のデータのみを処理するのに比較して計算量が増大する。このため,XMLを活用するシステムでは,既存のシステムと比較して処理速度が低下する,メインメモリの消費量が多くなるといった,コンピュータのリソース消費が課題となる。この結果,特にRDB(relational database)などのレガシーから出力された大容量データを処理する場合,例えば,日々大量に出力されるデータ(店舗から日々計上される売上データなど)などを処理する場合などは,リソースの消費を如何に抑えるかが重要となる。
しかし,従来のXMLパーサー(XMLを解析する基盤ソフトウェア)で,XMLデータを処理しようとするとメモリ容量が不足する,処理速度が低下する,あるいはプログラマの作りこみが増大する,などの課題が生じている。以下に従来技術として2種類のXMLパーサーを示す。
従来技術1: SAXを使う場合
図24は、SAXを説明する図である。
データを一回だけ参照して処理するような簡単なデータ処理では, SAX(Simple API for XML)パーサーが使われる。これは,データを要素単位にストリーム状に解析,処理する。この技術には以下のような利点・欠点が存在する。
利点:
データを読み込んだ際に、オブジェクトを生成,蓄積せずに次の処理へ渡すため、メモリ使用量は少ない
欠点:
オブジェクトを生成しないため、参照するだけならば最適だが,既存のデータに処理を行って、更に次の処理を行う場合などは、処理の必要性から、後でオブジェクトを生成することになる。
更に,データの参照は一回のみ可能であるため,データをランダムアクセスして複数のデータをつき合わせるマージ(RDBのテーブル同士の結合処理)のような処理はほぼ不可能である。
従来技術2: DOMを使う場合
図25〜図27は、DOMを説明する図である。
DOM(Document Object Model)パーサーは、全データを一旦メモリ上に木構造状のオブジェクトとして展開する。検索,編集時の手順は次のようになる。
1.全データを一旦メモリ中に木構造状に展開する
2.メモリ上の木構造を辿ってデータを検索,編集する
利点:
メモリ上にデータが展開されているため、1回しかデータを参照できないSAXとは異なりランダムアクセスを行うことができる。このため検索,編集の操作が容易である。
欠点:
XMLデータ中の全てのタグと、タグの内容を木構造のオブジェクトとして展開する。しかし、木構造状のオブジェクトを形成するためにはタグ毎にオブジェクトを生成することになり、このタグのオブジェクトは図26のように親のタグ(販売結果)のオブジェクトに対するポインタ,子供のタグ(小計、単価、個数、商品番号)のオブジェクトに対するポインタなど,非常に多くの情報(メンバ変数)を持つ必要がある。
このため、一度に多くのメモリと処理時間を必要とする。典型的には、ファイルサイズの約4倍のメモリを使用し,メモリ消費量が余りにも多いと、システムの処理中に、ページング、スワップが起きてシステム性能が極端に悪くなる可能性がある。
このため、例えば、図27のような結合処理を行う場合は、一度に非常に多くのメモリ量を必要とする。
図27の場合、商品番号と個数をデータとして持つ、販売数を登録した販売結果と、商品番号、商品名、単価からなる商品のデータを登録する商品マスタのデータを商品番号で照らし合わせ、販売小計を出す処理をしている。まず、DOMは、販売結果のデータと商品マスタのデータをそれぞれ木構造のオブジェクトデータに展開し、それぞれのオブジェクトデータから商品番号を抜き出し、同じ商品番号のデータをマージする。これにより、販売結果のオブジェクトは、各販売数に登録されるデータとして、新たに単価を持つことになる。そして、このようにして得られた販売結果のデータを用いて、各販売数のデータについて小計を計算し、データとして加える。
従来の構造化文書を扱う装置として、特許文献1と2が知られている。特許文献1においては、構造化文書を部分構造に分解してリレーショナルデータベースに格納し、構造化文書の文書構造の検索や属性の検索を高速化している。特許文献2においては、構造化文書を木構造に展開し、これを部分木に分けて管理し、部分木の展開によって処理を行うことにより、処理の高速化を図っている。
特開2003−67402号公報 特開2003−178049号公報
SAXはメモリ消費量が少なく,処理時間も短いことが利点だが,データのランダムアクセスが不可能であったため,複数データの突合せ処理のような複雑な処理は現実的には不可能であった。DOMはランダムアクセスが可能なことが利点だが,全データを木構造のオブジェクトとして展開するため,メモリ消費量および処理時間の増大と、次の処理へのデータの引渡しが困難であった。
本発明の課題は、メモリ消費量が少なく、複雑な処理がデータに対して可能になる構造化文書処理システムを提供することである。
構造化文書から必要なデータ群が記述されている部分を特定し、該データ群をテキストデータとして保持するデータ抽出保持手段と、本発明の構造化文書処理システムは、該抽出されたテキストデータ内から特定情報をテキスト検索によって抽出する特定情報抽出手段と、該抽出された特定情報を用いて所望の処理を該データ群に対し施す処理手段とを備えることを特徴とする。
本発明によれば,構造化文書を木構造を生成せずに部分的に参照、検索、編集処理が可能となるため、計算コストの軽減、メモリ使用量の削減に大きな効果がある。
本発明の実施形態においては,構造化文書中のタグデータを処理解析して,その一部をユーザアプリケーションに渡すものである。ユーザアプリケーションは渡された文書をもとにデータ処理を行い、各種サービスなどを提供する。
特に、XML文書をレコード(処理の最小単位)ごとに文字列として抽出して、該文字列データとして抽出されたレコードのデータをテキストベースで扱うことで課題を解決する。
図1は、本発明の実施形態のデータの扱い方法を説明する図である。
XML文書には、先に説明したように、タグが設けられ、タグによって囲まれたデータをそれぞれ個別に処理することができる。図1に示されるように、商品情報のデータには、商品名、価格、品番のデータがあるが、これらは商品情報の1つのレコードを構成している。本発明の実施形態では、このレコードを文字列として抽出し、文字列データとして保持しておく。このようにして保持されたレコードのデータは、文字列データとしてテキストベースで格納されるので、データ容量が小さくてすむ。この文字列データを基に、後にオブジェクトを展開するか否かは任意である。
RDB等から出力されるデータは複数のレコードから構成される。レコードとは各処理で必要なデータの最小単位である。このためレコード単位で引き渡して順次処理を行うことが可能となる。
図2は、レコード単位の処理の例を示す図である。
図2では、販売情報のデータと、商品情報のデータを処理して、販売情報に、価格と販売額の合計のデータを付け加える処理を示している。
この場合,各レコードの特定情報を引き出せれば,データ同士の結合処理が可能となる。図2では,品番がこれに該当する。また,レコードを文字列と見なすと、1塊のデータであるため,図25および図26に記載したDOMのように多数のメンバ変数を持つ必要は無い。このため,処理に必要なメモリ使用量は非常に少なくなる。
各レコードを文字列と見なして、図2の処理1を行う際には,例えば、構造化文書処理システム(特開2003-178049号、あるいは、特願2004- 42289号の技術)を利用して、次のような処理を実行する。このシステムは,各レコードの開始タグの先頭位置と終了タグのバイト位置およびそのレコード内部の要素の開始タグと終了タグのバイト位置を取得する。このため,下記のような手順で結合処理を実行できる。
図3〜図7は、図2の結合処理を説明する図である。
1. 販売情報の“レコード”タグの開始タグと終了タグの先頭からのバイト位置を取得する(図3)。
2. バイト位置からレコード内の要素群を全て抽出する(図4)。
3. 1.で取得したバイト位置内部に存在する品番タグを取得し,これをIDとする(図5)。
4. 商品情報に対しても同様のことを行い,ID(品番)およびの“レコード”タグの開始タグと終了タグの先頭からのバイト位置を取得する(図6)。
5. 同じIDを持つレコードの価格タグを2.で抽出した要素群の最後尾にマージして,この要素群を元のレコードに戻す(図7)。
この場合、各タグで示されるデータは、1塊の文字列データとして扱われることになる。このため,処理速度及びメモリ使用量は軽減される。特に,結合処理などはIDの要素内容さえ分かればよいので,全タグを木構造状に展開する必要はない。
図8は、レコード単位でのパイプライン処理を説明する図である。
また、一度に多数のレコードを処理する必要がある場合は、図8のパイプライン処理のように,各レコードに対してある処理を行ったら次の処理へ順次引き渡してゆく。図8では、処理1と処理2が独立になっており、レコードIDが1のレコードが処理2で処理されている間に、レコードIDが2のレコードが処理1で処理される。
また、XML文書の部分文書解析では、データ毎にXML宣言の部分等を参照して,XML文書がどのような文字エンコーディングで記述されているかを解析する必要がある。
図9は、XML宣言部を説明する図である。
レコードを複数含んだXML文書では、先頭に1つだけXML宣言文があれば、すべてのレコードについて、この宣言文が有効となる。しかし、各レコードを別々のXML文書とした場合には、各文書の先頭にXML宣言文が必要であり、また、文書を処理する場合に、毎回この宣言文を解析する必要がある。
この解析は時間が掛かるため,全レコードが1データに収まっているXML文書に対して処理を行えばXML宣言部の解析が一回で済むため,例えば各文書に各レコードが一つ収まっているXML文書に対してそれぞれXML宣言部の解析を行うより処理時間が非常に高速になる。
本発明の実施形態を用いると、構造化文書のパースの計算量を削減でき、パイプライン処理を行うことが可能になる。データの処理中では,データ全体を参照する必要はない場合がある。このような場合は、オブジェクトのようにパースして全データを木構造状に保持する必要はない。木構造状にオブジェクトを保持する場合は、通常、コンピュータはオブジェクト毎にこれらを管理する必要があるため、DOMオブジェクトのような複数のオブジェクトから構成されるものは特に管理するのに多くのメモリ量,多くの計算量を必要とする。このため,レコードを単一の文字列として抽出すれば,それは1塊のデータなので、メモリ量および計算量の削減につながる。
また、本発明の実施形態によれば、構造化文書パースの計算量を分散することができる。前述したように,オブジェクトを生成するのは多くのメモリ量と計算量を必要とするが、パースは他のCPUまたは他のマシンで行い、パース後のオブジェクトをアプリケーションに渡せば,アプリケーションに掛かる計算負荷を軽減させることができる。このように部分構造化文書ではなく,部分オブジェクトとして抽出することも効果がある。このようにして計算量を削減,分散させることができる。
また、特定情報の照合を高速化できる。図2では,品番を起点にして二つのデータのマージを行っている。このようなデータは,各レコードを一意に特定するものである。通常は、これを事前にピンポイントに抽出して図8のような各パイプライン処理に渡せば,各処理が即座にこの部分を参照できるため,高速に処理することが可能になる。
加えて、特定情報の照合を高速化することができる。インデックスをXMLデータ自体に埋め込めば、レコードの送信先で照合処理が高速化できる。このようにして、特定情報の照合を高速化することができる。
以下においては、二つのデータに対して結合処理を行い,販売結果を算出する処理を例に説明する。
図10は、販売情報と商品情報を結合し、単価と小計を情報として持つ販売情報を生成する処理の概念を示す図である。
販売情報には、データの処理単位であるレコードが複数格納されており、各レコードは、品番、商品名、数量からなっている。商品情報は、商品名、価格、品番を持つレコードが複数格納されている。以下の処理においては、販売情報と商品情報の品番をつき合わせ、対応する販売情報のレコードに、単価としての価格と計算の結果得られる小計を格納する処理を行う。
図11〜図13は、本発明の構造化文書処理システムの第1の構成を説明する図である。
図11において、コンピュータ1は、構造化文書保持部001、位置保持部002、部分文書抽出部003、特定情報抽出部004、ハッシュ値算出部006を保持する。構造化文書保持部001は、構造化文書を保持する。位置保持部002は、予め構造化文書を解析し,“レコード”タグおよび“品番”タグの位置情報(先頭からのバイト位置)のみを保持しておく。
部分文書抽出部003は、位置保持部002で保持している“レコード”タグのバイト位置を元に、これらレコードを部分構造化文書および構造化文書を抽出する。特定情報抽出部004は、位置保持部002で保持している“品番”タグのバイト位置を元に、この品番情報を抽出する。特定情報005は、各レコードを特定するために使用する特定情報である。ハッシュ値算出部006は、品番のバイト配列からハッシュ値を算出する。ハッシュ値007は、照合を行うためのインデックスである。照合部008で使用される。コンピュータ2は、照合部008を保持する。照合部009は、品番の照合を行う処理部である。アプリケーション011は、コンピュータ3に保持され、オブジェクト毎に数量と価格を積算して小計を算出する。
図14〜図20は、本発明の構造化文書処理システムの第1の構成による処理を説明する図である。
図20のフローチャートに従い、図14〜図19を参照して説明する。
S001: 構造化文書全体を解析し,“レコード”タグのバイト位置を取得する。はじめに販売情報の“レコード”タグの開始タグと終了タグの先頭からのバイト位置を取得,これを位置保持に保持する。図14に示されているように、”レコード”タグのバイト位置は、読み込んだXML文書データの中をテキスト検索することにより得る。
S002: S001と同様の手法で,”レコード”タグの開始タグと終了タグの間にある品番タグのバイト位置を取得し,これを位置保持部に保持する。
S003: ”レコード”タグのバイト位置から部分構造化文書をテキストとして抽出し,部分構造化文書をテキストとして保持する。図15に示されるように、”レコード”タグではさまれた部分のデータをテキストデータとして保持する。
S004: ”品番”タグのバイト位置から”品番”タグの内容を特定情報として抽出,保持する。図16に示されるように、”品番”タグとその内容データである「02034」を抽出、保持する。
S005: 特定情報に対するハッシュ値を算出する。図17に示されるように、”品番”タグの内容データである「02034」という番号からハッシュ値を計算する。
S006: 部分構造化文書毎に特定情報およびハッシュ値を付与する。
S007: 特定情報の照合,結合処理を行う。すなわち、図18に示されるように、商品情報についても同様のことを行い、品番及びレコードのタグの開始タグと終了タグの先頭からのバイト位置を取得し、品番を抽出し、品番に対応するハッシュ値を計算する。そして、商品情報から得られた部分構造化文書にハッシュ値を付与し、販売情報から得られたハッシュ値と商品情報から得られたハッシュ値を照合し、一致したものについて、販売情報の部分構造化文書に価格をマージしてもとの販売情報の部分構造化文書に書き込む。
上記構成によれば、各コンピュータにおいて各レコードの処理を行い次第、次のコンピュータにレコードを引き渡すことができるため、各コンピュータの負荷の軽減をすることができるとともに、各コンピュータが他のコンピュータの処理に依存せずに独立に行うことが可能となる。また、DOMのように木構造上のオブジェクトを生成しないため、コンピュータの付加が軽減される。
なお、ここで使用する抽出部003及び位置保持部002は、たとえば、特開2003−178049号公報、あるいは、特願2004−42289号の技術を使用してもよいし、タグ位置を取得できるものならば、同等の効果がある。
図21は、本発明の実施形態の構造化文書処理システムの第2の構成を示す図である。
各レコード中の発送先IDに応じて,其々の発送先が有するデータベースに振り分けて格納する処理である。
コンピュータ1は、構造化文書保持部101,位置保持部102,部分文書抽出部103,オブジェクト生成部104,オブジェクトキャッシュ部105およびアプリケーション106を保持する。構造化文書保持部101は、処理の対象となる構造化文書を保持する。部分文書抽出部102は、予め保持している“レコード”タグのバイト位置を元に,これらレコードを部分構造化文書として抽出する。タグ位置保持部103は、予め構造化文書を解析し“レコード”タグの位置情報のみを保持する。オブジェクト生成部104は、部分構造化文書から部分オブジェクトを生成する。オブジェクト生成部104は、たとえば、DOMなどである。オブジェクトキャッシュ部105は、生成したオブジェクトをキャッシュする。アプリケーション106は、生成したオブジェクトを処理する。データベース107は、各レコードを保持する。データベース108も、各レコードを保持する。データベース107、108には、アプリケーションによって、処理された後のレコードを分類して、それぞれに格納するものであり、必ずしも別のデータベースである必要はない。
図22は、本発明の実施形態の構造化文書処理システムの第2の構成による処理を示す図である。
以下、頭22を参照して、処理の流れについて説明する。
S101: 構造化文書全体を解析し,“レコード”タグのバイト位置を取得する。はじめに販売情報の“レコード”タグの開始タグと終了タグの先頭からのバイト位置を取得し、これを位置保持に保持する。
S002: ”レコード”タグのバイト位置から部分構造化文書をテキストとして抽出し,部分構造化文書をテキストとして保持する。
S103: 部分構造化文書毎に部分オブジェクトを生成し,オブジェクトキャッシュ部105に格納する。ここでは,ページング,スワッピングなどの性能劣化要因が起きない程度に生成される部分オブジェクトの数や容量を制限して、キャッシュ部に格納する。
S104: 各オブジェクトの発送先IDの要素内容を見て,アプリケーションが各データベースに転送する。アプリケーションが振り分けたら,オブジェクトキャッシュ部105に格納されているオブジェクトを消去する。
(付記1)
構造化文書から必要なデータ群が記述されている部分を特定し、該データ群をテキストデータとして保持するデータ抽出保持手段と、
該抽出されたテキストデータ内から特定情報をテキスト検索によって抽出する特定情報抽出手段と、
該抽出された特定情報を用いて所望の処理を該データ群に対し施す処理手段と、
を備えることを特徴とする構造化文書処理システム。
(付記2)
前記抽出された特定情報を基に、テキストデータとして抽出されたデータ群をオブジェクトとして展開するオブジェクト展開手段を更に備えることを特徴とする付記1に記載の構造化文書処理システム。
(付記3)
前記オブジェクト展開手段は、展開するオブジェクトの数あるいは容量を、前記構造化文書処理システムが負荷により性能劣化を引き起こさない程度に制限して、オブジェクトを展開することを特徴とする付記2に記載の構造化文書処理システム。
(付記4)
前記特定情報は、前記抽出されたテキストデータを一意に特定する情報であることを特徴とする付記1に記載の構造化文書処理システム。
(付記5)
前記特定情報より、前記抽出されたテキストデータの特定のためのインデックスを生成することを特徴とする付記4に記載の構造化文書処理システム。
(付記6)
前記テキストデータとして保持された前記データ群に対し、パイプライン処理によって、前記所望の処理を施すことを特徴とする付記1に記載の構造化文書処理システム。
(付記7)
構造化文書から必要なデータ群が記述されている部分を特定し、該データ群をテキストデータとして保持し、
該抽出されたテキストデータ内から特定情報をテキスト検索によって抽出し、
該抽出された特定情報を用いて所望の処理を該データ群に対し施す、
ことを特徴とする構造化文書処理方法。
(付記8)
構造化文書から必要なデータ群が記述されている部分を特定し、該データ群をテキストデータとして保持し、
該抽出されたテキストデータ内から特定情報をテキスト検索によって抽出し、
該抽出された特定情報を用いて所望の処理を該データ群に対し施す、
ことを特徴とする構造化文書処理方法をコンピュータに実現させるプログラム。
本発明の実施形態のデータの扱い方法を説明する図である。 レコード単位の処理の例を示す図である。 図2の結合処理を説明する図(その1)である。 図2の結合処理を説明する図(その2)である。 図2の結合処理を説明する図(その3)である。 図2の結合処理を説明する図(その4)である。 図2の結合処理を説明する図(その5)である。 レコード単位でのパイプライン処理を説明する図である。 XML宣言部を説明する図である。 販売情報と商品情報を結合し、単価と小計を情報として持つ販売情報を生成する処理の概念を示す図である。 本発明の構造化文書処理システムの第1の構成を説明する図(その1)である。 本発明の構造化文書処理システムの第1の構成を説明する図(その2)である。 本発明の構造化文書処理システムの第1の構成を説明する図(その3)である。 本発明の構造化文書処理システムの第1の構成による処理を説明する図(その1)である。 本発明の構造化文書処理システムの第1の構成による処理を説明する図(その2)である。 本発明の構造化文書処理システムの第1の構成による処理を説明する図(その3)である。 本発明の構造化文書処理システムの第1の構成による処理を説明する図(その4)である。 本発明の構造化文書処理システムの第1の構成による処理を説明する図(その5)である。 本発明の構造化文書処理システムの第1の構成による処理を説明する図(その6)である。 本発明の構造化文書処理システムの第1の構成による処理を説明する図(その7)である。 本発明の実施形態の構造化文書処理システムの第2の構成を示す図である。 本発明の実施形態の構造化文書処理システムの第2の構成による処理を示す図である。 構造化文書のデータ構成を説明する図である。 SAXを説明する図である。 DOMを説明する図(その1)である。 DOMを説明する図(その2)である。 DOMを説明する図(その3)である。
符号の説明
001 構造化文書保持部
002 位置保持部
003 部分文書抽出部
004 特定情報抽出部
006 ハッシュ値算出部
101 構造化文書保持部
102 位置保持部
103 部分文書抽出部
104 オブジェクト生成部
105 オブジェクトキャッシュ部
106 アプリケーション

Claims (5)

  1. 複数種類の開始タグおよび終了タグと、それぞれの該開始タグと終了タグとの間に挟まれた、該タグが表す種類のデータとを有する構造化文書から、特定の前記開始タグと前記終了タグとに挟まれている部分の位置を特定し、該特定した位置に示される前記構造化文書の部分である部分構造化文書をテキストデータとして抽出し、保持するデータ抽出保持手段と、
    該抽出されたテキストデータ内から特定情報をテキスト検索によって抽出する特定情報抽出手段と、
    該抽出された特定情報を用いて所望の処理を該テキストデータとして抽出した部分構造化文書に対し施す処理手段と、
    を備えることを特徴とする構造化文書処理システム。
  2. 前記抽出された特定情報を基に、テキストデータとして抽出されたデータ群をオブジェクトとして展開するオブジェクト展開手段を更に備えることを特徴とする請求項1に記載の構造化文書処理システム。
  3. 前記オブジェクト展開手段は、展開するオブジェクトの数あるいは容量を、ページングもしくはスワッピングが起きないように制限して、オブジェクトを展開することを特徴とする請求項2に記載の構造化文書処理システム。
  4. コンピュータが、
    複数種類の開始タグおよび終了タグと、それぞれの該開始タグと終了タグとの間に挟まれた、該タグが表す種類のデータとを有する構造化文書から、特定の前記開始タグと前記終了タグとに挟まれている部分の位置を特定し、該特定した位置に示される前記構造化文書の部分である部分構造化文書をテキストデータとして抽出し、メモリ内に保持し、
    メモリ内に保持されたテキストデータ内から特定情報をテキスト検索によって抽出し、
    該抽出された特定情報を用いて所望の処理を該テキストデータとして抽出した部分構造化文書に対し施す、
    ことを特徴とする構造化文書処理方法。
  5. コンピュータが、
    複数種類の開始タグおよび終了タグと、それぞれの該開始タグと終了タグとの間に挟まれた、該タグが表す種類のデータとを有する構造化文書から、特定の前記開始タグと前記終了タグとに挟まれている部分の位置を特定し、該特定した位置に示される前記構造化文書の部分である部分構造化文書をテキストデータとして抽出し、メモリ内に保持し、
    メモリ内に保持されたテキストデータ内から特定情報をテキスト検索によって抽出し、
    該抽出された特定情報を用いて所望の処理を該テキストデータとして抽出した部分構造化文書に対し施す、
    ことを特徴とする構造化文書処理方法をコンピュータに実現させるプログラム。
JP2005179120A 2005-06-20 2005-06-20 構造化文書処理システム Expired - Fee Related JP4234698B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005179120A JP4234698B2 (ja) 2005-06-20 2005-06-20 構造化文書処理システム
US11/236,608 US20060288276A1 (en) 2005-06-20 2005-09-28 Structured document processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005179120A JP4234698B2 (ja) 2005-06-20 2005-06-20 構造化文書処理システム

Publications (2)

Publication Number Publication Date
JP2006350901A JP2006350901A (ja) 2006-12-28
JP4234698B2 true JP4234698B2 (ja) 2009-03-04

Family

ID=37574783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005179120A Expired - Fee Related JP4234698B2 (ja) 2005-06-20 2005-06-20 構造化文書処理システム

Country Status (2)

Country Link
US (1) US20060288276A1 (ja)
JP (1) JP4234698B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7703006B2 (en) * 2005-06-02 2010-04-20 Lsi Corporation System and method of accelerating document processing
US7823063B2 (en) * 2005-11-15 2010-10-26 Microsoft Corporation Delayed loading and instantiation of resources defined in markup
US9715558B2 (en) * 2008-04-14 2017-07-25 International Business Machines Corporation Structure-position mapping of XML with variable-length data
US8543619B2 (en) * 2009-09-15 2013-09-24 Oracle International Corporation Merging XML documents automatically using attributes based comparison

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5983268A (en) * 1997-01-14 1999-11-09 Netmind Technologies, Inc. Spreadsheet user-interface for an internet-document change-detection tool
US6826553B1 (en) * 1998-12-18 2004-11-30 Knowmadic, Inc. System for providing database functions for multiple internet sources
US6996770B1 (en) * 1999-07-26 2006-02-07 Microsoft Corporation Methods and systems for preparing extensible markup language (XML) documents and for responding to XML requests
US6538673B1 (en) * 1999-08-23 2003-03-25 Divine Technology Ventures Method for extracting digests, reformatting, and automatic monitoring of structured online documents based on visual programming of document tree navigation and transformation
JP2001147799A (ja) * 1999-10-01 2001-05-29 Hitachi Ltd データ移動方法および条件付転送論理ならびにデータの配列換え方法およびデータのコピー方法
US6629115B1 (en) * 1999-10-01 2003-09-30 Hitachi, Ltd. Method and apparatus for manipulating vectored data
US6473729B1 (en) * 1999-12-20 2002-10-29 Xerox Corporation Word phrase translation using a phrase index
WO2001090908A1 (en) * 2000-05-22 2001-11-29 Sap Portals Inc. Snippet selection
US6920609B1 (en) * 2000-08-24 2005-07-19 Yahoo! Inc. Systems and methods for identifying and extracting data from HTML pages
JP4843867B2 (ja) * 2001-05-10 2011-12-21 ソニー株式会社 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
JP4045399B2 (ja) * 2001-08-24 2008-02-13 富士ゼロックス株式会社 構造化文書管理装置及び構造化文書管理方法
US7451390B2 (en) * 2001-09-10 2008-11-11 Fujitsu Limited Structured document processing system, method, program and recording medium
US7584192B2 (en) * 2002-11-18 2009-09-01 Sap Aktiengesellschaft Collection and analysis of document traffic in an electronic marketplace
US20040119727A1 (en) * 2002-12-19 2004-06-24 International Business Machines Corporation Extracting displayed numerical data from displayed documents received from communication networks, e.g. World Wide Web, and processing the extracted numerical data independent of the received document
US20050076327A1 (en) * 2003-01-15 2005-04-07 University Of Florida Server-side wireless development tool
US20040163041A1 (en) * 2003-02-13 2004-08-19 Paterra, Inc. Relational database structures for structured documents
JP2005234837A (ja) * 2004-02-19 2005-09-02 Fujitsu Ltd 構造化文書処理方法、構造化文書処理システム及びそのプログラム

Also Published As

Publication number Publication date
JP2006350901A (ja) 2006-12-28
US20060288276A1 (en) 2006-12-21

Similar Documents

Publication Publication Date Title
US6430553B1 (en) Method and apparatus for parsing data
US7739588B2 (en) Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data
US8739022B2 (en) Parallel approach to XML parsing
KR101119290B1 (ko) 정보 처리 장치, 데이터베이스 시스템, 정보 처리 방법 및 프로그램
CN100444591C (zh) 获取网页关键字的方法及其应用系统
CN106649212A (zh) 一种业务数据处理的方法及装置
TWI480756B (zh) 用於最佳化計時標記之執行的機器可讀取儲存裝置及設備
CN102222083A (zh) 基于创建对象的xbrl分类标准的快速解析方法
US20080098029A1 (en) Method and device for generating reference patterns from a document written in markup language and associated coding and decoding methods and devices
JP2007293838A (ja) コンテンツ変換システム
CN100432996C (zh) 基于网页页面布局提取网页核心内容的系统、方法
US20050187899A1 (en) Structured document processing method, structured document processing system, and program for same
JP4234698B2 (ja) 構造化文書処理システム
US8266188B2 (en) Method and system for extracting structural information from a data file
US7810024B1 (en) Efficient access to text-based linearized graph data
US8433729B2 (en) Method and system for automatically generating a communication interface
US8131728B2 (en) Processing large sized relationship-specifying markup language documents
Oliveira et al. Processing XML with Java–a performance benchmark
Barbosa et al. Efficient incremental validation of XML documents after composite updates
US8719693B2 (en) Method for storing localized XML document values
US6357002B1 (en) Automated extraction of BIOS identification information for a computer system from any of a plurality of vendors
US20140149852A1 (en) Method and system for disintegrating an xml document for high degree of parallelism
Deshmukh et al. An Empirical Study: XML Parsing using Various Data Structures
KR20020043993A (ko) 패턴정보를 이용한 상품정보 추출 장치 및 방법
CN114637505A (zh) 一种页面内容提取方法和装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081209

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081211

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111219

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111219

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121219

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121219

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131219

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees