JP4234698B2 - 構造化文書処理システム - Google Patents
構造化文書処理システム Download PDFInfo
- Publication number
- JP4234698B2 JP4234698B2 JP2005179120A JP2005179120A JP4234698B2 JP 4234698 B2 JP4234698 B2 JP 4234698B2 JP 2005179120 A JP2005179120 A JP 2005179120A JP 2005179120 A JP2005179120 A JP 2005179120A JP 4234698 B2 JP4234698 B2 JP 4234698B2
- Authority
- JP
- Japan
- Prior art keywords
- structured document
- data
- tags
- extracted
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
Description
<商品名>が商品名のデータのはじめを示すタグであり、</商品名>が商品名のデータの終わりを示すタグである。このように、はじめのタグと終わりのタグではさまれたものが、タグがあらわす種類のデータの中身となる。
従来技術1: SAXを使う場合
図24は、SAXを説明する図である。
データを読み込んだ際に、オブジェクトを生成,蓄積せずに次の処理へ渡すため、メモリ使用量は少ない
欠点:
オブジェクトを生成しないため、参照するだけならば最適だが,既存のデータに処理を行って、更に次の処理を行う場合などは、処理の必要性から、後でオブジェクトを生成することになる。
図25〜図27は、DOMを説明する図である。
DOM(Document Object Model)パーサーは、全データを一旦メモリ上に木構造状のオブジェクトとして展開する。検索,編集時の手順は次のようになる。
1.全データを一旦メモリ中に木構造状に展開する
2.メモリ上の木構造を辿ってデータを検索,編集する
利点:
メモリ上にデータが展開されているため、1回しかデータを参照できないSAXとは異なりランダムアクセスを行うことができる。このため検索,編集の操作が容易である。
XMLデータ中の全てのタグと、タグの内容を木構造のオブジェクトとして展開する。しかし、木構造状のオブジェクトを形成するためにはタグ毎にオブジェクトを生成することになり、このタグのオブジェクトは図26のように親のタグ(販売結果)のオブジェクトに対するポインタ,子供のタグ(小計、単価、個数、商品番号)のオブジェクトに対するポインタなど,非常に多くの情報(メンバ変数)を持つ必要がある。
図27の場合、商品番号と個数をデータとして持つ、販売数を登録した販売結果と、商品番号、商品名、単価からなる商品のデータを登録する商品マスタのデータを商品番号で照らし合わせ、販売小計を出す処理をしている。まず、DOMは、販売結果のデータと商品マスタのデータをそれぞれ木構造のオブジェクトデータに展開し、それぞれのオブジェクトデータから商品番号を抜き出し、同じ商品番号のデータをマージする。これにより、販売結果のオブジェクトは、各販売数に登録されるデータとして、新たに単価を持つことになる。そして、このようにして得られた販売結果のデータを用いて、各販売数のデータについて小計を計算し、データとして加える。
図1は、本発明の実施形態のデータの扱い方法を説明する図である。
図2では、販売情報のデータと、商品情報のデータを処理して、販売情報に、価格と販売額の合計のデータを付け加える処理を示している。
1. 販売情報の“レコード”タグの開始タグと終了タグの先頭からのバイト位置を取得する(図3)。
2. バイト位置からレコード内の要素群を全て抽出する(図4)。
3. 1.で取得したバイト位置内部に存在する品番タグを取得し,これをIDとする(図5)。
4. 商品情報に対しても同様のことを行い,ID(品番)およびの“レコード”タグの開始タグと終了タグの先頭からのバイト位置を取得する(図6)。
5. 同じIDを持つレコードの価格タグを2.で抽出した要素群の最後尾にマージして,この要素群を元のレコードに戻す(図7)。
また、一度に多数のレコードを処理する必要がある場合は、図8のパイプライン処理のように,各レコードに対してある処理を行ったら次の処理へ順次引き渡してゆく。図8では、処理1と処理2が独立になっており、レコードIDが1のレコードが処理2で処理されている間に、レコードIDが2のレコードが処理1で処理される。
図9は、XML宣言部を説明する図である。
図10は、販売情報と商品情報を結合し、単価と小計を情報として持つ販売情報を生成する処理の概念を示す図である。
図11において、コンピュータ1は、構造化文書保持部001、位置保持部002、部分文書抽出部003、特定情報抽出部004、ハッシュ値算出部006を保持する。構造化文書保持部001は、構造化文書を保持する。位置保持部002は、予め構造化文書を解析し,“レコード”タグおよび“品番”タグの位置情報(先頭からのバイト位置)のみを保持しておく。
図20のフローチャートに従い、図14〜図19を参照して説明する。
S001: 構造化文書全体を解析し,“レコード”タグのバイト位置を取得する。はじめに販売情報の“レコード”タグの開始タグと終了タグの先頭からのバイト位置を取得,これを位置保持に保持する。図14に示されているように、”レコード”タグのバイト位置は、読み込んだXML文書データの中をテキスト検索することにより得る。
S002: S001と同様の手法で,”レコード”タグの開始タグと終了タグの間にある品番タグのバイト位置を取得し,これを位置保持部に保持する。
S003: ”レコード”タグのバイト位置から部分構造化文書をテキストとして抽出し,部分構造化文書をテキストとして保持する。図15に示されるように、”レコード”タグではさまれた部分のデータをテキストデータとして保持する。
S004: ”品番”タグのバイト位置から”品番”タグの内容を特定情報として抽出,保持する。図16に示されるように、”品番”タグとその内容データである「02034」を抽出、保持する。
S005: 特定情報に対するハッシュ値を算出する。図17に示されるように、”品番”タグの内容データである「02034」という番号からハッシュ値を計算する。
S006: 部分構造化文書毎に特定情報およびハッシュ値を付与する。
S007: 特定情報の照合,結合処理を行う。すなわち、図18に示されるように、商品情報についても同様のことを行い、品番及びレコードのタグの開始タグと終了タグの先頭からのバイト位置を取得し、品番を抽出し、品番に対応するハッシュ値を計算する。そして、商品情報から得られた部分構造化文書にハッシュ値を付与し、販売情報から得られたハッシュ値と商品情報から得られたハッシュ値を照合し、一致したものについて、販売情報の部分構造化文書に価格をマージしてもとの販売情報の部分構造化文書に書き込む。
各レコード中の発送先IDに応じて,其々の発送先が有するデータベースに振り分けて格納する処理である。
以下、頭22を参照して、処理の流れについて説明する。
S101: 構造化文書全体を解析し,“レコード”タグのバイト位置を取得する。はじめに販売情報の“レコード”タグの開始タグと終了タグの先頭からのバイト位置を取得し、これを位置保持に保持する。
S002: ”レコード”タグのバイト位置から部分構造化文書をテキストとして抽出し,部分構造化文書をテキストとして保持する。
S103: 部分構造化文書毎に部分オブジェクトを生成し,オブジェクトキャッシュ部105に格納する。ここでは,ページング,スワッピングなどの性能劣化要因が起きない程度に生成される部分オブジェクトの数や容量を制限して、キャッシュ部に格納する。
S104: 各オブジェクトの発送先IDの要素内容を見て,アプリケーションが各データベースに転送する。アプリケーションが振り分けたら,オブジェクトキャッシュ部105に格納されているオブジェクトを消去する。
構造化文書から必要なデータ群が記述されている部分を特定し、該データ群をテキストデータとして保持するデータ抽出保持手段と、
該抽出されたテキストデータ内から特定情報をテキスト検索によって抽出する特定情報抽出手段と、
該抽出された特定情報を用いて所望の処理を該データ群に対し施す処理手段と、
を備えることを特徴とする構造化文書処理システム。
前記抽出された特定情報を基に、テキストデータとして抽出されたデータ群をオブジェクトとして展開するオブジェクト展開手段を更に備えることを特徴とする付記1に記載の構造化文書処理システム。
前記オブジェクト展開手段は、展開するオブジェクトの数あるいは容量を、前記構造化文書処理システムが負荷により性能劣化を引き起こさない程度に制限して、オブジェクトを展開することを特徴とする付記2に記載の構造化文書処理システム。
前記特定情報は、前記抽出されたテキストデータを一意に特定する情報であることを特徴とする付記1に記載の構造化文書処理システム。
前記特定情報より、前記抽出されたテキストデータの特定のためのインデックスを生成することを特徴とする付記4に記載の構造化文書処理システム。
前記テキストデータとして保持された前記データ群に対し、パイプライン処理によって、前記所望の処理を施すことを特徴とする付記1に記載の構造化文書処理システム。
構造化文書から必要なデータ群が記述されている部分を特定し、該データ群をテキストデータとして保持し、
該抽出されたテキストデータ内から特定情報をテキスト検索によって抽出し、
該抽出された特定情報を用いて所望の処理を該データ群に対し施す、
ことを特徴とする構造化文書処理方法。
構造化文書から必要なデータ群が記述されている部分を特定し、該データ群をテキストデータとして保持し、
該抽出されたテキストデータ内から特定情報をテキスト検索によって抽出し、
該抽出された特定情報を用いて所望の処理を該データ群に対し施す、
ことを特徴とする構造化文書処理方法をコンピュータに実現させるプログラム。
002 位置保持部
003 部分文書抽出部
004 特定情報抽出部
006 ハッシュ値算出部
101 構造化文書保持部
102 位置保持部
103 部分文書抽出部
104 オブジェクト生成部
105 オブジェクトキャッシュ部
106 アプリケーション
Claims (5)
- 複数種類の開始タグおよび終了タグと、それぞれの該開始タグと終了タグとの間に挟まれた、該タグが表す種類のデータとを有する構造化文書から、特定の前記開始タグと前記終了タグとに挟まれている部分の位置を特定し、該特定した位置に示される前記構造化文書の部分である部分構造化文書をテキストデータとして抽出し、保持するデータ抽出保持手段と、
該抽出されたテキストデータ内から特定情報をテキスト検索によって抽出する特定情報抽出手段と、
該抽出された特定情報を用いて所望の処理を該テキストデータとして抽出した部分構造化文書に対し施す処理手段と、
を備えることを特徴とする構造化文書処理システム。 - 前記抽出された特定情報を基に、テキストデータとして抽出されたデータ群をオブジェクトとして展開するオブジェクト展開手段を更に備えることを特徴とする請求項1に記載の構造化文書処理システム。
- 前記オブジェクト展開手段は、展開するオブジェクトの数あるいは容量を、ページングもしくはスワッピングが起きないように制限して、オブジェクトを展開することを特徴とする請求項2に記載の構造化文書処理システム。
- コンピュータが、
複数種類の開始タグおよび終了タグと、それぞれの該開始タグと終了タグとの間に挟まれた、該タグが表す種類のデータとを有する構造化文書から、特定の前記開始タグと前記終了タグとに挟まれている部分の位置を特定し、該特定した位置に示される前記構造化文書の部分である部分構造化文書をテキストデータとして抽出し、メモリ内に保持し、
該メモリ内に保持されたテキストデータ内から特定情報をテキスト検索によって抽出し、
該抽出された特定情報を用いて所望の処理を該テキストデータとして抽出した部分構造化文書に対し施す、
ことを特徴とする構造化文書処理方法。 - コンピュータが、
複数種類の開始タグおよび終了タグと、それぞれの該開始タグと終了タグとの間に挟まれた、該タグが表す種類のデータとを有する構造化文書から、特定の前記開始タグと前記終了タグとに挟まれている部分の位置を特定し、該特定した位置に示される前記構造化文書の部分である部分構造化文書をテキストデータとして抽出し、メモリ内に保持し、
該メモリ内に保持されたテキストデータ内から特定情報をテキスト検索によって抽出し、
該抽出された特定情報を用いて所望の処理を該テキストデータとして抽出した部分構造化文書に対し施す、
ことを特徴とする構造化文書処理方法をコンピュータに実現させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005179120A JP4234698B2 (ja) | 2005-06-20 | 2005-06-20 | 構造化文書処理システム |
US11/236,608 US20060288276A1 (en) | 2005-06-20 | 2005-09-28 | Structured document processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005179120A JP4234698B2 (ja) | 2005-06-20 | 2005-06-20 | 構造化文書処理システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006350901A JP2006350901A (ja) | 2006-12-28 |
JP4234698B2 true JP4234698B2 (ja) | 2009-03-04 |
Family
ID=37574783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005179120A Expired - Fee Related JP4234698B2 (ja) | 2005-06-20 | 2005-06-20 | 構造化文書処理システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20060288276A1 (ja) |
JP (1) | JP4234698B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7703006B2 (en) * | 2005-06-02 | 2010-04-20 | Lsi Corporation | System and method of accelerating document processing |
US7823063B2 (en) * | 2005-11-15 | 2010-10-26 | Microsoft Corporation | Delayed loading and instantiation of resources defined in markup |
US9715558B2 (en) * | 2008-04-14 | 2017-07-25 | International Business Machines Corporation | Structure-position mapping of XML with variable-length data |
US8543619B2 (en) * | 2009-09-15 | 2013-09-24 | Oracle International Corporation | Merging XML documents automatically using attributes based comparison |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5983268A (en) * | 1997-01-14 | 1999-11-09 | Netmind Technologies, Inc. | Spreadsheet user-interface for an internet-document change-detection tool |
US6826553B1 (en) * | 1998-12-18 | 2004-11-30 | Knowmadic, Inc. | System for providing database functions for multiple internet sources |
US6996770B1 (en) * | 1999-07-26 | 2006-02-07 | Microsoft Corporation | Methods and systems for preparing extensible markup language (XML) documents and for responding to XML requests |
US6538673B1 (en) * | 1999-08-23 | 2003-03-25 | Divine Technology Ventures | Method for extracting digests, reformatting, and automatic monitoring of structured online documents based on visual programming of document tree navigation and transformation |
JP2001147799A (ja) * | 1999-10-01 | 2001-05-29 | Hitachi Ltd | データ移動方法および条件付転送論理ならびにデータの配列換え方法およびデータのコピー方法 |
US6629115B1 (en) * | 1999-10-01 | 2003-09-30 | Hitachi, Ltd. | Method and apparatus for manipulating vectored data |
US6473729B1 (en) * | 1999-12-20 | 2002-10-29 | Xerox Corporation | Word phrase translation using a phrase index |
WO2001090908A1 (en) * | 2000-05-22 | 2001-11-29 | Sap Portals Inc. | Snippet selection |
US6920609B1 (en) * | 2000-08-24 | 2005-07-19 | Yahoo! Inc. | Systems and methods for identifying and extracting data from HTML pages |
JP4843867B2 (ja) * | 2001-05-10 | 2011-12-21 | ソニー株式会社 | 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体 |
JP4045399B2 (ja) * | 2001-08-24 | 2008-02-13 | 富士ゼロックス株式会社 | 構造化文書管理装置及び構造化文書管理方法 |
US7451390B2 (en) * | 2001-09-10 | 2008-11-11 | Fujitsu Limited | Structured document processing system, method, program and recording medium |
US7584192B2 (en) * | 2002-11-18 | 2009-09-01 | Sap Aktiengesellschaft | Collection and analysis of document traffic in an electronic marketplace |
US20040119727A1 (en) * | 2002-12-19 | 2004-06-24 | International Business Machines Corporation | Extracting displayed numerical data from displayed documents received from communication networks, e.g. World Wide Web, and processing the extracted numerical data independent of the received document |
US20050076327A1 (en) * | 2003-01-15 | 2005-04-07 | University Of Florida | Server-side wireless development tool |
US20040163041A1 (en) * | 2003-02-13 | 2004-08-19 | Paterra, Inc. | Relational database structures for structured documents |
JP2005234837A (ja) * | 2004-02-19 | 2005-09-02 | Fujitsu Ltd | 構造化文書処理方法、構造化文書処理システム及びそのプログラム |
-
2005
- 2005-06-20 JP JP2005179120A patent/JP4234698B2/ja not_active Expired - Fee Related
- 2005-09-28 US US11/236,608 patent/US20060288276A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2006350901A (ja) | 2006-12-28 |
US20060288276A1 (en) | 2006-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6430553B1 (en) | Method and apparatus for parsing data | |
US7739588B2 (en) | Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data | |
US8739022B2 (en) | Parallel approach to XML parsing | |
KR101119290B1 (ko) | 정보 처리 장치, 데이터베이스 시스템, 정보 처리 방법 및 프로그램 | |
CN100444591C (zh) | 获取网页关键字的方法及其应用系统 | |
CN106649212A (zh) | 一种业务数据处理的方法及装置 | |
TWI480756B (zh) | 用於最佳化計時標記之執行的機器可讀取儲存裝置及設備 | |
CN102222083A (zh) | 基于创建对象的xbrl分类标准的快速解析方法 | |
US20080098029A1 (en) | Method and device for generating reference patterns from a document written in markup language and associated coding and decoding methods and devices | |
JP2007293838A (ja) | コンテンツ変換システム | |
CN100432996C (zh) | 基于网页页面布局提取网页核心内容的系统、方法 | |
US20050187899A1 (en) | Structured document processing method, structured document processing system, and program for same | |
JP4234698B2 (ja) | 構造化文書処理システム | |
US8266188B2 (en) | Method and system for extracting structural information from a data file | |
US7810024B1 (en) | Efficient access to text-based linearized graph data | |
US8433729B2 (en) | Method and system for automatically generating a communication interface | |
US8131728B2 (en) | Processing large sized relationship-specifying markup language documents | |
Oliveira et al. | Processing XML with Java–a performance benchmark | |
Barbosa et al. | Efficient incremental validation of XML documents after composite updates | |
US8719693B2 (en) | Method for storing localized XML document values | |
US6357002B1 (en) | Automated extraction of BIOS identification information for a computer system from any of a plurality of vendors | |
US20140149852A1 (en) | Method and system for disintegrating an xml document for high degree of parallelism | |
Deshmukh et al. | An Empirical Study: XML Parsing using Various Data Structures | |
KR20020043993A (ko) | 패턴정보를 이용한 상품정보 추출 장치 및 방법 | |
CN114637505A (zh) | 一种页面内容提取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080723 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080729 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081209 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081211 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111219 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111219 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121219 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121219 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131219 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |