JP5480034B2 - 構造化文書の木構造を分割するための方法、プログラムおよびシステム - Google Patents
構造化文書の木構造を分割するための方法、プログラムおよびシステム Download PDFInfo
- Publication number
- JP5480034B2 JP5480034B2 JP2010143356A JP2010143356A JP5480034B2 JP 5480034 B2 JP5480034 B2 JP 5480034B2 JP 2010143356 A JP2010143356 A JP 2010143356A JP 2010143356 A JP2010143356 A JP 2010143356A JP 5480034 B2 JP5480034 B2 JP 5480034B2
- Authority
- JP
- Japan
- Prior art keywords
- size
- schema
- structured document
- tree structure
- xml
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
“[W]epresent a parallel processing model for the XML document…. The kernel of themodel is a stealing-based dynamic load-balancing mechanism, by which multiplethreads are able to process the disjointed parts of the XML document inparallel with balanced load distribution. The model also provides a novelmechanism to trace the stealing actions, thus the equivalent sequential resultcan be gotten by gluing the multiple parallel-running results together.”
“This paper presents our design and implementation ofparallel XML parsing. Our design consists of an initial preparsing phase todetermine the structure of the XML document, followed by a full, parallelparse. The results of the preparsing phase are used to help partition the XMLdocument for data parallel processing. Our parallel parsing phase is amodification of the libxml2 [1] XML parser, which shows that our approach appliesto real-world, production quality parsers.”
“[W]e introduce a new static partitioningand load-balancing mechanism. By using a static, global approach, we reducesynchronization and load-balancing overhead, thus improving performance overdynamic schemes for a large class of XML documents. Our approach leverageslibxml2 without modification, which reduces development effort and shows thatour approach is applicable to real-world, production parsers.”
規則2:<element>のタグによって定義される要素の係数は、要素の出現回数が固定値であるときはその固定値であるとする。例えば、minOccurs(要素の最小出現回数)、maxOccurs(要素の最大出現回数)の定義がない要素の出現回数は1回であるから、係数は1となる。
規則3:minOccursおよびmaxOccurs等により定義される出現回数に変動幅がある要素の係数は、当該要素の出現回数の変動幅の中間値とする。
規則4:maxOccurs=“unbounded”(要素の最大出現回数の制限が無いことを表す)である要素の係数は3とする。
(1)要素の出現回数の頻度に変動幅がある要素について、実際のXML文書でのその要素の出現頻度。例えば、”minOccurs=0”の要素が90%出現する履歴がある場合は、当該要素の係数を0.9に更新する。また、例えば、”maxOccurs=”unbounded””の要素が平均10回実際のXML文書で出現している履歴がある場合は、係数を10に更新する。
(2)テキスト部分の実際のサイズ。この履歴からテキスト部分のサイズの平均を計算してXMLスキーマのテキスト部分のサイズの指標値を決定する。
(3)要素名の実際のサイズ。実際に出現した要素名のサイズの平均から要素名のサイズの指標値を決定する。
Claims (18)
- コンピュータ処理によって、電子化された構造化文書のスキーマによって定義される木構造に基づいて前記構造化文書の木構造を分割するための方法であって、
前記スキーマによって定義される木構造に含まれる1以上の要素のうちの少なくとも一部について、各要素をルートとする部分木のサイズの指標値を計算するステップと、
前記スキーマが適用される構造化文書の木構造を分割するために用いられる分割パターンであって、当該構造化文書の木構造を分割した場合に分割後の部分木のサイズが所定の基準を満たす分割パターンを、前記指標値を用いて決定するステップと、
前記スキーマによって定義される木構造に含まれる1以上の要素に係数を割り当てるステップとを含み、
前記計算するステップが、計算対象の要素の子要素の存在を判断するステップと、子要素が存在する場合に子要素のサイズを計算するステップと、サイズが計算された子要素のサイズと計算対象の要素自体のサイズの合計を計算するステップと、を含み、前記各要素をルートとする部分木のサイズの指標値が前記係数を用いて計算される、
方法。 - 前記係数の少なくとも一部が、前記スキーマが適用される構造化文書の処理履歴に関する情報に基づいて計算される、請求項1に記載の方法。
- 前記処理履歴に関する情報が、処理された構造化文書の前記スキーマの変数部分に関する情報である、請求項2に記載の方法。
- 前記スキーマの変数部分が、子要素の出現頻度、テキスト部分のサイズのいずれか一方または両方を含む、請求項3に記載の方法。
- 前記係数の少なくとも一部が、前記処理履歴に関する情報に基づいて2以上設定され、処理対象の構造化文書のタイプに応じていずれか一方が適用される、請求項2に記載の方法。
- 前記構造化文書の処理履歴に関する情報が、あらかじめ準備された典型的な構造化文書を処理することで生成される、請求項1に記載の方法。
- 前記係数の少なくとも一部が、前記スキーマの記述内容に基づいて計算される、請求項1に記載の方法。
- 前記係数の少なくとも一部が、前記スキーマに含まれる要素名のサイズに基づいて決定される、請求項1に記載の方法。
- 前記係数の少なくとも一部が、対応する要素の要素名と関連付けて記憶される、請求項1に記載の方法。
- 前記係数の少なくとも一部が、対応する要素の絶対パスと関連付けて記録される、請求項1に記載の方法。
- 前記各要素をルートとする部分木のサイズの指標値が、前記スキーマが適用される構造化文書の処理履歴を考慮して計算される、請求項1に記載の方法。
- 前記分割を決定するステップが、前記スキーマが適用される構造化文書の木構造を分割した場合に、分割後の部分木のサイズが均等となる分割パターンを決定するステップを含む、請求項1に記載の方法。
- 前記分割を決定するステップが、前記構造化文書の部分木の処理に使用される並列動作可能なプロセッサ単位の数に構造化文書の木構造を分割をするための分割パターンを決定するステップを含む、請求項1に記載の方法。
- 前記プロセッサ単位がデータ処理システムのマルチコア・プロセッサのコアである、請求項13に記載の方法。
- 前記構造化文書が、SGML、XML、HTML、XHTMLのいずれかのようなメタ言語のフォーマットに従うものである、請求項1に記載の方法。
- 前記スキーマが、XML Schema、DTD、RELAX、RELAX NG、NVDL、Schematronのいずれかのようなスキーマ言語のフォーマットに従うものである、請求項1に記載の方法。
- 請求項1〜16のいずれかに記載の方法の各ステップをコンピュータに実行させる、プログラム。
- 電子的な構造化文書のスキーマによって定義される木構造に基づいて前記構造化文書の木構造を分割するためのシステムであって、
前記スキーマによって定義される木構造に含まれる1以上の要素のうちの少なくとも一部について、各要素をルートとする部分木のサイズの指標値を計算する計算部と、
前記スキーマが適用される構造化文書の木構造を分割するために用いられる分割パターンであって、当該構造化文書の木構造を分割した場合に分割後の部分木のサイズが所定の基準を満たす分割パターンを、前記指標値を用いて決定する決定部と、
前記スキーマによって定義される木構造に含まれる1以上の要素に係数を割り当てる割当部とを備え、
前記計算部が、計算対象の要素の子要素の存在を判断し、子要素が存在する場合に子要素のサイズを計算し、サイズが計算された子要素のサイズと計算対象の要素自体のサイズの合計を計算し、前記各要素をルートとする部分木のサイズの指標値が前記係数を用いて計算される、
システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010143356A JP5480034B2 (ja) | 2010-06-24 | 2010-06-24 | 構造化文書の木構造を分割するための方法、プログラムおよびシステム |
US13/154,823 US8880557B2 (en) | 2010-06-24 | 2011-06-07 | Method, program, and system for dividing tree structure of structured document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010143356A JP5480034B2 (ja) | 2010-06-24 | 2010-06-24 | 構造化文書の木構造を分割するための方法、プログラムおよびシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012008754A JP2012008754A (ja) | 2012-01-12 |
JP5480034B2 true JP5480034B2 (ja) | 2014-04-23 |
Family
ID=45353530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010143356A Expired - Fee Related JP5480034B2 (ja) | 2010-06-24 | 2010-06-24 | 構造化文書の木構造を分割するための方法、プログラムおよびシステム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8880557B2 (ja) |
JP (1) | JP5480034B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120254251A1 (en) * | 2011-03-03 | 2012-10-04 | The Governors Of The University Of Alberta | SYSTEMS AND METHODS FOR EFFICIENT TOP-k APPROXIMATE SUBTREE MATCHING |
US8788926B1 (en) * | 2012-01-31 | 2014-07-22 | Google Inc. | Method of content filtering to reduce ink consumption on printed web pages |
US9063959B2 (en) | 2013-01-24 | 2015-06-23 | International Business Machines Corporation | Decomposing XML schema documents into subsets |
DE102014110590A1 (de) * | 2013-07-26 | 2015-01-29 | Electronics And Telecommunications Research Institute | Parallel-Baum-Etikettierungsvorrichtung und -verfahren zum Verarbeiten eines XML-Dokuments |
US10387386B2 (en) * | 2015-08-11 | 2019-08-20 | International Business Machines Corporation | Automatic attribute structural variation detection for not only structured query language database |
US10579629B2 (en) * | 2017-01-13 | 2020-03-03 | International Business Machines Corporation | Message parser runtime choices |
US10592313B2 (en) | 2017-01-13 | 2020-03-17 | International Business Machines Corporation | Graph optimized message model parser |
CN112069794B (zh) * | 2020-08-28 | 2024-04-30 | 北京百度网讯科技有限公司 | 文本预测方法、装置、设备以及存储介质 |
KR102571209B1 (ko) * | 2021-08-13 | 2023-08-25 | 주식회사 신한디에스 | 문서비교방법 및 그 장치 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108844A (ja) | 2000-09-28 | 2002-04-12 | Hitachi Software Eng Co Ltd | Xmlデータ分割編集装置 |
FR2818409B1 (fr) * | 2000-12-18 | 2003-03-14 | Expaway | Procede pour diviser des documents structures en plusieurs parties |
JP2002312339A (ja) * | 2001-04-09 | 2002-10-25 | Nec Corp | Wwwサーバ/クライアントシステム、そのシステムにおける構文解析方法及び構文解析のためのプログラム |
JP3905851B2 (ja) * | 2003-03-24 | 2007-04-18 | 株式会社東芝 | 構造化文書の分割方法及びプログラム |
WO2005006192A1 (ja) | 2003-07-10 | 2005-01-20 | Fujitsu Limited | 構造化文書処理方法及び装置並びに記憶媒体 |
JP2007027996A (ja) | 2005-07-13 | 2007-02-01 | Konica Minolta Holdings Inc | ネットワークにおける論理接続方法および情報処理装置 |
JP2007193660A (ja) | 2006-01-20 | 2007-08-02 | Seiko Epson Corp | 情報管理装置、情報管理方法及びそのプログラム |
JP4489029B2 (ja) * | 2006-02-01 | 2010-06-23 | 株式会社東芝 | 構造化文書検索システムおよび構造化文書検索方法 |
JP2009064392A (ja) * | 2007-09-10 | 2009-03-26 | Hitachi Ltd | 構造化文書処理方法、構造化文書処理プログラム、および、構造化文書処理装置 |
-
2010
- 2010-06-24 JP JP2010143356A patent/JP5480034B2/ja not_active Expired - Fee Related
-
2011
- 2011-06-07 US US13/154,823 patent/US8880557B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US8880557B2 (en) | 2014-11-04 |
US20110320497A1 (en) | 2011-12-29 |
JP2012008754A (ja) | 2012-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5480034B2 (ja) | 構造化文書の木構造を分割するための方法、プログラムおよびシステム | |
JP4039484B2 (ja) | XPath評価方法、これを用いたXML文書処理システム及びプログラム | |
Meyerovich et al. | Fast and parallel webpage layout | |
US20220092256A1 (en) | Method, system, and computing device for facilitating private drafting | |
JP5496853B2 (ja) | 構造化文書を分類するためのルールを生成するための方法、並びにそのコンピュータ・プログラム及びコンピュータ | |
JP5256280B2 (ja) | チーム環境におけるコラボレーション開発情報の使用 | |
JP4625464B2 (ja) | 文書処理装置 | |
JP2005018776A (ja) | クエリ中間言語の方法およびシステム | |
JP2006011739A (ja) | オントロジを利用する装置、コンピュータシステムおよびデータ処理方法 | |
US20070150493A1 (en) | Structured document processing apparatus, method, and program | |
US7865481B2 (en) | Changing documents to include changes made to schemas | |
US20080235193A1 (en) | Apparatus, method, and computer program product for processing query | |
CN101295311A (zh) | 一种大规模发布订阅系统的语义匹配算法 | |
JP5398213B2 (ja) | 生成装置、プログラムおよび生成方法 | |
Bidoit et al. | Processing XML queries and updates on map/reduce clusters | |
JP2008015558A (ja) | コンテンツを作成するためのオーサリング・システム、ソフトウェア、および方法 | |
US20140331120A1 (en) | Document order management via binary tree projection | |
WO2006051869A1 (ja) | 文書処理装置及び文書処理方法 | |
WO2007081017A1 (ja) | 文書処理装置 | |
US9378301B2 (en) | Apparatus, method, and computer program product for searching structured document | |
US20080276230A1 (en) | Processing bundle file using virtual xml document | |
US20070244860A1 (en) | Querying nested documents embedded in compound XML documents | |
US7953714B2 (en) | Method for maintaining parallelism in database processing using record identifier substitution assignment | |
US7958440B2 (en) | Bursting multiple elements in a single object in a content management system | |
JP2009059250A (ja) | データ処理装置及びデータ処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130301 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131008 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5480034 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |