JP4992072B2 - 複数のxml文書の類似性検出システム、および、複数のxml文書の統合システム - Google Patents
複数のxml文書の類似性検出システム、および、複数のxml文書の統合システム Download PDFInfo
- Publication number
- JP4992072B2 JP4992072B2 JP2005236039A JP2005236039A JP4992072B2 JP 4992072 B2 JP4992072 B2 JP 4992072B2 JP 2005236039 A JP2005236039 A JP 2005236039A JP 2005236039 A JP2005236039 A JP 2005236039A JP 4992072 B2 JP4992072 B2 JP 4992072B2
- Authority
- JP
- Japan
- Prior art keywords
- subtree
- similarity
- xml
- xml document
- leaf node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ge)によって記述されることが多くなってきている。例えば、MAGE(MicroArray and Gene Expression:http://www.mged.org/Workgroups/MAGE/mage.html参照)、DBLP(Digital Bibliography & Library Project:http://www.dblp.uni−trier.de/xml/参照)、ACM SIGMOD Record(http://www.acm.org/sigmod/record/xml/参照)等のデータソースが、インターネット上にXML文書によって公開されている。しかし、こうしたXMLによって記述された複数のデータソースには、同じ情報が含まれていても、異なる構造でデータ化されている。例えば、XML文書に記述される文書型定義(DTD:Document Type Definition)は、XML文書の構造に関する情報を取得するために、有用であるとされているが、同じDTDで記述されているXMLデータソースであっても、繰り返し或いは選択的な要素の数の違いで、同一の木構造に構成されていない。
S. Guha, H.V. Jagadish, N. Koudas, D. Srivastava and T. Yu. Approximate XML Joins. In Proc. of ACM SIGMOD 2002, pages 287-298, 2002.
w=n×dφ (3)
以下、まず、本発明において、2つのXML文書Tb,Ttの類似度を検出する方法について説明する。
この方法は、一のXML文書Tbと、他方のXML文書Ttとを、それぞれ複数の部分木で構成される木構造に分割して行う段階(A)と、各XML文書を構成する部分木が含む葉ノードクラスタ同士を照合して、部分木の類似度S(tbi,ttj)を求める段階(B)と、2つのXML文書Tb,Ttの類似度であるXML文書間類似度S(Tb,Tt)を求める段階(C)とを含む。
(a)各部分木は、一の独立項目のみを含む。すなわち、部分木は、他の項目に属する情報を含まない。
(b)一の独立項目は、一の部分木しか対応しない。すなわち、一の独立項目は、対応する部分木を1つ以上持たない。
(c)各部分木は、可能な限り代表している項目の多くの情報項目を含む。すなわち、その情報項目に属する多くの葉ノードは、可能な限りその部分木に含まれる。
このXML文書(PaperRecord)の木構造において、木構造の先端の「XML」、「John」、「Jane」、「10」、「XMLJoins」等は、それぞれ、部分木「article」の葉ノードを示す。
w=n×dφ (3)
前記定数φは、予め実験等によって決定することができる。例えば、漸次減少のφ(例えば、φ=1,0.9,0.8,…)で一つのXML文書を前記の方法で分割し、それぞれ分割された部分木の個数(Mと示す)と各部分木が含む葉ノードの平均個数(Nと示す)と、一番大きなM×N値によって定数φを決定することができる。通常、φは、1である。
この図4に示すXML文書Tb,Ttは、それぞれ、2つの部分木tb1,tb2、tt1,tt2を有する。XML文書Tbにおいて、部分木tb1は葉ノードA,B,Cを、部分木tb2は葉ノードC,D,Eを、それぞれ有する。また、XML文書Ttにおいて、部分木tt1は葉ノードD,A,Eを、部分木tt2は葉ノードA,C,Eを、それぞれ有する。
次に、部分木tb1の葉ノードA,B,Cに対して、部分木tt2の葉ノードA,C,Bとを照合する。このとき、部分木tb1と部分木tt2との間では、同じ内容を有する葉ノードの個数(n)は3、部分木tb1の個数(nb)は3であるから、部分木類似度S(tb1,tt1)は、3/3=1と計算される。
そして、このようにして求められたSM[1]〜SM[kb]とによって、前記式(2)で表されるXML文書間類似度S(Tb,Tt)を計算する。
この方法は、前記の段階(A)と、段階(B)と、段階(C)とを含み、さらに、段階(C)において求められたXML文書間類似度S(Tb,Tt)に基づいて、各XML文書を構成する部分木同士で類似度が高いものを選び、各部分木の間の異なる葉ノードを抽出して、その差分を一方の部分木に付加することで、XML文書の統合を行う段階(D)を含むものである。このとき、予め定めたしきい値τ(0<τ≦1)以上の部分木類似度を有する部分木同士をヒットした部分木とし、そのヒットした部分木を統合することによって、2つのXML文書Tb,Ttを統合することができる。しきい値τは、統合するXML文書の内容、構造、大きさ等によって、統合されたXML文書を逐次検証することによって選択することができる。
図7は、XML文書類似度検出システム4と、XML文書の統合システム6とを示す。
部分木分割部1は、一のXML文書Tbと、他方のXML文書Ttとを、それぞれ複数の部分木で構成される木構造に分割して行う。この部分木分割部1における木構造の分割操作については、前記段階(A)について説明したとおりである。
実際に、合成データ群と、実データ群とのそれぞれについて、従来の木の編集距離によってXML文書間の類似性を検出する場合(比較例)と、本発明の方法によってXML文書間の類似性を検出する場合(実施例)とについて、検出効率および効果を評価した。
生成したXML文書のサイズは、1〜150KB(約0〜5000ノード)の範囲であった。
(a)ACM SIGMOD recordのXMLバージョン(http://www.acm.org/sigmod/record/xml/参照)から、OrdinaryIssuePage,ProceedingsPageおよびSigmodRecordに関するXML文書
(b)DBLPデータベースのXML文書(http://www.dblp.uni−trier.de/xml/参照)
実験条件:
CPU インテル社 PENTIUM(登録商標) IV 2.80GHz
メモリ 1.0GB
OS マイクロソフト社 WINDOWS(登録商標) XP Professional
プログラム環境 サン・マイクロシステムズ社 JDK(登録商標) 1.4.2
このことから、木の編集距離が同じ値を有する場合でも、本発明の方法によれば、XML文書間の類似度の差を明確に識別できることが分かる。すなわち、部分木の葉ノードの部分のみが異なるような場合、葉ノードの部分までは同じなので、木の編集距離による方法では部分木の間の差が出づらいが、本発明の方法では、その差を明確に出すことが可能となる。
まず、前記合成データ群から選択した2つのXML文書について、XML文書間類似度(Tree similarity degree)を計算し、その計算に要した時間を図10(a)および図10(b)に示す。図10(a)のX軸は選択した2つのXML文書の木構造を構成する葉ノードの総個数を示し、図10(b)のX軸は2つのXML文書の木構造を構成する部分木の総個数を示す。
その結果、図11に示すように、XML文書のサイズが大きくなるとともに、部分木の個数は増加するが、その部分木の個数は、常に単調に増加しない。これは、部分木が、異なるDTDによって異なる個数の葉ノードを含むことが原因と考えられる。
2 部分木類似度演算部
3 XML類似度演算部
4 XML文書類似度検出システム
5 統合演算部
Claims (4)
- 複数のXML文書の類似度をコンピュータによって検出するシステムであって、
前記コンピュータが、
一のXML文書Tbと、他のXML文書Ttとを、それぞれ複数の部分木で構成される木構造に分割する部分木分割部と、
前記分割によって形成される、kb個の部分木tbi(1≦i≦kb:kbは2以上の整数)で構成されるXML文書Tbと、kt個の部分木ttj(1≦j≦kt:ktは2以上の整数)で構成されるXML文書Ttとについて、部分木tbiを構成するnbi個の葉ノードを持つ葉ノードクラスタLbと、部分木ttjを構成する葉ノードクラスタLtとを照合して、葉ノードクラスタLbと葉ノードクラスタLtとの間で同じ内容を有する葉ノードの個数nを求め、下記式(1)に従って、部分木の類似度S(tbi,ttj)を求める部分木類似度演算部と、
を備えることを特徴とする複数のXML文書の類似度検出システム。 - 前記部分木分割部は、
前記した一のXML文書Tbと、他のXML文書Ttとを、それぞれ複数の部分木で構成される木構造に分割するとき、
自己から最も遠い子孫ノードまでの最大距離が3以上である或いは子ノード二つ以上を持つノードを候補ノードとし、前記候補ノードの子ノードの中で、候補ノードの個数nと、最も遠い子孫ノードまでの距離dと、所定の定数φ(0<φ≦1)とに基づいて、下記式(3)で表されるパラメータwを求め、木構造の中でそれぞれの上端から末端までの候補ノードが構成するトップダウンパスでwが一番大きなノードで、XML文書TbおよびXML文書Ttを部分木に分割する
ことを特徴とする請求項1に記載の複数のXML文書の類似度検出システム。
w=n×dφ (3) - 前記部分木類似度演算部は、
前記した葉ノードクラスタLbと葉ノードクラスタLtとの間で同じ内容を有する葉ノードの個数nを求めるとき、
各葉ノードクラスタが含む葉ノードが有する構文解析対象文字データを照合して、前記葉ノードクラスタLbが含む葉ノードと、前記葉ノードクラスタLtが含む葉ノードとが同一の内容のものであるか否かを決定する
ことを特徴とする請求項1または請求項2に記載の複数のXML文書の類似度検出システム。 - 複数のXML文書の類似度をコンピュータによって検出して、XML文書を統合するシステムであって、
前記コンピュータが、
一のXML文書Tbと、他のXML文書Ttとを、それぞれ複数の部分木で構成される木構造に分割する部分木分割部と、
前記分割によって形成される、kb個の部分木tbi(1≦i≦kb:kbは2以上の整数)で構成されるXML文書Tbと、kt個の部分木ttj(1≦j≦kt:ktは2以上の整数)で構成されるXML文書Ttとについて、部分木tbiを構成するnbi個の葉ノードを持つ葉ノードクラスタLbと、部分木ttjを構成する葉ノードクラスタLtとを照合して、葉ノードクラスタLbと葉ノードクラスタLtとの間で同じ内容を有する葉ノードの個数nを求め、下記式(1)に従って、部分木の類似度S(tbi,ttj)を求める部分木類似度演算部と、
すべての部分木tbi,ttjの組み合わせのうち、前記XML類似度演算部によって求められたXML文書間類似度S(Tb,Tt)が予め定めたしきい値τ(0<τ≦1)よりも大きい値を示す場合に、前記しきい値τ以上の部分木類似度を有する部分木tbi,ttjの組み合わせを選び、その一方の部分木を基準とし、他方の部分木において前記一方の部分木に含まれていない葉ノードクラスタを抽出して差分とし、その差分を前記一方の部分木に付加することで、2つのXML文書の統合を行う統合演算部と、を備える
ことを特徴とする複数のXML文書の統合システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005236039A JP4992072B2 (ja) | 2005-08-16 | 2005-08-16 | 複数のxml文書の類似性検出システム、および、複数のxml文書の統合システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005236039A JP4992072B2 (ja) | 2005-08-16 | 2005-08-16 | 複数のxml文書の類似性検出システム、および、複数のxml文書の統合システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007052556A JP2007052556A (ja) | 2007-03-01 |
JP4992072B2 true JP4992072B2 (ja) | 2012-08-08 |
Family
ID=37916979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005236039A Active JP4992072B2 (ja) | 2005-08-16 | 2005-08-16 | 複数のxml文書の類似性検出システム、および、複数のxml文書の統合システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4992072B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5379372B2 (ja) * | 2007-11-15 | 2013-12-25 | キヤノン株式会社 | データ圧縮装置、データ伸長装置およびデータ圧縮方法 |
JP5090408B2 (ja) | 2009-07-22 | 2012-12-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ネットワーク通信において送信データの宛先を動的に制御する方法及び機器 |
JP5471372B2 (ja) * | 2009-12-01 | 2014-04-16 | 富士ゼロックス株式会社 | プログラム及び情報処理システム |
CN102110122B (zh) * | 2009-12-24 | 2013-04-03 | 阿里巴巴集团控股有限公司 | 一种建立样本图片索引表和图片过滤、搜索方法及装置 |
JP5496853B2 (ja) | 2010-10-29 | 2014-05-21 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 構造化文書を分類するためのルールを生成するための方法、並びにそのコンピュータ・プログラム及びコンピュータ |
US20130222389A1 (en) * | 2010-11-09 | 2013-08-29 | Nec Corporation | Information processing device |
JP5652332B2 (ja) * | 2011-05-31 | 2015-01-14 | 富士ゼロックス株式会社 | データ構造比較プログラム及びデータ構造比較装置 |
CN102799680B (zh) * | 2012-07-24 | 2014-10-15 | 华北电力大学(保定) | 一种基于近邻传播的xml文档谱聚类方法 |
JP6173896B2 (ja) * | 2013-12-10 | 2017-08-02 | 株式会社日立製作所 | データ処理方法およびデータ処理サーバ |
JP6317280B2 (ja) * | 2015-02-20 | 2018-04-25 | 日本電信電話株式会社 | 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム |
WO2018070405A1 (ja) * | 2016-10-12 | 2018-04-19 | 日本電気株式会社 | 情報処理装置、方法およびプログラム記録媒体 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000105769A (ja) * | 1998-09-28 | 2000-04-11 | Hitachi Ltd | 文書表示方法 |
JP2004348341A (ja) * | 2003-05-21 | 2004-12-09 | Toshiba Corp | 構造化文書処理システム、構造化文書処理方法及びプログラム |
-
2005
- 2005-08-16 JP JP2005236039A patent/JP4992072B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2007052556A (ja) | 2007-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4992072B2 (ja) | 複数のxml文書の類似性検出システム、および、複数のxml文書の統合システム | |
US7721188B2 (en) | Differencing and merging tree-structured documents | |
US7260572B2 (en) | Method of processing query about XML data using APEX | |
US8892599B2 (en) | Apparatus and method for securing preliminary information about database fragments for utilization in mapreduce processing | |
US8145668B2 (en) | Associating information related to components in structured documents stored in their native format in a database | |
JP4637181B2 (ja) | 文書構造に基づいた検索結果の表示 | |
Al-Ekram et al. | diffX: an algorithm to detect changes in multi-version XML documents | |
US20090049062A1 (en) | Method for Organizing Structurally Similar Web Pages from a Web Site | |
Helmer | Measuring the structural similarity of semistructured documents using entropy | |
CN100495401C (zh) | 结构化文档处理装置和方法 | |
JP2010501096A (ja) | ラッパー生成およびテンプレート検出の協同最適化 | |
US20090030887A1 (en) | Recording medium in which collation processing program is stored, collation processing device and collation processing method | |
US7496571B2 (en) | Method for performing information-preserving DTD schema embeddings | |
Cohen | Indexing for subtree similarity-search using edit distance | |
Nayak et al. | Xcls: A fast and effective clustering algorithm for heterogenous xml documents | |
Izadi et al. | S3: Evaluation of tree-pattern XML queries supported by structural summaries | |
Tekli et al. | Structural similarity evaluation between XML documents and DTDs | |
Barbosa et al. | Efficient incremental validation of XML documents after composite updates | |
Saleem et al. | Performance oriented schema matching | |
Kim et al. | DOM tree browsing of a very large XML document: Design and implementation | |
Viyanon et al. | XML data integration based on content and structure similarity using keys | |
Li et al. | Approximate joins for XML at label level | |
Swapna et al. | Efficient approach for web search personalization in user behavior supported web server log files using web usage mining | |
Ribeiro et al. | Evaluating performance and quality of XML-based similarity joins | |
Thulasi et al. | Structure based XML document clustering: a review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080326 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101008 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120410 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |