CN107943929B - 基于dom树抽象的包装器自动生成方法 - Google Patents

基于dom树抽象的包装器自动生成方法 Download PDF

Info

Publication number
CN107943929B
CN107943929B CN201711172974.8A CN201711172974A CN107943929B CN 107943929 B CN107943929 B CN 107943929B CN 201711172974 A CN201711172974 A CN 201711172974A CN 107943929 B CN107943929 B CN 107943929B
Authority
CN
China
Prior art keywords
tree
child
node
dom
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711172974.8A
Other languages
English (en)
Other versions
CN107943929A (zh
Inventor
陈星�
张佳俊
王一洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201711172974.8A priority Critical patent/CN107943929B/zh
Publication of CN107943929A publication Critical patent/CN107943929A/zh
Application granted granted Critical
Publication of CN107943929B publication Critical patent/CN107943929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于DOM树抽象的包装器自动生成方法。包装器生成阶段:用户输入网页集合,得到DOM树集合;而后,对DOM树进行合并,遍历DOM树对相同标签的子节点进行合并,并且针对每个节点进行路径特征标注,最终将DOM树集合转化为合并树集合;对合并树集合进行抽象操作得到抽象树,并将抽象树存入数据库中;根据配置文档确定结构化数据在合并树中的路径特征,将对应的路径特征经过处理后写入文档中,生成包装器;结构化数据抽取阶段:将待抽取的目标网页解析成DOM树,与抽象树进行匹配确定目标网页是否为包装器对应的类型网页;读取配置文档中的路径对目标DOM树进行抽取。本发明不仅能实现自动化生产包装器,并且在准确率和时间性能上也有较好的表现。

Description

基于DOM树抽象的包装器自动生成方法
技术领域
本发明属于云计算领域,具体涉及一种基于DOM树抽象的包装器自动生成方法。
背景技术
传统的包装器都由人工定义,要为不同类型的页面制作不同的包装器,因此包装器的维护是一个很大的开销,一旦原来的页面风格变了,原来的包装器也就需要重新定义。因此,目前主流的研究趋势是包装器的自动生成,本申请提出一种可行的基于DOM树抽象的包装器自动生成技术。该技术主要有两个部分组成:第一,目标类型网页的DOM树抽象;第二,目标节点的特征获取和定位。运用该技术可以对多种类型的网页实现包装器的自动生成。针对5个网站进行了实验,实验结果表明该方法的可行性和有效性。
发明内容
本发明的目的在于提供一种基于DOM树抽象的包装器自动生成方法,该方法不仅能实现自动化生产包装器,并且在准确率和时间性能上也有较好的表现。
为实现上述目的,本发明的技术方案是:一种基于DOM树抽象的包装器自动生成方法,包括如下步骤,
步骤S1、包装器生成阶段:
步骤S11、用户输入网页集合,通过网页预处理去除源码中的杂质信息,并解析成DOM树,得到DOM树集合;
步骤S12、对DOM树进行合并,遍历DOM树对相同标签的子节点进行合并,并且针对每个节点进行路径特征标注,最终将DOM树集合转化为合并树集合;
步骤S13、对合并树集合进行抽象操作得到抽象树,并将抽象树存入数据库中;
步骤S14、根据配置文档确定结构化数据在合并树中的路径特征,将对应的路径特征经过处理后写入文档中,生成包装器;
步骤S2、结构化数据抽取阶段:
步骤S21、将待抽取的目标网页解析成DOM树;
步骤S22、将DOM树与抽象树进行匹配确定目标网页是否为包装器对应的类型网页;
步骤S23、读取配置文档中的路径对目标DOM树进行抽取。
在本发明一实施例中,所述步骤S12采用CombinerTree算法实现将DOM树集合转化为合并树集合,具体的CombinerTree算法实现如下:
(1)设child[n0]为DOM树Ti的根节点vi子节点;
(2)输入节点vi,若vi存在子节点,则获取vi的子节点并存入child[n0];
(3)对child[n0]中的所有子节点进行两两判断:
假设选取的两个vi的子节点为k、h,若k≠h,并且k的标签=h的标签,则获取子节点h的子节点并存入temp[m]中;而后,将temp[m]添加为子节点k的子节点,移除子节点h;
(4)再次获取vi的子节点并存入child[n1],设ai为child[n1]中的第i个节点,i=0,1,2,……对所有节点ai判断执行步骤(2)-(4)的操作,输出合并树Ti
(5)对所有DOM树执行步骤(1)-(4)的操作,输出合并树集合D={T1,T2,…,Tn}。
在本发明一实施例中,所述步骤S13采用AbstractTree算法实现将合并树集合进行抽象操作得到抽象树,具体的AbstractTree算法实现如下:
(1)输入合并树集合D={T1,T2,…,Tn};
(2)将T1转化成抽象树的数据结构,并存入Ti
(3)对于每个Tj∈{T2,…,Tn}进行判断:
(3.1)获取Ti的根节点并存入vi0,获取Tj的根节点并存入vj0
(3.2)对vi0与vj0递归执行比较操作:
(3.2.1)获取vi0的子节点并存入childi[n],获取vj0的子节点并存入childj[m];
(3.2.2)对于每个节点k∈childj[m]进行判断:若childi[n]中不存在节点与k对应,将节点k添加为vi0的子节点,同时更新childi[n];
(3.2.3)依此类推,对vi0的子节点与vj0的子节点,vi0的子节点的子节点与vj0的子节点的子节点,……递归执行比较操作。
相较于现有技术,本发明具有以下有益效果:
本发明方法不仅能实现自动化生产包装器,并且在准确率和时间性能上也有较好的表现。该方法在构造DOM树时,以标签作为节点标志,所有构造所需的时间较少,并且能够很好的利用DOM树的树形结构表示原页面标签的嵌套和层次关系。在对于DOM树的抽象中,对DOM树进行了剪枝,也保证了DOM树的最简,从而减少了存储资源的利用,本文分析了将严格的节点路径作为节点位置特征的缺陷,因此将采用合并树的路径作为节点位置特征,能够实现每个节点存在唯一标识,并且能够适应网页的细微变化。定位目标信息位置时,每个节点的唯一性使得能够准确的获取目标信息特征,并通过特征总结判断所需获取的节点其位置特点是否满足某种规律分布,然后在目标网页中依据总结的规律依此输出节点信息。在抽取目标内容时,运用目标节点的特征,理想情况下能在O(n)的情况下就能找到对象信息。
附图说明
图1为节点路径对比图。
图2为本发明将DOM转换为合并树的示意图。
图3为本发明将合并树集合转化为抽象树的示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明一种基于DOM树抽象的包装器自动生成方法,包括如下步骤,
步骤S1、包装器生成阶段:
步骤S11、用户输入网页集合,通过网页预处理去除源码中的杂质信息,并解析成DOM树,得到DOM树集合;
步骤S12、对DOM树进行合并,遍历DOM树对相同标签的子节点进行合并,并且针对每个节点进行路径特征标注,最终将DOM树集合转化为合并树集合;
步骤S13、对合并树集合进行抽象操作得到抽象树,并将抽象树存入数据库中;
步骤S14、根据配置文档确定结构化数据在合并树中的路径特征,将对应的路径特征经过处理后写入文档中,生成包装器;
步骤S2、结构化数据抽取阶段:
步骤S21、将待抽取的目标网页解析成DOM树;
步骤S22、将DOM树与抽象树进行匹配确定目标网页是否为包装器对应的类型网页;
步骤S23、读取配置文档中的路径对目标DOM树进行抽取。
所述步骤S12采用CombinerTree算法实现将DOM树集合转化为合并树集合,具体的CombinerTree算法实现如下:
(1)设child[n0]为DOM树Ti的根节点vi子节点;
(2)输入节点vi,若vi存在子节点,则获取vi的子节点并存入child[n0];
(3)对child[n0]中的所有子节点进行两两判断:
假设选取的两个vi的子节点为k、h,若k≠h,并且k的标签=h的标签,则获取子节点h的子节点并存入temp[m]中;而后,将temp[m]添加为子节点k的子节点,移除子节点h;
(4)再次获取vi的子节点并存入child[n1],设ai为child[n1]中的第i个节点,i=0,1,2,……对所有节点ai判断执行步骤(2)-(4)的操作,输出合并树Ti
(5)对所有DOM树执行步骤(1)-(4)的操作,输出合并树集合D={T1,T2,…,Tn}。
所述步骤S13采用AbstractTree算法实现将合并树集合进行抽象操作得到抽象树,具体的AbstractTree算法实现如下:
(1)输入合并树集合D={T1,T2,…,Tn};
(2)将T1转化成抽象树的数据结构,并存入Ti
(3)对于每个Tj∈{T2,…,Tn}进行判断:
(3.1)获取Ti的根节点并存入vi0,获取Tj的根节点并存入vj0
(3.2)对vi0与vj0递归执行比较操作:
(3.2.1)获取vi0的子节点并存入childi[n],获取vj0的子节点并存入childj[m];
(3.2.2)对于每个节点k∈childj[m]进行判断:若childi[n]中不存在节点与k对应,将节点k添加为vi0的子节点,同时更新childi[n];
(3.2.3)依此类推,对vi0的子节点与vj0的子节点,vi0的子节点的子节点与vj0的子节点的子节点,……递归执行比较操作。
以下为本发明的一具体实现实例。
1方法概览
全自动化包装器的结构化数据抽取由3个模块组成,分别是网页预处理模块、DOM树抽象模块和节点定位模块。其过程可分为两个阶段包装器生成阶段和结构化数据抽取阶段。包装器生成阶段可分为四个步骤:1、用户输入网页集合,通过网页预处理去除源码中的杂质信息,并解析成DOM树,得到DOM树集合。2、对DOM树进行合并,遍历DOM树对相同标签的子节点进行合并并且针对每个节点进行路径特征标注,最终将DOM树集合转化为合并树集合。3、对合并树集合进行抽象操作得到抽象树,并将抽象树存入数据库中。4、根据配置文档确定结构化数据在合并树中的路径特征,将对应的路径特征经过处理后写入文档中,生成包装器。结构化数据抽取阶段是根据包装器进行数据抽取,首先将抽取的目标网页解析成DOM树。然后,将DOM树与抽象树进行匹配确定目标网页是否为包装器对应的类型网页。最后,读取配置文档中的路径对目标DOM树进行抽取。
2DOM树抽象模块
2.1节点位置特征与合并树
节点位置特征可以是标签路径,也可以是标签其他的特征。在Web信息抽取技术中节点位置特征占有重要地位。在包装器中常用的节点位置特征是标签节点在网页DOM树中的路径,如节点路径p1:body[0]/div[1]/div[0]/p[0],p1路径中的数值代表该节点在兄弟节点中的次序,这种路径确实能够唯一定位到DOM树中的特定节点,然而在这条路径中,只要任意一个div节点在其兄弟节点的顺序发生变化,那么就会导致路径定位到其他节点。如图1所示,在DOM树T1和T2之间仅仅相差一个节点p,然而路径p1在T2中却找不到对应的节点。事实上,在实验中出现图1的情况是很常见的,这些细微的结构变化导致了节点位置特征失效。
在上文中分析了严格的节点路径所带来的问题,利用在兄弟节点中的顺序来定位标签节点反而导致准确率的下降。然而,如果简单地去除路径中的序号,会导致相同的路径定位到不同的节点,例如:body/div/div/p对应的节点可以有多个。为此,本发明提出了合并树,在其合并的过程中抛弃了与兄弟节点的联系,保留与父亲节点的联系,并在叶子节点采用数组的形式保留节点的内容,使得路径能够唯一定位到合并树中的节点,如图2所示。本发明定了合并树如下:
定义.Tk是一颗以v0为根的合并树,对于任意的节点v∈V,若vk0,vk1,…,vkn有相同的父节点vk。则Tag(vki)≠Tag(vkj),i≠j,0<=i,j<=n。
通过算法1可以将DOM树转化为合并树:
Figure BDA0001477503600000051
算法1中函数CombinerTree是一个递归函数,在前序遍历DOM树的过程中完成节点的合并。节点合并是将兄弟节点中相同标签的节点合并成一个节点,并且这个节点包含了所有的子节点。如图2为网页对应DOM树转化为合并树的过程。
2.2抽象树
因在合并树的基础上本发明结合RoadRunner原理,提出了抽象树。抽象树实际上是一个通用的模板,根据这个模板来确定目标网页对应的类型。抽象是由合并树通过比对生成的。本发明定义抽象树的节点为:
定义.给定抽象树T的一个节点v0,那么该节点可表示为一个四元组v=<p,t,c,r>,其中p表示v0的路径,在抽象树中路径可以唯一表示该节点,t表示该节点对应的标签,c表示子节点的引用集合,r表示对应子节点的关系集合,r有两种表示方式:+,?。其中’+’表示所有的合并树都具有该节点,’?’表示只有部分合并树具有该节点。
算法2为抽象树的生成算法:
Figure BDA0001477503600000061
算法2中函数Compare是一个递归函数,在前序遍历DOM树的过程中完成节点的比对。若节点在抽象树中不存在则添加节点,并设置其关系为’?’,表示可能不存在。如图3为合并树转化为抽象树的过程。
3目标节点定位
传统处理多目标抽取的方式是在配置文档中直接列出样本网页中所有需要抽取的目标实例的数据,也就是存在多个<bean>。若页面中存在20个商品信息,则在配置文档中必须有明确20个<bean>实例,否则在对目标网页进行抽取是就可能会发生遗漏,并且当目标网页存在更多的实例时只会抽取出前20个。
本发明基于前人在抽取多目标类型网页中的结构化数据时所采用的方法,提出了一种路径规律总结方法,使得用户不必在配置文档中详细列出该网页中所有的实例,就能够抽取出目标网页中的所有实例。前人利用多目标网页中的实例对应的网页结构必定存在重复这个原理,来自动化抽取网页中的结构化数据,例如,每个商品都是一个独立的模块,并且模块中的结构是一样的,因此它们路径一定会存在规律。在正常的DOM树结构中,这个规律会表现在路径中的div块上,每个div块包含一个商品实例,并且这些div块有相同的父节点。在合并树中,因为对节点进行合并,所以这个规律会反映在叶子节点的顺序上,例如:第一款商品的价格路径为p:body/div/div/p[0],第二款商品的价格路径为p:body/div/div/p[3],第三款商品的价格路径为p:body/div/div/p[6]。显然,在合并树中价格在叶子上的次序是呈线性关系。因此,本发明利用算法3来对多目标结构化数据的路径进行归并。
Figure BDA0001477503600000071
算法3是路径归并算法,用来求得参数a,b对应的值。输入是网页中不同实例的相同属性对应在合并树路经集合P。函数getSequenceNumber获取路径中叶子节点的内容序号,并将其排序输出。
在通过2.1节可以得到目标网页DOM树,在同一类型网页中,相同类型属性的节点特征是相同的,即所在位置相同。所以在同一类型网页中通过查找实例信息在DOM树模板中的位置对应的特征作为抽取规则,能够在满足DOM树模板的该类型网页的DOM树中获取目标信息。
目标网页DOM树结合上节得到的实例信息的位置特征作为抽取规则,就能够获取目标网页中所需要的目标信息。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (2)

1.一种基于DOM树抽象的包装器自动生成方法,其特征在于:包括如下步骤,
步骤S1、包装器生成阶段:
步骤S11、用户输入网页集合,通过网页预处理去除源码中的杂质信息,并解析成DOM树,得到DOM树集合;
步骤S12、对DOM树进行合并,遍历DOM树对相同标签的子节点进行合并,并且针对每个节点进行路径特征标注,最终将DOM树集合转化为合并树集合;
步骤S13、对合并树集合进行抽象操作得到抽象树,并将抽象树存入数据库中;
步骤S14、根据配置文档确定结构化数据在合并树中的路径特征,将对应的路径特征经过处理后写入文档中,生成包装器;
步骤S2、结构化数据抽取阶段:
步骤S21、将待抽取的目标网页解析成DOM树;
步骤S22、将DOM树与抽象树进行匹配确定目标网页是否为包装器对应的类型网页;
步骤S23、读取配置文档中的路径对目标DOM树进行抽取;
所述步骤S12采用CombinerTree算法实现将DOM树集合转化为合并树集合,具体的CombinerTree算法实现如下:
(1)设child [n 0 ]为DOM树T i 的根节点vi子节点;
(2)输入节点vi,若vi存在子节点,则获取vi的子节点并存入child [n 0 ];
(3)对child [n 0 ]中的所有子节点进行两两判断:
假设选取的两个vi的子节点为kh,若k
Figure DEST_PATH_IMAGE002
h,并且k的标签=h的标签,则获取子节点h的子节点并存入temp [m]中;而后,将temp [m]添加为子节点k的子节点,移除子节点h
(4)再次获取vi的子节点并存入child[n 1 ],设ai为child[n 1 ] 中的第i个节点,i=0,1,2,……对所有节点ai判断执行步骤(2)-(4)的操作,输出合并树T i
(5)对所有DOM树执行步骤(1)-(4)的操作,输出合并树集合D={T 1 ,T 2 ,…,T n }。
2.根据权利要求1所述的基于DOM树抽象的包装器自动生成方法,其特征在于:所述步骤S13采用AbstractTree算法实现将合并树集合进行抽象操作得到抽象树,具体的AbstractTree算法实现如下:
(1)输入合并树集合D={T 1 ,T 2 ,…,T n };
(2)将T 1 转化成抽象树的数据结构,并存入T i
(3)对于每个T j ∈{ T 2 ,…,T n }进行判断:
(3.1)获取T i 的根节点并存入v i0 ,获取T j 的根节点并存入v j0
(3.2)对v i0 v j0 递归执行比较操作:
(3.2.1)获取v i0 的子节点并存入child i [n],获取v j0 的子节点并存入child j [m];
(3.2.2)对于每个节点k∈child j [m]进行判断:若child i [n]中不存在节点与k对应,将节点k添加为v i0 的子节点,同时更新child i [n];
(3.2.3)依此类推,对v i0 的子节点与v j0 的子节点,v i0 的子节点的子节点与v j0 的子节点的子节点,……递归执行比较操作。
CN201711172974.8A 2017-11-22 2017-11-22 基于dom树抽象的包装器自动生成方法 Active CN107943929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711172974.8A CN107943929B (zh) 2017-11-22 2017-11-22 基于dom树抽象的包装器自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711172974.8A CN107943929B (zh) 2017-11-22 2017-11-22 基于dom树抽象的包装器自动生成方法

Publications (2)

Publication Number Publication Date
CN107943929A CN107943929A (zh) 2018-04-20
CN107943929B true CN107943929B (zh) 2021-09-28

Family

ID=61930612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711172974.8A Active CN107943929B (zh) 2017-11-22 2017-11-22 基于dom树抽象的包装器自动生成方法

Country Status (1)

Country Link
CN (1) CN107943929B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445784B (zh) * 2018-09-29 2020-08-14 Oppo广东移动通信有限公司 结构数据的处理方法、装置、存储介质及电子设备
CN109726338B (zh) * 2018-11-29 2020-01-17 北京字节跳动网络技术有限公司 页面体裁划分方法、装置、可读存储介质及电子设备
CN114528811B (zh) * 2022-01-21 2022-09-02 北京麦克斯泰科技有限公司 文章内容抽取方法、装置、设备及存储介质
CN114925092B (zh) * 2022-05-09 2023-05-30 北京达佳互联信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515287A (zh) * 2009-03-24 2009-08-26 崔志明 一种用于复杂页面的包装器自动生成方法
CN101540689A (zh) * 2008-03-17 2009-09-23 中国科学院声学研究所 一种自适应xml内容发布方法
CN104462540A (zh) * 2014-12-24 2015-03-25 中国科学院声学研究所 网页信息抽取方法
CN104834717A (zh) * 2015-05-11 2015-08-12 浪潮集团有限公司 一种基于网页聚类的Web信息自动抽取方法
CN105740370A (zh) * 2013-05-10 2016-07-06 合肥工业大学 一种在线Web新闻内容抽取系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7210097B1 (en) * 2002-05-22 2007-04-24 Pitney Bowes Inc. Method for loading large XML documents on demand
CN1326078C (zh) * 2004-09-08 2007-07-11 孟小峰 包装器的生成方法
US20110191381A1 (en) * 2010-01-29 2011-08-04 Microsoft Corporation Interactive System for Extracting Data from a Website
CN102184189B (zh) * 2011-04-18 2012-11-28 北京理工大学 基于dom节点文本密度的网页核心块确定方法
CN102890681B (zh) * 2011-07-20 2016-03-09 阿里巴巴集团控股有限公司 一种生成网页结构模板的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540689A (zh) * 2008-03-17 2009-09-23 中国科学院声学研究所 一种自适应xml内容发布方法
CN101515287A (zh) * 2009-03-24 2009-08-26 崔志明 一种用于复杂页面的包装器自动生成方法
CN105740370A (zh) * 2013-05-10 2016-07-06 合肥工业大学 一种在线Web新闻内容抽取系统
CN104462540A (zh) * 2014-12-24 2015-03-25 中国科学院声学研究所 网页信息抽取方法
CN104834717A (zh) * 2015-05-11 2015-08-12 浪潮集团有限公司 一种基于网页聚类的Web信息自动抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Application of Internet Technology and Web Information Extraction Wrapper Based on DOM for Agricultural Data Acquisition;Liming Luo 等;《IEEE》;20160114;第327-331页 *
基于DOM树节点重要度的WEB主题信息提取研究;马金娜;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215;I138-4648 *
页面包装器自动生成的改进算法;李文奇 等;《计算机工程与应用》;20040902;第113-115页 *

Also Published As

Publication number Publication date
CN107943929A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN107943929B (zh) 基于dom树抽象的包装器自动生成方法
Zhai et al. Web data extraction based on partial tree alignment
CN107918666B (zh) 一种区块链上的数据同步方法和系统
US7444325B2 (en) Method and system for information extraction
CN107392143B (zh) 一种基于svm文本分类的简历精确解析方法
US7765236B2 (en) Extracting data content items using template matching
JP5576003B1 (ja) コーパス生成装置、コーパス生成方法、及びコーパス生成プログラム
US8108765B2 (en) Identifying and annotating shared hierarchical markup document trees
WO2011063561A1 (en) Data extraction method, computer program product and system
US7672958B2 (en) Method and system to identify records that relate to a pre-defined context in a data set
CN104834717A (zh) 一种基于网页聚类的Web信息自动抽取方法
US8635242B2 (en) Processing queries on hierarchical markup data using shared hierarchical markup trees
CN106960058A (zh) 一种网页结构变更检测方法及系统
CN115358200A (zh) 一种基于SysML元模型的模板化文档自动生成方法
CN113486187A (zh) 佛学知识图谱构建方法、装置、设备及存储介质
Machanavajjhala et al. Collective extraction from heterogeneous web lists
CN113704575B (zh) 解析XML与Java文件的SQL方法、装置、设备及存储介质
US11113314B2 (en) Similarity calculating device and method, and recording medium
Embley et al. Green interaction for extracting family information from OCR'd books
JP2018037017A (ja) 分析装置、分析方法、および分析プログラム
CN111125483B (zh) 网页数据抽取模板生成方法、装置、计算机装置及存储介质
JP2010170287A (ja) データ抽出システム
US8719693B2 (en) Method for storing localized XML document values
Wetzels et al. Taming Horizontal Instability in Merge Trees: On the Computation of a Comprehensive Deformation-based Edit Distance
Manjaramkar et al. DEPTA: An efficient technique for web data extraction and alignment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant