CN107943929A - 基于dom树抽象的包装器自动生成方法 - Google Patents

基于dom树抽象的包装器自动生成方法 Download PDF

Info

Publication number
CN107943929A
CN107943929A CN201711172974.8A CN201711172974A CN107943929A CN 107943929 A CN107943929 A CN 107943929A CN 201711172974 A CN201711172974 A CN 201711172974A CN 107943929 A CN107943929 A CN 107943929A
Authority
CN
China
Prior art keywords
node
tree
child
dom tree
wrapper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711172974.8A
Other languages
English (en)
Other versions
CN107943929B (zh
Inventor
陈星�
张佳俊
王洲
王一洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201711172974.8A priority Critical patent/CN107943929B/zh
Publication of CN107943929A publication Critical patent/CN107943929A/zh
Application granted granted Critical
Publication of CN107943929B publication Critical patent/CN107943929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Abstract

本发明涉及一种基于DOM树抽象的包装器自动生成方法。包装器生成阶段:用户输入网页集合,得到DOM树集合;而后,对DOM树进行合并,遍历DOM树对相同标签的子节点进行合并,并且针对每个节点进行路径特征标注,最终将DOM树集合转化为合并树集合;对合并树集合进行抽象操作得到抽象树,并将抽象树存入数据库中;根据配置文档确定结构化数据在合并树中的路径特征,将对应的路径特征经过处理后写入文档中,生成包装器;结构化数据抽取阶段:将待抽取的目标网页解析成DOM树,与抽象树进行匹配确定目标网页是否为包装器对应的类型网页;读取配置文档中的路径对目标DOM树进行抽取。本发明不仅能实现自动化生产包装器,并且在准确率和时间性能上也有较好的表现。

Description

基于DOM树抽象的包装器自动生成方法
技术领域
本发明属于云计算领域,具体涉及一种基于DOM树抽象的包装器自动生成方法。
背景技术
传统的包装器都由人工定义,要为不同类型的页面制作不同的包装器,因此包装器的维护是一个很大的开销,一旦原来的页面风格变了,原来的包装器也就需要重新定义。因此,目前主流的研究趋势是包装器的自动生成,本申请提出一种可行的基于DOM树抽象的包装器自动生成技术。该技术主要有两个部分组成:第一,目标类型网页的DOM树抽象;第二,目标节点的特征获取和定位。运用该技术可以对多种类型的网页实现包装器的自动生成。针对5个网站进行了实验,实验结果表明该方法的可行性和有效性。
发明内容
本发明的目的在于提供一种基于DOM树抽象的包装器自动生成方法,该方法不仅能实现自动化生产包装器,并且在准确率和时间性能上也有较好的表现。
为实现上述目的,本发明的技术方案是:一种基于DOM树抽象的包装器自动生成方法,包括如下步骤,
步骤S1、包装器生成阶段:
步骤S11、用户输入网页集合,通过网页预处理去除源码中的杂质信息,并解析成DOM树,得到DOM树集合;
步骤S12、对DOM树进行合并,遍历DOM树对相同标签的子节点进行合并,并且针对每个节点进行路径特征标注,最终将DOM树集合转化为合并树集合;
步骤S13、对合并树集合进行抽象操作得到抽象树,并将抽象树存入数据库中;
步骤S14、根据配置文档确定结构化数据在合并树中的路径特征,将对应的路径特征经过处理后写入文档中,生成包装器;
步骤S2、结构化数据抽取阶段:
步骤S21、将待抽取的目标网页解析成DOM树;
步骤S22、将DOM树与抽象树进行匹配确定目标网页是否为包装器对应的类型网页;
步骤S23、读取配置文档中的路径对目标DOM树进行抽取。
在本发明一实施例中,所述步骤S12采用CombinerTree算法实现将DOM树集合转化为合并树集合,具体的CombinerTree算法实现如下:
(1)设child[n0]为DOM树Ti的根节点vi子节点;
(2)输入节点vi,若vi存在子节点,则获取vi的子节点并存入child[n0];
(3)对child[n0]中的所有子节点进行两两判断:
假设选取的两个vi的子节点为k、h,若k≠h,并且k的标签=h的标签,则获取子节点h的子节点并存入temp[m]中;而后,将temp[m]添加为子节点k的子节点,移除子节点h;
(4)再次获取vi的子节点并存入child[n1],设ai为child[n1]中的第i个节点,i=0,1,2,……对所有节点ai判断执行步骤(2)-(4)的操作,输出合并树Ti
(5)对所有DOM树执行步骤(1)-(4)的操作,输出合并树集合D={T1,T2,…,Tn}。
在本发明一实施例中,所述步骤S13采用AbstractTree算法实现将合并树集合进行抽象操作得到抽象树,具体的AbstractTree算法实现如下:
(1)输入合并树集合D={T1,T2,…,Tn};
(2)将T1转化成抽象树的数据结构,并存入Ti
(3)对于每个Tj∈{T2,…,Tn}进行判断:
(3.1)获取Ti的根节点并存入vi0,获取Tj的根节点并存入vj0
(3.2)对vi0与vj0递归执行比较操作:
(3.2.1)获取vi0的子节点并存入childi[n],获取vj0的子节点并存入childj[m];
(3.2.2)对于每个节点k∈childj[m]进行判断:若childi[n]中不存在节点与k对应,将节点k添加为vi0的子节点,同时更新childi[n];
(3.2.3)依此类推,对vi0的子节点与vj0的子节点,vi0的子节点的子节点与vj0的子节点的子节点,……递归执行比较操作。
相较于现有技术,本发明具有以下有益效果:
本发明方法不仅能实现自动化生产包装器,并且在准确率和时间性能上也有较好的表现。该方法在构造DOM树时,以标签作为节点标志,所有构造所需的时间较少,并且能够很好的利用DOM树的树形结构表示原页面标签的嵌套和层次关系。在对于DOM树的抽象中,对DOM树进行了剪枝,也保证了DOM树的最简,从而减少了存储资源的利用,本文分析了将严格的节点路径作为节点位置特征的缺陷,因此将采用合并树的路径作为节点位置特征,能够实现每个节点存在唯一标识,并且能够适应网页的细微变化。定位目标信息位置时,每个节点的唯一性使得能够准确的获取目标信息特征,并通过特征总结判断所需获取的节点其位置特点是否满足某种规律分布,然后在目标网页中依据总结的规律依此输出节点信息。在抽取目标内容时,运用目标节点的特征,理想情况下能在O(n)的情况下就能找到对象信息。
附图说明
图1为节点路径对比图。
图2为本发明将DOM转换为合并树的示意图。
图3为本发明将合并树集合转化为抽象树的示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明一种基于DOM树抽象的包装器自动生成方法,包括如下步骤,
步骤S1、包装器生成阶段:
步骤S11、用户输入网页集合,通过网页预处理去除源码中的杂质信息,并解析成DOM树,得到DOM树集合;
步骤S12、对DOM树进行合并,遍历DOM树对相同标签的子节点进行合并,并且针对每个节点进行路径特征标注,最终将DOM树集合转化为合并树集合;
步骤S13、对合并树集合进行抽象操作得到抽象树,并将抽象树存入数据库中;
步骤S14、根据配置文档确定结构化数据在合并树中的路径特征,将对应的路径特征经过处理后写入文档中,生成包装器;
步骤S2、结构化数据抽取阶段:
步骤S21、将待抽取的目标网页解析成DOM树;
步骤S22、将DOM树与抽象树进行匹配确定目标网页是否为包装器对应的类型网页;
步骤S23、读取配置文档中的路径对目标DOM树进行抽取。
所述步骤S12采用CombinerTree算法实现将DOM树集合转化为合并树集合,具体的CombinerTree算法实现如下:
(1)设child[n0]为DOM树Ti的根节点vi子节点;
(2)输入节点vi,若vi存在子节点,则获取vi的子节点并存入child[n0];
(3)对child[n0]中的所有子节点进行两两判断:
假设选取的两个vi的子节点为k、h,若k≠h,并且k的标签=h的标签,则获取子节点h的子节点并存入temp[m]中;而后,将temp[m]添加为子节点k的子节点,移除子节点h;
(4)再次获取vi的子节点并存入child[n1],设ai为child[n1]中的第i个节点,i=0,1,2,……对所有节点ai判断执行步骤(2)-(4)的操作,输出合并树Ti
(5)对所有DOM树执行步骤(1)-(4)的操作,输出合并树集合D={T1,T2,…,Tn}。
所述步骤S13采用AbstractTree算法实现将合并树集合进行抽象操作得到抽象树,具体的AbstractTree算法实现如下:
(1)输入合并树集合D={T1,T2,…,Tn};
(2)将T1转化成抽象树的数据结构,并存入Ti
(3)对于每个Tj∈{T2,…,Tn}进行判断:
(3.1)获取Ti的根节点并存入vi0,获取Tj的根节点并存入vj0
(3.2)对vi0与vj0递归执行比较操作:
(3.2.1)获取vi0的子节点并存入childi[n],获取vj0的子节点并存入childj[m];
(3.2.2)对于每个节点k∈childj[m]进行判断:若childi[n]中不存在节点与k对应,将节点k添加为vi0的子节点,同时更新childi[n];
(3.2.3)依此类推,对vi0的子节点与vj0的子节点,vi0的子节点的子节点与vj0的子节点的子节点,……递归执行比较操作。
以下为本发明的一具体实现实例。
1方法概览
全自动化包装器的结构化数据抽取由3个模块组成,分别是网页预处理模块、DOM树抽象模块和节点定位模块。其过程可分为两个阶段包装器生成阶段和结构化数据抽取阶段。包装器生成阶段可分为四个步骤:1、用户输入网页集合,通过网页预处理去除源码中的杂质信息,并解析成DOM树,得到DOM树集合。2、对DOM树进行合并,遍历DOM树对相同标签的子节点进行合并并且针对每个节点进行路径特征标注,最终将DOM树集合转化为合并树集合。3、对合并树集合进行抽象操作得到抽象树,并将抽象树存入数据库中。4、根据配置文档确定结构化数据在合并树中的路径特征,将对应的路径特征经过处理后写入文档中,生成包装器。结构化数据抽取阶段是根据包装器进行数据抽取,首先将抽取的目标网页解析成DOM树。然后,将DOM树与抽象树进行匹配确定目标网页是否为包装器对应的类型网页。最后,读取配置文档中的路径对目标DOM树进行抽取。
2DOM树抽象模块
2.1节点位置特征与合并树
节点位置特征可以是标签路径,也可以是标签其他的特征。在Web信息抽取技术中节点位置特征占有重要地位。在包装器中常用的节点位置特征是标签节点在网页DOM树中的路径,如节点路径p1:body[0]/div[1]/div[0]/p[0],p1路径中的数值代表该节点在兄弟节点中的次序,这种路径确实能够唯一定位到DOM树中的特定节点,然而在这条路径中,只要任意一个div节点在其兄弟节点的顺序发生变化,那么就会导致路径定位到其他节点。如图1所示,在DOM树T1和T2之间仅仅相差一个节点p,然而路径p1在T2中却找不到对应的节点。事实上,在实验中出现图1的情况是很常见的,这些细微的结构变化导致了节点位置特征失效。
在上文中分析了严格的节点路径所带来的问题,利用在兄弟节点中的顺序来定位标签节点反而导致准确率的下降。然而,如果简单地去除路径中的序号,会导致相同的路径定位到不同的节点,例如:body/div/div/p对应的节点可以有多个。为此,本发明提出了合并树,在其合并的过程中抛弃了与兄弟节点的联系,保留与父亲节点的联系,并在叶子节点采用数组的形式保留节点的内容,使得路径能够唯一定位到合并树中的节点,如图2所示。本发明定了合并树如下:
定义.Tk是一颗以v0为根的合并树,对于任意的节点v∈V,若vk0,vk1,…,vkn有相同的父节点vk。则Tag(vki)≠Tag(vkj),i≠j,0<=i,j<=n。
通过算法1可以将DOM树转化为合并树:
算法1中函数CombinerTree是一个递归函数,在前序遍历DOM树的过程中完成节点的合并。节点合并是将兄弟节点中相同标签的节点合并成一个节点,并且这个节点包含了所有的子节点。如图2为网页对应DOM树转化为合并树的过程。
2.2抽象树
因在合并树的基础上本发明结合RoadRunner原理,提出了抽象树。抽象树实际上是一个通用的模板,根据这个模板来确定目标网页对应的类型。抽象是由合并树通过比对生成的。本发明定义抽象树的节点为:
定义.给定抽象树T的一个节点v0,那么该节点可表示为一个四元组v=<p,t,c,r>,其中p表示v0的路径,在抽象树中路径可以唯一表示该节点,t表示该节点对应的标签,c表示子节点的引用集合,r表示对应子节点的关系集合,r有两种表示方式:+,?。其中’+’表示所有的合并树都具有该节点,’?’表示只有部分合并树具有该节点。
算法2为抽象树的生成算法:
算法2中函数Compare是一个递归函数,在前序遍历DOM树的过程中完成节点的比对。若节点在抽象树中不存在则添加节点,并设置其关系为’?’,表示可能不存在。如图3为合并树转化为抽象树的过程。
3目标节点定位
传统处理多目标抽取的方式是在配置文档中直接列出样本网页中所有需要抽取的目标实例的数据,也就是存在多个<bean>。若页面中存在20个商品信息,则在配置文档中必须有明确20个<bean>实例,否则在对目标网页进行抽取是就可能会发生遗漏,并且当目标网页存在更多的实例时只会抽取出前20个。
本发明基于前人在抽取多目标类型网页中的结构化数据时所采用的方法,提出了一种路径规律总结方法,使得用户不必在配置文档中详细列出该网页中所有的实例,就能够抽取出目标网页中的所有实例。前人利用多目标网页中的实例对应的网页结构必定存在重复这个原理,来自动化抽取网页中的结构化数据,例如,每个商品都是一个独立的模块,并且模块中的结构是一样的,因此它们路径一定会存在规律。在正常的DOM树结构中,这个规律会表现在路径中的div块上,每个div块包含一个商品实例,并且这些div块有相同的父节点。在合并树中,因为对节点进行合并,所以这个规律会反映在叶子节点的顺序上,例如:第一款商品的价格路径为p:body/div/div/p[0],第二款商品的价格路径为p:body/div/div/p[3],第三款商品的价格路径为p:body/div/div/p[6]。显然,在合并树中价格在叶子上的次序是呈线性关系。因此,本发明利用算法3来对多目标结构化数据的路径进行归并。
算法3是路径归并算法,用来求得参数a,b对应的值。输入是网页中不同实例的相同属性对应在合并树路经集合P。函数getSequenceNumber获取路径中叶子节点的内容序号,并将其排序输出。
在通过2.1节可以得到目标网页DOM树,在同一类型网页中,相同类型属性的节点特征是相同的,即所在位置相同。所以在同一类型网页中通过查找实例信息在DOM树模板中的位置对应的特征作为抽取规则,能够在满足DOM树模板的该类型网页的DOM树中获取目标信息。
目标网页DOM树结合上节得到的实例信息的位置特征作为抽取规则,就能够获取目标网页中所需要的目标信息。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (3)

1.一种基于DOM树抽象的包装器自动生成方法,其特征在于:包括如下步骤,
步骤S1、包装器生成阶段:
步骤S11、用户输入网页集合,通过网页预处理去除源码中的杂质信息,并解析成DOM树,得到DOM树集合;
步骤S12、对DOM树进行合并,遍历DOM树对相同标签的子节点进行合并,并且针对每个节点进行路径特征标注,最终将DOM树集合转化为合并树集合;
步骤S13、对合并树集合进行抽象操作得到抽象树,并将抽象树存入数据库中;
步骤S14、根据配置文档确定结构化数据在合并树中的路径特征,将对应的路径特征经过处理后写入文档中,生成包装器;
步骤S2、结构化数据抽取阶段:
步骤S21、将待抽取的目标网页解析成DOM树;
步骤S22、将DOM树与抽象树进行匹配确定目标网页是否为包装器对应的类型网页;
步骤S23、读取配置文档中的路径对目标DOM树进行抽取。
2.根据权利要求1所述的基于DOM树抽象的包装器自动生成方法,其特征在于:所述步骤S12采用CombinerTree算法实现将DOM树集合转化为合并树集合,具体的CombinerTree算法实现如下:
(1)设child[n0]为DOM树Ti的根节点vi子节点;
(2)输入节点vi,若vi存在子节点,则获取vi的子节点并存入child[n0];
(3)对child[n0]中的所有子节点进行两两判断:
假设选取的两个vi的子节点为k、h,若k≠h,并且k的标签=h的标签,则获取子节点h的子节点并存入temp[m]中;而后,将temp[m]添加为子节点k的子节点,移除子节点h;
(4)再次获取vi的子节点并存入child[n1],设ai为child[n1]中的第i个节点,i=0,1,2,……对所有节点ai判断执行步骤(2)-(4)的操作,输出合并树Ti
(5)对所有DOM树执行步骤(1)-(4)的操作,输出合并树集合D={T1,T2,…,Tn}。
3.根据权利要求1所述的基于DOM树抽象的包装器自动生成方法,其特征在于:所述步骤S13采用AbstractTree算法实现将合并树集合进行抽象操作得到抽象树,具体的AbstractTree算法实现如下:
(1)输入合并树集合D={T1,T2,…,Tn};
(2)将T1转化成抽象树的数据结构,并存入Ti
(3)对于每个Tj∈{T2,…,Tn}进行判断:
(3.1)获取Ti的根节点并存入vi0,获取Tj的根节点并存入vj0
(3.2)对vi0与vj0递归执行比较操作:
(3.2.1)获取vi0的子节点并存入childi[n],获取vj0的子节点并存入childj[m];
(3.2.2)对于每个节点k∈childj[m]进行判断:若childi[n]中不存在节点与k对应,将节点k添加为vi0的子节点,同时更新childi[n];
(3.2.3)依此类推,对vi0的子节点与vj0的子节点,vi0的子节点的子节点与vj0的子节点的子节点,……递归执行比较操作。
CN201711172974.8A 2017-11-22 2017-11-22 基于dom树抽象的包装器自动生成方法 Active CN107943929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711172974.8A CN107943929B (zh) 2017-11-22 2017-11-22 基于dom树抽象的包装器自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711172974.8A CN107943929B (zh) 2017-11-22 2017-11-22 基于dom树抽象的包装器自动生成方法

Publications (2)

Publication Number Publication Date
CN107943929A true CN107943929A (zh) 2018-04-20
CN107943929B CN107943929B (zh) 2021-09-28

Family

ID=61930612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711172974.8A Active CN107943929B (zh) 2017-11-22 2017-11-22 基于dom树抽象的包装器自动生成方法

Country Status (1)

Country Link
CN (1) CN107943929B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726338A (zh) * 2018-11-29 2019-05-07 北京字节跳动网络技术有限公司 页面体裁划分方法、装置、可读存储介质及电子设备
WO2020063031A1 (zh) * 2018-09-29 2020-04-02 Oppo广东移动通信有限公司 结构数据的处理方法、装置、存储介质及电子设备
CN114528811A (zh) * 2022-01-21 2022-05-24 北京麦克斯泰科技有限公司 文章内容抽取方法、装置、设备及存储介质
CN114925092A (zh) * 2022-05-09 2022-08-19 北京达佳互联信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588371A (zh) * 2004-09-08 2005-03-02 孟小峰 包装器的生成方法
CN101515287A (zh) * 2009-03-24 2009-08-26 崔志明 一种用于复杂页面的包装器自动生成方法
CN101540689A (zh) * 2008-03-17 2009-09-23 中国科学院声学研究所 一种自适应xml内容发布方法
US20110191381A1 (en) * 2010-01-29 2011-08-04 Microsoft Corporation Interactive System for Extracting Data from a Website
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法
US20120124102A1 (en) * 2002-05-22 2012-05-17 Pitney Bowes Inc. Method for loading large xml doucments on demand
CN102890681A (zh) * 2011-07-20 2013-01-23 阿里巴巴集团控股有限公司 一种生成网页结构模板的方法及系统
CN104462540A (zh) * 2014-12-24 2015-03-25 中国科学院声学研究所 网页信息抽取方法
CN104834717A (zh) * 2015-05-11 2015-08-12 浪潮集团有限公司 一种基于网页聚类的Web信息自动抽取方法
CN105740370A (zh) * 2013-05-10 2016-07-06 合肥工业大学 一种在线Web新闻内容抽取系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120124102A1 (en) * 2002-05-22 2012-05-17 Pitney Bowes Inc. Method for loading large xml doucments on demand
CN1588371A (zh) * 2004-09-08 2005-03-02 孟小峰 包装器的生成方法
CN101540689A (zh) * 2008-03-17 2009-09-23 中国科学院声学研究所 一种自适应xml内容发布方法
CN101515287A (zh) * 2009-03-24 2009-08-26 崔志明 一种用于复杂页面的包装器自动生成方法
US20110191381A1 (en) * 2010-01-29 2011-08-04 Microsoft Corporation Interactive System for Extracting Data from a Website
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法
CN102890681A (zh) * 2011-07-20 2013-01-23 阿里巴巴集团控股有限公司 一种生成网页结构模板的方法及系统
CN105740370A (zh) * 2013-05-10 2016-07-06 合肥工业大学 一种在线Web新闻内容抽取系统
CN104462540A (zh) * 2014-12-24 2015-03-25 中国科学院声学研究所 网页信息抽取方法
CN104834717A (zh) * 2015-05-11 2015-08-12 浪潮集团有限公司 一种基于网页聚类的Web信息自动抽取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A.K. TRIPATHY 等: "VEDD- a visual wrapper for extraction of data using DOM tree", 《IEEE》 *
LIMING LUO 等: "Application of Internet Technology and Web Information Extraction Wrapper Based on DOM for Agricultural Data Acquisition", 《IEEE》 *
李文奇 等: "页面包装器自动生成的改进算法", 《计算机工程与应用》 *
李知颖: "基于包装器模型的信息抽取算法研究", 《万方》 *
马金娜: "基于DOM树节点重要度的WEB主题信息提取研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020063031A1 (zh) * 2018-09-29 2020-04-02 Oppo广东移动通信有限公司 结构数据的处理方法、装置、存储介质及电子设备
CN109726338A (zh) * 2018-11-29 2019-05-07 北京字节跳动网络技术有限公司 页面体裁划分方法、装置、可读存储介质及电子设备
CN109726338B (zh) * 2018-11-29 2020-01-17 北京字节跳动网络技术有限公司 页面体裁划分方法、装置、可读存储介质及电子设备
CN114528811A (zh) * 2022-01-21 2022-05-24 北京麦克斯泰科技有限公司 文章内容抽取方法、装置、设备及存储介质
CN114528811B (zh) * 2022-01-21 2022-09-02 北京麦克斯泰科技有限公司 文章内容抽取方法、装置、设备及存储介质
CN114925092A (zh) * 2022-05-09 2022-08-19 北京达佳互联信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN107943929B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
Valencia-Hernández et al. SAP algorithm for citation analysis: An improvement to tree of science
CN107943929A (zh) 基于dom树抽象的包装器自动生成方法
US20120102015A1 (en) Method and System for Performing a Comparison
CN107423391B (zh) 网页结构化数据的信息提取方法
CN104462582B (zh) 一种基于结构和内容二级过滤的Web数据相似性检测方法
CN103226599B (zh) 一种精确提取网页内容的方法及系统
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
WO2011063561A1 (en) Data extraction method, computer program product and system
CN104866471B (zh) 一种基于局部敏感哈希策略的实例匹配方法
CN104317801A (zh) 一种面向大数据的数据清洗系统及方法
CN109902142B (zh) 一种基于编辑距离的字符串模糊匹配和查询方法
CN107679049A (zh) 获取树形结构数据两节点间路径的方法、装置及系统
CN107291895B (zh) 一种快速的层次化文档查询方法
CN113312369A (zh) 一种基于唯一标识码的多尺度地图数据库级联更新方法
Azir et al. Wrapper approaches for web data extraction: A review
Ujwal et al. Classification-based adaptive web scraper
Chu et al. Automatic data extraction of websites using data path matching and alignment
CN108959204A (zh) 互联网金融项目信息抽取方法和系统
CN106407392A (zh) 一种基于标记语言的节点映射关系抽取方法及系统
CN117093260B (zh) 一种基于决策树分类算法的融合模型网站结构解析方法
CN105653567A (zh) 一种文本序列数据中快速查找特征字符串的方法
CN106202007A (zh) 一种matlab程序文件相似度的评估方法
Kamanwar et al. Web data extraction techniques: A review
CN108052507A (zh) 一种城市管理信息舆情分析系统及方法
JP5690472B2 (ja) データ抽出システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant