CN110851606A - 基于网页结构相似性的网站聚类方法和系统 - Google Patents

基于网页结构相似性的网站聚类方法和系统 Download PDF

Info

Publication number
CN110851606A
CN110851606A CN201911130407.5A CN201911130407A CN110851606A CN 110851606 A CN110851606 A CN 110851606A CN 201911130407 A CN201911130407 A CN 201911130407A CN 110851606 A CN110851606 A CN 110851606A
Authority
CN
China
Prior art keywords
preset
similarity
target
style sheet
dom tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911130407.5A
Other languages
English (en)
Inventor
崔嘉成
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dbappsecurity Technology Co Ltd
Original Assignee
Hangzhou Dbappsecurity Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dbappsecurity Technology Co Ltd filed Critical Hangzhou Dbappsecurity Technology Co Ltd
Priority to CN201911130407.5A priority Critical patent/CN110851606A/zh
Publication of CN110851606A publication Critical patent/CN110851606A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明提供了一种基于网页结构相似性的网站聚类方法和系统,应用于服务器,包括:获取待聚类网站的目标DOM树和目标层叠样式表;获取预设DOM树和预设层叠样式表,其中,预设DOM树为预设聚类中心网站的DOM树,预设层叠样式表为预设聚类中心网站的层叠样式表;通过目标DOM树和预设DOM树的之间的相似度,以及通过目标层叠样式表和预设层叠样式表之间的相似度对待聚类网站进行聚类操作。本发明缓解了现有技术中存在的耗费人力以及准确率低的技术问题。

Description

基于网页结构相似性的网站聚类方法和系统
技术领域
本发明涉及网站分类技术领域,尤其是涉及一种基于网页结构相似性的网站聚类方法和系统。
背景技术
机器学习技术近来得到普遍关注,其中人们谈论最多的两类机器学习算法就是分类和聚类。简单说,分类就是向事物分配标签,聚类就是将相似的事物放在一起。目前网页分类的主要方法是“半监督式分类”,需要大量的人工标注;并且,在标注的过程中需要寻找到合适的分类特征,如:“标题文本”。因此,现有技术中的“半监督式分类”的方法存在着耗费人力以及准确率低的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于网页结构相似性的网站聚类方法和系统,以缓解了传统网站聚类方法中存在的耗费人力以及准确率低的技术问题。
第一方面,本发明实施例提供了一种基于网页结构相似性的网站聚类方法,应用于服务器,包括:获取待聚类网站的目标DOM树和目标层叠样式表;获取预设DOM树和预设层叠样式表,其中,所述预设DOM树为预设聚类中心网站的DOM树,所述预设层叠样式表为所述预设聚类中心网站的层叠样式表;通过所述目标DOM树和所述预设DOM树的之间的相似度,以及通过所述目标层叠样式表和所述预设层叠样式表之间的相似度对所述待聚类网站进行聚类操作。
进一步地,通过所述目标DOM树和所述预设DOM树的之间的相似度,以及通过所述目标层叠样式表和所述预设层叠样式表之间的相似度对所述待聚类网站进行聚类操作包括:计算所述目标DOM树与所述预设DOM树的第一相似度;计算所述目标层叠样式表与所述预设层叠样式表的第二相似度;计算所述第一相似度和所述第二相似度的加权平均值,将所述加权平均值作为所述待聚类网站与所述预设聚类中心网站的目标相似度;基于所述目标相似度对所述待聚类网站进行聚类操作。
进一步地,计算所述目标DOM树与预设DOM树的第一相似度,包括:通过树编辑距离算法计算所述目标DOM树与所述预设DOM树之间的编辑距离;基于所述编辑距离计算所述第一相似度。
进一步地,计算所述目标层叠样式表与所述预设层叠样式表的第二相似度,包括:获取所述目标层叠样式表中class属性的集合,得到第一集合;获取所述预设层叠样式表中class属性的集合,得到第二集合;计算所述第一集合和所述第二集合的杰卡德系数,并将所述杰卡德系数作为所述第二相似度。
进一步地,所述预设聚类中心网站为多个;基于所述目标相似度对所述待聚类网站进行聚类操作,包括:分别计算所述待聚类网站与每个预设聚类中心网站之间的相似度,得到多个目标相似度;将所述待聚类网站放入目标预设聚类中心网站所对应的集合中,其中,所述目标预设聚类中心为所述多个目标相似度中最大目标相似度所对应的预设聚类中心网站。
第二方面,本发明实施例还提供了一种基于网页结构相似性的网站聚类系统,应用于服务器,包括:第一获取模块,第二获取模块和聚类模块,其中,所述第一获取模块,用于获取待聚类网站的目标DOM树和目标层叠样式表;所述第二获取模块,用于获取预设DOM树和预设层叠样式表,其中,所述预设DOM树为预设聚类中心网站的DOM树,所述预设层叠样式表为所述预设聚类中心网站的层叠样式表;所述聚类模块,用于通过所述目标DOM树和所述预设DOM树的之间的相似度,以及通过所述目标层叠样式表和所述预设层叠样式表之间的相似度对所述待聚类网站进行聚类操作。
进一步地,所述聚类模块还包括:第一计算单元,第二计算单元和聚类单元,其中,所述第一计算单元,用于计算所述目标DOM树与所述预设DOM树的第一相似度;计算所述目标层叠样式表与所述预设层叠样式表的第二相似度;所述第二计算单元,用于计算所述第一相似度和所述第二相似度的加权平均值,将所述加权平均值作为所述待聚类网站与所述预设聚类中心网站的目标相似度;所述聚类单元,用于基于所述目标相似度对所述待聚类网站进行聚类操作。
进一步地,所述第一计算单元还用于:通过树编辑距离算法计算所述目标DOM树与所述预设DOM树之间的编辑距离;基于所述编辑距离计算所述第一相似度;获取所述目标层叠样式表中class属性的集合,得到第一集合;获取所述预设层叠样式表中class属性的集合,得到第二集合;计算所述第一集合和所述第二集合的杰卡德系数,并将所述杰卡德系数作为所述第二相似度。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。
第四方面,本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述第一方面所述方法。
本发明实施例带来了以下有益效果:本发明采用了DOM树的相似性分析和层叠样式表的结构分析相结合的方式,对网站之间的相似度进行计算,并以此作为聚类分析的依据,以此省去了大量的人工聚类操作,同时提高了准确率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于网页结构相似性的网站聚类方法的流程图;
图2为本发明实施例提供的一种网页的DOM树的结构示意图;
图3为本发明实施例提供的另一种网页的DOM树的结构示意图;
图4为本发明实施例提供的一种基于网页结构相似性的网站聚类系统的示意图;
图5为本发明实施例提供的另一种基于网页结构相似性的网站聚类系统的示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
图1是根据本发明实施例提供的一种基于网页结构相似性的网站聚类方法的流程图,应用于服务器。如图1所示,该方法具体包括如下步骤:
步骤S102,获取待聚类网站的目标DOM树和目标层叠样式表。
网页有着明显的标签(HTML,HyperText Markup Language语言的特性),这种标签集合构成了树状结构——文档对象模型(Document ObjectModel,简称DOM树)。层叠样式表(Cascading Style Sheets,简称CSS)作为基础的网页内容,在互联网上的累计大小甚至超过了HTML本身。这是因为大多数网页都会选用CSS样式表来表述一个页面的风格。而CSS样式表通过多种属性来描述页面风格。
图2简述了一个网页的一般结构,Web页面被构造为一个有标记的有序的树。文本,图片和视频等内容包含在HTML中标签。这些标记指定了用户具体能看到什么内容。图3为按照后序顺序的索引构建,由索引编号较小的节点优先构建。
步骤S104,获取预设DOM树和预设层叠样式表,其中,预设DOM树为预设聚类中心网站的DOM树,预设层叠样式表为预设聚类中心网站的层叠样式表。
步骤S106,通过目标DOM树和预设DOM树的之间的相似度,以及通过目标层叠样式表和预设层叠样式表之间的相似度对待聚类网站进行聚类操作。
本发明实施例提供的一种基于网页结构相似性的网站聚类方法,采用了DOM树的相似性分析和层叠样式表的结构分析相结合的方式,对网站之间的相似度进行计算,并以此作为聚类分析的依据,以此省去了大量的人工聚类操作,同时提高了准确率。
具体地,步骤S106包括如下步骤:
步骤S1061,计算目标DOM树与预设DOM树的第一相似度;计算目标层叠样式表与预设层叠样式表的第二相似度;
步骤S1062,计算第一相似度和第二相似度的加权平均值,将加权平均值作为待聚类网站与预设聚类中心网站的目标相似度;
步骤S1062,基于目标相似度对待聚类网站进行聚类操作。
具体地,步骤S1061中,通过树编辑距离算法计算目标DOM树与预设DOM树之间的编辑距离;基于编辑距离计算第一相似度。
具体地,用函数treedistance=(T1,T2)来表示目标DOM树T1到预设DOM树T2所需要的编辑距离操作的成本,其中γinsert,γremove和γupdate分别定义为插入,移除和替换操作的成本。由于编辑距离无限制,假设γmax(|T1|+|T2|)是从T1到T2过程中γinsert,γremove和γupdate成本的最大值,则两个DOM树T1和T2的结构相似性的第一相似度由下式确定:
Figure BDA0002276651830000061
步骤S1061中,第二相似度的计算过程如下:
获取目标层叠样式表中class属性的集合,得到第一集合;
获取预设层叠样式表中class属性的集合,得到第二集合;
计算第一集合和第二集合的杰卡德系数,并将杰卡德系数作为第二相似度。
具体地,层叠样式表中存在的网页样式也是确定网页相似性的关键信息,使用相同模板生成的网页具有相同的样式。Web开发人员可以选择将样式与DOM元素内联作为style属性的值或通过class属性指定。
例如,假设存在D1和D2,其中,D1和D2是两个网页,通过XPATH的方式可以选取到网页上面所有的层叠样式表中的class属性。使用集合的方式可以过滤掉获得的属性中的重复值。这里使用了杰卡德相似性进行计算:
A=classes(D1)
B=classes(D2)
Figure BDA0002276651830000071
上式中,A和B分别为第一集合和第二集合,分别表示了D1和D2各自的class属性名称的集合,style similarity为A和B的杰卡德系数,即为第二相似度,其中,杰卡德系数用于比较有限样本之间的相似性与差异性,杰卡德系数值越大,样本相似度越高。
由于使用唯一的类名来计算相似性,因此不等数量的重复组不会改变相似性结果。相似内容的网页具有相同的类名集,因此它们导致杰卡德相似性系数的值更高。
在本发明实施例中,预设聚类中心网站为多个。
步骤S1063中,对待聚类网站进行聚类操作,具体包括如下步骤:
分别计算待聚类网站与每个预设聚类中心网站之间的相似度,得到多个目标相似度;
将待聚类网站放入目标预设聚类中心网站所对应的集合中,其中,目标预设聚类中心为多个目标相似度中最大目标相似度所对应的预设聚类中心网站。
由此可知,本发明实施例提供的基于网页结构相似性的网站聚类方法,采用了层叠样式表的结构进行分析,将原本容易忽视的部分纳入了聚类的项目,省去了大量人工操作。
实施例二:
图4是根据本发明实施例提供的一种基于网页结构相似性的网站聚类系统的示意图,应用于服务器。如图4所示,该系统包括:第一获取模块10,第二获取模块20和聚类模块30。
具体地,第一获取模块10,用于获取待聚类网站的目标DOM树和目标层叠样式表。
第二获取模块20,用于获取预设DOM树和预设层叠样式表,其中,预设DOM树为预设聚类中心网站的DOM树,预设层叠样式表为预设聚类中心网站的层叠样式表。
聚类模块30,用于通过目标DOM树和预设DOM树的之间的相似度,以及通过目标层叠样式表和预设层叠样式表之间的相似度对待聚类网站进行聚类操作。
本发明实施例提供了一种基于网页结构相似性的网站聚类系统,通过第一获取模块获取待聚类网站的目标DOM树和目标层叠样式表;通过第二获取模块获取预设DOM树和预设层叠样式表;最后通过聚类模块通过目标DOM树和预设DOM树的之间的相似度,以及通过目标层叠样式表和预设层叠样式表之间的相似度对待聚类网站进行聚类操作。本发明采用了DOM树的相似性分析和层叠样式表的结构分析相结合的方式,对网站之间的相似度进行计算,并以此作为聚类分析的依据,以此省去了大量的人工聚类操作,同时提高了准确率。
可选地,图5是本发明实施例提供的另一种基于网页结构相似性的网站聚类系统的示意图,如图5所示,聚类模块30还包括:第一计算单元31,第二计算单元32和聚类单元33。
具体地,第一计算单元31,用于计算目标DOM树与预设DOM树的第一相似度;计算目标层叠样式表与预设层叠样式表的第二相似度。
第二计算单元32,用于计算第一相似度和第二相似度的加权平均值,将加权平均值作为待聚类网站与预设聚类中心网站的目标相似度。
聚类单元33,用于基于目标相似度对待聚类网站进行聚类操作。
具体地,第一计算单元31还用于:
通过树编辑距离算法计算目标DOM树与预设DOM树之间的编辑距离;
基于编辑距离计算第一相似度;
获取目标层叠样式表中class属性的集合,得到第一集合;
获取预设层叠样式表中class属性的集合,得到第二集合;
计算第一集合和第二集合的杰卡德系数,并将杰卡德系数作为第二相似度。
这里使用了杰卡德相似性进行计算:
A=classes(D1)
B=classes(D2)
Figure BDA0002276651830000091
上式中,A和B分别为第一集合和第二集合,分别表示了D1和D2各自的class属性名称的集合,style similarity为A和B的杰卡德系数,即为第二相似度,其中,杰卡德系数用于比较有限样本之间的相似性与差异性,杰卡德系数值越大,样本相似度越高。
本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例一中的方法的步骤。
本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述实施例一中的方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于网页结构相似性的网站聚类方法,其特征在于,应用于服务器,包括:
获取待聚类网站的目标DOM树和目标层叠样式表;
获取预设DOM树和预设层叠样式表,其中,所述预设DOM树为预设聚类中心网站的DOM树,所述预设层叠样式表为所述预设聚类中心网站的层叠样式表;
通过所述目标DOM树和所述预设DOM树的之间的相似度,以及通过所述目标层叠样式表和所述预设层叠样式表之间的相似度对所述待聚类网站进行聚类操作。
2.根据权利要求1所述的方法,其特征在于,通过所述目标DOM树和所述预设DOM树的之间的相似度,以及通过所述目标层叠样式表和所述预设层叠样式表之间的相似度对所述待聚类网站进行聚类操作,包括:
计算所述目标DOM树与所述预设DOM树的第一相似度;计算所述目标层叠样式表与所述预设层叠样式表的第二相似度;
计算所述第一相似度和所述第二相似度的加权平均值,将所述加权平均值作为所述待聚类网站与所述预设聚类中心网站的目标相似度;
基于所述目标相似度对所述待聚类网站进行聚类操作。
3.根据权利要求2所述的方法,其特征在于,计算所述目标DOM树与预设DOM树的第一相似度,包括:
通过树编辑距离算法计算所述目标DOM树与所述预设DOM树之间的编辑距离;
基于所述编辑距离计算所述第一相似度。
4.根据权利要求2所述的方法,其特征在于,计算所述目标层叠样式表与所述预设层叠样式表的第二相似度,包括:
获取所述目标层叠样式表中class属性的集合,得到第一集合;
获取所述预设层叠样式表中class属性的集合,得到第二集合;
计算所述第一集合和所述第二集合的杰卡德系数,并将所述杰卡德系数作为所述第二相似度。
5.根据权利要求1所述的方法,其特征在于,所述预设聚类中心网站为多个;
基于所述目标相似度对所述待聚类网站进行聚类操作,包括:
分别计算所述待聚类网站与每个预设聚类中心网站之间的相似度,得到多个目标相似度;
将所述待聚类网站放入目标预设聚类中心网站所对应的集合中,其中,所述目标预设聚类中心为所述多个目标相似度中最大目标相似度所对应的预设聚类中心网站。
6.一种基于网页结构相似性的网站聚类系统,其特征在于,应用于服务器,包括:第一获取模块,第二获取模块和聚类模块,其中,
所述第一获取模块,用于获取待聚类网站的目标DOM树和目标层叠样式表;
所述第二获取模块,用于获取预设DOM树和预设层叠样式表,其中,所述预设DOM树为预设聚类中心网站的DOM树,所述预设层叠样式表为所述预设聚类中心网站的层叠样式表;
所述聚类模块,用于通过所述目标DOM树和所述预设DOM树的之间的相似度,以及通过所述目标层叠样式表和所述预设层叠样式表之间的相似度对所述待聚类网站进行聚类操作。
7.根据权利要求6所述的系统,其特征在于,所述聚类模块还包括:第一计算单元,第二计算单元和聚类单元,其中,
所述第一计算单元,用于计算所述目标DOM树与所述预设DOM树的第一相似度;计算所述目标层叠样式表与所述预设层叠样式表的第二相似度;
所述第二计算单元,用于计算所述第一相似度和所述第二相似度的加权平均值,将所述加权平均值作为所述待聚类网站与所述预设聚类中心网站的目标相似度;
所述聚类单元,用于基于所述目标相似度对所述待聚类网站进行聚类操作。
8.根据权利要求7所述的系统,其特征在于,所述第一计算单元还用于:
通过树编辑距离算法计算所述目标DOM树与所述预设DOM树之间的编辑距离;
基于所述编辑距离计算所述第一相似度;
获取所述目标层叠样式表中class属性的集合,得到第一集合;
获取所述预设层叠样式表中class属性的集合,得到第二集合;
计算所述第一集合和所述第二集合的杰卡德系数,并将所述杰卡德系数作为所述第二相似度。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5任一项所述的方法的步骤。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1-5任一项所述方法。
CN201911130407.5A 2019-11-18 2019-11-18 基于网页结构相似性的网站聚类方法和系统 Pending CN110851606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911130407.5A CN110851606A (zh) 2019-11-18 2019-11-18 基于网页结构相似性的网站聚类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911130407.5A CN110851606A (zh) 2019-11-18 2019-11-18 基于网页结构相似性的网站聚类方法和系统

Publications (1)

Publication Number Publication Date
CN110851606A true CN110851606A (zh) 2020-02-28

Family

ID=69602127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911130407.5A Pending CN110851606A (zh) 2019-11-18 2019-11-18 基于网页结构相似性的网站聚类方法和系统

Country Status (1)

Country Link
CN (1) CN110851606A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708967A (zh) * 2020-06-11 2020-09-25 浙江浙大网新国际软件技术服务有限公司 一种基于网站地图的指纹识别方法
CN111949916A (zh) * 2020-08-20 2020-11-17 深信服科技股份有限公司 一种网页分析方法、装置、设备及存储介质
CN112287273A (zh) * 2020-10-27 2021-01-29 中国科学院计算技术研究所 一种网站列表页面的分类方法、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838823A (zh) * 2014-01-22 2014-06-04 浙江大学 一种基于网页模板的网站内容无障碍检测方法
CN106557565A (zh) * 2016-11-22 2017-04-05 福州大学 一种基于网页聚类的正文信息提取方法
CN107204960A (zh) * 2016-03-16 2017-09-26 阿里巴巴集团控股有限公司 网页识别方法及装置、服务器
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置
CN110457579A (zh) * 2019-07-30 2019-11-15 四川大学 基于模板和分类器协同工作的网页去噪方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838823A (zh) * 2014-01-22 2014-06-04 浙江大学 一种基于网页模板的网站内容无障碍检测方法
CN107204960A (zh) * 2016-03-16 2017-09-26 阿里巴巴集团控股有限公司 网页识别方法及装置、服务器
CN106557565A (zh) * 2016-11-22 2017-04-05 福州大学 一种基于网页聚类的正文信息提取方法
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置
CN110457579A (zh) * 2019-07-30 2019-11-15 四川大学 基于模板和分类器协同工作的网页去噪方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
冯健等: "基于文档对象模型结构聚类的钓鱼网页检测方法", 《科学技术与工程》 *
李睿等: "基于局部标签树匹配的改进网页聚类算法", 《计算机应用》 *
王亚普等: "一种改进的树路径模型在网页聚类中的研究", 《计算机科学》 *
邱韬奋等: "基于网页聚类的Web信息自动抽取", 《微型机与应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708967A (zh) * 2020-06-11 2020-09-25 浙江浙大网新国际软件技术服务有限公司 一种基于网站地图的指纹识别方法
CN111708967B (zh) * 2020-06-11 2023-05-16 浙江浙大网新国际软件技术服务有限公司 一种基于网站地图的指纹识别方法
CN111949916A (zh) * 2020-08-20 2020-11-17 深信服科技股份有限公司 一种网页分析方法、装置、设备及存储介质
CN111949916B (zh) * 2020-08-20 2024-04-09 深信服科技股份有限公司 一种网页分析方法、装置、设备及存储介质
CN112287273A (zh) * 2020-10-27 2021-01-29 中国科学院计算技术研究所 一种网站列表页面的分类方法、系统及存储介质
CN112287273B (zh) * 2020-10-27 2022-09-30 中国科学院计算技术研究所 一种网站列表页面的分类方法、系统及存储介质

Similar Documents

Publication Publication Date Title
US7941420B2 (en) Method for organizing structurally similar web pages from a web site
CN110851606A (zh) 基于网页结构相似性的网站聚类方法和系统
US20060277173A1 (en) Extraction of information from documents
WO2020000717A1 (zh) 网页分类方法、装置及计算机可读存储介质
US20130204867A1 (en) Selection of Main Content in Web Pages
US20120304051A1 (en) Automation Tool for XML Based Pagination Process
CN102662969A (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN109710771B (zh) 表格信息提取方法、装置和存储介质
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
CN103699591A (zh) 一种基于示例页面的网页正文提取方法
WO2023155303A1 (zh) 网页数据的提取方法和装置、计算机设备、存储介质
Alassi et al. Effectiveness of template detection on noise reduction and websites summarization
CN109165373B (zh) 一种数据处理方法及装置
CN111737623A (zh) 网页信息提取方法及相关设备
CN104572934A (zh) 一种基于dom的网页关键内容抽取方法
CN103440315A (zh) 一种基于主题的Web页面清洗方法
CN105574066A (zh) 网页正文提取比对方法及其系统
CN111339396A (zh) 提取网页内容的方法、装置和计算机存储介质
CN110390037B (zh) 基于dom树的信息分类方法、装置、设备及存储介质
CN106897287B (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置
CN105550279A (zh) 基于视觉的列表页识别方法
CN105808761A (zh) 一种基于大数据Solr网页排序优化方法
CN113495964B (zh) 三元组的筛选方法、装置、设备及可读存储介质
CN111401027A (zh) 版式模板文件升级方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200228