CN110851606A

CN110851606A - 基于网页结构相似性的网站聚类方法和系统

Info

Publication number: CN110851606A
Application number: CN201911130407.5A
Authority: CN
Inventors: 崔嘉成; 范渊
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-02-28

Abstract

本发明提供了一种基于网页结构相似性的网站聚类方法和系统，应用于服务器，包括：获取待聚类网站的目标DOM树和目标层叠样式表；获取预设DOM树和预设层叠样式表，其中，预设DOM树为预设聚类中心网站的DOM树，预设层叠样式表为预设聚类中心网站的层叠样式表；通过目标DOM树和预设DOM树的之间的相似度，以及通过目标层叠样式表和预设层叠样式表之间的相似度对待聚类网站进行聚类操作。本发明缓解了现有技术中存在的耗费人力以及准确率低的技术问题。

Description

基于网页结构相似性的网站聚类方法和系统

技术领域

本发明涉及网站分类技术领域，尤其是涉及一种基于网页结构相似性的网站聚类方法和系统。

背景技术

机器学习技术近来得到普遍关注，其中人们谈论最多的两类机器学习算法就是分类和聚类。简单说，分类就是向事物分配标签，聚类就是将相似的事物放在一起。目前网页分类的主要方法是“半监督式分类”，需要大量的人工标注；并且，在标注的过程中需要寻找到合适的分类特征，如：“标题文本”。因此，现有技术中的“半监督式分类”的方法存在着耗费人力以及准确率低的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于网页结构相似性的网站聚类方法和系统，以缓解了传统网站聚类方法中存在的耗费人力以及准确率低的技术问题。

第一方面，本发明实施例提供了一种基于网页结构相似性的网站聚类方法，应用于服务器，包括：获取待聚类网站的目标DOM树和目标层叠样式表；获取预设DOM树和预设层叠样式表，其中，所述预设DOM树为预设聚类中心网站的DOM树，所述预设层叠样式表为所述预设聚类中心网站的层叠样式表；通过所述目标DOM树和所述预设DOM树的之间的相似度，以及通过所述目标层叠样式表和所述预设层叠样式表之间的相似度对所述待聚类网站进行聚类操作。

进一步地，通过所述目标DOM树和所述预设DOM树的之间的相似度，以及通过所述目标层叠样式表和所述预设层叠样式表之间的相似度对所述待聚类网站进行聚类操作包括：计算所述目标DOM树与所述预设DOM树的第一相似度；计算所述目标层叠样式表与所述预设层叠样式表的第二相似度；计算所述第一相似度和所述第二相似度的加权平均值，将所述加权平均值作为所述待聚类网站与所述预设聚类中心网站的目标相似度；基于所述目标相似度对所述待聚类网站进行聚类操作。

进一步地，计算所述目标DOM树与预设DOM树的第一相似度，包括：通过树编辑距离算法计算所述目标DOM树与所述预设DOM树之间的编辑距离；基于所述编辑距离计算所述第一相似度。

进一步地，计算所述目标层叠样式表与所述预设层叠样式表的第二相似度，包括：获取所述目标层叠样式表中class属性的集合，得到第一集合；获取所述预设层叠样式表中class属性的集合，得到第二集合；计算所述第一集合和所述第二集合的杰卡德系数，并将所述杰卡德系数作为所述第二相似度。

进一步地，所述预设聚类中心网站为多个；基于所述目标相似度对所述待聚类网站进行聚类操作，包括：分别计算所述待聚类网站与每个预设聚类中心网站之间的相似度，得到多个目标相似度；将所述待聚类网站放入目标预设聚类中心网站所对应的集合中，其中，所述目标预设聚类中心为所述多个目标相似度中最大目标相似度所对应的预设聚类中心网站。

第二方面，本发明实施例还提供了一种基于网页结构相似性的网站聚类系统，应用于服务器，包括：第一获取模块，第二获取模块和聚类模块，其中，所述第一获取模块，用于获取待聚类网站的目标DOM树和目标层叠样式表；所述第二获取模块，用于获取预设DOM树和预设层叠样式表，其中，所述预设DOM树为预设聚类中心网站的DOM树，所述预设层叠样式表为所述预设聚类中心网站的层叠样式表；所述聚类模块，用于通过所述目标DOM树和所述预设DOM树的之间的相似度，以及通过所述目标层叠样式表和所述预设层叠样式表之间的相似度对所述待聚类网站进行聚类操作。

进一步地，所述聚类模块还包括：第一计算单元，第二计算单元和聚类单元，其中，所述第一计算单元，用于计算所述目标DOM树与所述预设DOM树的第一相似度；计算所述目标层叠样式表与所述预设层叠样式表的第二相似度；所述第二计算单元，用于计算所述第一相似度和所述第二相似度的加权平均值，将所述加权平均值作为所述待聚类网站与所述预设聚类中心网站的目标相似度；所述聚类单元，用于基于所述目标相似度对所述待聚类网站进行聚类操作。

进一步地，所述第一计算单元还用于：通过树编辑距离算法计算所述目标DOM树与所述预设DOM树之间的编辑距离；基于所述编辑距离计算所述第一相似度；获取所述目标层叠样式表中class属性的集合，得到第一集合；获取所述预设层叠样式表中class属性的集合，得到第二集合；计算所述第一集合和所述第二集合的杰卡德系数，并将所述杰卡德系数作为所述第二相似度。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。

第四方面，本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述第一方面所述方法。

本发明实施例带来了以下有益效果：本发明采用了DOM树的相似性分析和层叠样式表的结构分析相结合的方式，对网站之间的相似度进行计算，并以此作为聚类分析的依据，以此省去了大量的人工聚类操作，同时提高了准确率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于网页结构相似性的网站聚类方法的流程图；

图2为本发明实施例提供的一种网页的DOM树的结构示意图；

图3为本发明实施例提供的另一种网页的DOM树的结构示意图；

图4为本发明实施例提供的一种基于网页结构相似性的网站聚类系统的示意图；

图5为本发明实施例提供的另一种基于网页结构相似性的网站聚类系统的示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

图1是根据本发明实施例提供的一种基于网页结构相似性的网站聚类方法的流程图，应用于服务器。如图1所示，该方法具体包括如下步骤：

步骤S102，获取待聚类网站的目标DOM树和目标层叠样式表。

网页有着明显的标签(HTML，HyperText Markup Language语言的特性)，这种标签集合构成了树状结构——文档对象模型(Document ObjectModel，简称DOM树)。层叠样式表(Cascading Style Sheets，简称CSS)作为基础的网页内容，在互联网上的累计大小甚至超过了HTML本身。这是因为大多数网页都会选用CSS样式表来表述一个页面的风格。而CSS样式表通过多种属性来描述页面风格。

图2简述了一个网页的一般结构，Web页面被构造为一个有标记的有序的树。文本，图片和视频等内容包含在HTML中标签。这些标记指定了用户具体能看到什么内容。图3为按照后序顺序的索引构建，由索引编号较小的节点优先构建。

步骤S104，获取预设DOM树和预设层叠样式表，其中，预设DOM树为预设聚类中心网站的DOM树，预设层叠样式表为预设聚类中心网站的层叠样式表。

步骤S106，通过目标DOM树和预设DOM树的之间的相似度，以及通过目标层叠样式表和预设层叠样式表之间的相似度对待聚类网站进行聚类操作。

本发明实施例提供的一种基于网页结构相似性的网站聚类方法，采用了DOM树的相似性分析和层叠样式表的结构分析相结合的方式，对网站之间的相似度进行计算，并以此作为聚类分析的依据，以此省去了大量的人工聚类操作，同时提高了准确率。

具体地，步骤S106包括如下步骤：

步骤S1061，计算目标DOM树与预设DOM树的第一相似度；计算目标层叠样式表与预设层叠样式表的第二相似度；

步骤S1062，计算第一相似度和第二相似度的加权平均值，将加权平均值作为待聚类网站与预设聚类中心网站的目标相似度；

步骤S1062，基于目标相似度对待聚类网站进行聚类操作。

具体地，步骤S1061中，通过树编辑距离算法计算目标DOM树与预设DOM树之间的编辑距离；基于编辑距离计算第一相似度。

具体地，用函数treedistance＝(T₁,T₂)来表示目标DOM树T₁到预设DOM树T₂所需要的编辑距离操作的成本，其中γinsert，γremove和γupdate分别定义为插入，移除和替换操作的成本。由于编辑距离无限制，假设γmax(|T₁|+|T₂|)是从T₁到T₂过程中γinsert，γremove和γupdate成本的最大值，则两个DOM树T1和T2的结构相似性的第一相似度由下式确定：

步骤S1061中，第二相似度的计算过程如下：

获取目标层叠样式表中class属性的集合，得到第一集合；

获取预设层叠样式表中class属性的集合，得到第二集合；

计算第一集合和第二集合的杰卡德系数，并将杰卡德系数作为第二相似度。

具体地，层叠样式表中存在的网页样式也是确定网页相似性的关键信息，使用相同模板生成的网页具有相同的样式。Web开发人员可以选择将样式与DOM元素内联作为style属性的值或通过class属性指定。

例如，假设存在D₁和D₂，其中，D₁和D₂是两个网页，通过XPATH的方式可以选取到网页上面所有的层叠样式表中的class属性。使用集合的方式可以过滤掉获得的属性中的重复值。这里使用了杰卡德相似性进行计算：

A＝classes(D₁)

B＝classes(D₂)

上式中，A和B分别为第一集合和第二集合，分别表示了D₁和D₂各自的class属性名称的集合，style similarity为A和B的杰卡德系数，即为第二相似度，其中，杰卡德系数用于比较有限样本之间的相似性与差异性，杰卡德系数值越大，样本相似度越高。

由于使用唯一的类名来计算相似性，因此不等数量的重复组不会改变相似性结果。相似内容的网页具有相同的类名集，因此它们导致杰卡德相似性系数的值更高。

在本发明实施例中，预设聚类中心网站为多个。

步骤S1063中，对待聚类网站进行聚类操作，具体包括如下步骤：

分别计算待聚类网站与每个预设聚类中心网站之间的相似度，得到多个目标相似度；

将待聚类网站放入目标预设聚类中心网站所对应的集合中，其中，目标预设聚类中心为多个目标相似度中最大目标相似度所对应的预设聚类中心网站。

由此可知，本发明实施例提供的基于网页结构相似性的网站聚类方法，采用了层叠样式表的结构进行分析，将原本容易忽视的部分纳入了聚类的项目，省去了大量人工操作。

实施例二：

图4是根据本发明实施例提供的一种基于网页结构相似性的网站聚类系统的示意图，应用于服务器。如图4所示，该系统包括：第一获取模块10，第二获取模块20和聚类模块30。

具体地，第一获取模块10，用于获取待聚类网站的目标DOM树和目标层叠样式表。

第二获取模块20，用于获取预设DOM树和预设层叠样式表，其中，预设DOM树为预设聚类中心网站的DOM树，预设层叠样式表为预设聚类中心网站的层叠样式表。

聚类模块30，用于通过目标DOM树和预设DOM树的之间的相似度，以及通过目标层叠样式表和预设层叠样式表之间的相似度对待聚类网站进行聚类操作。

本发明实施例提供了一种基于网页结构相似性的网站聚类系统，通过第一获取模块获取待聚类网站的目标DOM树和目标层叠样式表；通过第二获取模块获取预设DOM树和预设层叠样式表；最后通过聚类模块通过目标DOM树和预设DOM树的之间的相似度，以及通过目标层叠样式表和预设层叠样式表之间的相似度对待聚类网站进行聚类操作。本发明采用了DOM树的相似性分析和层叠样式表的结构分析相结合的方式，对网站之间的相似度进行计算，并以此作为聚类分析的依据，以此省去了大量的人工聚类操作，同时提高了准确率。

可选地，图5是本发明实施例提供的另一种基于网页结构相似性的网站聚类系统的示意图，如图5所示，聚类模块30还包括：第一计算单元31，第二计算单元32和聚类单元33。

具体地，第一计算单元31，用于计算目标DOM树与预设DOM树的第一相似度；计算目标层叠样式表与预设层叠样式表的第二相似度。

第二计算单元32，用于计算第一相似度和第二相似度的加权平均值，将加权平均值作为待聚类网站与预设聚类中心网站的目标相似度。

聚类单元33，用于基于目标相似度对待聚类网站进行聚类操作。

具体地，第一计算单元31还用于：

通过树编辑距离算法计算目标DOM树与预设DOM树之间的编辑距离；

基于编辑距离计算第一相似度；

获取目标层叠样式表中class属性的集合，得到第一集合；

获取预设层叠样式表中class属性的集合，得到第二集合；

这里使用了杰卡德相似性进行计算：

A＝classes(D₁)

B＝classes(D₂)

本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例一中的方法的步骤。

本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，程序代码使处理器执行上述实施例一中的方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于网页结构相似性的网站聚类方法，其特征在于，应用于服务器，包括：

获取待聚类网站的目标DOM树和目标层叠样式表；

获取预设DOM树和预设层叠样式表，其中，所述预设DOM树为预设聚类中心网站的DOM树，所述预设层叠样式表为所述预设聚类中心网站的层叠样式表；

通过所述目标DOM树和所述预设DOM树的之间的相似度，以及通过所述目标层叠样式表和所述预设层叠样式表之间的相似度对所述待聚类网站进行聚类操作。

2.根据权利要求1所述的方法，其特征在于，通过所述目标DOM树和所述预设DOM树的之间的相似度，以及通过所述目标层叠样式表和所述预设层叠样式表之间的相似度对所述待聚类网站进行聚类操作，包括：

计算所述目标DOM树与所述预设DOM树的第一相似度；计算所述目标层叠样式表与所述预设层叠样式表的第二相似度；

计算所述第一相似度和所述第二相似度的加权平均值，将所述加权平均值作为所述待聚类网站与所述预设聚类中心网站的目标相似度；

基于所述目标相似度对所述待聚类网站进行聚类操作。

3.根据权利要求2所述的方法，其特征在于，计算所述目标DOM树与预设DOM树的第一相似度，包括：

通过树编辑距离算法计算所述目标DOM树与所述预设DOM树之间的编辑距离；

基于所述编辑距离计算所述第一相似度。

4.根据权利要求2所述的方法，其特征在于，计算所述目标层叠样式表与所述预设层叠样式表的第二相似度，包括：

获取所述目标层叠样式表中class属性的集合，得到第一集合；

获取所述预设层叠样式表中class属性的集合，得到第二集合；

计算所述第一集合和所述第二集合的杰卡德系数，并将所述杰卡德系数作为所述第二相似度。

5.根据权利要求1所述的方法，其特征在于，所述预设聚类中心网站为多个；

基于所述目标相似度对所述待聚类网站进行聚类操作，包括：

分别计算所述待聚类网站与每个预设聚类中心网站之间的相似度，得到多个目标相似度；

将所述待聚类网站放入目标预设聚类中心网站所对应的集合中，其中，所述目标预设聚类中心为所述多个目标相似度中最大目标相似度所对应的预设聚类中心网站。

6.一种基于网页结构相似性的网站聚类系统，其特征在于，应用于服务器，包括：第一获取模块，第二获取模块和聚类模块，其中，

所述第一获取模块，用于获取待聚类网站的目标DOM树和目标层叠样式表；

所述第二获取模块，用于获取预设DOM树和预设层叠样式表，其中，所述预设DOM树为预设聚类中心网站的DOM树，所述预设层叠样式表为所述预设聚类中心网站的层叠样式表；

所述聚类模块，用于通过所述目标DOM树和所述预设DOM树的之间的相似度，以及通过所述目标层叠样式表和所述预设层叠样式表之间的相似度对所述待聚类网站进行聚类操作。

7.根据权利要求6所述的系统，其特征在于，所述聚类模块还包括：第一计算单元，第二计算单元和聚类单元，其中，

所述第一计算单元，用于计算所述目标DOM树与所述预设DOM树的第一相似度；计算所述目标层叠样式表与所述预设层叠样式表的第二相似度；

所述第二计算单元，用于计算所述第一相似度和所述第二相似度的加权平均值，将所述加权平均值作为所述待聚类网站与所述预设聚类中心网站的目标相似度；

所述聚类单元，用于基于所述目标相似度对所述待聚类网站进行聚类操作。

8.根据权利要求7所述的系统，其特征在于，所述第一计算单元还用于：

基于所述编辑距离计算所述第一相似度；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至5任一项所述的方法的步骤。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1-5任一项所述方法。