CN108134784A

CN108134784A - 网页分类方法及装置、存储介质及电子设备

Info

Publication number: CN108134784A
Application number: CN201711375002.9A
Authority: CN
Inventors: 邹荣珠
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2018-06-08
Anticipated expiration: 2037-12-19
Also published as: CN108134784B

Abstract

本发明提供了一种网页分类方法，在用户需要对网页进行访问时，对访问的网页进行分类，从网页的网页元素中提取网页特征，并将提取的各个网页特征发送至与其对应的初始分类器，本发明中，应用了多个不同的初始分类器，每个初始分类器可以对恶意网页进行识别，且每个初始分类器所识别的恶意网页的类别不同，各个初始分类器对接收到的各个网页特征进行处理，得到网页的初级类别，然后将各个初级类别在集成分类器中进行分析，以最终确定网页的网页类别，进而可以使用户根据待访问网页的网页类别，决定是否对网页进行访问，提升了用户访问网页的安全性。

Description

网页分类方法及装置、存储介质及电子设备

技术领域

本发明涉及互联网技术领域，特别涉及一种网页分类方法及系统、存储介质及电子设备。

背景技术

随着网络资源的不断丰富，人们通过网页获取资源和信息的需求不断增多。用户可以通过访问不同网站的网页，阅读新闻信息、进行购物或者观看自己喜爱的视频，在扩展了个人信息量来源的同时，也丰富了个人生活。

与此同时，一些不法分子利用网页进行的恶意行为也呈爆发增长的趋势。不法分子在用户访问网页时，利用具有恶意行为的恶意网页，破坏用户的访问过程，对用户的财产、个人信息等造成了不同程度的损害，降低了用户对网页访问的安全性。

发明内容

本发明所要解决的技术问题是提供一种网页分类方法，对用户待访问的网页进行分类，以确定待访问网页的网页类别，避免用户误访问恶意网页，提高用户对网页访问的安全性。

本发明还提供了一种网页分类装置，用以保证上述方法在实际中的实现及应用。

一种网页分类方法，所述方法包括：

从待分类网页的网页元素中提取网页特征；

将每个网页特征发送至与其元素属性具有对应关系的初始分类器，以得到所述待分类网页的初级类别，不同的初始分类器识别不同的类别的恶意网页；

将每个所述初始分类器确定的初级类别，汇总至集成分类器，由所述集成分类器进行分析，以最终确定所述待分类网页的网页类别。

上述的方法，可选的，所述将每个网页特征发送至与其元素属性具有对应关系的初始分类器，以得到待分类网页的初级类别，包括：

获取第一元素属性对应的网页特征，所述第一元素属性对应的网页特征是可以确定所述待分类网页是否为欺诈类型网页的特征；

将所述第一元素属性对应的网页特征所组成的特征向量输入至欺诈网页分类器，以得到所述待分类网页的第一初始类别，所述第一初始类别为正常网页、钓鱼网页、欺诈网页或仿冒网页。

获取第二元素属性对应的网页特征；所述第二元素属性对应的网页特征是从所述待分类网页的源代码中提取的，可确定所述待分类网页是否为恶意入侵类型网页的特征；

将所述第二元素属性对应的网页特征所组成的特征向量输入至恶意入侵网页分类器，以得到所述待分类网页的第二初始类别，所述第二初始类别为恶意广告网页、黑客入侵网页、木马网页或正常网页。

获取第三元素属性对应的网页特征，所述第三元素属性对应的网页特征是可确定所述待分类网页是否为不合规类型网页的特征；

将所述第三元素属性对应的网页特征所组成的特征向量输入至不合规网页分类器，以得到所述待分类网页的第三初始类别，所述第三初始类别为正常网页、色情网页、非法博彩网页或违反法律法规网页。

上述的方法，可选的，所述不合规网页分类器包含至少一个子分类器；

所述将第三元素属性对应的网页特征所组成的特征向量输入至不合规网页分类器，以得到所述待分类网页的第三初始类别包括：

确定每个子分类器对应的网页特征，所述每个子分类器对应的网页特征为所述第三元素属性对应的网页特征中指定的一种或几种；

将每个子分类器对应的网页特征组成特征向量并输入至子分类器中，得到所述待分类网页的多个预测类别；

将所述预测类别中预测概率值最高的预测类别作为所述待分类网页的第三初始类别。

上述的方法，可选的，所述将每个初始分类器确定的初级类别，汇总至集成分类器，由所述集成分类器进行分析，以最终确定所述待分类网页的网页类别，包括：

将每个初始分类器的分类器编号，结合其对应的初级类别输入至所述集成分类器，由所述集成分类器依据预设的分析算法，计算每个初级类别的出现概率，将出现概率最高的初级类别作为所述待分类网页的网页类别。

一种网页分类装置，包括：

提取单元，用于从待分类网页的网页元素中提取网页特征；

发送单元，用于将每个网页特征发送至与其元素属性具有对应关系的初始分类器，以得到所述待分类网页的初级类别，不同的初始分类器识别不同的类别的恶意网页；

汇总单元，将每个所述初始分类器确定的初级类别，汇总至集成分类器，由所述集成分类器进行分析，以最终确定所述待分类网页的网页类别。

上述的装置，可选的，所述汇总单元包括：

输入子单元，用于将每个初始分类器的分类编号，结合其对应的初级类别输入至集成分类器。

一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在的设备执行上述的网页分类方法。

一种电子设备，包括存储器，以及一个或者一个以上的程序，其中一个或者一个以上的程序存储域存储器中，且经配置以由一个或者一个以上处理器执行上述的网页分类方法。

与现有技术相比，本发明包括以下优点：

本发明提供的网页分类方法，从待分类网页的网页元素中提取网页特征；将每个网页特征发送至与其元素属性具有对应关系的初始分类器，以得到所述待分类网页的初级类别，不同的初始分类器识别不同的类别的恶意网页；将每个所述初始分类器确定的初级类别，汇总至集成分类器，由所述集成分类器进行分析，以最终确定所述待分类网页的网页类别。本发明提供的网页分类方法，在用户需要对网页进行访问时，对待访问网页进行分类，从网页的网页元素中提取网页特征，并将提取的各个网页特征发送至与其对应的初始分类器，本发明中，应用了多个不同的初始分类器，每个初始分类器可以对恶意网页进行识别，且每个初始分类器所识别的恶意网页的类别不同，各个初始分类器对接收到的各个网页特征进行处理，得到网页的初级类别，然后将各个初级类别在集成分类器中进行分析，以最终确定网页的网页类别，进而可以使用户根据待访问网页的网页类别，决定是否对网页进行访问，提升了用户访问网页的安全性。

本发明提供的网页分类方法中，每一个初始分类器对待分类网页进行分类的过程中，不同的初始分类器针对不同的网页元素进行网页特征的提取，不需要依赖整个网页内容，降低了初始分类器包含的分类噪声，实现了网页特征的降维，提高了网页特征提取的针对性和准确性，提高了网页分类的准确性。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种网页分类方法的方法流程图；

图2为本发明提供的一种网页分类方法的又一方法流程图；

图3为本发明提供的一种网页分类方法的又一方法流程图；

图4为本发明提供的一种网页分类方法的又一方法流程图；

图5为本发明提供的一种网页分类方法的一架构图；

图6为本发明提供的一种网页分类系统的结构示意图；

图7为本发明提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明实施例提供了一种网页分类方法，可以应用在计算机或移动终端的处理器中，由所述处理器执行所述网页分类方法的分类过程，图1示出了本发明提供的网页分类方法的方法流程图，包括：

S101：从待分类网页的网页元素中提取网页特征；

对于用户需要访问的每一个网页，网页中会包含多个网页元素，每一个网页元素中包含对应的网页特征，本发明实施例中，对待分类网页中网页元素的网页特征进行提取。

S102：将每个网页特征发送至与其元素属性具有对应关系的初始分类器，以得到所述待分类网页的初级类别，不同的初始分类器识别不同的类别的恶意网页；

本发明实施例中，待分类网页中包含了多个网页元素，根据每个网页元素的元素属性为该网页元素关联对应的初始分类器，将从每个网页元素中提取的网页特征，发送至所述网页元素的元素属性对应的初始分类器中，由所述初始分类器根据接收到的各个网页特征对待分类网页进行分类，获得待分类网页的初级类别，本发明实施例中，每个初始分类器可以识别设定类别的恶意网页，每个初始分类器所识别的恶意网页类别不同。

S103：将每个所述初始分类器确定的初级类别，汇总至集成分类器，由所述集成分类器进行分析，以最终确定所述待分类网页的网页类别。

本发明实施例中，将确定的各个初级类别，汇总到集成分类器，由所述集成分类器对所述各个初级类别进行分析处理，以最终确定所述待分类网页的网页类别。

本发明实施例提供的网页分类方法中，应用了多个不同的初始分类器，每个初始分类器可以对恶意网页的类别进行识别，且各个初始分类器所能识别恶意网页的类别各不相同。每一个初始分类器由其对应的网页元素中的网页特征训练得到。

对于用户当前需要访问的网页，应用本发明实施例提供的网页分类方法对其进行分类，首先提取待分类网页的网页元素中的网页特征，然后将各个网页特征发送至其所在网页元素的元素属性对应的初始分类器中，由所述初始分类器依据接收到的各个网页特征对待分类网页进行分类，获得所述待分类网页的多个初级类别，然后经过集成分类器对所述多个初级类别进行分析处理，以最终确定所述待分类网页的网页类别，最终确定的待分类网页的可以是正常网页，也可以是某一具体类别的恶意网页，进而，用户可以根据待访问网页的网页类别，决定是否继续对该网页进行访问，避免了用户财产、个人信息的损害，提升了用户网页访问的安全性。

本发明实施例中，网页元素是组成网页的基本元素，通过网页元素的属性，可以确定网页元素具体为网页布局、主题、表单、关键词、亦或其它。

参考图2，示出了本发明实施例提供的网页分类方法中，得到待分类网页的初级类别的一种可行的实现方式，具体包括：

S201：获取第一元素属性对应的网页特征，所述第一元素属性对应的网页特征是可以确定所述待分类网页是否为欺诈类型网页的特征；

S202：将所述第一元素属性对应的网页特征所组成的特征向量输入至欺诈网页分类器，以得到所述待分类网页的第一初始类别，所述第一初始类别为正常网页、钓鱼网页、欺诈网页或仿冒网页。

本发明实施例提供的网页分类方法中，每个初始分类器由设定类别的恶意网页的网页特征及正常网页中的网页特征训练得到。所述初始分类器可以是能够识别欺诈类型网页的欺诈网页分类器。

欺诈类型网页可以包括：钓鱼网页、欺诈网页和仿冒网页；本发明实施例中，通过分析钓鱼网页、欺诈网页和仿冒网页的网页特性，确定与欺诈类型网页对应的网页元素的网页特征；将欺诈类型网页对应的网页特征结合正常网页的网页特征进行训练，可以构建能够识别欺诈类型网页及正常网页的欺诈网页分类器。

本发明实施例中，所述第一元素属性可以为欺诈网页分类器能够识别的各个网页元素的元素属性，所述第一元素属性对应的网页特征可以包括：网页布局特征、网页主题特征、网页外部链接特征、网页表单特征及网页关键词特征。

本发明设定对用户待访问网页中的网页布局特征、网页主题特征、网页外部链接特征、网页表单特征及网页关键词特征进行提取。在实际应用过程中，一个网页中可能不包含网页布局特征、网页主题特征、网页外部链接特征、网页表单特征及网页关键词特征中的全部，而是包括其中的一种或几种。本发明实施例中按照提取网页中的网页布局特征、网页主题特征、网页外部链接特征、网页表单特征及网页关键词特征的原则对网页中的特征进行提取，网页中包括网页布局特征、网页主题特征、网页外部链接特征、网页表单特征及网页关键词特征中的哪几种特征，就提取哪几种特征作为输入至欺诈网页分类器中的网页特征。

然后将提取到的网页特征组成特征向量，输入至欺诈网页分类器进行分类，以确定所述待分类网页是正常网页、钓鱼网页、欺诈网页或仿冒网页。本发明实施例中，通过确定网页分类置信度的方式，确定待分类网页的第一初始类别。

本发明实施例中，针对欺诈网页分类器，在网页中提取的网页特征可以包括：

网页布局特征、网页主题特征、网页外部链接特征、网页表单特征及网页关键词特征；

其中：

所述网页布局特征可以具体包括：网页中的网页文本特征、图片特征、全局视图特征等，在具体的提取过程中，首先，抽取网页的多个文本特征6元组：文本内容、文本背景色、文本字体大小、文本格式、文本的字体名称和文本在网页中的位置，然后，抽取网页的多个图片特征5元组：图片的src属性、图片的面积、图片的颜色直方图、图片在网页中的位置和图片的小波特征，最后，将整个网页看做一个全局图像，抽取全局图像特征。

网页的主题特征，可以为网页<title>标签中的内容。

网页的外部链接特征可以包括与本网站域名不符的外部链接占链接标签的比例，及空链接占链接标签的比例。

网页表单特征，可以为：

网页是否存在表单标签"<form"；

网页是否有表单填写文本框"<input"；

表单填写是否包含敏感词汇的数量；例如：username/用户/账号/password/密码/登录/账户/credit card number/身份证/电话/手机/银行等词汇；

表单提交的动作"action＝"是否为外部链接；即私密信息直接发送给攻击者。

网页关键词特征，可以为网页正文的文本中所包含的指定欺诈关键词。

本发明实施例中，将从网页元素中提取到与欺诈网页分类器对应的网页特征，组成特征向量，输入至所述欺诈网页分类器中，确定所述待分类网页对应正常网页、钓鱼网页、欺诈网页及仿冒网页的置信度，将置信度最高的网页类别作为所述待分类网页在所述欺诈网页分类器中的第一初始类别。

本发明实施例提供的网页分类方法，针对欺诈类型网页，依据欺诈类型网页的特性，提取与欺诈类型网页特性对应的网页元素中的网页特征，构建能够识别欺诈类型网页的欺诈网页分类器，在实际分类中，将待分类网页输入至欺诈网页分类器中，可以识别出待分类网页是正常网页、钓鱼网页、欺诈网页或仿冒网页，以避免用户误访问欺诈类型网页，保护用户的财产、个人信息，提升了用户上网的安全性。

参考图3，示出了本发明实施例提供的网页分类方法中，得到待分类网页的初级类别的又一种可行的实现方式，具体包括：

S301：获取第二元素属性对应的网页特征；所述第二元素属性对应的网页特征是从所述待分类网页的源代码中提取的，可确定所述待分类网页是否为恶意入侵类型网页的特征；

S302：将所述第二元素属性对应的网页特征所组成的特征向量输入至恶意入侵网页分类器，以得到所述待分类网页的第二初始类别，所述第二初始类别为恶意广告网页、黑客入侵网页、木马网页或正常网页。

结合图2中对欺诈网页分类器的描述，本发明实施例中，应用的初始分类器可以是恶意入侵网页分类器，所述恶意入侵网页分类器由恶意入侵类型网页中的网页特征及正常网页中的网页特征训练得到。

本发明实施例中，所述恶意入侵类型网页可以包括：恶意广告网页、黑客入侵网页及木马网页。

本发明实施例中通过分析恶意广告网页、黑客入侵网页及木马网页的网页特性，确定与恶意入侵类型网页对应的网页元素的网页特征。将恶意入侵类型网页的网页特征结合正常网页的网页特征进行训练，可以构建能够识别恶意入侵类型网页的恶意入侵网页分类器。

本发明实施例中，所述第二元素属性可以为恶意入侵网页分类器能够识别的各个网页元素的属性。所述第二元素属性对应的网页特征可以包括：网页代码信息，所述网页代码信息从网页的源代码中提取获得。

本发明实施例中第二元素属性对应的网页特征可以包括：

windows.open、document.location、document.cookie、window.location、eval、document.write、fromCharCode、split和replace等可疑函数的个数；

内嵌或外链<script>的数量；

是否出现<meta>标签；

javaScript脚本中空白字符占比；

每行JavaScript脚本的平均长度；

javaScript脚本占页面所有代码的比例；

javaScript脚本的总长度；

长字符串的数量；

最长字符串的长度；

字符串的平均熵；

字符串的平均长度；

隐藏元素的数量；

小区域元素数量；

字符串修改函数的数量。

本发明实施例中，将以上的网页代码信息组成特征向量，输入至恶意入侵网页分类器中，以识别出待分类网页是恶意广告网页、黑客入侵网页或木马网页。具体的识别过程中，可以采用置信度取值的方式，确定入侵网页分类器输出的第二初始类别。

本发明实施例提供的网页分类方法，针对恶意入侵类型网页，依据恶意入侵类型网页的特性，提取与恶意入侵类型网页特性对应的网页元素中的网页特征，构建能够识别恶意入侵类型网页的恶意入侵网页分类器，在实际分类中，将待分类网页输入至恶意入侵网页分类器中，可以识别出待分类网页是为正常网页、恶意广告网页、黑客入侵网页或木马网页。以避免用户误访问恶意入侵类网页，提升了用户访问网页的安全性。

参考图4，示出了本发明实施例提供的网页分类方法中，得到待分类网页的初级类别的又一种可行的实现方式，具体包括：

S401：获取第三元素属性对应的网页特征，所述第三元素属性对应的网页特征是可确定所述待分类网页是否为不合规类型网页的特征；

S402：将所述第三元素属性对应的网页特征所组成的特征向量输入至不合规网页分类器，以得到所述待分类网页的第三初始类别，所述第三初始类别为正常网页、色情网页、非法博彩网页或违反法律法规网页。

本发明实施例提供的网页分类方法中，初始分类器可以为不合规网页分类器，所述不合规网页分类器由不合规类型网页中网页元素的网页特征及正常网页中网页元素的网页特征训练获得。

本发明实施例中，不合规类型网页可以包括：色情网页、非法博彩网页或违反法律法规网页。分析色情网页、非法博彩网页及违法法律法规网页的网页特性，确定与所述不合规类型网页的特性对应的网页元素的网页特征。将不合规类型网页的网页特征结合正常网页的网页特征进行训练，可以构建能够识别不合规类型网页的不合规网页分类器。

本发明实施例中，所述第三元素属性可以是所述不合规网页分类器能够识别的各个网页元素的属性，所述第三元素属性对应的网页特征可以包括：网页描述特征、网页主题特征、网页关键词特征、网页文字描述特征及网页图片特征。

在实际应用中，一个网页中可能并不包含第三元素属性对应的网页特征中的全部特征，本发明实施例中依据提取所述网页描述特征、网页主题特征、网页关键词特征、网页文字描述特征及网页图片特征的原则，在待分类网页中进行网页特征提取，也可以提取到其中的一种或几种。然后将提取到的网页特征组成特征向量输入至不合规网页分类器中，以确定所述待分类网页是色情网页、非法博彩网页、违法法律法规网页或正常网页。

本发明实施例中，由于不合规类型网页包含的网页种类较多，在具体应用时，可能会涉及到主题、长文字或图片等多种元素的识别，识别每种元素的工作量不同，为了提升识别效率，本发明实施中应用的不合规网页分类器中包含至少一个子分类器。

本发明实施例中，所述将第三元素属性对应的网页特征所组成的特征向量输入至不合规网页分类器，以得到所述待分类网页的第三初始类别的具体过程，可以包括：

本发明实施例中，所述不合规网页分类器中的各个子分类器可以是网站主题分类器、正文文本分类器或图片分类器。

本发明实施例中，在不合规网页分类器的具体应用中：

网站的描述、关键词和主题；这些特征通常是一到多句短语，包含的词语不多但词语之间有很强的语义联系，通常使用类似于词向量或者句向量的方法挖掘分类特征，使得语义相近的词在分类倾向上具有相似的重要性,更为适合作为短文本分类的分类特征,这些特征可以优选发送给所述网站主题分类器进行处理，本发明实施例中，所述网站主题分类器可以为支持向量机SVM非线性核函数的分类器。

网站正文中的文字描述；可以采用词袋的方式建立数量较多的特征，这些特征可以优先发送给正文文本分类器进行处理，本发明实施例中，正文文本分类器可以是适合于采用逻辑回归或者支持向量机的线性核函数的分类器。

对网页中图片的识别，可以采用图片分类器进行处理。图片分类器可以采用常用的图像分类方法，例如神经网络进行图像分类。

网页被网站主题分类器、正文文本分类器及图片分类器中的任意一个分类器识别为色情、非法博彩、违反法律法规分类，则输出为不合规网页分组的分类结果。

因此本发明实施例中，对不合规网页分类器对应的第三元素属性中的各个网页特征进行细分，当不合规网页分类器中包含图片分类器时，提取网页元素中的网页图片特征，组成分类向量输入至所述图片分类器中，得到所述待分类网页的预测类别；

当不合规网页分类器中包含正文文本分类器时，提取网页元素中的网页文字描述特征，组成分类向量输入至所述正文文本分类器中，得到所述待分类网页的预测类别。

当不合规网页分类器中包含网站主题分类器时，提取网页元素中的网页描述特征、网页主题特征及网页关键词特征；本发明实施例中在待分类网页中依据提取网页描述特征、网页主题特征、网页关键词特征的原则对网页元素中的网页特征进行提取，可能只提取到其中的一种或几种。将提取到的网页特征组成特征向量，在所述网站主题分类器中处理，得到所述待分类网页的预测类别。

本发明实施例中可以在不合规网页分类器中同时应用图片分类器、正文文本分类器及网站主题分类器，上述三种分类器分别对待分类网页的网页类别进行预测，将预测概率最高的分类器输出的预测类别作为所述不合规网页分类器输出的第三初始类别。

本发明实施例提供的网页分类方法中，如图5所示，也可以同时应用欺诈网页分类器、恶意入侵网页分类器及不合规网页分类器。分别提取所述欺诈网页分类器、恶意入侵网页分类器及不合规网页分类器对应的网页元素中的网页特征，并分别输入至所述欺诈网页分类器、恶意入侵网页分类器及不合规网页分类器中，得到待分类网页的多个初级类别。

结合上述对本发明实施例提供的网页分类方法，本发明实施例中，所述将每个初始分类器确定的初级类别，汇总至集成分类器，由所述集成分类器进行分析，以最终确定所述待分类网页的网页类别的具体过程，包括：

本发明实施例中，将每个初始分类器的分类编号及该初始分类器确定的初级类别作为训练特征，进行训练得到所述集成分类器。即将不同初始分类器的分类结果输出给集成分类器，作为集成分类器的分类特征，每个分类特征的格式是：“初始分类器序号+初始分类器确定的初级类别”，对输入的分类特征按照贝叶斯或者逻辑回归的分类方法进行训练，完成对集成分类器的构建。

在具体的识别过程中，将欺诈网页分类器、恶意入侵网页分类器及不合规网页分类器对待分类网页的初级类别结合编号输入到集成分类器中，经过计算得到所述待分类网页的最终类别。

本发明实施例中，集成分类器综合分析每个初级分类器确定的初级类别，降低单个初级分类器分类结果错误的风险，采用的分类方法简单可靠性高，能够获得比单个分类器更高的分类准确性。

经过上述对本发明实施例提供的网页分类方法执行过程的描述，可以清楚的知道，本发明实施例提供的网页分类方法，通过获取用户当前待访问网页的各个网页元素，并确定所述各个网页元素的元素属性；然后，将每一个网页元素分别发送至与其元素属性具有预设对应关系的初始分类器中；触发每一个初始分类器提取接收到的每一个网页元素的分类特征，并依据所述每一个网页元素的分类特征确定所述待访问网页的初级类别；将每一个分类器确定的初级类别汇总至所述集成分类器，由所述集成分类器进行分析，识别出所述待访问网页的最终分类。

本发明实施例中，所涉及到的网页元素是组成网页页面的页面元素，可以为网页布局、主题、表单、关键词等；对于任意一网页元素，通过确定该网页元素的元素属性，即可确定该网页元素具体为页面布局、页面主题，亦或其它。

本发明实施例中，每一个初始分类器所进行分类的恶意网页的类别不同，因此在对网页进行分类时，所需要分析的网页元素不同，因此，每一个初始分类器与所需网页元素的元素属性之间具有对应关系，本发明实施例中，根据初始分类器与网页元素的元素属性之间的对应关系，将网页元素中的网页特征分别发送至不同的分类器中。

本发明实施例中，每一个初始分类器的建立过程，包括：

选取多个训练样本组；每一个所述训练样本组中包含多个同一类别的恶意网页和多个正常网页；各个训练样本组中恶意网页的类别不同；对于每一个训练样本组，分析该训练样本组对应的网页特性；依据所述网页特性，提取各个网页中网页元素的网页特征；将提取的各个网页特征组成特征向量，并对所述特征向量进行训练得到训练模型，进而建立与该训练样本组相对应的初始分类器。

本发明实施例中，在建立初始分类器的过程中，选取了多个训练样本组，针对每一个训练样本组建立一个与其对应的初始分类器。本发明实施例中，每一个训练样本组中包含多个同一类别的恶意网页，同时，还包含多个正常网页。每一个训练样本组对应一个类别的恶意网页，各个训练样本组中恶意网页的类别各不相同。

本发明实施例中，针对每一个初始分类器，选取的恶意网页由于具有相类似特性，所以在构建针对具体类别的恶意网页的初始分类器时，只需要采集能够体现恶意网页特性的网页元素即可，然后提取各个网页元素的网页特征，将网页特征作为分类特征进行训练，完成对该类别恶意网页的初始分类器的构建。分类器在对该类别的恶意网页进行识别时，识别效率更高，提升了对该类别网页分类的准确性。

本发明实施例中，在建立各个初始分类器的过程中，首先，将恶意网页类别划分为不同的恶意网页类别分组；优选的，可以划分为：

欺诈类型网页分组：可以包括钓鱼网页、欺诈网页、仿冒网页等类别的恶意网页；

不合规类型网页分组：可以包括色情网页、非法博彩网页、违反法律法规网页等类别的恶意网页；

恶意入侵类型网页分组：可以包括恶意广告网页、黑客入侵网页、木马网页等类别的恶意网页。

欺诈类型网页分组中，需要分析的网页元素属性包括：网页表单、主题、外部链接、网站布局、欺诈关键词；

不合规类型网页分组中，需要分析的网页元素属性包括：网站的描述、关键词、主题、显示的中文词汇；

恶意入侵类型网页分组中，需要分析的网页元素属性包括：网页的内置代码、弹出窗口。

本发明实施例中，每个恶意网页类别分组提取不同的分类特征并构建不同的初始分类器。

本发明实施例中，每个初始分类器根据其对应的类别分组中各个恶意网页的特性进行构建。例如：欺诈类型网页分组中，包含的钓鱼网页、欺诈网页、及仿冒网页，一般都是将自己的网站伪装成用户意欲访问的真实网站，欺诈网页会在网页中提供欺诈性的内容；仿冒网页会诱导用户以达到目的；钓鱼网页诱导用户在网页中进行注册、登录、充值等行为，从而收集用户的用户名、密码、手机号码、银行卡号码和密码等信息，从而造成用户信息泄露甚至财产损失。

欺诈类型网页分组的共性是对网页进行伪装，常用方法是：模仿真实网页的页面布局，模仿真实网页的页面的主题等。另外，为诱导用户提供私密信息，网页页面一般都有注册、登录、充值表单，且表单被提交后会通知攻击者。

因此，针对欺诈类型网页分组中的恶意网页，提取欺诈类型网页中的网页布局特征、网页主题特征、网页外部链接特征、网页表单特征及网页关键词特征；以上网页特征组合在一起，输入与欺诈类型网页分组相对应的初始分类器，该初始分类器支持的分类标签为正常网页、钓鱼网页、欺诈网页、仿冒网页。由于该初始分类器输入的网页分类特征可能是几十维到几百维，而支持向量机(SVM)具有小样本、良好的推广性能、理论完备、适应性强、全局最优、泛化能力强、训练时间短等优点，因此可采用SVM分类方法对网页进行分类。

本发明实施例中，不合规类型网页分组中包含的色情网页、非法博彩网页、违反法律法规网页，这一类型网页为了引人注意，一般在网站的描述、关键词和主题标签内容上写入明显的提示性词汇，在网站的正文中，包含大段的文字描述或者图片资源。因此针对这一类型网页，主要是分析网页的文本信息或者图片资源。

不合规类型网页分组的分类特征，种类较多，可以应用于不同的子分类器中，具体过程可参考上述介绍的第三元素属性对应的网页特征输入至不合规网页分类器的过程，此处不在赘述。

本发明实施例中，恶意入侵类型网页分组中，包含的恶意广告网页、黑客入侵网页、木马网页，主要是通过一些恶意代码实现特定的功能，例如弹出恶意广告、篡改浏览器主页以及启动其他无关程序等。因此对于恶意入侵类型网页分组，主要是分析网页中的内置代码。

通过以上对各个恶意网页类别分组的介绍，本发明实施例中，对分类器能够分类的恶意网页的类别进行细化，每一个分类器用于对某一具体类别的恶意网页进行分类识别，在具体的识别过程中，充分考虑不同恶意网页分类的特点，每个分类器依赖不同的网页元素，而不是整个网页内容，降低了分类器所包含的分类噪声、天然的实现了分类特征的降维，提高了分类特征提取的针对性，提高了分类器的运行效率和网页分类的准确性。每个分类器所输入分类特征的数量和稀疏性各不相同，可以根据分类特征的特点选择不同的分类方法，提高了分类器中分类方法对输入数据的适应性，间接提高了分类器的准确性。

本发明实施例中，集成分类器能解决单个分类器的训练数据不足，假设空间小，局部最优等问题，所以，集成分类器的预测能力会优于单个分类器的预测能力。

参考图5，示出了本发明实施例中一种可行的网页分类架构图，在具体的执行过程中，对应任意一个待分类网页，首先分析网页的各个元素，按照网页元素的属性输入给各自的初始分类器提取分类特征，然后每个初始分类器根据所提取的分类特征组成分类向量，识别网页的类别并输出给集成分类器，由集成分类器给出最终的网页分类。

具体实现过程如下：

分析网页的各个元素，并判断网页元素的属性：

对于网站主题标签、图片、正文文字等：输入给欺诈网页分类器和不合规网页分类器；

对于网站描述和关键词，输入给不合规网页分类器；

对于网站布局相关的网页标签、外部链接、提交表单，输入给欺诈网页分类器；

对于javascript标签及代码，输入给恶意入侵网页分类器；

欺诈网页分类器、不合规网页分类器及恶意入侵网页分类器分别根据其对应的网页特征，确定待分类网页的分类标签。

将欺诈网页分类器、不合规网页分类器和恶意入侵网页分类器的分类器序号和分类标签输入给集成分类器，通过贝叶斯或者逻辑回归的分类方法得出网页的最终分类。

本发明实施例中，优选的，可以采用提示信息的方式，将待访问网页的分类反馈至用户的显示屏幕上，还可以以报警提示的方式，提示用户继续访问存在风险。

与图1所示的网页分类方法相对应，本发明实施例还提供了一种网页分类装置，用于对图1中网页分类方法的具体实现，本发明实施例提供的网页分类装置可以应用在计算机或移动终端的处理器中，其结构示意图如图6所示，具体包括：

提取单元501，用于从待分类网页的网页元素中提取网页特征；

发送单元502，用于将每个网页特征发送至与其元素属性具有对应关系的初始分类器，以得到所述待分类网页的初级类别，不同的初始分类器识别不同的类别的恶意网页；

汇总单元503，将每个所述初始分类器确定的初级类别，汇总至集成分类器，由所述集成分类器进行分析，以最终确定所述待分类网页的网页类别。

本发明实施例提供的网页分类装置中，应用了多个不同的初始分类器，每个初始分类器可以对恶意网页的类别进行识别，且各个初始分类器所能识别恶意网页的类别各不相同。每一个初始分类器由其对应的网页元素中的网页特征训练得到。

本发明实施例提供的网页分类装置中，所述汇总单元包括：

本发明实施例还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在的设备执行上述网页分类方法，所述方法具体包括：

从待分类网页的网页元素中提取网页特征；

本发明实施例还提供了一种电子设备，其结构示意图如图7所示，具体包括存储器601，以及一个或者一个以上的程序602，其中一个或者一个以上程序602存储于存储器601中，且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上程序602执行上述网页分类方法。

所述网页分类方法，具体可以包括

从待分类网页的网页元素中提取网页特征；

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种网页分类方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种网页分类方法，其特征在于，所述方法包括：

从待分类网页的网页元素中提取网页特征；

2.根据权利要求1所述的方法，其特征在于，所述将每个网页特征发送至与其元素属性具有对应关系的初始分类器，以得到待分类网页的初级类别，包括：

3.根据权利要求1所述的方法，其特征在于，所述将每个网页特征发送至与其元素属性具有对应关系的初始分类器，以得到待分类网页的初级类别，包括：

4.根据权利要求1所述的方法，其特征在于，所述将每个网页特征发送至与其元素属性具有对应关系的初始分类器，以得到待分类网页的初级类别，包括：

5.根据权利要求4所述的方法，其特征在于，所述不合规网页分类器包含至少一个子分类器；

6.根据权利要求1-5所述的方法，其特征在于，所述将每个初始分类器确定的初级类别，汇总至集成分类器，由所述集成分类器进行分析，以最终确定所述待分类网页的网页类别，包括：

7.一种网页分类装置，其特征在于，包括：

提取单元，用于从待分类网页的网页元素中提取网页特征；

8.根据权利要求7所述的装置，其特征在于，所述汇总单元包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在的设备执行如权利要求1-6任意一项所述的网页分类方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的程序，其中一个或者一个以上的程序存储域存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1-6任意一项所述的网页分类方法。