CN103605794A

CN103605794A - 一种网站分类方法

Info

Publication number: CN103605794A
Application number: CN201310651985.XA
Authority: CN
Inventors: 胡俊; 王明华; 云晓春; 李佳; 贺敏; 纪玉春; 何能强; 高胜; 朱天
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2013-12-05
Filing date: 2013-12-05
Publication date: 2014-02-26
Anticipated expiration: 2033-12-05
Also published as: CN103605794B

Abstract

本发明公开了一种网站分类方法，包括：获取网站的多维属性，利用集合对多维属性进行表示；针对表示多维属性的集合，进行自编码特征学习；利用自编码学习结果，进行网站聚类学习，得到用于进行网站分类的支持向量机SVM；步骤S104，对任意一个未经标注的网站进行分类时，先进行步骤S101和步骤S102，得到与该网站对应的自编码学习结果；然后将该结构输入到步骤S103得到的SVM中，进行网站分类，得到网站的类别。本发明的网站分类方法能高效准确的按照行业类别对网站进行分类，并且能快速侦测具有恶意特征的钓鱼网页；采用多维属性描述的方式，增加系统的便利性与通用性；且系统具有极强的稳定性。

Description

一种网站分类方法

技术领域

本发明涉及网络安全技术领域，特别是涉及一种网站分类方法。

背景技术

伴随着互联网产业的蓬勃发展，钓鱼欺诈、木马暗链和隐私泄露等网络安全事件频发，对网络用户造成了严重的财产、精神伤害。如何能够快速智能的识别钓鱼网站，以及针对不同类型网站给出合适的隐私保护等级，成为当前安全领域研究的热点。这就需要一种智能准确的网站分类的技术来处理海量互联网网站。

目前，对于网站分类技术，国内外的研究并不算很广泛，而且分析中使用的网站特征描述较为单一。总体而言，主要有如下几个研究方向：（1）基于网页文本。John Pierre最早提出将整个网站上网页的文字或标签集合为一个整体构造空间向量，利用文本分类的方法进行分类，实验结果并不理想。（2）基于网站结构。Hans-Peter Kriegel等人利用网站中各类类别网页的出现频率来进行网站分类，Majid Yazdani等人在此基础上提出了隐马尔科夫的模型。这类网站分类模型特别适用单个类别网站的选取和判断。（3）基于用户HTTP行为分析。这一方法绕开了网页本身的处理，利用HTTP协议的行为来处理网站分类问题。在网站分类的类别划分上，还没有一个统一的标准。但是，用户在同一类别网站上的业务使用过程是类似的，而且针对钓鱼网站之间也具有较强相似性。目前，最大的国际性人工网站分类目录是Open Directory Project，其中包含部分中文网站。就英文网站分类目录而言，Yahoo!Directory和Alexa是比较著名的。

深度学习（Deep Learning）是最近兴起的一种新的机器学习模型，其能够得到更好地表示复杂数据的特征，同时由于模型的层次、参数很多，效率足够，因此，深度学习模型有能力表示类型互联网网站这样大规模数据，能够在大规模训练数据上取得更好的效果。此外，从模式识别特征和分类器的角度，深度学习框架将特征选取和分类器结合到一个框架中，用数据去学习特征，在使用中减少了手工选取特征的巨大工作量（这是目前工业界工程师付出努力最多的方面），因此，不仅仅效果可以更好，而且，使用起来也有很多方便之处，因此，是十分合适的一套解决方案框架，

自编码（AutoEncoder）方法是深度学习方法中最常用的一种算法。该算法通过设置一个神经网络的输出层矢量等于输入矢量，并使隐层神经元的数量少于输入层，然后训练调整其参数，得到每一层中的权重。训练好的网络在隐层即为输入特征向量的压缩表示方法。这些压缩后的特征在解决分类问题时有较好的效果。

发明内容

本发明要解决的技术问题是提供一种网站分类方法，用以解决现有技术中网站分类效果不佳的问题。

为解决上述技术问题，本发明提供一种网站分类方法，包括：

步骤S101，获取网站的多维属性，利用集合对多维属性进行表示；

步骤S102，针对表示多维属性的集合，进行自编码特征学习；

步骤S103，利用自编码学习结果，进行网站聚类学习，得到用于进行网站分类的支持向量机SVM；

步骤S104，对任意一个未经标注的网站进行分类时，先进行步骤S101和步骤S102，得到与该网站对应的自编码学习结果；然后将与该网站对应的自编码学习结果输入到步骤S103得到的用于进行网站分类的支持向量机SVM中，进行网站分类，得到网站的类别。

进一步，步骤S101具体包括：

步骤S1011，提取网站首页超文本标记语言HTML标题、HTML正文和层叠样式表CSS主题色彩；

步骤S1012，对所述HTML标题和HTML正文进行分词处理，得到单词向量集合B={w₁,w₂,…,w_n}，n为正整数；

步骤S1013，对每一个在向量B的单词w_i，统计其在网页HTML的标签<a>、<h1>-<h6>、<title>、<em>、<strong>中出现的次数，按出现的次数加权后排名，得到排名后新单词向量集合B’={w’₁,w’₂,…,w’_m}；其中i=1,2，……，n；m为正整数，m<=n；

步骤S1014，统计所述CSS主题色彩中使用最多的3种颜色类别，得到色彩向量描述集合C，C={c₁,c₂,c₃};

步骤S1015，获取属性值，建立属性描述集合S；其中，属性值包括下述中的一项或多项：网站服务器类型、Poweredby信息（驱动信息）、脚本语言类型、返回状态码、跳转次数、网站出处、外域个数、内域个数和页面大小；

步骤S1016，根据集合B’、C和S，建立网站多维属性样本集合V，V=B’∪C∪S；其中∪表示并集。

进一步，步骤S102具体包括：

步骤S1021，构建三层神经网络N，其输入特征数量等于输出数量，并且输入特征数量等于步骤S1016中得到网站多维属性集合V的特征数量；

步骤S1022，用网站多维属性集合V作为三层神经网络N的输入值Input，计算当前三层神经网络环境下的输出值Output；

步骤S1023，比较输入值Input与输出值Output，计算二之差是否达到目标阈值；如果是，则转步骤S1025，如果否，则转步骤S1024；

步骤S1024，根据梯度下降法调整三层神经网络N的参数，并返回到步骤S1022；

步骤S1025，完成学习，中间隐层节点向量V’即为自编码学习结果。

进一步，步骤S103具体包括：

步骤S1031，构建支持向量机SVM，使用向量V’作为输入；

步骤S1032，利用开源数据库，标记设定数量的样本网站的行业类别，得到已标注样本集L；

步骤S1033，利用SVM对已标注样本集L中的标记数据样本进行训练与学习；判断该SVM的分类结果是否满足设定要求，如果是，则以该SVM作为进行分类的SVM；如果否，则修改SVM的参数，然后对该SVM继续进行训练和学习，通过迭代训练，直至其分类结果满足设定要求，则以最终得到SVM作为进行分类的SVM。

本发明有益效果如下：

本发明的网站分类方法，能高效准确的按照行业类别对网站进行分类，并且对于具有恶意特征的钓鱼网页，能快速侦测出来；采用多维属性描述的方式，增加系统的便利性与通用性；采用机器学习的方法，并且采样的样本较为广泛，系统具有极强的稳定性。

附图说明

图1是本发明实施例中一种网站分类方法的流程图；

图2是本发明实施例中三层神经网络的结构示意图；

图3是本发明实施例中进行网站聚类学习及网站分类的流程图；

图4是本发明实施例中一个建立网站多维描述与聚集分类的示意图。

具体实施方式

以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

如图1所示，本发明实施例涉及一种基于自编码深度学习模型的网站分类方法，包括以下步骤：

步骤S101，获取网站的多维属性，利用集合对多维属性进行表示：

本步骤具体包括以下步骤：

步骤S1011，对网站首页进行HTML（HyperText Markup Language，超文本标记语言）处理，提取出首页HTML标题、HTML正文和CSS（Cascading StyleSheets，层叠样式表）主题色彩；

步骤S1012，对步骤S1011获得的HTML标题和HTML正文进行分词处理，按照出现频率由高到底统计预定比例（例如，前50%）的所有名词，并得到单词向量B={w₁,w₂,…,w_n}，n为正整数；

步骤S1013，对每一个在向量B的单词w_i，统计其在网页HTML的标签<a>、<h1>-<h6>、<title>、<em>、<strong>中出现的次数，按出现的次数加权后排名，得到排名后新单词向量B’={w’₁,w’₂,…,w’_m}，m为正整数，m<=n；

步骤S1014，对步骤S1011获得的CSS主题色彩统计使用最多的3种颜色类别，得到色彩向量描述集合C，C={c₁,c₂,c₃};

步骤S1015，收集网站服务器类型、Poweredby信息（驱动信息）、脚本语言类型、返回状态码、跳转次数、网站出处、外域个数、内域个数和页面大小这些属性值，建立属性描述集合S；

步骤S1016，综合步骤S1013、步骤S1014和步骤S1015步得到的向量B’,C,S，建立网站多维属性样本集合V，V=B’∪C∪S={v₁,v₂,…,v_k}，k为正整数；∪表示并集。

步骤S102，针对表示多维属性的集合，进行自编码特征学习。

本步骤具体包括以下步骤：

步骤S1021，构建一个如图2所示的三层神经网络N，输入特征数量等于输出数量，并且输入特征数量等于步骤S1016中得到网站多维属性集合V的特征数量；

步骤S1022，用样本集合V作为三层神经网络N的输入值Input，计算当前三层神经网络环境下的输出值Output；

步骤S1024，当误差未达到目标阈值时，则根据梯度下降法调整三层神经网络N的参数，并返回到步骤S1022；

步骤S1025，当误差达到阈值时，则表示完成学习，图2中，中间隐层节点向量V’即为自编码学习结果；

步骤S103，利用自编码学习结果，进行网站聚类学习，得到用于进行网站分类的支持向量机SVM。

如图3所示，本步骤具体包括：

步骤S1031，构建支持向量机（SVM），使用向量V’作为输入；

步骤S1032，利用开源数据库，标记设定数量的样本网站的行业类别，得到已标注样本集L；设定数量通常都是少量的样本网站；

步骤S1033，利用SVM对步骤S1032得到已标注样本集L中的标记数据样本进行训练与学习；即用SVM进行网站分类，如果其分类结果满足设定要求，则以该SVM作为最终进行分类的SVM；如果该SVM的分类结果不满足设定要求，则修改SVM的参数后，对该SVM继续进行训练和学习，通过迭代训练，直至其分类结果满足设定要求，则以最终得到SVM作为最终进行分类的SVM。经过上述训练和学习，最终得到的SVM，就具备了进行网站分类的功能，其分类结果也是准确可信的。

例如，标注样本集L是100个网站（预先已经标注网站类别），利用构建的SVM进行分类，用分类结果与正确的网站类别进行比对，如果分类正确的是50个，错误的是50个，假设全部分类正确才符合要求，则该SVM的分类结果不满足设定要求，修改SVM的参数后，对该SVM继续进行训练和学习，此时，可以补充50个网站的样本数据，重新对100个网站进行分类；也可以只对上次分错的50个样本网站进行分类，只是，此种情况下，需要将预先设定的符合要求的阈值与本次分类的总样本数据进行对应。修改后的SVM再次进行分类，然后判断其分类结果是否满足设定要求，如果不满足，则继续进行迭代训练，直至满足；如果满足，则以修改后的SVM作为最终进行分类的SVM。

步骤S104，对任意一个未经标注的网站进行分类时，先进行步骤S101和步骤S102，得到与该网站对应的自编码学习结果V’；然后将与该网站对应的自编码学习结果V’输入到步骤S103得到的用于进行网站分类的支持向量机SVM中，进行网站分类，得到网站的类别。

下面，如图4所示，以实例具体描述如下：

（1）网站多维属性集合表示：

（11）对优酷网站首页进行HTML处理，提取出首页HTML标题、HTML正文和CSS主题色彩；

（12）对(11)获得的HTML标题和HTML正文进行分词处理，统计出现频率在前50%的所有名词，并得到单词向量B={视频,播放，更新，排行，热播，Flash}；

（13）对每一个在向量B的单词，统计在网页HTML如下标签<a>、<h1>-<h6>、<title>、<em>、<strong>中出现的次数，按出现的次数加权后排名，得到排名后新单词向量B’={视频，Flash，更新，播放，热播，排行}；

（14）对（11）获得的CSS主题色彩统计使用最多的前3中颜色类别，得到色彩向量描述C={白色,蓝色,灰色};

（15）收集网站服务器类型，Poweredby信息，脚本语言类型，返回状态码，跳转次数，网站出处，外域和内域个数，页面大小这些属性值，建立属性描述集合S={Linux,优酷网,Javascript,202，1,10,500}；

（16）综合（13）、（14）和（15）步得到的向量B’,C,S，建立网站多维属性样本集合V，V=B’∪C∪S={视频，Flash，更新，…，Javascript,202，1,10,500}。

（2）自编码特征学习：

（21）构建一个如图2所示三层神经网络N，输入特征数量等于输出数量，并且输入特征数量等于（16）步中得到建立网站多维属性集合V特征数量；

（22）用样本集合V作为神经网络N的输入Input，计算当前神经网络环境下的输出值Output；

（23）比较的输入Input与输出值Output，计算误差是否达到目标阈值；

（24）未达到阈值，则根据梯度下降法调整神经网络N参数，并返回到步骤（22）；

（25）达到阈值，完成学习，中间隐层节点向量V’即为自编码学习结果；

（3）网站聚类学习，如图3所示过程：

（31）构建支持向量机（SVM），使用向量V’作为的输入；

（32）利用开源数据库，标记少量样本网站的行业类别得到已标注样本集L；

（33）利用SVM对（32）步得到的少量标记数据样本进行训练与学习；

（34）将（16）步得到的未经标注的样本加入到训练所得的初始分类器中进行预测，预测结果与某一类别的余弦距离小于阈值，则代表分类取得的置信度越高；

（35）将置信度较高的文本连同其分类标注一起加入到对应类别集中，作为新的训练样本集进行再学习；

（36）迭代训练，直到所有样本分类完全为止。

（4）对于需要进行分类的网站，先进行步骤（1）、（2），将得到学习结果V’输入到步骤（3）训练得到的SVM中，进行分类，得到网站的类型，网站分类结束。

本发明的网站分类方法能高效准确的按照行业类别对网站进行分类，并且对于具有恶意特征的钓鱼网页，能快速侦测出来；采用多维属性描述的方式，增加系统的便利性与通用性；采用机器学习的方法，并且采样的样本较为广泛，系统具有极强的稳定性。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种网站分类方法，其特征在于，包括：

步骤S102，针对表示多维属性的集合，进行自编码特征学习；

2.如权利要求1所述的网站分类方法，其特征在于，步骤S101具体包括：

3.如权利要求2所述的网站分类方法，其特征在于，步骤S102具体包括：

4.如权利要求3所述的网站分类方法，其特征在于，步骤S103具体包括：

步骤S1031，构建支持向量机SVM，使用向量V’作为输入；