CN107911360A

CN107911360A - 一种被黑网站检测方法及系统

Info

Publication number: CN107911360A
Application number: CN201711115196.9A
Authority: CN
Inventors: 武思妍; 佟晓筠; 辛国栋; 王巍; 王佰玲; 刘扬
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2018-04-13

Abstract

本发明涉及一种被黑网站检测方法及系统，包括：(1)获取原始数据；(2)数据清洗；(3)分别抽取出文本检测、图片检测、启发式检测所需的数据；(4)查询文本检测的索引库，返回相似度值S₁；(5)采用匈牙利算法计算两个图片之间的emd距离并转化成相似性S₂；(6)相似度值S₁和相似性S₂线性融合；(7)如果融合结果S≥T，则判定该网站没有被黑，标记为0；否则，判定该网站被黑，标记为1；(8)采用决策树模型对待检测网页进行判断，输出结果为0(未被黑)或1(被黑)，如果(7)、(8)至少有一个为1，则表示网页被黑，否则网页正常。本发明采取两种方式检测，根据阈值判断，精确度更高，可及时发现互联网中一些恶意网页或被黑网页。

Description

一种被黑网站检测方法及系统

技术领域

本发明涉及一种被黑网站检测方法及系统，属于网络安全技术领域。

背景技术

被黑网站是指网站的部分或者全部权限被黑客所获取，黑客利用网站后台的一些程序漏洞来对网站的内容进行增删改，黑客也会在网站里添加垃圾信息，成为一类虚假欺诈性网站。常见的被黑网站链接到博彩六合彩网站、虚假兼职类网站等等。被黑网站的具体表现有：挂黑链、搜索引擎欺骗、普通用户欺骗(恶意跳转)、增加页面文件、数据泄露以及一些其它的表现。一般被黑的网站大多是政府网站、学校网站以及公司网站等等，而作为代表公信力的政府网站一旦被篡改为不良信息，其带来的恶劣影响是极其严重的，对社会舆论导向产生负面影响。

目前，对于被黑网站的检测方法最常用的是人工举报，然而人工举报受限于网民主动发现，不能主动检测被黑网站，并且实时性差。另外，已有检测技术还包括对仿冒网站的检测，钓鱼网站的检测以及恶意代码嵌入网页的检测，上述这些检测大致思想是先建立待测网页对应的基于各种方法的特征向量，将特征向量与预设的特征向量集合里的特征向量进行比对；根据比对结果来判断待检测网页是否是恶意网站、钓鱼网站或者是仿冒网站；现有的检测主要都是针对仿冒网站或钓鱼网站，而且目前大多数的检测都是单一检测方法(基于黑白名单或者是基于网页截图或者是基于文本)，采用的特征也是单一的文本特征、网页截图特征或者结构特征。

被黑网站类型大致可以分为三种类型，第一类是整个页面完全被篡改，里面内容与原网页毫不相关，一般都替换成博彩信息、黑客个人信息以及一些负面信息。第二类是网页内容里一部分内容被篡改，比如说嵌入部分恶意代码或个别logo更换。第三类是网页的结构框架发生变化，把后面的内容放到前面，再把前面主要内容篡改。

中国专利文献CN105653959A公开了一种基于功能图片识别仿冒网站的方法，包括：获取待识别网站的功能图片，并形成功能图片集；基于所述功能图片集生成哈希序列；将所述哈希序列与预先生成的对应授信网站的功能图片集的哈希序列对比，判断相似度是否超过设定阈值，若是，则判定是仿冒网站，否则待进一步检测；其中，所述功能图片为网站基于美化需要设置的功能性图片。但是，该专利只针对某些授信网站进行基于图片识别的仿冒网站的检测，不能覆盖大多数的网站，提取的特征只是网页截图的特征。

中国专利文献CN107181730A公开了一种仿冒网站监测识别方法及系统，方法包括：S1、分别对被仿冒网站和待检测网站进行页面解析，得到解析后的被仿冒网页和待检测网页；S2、分别对解析后的被仿冒网页和待检测网页进行特征提取，得到被仿冒网页和待检测网页的网页特征；S3、计算被仿冒网页与待检测网页的网页特征的相似性，得到对应于网页特征中所有特征的所有计算结果；S4、对所有计算结果进行集成汇总，得到集成汇总结果；S5、将集成汇总结果与预设阈值进行比较，如果集成汇总结果大于预设阈值，则待检测网站为仿冒网站。但是，在该专利中，对于仿冒网站中使用图片代替文本，网页结构发生变化时等类型的网站判断效果不优，并且该专利需要被仿冒网站与待检测网站进行对比，如果只有待检测网站，该专利可能就无法进行正确的检测。

针对被黑网站，虽然仿冒网站、钓鱼网站与被黑网站极其相似，仿冒网站与钓鱼网站原始网页与仿冒网页内容相似性极高，但是被黑网站原始网页与被黑网页的相似性很低，并且被黑网页结构简单，内容也比较突出鲜明。

发明内容

针对现有技术的不足，为了预防用户被这些被黑网站影响生活，避免被被黑网站勒索，可以正常浏览网站，本发明提供了一种被黑网站检测方法；本发明还提供了一种被黑网站检测系统。

本发明开发了一种被黑网站检测的系统。由于被黑网站时效性强，更新快，数据的获取及采集不是十分容易，为了获取到数据，设计了一个实时网页下载模块，下载被黑和原网页的URL、网页和完整网页截图。通过提取网页的文本、结构和图片纹理特征，结合决策树、综合决策查询和匈牙利算法实现对网站的即时检测，即时反馈信息，检测网站是否被黑，网站内容是否被篡改，从而提升网站的安全防护能力和网络舆论的正确导向。

篡改检测技术的基础是网页变更检测，不能将所有的网页变更都看成是篡改，因此本发明检测的范围主要是支持对页面布局的篡改、内容篡改以及图片篡改等进行告警，不可检测的范围是对网站的计数的变化、验证码的变化，这些不被看作是篡改。针对这三类篡改，使用了两种方法进行检测，一种是启发式检测，利用网页的结构、文本和url特征，构建决策树模型实现被黑网站的检测；另一种方法是采用了网页关键字和ICP的综合决策查询以及网页logo和增信图标相似度比对两种方法的线性加权融合，通过线性融合后的相似度与阈值的比对结果来判断此网站是否是被黑网站。用户个人网站、政府网站以及公司网站等等就可以即时维护，正常使用。

术语解释：

emd距离，Earth Mover’s Distance，一种距离度量的定义、可以用来测量某两个分布之间的距离。

本发明的技术方案为：

一种被黑网站检测方法，包括步骤如下：

(1)获取正常网页和被黑网页的URL、完整网页和完整网页的截图，正常网页的URL、完整网页和完整网页的截图即白名单数据集；被黑网页的URL、完整网页和完整网页的截图即黑名单数据集；

(2)对步骤(1)获取的数据进行数据清洗，包括网页去重和缺失处理；

(3)从步骤(2)处理后的数据中，提取网页的文本、结构和图片纹理特征，构造相应的特征库，分别从特征库中抽取出文本检测、图片检测、启发式检测所需的数据特征；

抽取出文本检测所需的数据：从文本特征库中抽取出每个网页的title、ICP以及正文关键字keyword，并构建文本检测的索引库，进入步骤(4)；

抽取出图片检测所需的数据：抽取出每个网页的以下6个特征，包括子图像重心距离比、子图像重心相对整幅完整网页的截图顶点的夹角、子图的信息熵、子图的偏心率、子图的圆形性、子图的Hu矩；

完整网页经过切割后形成的子图，子图像重心距离比是指：子图与整幅图像重心间距离与整幅图像对角线长度的比值；

子图像重心相对整幅完整网页的截图顶点的夹角是指：子图的重心(x，y)和整幅完整网页的截图顶点连成的直线与Y轴的夹角；其中的坐标表示从网页截图的左上角为原点，水平向左为X轴，竖直向下为Y轴的坐标；整幅完整网页的截图顶点即原点；

子图的信息熵，将一幅图像像素的概率分布表示为该图像的信息熵，以此来反映不同图像的特征；

子图的偏心率，在一定程度上描述了图像区域的紧凑性，不受图像区域平移，旋转和尺寸变化的影响；

子图的圆形性是指：子图重心到边界集合距离的平均值；

子图的Hu矩包括子图像的二阶、三阶中心矩；

进入步骤(5)；

抽取出启发式检测所需的数据：抽取出每个网页的以下15个特征，包括URL中是否含有IP、URL中是否含有@，？，-，—，～、判断URL中.的个数、URL总长度、URL的最长的数字串长度、判断URL中是否包含敏感词汇、判断URL的路径中是否包含敏感词汇、div数量、网页中的链接总数、内链个数、外链个数、空链个数、form中get/post方法的特征、form的Action特征和form的INPUT特征，建立启发式检测的本地特征库；进入步骤(7)；

所述敏感词汇，例如"account","admin","administrator","auth","bank","client","confirm","email","host","password","pay","private","safe","secure","security","sign","user","validation","verification","icbc"；

form中get/post方法的特征：网页中如果存在GET方法返回1，否则全是POST方法返回0；

form的Action特征：post方法的Action特征，post是将用户输入的值提交到指定服务器，在此判断提交服务器的域名是否与当前页面域名一致；

form的INPUT特征：提取input标签中name，id，placeholder的值，判断其是否为敏感词汇，如email，password；

(4)查询文本检测的索引库，返回相似URL及两个网页的相似度值S₁；相似度值S₁是用来表示关键字(title和正文)分词后与另外一个网页的关键字有多少是匹配的；

(5)从整个网页截图的部分子图(logo和增信图标)的6个特征，加上子图的位置大小信息包括子图距网页左边沿的距离、子图距网页上边沿的距离、子图的高、子图的宽，以及图片类型一共11个特征构成特征向量，采用匈牙利算法计算两个图片之间的emd距离并转化成相似性S₂；相似性S₂是指图片的向量表示形式之间的相似性；

(6)将步骤(4)得到的两个网页的相似度值S₁和步骤(5)得到的两个图片的相似性S₂进行线性融合(线性加权)得到相似度值S，如果S≥T，则说明网页没有被黑，标记为0，否则网页被黑了，标记为1，距离过滤阈值T∈[0.3，0.6]；

(7)提取网页的15维启发式特征，针对正常的网页和被黑网页，使用决策树算法实现被黑网页的检测，若预测结果是0，表示正常；预测结果是1，表示被黑；

(8)统计(6)和(7)的预测结果，如果两个步骤的预测结果至少有一个为1，则表示网页被黑，否则网页正常，并将预测的结果通过界面呈现。

根据本发明优选的，所述步骤(4)，查询文本检测的索引库，返回相似URL及两个网页的相似度值S₁；包括：

A、通过每个网页的title、正文关键字keyword的分词、ICP，查询指定索引，指定索引是指每个数据项(网页的文本特征)构造的一个索引项，返回查询匹配的结果；

B、将待检测的网页的title、正文关键字keyword进行分词，处理得到关键字，以及ICP，与已经构建的黑名单数据集和白名单数据集中的文本特征库进行匹配，通过关键字查询文本特征库中对应网页的匹配程度，输出的是相似度最大的网页的URL和相似性值S₁。

根据本发明优选的，所述步骤(6)，线性融合求取公式为：

S＝α×S₁+(1-α)×S₂ (I)

式(I)中，α∈[0,1]。

根据本发明优选的，所述步骤(7)，包括：

a、对于待检测的网页提取网页的15维特征，判断训练好的决策树模型是否已经存在；如果存在，进入步骤b；如果不存在，进入步骤c；

b、直接使用该决策树模型预测待检测网页是否被黑，如果预测结果是0，表示正常；预测结果是1，表示被黑；

c、使用爬虫程序爬取的全部正常和被黑的网页作为数据集，提取每个网页的15维启发式特征，使用其中2/3作为训练数据，其余的作为预测数据来训练决策树模型，并作出预测评估，然后将训练好的决策树模型预测待检测的网页是否被黑，若预测结果是0，表示正常；预测结果是1，表示被黑。

一种被黑网站检测系统，包括依次连接的数据采集模块、数据预处理模块、被黑网站检测模块、结果展示模块；所述被黑网站检测模块包括文本检测模块、图片检测模块、启发式检测模块；

所述数据采集模块用于获取正常网页和被黑网页的URL、完整网页和完整网页的截图；

所述数据预处理模块用于对所述数据采集模块采集的数据进行数据清洗，包括网页去重和缺失处理；还用于提取网页的文本、结构和图片纹理特征，构造相应的特征库，分别从特征库中抽取出文本检测、图片检测、启发式检测所需的数据特征，针对文本检测建立索引库；

所述文本检测模块用于：查询文本检测的索引库，返回相似URL及两个网页的相似度值S₁；

所述图片检测模块用于：将图片检测所需的数据特征构成特征向量，采用匈牙利算法计算两个图片之间的emd距离并转化成相似性S₂；

将两个网页的相似度值S₁和两个图片的相似性S₂进行线性融合，得到相似度值S，如果S≥T，则说明网页没有被黑，标记为0，否则网页被黑了，标记为1，距离过滤阈值T∈[0.3，0.6]；

所述启发式检测模块用于：提取启发式检测所需的数据特征，针对正常的网页和被黑网页，使用决策树算法实现被黑网页的检测，若预测结果是0，表示正常；预测结果是1，表示被黑；

如果所述文本检测模块和图片检测模块线性融合的检测结果、所述启发式检测模块的检测结果中至少有一个为1，则表示网页被黑，否则网页正常，并将预测的结果通过所述结果展示模块呈现。

本发明的有益效果为：

1、本发明对互联网中被黑网站的文本内容和图片进行分析，采取两种方式进行检测，一种是启发式检测，另一种是文本检测和图片检测线性加权融合来得到相似度值，从而根据阈值进行判断，两种方式同时进行检测，精确度更高，可以及时发现互联网中一些恶意网页或被黑网页，对其进行实时维护。

2、本发明不仅针对被黑网站(含有原始被黑之前的网站)检测进行文本检测和图片检测的线性加权后进行检测，还针对只有被黑网站(不含有原始被黑之前的网站)进行启发式检测，而且此专利提取的特征是网页的文本特征、结构特征、网页截图纹理特征以及位置特征和网页URL特征。

附图说明

图1为本发明被黑网站检测系统的结构框图；

图2为本发明被黑网站检测方法的流程示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种被黑网站检测方法，如图2所示，包括步骤如下：

(1)从数据源中获取正常网页和被黑网页的URL、完整网页和完整网页的截图，正常网页的URL、完整网页和完整网页的截图即白名单数据集；被黑网页的URL、完整网页和完整网页的截图即黑名单数据集；

子图的圆形性是指子图重心到边界集合距离的平均值；

子图的Hu矩包括子图像的二阶、三阶中心矩；

进入步骤(5)；

(4)查询文本检测的索引库，返回相似URL及两个网页的相似度值S₁；相似度值S₁是用来表示关键字(title和正文)分词后与另外一个网页的关键字有多少是匹配的；包括：

(6)将步骤(4)得到的两个网页的相似度值S₁和步骤(5)得到的两个图片的相似性S₂进行线性融合(线性加权)得到相似度值S，如果S≥T，则说明网页没有被黑，标记为0，否则网页被黑了，标记为1，距离过滤阈值T∈[0.3，0.6]；，线性融合求取公式为：

S＝α×S₁+(1-α)×S₂ (I)

式(I)中，α∈[0,1]。

(7)提取网页的15维启发式特征，针对正常的网页和被黑网页，使用决策树算法实现被黑网页的检测，若预测结果是0，表示正常；预测结果是1，表示被黑；包括：

实施例2

根据实施例1所述的一种被黑网站检测方法，包括步骤如下：

(1)实验数据是通过网页下载模块，从数据源中下载的40000个正常样本和5000个被黑样本。

(2)对步骤(1)获取的数据进行数据清洗，包括网页去重和缺失处理；本实施例中，经过数据清洗后，网页有36000个正常网页和4700个被黑网页，将36000个正常样本的网页存储在本地数据库normal文件夹下，将4700个被黑网页存储在本地数据库下hacked文件夹下。然后抽取所有网页的文本、结构、图片纹理和URL特征，构造所有网页的特征库。

(3)输入www.icbc.com被黑后的URL和html，根据特征库中的文本特征：ICP、title关键字、正文关键字三个特征文件分别建立倒排索引，通过特征值查询指定索引，返回查询匹配的结果，结果是S₁＝0.035。

(4)输入www.icbc.com被黑后的网页完整截图和原始正常网页的截图，根据网页视觉分块后的效果，切取获得子图，并提取每个子图的图片位置及大小信息然后根据子图的位置、大小和子图的图片信息，使用SVM分类算法，来确定子图的类型(logo、增信图标和其他子图)；提取6维子图特征(子图像重心距离比、子图像重心相对整幅完整网页的截图顶点的夹角、子图的信息熵、子图的偏心率、子图的圆形性、子图的Hu矩)，加上图片类型和子图的位置大小信息(前4维)，总共11维特征，采用匈牙利算法计算两个图片之间的emd距离并转化成相似性S₂＝0.01。

(5)将步骤(3)、步骤(4)得到的相似度值进行线性加权融合：S＝α×S₁+(1-α)×S₂，其中的α＝0.6，S＝0.0214<T，显示1，表示网页被黑。

(6)输入www.icbc.com和html，根据步骤(2)构建的特征库，提取该网页的15维特征，同时，将36000个正常网页和4700个被黑网页数据的2/3作为训练数据，训练决策树模型，剩下的1/3作为测试数据；当模型训练好后，将输入网页的15维特征作为模型的输入，输出的预测结果为1，证明是被黑网站。调用决策树算法，在实现时使用Python的机器学习库scikit-learn中的函数DecisionTreeClassifier()，并设置关键参数，min_samples_split＝20,random_state＝99；调用fit()方法训练模型。

(7)步骤(5)、步骤(6)的预测结果都为1，表示网页被黑，将最后的结果通过界面呈现。

事实证明，该网站就是被黑网站，与本实施例检测结果一致，本发明采取两种方式检测，根据阈值判断，检测结果精确度更高。

实施例3

一种被黑网站检测系统，如图1所示，包括依次连接的数据采集模块、数据预处理模块、被黑网站检测模块、结果展示模块；被黑网站检测模块包括文本检测模块、图片检测模块、启发式检测模块；

数据采集模块用于获取正常网页和被黑网页的URL、完整网页和完整网页的截图；

数据预处理模块用于对数据采集模块采集的数据进行数据清洗，包括网页去重和缺失处理；还用于提取网页的文本、结构和图片纹理特征，构造相应的特征库，分别从特征库中抽取出文本检测、图片检测、启发式检测所需的数据特征，针对文本检测建立索引库；

文本检测模块用于：查询文本检测的索引库，返回相似URL及两个网页的相似度值S₁；

图片检测模块用于：将图片检测所需的数据特征构成特征向量，采用匈牙利算法计算两个图片之间的emd距离并转化成相似性S₂；

启发式检测模块用于：提取启发式检测所需的数据特征，针对正常的网页和被黑网页，使用决策树算法实现被黑网页的检测，若预测结果是0，表示正常；预测结果是1，表示被黑；

如果所述文本检测模块和图片检测模块线性融合的检测结果、所述启发式检测模块的检测结果中至少有一个为1，则表示网页被黑，否则网页正常，并将预测的结果通过结果展示模块呈现。

Claims

1.一种被黑网站检测方法，其特征在于，包括步骤如下：

抽取出图片检测所需的数据：抽取出每个网页的以下6个特征：子图像重心距离比、子图像重心相对整幅完整网页的截图顶点的夹角、子图的信息熵、子图的偏心率、子图的圆形性、子图的Hu矩；

子图的圆形性是指：子图重心到边界集合距离的平均值；

子图的Hu矩包括子图像的二阶、三阶中心矩；

进入步骤(5)；

抽取出启发式检测所需的数据：抽取出每个网页的以下15个特征：URL中是否含有IP、URL中是否含有@，？，-，—，～、判断URL中.的个数、URL总长度、URL的最长的数字串长度、判断URL中是否包含敏感词汇、判断URL的路径中是否包含敏感词汇、div数量、网页中的链接总数、内链个数、外链个数、空链个数、form中get/post方法的特征、form的Action特征和form的INPUT特征，建立启发式检测的本地特征库；进入步骤(7)；

(4)查询文本检测的索引库，返回相似URL及两个网页的相似度值S₁；

(5)从整个网页截图的部分子图的6个特征，加上子图的位置大小信息包括子图距网页左边沿的距离、子图距网页上边沿的距离、子图的高、子图的宽，以及图片类型一共11个特征构成特征向量，采用匈牙利算法计算两个图片之间的emd距离并转化成相似性S₂；

(6)将步骤(4)得到的两个网页的相似度值S₁和步骤(5)得到的两个图片的相似性S₂进行线性融合得到相似度值S，如果S≥T，则说明网页没有被黑，标记为0，否则网页被黑了，标记为1，距离过滤阈值T∈[0.3，0.6]；

2.根据权利要求1所述的一种被黑网站检测方法，其特征在于，所述步骤(4)，查询文本检测的索引库，返回相似URL及两个网页的相似度值S₁；包括：

A、通过每个网页的title、正文关键字keyword的分词、ICP，查询指定索引，返回查询匹配的结果；

3.根据权利要求1所述的一种被黑网站检测方法，其特征在于，所述步骤(6)，线性融合求取公式为：

S＝α×S₁+(1-α)×S₂ (I)

式(I)中，α∈[0,1]。

4.根据权利要求1-3任一所述的一种被黑网站检测方法，其特征在于，所述步骤(7)，包括：

5.一种被黑网站检测系统，其特征在于，包括依次连接的数据采集模块、数据预处理模块、被黑网站检测模块、结果展示模块；所述被黑网站检测模块包括文本检测模块、图片检测模块、启发式检测模块；