CN112347244A

CN112347244A - 基于混合特征分析的涉黄、涉赌网站检测方法

Info

Publication number: CN112347244A
Application number: CN201910727964.9A
Authority: CN
Inventors: 刘亮; 陈扬; 郑荣锋
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2021-02-09
Anticipated expiration: 2039-08-08
Also published as: CN112347244B

Abstract

本发明涉及一种基于混合特征的涉黄、涉赌网站检测方法。该方法包括以下步骤：对网络数据流量进行采集，对数据包进行解析后获取网站域名地址；根据域名地址获取对应网站的完整源码和首页长截图；使用基于关键词匹配的方法对网站域名进行过滤，然后人工标注网站类别（主要包括涉赌、涉黄网站和正常网站）；分别使用word2vec和BoVW提取网站的文本特征和图像特征，然后训练联合分类器模型；并使用训练好的联合分类器对待检测的网站进行分类，检测该网站是否为涉赌网站或涉黄网站。本发明通过结合图像和文本特征并且使用联合分类器进行网站分类，能够实现更加精准的网站检测，最大限度地提高涉黄、涉赌网站的自动化识别能力。

Description

基于混合特征分析的涉黄、涉赌网站检测方法

技术领域

本发明涉及一种基于混合特征分析的涉黄、涉赌网站检测方法，属于计算机网络技术领域。

背景技术

随着互联网的迅速发展，越来越多的人从网站上获取、共享、交换信息。然而，互联网上的信息不仅包含了人们需要的有用知识，而且还迅速增加了令人反感的暴力、色情、赌博等有害或非法信息，给广大网民尤其是青少年的身心带来了极大的危害。因此，对涉赌网站和涉黄网站的检测对于构建健康的网络环境具有重要现实意义。

随着机器学习的不断发展，机器学习技术被应用于对非法网站进行检测。目前基于机器学习的网站分类方法可分为基于文本内容的方法、基于URL的方法和基于视觉特征的方法。基于文本内容的方法是最常见的，文本内容是网页的主要组成部分内容较丰富也容易获取，但是由于网站的日益复杂和庞大使得基于文本内容的检测容易受到“维数诅咒”。并且一些不良网站在文本内容上呈现出积极向上的内容来躲避基于文本的检测。基于URL特征的检测方法能够得到满意的结果，但是由于恶意网站具有URL变化速度快且不规律的特点，导致URL的模式需要同时进行调整。相对于前面两种方法，基于视觉特征的方法的研究相对较少，主要集中在钓鱼网站的检测上，并且基于视觉特征的分类容易受到训练集样本质量、模型的泛化能力影响导致识别率较低。

发明内容

针对现有的网站检测方法存在的问题，本发明的目的在于提供一种基于混合特征分析的涉黄、涉赌网站检测方法，通过综合分析网站的图像、文本特征，并且使用联合分类器模型对网站进行分类以提高涉赌网站、涉黄网站的检测准确率。

本发明的技术方案为：

一种基于混合特征分析的涉黄、涉赌网站检测方法，包括有以下步骤：

（1）从出口路由的镜像中采集到用户与网站之间交互的网络数据流量，使用协议分析工具对数据包进行解析，从而获取网站域名地址，构建网站域名地址库；

（2）对于网站域名地址，使用Selenium库中的WebDriver利用浏览器访问网站，获取加载完JavaScript代码的网站的源码和截图；

（3）对步骤（1）中获得的域名库使用基于关键词匹配的网站域名过滤，筛选出疑似涉赌网站、涉黄网站和正常网站的域名。然后人工核对这些网站并标注真正的涉赌网站、涉黄网站和正常网站（包括完整源码和首页截图）；

（4）对网站源码进行预处理，并使用word2vec提取网站的文本特征，使用TF-IDF对得到的文本特征向量进行加权，得到新的文本特征向量（100维）；

（5）针对网站首页截图，使用BoVW提取截图的图像特征，然后使用PCA进行特征降维，得到网站的图像特征向量（500维）；

（6）将训练集中网站的文本特征和图像特征结合在一起构建三种综合特征向量，训练联合分类器模型（包含支持向量机模型、决策树模型和朴素贝叶斯模型）；

其中将文本特征向量（100维）和图像特征向量（前250维）首尾相接作为综合特征向量（350维）分别放入决策树中进行训练得到决策树模型。将文本特征向量（100维）和图像特征向量（后250维）作为综合特征向量（350维）首尾相接放入朴素贝叶斯中进行训练得到朴素贝叶斯模型。将文本特征向量（100维）和图像特征向量（500维）首尾相接作为综合特征向量（600维）放到SVM中得到SVM模型；

（7）将网站的测试数据集按照（6）中的步骤得到综合特征向量，然后输入到训练得到的三种模型中，进行类别的预测。网站最后的类别由投票机制产生，选取票数多的类别作为网站最终的类别。

本发明的一种基于混合特征分析的涉黄、涉赌网站检测方法的有益效果是：

（1）通过使用Selenium库中WebDriver提供的相应的接口函数通过采用时间延迟方式，模仿鼠标操作实现自动滚动网站页面到底部，从而获得对应最终目标网站的完整长截图和网站源码。通过动态加载JavaScrip代码以及设置时间延迟，避免涉黄、涉赌网站采用重定向或者将不良内容隐藏在JavaScrip脚本里来躲避检测。并且与直接用截图工具对网站进行简单的窗口截图相比，该步骤能够保留网站的完整视觉画面，考虑全面的网站视觉特征；

（2）在使用word2vec提取网站文本特征时，使用TF-IDF对文本特征向量进行加权，这样做不仅可以准确地描述单词的语义，而且可以正确表达不同单词的重要性。在使用BoVW提取网站图像特征时，在对SIFT特征点进行聚类之前，先使用PCA进行降维，剔除对图像匹配贡献不大的特征点的同时缩短了聚类和构建图像特征向量的时间；

（3）与采用单一分类器进行网站分类相比，本发明在采用了联合分类器进行网站分类，通过采用三种不同的分类器进行综合分析的基础上使用投票机制具有准确率高、识别率高的优点。

附图说明

为本发明的附图说明如下：

图1为本发明提供的基于混合特征分析的涉黄、涉赌网站检测方法的总体流程图；

图2为本发明提供的基于关键词匹配的网站域名过滤流程图；

图3为本发明提供的网站样本的文本特征提取流程图

图4为本发明提供的网站样本的图像特征提取流程图。

具体实施方式

下面结合附图对本发明的具体实施方法进行进一步详细描述。

一种基于混合特征分析的涉黄、涉赌网站检测方法，如图1所示，包括步骤如下：

（1）从出口路由的镜像中采集到用户与网站之间交互的网络数据流量，通过相应的协议分析工具对数据包进行解析，从而获取所述数据包中的网站域名地址，构建网站域名地址库。

（2）针对（1）中得到的网站域名地址使用Selenium库中的WebDriver获取加载完JavaScript代码后网站的源码和截图。

考虑到在利用浏览器访问页面时，往往只能获得页面的源码，而无法获得JS动态加载的信息，并且一些违法网站有时会采取页面跳转的方式规避检测，也就是说用户最终访问到的网站的URL与初始点击的URL并不相同；并且在对网页截图时，往往仅能截取到初始URL对应的网页截图，而无法正确获得目标网站的网页截图。所以本发明针对步骤（1）中获得的域名数据库中的每一个域名，通过使用Selenium库中的WebDriver调用Chrome浏览器实现动态渲染网站页面，可以获取加载完JavaScript代码之后的完整网站源码。使用WebDriver提供了相应的接口函数采用时间延迟能够在实现网页的自动滚动之后获得对应最终目标网站的完整长截图。

（3）然后对收集到网站域名进行基于关键词匹配的域名过滤，获得疑似涉赌、涉黄网站和正常网站的域名地址。然后人工筛查疑似涉赌、涉黄网站、正常网站以后对得到的真正的涉赌、涉黄网站、正常网站域名数据集（包括网站完整源码和首页截图）进行类别标注。并且从数据集中选出1050个涉赌网站、1300个涉黄网网站、3500个正常网站作为实验数据集（其中80%作为训练样本，20%作为测试样本）。

其中基于关键词匹配的网站域名过滤的流程图如2所示，首先通过大量的访问涉赌、涉黄网站的相关内容，基于经验积累形成涉赌网站、涉黄网站的关键字，并根据关键字对于网站的不同重要程度（出现的次数多少、敏感程度）赋予关键字不同的权重，从而形成涉赌网站、涉黄网站的关键字权重列表。对于（1）中得到的网站域名，分别将涉赌网站、涉黄网站的关键字应用到它的网站源码里进行关键词的硬匹配。然后将计算得到的网站关键字总权值与事先设置的涉赌和涉黄网站的关键字权重阈值进行比较，如果大于赌博网站或者涉黄网站对应的阈值，则认为该网站疑似涉赌网站或者涉黄网站；否则，则认为其疑似正常网站。

（4）提取网站样本的文本特征，得到网站源码的文本特征向量。网站样本的文本特征提取流程图如图3所示，具体分为以下6个步骤：

①首先对得到的每个类别下的网站源码进行预处理，获得去标签、分词、去停用词之后的文本内容。

首先去除网页源码中所有的标签，只留下文本内容，使用NLPIR-ICTCLAS2016分词系统对去除标签后的文本内容进行中文分词和词性标注。引入现有的停用词表结合词性分析，对分词后的文本内容进行过滤从而得到预处理后的词汇集合。此处的过滤操作主要是删除分词后的文本内容中的停用词、虚词（包括副词、介词、连词、助词）以及标点符号。

②采用TF-IDF计算出①中得到的词汇集合中每个词汇的TF-IDF值并进行归一化。其中，TF-IDF值越大，则意味着这个词成为一个关键词的概率就越大。

③训练word2vec模型，将来自收集的涉黄、涉赌网站样本和维基百科语料库（已经过预处理操作，包括分词、去停用词）作为训练模型的语料，得到word2vec词向量模型。在word2vec模型训练过程中使用的是skip-gram模型，训练窗口设置为6，采样阈值设置为1e^-4，生成一个100维的词向量。

word2vec使用了一个两层神经网络，word2vec将一个大型文本语料库作为其输入，经过训练生成一个向量空间，语料库中的每个单词都在这个空间中分配一个对应的向量。

④利用②中所述word2vec模型将上述①中的得到的训练语料中每一个样本的中的词转化为词向量，此处词向量表示为W=[W₁ ,W₂ ,…,W₁₀₀]。

⑤使用TF-IDF值对原始词向量进行加权。将④中得到的词对应的词向量W=[W₁ ,W₂,…,W₁₀₀]乘以该词在②中的得到的TF-IDF值β，得到新的词向量W’=[βW₁ , βW₂ ,…, βW₁₀₀]。这样做不仅可以准确地描述单词的语义，而且可以正确表达不同单词的重要性。

⑥对网站样本中词汇集合的经过步骤⑤得到的词向量进行求和，然后除以词向量数量做平均化处理得到相应网站的文档向量。

（5）提取网站样本的图像特征，得到网站截图的图像特征向量，如图4所示，所述步骤包括：

①使用SFIT算法提取网站截图样本的SFIT特征点。针对网站样本数据集中的每个网站的截图按照一定的大小分割为若干个图像块，再对这些图像块进行SFIT特征提取，每个图像块对应一个128维的SFIT特征向量。然后对得到的SFIT特征向量进行PCA降维，剔除对图像匹配贡献不大的特征点。

提取特征点的目的是应用一系列平滑和重采样图像的变换函数从尺度空间中找出最大和最小点，然后丢弃低对比度候选点和沿边缘的边缘响应点，从而留下局部不变的特征点。SFIT算法提取的SFIT描述子对图像尺度变换、旋转、亮度变化等保持不变性，对视角变化、仿射变换也保持一定的稳定性。

②利用K-means算法构建视觉词典。由于①中提取出的SIFT特征向量的数据量过大，容易造成计算时间过长。所以采用K-means聚类算法对所有关键点特征进行聚类。本实例中设置500个聚类中心，聚类后使用这500个聚类中心作为视觉词汇，所有视觉词汇构成视觉词典，此时视觉词典中包含500个视觉词汇。

③计算每一幅图像中的SIFT特征点与视觉词典中词汇的欧氏距离，将SFIT特征点映射为距其最近的聚类中心（视觉单词）。

④然后通过统计视觉词汇的词频，构建视觉词汇直方图，所得的视觉词汇直方图作为整幅图像的全局视觉特征向量。即最后可以将整个图像表示为一个500维的特征向量。

（6）将网站的文本特征和图像特征结合在一起作为该网站的综合特征，训练联合分类器模型（包括决策树模型、朴素贝叶斯模型和支持向量机模型）。

其中将文本特征向量（100维）和图像特征向量（前250维）首尾相接作为综合特征向量（350维）分别放入决策树中进行训练得到决策树模型。将文本特征向量（100维）和图像特征向量（后250维）作为综合特征向量（350维）首尾相接放入朴素贝叶斯中进行训练得到朴素贝叶斯模型。将文本特征向量（100维）和图像特征向量（500维）首尾相接作为综合特征向量（600维）放到支持向量机中得到支持向量机模型。

（7）将网站的测试数据集（包含文本特征和图像特征）按照（6）中的步骤得到综合特征向量输入到训练得到的三种模型中，进行类别的预测。网站最后的类别由投票机制产生，票数多的类别最为网站最终的类别。

Claims

1.一种基于混合特征分析的涉黄、涉赌网站检测方法，其特征在于，包括以下步骤：

A、从出口路由的镜像中采集到用户与网站之间交互的网络数据流量，使用协议分析工具对数据包进行解析，从而获取网站域名地址；

B、对于网站域名地址，使用Selenium库中的WebDriver利用浏览器访问网站，获取加载完JavaScript代码的网站的源码和截图；

C、用于对数据采集模块获得的域名集使用基于关键词匹配的网站域名过滤，筛选出疑似涉赌网站、涉黄网站和正常网站的域名，然后人工核对这些网站并标注真正的涉赌网站、涉黄网站和正常网站（包括完整源码和首页截图）；

D、对网站源码进行预处理，并使用word2vec提取网站的文本特征，经加权处理后得到文本特征向量；

E、针对网站首页截图，使用BoVW和PCA提取网站截图的图像特征，得到图像特征向量；

F、将训练集中网站的文本特征向量和图像特征向量结合在一起形成三种综合特征向量，构建联合分类器模型（包含支持向量机模型、决策树模型和朴素贝叶斯模型）；

G、将网站的测试数据集按照步骤E得到的三种综合特征向量分别输入到训练得到的三种模型中，进行类别的预测，网站最后的类别由投票机制产生，选取票数多的类别作为网站最终的类别。

2.根据权利要求1所述的基于混合特征分析的涉黄、涉赌网站检测方法，其特征在于，所述的步骤B中获得网站的截图的方法为：

使用Selenium库中WebDriver提供的相应的接口函数通过采用时间延迟方式，模仿鼠标操作实现自动滚动网站页面到底部，从而获得对应最终目标网站的完整长截图。

3.根据权利要求1所述的基于混合特征分析的涉黄、涉赌网站检测方法，其特征在于，所述的步骤C中基于关键词匹配的网站域名过滤的步骤如下：

C1、首先通过大量的访问涉赌、涉黄网站的相关内容，基于经验积累涉赌网站、涉黄网站的关键字，并根据关键字对于网站的不同重要程度（出现的次数多少、敏感程度）赋予关键字不同的权重，从而形成涉赌网站、涉黄网站的关键字权重列表；

C2、然后对于C1中得到的网站域名将分别涉赌网站、涉黄网站的关键字应用到它的网站源码里进行关键词的硬匹配并进行加权计算，然后将计算得到的网站关键字总权值与事先设置的涉赌和涉黄网站的关键字权重阈值进行比较，如果大于涉赌网站或者涉黄网站对应的阈值，则认为该网站疑似涉赌网站或者涉黄网站；否则，则认为其疑似正常网站。

4.根据权利要求1所述的基于混合特征分析的涉黄、涉赌网站检测方法，其特征在于，所述的步骤D具体包括如下步骤：

D1、对网站样本集中的网站源码进行预处理操作得到样本的词汇集合，预处理操作包括去标签、分词、去停用词；

D2、采用TF-IDF计算出D1中得到的样本词汇集合中每个词汇的TF-IDF值并进行归一化；

D3、将来自收集的涉黄、涉赌网站样本和维基百科语料库（已经过预处理操作，包括分词、去停用词）训练word2vec模型，得到word2vec词向量模型；

D4、利用D3中所述word2vec模型将D1中的得到每一个样本的中的词汇转化为词向量，此处词向量表示为W= [W₁ ,W₂ ,…,W_n]；

D5、使用TF-IDF对原始词向量进行加权,将④中得到的词对应的词向量W= [W₁ ,W₂,…,W_n]乘以该词在D2中的得到的TF-IDF值β,得到新的词向量 W^’=[βW₁ , βW₂ ,…, βW_n]；

D6、对网站样本中词汇集合的经过步骤D5得到的词向量进行求和，然后除以词向量数量做平均化处理得到相应网站的文档向量。

5.根据权利要求1所述的基于混合特征分析的涉黄、涉赌网站检测方法，其特征在于，所述的步骤E具体包括如下步骤：

E1、使用SFIT算法提取涉赌网站、涉黄网站和正常网站截图样本的SFIT特征点，形成SFIT特征向量，然后使用PCA算法对SFIT特征向量进行降维，剔除对图像匹配贡献不大的特征点；

E2、所以采用K-means聚类算法对所有关键点特征进行聚类，将聚类中心作为视觉词汇构建视觉词典；

E3、计算每一幅图像中的SIFT特征点与视觉词典中词汇的欧氏距离，将SFIT特征点映射为距其最近的视觉词汇，并通过统计视觉词汇的词频，构建视觉词汇直方图，所得的视觉词汇直方图作为整幅图像的全局图像特征向量。

6.根据权利要求1所述的基于混合特征分析的涉黄、涉赌网站检测方法，其特征在于，所述的步骤F具体包括如下步骤：

F1、将训练集中网站的文本特征向量（100维）和图像特征向量（前250维）首尾相接作为综合特征向量（350维）分别放入决策树中进行训练得到决策树模型；

F2、将训练集中网站的文本特征向量（100维）和图像特征向量（后250维）作为综合特征向量（350维）首尾相接放入朴素贝叶斯中进行训练得到朴素贝叶斯模型；

F3、将训练集中网站的文本特征向量（100维）和图像特征向量（500维）首尾相接作为综合特征向量（600维）放到SVM中得到SVM模型；

F4、决策树模型、朴素贝叶斯模型和SVM模型构成所述的联合分类器模型。