CN107341183B

CN107341183B - 一种基于暗网网站综合特征的网站分类方法

Info

Publication number: CN107341183B
Application number: CN201710397901.2A
Authority: CN
Inventors: 谭庆丰; 时金桥; 王学宾; 尹泽林; 李抗; 蒋晓明; 陈牧谦; 高悦
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2017-05-31
Filing date: 2017-05-31
Publication date: 2021-06-22
Anticipated expiration: 2037-05-31
Also published as: CN107341183A

Abstract

本发明公开了一种基于暗网网站综合特征的网站分类方法。本方法为：1)爬取目标暗网网站，得到一带标注的暗网网站训练集合；2)提取该集合中每一网站信息进行分词，构建该网站的词的空间向量，并计算每一词的权重；将词与对应权重进行相乘后的空间向量作为网站的文本特征；3)提取该暗网网站训练集合中每一网站的标签，构建该网站的标签的空间向量，并计算每个标签的权重；将标签与对应权重相乘后的空间向量作为网站的结构特征；4)将每一网站的文本特征与结构特征结合得到该网站的综合特征；5)对各网站的综合特征进行训练，得到一分类模型；然后利用该分类模型对待分类网站进行预测，得到该待分类网站的类别。本发明提高了网站分类效率。

Description

一种基于暗网网站综合特征的网站分类方法

技术领域

本发明属于网络数据分析领域，涉及一种基于暗网网站综合特征的网站分类方法。

背景技术

暗网(Darknet)是指使用非常规协议和端口以及可信节点进行连接的私有网络，暗网的数据传输是匿名进行的(维基百科)。当今典型的暗网技术有Tor、I2P、Freenet、OneSwam等。

暗网最大的特点是实现了匿名的数据传输来进行隐私保护，正是由于它的匿名性，暗网常常别用于传递各种敏感信息。比如，暗网上含有大量的极端主义，毒品，枪支交易等信息。同时，暗网也是各种黑客相关信息的聚集地，暗网中，存在很多黑客论坛，黑客市场，上面讨论、交易着安全漏洞、用户资料、攻击工具等黑客信息。

由于暗网的域名是一串无明显意义的字符串，如，某暗网网站的域名为http://sbh3znmgscj3yzgm.onion/，所以很难对暗网网站做统一管理。因此，对于暗网网站分类很有意义，有助于我们更好理解暗网网站，方便对暗网的查询、检索。

当前暗网分类多借助于人工维护，人工维护可以保证分类的准确性，但是随着暗网网站数量增加，人工维护的成本也会大大增加，难以适应用户对暗网网站分类的需求。

发明内容

本发明针对暗网特性，提出一种基于暗网网站综合特征的暗网网站分类算法，可以用于暗网网站的自动分类。基于本文方法对暗网网站分类后，可以构建如hao123等的暗网网站导航。将暗网网站分门别类，便于对各类的网站进行查询和检索。也便于对某一类的网站(如论坛)进行专门的监控，达到舆情监控的目的。

本发明的技术关键点在于：

1、利用Smote算法解决不同类别暗网网站数量分布不均衡；

2、不仅考虑网站的文本，同时考虑网站的结构特征，提高预测准确率；

3、采用线性模型(LR)、非线性模型(SVM)、集成学习模型(RF)分别训练，三种模型相差较大，因此可以学习到样本不同方面的特性，最后综合三种模型投票产生结果，预测准确率会更高。

本发明为了减少人工标注成本，本发明的标注通过爬取暗网中一些已经有的导航网站(已经有了类别的标注)加人工审核的方式进行。

传统的网站分类通常仅仅采用文本特征，本发明抽取了网站的文本特征和网站网页的结构特征，使分类效果更好。

暗网网站具有数量分布不均衡的特点，比如，商务类网站，如网上商店、服务售卖等网站的数量很多，而一些类别的网站，比如搜索引擎网站、wiki类型网站、社交网站等数量就要相对少很多。因此，从算法训练集会出现分布不均衡，本发明利用Smote算法(一种过抽样算法)来扩充样本数量不足的网站类型。

文本特征维度较高，高维度的特征本发明采用SVM(高斯核)进行分类，由于高斯核是一种非线性模型，因此本发明还使用了线性模型Logstic回归进行分类。除此之外，本发明采用CHI2(卡方值)对文本特征进行提取，产生低维度特征，低维度特征采用RandomForest进行分类。最后三个模型利用“投票”机制产生最后的分类结果。

本发明的具体方案如下：

1)爬取带标注的数据。选择一个暗网导航网站进行爬取，爬虫只爬取深度(首页的深度为0)小于等于2的页面。因为网站的顶层页面往往是网站的核心内容。对于鉴别网站类型更加有帮助，同时，这样也可以大大减少爬取的网站页面数。对于爬取的数据进行人工审核，剔除那些标注不正确的样本。

2)提取网站的文本特征。首先对网页去标签化，只剩文本信息，然后对文本信息进行分词，基于这些分词利用word-bag模型构建词的空间向量，计算词的TF-IDF值作为词的权重。对于网页中的带Keyword、Description、Title标签的词着重考虑，赋予更大的权重，记其权重系数为w1，其他词的权重系数为w2,则w1>w2,w1+w1＝1。将乘以权重后的词的空间向量作为网站的文本特征。

3)提取网站的结构特征。首先提取网页中的所有标签，将每一个标签当做一个词，基于这些标签，利用word-bag模型构建标签的空间向量，计算每个tag(标签)的TF-IDF值作为每个tag的权重，将乘以权重后的标签的空间向量作为网站的结构特征。

4)对于样本不足的种类，使用Smote算法进行样本数量扩充。具体步骤为，将数量不足种类的所有样本的网站文本特征空间向量和网站的结构特征空间向量作为输入，利用Smote算法对向量进行扩充，扩充后，此类样本的空间向量数将会变多。扩充前，首先计算每种样本数量，若样本数量低于阈值，则使用Smote算法扩充样本数量。

5)将网站的文本特征和结构特征结合在一起作为该网站的综合特征，具体做法为，将文本特征向量和结构特征向量首尾相连形成新的向量(若文本特征向量有m维，结构特征向量有n维，结合后就有m+n维)，放入SVM进行训练，得到SVM模型。将上述特征放入Logstic分类器进行训练，得到LR模型。利用CHI2(卡方)值对文本特征进行特征选择，产生低维特征，将低维特征和结构特征结合在一起放入Random Forest进行训练，得到RF模型。

6)最后的结果由投票机制产生，如果有两个类别的投票数相同，则通过分类器产生的置信概率(分类器的predict_proba方法可以得到每种类别的置信概率)判断，置信概率高的为最后的结果。

与现有技术相比，本发明的积极效果为：

1、算法不需大量的带标签的暗网网站训练样本。

2、可以自动的进行暗网网站分类，极大的降低了人工分类的成本。

3、具有较高的分类准确率。

附图说明

图1是暗网网站爬取的流程图；

图2是文本特征提取的流程图；

图3是暗网网站分类模型构建的流程图。

具体实施方式

下面结合附图对本发明进行进一步详细描述。

本发明的处理方法为：

第一步，爬取带标注的网站(如图1所示)：

(一)用Scrapy对带标注的网站进行爬取，爬取时检查当前爬取深度，只爬取深度小于等于2的网页。

(二)人工审核标签，去除标注不正确的样本。

第二步：获取网站的综合特征(如图2所示)：

(一)利用word-bag模型构建网站的词的空间向量模型，利用Python的scikit-learn库中的TFidfVectorizer类计算词的TF-IDF值。

(二)提取Keyword(html meta标签中的关键词)、Description(html meta标签中的网页描述信息)、Title(htm标题)标签中的词，其权重为0.6，其他词权重为0.4，基于第一步，计算乘以词权重后的词的空间向量，得到文本特征。

(三)提取网站的HTML标签，利用word-bag模型构建网站的标签的空间向量模型，用Python的scikit-learn库中的TFidfVectorizer类计算标签的TF-IDF值，将标签的空间向量作为结构特征。

(四)计算样本数量，若样本数量低于100，则使用Smote算法扩充样本数量至,100，若样本数量大于200，使用随机抽样让样本数量降至200。

第三步：构建分类模型(如图3所示)。

(一)将文本特征和结构特征使用SVM(kernel＝’rbf’)训练得到SVM模型

(二)将文本特征和结构特征使用Logstic回归训练得到LR模型

(三)使用scikit-learn的SelectKbest函数，利用卡方计算对文本特征降维，降维后的特征和结构特征一起用Random Forest训练，得到RF模型。

(四)SVM,LR,RF投票产生结果。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者同等替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于暗网网站综合特征的网站分类方法，其步骤为：

1)爬取带标注的目标暗网网站或爬取目标暗网网站并标注，得到一带标注的暗网网站训练集合；利用Smote算法对带标注的暗网网站训练集合中不同类别暗网网站数量分布进行均衡：将数量不足种类的所有样本的网站文本特征空间向量和网站的结构特征空间向量作为输入，利用Smote算法对向量进行扩充；

2)提取该暗网网站训练集合中每一网站信息进行分词，构建该网站的词的空间向量，并计算每一词的TF-IDF值作为该词的权重；将词的空间向量中的词与对应权重进行相乘后的空间向量作为网站的文本特征；

3)提取该暗网网站训练集合中每一网站的标签，将每一个标签当做一个词，构建该网站的标签的空间向量，并计算每个标签的TF-IDF值作为该标签的权重；将标签的空间向量中的标签与对应权重相乘后的空间向量作为网站的结构特征；

4)将每一网站的文本特征与结构特征结合在一起，作为该网站的综合特征；

5)分别采用线性模型、非线性模型、集成学习模型训练各网站的综合特征，得到三个分类模型；然后利用该三个分类模型对待分类网站进行预测，然后综合得到的三个预测结果，确定该待分类网站的类别。

2.如权利要求1所述的方法，其特征在于，所述步骤2)中，如果分词为网站信息中的带Keyword、Description或Title标签的词，则进一步增大该分词的权重。

3.如权利要求1所述的方法，其特征在于，利用word-bag模型构建所述词的空间向量；利用word-bag模型构建所述标签的空间向量。

4.如权利要求1所述的方法，其特征在于，利用卡方值对网站的所述文本特征进行特征选择，降低所述文本特征的维数，然后与该网站的所述结构特征结合在一起，作为该网站的综合特征。

5.如权利要求1所述的方法，其特征在于，所述步骤1)中，爬取深度小于等于2。