CN107341183B - 一种基于暗网网站综合特征的网站分类方法 - Google Patents
一种基于暗网网站综合特征的网站分类方法 Download PDFInfo
- Publication number
- CN107341183B CN107341183B CN201710397901.2A CN201710397901A CN107341183B CN 107341183 B CN107341183 B CN 107341183B CN 201710397901 A CN201710397901 A CN 201710397901A CN 107341183 B CN107341183 B CN 107341183B
- Authority
- CN
- China
- Prior art keywords
- website
- label
- word
- space vector
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于暗网网站综合特征的网站分类方法。本方法为:1)爬取目标暗网网站,得到一带标注的暗网网站训练集合;2)提取该集合中每一网站信息进行分词,构建该网站的词的空间向量,并计算每一词的权重;将词与对应权重进行相乘后的空间向量作为网站的文本特征;3)提取该暗网网站训练集合中每一网站的标签,构建该网站的标签的空间向量,并计算每个标签的权重;将标签与对应权重相乘后的空间向量作为网站的结构特征;4)将每一网站的文本特征与结构特征结合得到该网站的综合特征;5)对各网站的综合特征进行训练,得到一分类模型;然后利用该分类模型对待分类网站进行预测,得到该待分类网站的类别。本发明提高了网站分类效率。
Description
技术领域
本发明属于网络数据分析领域,涉及一种基于暗网网站综合特征的网站分类方法。
背景技术
暗网(Darknet)是指使用非常规协议和端口以及可信节点进行连接的私有网络,暗网的数据传输是匿名进行的(维基百科)。当今典型的暗网技术有Tor、I2P、Freenet、OneSwam等。
暗网最大的特点是实现了匿名的数据传输来进行隐私保护,正是由于它的匿名性,暗网常常别用于传递各种敏感信息。比如,暗网上含有大量的极端主义,毒品,枪支交易等信息。同时,暗网也是各种黑客相关信息的聚集地,暗网中,存在很多黑客论坛,黑客市场,上面讨论、交易着安全漏洞、用户资料、攻击工具等黑客信息。
由于暗网的域名是一串无明显意义的字符串,如,某暗网网站的域名为http://sbh3znmgscj3yzgm.onion/,所以很难对暗网网站做统一管理。因此,对于暗网网站分类很有意义,有助于我们更好理解暗网网站,方便对暗网的查询、检索。
当前暗网分类多借助于人工维护,人工维护可以保证分类的准确性,但是随着暗网网站数量增加,人工维护的成本也会大大增加,难以适应用户对暗网网站分类的需求。
发明内容
本发明针对暗网特性,提出一种基于暗网网站综合特征的暗网网站分类算法,可以用于暗网网站的自动分类。基于本文方法对暗网网站分类后,可以构建如hao123等的暗网网站导航。将暗网网站分门别类,便于对各类的网站进行查询和检索。也便于对某一类的网站(如论坛)进行专门的监控,达到舆情监控的目的。
本发明的技术关键点在于:
1、利用Smote算法解决不同类别暗网网站数量分布不均衡;
2、不仅考虑网站的文本,同时考虑网站的结构特征,提高预测准确率;
3、采用线性模型(LR)、非线性模型(SVM)、集成学习模型(RF)分别训练,三种模型相差较大,因此可以学习到样本不同方面的特性,最后综合三种模型投票产生结果,预测准确率会更高。
本发明为了减少人工标注成本,本发明的标注通过爬取暗网中一些已经有的导航网站(已经有了类别的标注)加人工审核的方式进行。
传统的网站分类通常仅仅采用文本特征,本发明抽取了网站的文本特征和网站网页的结构特征,使分类效果更好。
暗网网站具有数量分布不均衡的特点,比如,商务类网站,如网上商店、服务售卖等网站的数量很多,而一些类别的网站,比如搜索引擎网站、wiki类型网站、社交网站等数量就要相对少很多。因此,从算法训练集会出现分布不均衡,本发明利用Smote算法(一种过抽样算法)来扩充样本数量不足的网站类型。
文本特征维度较高,高维度的特征本发明采用SVM(高斯核)进行分类,由于高斯核是一种非线性模型,因此本发明还使用了线性模型Logstic回归进行分类。除此之外,本发明采用CHI2(卡方值)对文本特征进行提取,产生低维度特征,低维度特征采用RandomForest进行分类。最后三个模型利用“投票”机制产生最后的分类结果。
本发明的具体方案如下:
1)爬取带标注的数据。选择一个暗网导航网站进行爬取,爬虫只爬取深度(首页的深度为0)小于等于2的页面。因为网站的顶层页面往往是网站的核心内容。对于鉴别网站类型更加有帮助,同时,这样也可以大大减少爬取的网站页面数。对于爬取的数据进行人工审核,剔除那些标注不正确的样本。
2)提取网站的文本特征。首先对网页去标签化,只剩文本信息,然后对文本信息进行分词,基于这些分词利用word-bag模型构建词的空间向量,计算词的TF-IDF值作为词的权重。对于网页中的带Keyword、Description、Title标签的词着重考虑,赋予更大的权重,记其权重系数为w1,其他词的权重系数为w2,则w1>w2,w1+w1=1。将乘以权重后的词的空间向量作为网站的文本特征。
3)提取网站的结构特征。首先提取网页中的所有标签,将每一个标签当做一个词,基于这些标签,利用word-bag模型构建标签的空间向量,计算每个tag(标签)的TF-IDF值作为每个tag的权重,将乘以权重后的标签的空间向量作为网站的结构特征。
4)对于样本不足的种类,使用Smote算法进行样本数量扩充。具体步骤为,将数量不足种类的所有样本的网站文本特征空间向量和网站的结构特征空间向量作为输入,利用Smote算法对向量进行扩充,扩充后,此类样本的空间向量数将会变多。扩充前,首先计算每种样本数量,若样本数量低于阈值,则使用Smote算法扩充样本数量。
5)将网站的文本特征和结构特征结合在一起作为该网站的综合特征,具体做法为,将文本特征向量和结构特征向量首尾相连形成新的向量(若文本特征向量有m维,结构特征向量有n维,结合后就有m+n维),放入SVM进行训练,得到SVM模型。将上述特征放入Logstic分类器进行训练,得到LR模型。利用CHI2(卡方)值对文本特征进行特征选择,产生低维特征,将低维特征和结构特征结合在一起放入Random Forest进行训练,得到RF模型。
6)最后的结果由投票机制产生,如果有两个类别的投票数相同,则通过分类器产生的置信概率(分类器的predict_proba方法可以得到每种类别的置信概率)判断,置信概率高的为最后的结果。
与现有技术相比,本发明的积极效果为:
1、算法不需大量的带标签的暗网网站训练样本。
2、可以自动的进行暗网网站分类,极大的降低了人工分类的成本。
3、具有较高的分类准确率。
附图说明
图1是暗网网站爬取的流程图;
图2是文本特征提取的流程图;
图3是暗网网站分类模型构建的流程图。
具体实施方式
下面结合附图对本发明进行进一步详细描述。
本发明的处理方法为:
第一步,爬取带标注的网站(如图1所示):
(一)用Scrapy对带标注的网站进行爬取,爬取时检查当前爬取深度,只爬取深度小于等于2的网页。
(二)人工审核标签,去除标注不正确的样本。
第二步:获取网站的综合特征(如图2所示):
(一)利用word-bag模型构建网站的词的空间向量模型,利用Python的scikit-learn库中的TFidfVectorizer类计算词的TF-IDF值。
(二)提取Keyword(html meta标签中的关键词)、Description(html meta标签中的网页描述信息)、Title(htm标题)标签中的词,其权重为0.6,其他词权重为0.4,基于第一步,计算乘以词权重后的词的空间向量,得到文本特征。
(三)提取网站的HTML标签,利用word-bag模型构建网站的标签的空间向量模型,用Python的scikit-learn库中的TFidfVectorizer类计算标签的TF-IDF值,将标签的空间向量作为结构特征。
(四)计算样本数量,若样本数量低于100,则使用Smote算法扩充样本数量至,100,若样本数量大于200,使用随机抽样让样本数量降至200。
第三步:构建分类模型(如图3所示)。
(一)将文本特征和结构特征使用SVM(kernel=’rbf’)训练得到SVM模型
(二)将文本特征和结构特征使用Logstic回归训练得到LR模型
(三)使用scikit-learn的SelectKbest函数,利用卡方计算对文本特征降维,降维后的特征和结构特征一起用Random Forest训练,得到RF模型。
(四)SVM,LR,RF投票产生结果。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者同等替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。
Claims (5)
1.一种基于暗网网站综合特征的网站分类方法,其步骤为:
1)爬取带标注的目标暗网网站或爬取目标暗网网站并标注,得到一带标注的暗网网站训练集合;利用Smote算法对带标注的暗网网站训练集合中不同类别暗网网站数量分布进行均衡:将数量不足种类的所有样本的网站文本特征空间向量和网站的结构特征空间向量作为输入,利用Smote算法对向量进行扩充;
2)提取该暗网网站训练集合中每一网站信息进行分词,构建该网站的词的空间向量,并计算每一词的TF-IDF值作为该词的权重;将词的空间向量中的词与对应权重进行相乘后的空间向量作为网站的文本特征;
3)提取该暗网网站训练集合中每一网站的标签,将每一个标签当做一个词,构建该网站的标签的空间向量,并计算每个标签的TF-IDF值作为该标签的权重;将标签的空间向量中的标签与对应权重相乘后的空间向量作为网站的结构特征;
4)将每一网站的文本特征与结构特征结合在一起,作为该网站的综合特征;
5)分别采用线性模型、非线性模型、集成学习模型训练各网站的综合特征,得到三个分类模型;然后利用该三个分类模型对待分类网站进行预测,然后综合得到的三个预测结果,确定该待分类网站的类别。
2.如权利要求1所述的方法,其特征在于,所述步骤2)中,如果分词为网站信息中的带Keyword、Description或Title标签的词,则进一步增大该分词的权重。
3.如权利要求1所述的方法,其特征在于,利用word-bag模型构建所述词的空间向量;利用word-bag模型构建所述标签的空间向量。
4.如权利要求1所述的方法,其特征在于,利用卡方值对网站的所述文本特征进行特征选择,降低所述文本特征的维数,然后与该网站的所述结构特征结合在一起,作为该网站的综合特征。
5.如权利要求1所述的方法,其特征在于,所述步骤1)中,爬取深度小于等于2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710397901.2A CN107341183B (zh) | 2017-05-31 | 2017-05-31 | 一种基于暗网网站综合特征的网站分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710397901.2A CN107341183B (zh) | 2017-05-31 | 2017-05-31 | 一种基于暗网网站综合特征的网站分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107341183A CN107341183A (zh) | 2017-11-10 |
CN107341183B true CN107341183B (zh) | 2021-06-22 |
Family
ID=60220386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710397901.2A Active CN107341183B (zh) | 2017-05-31 | 2017-05-31 | 一种基于暗网网站综合特征的网站分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107341183B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808000B (zh) * | 2017-11-13 | 2020-05-22 | 哈尔滨工业大学(威海) | 一种暗网数据采集与抽取系统及方法 |
CN108874943B (zh) * | 2018-06-04 | 2021-10-22 | 上海交通大学 | 一种基于长短期记忆神经网络的暗网资源探测系统 |
CN108874996B (zh) * | 2018-06-13 | 2021-08-24 | 北京知道创宇信息技术股份有限公司 | 网站分类方法及装置 |
CN109063117B (zh) * | 2018-07-31 | 2021-01-01 | 中南大学 | 一种基于特征抽取的网络安全博客分类方法及系统 |
CN112347244B (zh) * | 2019-08-08 | 2023-07-25 | 四川大学 | 基于混合特征分析的涉黄、涉赌网站检测方法 |
CN110781301A (zh) * | 2019-09-25 | 2020-02-11 | 中国科学院信息工程研究所 | 一种面向人物属性稀疏页面的人物信息抽取方法 |
CN110866170A (zh) * | 2019-10-18 | 2020-03-06 | 中国科学院信息工程研究所 | 基于站点质量的Tor暗网服务的重要性评估方法、搜索方法及系统 |
CN112527954A (zh) * | 2020-12-03 | 2021-03-19 | 武汉联影医疗科技有限公司 | 非结构化数据全文搜索方法、系统及计算机设备 |
CN112632974A (zh) * | 2021-01-13 | 2021-04-09 | 北京工业大学 | 一种加权的暗网资源危险评估分类方法及系统 |
CN113157998A (zh) * | 2021-02-28 | 2021-07-23 | 江苏匠算天诚信息科技有限公司 | 通过ip巡检网站、并判断网站类别的方法、系统、设备及介质 |
CN114625873A (zh) * | 2022-03-02 | 2022-06-14 | 四川大学 | 一种安全合规驱动的数据分类方法 |
CN115002045B (zh) * | 2022-07-19 | 2022-12-09 | 中国电子科技集团公司第三十研究所 | 一种基于孪生网络的暗网站点会话识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605794A (zh) * | 2013-12-05 | 2014-02-26 | 国家计算机网络与信息安全管理中心 | 一种网站分类方法 |
CN103744981A (zh) * | 2014-01-14 | 2014-04-23 | 南京汇吉递特网络科技有限公司 | 一种基于网站内容用于网站自动分类分析的系统 |
CN103838801A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网页主题信息抽取方法 |
CN104199836A (zh) * | 2014-08-04 | 2014-12-10 | 浙江工商大学 | 一种基于子兴趣划分的标注用户模型建构方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014018630A1 (en) * | 2012-07-24 | 2014-01-30 | Webroot Inc. | System and method to provide automatic classification of phishing sites |
CN103150369A (zh) * | 2013-03-07 | 2013-06-12 | 人民搜索网络股份公司 | 作弊网页识别方法及装置 |
CN103544210B (zh) * | 2013-09-02 | 2017-01-18 | 烟台中科网络技术研究所 | 一种识别网页类型的系统和方法 |
CN104102700A (zh) * | 2014-07-04 | 2014-10-15 | 华南理工大学 | 一种面向因特网不平衡应用流的分类方法 |
CN106600046A (zh) * | 2016-12-09 | 2017-04-26 | 东南大学 | 基于多分类器融合的土地闲置预测方法及装置 |
-
2017
- 2017-05-31 CN CN201710397901.2A patent/CN107341183B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838801A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网页主题信息抽取方法 |
CN103605794A (zh) * | 2013-12-05 | 2014-02-26 | 国家计算机网络与信息安全管理中心 | 一种网站分类方法 |
CN103744981A (zh) * | 2014-01-14 | 2014-04-23 | 南京汇吉递特网络科技有限公司 | 一种基于网站内容用于网站自动分类分析的系统 |
CN104199836A (zh) * | 2014-08-04 | 2014-12-10 | 浙江工商大学 | 一种基于子兴趣划分的标注用户模型建构方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107341183A (zh) | 2017-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107341183B (zh) | 一种基于暗网网站综合特征的网站分类方法 | |
CN103559235B (zh) | 一种在线社交网络恶意网页检测识别方法 | |
CN105488196B (zh) | 一种基于互联语料的热门话题自动挖掘系统 | |
WO2021025926A1 (en) | Digital content prioritization to accelerate hyper-targeting | |
CN102790762A (zh) | 基于url分类的钓鱼网站检测方法 | |
CN104615608A (zh) | 一种数据挖掘处理系统及方法 | |
CN103488465A (zh) | 功能配置推荐方法及系统 | |
CN110532480B (zh) | 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法 | |
CN112464666B (zh) | 一种基于暗网数据的未知网络威胁自动发现方法 | |
CN106021418A (zh) | 新闻事件的聚类方法及装置 | |
Li et al. | Phishing detection based on newly registered domains | |
CN103778122A (zh) | 搜索方法和系统 | |
US11182441B2 (en) | Hypotheses generation using searchable unstructured data corpus | |
Liu et al. | Multi-scale semantic deep fusion models for phishing website detection | |
CN103970800A (zh) | 网页相关关键词的抽取处理方法和系统 | |
Gopal et al. | Machine learning based classification of online news data for disaster management | |
CN112148956A (zh) | 一种基于机器学习的暗网威胁情报挖掘系统和方法 | |
CN107766229B (zh) | 一种利用蜕变测试评价商品搜索系统正确性的方法 | |
CN109194605B (zh) | 一种基于开源信息的可疑威胁指标主动验证方法和系统 | |
CN113569118A (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
Kasim | Automatic detection of phishing pages with event-based request processing, deep-hybrid feature extraction and light gradient boosted machine model | |
US10255246B1 (en) | Systems and methods for providing a searchable concept network | |
Yadav et al. | Multi-attribute identity resolution for online social network | |
Azeez et al. | Machine learning approach for identifying suspicious uniform resource locators (URLs) on Reddit social network | |
Liang et al. | Automatic rumors identification on Sina Weibo |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |