CN114357161A - 基于证书链构建和域名文本特征的赌博域名识别方法 - Google Patents
基于证书链构建和域名文本特征的赌博域名识别方法 Download PDFInfo
- Publication number
- CN114357161A CN114357161A CN202111577072.9A CN202111577072A CN114357161A CN 114357161 A CN114357161 A CN 114357161A CN 202111577072 A CN202111577072 A CN 202111577072A CN 114357161 A CN114357161 A CN 114357161A
- Authority
- CN
- China
- Prior art keywords
- domain name
- gambling
- domain
- certificate chain
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000001613 Gambling Diseases 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000010276 construction Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 49
- 238000012795 verification Methods 0.000 claims abstract description 10
- 238000010801 machine learning Methods 0.000 claims abstract description 6
- 238000013135 deep learning Methods 0.000 claims abstract description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 241000282326 Felis catus Species 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 238000003786 synthesis reaction Methods 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于证书链构建和域名文本特征的赌博域名识别方法,其解决了在不对网页文本进行解析的情况下现有赌博域名识别准确率低的技术问题,其具体步骤包括:步骤一:构建证书链特征向量;步骤二:构建证书链验证特征向量;步骤三:基于域名黑名单和N‑gram构建特征向量;步骤四:构建基于域名本身的特征解析向量;步骤五:合成步骤一到步骤四特征向量并打标签;步骤六:构建深度学习和机器学习模型识别。本发明可广泛应用于赌博域名的识别。
Description
技术领域
本发明涉及计算机领域,特别是涉及一种基于证书链构建和域名文本特征的赌博域名识别方法。
背景技术
随着计算机技术的飞速发展,互联网走进了千家万户,但网络给人们带来信息和方便的同时,也带来了负面的信息。各种宣扬色情、暴力、赌博的不良内容充斥着网络,不仅严重污染着未成年人的心灵,也破坏了社会风气。数字证书实现了公钥基础设施中的公钥管理,能够有效的避免网络通信过程中的中间人攻击,很多中文赌博网站都会申请使用能够被浏览器误认为是良性证书的赌博数字证书,从而增加用户对中文赌博网站的信任度,并增强赌资流动的安全性。大部分赌博域名的识别方法都是基于域名网页文本内容的,而网页文本内容的获取和解析都是非常耗时的。除了基于域名网页文本内容的分类方法以外,还没有较好的赌博域名分类方法,导致赌博域名难于有效识别管理。
发明内容
本发明为了解决在不对网页文本进行解析的情况下现有赌博域名识别准确率低的技术问题,提供一种基于证书链构建和域名文本特征的赌博域名识别方法。
本发明提供一种基于证书链构建和域名文本特征的赌博域名识别方法,具体步骤包括:
步骤一:构建证书链特征向量;
步骤二:构建证书链验证特征向量;
步骤三:基于域名黑名单和N-gram构建特征向量;
步骤四:构建基于域名本身的特征解析向量;
步骤五:合成步骤一到步骤四特征向量并打标签;
步骤六:构建深度学习和机器学习模型识别。
优选地,所述步骤一具体方法:在证书数据库CCADB中进行搜索,找到根证书或者中间证书,完成证书链构造;获取中间证书的解析结果并分析证书链的长度,得到长度为5的特征向量。
优选地,所述步骤二具体方法:提取OpenSSL的结束证书的验证标志,构建了长度为42的特征向量。
优选地,所述步骤三具体步骤为:
1、手动标注了1000个赌博域名,然后利用爬虫爬取赌博域名的外链,并通过构建基于Bert的文本分类模型,得到了10万个赌博域名和2万个带有数字证书的赌博域名;
2、通过10万赌博域名来构建域名黑名单,通过N-gram方法分别获得10万赌博域名长度为3的子字符串黑名单、长度为4的子字符串黑名单、长度为5的子字符串黑名单以及长度为6的子字符串黑名单,选取Alex排名前2万的域名作为良性域名,通过N-gram方法分别获取2万带有数字证书的赌博域名以及2万良性域名长度为3、4、5、6的子字符串,分别查看每一个域名长度为3、4、5、6的子字符串在对应长度的子字符串黑名单中出现的次数,构成长度为4的特征向量。
优选地,所述步骤四具体方法:解析域名的TLD、域名有几层域、域名长度、域名中的数字个数以及域名中的数字占比。
优选地,所述域名的TLD使用0-10来表示.com、.org、.net、.info、.biz、.edu、.gov、.cat、.museum、.travel、.cn这11个常见的TLD;如果域名的TLD不在上述11个TLD中,则域名的TLD值设置为11。
优选地,所述步骤五具体方法是为:将证书链特征向量、证书链验证特征向量、基于域名黑名单的特征向量以及域名本身的特征解析向量合成为长度为56的特征向量,根据数字证书为赌博域名和良性域名为每一个特征向量打标签0或1。
优选地,所述步骤六具体方法是为:构建LSTM、RNN、Decision Tree、RandomForest、KNN以及SVM学习算法对赌博域名以及良性域名长度为56的特征向量进行训练和测试,构建赌博域名挖掘模型。
优选地,所述LSTM以及RNN学习算法,构造双层的训练模型,每一层的记忆体个数都设置为400,均使用0.2的Droupout。
本发明的有益效果:
本发明在不需要获取域名网页文本内容的情况下,通过证书链以及域名的文本特征构建的特征向量进行中文赌博域名分类,方法简单快捷,并且分类准确度高。使RandomForest的Accuracy、Precision、Recall和F1-score值均为最优的,分别为0.992、0.990、0.988以及0.990。通过本发明所提方法结合简单的机器学习方法,就可以准确且快速的识别中文赌博域名。
附图说明
图1是本发明的整体结构示意图;
图2是本发明不同机器(深度)学习模型获得的Accuracy,Precision,Recall和F1值的示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明,以使本发明所属技术领域的技术人员能够容易实施本发明。
如图1所示,本发明具体步骤包括:
一、构建证书链特征向量
构建证书链的方法是在证书数据库CCADB(https://www.ccadb.org)中进行搜索,CCADB是一个公共证书颁发机构数据库,具有来自的根证书和中间证书。一旦找到根证书,或者没有获得任何颁发者的证书,证书链构造就完成了。在证书链构建过程中,获取中间证书的解析结果并分析证书链的长度,得到表1所示长度为5的特征向量。
表1
二、构建证书链验证特征向量
证书链解析以后对证书链进行验证。提取OpenSSL的结束证书的验证标志,构建了表2所示长度为42的特征向量。
表2
三、基于域名黑名单和N-gram构建特征向量
首先手动标注了1000个赌博域名,然后利用爬虫爬取这些赌博域名的外链,并通过构建基于Bert的文本分类模型,得到了10万个赌博域名和2万个带有数字证书的赌博域名,为了保证模型预测的准确性,赌博域名需要达到一定的量级。需要特别注意的是,虽然Bert文本分类模型可以取得准确度较高的分类结果,但是由于Bert文本分类模型必须在GPU上才能达到较好的运行速度,因此,考虑到普适性,本发明只选用Bert文本分类模型来获取赌博域名的数据集,不用于最终赌博域名的识别过程中。
通过10万赌博域名来构建域名黑名单,通过N-gram方法分别获得10万赌博域名长度为3的子字符串黑名单、长度为4的子字符串黑名单、长度为5的子字符串黑名单以及长度为6的子字符串黑名单。选取了Alex排名前2万的域名作为良性域名,通过N-gram方法分别获取2万带有数字证书的赌博域名以及2万良性域名长度为3、4、5、6的子字符串,分别查看每一个域名长度为3、4、5、6的子字符串在对应长度的子字符串黑名单中出现的次数,构成长度为4的特征向量。如表3所示:
表3
四、域名本身的特征解析
分别解析域名的TLD、域名有几层域、域名长度、域名中的数字个数以及域名中的数字占比,如表4所示:
特征名称 | 描述 | 类别 |
dom_tld | 域名的TLD | int |
dom_layer | 域名中域的层数 | int |
dom_leng | 域名长度 | int |
dom_count_num | 域名中的数字个数 | int |
dom_per_num | 域名中的数字占比 | int |
表4
对于域名的TLD,分别使用0-10来表示.com、.org、.net、.info、.biz、.edu、.gov、.cat、.museum、.travel、.cn这11个常见的TLD,如果域名的TLD均不在上述11个TLD中,则域名的TLD值设置为11。
五、合成特征向量并打标签
将长度为5的证书链特征向量、长度为42的证书链验证特征向量、长度为4的基于域名黑名单的特征向量以及长度为5的域名本身的特征解析向量合成为长度为56的特征向量,根据数字证书为赌博和良性为每一个特征向量打标签0或1。
六、深度学习和机器学习模型识别
本发明中,将赌博域名定义为正向样本,将良性域名定义为反向样本。将正确预测的赌博域名的域名个数定义为TP,将错误预测为赌博域名的域名个数定义为FP,将正确预测为良性域名的域名个数定义为TN,将错误预测为良性域名的域名个数定义为FN。
构建了LSTM、RNN、Decision Tree、Random Forest、KNN以及SVM,对于LSTM以及RNN,均构造了双层的训练模型,每一层的记忆体个数都设置为400,均使用0.2的Droupout。对于Decision Tree、Random Forest、KNN以及SVM,均采用默认设置。
通过Accuracy、Precision、Recall以及F1-score来评价算法的优劣。Accuracy、Precision、Recall以及F1-score的定义如下:
随机打乱4万特征向量的顺序,随机均匀的拆分成5组数据G1,G2,G3,G4和G5。分别选取G1,G2,G3,G4和G5作为测试集,其余的作为训练集,进行5组实验,每一组实验得到一组Accuracy、Precision、Recall以及F1-score值,使用5组实验的平均值作为最终的Accuracy、Precision、Recall以及F1-score值。得到的最终结果如下表5所示:
表5
为了更加直观的展示本发明实验的结果,通过图2展示六种算法获得的Accuracy、Precision、Recall和F1-score值。
从图2可以看出。Random Forest的Accuracy、Precision、Recall和F1-score值均为最优的,分别为0.992、0.990、0.988以及0.990。不管是机器学习模型还是深度学习模型,预测的Accuracy、Precision、Recall和F1-score值均大于0.9,这说明了本发明所提模型的适用性和准确性。
以上所述仅对本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡是在本发明的权利要求限定范围内,所做的任何修改、等同替换、改进等,均应在本发明的保护范围之内。
Claims (9)
1.一种基于证书链构建和域名文本特征的赌博域名识别方法,其特征是,具体步骤包括:
步骤一:构建证书链特征向量;
步骤二:构建证书链验证特征向量;
步骤三:基于域名黑名单和N-gram构建特征向量;
步骤四:构建基于域名本身的特征解析向量;
步骤五:合成步骤一到步骤四特征向量并打标签;
步骤六:构建深度学习和机器学习模型识别。
2.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述步骤一具体方法:在证书数据库CCADB中进行搜索,找到根证书或者中间证书,完成证书链构造;获取中间证书的解析结果并分析证书链的长度,得到长度为5的特征向量。
3.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述步骤二具体方法:提取OpenSSL的结束证书的验证标志,构建了长度为42的特征向量。
4.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述步骤三具体步骤为:
1、手动标注了1000个赌博域名,然后利用爬虫爬取赌博域名的外链,并通过构建基于Bert的文本分类模型,得到了10万个赌博域名和2万个带有数字证书的赌博域名;
2、通过10万赌博域名来构建域名黑名单,通过N-gram方法分别获得10万赌博域名长度为3的子字符串黑名单、长度为4的子字符串黑名单、长度为5的子字符串黑名单以及长度为6的子字符串黑名单,选取Alex排名前2万的域名作为良性域名,通过N-gram方法分别获取2万带有数字证书的赌博域名以及2万良性域名长度为3、4、5、6的子字符串,分别查看每一个域名长度为3、4、5、6的子字符串在对应长度的子字符串黑名单中出现的次数,构成长度为4的特征向量。
5.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述步骤四具体方法:解析域名的TLD、域名有几层域、域名长度、域名中的数字个数以及域名中的数字占比。
6.根据权利要求5所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述域名的TLD使用0-10来表示.com、.org、.net、.info、.biz、.edu、.gov、.cat、.museum、.travel、.cn这11个常见的TLD;如果域名的TLD不在上述11个TLD中,则域名的TLD值设置为11。
7.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述步骤五具体方法是为:将证书链特征向量、证书链验证特征向量、基于域名黑名单的特征向量以及域名本身的特征解析向量合成为长度为56的特征向量,根据数字证书为赌博域名和良性域名为每一个特征向量打标签0或1。
8.根据权利要求7所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述步骤六具体方法是为:构建LSTM、RNN、Decision Tree、Random Forest、KNN以及SVM学习算法对赌博域名以及良性域名长度为56的特征向量进行训练和测试,构建赌博域名挖掘模型。
9.根据权利要求8所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述LSTM以及RNN学习算法,构造双层的训练模型,每一层的记忆体个数都设置为400,均使用0.2的Droupout。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111577072.9A CN114357161A (zh) | 2021-12-22 | 2021-12-22 | 基于证书链构建和域名文本特征的赌博域名识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111577072.9A CN114357161A (zh) | 2021-12-22 | 2021-12-22 | 基于证书链构建和域名文本特征的赌博域名识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114357161A true CN114357161A (zh) | 2022-04-15 |
Family
ID=81100934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111577072.9A Pending CN114357161A (zh) | 2021-12-22 | 2021-12-22 | 基于证书链构建和域名文本特征的赌博域名识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114357161A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629923A (zh) * | 2012-03-23 | 2012-08-08 | 北龙中网(北京)科技有限责任公司 | 基于域名系统技术的网站可信标识安装及识别方法 |
CN109302418A (zh) * | 2018-11-15 | 2019-02-01 | 东信和平科技股份有限公司 | 一种基于深度学习的恶意域名检测方法及装置 |
CN111884813A (zh) * | 2020-08-05 | 2020-11-03 | 哈尔滨工业大学(威海) | 一种恶意证书检测方法 |
-
2021
- 2021-12-22 CN CN202111577072.9A patent/CN114357161A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629923A (zh) * | 2012-03-23 | 2012-08-08 | 北龙中网(北京)科技有限责任公司 | 基于域名系统技术的网站可信标识安装及识别方法 |
CN109302418A (zh) * | 2018-11-15 | 2019-02-01 | 东信和平科技股份有限公司 | 一种基于深度学习的恶意域名检测方法及装置 |
CN111884813A (zh) * | 2020-08-05 | 2020-11-03 | 哈尔滨工业大学(威海) | 一种恶意证书检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110097125B (zh) | 一种基于嵌入表示的跨网络账户关联方法 | |
CN112910929B (zh) | 基于异质图表示学习的恶意域名检测方法及装置 | |
CN106789888B (zh) | 一种多特征融合的钓鱼网页检测方法 | |
CN107341183A (zh) | 一种基于暗网网站综合特征的网站分类方法 | |
CN106934275B (zh) | 一种基于个人信息的口令强度评测方法 | |
CN103544436A (zh) | 一种钓鱼网站鉴别系统和方法 | |
US20170053031A1 (en) | Information forecast and acquisition method based on webpage link parameter analysis | |
CN114050912B (zh) | 一种基于深度强化学习的恶意域名检测方法和装置 | |
CN109510815A (zh) | 一种基于有监督学习的多级钓鱼网站检测方法及检测系统 | |
CN112217787B (zh) | 一种基于ed-gan的仿冒域名训练数据生成方法及系统 | |
CN113132410B (zh) | 一种用于检测钓鱼网址的方法 | |
CN112100365A (zh) | 双阶段文本摘要方法 | |
CN112989348B (zh) | 攻击检测方法、模型训练方法、装置、服务器及存储介质 | |
WO2016119275A1 (zh) | 网络账号识别匹配方法 | |
CN104750704A (zh) | 一种网页url地址分类识别方法及装置 | |
CN112464666B (zh) | 一种基于暗网数据的未知网络威胁自动发现方法 | |
CN114372144A (zh) | 基于证书和域名解析的赌博域名识别方法 | |
CN103064984A (zh) | 垃圾网页的识别方法及系统 | |
CN113438209B (zh) | 一种基于改进的Stacking策略的钓鱼网站检测方法 | |
CN107872323A (zh) | 一种基于用户信息检测的口令安全性评估方法及系统 | |
CN117235532B (zh) | 一种基于M-Bert的恶意网站检测模型的训练及检测方法 | |
CN110784462A (zh) | 基于混合方法的三层钓鱼网站检测系统 | |
CN110363023B (zh) | 一种基于phmm的匿名网络溯源方法 | |
CN103927325A (zh) | 一种对url进行分类的方法及装置 | |
CN115766212A (zh) | 一种基于url多角度特征的钓鱼网站检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |