CN114357161A - 基于证书链构建和域名文本特征的赌博域名识别方法 - Google Patents

基于证书链构建和域名文本特征的赌博域名识别方法 Download PDF

Info

Publication number
CN114357161A
CN114357161A CN202111577072.9A CN202111577072A CN114357161A CN 114357161 A CN114357161 A CN 114357161A CN 202111577072 A CN202111577072 A CN 202111577072A CN 114357161 A CN114357161 A CN 114357161A
Authority
CN
China
Prior art keywords
domain name
gambling
domain
certificate chain
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111577072.9A
Other languages
English (en)
Inventor
张兆心
孙国营
程亚楠
许海燕
常利婷
李冷文婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Weihai
Original Assignee
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Weihai filed Critical Harbin Institute of Technology Weihai
Priority to CN202111577072.9A priority Critical patent/CN114357161A/zh
Publication of CN114357161A publication Critical patent/CN114357161A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于证书链构建和域名文本特征的赌博域名识别方法,其解决了在不对网页文本进行解析的情况下现有赌博域名识别准确率低的技术问题,其具体步骤包括:步骤一:构建证书链特征向量;步骤二:构建证书链验证特征向量;步骤三:基于域名黑名单和N‑gram构建特征向量;步骤四:构建基于域名本身的特征解析向量;步骤五:合成步骤一到步骤四特征向量并打标签;步骤六:构建深度学习和机器学习模型识别。本发明可广泛应用于赌博域名的识别。

Description

基于证书链构建和域名文本特征的赌博域名识别方法
技术领域
本发明涉及计算机领域,特别是涉及一种基于证书链构建和域名文本特征的赌博域名识别方法。
背景技术
随着计算机技术的飞速发展,互联网走进了千家万户,但网络给人们带来信息和方便的同时,也带来了负面的信息。各种宣扬色情、暴力、赌博的不良内容充斥着网络,不仅严重污染着未成年人的心灵,也破坏了社会风气。数字证书实现了公钥基础设施中的公钥管理,能够有效的避免网络通信过程中的中间人攻击,很多中文赌博网站都会申请使用能够被浏览器误认为是良性证书的赌博数字证书,从而增加用户对中文赌博网站的信任度,并增强赌资流动的安全性。大部分赌博域名的识别方法都是基于域名网页文本内容的,而网页文本内容的获取和解析都是非常耗时的。除了基于域名网页文本内容的分类方法以外,还没有较好的赌博域名分类方法,导致赌博域名难于有效识别管理。
发明内容
本发明为了解决在不对网页文本进行解析的情况下现有赌博域名识别准确率低的技术问题,提供一种基于证书链构建和域名文本特征的赌博域名识别方法。
本发明提供一种基于证书链构建和域名文本特征的赌博域名识别方法,具体步骤包括:
步骤一:构建证书链特征向量;
步骤二:构建证书链验证特征向量;
步骤三:基于域名黑名单和N-gram构建特征向量;
步骤四:构建基于域名本身的特征解析向量;
步骤五:合成步骤一到步骤四特征向量并打标签;
步骤六:构建深度学习和机器学习模型识别。
优选地,所述步骤一具体方法:在证书数据库CCADB中进行搜索,找到根证书或者中间证书,完成证书链构造;获取中间证书的解析结果并分析证书链的长度,得到长度为5的特征向量。
优选地,所述步骤二具体方法:提取OpenSSL的结束证书的验证标志,构建了长度为42的特征向量。
优选地,所述步骤三具体步骤为:
1、手动标注了1000个赌博域名,然后利用爬虫爬取赌博域名的外链,并通过构建基于Bert的文本分类模型,得到了10万个赌博域名和2万个带有数字证书的赌博域名;
2、通过10万赌博域名来构建域名黑名单,通过N-gram方法分别获得10万赌博域名长度为3的子字符串黑名单、长度为4的子字符串黑名单、长度为5的子字符串黑名单以及长度为6的子字符串黑名单,选取Alex排名前2万的域名作为良性域名,通过N-gram方法分别获取2万带有数字证书的赌博域名以及2万良性域名长度为3、4、5、6的子字符串,分别查看每一个域名长度为3、4、5、6的子字符串在对应长度的子字符串黑名单中出现的次数,构成长度为4的特征向量。
优选地,所述步骤四具体方法:解析域名的TLD、域名有几层域、域名长度、域名中的数字个数以及域名中的数字占比。
优选地,所述域名的TLD使用0-10来表示.com、.org、.net、.info、.biz、.edu、.gov、.cat、.museum、.travel、.cn这11个常见的TLD;如果域名的TLD不在上述11个TLD中,则域名的TLD值设置为11。
优选地,所述步骤五具体方法是为:将证书链特征向量、证书链验证特征向量、基于域名黑名单的特征向量以及域名本身的特征解析向量合成为长度为56的特征向量,根据数字证书为赌博域名和良性域名为每一个特征向量打标签0或1。
优选地,所述步骤六具体方法是为:构建LSTM、RNN、Decision Tree、RandomForest、KNN以及SVM学习算法对赌博域名以及良性域名长度为56的特征向量进行训练和测试,构建赌博域名挖掘模型。
优选地,所述LSTM以及RNN学习算法,构造双层的训练模型,每一层的记忆体个数都设置为400,均使用0.2的Droupout。
本发明的有益效果:
本发明在不需要获取域名网页文本内容的情况下,通过证书链以及域名的文本特征构建的特征向量进行中文赌博域名分类,方法简单快捷,并且分类准确度高。使RandomForest的Accuracy、Precision、Recall和F1-score值均为最优的,分别为0.992、0.990、0.988以及0.990。通过本发明所提方法结合简单的机器学习方法,就可以准确且快速的识别中文赌博域名。
附图说明
图1是本发明的整体结构示意图;
图2是本发明不同机器(深度)学习模型获得的Accuracy,Precision,Recall和F1值的示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明,以使本发明所属技术领域的技术人员能够容易实施本发明。
如图1所示,本发明具体步骤包括:
一、构建证书链特征向量
构建证书链的方法是在证书数据库CCADB(https://www.ccadb.org)中进行搜索,CCADB是一个公共证书颁发机构数据库,具有来自的根证书和中间证书。一旦找到根证书,或者没有获得任何颁发者的证书,证书链构造就完成了。在证书链构建过程中,获取中间证书的解析结果并分析证书链的长度,得到表1所示长度为5的特征向量。
Figure BDA0003425590680000031
Figure BDA0003425590680000041
表1
二、构建证书链验证特征向量
证书链解析以后对证书链进行验证。提取OpenSSL的结束证书的验证标志,构建了表2所示长度为42的特征向量。
Figure BDA0003425590680000042
Figure BDA0003425590680000051
表2
三、基于域名黑名单和N-gram构建特征向量
首先手动标注了1000个赌博域名,然后利用爬虫爬取这些赌博域名的外链,并通过构建基于Bert的文本分类模型,得到了10万个赌博域名和2万个带有数字证书的赌博域名,为了保证模型预测的准确性,赌博域名需要达到一定的量级。需要特别注意的是,虽然Bert文本分类模型可以取得准确度较高的分类结果,但是由于Bert文本分类模型必须在GPU上才能达到较好的运行速度,因此,考虑到普适性,本发明只选用Bert文本分类模型来获取赌博域名的数据集,不用于最终赌博域名的识别过程中。
通过10万赌博域名来构建域名黑名单,通过N-gram方法分别获得10万赌博域名长度为3的子字符串黑名单、长度为4的子字符串黑名单、长度为5的子字符串黑名单以及长度为6的子字符串黑名单。选取了Alex排名前2万的域名作为良性域名,通过N-gram方法分别获取2万带有数字证书的赌博域名以及2万良性域名长度为3、4、5、6的子字符串,分别查看每一个域名长度为3、4、5、6的子字符串在对应长度的子字符串黑名单中出现的次数,构成长度为4的特征向量。如表3所示:
Figure BDA0003425590680000061
表3
四、域名本身的特征解析
分别解析域名的TLD、域名有几层域、域名长度、域名中的数字个数以及域名中的数字占比,如表4所示:
特征名称 描述 类别
dom_tld 域名的TLD int
dom_layer 域名中域的层数 int
dom_leng 域名长度 int
dom_count_num 域名中的数字个数 int
dom_per_num 域名中的数字占比 int
表4
对于域名的TLD,分别使用0-10来表示.com、.org、.net、.info、.biz、.edu、.gov、.cat、.museum、.travel、.cn这11个常见的TLD,如果域名的TLD均不在上述11个TLD中,则域名的TLD值设置为11。
五、合成特征向量并打标签
将长度为5的证书链特征向量、长度为42的证书链验证特征向量、长度为4的基于域名黑名单的特征向量以及长度为5的域名本身的特征解析向量合成为长度为56的特征向量,根据数字证书为赌博和良性为每一个特征向量打标签0或1。
六、深度学习和机器学习模型识别
本发明中,将赌博域名定义为正向样本,将良性域名定义为反向样本。将正确预测的赌博域名的域名个数定义为TP,将错误预测为赌博域名的域名个数定义为FP,将正确预测为良性域名的域名个数定义为TN,将错误预测为良性域名的域名个数定义为FN。
构建了LSTM、RNN、Decision Tree、Random Forest、KNN以及SVM,对于LSTM以及RNN,均构造了双层的训练模型,每一层的记忆体个数都设置为400,均使用0.2的Droupout。对于Decision Tree、Random Forest、KNN以及SVM,均采用默认设置。
通过Accuracy、Precision、Recall以及F1-score来评价算法的优劣。Accuracy、Precision、Recall以及F1-score的定义如下:
Figure BDA0003425590680000071
Figure BDA0003425590680000072
Figure BDA0003425590680000073
Figure BDA0003425590680000074
随机打乱4万特征向量的顺序,随机均匀的拆分成5组数据G1,G2,G3,G4和G5。分别选取G1,G2,G3,G4和G5作为测试集,其余的作为训练集,进行5组实验,每一组实验得到一组Accuracy、Precision、Recall以及F1-score值,使用5组实验的平均值作为最终的Accuracy、Precision、Recall以及F1-score值。得到的最终结果如下表5所示:
Figure BDA0003425590680000075
Figure BDA0003425590680000081
表5
为了更加直观的展示本发明实验的结果,通过图2展示六种算法获得的Accuracy、Precision、Recall和F1-score值。
从图2可以看出。Random Forest的Accuracy、Precision、Recall和F1-score值均为最优的,分别为0.992、0.990、0.988以及0.990。不管是机器学习模型还是深度学习模型,预测的Accuracy、Precision、Recall和F1-score值均大于0.9,这说明了本发明所提模型的适用性和准确性。
以上所述仅对本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡是在本发明的权利要求限定范围内,所做的任何修改、等同替换、改进等,均应在本发明的保护范围之内。

Claims (9)

1.一种基于证书链构建和域名文本特征的赌博域名识别方法,其特征是,具体步骤包括:
步骤一:构建证书链特征向量;
步骤二:构建证书链验证特征向量;
步骤三:基于域名黑名单和N-gram构建特征向量;
步骤四:构建基于域名本身的特征解析向量;
步骤五:合成步骤一到步骤四特征向量并打标签;
步骤六:构建深度学习和机器学习模型识别。
2.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述步骤一具体方法:在证书数据库CCADB中进行搜索,找到根证书或者中间证书,完成证书链构造;获取中间证书的解析结果并分析证书链的长度,得到长度为5的特征向量。
3.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述步骤二具体方法:提取OpenSSL的结束证书的验证标志,构建了长度为42的特征向量。
4.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述步骤三具体步骤为:
1、手动标注了1000个赌博域名,然后利用爬虫爬取赌博域名的外链,并通过构建基于Bert的文本分类模型,得到了10万个赌博域名和2万个带有数字证书的赌博域名;
2、通过10万赌博域名来构建域名黑名单,通过N-gram方法分别获得10万赌博域名长度为3的子字符串黑名单、长度为4的子字符串黑名单、长度为5的子字符串黑名单以及长度为6的子字符串黑名单,选取Alex排名前2万的域名作为良性域名,通过N-gram方法分别获取2万带有数字证书的赌博域名以及2万良性域名长度为3、4、5、6的子字符串,分别查看每一个域名长度为3、4、5、6的子字符串在对应长度的子字符串黑名单中出现的次数,构成长度为4的特征向量。
5.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述步骤四具体方法:解析域名的TLD、域名有几层域、域名长度、域名中的数字个数以及域名中的数字占比。
6.根据权利要求5所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述域名的TLD使用0-10来表示.com、.org、.net、.info、.biz、.edu、.gov、.cat、.museum、.travel、.cn这11个常见的TLD;如果域名的TLD不在上述11个TLD中,则域名的TLD值设置为11。
7.根据权利要求1所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述步骤五具体方法是为:将证书链特征向量、证书链验证特征向量、基于域名黑名单的特征向量以及域名本身的特征解析向量合成为长度为56的特征向量,根据数字证书为赌博域名和良性域名为每一个特征向量打标签0或1。
8.根据权利要求7所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述步骤六具体方法是为:构建LSTM、RNN、Decision Tree、Random Forest、KNN以及SVM学习算法对赌博域名以及良性域名长度为56的特征向量进行训练和测试,构建赌博域名挖掘模型。
9.根据权利要求8所述基于证书链构建和域名文本特征的赌博域名识别方法,其特征在于,所述LSTM以及RNN学习算法,构造双层的训练模型,每一层的记忆体个数都设置为400,均使用0.2的Droupout。
CN202111577072.9A 2021-12-22 2021-12-22 基于证书链构建和域名文本特征的赌博域名识别方法 Pending CN114357161A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111577072.9A CN114357161A (zh) 2021-12-22 2021-12-22 基于证书链构建和域名文本特征的赌博域名识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111577072.9A CN114357161A (zh) 2021-12-22 2021-12-22 基于证书链构建和域名文本特征的赌博域名识别方法

Publications (1)

Publication Number Publication Date
CN114357161A true CN114357161A (zh) 2022-04-15

Family

ID=81100934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111577072.9A Pending CN114357161A (zh) 2021-12-22 2021-12-22 基于证书链构建和域名文本特征的赌博域名识别方法

Country Status (1)

Country Link
CN (1) CN114357161A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629923A (zh) * 2012-03-23 2012-08-08 北龙中网(北京)科技有限责任公司 基于域名系统技术的网站可信标识安装及识别方法
CN109302418A (zh) * 2018-11-15 2019-02-01 东信和平科技股份有限公司 一种基于深度学习的恶意域名检测方法及装置
CN111884813A (zh) * 2020-08-05 2020-11-03 哈尔滨工业大学(威海) 一种恶意证书检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629923A (zh) * 2012-03-23 2012-08-08 北龙中网(北京)科技有限责任公司 基于域名系统技术的网站可信标识安装及识别方法
CN109302418A (zh) * 2018-11-15 2019-02-01 东信和平科技股份有限公司 一种基于深度学习的恶意域名检测方法及装置
CN111884813A (zh) * 2020-08-05 2020-11-03 哈尔滨工业大学(威海) 一种恶意证书检测方法

Similar Documents

Publication Publication Date Title
CN110097125B (zh) 一种基于嵌入表示的跨网络账户关联方法
CN112910929B (zh) 基于异质图表示学习的恶意域名检测方法及装置
CN106789888B (zh) 一种多特征融合的钓鱼网页检测方法
CN107341183A (zh) 一种基于暗网网站综合特征的网站分类方法
CN106934275B (zh) 一种基于个人信息的口令强度评测方法
CN103544436A (zh) 一种钓鱼网站鉴别系统和方法
US20170053031A1 (en) Information forecast and acquisition method based on webpage link parameter analysis
CN114050912B (zh) 一种基于深度强化学习的恶意域名检测方法和装置
CN109510815A (zh) 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
CN112217787B (zh) 一种基于ed-gan的仿冒域名训练数据生成方法及系统
CN113132410B (zh) 一种用于检测钓鱼网址的方法
CN112100365A (zh) 双阶段文本摘要方法
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
WO2016119275A1 (zh) 网络账号识别匹配方法
CN104750704A (zh) 一种网页url地址分类识别方法及装置
CN112464666B (zh) 一种基于暗网数据的未知网络威胁自动发现方法
CN114372144A (zh) 基于证书和域名解析的赌博域名识别方法
CN103064984A (zh) 垃圾网页的识别方法及系统
CN113438209B (zh) 一种基于改进的Stacking策略的钓鱼网站检测方法
CN107872323A (zh) 一种基于用户信息检测的口令安全性评估方法及系统
CN117235532B (zh) 一种基于M-Bert的恶意网站检测模型的训练及检测方法
CN110784462A (zh) 基于混合方法的三层钓鱼网站检测系统
CN110363023B (zh) 一种基于phmm的匿名网络溯源方法
CN103927325A (zh) 一种对url进行分类的方法及装置
CN115766212A (zh) 一种基于url多角度特征的钓鱼网站检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination