CN114372144A

CN114372144A - 基于证书和域名解析的赌博域名识别方法

Info

Publication number: CN114372144A
Application number: CN202111577064.4A
Authority: CN
Inventors: 张兆心; 孙国营; 程亚楠; 许海燕; 常利婷; 李冷文婷
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-19

Abstract

本发明涉及一种基于证书和域名解析的赌博域名识别方法，其解决了在不对网页文本进行解析的情况下现有赌博域名识别准确率低的技术问题，其步骤包括建立基于Bert微调构建中文分类模型；分别对所述中文赌博域名及良性域名进行数字证书解析；通过N‑gram方法获取域名的文本特征向量；通过RNN、DecisionTree、ExtraTree、RandomForest、KNN及SVM学习算法对中文赌博域名以及良性域名的数字证书解析特征向量和域名文本特征向量进行训练和测试，构建中文赌博域名挖掘模型。本发明可广泛应于中文赌博域名的识别。

Description

基于证书和域名解析的赌博域名识别方法

技术领域

本发明涉及计算机领域，特别是涉及一种基于证书和域名解析的赌博域名识别方法。

背景技术

随着计算机技术的飞速发展，互联网走进了千家万户，但网络给人们带来信息和方便的同时，也带来了负面的信息。各种宣扬色情、暴力、赌博的不良内容充斥着网络，不仅严重污染着未成年人的心灵，也破坏了社会风气。数字证书实现了公钥基础设施中的公钥管理，能够有效的避免网络通信过程中的中间人攻击，很多中文赌博网站都会申请使用能够被浏览器误认为是良性证书的赌博数字证书，从而增加用户对中文赌博网站的信任度，并增强赌资流动的安全性。大部分赌博域名的识别方法都是基于域名网页文本内容的，而网页文本内容的获取和解析都是非常耗时的。除了基于域名网页文本内容的分类方法以外，还没有较好的赌博域名分类方法，导致赌博域名难于有效识别管理。

发明内容

本发明为了解决在不对网页文本进行解析的情况下现有赌博域名识别准确率低的技术问题，提供一种识别准确率高且省时快捷的基于证书和域名解析的赌博域名识别方法。

本发明提供一种基于证书和域名解析的赌博域名识别方法，其具体步骤包括：

步骤(1)、建立基于Bert微调构建中文分类模型：利用预训练好的中文Bert模型进行微调，获得具有数字证书的中文赌博域名，从Alex Top 100万获得等量的具有数字证书的良性域名；

步骤(2)、分别对所述中文赌博域名及良性域名的数字证书进行解析：根据rfc5280的规定，对证书中的基本域和Extensions字段进行解析得到数字证书解析特征向量；

步骤(3)、通过N-gram方法获取域名的文本特征向量：利用N-gram方法将Alex Top20万的域名数据集拆分成子字符串，构建域名白名单子字符串集合，通过对中文赌博域名以及良性域名进行分词操作，计算域名长度为N的子字符串在域名白名单子字符串集合中出现的次数,以及域名的所有子字符串在域名白名单子字符串集合中出现的总次数，得到域名文本特征向量；

步骤(4)、通过RNN、DecisionTree、ExtraTree、RandomForest、KNN及SVM学习算法对中文赌博域名以及良性域名通过数字证书解析以及域名文本解析获得的向量进行训练和测试，构建中文赌博域名挖掘模型。

优选地，所述步骤(1)中所述中文赌博域名为Bert模型先基于网页的文本获得了一万个具有数字证书的中文赌博域名，Bert模型的分类准确度为97.76％；预训练好的中文Bert模型的数据来源包括：一、利用THUCTC数据集获得标注的文本数据集；二、从手动标注中文赌博域名中，利用网络爬虫爬取网页的文本信息，再进行标注；三、从Alex Top 100万中筛选出排名靠前的中文域名，利用百度的API进行标注。

优选地，所述步骤(2)中数字证书解析特征向量长度为50，其具体方法包括：

1、基本域解析：获取每个证书中的Version、SerialNumber、Signature、Issuer、Validity以及Subject字段内容，并将这些内容转化为整形数值；

2、获取Extensions字段；

3、判断Extensions字段是否符合rfc5280的约束：判断Extensions字段中的每个字段是否被设置为critical。

优选地，所述步骤(3)中域名长度为N的子字符串在域名白名单子字符串集合中出现次数构建方法为：选用Alex Top 20万的域名来构建域名的白名单子字符串集合，每一个域名去除特殊符号后被尺寸为N的滑动窗口拆分，从最左边开始，每相邻的N个字符拆分得到一个子字符串，并向右滑动一个字符，直到滑动窗口的最右端第一次到达字符串的最右边为止，合并相同的子字符串，构建域名白名单子字符串集合，所述N的值为3,4,5,6。

优选地，所述步骤(4)中RNN学习算法构造双层的训练模型，第一层的记忆体个数设置为300，使用0.2的Droupout，第二层的记忆体个数设置为200，使用0.2的Droupout。

优选地，所述步骤(4)中训练和测试的比例设置为8:2，并通过Accuracy、Precision、Recall以及F1对测试结果进行评价。

本发明的有益效果：

本发明在不需要获取域名网页文本内容的情况下，同时通过域名的数字证书以及域名的文本特征构建的特征向量进行中文赌博域名分类，方法简单快捷，并且分类准确度高。通过使用6种不同的机器学习和深度学习算法，获得的Accuracy,Precision,Recalland F1的最优值均分别为0.9936,0.9936,0.9939,0.9936，这均优于大部分已知的最优的分类算法。通过本发明所提方法结合简单的机器学习方法，就可以准确且快速的识别中文赌博域名。

附图说明

图1是本发明的模型结构示意图；

图2是本发明的Bert中文文本分类模型流程图；

图3是本发明不同机器(深度)学习模型获得的Accuracy,Precision,Recall和F1值的示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明，以使本发明所属技术领域的技术人员能够实施本发明。

如图1所示，本发明所提供基于证书和域名解析的赌博域名识别方法，其具体步骤包括：(1)建立基于Bert微调构建中文分类模型；(2)进行数字证书解析；(3)通过N-gram方法获取域名的文本特征向量；(4)通过深度学习和机器学习方法进行中文赌博域名分类挖掘。

(1)基于Bert微调构建中文分类模型

2018年，DEVLIN等人提出的Bert模型利用Transformers的结构设计而来，它只保留Transformers的编码器，并通过在所有层中共同对上下文进行调节来预训练深度双向表示。因此，利用预训练的Bert再加上一个softmax输出进行微调，就可以非常轻易又精确的实现文本分类任务。

网页源码中含有丰富的文本信息，通过网页源码文本信息对网页域名进行分类是一种比较常见的域名分类方法。本发明利用预训练好的中文Bert模型进行微调，预训练好的中文Bert模型是开源的，可以从网上获得，预训练好的中文Bert模型对包含财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、赌博域名在内的14种类型共包括42923条标注的文本数据集进行训练，用于正确的分类赌博域名，过程如图2所示。数据集来自3部分：一是利用THUCTC(http://thuctc.thunlp.org/)数据集获得了31923条标注的文本数据集；二是从手动标注1000条中文赌博域名中，利用网络爬虫爬取网页的文本信息，再进行标注；三是从Alex Top 100万中筛选出10000条排名比较靠前的中文域名，利用百度的API进行标注。由于本发明选用的预训练好的中文Bert模型的输入字符的长度为512，在文本获取的过程中，首先获取网页的title和description等具有较强指示性的信息，然后获取其他文本内容，去除文本内容中的空格、换行符以及特殊字符(例如*、％、@等)，如果最终得到的文本长度超过512个字符，则舍弃多余的部分；否则，在文本的末尾补齐空格，使其长度达到512个字符。通过预训练好的中文Bert模型对预处理以后的文本数据集进行训练，然后加上一个softmax层，将batch size设置为32，epochs设置为20，lr设置为0.00001，使用交叉熵损失和Adam优化器进行微调。实验结果显示，经过20个批次的训练以后，文本分类的准确度可以达到97.76％。

(2)数字证书解析

根据rfc5280的约定，证书中一共包括3个SEQUENCE字段，分别是tbsCertificate，signatureAlgorithm以及signatureValue，其中，tbsCertificate又根据证书version的不同分为三种类型，证书的version主要有1，2，3三种类型，无论哪种类型的证书，均包括Version、SerialNumber、Signature、Issuer、Validity以及Subject，当Version＝2时，会增加IssuerUniqueID和SubjectUniqueID，当Version＝3时，会在Version＝2的基础上增加Extensions。Extensions主要包括KeyUsage、AuthorityInfoAccess、CertificatePolicies、BasicConstraints、CRLDistributionPoints、SubjectAltName、IssuerAltName、ExtendedKeyUsage、AuthorityKeyIdentifier、SubjectKeyIdentifier、SignedCertificateTimestampList、InhibitAnyPolicy、PolicyConstraints以及NameConstraints。

根据这些字段的特点以及rfc5280的规定，3个角度来对证书进行解析。

1、基本域解析

获取证书中3个版本都包含的字段内容，并将这些内容转换成整形数值。处理后的结果如表1所示。

特征名称	描述	类别
			signatureAlgorithm	数字证书的签名算法	int
version	数字证书的版本号	int
			serialNumber_length	序列号长度	int
issuer_is_empty	颁发者信息是否为空	int
			issuer_cn_exist	颁发者是否存在CN值	int
issuer_CN	颁发者国家	int
			subject_is_empty	使用者信息是否为空	int
subject_cn_exist	使用者是否存在CN值	int
			subject_CN	使用者国家	int
validity_length	数字证书有效时间长度	int
			validity_so_far	到目前为止数字证书的有效时间	int
expired	数字证书是否过期	int

表1

由表1可以看出，解析出了证书的signatureAlgorithm、Version字段，计算了SerialNumber的长度，判断了Issuer和Subject是否为空，得到了Issuer和Subject字段的CN值，有效时间的长度以及证书是否过期。对于signatureAlgorithm，使用0-16分别表示md5WithRSAEncryption、sha1WithRSAEncryption、sha224WithRSAEncryption、sha256WithRSAEncryption、sha384WithRSAEncryption、sha512WithRSAEncryption、RSASSA-PSS、ecdsa-with-SHA1、ecdsa-with-SHA224、ecdsa-with-SHA256、ecdsa-with-SHA384、ecdsa-with-SHA512、dsa-with-sha1、dsa-with-sha224、dsa-with-sha256、ed25519以及ed448。对于Issuer和Subject字段的CN值，使用0-246来表示世界上的247个国家。

2、获取Extensions字段

获取Extensions字段的结果如表2所示。

表2

从表2可以看出，获取Extensions字段主要判断证书中是否具有Extensions字段以及Extensions字段中是否包括KeyUsage、AuthorityInfoAccess、CertificatePolicies、BasicConstraints、CRLDistributionPoints、SubjectAltName、IssuerAltName、ExtendedKeyUsage、AuthorityKeyIdentifier、SubjectKeyIdentifier、SignedCertificateTimestampList、InhibitAnyPolicy、PolicyConstraints以及NameConstraints。keyUsage定义了密钥的用途，能体现出证书的不同使用目的，因此进一步对keyUsage的内容进行解析。

3、判断Extensions字段是否符合rfc5280的约束

根据rfc5280，Extensions字段中的某些字段必须设置为critical，某些字段必须设置为non-critical。因此，如表3所示判断Extensions字段中的每个字段是否被设置为critical。

表3

(3)通过N-gram方法获取域名的文本特征向量

1)构建域名的白名单子字符串集合

①域名拆分

Alex排名越高，域名为良性域名的可能性越大，因此，选用Alex Top20万的域名来构建域名的白名单子字符串集合。

在构建域名的白名单子字符串集合的过程中，每一个域名去除特殊符号(例如.,*,/等)后会被一个尺寸为N的滑动窗口拆分。以“login.tmall.com”为例，讲解当N＝6时的分解过程。首先，去除特殊符合后得到”logintmallcom”，然后，从最左边开始，每相邻的6个字符拆分得到一个子字符串，并向右滑动一个字符，直到滑动窗口的最右端第一次到达”logintmallcom”最右边的字符为止。最终得到的子字符串集合为{logint,ogintm,gintma,intmal,ntmall,tmallc,mallco,allcom}。将N值分别设置为2-10，并获取Alex Top20万的域名的子字符串集合的数目，结果如表4所示：

表4

②子字符串统计

通过上一步获得了大量的拆分的子字符串，但是有很多子字符串是重复出现的，因此，要对子字符串进行统计，合并相同的子字符串，统计后的结果如表5所示。

表5

从表4和表5可以看出，当N大于6时，拆分的子字符串数量除以统计的子字符串数量的值小于2，这说明绝大多数子字符串出现的次数为1，这对下一步要进行域名挖掘的域名拆分以后的子字符串统计结果影响会非常小，因此，不再考虑N大于6的情况。当N＝2时，拆分的子字符串数量除以统计的子字符串数量的值为1845，而当N为3,4,5,6时，拆分的子字符串数量除以统计的子字符串数量的值分别为81,12,4and 2，这说明当N＝2时每一个子字符串的数据量都远远大于N为3,4,5,6的时候，这对下一步要进行域名挖掘的域名拆分以后的子字符串统计结果影响过大，因此，也不考虑N＝2的情况。综合上述分析，最终选定N的值为3,4,5,6来构建域名白名单子字符串集合，得到的子字符串的个数一共是1356439。

2)域名文本特征向量的获得

使用N-gram方法，将要进行分类的每一个域名拆分成长度为3,4,5,6的子串。设S_Ni(l)表示域名l在不同的N值时第i个子字符串在域名白名单子字符串集合中出现的个数，A_N(l)表示域名l在不同的N值时的子字符串在域名白名单子字符串集合中出现的总个数，设

分别计算每个域名在N为3,4,5,6时的A值以及每个域名的AL值，得到如表6所示的新的特征向量：

表6

(4)中文赌博域名分类挖掘

本发明中，将赌博域名定义为正向样本，将良性域名定义为反向样本。将正确预测的赌博域名的域名个数定义为TP，将错误预测为赌博域名的域名个数定义为FP，将正确预测为良性域名的域名个数定义为TN，将错误预测为良性域名的域名个数定义为FN。

构建RNN,Decision Tree,Extra Tree,Random Forest,KNN and SVM六种深度学习和机器学习算法对中文赌博域名以及良性域名的特征向量进行训练和测试，将训练集和测试集的比例设置为8:2对于RNN，构造一个双层的训练模型，第一层的记忆体个数设置为300，使用0.2的Droupout，第二层的记忆体的个数设置为200，使用0.2的Droupout。对于Decision Tree,Extra Tree,Random Forest,KNN and SVM，均采用默认设置。

通过Accuracy,Precision,Recall以及F1来评价算法的优劣，并测量不同算法在训练和测试过程中所用的时间。Accuracy,Precision,Recall以及F1的定义如下：

实验例：

1、实验环境

所有的实验均在一台安装windows10操作系统的华为电脑上进行了，该电脑配置有i7的处理器，16G的内存以及512G的固态硬盘。

2、实验数据获取

通过步骤(1)基于Bert微调的中文分类模型获取10000带有数字证书的赌博域名，从Alex Top100万中选取排除构建域名白名单子字符串集合过程中使用的20万域名以为排名比较靠前的10000个域名作为良性域名。按步骤(2)数字证书解析方法获得赌博域名和良性域名通过数字证书解析获得的长度为50的特征向量，并按步骤(3)通过N-gram方法获取域名的文本特征向量的方法获得赌博域名和良性域名通过域名本身的文本特征获取的长度为5的特征向量，将数字证书解析的特征向量和域名本身的文本特征向量合并为长度为55的域名特征向量。

3、实验结果及分析

将10000个赌博域名随机均匀的拆分成5组数据G₁,G₂,G₃,G₄ and G₅，将10000个良性域名随机均匀的拆分成5组数据B₁,B₂,B₃,B₄ and B₅，分别选取G₁+B₁,G₂+B₂,G₃+B₃,G₄+B₄and G₅+B₅作为测试集，剩余的数据作为训练集，进行5次实验，并选取5次实验的平均值作为最终的结果。通过使用RNN,Decision Tree,Extra Tree,Random Forest,KNN以及SVM获得的5次实验的Accuracy,Precision,Recall,F1,时间以及这些指标的平均值分别如表7所示：

表7

为了更加直观的展示本实施例实验的结果，通过图3展示六种算法获得的Accuracy,Precision,Recall and F1及其六种算法的平均值。

从图3可以看出，Random Forest和Extra Tree获得了最优的结果，这两种算法得到的Accuracy,Precision,Recall and F1均大于0.99，其中，Random Forest的Accuracy,Recall和F1最优，分别为0.9936，0.9939and 0.9936，Extra Tree的Precision最优，为0.9936。RNN和SVM得到了最差的结果，但是Accuracy,Precision,Recall and F1也几乎都在0.85以上。除了最优值，还计算了6种算法获得的Accuracy,Precision,Recall and F1的平均值，分别为0.9409,0.9251,0.9705and 0.9452。四个评价参数在6种算法中的平均值均大于0.92，达到了比较理想的结果。从time上来看，Decision Tree最优，所用时间为0.131s，RNN最次，所用时间为38.099s。

本实施例中，首次提出了同时通过域名的数字证书以及域名的文本特征构建的特征向量进行中文赌博域名分类的方法。另外，为了获得可靠性更高的原始数据集，还构建了基于Bert微调的中文文本分类模型。通过使用6种不同的机器学习和深度学习算法，本实施例获得的Accuracy,Precision,Recall and F1的最优值均分别为0.9936,0.9936,0.9939,0.9936.这均优于大部分已知的最优的分类算法。通过本实施例所提方法结合一些简单的机器学习方法，就可以帮助中国的网络安全维护人员准确的识别中文赌博域名，这对于中国互联网安全建设会有很大的帮助。

以上所述仅对本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡是在本发明的权利要求限定范围内，所做的任何修改、等同替换、改进等，均应在本发明的保护范围之内。

Claims

1.一种基于证书和域名解析的赌博域名识别方法，其特征是，其具体步骤包括：

步骤(3)、通过N-gram方法获取域名的文本特征向量：利用N-gram方法将Alex Top 20万的域名数据集拆分成子字符串，构建域名白名单子字符串集合，通过对中文赌博域名以及良性域名进行分词操作，计算域名长度为N的子字符串在域名白名单子字符串集合中出现的次数,以及域名的所有子字符串在域名白名单子字符串集合中出现的总次数，得到域名文本特征向量；

2.根据权利要求1所述基于证书解析的赌博域名识别方法，其特征在于，所述步骤(1)中所述中文赌博域名为Bert模型先基于网页的文本获得了一万个具有数字证书的中文赌博域名，Bert模型的分类准确度为97.76％；预训练好的中文Bert模型的数据来源包括：一、利用THUCTC数据集获得标注的文本数据集；二、从手动标注中文赌博域名中，利用网络爬虫爬取网页的文本信息，再进行标注；三、从Alex Top 100万中筛选出排名靠前的中文域名，利用百度的API进行标注。

3.根据权利要求1所述基于证书解析的赌博域名识别方法，其特征在于，所述步骤(2)中数字证书解析特征向量长度为50，其具体方法包括：

2、获取Extensions字段；

4.根据权利要求1所述基于证书解析的赌博域名识别方法，其特征在于，所述步骤(3)中域名长度为N的子字符串在域名白名单子字符串集合中出现次数构建方法为：选用AlexTop 20万的域名来构建域名的白名单子字符串集合，每一个域名去除特殊符号后被尺寸为N的滑动窗口拆分，从最左边开始，每相邻的N个字符拆分得到一个子字符串，并向右滑动一个字符，直到滑动窗口的最右端第一次到达字符串的最右边为止，合并相同的子字符串，构建域名白名单子字符串集合，所述N的值为3,4,5,6。

5.根据权利要求1所述基于证书解析的赌博域名识别方法，其特征在于，所述步骤(4)中RNN学习算法构造双层的训练模型，第一层的记忆体个数设置为300，使用0.2的Droupout，第二层的记忆体个数设置为200，使用0.2的Droupout。

6.根据权利要求1所述基于证书解析的赌博域名识别方法，其特征在于，所述步骤(4)中训练和测试的比例设置为8:2，并通过Accuracy、Precision、Recall以及F1对测试结果进行评价。