CN115473726A

CN115473726A - 一种识别域名的方法及装置

Info

Publication number: CN115473726A
Application number: CN202211098282.4A
Authority: CN
Inventors: 盛盟
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2022-12-13
Anticipated expiration: 2042-09-08
Also published as: CN115473726B

Abstract

本发明实施例提供一种识别域名的方法及装置，应用于网络安全技术领域，用以解决现有技术中无法在攻击之前较准确的确定恶意域名的问题。包括：按照各类目标特征提取方式，对目标域名进行特征提取，得到各类目标域名特征；针对每类目标域名特征，通过目标域名特征对应的目标识别模型，得到目标域名在目标域名特征下的初始类别；根据各类目标域名特征的初始类别，确定目标域名的类别。通过对目标域名进行特征提取，从而得到各类域名特征，然后将各类域名特征输入至对应的目标识别模型中，可以较准确的确定目标域名的类别，从而可以实现在攻击之前，较准确的找到恶意域名，防止攻击者通过恶意域名进行攻击。

Description

一种识别域名的方法及装置

技术领域

本发明实施例涉及一种网络安全技术领域，尤其涉及一种识别域名的方法及装置。

背景技术

随着互联网的发展，网络也应用到了越来越多的领域，但是互联网的使用，同时也会存在着大量的威胁。其中，攻击者通过恶意域名发起一系列的攻击是最常见的威胁。

目前，采用的是黑名单检测方法来找到恶意域名，从而避免攻击者通过域名发起攻击。其中黑名单检测方法是攻击者在攻击之后确定恶意域名，然后再将恶意域名添加在黑名单中，会导致通过黑名单检测方法，无法在攻击者发起攻击之前较准确的确定恶意域名。

综上，如何解决在攻击之前，较准确的找到恶意域名，是当前亟需解决的技术问题。

发明内容

本发明实施例提供一种识别域名的方法及装置，用以解决现有技术中无法在攻击之前较准确的确定恶意域名的问题。

第一方面，本发明实施例提供一种识别域名的方法，包括：按照各类目标特征提取方式，对目标域名进行特征提取，得到各类目标域名特征；针对每类目标域名特征，通过所述目标域名特征对应的目标识别模型，得到所述目标域名在所述目标域名特征下的初始类别；根据各类目标域名特征的初始类别，确定所述目标域名的类别。

本发明实施例中，通过对目标域名进行特征提取，从而得到各类域名特征，然后将各类域名特征输入至对应的目标识别模型中，可以得到目标域名的初始类别，然后通过结合各类目标域名的初始类别，可以较准确的确定目标域名的类别，从而可以实现在攻击之前，较准确的找到恶意域名，防止攻击者通过恶意域名进行攻击。

可选的，所述至少一类目标域名特征对应的目标识别模型是通过如下方式得到的，包括：按照N类初始特征提取方式，对各第一训练样本进行特征提取，得到每个第一训练样本对应的M类初始域名特征；针对任一初始识别模型，通过各第一训练样本的M类初始域名特征对所述初始识别模型进行训练，得到M个识别模型；通过第一测试样本，从所述M个识别模型中确定出满足识别精度要求的识别模型作为目标识别模型。

本发明实施例中，需要通过第一训练样本和第一测试样本从M个识别模型中较准确的确定出目标识别模型，从而实现根据目标识别模型可以较准确的确定目标域名的类别。

可选的，所述按照N类初始特征提取方式，对各第一训练样本进行特征提取，得到每个第一训练样本对应的M类初始域名特征，包括：按照N类初始特征提取方式，对各第一训练样本进行特征提取，得到每个第一训练样本对应的N类特征信息；按照预设组合方式，将每个第一训练样本对应的N类特征信息进行组合，得到每个第一训练样本对应的M类初始域名特征。

本发明实施例中，由于根据各第一训练样本进行特征提取，会得到每个第一训练样本对应的N类特征信息，由于较单一的特征信息训练得到的识别模型的效果不好，因此，可以通过将N类特征信息根据预设组合方式进行组合，可以得到M类初始域名特征，从而便于后续根据M类初始域名可以较准确的确定目标识别模型，进而可以根据目标识别模型较准确的确定目标域名的类别。

可选的，所述N类特征信息包括：域名的字符特征信息、域名的信息熵、域名的顶级域名类别及域名的不同字节片段序列。

本发明实施例中，由于第一训练样本进行特征提取，会首先得到N类特征信息，便于后续根据N类特征信息可以确定目标识别模型。

可选的，域名的字符特征信息包括域名的字符转移概率、域名的元音字母比例、域名的唯一字符数、域名的字符长度；域名的不同字节片段序列包括：一元的字节片段序列、二元的字节片段序列及三元的字节片段序列；所述M类初始域名特征包括：一元的字节片段序列构成的初始域名特征；一元的字节片段序列及二元的字节片段序列构成的初始域名特征；一元的字节片段序列、二元的字节片段序列及三元的字节片段序列构成的初始域名特征；域名的信息熵、域名的顶级域名类别、域名的字符转移概率及域名的元音字母比例构成的初始域名特征；域名的唯一字符数、域名的字符长度、域名的信息熵、域名的顶级域名类别、域名的字符转移概率及域名的元音字母比例构成的初始域名特征。

本发明实施例中，由于N类特征信息比较单一，因此，为了可以较准确的确定目标识别模型，需要将N类特征信息根据预设的组合方式进行组合，得到M类初始域名特征，从而实现根据M类初始域名特征可以从M个识别模型中较准确的确定出目标识别模型。

可选的，各初始识别模型包括：朴树贝叶斯模型、随机森林模型、极端梯度模型、支持向量机模型。

本发明实施例中，首先需要确定初始识别模型，然后对初始识别模型进行不断的训练，从而实现较准确的确定目标识别模型。

可选的，从所述M个识别模型中确定出满足识别精度要求的识别模型作为目标识别模型之后，还包括：通过各第二训练样本对所述目标识别模型进行训练，更新所述目标识别模型；所述各第二训练样本的个数多于所述各第一训练样本的个数。

本发明实施例中，在确定目标识别模型之后，由于第一训练样本的数量可能不太多，并没有将目标识别模型训练的较完美，因此，需要对确定好的目标识别模型再次进行训练，从而可以实现目标识别模型可以较准确的确定目标域名的类别。

可选的，至少一类目标域名特征为域名的词频-逆文本频率指数TF-IDF特征；TF-IDF特征对应的目标识别模型至少包括：逻辑回归模型和多层感知器模型。

本发明实施例中，目标识别模型包括逻辑回归模型和多层感知器模型，通过将目标域名中的TF-IDF特征输入至逻辑回归模型和多层感知器模型，从而实现可以较准确的确定目标域名的类别。

第二方面，本发明实施例还提供一种识别域名类别的装置，包括：获取单元用于：按照各类目标特征提取方式，对目标域名进行特征提取，得到各类目标域名特征；处理单元用于：针对每类目标域名特征，通过所述目标域名特征对应的目标识别模型，得到所述目标域名在所述目标域名特征下的初始类别；根据各类目标域名特征的初始类别，确定所述目标域名的类别。

可选的，处理单元具体用于：按照N类初始特征提取方式，对各第一训练样本进行特征提取，得到每个第一训练样本对应的M类初始域名特征；针对任一初始识别模型，通过各第一训练样本的M类初始域名特征对所述初始识别模型进行训练，得到M个识别模型；通过第一测试样本，从所述M个识别模型中确定出满足识别精度要求的识别模型作为目标识别模型。

可选的，处理单元具体用于：按照N类初始特征提取方式，对各第一训练样本进行特征提取，得到每个第一训练样本对应的N类特征信息；按照预设组合方式，将每个第一训练样本对应的N类特征信息进行组合，得到每个第一训练样本对应的M类初始域名特征。

可选的，处理单元具体用于：通过各第二训练样本对所述目标识别模型进行训练，更新所述目标识别模型；所述各第二训练样本的个数多于所述各第一训练样本的个数。

第三方面，本发明实施例还提供一种计算设备，包括至少一个处理器以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行上述第一方面的一种识别域名类别的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述存储介质存储有程序，当所述程序在计算机上运行时，使得计算机实现执行上述第一方面的一种识别域名类别的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多层感知器的结构示意图；

图2为本发明实施例提供的一种ORC曲线图；

图3为本发明实施例提供的一种识别域名的方法的流程图；

图4为本发明实施例提供的一种确定第一类目标识别模型的方法流程图；

图5为本发明实施例提供的一种识别域名类别的结构示意图；

图6为本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面，对本申请中的部分用语进行通用解释说明，以便于本领域技术人员理解，并不对本申请中的用语进行限定。

一、DGA(Domain Generation Algorithm，DGA)算法：主要攻击者用来绕开安全人员检测的一种技术手段。

二、随机森林：通过创建一个森林进行分类，同时拥有随机性的特性。在构成森林时用随机又放回的数据抽取的方法训练生成多棵树，然后组合学习所得到的模型来提高整体的效果。

三、逻辑回归：是一种分类算法，区别于连续型数据的回归问题，而分类的输出则是代表不同类别的有限离散数值。逻辑回归分类(Logistic Regression Classification)模型基于线性回归(Linear Regression)，在数据输入前需要对数据进行标准化消除特征之间的影响。所用代价函数的如公式1所示，m为训练样本的个数；hθ(x)是用参数θ和x预测出来的y值；y为原训练样本中的y值；上角标i，表示第i个样本。

四：朴树贝叶斯：是一种分类算法，常常被应用于网络生活中的垃圾邮件的过滤和一些分类任务。朴树贝叶斯在贝叶斯的基础上可以单独对每一个维度的特征数据进行分类，考量它的条件概率，把获得的条件概率应用到分类预测中。

五、多层感知器：它重要的特点就是有多层。即输入层、隐藏层和输出层，如图1所示，为本发明实施例提供的一种多层感知器的结构示意图。多层感知器学习的能力会强于单个感知器，但会随着结构的复杂化训练方法异于简单的感知器的规则。

六、极端梯度算法：该算法能够有效的避免在构建模型时发生过拟合的情况。它在代价函数中引入了正则项，同时内置了交叉验证能够在每一次boosting迭代中使用交叉验证获得最优的boosting迭代次数。它是基于梯度增强机(gradient boosting machine，GBM)进行了改进，区别在于他们的损失函数更新的方式的不同，梯度增强机通过梯度下降的方式更新损失函数，但极端梯度采用了牛顿法求最优的损失函数；但它们内部采用决策树作为学习器。牛顿法是迭代的算法，优点在于收敛的速度较快。第t次迭代，模型预测值为t-1次模型的预测值加上第t棵树的预测值计算如公式2所示。所使用的目标函数是如公式3所示，

是前t-1棵树的惩罚项。

七、支持向量机：实现分类数据的原理是通过构建超平面对实验数据进行分割，并实现分割后的间隔最大化。它可以将分类问题转换成凸二次规划问题，然后使用已知的算法计算出目标函数的全局最小值。分类原理基于贪婪学习方法来搜索假设空间以获得局部最优解。

八、召回率：表示着识别模型能够检测正样本的能力，越大表示能力越强，反之则对正样本的识别效果较差。

九、精确率：表示在所预测结果中正确预测出的正样本数量占预测结果中所有正样本数量的比例。主要是应用于对域名识别模型分类效果的评估，表示在完成一次预测中该模型能够预测为恶意域名中正确的概率是多少。

十、准确度：预测正确的正样本和负样本的数量占所有样本数量的比值，也就是预测出的结果为正确概率是大小。

十一、误报率：表示预测结果中错误预测为负样本的数量占实际总的负样本数量的比值，也就是说表示模型无法检测出恶意域名，并错报其为正常域名的数量在预测结果为正常域名总数量中的比值。

十二、域名长度：表示域名的长度特征。

十三、域名的信息熵：表示域名的随机性，域名字符分布越随机无序，其所表达的信息系统越混乱，域名的信息熵值则越高。DGA算法生成的域名相对随机，其字符分布复杂繁多无规律，相比正常域名，域名的信息熵值更大。

十四、域名的顶级域名类别：域名由两组或两组以上的ASCII或各国语言字符构成，各组字符间由点号分隔开，最右边的字符组称为顶级域名或一级域名，比如.com,.cn等。

十五、域名的字符转移概率：反映域名的可读性，使用正常域名或者英文语料统计域名的不同字节片段序列的转移概率，由于DGA域名更随机，其N-Gram转移概率与正常语料差异较大。

十六、域名的不同字节片段序列：包括一元的字节片段序列、二元的字节片段序列及三元的字节片段序列。其中，若域名为so.com，一元的字节片段序列为s o c o m。二元的字节片段序列为so oc co om。三元的字节片段序列为soc oco com。

十七、域名的唯一字符数：统计字符串s中的唯一字符，例如：s＝"LEETCODE"，则其中"L","T","C","O","D"都是唯一字符，因为它们只出现一次，所以countUniqueChars(s)＝5。

十八、受试者工作特征曲线(receiver operating characteristic curve，ROC曲线)，其横坐标表示假正率(False positive rate)，纵坐标对应的是真正率(TruePositive Rote)。每一个在ROC曲线上的点都反映着一种相同的感受，这种感受来自于对同一刺激型信号的反映。ROC曲线如图2所示，其中实线部分为ROC曲线。其中间的对角线，表示所检测模型为随机猜想模型。AUC就是ROC曲线下方面积，取值区间为(0.1,1)。当AUC取值在区间(0.5,1)上时说明该识别模型预测的结果正确的概率较高，可以理解的是，该识别模型预测的结果大概率是正确的，该识别模型预测的结果具有一定的预测价值；当AUC的取值等于0.5的时候说明该模型就的预测能力跟随机猜想一样，该模型没有预测价值；当AUC的取值在区间(0.1,0.5)，那么这样的识别模型预测的结果错误的概率较高，可以理解的是，该识别模型预测的结果大概率是错误的。所以AUC的取值越接近于1表示分类器的分类效果越好，能够直观的评价该分类器的好坏。具体的计算如公式4所示，其中rank_i表示的是第i个样本的序号，M表示正样本的个数，N表示负样本的个数，∑_{i∈positiveClass} 表示将正样本的序号进行累加。本文采用的是python的中matplotlib函数进行绘画。

十九、混淆矩阵：由于本方案中所使用的目标识别模型为二分类模型，在模型训练样本的时候，恶意域名作为黑样本标记为1是Positive，正常域名作为白样本标记为0是Negative。为进行模型分类效果的评估引进混淆矩阵如表1所示。其中的参数TP(TruePositive)表示的是真实值是恶意域名，模型判断为是恶意域名的数量，FN(FalseNegative)表示的是真实值是恶意域名，模型判断为是正常域名的数量；FP(FalsePositive)表示的是真实值是正常域名，模型判断为是恶意域名的数量；TN(TrueNegative)表示的是真实值是正常域名，模型判断为是正常域名的数量。

表1混淆矩阵表

为了便于理解本方案，下面介绍一种可能的场景：

在一种可能的场景中，随着互联网的不断发展，互联网会存在一些威胁，其中，攻击者通过域名发起一系列的攻击是最常见的威胁。其中，域名生成算法(DomainGeneration Algorithm，DGA)会被许多常见的恶意软件系列用作主要机制，它可以定期生成恶意域名并将它们连接到命令和控制服务器。恶意域名基于种子生成，这些种子可以是数字，字母，日期和其他信息的组合。举个例子，攻击者发起攻击的方式可以是发一封邮件，具体来说，攻击者通过DGA算法会生成多个域名，然后选取其中几个域名编码成恶意程序，然后攻击者会向用户A的主机发送一封邮件，邮件携带恶意程序，然后当用户A的主机打开了该邮件，恶意程序会感染用户A的主机，从而攻击者可以从用户A的主机中窃取用户A的主机中的信息。

在一种可能的情况下，可以采用黑名单检测方法来防止攻击者通过恶意域名发起攻击。为了提高识别恶意域名的准确性，所以需要不断的去更新黑名单的恶意域名。但是由于黑名单的更新速度无法赶上DGA域名的生长速度，而且为了实现通过黑名单检测方法来实现阻止攻击者通过域名发起攻击，需要阻断所有的DGA域名。因此，这种方法是不可行的。

鉴于上述问题，本申请提出一种识别域名的方法，该方法解决在攻击之前，较准确的找到恶意域名。

如图3所示，为本发明实施例提供的一种识别域名的方法的流程图，该方法包括以下步骤：

步骤301，按照各类目标特征提取方式，对目标域名进行特征提取，得到各类目标域名特征。

本发明实施例中，目标域名的类别可能是正常域名，也可能是恶意域名，为了实现在攻击之前，较准确的找到恶意域名，防止攻击者通过恶意域名进行攻击，需要确定目标域名的类别。为了确定目标域名的类别，首先需要确定目标域名特征。其中可以按照各类目标特征提取方式对目标域名进行特征提取，得到各类目标域名特征。其中目标域名特征分为两类，第一类目标域名特征为一元的字节片段序列、二元的字节片段序列及三元的字节片段序列构成的目标域名特征。第二类目标域名特征为词频-逆文本频率指数TF-IDF特征。

步骤302，针对每类目标域名特征，通过目标域名特征对应的目标识别模型，得到目标域名在目标域名特征下的初始类别。

本发明实施例中，目标识别模型分为6种，分别是朴树贝叶斯模型、随机森林模型、极端梯度模型、支持向量机模型、逻辑回归模型和多层感知器模型。其中不同的目标识别模型对应的目标域名特征也是不同的，具体来说，通过将第一类目标域名特征分别输入至第一类目标域名特征对应的朴树贝叶斯模型、第一类目标域名特征对应的随机森林模型、第一类目标域名特征对应的极端梯度模型、第一类目标域名特征对应的支持向量机模型中，会分别得到目标域名的初始类别。通过将第二类目标域名特征分别输入至第二类目标域名特征对应的逻辑回归模型和第二类目标域名特征对应的多层感知器模型中，会分别得到目标域名的初始类别。

步骤303，根据各类目标域名特征的初始类别，确定目标域名的类别。

本发明实施例中，通过将上述步骤302中的6种目标识别模型进行组合形成一个最终的组合模型对目标域名进行类别判断，因此，会结合上述6种目标域名的初始类别，确定目标域名的类别。可选的，可以根据上述6中目标域名的初始类别之间的权重，确定最终的目标域名的类别，其中目标域名的初始类别之间的权重可以是根据6种目标识别模型的重要性而预先设定的，也可以是根据具体情况而确定的，在此不做限定。

通过上述步骤301至上述步骤303可以看出，通过对目标域名进行特征提取，从而得到各类域名特征，然后将各类域名特征输入至对应的目标识别模型中，可以得到目标域名的初始类别，然后通过结合各类目标域名的初始类别，可以较准确的确定目标域名的类别，从而可以实现在攻击之前，较准确的找到恶意域名，防止攻击者通过恶意域名进行攻击。

为了实现在攻击之前，较准确的确定恶意域名，首先需要确定目标识别模型。其中目标识别模型共有6种，已在上述步骤302中提及，在此不做赘述。目标识别模型分为两类，第一类目标识别模型是需要通过大量训练才可以较准确的输出目标域名的类别，第二类目标识别模型是不需要训练就可以直接使用的。第一类目标识别模型为第一类目标域名特征对应的朴树贝叶斯模型、第一类目标域名特征对应的随机森林模型、第一类目标域名特征对应的极端梯度模型、第一类目标域名特征对应的支持向量机模型，第二类目标识别模型为第二类目标域名特征对应的逻辑回归模型和第二类目标域名特征对应的多层感知器模型。下面介绍如何确定第一类目标识别模型的。

如图4所示，为本发明实施例提供的一种确定第一类目标识别模型的方法流程图，该方法包括以下步骤：

步骤401，按照N类初始特征提取方式，对各第一训练样本进行特征提取，得到每个第一训练样本对应的N类特征信息。

本发明实施例中，第一训练样本包括正样本和负样本，其中正样本表示的是正常域名，负样本表示的是恶意域名，其中，由于恶意域名是已知的，为了便于识别恶意域名和正常域名，恶意域名会加以字符进行标识。

举个例子，若恶意域名是通过文字字符进行标识的，那么表2为一种未经过预处理第一训练样本表。

表2未经过预处理的第一训练样本表

baidu.com	非恶意域名
		so.com	非恶意域名
sdqwu2e.com	恶意域名
		duhweugwdui.com	恶意域名

举个例子，若恶意域名是通过数字字符进行标识的，那么表3为另一种未经过预处理第一训练样本表。

表3未经过预处理的第一训练样本表

baidu.com	1
		so.com	1
sdqwu2e.com	0
		duhweugwdui.com	0

在对第一训练样本进行特征提取之前，需要对第一训练样本进行预处理。具体来说，是将第一训练样本中一些无关字符去除掉，例如：标点符号、无关第一训练样本的数字字符、无关第一训练样本的中文字符、无关第一训练样本的英文字符。

举个例子，若恶意域名是通过文字字符进行标识的，对第一训练样本进行预处理，得到的第一训练样本通过表4可以表示：

表4预处理后的第一训练表

baidu.com
	so.com
sdqwu2e.com
	duhweugwdui.com

在第一训练样本进行预处理之后，对各第一训练样本进行特征提取，会得到每个第一训练样本对应的N个特征信息，其中N个特征信息包括：域名的字符特征信息、域名的信息熵、域名的顶级域名类别及域名的不同字节片段序列。其中，域名的字符特征信息包括域名的字符转移概率、域名的元音字母比例、域名的唯一字符数、域名的字符长度。域名的不同字节片段序列包括：一元的字节片段序列、二元的字节片段序列及三元的字节片段序列。

步骤402，按照预设组合方式，将每个第一训练样本对应的N类特征信息进行组合，得到每个第一训练样本对应的M类初始域名特征。

本发明实施例中，将每个第一训练样本对应的N类特征信息进行组合，可以得到每个第一训练样本对应的M类初始域名特征，其中组合的方式可以是预先设定的，也可以是根据具体情况而确定的，在此不做限定。在一种可能的情况下，若M为5时，可以将第一训练样本对应的N类特征信息进行组合，得到第一训练样本对应的5类初始域名特征，将第一类初始域名特征定义为F1，将第二类初始域名特征定义为F2，将第三类初始域名特征定义为F3，将第四类初始域名特征定义为F4，将第五类初始域名特征定义为F5，其中F1是由一元的字节片段序列构成的初始域名特征，F2是由一元的字节片段序列及二元的字节片段序列构成的初始域名特征，F3是由一元的字节片段序列、二元的字节片段序列及三元的字节片段序列构成的初始域名特征。F4是由域名的信息熵、域名的顶级域名类别、域名的字符转移概率及域名的元音字母比例构成的初始域名特征。F5是由域名的唯一字符数、域名的字符长度、域名的信息熵、域名的顶级域名类别、域名的字符转移概率及域名的元音字母比例构成的初始域名特征。

步骤403，针对任一初始识别模型，通过各第一训练样本的M类初始域名特征对初始识别模型进行训练，得到M个识别模型。

本发明实施例中，若各初始识别模型共有4种，其中各初始识别模型分别是朴树贝叶斯模型、随机森林模型、极端梯度模型、支持向量机模型。那么针对任一的初始识别模型，通过各第一训练样本的M类初始域名特征对初始识别模型进行训练，会得到M个识别模型。

可选的，若初始识别模型为朴树贝叶斯模型时，M为5，M类初始域名特征分别是F1、F2、F3、F4和F5，通过各第一训练样本的5类初始域名特征对初始识别模型进行训练，得到5个识别模型。其中5个识别模型分别是：F1-朴树贝叶斯模型、F2-朴树贝叶斯模型、F3-朴树贝叶斯模型、F4-朴树贝叶斯模型和F5-朴树贝叶斯模型。

可选的，若初始识别模型为随机森林时，M为5，M类初始域名特征分别是F1、F2、F3、F4和F5，通过各第一训练样本的5类初始域名特征对初始识别模型进行训练，得到5个识别模型。其中5个识别模型分别是：F1-随机森林模型、F2-随机森林模型、F3-随机森林模型、F4-随机森林模型和F5-随机森林模型。

可选的，若初始识别模型为极端梯度时，M为5，M类初始域名特征分别是F1、F2、F3、F4和F5，通过各第一训练样本的5类初始域名特征对初始识别模型进行训练，得到5个识别模型。其中5个识别模型分别是：F1-极端梯度模型、F2-极端梯度模型、F3-极端梯度模型、F4-极端梯度模型和F5-极端梯度模型。

可选的，若初始识别模型为支持向量机时，M为5，M类初始域名特征分别是F1、F2、F3、F4和F5，通过各第一训练样本的5类初始域名特征对初始识别模型进行训练，得到5个识别模型。其中5个识别模型分别是：F1-支持向量机模型、F2-支持向量机模型、F3-支持向量机模型、F4-支持向量机模型和F5-支持向量机模型。

因此，若M为5，共有4种初始识别模型，那么通过第一训练样本的5类初始域名特征对初始识别模型进行训练，可以得到20个识别模型。

步骤404，通过第一测试样本，从M个识别模型中确定出满足识别精度要求的识别模型作为目标识别模型。

本发明实施例中，由于根据步骤203中得到了20个识别模型，那么为了实现可以较准确的确定目标域名的类别，需要从20个识别模型中选出满足识别精度要求的识别模型作为目标识别模型。具体来说，每种识别模型中对应5个识别模型，例如，朴树贝叶斯对应5个识别模型，分别是F1-朴树贝叶斯模型、F2-朴树贝叶斯模型、F3-朴树贝叶斯模型、F4-朴树贝叶斯模型和F5-朴树贝叶斯模型。在这5个识别模型中，将确定域名的类别最准确的识别模型作为目标识别模型。其中该目标识别模型为第一类目标识别模型。因此，根据20个识别模型的输出结果，得到表5中第一类目标识别模型的评估参数，其中评估参数包括召回率、精确率、准确率、误报率和混淆矩阵，其中混淆矩阵未在标5中出现。从而可以确定满足识别精度要求的目标识别模型分别是F3-朴树贝叶斯模型、F3-随机森林模型、F3-极端梯度模型、F3-支持向量机模型。可以理解的是，第一类目标域名特征为F3，第一类目标识别模型分别是F3-朴树贝叶斯模型、F3-随机森林模型、F3-极端梯度模型、F3-支持向量机模型。如表5所示：

表5第一类目标识别模型的评估参数表

目标识别模型	召回率	精确率	准确率	误报率
					F3-朴树贝叶斯模型	0.961	0.961	0.96	0.041
F3-随机森林模型	0.931	0.963	0.947	0.037
					F3-极端梯度模型	0.959	0.981	0.97	0.018
F3-支持向量机模型	0.961	0.992	0.976	0.008

根据目标识别模型的评估参数，以F3-朴树贝叶斯模型为例，可以绘制F3-朴树贝叶斯模型对应的ROC曲线图，根据F3-朴树贝叶斯模型对应的ROC曲线图可以确定F3-朴树贝叶斯模型对应的AUC的值，其中如何确定AUC的值已在上述名词解释的时候详细描述，在此不做赘述。

步骤401至步骤404可以看出，通过将第一训练样本的M类初始特征对初始识别模型进行训练，得到M个识别模型，然后再通过第一测试样本从M个识别模型中筛选出符合识别精度要求的识别模型作为第一类目标识别模型，便于后续通过第一类目标识别模型可以在攻击者攻击之前，较准确的确定目标域名的类别。

在一种可能的情况下，由于第一训练样本的数量与第一测试样本的数量较少，无法较好的训练第一类目标识别模型，因此，确定的第一类目标识别模型之前还需要进行二次训练，从而使得将第一类目标识别模型进行二次训练后，可以更准确的确定目标域名的类别。具体来说，通过各第二训练样本对目标识别模型进行训练，从而实现更新目标识别模型，举个例子，若有域名数据集100万，其中第一训练样本的数量为域名数据集中的十分之一，也就是10万，用于确定M个识别模型，第一测试样本的数量为域名数据及中的十分之一，也是10万，用于从M个识别模型中筛选出第一类目标识别模型。当确定了第一类目标识别模型之后，为了提高目标域名模型输出的结果的准确性，再将域名数据集100万分为第二训练样本和第二测试样本，其中，第二训练样本为50万，第二测试样本也是50万，第二训练样本和第二测试样本是用于对第一类目标识别模型进行二次训练，从而便于后续通过第一类目标识别模型可以在攻击者攻击之前，较准确的确定目标域名的类别。其中，由于第一训练样本和第一测试样本是用于筛选出第一类目标识别模型，因此，并不需要较多的样本数量来筛选出第一类目标识别模型。而第二训练样本和第二测试样本是用于训练第一类目标识别模型，为了使得将第一类目标识别模型在训练之后，可以更准确的确定目标域名的类别，因此，为了实现可以更准确的确定目标域名的类别，需要大量的样本数量输入至第一类目标识别模型中对第一类目标识别模型进行训练，因此，第二训练样本的个数多于第一训练样本的个数。

在确定了第一类目标识别模型之后，将第一类目标识别模型和第二类目标识别模型组合得到目标识别模型。下面介绍目标识别模型的结果是如何确定的。

本发明实施例中，由于目标识别模型是由第一类目标识别模型和第二类目标识别模型组成的，分别是F3-朴树贝叶斯模型、F3-随机森林模型、F3-极端梯度模型、F3-支持向量机模型、TF-IDF特征-逻辑回归模型和TF-IDF特征-多层感知器模型。举个例子，若将域名A的第一类目标域名特征输入至第一类目标识别模型中，将域名A的第二类目标域名特征输入至第二类目标识别模型中，将得到的结果设为r，其中r为恶意域名的时候值为-1，认为正常域名的时候值为1，根据公式5可以确定目标识别模型的结果。如公式5所示：

result＝∑i∈(r/(1-r(AUC))) 公式5

其中r(AUC)表示目标识别模型中其中一个模型对应的AUC的值，r表示的是目标识别模型中其中一个模型对应的结果。

若result为正时，目标识别模型输出的结果为正常域名，若result为负时，目标识别模型输出的结果为恶意域名。

基于上述同样的技术构思，本发明实施例还提供一种识别域名类别的装置，该装置可执行上述发明方法实施例中的方法。本发明实施例提供的一种识别域名类别的装置的结构可参见图5，该装置500包括：获取单元501用于：按照各类目标特征提取方式，对目标域名进行特征提取，得到各类目标域名特征；处理单元502用于：针对每类目标域名特征，通过所述目标域名特征对应的目标识别模型，得到所述目标域名在所述目标域名特征下的初始类别；根据各类目标域名特征的初始类别，确定所述目标域名的类别。

可选的，处理单元502具体用于：按照N类初始特征提取方式，对各第一训练样本进行特征提取，得到每个第一训练样本对应的M类初始域名特征；针对任一初始识别模型，通过各第一训练样本的M类初始域名特征对所述初始识别模型进行训练，得到M个识别模型；通过第一测试样本，从所述M个识别模型中确定出满足识别精度要求的识别模型作为目标识别模型。

可选的，处理单元502具体用于：按照N类初始特征提取方式，对各第一训练样本进行特征提取，得到每个第一训练样本对应的N类特征信息；按照预设组合方式，将每个第一训练样本对应的N类特征信息进行组合，得到每个第一训练样本对应的M类初始域名特征。

可选的，处理单元502具体用于：通过各第二训练样本对所述目标识别模型进行训练，更新所述目标识别模型；所述各第二训练样本的个数多于所述各第一训练样本的个数。

基于相同的技术构思，本申请实施例还提供了一种计算设备，如图6所示，计算设备600包括至少一个处理器601，以及与至少一个处理器连接的存储器602，本申请实施例中不限定处理器601与存储器602之间的具体连接介质，图6中处理器601和存储器602之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器602存储有可被至少一个处理器601执行的指令，至少一个处理器601通过执行存储器602存储的指令，可以执行前述的识别域名类别的方法中所包括的步骤。

其中，处理器601是计算设备的控制中心，可以利用各种接口和线路连接计算设备的各个部分，通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据，从而实现数据处理。可选的，处理器601可包括一个或多个处理单元，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理下发指令。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。在一些实施例中，处理器601和存储器602可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器601可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合识别域名类别的方法实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器602作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于相同的技术构思，本申请实施例还提供了一种计算机可读存储介质，其存储有可由计算设备执行的计算机程序，当所述程序在所述计算设备上运行时，使得所述计算设备执行上述识别域名类别的方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种识别域名类别的方法，其特征在于，包括：

按照各类目标特征提取方式，对目标域名进行特征提取，得到各类目标域名特征；

针对每类目标域名特征，通过所述目标域名特征对应的目标识别模型，得到所述目标域名在所述目标域名特征下的初始类别；

根据各类目标域名特征的初始类别，确定所述目标域名的类别。

2.如权利要求1所述的方法，其特征在于，所述至少一类目标域名特征对应的目标识别模型是通过如下方式得到的，包括：

按照N类初始特征提取方式，对各第一训练样本进行特征提取，得到每个第一训练样本对应的M类初始域名特征；

针对任一初始识别模型，通过各第一训练样本的M类初始域名特征对所述初始识别模型进行训练，得到M个识别模型；通过第一测试样本，从所述M个识别模型中确定出满足识别精度要求的识别模型作为目标识别模型。

3.如权利要求2所述的方法，其特征在于，所述按照N类初始特征提取方式，对各第一训练样本进行特征提取，得到每个第一训练样本对应的M类初始域名特征，包括：

按照N类初始特征提取方式，对各第一训练样本进行特征提取，得到每个第一训练样本对应的N类特征信息；

按照预设组合方式，将每个第一训练样本对应的N类特征信息进行组合，得到每个第一训练样本对应的M类初始域名特征。

4.如权利要求3所述的方法，其特征在于，所述N类特征信息包括：域名的字符特征信息、域名的信息熵、域名的顶级域名类别及域名的不同字节片段序列。

5.如权利要求3所述的方法，其特征在于，域名的字符特征信息包括域名的字符转移概率、域名的元音字母比例、域名的唯一字符数、域名的字符长度；

域名的不同字节片段序列包括：一元的字节片段序列、二元的字节片段序列及三元的字节片段序列；

所述M类初始域名特征包括：

一元的字节片段序列构成的初始域名特征；

一元的字节片段序列及二元的字节片段序列构成的初始域名特征；

一元的字节片段序列、二元的字节片段序列及三元的字节片段序列构成的初始域名特征；

域名的信息熵、域名的顶级域名类别、域名的字符转移概率及域名的元音字母比例构成的初始域名特征；

域名的唯一字符数、域名的字符长度、域名的信息熵、域名的顶级域名类别、域名的字符转移概率及域名的元音字母比例构成的初始域名特征。

6.如权利要求2所述的方法，其特征在于，各初始识别模型包括：朴树贝叶斯模型、随机森林模型、极端梯度模型、支持向量机模型。

7.如权利要求2所述的方法，其特征在于，从所述M个识别模型中确定出满足识别精度要求的识别模型作为目标识别模型之后，还包括：

通过各第二训练样本对所述目标识别模型进行训练，更新所述目标识别模型；所述各第二训练样本的个数多于所述各第一训练样本的个数。

8.如权利要求1至7任一项所述的方法，其特征在于，至少一类目标域名特征为域名的词频-逆文本频率指数TF-IDF特征；

TF-IDF特征对应的目标识别模型至少包括：逻辑回归模型和多层感知器模型。

9.一种识别域名类别的装置，其特征在于，包括：

获取单元用于：按照各类目标特征提取方式，对目标域名进行特征提取，得到各类目标域名特征；

处理单元用于：针对每类目标域名特征，通过所述目标域名特征对应的目标识别模型，得到所述目标域名在所述目标域名特征下的初始类别；根据各类目标域名特征的初始类别，确定所述目标域名的类别。

10.一种计算设备，其特征在于，包括至少一个处理器以及至少一个存储器，其中，存储器存储有计算机程序，当程序被处理器执行时，使得处理器执行权利要求1至8任一权利要求的方法。

11.一种计算机可读存储介质，其特征在于，存储介质存储有程序，当程序在计算机上运行时，使得计算机实现执行权利要求1至8中任一项的方法。