CN109889491A

CN109889491A - 一种基于词法特征的恶意域名快速检测方法

Info

Publication number: CN109889491A
Application number: CN201910001373.3A
Authority: CN
Inventors: 赵宏; 常兆斌; 孔东一; 王伟杰; 杨永娟; 刘娟; 党育; 王孝通; 刘向东
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2019-06-14

Abstract

本发明公开了一种基于词法特征的恶意域名快速检测方法，包括步骤：数据标准化，将待测域名按照长度进行正则化处理；权值计算，通过计算待测域名的权值，将域名词法特征的提取转化为数值计算；聚类分组，利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组；组间排序，利用改进的堆排序算法按照组内权值总和计算各域名小组优先级；域名检测，按照优先级降序依次计算域名小组中每一域名与黑名单上域名之间的编辑距离，并根据编辑距离的大小快速判断出恶意域名。与现有技术相比，本发明不依赖在线获取域名解析数据，可以单独、快速完成恶意域名检测，为恶意域名的检测提供了一种新思路，丰富了恶意域名的检测手段。

Description

一种基于词法特征的恶意域名快速检测方法

技术领域

本发明涉及网络信息安全领域，尤其涉及一种基于词法特征的恶意域名快速检测方法。

背景技术

互联网技术的快速发展给人们的工作和生活带来许多便利，同时，出于不同目的的恶意网络攻击事件也层出不穷，如针对域名系统的域名劫持、僵尸网络、远控木马等攻击。

现有恶意域名检测方法大多是根据查询主机活动流量，检测流量异常DNS(DomainName System)服务器的DNS查询流，实现恶意域名的识别与拦截。例如，恶意攻击者通过使用域名生成算法或域名变换技术在短时间内随机生成大量不存在的域名并发出域名解析请求，这些恶意域名解析请求最终因解析失败等原因在DNS服务器间多次转发，增加了网络带宽的占用，使得网络流量在短时间内急剧增长，根据网络流量在短时间内的异常变化对访问请求进行拦截。但基于查询主机活动流量的检测方法需要在线实时获取DNS记录和数据，成本较高，且只对受攻击服务器的恶意域名查询流进行检测，检测范围受限。

发明内容

为克服现有恶意域名检测方法检测范围受限，数据采集周期较长、实时性差等不足，本发明提出一种基于词法特征的恶意域名快速检测方法，以有效地提高恶意域名的检测效率。

本发明的技术方案是这样实现的：

一种基于词法特征的恶意域名快速检测方法，包括步骤

S1：数据标准化，将待测域名按照长度进行正则化处理；

S2：权值计算，通过计算待测域名的权值，将域名词法特征的提取转化为数值计算；

S3：聚类分组，利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组；

S4：组间排序，利用改进的堆排序算法按照组内权值总和计算各域名小组优先级；

S5：域名检测，按照优先级降序依次计算域名小组中每一域名与黑名单上域名之间的编辑距离，并根据编辑距离的大小快速判断出恶意域名。

进一步地，步骤S1所述的正则化处理是采用max-min准则将每一域名长度值转化为[0,1]区间中的数值，如公式(1)所示，

其中，s_i为第i个域名标准化后的值，L_i为域名长度，L_max与L_min分别为域名列表中域名长度最大值与最小值。

进一步地，步骤S2所述的权值计算是通过计算待测域名列表中每条域名的权值，将域名词法特征的提取转化为数值计算，权值计算如公式(2)所示，

其中，w_i为域名权值，L_i为域名长度，c_i是与第i个域名长度值相同的域名在域名列表中出现的次数，n是经过标准化处理后的域名总数，a和b是条件常数，D是恶意域名与合法域名长度的分界经验值。

进一步地，步骤S3中所述的聚类分组的实现包括步骤

S31：选取经过标准化处理后的n个待测样本，形成大小为n的测试集T，通过计算测试集T中每一域名的权值，构造域名权值集合W＝(w₁,...,w_n)；

S32：利用测试集T中每一标准化后的样本值s_i与对应的权值w_i，根据公式(3)求解候选支持点集合P＝{(w_i，u_i)|i＝1,...,n}，

其中，μ_i(i＝1,...,n)是在经过标准化的(s₁,...,s_n)上选取的候选支持点，w_i(i＝1,...,n)为域名权值；

S33：将候选支持点集合P中的每一组候选支持点带入公式(4)来寻找每一小组中的最优支持点，

其中,x_i(i＝1,...,n)是在候选支持点中取得的最优支持点，c_i是与第i个域名长度值相同的域名在域名列表中出现的次数；

S34：将找到的最优支持点组合成支持点集合ν＝{x₁,...,x_m}，通过公式(5)计算测试集T中每一待测域名s_i与支持点集合ν中最优支持点x_j(j＝1,...,m,m<n)之间的距离。

进一步地，步骤S4所述的组间排序实现包括步骤

S41：根据优先级降序序列构建成一个小顶堆；

S42：待堆顶最小元素取出后，比较当前空缺节点的左右孩子节点，小者放入堆顶；

S43：比较子树中空缺位置的左右孩子节点大小，小者进入空缺位置；

S44：重复步骤S42和S43，直到堆顶节点为空。

进一步地，步骤S5所述的编辑距离计算是通过插入、删除、替换操作计算两个域名字符串序列的最小编辑距离，如公式(6)所示，

其中，d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]+1分别表示编辑过程中域名字符串的插入、删除、替换等操作。

进一步地或更进一步地，步骤S5所述的恶意域名检测是根据各域名小组中每一域名与域名黑名单样本中各域名之间的编辑距离值是否符合预设的判定条件分别判断对应所述域名是否是恶意域名，所述的域名黑名单样本为通过开源渠道获取的恶意域名。

本发明的有益效果在于，与现有技术相比，为恶意域名的检测提供了一种新思路，丰富了恶意域名的检测手段。本发明不依赖在线获取域名解析数据，可以单独、快速完成恶意域名检测。

附图说明

图1为本发明一种基于词法特征的恶意域名快速检测方法流程图；

图2为本发明一种基于词法特征的恶意域名快速检测方法的系统结构示意图；

图3为本发明一种基于词法特征的恶意域名快速检测方法详细的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种基于词法特征的恶意域名快速检测方法总体原理示意如图1和图2所示，本发明的技术方案思路是：通过将待测域名按照长度进行正则化处理后赋予权值，然后利用聚类算法将待测域名完成分类，其次，结合改进的堆排序算法构建组间优先级，按照组间优先级依次计算小组内每一域名与黑名单上域名之间的编辑距离，最后，根据编辑距离的大小快速识别出恶意域名。

如图3所示，本发明的一种基于词法特征的恶意域名快速检测方法，包括以下步骤

S1：数据标准化，将待测域名按照长度进行正则化处理；其中，

所述的正则化处理是采用max-min准则将每一域名长度值转化为[0,1]区间中的数值，如公式(1)所示，

S2：权值计算，通过计算待测域名的权值，将域名词法特征的提取转化为数值计算，所述的权值计算是通过计算待测域名列表中每条域名的权值，将域名词法特征的提取转化为数值计算，权值计算如公式(2)所示，

S3：聚类分组，利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组，其中，所述的聚类分组是采用寻优的思想将经过权值计算的待测域名划分成组内域名长度相似的多个小组。

对于前述聚类分组步骤的主要流程为：

S32：利用测试集T中每一标准化后的样本值s_i与对应的权值w_i，根据公式(3)求解候选支持点集合P＝{(w_i，u_i)|i＝1,...,n}；

其中，μ_i(i＝1,...,n)是在经过标准化的(s₁,...,s_n)上选取的候选支持点，w_i(i＝1,...,n)为域名权值。

S33：将候选支持点集合P中的每一组候选支持点带入公式(4)来寻找每一小组中的最优支持点；

其中,x_i(i＝1,...,n)是在候选支持点中取得的最优支持点，c_i是与第i个域名长度值相同的域名在域名列表中出现的次数。

S34：将找到的最优支持点组合成支持点集合v＝{x₁,...,x_m}，通过公式(5)计算测试集T中每一待测域名s_i与支持点集合v中最优支持点x_j(j＝1,...,m,m<n)之间的距离。

S4：组间排序，利用改进的堆排序算法按照组内权值总和计算各域名小组优先级，所述的组间排序是利用改进的堆排序算法根据小组权值总和降序构建小顶堆组，便于优先级较高的待测域名小组与恶意域名黑名单优先比较。

对于前述组间排序步骤的主要流程为：

S41：根据优先级降序序列构建成一个小顶堆；

S44：重复步骤S42和S43，直到堆顶节点为空。

S5：域名检测，按照优先级降序依次计算域名小组中每一域名与黑名单上域名之间的编辑距离，并根据编辑距离的大小快速判断出恶意域名，其中，所述的编辑距离计算是通过插入、删除、替换等操作计算两个域名字符串序列的最小编辑距离，如公式(6)所示。

恶意域名检测是根据各域名小组中每一域名与域名黑名单样本中各域名之间的编辑距离值是否符合预设的判定条件分别判断小组中每一域名是否为恶意域名。

域名黑名单样本为通过开源渠道获取的恶意域名，如Malware Domain NameList、Malware Domains、PhiskTank和CyberCrime Tracker恶意域名列表。

将计算得到的编辑距离值与预设的阈值进行比较，当待测域名与域名黑名单上每一域名之间的编辑距离值小于或者等于该预设的阈值时，则判定该域名为恶意域名，否则为合法域名。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于词法特征的恶意域名快速检测方法，其特征在于，包括步骤

S1：数据标准化，将待测域名按照长度进行正则化处理；

2.如权利要求1所述的基于词法特征的恶意域名快速检测方法，其特征在于，步骤S1所述的正则化处理是采用max-min准则将每一域名长度值转化为[0,1]区间中的数值，计算公式为

3.如权利要求1所述的基于词法特征的恶意域名快速检测方法，其特征在于，步骤S2所述的权值计算是通过计算待测域名列表中每条域名的权值，将域名词法特征的提取转化为数值计算，权值计算公式为

4.如权利要求1所述的基于词法特征的恶意域名快速检测方法，其特征在于，步骤S3中所述的聚类分组的实现包括步骤

S32：利用测试集T中每一标准化后的样本值s_i与对应的权值w_i，根据公式求解候选支持点集合P＝{(w_i，u_i)|i＝1,...,n}，其中，μ_i(i＝1,...,n)是在经过标准化的(s₁,...,s_n)上选取的候选支持点，w_i(i＝1,...,n)为域名权值；

S33：将候选支持点集合P中的每一组候选支持点带入公式来寻找每一小组中的最优支持点，其中,x_i(i＝1,...,n)是在候选支持点中取得的最优支持点，c_i是与第i个域名长度值相同的域名在域名列表中出现的次数；

S34：将找到的最优支持点组合成支持点集合v＝{x₁,...,x_m}，通过公式计算测试集T中每一待测域名s_i与支持点集合ν中最优支持点x_j(j＝1,...,m,m<n)之间的距离。

5.如权利要求1所述的基于词法特征的恶意域名快速检测方法，其特征在于，步骤S4所述的组间排序实现包括步骤

S41：根据优先级降序序列构建成一个小顶堆；

S44：重复步骤S42和S43，直到堆顶节点为空。

6.如权利要求1所述的基于词法特征的恶意域名快速检测方法，其特征在于，步骤S5所述的编辑距离计算是通过插入、删除、替换操作计算两个域名字符串序列的最小编辑距离，采用的计算公式为

7.如权利要求1或权利要求6所述的基于词法特征的恶意域名快速检测方法，其特征在于，步骤S5所述的恶意域名检测是根据各域名小组中每一域名与域名黑名单样本中各域名之间的编辑距离值是否符合预设的判定条件，分别判断域名小组中每一域名是否为恶意域名，所述的域名黑名单样本为通过开源渠道获取的恶意域名。