CN109889491A - 一种基于词法特征的恶意域名快速检测方法 - Google Patents
一种基于词法特征的恶意域名快速检测方法 Download PDFInfo
- Publication number
- CN109889491A CN109889491A CN201910001373.3A CN201910001373A CN109889491A CN 109889491 A CN109889491 A CN 109889491A CN 201910001373 A CN201910001373 A CN 201910001373A CN 109889491 A CN109889491 A CN 109889491A
- Authority
- CN
- China
- Prior art keywords
- domain name
- weight
- malicious
- value
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims description 5
- 230000037431 insertion Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 abstract 1
- 238000013507 mapping Methods 0.000 abstract 1
- 238000010606 normalization Methods 0.000 abstract 1
- 238000012163 sequencing technique Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于词法特征的恶意域名快速检测方法,包括步骤:数据标准化,将待测域名按照长度进行正则化处理;权值计算,通过计算待测域名的权值,将域名词法特征的提取转化为数值计算;聚类分组,利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组;组间排序,利用改进的堆排序算法按照组内权值总和计算各域名小组优先级;域名检测,按照优先级降序依次计算域名小组中每一域名与黑名单上域名之间的编辑距离,并根据编辑距离的大小快速判断出恶意域名。与现有技术相比,本发明不依赖在线获取域名解析数据,可以单独、快速完成恶意域名检测,为恶意域名的检测提供了一种新思路,丰富了恶意域名的检测手段。
Description
技术领域
本发明涉及网络信息安全领域,尤其涉及一种基于词法特征的恶意域名快速检测方法。
背景技术
互联网技术的快速发展给人们的工作和生活带来许多便利,同时,出于不同目的的恶意网络攻击事件也层出不穷,如针对域名系统的域名劫持、僵尸网络、远控木马等攻击。
现有恶意域名检测方法大多是根据查询主机活动流量,检测流量异常DNS(DomainName System)服务器的DNS查询流,实现恶意域名的识别与拦截。例如,恶意攻击者通过使用域名生成算法或域名变换技术在短时间内随机生成大量不存在的域名并发出域名解析请求,这些恶意域名解析请求最终因解析失败等原因在DNS服务器间多次转发,增加了网络带宽的占用,使得网络流量在短时间内急剧增长,根据网络流量在短时间内的异常变化对访问请求进行拦截。但基于查询主机活动流量的检测方法需要在线实时获取DNS记录和数据,成本较高,且只对受攻击服务器的恶意域名查询流进行检测,检测范围受限。
发明内容
为克服现有恶意域名检测方法检测范围受限,数据采集周期较长、实时性差等不足,本发明提出一种基于词法特征的恶意域名快速检测方法,以有效地提高恶意域名的检测效率。
本发明的技术方案是这样实现的:
一种基于词法特征的恶意域名快速检测方法,包括步骤
S1:数据标准化,将待测域名按照长度进行正则化处理;
S2:权值计算,通过计算待测域名的权值,将域名词法特征的提取转化为数值计算;
S3:聚类分组,利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组;
S4:组间排序,利用改进的堆排序算法按照组内权值总和计算各域名小组优先级;
S5:域名检测,按照优先级降序依次计算域名小组中每一域名与黑名单上域名之间的编辑距离,并根据编辑距离的大小快速判断出恶意域名。
进一步地,步骤S1所述的正则化处理是采用max-min准则将每一域名长度值转化为[0,1]区间中的数值,如公式(1)所示,
其中,si为第i个域名标准化后的值,Li为域名长度,Lmax与Lmin分别为域名列表中域名长度最大值与最小值。
进一步地,步骤S2所述的权值计算是通过计算待测域名列表中每条域名的权值,将域名词法特征的提取转化为数值计算,权值计算如公式(2)所示,
其中,wi为域名权值,Li为域名长度,ci是与第i个域名长度值相同的域名在域名列表中出现的次数,n是经过标准化处理后的域名总数,a和b是条件常数,D是恶意域名与合法域名长度的分界经验值。
进一步地,步骤S3中所述的聚类分组的实现包括步骤
S31:选取经过标准化处理后的n个待测样本,形成大小为n的测试集T,通过计算测试集T中每一域名的权值,构造域名权值集合W=(w1,...,wn);
S32:利用测试集T中每一标准化后的样本值si与对应的权值wi,根据公式(3)求解候选支持点集合P={(wi,ui)|i=1,...,n},
其中,μi(i=1,...,n)是在经过标准化的(s1,...,sn)上选取的候选支持点,wi(i=1,...,n)为域名权值;
S33:将候选支持点集合P中的每一组候选支持点带入公式(4)来寻找每一小组中的最优支持点,
其中,xi(i=1,...,n)是在候选支持点中取得的最优支持点,ci是与第i个域名长度值相同的域名在域名列表中出现的次数;
S34:将找到的最优支持点组合成支持点集合ν={x1,...,xm},通过公式(5)计算测试集T中每一待测域名si与支持点集合ν中最优支持点xj(j=1,...,m,m<n)之间的距离。
进一步地,步骤S4所述的组间排序实现包括步骤
S41:根据优先级降序序列构建成一个小顶堆;
S42:待堆顶最小元素取出后,比较当前空缺节点的左右孩子节点,小者放入堆顶;
S43:比较子树中空缺位置的左右孩子节点大小,小者进入空缺位置;
S44:重复步骤S42和S43,直到堆顶节点为空。
进一步地,步骤S5所述的编辑距离计算是通过插入、删除、替换操作计算两个域名字符串序列的最小编辑距离,如公式(6)所示,
其中,d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]+1分别表示编辑过程中域名字符串的插入、删除、替换等操作。
进一步地或更进一步地,步骤S5所述的恶意域名检测是根据各域名小组中每一域名与域名黑名单样本中各域名之间的编辑距离值是否符合预设的判定条件分别判断对应所述域名是否是恶意域名,所述的域名黑名单样本为通过开源渠道获取的恶意域名。
本发明的有益效果在于,与现有技术相比,为恶意域名的检测提供了一种新思路,丰富了恶意域名的检测手段。本发明不依赖在线获取域名解析数据,可以单独、快速完成恶意域名检测。
附图说明
图1为本发明一种基于词法特征的恶意域名快速检测方法流程图;
图2为本发明一种基于词法特征的恶意域名快速检测方法的系统结构示意图;
图3为本发明一种基于词法特征的恶意域名快速检测方法详细的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一种基于词法特征的恶意域名快速检测方法总体原理示意如图1和图2所示,本发明的技术方案思路是:通过将待测域名按照长度进行正则化处理后赋予权值,然后利用聚类算法将待测域名完成分类,其次,结合改进的堆排序算法构建组间优先级,按照组间优先级依次计算小组内每一域名与黑名单上域名之间的编辑距离,最后,根据编辑距离的大小快速识别出恶意域名。
如图3所示,本发明的一种基于词法特征的恶意域名快速检测方法,包括以下步骤
S1:数据标准化,将待测域名按照长度进行正则化处理;其中,
所述的正则化处理是采用max-min准则将每一域名长度值转化为[0,1]区间中的数值,如公式(1)所示,
其中,si为第i个域名标准化后的值,Li为域名长度,Lmax与Lmin分别为域名列表中域名长度最大值与最小值。
S2:权值计算,通过计算待测域名的权值,将域名词法特征的提取转化为数值计算,所述的权值计算是通过计算待测域名列表中每条域名的权值,将域名词法特征的提取转化为数值计算,权值计算如公式(2)所示,
其中,wi为域名权值,Li为域名长度,ci是与第i个域名长度值相同的域名在域名列表中出现的次数,n是经过标准化处理后的域名总数,a和b是条件常数,D是恶意域名与合法域名长度的分界经验值。
S3:聚类分组,利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组,其中,所述的聚类分组是采用寻优的思想将经过权值计算的待测域名划分成组内域名长度相似的多个小组。
对于前述聚类分组步骤的主要流程为:
S31:选取经过标准化处理后的n个待测样本,形成大小为n的测试集T,通过计算测试集T中每一域名的权值,构造域名权值集合W=(w1,...,wn);
S32:利用测试集T中每一标准化后的样本值si与对应的权值wi,根据公式(3)求解候选支持点集合P={(wi,ui)|i=1,...,n};
其中,μi(i=1,...,n)是在经过标准化的(s1,...,sn)上选取的候选支持点,wi(i=1,...,n)为域名权值。
S33:将候选支持点集合P中的每一组候选支持点带入公式(4)来寻找每一小组中的最优支持点;
其中,xi(i=1,...,n)是在候选支持点中取得的最优支持点,ci是与第i个域名长度值相同的域名在域名列表中出现的次数。
S34:将找到的最优支持点组合成支持点集合v={x1,...,xm},通过公式(5)计算测试集T中每一待测域名si与支持点集合v中最优支持点xj(j=1,...,m,m<n)之间的距离。
S4:组间排序,利用改进的堆排序算法按照组内权值总和计算各域名小组优先级,所述的组间排序是利用改进的堆排序算法根据小组权值总和降序构建小顶堆组,便于优先级较高的待测域名小组与恶意域名黑名单优先比较。
对于前述组间排序步骤的主要流程为:
S41:根据优先级降序序列构建成一个小顶堆;
S42:待堆顶最小元素取出后,比较当前空缺节点的左右孩子节点,小者放入堆顶;
S43:比较子树中空缺位置的左右孩子节点大小,小者进入空缺位置;
S44:重复步骤S42和S43,直到堆顶节点为空。
S5:域名检测,按照优先级降序依次计算域名小组中每一域名与黑名单上域名之间的编辑距离,并根据编辑距离的大小快速判断出恶意域名,其中,所述的编辑距离计算是通过插入、删除、替换等操作计算两个域名字符串序列的最小编辑距离,如公式(6)所示。
其中,d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]+1分别表示编辑过程中域名字符串的插入、删除、替换等操作。
恶意域名检测是根据各域名小组中每一域名与域名黑名单样本中各域名之间的编辑距离值是否符合预设的判定条件分别判断小组中每一域名是否为恶意域名。
域名黑名单样本为通过开源渠道获取的恶意域名,如Malware Domain NameList、Malware Domains、PhiskTank和CyberCrime Tracker恶意域名列表。
将计算得到的编辑距离值与预设的阈值进行比较,当待测域名与域名黑名单上每一域名之间的编辑距离值小于或者等于该预设的阈值时,则判定该域名为恶意域名,否则为合法域名。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种基于词法特征的恶意域名快速检测方法,其特征在于,包括步骤
S1:数据标准化,将待测域名按照长度进行正则化处理;
S2:权值计算,通过计算待测域名的权值,将域名词法特征的提取转化为数值计算;
S3:聚类分组,利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组;
S4:组间排序,利用改进的堆排序算法按照组内权值总和计算各域名小组优先级;
S5:域名检测,按照优先级降序依次计算域名小组中每一域名与黑名单上域名之间的编辑距离,并根据编辑距离的大小快速判断出恶意域名。
2.如权利要求1所述的基于词法特征的恶意域名快速检测方法,其特征在于,步骤S1所述的正则化处理是采用max-min准则将每一域名长度值转化为[0,1]区间中的数值,计算公式为
其中,si为第i个域名标准化后的值,Li为域名长度,Lmax与Lmin分别为域名列表中域名长度最大值与最小值。
3.如权利要求1所述的基于词法特征的恶意域名快速检测方法,其特征在于,步骤S2所述的权值计算是通过计算待测域名列表中每条域名的权值,将域名词法特征的提取转化为数值计算,权值计算公式为
其中,wi为域名权值,Li为域名长度,ci是与第i个域名长度值相同的域名在域名列表中出现的次数,n是经过标准化处理后的域名总数,a和b是条件常数,D是恶意域名与合法域名长度的分界经验值。
4.如权利要求1所述的基于词法特征的恶意域名快速检测方法,其特征在于,步骤S3中所述的聚类分组的实现包括步骤
S31:选取经过标准化处理后的n个待测样本,形成大小为n的测试集T,通过计算测试集T中每一域名的权值,构造域名权值集合W=(w1,...,wn);
S32:利用测试集T中每一标准化后的样本值si与对应的权值wi,根据公式求解候选支持点集合P={(wi,ui)|i=1,...,n},其中,μi(i=1,...,n)是在经过标准化的(s1,...,sn)上选取的候选支持点,wi(i=1,...,n)为域名权值;
S33:将候选支持点集合P中的每一组候选支持点带入公式来寻找每一小组中的最优支持点,其中,xi(i=1,...,n)是在候选支持点中取得的最优支持点,ci是与第i个域名长度值相同的域名在域名列表中出现的次数;
S34:将找到的最优支持点组合成支持点集合v={x1,...,xm},通过公式计算测试集T中每一待测域名si与支持点集合ν中最优支持点xj(j=1,...,m,m<n)之间的距离。
5.如权利要求1所述的基于词法特征的恶意域名快速检测方法,其特征在于,步骤S4所述的组间排序实现包括步骤
S41:根据优先级降序序列构建成一个小顶堆;
S42:待堆顶最小元素取出后,比较当前空缺节点的左右孩子节点,小者放入堆顶;
S43:比较子树中空缺位置的左右孩子节点大小,小者进入空缺位置;
S44:重复步骤S42和S43,直到堆顶节点为空。
6.如权利要求1所述的基于词法特征的恶意域名快速检测方法,其特征在于,步骤S5所述的编辑距离计算是通过插入、删除、替换操作计算两个域名字符串序列的最小编辑距离,采用的计算公式为
其中,d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]+1分别表示编辑过程中域名字符串的插入、删除、替换等操作。
7.如权利要求1或权利要求6所述的基于词法特征的恶意域名快速检测方法,其特征在于,步骤S5所述的恶意域名检测是根据各域名小组中每一域名与域名黑名单样本中各域名之间的编辑距离值是否符合预设的判定条件,分别判断域名小组中每一域名是否为恶意域名,所述的域名黑名单样本为通过开源渠道获取的恶意域名。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910001373.3A CN109889491A (zh) | 2019-01-02 | 2019-01-02 | 一种基于词法特征的恶意域名快速检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910001373.3A CN109889491A (zh) | 2019-01-02 | 2019-01-02 | 一种基于词法特征的恶意域名快速检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109889491A true CN109889491A (zh) | 2019-06-14 |
Family
ID=66925536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910001373.3A Withdrawn CN109889491A (zh) | 2019-01-02 | 2019-01-02 | 一种基于词法特征的恶意域名快速检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109889491A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7685090B2 (en) * | 2002-06-28 | 2010-03-23 | Microsoft Corporation | Detecting duplicate records in databases |
CN102664878A (zh) * | 2012-04-10 | 2012-09-12 | 中国科学院计算机网络信息中心 | 仿冒域名检测方法及设备 |
CN104853004A (zh) * | 2015-05-26 | 2015-08-19 | 湖南傻蛋科技有限公司 | 一种域名的分布式智能解析方法 |
CN108712403A (zh) * | 2018-05-04 | 2018-10-26 | 哈尔滨工业大学(威海) | 基于域名构造相似性的非法域名挖掘方法 |
-
2019
- 2019-01-02 CN CN201910001373.3A patent/CN109889491A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7685090B2 (en) * | 2002-06-28 | 2010-03-23 | Microsoft Corporation | Detecting duplicate records in databases |
CN102664878A (zh) * | 2012-04-10 | 2012-09-12 | 中国科学院计算机网络信息中心 | 仿冒域名检测方法及设备 |
CN104853004A (zh) * | 2015-05-26 | 2015-08-19 | 湖南傻蛋科技有限公司 | 一种域名的分布式智能解析方法 |
CN108712403A (zh) * | 2018-05-04 | 2018-10-26 | 哈尔滨工业大学(威海) | 基于域名构造相似性的非法域名挖掘方法 |
Non-Patent Citations (1)
Title |
---|
张宏等: "基于词法特征的恶意域名快速检测算法", 《计算机应用》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107786575B (zh) | 一种基于dns流量的自适应恶意域名检测方法 | |
CN107666490B (zh) | 一种可疑域名检测方法及装置 | |
CN111935170B (zh) | 一种网络异常流量检测方法、装置及设备 | |
CN111212053B (zh) | 一种面向工控蜜罐的同源攻击分析方法 | |
CN107770132B (zh) | 一种对算法生成域名进行检测的方法及装置 | |
CN112866023B (zh) | 网络检测、模型训练方法、装置、设备及存储介质 | |
CN112788066B (zh) | 物联网设备的异常流量检测方法、系统及存储介质 | |
US20090271865A1 (en) | Method and device for detecting flood attacks | |
CN108282497A (zh) | 针对SDN控制平面的DDoS攻击检测方法 | |
CN111131260B (zh) | 一种海量网络恶意域名识别和分类方法及系统 | |
CN113206860B (zh) | 一种基于机器学习和特征选择的DRDoS攻击检测方法 | |
CN102571487B (zh) | 基于多数据源分布式的僵尸网络规模测量及追踪方法 | |
CN107483451B (zh) | 基于串并行结构网络安全数据处理方法及系统、社交网络 | |
CN110650156B (zh) | 网络实体的关系聚类方法、装置及网络事件的识别方法 | |
CN113706100B (zh) | 配电网物联终端设备实时探测识别方法与系统 | |
CN111181969B (zh) | 一种基于自发流量的物联网设备识别方法 | |
CN113872962B (zh) | 一种面向高速网络抽样数据采集场景的慢速端口扫描检测方法 | |
CN107360190A (zh) | 基于序列模式识别的木马通信行为检测方法 | |
CN112235254B (zh) | 一种高速主干网中Tor网桥的快速识别方法 | |
CN116192530A (zh) | 一种基于欺骗性防御的未知威胁自适应检测方法 | |
CN109889491A (zh) | 一种基于词法特征的恶意域名快速检测方法 | |
CN110650157A (zh) | 基于集成学习的Fast-flux域名检测方法 | |
CN111901137A (zh) | 一种利用蜜罐告警日志挖掘多步攻击场景的方法 | |
CN111447169A (zh) | 一种在网关上的实时恶意网页识别方法及系统 | |
Atmojo et al. | A New Approach for ARP Poisoning Attack Detection Based on Network Traffic Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190614 |