CN111654487B - 一种基于旁路网络全流量与行为特征dga域名识别方法 - Google Patents

一种基于旁路网络全流量与行为特征dga域名识别方法 Download PDF

Info

Publication number
CN111654487B
CN111654487B CN202010456649.XA CN202010456649A CN111654487B CN 111654487 B CN111654487 B CN 111654487B CN 202010456649 A CN202010456649 A CN 202010456649A CN 111654487 B CN111654487 B CN 111654487B
Authority
CN
China
Prior art keywords
domain name
dga
flow
domain
suspicious
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010456649.XA
Other languages
English (en)
Other versions
CN111654487A (zh
Inventor
贵帅
黄跃珍
高才
郭晓冬
唐锡南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Radio And Television Research Institute Co ltd
Original Assignee
Nanjing Clearcloud Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Clearcloud Software Technology Co ltd filed Critical Nanjing Clearcloud Software Technology Co ltd
Priority to CN202010456649.XA priority Critical patent/CN111654487B/zh
Publication of CN111654487A publication Critical patent/CN111654487A/zh
Application granted granted Critical
Publication of CN111654487B publication Critical patent/CN111654487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1458Denial of Service

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及基于旁路网络全流量与行为特征DGA域名识别方法,通过旁路监听方式提取DNS流量信息,在提取到的DNS流量中通过DGA行为刻画分析,先通过流量特征找出可疑IP,进一步分析相关域名产生DGA域名及相关请求IP的告警,通过交换机旁路镜像端口接收用户网络流量,分离出DNS流量进行聚合;提取相关特征值存入数据库进行分析技术来解决DGA域名难以识别难题。本发明通过对DGA进行行为分析,使用启发式算法设计多级规则进行管道式多级聚合处理,辅以域名长度检查及白名单清洗,解决了目前机器学习算法需逐个检查流量中全部域名,执行效率低,以及对新DGA变种识别能力差的难题,极大地降低了运算量和规则复杂度,提高了对新变种的识别能力。

Description

一种基于旁路网络全流量与行为特征DGA域名识别方法
技术领域
本发明涉及网络安全管理技术领域,尤其涉及一种基于旁路网络全流量与行为特征DGA域名识别方法。
背景技术
僵尸网络正在威胁着互联网网民的安全,僵尸网络中受到恶意软件感染的僵尸主机由僵尸控制者通过C&C主机进行控制,僵尸主机常常利用DNS授权服务器来解析域名,目的是为了跟C&C服务器创建通信通道,然后获取控制命令,从而进行网络恶意活动。在早期,僵尸主机通产采用轮询的方法访问硬编码的C&C域名或IP来访问服务器获取域名,但是这种方式在安全人员进行逆向之后会得到有效的屏蔽。目前,黑客攻击者为了防止恶意域名被发现,会使用Domain Flux或者IP Flux来快速生成大量的恶意域名,Domain Flux是通过不断变换域名,指向同一个IP,IP Flux是只有一个域名,不断变换IP,一个域名可以使用多个IP,域名生成算法(Domain Generation Algorithm),是一种利用随机字符来生成C&C域名,从而逃避域名黑名单检测的技术手段。
目前,识别主要依靠机器学习算法对域名字符串随机性的特征的分析,这种方式需要对网络流量中的每个域名逐个通过机器学习模型做匹配,算法效率较低,模型的特征由已知的DGA家族数据产生,这种方法对新的DGA家族识别率会大大降低,例如单词拼接的域名。
本文提出了一种简单有效的方法来检测同一个IP段内发起的DDoS攻击。该方法通过使用启发式算法进行多级规则管道式的组合,可以检测IP产生的DGA通讯,极大地降低了运算量和规则复杂度,对新的DGA变种,如单词拼接的非随机字符串也能有效检测。
发明内容
本发明目的是为了克服现有技术的不足而提供一种多级规则管道式的组合,可快速检测IP产生的DGA通讯,极大地降低了运算量和规则复杂度的基于旁路网络全流量与行为特征DGA域名识别方法。
下述文档中涉及到的英文所对应的中文解释如下:
DGA域名是通过一种dga算法,作用是生成随机数,然后用dga算法随机生成的域名;
DNS是指域名系统(服务)协议;
SIP是指Source IP, 源IP地址;
DIP是指Destination IP,目的IP地址;
Domain是指 Domain Name,域名;
Answer是指 The answer of Name, 域名解析结果;
Flow是指the number of Connections, 一条流的连接次数,一般是1;
Isresponse是指Whether the message is request or answer,判断是请求还是响应;
Retcode是指 Indicates the type of response message,标志服务端响应报文类型;
DPI是指深度报文分析技术;
top-N是指排名前N个;
domain_count: 唯一域名个数;
last:过去一段时间内;
isresponse:判断该条流是否是响应流的标志位;
dip IN $(dip_list):dip_list是由多个dip组成的列表,完整的意思是限制dip在某个ip列表中;
len()=2:参数为一个列表,代表判断一个列表长度是否为2;
split(domain,’.’):将域名字符串通过’.’划分为几个子字符串组成的列表;
dip_list:由一些dip组成的列表;
ip_ranges(ip,List):限制ip在由多个ip组成的List中;
__iplist_lan__:代表内网网段。
为达到上述目的,本发明采用了如下技术方案。
一种基于旁路网络全流量与行为特征DGA域名识别方法,具体包括以下步骤:
步骤一:从交换机镜像端口获取网络流量,在旁路流量上进行分离和预处理网络流量数据,包括解析出网络通讯DNS流量信息,对每条DNS流量信息用深度报文分析,再提取源IP地址、目的IP地址、域名、方向标志、响应结果、返回码等六个特征值形成网络流量的元数据存储并用于后续进一步分析识别;
步骤二:按照同一固定时间段内对所述步骤一做六维聚合处理,即对(源IP地址,目的IP地址,域名,方向标志,响应结果,返回码)聚合成一条元数据记录,再通过对元数据相关域的求和,计算每个目的IP地址在单位时间内产生的返回类型rcode数值为3且级数为二的域名个数,从而获得可疑域名个数,获得可疑域名个数与级数相同的正常响应的域名个数的比值,通过与设定的比例阈值5%来判断IP是否属于可疑IP地址;
步骤三:将可疑IP地址在上述时间段T内只请求一次的域名筛选出,先对每个域名进行长度检查,并清洗过滤掉人为多次输入错误造成不存在的域名的常规IP地址;
步骤四:所有可疑IP地址经过所述步骤三过滤后剩下的可疑域名个数的数目大于设定阈值即判定为DGA通讯IP地址,过滤出得到域名为DGA域名,至此完成对DGA域名的识别筛选。
作为本发明的进一步改进,所述可疑IP地址按相同的时间段T再做二维聚合运算,即对(目的IP地址,域名)聚合,过滤出时间段T内级数为二、响应类型为域名不存在的响应流数;过滤出flow为1的域名在时间段T内只请求过一次的域名,筛选出的域名为可疑域名。
作为本发明的进一步改进,还对每个Domain的二级域名做长度检查及顶级域名白名单过滤,清洗由人为输入错误造成的不存在域名数据。
由于上述技术方案的运用,本发明的技术方案带来的有益技术效果:本技术方案通过利用旁路网络的流量信息,在不对原来的业务流量造成影响的情况下通过大数据分析技术对DGA域名进行识别,与原来常规机器学习算法检测方法相比,具有不像传统检测需要直连设备而导致影响网络可靠性的问题,另外本识别是基于通讯网络行为特征分析,具有能对新的非随机字符串的DGA变种也能有效识别的有益技术效果;本技术方案还基于聚合计算的启发式算法,具有可极大地降低算法的运算量和规则复杂度的有益技术效果;本技术方案通过行为特征先检测出哪些IP存在DGA通讯,再进一步进行域名长度检查与白名单清洗筛选出DGA域名,依据旁路分析的网络流量信息,在不对原来的业务流量造成影响的情况下对DGA通讯进行识别;本技术方案基于聚合计算的启发式算法,先识别“可疑”域名,减少了需要判断的域名个数,降低了算法复杂度,由于是从行为特征入手,不对DGA域名本身做过多限制,可对新的DGA变种也可以有效识别的技术效果。
具体实施方式
下面结合具体实施例对本发明作进一步的详细说明。
一、采集旁路流量信息
通过在交换机的镜像端口使用高性能的流量采集器采集流量,达到不影响原业务的正常运行的实时旁路检测效果,本发明采集旁路流量信息进行分析:
(1)在交换机的镜像端口部署高性能流量采集器采集流量信息;
(2)按网络协议对旁路流量进行分离,计算出DNS流量信息,每条DNS的流量信息用深度报文分析计算得到,每条DNS的流量信息可以用DNS的元数据来刻画,包括(SIP,DIP,Domain,Answer,flow,Isresponse,Ret_code);
(3)为了应付DDoS攻击中的大流量,需要对DNS元数据进行预处理以达到优化的目的;按照一个时间段T做六维聚合运算,即对(T,SIP,DIP,Domain,Answer,flow,Isresponse,Retcode)聚合,不同元数据被聚合成一条记录进入大数据平台,经过处理后的元数据Flow为相同连接个数的相加,其他取公共值不变。
二、DGA域名识别判断
按照一个时间段T对收到的级数为二(对其他级数的域名也适用)、响应类型为域名不存在的响应数据通过DIP聚合,再使用大数据分析求和,计算唯一域名个数,与正常响应的级数为二的唯一域名个数求比值,通过阈值进行判断。
(1)按DIP聚合后疑似DGA的唯一域名个数top-N
按照一个时间段T做DIP聚合运算,计算结果中的DIP所有DNS响应数据中域名级数为二,响应类型为域名不存在的唯一域名个数记为domain_count。
求取数据集合中不重复值个数,last为设置时间范围函数,retcocode = 3代表域名不存在,ip_ranges(ip,List)判断ip是否在网段内,__iplist_lan__代表内网网段列表,通过split()将DOMAIN通过‘.’划分后用len()=2取字符串列表长度为二的domain,即为级数为两级;聚合的结果取top-N,过滤出domain_count大于阈值T的dip生成列表dip_list,等待进一步处理。
(2)按DIP聚合后正常解析的唯一域名个数top-N
按照一个时间段T做DIP聚合运算,计算所有DNS响应数据中域名级数为二,响应类型为域名正常解析的唯一域名个数记为domain_count。
求取数据集合中不重复值个数,last为设置时间范围函数,AND isresponse = 1代表该条流为响应数据,retcocode = 0代表域名正常解析, AND dip IN $(dip_list)要求dip为上一步所求的dip中一员,AND len(split(domain,’.’))=2要求domain级数不能在三级及以上且不能为一级,即域名为两级,聚合的结果取top-N做进一步结合正常响应数据做进一步分析。
(3)DGA通讯初步判断
将以上两步中每一个DIP所求出的正常响应域名个数和可疑响应域名个数进行对比,如果可疑域名个数与正常响应域名个数比值大于T,则判断该DIP疑似存在DGA通讯。
根据如上提取到的可疑IP表,再按相同的时间段T做二维聚合运算,即对(目的IP地址,域名)聚合,过滤出时间段T内级数为二、响应类型为域名不存在的响应流数;过滤出flow为1的域名在时间段T内只请求过一次的域名,筛选出的域名为可疑域名。
(4)过滤清洗及最终判断
对每个Domain的二级域名做长度检查及顶级域名白名单过滤,清洗由人为输入错误造成的不存在域名数据;如果对单个收到响应的DIP,也即发出可疑请求的SIP,DGA清洗后的可疑域名大于一定值T,则断定该SIP存在DGA通讯,清洗后的域名为DGA域名。
以上仅是本发明的具体应用范例,对本发明的保护范围不构成任何限制。凡采用等同变换或者等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (3)

1.一种基于旁路网络全流量与行为特征DGA域名识别方法,其特征在于,具体包括以下步骤:
步骤一:从交换机镜像端口获取网络流量,在旁路流量上进行分离和预处理网络流量数据,包括解析出网络通讯DNS流量信息,对每条DNS流量信息用深度报文分析,再提取源IP地址、目的IP地址、域名、方向标志、响应结果、返回码等六个特征值形成网络流量的元数据存储并用于后续进一步分析识别;
步骤二:按照同一固定时间段内对所述步骤一做六维聚合处理,即对(源IP地址,目的IP地址,域名,方向标志,响应结果,返回码)聚合成一条元数据记录,再通过对元数据相关域的求和,计算每个目的IP地址在单位时间内产生的返回类型rcode数值为3且级数为二的域名个数,从而获得可疑域名个数,获得可疑域名个数与级数相同的正常响应的域名个数的比值,通过与设定的比例阈值5%来判断IP是否属于可疑IP地址;
步骤三:将可疑IP地址在上述时间段内只请求一次的域名筛选出,先对每个域名进行长度检查,并清洗过滤掉人为多次输入错误造成不存在的域名的常规IP地址;
步骤四:所有可疑IP地址经过所述步骤三过滤后剩下的可疑域名个数的数目大于设定阈值即判定为DGA通讯IP地址,过滤出得到域名为DGA域名,至此完成对DGA域名的识别筛选。
2.根据权利要求1所述的一种基于旁路网络全流量与行为特征DGA域名识别方法,其特征在于:所述可疑IP地址按相同的时间段T再做二维聚合运算,即对(目的IP地址,域名)聚合,过滤出时间段T内级数为二、响应类型为域名不存在的响应流数;过滤出flow为1的域名在时间段T内只请求过一次的域名,筛选出的域名为可疑域名。
3.根据权利要求1所述的一种基于旁路网络全流量与行为特征DGA域名识别方法,其特征在于:还对每个Domain的二级域名做长度检查及顶级域名白名单过滤,清洗由人为输入错误造成的不存在域名数据。
CN202010456649.XA 2020-05-26 2020-05-26 一种基于旁路网络全流量与行为特征dga域名识别方法 Active CN111654487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010456649.XA CN111654487B (zh) 2020-05-26 2020-05-26 一种基于旁路网络全流量与行为特征dga域名识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010456649.XA CN111654487B (zh) 2020-05-26 2020-05-26 一种基于旁路网络全流量与行为特征dga域名识别方法

Publications (2)

Publication Number Publication Date
CN111654487A CN111654487A (zh) 2020-09-11
CN111654487B true CN111654487B (zh) 2022-04-19

Family

ID=72348645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010456649.XA Active CN111654487B (zh) 2020-05-26 2020-05-26 一种基于旁路网络全流量与行为特征dga域名识别方法

Country Status (1)

Country Link
CN (1) CN111654487B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666071B (zh) * 2020-12-04 2023-09-05 中国移动通信集团广东有限公司 僵尸网络识别方法、装置及终端设备
CN113612657A (zh) * 2021-07-31 2021-11-05 南京云利来软件科技有限公司 一种异常http连接的检测方法
CN113645293B (zh) * 2021-08-06 2023-10-10 广州广电研究院有限公司 一种基于网络流量元数据的web资源扫描行为检测方法
CN115174521A (zh) * 2022-06-09 2022-10-11 浙江远望信息股份有限公司 一种基于域名解析协议分析的nat子网发现的方法
CN114866342B (zh) * 2022-06-30 2023-01-17 广东睿江云计算股份有限公司 流量特征识别方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101572701A (zh) * 2009-02-10 2009-11-04 中科正阳信息安全技术有限公司 针对DNS服务的抗DDoS攻击安全网关系统
CN103152357A (zh) * 2013-03-22 2013-06-12 北京网御星云信息技术有限公司 一种针对dns服务的防御方法、装置和系统
CN107612911A (zh) * 2017-09-20 2018-01-19 杭州安恒信息技术有限公司 基于dns流量检测受感染主机和c&c服务器的方法
CN107666490A (zh) * 2017-10-18 2018-02-06 中国联合网络通信集团有限公司 一种可疑域名检测方法及装置
CN108200054A (zh) * 2017-12-29 2018-06-22 北京奇安信科技有限公司 一种基于dns解析的恶意域名检测方法及装置
CN108683686A (zh) * 2018-06-21 2018-10-19 中国科学院信息工程研究所 一种随机子域名DDoS攻击检测方法
CN109120733A (zh) * 2018-07-20 2019-01-01 杭州安恒信息技术股份有限公司 一种利用dns进行通信的检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8191137B2 (en) * 2008-07-30 2012-05-29 International Business Machines Corporation System and method for identification and blocking of malicious use of servers

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101572701A (zh) * 2009-02-10 2009-11-04 中科正阳信息安全技术有限公司 针对DNS服务的抗DDoS攻击安全网关系统
CN103152357A (zh) * 2013-03-22 2013-06-12 北京网御星云信息技术有限公司 一种针对dns服务的防御方法、装置和系统
CN107612911A (zh) * 2017-09-20 2018-01-19 杭州安恒信息技术有限公司 基于dns流量检测受感染主机和c&c服务器的方法
CN107666490A (zh) * 2017-10-18 2018-02-06 中国联合网络通信集团有限公司 一种可疑域名检测方法及装置
CN108200054A (zh) * 2017-12-29 2018-06-22 北京奇安信科技有限公司 一种基于dns解析的恶意域名检测方法及装置
CN108683686A (zh) * 2018-06-21 2018-10-19 中国科学院信息工程研究所 一种随机子域名DDoS攻击检测方法
CN109120733A (zh) * 2018-07-20 2019-01-01 杭州安恒信息技术股份有限公司 一种利用dns进行通信的检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"DGA恶意域名检测方法";蒋鸿玲;《北京信息科技大学学报》;20191015;全文 *
"大规模网络流量下的恶意地址检测技术研究";李洁等;《吉林电力》;20160825;全文 *

Also Published As

Publication number Publication date
CN111654487A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN111654487B (zh) 一种基于旁路网络全流量与行为特征dga域名识别方法
CN109587179B (zh) 一种基于旁路网络全流量的ssh协议行为模式识别与告警方法
CN112738015B (zh) 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法
CN108282497B (zh) 针对SDN控制平面的DDoS攻击检测方法
CN111131260B (zh) 一种海量网络恶意域名识别和分类方法及系统
CN107370752B (zh) 一种高效的远控木马检测方法
CN111817982A (zh) 一种面向类别不平衡下的加密流量识别方法
WO2009135396A1 (zh) 网络攻击处理方法、处理装置及网络分析监控中心
CN108718298B (zh) 一种恶意外连流量检测方法及装置
CN103746982B (zh) 一种http网络特征码自动生成方法及其系统
CN108683686B (zh) 一种随机子域名DDoS攻击检测方法
CN106850647B (zh) 基于dns请求周期的恶意域名检测算法
CN110611640A (zh) 一种基于随机森林的dns协议隐蔽通道检测方法
CN103297433A (zh) 基于网络数据流的http僵尸网络检测方法及系统
CN110958231A (zh) 基于互联网的工控安全事件监测平台及其方法
CN110830490A (zh) 基于带对抗训练深度网络的恶意域名检测方法及系统
CN111245784A (zh) 多维度检测恶意域名的方法
CN112118154A (zh) 基于机器学习的icmp隧道检测方法
Zhao Network intrusion detection system model based on data mining
CN104021348B (zh) 一种隐匿p2p程序实时检测方法及系统
CN109120733B (zh) 一种利用dns进行通信的检测方法
CN113709176A (zh) 基于安全云平台的威胁检测与响应方法及系统
KR102177998B1 (ko) 기계 학습 모델에 기반하여 SYN Flood 공격을 탐지하기 위한 학습 방법, 전처리 방법 및 이를 이용한 학습 장치, 전처리 장치
CN116260632A (zh) 一种通过进程dns行为数据检测进程异常的方法及系统
TW202008758A (zh) 分散式網路流分析惡意行為偵測系統與其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230328

Address after: Room 101, No. 163, Pingyun Road, Tianhe District, Guangzhou City, Guangdong Province 510000 Room 103, self-made

Patentee after: GUANGZHOU RADIO AND TELEVISION RESEARCH INSTITUTE Co.,Ltd.

Address before: 210000 room 1-2-1, No.1, Guanghua East Street, Qinhuai District, Nanjing City, Jiangsu Province

Patentee before: NANJING CLEARCLOUD SOFTWARE TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right