CN111654487B

CN111654487B - 一种基于旁路网络全流量与行为特征dga域名识别方法

Info

Publication number: CN111654487B
Application number: CN202010456649.XA
Authority: CN
Inventors: 贵帅; 黄跃珍; 高才; 郭晓冬; 唐锡南
Original assignee: Nanjing Clearcloud Software Technology Co ltd
Current assignee: Guangzhou Radio And Television Research Institute Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2022-04-19
Anticipated expiration: 2040-05-26
Also published as: CN111654487A

Abstract

本发明涉及基于旁路网络全流量与行为特征DGA域名识别方法，通过旁路监听方式提取DNS流量信息，在提取到的DNS流量中通过DGA行为刻画分析，先通过流量特征找出可疑IP，进一步分析相关域名产生DGA域名及相关请求IP的告警，通过交换机旁路镜像端口接收用户网络流量，分离出DNS流量进行聚合；提取相关特征值存入数据库进行分析技术来解决DGA域名难以识别难题。本发明通过对DGA进行行为分析，使用启发式算法设计多级规则进行管道式多级聚合处理，辅以域名长度检查及白名单清洗，解决了目前机器学习算法需逐个检查流量中全部域名，执行效率低，以及对新DGA变种识别能力差的难题，极大地降低了运算量和规则复杂度，提高了对新变种的识别能力。

Description

一种基于旁路网络全流量与行为特征DGA域名识别方法

技术领域

本发明涉及网络安全管理技术领域，尤其涉及一种基于旁路网络全流量与行为特征DGA域名识别方法。

背景技术

僵尸网络正在威胁着互联网网民的安全，僵尸网络中受到恶意软件感染的僵尸主机由僵尸控制者通过C&C主机进行控制，僵尸主机常常利用DNS授权服务器来解析域名，目的是为了跟C&C服务器创建通信通道，然后获取控制命令，从而进行网络恶意活动。在早期，僵尸主机通产采用轮询的方法访问硬编码的C&C域名或IP来访问服务器获取域名，但是这种方式在安全人员进行逆向之后会得到有效的屏蔽。目前，黑客攻击者为了防止恶意域名被发现，会使用Domain Flux或者IP Flux来快速生成大量的恶意域名，Domain Flux是通过不断变换域名，指向同一个IP，IP Flux是只有一个域名，不断变换IP，一个域名可以使用多个IP，域名生成算法(Domain Generation Algorithm)，是一种利用随机字符来生成C&C域名,从而逃避域名黑名单检测的技术手段。

目前，识别主要依靠机器学习算法对域名字符串随机性的特征的分析，这种方式需要对网络流量中的每个域名逐个通过机器学习模型做匹配，算法效率较低，模型的特征由已知的DGA家族数据产生，这种方法对新的DGA家族识别率会大大降低，例如单词拼接的域名。

本文提出了一种简单有效的方法来检测同一个IP段内发起的DDoS攻击。该方法通过使用启发式算法进行多级规则管道式的组合，可以检测IP产生的DGA通讯，极大地降低了运算量和规则复杂度，对新的DGA变种，如单词拼接的非随机字符串也能有效检测。

发明内容

本发明目的是为了克服现有技术的不足而提供一种多级规则管道式的组合，可快速检测IP产生的DGA通讯，极大地降低了运算量和规则复杂度的基于旁路网络全流量与行为特征DGA域名识别方法。

下述文档中涉及到的英文所对应的中文解释如下：

DGA域名是通过一种dga算法,作用是生成随机数，然后用dga算法随机生成的域名；

DNS是指域名系统（服务）协议；

SIP是指Source IP, 源IP地址；

DIP是指Destination IP,目的IP地址；

Domain是指 Domain Name,域名；

Answer是指 The answer of Name, 域名解析结果；

Flow是指the number of Connections, 一条流的连接次数，一般是１；

Isresponse是指Whether the message is request or answer,判断是请求还是响应；

Retcode是指 Indicates the type of response message，标志服务端响应报文类型；

DPI是指深度报文分析技术；

top-N是指排名前N个；

domain_count: 唯一域名个数；

last：过去一段时间内；

isresponse：判断该条流是否是响应流的标志位；

dip IN $(dip_list)：dip_list是由多个dip组成的列表，完整的意思是限制dip在某个ip列表中；

len()=2：参数为一个列表，代表判断一个列表长度是否为2；

split(domain，’.’)：将域名字符串通过’.’划分为几个子字符串组成的列表；

dip_list：由一些dip组成的列表；

ip_ranges(ip,List)：限制ip在由多个ip组成的List中；

__iplist_lan__：代表内网网段。

为达到上述目的，本发明采用了如下技术方案。

一种基于旁路网络全流量与行为特征DGA域名识别方法，具体包括以下步骤：

步骤一：从交换机镜像端口获取网络流量，在旁路流量上进行分离和预处理网络流量数据，包括解析出网络通讯DNS流量信息，对每条DNS流量信息用深度报文分析，再提取源IP地址、目的IP地址、域名、方向标志、响应结果、返回码等六个特征值形成网络流量的元数据存储并用于后续进一步分析识别；

步骤二：按照同一固定时间段内对所述步骤一做六维聚合处理，即对（源IP地址，目的IP地址，域名，方向标志，响应结果，返回码）聚合成一条元数据记录，再通过对元数据相关域的求和，计算每个目的IP地址在单位时间内产生的返回类型rcode数值为3且级数为二的域名个数，从而获得可疑域名个数，获得可疑域名个数与级数相同的正常响应的域名个数的比值，通过与设定的比例阈值5%来判断IP是否属于可疑IP地址；

步骤三：将可疑IP地址在上述时间段T内只请求一次的域名筛选出，先对每个域名进行长度检查，并清洗过滤掉人为多次输入错误造成不存在的域名的常规IP地址；

步骤四：所有可疑IP地址经过所述步骤三过滤后剩下的可疑域名个数的数目大于设定阈值即判定为DGA通讯IP地址，过滤出得到域名为DGA域名，至此完成对DGA域名的识别筛选。

作为本发明的进一步改进，所述可疑IP地址按相同的时间段Ｔ再做二维聚合运算，即对（目的IP地址，域名）聚合，过滤出时间段T内级数为二、响应类型为域名不存在的响应流数；过滤出flow为1的域名在时间段T内只请求过一次的域名，筛选出的域名为可疑域名。

作为本发明的进一步改进，还对每个Domain的二级域名做长度检查及顶级域名白名单过滤，清洗由人为输入错误造成的不存在域名数据。

由于上述技术方案的运用，本发明的技术方案带来的有益技术效果：本技术方案通过利用旁路网络的流量信息，在不对原来的业务流量造成影响的情况下通过大数据分析技术对DGA域名进行识别，与原来常规机器学习算法检测方法相比，具有不像传统检测需要直连设备而导致影响网络可靠性的问题，另外本识别是基于通讯网络行为特征分析，具有能对新的非随机字符串的DGA变种也能有效识别的有益技术效果；本技术方案还基于聚合计算的启发式算法，具有可极大地降低算法的运算量和规则复杂度的有益技术效果；本技术方案通过行为特征先检测出哪些IP存在DGA通讯，再进一步进行域名长度检查与白名单清洗筛选出DGA域名，依据旁路分析的网络流量信息，在不对原来的业务流量造成影响的情况下对DGA通讯进行识别；本技术方案基于聚合计算的启发式算法，先识别“可疑”域名，减少了需要判断的域名个数，降低了算法复杂度，由于是从行为特征入手，不对DGA域名本身做过多限制，可对新的DGA变种也可以有效识别的技术效果。

具体实施方式

下面结合具体实施例对本发明作进一步的详细说明。

一、采集旁路流量信息

通过在交换机的镜像端口使用高性能的流量采集器采集流量，达到不影响原业务的正常运行的实时旁路检测效果，本发明采集旁路流量信息进行分析：

（1）在交换机的镜像端口部署高性能流量采集器采集流量信息；

（2）按网络协议对旁路流量进行分离，计算出DNS流量信息，每条DNS的流量信息用深度报文分析计算得到，每条DNS的流量信息可以用DNS的元数据来刻画，包括（SIP，DIP，Domain，Answer，flow，Isresponse，Ret_code)；

（3）为了应付DDoS攻击中的大流量，需要对DNS元数据进行预处理以达到优化的目的；按照一个时间段Ｔ做六维聚合运算，即对（T，SIP，DIP，Domain，Answer，flow，Isresponse，Retcode）聚合，不同元数据被聚合成一条记录进入大数据平台，经过处理后的元数据Flow为相同连接个数的相加,其他取公共值不变。

二、DGA域名识别判断

按照一个时间段Ｔ对收到的级数为二(对其他级数的域名也适用)、响应类型为域名不存在的响应数据通过DIP聚合，再使用大数据分析求和，计算唯一域名个数，与正常响应的级数为二的唯一域名个数求比值，通过阈值进行判断。

（1）按DIP聚合后疑似DGA的唯一域名个数top-N

按照一个时间段Ｔ做DIP聚合运算，计算结果中的DIP所有DNS响应数据中域名级数为二，响应类型为域名不存在的唯一域名个数记为domain_count。

求取数据集合中不重复值个数，last为设置时间范围函数，retcocode = 3代表域名不存在，ip_ranges(ip,List)判断ip是否在网段内，__iplist_lan__代表内网网段列表，通过split()将DOMAIN通过‘.’划分后用len()=2取字符串列表长度为二的domain，即为级数为两级；聚合的结果取top-N，过滤出domain_count大于阈值T的dip生成列表dip_list，等待进一步处理。

（2）按DIP聚合后正常解析的唯一域名个数top-N

按照一个时间段Ｔ做DIP聚合运算，计算所有DNS响应数据中域名级数为二，响应类型为域名正常解析的唯一域名个数记为domain_count。

求取数据集合中不重复值个数，last为设置时间范围函数，AND isresponse = 1代表该条流为响应数据，retcocode = 0代表域名正常解析， AND dip IN $(dip_list)要求dip为上一步所求的dip中一员，AND len(split(domain,’.’))=2要求domain级数不能在三级及以上且不能为一级，即域名为两级，聚合的结果取top-N做进一步结合正常响应数据做进一步分析。

（3）DGA通讯初步判断

将以上两步中每一个DIP所求出的正常响应域名个数和可疑响应域名个数进行对比，如果可疑域名个数与正常响应域名个数比值大于T，则判断该DIP疑似存在DGA通讯。

根据如上提取到的可疑IP表，再按相同的时间段Ｔ做二维聚合运算，即对（目的IP地址，域名）聚合，过滤出时间段T内级数为二、响应类型为域名不存在的响应流数；过滤出flow为1的域名在时间段T内只请求过一次的域名，筛选出的域名为可疑域名。

（4）过滤清洗及最终判断

对每个Domain的二级域名做长度检查及顶级域名白名单过滤，清洗由人为输入错误造成的不存在域名数据；如果对单个收到响应的DIP，也即发出可疑请求的SIP，DGA清洗后的可疑域名大于一定值T，则断定该SIP存在DGA通讯，清洗后的域名为DGA域名。

以上仅是本发明的具体应用范例，对本发明的保护范围不构成任何限制。凡采用等同变换或者等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种基于旁路网络全流量与行为特征DGA域名识别方法，其特征在于,具体包括以下步骤：

步骤三：将可疑IP地址在上述时间段内只请求一次的域名筛选出，先对每个域名进行长度检查，并清洗过滤掉人为多次输入错误造成不存在的域名的常规IP地址；

2.根据权利要求1所述的一种基于旁路网络全流量与行为特征DGA域名识别方法，其特征在于：所述可疑IP地址按相同的时间段Ｔ再做二维聚合运算，即对（目的IP地址，域名）聚合，过滤出时间段T内级数为二、响应类型为域名不存在的响应流数；过滤出flow为1的域名在时间段T内只请求过一次的域名，筛选出的域名为可疑域名。

3.根据权利要求1所述的一种基于旁路网络全流量与行为特征DGA域名识别方法，其特征在于：还对每个Domain的二级域名做长度检查及顶级域名白名单过滤，清洗由人为输入错误造成的不存在域名数据。