CN112333185B

CN112333185B - 一种基于dns解析的域名阴影检测方法和装置

Info

Publication number: CN112333185B
Application number: CN202011202296.7A
Authority: CN
Inventors: 曲武
Original assignee: Beijing Jinjingyunhua Technology Co ltd
Current assignee: Beijing Jinjingyunhua Technology Co ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2023-01-17
Anticipated expiration: 2040-11-02
Also published as: CN112333185A

Abstract

本发明涉及域名阴影检测技术领域，具体涉及一种基于DNS解析的域名阴影检测方法和装置，方法包括：获取域名解析的DNS原始流量或PDNS数据，解析域名请求的特征数据并进行预处理，获取特征数据向量流；以预设的滑动时间窗口为检测周期对检测特征数据向量流进行检测统计，生成检测特征向量流；利用多阶段异常检测模型组对检测特征向量进行处理，逐步判断子域名是否为疑似域名阴影；对疑似域名阴影进行汇聚，输出疑似域名阴影的主域名、主机IP、受害人或组织以及证据向量，并写入数据库。本发明可以大规模分析实时的DNS请求流量，也可以分析离线的PDNS数据，通过多阶段异常检测模型组挖掘出潜在的域名阴影，极大的提高了分析效率。

Description

一种基于DNS解析的域名阴影检测方法和装置

技术领域

本发明涉及域名阴影检测技术领域，具体涉及一种基于DNS解析的域名阴影检测方法和装置。

背景技术

臭名昭著的钓鱼工具包Angler Exploit Kit使用了许多漏洞利用工具(含Oday)，以及一项名为“域名阴影(Domain Shadowing)”的新技术，将另一个知名恶意工具包BlackHole exploit kit完全击败，成为当前市面上最“先进”的钓鱼攻击装备。攻击者通过钓鱼邮件或口令暴力破解方式盗取主域名拥有者的账户，并创建数以万计用于恶意用途的子域名。然后，利用子域名指向恶意网站，或者直接在这些域名绑定的服务器上挂恶意代码，进而通过域名阴影技术进行了大规模钓鱼攻击。这种恶意攻击手法非常有效，子域名非常多、生命周期短暂且域名随机分布。攻击者一般并没有明显的目的。这让遏止这种犯罪变得愈加困难，研究也变得十分不易。

现有技术中，对域名阴影的检测时，通常采用人工对钓鱼工具包Angler ExploitKit进行分析，或者对大规模钓鱼事件进行分析，进而发现攻击者利用Adobe Flash和Microsoft Silverlight漏洞为基础，通过域名阴影技术进行了大规模钓鱼攻击。安全研究人员已经发现了约1万个这样的子域名，其中大部分为全球目前最大的域名提供商GoDaddy的帐户。此外，Liu等人在论文中提出了Woodpecker方法，通过对域名阴影的数据分析，发现两个维度的特性：

(1)域名阴影和主域名下的合法子域名有较大的差异，例如IP、域名构成、服务器承载的业务、域名规模等；

(2)不同主域名下的域名阴影可能来自同一非法组织。

进而，Liu等人从这两个维度提取了17个特征向量，并使用随机森林训练分类器对域名阴影进行建模。但是，由于作者提取的字段过于复杂，单个学习模型同时依赖在线和离线的数据，特别是作者为了平衡特征缺失的影响使用了随机森林分类器，导致检测性能和精度无法保证，并且算法缺少有效的检测框架，实际工程应用存在较大的问题。

鉴于此，现有技术有待改进和提高。

发明内容

为了解决上述技术问题，本发明提供了一种基于DNS解析的域名阴影检测方法和装置，解决了现有技术中对域名阴影检测时存在的性能、精度和工程化等问题。

本发明是这样实现的，提供一种基于DNS解析的域名阴影检测方法，包括如下步骤：

1)获取域名解析的DNS原始流量或PDNS数据，解析域名请求的特征数据，对解析后的特征数据进行预处理，获取特征数据向量流；

2)以预设的滑动时间窗口为检测周期对特征数据向量流进行检测统计，生成检测特征向量流，所述的检测特征向量流提供两种分析能力，即分别对于同一域名的分析和同一IP的分析；

3)利用多阶段异常检测模型组对检测特征向量进行处理，逐步判断子域名是否为疑似域名阴影；

4)对疑似域名阴影进行汇聚，输出疑似域名阴影的主域名、主机IP、受害人或组织以及证据向量，并写入数据库。

优选地，所述步骤1)具体为：

101)利用协议解析引擎对DNS流量进行处理，按照标准PDNS数据格式提取相应特征，构造实时PDNS特征数据；

102)利用爬虫根据时间获取来自PDNS数据供应商的PDNS数据；

103)利用采集器获取来自实时DNS流量的PDNS特征数据和来自供应商的PDNS特征数据，送到消息队列；

104)利用DGA域名识别算法、白域名生成算法、CDN服务器列表以及黑名单获取情报黑白名单列表，用于后续过滤使用；

105)利用分布式数据流处理组件，从消息队列读取相应的PDNS数据流，并使用情报黑白名单列表形成的过滤算法、在线数据扩充算法、离线数据扩充算法对PDNS数据流进行数据特征扩充，补充相关特征向量；

106)生成特征数据向量流，并写回消息队列的特征数据向量流Topic。

进一步优选，所述步骤2)具体为：

201)利用分布式数据流处理组件，读取相应的特征数据向量流；

202)利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口为检测周期对检测特征数据向量流进行检测统计，以解析的主机IP为分析对象进行汇聚，若解析的主机IP承载了大量的、不重复的主域名，则判定为该服务器为CDN加速服务器，更新CDN服务器列表获取；

203)利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口为检测周期对检测特征数据向量流进行检测统计，以主域名为分析对象进行汇聚，若主域名包含的子域名具有子域名数量低于指定的阈值且子域名命名符合规范、子域名的活跃度大于指定的阈值等行为时，则过滤这部分特征数据向量流；

204)生成检测特征数据向量流，并写回消息队列的检测特征数据向量流Topic。

进一步优选，所述步骤3)具体为：

301)利用分布式数据流处理组件，读取相应的检测特征数据向量流；

302)利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口为检测周期对检测特征数据向量流进行检测统计，以主域名为分析对象进行汇聚，提取汇聚结果的统计特征向量，包括子域名与主域名创建时间间隔F1、子域名组建立时间间隔F2、合法子域名的比例F3、子域名长度的多样性F4、IP的地理位置、阴影社区、K-L散度评估、Web关联性；

303)基于上述统计向量，利用阶段1异常检测模型进行域名阴影可信度评估，并根据可信度的阈值判断数据流是否进入下一阶段；

304)利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口为检测周期对检测特征数据向量流进行检测统计，以解析的主机IP为分析对象进行汇聚，提取汇聚结果的统计特征向量，包括K-L散度评估、Web关联性、主机IP承载的疑似域名阴影的数量；

305)基于步骤304)输出的统计向量，利用阶段2异常检测模型进行域名阴影可信度评估，并根据可信度的阈值判断对子域名进行最终的可信度标注，更新检测特征数据向量流相关字段。

进一步优选，所述步骤4)具体为：

401)获取步骤3)得到的检测特征数据向量流；

402)利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口对判定为可疑域名阴影的检测特征数据向量流根据主域名进行汇聚；

403)提取疑似域名阴影的主域名、主机IP、受害人或组织以及证据向量，生成域名阴影检测结果向量流；

404)利用分布式数据流处理组件的数据库写入机制，将域名阴影检测结果向量流写入数据库。

本发明还提供一种基于DNS解析的域名阴影检测装置，包括：

数据采集单元，用于获取PDNS格式的请求解析日志数据，记为特征数据向量流，所述的PDNS格式的请求解析日志数据主要包括：请求域名、应答IP、首次时间戳、最近一次时间戳、资源类型、TTL；

数据预处理单元，用于对特征数据向量流进行特征清洗和扩充，将对统计没有影响的字段去掉，保留、修改和扩充影响异常检测结果的字段；

数据预过滤和扩展单元，用于过滤与检测无关的特征数据向量流，提高后续异常检测方法的处理效率；

异常检测单元，基于分布式数据流框架构造多阶段异常检测组件，利用统计分析模块对特定滑动时间窗口的特征数据向量流进行计算获得统计特征向量，多阶段异常检测组件对域名阴影进行可信度评估，并根据可信度的阈值判断对子域名是否为疑似域名阴影进行最终的可信度标注；

入库单元，基于分布式数据流框架对可信度超过给定阈值的疑似域名阴影进行汇聚，输出模块将输出疑似域名阴影的主域名、主机IP、受害人或组织以及证据向量，并写入数据库。

优选地，所述数据采集单元通过架设DNS协议解析服务器、爬虫服务器、镜像交换机以及光电转换设备，实现从现网流量和PDNS数据供应商获取PDNS格式的请求解析日志数据，并进行汇聚。

进一步优选，所述数据预处理单元基于分布式数据流处理框架，使用DGA域名识别模块、白域名生成模块、CDN服务器列表获取模块，以及情报黑白名单模块获取域名和IP黑白名单列表，并且封装域名和IP黑白名单列表为相应的黑白名单检测模块。

进一步优选，所述数据预过滤和扩展单元基于分布式数据流处理框架，从消息队列读取相应的PDNS数据流，并使用黑白名单过滤模块、在线数据扩充模块、离线数据扩充模块对PDNS数据流进行数据过滤和特征扩充，降低后续处理流程数据流规模并补充相关特征向量，生成检测特征数据向量流，利用分布式数据流组件的消息队列写入模块，将检测特征数据向量流写回消息队列的检测特征数据向量流Topic。

进一步优选，所述异常检测单元和入库单元，基于分布式数据流处理框架，利用分布式数据流组件的消息队列读取模块，从消息队列的检测特征数据向量流Topic读取相应的数据流；利用聚合分析模块分别对主机IP和主域名进行聚合分析，多阶段异常检测模块分别对聚合结果进行分析，并且利用域名阴影可信度评估算法对其结果进行评估，并根据可信度的阈值判断对子域名进行最终的可信度标注，最后，提取疑似域名阴影的主域名、主机IP、受害人或组织以及证据向量等，将域名阴影检测结果写入数据库。

本发明提供的一种基于DNS解析的域名阴影检测方法和装置，使用了多个统计特征对域名阴影进行描述，多阶段域名阴影异常检测算法，并提出了一套基于分布式数据流的域名阴影检测框架，使得本发明具备以下优点：

1)通过多重的流量过滤机制，极大的减少了后续异常检测流程处理的数据规模，提高了系统处理效率；

2)通过使用分布式处理框架，可以大规模分析实时的DNS请求流量，也可以分析离线的PDNS数据，极大的提高了系统处理效率，降低了系统维护和升级的代价；

3)通过提出的多阶段域名阴影异常检测算法，能够将复杂问题进行分解，将时间代价较大的异常检测算法放到后期处理流程，极大的提高了系统处理效率和工程化水平；

4)通过使用分布式数据流处理框架、多阶段异常检测算法、多重数据流过滤和扩充机制以及新颖的统计向量特征，极大的提高了域名阴影的检测性能和准确率；

5)本发明提供的一种基于DNS解析的域名阴影检测方法和装置，通过解析DNS数据，能够检测高可信的域名阴影，通过进一步分析可以确定受害人或组织以及确定恶意程序主机IP地址，及时提醒受害人利用域名管理权限删除非法添加的子域名，并更新和加固域名管理账号的凭证。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于DNS解析的域名阴影检测方法流程图；

图2为本发明实施例提供的基于DNS解析的域名阴影检测方法之生成特征数据向量过程流程图；

图3为本发明实施例提供的基于DNS解析的域名阴影检测方法之生成检测特征向量过程流程图；

图4为本发明实施例提供的基于DNS解析的域名阴影检测方法之异常检测过程流程图；

图5为本发明实施例提供的基于DNS解析的域名阴影检测装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

攻击者窃取了受害者(网站站长)的域名账户，创建了数以万计的子域名。这些子域名与众所周知的主域名相关联并且通常不遵循任何可识别的模式，难以检测。不仅如此，所涉及的攻击者不会影响父域或该域上托管的任何内容，从而使其操作更加隐蔽。攻击者使用这些欺诈性子域名进行恶意活动，包括分发恶意软件，注入漏洞利用工具包或将用户静默重定向到承载恶意元素的其他网站。

本申请实施例中，获取域名解析的DNS原始流量或PDNS数据，解析域名请求的特征数据，对解析后的特征数据进行预处理，获取特征数据向量流；进一步，以预设的滑动时间窗口为检测周期对检测特征数据向量流进行检测统计，生成检测特征向量流。然后，利用多阶段异常检测模型组对检测特征向量进行处理，逐步判断子域名是否为疑似域名阴影。这样，如果确定待检测子域名为域名阴影，则及时通知主域名拥有者和域名服务提供商，从而清理一个主域名，可以阻断成千上万的域名阴影，进而在大规模钓鱼发起攻击的过程中阻断非法域名的解析服务，阻止域名阴影的危害。

下面结合附图和具体实施例进一步说明本发明实施例的技术方案。

图1是本发明实施例提供的基于DNS解析的域名阴影检测方法流程图，包括以下步骤：

S101：获取DNS原始流量或PDNS数据，通过解析、预处理等流程，获取PDNS特征数据向量流，如图2所示；

在具体实施过程中，包含以下步骤：

步骤S101-1，利用协议解析引擎对DNS流量进行处理，按照标准PDNS数据格式提取相应特征，构造实时PDNS特征数据；

优选的是，PDNS技术是由Weimer等人在2005年提出的一种方案，用来解决DNS系统PTR反向查询能力不足的问题。通过将现有DNS业务的流量进行镜像或分光处理，解析出查询和响应的数据并存入数据库，然后建立正向和反向的查询索引。所述的PDNS格式数据主要包括：请求域名[Query]、主机IP(应答IP)[Answer]、首次时间戳[First Seen]、最近一次时间戳[Last Seen]、资源类型[RRType]、查询类型[Query Type]、TTL、URL等；

优选的是，对于协议解析引擎，可以使用C语言、Python语言根据DNS协议规范进行开发，也可以使用开源的PDNS数据提取工具代替；

步骤S101-2，利用爬虫根据时间获取来自PDNS数据供应商的PDNS数据；

优选的是，对于PDNS数据供应商，主流的供应商包括Farsight Security、Qihoo360和VirusTotal；

步骤S101-3，利用采集器获取来自实时DNS流量的PDNS特征数据和来自供应商的PDNS特征数据，送到消息队列；

优选的是，分布式消息队列Kafka的选择是来自最佳实践，也可以选择其他消息队列；

S101-4，利用DGA域名识别算法、白域名生成算法、CDN服务器列表以及黑名单获取情报黑白名单列表，用于后续过滤使用；

进一步地，优选的是，对于黑白名单列表的获取描述如下：

DGA域名识别算法，可以使用DGA域名黑名单、异常域名检测、人工智能模型检测(机器学习、深度学习和集成学习)等技术，目的是识别PDNS数据流中的DGA域名，DGA域名不可能是域名阴影，可以提前过滤，降低后续数据流的处理压力，提高处理效率；

白域名列表生成算法，集合来自以下白域名样本数据来源，Alex-1M、cisco-1M、majestic-1M、quantcast-1M和statvoo-1M，总计接近500万的白域名样本。然后，对样本源的更新频度进行权重分配(也可自定义权重)，进而根据权重进行样本去重和排名，去重后样本规模为400万左右，可以根据算法需求获得前Top-1k、Top-10k、Top-100k等白域名列表。通常情况下，权威域名的权限管理相对比较严格，难以被攻击者攻破而获取权限，故不可能是域名阴影，可以选择Top-n作为权威域名，提前过滤，降低后续数据流的处理压力，提高处理效率；

CDN服务器列表获取，该列表来自开放的CDN白名单，以及CDN服务器识别算法。对于CDN服务器识别算法，利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口根据主机IP(应答IP)对PDNS数据流进行汇聚，若主机IP上承载的不重复主域名的规模超过指定阈值，则判定为该主机IP为CDN服务器加速IP，用于加速用户访问速度。CDN服务器不可能承载域名阴影，可以利用CDN主机IP列表对PDNS数据流进行提前过滤，降低后续数据流的处理压力，提高处理效率；

黑白名单列表，该列表来自多个情报数据源，从情报源中剔除域名阴影IP及其相关域名情报。对于其他的IP和域名黑白名单情报，都可以用来进行PDNS数据流提前过滤，降低后续数据流的处理压力，提高处理效率；

步骤S101-5，利用分布式数据流处理组件，从消息队列读取相应的PDNS数据流，并使用情报黑白名单列表形成的过滤算法、在线数据扩充算法、离线数据扩充算法对PDNS数据流进行数据特征扩充，补充相关特征向量，例如Web页面被主流搜索引擎索引特征集、域名WHOIS特征集、域名的GeoIP信息等。

最后，生成特征向量数据流；

优选的是，从消息队列读取相应的PDNS数据流，使用步骤101-4提出的各种过滤算法，对PDNS数据流进行过滤，降低后续数据流的处理压力，提高处理效率；

优选的是，利用分布式数据流处理组件，对于过滤之后的PDNS数据流，使用在线数据扩充算法对其进行特征扩充，在线数据扩充算法包括WHOIS数据扩充、Web页面被主流搜索引擎索引数据扩充；

WHOIS数据，是指注册人向域名服务提供商提供的信息，可通过WHOIS服务查询此类信息，这些信息包括以下数据元素：注册域名的主要域名服务器、次要域名服务器的名称、注册人的身份信息、注册的初始生成日期和到期日期、注册域名持有人的名称和邮政地址、注册域名技术、管理联系人的姓名、邮政地址、电子邮件地址、音频电话号码和(如适用)传真号码。WHOIS数据能够为域名阴影提供注册时间、注册人身份信息及联系方式。其中，注册时间是检测域名阴影的关键信息，域名阴影的注册时间往往晚于主域名的注册时间以及合法子域名的注册时间，且主域名和合法主域名的注册时间通常是根据需要进行注册的，而域名阴影的注册时间由于攻击需求存在聚集某一个时间段特性，即某一个时间段进行大规模注册；

Web页面被主流搜索引擎索引相关性，域名阴影通常与主域名、相关合法主域名及其兄弟域名提供的服务没有任何相关性，域名阴影存在的目的就是为攻击者提供便利和隐蔽的渠道。因此，域名阴影通常不会与其他合法站点的域名和子域名有链接关系，而合法站点的域名和子域名之间通常会存在链接关系。对于主流搜索引擎，其爬虫持续迭代获取数据的方式是以链接关系为基础的，即合法站点的域名和子域名的Web页面数据是能够被主流搜索引擎爬取到且被索引，能够查询到相应的数据，而域名阴影不能通过主流搜索引擎搜索到相关的数据。使用主流的搜索引擎，包括但不局限于Google、Baidu、Bing、InternetArchive和CommonCrawl对域名阴影进行搜索，判断是否存在相应的索引。若存在，该字段为1，不存在则为0；

优选的是，利用分布式数据流处理组件，对于过滤之后的PDNS数据流，使用离线数据扩充算法GeoIP映射对其进行特征扩充，补充以下特征：经纬度、国家、城市、ISP、ASN等。通常，GeoIP映射的数据库可以选用Maxmind、纯真IP数据库；

步骤S101-6，基于分布式数据流处理组件，将生成的特征数据向量流写回消息队列的特征数据向量流Topic中；

S102：以预设的滑动时间窗口为检测周期对检测特征数据向量流进行统计，生成检测特征向量流，如图3所示；

在具体实施过程中，包含以下步骤：

步骤S102-1，利用分布式数据流处理组件，从消息队列的特征数据向量流Topic读取相应的特征数据向量流；

步骤S102-2，利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口为检测周期对检测特征数据向量流进行检测统计，以解析的主机IP为分析对象进行汇聚，若解析的主机IP承载了大量的、不重复的主域名，则判定为该服务器为CDN加速服务器，更新CDN服务器列表获取；

所述步骤S102-2进一步为，对于CDN服务器判定，与步骤S101-4的CDN判定过程存在两点差异：其一，由于步骤14的实时PDNS数据流规模较大，Flink开启的滑动时间窗口相对较小，而步骤22获取的是过滤后的特征数据向量流，Flink开启的滑动时间窗口相对较大，可以进一步检测CDN服务器；其二，步骤22进一步使用了查询类型[Query Type]字段中的CNAME值，判断该值是否包含“CDN”、“cdn”等关键字；

步骤S102-3，利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口为检测周期对检测特征数据向量流进行检测统计，以主域名为分析对象进行汇聚，若主域名包含的子域名具有以下特征时，即子域名数量低于指定的阈值且子域名命名符合规范、子域名的活跃度均大于指定的阈值，则过滤这部分特征数据向量流；

所述步骤S102-3进一步为，该过程利用了域名阴影的以下特点：其一，在合法域名下创建恶意的子域名，它与一般所说恶意域名来比最大的不同在于主域名是合法的，且会创建大量的用于钓鱼的非法子域名；其二，非法子域名命名与主流的合法子域名的命名方式差异较大，非法子域名多为随机生成，信息熵值较大。主流Top-50合法子域名描述如下，www、mail、remote、blog、webmail、server、ns1、ns2、smtp、secure、vpn、m、shop、ftp、mail2、test、portal、ns、ww1、host、support、dev、web、bbs、ww42、mx、email、cloud、1、mail1、2、forum、owa、www2、gw、admin、store、mx1、cdn、api、exchange、app、gov、2tty、vps、govyty、hgfgdf、news、1rer、lkjkui；其三，域名阴影活跃度极低，通常不活跃，只有在发动钓鱼攻击任务时才会被使用。因此，可以通过PassiveDNS数据中的可选字段“Count”进行判定，表示该域名的查询次数；

步骤S102-4，生成检测特征数据向量流，并写回消息队列的检测特征数据向量流Topic；

所述步骤S102-4进一步为，该过程利用分布式数据流处理组件的分布式消息队列读写接口，将生成检测特征数据向量流写入检测特征数据向量流Topic。若存在检测特征数据向量流Topic，则直接写入；若不存在检测特征数据向量流Topic，则先建立该Topic后写入；

S103：利用多阶段异常检测模型组对检测特征向量进行处理，逐步判断子域名是否为疑似域名阴影，并输出检测结果，如图4所示；

在具体实施过程中，包含以下步骤：

步骤S103-1，利用分布式数据流处理组件，从消息队列的检测特征数据向量流Topic读取相应的数据流；

步骤S103-2，利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口为检测周期对检测特征数据向量流进行检测统计，以主域名为分析对象进行汇聚，提取汇聚结果的统计特征向量，包括子域名与主域名创建时间间隔F1、子域名组建立时间间隔F2、通用(合法)子域名的比例F3、子域名长度的多样性F4、IP的地理位置、阴影社区、K-L散度评估、Web关联性；

所述步骤S103-2进一步为，异常检测算法中涉及到的变量定义如下：

a：表示主域名；

s：表示子域名；

S_a：在确定的主域名下，不重复的子域名集合；

I_a：在确定的主域名下，承载子域名的不重复的IP集合；

S(s)：对于子域名s，与该子域名共享IP地址的子域名集合；

IP(s)：对于子域名s，被解析的IP地址；

2LD(s)：对于子域名s，其主域名定义为2LD(s)；

R：表示主流(通用)合法子域名的正则表达式集合，能够覆盖几乎所有的合法子域名；

t(a)：主域名建立时间，以天为单位；

t(s)：子域名建立时间，以天为单位；

g(i，∈)：对于IP i∈I_a，该函数表示满足以下条件的子域名集合，在时间窗口∈范围内(以s为单位)，至少存在两个或两个以上的子域名；

L_i：对于IP i∈I_a，该函数表示子域名长度列表；

H(L_i)：对于子域名长度列表，该函数表示该列表的香农指数；

A_i：对于IP i∈I_a，表示该IP地址承载的主域名集合，即被解析到该IP地址的主域名集合；

S_i：对于IP i∈I_a，表示该IP地址承载的子域名集合，即被解析到该IP地址的子域名集合；

g(i)：对于IP i∈I_a，表示该IP地址社区规模的大小，即包含不重复的主域名规模；

Index(s)：对于子域名s，表示与子域名s相关的页面能够被爬虫获取并且被搜索引擎索引；

对于主域名a，在主域名a下，承载子域名不重复的IP集合定义为I_a，

被定义为子域名IP地址i与所有其他子域名的IP地址之间距离的均值。IP地址之间的距离定义如下，

即4维空间中的曼哈顿距离。

所述步骤S103-2进一步为，以主域名为分析对象进行汇聚，提取汇聚结果的统计特征向量，即阶段1异常检测算法中涉及到的统计特征。其中，对于子域名与主域名创建时间间隔F₁，该统计特征主要是描述主域名的创建时间通常与域名阴影涉及到的子域名创建时间是不同，并且之间间隔时间较长，故该特征可以用来区分域名阴影和主域名。形式化定义如下：

其中，对于子域名组建立时间间隔F₂，该统计特征主要是描述合法子域名的创建时间通常与域名阴影涉及到的子域名创建时间是不同，并且之间间隔时间较长，故该特征可以用来区分域名阴影和合法子域名。形式化定义如下：

其中，对于通用(合法)子域名的比例F₃，该统计特征主要是描述与主域名相关的子域名集合中，通用(合法)子域名的占比。通用(合法)子域名通常是指与主域名创建时间接近，且子域名在主流Top-50合法子域名集合中或满足其正则匹配。因此，该特征可以用来区分域名阴影和合法子域名。形式化定义如下：

其中，对于子域名长度的多样性F₄，该统计特征主要是描述域名阴影的算法生成特性，而主域名和合法子域名的命名是基于词法、语法和语义知识的，且与具体业务相关，多样性较好。对于算法生成的域名，通常具有较少的多样性。形式化定义如下：

其中，对于IP的地理位置F₅，该统计特征主要是描述承载域名阴影的IP地址与承载主域名以及合法子域名的IP地址通常是不同的，具体表现在IP地址的地理位置、ISP和ASN存在较大差异。IP的地理位置F₅用来表示IP之间的距离，形式化定义如下：

其中，对于K-L散度评估，该统计特征是为了评估不同阴影子域名的特征一致性，转化每个特征成为频度直方图并且与所有子域名共享相同的值直方图进行对比，然后使用K-L散度评估差异。即，对于一个数值集合V，首先计算每个值的频率权重

然后，若w_i具备最大频度

则通过设定＜w_i，1＞获得一个新的集合W′，否则设定＜w_i，0>。最后，利用W和W′计算K-L散度，

基于K-L散度评估，对域名阴影的特征进行建模，衍生出以下统计特征F₆、F₇和F₈。对于一个子域名s，计算与该子域名共享IP地址的子域名集合S(s)，并获取子域名集合S(s)的首次捕获时间列表，利用K-L散度求取捕获域名的时间分布F₆。对于特征F₇，表示域名解析次数分布。对于域名阴影，其访问模式较为单一，即按照一定的时间间隔轮询一次。而合法域名的访问模式更多样化，对于类似WWW的合法子域名能够获得持续的更多的访问。因此，利用K-L散度对域名解析次数进行建模，求取捕获域名的解析次数分布F₇。对于特征F₈，表示域名活跃的天数分布。若合法子域名很少被访问，特征F₇可能引发异常。而特征F₈是F₇的辅助方法，计算子域名的活跃天数，该特征能够较好的描述攻击者频繁更换主机IP地址。而与之相反，承载合法域名的IP地址更加稳定，导致具有更长的活跃天数。因此，利用K-L散度对域名活跃天数进行建模，求取域名的活跃天数分布F₈。

其中，对于Web关联性，该统计特征主要描述域名阴影提供的服务通常与主域名、兄弟域名和主机服务器提供的服务是无关的，也不会存在与主域名或其他合法子域名主页面的超链接。但是，合法主域名和子域名之间通常是存在超链接关系的。因此，域名阴影是很难被Web爬虫访问到，通常是进行了伪装。为了描述域名阴影的Web关联性，定义特征F₉、F₁₀和F₁₁。对于特征F₉，表示域名相关的页面能够被爬虫获取并且被搜索引擎索引，F₉＝Index(s)，被索引则F₉被赋值为1，否则为0。此外，对于特征F₁₀，表示在同一主域名情况下，子域名列表被索引的概率，

对于特征F₁₁，表示在同一主机IP情况下，子域名列表被索引的概率，

步骤S103-3，基于上述统计向量，利用阶段1异常检测模型进行域名阴影可信度评估，并根据可信度的阈值判断数据流是否进入下一阶段；

所述步骤S103-3进一步为，阶段1异常检测算法将会整合F₁到F₁₁特征值，整合算法

其中，对于重要性权重w_i，阐述如下；

对每一维特征“打分”，即给每一维特征赋予权重，这样权重就代表该维特征的重要性，然后依据权重排序。即，按照特征的发散性或者相关性指标对各个特征进行评分，设定评分阈值或待选择阈值的个数，选择合适特征。特征选择算法，使用卡方检验Chi-squared test，检验某个特征分布和输出值分布之间的相关性，在sklearn的代码中可以使用chi2这个类来做卡方检验得到所有特征的卡方值与显著性水平P临界值，给定卡方值阈值，选择卡方值较大的部分特征；

对于阶段1异常检测算法总体可信度评分score_p1，若score_p1≥q₁，则判定为该时间窗口存在域名阴影。若score_p1＜q₁，则将该时间窗口数据流送往阶段2异常检测模型；

步骤S103-4，利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口为检测周期对检测特征数据向量流进行检测统计，以解析的主机IP为分析对象进行汇聚，提取汇聚结果的统计特征向量，包括K-L散度评估、Web关联性、主机IP承载的疑似域名阴影的数量；

所述步骤S103-4进一步为，以解析的主机IP为分析对象进行汇聚，提取汇聚结果的统计特征向量，即阶段2异常检测算法中涉及到的统计特征。其中，对于特征F₁₂和F₁₃，描述了子域名的算法生成特性，这与DGA域名生成类似，但随机生成字符(熵值较高)组成的域名阴影较为少见，通常都是有语义的词。因此，可以通过对同主机的子域名进行相似性建模，进而描述子域名的特征。对于特征F₁₂，描述域名层次的多样性分布。攻击者在一次攻击过程中使用的域名阴影通常会使用统一的模板生成，故域名层级是相同的，而在同一主机的合法域名并不一定具有一致的域名层级。因此，可以利用K-L散度对域名层级进行建模，求取域名层级分布F₁₂。对于特征F₁₃，描述子域名长度的多样性分布。首先利用子串正则匹配方法移除主域名，并且比较遗留域名的长度。当判定同组的子域名存在不同长度时，利用空字符串补位以确保字符串长度相同。假设子域名的前缀N＝{＜n_i＞_i＝1...m}，其中，n_i表示第i层级。最后，利用K-L散度对子域名长度进行建模，求取子域名长度分布F₁₃。对于特征F₁₃和特征F₄，都是用来描述子域名长度的多样性，但异常检测的阶段、处理的数据和使用的描述算法不同，使得这两个特征在各自的异常检测阶段中特征有效性差异较大；

其中，对于Web关联性，特征F₁₄表示在同一主机IP情况下，子域名列表被索引的概率，

其中，特征F₁₅表示主机IP承载的疑似域名阴影的数量。为了提高隐匿成功率，攻击者通常会使用多个受控的主域名进行域名阴影操作。对于一个存在域名阴影的主域名a，若另一个主域名b的域名阴影也解析到与主域名a相同的IP地址，则主域名a和b的域名阴影解析到同一个主机IP上，形式化定义如下，

步骤S103-5，基于步骤S103-4输出的统计向量F₁₂到F₁₅，利用阶段2异常检测模型进行域名阴影可信度评估，并根据可信度的阈值判断对子域名进行最终的可信度标注，更新检测特征数据向量流相关字段；

所述步骤S103-5进一步为，阶段2异常检测算法将会整合F₁₂到F₁₅特征值，整合算法

其中，对于重要性权重w_i，阐述如下；

对每一维特征“打分”，即给每一维特征赋予权重，这样权重就代表该维特征的重要性，然后依据权重排序。即，按照特征的发散性或者相关性指标对各个特征进行评分，设定评分阈值或待选择阈值的个数，选择合适特征。特征选择算法，使用卡方检验Chi-squared test，检验某个特征分布和输出值分布之间的相关性，使用sklearn的chi2类来做卡方检验得到所有特征的卡方值与显著性水平P临界值，给定卡方值阈值，选择卡方值较大的部分特征；

对于阶段2异常检测算法总体可信度评分score_p2，若score_p2≥q₂，则判定为该时间窗口存在域名阴影；

步骤S103-6，对可信度超过指定阈值的域名阴影进行汇聚，输出疑似域名阴影的主域名、主机IP、受害人或组织以及证据向量；

所述步骤S103-6进一步为，利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口对判定为可疑域名阴影的检测特征数据向量流根据主域名进行汇聚。然后，提取疑似域名阴影的主域名、主机IP、受害人或组织以及证据向量，生成域名阴影检测结果向量流。其中，所述的证据向量，即当前时间窗口的特征数据向量流。最后，利用分布式数据流处理组件的数据库写入机制，将域名阴影检测结果向量流写入数据库。

此外，与本发明方法实施例相对应，参考图5所示，还提供了一种基于DNS解析的域名阴影检测装置，包括：

S501：数据采集单元，用于获取PDNS格式的请求解析日志数据，记为特征数据向量流；所述的PDNS格式数据主要包括：请求域名、应答IP、首次时间戳、最近一次时间戳、资源类型、TTL等；数据预处理单元，用于对特征数据向量流进行特征清洗和扩充，将对统计没有影响的字段去掉，保留、修改和扩充影响异常检测结果的字段；

所述步骤S501进一步为，通过架设DNS协议解析服务器、爬虫服务器、镜像交换机以及光电转换等设备，实现从现网流量和PDNS数据供应商获取PDNS格式的请求解析日志数据，并进行汇聚；

S502：数据预处理单元，用于过滤与检测无关的特征数据向量流，提高后续异常检测方法的处理效率；

所述步骤S502进一步为，基于分布式数据流处理框架，使用DGA域名识别模块、白域名生成模块、CDN服务器列表获取模块，以及情报黑白名单模块等获取域名和IP黑白名单列表，并且封装域名和IP黑白名单列表为相应的黑白名单检测模块；

S503：数据预过滤和扩展单元，用于过滤与检测无关的特征数据向量流，提高后续异常检测方法的处理效率；

所述步骤S503进一步为，基于分布式数据流处理框架，从消息队列读取相应的PDNS数据流，并使用黑白名单过滤模块、在线数据扩充模块、离线数据扩充模块对PDNS数据流进行数据过滤和特征扩充，降低后续处理流程数据流规模并补充相关特征向量，生成特征数据向量流。利用分布式数据流组件的消息队列写入模块，将特征数据向量流写回消息队列的特征数据向量流Topic；

S504：异常检测单元，基于分布式数据流框架构造多阶段异常检测组件，利用统计分析模块对特定滑动时间窗口的特征数据向量流进行计算获得统计特征向量，多阶段异常检测组件对域名阴影进行可信度评估，并根据可信度的阈值判断对子域名是否为疑似域名阴影进行最终的可信度标注；

S505：入库单元，基于分布式数据流框架对可信度超过给定阈值的疑似域名阴影进行汇聚，输出模块将输出疑似域名阴影的主域名、主机IP、受害人或组织以及证据向量，并写入数据库；

所述步骤S504和S505进一步为，基于分布式数据流处理框架，利用分布式数据流组件的消息队列读取模块，从消息队列的检测特征数据向量流Topic读取相应的数据流；利用聚合分析模块分别对主机IP和主域名进行聚合分析，多阶段异常检测模块分别对聚合结果进行分析，并且利用域名阴影可信度评估算法对其结果进行评估，并根据可信度的阈值判断对子域名进行最终的可信度标注。最后，提取疑似域名阴影的主域名、主机IP、受害人或组织以及证据向量等，将域名阴影检测结果写入数据库。

综上所述，本发明涉及一种基于DNS解析的域名阴影检测方法，本方法的核心是利用域名阴影的独特性，特别是其恶意使用行为，即异常行为，与合法主域名和子域名差异较大。攻击者通过钓鱼邮件或口令暴力猜解方式盗取主域名拥有者的账户，并创建数以万计用于恶意用途的子域名。然后，利用子域名指向恶意网站，或者直接在这些域名绑定的服务器上挂恶意代码，进而通过域名阴影技术进行了大规模钓鱼攻击。这种恶意攻击行为具有子域名非常多、生命周期短暂、域名随机分布、解析的IP多样性等特点。本发明基于分布式数据流处理框架，可以大规模分析实时的PDNS数据，通过多阶段异常检测模型组挖掘出潜在的域名阴影，极大的提高了分析效率。本发明在一定程度上解决了传统域名阴影检测技术遇到的检测性能慢、准确性低、检测模型同时依赖实时和离线数据、难以根据流量横向扩展、工程化困难等问题。同时，本发明通过进一步分析可以确定受害人或组织以及确定恶意程序主机IP地址，及时提醒受害人利用域名管理权限删除非法添加的子域名，并更新和加固域名管理账号的凭证。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的保护范围当中。

Claims

1.一种基于DNS解析的域名阴影检测方法，其特征在于，包括如下步骤：

1)获取域名解析的DNS原始流量或PDNS数据，所述PDNS数据指被动DNS数据，解析域名请求的特征数据，对解析后的特征数据进行预处理，获取特征数据向量流；

2)以预设的滑动时间窗口为检测周期对特征数据向量流进行检测统计，生成检测特征数据向量流；

3)利用多阶段异常检测模型组对检测特征数据向量流进行处理，逐步判断子域名是否为疑似域名阴影，并输出检测结果，具体包括如下步骤；

步骤S103-1)利用分布式数据流处理组件，从消息队列的检测特征数据向量流Topic读取相应的检测特征数据向量流；

步骤S103-2)利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口为检测周期对检测特征数据向量流进行检测统计，以主域名为分析对象进行汇聚，提取汇聚结果的统计特征向量，包括子域名与主域名创建时间间隔F1、子域名组建立时间间隔F2、通用子域名的比例F3、子域名长度的多样性F4、IP的地理位置、阴影社区、K-L散度评估、Web关联性；

步骤S103-3)基于上述统计特征向量，利用阶段1异常检测模型进行域名阴影可信度评估，并根据可信度的阈值q₁判断检测特征数据向量流是否进入下一阶段，包括：

计算总体可信度评分score_p1，若score_p1≥q₁，则判定为该时间窗口存在域名阴影；若score_p1<q₁，则将该时间窗口的检测特征数据向量流进行步骤S103-4)的处理；

步骤S103-4)利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口为检测周期对检测特征数据向量流进行检测统计，以解析的主机IP为分析对象进行汇聚，提取汇聚结果的统计特征向量，包括K-L散度评估、Web关联性、主机IP承载的疑似域名阴影的数量；

步骤S103-5)基于步骤S103-4)输出的统计特征向量，利用阶段2异常检测模型进行域名阴影可信度评估，并根据可信度的阈值判断对子域名进行最终的可信度标注，更新检测特征数据向量流相关字段；

步骤S103-6)对可信度超过指定阈值的疑似域名阴影进行汇聚，输出疑似域名阴影的主域名、主机IP、域名拥有组织的相关信息以及证据向量，并写入数据库。

2.如权利要求1所述的基于DNS解析的域名阴影检测方法，其特征在于，所述步骤1)具体为：

102)利用爬虫根据时间获取来自PDNS特征数据供应商的PDNS特征数据；

103)利用采集器获取来自实时DNS流量的PDNS特征数据和来自数据供应商的PDNS特征数据，送到消息队列；

105)利用分布式数据流处理组件，从消息队列读取相应的PDNS数据流，并使用情报黑白名单列表形成的过滤算法对PDNS数据流进行过滤，再使用在线数据扩充算法、离线数据扩充算法对PDNS数据流进行数据特征扩充，补充相关特征向量；

3.如权利要求1所述的基于DNS解析的域名阴影检测方法，其特征在于，所述步骤2)具体为：

202)利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口为检测周期对特征数据向量流进行检测统计，以解析的主机IP为分析对象进行汇聚，若解析的主机IP承载了大量的、不重复的主域名，则判定为该服务器为CDN加速服务器，更新CDN服务器列表；

203)利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口为检测周期对特征数据向量流进行检测统计，以主域名为分析对象进行汇聚，若主域名包含的子域名具有子域名数量低于指定的阈值且子域名命名符合规范、子域名的活跃度大于指定的阈值的行为时，则过滤这部分特征数据向量流；

4.如权利要求1所述的基于DNS解析的域名阴影检测方法，其特征在于，所述步骤S103-6)具体为：

S103-6-1)利用分布式数据流处理组件的滑动时间窗口机制，以预设的滑动时间窗口对判定为可疑域名阴影的检测特征数据向量流根据主域名进行汇聚；

S103-6-2)提取疑似域名阴影的主域名、主机IP、域名拥有组织的相关信息以及证据向量，生成域名阴影检测结果向量流；

S103-6-3)利用分布式数据流处理组件的数据库写入机制，将域名阴影检测结果向量流写入数据库。

5.一种用于实现权利要求1所述的基于DNS解析的域名阴影检测方法的基于DNS解析的域名阴影检测装置，其特征在于，包括：

数据采集单元，用于获取PDNS格式的请求解析日志数据，记为特征数据向量流，所述的PDNS格式的请求解析日志数据包括如下各项：请求域名、应答IP、首次时间戳、最近一次时间戳、资源类型、TTL；

异常检测单元，基于分布式数据流框架构造多阶段异常检测组件，利用统计分析模块对特定滑动时间窗口的检测特征数据向量流进行计算获得统计特征向量，多阶段异常检测组件对域名阴影进行可信度评估，并根据可信度的阈值判断子域名是否为疑似域名阴影并进行最终的可信度标注；

入库单元，基于分布式数据流框架对可信度超过给定阈值的疑似域名阴影进行汇聚，输出模块将输出疑似域名阴影的主域名、主机IP、域名拥有组织的相关信息以及证据向量，并写入数据库。

6.根据权利要求5所述的基于DNS解析的域名阴影检测装置，其特征在于，所述数据采集单元通过架设DNS协议解析服务器、爬虫服务器、镜像交换机以及光电转换设备，实现从现网流量和PDNS数据供应商获取PDNS格式的请求解析日志数据，并进行汇聚。

7.根据权利要求5所述的基于DNS解析的域名阴影检测装置，其特征在于，所述数据预处理单元基于分布式数据流处理框架，使用DGA域名识别模块、白域名生成模块、CDN服务器列表获取模块，以及情报黑白名单模块获取域名和IP黑白名单列表，并且封装域名和IP黑白名单列表为相应的黑白名单检测模块。

8.根据权利要求5所述的基于DNS解析的域名阴影检测装置，其特征在于，所述数据预过滤和扩展单元基于分布式数据流处理框架，从消息队列读取相应的特征数据向量流，并使用黑白名单过滤模块、在线数据扩充模块、离线数据扩充模块对特征数据向量流进行数据过滤和特征扩充，降低后续处理流程数据流规模并补充相关特征向量，生成检测特征数据向量流，利用分布式数据流组件的消息队列写入模块，将检测特征数据向量流写回消息队列的检测特征数据向量流Topic。

9.根据权利要求5所述的基于DNS解析的域名阴影检测装置，其特征在于，所述异常检测单元和入库单元，基于分布式数据流处理框架，利用分布式数据流组件的消息队列读取模块，从消息队列的检测特征数据向量流Topic读取相应的检测特征数据向量流；利用聚合分析模块分别对主机IP和主域名进行聚合分析，多阶段异常检测模块分别对聚合结果进行分析，并且利用域名阴影可信度评估算法对其结果进行评估，并根据可信度的阈值判断对子域名进行最终的可信度标注，最后，提取疑似域名阴影的主域名、主机IP、域名拥有组织的相关信息以及证据向量，将域名阴影检测结果写入数据库。