CN111756874A

CN111756874A - 一种dns隧道上层协议的类型的识别方法和装置

Info

Publication number: CN111756874A
Application number: CN202010590930.2A
Authority: CN
Inventors: 张新
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-09

Abstract

本申请公开了一种DNS隧道上层协议的类型的识别方法及装置，其中，所述方法包括：基于待检测的DNS隧道流量获得其第一特征信息；将所述第一特征信息输入训练完成的用于检测DNS隧道上层协议的类型的识别模型中，以确定出所述待检测的DNS隧道流量中所使用的上层协议的类型。本申请通过模型训练获得检测DNS隧道流量中所使用的上层协议的类型的识别模型，利用该识别模型对DNS隧道流量进行检测，能方便准确地确定其中所使用的上层协议的类型，以便对DNS隧道中的恶意行为进行进一步的取证分析。

Description

一种DNS隧道上层协议的类型的识别方法和装置

技术领域

本申请涉及网络安全技术领域，特别涉及一种DNS隧道上层协议的类型的识别方法和装置。

背景技术

在网络环境中，DNS协议(Domain Name Server，域名服务协议，或Domain NameSystem，域名服务系统协议)是必不可少的网络通信协议之一，为了访问互联网和内网资源，DNS可以提供域名解析服务，将域名和IP地址进行转换。而网络设备和边界防护设备在一般情况下很少对DNS数据进行过滤、分析或屏蔽，因此将数据或指令藏匿于DNS协议中进行传输是一种隐蔽且有效的网络操作行为。而一些非法攻击者可能会利用上述技术原理，通过DNS隧道技术来达到避开防火墙的检测，例如将网络流量伪装成DNS流量，再通过DNS的正常走向将流量传出来，进而实现非法目的。

为了对DNS隧道中的恶意行为进行取证分析，需要对DNS隧道流量进行深入分析，首先需要获取DNS隧道流量，然后对DNS隧道流量进行检测以对所使用的上层协议的类型、通信双方、通信的内容进行分析。目前，现有技术中针对DNS隧道上层协议的类型的识别涉及的方案比较少，无法准确的识别出DNS隧道中所使用的上层协议的类型。

发明内容

本申请实施例的目的在于提供一种DNS隧道上层协议的类型的识别方法，用于解决现有技术中无法准确的识别出DNS隧道中所使用的上层协议的类型的问题，该方法能够通过训练完成的识别模型对DNS隧道流量进行检测，能方便而准确地识别出其中所使用的上层协议的类型。

为了解决上述技术问题，本申请的实施例采用了如下技术方案：一种DNS隧道上层协议的类型的识别方法，包括如下步骤：

基于待检测的DNS隧道流量获得其第一特征信息；

将所述第一特征信息输入训练完成的用于检测DNS隧道上层协议的类型的识别模型中，以确定出所述待检测的DNS隧道流量中所使用的上层协议的类型。

作为优选，所述基于待检测的DNS隧道流量获得其第一特征信息，包括：

获取包含所述待检测的DNS隧道流量的第一文件数据；

将所述第一文件数据中具有相匹配的请求包和响应包的数据文件提取出来作为第二文件数据；

基于对第二文件数据分析获得所述第一特征信息；

根据所述第一特征信息生成第一特征向量，所述第一特征向量用于输入所述训练完成的识别模型进行检测。

可选的，所述第一特征信息包括：

与所述待检测的DNS隧道流量相应的IP Packet长度信息；和/或

与所述待检测的DNS隧道流量相应的DNS查询信息。

作为优选，所述方法还包括采用集成算法训练获得所述训练完成的识别模型，具体包括：

收集所述DNS隧道中的DNS隧道流量样本；

基于所述DNS隧道流量样本获得其第二特征信息；

构建待训练的识别模型，输入所述第二特征信息并采用集成算法对所述待训练的识别模型进行训练以获得所述训练完成的识别模型。

作为优选，所述基于所述DNS隧道流量样本获得其第二特征信息，包括：

获取包含所述DNS隧道流量样本的第三文件数据；

将所述第三文件数据中具有相匹配的请求包和响应包的数据文件提取出来作为第四文件数据；

基于第四文件数据进行分析获得所述第二特征信息；

根据所述第二特征信息生成第二特征向量，所述第二特征向量用于输入所述待训练的识别模型以对其进行训练。

可选的，所述集成算法包括：随机森林或GBDT。

可选的，所述第二特征信息包括：

与所述DNS隧道流量样本相应的IP Packet长度信息；和/或

与所述DNS隧道流量样本相应的DNS查询信息。

可选的，所述将所述第一特征信息输入训练完成的用于检测DNS隧道上层协议的类型的识别模型中，以确定出所述待检测的DNS隧道流量中所使用的上层协议的类型，包括：

分析特征信息，通过所述训练完成的识别模型获取计算结果，根据所述计算结果确定所述待检测的DNS隧道流量中所使用的上层协议的类型。

为解决上述技术问题，本申请的实施例还提供一种DNS隧道上层协议的类型的识别装置，包括：

获取模块，配置为获取待检测的DNS隧道流量；

提取模块，配置为基于待检测的DNS隧道流量提取第一特征信息；

检测模块，配置为将所述特征信息输入到完成训练的识别模型中，以确定出所述待检测的DNS隧道流量中所使用的上层协议的类型。

作为优选，所述提取模块进一步配置为：

将包含所述待检测的DNS隧道流量的第一文件数据中具有相匹配的请求包和响应包的文件数据提取出来作为第二文件数据；

基于对第二文件数据的分析获得所述第一特征信息，以供生成用于输入所述训练完成的识别模型的第一特征向量。

本申请通过模型训练获得检测DNS隧道流量中所使用的上层协议的类型的识别模型，利用该识别模型对DNS隧道流量进行检测，能方便准确地确定其中所使用的上层协议的类型，以便对DNS隧道中的恶意行为进行进一步的取证分析。

附图说明

图1为本申请实施例的一种DNS隧道上层协议的类型的识别方法的流程图；

图2为本申请实施例的图1步骤S1的一个具体实施例的流程图；

图3为本申请实施例的训练模型步骤的流程图；

图4为本申请实施例的图3步骤S4的一个具体实施例的流程图；

图5为图本申请实施例的装置的结构框图。

具体实施方式

此处参考附图描述本申请的各种方案以及特征。

应理解的是，可以对此处申请的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例；然而，应当理解，所申请的实施例仅仅是本申请的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此，本文所申请的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本申请的相同或不同实施例中的一个或多个。

域名服务协议即为DNS协议，基于DNS协议可以使电子设备提供域名解析服务，将域名和IP地址进行转换，网络设备和边界防护设备通常不会对DNS数据进行检测。相应的利用DNS隧道技术可以实现将数据或指令藏匿于DNS协议中进行传输，本申请实施例所述的上层协议的类型的识别方法能够应用于该场景中，通过训练完成的识别模型来实现对实际使用中的DNS隧道流量的检测，以确定其中所使用的上层协议的类型。

图1为本申请实施例的一种DNS隧道上层协议的类型的识别方法的流程图，本申请实施例提供的一种DNS隧道上层协议的类型的识别方法，如图1所示，该方法包括如下步骤：

步骤S1，基于待检测的DNS隧道流量获得其第一特征信息。

具体来说，域名服务协议即为DNS(Domain Name Server，或DomainName System)，DNS隧道，即利用DNS请求和响应来承载经过编码或加密的数据内容，攻击者需要接管某个域名的NS服务器，使得对该域名的所有子域解析请求最终到达该台NS服务器上，最终，一条通信信道将在受控机器和攻击者的NS服务器之间建立(中间可能经过更多的NS节点)，信道的建立、维持和通信基于DNS查询的请求和响应。

本步骤中在监测到DNS隧道行为时，可以启动程序来截取DNS隧道流量以进行检测，通过检测确定DNS隧道中所使用的上层协议的类型，以便于进行深入取证分析；其中，所获得的第一特征信息可以是一种或多种DNS隧道行为中的特征，用于表达DNS隧道行为中的通信数据，可以作为确定DNS隧道中所使用的上层协议的类型的依据，基于DNS隧道的自身的特点，实际中的所获得的第一特征信息可以根据用户的需求或者是在具体的场景下来选取所需的特征信息，当然也可以根据需求预先进行设定。

为了对DNS隧道流量进行分析，所提取的第一特征信息包括以下中的一种或几种：与所述截取的待检测的DNS隧道流量相应的IP Packet长度信息，其中可以包括请求IPPacket和/或响应IP Packet的长度；与所述待检测的DNS隧道流量相应的DNS查询信息，例如可以是DNS查询名称(DNS Query Name)的长度和/或DNS查询名称(DNS Query Name)熵等。

步骤S2，将所述第一特征信息输入训练完成的用于检测DNS隧道上层协议的类型的识别模型中，以确定出所述待检测的DNS隧道流量中所使用的上层协议的类型。

本步骤中的训练完成的识别模型是通过预先训练得到的，如图5中所示，该识别模型的构建可以包括一中或多种集成算法，识别模型通过预先进行训练以具备检测能力，在训练该识别模型的过程中，可以基于DNS隧道中不同的上层协议的类型截取DNS隧道流量样本，以输入不同的上层协议的类型下的DNS隧道流量样本对应的特征信息用于训练，从而提高识别模型对于DNS隧道流量的检测所确定的上层协议的类型的准确率。

进一步地，在实际中对于待检测的DNS隧道流量进行检测时，对待检测的DNS隧道流量进行分析，根据该实际的应用场景及用户的需要选取适合的特征信息，输入训练完成的识别模型进行计算获取计算结果，根据所述计算结果输出判断所使用的上层协议的类型，例如，HTTP、FTP、SSH、Telnet等。

在本申请的一个实施例中，所述基于待检测的DNS隧道流量获得其第一特征信息，如图2所示，包括以下步骤：

S11，获取包含所述待检测的DNS隧道流量的第一文件数据。

基于监测到的DNS隧道行为，启动截取DNS隧道流量的程序，此时可以采用抓包工具对DNS隧道中产生的流量进行抓取，对于抓取的文件可以采用统一的文件格式以例如pcap格式保存，或者根据用户的需要采用其他的文件数据格式进行保存下来，由此获取包含所述待检测的DNS隧道流量的第一文件数据，采用统一的文件格式保存数据可以方便对其进行进一步地处理和特征提取。

S12，将所述第一文件数据中具有相匹配的请求包和响应包的数据文件提取出来作为第二文件数据。

为提高识别出DNS隧道上层协议的类型的准确率，可对请求包和响应包的特征信息进行提取，由此，对第一文件数据进行处理，提取其中请求包和响应包能匹配成对的数据文件，以得到第二文件数据，用于后续提取出第一特征信息。

S13，基于对第二文件数据分析获得所述第一特征信息。

第一特征信息与待检测的DNS隧道流量中的特征相对应，包括以下中的一种或几种：IP Packet长度信息，例如：请求IP Packet的长度，响应IP Packet的长度；DNS查询信息，例如DNS查询名称(DNS Query Name)的长度，DNS查询名称(DNS Query Name)熵等。

S14，根据所述第一特征信息生成第一特征向量，所述第一特征向量用于输入所述训练完成的识别模型进行检测。

特征向量是对第一特征信息进行处理后通过向量表示，也即是对DNS隧道流量的特征的向量表示，本步骤中，根据所获得的第一特征信息，将其进行标准化处理，例如进行数值映射等，生成相应的第一特征向量，相对于第一特征信息来说第一特征向量可以具有统一的表达方式和数据形式，便于数据的传输及输入训练完成的识别模型后的检测工作，提高了检测结果的准确率。

在本申请的一个实施例中，所述方法还包括采用集成算法训练获得所述训练完成的识别模型，本实施例中通过搭建DNS隧道，以获取DNS隧道流量样本进行模型训练，训练的过程与上述的步骤S1至S2相类似，基于所收集到的DNS隧道流量样本获得其第二特征信息；构建一个待训练的识别模型，将用于训练的第二特征信息输入到模型中对其进行训练，从而生成用于检测DNS隧道上层协议的类型的识别模型。

在本实施例中，如图3所示，训练所述识别模型包括以下步骤：

S3，收集所述DNS隧道中的DNS隧道流量样本。

具体的，为进行模型训练，需要收集DNS隧道中的DNS隧道流量样本，DNS隧道可以通过一些DNS隧道工具搭建出来，DNS隧道工具例如iodine、dns2tcp等，基于所搭建的DNS隧道，可以采用抓包工具在其中抓取DNS隧道流量样本，为丰富样本而使其具有多样性，DNS隧道中的上层协议的类型可以为多种，例如HTTP、FTP、SSH、Telnet等，以对模型进行更加智能化的训练，提高其识别能力。

S4，基于所述DNS隧道流量样本获得其第二特征信息。

本步骤中通过对所抓取的DNS隧道流量样本进行分析，获取其中的第二特征信息，以便用于进行模型训练；第二特征信息对应DNS隧道流量样本中的特征，表达DNS隧道行为中的通信数据，基于不同上层协议的类型，第二特征信息的表达方式也不相同，以训练模型使其具备不同上层协议的类型的识别能力。

所获得的第二特征信息包括以下中的一种或几种：基于不同上层协议的类型下，DNS隧道流量样本相应的IP Packet长度信息，其中可以包括请求IP Packet和/或响应IPPacket的长度；DNS查询信息，例如可以是DNS查询名称(DNS Query Name)的长度和/或DNS查询名称(DNS Query Name)熵等。

S5，构建待训练的识别模型，输入所述第二特征信息并采用集成算法对所述待训练的识别模型进行训练以获得所述训练完成的识别模型。

本步骤中，待训练的识别模型是基于要识别的上层协议的类型进行构建得到的，再采用通过不同上层协议的类型下的DNS隧道流量样本中所获取的第二特征信息进行模型训练，以得到能用于检测DNS隧道上层协议的类型的识别模型。

本实施例中的集成算法具体可以采用随机森林或GBDT等中的一种或几种，也可以采用其他算法例如：SVM、KNN、决策树和神经网络等，不同的算法其训练时间、模型大小、识别速度和识别准确率等会有区别，具体可以根据模型的实际使用场景来选用适合的算法。

在本申请的一个实施例中，所述基于所述DNS隧道流量样本获得其第二特征信息，如图4所述，包括以下步骤：

S41，获取包含所述DNS隧道流量样本的第三文件数据。

基于所搭建的DNS隧道，采用抓包工具对其中产生的流量进行抓取，对于抓取的文件可以采用统一的文件格式例如pcap格式来进行保存，或者根据用户的需要采用其他的文件格式进行保存下来，由此获取包含所述DNS隧道流量样本的第三文件数据。

S42，将所述第三文件数据中具有相匹配的请求包和响应包的文件数据提取出来作为第四文件数据。

DNS隧道流量中，DNS请求包和响应包中均会包含所使用的上层协议的信息，因此如果只采用请求包而忽略响应包可能会降低识别DNS隧道上层协议的类型的准确率。本步骤中为提高模型对于判断出DNS隧道上层协议的类型的准确率，对第三文件数据进行处理，对于其中具有相应响应包的DNS请求包进行提取出来，以组成第四文件数据，使第四文件数据中的文件都是请求包和响应包成对存在的，以利于后续对请求包和响应包相应的特征提取，

S43，基于第四文件数据进行分析获得所述第二特征信息。

第二特征信息与DNS隧道流量样本中的特征相对应，特别是针对请求包和响应包数据的特征，第二特征信息包括以下中的一种或几种：IPPacket长度信息，例如：请求IPPacket的长度，响应IP Packet的长度；DNS查询信息，例如DNS查询名称(DNS Query Name)的长度，DNS查询名称(DNS Query Name)熵等。

S44，根据所述第二特征信息生成第二特征向量，所述第二特征向量用于输入所述待训练的识别模型以对其进行训练。

本步骤中，将所获得的第二特征信息进行标准化处理，例如进行数值映射等，生成相应的第二特征向量，相对于第二特征信息来说第二特征向量可以具有统一的表达方式和数据形式，便于数据的传输及输入模型中进行训练工作，完善识别模型的检测能力。

本发明又一实施例提供一种DNS隧道上层协议的类型的识别装置，如图5所示，包括：

获取模块，配置为获取待检测的DNS隧道流量。

本实施例中的获取模块可以在监测到的DNS隧道中截取DNS隧道流量用于检测，以确定其中上层协议的类型，以便对DNS隧道行为进行进一步的取证分析。

提取模块，配置为基于待检测的DNS隧道流量提取第一特征信息。

提取模块具体对所述待检测的DNS隧道流量进行处理以获取其中能反应上层协议的类型的第一特征信息，以便对上层协议的类型进行分析确定，其中，所要提取的第一特征信息可以是一种或多种DNS隧道行为中的特征，用于表达DNS隧道行为中的通信数据，可以作为确定DNS隧道中所使用的上层协议的类型的依据，实际中的提取何种特征信息可以根据用户的需求或者是在实际的场景下来确定，当然也可以根据需求预先进行设定。

第一特征信息包括以下中的一种或几种：与所述截取的待检测的DNS隧道流量相应的IP Packet长度信息，其中可以包括请求IP Packet和/或响应IP Packet的长度；与所述待检测的DNS隧道流量相应的DNS查询信息，例如可以是DNS查询名称(DNS Query Name)的长度和/或DNS查询名称(DNS Query Name)熵等。

在具体实施过程中，识别模型可以通过预先构建的模型进行训练，以使其具备识别上层协议的类型的能力，预先构建的模型中可以包括一种或多种集成算法，不同的集成算法其训练时间、模型大小、识别速度和识别准确率等会有区别，以根据不同的需求选用合适的算法，以对模型进行智能训练，提高其对上层协议的类型的识别能力，训练完成后，即可获得DNS隧道上层协议的类型的识别模型。

进一步地，在实际检测过程中，将从待检测的DNS隧道流量中提取的第一特征信息输入到DNS隧道上层协议的类型的识别模型中，经过其中的一种或多种集成算法进行计算，例如随机森林或GBDT等算法，也可以采用其他算法例如：SVM、KNN、决策树和神经网络等，得到计算结果，根据该计算结果确定DNS隧道上层协议的类型。

本实施例的识别装置，能够利用训练完成的识别模型对DNS隧道中的流量进行检测，以方便而准备地确定其中所使用的上层协议的类型，进而能够对DNS隧道行为进行深入的取证分析。

进一步地，本实施例在具体实施过程中，所述提取模块进一步配置为：

将包含所述待检测的DNS隧道流量的第一文件数据中具有相匹配的请求包和响应包的数据文件提取出来作为第二文件数据；

具体来说，提取模块在处理第一文件数据的过程中，对数据进行进一步的筛选，为获取第一特征信息中的请求包和响应包的信息，对第一文件数据中同时具有请求包和与请求包相应的响应包的一类文件进行提取，以此作为第二文件数据进行下一步的特征信息提取。

进一步地，提取模块基于处理得到的所述第二文件数据进行特征信息提取，根据需要的特征信息获得第二文件数据中相应的第一特征信息，并对所述第一特征信息进行标准化处理，生成相应的第一特征向量，以便于数据的传输和对识别模型数据的输入。

所述DNS隧道上层协议的类型的识别装置还包括训练模块，用于训练预先构建的模型，具体包括：通过DNS隧道工具搭建DNS隧道，收集DNS隧道中的DNS隧道流量样本；基于所述DNS隧道流量样本获得其第二特征信息；构建待训练的识别模型，输入所述第二特征信息并采用集成算法对所述待训练的识别模型进行训练以获得所述训练完成的识别模型。其中，所述集成算法具体可以采用随机森林或GBDT等中的一种或几种，也可以采用其他算法例如：SVM、KNN、决策树和神经网络等。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种DNS隧道上层协议的类型的识别方法，其中，所述方法包括如下步骤：

基于待检测的DNS隧道流量获得其第一特征信息；

2.根据权利要求1所述的方法，其中，所述基于待检测的DNS隧道流量获得其第一特征信息，包括：

获取包含所述待检测的DNS隧道流量的第一文件数据；

基于对第二文件数据分析获得所述第一特征信息；

3.根据权利要求1-2任一项权利要求所述的方法，其中，所述第一特征信息包括：

与所述待检测的DNS隧道流量相应的IP Packet长度信息；和/或

与所述待检测的DNS隧道流量相应的DNS查询信息。

4.根据权利要求1所述的方法，其中，所述方法还包括采用集成算法训练获得所述训练完成的识别模型，具体包括：

收集所述DNS隧道中的DNS隧道流量样本；

基于所述DNS隧道流量样本获得其第二特征信息；

5.根据权利要求4所述的方法，其中，所述基于所述DNS隧道流量样本获得其第二特征信息，包括：

获取包含所述DNS隧道流量样本的第三文件数据；

基于第四文件数据进行分析获得所述第二特征信息；

6.根据权利要求4或5所述的方法，其中，所述集成算法包括：随机森林或GBDT。

7.根据权利要求6所述的方法，其中，所述第二特征信息包括：

与所述DNS隧道流量样本相应的IP Packet长度信息；和/或

与所述DNS隧道流量样本相应的DNS查询信息。

8.根据权利要求1所述的方法，其中，所述将所述第一特征信息输入训练完成的用于检测DNS隧道上层协议的类型的识别模型中，以确定出所述待检测的DNS隧道流量中所使用的上层协议的类型，包括：

9.一种DNS隧道上层协议的类型的识别装置，其中，所述装置包括：

获取模块，配置为获取待检测的DNS隧道流量；

10.根据权利要求9所述的装置，其中，所述提取模块进一步配置为：