CN111866196A

CN111866196A - 一种域名流量特征提取方法、装置、设备及可读存储介质

Info

Publication number: CN111866196A
Application number: CN201910344874.1A
Authority: CN
Inventors: 闫凡; 陈扬; 赵振洋; 古亮
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2020-10-30
Anticipated expiration: 2039-04-26
Also published as: CN111866196B

Abstract

本发明公开了一种域名流量特征提取方法，涉及网络安全领域，利用神经网络学习域名流量波形序列的结构特征与上下文依赖关系，可以提取出抽象的、高层次的流量特征的特性，对域名访问流量数据进行统计以及归一化处理后，生成可以进行特征提取的输入序列，通过训练好的序列到序列的模型自动化的提取域名抽象的、高层次的流量特征，与传统的人工提取特征的手段相比，能够更加完整的提取出域名流量特征构成的时间序列对应的上下文依赖关系与结构特征，提高域名流量特征提取的精确度。本发明还公开了一种域名流量特征提取装置、设备及一种可读存储介质，具有上述有益效果。

Description

一种域名流量特征提取方法、装置、设备及可读存储介质

技术领域

本发明涉及网络安全领域，特别涉及一种域名流量特征提取方法、装置、设备及可读存储介质。

背景技术

域名用于进行网络定位，人们输入域名后，在DNS上转换为IP，才能找到相应的服务器，打开相应的网页。目前存在大量非法域名，严重影响正常域名的正常工作，导致正常域名网站被降权，甚至受到惩罚，为维持正常的网络秩序，需要进行域名特征提取，以便于进一步进行域名类型的分析识别。

合法域名与非法域名注册的目的不一样，合法域名用于承载合法的业务，非法域名用于恶意利用实现非法请求，相应地，他们对应的流量特征也不尽相同，例如，一个合法网站的访问流量可能主要集中在白天，而一个用于恶意软件可能选择在凌晨两三点与C&C服务器的域名进行通信，访问的流量主要集中在凌晨；一个合法网站可能每天具有稳定的访问量以及类似的流量波动，而一个恶意软件C&C域名有可能是近期被注册用来通信，在注册之前的访问流量一直为零，注册后才会有突发的流量等。域名的流量特征可以作为一种有效的域名特征，从而可以进一步将流量特征相似的域名聚在一起，作为区分合法域名与非法域名的有效手段。

传统的提取域名流量特征提取方法主要是人工提取流量的统计特征，如每个小时内域名访问的总次数、一段时间内域名访问次数的均值、中位数、方差、标准差、流量的波峰波谷的周期性等。但是，人工提特征只能提出一些人能够理解的特征，往往会漏掉一些不那么直观的高层次的特征。这些高层次特征的丢失会影响后续域名的合法性判定中的精度，导致识别准确率低。

因此，如何提高域名流量特征提取的精确度，从而进一步提升域名识别准确度，是本领域技术人员需要解决的技术问题。

发明内容

本发明的目的是提供一种域名流量特征提取方法，该方法域名流量特征提取的精确度高，从而可以进一步提升域名识别的准确度；本发明的另一目的是提供一种域名流量特征提取装置、设备及一种可读存储介质。

为解决上述技术问题，本发明提供一种域名流量特征提取方法，包括：

获取域名访问流量，得到待处理流量数据；

统计预设时间内所述待处理流量数据中各域名单位时间访问次数，得到各域名对应的访问次数序列；

对所述访问次数序列进行归一化处理，得到输入序列；

将所述待输入序列输入至域名流量特征提取模型中进行深层次流量特征提取，得到流量特征输出序列；其中，所述域名流量特征提取模型为经过域名流量特征提取预训练的序列到序列模型。

可选地，所述域名流量特征提取模型包括：卷积神经网络以及递归神经网络；

则相应地，将所述输入序列输入至域名流量特征提取模型中进行深层次流量特征提取具体为：

根据所述输入序列构建域名流量变化波形图；

将所述域名流量变化波形图输入至卷积神经网络进行图形结构特征提取，得到第一输出序列；

将所述输入序列输入至所述递归神经网络进行序列结构特征提取，得到第二输出序列；

将所述第一输出序列以及所述第二输出序列进行特征整合，得到流量特征输出序列。

可选地，所述获取域名访问流量，包括：

收集各主机访问待分析域名时的时间戳、DNS记录以及HTTP记录，生成访问记录，并将所述访问记录作为所述待处理流量数据。

可选地，所述获取域名访问流量，包括：

收集域名访问流量，得到原始数据；

对所述原始数据根据预设数据筛选规则进行数据过滤，得到预设类别的待处理流量数据。

可选地，对所述原始数据根据预设数据筛选规则进行数据过滤，包括：

确定目标主机的特征信息，得到目标主机特征；

将所述目标主机特征作为筛选条件对所述原始数据进行筛选，并将筛选得到的与所述目标主机特征匹配的数据作为所述待处理流量数据。

确定目标域名的特征信息，得到目标域名特征；

将所述目标域名特征作为筛选条件对所述原始数据进行筛选，并将筛选得到的与所述目标域名特征匹配的数据作为所述待处理流量数据。

确定目标记录字段的特征信息，得到目标字段特征；

将所述目标字段特征作为筛选条件对所述原始数据进行筛选，并将筛选得到的与所述目标字段特征匹配的数据作为所述待处理流量数据。

可选地，对所述访问次数序列进行归一化处理，包括：

对所述访问次数序列中各数值取对数并保留预设位数的有效数字、进行min-max标准化处理、进行标准差标准化处理。

可选地，所述域名流量特征提取方法还包括：

结合流量的统计特征与所述流量特征输出序列，将得到的结果作为域名的特征信息。

可选地，所述域名流量特征提取方法还包括：

计算与各特征信息间的距离，得到与各域名的特征距离；

将小于阈值的所述特征距离对应的域名划分为第一类别，将不小于阈值的所述特征距离对应的域名划分为第二类别；

根据各类别的特征信息确定类别标签，得到各域名类别划分结果。

为实现上述目的，本发明还提供了一种域名流量特征提取装置，包括：

流量数据获取单元，用于获取域名访问流量，得到待处理流量数据；

流量数据统计单元，用于统计预设时间内所述待处理流量数据中各域名单位时间访问次数，得到各域名对应的访问次数序列；

归一化处理单元，用于对所述访问次数序列进行归一化处理，得到输入序列；

特征提取单元，用于将所述待输入序列输入至域名流量特征提取模型中进行深层次流量特征提取，得到流量特征输出序列；其中，所述域名流量特征提取模型为经过域名流量特征提取预训练的序列到序列模型。

则相应地，所述特征提取单元具体包括：

波形图构建子单元，用于根据所述输入序列构建域名流量变化波形图；

第一特征提取子单元，用于将所述域名流量变化波形图输入至卷积神经网络进行图形结构特征提取，得到第一输出序列；

第二特征提取子单元，用于将所述输入序列输入至所述递归神经网络进行序列结构特征提取，得到第二输出序列；

特征整合子单元，用于将所述第一输出序列以及所述第二输出序列进行特征整合，得到流量特征输出序列。

可选地，所述流量数据获取单元为：目标数据获取单元，所述目标数据获取单元用于：收集各主机访问待分析域名时的时间戳、DNS记录以及HTTP记录，生成访问记录，并将所述访问记录作为所述待处理流量数据。

可选地，所述流量数据获取单元包括：

数据收集子单元，用于收集域名访问流量，得到原始数据；

数据过滤子单元，用于对所述原始数据根据预设数据筛选规则进行数据过滤，得到预设类别的待处理流量数据。

可选地，所述数据过滤子单元包括：

第一确定子单元，用于确定目标主机的特征信息，得到目标主机特征；

第一筛选子单元，用于将所述目标主机特征作为筛选条件对所述原始数据进行筛选，并将筛选得到的与所述目标主机特征匹配的数据作为所述待处理流量数据。

可选地，所述数据过滤子单元包括：

第二确定子单元，用于确定目标域名的特征信息，得到目标域名特征；

第二筛选子单元，用于将所述目标域名特征作为筛选条件对所述原始数据进行筛选，并将筛选得到的与所述目标域名特征匹配的数据作为所述待处理流量数据。

可选地，所述数据过滤子单元包括：

第三确定子单元，用于确定目标记录字段的特征信息，得到目标字段特征；

第四筛选子单元，用于将所述目标字段特征作为筛选条件对所述原始数据进行筛选，并将筛选得到的与所述目标字段特征匹配的数据作为所述待处理流量数据。

可选地，所述归一化处理单元包括：对数处理子单元，min-max处理子单元以及标准差处理子单元；

其中，所述对数处理子单元用于对所述访问次数序列中各数值取对数并保留预设位数的有效数字；所述min-max处理子单元用于进行min-max标准化处理；所述标准差处理子单元用于进行标准差标准化处理。

可选地，所述域名流量特征提取装置还包括：特征整合单元，所述特征整合单元用于结合流量的统计特征与所述流量特征输出序列，将得到的结果作为域名的特征信息。

可选地，所述域名流量特征提取装置还包括：距离类别划分单元；

所述距离类别划分单元包括：

特征距离计算子单元，用于计算与各特征信息间的距离，得到与各域名的特征距离；

类别划分子单元，用于将小于阈值的所述特征距离对应的域名划分为第一类别，将不小于阈值的所述特征距离对应的域名划分为第二类别；

标签确定子单元，用于根据各类别的特征信息确定类别标签，得到各域名类别划分结果。

为实现上述目的，本发明还公开了一种域名流量特征提取设备，包括：

存储器，用于存储程序；

处理器，用于执行所述程序时实现所述域名流量特征提取方法的步骤。

为实现上述目的，本发明还公开了一种可读存储介质，所述可读存储介质上存储有程序，所述程序被处理器执行时实现所述域名流量特征提取方法的步骤。

本发明所提供的域名流量特征提取方法，利用神经网络学习域名流量波形序列的结构特征与上下文依赖关系，从而可以提取出抽象的、高层次的流量特征的特性，对域名访问流量数据进行统计以及归一化处理后，生成可以进行特征提取的输入序列，通过训练好的序列到序列的模型自动化的提取域名抽象的、高层次的流量特征，与传统的人工提取特征的手段相比，能够更加完整的提取出域名流量特征构成的时间序列对应的上下文依赖关系与结构特征，提高域名流量特征提取的精确度，方便后续进行基于抽象特征的分类与聚类操作，从而可以进一步提升域名识别准确度。

本发明还提供了一种域名流量特征提取装置、设备及一种可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的域名流量特征提取方法的流程图；

图2为本发明实施例提供的一种域名流量特征提取模型结构示意图；

图3为本发明实施例提供的域名流量特征提取装置的结构框图；

图4为本发明实施例提供的域名流量特征提取设备的结构示意图。

具体实施方式

本发明的核心是提供一种域名流量特征提取方法，该方法使用序列到序列的模型自动化的提取域名抽象的、高层次特征的流量特征，与传统的人工提取特征的手段相比，能够更加完整的提取出域名流量特征构成的时间序列对应的上下文依赖关系与结构特征，方便后续进行基于抽象特征的分类与聚类操作；本发明的另一核心是提供一种域名流量特征提取装置、设备及一种可读存储介质。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参考图1，图1为本实施例提供的邮件账号失陷检测方法的流程图；该方法可以包括：

步骤s110：获取域名访问流量，得到待处理流量数据。

域名的访问流量指域名被访问的次数随时间的变化情况，例如每一个小时统计一下一个域名被访问的次数，则一段时间内(一天或一周)这个访问次数随时间的变化情况为该域名的流量。

如下表1所示为一种一天内域名A的访问流量示意，本实施例中仅以下述域名访问流量为例，其它统计间隔时间下的访问流量均可参照本实施例的介绍，在此不再赘述。

表1

本实施例中对应用场景不做限定，不同应用场景提出的特征向量反映的侧重点有所不同，不同场景下的流量特征提取均适用本发明提出的序列到序列的模型。

对于不同的应用场景，域名访问流量的收集对象不同。当需要针对某台主机进行主机与域名交互的行为特征，依据该主机平时使用习惯判断该主机是否出现流量特征异常时，可以收集单个主机对应的访问流量。当需要对某个局域网内所有主机根据整个局域网内访问域名的行为特征进行整体主机分析时，可以收集一个局域网(如一所学校或者一家企业对应的园区网)中的所有主机对应的访问流量。当需要对域名本身的特征进行分析时，可以收集多个局域网的流量汇聚到云端对应的总的访问流量。收集域名访问流量的场景可以有多种，包括但不仅限于单主机的流量收集、单局域网的流量收集、云端汇聚多个局域网中的流量的收集等，本实施例仅以上述情况为例进行介绍，其它应用场景均可参照本实施例的介绍。

访问流量中主要包括主机访问域名的时间戳(哪台主机在哪个时刻访问了该域名)，除了上述信息外，还可以包括其它与该次访问行为对应的其他有价值的信息，比如DNS记录或者HTTP记录中的一些重要的字段，如域名解析的IP地址、域名的有效生存期(Timeto live，TTL)、HTTP记录中的user agent等，这些字段的选取是由后续的分析需求决定的，本实施例中对访问流量中具体包括的信息类型不做限定。

对于域名访问流量的收集方式，本实施例对此不做限定，可以参照相关技术，比如可以通过审计并记录每台主机对应的HTTP数据，并从中提取出主机域名的对应关系；也可以审计并记录每台主机对应的DNS数据；或者是HTTP与DNS数据的结合；也可以利用网上公开的Passive DNS数据集或者HTTP数据集进行域名流量的收集等，本实施例中仅以上述收集方式为例进行介绍，其它数据收集方式均可参照本实施例的介绍，在此不再赘述。

由于收集的原始流量数据中可能存在冗余的无用数据，在进行数据分析时不仅会影响数据分析效率，延长占用时间，还会影响特征提取的精度，因此，优选地，进行域名流量数据获取的过程可以分为原始数据收集以及数据过滤过程。即步骤s110具体可以包括以下步骤：

步骤s101：收集域名访问流量，得到原始数据；

步骤s102：对原始数据根据预设数据筛选规则进行数据过滤，得到预设类别的待处理流量数据。

对原始数据进行过滤，保留感兴趣的数据条目进行后续的分析。由于不同应用场景或不同使用需求对于感兴趣的数据条目的判断依据不同，本实施例中对设定的数据筛选规则不做限定，具体地，可以按主机过滤、按域名过滤，或者按记录的某些字段过滤。

其中，按主机过滤，即只保留感兴趣的主机对应的数据条目，按主机过滤可以针对感兴趣的主机进行精确特征分析。具体地，按主机过滤方式可以包括但不限于如下多种形式，例如：只分析服务器对应的流量、只分析某个网段或者某个部门或者某些做了特殊配置的主机对应的流量、只分析总流量超过某个阈值的主机对应的流量等。

其中，按域名过滤，即只保留感兴趣的域名对应的数据条目，按域名过滤可以对某局域网内域名进行精确化特征分析，从而筛选出某局域网内的异常域名。具体地，按域名过滤方式可以包括但不限于如下多种形式，例如：只分析某一类域名(如CDN)对应的流量、只分析过滤了域名白名单后剩余的域名对应的流量、只分析访问次数超过某个阈值的域名对应的访问流量等。

其中，按记录的某些字段过滤，即只保留某些字段上满足一定条件的数据条目。按记录的某些字段过滤可以针对不同应用场景针对感兴趣的域名类型进行针对性精确分析，减少计算工作量，避免无用功。具体地，按记录中某些字段的过滤方式包括但不限于如下多种形式，例如：只分析TTL字段小于某个阈值的域名对应的访问流量、只分析能够成功解析出IP地址的域名对应的流量、只分析user agent不在特定列表中的URL对应域名的流量。

本实施例中仅以上述三种数据筛选方式为例进行介绍，其它筛选方式在此不再赘述。

步骤s120：统计预设时间内待处理流量数据中各域名单位时间访问次数，得到各域名对应的访问次数序列。

以域名作为键值对待处理流量数据进行聚合操作，统计每个较短的固定时间间隔T₁(如一个小时)内域名的访问指标(如访问次数)X_i，多个连续的短时间间隔构成一个长的时间间隔T₂(如一周)，长时间间隔对应一个访问次数构成的序列[X₁，X₂，……，X_k]，这个序列用于流量特征的提取。

两个时间间隔可以有不同的设置方式，常用的设置方式包括设置固定长度的时间间隔，如使用一个小时作为短的时间间隔T₁，一周作为长的时间间隔T₂，提取每个小时内域名的访问次数Xi，汇聚成一周，可以构成一个7*24维的输入向量；也可以根据场景的流量进行自适应的调整，如在流量较大的网络场景中，较短的T₁间隔内就会有足够显著的流量的特征，间隔T₁、T₂均可以设置的相对更短，在流量较小的网络场景中，需要收集较长时间段内的流量才能体现出明显的流量特征，因此T₁、T₂可以设置的相对更长。

短时间间隔T₁内的域名的访问指标X_i可以有多种表示形式，可以是一个表征单个维度特征的标量，也可以是表征多个维度特征的向量。常用的特征是事件间隔T₁内访问的总的次数，也可以将T₁分割成更小的时间片T₁＝t_1+t_2+...+t_n，假设间隔t_i内域名被访问的总次数为x_i，则间隔T₁的访问指标Xi可以由x_1，x_2，……，x_n对应的统计特征构成，如均值、中位数、方差、标准差、熵值等，也可以综合上述所有特征构成一个多维的特征向量。

步骤s130：对访问次数序列进行归一化处理，得到输入序列。

不同域名在不同时间段内的被访问次数可能具有非常明显的差别，如有些域名在一段时间内的访问次数基本为零，而有些域名在一段时间内的访问次数可能有几千次甚至更多。输入序列中的值在如此大的数值范围内波动会导致机器学习算法在进行梯度下降时很难找到收敛的点，导致训练出来的模型准确性与稳定性都非常差，因此，需要对输入序列的归一化操作，即数据的预处理操作，从而将原始的输入序列转换成容易被序列到序列模型处理的形式。以步骤s120中输入序列形式为例，对输入序列[X₁，X₂，……，X_k]进行归一化操作，则可以得到更适合序列到序列模型处理的序列[Y1，Y₂，……，Y_k]。

数据归一化预处理方式包括但不限于对输入序列中每个数值(如访问次数)取对数并保留适当的有效数字、min-max标准化、标准差标准化等，在此仅以上述处理方法为例进行介绍。

步骤s140：将待输入序列输入至域名流量特征提取模型中进行深层次流量特征提取，得到流量特征输出序列。

域名流量特征提取模型为经过域名流量特征提取预训练的序列到序列模型，本发明借助神经网络能够提取抽象的、高层次特征的能力，使用序列到序列的模型自动化的提取域名的流量特征。与传统的人工提取特征的手段相比，能够更加完整的提取出域名流量特征构成的时间序列对应的上下文依赖关系与结构特征，将高维的域名流量行为降维到低维度的特征空间，方便后续进行基于抽象特征的分类与聚类操作。

构建序列到序列模型自动化提取域名流量特征，序列到序列模型的输入序列是[Y₁，Y₂，……，Y_k]，输出序列也是[Y₁，Y₂，……，Y_k]，构成自动编码器(auto-encoder)，中间结果是一个m维的向量[Z₁，Z₂，……，Z_m]。序列到序列模型由一个编码器和一个解码器构成，其中编码器的输入为[Y₁，Y₂，……，Y_k]，输出为[Z₁，Z₂，……，Z_m]；解码器的输入为[Z₁，Z₂，……，Z_m]，输出为[Y₁，Y₂，……，Y_k]。

序列到序列模型利用编码器提取序列[Y₁，Y₂，……，Y_k]抽象的、高层次的特征[Z₁，Z₂，……，Z_m]，并用解码器重构输入的序列[Y₁，Y₂，……，Y_k]。由于输入与输出的序列是相同的，因此该序列到序列模型不需要额外的数据标记过程。编码器与解码器同时得到训练，训练好的编码器可以作为流量特征提取器，输入一段特定长度时间间隔内的域名流量，编码器的输出即为自动化提取的抽象的、高层次的特征。

其中，编码器与解码器可以有多种结构形式，本实施例不做限定，可选的结构包括全连接的神经网络、卷积神经网络CNN、递归神经网络RNN等。可以将域名流量随着时间变化构成的序列看成波形图，CNN非常擅长提取图中的结构特征，因此可以用来提取流量波形图的结构特征；RNN非常擅长提取序列结构中的上下文依赖关系，因此可以用来提取流量序列的上下文依赖关系。

编码器与解码器的结构选择可以相同，也可以不同。编码器与解码器可以都选择RNN或CNN，也可以编码器选择CNN，解码器选择RNN等。编码器与解码器的层数也可以根据需要做不同的设置。

下图2所示为一种域名流量特征提取模型结构示意图，编码器为深度神经网络，解码器与编码器结构相同，具体层连接请参照图2，本实施例中仅以上述结构为例进行介绍，其它可以实现深层次域名流量特征提取的序列到序列的模型结构类型均可参照本实施例的介绍，在此不再赘述。

步骤s140中输出的域名流量的抽象的、高层次的特征[Z₁，Z₂，……，Z_m]即为序列到序列模型自动化提取出的流量特征向量，可以根据应用的需求应用到多个不同的场景中采用不同的手段进行不同类型的数据处理，比如可用于正常域名与恶意域名的分类问题、相似域名的聚类问题以及进行单纯的域名特征分析等，本实施例中对后续处理手段不做限定。

基于上述介绍，本实施例提供的域名流量特征提取方法，利用神经网络学习域名流量波形序列的结构特征与上下文依赖关系，可以提取出抽象的、高层次的流量特征的特性，对域名访问流量数据进行统计以及归一化处理后，生成可以进行特征提取的输入序列，通过训练好的序列到序列的模型自动化的提取域名抽象的、高层次的流量特征，与传统的人工提取特征的手段相比，能够更加完整的提取出域名流量特征构成的时间序列对应的上下文依赖关系与结构特征，提高域名流量特征提取的精确度，方便后续进行基于抽象特征的分类与聚类操作，从而可以进一步提升域名识别准确度。

实施例二：

实施例一中对步骤s140后的后续处理手段不做限定，其中，为进行精确化域名类型的区分，避免非法域名对网络安全的威胁，优选地，在步骤s140后可以进一步对流量特征输出序列进行特征聚类分析，得到域名分类结果，分类结果比如合法域名、非法域名。

可以直接以步骤s140中得到的流量特征输出序列作为域名的流量特征进行域名分析，例如进行单独域名的特征分析，或者结合多个序列到序列模型输出特征进行组合分析等；也可以与其它预先提取的域名特征结合，其中，优选地，可以结合流量的统计特征与流量特征输出序列，将得到的结果作为域名的特征信息。人工提取的流量的统计特征可以反映域名流量直观特征，流量特征输出序列反映域名流量的深度特征，两者结合进行域名流量特征分析可以丰富特征类型，提升识别准确率等。

上述实施例中均以将域名流量特征作为域名特征进行分析为例，此外，还可以进一步结合域名其它方面(流量特征外)的特征进行域名的整体分析，比如域名地址特征等，在此不做限定。

在确定域名特征后可以进行相似性的计算，用于分类与聚类问题，例如可以通过聚类的方式将具有相似流量特征的域名聚集在一起，作为整体进行分析，具有相似流量特征的两个域名有可能同属于某个相同的合法组织，也可能同属于某个僵尸网络。具体的聚类分析手段本实施例中不做限定，可以参照相关技术中的介绍，其中，优选地，可以比较两个域名流量特征向量的距离(如欧几里得距离或cos相似度)来判断两个域名是否具有相似的流量特征，将所有待判别的域名进行两两特征距离计算划分为两个类别后，再根据特征信息进行类别标签的确定，通过计算向量距离实现方式较为简单，且占用的计算资源较少，硬件成本较低，本实施例中仅以上述方式为例进行聚类分析的介绍，其它方式均可参照本实施例的介绍，在此不再赘述。

本实施例中对提取得到的流量特征输出序列的后续处理措施进行介绍，可以实现不同应用场景下的实际意义。

实施例三：

为加深对本发明提供的域名流量特征提取方法的理解，本实施例以进行局域网流量特征提取为例进行介绍，其它实施方式均可参照本实施例的介绍。

主要包括以下步骤：

步骤s201：收集域名的访问流量以及其他相关信息。

可以将多个局域网对应的DNS流量与HTTP流量汇聚在云端，汇聚的流量可能来自各行各业的各种应用，汇聚的数据量越大，越能准确刻画域名被访问的总体情况。需要记录的信息是哪个局域网中的哪一台主机在什么时刻访问了哪个域名，对应的URL是多少，域名解析出来的IP地址是多少，域名的TTL值是多少等，收集的这些信息是后续进行自动化特征提取的基础。

步骤s202：对步骤s201中收集的原始数据进行过滤，并构建域名访问状况随时间变化的序列。

本实施例中，对于每一个域名，统计每个小时内域名被访问的次数，考虑一周内域名流量随着时间的变化，一周内每个小时被访问的次数构成一个7*24＝168维的序列，该序列作为最原始的输入序列进行特征提取。每个流量序列既可以看成具有上下文依赖的时间序列，又可以看成一维的波形图，因此，使用RNN或者一维的CNN可以提取出域名流量抽象的、高层次的特征。

步骤s203：对步骤s202中得到的域名流量序列进行归一化。

为了提升模型的精度与收敛速度，对域名流量序列中的访问次数的值进行归一化操作，首先对所有的访问次数值取对数并取五位有效数字，将所有的数值的取值空间进行压缩，然后使用min-max标准化的方案将每一个维度的数据映射到[-1,1]之间，得到归一化后的流量访问序列，用于后续处理。

步骤s204：使用步骤s203中得到的归一化的序列作为输入和输出训练序列到序列的自动编码器模型。

为了兼顾域名流量波形的形状特征与序列的上下文依赖特征，分别训练了两个序列到序列的模型：(1)模型由一维CNN的编码器与一维CNN的解码器构成，输入与输出均为168维的归一化后的域名访问次数序列，中间结果(编码器的输出)是一个50维的特征向量；(2)模型由LSTM的编码器与LSTM的解码器构成，输入与输出均为168维的归一化后的域名访问次数序列，中间结果(编码器的输出)是一个50维的特征向量。使用归一化的数据训练这两个自动编码器，用作后续特征向量的提取。

步骤s205：使用步骤s204中训练好的编码器提取域名流量的特征向量，用于后续的分类与聚类。

训练好的两个编码器：CNN编码器和LSTM编码器可以一起配合使用提取域名流量的特征，将一个域名一周的流量归一化后输入到两个编码器中，可以得到两个50维的特征向量，将两个50维的特征向量进行拼接成为一个100维的特征向量。这个向量既包括了域名流量波形的形状特征，也包含了流量随时间变化的上下文依赖特征。

还可以在此100维的向量的基础上使用PCA等降维算法进一步对特征进行压缩，得到最终提取的特征向量。然后基于这些特征向量，使用cos相似度作为距离函数进行k-means聚类，可以将具有相似流量特征的域名聚在一起。

以上以单局域网场景进行介绍，针对不同的场景(如单主机场景、以及云端场景，可以自适应的调整特征提取的方式，本实施例不再赘述。

基于上述介绍，本实施例提供的域名流量提取步骤能够自动化的进行深度局域网内域名流量特征提取，避免了费时费力的人工特征工程，提升了特征提取的精度以及效率。

实施例四：

请参考图3，图3为本实施例提供的域名流量特征提取装置的结构框图；可以包括：流量数据获取单元210、流量数据统计单元220、归一化处理单元230以及特征提取单元240。本实施例提供的域名流量特征提取装置可与上述域名流量特征提取方法相互对照。

其中，流量数据获取单元210主要用于获取域名访问流量，得到待处理流量数据；

流量数据统计单元220主要用于统计预设时间内待处理流量数据中各域名单位时间访问次数，得到各域名对应的访问次数序列；

归一化处理单元230主要用于对访问次数序列进行归一化处理，得到输入序列；

特征提取单元240主要用于将待输入序列输入至域名流量特征提取模型中进行深层次流量特征提取，得到流量特征输出序列；其中，域名流量特征提取模型为经过域名流量特征提取预训练的序列到序列模型。

本实施例提供的域名流量特征提取装置域名流量特征提取的精确度高，从而可以进一步提升域名识别的准确度。

其中，优选地，域名流量特征提取模型具体可以包括：卷积神经网络以及递归神经网络；

则相应地，特征提取单元具体包括：

波形图构建子单元，用于根据输入序列构建域名流量变化波形图；

第一特征提取子单元，用于将域名流量变化波形图输入至卷积神经网络进行图形结构特征提取，得到第一输出序列；

第二特征提取子单元，用于将输入序列输入至递归神经网络进行序列结构特征提取，得到第二输出序列；

特征整合子单元，用于将第一输出序列以及第二输出序列进行特征整合，得到流量特征输出序列。

优选地，流量数据获取单元具体可以为：目标数据获取单元。

目标数据获取单元具体用于：收集各主机访问待分析域名时的时间戳、DNS记录以及HTTP记录，生成访问记录，并将访问记录作为待处理流量数据。

优选地，流量数据获取单元具体可以包括：

数据收集子单元，用于收集域名访问流量，得到原始数据；

数据过滤子单元，用于对原始数据根据预设数据筛选规则进行数据过滤，得到预设类别的待处理流量数据。

优选地，数据过滤子单元具体可以包括：

第一筛选子单元，用于将目标主机特征作为筛选条件对原始数据进行筛选，并将筛选得到的与目标主机特征匹配的数据作为待处理流量数据。

优选地，数据过滤子单元具体可以包括：

第二筛选子单元，用于将目标域名特征作为筛选条件对原始数据进行筛选，并将筛选得到的与目标域名特征匹配的数据作为待处理流量数据。

优选地，数据过滤子单元具体可以包括：

第四筛选子单元，用于将目标字段特征作为筛选条件对原始数据进行筛选，并将筛选得到的与目标字段特征匹配的数据作为待处理流量数据。

优选地，归一化处理单元具体可以包括：对数处理子单元，min-max处理子单元以及标准差处理子单元；

其中，对数处理子单元用于对访问次数序列中各数值取对数并保留预设位数的有效数字；min-max处理子单元用于进行min-max标准化处理；标准差处理子单元用于进行标准差标准化处理。

优选地，本实施例提供的域名流量特征提取装置中可以进一步包括：特征整合单元，特征整合单元用于结合流量的统计特征与流量特征输出序列，将得到的结果作为域名的特征信息。

优选地，本实施例提供的域名流量特征提取装置中可以进一步包括：距离类别划分单元；

距离类别划分单元包括：

类别划分子单元，用于将小于阈值的特征距离对应的域名划分为第一类别，将不小于阈值的特征距离对应的域名划分为第二类别；

实施例五：

本实施例提供一种邮件账号失陷检测设备，包括：存储器以及处理器。

其中，存储器用于存储程序；

处理器用于执行程序时实现如上述域名流量特征提取方法的步骤，具体可参照上述实施例中对域名流量特征提取方法的介绍，在此不再赘述。

请参考图4，为本实施例提供的域名流量特征提取设备的结构示意图，该域名流量特征提取设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在域名流量特征提取设备301上执行存储介质330中的一系列指令操作。

域名流量特征提取设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上面图1所描述的域名流量特征提取方法中的步骤可以由域名流量特征提取设备的结构实现。

实施例六：

本实施例公开一种可读存储介质，其上存储有程序，程序被处理器执行时实现如上述域名流量特征提取方法的步骤，具体可参照上述实施例中对域名流量特征提取方法的介绍。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的域名流量特征提取方法、装置、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种域名流量特征提取方法，其特征在于，包括：

获取域名访问流量，得到待处理流量数据；

对所述访问次数序列进行归一化处理，得到输入序列；

2.如权利要求1所述的域名流量特征提取方法，其特征在于，所述域名流量特征提取模型包括：卷积神经网络以及递归神经网络；

根据所述输入序列构建域名流量变化波形图；

3.如权利要求1所述的域名流量特征提取方法，其特征在于，所述获取域名访问流量，包括：

4.如权利要求1所述的域名流量特征提取方法，其特征在于，所述获取域名访问流量，包括：

收集域名访问流量，得到原始数据；

5.如权利要求4所述的域名流量特征提取方法，其特征在于，对所述原始数据根据预设数据筛选规则进行数据过滤，包括：

确定目标主机的特征信息，得到目标主机特征；

6.如权利要求4所述的域名流量特征提取方法，其特征在于，对所述原始数据根据预设数据筛选规则进行数据过滤，包括：

确定目标域名的特征信息，得到目标域名特征；

7.如权利要求4所述的域名流量特征提取方法，其特征在于，对所述原始数据根据预设数据筛选规则进行数据过滤，包括：

确定目标记录字段的特征信息，得到目标字段特征；

8.如权利要求1所述的域名流量特征提取方法，其特征在于，对所述访问次数序列进行归一化处理，包括：

9.如权利要求1所述的域名流量特征提取方法，其特征在于，还包括：

10.如权利要求9所述的域名流量特征提取方法，其特征在于，还包括：

计算与各特征信息间的距离，得到与各域名的特征距离；

11.一种域名流量特征提取装置，其特征在于，包括：

12.如权利要求11所述的域名流量特征提取装置，其特征在于，所述域名流量特征提取模型包括：卷积神经网络以及递归神经网络；

则相应地，所述特征提取单元具体包括：

13.如权利要求11所述的域名流量特征提取装置，其特征在于，所述流量数据获取单元为：目标数据获取单元，所述目标数据获取单元用于：收集各主机访问待分析域名时的时间戳、DNS记录以及HTTP记录，生成访问记录，并将所述访问记录作为所述待处理流量数据。

14.如权利要求11所述的域名流量特征提取装置，其特征在于，所述流量数据获取单元包括：

数据收集子单元，用于收集域名访问流量，得到原始数据；

15.如权利要求14所述的域名流量特征提取装置，其特征在于，所述数据过滤子单元包括：

16.如权利要求14所述的域名流量特征提取装置，其特征在于，所述数据过滤子单元包括：

17.如权利要求14所述的域名流量特征提取装置，其特征在于，所述数据过滤子单元包括：

18.如权利要求11所述的域名流量特征提取装置，其特征在于，所述归一化处理单元包括：对数处理子单元，min-max处理子单元以及标准差处理子单元；

19.如权利要求11所述的域名流量特征提取装置，其特征在于，还包括：特征整合单元，所述特征整合单元用于结合流量的统计特征与所述流量特征输出序列，将得到的结果作为域名的特征信息。

20.如权利要求19所述的域名流量特征提取装置，其特征在于，还包括：距离类别划分单元；

所述距离类别划分单元包括：

21.一种域名流量特征提取设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述程序时实现如权利要求1至10任一项所述域名流量特征提取方法的步骤。

22.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序，所述程序被处理器执行时实现如权利要求1至10任一项所述域名流量特征提取方法的步骤。