CN109450721A

CN109450721A - 一种基于深度神经网络的网络异常行为识别方法

Info

Publication number: CN109450721A
Application number: CN201811035525.3A
Authority: CN
Inventors: 陈虎; 唐开达
Original assignee: Nanjing Juming Network Technology Co Ltd
Current assignee: Nanjing Juming Network Technology Co Ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2019-03-08
Anticipated expiration: 2038-09-06
Also published as: CN109450721B

Abstract

本发明涉及一种基于深度神经网络的网络异常行为识别方法，所述方法包括以下步骤：步骤一：对网络相关数据包的各层信息及会话信息标记进行规格化；步骤二：对需要进行处理的相关网络连接会话数据进行过滤；步骤三：对各类协议数据进行特征预抽取；步骤四：将上述特征数据进行归一化处理；步骤五：将获取的向量进行标记；步骤六：对数据集进行一定程度的变形；步骤七：训练数据；步骤八：构件深度神经网络结构，生成神经网络描述文件。该方案为网络信息的安全审计提供了更为全面的手段，从而为各企业在网络安全管理、信息安全管控、信息安全管理的合规性检查提供有力支撑。

Description

一种基于深度神经网络的网络异常行为识别方法

技术领域

本发明涉及一种识别方法，具体涉及一种基于深度神经网络的网络异常行为识别方法，属于深度包检测技术领域。

背景技术

神经网络是从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型，由多层的、大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数(Activation Function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

传统神经网络由于随着层数的增加，存在梯度消失或梯度爆炸现象，故一般网络层数不会超过5层，这样会导致神经网络的表达能力、检测能力的限制(理论上神经元越多、层数越深，网络的表达能力也越强)；而随着技术的发展，如采用正则化方法、随机激活神经元(即Dropout技术)、线性激活函数的应用(如ReLU及其变种，而非传统的、基于非线性的方法，如Tanh或Sigmoid等)、局部感受，使得梯度消失或爆炸问题得以较为完满的解决，从而对神经网络层数的增加成为现实，即令神经网络可以进行纵向扩展和增长，最终使网络的能力得到极大的提高。

网络行为异常识别：通过对各类网络数据的相关收集、分类、统计等手段，对于模式上存在与其它正常的网络通讯行为模式有较大差异的连接进行识别或标记，以便于网络管理人员或安全管理人员进行定位和分析，从而在网络渗透或网络攻击的早期即发现痕迹，尽早采取相关措施以降低损失。

传统的网络行为异常识别是对数据包的结构化头部进行分析并基于网络会话进行统计。然而随着网络的不断发展,许多病毒、恶意代码、入侵指令、垃圾邮件、挖矿行为等信息都隐藏在数据包的内容之中。因此,当前在进行安全检测时,除了要对数据包头部进行检查之外,也不仅要对数据包的内容进行检测，而且需要对网络的各种连接行为模式进行总体上的识别。

基于深度包检测(DPI，Deep Packet Inspect)技术的网络异常行为识别是一种基于应用层的流量检测和控制技术。当IP数据包、TCP或UDP数据流通过基于DPI技术的带宽管理系统时，该系统通过深入读取IP包载荷的内容来对OSI七层协议中的应用层信息进行重组，从而得到整个应用程序的内容，然后按照系统定义的管理策略对流量进行整形操作。深度包检测法就是基于这种原理，通过检测各种应用协议使用的固定特征字来进行各种网络安全检测。在这种意义上，基于网络数据包深度检测技术具有一定的意义，这体现在如下几个方面：

1.在应用层面提供对于网络数据的深度识别，即不仅依赖于网络层、传输层而单独识别应用层数据；

2.在应用层面协议识别的基础上，对下一代防火墙的策略制定、过滤等提供支持；

3.在应用层面协议识别的基础上，对特殊的应用进行流量的控制，如针对某些P2P应用进行限流；

4.在应用层面协议识别的基础上，对网络流量提供更深层次的审计和监控；

5.在应用层面协议识别的基础上，对可能承载的恶意软件(如病毒、木马、蠕虫等)进行更为细致的检测，以及对异常协议事先进行预警，从而尽早从源头控制网络风险的发生。

然而，传统的基于包深度检测之上的网络异常行为识别一般存在如下几个方面的重要缺陷：

1.过度依赖于正则表达式以及各类单模/多模匹配方式，而这些模式是预先被制作好、初始化进系统的，一旦安装则只能通过升级等方式进行更新，所以对于出现的新型网络异常行为无能为力，即无法发现未知的异常行为；

2.传统的、基于统计方法的网络异常识别技术一般对于类似DDos攻击比较敏感，但对于一些木马回连、木马心跳等异常行为不甚敏感，故会导致缺失重要信息；

3.最为重要的是，目前网络渗透等存在异常行为的网络通讯数据，大多数是被加密的，故仅依赖于类似包深度检测的方法是无法探测到可能存在的问题，从而对较为隐蔽的问题无法发现。

通过初步检索，现有技术中公开的方案如下：公开号为CN201610321242.X(一种基于信息熵标准差分析的异常流量检测方法)，公开了一种基于信息熵标准差分析的异常流量检测方法，此发明基于拥有大量的互联网用户访问日志，系统对采集到的数据经加工处理后，通过大数据挖掘、关联与统计分析，快速识别并记录攻击行为或异常行为，形成入侵攻击报警信息数据，通过相关入侵攻击数据分析来构建完整的攻击路径，从而实现入侵追踪定位目标任务。同时，该发明能实现事后行为追踪和用户访问行为机器学习，降低系统误报率且提出了网络流量的可测度集，描绘了一个正常网络流量的基线，为异常检测提供了参照。此发明虽然使用一些简单的机器学习方法用于探测网络异常行为，但其主要仅使用了信息熵标准差这一维度的数据，而且此方法主要是针对分布式拒绝服务(DDoS)攻击检测的，也就是说其不具备在较为复杂的环境下探测或发现网络的异常行为，特别是所谓APT(即高级持续威胁)攻击，因为这类攻击的手法较为复杂、流量较小且非常隐蔽，而且它们多使用相对合法的端口或服务，如基于HTTP协议或HTTPS 等公共协议(因为其它端口可能已被防火墙策略所封堵)，所以仅仅通过普通的基于网络会话协议统计方法往往是难以定位的。公开号为CN201510796835.7(一种基于多级策略的自适应边界异常检测方法)，一种基于多级策略的自适应边界异常检测方法，包括：以正常运行状态下各时间段网络流量的峰值和谷值为采集依据，获取设备的日志信息和网络流数据；根据网络流数据的报文类型，构建网络流数据的指标正常运行状态下的基准线，并判断网络流数据是否存在异常；将存在异常的网络流数据和其对应的日志信息采用HASH算法进行存储；构建正常网络行为库和异常网络行为库，并对存在异常的网络流数据进行匹配；采用BP神经网络方法对无法匹配的网络流数据进行分析，对该网络流数据的网络行为进行判断并存储至相应行为库；此发明提供的方法，采用层层递进的判别方式，实现对边界异常行为的检测，降低异常检测的误报率和漏报率。因此，迫切的需要一种新的方案解决上述技术问题。

发明内容

本发明正是针对现有技术中存在的技术问题，提供一种基于深度神经网络的网络异常行为识别方法，该技术方案向一般网管人员提供经过处理的网络连接情况，主要是对连接进行了图形化转换，从而使其对网络运行的状况有直观的、一目了然的理解，这对于仅仅使用查询语句从数据存储单元获取网络连接相关数据更为有效和方便。

为了实现上述目的，本发明的技术方案如下：一种基于深度神经网络的网络异常行为识别方法，其特征在于，所述方法包括以下步骤：

步骤一：对网络相关数据包(仅分析基于以太类型的网络)的各层信息及会话信息标记进行规格化；

步骤二：对需要进行处理的相关网络连接会话数据进行过滤；

步骤三：对各类协议数据进行特征预抽取；

步骤四：将上述特征数据进行归一化处理；

步骤五：将获取的向量进行标记；

步骤六：对数据集进行一定程度的变形；

步骤七：训练数据；

步骤八：构件深度神经网络结构，生成神经网络描述文件。

作为本发明的一种改进，所述步骤一对网络相关数据包(仅分析基于以太类型的网络) 的各层信息及会话信息标记进行规格化，具体定义如下：

数据链路层：源、目的MAC地址，在一些情况下会包含VLAN ID或QinQ ID；

网络层：IP协议类型(IPv4或IPv6)、网络IP源/目的地址；

传输层：UDP或TCP协议(其它类型协议由于极少被恶意行为所利用故考虑不予支持)；

应用层：对HTTP、DNS以及HTTPS等常见协议进行深度解包，将请求域名(针对HTTP、DNS)、返回IP地址(针对DNS)、User Agent(HTTP)、证书信息等进行抽取，对无法识别的协议也进行特殊标识。

作为本发明的一种改进，所述步骤二：对需要进行处理的相关网络连接会话数据进行过滤；具体如下：

过滤的方法采用基于树形的过滤器，过滤内容主要针对各层网络元数据。

作为本发明的一种改进，所述步骤二中还包括对满足过滤条件的数据按相关会话字段进行归并方式的选择。如源地址、源地理位置等(可以按子网前缀或国家/省份/城市等进行归并，从而减少分类后所产生的数据类别)；

作为本发明的一种改进，所述步骤三：对各类协议数据进行特征预抽取，特征抽取是根据已经规格化后的网络协议各层数据进行预先统计，具体如下,如IP地址的分布情况、目的端口的分布情况、应用协议的分布情况等，在统计的基础上再生成特征数据,基于源MAC地址连接分布均值，其中源MAC应为局域网中的终端、移动终端或服务器，否则无意义；

基于源MAC地址连接分布标准差，其中源MAC应为局域网中的终端、移动终端或服务器，否则无意义；

基于源MAC地址连接分布信息熵，其中源MAC应为局域网中的终端、移动终端或服务器，否则无意义；

基于目的MAC地址连接分布均值，其中目的MAC应为局域网中的终端、移动终端或服务器，否则无意义；

基于目的MAC地址连接分布标准差，其中目的MAC应为局域网中的终端、移动终端或服务器，否则无意义；

基于目的MAC地址连接分布信息熵，其中目的MAC应为局域网中的终端、移动终端或服务器，否则无意义；

基于VLAN ID或QinQ连接分布均值(如存在)；

基于VLAN ID或QinQ连接分布标准差(如存在)；

基于VLAN ID或QinQ连接分布信息熵(如存在)；

平均数据包大小；

64字节-127字节数据包大小分布均值；

64字节-127字节数据包大小分布标准差；

128字节-255字节数据包大小分布均值；

128字节-255字节数据包大小分布标准差；

256字节-511字节数据包大小分布均值；

256字节-511字节数据包大小分布标准差；

512字节-1023字节数据包大小分布均值；

512字节-1023字节数据包大小分布标准差；

1024字节-1518字节数据包大小分布均值；

1024字节-1518字节数据包大小分布标准差；

上述各字节分布段平均信息熵；

源地址连接分布均值；

源地址连接分布标准差；

源地址连接分布平均信息熵；

目的地址连接分布均值；

目的地址连接分布标准差；

目的地址连接分布平均信息熵；

源地理位置连接分布均值；

源地理位置连接分布方差；

源地理位置连接分布平均信息熵；

目的地理位置连接分布均值；

目的地理位置连接分布标准差；

目的地理位置连接分布平均信息熵；

应用协议连接数量分布均值；

应用协议连接数量分布标准差；

应用协议连接数量分布平均信息熵；

应用协议连接流量分布均值；

应用协议连接流量分布标准差；

应用协议连接流量分布平均信息熵；

以下特征需针对特定类型的应用层协议进行抽取：

HTTP或DNS域名请求分布连接分布标准差；

HTTP或DNS域名请求分布连接均值；

HTTP或DNS域名请求分布连接分布平均信息熵；

User Agent主关键字连接分布均值；

User Agent主关键字连接分布方差；

User Agent主关键字连接分布平均信息熵；

DNS请求返回地址分布均值；

DNS请求返回地址分布标准差；

DNS请求返回地址分布平均信息熵；

HTTPS证书UnitName或ServerName分布均值；

HTTPS证书UnitName或ServerName分布标准差；

HTTPS证书UnitName或ServerName分布平均信息熵。

作为本发明的一种改进，所述步骤四：将上述特征数据进行归一化处理；具体如下：使用Min-Max方法，如对于平均包大小，归一化即如下述方法：

其中，packet_avg为平均包大小，packet_min为最小尺寸包，而packet_max为最大尺寸包，而packet_avg_norm为正则化后的平均包大小，公式中乘以255是为了最终将结果转换为256级灰度图中的像素；

平均信息熵值，采用熵值的平均值是便于进行归一化，计算公式如下：

其中，n为分类的数量，而p_i为每个分类的占比。

作为本发明的一种改进，所述步骤五：将获取的向量进行标记，具体如下，需要获取正向(模式正常)和负向(模式异常)的学习数据，将它们的标志分别赋值为1和-1；所述步骤六：对数据集进行一定程度的变形，包括少量平移、小角度旋转。

作为本发明的一种改进，所述步骤七：训练数据，具体如下，

将多个时段的向量数据按时间序列拼接成一个图(如一个图就代表一天，当然也可以只采集一个指定时间段的数据，如仅工作时间或非工作时间)，则一个图的像素(每个像素使用1个字节表示)数量为D*DurationCount，其中D为向量维度数量，DurationCount就是时段的数量，如果每分钟采样一次、一天采样形成一个图、使用32维向量，则每副图的大小为32*1440＝46080字节，即约45k字节大小，维度越高、采样的频率越高，图像的尺寸就越大；另外,需要在保存文件头部写入少量向量维度信息以、维度类型、采样间隔及时间跨度，以便装置进行分段数据训练；

作为本发明的一种改进，所述步骤八：构件深度神经网络结构，生成神经网络描述文件，具体如下，整体系统采用九层结构，其中第一层为输入层，为了避免训练事件过长，采样维度使用上述指标中的10个，一天共1440个采样点，故神经元数量为10*1440＝ 14400＝120*120；其中第二层、第四层、第六层、第八层为卷积层，卷积核分别为6* 21*21、12*21*21、24*6*6、100*5*5，卷积跨度(Stride)为1；

其中第三层、第五层、第七层为2*2的池化层，采用平均池化方法(Mean-Pooling)；最后一层为输出层，仅有两个神经元，即二分类，它和上一层的输出为全连接；

各层之间的激活函数使用Sigmoid方法(与一般的前馈神经网络相较，由于在卷积神经网络中，前面若干层均是均不是全连接，也就是使用局部敏感技术，故在反馈中也不会导致梯度爆炸或消失)；

整体误差使用平方误差方法进行判断，公式如下：

其中，N是整体样本数量，N(L)是神经网络的输出层神经元数量，x_ki是网络输出值，而y_ki是预期值；

对标识为正常的网络连接模式及标识为异常的网络连接模式进行训练(可设定一定的迭代次数，如1000次)，输出各层神经元的权值和偏置，将它们保存在特定的文件中；

在应用时，预先从之前保存的文件中读入数据，重新构建整个网络；将某个时段的网络连接行为按约定的方式进行向量化，然后将向量化后的数据通过重新构建的网络进行验证分类。相对于现有技术，本发明的优点如下：1)该方案通过机器学习方法即基于深度神经网络，主要是卷积神经网络，即CNN)能够发现、标识明显区别于正常网络连接行为的连接；2)该方案通过机器学习方法发现网络连接中可能存在的隐蔽通道，从而通知相关管理人员进行及时封堵或屏蔽；3)该方案通过机器学习方法发现加密的(特别是HTTPS、 VPN隧道等)网络流量中存在的异常行为，从而和正常的加密流量进行区分；4)该方案向一般网管人员提供经过处理的网络连接情况(主要是对连接进行了图形化转换)，从而使其对网络运行的状况有直观的、一目了然的理解(因为正常连接的图形和存在异常连接的行为往往有明显的差异)，这对于仅仅使用查询语句从数据存储单元获取网络连接相关数据更为有效和方便；5)在较为恒定的网络上下文环境下，能在更深的层次和更广的层面提供了对网络应用及其相关会话进行分析的基础；为更好地发现网络安全问题、检测各类逃避手段提供了分析依据、方法及工具；

6)为网络信息的安全审计提供了更为全面的手段，从而为各企业在网络安全管理、信息安全管控、信息安全管理的合规性检查提供有力支撑；为各类机构及企事业单位的基于网络的大数据分析提供了更为有力的分析工具。

附图说明

图1为基于深度神经网络的网络异常行为识别方法流程图；

图2为构建深度神经网络结构示意图；

图3为应用时，重新构建整个网络流程图。

具体实施方式

为了加强对本发明的理解和认识，下面结合附图和具体实施方式对本发明做出进一步的说明和介绍。

实施例1：参见图1，在实际实施时，采用分布式部署方式(分布式部署有利于加速数据的训练)，使用的操作系统均为CentOS6.9(内核为2.6.32-696)，采取Intel 64位硬件架构，网卡使用Intel e1000e，网络捕包采用Netmap高速网络数据包获取架构，具体如下，

一种基于深度神经网络的网络异常行为识别方法，所述方法包括以下步骤：

步骤三：对各类协议数据进行特征预抽取；

步骤四：将上述特征数据进行归一化处理；

步骤五：将获取的向量进行标记；

步骤六：对数据集进行一定程度的变形；

步骤七：训练数据；

步骤八：构件深度神经网络结构，生成神经网络描述文件。

所述步骤一对网络相关数据包(仅分析基于以太类型的网络)的各层信息及会话信息标记进行规格化，具体定义如下：

网络层：IP协议类型(IPv4或IPv6)、网络IP源/目的地址；

所述步骤二：对需要进行处理的相关网络连接会话数据进行过滤；具体如下：

所述步骤二中还包括对满足过滤条件的数据按相关会话字段进行归并方式的选择。如源地址、源地理位置等(可以按子网前缀或国家/省份/城市等进行归并，从而减少分类后所产生的数据类别)；

所述步骤三：对各类协议数据进行特征预抽取，具体如下，针对一段时间的，该方案采用 1分钟为统计窗口，主要包括如下若干方面的特征处理，根据不同的需求，可能抽取的特征不见得都会被覆盖，或者可能仍需添加其它特征，每个特征均被认为是向量数据中的一个维度：

基于源MAC地址连接分布均值，其中源MAC应为局域网中的终端、移动终端或服务器，否则无意义；

基于VLAN ID或QinQ连接分布均值(如存在)；

基于VLAN ID或QinQ连接分布标准差(如存在)；

基于VLAN ID或QinQ连接分布信息熵(如存在)；

平均数据包大小；

64字节-127字节数据包大小分布均值；

64字节-127字节数据包大小分布标准差；

128字节-255字节数据包大小分布均值；

128字节-255字节数据包大小分布标准差；

256字节-511字节数据包大小分布均值；

256字节-511字节数据包大小分布标准差；

512字节-1023字节数据包大小分布均值；

512字节-1023字节数据包大小分布标准差；

1024字节-1518字节数据包大小分布均值；

1024字节-1518字节数据包大小分布标准差；

上述各字节分布段平均信息熵；

源地址连接分布均值；

源地址连接分布标准差；

源地址连接分布平均信息熵；

目的地址连接分布均值；

目的地址连接分布标准差；

目的地址连接分布平均信息熵；

源地理位置连接分布均值；

源地理位置连接分布方差；

源地理位置连接分布平均信息熵；

目的地理位置连接分布均值；

目的地理位置连接分布标准差；

目的地理位置连接分布平均信息熵；

应用协议连接数量分布均值；

应用协议连接数量分布标准差；

应用协议连接数量分布平均信息熵；

应用协议连接流量分布均值；

应用协议连接流量分布标准差；

应用协议连接流量分布平均信息熵；

以下特征需针对特定类型的应用层协议进行抽取：

HTTP或DNS域名请求分布连接分布标准差；

HTTP或DNS域名请求分布连接均值；

HTTP或DNS域名请求分布连接分布平均信息熵；

User Agent主关键字连接分布均值；

User Agent主关键字连接分布方差；

User Agent主关键字连接分布平均信息熵；

DNS请求返回地址分布均值；

DNS请求返回地址分布标准差；

DNS请求返回地址分布平均信息熵；

HTTPS证书UnitName或ServerName分布均值；

HTTPS证书UnitName或ServerName分布标准差；

HTTPS证书UnitName或ServerName分布平均信息熵。

所述步骤四：将上述特征数据进行归一化处理；具体如下：使用Min-Max方法，如对于平均包大小，归一化即如下述方法：

其中，n为分类的数量，而p_i为每个分类的占比。

所述步骤五：将获取的向量进行标记，具体如下，需要获取正向(模式正常)和负向(模式异常)的学习数据，将它们的标志分别赋值为1和-1；

所述步骤六：对数据集进行一定程度的变形，包括少量平移、小角度旋转。

所述步骤七：训练数据，具体如下，

所述步骤八：构件深度神经网络结构，生成神经网络描述文件，具体如下，参见图2，整体系统采用九层结构，其中第一层为输入层，为了避免训练事件过长，采样维度使用上述指标中的10个，一天共1440个采样点，故神经元数量为10*1440＝14400＝120*120；其中第二层、第四层、第六层、第八层为卷积层，卷积核分别为6*21*21、12*21* 21、24*6*6、100*5*5，卷积跨度(Stride)为1；

整体误差使用平方误差方法进行判断，公式如下：

参见图3，在应用时，预先从之前保存的文件中读入数据，重新构建整个网络；将某个时段的网络连接行为按约定的方式进行向量化，然后将向量化后的数据通过重新构建的网络进行验证分类。

需要说明的是上述实施例，并没有用来限定本发明的保护范围，在上述基础上所作出的等同替换或者替代均属于本发明权利要求的保护范围。

Claims

1.一种基于深度神经网络的网络异常行为识别方法，其特征在于，所述方法包括以下步骤：

步骤一：对网络相关数据包的各层信息及会话信息标记进行规格化；

步骤三：对各类协议数据进行特征预抽取；

步骤四：将上述特征数据进行归一化处理；

步骤五：将获取的向量进行标记；

步骤六：对数据集进行一定程度的变形；

步骤七：训练数据；

步骤八：神经网络的生成参数、神经元的权重和偏置参数。

2.根据权利要求1所述的基于深度神经网络的网络异常行为识别方法，其特征在于，所述步骤一对网络相关数据包的各层信息及会话信息标记进行规格化，具体定义如下：

数据链路层：源、目的MAC地址；

网络层：IP协议类型(IPv4或IPv6)、网络IP源/目的地址；

传输层：UDP或TCP协议；

3.根据权利要求1所述的基于深度神经网络的网络异常行为识别方法，其特征在于，所述步骤二：对需要进行处理的相关网络连接会话数据进行过滤；具体如下：过滤的方法采用基于树形的过滤器，过滤内容主要针对各层网络元数据。

4.根据权利要求1所述的基于深度神经网络的网络异常行为识别方法，其特征在于，所述步骤二中还包括对满足过滤条件的数据按相关会话字段进行归并方式的选择。

5.根据权利要求1所述的基于深度神经网络的网络异常行为识别方法，其特征在于，所述步骤三：对各类协议数据进行特征预抽取，特征抽取是根据已经规格化后的网络协议各层数据进行预先统计，具体如下,

基于VLAN ID或QinQ连接分布均值；

基于VLAN ID或QinQ连接分布标准差；

基于VLAN ID或QinQ连接分布信息熵；

平均数据包大小；

64字节-127字节数据包大小分布均值；

64字节-127字节数据包大小分布标准差；

128字节-255字节数据包大小分布均值；

128字节-255字节数据包大小分布标准差；

256字节-511字节数据包大小分布均值；

256字节-511字节数据包大小分布标准差；

512字节-1023字节数据包大小分布均值；

512字节-1023字节数据包大小分布标准差；

1024字节-1518字节数据包大小分布均值；

1024字节-1518字节数据包大小分布标准差；

上述各字节分布段平均信息熵；

源地址连接分布均值；

源地址连接分布标准差；

源地址连接分布平均信息熵；

目的地址连接分布均值；

目的地址连接分布标准差；

目的地址连接分布平均信息熵；

源地理位置连接分布均值；

源地理位置连接分布方差；

源地理位置连接分布平均信息熵；

目的地理位置连接分布均值；

目的地理位置连接分布标准差；

目的地理位置连接分布平均信息熵；

应用协议连接数量分布均值；

应用协议连接数量分布标准差；

应用协议连接数量分布平均信息熵；

应用协议连接流量分布均值；

应用协议连接流量分布标准差；

应用协议连接流量分布平均信息熵；

以下特征需针对特定类型的应用层协议进行抽取：

HTTP或DNS域名请求分布连接分布标准差；

HTTP或DNS域名请求分布连接均值；

HTTP或DNS域名请求分布连接分布平均信息熵；

User Agent主关键字连接分布均值；

User Agent主关键字连接分布方差；

User Agent主关键字连接分布平均信息熵；

DNS请求返回地址分布均值；

DNS请求返回地址分布标准差；

DNS请求返回地址分布平均信息熵；

HTTPS证书UnitName或ServerName分布均值；

HTTPS证书UnitName或ServerName分布标准差；

HTTPS证书UnitName或ServerName分布平均信息熵。

6.根据权利要求1所述的基于深度神经网络的网络异常行为识别方法，其特征在于，所述步骤四：将上述特征数据进行归一化处理；具体如下：

使用Min-Max方法，

平均信息熵值，计算公式如下：

其中，n为分类的数量，而p_i为每个分类的占比。

7.根据权利要求1所述的基于深度神经网络的网络异常行为识别方法，其特征在于，所述步骤五：将获取的向量进行标记，具体如下，需要获取正向(模式正常)和负向(模式异常)的学习数据，将它们的标志分别赋值为1和-1；所述步骤六：对数据集进行一定程度的变形，包括少量平移、小角度旋转。

8.根据权利要求1所述的基于深度神经网络的网络异常行为识别方法，其特征在于，所述步骤七：训练数据，具体如下，

将多个时段的向量数据按时间序列拼接成一个图，则一个图的像素，每个像素使用1个字节表示，数量为D*DurationCount，其中D为向量维度数量，DurationCount就是时段的数量。

9.根据权利要求1所述的基于深度神经网络的网络异常行为识别方法，其特征在于，所述步骤八：构件深度神经网络结构，生成神经网络描述文件，具体如下，

整体系统采用九层结构，其中第一层为输入层，为了避免训练事件过长，采样维度使用上述指标中的10个，一天共1440个采样点，故神经元数量为10*1440＝14400＝120*120；其中第二层、第四层、第六层、第八层为卷积层，卷积核分别为6*21*21、12*21*21、24*6*6、100*5*5，卷积跨度(Stride)为1；

其中第三层、第五层、第七层为2*2的池化层，采用平均池化方法(Mean-Pooling)；

最后一层为输出层，仅有两个神经元，即二分类，它和上一层的输出为全连接；

各层之间的激活函数使用Sigmoid方法；

整体误差使用平方误差方法进行判断，公式如下：

对标识为正常的网络连接模式及标识为异常的网络连接模式进行训练，输出各层神经元的权值和偏置，将它们保存在特定的文件中；

在应用时，预先从之前保存的文件中读入数据，重新构建整个网络；将某个时段的网络连接行为按约定的方式进行向量化，然后将向量化后的数据通过重新构建的网络进行验证分类。