CN110839031A

CN110839031A - 一种基于强化学习的恶意用户行为智能检测方法

Info

Publication number: CN110839031A
Application number: CN201911119633.3A
Authority: CN
Inventors: 白玮; 潘志松; 郭世泽; 张睿; 陈哲; 夏士明; 张磊
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-02-25
Anticipated expiration: 2039-11-15
Also published as: CN110839031B

Abstract

本发明公开了一种基于强化学习的恶意用户行为智能检测方法，包括智能分析引擎模块、网络空间状态感知模块和多域动作执行模块；智能分析引擎模块用于判断在何种状态下采取何种动作；网络空间状态感知模块用于感知网络空间的当前状态，这种感知是局部感知，是智能分析引擎判断情况的依据；多域动作执行模块用于执行多域动作，并得到相应的奖励，执行网络动作、物理域和信息域的动作。本发明能够根据智能分析引擎与安全管理人员的不断反馈，智能化地生成适用于本地网络的安全管理策略，从而实现恶意用户行为的智能检测，达到降低安全管理成本的目的。

Description

一种基于强化学习的恶意用户行为智能检测方法

技术领域

本发明涉及一种恶意用户行为检测的技术，具体涉及一种基于强化学习的、面向用户行为序列的智能检测的方法。

背景技术

通过抓取和分析目标网络流量，识别和发现用户恶意行为，是当前网络安全管理的通用做法。基于网络流量的网络安全管理主要分为三类：一是通过网络流量的五元组信息进行判断，即判断该源地址是否允许访问目的地址和目的服务，其在本质上是一种合规性检查，通过对于这种检查，可以通过部署防火墙、路由器、交换机等设备，配置访问控制列表、路由表、VLAN等方式实现网络区域隔离和控制。这种方式的缺点在于它只能实现终端或地址级别的访问控制，即完全允许或完全不允许某个地址访问某个服务，而不能实现更细粒度的控制。二是通过从网络流量的负载中提取特征信息，并将其映射到高层语义，实现对恶意行为的识别，目前被广泛部署的入侵检测系统(IDS)、入侵防御系统(IPS)即是通过这种方式发现恶意攻击行为。这种检测方式，本质上是对网络单个数据报文或报文序列的特征进行提取的过程，很容易被机器学习算法所扩展，近来学术界和工业界也提出了大量行之有效的算法，逐步实现了恶意流量特征提取的自动化，但是这种方式通常只能针对单个数据包或单条数据流来判断恶意性，而缺乏对网络整体安全态势的理解。三是通过同时抓取和集中存储网络多条链路上的流量信息，识别恶意行为并进行关联分析，其典型产品为近年来兴起的安全态势感知类产品。这种检测方式，有效利用了网络多个链路中的不同的安全信息，能够进一步提高对多步攻击和协同攻击的识别精度，但是在实际使用中，这类产品十分依赖于数据流采集的完整性，如果采集流量的链路过少，很难准确发现潜在的攻击威胁，感知全网的安全态势。

在实际的企业网络安全设备部署上，受制于设备采购成本和管理成本，不可能实现全网流量的全部采集、存储和分析，一般只是有选择性地在重点链路上部署相应的防护设备，实现部分基础数据的抓取和分析。对于这种问题，我们将其归结为网络运维策略脆弱性的一个方面。传统基于流量特征的恶意用户行为检测算法由于缺乏对用户时序动作序列特征的深入分析，难以有效发现用户隐藏在正常行为序列后的攻击行为，致使攻击者可以通过精心构造网络攻击，采取合法动作绕过安全设备的监控实施攻击。

由于在我们日常网络安全管理中，通过抓取和分析目标网络流量，识别和发现用户恶意行为是较为常用的恶意用户检测技术。但同时日常的网络管理又受制于设备成本和管理成本等，导致不能对网络进行全方位、全时域的监控。

发明内容

1、本发明的目的

本发明为了解决恶意用户行为检测问题，从而提出了一种基于强化学习的恶意用户行为智能检测方法。

2、本发明所采用的技术方案

本发明公开了一种基于强化学习的恶意用户行为智能检测方法，包括智能分析引擎模块、网络空间状态感知模块和多域动作执行模块；

智能分析引擎模块用于判断在何种状态下采取何种动作；网络空间状态感知模块用于感知网络空间的当前状态，这种感知是局部感知，是智能分析引擎判断情况的依据；多域动作执行模块用于执行多域动作，并得到相应的奖励，执行网络动作、物理域和信息域的动作；

智能分析引擎模块中，包含4个深度神经网络和1个经验回放存储器；在4个深度神经网络中，包括2个策略网络和2个Q网络，分别为当前策略网络、目标策略网络、当前Q网络和目标Q网络；

2个策略网络具有相同的结构，其输入为网络空间的状态，输出为需要选择的动作；结构上，在原有DDPG的输入层和隐藏层之间，增加了一层RNN隐藏节点。

更进一步，网络空间状态感知模块感知的安全状态包括物理域内的人员进出空间的状态、网络域内计算机网络行为、信息域内对信息的读取或写入的状态、社会域内人员之间关系的改变。

更进一步，策略网络分为5层：第1层为输入层；第2层为RNN隐藏层，包含32个GRU结构的节点；第3层、第4层分别为全连接层，包含48个全连接节点，激活函数使用ReLu函数；第5层为输出层，使用sigmoid函数作为激活函数，最后输出一个代表多域动作的多维向量，代表需要执行的多域动作。

更进一步，2个Q网络其输入不仅为网络空间的状态，还包括一个多维向量，代表相应的多域动作，输出为1个标量，代表相应状态、动作对对应的Q值；其网络分为4层：第1层为输入层，第2层、第3层分别为包含48个全连接节点，激活函数使用ReLu函数；第4层为输出层，输出一个标量，使用线性函数作为激活函数，代表相应状态、动作对对应的Q值。

更进一步，智能分析引擎，基于DDPG模型，根据网络空间状态感知模块的输入，以及多域动作执行模块的反馈，实时对智能分析引擎模块中的4个网络进行优化调整，生成恶意用户行为检测行为，具体步骤包括：

1)对智能分析引擎的各个模块进行初始化，包括随机初始化当前Q网络Q(s,a|θ^Q)和当前策略网络μ(s|θ^μ)，其中s是状态，a是动作，θ^Q是Q网络的参数，θ^μ是策略网络的参数，并使用当前Q网络和当前策略网络的参数来初始化目标策略网络参数θ^μ′和目标Q网络的参数θ^Q′，即θ^Q'←θ^Q，θ^μ'←θ^μ，以及初始化经验回放存储器为空；

2)不间断地从网络空间状态感知模块获取网络空间的当前状态，假定在t时刻时，其输入的状态为s_t；

3)利用当前策略网络，根据输入t时刻的状态s_t选择对应的动作μ(s_t)，并根据该动作按照比例β加入一定的噪声，使得模型能够获取一定的探索能力；调用多域动作执行模块执行该动作，并获得相应的回报r_t；

4)通过网络空间状态感知模块，获取下一时间的状态s_t+1，然后将四元组(s_t,a_t,r_t,s_t+1)存储至经验回放存储器，这里s_t是t时刻的状态，a_t是动作，r_t是奖励，s_t+1是下个时刻的状态；

5)从经验回放存储器中随机选取N个随机的状态转移序列N*(s_i,a_i,r_i,s_i+1)，其中i是序号，输入目标策略网络和目标Q网络，计算目标的Q值y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')|θ^Q')，并计算损失，使得当前的Q值与目标Q值的误差最小：

6)利用梯度下降法，在最小化损失L条件下，更新当前Q网络；

7)利用抽样策略梯度，更新当前策略网络，其中

是梯度计算：

8)利用更新后的当前策略网络和当前Q网络，更新目标策略网络和目标Q网络，在这个过程中，τ一般取一个较小的值，θ^Q′是目标Q值网络的参数，θ^Q是当前Q值网络的参数，θ^μ′是目标策略网络参数，θ^μ是当前策略网络参数；

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ'←τθ^μ+(1-τ)θ^μ'。

3、本发明所采用的有益效果

(1)本发明通过合法动作来绕过安全检测设备的恶意用户，并且代价较低，能够在提高发现恶意用户能力和降低网络管理成本之间达到一个较好的平衡。

(2)本发明中使用了基于强化学习的恶意用户行为的检测技术。将管理员的行为建模为一个智能体，然后提出了一种基于DDPG算法的恶意用户行为检测方法。通过该方法，能够发现通过合法动作来绕过安全检测设备的恶意用户，并且代价较低，能够在提高发现恶意用户能力和降低网络管理成本之间达到一个较好的平衡。

附图说明

图1为恶意用户行为智能检测总体框架；

图2为智能分析引擎基本架构；

图3为策略网络结构；

图4为Q网络结构；

图5为典型网络环境；

图6为训练过程中的奖励值；

图7为不同Rcost下获得的平均奖励；

图8为不同方法的性能比较。

具体实施方式

下面结合本发明实例中的附图，对本发明实例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实例作进一步地详细描述。

本发明的创新点主要表现在，首先分析了一个典型的场景，并在此基础上提出一个基于强化学习的恶意用户行为检测策略生成方法，该方法能够根据观测到的用户行为序列，分析用户进行恶意攻击的可能性，并根据多个状态下采取不同动作所获得的奖励信息，通过自学习的方式生成管理员安全防护策略，从而有效地避免传统用户恶意行为检测过于依赖采集数据完整性的问题。

(1)整体架构

强化学习是一种非常通用的框架，在入侵检测领域有着十分广泛的应用前景，它能够通过与管理人员或管理设备的交流和反馈，实现普适的入侵检测知识与用户网络实际情况的结合，从而产生适用于本地网络的安全管理策略，减少安全管理的成本。基于这些考虑，本文提出一个基于强化学习的用户行为智能检测框架，该框架基于DDPG模型，能够根据智能分析引擎与安全管理人员的不断反馈，智能化地生成适用于本地网络的安全管理策略，从而实现恶意用户行为的智能检测，达到降低安全管理成本、减少网络运维策略脆弱性的目的。

恶意用户行为智能检测框架的基本结构如图1所示，框架整体分为三个模块，主要是智能分析引擎模块、网络空间状态感知模块和多域动作执行模块。智能分析引擎模块是整个模型的核心，主要负责判断在何种状态下采取何种动作；网络空间状态感知模块主要负责感知网络空间的当前状态，这种感知是依托于某种手段的，是局部而非全局的，它是整个智能分析引擎判断情况的依据；多域动作执行模块主要的功能是执行多域动作，并得到相应的奖励，这个模块不仅仅能够执行一些网络动作，而且能够执行一些物理域和信息域的动作，这也意味着，这个模块不仅仅可以是软件模块，而且可以是人、摄像头、传感器或其他实体，只要能够执行某个具体的动作，并感知相应的奖励，即可作为该模块，融合到恶意用户行为智能检测框架之中。

从上面的分析可以看出，该模型不仅仅能够防御来自网络的恶意攻击行为，而且对于来自物理域、认知域和社会域的攻击行为，只要能够满足一些简单的先决条件，均可以使用该框架进行防御。这些先决条件包括：

1)攻击应该是独立同分布的。在网络环境中，面临的攻击应该是独立同分布的，也就是说两次攻击之间不存在着依赖关系，而且各种攻击发生的概率大致相当。对于一个真实的开放的网络环境来说，常常需要面临着大量的、不同组织、不同类型的恶意攻击者，这些攻击者之间并不存在协同关系，而且掌握的攻击能力也大体可以分为几个层次，对于常见的攻击类型和攻击手段，可以大致认为其满足独立同分布的要求。

2)多域动作的收益可以被度量。使用该框架进行恶意用户行为智能检测，另一个必须的条件是多域动作的收益可以被度量，而且这种度量应该是一个简单的标量。一个真实的网络环境下，配合网络的安全管理部门，某个具体多域动作的收益是能够快速评估和度量的，这就使得恶意用户行为智能检测框架不仅能够在线快速学习安全管理部门人员的知识，而且能够快速响应网络条件的变化。

3)网络空间状态可以被感知。使用该框架的第三个必要条件，是需要感知网络空间的状态，这也是该框架的主要输入，智能分析引擎会根据这些输入来分析、评估和选择相应的动作。对于网络空间不同域内的入侵，需要感知的安全状态也有所不同，可以是物理域内的人员进出空间的状态，也可以是网络域内计算机网络行为，还可以是信息域内对信息的读取或写入的状态，甚至是社会域内人员之间关系的改变，等等。这些状态的收集，是判断恶意用户行为的前提条件。

(2)智能分析引擎基本架构

恶意用户行为智能检测总体框架的核心，是智能分析引擎，该引擎实际上是一个标准的强化学习架构，通过对环境进行感知，执行相应的动作并获取奖励，然后对网络进行进一步训练，从而得到更新后的网络。该网络采取DDPG框架，其主要的结构如图2所示。

在智能分析引擎模块中，主要包含4个深度神经网络和1个经验回放存储器。在4个深度神经网络中，包括2个策略网络(Actor)和2个Q网络(Critic)，分别为当前策略网络、目标策略网络、当前Q网络和目标Q网络。

2个策略网络具有相同的结构，如图3所示，其输入为网络空间的状态，输出为需要选择的动作。结构上，在原有DDPG的输入层和隐藏层之间，增加了一层RNN隐藏节点。改造后的策略网络分为5层。第1层为输入层；第2层为RNN隐藏层，包含32个GRU结构的节点；第3层、第4层分别为全连接层，包含48个全连接节点，激活函数使用ReLu函数；第5层为输出层，使用sigmoid函数作为激活函数，最后输出一个代表多域动作的多维向量，代表需要执行的多域动作。

2个Q网络则具有另外一种结构，如图4所示，其输入不仅为网络空间的状态，而且包括一个多维向量，代表相应的多域动作，输出为1个标量，代表相应状态、动作对对应的Q值。其网络分为4层。第1层为输入层；第2层、第3层分别为包含48个全连接节点，激活函数使用ReLu函数；第4层为输出层，输出一个标量，使用线性函数作为激活函数，代表相应状态、动作对对应的Q值。

(3)智能分析引擎核心算法

整个智能分析引擎，主要是基于DDPG模型，根据网络空间状态感知模块的输入，以及多域动作执行模块的反馈，实时对智能分析引擎模块中的4个网络进行优化调整，生成恶意用户行为检测行为。其主要步骤包括：

1)对智能分析引擎的各个模块进行初始化，包括随机初始化当前Q网络Q(s,a|θ^Q)和当前策略网络μ(s|θ^μ)，并使用当前Q网络和当前策略网络的参数来初始化目标策略网络μ'和目标Q网络Q'，即θ^Q'←θ^Q，θ^μ'←θ^μ，以及初始化经验回放存储器为空。

2)不间断地从网络空间状态感知模块获取网络空间的当前状态，假定在t时刻时，其输入的状态为s_t。

3)利用当前策略网络，根据输入的状态选择对应的动作μ(s_t)，并根据该动作按照比例β加入一定的噪声，使得模型能够获取一定的探索能力。调用多域动作执行模块执行该动作，并获得相应的回报r_t。

4)通过网络空间状态感知模块，获取下一时间的状态s_t+1，然后将四元组(s_t,a_t,r_t,s_t+1)存储至经验回放存储器。

5)从经验回放存储器中随机选取N个随机的状态转移序列N*(s_i,a_i,r_i,s_i+1)，输入目标策略网络和目标Q网络，计算y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ')|θ^Q')，并计算损失：

6)利用梯度下降法，在最小化损失L条件下，更新当前Q网络。

7)利用抽样策略梯度，更新当前策略网络：

8)利用更新后的当前策略网络和当前Q网络，更新目标策略网络和目标Q网络，在这个过程中，τ一般取一个较小的值，如0.001。

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ'←τθ^μ+(1-τ)θ^μ'

实施例

本发明提出了一种网络安全配置自动生成方法，该方法以网络安全设备配置作为主要优化对象，以用户实际权限与应得权限之间的差值作为指标，以遗传算法作为核心算法，构建相应的网络安全配置自动生成方法，能够实现网络安全设备配置的自动生成，避免因网络运行维护管理不当对网络安全性产生影响。

(1)典型环境

该典型环境来源于某个企业网络的真实环境，该企业网络主要分为业务网络和管理网络两部分，其中业务网络主要面向企业内部用户访问各种业务系统，管理网络主要面向网络管理员，用于对网络设备进行配置，业务网络和管理网络之间相互不能通信。在业务网和管理网中，分别配置有相应的终端、交换机和服务器，以及相应的安全护设备，该环境的简化环境如图5所示。

在该环境中，业务网共包含6台设备，其中终端1台(终端1)，服务器3台(服务器1，服务器2，服务器3)，交换机1台(交换机1)，防火墙1台(防火墙)。因业务安全需要，在防火墙上设置如下安全策略：只允许终端1访问非敏感业务web_2(部署在服务器2上)和web_3(部署在服务器3上)，而不允许其访问敏感业务web_1(部署在服务器1上)；允许终端1对服务器2和服务器3进行管理，分别访问其远程桌面服务RemoteDesk_2和RemoteDesk_3；禁止服务器之间的相互访问。在管理网中，涉及到4台设备，其中终端1台(终端2)，交换机1台(交换机2)，服务器1台(服务器4)，入侵防御系统1台。通过管理网，终端2可以访问到防火墙的配置服务Firewall_M，交换机1的配置服务S1_M，以及服务器4的远程桌面服务RemoteDesk_4。入侵防御系统对终端1到防火墙，以及终端2到交换机2的流量进行监听，监听信息主要基于源地址、目的地址、源端口、目的端口、目的服务的五元组信息，一旦发现不符合安全规则的异常流量，则进行报警。

在当前的安全配置下，用户可以通过某些精心构造的攻击序列来访问到敏感业务web_1，这个恶意的攻击序列为：首先，恶意的用户使用终端2访问服务器4的远程桌面服务RemoteDesk_4，然后通过服务器4访问防火墙上的Firewall_M服务，修改相应的访问控制列表，允许服务器2或服务器3访问服务器1的web_1服务，接着使用终端1访问服务器2的RemoteDesk_2，或服务器3上的RemoteDesk_3服务，接着使用服务器2或服务器3访问服务器1的敏感服务web_1，实现敏感数据的获取，最后，该用户可以再次使用终端2访问服务器4的server4_manage服务，然后通过服务器4访问防火墙上的firewall_manage服务，删除添加的访问控制列表，从而完成攻击。

在这个攻击过程中，入侵防御系统虽然全程对链路“终端1-防火墙”和链路“终端2-交换机2”同时进行监控，但是因为只监控到终端1访问RemoteDesk_2或RemoteDesk_3，以及终端2访问RemoteDesk_4的相关信息，所以其不会进行报警，然而用户实际上已经完成了攻击。通过后面的实验可以发现，针对同样的场景，采用本文提出的基于强化学习的用户恶意行为检测方法，可以有效发现用户潜在的攻击行为。

(2)基准方法

为了证明本文提出的方法的有效性，将本方法与两个基准方法进行对比，分别为：

1)随机方法。第一个方法为随机查看当前是否存在着攻击，在该方法中，引入一个参数γ，取值范围为[0,1]，代表随机查看动作占总动作的比例。

2)DQN方法。采用改进后的DQN算法，在使用DQN算法时，其参数设置为：学习率learning_rate＝0.01，收益折扣系数γ＝0.9，探索概率ε＝0.1，目标网络替换迭代次数iter＝200，记忆上限memory_size＝2000。

(3)实验结果

首先，对本章所提方法的正确性进行验证，分别在将Rcost的值为设定5，10，15，20时，对DDPG模型进行训练，并对训练过程进行记录和可视化，训练过程中每500个用户进出该环境，所获得的总体奖励值变化情况如图6所示：

其次，进一步比较了不同的Rcost对框架性能的影响，分别在Rcost的取值由1逐步变化到20时，对模型进行训练，每个Rcost下将模型训练10次，测试每个模型的性能，比较在不同Rcost下模型的平均奖励，其结果如图7所示：

最后，验证了所提方法的优越性，在相同的场景下，将基于DDPG模型的方法与随机检查方法、基于DQN模型的方法进行了比较，比较结果如图8所示，其中横坐标为随机查看动作占总动作的比例γ，纵坐标分别为奖励值、发现的攻击者数量和未发现的攻击者数量。实验共进行了11次，分别将γ取值设为0，0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8，0.9和1，由于该参数与基于DDPG模型、基于DQN模型的两种方法无关，所以分别将两个模型训练11次，并测试模型性能。

(4)结果分析

首先，通过图6的结果可以发现，随着训练次数的不断增加，R值呈现一个缓慢上升的趋势，直到最后趋近于收敛，这符合强化学习的一个学习过程，说明本文提出的模型能够从监控到的用户行为中逐步学习出恶意用户的动作的特点规律，并不断提升自身的判断准确率，从而验证了说明了本文所提出算法的有效性。

其次，通过图7的结果可以发现，无论管理员在该环境下，查看服务器状态的费用如何变化，模型总能够获得到一个比较好的奖励，也就是说，该模型能够很好地适应环境的变化，并根据环境的变化适时调整自身的策略，也就是说，该模型不仅仅能够在某一特定环境下取得良好效果，而是能够针对这个问题的不同环境，均能够取得较好的效果，证明算法具有良好的鲁棒性。

最后，通过图8的结果可以发现，无论从获取的奖励值、发现的攻击者的数量，还是从未发现的攻击者的数量出发，基于DDPG模型的方法的表现均好于随机查看的方法和基于DQN模型的方法，它能够在发现较多的攻击者的同时，同时取得较好的收益(表示在所有查看动作中，未发现攻击者的动作数量相对较少)。

通过图8的结果还可以发现，对于随机查看的方法，当查看动作所占的比例γ较低时，无论出现何种状态，网络管理员均不会对服务器状态进行查看，导致能够成功的攻击者数量较多，被发现的攻击者数量较少，导致此时的奖励均值较低；当查看动作比例逐渐上升时，网络管理员能够成功查看到更多的恶意用户，致使奖励均值逐渐升高；当查看动作比例较大时，网络管理员相当于大部分时间均进行查看，此时虽然能够发现更多的恶意用户，但是却浪费了大量的精力，由于Rcost的存在，使得此时的奖励逐渐减小，这种趋势在图8(a)的结果中表现明显，符合实验预期。

同样分析图8中基于DQN方法的的结果，可以发现，基于DQN模型在训练500次后，并没有达到一个比较稳定的状态，在奖励值、发现攻击者的数量等指标上均出现了较大的波动，平均效果相对不佳，证明在该场景下，使用基于DDPG模型的方法要好于基于DQN模型的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于强化学习的恶意用户行为智能检测方法，其特征在于：

包括智能分析引擎模块、网络空间状态感知模块和多域动作执行模块；

2.根据权利要求1所述的基于强化学习的恶意用户行为智能检测方法，其特征在于：网络空间状态感知模块感知的安全状态包括物理域内的人员进出空间的状态、网络域内计算机网络行为、信息域内对信息的读取或写入的状态、社会域内人员之间关系的改变。

3.根据权利要求1所述的基于强化学习的恶意用户行为智能检测方法，其特征在于策略网络分为5层：第1层为输入层；第2层为RNN隐藏层，包含32个GRU结构的节点；第3层、第4层分别为全连接层，包含48个全连接节点，激活函数使用ReLu函数；第5层为输出层，使用sigmoid函数作为激活函数，最后输出一个代表多域动作的多维向量，代表需要执行的多域动作。

4.根据权利要求1所述的基于强化学习的恶意用户行为智能检测方法，其特征在于2个Q网络其输入不仅为网络空间的状态，还包括一个多维向量，代表相应的多域动作，输出为1个标量，代表相应状态、动作对对应的Q值；其网络分为4层：第1层为输入层，第2层、第3层分别为包含48个全连接节点，激活函数使用ReLu函数；第4层为输出层，输出一个标量，使用线性函数作为激活函数，代表相应状态、动作对对应的Q值。

5.根据权利要求1所述的基于强化学习的恶意用户行为智能检测方法，其特征在于智能分析引擎，基于DDPG模型，根据网络空间状态感知模块的输入，以及多域动作执行模块的反馈，实时对智能分析引擎模块中的4个网络进行优化调整，生成恶意用户行为检测行为，具体步骤包括：

6)利用梯度下降法，在最小化损失L条件下，更新当前Q网络；

7)利用抽样策略梯度，更新当前策略网络，其中

是梯度计算：

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ'←τθ^μ+(1-τ)θ^μ'。