CN117081855B

CN117081855B - 蜜罐优化方法、蜜罐防护方法以及蜜罐优化系统

Info

Publication number: CN117081855B
Application number: CN202311327291.0A
Authority: CN
Inventors: 孙瑜琦; 谭帅帅; 蒙永翔
Original assignee: Shenzhen Qianhai New Internet Switching Center Co ltd
Current assignee: Shenzhen Qianhai New Internet Switching Center Co ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-02-02
Anticipated expiration: 2043-10-13
Also published as: CN117081855A

Abstract

本发明涉及网络安全技术领域，特别涉及一种蜜罐优化方法、蜜罐防护方法以及蜜罐优化系统。所述蜜罐优化方法包括：获取所述蜜罐响应攻击指令后生成的若干经验轨迹作为训练样本；所述经验轨迹包括所述蜜罐的历史状态信息和对应各历史状态信息的历史响应动作信息，其中，所述历史响应动作信息基于对应的所述历史状态信息和历史响应策略函数形成；根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型，其中，所述当前策略模型包括当前响应策略函数；将所述当前响应策略函数发送至所述蜜罐。蜜罐优化方法有效地解决现有蜜罐无法根据受到的攻击指令进行优化自我的问题，实现了提升蜜罐防护能力的效果。

Description

蜜罐优化方法、蜜罐防护方法以及蜜罐优化系统

技术领域

本发明涉及网络信息安全领域，特别涉及一种用于蜜罐优化方法、蜜罐防护方法以及蜜罐优化系统。

背景技术

随着互联网技术的不断普及，日益增长的网络攻击呈现复杂化、多元化的现象。网络信息安全日益被人们关注，使用范围广、交互性强的网络无法单纯利用防火墙隔绝外来交互信息，需要采用更多样化的网络安全技术来保障网络信息安全。

蜜罐是一个经过精心设计的伪装计算机系统，旨在诱导并捕捉未经授权或具有恶意的系统活动。它不仅可以充当数据的收集者，收集攻击者的行为特征和策略信息；另一方面还可以充当诱饵，吸引攻击者有效地转移其注意力，确保真正的生产环境得到保护。

然而，现有的蜜罐在使用中，无法随着网络威胁的不断演变而持续进化，不能适应新的安全挑战。现有的蜜罐在部署后往往只能通过管理员手动更新响应策略，一方面这种升级模式有滞后性，另一方面也受管理者策略部署的主观影响。

因此，如何蜜罐根据攻击指令自动升级响应策略，是一个亟需解决的问题。

发明内容

针对现有技术不足，本发明提出一种蜜罐优化方法、蜜罐防护方法以及蜜罐优化系统，旨在解决现有蜜罐无法根据攻击指令自动升级优化响应策略的问题，保障蜜罐在使用中可以不断迭代升级，增加攻击者的难度，提高网络信息安全。

为解决上述问题，本发明实施例提供了一种蜜罐优化方法，所述方法包括：

获取蜜罐响应攻击指令后生成的若干经验轨迹作为训练样本；所述经验轨迹包括所述蜜罐的历史状态信息和对应各历史状态信息的历史响应动作信息，其中，所述历史响应动作信息基于对应的所述历史状态信息和历史响应策略函数形成；

根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型，其中，所述当前策略模型包括当前响应策略函数；

将所述当前响应策略函数发送至所述蜜罐。

可选地，获取所述蜜罐响应攻击指令后生成的若干经验轨迹作为训练样本的步骤还包括：

判断所述若干经验轨迹是否达到预设数量；

在所述若干经验轨迹达到预设数量的情况下，解析所述若干经验轨迹作为所述训练样本。

可选地，所述预设策略模型包括奖励函数、熵影响函数、主网络的历史主动作价值函数和历史主状态价值函数以及目标网络的历史目标动作价值函数和历史目标状态价值函数，根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型的步骤包括：

将所述训练样本输入至所述历史目标状态价值函数、所述奖励函数以及所述熵影响函数得到所述历史目标动作价值函数；其中，所述历史目标状态价值函数表示在所述目标网络中特定状态下采取历史响应策略函数的预期状态回报，所述历史目标动作价值函数表示在所述目标网络中特定状态和特定动作下采取历史响应策略函数的预期动作回报；

将所述训练样本输入至所述历史主动作价值函数和所述熵影响函数得到所述历史主状态价值函数；其中，所述历史主状态价值函数表示在所述主网络中特定状态采取历史响应策略函数的预期价值回报，所述历史主动作价值函数表示在所述主网络中特定状态和特定动作下采取历史响应策略函数的预期价值回报；

根据所述历史主状态价值函数和所述历史目标状态价值函数按照预设比例求和作为当前目标状态价值函数，其中，所述预设比例包括第一预设比例和第二预设比例，第一预设比例和第二预设比例总和为1；

将当前目标动作价值函数作为所述当前策略模型的当前主动作价值函数、所述历史目标状态价值函数作为所述当前策略模型的当前目标状态价值函数以及所述历史主状态价值函数作为所述当前策略模型的当前主状态价值函数以得到优化后的所述当前策略模型。

可选地，在将所述训练样本输入至所述历史目标状态价值函数、所述奖励函数以及所述熵影响函数得到所述历史目标动作价值函数之后，根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型的步骤还包括：

将所述历史状态信息、所述历史响应动作信息输入所述历史主动作价值函数与所述熵影响函数更新所述历史主动作价值函数与所述熵影响函数中的参数；

将更新后的所述历史主动作价值函数与所述熵影响函数相减得到第一函数；

将所述第一函数作为所述当前响应策略函数；

根据所述第一函数更新所述熵影响函数的参数。

可选地，将所述训练样本输入至所述历史目标状态价值函数、所述奖励函数以及所述熵影响函数得到所述历史目标动作价值函数的步骤包括：将所述训练样本按照时序划分成第一样本数据和第二样本数据；

将所述第一样本数据输入至所述奖励函数得到第二函数；

将第二样本数据输入至所述历史目标状态价值函数和所述熵影响函数得到第三函数；

将所述第二函数与所述第三函数相加得到所述历史目标动作价值函数。可选地，将所述训练样本输入至所述历史主动作价值函数和所述熵影响函数得到所述历史主状态价值函数的步骤包括：

将所述训练样本输入至所述历史主动作价值函数和所述熵影响函数更新所述历史主动作价值函数与所述熵影响函数中的参数；

将更新后的所述历史主动作价值函数和所述熵影响函数作差得到所述历史主状态价值函数。

可选地，将所述当前响应策略函数发送至所述蜜罐的步骤包括：

检测所述蜜罐的连接情况；

将所述当前响应策略函数发送至处于连接中的所述蜜罐。

本发明还提供一种蜜罐防护方法，所述方法包括：

如上述中任一项所述的蜜罐优化方法；

获取接收到所述攻击指令的所述蜜罐的当前状态信息；

根据所述蜜罐的当前状态信息和当前响应策略函数从响应动作空间中调取对应的响应动作；其中，所述响应动作空间包括若干个不同的预设的所述响应动作；

生成所述响应动作的执行参数；

所述蜜罐按照确定执行参数后的响应动作进行所述攻击指令的响应。

本发明还提供一种蜜罐优化系统，所述蜜罐优化系统包括：

第一获取模块，用于获取蜜罐响应攻击指令后生成的若干经验轨迹作为训练样本；所述经验轨迹包括所述蜜罐的历史状态信息和对应各历史状态信息的历史响应动作信息，其中，所述历史响应动作信息基于对应的所述历史状态信息和历史响应策略函数形成；

优化模块，用于根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型，其中，所述当前策略模型包括当前响应策略函数；以及

发送模块，用于将所述当前响应策略函数发送至所述蜜罐。

可选地，所述第一获取模块包括：

判断模块，用于判断所述若干经验轨迹是否达到预设数量；以及

解析模块，用于在所述若干经验轨迹达到预设数量的情况下，解析所述若干经验轨迹作为所述训练样本。

可选地，所述预设策略模型包括奖励函数、熵影响函数、主网络的历史主动作价值函数和历史主状态价值函数以及目标网络的历史目标动作价值函数和历史目标状态价值函数，所述优化模块包括：

第一函数优化模块，用于将所述训练样本输入至所述历史目标状态价值函数、所述奖励函数以及所述熵影响函数得到所述历史目标动作价值函数；其中，所述历史目标状态价值函数表示在所述目标网络中特定状态下采取历史响应策略函数的预期状态回报，所述历史目标动作价值函数表示在所述目标网络中特定状态和特定动作下采取历史响应策略函数的预期动作回报；

第二函数优化模块，用于将所述训练样本输入至所述历史主动作价值函数和所述熵影响函数得到所述历史主状态价值函数；其中，所述历史主状态价值函数表示在所述主网络中特定状态采取历史响应策略函数的预期价值回报，所述历史主动作价值函数表示在所述主网络中特定状态和特定动作下采取历史响应策略函数的预期价值回报；

第三函数优化模块，用于根据所述历史主状态价值函数和所述历史目标状态价值函数按照预设比例求和作为当前目标状态价值函数，其中，所述预设比例包括第一预设比例和第二预设比例，第一预设比例和第二预设比例总和为1；

第一替代模块，用于将所述当前目标动作价值函数作为所述当前策略模型的当前主动作价值函数、所述历史目标状态价值函数作为所述当前策略模型的当前目标状态价值函数以及所述历史主状态价值函数作为所述当前策略模型的当前主状态价值函数以得到优化后的所述当前策略模型。

可选地，优化模块还包括：

第四函数优化模块，用于将所述历史状态信息、所述历史响应动作信息输入所述历史主动作价值函数与所述熵影响函数更新所述历史主动作价值函数与所述熵影响函数中的参数；

第五函数优化模块，用于将更新后的所述历史主动作价值函数与所述熵影响函数相减得到第一函数；

第六函数优化模块，用于将所述第一函数作为所述当前响应策略函数；

第二替代模块，用于根据所述第一函数更新所述熵影响函数的参数。

可选地，所述发送模块包括：

检测模块，用于检测所述蜜罐的连接情况；

第一子发送模块，用于将所述当前响应策略函数发送至处于连接中的所述蜜罐。

本发明还提供一种蜜罐防护系统，所述蜜罐防护系统包括：

优化模块，用于根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型，其中，所述当前策略模型包括当前响应策略函数；

发送模块，用于将所述当前响应策略函数发送至所述蜜罐；

第二获取模块，获取接收到所述攻击指令的蜜罐的当前状态信息；

处理模块，根据所述蜜罐的当前状态信息和当前响应策略函数从响应动作空间中调取对应的响应动作；其中，所述响应动作空间包括若干个不同的预设的所述响应动作；

生成模块，生成所述响应动作的执行参数；以及

响应模块，所述蜜罐按照确定执行参数后的响应动作进行所述攻击指令的响应。

为了解决上述问题，本发明实施例还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述所述蜜罐优化方法或蜜罐防护方法，和/或，如上述的所述蜜罐防护方法。

为了解决上述问题，本发明实施例还提供一种计算机可读存储介质，其存储计算机程序，所述计算机程序被处理器执行时实现如上述所述蜜罐优化方法或蜜罐防护方法，和/或，如上述的所述蜜罐防护方法。

根据上述的技术方案，本发明有益效果：

本发明实施例中，获取所述蜜罐响应攻击指令后生成的若干经验轨迹作为训练样本；所述经验轨迹包括所述蜜罐的历史状态信息和对应各历史状态信息的历史响应动作信息，其中，所述历史响应动作信息基于对应的所述历史状态信息和历史响应策略函数形成；根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型，其中，所述当前策略模型包括当前响应策略函数；将所述当前响应策略函数发送至所述蜜罐。通过上述方法，一方面使得蜜罐的响应策略可以根据攻击指令不断地迭代升级，另一方面优化所述响应策略的模型也在不断地迭代升级，以使蜜罐的执行的结果更加多样化，更加不容易被攻击者发现其攻击的对象为蜜罐，达到吸引攻击者注意力的目的，提高了网络安全的防护能力。解决了现有蜜罐无法自我更新策略，经过攻击者几次试探后就识别出来其攻击对象为蜜罐，从而绕开该蜜罐攻击其他系统的缺陷，全面提高了网络信息安全。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

图1是应用本发明实施例提供的蜜罐优化方法的流程示意图。

图2是图1中的蜜罐优化方法的第一子流程示意图。

图3是图1中的蜜罐优化方法的第二子流程示意图。

图4是图1中的蜜罐优化方法的第三子流程示意图。

图5是图1中的蜜罐优化方法的第四子流程示意图。

图6是应用本发明实施例提供的蜜罐防护方法的流程示意图。

图7是应用本发明实施例提供的蜜罐优化系统的内部结构示意图。

图8是图7中的第一获取模块的内部结构示意图。

图9是图7中的优化模块的内部结构示意图。

图10是图7中的发送模块的内部结构示意图。

图11是应用本发明实施例提供的蜜罐防护系统的内部结构示意图。

图12是应用本发明实施例提供的电子设备的内部结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”和“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。

本发明实施例提供一种蜜罐优化方法，该蜜罐优化方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，该蜜罐优化方法可以由安装在终端设备或服务端设备的软件或硬件来执行，软件可以是区块链平台。服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

请结合图1所示，图1为本发明实施例提供的蜜罐优化方法的原理示意图。该蜜罐优化方法包括如下步骤：

步骤S101，获取蜜罐响应攻击指令后生成的若干经验轨迹作为训练样本。

其中，经验轨迹包括蜜罐的历史状态信息和对应各历史状态信息的历史响应动作信息，历史响应动作信息可以基于对应的历史状态信息和历史响应策略函数形成。预设策略模型可以包括历史响应策略函数，历史响应策略函数是用于蜜罐接收到攻击指令时可以根据历史响应策略函数进行响应。

具体地，经验轨迹可以包括接收攻击指令时蜜罐的前历史状态信息、蜜罐响应攻击指令的历史响应动作信息的动作值/>、根据蜜罐历史响应动作信息的动作值/>和后历史状态信息/>计算的奖励值/>以及执行历史响应动作信息后蜜罐的后历史状态信息/>等四种信息。

举例说明，如现有任一蜜罐在与攻击者交互之间产生第一经验轨迹为，第二经验轨迹为/>。其中，第一经验轨迹与第二经验轨迹为一次交互中两条相邻的经验轨迹。其中，/>为第一经验轨迹的前历史状态信息，4为第一经验轨迹的历史响应动作信息的动作值/>,0.2为第一经验轨迹的奖励值,/>为第一经验轨迹的后历史状态信息，也为第二经验轨迹的前历史状态信息,1为第二经验轨迹的历史响应动作信息的动作值/>，0.4为第二经验轨迹的奖励值,/>表示第二经验轨迹的后历史状态信息。将该次交互生成的两条经验轨迹/>和/>作为本轮的训练样本。上述提及的具体数值仅为参考，非本发明限定内容。

具体地，每一次交互期间至少包括一条攻击指令，而蜜罐应对一个攻击指令时仅会生成一个响应动作，进而形成一条经验轨迹。一次训练样本至少包括一条经验轨迹，在本发明实施例中，每次训练样本至少包括1000条经验轨迹，从而减少服务器运算的压力。上述提及的具体数值仅为参考，非本发明限定内容。

具体地，前历史状态信息反映蜜罐接收攻击指令时蜜罐的状态参数，后历史状态信息/>反映蜜罐执行响应动作后蜜罐的状态参数。在本发明实施例中，前历史状态信息/>和后历史状态信息/>为不同时序下的同种数据，具体的状态参数可以包括攻击指令的危险级别参数、发起攻击指令的攻击端与蜜罐的连接时长参数、攻击指令是否为高危指令的交互深度参数、攻击端发起攻击指令的攻击次数参数、攻击端与蜜罐之间的数据传输量参数以及攻击指令的错误命令率参数等六个维度的信息。以向量形式表示，如。

其中，为攻击指令的危险级别参数，危险级别参数可以根据攻击指令的代码具体划分为低级、中级和高级。低级的攻击指令主要指的是仅单纯查看或者获取某些系统数据，不会修改系统参数的指令；中级的攻击指令主要指的是涉及到文件或数据的传输、编辑以及压缩等对系统的文件和数据进行更改的，但尚未涉及系统核心设置或权限更改的指令；高级的攻击指令主要指的是直接涉及系统的设置、服务的管理应急用户权限更改等深入系统内部的配置和管理的指令。危险级别参数中的低级、中级和高级可以分别用数值1、2、3表示。

为发起攻击指令的攻击端与蜜罐的连接时长参数，一般情况下可以将从蜜罐接收到攻击指令起开始计时，至蜜罐和攻击端断开连接交互结束为止，单位默认为秒。

为攻击指令的交互深度参数，用于判断该攻击指令是否涉及到对蜜罐深入的查询、配置文件的查看、网络和进程的探测以及绕开安全测试等内容，当存在相关高危内容时，判定该攻击指令为高危指令，更改/>的值为1，否则为0。

为攻击端发起攻击指令的攻击次数参数，当攻击端首次发起攻击指令时，攻击次数参数值为0；当蜜罐采取某种响应动作后，蜜罐再接收攻击指令时修改为1，不断地累计攻击指令的攻击次数。

为攻击端与蜜罐之间的数据传输量参数，即攻击端与蜜罐之间交互产生的数据量，包括但不限于攻击指令的数据量、蜜罐返回的数据量、攻击指令获取到的数据量等，单位为kb。

为攻击指令的错误命令率参数，错误命令率为无效命令数/总命令数，总命令数为攻击端发出的攻击指令的总数，无效命令数为攻击端发出的攻击指令中无效的总数，无效的类型可以为该攻击指令错误或系统不适配该指令等。错误命令率参数可以反映攻击指令的水平高低。

除了上述的六个维度外，历史状态信息还可以包含如IP地址是否为境外、攻击端发起攻击指令的攻击时段，以及一段时间内蜜罐受到攻击的攻击频率等其他维度的信息。

通过多维度的历史状态信息可以更准确地把握蜜罐与攻击端的交互情境，通过历史状态信息和攻击指令识别攻击端的攻击强度与攻击目的，为强化学习提供丰富的输入数据，从而更有效地优化预设策略模型。

更具体地，获取蜜罐响应攻击指令后生成的若干经验轨迹作为训练样本的具体过程将在下文详细描述。

步骤S102，根据训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型。

本发明实施例中，预设策略模型和当前策略模型属于不同训练阶段的同一种模型，预设策略模型为优化前的当前策略模型，当前策略模型为优化后的预设策略模型。预设策略模型采用SAC算法搭建，预设策略模型由奖励函数、熵影响函数、主网络的主动作价值函数和主状态价值函数以及目标网络的目标动作价值函数和目标状态价值函数等函数构建。奖励函数和熵影响函数可以使得蜜罐在通过追求最大化预期的奖励，提高响应动作有效性的同时，还可以增大当前响应策略函数的熵实现响应动作的多样性。通过主网络的主动作价值函数和主状态价值函数以及目标网络的目标动作价值函数和目标状态价值函数可以保障优化过程中模型的稳定性。当前策略模型还包括当前响应策略函数，作为当前策略模型的输出，用于蜜罐生成响应动作的执行依据。

SAC算法（全称Soft Actor-Critic算法,中文名柔性动作-评价算法）包括演员网络和批评家网络两部分。本发明实施例中，演员网络主要提供生成响应动作等的防护功能；批评家网络提供用于评估动作价值的优化的功能。批评家网络会对生成动作的价值进行评估优化，形成当前策略模型以及输出当前响应策略函数。

具体地，预设策略模型采用了软价值迭代的批评家网络，即批评家网络包括主网络和目标网络，主网络用于本次优化当前响应策略函数，而目标网络用于优化包括主网络在内的预设策略模型，用于下次当前响应策略函数优化。当本次主网络将当前响应策略函数优化好输出后，目标网络会将计算后的相关参数替代到主网络的相应参数，用于下轮的当前响应策略函数优化。软价值迭代优势在于本次优化当前响应策略函数的主网络与用于优化的预设策略模型的目标网络区别开，优化时稳定性高，不易产生数据偏差，确保批评家网络的更新过程中不会出现大的震荡或偏差，从而保证了整体的稳定性和效率。

更具体地，根据训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型在下文详细描述。

步骤S103，将当前响应策略函数发送至蜜罐。

具体地，本发明实施例中，采用的模式是将当前响应策略函数发送至部署于不同位置的蜜罐。生成后一套当前响应策略函数可以供多个蜜罐使用，多个蜜罐使用同一套当前响应策略函数获取经验轨迹。

一方面，单个蜜罐在实际交互中获取到经验轨迹，可以成批量地应用到其他蜜罐，形成一个完整的自我完善的安全网络，提高了优化的效率，避免部分蜜罐没受到攻击指令而长期得不到更新或部分蜜罐数据单独升级，造成资源浪费。

另一方面，部署于不同位置的蜜罐接收到的攻击强度和攻击频率不同，有助于在升级优化预设策略模型时提供更多的升级优化的方向，最终达到全面拓展的效果，而不会使得蜜罐在数次升级优化后的当前响应策略函数越发趋近相同。

更具体地，将当前响应策略函数发送至蜜罐在下文详细描述。

综上所述，通过不断优化历史响应策略以及预设策略模型，一方面使得蜜罐的响应策略在响应攻击指令时达到更高效率，吸引攻击火力；另一方面通过优化响应策略的模型可以实现策略的多样化和效率化。根据实际生产环境中遇到的状况转化为蜜罐优化的依据,不断地将预设策略模型进行迭代升级，以使蜜罐的执行的结果更加多样化，更加不容易被攻击者发现识别，提高了网络安全的防护能力。解决了现有蜜罐无法自我更新策略的问题，全面提高了网络信息安全。

请参阅图2所示，图2为本发明实施例提供的蜜罐优化方法的第一子流程示意图。在本发明实施例中，步骤S101的步骤包括如下步骤：

步骤S1011，判断若干经验轨迹是否达到预设数量。

具体地，蜜罐在每次交互结束后，将本次交互产生的若干经验轨迹形成一个经验批次储存到数据缓冲区。同时蜜罐可以在每次交互后进行自我初始化，以重新获取经验轨迹。每个经验批次至少包含一条经验轨迹，每个经验轨迹仅包括一条攻击指令和对应的历史响应动作信息。

在本发明第一实施例中，交互结束的判断可以为攻击者断开网络连接或蜜罐在预设时间5分钟内没有再接收到攻击指令，则判定本次攻击交互结束。在其他实施例中，也可以为出现重复同样的交互指令、发送空白的攻击指令等无实际含义的空白指令的情况。

步骤S1012，在若干经验轨迹达到预设数量的情况下，解析若干经验轨迹作为训练样本。

具体地，在本发明实施例中，蜜罐优化系统从数据缓冲区获取若干经验轨迹，当经验轨迹达到预设数量时，启动对预设策略模型的优化程序。当数据缓冲区的经验批次达到1000条时，预设策略模型将提取训练样本进行优化升级，从而更新蜜罐的当前响应策略函数。

请参阅图3所示，图3为本发明实施例提供的蜜罐优化方法的第二子流程示意图。在本发明实施例中，步骤S102的步骤包括如下步骤：

步骤S1021，将训练样本输入至历史目标状态价值函数、奖励函数以及熵影响函数得到历史目标动作价值函数。

具体地，在一个实施例中，蜜罐优化系统将训练样本按照时序划分成第一样本数据和第二样本数据，将第一样本数据输入至奖励函数得到第二函数；将第二样本数据输入至历史目标状态价值函数和熵影响函数得到第三函数以及将第二函数与第三函数相加得到历史目标动作价值函数。

进一步地，步骤S1021的具体公式为：

。

其中，为目标动作价值函数；/>为奖励函数; />为折扣参数，为一个常量；为目标状态价值函数；/>为熵影响函数；/>为历史响应策略函数；/>为熵正则化系数，为一个常量；/>为鼓励探索参数，用于加强或减弱熵的影响；/>表示时序，；/>为历史响应动作信息的值；/>为历史状态信息的值。

更具体地，蜜罐优化系统将训练样本划分为时序的第一样本数据和时序/>的第二样本数据用于计算。将第一样本数据代入/>得到第二函数，将第二样本数据代入和/>得到第三函数，再将第二函数和第三函数相加作为历史目标动作价值函数。

其中，奖励值即为在某一状态下采取某种响应动作可以获取到达积分，表示系统执行该响应动作信息的防护有效程度。

进一步地，奖励函数的具体公式为：

；

。

的值为基于状态参数s(1)计算的奖励值，/>的值为基于状态参数s(2)计算的奖励值，/>的值为基于状态参数s(3)计算的奖励值，/>的值为基于状态参数s(4)计算的奖励值，/>的值为基于状态参数s(5)计算的奖励值，/>的值为基于状态参数s(6)计算的奖励值。

在本实施例中，蜜罐生成响应动作后，预设策略模型会获取更新后的状态同步地计算奖励值，即将本次响应动作信息根据预设的奖励函数/>计算该次动作所获取的奖励/>。

同时，在其他一些实施例中，奖励值的获取顺序也可以为预设策略模型在获取经验轨迹后统一对奖励值进行计算，奖励值的获取的方式取决于服务器的运载分布。

其中，历史目标状态价值函数表示在目标网络中特定状态下采取历史响应策略函数的预期状态回报，历史目标动作价值函数表示在目标网络中特定状态和特定动作下采取历史响应策略函数的预期动作回报。

具体地，当大于1时，加强熵的影响，当/>小于1时，减弱熵的影响，/>即可以为常量，也可以为基于时间变化的一个函数，表示当交互时间越久时，对熵的影响越深。

上述例子中，在第一经验轨迹中采用动作4，在第二经验轨迹中采用动作1。预设策略模型的初始量为：为0.9、/>为0.2、/>为1.1以及/>为0.005。第一经验轨迹计算的值为，第二经验轨迹计算的值为/>；/>为0.55，/>为0.65；/>为0.66，/>为0.75；根据/>、/>以及/>计算出其对应的奖励/>和的值分别为0.2和0.4。

计算过程为：

；

。

上述提及的具体数值仅为参考，非本发明限定内容。

步骤S1022，将训练样本输入至历史主动作价值函数和熵影响函数得到历史主状态价值函数。

具体地，在一个实施例中，蜜罐优化系统将训练样本输入至历史主动作价值函数和熵影响函数更新历史主动作价值函数与熵影响函数中的参数；将更新后的历史主动作价值函数和熵影响函数作差得到历史主状态价值函数。

进一步地，步骤S1022的具体运算公式为：

。/>

其中，为主状态价值函数；/>为主状态价值函数；/>为历史响应策略函数；为熵影响函数；/>为熵正则化系数，为一个常量；/>为鼓励探索参数，用于加强或减弱熵的影响，/>为一个常量；/>表示时序，/>；/>为历史响应动作信息的动作值；/>为历史状态信息的状态值。

历史主状态价值函数表示在主网络中特定状态采取历史响应策略函数的预期价值回报，历史主动作价值函数表示在主网络中特定状态和特定动作下采取历史响应策略函数的预期价值回报。

更具体地，历史主状态价值函数代表了从状态开始，遵循当前响应策略函数/>的预期累积奖励。即“如果现在处于状态/>，然后遵循当前响应策略函数/>，可以期望获得多少的累积奖励”。

历史主动作价值函数代表了从状态值以及动作值/>开始，遵循当前响应策略函数的预期累积奖励。即“如果现在处于状态/>，然后遵循当前响应策略函数/>，可以期望获得多少的累积奖励”。

在上述例子中，计算过程为：

；

。

述提及的具体数值仅为参考，非本发明限定内容。

步骤S1023，根据历史主状态价值函数和历史目标状态价值函数按照预设比例求和作为当前目标状态价值函数。

具体地，步骤S1023的具体运算公式为：

。

其中，是一个介于0和1之间的参数；/>为主状态价值函数；/>为历史目标状态价值函数；/>为当前目标状态价值函数；/>为历史状态信息的状态值。

其中，预设比例包括第一预设比例和第二预设比例，第一预设比例和第二预设比例总和为1。更新后的作为当前目标状态价值函数，是历史主状态价值函数和历史目标状态价值函数的加权平均。

在上述例子中，计算过程为：

；

。

上述提及的具体数值仅为参考，非本发明限定内容。

步骤S1024，将当前目标动作价值函数作为当前策略模型的当前主动作价值函数、历史目标状态价值函数作为当前策略模型的当前目标状态价值函数以及历史主状态价值函数作为当前策略模型的当前主状态价值函数以得到优化后的当前策略模型。

具体地，将计算后的当前目标动作价值函数、历史目标状态价值函数以及历史主状态价值函数作为下一轮策略模型的参数。在本实施例中本次响应策略函数的优化采用的是上一轮策略模型的参数，而下一轮响应策略函数的优化采用的是本轮策略模型的参数，这种更新方法可以保证模型在更新时的稳定性，不会加大对系统算力的影响。在其他一些实施例中，也可以为当前响应策略函数和策略模型同时进行更新，即响应策略函数用当前策略模型进行优化，但这样对系统算力有较大的限制。

请参阅图4所示，图4为本发明实施例提供的蜜罐优化方法的第三子流程示意图。在本发明实施例中，在执行步骤1021后，步骤S102的步骤包括如下步骤：

步骤S1025，将历史状态信息、历史响应动作信息输入历史主动作价值函数与熵影响函数更新历史主动作价值函数与熵影响函数中的参数。

具体地，步骤S1025的具体运算公式为：

。

其中，为当前响应策略函数；/>为主状态价值函数；/>为历史响应策略函数；/>为熵正则化系数，为一个常量；/>为鼓励探索参数，用于加强或减弱熵的影响，/>为一个常量；/>表示时序，/>；/>为历史响应动作信息的动作值；/>为历史状态信息的状态值。

具体地，当前响应策略函数的优化兼顾到历史响应策略函数以及熵的变化程度。在本发明实施例中，可以为一个随交互时间变化的值，可变的/>提高当前响应策略的可变空间，进一步地加大了蜜罐被识别破解的难度。在另一可行实施例中，/>也可以为一个固定的常量。

步骤S1026，将更新后的历史主动作价值函数与熵影响函数相减得到第一函数。

步骤S1027，将第一函数作为当前响应策略函数。

具体地，在上述例子中，当前响应策略函数的具体计算如下：

对于：/>；

对于：/>。

上述提及的具体数值仅为参考，非本发明限定内容。

步骤S1028，根据第一函数更新熵影响函数的参数。

具体地，在对当前响应策略函数进行后，还需要对熵影响函数进行更新，用于其他函数的计算。

请参阅图5所示，图5为本发明实施例提供的蜜罐优化方法的第四子流程示意图。在本发明实施例中，步骤S103包括：

步骤S1031，检测蜜罐的连接情况。

在本发明实施例中，蜜罐在接收攻击指令后可能出现宕机、被攻击端劫持、与蜜罐优化系统所在的服务器断开连接的情况。所以蜜罐优化系统需要对当前若干蜜罐的连接情况进行检测，避免出现将当前响应策略函数被攻击端获取，进而协助攻破其他蜜罐的情况。

步骤S1032，将当前响应策略函数发送至处于连接中的蜜罐。

具体地，优化模块在检测完蜜罐的连接情况后，对于出现宕机、被攻击端劫持、与蜜罐优化系统所在的服务器断开连接的情况的蜜罐不进行升级优化，以防止攻击端得到当前响应策略函数。将当前响应策略函数处于连接中的蜜罐以升级优化蜜罐的当前响应策略函数，提高蜜罐的防护能力。

综上，本发明中的蜜罐优化方法采取了主网络和目标网络分离的优化模式，将从蜜罐获取到的历史状态信息作为预设策略模型的训练样本，对预设策略模型进行强化学习训练以获取当前策略模型。同时获取到当前策略模型输出的当前响应策略作为蜜罐的执行响应动作的依据，实现了蜜罐在部署完成后，还可以根据实际环境中的攻击指令不断优化自身的目的，达到实时更新的效果。同时在预设策略模型中设置有熵影响函数，可以探索最高效的响应动作的同时，做到尽可能多地执行不同的响应动作，加大了蜜罐被识破的难度，进一步地提高了网络安全水平。

请结合图6所示，图6为本发明实施例提供的一种蜜罐防护方法的流程示意图。该蜜罐防护方法包括上述的实施例的蜜罐优化方法，还包括如下步骤。

步骤S201，获取接收到攻击指令的蜜罐的当前状态信息。

具体地，攻击者连接到蜜罐并发送攻击指令。蜜罐一旦收到攻击者的攻击指令，就会根据该攻击指令更改自身的当前状态信息。

步骤S202，根据蜜罐的当前状态信息和响应策略函数从响应动作空间中调取对应的响应动作。

其中，响应动作空间包括若干个不同的预设的响应动作。具体地，响应动作空间中包括但不限于以下15种响应动作，如：

（1）随机回复字符串，蜜罐返回发起攻击指令的攻击端一个随机字符串。

（2）使用模拟文件系统正常执行，蜜罐模拟正常操作系统的行为来回应攻击端。

（3）发送报错信息，蜜罐返回攻击端各种常见的错误信息，如“命令未找到”、“权限不足”等报错信息。

（4）延迟执行，蜜罐对于攻击指令，延迟一段时间后再回复攻击端。

（5）发送重启信息，蜜罐返回攻击端模拟操作系统重启的消息，断开与发起攻击指令的攻击端的网络连接。

（6）断开网络连接或回复网络不稳定信息，蜜罐断开与攻击端网络连接或者返回攻击端“网络错误”等信息。

（7）提供虚假的更新或者补丁，蜜罐返回攻击端一个伪造的操作系统更新补丁或安全补丁的信息，诱导攻击端下载或执行。

（8）回复安全警告提示，蜜罐返回攻击端伪造的安全警告信息，如“此次操作已被记录并报告给管理员”等。

（9）模仿其他操作系统的格式回复，如当攻击端识别蜜罐为一个Linux系统交互时，蜜罐返回攻击端的是Windows命令行的提示符以及输出。

（10）发送病毒感染信息，蜜罐返回攻击端病毒感染的提示信息，如“您的设备已被病毒感染，请立即清理”等信息。

（11）提供虚假的登陆提示，蜜罐向攻击端发送登录界面通过套取用户名和密码，诱导攻击端输入用户名和密码。

（12）传输垃圾数据，蜜罐返回攻击端大量的无关数据或随机数据。

（13）发送硬件故障信息，蜜罐返回攻击端伪造的硬件错误消息，如“硬盘读取错误”或“内存溢出”等信息。

（14）发送随机的命令重定向指令，跳过攻击端输入的攻击指令，都返回预设的指令，例如攻击端输入“ls”的攻击指令，但蜜罐返回的是“ifconfig”的结果。

（15）发送伪造文件内容，攻击端输入攻击指令后，蜜罐返回伪造的文件内容，如“/etc/passwd”中的用户信息。

需要指出的是在本发明实施例中，蜜罐选取响应动作时仅从动作空间中选取一项动作作为响应动作，即攻击者发起一条攻击指令，蜜罐仅返回一条响应动作。在其他一些实施例中，蜜罐在选取响应动作时，可以将不同的动作进行结合，如动作3和动作4结合，延迟发送错误信息等动作的组合，可以有效地增强防护强度。

步骤S203，生成响应动作的执行参数。

具体地，响应空间中部分响应动作需要获取一个具体的执行参数才可以进行执行，蜜罐在选取对应的响应动作后，随机生成一个执行参数。

在本发明中，至少存在全随机生成执行参数、半随机生成执行参数以及固定生成执行参数三种类型的生成方式。全随机的生成过程没有数值范围和字符形式的限制。半随机需要预先指定范围，只能在指定范围内的数值或字符。固定生成为仅执行一种或一类执行参数。

其中，如动作1和动作12为全随机生成动作，动作1中的字符串和动作12中的垃圾数据全部为随机生成的执行参数。而动作3、动作4以及动作7为半随机生成，如动作3中的报错信息是预储存于动作空间内的报错信息；动作4的延时时间为1-4内的随机整数秒；动作7为预储存于动作空间内的补丁数据。而动作5、动作8以及动作10为固定生成，即重启包括、半随机生成以及固定值生成，即生成的执行参数为固定参数。动作5中重启信息、动作8中的安全警告信息以及动作10中的病毒感染信息等都为预先录入的数据。

具体的，在绝大多数的操作系统中，如重启、被入侵等安全环节会采用方便检查的固定信息，如果在一次交互中针对同一个问题生成两次不同的信息会加大被识别可能性，所以在如重启、安全警告等较为重要的环节采用固定生成，减少被识别风险。同时采取执行参数与响应动作拆分的方法可以保持响应动作的多样性。如动作4中延迟x秒后回复攻击者，随机生成一个执行参数后能进行执行，持续执行固定一种执行参数，容易被识破。

步骤S204，蜜罐按照确定执行参数后的响应动作进行攻击指令的响应。

在上述例子中，如攻击端发送攻击指令umane-a至蜜罐，蜜罐形成第一历史状态信息为，根据当前响应策略函数/>决策出动作/>为动作4，并延迟执行。蜜罐在延迟执行后，攻击端发送攻击指令nproc，此时蜜罐形成第二历史状态信息为，根据当前响应策略函数决策的动作/>为动作1，返回攻击端随机字符串，此时攻击端接收到随机字符后断开了连接。蜜罐的第三历史状态信息为/>。

进一步地，蜜罐在部署完成后会进入待机模式，等待攻击端发起的攻击指令。同时，在每次交互完成后，会初始化蜜罐，使蜜罐处于初始状态，同时减少蜜罐的负载，提高响应速度。

上述提及的具体数值仅为参考，非本发明限定内容。

综上，本发明中的蜜罐防护方法包括了上述的蜜罐优化方法，具备上述优化方法的全部技术特征。同时本发明中的蜜罐防护方法可以根据攻击指令以及当前响应策略函数从动作空间中选取出适合的响应动作，并随机生成具体的执行参数，最终将历史响应动作信息以及实际产生的效果进行记录用于更新当前响应策略函数。执行参数和响应动作的分离使蜜罐更符合实际操作系统遭受攻击指令时的反应情况，提高了识别难度。另一方面不断优化当前响应策略函数进一步地提高了蜜罐的防护能力，使得蜜罐在部署之后还可以优化升级。

请结合图7所示，图7为本发明实施例提供的一种蜜罐优化系统的结构示意图。本发明还提供一种蜜罐优化系统100，蜜罐优化系统100包括第一获取模块101、优化模块102和发送模块103。

第一获取模块101，用于获取蜜罐响应攻击指令后生成的若干经验轨迹作为训练样本。

优化模块102，用于根据训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型。

发送模块103，用于将当前响应策略函数发送至蜜罐。

请结合图8所示，图8为本发明实施例提供的第一获取模块的结构示意图。第一获取模块101包括判断模块11和解析模块12。

判断模块11，用于判断若干经验轨迹是否达到预设数量。

解析模块12，用于在若干经验轨迹达到预设数量的情况下，解析若干经验轨迹作为训练样本。

请结合图9所示，图9为本发明实施例提供的一种优化模块的结构示意图。优化模块102包括第一函数优化模块21、第二函数优化模块22、第三函数优化模块23、第一替代模块24、第四函数优化模块25、第五函数优化模块26、第六函数优化模块27以及第二替换模块28。

第一函数优化模块21，用于将训练样本输入至历史目标状态价值函数、奖励函数以及熵影响函数得到历史目标动作价值函数。

进一步地，步骤S1021的具体公式为：

。

进一步地，奖励函数的具体公式为：

；

；/>

；

。

上述例子中，在第一经验轨迹中采用动作4，在第二经验轨迹中采用动作1。预设策略模型的初始量为：为0.9、/>为0.2、/>为1.1以及/>为0.005。第一经验轨迹计算的值为，第二经验轨迹计算的值为/>；/>为0.55，/>为0.65；/>为0.66，/>为0.75；根据/>、/>以及/>计算出其对应的奖励/>和/>的值分别为0.2和0.4。

计算过程为：

；

。

上述提及的具体数值仅为参考，非本发明限定内容。

第二函数优化模块22，用于将训练样本输入至历史主动作价值函数和熵影响函数得到历史主状态价值函数。

进一步地，步骤S1022的具体运算公式为：

。

在上述例子中，计算过程为：

；

。

上述提及的具体数值仅为参考，非本发明限定内容。

第三函数优化模块23，用于根据历史主状态价值函数和历史目标状态价值函数按照预设比例求和作为当前目标状态价值函数。

具体地，步骤S1023的具体运算公式为：

。

在上述例子中，计算过程为：

；/>

。

上述提及的具体数值仅为参考，非本发明限定内容。

第一替代模块24，用于将当前目标动作价值函数作为当前策略模型的当前主动作价值函数、历史目标状态价值函数作为当前策略模型的当前目标状态价值函数以及历史主状态价值函数作为当前策略模型的当前主状态价值函数以得到优化后的当前策略模型。

具体地，将计算后的当前目标动作价值函数、历史目标状态价值函数以及历史主状态价值函数作为下一轮策略模型的参数。在本实施例中本次响应策略函数的优化采用的是上一轮策略模型的参数，而下一轮响应策略函数的优化采用的是本轮策略模型的参数，这种更新方法可以保证模型在更新时的稳定性，不会加大对系统算力的影响。在其他一些实施例中，也可以为当前响应策略函数和策略模型同时进行更新，即响应策略函数用当前策略模型进行优化，但这样对系统算力有较大的限制。第四函数优化模块25，用于将历史状态信息、响应动作信息输入历史主动作价值函数与熵影响函数更新历史主动作价值函数与熵影响函数中的参数。

具体地，步骤S1025的具体运算公式为：

。

第五函数优化模块26，用于将更新后的历史主动作价值函数与熵影响函数相减得到第一函数。

第六函数优化模块27，用于将第一函数作为当前响应策略函数。

对于：/>；

对于：/>。

上述提及的具体数值仅为参考，非本发明限定内容。

第二替换模块28，用于据第一函数更新熵影响函数的参数。

请结合图10所示，图10为本发明实施例提供的一种发送模块的结构示意图。发送模块103包括检测模块31和第一子发送模块32。

检测模块31，用于检测蜜罐的连接情况。

第一子发送模块32，用于将当前响应策略函数发送至处于连接中的蜜罐。

综上，本发明中的蜜罐优化系统采取了主网络和目标网络分离的优化模式，将从蜜罐获取到的历史状态信息作为预设策略模型的训练样本，对预设策略模型进行强化学习训练以获取当前策略模型。同时获取到当前策略模型输出的当前响应策略作为蜜罐的执行响应动作的依据，实现了蜜罐在部署完成后，还可以根据实际环境中的攻击指令不断优化自身的目的，达到实时更新的效果。同时在预设策略模型中设置有熵影响函数，可以探索最高效的响应动作的同时，做到尽可能多地执行不同的响应动作，加大了蜜罐被识破的难度，进一步地提高了网络安全水平。

请结合图11所示，图11为本发明实施例还提供的一种蜜罐防护系统的结构示意图。本发明还提供一种蜜罐防护系统200包括上述的第一获取模块101、优化模块102、发送模块103、第二获取模块204、处理模块205、生成模块206以及响应模块207。

第二获取模块204，用于获取接收到攻击指令的蜜罐的当前状态信息。

处理模块205，用于根据蜜罐的当前状态信息和当前响应策略函数从响应动作空间中调取对应的响应动作。

生成模块206，用于生成响应动作的执行参数。

响应模块207，用于蜜罐按照确定执行参数后的响应动作进行攻击指令的响应。

在上述例子中，如攻击端发送攻击指令umane-a至蜜罐，蜜罐形成第一历史状态信息为，根据当前响应策略函数/>决策出动作/>为动作4，并延迟执行。蜜罐在延迟执行后，攻击端发送攻击指令nproc，此时蜜罐形成第二历史状态信息为/>，根据当前响应策略函数决策的动作/>为动作1，返回攻击端随机字符串，此时攻击端接收到随机字符后断开了连接。蜜罐的第三历史状态信息为/>。

上述提及的具体数值仅为参考，非本发明限定内容。

综上，本发明中的蜜罐防护系统包括了上述的蜜罐优化方法，具备上述优化方法的全部技术特征。同时本发明中的蜜罐防护方法可以根据攻击指令以及当前响应策略函数从动作空间中选取出适合的响应动作，并随机生成具体的执行参数，最终将历史响应动作信息以及实际产生的效果进行记录用于更新当前响应策略函数。执行参数和响应动作的分离使蜜罐更符合实际操作系统遭受攻击指令时的反应情况，提高了识别难度。另一方面不断优化当前响应策略函数进一步地提高了蜜罐的防护能力，使得蜜罐在部署之后还可以优化升级。

详细地，本发明实施例中的蜜罐优化系统100中的各模块在使用时采用与上述图1-图5中的蜜罐优化方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

详细地，本发明实施例中的蜜罐防护系统200中的各模块在使用时采用与上述图1-图5中的蜜罐优化方法以及图6的蜜罐防护方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

本发明还公开了一种电子设备1000，请参阅图12所示，图12是本发明实施例提供的一种电子设备的结构示意图。

所述电子设备1000可以包括至少一个处理器1；以及，与所述至少一个处理器1通信连接的存储器2。其中，存储器2存储有可被所述至少一个处理器1执行的计算机程序，所述计算机程序被所述至少一个处理器1执行，以使所述至少一个处理器1能够执行如上述的蜜罐优化方法或上述的蜜罐防护方法。

其中，所述处理器1在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器1是所述电子设备1000的控制核心(ControlUnit)，利用各种接口和线路连接整个电子设备1000的各个部件，通过运行或执行存储在所述存储器2内的程序或者模块(例如蜜罐优化程序等)，以及调用存储在所述存储器2内的数据，以执行电子设备1000的各种功能和处理数据。

进一步地，所述电子设备1000集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本发明还提供一种计算机可读存储介质，包括计算机程序，所述计算机程序可被处理器1执行以完成如蜜罐优化方法。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

应当理解的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种蜜罐优化方法，其特征在于，所述蜜罐优化方法包括：

所述预设策略模型包括奖励函数、熵影响函数、主网络的历史主动作价值函数和历史主状态价值函数以及目标网络的历史目标动作价值函数和历史目标状态价值函数，根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型的步骤包括：

将当前目标动作价值函数作为所述当前策略模型的当前主动作价值函数、所述历史目标状态价值函数作为所述当前策略模型的当前目标状态价值函数以及所述历史主状态价值函数作为所述当前策略模型的当前主状态价值函数以得到优化后的所述当前策略模型；

将所述当前响应策略函数发送至所述蜜罐。

2.根据权利要求1所述的蜜罐优化方法，其特征在于，获取所述蜜罐响应攻击指令后生成的若干经验轨迹作为训练样本的步骤还包括：

判断所述若干经验轨迹是否达到预设数量；

3.根据权利要求1所述的蜜罐优化方法，其特征在于，在将所述训练样本输入至所述历史目标状态价值函数、所述奖励函数以及所述熵影响函数得到所述历史目标动作价值函数之后，根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型的步骤还包括：

将所述第一函数作为所述当前响应策略函数；

根据所述第一函数更新所述熵影响函数的参数。

4.根据权利要求1所述的蜜罐优化方法，其特征在于，将所述训练样本输入至所述历史目标状态价值函数、所述奖励函数以及所述熵影响函数得到所述历史目标动作价值函数的步骤包括：

将所述训练样本按照时序划分成第一样本数据和第二样本数据；

将所述第一样本数据输入至所述奖励函数得到第二函数；

将所述第二函数与所述第三函数相加得到所述历史目标动作价值函数。

5.根据权利要求1所述的蜜罐优化方法，其特征在于，将所述训练样本输入至所述历史主动作价值函数和所述熵影响函数得到所述历史主状态价值函数的步骤包括：

6.根据权利要求1所述的蜜罐优化方法，其特征在于，将所述当前响应策略函数发送至所述蜜罐的步骤包括：

检测所述蜜罐的连接情况；

将所述当前响应策略函数发送至处于连接中的所述蜜罐。

7.一种蜜罐防护方法，其特征在于，所述蜜罐防护方法包括：

权利要求1至6中任一项所述的蜜罐优化方法；

获取接收到攻击指令的蜜罐的当前状态信息；

生成所述响应动作的执行参数；

8.一种蜜罐优化系统，其特征在于，所述蜜罐优化系统包括：

所述预设策略模型包括奖励函数、熵影响函数、主网络的历史主动作价值函数和历史主状态价值函数以及目标网络的历史目标动作价值函数和历史目标状态价值函数，所述优化模块包括：

第一替代模块，用于将当前目标动作价值函数作为所述当前策略模型的当前主动作价值函数、所述历史目标状态价值函数作为所述当前策略模型的当前目标状态价值函数以及所述历史主状态价值函数作为所述当前策略模型的当前主状态价值函数以得到优化后的所述当前策略模型；

发送模块，用于将所述当前响应策略函数发送至所述蜜罐。

9.一种蜜罐防护系统，其特征在于，所述蜜罐防护系统包括：

发送模块，用于将所述当前响应策略函数发送至所述蜜罐；

生成模块，生成所述响应动作的执行参数；以及响应模块，所述蜜罐按照确定执行参数后的响应动作进行所述攻击指令的响应。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的蜜罐优化方法，和/或，如权利要求7中所述的蜜罐防护方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的蜜罐优化方法，和/或，如权利要求7中所述的蜜罐防护方法。