CN118138361A

CN118138361A - 一种基于可自主进化智能体的安全策略制定方法和系统

Info

Publication number: CN118138361A
Application number: CN202410429310.9A
Authority: CN
Inventors: 李季; 乐翔; 刘盈; 楚兵
Original assignee: Ningbo Helishi Information Security Research Institute Co ltd
Current assignee: Ningbo Helishi Information Security Research Institute Co ltd
Priority date: 2024-04-10
Filing date: 2024-04-10
Publication date: 2024-06-04

Abstract

本申请提供了一种基于可自主进化智能体的安全策略制定方法和系统，涉及网络安全领域，在该方法中，系统可以实时收集各类网络安全数据构建安全数据集，并基于安全数据集构建智能体来自主地学习和识别安全数据集中网络威胁和攻击模式，进而构建出适合当前网络环境和自身状态的第一安全策略；将新网络数据与安全数据集进行信息匹配，依据匹配结果更新安全数据集；并在检测到新网络数据会对第一安全策略造成影响后，依据更新后的安全数据集构建第二安全策略。该方法可以协助智能体通过不断学习和适应新的网络安全数据实现自主更新进化，提高了对新型攻击的识别能力，进而提高了系统的网络安全防御能力。

Description

一种基于可自主进化智能体的安全策略制定方法和系统

技术领域

本申请涉及网络安全领域，尤其涉及一种基于可自主进化智能体的安全策略制定方法和系统。

背景技术

随着互联网普及，网络攻击不断升级，给网络安全带来越来越大的挑战。传统的设备检测和规则机制难以全面应对各种新型攻击行为，网络环境的复杂多变也增加了安全管理的难度。

相关技术中，通过制定明确的安全策略和配置相应的规则来识别和阻止网络连接过程中的潜在威胁。例如通过比较网络流量、用户行为和其他安全相关数据与预定义的规则，来识别和阻止潜在的威胁。

然而，依靠规则匹配检测入侵行为来进行网络安全防护存在明显的缺点，例如规则制定难以全面应对不断变化和更新的网络攻击行为，特别对新型攻击识别能力差，导致缺乏主动发现新威胁的能力，在一定程度上延缓了解决问题的效率。

发明内容

本申请提供了一种基于可自主进化智能体的安全策略制定方法和系统，可以实时收集各类网络安全数据构建安全数据集，基于安全数据集构建智能体来自主地学习和识别安全数据集中网络威胁和攻击模式，进而通过智能体构建适合当前网络环境和自身状态的第一安全策略；并在接收到新网络数据后，先依据新网络数据与安全数据集的信息匹配结果更新安全数据集；并在检测到新网络数据会对第一安全策略造成影响后，依据更新后的安全数据集重新构建第二安全策略。该方法可以协助智能体通过不断学习和适应新的网络安全数据实现自主更新进化，提高了对新型攻击的识别能力，进而提高了系统的网络安全防御能力。

第一方面，本申请提供一种基于可自主进化智能体的安全策略制定方法，包括：

实时收集各类网络安全数据构建安全数据集，该安全数据集包括网络攻击样本、安全情报和标准数据；

基于该安全数据集构建智能体，该智能体具有自主地学习和识别该安全数据集中网络威胁和攻击模式，确定相匹配的安全策略的功能；

通过该智能体构建适合当前网络环境和自身状态的第一安全策略；

在接收到新网络数据后，依据该新网络数据与该安全数据集的信息匹配结果更新该安全数据集；

判断该新网络数据是否对该第一安全策略造成影响；

若否，则对该新网络数据的攻击路径进行预警记录；

若是，则依据更新后的安全数据集构建第二安全策略。

通过上述实施例，可以实时收集网络安全数据，构建一个包括网络攻击样本、安全情报和标准数据的安全数据集。智能体基于安全数据集自主学习和识别网络威胁和攻击模式，并制定出与之相匹配的安全策略。这个过程随着新网络数据的接收，会更新安全数据集，同时判断该新网络数据是否会对第一安全策略造成影响，从而决定是否需要构建新的安全策略。该方法提供了一种基于智能体的动态且自适应的安全策略调整机制，它能够根据实时网络状况变化快速响应，既提高了对新型攻击的识别能力，又提高了网络安全策略的实时性和精确性，从而增强了对复杂网络威胁的防御能力。

在一些实施例中，该实时收集各类网络安全数据构建安全数据集的步骤，具体包括：

对该网络安全数据进行数据清洗；

从清洗后的网络安全数据中选择与网络威胁检测相关的目标特征；

对该目标特征按照网络攻击样本、安全情报和标准数据进行分类标注，得到安全数据集。

通过上述实施例，可以在经过对收集到的各类网络安全数据进行数据清洗后，从中选择与网络威胁检测相关的特征，并对这些特征进行分类标注，形成结构化的安全数据集。提高了后续智能体学习和识别的效率及准确性。此外，将清洗和标注后的数据集为智能体提供了高质量的输入，有助于提高智能体在实际应用中识别威胁信息的能力，从而提升整个安全策略制定方法的有效性。

在一些实施例中，该基于安全数据集构建智能体的步骤，具体包括：

将该安全数据集划分为训练集、验证集和测试集；

将该训练集中提取的特征向量输入到该智能体中进行模型训练，得到每个输入样本的预测结果，使得该智能体可以从该输入样本中区分威胁行为和正常行为，该输入样本包括多个特征向量，该预测结果包括网络行为的分类和威胁级别；

使用该验证集和测试集对该智能体进行测试；

依据测试结果筛选出性能指标符合预设参数标准的智能体确定为需要构建的目标智能体。

通过上述实施例，可以将安全数据集划分为训练集、验证集和测试集，然后输入训练集的特征向量进行模型训练，以使智能体能区分威胁与正常行为，并对网络行为进行分类和威胁级别评估。再通过验证集和测试集对智能体的性能进行测试，筛选出性能符合预设参数的智能体。该方法确保了最终选用的智能体能准确反映和适应实际网络环境，提高了安全策略的有效性和智能体的实用性。

在一些实施例中，在该实时收集各类网络安全数据构建安全数据集的步骤之前，还包括：

通过自然语言处理技术对接收到的各类网络安全数据进行文本数据分析，得到第一处理数据；

通过图像识别技术解析该网络安全数据中的图像多媒体数据，得到第二处理数据；

将该第一处理数据和该第二处理数据集成得到用于构建安全数据集的该各类网络安全数据。

通过上述实施例，可以在实时收集网络安全数据构建安全数据集之前，采用自然语言处理和图像识别技术对接收到的网络安全数据进行分析处理。该方法可以协助智能体处理和理解多种数据类型和格式，从网络安全数据中提取更丰富、多维的信息，增强数据集的深度和广度，提高了对复杂网络环境的理解与适应能力。

在一些实施例中，在该基于安全数据集构建智能体的步骤之后，还包括：

接收其他智能体发送的共享信息，该共享信息为该其他智能体检测到的网络威胁信息；

在检测到新网络威胁信息后，将该新网络威胁信息共享给该其他智能体。

通过上述实施例，可以建立智能体间的协作机制，实现不同智能体之间的信息共享，提高了整个系统对新出现威胁的响应速度和适应性，从而增强了网络安全防御的及时性和有效性。

在一些实施例中，在该通过智能体构建适合当前网络环境和自身状态的第一安全策略的步骤之前，还包括：

接收用户输入的环境设定和需求设定；

通过该智能体构建适合该环境设定、需求设定和自身状态的第三安全策略。

通过上述实施例，可以在构建安全策略之前，考虑用户输入的环境设定和需求设定。使得智能体可以根据自身状态和用户需求正对性的构建安全策略，能够为不同用户或不同应用场景提供更为精细化的安全服务。在用户的需求得到更好的满足，智能体在构建策略时能更全面地考虑各种环境因素，提高了策略的适用性和有效性。

在一些实施例中，在该通过智能体构建适合当前网络环境和自身状态的第一安全策略的步骤之后，还包括：

在该智能体训练过程中使用解释性中间层，该解释性中间层用于显示该智能体进行特征提取和转换的过程；

使用模型可解释性工具对该智能体进行后处理分析，生成解释结果；

构建用户界面，显示该解释结果。

通过上述实施例，增强了智能体决策过程的透明度，使得用户可以理解智能体是如何提取特征和做出决策的。有助于提升用户对智能体和整个系统的信任度，有助于及时发现和纠正智能体的潜在问题，提高了系统的可靠性和用户满意度。

第二方面，本申请提供一种基于可自主进化智能体的安全策略制定系统，该系统包括：一个或多个处理器和存储器；该存储器与一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，该一个或多个处理器调用该计算机指令以使得该系统可以实现上述实施例提供的一种基于可自主进化智能体的安全策略制定方法，此处不再赘述。

第三方面，本申请提供一种计算机可读存储介质，包括指令，当该指令在系统上运行时，使得该系统可以实现上述实施例提供的一种基于可自主进化智能体的安全策略制定方法，此处不再赘述。

第四方面，本申请提供一种计算机程序产品，当该计算机程序产品在系统上运行时，使得该系统可以实现上述实施例提供的一种基于可自主进化智能体的安全策略制定方法，此处不再赘述。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、系统可以实时收集网络安全数据，构建安全数据集。智能体基于安全数据集自主学习和识别网络威胁和攻击模式，并制定出与之相匹配的安全策略。这个过程随着新网络数据的接收，会更新安全数据集，同时判断该新网络数据是否会对安全策略造成影响，从而决定是否需要构建新的安全策略。该方法提供了一种基于智能体的动态且自适应的安全策略调整机制，它能够根据实时网络状况变化快速响应，既提高了对新型攻击的识别能力，又提高了网络安全策略的实时性和精确性，从而增强了对复杂网络威胁的防御能力。

2、系统可以考虑用户输入的环境设定和需求设定，为用户提供更加个性化的安全解决方案，满足不同用户或不同业务场景的特定安全需求。此外，通过解释性中间层和模型可解释性工具，用户可以更容易地理解智能体如何处理数据、生成特征、做出决策。既提升用户对智能体和整个系统的信任度，又有助于及时发现和纠正智能体的潜在问题。

3、系统可以控制智能体之间共享网络威胁信息，形成一个集体防御网络。不仅加快了对新威胁的响应速度，还提高了整体的智能化水平，使得每个智能体都能从其他智能体的经验中学习和进步。

附图说明

图1是本申请实施例中一种基于可自主进化智能体的安全策略制定方法的一个流程示意图；

图2是本申请实施例中一种基于可自主进化智能体的安全策略制定方法的另一个流程示意图；

图3是本申请实施例中安全策略制定系统添加可解释性机制的一个流程示意图；

图4是本申请实施例中安全策略制定系统的一种功能模块结构示意图；

图5是本申请实施例中安全策略制定系统的一种实体装置结构示意图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指包含一个或多个所列出项目的任何或所有可能组合。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

为便于理解，下面介绍相关技术实施例的应用场景。

随着信息技术的快速发展，特别是云计算、物联网、大数据等技术的广泛应用，网络环境变得日趋复杂。互联网的高度互联互通带来了极大的便利，同时也暴露了许多安全隐患。网络攻击手段不断革新，如零日攻击、高级持续性威胁（APT）、分布式拒绝服务攻击（DDoS）和各类勒索软件层出不穷，对网络安全构成了前所未有的挑战。然而传统的网络安全防护方法，比如基于签名的入侵检测系统（IDS）和防火墙，主要依赖于已知的攻击特征和行为模式。这些方法在处理已知威胁时效果显著，但面对新型和变种攻击手段时，往往显得力不从心。此外，随着网络环境的日益复杂化，单一的安全策略和规则很难全面覆盖各种潜在的安全威胁。

为便于理解，下面结合上述场景，对本实施提供的方法进行流程叙述。请参阅图1，为本申请实施例中一种基于可自主进化智能体的安全策略制定方法的一个流程示意图。

S101、实时收集各类网络安全数据构建安全数据集。

系统持续不断地从多个渠道和来源搜集和获取与网络安全相关的数据，例如网络流量数据、主机日志、安全设备报警、漏洞信息、攻击事件报告等，并将这些异构、分散的数据进行集成和整合，最终形成一个结构化、标准化的网络安全大数据集合，并按照网络攻击样本、安全情报和标准数据进行分类后得到安全数据集。

例如，系统可以通过部署在关键网络节点上的流量镜像和数据采集工具实时捕获网络中传输的数据包，通过安全设备和主机上的日志收集代理实时推送系统、应用、设备产生的日志，通过订阅漏洞平台、接入威胁情报源、爬取安全社区等方式，持续获取最新的漏洞信息和网络威胁情报，并将采集到的流量数据、日志、威胁情报等异构数据，经过解析、清洗、关联、聚合、分类等一系列数据处理操作后得到安全数据集。

可以理解的是，上述安全数据集可以反映当前网络环境的安全状态，记录各类已知和未知的攻击活动，为智能体的模型训练提供基础的样本和特征。同时，安全数据集是动态增长、实时更新的，可以反映最新的网络安全事件和攻防动向，让智能体能够持续学习最新的攻击手段和安全知识，从而具备自我进化、与时俱进的能力。

S102、基于安全数据集构建智能体。

系统以步骤S101中获得的安全数据集为样本，通过机器学习算法训练一个能够自主学习、识别网络安全威胁的智能体（智能体模型）。具体地，系统首先对安全数据集进行预处理，从而提取流量统计特征、协议字段、行为序列、文本内容等多维度的威胁特征，并采用数据增强和样本均衡进行数据优化，从而构建高质量的训练集。然后，将训练集中的样本特征输入到设计的智能体模型中进行训练，使得到的智能体模型能够从大规模的安全数据中自动提取威胁特征，识别未知攻击模式，生成相应的安全策略。同时可以输出网络行为的分类结果和威胁级别。其中，分类结果可以是二分类（恶意/正常）、多分类（攻击类型）、异常检测（异常分值）等形式。再通过验证集和测试集完成训练的智能体模型进行测试，通过准确率、误报率等评价指标对智能体模型性能进行评估，选择表现最优的智能体模型。

S103、通过智能体构建适合当前网络环境和自身状态的第一安全策略。

在基于安全数据集构建智能体后，系统通过智能体自动生成与当前保护对象的网络环境和安全需求相匹配的第一安全策略。具体地，智能体首先感知和理解当前所要保护的网络环境的具体特点，如网络拓扑、资产分布、业务系统、安全风险等。再通过收集系统检测到的或管理员提供的网络结构图、资产清单等环境信息，分析潜在威胁，评估可能的安全风险，识别出最关键、最有可能受到威胁的防护重点。例如，智能体分析了当前网络环境，发现了异常的登录尝试增多的情况。基于这一发现，它构建了一项安全策略，该策略包括启用双因素认证并设置额外的登录尝试次数限制。

S104、在接收到新网络数据后，依据新网络数据与安全数据集的信息匹配结果更新安全数据集。

系统实时接收采集到的新网络安全数据，如新的流量、日志、事件等，在检测到新网络数据后，将该新网络数据与原有的安全数据集中的数据进行匹配对比，识别出与安全数据集中已有数据不同的新威胁、新攻击特征，用识别出的新威胁、新攻击特征对原始的安全数据集进行扩充更新，使安全数据集能够与网络环境的变化同步，不多获取最新的网络防护安全知识。

例如，系统每采集到一批新网络数据，就会提取其特征，将提取到的特征向量与安全数据集中现有样本的特征进行相似度匹配。如果新样本能够匹配到已有类别的特征，说明该新网络数据符合已知威胁或正常行为的模式，没有录入价值，不进行录入处理。如果新样本与所有已有特征的相似度低于预设相似度阈值，则判定该新样本一种新的威胁变种或未知攻击，系统自动将这些新样本补充到安全数据集相应的类别中。

当然，由于网络环境是动态变化的，原本的正常行为有可能演变为异常威胁，原有的恶意特征可能已失效。因此，除了新增数据外，系统还会定期对安全数据集中的数据进行清理，删除过时失效的样本数据。比如可以自动统计样本的时间戳分布，对超过一定期限的样本进行定期清理，此处不作限定。

S105、判断新网络数据是否对第一安全策略造成影响。

系统在接收到新网络安全数据后，一方面会依据新网络数据与安全数据集的信息匹配结果更新安全数据集，另一方面会评估该新网络数据是否对已有的第一安全策略造成影响。

具体地，系统基于更新的安全数据集，重新评估环境的安全状态和风险等级，判断是否出现了新的威胁。一方面，系统利用新数据集中的最新攻击样本，对现有安全策略防御模型进行重新验证，评估其对新威胁变种的检测命中率、误报率等性能是否满足预设参数要求，若不符合预设参数要求则判定现有策略（第一安全策略）可能已不适用。另一方面，系统持续收集受防范对象的资产信息、网络连接、业务应用的变化，评估现有安全域划分、访问控制规则等是否仍与新的网络环境相匹配，如内部区域边界调整、新业务系统上线等环境变化都可能导致原有策略的配置错误或保护范围不足。

例如，当系统通过新网络数据识别出一种新的勒索软件变种时，发现原有基于文件特征、行为检测的防御策略无法有效检测和阻断该变种的加密行为，导致仍有较高比例的成功感染事件发生，说明现有策略（第一安全策略）已经失效。

S106、对新网络数据的攻击路径进行预警记录。

系统在检测到采集的新网络数据并未对现有安全策略造成影响，现有防御措施对其攻击路径仍然有效后，系统会将提取新网络数据对应的攻击路径信息，并以预警的方式对攻击路径信息进行记录存档，供未来策略分析和安全事件调查时参考。

可以理解的是，攻击路径是指攻击者从初始入侵到最终达成目标的详细行动步骤，如对外攻击的来源IP、利用的漏洞、渗透的途径、提升的权限、窃取或破坏的目标等关键攻击事件的时序关联信息。通过分析攻击路径，可以洞察攻击者的真实意图、手法、能力，评估攻击的危害性，找到攻防对抗的关键节点，为未来完善防御策略、及时阻断入侵提供决策支持。

S107、依据更新后的安全数据集构建第二安全策略。

系统在检测到采集的新网络数据可能导致原有安全策略的失效时，将自动触发策略的重构程序，重新执行步骤S104，更新优化后的安全数据集调整智能体，进而生成一套适应了新威胁形势的第二安全策略，以替代原有的第一安全策略，从而修复防御体系的漏洞。

例如，当智能体识别出新出现的勒索软件变种特征后，首先将相应的变种样本及其最新攻击手法加入到安全数据集，更新安全数据集中网络攻击样本数据集。然后重新使用该安全数据集训练原有的智能体模型，使其学习适应新变种的检测规则，利用更新后的智能体得到新的安全策略。

下面对本实施提供的方法进行进一步的更具体的流程叙述。请参阅图2，为本申请实施例中一种基于可自主进化智能体的安全策略制定方法的另一个流程示意图。

S201、通过自然语言处理技术和图像识别技术对接收到的网络安全数据进行分析处理。

系统在实时收集各类网络安全数据构建安全数据集之前，会对接收到的原始的非结构化网络安全数据进行预处理和特征提取，得到得到用于构建安全数据集的所述各类网络安全数据。具体地，系统通过自然语言处理技术对接收到的各类网络安全数据进行文本数据分析，得到第一处理数据。再通过图像识别技术解析网络安全数据中的图像多媒体数据，得到第二处理数据。再将第一处理数据和第二处理数据集成得到用于构建安全数据集的各类网络安全数据。

可以理解的是，由于网络安全数据的来源和形式多种多样，除了传统的结构化数据如流量、日志外，还包括大量的非结构化数据，如自然语言文本(如安全事件描述、威胁情报报告等)、图像多媒体(如网络拓扑图、恶意样本截图等)等。直接处理原始异构数据，不仅计算复杂度高，且难以提取有效特征。因此系统采用自然语言处理和图像识别等技术对这些非结构化数据进行语义理解、关键信息抽取，转化为计算机可以理解、学习的结构化特征，便于后续构建高质量的安全数据集。

例如，对于自然语言文本数据，系统利用自然语言处理技术中的分词、词性标注、命名实体识别、句法分析、语义角色标注等算法，自动抽取文本中的关键词、词组、识别IP地址、域名、文件名称、漏洞编号等关键实体信息，并分析实体间的语义关系，从而理解文本语义、获取事件的时间、地点、对象、行为等要素。比如从“2021年5月18日，内部员工电脑（IP:192.168.1.10）访问未知网站（xyz.com）后感染‘WannaCry’勒索软件，数据库服务器的多个数据表被加密”这段描述中，系统可自动提炼出事件发生的时间（2021年5月18日）、攻击对象（员工电脑，IP:192.168.1.10)、攻击途径(访问xyz.com)、攻击者(未知)、攻击手段(WannaCry勒索软件)、破坏结果(数据库被加密)等结构化要素。

或者，对于图像类数据如网络拓扑图，系统利用图像识别技术，如图像分割、目标检测、图像分类等算法，自动检测识别出图中的网络设备节点(如交换机、路由器、服务器、终端)、连接线以及设备的厂商型号、IP地址、所属网段等属性标注信息，通过关系分析后抽象出网络环境的结构化表示。

通过上述实施例，系统可以在实时收集网络安全数据构建安全数据集之前，采用自然语言处理（NLP）和图像识别技术对接收到的网络安全数据进行分析处理。该方法可以协助智能体处理和理解多种数据类型和格式，从网络安全数据中提取更丰富、多维的信息，增强数据集的深度和广度，提高了对复杂网络环境的理解与适应能力。

S202、从清洗后的网络安全数据中选择与网络威胁检测相关的目标特征。

在对网络安全数据进行数据清洗后，系统从高维度的网络安全数据中识别筛选出对网络威胁检测最有价值、最具区分度的目标特征。例如，对于流量数据，可以通过熵值计算来评估数据包负载的随机性，识别可能存在的数据加密、混淆行为特征设置为目标特征；对于系统日志，可分析登录时间、地点分布的异常程度，识别出可疑的异地登录、非工作时间操作行为设置为目标特征，此处不作限定。

S203、对目标特征进行分类标注，得到安全数据集。

系统在筛选出威胁相关的目标特征集后，按照按照网络攻击样本、安全情报和标准数据对目标特征进行分类标注，即确定每个特征样本所代表的实际安全语义，如恶意软件家族、攻击阶段、威胁级别等，从而使原本无序的特征集转化为带有明确安全标签的结构化数据集，即安全数据集。

通过上述实施例，系统可以在经过对收集到的各类网络安全数据进行数据清洗后，从中选择与网络威胁检测相关的特征，并对这些特征进行分类标注，形成结构化的安全数据集。提高了后续智能体学习和识别的效率及准确性。此外，将清洗和标注后的数据集为智能体提供了高质量的输入，有助于提高智能体在实际应用中识别威胁信息的能力，从而提升整个安全策略制定方法的有效性。

S204、使用训练集对智能体进行模型训练，使得智能体可以从输入样本中区分威胁行为和正常行为，进而得到每个输入样本的预测结果。

系统在完成对安全数据集的分类标注后，利用其中的训练集样本，通过机器学习算法训练智能体模型，使智能体模型可以学习到威胁行为的判别规则，从而具备对未知数据的分类预测能力。

具体地，系统随机从将训练集选择一定数量的特征向量和对应安全标签输入智能模型，模型内部通过调整各向量特征的权重系数，学习标签背后隐含的复杂判别规则。比如对某勒索软件样本，模型学到该家族的文件加密、内存驻留、C&C通信等特征组合往往预示着勒索行为。然后，在从训练集中选择一定数量的另一批特征向量输入到智能体模型中进行预测得到标签，通过将预测标签与特征向量的真实标签进行比较，依据损失函数(如交叉熵)来评估预测偏差，并依据预测偏差结果对智能体模型内部权重进行调整修正。如此不断重复迭代，使模型在最小化预测偏差和训练目标函数(如分类准确率)的方向上不断优化。

S205、使用验证集和测试集对智能体进行测试，筛选出性能指标符合预设参数标准的目标智能体。

系统在获得训练完成的智能体模型后，利用前面预留的验证集和测试集对模型性能进行评估测试，根据评估结果筛选出综合性能最优的智能体模型，以投入实际应用。例如，系统设置终端防病毒引擎的智能体模型选择标准为“检测准确率≥95%且误报率≤1%且每秒检测PE文件≥5000个”，然后利用10000个PE文件构成的测试集对候选智能体进行测试，结果发现A、B、C三个智能体的综合性能分别为“98%、1.5%、6000”、“96%、0.8%、4500”、“94%、0.5%、7000”，最终系统选择兼顾三项指标的B智能体作为最优模型。

S206、与其他智能体之间进行信息共享。

系统接收其他智能体发送的共享信息，并在检测到新网络威胁信息后，将新网络威胁信息共享给其他智能体。具体地，在多个智能体协同工作的场景下，每个智能体不仅利用自身的检测接收到的网络安全数据开展安全防御，还通过相互通信共享各自掌握的威胁情报信息，形成集群智能，提升整个系统的威胁感知和协同防御能力。共享的信息包括但不限于新发现的恶意软件样本、针对性攻击的IOC指标、C&C通信地址、僵尸网络分布等威胁情报数据，此处不作限定。

通过上述实施例，系统可以建立智能体间的协作机制，实现不同智能体之间的信息共享，提高了整个系统对新出现威胁的响应速度和适应性，从而增强了网络安全防御的及时性和有效性。

S207、通过智能体构建适合用户环境设定、用户需求设定和自身状态的第三安全策略。

系统在通过智能体构建安全策略时，会依据用户环境设定、用户需求设定和自身状态来综合确定第三安全策略。例如某金融企业用户的网络环境中，终端数量众多且地域分散，员工使用的移动终端和个人设备较多，因此面临的数据泄露风险和网络边界防护压力较大。同时由于该企业需要频繁发布金融APP客户端，因此对代码安全审计、私有应用商店安全运营也提出了更高要求。智能体充分理解用户的这些特定安全诉求后，在原有终端管控和边界防护策略的基础上，进一步增加了针对移动终端的盘点识别、越狱检测、设备认证等安全策略。并根据企业内实际网络区划调整了边界防护的纵深部署方案，优化了针对金融APP的源代码审计规则、私有应用商店的恶意软件检测机制。通过综合用户的客观网络环境和主观安全需求，智能体有的放矢地量身定制出更有针对性的第三安全策略。

通过上述实施例，系统可以在构建安全策略之前，考虑用户输入的环境设定和需求设定。使得智能体可以根据自身状态和用户需求正对性的构建安全策略，能够为不同用户或不同应用场景提供更为精细化的安全服务。在用户的需求得到更好的满足，智能体在构建策略时能更全面地考虑各种环境因素，提高了策略的适用性和有效性。

下面对本实施提供的方法进行进一步的更具体的流程叙述。请参阅图3，为本申请实施例中安全策略制定系统添加可解释性机制的一个流程示意图。

S301、在智能体训练过程中使用解释性中间层。

系统在智能体模型训练过程中，可以在神经网络某些层之间设计一些具有明确物理意义的解释性中间层，从而通过该解释中间层实现用用户可理解的概念语言来描述网络各层的特征提取过程，展示网络内部的决策逻辑，建立起输入空间、特征空间、输出空间之间的可解释映射，在不显著损失性能的同时，实现对智能体模型行为的可控、可解读。

S302、使用模型可解释性工具对智能体进行后处理分析，生成解释结果。

系统还可以利用各种事后分析和可视化工具，如SHAP（机器学习模型解释可视化工具），对训练完成的智能体模型进行透视和解构，挖掘内部知识表示和决策逻辑，生成直观易懂的解释分析报告，便于用户解读和质疑模型判决结果。

S303、构建用户界面，显示解释结果。

可以理解的是，可解释性分析得到的各种解释报告、可视化结果一般需要通过友好易懂的用户界面向使用者进行清晰明了的呈现和交互，让用户不仅能看懂每项安全决策的选择过程，也能据此提出质疑、反馈意见，参与安全决策的人机协同优化，真正赋予用户安全管控的主动权。

例如，针对某起疑似内部数据泄露事件，用户通过追踪模型的热力图分析，发现系统重点关注的是涉事员工的社交网络互动行为，但对文件资产的敏感等级关注不足，与用户习惯的分析思路有所不同。经分析用户认为，对于该类事件，数据本身的敏感性是更加关键的风险维度，因此通过界面中的策略配置功能，将文件资产维度的特征权重调高，社交行为维度权重调低，随后重新触发了智能体模型判定。调整后的智能体模型不仅预警更加精准，解释结果也更符合用户的日常经验。

通过上述实施例，系统增强了智能体决策过程的透明度，使得用户可以理解智能体是如何提取特征和做出决策的。有助于提升用户对智能体和整个系统的信任度，有助于及时发现和纠正智能体的潜在问题，提高了系统的可靠性和用户满意度。

下面对本申请实施例提供的安全策略制定系统进行描述，该安全策略制定系统可以实现上述一种基于可自主进化智能体的安全策略制定方法，具体如图4所示，是本申请实施例中安全策略制定系统的一个模块结构示意图，具体包括：

数据集构建模块401，用于实时收集各类网络安全数据构建安全数据集，该安全数据集包括网络攻击样本、安全情报和标准数据；

智能体构建模块402，用于基于安全数据集构建智能体，该智能体可以自主地学习和识别安全数据集中网络威胁和攻击模式，确定相匹配的安全策略；

第一安全策略确定模块403，用于通过智能体构建适合当前网络环境和自身状态的第一安全策略；

数据集更新模块404，用于在接收到新网络数据后，依据新网络数据与安全数据集的信息匹配结果更新安全数据集；

影响判断模块405，用于判断新网络数据是否对所述第一安全策略造成影响；

预警记录模块406，用于对新网络数据的攻击路径进行预警记录；

第二安全策略确定模块407，用于依据更新后的安全数据集重新构建第二安全策略。

在一些实施例中，上述数据集构建模块401还包括：

目标特征提取单元，用于对网络安全数据进行数据清洗，该数据清洗包括去除无关数据，处理缺失值，规范化数据格式；从清洗后的网络安全数据中选择与网络威胁检测相关的目标特征；

数据集构建单元，用于对目标特征按照网络攻击样本、安全情报和标准数据进行分类标注，得到安全数据集。

在一些实施例中，上述智能体构建模块402还包括：

智能体训练单元，用于将安全数据集划分为训练集、验证集和测试集；将训练集中提取的特征向量输入到智能体中进行模型训练，得到每个输入样本的预测结果，使得智能体可以从输入样本中区分威胁行为和正常行为，该输入样本包括多个特征向量，该预测结果包括网络行为的分类和威胁级别；

智能体测试单元，用于使用验证集和测试集对智能体进行测试，依据测试结果筛选出性能指标符合预设参数标准的智能体确定为需要构建的目标智能体。

在一些实施例中，上述安全策略制定系统还包括：

网络数据处理模块，用于通过自然语言处理技术对接收到的各类网络安全数据进行文本数据分析，得到第一处理数据；通过图像识别技术解析网络安全数据中的图像多媒体数据，得到第二处理数据；将第一处理数据和第二处理数据集成得到用于构建安全数据集的各类网络安全数据；

信息共享模块，用于接收其他智能体发送的共享信息，该共享信息为其他智能体检测到的网络威胁信息；在检测到新网络威胁信息后，将新网络威胁信息共享给其他智能体；

环境和需求设定模块，用于接收用户输入的环境设定和需求设定；通过智能体构建适合环境设定、需求设定和自身状态的第三安全策略；

解释分析模块，用于在智能体训练过程中使用解释性中间层，该解释性中间层用于显示智能体进行特征提取和转换的过程；使用模型可解释性工具对智能体进行后处理分析，生成解释结果；构建用户界面，显示解释结果。

本发明实施例的安全策略制定系统为电子设备，图5示出了适于用来实现本发明实施例的电子设备的架构示意图。

需要说明的是，图5示出的电子设备仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令(计算机程序)来完成，或通过指令(计算机程序)控制相关的硬件来完成，该指令可以存储于计算机可读存储介质中，并由处理器进行加载和执行。本实施例的电子设备包括存储介质和处理器，其中，存储介质中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供方法的任一步骤。

具体地，存储介质和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条信号线电性连接。存储介质中存储有实现数据访问控制方法的计算机执行指令，包括至少一个可以软件或固件的形式存储于存储介质中的软件功能模块，处理器通过运行存储在存储介质内的软件程序以及模块，从而执行各种功能应用以及数据处理。存储介质可以是，但不限于，随机存取存储介质(RandomAccessMemory，简称：RAM)，只读存储介质(ReadOnlyMemory，简称：ROM)，可编程只读存储介质(ProgrammableRead-OnlyMemory，简称：PROM)，可擦除只读存储介质(ErasableProgrammableRead-OnlyMemory，简称：EPROM)，电可擦除只读存储介质(ElectricErasableProgrammableRead-OnlyMemory，简称：EEPROM)等。其中，存储介质用于存储程序，处理器在接收到执行指令后，执行程序。

进一步地，上述存储介质内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等，其可以实现或者执行本实施例中公开的各方法、步骤及逻辑流程框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一方法中的步骤，因此，可以实现本发明实施例所提供的任一方法的有益效果，详见前面的实施例，在此不再赘述。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于可自主进化智能体的安全策略制定方法，其特征在于，包括：

实时收集各类网络安全数据构建安全数据集，所述安全数据集包括网络攻击样本、安全情报和标准数据；

基于所述安全数据集构建智能体，所述智能体具备自主地学习和识别所述安全数据集中网络威胁和攻击模式，确定相匹配的安全策略的功能；

通过所述智能体构建适合当前网络环境和自身状态的第一安全策略；

在接收到新网络数据后，依据所述新网络数据与所述安全数据集的信息匹配结果更新所述安全数据集；

判断所述新网络数据是否对所述第一安全策略造成影响；

若否，则对所述新网络数据的攻击路径进行预警记录；

若是，则依据更新后的所述安全数据集构建第二安全策略。

2.根据权利要求1所述的方法，其特征在于，所述实时收集各类网络安全数据构建安全数据集的步骤，具体包括：

对所述网络安全数据进行数据清洗；

从清洗后的所述网络安全数据中选择与网络威胁检测相关的目标特征；

对所述目标特征按照网络攻击样本、安全情报和标准数据进行分类标注，得到安全数据集。

3.根据权利要求1所述的方法，其特征在于，所述基于安全数据集构建智能体的步骤，具体包括：

将所述安全数据集划分为训练集、验证集和测试集；

将所述训练集中提取的特征向量输入到所述智能体中进行模型训练，得到每个输入样本的预测结果，使得所述智能体可以从所述输入样本中区分威胁行为和正常行为，所述输入样本包括多个特征向量，所述预测结果包括网络行为的分类和威胁级别；

使用所述验证集和测试集对所述智能体进行测试；

4.根据权利要求1所述的方法，其特征在于，在所述实时收集各类网络安全数据构建安全数据集的步骤之前，还包括：

通过图像识别技术解析所述网络安全数据中的图像多媒体数据，得到第二处理数据；

将所述第一处理数据和所述第二处理数据集成得到用于构建安全数据集的所述各类网络安全数据。

5.根据权利要求1所述的方法，其特征在于，在所述基于安全数据集构建智能体的步骤之后，还包括：

接收其他智能体发来的共享信息，所述共享信息为所述其他智能体检测到的网络威胁信息；

在检测到新网络威胁信息后，将所述新网络威胁信息共享给所述其他智能体。

6.根据权利要求1所述的方法，其特征在于，在所述通过智能体构建适合当前网络环境和自身状态的第一安全策略的步骤之前，还包括：

接收用户在终端输入的环境设定和需求设定；

通过所述智能体构建适合所述环境设定、需求设定和自身状态的第三安全策略。

7.根据权利要求1所述的方法，其特征在于，在所述通过智能体构建适合当前网络环境和自身状态的第一安全策略的步骤之后，还包括：

在所述智能体训练过程中使用解释性中间层，所述解释性中间层用于显示所述智能体进行特征提取和转换的过程；

使用模型可解释性工具对所述智能体进行后处理分析，生成解释结果；

构建用户界面，显示所述解释结果。

8.一种基于可自主进化智能体的安全策略制定系统，其特征在于，所述系统包括：一个或多个处理器和存储器；所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述系统执行如权利要求1-7中任一项所述的方法。

9.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在系统上运行时，使得所述系统执行如权利要求1-7中任一项所述的方法。

10.一种计算机程序产品，其特征在于，当所述计算机程序产品在系统上运行时，使得所述系统执行如权利要求1-7中任一项所述的方法。