CN114553533B

CN114553533B - 一种协议脆弱性评测方法、设备及存储介质

Info

Publication number: CN114553533B
Application number: CN202210161960.0A
Authority: CN
Inventors: 董伟; 冯志; 吕乐乐; 李致成; 赵云飞; 张雅勤; 李仕奇; 兰培霖; 孟贵民; 蒋彦钊; 赵云泽; 付笑; 夏泽虹
Original assignee: 6th Research Institute of China Electronics Corp
Current assignee: 6th Research Institute of China Electronics Corp
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2024-03-01
Anticipated expiration: 2042-02-22
Also published as: CN114553533A

Abstract

本申请提供了一种协议脆弱性评测方法、设备及存储介质，应用于计算机通信技术领域，该方法包括：根据目标协议身份认证过程中的数据报文和身份认证机制，构建协议交互仿真环境；运用攻击者模型设置模糊体的模糊策略；将目标协议身份认证过程产生的协议实体状态信息和预设模糊体的模糊策略输入到强化学习模型中进行模型训练，得到优化后的强化学习模型；根据奖励函数计算优化后的强化学习模型在不同训练回合的平均奖励值和模糊体的胜利概率值；根据计算的平均奖励值和胜利概率值对协议交互脆弱性进行评测分析。本申请的有益效果运用优化后的强化学习模型，可对目标身份认证机制相关协议脆弱性进行智能识别，且有助于发掘更深层次的新型协议漏洞。

Description

一种协议脆弱性评测方法、设备及存储介质

技术领域

本申请涉及计算机通信技术领域，具体而言，涉及一种协议脆弱性评测方法、设备及存储介质。

背景技术

工业控制系统作为国家关键基础设施的重要组成部分，当前新技术应用加速发展，产业改革持续推进，使得工业互联网技术不断突破，但同时其面临的信息安全问题日益增多，遭受网络攻击破坏的门槛逐步降低，目前工业控制过程、控制软件中主要注重功能安全，并且基于IT和OT技术相对隔离，为了满足工业控制系统实时性和高可靠性需求，对于身份认证、传输加密、授权访问等方面安全功能进行极大地弱化甚至丢弃，导致工业控制系统面临极大的控制安全风险。

当前工控系统逐渐与因特网互联，网络环境复杂多样，并且协议身份认证流程中存在不确定性，难以保证通信实体之间认证的安全性，协议执行过程中一个微小的漏洞也有可能将用户的敏感信息暴露给攻击者，如果入侵者以操作员站或工程师站的身份接入PLC,则可能会对PLC造成恶意代码植入、恶意操控和侦察式破环等高危持续性威胁(APT)，通信协议中有效认证授权存在的安全威胁越来越严重，因此对协议进行脆弱性识别研究成为不可或缺的一个重要方向，对通信协议中的认证授权进行脆弱性识别具有重要的现实意义。

协议脆弱性识别也叫协议漏洞挖掘(Protocol Vulnerability Mining)技术，即发现计算机系统在协议的设计、实现过程中存在的缺陷或不足，在近年来提出了多种研究和分析协议脆弱性的方法，用于检查协议是否具有逻辑缺陷，判断协议最终能否达到预期的设计目标，其中，形式化分析是比较成熟且具有代表性的理论工具，形式化方法使用形式化语言描述攻击、建立抽象模型，并按照规定的假设，使用分析、验证方法证明协议的安全性，本质上是将严格的数学逻辑推理应运于各种软硬件系统开发、协议的描述以及安全特性的验证过程。

形式化分析方法虽然基于公理体系和推理规则，但其分析过程却是不严格的，目前有的方法已经成功发现了许多安全协议的设计漏洞，但是现有的形式化工具仍然难以实现协议脆弱性的自动化检测与识别，绝大多数工具需要人为参与，尤其针对复杂协议。

ProVerif形式化验证工具和AVISPA形式化验证工具为了解决这些问题，其对协议进行了一定程度的抽象，从而可以支持更多的无线会话，在此过程中，协议规范所描述的协议消息、协议步骤、协议实体之间关联关系的细节被简化，造成协议推演停留在比较抽象的层次上，而这些细节对于分析协议的安全属性是很重要的，协议规范细节描述的缺失影响了协议分析方法的准确性；其次，因为不能进行有针对性的搜索，对于复杂交互的协议，形式化路径随着分支数量的增加而出现指数级增长，覆盖率增长缓慢，所以无法避免状态空间爆炸问题。

发明内容

有鉴于此，本申请实施例提供了一种协议脆弱性评测方法，运用优化后的强化学习模型，可对目标身份认证机制相关协议脆弱性进行智能识别，且有助于发掘更深层次的新型协议漏洞。

第一方面，本申请实施例提供了一种协议脆弱性评测方法，包括：

根据目标协议身份认证过程中的数据报文和身份认证机制，构建协议交互仿真环境；

在构建的协议交互仿真环境下，运用攻击者模型设置模糊体的模糊策略，其中，所述模糊体包含认证客户端和认证用户；

将目标协议身份认证过程产生的协议实体状态信息和预设模糊体的模糊策略输入到强化学习模型中进行模型训练，得到优化后的强化学习模型；

根据奖励函数计算优化后的强化学习模型在不同训练回合的平均奖励值和计算模糊体的胜利概率值；

根据计算的所述平均奖励值和所述胜利概率值对协议交互脆弱性进行评测分析。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，根据目标协议身份认证过程的数据报文和身份认证机制，构建协议交互仿真环境，包括：

从目标协议身份认证过程中数据报文和先验知识中，分析出身份认证机制；

根据所述身份认证机制，确定出目标协议身份认证的关键数据参数和协议实体对象；

对所述关键数据参数的格式和时序规范进行分析处理，确定符合目标协议交互预期的分析结果；

根据所述目标协议交互预期的分析结果构建协议交互仿真环境。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，其中，在构建的协议交互仿真环境下，运用攻击者模型设置模糊体的模糊策略，包括：

所述模糊体的初始知识库中存储有：协议交互消息的标识报文类型、加密公钥、解密私钥、协议交互规则等；

运用攻击者模型按照初始知识库的协议交互规则，设置模糊体的模糊策略。

结合第一方面的第一种可能的实施方式或第二种可能的实施方式，本申请实施例提供了第一方面的第三种可能的实施方式，其中，将目标协议身份认证过程产生的协议实体状态信息和预设模糊体的模糊策略输入到强化学习模型中进行模型训练，得到优化后的强化学习模型，包括：

所述强化学习模型按照Metropolis准则函数，根据目标协议身份认证过程中协议实体在当前状态下选择不同动作的Q值，预测当前目标协议交互状态下的模糊策略；

智能体按照如下公式，从目标协议交互状态下模糊策略中选择交互动作，以及选择交互动作的概率公式为：

其中，Q(s，a_r)表示随机选择交互动作Q值，Q(s，a_g)表示基于贪心策略选择交互动作的Q值，Temperature表示退火温度值；并按照几何比例因子准则递减温度变化，所述温度变化的具体公式为：

T_k+1＝λT_k k＝0，1，2，......，λ∈(0.5，1)。

结合第一方面的第一种可能的实施方式或第二种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，其中，从当前协议交互状态下模糊策略中选择交互动作，还包括：

在所述强化学习模型中，设定ε值为随机值，数值区间在[0，1]上；

如果P(a|s)＜ε，则选择贪心策略的交互动作a_g，否则选择随机的交互动作a_r，其中，P(a|s)表示选择交互动作的概率。

结合第一方面的第一种可能的实施方式或第二种可能的实施方式，本申请实施例提供了第一方面的第五种可能的实施方式，其中，完成选择交互动作后，包括：

在当前协议交互状态下选择交互动作结束后，将最新模糊体的协议实体状态信息输入到所述强化学习模型中进行模型训练，得到优化后的强化学习模型，其中，模糊体的协议实体状态信息采用四元组表示，分别为协议交互阶段、接收的数据报文集合、模糊体的自身状态和当前环境整体交互状态。

结合第一方面的第一种可能的实施方式或第二种可能的实施方式，本申请实施例提供了第一方面的第六种可能的实施方式，其中，针对优化后的强化学习模型，具体包括：

优化后的强化学习模型根据最新模糊体状态和环境状态信息，设置模糊体与其他协议实体交互过程状态下的模糊策略动作，生成一个新的动作序列环境，其中，所述模糊策略动作包含连接对象和攻击方式。

结合第一方面的第一种可能的实施方式或第二种可能的实施方式，本申请实施例提供了第一方面的第七种可能的实施方式，其中，根据奖励函数计算优化后的强化学习模型在不同训练回合的平均奖励值和计算模糊体的胜利概率值，包括：

当模糊体的选择交互动作达到下一个状态节点时，根据奖励函数计算优化后的强化学习模型中新生成协议实体状态的平均奖励值；其中，计算平均奖励值的公式为：

rward_all+＝temp*100*phase(fuzzy body)*Scale factor

Mean_reward＝reawrad_all/episodes

其中，phase(fuzzy body)表示模糊体利用模糊策略进行协议交互的第几个阶段，Scale factor表示折扣因子，取值为0.6，reawrad_all/episodes表示奖励值所包含的所有事件，Mean_reward表示计算的平均奖励值；采用多回合制方式，根据每一次的选择交互动作与外界环境交互计算反馈结果，并根据计算结果更新模糊策略动作，按照如下公式计算模糊策略动作的Q 值和更新：

Q_t(s_t，a_t)＝Q_t(s_t，a_t)+α(R_t+1+γmax_aQ(s_t+1，a)-Q(s_t，a_t))；

在一次训练回合结束后，如果所述模糊体发现攻击路径代表一次胜利，则根据训练过程中胜利次数的总和与总的回合数的比值，计算胜利概率值，具体计算公式为：

Success rate＝num_succ/num_all；

满足停止条件后，根据当前协议交互状态下模糊体的模糊策略动作对协议交互脆弱性进行评测分析。

第三方面，本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述中任一项的协议脆弱性评测方法步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如协议脆弱性评测方法步骤。

本申请实施例提供的一种协议脆弱性评测方法，基于强化学习策略，通过多次迭代实现协议交互逻辑漏洞的高效挖掘，与现有技术采用形式化工具对协议脆弱性的自动化检测与识别相比，本方案能够有效产生多元化路径，对协议脆弱性进行有效识别检测；本方法根据目标协议身份认证过程中的数据报文和身份认证机制，构建协议交互仿真环境；在构建的协议交互仿真环境下，运用攻击者模型设置模糊体的模糊策略；将目标协议身份认证过程产生的协议实体状态信息和预设模糊体的模糊策略输入到强化学习模型中进行模型训练，得到优化后的强化学习模型；根据奖励函数计算优化后的强化学习模型在不同训练回合的平均奖励值和计算模糊体的胜利概率值；根据计算的平均奖励值和胜利概率值对协议交互脆弱性进行评测分析。具体来说，根据工业控制系统协议身份认证过程中的数据报文和报文规范，分析出身份认证机制，构建协议交互仿真环境，在构建的协议交互仿真环境下，在模糊体交互过程中设置模糊策略，作为协议交互的复杂动力源，将协议身份认证过程产生的协议实体状态信息和模糊体的模糊策略对强化学习模型进行训练，得到优化后的强化学习模型，运用优化后的强化学习模型计算模型不同训练回合的平均奖励值，以及根据训练过程中胜利次数的总和与总的回合数的比值，计算胜利概率值，该计算结果作为当前协议交互状态下模糊体的模糊策略动作，根据模糊体的模糊策略动作对模糊体的各协议实体正常交互行为中可能存在脆弱性攻击的异常行为进行智能识别，有助于发掘更深层次的协议漏洞，同时实现对协议本体进行漏洞识别，运用优化后的强化学习模型识别结果比较稳定、不随应用变化，而且通用、影响范围大，模型验证过程对攻守双方的后续研究可提供理论上的技术支持。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种协议脆弱性评测方法的流程示意图。

图2示出了本申请实施例所提供的一种协议脆弱性评测方法中实施原理的流程示意图。

图3示出了本申请实施例所提供的一种协议脆弱性评测方法中构建协议交互仿真环境的流程示意图。

图4示出了本申请实施例所提供的一种协议脆弱性评测方法中设置模糊体的模糊策略流程示意图。

图5示出了本申请实施例所提供的一种协议脆弱性评测方法中对强化学习模型中进行模型训练的流程示意图。

图6示出了本申请实施例所提供的一种协议脆弱性评测方法中计算平均奖励值和计算胜利概率值的流程示意图。

图7示出了本申请实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到工控系统逐渐与因特网互联，网络环境复杂多样，难以保证通信实体之间认证的安全性；基于此，本申请实施例提供了一种协议脆弱性评测方法，下面通过实施例进行描述。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

图1示出了本申请实施例所提供的一种协议脆弱性评测方法流的流程示意图；如图1所示，具体包括以下步骤：

步骤S10，根据目标协议身份认证过程中的数据报文和身份认证机制，构建协议交互仿真环境。

步骤S10在具体实施时，工业自动控制系统的认证用户通过编程接口与网络认证客户端建立协议连接后，通过抓取工具获取目标协议身份认证过程中的数据报文，根据网络分析软件对数据报文进行解析处理，解析后得到目标协议的请求报文和响应报文，再结合先验知识，分析出目标协议的身份认证机制，根据目标协议身份认证过程中的数据报文和身份认证机制，构建协议交互仿真环境，及采用Python编程语言进行建模。

步骤S20，在构建的协议交互仿真环境下，运用攻击者模型设置模糊体的模糊策略，其中，模糊体包含认证客户端和认证用户。

步骤S20在具体实施时，在构建的协议交互仿真环境下，模糊体可以截获和重组消息，并以其他协议实体身份发起会话，模糊体中拥有一个初始知识库，当协议的模糊体主动发起连接请求时，判断模糊体的请求消息中的知识项，如果请求消息未加密，则将请求消息中的知识项保存至初始知识库中；如果请求消息部分加密或全部加密，则对请求消息进行解密处理，并将解密后的消息密文保存至初始知识库中，及将无法解密的消息密文整体保存至初始知识库中，运用攻击者模型设置模糊体的模糊策略，其中，模糊体以其他协议实体身份发起会话时可以为多个。

步骤S30，将目标协议身份认证过程产生的协议实体状态信息和预设模糊体的模糊策略输入到强化学习模型中进行模型训练，得到优化后的强化学习模型。

步骤S30在具体实施时，将目标协议身份认证过程产生的协议实体状态信息输入到强化学习模型中，强化学习模型按照Metropolis准则函数搜索目标协议身份认证过程产生的协议实体状态信息所对应的交互动作，预测当前目标协议交互状态下的模糊策略，采用智能体从目标协议交互状态下模糊策略中选择交互动作，当前协议交互状态下选择交互动作结束后，将最新的糊体的协议实体状态信息输入到强化学习模型中进行模型训练，得到优化后的强化学习模型。

步骤S40，根据奖励函数计算优化后的强化学习模型在不同训练回合的平均奖励值和计算模糊体的胜利概率值。

步骤S40在具体实施时，当糊体的选择交互动作达到下一个状态节点时，判断模糊体的选择交互动作是否按照协议规定的动作序列交互，若未按照协议规定的动作序列交互，且产生了新的交互状态，根据奖励函数计算优化后的强化学习模型不同训练回合的新生成协议实体状态的平均奖励值，根据马尔科夫决策随机理论，采用多回合制方式，在一次训练回合结束后，如果所述模糊体发现攻击路径代表一次胜利，则根据训练过程中胜利次数的总和与总的回合数的比值，计算胜利概率值。

步骤S50，根据计算的平均奖励值和胜利概率值对协议交互脆弱性进行评测分析。

步骤S50在具体实施时，运用优化后的强化学习模型判断当前模糊体的协议交互状态，如果不是停止状态，则重新对所述强化学习模型进行训练，如果当前模糊体的协议交互状态是停止状态，则根据当前协议交互状态下模糊体的模糊策略动作对协议交互脆弱性进行评测分析，若模糊策略动作符合协议安全准则，则发现协议逻辑漏洞。

在一个可行的实现方案中，图3示出了本申请实施例所提供的一种协议脆弱性评测方法中构建协议交互仿真环境的流程示意图；上述步骤S10 中，根据目标协议身份认证过程的数据报文和身份认证机制，构建协议交互仿真环境，包括：

步骤S101，从目标协议身份认证过程中数据报文和先验知识中，分析出身份认证机制。

步骤S102，根据身份认证机制，确定出目标协议身份认证的关键数据参数和协议实体对象。

步骤S103，对关键数据参数的格式和时序规范进行分析处理，确定符合目标协议交互预期的分析结果。

步骤S104，根据目标协议交互预期的分析结果构建协议交互仿真环境。

步骤S101、S102、S103、S104在具体实施时，根据API编程接口获取认证用户与认证客户端身份认证过程中的数据报文，根据网络分析软件对数据报文进行解析处理，解析后得到目标协议的请求报文和响应报文，再结合先验知识，分析出目标协议的身份认证机制，基于目标协议出的身份认证机制，提取请求报文中所包含的关键数据参数和协议实体对象，并对关键数据参数的格式和时序规范进行分析处理，如果关键数据参数的格式中没有语法错误，则确定目标协议交互达到预期行为，根据分析结果构建协议交互仿真环境。

在一个可行的实现方案中，图4示出了本申请实施例所提供的一种协议脆弱性评测方法中设置模糊体的模糊策略流程示意图；上述步骤S20中，在构建的协议交互仿真环境下，运用攻击者模型设置模糊体的模糊策略，包括：

步骤S201，模糊体的初始知识库中存储有：协议交互消息的标识报文类型、加密公钥、解密私钥、协议交互规则等。

步骤S202，运用攻击者模型按照初始知识库的协议交互规则，设置模糊体的模糊策略。

步骤S201、S202在具体实施时，当模糊体主动发起连接时，通过密码函数对模糊体的请求消息进行加密或解密处理，得到加密密钥和解密密钥，根据参与协议的主体标识符及其公钥，监听和拦截所有经过网络的消息，例如重放攻击的知识和能力，其中，模糊体的初始知识库中存储有：协议交互消息的标识报文类型、加密公钥、解密私钥、协议交互规则等，运用攻击者模型按照初始知识库中交互规则，设置模糊体的模糊策略。

在一个可行的实现方案中，图5示出了本申请实施例所提供的一种协议脆弱性评测方法中对强化学习模型中进行模型训练的流程示意图；上述步骤S30中，将目标协议身份认证过程产生的协议实体状态信息和预设模糊体的模糊策略输入到强化学习模型中进行模型训练，得到优化后的强化学习模型，包括：

步骤S301，强化学习模型按照Metropolis准则函数，根据目标协议身份认证过程中协议实体在当前状态下选择不同动作的Q值，预测当前目标协议交互状态下的模糊策略。

步骤S301在具体实施时，强化学习模型按照Metropolis准则函数搜索目标协议身份认证过程产生的协议实体状态信息所对应的交互动作，根据协议实体状态信息所对应的交互动作预测当前目标协议交互状态下的模糊策略，其中，强化学习模型搜索交互动作的伪代码如下：

Initiate all Q(s,a)values；

Repeat(for each episode):

a)Choose a initial state s；

b)Repeat(for each step in the episode):

i.Select an action a_r in A(s)arbitrarily；

ii.Select an action a_p in A(s)according to the policy；

iii.a＝a_p

iv.Generate random value(0,1)

v.If<exp((Q(s,a_r)-Q(s,a_g))/Temperature)；then a＝a_r

vi.Execute the action a,receive immediate reward r,then observe thenew state s

vii.Q(s_t,a_t)＝Q(s_t,a_t)+α(R+γmax_a Q(s_t+1,a)-Q(s_t,a_t))

viii.s＝s_t+1

Until s is one of the goal states

c)Recalculate Temperature by the temperature perature-droppingcriterion.Until the desired number of episodes has been investigated。

步骤S302，采用智能体按照如下公式，从目标协议交互状态下模糊策略中选择交互动作。

步骤S302在具体实施时，多智能体按照如下公式选择除当前目标协议交互状态下的模糊策略以外的交互动作，其中，选择交互动作的概率公式为：

其中，Q(s，a_r)表示随机选择交互动作Q值，Q(s，a_g)表示基于贪心策略选择交互动作的Q值，Temperature表示退火温度值；并按照几何比例因子准则递减温度变化，温度变化的具体公式为：

T_k+l＝λT_k k＝0，1，2，......，λ∈(0.5，1)；

及从当前协议交互状态下模糊策略中选择交互动作，还包括：

在强化学习模型中，设定ε值为随机值，数值区间在[0,1]上；

如果P(a|s)＜ε，则选择贪心策略的交互动作a_g，否则选择随机的交互动作a_r，其中，p(a|s)表示选择交互动作的概率；

步骤S303，在当前协议交互状态下选择交互动作后，将最新模糊体的协议实体状态信息输入到强化学习模型中进行模型训练，得到优化后的强化学习模型，其中，模糊体的协议实体状态信息采用四元组表示，分别为协议交互阶段、数据报文集合、模糊体的自身状态和当前环境整体交互状态。

步骤S303在具体实施时，在当前协议交互状态下选择交互动作后，将最新模糊体的协议交互阶段、数据报文集合、模糊体的自身状态和当前环境整体交互状态输入到强化学习模型中进行模型训练，得到优化后的强化学习模型；针对优化后的强化学习模型根据最新模糊体状态和环境状态信息，设置模糊体与其他协议实体交互过程状态下的模糊策略动作，如连接对象和攻击方式，生成一个新的动作序列环境；模糊体可以选取协议交互中与其他协议实体进行会话，并采用不同的攻击方式，其中，攻击方式以 target、operation二元组表示，target表示交互的对象、operation表示采取的动作。

在一个可行的实现方案中，图6示出了本申请实施例所提供的一种协议脆弱性评测方法中的计算平均奖励值和计算胜利概率值数流程示意图；上述步骤S40中，根据奖励函数计算优化后的强化学习模型不同训练回合的平均奖励值和计算模糊体的胜利概率值，包括：

步骤S401，当模糊体的选择交互动作达到下一个状态节点时，根据奖励函数计算优化后的强化学习模型中新生成协议实体状态的平均奖励值。

步骤S402，根据训练过程中胜利次数的总和与总的回合数的比值，计算胜利概率值。

步骤S401、S402在具体实施时，当模糊体的选择交互动作达到下一个状态节点时，若未按照协议规定的动作序列交互，且产生了新的交互状态，则根据奖励函数计算优化后的强化学习模型中新生成协议实体状态的平均奖励值，并将新生成的各协议实体状态以及强化学习四元组信息保存至 temp临时表的日志文件中，用于进行攻击路径分析；

按照如下公式计算平均奖励值：

rward_all+＝tcmp*100*phasc(fuzzybody)*Scalc factor

Mean_reward＝reawrad_all/episodes

其中，phase(fuzzy body)表示模糊体利用模糊策略进行协议交互的第几个阶段，如果协议交互阶段越偏后，说明模糊体越有可能攻击成功，因此，回报值与协议交互的阶段成比例；Scale factor表示折扣因子，取值为 0.6，reawrad_all/episodes表示奖励值所包含的所有事件，Mean_reward表示计算的平均奖励值；采用多回合制方式进行，在每次回合中，每一次的选择交互动作与外界环境交互计算反馈结果，并根据计算结果更新模糊策略动作；

按照如下公式计算模糊策略动作的Q值和更新Q表：

Q_t(s_t，a_t)＝Q_t(s_t，a_t)+α(R_t+1+γmax_aQ(s_t+1，a)-Q(s_t，a_t))；

Success rate＝num_succ/num_all。

在一个可行的实现方案中，上述步骤S50中，根据计算的平均奖励值和胜利概率值对协议交互脆弱性进行评测分析，包括：

对应于图1中的协议脆弱性评测方法，本申请实施例还提供了一种计算机设备60，图7，如图7所示，该设备包括存储器601、处理器602及存储在该存储器601上并可在该处理器602上运行的计算机程序，其中，上述处理器602执行上述计算机程序时实现上述的方法。

在构建的协议交互仿真环境下，运用攻击者模型设置模糊体的模糊策略，其中，模糊体包含认证客户端和认证用户；

根据计算的平均奖励值和胜利概率值对协议交互脆弱性进行评测分析。

对应于图1中的协议脆弱性评测方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行以下步骤：

基于上述分析可知，与相关技术采用形式化工具对协议脆弱性的自动化检测与识别相比，本申请实施例提供的基于优化后的强化学习模型能够实现基于模糊仿真的工业自动控制系统身份认证机制相关协议的脆弱性识别，以及智能化识别工业自动控制系统身份认证机制相关协议脆弱性的方法。

在本申请所提供的实施例中，应该理解到，所揭露设备和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种协议脆弱性评测方法，其特征在于，包括：

根据计算的所述平均奖励值和所述胜利概率值对协议交互脆弱性进行评测分析；

根据目标协议身份认证过程的数据报文和身份认证机制，构建协议交互仿真环境，包括：

根据所述目标协议交互预期的分析结果构建协议交互仿真环境；

在构建的协议交互仿真环境下，运用攻击者模型设置模糊体的模糊策略，包括：

所述模糊体的初始知识库中存储有：协议交互消息的标识报文类型、加密公钥、解密私钥、协议交互规则；

运用攻击者模型按照初始知识库的协议交互规则，设置模糊体的模糊策略；

将目标协议身份认证过程产生的协议实体状态信息和预设模糊体的模糊策略输入到强化学习模型中进行模型训练，得到优化后的强化学习模型，包括：

其中，表示随机选择交互动作Q值，/>表示基于贪心策略选择交互动作的Q值，/>表示退火温度值；并按照几何比例因子准则递减温度变化，所述温度变化的具体公式为：

；

根据奖励函数计算优化后的强化学习模型在不同训练回合的平均奖励值和计算模糊体的胜利概率值，包括：

其中，表示模糊体利用模糊策略进行协议交互的第几个阶段，表示折扣因子，取值为0.6，/>表示奖励值所包含的所有事件，/>表示计算的平均奖励值；采用多回合制方式，根据每一次的选择交互动作与外界环境交互计算反馈结果，并根据计算结果更新模糊策略动作，按照如下公式计算模糊策略动作的Q值和更新：

；

Success rate = num_succ/num_all；

2.根据权利要求1所述的协议脆弱性评测方法，其特征在于，从当前协议交互状态下模糊策略中选择交互动作，还包括：

在所述强化学习模型中，设定ε值为随机值，数值区间在[0,1]上；

如果<ε ，则选择贪心策略的交互动作a_g，否则选择随机的交互动作a_r，其中，表示选择交互动作的概率。

3.根据权利要求2所述的协议脆弱性评测方法，其特征在于，完成选择交互动作后，包括：

在当前协议交互状态下选择交互动作后，将最新模糊体的协议实体状态信息输入到所述强化学习模型中进行模型训练，得到优化后的强化学习模型，其中，模糊体的协议实体状态信息采用四元组表示，分别为协议交互阶段、数据报文集合、模糊体的自身状态和当前环境整体交互状态。

4.根据权利要求3所述的协议脆弱性评测方法，其特征在于，针对优化后的强化学习模型，具体包括：

优化后的强化学习模型根据最新模糊体状态和环境状态信息，设置模糊体与其他协议实体交互过程状态下的模糊策略动作，生成下一个新的动作序列环境，其中，所述模糊策略动作包含连接对象和攻击方式。

5.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至4中任一项所述方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至4任一项所述方法的步骤。