CN114491541A

CN114491541A - 基于知识图谱路径分析的安全运营剧本自动化编排方法

Info

Publication number: CN114491541A
Application number: CN202210330693.5A
Authority: CN
Inventors: 车洵; 孙捷; 胡牧; 金奎�; 孙翰墨
Original assignee: Nanjing Zhongzhiwei Information Technology Co ltd
Current assignee: Nanjing Zhongzhiwei Information Technology Co ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-05-13
Anticipated expiration: 2042-03-31
Also published as: CN114491541B

Abstract

本发明公开了一种基于知识图谱路径分析的安全运营剧本自动化编排方法，为了更好地使用已经构建好的网络安全知识图谱进行路径推理，本发明提出了一种路径记忆和推理的LSGAT模型，该模型基于强化学习模型，并使用长短期记忆网络和图注意机制，在传统的推理网络TransE的基础上增加了记忆模块，利用强化学习模型能更好地推理出实体与路径的深层语义特征；在网络安全事件发生时，通过对网络安全应急响应知识图谱路径分析快速推理出实体与关系，并生成对应的动作，构建准确有效的剧本，实现了快速高效的应急响应，当产生新的网络攻击时，系统会自动调用编排好的剧本对异常攻击进行防御。

Description

基于知识图谱路径分析的安全运营剧本自动化编排方法

技术领域

本发明涉及网络安全技术领域，特别涉及基于知识图谱路径分析的安全运营剧本自动化编排方法。

背景技术

知识图谱被认为是人工智能的一个主要领域，在现实世界中有很多应用，在网络安全领域，网络安全应急响应知识图谱是一种数据驱动的、线性的、计算能力非常强大的工具。一些企业将国家信息安全数据库和攻击行为知识库以知识图谱的形式存储到图形数据库中，当发生网络安全事件的时候，以知识图谱为基础，实现生成和匹配网络应急剧本。

许多基于知识图谱的安全管理方案已被提出，这些方案使分析人员能够了解安全风险的原因和后果，并帮助确定适当的对策。但是传统的剧本编排技术存在着针对性不强，应急响应慢的问题，安全编排自动化与响应技术因此产生。SOAR是企业可以收集网络安全威胁的数据和自动化警示的技术，这个技术可以更好的帮助企业和网络安全分析人员确定和分类潜在网络威胁，从而自动化调用一些网络安全API应用程序接口，实现一些可以迅速执行保护系统的剧本。SOAR同时考虑了人和技术，形成了多个类型、自动触发的剧本，从而无需人员干涉，减少了人为因素带来的错误，提高了网络安全运营的效率。

网络安全运营中，网络应急响应是不可忽略的一部分，它是主动防御和纵深防御系统的最后一道防线，是保证网络信息安全的必要手段和措施。它主要分成准备、检测、抑制、根除、恢复、跟踪共六个流程。现阶段，企业的各种应用都部署在Web服务器上，在大数据的背景下，黑客会利用各种技术手段，例如Sql注入漏洞、植入木马病毒来窃取目标用户信息、或者破坏企业的Web服务器，获得内部机密文件，控制用户的电脑和服务器并植入恶意的病毒，使得企业和用户损失巨大。此外，由于企业网络中各种设备收集了大量的信息，管理员很难根据有限的安全评估经验有效地建模安全问题，并做出正确的决策。由于网络攻击方不断的更新攻击技术，传统的网络防御技术很难防御，因此，当发生网络安全事件时，对于SQL注入、DDoS攻击、攻击Web服务器等威胁，需要防御系统即时发现与处置，缩短系统暴露在外部攻击的时间，但是这些都是传统的网络防御技术无法解决的问题。

譬如，Web应用防火墙WAF网站应用级入侵防御系统可以通过针对HTTP超文本传输协议或者HTTPS加密超文本传输协议的安全策略，专门对Web应用提供保护。但随着网络攻防双方的不断过招，攻击者逐渐摸清了这一套传统的防御体系，随着使用各种各样的绕过技巧，打破了这一道防线。同时WAF还存在着天生的防御缺陷，就是面对未知的攻击束手无策，因此最近几年WAF领域出现了一些新的防御框架和技术，例如通过数据建模学习企业自身业务或者使用智能语音分析引擎从语言本质去理解，虽然这些新的技术可以识别已知的漏洞攻击程序，但是对于网络安全的应急响应却是束手无策。

基于以上考虑，本发明设计了一种结合了长短期记忆网络LSTM和图注意机制GAT进行知识图谱路径知识推理和自动化生成剧本的模型。

发明内容

为实现上述目的，发明人提供了一种基于知识图谱路径分析的安全运营剧本自动化编排方法，包括以下步骤：

S1：给定网络安全事件的日志和网络安全应急响应知识图谱；

S2：基于深度强化学习框架，设置强化学习环境和Agent，提取网络安全事件日志中的网络安全实体，查询该网络安全实体在强化学习环境的位置，Agent将网络安全实体在强化学习环境的位置信息作为初始状态；

S3：把得到的网络安全实体和强化学习环境中的所有实体进行比较，使用知识图谱排序算法判断两个实体之间的关系，并将它们之间的关系建立成投影矩阵，同时考虑强化学习环境中的所有实体与网络安全实体之间的关系的顺序信息，在初始状态下考虑高维空间中与当前强化学习环境中实体之间的距离；

S4：Agent选择一条关系路径向前推进，并将其设置成强化学习环境的新状态；

S5：在Agent行动改变S2中的每一个初始状态，再改变S4中的强化学习环境的新状态的过程中，使用长短期记忆网络和图注意机制构成记忆组件，使Agent记忆和学习在S4中代理采取的每一个行动；

S6：对Agent进行多次训练，将获得奖励最多的Agent得到的目标实体和长短期记忆网络输出以及图注意力机制中的关系加权映射到一个高维向量；

S7：将S6中得到的高维向量输入到一个前馈神经网络中，并将输出通过归一化指数函数处理得到选择每一条路径的概率；

S8：根据S7中得到的概率最高的路径，提取这一条路径的强化学习环境中的所有实体和两个实体之间的关系，通过建立词汇映射表生成对应的动作,将每个攻击行为映射到不同的漏洞，再生成对应的剧本来判断各种攻击场景对企业安全的威胁。

作为本发明的一种优选方式，所述S2中网络安全实体包括漏洞、IP、SQL服务器、web服务器。

作为本发明的一种优选方式，所述S2包括：把经过知识抽取和实体对齐后的知识图谱作为强化学习环境，建立相应的Agent，所述Agent包含状态、行动和奖励，在强化学习环境下，模型需要学会在实体之间选择有希望的推理路径。

作为本发明的一种优选方式，所述S3包括：提取网络安全事件日志中的网络安全实体，查询网络安全实体在强化学习环境中的位置，Agent将其作为初始查询状态，此后的每个强化学习环境产生的新状态由代理Agent在强化学习环境中的位置决定，并使用知识图谱排序算法判断两个实体之间的关系，并将它们之间的关系建立成投影矩阵；

其中

表示需要查询的对象，

表示维度变换矩阵，

表示知识图谱排序算法中描述的投影向量的转置，

表示单位矩阵；

同时，为了获取强化学习环境中所有实体和关系的顺序信息，在初始状态下考虑目标实体与当前实体之间的距离，用

和

表示，初始状态和下一个状态的第一个组成部分的公式为:

其中

表示实体嵌入初始状态的第一个分量，

表示需要查询的对象，

表示目标实体。

作为本发明的一种优选方式，所述S4包括：根据Agent行动找到对应的强化学习环境中的所有实体和两个实体之间的关系，设置路径的精确度、查找路径的效率、不同路径的多样性的奖励函数。

作为本发明的一种优选方式，所述S4包括：在S3中定义了Agent的初始状态之后开始行动，所述行动指的是Agent选择一条关系路径向前推进，在强化学习框架的基础上，Agent根据LSGAT模型得到的概率来选择一条关系路径向前推进，从而产生新的动作，包括有效动作和无效动作，有效动作是指存在一个存在的、有希望的关系来扩展它与当前实体连接的路径，无效动作是指选择了没有关系的路径；

采用知识图谱搜索模型奖励函数，奖励函数输出的结果值是根据行动是否有效，或者一系列行动是否能经过特定步骤数到达目标实体来决定，将奖励函数输出的结果值向Agent反馈，通过奖励函数输出的结果值评估Agent找到的路径的质量，若Agent通过某一条路径没有找到目标实体，设置奖励函数输出结果值为-1，若Agent通过不同的路径找到目标实体，设置奖励函数输出的值在0-1的范围内，将全局的奖励函数输出的结果值设置不同部分的加权值，这些部分包括：查找路径的精确度、查找路径的效率、不同路径的多样性，将路径的多样性定义为如下公式：

其中

表示路径多样性，

是发现路径的个数，

指代发现的路径，

指代第

条发现的路径，最终的奖励函数设置成：

其中

表示的是最终加权的奖励值，

、

、

分别是查找路径的精确度、查找路径的效率、不同路径的多样性，

、

、

是系数，并且满足

。

作为本发明的一种优选方式，所述S5包括：在定义了强化学习的强化学习环境和 Agent后，再定义训练过程中的记忆组件，利用三层长短期记忆网络和图注意机制构成记忆组件，使Agent记忆和学习已采取的行动，输入Agent初始状态和强化学习环境产生的新状态，由嵌入当前的实体和记忆组件决定，在记忆组件中获得推理路径的语义，用来将知识存储在选定的实体和关系中，第一部分的记忆组件由三层长短期记忆网络组成，对于三层长短期记忆网络,将隐藏层的初始状态

和输入

定义如下：

其中

为

时刻隐藏层的初始状态，

表示

时刻隐藏层的初始状态，

为当前

时刻实体输入，

表示输入的实体和初始状态进入长短期记忆网络处理；

将隐藏层初始状态设置成高维零向量，

是长短期记忆网络在步骤

的输入，将

定义为：

其中

表示实体嵌入初始状态的第一个分量，

表示的是

时刻实体与实体的关系；

通过

联合实体和关系对所选关联和路径进行编码，使长短期记忆网络能够学习和记忆路径的顺序语义。

作为本发明的一种优选方式，所述S6包括：使用单层前馈神经网络来计算注意力的权重，用线性映射矩阵

和权重向量

来计算所有相邻实体的权重，选择负输入斜率的

作为非线性激活函数，

和

之间的注意力权重计算如下：

其中

表示的是

和

之间的注意力权重，

表示输入经过非线性激活函数处理，

表示权重向量，

和

表示的实体

和

的线性映射矩阵表示；

对于实体

，只计算它所有直接连接的相邻实体的注意力权重，并用归一化指数函数将它们规范化，归一化的注意力权重可以得到如下公式:

其中

表示的是

和

之间的注意力权重，

表示归一化之后的注意力权重，

表示经过指数函数处理；

在简单加权所有相邻实体嵌入在注意力空间的和之后，实体

注意力向量如下:

其中

表示实体

的注意力向量，

表示归一化之后的注意力权重，

表示实体

和

的线性映射矩阵表示；

当Agent在推理路径上遍历时，长短期记忆网络的记忆部分和图注意力机制保留了序列信息，在所提出的记忆路径中，Agent在步骤

中的初始状态包含当前实体和记忆信息的嵌入，

的初始状态向量在

时刻定义为:

其中

表示实体

在

时刻的状态向量，

表示的是

时刻实体

的隐藏状态，

表示在

时刻实体嵌入初始状态的第一个分量，

表示实体

的注意力向量。

作为本发明的一种优选方式，所述S7包括：LSGAT模型将

的初始状态向量在

时刻的定义公式作为前馈神经网络的输入，输出的归一化指数函数概率的长度等于强化学习环境中所有关系的数目，使用强化学习环境推理时，Agent选择一个行动，然后获得奖励，当它成功的到达目标实体或者在指定数目的步骤没有找到实体后，Agent在这一个训练步骤获得的奖励被用来更新LSGAT模型中的所有参数，最后使用REINFORCE算法进行优化，并用下面的随机梯度函数更新LSGAT模型参数：

表示对参数

梯度下降后的目标函数，

代表查找实体，

代表当前时刻的关系，

用来表示行动或选定关系的概率，

表示步骤

后的奖励；

基于以上强化学习的框架训练得到的概率最高的路径，提取强化学习环境中路径的实体和关系，为构建剧本打下基础。

作为本发明的一种优选方式，所述S8包括：在强化学习环境中，将LSGAT模型推理得到概率最高的路径提取出来，并且把这个路径中的实体和关系建立实体-关系映射表，通过映射表生成相应的剧本。

区别于现有技术，上述技术方案所达到的有益效果有：

为了更好地使用已经构建好的网络安全知识图谱进行路径推理，本方案提出了一种路径记忆和推理的LSGAT模型，该模型基于强化学习模型，并使用长短期记忆网络和图注意机制，在传统的推理网络TransE的基础上增加了记忆模块，利用强化学习模型能更好地推理出实体与路径的深层语义特征。在网络安全事件发生时，通过对网络安全应急响应知识图谱路径分析快速推理出实体与关系，并生成对应的动作，构建准确有效的剧本，实现了快速高效的应急响应，当产生新的网络攻击时，系统会自动调用编排好的剧本对异常攻击进行防御。

附图说明

图1为具体实施方式所述基于强化学习提出的记忆和寻找路径的框架。

图2为具体实施方式所述使用长短期记忆网络和图注意力机制组成的记忆路径的结构。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

如图1所示，本实施例提供了一种基于知识图谱路径分析的安全运营剧本自动化编排方法，包括以下步骤：

在本实施例中，S2中的网络安全实体包括漏洞、IP（网际互连协议）、SQL服务器、web服务器等。具体的，把经过知识抽取和实体对齐后的知识图谱作为强化学习环境（Environment），建立相应的Agent（代理），Agent包含状态、行动和奖励；在强化学习环境下，模型需要学会在实体之间选择有希望的推理路径；这意味着需要考虑两个实体和它们之间的关系，我们从状态、行动、奖励三个部分描述。

在本实施例的步骤S3中，S3包括：提取网络安全事件日志中的网络安全实体，查询网络安全实体在强化学习环境中的位置，Agent将其作为初始查询状态，此后的每个强化学习环境产生的新状态由代理Agent在强化学习环境中的位置决定，并使用知识图谱排序算法判断两个实体之间的关系，并将它们之间的关系建立成投影矩阵；

其中

表示需要查询的对象，

表示维度变换矩阵，

表示知识图谱排序算法中描述的投影向量的转置，

表示单位矩阵；

和

表示，初始状态和下一个状态的第一个组成部分的公式为:

其中

表示实体嵌入初始状态的第一个分量，

表示需要查询的对象，

表示目标实体。

S4：Agent选择一条关系路径向前推进，并将其设置成强化学习环境的新状态。

在本实施例的步骤S4中，S4具体包括：根据Agent行动找到对应的强化学习环境中的所有实体和两个实体之间的关系，设置路径的精确度、查找路径的效率、不同路径的多样性的奖励函数。除此之外，S4还包括：在S3中定义了Agent的初始状态之后开始行动，这里的行动指的是Agent选择一条关系路径向前推进，在强化学习框架的基础上，Agent根据LSGAT模型得到的概率来选择一条关系路径向前推进，从而产生新的动作，新的动作包括两类，分别是有效动作和无效动作，有效动作是指存在一个存在的、有希望的关系来扩展它与当前实体连接的路径，无效动作是指选择了没有关系的路径；

采用知识图谱搜索模型（ConvE）奖励函数，奖励函数输出的结果值是根据行动是否有效，或者一系列行动是否能经过特定步骤数到达目标实体来决定，将奖励函数输出的结果值向Agent反馈，通过奖励函数输出的结果值评估Agent找到的路径的质量，若Agent通过某一条路径没有找到目标实体，设置奖励函数输出结果值为-1，若Agent通过不同的路径找到目标实体，设置奖励函数输出的值在0-1的范围内，将全局的奖励函数输出的结果值设置不同部分的加权值，这些部分包括：查找路径的精确度、查找路径的效率、不同路径的多样性，将路径的多样性定义为如下公式：

其中

表示路径多样性，

是发现路径的个数，

指代发现的路径，

指代第

条发现的路径，最终的奖励函数设置成：

其中

表示的是最终加权的奖励值，

、

、

、

、

是系数，并且满足

。

S5：在Agent行动改变S2中的每一个初始状态，再改变S4中的强化学习环境的新状态的过程中，如图2所示，使用长短期记忆网络(LSTM)和图注意机制（GAT）构成记忆组件，使Agent记忆和学习在S4中代理采取的每一个行动。

在本实施例的步骤S5中，S5具体包括：在定义了强化学习的强化学习环境和Agent 后，再定义训练过程中的记忆组件，利用三层长短期记忆网络和图注意机制构成记忆组件，使Agent记忆和学习已采取的行动，输入Agent初始状态和强化学习环境产生的新状态，由嵌入当前的实体和记忆组件决定，在记忆组件中获得推理路径的语义，用来将知识存储在选定的实体和关系中，这种操作可以提高Agent对强化学习环境的感知，学习最有希望的关系，从而扩展推理路径，第一部分的记忆组件由三层长短期记忆网络组成，对于三层长短期记忆网络,将隐藏层的初始状态

和输入

定义如下：

其中

为

时刻隐藏层的初始状态，

表示

时刻隐藏层的初始状态，

为当前

时刻实体输入，

表示输入的实体和初始状态进入长短期记忆网络处理；

在上面公式中，将隐藏层初始状态设置成高维零向量，

是长短期记忆网络在步骤

的输入，将

定义为：

其中

表示实体嵌入初始状态的第一个分量，

表示的是

时刻实体与实体的关系；

通过

在本实施例的步骤S6中，S6具体包括：通常，一个网络安全实体有几个不同的关系，譬如攻击方法和攻击者之间的关系，举例来说，一种攻击方式是某个黑客或者某种境外组织常用的技术手段，就可以调用针对性的防御措施对该攻击方式进行防御。因此，在推理过程中Agent最好更多的关注与当前实体高度相关的实体与关系。所以我们将实体节点上的一种图注意机制（GAT）引入到该模型中。具体的，首先使用单层前馈神经网络来计算注意力的权重，用线性映射矩阵

和权重向量

来计算所有相邻实体的权重，选择负输入斜率的

作为非线性激活函数，

和

之间的注意力权重计算如下：

其中

表示的是

和

之间的注意力权重，

表示输入经过非线性激活函数处理，

表示权重向量，

和

表示的实体

和

的线性映射矩阵表示；

对于实体

，只计算它所有直接连接的相邻实体的注意力权重，并用归一化指数函数（softmax）将它们规范化，归一化的注意力权重可以得到如下公式:

其中

表示的是

和

之间的注意力权重，

表示归一化之后的注意力权重，

表示经过指数函数处理；

在简单加权所有相邻实体嵌入在注意力向量中后，实体

注意力向量如下:

其中

表示实体

的注意力向量，

表示归一化之后的注意力权重，

表示实体

和

的线性映射矩阵表示；

中的初始状态包含当前实体和记忆信息的嵌入，因此，

的初始状态向量在

时刻定义为:

其中

表示实体

在

时刻的状态向量，

表示的是

时刻实体

的隐藏状态，

表示在

时刻实体嵌入初始状态的第一个分量，

表示实体

的注意力向量。

在本实施例的步骤S7中，S7具体包括：LSGAT模型（记忆路径推理模型）将

的初始状态向量在

表示对参数

梯度下降后的目标函数，

代表查找实体，

代表当前时刻的关系，

用来表示行动或选定关系的概率，

表示步骤

后的奖励；

S8：根据S7中得到的概率最高的路径，提取这一条路径的强化学习环境中的所有实体和两个实体之间的关系，通过建立词汇映射表生成对应的动作,将每个攻击行为映射到不同的漏洞，再生成对应的剧本来判断各种攻击场景对企业安全的威胁。具体的，在强化学习环境中，将LSGAT模型推理得到概率最高的路径提取出来，并且把这个路径中的实体和关系建立实体-关系映射表，通过映射表生成相应的剧本。

为了验证该模型的性能，基于上述实施例，本文在通用漏洞披露库（CommonVulnerabilities and Exposures，CVE）、恶意和良性物联网网络流量的标记数据集（AposematIoT-23）、后台流量的标记数据集（CTU-13 Dataset）、入侵检测数据集（ADFA）上结合网上公开的应急响应处理方法测试本模型。采用了事实预测的成功率（MAP）指标、链接预测(MeanRR)和搜索实体得分(hit@1)指标来对模型进行评价。通过表格一和表格二表明该模型提出的长短期记忆网络(LSTM)和图注意力组成的记忆力模块能够寻找更多高质量的路径和匹配目标实体。

如表格一所示，测试结果表明LSGAT模型在通用漏洞披露数据集（CVE）上达到了87.8%的准确率，相比较于传统的路径分析（Trans）系列模型和知识推理模型（DeepPath），该模型都获得了不错的结果。

对于链接预测的质量评估，我们采用根据排名的匹配得分（Mean ReciprocalRank，MeanRR）和搜索实体得分（hits@1）作为评价指标，MRR指的是对于一个目标实体的匹配得分，hits@1指的是测试的实体是否在序列的前一个的得分；在后台流量的标记数据集（CTU-13 Dataset）和入侵检测数据集（ADFA）上对链接预测进行质量评估，质量评估的得分如表格二所示，结果表明，LSGAT模型受益于记忆组件和基于强化学习的训练机制，可以很好的预测实体有关的路径。

表格三展示了一些测试的推理路径和三元组的案例，这些案例是根据知识图谱预测的路径分析出对应的实体和关系构建的可以自动化编排的剧本。以上分析表明基于强化学习并结合长短期记忆网络(LSTM)及图注意力机制(GAT)方法的引入可以有效地生成剧本。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的保护范围之内。

Claims

1.一种基于知识图谱路径分析的安全运营剧本自动化编排方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于知识图谱路径分析的安全运营剧本自动化编排方法，其特征在于，所述S2中网络安全实体包括漏洞、IP、SQL服务器、web服务器。

3.根据权利要求1所述的基于知识图谱路径分析的安全运营剧本自动化编排方法，其特征在于，所述S2包括：

把经过知识抽取和实体对齐后的知识图谱作为强化学习环境，建立相应的Agent，所述Agent包含状态、行动和奖励，在强化学习环境下，模型需要学会在实体之间选择有希望的推理路径。

4.根据权利要求3所述的基于知识图谱路径分析的安全运营剧本自动化编排方法，其特征在于，所述S3包括：

提取网络安全事件日志中的网络安全实体，查询网络安全实体在强化学习环境中的位置，Agent将其作为初始查询状态，此后的每个强化学习环境产生的新状态由代理Agent在强化学习环境中的位置决定，并使用知识图谱排序算法判断两个实体之间的关系，并将它们之间的关系建立成投影矩阵；

其中

表示需要查询的对象，

表示维度变换矩阵，

表示知识图谱排序算法中描述的投影向量的转置，

表示单位矩阵；

和

表示，初始状态和下一个状态的第一个组成部分的公式为:

其中

表示实体嵌入初始状态的第一个分量，

表示需要查询的对象，

表示目标实体。

5.根据权利要求4所述的基于知识图谱路径分析的安全运营剧本自动化编排方法，其特征在于，所述S4包括：根据Agent行动找到对应的强化学习环境中的所有实体和两个实体之间的关系，设置路径的精确度、查找路径的效率、不同路径的多样性的奖励函数。

6.根据权利要求5所述的基于知识图谱路径分析的安全运营剧本自动化编排方法，其特征在于，所述S4包括：

在S3中定义了Agent的初始状态之后开始行动，所述行动指的是Agent选择一条关系路径向前推进，在强化学习框架的基础上，Agent根据LSGAT模型得到的概率来选择一条关系路径向前推进，从而产生新的动作，包括有效动作和无效动作，有效动作是指存在一个存在的、有希望的关系来扩展它与当前实体连接的路径，无效动作是指选择了没有关系的路径；

其中

表示路径多样性，

是发现路径的个数，

指代发现的路径，

指代第

条发现的路径，最终的奖励函数设置成：

其中

表示的是最终加权的奖励值，

、

、

、

是系数，并且满足

。

7.根据权利要求6所述的基于知识图谱路径分析的安全运营剧本自动化编排方法，其特征在于，所述S5包括：

在定义了强化学习的强化学习环境和Agent后，再定义训练过程中的记忆组件，利用三层长短期记忆网络和图注意机制构成记忆组件，使Agent记忆和学习已采取的行动，输入 Agent初始状态和强化学习环境产生的新状态，由嵌入当前的实体和记忆组件决定，在记忆组件中获得推理路径的语义，用来将知识存储在选定的实体和关系中，第一部分的记忆组件由三层长短期记忆网络组成，对于三层长短期记忆网络,将隐藏层的初始状态