CN115983379B

CN115983379B - Mdata知识图谱的可达路径查询方法及其系统

Info

Publication number: CN115983379B
Application number: CN202310265601.4A
Authority: CN
Inventors: 贾焰; 顾钊铨; 方滨兴; 张志强; 高翠芸; 闫昊; 李鉴明; 谭昊
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-10-10
Anticipated expiration: 2043-03-20
Also published as: CN115983379A

Abstract

公开了一种MDATA知识图谱的可达路径查询方法及其系统，其首先基于大型网络中的IP关联性构建通信图和实际场景下网络中节点之间的通信关系构建MDATA知识图谱，接着计算MDATA知识图谱的强连通子图和所述强连通子图中心顶点，并以中心顶点为核心构建节点的两跳标签索引，继而基于两条标签索引查询节点间的可达路径以实现快速查询来自不同强连通子图的两个节点的可达性与路径关系。同时，依据存储的事件时间对可达路径进行筛选以过滤掉不符合事件发展顺序的无效路径，从而保存攻击者实际采用的攻击路径和采用的操作，最终能够结合模式匹配的方法依据操作的时序关系和路径分析出攻击者选用的攻击方式从而采取防御措施。

Description

MDATA知识图谱的可达路径查询方法及其系统

技术领域

本申请涉及路径查询技术领域，且更为具体地，涉及一种MDATA知识图谱的可达路径查询方法及其系统。

背景技术

现有知识图谱忽略了时间和空间属性的概念，难以表示复杂的网络安全实际场景。在基于可达路径进行攻击路径溯源和源头检测的过程中每一个操作和指令都存在着发生的时间，即便两个节点存在可达路径然而在实际攻击者采用的攻击方案下可能并未选择该条可达路径。

除此之外，在大型复杂网络攻击场景下攻击者会采用多种攻击手段，这些攻击链路之间的可达路径存在着相交关系，然而有些构成的攻击链路在实际情况下是不合理的，因为链路中多个指令和操作存在着时间上的逆行关系。同时知识图谱记录空间作为实体的属性信息而并未把空间信息单独记录和关联。上述局限性导致普通的知识图谱无法表示网络安全实际场景。

传统的可达路径查询技术如基于深度优先遍历算法的路径查询技术、基于广度优先遍历算法的路径搜索技术以及基于Dijkstra算法的路径查询技术均存在时间开销大和响应延迟的问题，在大规模网络系统中存在的节点和边的个数往往是千万级别的，传统方法搜索可行攻击路径速度慢。

因此，期待一种优化的基于知识图谱的可达路径查询方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种MDATA知识图谱的可达路径查询方法及其系统，其首先基于大型网络中的IP关联性构建通信图和实际场景下网络中节点之间的通信关系构建MDATA知识图谱，接着计算MDATA知识图谱的强连通子图和所述强连通子图中心顶点，并以中心顶点为核心构建节点的两跳标签索引，继而基于两条标签索引查询节点间的可达路径以实现快速查询来自不同强连通子图的两个节点的可达性与路径关系。同时，依据存储的事件时间对可达路径进行筛选以过滤掉不符合事件发展顺序的无效路径，从而保存攻击者实际采用的攻击路径和采用的操作，最终能够结合模式匹配的方法依据操作的时序关系和路径分析出攻击者选用的攻击方式从而采取防御措施。

根据本申请的一个方面，提供了一种MDATA知识图谱的可达路径查询方法，其包括：基于通信网络中各个IP节点之间的关联性构建通信图，并基于所述各个IP节点之间的通信关系来构建MDATA知识图谱；生成所述MDATA知识图谱的所有强连通子图；使用贪心策略从所述所有强连接子图选择中心顶点集合；计算所述各个强连通子图中每个节点与所述中心顶点集合中各个中心顶点之间的可达关系；基于所述中心顶点集合和所述可达关系，以两跳标签索引的方式计算来自不同的所述强连接子图的两个节点之间的可达性以得到至少一条可达路径；以及基于所述MDATA知识图谱的时间属性，对所述至少一条可达路径进行过滤以去除时间维度上不切实际的可达路径。

在上述MDATA知识图谱的可达路径查询方法中，所述生成所述MDATA知识图谱的所有强连通子图，包括：使用kosaraju算法计算所述MDATA知识图谱的所有强连通子图。

在上述MDATA知识图谱的可达路径查询方法中，所述生成所述MDATA知识图谱的所有强连通子图，包括：获取所述MDATA知识图谱的图像；将所述MDATA知识图谱的图像通过作为特征提取器的卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图和从所述卷积神经网络模型的深层提取深层特征图；融合所述浅层特征图和所述深层特征图以得到解码特征图；以及，将所述解码特征图通过基于对抗生成网络的强连通子图生成器以生成所述所有强连通子图。

在上述MDATA知识图谱的可达路径查询方法中，所述卷积神经网络模型的浅层为第一层至第六层，所述卷积神经网络模型的深层与所述卷积神经网络模型的浅层之间的比值大于等于10且小于等于15。

在上述MDATA知识图谱的可达路径查询方法中，所述卷积神经网络模型的深层为所述卷积神经网络模型的最后一层。

在上述MDATA知识图谱的可达路径查询方法中，所述融合所述浅层特征图和所述深层特征图以得到解码特征图，包括：计算所述浅层特征图和所述深层特征图之间的按位置加权和以得到初始解码特征图；将所述浅层特征图和所述深层特征图展开为浅层特征向量和深层特征向量；计算所述浅层特征向量和所述深层特征向量之间的图核游走节点分布融合特征矩阵；将所述初始解码特征图进行特征图展开以得到初始解码特征向量；将所述图核游走节点分布融合特征矩阵与所述初始解码特征向量进行矩阵相乘以得到优化解码特征向量；以及，对所述优化解码特征向量进行特征图重构以得到所述解码特征图。

在上述MDATA知识图谱的可达路径查询方法中，所述将所述浅层特征图和所述深层特征图展开为浅层特征向量和深层特征向量，包括：将所述浅层特征图和所述深层特征图分别按照行向量或列向量进行特征图展开以得到所述浅层特征向量和所述深层特征向量。

在上述MDATA知识图谱的可达路径查询方法中，所述计算所述浅层特征向量和所述深层特征向量之间的图核游走节点分布融合特征矩阵，包括：以如下公式计算所述浅层特征向量和所述深层特征向量之间的图核游走节点分布融合特征矩阵；其中，所述公式为：

，

其中，和/>分别是所述浅层特征向量和所述深层特征向量，/>为所述浅层特征向量和所述深层特征向量之间的距离矩阵，即/>，且/>和/>均为列向量，/>表示矩阵（向量）乘法，/>表示矩阵的指数运算，所述矩阵的指数运算表示计算以矩阵中各个位置的特征值为幂的自然指数函数值，/>是所述图核游走节点分布融合特征矩阵。

在上述MDATA知识图谱的可达路径查询方法中，所述对抗生成网络包括生成器和鉴别器。

根据本申请的另一方面，提供了一种MDATA知识图谱的可达路径查询系统，包括：知识图谱构建模块，用于基于通信网络中各个IP节点之间的关联性构建通信图，并基于所述各个IP节点之间的通信关系来构建MDATA知识图谱；强连通子图生成模块，用于生成所述MDATA知识图谱的所有强连通子图；中心顶点生成模块，用于使用贪心策略从所述所有强连接子图选择中心顶点集合；可达关系形成模块，用于计算所述各个强连通子图中每个节点与所述中心顶点集合中各个中心顶点之间的可达关系；可达路径形成模块，用于基于所述中心顶点集合和所述可达关系，以两跳标签索引的方式计算来自不同的所述强连接子图的两个节点之间的可达性以得到至少一条可达路径；以及过滤与去除模块，用于基于所述MDATA知识图谱的时间属性，对所述至少一条可达路径进行过滤以去除时间维度上不切实际的可达路径。

在上述MDATA知识图谱的可达路径查询系统中，所述强连通子图生成模块，用于使用kosaraju算法计算所述MDATA知识图谱的所有强连通子图。

在上述MDATA知识图谱的可达路径查询系统中，所述强连通子图生成模块，包括：图像获取单元，用于获取所述MDATA知识图谱的图像；深浅特征提取单元，用于将所述MDATA知识图谱的图像通过作为特征提取器的卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图和从所述卷积神经网络模型的深层提取深层特征图；深浅特征融合单元，用于融合所述浅层特征图和所述深层特征图以得到解码特征图；以及，生成单元，用于将所述解码特征图通过基于对抗生成网络的强连通子图生成器以生成所述所有强连通子图。

在上述MDATA知识图谱的可达路径查询系统中，所述卷积神经网络模型的浅层为第一层至第六层，所述卷积神经网络模型的深层与所述卷积神经网络模型的浅层之间的比值大于等于10且小于等于15。

在上述MDATA知识图谱的可达路径查询系统中，所述卷积神经网络模型的深层为所述卷积神经网络模型的最后一层。

在上述MDATA知识图谱的可达路径查询系统中，所述深浅特征融合单元，包括：加权子单元，用于计算所述浅层特征图和所述深层特征图之间的按位置加权和以得到初始解码特征图；深浅特征图展开子单元，用于将所述浅层特征图和所述深层特征图展开为浅层特征向量和深层特征向量；图核游走节点分布融合子单元，用于计算所述浅层特征向量和所述深层特征向量之间的图核游走节点分布融合特征矩阵；解码特征图展开子单元，用于将所述初始解码特征图进行特征图展开以得到初始解码特征向量；优化子单元，用于将所述图核游走节点分布融合特征矩阵与所述初始解码特征向量进行矩阵相乘以得到优化解码特征向量；以及，特征图重构子单元，用于对所述优化解码特征向量进行特征图重构以得到所述解码特征图。

在上述MDATA知识图谱的可达路径查询系统中，所述图核游走节点分布融合子单元，进一步用于：以如下公式计算所述浅层特征向量和所述深层特征向量之间的图核游走节点分布融合特征矩阵；其中，所述公式为：

，

在上述MDATA知识图谱的可达路径查询系统中，所述对抗生成网络包括生成器和鉴别器。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的MDATA知识图谱的可达路径查询方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的MDATA知识图谱的可达路径查询方法。

与现有技术相比，本申请提供的MDATA知识图谱的可达路径查询方法及其系统，其首先基于大型网络中的IP关联性构建通信图和实际场景下网络中节点之间的通信关系构建MDATA知识图谱，接着计算MDATA知识图谱的强连通子图和所述强连通子图中心顶点，并以中心顶点为核心构建节点的两跳标签索引，继而基于两条标签索引查询节点间的可达路径以实现快速查询来自不同强连通子图的两个节点的可达性与路径关系。同时，依据存储的事件时间对可达路径进行筛选以过滤掉不符合事件发展顺序的无效路径，从而保存攻击者实际采用的攻击路径和采用的操作，最终能够结合模式匹配的方法依据操作的时序关系和路径分析出攻击者选用的攻击方式从而采取防御措施。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的MDATA知识图谱的可达路径查询方法的流程图。

图2为根据本申请实施例的MDATA知识图谱的可达路径查询方法中生成所述MDATA知识图谱的所有强连通子图的流程图。

图3为根据本申请实施例的MDATA知识图谱的可达路径查询方法中生成所述MDATA知识图谱的所有强连通子图的架构图。

图4为根据本申请实施例的MDATA知识图谱的可达路径查询方法中融合所述浅层特征图和所述深层特征图以得到解码特征图的流程图。

图5为根据本申请实施例的可达关系计算方式示意图。

图6为根据本申请实施例的基于两跳标签索引的可达路径计算方式示意图。

图7为根据本申请实施例的MDATA知识图谱的可达路径查询系统的框图。

图8为根据本申请实施例的MDATA知识图谱的可达路径查询系统中强连通子图生成模块的框图。

图9为根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述：相应地，在本申请的技术方案中，首先依据大型网络中的IP关联性构建通信图，结合实际场景下网络中节点之间的通信关系，即实际产生的磁盘扫描、程序安装、数据回传等操作，记录和保存操作发生的时间以及操作关联的两个节点对象的空间位置从而构建MDATA知识图谱。计算MDATA知识图谱的强连通子图，并依据贪心策略选择子图的中心顶点（中心顶点与多个强连通子图关系密切，起到了通信桥梁的作用。与中心顶点相关的两组强连通子图，一组是以“连入”的方式与之相关，另一组以“连出”的方式与之相关）。中心顶点可以平衡索引的空间开销和查询效率。以中心顶点为核心构建节点的两跳标签索引，基于两条标签索引查询节点间的可达路径。存储强连通子图与中心顶点的可达性，依据存储的可达性关系以中心顶点为核心能够实现快速查询来自不同强连通子图的两个节点的可达性与路径关系。同时依据存储的事件时间对可达路径进行筛选，过滤掉不符合事件发展顺序的无效路径，从而保存攻击者实际采用的攻击路径和采用的操作，最终能够结合模式匹配的方法依据操作的时序关系和路径分析出攻击者选用的攻击方式从而采取防御措施。

具体地，所述MDATA知识图谱的可达路径查询方法，包括步骤：S01，基于通信网络中各个IP节点之间的关联性构建通信图，并基于所述各个IP节点之间的通信关系来构建MDATA知识图谱；S02，生成所述MDATA知识图谱的所有强连通子图；S03，使用贪心策略从所述所有强连接子图选择中心顶点集合；S04，计算所述各个强连通子图中每个节点与所述中心顶点集合中各个中心顶点之间的可达关系；S05，基于所述中心顶点集合和所述可达关系，以两跳标签索引的方式计算来自不同的所述强连接子图的两个节点之间的可达性以得到至少一条可达路径；以及，S06，基于所述MDATA知识图谱的时间属性，对所述至少一条可达路径进行过滤以去除时间维度上不切实际的可达路径。

具体地，在本申请的一个具体的示例中，可使用kosaraju算法计算所述MDATA知识图谱的所有强连通子图。但是，kosaraju算法的关键在于所述MDATA知识图谱中各个节点与其他节点的连接频次，但这种算法忽略了所述MDATA知识图谱是一个拓扑图数据，其不仅有频次，还存在拓扑结构，如果忽略了拓扑结构，仅基于连接频次来计算所述所有强连通子图会使得最终生成的强连通子图的表示能力相对较为欠缺。

因此，在本申请另一个具体的示例中，使用基于深度学习和神经网络的对抗学习模型来智能地生成所述所有强连通子图。具体地，首先获取所述MDATA知识图谱的图像，也就是，将所述MDATA知识图谱作为一个图像数据。

接着，将所述MDATA知识图谱的图像通过作为特征提取器的卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图和从所述卷积神经网络模型的深层提取深层特征图。也就是，使用在图像特征提取领域具有优异性能的卷积神经网络模型来作为特征提取器来捕捉所述MDATA知识图谱的图像的高维局部隐含特征。本领域普通技术人员应知晓，所述卷积神经网络模型在进行特征提取时，其使用具有可学习参数的卷积核对所述MDATA知识图谱的图像进行基于卷积核为通道维度的空间局部邻域特征扫描。

特别地，在本申请的技术方案中，因所述MDATA知识图谱为图拓扑数据，在进行特征提取时，如果能够对所述MDATA知识图谱中的节点和边施加更多的关注，则不仅能够提高特征提取的精准度和丰富度，以利于后续图像生成的精准度。因此，在本申请的技术方案中，从所述卷积神经网络模型的浅层提取浅层特征图和从所述卷积神经网络模型的深层提取深层特征图，其中，所述卷积神经网络模型的浅层用于提取所述MDATA知识图谱的图像的浅层特征，包括线条、形状、边等，所述卷积神经网络模型的深层用于提取所述MDATA知识图谱的图像的高维抽象本质特征。

接着，融合所述浅层特征图和所述深层特征图以得到解码特征图，并将所述解码特征图通过基于对抗生成网络的强连通子图生成器以生成所述所有强连通子图。在本申请的技术方案中，所述对抗生成网络包括鉴别器和生成器，所述生成器用于对所述解码特征图进行解码生成以得到所述所有强连通子图，所述鉴别器用于计算所述强连通子图与真实的强连通子图之间的鉴别器损失函数值，并以所述鉴别器损失函数值作为损失函数值并通过梯度下降的反向传播来训练所述生成器以使得所述生成器所生成的强连通子图能与真实的强连通子图相逼近。

特别地，在本申请的技术方案中，当通过例如加权点加的方式融合所述浅层特征图和所述深层特征图得到所述解码特征图时，可以使得所述解码特征图表达所述浅层特征图和所述深层特征图的特征值粒度的融合特征，但同时，仍然期望所述解码特征图能够表达所述浅层特征图和所述深层特征图的特征图粒度的融合特征。

因此，优选地，首先将所述浅层特征图和所述深层特征图展开为浅层特征向量和深层特征向量/>，再计算所述浅层特征向量/>和所述深层特征向量/>之间的图核游走节点分布融合特征矩阵，表示为：

为所述浅层特征向量/>和所述深层特征向量/>之间的距离矩阵，即/>，且/>和/>均为列向量。

所述图核游走节点分布融合特征矩阵模拟图核的思路，将所述浅层特征向量和所述深层特征向量/>分别视为图中的节点，基于所述浅层特征向量/>和所述深层特征向量/>的特征分布在距离拓扑图上进行游走，以将拓扑节点泛化到相对于所述浅层特征向量/>和所述深层特征向量/>的分类回归特征分布具有连续高维回归空间属性的场景下，从而表示作为拓扑节点的所述浅层特征向量/>和所述深层特征向量/>在融合特征的高维特征空间内的局部分布信息，以表达所述浅层特征向量/>和所述深层特征向量/>之间的向量粒度的融合特征。

进一步，将所述图核游走节点分布融合特征矩阵与所述解码特征图展开后的解码特征向量，例如记为进行矩阵相乘，以将所述解码特征向量/>映射到向量级融合特征空间内，再将所述解码特征向量/>还原为解码特征图，就可以使得所述解码特征图能够表达所述浅层特征图和所述深层特征图的特征图粒度的融合特征。

基于此，本申请提出了一种MDATA知识图谱的可达路径查询方法，其包括：基于通信网络中各个IP节点之间的关联性构建通信图，并基于所述各个IP节点之间的通信关系来构建MDATA知识图谱；生成所述MDATA知识图谱的所有强连通子图；使用贪心策略从所述所有强连接子图选择中心顶点集合；计算所述各个强连通子图中每个节点与所述中心顶点集合中各个中心顶点之间的可达关系；基于所述中心顶点集合和所述可达关系，以两跳标签索引的方式计算来自不同的所述强连接子图的两个节点之间的可达性以得到至少一条可达路径；以及，基于所述MDATA知识图谱的时间属性，对所述至少一条可达路径进行过滤以去除时间维度上不切实际的可达路径。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法：图1为根据本申请实施例的MDATA知识图谱的可达路径查询方法的流程图。如图1所示，根据本申请实施例的MDATA知识图谱的可达路径查询方法，包括：S01，基于通信网络中各个IP节点之间的关联性构建通信图，并基于所述各个IP节点之间的通信关系来构建MDATA知识图谱；S02，生成所述MDATA知识图谱的所有强连通子图；S03，使用贪心策略从所述所有强连接子图选择中心顶点集合；S04，计算所述各个强连通子图中每个节点与所述中心顶点集合中各个中心顶点之间的可达关系；S05，基于所述中心顶点集合和所述可达关系，以两跳标签索引的方式计算来自不同的所述强连接子图的两个节点之间的可达性以得到至少一条可达路径；以及，S06，基于所述MDATA知识图谱的时间属性，对所述至少一条可达路径进行过滤以去除时间维度上不切实际的可达路径。

在步骤S01中，基于通信网络中各个IP节点之间的关联性构建通信图，并基于所述各个IP节点之间的通信关系来构建MDATA知识图谱。也就是，在本申请的技术方案中，首先依据大型网络中的IP关联性构建通信图，结合实际场景下网络中节点之间的通信关系，即实际产生的磁盘扫描、程序安装、数据回传等操作，记录和保存操作发生的时间以及操作关联的两个节点对象的空间位置从而构建MDATA知识图谱。

在步骤S02中，生成所述MDATA知识图谱的所有强连通子图。具体地，在本申请的一个具体的示例中，可使用kosaraju算法计算所述MDATA知识图谱的所有强连通子图。但是，kosaraju算法的关键在于所述MDATA知识图谱中各个节点与其他节点的连接频次，但这种算法忽略了所述MDATA知识图谱是一个拓扑图数据，其不仅有频次，还存在拓扑结构，如果忽略了拓扑结构，仅基于连接频次来计算所述所有强连通子图会使得最终生成的强连通子图的表示能力相对较为欠缺。

因此，在本申请另一个具体的示例中，使用基于深度学习和神经网络的对抗学习模型来智能地生成所述所有强连通子图。

图2为根据本申请实施例的MDATA知识图谱的可达路径查询方法中生成所述MDATA知识图谱的所有强连通子图的流程图。如图2所示，所述生成所述MDATA知识图谱的所有强连通子图，包括：S210，获取所述MDATA知识图谱的图像；S220，将所述MDATA知识图谱的图像通过作为特征提取器的卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图和从所述卷积神经网络模型的深层提取深层特征图；S230，融合所述浅层特征图和所述深层特征图以得到解码特征图；以及，S240，将所述解码特征图通过基于对抗生成网络的强连通子图生成器以生成所述所有强连通子图。

图3为根据本申请实施例的MDATA知识图谱的可达路径查询方法中生成所述MDATA知识图谱的所有强连通子图的架构图。如图3所示，在该架构图中，首先，获取所述MDATA知识图谱的图像；接着，将所述MDATA知识图谱的图像通过作为特征提取器的卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图和从所述卷积神经网络模型的深层提取深层特征图；然后，融合所述浅层特征图和所述深层特征图以得到解码特征图；继而，将所述解码特征图通过基于对抗生成网络的强连通子图生成器以生成所述所有强连通子图。

具体地，在步骤S210中，获取所述MDATA知识图谱的图像。也就是，将所述MDATA知识图谱作为一个图像数据。

具体地，在步骤S220中，将所述MDATA知识图谱的图像通过作为特征提取器的卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图和从所述卷积神经网络模型的深层提取深层特征图。也就是，使用在图像特征提取领域具有优异性能的卷积神经网络模型来作为特征提取器来捕捉所述MDATA知识图谱的图像的高维局部隐含特征。本领域普通技术人员应知晓，所述卷积神经网络模型在进行特征提取时，其使用具有可学习参数的卷积核对所述MDATA知识图谱的图像进行基于卷积核为通道维度的空间局部邻域特征扫描。

在本申请实施例中，所述卷积神经网络模型的浅层为第一层至第六层，所述卷积神经网络模型的深层与所述卷积神经网络模型的浅层之间的比值大于等于10且小于等于15，且所述卷积神经网络模型的深层为所述卷积神经网络模型的最后一层。

具体地，在步骤S230中，融合所述浅层特征图和所述深层特征图以得到解码特征图。也就是，融合所述浅层特征图和所述深层特征图以整合所述浅层特征图中所蕴含的所述MDATA知识图谱的图像的浅层特征和所述深层特征图中所蕴含的所述MDATA知识图谱的图像的深层特征。

图4为根据本申请实施例的MDATA知识图谱的可达路径查询方法中融合所述浅层特征图和所述深层特征图以得到解码特征图的流程图。如图4所示，所述融合所述浅层特征图和所述深层特征图以得到解码特征图，包括：S310，计算所述浅层特征图和所述深层特征图之间的按位置加权和以得到初始解码特征图；S320，将所述浅层特征图和所述深层特征图展开为浅层特征向量和深层特征向量；S330，计算所述浅层特征向量和所述深层特征向量之间的图核游走节点分布融合特征矩阵；S340，将所述初始解码特征图进行特征图展开以得到初始解码特征向量；S350，将所述图核游走节点分布融合特征矩阵与所述初始解码特征向量进行矩阵相乘以得到优化解码特征向量；以及，S360，对所述优化解码特征向量进行特征图重构以得到所述解码特征图。

在本申请的一个具体示例中，将所述浅层特征图和所述深层特征图分别按照行向量或列向量进行特征图展开以得到所述浅层特征向量和所述深层特征向量。

具体地，在步骤S240中，将所述解码特征图通过基于对抗生成网络的强连通子图生成器以生成所述所有强连通子图。在本申请的技术方案中，所述对抗生成网络包括鉴别器和生成器，所述生成器用于对所述解码特征图进行解码生成以得到所述所有强连通子图，所述鉴别器用于计算所述强连通子图与真实的强连通子图之间的鉴别器损失函数值，并以所述鉴别器损失函数值作为损失函数值并通过梯度下降的反向传播来训练所述生成器以使得所述生成器所生成的强连通子图能与真实的强连通子图相逼近。

在步骤S03中，使用贪心策略从所述所有强连接子图选择中心顶点集合。其中，所述中心顶点与多个强连通子图关系密切，起到了通信桥梁的作用。与中心顶点相关的两组强连通子图，一组是以“连入”的方式与之相关，另一组以“连出”的方式与之相关。特别地，所述中心顶点可以平衡索引的空间开销和查询效率。

在步骤S04和步骤S05中，计算所述各个强连通子图中每个节点与所述中心顶点集合中各个中心顶点之间的可达关系，并基于所述中心顶点集合和所述可达关系，以两跳标签索引的方式计算来自不同的所述强连接子图的两个节点之间的可达性以得到至少一条可达路径。也就是，以中心顶点为核心构建节点的两跳标签索引，基于两条标签索引查询节点间的可达路径。

在本申请的技术方案中，存储强连通子图与中心顶点的可达性，依据存储的可达性关系以中心顶点为核心能够实现快速查询来自不同强连通子图的两个节点的可达性与路径关系。

图5为根据本申请实施例的可达关系计算方式示意图。如图5所示，在有向图中要计算节点vi到节点vj的可达性，需要判断是否存在vi到节点vj的有向边，或者存在有限个中间节点vp1、vp2、…、vpn，能够使得vi通过有限个有向边到达vj：vi→vp1→vp2→…→vpn→vj。图6为根据本申请实施例的基于两跳标签索引的可达路径计算方式示意图。如图6所示，判断节点IP2到节点IP7是否可达，可通过查找保存的强连通子图与中心顶点的可达关系判断IP2是否到中心节点IP5、IP8是否可达，在图3中IP2到IP5、IP8均可达，再查找发现IP5、IP8到IP7均可达，因此可判断节点IP2到节点IP7可达，可达路径包括两条，分别是：IP2→IP5→IP7以及IP2→IP8→IP7。

在步骤S06中，基于所述MDATA知识图谱的时间属性，对所述至少一条可达路径进行过滤以去除时间维度上不切实际的可达路径。在本申请的技术方案中，依据存储的事件时间对可达路径进行筛选，过滤掉不符合事件发展顺序的无效路径，从而保存攻击者实际采用的攻击路径和采用的操作，最终能够结合模式匹配的方法依据操作的时序关系和路径分析出攻击者选用的攻击方式从而采取防御措施。

综上，基于本申请实施例的MDATA知识图谱的可达路径查询方法被阐明，其首先基于大型网络中的IP关联性构建通信图和实际场景下网络中节点之间的通信关系构建MDATA知识图谱，接着计算MDATA知识图谱的强连通子图和所述强连通子图中心顶点，并以中心顶点为核心构建节点的两跳标签索引，继而基于两条标签索引查询节点间的可达路径以实现快速查询来自不同强连通子图的两个节点的可达性与路径关系。同时，依据存储的事件时间对可达路径进行筛选以过滤掉不符合事件发展顺序的无效路径，从而保存攻击者实际采用的攻击路径和采用的操作，最终能够结合模式匹配的方法依据操作的时序关系和路径分析出攻击者选用的攻击方式从而采取防御措施。

示例性系统：图7为根据本申请实施例的MDATA知识图谱的可达路径查询系统的框图。如图7所示，根据本申请实施例的MDATA知识图谱的可达路径查询系统100，包括：知识图谱构建模块110，用于基于通信网络中各个IP节点之间的关联性构建通信图，并基于所述各个IP节点之间的通信关系来构建MDATA知识图谱；强连通子图生成模块120，用于生成所述MDATA知识图谱的所有强连通子图；中心顶点生成模块130，用于使用贪心策略从所述所有强连接子图选择中心顶点集合；可达关系形成模块140，用于计算所述各个强连通子图中每个节点与所述中心顶点集合中各个中心顶点之间的可达关系；可达路径形成模块150，用于基于所述中心顶点集合和所述可达关系，以两跳标签索引的方式计算来自不同的所述强连接子图的两个节点之间的可达性以得到至少一条可达路径；以及，过滤与去除模块160，用于基于所述MDATA知识图谱的时间属性，对所述至少一条可达路径进行过滤以去除时间维度上不切实际的可达路径。

在一个示例中，在上述MDATA知识图谱的可达路径查询系统100中，所述强连通子图生成模块，用于使用kosaraju算法计算所述MDATA知识图谱的所有强连通子图。

图8为根据本申请实施例的MDATA知识图谱的可达路径查询系统中强连通子图生成模块的框图。在一个示例中，如图8所示，所述强连通子图生成模块，包括：图像获取单元121，用于获取所述MDATA知识图谱的图像；深浅特征提取单元122，用于将所述MDATA知识图谱的图像通过作为特征提取器的卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图和从所述卷积神经网络模型的深层提取深层特征图；深浅特征融合单元123，用于融合所述浅层特征图和所述深层特征图以得到解码特征图；以及，生成单元124，用于将所述解码特征图通过基于对抗生成网络的强连通子图生成器以生成所述所有强连通子图。

在一个示例中，在上述MDATA知识图谱的可达路径查询系统100中，所述卷积神经网络模型的浅层为第一层至第六层，所述卷积神经网络模型的深层与所述卷积神经网络模型的浅层之间的比值大于等于10且小于等于15。

在一个示例中，在上述MDATA知识图谱的可达路径查询系统100中，所述卷积神经网络模型的深层为所述卷积神经网络模型的最后一层。

在一个示例中，在上述MDATA知识图谱的可达路径查询系统100中，所述深浅特征融合单元123，包括：加权子单元，用于计算所述浅层特征图和所述深层特征图之间的按位置加权和以得到初始解码特征图；深浅特征图展开子单元，用于将所述浅层特征图和所述深层特征图展开为浅层特征向量和深层特征向量；图核游走节点分布融合子单元，用于计算所述浅层特征向量和所述深层特征向量之间的图核游走节点分布融合特征矩阵；解码特征图展开子单元，用于将所述初始解码特征图进行特征图展开以得到初始解码特征向量；优化子单元，用于将所述图核游走节点分布融合特征矩阵与所述初始解码特征向量进行矩阵相乘以得到优化解码特征向量；以及，特征图重构子单元，用于对所述优化解码特征向量进行特征图重构以得到所述解码特征图。

在一个示例中，在上述MDATA知识图谱的可达路径查询系统100中，所述图核游走节点分布融合子单元，进一步用于：以如下公式计算所述浅层特征向量和所述深层特征向量之间的图核游走节点分布融合特征矩阵；其中，所述公式为：

，

在一个示例中，在上述MDATA知识图谱的可达路径查询系统100中，所述对抗生成网络包括生成器和鉴别器。

这里，本领域技术人员可以理解，上述MDATA知识图谱的可达路径查询系统 100中的各个单元和模块的具体功能和操作已经在上面参考图1到图6的MDATA知识图谱的可达路径查询方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的MDATA知识图谱的可达路径查询系统 100可以实现在各种终端设备中，例如用于MDATA知识图谱的可达路径查询的服务器等。在一个示例中，根据本申请实施例的MDATA知识图谱的可达路径查询系统 100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该MDATA知识图谱的可达路径查询系统100可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该MDATA知识图谱的可达路径查询系统 100同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该MDATA知识图谱的可达路径查询系统 100与该终端设备也可以是分立的设备，并且该MDATA知识图谱的可达路径查询系统 100可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备：下面，参考图9来描述根据本申请实施例的电子设备。图9为根据本申请实施例的电子设备的框图。如图9所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的MDATA知识图谱的可达路径查询方法中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如MDATA知识图谱等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括强连通子图等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质：除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的MDATA知识图谱的可达路径查询方法中的功能中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的MDATA知识图谱的可达路径查询方法中的功能中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种MDATA知识图谱的可达路径查询方法，其特征在于，包括：

基于通信网络中各个IP节点之间的关联性构建通信图，并基于所述各个IP节点之间的通信关系来构建MDATA知识图谱；

生成所述MDATA知识图谱的所有强连通子图；

使用贪心策略从所述所有强连通子图选择中心顶点集合；

计算所述各个强连通子图中每个节点与所述中心顶点集合中各个中心顶点之间的可达关系；

基于所述中心顶点集合和所述可达关系，以两条标签索引的方式计算来自不同的所述强连通子图的两个节点之间的可达性以得到至少一条可达路径；以及

基于所述MDATA知识图谱的时间属性，对所述至少一条可达路径进行过滤以去除时间维度上不切实际的可达路径；

其中，所述生成所述MDATA知识图谱的所有强连通子图，包括：

获取所述MDATA知识图谱的图像；

将所述MDATA知识图谱的图像通过作为特征提取器的卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图和从所述卷积神经网络模型的深层提取深层特征图；

融合所述浅层特征图和所述深层特征图以得到解码特征图；以及

将所述解码特征图通过基于对抗生成网络的强连通子图生成器以生成所述所有强连通子图。

2.根据权利要求1所述的MDATA知识图谱的可达路径查询方法，其特征在于，所述生成所述MDATA知识图谱的所有强连通子图，包括：

使用kosaraju算法计算所述MDATA知识图谱的所有强连通子图。

3.根据权利要求2所述的MDATA知识图谱的可达路径查询方法，其特征在于，所述卷积神经网络模型的浅层为第一层至第六层，所述卷积神经网络模型的深层与所述卷积神经网络模型的浅层之间的比值大于等于10且小于等于15。

4.根据权利要求3所述的MDATA知识图谱的可达路径查询方法，其特征在于，所述卷积神经网络模型的深层为所述卷积神经网络模型的最后一层。

5.根据权利要求4所述的MDATA知识图谱的可达路径查询方法，其特征在于，所述融合所述浅层特征图和所述深层特征图以得到解码特征图，包括：

计算所述浅层特征图和所述深层特征图之间的按位置加权和以得到初始解码特征图；

将所述浅层特征图和所述深层特征图展开为浅层特征向量和深层特征向量；

计算所述浅层特征向量和所述深层特征向量之间的图核游走节点分布融合特征矩阵；

将所述初始解码特征图进行特征图展开以得到初始解码特征向量；

将所述图核游走节点分布融合特征矩阵与所述初始解码特征向量进行矩阵相乘以得到优化解码特征向量；以及

对所述优化解码特征向量进行特征图重构以得到所述解码特征图。

6.根据权利要求5所述的MDATA知识图谱的可达路径查询方法，其特征在于，所述将所述浅层特征图和所述深层特征图展开为浅层特征向量和深层特征向量，包括：

将所述浅层特征图和所述深层特征图分别按照行向量或列向量进行特征图展开以得到所述浅层特征向量和所述深层特征向量。

7.根据权利要求6所述的MDATA知识图谱的可达路径查询方法，其特征在于，所述计算所述浅层特征向量和所述深层特征向量之间的图核游走节点分布融合特征矩阵，包括：

以如下公式计算所述浅层特征向量和所述深层特征向量之间的图核游走节点分布融合特征矩阵；

其中，所述公式为：

，

其中，和/>分别是所述浅层特征向量和所述深层特征向量，/>为所述浅层特征向量和所述深层特征向量之间的距离矩阵，即/>，且/>和/>均为列向量，/>表示矩阵乘法，/>表示矩阵的指数运算，所述矩阵的指数运算表示计算以矩阵中各个位置的特征值为幂的自然指数函数值，/>是所述图核游走节点分布融合特征矩阵。

8.根据权利要求7所述的MDATA知识图谱的可达路径查询方法，其特征在于，所述对抗生成网络包括生成器和鉴别器。

9.一种MDATA知识图谱的可达路径查询系统，其特征在于，包括：

知识图谱构建模块，用于基于通信网络中各个IP节点之间的关联性构建通信图，并基于所述各个IP节点之间的通信关系来构建MDATA知识图谱；

强连通子图生成模块，用于生成所述MDATA知识图谱的所有强连通子图；

中心顶点生成模块，用于使用贪心策略从所述所有强连通子图选择中心顶点集合；

可达关系形成模块，用于计算所述各个强连通子图中每个节点与所述中心顶点集合中各个中心顶点之间的可达关系；

可达路径形成模块，用于基于所述中心顶点集合和所述可达关系，以两条标签索引的方式计算来自不同的所述强连通子图的两个节点之间的可达性以得到至少一条可达路径；以及

过滤与去除模块，用于基于所述MDATA知识图谱的时间属性，对所述至少一条可达路径进行过滤以去除时间维度上不切实际的可达路径；

其中，所述强连通子图生成模块，包括：图像获取单元，用于获取所述MDATA知识图谱的图像；深浅特征提取单元，用于将所述MDATA知识图谱的图像通过作为特征提取器的卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图和从所述卷积神经网络模型的深层提取深层特征图；深浅特征融合单元，用于融合所述浅层特征图和所述深层特征图以得到解码特征图；以及，生成单元，用于将所述解码特征图通过基于对抗生成网络的强连通子图生成器以生成所述所有强连通子图。