CN113869609A

CN113869609A - 一种根因分析频繁子图置信度预测方法及系统

Info

Publication number: CN113869609A
Application number: CN202111267296.XA
Authority: CN
Inventors: 易存道
Original assignee: Beijing Baolande Software Co ltd
Current assignee: Beijing Baolande Software Co ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2021-12-31

Abstract

本发明提供一种根因分析频繁子图置信度预测方法及系统，其方法包括：确定待预测置信度的根因图谱网络中两个节点；将所述待预测置信度的根因图谱网络中两个节点输入至根因分析频繁子图置信度预测模型，得到所述根因图谱网络中两个节点的置信度预测结果；其中，所述根因分析频繁子图置信度预测模型是基于根因图谱网络边集数据生成的关系网络节点向量数据集构建标签化数据集后对SVM分类模型进行调参训练得到的。本发明实现了根因分析频繁子图置信度预测的高效率及高准确度。

Description

一种根因分析频繁子图置信度预测方法及系统

技术领域

本发明涉及智能运维根因分析技术领域，尤其涉及一种根因分析频繁子图置信度预测方法及系统。

背景技术

根因分析频繁子图置信度预测可以借鉴社会网络链接预测的方法。链接预测问题作为社会网络分析相关领域中的一项重要的研究课题之一，虽然单条的关系数据没有包含太多的信息，很多的网络数据的每一条仅仅只是表示两个节点之间关系的存在性，更复杂的可能会有方向性，权重等。但是网络中的关系链接成千上万之后，往往就能包含很多统计学上的一些规律性的信息了，这些信息通过链接的聚集性，节点的聚集性，以及整体的方向性等形式表现出来。而链接预测的工作就是要从纷繁杂乱的链接数据的表象之中，尽可能全面的，准确的发掘这些信息。早期的基于节点局部信息和网络拓扑信息的相似性方法意在于通过节点的路径相似性，周围环境相似性，节点度数相似性等具体属性来评估两个节点最终的相似性。经过已有文献信息以及相应对照实验的结果可以表明，现有的基于局部/全局信息的节点相似度方法不管是基于节点周围结构信息的方法，如CN方法，Katz 方法，LP方法，LHN-Ⅱ方法，还是基于随机游走相似度的方法中，如ACT方法，RWR方法，或者是SimRank方法，首先是在信息提取层面存在人为认知方面的不足，因为不管是路径相似信息，还是节点周围环境属性信息，都来自于人们对网络环境本身的具体化认知，然而网络信息还会存在其他未被具体化提出的某些特征，无疑这部分信息或多或少会存在缺失。

发明内容

本发明实施例提供一种根因分析频繁子图置信度预测方法及系统，用以解决传统的根因分析在频繁子图处理方式上存在置信度预测方法复杂且预测不全面均衡导致预测效率低及准确度不高的问题。

第一方面，本发明实施例提供一种根因分析频繁子图置信度预测方法，包括：

确定待预测置信度的根因图谱网络中两个节点；

将所述待预测置信度的根因图谱网络中两个节点输入至根因分析频繁子图置信度预测模型，得到所述根因图谱网络中两个节点的置信度预测结果；

其中，所述根因分析频繁子图置信度预测模型是基于根因图谱网络边集数据生成的关系网络节点向量数据集构建标签化数据集后对 SVM分类模型进行调参训练得到的。

进一步地，所述根因分析频繁子图置信度预测模型是基于当前网络故障拓扑图生成的关系网络节点向量数据集构建标签化数据集后对SVM分类模型进行调参训练得到的，包括：

获取根因图谱网络边集数据；

基于所述根因图谱网络边集数据采用Node2Vec对网络节点进行嵌入向量化得到节点特征向量；

基于所述节点特征向量生成的关系网络节点向量数据集构建标签化数据集；

通过SVM分类模型对所述标签化数据集进行标签分类后完成调参训练，得到所述根因分析频繁子图置信度预测模型。

进一步地，所述基于所述根因图谱网络边集数据采用Node2Vec 对网络节点进行嵌入向量化得到节点特征向量，包括：

基于所述根因图谱网络边集数据从拓扑图中一个预定起始节点开始使用随机游走生成序列数据；

将所述生成的序列数据输入到word2vec模型，基于skip gram训练所述word2vec模型得到多维的节点特征向量。

进一步地，所述基于所述根因图谱网络边集数据从拓扑图中一个预定起始节点开始使用随机游走生成序列数据，包括：

在拓扑图中设定一个起始节点c₀＝t，并以固定长度随机游走，节点c_i-1走到节点c_i的概率为：

其中，π_vx是节点之间非归一化概率，Z是用于归一化的节点之间的概率之和；

若游走路径已从节点t走到节点v，从节点v走到下一个节点x 按照转移概率π_vx＝α_pq(t,x)*w_vx选择对应的节点；

其中，α_pq(t,x)为节点t和节点x之间的最短路径距离对应的α值， w_vx为节点v和节点x之间的边权；

重复按照转移概率选择对应的下一个节点，并基于所有节点生成序列数据。

进一步地，所述α值的计算公式如下：

其中，d_tx是t到x的最近距离，d_tx的取值为[0,1,2]，p、q分别为离开起始节点的速度。

进一步地，所述基于所述节点特征向量生成的关系网络节点向量数据集构建标签化数据集，包括：

将节点向量特征的内积edge(u,v)＝f(u)*f(v)作为输入特征生成关系网络节点向量数据集；

对所述关系网络节点向量数据集进行包括有链接和无链接的两类标签的数据标记，得到标签化数据集:若边存在，则标签为1，若边不存在，则标签为0。

进一步地，所述获取根因图谱网络边集数据，包括以下步骤：

基于预设特征界定网络的故障时间和故障范围，并生成故障拓扑图；

通过查询所述故障拓扑图和同时发生的对比故障拓扑图中所有的边，并将边的数目作为边的权重表示成边向量的形式，得到所述根因图谱网络边集数据。

第二方面，本发明实施例提供一种根因分析频繁子图置信度预测系统，包括：

节点确定单元，用于确定待预测置信度的根因图谱网络中两个节点；

置信度预测单元，用于将所述待预测置信度的根因图谱网络中两个节点输入至根因分析频繁子图置信度预测模型，得到所述根因图谱网络中两个节点的置信度预测结果；

其中，所述根因分析频繁子图置信度预测模型是基于根因图谱王网络边集数据生成的关系网络节点向量数据集构建标签化数据集后对SVM分类模型进行调参训练得到的。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所提供的任一项所述根因分析频繁子图置信度预测方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所提供的任一项所述根因分析频繁子图置信度预测方法的步骤。

本发明实施例提供的一种根因分析频繁子图置信度预测方法及系统，采用基于节点相似性映射预测设备之间故障传播的概率，通过 node2vec将网络映射到向量的形式，构建带标签的数据集进行分类学习得到节点向量的分类结果作为预测传播结果。本发明通过对学习所得的节点向量构建关于节点对和链接的标签数据，并通过分类方法对网络中存在的链接和缺失的链接进行全面且均衡的预测，实现了根因分析频繁子图置信度预测的高效率及高准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种根因分析频繁子图置信度预测方法的流程示意图；

图2是本发明提供的分离超平面的线性分类器的示意图；

图3是本发明提供的下一节点转移概率的流程示意图；

图4是本发明提供的一种根因分析频繁子图置信度预测系统的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

传统的根因分析在频繁子图的处理方式主要使用业务拓扑、调用拓扑、部署拓扑等拓扑，根据拓扑中的相似关系，对故障进行界定，然后进行根因分析。传统的基于节点相似度的预测方法通过计算原本存在链接的节点之间相似度与任选的不存在链接的节点间的相似度进行比较，在测试数据中，对于网络边集中存在链接的节点间的相似度和任选一对不存在链接的节点间的相似度，如果前者相似性高于后者的概率更高，那说明方法准确性较高。但此种方法存在以下缺陷：

1)特征需要依赖人工定义，不是某个领域内专业人士无法从事工作，而且依靠人工定义特征不是很可靠，就算是领域专家也不能肯定提取出来的特征就一定管用。

2)计算相似性的特征选取非常复杂。节点的属性特征太多，影响节点之间的传播关系的特征，需要进行标准筛选，筛选的难度非常大。

3)只能验证正例数据(即存在链接的节点对)准确性，没有考虑在测试数据集中加入不存在的链接关系并对其进行预测评判。

4)非监督学习的降维方法，计算效率低，准确度也不够，而且还不能反应网络的结构特征。

下面结合图1-图5描述本发明提供的一种根因分析频繁子图置信度预测方法及系统。

本发明实施例提供了一种根因分析频繁子图置信度预测方法。图1为本发明实施例提供的根因分析频繁子图置信度预测方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待预测置信度的根因图谱网络中两个节点；

步骤120，将所述待预测置信度的根因图谱网络中两个节点输入至根因分析频繁子图置信度预测模型，得到所述根因图谱网络中两个节点的置信度预测结果；

具体地，基于Node2Vec对节点进行嵌入向量化，然后通过两个节点的点内积代表相似性特征，最后通过SVM二分类模型对标签数据进行学习，最后预测结果。

本发明实施例提供的方法，通过对学习所得的节点向量构建关于节点对和链接的标签数据，并通过分类方法对网络中存在的链接和缺失的链接进行全面且均衡的预测。

基于上述任一实施例，所述根因分析频繁子图置信度预测模型是基于当前网络故障拓扑图生成的关系网络节点向量数据集构建标签化数据集后对SVM分类模型进行调参训练得到的，包括:

获取根因图谱网络边集数据；

具体地，通过查询图谱中所有的边，整理成(v1,v2)代表边的形式，并且加上边的数目即权重，具体输入格式为：node1_id_int node2_id_int<weight_float,optional>。

需要说明的是，在node2vec之前有人提出了Deepwalk的方法，这种方法基于BFS和DFS的方法来进行随机游走，为node2vec提供了很好的思路。DeepWalk中根据边的权重进行随机游走，而node2vec 加了一个权重调整参数，最终生成的随机序列是一种DFS和BFS的结合。

具体地，通过SVM二分类模型对构建的标签数据进行学习调参，训练出模型。SVM的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器，如图2所示。当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。通过训练出的模型，对输入的两个节点，输出这两个节点有边的置信度。

基于上述任一实施例，所述基于所述根因图谱网络边集数据采用 Node2Vec对网络节点进行嵌入向量化得到节点特征向量，包括：

具体地，拓扑图中从一个节点开始使用random walk来生成类似文本的序列数据，具体算法执行流程如下：

1)Random walk

给定一个起始节点u，模拟一个固定长度l的随机游走，c_i表示游走的第i个节点，起始节点：c₀＝t。节点c_i-1走到节点c_i概率的定义为：

π_vx是节点之间非归一化概率，Z是用于归一化的节点之间的概率之和。

2)搜索参数α

如图3所示的下一节点转移概率图，假设已知游走路径已从t走到v，从节点v走到下一个节点x按照转移概率π_vx选择对应的节点；π_vx＝α_pq(t,x)*w_vx；

其中，d_tx是t到x的最近距离，d_tx的取值为[0,1,2]，p、q这两个参数觉得离开起点的速度。

参数P:表示访问已遍历节点的可能性；P>max(q,1)表示在连续两步，越小的可能访问已遍历节点,这种策略鼓励适度的探索，并避免了距离为2的节点抽样中的冗余；p<max(q,1)表示遍历的节点接近起始节点；

参数q:允许搜索区分“向内”和“向外”节点；q>1表示越大的可能抽样节点靠近t,可以获得与遍历中的开始节点相关的底层图的局部视图，与BFS类似；q<1表示越大的可能抽样节点远离t,与DFS类似；p＝q＝1就是deepwalk。

具体地，使用word2vec训练模型，把生成的序列数据输入到 word2vec模型，模型仍使用skip gram去训练，生成多维的向量。

基于上述任一实施例，所述基于所述根因图谱网络边集数据从拓扑图中一个预定起始节点开始使用随机游走生成序列数据，包括：

基于上述任一实施例，所述α值的计算公式如下：

基于上述任一实施例，所述基于所述节点特征向量生成的关系网络节点向量数据集构建标签化数据集，包括：

具体地，对于映射层输出的节点特征向量，本发明对生成的关系网络节点向量数据集构造标签化数据集。对于标签化数据集，结合网络关系数据的特点，标记数据存在两类标签：有链接和无链接，即转化成一个二分类问题。

输入特征为节点向量特征的内积edge(u,v)＝f(u)*f(v)。从拓扑图中查询边是否存在，如果边存在，标签为1，如果不存在，标签为0。为了保证训练数据集中正例数据与负例数据的充分性和完备性，从原网络中选择0.3*|E|数量的无关系链接节点对构建标签为-1的标签数据。所以构造的标签化数据集有(1+0.3)|E|条数据。

基于上述任一实施例，所述获取根因图谱网络边集数据，包括以下步骤：

需要说明的是，在根因定位中，其中重要的一个环节是故障定界。本发明技术方案主要说明的是在根因定位中对故障产生了定界，然后生成了不同的故障拓扑图，利用频繁子图置信度预测方法，对相似的故障进行预测，然后把不同的故障进行收敛合并，从而界定更准确的根因定位分析边界。由于传统的基于相似度的链接预测方法复杂且预测不全面且不均衡，于是有人提出基于节点特征映射和网络表示学习类的方法，将网络表示成关于节点的低维向量表示。DeepWalk方法基于自然语言中的Word2Vec节点向量化模型，该方法在由众多节点和众多的关系链接构成的网络上进行节点游走，并生成游走序列，来模仿语言中文本的生成原理，得到的是包含各个节点的节点序列，然后使用Skip-gram模型和分层次的one-hot方法对游走序列的指定窗口内的节点进行概率建模，最终目标是最大化得到此游走序列的似然概率，并最终输出节点的向量表示。

本发明技术方案使用的是在此基础之上的node2Vec方法，改进了DeepWalk方法的游走序列生成策略，该方法在游走过程中设置调和参数p和q，兼顾BFS的宽度跟DFS的广度，让序列更完整的保存节点中所包含的网络原始信息。网络转换成关于节点的低维向量表示之后，可以看作是从网络中提取了关于节点的多维向量表示，其中的每一个维度都能表征网络中节点之间在某一个维度的相似性，相比之前具有现实意义的少数维度信息，现在的结果能包含更多维度上的信息，而且此维度大小可以通过模型参数的设置进行调整，利用经利用经验值以及反复实验等方案能够得到适用于特定网络的最优维度值。本发明技术方案在node2vec方法的基础之上，结合机器学习分类方法的思想，提出Net2Vec-classify方法，该方法主要对向量化模型优化过程进行理论优化，改进参数调整规则，获得更好的参数下降速度和收敛速度，算法的最后一部分核心是标签化数据集构建，以及SVM分类器的训练。

下面对本发明提供的一种根因分析频繁子图置信度预测系统进行描述，下文描述的与上文描述的一种根因分析频繁子图置信度预测方法可相互对应参照。

图4为本发明实施例提供的一种根因分析频繁子图置信度预测系统的结构示意图，如图4所示，该系统包括节点确定单元410和置信度预测单元420：

节点确定单元410，用于确定待预测置信度的根因图谱网络中两个节点；

置信度预测单元420，用于将所述待预测置信度的根因图谱网络中两个节点输入至根因分析频繁子图置信度预测模型，得到所述根因图谱网络中两个节点的置信度预测结果；

本发明实施例提供的系统，通过对学习所得的节点向量构建关于节点对和链接的标签数据，并通过分类方法对网络中存在的链接和缺失的链接进行全面且均衡的预测。

获取根因图谱网络边集数据；

其中，α_pq(t,x)为节点t和节点x之间的最短路径距离对应的α值，w_vx为节点v和节点x之间的边权；

基于上述任一实施例，所述α值的计算公式如下：

图5为本发明实施例提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口 (Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行根因分析频繁子图置信度预测方法，该方法包括：确定待预测置信度的根因图谱网络中两个节点；将所述待预测置信度的根因图谱网络中两个节点输入至根因分析频繁子图置信度预测模型，得到所述根因图谱网络中两个节点的置信度预测结果；其中，所述根因分析频繁子图置信度预测模型是基于根因图谱网络边集数据生成的关系网络节点向量数据集构建标签化数据集后对SVM分类模型进行调参训练得到的。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的根因分析频繁子图置信度预测方法，该方法包括：确定待预测置信度的根因图谱网络中两个节点；将所述待预测置信度的根因图谱网络中两个节点输入至根因分析频繁子图置信度预测模型，得到所述根因图谱网络中两个节点的置信度预测结果；其中，所述根因分析频繁子图置信度预测模型是基于根因图谱网络边集数据生成的关系网络节点向量数据集构建标签化数据集后对SVM分类模型进行调参训练得到的。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的根因分析频繁子图置信度预测方法，该方法包括：确定待预测置信度的根因图谱网络中两个节点；将所述待预测置信度的根因图谱网络中两个节点输入至根因分析频繁子图置信度预测模型，得到所述根因图谱网络中两个节点的置信度预测结果；其中，所述根因分析频繁子图置信度预测模型是基于根因图谱网络边集数据生成的关系网络节点向量数据集构建标签化数据集后对SVM分类模型进行调参训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种根因分析频繁子图置信度预测方法，其特征在于，包括：

确定待预测置信度的根因图谱网络中两个节点；

其中，所述根因分析频繁子图置信度预测模型是基于根因图谱网络边集数据生成的关系网络节点向量数据集构建标签化数据集后对SVM分类模型进行调参训练得到的。

2.根据权利要求1所述的根因分析频繁子图置信度预测方法，其特征在于，所述根因分析频繁子图置信度预测模型是基于当前网络故障拓扑图生成的关系网络节点向量数据集构建标签化数据集后对SVM分类模型进行调参训练得到的，包括：

获取根因图谱网络边集数据；

3.根据权利要求2所述的根因分析频繁子图置信度预测方法，其特征在于，所述基于所述根因图谱网络边集数据采用Node2Vec对网络节点进行嵌入向量化得到节点特征向量，包括：

4.根据权利要求3所述的根因分析频繁子图置信度预测方法，其特征在于，所述基于所述根因图谱网络边集数据从拓扑图中一个预定起始节点开始使用随机游走生成序列数据，包括：

若游走路径已从节点t走到节点v，从节点v走到下一个节点x按照转移概率π_vx＝α_pq(t,x)*w_vx选择对应的节点；

5.根据权利要求4所述的根因分析频繁子图置信度预测方法，其特征在于，所述α值的计算公式如下：

6.根据权利要求3所述的根因分析频繁子图置信度预测方法，其特征在于，所述基于所述节点特征向量生成的关系网络节点向量数据集构建标签化数据集，包括：

将节点向量特征的内积edge(u,v)=f(u)*f(v)作为输入特征生成关系网络节点向量数据集；

7.根据权利要求2所述的根因分析频繁子图置信度预测方法，其特征在于，所述获取根因图谱网络边集数据，包括以下步骤：

8.一种根因分析频繁子图置信度预测系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的根因分析频繁子图置信度预测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述的根因分析频繁子图置信度预测方法的步骤。