CN113220946A

CN113220946A - 基于强化学习的故障链路搜索方法、装置、设备及介质

Info

Publication number: CN113220946A
Application number: CN202110572445.7A
Authority: CN
Inventors: 李子佳; 庞一文
Original assignee: Pingan Payment Technology Service Co Ltd
Current assignee: Pingan Payment Technology Service Co Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-06
Anticipated expiration: 2041-05-25
Also published as: CN113220946B

Abstract

本申请涉及人工智能技术领域，揭露一种基于强化学习的故障链路搜索方法、装置、设备及介质，其中方法包括当监控系统向用户端发出告警信息时，则获取异常节点信息和邻域节点信息，并进行状态编码，得到异常节点状态编码和邻域节点状态编码；并确定异常节点所要转移的方向；根据转移的方向，获取对应的转移节点信息，将每次获取到的转移节点信息作为关注节点信息；根据关注节点的转移方向，获取关注节点对应不同的关注节点信息，从而得到异常节点链路，并将异常节点链路返回给用户端。本申请还涉及区块链技术，异常节点信息存储于区块链中。本发明实施例实现沿故障链路逐步探索，最终搜索得到异常节点链路，有利于提高故障链路搜索的效率。

Description

基于强化学习的故障链路搜索方法、装置、设备及介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于强化学习的故障链路搜索方法、装置、设备及介质。

背景技术

当系统监控平台出现故障或异常告警时，通常需要对告警进行根因分析，搜索故障的传播链路，定位故障根源，从而便于从根源上修复故障，提高故障恢复效率。在异常告警大量出现的情况，对故障链路搜索将起到尤为重要的作用。

目前故障链路搜索采用的方法是基于监督学习与推荐系统。该方法是通过训练图神经网络等模型，对系统中每个节点进行打分，计算每个节点导致所述告警的概率值，从中选取概率值最大的节点，作为故障根源。然而这种方式的训练模型需要有标注的数据，标注数据获取较为困难，并且当图数据规模较大时，难以直接输入到图神经网络中，通常需要剪枝等预处理操作，该过程相对复杂，从而导致这种方式的故障链路搜索的效率较低。现亟需一种能够提高故障链路搜索的效率的方法。

发明内容

本申请实施例的目的在于提出一种基于强化学习的故障链路搜索方法、装置、设备及介质，以提高故障链路搜索的效率。

为了解决上述技术问题，本申请实施例提供一种基于强化学习的故障链路搜索方法，包括：

当监控系统向用户端发出告警信息时，则获取所述告警信息对应的异常节点信息，其中，所述异常节点信息包括：节点的类型、节点异常类型、异常发生的时间，以及异常节点信息对应的节点调用关系；

获取所述异常节点信息对应的邻域节点信息，并分别对所述异常节点信息以及所述邻域节点信息进行状态编码，得到异常节点状态编码和邻域节点状态编码；

通过训练好的决策模型对所述异常节点状态编码和所述邻域节点状态编码进行节点转移方向处理，得到所述异常节点信息对应的异常节点所要转移的方向；

根据所述转移的方向，获取所述异常节点对应的转移节点信息，并将所述转移节点信息发送给所述用户端，以及将每次获取到的所述转移节点信息作为关注节点信息；

根据所述关注节点信息对应关注节点的转移方向，获取所述关注节点对应的转移节点信息，直至所述关注节点为终止节点或获取次数超过预设次数，则停止获取所述转移节点信息，得到不同的所述关注节点信息；

将不同的所述关注节点信息对应的节点与所述异常节点按照调用关系进行连接，得到异常节点链路，并将所述异常节点链路返回给所述用户端。

为了解决上述技术问题，本申请实施例提供一种基于强化学习的故障链路搜索装置，包括：

异常节点信息获取模块，用于当监控系统向用户端发出告警信息时，则获取所述告警信息对应的异常节点信息，其中，所述异常节点信息包括：节点的类型、节点异常类型、异常发生的时间，以及异常节点信息对应的节点调用关系；

节点状态编码获取模块，用于获取所述异常节点信息对应的邻域节点信息，并分别对所述异常节点信息以及所述邻域节点信息进行状态编码，得到异常节点状态编码和邻域节点状态编码；

节点转移方向处理模块，用于通过训练好的决策模型对所述异常节点状态编码和所述邻域节点状态编码进行节点转移方向处理，得到所述异常节点信息对应的异常节点所要转移的方向；

转移节点信息确定模块，用于根据所述转移的方向，获取所述异常节点对应的转移节点信息，并将所述转移节点信息发送给所述用户端，以及将每次获取到的所述转移节点信息作为关注节点信息；

关注节点信息获取模块，用于根据所述关注节点信息对应关注节点的转移方向，获取所述关注节点对应的转移节点信息，直至所述关注节点为终止节点或获取次数超过预设次数，则停止获取所述转移节点信息，得到不同的所述关注节点信息；

异常节点链路形成模块，用于将不同的所述关注节点信息对应的节点与所述异常节点按照调用关系进行连接，得到异常节点链路，并将所述异常节点链路返回给所述用户端。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种计算机设备，包括，一个或多个处理器；存储器，用于存储一个或多个程序，使得一个或多个处理器实现上述任意一项所述的基于强化学习的故障链路搜索方法。

为解决上述技术问题，本发明采用的一个技术方案是：一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的基于强化学习的故障链路搜索方法。

本发明实施例提供了一种基于强化学习的故障链路搜索方法、装置、设备及介质。本发明实施例通过对异常节点信息和邻域节点信息进行状态编码，并根据决策模型判断异常节点需要转移的节点，从而获取到下一个关注节点，再逐渐获取各个关注节点，最终获取异常节点链路，实现沿故障链路逐步探索，最终搜索得到异常节点链路，进而实现告警信息进行故障定位，有利于提高故障链路搜索的效率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于强化学习的故障链路搜索方法的应用环境示意图；

图2根据本申请实施例提供的基于强化学习的故障链路搜索方法的一实现流程图；

图3是本申请实施例提供的基于强化学习的故障链路搜索方法中子流程的一实现流程图；

图4是本申请实施例提供的基于强化学习的故障链路搜索方法中子流程的又一实现流程图；

图5是本申请实施例提供的基于强化学习的故障链路搜索方法中子流程的又一实现流程图；

图6是本申请实施例提供的基于强化学习的故障链路搜索方法中子流程的又一实现流程图；

图7是本申请实施例提供的基于强化学习的故障链路搜索方法中子流程的又一实现流程图；

图8是本申请实施例提供的基于强化学习的故障链路搜索方法中子流程的又一实现流程图；

图9是本申请实施例提供的基于强化学习的故障链路搜索装置示意图；

图10是本申请实施例提供的计算机设备的示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

下面结合附图和实施方式对本发明进行详细说明。

请参阅图1，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、搜索类应用、即时通信工具等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于强化学习的故障链路搜索方法一般由服务器执行，相应地，基于强化学习的故障链路搜索装置一般配置于服务器中。

监控系统配置于服务器105中，服务器能够通过监控系统对节点的相关信息进行监控与存储，当监控到节点发生异常时，服务器能够将监控系统所产生告警信息发送到用户端；

用户端包括终端设备101、102、103，用户端可以接收服务器105所发送的告警信息，并通过告警信息去启动对应的应用服务，也可以接收服务器105所发送的异常节点链路，用于对节点故障进行根因分析。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参阅图2，图2示出了基于强化学习的故障链路搜索方法的一种具体实施方式。

需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限，该方法包括如下步骤：

S1：当监控系统向用户端发出告警信息时，则获取告警信息对应的异常节点信息。

具体的，由于监控系统对节点的相关信息进行监控与存储，当监控系统监控到有节点发生异常时，将会产生告警信息，服务器将告警信息发送给用户端，用户端则根据告警信息启动对应的应用或服务，则服务器会获取告警信息对应的异常节点信息。

其中，监控系统表示为有向图模型。监控系统中的应用、服务、数据库等均表示为节点的形式；节点之间存在调用关系，图模型中的有向边指向被调用节点，定义该方向为上游方向，即异常来源于被调用节点。本方案的思路是从故障下游节点开始，沿调用关系，向故障上游追溯，得到完整故障链路的过程。亦或本方案的思路是从故障上游节点开始，沿调用关系，向故障下游追溯，得到完整故障链路的过程。异常节点信息包括：节点的类型、节点异常类型、异常发生的时间，以及异常节点信息对应的节点调用关系。

其中，异常节点信息对应的节点调用关系是指与异常节点为中心，与异常节点存在一步调用或被调用的节点关系，或者是多步调用或被调用的节点关系。一步调用或调用的节点关系是指该节点与其他节点存在一次调用关系，例如，B节点为异常节点，A节点被B节点调用，B节点被C节点调用，则B节点与A节点存在一步调用关系，B节点与C节点存在一步被调用关系。多步调用或被调用的节点关系是指该节点与其他节点存在多次调用关系，例如A节点为异常节点，A节点被B节点调用，B节点被C节点调用，C节点被D节点调用，则A节点与B、C、D节点存在三步被调用关系，反之，D节点与A、B、C节点存在三步调用关系。

请参阅图3，图3示出了步骤S1的一种具体实施方式，该实施例包括：

S11：当监控系统监测到节点发生异常，则将节点作为异常节点，并产生告警信息。

具体的，监控系统可以通过监控节点的返回值来检测节点是否发生异常，若节点返回值与预设的正常值不符合时，则服务器判定该节点发生异常，将该节点确定为异常节点，进而产生告警信息以通知用户端。其中，预设的正常值是根据事先在节点对应服务正常工作时所检测到的值。

S12：将告警信息发送给用户端，以使得用户端启动异常节点对应的应用服务，以获取异常节点对应的异常节点信息。

具体的，在监控系统中的应用、服务、数据库等均表示为节点的形式，当某一节点发生异常时，监控信息产生告警信息并发送给用户端，用户端启动对应的应用服务，服务器就能够获取对应的异常节点信息，以便后续进行故障链路搜索。

本实施中，当监控系统监测到节点发生异常，则将节点作为异常节点，并接收监控系统所产生的告警信息，再将告警信息发送给用户端，以使得用户端启动异常节点对应的应用服务，以获取异常节点对应的异常节点信息，实现监测节点信息，当节点发生异常时，快速获取异常节点信息，有利于后续进行故障链路搜索。

S2：获取异常节点信息对应的邻域节点信息，并分别对异常节点信息以及邻域节点信息进行状态编码，得到异常节点状态编码和邻域节点状态编码。

具体的，由于异常节点信息包括异常节点信息对应的节点调用关系，为了更好的对告警进行根因分析，得到异常节点的链路信息，需要获取与异常节点相邻的节点信息，也即邻域节点信息。

具体的，状态编码是指按照每个节点的节点类型、节点异常的类型和链路信息，对节点进行向量转换，形成三维张量的形式，以便于对节点的执行动作进行分析。在申请实施例中，对异常节点信息以及邻域节点信息进行状态编码是指对每个节点都单独进行状态编码，从而得到异常节点状态编码和每个邻域节点状态编码。

请参阅图4，图4示出了步骤S2的一种具体实施方式，该实施例包括：

S21：根据预设节点个数以及异常节点对应的节点调用关系，获取邻域节点信息。

需要说明的是，预设节点个数根据实际情况进行设定，此处不做限定，在一具体实施例中，预设节点个数为40个。

S22：根据节点的类型和异常节点类型，分别对异常节点信息以及邻域节点信息进行编码，得到异常节点编码和邻域节点编码。

S23：分别获取异常节点编码以及邻域节点编码各自节点的链路信息，得到异常节点信号编码和邻域节点信号编码。

具体的，链路信息是指与节点为起点，随机游走的链路数量和链路长度。以A节点为例，存在A节点→B节点→C节点→D节点,以及A节点→E节点→F节点→H节点两条节点调用关系，则A节点的链路信息是存在两条链路和链路长度为3个节点调用长度。

S24：分别将异常节点信号编码以及邻域节点信号编码各自的链路信息进行合并，得到异常节点状态编码和邻域节点状态编码。

具体的，对应异常节点信息的状态编码和对每个邻域节点信息的状态编码采用的是同样的手段，现以异常节点信息进行状态编码进行说明。先对异常节点信息进行节点编码，也即对于异常节点p[i]，其信号定义为N维向量x_i＝[x_T1,x_T2,…,x_E1,x_E2,…]^T∈R^N×1，其中x_T1表示节点是否为类型T1，x_T2表示节点是否为类型T2，x_E1表示节点是否为存在异常E1，x_E2表示节点是否存在异常E2，以此类推。再以异常节点p[i]为起点，随机游走得到K条链路，链路长度为M，则第k条链路上的信号编码为矩阵

最后将所有K条链路的编码合并，得到最终的状态编码，表示为三维张量s_i＝[l₁,l₂,…,l_K]^T∈R^K×M×N。

本实施中，根据预设节点个数以及异常节点对应的节点调用关系，获取邻域节点信息，再根据节点的类型和异常节点类型，分别对异常节点信息以及邻域节点信息进行编码，得到异常节点编码和邻域节点编码，然后分别获取异常节点编码以及邻域节点编码各自节点的链路信息，得到异常节点信号编码和邻域节点信号编码，分别将异常节点信号编码以及邻域节点信号编码各自的链路信息进行合并，得到异常节点状态编码和邻域节点状态编码，实现对异常节点信息和邻域节点信息进行状态编码，便于后续判断节点的转移方向，从而有利于提高故障链路搜索的效率。

S3：通过训练好的决策模型对异常节点状态编码和邻域节点状态编码进行节点转移方向处理，得到异常节点信息对应的异常节点所要转移的方向。

具体的，上述步骤已经对异常节点信息和邻域节点信息进行状态编码，则将异常节点状态编码和邻域节点状态编码输入到训练好的决策模型中，由训练好的决策模型去判断异常节点需要转移的下一个节点。训练好的决策模型是根据与当前关注的异常节点存在调用关系的节点，并且判断这些节点中哪个节点对应方向的异常程度更高，则将关注节点转移到该节点，从而得到异常节点到下一个节点的链路信息。

其中，训练好的决策模块的输入为某关注节点的状态编码p[i](本步骤的关注节点为异常节点)及其邻域节点状态编码s[i]，输出为执行的动作a[i]，即将关注的节点从当前节点p[i]转移至其某个相邻节点p[i+1]。

请参阅图5，图5示出了步骤S3的一种具体实施方式，该实施例包括：

S31：从邻域节点信息中，提取异常节点存在一步调用或被调用关系的邻域节点，得到多个待转移节点。

具体的，由于需要判断异常节点下一步的转移的对象节点，所以需要获取到异常节点存在一步调用或被调用关系的邻域节点。

S32：获取多个待转移节点对应的状态编码，并统计出每个待转移节点对应的状态编码中存在的异常节点类型数量。

具体的，待转移节点的异常节点类型数量越多，说明该节点存在的异常程度越高，进而有利于判断异常节点下一步的转移方向。

S33：通过训练好的决策模型根据存在的异常节点类型数量确定异常节点转移方向，得到异常节点所要转移的方向。

具体的，训练好的决策模型是通过判断向不同节点方向转移的动作价值判定异常节点转移方向的。其中，向某节点方向转移的动作价值为该方向的整体异常程度，该整体异常程度可以通过异常节点类型进行体现，即沿该方向逐步转移至终止节点的整个过程中，所经过节点的异常程度的累积和，动作价值可表示为q(s[i],a[i])＝r_i+r_i+1+…+r_End，其中r_i为第i个节点的异常程度，r_End为终止节点的异常程度。在一具体实施例中，当异常节点位置从p[i]移动到新节点p[i+1]后，对于新节点p[i+1]，该节点的异常程度表示为该节点上存在的异常的种类数量r_i+1＝x_E1+x_E2+…。

本实施例中，通过从邻域节点信息中，提取异常节点存在一步调用或被调用关系的邻域节点，得到多个待转移节点，并获取多个待转移节点对应的状态编码，并统计出每个待转移节点对应的状态编码中存在的异常节点类型数量，通过训练好的决策模型根据存在的异常节点类型数量确定异常节点转移方向，得到异常节点所要转移的方向，明确了异常节点下一个转移节点，便于逐步获取故障链路，从而提高故障链路的搜索效率。

请参阅图6，图6示出了步骤S3之前的一种具体实施方式，该实施例包括：

S3A：通过卷积神经网络的输入层获取状态信号，并将状态信号输入到卷积神经网络的卷积层中，提取状态信号的节点特征。

S3B：以节点特征为起点，获取节点特征的链路信息。

S3C：对链路信息进行降维处理，并通过卷积神经网络的扁平化层将降维处理后的链路信息转化为一维向量。

具体的，通过卷积神经网络的卷积层以节点特征为起点，获取节点特征的链路信息，由于该链路信息为多维向量，则先通过卷积神经网络的卷积层对其进行降维处理，在将其输入神经网络的扁平化层，将其转化为一维向量。

S3D：通过卷积神经网络的全连接层对一维向量进行计算处理，得到不同方向所对应的动作价值，并将动作价值作为卷积神经网络的单次输出结果。

具体的，通过卷积神经网络对输入的状态信号进行节点特征提取，获取到节点的节点信息，再根据该节点特征获取与该节点存在调用与被调用关系的节点序列，并与该节点为起点，随机游走得到K条链路，链路长度为M，也即获取节点特征的链路信息；然后对链路信息进行降维处理，通过全连接层计算其动作价值，由输出层输出动作价值信息。决策时，比较不同方向的动作价值，选择具有最大价值的方向进行转移，也即得到节点的转移方向，最终通过该转移方式，输出该节点的链路信息，并将该节点的链路信息作为卷积神经网络的单次输出结果。

本实施例中，通过卷积神经网络获取状态信号，并获取对应的节点特征，通过该状态信号对卷积神经网络进行训练处理，最终得到卷积神经网络的单次输出结果，实现对决策模型进行训练，获取其输出结果，便于后续得到训练好的决策模型。

请参阅图7，图7示出了步骤S3D之前的一种具体实施方式，该实施例包括：

S3E：判断单次输出结果是否达到预设阈值，得到第一判断结果。

具体的，预设阈值是指获取到的单次输出结果与状态信号对应节点实际的故障链路的偏差程度，该预设阈值根据实际情况进行设定，此处不做限定。

S3F：若第一判断结果为单次输出结果未达到预设阈值，则重新获取状态信号。

S3H：通过状态信号对卷积神经网络进行模型训练处理，得到新的输出结果，直至新的输出结果达到预设阈值，则停止模型训练处理，得到训练好的决策模型。

具体的，当输出结果为达到预设阈值，则会重新获取状态信号，重新对模型进行训练，当训练一定轮数后，模型对动作价值的估计趋于准确，表现为每轮训练所得链路的整体异常程度较高，此时整体异常程度基本稳定，并且新的输出结果超过预设阈值，则停止模型训练，得到所述训练好的决策模型。其中，模型训练处理是指通过上诉步骤S3A至S3D的实施过程，其根据获取状态信号，最终输出卷积神经网络输出结果。

本实施例中，通过对模型不断训练，直至新的输出结果达到预设阈值，则得到训练好的决策模型，有利于通过决策模型判断节点的转移方向，进而有利于提高故障链路的搜索效率。

S4：根据转移的方向，获取异常节点对应的转移节点信息，并将转移节点信息发送给用户端，以及将每次获取到的转移节点信息作为关注节点信息。

具体的，由于已经确定了异常节点所要转移的方向，只要根据该转移方向，则获取异常节点下一个节点，也即获取异常节点对应的转移节点信息，并将每次获取到的转移节点信息重新作为关注节点，便于后续根据该关注节点，以获取下一个转移节点。同时将获取到转移节点发送给用户端，其作为单步故障追踪结果，也即异常节点到下一个节点的追踪结果。关注节点是指异常节点链路中的一个节点，并且需要判断该节点是否还有其他需要转移的节点。

S5：根据关注节点信息对应关注节点的转移方向，获取关注节点对应的转移节点信息，直至关注节点为终止节点或获取次数超过预设次数，则停止获取转移节点信息，得到不同的关注节点信息。

具体的，对应每一个关注节点，将其进行状态编码，并通过训练好的决策模型得到其需要转移的方向，从而获取到对应的转移节点信息，然后再将该转移节点作为关注节点，继续获取下一个关注节点，直至获取到的关注节点为终止节点或者获取次数超过预设次数，停止获取转移节点信息，得到不同的关注节点信息。

其中，终止节点为该节点不再被上游或者下游存在节点异常的节点调用。为了防止所获取的关注节点过多，或是因为根据需要只获取部分关注节点，可以根据实际情况只获取到部分关注节点，所以设定获取次数，当获取关注节点次数达到预设次数时，也停止继续获取关注节点。需要说明的是，预设次数根据实际情况进行设定，此处不做限定。在一具体实施例中，预设次数为30次。

请参阅图8，图8示出了步骤S5的一种具体实施方式，该实施例包括：

S51：判断关注节点是否为终止节点，得到第二判断结果。

S52：若第二判断结果为关注节点不是终止节点，则获取关注节点信息对应的状态编码，得到关注节点状态编码。

具体的，由于存在获取到的第一个关注节点为终止节点，所以首先需要判断第一个获取到的关注节点是否是终止节点，若是，则不再继续后续步骤；若否，则继续获取下一个关注节点，直至关注节点为终止节点或获取次数超过预设次数为止。

S53：将关注节点状态编码输入到训练好的决策模型中，得到关注节点的转移方向。

具体的，训练好的决策模型是通过判断向不同节点方向转移的动作价值判定关注节点转移方向的。其中，向某节点方向转移的动作价值为该方向的整体异常程度，该整体异常程度可以通过异常节点类型进行体现。获取关注节点的转移方向与获取异常节点对应的转移方向采用的方法相同，也即采用上述步骤S31至步骤S33的实施过程。

S54：根据关注节点的转移方向，获取关注节点对应的转移节点信息，直至关注节点为终止节点或获取次数超过预设次数，则停止获取转移节点信息，得到不同的关注节点信息。

具体的，每获取到一个新的转移节点信息，都将其重新作为关注节点，再判断其是否为终止节点，和判断获取次数是否达到预设次数，若该关注节点不为终止节点和获取次数未达到预设次数，则重新判断该关注节点的转移方向，并获取下一个关注节点信息，直至关注节点为终止节点或获取次数达到预设次数，停止获取转移节点信息，此时得到不同的关注节点信息。

本实施例中，通过判断关注节点是否为终止节点，得到第二判断结果，若第二判断结果为关注节点不是终止节点，则重新获取关注节点的转移方向，并获取下一个转移节点，至关注节点为终止节点或获取次数超过预设次数，则停止获取转移节点信息，得到不同的关注节点信息，实现沿故障链路逐步探索，获取不同的节点，有利于提高故障链路搜索的效率。

S6：将不同的关注节点信息对应的节点与异常节点按照调用关系进行连接，得到异常节点链路，并将异常节点链路返回给用户端。

具体的，由于异常节点和关注节点之间都是存在调用关系的，所以按照调用关系将异常节点和关注节点逐一连接，从而形成异常节点链路，该异常节点链路则为产生告警信息所对应的故障链路，再将异常节点链路返回用户端，便于用户端沿异常节点链路进行根因分析和故障定位。

本实施例中，通过对异常节点信息和邻域节点信息进行状态编码，并根据决策模型判断异常节点需要转移的节点，从而获取到下一个关注节点，再逐渐获取各个关注节点，最终获取异常节点链路，实现沿故障链路逐步探索，最终搜索得到异常节点链路，进而实现告警信息进行故障定位，有利于提高故障链路搜索的效率，同时本实施例通过获取异常节点链路，为故障自愈以及异常告警聚合等功能提供重要参考信息。

需要强调的是，为进一步保证上述异常节点信息的私密和安全性，上述异常节点信息还可以存储于一区块链的节点中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

请参考图9，作为对上述图2所示方法的实现，本申请提供了一种基于强化学习的故障链路搜索装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图9所示，本实施例的基于强化学习的故障链路搜索装置包括：异常节点信息获取模块71、节点状态编码获取模块72、节点转移方向处理模块73、转移节点信息确定模块74、关注节点信息获取模块75及异常节点链路形成模块76，其中：

异常节点信息获取模块71，用于当监控系统向用户端发出告警信息时，则获取告警信息对应的异常节点信息，其中，异常节点信息包括：节点的类型、节点异常类型、异常发生的时间，以及异常节点信息对应的节点调用关系；

节点状态编码获取模块72，用于获取异常节点信息对应的邻域节点信息，并分别对异常节点信息以及邻域节点信息进行状态编码，得到异常节点状态编码和邻域节点状态编码；

节点转移方向处理模块73，用于通过训练好的决策模型对异常节点状态编码和邻域节点状态编码进行节点转移方向处理，得到异常节点信息对应的异常节点所要转移的方向；

转移节点信息确定模块74，用于根据转移的方向，获取异常节点对应的转移节点信息，并将转移节点信息发送给用户端，以及将每次获取到的转移节点信息作为关注节点信息；

关注节点信息获取模块75，用于根据关注节点信息对应关注节点的转移方向，获取关注节点对应的转移节点信息，直至关注节点为终止节点或获取次数超过预设次数，则停止获取转移节点信息，得到不同的关注节点信息；

异常节点链路形成模块76，用于将不同的关注节点信息对应的节点与异常节点按照调用关系进行连接，得到异常节点链路，并将异常节点链路返回给用户端。

进一步的，节点状态编码获取模块72包括：

邻域节点信息获取单元，用于根据预设节点个数以及异常节点对应的节点调用关系，获取邻域节点信息；

节点编码单元，用于根据节点的类型和异常节点类型，分别对异常节点信息以及邻域节点信息进行编码，得到异常节点编码和邻域节点编码；

链路信息获取单元，用于分别获取异常节点编码以及邻域节点编码各自节点的链路信息，得到异常节点信号编码和邻域节点信号编码；

链路信息合并单元，用于分别将异常节点信号编码以及邻域节点信号编码各自的链路信息进行合并，得到异常节点状态编码和邻域节点状态编码。

进一步的，节点转移方向处理模块73包括：

待转移节点获取单元，用于从邻域节点信息中，提取异常节点存在一步调用或被调用关系的邻域节点，得到多个待转移节点；

异常节点类型数据统计单元，用于获取多个待转移节点对应的状态编码，并统计出每个待转移节点对应的状态编码中存在的异常节点类型数量；

转移方向确定单元，用于通过训练好的决策模型根据存在的异常节点类型数量确定异常节点转移方向，得到异常节点所要转移的方向。

进一步的，在节点转移方向处理模块73之前，该基于强化学习的故障链路搜索装置还包括：

状态信号获取模块，用于通过卷积神经网络的输入层获取状态信号，并将状态信号输入到卷积神经网络的卷积层中，提取状态信号的节点特征；

链路信息获取模块，用于以节点特征为起点，获取节点特征的链路信息；

链路信息转化模块，用于对链路信息进行降维处理，并通过卷积神经网络的扁平化层将降维处理后的链路信息转化为一维向量；

动作价值获取模块，用于通过卷积神经网络的全连接层对一维向量进行计算处理，得到不同方向所对应的动作价值，并将动作价值作为卷积神经网络的单次输出结果。

进一步的，在动作价值获取模块之后，该基于强化学习的故障链路搜索装置还包括：

第一判断结果确定模块，用于判断单次输出结果是否达到预设阈值，得到第一判断结果；

状态信号重新获取模块，用于若第一判断结果为单次输出结果未达到预设阈值，则重新获取状态信号；

决策模型输出模块，用于通过状态信号对卷积神经网络进行模型训练处理，得到新的输出结果，直至新的输出结果达到预设阈值，则停止模型训练处理，得到训练好的决策模型。

进一步的，关注节点信息获取模块75包括：

第二判断结果确定单元，用于判断关注节点是否为终止节点，得到第二判断结果；

关注节点状态编码单元，用于若第二判断结果为关注节点不是终止节点，则获取关注节点信息对应的状态编码，得到关注节点状态编码；

关注节点转移确定单元，用于将关注节点状态编码输入到训练好的决策模型中，得到关注节点的转移方向；

关注节点信息确定单元，用于根据关注节点的转移方向，获取关注节点对应的转移节点信息，直至关注节点为终止节点或获取次数超过预设次数，则停止获取转移节点信息，得到不同的关注节点信息。

进一步的，异常节点信息获取模块71包括：

告警信息产生单元，用于当监控系统监测到节点发生异常，则将节点作为异常节点，并产生告警信息；

告警信息发送单元，用于将告警信息发送给用户端，以使得用户端启动异常节点对应的应用服务，以获取异常节点对应的异常节点信息。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图10，图10为本实施例计算机设备基本结构框图。

计算机设备8包括通过系统总线相互通信连接存储器81、处理器82、网络接口83。需要指出的是，图中仅示出了具有三种组件存储器81、处理器82、网络接口83的计算机设备8，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器81至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器81可以是计算机设备8的内部存储单元，例如该计算机设备8的硬盘或内存。在另一些实施例中，存储器81也可以是计算机设备8的外部存储设备，例如该计算机设备8上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器81还可以既包括计算机设备8的内部存储单元也包括其外部存储设备。本实施例中，存储器81通常用于存储安装于计算机设备8的操作系统和各类应用软件，例如基于强化学习的故障链路搜索方法的程序代码等。此外，存储器81还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器82在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器82通常用于控制计算机设备8的总体操作。本实施例中，处理器82用于运行存储器81中存储的程序代码或者处理数据，例如运行上述基于强化学习的故障链路搜索方法的程序代码，以实现基于强化学习的故障链路搜索方法的各种实施例。

网络接口83可包括无线网络接口或有线网络接口，该网络接口83通常用于在计算机设备8与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序可被至少一个处理器执行，以使至少一个处理器执行如上述的一种基于强化学习的故障链路搜索方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于强化学习的故障链路搜索方法，其特征在于，包括：

2.根据权利要求1所述的基于强化学习的故障链路搜索方法，其特征在于，所述获取所述异常节点信息对应的邻域节点信息，并分别对所述异常节点信息以及所述邻域节点信息进行状态编码，得到异常节点状态编码和邻域节点状态编码，包括：

根据预设节点个数以及所述异常节点对应的节点调用关系，获取所述邻域节点信息；

根据所述节点的类型和所述异常节点类型，分别对所述异常节点信息以及所述邻域节点信息进行编码，得到异常节点编码和邻域节点编码；

分别获取所述异常节点编码以及邻域节点编码各自节点的链路信息，得到异常节点信号编码和邻域节点信号编码；

分别将所述异常节点信号编码以及所述邻域节点信号编码各自的链路信息进行合并，得到所述异常节点状态编码和所述邻域节点状态编码。

3.根据权利要求1所述的基于强化学习的故障链路搜索方法，其特征在于，所述通过训练好的决策模型对所述异常节点状态编码和所述邻域节点状态编码进行节点转移方向处理，得到所述异常节点信息对应的异常节点所要转移的方向，包括：

从所述邻域节点信息中，提取所述异常节点存在一步调用或被调用关系的邻域节点，得到多个待转移节点；

获取多个所述待转移节点对应的状态编码，并统计出每个所述待转移节点对应的状态编码中存在的异常节点类型数量；

通过所述训练好的决策模型根据所述存在的异常节点类型数量确定所述异常节点转移方向，得到所述异常节点所要转移的方向。

4.根据权利要求1所述的基于强化学习的故障链路搜索方法，其特征在于，在所述基于训练好的决策模型，根据所述异常节点状态编码和所述邻域节点状态编码之前，所述方法还包括：

通过卷积神经网络的输入层获取状态信号，并将所述状态信号输入到所述卷积神经网络的卷积层中，提取所述状态信号的节点特征；

以所述节点特征为起点，获取所述节点特征的链路信息；

对所述链路信息进行降维处理，并通过所述卷积神经网络的扁平化层将降维处理后的链路信息转化为一维向量；

通过所述卷积神经网络的全连接层对所述一维向量进行计算处理，得到不同方向所对应的动作价值，并将所述动作价值作为所述卷积神经网络的单次输出结果。

5.根据权利要求4所述的基于强化学习的故障链路搜索方法，其特征在于，在所述通过所述卷积神经网络的全连接层对所述一维向量进行计算处理，得到不同方向所对应的动作价值，并将所述动作价值作为所述卷积神经网络的单次输出结果之后，所述方法还包括：

判断所述单次输出结果是否达到预设阈值，得到第一判断结果；

若所述第一判断结果为所述单次输出结果未达到所述预设阈值，则重新获取所述状态信号；

通过所述状态信号对所述卷积神经网络进行模型训练处理，得到新的输出结果，直至所述新的输出结果达到所述预设阈值，则停止所述模型训练处理，得到所述训练好的决策模型。

6.根据权利要求1所述的基于强化学习的故障链路搜索方法，其特征在于，所述根据所述关注节点信息对应关注节点的转移方向，获取所述关注节点对应的转移节点信息，直至所述关注节点为终止节点或获取次数超过预设次数，则停止获取所述转移节点信息，得到不同的所述关注节点信息，包括：

判断所述关注节点是否为所述终止节点，得到第二判断结果；

若第二判断结果为所述关注节点不是所述终止节点，则获取所述关注节点信息对应的状态编码，得到关注节点状态编码；

将所述关注节点状态编码输入到所述训练好的决策模型中，得到所述关注节点的转移方向；

根据所述关注节点的转移方向，获取所述关注节点对应的转移节点信息，直至所述关注节点为终止节点或获取次数超过预设次数，则停止获取所述转移节点信息，得到不同的所述关注节点信息。

7.根据权利要求1至6任一项所述的基于强化学习的故障链路搜索方法，其特征在于，所述当监控系统向用户端发出告警信息时，则获取所述告警信息对应的异常节点信息，包括：

当所述监控系统监测到节点发生异常，则将所述节点作为所述异常节点，并产生所述告警信息；

将所述告警信息发送给所述用户端，以使得所述用户端启动所述异常节点对应的应用服务，以获取所述异常节点对应的所述异常节点信息。

8.一种基于强化学习的故障链路搜索装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于强化学习的故障链路搜索方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于强化学习的故障链路搜索方法。