CN111355610A

CN111355610A - 一种基于边缘网络的异常处理方法及装置

Info

Publication number: CN111355610A
Application number: CN202010115008.8A
Authority: CN
Inventors: 朱少武
Original assignee: Wangsu Science and Technology Co Ltd
Current assignee: Wangsu Science and Technology Co Ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-06-30
Also published as: WO2021169064A1

Abstract

本发明公开了一种基于边缘网络的异常处理方法及装置，用于解决现有技术由中心节点集中处理异常所导致的中心节点压力大、异常处理不及时的技术问题。方法包括：边缘节点用异常分析规则分析服务数据，当确定边缘节点中第一服务异常后，若边缘节点中存在第一服务的异常处理规则，则使用异常处理规则对第一服务进行修复；若边缘节点中不存在第一服务的异常处理规则，则上报至中心节点。通过将服务的异常识别和异常修复放置在边缘节点侧，而不统一上报给中心节点，可以有效降低中心节点的工作压力，节省网络开销和时间成本；且，由边缘节点对自身的异常进行自闭环处理，还能够及时发现异常和处理异常，提高异常处理的效率。

Description

一种基于边缘网络的异常处理方法及装置

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于边缘网络的异常处理方法及装置。

背景技术

现阶段，在向用户提供服务时，通常需要监控服务的状态，一旦监控到服务状态异常，则需要及时修复服务，以提高服务的可用性和服务能力。

在一种现有的自闭环策略中，各个边缘节点采集各自的服务数据上报给中心节点，进而由中心节点基于这些服务数据集中分析各个边缘节点是否异常，若存在异常，则通知运维人员去修复异常的边缘节点。然而，该种方式存在的问题是：各个边缘节点中存在海量的服务数据，将海量的服务数据上传给中心节点集中做异常分析，通常需要中心节点耗费大量的时间和成本，从而导致中心节点的压力较大，且还会降低异常处理的实时性。

综上，目前亟需一种基于边缘网络的异常处理方法，用以解决现有技术由中心节点集中分析各个边缘节点的异常所导致的中心节点的压力大、异常处理不及时的技术问题。

发明内容

本发明提供一种基于边缘网络的异常处理方法及装置，用以解决现有技术由中心节点集中分析各个边缘节点的异常所导致的中心节点的压力大、异常处理不及时的技术问题。

第一方面，本发明提供的一种基于边缘网络的异常处理方法，所述边缘网络包括中心节点和至少一个边缘节点；所述方法包括：

任一边缘节点用异常分析规则分析服务数据，确定所述边缘节点中第一服务是否异常；所述服务数据中包括第一服务对应的服务数据；进一步地，所述边缘节点确定所述第一服务异常后，若所述边缘节点中存在所述第一服务的异常处理规则，则使用所述异常处理规则对所述第一服务进行修复；若所述边缘节点中不存在所述第一服务的异常处理规则，则上报至所述中心节点。

本发明中，通过将服务的异常识别和异常修复放置在边缘节点侧执行，而不统一上报给中心节点，可以有效降低中心节点的工作压力，节省网络开销和时间成本；且，该方案由边缘节点对自身的异常进行自闭环处理，还能够及时发现异常、处理异常，不仅提高异常识别和处理的效率，还能及时恢复服务的可用性。

在一种可能的实现方式中，所述上报至所述中心节点后，由所述中心节点确定所述第一服务的异常处理规则并下发给所述边缘节点；相应地，所述边缘节点接收所述中心节点发送的所述第一服务的异常处理规则；所述边缘节点使用所述第一服务的异常处理规则对所述第一服务进行修复。

在上述实现方式中，当边缘节点无法处理异常时，通过上报异常给中心节点，并由中心节点下发异常处理规则，可以使得边缘节点按照中心节点设定的异常处理规则处理异常，提高异常处理的准确性和全面性。

在一种可能的实现方式中，所述任一边缘节点用异常分析规则分析服务数据前，还向所述中心节点发送注册请求；所述注册请求用于所述中心节点与所述边缘节点建立通信连接；如此，所述边缘节点与所述中心节点建立通信连接后，从所述中心节点获取各种服务对应的自闭环策略；所述各种服务包括第一服务；任一服务对应的自闭环策略包括所述服务的异常分析规则，或者还包括所述服务的异常处理规则。

在上述实现方式中，通过由中心节点统一管理并由各边缘节点从中心节点中获取各种服务对应的自闭环策略，可以集中在中心节点侧配置自闭环策略，而无需分别在各个边缘节点中单独配置，从而提高自闭环策略配置的灵活性和便利性；且，通过以服务为单元进行自闭环策略的配置，能够使得异常识别过程更具有针对性，更能体现服务的真实服务能力，提高异常识别和异常处理的准确性。

在一种可能的实现方式中，所述各种服务对应的自闭环策略通过如下方式得到：所述中心节点当检测到用户在异常监控配置界面中输入异常监控配置信息后，获取并解析异常监控配置信息，得到各种服务对应的自闭环策略，并存储在所述中心节点的本地数据库中。

在上述实现方式中，通过用户在中心节点的异常监控配置界面上设置各种服务对应的自闭环策略，可以将服务的自闭环策略与业务进行解耦，支持用户根据各自的业务需求对不同的服务配置不同的自闭环策略，提高异常处理的灵活性；且，通过配置界面来配置各个自闭环策略，还能够简化操作，降低人工运维的成本和事件，提高异常处理的效率。

在一种可能的实现方式中，任一服务的异常分析规则包括所述服务中各个监控事件对应的异常分析规则；所述任一边缘节点用异常分析规则分析服务数据，确定所述边缘节点中第一服务是否异常，包括：所述边缘节点针对于所述第一服务中的任一监控事件，从所述第一服务的服务数据中解析出所述监控事件的服务数据，调用与所述监控事件的服务数据的类型匹配的异常分析算法对所述监控事件的服务数据进行分析，若分析结果满足所述监控事件对应的第一异常条件，则确定所述监控事件异常，至少根据所述监控事件确定所述第一服务是否异常；若所述分析结果不满足所述监控事件对应的第一异常条件，则确定所述第一服务未异常。

在上述实现方式中，通过设置同种类型的监控事件通用的异常分析算法，并由异常条件标识不同的监控事件，可以不用再为每个监控事件设置对应的算法，降低开发的难度，提高异常分析的灵活性。

在一种可能的实现方式中，所述边缘节点至少根据所述监控事件确定所述第一服务是否异常，包括：所述边缘节点若确定所述监控事件对应的异常条件仅包括第一异常条件，则确定所述第一服务异常；若确定所述监控事件对应的异常条件还包括第二异常条件，且所述第二异常条件为影响时间，则当所述监控事件的异常时长小于所述影响时间时，确定所述第一服务未异常，当所述监控事件的异常时长大于或等于所述影响时间时，确定所述第一服务异常。

在一种可能的实现方式中，所述方法还包括：所述边缘节点若确定所述第二异常条件为关联的监控事件同时异常，则确定所述监控事件关联的其他监控事件是否异常，当所述其它监控事件也异常时，确定所述第一服务异常，当存在至少一个其它监控事件正常时，确定所述第一服务未异常。

在上述实现方式中，通过设置关联监控事件或影响时间，能够准确判断真正异常的服务，降低误判概率，相应提高异常识别和异常处理的准确性。

第二方面，本发明提供的一种基于边缘网络的异常处理装置，所述边缘网络包括中心节点和至少一个边缘节点；所述装置包括：

异常分析模块，用于使用异常分析规则分析服务数据，确定边缘节点中第一服务是否异常；所述服务数据中包括第一服务对应的服务数据；

异常处理模块，用于确定所述第一服务异常后，若所述边缘节点中存在所述第一服务的异常处理规则，则使用所述异常处理规则对所述第一服务进行修复；若所述边缘节点中不存在所述第一服务的异常处理规则，则上报至所述中心节点。

在一种可能的实现方式中，所述异常处理模块上报至所述中心节点后，由所述中心节点确定所述第一服务的异常处理规则并下发给所述边缘节点；所述装置还包括收发模块，所述收发模块用于：接收所述中心节点发送的所述第一服务的异常处理规则；相应地，所述异常处理模块还用于：使用所述第一服务的异常处理规则对所述第一服务进行修复。

在一种可能的实现方式中，所述装置还包括收发模块；所述异常分析模块用异常分析规则分析服务数据前，所述收发模块用于：向所述中心节点发送注册请求；所述注册请求用于所述中心节点与所述边缘节点建立通信连接；以及，与所述中心节点建立通信连接后，从所述中心节点获取各种服务对应的自闭环策略；所述各种服务包括第一服务；任一服务对应的自闭环策略包括所述服务的异常分析规则，或者还包括所述服务的异常处理规则。

在一种可能的实现方式中，任一服务的异常分析规则包括所述服务中各个监控事件对应的异常分析规则；所述异常分析模块具体用于：针对于所述第一服务中的任一监控事件，从所述第一服务的服务数据中解析出所述监控事件的服务数据，调用与所述监控事件的服务数据的类型匹配的异常分析算法对所述监控事件的服务数据进行分析，若分析结果满足所述监控事件对应的第一异常条件，则确定所述监控事件异常，至少根据所述监控事件确定所述第一服务是否异常；若所述分析结果不满足所述监控事件对应的第一异常条件，则确定所述第一服务未异常。

在一种可能的实现方式中，所述异常分析模块具体用于：若确定所述监控事件对应的异常条件仅包括第一异常条件，则确定所述第一服务异常；若确定所述监控事件对应的异常条件还包括第二异常条件，且所述第二异常条件为影响时间，则当所述监控事件的异常时长小于所述影响时间时，确定所述第一服务未异常，当所述监控事件的异常时长大于或等于所述影响时间时，确定所述第一服务异常。

在一种可能的实现方式中，所述异常分析模块还用于：若确定所述第二异常条件为关联的监控事件同时异常，则确定所述监控事件关联的其他监控事件是否异常，当所述其它监控事件也异常时，确定所述第一服务异常，当存在至少一个其它监控事件正常时，确定所述第一服务未异常。

第三方面，本发明提供的一种计算设备，包括至少一个处理器以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行上述第一方面任意所述的方法。

第四方面，本发明提供的一种计算机可读存储介质，其存储有可由计算设备执行的计算机程序，当所述程序在所述计算设备上运行时，使得所述计算设备执行上述第一方面任意所述的方法。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种边缘网络的系统架构示意图；

图2为本发明实施例提供的一种基于边缘网络的异常处理方法对应的流程示意图；

图3为本发明实施例提供的一种异常处理方法对应的整体交互流程示意图；

图4为本发明实施例提供的一种监控装置的结构示意图；

图5为本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种边缘网络的系统架构示意图，如图1所示，边缘网络中包括中心节点110和至少一个边缘节点，比如边缘节点121、边缘节点122和边缘节点123。其中，中心节点110可以与任一边缘节点连接，比如可以通过有线方式连接，也可以通过无线方式连接，具体不作限定。

本发明实施例中，中心节点110为远端设备，而各个边缘节点为近端设备，任一边缘节点还可以与客户端连接(图1未进行示意)，以向客户端提供近端服务。比如，如图1所示，边缘节点121可以与客户端131和客户端132连接，并向客户端131和客户端132提供近端服务；边缘节点122可以与客户端133连接，并向客户端133提供近端服务；边缘节点123可以与客户端134和客户端135连接，并向客户端134和客户端135提供近端服务。其中，客户端可以为任意的终端设备，比如笔记本电脑、IPad、手机、路由器等具有通信交互功能的硬件设备，不作限定。

具体实施中，中心节点110可以预先将业务数据下发给各个边缘节点，如此，当客户端存在数据访问需求时，客户端可以向中心节点110发送数据访问请求，而该数据访问请求预先到达与客户端邻近的边缘节点。相应地，边缘节点根据数据访问请求检测本地是否存储有数据访问请求对应的业务数据，若是，则可以将业务数据直接响应给客户端，若否，则可以将数据访问请求转发给中心节点110。

需要说明的是，图1中的架构仅是一种示例性的说明，并不构成对本方案的限定；在具体实施中，边缘网络中也可以部署有多层(即两层或两层以上)边缘节点，客户端的数据访问请求首先到达最低层边缘节点，若最底层边缘节点的本地存储有对应的业务数据，则最底层边缘节点响应对应的业务数据给客户端，若最底层边缘节点的本地未存储有对应的业务数据，则最底层边缘节点向下一级边缘节点转发数据访问请求，由下一级边缘节点执行数据响应操作，直至对应的业务数据被响应给客户端为止。

需要说明的是，本发明实施例中的边缘节点可以为边缘设备，也可以为按照集群部署的边缘设备集群，还可以为边缘设备中的进程，不作限定。

基于图1所示意的边缘网络，图2为本发明实施例提供的一种基于边缘网络的异常处理方法对应的流程示意图，该方法适用于边缘网络中的任一边缘节点，该方法包括：

步骤201，边缘节点用异常分析规则分析服务数据，确定所述边缘节点中第一服务是否异常；所述服务数据中包括第一服务对应的服务数据。

步骤202，所述边缘节点确定所述第一服务异常后，判断所述边缘节点中是否存在所述第一服务的异常处理规则，若是，则使用所述异常处理规则对所述第一服务进行修复，若否，则将第一服务异常上报至所述中心节点。

本发明实施例中，通过将服务的异常识别和异常修复放置在边缘节点侧执行，而不统一上报给中心节点执行，可以有效降低中心节点的工作压力，节省网络开销和时间成本；且，该方案由边缘节点对自身的异常进行自闭环处理，还能够及时发现异常、处理异常，不仅提高异常识别和处理的效率，还能及时恢复服务的可用性。

在步骤201中，异常分析规则可以基于异常监控配置信息配置在边缘节点中，异常监控配置信息可以由运维人员预先在边缘节点侧进行配置，也可以支持业务人员在中心节点侧配置后同步到边缘节点，还可以由边缘节点从第三方接口设备中获取，具体不作限定。

作为一种可能的实现方式，异常监控配置信息可以通过如下各个步骤配置在边缘节点中：

步骤a，中心节点接收用户输入的异常监控配置信息。

具体实施中，中心节点可以向用户提供异常监控配置界面，当检测到用户在异常监控配置界面中输入异常监控配置信息后，可以获取并解析异常监控配置信息，并以服务为单元从异常监控配置信息中抽取出属于同一服务的异常监控配置信息，从而得到各种服务对应的异常监控配置信息。进一步的，中心节点可以解析任一服务对应的异常监控配置信息，得到该服务对应的自闭环策略，并存储在中心节点的本地数据库中。其中，任一服务对应的自闭环策略可以包括该服务的异常分析规则，还可以包括该服务的异常处理规则和/或服务数据的获取规则，不作限定。

需要说明的是，自闭环策略是指对服务的异常情况进行自闭环处理的策略，包括与自闭环处理相关的各个规则，比如异常分析规则、异常处理规则、数据获取规则、异常条件等等。也就是说，自闭环策略实际上是从服务的异常监控配置信息中抽取各个规则得到的，属于对同一服务进行自闭环处理的各个规则的统称，而不是处理方法。

在一个示例中，任一服务对应的异常分析规则可以包括该服务中各个监控事件的异常分析规则，任一服务对应的异常处理规则可以包括该服务中各个监控事件的异常处理规则。

表1示意了一种各个服务对应的自闭环策略的示意表。

表1

如表1所示，任一服务可以对应一个监控事件，也可以对应多个监控事件，每个监控事件可以设置有对应的异常条件和异常处理规则。比如并发服务对应两个监控事件，即并发量事件和并发错误率事件，当并发量大于或等于10000条时，确定并发量事件异常，因此可以新增并发服务进程，以恢复边缘节点中并发服务的可用性；当并发错误率大于45％时，确定并发错误率事件异常，因此可以重启并发服务，以恢复边缘节点中并发服务的准确性。又比如，资源服务对应一个监控事件，即资源占用量事件，当资源占用量大于或等于95％的时间超过5分钟时，确定资源服务异常，因此可以清理资源服务的缓存，以恢复边缘节点中资源服务的可用性。

在一个示例中，中心节点还可以支持用户创建新的自闭环策略、清除已有的自闭环策略、修改已有的自闭环策略或查询已有的自闭环策略等更新操作，且检测到自闭环策略更新后，中心节点还可以自动加载更新后的异常自闭环策略，以提高异常处理的准确性。以清除已有的自闭环策略为例，当检测到用户在异常监控配置界面中触发已有的自闭环策略的修改指示后，中心节点还可以向用户显示已有的各个自闭环策略，用户可以直接选择待清除的自闭环策略进行删除操作，也可以将待清除的自闭环策略的状态由有效状态修改为失效状态，以删除待清除的自闭环策略。

在上述示例中，通过用户在中心节点的异常监控配置页面上设置各种服务对应的自闭环策略，可以将服务的自闭环策略与业务进行解耦，支持用户根据各自的业务需求对不同的服务配置不同的自闭环策略，提高异常处理的灵活性；且，通过配置界面来配置各个自闭环策略，还能够简化操作，降低人工运维的成本和事件，提高异常处理的效率。

步骤b，边缘节点在启动时向中心节点发送注册请求。

步骤c，中心节点对边缘节点的注册请求进行验证，若验证成功，则与边缘节点建立通信连接(用于允许边缘节点获取各种服务对应的自闭环策略)，并向边缘节点发送注册成功的响应消息，若验证失败，则拒绝与边缘节点建立通信连接，并向边缘节点发送注册失败的响应消息。

步骤d，边缘节点若接收到注册成功的响应消息，则可以从中心节点中获取各种服务对应的自闭环策略，并将各种服务对应的自闭环策略存储在本地数据库中。相应地，边缘节点若未接收到响应消息，或者接收到注册失败的响应消息，则可以周期性地向中心节点重复发送注册请求，若在设定次数的重复发送后还未注册成功，则放弃注册，并生成告警消息。

其中，各种服务可以为边缘节点上部署的服务，也可以为中心节点中存储的全部服务，不作限定。

以各种服务为边缘节点上部署的服务为例，基于表1，当接收到注册成功的响应消息后，若确定本地部署有并发量服务和端口服务，则边缘节点可以从中心节点中获取并发量服务对应的自闭环策略和端口服务对应的自闭环策略，并存储在边缘节点的本地数据库中。其中，获取方式可以有多种，比如可以由边缘节点向中心节点发送获取请求，并在获取请求中携带并发量服务的标识和端口服务的标识，以使中心节点根据获取请求将并发量服务对应的自闭环策略和端口服务对应的自闭环策略返回给边缘节点。或者，也可以由中心节点将全部服务对应的自闭环策略上传至设定位置，并向边缘节点授权设定位置的访问权限，以使边缘节点自动去设定位置获取并发量服务对应的自闭环策略和端口服务对应的自闭环策略，等等。

作为一种示例，当成功在中心节点中注册后，边缘节点还可以周期性地从中心节点中获取各种服务对应的自闭环策略，保证任一服务对应的自闭环策略在配置方(即中心节点)和执行方(即边缘节点)的一致性，提高异常处理的准确性。作为另一种示例，中心节点还可以实时监控本地数据库，一旦检测到用户更新了某一服务对应的自闭环策略，则可以向该服务对应的边缘节点下发更新指令，以使边缘节点实时获取更新的自闭环策略，保证服务对应的自闭环策略在配置方和执行方的一致性，提高对服务进行异常处理的准确性。

本发明实施例中，边缘节点中设置有任一服务(比如第一服务)的服务进程，边缘节点通过第一服务的服务进程向客户端或其它设备提供第一服务。当边缘节点将第一服务对应的自闭环策略存储到本地数据库后，边缘节点还可以通过调用第一服务的服务进程来获取第一服务的服务数据。其中，获取方式可以有多种，比如可以在监听到第一服务的服务进程中执行了与第一服务中的任一监控事件相关的服务后，向第一服务的服务进程发送获取请求，并在获取请求中携带监控事件的标识，以使第一服务的服务进程实时返回监控事件对应的服务数据，或者也可以按照设定周期向第一服务的服务进程发送获取请求，以使第一服务的服务进程按照设定周期返回监控事件对应的服务数据，等等，不作限定。

在一种可能的实现方式中，边缘节点可以通过如下方式获取第一服务的服务数据：自闭环策略中还包括第一服务中每个监控事件对应的数据源接口，数据源接口为预先封装在边缘节点内部的功能函数，数据源接口能够在服务进程提供第一服务的过程中记录监控事件对应的服务数据。如此，针对于第一服务中的任一监控事件，边缘节点可以先从自闭环策略中确定出该监控事件对应的数据源接口，再通过调用该监控事件对应的数据源接口获取该监控事件对应的服务数据。

举例来说，边缘节点中设置有第一服务进程，第一服务进程用于向国际互联协议(Internet Protocol，IP)地址127.0.0.1提供端口服务，针对于本地数据库中存储的请求数事件，边缘节点可以调用请求数事件对应的数据源接口_，以在第一服务进程提供端口服务时获取设定时段内访问IP地址127.0.0.1的端口的请求数量(即服务数据)。

需要说明的是，自闭环策略中还可以包括调用数据源接口所需的其它配置信息，比如环境变量和通信协议约定，不作限定。

本发明实施例中，获取操作可以由边缘节点中设置的监控进程执行，监控进程与服务进程之间采用socket通信，以提高通信的效率和准确性。

在上述实现方式中，通过在异常处理规则中设置监控事件对应的数据源接口，使得边缘节点直接调用监控事件对应的数据源接口即可获取到对应的服务数据，而无需再由人为配置，从而操作简单，便于实现，还可以提高服务数据获取的效率。

本发明实施例中，监控事件对应的异常分析规则可以包括一个或多个异常条件，每个监控事件可以对应有各自的第一异常条件，第一异常条件用于指示监控事件是否异常。若监控事件仅对应第一异常条件，则第一异常条件不仅能指示监控事件的异常性，还能指示监控事件对应的服务的异常性；若监控事件同时对应第一异常条件和至少一个第二异常条件，则第一异常条件用于指示监控事件的异常性，而第一异常条件和至少一个第二异常条件共同指示监控事件对应的服务的异常性。其中，至少一个第二异常条件可以由本领域技术人员根据经验进行设置，或者也可以根据实际需要进行设置，具体不作限定。

具体实施中，若监控事件对应的异常分析规则仅包括第一异常条件，则当监控事件对应的服务数据符合第一异常条件时，说明监控事件对应的服务在边缘节点中处于异常状态，如此，可以直接调用监控事件对应的异常处理规则对边缘节点进行处理，以恢复中心节点中监控事件对应的服务。若监控事件对应的服务数据不符合第一异常条件，则可以确定监控事件在边缘节点中处于正常状态，因此可以不作处理。举例来说，如表1所示，并发服务中的并发量事件和并发错误率事件均只对应第一异常条件，并发量事件和并发错误率事件分别对应各自的异常处理规则，因此，当并发量事件和并发错误率事件中的任意一个异常时，均可以确定并发服务异常，从而可以使用异常的监控事件对应的异常处理规则对边缘节点中的并发服务进行处理。

相应地，若监控事件对应的异常分析规则还包括至少一个第二异常条件，则当监控事件对应的服务数据同时符合第一异常条件和至少一个第二异常条件时，才说明监控事件对应的服务在边缘节点中处于异常状态，从而可以调用监控事件对应的异常处理规则对边缘节点进行处理，以恢复中心节点中监控事件对应的服务。当监控事件对应的服务数据只符合第一异常条件而不符合至少一个第二异常条件时，说明监控事件在边缘节点中异常，而监控事件对应的服务在边缘节点中未异常，因此可以不作处理。

在一个示例中，第二异常条件可以包括关联监控事件和/或影响时间，第二异常条件可以基于服务的真实故障场景进行确定。具体地说，针对于任一服务，可以先获取该服务在真实故障时各个监控事件对应的历史服务数据，然后联合各个监控事件对应的历史服务数据分析造成服务故障的特征因子，根据特征因子设置第二异常条件。比如，若特征因子为某一监控事件与其它监控事件均异常服务才真正异常，则可以将该监控事件对应的第二异常条件设置为关联其它监控事件，该监控事件和关联的其它监控事件可以对应同一异常处理规则，若特征因子为某一监控事件异常的时长大于影响时间时服务才真正异常，则可以将该监控事件对应的第二异常条件设置为影响时间。

举例来说，基于表1，端口服务中的异常状态码事件对应的第二异常条件为关联请求数事件，当使用异常状态码事件对应的第一异常条件确定异常状态码事件异常后，还可以确定异常状态码事件所关联的请求数事件是否异常，若请求数事件也异常，则可以确定端口服务异常，从而可以使用异常状态码事件对应的异常处理规则对端口服务进行修正，若请求数事件不异常，则可以确定端口服务未异常，因此可以不作处理。又比如，资源服务中的资源占用量事件对应的第二异常条件为影响时间(≥5分钟)，当资源占用量超过95％的时段小于5分钟时，虽然资源占用量事件异常，但是资源服务能够很快恢复正常，资源服务未真正异常，因此可以不作处理；而当资源占用量超过95％的时段大于或等于5分钟时，资源服务无法快速恢复正常，资源服务真正异常，从而可以使用资源占用量事件对应的异常处理规则对资源服务进行修正。

需要说明的是，表1仅是一种示例性的说明，并不构成对本方案的限定，在具体实施中，每个监控事件也可以对应三个或三个以上的异常条件，比如还可以对应第三异常条件，第三异常条件用于指示服务的异常等级，只有当服务的异常等级超过第三异常条件指示的异常等级时，才使用监控事件对应的异常处理规则进行修复，或者还可以设置第四异常条件，第四异常条件用于指示服务的联合异常情况，只有当第四异常条件指示的各个服务均异常时，才使用监控事件对应的异常处理规则进行修复，等等，具体不作限定。

在上述示例中，通过联合真实故障场景对监控事件设置第二异常条件，能够降低检测到假异常的服务的概率，提高检测的准确性；且，通过设置第二异常条件为影响时间和/或关联的监控事件同时异常，能够基于异常时长特征和/或异常数量特征综合判断服务的异常情况，提高异常判断的准确性。

在一种可能的实现方式中，监控事件对应的异常分析规则还可以包括监控事件对应的异常分析算法，同一类型的监控事件可以对应同一种异常分析算法，由于监控事件对应的异常分析规则包括异常分析算法和异常条件，因此每个监控事件对应的异常分析规则可以具有唯一性。如此，在获取到监控事件对应的服务数据后，可以根据服务数据的类型调用对应的异常分析算法对服务数据进行计算，以筛选出服务数据中的异常判断数据，然后判断异常判断数据是否满足监控事件对应的异常条件，若满足，则确定监控事件异常，若不满足，则确定监控事件未异常。

本发明实施例中，异常分析算法可以包括日志关键字分析法、服务健康值分析法、阈值分析法和服务自定义分析法中的任意一种或任意多种。下面分别进行分析：

日志关键字分析法用于对日志数据类型的服务数据进行异常分析，日志数据类型的服务数据包括批量处理时间、批量处理成功量等。具体实施中，可以先基于预设日志字段对服务数据进行分割，得到各个监控日志字段，再使用多模式匹配算法(比如Aho-Corasick算法、wu-manber算法等)对各个监控日志字段进行匹配，将匹配成功的监控日志字段作为异常判断数据，与异常条件中的预设日志字段进行对比，确定监控事件是否异常。

服务健康值分析法用于对运营数据类型的服务数据进行异常分析，运营数据类型的服务数据包括状态码、带宽、请求数、资源占用率等。具体实施中，可以先根据历史服务数据训练得到任一指标对应的监控模型，然后使用该指标对应的监控模型对该指标下的服务数据进行预测，得到服务数据在该指标下的预测分值，再将预测分值与自定义的指标分值进行对比，根据对比结果确定健康程度，将健康程度作为异常判断数据，与异常条件中的预设健康程度进行对比，确定监控事件是否异常。

阈值分析法用于对指标数据类型的服务数据进行异常分析，指标数据类型的服务数据包括请求数量、告警数量等。具体实施中，可以根据服务的特定指标，从服务数据中提取得到监控事件在每个特定指标下的监控值，将特定指标下的监控值作为异常判断数据，与异常条件中特定指标下的阈值进行对比，确定监控事件是否异常。

服务自定义分析法用于对未知数据类型或用户需要自定义异常分析算法的服务数据进行异常分析。具体实施中，检测到用户存在服务自定义分析法的需求后，边缘节点可以向用户提供通用接口，以便于用户通过通用接口上传自定义的异常分析算法。相应地，边缘节点在接收到自定义的异常分析算法后，还可以加载该异常分析算法，并使用加载后的异常分析算法对监控事件对应的服务数据进行计算，得到异常判断数据。且，用户还可以同时自定义异常条件，当计算得到异常判断数据后，边缘节点还可以将异常判断数据与用户自定义的异常条件进行对比，确定监控事件是否异常。

基于上述几种异常分析算法，具体实施中，在获取到监控事件对应的服务数据后，若确定服务数据的类型为日志数据类型，则可以调用日志关键字分析法对服务数据进行异常分析，若确定服务数据的类型为运营数据类型，则可以调用服务健康值分析法对服务数据进行异常分析，若确定服务数据的类型为指标数据类型，则可以调用阈值分析法对服务数据进行异常分析，若确定服务数据的类型为其它数据类型或用户存在自定义异常分析算法的需求，则可以调用服务自定义分析法对服务数据进行异常分析。

本发明实施例中，通过设置统一的异常分析算法，并设置各个监控事件对应的各自的异常条件，能够将异常分析方法与实际业务进行解耦，提高异常分析的灵活性，还可以不用再为每个监控事件设置对应的异常分析算法，降低开发的难度，进一步提高异常分析的灵活性。且，上述方式还支持用户自定义异常分析算法，从而不仅能够根据用户的设置不断补充新的异常分析算法，提高异常分析的适用场景，还能够满足不同用户的需求，提高异常分析的通用性。

在步骤202中，当确定第一服务异常时，边缘节点可以查询本地数据库，确定是否存在第一服务的异常处理规则，若存在，则可以直接调用第一服务的异常处理规则对第一服务进行修复，若不存在，则可以生成异常消息，并上报给中心节点110。其中，异常消息中携带有第一服务的相关异常数据，比如第一服务中异常的监控事件的标识、异常的监控事件对应的服务数据中的异常字段、异常时间、异常等级等。

在一种可能的实现方式中，中心节点110接收到异常消息后，可以先解析异常消息得到异常的监控事件对应的服务数据中的异常字段，然后计算异常字段与运维知识库中每个预设异常事件的匹配程度，并将匹配程度大于预设匹配程度的预设异常事件作为监控事件对应的预设异常事件。若存在匹配程度大于预设匹配程度的预设异常事件，则中心节点110可以基于匹配的预设异常事件分析生成对应的异常处理规则，并将异常处理规则发送给边缘节点。若不存在匹配程度大于预设匹配程度的预设异常事件，则中心节点110可以将异常消息推送给用户，由用户设置对应的异常处理规则，并将设置好的异常处理规则发送给边缘节点。

相应地，边缘节点接收到异常处理规则后，除了可以使用该异常处理规则对第一服务进行修复之外，还可以使用第一服务中异常的监控事件和第一服务的异常处理规则更新本地数据库中存储的第一服务对应的自闭环策略，以不断充实本地数据库。如此，当再次出现第一服务异常后，可以直接调用本地数据库中第一服务的异常处理规则修复异常，而无需再发送给中心节点，从而提高边缘节点的异常处理能力。

在一个示例中，中心节点110还可以向用户展示各个边缘节点的服务情况，以便于用户及时查看各种服务的异常情况及分布情况。展示的信息可以包括各个边缘节点中任一服务的异常情况、任一服务中各个监控事件的异常情况、异常的监控事件的处理结果、异常的监控事件的分布情况以及各个监控事件的关联关系中的任意一项或任意多项。且，中心节点110可以以全息视图的形式展示给用户，也可以以表格的形式展示给用户，不作限定。

本发明实施例中，通过将服务的异常识别和异常修复放置在边缘节点侧执行，而不统一上报给中心节点，可以有效降低中心节点的工作压力，节省网络开销和时间成本；且，该方案由边缘节点对自身的异常进行自闭环处理，还能够及时发现异常、处理异常，不仅提高异常识别和处理的效率，还能及时恢复服务的可用性。

图3为本发明实施例提供的一种异常处理方法对应的整体交互流程示意图，如图3所示，该方法包括：

步骤301，中心节点检测到用户在异常监控配置界面中输入异常监控配置信息后，获取并存储异常监控配置信息。

其中，异常监控配置信息中可以包括各个服务对应的自闭环策略，任一服务对应的自闭环策略可以包括该服务的异常分析规则，还可以包括该服务的异常处理规则和/或服务数据的获取规则。

步骤302，边缘节点在启动时向中心节点发送注册请求。

步骤303，中心节点对注册请求进行验证，若验证成功，则执行步骤304，若验证失败，则执行步骤315。

步骤304，中心节点向边缘节点发送注册成功的响应消息。

步骤305，边缘节点从中心节点中获取各种服务对应的自闭环策略，并存储在边缘节点的本地数据库中；各种服务包括第一服务。

步骤306，边缘节点调用第一服务对应的数据源接口从第一服务的服务进程中获取第一服务的服务数据。

步骤307，边缘节点使第一服务的异常分析规则对第一服务的服务数据进行分析，确定第一服务是否异常，若异常，则执行步骤308，若未异常，则执行步骤306。

步骤308，边缘节点查询本地数据库判断是否存在第一服务的异常处理规则，若否，则执行步骤309，若是，则执行步骤312。

步骤309，边缘节点将异常消息发送给中心节点，异常消息中携带有第一服务的相关异常数据。

步骤310，中心节点基于解析得到的第一服务的相关异常数据设置第一服务的异常处理规则。

步骤311，中心节点将第一服务的异常处理规则发送给边缘节点。

步骤312，边缘节点使用第一服务的异常处理规则对第一服务进行修复。

步骤313，中心节点若确定第一服务的异常处理规则未存储在本地数据库中，则使用第一服务的异常处理规则更新本地数据库。

步骤314，边缘节点重复向中心节点发送注册请求，在重复发送设定次数后，若还未成功注册，则生成告警消息。

本发明的上述实施例中，任一边缘节点用异常分析规则分析服务数据，确定所述边缘节点中第一服务是否异常；所述服务数据中包括第一服务对应的服务数据；进一步地，所述边缘节点确定所述第一服务异常后，若所述边缘节点中存在所述第一服务的异常处理规则，则使用所述异常处理规则对所述第一服务进行修复；若所述边缘节点中不存在所述第一服务的异常处理规则，则上报至所述中心节点。本发明实施例中，通过将服务的异常识别和异常修复放置在边缘节点侧执行，而不统一上报给中心节点执行，可以有效降低中心节点的工作压力，节省网络开销和时间成本；且，该方案由边缘节点对自身的异常进行自闭环处理，还能够及时发现异常、处理异常，不仅提高异常识别和处理的效率，还能及时恢复服务的可用性。

针对上述方法流程，本发明实施例还提供一种基于边缘网络的异常处理装置，该装置的具体内容可以参照上述方法实施。

图4为本发明实施例提供的一种基于边缘网络的异常处理装置的结构示意图，所述边缘网络包括中心节点和至少一个边缘节点；所述装置包括：

异常分析401，用于使用异常分析规则分析服务数据，确定边缘节点中第一服务是否异常；所述服务数据中包括第一服务对应的服务数据；

异常处理模块402，用于确定所述第一服务异常后，若所述边缘节点中存在所述第一服务的异常处理规则，则使用所述异常处理规则对所述第一服务进行修复；若所述边缘节点中不存在所述第一服务的异常处理规则，则上报至所述中心节点。

可选的，所述异常处理模块402上报至所述中心节点后，由所述中心节点确定所述第一服务的异常处理规则并下发给所述边缘节点；

所述装置还包括收发模块403，所述收发模块403用于：接收所述中心节点发送的所述第一服务的异常处理规则；

所述异常处理模块402还用于：使用所述第一服务的异常处理规则对所述第一服务进行修复。

可选的，所述装置还包括收发模块403；所述异常分析模块401用异常分析规则分析服务数据前，所述收发模块403用于：

向所述中心节点发送注册请求；所述注册请求用于所述中心节点与所述边缘节点建立通信连接；以及，与所述中心节点建立通信连接后，从所述中心节点获取各种服务对应的自闭环策略；所述各种服务包括第一服务；任一服务对应的自闭环策略包括所述服务的异常分析规则，或者还包括所述服务的异常处理规则。

可选的，所述各种服务对应的自闭环策略通过如下方式得到：

所述中心节点当检测到用户在异常监控配置界面中输入异常监控配置信息后，获取并解析异常监控配置信息，得到各种服务对应的自闭环策略，并存储在所述中心节点的本地数据库中。

可选的，任一服务的异常分析规则包括所述服务中各个监控事件对应的异常分析规则；

所述异常分析模块401具体用于：

针对于所述第一服务中的任一监控事件，从所述第一服务的服务数据中解析出所述监控事件的服务数据，调用与所述监控事件的服务数据的类型匹配的异常分析算法对所述监控事件的服务数据进行分析，若分析结果满足所述监控事件对应的第一异常条件，则确定所述监控事件异常，至少根据所述监控事件确定所述第一服务是否异常；若所述分析结果不满足所述监控事件对应的第一异常条件，则确定所述第一服务未异常。

可选的，所述异常分析模块401具体用于：

若确定所述监控事件对应的异常条件仅包括第一异常条件，则确定所述第一服务异常；若确定所述监控事件对应的异常条件还包括第二异常条件，且所述第二异常条件为影响时间，则当所述监控事件的异常时长小于所述影响时间时，确定所述第一服务未异常，当所述监控事件的异常时长大于或等于所述影响时间时，确定所述第一服务异常。

可选的，所述异常分析模块401还用于：

若确定所述第二异常条件为关联的监控事件同时异常，则确定所述监控事件关联的其它监控事件是否异常，当所述其它监控事件也异常时，确定所述第一服务异常，当存在至少一个其他监控事件正常时，确定所述第一服务未异常。

从上述内容可以看出：本发明的上述实施例中，任一边缘节点用异常分析规则分析服务数据，确定所述边缘节点中第一服务是否异常；所述服务数据中包括第一服务对应的服务数据；进一步地，所述边缘节点确定所述第一服务异常后，若所述边缘节点中存在所述第一服务的异常处理规则，则使用所述异常处理规则对所述第一服务进行修复；若所述边缘节点中不存在所述第一服务的异常处理规则，则上报至所述中心节点。本发明实施例中，通过将服务的异常识别和异常修复放置在边缘节点侧执行，而不统一上报给中心节点执行，可以有效降低中心节点的工作压力，节省网络开销和时间成本；且，该方案由边缘节点对自身的异常进行自闭环处理，还能够及时发现异常、处理异常，不仅提高异常识别和处理的效率，还能及时恢复服务的可用性。

基于同一发明构思，本发明实施例还提供了一种计算设备，如图5所示，包括至少一个处理器501，以及与至少一个处理器连接的存储器502，本发明实施例中不限定处理器501与存储器502之间的具体连接介质，图5中处理器501和存储器502之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本发明实施例中，存储器502存储有可被至少一个处理器501执行的指令，至少一个处理器501通过执行存储器502存储的指令，可以执行前述的基于边缘网络的异常处理方法中所包括的步骤。

其中，处理器501是计算设备的控制中心，可以利用各种接口和线路连接计算设备的各个部分，通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据，从而实现数据处理。可选的，处理器501可包括一个或多个处理单元，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理下发指令。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。在一些实施例中，处理器501和存储器502可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器501可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合基于边缘网络的异常处理实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本发明实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，其存储有可由计算设备执行的计算机程序，当所述程序在所述计算设备上运行时，使得所述计算设备执行图2或图3任意所述的基于边缘网络的异常处理方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于边缘网络的异常处理方法，其特征在于，所述边缘网络包括中心节点和至少一个边缘节点；所述方法包括：

任一边缘节点用异常分析规则分析服务数据，确定所述边缘节点中第一服务是否异常；所述服务数据中包括第一服务对应的服务数据；

所述边缘节点确定所述第一服务异常后，若所述边缘节点中存在所述第一服务的异常处理规则，则使用所述异常处理规则对所述第一服务进行修复；若所述边缘节点中不存在所述第一服务的异常处理规则，则上报至所述中心节点。

2.根据权利要求1所述的方法，其特征在于，所述上报至所述中心节点后，由所述中心节点确定所述第一服务的异常处理规则并下发给所述边缘节点；

所述边缘节点接收所述中心节点发送的所述第一服务的异常处理规则；

所述边缘节点使用所述第一服务的异常处理规则对所述第一服务进行修复。

3.根据权利要求1所述的方法，其特征在于，所述任一边缘节点用异常分析规则分析服务数据前，还包括：

所述边缘节点向所述中心节点发送注册请求；所述注册请求用于所述中心节点与所述边缘节点建立通信连接；

所述边缘节点与所述中心节点建立通信连接后，从所述中心节点获取各种服务对应的自闭环策略；所述各种服务包括第一服务；任一服务对应的自闭环策略包括所述服务的异常分析规则，或者还包括所述服务的异常处理规则。

4.根据权利要求3所述的方法，其特征在于，所述各种服务对应的自闭环策略通过如下方式得到：

5.根据权利要求1至4中任一项所述的方法，其特征在于，任一服务的异常分析规则包括所述服务中各个监控事件对应的异常分析规则；

所述任一边缘节点用异常分析规则分析服务数据，确定所述边缘节点中第一服务是否异常，包括：

所述边缘节点针对于所述第一服务中的任一监控事件，从所述第一服务的服务数据中解析出所述监控事件的服务数据，调用与所述监控事件的服务数据的类型匹配的异常分析算法对所述监控事件的服务数据进行分析，若分析结果满足所述监控事件对应的第一异常条件，则确定所述监控事件异常，至少根据所述监控事件确定所述第一服务是否异常；若所述分析结果不满足所述监控事件对应的第一异常条件，则确定所述第一服务未异常。

6.根据权利要求5所述的方法，其特征在于，所述边缘节点至少根据所述监控事件确定所述第一服务是否异常，包括：

所述边缘节点若确定所述监控事件对应的异常条件仅包括第一异常条件，则确定所述第一服务异常；若确定所述监控事件对应的异常条件还包括第二异常条件，且所述第二异常条件为影响时间，则当所述监控事件的异常时长小于所述影响时间时，确定所述第一服务未异常，当所述监控事件的异常时长大于或等于所述影响时间时，确定所述第一服务异常。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

所述边缘节点若确定所述第二异常条件为关联的监控事件同时异常，则确定所述监控事件关联的其他监控事件是否异常，当所述其它监控事件也异常时，确定所述第一服务异常，当存在至少一个其它监控事件正常时，确定所述第一服务未异常。

8.一种基于边缘网络的异常处理装置，其特征在于，所述边缘网络包括中心节点和至少一个边缘节点；所述装置包括：

9.一种计算设备，其特征在于，包括至少一个处理器以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1～7任一权利要求所述的方法。

10.一种计算机可读存储介质，其特征在于，其存储有可由计算设备执行的计算机程序，当所述程序在所述计算设备上运行时，使得所述计算设备执行权利要求1～7任一权利要求所述的方法。