CN116132322A

CN116132322A - 网络系统、客户端设备以及边缘网络异常检测方法

Info

Publication number: CN116132322A
Application number: CN202211676507.XA
Authority: CN
Inventors: 黄志鹏; 任庚; 杨敬宇; 曾福华; 李晓栋
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-05-16

Abstract

本公开涉及一种网络系统、客户端设备以及边缘网络异常检测方法。该网络系统包括中心端、边缘端和客户端。探测设备发起对边缘端的边缘服务进行探测的探测请求，得到探测数据，并将探测数据发送给中心端和/或边缘端的决策系统，这里的探测设备可以包括客户端设备。另外，探测设备也可以包括边缘端设备。中心端和/或边缘端的决策系统基于源自客户端的探测数据对边缘服务的可用性进行分析。由此，通过使用客户端设备作为探测设备，可以增加探测的准确性和普适性，可能发现一些中心端和边缘端作为探测源时无法发现的异常网络问题。

Description

网络系统、客户端设备以及边缘网络异常检测方法

技术领域

本公开涉及网络系统，特别涉及具有中心端和边缘端的网络系统及其网络异常检测。

背景技术

在云计算技术快速发展之后，边缘计算技术也开始越来越快地推进。

与中心机房相比，边缘节点(边缘端)由于其复杂的网络环境以及庞大的边缘服务数量，发生网络劣化和服务可用性降低的风险较高。而部署在边缘节点的各种类型的边缘服务异常会对用户体验造成严重影响。

目前，针对边缘云场景的可用性保障，最常用的做法是对边缘节点的服务进行健康检查，中心端或边缘端的设备通过以模拟用户请求的方式对边缘端的边缘服务进行主动探测，汇总多次探测的结果，对边缘服务的可用性进行判定。

在发现并定位异常边缘服务后，再通过下发指令和重调度的方式，使得客户被重新调度到可用的边缘节点。

然而，由于边缘服务庞大的数量以及边缘节点网络的复杂性，对探测源的数量和分布都有较高的要求。现有方案中采用中心端或边缘端的单一探测源，比较容易出现误判的情况。

因此，仍然需要一种改进的网络系统及其边缘服务异常检测方法。

发明内容

本公开要解决的一个技术问题是提供一种网络系统、客户端设备以及边缘网络异常检测方法，其能够边缘网络复杂的网络环境下，在面临边缘端的边缘服务故障时，更加准确地感知异常边缘服务，从而确保服务的高可用性。

根据本公开的第一个方面，提供了一种边缘网络异常检测方法，在客户端设备执行，包括：发送对边缘端的边缘服务进行探测的探测请求，得到探测数据；将探测数据发送给中心端和/或边缘端的决策系统。

可选地，该方法还可以包括：接收中心端下发的探测任务清单，其中，探测请求是基于探测任务清单发起的。

可选地，该方法还可以包括：接收边缘服务针对探测请求的响应，并记录日志；以及从日志中提取探测数据。

根据本公开的第二个方面，提供了一种边缘网络异常检测方法，在中心端执行，包括：向探测设备下发探测任务清单，以便探测设备基于探测任务清单发起对边缘端的边缘服务进行探测的探测请求，探测设备包括客户端设备；接收来自探测设备通过发送探测请求获取的探测数据；基于探测数据对边缘端的边缘服务是否存在异常进行分析。

可选地，通过调整探测任务清单中的探测对象，调整探测设备的探测对象范围。

可选地，通过调整探测任务清单中的探测类型，调整探测设备的探测请求类型。

可选地，通过调整探测任务清单中的频率参数，或通过调整将针对探测对象的探测任务放入探测任务清单的频率，调整探测设备针对探测对象的探测频率。

根据本公开的第三个方面，提供了一种网络系统，包括中心端、边缘端和客户端，其中，探测设备发起对边缘端的边缘服务进行探测的探测请求，得到探测数据，所述探测设备包括客户端设备；中心端和/或边缘端的决策系统基于源自客户端的探测数据对所述边缘服务的可用性进行分析。

可选地，所述探测设备还包括边缘端设备。

可选地，探测设备接收来自边缘服务的响应，记录日志，并从日志中提取探测数据。

可选地，探测数据包括探测成功率、丢包率、响应慢速比、往返时延、失败原因中的至少一项。

可选地，探测设备还从边缘端服务器的访问日志中获取探测数据。

可选地，中心端向探测设备下发探测任务清单，探测设备基于探测任务清单发起探测请求。

可选地，所述探测请求包括请求获取大文件的大文件探测请求和请求获取小文件的小文件探测请求；对第一范围内的网络服务发送小文件探测请求，确定第一范围内出现故障的第二范围，再对第二范围内的网络服务发送大文件探测请求，以明确故障点和/或故障原因。

可选地，以第一探测频率周期性发送小文件探测请求，以第二探测频率周期性发送大文件探测请求，所述第二探测频率高于第一探测频率。

可选地，基于下述至少一项来确定是否从第一频率的小文件探测切换到第二频率大文件探测：当前区域进行小文件探测的故障率；当前区域进行小文件探测的连接建立时间；以及当前区域的探测能力是否足够。这里，一个区域内包括一个或多个边缘端。

可选地，在决策系统判定边缘服务出现故障的情况下，向访问该边缘服务的访问客户端发布逃逸指令，将访问客户端重新调度到其它边缘端以接收边缘服务。

可选地，在边缘端具有发布逃逸指令的能力的情况下，将探测数据发送到边缘端的决策系统。

可选地，在边缘端不具有发布逃逸指令的能力的情况下，将探测数据发送到中心端的决策系统。

可选地，使用区域的平均探测数据作为该区域的探测基线。这里，一个区域内包括一个或多个边缘端。对于区域内边缘端，基于探测数据相对于探测基线的偏移量来判定边缘服务是否异常。

可选地，中心端对探测到的边缘端异常进行聚类分析，以发现并定位区域级异常；在发现区域级异常的情况下，向访问异常区域中的边缘端的边缘服务的访问客户端发布逃逸指令，将访问客户端重新调度到其它区域中的边缘端以接收边缘服务。

可选地，对边缘端的边缘服务进行的探测包括TCP/UDP健康检查、模拟客户HTTP/HTTPS请求检查中的至少一项。

根据本公开的第四个方面，提供了一种用于对边缘端的边缘服务进行探测的客户端设备，包括：通信模块，用于与中心端和边缘端通信；以及探测模块，基于中心端下发的探测任务，发起对边缘端的边缘服务进行探测的探测请求，得到探测数据，并经由通信模块将探测数据发送到中心端和/或边缘端的决策系统。

根据本公开的第五个方面，提供了一种边缘网络异常检测方法，包括：基于探测设备发起的边缘网络探测任务，对边缘端的边缘服务进行探测，得到探测数据，所述探测设备包括客户端设备；将探测数据发送给中心端和/或边缘端的决策系统；以及决策系统基于所述探测数据对所述边缘服务的可用性进行分析。

根据本公开的第六个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面所述的方法。

根据本公开的第七个方面，提供了一种计算机程序产品，包括可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上述第一方面所述的方法。

根据本公开的第八个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一方面所述的方法。

与以中心端和/或边缘端作为探测源的现有方案相比，不论是数据流动路径，还是访问方式等方面，客户端设备的探测请求更加接近于实际访问请求。通过使用客户端设备作为探测设备，可以增加探测的准确性和普适性，可能发现一些中心端和边缘端作为探测源时无法发现的异常网络问题。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示意性地示出了本公开的网络系统。

图2是探测设备执行探测任务的简要流程图。

图3示出了本公开的探测用客户端设备的示意性框图。

图4示出了根据本公开的边缘网络异常检测方法的示意性流程图。

图5示出了根据本公开中心端执行的边缘网络异常检测方法的示意性流程图。

图6示出了根据本发明一实施例可用于实现上述边缘服务异常检测方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本公开的各个层面的实施例中，从探测、感知、执行等几个方面对现有方案进行改进。

探测方面，引入了端探测，并进一步采用了端探测与边缘探测结合、高频探测和低频探测相结合、主动数据和被动数据结合、中心逃逸和边缘逃逸相结合的架构。

感知方面，提出了多种方式的协同感知。即，可以结合主动探测数据和被动探测数据(边缘服务端日志、客户端日志)，借助多维数据进行感知。

执行方面，提出了可以通过边缘端快速生效。

总体而言，既保证了异常检测的准确性，也兼顾了逃逸的高效性。

【系统架构】

图1示意性地示出了本公开的网络系统。

如图1所示，网络系统包括中心端100、多个边缘端(边缘节点)200和多个客户端300。客户端300访问边缘端200提供的边缘服务。

中心端100部署有决策系统(也可以称为“决策平台”或“决策平面”)。部分或全部边缘端200也可以部署有决策系统。

决策系统根据探测数据对边缘服务的可用性进行分析评价，综合多种探测数据对各边缘服务的可用性进行分级打标。

探测边缘网络服务是否存在异常时，探测设备(也可以称为“探测源”)发起对边缘端的边缘服务进行探测的探测请求，得到探测数据(一些场景下，也可以称为“探测结果数据”)。

探测设备将探测数据发送给中心端和/或边缘端的决策系统。

这样，中心端和/或边缘端的决策系统就可以基于源自探测设备的探测数据对所述边缘服务的可用性进行分析。

当决策系统发现异常服务时可以发布逃逸指令，对异常服务的访问客户端进行重调度。

与中心端100相比，边缘端200的决策系统可以更加迅速地采取行动。

应当可以理解，决策系统可以是中心端100或边缘端200的服务器或其它设备上运行的决策软件系统，也可以是在中心端100或边缘端200设置的硬件决策系统，或者也可以通过软硬件结合的方式在中心端100或边缘端200实现。

【客户端探测】

本公开提出可以使用客户端设备(客户端100的设备)作为探测设备。

与中心端100作为探测源的现有方案相比，不论是数据流动路径，还是访问方式等方面，客户端设备的探测请求更加接近于实际访问请求。通过使用客户端设备作为探测设备，可以增加探测的准确性和普适性，可能发现一些中心端100和边缘端200作为探测源时无法发现的异常网络问题。

可以采用多个客户端设备来对同一边缘服务进行探测。而且，对同一边缘服务进行探测的多个客户端设备可以处于不同地理位置，并且/或者具有不同的设备类型、系统、通信方式等等。这样，可以提升异常判断的正确性，减少误判、漏判等探测失误的发生。

可以在客户端设备上部署探测程序，来执行探测任务。

可以在所有满足条件的客户端设备上部署探测程序。或者，也可以仅在部分客户端设备上部署探测程序以执行探测任务，这样的客户端可以称为“探测客户端”，或者“模拟客户端”，以与常规访问边缘端的边缘服务的访问客户端相区别。探测客户端可以是专用于探测任务的客户端，也可以复用于其它类型的操作任务，或者也可以如普通的访问客户端一般正常访问边缘服务。

【端边协同探测】

另外，还可以使用边缘端设备(边缘端200的设备)作为探测设备。边缘端设备可以是边缘端200的某一台或某几台服务器，例如内容分布网络(CDN)节点的工具机。

同样地，也可以在边缘端设备上部署探测程序，来执行探测任务。

在一些实施例中，边缘端设备可以对本边缘端的边缘服务进行探测。

在一些实施例中，边缘端设备也可以对其它边缘端的边缘服务进行探测。

这样，通过既使用客户端设备，又使用边缘端设备，作为探测设备，实现端边协同探测，可以进一步提升异常判断的正确性，减少误判、漏判等探测失误的发生。

本公开通过引入客户端探测，并进一步提出客户端与边缘端协同探测，增加了探测的多样性，可以减少单一探测源带来的探测误差。

下文中如无特别说明，“探测设备”既可以是客户端设备，可以是边缘端设备。

【任务分配机制】

探测设备的探测任务可以是中心端100统一分配的。

中心端100可以向探测设备下发探测任务清单，探测设备基于探测任务清单发起探测请求。

在本公开一些实施例的探测任务分配机制中，探测任务是动态分配的。一个边缘端可能被多个探测设备如探测客户端设备探测，一个探测设备如探测客户端设备也会探测多个边缘端，只要尽量保证每个边缘端都有相对均衡的探测设备数量就可以。

探测任务清单可以是分配给相应探测设备的探测目标边缘服务的信息列表，例如可以以URL列表形式呈现。

分配给一个探测设备的探测任务清单可以包括至少一个边缘端100的至少一项边缘服务。

中心端100可以通过调整探测任务清单中的探测对象，来调整探测设备的探测对象范围。

中心端100还可以通过调整探测任务清单中的探测类型，调整探测设备的探测请求类型，例如大文件探测请求、小文件探测请求等。

中心端100还可以通过调整探测任务清单中的频率参数，或通过调整将针对探测对象的探测任务放入探测任务清单的频率，调整探测设备针对所述探测对象的探测频率。具体可参见下文中关于“变频探测”描述的内容。

这样，可以更加灵活地调度探测设备来执行探测任务，既能够尽可能保证各个边缘端的探测设备数量均衡，而且还可以例如通过探测设备轮换等方式，每轮调整探测设备相对于边缘端的分配，使用不同的探测设备来对边缘端进行探测，进一步提升探测源的多样性，提升异常判断的正确性，减少误判、漏判等探测失误的发生。

【主被动数据结合】

在探测过程中，可以实现主被动数据的结合，从而后续分析评判时可以借助多维数据进行协同感知。

下面参考图2简要说明一下探测任务的执行过程。

图2是探测设备执行探测任务的简要流程图。如前文所述，探测设备可以是边缘端设备，也可以是客户端设备。特别地，本公开创新地提出可以采用客户端设备来作为探测设备执行探测任务。

如图2所示，在步骤S210，探测设备接收探测任务清单。

在步骤S220，探测设备发起对边缘端的边缘服务进行探测的探测请求。

在步骤S230，探测设备接收来自边缘服务的响应，记录日志，并在步骤S240从日志中提取探测数据。

对边缘端的边缘服务进行的探测可以包括TCP/UDP健康检查、模拟客户HTTP/HTTPS请求检查等。

探测数据可以包括探测成功率、丢包率、响应慢速比、往返时延(RTT，Round-TripTime)、失败原因中的至少一项。

另外，探测设备还从边缘端服务器的访问日志中获取探测数据。

在步骤S250，探测设备将探测数据发送到决策系统，以便决策系统进行异常分析。

单一使用主动探测的方式，往往难以感知到服务指标的变化，对于多种类型的服务异常难以准确判断。

而本申请可以结合主动探测数据和被动探测数据(基于边缘服务端日志、客户端日志获取探测数据)，借助多维数据，以多种方式进行协同感知，可以进一步提升异常判断的准确性。

【变频探测】

探测过程可以理解为探测设备模拟客户请求，获取服务器上的资源。资源可以分为大文件和小文件。探测请求也可以分别针对大文件和小文件。

即，探测设备在步骤S220中发送的探测请求可以包括请求获取大文件的大文件探测请求和请求获取小文件的小文件探测请求。

小文件探测请求可以用来检查网络通断情况。

大文件探测请求则可以更加真实地模拟用户访问以获取更多维度的健康指标数据。

因此，可以通过大范围的小文件探测来发现一般性问题，再在小范围内改用大文件探测对局部发现的特殊问题进行探测。

这样，可以对第一范围内的探测对象发送小文件探测请求，确定第一范围内出现故障的第二范围，再对第二范围内的探测对象发送大文件探测请求，以明确故障点和/或故障原因。这里，探测对象可以是网络服务。第一范围例如可以包括一个地理区域内的所有边缘端。

探测的负载消耗大致为探测次数×文件大小。

高频探测的情况下，短期可以获得大量的探测数据，可以支持更快速的逃逸。但会消耗更大的探测资源。想要同时兼顾大范围和高频是很难的，这主要是受制于探测设备资源的探测能力。

这样，可以以较低地频率进行大范围的小文件探测，而以较高的频率进行小范围(第二范围)的大文件探测。

这样，可以以第一探测频率周期性发送小文件探测请求，而以高于第一探测频率的第二探测频率周期性发送大文件探测请求。

在一些实施例中，可以基于下述至少一项来确定是否从第一频率的小文件探测切换到第二频率大文件探测：

当前区域进行小文件探测的故障率；

当前区域进行小文件探测的连接建立时间；以及

当前区域的探测能力是否足够。

这里，一个区域内可以包括一个或多个边缘端。

考虑到探测目标数量和探测源分布的问题(需要确保各区域都有探测源)，对于探测容量和探测频率的要求也比较高，难以进行全方位大文件探测，以准确度量下载速度等指标。

因此，首先使用大范围低频的小文件探测，筛选出大致故障范围，随后可以自动生成小范围高频大文件探测，明确问题区域并判断问题根因。

由此，通过变频探测，可以合理分配有限的探测能力，解决局部区域探测源数量不足的问题，保持周期性低频大范围小文件探测，在发现疑似异常区域后，改用高频探测。

【异常分析】

在通过探测请求获取探测数据之后，决策系统可以使用基于客户端日志与服务端日志得到的这些探测数据，通过机器学习算法，点对点地对各边缘端(边缘节点)的边缘服务的可用性异常进行根因分析，形成边缘网络质量画像。针对存在严重网络问题的区域和边缘节点，可以发布逃逸指令。

在一些实施例中，可以在中心端和边缘端的决策系统中都采用上述方式进行异常分析判断处理。

在另一些实施例中，考虑到中心端拥有更加全面的数据，在中心端的决策系统中采用上述方式进行异常分析判断。

而更一般地，例如考虑到边缘端的决策系统的决策能力可能有限，所拥有的数据也可能不够全面，可以采用一些较为简单的分析判断方法。例如，可以简单地基于探测数据(关键指标)与作为判断基准的探测基线之间的偏差来进行分析判断，即通过观察关键指标是否达到阈值来判定是否出现异常。中心端也可以采用这样的方式来进行分析判断。

【探测基线】

一般而言，为了进行前述分析判断，会设置阈值或探测基线。

各种现实因素，例如从各地供应商采购的设备性能不同，各地网络质量存在固有差异等，探测源(探测设备)之间会存在一些差异，相应获得的探测数据也会有所偏差。基于可能存在偏差的探测数据进行异常判定时，如果采用相同的阈值或探测基线，可能会存在判断不准确的情况。

本公开提出，可以使用区域的平均探测数据作为该区域的探测基线。如上所述，一个区域内可以包括一个或多个边缘端。

这样，可以对于区域内边缘端，基于探测数据相对于探测基线的偏移量来判定边缘服务是否异常。

对于探测数据中用于判定异常的指标，如探测成功率、丢包率、响应慢速比、RTT等，可以基于区域内平均数据来分别设置对应的探测基线。

由此，通过感知网络系统日常状态(获取平均探测数据)，设置探测基线，而不使用统一的阈值作为异常判定的标准，在探测数据中减掉探测基线，可以避免探测源差异对异常判定结果的干扰，消除因区域间探测源差异而造成的判断不准确，提升异常判定的准确性，还能有效避免由于探测源出现故障而导致异常判定结果失真的问题。

另外，通过基于平均探测数据来选取合适的阈值，既可以保证异常判定的准确性，也避免了异常检测过于敏感而频繁逃逸造成边缘服务资源不足的问题。

【中心逃逸和边缘逃逸相结合】

当检测到出现边缘服务异常，就立即通过下发逃逸指令的形式，命令执行端(访问客户端)进行逃逸，随后进行重调度，将访问客户端从出现故障的边缘网络节点重新调度到其它正常的边缘网络节点，保证流量和资源分配的均衡性。

具体说来，在决策系统判定边缘服务出现故障的情况下，可以向访问该边缘服务的访问客户端发布逃逸指令，将访问客户端重新调度到其它边缘端以接收边缘服务。

如前文所述，决策系统可以在中心端，也可以在边缘端，也可以在中心端和边缘端都设置决策系统。

相应地，中心端基于所收到的探测数据发现异常后发起的逃逸过程可以称为“中心逃逸”。具体说来，由中心端进行重调度，向访问客户端下发逃逸指令，令客户端转到其它边缘网络节点以接收边缘网络服务。

中心端可以采用多种形式来指令逃逸。一般地，可以采用DNS调度方式，通过修改访问客户端所要访问的边缘服务的权威DNS(域名系统)，将域名解析转向其它边缘节点的相应边缘服务。

边缘端的决策系统基于所收到的探测数据发现异常后发起的逃逸过程可以称为“边缘逃逸”。

例如，出现异常的边缘端可以自主决策，向客户端下发逃逸指令，重调度到其它边缘网络节点。然后边缘端还可以将异常情况上报中心端。中心端一方面可以记录并分析边缘端上报的异常情况，另一方面还可以进一步发起中心逃逸。

边缘调度例如可以通过302调度等方式来实现。

DNS调度和302调度是CDN(内容分发网络)的两种调度方式。DNS调度用的是直接转发方式(Forward)，将请求的域名转换为IP地址，例如可以用于实现跨运营商和跨省市的调度。302调度用的是间接转发方式(重定向，Redirect)，基于精准IP和内容的精准调度方案，可获取最终用户的真实IP。

DNS调度和302调度均为本领域所公知，在此不再赘述。

使用中心逃逸(中心重调度)的方式，往往需要较长的生效时间，例如对于CDN类型，往往需要通过重新生成权威DNS解析，再通过本地DNS生效，加上缓存，生效时间大约需要几分钟或更长。

在边缘端具有发布逃逸指令的能力的情况下，可以将探测数据发送到边缘端的决策系统。这样，当发现异常的时候，边缘端可以快速发布逃逸指令，做出应对措施。

另一方面，也可以同时将探测数据发不到中心端的决策系统。

而在边缘端不具有发布逃逸指令的能力的情况下，可以不将探测数据发送到边缘端的决策系统，而仅将探测数据发送到中心端的决策系统。

另外，可以根据是否具有发布逃逸指令的能力，来决定是否要将探测数据发送给边缘端的决策系统，以便决策系统尽快做出是否存在异常的分析判断。

由次，可以实现边缘逃逸与中心逃逸协同，中心逃逸指令秒级下发后再进行重调度；边缘自主决策逃逸后，再上报中心端。

【区域定位】

通常，网络问题都是区域性问题。在这种情况下，通过事件触发的方式，向中心端上报问题区域和节点信息，中心端会根据所有事件的频次及严重程度进行异常的聚类升级。如果分析判定出现了区域性异常，就会整个区域进行逃逸动作，例如可以设置区域间的访问禁用，禁止其它区域的访问客户端访问异常区域的边缘端边缘服务。

具体而言，中心端可以对探测到的边缘端异常进行聚类分析，以发现并定位区域级异常。

在发现区域级异常的情况下，可以向访问异常区域中的边缘端的边缘服务的访问客户端发布逃逸指令，将访问客户端重新调度到其它区域中的边缘端以接收边缘服务。

这里的区域可以指地理区域以及网络运营商(如北京移动、上海电信)。探测源和探测目标节点都可以按这种方式划分区域，如果从一个区域到另一个区域的探测存在普遍问题，就可以把这样的普遍问题升级为区域级别的问题(通常这种情况都是由于运营商骨干网出现故障导致的)，从而可以对区域整体进行逃逸。

由此，通过区域定位技术，可以在实现最小影响面的精确逃逸的同时，确保大面积故障时能够及时进行故障处理，并进行主动规避止血。

至此，已经详细描述了根据本公开的网络系统及其边缘网络异常检测方案。

另外，本公开还提出了一种用于对边缘端的边缘服务进行探测的客户端设备。

图3示出了本公开的探测用客户端设备的示意性框图。

如图3所示，本公开的探测用客户端设备310可以包括通信模块312和探测模块314。

通信模块312用于与中心端100和边缘端200通信。

探测模块314基于中心端100下发的探测任务，发起对边缘端200的边缘服务进行探测的探测请求，得到探测数据，并经由通信模块312将探测数据发送到中心端100和/或边缘端200的决策系统。

另外，本公开还提出了一种边缘网络异常检测方法。

如图4所示，在步骤S410，可以基于探测设备发起的边缘网络探测任务，对边缘端的边缘服务进行探测，得到探测数据。如前文所述，探测设备可以包括客户端设备，也可以进一步包括边缘端设备。

在步骤S420，例如可以由探测设备可以将探测数据发送给中心端和/或边缘端的决策系统。

在步骤S430，决策系统可以基于探测数据对边缘服务的可用性进行分析，判断是否存在异常的边缘服务。

由此，可以在根据本公开的网络系统中，便捷而又准确地发现存在异常的边缘服务。

更进一步地，在步骤S440，在判定存在异常的情况下可以发布逃逸指令，将出现异常的边缘服务的访问客户端重调度到其它边缘节点的边缘服务。

如图5所示，在步骤S510，中心端100，例如可以是其决策系统或其它服务器或任务管理模块，可以向探测设备下发探测任务清单，以便探测设备基于探测任务清单发起对边缘端的边缘服务进行探测的探测请求，所述探测设备包括客户端设备。该客户端设备例如可以是用于执行探测任务的“探测客户端”的设备。

在步骤S520，中心端100，例如其决策系统，可以接收来自探测设备通过发送探测请求获取的探测数据。

在步骤S530，中心端100，例如其决策系统，可以基于探测数据对边缘端的边缘服务是否存在异常进行分析。

上文中描述的有关决策系统进行边缘服务异常分析判断以及边缘服务存在异常时下发逃逸指令等方面的内容，同样适用于图5所示中心端执行的边缘网络异常检测方法。在此不再赘述。

由此，实现了根据本公开的网络系统中的边缘服务异常发现及重调度。

参见图6，计算设备600包括存储器610和处理器620。

处理器620可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器620可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器620可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器610可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器620或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器610可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器610可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器610上存储有可执行代码，当可执行代码被处理器620处理时，可以使处理器620执行上文述及的边缘服务异常检测方法。

上文中已经参考附图详细描述了根据本发明的网络系统、客户端设备以及边缘网络异常检测方法。

本公开能够通过主动探测、被动日志数据分析等方式，感知边缘服务可用性异常，并在发现异常边缘服务的情况下，通过调度手段进行快速自动逃逸，避免客户使用异常服务，保障边缘端边缘服务的高可用性和稳定性。

同时，还可以在兼顾异常检测的准确性和逃逸的时效性，对探测设备进行合理任务分配调度，弥合海量的探测目标与探测设备数量之间的差异。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种边缘网络异常检测方法，在客户端设备执行，包括：

发送对边缘端的边缘服务进行探测的探测请求，得到探测数据；

将探测数据发送给中心端和/或边缘端的决策系统。

2.根据权利要求1所述的方法，还包括：

接收中心端下发的探测任务清单，

其中，所述探测请求是基于探测任务清单发起的。

3.根据权利要求1所述的方法，还包括：

接收边缘服务针对所述探测请求的响应，并记录日志；以及

从日志中提取探测数据。

4.根据权利要求1所述的方法，其中，

探测数据包括探测成功率、丢包率、响应慢速比、往返时延、失败原因中的至少一项；并且/或者

探测数据包括从边缘端服务器的访问日志中获取的探测数据。

5.根据权利要求1所述的方法，其中，

所述探测请求包括请求获取大文件的大文件探测请求和请求获取小文件的小文件探测请求；

对第一范围内的网络服务发送小文件探测请求，确定第一范围内出现故障的第二范围，再对第二范围内的网络服务发送大文件探测请求，以明确故障点和/或故障原因。

6.根据权利要求5所述的方法，其中，

以第一探测频率周期性发送小文件探测请求，以第二探测频率周期性发送大文件探测请求，所述第二探测频率高于第一探测频率。

7.根据权利要求6所述的方法，其中，基于下述至少一项来确定是否从第一频率的小文件探测切换到第二频率大文件探测：

当前区域进行小文件探测的故障率；

当前区域进行小文件探测的连接建立时间；以及

当前区域的探测能力是否足够，

其中，一个区域内包括一个或多个边缘端。

8.根据权利要求1所述的方法，其中，

在边缘端具有发布逃逸指令的能力的情况下，将探测数据发送到边缘端的决策系统；并且/或者

在边缘端不具有发布逃逸指令的能力的情况下，将探测数据发送到中心端的决策系统。

9.一种边缘网络异常检测方法，在中心端执行，包括：

向探测设备下发探测任务清单，以便探测设备基于探测任务清单发起对边缘端的边缘服务进行探测的探测请求，所述探测设备包括客户端设备；

接收来自探测设备通过发送探测请求获取的探测数据；

基于探测数据对边缘端的边缘服务是否存在异常进行分析。

10.根据权利要求9所述的方法，其中，

通过调整探测任务清单中的探测对象，调整探测设备的探测对象范围；并且/或者

通过调整探测任务清单中的探测类型，调整探测设备的探测请求类型；并且/或者

通过调整探测任务清单中的频率参数，或通过调整将针对探测对象的探测任务放入探测任务清单的频率，调整探测设备针对所述探测对象的探测频率。

11.根据权利要求9所述的方法，还包括：

在判定边缘服务出现故障的情况下，向访问该边缘服务的访问客户端发布逃逸指令，将访问客户端重新调度到其它边缘端以接收边缘服务。

12.根据权利要求9所述的方法，其中，

使用区域的平均探测数据作为该区域的探测基线，其中，一个区域内包括一个或多个边缘端，

对于区域内边缘端，基于探测数据相对于探测基线的偏移量来判定边缘服务是否异常。

13.根据权利要求9所述的方法，还包括：

对探测到的边缘端异常进行聚类分析，以发现并定位区域级异常；

在发现区域级异常的情况下，向访问异常区域中的边缘端的边缘服务的访问客户端发布逃逸指令，将访问客户端重新调度到其它区域中的边缘端以接收边缘服务。

14.一种网络系统，包括中心端、边缘端和客户端，其中，

探测设备发起对边缘端的边缘服务进行探测的探测请求，得到探测数据，所述探测设备包括客户端设备；

中心端和/或边缘端的决策系统基于源自客户端的探测数据对所述边缘服务的可用性进行分析。

15.根据权利要求14所述的网络系统，其中，

所述探测设备还包括边缘端设备。

16.一种用于对边缘端的边缘服务进行探测的客户端设备，包括：

通信模块，用于与中心端和边缘端通信；以及

探测模块，基于中心端下发的探测任务，发起对边缘端的边缘服务进行探测的探测请求，得到探测数据，并经由通信模块将探测数据发送到中心端和/或边缘端的决策系统。

17.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至13中任何一项所述的方法。

18.一种计算机程序产品，包括可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至13中任何一项所述的方法。

19.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至13中任何一项所述的方法。