CN110266790B

CN110266790B - 边缘集群管理方法、装置、边缘集群及可读存储介质

Info

Publication number: CN110266790B
Application number: CN201910526370.1A
Authority: CN
Inventors: 李国超; 王华夏; 王兴刚; 毛茂德
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2022-02-01
Anticipated expiration: 2039-06-18
Also published as: CN110266790A

Abstract

本申请实施例提供一种边缘集群管理方法、装置、边缘集群及可读存储介质，通过将主用控制平面设置于数据中心，将数据平面和提供主用控制平面的核心功能的备用控制平面设置于边缘集群，边缘集群在监测到当前时刻与数据中心之间的网络状态异常时，将当前为所述边缘集群提供控制服务的主用控制平面切换为备用控制平面。如此，能够充分利用数据中心的资源，提供高可靠的控制平面集群服务，可有效避免因断网或者弱网等不可预知的网络问题而导致控制平面服务不可用的问题，确保边缘集群的数据平面的高可用性，大幅提高控制平面的可靠性。

Description

边缘集群管理方法、装置、边缘集群及可读存储介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种边缘集群管理方法、装置、边缘集群及可读存储介质。

背景技术

边缘集群为了更充分地利用硬件资源，降低运维成本，通常将硬件及网络资源虚拟化。其中，网络资源虚拟化是指把物理网络及其关联组件(例如交换机、路由器等)抽象成多个逻辑网络和组件，并对其进行管理和维护。那么，对虚拟资源(例如IP、虚拟路由器)等进行管理的程序称作控制平面，承载计算服务流量的程序称作数据平面。

目前，在控制平面服务交由远端的数据中心维护的情况下，控制平面的可靠性较低，由此在数据中心与边缘集群断网或者弱网的情况下，数据平面的可用性将受到极大影响。

发明内容

有鉴于此，本申请实施例的目的在于提供一种边缘集群管理方法、装置、边缘集群及可读存储介质，以充分利用数据中心的资源，提供高可靠的控制平面集群服务，可有效避免因断网或者弱网等不可预知的网络问题而导致控制平面服务不可用的问题，确保边缘集群的数据平面的高可用性，大幅提高控制平面的可靠性。

根据本申请实施例的一个方面，提供一种边缘集群管理方法，应用于与数据中心通信连接的边缘集群，所述数据中心包括用于维护所述边缘集群的主用控制平面，所述边缘集群包括用于维护该边缘集群所在的虚拟网络的数据平面和备用控制平面，所述方法包括：

监测当前时刻与所述数据中心之间的网络状态是否异常；

在监测到当前时刻与所述数据中心之间的网络状态异常时，将当前为所述边缘集群提供控制服务的主用控制平面切换为所述备用控制平面。

根据本申请实施例的另一方面，提供一种边缘集群管理装置，应用于与数据中心通信连接的边缘集群，所述数据中心包括用于维护所述边缘集群的主用控制平面，所述边缘集群包括用于维护该边缘集群所在的虚拟网络的数据平面和备用控制平面，所述装置包括：

监测模块，用于监测当前时刻与所述数据中心之间的网络状态是否异常；

切换模块，用于在监测到当前时刻与所述数据中心之间的网络状态异常时，将当前为所述边缘集群提供控制服务的主用控制平面切换为所述备用控制平面。

根据本申请实施例的另一方面，提供一种边缘集群，所述边缘集群与数据中心通信连接，所述数据中心包括用于维护所述边缘集群的主用控制平面，所述边缘集群包括用于维护该边缘集群所在的虚拟网络的数据平面和备用控制平面：

所述边缘集群包括机器可读存储介质及处理器，所述机器可读存储介质存储有机器可执行指令，所述处理器在执行所述机器可执行指令时，该所述边缘集群实现上述的边缘集群管理方法。

根据本申请实施例的另一方面，提供一种可读存储介质，所述可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现上述的边缘集群管理方法。

基于上述任意方面，本申请实施例通过将主用控制平面设置于数据中心，将数据平面和提供主用控制平面的核心功能的备用控制平面设置于边缘集群，边缘集群在监测到当前时刻与数据中心之间的网络状态异常时，将当前为所述边缘集群提供控制服务的主用控制平面切换为备用控制平面。如此，能够充分利用数据中心的资源，提供高可靠的控制平面集群服务，可有效避免因断网或者弱网等不可预知的网络问题而导致控制平面服务不可用的问题，确保边缘集群的数据平面的高可用性，大幅提高控制平面的可靠性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的边缘集群管理方法的应用场景示意图；

图2示出了本申请实施例所提供的边缘集群管理方法的流程示意图之一；

图3示出了本申请实施例所提供的边缘集群管理方法的流程示意图之二；

图4示出了本申请实施例所提供的边缘集群管理装置的功能模块示意图；

图5示出了本申请实施例所提供的边缘集群的结构示意框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

如今，随着计算服务集中化、网络拓扑复杂化，越来越无法满足“大连接，低时延，大带宽”的网络需求，更带来了报文延迟、访问卡顿等问题。为解决此类问题，选择距离用户接入具有较少中间环节的节点，部署关联的服务，以提供较好的连接和访问速度，提供此类服务的节点称为边缘节点。

边缘节点分为设备边缘(Device Edge)、基础设施边缘(Infrastructure Edge)两类，其中设备边缘一般没有计算能力，而对于基础设施边缘，通常存在由多个边缘节点组成的边缘集群对外提供各类服务。

如前述背景技术所述，目前的方案通常是边缘集群维护一套完整的虚拟网络，包含控制平面和数据平面，边缘集群的虚拟网络独立于其他边缘集群及数据中心；或者，边缘集群只维护虚拟网络的数据平面，将控制平面交由远端的数据中心统一维护。

然而，如果边缘集群维护一套完整的虚拟网络的控制平面和数据平面，那么独立的边缘集群的虚拟网络非常不便于业务的运维和管理，并且有限的边缘资源无法提供高可靠的控制平面服务。此外，如果边缘集群只维护虚拟网络的数据平面，将控制平面服务交由远端数据中心维护，由于边缘集群与远端数据中心之间必然存在断网或者弱网的问题，所以控制平面服务的可靠性大大降低，同时在控制平面服务不可用时，如果边缘集群发生断电重启、网络服务重启等情况，数据平面无法加载有效网络元数据，可能导致数据平面的不可用。在控制平面服务执行请求过程中，如果出现断网或弱网等情况，可能造成控制平面的脏数据。

为此，基于上述技术问题的发现，发明人提出下述技术方案以解决或者改善上述问题。需要注意的是，以上现有技术中的方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案，都应该是发明人在发明创造过程中对本申请做出的贡献，而不应当理解为本领域技术人员所公知的技术内容。

图1示出了本申请实施例所提供的边缘集群管理方法的应用场景示意图。如图1所示，所述数据中心200包括用于维护所述边缘集群100的主用控制平面，所述边缘集群100包括用于维护该边缘集群100所在的虚拟网络的数据平面和备用控制平面。

本实施例将控制平面抽象为多级服务，其中主用控制平面位于数据中心200，用于提供高可靠的集群服务；备用控制平面则位于边缘集群100，用于缓存当前边缘集群100的虚拟网络信息及数据平面的请求等，并可以提供主用控制平面的核心功能，例如创建、删除、查询、修改虚拟资源等等。其中，主用控制平面和备用控制平面之间可以通过事件event消息、定时update消息等方式互相同步数据，以确保数据的一致性。这样由多级控制平面同时提供控制服务，可以有效地保障控制平面的可靠性。

下面结合图1对图2所示出的边缘集群管理方法进行详细阐述，该边缘集群管理方法可以由图1中所示的边缘集群100执行。应当理解，在其它实施例中，本实施例的边缘集群管理方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该边缘集群管理方法的详细步骤介绍如下。

步骤S110，监测当前时刻与所述数据中心200之间的网络状态是否异常。

步骤S120，在监测到当前时刻与所述数据中心200之间的网络状态异常时，将当前为所述边缘集群100提供控制服务的主用控制平面切换为所述备用控制平面。

本实施例通过将主用控制平面设置于数据中心200，将数据平面和提供主用控制平面的核心功能的备用控制平面设置于边缘集群100，边缘集群100在监测到当前时刻与数据中心200之间的网络状态异常时，将当前为所述边缘集群100提供控制服务的主用控制平面切换为备用控制平面。如此，能够充分利用数据中心200的资源，提供高可靠的控制平面集群服务，可有效避免因断网或者弱网等不可预知的网络问题而导致控制平面服务不可用的问题，确保边缘集群100的数据平面的高可用性，大幅提高控制平面的可靠性。

作为一种可能的实施方式，针对步骤S110，首先，获取与所述数据中心200之间的网络态势数据。

所述网络态势数据可以表征该边缘集群100与数据中心200之前的网络情况。可选地，所述网络态势数据可以包括报文延迟数据和丢包率数据。例如，在一种可能的示例中，所述报文延迟数据可包括所述当前时刻之前第一预设时长内的第一报文平均延迟和所述当前时刻之前第二预设时长内的第二报文平均延迟，所述丢包率数据可包括所述第一预设时长内的丢包率以及丢包率敏感因子。其中，所述第一预设时长小于所述第二预设时长。例如第一预设时长可以为3秒，第二预设时长可以为100秒，即所述报文延迟数据可包括所述当前时刻之前3秒内的第一报文平均延迟和所述当前时刻之前100秒内的第二报文平均延迟，所述丢包率数据可包括该3秒内的丢包率以及丢包率敏感因子。

值得说明的是，第一预设时长和第二预设时长可以根据实际情况进行调整，本实施例对此不作任何限制。此外，丢包率敏感因子为常数，可以根据实际网络状态的运维需求进行设置，本实施例对此亦不作任何限制。

在前述基础上，接着可以根据所述网络态势数据计算当前时刻与所述数据中心200之间的网络态势。

例如在一种可能的实施方式中，可以计算所述第一报文平均延迟和所述第二报文平均延迟的比值，并计算所述当前时刻之前第一预设时长内的丢包率与所述丢包率敏感因子的乘积，然后根据所述比值和所述乘积计算当前时刻与所述数据中心200之间的网络态势。

作为一种示例，所述根据所述比值和所述乘积计算当前时刻与所述数据中心200之间的网络态势的计算公式可以为：

其中，D1为所述当前时刻i之前第一预设时长内的报文平均延迟，D2为所述当前时刻i之前第二预设时长内的报文平均延迟，L1为所述当前时刻i之前第一预设时长内的丢包率，n为丢包率敏感因子。

假设丢包率敏感因子n＝1，那么当边缘集群100与数据中心200之间的网络状态正常时，D1≈D2，L1＝0，则

当边缘集群100与数据中心200网络处于弱网状态时，D1>D2，L1>0，则

当边缘集群100与数据中心200断网时，D1＝0，则

基于上述计算公式，通过对大量网络态势数据进行计算，并结合定义每个网络态势数据的网络状态，即可获得正常网络状态时对应的正常网络态势区间，在正常网络态势区间之外的区间即为异常网络状态时对应的异常网络态势区间。

在上述基础上，即可根据计算出的网络态势判断当前时刻与所述数据中心200之间的网络状态是否异常。详细地，可判断所述网络态势是否处于所述正常网络态势区间，若所述网络态势处于所述正常网络态势区间，则判定当前时刻与所述数据中心200之间的网络状态正常；若所述网络态势未处于所述正常网络态势区间，则判定当前时刻与所述数据中心200之间的网络状态异常。

这样，当网络态势位于正常网络态势区间时，数据中心200与边缘集群100之间的网络状态正常，此时由可靠性更高的主用控制平面提供控制服务；当网络态势位于异常网络态势区间时，数据中心200与边缘集群100之间网络状态异常，此时则由备用控制平面提供控制服务。如此，大幅降低因数据中心200与边缘集群100之间的网络状态异常而导致的边缘集群100的虚拟网络不可用的可能性，也避免了在主用控制平面不可用时，如果边缘集群100发生断电重启、网络服务重启等情况，数据平面无法加载有效网络元数据的问题，并进一步地避免了在控制平面的服务执行请求过程中，如果发生断网或弱网，可能造成的控制平面的脏数据的情况。

在前述描述的基础上，请进一步参阅图3，在一种可能的实施方式中，上述的边缘集群管理方法还可以包括如下步骤：

步骤S130，在监测到与所述数据中心200之间的网络状态恢复正常时，将当前为所述边缘集群100提供控制服务的备用控制平面切换为所述主用控制平面。

详细地，当该边缘集群100与数据中心200之间的网络状态恢复正常时，将当前为所述边缘集群100提供控制服务的备用控制平面切换为可靠性更高的主用控制平面。此外，还可以将所述备用控制平面在网络状态异常期间的数据信息同步到所述主用控制平面，从而避免业务中断或者业务需要重新配置的问题。

进一步地，基于同一发明构思，请参阅图4，示出了本公开实施例提供的边缘集群管理装置300的功能模块示意图，本实施例可以根据上述方法实施例对边缘集群管理装置300进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。比如，在采用对应各个功能划分各个功能模块的情况下，图4示出的边缘集群管理装置300只是一种装置示意图，下面分别对该边缘集群管理装置300的各个功能模块的功能进行详细阐述。

监测模块310，用于监测当前时刻与所述数据中心200之间的网络状态是否异常。本实施例中，该监测模块310可以用于执行上述步骤S110，关于该监测模块310的具体执行功能可以参照上述针对步骤S110的描述。

切换模块320，用于在监测到当前时刻与所述数据中心200之间的网络状态异常时，将当前为所述边缘集群100提供控制服务的主用控制平面切换为所述备用控制平面。本实施例中，该切换模块320可以用于执行上述步骤S120，关于该切换模块320的具体执行功能可以参照上述针对步骤S120的描述。

恢复模块330，用于监测到与所述数据中心200之间的网络状态恢复正常时，将当前为所述边缘集群100提供控制服务的备用控制平面切换为所述主用控制平面。本实施例中，该恢复模块330可以用于执行上述步骤S130，关于该恢复模块330的具体执行功能可以参照上述针对步骤S130的描述。

进一步地，图5示出了本公开实施例提供的边缘集群100的结构示意框图，本实施例中，该边缘集群100可包括机器可读存储介质120和处理器130。

其中，处理器130可以是一个通用的中央处理器(Central Processing Unit，CPU)，微处理器，特定应用集成电路(Application-Specific Integrated Circuit，ASIC)，或一个或多个用于控制上述图2或者图3中所示的方法实施例提供的边缘集群管理方法的程序执行的集成电路。

机器可读存储介质120可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmabler-Only Memory，EEPROM)、只读光盘(Compactdisc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。机器可读存储介质120可以是独立存在，通过通信总线与处理器130相连接。机器可读存储介质120也可以和处理器集成在一起。其中，机器可读存储介质120用于存储执行本公开方案的机器可执行指令。处理器130用于执行机器可读存储介质120中存储的机器可执行指令，以执行上述图2或图3中所示的方法实施例提供的边缘集群管理方法。

由于本公开实施例提供的边缘集群100是上述图2或图3中所示的方法实施例提供的边缘集群管理方法的另一种实现形式，且边缘集群100可用于上述图2或图3中所示的方法实施例提供的边缘集群管理方法，因此其所能获得的技术效果可参考上述方法实施例，在此不再赘述。

进一步地，基于同一发明构思，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述边缘集群管理方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述边缘集群管理方法。

本申请实施例是参照根据本申请实施例的方法、设备(如图5的边缘集群100)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种边缘集群管理方法，其特征在于，应用于与数据中心通信连接的边缘集群，所述数据中心包括用于维护所述边缘集群的主用控制平面，所述边缘集群包括用于维护该边缘集群所在的虚拟网络的数据平面和备用控制平面，所述方法包括：

监测当前时刻与所述数据中心之间的网络状态是否异常，其中，通过与所述数据中心之间的报文延迟数据和丢包率数据判断是否处于弱网状态或断网状态以监测所述网络状态是否异常；

2.根据权利要求1所述的边缘集群管理方法，其特征在于，所述监测当前时刻与所述数据中心之间的网络状态是否异常的步骤，包括：

获取与所述数据中心之间的网络态势数据；

根据所述网络态势数据计算当前时刻与所述数据中心之间的网络态势；

根据计算出的网络态势判断当前时刻与所述数据中心之间的网络状态是否异常。

3.根据权利要求2所述的边缘集群管理方法，其特征在于，所述网络态势数据包括报文延迟数据和丢包率数据。

4.根据权利要求3所述的边缘集群管理方法，其特征在于，所述报文延迟数据包括所述当前时刻之前第一预设时长内的第一报文平均延迟和所述当前时刻之前第二预设时长内的第二报文平均延迟，所述丢包率数据包括所述第一预设时长内的丢包率以及丢包率敏感因子，其中，所述第一预设时长小于所述第二预设时长。

5.根据权利要求4所述的边缘集群管理方法，其特征在于，所述根据所述网络态势数据计算当前时刻与所述数据中心之间的网络态势的步骤，包括：

计算所述第一报文平均延迟和所述第二报文平均延迟的比值；

计算所述当前时刻之前第一预设时长内的丢包率与所述丢包率敏感因子的乘积；

根据所述比值和所述乘积计算当前时刻与所述数据中心之间的网络态势。

6.根据权利要求5所述的边缘集群管理方法，其特征在于，所述根据所述比值和所述乘积计算当前时刻与所述数据中心之间的网络态势的计算公式为：

7.根据权利要求2所述的边缘集群管理方法，其特征在于，所述边缘集群预先配置有正常网络状态时对应的正常网络态势区间，所述根据计算出的网络态势判断当前时刻与所述数据中心之间的网络状态是否异常的步骤，包括：

判断所述网络态势是否处于所述正常网络态势区间；

若所述网络态势处于所述正常网络态势区间，则判定当前时刻与所述数据中心之间的网络状态正常；以及

若所述网络态势未处于所述正常网络态势区间，则判定当前时刻与所述数据中心之间的网络状态异常。

8.根据权利要求1-7中任意一项所述的边缘集群管理方法，其特征在于，所述方法还包括：

在监测到与所述数据中心之间的网络状态恢复正常时，将当前为所述边缘集群提供控制服务的备用控制平面切换为所述主用控制平面。

9.根据权利要求8所述的边缘集群管理方法，其特征在于，所述方法还包括：

将所述备用控制平面在网络状态异常期间的数据信息同步到所述主用控制平面。

10.根据权利要求1-7中任意一项所述的边缘集群管理方法，其特征在于，所述方法还包括：

每隔预设周期将所述备用控制平面的数据信息和所述主用控制平面的数据信息进行同步。

11.一种边缘集群管理装置，其特征在于，应用于与数据中心通信连接的边缘集群，所述数据中心包括用于维护所述边缘集群的主用控制平面，所述边缘集群包括用于维护该边缘集群所在的虚拟网络的数据平面和备用控制平面，所述装置包括：

监测模块，用于监测当前时刻与所述数据中心之间的网络状态是否异常，其中，通过与所述数据中心之间的报文延迟数据和丢包率数据判断是否处于弱网状态或断网状态以监测所述网络状态是否异常；

12.一种边缘集群，其特征在于，所述边缘集群与数据中心通信连接，所述数据中心包括用于维护所述边缘集群的主用控制平面，所述边缘集群包括用于维护该边缘集群所在的虚拟网络的数据平面和备用控制平面：

所述边缘集群包括机器可读存储介质及处理器，所述机器可读存储介质存储有机器可执行指令，所述处理器在执行所述机器可执行指令时，该所述边缘集群实现权利要求1-10中任意一项所述的边缘集群管理方法。

13.一种可读存储介质，其特征在于，所述可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现权利要求1-10中任意一项所述的边缘集群管理方法。