CN114217950B

CN114217950B - 节点调度状态控制方法和系统

Info

Publication number: CN114217950B
Application number: CN202111314730.5A
Authority: CN
Inventors: 侯诗军
Original assignee: Hangzhou Bodun Xiyan Technology Co ltd
Current assignee: Hangzhou Bodun Xiyan Technology Co ltd
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-10-21
Anticipated expiration: 2041-11-08
Also published as: CN114217950A

Abstract

本申请涉及节点调度状态控制方法和系统，属于云计算技术领域，本申请将探针模块部署于用户区域，将监测模块部署于kubernetes集群的node节点上的容器中，将管控模块部署于kubernetes集群的master节点；并且监测模块与探针模块通信连接，管控模块与监测模块通信连接，etcd存储模块与管控模块通信连接，因此可以通过探针模块向容器发送请求，得到探测情况，然后根据探测情况触发管控指令，实现对node节点的管控。有效的解决了企业运维kubernetes集群过程中遇到的node节点虽然运行正常，在上面启动容器却异常等情况下的状态控制问题。

Description

节点调度状态控制方法和系统

技术领域

本申请涉及云计算技术领域，特别是涉及节点调度状态控制方法和系统。

背景技术

随着云原生等新型云计算技术的逐渐普及，越来越多的企业开始使用kubernetes来进行容器的管理，其中，容器是伴随着瘦客户端系统的发展而诞生的。在开发瘦客户端系统时，开发人员要花费大量的精力去关注线程安全、事务、网络、资源等等细节，从而降低了开发效率。由于这些细节的解决方法一般是固定不变，或者只有参数改变的，所以从代码重用和设计模式的角度出发，开发人员将这些底层细节提取出来，做成平台，并提供一定的接口。这样，业务开发人员就不需要在关注与这些底层细节的实现，而专注于业务逻辑的实现。容器一般位于应用服务器之内，由应用服务器负责加载和维护。一个容器只能存在于一个应用服务器之内，一个应用服务器可以建立和维护多个容器。

而kubernetes是一种开源的容器编排引擎，它支持自动化部署、大规模可伸缩、应用容器化管理。在生产环境中部署一个应用程序时，通常要部署该应用的多个实例以便对应用请求进行负载均衡。kubernetes是一个开源的，用于管理云平台中多个主机上的容器化的应用，Kubernetes的目标是让部署容器化的应用简单并且高效，kubernetes提供了应用部署，规划，更新，维护的一种机制。kubernetes集群中有Master和Node两种角色，其中Node是负责容器运行的主机服务器，Master是负责管控Node用的。

在企业运维kubernetes集群的过程中，经常遇到node节点运行正常，但是在node节点中启动的容器网络却异常的问题。业内也有很多组织或个人尝试采用各种检测与控制手段来解决这类问题。例如，利用kubernetes自身的健康检查机制，自动探测node节点运行状况，如果异常则将node节点设置为不可调度状态，虽然可以解决node节点本身异常时的状态控制，但是，当node节点运行正常，但是在node节点中启动的容器网络却异常的时候，这种方法就失效了。再例如，对kubernetes集群中的node节点以及node节点上的容器健康状况做周期性的检测，如果检测到异常则发送告警给IT管理员，虽然可以检测出node节点异常和node节点上容器是否异常，但是，仅仅停留在检测，却没有对节点的运行和摘除动作做控制，不能达到效果。

因此，上述方法存在以下缺陷：要么只是停留在检测阶段，要么是不能深层次的解决node节点上容器异常后的状态控制问题。

发明内容

本申请实施例提供了一种节点调度状态控制方法和系统，以至少解决相关技术中无法有效的检测并解决node节点运行正常，但是在node节点中启动的容器网络却异常的问题。

第一方面，本申请实施例提供了一种节点调度状态控制系统，所述系统包括：探针模块、监测模块、管控模块和etcd存储模块。探针模块部署于用户区域；监测模块部署于容器中，所述容器部署于kubernetes集群的node节点上，所述监测模块与所述探针模块通信连接；管控模块部署于所述kubernetes集群的master节点，所述管控模块与所述监测模块通信连接；etcd存储模块与所述管控模块通信连接。

在其中一些实施例中，所述etcd存储模块用于保存node节点信息和node节点调度状态信息。

在其中一些实施例中，由多个所述探针模块组成探针群，所述监测模块与所述探针群中的每一个探针模块通信连接。

第二方面，本申请实施例提供了一种节点调度状态控制方法，应用于上述任一项所述的系统，所述方法包括：所述探针模块模拟用户区域的网络请求，生成探测数据，其中，所述网络请求被发往所述容器；所述监测模块采集所述探测数据，分析出探测结果，并根据所述探测结果判断是否触发管控指令；所述管控模块若接收到所述管控指令，则对node节点执行状态更新动作，并向所述etcd存储模块中存储该node节点最新调度状态信息。

在其中一些实施例中，在所述探针模块通过模拟用户访问容器的网络链路与交互，生成探测数据之前，所述方法还包括：构建健康资源池，所述健康资源池中包含多个所述node节点。

在其中一些实施例中，在所述探测结果表示异常访问的情况下，所述对node节点执行状态更新动作包括：所述管控模块将所述node节点的调度状态信息更新为禁止调度。

在其中一些实施例中，在所述管控模块将所述node节点的调度状态信息更新为禁止调度的同时，所述方法还包括：将所述node节点从所述健康资源池移除。

在其中一些实施例中，在将所述node节点从所述健康资源池摘除之后，所述方法还包括：若所述探测结果表示为正常访问，则将所述node节点加入所述健康资源池。

在其中一些实施例中，在将所述node节点加入所述健康资源池的同时，所述方法还包括：将所述node节点的调度状态信息更新为可调度。

在其中一些实施例中，所述探针模块的数量为三个以上的奇数，所述监测模块采集所述探测数据，分析出探测结果包括：判断探测数据表示异常访问的探针模块的数量是否大于探测数据表示正常访问的探针模块的数量，若是，则所述探测结果为异常访问；否则所述探测结果为正常访问。

相比于相关技术，本申请实施例提供的节点调度状态控制方法和系统中，将探针模块部署于用户区域，将监测模块部署于kubernetes集群的node节点上的容器中，将管控模块部署于kubernetes集群的master节点；并且监测模块与探针模块通信连接，管控模块与监测模块通信连接，etcd存储模块与管控模块通信连接，因此可以通过探针模块向容器发送请求，得到探测情况，然后根据探测情况触发管控指令，实现对node节点的管控，有效的解决了企业运维kubernetes集群过程中遇到的node节点虽然运行正常，在上面启动容器却异常等情况下的状态控制问题。进一步的，在用户区域部署的探针模块用于向kubernetes集群发送探测数据，即，在node节点上启动容器，容器中的监测模块从用户区域的探针模块采集探测数据，真实的站在用户侧的角度，模拟用户访问容器的网络链路与交互，从而根据探测结果对node节点的状态做出管控，精准的实现了kubernetes集群节点调度状态控制。另外，通过探针群的设置还避免了检测误报，提高检测的准确性和可靠性，从而提高控制的精准度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的节点调度状态控制方法的流程图；

图2是根据本申请实施例的探针模块、监测模块、管控模块和etcd存储模块的关系示意图；

图3是根据本申请实施例的节点调度状态控制系统的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请实施例中，在用户区域部署探针模块；在kubernetes集群的node节点上部署有容器(包括监测容器)，该监测容器中部署有监测模块；在kubernetes集群的master节点上部署管控模块，该管控模块连接于etcd存储模块，该etcd存储模块用于保存node节点信息和node节点调度状态信息，其中，探针模块与监测模块通信连接，监测模块与管控模块通信连接，管控模块与etcd存储模块通信连接。

在其中一些实施例中，多个探针模块可以组成探针群，并且监测模块与探针群中的每一个探针模块通信连接，可选的，探针群的数量也可以为多个。

进一步的，图1是根据本申请实施例的节点调度状态控制方法的流程图，如图1所示，该方法包括以下步骤：

S101：探针模块模拟用户区域的网络请求，生成探测数据，其中，该网络请求被发往上述的容器；

S102：监测模块采集探测数据，分析出探测结果，并根据探测结果判断是否触发管控指令；

S103：管控模块若接收到管控指令，则对node节点执行状态更新动作，并向etcd存储模块中存储该node节点最新调度状态信息。

上述探针指一种信号传输探测工具，是测试接口，主要对裸芯进行测试，通过连接测试机和芯片，通过传输信号对芯片参数进行测试。可以通过编程语言实现探测服务器敏感信息的探测脚本代码，可用于探测服务器操作系统、CPU、内存、磁盘等信息、Session超时时间、环境变量、组件支持情况、运算速度、磁盘读写速度以及网络连接速度等。

上述etcd是一个可靠的分布式KV存储产品。

因此，本申请实施例将探针模块部署于用户区域，将监测模块部署于kubernetes集群的node节点上的容器中，将管控模块部署于kubernetes集群的master节点；并且监测模块与探针模块通信连接，管控模块与监测模块通信连接，etcd存储模块与管控模块通信连接，因此可以通过探针模块向容器发送请求，得到探测情况，然后根据探测情况触发管控指令，实现对node节点的管控，有效的解决了企业运维kubernetes集群过程中遇到的node节点虽然运行正常，在上面启动容器却异常等情况下的状态控制问题。进一步的，在用户区域部署的探针模块用于向kubernetes集群发送探测数据，即，在node节点上启动容器，容器中的监测模块从用户区域的探针模块采集探测数据，真实的站在用户侧的角度，模拟用户访问容器的网络链路与交互，从而根据探测结果对node节点的状态做出管控，精准的实现了kubernetes集群节点调度状态控制。

为了对本申请实施例进行更清楚的说明，下文举出优选的示例进行详细的阐述。

本申请实施例存在一些前期的准备步骤和辅助步骤，包括：

(1)准备kubernetes集群的master权限与IP地址信息。

(2)在kubernetes集群中部署监测容器，从而可以在各node节点上启动一个专门的监测容器，需要说明的是，node节点上可以运行多个容器，该监测容器为其中的一个，由于本申请实施例可以模拟用户区域的网络请求，真实的站在用户侧的角度，模拟用户访问容器的网络链路与交互，因此，为了方便描述，可将上述监测容器简称为容器，且该容器中运行监测模块的程序。另外，将master权限与IP地址信息配置进监测模块中。

(3)在用户区域部署探针模块，并将探针模块的推送地址配置为容器的IP地址信息。

通过以上步骤，可以提前准备好整套装置所需的前置信息，方便安装部署各个模块，让其更加顺利的运转，以达到预期效果。

图2是根据本申请实施例的探针模块、监测模块、管控模块和etcd存储模块的关系示意图，如图2所示，在用户区域部署有探针模块，为了避免检测误报，优选部署3个以上的探针模块，且按照奇数部署，例如部署3个、5个、7个、9个……，因此，多个探针模块可以组成探针群。

在kubernetes区域部署有监测模块、管控模块和etcd存储模块。优选的，需要构建有健康资源池，该健康资源池中包含多个node节点，如node-1，node-2，node-3等等，各node节点上部署有监测容器，监测容器中部署有监测模块。管控模块部署在master节点上，管控模块与etcd存储模块通信连接。

作为一个示例，本申请实施例的节点调度状态控制方法包括如下步骤：

步骤1：探针模块模拟用户区域的网络请求，生成探测数据，其中，该网络请求被发往上述的容器。例如，探针模块通过网络链路访问容器失败(即探测失败)，或者探针模块与容器的交互异常等等，都属于异常情况，那么生成的探测数据表示异常访问；若探测正常，则生成的探测数据表示正常访问。

步骤2：监测模块采集上述探测数据，分析出探测结果，并根据探测结果判断是否触发管控指令。例如，步骤1中的探针模块数量为1个，那么探测结果与探测数据表示的结果一致，即，若探测数据表示异常访问，则探测结果就为异常访问；若探测数据表示正常访问，则探测结果就为正常访问。再例如，步骤1中的探针模块数量为3个以上的奇数，则按照少数服从多数原则来分析探测结果，具体的，需要统计探测数据表示异常访问的监测模块的数量，称为第一数量；统计探测数据表示正常访问的监测模块的数量，称为第二数量；若第一数量大于第二数量，则探测结果为异常访问；若第二数量大于第一数量，则探测结果为正常访问，能够避免检测误报，提高检测的准确性和可靠性。

步骤3：管控模块若接收到步骤2触发了的管控指令，则对node节点执行状态更新动作，并向etcd存储模块中存储该node节点最新调度状态信息。例如，在探测结果表示异常访问的情况下，管控模块将node节点的调度状态信息更新为禁止调度，与此同时还可以将该node节点从健康资源池移除(或称为摘除)。

进一步的，若探测结果表示为正常访问，则将node节点加入健康资源池，与此同时，将node节点的调度状态信息更新为可调度。因此，用户一直访问到的都是健康资源池中的node节点，而容器访问异常的node节点不在健康资源池中，不会被用户访问到。

另外，etcd存储模块主要是负责记录kubernetes集群中的node节点信息、node节点调度状态信息、容器状态信息、服务对应关系等，所以本申请实施例需要将node节点的更新后的调度状态信息(即最新调度状态信息)存储到etcd存储模块中。

综上，本申请实施例通过在用户区域部署探针群，直接在node节点上启动容器，从探针群采集探测数据，以此来真实模拟用户访问容器的网络链路与交互，根据探测结果对node节点的状态做出管控。本申请实施例所用的方法真实的站在用户侧的角度，检测整条完整链路的可用性，能够有效的解决企业运维kubernetes集群过程中遇到的node节点虽然运行正常，在上面启动容器却异常等情况下的状态控制问题。另外，探针群的设置还避免了检测误报，提高了控制的精准度。

本申请实施例还提供一种节点调度状态控制系统，图3是根据本申请实施例的节点调度状态控制系统的结构示意图，如图3所示，该系统包括探针模块1、监测模块2、管控模块3和etcd存储模块4。

探针模块1，部署于用户区域，用于通过模拟用户访问容器的网络链路与交互，生成探测数据，其中，上述容器部署于kubernetes集群的node节点；

监测模块2，部署于容器中，用于采集探测数据，分析出探测结果，并根据探测结果判断是否触发管控指令；

管控模块3，部署于kubernetes集群的master节点，用于在接收到管控指令的情况下对node节点执行状态更新动作，并向etcd存储模块中存储该node节点最新调度状态信息；

etcd存储模块4，用于保存node节点信息和node节点调度状态信息。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种节点调度状态控制系统，其特征在于，所述系统包括：

探针模块，部署于用户区域，用于通过模拟用户访问容器的网络链路与交互，生成探测数据；

监测模块，部署于容器中，所述容器部署于kubernetes集群的node节点上，所述监测模块与所述探针模块通信连接，用于采集所述探测数据，分析出探测结果，并根据所述探测结果判断是否触发管控指令，其中，探测结果包括探针模块正常访问所述容器或异常访问所述容器；

管控模块，部署于所述kubernetes集群的master节点，所述管控模块与所述监测模块通信连接，用于在接收到管控指令的情况下对node节点执行状态更新动作，并向etcd存储模块中存储node节点最新调度状态信息，其中，调度状态信息包括可调度或禁止调度，具体地，当探测结果表示异常访问的情况下，node节点更新为禁止调度，当探测结果表示正常访问的情况下，node节点更新为可调度；

etcd存储模块，与所述管控模块通信连接，用于保存node节点信息和node节点调度状态信息。

2.根据权利要求1所述的系统，其特征在于，所述etcd存储模块用于保存node节点信息和node节点调度状态信息。

3.根据权利要求1所述的系统，其特征在于，由多个所述探针模块组成探针群，所述监测模块与所述探针群中的每一个探针模块通信连接。

4.一种节点调度状态控制方法，其特征在于，应用于权利要求1-3中任一项所述的系统，所述方法包括：

所述探针模块模拟用户区域的网络请求，生成探测数据，其中，所述网络请求被发往所述容器；

所述监测模块采集所述探测数据，分析出探测结果，并根据所述探测结果判断是否触发管控指令，其中，探测结果包括探针模块正常访问所述容器或异常访问所述容器；

所述管控模块若接收到所述管控指令，则对node节点执行状态更新动作，并向所述etcd存储模块中存储该node节点最新调度状态信息，其中，调度状态信息包括可调度或禁止调度，具体地，当探测结果表示异常访问的情况下，node节点更新为禁止调度，当探测结果表示正常访问的情况下，node节点更新为可调度。

5.根据权利要求4所述的方法，其特征在于，在所述探针模块通过模拟用户访问容器的网络链路与交互，生成探测数据之前，所述方法还包括：

构建健康资源池，所述健康资源池中包含多个所述node节点。

6.根据权利要求5所述的方法，其特征在于，在所述探测结果表示异常访问的情况下，所述对node节点执行状态更新动作包括：

所述管控模块将所述node节点的调度状态信息更新为禁止调度。

7.根据权利要求6所述的方法，其特征在于，在所述管控模块将所述node节点的调度状态信息更新为禁止调度的同时，所述方法还包括：

将所述node节点从所述健康资源池移除。

8.根据权利要求7所述的方法，其特征在于，在将所述node节点从所述健康资源池摘除之后，所述方法还包括：

若所述探测结果表示为正常访问，则将所述node节点加入所述健康资源池。

9.根据权利要求8所述的方法，其特征在于，在将所述node节点加入所述健康资源池的同时，所述方法还包括：

将所述node节点的调度状态信息更新为可调度。

10.根据权利要求4所述的方法，其特征在于，所述探针模块的数量为三个以上的奇数，所述监测模块采集所述探测数据，分析出探测结果包括：

判断探测数据表示异常访问的探针模块的数量是否大于探测数据表示正常访问的探针模块的数量，若是，则所述探测结果为异常访问；否则所述探测结果为正常访问。