CN113157481A

CN113157481A - 基于集群的服务器跳时间故障处理方法、装置及系统

Info

Publication number: CN113157481A
Application number: CN202110464881.2A
Authority: CN
Inventors: 刘春雨; 李规化; 侯聪聪; 张训寿
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-23

Abstract

本发明公开了一种基于集群的服务器跳时间故障处理方法、装置及系统，涉及信息安全领域，其中，该方法包括：响应于触发服务器跳时间故障检查操作，获取集群内服务器信息，其中，服务器信息包括：服务器的当前时间；基于预定规则，根据服务器的当前时间判断服务器是否存在跳时间故障；响应于判断结果为是，通过预定程序对所述服务器相应的集群层组件服务进行重启操作；在集群层组件服务重启成功、且所述服务器跳时间故障恢复后，对该服务器相应的应用容器进行重启操作。通过本发明，可以实现自动化恢复服务器的跳时间故障，无需手工操作，效率较高，对业务影响较小。

Description

基于集群的服务器跳时间故障处理方法、装置及系统

技术领域

本发明涉及信息安全领域，具体涉及一种基于集群的服务器跳时间故障处理方法、装置及系统。

背景技术

为验证特定日期业务交易是否正常，测试环境会制定测试计划，如下表1所示，例如，2021-03-01～2021-03-07期间，服务器日期是2021-04-01；2021-03-08调整服务器时间到2021-04-11。

工作开始日期	工作结束日期	系统日期
			2021-03-01	2021-03-07	2021-04-01
2021-03-08	2021-03-15	2021-04-11
			2021-03-16	2021-03-30	2021-04-30

表1

由于测试计划，存在两个服务器跳时间的场景。每天的0点，服务器时间回调一天，与前一天保持一致；工作开始日期，系统日期调到未来的一天。

服务器跳时间后会导致一些应用程序异常，目前一般通过重启服务来解决。对于部署在虚拟机上的应用程序，一般通过在服务器部署定时任务脚本，在时间调整后重启服务器上的应用程序来解决。

应用入PaaS(平台即服务)云k8s(kubernetes，用于自动部署、扩展和管理容器化应用程序的开源系统)集群后，k8s集群自动调度，完成应用容器的启动。PaaS云应用无法获知容器所在服务器的IP地址，因此也无法部署脚本来重启应用的容器。另一方面，k8s层基础服务组件因跳时间也会出现异常，需要重启恢复。

目前，需要先手工重启恢复k8s层基础组件服务，然后管控台手工重启各应用容器来恢复应用环境。通过手工操作来重启恢复服务，效率较低，对业务影响较大。

发明内容

有鉴于此，本发明提供一种基于集群的服务器跳时间故障处理方法、装置及系统，以解决上述提及的至少一个问题。

根据本发明的第一方面，提供一种基于集群的服务器跳时间故障处理方法，所述方法包括：

响应于触发服务器跳时间故障检查操作，获取集群内服务器信息，其中，服务器信息包括：服务器的当前时间；

基于预定规则，根据服务器的当前时间判断服务器是否存在跳时间故障；

响应于判断结果为是，通过预定程序对所述服务器相应的集群层组件服务进行重启操作；

在集群层组件服务重启成功、且所述服务器跳时间故障恢复后，对该服务器相应的应用容器进行重启操作。

根据本发明的第二方面，提供一种基于集群的服务器跳时间故障处理装置，所述装置包括：

服务器信息获取单元，用于响应于触发服务器跳时间故障检查操作，获取集群内服务器信息，其中，服务器信息包括：服务器的当前时间；

故障判断单元，用于基于预定规则，根据服务器的当前时间判断服务器是否存在跳时间故障；

层组件服务重启单元，用于响应于判断结果为是，通过预定程序对所述服务器相应的集群层组件服务进行重启操作；

应用容器重启单元，用于在集群层组件服务重启成功、且所述服务器跳时间故障恢复后，对该服务器相应的应用容器进行重启操作。

根据本发明的第三方面，提供一种基于集群的服务器跳时间故障处理系统，所述系统包括：上述的装置、位于集群中的多个服务器，所述装置用于处理各服务器的跳时间故障。

根据本发明的第四方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

根据本发明的第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

由上述技术方案可知，在服务器跳时间故障检查操作触发时，获取集群内服务器的当前时间，随后，根据服务器的当前时间判断服务器是否存在跳时间故障，当判断结果为是时，通过预定程序对所述服务器相应的集群层组件服务进行重启操作，之后在集群层组件服务重启成功、且所述服务器跳时间故障恢复后，对该服务器相应的应用容器进行重启操作，如此，实现了自动化恢复服务器的跳时间故障，相比于现有技术，本技术方案无需手工操作，效率较高，对业务影响较小。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的基于集群的服务器跳时间故障处理系统的结构框图；

图2是根据本发明实施例的服务器跳时间故障处理装置的结构框图；

图3是根据本发明实施例的基于PaaS云环境k8s集群的服务器跳时间故障处理系统的示例结构框图；

图4是根据本发明实施例的控制器的工作原理流程图；

图5是根据本发明实施例的时钟校验组件的工作原理流程图；

图6是根据本发明实施例的k8s层重启组件的工作原理流程图；

图7是根据本发明实施例的服务器跳时间故障处理方法的流程图；

图8为本发明实施例的电子设备600的系统构成的示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，k8s集群应用容器的服务器发生跳时间故障时，需要手工重启恢复k8s层基础组件服务，然后手工重启各应用容器来恢复应用环境，通过手工操作来重启恢复服务器的跳时间故障，效率较低，对业务影响较大，基于此，本发明实施例提供一种基于集群的服务器跳时间故障处理方案，该方案无需手工操作，可以自动化恢复服务器的跳时间故障，效率较高，对业务影响较小。以下结合附图来详细描述本发明实施例。

图1是根据本发明实施例的基于集群的服务器跳时间故障处理系统的结构框图，如图1所示，该系统包括：服务器跳时间故障处理装置1及集群中的多个服务器2(图中仅显示一个)，其中，服务器跳时间故障处理装置1用于处理各服务器的跳时间故障。

图2是服务器跳时间故障处理装置1的结构框图，如图2所示，该装置1包括：服务器信息获取单元11、故障判断单元12、层组件服务重启单元13和应用容器重启单元14，其中：

服务器信息获取单元11，用于响应于触发服务器跳时间故障检查操作，获取集群内服务器信息，其中，服务器信息包括：服务器的当前时间。

在一个实施例中，服务器信息获取单元11可以根据预定周期，通过远程访问方式获取集群内服务器的当前时间。

故障判断单元12，用于基于预定规则，根据服务器的当前时间判断服务器是否存在跳时间故障。

具体地，该故障判断单元12包括：故障判断模块和故障确定模块，其中：

故障判断模块，用于根据获取的服务器的连续两次时间之间的差值判断该服务器是否存在跳时间故障；故障确定模块，当差值超过预定阈值时，确定该服务器存在跳时间故障。

例如，两次时间差值大于预定值(该预定值可以依据实际情况而定)或者小于0(表示时间退后了)，则表示服务器发生了跳时间故障。

层组件服务重启单元13，用于响应于判断结果为是，通过预定程序对所述服务器相应的集群层组件服务进行重启操作。

应用容器重启单元14，用于在集群层组件服务重启成功、且所述服务器跳时间故障恢复后，对该服务器相应的应用容器进行重启操作。

由以上描述可知，在服务器跳时间故障检查操作触发时，服务器信息获取单元11获取集群内服务器的当前时间，随后，故障判断单元12根据服务器的当前时间判断服务器是否存在跳时间故障，当判断结果为是时，层组件服务重启单元13通过预定程序对所述服务器相应的集群层组件服务进行重启操作，之后应用容器重启单元14在集群层组件服务重启成功、且所述服务器跳时间故障恢复后，对该服务器相应的应用容器进行重启操作，如此，实现了自动化恢复服务器的跳时间故障，相比于现有技术，本发明实施例无需手工操作，效率较高，对业务影响较小。

在一个实施例中，上述装置1还包括：初始化单元，用于当所述服务器跳时间故障未恢复时，将所述服务器进行初始化为正常状态。即，当层组件服务重启单元13重启失败、或者重启成功但服务器跳时间故障仍未恢复时，初始化单元强制将服务器进行初始化为正常状态。

在实际操作中，上述各单元、各模块可以组合设置、也可以单一设置，本发明不限于此。

为了更好地理解本发明，以下基于PaaS云环境k8s集群为例，来详细描述本发明实施例。

图3是基于PaaS云环境k8s集群的服务器跳时间故障处理系统的示例结构框图，如图3所示，该示例系统包括：控制器、时钟校验组件、k8s层重启组件、容器重启组件，其中：

控制器对时钟校验组件、k8s层重启组件、容器重启组件进行调度控制；

时钟校验组件负责检查k8s集群内各受管服务器(后文称为Node，节点)是否发生了时间跳动；

k8s层重启组件负责完成跳时间服务器上k8s层组件服务的重启；

容器重启组件完成PaaS云应用服务的恢复。

以下分别对上述各部分进行详细描述。

(1)控制器

图4是控制器的工作原理流程图，如图4所示，工作流程包括：

步骤(1)，Timer(时钟)定时触发，发起本轮次的检查任务。

步骤(2)，检查上一轮次是否执行完成，如果未完成，为避免重复执行，直接退出；如果上轮次已完成，进行如下步骤(3)。

步骤(3)，调起时钟校验组件，批量检查集群内Node是否发生了时间跳动，对于跳时间的Node记录到故障清单列表中，如果故障清单为空，则退出，否则进入步骤(4)。

步骤(4)，故障清单传入k8s层重启组件完成k8s层组件重启。如果重启成功，进入步骤(5)，否则发送报警退出。

步骤(5)，故障清单传入容器重启组件完成应用容器的重启。

(2)时钟校验组件

图5是时钟校验组件的工作原理流程图，如图5所示，工作流程包括：

步骤(1)，调用k8s API(Application Programming Interface，应用程序接口)获取集群Node的清单。

步骤(2)，通过SSH(Secure Shell，安全外壳协议，专为远程登录会话和其他网络服务提供安全性的协议)并发连接Node，读取Node的时间，并记录。

步骤(3)，最近两次的时间进行比较，判断各个Node是否跳了时间，时间差大于3个轮询时间或者小于0则认为发生了跳时间。

步骤(4)，将跳时间的Node加入故障列表，否则不处理。

(3)k8s层重启组件

图6是k8s层重启组件的工作原理流程图，如图6所示，工作流程包括：

步骤(1)，按照Node故障清单，通过SSH批量连接Node节点，通过脚本(预先设置的程序)重启k8s层组件服务。

步骤(2)，调用k8s API接口，检查Node服务是否恢复，如果已恢复，则不处理，否则进入步骤(3)。

步骤(3)，通过脚本完成Node上数据清理和k8s层组件的重建，强制把故障Node初始化为正常状态。

步骤(4)，再次调用k8s API接口，检查Node服务是否恢复。如已恢复正常，不处理；如检查不通过，则给Node进行故障标签，避免调度，同时邮件提醒管理员手工处理。

(4)容器重启组件

容器重启组件的工作流程包括：

步骤(1)，根据Node故障清单，调用k8s API接口获取Node上的容器清单。

步骤(2)，调用k8s API，完成故障Node上容器的重启。

由以上描述可知，通过本发明实施例，PaaS集群服务重启由手工变为全自动，提高了重启的效率，业务影响时间也较大地减少了；同时，集群重启可以依靠PaaS层提供的能力，应用容器的管理员无需再关注跳时间的场景；并且，由于只重启了跳时间的Node上的服务，对其他未跳时间Node无影响，重启范围精准。

基于相似的发明构思，本发明实施例还提供一种基于集群的服务器跳时间故障处理方法，优选地，该方法可应用于上述的服务器跳时间故障处理装置。

图7是该基于集群的服务器跳时间故障处理方法的流程图，如图7所示，该方法包括：

步骤701，响应于触发服务器跳时间故障检查操作，获取集群内服务器信息，其中，服务器信息包括：服务器的当前时间。

在实际操作中，可以根据预定周期，通过远程访问方式(例如，SSH)获取集群内服务器的当前时间。

步骤702，基于预定规则，根据服务器的当前时间判断服务器是否存在跳时间故障。

具体地，可以根据获取的服务器的连续两次时间之间的差值判断该服务器是否存在跳时间故障；当差值超过预定阈值时，确定该服务器存在跳时间故障。

步骤703，响应于判断结果为是，通过预定程序对所述服务器相应的集群层组件服务进行重启操作。

步骤704，在集群层组件服务重启成功、且所述服务器跳时间故障恢复后，对该服务器相应的应用容器进行重启操作。

在实际操作中，当所述服务器跳时间故障仍未恢复时，将所述服务器进行初始化为正常状态。

由以上描述可知，在服务器跳时间故障检查操作触发时，获取集群内服务器的当前时间，随后，根据服务器的当前时间判断服务器是否存在跳时间故障，当判断结果为是时，通过预定程序对所述服务器相应的集群层组件服务进行重启操作，之后在集群层组件服务重启成功、且所述服务器跳时间故障恢复后，对该服务器相应的应用容器进行重启操作，如此，实现了自动化恢复服务器的跳时间故障，相比于现有技术，本发明实施例无需手工操作，效率较高，对业务影响较小。

本实施例还提供一种电子设备，该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照上述方法实施例进行实施及基于集群的服务器跳时间故障处理装置/系统的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图8为本发明实施例的电子设备600的系统构成的示意框图。如图8所示，该电子设备600可以包括中央处理器100和存储器140；存储器140耦合到中央处理器100。值得注意的是，该图是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

一实施例中，基于集群的服务器跳时间故障处理功能可以被集成到中央处理器100中。其中，中央处理器100可以被配置为进行如下控制：

从上述描述可知，本申请实施例提供的电子设备，在服务器跳时间故障检查操作触发时，获取集群内服务器的当前时间，随后，根据服务器的当前时间判断服务器是否存在跳时间故障，当判断结果为是时，通过预定程序对所述服务器相应的集群层组件服务进行重启操作，之后在集群层组件服务重启成功、且所述服务器跳时间故障恢复后，对该服务器相应的应用容器进行重启操作，如此，实现了自动化恢复服务器的跳时间故障，相比于现有技术，本发明实施例无需手工操作，效率较高，对业务影响较小。

在另一个实施方式中，基于集群的服务器跳时间故障处理装置/系统可以与中央处理器100分开配置，例如可以将基于集群的服务器跳时间故障处理装置/系统配置为与中央处理器100连接的芯片，通过中央处理器的控制来实现基于集群的服务器跳时间故障处理功能。

如图8所示，该电子设备600还可以包括：通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是，电子设备600也并不是必须要包括图8中所示的所有部件；此外，电子设备600还可以包括图8中没有示出的部件，可以参考现有技术。

如图8所示，中央处理器100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中，存储器140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序，以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142，该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143，该数据存储部143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132，以经由扬声器131提供音频输出，并接收来自麦克风132的音频输入，从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器130还耦合到中央处理器100，从而使得可以通过麦克风132能够在本机上录音，且使得可以通过扬声器131来播放本机上存储的声音。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现上述基于集群的服务器跳时间故障处理方法的步骤。

综上所述，本发明实施例提供了一种全自动化实现集群跳时间后的服务重启方案，通过集群服务重启由手工变为全自动，减少了业务影响时间，同时应用容器的负责人无需再关注跳时间的场景；由于只重启了跳时间的服务器上的服务，对其他未跳时间服务器无影响，重启范围精准。

以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的，因此权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外，由于本领域的技术人员容易想到很多修改和改变，因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作，而是可以涵盖落入其范围内的所有合适修改和等同物。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于集群的服务器跳时间故障处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，通过预定程序对所述服务器相应的集群层组件服务进行重启操作后，所述方法还包括：

当所述服务器跳时间故障未恢复时，将所述服务器进行初始化为正常状态。

3.根据权利要求1所述的方法，其特征在于，获取集群内服务器信息包括：

根据预定周期，通过远程访问方式获取集群内服务器的当前时间。

4.根据权利要求3所述的方法，其特征在于，基于预定规则，根据服务器的当前时间判断服务器是否存在跳时间故障包括：

根据获取的服务器的连续两次时间之间的差值判断该服务器是否存在跳时间故障；

当差值超过预定阈值时，确定该服务器存在跳时间故障。

5.一种基于集群的服务器跳时间故障处理装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述服务器信息获取单元具体用于：

7.根据权利要求6所述的装置，其特征在于，所述故障判断单元包括：

故障判断模块，用于根据获取的服务器的连续两次时间之间的差值判断该服务器是否存在跳时间故障；

故障确定模块，用于当差值超过预定阈值时，确定该服务器存在跳时间故障。

8.一种基于集群的服务器跳时间故障处理系统，其特征在于，所述系统包括：如权利要求5至7中任一项所述的装置、位于集群中的多个服务器，所述装置用于处理各服务器的跳时间故障。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至4中任一项所述方法的步骤。