CN110730110A

CN110730110A - 节点异常处理方法、电子设备、系统及介质

Info

Publication number: CN110730110A
Application number: CN201910996053.6A
Authority: CN
Inventors: 谢福才
Original assignee: Shenzhen Onething Technology Co Ltd
Current assignee: Shenzhen Onething Technology Co Ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-01-24

Abstract

本发明提供了一种节点异常处理方法、电子设备、系统及介质，所述方法包括：定时获取每个节点的心跳信息，以及获取到每个心跳信息时的时间戳；根据每个心跳信息及对应的时间戳，确定异常节点；确定所述异常节点的异常类型；根据所述异常类型处理所述异常节点。本发明实现了对分布式云存储中异常节点的自动监控及处理。

Description

节点异常处理方法、电子设备、系统及介质

技术领域

本发明涉及互联网技术领域，尤其涉及节点异常处理方法、电子设备、系统及介质。

背景技术

目前，分布式云存储服务越来越流行，但是分布式的特点是节点多、分布较离散，而且为了节约成本，使用的存储设备的配置也不如服务器稳定，比较容易出现各种问题，比如：磁盘只读、掉盘、IO(Input/Output，输入/输出)错误或者网络异常等。但是，由于提供的是云存储服务，对节点的稳定性和可用性要求比较高。

传统的云存储大都是基于机房的存储，存储介质一般是高质量、高性能的服务器，有专门的机房管理人员进行维护，当运行于服务器的监控服务器监控到存储介质异常，或者探测服务器发现存储服务器的网络出现异常时，将自动触发告警程序，即第一时间以短信或电话通知相关人员进行处理，不仅主要依靠人为处理，并且在处理过程中，有可能需要断网或关机，此时，如果数据没有备份，还会影响服务或导致数据丢失。

发明内容

本发明的主要目的在于提供节点异常处理方法、电子设备、系统及介质，旨在自动监控并处理异常节点。

为实现上述目的，本发明提供一种节点异常处理方法，所述方法包括：

定时获取每个节点的心跳信息，以及获取到每个心跳信息时的时间戳；

根据每个心跳信息及对应的时间戳，确定异常节点；

确定所述异常节点的异常类型；

根据所述异常类型处理所述异常节点。

优选地，所述根据每个心跳信息及对应的时间戳，确定异常节点包括：

根据每个心跳信息对应的时间戳，确定每个节点的当前心跳信息以及上一心跳信息，对比每个节点的当前心跳信息以及上一心跳信息，得到对比结果，获取所述对比结果中存在字段丢失及/或硬盘丢失的节点作为所述异常节点；及/或

获取当前心跳信息中CPU负载值大于或者等于第一阈值及/或IO负载值大于或者等于第二阈值及/或内存使用率大于或者等于第三阈值的节点作为所述异常节点；及/或

根据每个心跳信息对应的时间戳，获取一个周期内没有更新心跳信息的节点作为所述异常节点。

优选地，所述确定所述异常节点的异常类型包括：

当所述异常节点的当前心跳信息中存在字段丢失及/或硬盘丢失时，确定所述异常节点的异常类型为存储异常；或者

当所述异常节点的当前心跳信息中存在CPU负载值大于或者等于第一阈值及/或IO负载值大于或者等于第二阈值及/或内存使用率大于或者等于第三阈值时，确定所述异常节点的异常类型为负载异常；或者

当所述异常节点在一个周期内没有更新心跳信息时，确定所述异常节点的异常类型为网络异常。

优选地，所述根据所述异常类型处理所述异常节点包括：

当所述异常节点的异常类型为存储异常时，将所述异常节点对应的存储介质的权重置0；或者

当所述异常节点的异常类型为负载异常时，对所述异常节点进行降权；或者

当所述异常节点的异常类型为网络异常时，将所述异常节点的权重置0。

优选地，所述根据所述异常类型处理所述异常节点还包括：

在确定所述异常节点后，获取可用节点；

根据所述可用节点创建链路；

在预设时长后，当检测到所述链路存在时，获取所述异常节点上的数据，将获取的数据部署到所述可用节点上。

优选地，所述获取可用节点包括：

确定没有记录所述异常节点上的数据的在线节点；

将所述在线节点的剩余存储空间按照由大到小的顺序进行排序；

获取排在前预设位的节点作为所述可用节点。

为实现上述目的，本发明进一步提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现所述节点异常处理方法。

优选地，所述电子设备为组成内容分发网络或者区块链网络的节点。

为实现上述目的，本发明进一步提供一种节点异常处理系统，所述系统包括：

获取单元，用于定时获取每个节点的心跳信息，以及获取到每个心跳信息时的时间戳；

确定单元，用于根据每个心跳信息及对应的时间戳，确定异常节点；

所述确定单元，还用于确定所述异常节点的异常类型；

处理单元，用于根据所述异常类型处理所述异常节点。

优选地，所述确定单元具体用于：

优选地，所述确定单元确定所述异常节点的异常类型包括：

优选地，所述处理单元具体用于：

优选地，所述处理单元具体还用于：

在确定所述异常节点后，获取可用节点；

根据所述可用节点创建链路；

优选地，所述处理单元获取可用节点包括：

确定没有记录所述异常节点上的数据的在线节点；

获取排在前预设位的节点作为所述可用节点。

综上所述，本发明能够定时获取每个节点的心跳信息，以及获取到每个心跳信息时的时间戳，由于同时获取了获取到每个心跳信息时的时间戳，因此更加便于分析异常，根据每个心跳信息及对应的时间戳，确定异常节点，进一步确定所述异常节点的异常类型，并根据所述异常类型有针对性地处理所述异常节点，实现对分布式云存储中异常节点的自动监控及处理。

附图说明

图1为本发明一实施例的流程示意图；

图2为本发明一实施例揭露的电子设备的内部结构示意图；

图3为本发明节点异常处理系统的功能模块示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

主要元件符号说明

电子设备	1
		存储器	12
处理器	13
		节点异常处理系统	11
获取单元	110
		确定单元	111
处理单元	112

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提供一种节点异常处理方法。

参照图1，图1为本发明一实施例的流程示意图。根据不同的需求，该流程示意图中步骤的顺序可以改变，某些步骤可以省略。

所述节点异常处理方法应用于一个或者多个电子设备中，所述电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，所述电子设备的硬件设备包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述电子设备可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet Protocol Television，IPTV)、智能式穿戴式设备等。

所述电子设备还可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。

所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

在一实施例中，该方法包括：

S10，定时获取每个节点的心跳信息，以及获取到每个心跳信息时的时间戳。

在本发明的至少一个实施例中，为了保证能够及时发现节点的异常，所述电子设备定时获取每个节点的心跳信息。

例如：所述电子设备可以每隔1分钟获取每个节点的心跳信息。

在本发明的至少一个实施例中，所述心跳信息包括，但不限于以下一种或者多种的组合：

对应节点上设备的主机名(Host Name)、IP地址(Internet Protocol Address，互联网协议地址)、MAC地址(Media Access Control Address，媒体访问控制地址)、剩余存储空间大小、可用空间大小、硬盘状态、CPU(central processing unit，中央处理器)负载值、IO(Input/Output，输入/输出)负载值以及内存使用率等。

在本发明的至少一个实施例中，每个节点上都运行了tunnel_agent进程，所述tunnel_agent进程用于上报信息，具体地，所述tunnel_agent进程定时上报所述心跳信息给tunnel_access，所述tunnel_access用于接收并转发所述心跳信息，进一步地，box_manager订阅所述tunnel_access获取到的心跳信息，在订阅成功后，所述tunnel_agent会将获取到的所述心跳信息转发给所述box_manager，所述box_manager将所述心跳信息和获取到所述心跳信息时的unix秒级时间戳存储到数据库中。

通过上述实施方式，能够将心跳信息及获取到心跳信息时的时间戳一并存储到数据库中，以供后续分析。

进一步地，所述box_manager用于处理及分析所述心跳信息，因此，所述box_manager还可以在获取到所述心跳信息后，直接分析所述心跳信息，并将分析结果存储至所述数据库中，以供调用。

S11，根据每个心跳信息及对应的时间戳，确定异常节点。

在本发明的至少一个实施例中，所述电子设备根据每个心跳信息及对应的时间戳，确定所述异常节点包括以下一种或者多种情况的组合：

(1)所述电子设备根据每个心跳信息对应的时间戳，确定每个节点的当前心跳信息以及上一心跳信息，所述电子设备对比每个节点的当前心跳信息以及上一心跳信息，得到对比结果，进一步获取所述对比结果中存在字段丢失及/或硬盘丢失的节点作为所述异常节点。

可以理解的是，所述电子设备对比所述当前心跳与所述上一心跳，能够确定所述当前心跳与所述上一心跳的差异，即所述对比结果。当所述对比结果显示有节点存在字段丢失及/或硬盘丢失时，说明所述节点的存储介质可能存在一定问题。

具体地，所述字段丢失主要包括，但不限于：空间字段缺失、可用空间字段缺失等。

所述硬盘丢失主要包括硬盘数量减少等。例如：当上一心跳信息显示有2个硬盘，而所述当前心跳信息显示有1个硬盘时，则所述电子设备确定有硬盘丢失现象发生。

(2)所述电子设备获取当前心跳信息中CPU负载值大于或者等于第一阈值及/或IO负载值大于或者等于第二阈值及/或内存使用率大于或者等于第三阈值的节点作为所述异常节点。

可以理解的是，在正常情况下，所述CPU负载值、所述IO负载值及所述内存使用率都应该处于一定的阈值以下，以保证每个节点的稳定性及可用性。

具体地，所述第一阈值、所述第二阈值及所述第三阈值可以根据实际需求进行自定义配置，本发明不限制。

因此，当有节点的CPU负载值大于或者等于第一阈值及/或IO负载值大于或者等于第二阈值及/或内存使用率大于或者等于第三阈值时，则说明该节点的负载占用情况偏高，将影响该节点的正常运行，所述电子设备将该节点确定为所述异常节点。

(3)所述电子设备根据每个心跳信息对应的时间戳，获取一个周期内没有更新心跳信息的节点作为所述异常节点。

可以理解的是，正常情况下，每个节点都要定期接收心跳，因此，每个节点上对应的心跳信息也将不断更新，因此，如果有节点在一个周期内没有更新心跳信息，则所述电子设备将该节点确定为所述异常节点。

通过上述实施方式，所述电子设备能够根据监测到的不同情况自动确定异常节点。

S12，确定所述异常节点的异常类型。

在本发明的至少一个实施例中，所述异常类型包括，但不限于以下一种或者多种的组合：

存储异常、负载异常、网络异常等。

其中，所述负载异常还包括CPU负载偏高、IO负载偏高、内存使用率偏高等。

在本发明的至少一个实施例中，所述电子设备确定所述异常节点的异常类型包括，但不限于以下任意一种情况：

(1)当所述异常节点的当前心跳信息中存在字段丢失及/或硬盘丢失时，所述电子设备确定所述异常节点的异常类型为存储异常。

(2)当所述异常节点的当前心跳信息中存在CPU负载值大于或者等于第一阈值及/或IO负载值大于或者等于第二阈值及/或内存使用率大于或者等于第三阈值时，所述电子设备确定所述异常节点的异常类型为负载异常。

(3)当所述异常节点在一个周期内没有更新心跳信息时，所述电子设备确定所述异常节点的异常类型为网络异常。

通过上述实施方式，所述电子设备能够基于不同的异常情况，对所述异常节点进行自动分类，以便更加明确每种节点异常的属性。

S13，根据所述异常类型处理所述异常节点。

在本发明的至少一个实施例中，由于每种异常类型所对应异常的属性是不同的，因此处理方式也不同。

具体地，所述电子设备根据所述异常类型处理所述异常节点包括，但不限于以下任意一种情况：

(1)当所述异常节点的异常类型为存储异常时，所述电子设备将所述异常节点对应的存储介质的权重置0。

可以理解的是，由于所述异常节点出现了存储异常，说明所述异常节点对应的存储介质可能存在问题，无法进行正常存储，因此，所述电子设备将所述异常节点对应的存储介质的权重置0，则所述异常节点对应的存储介质将不会被调度使用，进而有效避免有数据存储错误。

(2)当所述异常节点的异常类型为负载异常时，所述电子设备对所述异常节点进行降权。

可以理解的是，对于一个节点来说，权重越高，则该节点被调度的可能性越大，反之，权重越低，则该节点被调度的可能性越小，而当该节点的权重被置0时，则该节点不会被调度。

因此，当所述异常节点为负载异常时，说明所述异常节点的CPU负载偏高及/或IO负载偏高及/或内存使用率偏高，但是偏高不代表高到无法使用的程度，因此，所述电子设备对所述异常节点进行降权。

具体地，本发明对所述异常节点的权重降低到多少，以及降权的方式等不限制。

(3)当所述异常节点的异常类型为网络异常时，所述电子设备将所述异常节点的权重置0。

可以理解的是，由于所述异常节点出现了网络异常，说明所述异常节点很可能已经断开了连接，以至于无法正常工作，因此，所述电子设备将所述异常节点的权重置0，则所述异常节点将不会被调度使用，进而有效避免由于调度的节点不可用导致的服务异常。

在本发明的至少一个实施例中，所述电子设备根据所述异常类型处理所述异常节点还包括：

在确定所述异常节点后，所述电子设备获取可用节点，并根据所述可用节点创建链路，在预设时长后，当检测到所述链路存在时，所述电子设备获取所述异常节点上的数据，并进一步将获取的数据部署到所述可用节点上。

其中，所述异常节点上的数据可以包括所述异常节点上问题硬盘中的所有数据。

通过上述实施方式，所述电子设备能够将所述异常节点上的数据在其它正常的可用节点上下发部署任务，以进行数据补充，防止数据丢失，既保证了服务的稳定性，又保证了数据不会丢失。

在本发明的至少一个实施例中，所述电子设备获取所述可用节点包括：

所述电子设备确定没有记录所述异常节点上的数据的在线节点，并将所述在线节点的剩余存储空间按照由大到小的顺序进行排序，所述电子设备获取排在前预设位的节点作为所述可用节点。

其中，所述预设位可以包括5位、3位等，本发明不限制。

通过上述实施方式，所述电子设备首先确保选择的节点没有记录所述异常节点上的数据，以避免对数据重复记录；所述电子设备其次确保选择的节点是在线的，以保证选择的节点是可用的，避免发生数据存储错误；所述电子设备最后确保选择的节点剩余存储空间较高，进一步保证在部署数据的同时，不影响选择的可用节点的正常运行，同时由于所述可用节点的剩余空间较高，还保证了存储效率。

在本发明的至少一个实施例中，所述预设时长是指一个缓冲等待时间，属于一种延时处理机制。

例如：当所述预设时长为7200秒时，说明包括一个7200秒的延时处理。此时，虽然已经创建了链路，但是在7200秒内，所述电子设备不会进行任何处理。而在7200秒后，当检测到所述链路仍然存在时，所述电子设备获取所述异常节点上的数据，并将获取的数据部署到所述可用节点上，以避免数据丢失；在7200秒后，当检测到所述链路不存在时，说明所述异常节点只是由于突然断电等短暂掉线，而当所述异常节点重新上线时，所述链路将自动消失，所述异常节点的异常也就自动消除，重新处于可用状态，则所述电子设备不进行任何处理。

通过上述实施方式，能够通过延时机制避免数据被不必要的重复部署，以减少资源的浪费。

当然，在其他实施例中，如果不考虑突然断电等的暂时性异常，也可以将所述预设时长配置为0秒，此时，一旦出现异常，所述电子设备直接将获取的数据部署到所述可用节点上。

在本发明的至少一个实施例中，所述电子设备在确定所述异常节点的异常类型后，还可以发出警告，以通知相关技术人员进行处理，这样，如果各个节点统一部署在一起，方便处理，则所述相关技术人员可以直接以格式化所述异常节点或者断电的方式处理所述异常节点。

参见图2，在本实施例中，所述电子设备1可以是组成内容分发网络或者区块链网络的节点。

所述电子设备1可以包括存储器12、处理器13和总线，还可以包括存储在所述存储器12中并可在所述处理器13上运行的计算机程序，例如节点异常处理程序。

本领域技术人员可以理解，所述示意图仅仅是电子设备1的示例，并不构成对电子设备1的限定，所述电子设备1既可以是总线型结构，也可以是星形结构，所述电子设备1还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置，例如所述电子设备1还可以包括输入输出设备、网络接入设备等。

需要说明的是，所述电子设备1仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

其中，存储器12至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如节点异常处理程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器13在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。至少一个处理器13是所述电子设备1的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备1的各个部件，通过运行或执行存储在所述存储器12内的程序或者模块(例如执行节点异常处理程序等)，以及调用存储在所述存储器12内的数据，以执行电子设备1的各种功能和处理数据。

所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个节点异常处理方法实施例中的步骤，例如图1所示的步骤S10、S11、S12、S13。

或者，所述处理器13执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如：定时获取每个节点的心跳信息，以及获取到每个心跳信息时的时间戳；根据每个心跳信息及对应的时间戳，确定异常节点；确定所述异常节点的异常类型；根据所述异常类型处理所述异常节点。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如，所述计算机程序可以被分割成获取单元110、确定单元111以及处理单元112。

总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一根箭头表示，但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及所述至少一个处理器13等之间的连接通信。

尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器13逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，计算机设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件设备来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。

其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

图2仅示出了具有组件12-13，以及节点异常处理程序的电子设备1，本领域技术人员可以理解的是，图2示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

结合图1，所述电子设备1中的所述存储器12存储多个指令以实现一种节点异常处理方法，所述处理器13可执行所述多个指令从而实现：定时获取每个节点的心跳信息，以及获取到每个心跳信息时的时间戳；根据每个心跳信息及对应的时间戳，确定异常节点；确定所述异常节点的异常类型；根据所述异常类型处理所述异常节点。

具体地，所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

参照图3，为本发明节点异常处理系统的功能模块示意图。所述节点异常处理系统11包括获取单元110、确定单元111以及处理单元112。本发明所称的模块/单元是指一种能够被处理器13所执行，并且能够完成固定功能的一系列计算机程序段，其存储在存储器12中。在本实施例中，关于各模块/单元的功能将在后续的实施例中详述。

获取单元110定时获取每个节点的心跳信息，以及获取到每个心跳信息时的时间戳。

在本发明的至少一个实施例中，为了保证能够及时发现节点的异常，所述获取单元110定时获取每个节点的心跳信息。

例如：所述获取单元110可以每隔1分钟获取每个节点的心跳信息。

确定单元111根据每个心跳信息及对应的时间戳，确定异常节点。

在本发明的至少一个实施例中，所述确定单元111根据每个心跳信息及对应的时间戳，确定所述异常节点包括以下一种或者多种情况的组合：

(1)所述确定单元111根据每个心跳信息对应的时间戳，确定每个节点的当前心跳信息以及上一心跳信息，所述确定单元111对比每个节点的当前心跳信息以及上一心跳信息，得到对比结果，进一步获取所述对比结果中存在字段丢失及/或硬盘丢失的节点作为所述异常节点。

可以理解的是，所述确定单元111对比所述当前心跳与所述上一心跳，能够确定所述当前心跳与所述上一心跳的差异，即所述对比结果。当所述对比结果显示有节点存在字段丢失及/或硬盘丢失时，说明所述节点的存储介质可能存在一定问题。

所述硬盘丢失主要包括硬盘数量减少等。例如：当上一心跳信息显示有2个硬盘，而所述当前心跳信息显示有1个硬盘时，则所述确定单元111确定有硬盘丢失现象发生。

(2)所述确定单元111获取当前心跳信息中CPU负载值大于或者等于第一阈值及/或IO负载值大于或者等于第二阈值及/或内存使用率大于或者等于第三阈值的节点作为所述异常节点。

因此，当有节点的CPU负载值大于或者等于第一阈值及/或IO负载值大于或者等于第二阈值及/或内存使用率大于或者等于第三阈值时，则说明该节点的负载占用情况偏高，将影响该节点的正常运行，所述确定单元111将该节点确定为所述异常节点。

(3)所述确定单元111根据每个心跳信息对应的时间戳，获取一个周期内没有更新心跳信息的节点作为所述异常节点。

可以理解的是，正常情况下，每个节点都要定期接收心跳，因此，每个节点上对应的心跳信息也将不断更新，因此，如果有节点在一个周期内没有更新心跳信息，则所述确定单元111将该节点确定为所述异常节点。

通过上述实施方式，所述确定单元111能够根据监测到的不同情况自动确定异常节点。

所述确定单元111确定所述异常节点的异常类型。

存储异常、负载异常、网络异常等。

在本发明的至少一个实施例中，所述确定单元111确定所述异常节点的异常类型包括，但不限于以下任意一种情况：

(1)当所述异常节点的当前心跳信息中存在字段丢失及/或硬盘丢失时，所述确定单元111确定所述异常节点的异常类型为存储异常。

(2)当所述异常节点的当前心跳信息中存在CPU负载值大于或者等于第一阈值及/或IO负载值大于或者等于第二阈值及/或内存使用率大于或者等于第三阈值时，所述确定单元111确定所述异常节点的异常类型为负载异常。

(3)当所述异常节点在一个周期内没有更新心跳信息时，所述确定单元111确定所述异常节点的异常类型为网络异常。

通过上述实施方式，所述确定单元111能够基于不同的异常情况，对所述异常节点进行自动分类，以便更加明确每种节点异常的属性。

处理单元112根据所述异常类型处理所述异常节点。

具体地，所述处理单元112根据所述异常类型处理所述异常节点包括，但不限于以下任意一种情况：

(1)当所述异常节点的异常类型为存储异常时，所述处理单元112将所述异常节点对应的存储介质的权重置0。

可以理解的是，由于所述异常节点出现了存储异常，说明所述异常节点对应的存储介质可能存在问题，无法进行正常存储，因此，所述处理单元112将所述异常节点对应的存储介质的权重置0，则所述异常节点对应的存储介质将不会被调度使用，进而有效避免有数据存储错误。

(2)当所述异常节点的异常类型为负载异常时，所述处理单元112对所述异常节点进行降权。

因此，当所述异常节点为负载异常时，说明所述异常节点的CPU负载偏高及/或IO负载偏高及/或内存使用率偏高，但是偏高不代表高到无法使用的程度，因此，所述处理单元112对所述异常节点进行降权。

(3)当所述异常节点的异常类型为网络异常时，所述处理单元112将所述异常节点的权重置0。

可以理解的是，由于所述异常节点出现了网络异常，说明所述异常节点很可能已经断开了连接，以至于无法正常工作，因此，所述确定单元111将所述异常节点的权重置0，则所述异常节点将不会被调度使用，进而有效避免由于调度的节点不可用导致的服务异常。

在本发明的至少一个实施例中，所述处理单元112根据所述异常类型处理所述异常节点还包括：

在确定所述异常节点后，所述处理单元112获取可用节点，并根据所述可用节点创建链路，在预设时长后，当检测到所述链路存在时，所述处理单元112获取所述异常节点上的数据，并进一步将获取的数据部署到所述可用节点上。

通过上述实施方式，所述处理单元112能够将所述异常节点上的数据在其它正常的可用节点上下发部署任务，以进行数据补充，防止数据丢失，既保证了服务的稳定性，又保证了数据不会丢失。

在本发明的至少一个实施例中，所述处理单元112获取所述可用节点包括：

所述处理单元112确定没有记录所述异常节点上的数据的在线节点，并将所述在线节点的剩余存储空间按照由大到小的顺序进行排序，所述处理单元112获取排在前预设位的节点作为所述可用节点。

其中，所述预设位可以包括5位、3位等，本发明不限制。

通过上述实施方式，所述处理单元112首先确保选择的节点没有记录所述异常节点上的数据，以避免对数据重复记录；所述电子设备其次确保选择的节点是在线的，以保证选择的节点是可用的，避免发生数据存储错误；所述处理单元112最后确保选择的节点剩余存储空间较高，进一步保证在部署数据的同时，不影响选择的可用节点的正常运行，同时由于所述可用节点的剩余空间较高，还保证了存储效率。

例如：当所述预设时长为7200秒时，说明包括一个7200秒的延时处理。此时，虽然已经创建了链路，但是在7200秒内，所述处理单元112不会进行任何处理。而在7200秒后，当检测到所述链路仍然存在时，所述处理单元112获取所述异常节点上的数据，并将获取的数据部署到所述可用节点上，以避免数据丢失；在7200秒后，当检测到所述链路不存在时，说明所述异常节点只是由于突然断电等短暂掉线，而当所述异常节点重新上线时，所述链路将自动消失，所述异常节点的异常也就自动消除，重新处于可用状态，则所述处理单元112不进行任何处理。

当然，在其他实施例中，如果不考虑突然断电等的暂时性异常，也可以将所述预设时长配置为0秒，此时，一旦出现异常，所述处理单元112直接将获取的数据部署到所述可用节点上。

在本发明的至少一个实施例中，所述确定单元111在确定所述异常节点的异常类型后，所述处理单元112还可以发出警告，以通知相关技术人员进行处理，这样，如果各个节点统一部署在一起，方便处理，则所述相关技术人员可以直接以格式化所述异常节点或者断电的方式处理所述异常节点。

在上述实施例中，可以全部或部分地通过软件、硬件设备、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、移动硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态移动硬盘Solid State Disk(SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件设备的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动移动硬盘、只读存储器(ROM，Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种节点异常处理方法，其特征在于，所述方法包括：

根据每个心跳信息及对应的时间戳，确定异常节点；

确定所述异常节点的异常类型；

根据所述异常类型处理所述异常节点。

2.如权利要求1所述的节点异常处理方法，其特征在于，所述根据每个心跳信息及对应的时间戳，确定异常节点包括：

3.如权利要求2所述的节点异常处理方法，其特征在于，所述确定所述异常节点的异常类型包括：

4.如权利要求3所述的节点异常处理方法，其特征在于，所述根据所述异常类型处理所述异常节点包括：

5.如权利要求3所述的节点异常处理方法，其特征在于，所述根据所述异常类型处理所述异常节点还包括：

在确定所述异常节点后，获取可用节点；

根据所述可用节点创建链路；

6.如权利要求5所述的节点异常处理方法，其特征在于，所述获取可用节点包括：

确定没有记录所述异常节点上的数据的在线节点；

获取排在前预设位的节点作为所述可用节点。

7.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现如权利要求1至6中任意一项所述的节点异常处理方法。

8.根据权利要求7所述的电子设备，其特征在于，所述电子设备为组成内容分发网络或者区块链网络的节点。

9.一种节点异常处理系统，其特征在于，所述系统包括：

所述确定单元，还用于确定所述异常节点的异常类型；

处理单元，用于根据所述异常类型处理所述异常节点。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有节点异常处理程序，所述节点异常处理程序可被一个或者多个处理器执行，以实现如权利要求1至6中任一项所述的节点异常处理方法。