CN110377483A

CN110377483A - 服务器监控系统及方法

Info

Publication number: CN110377483A
Application number: CN201910579068.2A
Authority: CN
Inventors: 王晓通; 胡雷钧; 张东; 郭锋
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-25
Anticipated expiration: 2039-06-28
Also published as: CN110377483B

Abstract

本发明涉及计算机技术领域，特别是涉及一种服务器监控系统及方法。该系统包括：门口数据录入层、数据存储层及任务执行管理层；任务执行管理层包括仲裁管理单元、多个任务集群；每个任务集群包括多个监控节点；各个任务集群通过数据总线进行数据交互；仲裁管理单元，用于执行仲裁操作；每个监控节点，用于接收仲裁管理单元分配的资源节点集合，监控各个资源节点。应用本发明提供的系统，通过门口数据录入层、数据存储层和任务执行管理层之间的信息交互，将各个资源节点分配至监控节点中进行监控，并在监控节点故障时，及时将已故障监控节点中的各个资源节点分配至其他未故障的监控节点中，实现对各个资源节点的监控及高可用。

Description

服务器监控系统及方法

技术领域

本发明涉及计算机技术领域，特别是涉及一种服务器监控系统及方法。

背景技术

随着随着互联网的快速发展，在计算机技术领域中需要运用到大量的服务器来部署各种应用业务。随着业务规模的扩大，对服务器数量的要求越来越高。由于服务器数量的增多，对各个服务器的监控和管理成了一大难题。

为了保证服务器的高可用性、高可靠性等方面的性能，通常构建一个服务器监控系统，以保证对服务器的实时监控。但在现有的服务器监控系统中，通常以分布式自动均衡负载的形式对各个服务器进行监控管理。但是分布式自动负载均衡在对服务器进行监控的过程中，自身需要消耗大量的资源，随着计算机规模的扩大，服务器的数量增多，现有的分布式自动负载均衡不能满足对各个服务器的监控。因此，为了保证服务器的高可用，需要构建一个服务器监控系统，以实现对各个服务器的监控和高可用。

发明内容

基于上述的问题，本发明提供了一种服务器监控系统，通过该系统，可以对实现对各个服务器的监控和高可用。

本发明还提供了一种服务器监控方法，用以保证上述系统在实际中的实现及应用。

一种服务器监控系统，包括：

门口数据录入层、数据存储层及任务执行管理层；

所述门口数据录入层，用于向所述数据存储层录入各个资源节点；

所述数据存储层，用于存储所述门口数据录入层所录入的各个所述源节点；

所述任务执行管理层包括仲裁管理单元、多个任务集群；

每个所述任务集群包括多个监控节点；

各个所述任务集群通过数据总线进行数据交互；

所述仲裁管理单元，用于执行仲裁操作；所述仲裁操作的操作过程包括：获取所述数据存储层中已存储的各个所述资源节点，并通过逻辑计算获得多个资源节点集合，并将每个所述资源节点集合分配至与其对应的各个所述任务集群中的各个所述监控节点，触发每个所述监控节点对每个所述资源节点集合中的各个资源节点进行监控；在将各个所述资源节点集合分配至各个所述监控节点后，实时接收每个所述监控节点反馈的监控信号；当第一目标监控节点的监控信号中断时，将所述第一目标监控节点中的各个所述资源节点，重新分配至除所述第一目标监控节点之外的其他监控节点中；

每个所述监控节点，用于接收所述仲裁管理单元分配的所述资源节点集合，通过预先设置的监控频率监控所述资源节点集合中的各个资源节点，并向所述仲裁管理单元反馈监控信号；当存在第二目标监控节点监控所述资源节点的数量，超过所述第二目标监控节点对应的节点监控上限时，降低所述第二目标监控节点的监控频率。

上述的系统，可选的，所述门口数据录入层，包括：

主数据录入门户，及与所述主数据录入门户对应的备用数据录入门户；

所述主数据录入门户，用于当所述主数据录入门户可用时，通过所述主数据录入门户向所述数据存储层录入各个所述服务器资源节点，并向所述备用数据录入门户发送门户工作信号；

所述备用数据录入门户，用于实时接收所述主数据录入门户发送的门户工作信号，并当所述门户工作信号中断时，通过所述备用数据录入门户向所述数据存储层录入各个所述资源节点。

上述的系统，可选的，所述数据存储层，包括：

主数据存储器，及与所述主数据存储层对应的备用数据存储器；

所述主数据存储器，用于当所述主数据存储器可用时，由所述主数据存储器存储所述门口数据录入层所录入的各个资源节点，并向所述备用数据存储器发送存储信号；

所述备用数据存储器，用于实时接收所述主数据存储器发送的存储信号，并当所述存储信号中断时，存储所述门口数据录入层所录入的各个所述服务器资源节点。

上述的系统，可选的，所述仲裁管理单元，包括：

主仲裁管理服务器，及与所述主仲裁管理服务器对应的备用仲裁管理服务器；

所述主仲裁管理服务器，用于当所述主仲裁管理服务器可用时，由所述主仲裁管理服务器执行所述仲裁操作，并向所述备用仲裁管理服务器发送与所述仲裁操作对应的仲裁工作信号；

所述备用仲裁管理服务器，用于实时接收所述主仲裁执行所述仲裁操作时发送的仲裁操作信号；当所述仲裁操作信号中断时，由所述备用仲裁管理服务器执行所述仲裁操作。

上述的系统，可选的，所述主仲裁管理服务器，包括：

多个主逻辑抽屉；

每个所述主逻辑抽屉，用于将所述主仲裁管理服务器获取的各个所述资源节点，通过逻辑计算获得与每个监控节点对应的资源节点集合，并将每个资源节点集合分配至与其对应的监控节点；

每个所述主逻辑抽屉与每个所述资源节点集合一一对应。

上述的系统，可选的，所述备用仲裁管理服务器，包括：

多个备用逻辑抽屉；

每个所述备用逻辑抽屉，用于将所述备用仲裁管理服务器获取的各个所述资源节点，通过逻辑计算获得与每个监控节点对应的资源节点集合，并将每个资源节点集合分配至与其对应的监控节点；

每个所述备用逻辑抽屉与每个所述资源节点集合一一对应。

上述的系统，可选的，所述任务执行管理层，包括：

主交换机，及与所述主交换机对应的备用交换机；

所述主交换机，用于当所述主交换机可用时，连接所述仲裁管理单元与所述至少一个或多个任务集群，以使所述仲裁管理单元通过所述主交换机，向每个所述监控节点分配各个所述资源节点集合，并向所述备用交换机发送交换机工作信号；

所述备用交换机，用于实时接收所述主交换机发送的交换机工作信号，并当所述交换机工作信号中断时，连接所述仲裁管理单元与所述至少一个或多个任务集群，以使所述仲裁管理单元通过所述备用交换机，向每个所述监控节点分配各个所述资源节点集合。

一种服务器监控方法，所述方法应用于主仲裁管理服务器，包括：

实时检测所述主仲裁管理服务器是否可用；

当所述主仲裁管理服务器可用时，执行与所述主仲裁管理服务器对应的仲裁操作，并向预先设置的备用仲裁管理服务器发送与所述仲裁操作对应的仲裁操作信号；

其中，所述仲裁操作的操作过程，包括：从预先设置的数据存储层获取已存储的各个资源节点；调用预先设置的逻辑算法，对各个所述资源节点进行逻辑计算，获得多个资源节点集合；将每个所述资源节点集合分配至预先设置的与每个所述资源节点集合对应的监控节点，触发每个所述监控节点对每个所述资源节点集合中的各个资源节点进行监控；在将各个所述资源节点集合分配至各个所述监控节点后，实时接收每个所述监控节点反馈的监控信号；当第一目标监控节点的监控信号中断时，将所述第一目标监控节点中的各个资源节点，重新分配至除所述第一目标监控节点之外的其他监控节点中。

上述的方法，可选的，所述调用预先设置的逻辑算法，对各个所述资源节点进行逻辑计算，获得多个资源节点集合，包括：

获取每个所述资源节点对应的节点编号；

调用预先设置的逻辑算法，对每个所述节点编号进行哈希计算，获得与每个所述资源节点对应的哈希值；

确定所述主仲裁管理服务器中预先设置的各个逻辑抽屉的抽屉数量值，并对每个所述资源节点对应的哈希值，及与所述抽屉数量值进行取模计算，获得每个所述逻辑抽屉需分配各个所述资源节点的分配数量；

基于与每个所述逻辑抽屉对应的分配数量，触发每个所述逻辑抽屉依据与其对应的所述分配数量将各个所述资源节点进行分配，获得多个资源节点集合。

上述的方法，可选的，所述当存在第一目标监控节点的监控信号中断，将所述第一目标监控节点中的各个资源节点，重新分配至除所述第一目标监控节点之外的其他监控节点中，包括：

获取每个所述监控节点的CPU核数及网络带宽，并调用预先设置的节点公式，对每个所述监控节点的CPU核数及网络带宽进行计算，获得与每个所述监控节点对应的节点监控上限；

当第一目标监控节点的监控信号中断时，依据每个所述监控节点对应的监控信号，确定除所述第一目标监控节点之外的每个所述监控节点对应的当前监控数量；

将所述第一目标监控节点中的各个所述资源节点，重新分配至当前监控数量未达到所述监控上限的其他监控节点中。

与现有技术相比，本发明包括以下优点：

本发明提供了一种服务器监控系统，包括：门口数据录入层、数据存储层及任务执行管理层；所述门口数据录入层，用于向所述数据存储层录入各个资源节点；所述数据存储层，用于存储所述门口数据录入层所录入的各个所述源节点，每个所述资源节点对应一个服务器；所述任务执行管理层包括仲裁管理单元、至少一个或多个任务集群；每个所述任务集群包括多个监控节点；各个所述任务集群通过数据总线进行数据交互；所述仲裁管理单元，用于执行仲裁操作；所述仲裁操作的操作过程包括：获取所述数据存储层中已存储的各个所述资源节点，并通过逻辑计算获得多个资源节点集合，并将每个所述资源节点集合分配至与其对应的各个所述任务集群中的各个所述监控节点，触发每个所述监控节点对每个所述资源节点集合中的各个资源节点进行监控；在将各个所述资源节点集合分配至各个所述监控节点后，实时接收每个所述监控节点反馈的监控信号；当第一目标监控节点的监控信号中断时，将所述第一目标监控节点中的各个所述资源节点，重新分配至除所述第一目标监控节点之外的其他监控节点中；每个所述监控节点，用于接收所述仲裁管理单元分配的所述资源节点集合，通过预先设置的监控频率监控所述资源节点集合中的各个资源节点，并向所述仲裁管理单元反馈监控信号；当存在第二目标监控节点监控所述资源节点的数量，超过所述第二目标监控节点对应的节点监控上限时，降低所述第二目标监控节点的监控频率。应用本发明提供的系统，通过门口数据录入层、数据存储层和任务执行管理层之间的信息交互，将各个资源节点分配至监控节点中进行监控，并在监控节点故障时，及时将已故障监控节点中的各个资源节点分配至其他未故障的监控节点中，实现对各个资源节点对应的服务器的监控及高可用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种服务器监控系统的系统结构图；

图2为本发明实施例提供的一种服务器监控系统的又一系统结构图；

图3为本发明实施例提供的一种服务器监控系统的又一系统结构图；

图4为本发明实施例提供的一种服务器监控方法的方法流程图；

图5为本发明实施例提供的一种服务器监控方法的又一方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明提供了一种服务器监控系统，该系统的系统结构图如图1所示，具体包括：

门口数据录入层100、数据存储层200及任务执行管理层300；

所述门口数据录入层100，用于向所述数据存储层录入各个资源节点；

所述数据存储层200，用于存储所述门口数据录入层所录入的各个所述源节点；

所述任务执行管理层300包括仲裁管理单元301、至少一个或多个任务集群302；

每个所述任务集群302包括多个监控节点；

各个所述任务集群302通过数据总线进行数据交互；

所述仲裁管理单元301，用于执行仲裁操作；所述仲裁操作的操作过程包括：获取所述数据存储层中已存储的各个所述资源节点，并通过逻辑计算获得多个资源节点集合，并将每个所述资源节点集合分配至与其对应的各个所述任务集群中的各个所述监控节点，触发每个所述监控节点对每个所述资源节点集合中的各个资源节点进行监控；在将各个所述资源节点集合分配至各个所述监控节点后，实时接收每个所述监控节点反馈的监控信号；当第一目标监控节点的监控信号中断时，将所述第一目标监控节点中的各个所述资源节点，重新分配至除所述第一目标监控节点之外的其他监控节点中；

本发明实施例提供的服务器监控系统中，如图1所示，该门口数据录入层可以是用户可视化、可操作集中式服务管理平台，该用户可视化、可操作集中式服务管理平台可以包括资产配置管理、故障报警、运维管理、权限访问和固件升级等所有用户可视化、可操作的管理服务。门口数据录入层用于向数据存储层录入各个资源节点。其中，每一个资源节点对应一个服务器，每一个资源节点中包含了与其对应的服务器名称、IP、用户名、密码等节点信息。该数据存储层可以为存储设备，当接收到门口数据录入层向该数据存储层录入资源节点时，将该门口数据录入资源所录入的各个资源节点存储。该任务执行管理层包括了仲裁管理单元和至少一个或多个任务集群。其中，该任务管理层采用静态负载的形式。且每一个任务集群中包含了多个监控节点，且各个任务集群之间通过数据总线进行数据交互，具体如图2所示，图2为各个任务集群之间的连接结构，采用了星形数据总线方式，实现各个服务之间数据交付的集中管理。在本发明中，仲裁管理单元用于执行仲裁操作，其中，由仲裁管理单元从数据存储层中获取已存储的多个资源节点，并将每个资源节点进行逻辑计算，获得多个资源节点集合，并把每个资源节点集合分配到各个监控节点中。由监控节点对资源节点集合中的各个资源节点进行监控，并向仲裁管理单元反馈监控信号。仲裁管理单元在分配各个资源节点集合后，实时接收每个监控节点反馈的监控信号。当第一目标监控节点的监控信号中断时，将第一目标监控节点中的各个资源节点重新分配到其他的监控节点中，由其他监控节点对原先属于第一目标监控节点的资源节点进行监控。

可选的，可以将第一目标监控节点中的各个资源节点分配到多个除第一目标监控节点之外的其他监控节点中，也可以只将第一目标监控节点中的各个资源节点分配到另一个监控节点中。在将第一目标监控节点中的各个资源节点分配到其他监控节点后，当存在第二目标监控节点的当前监控各个资源节点的数量超过自身的节点监控上限时，该第二目标监控节点将降低自身的监控频率。

需要说明的是，在图1中任务执行管理层包含了多个任务集群，每一个任务集群中包含多个同一类监控节点。每个任务集群中的监控节点数量可以一样也可以不同。例如任务集群1中的各个监控节点1可以是各个采集器；任务集群2中的各个监控节点2可以是各个运维器；任务集群3中的各个监控节点3可以是各个故障器。

例如，第二目标监控节点的节点监控上限为300个资源节点，且第二目标监控节点的需要3分钟监控300个资源节点，当资源节点的数量增加到400个时，则需要4分钟监控400个资源节点，使得监控时间变长，监控频率降低。

需要说明的是，在根据逻辑运算获得多个资源节点集合时，每一个资源节点集合中的资源节点个数不一定是一致的。例如，门口数据录入层录入了1000个资源节点，需要将1000个资源节点分配至3个监控节点中，在经过逻辑计算后，获得3个资源节点集合，其中，第一个资源节点集合中包含了200个资源节点、第二个资源节点集合中包含了500个资源节点、第三个资源节点集合中包含了300个资源节点。并且将第一资源节点集合、第二资源节点集合和第三资源节点集合对应地分到第一监控节点、第二监控节点和第三监控节点中。由第一监控节点监控200个资源节点、第二监控节点监控500个资源节点、第三监控节点监控300个资源节点。

还需要说明的是，监控节点可以是采集器、运维器、故障器等可以对资源节点进行监控的系统或设备。一个任务集群中的各个监控节点的设备类型或系统都一致。例如，目标任务集群中包含十个监控节点，每一个监控节点都是一个采集器。

再进一步说明，当仲裁管理单元在接收各个监控节点反馈监控信号的过程中，若第一目标监控节点的监控信号中断，则证明该监控节点发生故障。

应用本发明实施例提供的系统，通过门口数据录入层、数据存储层和任务执行管理层之间的信息交互，将各个资源节点分配至监控节点中进行监控，并在监控节点故障时，及时将已故障监控节点中的各个资源节点分配至其他未故障的监控节点中，实现对各个资源节点对应的服务器的监控及高可用。

本发明实施例提供的系统中，参考图3，所述门口数据录入层，包括：

主数据录入门户101，及与所述主数据录入门户对应的备用数据录入门户102；

所述主数据录入门户101，用于当所述主数据录入门户可用时，通过所述主数据录入门户向所述数据存储层录入各个所述服务器资源节点，并向所述备用数据录入门户发送门户工作信号；

所述备用数据录入门户102，用于实时接收所述主数据录入门户发送的门户工作信号，并当所述门户工作信号中断时，通过所述备用数据录入门户向所述数据存储层录入各个所述资源节点。

本发明实施例提供的系统中，门口数据录入层包括了主数据录入门户和备用数据录入门户。当主数据录入门户可用时，由主数据录入门户向数据存储层录入资源节点，同时向备用数据录入门户发送门户工作信号。该备用数据录入门户在接收主数据录入门户发送的门户工作信号时，不会参与任何操作。当门户工作信号中断时，由备用数据录入门户向数据存储层录入各个资源节点。

需要说明的是，在主数据录入门户录入资源节点的过程中，需要实时检测自身是否可用，若可用，则向备用数据录入门户发送门户工作信号，若不可用，则中断门户工作信号。当门户工作信号中断时，则证明主数据录入门户发生了故障，无法再向数据存储层录入资源节点。

应用本发明实施例提供的系统，门口数据录入层包含主数据录入门户和备用数据录入门户，使门口数据录入层的工作不发生间断，保证该门口数据录入层的高可用性。

本发明实施例提供的系统中，参考图3，所述数据存储层200，包括：

主数据存储器201，及与所述主数据存储层对应的备用数据存储器202；

所述主数据存储器201，用于当所述主数据存储器可用时，由所述主数据存储器存储所述门口数据录入层所录入的各个资源节点，并向所述备用数据存储器发送存储信号；

所述备用数据存储器202，用于实时接收所述主数据存储器发送的存储信号，并当所述存储信号中断时，存储所述门口数据录入层所录入的各个所述服务器资源节点。

本发明实施例提供的系统中，数据存储层包括了主数据存储器和备用数据存储器。其中，当主数据存储器可用时，由主数据存储器存储门口数据录入层录入的各个资源节点，并且向备用数据存储器发送存储信号，以使该备用数据存储器在主数据存储器可用时，不执行操作。但当存储信号中断时，由备用数据存储器存储门口数据录入层录入的各个资源节点。

需要说明的是，该主数据存储器与备用数据存储器除了可存储各个资源节点之外，还可对其他进行交互的数据进行存储。

应用本发明实施例提供的系统，数据存储层包括主数据存储器和备用数据存储器，以实现该数据存储层不间断地工作，保证系统的高可用性。

本发明实施例提供的系统中，参考图3，所述仲裁管理单元，包括：

主仲裁管理服务器3011，及与所述主仲裁管理服务器对应的备用仲裁管理服务器3012；

所述主仲裁管理服务器3011，用于当所述主仲裁管理服务器可用时，由所述主仲裁管理服务器执行所述仲裁操作，并向所述备用仲裁管理服务器发送与所述仲裁操作对应的仲裁工作信号；

所述备用仲裁管理服务器3012，用于实时接收所述主仲裁执行所述仲裁操作时发送的仲裁操作信号；当所述仲裁操作信号中断时，由所述备用仲裁管理服务器执行所述仲裁操作。

本发明实施例提供的服务器监控系统中，仲裁管理单元中包含了主仲裁管理服务器和备用仲裁管理服务器。其中当主仲裁管理服务器可用时，由主仲裁管理服务器执行仲裁操作。该仲裁操作的操作过程为：获取数据存储层中已存储的各个资源节点，并通过逻辑计算获得多个资源节点集合，并将每个资源节点集合分配至与其对应的各个监控节点，触发监控节点监控各个资源节点；在将各个资源节点集合分配至各个监控节点后，实时接收每个监控节点反馈的监控信号；当第一目标监控节点的监控信号中断时，将第一目标监控节点中的各个资源节点，重新分配至除第一目标监控节点之外的其他监控节点中。同时，由主仲裁管理服务器向备用仲裁管理服务器发送仲裁操作信号，以使备用仲裁管理服务器得知主仲裁管理服务器当前为可用状态。该备用仲裁管理服务器在接收到仲裁操作信号时，不会执行任何的操作，当仲裁操作信号中断时，执行该仲裁操作。

需要说明的是，在主仲裁管理服务器执行仲裁操作的过程中，需要实时检测自身是否可用，若可用，则向备用仲裁管理服务器发送仲裁操作信号，若不可用，则中断仲裁操作信号。当仲裁操作信号中断时，则证明主仲裁管理服务器发生了故障，无法再向数据存储层录入资源节点。此时，为了保证仲裁管理单元持续工作，将由备用仲裁管理服务器执行该仲裁操作的操作过程。

进一步说明，主数据存器和备用数据存储器之间利用双网线分别与主仲裁管理服务器和备用仲裁管理服务进行连接。即，主数据存储器与主仲裁管理服务器和备用仲裁管理服务进行连接，备用数据存储器也与主仲裁管理服务器和备用仲裁管理服务进行连接。

应用本发明实施例提供的系统，仲裁管理单元包含主仲裁管理服务器和备用仲裁管理服务器，使仲裁管理单元的工作不发生间断，保证该仲裁管理单元的高可用性。

本发明实施例提供的系统中，所述主仲裁管理服务器，包括：

多个主逻辑抽屉；

每个所述主逻辑抽屉与每个所述资源节点集合一一对应。

同时，所述备用仲裁管理服务器，包括：

多个备用逻辑抽屉；

每个所述备用逻辑抽屉与每个所述资源节点集合一一对应。

本发明实施例提供的服务器监控系统中，主仲裁管理服务器内包含多个主逻辑抽屉，且备用仲裁管理服务器中也包含了多个备用逻辑抽屉。每个逻辑抽屉都对资源节点进行计算，确定每个逻辑抽屉所对应的资源节点，获得资源节点集合。例如，主仲裁管理服务器获取了1000个资源节点，各个逻辑抽屉在经过计算以后，确定有300个资源节点由第一逻辑抽屉进行分配，500个资源节点有第二逻辑抽屉进行分配，200个资源节点由第三逻辑抽屉进行分配。且每一个逻辑抽屉，对应一个监控节点。

需要说明的是，逻辑抽屉的数量可以多于监控节点的数量，当监控节点较少时，只需要由部分逻辑抽屉进行分配资源节点。

应用本发明实施例提供的系统，通过逻辑抽屉进行逻辑计算获得资源节点集合后，再由逻辑抽屉对各个资源节点集合进行分配至每个监控节点，保证每个监控节点都能分配到资源节点集合。

本发明实施例提供的系统中，参考图3，所述任务执行管理层300，包括：

主交换机303，及与所述主交换机对应的备用交换机304；

所述主交换机303，用于当所述主交换机可用时，连接所述仲裁管理单元与所述至少一个或多个任务集群，以使所述仲裁管理单元通过所述主交换机，向每个所述监控节点分配各个所述资源节点集合，并向所述备用交换机发送交换机工作信号；

所述备用交换机304，用于实时接收所述主交换机发送的交换机工作信号，并当所述交换机工作信号中断时，连接所述仲裁管理单元与所述至少一个或多个任务集群，以使所述仲裁管理单元通过所述备用交换机，向每个所述监控节点分配各个所述资源节点集合。

本发明实施例提供的系统中，在该任务执行管理层中设置主交换机和备用交换机。当主交换机可用时，连接该仲裁管理单元和各个任务集群，由主交换机连接仲裁管理单元和各个任务集群，以使仲裁管理单元通过主交换机向每个监控节点分配资源节点集合。当主交换机不可用时，由备用交换机接替主交换机的工作。当主交换机可用时，会向备用交换机发送交换机工作信号，备用交换机在接收到交换机工作信号后，不会执行任何操作。当主交换机发生故障时，交换机工作信号会中断。此时，由备用交换机连接仲裁管理单元和各个任务集群，以使仲裁管理单元通过备用交换机向每个监控节点分配资源节点集合。

需要说明的是，主交换机和备用交换机相当于两个交换网络与仲裁管理单元中的主仲裁管理服务器和备用仲裁管理服务器进行双网线连接。同时与各个监控节点也进行双网线连接。主仲裁管理服务器及备用仲裁管理服务器通过主交换机或备用交换机，实现与各个监控节点在物理层面上的连接。

应用本发明实施例提供的系统，通过交换机连接仲裁管理单元与各个任务集群，保证了在分配各个资源节点的安全性，设置了主交换机和备用交换机，保证了本发明的系统的高可用性。

本发明实施体提供的系统中，在门口数据录入层和数据存储层主要采用主、备的形式来实现高可用，即，门口数据录入层中包括主数据录入门户和备用数据录入门户。数据存储层中包括主数据存储器和备用数据存储器。而任务执行管理层主要采用集群的方式实现高可用。如，各个任务集群之间采用星形数据总线进行连接，实现静态负载均衡。

进一步说明，各个节点或服务器之间以双网线和双交换机的形式进行数据交互。例如，主仲裁管理服务器采用双网线分别与主交换机及备用交换机进行连接，备用仲裁管理服务器同样采用双网线分别与主交换机及备用交换机进行连接。同样的，各个监控节点采用双网线分别与主交换机及备用交换机进行连接，实现本发明提供的服务器监控系统的高可用。

与图1所述的系统相对应，本发明实施例提供了一种服务器监控方法，用于对所述服务器监控系统中各个系统结构的具体实现，该方法具体应用于主仲裁管理服务器，该方法的方法流程图如图4所示，具体包括：

S401：实时检测所述主仲裁管理服务器是否可用；

在本发明实施例中，该主仲裁管理服务器会实时对自身进行监测，确定自身是否可用，以防止自身发生故障时工作中断。

S402：当所述主仲裁管理服务器可用时，执行与所述主仲裁管理服务器对应的仲裁操作，并向预先设置的备用仲裁管理服务器发送与所述仲裁操作对应的仲裁操作信号；其中，所述仲裁操作的操作过程，包括：从预先设置的数据存储层获取已存储的各个资源节点；调用预先设置的逻辑算法，对各个所述资源节点进行逻辑计算，获得多个资源节点集合；将每个所述资源节点集合分配至预先设置的与每个所述资源节点集合对应的监控节点，触发每个所述监控节点对每个所述资源节点集合中的各个资源节点进行监控；在将各个所述资源节点集合分配至各个所述监控节点后，实时接收每个所述监控节点反馈的监控信号；当第一目标监控节点的监控信号中断时，将所述第一目标监控节点中的各个资源节点，重新分配至除所述第一目标监控节点之外的其他监控节点中。

在本法发明实施例中，当主仲裁管理服务器可用时，执行仲裁操作，同时向备用仲裁管理服务器发送仲裁操作信号。其中，仲裁操作的操作过程包括：从数据存储层中获取各个资源节点，并调用逻辑算法获得多个资源节点集合。其中，每个资源节点集合包含多个资源节点。并将每个资源节点集合分配至与其对应的监控节点中，触发监控节点对资源节点集合中的各个资源节点进行监控。同时，实时接收每个监控节点反馈的监控信号；当第一目标监控节点的监控信号中断时，将该第一目标监控节点中的各个资源节点重新分配给其他的资源节点。

需要说明的是，每一个资源节点对应一个服务器。

应用本发明实施例提供的方法，实时检测自身是否可用，保证主仲裁管理服务器的高可用，并实时接收监控节点反馈的监控信号，以保证对每个监控节点中的各个资源节点的监控，确保每个资源节点对应的服务器的高可用性。

本发明实施例提供的服务器监控方法中，具体还包括：

当所述主仲裁管理服务器不可用时，中断向所述备用仲裁管理服务器发送的仲裁操作信号，以使所述备用仲裁管理服务器执行所述仲裁操作的操作过程。

本发明实施例提供的方法中，在主备用仲裁管理服务器不可用时，将中断向备用仲裁管理服务器发送仲裁操作信号。此时，主仲裁管理服务器已经发生了故障，因此，当中断仲裁操作信号后，由备用仲裁管理服务器执行仲裁操作的操作过程。以使主仲裁管理服务器及备用仲裁管理服务器对应的仲裁管理单元的高可用性。

本发明实施例提供的方法中，所述调用预先设置的逻辑算法，对各个所述资源节点进行逻辑计算，获得多个资源节点集合的过程如图5所示，具体包括：

S501：获取每个所述资源节点对应的节点编号；

在本发明实施例中，每个资源节点都对应着一个节点编号。可以根据该节点编号，确定每一个资源节点需要分配到与其对应的监控节点。在进行逻辑计算之前，先获取每个资源节点对应的节点编号。

S502：调用预先设置的逻辑算法，对每个所述节点编号进行哈希计算，获得与每个所述资源节点对应的哈希值；

在本发明实施例中，在获取到各个资源节点的节点编号后，调用逻辑算法，对每个节点编号进行哈希计算，获得每个资源节点对应的哈希值。

S503：确定所述主仲裁管理服务器中预先设置的各个逻辑抽屉的抽屉数量值，并对每个所述资源节点对应的哈希值，及与所述抽屉数量值进行取模计算，获得每个所述逻辑抽屉需分配各个所述资源节点的分配数量；

在本发明实施例中，确定该主仲裁管理服务器中预先设置的逻辑抽屉的数量，及抽屉数量值，并将抽屉数量值和每个资源节点对应的哈希值进行取模计算，获得需要每个逻辑抽屉需要分配资源节点的分配数量。

S504：基于与每个所述逻辑抽屉对应的分配数量，触发每个所述逻辑抽屉依据与其对应的所述分配数量将各个所述资源节点进行分配，获得多个资源节点集合。

在本发明实施例中，根据每个逻辑抽屉所需的分配数量，将各个资源节点进行分配，获得多个资源节点集合。

本发明实施例提供的方法中，通过逻辑计算，确定每个逻辑抽屉需要分配资源节点的数量，以获得资源节点集合。例如，当逻辑抽屉的数量为1024个时，即存在0～1023的逻辑抽屉。通过计算资源节点编号的哈希值后，然后与1024取模，确定每个逻辑抽屉分配资源节点的数量。其中，在获取各个资源节点集合后，由各个逻辑抽屉，将其对应的资源节点集合分配至对应的监控节点当中。

应用本发明实施例提供的方法，计算每个逻辑抽屉需要分配资源节点的数量，获得多个资源节点集合，更合理地将各个资源节点集合分配至与其对应的监控节点当中。

本发明实施例提供的方法中，所述当存在第一目标监控节点的监控信号中断，将所述第一目标监控节点中的各个资源节点，重新分配至除所述第一目标监控节点之外的其他监控节点中，包括：

本发明实施例提供的方法中，通过获取每个监控节点的CPU核数及网络带宽，确定每一个监控节点的监控上限，即P＝kM_i+lN_i，其中l为CPU权重，M_i为CPU核数，l为网络带宽权重，N_i为网络带宽。即，计算每一个监控节点在预先设置的监控频率下的监控上限。若存在一个第一目标监控节点的监控信号中断时，确定该第一目标监控节点发生故障。并根据每个监控节点对应的监控信号，确定出第一目标监控节点之外的其他监控节点的当前监控数量。并且将第一目标监控节点中的各个资源节点，重新分配至当前监控数量未达到监控上限的其他监控节点中。

可选的，该监控上限的计算还可以为：P＝kM_i+lN_i+jG_i+rB_i。其中，j为内存权重，G_i为内存容量，r B_i为物理机和虚拟机。

可选的，在将第一目标监控节点中的各个资源节点重新分配到其他监控节点的过程中，若所有的监控节点达到与其对应的节点监控上限，则将第一目标监控节点中的各个资源节点随机分配到其他监控节点中。此时，若存在第二目标监控节点的当前监控数量，超过该第二目标监控节点的节点监控上限时，由该第二目标监控节点根据自身的当前监控数量，降低该第二目标监控节点的监控频率。

应用本发明实施例提供的方法，当第一目标监控节点的监控信号中断时，及时将该第一目标监控节点中的各个资源节点重新分配至其他监控节点中，实现对每个资源节点的监控，以保证每个资源节点对应的服务器高可用性。

上述各个实施例的具体实施过程及其衍生方式，均在本发明的保护范围之内。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，

为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种服务器监控系统，其特征在于，包括：

门口数据录入层、数据存储层及任务执行管理层；

所述任务执行管理层包括仲裁管理单元、多个任务集群；

每个所述任务集群包括多个监控节点；

各个所述任务集群通过数据总线进行数据交互；

2.根据权利要求1所述的系统，其特征在于，所述门口数据录入层，包括：

3.根据权利要求1所述的系统，其特征在于，所述数据存储层，包括：

4.根据权利要求1所述的系统，其特征在于，所述仲裁管理单元，包括：

5.根据权利要求4所述的系统，其特征在于，所述主仲裁管理服务器，包括：

多个主逻辑抽屉；

每个所述主逻辑抽屉与每个所述资源节点集合一一对应。

6.根据权利要求4所述的系统，其特征在于，所述备用仲裁管理服务器，包括：

多个备用逻辑抽屉；

每个所述备用逻辑抽屉与每个所述资源节点集合一一对应。

7.根据权利要求1所述的系统，其特征在于，所述任务执行管理层，包括：

主交换机，及与所述主交换机对应的备用交换机；

8.一种服务器监控方法，其特征在于，所述方法应用于主仲裁管理服务器，包括：

实时检测所述主仲裁管理服务器是否可用；

9.根据权利要求8所述的方法，其特征在于，所述调用预先设置的逻辑算法，对各个所述资源节点进行逻辑计算，获得多个资源节点集合，包括：

获取每个所述资源节点对应的节点编号；

10.根据权利要求8所述的方法，其特征在于，所述当存在第一目标监控节点的监控信号中断，将所述第一目标监控节点中的各个资源节点，重新分配至除所述第一目标监控节点之外的其他监控节点中，包括：