CN103246592B - 一种监控采集系统及方法 - Google Patents

一种监控采集系统及方法 Download PDF

Info

Publication number
CN103246592B
CN103246592B CN201310175149.9A CN201310175149A CN103246592B CN 103246592 B CN103246592 B CN 103246592B CN 201310175149 A CN201310175149 A CN 201310175149A CN 103246592 B CN103246592 B CN 103246592B
Authority
CN
China
Prior art keywords
task
unit
executing units
load
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310175149.9A
Other languages
English (en)
Other versions
CN103246592A (zh
Inventor
王帅
王蕾
彭毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN201310175149.9A priority Critical patent/CN103246592B/zh
Publication of CN103246592A publication Critical patent/CN103246592A/zh
Application granted granted Critical
Publication of CN103246592B publication Critical patent/CN103246592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种监控采集系统及方法,该系统包括:任务分发单元、至少两个任务执行单元、健康监控单元和负载均衡单元;所述任务分发单元,用于根据负载均衡单元的负载均衡指标将获取到的任务分配给任务执行单元;所述任务执行单元,用于执行接收到的监控采集任务,并记录任务执行状态和执行结果;所述健康监控单元,用于监控所述任务执行单元的工作状态和负载;所述负载均衡单元,用于根据所述健康监控单元的监控的信息,确定任务执行单元的负载均衡指标。利用本发明,可以提高系统的处理能力、系统资源利用率和系统稳定性。

Description

一种监控采集系统及方法
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种监控采集系统及方法。
背景技术
随着计算机技术的快速发展,数据处理量的急剧增长,服务器集群在计算机应用技术领域得到了广泛应用。所谓服务器集群是指多个服务器集中起来共同完成任务,在客户端看来就像是只有一个服务器;服务器集群可以利用多个计算机进行并行计算,从而获得很高的计算速度,也可以用多个计算机做备份,从而保证任何一个机器出现故障,并不会影响整个系统的正常运行。服务器集群在处理大规模数据时,需要实时监控,需要实时进行数据采集,且采集的任务量大,任务种类众多。
目前,采用的分布式任务系统对服务器集群系统进行监控管理,具体是:采用单任务分发单元和多任务执行单元的工作模式,通过单任务分发单元将多个任务分配给不同的任务执行单元进行处理。当任务量超过任务分发单元处理能力的上限时,大量任务将无法顺利按时得到分配执行,甚至,会导致任务丢失的问题。另外,整个系统的任务调度处理是通过任务执行单元对自身负载状况进行监控,将负载状况信息反馈给控制中心,单任务分发单元根据这些负载状况信息再进行任务的合理分配。这种监控管理方式,只能实现每个任务执行单元自身的负载均衡,会造成局部任务执行单元繁忙或者空闲的状态,无法实现整个系统全局性的负载均衡,无法使得系统的资源得到合理利用。另外,当任务执行单元出现故障导致执行出错或者服务异常停止的情况时,会造成当前执行任务丢失或者数据错误的问题,更严重的会导致系统无法正常工作。
基于上述技术存在的技术问题,现在迫切需要提供一种新的监控采集系统以提高系统的处理能力、系统资源利用率和系统稳定性。
发明内容
为了解决上述技术问题,本发明实施例提供了一种监控采集系统及方法,以提高系统的处理能力、系统资源利用率和系统稳定性。
本申请实施例公开了如下技术方案:
一种监控采集系统,包括:
任务分发单元、至少两个任务执行单元、健康监控单元和负载均衡单元;
所述任务分发单元,用于根据负载均衡单元的负载均衡指标将获取到的任务分配给任务执行单元;
所述任务执行单元,用于执行接收到的监控采集任务,并记录任务执行状态和执行结果;
所述健康监控单元,用于监控所述任务执行单元的工作状态和负载;
所述负载均衡单元,用于根据所述健康监控单元的监控的信息,确定任务执行单元的负载均衡指标。
优选的,所述健康监控单元,包括:
获取子模块,用于获取每一个任务执行单元的工作状态信息和负载信息,所述负载信息包括:CPU负载信息、内存使用率、磁盘IO信息和网络IO信息;
记录子模块,用于记录所述获取子模块获取的每一个任务执行单元的工作状态信息记和负载信息。
优选的,所述健康监控单元,还包括:
反馈子模块一,用于将监控到的异常或者高负载的任务执行单元信息直接发送至所述任务分发模块。
则所述任务分发单元,还用于根据反馈子模块反馈的信息将出现异常或者高负载的任务执行单元中未处理的任务重新分配给其他任务执行单元,且不再给所述出现异常或者高负载的任务执行单元分配新任务。
优选的,所述健康监控单元,还包括:
反馈子模块二,用于将监控到的异常或者高负载的功能单元信息反馈给系统维护模块,以便及时进行故障处理。
优选的,所述负载均衡单元,包括:
去除子模块,用于根据所述健康监控单元得到的工作状态信息,去除出现异常和没有启动的任务执行单元信息;
排序子模块,用于根据所述健康监控单元得到的负载信息,对去除之后的所有的任务执行单元进行排序,得到每个任务执行单元的负载均衡指标。
优选的,还包括:
至少一个任务分发单元,则所述系统为每一个任务分发单元都配置各自的资源管理范围,所述资源管理范围包括:管理的服务器和任务执行单元;
所述任意一个分发单元,用于根据负载均衡单元确定的负载均衡指标将获取到的任务分配给自身管理的任务执行单元。
优选的,所述健康监控单元,还包括:
监控子模块,用于监控每一个任务分发单元的工作状态和负载;
则所述负载均衡单元,还包括:
调整子模块,用于根据所述监控子模块监控到的信息,将出现异常或者负载过高的任务分发单元所管理的服务器资源和任务执行单元,根据负载情况配置给其他任务分发单元。
优选的,所述健康控制单元,用于将获取的每一个任务执行单元的工作状态信息存储在系统功能单元状态表中,将获取的每一个任务执行单元的负载信息存储在系统功能单元负载表;
则所述负载均衡单元,用于从系统功能单元状态表和系统功能单元负载表中获取状态信息和负载信息,以确定任务执行单元的负载均衡指标。
优选的,所述任务分发单元,还用于根据控制命令类别和参数,启动或者停止所述系统中的其他单元。
优选的,还包括:
策略配置单元,用于根据所述任务分发单元发送的任务信息,查找对应的策略规则并分析和规格化相应任务,并将结果反馈给所述任务分发单元。
优选的,所述策略配置单元,包括:
策略接收子单元,用于读取数据库或者配置文件中的策略信息;
策略分析子单元,用于根据任务分发单元发送的任务信息,在所述策略信息中查找与任务信息对应的策略;
策略控制子模块,用于将所查找到的对应的策略发送至所述任务分发单元,以便执行策略。
优选的,所述健康监控单元,还用于监控所述策略控制单元和均衡负载单元的工作状态。
本发明还提供了一种监控采集方法,包括:
从采集监控任务队列中读取任务;
将读取到的任务根据负载均衡指标分配给对应的任务执行单元,所述负载均衡指标是通过获取每一个任务执行单元的工作状态和负载,对获取到的信息进行处理得到的,用于标识每一个任务执行单元的处理能力的指标;
执行任务并记录所述任务的执行状态和执行结果。
优选的,还包括:
获取出现异常或者高负载的任务执行单元信息;
将出现异常或者高负载的任务执行单元中的未处理的任务重新分配给其他任务执行单元,且不再给所述出现异常或者高负载的任务执行单元分配新任务。
优选的,还包括:
将出现异常的任务执行单元信息反馈给系统故障处理单元,以便及时处理故障。
由上述实施例可以看出,本发明提供的一种监控采集系统,包括:任务分发单元、任务执行单元、健康监控单元和负载均衡单元;所述任务分发单元,用于根据负载均衡单元的负载均衡指标将获取到的任务分配给任务执行单元;所述任务执行单元,用于执行接收到的监控采集任务,并记录任务执行状态和执行结果;所述健康监控单元,用于监控所述任务执行单元的工作状态和负载;所述负载均衡单元,用于根据所述健康监控单元的监控的信息,确定任务执行单元的负载均衡指标。该系统通过健康监控单元能够及时监测到故障,并通知任务分发单元做适应性处理。同时通过负载均衡单元能够实现全局的负载均衡处理,减少了任务分配不均匀的情况。可见:本该系统能够提高系统的处理能力、系统资源利用率和系统稳定性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一揭示的一种监控采集系统的系统结构图;
图2为本申请实施例二揭示的另一种监控采集系统的系统结构图;
图3为本申请揭示的另一种监控采集系统的系统结构图;
图4为本申请揭示的另一种监控采集系统的系统结构图;
图5为本申请实施例三揭示的一种监控采集方法的方法流程图;
图6为本申请实施例三揭示的获取均衡负载指标的方法流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例进行详细描述。
实施例一
请参阅图1,其为本申请实施例一揭示的一种监控采集系统的系统结构图,该系统以包含N个任务执行单元,N大于等于2,具体包括:任务分发单元101、任务执行单元1~N、健康监控单元103和负载均衡单元104;下面结合该系统的工作原理进一步介绍其内部结构以及各个单元之间的连接关系。
所述任务分发单元101,用于根据负载均衡单元的负载均衡指标将获取到的任务分配给任务执行单元;
所述任务执行单元1~N,用于执行接收到的监控采集任务,并记录任务执行状态和执行结果;
所述健康监控单元103,用于监控所述任务执行单元的工作状态和负载;
所述负载均衡单元104,用于根据所述健康监控单元的监控的信息,确定任务执行单元的负载均衡指标。
当监控采集系统启动后,任务分发单元101从采集监控任务队列中获取需要处理的任务,系统的采集监控任务一般是根据任务种类、任务执行方式、任务执行时间等信息,按照执行时间戳存储在采集监控任务队列中。目前,对于系统会有一些固定的控制策略以便执行任务,任务分发单元101根据固定的控制策略进行分配任务。
所述健康监控单元103,按照一定的时间间隔读取系统中每一个任务执行单元的工作状态和负载。负载一般包括:CPU负载信息、内存使用率、磁盘IO信息和网络IO信息。工作状态一般指功能单元正常或者异常。
所述负载均衡单元104,读取每一个任务执行单元的工作状态信息和负载信息,过滤掉读取到的出现异常或者没有启动的任务执行单元信息,根据负载信息将剩余的任务执行单元进行排序后,得到剩余的任务执行单元的负载均衡指标。
任务分发单元101从负载均衡单元104中读取根据负载均衡单元104得到的负载均衡指标,根据任务执行单元的负载均衡指标的不同,将任务分配给N个任务执行单元中的任意一个。
由上述实施例可以看出,本发明提供的一种监控采集系统,通过所述任务分发单元,根据负载均衡单元的负载均衡指标将获取到的任务分配给任务执行单元;所述任务执行单元,对接收到的任务执行监控采集,并记录任务执行状态和执行结果;所述健康监控单元,监控所述任务执行单元的工作状态和负载;所述负载均衡单元,根据所述健康监控单元的监控的信息,确定任务执行单元的负载均衡指标。该系统通过健康监控单元能够及时监测到故障,并通知任务分发单元做适应性处理。同时通过负载均衡单元能够实现全局的负载均衡处理,减少了任务分配不均匀的情况。可见:本该系统能够提高系统的处理能力、系统资源利用率和系统稳定性。
实施例二
实施例一中的系统只包含一个任务分发单元,当该系统的任务比较多时,无法按时执行大量的任务,因此本发明还提供了另一种监控采集系统,包含至少两个任务分发单元,具体请参阅图2,其为本申请实施例二揭示的另一种监控采集系统的系统结构图,仅以包含两个任务分发单元为例,具体包括:任务分发单元1~N(N大于等于2)、任务执行单元1~N(N大于等于2)、健康监控单元203和负载均衡单元204;为了使得系统工作性能最优,系统中的任务执行单元的数量要大于等于任务分发单元的数量,下面结合该系统的工作原理进一步介绍其内部结构以及各个单元之间的连接关系。
所述任务分发单元1~N,用于根据负载均衡单元的负载均衡指标将获取到的任务分配给任务执行单元;
所述任务执行单元1~N,用于执行接收到的监控采集任务,并记录任务执行状态和执行结果;
所述健康监控单元203,用于监控所述任务执行单元的工作状态和负载;
所述负载均衡单元204,用于根据所述健康监控单元的监控的信息,确定任务执行单元的负载均衡指标。
对于检测采集系统一般都会包含多任务执行单元,每个任务执行单元的功能都一致。
优选的,所述健康监控单元203,包括:获取子模块203A和记录子模块203B;
获取子模块203A,用于获取每一个任务执行单元的工作状态信息和负载信息,所述负载信息包括:CPU负载信息、内存使用率、磁盘IO信息和网络IO信息;
当然负载信息也可以是其他信息,只要是能标识任务执行单元的处理能力的信息即可。
记录子模块203B,用于记录所述获取子模块获取的每一个任务执行单元的工作状态信息记和负载信息。
优选的,所述负载均衡单元204,包括:去除子模块204A和排序子模块204B;
去除子模块204A,用于根据所述健康监控单元得到的工作状态信息,去除出现异常和没有启动的任务执行单元信息;
排序子模块204B,用于根据所述健康监控单元得到的负载信息,对所有的任务执行单元进行排序,得到每个任务执行单元的负载均衡指标。
所述系统为每一个任务分发单元都配置各自的资源管理范围,所述资源管理范围包括:管理的服务器和任务执行单元;例如:当系统包含两个任务分发单元和40个任务执行单元。任务分发单元一201A和任务分发单元二201B都配置各自的资源管理范围。比如说:当该系统包含40个任务执行单元且管理200个服务器,任务分发单元一201A配置的资源管理范围为:管理的服务器是1~100针对的任务执行单元1~20;任务分发单元二201B配置的资源管理范围为:管理的服务器是101~200针对的任务执行单元21~40。任务分发单元一201A配置的资源管理范围为:管理的服务器是1~50,管理的任务执行单元1~10;任务分发单元二201B配置的资源管理范围为:管理的服务器是51~200,管理的任务执行单元11~40。任务分发单元一201A配置的资源管理范围为:管理的服务器是1、5、10,管理的任务执行单元1、5、10;任务分发单元二201B配置的资源管理范围为:管理的服务器是1~200中除了服务器1、5、10以外的其他服务器,管理的任务执行单元1~40中除了任务执行单元1、5、10以外的其他任务执行单元。当然也可以采用其他不同配置方式去配置任务分发单元的资源管理范围,具体如何配置在此实施例中不做限定。
则所述任意一个任务分发单元,用于根据负载均衡单元确定的负载均衡指标将获取到的任务分配给自身管理的任务执行单元。
当监控采集系统启动后,任务分发单元201A和任务分发单元201B分别从采集监控任务队列中获取需要处理的任务,系统的采集监控任务一般是根据任务种类、任务执行方式、任务执行时间等信息,按照执行时间戳存储在采集监控任务队列中。该采集系统会有一些固定的控制策略以便执行任务,任务分发单元201A和任务分发单元201B分别根据固定的控制策略对各自管理的任务执行单元进行任务分配。
任务分发单元分配任务会对一批任务进行处理,比如:任务分发单元201A读取到10个采集任务,根据控制策略和采集任务对服务器的要求,将十个采集任务分配到自身管理的任务执行单元,比如:任务1需要的负载比较大,处理时间比较长,任务分发单元根据负载均衡单元提供的负载均衡指标得知自己管理的任务执行单元中哪一个最适合处理任务1,就将该任务分配给最适合的任务执行单元,同类依次进行处理,将读取到的10个任务都分配给自己管理的任务执行单元。任务分发单元201B的处理方式与任务分发单元201A的处理方式是一致的,这两个任务分发单元是同时工作,以提高系统的任务并发量。
由于任务执行单元会实时的接收任务并执行任务采集处理,所以自身的负载情况会实时的发生变化,为了更好的获取任务执行单元的负载情况和工作状态,则健康监控单元会按照一定的时间间隔读取系统中的每一个任务执行单元的状态信息和负载信息,时间间隔可根据实际需求进行设定,可大可小,具体是多少,在本实施例中并不做限定。
优选的,所述健康监控单元,还包括:
监控子模块203C,用于监控每一个任务分发单元的工作状态和负载;
则所述负载均衡单元,还包括:
调整子模块204C,用于根据所述监控子模块监控到的信息,将出现异常或者负载过高的任务分发单元所管理的服务器资源和任务执行单元,根据负载情况配置给其他任务分发单元。具体如图3的一种监控采集系统结构图所示。
比如:当监控子模块监控到任务分发单元一出现异常或者负载过高,就将任务分发单元所管理的服务器资源和任务执行单元,配置给任务分发单元二,同理反之亦然。
优选的,所述健康控制单元,用于将获取的每一个任务执行单元的工作状态信息存储在系统功能单元状态表中,将获取的每一个任务执行单元的负载信息存储在系统功能单元负载表;
则所述负载均衡单元,用于从系统功能单元状态表和系统功能单元负载表中获取状态信息和负载信息,以确定任务执行单元的负载均衡指标。
优选的,所述任务分发单元,还用于根据控制命令类别和参数,启动或者停止所述系统中的其他单元。
优选的,所述健康控制单元,用于将获取的每一个任务执行单元的工作状态信息存储在系统功能单元状态表中,将获取的每一个任务执行单元的负载信息存储在系统功能单元负载表;
则所述负载均衡单元,用于从系统功能单元状态表和系统功能单元负载表中获取状态信息和负载信息,以确定任务执行单元的负载均衡指标。
优选的,所述健康控制单元还包括:反馈子模块一,用于将监控到的异常或者高负载的任务执行单元信息直接发送至所述任务分发模块。
则所述任务分发单元,还用于根据反馈子模块反馈的信息将出现异常或者高负载的任务执行单元中未处理的任务重新分配给其他任务执行单元,且不再给所述出现异常或者高负载的任务执行单元分配新任务。
优选的,所述健康监控单元,还包括:
反馈子模块二,用于将监控到的异常或者高负载的功能单元信息反馈给系统维护模块,以便及时进行故障处理。
优选的,所述任务分发单元,还用于根据控制命令类别和参数,启动或者停止所述系统中的其他单元。
为了使得该监测采集系统的策略控制性能更好,该系统还包括:
策略配置单元205,用于根据所述任务分发单元发送的任务信息,查找对应的策略规则并分析和规格化相应任务,并将结果反馈给所述任务分发单元。
所述策略配置单元,包括:
策略接收子单元205A,用于读取数据库或者配置文件中的策略信息;
策略分析子单元205B,用于根据任务分发单元发送的任务信息,在所述策略信息中查找与任务信息对应的策略;
策略控制子模块205C,用于将所查找到的对应的策略发送至所述任务分发单元,以便执行策略。具体如图4的一种监控采集系统结构图所示。
优选的,所述健康监控单元,还用于监控所述策略控制单元的工作状态,以便及时监测到系统故障所在。
所述健康监控单元,还用于监控所述负载均衡单元的工作状态,以便及时监测到系统故障所在。当然,该监控采集系统可以根据实际应用需要来灵活确定包含多少任务分发单元和多少任务执行单元,对此本发明实施例也不做限定。上述实施例二中仅以包含两个任务分发单元为例进行解释说明。
通过上述实施例可以看出:本发明提供的另一种监控采集系统,通过两个任务分发单元,根据负载均衡单元的负载均衡指标将获取到的任务分配给各自管理的任务执行单元;所述系统为每一个任务分发单元都配置各自的资源管理范围,所述资源管理范围包括:管理的服务器和任务执行单元;每个任务分发单元,都根据负载均衡单元确定的负载均衡指标将获取到的任务分配给自身管理的任务执行单元。所述任务执行单元,执行接收到的监控采集任务,并记录任务执行状态和执行结果;所述健康监控单元,监控所述任务执行单元的工作状态和负载;所述负载均衡单元,根据所述健康监控单元的监控的信息,确定任务执行单元的负载均衡指标。该系统通过健康监控单元能够及时监测到故障,并通知任务分发单元做适应性处理。同时通过负载均衡单元能够实现全局的负载均衡处理,减少了任务分配不均匀的情况。可见:本该系统能够更好地提高系统的处理能力,当系统任务量很大时,能够提高任务并发量,保证任务按时执行、提高系统资源利用率。
实施例三
相应地,本发明实施例还提供一种监控采集方法,如图5所示,为本发明实施例三提供一种监控采集方法的方法流程图,具体包括以下步骤:
步骤301:从采集监控任务队列中读取任务;
当系统中有采集监控任务时,会根据任务种类、任务执行方式、任务执行间隔,按照任务执行时间戳储存在采集监控任务队列中,该采集监控任务队列可以是在数据库中存在,也可以是在其他存储设备中存在。
任务分发单元会从采集监控任务队列中获取需要处理的任务,比如:有大量的采集监控任务需要处理,都按照时间戳顺序储存着,所以,任务分发单元就按照存储顺序依次读取任务。
步骤302:将读取到的任务根据负载均衡指标分配给对应的任务执行单元,所述负载均衡指标是通过获取每一个任务执行单元的工作状态和负载,对获取到的信息进行处理得到的,用于标识每一个任务执行单元的处理能力的指标;
任意一个监控采集系统都会配置系统中任务分发单元管理一些任务执行单元,该任务执行单元的负载均衡指标是通过以下方式获得的,具体如图6的一种获取负载均衡指标的方法流程图所示。
步骤401:获取每一个任务执行单元的工作状态和负载;
步骤402:去除出现异常或者没有启动的功能单元信息;
步骤403:将剩余的任务执行单元按照负载信息的大小进行排序,得到每一个任务执行单元的负责均衡指标,该指标用于标识每一个任务执行单元的处理能力。
比如:当系统包含10个任务执行单元时,首先获取到第1个、第2个、第3个任务执行单元的工作状态是异常,第4个任务执行单元没有启动,第5~10个任务执行单元的工作状态时正常。然后将第1个、第2个、第3个、第4个任务执行单元信息去除掉,表示第1~4个任务执行单元当前是不可用的状态;然后将第5~10个任务执行单元的负载信息,按照大小顺序进行排序,比如:当获得第5~10个任务执行单元的负载信息后,根据每个任务执行单元各自可承受的最大负载量,得出每个任务执行单元当前能够承受的负载,根据当前能够承受的负载按照由大到小的顺序进行排序,则当前能够承受的负载最大的任务执行单元就会排在第一,依次类推,每一个任务执行单元都有一个排序顺序,可以将该排列顺序作为负载均衡指标,也可以直接按照其他规则根据负载信息,对任务执行单元进行排序,得到用于标识其处理能力的负载均衡指标。
步骤303:执行任务并记录所述任务的执行状态和执行结果。
监控采集系统中的任务执行单元会执行相应任务,采集监控任务执行时间一般会持续一段时间,一般是2-60秒之间,在这个过程中,任务会产生各种中间状态(比如start、pending、waiting、failed、success)系统需要记录这种中间状态,并持久化,为了方便以后数据查看和分析。任务的执行结果包括两个部分,一个是任务是否执行成功;另一个是采集监控任务采集到的数据,这些数据主要包括:服务器状态、CPU负载、内存使用率、磁盘IO、网卡IO、温度、功耗等。
当系统包含多个任务执行单元时,所述方法还包括:
获取出现异常或者高负载的任务执行单元信息;
将出现异常或者高负载的任务执行单元中的未处理的任务重新分配给其他任务执行单元,且不再给所述出现异常或者高负载的任务执行单元分配新任务。
为了保证系统的稳定性,所述方法还包括:
将出现异常的任务执行单元信息反馈给系统故障处理单元,以便及时处理故障。
通过上述实施例可以看出:本发明提供的一种监控采集方法,根据负载均衡指标将获取到的任务分配给任务执行单元;所述负载均衡指标是通过获取每一个任务执行单元的工作状态和负载,对获取到的信息进行处理得到的,用于标识每一个任务执行单元的处理能力的指标;对接收到的任务执行监控采集,并记录任务执行状态和执行结果;通过上述处理考虑到了整个系统的负载情况,实现了全局的负载均衡处理,减少了任务分配不均匀的情况,更好地提高系统的处理能力,提高任务并发量,保证任务按时执行、提高系统资源利用率。
另外,当系统包含多个任务执行单元时,该方法还通过获取出现异常或者高负载的任务执行单元信息;将出现异常或者高负载的任务执行单元中的未处理的任务重新分配给其他任务执行单元,且不再给所述出现异常或者高负载的任务执行单元分配新任务。这种处理方式,使得当系统中的某一处任务分发单元出现故障时,能够及时的将任务分配给其他任务分发单元,以避免任务丢失或者数据错误等问题出现,保证系统能够正常工作,提高了系统的稳定性。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,其实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种监控采集系统,其特征在于,包括:
任务分发单元、至少两个任务执行单元、健康监控单元、负载均衡单元和策略配置单元;
所述策略配置单元,包括:
策略接收子单元,用于读取数据库或者配置文件中的策略信息;
策略分析子单元,用于根据任务分发单元发送的任务信息,在所述策略信息中查找与任务信息对应的策略;
策略控制子模块,用于将所查找到的对应的策略发送至所述任务分发单元,以便执行策略;
所述任务分发单元,用于根据负载均衡单元的负载均衡指标和策略控制子模块发送的策略,将获取到的任务分配给任务执行单元;所述任务执行单元,用于执行接收到的监控采集任务,并记录任务执行状态和执行结果;
所述健康监控单元,用于监控所述任务执行单元的工作状态和负载;
所述负载均衡单元,用于根据所述健康监控单元的监控的信息,确定任务执行单元的负载均衡指标;所述负载均衡指标用于标识任务执行单元的任务处理能力。
2.根据权利要求1所述的系统,其特征在于,所述健康监控单元,包括:
获取子模块,用于获取每一个任务执行单元的工作状态信息和负载信息,所述负载信息包括:CPU负载信息、内存使用率、磁盘IO信息和网络IO信息;
记录子模块,用于记录所述获取子模块获取的每一个任务执行单元的工作状态信息记和负载信息。
3.根据权利要求1所述的系统,其特征在于,所述健康监控单元,还包括:
反馈子模块一,用于将监控到的异常或者高负载的任务执行单元信息直接发送至所述任务分发单元;
则所述任务分发单元,还用于根据反馈子模块反馈的信息将出现异常或者高负载的任务执行单元中未处理的任务重新分配给其他任务执行单元,且不再给所述出现异常或者高负载的任务执行单元分配新任务。
4.根据权利要求1所述的系统,其特征在于,所述健康监控单元,还包括:
反馈子模块二,用于将监控到的异常或者高负载的功能单元信息反馈给系统维护模块,以便及时进行故障处理。
5.根据权利要求1所述的系统,其特征在于,所述负载均衡单元,包括:
去除子模块,用于根据所述健康监控单元得到的工作状态信息,去除出现异常和没有启动的任务执行单元信息;
排序子模块,用于根据所述健康监控单元得到的负载信息,对去除之后的所有的任务执行单元进行排序,得到每个任务执行单元的负载均衡指标。
6.根据权利要求1至5中任意一项所述的系统,其特征在于,还包括:
至少一个任务分发单元,则所述系统为每一个任务分发单元都配置各自的资源管理范围,所述资源管理范围包括:管理的服务器和任务执行单元;
所述任意一个任务分发单元,用于根据负载均衡单元确定的负载均衡指标将获取到的任务分配给自身管理的任务执行单元。
7.根据权利要求6所述的系统,其特征在于,所述健康监控单元,还包括:
监控子模块,用于监控每一个任务分发单元的工作状态和负载;
则所述负载均衡单元,还包括:
调整子模块,用于根据所述监控子模块监控到的信息,将出现异常或者负载过高的任务分发单元所管理的服务器资源和任务执行单元,根据负载情况配置给其他任务分发单元。
8.根据权利要求1至5中任意一项所述的系统,其特征在于,所述健康监控单元,用于将获取的每一个任务执行单元的工作状态信息存储在系统功能单元状态表中,将获取的每一个任务执行单元的负载信息存储在系统功能单元负载表;
则所述负载均衡单元,用于从系统功能单元状态表和系统功能单元负载表中获取状态信息和负载信息,以确定任务执行单元的负载均衡指标。
9.根据权利要求1至5中任意一项所述的系统,其特征在于,所述任务分发单元,还用于根据控制命令类别和参数,启动或者停止所述系统中的其他单元。
10.根据权利要求1所述的系统,其特征在于,所述健康监控单元,还用于监控所述策略控制单元和均衡负载单元的工作状态。
11.一种监控采集方法,其特征在于,包括:
读取数据库或者配置文件中的策略信息;
根据任务分发单元发送的任务信息,在所述策略信息中查找与任务信息对应的策略;
将所查找到的对应的策略发送至所述任务分发单元,以便执行策略;
从采集监控任务队列中读取任务;
将读取到的任务根据负载均衡指标和所述策略,分配给对应的任务执行单元,所述负载均衡指标是通过获取每一个任务执行单元的工作状态和负载,对获取到的信息进行处理得到的,用于标识每一个任务执行单元的处理能力的指标;
执行任务并记录所述任务的执行状态和执行结果。
12.根据权利要求11所述的方法,其特征在于,还包括:
获取出现异常或者高负载的任务执行单元信息;
将出现异常或者高负载的任务执行单元中的未处理的任务重新分配给其他任务执行单元,且不再给所述出现异常或者高负载的任务执行单元分配新任务。
13.根据权利要求11所述的方法,其特征在于,还包括:
将出现异常的任务执行单元信息反馈给系统故障处理单元,以便及时处理故障。
CN201310175149.9A 2013-05-13 2013-05-13 一种监控采集系统及方法 Active CN103246592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310175149.9A CN103246592B (zh) 2013-05-13 2013-05-13 一种监控采集系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310175149.9A CN103246592B (zh) 2013-05-13 2013-05-13 一种监控采集系统及方法

Publications (2)

Publication Number Publication Date
CN103246592A CN103246592A (zh) 2013-08-14
CN103246592B true CN103246592B (zh) 2016-12-28

Family

ID=48926122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310175149.9A Active CN103246592B (zh) 2013-05-13 2013-05-13 一种监控采集系统及方法

Country Status (1)

Country Link
CN (1) CN103246592B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791614B (zh) * 2014-12-24 2019-05-10 深圳Tcl数字技术有限公司 文件扫描方法及终端
CN104572286A (zh) * 2015-01-30 2015-04-29 湖南蚁坊软件有限公司 一种基于分布式内存集群的任务调度方法
CN104714875A (zh) * 2015-03-11 2015-06-17 浪潮集团有限公司 一种分布式的自动化采集的方法
CN106155802B (zh) * 2015-03-30 2020-03-13 阿里巴巴集团控股有限公司 任务调度方法、装置及控制节点
CN105404553A (zh) * 2015-12-01 2016-03-16 安徽瑞信软件有限公司 采集装置的任务分配方法
CN105554099A (zh) * 2015-12-10 2016-05-04 浪潮通信信息系统有限公司 一种采集服务器负载均衡的方法及装置
CN105740077B (zh) * 2016-01-29 2020-02-07 中国联合网络通信集团有限公司 一种适用于云计算的任务分配方法
CN106027298B (zh) * 2016-05-20 2019-07-26 深圳市永兴元科技股份有限公司 分布式数据系统的数据采集方法及分布式数据系统
CN106155793B (zh) * 2016-07-19 2019-05-28 浪潮(北京)电子信息产业有限公司 一种资源调度方法及装置
CN108628677B (zh) * 2017-03-20 2022-12-02 北京京东尚科信息技术有限公司 分布式任务处理系统、方法和装置
CN108021450A (zh) * 2017-12-04 2018-05-11 北京小度信息科技有限公司 基于yarn的作业分析方法和装置
CN109936592A (zh) * 2017-12-15 2019-06-25 中国移动通信集团浙江有限公司 服务处理的方法、装置、电子设备和存储介质
CN110046717A (zh) * 2019-03-14 2019-07-23 南京汽轮电力科技有限公司 一种汽轮机云服务和大型旋转设备健康管理系统
CN110347546B (zh) * 2019-05-23 2022-05-17 平安科技(深圳)有限公司 监控任务动态调整方法、装置、介质及电子设备
CN110501993A (zh) * 2019-08-20 2019-11-26 郑州飞机装备有限责任公司 一种机载悬挂投放装置状态监测方法
CN110941535A (zh) * 2019-11-22 2020-03-31 山东超越数控电子股份有限公司 一种硬盘负载均衡方法
CN116151137B (zh) * 2023-04-24 2023-07-28 之江实验室 一种仿真系统、方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1972311A (zh) * 2006-12-08 2007-05-30 华中科技大学 一种基于集群均衡负载的流媒体服务器系统
CN103036979A (zh) * 2012-12-12 2013-04-10 广州尚融网络科技有限公司 一种服务器负载均衡方法及负载均衡器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100211958A1 (en) * 2009-02-17 2010-08-19 Sun Microsystems, Inc. Automated resource load balancing in a computing system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1972311A (zh) * 2006-12-08 2007-05-30 华中科技大学 一种基于集群均衡负载的流媒体服务器系统
CN103036979A (zh) * 2012-12-12 2013-04-10 广州尚融网络科技有限公司 一种服务器负载均衡方法及负载均衡器

Also Published As

Publication number Publication date
CN103246592A (zh) 2013-08-14

Similar Documents

Publication Publication Date Title
CN103246592B (zh) 一种监控采集系统及方法
KR102125219B1 (ko) 데이터 처리 방법, 장치, 시스템, 프로그램 및 컴퓨터 판독가능한 기록매체
CN100530133C (zh) 用于在网格环境内管理工作负荷的方法和系统
DE60016283T2 (de) Arbeitsbelastungsverwaltung in einer rechnerumgebung
CN103207814B (zh) 一种去中心化的跨集群资源管理与任务调度系统与调度方法
CN107733676A (zh) 一种弹性调度资源的方法及系统
WO2020211300A1 (zh) 资源分配方法、装置、计算机设备和存储介质
CN103384206B (zh) 一种面向海量数据的并行处理方法及系统
DE202011110892U1 (de) System von aktivem Risikomanagement, um die Wahrscheinlichkeit des Descheduling der Jobs in Computer-Clustern zu reduzieren
CN105677836A (zh) 一种同时支持离线数据和实时在线数据的大数据处理解决系统
CN107688496A (zh) 任务分布式处理方法、装置、存储介质和服务器
CN108845878A (zh) 基于无服务器计算的大数据处理方法及装置
CN107453929B (zh) 集群系统自构建方法、装置及集群系统
CN104407926B (zh) 一种云计算资源的调度方法
CN110287245A (zh) 用于分布式etl任务调度执行的方法及系统
CN103905533A (zh) 基于云存储的分布式告警监控方法和系统
CN103327072A (zh) 一种集群负载均衡的方法及其系统
KR20150112357A (ko) 센서 데이터 처리 시스템 및 방법
CN105302697B (zh) 一种密集数据模型数据库的运行状态监控方法及系统
CN1602480A (zh) 管理附装在数据网络上的存储器资源
CN109271243A (zh) 一种集群任务管理系统
CN107621978A (zh) 一种并行计算环境下的高可用任务处理控制模型
CN112753022A (zh) 数据库环境中的自动查询重试
US8838779B2 (en) Multi-level offload of model-based adaptive monitoring for systems management
CN105608138A (zh) 一种优化阵列数据库并行数据加载性能的系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 100086 12, 1201, 3 building, 2 South Road, Haidian District Academy of Sciences, Beijing.

Patentee after: Beijing Sohu New Media Information Technology Co., Ltd.

Address before: 100084 Beijing Haidian District Zhongguancun East Road 1 hospital 9 building Sohu cyber building 15 Floor

Patentee before: Beijing Sohu New Media Information Technology Co., Ltd.

CP02 Change in the address of a patent holder