CN111324508A - 一种分布式集群的监控方法、装置、系统及存储介质 - Google Patents

一种分布式集群的监控方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN111324508A
CN111324508A CN202010079941.4A CN202010079941A CN111324508A CN 111324508 A CN111324508 A CN 111324508A CN 202010079941 A CN202010079941 A CN 202010079941A CN 111324508 A CN111324508 A CN 111324508A
Authority
CN
China
Prior art keywords
monitoring
node
task
monitoring task
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010079941.4A
Other languages
English (en)
Inventor
陶光庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202010079941.4A priority Critical patent/CN111324508A/zh
Publication of CN111324508A publication Critical patent/CN111324508A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems

Abstract

本发明公开了一种分布式集群的监控方法、装置、系统及存储介质。其中,分布式集群的主控节点会在一个可以被所有节点访问到的数据存储系统创建监控任务列表,并在监控任务列表中添加需要执行的监控任务。而非主控节点则会访问上述数据存储系统,从监控任务列表中获取本节点的监控任务,执行该任务,并将执行结果也保存到数据存储系统中。如此,这些监控任务可以经由集群中的非主控节点分布式执行,有效地降低了主监控节点的资源消耗,从而尽可能地避免因为主控节点集中管控而导致的性能瓶颈。

Description

一种分布式集群的监控方法、装置、系统及存储介质
技术领域
本发明涉及分布式集群领域,尤其涉及一种分布式集群的监控方法、装置、系统及存储介质。
背景技术
分布式存储集群各个节点的健康状态、资源池的使用状态、对象存储设备的状态、以及监控程序的状态等都需要进行实时汇总和监控,并将监控结果上报给集群管理人员或管理程序。
现有常用的分布式集群的监控方法主要有:1)通过主控节点运行脚本监控命令,收集集群的全部状态信息,进行集中式监控。该方案的缺点在于主控节点的工作量会非常大,有可能会成整个系统的性能瓶颈,且当集群节点增多时,由于单个节点本身的性能有限,也会限制可支持的集群节点数量。2)分布式监控信息收集方法,即利用各个节点获取自身节点的硬盘信息、CPU消耗、内存消耗信息等,然后上报给主控节点,由主控节点来执行监控任务。该方案改进了集中监控的部分问题,分担了主控节点收集节点信息的工作,但大部分监控任务仍由主监控节点来执行,主监控节点仍需要较多资源。
发明内容
针对以上问题,本发明人创造性地提供一种分布式集群的监控方法、装置、系统及存储介质。
根据本发明实施例第一方面,一种分布式集群的监控方法,该方法应用于非主控节点,包括:从数据存储系统中获取监控任务列表,其中数据存储系统用于收集监控信息且能被分布式集群的所有节点访问到;从监控任务列表中获取本节点的监控任务;执行监控任务;将监控任务的执行结果存储到数据存储系统中。
根据本发明一实施方式,其中,从监控任务列表中获取本节点的监控任务包括:从监控任务列表中获取一个任务;将任务从监控任务列表中删除。
根据本发明一实施方式,其中,从监控任务列表中获取本节点的监控任务,包括:获取活跃节点数和本节点序号,其中本节点序号为依据特定规则对全部活跃节点进行排序后本节点所位于的序号;获取监控任务列表的任务数;根据本节点序号和任务数确定本节点是否能获取监控任务,其中,若本节点序号小于任务数,则从监控任务列表中获取下标位置与本节点序号对应的任务。
根据本发明一实施方式,其中,从监控任务列表中获取下标位置与本节点序号对应的任务,包括:创建本节点的监控任务子列表;将监控任务列表中下标位置与本节点序号的差为零的任务,和监控任务列表中下标位置与本节点序号的差为活跃节点数倍数的任务,逐一添加到本节点的监控任务子列表中;读取本节点的监控任务子列表获取监控任务列表中下标位置与本节点序号对应的任务。
根据本发明实施例第二方面,一种分布式集群的监控方法,该方法应用于主控节点,包括:在数据存储系统中创建监控任务列表;将要执行的监控任务添加到监控任务列表中。
根据本发明一实施方式,其中,该方法还包括:对监控任务的执行结果进行汇总得到汇总信息;根据汇总信息生成监控报告。
根据本发明实施例第三方面,一种分布式集群的监控装置,该装置应用于非主控节点,包括:数据获取模块,用于从数据存储系统中获取监控任务列表,其中数据存储系统用于收集监控信息且能被分布式集群的所有节点访问到;任务获取模块,用于从监控任务列表中获取本节点的监控任务;任务执行模块,用于执行监控任务;任务结果存储模块,用于将监控任务的执行结果存储到数据存储系统中。
根据本发明一实施方式,其中,任务获取模块包括:任务获取单元,用于从监控任务列表中获取一个任务;删除单元,用于将任务从监控任务列表中删除。
根据本发明一实施方式,其中,任务获取模块包括:活跃节点获取单元,用于获取活跃节点数和本节点序号,其中本节点序号为依据特定规则对全部活跃节点进行排序后本节点所位于的序号;任务列表获取单元,用于获取监控任务列表的任务数;任务分配单元,用于根据本节点序号和任务数确定本节点是否能获取监控任务,其中,若本节点序号小于任务数,则从监控任务列表中获取下标位置与本节点序号对应的任务。
根据本发明一实施方式,其中,任务分配单元包括:本节点任务列表创建子单元,用于创建本节点的监控任务子列表;本节点任务列表添加子单元,用于将监控任务列表中下标位置与本节点序号的差为零的任务,和监控任务列表中下标位置与本节点序号的差为活跃节点数倍数的任务,逐一添加到本节点的监控任务子列表中;本节点任务列表获取子单元,用于读取本节点的监控任务子列表获取监控任务列表中下标位置与本节点序号对应的任务。
根据本发明实施例第四方面,提供一种分布式集群的监控装置,该装置应用于主控节点,该装置包括:列表创建模块,用于在数据存储系统中创建监控任务列表;监控任务添加模块,用于将要执行的监控任务添加到监控任务列表中。
根据本发明一实施方式,其中,该装置还包括:汇总模块,用于对监控任务的执行结果进行汇总得到汇总信息;报告生成模块,用于根据汇总信息生成监控报告。
根据本发明实施例第五方面,提供一种分布式集群的监控系统,该系统包括:主控节点,用于执行本发明实施例应用于主控节点的、任一项分布式集群的监控方法;非主控节点,用于执行本发明实施例应用于非主控节点的、任一项分布式集群的监控方法;数据存储系统,用于存储监控任务列表和所述监控任务的执行结果。
根据本发明实施例第六方面,提供一种计算机存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的分布式集群的监控方法。
本发明实施例提供一种分布式集群的监控方法、装置、系统及存储介质。其中,分布式集群的主控节点会在一个可以被所有节点访问到的数据存储系统创建监控任务列表,并在监控任务列表中添加需要执行的监控任务。而非主控节点则会访问上述数据存储系统,从监控任务列表中获取本节点的监控任务,执行该任务,并将执行结果也保存到该数据存储系统中。如此,这些监控任务可以经由集群中的非主控节点分布式执行,有效地降低了主监控节点的资源消耗,从而尽可能地避免因为主控节点集中管控而导致的性能瓶颈。需要说明的是,这里的监控任务不仅仅是收集本节点硬盘、CPU、内存等使用信息,还可以是对整个集群的监控,比如收集对象存储设备和池的使用信息和工作状态等等。而且,由于减少了对主控节点的依赖性,也非常便于对非主控节点的自由伸缩和扩展。此外,由于监控信息都存储在集群中的数据存储系统中,即使进行主监控节点的切换也不会影响监控任务的执行以及执行结果的收集。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例分布式集群的监控方法应用于非主控节点的实现流程示意图;
图2为本发明实施例分布式集群的监控方法应用于主控节点的实现流程示意图;
图3为本发明实施例分布式集群的监控装置应用于非主控节点的组成结构示意图;
图4为本发明实施例分布式集群的监控装置应用于主控节点的组成结构示意图;
图5为本发明实施例分布式集群的监控系统示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
图1示出了本发明实施例分布式集群的监控方法的实现流程,该方法应用于非主控节点。参考图1,该方法包括:操作110,从数据存储系统中获取监控任务列表,其中数据存储系统用于收集监控信息且能被分布式集群的所有节点访问到;操作120,从监控任务列表中获取本节点的监控任务;操作130,执行监控任务;操作140,将监控任务的执行结果存储到数据存储系统中。
在操作110中,这里的数据存储系统是分布式集群系统中已经存在的数据存储系统,与分布式集群系统的主控节点、非主控节点网络互通,且可以被分布式集群的所有节点访问到。这里的数据存储系统可以是数据库,也可以是共享的文件系统或是配置系统,只要是可以存储数据且能被分布式集群的所有节点访问到即可。由于这里存放的信息是进行分布式集群监控的关键数据,推荐使用高可用的数据存储系统。这里的监控任务列表可以是数据库中的一个表,也可以是文件系统中的一个文件,或是配置系统中的一组配置信息。其中,监控任务列表是用于存储要执行的监控任务的,这里的监控任务不仅仅是收集本节点硬盘、CPU、内存等使用信息,还可以是对整个集群的监控,比如收集对象存储设备和池的使用信息和工作状态等等。
在操作120中,为了提高监控任务的执行效率,监控任务列表中的监控任务最好是能够较为均匀地分布到各个节点上执行。当然,在监控任务列表中的监控任务少于节点数的情况下,会有部分节点不需要执行任何监控任务;而在监控任务列表中的监控任务多于节点数的情况下,则除了所有节点都会执行相应的监控任务之外,还会有部分节点需要执行多个监控任务。此外,在制定各节点如何获取监控任务的策略时,既要考虑到全部监控任务都得到执行,最好还能考虑到如何避免多个节点重复执行某个监控任务,导致资源浪费的情况。需要说明的是,这里最好是由各节点主动去认领任务,而不依赖于其他节点、程序或系统的分配或控制。例如,可以根据本节点在所有活跃节点中的序号获取与该序号对应的监控任务列表下标位置对应的监控任务;或是从监控任务列表中取出一个任务,然后将该任务从列表中删除掉等方式。原则上,本发明实施例并不限定如何从监控任务列表中获取本节点的监控任务的实现方式,只要能使各节点将监控任务列表中的监控任务分布式地执行完,且实施效果良好的实现方案均可采用,以上建议仅供实施参考。
在操作130中,各节点获取到监控任务后,即可执行该监控任务。原则上,这里的监控任务是任何一个节点都可执行的监控任务,并不需要特殊的权限或特定条件。且这里的监控任务应该是采用所有节点均可理解的方式统一定义的监控任务,任何节点拿到该监控任务都会按照相同的顺序执行相同的操作,得到的结果也应该是一样的。
在操作140中,将监控任务的执行结果存储到数据存储系统中,是为了汇总监控任务的执行结果,便于生成监控报告。进行执行结果汇总的可以是主控节点,也可以是能够访问到该数据存储系统的、可利用这些执行结果生成报告的其他工具或系统。为了便于汇总,这里存储执行结果的格式应该遵循某个统一的规范或标准,或是事先定义好的统一格式。
根据本发明一实施方式,其中,从监控任务列表中获取本节点的监控任务包括:从监控任务列表中获取一个任务;将该任务从监控任务列表中删除。
这里给出了一个建议的、从监控任务列表中获取本节点的监控任务的实现方式,即从监控任务列表中获取一个任务,然后将该任务从监控任务列表中删除。这里从监控任务列表中获取一个任务可以采取任何方式,比如总是取第一个任务,或总是取最后一个任务,甚至可以随机获取一个任务,获取该任务后即可从监控任务列表中删除该任务,以免其他节点会重复获取该任务。但这种实现方式的不足在于,因为会涉及到删除操作,必须保证数据的完整性和同步性,在实施删除时可能需要对该监控任务列表进行独占操作,这有可能会产生一些效率问题。
根据本发明一实施方式,其中,从监控任务列表中获取本节点的监控任务,包括:获取活跃节点数和本节点序号,其中本节点序号为依据特定规则对全部活跃节点进行排序后本节点所位于的序号;获取监控任务列表的任务数;根据本节点序号和任务数确定本节点是否能获取监控任务,其中,若本节点序号小于任务数,则从监控任务列表中获取下标位置与本节点序号对应的任务。
这里给出了另一个建议的、从监控任务列表中获取本节点的监控任务的实现方式,即获取活跃节点数和本节点序号,并根据这个序号、任务数和活跃节点数,从监控任务列表中获取本节点的监控任务。获取活跃节点数的途径可以是任何适用的方式,例如,由主控节点查询各个节点的状态得到全部活跃节点的状态汇总并存储到某个共享位置,比如存放任务列表的数据存储系统,供其他节点访问,也可以是本节点自行执行查询命令得到。而有些系统,可能本来已经维护有这样一个活跃节点汇总表,那么直接读取该汇总表即可。本节点的序号可以通过对全部活跃节点进行排序,然后使用本节点的唯一标识在该序列中查询获取本节点的序号即可,或是其他任何适用的方式。若本节点序号大于任务数,说明没有那么多监控任务需要执行,也没有与本节点序号对应的任务,此时,本节点不需要执行任何任务。
根据本发明一实施方式,其中,从监控任务列表中获取下标位置与本节点序号对应的任务,包括:创建本节点的监控任务子列表;将监控任务列表中下标位置与本节点序号的差为零的任务,和监控任务列表中下标位置与本节点序号的差为活跃节点数倍数的任务,逐一添加到本节点的监控任务子列表中;读取本节点的监控任务子列表获取监控任务列表中下标位置与本节点序号对应的任务。
举例说明如下,假设监控任务列表为:任务1,任务2,……,任务20。现有8个活跃节点,本节点的序号为4。首先,创建一个空的列表作为本节点的监控任务子列表,然后从监控任务列表中依次获取第4个任务(4-4=0)、第12个任务(12-4=8)和第20个任务(20-4=2*8)并添加到本节点的监控任务子列表,当获取第28个任务时已超出了监控任务列表的长度,任务结束。此时,本节点的监控任务子列表中的任务为:任务4、任务12和任务20。之后本节点就可以从监控任务子列表中读取并执行这些任务。
根据本发明实施例第二方面,一种分布式集群的监控方法,该方法应用于主控节点,包括:操作210,在数据存储系统中创建监控任务列表;操作220,将要执行的监控任务添加到监控任务列表中。
在操作210中,这里的数据存储系统是分布式集群系统中已经存在的数据存储系统,与分布式集群系统的主控节点、非主控节点网络互通,且可以被分布式集群的所有节点访问到。这里的数据存储系统可以是数据库,也可以是共享的文件系统或是配置系统,只要是可以存储数据且能被分布式集群的所有节点访问到即可。由于这里存放的信息是进行分布式集群监控的关键数据,推荐使用高可用的数据存储系统。这里的监控任务列表可以是数据库中的一个表,也可以是文件系统中的一个文件,或是配置系统中的一组配置信息。其中,监控任务列表是用于存储要执行的监控任务的,这里的监控任务不仅仅是收集本节点硬盘、CPU、内存等使用信息,还可以是对整个集群的监控,比如收集对象存储设备和池的使用信息和工作状态等等。
在操作220中,这里要执行的监控任务通常是各个节点都可以执行的任务。存储的形式通常是预定义好的,监控任务的描述也是各个节点都可以理解的统一格式的描述。原则上,这里的监控任务是任何一个节点都可执行的监控任务,并不需要特殊的权限或特定条件。且这里的监控任务应该是采用所有节点均可理解的方式统一定义的监控任务,任何节点拿到该监控任务都会按照相同的顺序执行相同的操作,得到的结果也应该是一样的。
根据本发明一实施方式,其中,该方法还包括:对监控任务的执行结果进行汇总得到汇总信息;根据汇总信息生成监控报告。
各非主控节点在执行完从监控任务列表获取的监控任务后,会将监控任务的执行结果存储到数据存储系统中。这里的执行结果包括执行时间、执行结果和操作日志等。存储执行结果时,可以基于原有的监控任务列表,用特定字段来存储每一任务对应的执行结果,也可以单独创建新的表、文件或配置来存储监控任务执行的结果。如果时单独创建新的表、文件或配置来存储监控任务执行的结果,还可以对监控任务进行分类,将相同类型监控任务的执行结果存储在一个表中以便分类汇总。
主控节点则可以从数据存储系统中读取上述任何方式存储的监控任务执行结果,并对某一时段或某一类型的监控任务进行汇总,并根据汇总信息生成监控报告。这里的监控报告可以是显示在分布式集群的管理系统中监控界面中的监控报告,也可以是主控节点将汇总信息发送给第三方报告工具,在第三方报告系统生成并显示的监控信息。
进一步地,本发明实施例还提供一种分布式集群的监控装置,该装置应用于非主控节点。如图3所示,该装置30包括:数据获取模块301,用于从数据存储系统中获取监控任务列表,其中数据存储系统用于收集监控信息且能被分布式集群的所有节点访问到;任务获取模块302,用于从监控任务列表中获取本节点的监控任务;任务执行模块303,用于执行监控任务;任务结果存储模块304,用于将监控任务的执行结果存储到数据存储系统中。
根据本发明一实施方式,其中,任务获取模块302包括:任务获取单元,用于从监控任务列表中获取一个任务;删除单元,用于将任务从监控任务列表中删除。
根据本发明一实施方式,其中,任务获取模块302包括:活跃节点获取单元,用于获取活跃节点数和本节点序号,其中本节点序号为依据特定规则对全部活跃节点进行排序后本节点所位于的序号;任务列表获取单元,用于获取监控任务列表的任务数;任务分配单元,用于根据本节点序号和任务数确定本节点是否能获取监控任务,其中,若本节点序号小于任务数,则从监控任务列表中获取下标位置与本节点序号对应的任务。
根据本发明一实施方式,其中,任务分配单元包括:本节点任务列表创建子单元,用于创建本节点的监控任务子列表;本节点任务列表添加子单元,用于将监控任务列表中下标位置与本节点序号的差为零的任务,和监控任务列表中下标位置与本节点序号的差为活跃节点数倍数的任务,逐一添加到本节点的监控任务子列表中;本节点任务列表获取子单元,用于读取本节点的监控任务子列表获取监控任务列表中下标位置与本节点序号对应的任务。
根据本发明实施例第四方面,提供一种分布式集群的监控装置,该装置应用于主控节点。如图4所示,该装置40包括:列表创建模块401,用于在数据存储系统中创建监控任务列表;监控任务添加模块402,用于将要执行的监控任务添加到监控任务列表中。
根据本发明一实施方式,其中,该装置40还包括:汇总模块,用于对监控任务的执行结果进行汇总得到汇总信息;报告生成模块,用于根据汇总信息生成监控报告。
根据本发明实施例第五方面,提供一种分布式集群的监控系统。如图5所示,该系统包括:主控节点40,用于执行本发明实施例应用于主控节点的、任一项分布式集群的监控方法;非主控节点30,用于执行本发明实施例应用于主控节点的、任一项分布式集群的监控的方法;数据存储系统50,用于存储监控任务列表和所述监控任务的执行结果。其中,该系统可以有至少一个非主控节点30。
如图5所示,所有节点,包括主控节点40和非主控节点30都与数据存储系统50网络相连并进行数据交换。其中,主控节点40会在数据存储系统50中创建监控任务列表,并将要执行的监控任务添加到监控任务列表中。而主控节点40也可以从数据存储系统50中读取其他非主控节点30存储的监控任务执行结果。而非主控节点30节点则从数据存储系统50中获取监控任务列表,并将执行监控任务的执行结果存储到所述数据存储系统50中。另一方面,在该系统中,节点之间并没有直接的交互和紧密的耦合关系,这样非常易于进行节点的自由伸缩和扩展,例如,新增一个新的节点,或是删除一个节点,甚至是将主控节点从一个节点切换到另一个节点都不会影响分布式集群的监控。
根据本发明实施例第六方面,提供一种计算机存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的分布式集群的监控方法。
这里需要指出的是:以上针对分布式集群的监控装置实施例的描述、以上针对分布式集群的监控系统实施例的描述和以上针对计算机存储介质实施例的描述,与前述方法实施例的描述是类似的,具有同前述方法实施例相似的有益效果,因此不做赘述。对于本发明实施例对分布式集群的监控装置实施例的描述、对分布式集群的监控系统实施例的描述和对计算机存储介质实施例的描述尚未披露的技术细节,请参照本发明前述方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储介质、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括:移动存储介质、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种分布式集群的监控方法,其特征在于,所述方法应用于非主控节点,所述方法包括:
从数据存储系统中获取监控任务列表,其中所述数据存储系统用于收集监控信息且能被所述分布式集群的所有节点访问到;
从所述监控任务列表中获取本节点的监控任务;
执行所述监控任务;
将所述监控任务的执行结果存储到所述数据存储系统中。
2.根据权利要求1所述的方法,其特征在于,所述从所述监控任务列表中获取本节点的监控任务包括:
从所述监控任务列表中获取一个任务;
将所述任务从所述监控任务列表中删除。
3.根据权利要求1所述的方法,其特征在于,所述从所述监控任务列表中获取本节点的监控任务,包括:
获取活跃节点数和本节点序号,其中所述本节点序号为依据特定规则对全部活跃节点进行排序后本节点所位于的序号;
获取所述监控任务列表的任务数;
根据所述本节点序号和所述任务数确定本节点是否能获取监控任务,其中,若所述本节点序号小于所述任务数,则从所述监控任务列表中获取下标位置与本节点序号对应的任务。
4.根据权利要求3所述的方法,其特征在于,所述从所述监控任务列表中获取下标位置与本节点序号对应的任务,包括:
创建本节点的监控任务子列表;
将所述监控任务列表中下标位置与所述本节点序号的差为零的任务,和所述监控任务列表中下标位置与所述本节点序号的差为所述活跃节点数倍数的任务,逐一添加到所述本节点的监控任务子列表中;
读取所述本节点的监控任务子列表获取监控任务列表中下标位置与本节点序号对应的任务。
5.一种分布式集群的监控方法,其特征在于,所述方法应用于主控节点,所述方法包括:
在所述数据存储系统中创建监控任务列表;
将要执行的监控任务添加到所述监控任务列表中。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
对所述监控任务的执行结果进行汇总得到汇总信息;
根据所述汇总信息生成监控报告。
7.一种分布式集群的监控装置,其特征在于,所述装置应用于非主控节点,所述装置包括:
数据获取模块,用于从数据存储系统中获取监控任务列表,其中所述数据存储系统用于收集监控信息且能被所述分布式集群的所有节点访问到;
任务获取模块,用于从所述监控任务列表中获取本节点的监控任务;
任务执行模块,用于执行所述监控任务;
任务结果存储模块,用于将所述监控任务的执行结果存储到所述数据存储系统中。
8.一种分布式集群的监控装置,其特征在于,所述装置应用于主控节点,所述装置包括:
列表创建模块,用于在所述数据存储系统中创建监控任务列表;
监控任务添加模块,用于将要执行的监控任务添加到所述监控任务列表中。
9.一种分布式集群的监控系统,其特征在于,所述系统包括:
主控节点,用于执行如权利要求5或6任一项所述的分布式集群的监控方法;
非主控节点,用于执行如权利要求1至4任一项所述的分布式集群的监控的方法;
数据存储系统,用于存储所述监控任务列表和所述监控任务的执行结果。
10.一种存储介质,在所述存储介质上存储了程序指令,其中,所述程序指令在运行时用于执行如权利要求1至6任一项所述的分布式集群的监控的方法。
CN202010079941.4A 2020-02-04 2020-02-04 一种分布式集群的监控方法、装置、系统及存储介质 Pending CN111324508A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010079941.4A CN111324508A (zh) 2020-02-04 2020-02-04 一种分布式集群的监控方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010079941.4A CN111324508A (zh) 2020-02-04 2020-02-04 一种分布式集群的监控方法、装置、系统及存储介质

Publications (1)

Publication Number Publication Date
CN111324508A true CN111324508A (zh) 2020-06-23

Family

ID=71168818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010079941.4A Pending CN111324508A (zh) 2020-02-04 2020-02-04 一种分布式集群的监控方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111324508A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104104723A (zh) * 2014-07-19 2014-10-15 福州大学 一种分布式协同监控系统
CN105100259A (zh) * 2015-08-18 2015-11-25 北京京东尚科信息技术有限公司 一种分布式定时任务执行方法和系统
CN107249029A (zh) * 2017-06-12 2017-10-13 上海优刻得信息科技有限公司 主动领取任务的方法、工作节点、系统及存储介质
CN109542595A (zh) * 2017-09-21 2019-03-29 阿里巴巴集团控股有限公司 一种数据采集方法、装置和系统
CN110019044A (zh) * 2017-12-15 2019-07-16 北京京东尚科信息技术有限公司 大数据集群准实时Yarn任务监控分析方法
CN110263098A (zh) * 2019-06-19 2019-09-20 北京百度网讯科技有限公司 应用于分布式作业引擎的分布式作业方法、系统以及装置
CN110516738A (zh) * 2019-08-23 2019-11-29 佳都新太科技股份有限公司 一种分布式比对聚类方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104104723A (zh) * 2014-07-19 2014-10-15 福州大学 一种分布式协同监控系统
CN105100259A (zh) * 2015-08-18 2015-11-25 北京京东尚科信息技术有限公司 一种分布式定时任务执行方法和系统
CN107249029A (zh) * 2017-06-12 2017-10-13 上海优刻得信息科技有限公司 主动领取任务的方法、工作节点、系统及存储介质
CN109542595A (zh) * 2017-09-21 2019-03-29 阿里巴巴集团控股有限公司 一种数据采集方法、装置和系统
CN110019044A (zh) * 2017-12-15 2019-07-16 北京京东尚科信息技术有限公司 大数据集群准实时Yarn任务监控分析方法
CN110263098A (zh) * 2019-06-19 2019-09-20 北京百度网讯科技有限公司 应用于分布式作业引擎的分布式作业方法、系统以及装置
CN110516738A (zh) * 2019-08-23 2019-11-29 佳都新太科技股份有限公司 一种分布式比对聚类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US10846137B2 (en) Dynamic adjustment of application resources in a distributed computing system
Wang et al. A simulation approach to evaluating design decisions in mapreduce setups
US6411982B2 (en) Thread based governor for time scheduled process execution
AU2014346369B2 (en) Managed service for acquisition, storage and consumption of large-scale data streams
US9858322B2 (en) Data stream ingestion and persistence techniques
US9276959B2 (en) Client-configurable security options for data streams
EP3069228B1 (en) Partition-based data stream processing framework
US20190213085A1 (en) Implementing Fault Domain And Latency Requirements In A Virtualized Distributed Storage System
WO2019006015A1 (en) STRATEGIES FOR HIERARCHICAL DELAY
JP6501916B2 (ja) ファイルストレージにおけるインデックス付け実施方法及びシステム
US10908834B2 (en) Load balancing for scalable storage system
WO2015070232A1 (en) Data stream ingestion and persistence techniques
CN107844274B (zh) 基于超融合存储系统的硬件资源管理方法、装置及终端
EP1060445A1 (en) System and method for distributed data collection, storage and propagation
CN112346829A (zh) 一种用于任务调度的方法及设备
CN113806066A (zh) 大数据资源调度方法、系统和存储介质
CN108616556B (zh) 数据处理方法、装置和系统
Weng et al. Kmon: An in-kernel transparent monitoring system for microservice systems with ebpf
CN115587118A (zh) 任务数据的维表关联处理方法及装置、电子设备
Mahgoub et al. Suitability of nosql systems—cassandra and scylladb—for iot workloads
Cejka et al. Java embedded storage for time series and meta data in Smart Grids
Shi et al. ByteSeries: an in-memory time series database for large-scale monitoring systems
Sato et al. Access-pattern and bandwidth aware file replication algorithm in a grid environment
Ghandeharizadeh et al. Gemini: a distributed crash recovery protocol for persistent caches
CN111324508A (zh) 一种分布式集群的监控方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200623