CN112115030A - 一种节点确定方法、装置、电子设备及存储介质 - Google Patents

一种节点确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112115030A
CN112115030A CN202011045368.1A CN202011045368A CN112115030A CN 112115030 A CN112115030 A CN 112115030A CN 202011045368 A CN202011045368 A CN 202011045368A CN 112115030 A CN112115030 A CN 112115030A
Authority
CN
China
Prior art keywords
index
node
nodes
computing
log data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011045368.1A
Other languages
English (en)
Other versions
CN112115030B (zh
Inventor
毕研儒
王家尧
吕灼恒
张晋锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Shuguang International Information Industry Co ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Dawning Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd, Dawning Information Industry Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN202011045368.1A priority Critical patent/CN112115030B/zh
Publication of CN112115030A publication Critical patent/CN112115030A/zh
Application granted granted Critical
Publication of CN112115030B publication Critical patent/CN112115030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种节点确定方法、装置、电子设备及存储介质。该方法包括:获取预设时间段内计算集群中各个计算节点的系统日志数据,系统日志数据中包括节点标识和对应的计算节点发生错误的指标名称;根据节点标识统计每个计算节点对应的各指标名称对应的系统日志数据的数量;根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定计算集群中的消极节点。本申请实施例中,由于不同指标名称对计算节点的性能影响不同,因此通过统计各个指标名称对应的系统日志数据的数量,从而能够高效地确定集群中各个计算节点的性能,进而获得消极节点。

Description

一种节点确定方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机集群技术领域,具体而言,涉及一种节点确定方法、装置、电子设备及存储介质。
背景技术
现如今,国内高性能计算机(High Performance Computing,HPC)相关厂商都在积极提高单台高性能计算机的计算能力。众所周知,现阶段的高性能计算机都是以集群的形式部署实施,也就是说由成千上万个计算节点组成,那么如何快速地将其计算量调整到峰值,成为了进一步抢占HPC市场份额的重要影响因素。
为了解决如上问题,领域内最频繁的解决方法就是优化集群的节点成分,也就是使用积极节点替换消极节点,使得集群中包括更多的积极节点,甚至集群中的节点都为积极节点,现有方案,判断积极节点与消极节点时,大都通过地毯式搜索法进行,由于集群中节点数量非常大,其搜索效率很低。
发明内容
本申请实施例的目的在于提供一种节点确定方法、装置、电子设备及存储介质,用以解决现有技术中从集群中确定消极节点的效率低的问题。
第一方面,本申请实施例提供一种节点确定方法,包括:获取预设时间段内计算集群中各个计算节点的系统日志数据,所述系统日志数据中包括节点标识和对应的计算节点发生错误的指标名称;根据所述节点标识统计每个计算节点对应的各指标名称对应的系统日志数据的数量;根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定所述计算集群中的消极节点;其中,指标名称对应的优先级用于表征对计算节点性能的影响程度,所述消极节点为性能不满足要求的计算节点。
本申请实施例中,由于不同的指标名称对计算节点性能的影响不同,因此可以通过从系统日志中获取计算节点发生错误的指标名称,并统计各个指标名称对应的系统日志数据的数量,从而能够高效地确定集群中各个计算节点的性能,进而获得消极节点。
进一步地,所述根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定所述计算集群中的消极节点,包括:获取指标列表,所述指标列表中包括多个指标名称以及每一指标名称对应的优先级;从所述指标列表中获取最高优先级的一个指标名称作为排序指标;统计每个计算节点对应的与排序指标对应的系统日志数据的数量;根据系统日志数据的数量对计算节点进行排序,获得目标节点序列;根据所述目标节点序列确定计算集群中的消极节点。
本申请实施例通过预先获取对计算节点的性能影响较大的指标名称,并对指标名称进行优先级排序,按照优先级的大小以及各计算节点对应的系统日志数据的数量对计算节点进行排序,不需要考虑所有的指标名称,从而提高了获取消极节点的效率。
进一步地,所述根据系统日志数据的数量对计算节点进行排序,获得目标节点序列,包括:若排序后获得的节点序列中包括排序并列的计算节点,则从所述指标列表中依次获取次高优先级的指标名称作为新的排序指标;获取依据上一优先级的排序结果对应的节点序列中排序并列的计算节点,并利用所述新的排序指标对所述排序并列的计算节点进行再次排序,直到获得的节点序列中不存在排序并列的计算节点为止,获得目标节点序列。
本申请实施例通过优先级从高到低获取指标名称作为排序指标,并利用排序指标对计算节点进行排序,直到节点序列中不存在排序并列的计算节点为止,从获得的目标节点序列中获取消极节点,能够准确地从目标节点序列中确定消极节点。
进一步地,所述根据系统日志数据的数量对计算节点进行排序,获得目标节点序列,包括:若排序后获得的节点序列中包括排序并列的计算节点,且所述排序并列的计算节点中有部分节点被划分为消极节点,则从所述指标列表中依次获取次高优先级的指标名称作为新的排序指标;获取依据上一优先级的排序结果对应的节点序列中排序并列的计算节点,并利用所述新的排序指标对所述排序并列的计算节点进行再次排序,直到获得的节点序列中不存在排序并列的计算节点被划分为消极节点的情况为止,获得目标节点序列。
本申请实施例中,不需要通过排序来为每个计算节点分配在序列中的位置,只要排序并列的计算节点不会有部分计算节点被划分为消极节点即可,从而减少了排序的次数,降低了功耗。
进一步地,所述目标节点序列根据按照指标名称的优先级由高到低,且对应的系统日志数据的数量由多到少对计算节点进行排序获得;所述根据所述目标节点序列确定计算集群中的消极节点,包括:将所述目标节点序列中位于最前的预设个数的计算节点作为消极计算节点。
进一步地,所述根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定所述计算集群中的消极节点,包括:根据各个指标名称对应的优先级确定对应指标名称的权重;根据指标名称的权重和指标名称对应的系统日志数据的数量获得对应计算节点的性能指标;根据各个计算节点的性能指标从中确定消极节点。
本申请实施例通过对各指标名称赋予对应的权重,根据权重和各个指标名称对应的系统日志数据数量计算对应计算节点的性能指标,根据性能指标可以快速地确定消极节点。
进一步地,所述根据各个计算节点的性能指标从中确定消极节点,包括:确定性能指标高于预设性能指标的计算节点为消极节点。
本申请实施例通过计算集群中计算节点的平均性能指标,从而可以量化的获得消极节点。
进一步地,所述根据各个计算节点的性能指标从中确定消极节点,包括:从性能指标最高的计算节点开始,将预设个数的计算节点作为消极节点。本申请实施例从性能指标最高的计算节点开始确定预设个数的消极节点,能够快速的获得消极节点。
进一步地,在获取预设时间段内高性能计算集群中各个计算节点的系统日志数据之后,所述方法,还包括:按照预设格式对所述系统日志数据进行格式化处理;对格式化处理后的日志数据进行存储。
第二方面,本申请实施例提供一种节点确定装置,包括:数据获取模块,用于获取预设时间段内计算集群中各个计算节点的系统日志数据,所述系统日志数据中包括节点标识和对应的计算节点发生错误的指标名称;统计模块,用于根据所述节点标识统计每个计算节点对应的各指标名称对应的系统日志数据的数量;节点确定模块,用于根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定所述计算集群中的消极节点;其中,指标名称对应的优先级用于表征对计算节点性能的影响程度,所述消极节点为性能不满足要求的计算节点。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法。
第四方面,本申请实施例提供一种非暂态计算机可读存储介质,包括:所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种节点确定方法流程示意图;
图2为本申请实施例提供的排序结果示意图;
图3为本申请实施例提供的另一种节点确定方法流程示意图;
图4为本申请实施例提供的节点确定装置结构示意图;
图5为本申请实施例提供的电子设备实体结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
图1为本申请实施例提供的一种节点确定方法流程示意图,如图1所示,该方法可以应用于终端设备(也可以称为电子设备)以及服务器;其中终端设备具体可以为智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assitant,PDA)等;服务器具体可以为应用服务器,也可以为Web服务器。该方法包括:
步骤101:获取预设时间段内计算集群中各个计算节点的系统日志数据,所述系统日志数据中包括节点标识和对应的计算节点发生错误的指标名称。
在具体的实施过程中,预设时间段可以是在当前时刻之前的历史时间段,例如可以是近一周,最近两周、最近一个月等,本申请实施例不对预设时间段的具体时长进行限定。终端设备可以定时采集集群中各个计算节点的系统日志数据(syslog),其中,每次采集时只采集增量数据,并且可以将采集到的系统日志数据存储起来。当需要确定集群中的消极节点时,从中获取预设时间段的系统日志数据。可以理解的是,系统日志数据中包括有多种参数信息,例如:产生该系统日志数据的计算节点的身份信息,即节点标识,以及计算节点在执行任务时发生错误时对应的指标名称,还可以包括系统日志数据产生的时间等。指标名称可以为:Bus Error、PowerPlay、Reset Error、ipc error、trace error、dram eccerror、network error、kernel error、snmp error、ipmi error等。
步骤102:根据所述节点标识统计每个计算节点对应的各指标名称对应的系统日志数据的数量。
在具体的实施过程中,不同指标名称的错误日志对计算机的性能影响不同,例如:某个计算节点生成的系统日志中包括了较多的优先级高的指标名称对应的错误,则说明该计算节点的性能较低。
为了统计各个计算节点的性能指标,可以通过统计各个计算节点产生的系统日志数据中,各个指标名称对应的系统日志数据的数量。可以理解的是,指标名称可以是集群中计算节点产生的系统日志数据中包括指标名称的并集;也可以是从众多个指标名称中预先设定的指标名称。例如:集群中包括三个计算节点,第一个计算节点产生的系统日志数据中对应的指标名称有指标A、指标B和指标D;第二个计算节点产生的系统日志数据中对应的指标名称有指标A和指标C;第三个计算节点产生的系统日志数据中对应的指标名称有指标B和指标E。对每个计算节点进行统计的指标名称包括:指标A、指标B、指标C、指标D和指标E;如果预先指定指标名称为:指标A、指标C和指标D,那么则统计这三个指标名称对应的系统日志数据的数量。
步骤103:根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定所述计算集群中的消极节点;其中,指标名称对应的优先级用于表征对计算节点性能的影响程度,所述消极节点为性能不满足要求的计算节点。
在具体的实施过程中,在对各个计算节点产生各个指标名称对应的系统日志数据的数量进行统计之后,由于不同优先级的指标名称对计算节点性能的影响程度不同,本申请实施例以优先级越高的指标名称对计算节点性能的影响越大进行说明,例如:两个计算节点中,第一个计算节点对应的系统日志数据中包括一条优先级最高的指标名称对应的日志数据,第二个计算节点对应的系统日志数据中包括一条优先级次高的指标名称对应的日志数据,则说明第一个计算节点的性能低于第二计算节点的性能。因此,根据指标名称对应的优先级以及指标名称对应的系统日志数据的数量可以对对应的计算节点的性能进行评估,从而可以从中确定消极节点。可以理解的是,指标优先级的高低对计算节点性能的影响可以根据实际情况进行预先设定,本申请实施例对此不作具体限定。
本申请实施例中,由于不同的指标名称对计算节点的性能影响不同,因此可以通过从系统日志数据中获取指标名称,并统计各个指标名称对应的系统日志数据的数量,从而能够高效地确定集群中各个计算节点的性能,进而获得消极节点。
在上述实施例的基础上,所述根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定所述计算集群中的消极节点,包括:
获取指标列表,所述指标列表中包括多个指标名称以及每一指标名称对应的优先级;
从所述指标列表中获取最高优先级的一个指标名称作为排序指标;
统计每个计算节点对应的与排序指标对应的系统日志数据的数量;
根据系统日志数据的数量对计算节点进行排序,获得目标节点序列;
根据所述目标节点序列确定计算集群中的消极节点。
在具体的实施过程中,指标列表中存储有预先设定的指标名称,以及各个指标名称对应的优先级。通过指标名称的优先级以及指标名称对应的系统日志数据的数量对各个计算节点进行排序。具体可以为:
假设指标列表中包括指标A、指标B和指标C,其中,优先级由高到低为:指标A、指标B和指标C。作为一种实施方式,通过最高优先级的指标名称便能够为计算节点进行排序,使其不存在并列的情况。表1为本申请实施例提供的集群节点以及指标名称对应的系统日志数据的数量。
表1
Figure BDA0002706713430000081
Figure BDA0002706713430000091
假设集群中包括4个计算节点,分别为:Node1、Node2、Node3和Node4。在对计算节点进行排序时,先从指标列表中获取最高优先级的一个指标名称作为排序指标,即指标A,Node1中指标A对应的系统日志数据的数量为3,Node2中指标A对应的系统日志数据的数量为10,Node3中指标A对应的系统日志数据的数量为7,Node4中指标A对应的系统日志数据的数量为6。根据指标A对应的系统日志数据的数量进行排序后,可以获得如下节点序列:Node2-Node3-Node4-Node1,该节点序列即为目标节点序列。
本申请实施例通过预先获取对计算节点的性能影响较大的指标名称,并对指标名称进行优先级排序,按照优先级的大小以及各计算节点对应的系统日志数据的数量对计算节点进行排序,不需要考虑所有的指标名称,从而提高了获取消极节点的效率。
在上述实施例的基础上,所述根据系统日志数据的数量对计算节点进行排序,获得目标节点序列,包括:
若排序后获得的节点序列中包括排序并列的计算节点,则从所述指标列表中依次获取次高优先级的指标名称作为新的排序指标;
获取依据上一优先级的排序结果对应的节点序列中排序并列的计算节点,并利用所述新的排序指标对所述排序并列的计算节点进行再次排序,直到获得的节点序列中不存在排序并列的计算节点为止,获得目标节点序列。
作为一种实施方式,在通过最高优先级对应的指标名称对计算节点进行排序后,可能存在排序并列的情况,表2为本申请实施例提供的集群节点以及指标名称对应的系统日志数据的数量。
表2
Figure BDA0002706713430000092
Figure BDA0002706713430000101
假设集群中包括4个计算节点,分别为:Node1、Node2、Node3和Node4。在对计算节点进行排序时,先从指标列表中获取最高优先级的一个指标名称作为排序指标,即指标A,Node1中指标A对应的系统日志数据的数量为3,Node2中指标A对应的系统日志数据的数量为10,Node3中指标A对应的系统日志数据的数量为7,Node4中指标A对应的系统日志数据的数量为7。根据指标A对应的系统日志数据的数量进行排序后,可以获得如下节点序列:Node2-Node3,Node4-Node1。
由上可知,Node3和Node4排在并列第二,需要对Node3和Node4进行再次排序。从指标列表中选择次高优先级的指标名称作为新的排序指标,即指标B,Node3中指标B对应的系统日志数据的数量为3,Node4中指标B对应的系统日志数据的数量为9,因此,将Node4排在Node3前面,获得的节点序列为:Node2-Node3-Node4-Node1。由于对计算节点都进行了排序,不存在并列的情况,因此,Node2-Node3-Node4-Node1即为目标节点序列。图2为本申请实施例提供的排序结果示意图,如图2所示。
应当说明的是,如果排序后获得的节点序列中没有并列的计算节点,则该节点序列为目标节点序列。如果指标列表中的指标名称均已经对计算节点进行排序,并且获得的节点序列中仍然有并列排序的计算节点,那么也将该节点序列作为目标节点序列。另外,本申请在对计算节点进行排序时是按照系统日志数据的数量由多到少进行排序的,在实际排序过程中,也可以按照由少到多进行排序。若按照由少到多进行排序,则第一轮排序后获得的节点序列为:Node1-Node3,Node4-Node2,经过第二轮排序后获得的节点序列为Node1-Node4-Node3-Node2。
在获得目标节点序列后,目标节点序列中计算节点的排序可以表征计算节点的性能高低,因此,可以通过目标节点序列获得作为消极节点的计算节点。例如:若目标节点序列是根据系统日志数据由多到少进行排序的,因此,可以将排在最前的预设个数的计算节点作为消极节点。其中,预设个数为预先设定的,若目标节点序列是根据系统日志数据的由少到多进行排序的,因此,可以将排在最后的预设个数的计算节点作为消极节点。其中,预设个数为预先设定的。
本申请实施例通过预先获取对计算节点的计算量影响较大的指标名称,并对指标名称进行优先级排序,按照优先级的大小以及各计算节点对应的系统日志数据的数量对计算节点进行排序,不需要考虑所有的指标名称,从而提高了获取消极节点的效率,并且使得结果更加可靠、准确、无遗漏。
在上述实施例的基础上,所述根据系统日志数据的数量对计算节点进行排序,获得目标节点序列,包括:
若排序后获得的节点序列中包括排序并列的计算节点,且所述排序并列的计算节点中有部分节点被划分为消极节点,则从所述指标列表中依次获取次高优先级的指标名称作为新的排序指标;
获取上一优先级对应的节点序列中,排序指标对应的系统日志数据数量相同的计算节点,利用所述新的排序指标对系统日志数据数量相同的计算节点进行排序,直到获得的节点序列中不存在排序并列的计算节点被划分为消极节点的情况为止,获得目标节点序列。
在具体的实施过程中,由于消极节点的个数可以预先设定,因此,在经过一轮排序后,计算节点中可能存在排序并列的情况,若排序并列的计算节点中全部都会被认为是消极节点,或者全部不会被认为是消极节点,则不需要对其再次进行排。以上述实施例获得的第一轮节点序列为例,节点序列为:Node2-Node3,Node4-Node1,若只需要从四个计算节点中获取1个计算节点作为消极节点,那么直接将Node2作为消极节点即可,因为Node3和Node4的排序并不会影响消极节点的确定;若需要从四个计算节点中确定2个计算节点作为消极节点,那么除了Node2为消极节点为,还需要从Node3和Node4中选择一个计算节点作为消极节点,为了能够准确地获得到消极节点,需要再次对上述的节点序列进行下一轮的排序,确定Node3和Node4在节点序列中的位置,假设下一轮的排序结果为:Node2-Node3-Node4-Node1,则Node2和Node3为消极节点。
本申请实施例不需要通过排序来为每个计算节点分配在序列中的位置,只要排序并列的计算节点不会有部分计算节点被划分为消极节点即可,从而减少了排序的次数,降低了功耗。在另一实施例中,所述根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定所述计算集群中的消极节点,包括:
根据各个指标名称对应的优先级确定对应指标名称的权重;
根据指标名称的权重和指标名称对应的系统日志数据的数量获得对应计算节点的性能指标;
根据各个计算节点的性能指标从中确定消极节点。
在具体的实施过程中,为不同优先级的指标名称设定对应的权重,例如,可以是优先级越高对应的权重越大。可以理解的是,确定权重的指标名称可以是计算节点产生的系统日志数据中对应的所有的指标名称,也可以是预先指定的指标名称。
根据指标名称的权重和指标名称对应的系统日志数据的数量可以获得对应计算节点的性能指标,具体可以是将每个指标名称对应的权重与对应的系统日志数据的数量相乘,获得一个数值,并将所有的指标名称对应的数值相加获得计算节点的性能指标。仍以上述Node1-Node4为例,并且设定指标A对应的权重为0.6,指标B对应的权重为0.3,指标C对应的权重为0.1,经过计算后获得Node1对应的性能指标为:7.1;Node2对应的性能指标为:7.1;Node3对应的性能指标为:5.9;Node4对应的性能指标为:7.7。
在获得计算节点的各个性能指标后,可以根据性能指标确定消极节点,具体的确定方法可以有如下方式:
(1)将高于预设性能指标的计算节点作为消极节点,其中预设性能指标为根据实际需要预先设定的性能指标,也可以是集群中计算节点对应的平均性能指标。以平均性能指标为例:计算平均性能指标,即将集群中所有的计算节点对应的性能指标进行加和求平均。将性能指标低于平均性能指标的计算节点作为消极节点,上例中平均性能指标为6.95;因此,Node1、Node2和Node4为消极节点。
(2)根据性能指标对集群中的计算节点进行排序,可以是根据性能指标的由高到低进行排序,也可以是根据性能指标的由低到高进行排序。从排序中,性能指标最高的计算节点开始,选取预设个数的计算节点作为消极节点。
本申请实施例通过对各指标名称赋予对应的权重,根据权重和各个指标名称对应的系统日志数据数量计算对应计算节点的性能指标,根据性能指标可以快速地确定消极节点。
在上述实施例的基础上,在获取预设时间段内高性能计算集群中各个计算节点的系统日志数据之后,所述方法,还包括:
按照预设格式对所述系统日志数据进行格式化处理;
对格式化处理后的日志数据进行存储。
在具体的实施过程中,由于获取到的系统日志数据中可能包括多种参数,且不同类型的系统日志数据可能包括的参数不同,但都包括节点标识、指标名称和日志产生的时间。为了规范化系统日志数据,在获取到系统日志数据后可以按照预设格式对其进行格式化处理,其中,预设格式可以是“节点标识-指标名称-时间”。将格式化处理后的日志数据存入到指定的数据库中,并对数据进行索引,可以理解的是,通过对日志数据进行格式化,便于存储系统按照定义的数据模型持久化数据。持久化是指将日志数据存储到磁盘或SSD等存储设备中,从而降低了日志数据丢失的风险。
图3为本申请实施例提供的另一种节点确定方法流程示意图,如图3所示。集群中包括多个计算节点,通过采集代理采集各个计算节点中的系统日志数据,然后将采集到的系统日志数据进行格式化处理,并将格式化处理后的数据进行存储并索引。其中,索引可以采用B+树,索引关键字为指标+节点,树中一个节点大小为512KB,与内存页大小相同;树的叶子节点存储“指标+节点+时间”数据,树的其他节点存储索引字段,即指标+节点。工作人员可以在终端设备上指定用来评价计算节点性能的指标名称,以及各个指标名称的优先级,并利用指标名称的优先级对预设时间段内的系统日志数据进行排序,从而从获得排序结果中确定消极节点。
本申请实施例通过对获得的数据进行格式化处理,便于后期统计各个指标名称对应的系统日志数据的数量。
图4为本申请实施例提供的节点确定装置结构示意图,该装置可以是电子设备上的模块、程序段或代码。应理解,该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括:数据获取模块401、统计模块402和节点确定模块403,其中:
数据获取模块401用于获取预设时间段内计算集群中各个计算节点的系统日志数据,所述系统日志数据中包括节点标识和对应的计算节点发生错误的指标名称;统计模块402用于根据所述节点标识统计每个计算节点对应的各指标名称对应的系统日志数据的数量;节点确定模块403用于根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定所述计算集群中的消极节点;其中,指标名称对应的优先级用于表征对计算节点性能的影响程度,所述消极节点为性能不满足要求的计算节点。
在上述实施例的基础上,节点确定模块403具体用于:
获取指标列表,所述指标列表中包括多个指标名称以及每一指标名称对应的优先级;
从所述指标列表中获取最高优先级的一个指标名称作为排序指标;
统计每个计算节点对应的与排序指标对应的系统日志数据的数量;
根据系统日志数据的数量对计算节点进行排序,获得目标节点序列;
根据所述目标节点序列确定计算集群中的消极节点。
在上述实施例的基础上,节点确定模块403具体用于:
若排序后获得的节点序列中包括排序并列的计算节点,则从所述指标列表中依次获取次高优先级的指标名称作为新的排序指标;
获取依据上一优先级的排序结果对应的节点序列中排序并列的计算节点,并利用所述新的排序指标对所述排序并列的计算节点进行再次排序,直到获得的节点序列中不存在排序并列的计算节点为止,获得目标节点序列。
在上述实施例的基础上,节点确定模块403具体用于:
若排序后获得的节点序列中包括排序并列的计算节点,且所述排序并列的计算节点中有部分节点被划分为消极节点,则从所述指标列表中依次获取次高优先级的指标名称作为新的排序指标;
获取依据上一优先级的排序结果对应的节点序列中排序并列的计算节点,并利用所述新的排序指标对所述排序并列的计算节点进行再次排序,直到获得的节点序列中不存在排序并列的计算节点被划分为消极节点的情况为止,获得目标节点序列。
在上述实施例的基础上,所述目标节点序列根据按照指标名称的优先级由高到低,且对应的系统日志数据的数量由多到少对计算节点进行排序获得;
在上述实施例的基础上,节点确定模块403具体用于:
将所述目标节点序列中位于最前的预设个数的计算节点作为消极计算节点。
在上述实施例的基础上,节点确定模块403具体用于:
根据各个指标名称对应的优先级确定对应指标名称的权重;
根据指标名称的权重和指标名称对应的系统日志数据的数量获得对应计算节点的性能指标;
根据各个计算节点的性能指标从中确定消极节点。
在上述实施例的基础上,节点确定模块403具体用于:
根据各个计算节点的性能指标确定平均性能指标;
确定性能指标高于平均性能指标的计算节点为消极节点。
在上述实施例的基础上,节点确定模块403具体用于:
从性能指标最高的计算节点开始,将预设个数的计算节点作为消极节点。
在上述实施例的基础上,该装置还包括数据处理模块,用于:
按照预设格式对所述系统日志数据进行格式化处理;
对格式化处理后的日志数据进行存储。
综上所述,本申请实施例中,由于不同的指标名称对计算节点性能的影响不同,因此可以通过从系统日志中获取计算节点发生错误时对应的指标名称,并统计各个指标名称对应的系统日志数据的数量,从而能够高效地确定集群中各个计算节点的性能,进而获得消极节点。
图5为本申请实施例提供的电子设备实体结构示意图,如图5所示,所述电子设备,包括:处理器(processor)501、存储器(memory)502和总线503;其中,
所述处理器501和存储器502通过所述总线503完成相互间的通信;
所述处理器501用于调用所述存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取预设时间段内计算集群中各个计算节点的系统日志数据,所述系统日志数据中包括节点标识和对应的计算节点发生错误的指标名称;根据所述节点标识统计每个计算节点对应的各指标名称对应的系统日志数据的数量;根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定所述计算集群中的消极节点;其中,指标名称对应的优先级用于表征对计算节点性能的影响程度,所述消极节点为性能不满足要求的计算节点。
处理器501可以是一种集成电路芯片,具有信号处理能力。上述处理器501可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器502可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)等。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取预设时间段内计算集群中各个计算节点的系统日志数据,所述系统日志数据中包括节点标识和对应的计算节点发生错误的指标名称;根据所述节点标识统计每个计算节点对应的各指标名称对应的系统日志数据的数量;根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定所述计算集群中的消极节点;其中,指标名称对应的优先级用于表征对计算节点性能的影响程度,所述消极节点为性能不满足要求的计算节点。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取预设时间段内计算集群中各个计算节点的系统日志数据,所述系统日志数据中包括节点标识和对应的计算节点发生错误的指标名称;根据所述节点标识统计每个计算节点对应的各指标名称对应的系统日志数据的数量;根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定所述计算集群中的消极节点;其中,指标名称对应的优先级用于表征对计算节点性能的影响程度,所述消极节点为性能不满足要求的计算节点。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种节点确定方法,其特征在于,包括:
获取预设时间段内计算集群中各个计算节点的系统日志数据,所述系统日志数据中包括节点标识和对应的计算节点发生错误的指标名称;
根据所述节点标识统计每个计算节点对应的各指标名称对应的系统日志数据的数量;
根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定所述计算集群中的消极节点;其中,指标名称对应的优先级用于表征对计算节点性能的影响程度,所述消极节点为性能不满足要求的计算节点。
2.根据权利要求1所述的方法,其特征在于,所述根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定所述计算集群中的消极节点,包括:
获取指标列表,所述指标列表中包括多个指标名称以及每一指标名称对应的优先级;
从所述指标列表中获取最高优先级的一个指标名称作为排序指标;
统计每个计算节点对应的与排序指标对应的系统日志数据的数量;
根据系统日志数据的数量对计算节点进行排序,获得目标节点序列;
根据所述目标节点序列确定计算集群中的消极节点。
3.根据权利要求2所述的方法,其特征在于,所述根据系统日志数据的数量对计算节点进行排序,获得目标节点序列,包括:
若排序后获得的节点序列中包括排序并列的计算节点,则从所述指标列表中依次获取次高优先级的指标名称作为新的排序指标;
获取依据上一优先级的排序结果对应的节点序列中排序并列的计算节点,并利用所述新的排序指标对所述排序并列的计算节点进行再次排序,直到获得的节点序列中不存在排序并列的计算节点为止,获得目标节点序列。
4.根据权利要求2所述的方法,其特征在于,所述根据系统日志数据的数量对计算节点进行排序,获得目标节点序列,包括:
若排序后获得的节点序列中包括排序并列的计算节点,且所述排序并列的计算节点中有部分节点被划分为消极节点,则从所述指标列表中依次获取次高优先级的指标名称作为新的排序指标;
获取依据上一优先级的排序结果对应的节点序列中排序并列的计算节点,并利用所述新的排序指标对所述排序并列的计算节点进行再次排序,直到获得的节点序列中不存在排序并列的计算节点被划分为消极节点的情况为止,获得目标节点序列。
5.根据权利要求2所述的方法,其特征在于,所述目标节点序列根据按照指标名称的优先级由高到低,且对应的系统日志数据的数量由多到少对计算节点进行排序获得;
所述根据所述目标节点序列确定计算集群中的消极节点,包括:
将所述目标节点序列中位于最前的预设个数的计算节点作为消极计算节点。
6.根据权利要求1所述的方法,其特征在于,所述根据各计算节点中,指标名称对应的优先级以及指标名称对应的系统日志数据的数量确定所述计算集群中的消极节点,包括:
根据各个指标名称对应的优先级确定对应指标名称的权重;
根据指标名称的权重和指标名称对应的系统日志数据的数量获得对应计算节点的性能指标;
根据各个计算节点的性能指标从中确定消极节点。
7.根据权利要求6所述的方法,其特征在于,所述根据各个计算节点的性能指标从中确定消极节点,包括:
确定性能指标低于预设性能指标的计算节点为消极节点;或
从性能指标最高的计算节点开始,将预设个数的计算节点作为消极节点。
8.根据权利要求1-7任一项所述的方法,其特征在于,在获取预设时间段内高性能计算集群中各个计算节点的系统日志数据之后,所述方法,还包括:
按照预设格式对所述系统日志数据进行格式化处理;
对格式化处理后的日志数据进行存储。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-8任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1-8任一项所述的方法。
CN202011045368.1A 2020-09-28 2020-09-28 一种节点确定方法、装置、电子设备及存储介质 Active CN112115030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011045368.1A CN112115030B (zh) 2020-09-28 2020-09-28 一种节点确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011045368.1A CN112115030B (zh) 2020-09-28 2020-09-28 一种节点确定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112115030A true CN112115030A (zh) 2020-12-22
CN112115030B CN112115030B (zh) 2023-12-19

Family

ID=73797157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011045368.1A Active CN112115030B (zh) 2020-09-28 2020-09-28 一种节点确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112115030B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300404A1 (en) * 2008-05-29 2009-12-03 Internatinal Business Machines Corporation Managing Execution Stability Of An Application Carried Out Using A Plurality Of Pluggable Processing Components
CN107590008A (zh) * 2017-08-02 2018-01-16 中国科学院计算技术研究所 一种通过加权熵判断分布式集群可靠度的方法和系统
CN109408640A (zh) * 2018-11-02 2019-03-01 东软集团股份有限公司 日志分类方法、装置及存储介质
CN110543410A (zh) * 2019-09-05 2019-12-06 曙光信息产业(北京)有限公司 一种处理集群指标的方法、查询集群指标的方法和装置
CN111625419A (zh) * 2020-05-15 2020-09-04 浪潮电子信息产业股份有限公司 一种日志采集方法、系统、设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300404A1 (en) * 2008-05-29 2009-12-03 Internatinal Business Machines Corporation Managing Execution Stability Of An Application Carried Out Using A Plurality Of Pluggable Processing Components
CN107590008A (zh) * 2017-08-02 2018-01-16 中国科学院计算技术研究所 一种通过加权熵判断分布式集群可靠度的方法和系统
CN109408640A (zh) * 2018-11-02 2019-03-01 东软集团股份有限公司 日志分类方法、装置及存储介质
CN110543410A (zh) * 2019-09-05 2019-12-06 曙光信息产业(北京)有限公司 一种处理集群指标的方法、查询集群指标的方法和装置
CN111625419A (zh) * 2020-05-15 2020-09-04 浪潮电子信息产业股份有限公司 一种日志采集方法、系统、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN112115030B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN108683530B (zh) 多维度数据的数据分析方法、装置及存储介质
CN109587008B (zh) 检测异常流量数据的方法、装置及存储介质
CN112800095B (zh) 一种数据处理方法、装置、设备及存储介质
US20070025389A1 (en) Abnormality indicator of a desired group of resource elements
WO2020220646A1 (zh) 基于分布式存储系统的数据存储方法、存储节点及介质
KR102141083B1 (ko) 데이터베이스 시스템의 최적화 방법, 시스템, 전자장치 및 저장매체
EP4033440A1 (en) Consensus method, apparatus and device of block chain
CN111651595A (zh) 一种异常日志处理方法及装置
CN111460011A (zh) 页面数据展示方法、装置、服务器及存储介质
CN108845927B (zh) 一种测试用例的筛选方法及装置
CN111061588A (zh) 一种定位数据库异常来源的方法及装置
CN112465321B (zh) 一种任务分析方法、装置、设备及存储介质
CN117130851B (zh) 一种高性能计算集群运行效率评价方法及系统
CN109800085A (zh) 资源配置的检测方法、装置、存储介质和电子设备
CN113326064A (zh) 划分业务逻辑模块的方法、电子设备及存储介质
CN112115030B (zh) 一种节点确定方法、装置、电子设备及存储介质
CN110515974B (zh) 数据抽取方法、装置、计算机设备和存储介质
CN117170894A (zh) 基于实时计算的事件中心管理方法和装置
CN111783883A (zh) 一种异常数据的检测方法及装置
CN111784173A (zh) Ab实验数据处理方法、装置、服务器及介质
CN113225218A (zh) 一种话单质量的核查方法和装置
CN112860763B (zh) 实时流数据处理方法、装置、计算机设备和存储介质
CN112148491B (zh) 数据处理方法及装置
CN116127149B (zh) 图数据库集群健康度的量化方法和系统
CN115001147B (zh) 一种光伏发电数据采集方法、系统及云平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240401

Address after: 266100 room 211, area a, software park, 169 Songling Road, Laoshan District, Qingdao City, Shandong Province

Patentee after: Zhongke Shuguang International Information Industry Co.,Ltd.

Country or region after: China

Address before: Building 36, yard 8, Dongbei Wangxi Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.

Country or region before: China

Patentee before: DAWNING INFORMATION INDUSTRY Co.,Ltd.

TR01 Transfer of patent right