CN114726862A - 基于状态监控芯片确定计算节点运行状态的方法及系统 - Google Patents

基于状态监控芯片确定计算节点运行状态的方法及系统 Download PDF

Info

Publication number
CN114726862A
CN114726862A CN202210533781.5A CN202210533781A CN114726862A CN 114726862 A CN114726862 A CN 114726862A CN 202210533781 A CN202210533781 A CN 202210533781A CN 114726862 A CN114726862 A CN 114726862A
Authority
CN
China
Prior art keywords
node
computing node
time unit
computing
load
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210533781.5A
Other languages
English (en)
Other versions
CN114726862B (zh
Inventor
王嘉诚
张少仲
张栩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongcheng Hualong Computer Technology Co Ltd
Original Assignee
Zhongcheng Hualong Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongcheng Hualong Computer Technology Co Ltd filed Critical Zhongcheng Hualong Computer Technology Co Ltd
Priority to CN202210533781.5A priority Critical patent/CN114726862B/zh
Publication of CN114726862A publication Critical patent/CN114726862A/zh
Application granted granted Critical
Publication of CN114726862B publication Critical patent/CN114726862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了基于状态监控芯片确定计算节点运行状态的方法及系统,涉及芯片应用技术领域,其中方法包括:在当前时间单元结束时,从数据处理系统的每个计算节点内置的状态监控芯片接收计算节点的负载信息并解析,以获取当前时间单元内的处理器负载率;基于处理器负载率,确定所述数据处理系统的负载均衡参数;当所述负载均衡参数大于均衡参数阈值时,促使每个计算节点内置的状态监控芯片上传节点运行信息,并获取每个计算节点的节点配置信息;以及基于所述节点配置信息和节点运行信息,确定每个计算节点的运行状态。本发明能够有效地均衡负荷以及减少信息存储容量,避免现有技术服务器负载过大、存储量大等问题。

Description

基于状态监控芯片确定计算节点运行状态的方法及系统
技术领域
本发明涉及芯片应用技术领域,并且更具体地,涉及基于状态监控芯片确定计算节点运行状态的方法及系统、计算机可读存储介质以及电子设备。
背景技术
目前,在云计算或云服务领域,通常利用多个计算节点协同计算或处理与海量数据相关的计算任务。为此,需要利用服务器对每个计算节点的状态进行监控,以根据计算节点的状态来分配计算任务。然而,由于计算节点的数量较多,并且为了进行状态监控,用于状态监控的服务器需要实时获取每个计算节点的运行状态,这种情况下造成了用于状态监控的服务器的负载过大并且容易出现故障。
此外,用于状态监控的服务器通常仅确定计算节点的瞬时状态,然而这种瞬时状态有时无法体现计算节点的近期的实际运行状态。例如,特定计算节点的处理速度突然提升,然而其处理速度长期处于较低水平。
由此可知,为了更好地提升云计算或云服务的数据处理能力,需要更为有效地确定计算节点的运行状态。
为了确定计算节点进行状态监控,用于状态监控的服务器还需要存储每个计算节点的大量运行信息,这种情况也会造成用于状态监控的服务器的负载过大,且要求的存储容量更大。
发明内容
本发明提出了一种基于状态监控芯片确定计算节点运行状态的方法,所述方法包括:
在当前时间单元结束时,从数据处理系统的多个计算节点中的每个计算节点内置的状态监控芯片接收计算节点的负载信息;
对每个计算节点的负载信息进行解析,以获取每个计算节点在当前时间单元内的处理器负载率;
基于每个计算节点在当前时间单元内的处理器负载率,确定所述数据处理系统的负载均衡参数;
当所述负载均衡参数大于均衡参数阈值时,促使每个计算节点内置的状态监控芯片上传节点运行信息,并从预先存储的节点配置文件中获取每个计算节点的节点配置信息;以及
基于所述节点配置信息和节点运行信息,确定每个计算节点的运行状态。
本发明还提出了一种基于状态监控芯片确定计算节点运行状态的系统,所述系统包括:
接收装置,用于在当前时间单元结束时,(服务器)从数据处理系统的多个计算节点中的每个计算节点内置的状态监控芯片接收计算节点的负载信息;
解析装置,用于对每个计算节点的负载信息进行解析,以获取每个计算节点在当前时间单元内的处理器负载率;
第一确定装置,用于基于每个计算节点在当前时间单元内的处理器负载率,确定所述数据处理系统的负载均衡参数;
获取装置,用于当所述负载均衡参数大于均衡参数阈值时,促使每个计算节点内置的状态监控芯片上传节点运行信息,并从预先存储的节点配置文件中获取每个计算节点的节点配置信息;以及
第二确定装置,基于所述节点配置信息和节点运行信息,确定每个计算节点的运行状态。
本发明还提出了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行基于状态监控芯片确定计算节点运行状态的方法。
本发明还提出了一种电子设备,其特征在于,所述电子设备包括:处理器和存储器;其中,
所述存储器,用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现基于状态监控芯片确定计算节点运行状态的方法。
本发明能够有效地均衡负荷,避免服务器负载过大,以及减少信息存储容量。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的基于状态监控芯片确定计算节点运行状态的方法的流程图;
图2为根据本发明实施方式的数据处理系统的结构示意图;
图3为根据本发明实施方式的基于状态监控芯片确定计算节点运行状态的系统的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明实施方式的基于状态监控芯片确定计算节点运行状态的方法的流程图,其中方法包括:
步骤101,在当前时间单元结束时,由服务器(例如,任务管理服务器、状态监控服务器、任务处理服务器或数据服务器等),从数据处理系统的多个计算节点中的每个计算节点内置的状态监控芯片接收计算节点的负载信息。
在一个实施例中,还包括,预先将每个自然日划分为多个时间单元,并且促使每个计算节点内置的状态监控芯片以时间单元为进行信息记录的时间间隔,记录计算节点的负载信息。例如,预先将每个自然日划分为24个时间单元,即每个小时为一个时间单元。在这种情况下,每个时间单元的时间长度是相同的。在另外的情况下,每个时间单元的时间长度可以不同。例如,0时至6时为1个时间单元,6时至17时的每个小时为一个时间单元,17时至22时每半个小时为一个时间单元,以及22时至24时的每个小时为一个时间单元。应当了解的是,时间单元的时间长度可以相同或不同。在时间上,与当前时间最近的时间单元可以被认为是当前时间单元,在当前时间单元之前的时间单元为之前的时间单元。例如,时间单元A、时间单元B、时间单元C、……、当前时间单元,是在时间上连续的时间单元。
在一个实施例中,还包括,每个计算节点内置的状态监控芯片获取计算节点在每秒的处理器实时负载率,并在当前时间单元结束时,基于当前时间单元内每秒的处理器实时负载率确定计算节点在当前时间单元内的处理器负载率,其中当前时间单元内的处理器负载率为当前时间单元内每秒的处理器实时负载率的平均值。例如,计算节点A内置的状态监控芯片欧获取计算节点A在时间单元A内每秒的处理器实时负载率。例如,第1秒负载率为85%、第2秒负载率为86%、第3秒负载率为80%、……、第n秒(时间单元A的最后1秒)的负载率为56%,那么将时间单元A内每秒的处理器实时负载率的平均值作为时间单元A内的处理器负载率。
优选地,在基于当前时间单元内每秒的实时负载率确定计算节点在当前时间单元内的处理器负载率后,将处理器负载率和计算节点的标识符封装为负载信息。即,负载信息中包括计算节点的标识符和处理器负载率。计算节点的标识符用于唯一地标识计算节点。
步骤102,对每个计算节点的负载信息进行解析,以获取每个计算节点在当前时间单元内的处理器负载率。其中,对每个计算节点的负载信息进行解析,以获取每个计算节点在当前时间单元内的处理器负载率,包括:对每个计算节点的负载信息进行解析,以获取计算节点的标识符和在当前时间单元内的处理器负载率,从而确定每个计算节点在当前时间单元内的处理器负载率。例如,根据计算节点的标识符确定负载信息是归属于哪个计算节点。优选地,例如,当前的时间单元为18:30至19:00,那么在例如,在19:01时,由服务器,从数据处理系统的多个计算节点中的每个计算节点内置的状态监控芯片接收计算节点的负载信息。虽然时间已经到了19:01,但当前的时间单元仍然是18:30至19:00。
步骤103,基于每个计算节点在当前时间单元内的处理器负载率,确定所述数据处理系统的负载均衡参数。
在一个实施例中,基于每个计算节点在当前时间单元内的处理器负载率,确定所述数据处理系统的负载均衡参数,包括:确定计算节点的节点数量N和分组参数g,计算样本参数f=⌊ N/g⌋,其中100≤N并且5≤g。即样本参数为N除以g的结果向下取整后的结果。其中,⌊ ⌋为向下取整符号。通常N大于或等于100、50、200等任意合理数值。此外,分组参数可以被认为是将计算节点进行分组的组数,例如,g可以大于或等于5、8、10等。
按照处理器负载率的降序顺序,对多个计算节点进行排序,从而生成排序列表,计算所述数据处理系统内每个计算节点的第一平均处理器负载率P1。图2为根据本发明实施方式的数据处理系统的结构示意图。数据处理系统中包括多个计算节点201-1、201-2、……、201-n和服务器(例如,任务管理服务器、状态监控服务器、任务处理服务器或数据服务器等)202。每个计算节点至少包括:状态监控芯片、数据处理单元(例如,包括处理器、外部存储器、内存、缓存等)和通信器件。
例如,排序列表为:计算节点201-1的处理器负载率85%、计算节点201-2的处理器负载率83%、计算节点201-3的处理器负载率82%、计算节点201-4的处理器负载率81%、.......、计算节点201-n-3的处理器负载率47%、计算节点201-n-2的处理器负载率46%、计算节点201-n-1的处理器负载率43%、计算节点201-n的处理器负载率41%,那么第一平均处理器负载率P1为计算节点201-1、201-2、201-3、201-4、.....、201-n-3、201-n-2、201-n-1和201-n的处理器负载率的平均值。
将所述排序列表中处理器负载率最大的f个计算节点构成第一计算节点集合,并且将所述排序列表中处理器负载率最小的f个计算节点构成第二计算节点集合。例如,样本参数f为3,那么第一计算节点集合中包括计算节点201-1、计算节点201-2和计算节点201-3。第二计算节点集合中包括:计算节点201-n-2、计算节点201-n-1和计算节点201-n。
确定第一计算节点集合中每个计算节点(计算节点201-1、计算节点201-2和计算节点201-3)的第二平均处理器负载率P2,确定第二计算节点集合(计算节点201-n-2、计算节点201-n-1和计算节点201-n)中每个计算节点的第三平均处理器负载率P3。
优选地,本申请利用负载均衡参数来确定数据处理系统中多个计算节点的负载、数据任务或计算任务的负载平衡程度,为此确定所述数据处理系统的负载均衡参数L,
Figure 304257DEST_PATH_IMAGE001
其中,a为调节参数,a例如为0.2、0.3、0.4、0.5、0.6等任意合理数值。P2-P3≤a时,说明第二平均处理器负载率和第三平均处理器负载率之间的差值较小,数据处理系统的负载较为均衡,为此采用差值比例来确定负载均衡参数L。当a<P2-P3时,说明第二平均处理器负载率和第三平均处理器负载率之间的差值较大,数据处理系统的负载可能不均衡,为此采用叠加法来确定整体的处理器负载率是否处于较高水平,如果是,则需要继续负载均衡处理,而如果虽然第二平均处理器负载率和第三平均处理器负载率之间的差值较大,但整体的处理器负载率处于较低水平,也无需继续负载均衡处理。
步骤104,当所述负载均衡参数大于均衡参数阈值时,促使每个计算节点内置的状态监控芯片上传节点运行信息,并从预先存储的节点配置文件中获取每个计算节点的节点配置信息。
在一个实施例中,其中,当所述负载均衡参数大于均衡参数阈值时,促使每个计算节点内置的状态监控芯片上传节点运行信息,包括:
当所述负载均衡参数大于均衡参数阈值时,向每个计算节点发送数据上传指示消息,以促使每个计算节点内置的状态监控芯片通过计算节点的通信器件上传节点运行信息。例如,均衡参数阈值为0.8、0.9,1、1.1等任意合理数值。当所述负载均衡参数大于均衡参数阈值时,确定需要在数据处理系统中继续负载均衡处理。当所述负载均衡参数小于或等于均衡参数阈值时,则确定不需要在数据处理系统中继续负载均衡处理。为此,当所述负载均衡参数小于或等于均衡参数阈值时,不向每个计算节点发送数据上传指示消息。
其中节点运行信息包括:每个时间单元内的输入输出量IO(Input Output)的统计信息、每天处理的数据任务的数量的统计信息以及每个时间单元内的数据缓存占用率的平均值的统计信息。
状态监控芯片对计算节点在每个时间单元的每秒输入输出量IOPS进行统计,以获取每个时间单元的输入输出量的统计信息;其中时间单元的输入输出量为时间单元内每秒输入输出量IOPS的平均值。
所述状态监控芯片对计算节点每天处理的数据任务的数量进行统计,以获得每天处理的数据任务的数量的统计信息。
所述状态监控芯片对计算节点在每个时间单元内的数据缓存占用率的平均值进行统计,以获取每个时间单元内的数据缓存占用率的平均值的统计信息,其中状态监控芯片获取每个时间单元内的每秒的数据缓存占用率,将每秒的数据缓存占用率的平均值作为数据缓存占用率的平均值。
在一个实施例中,还包括,获取每个计算节点的节点配置信息,并将每个计算节点的节点配置信息存储在节点配置文件中。其中所述节点配置信息包括:总存储容量(例如,存储器或硬盘的总存储容量)、高速缓冲存储器容量(cache的容量)、处理器数量(独立的处理器的数量,不是处理器的核心数)、每个处理器的最优并发进程的数量(在最优并发进程的数量下,处理器或多个处理器的性能最高)和每个处理器的最大并发进程的数量(处理器所能开启的最大并发进程的数量)。在本申请中,每个计算节点可以包括多个处理器,每个处理器的最优并发进程的数量相同,并且每个处理器的最大并发进程的数量相同。高速缓冲存储器是存在于主存储器(内存或缓存)与处理器CPU之间的一级存储器,由静态存储芯片(SRAM)组成,容量比较小但速度比主存存储器高得多。
步骤105,基于所述节点配置信息和节点运行信息,确定每个计算节点的运行状态,包括:
基于节点配置信息,确定每个计算节点的第一处理系数CAi;基于节点运行信息,确定每个计算节点的第二处理系数CBi;根据第一处理系数和第二处理系数,确定计算节点的运行状态。
优选地,所述基于节点配置信息,确定每个计算节点的第一处理系数CAi;包括:
基于节点配置信息,确定每个计算节点的总存储容量Ci、高速缓冲存储器容量RCi、处理器数量Pi、最优并发进程的数量PRi和最大并发进程的数量PRMi;其中1≤i≤n,n为计算节点的数量并且n大于或等于10;
基于以下公式计算确定每个计算节点的第一处理系数:
Figure 814872DEST_PATH_IMAGE002
其中CAi为第i个计算节点的第一处理系数,Ci为第i个计算节点的总存储容量,RCi为第i个计算节点的高速缓冲存储器容量,Pi为第i个计算节点的处理器数量,RCma为所有计算节点中高速缓冲存储器容量的最大值,RCmn为所有计算节点中高速缓冲存储器容量的最小值,PRi为第i个计算节点的处理器的最优并发进程的数量,PRMi为第i个计算节点的处理器的最大并发进程的数量,其中α和β均为调整系数,α可以为0.3、0.5、0.7、0.9、1、1.1、1.5等任意合理数值。β可以为0.3、0.5、0.7、0.9、1、1.1、1.5等任意合理数值。
计算节点的总存储容量Ci是衡量计算节点相比其它计算节点(例如,均值)是否占优的重要参数,并且计算节点的高速缓冲存储器容量距离高速缓冲存储器容量的最小值的差值是也是衡量计算节点相比其它计算节点是否占优的重要参数。为此,通过大量数据计算,为这两个重要参数确定计算关系,并且通过α和β的参数取值来适配不同的计算场景。最大并发进程的数量和最优并发进程的数量之间的差值是衡量处理器可以承担额外计算任务、负载或数据任务的能力的指标。总存储容量例如是外部存储器(不是内存)、硬盘等的总存储容量。
可替换地,节点配置信息包括处理器数量Pi,基于节点配置信息,确定每个计算节点的第一处理系数CAi包括:
Figure 63451DEST_PATH_IMAGE003
其中CAi为第i个计算节点的第一处理系数,Pi为第i个计算节点的处理器数量。
在一个实施例中,基于节点运行信息,确定每个计算节点的第二处理系数,包括:
基于节点运行信息中每个计算节点的每个时间单元的输入输出量的统计信息、每天处理的数据任务的数量的统计信息以及每个时间单元内的数据缓存占用率的平均值的统计信息,确定每个计算节点的每个时间单元的输入输出量IOij,每天处理的数据任务的数量TAik,以及每个时间单元内的数据缓存占用率的平均值POij;其中1≤j≤m,n为时间单元的数量,其中1≤k≤s,s为天数;
基于以下公式计算每个计算节点的第二处理系数:
Figure 52136DEST_PATH_IMAGE004
其中CBi为第i个计算节点的第二处理系数,IOij为第i个计算节点在第j个时间单元内的输入输出量;TAik为第i个计算节点在第k天内处理的数据任务的数量;以及POij为第i个计算节点在第j个时间单元内的数据缓存占用率的平均值;其中1≤i≤n,n为计算节点的数量并且n大于或等于10;其中1≤j≤m,m为时间单元的数量并且m大于或等于5。
每个时间单元的输入输出量用于表征计算节点的I/O处理量,可以体现负载状态或处理能力。每天处理的数据任务的数量可以体现计算节点所承担的数据任务的能力以及每个时间单元内的数据缓存占用率的平均值可以体现计算节点处理数据任务时所付出的资源代价。数据缓存可以指内存、主存储器或用于数据缓存的存储器。
1≤k≤s,s为天数,并且s大于或等于20。
可替换地,节点运行信息包括:每天处理的数据任务的数量TAik,基于节点运行信息,确定每个计算节点的第二处理系数包括:
Figure 335350DEST_PATH_IMAGE005
其中1≤i≤n,n为计算节点的数量并且n大于或等于10
1≤k≤s,s为天数,并且s大于或等于20。
其中,根据第一处理系数和第二处理系数,确定计算节点的运行状态,包括:基于计算节点的第一处理系数CAi和第二处理系数CBi,确定计算节点的任务处理系数:
Figure 751287DEST_PATH_IMAGE006
其中d1为第一调节系数,d2为第二调节系数。基于计算节点的任务处理系数确定计算节点的运行状态。其中d1可以为0.2、0.5、0.7、0.8,并且d1可以为0.2、0.5、0.7、0.8。
在一个实施例中,其中基于计算节点的任务处理系数确定计算节点的运行状态,包括:按照任务处理系数的降序顺序对计算节点进行排序,以获得计算节点的排序列表;将预定的排序位置的计算节点任务处理系数选择作为选定任务处理系数,将任务处理系数大于或等于选定任务处理系数的计算节点的运行状态确定为低负荷运行状态;将任务处理系数小于选定任务处理系数的计算节点的运行状态确定为高负荷运行状态。例如,任务处理系数的降序顺序对100计算节点进行排序,以获得计算节点的排序列表。例如预定的排序位置为100/4=25。排序列表中,将第25个计算节点任务处理系数(例如,1.1)选择作为选定任务处理系数。将任务处理系数大于或等于选定任务处理系数的计算节点的运行状态确定为低负荷运行状态,或将排序位置在预定的排序位置之前(包括)的计算节点确定为低负荷运行状态。将任务处理系数小于选定任务处理系数1.1的计算节点的运行状态确定为高负荷运行状态,或将排序位置在预定的排序位置之后(不包括)的计算节点确定为高负荷运行状态。
在基于所述节点配置信息和节点运行信息,确定每个计算节点的运行状态之后,还包括:将新的数据任务分配给运行状态为低负荷运行状态的计算节点。例如,在当前的时间单元的下一个时间单元内,将新的数据任务按次序轮询分配给运行状态为低负荷运行状态的计算节点。在当前的时间单元的下一个时间单元内,将新的数据任务按随机分配给运行状态为低负荷运行状态的计算节点。
图3为根据本发明实施方式的基于状态监控芯片确定计算节点运行状态的系统的结构示意图,系统包括:
接收装置301,用于在当前时间单元结束时,(服务器)从数据处理系统的多个计算节点中的每个计算节点内置的状态监控芯片接收计算节点的负载信息。用于促使每个计算节点内置的状态监控芯片获取计算节点在每秒的处理器实时负载率,并在当前时间单元结束时,基于当前时间单元内每秒的处理器实时负载率确定计算节点在当前时间单元内的处理器负载率,其中当前时间单元内的处理器负载率为当前时间单元内每秒的处理器实时负载率的平均值。在基于当前时间单元内每秒的实时负载率确定计算节点在当前时间单元内的处理器负载率后,将处理器负载率和计算节点的标识符封装为负载信息。
解析装置302,用于对每个计算节点的负载信息进行解析,以获取每个计算节点在当前时间单元内的处理器负载率。具体地,对每个计算节点的负载信息进行解析,以获取计算节点的标识符和在当前时间单元内的处理器负载率,从而确定每个计算节点在当前时间单元内的处理器负载率。
第一确定装置303,用于基于每个计算节点在当前时间单元内的处理器负载率,确定所述数据处理系统的负载均衡参数,具体用于:
确定计算节点的节点数量N和分组参数g,计算样本参数f=⌊ N/g⌋,其中100≤N并且5≤g;先计算N/g的结果,然后对N/g的结果进行向下取整,将向下取整的结果作为样本参数f的值。
按照处理器负载率的降序顺序,对多个计算节点进行排序,从而生成排序列表,计算所述数据处理系统内每个计算节点的第一平均处理器负载率P1;
将所述排序列表中处理器负载率最大的f个计算节点构成第一计算节点集合,并且将所述排序列表中处理器负载率最小的f个计算节点构成第二计算节点集合;
确定第一计算节点集合中每个计算节点的第二平均处理器负载率P2,确定第二计算节点集合中每个计算节点的第三平均处理器负载率P3;
确定所述数据处理系统的负载均衡参数L,
Figure 487162DEST_PATH_IMAGE007
其中,a为调节参数。
获取装置304,用于当所述负载均衡参数大于均衡参数阈值时,促使每个计算节点内置的状态监控芯片上传节点运行信息,并从预先存储的节点配置文件中获取每个计算节点的节点配置信息。
获取装置304,用于当所述负载均衡参数大于均衡参数阈值时,向每个计算节点发送数据上传指示消息,以促使每个计算节点内置的状态监控芯片通过计算节点的通信器件上传节点运行信息;
所述节点运行信息包括:每个时间单元内的输入输出量的统计信息、每天处理的数据任务的数量的统计信息以及每个时间单元内的数据缓存占用率的平均值的统计信息。
获取装置304,用于促使所述状态监控芯片对计算节点在每个时间单元的每秒输入输出量IOPS进行统计,以获取每个时间单元的输入输出量的统计信息;其中时间单元的输入输出量为时间单元内每秒输入输出量IOPS的平均值;
所述状态监控芯片对计算节点每天处理的数据任务的数量进行统计,以获得每天处理的数据任务的数量的统计信息;
所述状态监控芯片对计算节点在每个时间单元内的数据缓存占用率的平均值进行统计,以获取每个时间单元内的数据缓存占用率的平均值的统计信息,其中状态监控芯片获取每个时间单元内的每秒的数据缓存占用率,将每秒的数据缓存占用率的平均值作为数据缓存占用率的平均值。
获取装置304,用于获取每个计算节点的节点配置信息,并将每个计算节点的节点配置信息存储在节点配置文件中;其中所述节点配置信息包括:总存储容量、高速缓冲存储器容量、处理器数量、每个处理器的最优并发进程的数量和每个处理器的最大并发进程的数量。
获取装置304,用于当所述负载均衡参数小于或等于均衡参数阈值时,不向每个计算节点发送数据上传指示消息。
第二确定装置305,基于所述节点配置信息和节点运行信息,确定每个计算节点的运行状态。
第二确定装置305,基于所述节点配置信息和节点运行信息,确定每个计算节点的运行状态,包括:基于节点配置信息,确定每个计算节点的第一处理系数CAi;基于节点运行信息,确定每个计算节点的第二处理系数CBi;根据第一处理系数和第二处理系数,确定计算节点的运行状态。
第二确定装置305基于节点配置信息,确定每个计算节点的总存储容量Ci、高速缓冲存储器容量RCi、处理器数量Pi、最优并发进程的数量PRi和最大并发进程的数量PRMi;其中1≤i≤n,n为计算节点的数量并且n大于或等于10;
基于以下公式计算确定每个计算节点的第一处理系数:
Figure 279538DEST_PATH_IMAGE009
其中CAi为第i个计算节点的第一处理系数,Ci为第i个计算节点的总存储容量,RCi为第i个计算节点的高速缓冲存储器容量,Pi为第i个计算节点的处理器数量,RCma为所有计算节点中高速缓冲存储器容量的最大值,RCmn为所有计算节点中高速缓冲存储器容量的最小值,PRi为第i个计算节点的最优并发进程的数量,PRMi为第i个计算节点的最大并发进程的数量,其中α和β均为调整系数。
第二确定装置305基于节点运行信息中每个计算节点的每个时间单元的输入输出量的统计信息、每天处理的数据任务的数量的统计信息以及每个时间单元内的数据缓存占用率的平均值的统计信息,确定每个计算节点的每个时间单元的输入输出量IOij,每天处理的数据任务的数量TAik,以及每个时间单元内的数据缓存占用率的平均值POij;其中1≤j≤m,n为时间单元的数量,其中1≤k≤s,s为天数;
基于以下公式计算每个计算节点的第二处理系数:
Figure 417258DEST_PATH_IMAGE010
其中CBi为第i个计算节点的第二处理系数,IOij为第i个计算节点在第j个时间单元内的输入输出量;TAik为第i个计算节点在第k天内处理的数据任务的数量;以及POij为第i个计算节点在第j个时间单元内的数据缓存占用率的平均值;
其中1≤i≤n,n为计算节点的数量并且n大于或等于10
其中1≤j≤m,m为时间单元的数量并且m大于或等于5。
第二确定装置305,基于计算节点的第一处理系数CAi和第二处理系数CBi,确定计算节点的任务处理系数:
Figure DEST_PATH_IMAGE011
其中d1为第一调节系数,d2为第二调节系数;
基于计算节点的任务处理系数确定计算节点的运行状态。
第二确定装置305,按照任务处理系数的降序顺序对计算节点进行排序,以获得计算节点的排序列表;
将预定的排序位置的计算节点任务处理系数选择作为选定任务处理系数,将任务处理系数大于或等于选定任务处理系数的计算节点的运行状态确定为低负荷运行状态;
将任务处理系数小于选定任务处理系数的计算节点的运行状态确定为高负荷运行状态。
在基于所述节点配置信息和节点运行信息,确定每个计算节点的运行状态之后,还包括:
将新的数据任务分配给运行状态为低负荷运行状态的计算节点。
预处理装置306,用于预先将每个自然日划分为多个时间单元,并且促使每个计算节点内置的状态监控芯片以时间单元为进行信息记录的时间间隔,记录计算节点的负载信息。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

Claims (13)

1.一种基于状态监控芯片确定计算节点运行状态的方法,所述方法包括:
在当前时间单元结束时,从数据处理系统的多个计算节点中的每个计算节点内置的状态监控芯片接收计算节点的负载信息;
对每个计算节点的负载信息进行解析,以获取每个计算节点在当前时间单元内的处理器负载率;
基于每个计算节点在当前时间单元内的处理器负载率,确定所述数据处理系统的负载均衡参数;
当所述负载均衡参数大于均衡参数阈值时,促使每个计算节点内置的状态监控芯片上传节点运行信息,并从预先存储的节点配置文件中获取每个计算节点的节点配置信息;以及
基于所述节点配置信息和节点运行信息,确定每个计算节点的运行状态。
2.根据权利要求1所述的方法,还包括,预先将每个自然日划分为多个时间单元,并且促使每个计算节点内置的状态监控芯片以时间单元为进行信息记录的时间间隔,记录计算节点的负载信息。
3.根据权利要求1所述的方法,还包括,每个计算节点内置的状态监控芯片获取计算节点在每秒的处理器实时负载率,并在当前时间单元结束时,基于当前时间单元内每秒的处理器实时负载率确定计算节点在当前时间单元内的处理器负载率,其中当前时间单元内的处理器负载率为当前时间单元内每秒的处理器实时负载率的平均值。
4.根据权利要求3所述的方法,在基于当前时间单元内每秒的实时负载率确定计算节点在当前时间单元内的处理器负载率后,将处理器负载率和计算节点的标识符封装为负载信息。
5.根据权利要求1所述的方法,所述对每个计算节点的负载信息进行解析,以获取每个计算节点在当前时间单元内的处理器负载率,包括:
对每个计算节点的负载信息进行解析,以获取计算节点的标识符和在当前时间单元内的处理器负载率,从而确定每个计算节点在当前时间单元内的处理器负载率。
6.根据权利要求1或5所述的方法,其中基于每个计算节点在当前时间单元内的处理器负载率,确定所述数据处理系统的负载均衡参数,包括:
确定计算节点的节点数量N和分组参数g,计算样本参数f=⌊ N/g⌋,其中100≤N并且5≤g;
按照处理器负载率的降序顺序,对多个计算节点进行排序,从而生成排序列表,计算所述数据处理系统内每个计算节点的第一平均处理器负载率P1;
将所述排序列表中处理器负载率最大的f个计算节点构成第一计算节点集合,并且将所述排序列表中处理器负载率最小的f个计算节点构成第二计算节点集合;
确定第一计算节点集合中每个计算节点的第二平均处理器负载率P2,确定第二计算节点集合中每个计算节点的第三平均处理器负载率P3;
确定所述数据处理系统的负载均衡参数L,
Figure DEST_PATH_IMAGE001
其中,a为调节参数。
7.根据权利要求1所述的方法,其中,当所述负载均衡参数大于均衡参数阈值时,促使每个计算节点内置的状态监控芯片上传节点运行信息,包括:
当所述负载均衡参数大于均衡参数阈值时,向每个计算节点发送数据上传指示消息,以促使每个计算节点内置的状态监控芯片通过计算节点的通信器件上传节点运行信息;
所述节点运行信息包括:每个时间单元内的输入输出量的统计信息、每天处理的数据任务的数量的统计信息以及每个时间单元内的数据缓存占用率的平均值的统计信息。
8.根据权利要求7所述的方法,所述状态监控芯片对计算节点在每个时间单元的每秒输入输出量进行统计,以获取每个时间单元的输入输出量的统计信息;其中时间单元的输入输出量为时间单元内每秒输入输出量的平均值;
所述状态监控芯片对计算节点每天处理的数据任务的数量进行统计,以获得每天处理的数据任务的数量的统计信息;
所述状态监控芯片对计算节点在每个时间单元内的数据缓存占用率的平均值进行统计,以获取每个时间单元内的数据缓存占用率的平均值的统计信息,其中状态监控芯片获取每个时间单元内的每秒的数据缓存占用率,将每秒的数据缓存占用率的平均值作为数据缓存占用率的平均值。
9.根据权利要求1所述的方法,当所述负载均衡参数小于或等于均衡参数阈值时,不向每个计算节点发送数据上传指示消息。
10.根据权利要求8所述的方法,还包括,获取每个计算节点的节点配置信息,并将每个计算节点的节点配置信息存储在节点配置文件中;
其中所述节点配置信息包括:总存储容量、高速缓冲存储器容量、处理器数量、每个处理器的最优并发进程的数量和每个处理器的最大并发进程的数量。
11.一种基于状态监控芯片确定计算节点运行状态的系统,所述系统包括:
接收装置,用于在当前时间单元结束时,从数据处理系统的多个计算节点中的每个计算节点内置的状态监控芯片接收计算节点的负载信息;
解析装置,用于对每个计算节点的负载信息进行解析,以获取每个计算节点在当前时间单元内的处理器负载率;
第一确定装置,用于基于每个计算节点在当前时间单元内的处理器负载率,确定所述数据处理系统的负载均衡参数;
获取装置,用于当所述负载均衡参数大于均衡参数阈值时,促使每个计算节点内置的状态监控芯片上传节点运行信息,并从预先存储的节点配置文件中获取每个计算节点的节点配置信息;以及
第二确定装置,基于所述节点配置信息和节点运行信息,确定每个计算节点的运行状态。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行权利要求1-10中任一项所述的方法。
13.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器;其中,
所述存储器,用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现权利要求1-10中任一项所述的方法。
CN202210533781.5A 2022-05-17 2022-05-17 基于状态监控芯片确定计算节点运行状态的方法及系统 Active CN114726862B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210533781.5A CN114726862B (zh) 2022-05-17 2022-05-17 基于状态监控芯片确定计算节点运行状态的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210533781.5A CN114726862B (zh) 2022-05-17 2022-05-17 基于状态监控芯片确定计算节点运行状态的方法及系统

Publications (2)

Publication Number Publication Date
CN114726862A true CN114726862A (zh) 2022-07-08
CN114726862B CN114726862B (zh) 2022-08-23

Family

ID=82232303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210533781.5A Active CN114726862B (zh) 2022-05-17 2022-05-17 基于状态监控芯片确定计算节点运行状态的方法及系统

Country Status (1)

Country Link
CN (1) CN114726862B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080215A (zh) * 2022-08-22 2022-09-20 中诚华隆计算机技术有限公司 由状态监控芯片在计算节点间进行任务调度的方法及系统
CN115309561A (zh) * 2022-10-11 2022-11-08 中诚华隆计算机技术有限公司 一种基于任务协处理芯片进行任务协同处理的方法及系统
CN116483013A (zh) * 2023-06-19 2023-07-25 成都实时技术股份有限公司 一种基于多通道采集器的高速信号采集系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104683446A (zh) * 2015-01-29 2015-06-03 广州杰赛科技股份有限公司 一种云存储集群节点服务状态实时监控方法和系统
US9509617B1 (en) * 2016-02-09 2016-11-29 Grubhub Holdings Inc. Auto load transfer in geographically distributed systems
CN109936473A (zh) * 2017-12-19 2019-06-25 华耀(中国)科技有限公司 基于深度学习预测的分布计算系统及其运行方法
CN111880997A (zh) * 2020-07-29 2020-11-03 曙光信息产业(北京)有限公司 一种分布式监控系统、监控方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104683446A (zh) * 2015-01-29 2015-06-03 广州杰赛科技股份有限公司 一种云存储集群节点服务状态实时监控方法和系统
US9509617B1 (en) * 2016-02-09 2016-11-29 Grubhub Holdings Inc. Auto load transfer in geographically distributed systems
CN109936473A (zh) * 2017-12-19 2019-06-25 华耀(中国)科技有限公司 基于深度学习预测的分布计算系统及其运行方法
CN111880997A (zh) * 2020-07-29 2020-11-03 曙光信息产业(北京)有限公司 一种分布式监控系统、监控方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080215A (zh) * 2022-08-22 2022-09-20 中诚华隆计算机技术有限公司 由状态监控芯片在计算节点间进行任务调度的方法及系统
CN115080215B (zh) * 2022-08-22 2022-11-15 中诚华隆计算机技术有限公司 由状态监控芯片在计算节点间进行任务调度的方法及系统
CN115309561A (zh) * 2022-10-11 2022-11-08 中诚华隆计算机技术有限公司 一种基于任务协处理芯片进行任务协同处理的方法及系统
CN116483013A (zh) * 2023-06-19 2023-07-25 成都实时技术股份有限公司 一种基于多通道采集器的高速信号采集系统及方法
CN116483013B (zh) * 2023-06-19 2023-09-05 成都实时技术股份有限公司 一种基于多通道采集器的高速信号采集系统及方法

Also Published As

Publication number Publication date
CN114726862B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN114726862B (zh) 基于状态监控芯片确定计算节点运行状态的方法及系统
CN109039833B (zh) 一种监控带宽状态的方法和装置
US8560667B2 (en) Analysis method and apparatus
US7467291B1 (en) System and method for calibrating headroom margin
US10623482B2 (en) Server load management for data migration
CN109981744B (zh) 数据的分发方法、装置、存储介质及电子设备
CN107707612B (zh) 一种负载均衡集群的资源利用率的评估方法及装置
CN107872457B (zh) 一种基于网络流量预测进行网络操作的方法及系统
Wierman et al. Scheduling despite inexact job-size information
US8150994B2 (en) Providing flow control and moderation in a distributed message processing system
Mittal et al. Real time contingency analysis for power grids
CN115794407A (zh) 计算资源分配方法、装置、电子设备及非易失性存储介质
CN114500578B (zh) 分布式存储系统负载均衡调度方法、装置及存储介质
Nguyen et al. Evaluation of highly available cloud streaming systems for performance and price
CN109688065B (zh) 参数的处理方法、装置及存储介质
CN106789853A (zh) 一种转码器的动态调度方法及装置
CN112771816B (zh) 一种预测网络速率的方法及预测装置
US8843931B2 (en) System and method for identifying business critical processes
CN113626282B (zh) 云计算物理节点负载监控方法、装置、终端及存储介质
CN112860763B (zh) 实时流数据处理方法、装置、计算机设备和存储介质
CN115080215A (zh) 由状态监控芯片在计算节点间进行任务调度的方法及系统
CN111598390B (zh) 服务器高可用性评估方法、装置、设备和可读存储介质
CN112732451A (zh) 一种云环境中的负载均衡系统
CN112306831A (zh) 计算集群错误预测方法及相关设备
CN112052147A (zh) 监控方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant