CN116962186A - 集群资源调度方法、装置、存储介质及电子设备 - Google Patents

集群资源调度方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116962186A
CN116962186A CN202310935017.5A CN202310935017A CN116962186A CN 116962186 A CN116962186 A CN 116962186A CN 202310935017 A CN202310935017 A CN 202310935017A CN 116962186 A CN116962186 A CN 116962186A
Authority
CN
China
Prior art keywords
resource
cluster
queue
strategy
state information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310935017.5A
Other languages
English (en)
Inventor
阳万里
黄萌
单升起
杨济银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202310935017.5A priority Critical patent/CN116962186A/zh
Publication of CN116962186A publication Critical patent/CN116962186A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0894Policy-based network configuration management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种集群资源调度方法、装置、存储介质及电子设备。涉及大数据领域,该方法包括:获取目标机构的每个集群队列中的资源状态信息,其中,集群队列是按照目标机构的集群资源划分的;基于资源状态信息从目标机构的所有集群队列中确定空闲队列和超负荷队列;对空闲队列分配资源回收策略,并对超负荷队列分配资源分配策略;将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态;在预测资源状态属于预设资源状态范围内的情况下,基于资源回收策略回收空闲队列中的集群资源,或者,基于资源分配策略对超负荷队列分配集群资源。通过本申请,解决了相关技术中集群资源调度效率低的问题。

Description

集群资源调度方法、装置、存储介质及电子设备
技术领域
本申请涉及大数据领域,具体而言,涉及一种集群资源调度方法、装置、存储介质及电子设备。
背景技术
随着互联网和云计算技术的快速发展,大数据已经成为当前信息技术领域的热点和趋势。在大数据处理过程中,集群资源的利用是关键环节之一,如何合理利用集群资源,提高集群资源的利用率和响应速度,是当前研究的重点。
相关技术中,大数据场景中的集群资源的调配方法是基于人工经验和预测算法,然而基于人工经验和预测算法的调配方法存在误判和漏判的情况,导致资源利用不充分或者浪费;人工经验和预测算法需要大量的人工干预,无法实现真正的自动化调配;预测算法存在滞后性,无法及时响应大数据处理需求;缺乏完善的资源调配管理系统,无法实现资源的统一管理和调度。
针对相关技术中集群资源调度效率低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种集群资源调度方法、装置、存储介质及电子设备,以解决相关技术中集群资源调度效率低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种集群资源调度方法。该方法包括:获取目标机构的每个集群队列中的资源状态信息,其中,集群队列是按照目标机构的集群资源划分的;基于资源状态信息从目标机构的所有集群队列中确定空闲队列和超负荷队列;对空闲队列分配资源回收策略,并对超负荷队列分配资源分配策略;将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态,其中,目标模型由多组训练样本训练得到,每组训练样本包括历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态;在预测资源状态属于预设资源状态范围内的情况下,基于资源回收策略回收空闲队列中的集群资源,或者,基于资源分配策略对超负荷队列分配集群资源。
可选地,获取目标机构的每个集群队列中的资源状态信息包括:每隔预设周期扫描集群队列,得到每次扫描到的资源状态信息;判断当前扫描到的第一资源状态信息与上一次扫描到的第二资源状态信息是否相同;在第一资源状态信息与第二资源状态信息不同的情况下,将第一资源状态信息确定为集群队列的资源状态信息;在第一资源状态信息与第二资源状态信息相同的情况下,判断扫描次数是否大于等于扫描次数阈值;在扫描次数大于等于扫描次数阈值的情况下,将第一资源状态信息或第二资源状态信息确定为集群队列的资源状态信息。
可选地,基于资源状态信息从目标机构的所有集群队列中确定空闲队列和超负荷队列包括:确定集群队列的空闲度阈值和负载阈值,从资源状态信息中提取出已使用资源评估值;判断已使用资源评估值是否大于等于负载阈值;在已使用资源评估值大于等于负载阈值的情况下,确定已使用资源评估值对应的集群队列为超负荷队列;在已使用资源评估值小于负载阈值的情况下,判断已使用资源评估值是否小于等于空闲度阈值;在已使用资源评估值小于等于空闲度阈值的情况下,确定已使用资源评估值对应的集群队列为空闲队列;在已使用资源评估值大于空闲度阈值的情况下,执行获取每个集群队列中的资源状态信息。
可选地,目标模型由以下方式得到:获取目标机构的集群资源分配记录,并从集群资源分配记录中提取每次分配集群资源时的历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态;将每次分配集群资源时的历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态确定为一组训练样本,得到多组训练样本;通过多组训练样本训练预设神经网络模型,得到目标模型。
可选地,在将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态之后,该方法还包括:在预测资源状态不属于预设资源状态范围的情况下,调整集群队列的资源回收策略或资源分配策略,得到更新后的资源回收策略或资源分配策略;基于更新后的资源回收策略或资源分配策略执行将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态的步骤,直到预测资源状态属于预设资源状态范围。
可选地,对空闲队列分配资源回收策略,并对超负荷队列分配资源分配策略包括:将所有空闲队列按照已使用资源评估值从小到大的顺序进行排列,得到第一序列;按照第一序列的顺序设置每个空闲队列的资源回收策略,其中,第一序列中排名靠前的空闲队列的资源回收比例大于排名靠后的空闲队列;将所有超负荷队列按照已使用资源评估值从大到小的顺序进行排列,得到第二序列;按照第二序列的顺序设置每个超负荷队列的资源分配策略,其中,第二序列中排名靠前的超负荷队列的资源分配比例大于排名靠后的超负荷队列。
可选地,基于资源回收策略回收空闲队列中的集群资源包括:将所有空闲队列中回收的集群资源汇总至备用资源池;基于资源分配策略对超负荷队列分配集群资源包括:从备用资源池中提取集群资源分配至超负荷队列。
为了实现上述目的,根据本申请的另一方面,提供了一种集群资源调度装置。该装置包括:获取单元,用于获取目标机构的每个集群队列中的资源状态信息,其中,集群队列是按照目标机构的集群资源划分的;确定单元,用于基于资源状态信息从目标机构的所有集群队列中确定空闲队列和超负荷队列;分配单元,用于对空闲队列分配资源回收策略,并对超负荷队列分配资源分配策略;输入单元,用于将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态,其中,目标模型由多组训练样本训练得到,每组训练样本包括历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态;回收单元,用于在预测资源状态属于预设资源状态范围内的情况下,基于资源回收策略回收空闲队列中的集群资源,或者,基于资源分配策略对超负荷队列分配集群资源。
通过本申请,采用以下步骤:获取目标机构的每个集群队列中的资源状态信息,其中,集群队列是按照目标机构的集群资源划分的;基于资源状态信息从目标机构的所有集群队列中确定空闲队列和超负荷队列;对空闲队列分配资源回收策略,并对超负荷队列分配资源分配策略;将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态,其中,目标模型由多组训练样本训练得到,每组训练样本包括历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态;在预测资源状态属于预设资源状态范围内的情况下,基于资源回收策略回收空闲队列中的集群资源,或者,基于资源分配策略对超负荷队列分配集群资源,解决了相关技术中集群资源调度效率低的问题。通过将集群资源划分为多个集群队列,并基于集群队列的资源状态信息确定空闲队列和超负荷队列,通过分配资源回收策略或资源分配策略调整集群队列中的集群资源,进而达到了提高集群资源调度效率的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的集群资源调度方法的流程图;
图2是根据本申请实施例提供的集群资源调度系统的示意图;
图3是根据本申请实施例提供的集群资源调度装置的示意图;
图4是根据本申请实施例提供的电子设备的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
下面结合优选的实施步骤对本发明进行说明,图1是根据本申请实施例提供的集群资源调度方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取目标机构的每个集群队列中的资源状态信息,其中,集群队列是按照目标机构的集群资源划分的。
具体地,目标机构可以为金融机构,金融机构的数据库中存储有属于该金融机构的全部集群资源。集群资源是指由多个计算机或服务器组成的集群系统中的可用资源,包括处理器、内存、存储和网络等。资源状态信息可以为有关集群资源的当前状态的信息。例如集群资源的可用性、位置、使用情况、性能指标等。
对目标机构的所有集群资源划分为多个集群队列,通过开启资源监测任务。为每一个集群队列分配一个监测线程,同时为每一个监测线程初始化一个记录数n和强制上送阈值N,n的初始值为1,N的初始可配。每个线程定时扫描并获取各自集群队列的资源状态信息,并进行预处理。每次扫描则记录数n加1,当n的值超过上送阈值N时,自动上送一次资源状态信息到集群资源调度系统。
需要说明的是,集群资源包括:计算资源、存储资源、内存资源、网络资源以及软件资源。其中,计算资源指集群中的处理器资源,包括主处理器和辅助处理器。计算资源的数量和性能决定了集群的计算能力。存储资源指集群中的存储设备,包括硬盘、固态硬盘和网络存储等。存储资源的容量和速度决定了集群的数据存储和读写能力。内存资源指集群中的内存容量,用于存储和处理数据。内存资源的大小决定了集群可以同时处理的数据量和运行的应用程序数量。网络资源指集群中的网络带宽和网络连接数。网络资源的大小和速度决定了集群内部和外部通信的能力。软件资源指集群中的软件资源,包括操作系统、应用程序和库文件等。软件资源的选择和配置决定了集群的功能和性能。
步骤S102,基于资源状态信息从目标机构的所有集群队列中确定空闲队列和超负荷队列。
具体地,空闲队列和超负荷队列可以为基于资源状态信息中的集群资源使用情况确定的,若集群队列的已使用资源评估值大于等于负载阈值,则将该集群队列确定为超负荷队列,若已使用资源评估值小于等于空闲度阈值,则将该集群队列确定为空闲队列,例如,设置负载阈值为80%,空闲度阈值为20%,则集群队列的已使用资源超过80%的确定为超负荷队列,低于20%的确定为空闲队列。
步骤S103,对空闲队列分配资源回收策略,并对超负荷队列分配资源分配策略。
具体地,由于空闲队里中的空闲集群资源较多,调用频率较低,需要将多余的集群资源回收到备用资源池,以避免集群资源的浪费,因此通过对每个空闲队列分配对应的资源回收策略来将空闲资源回收到备用资源池,对于超负荷队列,为了避免缺乏集群资源或者调用频率过高导致出现安全问题影响业务进度,因此通过资源分配策略来将备用资源池中的集群资源分配给每个超负荷队列。
步骤S104,将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态,其中,目标模型由多组训练样本训练得到,每组训练样本包括历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态。
具体地,目标模型可以为神经网络模型,通过机器学习训练得到可以基于资源状态信息和资源回收策略或资源分配策略输出预测资源状态的目标模型。预测资源状态是指预测集群队列在执行资源回收策略或资源分配策略后集群队列的资源状态。
步骤S105,在预测资源状态属于预设资源状态范围内的情况下,基于资源回收策略回收空闲队列中的集群资源,或者,基于资源分配策略对超负荷队列分配集群资源。
具体地,预设资源状态范围可以是人为设置的使集群队列不会成为空闲队列或者超负荷队列的资源状态,例如预设资源状态范围可以为已使用资源评估值在20%到80%之间的资源状态,若预测资源状态属于预设资源状态范围则说明资源回收策略或资源分配策略有效,可以保障集群队列的集群资源正常调用不会出现故障,因此可以执行资源回收策略或资源分配策略。
本申请实施例提供的集群资源调度方法,通过获取目标机构的每个集群队列中的资源状态信息,其中,集群队列是按照目标机构的集群资源划分的;基于资源状态信息从目标机构的所有集群队列中确定空闲队列和超负荷队列;对空闲队列分配资源回收策略,并对超负荷队列分配资源分配策略;将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态,其中,目标模型由多组训练样本训练得到,每组训练样本包括历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态;在预测资源状态属于预设资源状态范围内的情况下,基于资源回收策略回收空闲队列中的集群资源,或者,基于资源分配策略对超负荷队列分配集群资源,解决了相关技术中集群资源调度效率低的问题。通过将集群资源划分为多个集群队列,并基于集群队列的资源状态信息确定空闲队列和超负荷队列,通过分配资源回收策略或资源分配策略调整集群队列中的集群资源,进而达到了提高集群资源调度效率的效果。
资源状态信息是通过对集群队列进行扫描得到的,可选地,在本申请实施例提供的集群资源调度方法中,获取目标机构的每个集群队列中的资源状态信息包括:每隔预设周期扫描集群队列,得到每次扫描到的资源状态信息;判断当前扫描到的第一资源状态信息与上一次扫描到的第二资源状态信息是否相同;在第一资源状态信息与第二资源状态信息不同的情况下,将第一资源状态信息确定为集群队列的资源状态信息;在第一资源状态信息与第二资源状态信息相同的情况下,判断扫描次数是否大于等于扫描次数阈值;在扫描次数大于等于扫描次数阈值的情况下,将第一资源状态信息或第二资源状态信息确定为集群队列的资源状态信息。
具体地,预设周期可以设置为一小时,每隔一小时扫描一次集群队列,判断当前批次扫描收集的第一资源状态信息与上一批次扫描收集的第二资源状态信息是否一致。由于集群资源存在更新升级等情况,存在第一资源状态信息与第二资源状态信息不同的情况,在当前批次跟上一批次扫面收集的资源状态信息不一致时,将当前批次扫描收集的第一资源状态信息上送到集群资源调度系统。也即将第一资源状态信息确定为集群队列的资源状态信息。如果当前批次跟上一批次扫面收集的资源状态信息一致,则更新集群队列的记录数n加1。判定当前记录数n与强制上送阈值N的大小,如果n大于N,则将当前批次扫描收集的资源信息上送到集群资源调度系统;如果n小于N,则继续执行每隔预设周期扫描集群队列的步骤。本实施例通过获取集群队列的资源状态信息从而判断集群资源是否存在浪费或者调用频率过大的情况。
通过负载阈值和空闲度阈值来确定超负荷队列和空闲队列,可选地,在本申请实施例提供的集群资源调度方法中,基于资源状态信息从目标机构的所有集群队列中确定空闲队列和超负荷队列包括:确定集群队列的空闲度阈值和负载阈值,从资源状态信息中提取出已使用资源评估值;判断已使用资源评估值是否大于等于负载阈值;在已使用资源评估值大于等于负载阈值的情况下,确定已使用资源评估值对应的集群队列为超负荷队列;在已使用资源评估值小于负载阈值的情况下,判断已使用资源评估值是否小于等于空闲度阈值;在已使用资源评估值小于等于空闲度阈值的情况下,确定已使用资源评估值对应的集群队列为空闲队列;在已使用资源评估值大于空闲度阈值的情况下,执行获取每个集群队列中的资源状态信息。
具体地,已使用资源评估值可以为集群队列中集群资源的综合评估使用情况,包括但不限于内存占用率,线程调用率,缓存占用率等各种资源使用情况的评估值。通过初始化每个集群队列,设置空闲度阈值V和负载阈值W。通过接收上送的各个集群队列资源状态信息。从资源状态信息中提取出已使用资源评估值,比较已使用资源评估值与空闲度阈值V。如果已使用资源评估值低于空闲度阈值V,则将该集群队列放入空闲队列的列表,并根据空闲度从高到底排序。比较已使用资源评估值与负载度阈值W的大小。如果已使用资源评估值高于负载阈值W,则将该集群队列放入超负荷队列的列表,并根据负载度从高到底排序。本实施例通过确定空闲队列和超负荷队列,进而针对性的通过资源分配策略或资源回收策略调度集群资源,以提高集群资源利用率。
可选地,在本申请实施例提供的集群资源调度方法中,目标模型由以下方式得到:获取目标机构的集群资源分配记录,并从集群资源分配记录中提取每次分配集群资源时的历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态;将每次分配集群资源时的历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态确定为一组训练样本,得到多组训练样本;通过多组训练样本训练预设神经网络模型,得到目标模型。
具体地,预设神经网络模型可以为卷积神经网络模型。通过以多组训练样本作为训练数据,根据相应的比例将训练数据划分为训练集和验证集。例如,将多组训练样本中的70%作为训练集,剩下的30%作为验证集。根据预设的卷积神经网络算法对训练集进行训练。采用验证集数据对训练后的机器学习模型进行验证。判断模型的准确率以及命中的次数。如果模型验证的准确率小于给定阈值或者准确率大于给定阈值的次数小于给定次数M,则继续下一批次的模型训练。如果模型验证的准确率大于给定阈值并且准确率大于给定阈值的次数大于给定次数M,将该机器学习模型作为目标模型。通过训练目标模型来预测执行资源回收策略或资源分配策略后集群队列的资源状态。
可选地,在本申请实施例提供的集群资源调度方法中,在将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态之后,该方法还包括:在预测资源状态不属于预设资源状态范围的情况下,调整集群队列的资源回收策略或资源分配策略,得到更新后的资源回收策略或资源分配策略;基于更新后的资源回收策略或资源分配策略执行将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态的步骤,直到预测资源状态属于预设资源状态范围。
具体地,由于分配的资源回收策略或资源分配策略执行后仍然存在集群资源浪费或者调用频率偏高的情况,因此可以基于目标模型输出的预测资源状态实时调整资源回收策略或资源分配策略。在预测资源状态不属于预设资源状态范围的情况下,对资源回收策略或资源分配策略进行更新,基于更新后的资源回收策略或资源分配策略重新预测,直到预测到的预测资源状态属于预设资源状态范围,则将该次预测输入的资源回收策略或资源分配策略作为执行的策略。本实施例通过实时调整资源回收策略或资源分配策略避免对集群队列分配的资源回收策略或资源分配策略不合理,导致浪费集群资源或调用集群资源紧张的情况。
可选地,在本申请实施例提供的集群资源调度方法中,对空闲队列分配资源回收策略,并对超负荷队列分配资源分配策略包括:将所有空闲队列按照已使用资源评估值从小到大的顺序进行排列,得到第一序列;按照第一序列的顺序设置每个空闲队列的资源回收策略,其中,第一序列中排名靠前的空闲队列的资源回收比例大于排名靠后的空闲队列;将所有超负荷队列按照已使用资源评估值从大到小的顺序进行排列,得到第二序列;按照第二序列的顺序设置每个超负荷队列的资源分配策略,其中,第二序列中排名靠前的超负荷队列的资源分配比例大于排名靠后的超负荷队列。
具体地,由于不同的空闲队列中集群资源的空闲情况不同,因此需要对每个空闲队列分配各自空闲情况对应的资源回收策略,已使用资源评估值越小,说明集群队列中剩余的空闲资源越多,以已使用资源评估值从小到大的顺序,资源回收策略设置的回收资源比例由高到低。不同的超负荷队列中集群资源的超负荷情况不同,因此需要对每个超负荷队列分配各自超负荷情况对应的资源分配策略,已使用资源评估值越大,说明集群队列中集群资源超负荷情况越严重,以已使用资源评估值从大到小的顺序,资源分配策略设置的资源分配比例由高到低。本实施例通过针对每个空闲队列分配对应资源回收策略,对每个超负荷队列分配对应的资源分配策略,保障集群资源的正常调度,避免浪费集群资源或调用集群资源紧张。
可选地,在本申请实施例提供的集群资源调度方法中,基于资源回收策略回收空闲队列中的集群资源包括:将所有空闲队列中回收的集群资源汇总至备用资源池;基于资源分配策略对超负荷队列分配集群资源包括:从备用资源池中提取集群资源分配至超负荷队列。
具体地,备用资源池是用于存储回收的集群资源以及向集群队列再分配集群资源的数据池,按照资源回收策略从对应的空闲队列中回收集群资源到备用资源池,并按照资源分配策略从备用资源池中分配集群资源给超负荷队列。备用资源池中除了包含从空闲队列中回收的集群资源外,还包括提前预留的未分配的集群资源,以保障空闲队列回收的集群资源不够超负荷队列的资源分配时,通过应急调用未分配的集群资源来保障目标机构的正常服务。避免由于集群资源不足影响业务。本实施例通过设置备用资源池使集群资源循环利用不会浪费。
根据本申请的另一实施例,还提供了一种集群资源调度系统,图2是根据本申请实施例提供的集群资源调度系统的示意图。如图2所示,该系统包括:
资源监测模块201,负责对集群各节点资源进行实时监测和分析。
具体地,资源监测模块201通过对每个集群队列设置一个监测线程,监测采集每个集群队列的资源状态信息,并将资源状态信息上送到资源归集模块202。
资源归集模块202,负责对集群资源进行统一管理和调度。
具体地,资源归集模块202收到资源监测模块201上送的每个集群队列的资源状态信息后,基于资源状态信息确定每个集群队列的已使用资源评估值,通过比较已使用资源评估值与空闲度阈值和负载阈值的大小,确定出空闲队列和超负荷队列,为空闲队列分配资源回收策略,为超负荷队列分配资源分配策略。
资源预测管理模块203,建立集群资源使用情况的预测模型,负责对集群资源进行预测分析。
具体地,资源预测管理模块203基于资源状态信息与资源回收策略或资源分配策略输入预测模型,得到每个集群队列的预测资源状态。
资源调度管理模块204,负责对集群资源进行配置优化。
具体地,通过预测资源状态对集群队列执行资源回收策略或资源分配策略。
通过本申请实施例提供的集群资源调度系统,通过对集群资源的实时监测和分析,实现了对集群资源的自动化调配,可有效提高集群资源的利用率和响应速度,减少人工干预的误操作和资源浪费。通过建立资源监测模块201、资源归集模块202、资源预测管理模块203和资源调度管理模块204,实现对集群资源的实时监测、统一管理和优化调度,提高集群系统的效率和稳定性。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种集群资源调度装置,需要说明的是,本申请实施例的集群资源调度装置可以用于执行本申请实施例所提供的用于集群资源调度方法。以下对本申请实施例提供的集群资源调度装置进行介绍。
图3是根据本申请实施例提供的集群资源调度装置的示意图。如图3所示,该装置包括:
获取单元10,用于获取目标机构的每个集群队列中的资源状态信息,其中,集群队列是按照目标机构的集群资源划分的;
确定单元20,用于基于资源状态信息从目标机构的所有集群队列中确定空闲队列和超负荷队列;
分配单元30,用于对空闲队列分配资源回收策略,并对超负荷队列分配资源分配策略;
输入单元40,用于将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态,其中,目标模型由多组训练样本训练得到,每组训练样本包括历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态;
回收单元50,用于在预测资源状态属于预设资源状态范围内的情况下,基于资源回收策略回收空闲队列中的集群资源,或者,基于资源分配策略对超负荷队列分配集群资源。
本申请实施例提供的集群资源调度装置,通过获取单元10,获取目标机构的每个集群队列中的资源状态信息,其中,集群队列是按照目标机构的集群资源划分的;确定单元20,基于资源状态信息从目标机构的所有集群队列中确定空闲队列和超负荷队列;分配单元30,对空闲队列分配资源回收策略,并对超负荷队列分配资源分配策略;输入单元40,将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态,其中,目标模型由多组训练样本训练得到,每组训练样本包括历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态;回收单元50,在预测资源状态属于预设资源状态范围内的情况下,基于资源回收策略回收空闲队列中的集群资源,或者,基于资源分配策略对超负荷队列分配集群资源,解决了相关技术中集群资源调度效率低的问题,通过将集群资源划分为多个集群队列,并基于集群队列的资源状态信息确定空闲队列和超负荷队列,通过分配资源回收策略或资源分配策略调整集群队列中的集群资源,进而达到了提高集群资源调度效率的效果。
可选地,在本申请实施例提供的集群资源调度装置中,获取单元10包括:扫描模块,用于每隔预设周期扫描集群队列,得到每次扫描到的资源状态信息;第一判断模块,用于判断当前扫描到的第一资源状态信息与上一次扫描到的第二资源状态信息是否相同;第一确定模块,用于在第一资源状态信息与第二资源状态信息不同的情况下,将第一资源状态信息确定为集群队列的资源状态信息;在第一资源状态信息与第二资源状态信息相同的情况下,第二判断模块,用于判断扫描次数是否大于等于扫描次数阈值;第二确定模块,用于在扫描次数大于等于扫描次数阈值的情况下,将第一资源状态信息或第二资源状态信息确定为集群队列的资源状态信息。
可选地,在本申请实施例提供的集群资源调度装置中,确定单元20包括:第三确定模块,用于确定集群队列的空闲度阈值和负载阈值,从资源状态信息中提取出已使用资源评估值;第三判断模块,用于判断已使用资源评估值是否大于等于负载阈值;第四确定模块,用于在已使用资源评估值大于等于负载阈值的情况下,确定已使用资源评估值对应的集群队列为超负荷队列;第四判断模块,用于在已使用资源评估值小于负载阈值的情况下,判断已使用资源评估值是否小于等于空闲度阈值;第五确定模块,用于在已使用资源评估值小于等于空闲度阈值的情况下,确定已使用资源评估值对应的集群队列为空闲队列;执行模块,用于在已使用资源评估值大于空闲度阈值的情况下,执行获取每个集群队列中的资源状态信息。
可选地,在本申请实施例提供的集群资源调度装置中,目标模型由以下方式得到:获取目标机构的集群资源分配记录,并从集群资源分配记录中提取每次分配集群资源时的历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态;将每次分配集群资源时的历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态确定为一组训练样本,得到多组训练样本;通过多组训练样本训练预设神经网络模型,得到目标模型。
可选地,在本申请实施例提供的集群资源调度装置中,该装置还包括:调整单元,用于在预测资源状态不属于预设资源状态范围的情况下,调整集群队列的资源回收策略或资源分配策略,得到更新后的资源回收策略或资源分配策略;执行单元,用于基于更新后的资源回收策略或资源分配策略执行将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态的步骤,直到预测资源状态属于预设资源状态范围。
可选地,在本申请实施例提供的集群资源调度装置中,分配单元30包括:第一排列模块,用于将所有空闲队列按照已使用资源评估值从小到大的顺序进行排列,得到第一序列;第一设置模块,用于按照第一序列的顺序设置每个空闲队列的资源回收策略,其中,第一序列中排名靠前的空闲队列的资源回收比例大于排名靠后的空闲队列;第二排列模块,用于将所有超负荷队列按照已使用资源评估值从大到小的顺序进行排列,得到第二序列;第二设置模块,用于按照第二序列的顺序设置每个超负荷队列的资源分配策略,其中,第二序列中排名靠前的超负荷队列的资源分配比例大于排名靠后的超负荷队列。
可选地,在本申请实施例提供的集群资源调度装置中,回收单元50包括:回收模块,用于将所有空闲队列中回收的集群资源汇总至备用资源池;分配模块,用于基于资源分配策略对超负荷队列分配集群资源包括:从备用资源池中提取集群资源分配至超负荷队列。
集群资源调度装置包括处理器和存储器,上述获取单元10、确定单元20、分配单元30、输入单元40和回收单元50等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高集群资源调度效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现集群资源调度方法。
本发明实施例提供了一种处理器,处理器用于运行程序,其中,程序运行时执行集群资源调度方法。
图4是根据本申请实施例提供的电子设备的示意图。如图4所示,电子设备401包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取目标机构的每个集群队列中的资源状态信息,其中,集群队列是按照目标机构的集群资源划分的;基于资源状态信息从目标机构的所有集群队列中确定空闲队列和超负荷队列;对空闲队列分配资源回收策略,并对超负荷队列分配资源分配策略;将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态,其中,目标模型由多组训练样本训练得到,每组训练样本包括历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态;在预测资源状态属于预设资源状态范围内的情况下,基于资源回收策略回收空闲队列中的集群资源,或者,基于资源分配策略对超负荷队列分配集群资源。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取目标机构的每个集群队列中的资源状态信息,其中,集群队列是按照目标机构的集群资源划分的;基于资源状态信息从目标机构的所有集群队列中确定空闲队列和超负荷队列;对空闲队列分配资源回收策略,并对超负荷队列分配资源分配策略;将资源状态信息、资源回收策略或资源分配策略输入目标模型,得到预测资源状态,其中,目标模型由多组训练样本训练得到,每组训练样本包括历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态;在预测资源状态属于预设资源状态范围内的情况下,基于资源回收策略回收空闲队列中的集群资源,或者,基于资源分配策略对超负荷队列分配集群资源。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种集群资源调度方法,其特征在于,包括:
获取目标机构的每个集群队列中的资源状态信息,其中,所述集群队列是按照所述目标机构的集群资源划分的;
基于所述资源状态信息从所述目标机构的所有集群队列中确定空闲队列和超负荷队列;
对所述空闲队列分配资源回收策略,并对所述超负荷队列分配资源分配策略;
将所述资源状态信息、所述资源回收策略或所述资源分配策略输入目标模型,得到预测资源状态,其中,所述目标模型由多组训练样本训练得到,每组训练样本包括历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态;
在所述预测资源状态属于预设资源状态范围内的情况下,基于所述资源回收策略回收所述空闲队列中的集群资源,或者,基于所述资源分配策略对所述超负荷队列分配集群资源。
2.根据权利要求1所述的方法,其特征在于,获取目标机构的每个集群队列中的资源状态信息包括:
每隔预设周期扫描所述集群队列,得到每次扫描到的资源状态信息;
判断当前扫描到的第一资源状态信息与上一次扫描到的第二资源状态信息是否相同;
在所述第一资源状态信息与所述第二资源状态信息不同的情况下,将所述第一资源状态信息确定为所述集群队列的资源状态信息;
在所述第一资源状态信息与所述第二资源状态信息相同的情况下,判断扫描次数是否大于等于扫描次数阈值;
在所述扫描次数大于等于所述扫描次数阈值的情况下,将所述第一资源状态信息或所述第二资源状态信息确定为所述集群队列的资源状态信息。
3.根据权利要求1所述的方法,其特征在于,基于所述资源状态信息从所述目标机构的所有集群队列中确定空闲队列和超负荷队列包括:
确定集群队列的空闲度阈值和负载阈值,从所述资源状态信息中提取出已使用资源评估值;
判断所述已使用资源评估值是否大于等于所述负载阈值;
在所述已使用资源评估值大于等于所述负载阈值的情况下,确定所述已使用资源评估值对应的集群队列为所述超负荷队列;
在所述已使用资源评估值小于所述负载阈值的情况下,判断所述已使用资源评估值是否小于等于所述空闲度阈值;
在所述已使用资源评估值小于等于所述空闲度阈值的情况下,确定所述已使用资源评估值对应的集群队列为所述空闲队列;
在所述已使用资源评估值大于所述空闲度阈值的情况下,执行获取每个集群队列中的资源状态信息。
4.根据权利要求1所述的方法,其特征在于,所述目标模型由以下方式得到:
获取所述目标机构的集群资源分配记录,并从所述集群资源分配记录中提取每次分配集群资源时的历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态;
将每次分配集群资源时的历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态确定为一组训练样本,得到多组训练样本;
通过所述多组训练样本训练预设神经网络模型,得到所述目标模型。
5.根据权利要求1所述的方法,其特征在于,在将所述资源状态信息、所述资源回收策略或所述资源分配策略输入目标模型,得到预测资源状态之后,所述方法还包括:
在所述预测资源状态不属于预设资源状态范围的情况下,调整所述集群队列的资源回收策略或资源分配策略,得到更新后的资源回收策略或资源分配策略;
基于所述更新后的资源回收策略或资源分配策略执行将所述资源状态信息、所述资源回收策略或所述资源分配策略输入目标模型,得到预测资源状态的步骤,直到所述预测资源状态属于预设资源状态范围。
6.根据权利要求1所述的方法,其特征在于,对所述空闲队列分配资源回收策略,并对所述超负荷队列分配资源分配策略包括:
将所有空闲队列按照已使用资源评估值从小到大的顺序进行排列,得到第一序列;
按照所述第一序列的顺序设置每个空闲队列的资源回收策略,其中,所述第一序列中排名靠前的空闲队列的资源回收比例大于排名靠后的空闲队列;
将所有超负荷队列按照已使用资源评估值从大到小的顺序进行排列,得到第二序列;
按照所述第二序列的顺序设置每个超负荷队列的资源分配策略,其中,所述第二序列中排名靠前的超负荷队列的资源分配比例大于排名靠后的超负荷队列。
7.根据权利要求1所述的方法,其特征在于,基于所述资源回收策略回收所述空闲队列中的集群资源包括:
将所有空闲队列中回收的集群资源汇总至备用资源池;
基于所述资源分配策略对所述超负荷队列分配集群资源包括:
从所述备用资源池中提取集群资源分配至所述超负荷队列。
8.一种集群资源调度装置,其特征在于,包括:
获取单元,用于获取目标机构的每个集群队列中的资源状态信息,其中,所述集群队列是按照所述目标机构的集群资源划分的;
确定单元,用于基于所述资源状态信息从所述目标机构的所有集群队列中确定空闲队列和超负荷队列;
分配单元,用于对所述空闲队列分配资源回收策略,并对所述超负荷队列分配资源分配策略;
输入单元,用于将所述资源状态信息、所述资源回收策略或所述资源分配策略输入目标模型,得到预测资源状态,其中,所述目标模型由多组训练样本训练得到,每组训练样本包括历史资源状态信息、历史资源回收策略或历史资源分配策略和历史预测资源状态;
回收单元,用于在所述预测资源状态属于预设资源状态范围内的情况下,基于所述资源回收策略回收所述空闲队列中的集群资源,或者,基于所述资源分配策略对所述超负荷队列分配集群资源。
9.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,所述程序运行时控制所述非易失性存储介质所在的设备执行权利要求1至7中任意一项所述的集群资源调度方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的集群资源调度方法。
CN202310935017.5A 2023-07-27 2023-07-27 集群资源调度方法、装置、存储介质及电子设备 Pending CN116962186A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310935017.5A CN116962186A (zh) 2023-07-27 2023-07-27 集群资源调度方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310935017.5A CN116962186A (zh) 2023-07-27 2023-07-27 集群资源调度方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN116962186A true CN116962186A (zh) 2023-10-27

Family

ID=88442367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310935017.5A Pending CN116962186A (zh) 2023-07-27 2023-07-27 集群资源调度方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116962186A (zh)

Similar Documents

Publication Publication Date Title
US10929287B2 (en) Computer memory usage by releasing unused heap space
CN111818159B (zh) 数据处理节点的管理方法、装置、设备及存储介质
Andreolini et al. Dynamic load management of virtual machines in cloud architectures
CN107295090B (zh) 一种资源调度的方法和装置
CN113010260A (zh) 容器数量弹性伸缩方法以及容器数量弹性伸缩方法系统
US11726836B2 (en) Predicting expansion failures and defragmenting cluster resources
CN111381928B (zh) 一种虚拟机迁移方法、云计算管理平台和存储介质
CN113296929A (zh) 基于云计算的资源匹配方法、装置及系统
CN110737717B (zh) 一种数据库迁移方法及装置
CN110543355A (zh) 一种自动均衡云平台资源的方法
CN114610497A (zh) 容器调度方法、集群系统、装置、电子设备及存储介质
CN116244085A (zh) Kubernetes集群容器组调度方法、装置及介质
CN112000460A (zh) 一种基于改进贝叶斯算法的服务扩缩容的方法及相关设备
CN117667305A (zh) 基于业务场景的安全策略的部署方法、装置及电子设备
CN116962186A (zh) 集群资源调度方法、装置、存储介质及电子设备
Ray et al. Is high performance computing (HPC) ready to handle big data?
CN113419863B (zh) 一种基于节点能力的数据分配处理方法及装置
CN114860449A (zh) 数据处理方法、装置、设备和存储介质
CN114090256A (zh) 一种基于云计算的应用交付负载管理方法及其系统
CN118349346A (zh) 系统资源的调整方法、装置、存储介质以及电子设备
CN112540842A (zh) 动态调整系统资源的方法及装置
CN117539643B (zh) 信用卡清分清算平台、批量任务处理方法及服务器
CN117972367B (zh) 一种数据存储预测方法、数据存储子系统及智能计算平台
CN115391043A (zh) 一种应用创建方法、装置、设备及计算机可读存储介质
Prasad et al. A STUDY ON HOST MACHINE UNDERLOADING DETECTION ALGORITHM IN CLOUD DATA CENTER

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination