CN109800975B

CN109800975B - 一种资源评估方法、装置、计算机设备和存储介质

Info

Publication number: CN109800975B
Application number: CN201811653945.8A
Authority: CN
Inventors: 王庚; 马松; 杨光明子; 张百军
Original assignee: Asiainfo Technologies China Inc
Current assignee: Asiainfo Technologies China Inc
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2021-05-18
Anticipated expiration: 2038-12-29
Also published as: CN109800975A

Abstract

本申请涉及一种资源评估方法、系统、计算机设备和存储介质。方法包括：获取待评估的集群指标信息，根据待评估的集群指标信息确定集群作业平均延迟和集群资源利用率，根据待评估的集群指标信息、集群作业平均延迟和集群资源利用率，确定队列作业平均延迟标准差和队列资源利用率标准差，根据集群作业平均延迟、集群资源利用率、队列作业平均延迟标准差和队列资源利用率标准差中至少之一，进行资源评估，从而实现了针对整个队列或整个集群的使用情况的定量分析，评估方法更加准确。

Description

一种资源评估方法、装置、计算机设备和存储介质

技术领域

本申请涉及大数据技术领域，特别是涉及一种资源评估方法、装置、计算机设备和存储介质。

背景技术

在大数据处理领域，随着数据中心的数据和服务器的增加，对数据和资源的分配有了更高的要求。由于集群规模的增大和程序在利用资源方面要求的增高，能够实时监控集群状态并因此做出针对于集群和运行作业的及时反馈，在很大程度上影响着整个大数据平台的整体功能和作业效率。

传统方法中，对于大数据集群的资源使用，往往只能针对单一作业的资源使用进行分析评估，无法有效的针对整个队列或整个集群的使用情况进行定量分析评估，评估方法不准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效的针对整个队列或整个集群的使用情况进行定量分析评估的资源评估方法、装置、计算机设备和存储介质。

一种资源评估方法，所述方法包括：

获取待评估的集群指标信息；

根据待评估的所述集群指标信息确定集群作业平均延迟和集群资源利用率；

根据待评估的所述集群指标信息、所述集群作业平均延迟和所述集群资源利用率，确定队列作业平均延迟标准差和队列资源利用率标准差；

根据所述集群作业平均延迟、所述集群资源利用率、所述队列作业平均延迟标准差和所述队列资源利用率标准差中至少之一，进行资源评估。

在其中一个实施例中，所述待评估的集群指标信息包括：第一预设周期内第i次采样时的集群等待作业个数、所述第一预设周期内的采样总次数、所述第一预设周期内的集群完成作业数、所述第一预设周期内的第q个作业完成时的内存使用量和所述第一预设周期内的集群总内存；

所述根据待评估的所述集群指标信息确定集群作业平均延迟和集群资源利用率，包括：

根据所述第i次采样时的集群等待作业个数和所述采样总次数，确定所述集群作业平均延迟；

根据所述集群完成作业数、所述第q个作业完成时的内存使用量和所述集群总内存，确定所述集群资源利用率。

在其中一个实施例中，所述待评估的集群指标信息包括：第一预设周期内第i次采样时的每一队列等待作业个数、所述第一预设周期内的采样总次数、所述第一预设周期内的队列数、所述第一预设周期内的每一队列完成作业数、所述第一预设周期内的第p个作业完成时的内存使用量和所述第一预设周期内的队列内存；

所述根据待评估的所述集群指标信息、所述集群作业平均延迟和所述集群资源利用率，确定队列作业平均延迟标准差和队列资源利用率标准差，包括：

根据所述第i次采样时的每一队列等待作业个数和所述采样总次数，确定每一队列作业平均延迟；

根据所述每一队列作业平均延迟、所述队列数和所述集群作业平均延迟，确定所述队列作业平均延迟标准差；

根据所述每一队列完成作业数、所述第p个作业完成时的内存使用量和所述队列内存，确定每一队列资源利用率；

根据所述每一队列资源利用率、所述队列数和所述集群资源利用率，确定所述队列资源利用率标准差。

在其中一个实施例中，所述根据所述集群作业平均延迟、所述集群资源利用率、所述队列作业平均延迟标准差和所述队列资源利用率标准差中至少之一，进行资源评估，包括：

若所述集群作业平均延迟处于[a1，∞)，且所述集群资源利用率处于[b1，1]，则确定系统的资源不足；

若所述集群作业平均延迟处于[0，c1]，所述集群资源利用率处于[0，1]，所述队列作业平均延迟标准差处于[0，c2]，且所述队列资源利用率标准差处于[0，c3]，则确定所述系统中的队列资源分配合理或所述系统的资源充足；

若所述队列资源利用率标准差处于[b2，1]，则确定所述系统中的队列资源分配不合理；

若所述队列作业平均延迟标准差处于[a2，)，且所述队列资源利用率标准差处于[0，c4]，则确定所述系统中的队列资源分配不合理；

若所述队列作业平均延迟标准差处于[a3，)，且所述队列资源利用率标准差处于[b3，1]，则确定所述系统中的队列资源分配不合理；

其中，a1、a2、a3、b1、b2、b3、c1、c2、c3、c4均为正数。

在其中一个实施例中，所述待评估的集群指标信息包括实测的集群指标信息或预测的集群指标信息。

在其中一个实施例中，所述待评估的集群指标信息为预测的集群指标信息；

所述方法还包括：

将实测的第二预设周期内的集群指标信息输入至深度学习模型；

利用所述深度学习模型输出预测的第三预设周期内的集群指标信息；

将所述第三预设周期的集群指标信息作为所述待评估的集群指标信息。

在其中一个实施例中，所述方法还包括：

将实测的第四预设周期内的集群指标信息输入至初始深度学习模型；

迭代执行所述初始深度学习模型的正向推导和反向传播算法，得到所述深度学习模型。

一种资源评估装置，所述装置包括：

信息获取模块，用于获取待评估的集群指标信息；

第一确定模块，用于根据待评估的所述集群指标信息确定集群作业平均延迟和集群资源利用率；

第二确定模块，用于根据待评估的所述集群指标信息、所述集群作业平均延迟和所述集群资源利用率，确定队列作业平均延迟标准差和队列资源利用率标准差；

评估模块，用于根据所述集群作业平均延迟、所述集群资源利用率、所述队列作业平均延迟标准差和所述队列资源利用率标准差中至少之一，进行资源评估。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待评估的集群指标信息；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待评估的集群指标信息；

上述资源评估方法、装置、计算机设备和存储介质，获取待评估的集群指标信息；根据待评估的集群指标信息确定集群作业平均延迟和集群资源利用率；根据待评估的集群指标信息、集群作业平均延迟和集群资源利用率，确定队列作业平均延迟标准差和队列资源利用率标准差；根据集群作业平均延迟、集群资源利用率、队列作业平均延迟标准差和队列资源利用率标准差，进行资源评估。其中，利用待评估的集群指标信息得到集群作业平均延迟、集群资源利用率、队列作业平均延迟标准差和队列资源利用率标准差，从而实现了针对整个队列或整个集群的使用情况的定量分析，评估方法更加准确。

附图说明

图1为一个实施例中资源评估方法的应用环境图；

图2为一个实施例中资源评估方法的流程示意图；

图3为一个实施例中S202的细化步骤的流程示意图；

图4为一个实施例中S203的细化步骤的流程示意图；

图5为另一个实施例中资源评估方法的流程示意图；

图6为一个实施例中资源评估装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的资源评估方法，可以应用于如图1所示的应用环境中。其中，信息采集装置10通过网络20与评分设备30进行通信。信息采集装置10获取待评估的集群指标信息，其中，该集群指标信息用来表征集群作业时的情况，可以包括集群等待作业个数、集群完成作业数、每一个作业完成时的内存使用量、集群总内存、每一队列等待作业个数、队列数、每一队列完成作业数和队列内存等。信息采集装置10将集群指标信息通过网络20发送给评分设备30。其中，评分设备30可以是服务器，该服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

可选的，评分设备30(即服务器)包含至少一个处理器与存储器。可选地，该处理器可以为CPU(Central Processing Unit，中央处理器)，IPU(Intelligence ProcessingUnit，智能处理器)等等。可选地，该处理器为多核处理器，例如多核GPU。其中，存储器存储信息采集装置10发送的集群指标信息和评分公式，处理器可以调用并运行存储器内的评分公式，对对集群指标信息进行计算，具体的，处理器先根据集群指标信息确定集群作业平均延迟和集群资源利用率，之后根据集群指标信息、集群作业平均延迟和集群资源利用率进一步得出队列作业平均延迟标准差和队列资源利用率标准差，处理器利用集群作业平均延迟、集群资源利用率、队列作业平均延迟标准差和队列资源利用率标准差实现资源评估。

在一个实施例中，如图2所示，提供了一种资源评估方法，以该方法应用于图1为例进行说明，包括以下步骤：

S201，获取待评估的集群指标信息；

在本发明实施例中，集群指标信息是用来表征集群作业时的情况的参数，可以包括集群等待作业个数、集群完成作业数、每一个作业完成时的内存使用量、集群总内存、每一队列等待作业个数、队列数、每一队列完成作业数和队列内存等。

需要说明的是，该待评估的集群指标信息可以是实测的(即真实的)集群指标信息，也可以是预测出来的集群指标信息。其中，利用实测的(即真实的)集群指标信息进行资源评估，可以在面对突发故障时，准确及时发现故障，从而快速进行故障止损和故障修复。利用预测出来的集群指标信息进行资源评估，可以有效的通过自动智能的方法对资源使用情况预判，从而能够及早发现并及时调整不合理的资源使用，保证集群资源的有效分配和合理预警。其中，对于集群指标信息的预测在之后的实施例中会进行详细的描述，此处不加以赘述。

S202，根据待评估的所述集群指标信息确定集群作业平均延迟和集群资源利用率；

在本发明实施例中，集群作业平均延迟表示还需要等待作业的作业个数。集群资源利用率表示一段时间内完成了若干个作业的内存使用情况。其中，利用集群作业平均延迟和集群资源利用率可以看出系统整体资源的使用情况。

S203，根据待评估的所述集群指标信息、所述集群作业平均延迟和所述集群资源利用率，确定队列作业平均延迟标准差和队列资源利用率标准差；

在本发明实施例中，队列作业平均延迟标准差和队列资源利用率标准差是用来表征队列分配情况的参数。

在本发明实施例中，在S202计算出集群作业平均延迟和集群资源利用率后，利用集群指标信息和集群作业平均延迟可以确定队列作业平均延迟标准差，利用集群指标信息和集群资源利用率可以确定队列资源利用率标准差。

S204，根据所述集群作业平均延迟、所述集群资源利用率、所述队列作业平均延迟标准差和所述队列资源利用率标准差中至少之一，进行资源评估。

在本发明实施例中，集群作业平均延迟和集群资源利用率是用来表征系统整体资源的使用情况的参数，其中，集群作业平均延迟的取值范围为[0，∞)，集群资源利用率的取值范围为[0，1]，理想情况下，集群作业平均延迟等于0且集群资源利用率等于1，此时集群总内存被作业完全占满且所有的作业都没有延迟。队列作业平均延迟标准差和队列资源利用率标准差是用来表征队列分配情况的参数，队列作业平均延迟标准差的取值范围为[0，∞)，队列资源利用率标准差的取值范围为[0，1]，理想情况下，队列作业平均延迟标准差等于0且队列资源利用率标准差等于0，此时集群内每个队列内存被作业完全占满且每个队列的所有的作业都没有延迟。

在本发明实施例中，利用集群作业平均延迟、集群资源利用率、队列作业平均延迟标准差和队列资源利用率标准差中至少一个信息便可以进行资源评估，确定系统整体资源使用情况，和/或，队列资源使用情况等。

上述资源评估方法，获取待评估的集群指标信息；根据待评估的集群指标信息确定集群作业平均延迟和集群资源利用率；根据待评估的集群指标信息、集群作业平均延迟和集群资源利用率，确定队列作业平均延迟标准差和队列资源利用率标准差；根据集群作业平均延迟、集群资源利用率、队列作业平均延迟标准差和队列资源利用率标准差，进行资源评估。其中，利用待评估的集群指标信息得到集群作业平均延迟、集群资源利用率、队列作业平均延迟标准差和队列资源利用率标准差，从而实现了针对整个队列或整个集群的使用情况的定量分析，评估方法更加准确。

作为一种可选的实施方式，如图3所示，为S202的细化步骤的流程示意图，其中，所述待评估的集群指标信息包括：第一预设周期内第i次采样时的集群等待作业个数、所述第一预设周期内的采样总次数、所述第一预设周期内的集群完成作业数、所述第一预设周期内的第q个作业完成时的内存使用量和所述第一预设周期内的集群总内存；则S202具体包括：

S2021，根据所述第i次采样时的集群等待作业个数和所述采样总次数，确定所述集群作业平均延迟；

在本发明实施例中，第一预设周期表示一个资源评估周期，即每隔一个第一预设周期，进行一次资源评估，资源评估所需要的参数就是第一预设周期内的各集群或队列参数。其中，第一预设周期内的各集群或队列参数可以是实测的参数也可以是预测出的参数。

其中，在本发明实施例中，在第一预设周期内，假设共采样k次，第i次采样时的集群等待作业个数为numPending_i，集群作业平均延迟avePending为k次采样时的集群等待作业个数的总和与采样总次数的比值。

其中，

S2022，根据所述集群完成作业数、所述第q个作业完成时的内存使用量和所述集群总内存，确定所述集群资源利用率。

在本发明实施例中，假设在第一预设周期内，集群完成作业数为n，第q个作业完成时的内存使用量为memorySecond_q，集群总内存为clusterMem，则集群资源利用率avgMemUsage为每一个作业完成时的内存使用量的总和与集群总内存clusterMem和第一预设周期Duration的乘积的比值。

其中，

作为一种可选的实施方式，如图4所示，为S203的细化步骤的流程示意图，其中，所述待评估的集群指标信息包括：第一预设周期内第i次采样时的每一队列等待作业个数、所述第一预设周期内的采样总次数、所述第一预设周期内的队列数、所述第一预设周期内的每一队列完成作业数、所述第一预设周期内的第p个作业完成时的内存使用量和所述第一预设周期内的队列内存；则S203具体包括：

S2031，根据所述第i次采样时的每一队列等待作业个数和所述采样总次数，确定每一队列作业平均延迟；

在本发明实施例中，假设共采样k次，第i次采样时的队列j等待作业个数为numPendingQ_ji，其中，j表示第j个队列，每一队列作业平均延迟avePendingQ_j为k次采样时的该队列等待作业个数的总和与采样总次数的比值。

其中，

S2032，根据所述每一队列作业平均延迟、所述队列数和所述集群作业平均延迟，确定所述队列作业平均延迟标准差；

在本发明实施例中，假设每一队列作业平均延迟为avePendingQ_j，队列数为m，集群作业平均延迟为avePending，则队列作业平均延迟标准差PendingDevision为：

S2033，根据所述每一队列完成作业数、所述第p个作业完成时的内存使用量和所述队列内存，确定每一队列资源利用率；

在本发明实施例中，假设在第一预设周期内，每一队列完成作业数为n_Qj，第p个作业完成时的内存使用量memorySecond_p，队列内存为Q_jclusterMem，则每一队列资源利用率为avgMemUsageQ_j为某一队列中的每一个作业完成时的内存使用量的总和与该队列内存Q_jclusterMem和第一预设周期Duration的乘积的比值。

其中，

S2034，根据所述每一队列资源利用率、所述队列数和所述集群资源利用率，确定所述队列资源利用率标准差。

在本发明实施例中，假设每一队列资源利用率为avgMemUsageQ_j，队列数为m，集群资源利用率为avgMemUsage，则队列资源利用率标准差MemUsageDevision为：

作为一种可选的实施方式，S204具体包括：

在本发明实施例中，a1表示预先设置的一个阈值，该值要求远大于0，例如，将a1设置为20，其中，a1可以根据实际情况进行修改。b1表示预先设置的一个阈值，该值接近1，例如，将b1设置为0.7，其中，b1可以根据实际情况进行修改。

在本发明实施例中，若集群作业平均延迟处于[a1，∞)，即远大于0，集群资源利用率处于[b1，1]，即接近1，则表明系统整体资源不足，需要扩容。

在本发明实施例中，c1表示预先设置的一个阈值，该值要求接近0，例如，该值设置为0.3，可以根据实际情况进行修改。c2表示预先设置的一个阈值，该值要求接近0，例如，该值设置为20，可以根据实际情况进行修改。c3表示预先设置的一个阈值，该值要求接近0，例如，该值设置为0.3，可以根据实际情况进行修改。其中，c1、c2和c3可以设置成大小相同的数值，可选的，将c1和c3设置成大小相同的数值，例如，将c1和c3都设置成0.3，c2可以设置成大于c1和c3的数值，例如将c2设置成20。

在本发明实施例中，若集群作业平均延迟处于[0，c1]，即接近0，集群资源利用率处于[0，1]，队列作业平均延迟标准差处于[0，c2]，即接近0，队列资源利用率标准差处于[0，c3]，即接近0，则表明系统中的队列资源分配合理，集群运行良好，并不需要动态调整，或者，系统的资源充足，资源分配过多，可考虑缩减集群资源，节能降耗。

在本发明实施例中，b2表示预先设置的一个阈值，该值接近1，例如，将b2设置为0.7，其中，b2可以根据实际情况进行修改。其中，b1和b2可以设置成大小相同的数值，例如，都设置成0.7。

在本发明实施例中，若队列资源利用率标准差处于[b2，1]，即接近1，则表明队列资源分配不合理，队列间内存使用不均衡，队列资源分配需要调整。

若所述队列作业平均延迟标准差处于[a2，∞)，且所述队列资源利用率标准差处于[0，c4]，则确定所述系统中的队列资源分配不合理；

在本发明实施例中，a2表示预先设置的一个阈值，该值要求远大于0，例如，将a2设置为20，其中，a2可以根据实际情况进行修改。c4表示预先设置的一个阈值，该值要求接近0，例如，该值设置为0.3，可以根据实际情况进行修改。其中，a2和a1可以设置成大小相同的数值，可选的，都设置成20。其中，c1、c2、c3和c4可以设置成大小相同的数值，可选的，将c1、c3和c4设置成大小相同的数值，例如，都设置成0.3，c2可以设置成大于c1、c3和c4的数值，例如将c2设置成20。

在本发明实施例中，若队列作业平均延迟标准差处于[a2，∞)，即远大于0，队列资源利用率标准差处于[0，c4]，即接近0，则表明队列资源分配不合理，队列间作业调度不均衡，队列资源分配需要调整。

若所述队列作业平均延迟标准差处于[a3，∞)，且所述队列资源利用率标准差处于[b3，1]，则确定所述系统中的队列资源分配不合理；

其中，a1、a2、a3、b1、b2、b3、c1、c2、c3、c4均为正数。

在本发明实施例中，a3表示预先设置的一个阈值，该值要求远大于0，例如，将a3设置为20，其中，a3可以根据实际情况进行修改。b3表示预先设置的一个阈值，该值接近1，例如，将b3设置为0.7，其中，b3可以根据实际情况进行修改。其中，a1、a2和a3可以设置成大小相同的数值，可选的，都设置成20。其中，b1、b2和b3可以设置成大小相同的数值，可选的，都设置成0.7。

在本发明实施例中，若队列作业平均延迟标准差处于[a3，∞)，即远大于0，队列资源利用率标准差处于[b3，1]，即接近1，则表明队列资源分配不合理，队列间内存使用不均衡，队列间作业调度不均衡，队列资源分配需要调整。

可选的，所述待评估的集群指标信息包括实测的集群指标信息或预测的集群指标信息。

在本发明实施例中，该待评估的集群指标信息可以是实测的(即真实的)集群指标信息，也可以是预测出来的集群指标信息。其中，利用实测的(即真实的)集群指标信息进行资源评估，可以在面对突发故障时，准确及时发现故障，从而快速进行故障止损和故障修复。利用预测出来的集群指标信息进行资源评估，可以有效的通过自动智能的方法对资源使用情况预判，从而能够及早发现并及时调整不合理的资源使用，保证集群资源的有效分配和合理预警。其中，对于集群指标信息的预测在之后的实施例中会进行详细的描述，此处不加以赘述。

在一个实施例中，当待评估的集群指标信息是预测出来的集群指标信息的时候，需要利用深度学习模型对实测的集群指标信息进行训练，预测出未来一个时间段内的集群指标信息，将预测出来的集群指标信息作为待评估的集群指标信息。具体的，如图5所示，提供了一种资源评估方法，以该方法应用于图1为例进行说明，包括以下步骤：

S501，将实测的第二预设周期内的集群指标信息输入至深度学习模型；

在本发明实施例中，深度学习模型表示训练好的模型。第二预设周期表示从当前时间之前采集到的实测的集群指标信息。

在本发明实施例中，需要对初始深度学习模型进行训练，才可以得到可以使用的深度学习模型，具体的：

在本发明实施例中，第四预设周期表示从当前时间之前采集到的实测的集群指标信息，且第四预设周期早于第二预设周期，第四预设周期内的集群指标信息用于对初始深度学习模型进行训练，是初始深度学习模型的输入，但是其不作为训练好的深度学习模型的输入。

在本发明实施例中，将实测的第四预设周期内的集群指标信息输入至初始深度学习模型后，输出结果数据，将该结果数据与预设数据(该预设数据为验证数据，可以为第四预设周期后的一段时间内的实测数据，也可以是第四预设周期的数据)进行比较，若结果数据与预设数据差距较大，则需要利用初始深度学习模型的正向推导和反向传播算法，反复对初始深度学习模型进行训练，直到得到满足条件的深度学习模型，利用该深度学习模型可以准确的预测出未来一段时间内的集群指标信息。

可选的，利用TensorFlow^TM(基于数据流编程的符号数学系统，被广泛应用于各类机器学习算法的编程实现)，建立长短期记忆网络(Long Short-Term Memory，LSTM)模型，对该LSTM模型训练，得到的训练好的模型即为上述深度学习模型。

S502，利用所述深度学习模型输出预测的第三预设周期内的集群指标信息；

在本发明实施例中，第三预设周期是当前时刻接下来的一个时间段，例如，当前时刻是09:00，第三预设周期是09:00-12:00，即第三预设周期表示从当前时刻开始的之后的三个小时，可选的，该第三预设周期等于第一预设周期。

S503，将所述第三预设周期的集群指标信息作为所述待评估的集群指标信息；

在本发明实施例中，利用深度学习模型输出的第三预设周期的集群指标信息即为预测的接下来的一段时间内的系统集群作业情况和队列作业情况等，利用上述第三预设周期的集群指标信息作为待评估的集群指标信息进行后续的资源评估，可以对集群资源的使用情况进行了预测，使资源使用问题能够及早发现并及时调整，保证集群资源的有效分配和合理预警。

S504，获取待评估的集群指标信息；

在本发明实施例中，上述S504描述的内容和S201描述的内容一致，此处不再加以赘述。

S505，根据待评估的所述集群指标信息确定集群作业平均延迟和集群资源利用率；

在本发明实施例中，上述S505描述的内容和S202描述的内容一致，此处不再加以赘述。

S506，根据待评估的所述集群指标信息、所述集群作业平均延迟和所述集群资源利用率，确定队列作业平均延迟标准差和队列资源利用率标准差；

在本发明实施例中，上述S506描述的内容和S203描述的内容一致，此处不再加以赘述。

S507，根据所述集群作业平均延迟、所述集群资源利用率、所述队列作业平均延迟标准差和所述队列资源利用率标准差中至少之一，进行资源评估。

在本发明实施例中，上述S507描述的内容和S204描述的内容一致，此处不再加以赘述。

上述资源评估方法，将实测的第二预设周期内的集群指标信息输入至深度学习模型，利用深度学习模型输出预测的第三预设周期内的集群指标信息，将第三预设周期的集群指标信息作为待评估的集群指标信息，获取待评估的集群指标信息；根据待评估的集群指标信息确定集群作业平均延迟和集群资源利用率；根据待评估的集群指标信息、集群作业平均延迟和集群资源利用率，确定队列作业平均延迟标准差和队列资源利用率标准差；根据集群作业平均延迟、集群资源利用率、队列作业平均延迟标准差和队列资源利用率标准差，进行资源评估。其中，利用待评估的集群指标信息得到集群作业平均延迟、集群资源利用率、队列作业平均延迟标准差和队列资源利用率标准差，从而实现了针对整个队列或整个集群的使用情况的定量分析，评估方法更加准确，此外，利用上述第三预设周期的集群指标信息作为待评估的集群指标信息进行后续的资源评估，可以对集群资源的使用情况进行了预测，使资源使用问题能够及早发现并及时调整，保证集群资源的有效分配和合理预警。

应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种资源评估装置，包括：信息获取模块601、第一确定模块602、第二确定模块603和评估模块604，其中：

信息获取模块601，用于获取待评估的集群指标信息；

第一确定模块602，用于根据待评估的所述集群指标信息确定集群作业平均延迟和集群资源利用率；

第二确定模块603，用于根据待评估的所述集群指标信息、所述集群作业平均延迟和所述集群资源利用率，确定队列作业平均延迟标准差和队列资源利用率标准差；

评估模块604，用于根据所述集群作业平均延迟、所述集群资源利用率、所述队列作业平均延迟标准差和所述队列资源利用率标准差中至少之一，进行资源评估。

作为一种可选的实施方式，所述待评估的集群指标信息包括：第一预设周期内第i次采样时的集群等待作业个数、所述第一预设周期内的采样总次数、所述第一预设周期内的集群完成作业数、所述第一预设周期内的第q个作业完成时的内存使用量和所述第一预设周期内的集群总内存；所述第一确定模块602用于：

作为一种可选的实施方式，所述待评估的集群指标信息包括：第一预设周期内第i次采样时的每一队列等待作业个数、所述第一预设周期内的采样总次数、所述第一预设周期内的队列数、所述第一预设周期内的每一队列完成作业数、所述第一预设周期内的第p个作业完成时的内存使用量和所述第一预设周期内的队列内存；所述第二确定模块603用于：

作为一种可选的实施方式，所述评估模块604用于：

其中，a1、a2、a3、b1、b2、b3、c1、c2、c3、c4均为正数。

作为一种可选的实施方式，所述待评估的集群指标信息包括实测的集群指标信息或预测的集群指标信息。

作为一种可选的实施方式，所述待评估的集群指标信息为预测的集群指标信息；所述资源评估装置还包括：第一输入模块、输出模块和第三确定模块，具体的：

第一输入模块，用于将实测的第二预设周期内的集群指标信息输入至深度学习模型；

输出模块，用于利用所述深度学习模型输出预测的第三预设周期内的集群指标信息；

第三确定模块，用于将所述第三预设周期的集群指标信息作为所述待评估的集群指标信息。

作为一种可选的实施方式，所述资源评估装置还包括：第二输入模块和迭代模块，具体的：

第二输入模块，用于将实测的第四预设周期内的集群指标信息输入至初始深度学习模型；

迭代模块，用于迭代执行所述初始深度学习模型的正向推导和反向传播算法，得到所述深度学习模型。

关于资源评估装置的具体限定可以参见上文中对于资源评估方法的限定，在此不再赘述。上述资源评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储集群指标信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种资源评估方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取待评估的集群指标信息；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：若所述集群作业平均延迟处于[a1，∞)，且所述集群资源利用率处于[b1，1]，则确定系统的资源不足；

其中，a1、a2、a3、b1、b2、b3、c1、c2、c3、c4均为正数。

所述待评估的集群指标信息包括实测的集群指标信息或预测的集群指标信息。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待评估的集群指标信息；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

其中，a1、a2、a3、b1、b2、b3、c1、c2、c3、c4均为正数。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种资源评估方法，其特征在于，所述方法包括：

获取待评估的集群指标信息，所述待评估的集群指标信息包括实测集群指标信息和预测集群指标信息，当所述待评估的集群指标信息需要是预测集群指标信息时，利用深度学习模型对实测集群指标信息进行训练，得到预测集群指标信息作为所述待评估的集群指标信息；

根据待评估的所述集群指标信息确定集群作业平均延迟和集群资源利用率；所述待评估的集群指标信息包括：第一预设周期内第i次采样时的集群等待作业个数、所述第一预设周期内的采样总次数、所述第一预设周期内的集群完成作业数、所述第一预设周期内的第q个作业完成时的内存使用量和所述第一预设周期内的集群总内存；

具体步骤为：根据所述第i次采样时的集群等待作业个数和所述采样总次数，确定所述集群作业平均延迟；

根据所述集群完成作业数、所述第q个作业完成时的内存使用量和所述集群总内存，确定所述集群资源利用率；

根据所述待评估的所述集群指标信息、所述集群作业平均延迟和所述集群资源利用率，确定队列作业平均延迟标准差和队列资源利用率标准差；所述待评估的集群指标信息包括：第一预设周期内第i次采样时的每一队列等待作业个数、所述第一预设周期内的第i次采样时的每一队列等待作业个数、所述第一预设周期内的采样总次数、所述第一预设周期内的队列数、所述第一预设周期内的每一队列完成作业数、所述第一预设周期内的第p个作业完成时的内存使用量和所述第一预设周期内的队列内存；具体步骤：

根据所述每一队列资源利用率、所述队列数和所述集群资源利用率，确定所述队列资源利用率标准差；

2.根据权利要求1所述的方法，其特征在于，所述根据所述集群作业平均延迟、所述集群资源利用率、所述队列作业平均延迟标准差和所述队列资源利用率标准差中至少之一，进行资源评估，包括：

其中，a1、a2、a3、b1、b2、b3、c1、c2、c3、c4均为正数。

3.根据权利要求1所述的方法，其特征在于，所述待评估的集群指标信息包括实测的集群指标信息或预测的集群指标信息。

4.根据权利要求1所述的方法，其特征在于，所述待评估的集群指标信息为预测的集群指标信息；

所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.一种资源评估装置，其特征在于，所述装置包括：

信息获取模块，用于获取待评估的集群指标信息，所述待评估的集群指标信息包括实测集群指标信息和预测集群指标信息，当所述待评估的集群指标信息需要是预测集群指标信息时，利用深度学习模型对实测集群指标信息进行训练，得到预测集群指标信息作为所述待评估的集群指标信息；

第一确定模块，用于根据待评估的所述集群指标信息确定集群作业平均延迟和集群资源利用率；所述待评估的集群指标信息包括：第一预设周期内第i次采样时的集群等待作业个数、所述第一预设周期内的采样总次数、所述第一预设周期内的集群完成作业数、所述第一预设周期内的第q个作业完成时的内存使用量和所述第一预设周期内的集群总内存；

所述第一确定模块具体用于根据所述第i次采样时的集群等待作业个数和所述采样总次数，确定所述集群作业平均延迟；

第二确定模块，用于根据所述待评估的所述集群指标信息、所述集群作业平均延迟和所述集群资源利用率，确定队列作业平均延迟标准差和队列资源利用率标准差；所述待评估的集群指标信息包括：第一预设周期内第i次采样时的每一队列等待作业个数、所述第一预设周期内的第i次采样时的每一队列等待作业个数、所述第一预设周期内的采样总次数、所述第一预设周期内的队列数、所述第一预设周期内的每一队列完成作业数、所述第一预设周期内的第p个作业完成时的内存使用量和所述第一预设周期内的队列内存；

所述第二确定模块具体用于根据所述第i次采样时的每一队列等待作业个数和所述采样总次数，确定每一队列作业平均延迟；

7.根据权利要求6所述的装置，其特征在于，所述评估模块用于若所述集群作业平均延迟处于[a1，∞)，且所述集群资源利用率处于[b1，1]，则确定系统的资源不足；

其中，a1、a2、a3、b1、b2、b3、c1、c2、c3、c4均为正数。

8.根据权利要求6所述的装置，其特征在于，所述待评估的集群指标信息包括实测的集群指标信息或预测的集群指标信息。

9.一种计算机设备，包括存储器及处理器，所述存储器上存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。