CN113672375B

CN113672375B - 资源分配预测方法、装置、设备及存储介质

Info

Publication number: CN113672375B
Application number: CN202010412687.5A
Authority: CN
Inventors: 牛军; 任仲涛; 蔡丰龙
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2023-05-19
Anticipated expiration: 2040-05-15
Also published as: CN113672375A

Abstract

本申请实施例提供一种资源分配预测方法、装置、设备及存储介质，该方法包括：获取待预测应用的资源分配影响因子，所述资源分配影响因子用于表示对所述待预测应用进行资源分配的影响因素；根据所述待预测应用的资源分配影响因子，通过资源分配预测模型，确定所述待预测应用的资源分配预测信息，所述资源分配预测模型是由多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息，通过对随机森林模型或决策树模型进行训练获得的。本申请实施例提供的方法能够克服现有技术中无法实现在保证资源够用的情况下，提高资源利用率，减少冗余资源的分配的问题。

Description

资源分配预测方法、装置、设备及存储介质

技术领域

本申请实施例涉及数据处理技术领域，尤其涉及一种资源分配预测方法、装置、设备及存储介质。

背景技术

随着用户规模的增加、产生数据量的快速增长，云平台承载的用户所需的资源越来越多。

根据调研数据，全球的服务器利用率并不高，只有6％到12％，即使通过虚拟化技术优化，利用率还是只有7％－17％，这正是传统运维和粗放的资源使用模式带来的最大问题。因此，云平台在资源管理上有许多问题需要解决，特别是如何给平台上面的租户合理的分配资源。

但是现有技术中无法实现在保证资源够用的情况下，减少冗余资源的分配，进而提高资源利用率的问题。

发明内容

本申请实施例提供一种资源分配预测方法、装置、设备及存储介质，以克服现有技术中无法实现在保证资源够用的情况下，提高资源利用率，减少冗余资源的分配的问题。

第一方面，本申请实施例提供一种资源分配预测方法，包括：

获取待预测应用的资源分配影响因子，所述资源分配影响因子用于表示对所述待预测应用进行资源分配的影响因素；

根据所述待预测应用的资源分配影响因子，通过资源分配预测模型，确定所述待预测应用的资源分配预测信息，所述资源分配预测模型是由多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息，通过对随机森林模型或决策树模型进行训练获得的。

在一种可能的设计中，所述资源分配影响因子包括下述至少一项：占用空间数据、批量数据、分区个数、应用并发个数和链接个数，所述历史资源分配信息包括下述至少一项：应用吞吐量、CPU的使用占比、内存的占比、磁盘的占比；

在所述根据所述资源分配影响因子，通过资源分配预测模型，确定所述待预测应用的资源分配预测信息之前，所述方法还包括：

获取所述多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息；

根据所述资源分配影响因子与历史资源分配信息之间的映射关系，对每个所述历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息进行匹配，生成多个样本；

根据所述多个样本，对所述随机森林模型或所述决策树模型进行训练，得到所述资源分配预测模型。

在一种可能的设计中，所述资源分配影响因子与历史资源分配信息之间的映射关系为：所述应用并发个数和所述链接个数与所述吞吐量存在第一映射关系，所述占用空间数据、批量数据、分区个数以及应用并发个数与所述CPU的使用占比存在第二映射关系，所述占用空间数据、批量数据以及应用并发个数与所述内存的占比存在第三映射关系，所述占用空间数据、批量数据以及应用并发个数与所述磁盘的占比存在第四映射关系。

在一种可能的设计中，所述根据所述资源分配影响因子与历史资源分配信息之间的映射关系，对每个所述历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息进行匹配，生成多个样本，包括：

根据所述第一映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第一映射关系的所述应用并发个数、所述链接个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第一映射关系的所述吞吐量，将所述应用并发个数、所述链接个数以及所述吞吐量作为第一样本；

根据所述第二映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第二映射关系的所述占用空间数据、批量数据、分区个数以及应用并发个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第二映射关系的所述CPU的使用占比，将所述占用空间数据、批量数据、分区个数、应用并发个数以及所述CPU的使用占比作为第二样本；

根据所述第三映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第三映射关系的所述占用空间数据、批量数据以及应用并发个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第三映射关系的所述内存的占比，将所述占用空间数据、批量数据、应用并发个数以及所述内存的占比作为第三样本；

根据所述第四映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第四映射关系的所述占用空间数据、批量数据以及应用并发个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第四映射关系的所述磁盘的占比，将所述占用空间数据、批量数据、应用并发个数以及所述磁盘的占比作为第四样本；

将每个所述第一样本、每个所述第二样本、每个所述第三样本和每个所述第四样本形成所述多个样本。

在一种可能的设计中，所述根据所述多个样本，对所述随机森林模型或所述决策树模型进行训练，得到所述资源分配预测模型，包括：

根据所述多个样本，将每个所述第一样本形成第一样本集、将每个所述第二样本形成第二样本集、将每个所述第三样本形成第三样本集、将每个所述第四样本形成第四样本集；

将所述第一样本集中的所有所述第一样本、所述第二样本集中的所有所述第二样本、所述第三样本集中的所有所述第三样本以及所述第四样本集中的所有所述第四样本分别依次输入到所述随机森林模型或所述决策树模型中，得到所述资源分配预测模型。

在一种可能的设计中，在所述确定所述待预测应用的资源分配预测信息之后，所述方法还包括：

将所述资源分配预测信息发送至所述待预测应用对应的网络设备，以使所述网络设备向用户显示所述资源分配预测信息；

根据所述资源分配预测信息为所述待预测应用进行资源分配。

第二方面，本申请实施例提供一种资源分配预测装置，包括：

第一获取模块，用于获取待预测应用的资源分配影响因子，所述资源分配影响因子用于表示对所述待预测应用进行资源分配的影响因素；

预测模块，用于根据所述待预测应用的资源分配影响因子，通过资源分配预测模型，确定所述待预测应用的资源分配预测信息，所述资源分配预测模型是由多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息，通过对随机森林模型或决策树模型进行训练获得的。

所述装置还包括：第二获取模块、多个样本生成模块、预测模型确定模块；

所述第二获取模块，用于在所述根据所述资源分配影响因子，通过资源分配预测模型，确定所述待预测应用的资源分配预测信息之前，获取所述多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息；

所述多个样本生成模块，用于根据所述资源分配影响因子与历史资源分配信息之间的映射关系，对每个所述历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息进行匹配，生成多个样本；

所述预测模型确定模块，用于根据所述多个样本，对所述随机森林模型或所述决策树模型进行训练，得到所述资源分配预测模型。

在一种可能的设计中，所述多个样本生成模块，包括：第一样本生成单元、第二样本生成单元、第三样本生成单元、第四样本生成单元以及多个样本生成单元；

所述第一样本生成单元，用于根据所述第一映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第一映射关系的所述应用并发个数、所述链接个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第一映射关系的所述吞吐量，将所述应用并发个数、所述链接个数以及所述吞吐量作为第一样本；

所述第二样本生成单元，用于根据所述第二映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第二映射关系的所述占用空间数据、批量数据、分区个数以及应用并发个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第二映射关系的所述CPU的使用占比，将所述占用空间数据、批量数据、分区个数、应用并发个数以及所述CPU的使用占比作为第二样本；

所述第三样本生成单元，用于根据所述第三映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第三映射关系的所述占用空间数据、批量数据以及应用并发个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第三映射关系的所述内存的占比，将所述占用空间数据、批量数据、应用并发个数以及所述内存的占比作为第三样本；

所述第四样本生成单元，用于根据所述第四映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第四映射关系的所述占用空间数据、批量数据以及应用并发个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第四映射关系的所述磁盘的占比，将所述占用空间数据、批量数据、应用并发个数以及所述磁盘的占比作为第四样本；

多个样本生成单元，用于将每个所述第一样本、每个所述第二样本、每个所述第三样本和每个所述第四样本形成所述多个样本。

在一种可能的设计中，所述预测模块，具体用于：

在一种可能的设计中，所述装置还包括：预测信息发送模块、资源分配模块；

预测信息发送模块，用于在所述确定所述待预测应用的资源分配预测信息之后，将所述资源分配预测信息发送至所述待预测应用对应的网络设备，以使所述网络设备向用户显示所述资源分配预测信息；

资源分配模块，用于根据所述资源分配预测信息为所述待预测应用进行资源分配。

第三方面，本申请实施例提供一种资源分配预测设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的资源分配预测方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的资源分配预测方法。

本实施例提供的资源分配预测方法、装置、设备及存储介质，先获取待预测应用的资源分配影响因子，然后根据所述资源分配影响因子，通过由多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息，通过对随机森林模型或决策树模型进行训练获得的资源分配预测模型，确定所述待预测应用的资源分配预测信息，因此，本申请通过对待预测应用的资源利用情况的预测，实现对各个应用使用资源的合理分配，能够在保证资源够用的情况下，减少冗余资源的分配，进而提高资源利用率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的资源分配预测方法的场景示意图；

图2为本申请实施例提供的资源分配预测方法的流程示意图；

图3为本申请再一实施例提供的资源分配预测方法的流程示意图；

图4为本申请再一实施例提供的资源分配预测方法的流程示意图；

图5为本申请又一实施例提供的资源分配预测方法中的认证交互流程示意图；

图6为本申请再一实施例提供的资源分配预测方法的流程示意图；

图7为本申请实施例提供的资源分配预测装置的结构示意图；

图8为本申请又一实施例提供的资源分配预测装置的结构示意图；

图9为本申请实施例提供的资源分配预测设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术中，根据调研数据，全球的服务器利用率并不高，只有6％到12％，即使通过虚拟化技术优化，利用率还是只有7％－17％，这正是传统运维和粗放的资源使用模式带来的最大问题。但是现有技术中无法实现在保证资源够用的情况下，减少冗余资源的分配，进而提高资源利用率的问题。

为了解决上述问题，本申请实施例提供一种资源分配预测方法、装置、设备以及存储介质。

参考图1，图1为本申请实施例提供的资源分配预测方法的场景示意图。在实际应用中，实现资源分配预测方法的执行主体可以是终端设备(或服务器)10，在此不作限定。终端设备(或服务器)10通过与网络设备20(该网络设备20可以是终端设备或服务器)进行交互，比如，执行主体是第一终端设备，网络设备是第二终端设备；或执行主体是第一终端设备，网络设备是第二服务器；或执行主体是第一服务器，网络设备是第二终端设备；或执行主体是第一服务器，网络设备是第二服务器，其中，网络设备可以是一个或多个，通过资源分配预测方法来实现对网络设备中的某一或某些应用进行资源分配的预测，可以确定某一或某些应用在使用时对资源的利用情况，进而减少冗余资源的分配，实现资源的合理分配，提高资源利用率。

具体地，如何通过机器学习的方式，实现对资源分配预测的，参见图2所示，图2为为本申请实施例提供的资源分配预测方法的流程示意图，本实施例的执行主体可以为终端设备，也可以为服务器，可以将终端设备或服务器统一为资源分配平台，本实施例此处对执行主体不做限定。

参见图2，所述资源分配预测方法，包括：

S101、获取待预测应用的资源分配影响因子，所述资源分配影响因子用于表示对所述待预测应用进行资源分配的影响因素。

在实际应用中，资源分配平台(或资源分配工具)可以提供至少两种交互方式：web页面和restAPI，其中，API就是操作系统留给应用程序的一个调用接口，REST指一组架构约束条件和原则，满足约束条件和原则的应用程序设计。资源分配平台可以由四层组成：数据层、服务层、接口层、web展示层。

具体地，数据层(Data)：负责处理样本输入信息、存储任务信息、存储样本标记信息、管理模型文件。服务层(service)：由数据驱动模块、数据处理模块、算法模块、资源分配模块组成，其中，数据驱动模块DAO：封装了和Data层常见的数据操作接口，包含样本数据操作接口、任务数据操作接口、标记信息操作接口、模型管理操作接口；数据处理模块：提供对样本数据的抽取、清洗、加载功能；算法模块：提供常见的几种机器学习算法封装；资源分配模块：基于原子接口封装，完成API层的具体业务逻辑：包含新建训练、新建预测、选择模型、查看预测结果、查看历史训练、资源使用画像等接口。接口层(API)：提供API能力，AI能力接口和WEB管理的操作接口。4、web层(web)：系统提供的WEB服务，通过服务界面，用户可以进行查询、分析、样本库管理、模型训练等操作。

其中，在service层的数据处理模块，主要负责处理海量样本接入数据，包括文本文件、流式数据，这部分主要由spark集群负责完成。对于文本文件，spark支持读取指定路径下的批量文件；对于流式数据，spark支持steaming的方式，从消息中间件获取流式数据。采用spark集群不仅降低了开发成本，同时在数据量较大的情况下，分布式计算框架是处理海量数据的较好选择。在service层的算法模块，提供了线性回归、岭回归、随机森林、XGBOOST、孤异森林、ARIMA、统计判别算法、指数移动平均算法、多项式算法等常见的几种算法的封装。本实施例可以采用随机森林模型或XGBOOST模型作为机器学习的模型。

本实施例中，对于训练部分，资源分配影响因子这数据的来源包括流式数据和文本数据，这部分由接口层的样本接入模块统一接入，传递至数据处理模块进行统一抽取、清洗、加工。处理后的数据由模型训练模块进行训练，训练完成后的模型数据存储在分布式文件系统中，任务描述信息存储在数据库中。

S102、根据所述资源分配影响因子，通过资源分配预测模型，确定所述待预测应用的资源分配预测信息，所述资源分配预测模型是由多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息，通过对随机森林模型或决策树模型进行训练获得的。

本实施例中，首先采用随机森林模型或决策树模型作为资源分配预测模型的训练模型，根据多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息对随机森林模型或决策树模型进行训练，得到资源分配预测模型，然后将获取的待预测应用的资源分配影响因子输入到资源分配预测模型中，输出待预测应用的资源分配预测信息，进而实现对待预测应用的资源合理分配。

本实施例中，通过获取待预测应用的资源分配影响因子，然后根据所述资源分配影响因子，通过由多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息，通过对随机森林模型或决策树模型进行训练获得的资源分配预测模型，确定所述待预测应用的资源分配预测信息，因此，本申请通过对待预测应用的资源利用情况的预测，实现对各个应用使用资源的合理分配，能够在保证资源够用的情况下，减少冗余资源的分配，进而提高资源利用率。

在实际应用中，实现资源分配的预测过程中，可以先建立预测模型，具体如何建立资源分配预测模型，参见图3所示，图3为本申请再一实施例提供的资源分配预测方法的流程示意图。本实施在上述实施例的基础上。例如，在图2所述的实施例的基础上，对如何建立资源分配预测模型进行了详细说明。在S102之前，所述方法还包括：

S201、获取所述多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息；

S202、根据所述资源分配影响因子与历史资源分配信息之间的映射关系，对每个所述历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息进行匹配，生成多个样本；

S203、根据所述多个样本，对所述随机森林模型或所述决策树模型进行训练，得到所述资源分配预测模型。

本实施例中，资源分配平台可以从预设数据库中获取多个历史数据，这里的历史数据包括多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息，其中，历史数据可以用于表示历史应用在过去的时间实际运行时的属性参数以及运行状态参数，历史数据的来源包括流式数据和文本数据，并将该历史数据存储在预设数据库中。

在实际应用中，一个历史应用的资源分配影响因子可以包括占用空间数据、批量数据、分区个数、应用并发个数和链接个数中至少一项，同样，该历史应用的历史资源分配信息可以包括应用吞吐量、CPU的使用占比、内存的占比、磁盘的占比中至少一项，其中，不同的资源分配影响因子影响着不同的资源分配信息，因此，资源分配影响因子与历史资源分配信息之间存在映射关系。

具体地，根据每个历史应用的资源分配影响因子与历史资源分配信息之间的映射关系即根据占用空间数据、批量数据、分区个数、应用并发个数和链接个数分别与应用吞吐量、CPU的使用占比、内存的占比、磁盘的占比之间的映射关系，对每个所述历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息进行配对，生成多个样本，其中，每个样本为一组含有目标资源分配影响因子和与该目标资源分配影响因子匹配的目标历史资源分配信息的样本，该目标资源分配影响因子为从每个历史应用的占用空间数据、批量数据、分区个数、应用并发个数和链接个数中获取的至少一项，目标历史资源分配信息为从每个历史应用的应用吞吐量、CPU的使用占比、内存的占比、磁盘的占比中获取的一项。

然后根据生成的多个样本，对随机森林模型或所述决策树模型进行训练即对随机森林模型或所述决策树模型中的参数进行训练和优化，比如，针对决策树的训练过程，首先可以通过最小二乘算法，确定根节点和根节点的分裂特征，然后确定根节点的分裂点，然后根据根节点的分裂特征和根节点的分裂点对所有样本进行划分，得到根节点的两个分支节点，该根节点的每个分支节点包括至少一个样本，然后根据根节点的每个分支节点，遍历每个分支节点中的每个样本，再通过最小二乘算法，确定多个分裂特征和多个分裂点，进而生成一颗决策树，以此类推，最终形成多棵决策树即为资源分配预测模型。

如何实现每个所述历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息的匹配，进而生成多个样本，参见图4所示，图4为本申请再一实施例提供的资源分配预测方法，本实施例在上述实施例基础上，例如，在图3所述实施例的基础上，对S202进行了详细说明。所述根据所述资源分配影响因子与历史资源分配信息之间的映射关系，对每个所述历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息进行匹配，生成多个样本，包括：

S301、根据所述第一映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第一映射关系的所述应用并发个数、所述链接个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第一映射关系的所述吞吐量，将所述应用并发个数、所述链接个数以及所述吞吐量作为第一样本；

S302、根据所述第二映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第二映射关系的所述占用空间数据、批量数据、分区个数以及应用并发个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第二映射关系的所述CPU的使用占比，将所述占用空间数据、批量数据、分区个数、应用并发个数以及所述CPU的使用占比作为第二样本；

S303、根据所述第三映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第三映射关系的所述占用空间数据、批量数据以及应用并发个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第三映射关系的所述内存的占比，将所述占用空间数据、批量数据、应用并发个数以及所述内存的占比作为第三样本；

S304、根据所述第四映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第四映射关系的所述占用空间数据、批量数据以及应用并发个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第四映射关系的所述磁盘的占比，将所述占用空间数据、批量数据、应用并发个数以及所述磁盘的占比作为第四样本；

S305、将每个所述第一样本、每个所述第二样本、每个所述第三样本和每个所述第四样本形成所述多个样本。

本实施例中，每个历史应用的资源分配影响因子与历史资源分配信息之间的映射关系可以包括第一映射关系、第二映射关系、第三映射关系、第四映射关系。

在实际应用中，针对每个历史应用中的资源分配影响因子和历史资源分配信息可以包含第一映射关系、第二映射关系、第三映射关系、第四映射关系中的一个映射关系或多个映射关系，比如，对历史应用1获取的历史数据中包括应用并发个数、所述链接个数、占用空间数据、批量数据、分区个数、应用并发个数、吞吐量、CPU的使用占比，则该历史应用1的资源分配影响因子和历史资源分配信息对应有第一映射关系和第二映射关系；对历史应用2获取的历史数据中包括占用空间数据、批量数据、分区个数、应用并发个数、CPU的使用占比、内存的占比，则该历史应用2的资源分配影响因子和历史资源分配信息对应有第二映射关系和第三映射关系。因此，在生成样本的过程中，一个历史应用的资源分配影响因子和历史资源分配信息可以对应生成至少一个样本，且样本的类别不同，比如历史应用1的资源分配影响因子和历史资源分配信息对应有第一映射关系和第二映射关系，生成的样本分别可以为第一样本和第二样本。将该多个历史应用的资源分配影响因子和历史资源分配信息全部划分完以后，生成的多个第一样本、多个第二样本、多个第三样本以及多个第四样本形成了多个样本。

具体地，根据多个样本，如何确定资源分配预测模型，参见图5所示，图5为本申请又一实施例提供的资源分配预测方法的流程示意图，本实施例在上述实施例的基础上，例如，在图4所述的实施例的基础上，对S203进行了详细说明。所述根据所述多个样本，对所述随机森林模型或所述决策树模型进行训练，得到所述资源分配预测模型，包括：

S401、根据所述多个样本，将每个所述第一样本形成第一样本集、将每个所述第二样本形成第二样本集、将每个所述第三样本形成第三样本集、将每个所述第四样本形成第四样本集；

S402、将所述第一样本集中的所有所述第一样本、所述第二样本集中的所有所述第二样本、所述第三样本集中的所有所述第三样本以及所述第四样本集中的所有所述第四样本分别依次输入到所述随机森林模型或所述决策树模型中，得到所述资源分配预测模型。

本实施例中，对随机森林模型或所述决策树模型的训练可以分组训练，比如可以先针对第一映射关系对应的多个第一样本为第一样本集的训练，然后形成一颗决策树，同理，针对第二映射关系、第三映射关系以及第四映射关系均可形成一棵决策树，进而根据多个样本以及对决策树模型的训练可以形成多棵决策树即为资源分配预测模型。

因此，对于预测部分，数据的来源是用户的预测数据，在用户在确定对应的预测模型后，将数据输入到匹配的预测模型即可得到预测的结果。

在确定所述待预测应用的资源分配预测信息之后，如何实现对资源分配预测信息的处理，参见图6所示，图6为本申请再一实施例提供的资源分配预测方法的流程示意图，本实施例在上述实施例的基础上，对资源分配预测方法进行了详细说明。在所述确定所述待预测应用的资源分配预测信息之后，所述方法还包括：

S501、将所述资源分配预测信息发送至所述待预测应用对应的网络设备，以使所述网络设备向用户显示所述资源分配预测信息；

S502、根据所述资源分配预测信息为所述待预测应用进行资源分配。

本实施例中，在得到待预测应用的资源分配预测信息之后，可以在web层展示，也可以将所述资源分配预测信息发送至所述待预测应用对应的网络设备，以使所述网络设备向用户显示所述资源分配预测信息并存储在数据库中。

在实际应用中，通过对历史数据进行收集与训练，生成资源分配预测模型。在获取或接收到网络终端发送的新的应用的预测请求时，将新的应用需要预测的数据输入对应的模型，模型会提供相应的预测。例如，对某种消息中间件进行资源分配时，首先，可以获取该消息中间件的历史数据，包括中间件吞吐量(或应用吞吐量)、消息大小(空间数据)、批量大小(批量数据)、应用并发数(应用并发个数)、分区个数、CPU的使用占比、内存的占比、磁盘的占比等数据，将这些数据作为历史数据。其次，对历史样本数据进行抽取，把要预估的资源数据作为输出值，将影响预估的影响因子作为输入值，根据确定的训练模型，对抽取完成的样本进行训练，生成预测模型。最后，当要对新建的消息中间件集群进行资源分配时，只需要输入对应参数，即可获取预估分配的资源值。将人工智能技术应用实际生产工作中，将AI算法与云平台的资源分配需求相结合，在保证资源够用的情况下，减少冗余资源的分配，提高资源利用率，为平台上面的租户合理的分配资源。

为了实现所述资源分配预测方法，本实施例提供了一种资源分配预测装置。参见图7，图7为本申请实施例提供的资源分配预测装置的结构示意图；所述资源分配预测装置70，包括：第一获取模块701和预测模块702；第一获取模块701，用于获取待预测应用的资源分配影响因子，所述资源分配影响因子用于表示对所述待预测应用进行资源分配的影响因素；预测模块702，用于根据所述待预测应用的资源分配影响因子，通过资源分配预测模型，确定所述待预测应用的资源分配预测信息，所述资源分配预测模型是由多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息，通过对随机森林模型或决策树模型进行训练获得的。

本实施例通过设置第一获取模块701和预测模块702，用于获取待预测应用的资源分配影响因子，然后根据所述资源分配影响因子，通过由多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息，通过对随机森林模型或决策树模型进行训练获得的资源分配预测模型，确定所述待预测应用的资源分配预测信息，因此，本申请通过对待预测应用的资源利用情况的预测，实现对各个应用使用资源的合理分配，能够在保证资源够用的情况下，减少冗余资源的分配，进而提高资源利用率。

本实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图8为本申请又一实施例提供的资源分配预测装置的结构示意图，所述装置还包括：第二获取模块703、多个样本生成模块704、预测模型确定模块705；所述第二获取模块703，用于在所述根据所述资源分配影响因子，通过资源分配预测模型，确定所述待预测应用的资源分配预测信息之前，获取所述多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息；所述多个样本生成模块704，用于根据所述资源分配影响因子与历史资源分配信息之间的映射关系，对每个所述历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息进行匹配，生成多个样本；所述预测模型确定模块705，用于根据所述多个样本，对所述随机森林模型或所述决策树模型进行训练，得到所述资源分配预测模型。

在一种可能的设计中，所述多个样本生成模块，包括：第一样本生成单元、第二样本生成单元、第三样本生成单元、第四样本生成单元以及多个样本生成单元；所述第一样本生成单元，用于根据所述第一映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第一映射关系的所述应用并发个数、所述链接个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第一映射关系的所述吞吐量，将所述应用并发个数、所述链接个数以及所述吞吐量作为第一样本；所述第二样本生成单元，用于根据所述第二映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第二映射关系的所述占用空间数据、批量数据、分区个数以及应用并发个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第二映射关系的所述CPU的使用占比，将所述占用空间数据、批量数据、分区个数、应用并发个数以及所述CPU的使用占比作为第二样本；所述第三样本生成单元，用于根据所述第三映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第三映射关系的所述占用空间数据、批量数据以及应用并发个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第三映射关系的所述内存的占比，将所述占用空间数据、批量数据、应用并发个数以及所述内存的占比作为第三样本；所述第四样本生成单元，用于根据所述第四映射关系，从每个所述历史应用的资源分配影响因子中获取存在所述第四映射关系的所述占用空间数据、批量数据以及应用并发个数，且从每个所述历史应用的历史资源分配信息中获取存在所述第四映射关系的所述磁盘的占比，将所述占用空间数据、批量数据、应用并发个数以及所述磁盘的占比作为第四样本；多个样本生成单元，用于将每个所述第一样本、每个所述第二样本、每个所述第三样本和每个所述第四样本形成所述多个样本。

在一种可能的设计中，所述预测模块，具体用于：

根据所述多个样本，将每个所述第一样本形成第一样本集、将每个所述第二样本形成第二样本集、将每个所述第三样本形成第三样本集、将每个所述第四样本形成第四样本集；将所述第一样本集中的所有所述第一样本、所述第二样本集中的所有所述第二样本、所述第三样本集中的所有所述第三样本以及所述第四样本集中的所有所述第四样本分别依次输入到所述随机森林模型或所述决策树模型中，得到所述资源分配预测模型。

预测信息发送模块，用于在所述确定所述待预测应用的资源分配预测信息之后，将所述资源分配预测信息发送至所述待预测应用对应的网络设备，以使所述网络设备向用户显示所述资源分配预测信息；资源分配模块，用于根据所述资源分配预测信息为所述待预测应用进行资源分配。

为了实现所述资源分配预测方法，本实施例提供了一种资源分配预测设备。图9为本申请实施例提供的资源分配预测设备的结构示意图。如图9所示，本实施例的资源分配预测设备90包括：处理器901以及存储器902；其中，存储器902，用于存储计算机执行指令；处理器901，用于执行存储器存储的计算机执行指令，以实现上述实施例中所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的资源分配预测方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(PeripheralComponent，PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种资源分配预测方法，其特征在于，包括：

根据所述待预测应用的资源分配影响因子，通过资源分配预测模型，确定所述待预测应用的资源分配预测信息，所述资源分配预测模型是由多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息，通过对随机森林模型或决策树模型进行训练获得的；

所述资源分配影响因子包括下述至少一项：占用空间数据、批量数据、分区个数、应用并发个数和链接个数，所述历史资源分配信息包括下述至少一项：应用吞吐量、CPU的使用占比、内存的占比、磁盘的占比；

根据所述多个样本，对所述随机森林模型或所述决策树模型进行训练，得到所述资源分配预测模型；

所述资源分配影响因子与历史资源分配信息之间的映射关系为：所述应用并发个数和所述链接个数与所述吞吐量存在第一映射关系，所述占用空间数据、批量数据、分区个数以及应用并发个数与所述CPU的使用占比存在第二映射关系，所述占用空间数据、批量数据以及应用并发个数与所述内存的占比存在第三映射关系，所述占用空间数据、批量数据以及应用并发个数与所述磁盘的占比存在第四映射关系；

所述根据所述资源分配影响因子与历史资源分配信息之间的映射关系，对每个所述历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息进行匹配，生成多个样本，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个样本，对所述随机森林模型或所述决策树模型进行训练，得到所述资源分配预测模型，包括：

3.根据权利要求1或2所述的方法，其特征在于，在所述确定所述待预测应用的资源分配预测信息之后，所述方法还包括：

4.一种资源分配预测装置，其特征在于，包括：

预测模块，用于根据所述待预测应用的资源分配影响因子，通过资源分配预测模型，确定所述待预测应用的资源分配预测信息，所述资源分配预测模型是由多个历史应用中的每个历史应用的资源分配影响因子和每个所述历史应用对应的历史资源分配信息，通过对随机森林模型或决策树模型进行训练获得的；

所述预测模型确定模块，用于根据所述多个样本，对所述随机森林模型或所述决策树模型进行训练，得到所述资源分配预测模型；

所述多个样本生成模块，包括：第一样本生成单元、第二样本生成单元、第三样本生成单元、第四样本生成单元以及多个样本生成单元；

5.根据权利要求4所述的装置，其特征在于，所述预测模块，具体用于：

6.根据权利要求4或5所述的装置，其特征在于，所述装置还包括：预测信息发送模块、资源分配模块；

7.一种资源分配预测设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至3任一项所述的资源分配预测方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至3任一项所述的资源分配预测方法。