CN111258767A

CN111258767A - 复杂系统仿真应用的云计算资源智能分配方法与装置

Info

Publication number: CN111258767A
Application number: CN202010074265.1A
Authority: CN
Inventors: 朱峰; 姚益平; 王帅; 唐文杰; 李进; 肖雨豪
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2020-06-09
Anticipated expiration: 2040-01-22
Also published as: CN111258767B

Abstract

本申请涉及一种复杂系统仿真应用的云计算资源智能分配方法与装置。所述方法包括：采集复杂系统仿真应用的实时运行信息；从实时运行信息中抽取特征数据，得到复杂系统仿真应用的运行特征数据集；将运行特征数据集输入训练好的预测模型，通过预测模型根据运行特征数据集进行云计算资源预测，得到所需云计算资源；为复杂系统仿真应用分配与所需云计算资源相等的云计算资源。采用本方法能够提升应用执行性能。

Description

复杂系统仿真应用的云计算资源智能分配方法与装置

技术领域

本申请涉及云计算技术领域，特别是涉及一种复杂系统仿真应用的云计算资源分配方法、装置、计算机设备和存储介质。

背景技术

复杂系统仿真为经济、社会、国防等领域的研究带来了新的视角。在社会研究领域，可以突破常规方法的诸多限制，诸如非线性关系、随机问题、长周期的社会演化问题等。在作战方案分析与军事决策支持方面，复杂系统仿真通过对当前态势的快速推演，对成千上万种作战方案进行评估，能够在很短的时间内为下一步作战决策提供辅助决策支持。随着复杂系统仿真应用规模越来越大，实体之间的交互越来越复杂，对计算能力提出了越来越高的需求。云计算技术为复杂系统仿真的研究发展提供了新的途径与平台架构，能够以虚拟资源池的方式为复杂系统仿真应用提供高效的计算能力。

在云环境下，复杂系统仿真应用通常会被划分为多个组，分发到多个计算资源上并行协同计算，以满足对执行效率的需求。但是，若分配给复杂系统仿真应用的计算资源过少，则难以支持应用的高效运行。若分配给复杂系统仿真应用的计算资源过多，一方面会增加实体之间的通信负载，导致性能不增反降，另一方面也是对计算资源的一种浪费。然而，由于云计算环境具有分布共享和弹性伸缩的特点，从而使得分配资源时非常容易出现资源分配过多或过少的情况，导致降低了复杂系统仿真应用的应用执行性能。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升应用执行性能的复杂系统仿真应用的云计算资源智能分配方法、装置、计算机设备和存储介质。

一种复杂系统仿真应用的云计算资源智能分配方法，所述方法包括：

采集复杂系统仿真应用的实时运行信息；

从所述实时运行信息中抽取特征数据，得到所述复杂系统仿真应用的运行特征数据集；

将所述运行特征数据集输入训练好的预测模型，通过所述预测模型根据所述运行特征数据集进行云计算资源预测，得到所需云计算资源；

为所述复杂系统仿真应用分配与所述所需云计算资源相等的云计算资源。

在其中一个实施例中，所述方法还包括：

生成仿真数据集，并从所述仿真数据集中抽取训练特征数据集；

对所述训练特征数据集进行特征评价，从所述训练特征数据集中选择预设数量的训练特征数据组成候选特征集；

利用所述候选特征集对预设的预测模型进行训练，得到训练好的预测模型。

在其中一个实施例中，所述对所述训练特征数据集进行特征评价，从所述训练特征数据集中选择预设数量的训练特征数据组成候选特征集，包括：

评价所述训练特征数据集中各训练特征数据的特征能力；

选择所述特征能力最大的训练特征数据作为已选特征加入候选特征集，剩余的训练特征数据作为未选特征；

评价各所述未选特征的特征能力以及各所述未选特征与所述已选特征的冗余性，得到评价结果；

选择所述评价结果最优的所述未选特征作为已选特征加入候选特征集；

返回评价各所述未选特征的特征能力以及各所述未选特征与所述已选特征的冗余性的步骤，直至满足迭代要求得到最优的候选特征集为止。

在其中一个实施例中，所述评价所述训练特征数据集中各训练特征数据的特征能力，包括：

利用卡方检验评价各所述训练特征数据之间的关联度；

利用信息熵评价各所述训练特征数据对预测结果的影响程度；

结合所述关联度和所述影响程度评价所述训练特征数据的特征能力。

在其中一个实施例中，所述预设的预测模型包括至少一个预测子模型；所述利用所述候选特征集对预设的预测模型进行训练，得到训练好的预测模型，包括：

获取模型类别数量，生成与所述模型类别数量相等的随机数；

根据各所述随机数分别为各所述预测子模型进行模型配置，分别得到各所述预测子模型对应的基础模型；所述基础模型的总数量等于所述预测子模型的数量与所述模型类别数量的乘积；

利用所述候选特征集中的训练特征数据分别对各所述基础模型进行训练，分别得到各个训练好的基础模型；

计算各所述基础模型的精度和误差值，选择所述精度和误差值最高的基础模型作为目标模型，剩余的所述基础模型根据对应的所述精度和误差值进行降序排序，得到非目标模型序列；

将所述目标模型与所述非目标模型序列中当前排序最高的所述基础模型进行组合，得到组合模型，将所述组合模型作为候选模型；

从所述非目标模型序列中去除组成所述候选模型的基础模型，得到更新后的非目标模型序列；

将所述候选模型与更新后的所述非目标模型序列中当前排序最高的所述基础模型进行组合，得到新的组合模型，将新的所述组合模型作为候选模型；

返回从所述目标模型序列中去除组成所述候选模型的基础模型的步骤，直至更新后的非目标模型序列为空；

获取每一次组合得到的候选模型，并计算各所述候选模型的精度和误差值；

从每一次组合得到的各所述候选模型以及所述目标模型中选择精度和误差值最高的为最终的预测模型。

在其中一个实施例中，所述生成仿真数据集，并从所述仿真数据集中抽取训练特征数据集，包括：

配置多个运行特征不同的复杂系统仿真应用，并将配置的各所述复杂系统仿真应用进行部署运行；

采集配置的各所述复杂系统仿真应用的运行信息，得到仿真数据集；

对所述仿真数据集进行异常值清理和数据标准化处理，得到标准数据集；

从所述标准数据集中抽取特征数据，得到训练特征数据集。

在其中一个实施例中，所述为所述复杂系统仿真应用分配与所述所需云计算资源相等的云计算资源，包括：

确定当前空闲云计算资源最多的第一云节点；

当所述第一云节点的当前空闲云计算资源不小于所述所需云计算资源时，将所述第一云节点的当前空闲云计算资源分配给所述复杂系统仿真应用；

当所述第一云节点的当前空闲资源小于所述所需云计算资源时，获取与所述第一云节点距离最近且包括空闲云计算资源的第二云节点；

将所述第一云节点和所述第二云节点的当前空闲云计算资源分配给所述复杂系统仿真应用。

一种复杂系统仿真应用的云计算资源智能分配装置，所述装置包括：

采集模块，用于采集复杂系统仿真应用的实时运行信息；

抽取模块，用于从所述实时运行信息中抽取特征数据，得到所述复杂系统仿真应用的运行特征数据集；

预测模块，用于将所述运行特征数据集输入训练好的预测模型，通过所述预测模型根据所述运行特征数据集进行云计算资源预测，得到所需云计算资源；

分配模块，用于为所述复杂系统仿真应用分配与所述所需云计算资源相等的云计算资源。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项复杂系统仿真应用的云计算资源智能分配方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项复杂系统仿真应用的云计算资源智能分配方法的步骤。

上述复杂系统仿真应用的云计算资源智能分配方法与装置，通过采集复杂系统仿真应用的实时运行信息，进而从实时运行信息中抽取特征数据得到复杂系统仿真应用的运行特征数据集后，利用训练好的预测模型根据运行特征数据集进行云计算资源预测，得到所需云计算资源，最后根据所需云计算资源为复杂系统仿真应用分配云计算资源。该方法针对复杂系统仿真应用运行的特点，通过预测仿真应用的资源需求进行资源分配，保证资源分配的准确性，从而实现复杂系统仿真应用执行性能的提升。

附图说明

图1为一个实施例中复杂系统仿真应用的云计算资源智能分配方法的应用环境图；

图2为一个实施例中复杂系统仿真应用的云计算资源智能分配方法的流程示意图；

图3为一个实施例中预测模型的训练方法的流程示意图；

图4为一个实施例中对训练特征数据集进行特征评价，从训练特征数据集中选择预设数量的训练特征数据组成候选特征集步骤的流程示意图；

图5为一个实施例中复杂系统仿真应用的云计算资源智能分配装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的复杂系统仿真应用的云计算资源智能分配方法，可以应用于如图1所示的应用环境中，该应用环境涉及终端102、云节点集群104和服务器106，其中，终端102、云节点集群104和服务器104互相通过网络进行通信。首先，将运行于终端102的复杂系统仿真应用部署到云节点集群中。然后，服务器106从云节点集群104中采集复杂系统仿真应用的实时运行信息；服务器106从实时运行信息中抽取特征数据，得到复杂系统仿真应用的运行特征数据集；服务器106将运行特征数据集输入训练好的预测模型，通过预测模型根据运行特征数据集进行云计算资源预测，得到所需云计算资源；服务器106为复杂系统仿真应用分配与所需云计算资源相等的云节点集群104的云计算资源。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，云节点集群104可以是多个服务器组成的集群，服务器106可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种复杂系统仿真应用的云计算资源智能分配方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，采集复杂系统仿真应用的实时运行信息。

其中，实时运行信息为实时收集的复杂系统仿真应用在云节点中运行时所产生的数据。复杂系统仿真应用的实时运行信息记录了复杂系统仿真应用在执行过程中资源使用变化情况。

具体地，首先，为云节点集群中各个云节点部署运行监控器，运行监控器可以理解为是实时监控复杂系统仿真应用的运行情况的程序，用于精确采集复杂系统仿真应用的实时运行信息。被部署的运行监控器每隔一段时间间隔会采集在云节点中运行的复杂系统仿真应用的资源使用信息。当运行监控器部署完成之后，将复杂系统仿真应用部署到云环境的云节点中。当复杂系统仿真应用首次在云节点中运行时，可以随机给复杂系统仿真应用分配云计算资源。当复杂系统仿真应用运行起来之后，运行监控器即可实时采集复杂系统仿真应用的实时运行信息。运行监控器采集的实时运行信息包括：仿真应用基本信息，仿真应用运行信息，仿真应用资源使用信息、云计算资源信息。仿真应用基本信息包括仿真应用执行文件的大小、配置文件的数量、采用的仿真同步算法，Lookahead(预测)值。仿真应用运行信息包括仿真应用开始执行时间，应用结束执行时间，执行的云计算节点编号。仿真应用资源使用信息包括CPU利用率、内存利用率、网络吞吐量与时延、文件系统使用情况。云计算资源信息包括可用的计算资源数量、可用CPU利用率。

步骤S204，从实时运行信息中抽取特征数据，得到复杂系统仿真应用的运行特征数据集。

其中，运行特征数据集是从实时运行信息中抽取的特征数据，该特征数据能够表征复杂系统仿真应用的特征。后续依据抽取到的能够表征复杂系统仿真应用的特征的运行特征数据集进行云计算资源预测，能够提高预测复杂系统仿真应用所需云计算资源的准确性。

具体地，当获取到实时运行信息之后，从实时运行信息中抽取CPU利用率，文件系统使用量，内存利用率，网络吞吐量，应用执行时间，预先给仿真应用分配的资源，网络时延与Lookahead值等特征数据，该些被抽取的特征数据组成运行特征数据集。

步骤S206，将运行特征数据集输入训练好的预测模型，通过预测模型根据运行特征数据集进行云计算资源预测，得到所需云计算资源。

其中，所需云计算资源是预测得到的复杂系统仿真应用所需要的云计算资源。在本实施例中，云计算资源可以理解为CPU资源，也就是复杂系统仿真应用所需要的CPU资源。预测模型即为预先训练好用于预测云计算资源的模型，预测模型可以包括神经网络模型、决策树模型、支持向量机模型以及K近邻算法模型中的任一项或多项。例如，预测模型可以是决策树模型、支持向量机模型以及K近邻算法模型这三种模型组合而成的集成模型。

具体地，当从实时运行信息中抽取得到运行特征数据集之后，调用预先训练好的预测模型。将运行特征数据集作为输入数据输入至预测模型中，预测模型通过输入的运行特征数据集进行云计算资源的预测，从而输出云计算资源。预测模型输出的云计算资源为复杂系统仿真应用的所需云计算资源。例如，当预测得到复杂系统仿真应用需要四核的CPU资源，那么所需云计算资源即为四核的CPU资源。

步骤S208，为复杂系统仿真应用分配与所需云计算资源相等的云计算资源。

具体地，当预测确定复杂系统仿真应用的所需云计算资源之后，服务器结合云节点集群中各云节点所能提供的计算资源，以尽可能不跨云节点为分配原则为复杂系统仿真应用分配云计算资源。例如，服务器从云节点集群中确定空闲云计算资源大于或等于所需云计算资源的云节点。然后，将确定的云节点的与所需云计算资源相等的空闲云计算资源分配给复杂系统仿真应用。而当云节点集群中不存在一个云节点的空闲云计算资源大于或等于所需云计算资源时，在获取多个具备空闲云计算资源的云节点。通过分布式分配的方式将不同云节点的空闲云计算资源分布式分配给复杂系统仿真应用，使得复杂系统仿真应用在云环境中进行分布式并行运行。

上述复杂系统仿真应用的云计算资源智能分配方法，通过采集复杂系统仿真应用的实时运行信息，进而从实时运行信息中抽取特征数据得到复杂系统仿真应用的运行特征数据集后，利用训练好的预测模型根据运行特征数据集进行云计算资源预测，得到所需云计算资源，最后根据所需云计算资源为复杂系统仿真应用分配云计算资源。该方法针对复杂系统仿真应用运行的特点，通过预测仿真应用的资源需求进行资源分配，保证资源分配的准确性，从而实现复杂系统仿真应用执行性能的提升。

在一个实施例中，如图3所示，预测模型的训练方法包括以下步骤：

步骤S302，生成仿真数据集，并从仿真数据集中抽取训练特征数据集。

其中，为了能够准确的预测复杂系统仿真应用所需要的云计算资源，同样需要大量能够表征仿真应用的特征的数据去训练预测模型。因此，所生成用于训练预测模型的仿真数据集是对配置的不同的仿真应用的运行信息进行实时采集得到。

具体地，本实施例选用离散时间仿真典型的Benchmark(基准)模型Phold，通过对Phold配置不同的参数，构建得到不同运行特征的仿真应用。然后，将构建得到的运行特征不同的多个仿真应用均部署到云环境中运行。以预定时间间隔，例如10秒对这些仿真应用的实时运行信息进行采集得到仿真数据集。从采集得到的仿真数据集中抽取得到用于训练的训练特征数据集。训练特征数据集中包括配置的仿真应用的CPU利用率，文件系统使用量，内存利用率，网络吞吐量，应用执行时间，预先给仿真应用分配的资源，网络时延与Lookahead值等特征数据。

步骤S304，对训练特征数据集进行特征评价，从训练特征数据集中选择预设数量的训练特征数据组成候选特征集。

其中，特征评价是评价训练特征数据集中各训练特征数据的特征能力，从而选择特征能力最优的特征数据集作为候选特征数据集。

在一个实施例中，如图4所示，步骤S304，对训练特征数据集进行特征评价，从训练特征数据集中选择预设数量的训练特征数据组成候选特征集包括：

步骤S402，评价训练特征数据集中各训练特征数据的特征能力。

具体地，训练特征数据X_m对类别C的特征能力w(X_m；C)一般受两个因素影响，一方面是特征数据与特征数据之间的关联度，另一方面是特征数据对预测结果的影响程度。类别C是指样本运行实际使用的CPU核数，例如3核，4核等。因此，需要结合从这两个方面对评价各训练特征数据的特征能力。

训练特征数据与训练特征数据之间的关联度可以利用卡方检验w₁(X_m；C)进行计算，卡方检验计算公式如下：

训练特征数据对预测结果的影响程度可以利用信息熵w₂(X_m；C)进行计算，信息熵计算公式如下：

特征能力评价公式为：

w(X_m；C)＝w₁(X_m；C)+α*(1-w₂(X_m；C))

其中，k为X_m的个数，A为实际X_m的频数，T为理论X_m的频数，p(x_d)为特征类别x_d出现的概率，α表示特征数据之间关联度与特征对预测结果影响程度的权值，log为对数函数。

步骤S404，选择特征能力最大的训练特征数据作为已选特征加入候选特征集，剩余的训练特征数据作为未选特征。

具体地，当通过步骤S302中的特征能力评价公式分别对各个训练特征数据进行特征能力评价之后，从中选择特征能力最大的训练特征数据作为已选特征加入候选特征集S中。

步骤S406，评价各未选特征的特征能力以及各未选特征与已选特征的冗余性，得到评价结果。

具体地，当存在已选特征之后，对未选特征进行评价时除了需要评价各未选特征的特征能力之外，还需要评价各未选特征与已选特征之间的整体和个体的冗余性。利用同时包括特征能力w(X_m；C)和冗余性I(X_m；X_s)的特征评价函数对未选特征进行评价，特征评价函数如下：

表示未选特征X_m和已选特征X_s之间的整体与个体冗余性，β表示特征能力与冗余性之间的权重。

未选特征X_m和已选特征X_s的整体冗余性I(X_m；X_s)的表达式如下：

p(x,y)为未选特征X_m与已选特征X_s联合概率密度函数，p(x)p(y)分别表示未选特征X_m和已选特征X_s的边缘概率密度函数。由于I(X_m；X_s)只考虑了未选特征X_m和已选特征X_s之间的整体冗余性，却忽略了未选特征X_m和已选特征X_s个体之间的差异。因此，引入标准差

作为权重体现未选特征X_m和已选特征X_s个体之间的差异。标准差

的计算公式如下：

μ表示I(X_m；X_s)的均值，

反应了未选特征X_m和已选特征X_s个体之间的差异。

步骤S408，选择评价结果最优的未选特征作为已选特征加入候选特征集。判断是否为最优候选特征集，若不是，返回步骤S404，评价各未选特征的特征能力以及各未选特征与已选特征的冗余性的步骤，直至满足迭代要求得到最优的候选特征集为止。

具体地，当通过特征评价函数对未选特征进行评价之后，选择评价结果最优的未选特征作为已选特征加入候选特征集S中。然后，重新利用特征评价函数对未选特征进行特征评价，再次选择评价结果最优的未选特征加入候选特征集中。直到候选特征集中的已选特征的数量满足预设数量时，预设数量可以根据实际情况进行设定，但是预设数量的值不能超过生成的仿真数据集D中数据的总量，{预设数量＝1、2、3……|D|}。

另外，以假设训练特征数据集{X_m}包括4个训练特征数据为例对上述得到候选特征集的过程进行详细说明。

具体地，利用特征能力评价公式对{X_m}中的4个特征数据X_m进行特征能力的评价，选择特征能力最高的特征数据X_m作为已选特征X_s加入候选特征集S＝{X_s}。此时，训练特征数据集中剩余3个未被选择的训练特征数据X_m，作为未选特征X_m。而候选特征集中包括1个已被选择的训练特征数据X_m，作为已选特征X_s。

利用特征评价函数评价各未选特征X_m的特征能力以及各未选特征X_m和已选特征X_s的整体和个体冗余性，得到评价结果。根据评价结果从3个未选特征X_m中确定最优的未选特征X_m作为已选特征X_s加入至候选特征集S中。此时，训练特征数据集中还剩余2个未选特征X_m，候选特征集中则包括2个已选特征X_s。

又循环开始利用特征评价函数评价剩余2个未选特征X_m的特征能力以及各未选特征X_m和已选特征X_s的整体和个体冗余性，原理相同在此不再赘述。直至候选特征集S中的已选特征X_s的个数满足预设数量，由此结束循环，得到包括预设数量的已选特征X_s的候选特征集S。比如，预设数量为3时，当候选特征集中有3个已选特征即可结束循环。

步骤S306，利用候选特征集对预设的预测模型进行训练，得到训练好的预测模型。

具体地，当得到候选特征集之后，利用候选特征集中的已选特征(被选择的训练特征数据)对预设的预测模型进行训练，得到训练好后的预测模型。训练可以是将候选特征集中分为训练集和测试集，模型在训练集上进行训练，在测试集上进行测试。例如，当预设的预测模型为决策树模型时，利用分出来的训练集对决策树模型进行训练，得到训练好的决策树模型为预测模型。而当预设的预测模型包括决策树模型、支持向量机模型以及K近邻算法模型这三个预测子模型时，则利用训练集分别对这三个预测子模型进行训练，得到三个训练好的预测子模型。后续利用预测模型进行预测时，结合三个预测子模型的输出得到最终的输出。

在本实施例中，通过对训练特征数据进行特征评价得到最优的候选特征集，保证预测的准确性。

在一个实施例中，预测模型包括至少一个预测子模型。利用候选特征集对预设的预测模型进行训练，得到训练好的预测模型具体包括：获取模型类别数量，生成与模型类别数量相等的随机数；根据各随机数分别为各预测子模型进行模型配置，分别得到各预测子模型对应的基础模型；基础模型的总数量等于预测子模型的数量与模型类别数量的乘积；利用候选特征集中的训练特征数据分别对各基础模型进行训练，分别得到各个训练好的基础模型；计算各基础模型的精度和误差值，选择精度和误差值最高的基础模型作为目标模型，剩余的基础模型根据对应的精度和误差值进行降序排序，得到非目标模型序列；将目标模型与非目标模型序列中当前排序最高的基础模型进行组合，得到组合模型，将组合模型作为候选模型；从非目标模型序列中去除组成候选模型的基础模型，得到更新后的非目标模型序列；将候选模型与更新后的非目标模型序列中当前排序最高的所述基础模型进行组合，得到新的组合模型，将新的组合模型作为候选模型；返回从目标模型序列中去除组成候选模型的基础模型的步骤，直至更新后的非目标模型序列为空；获取每一次组合得到的候选模型，并计算各候选模型的精度和误差值；从每一次组合得到的各候选模型以及目标模型中选择精度和误差值最高的为最终的预测模型。

其中，模型类别数量用于表示需要配置的不同类别的模型的数量。模型类别数量可以预先设置也可以有用户指定。随机数是基于随机数生成机制生成的数值。基础模型是根据随机数配置得到的预测子模型。

具体地，当训练预测模型时，首先根据模型类别数量确定需要配置的模型数量。启动随机数生成机制生成与模型类别数量相同的随机数。例如，模型类别数量为10，生成10个随机数。然后，根据生成的10个随机数对预测模型进行配置，一个随机数配置得到一个基础模型。例如，预测模型只包括一个预测子模型，假设只包括一个决策树模型。那么，通过10个随机数配置得到10个参数不同的决策树模型，这10个参数不同的决策树模型为决策树模型的基础模型。当预测模型包括三个预测子模型，假设包括决策树模型、支持向量机模型以及K近邻算法模型。那么，通过10个随机数分别为决策树模型、支持向量机模型以及K近邻算法模型配置得到10个基础模型，一共就是30个基础模型。

当得到基础模型之后，利用候选特征集中已被选择的训练特征数据训练所得到的基础模型。10个基础模型就是训练得到10个训练好的基础模型，30个基础模型就训练得到30个训练好的基础模型。

各基础模型训练好之后，计算各基础模型的精度和误差值(Accuracy andRelative Error，ARE)，ARE计算公式如下：

n表示样本数量，y表示第i各样本的真实值，

表示第i个样本的预测值，

表示模型的准确率，

表示样本真实值的均值，作为基准预测模型，

表示基准预测模型与基础模型的相对误差，λ表示用户对模型精度的偏好，0≤λ≤1。

选择ARE最高的基础模型作为目标模型，剩余的基础模型根据精度和误差值进行降序排序，所得到的序列作为非目标模型序列。将目标模型与非目标模型序列中排序最高的进行组合，得到组合模型并将得到的组合模型作为候选模型。因为候选模型是由多个基础模型组合而成的模型，已经被选中的基础模型就可以从非目标模型序列中去除，即去除组成该候选模型的基础模型，得到新的目标模型序列。然后将候选模型与新的非目标模型序列中排序最高的基础模型进行组合，得到的新的组合模型并同样将新的组合模型作为候选模型。然后又从非目标模型序列中去除组成当前候选模型的基础模型之后再次进行组合，如此循环直到非目标模型序列为空。每一次循环组合都会有产生一个候选模型，最后从每一次循环组合产生的候选模型以及目标模型中，选择ARE最高的模型为最终的预测模型。

应当理解的是，各候选模型的ARE可以是在得到候选模型之后直接进行计算，也可以是得到所有的候选模型之后统一计算。由于候选模型中包括多个基础模型，因此ARE公式中的预测值需要结合多个基础模型的输出结果。所以，利用ARE公式计算候选模型的ARE时，预测值

的计算公式如下：

t表示基础模型M_b的数量，基础模型集合{M₁,M₂,M₃,……M_t}，b∈t。

表示第i个样本在基础模型M_b的类别标记C_j的输出，

类别标记C_j是基础模型为样本从样本所属类别标记集合{C₁,C₂,C₃,……C_N}中预测的一个标记。

以6个基础模型为例对上述最终的预测模型选择过程进行详细说明，假设这6个基础模型分别用模型1、模型2、模型3、模型4、模型5、模型6表示。

具体地，利用ARE计算用模型1、模型2、模型3、模型4、模型5、模型6这6个模型的ARE值，然后以降序对模型进行排序，假设排序为模型1，模型3，模型5，模型2，模型6，模型4。选择ARE最高的模型1为目标模型。剩余的基础模型{模型3，模型5，模型2，模型6，模型4}为非目标模型序列。

将目标模型1与非目标模型序列中ARE最高的模型3进行组合，得到组合模型13，计算组合模型13的ARE值，组合模型13为当前的候选模型。

由于候选模型13由基础模型1和3组成，从非目标模型序列中去除模型1和模型3。非目标模型序列中已经没有模型1了，只需要去除模型3即可，得到的新的非目标模型序列，即{模型5，模型2，模型6，模型4}。

将候选模型13与新的非目标模型序列中ARE最高的模型5进行组合，能够得到新的组合模型135，这个新的组合模型135为当前的候选模型。由于候选模型135由基础模型1、3和5组成，从非目标模型序列中去除1、3和5。非目标模型序列中已经没有1和3了，只需要去除5即可，又得到的新的非目标模型序列{模型2、模型6、模型4}。如此重复进行迭代组合，直至非目标模型为空。由此可见，每一次循环组合都能得到一个候选模型，以这6个基础模型为例，最终能得到的候选模型13、候选模型135、候选模型1352、候选模型13526和候选模型135264。然后，分别计算这五个候选模型的ARE，根据五个候选模型的ARE和目标模型1的ARE，从中选择ARE最高的为最终的预测模型。所以，最终的预测模型的类型可能是只有一个单独基础模型的模型，也可能是由多个基础模型组合而成的集成模型。

在本实施例中，通过基于ARE的剪枝算法，即每一次只选择ARE最高的模型进行组合，最终从由不同数量的基础模型组成的候选模型和目标模型中选择最终的预测模型，相比将所有的基础模型进行组合排列之后计算每个组合排列的模型的ARE来说，能够节省计算量并且能够提高最终得到的预测模型的准确率。

在一个实施例中，生成仿真数据集，并从仿真数据集中抽取训练特征数据集，具体包括：配置多个运行特征不同的复杂系统仿真应用，并将配置的各复杂系统仿真应用进行部署运行；采集配置的各复杂系统仿真应用的运行信息，得到仿真数据集；对仿真数据集进行异常值清理和数据标准化处理，得到标准数据集；从标准数据集中抽取特征数据，得到训练特征数据集。

具体地，由于仿真数据集中包括多个不同运行特征的仿真应用的运行数据，数据量较为庞大。因此可能出异常值而造成数据量纲相差太大影响预测效果。因此，当通过对Phold配置不同的参数，构建得到不同运行特征的仿真应用并将这些配置的仿真应用部署运行到云环境生成仿真数据集之后，对仿真数据集进行数据清洗，将与数据中的异常值进行清理。并且，利用数据标准化方法对清理过后的数据进行标准化处理，得到标准数据集。数据标准化可采用任意一种方法进行，例如然后，从标准数据集中抽取仿真应用的CPU利用率，文件系统使用量，内存利用率，网络吞吐量，应用执行时间，预先给仿真应用分配的资源，网络时延与Lookahead值等特征数据作为训练特征数据集。其中，异常值清理可采用任意一种方法进行，例如通过正态分布图、聚类算法或线性回归等方法识别确定异常值之后进行清洗。数据标准化可采用任意一种方法进行，例如Min-max标准化(离差标准化)、归一化等。

在本实施例中，通过对仿真数据集进行异常值清理和数据标准化，防止数据量纲相差太大应用预测效果。

在一个实施例中，步骤S208，为复杂系统仿真应用分配与所需云计算资源相等的云计算资源，具体包括：确定当前空闲云计算资源最多的第一云节点；当第一云节点的当前空闲云计算资源不小于所需云计算资源时，将第一云节点的当前空闲云计算资源分配给复杂系统仿真应用；当第一云节点的当前空闲资源小于所需云计算资源时，获取与第一云节点距离最近且包括空闲云计算资源的第二云节点；将第一云节点和第二云节点的当前空闲云计算资源分配给复杂系统仿真应用。

具体地，当服务器需要为复杂系统仿真应用分配所需云计算资源时，确定云节点集群中各云节点的当前空闲资源。优先选择当前空闲云计算资源最多的云节点为第一云节点。当第一云节点的当前空闲云计算资源大于或等于复杂系统仿真应用的所需云计算资源时，表示第一云节点可以单独提供资源给复杂系统仿真应用。服务器即直接将第一云节点的当前空闲云计算资源分配给复杂系统仿真应用。当第一云节点的当前空闲云计算资源小于复杂系统仿真应用的所需云计算资源时，表示第一云节点的空闲资源不够提供给复杂系统仿真应用。服务器根据预先已知的云节点集群中各云节点之间的距离，选择与第一云节点距离最近的云节点，即第二云节点。将第一云节点无法提供的部分资源从第二云节点中进行分配。例如，复杂系统仿真应用需要A+B的云计算资源，第一云节点的当前空闲云计算为A，那么剩余的B从第二云节点分配给复杂系统仿真应用。另外，第二云节点可以是多个云节点。当与第一云节点距离最近的云节点的空闲云计算资源不够分配时，还可以根据距离获取距离第二近的云节点的空闲云计算资源进行分配。

在本实施例中，通过优先选择空闲资源的云节点进行分配，而后根据距离选择与第一云节点最近的第二云节点分配剩余的所需云计算资源，能够最大限度的保证不跨网络节点的原则，即使需要跨节点也可以保证节点之间的距离最小，从而提升仿真应用运行性能。

在一个实施例中，当第一云节点的空闲云计算资源不够分配时，除了选择距离第一云节点最近的第二云节点之后，还可以选择空闲云计算资源第二高的云节点进行分配。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种复杂系统仿真应用的云计算资源智能分配装置，包括：采集模块502、抽取模块504、预测模块506和分配模块508，其中：

采集模块502，用于采集复杂系统仿真应用的实时运行信息。

抽取模块504，用于从实时运行信息中抽取特征数据，得到复杂系统仿真应用的运行特征数据集。

预测模块506，用于将运行特征数据集输入训练好的预测模型，通过预测模型根据运行特征数据集进行云计算资源预测，得到所需云计算资源。

分配模块508，用于为复杂系统仿真应用分配与所需云计算资源相等的云计算资源。

在一个实施例中，还包括训练模块，训练模块用于生成仿真数据集，并从仿真数据集中抽取训练特征数据集；对训练特征数据集进行特征评价，从训练特征数据集中选择预设数量的训练特征数据组成候选特征集；利用候选特征集对预设的预测模型进行训练，得到训练好的预测模型。

在一个实施例中，训练模块还用于评价训练特征数据集中各训练特征数据的特征能力；选择特征能力最大的训练特征数据作为已选特征加入候选特征集，剩余的训练特征数据作为未选特征；评价各未选特征的特征能力以及各未选特征与已选特征的冗余性，得到评价结果；选择评价结果最优的未选特征作为已选特征加入候选特征集；返回评价各未选特征的特征能力以及各未选特征与已选特征的冗余性的步骤，直至满足迭代要求得到最优的候选特征集为止。

在一个实施例中，训练模块用于利用卡方检验评价各训练特征数据之间的关联度；利用信息熵评价各训练特征数据对预测结果的影响程度；结合关联度和所述影响程度评价所述训练特征数据的特征能力。

在一个实施例中，训练模块还用于获取模型类别数量，生成与模型类别数量相等的随机数；根据各随机数分别为各预测子模型进行模型配置，分别得到各预测子模型对应的基础模型；基础模型的总数量等于预测子模型的数量与模型类别数量的乘积；利用候选特征集中的训练特征数据分别对各基础模型进行训练，分别得到各个训练好的基础模型；计算各基础模型的精度和误差值，选择精度和误差值最高的基础模型作为目标模型，剩余的基础模型根据对应的精度和误差值进行降序排序，得到非目标模型序列；将目标模型与非目标模型序列中当前排序最高的基础模型进行组合，得到组合模型，将组合模型作为候选模型；从非目标模型序列中去除组成候选模型的基础模型，得到更新后的非目标模型序列；将候选模型与更新后的非目标模型序列中当前排序最高的所述基础模型进行组合，得到新的组合模型，将新的组合模型作为候选模型；返回从目标模型序列中去除组成候选模型的基础模型的步骤，直至更新后的非目标模型序列为空；获取每一次组合得到的候选模型，并计算各候选模型的精度和误差值；从每一次组合得到的各候选模型以及目标模型中选择精度和误差值最高的为最终的预测模型。

在一个实施例中，训练模块用于配置多个运行特征不同的复杂系统仿真应用，并将配置的各复杂系统仿真应用进行部署运行；采集配置的各复杂系统仿真应用的运行信息，得到仿真数据集；对仿真数据集进行异常值清理和数据标准化处理，得到标准数据集；从标准数据集中抽取特征数据，得到训练特征数据集。

在一个实施例中，分配模块508还用于确定当前空闲云计算资源最多的第一云节点；当第一云节点的当前空闲云计算资源不小于所需云计算资源时，将第一云节点的当前空闲云计算资源分配给复杂系统仿真应用；当第一云节点的当前空闲资源小于所需云计算资源时，获取与第一云节点距离最近且包括空闲云计算资源的第二云节点；将第一云节点和第二云节点的当前空闲云计算资源分配给复杂系统仿真应用。

关于复杂系统仿真应用的云计算资源智能分配装置的具体限定可以参见上文中对于复杂系统仿真应用的云计算资源智能分配方法的限定，在此不再赘述。上述复杂系统仿真应用的云计算资源智能分配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储实时运行信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种复杂系统仿真应用的云计算资源智能分配方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

采集复杂系统仿真应用的实时运行信息；

从实时运行信息中抽取特征数据，得到复杂系统仿真应用的运行特征数据集；

将运行特征数据集输入训练好的预测模型，通过预测模型根据运行特征数据集进行云计算资源预测，得到所需云计算资源；

为复杂系统仿真应用分配与所需云计算资源相等的云计算资源。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：生成仿真数据集，并从仿真数据集中抽取训练特征数据集；对训练特征数据集进行特征评价，从训练特征数据集中选择预设数量的训练特征数据组成候选特征集；利用候选特征集对预设的预测模型进行训练，得到训练好的预测模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：评价训练特征数据集中各训练特征数据的特征能力；选择特征能力最大的训练特征数据作为已选特征加入候选特征集，剩余的训练特征数据作为未选特征；评价各未选特征的特征能力以及各未选特征与已选特征的冗余性，得到评价结果；选择评价结果最优的未选特征作为已选特征加入候选特征集；返回评价各未选特征的特征能力以及各未选特征与已选特征的冗余性的步骤，直至满足迭代要求得到最优的候选特征集为止。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：利用卡方检验评价各训练特征数据之间的关联度；利用信息熵评价各训练特征数据对预测结果的影响程度；结合关联度和所述影响程度评价所述训练特征数据的特征能力。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取模型类别数量，生成与模型类别数量相等的随机数；根据各随机数分别为各预测子模型进行模型配置，分别得到各预测子模型对应的基础模型；基础模型的总数量等于预测子模型的数量与模型类别数量的乘积；利用候选特征集中的训练特征数据分别对各基础模型进行训练，分别得到各个训练好的基础模型；计算各基础模型的精度和误差值，选择精度和误差值最高的基础模型作为目标模型，剩余的基础模型根据对应的精度和误差值进行降序排序，得到非目标模型序列；将目标模型与非目标模型序列中当前排序最高的基础模型进行组合，得到组合模型，将组合模型作为候选模型；从非目标模型序列中去除组成候选模型的基础模型，得到更新后的非目标模型序列；将候选模型与更新后的非目标模型序列中当前排序最高的所述基础模型进行组合，得到新的组合模型，将新的组合模型作为候选模型；返回从目标模型序列中去除组成候选模型的基础模型的步骤，直至更新后的非目标模型序列为空；获取每一次组合得到的候选模型，并计算各候选模型的精度和误差值；从每一次组合得到的各候选模型以及目标模型中选择精度和误差值最高的为最终的预测模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：配置多个运行特征不同的复杂系统仿真应用，并将配置的各复杂系统仿真应用进行部署运行；采集配置的各复杂系统仿真应用的运行信息，得到仿真数据集；对仿真数据集进行异常值清理和数据标准化处理，得到标准数据集；从标准数据集中抽取特征数据，得到训练特征数据集。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：确定当前空闲云计算资源最多的第一云节点；当第一云节点的当前空闲云计算资源不小于所需云计算资源时，将第一云节点的当前空闲云计算资源分配给复杂系统仿真应用；当第一云节点的当前空闲资源小于所需云计算资源时，获取与第一云节点距离最近且包括空闲云计算资源的第二云节点；将第一云节点和第二云节点的当前空闲云计算资源分配给复杂系统仿真应用。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

采集复杂系统仿真应用的实时运行信息；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：生成仿真数据集，并从仿真数据集中抽取训练特征数据集；对训练特征数据集进行特征评价，从训练特征数据集中选择预设数量的训练特征数据组成候选特征集；利用候选特征集对预设的预测模型进行训练，得到训练好的预测模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：评价训练特征数据集中各训练特征数据的特征能力；选择特征能力最大的训练特征数据作为已选特征加入候选特征集，剩余的训练特征数据作为未选特征；评价各未选特征的特征能力以及各未选特征与已选特征的冗余性，得到评价结果；选择评价结果最优的未选特征作为已选特征加入候选特征集；返回评价各未选特征的特征能力以及各未选特征与已选特征的冗余性的步骤，直至满足迭代要求得到最优的候选特征集为止。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：利用卡方检验评价各训练特征数据之间的关联度；利用信息熵评价各训练特征数据对预测结果的影响程度；结合关联度和所述影响程度评价所述训练特征数据的特征能力。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取模型类别数量，生成与模型类别数量相等的随机数；根据各随机数分别为各预测子模型进行模型配置，分别得到各预测子模型对应的基础模型；基础模型的总数量等于预测子模型的数量与模型类别数量的乘积；利用候选特征集中的训练特征数据分别对各基础模型进行训练，分别得到各个训练好的基础模型；计算各基础模型的精度和误差值，选择精度和误差值最高的基础模型作为目标模型，剩余的基础模型根据对应的精度和误差值进行降序排序，得到非目标模型序列；将目标模型与非目标模型序列中当前排序最高的基础模型进行组合，得到组合模型，将组合模型作为候选模型；从非目标模型序列中去除组成候选模型的基础模型，得到更新后的非目标模型序列；将候选模型与更新后的非目标模型序列中当前排序最高的所述基础模型进行组合，得到新的组合模型，将新的组合模型作为候选模型；返回从目标模型序列中去除组成候选模型的基础模型的步骤，直至更新后的非目标模型序列为空；获取每一次组合得到的候选模型，并计算各候选模型的精度和误差值；从每一次组合得到的各候选模型以及目标模型中选择精度和误差值最高的为最终的预测模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：配置多个运行特征不同的复杂系统仿真应用，并将配置的各复杂系统仿真应用进行部署运行；采集配置的各复杂系统仿真应用的运行信息，得到仿真数据集；对仿真数据集进行异常值清理和数据标准化处理，得到标准数据集；从标准数据集中抽取特征数据，得到训练特征数据集。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：确定当前空闲云计算资源最多的第一云节点；当第一云节点的当前空闲云计算资源不小于所需云计算资源时，将第一云节点的当前空闲云计算资源分配给复杂系统仿真应用；当第一云节点的当前空闲资源小于所需云计算资源时，获取与第一云节点距离最近且包括空闲云计算资源的第二云节点；将第一云节点和第二云节点的当前空闲云计算资源分配给复杂系统仿真应用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种复杂系统仿真应用的云计算资源智能分配方法，所述方法包括：

采集复杂系统仿真应用的实时运行信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述训练特征数据集进行特征评价，从所述训练特征数据集中选择预设数量的训练特征数据组成候选特征集，包括：

评价所述训练特征数据集中各训练特征数据的特征能力；

4.根据权利要求3所述的方法，其特征在于，所述评价所述训练特征数据集中各训练特征数据的特征能力，包括：

利用卡方检验评价各所述训练特征数据之间的关联度；

5.根据权利要求2所述的方法，其特征在于，所述预设的预测模型包括至少一个预测子模型；所述利用所述候选特征集对预设的预测模型进行训练，得到训练好的预测模型，包括：

6.根据权利要求2所述的方法，其特征在于，所述生成仿真数据集，并从所述仿真数据集中抽取训练特征数据集，包括：

从所述标准数据集中抽取特征数据，得到训练特征数据集。

7.根据权利要求1所述的方法，其特征在于，所述为所述复杂系统仿真应用分配与所述所需云计算资源相等的云计算资源，包括：

确定当前空闲云计算资源最多的第一云节点；

8.一种复杂系统仿真应用的云计算资源智能分配装置，其特征在于，所述装置包括：

采集模块，用于采集复杂系统仿真应用的实时运行信息；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。