CN116627630A

CN116627630A - 资源需求预测模型训练、需求预测和资源调度方法及系统

Info

Publication number: CN116627630A
Application number: CN202310379797.XA
Authority: CN
Inventors: 张颖莹; 杨彬; 潘志诚; 王益杭; 田西夺; 窦云亮; 郭晨娟; 杨斌; 陈鹏; 周志强; 文青松
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-08-22

Abstract

本发明公开了一种资源需求预测模型训练、需求预测和资源调度方法及系统。所述方法包括：输入训练集数据，针对每个历史需求序列，根据尺度列表进行基于注意力机制的尺度内特征提取和尺度间特征融合，得到多尺度资源需求特征；根据资源需求特征进行高斯过程的回归预测，经多次迭代，得到资源需求预测序列；以训练集中的历史需求序列及其未来资源需求真值序列作为模型训练样本，基于损失函数多轮迭代训练，直至收敛于参数优选的需求预测模型。使用预测模型进行资源需求预测，并基于预测结果和目标系统的当前状态决策目标系统的调度动作。在进行未来需求预测时，从多种尺度进行特征提取，通过回归预测，对未来的不确定性进行量化提供精准的预测结果。

Description

资源需求预测模型训练、需求预测和资源调度方法及系统

技术领域

本发明涉及云智能技术领域，特别涉及一种资源需求预测模型训练、需求预测和资源调度方法及系统。

背景技术

云计算是一项通过互联网技术实现按需访问可共享计算资源，从而迅速提高大型分布式系统的运行效率的技术，目前，云计算这种高效的计算模式在工业界得到了广泛应用。在云计算的所有概念中，“按需”是关键的目标，为了动态响应用户的需求，资源提供方需要弹性分配资源，即按照用户指定的工作模式，动态分配如处理器、存储设备、应用程序等用于满足计算需求的共享资源。

云计算往往按照服务级别协议(Service Level Agreement，SLA)，满足承诺给不同用户的服务质量(Qualtify of Service，QoS)指标。低成本高性能的云服务是以合理有效的资源调度作为支撑的。一方面，资源调度需要按照SLA满足承诺给不同用户的QoS指标，例如最大延迟、最小吞吐率等；另一方面，资源调度还要尽可能地降低资源消耗和运行成本。因此，如何优化调度云计算资源，以尽可能少的云资源满足用户SLA规定的QoS指标，以避免云资源的“过度供应”是迫切需要解决的问题。

预测式自动伸缩(Predictive Auto-scaling)一种常用的基于工作负载预测以实时调整资源的关键技术，包括但不限于动态添加或删除计算资源(如云容器实例、CPU和内存资源量等)。其关键目标是使其在满足用户SLA规定的QoS指标的前提下，尽可能降低提供的云计算资源，通过更高效地使用资源来降低成本；确保应用程序具有足够的资源来满足其需求，又不会因过度预留资源而浪费资源，以提高应用程序的性能和可靠性。

预测式自动伸缩通常使用机器学习算法实现，该算法分析应用程序的历史使用模式、及时间(如当前时刻)和当前工作负载等相关因素，预测其未来的资源需求。然后，使用这些预测来自动调整分配给应用程序的资源，以确保其能够满足其需求并继续顺利运行。现有的预测式自动伸缩实现方案可以基于学习方法、统计分析、控制论、排队论等方法生成扩缩容决策，其中，大部分基于平均需求实现，而没有考虑预测的随机性，部分方法虽然考虑了预测的随机性，但其使用场景受限：例如：基于非齐次柏松过程和随机约束优化的智能弹性框架RobustScaler和Xue等提出的基于元学习模型的端到端预测的RL算法。

发明内容

本申请发明人发现，现有的预测式自动伸缩方案虽然开始考虑预测的随机性，但RobustScaler框架未能考虑突发负载对自动扩展策略的影响；基于元学习模型的端到端预测的RL算法仅考虑了CPU利用率的稳定性，这些方案都没有充分考虑预测的不确定性，也没有对用户未来资源需求的不确定性进行量化分析以获得不确定性量化值，无法预测未来的负载变化趋势，不能提供精准的预测结果，因此，也无法根据预测结果自适应的执行自动伸缩操作。

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种资源需求预测模型训练、需求预测和资源调度方法及系统。

本发明实施例提供一种资源需求预测模型训练方法，包括：

将选定粒度大小的训练集数据输入模型中，所述训练集中包括多个资源历史需求序列及对应的未来资源需求真值序列；

针对每个历史需求序列，根据预设的尺度列表生成多个不同尺度的子序列，基于注意力机制对所述子序列进行尺度内特征提取和尺度间特征融合，得到该历史需求序列对应的多尺度资源需求特征；

根据所述多尺度资源需求特征，进行高斯过程的回归预测，通过多次迭代，得到预测时间窗口内的资源需求预测序列；

基于训练集中的历史需求序列的未来资源需求真值序列和预测到的资源需求预测序列，使用预设的损失函数，确定模型损失是否符合预设要求，若否，调整模型参数并继续输入下一批次的训练集数据，直至模型损失符合预设要求后，得到参数优选的需求预测模型。

在一些可选的实施例中，所述根据预设的尺度列表生成多个不同尺度的子序列，基于注意力机制对所述子序列进行尺度内特征提取和尺度间特征融合，得到该历史需求序列对应的多尺度资源需求特征，包括：

以输入的历史需求序列作为最细粒度的子序列，生成不同尺度的子序列；

基于注意力机制对最粗粒度的子序列进行尺度内特征提取得到尺度内特征；

对非最粗粒度的子序列，按照尺度列表从粗到细的顺序，将上一个子序列的尺度内特征与对当前子序列进行融合，基于注意力机制对融合后的当前子序列进行尺度内特征提取得到尺度内特征，返回继续执行所述进行融合的步骤，直至提取出最细粒度的子序列的尺度内特征，得到输入的历史需求序列的资源需求特征。

在一些可选的实施例中，对子序列进行尺度内特征提取得到尺度内特征，包括：

根据预先设定的分段大小列表，确定尺度内特征提取的分层数量和每个分层的分段大小；在每一层，根据该层的分段大小将子序列划分为多个序列分段；

在每一层，对包括的序列分段采用注意力机制进行特征提取，对不同的序列分段通过循环神经网络进行感受野信息损失补偿；

逐层执行基于注意力的特征提取，并将上一层提取的特征传递至下一层，执行完最后一层的特征提取后得到子序列的尺度内特征。

在一些可选的实施例中，将上一个子序列的尺度内特征与对当前子序列进行融合，包括：

利用完全连接的神经网络调整上一个子序列的尺度内特征的维度，将维度调整后的尺度内特征与对当前子序列进行融合。

在一些可选的实施例中，所述根据所述多尺度资源需求特征，进行高斯过程的回归预测，通过多次迭代，得到预测时间窗口内的的资源需求预测序列，包括：

将历史需求序列的多尺度资源需求特征输入高斯回归模型，预测历史需求序列在下一时间戳的需求分布预测结果；

基于下一时间戳的需求分布预测结果和预设的回看窗口大小，更新历史需求序列，更新后的历史需求序列中，包括下一时间戳的需求分布预测结果；

将更新后的历史需求序列后输入到高斯回归模型，迭代执行预测过程，直至得到预设的预测时间窗口内的资源需求预测序列。

在一些可选的实施例中，所述资源需求预测序列中，包括：预测时间窗口内多个预测时刻的资源需求确定性预测的预测均值和非确定性预测的资源需求分布情况。

在一些可选的实施例中，还包括：

将选定粒度大小的验证集数据输入参数优选的需求预测模型中，所述验证集中包括多个资源历史需求序列及对应的未来资源需求真值序列；

根据所述参数优选的需求预测模型输出的预测时间窗口内的的资源需求预测序列和对应的未来资源需求真值序列，验证所述参数优选的需求预测模型是否符合预设的验证要求；若否，使用训练集继续对需求预测模型进行训练，直至符合验证要求，得到训练好的需求预测模型。

本发明实施例提供一种资源需求预测方法，包括：

基于当前时刻前设定回看时间窗口内的历史需求序列，使用训练好的资源需求预测模型，预测设定的预测时间窗口内的资源需求预测序列；所述资源需求预测模型采用上述的资源需求预测模型训练方法训练得到。

在一些可选的实施例中，所述基于当前时刻前设定回看时间窗口内的历史需求序列，使用训练好的资源需求预测模型，预测设定的预测时间窗口内的资源需求预测序列，包括：

获取当前时刻前设定回看时间窗口内的历史需求序列；

将历史需求序列输入训练好的资源需求预测模型，输出下一时刻的历史需求预测结果；

根据所述下一时刻的历史需求预测结果，将历史需求序列更新为下一时刻前设定时间窗口内的历史需求序列，返回执行将历史需求序列输入训练好的资源需求预测模型步骤，经设定次数的迭代后，得到设定的预测时间窗口内的资源需求预测序列。

本发明实施例提供一种资源调度方法，包括：

使用上述的资源需求预测方法对目标系统在当前时刻之后预测时间窗口内的资源需求进行预测，得到预测时间窗口内的资源需求预测序列；

根据所述资源需求预测数据和目标系统的当前资源供需状态，使用构建的决策模型确定目标系统的资源调度动作序列；所述动作序列中包括预测时间窗内多个时刻对应的资源调度动作。

在一些可选的实施例中，所述目标系统的当前资源供需状态包括当前时刻的弹性伸缩实例供给量、客户资源需求量、当前时刻处于缩容状态的实例；

所述资源调度动作包括扩缩容标识信息、扩容数量或缩容数量、当前时刻处于缩容状态的实例重新扩展的数量。

在一些可选的实施例中，还包括：

构建包括目标系统的当前资源供需状态、未来时刻的资源调度动作序列和未来时刻的成本三元组的马尔科夫决策函数；

以未来时刻的成本最小化为目标建立约束函数，得到包括马尔科夫决策函数和约束函数的决策模型。

本发明实施例提供一种资源预测模型，包括：多尺度注意力特征提取器和随机过程回归模型；

所述特征提取器，用于对输入的选定粒度大小的训练集数据进行特征提取，所述训练集中包括多个资源历史需求序列及对应的未来资源需求真值序列；针对每个历史需求序列，根据预设的尺度列表生成多个不同尺度的子序列，基于所述子序列进行尺度内特征提取和尺度间特征融合，得到该历史需求序列对应的多尺度资源需求特征；

所述随机过程回归模型根据所述多尺度资源需求特征，进行高斯过程的回归预测，通过多次迭代，得到预测时间窗口内的资源需求预测序列。

在一些可选的实施例中，所述特征提取器，包括外部特征提取模块和内部特征提取模块；

所述内部特征提取模块，用于对子序列进行尺度内特征提取得到尺度内特征；

所述外部特征提取模块，用于以输入的历史需求序列作为最细粒度的子序列，生成不同尺度的子序列；获取所述内部特征提取模块基于注意力机制对最粗粒度的子序列进行尺度内特征提取得到尺度内特征；对非最粗粒度的子序列，按照尺度列表从粗到细的顺序，将上一个子序列的尺度内特征与对当前子序列进行融合，获取所述内部特征提取模块对融合后的当前子序列进行尺度内特征提取得到尺度内特征，返回继续执行所述进行融合的步骤，直至提取出最细粒度的子序列的尺度内特征，得到输入的历史需求序列的资源需求特征。

本发明实施例提供一种资源调度系统，包括：资源预测模型和自动伸缩器；

所述资源预测模型为上述的资源需求预测模型；

所述自动伸缩器，用于基于当前时刻前设定回看时间窗口内的历史需求序列，使用训练好的资源需求预测模型，预测设定的预测时间窗口内的资源需求预测序列。

本发明实施例提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现上述的方法。

本发明实施例提供一种云端设备，包括：存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的方法。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供的模型训练方法，对训练数据进行多尺度深度特征提取，针对每个历史需求序列，基于注意力机制的进行特征提取，不仅捕捉其内尺度内特征，还捕捉尺度间特征，将多个尺度和多种特征进行混合和融合，充分捕捉序列中的各种语义，以提高数据的表征能力和预测准确性，在预测阶段，基于提取的多尺度特征通过高斯过程的回归预测，经多次迭代，得到资源需求预测序列，充分考虑未来需求的不确定性和随机性，基于概率分布对不确定性进行量化，从而可以更好地评估预测结果的可靠性和可信度，提高决策的准确性和鲁棒性。

本发明实施例提供的资源需求预测方法，使用将多尺度特征提取和随机过程回归相融合的模型进行资源预测，即可预测出未来资源需求的确定性参数又能预测出不确定参数，基于迭代的方式，递推式预测未来一段时间内的需求序列，以便更好地指导运维，在满足客户需求的情况下，尽可能少的提供资源，提高资源的利用率，降低成本。

本发明实施例提供的资源调度，基于上述资源需求预测方法的预测结果，和系统当前的资源供需状态，对系统进行资源调度的动作决策，通过迭代的方式获得更准确的决策结果，在满足客户需求的情况下，尽可能少的提供资源，提高资源的利用率，降低成本。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中预测式自动伸缩方案的技术层面原理框架；

图2为本发明实施例中预测式自动伸缩方案的宏观层面原理框架；

图3为本发明实施例中资源供需关系示例图；

图4为本发明实施例一中资源需求预测模型训练方法；

图5为本发明实施例中资源需求预测模型的架构示例图；

图6为本发明实施例中不同时间粒度的数据集示例；

图7为本发明实施例中外部特征提取模块执行逻辑；

图8为本发明实施例中内部特征提取模块执行逻辑；

图9为本发明实施例二中资源需求预测方法的流程图；

图10为本发明实施例三中资源调度方法的流程图；

图11为本发明实施例中资源调度系统的结构示意图；

图12为本发明实施例中规划调度算法的原理框架示例图；

图13为本发明实施例中资源需求预测模型训练装置的结构示意图；

图14为本发明实施例中资源需求预测装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

术语解释：

基础设施即服务(Infrastructure as a Service，IaaS)指把IT基础设施作为一种服务通过网络对外提供，并根据用户对资源的实际使用量或占用量进行计费的一种服务模式。

弹性计算服务(Elastic Compute Service，ECS)是一种IaaS服务，提供高性能、稳定、可靠、可扩展的云计算能力。ECS消除了用户预先投资硬件的需要，可以根据需要创建任意数量的实例，以响应需求的变化或工作负载的抖动程度。随着实例类型的不断增加，ECS提供了更广泛、更深入的选择，以满足广泛的计算需求。

预测式自动伸缩(PredictiveAuto-scaling)是一个云计算领域的术语，指的是利用预测算法自动调整应用程序所分配的资源(如虚拟机数量、存储量和内存量)，以适应其预计的未来需求。预测式自动伸缩的目的是确保应用程序具有足够的资源来满足其需求，而不是因过度预留资源而浪费资源。这可以提高应用程序的性能和可靠性，同时通过更高效地使用资源来降低成本。预测式自动伸缩通常使用机器学习算法实现，该算法分析应用程序的历史使用模式，以及时间(如当前时刻)和当前工作负载等相关因素，预测其未来的资源需求。然后，使用这些预测来自动调整分配给应用程序的资源，以确保其能够满足其需求并继续顺利运行

时间序列预测(Time series forecasting)：时间序列，也称时间数列、历史复数或动态数列。它是将某种统计指标的数值，按时间先后顺序排到所形成的数列。时间序列预测法就是通过编制和分析时间序列，根据时间序列的所反映出来的发展过程、方向和趋势，进行类推或延伸，借以预测下一段时间或以后若干年内可能达到的水平。一般而言，时间序列预测为确定性预测(即点预测)。

概率时间序列预测(Probabilistic time series forecasting)：概率时间序列预测的目的是根据给定的时间序列观测数据估计未来的概率分布，和确定性预测不同，此类预测的结果是一个联合概率分布。

随机过程(Stochastic Process)是依赖于参数的一族随机变量的全体，参数通常是时间。随机变量是随机现象的数量表现，其取值随着偶然因素的影响而改变。

稀疏变分高斯过程(Sparse Variational Gaussian Process，SVGP)：高斯过程(Gaussian Process，GP)为贝叶斯推理提供了一个框架，该框架可以为大范围的问题提供有原则的不确定性估计。例如，如果考虑具有高斯似然的回归问题，则GP模型可以以封闭形式预测后验的均值和方差。GP的训练是立方阶O(N^3)时间复杂度且需要将训练样本均读入内存。为了克服这些障碍，提出了使用伪训练实例来近似真实后GP的稀疏GP。重要的是，伪训练示例的数量是用户定义的，并且可以控制计算和内存的复杂性。在一般情况下，稀疏GP不会享受封闭式解决方案，因此必须诉诸于近似推理。在这种情况下，近似推理的一个方便选择是变分推理(VI)，其中贝叶斯推理问题被转换为优化问题即，最大化对数边际可能性的下限。这为强大而通用的框架铺平了道路，在该框架中，伪训练示例被视为近似后验的优化参数，这些参数与生成模型的超参数(即先验和似然)共同确定。该框架可以自然地处理各种监督学习问题，范围从具有异方差和非高斯可能性的回归到具有离散标签的分类问题，还可以包括多标签问题。

服务级别协议(Service LevelAgreement，SLA)是服务提供商与客户之间定义的正式承诺。服务提供商与受服务用户之间具体达成了承诺的服务指标——质量、可用性，责任。SLA最常见的组成部分是以合約约定向客户提供的服务。

服务质量(Qualtify ofService，QoS)：一般会在建模中通过量化QoS来将其作为约束考虑在优化问题中，在本方案中主要由SLA反映。

Transformer是一个利用注意力(Attention)机制来提高模型训练速度的模型，在机器翻译和自然语言处理等领域中广泛应用。Transformer的核心思想是利用注意力机制，从而捕捉序列中各个位置之间的关系。Transformer的主要组成部分有：(1)编码器(Encoder)：编码器是Transformer模型的核心部分，用于对输入序列进行编码。(2)解码器(Decoder)：解码器通过使用编码器获得的表示来生成输出序列。(3)注意力机制：注意力机制是Transformer模型的核心技术，它可以通过计算各个位置之间的相关性来捕捉序列中的关系。(4)全连接层：全连接层用于对Transformer的输入和输出进行非线性变换，从而对序列的表示进行细节的调整。Transformer的优势在于其可以同时处理整个序列，而不是逐个位置进行处理，从而提高了计算效率和模型效果。

Triformer是Transformer的变种，主要用于解决时间序列预测问题。Triformer本质上也是一种稀疏Transformer，利用分层结构和权重共享等策略达到线性计算时间复杂度，同时提供高精度的长时间序列预测能力。

跨尺度(Cross-scale)特征融合是一种用于深度学习中的图像处理技术。指的是将不同尺度的特征以有效的方式整合到一起的过程。跨尺度特征融合的目的在于提高图像处理模型的泛化能力和鲁棒性。通过融合不同尺度的特征，模型可以更好地捕捉图像中的细节和上下文关系，从而提高模型的准确性和效率。跨尺度特征融合通常采用多层网络结构，每层利用不同尺度的特征进行处理。最终的特征组合可以通过多种方法实现，例如加权融合、可分离卷积等。

模型预测控制(Model Predictive Control，MPC)是一种工业控制方法，其中控制系统采用预测模型来控制目标系统。MPC通过预测目标系统的未来状态，并对其进行优化，以达到最终的控制目标。MPC算法通常是一个在线的，循环的过程，频繁地更新模型预测以反映目标系统的最新状态。MPC技术在工业控制中广泛应用，例如电力系统、气体和液体制造工艺、化工生产等。MPC的特点是能够考虑多种约束条件和目标函数，并具有良好的反应速度和稳定性。

抽样平均近似方法(Sample Average Approximate，SAA)是利用蒙特卡洛模拟来求解随机优化的一种非常有力的方法，在这个技术中随机问题的期望目标函数通过平均样本来近似，然后利用确定性的优化方法对平均样本近似问题进行求解，从而得到原问题的一个近似解。

参见如图1所示的预测式自动伸缩方案的原理框架，从技术层面来说，预测式自动伸缩实现方案是基于“提供准确未来预测”和“捕捉未来不确定性因素”的高质量条件下，提供在SLA约束下达到最小化资源成本的目标。从宏观层面来说，立意在于图2所示的闭环：基于精准、高质量的预测，云资源提供方可以做出合理的伸缩计划(在满足用户SLA最小化资源成本)，以降低云资源提供方的整体成本，从而提供更充足的产能实现提效，进而扩大市场提高市场竞争力的潜力。在更广阔的市场下，更多异质用户、更丰富的数据语料将进一步提升预测模型的预测能力，形成经济、自然、个体多角度的共赢。

以提供基础云计算服务的弹性计算服务(Elastic Compute Service，ECS)为例，ECS提供了一种弹性、安全、稳定、高性能的计算能力，使用户可以快速部署和扩展应用程序、托管网站和服务等。ECS可以让用户轻松地创建和管理云服务器实例，提供了多种实例规格和操作系统。用户可以根据自己的需求选择合适的实例规格和操作系统，并可以根据需要随时进行扩容或缩容。

ECS扩缩容是指根据业务负载情况自动或手动增加或减少ECS实例数量，以达到更好的资源利用和服务性能的目的。ECS扩缩容通常分为两种类型：垂直扩缩容和水平扩缩容。本申请中主要考虑水平扩缩容，水平扩缩容是指增加或减少ECS实例数量，以适应不同的负载情况。水平扩缩容的优点是可以更好地利用资源，并且可以提供更好的高可用性。通常可以根据负载情况设置自动伸缩策略。

ECS实例是一种资源可配置化的概念实体，因此ECS自动伸缩问题简单可以理解为：某个用户在当前时刻需要100CU的ECS实例，资源提供方需要提供大于等于100CU的ECS实例，否则会因为供应不足而导致用户体验下降。如图3所示，可以看出用户每个时刻的需求量由白色柱子表示，ECS提供方提供的资源位灰色阴影部分，(a)是一种保守策略，根据过去的历史需求变化，设置一个虚高、安全的供应量持续提供下去，可能会造成大量的资源浪费；方案(b)是一种被动的策略，它是“看”到用户的需求后，再去调整ECS实例供应量，但是ECS实例启动是需要时间的，即所谓的“冷启动”问题，所以很有可能导致用户当前时刻的需求不被满足，即影响了QoS。方案(c)是要追求的最理想的模式，即一直能提供刚好能满足用户需求的资源量，这样既节省了资源成本，又保证了QoS。

本发明实施例重点主要解决预测式自动伸缩问题中的两大关键问题：(1)如何准确预测未来工作负载的概率分布，这里的“准确”不一定是表达的是确定性的预测，这是一个更综合的“准确”的泛化含义，比如概率预测的不确定性亦要量化的很准确；即包含确定性预测值和不确定性量化值；(2)如何根据定量预测结果(确定值和随机值)自适应地执行自动伸缩操作，在给定约束下(SLA指标)最优化资源成本，在满足用户QoS指标的前提下最大限度地提高资源利用率。因此，本发明实施例提供了一种基于随机过程的新型概率预测式云资源调度框架MagicScaler。这是一种基于预测的自动伸缩算法，预测如果准的话，就可以提前“看”到用户未来的需求，从而提前做决策，提前准备好提供量。该框架主要包括三部分，即深度特征提取器、随机过程回归模型以及前瞻式优化控制模型。并通过实验充分验证了该框架在模拟和真实环境中的有效性和优越性。本发明提供的方法和框架可用于云原生大数据计算服务。

实施例一

本发明实施例一提供一种资源需求预测模型训练方法，其流程如图4所示，资源需求预测模型的架构如图5所示，该模型包括特征提取器和随机过程回归模块，例如图5中的高斯回归模块。该方法包括如下步骤：

步骤S101：将选定粒度大小的训练集数据输入模型中，其中，训练集中包括多个资源历史需求序列及对应的未来资源需求真值序列。

可以使用不同时间粒度的数据进行模型的训练，如图6所示的，最左边是5分钟粒度的，中间是6H粒度的，右边是一天粒度的。

可以将收集的包括此前一段时间的若干历史需求序列的数据集，划分为训练数据集和验证数据集，基于训练数据集进行模型的训练，基于验证数据集对参数优选后的模型进行验证。数据集中的历史需求序列可以是三个月内的、半年的甚至更久的。假设历史需求序列的时间为1天，预测时间窗口为一小时，即通过一天的历史需求序列预测这一天后边一个小时内的需求，历史需求序列可以基于预设的回看窗口采样获取，例如，1日0点-2日0点的是一个序列，对应的预测时间窗口是2日0-1点；1日0点5分至2日0点5分的是一个序列，对应的预测时间窗口是2日0点5分-1点5分，以此类推，因此数据集里边会收集到大量的历史需求序列和对应的未来资源需求真值序列。历史需求序列中可以包括时间戳和对应的需求量，需求量可以是实例的数量。

步骤S102：针对每个历史需求序列，根据预设的尺度列表生成多个不同尺度的子序列，基于子序列进行尺度内特征提取和尺度间特征融合，得到该历史需求序列对应的多尺度资源需求特征。

参见图5所示的，该步骤通过多尺度特征提取器进行多尺度特征提取，以输入的历史需求序列作为最细粒度的子序列，生成不同尺度的子序列；基于注意力机制对最粗粒度的子序列进行尺度内特征提取得到尺度内特征；对非最粗粒度的子序列，按照尺度列表从粗到细的顺序，将上一个子序列的尺度内特征与对当前子序列进行融合，基于注意力机制对融合后的当前子序列进行尺度内特征提取得到尺度内特征，返回继续执行所述进行融合的步骤，直至提取出最细粒度的子序列的尺度内特征，得到输入的历史需求序列的资源需求特征。特征提取过程通过如图5所示的特征提取器实现，特征提取器包括内部特征提取模块(External)和外部特征提取模块(Internal)。

通过内部特征提取模块对子序列进行尺度内特征提取得到尺度内特征，包括：根据预先设定的分段(Patch)大小列表，确定尺度内特征提取的分层数量和每个分层的分段大小；在每一层，根据该层的分段大小将子序列划分为多个序列分段；于各个序列分段中，对该分段采用稀疏的注意力机制进行特征提取，即首先初始化注意力机制中的查询(Query)角色，接着迭代查询分段中的每个序列点的具体值，多次迭代后得到该分段的语义特征。对同一层的不同序列分段，通过门控循环神经网络补偿各个分段间的信息独立导致的损失，即对于同一层内的增序特征，下一个特征将包含上一个特征的信息，综上可得到该层所有分段的特征；基于上一步骤，将这些特征输出给下一层，即逐层执行基于注意力的特征提取，执行完最后一层的特征提取后，将各层内的特征集合执行聚合、拼接，得到输入的子序列的完整尺度内特征。最后，将得到的完整尺度内特征经全连接神经网络降维，得到最终尺度内特征h^out。

步骤S103：根据多尺度资源需求特征，进行高斯过程的回归预测，通过多次迭代，得到预测时间窗口内的资源需求预测序列。

参见图5所示的，该步骤中，通过随机过程回归模型，例如高斯回归模型进行需求预测。可以根据特征提取模型提取的多尺度资源需求特征，进行高斯过程的回归预测。在预测时，将历史需求序列的多尺度资源需求特征输入高斯回归模型，预测历史需求序列在下一时间戳的需求分布预测结果；基于下一时间戳的需求分布预测结果和预设的回看窗口大小，更新历史需求序列，更新后的历史需求序列中，包括下一时间戳的需求分布预测结果；将更新后的历史需求序列后输入到高斯回归模型，迭代执行预测过程，直至得到预设的预测时间窗口内的资源需求预测序列。

可选的，资源需求预测序列中，包括预测时间窗口内多个预测时刻的资源需求确定性预测的预测均值和非确定性预测的资源需求分布情况。

步骤S104：基于训练集中的历史需求序列的未来资源需求真值序列和预测到的资源需求预测序列，使用预设的损失函数，确定模型损失是否符合预设要求，

若是，执行步骤S106；若否，执行步骤S105。

步骤S105：调整模型参数并继续输入下一批次的训练集数据，返回执行步骤S102；

若模型损失不符合预设要求，可以基于梯度下降的方式对模型参数进行调整，基于调整后的模型继续进行下一批次训练数据的训练。

步骤S106：得到参数优选的需求预测模型。

通过多次迭代，直至模型损失符合预设要求后，得到参数优选的需求预测模型。

上述方法中，可以使用不同时间粒度的训练集数据进行模型的训练，然后基于相同粒度的验证集数据对模型进行验证。验证的过程包括：将选定粒度大小的验证集数据输入参数优选的需求预测模型中，验证集中包括多个资源历史需求序列及对应的未来资源需求真值序列；根据参数优选的需求预测模型输出的预测时间窗口内的的资源需求预测序列和对应的未来资源需求真值序列，验证所述参数优选的需求预测模型是否符合预设的验证要求；若否，使用训练集继续对需求预测模型进行训练，直至符合验证要求，得到训练好的需求预测模型。

基于同一发明构思，本发明实施例还提供一种资源预测模型，参见图5所示的，包括：多尺度注意力特征提取器和随机过程回归模型；

特征提取器，用于对输入的选定粒度大小的训练集数据进行特征提取，所述训练集中包括多个资源历史需求序列及对应的未来资源需求真值序列；针对每个历史需求序列，根据预设的尺度列表生成多个不同尺度的子序列，基于所述子序列进行尺度内特征提取和尺度间特征融合，得到该历史需求序列对应的多尺度资源需求特征；

随机过程回归模型根据所述多尺度资源需求特征，进行高斯过程的回归预测，通过多次迭代，得到预测时间窗口内的资源需求预测序列。

在一些可选的实施例中，特征提取器包括外部特征提取模块和内部特征提取模块；

内部特征提取模块，用于对子序列进行尺度内特征提取得到尺度内特征；

外部特征提取模块，用于以输入的历史需求序列作为最细粒度的子序列，生成不同尺度的子序列；获取所述内部特征提取模块对最粗粒度的子序列进行尺度内特征提取得到尺度内特征；对非最粗粒度的子序列，按照尺度列表从粗到细的顺序，将上一个子序列的尺度内特征与对当前子序列进行融合，获取所述内部特征提取模块对融合后的当前子序列进行尺度内特征提取得到尺度内特征，返回继续执行所述进行融合的步骤，直至提取出最细粒度的子序列的尺度内特征，得到输入的历史需求序列的资源需求特征。

特征提取器可以基于Transformer实现，Transformer虽然可以较好的提取出数据内部的全局/局部依赖(Global/Local dependency)，但是传统Transformer的计算效率较低，时间复杂度为O(N^2)。同时，时序数据在不同粒度下蕴含的语义信息很大程度上影响最终的预测精度。例如，异质用户的行为习惯不同，某些用户有小时级的定时作业，也有用户是偶发性作业执行，具有极大的不确定性。所以特征提取的目标应该为充分表征该用户的时序行为，从而精准预测用户的未来行为趋势，因此，本申请设计了一种高效的多尺度深度特征提取器。参见图5所示，是一个宏观的多尺度特征融合。

图5描述了预测模型的整体工作流程。预测模型的输入是历史需求序列D。通过内部和外部的多尺度注意力特征提取器(MAFE)，提取多尺度特征ξ_t+1。然后，ξ_t+1被馈入高斯过程回归(GPR)模型，该模型推导出下一个时间戳t+1的预测高斯分布，包括，资源需求分布确定性的高斯分布的均值/>是资源需求分布曲线与图5中穿过每个需求分布的曲线的交点。可以把均值放在历史需求序列里边，在后续迭代预测过程中使用，/>可以在后续调度过程中使用。接下来，详细介绍体征提取器(MAFE)和高斯回归模型(GPR)模块的工作原理。

在模型和准确预测时间序列方面，整合不同时间尺度的信息至关重要。考虑图6中的示例，该示例研究了特定集群(Cluster-HZ)的分钟级、小时级和日级需求变化。它们中没有一个具有明显的周期性，这使得基于周期检测的传统预测算法无法在任何单个尺度系列上获得有效的周期信息。本发明提出了一个两阶段的多尺度注意力特征提取器(Multi-scale Attentive Feature Extractor，MAFE)来捕捉尺度敏感的依赖关系，主要分为外部阶段的外部特征提取模块(External-MAFE)和内部阶段的内部特征提取模块(Internal-MAFE)。

本申请首先提出了External-MAFE来捕捉不同尺度之间的依赖关系，通过尺度之间的相关性来提高预测效果的稳定性。例如，如果多个尺度的时间序列都反映了某个时间段的流量峰值，则真实的流量峰值很可能会发生。参见图7所示的外部特征提取模块执行逻辑，External-MAFE将原始需求序列作为输入，并生成不同尺度的子序列，其中原始需求序列被视为最细尺度的输入，图中最上边的白圈，而其他子序列则通过平均池化技术(pooling)进行下采样白圈下边不同层级的带灰度的圈。通过从粗到细地提取特征，不同尺度之间的相关性将被最终输出的特征ξ捕捉到，作为后续高斯回归模型的输入。

External-MAFE从底部开始，即从最粗尺度的时间序列开始。直接获取由Internal-MAFE提取的特征(详见下文)。然后，执行迭代的粗到细步骤。在每个步骤中，需要将输入时间序列与前一步骤的特征融合，然后输入到新的Internal-MAFE中。

首先，我们将尺度列表Lscale按降序排序(第1行)，以图7为例，排序结果为{12,4,2,1}。因此，处理的第一步是scale＝12的子序列，经Internal-MAFE1进行特征提取输出h^out，1。然后，从粗到细进行迭代，第二层为scale＝4的子序列，h^out，1与第二层的子序列融合，融合后的子序列通过Internal-MAFE3进行特征提取输出h^out，2，第三层为scale＝2的子序列，h^out，2与第三层的子序列融合，融合后的子序列通过Internal-MAFE1进行特征提取输出h^out，3，以此类推，最后一层12个白圈为scale＝1的子序列，最终输出特征ξ。融合操作利用完全连接的神经网络来调整从前一步骤输出的特征的维度，然后与当前步骤的输入进行连接。

本发明提出了Internal-MAFE来捕捉一个尺度内的关注依赖关系(intra-scaledependencies)。与External-MAFE不同，Internal-MAFE在一个步骤中内部化了不同粒度的所有隐藏特征。Internal-MAFE以External-MAFE确定的特定尺度的D作为输入，并返回综合的粗粒度和细粒度的关注特征h^out。其背后的直觉是，在高度不确定的时间序列中，底层模式只能通过不同粒度的数据之间的依赖关系来反映。

内部特征提取模块执行逻辑参见图8所示的，Internal-MAFE包括细粒度增强(Fine-grained Augmentation)模块和分层堆叠(Hierarchical Stacking)模块。

在组织Internal-MAFE中的数据流逻辑之前，首先详细介绍一种基本运算符，即隐藏特征提取器，表示为H(.)。如图8所示，给定输入序列D＝<d₁、d₂、……、d_n>，采用注意力机制来提取D的特征。首先，随机初始化可学习的特征占位符h，作为Q(查询)，然后接受域中的D＝<d₁、d₂、……、d_n＞作为键K和值V。其次，使用以下公式将h迭代更新，每个K依次关注于Q：

其中，表示归一化指数函数(softmax)运算符。这种特征提取方法不同于基于池化的自注意力，后者使用自注意力要求将d_i视为Q，因此其复杂度达到了O(n2)。然而，在本发明的解决方案中，只需要将d_i关注到h上，所以H(·)的复杂度只有O(n)。此外，它不需要添加额外的池化层来降低特征的维度，dim表示向量长度，W_K表示值的投影矩阵，W_V表示值的投影矩阵。

引入基本运算符H(·)后，进一步介绍序列级运算符H(·)。其主要思想是将序列分成许多分段，然后为每个分段执行H(·)运算。形式上，给定分段大小ps.，输入序列D＝＜d₁、d₂、……、d_n＞可以被分成N/ps个大小相等的分段，每个分段都执行一个H(·)运算。然而，序列的分段之间没有交互。为了补偿减少的时间感受野并保持时间信息流的连续性，引入了一个门控循环连接(图8中竖直向下的实线箭头)，将分段的输出连接起来，形成如下的计算公式：

h_i+1＝tanh(α₁h_i+β₁)⊙sigmoid(α₂h_i+β₂)+h_i+1

其中，h_i+1表示本层的第i+1个h，α₁、α₂、β₁、β₂是循环门的学习参数，⊙表示逐元素相乘。最后，生成D的隐藏特征序列如下：

接下来，将介绍Internal-MAFE中的两个关键模块。

Hierarchical Stacking是Internal-MAFE的第一个关键模块。首先，通过指定一组分段大小的列表Lps.来确定Internal-MAFE的整体层次结构。例如，在图8(b)的右半部分，指定Lps＝{6,2}，输入序列的大小|D|＝12。这意味着将堆叠两个阶段的Internal-MAFE，第一阶段使用最大的分段大小ps＝6。然后，根据上述操作H(D,6)获取该阶段的特征序列接下来，在第二阶段中，在前一阶段输出的特征序列上重复相同的操作，即/>现在，/>和/>分别表示D在不同尺度上的注意特征语义。为了捕获这些多尺度语义，将每个阶段的所有特征序列串联起来，然后通过DNN(全连接神经网络)层映射到最终表示形式。在Internal-MAFE的实现中，首先在每个阶段将特征序列聚合(Aggregation)成单个特征序列，然后通过跳过连接(skip connection获得到最终表示形式的最短路径。参见图8中所示的，Hierarchical Stacking第一阶段，可以输出两个h¹，同一层的两个h¹可以通过门控递归(Gating recurrent)的方式进行聚合，得到本层输出的特征序列，不同层的h²等经DNN映射，得到最终的h^out。

Fine-grained Augmentation是Internal-MAFE的第二个关键模块。继续上一个例子，当第一阶段的分段大小为6时，将丢失细粒度信息，因为每个分段仅进行一次特征提取操作。但是，不能直接将其转换为Lps＝{2,6}，因为这会导致第一阶段的每个分分段具有仅有限的感受野，并且无法提取足够的信息供下一阶段使用。因此，我们需要在不影响下一阶段的情况下弥补上述信息损失。具体方法如图8(b)的左半部分所示。也就是说，我们从分段大小列表Lps□中选择最小的分段大小(在这种情况下为2)并获得然后，/>与原始输入数据执行跨尺度嵌入(CSE)，类似于External-MAFE中的融合运算符。Fine-grainedAugmentation实现对输入序列的细粒度增强，以补全其可能损失的信息。

随机过程回归模型是一种基于随机过程回归的预测模型，随机过程回归是一种回归分析方法，用于在响应变量是时间序列或时间函数的情况下，建模响应变量与一个或多个预测变量之间的关系。在随机过程回归中，响应变量被建模为随机过程，这是随着时间推移而变化的随机变量的数学表示。预测变量可以是确定的或随机的，它们用于解释随时间变化的响应变量。随机过程回归的目的是估计模型的参数，以最好地解释响应变量和预测变量之间的关系。这通常使用最大似然估计完成，这是一种统计方法，用于找到使似然值最大化的参数值。

随机过程回归可以采用高斯过程回归(Gaussian ProcessRegression，GPR)，高斯过程回归是一种基于高斯过程的回归方法。其主要思想是，将一个随机过程定义为一个由无穷多个随机变量组成的集合，其中任意有限个变量的联合分布都是高斯分布。高斯过程回归模型，利用多种针对时间序列特性的先验(即核函数)，对提取的特征以及标签值形成符合高斯过程的观测变量(x，y)，学习历史工作负载时间序列的协方差矩阵。由于高斯过程回归只是针对单点回归，在此基础上设计了基于高斯过程的自回归预测框架。其预测结果为未来时间序列的联合高斯概率分布(即通过随机过程预测得到f_t+1)。所以该过程本质为迭代预测。

在GPR中，假设输入空间X中的每个点都对应着一个高斯分布的输出值。这些输出值组成了一个高斯过程，其均值和协方差函数可以通过训练数据进行估计。通过观测到一些输入和输出值的样本，可以利用高斯过程的性质来预测新的输入点的输出值，并给出与该预测值相关的置信区间。

具体来说，假设训练数据(X，y)是由一个函数f(x)生成的，其中f(x)是一个未知的函数，X＝x₁、x₂、……、x_n是输入点的集合，y＝y₁、y₂、……、y_n是对应的输出值。然后假设f(x)遵循一个高斯过程：f(x)～GP(m(x)，k(x，|x′))；

其中m(x)是均值函数，k(x，|x′)是协方差函数。对于给定的输入x，可以得到其对应的输出值f(x)的概率分布。然后，通过已知的训练数据，可以推断出未知的函数f(x)的均值函数和协方差函数。具体而言，可以使用训练数据来估计均值函数和协方差函数的参数，然后使用它们来预测新的输入点的输出值。

GPR的一个重要应用是在回归问题中进行不确定性建模。由于高斯过程提供了一个可以计算置信区间的概率分布，因此GPR可以用于预测结果的可靠性评估。此外，GPR也可以用于变量选择、异常检测和数据降维等问题。

本实施例的上述方法中，对训练数据进行多尺度深度特征提取，针对每个历史需求序列，不仅捕捉其内尺度内特征，还捕捉尺度间特征，将多个尺度和多种特征进行混合和融合，充分捕捉序列中的各种语义，以提高数据的表征能力和预测准确性，在预测阶段，基于提取的多尺度特征通过高斯过程的回归预测，经多次迭代，得到资源需求预测序列，充分考虑未来需求的不确定性和随机性，基于概率分布对不确定性进行量化，从而可以更好地评估预测结果的可靠性和可信度，提高决策的准确性和鲁棒性。

实施例二

本发明实施例二提供一种资源需求预测方法，其流程如图9所示，包括如下步骤：

步骤S201：获取当前时刻前设定回看时间窗口内的历史需求序列。

例如基于当前时刻前一天的数据预测未来一小时的需求，则会看时间窗口长度为1天，预测时间窗口长度为1小时。

步骤S202：基于当前时刻前设定回看时间窗口内的历史需求序列，使用训练好的资源需求预测模型，预测设定的预测时间窗口内的资源需求预测序列。资源需求预测模型采用实施例一提供的资源需求预测模型训练方法训练得到。

该步骤中，将历史需求序列输入训练好的资源需求预测模型，输出下一时刻的历史需求预测结果；根据下一时刻的历史需求预测结果，将历史需求序列更新为下一时刻前设定时间窗口内的历史需求序列，返回执行将历史需求序列输入训练好的资源需求预测模型步骤，经设定次数的迭代后，得到设定的预测时间窗口内的资源需求预测序列。

根据下一时刻的历史需求预测结果，将历史需求序列更新为下一时刻前设定时间窗口内的历史需求序列时，是将下一时刻的历史需求预测结果加入历史需求序列中，并删除序列中最早的一个时刻的数据，得到更新后的历史需求序列。

本实施例方法中与实施例一相关的部分，参见实施例一的描述。

本实施例中进行资源需求预测时，使用将多尺度特征提取和随机过程回归相融合的模型进行资源预测，即可预测出未来资源需求的确定性参数又能预测出不确定参数，基于迭代的方式，递推式预测未来一段时间内的需求序列，以便更好地指导运维，在满足客户需求的情况下，尽可能少的提供资源，提高资源的利用率，降低成本。

实施例三

本发明实施例三提供一种资源调度方法，其流程如图10所示，包括如下步骤：

步骤S301：使用上述的资源需求预测方法对目标系统在当前时刻之后预测时间窗口(例如窗口大小为F)内的资源需求进行预测，得到预测时间窗口内的资源需求预测序列。

利用实施例一和实施例二描述的预测模型的算法根据历史需求数据得到预测时间窗口内未来F个时刻的随机客户资源需求量序列。预测时间窗口的长度可以根据需设置。

步骤S302：根据资源需求预测序列和目标系统的当前资源供需状态，使用构建的决策模型确定目标系统的资源调度动作序列；动作序列中包括预测时间窗内多个时刻对应的资源调度动作

目标系统的当前资源供需状态包括当前时刻的弹性伸缩实例供给量、客户资源需求量、当前时刻处于缩容状态的实例等等；资源调度动作包括扩缩容标识信息、扩容数量或缩容数量、当前时刻处于缩容状态的实例重新扩展的数量等等。

在一些可选地实施例中，上述方法，包括：基于资源调度动作序列中的第一个动作，得到下一时刻的资源供需状态与真实历史数据，重复上述过程，得到未来F个时刻的扩缩容决策。

伸缩计划(Scaling Plan)为本方案最终目标，其合理性及优化效果直接评价本算法的优劣。基于同一发明构思，本发明实施例还提供一种资源调度系统，其结构如图11所示，包括：资源预测模型11和自动伸缩器12；

资源预测模型11为上述实施例一和二中所述的资源需求预测模型。通过资源需求预测模型输出预测结果。资源预测模型11包括特征提取模块111和随机过程回归模块112，其功能参见实施例一和实施例二的相关描述。

自动伸缩器12，用于基于当前时刻前设定回看时间窗口内的历史需求序列，使用训练好的资源需求预测模型，预测设定的预测时间窗口内的资源需求预测序列。通过自动伸缩器决策和执行伸缩计划。

合理的扩缩容策略可以在满足SLA的前提下，减少资源成本，包括资源使用成本以及资源重置成本。由于弹性伸缩实例的生命周期分为扩容、运行、以及缩容三个阶段，其中实例在扩容与缩容阶段无法进行工作，因此扩容与缩容阶段浪费的时间则为资源重置成本。因此如何根据需求的预测量设置合理的扩缩容决策是一个关键的问题。本实施例中，采用模型预测控制(Model Predictive Control，MPC)的前瞻优化思想，即在观测到未来有限步长(F步)的动作序列以及当前状态的基础上进行优化，得到局部最优动作序列/>但只取第一步动作执行，其余动作序列不执行,从而得到下一步的状态S_t+1，在根据一轮执行决策后的新的历史数据进行预测得到新的未来有限步长的预测值，从而得到下一轮优化决策的输入。该策略可以使得决策更加具有稳健性，局部最优可以某些时刻代表整体最优。

因为SLA非常重要，资源提供方往往宁愿提供过度供给也不愿意SLA违约。因此本文将采用随机规划模型中将满足SLA设置为约束，即在每个时刻供给无法满足需求预测量的期望小于阈值d，而其目标函数则为最小化资源成本。基于此，设计了一种基于概率分布的规划调度算法和前瞻优化决策器，其基本框架如图12所示，包括MDP、优化器和执行模块。其中，资源预测器(PRIDICTOR)输出资源需求预测数据；马尔科夫决策模块(MDP)先对业务场景进行马尔科夫决策过程建模；优化器(OPTIMIZAR)将随机规划(stochastic planning)转化为混合整数规划(mixed integer planning)，通过优化器确定目标系统的资源调度动作序列；执行模块(EXECUTOR)取动作序列中的第一个动作执行，得到下一时刻的资源供需状态，以下一时刻作为当前时刻，进入下一轮调度决策过程。基于概率分布的规划调度算法，首先进行建模，建模成MDP，由于这个是无限域的MDP，解不出来，故前瞻优化，找次优解，这个问题可以进一步变成一个随机规划的问题；获取目标系统的当前资源供需状态，将客户资源需求量序列代入随机规划模型中进行求解，为了方便求解，进一步利用SAA将随机规划模型转为混合整数规划模型并利用开源求解器求解，得到未来F步的动作序列，并执行第一步动作。

为了进行预测决策，可以构建包括目标系统的当前资源供需状态、未来时刻的资源调度动作序列和未来时刻的成本三元组的马尔科夫决策函数；以未来时刻的成本最小化为目标建立约束函数，得到包括马尔科夫决策函数和约束函数的决策模型。

在本实施例中，将弹性伸缩过程建模为马尔可夫决策过程(Markov DecisionProcess)。该场景下的马尔科夫决策过程由三元组(S，A，C)组成，分别为状态(state)S、动作(action)A、成本(cost)C。具体每个时刻的状态为S_t为(x_t，l_t，sd1_t，sd2_t，sd3_t)。其中x_t代表每个时刻t资源提供方的弹性伸缩实例的供给量，l_t代表t-1时刻未满足而留到t时刻的客户资源需求量。由于资源提供方可以将处于缩容状态的实例进行重新扩展而不需要扩容成本，因此将每个时刻处于不同缩容状态的实例数量进行表示是必要的，具体的由于缩容状态会持续三个时刻，因此我们将处于不同缩容时刻的实例用sd1_t，sd2_t，sd3_t进行表示。

具体的每个时刻的动作A_t表示为(λ_t，η_t，β_t)。其中λ_t为0-1变量，表示该时刻进行扩容还是缩容，其中当其等于1时表示该时刻进行扩容，当其等于0时表示该时刻进行缩容。其中η_t表示该时刻进行扩容还是缩容的具体数量，其与λ_t联合可以表示该时刻的扩缩容决策。其中λ_tη_t表示该时刻的扩容数量，(1-λ_t)η_t表示该时刻的缩容数量。由于资源提供方可以将处于缩容状态的实例进行重新扩展而不需要扩容成本，因此用来β_t表示该时刻的将处于缩容状态的实例重新扩展的数量，其中，β_t表示该时刻的将处于缩容状态的实例重新扩展的数量，λ_tβ_t其中表示该时刻重新扩展实例的数量。具体成本为由三部分组成：

其中第一项表示过度供给时导致的资源空闲成本，因为得到的需求预测值是一个概率分布，因此用期望表示，第二项则表示资源扩容成本，第三项则表示缩容成本，等于处于不同时刻缩容状态的实例的数量和。其中W₁，W₂，W₃，W₄，W₅为成本系数，ρ为物理机资源量，由于物理机资源量无法在短时间内改变，

其次需要对该场景下的状态转移方程进行描述：

x_t+1＝x_t+λ_tη_t+(λ_t-1)η_t+λ_tβ_t

sd_1，t+1＝(1-λ_t)η_t

sd_2，t+1＝(sd_1t-λ_tβ_t)₊

sd_3，t+1＝sd_2t-(λ_tβ_t-sd_1t)₊

其中第一项表示x_t的状态转移方程，x_t+1等于上一时刻x_t加上该时刻的扩缩容决策以及重新扩展的实例数量。第二项到第四项表示sd_1-3，即处于不同缩容状态实例数量的状态转移方程。第五项则表示l_t，即上一时刻未满足而留到下一时刻的客户的资源需求的状态转移方程，同样的由于ω_t是概率分布，因此由期望表示。

在得到了该场景的马尔可夫决策过程之后，将问题转换为求解策略policy(π)，使得其在无限域的时间维度上成本期望最小：

然而由于无限域难以求解，因此采用前瞻优化来近似policy(π)，即框架图5所示。具体的，policy(π)被转化为对每个时刻的规划模型求解得到未来局部最优动作序列，并取局部最优序列的第一个进行执行。具体的规划模型如下所示：

s.t.x_t+1＝x_t+λ_tη_t+(λ_t-1)η_t+λ_tβ_t

sd_1，t+1＝(1-λ_t)η_t

sd_2，t+1＝(sd_1t-λ_tβ_t)₊

sd_3，t+1＝sd_2t-(λ_tβ_t-sd_1t)₊

l_t+1＝E[((l_t+w_t+1-ρ)₊-x_t+1)₊]

β_t≤sd_1t+sd_2t

l_t≤E[w_td]

x_t，sd_1t，sd_2t，sd_3t，β_t，η_tw_t∈N⁺

λ_t∈{0，1}

δ_t∈[0，1]

d∈[0，1]

其中目标函数为未来F时刻的成本最小化。第一到第五个约束为状态转移方程。第六个约束为每个时刻决策重新扩展的数量必须小于处于该时刻的第一与第二缩容状态实例的和，因为每个时刻决策的策重新扩展的数量必须小于处于该时刻的第一与第二缩容状态实例的和，因为每个时刻决策的β_t在下一时刻才执行，因此在t时刻的sd₃的实例已经缩容完成，因此只能利用决策时刻的第一与第二缩容状态的实例在下一时刻进行重新扩展。第七个约束表示每个时刻未满足的客户的资源需求必须小于该时刻客户需求一定的比例，该比例由容忍度d决定。

由于该规划模型为随机规划模型，因此本方案采用SAA(抽样平均近似方法，Sample Average Approximate)来求解随机约束，将其转为硬性约束，从而使得随机规划模型转为混合整数规划模型。并设计了求解算法提升了求解。针对混合整数规划模型，本方案采用了开源求解器进行求解。

基于同一发明构思，本发明实施例还提供一种资源需求预测模型训练装置，该装置可以设置在具有计算处理功能的电子设备中，该装置的结构如图13所示，包括：

输入模块131，用于将选定粒度大小的训练集数据输入资源需求预测模型中，所述训练集中包括多个资源历史需求序列及对应的未来资源需求真值序列；

资源需求预测模型132，用于针对每个历史需求序列，根据预设的尺度列表生成多个不同尺度的子序列，基于所述子序列进行尺度内特征提取和尺度间特征融合，得到该历史需求序列对应的多尺度资源需求特征；随机过程回归模块，用于根据所述多尺度资源需求特征，进行高斯过程的回归预测，通过多次迭代，得到预测时间窗口内的资源需求预测序列；

训练控制模块133，用于基于训练集中的历史需求序列的未来资源需求真值序列和预测到的资源需求预测序列，使用预设的损失函数，确定模型损失是否符合预设要求，若否，调整模型参数并继续输入下一批次的训练集数据，直至模型损失符合预设要求后，得到参数优选的需求预测模型。

基于同一发明构思，本发明实施例还提供一种资源需求预测装置，该装置可以设置在具有计算处理功能的电子设备中，该装置的结构如图14所示，包括：

获取模块141，用于获取当前时刻前设定回看时间窗口内的历史需求序列

预测模块142，用于基于当前时刻前设定回看时间窗口内的历史需求序列，使用训练好的资源需求预测模型，预测设定的预测时间窗口内的资源需求预测序列；资源需求预测模型采用上述的资源需求预测模型训练方法训练得到。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现上述的资源需求预测模型训练方法、资源需求预测方法、资源调度方法中的至少一个。

本发明实施例还提供一种云端设备，包括：存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现资源需求预测模型训练方法、资源需求预测方法、资源调度方法中的至少一个。

本发明实施例的上述方法、模型和系统，是一种基于概率预测的云资源自动伸缩算法，即给定历史工作负载(历史需求序列)，完成云资源的自适应自动伸缩，并达到了SLA和资源成本节本双丰收的效果。本方案是一套完整框架，即每个组件可被替换，可以与时俱进，即通用性强。

本发明方案首创深度神经网络特征提取基础上的随机过程预测通用框架，针对不确定性感知的预测式自动伸缩问题。利用多尺度深度特征提取器，充分捕捉序列中的各种语义，结合随机过程的概率预测手段，同时利用稀疏注意力手段降低训练成本，最终达到精准的概率预测。具体的，在预测部分，开发了基于深度混合多尺度特征提取的高斯过程回归模型，在准确预测用户未来资源需求的同时估计其量化不确定。具体来说，深度混合多尺度特征提取是一种将多个尺度和多种特征进行混合和融合的方法，可以提高数据的表征能力和预测准确性。同时，高斯过程回归模型可以将不确定性量化为概率分布，从而可以更好地评估预测结果的可靠性和可信度，提高决策的准确性和鲁棒性。本发明方案首次提出这种内外双层(Internal和External)的多尺度特征提取器以及将这种提取的特征和高斯过程回归深度融合。通过该模型，可以更加准确地预测未来负载趋势，得到资源需求序列，从而更好地实现自动化运维和资源调度等目标，提高资源利用率、降低成本，同时也可以提高服务的质量和稳定性。

针对调度决策，基于滚动前瞻窗口的控制算法来进行资源调度，决策未来需要执行的动作，在考虑随机性的同时，提高决策的准确性。

与RobustScaler框架相比，本发明提供的方法能在预测阶段时间效率优越，且可根据量化不确定性对突发负载做判断，有利于下游自动伸缩组件的高可用伸缩计划推荐。与基于元强化学习模型的自动伸缩算法相比，本发明更综合地考虑成本和QoS的权衡，其稳定性及适用性更佳。

本发明方案基于量化不确定性的异常检测算法，避免过拟合的模型预测带来的风险，充分利用其量化不确定性在下游调度部分解耦该问题，能够提供精准的概率分布预测结果，可量化不确定性，提升下游伸缩任务的稳定性；伸缩组件采用自适应的前瞻步长，进一步减少强依赖于预测模型的风险。并且和实时数据链路整合(ensemble)，通过综合考量两者的调度结果输出最终调度方案，所使用的优化决策模型具有可解释性；且预测和伸缩的效率高，可用于工业级生产应用。

除非另外具体陈述，术语比如处理、计算、运算、确定、显示等等可以指一个或更多个处理或者计算系统、或类似设备的动作和/或过程，所述动作和/或过程将表示为处理系统的寄存器或存储器内的物理(如电子)量的数据操作和转换成为类似地表示为处理系统的存储器、寄存器或者其他此类信息存储、发射或者显示设备内的物理量的其他数据。信息和信号可以使用多种不同的技术和方法中的任何一种来表示。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种资源需求预测模型训练方法，其特征在于，包括：

针对每个历史需求序列，根据预设的尺度列表生成多个不同尺度的子序列，基于所述子序列进行尺度内特征提取和尺度间特征融合，得到该历史需求序列对应的多尺度资源需求特征；

2.如权利要求1所述的方法，其特征在于，所述根据预设的尺度列表生成多个不同尺度的子序列，基于所述子序列进行尺度内特征提取和尺度间特征融合，得到该历史需求序列对应的多尺度资源需求特征，包括：

3.如权利要求2所述的方法，其特征在于，基于注意力机制对子序列进行尺度内特征提取得到尺度内特征，包括：

对各序列分段采用稀疏的注意力机制进行特征提取，对对同一层的不同的序列分段通过门控循环神经网络补偿各个分段间的信息独立导致的损失；

提取的特征传递至下一层，逐层执行基于注意力的特征提取，执行完最后一层的特征提取后，对各层提取的特征进行聚合拼接，得到子序列的尺度内特征。

4.如权利要求1所述的方法，其特征在于，所述根据所述多尺度资源需求特征，进行高斯过程的回归预测，通过多次迭代，得到预测时间窗口内的的资源需求预测序列，包括：

5.如权利要求1所述的方法，其特征在于，所述资源需求预测序列中，包括：预测时间窗口内多个预测时刻的资源需求确定性预测的预测均值和非确定性预测的资源需求分布情况。

6.如权利要求1-5任一所述的方法，其特征在于，还包括：

7.一种资源需求预测方法，其特征在于，包括：

基于当前时刻前设定回看时间窗口内的历史需求序列，使用训练好的资源需求预测模型，预测设定的预测时间窗口内的资源需求预测序列；所述资源需求预测模型采用权利要求1-6任一所述的资源需求预测模型训练方法训练得到。

8.如权利要求7所述的方法，其特征在于，所述基于当前时刻前设定回看时间窗口内的历史需求序列，使用训练好的资源需求预测模型，预测设定的预测时间窗口内的资源需求预测序列，包括：

获取当前时刻前设定回看时间窗口内的历史需求序列；

9.一种资源调度方法，其特征在于，包括：

使用权利要求7-8任一所述的资源需求预测方法对目标系统在当前时刻之后预测时间窗口内的资源需求进行预测，得到预测时间窗口内的资源需求预测序列；

10.如权利要求9所述的方法，其特征在于，所述目标系统的当前资源供需状态包括当前时刻的弹性伸缩实例供给量、客户资源需求量、当前时刻处于缩容状态的实例；

11.如权利要求9所述的方法，其特征在于，还包括：

12.一种资源预测模型，其特征在于，包括：多尺度注意力特征提取器和随机过程回归模型；

13.如权利要求12所述的模型，其特征在于，所述特征提取器，包括外部特征提取模块和内部特征提取模块；

14.一种资源调度系统，其特征在于，包括：资源预测模型和自动伸缩器；

所述资源预测模型为权利要求12-13任一所述的资源需求预测模型；

15.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现权利要求1-11任一所述的方法。

16.一种云端设备，其特征在于，包括：存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-11任一所述的方法。