CN112667398B

CN112667398B - 资源调度方法、装置、电子设备及存储介质

Info

Publication number: CN112667398B
Application number: CN202011577934.3A
Authority: CN
Inventors: 王政
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2023-09-01
Anticipated expiration: 2040-12-28
Also published as: CN112667398A

Abstract

本发明实施例提供了一种资源调度方法、装置、电子设备及存储介质，所述方法包括：获取线上服务当前时刻的多维度监控指标；将所述多维度监控指标转换成特征向量；将所述特征向量输入至资源调度神经网络模型，获取所述资源调度神经网络模型输出的所述线上服务中的资源对应的调度概率；基于所述调度概率对所述线上服务中的资源进行调度。如此将线上服务的多维度监控指标转换成特征向量，将特征向量输入至资源调度神经网络模型，根据资源调度神经网络模型输出的线上服务中的资源对应的调度概率，选取线上服务中的资源而进行调度，可以避免复杂的条件运算，减少了资源调度花费的时间，提高了资源调度的时效性。

Description

资源调度方法、装置、电子设备及存储介质

技术领域

本发明涉及云计算技术领域，尤其涉及一种资源调度方法、装置、电子设备及存储介质。

背景技术

当前针对复杂场景的资源调度机制，通常是非常难于实现的，尤其是在日益庞杂的计算机基础设施建设和使用效率严重不足的矛盾状况下，想要实现资源的高效利用是一件极为棘手的事情。例如对于线上服务，不仅需要保障其在正常状态下保持良好的运转，还要保障其在访问高峰期有足够的弹性资源来应对突发的大量访问请求，与此同时尽可能在访问请求较少的时候利用其空闲资源来处理一些离线任务。这就意味着线上服务已经不仅仅是一个单目标的服务，而是一个多目标的复杂服务，要同时满足这些要求，传统的基于条件(例如CPU负载、内存负载等)构造的资源调度过滤器，通常需要经过复杂的条件运算(例如CPU负载不能超过某个门限值)，如此需要花费较多时间来完成资源调度，资源调度的时效性较差。

发明内容

本发明实施例的目的在于提供一种资源调度方法、装置、电子设备及存储介质，以实现避免经过复杂的条件运算，减少资源调度花费的时间，提高资源调度的时效性的有益效果。具体技术方案如下：

在本发明实施例的第一方面，首先提供了一种资源调度方法，所述包括：

获取线上服务当前时刻的多维度监控指标；

将所述多维度监控指标转换成特征向量；

将所述特征向量输入至资源调度神经网络模型，获取所述资源调度神经网络模型输出的所述线上服务中的资源对应的调度概率；其中，所述资源调度神经网络模型用于预测线上服务中资源对应的调度概率；

基于所述调度概率对所述线上服务中的资源进行调度。

在一个可选的实施方式中，所述资源调度神经网络模型具体通过以下方式得到：

获取线上服务N个历史时刻的多维度历史监控指标，其中，所述N大于等于1；

将N个所述历史时刻的所述多维度历史监控指标分别转换成样本特征向量，得到N个所述样本特征向量；

将N个所述样本特征向量与M个预设的样本标签进行组合，得到样本数据，其中，所述M大于等于1，所述组合包括交叉组合或随机组合；

利用预设的资源调度过滤器将所述样本数据划分为正样本数据以及负样本数据；

获取所述正样本数据以及所述负样本数据；

基于所述正样本数据以及所述负样本数据，对资源调度初始神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，得到资源调度神经网络模型。

在一个可选的实施方式中，所述利用预设的资源调度过滤器将所述样本数据划分为正样本数据以及负样本数据，包括：

将所述样本数据中所述样本特征向量对应的所述历史时刻的所述多维度历史监控指标输入至预设的资源调度过滤器，获取所述资源调度过滤器的历史输出结果；

判断所述历史输出结果是否与所述样本数据中所述样本标签一致；

若所述历史输出结果与所述样本数据中所述样本标签一致，确定所述样本数据为正样本数据；

若所述历史输出结果与所述样本数据中所述样本标签未一致，确定所述样本数据为负样本数据。

在一个可选的实施方式中，所述基于所述正样本数据以及所述负样本数据，对资源调度初始神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，得到资源调度神经网络模型，包括：

基于所述正样本数据以及所述负样本数据，对资源调度初始神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，得到资源调度初调神经网络模型；

基于所述正样本数据中所述样本特征向量对应的所述历史时刻的所述多维度历史监控指标，确定所述正样本数据的正样本倾向度；

利用所述正样本倾向度将所述正样本数据划分为目标正样本数据以及目标负样本数据；

基于所述目标正样本数据、所述目标负样本数据以及所述负样本数据，对所述资源调度初调神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，得到资源调度神经网络模型。

在一个可选的实施方式中，所述基于所述正样本数据中所述样本特征向量对应的所述历史时刻的所述多维度历史监控指标，确定所述正样本数据的正样本倾向度，包括：

计算所述正样本数据中所述样本特征向量对应的所述历史时刻的所述多维度历史监控指标的加权和；

确定所述加权和为所述正样本数据的正样本倾向度。

在一个可选的实施方式中，所述利用所述正样本倾向度将所述正样本数据划分为目标正样本数据以及目标负样本数据，包括：

判断所述正样本倾向度是否超过预设门限值；

若所述正样本倾向度超过所述预设门限值，确定所述正样本数据为目标正样本数据；

若所述正样本倾向度未超过所述预设门限值，确定所述正样本数据为目标负样本数据。

在一个可选的实施方式中，所述资源调度初始神经网络模型包括输入层、4层全连接层以及输出层，其中，每层所述全连接层的激活函数为ReLU，所述输出层的激活函数为softmax。

在本发明实施例的第二方面，还提供了一种资源调度装置，所述装置包括：

指标获取模块，用于获取线上服务当前时刻的多维度监控指标；

指标转换模块，用于将所述多维度监控指标转换成特征向量；

结果获取模块，用于将所述特征向量输入至资源调度神经网络模型，获取所述资源调度神经网络模型输出的所述线上服务中的资源对应的调度概率；其中，所述资源调度神经网络模型用于预测线上服务中资源对应的调度概率；

资源调度模块，用于基于所述调度概率对所述线上服务中的资源进行调度。

在本发明实施例的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中任一所述的资源调度方法。

在本发明实施例的第四方面，还提供了一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面中任一所述的资源调度方法。

在本发明实施例的第五方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面中任一所述的资源调度方法。

本发明实施例提供的技术方案，获取线上服务当前时刻的多维度监控指标，将多维度监控指标转换成特征向量，将特征向量输入至资源调度神经网络模型，获取资源调度神经网络模型输出的线上服务中的资源对应的调度概率，基于线上服务中的资源对应的调度概率对线上服务中的资源进行调度。如此将线上服务的多维度监控指标转换成特征向量，将特征向量输入至资源调度神经网络模型，根据资源调度神经网络模型输出的线上服务中的资源对应的调度概率，选取线上服务中的资源而进行调度，可以避免复杂的条件运算，减少了资源调度花费的时间，提高了资源调度的时效性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中示出的一种资源调度方法的实施流程示意图；

图2为本发明实施例中示出的一种资源调度神经网络模型的结构示意图；

图3为本发明实施例中示出的一种资源调度神经网络模型的输出层对应各个设备的示意图；

图4为本发明实施例中示出的一种对资源调度初始神经网络模型进行模型训练的实施流程示意图；

图5为本发明实施例中示出的一种生成正样本数据以及负样本数据的实施流程示意图；

图6为本发明实施例中示出的一种embedding样本特征向量与样本标签进行组合的示意图；

图7为本发明实施例中示出的一种资源调度装置的结构示意图；

图8为本发明实施例中示出的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，为本发明实施例提供的一种资源调度方法的实施流程示意图，该方法可以用于处理器或者服务器等，具体可以包括以下步骤：

S101，获取线上服务当前时刻的多维度监控指标；

在本发明实施例中，对于线上服务，可以是任意类型的线上服务，例如云计算线上服务，本发明实施例对此不作限定。为了实现对线上服务中资源的调度，可以获取线上服务当前时刻的多维度监控指标，多维度监控指标即多个维度的监控指标。例如，获取云计算线上服务12:00的多维度监控指标。

对于多维度监控指标，从服务层面来看，具体可以包括如下维度的监控指标：服务中网络拓扑、服务中CPU负载、服务中内存负载、服务中存储负载、服务中网络带宽负载、服务中用户请求QPS、服务中应用数量、服务中剩余资源等等，本发明实施例对此不作限定。

对于多维度监控指标，从(线上服务中)设备(比如服务器)层面来看，具体可以包括如下维度的监控指标：设备中网络拓扑、设备中CPU负载、设备中内存负载、设备中存储负载、设备中网络带宽负载、设备中用户请求QPS、设备中应用数量、设备中剩余资源等等，本发明实施例对此不作限定。

需要说明的是，对于多维度监控指标，包括服务层面以及设备层面的多维度监控指标，每个层面的监控指标指代含义不同。例如，服务中应用数量，可以是服务中Docker容器的数量(即服务中所有服务器上Docker容器的数量)，服务器中应用数量，可以是服务器中Docker容器的数量。

例如，服务中网络拓扑，可以是服务中所有服务器的网络拓扑，服务器中网络拓扑，可以是服务器的网络拓扑；服务中CPU负载，可以是服务中所有服务器的CPU负载的简单叠加，服务器中CPU负载，可以是服务器的CPU负载。

例如，服务中内存负载，可以是服务中所有服务器的内存负载的简单叠加，服务器中内存负载，可以是服务器的内存负载；服务中存储负载，可以是服务中所有服务器的存储负载的简单叠加，服务器中存储负载，可以是服务器的存储负载。

例如，服务中网络带宽负载，可以是服务中所有服务器的网络带宽负载的简单叠加，服务器中网络带宽负载，可以是服务器的网络带宽负载；服务中用户请求QPS，可以是服务中所有服务器的用户请求QPS的简单叠加，服务器中用户请求QPS，可以是服务器的用户请求QPS。

例如，服务中剩余资源，可以是服务中空闲服务器以及其它服务器中空闲硬件资源(例如CPU、内存等)，服务器中剩余资源，可以是服务器的空闲硬件资源(例如CPU、内存等)。

S102，将所述多维度监控指标转换成特征向量；

在本发明实施例中，对于线上服务当前时刻的多维度监控指标，可以将该多维度监控指标经过合理的转成，从而抽象成特征向量，具体是embedding特征向量。

其中，对于每个维度的监控指标，可以进行哈希映射，得到每个维度的监控指标对应的映射结果，将每个维度的监控指标对应的映射结果依序进行拼接，得到一个embedding特征向量。这样可以节省资源，减少运算量，从而提高资源调度的效率。

例如，对于多维度监控指标，即多个维度的监控指标，如下表1所示，将每个维度的监控指标进行哈希映射，得到每个维度的监控指标对应的映射结果，将每个维度的监控指标对应的映射结果依序进行拼接，得到一个embedding特征向量。

表1

S103，将所述特征向量输入至资源调度神经网络模型，获取所述资源调度神经网络模型输出的所述线上服务中的资源对应的调度概率；

在本发明实施例中，提供一种资源调度神经网络模型，该资源调度神经网络模型可以包括输入层、4层全连接层以及输出层，如图2所示。其中，输入层为是上述特征向量(即embedding特征向量)；第1层全连接层的维度为2048(即存在2048个神经元)，激活函数为ReLU；第2层全连接层的维度为1024(即存在1024个神经元)，激活函数为ReLU；第3层全连接层的维度为526(即存在526个神经元)，激活函数为ReLU；第4层全连接层的维度为254(即存在254个神经元)，激活函数为ReLU；输出层的维度为254(即存在254个神经元)，激活函数为softmax。本发明实施例提供的资源调度神经网络模型，可以对多维度监控指标代表的语义进行充分的交叉组合。

在本发明实施例中，对于资源调度神经网络模型，用于预测线上服务中资源对应的调度概率。对于经多维度监控指标转换而来的特征向量，具体是embedding特征向量，可以将该embedding特征向量输入至资源调度神经网络模型，从而获取资源调度神经网络模型输出的线上服务中的资源对应的调度概率。其中，资源调度神经网络模型输出层中每个神经元对应一个设备(比如服务器)，例如，资源调度神经网络模型可以输出254个设备中每个设备的调度概率，如图3所示。

S104，基于所述调度概率对所述线上服务中的资源进行调度。

对于资源调度神经网络模型输出的线上服务中的资源对应的调度概率，本发明实施例可以基于该调度概率对线上服务中的资源进行调度，具体可以是对线上服务中的设备(例如服务器)进行调度。其中，可以基于该调度概率对线上服务中的设备进行排序，基于排序结果从线上服务中的设备筛选目标设备，调度目标设备执行某些任务，完成线上服务中设备的调度。

例如，如图3所示，资源调度神经网络模型输出254个设备中每个设备的调度概率，基于每个设备的调度概率对254个设备进行从大到小的排序，从254个设备中筛选排名前100的设备为目标设备，可以调度目标设备执行某些任务，完成线上服务中设备的调度。

通过上述对本发明实施例提供的技术方案的描述，获取线上服务当前时刻的多维度监控指标，将多维度监控指标转换成特征向量，将特征向量输入至资源调度神经网络模型，获取资源调度神经网络模型输出的线上服务中的资源对应的调度概率，基于调度概率对线上服务中的资源进行调度。

如此将线上服务的多维度监控指标转换成特征向量，将特征向量输入至资源调度神经网络模型，根据资源调度神经网络模型输出的线上服务中的资源对应的调度概率，选取线上服务中的资源而进行调度，可以避免复杂的条件运算，减少了资源调度花费的时间，提高了资源调度的时效性。

如图4所示，为本发明实施例提供的一种对资源调度初始神经网络模型进行模型训练的实施流程示意图，具体可以包括以下步骤：

S401，获取正样本数据以及负样本数据。

在本发明实施例中，为了完成对资源调度初始神经网络模型的模型训练，需要一定数量的正样本数据以及负样本数据。然而由于样本标签的匮乏，在缺乏样本标签的情况下，无法保证一定数量的正样本数据以及负样本数据。

基于此，为了能够得到一定数量的正样本数据以及负样本数据，本发明实施例提供一种正样本数据以及负样本数据的生成方法，如图5所示，该方法具体可以包括以下步骤：

S501，获取线上服务N个历史时刻的多维度历史监控指标，其中，所述N大于等于1。

在本发明实施例中，可以获取线上服务N个历史时刻的多维度历史监控指标，其中，N大于等于1。对于多维度历史监控指标，即多个维度的历史监控指标，可以参考上述描述，本发明实施例在此不再一一赘述。

例如，对于云计算线上服务，本发明实施例可以获取该云计算线上服务1000个历史时刻的多维度历史监控指标，对于每个历史时刻的多维度历史监控指标，如下表2所示。

序号	历史时刻	多维度历史监控指标
			1	12:00	多维度历史监控指标1
2	12:05	多维度历史监控指2
			……	……	……

表2

S502，将N个所述历史时刻的所述多维度历史监控指标分别转换成样本特征向量，得到N个所述样本特征向量。

对于N个历史时刻的多维度历史监控指标，本发明实施例可以将这N个历史时刻的多维度历史监控指标分别转换成样本特征向量，得到N个样本特征向量。

具体的，针对N个历史时刻的多维度历史监控指标中任一历史时刻的多维度历史监控指标，将该历史时刻的每个维度的历史监控指标进行哈希映射，得到该历史时刻的每个维度的监控指标对应的映射结果，并拼接该历史时刻的每个维度的监控指标对应的映射结果，得到该历史时刻的多维度历史监控指标对应的历史embedding特征向量，如此可以得到N个历史embedding特征向量。

例如，如表2所示的1000个历史时刻的多维度历史监控指标，以历史时刻(12:00)的多维度历史监控指标为例，将该历史时刻(12:00)的维度1的历史监控指标进行哈希映射，得到该历史时刻(12:00)的维度1的历史监控指标对应的映射结果1，将该历史时刻(12:00)的维度2的历史监控指标进行哈希映射，得到该历史时刻(12:00)的维度2的历史监控指标对应的映射结果2……，以此类推。

将映射结果1、映射结果2、……进行拼接，可以得到该历史时刻(12:00)的多维度(维度1、维度2、……)历史监控指标对应的历史embedding特征向量1。对于其它历史时刻的多维度历史监控指标，处理类似，本发明实施例在此不再一一赘述，如此可以得到1000个embedding样本特征向量。

S503，将N个所述样本特征向量与M个预设的样本标签进行组合，得到样本数据，其中，所述M大于等于1，所述组合包括交叉组合或随机组合。

对于N个样本特征向量，即N个embedding样本特征向量，在本发明实施例中可以与M个预设的样本标签(指代资源调度结果，即调度的设备)进行组合，可以得到一定数量的样本数据，其中，M大于等于1。这里组合的形式可以是交叉组合或者随机组合，本发明实施例对此不作限定。

例如，假设对于5个embedding样本特征向量与3个样本标签，可以进行交叉组合，如图6所示，可以得到5*3个样本数据。

S504，利用预设的资源调度过滤器将所述样本数据划分为正样本数据以及负样本数据。

对于样本数据，在本发明实施例中可以利用预设的资源调度过滤器将样本数据划分为正样本数据以及负样本数据。

具体地，可以将样本数据中样本特征向量对应的历史时刻的多维度历史监控指标输入至预设的资源调度过滤器，获取资源调度过滤器的历史输出结果；判断历史输出结果是否与样本数据中样本标签一致；若历史输出结果与样本数据中样本标签一致，确定样本数据为正样本数据；若历史输出结果与样本数据中样本标签未一致，确定样本数据为负样本数据，如此可以将样本数据划分为正样本数据以及负样本数据。

例如，将样本数据1中embedding样本特征向量对应的历史时刻(12：00)的多维度历史监控指标输入至预设的资源调度过滤器，获取资源调度过滤器的历史输出结果；判断历史输出结果是否与样本数据1中样本标签一致；若历史输出结果与样本数据1中样本标签一致，确定样本数据1为正样本数据；若历史输出结果与样本数据1中样本标签未一致，确定样本数据1为负样本数据。对于其它样本数据，处理类似，本发明实施例在此不再一一赘述。

需要说明说的是，对于预设的资源调度过滤器，可以是基于条件(例如CPU负载、内存负载、存储负载、亲和性等)构造的资源调度过滤器，本发明实施例对此不作限定。这里亲和性指代的可以是应用(设备的)相斥特性、依赖特性等，例如应用(设备)之间存在主备关系，不能放在一个机器上面，存在相斥特性，又比如需要多个应用(设备)之间相辅相成，存在依赖特性。

S505，获取所述正样本数据以及所述负样本数据。

如此经过上述步骤，可以得到正样本数据以及负样本数据，从而可以获取正样本数据以及负样本数据，以便于后续对资源调度初始神经网络模型进行模型训练。

S402，基于所述正样本数据以及所述负样本数据，对资源调度初始神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，得到资源调度神经网络模型。

对于获取到的正样本数据以及负样本数据，本发明实施例可以基于获取到的正样本数据以及负样本数据，对资源调度初始神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，得到资源调度初调神经网络模型，即粗调阶段的资源调度神经网络模型。其中，损失函数可以是0-1损失函数、Hinge损失函数、交叉熵损失函数等，本发明实施例对此不作限定。

其中，资源调度初始神经网络模型可以是youtubenet多层神经网络模型，具体包括输入层、4层全连接层以及输出层，输入层为是上述特征向量(即embedding特征向量)；第1层全连接层的维度为2048(即存在2048个神经元)，激活函数为ReLU；第2层全连接层的维度为1024(即存在1024个神经元)，激活函数为ReLU；第3层全连接层的维度为526(即存在526个神经元)，激活函数为ReLU；第4层全连接层的维度为254(即存在254个神经元)，激活函数为ReLU；输出层的维度为254(即存在254个神经元)，激活函数为softmax。

在得到资源调度初调神经网络模型之后，由于是对资源调度初始神经网络模型的初调(即粗调)，需要对资源调度初调神经网络模型再进行细调，从而得到最终的资源调度神经网络模型。然而，为了得到最终的资源调度神经网络模型，需要对正样本数据进行处理，即辨别正样本数据的真伪性，提高正样本数据的准确性，从而提高最终的资源调度神经网络模型的准确率。

为此，可以基于正样本数据中样本特征向量对应的历史时刻的多维度历史监控指标，确定正样本数据的正样本倾向度，利用正样本倾向度将正样本数据划分为目标正样本数据以及目标负样本数据，从而基于目标正样本数据、目标负样本数据以及负样本数据，对资源调度初调神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，得到资源调度神经网络模型。

例如，基于正样本数据中embedding样本特征向量对应的历史时刻(12：00)的多维度历史监控指标，确定正样本数据的正样本倾向度，利用正样本倾向度可以将正样本数据划分为目标正样本数据以及目标负样本数据，从而基于更为准确的目标正样本数据、目标负样本数据以及负样本数据，对资源调度初调神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，可以得到更为精确、准确的资源调度神经网络模型。

需要说明的是，在本发明实施例中通过辨别正样本数据的真伪性，去伪存真，利用更为精确的正样本数据(即上述目标正样本数据)参与资源调度初调神经网络模型的强化学习模型训练，得到的资源调度神经网络模型，相较于未辨别正样本数据的真伪性，利用普通的正样本数据(即上述正样本数据)参与资源调度初调神经网络模型的强化学习模型训练，得到的资源调度神经网络模型更为精确、准确，即基于更为精确的训练数据(目标正样本数据、目标负样本数据以及负样本数据)对资源调度初调神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，可以得到更为精确、准确的资源调度神经网络模型。

其中，本发明实施例具体可以通过以下方式确定正样本数据的正样本倾向度：计算正样本数据中样本特征向量对应的历史时刻的多维度历史监控指标的加权和，确定加权和为正样本数据的正样本倾向度。

例如，对于正样本数据中embedding样本特征向量对应的历史时刻(12：00)的多维度历史监控指标，即多个维度的历史监控指标，如下表表3所示。

维度	历史监控指标
		维度1	服务中CPU负载
维度2	服务中内存负载
		……	……

表3

计算正样本数据中embedding样本特征向量对应的历史时刻(12：00)的多维度历史监控指标的加权和：S＝维度1的历史监控指标*0.1+维度2的历史监控指标*0.0.5+……，从而可以确定加权和S为正样本数据的正样本倾向度。其中，上述各个维度的历史监控指标对应的参数，可以根据先验经验(即人为经验)进行设置，本发明实施例对此不作限定。

此外，在本发明实施例中，具体可以通过以下方式将正样本数据划分为目标正样本数据以及目标负样本数据：判断正样本倾向度是否超过预设门限值；若正样本倾向度超过预设门限值，确定正样本数据为目标正样本数据；若正样本倾向度未超过预设门限值，确定正样本数据为目标负样本数据。

例如，预先设置门限值threshold，判断正样本倾向度S是否超过threshold，若正样本倾向度S超过threshold，确定正样本数据为目标正样本数据，即真正意义上的正样本数据，若正样本倾向度S未超过threshold，确定正样本数据为目标负样本数据，即由正样本数据转化而来的负样本数据。

与上述方法实施例相对应，本发明实施例还提供了一种资源调度装置，应用于处理器，如图7所示，该装置可以包括：指标获取模块710、指标转换模块720、结果获取模块730、资源调度模块740。

指标获取模块710，用于获取线上服务当前时刻的多维度监控指标；

指标转换模块720，用于将所述多维度监控指标转换成特征向量；

结果获取模块730，用于将所述特征向量输入至资源调度神经网络模型，获取所述资源调度神经网络模型输出的所述线上服务中的资源对应的调度概率；其中，所述资源调度神经网络模型用于预测线上服务中资源对应的调度概率；

资源调度模块740，用于基于所述调度概率对所述线上服务中的资源进行调度。

在本发明实施例的具体实施方式中，所述装置还包括：

指标获取模块，用于获取线上服务N个历史时刻的多维度历史监控指标，其中，所述N大于等于1；

指标转换模块，用于将N个所述历史时刻的所述多维度历史监控指标分别转换成样本特征向量，得到N个所述样本特征向量；

组合模块，用于将N个所述样本特征向量与M个预设的样本标签进行组合，得到样本数据，其中，所述M大于等于1，所述组合包括交叉组合或随机组合；

样本数据划分模块，用于利用预设的资源调度过滤器将所述样本数据划分为正样本数据以及负样本数据；

数据获取模块，用于获取所述正样本数据以及所述负样本数据；

模型训练模块，用于基于所述正样本数据以及所述负样本数据，对资源调度初始神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，得到资源调度神经网络模型。

在本发明实施例的具体实施方式中，所述样本数据划分模块具体用于：

在本发明实施例的具体实施方式中，所述模型训练模块具体包括：

模型初调子模块，用于基于所述正样本数据以及所述负样本数据，对资源调度初始神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，得到资源调度初调神经网络模型；

倾向度确定子模块，用于基于所述正样本数据中所述样本特征向量对应的所述历史时刻的所述多维度历史监控指标，确定所述正样本数据的正样本倾向度；

正样本数据划分子模块，用于利用所述正样本倾向度将所述正样本数据划分为目标正样本数据以及目标负样本数据；

模型训练子模块，用于基于所述目标正样本数据、所述目标负样本数据以及所述负样本数据，对所述资源调度初调神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，得到资源调度神经网络模型。

在本发明实施例的具体实施方式中，所述倾向度确定子模块具体用于：

确定所述加权和为所述正样本数据的正样本倾向度。

在本发明实施例的具体实施方式中，所述正样本数据划分子模块具体用于：

判断所述正样本倾向度是否超过预设门限值；

在本发明实施例的具体实施方式中，所述资源调度初始神经网络模型包括输入层、4层全连接层以及输出层，其中，每层所述全连接层的激活函数为ReLU，所述输出层的激活函数为softmax。

本发明实施例还提供了一种电子设备，如图8所示，包括处理器81、通信接口82、存储器83和通信总线84，其中，处理器81，通信接口82，存储器83通过通信总线84完成相互间的通信，

存储器83，用于存放计算机程序；

处理器81，用于执行存储器83上所存放的程序时，实现如下步骤：

获取线上服务当前时刻的多维度监控指标；将所述多维度监控指标转换成特征向量；将所述特征向量输入至资源调度神经网络模型，获取所述资源调度神经网络模型输出的所述线上服务中的资源对应的调度概率；其中，所述资源调度神经网络模型用于预测线上服务中资源对应的调度概率；基于所述调度概率对所述线上服务中的资源进行调度。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种存储介质，该存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的资源调度方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的资源调度方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中，或者从一个存储介质向另一个存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种资源调度方法，其特征在于，所述方法包括：

获取线上服务当前时刻的多维度监控指标；

将所述多维度监控指标转换成特征向量；

基于所述调度概率对所述线上服务中的资源进行调度；

基于正样本数据以及负样本数据，对资源调度初始神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，得到资源调度神经网络模型，包括：基于正样本数据以及负样本数据，对资源调度初始神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，得到资源调度初调神经网络模型；基于正样本数据中样本特征向量对应的历史时刻的多维度历史监控指标，确定正样本数据的正样本倾向度；利用正样本倾向度将正样本数据划分为目标正样本数据以及目标负样本数据；基于目标正样本数据、目标负样本数据以及负样本数据，对资源调度初调神经网络模型进行强化学习的模型训练，直至预设的损失函数收敛，得到资源调度神经网络模型；

基于正样本数据中样本特征向量对应的历史时刻的多维度历史监控指标，确定正样本数据的正样本倾向度，包括：计算正样本数据中样本特征向量对应的历史时刻的多维度历史监控指标的加权和；确定加权和为正样本数据的正样本倾向度。

2.根据权利要求1所述的方法，其特征在于，所述资源调度神经网络模型具体通过以下方式得到：

获取所述正样本数据以及所述负样本数据；

3.根据权利要求2所述的方法，其特征在于，所述利用预设的资源调度过滤器将所述样本数据划分为正样本数据以及负样本数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用所述正样本倾向度将所述正样本数据划分为目标正样本数据以及目标负样本数据，包括：

判断所述正样本倾向度是否超过预设门限值；

5.根据权利要求2至4中任一项所述的方法，其特征在于，所述资源调度初始神经网络模型包括输入层、4层全连接层以及输出层，其中，每层所述全连接层的激活函数为ReLU，所述输出层的激活函数为softmax。

6.一种资源调度装置，其特征在于，所述装置包括：

资源调度模块，用于基于所述调度概率对所述线上服务中的资源进行调度；

7.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5中任一所述的方法步骤。

8.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。