CN112288123B

CN112288123B - 资源属性的预测方法和系统、训练方法及相关设备

Info

Publication number: CN112288123B
Application number: CN202010550659.XA
Authority: CN
Inventors: 张伯雷; 刘君亮; 陈东东; 易津锋
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2023-01-31
Anticipated expiration: 2040-06-16
Also published as: CN112288123A

Abstract

本发明公开了一种资源属性的预测方法和系统、训练方法及相关设备，涉及数据处理领域。资源属性的预测方法包括：获取非目标资源提供方在待测时间的资源属性，作为目标资源提供方的环境信息；将环境信息输入到目标资源提供方的资源属性预测模型，预测目标资源提供方在待测时间的资源属性，其中，目标资源提供方的资源属性预测模型是根据非目标资源提供方的策略模拟器对环境信息的模拟结果训练的。本发明能够使得资源属性预测模型具有较高的预测准确率；并且，每个资源提供方的资源属性预测模型的预测依赖于其他资源提供方的资源属性，使得预测过程能够及时适应环境的变化。从而，能够更准确地对资源属性进行高效的预测。

Description

资源属性的预测方法和系统、训练方法及相关设备

技术领域

本发明涉及数据处理领域，特别涉及一种资源属性的预测方法和系统、训练方法及相关设备。

背景技术

动态的资源分配是根据资源分配环境、资源的特征、时间、其他资源提供方的资源属性、供求关系等等因素来动态的调整资源属性，使得资源提供方可以以最优化的方式提供资源。这些待分配的资源例如包括计算资源、电力资源、货物资源等等。目前，大多数的资源提供方还是通过人工经验来动态确定资源属性。也有部分解决方案通过引入机器学习来进行动态的资源属性确定。通过监督学习对资源的需求量进行预测，并通过模型找到可以实现最小化成本、最小化资源损耗、最大化收益等目标的资源属性，从而实现资源属性的动态确定。

发明内容

发明人经过分析后发现，由于资源提供方往往不止一个，因此资源分配环境比较复杂、而且会频繁地变化，因此需要综合考虑多种因素进行动态资源属性的确定。而基于人工经验的确定方式要依赖于长年的经验积累，并且还有可能对一些关键的因素产生遗漏。

监督学习的方案可以考虑到复杂的环境因素，但是监督学习的方式依赖于模型准确的假设。在真实应用中，由于环境的变化，可能导致模型出现较大的偏差；而且，在实际的确定过程中，往往有多个资源提供方在同时确定资源属性，使得监督学习也很难考虑到不同资源提供方的交互对策略的影响。

因此，相关技术中的资源属性确定方案的计算效率和准确性都比较低。

本发明实施例所要解决的一个技术问题是：如何提高资源属性确定的计算效率和准确性。

根据本发明一些实施例的第一个方面，提供一种资源属性的预测方法，包括：获取非目标资源提供方在待测时间的资源属性，作为目标资源提供方的环境信息；将环境信息输入到目标资源提供方的资源属性预测模型，预测目标资源提供方在待测时间的资源属性，其中，目标资源提供方的资源属性预测模型是根据非目标资源提供方的策略模拟器对环境信息的模拟结果训练的。

在一些实施例中，目标资源提供方的资源属性预测模型是根据非目标资源提供方的策略模拟器、以及资源使用方的策略模拟器对环境信息的模拟结果训练的，资源使用方的策略模拟器对环境信息的模拟结果包括资源的使用方对每个资源提供方提供的资源的需求量。

在一些实施例中，将环境信息、以及资源的特征输入到目标资源提供方的资源属性预测模型，预测目标资源提供方在待测时间的资源属性。

在一些实施例中：资源提供方为服务器，资源使用方为计算需求，资源为计算资源，资源属性为服务器完成计算需求的资源消耗；或者，资源提供方为发电设备，资源使用方为用电需求，资源为电力，资源属性为发电设备完成用电需求的电力消耗。

在一些实施例中，从数据库中获取非目标资源提供方的资源属性。

根据本发明一些实施例的第二个方面，提供一种资源属性预测模型的训练方法，包括：利用非目标资源提供方的策略模拟器，获得对第一预设时段内多个时刻的环境信息的模拟结果；对于第一预设时段内的每个时刻，将对时刻的环境信息的模拟结果输入到目标资源提供方的资源属性预测模型，以预测目标资源提供方在该时刻的资源属性；根据目标资源提供方在第一预设时段内的每个时刻的资源属性，计算在第一预设时段内的每个时刻的资源分配目标函数的值；根据每个时刻的目标函数的值，对目标资源提供方的资源属性预测模型的参数进行调整。

在一些实施例中，根据目标资源提供方在第一预设时段内的每个时刻的资源属性，计算在第一预设时段内的每个时刻的资源分配目标函数的值包括：对于第一预设时段内的每个时刻，根据在该时刻目标资源提供方的资源属性、以及资源的使用方对资源提供方提供的资源的需求量，计算时刻的资源分配目标函数的值。

在一些实施例中，根据每个时刻的目标函数的值，对目标资源提供方的资源属性预测模型的参数进行调整包括：根据每个时刻的目标函数的值，计算第一预设时段内预设的动态规划方程的值；根据动态规划方程的值，对目标资源提供方的资源属性预测模型的参数进行调整。

在一些实施例中，利用非目标资源提供方的策略模拟器、以及资源使用方的策略模拟器，获得对多个预设时刻的环境信息的模拟结果。

在一些实施例中，训练方法还包括：依次将获取的策略模拟器集合中的每一个策略模拟器作为被调整策略模拟器、其他策略模拟器作为环境策略模拟器，采用步骤i)～v)对被调整策略模拟器的参数进行调整：i)初始化被调整策略模拟器；ii)利用环境策略模拟器，获得对第二预设时段内多个时刻的环境信息的模拟结果；iii)对于第二预设时段内的每个时刻，将对该时刻的环境信息的模拟结果输入到被调整策略模拟器，以预测被调整策略模拟器对应的、在该时刻的资源属性；iv)将第二预设时段内每个时刻的真实资源属性和预测的资源属性输入到被调整策略模拟器对应的判别器中，获得输入是否为真实数据的判别结果；以及，v)根据判别器的判别结果，对被调整策略模拟器进行调整；其中，策略模拟器集合包括多个资源提供方的策略模拟器。

在一些实施例中，被调整策略模拟器的奖赏函数的值与判别器的判别正确率成正相关关系。

在一些实施例中，训练方法还包括：利用真实策略和被调整策略模型的预测结果训练被调整策略模拟器对应的判别器，其中，判别器的损失函数与判别器的判别正确率成负相关关系。

在一些实施例中，初始化被调整策略模拟器包括：获取被调整策略模拟器对应的被调整资源提供方的真实环境数据以及相应的标记数据，其中，真实环境数据包括非被调整资源提供方的真实资源属性，标记数据为相应的真实环境数据下被调整资源提供方的真实资源属性；采用真实环境数据以及相应的标记数据，对被调整资源提供方对应的模型进行训练，并将完成训练的模型作为初始化的被调整策略模拟器。

在一些实施例中，训练方法还包括：利用真实策略和初始化的被调整策略模型的预测结果训练被调整策略模拟器对应的判别器，其中，判别器的损失函数与判别器的判别正确率成负相关关系。

在一些实施例中，策略模拟器集合还包括资源使用方的策略模拟器。

根据本发明一些实施例的第三个方面，提供一种资源属性的预测装置，包括：获取模块，被配置为获取非目标资源提供方在待测时间的资源属性，作为目标资源提供方的环境信息；预测模块，被配置为将环境信息输入到目标资源提供方的资源属性预测模型，预测目标资源提供方在待测时间的资源属性，其中，目标资源提供方的资源属性预测模型是根据非目标资源提供方的策略模拟器对环境信息的模拟结果训练的。

根据本发明一些实施例的第四个方面，提供一种资源属性的预测装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述任意一种资源属性的预测方法。

根据本发明一些实施例的第五个方面，提供一种资源属性预测模型的训练装置，包括：模拟结果获取模块，被配置为利用非目标资源提供方的策略模拟器，获得对第一预设时段内多个时刻的环境信息的模拟结果；资源属性预测模块，被配置为对于第一预设时段内的每个时刻，将对时刻的环境信息的模拟结果输入到目标资源提供方的资源属性预测模型，以预测目标资源提供方在该时刻的资源属性；目标函数计算模块，被配置为根据目标资源提供方在第一预设时段内的每个时刻的资源属性，计算在第一预设时段内的每个时刻的资源分配目标函数的值；参数调整模块，被配置为根据每个时刻的目标函数的值，对目标资源提供方的资源属性预测模型的参数进行调整。

根据本发明一些实施例的第六个方面，提供一种资源属性预测模型的训练装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述任意一种资源属性预测模型的训练方法。

根据本发明一些实施例的第七个方面，提供一种资源属性的预测系统，包括：前述任意一种资源属性的预测装置；以及，前述任意一种资源属性预测模型的训练装置。

根据本发明一些实施例的第八个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任意一种资源属性的预测方法、或者前述任意一种资源属性预测模型的训练方法。

上述发明中的一些实施例具有如下优点或有益效果：本发明的实施例通过利用策略模拟器模拟环境信息，并根据模拟的环境信息训练资源提供方的资源属性预测模型，能够使得资源属性预测模型具有较高的预测准确率；并且，每个资源提供方的资源属性预测模型的预测依赖于其他资源提供方的资源属性，使得预测过程能够及时适应环境的变化。从而，能够更准确地对资源属性进行高效的预测。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明一些实施例的资源属性的预测方法的流程示意图。

图2示出了根据本发明一些实施例的资源属性预测模型的训练方法的流程示意图。

图3示出了根据本发明一些实施例的策略模拟器的训练方法的流程示意图。

图4示出了根据本发明一些实施例的资源属性的预测装置的结构示意图。

图5示出了根据本发明一些实施例的资源属性预测模型的训练装置结构示意图。

图6示出了根据本发明一些实施例的资源属性的预测系统的实施例。

图7示出了根据本发明一些实施例的数据处理装置的结构示意图。

图8示出了根据本发明另一些实施例的数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1示出了根据本发明一些实施例的资源属性的预测方法的流程示意图。如图1所示，该实施例的资源属性的预测方法包括步骤S102～S104。

在步骤S102中，获取非目标资源提供方在待测时间的资源属性，作为目标资源提供方的环境信息。

在本发明的实施例中，有多个资源提供方。每个资源提供方对应一个预先训练的资源属性预测模型以及策略模拟器。当某个资源提供方需要确定资源属性时，则作为目标资源提供方，其他的资源提供方作为非目标资源提供方。

资源属性预测模型和策略模拟器的结构可以是相同的，例如，同一个资源提供方对应的资源属性预测模型和策略模拟器可以具有相同含义的输入和相同含义的输出，但是二者的训练方式和作用不同。每个策略模拟器预测的资源属性用于在资源属性预测模型的训练阶段模拟更真实的资源分配环境；而资源属性预测模型在模拟环境中完成训练后，用于实际应用阶段的资源属性预测。

在一些实施例中，资源属性预测模型和策略模拟器利用强化学习的思路进行训练。强化学习是通过智能体与环境不断交互试错，提升智能体自身的决策水平的一种方案，其使智能体在环境中逐渐学习到最优控制策略，以自动完成决策任务。在资源属性预测模型的训练过程中，可以将策略模拟器的预测结果作为环境。在每个策略模拟器的训练过程中，可以将其他策略模拟器的预测结果作为环境，通过迭代训练来使得每个策略模拟器都能够得到较真实的模拟效果。

在一些实施例中，可以对数据库进行监控，以从数据库中获取非目标资源提供方的资源属性。此外，也可以接收目标资源提供方通过终端发送的预测请求，预测请求中具有其他资源提供方的资源属性。

在步骤S104中，将环境信息输入到目标资源提供方的资源属性预测模型，预测目标资源提供方在待测时间的资源属性，其中，目标资源提供方的资源属性预测模型是根据非目标资源提供方的策略模拟器对环境信息的模拟结果训练的。

资源属性预测模型例如可以为深度学习模型等神经网络模型。非目标资源提供方的策略模拟器对环境信息的模拟结果可以转换为向量形式，以便输入到模型中。

在一些实施例中，可以将环境信息和资源的特征共同作为资源属性预测模型的输入。资源的特征可以是除了资源属性外的其他资源信息、或资源所处条件的信息，例如资源在资源提供方的持有量、当前时间、资源的类别等等。

上述实施例的方式通过利用策略模拟器模拟环境信息，并根据模拟的环境信息训练资源提供方的资源属性预测模型，能够使得资源属性预测模型具有较高的预测准确率。并且，每个资源提供方的资源属性预测模型的预测依赖于其他资源提供方的资源属性，使得预测过程能够及时适应环境的变化。从而，能够更准确地对资源属性进行高效的预测。

下面参考图2描述资源属性预测模型的训练方法的实施例。该实施例利用了强化学习的训练思想。

图2示出了根据本发明一些实施例的资源属性预测模型的训练方法的流程示意图。如图2所示，该实施例的资源属性预测模型的训练方法包括步骤S202～S210。

在步骤S202中，初始化目标资源提供方的资源属性预测模型。

例如，可以使用随机确定参数的方式进行初始化。根据需要，本领域技术人员也可以采用其他的初始化方式，这里不再赘述。

在步骤S204中，利用非目标资源提供方的策略模拟器，获得对第一预设时段内多个时刻的环境信息的模拟结果。

在一些实施例中，利用非目标资源提供方的策略模拟器、以及资源使用方的策略模拟器，获得对多个预设时刻的环境信息的模拟结果。资源使用方的策略模拟器可以模拟资源使用方对资源的需求情况，从而可以更准确地模拟目标资源提供方所处的环境。

在步骤S206中，对于第一预设时段内的每个时刻，将对该时刻的环境信息的模拟结果输入到目标资源提供方的资源属性预测模型，以预测目标资源提供方在该时刻的资源属性。从而，可以获得一段时间内的多个预测结果。

在步骤S208中，根据目标资源提供方在第一预设时段内的每个时刻的资源属性，计算在第一预设时段内的每个时刻的资源分配目标函数的值。

资源分配目标函数是使得资源的利用最优化、或资源提供方的损失最小化的函数，例如，当资源为货物、资源属性为价格时，资源分配目标函数可以是令货物利润最大化的函数；当资源为电力、资源属性为发电设备完成用电需求时的电力消耗时，资源分配目标函数可以是令发电过程中的电力损耗最小化；当资源为计算资源、资源属性为服务器完成计算需求时的计算资源消耗时，资源分配目标函数可以是令用户的SLA(Service-LevelAgreement，服务等级协议)最大化。

在一些实施例中，对于第一预设时段内的每个时刻，根据在该时刻目标资源提供方的资源属性、以及资源的使用方对资源提供方提供的资源的需求量，计算时刻的资源分配目标函数的值。资源的需求量例如包括货物的数量、电力需求的数量、计算需求的数量等等。

在步骤S210中，根据每个时刻的目标函数的值，对目标资源提供方的资源属性预测模型的参数进行调整。

在一些实施例中，根据每个时刻的目标函数的值，计算第一预设时段内预设的动态规划方程(例如贝尔曼方程)的值；根据动态规划方程的值，对目标资源提供方的资源属性预测模型的参数进行调整。例如，可以将目标函数作为强化学习的奖赏函数，构建贝尔曼方程，并利用贝尔曼方程的值来对模型的参数进行调整。

动态的资源属性确定往往是一个序列决策的过程，需要在多步决策的过程中实现优化目标。而强化学习也是依靠多个时刻的预测值进行反馈。本发明的应用场景能够与强化学习的训练过程结合到一起，提高了模型的预测准确性。

在一些实施例中，策略模拟器也可以是基于强化学习的思想训练的。下面参考图3描述策略模拟器的训练方法的实施例。

图3示出了根据本发明一些实施例的策略模拟器的训练方法的流程示意图。在该实施例中，依次将获取的策略模拟器集合中的每一个策略模拟器作为被调整策略模拟器、其他策略模拟器作为环境策略模拟器，采用步骤S302～S310对被调整策略模拟器的参数进行调整。策略模拟器集合包括多个资源提供方的策略模拟器。在一些实施例中，策略模拟器集合还包括资源使用方的策略模拟器。

在步骤S302中，初始化被调整策略模拟器。

在一些实施例中，可以采用以下方法进行初始化：获取被调整策略模拟器对应的被调整资源提供方的真实环境数据以及相应的标记数据，其中，真实环境数据包括非被调整资源提供方的真实资源属性，标记数据为相应的真实环境数据下被调整资源提供方的真实资源属性；采用真实环境数据以及相应的标记数据，对被调整资源提供方对应的模型进行训练，并将完成训练的模型作为初始化的被调整策略模拟器。

在步骤S304中，利用环境策略模拟器，获得对第二预设时段内多个时刻的环境信息的模拟结果。

在步骤S306中，对于第二预设时段内的每个时刻，将对该时刻的环境信息的模拟结果输入到被调整策略模拟器，以预测被调整策略模拟器对应的、在该时刻的资源属性。

在步骤S308中，将第二预设时段内每个时刻的真实资源属性和预测的资源属性输入到被调整策略模拟器对应的判别器中，获得输入是否为真实数据的判别结果。例如，判别器可以输出接收到的两种属性中，哪一个是真实的、哪一个是虚拟的。在一些实施例中，判别器可以使用神经网络的结构。

在步骤S310中，根据判别器的判别结果，对被调整策略模拟器进行调整。

在一些实施例中，被调整策略模拟器的奖赏函数的值与判别器的判别正确率成正相关关系。即，如果判别器能够正确分辨真实数据和虚拟数据，则策略模拟器还需要进一步调整以对判别器进行混淆。

在一些实施例中，判别器也可以不断进行学习以提高识别能力。被调整策略模拟器和判别器形成“生成-对抗”的关系，以提高策略模拟器的预测准确性。

在一些实施例中，利用真实策略和初始化的被调整策略模型的预测结果训练被调整策略模拟器对应的判别器，其中，判别器的损失函数与判别器的判别正确率成负相关关系。从而，判别器可以利用初始化的被调整策略模型的初步预测结果进行初步训练，并辅助被调整策略模型进行进一步的训练。

在一些实施例中，利用真实策略和被调整策略模型的预测结果训练被调整策略模拟器对应的判别器，其中，判别器的损失函数与判别器的判别正确率成负相关关系。从而，可以在被调整策略模型的训练过程中同时优化判别器。

策略模拟器集合中的每个策略模拟器均可以采用上述方式进行训练。通过训练得到提升的策略模拟器作为其他策略模拟器的训练环境时，能够为其他策略模拟器提供更好的训练效果。经过各个策略模拟器的相互影响，使得集合中的各个策略模拟器能够从整体上模拟更为真实的资源分配环境，从而提高了资源属性确定的准确性。

本发明的实施例可以应用于多种应用场景。下面示例性地描述三种应用场景。

在一些实施例中，资源提供方为服务器，资源使用方为计算需求，资源为计算资源，资源属性为服务器完成计算需求的资源消耗。

在一些实施例中，资源提供方为发电设备，资源使用方为用电需求，资源为电力，资源属性为发电设备完成用电需求的电力消耗。

在一些实施例中，资源提供方为提供货物的商家，资源使用方为用户，资源为货物，资源属性为货物的价格。

从而，本发明在有多个资源提供方相互制约的情况下，能够提供更准确的资源属性确定方案，从而实现更合理的资源分配。在满足资源使用方的需求的情况下，能够实现节约资源、降低资源提供方的成本。

下面参考图4描述本发明资源属性的预测装置的实施例。

图4示出了根据本发明一些实施例的资源属性的预测装置的结构示意图。如图4所示，该实施例的资源属性的预测装置40包括：获取模块410，被配置为获取非目标资源提供方在待测时间的资源属性，作为目标资源提供方的环境信息；预测模块420，被配置为将环境信息输入到目标资源提供方的资源属性预测模型，预测目标资源提供方在待测时间的资源属性，其中，目标资源提供方的资源属性预测模型是根据非目标资源提供方的策略模拟器对环境信息的模拟结果训练的。

在一些实施例中，预测模块420进一步被配置为将环境信息、以及资源的特征输入到目标资源提供方的资源属性预测模型，预测目标资源提供方在待测时间的资源属性。

在一些实施例中，获取模块410进一步被配置为从数据库中获取非目标资源提供方的资源属性。

下面参考图5描述本发明资源属性预测模型的训练装置的实施例。

图5示出了根据本发明一些实施例的资源属性预测模型的训练装置结构示意图。如图5所示，该实施例的资源属性预测模型的训练装置50包括：模拟结果获取模块510，被配置为利用非目标资源提供方的策略模拟器，获得对第一预设时段内多个时刻的环境信息的模拟结果；资源属性预测模块520，被配置为对于第一预设时段内的每个时刻，将对时刻的环境信息的模拟结果输入到目标资源提供方的资源属性预测模型，以预测目标资源提供方在该时刻的资源属性；目标函数计算模块530，被配置为根据目标资源提供方在第一预设时段内的每个时刻的资源属性，计算在第一预设时段内的每个时刻的资源分配目标函数的值；参数调整模块540，被配置为根据每个时刻的目标函数的值，对目标资源提供方的资源属性预测模型的参数进行调整。

在一些实施例中，目标函数计算模块530进一步被配置为：对于第一预设时段内的每个时刻，根据在该时刻目标资源提供方的资源属性、以及资源的使用方对资源提供方提供的资源的需求量，计算时刻的资源分配目标函数的值。

在一些实施例中，参数调整模块540进一步被配置为：根据每个时刻的目标函数的值，计算第一预设时段内预设的动态规划方程的值；根据动态规划方程的值，对目标资源提供方的资源属性预测模型的参数进行调整。

在一些实施例中，模拟结果获取模块510进一步被配置为利用非目标资源提供方的策略模拟器、以及资源使用方的策略模拟器，获得对多个预设时刻的环境信息的模拟结果。

在一些实施例中，训练装置50还包括策略模拟器训练模块550，被配置为：依次将获取的策略模拟器集合中的每一个策略模拟器作为被调整策略模拟器、其他策略模拟器作为环境策略模拟器，采用步骤i)～v)对被调整策略模拟器的参数进行调整：i)初始化被调整策略模拟器；ii)利用环境策略模拟器，获得对第二预设时段内多个时刻的环境信息的模拟结果；iii)对于第二预设时段内的每个时刻，将对该时刻的环境信息的模拟结果输入到被调整策略模拟器，以预测被调整策略模拟器对应的、在该时刻的资源属性；iv)将第二预设时段内每个时刻的真实资源属性和预测的资源属性输入到被调整策略模拟器对应的判别器中，获得输入是否为真实数据的判别结果；以及，v)根据判别器的判别结果，对被调整策略模拟器进行调整；其中，策略模拟器集合包括多个资源提供方的策略模拟器。

在一些实施例中，训练装置50还包括判别器训练模块560，被配置为利用真实策略和被调整策略模型的预测结果训练被调整策略模拟器对应的判别器，其中，判别器的损失函数与判别器的判别正确率成负相关关系。

在一些实施例中，策略模拟器训练模块550进一步被配置为采用以下方式初始化被调整策略模拟器：获取被调整策略模拟器对应的被调整资源提供方的真实环境数据以及相应的标记数据，其中，真实环境数据包括非被调整资源提供方的真实资源属性，标记数据为相应的真实环境数据下被调整资源提供方的真实资源属性；采用真实环境数据以及相应的标记数据，对被调整资源提供方对应的模型进行训练，并将完成训练的模型作为初始化的被调整策略模拟器。

在一些实施例中，训练装置50还包括判别器训练模块560，被配置为利用真实策略和初始化的被调整策略模型的预测结果训练被调整策略模拟器对应的判别器，其中，判别器的损失函数与判别器的判别正确率成负相关关系。

图6示出了根据本发明一些实施例的资源属性的预测系统的实施例。如图6所示，该实施例的资源属性的预测系统60包括资源属性的预测装置61，以及资源属性预测模型的训练装置62。资源属性的预测装置61和资源属性预测模型的训练装置62的具体实施方式可以分别参考前述实施例中的资源属性的预测装置40和资源属性预测模型的训练装置50。

图7示出了根据本发明一些实施例的数据处理装置的结构示意图，该数据处理装置可以为资源属性的预测装置或者资源属性预测模型的训练装置。如图7所示，该实施例的数据处理装置70包括：存储器710以及耦接至该存储器710的处理器720，处理器720被配置为基于存储在存储器710中的指令，执行前述任意一个实施例中的资源属性的预测方法或者资源属性预测模型的训练方法。

其中，存储器710例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

图8示出了根据本发明另一些实施例的数据处理装置的结构示意图，该数据处理装置可以为资源属性的预测装置或者资源属性预测模型的训练装置。如图8所示，该实施例的数据处理装置80包括：存储器810以及处理器820，还可以包括输入输出接口830、网络接口840、存储接口850等。这些接口830，840，850以及存储器810和处理器820之间例如可以通过总线860连接。其中，输入输出接口830为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口840为各种联网设备提供连接接口。存储接口850为SD卡、U盘等外置存储设备提供连接接口。

本发明的实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前述任意一种资源属性的预测方法或者资源属性预测模型的训练方法。

本领域内的技术人员应当明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种资源属性的预测方法，包括：

获取非目标资源提供方在待测时间的资源属性，作为目标资源提供方的环境信息；

将所述环境信息输入到所述目标资源提供方的资源属性预测模型，预测所述目标资源提供方在所述待测时间的资源属性，其中，所述目标资源提供方的资源属性预测模型是通过以下方法训练的：

利用非目标资源提供方的策略模拟器，获得对第一预设时段内多个时刻的环境信息的模拟结果；

对于所述第一预设时段内的每个时刻，将对所述时刻的环境信息的模拟结果输入到目标资源提供方的资源属性预测模型，以预测所述目标资源提供方在所述时刻的资源属性；

根据所述目标资源提供方在所述第一预设时段内的每个时刻的资源属性，计算在所述第一预设时段内的每个时刻的资源分配目标函数的值；

根据所述每个时刻的目标函数的值，对所述目标资源提供方的资源属性预测模型的参数进行调整，包括：根据所述每个时刻的目标函数的值，计算所述第一预设时段内预设的动态规划方程的值；根据所述动态规划方程的值，对所述目标资源提供方的资源属性预测模型的参数进行调整。

2.根据权利要求1所述的资源属性的预测方法，其中，所述目标资源提供方的资源属性预测模型是根据非目标资源提供方的策略模拟器、以及资源使用方的策略模拟器对环境信息的模拟结果训练的，所述资源使用方的策略模拟器对环境信息的模拟结果包括资源的使用方对每个资源提供方提供的资源的需求量。

3.根据权利要求1或2所述的资源属性的预测方法，其中，将所述环境信息、以及资源的特征输入到所述目标资源提供方的资源属性预测模型，预测所述目标资源提供方在所述待测时间的资源属性。

4.根据权利要求1所述的资源属性的预测方法，其中：

所述资源提供方为服务器，所述资源使用方为计算需求，所述资源为计算资源，所述资源属性为服务器完成所述计算需求的资源消耗；或者，

所述资源提供方为发电设备，所述资源使用方为用电需求，所述资源为电力，所述资源属性为发电设备完成所述用电需求的电力消耗。

5.根据权利要求1所述的资源属性的预测方法，其中，从数据库中获取非目标资源提供方的资源属性。

6.一种资源属性预测模型的训练方法，包括：

7.根据权利要求6所述的训练方法，其中，所述根据所述目标资源提供方在所述第一预设时段内的每个时刻的资源属性，计算在所述第一预设时段内的每个时刻的资源分配目标函数的值包括：

对于所述第一预设时段内的每个时刻，根据在所述时刻所述目标资源提供方的资源属性、以及资源的使用方对所述资源提供方提供的资源的需求量，计算所述时刻的资源分配目标函数的值。

8.根据权利要求6所述的训练方法，其中，利用非目标资源提供方的策略模拟器、以及资源使用方的策略模拟器，获得对多个预设时刻的环境信息的模拟结果。

9.根据权利要求6～8中任一项所述的训练方法，还包括：

依次将获取的策略模拟器集合中的每一个策略模拟器作为被调整策略模拟器、其他策略模拟器作为环境策略模拟器，采用步骤i)～v)对所述被调整策略模拟器的参数进行调整：

i)初始化所述被调整策略模拟器；

ii)利用环境策略模拟器，获得对第二预设时段内多个时刻的环境信息的模拟结果；

iii)对于所述第二预设时段内的每个时刻，将对所述时刻的环境信息的模拟结果输入到所述被调整策略模拟器，以预测所述被调整策略模拟器对应的、在所述时刻的资源属性；

iv)将所述第二预设时段内每个时刻的真实资源属性和预测的资源属性输入到所述被调整策略模拟器对应的判别器中，获得输入是否为真实数据的判别结果；以及

v)根据所述判别器的判别结果，对所述被调整策略模拟器进行调整；

其中，所述策略模拟器集合包括多个资源提供方的策略模拟器。

10.根据权利要求9所述的训练方法，其中，所述被调整策略模拟器的奖赏函数的值与所述判别器的判别正确率成正相关关系。

11.根据权利要求9所述的训练方法，还包括：

利用所述真实资源属性和所述被调整策略模拟器的预测结果训练所述被调整策略模拟器对应的判别器，其中，所述判别器的损失函数与所述判别器的判别正确率成负相关关系。

12.根据权利要求9所述的训练方法，所述初始化所述被调整策略模拟器包括：

获取所述被调整策略模拟器对应的被调整资源提供方的真实环境数据以及相应的标记数据，其中，所述真实环境数据包括非被调整资源提供方的真实资源属性，所述标记数据为相应的真实环境数据下所述被调整资源提供方的真实资源属性；

采用真实环境数据以及相应的标记数据，对所述被调整资源提供方对应的模型进行训练，并将完成训练的模型作为初始化的被调整策略模拟器。

13.根据权利要求12所述的训练方法，还包括：

利用真实资源属性和初始化的被调整策略模拟器的预测结果训练所述被调整策略模拟器对应的判别器，其中，所述判别器的损失函数与所述判别器的判别正确率成负相关关系。

14.根据权利要求9所述的训练方法，其中，所述策略模拟器集合还包括资源使用方的策略模拟器。

15.一种资源属性的预测装置，包括：

获取模块，被配置为获取非目标资源提供方在待测时间的资源属性，作为目标资源提供方的环境信息；

预测模块，被配置为将所述环境信息输入到所述目标资源提供方的资源属性预测模型，预测所述目标资源提供方在所述待测时间的资源属性，其中，所述目标资源提供方的资源属性预测模型是通过以下方法训练的：利用非目标资源提供方的策略模拟器，获得对第一预设时段内多个时刻的环境信息的模拟结果；对于所述第一预设时段内的每个时刻，将对所述时刻的环境信息的模拟结果输入到目标资源提供方的资源属性预测模型，以预测所述目标资源提供方在所述时刻的资源属性；根据所述目标资源提供方在所述第一预设时段内的每个时刻的资源属性，计算在所述第一预设时段内的每个时刻的资源分配目标函数的值；根据所述每个时刻的目标函数的值，对所述目标资源提供方的资源属性预测模型的参数进行调整，包括：根据所述每个时刻的目标函数的值，计算所述第一预设时段内预设的动态规划方程的值；根据所述动态规划方程的值，对所述目标资源提供方的资源属性预测模型的参数进行调整。

16.一种资源属性的预测装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1～5中任一项所述的资源属性的预测方法。

17.一种资源属性预测模型的训练装置，包括：

模拟结果获取模块，被配置为利用非目标资源提供方的策略模拟器，获得对第一预设时段内多个时刻的环境信息的模拟结果；

资源属性预测模块，被配置为对于所述第一预设时段内的每个时刻，将对所述时刻的环境信息的模拟结果输入到目标资源提供方的资源属性预测模型，以预测所述目标资源提供方在所述时刻的资源属性；

目标函数计算模块，被配置为根据所述目标资源提供方在所述第一预设时段内的每个时刻的资源属性，计算在所述第一预设时段内的每个时刻的资源分配目标函数的值；

参数调整模块，被配置为根据所述每个时刻的目标函数的值，对所述目标资源提供方的资源属性预测模型的参数进行调整，包括：根据所述每个时刻的目标函数的值，计算所述第一预设时段内预设的动态规划方程的值；根据所述动态规划方程的值，对所述目标资源提供方的资源属性预测模型的参数进行调整。

18.一种资源属性预测模型的训练装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求6～14中任一项所述的资源属性预测模型的训练方法。

19.一种资源属性的预测系统，包括：

权利要求15或16所述的资源属性的预测装置；以及

权利要求17或18所述的资源属性预测模型的训练装置。

20.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1～5中任一项所述的资源属性的预测方法、或者权利要求6～14中任一项所述的资源属性预测模型的训练方法。