CN110795232A

CN110795232A - 数据处理方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN110795232A
Application number: CN201910872621.1A
Authority: CN
Inventors: 陈尧
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2020-02-14
Anticipated expiration: 2039-09-16
Also published as: CN110795232B

Abstract

本申请涉及一种虚拟资源的数据处理方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取用户在业务系统中持有的虚拟资源的状态数据；将所述虚拟资源的状态数据输入至预先训练的策略生成网络；其中，所述预先训练的策略生成网络为待训练的策略生成网络与待训练的对抗策略网络，根据所述虚拟资源的历史状态数据进行对抗训练得到的生成网络；根据所述预先训练的策略生成网络的输出结果，生成针对所述虚拟资源的状态数据的目标虚拟资源转移策略，以使所述用户进行与所述目标虚拟资源转移策略相应的虚拟资源转移操作。所述方法可以提高服务器的资源利用率。

Description

数据处理方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种虚拟资源的数据处理方法、装置、计算机可读存储介质和计算机设备。

背景技术

现如今，人们常常在业务系统中操作各种虚拟资源。例如，在金融证券平台上对股票、基金、外汇等虚拟资源进行买入、卖出等一系列转移操作。

然而，用户在业务系统中对虚拟资源进行转移操作过程中，往往缺少具有指导性且准确的虚拟资源转移策略。因此，用户需要不断访问业务系统的服务器以针对虚拟资源的详细状态信息查询和了解；而现有的服务器处理资源有限，这也使得服务器的资源浪费，从而降低了服务器的资源利用率。

发明内容

基于此，有必要针对现有的服务器的资源利用率不高的技术问题，提供一种虚拟资源的数据处理方法、装置、计算机可读存储介质和计算机设备。

一种虚拟资源的数据处理方法，包括：

获取用户在业务系统中持有的虚拟资源的状态数据；

将所述虚拟资源的状态数据输入至预先训练的策略生成网络；其中，所述预先训练的策略生成网络为待训练的策略生成网络与待训练的对抗策略网络，根据所述虚拟资源的历史状态数据进行对抗训练得到的生成网络；所述策略生成网络用于生成虚拟资源转移策略；所述对抗策略网络用于生成对抗所述策略生成网络的虚拟资源转移策略的对抗转移策略，以使在完成所述虚拟资源转移策略和所述对抗转移策略后，所述用户在所述业务系统中的虚拟资产数值满足预设的变化条件；

根据所述预先训练的策略生成网络的输出结果，生成针对所述虚拟资源的状态数据的目标虚拟资源转移策略，以使所述用户进行与所述目标虚拟资源转移策略相应的虚拟资源转移操作。

一种策略生成网络的训练方法，包括

获取用户在业务系统中持有的虚拟资源的历史状态数据；

基于所述虚拟资源的历史状态数据，对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练，得到针对所述待训练的策略生成网络的训练结果；其中，所述策略生成网络用于生成虚拟资源转移策略；所述对抗策略网络用于生成对抗所述策略生成网络的虚拟资源转移策略的对抗转移策略，以使在完成所述虚拟资源转移策略和所述对抗转移策略后，所述用户在所述业务系统中的虚拟资产数值满足预设的变化条件；

根据所述训练结果，得到训练后的策略生成网络；所述训练后的策略生成网络用于根据所述用户在业务系统中持有的虚拟资源的当前状态数据，生成目标虚拟资源转移策略。

一种虚拟资源的数据处理装置，所述装置包括：

获取模块，用于获取用户在业务系统中持有的虚拟资源的状态数据；

输入模块，用于将所述虚拟资源的状态数据输入至预先训练的策略生成网络；其中，所述预先训练的策略生成网络为待训练的策略生成网络与待训练的对抗策略网络，根据所述虚拟资源的历史状态数据进行对抗训练得到的生成网络；所述策略生成网络用于生成虚拟资源转移策略；所述对抗策略网络用于生成对抗所述策略生成网络的虚拟资源转移策略的对抗转移策略，以使在完成所述虚拟资源转移策略和所述对抗转移策略后，所述用户在所述业务系统中的虚拟资产数值满足预设的变化条件；

生成模块，用于根据所述预先训练的策略生成网络的输出结果，生成针对所述虚拟资源的状态数据的目标虚拟资源转移策略，以使所述用户进行与所述目标虚拟资源转移策略相应的虚拟资源转移操作。

一种策略生成网络的训练装置，所述装置包括：

数据获取模块，用于获取用户在业务系统中持有的虚拟资源的历史状态数据；

训练模块，用于基于所述虚拟资源的历史状态数据，对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练，得到针对所述待训练的策略生成网络的训练结果；其中，所述策略生成网络用于生成虚拟资源转移策略；所述对抗策略网络用于生成对抗所述策略生成网络的虚拟资源转移策略的对抗转移策略，以使在完成所述虚拟资源转移策略和所述对抗转移策略后，所述用户在所述业务系统中的虚拟资产数值满足预设的变化条件；

确定模块，用于根据所述训练结果，确定训练后的策略生成网络；所述训练后的策略生成网络用于根据所述用户在业务系统中持有的虚拟资源的当前状态数据，生成目标虚拟资源转移策略。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取用户在业务系统中持有的虚拟资源的状态数据；

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

获取用户在业务系统中持有的虚拟资源的状态数据；

获取用户在业务系统中持有的虚拟资源的历史状态数据；

上述一种虚拟资源的数据处理方法、装置、计算机可读存储介质和计算机设备，通过获取用户在业务系统中持有的虚拟资源的状态数据；并将虚拟资源的状态数据输入至预先训练的策略生成网络；其中，预先训练的策略生成网络为待训练的策略生成网络与待训练的对抗策略网络根据虚拟资源的历史状态数据进行对抗训练得到的生成网络，如此可以增加策略生成网络的训练样本，使训练得到的策略生成网络更加稳定和有效；最后，根据预先训练的策略生成网络的输出结果，生成针对虚拟资源的状态数据的目标虚拟资源转移策略；使得用户可以根据该目标虚拟资源转移策略在业务系统中进行相应的资源转移操作，避免用户需要不断访问业务系统的服务器以针对虚拟资源的详细状态信息查询和了解，减少业务系统的服务器的资源浪费，从而提高了该服务器的资源利用率。

附图说明

图1为一个实施例中一种虚拟资源的数据处理方法的应用环境图；

图2为一个实施例中一种虚拟资源的数据处理方法的训练步骤的流程示意图；

图3为另一个实施例中一种虚拟资源的数据处理方法的训练步骤的流程示意图；

图4为一个实施例中一种虚拟资源的数据处理方法的流程示意图；

图5为一个实施例中一种策略生成网络的训练方法的应用环境图；

图6为一个实施例中一种策略生成网络的训练方法的流程示意图；

图7为一个实施例中一种虚拟资源的数据处理装置的结构框图；

图8为一个实施例中一种策略生成网络的训练装置的结构框图；

图9为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中一种虚拟资源的数据处理方法的应用环境图。参照图1，该应用环境图包括服务器110。服务器110首先获取用户在业务系统中持有的虚拟资源的状态数据；然后，服务器110将虚拟资源的状态数据输入至预先训练的策略生成网络；其中，预先训练的策略生成网络为待训练的策略生成网络与待训练的对抗策略网络根据虚拟资源的历史状态数据进行对抗训练得到的生成网络；策略生成网络用于生成虚拟资源转移策略；对抗策略网络用于生成对抗策略生成网络的虚拟资源转移策略的对抗转移策略，以使在完成虚拟资源转移策略和对抗转移策略后，用户在业务系统中的虚拟资产数值满足预设的变化条件；最后，服务器110根据预先训练的策略生成网络的输出结果，生成针对虚拟资源的状态数据的目标虚拟资源转移策略。实际应用中，服务器110可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种虚拟资源的数据处理方法。本实施例主要以该方法应用于上述图1中的服务器110来举例说明。参照图2，该虚拟资源的数据处理方法具体包括如下步骤：

S210，获取用户在业务系统中持有的虚拟资源的状态数据。

其中，虚拟资源可以是指金融资产，例如，股票、现金、汇票、期货、债券、保单、贵金属等。

其中，业务系统可以是指的虚拟资源的数据处理系统。实际应用中，业务系统可以是金融资产的交易数据处理系统，例如，股票交易平台、期货交易平台等证券交易平台。

其中，状态数据可以是指金融资产的资产状态信息。实际应用中，状态数据包括虚拟资源的价值参数和持有虚拟资源数。

其中，价值参数可以是用于表征用户在业务系统中持有且可以转移的虚拟资源在业务系统中的所具有价值的参数。

其中，持有虚拟资源数可以指用户在业务系统中持有且可以转移的虚拟资源的数量。

例如，当虚拟资源为股票时，状态数据可以是指用户当前持有的可交易股票的当前价格和用户针对该可交易股票持仓的仓位。

具体地，当用户需要在业务系统中对虚拟资源进行转移操作过程中，用户可以发送策略获取请求至服务器110。当服务器110接收到策略获取请求后，服务器110获取用户在业务系统中持有的虚拟资源的状态数据。

实际应用中，客户端可以是指可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

例如，当用户需要在股票交易平台进行股票交易时，用户可以针对股票A通过客户端发送策略获取请求至服务器110，当服务器110接收到策略获取请求后，服务器110获取用户当前在股票交易平台持有且可交易的股票A的当前价格和用户针对股票A持仓的仓位。

S220，将虚拟资源的状态数据输入至预先训练的策略生成网络。其中，预先训练的策略生成网络为待训练的策略生成网络与待训练的对抗策略网络根据虚拟资源的历史状态数据进行对抗训练得到的生成网络。其中，策略生成网络用于生成虚拟资源转移策略。其中，对抗策略网络用于生成对抗策略生成网络的虚拟资源转移策略的对抗转移策略，以使在完成虚拟资源转移策略和对抗转移策略后，用户在业务系统中的虚拟资产数值满足预设的变化条件。

实际应用中，策略生成网络的网络结构包括但不限定于BP神经网络，深度学习网络、深度贝叶斯网络等网络结构。

其中，虚拟资源转移策略可以是指用户在业务系统中对虚拟资源进行转移的策略。实际应用中，当虚拟资源为股票时，虚拟资源转移策略为用户在股票交易平台的操盘策略。例如，购买、平仓、观望或改变仓位等策略。

其中，虚拟资源的历史状态数据可以是指用户在业务系统中历史持有的虚拟资源的状态数据。

实际应用中，对抗策略网络的网络结构包括但不限定于BP(Back Propagation反向传播)神经网络，深度学习网络、深度贝叶斯网络等网络结构。

其中，虚拟资产数值可以是指用户在业务系统中的虚拟账户的账户资产的数值。实际应用中，虚拟资产数值可以是用户在业务系统中持有的虚拟资产价值参数总和与用户的虚拟账户中的剩余价值参数的总和。

例如，当虚拟资源为股票时，虚拟资产数值为用户股市账户里面的总资产，即用户股市账户持有当前股票价值和用户股市账户的剩余资金。

具体地，当服务器110获取用户在业务系统中持有的虚拟资源的状态数据，服务器110将该虚拟资源的状态数据输入至预先训练的策略生成网络。

例如，当服务器110在获取用户当前在股票交易平台持有且可交易的股票A的当前价格和用户针对股票A持仓的仓位后，将股票A的当前价格和用户针对股票A持仓的仓位输入至预先训练的策略生成网络。

需要说明的是，服务器110得到预先训练的策略生成网络之前，还需要使用待训练的策略生成网络与待训练的对抗策略网络，根据虚拟资源的历史状态数据进行博弈对抗训练，直到待训练的策略生成网络与待训练的对抗策略网络达到纳什均衡，从而得到训练完毕的策略生成网络；最后，将训练完毕的策略生成网络作为该预先训练的策略生成网络。

具体地，待训练的策略生成网络与待训练的对抗策略网络在进行博弈对抗训练的过程中，策略生成网络用于生成虚拟资源转移策略；对抗策略网络用于生成对抗策略生成网络的虚拟资源转移策略的对抗转移策略，以使在业务系统完成虚拟资源转移策略和对抗转移策略后，用户在业务系统中的虚拟资产数值满足预设的变化条件。其中，该变化条件可以是用户在业务系统中的虚拟资产数值下降。

S230，根据预先训练的策略生成网络的输出结果，生成针对虚拟资源的状态数据的目标虚拟资源转移策略，以使所述用户进行与所述目标虚拟资源转移策略相应的虚拟资源转移操作。

具体地，服务器110将该虚拟资源的状态数据输入至预先训练的策略生成网络后，服务器110根据预先训练的策略生成网络的输出结果，生成针对虚拟资源的状态数据的目标虚拟资源转移策略。并将目标虚拟资源转移策略推荐至用户，以使用户根据目标虚拟资源转移策略在在业务系统中进行虚拟资源转移。

例如，当虚拟资产为股票时，当服务器110将股票A的当前价格和用户针对股票A持仓的仓位输入至预先训练的策略生成网络，服务器110根据预先训练的策略生成网络的输出结果，生成针对股票A的当前价格和用户针对股票A持仓的仓位的操盘行为，并将该操盘行为推荐至用户，以供用户根据该操盘行为进行股票操作。

上述一种虚拟资源的数据处理方法，通过获取用户在业务系统中持有的虚拟资源的状态数据；并将虚拟资源的状态数据输入至预先训练的策略生成网络；其中，预先训练的策略生成网络为待训练的策略生成网络与待训练的对抗策略网络根据虚拟资源的历史状态数据进行对抗训练得到的生成网络，如此可以增加策略生成网络的训练样本，使训练得到的策略生成网络更加稳定和有效；最后，根据预先训练的策略生成网络的输出结果，生成针对虚拟资源的状态数据的目标虚拟资源转移策略；使得用户可以根据该目标虚拟资源转移策略在业务系统中进行相应的资源转移操作，避免用户需要不断访问业务系统的服务器以针对虚拟资源的详细状态信息查询和了解，减少业务系统的服务器的资源浪费，从而提高了该服务器的资源利用率。

如图3所示，在一个实施例中，该虚拟资源的数据处理方法具体还包括如下步骤：S310，构建待训练的策略生成网络，以及，构建待训练的对抗策略网络；S320，获取虚拟资源的历史状态数据；并使用虚拟资源的历史状态数据，对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练，得到预先训练的策略生成网络。

其中，待训练的策略生成网络可以是指未经过训练的策略生成网络。

其中，待训练的对抗策略网络可以是指未经过训练的对抗策略网络。

具体地，开发人员预先在服务器110中设置策略生成网络的网络结构，使服务器110完成待训练的策略生成网络的构建，以及，开发人员预先在服务器110中设置对抗策略网络的网络结构，使服务器110完成待训练的对抗策略网络的构建。其中，待训练的策略生成网络和待训练的对抗策略网络各自的模型参数随机生成，例如，各个神经元的权重参数和偏置参数。然后，获取虚拟资源的历史状态数据；并使用虚拟资源的历史状态数据，对待训练的策略生成网络和待训练的对抗策略网络进行博弈对抗训练，直至待训练的策略生成网络和待训练的对抗策略网络各自的网络参数收敛即待训练的策略生成网络和待训练的对抗策略网络之间得到纳什平衡，得到训练完毕的策略生成网络。最后，将训练完毕的策略生成网络作为预先训练的策略生成网络。

更具体地，在待训练的策略生成网络与待训练的对抗策略网络在进行博弈对抗训练的过程中，策略生成网络使用虚拟资源的历史状态数据，生成虚拟资源转移策略；对抗策略网络使用虚拟资源的历史状态数据，生成对抗策略生成网络的虚拟资源转移策略的对抗转移策略。在业务系统完成虚拟资源转移策略和对抗转移策略后，确定用户在业务系统中的虚拟资产数值，并使用虚拟资产数值，对待训练的策略生成网络和待训练的对抗策略网络进行优化。其中，待训练的策略生成网络根据虚拟资产数值，以用户在业务系统中的虚拟资产数值下降幅度最低为训练目标，优化待训练的策略生成网络的网络参数，得到训练完毕的策略生成网络。待训练的对抗策略网络根据虚拟资产数值，以用户在业务系统中的虚拟资产数值下降幅度最大为训练目标，优化待训练的对抗策略网络的网络参数，得到训练完毕的对抗策略网络。

实际应用中，策略生成网络可以表示为S(x,W^S)和对抗策略网络可以表示为A(x,W^A)；其中，x为用于作为各个网络输入数据的虚拟资源的状态数据，W^S和W^A是模型参数，W^S和W^A的初始值均为服务器110随机生成，然后可以使用train-test-split(分割测试集训练集，一种机器训练方法)或cross-validation(交叉验证，一种机器训练方法)方法在最大化测试集上进行效果调整，使模型参数在训练集上进行拟合。

例如，当虚拟资源为股票时，待训练的策略生成网络与待训练的对抗策略网络在进行博弈对抗训练的过程中，策略生成网络用于生成针对历史状态数据用户需要在股票交易平台的操盘策略。对抗策略网络用于生成模拟在股票交易平台中用户的交易对手针对历史状态数据需要在股票交易平台的对抗操盘策略，以使在业务系统完成操盘策略和对抗操盘策略后，用户的股市账户的总资产相比完成操盘策略减少即用户投资亏损。在对抗训练过程中，待训练的策略生成网络根据用户的股市账户的总资产，以用户投资亏损最低或用户投资收益最大为训练目标，优化待训练的策略生成网络的网络参数，得到训练完毕的策略生成网络。待训练的对抗策略网络根据虚拟资产数值，以用户投资亏损最大或用户投资收益最小为训练目标，优化待训练的对抗策略网络的网络参数，得到训练完毕的对抗策略网络。

本实施例的技术方案，通过构建待训练的策略生成网络，并构建待训练的对抗策略网络；获取虚拟资源的历史状态数据；并使用虚拟资源的历史状态数据，对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练，得到预先训练的策略生成网络，，如此可以增加策略生成网络的训练样本，使训练得到的策略生成网络更加稳定和有效，进而可以通过预先训练的策略生成网络准确地生成针对虚拟资源的状态数据的目标虚拟资源转移策略；使得用户可以根据该目标虚拟资源转移策略在业务系统中进行相应的资源转移操作，避免用户需要不断访问业务系统的服务器以针对虚拟资源的详细状态信息查询和了解，减少业务系统的服务器的资源浪费，从而提高了该服务器的资源利用率。

如图4所示，在一个实施例中，历史状态数据具有至少两个，使用虚拟资源的历史状态数据，对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练，得到预先训练的策略生成网络，具体包括如下步骤：S410，将历史状态数据，输入至待训练的策略生成网络，生成与历史状态数据对应的第一虚拟资源转移策略；以及，将历史状态数据，输入至待训练的对抗策略网络，生成与历史状态数据对应的第一对抗转移策略；S420，确定虚拟资源的当前状态数据；当前状态数据为在业务系统中完成第一虚拟资源转移策略和第一对抗转移策略后，用户在业务系统中持有的虚拟资源的状态数据；S430，根据当前状态数据，计算出用户的虚拟资产变化值；S440，根据虚拟资产变化值，调整待训练的策略生成网络的网络参数，得到训练后的策略生成网络，并将训练后的策略生成网络，作为待训练的策略生成网络，以及，根据虚拟资产变化值，调整待训练的对抗策略网络的网络参数，得到训练后的对抗策略网络，并将训练后的对抗策略网络作为待训练的对抗策略网络；S450，重复执行上述步骤，直至得到预先训练的策略生成网络。

其中，虚拟资源的历史状态数据可以是指用户在业务系统中历史持有的虚拟资源的状态数据。历史状态数据具有至少两个。例如，当虚拟资源为股票时，历史状态数据为股票的历史行情数据，即每个时间点下可交易股票的价格和持仓的仓位。其中，时间点具有N个。实际应用中，时间点可以是指交易日T。

其中，虚拟资产变化值可以使至在完成第一虚拟资源转移策略和第一对抗转移策略前后，用户在业务系统中的虚拟资产数值的变化值。

实际应用中，当虚拟资产为股票时，虚拟资产变化值用于表征用户的投资收益程度。例如，当虚拟资产变化值大于0时，则用户在股票交易平台中得到投资收益。当虚拟资产变化值小于0时，则用户在股票交易平台中得不到投资收益，即投资亏损。

具体地，服务器110将其中一个的历史状态数据，输入至待训练的策略生成网络，进而生成与历史状态数据对应的第一虚拟资源转移策略。同时，服务器110将历史状态数据输入至待训练的对抗策略网络，生成与历史状态数据对应的第一对抗转移策略；然后，服务器110确定虚拟资源的当前状态数据。其中，上述的当前状态数据为服务器110在业务系统中完成第一虚拟资源转移策略和第一对抗转移策略后，用户在业务系统中持有的虚拟资源的状态数据。根据虚拟资源的当前状态数据，计算出用户的虚拟资产变化值。最后，服务器110根据虚拟资产变化值调整待训练的对抗策略网络的网络参数，得到训练后的对抗策略网络，并将训练后的对抗策略网络作为待训练的对抗策略网络；同时，服务器110根据虚拟资产变化值，调整待训练的对抗策略网络的网络参数，得到训练后的对抗策略网络，并将训练后的对抗策略网络作为待训练的对抗策略网络；服务器110重复执行上述步骤对各个历史行情数据进行处理，直至得到具有合适的网络结构和网络参数收敛的策略生成网络即预先训练的策略生成网络。

例如，当虚拟资产为股票时，首先初始化系统收益Q₁,然后，从T＝0开始，将T＝0对应的可交易股票的价格和用户持仓的仓位并记为x₁，输入至待训练的策略生成网络S(x,W^S)，进而生成最对T＝0下股票行情的股票操盘行为p，即持仓状态的改变量。同时，将T＝0对应的可交易股票的价格和用户持仓的仓位x₁，输入至待训练的对抗策略网络A(x,W^A)，生成T＝0时用户的交易对手的对抗操盘行为a；并根据股票操盘行为p和对抗操盘行为a，生成完成交易后用户持有的股票的价格和用户持仓的仓位并记为x₂；然后，使用alpha系数和x₂计算出，在完成股票操盘行为p以后在对抗策略网络A(x,W^A)生成的金融资产价格下的投资收益R,并使用投资收益R进行加权累加，得到完成仓位变更后的系统收益Q₂；最后，根据上述的系统收益Q₂调整待训练的策略生成网络S(x,W^S)的网络参数W^S，得到训练后的策略生成网络S(x,W^S)，并将训练后的策略生成网络S(x,W^S)作为待训练的策略生成网络S(x,W^S)；同时，服务器110根据上述的系统收益Q₂，调整待训练的对抗策略网络A(x,W^A)的网络参数W^A，得到训练后的对抗策略网络A(x,W^A)，并将训练后的对抗策略网络A(x,W^A)作为待训练的对抗策略网络A(x,W^A)；服务器110重复执行上述步骤即遍历至时间T＝N，进而得到具有合适的网络结构和网络参数收敛的策略生成网络即预先训练的策略生成网络S(x,W^S)。

本实施例的技术方案，通过构建待训练的策略生成网络，并构建待训练的对抗策略网络；获取虚拟资源的历史状态数据；并使用虚拟资源的历史状态数据，对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练，如此可以增加策略生成网络的训练样本，使训练得到的策略生成网络更加稳定和有效，通过预先训练的策略生成网络，进而可以根据预先训练的策略生成网络的输出结果，准确地生成针对虚拟资源的状态数据的目标虚拟资源转移策略；使得用户可以根据该目标虚拟资源转移策略在业务系统中进行相应的资源转移操作，避免用户需要不断访问业务系统的服务器以针对虚拟资源的详细状态信息查询和了解，减少业务系统的服务器的资源浪费，从而提高了该服务器的资源利用率。

在一个实施例中，根据虚拟资产变化值，调整待训练的策略生成网络的网络参数，得到训练后的策略生成网络，包括：获取待训练的策略生成网络的第一目标虚拟资产变化值；计算第一目标虚拟资产变化值与虚拟资产变化值的误差，作为待训练的策略生成网络的第一损失参数；根据第一损失参数，对待训练的策略生成网络的网络参数进行求偏导，得到针对待训练的策略生成网络的网络参数的第一偏导数；根据第一偏导数，更新待训练的策略生成网络的网络参数，得到训练后的策略生成网络。

具体地，服务器110在根据虚拟资产变化值，调整待训练的策略生成网络的网络参数，得到训练后的策略生成网络的过程中，具体需要服务器110获取待训练的策略生成网络的第一目标虚拟资产变化值；然后，服务器110计算第一目标虚拟资产变化值与虚拟资产变化值的误差，作为待训练的策略生成网络的第一损失参数；然后，服务器110基于神经网络的链式法则，根据第一损失参数，对待训练的策略生成网络的网络参数进行求偏导，得到针对待训练的策略生成网络的网络参数的第一偏导数；最后，服务器110使用随机梯度下降法，根据第一偏导数，更新待训练的策略生成网络的网络参数，以使待训练的策略生成网络的第一损失参数最小，直至待训练的策略生成网络的网络参数收敛，进而得到训练后的策略生成网络。

实际应用中，当虚拟资源为股票时，上述的第一目标虚拟资产变化值大于零，即用户在按照策略生成网络生成的操盘行为进行股票操作后，用户在股票交易平台中得到投资收益。如此，在对抗训练过程中，待训练的策略生成网络会以用户投资亏损最低或用户投资收益最大为训练目标，优化待训练的策略生成网络的网络参数，得到训练后的策略生成网络。

具体地，服务器110计算第一目标虚拟资产变化值与虚拟资产变化值的误差的过程中；可以使用激活函数(Sigmoid函数、ReLU函数)将虚拟资产变化值转为用于针对该策略生成网络的第一效果评分值，其中，第一效果评分值大于等于0且小于等于1。当虚拟资产变化值越大，第一效果评分值越趋近于1，当虚拟资产变化值越小，第一效果评分值越趋近于0。同时，第一目标虚拟资产变化值对应的第一目标效果评分值为1。然后，计算第一效果评分值与第一目标效果评分值的平方误差，进而得到第一目标虚拟资产变化值与虚拟资产变化值的误差。

本实施例的技术方案，通过获取待训练的策略生成网络的第一目标虚拟资产变化值；然后计算第一目标虚拟资产变化值与虚拟资产变化值的误差，作为待训练的策略生成网络的第一损失参数；在然后，根据第一损失参数，对待训练的策略生成网络的网络参数进行求偏导，得到针对待训练的策略生成网络的网络参数的第一偏导数；最后，根据第一偏导数，更新待训练的策略生成网络的网络参数，得到训练后的策略生成网络。如此，策略生成网络可以生成符合训练目标的虚拟资源转移策略，进而可以使得用户可以根据该目标虚拟资源转移策略在业务系统中进行更为准确的资源转移操作，减少业务系统的服务器的资源浪费，从而提高了该服务器的资源利用率。

在一个实施例中，根据虚拟资产变化值，调整待训练的对抗策略网络的网络参数，得到训练后的对抗策略网络，包括：获取待训练的对抗策略网络的第二目标虚拟资产变化值；计算第二目标虚拟资产变化值与虚拟资产变化值的误差，作为待训练的对抗策略网络的第二损失参数；根据第二损失参数，对待训练的对抗策略网络的网络参数进行求偏导，得到针对待训练的对抗策略网络的网络参数的第二偏导数；根据第二偏导数，更新待训练的对抗策略网络的网络参数，得到训练后的对抗策略网络。

具体地，服务器110在根据虚拟资产变化值，调整待训练的对抗策略网络的网络参数，得到训练后的对抗策略网络的过程中，服务器110具体需要获取待训练的对抗策略网络的第二目标虚拟资产变化值；然后，服务器110计算第二目标虚拟资产变化值与虚拟资产变化值的误差，作为待训练的对抗策略网络的第二损失参数；然后，服务器110基于神经网络的链式法则，根据第二损失参数，对待训练的对抗策略网络的网络参数进行求偏导，得到针对待训练的对抗策略网络的网络参数的第二偏导数；最后，服务器110使用随机梯度下降法，根据第二偏导数，更新待训练的对抗策略网络的网络参数，以使待训练的对抗策略网络的第二损失参数最小，直至待训练的对抗策略网络的网络参数收敛，进而得到训练后的对抗策略网络。

实际应用中，当虚拟资源为股票时，上述的第二目标虚拟资产变化值小于零，交易对手在按照对抗策略网络生成的对抗操盘行为进行股票操作且用户在按照策略生成网络生成的操盘行为进行股票操作后，用户在股票交易平台中得不到投资收益即投资亏损。如此，在对抗训练过程中，待训练的对抗策略网络会以用户投资亏损最大或用户投资收益最低为训练目标，优化待训练的对抗策略网络的网络参数，得到训练后的对抗策略网络。

具体地，服务器110计算第二目标虚拟资产变化值与虚拟资产变化值的误差的过程中；可以使用激活函数(Sigmoid函数、ReLU函数)将虚拟资产变化值转为用于针对该对抗策略网络的第二效果评分值，其中，第二效果评分值大于等于0且小于等于1。当虚拟资产变化值越小，第二效果评分值越趋近于1，当虚拟资产变化值越大，第二效果评分值越趋近于0。同时，第二目标虚拟资产变化值对应的第二目标效果评分值为1。然后，计算第二效果评分值与第二目标效果评分值的平方误差，进而得到第二目标虚拟资产变化值与虚拟资产变化值的误差。

本实施例的技术方案，通过获取待训练的对抗策略网络的第二目标虚拟资产变化值；计算第二目标虚拟资产变化值与虚拟资产变化值的误差，作为待训练的对抗策略网络的第二损失参数；根据第二损失参数，对待训练的对抗策略网络的网络参数进行求偏导，并待训练的对抗策略网络的网络参数，得到训练后的对抗策略网络，如此，对抗策略网络可以生成更加有效的对抗转移策略，提高对策略生成网络的训练难度，使策略生成网络生成更加准确的虚拟资源转移策略，进而可以使得用户可以根据该目标虚拟资源转移策略在业务系统中进行更为准确的资源转移操作，减少业务系统的服务器的资源浪费，从而提高了该服务器的资源利用率。

图5为一个实施例中一种策略生成网络的训练方法的应用环境图。参照图5，该应用环境图包括训练服务器510。训练服务器510首先获取用户在业务系统中持有的虚拟资源的历史状态数据；然后，训练服务器510基于虚拟资源的历史状态数据，对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练，得到针对待训练的策略生成网络的训练结果；其中，策略生成网络用于生成虚拟资源转移策略；对抗策略网络用于生成对抗策略生成网络的虚拟资源转移策略的对抗转移策略，以使在完成虚拟资源转移策略和对抗转移策略后，用户在业务系统中的虚拟资产数值满足预设的变化条件；最后，训练服务器510根据训练结果，得到训练后的策略生成网络；训练后的策略生成网络用于根据用户在业务系统中持有的虚拟资源的当前状态数据，生成目标虚拟资源转移策略。实际应用中，训练服务器510可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图6所示，在一个实施例中，提供了一种虚拟资源的数据处理方法。本实施例主要以该方法应用于上述图5中的训练服务器510来举例说明。参照图2，该虚拟资源的数据处理方法具体包括如下步骤：

S610，获取用户在业务系统中持有的虚拟资源的历史状态数据。

具体地，在对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练之前，训练服务器510获取用户在业务系统中持有的虚拟资源的历史状态数据。

例如，当虚拟资产为股票时，在对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练之前，训练服务器510获取用户持有的股票的历史行情数据，即每个时间点下可交易股票的价格和持仓的仓位。其中，时间点具有N个。实际应用中，时间点可以是指交易日T。其中，历史状态数据可以为一个长为2K的向量，其中，K为金融资产的个数。

S620，基于虚拟资源的历史状态数据，对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练，得到针对待训练的策略生成网络的训练结果；其中，策略生成网络用于生成虚拟资源转移策略；对抗策略网络用于生成对抗策略生成网络的虚拟资源转移策略的对抗转移策略，以使在完成虚拟资源转移策略和对抗转移策略后，用户在业务系统中的虚拟资产数值满足预设的变化条件。

具体地，训练服务器510在获取虚拟资源的历史状态数据后，训练服务器510基于该历史状态数据对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练，得到针对待训练的策略生成网络的训练结果。

更具体地，待训练的策略生成网络与待训练的对抗策略网络，根据虚拟资源的历史状态数据进行博弈对抗训练，直到待训练的策略生成网络与待训练的对抗策略网络达到纳什均衡，从而得到训练完毕的策略生成网络；最后，将训练完毕的策略生成网络作为该预先训练的策略生成网络。在待训练的策略生成网络与待训练的对抗策略网络在进行博弈对抗训练的过程中，策略生成网络用于生成虚拟资源转移策略；对抗策略网络用于生成对抗策略生成网络的虚拟资源转移策略的对抗转移策略，以使在业务系统完成虚拟资源转移策略和对抗转移策略后，用户在业务系统中的虚拟资产数值满足预设的变化条件。其中，该变化条件可以是用户在业务系统中的虚拟资产数值下降。

需要说明的是，待训练的策略生成网络和待训练的对抗策略网络进行对抗训练的详细过程可以参见上述实施例，在此不再赘述。

S630，根据训练结果，得到训练后的策略生成网络；训练后的策略生成网络用于根据用户在业务系统中持有的虚拟资源的当前状态数据，生成目标虚拟资源转移策略。

具体地，当待训练的策略生成网络与待训练的对抗策略网络达到纳什均衡后，得到训练后的策略生成网络和训练后的对抗策略网络；然后，训练服务器510获取训练后的策略生成网络的网络结构，例如输入层、隐藏层层数和输出层和网络参数，以及，获取训练后的策略生成网络的网络参数，例如各个神经元的权重和偏置等。将上述的策略生成网络的网络结构和网络参数作为训练结果；并根据训练结果，在训练服务器510中构建训练后的策略生成网络。

如此，训练服务器510可以通过训练后的策略生成网络，将根据用户在业务系统中持有的虚拟资源的状态数据，并根据训练后的策略生成网络的输出结果，确定针对虚拟资源的状态数据的目标虚拟资源转移策略。并将目标虚拟资源转移策略推荐至用户，以使用户在业务系统中进行与目标虚拟资源转移策略相对应的虚拟资源转移操作。

例如，当虚拟资产为股票时，训练服务器510将股票A的当前价格和用户针对股票A持仓的仓位输入至训练后的策略生成网络，训练服务器510根据训练后的策略生成网络的输出结果，生成针对股票A的当前价格和用户针对股票A持仓的仓位的操盘行为，并将该操盘行为推荐至用户，以供用户根据该操盘行为进行股票操作。

上述一种策略生成网络的训练方法，通过获取用户在业务系统中持有的虚拟资源的历史状态数据，并基于该历史状态数据对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练，得到针对待训练的策略生成网络的训练结果；最后，在根据该训练结果，得到训练后的策略生成网络，如此可以增加策略生成网络的训练样本，使训练得到的策略生成网络更加稳定和有效；以使可以通过训练后的策略生成网络准确地生成针对虚拟资源的状态数据的目标虚拟资源转移策略；使得用户可以根据该目标虚拟资源转移策略在业务系统中进行相应的资源转移操作，避免用户需要不断访问业务系统的服务器以针对虚拟资源的详细状态信息查询和了解，减少业务系统的服务器的资源浪费，从而提高了该服务器的资源利用率。

应该理解的是，虽然图2、图3、图4和图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图3、图4和图6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图7所示，图7提供了一种虚拟资源的数据处理方法装置，所述装置包括：

获取模块710，用于获取用户在业务系统中持有的虚拟资源的状态数据；

输入模块720，用于将所述虚拟资源的状态数据输入至预先训练的策略生成网络；其中，所述预先训练的策略生成网络为待训练的策略生成网络与待训练的对抗策略网络，根据所述虚拟资源的历史状态数据进行对抗训练得到的生成网络；所述策略生成网络用于生成虚拟资源转移策略；所述对抗策略网络用于生成对抗所述策略生成网络的虚拟资源转移策略的对抗转移策略，以使在完成所述虚拟资源转移策略和所述对抗转移策略后，所述用户在所述业务系统中的虚拟资产数值满足预设的变化条件；

生成模块730，用于根据所述预先训练的策略生成网络的输出结果，生成针对所述虚拟资源的状态数据的目标虚拟资源转移策略，以使所述用户进行与所述目标虚拟资源转移策略相应的虚拟资源转移操作。

上述一种虚拟资源的数据处理装置，通过获取用户在业务系统中持有的虚拟资源的状态数据；并将虚拟资源的状态数据输入至预先训练的策略生成网络；其中，预先训练的策略生成网络为待训练的策略生成网络与待训练的对抗策略网络根据虚拟资源的历史状态数据进行对抗训练得到的生成网络，如此可以增加策略生成网络的训练样本，使训练得到的策略生成网络更加稳定和有效；最后，根据预先训练的策略生成网络的输出结果，生成针对虚拟资源的状态数据的目标虚拟资源转移策略；使得用户可以根据该目标虚拟资源转移策略在业务系统中进行相应的资源转移操作，避免用户需要不断访问业务系统的服务器以针对虚拟资源的详细状态信息查询和了解，减少业务系统的服务器的资源浪费，从而提高了该服务器的资源利用率。

在其中的一个实施例中，上述的虚拟资源的数据处理装置，还包括：构建模块，用于构建所述待训练的策略生成网络，以及，构建所述待训练的对抗策略网络；网络训练模块，用于获取所述虚拟资源的历史状态数据；并使用所述虚拟资源的历史状态数据，对所述待训练的策略生成网络和所述待训练的对抗策略网络进行对抗训练，得到所述预先训练的策略生成网络。

在其中的一个实施例中，所述历史状态数据具有至少两个，上述的网络训练模块，包括：输入子模块，用于将所述历史状态数据，输入至所述待训练的策略生成网络，生成与所述历史状态数据对应的第一虚拟资源转移策略；以及，将所述历史状态数据，输入至所述待训练的对抗策略网络，生成与所述历史状态数据对应的第一对抗转移策略；确定子模块，用于确定所述虚拟资源的当前状态数据；所述当前状态数据为在所述业务系统中完成所述第一虚拟资源转移策略和所述第一对抗转移策略后，所述用户在所述业务系统中持有的虚拟资源的状态数据；计算子模块，用于根据所述当前状态数据，计算出所述用户的虚拟资产变化值；调整子模块，用于根据所述虚拟资产变化值，调整所述待训练的策略生成网络的网络参数，得到训练后的策略生成网络，并将所述训练后的策略生成网络，作为所述待训练的策略生成网络，以及，根据所述虚拟资产变化值，调整所述待训练的对抗策略网络的网络参数，得到训练后的对抗策略网络，并将所述训练后的对抗策略网络作为所述待训练的对抗策略网络；遍历子模块，用于重复执行上述步骤，直至得到所述预先训练的策略生成网络。

在其中的一个实施例中，上述的调整子模块，具体还用于：获取所述待训练的策略生成网络的第一目标虚拟资产变化值；计算所述第一目标虚拟资产变化值与所述虚拟资产变化值的误差，作为所述待训练的策略生成网络的第一损失参数；根据所述第一损失参数，对所述待训练的策略生成网络的网络参数进行求偏导，得到针对所述待训练的策略生成网络的网络参数的第一偏导数；根据所述第一偏导数，更新所述待训练的策略生成网络的网络参数，得到所述训练后的策略生成网络。

在其中的一个实施例中，上述的调整子模块，具体还用于：获取所述待训练的对抗策略网络的第二目标虚拟资产变化值；计算所述第二目标虚拟资产变化值与所述虚拟资产变化值的误差，作为所述待训练的对抗策略网络的第二损失参数；根据所述第二损失参数，对所述待训练的对抗策略网络的网络参数进行求偏导，得到针对所述待训练的对抗策略网络的网络参数的第二偏导数；根据所述第二偏导数，更新所述待训练的对抗策略网络的网络参数，得到所述训练后的对抗策略网络。

如图8所示，图8提供了一种策略生成网络的训练装置，所述装置包括：

数据获取模块810，用于获取用户在业务系统中持有的虚拟资源的历史状态数据；

训练模块820，用于基于所述虚拟资源的历史状态数据，对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练，得到针对所述待训练的策略生成网络的训练结果；其中，所述策略生成网络用于生成虚拟资源转移策略；所述对抗策略网络用于生成对抗所述策略生成网络的虚拟资源转移策略的对抗转移策略，以使在完成所述虚拟资源转移策略和所述对抗转移策略后，所述用户在所述业务系统中的虚拟资产数值满足预设的变化条件；

确定模块830，用于根据所述训练结果，确定训练后的策略生成网络；所述训练后的策略生成网络用于根据所述用户在业务系统中持有的虚拟资源的当前状态数据，生成目标虚拟资源转移策略。

上述一种策略生成网络的训练装置，通过获取用户在业务系统中持有的虚拟资源的历史状态数据，并基于该历史状态数据对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练，得到针对待训练的策略生成网络的训练结果，如此可以增加策略生成网络的训练样本，使训练得到的策略生成网络更加稳定和有效；最后，在根据该训练结果，得到训练后的策略生成网络；以使可以通过训练后的策略生成网络准确地生成针对虚拟资源的状态数据的目标虚拟资源转移策略；使得用户可以根据该目标虚拟资源转移策略在业务系统中进行相应的资源转移操作，避免用户需要不断访问业务系统的服务器以针对虚拟资源的详细状态信息查询和了解，减少业务系统的服务器的资源浪费，从而提高了该服务器的资源利用率。

图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器110。如图9所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现虚拟资源的数据处理方法和/或策略生成网络的训练方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行虚拟资源的数据处理方法和/或策略生成网络的训练方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的虚拟资源的数据处理装置可以实现为一种计算机程序的形式，计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该虚拟资源的数据处理装置的各个程序模块，比如，图7所示的获取模块710、输入模块720和生成模块730。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的虚拟资源的数据处理方法中的步骤。

例如，图9所示的计算机设备可以通过如图7所示的虚拟资源的数据处理装置中的获取模块710执行获取用户在业务系统中持有的虚拟资源的状态数据。计算机设备可通过输入模块720执行将所述虚拟资源的状态数据输入至预先训练的策略生成网络；其中，所述预先训练的策略生成网络为待训练的策略生成网络与待训练的对抗策略网络，根据所述虚拟资源的历史状态数据进行对抗训练得到的生成网络；所述策略生成网络用于生成虚拟资源转移策略；所述对抗策略网络用于生成对抗所述策略生成网络的虚拟资源转移策略的对抗转移策略，以使在完成所述虚拟资源转移策略和所述对抗转移策略后，所述用户在所述业务系统中的虚拟资产数值满足预设的变化条件。计算机设备可通过生成模块730执行根据所述预先训练的策略生成网络的输出结果，生成针对所述虚拟资源的状态数据的目标虚拟资源转移策略，以使所述用户进行与所述目标虚拟资源转移策略相应的虚拟资源转移操作。

在另一个实施例中，本申请提供的策略生成网络的训练装置可以实现为一种计算机程序的形式，计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该虚拟资源的数据处理装置的各个程序模块，比如，图8所示的数据获取模块810、训练模块820和确定模块830。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的虚拟资源的数据处理方法中的步骤。

例如，图9所示的计算机设备可以通过如图8所示的策略生成网络的训练装置中的数据获取模块810执行获取用户在业务系统中持有的虚拟资源的历史状态数据。计算机设备可通过训练模块820执行基于所述虚拟资源的历史状态数据，对待训练的策略生成网络和待训练的对抗策略网络进行对抗训练，得到针对所述待训练的策略生成网络的训练结果；其中，所述策略生成网络用于生成虚拟资源转移策略；所述对抗策略网络用于生成对抗所述策略生成网络的虚拟资源转移策略的对抗转移策略，以使在完成所述虚拟资源转移策略和所述对抗转移策略后，所述用户在所述业务系统中的虚拟资产数值满足预设的变化条件。计算机设备可通过确定模块830执行根据所述训练结果，确定训练后的策略生成网络；所述训练后的策略生成网络用于根据所述用户在业务系统中持有的虚拟资源的当前状态数据，生成目标虚拟资源转移策略。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述虚拟资源的数据处理方法和/或策略生成网络的训练方法的步骤。此处虚拟资源的数据处理方法和/或策略生成网络的训练方法的步骤可以是上述各个实施例的虚拟资源的数据处理方法和/或策略生成网络的训练方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述虚拟资源的数据处理方法和/或策略生成网络的训练方法的步骤。此处虚拟资源的数据处理方法和/或策略生成网络的训练方法的步骤可以是上述各个实施例的虚拟资源的数据处理方法和/或策略生成网络的训练方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种虚拟资源的数据处理方法，包括：

获取用户在业务系统中持有的虚拟资源的状态数据；

2.根据权利要求1所述的方法，其特征在于，还包括：

构建所述待训练的策略生成网络，以及，构建所述待训练的对抗策略网络；

获取所述虚拟资源的历史状态数据；并使用所述虚拟资源的历史状态数据，对所述待训练的策略生成网络和所述待训练的对抗策略网络进行对抗训练，得到所述预先训练的策略生成网络。

3.根据权利要求2所述的方法，其特征在于，所述历史状态数据具有至少两个，所述使用所述虚拟资源的历史状态数据，对所述待训练的策略生成网络和所述待训练的对抗策略网络进行对抗训练，得到所述预先训练的策略生成网络，包括：

将所述历史状态数据，输入至所述待训练的策略生成网络，生成与所述历史状态数据对应的第一虚拟资源转移策略；以及，将所述历史状态数据，输入至所述待训练的对抗策略网络，生成与所述历史状态数据对应的第一对抗转移策略；

确定所述虚拟资源的当前状态数据；所述当前状态数据为在所述业务系统中完成所述第一虚拟资源转移策略和所述第一对抗转移策略后，所述用户在所述业务系统中持有的虚拟资源的状态数据；

根据所述当前状态数据，计算出所述用户的虚拟资产变化值；

根据所述虚拟资产变化值，调整所述待训练的策略生成网络的网络参数，得到训练后的策略生成网络，并将所述训练后的策略生成网络，作为所述待训练的策略生成网络，以及，根据所述虚拟资产变化值，调整所述待训练的对抗策略网络的网络参数，得到训练后的对抗策略网络，并将所述训练后的对抗策略网络作为所述待训练的对抗策略网络；

重复执行上述步骤，直至得到所述预先训练的策略生成网络。

4.根据权利要求3所述的方法，其特征在于，所述根据所述虚拟资产变化值，调整所述待训练的策略生成网络的网络参数，得到训练后的策略生成网络，包括：

获取所述待训练的策略生成网络的第一目标虚拟资产变化值；

计算所述第一目标虚拟资产变化值与所述虚拟资产变化值的误差，作为所述待训练的策略生成网络的第一损失参数；

根据所述第一损失参数，对所述待训练的策略生成网络的网络参数进行求偏导，得到针对所述待训练的策略生成网络的网络参数的第一偏导数；

根据所述第一偏导数，更新所述待训练的策略生成网络的网络参数，得到所述训练后的策略生成网络。

5.根据权利要求3所述的方法，其特征在于，所述根据所述虚拟资产变化值，调整所述待训练的对抗策略网络的网络参数，得到训练后的对抗策略网络，包括：

获取所述待训练的对抗策略网络的第二目标虚拟资产变化值；

计算所述第二目标虚拟资产变化值与所述虚拟资产变化值的误差，作为所述待训练的对抗策略网络的第二损失参数；

根据所述第二损失参数，对所述待训练的对抗策略网络的网络参数进行求偏导，得到针对所述待训练的对抗策略网络的网络参数的第二偏导数；

根据所述第二偏导数，更新所述待训练的对抗策略网络的网络参数，得到所述训练后的对抗策略网络。

6.一种策略生成网络的训练方法，包括：

获取用户在业务系统中持有的虚拟资源的历史状态数据；

7.一种虚拟资源的数据处理装置，其特征在于，所述装置包括：

8.一种策略生成网络的训练装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。