CN115018532A

CN115018532A - 资源发放模型的训练方法、装置、设备、存储介质及产品

Info

Publication number: CN115018532A
Application number: CN202210583338.9A
Authority: CN
Inventors: 毛雪; 史鑫磊; 罗恒亮
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Xiamen Sankuai Online Technology Co ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-09-06

Abstract

本申请提供了一种资源发放模型的训练方法、装置、设备、存储介质及产品，属于互联网技术领域。方法包括：获取发放环节序列包括的多个发放环节的样本数据，发放环节的样本数据包括样本账号的参考特征信息、需求信息和第一回报信息；基于发放环节序列包括的多个发放环节的顺序，依次执行如下步骤，直到资源发放模型满足收敛条件为止，得到目标资源发放模型：基于当前发放环节的样本数据，确定当前发放环节的第二回报信息，第二回报信息用于表示样本账号在第一个环节至当前发放环节基于互联网平台发放的虚拟资源，对互联网平台产生的总回报，基于当前发放环节的样本数据和第二回报信息，对资源发放模型进行训练，提高了发放虚拟资源的有效性。

Description

资源发放模型的训练方法、装置、设备、存储介质及产品

技术领域

本申请涉及互联网技术领域，特别涉及一种资源发放模型的训练方法、装置、设备、存储介质及产品。

背景技术

随着互联网技术的发展，虚拟资源(如卡券、红包等)发放在电商领域的应用越来越多，互联网平台通过向用户账号发放虚拟资源来促进用户消费，进而提高互联网平台的收益。而由于神经网络在电商领域的应用也越来越多，因此会通过基于神经网络训练的资源发放模型来为用户账号发放虚拟资源。

而相关技术中的资源发放模型只关注为哪些人群发放虚拟资源，也即资源发放模型只是确定出为哪些用户账号发放虚拟资源，且确定出这些用户账号后，后续每当有虚拟资源发放需求时，均直接向这些用户账号发放虚拟资源。由于用户账号在不同阶段有不同需求，因此为用户账号发放虚拟资源后，用户此时可能没有使用虚拟资源的需求，导致互联网平台无法得到相应的回报，进而导致虚拟资源发放的准确性较低。

发明内容

本申请实施例提供了一种资源发放模型的训练方法、装置、设备、存储介质及产品，能够提高发放虚拟资源的有效性。所述技术方案如下：

一方面，提供了一种资源发放模型的训练方法，所述方法包括：

获取发放环节序列包括的多个发放环节的样本数据，所述发放环节的样本数据包括样本账号的参考特征信息、需求信息和第一回报信息，所述需求信息用于表示所述样本账号在所述参考特征信息表示的参考环境下对互联网平台发放虚拟资源的需求，所述第一回报信息用于表示所述样本账号基于所述虚拟资源，对所述互联网平台产生的回报；

基于所述发放环节序列包括的多个发放环节的顺序，依次执行如下步骤，直到资源发放模型满足收敛条件为止，得到目标资源发放模型：

基于当前发放环节的样本数据，确定所述当前发放环节的第二回报信息，所述第二回报信息用于表示所述样本账号在第一个环节至所述当前发放环节基于所述互联网平台发放的虚拟资源，对所述互联网平台产生的总回报，基于所述当前发放环节的样本数据和第二回报信息，对所述资源发放模型进行训练。

在一些实施例中，所述基于所述当前发放环节的样本数据和第二回报信息，对所述资源发放模型进行训练，包括：

基于所述当前发放环节的样本数据和第二回报信息，确定所述当前发放环节对应的参数调整信息；

基于所述参数调整信息，调整所述资源发放模型的模型参数。

在一些实施例中，所述基于所述当前发放环节的样本数据和第二回报信息，确定所述当前发放环节对应的参数调整信息，包括：

基于第一发放环节的第二回报信息和所述当前发放环节的第二回报信息和第一回报信息，确定损失值，所述第一发放环节为所述当前发放环节的上一发放环节；

基于所述损失值、所述当前发放环节的参考特征信息和需求信息，确定所述资源发放模型的参数调整信息。

在一些实施例中，所述基于所述当前发放环节的样本数据和第二回报信息，确定所述当前发放环节对应的参数调整信息之前，所述方法还包括：

在第一发放环节的第二回报信息表示的第一回报值小于所述当前发放环节的第二回报信息表示的第二回报值的情况下，确定调整所述资源发放模型的模型参数，执行所述基于所述当前发放环节的样本数据和第二回报信息，确定所述当前发放环节对应的参数调整信息的步骤；

其中，所述第一发放环节为所述当前发放环节的上一发放环节。

在一些实施例中，所述基于当前发放环节的样本数据，确定所述当前发放环节的第二回报信息，包括：

调用第一发放环节训练得到的资源发放模型，所述第一发放环节为所述当前发放环节的上一发放环节；

基于所述当前发放环节的样本数据，通过所述资源发放模型，确定所述当前发放环节的第二回报信息。

在一些实施例中，所述第一回报信息的确定过程包括：

获取目标商品的点击参数、购买参数、价格参数和所发放虚拟资源的成本参数中的至少一项，所述目标商品为所述虚拟资源能够兑换的商品；

基于所述点击参数、所述购买参数、所述价格参数和所述成本参数中的至少一项，确定所述第一回报信息，所述点击参数、所述购买参数和所述价格参数均与所述第一回报信息正相关，所述成本参数与所述第一回报信息负相关。

在一些实施例中，所述虚拟资源的发放渠道为多个，多个发放渠道分别配置有发放权重；

所述基于所述点击参数、所述购买参数、所述价格参数和所述成本参数中的至少一项，确定所述第一回报信息，包括：

确定所发放虚拟资源的目标发放渠道；

基于所述点击参数、所述购买参数、所述价格参数和所述成本参数中的至少一项，确定所述目标发放渠道的回报信息；

将所述目标发放渠道的回报信息与所述目标发放渠道的发放权重之积，作为所述第一回报信息。

在一些实施例中，所述需求信息的确定过程包括：

获取资源类型信息、发放渠道信息和发放时段信息中的至少一项；

将所述资源类型信息、发放渠道信息和发放时段信息中的至少一项，作为所述需求信息。

在一些实施例中，所述当前发放环节的参考特征信息的获取过程，包括：

获取所述样本账号的特征信息、场景信息和虚拟资源的发放信息中的至少一项，所述场景信息包括所述样本账号所在的时间和地点中的至少一项，所述发放信息包括为所述样本账号历史发放虚拟资源的信息和剩余虚拟资源信息中的至少一项；

将所述特征信息、场景信息和发放信息中的至少一项作为所述参考特征信息。

在一些实施例中，第二发放环节的参考特征信息的获取过程，包括：

基于所述当前发放环节的参考特征信息、需求信息和第二回报信息，确定所述第二发放环节的参考特征信息，所述第二发放环节为所述当前发放环节的下一发放环节。

另一方面，提供了一种资源发放模型的训练装置，所述装置包括：

获取模块，用于获取发放环节序列包括的多个发放环节的样本数据，所述发放环节的样本数据包括样本账号的参考特征信息、需求信息和第一回报信息，所述需求信息用于表示所述样本账号在所述参考特征信息表示的参考环境下对互联网平台发放虚拟资源的需求，所述第一回报信息用于表示所述样本账号基于所述虚拟资源，对所述互联网平台产生的回报；

训练模块，用于基于所述发放环节序列包括的多个发放环节的顺序，依次执行如下步骤，直到资源发放模型满足收敛条件为止，得到目标资源发放模型：

在一些实施例中，所述训练模块，用于：

在一些实施例中，所述装置还包括：

执行模块，用于在第一发放环节的第二回报信息表示的第一回报值小于所述当前发放环节的第二回报信息表示的第二回报值的情况下，确定调整所述资源发放模型的模型参数，执行所述基于所述当前发放环节的样本数据和第二回报信息，确定所述当前发放环节对应的参数调整信息的步骤；其中，所述第一发放环节为所述当前发放环节的上一发放环节。

在一些实施例中，所述训练模块，用于：调用第一发放环节训练得到的资源发放模型，所述第一发放环节为所述当前发放环节的上一发放环节；

在一些实施例中，所述装置还包括第一确定模块，用于：

在一些实施例中，所述虚拟资源的发放渠道为多个，多个发放渠道分别配置有发放权重；所述第一确定模块，用于：

确定所发放虚拟资源的目标发放渠道；

在一些实施例中，所述装置还包括第二确定模块，用于：

在一些实施例中，所述获取模块，用于：

另一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行，以实现上述任一实现方式所述的资源发放模型的训练方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一实现方式所述的资源发放模型的训练方法。

另一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码，使得所述计算机设备执行上述任一实现方式所述的资源发放模型的训练方法。

本申请实施例提供的技术方案的有益效果至少包括：

本申请实施例提供了一种资源发放模型的训练方法，由于每个发放环节的第二回报信息是样本账号在第一个发放环节至该发放环节基于互联网平台发放的虚拟资源，对互联网平台产生的总回报，即第二回报信息代表了为样本账号发放虚拟资源后带来的长期回报，这样基于发放环节序列的多个发放环节的样本数据和第二回报信息训练资源发放模型，来得到目标资源发放模型，使得该目标资源发放模型能够确定出为互联网平台带来长期回报的需求信息，进而基于该需求信息来发放虚拟资源，能够为互联网平台带来长期回报，从而提高了发放虚拟资源的有效性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种资源发放模型的训练方法的流程图；

图3是本申请实施例提供的另一种资源发放模型的训练方法的流程图；

图4是本申请实施例提供的一种强化学习算法的示意图；

图5是本申请实施例提供的一种资源发放模型的示意图；

图6是本申请实施例提供的一种模型参数调整示意图；

图7是本申请实施例提供的一种基于深度强化学习的虚拟资源发放方法示意图；

图8是本申请实施例提供的一种资源发放模型的训练装置的框图；

图9是本申请实施例提供的一种终端的框图；

图10是本申请实施例提供的一种服务器的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)为经用户授权或者经过各方充分授权的信息。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任意变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本申请实施例提供的资源发放模型的训练方法，能够由计算机设备执行。参见图1，图1为本申请实施例提供的资源发放模型的训练方法的实施环境示意图，该实施环境中的计算机设备提供为终端10或服务器20，或提供为终端10和服务器20。终端10和服务器20能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本申请实施例提供的资源发放模型的训练方法可以由终端10单独执行实现，也可以由服务器20执行实现，或者由终端10和服务器20通过数据交互实现，本申请实施例对此不加以限定。终端10上安装由服务器20提供服务的目标应用，且终端10能够通过该目标应用实现例如数据传输、信息交互等功能。在一些实施例中，目标应用为终端10操作系统中的应用，或者为第三方提供的应用。例如，目标应用可以为外卖应用、购物应用等。

在一些实施例中，服务器20提供用于点外卖的外卖平台，终端10上安装有与该外卖平台对应的外卖应用，用户通过该外卖应用注册该外卖平台对应的用户账号。服务器20通过资源发放模型，确定为哪些用户账号发放虚拟资源，进而为这些用户账号发放虚拟资源，以促进用户点外卖。

在一些实施例中，服务器20提供用于购物的购物平台，终端10上安装有与购物平台对应的购物应用，用户通过该购物应用注册该购物平台对应的用户账号。服务器20通过资源发放模型，确定为哪些用户账号发放虚拟资源，进而为这些用户账号发放虚拟资源，以促进用户购物。

终端10为手机、平板电脑和PC(Personal Computer)设备等设备中的至少一种。服务器20可以为一台服务器、由多台服务器组成的服务器集群、云服务器、云计算平台和虚拟化中心中的至少一种。

图2是本申请实施例提供的一种资源发放模型的训练方法，执行主体为计算机设备，参见图2，该方法包括：

201、获取发放环节序列包括的多个发放环节的样本数据。

其中，发放环节的样本数据包括样本账号的参考特征信息、需求信息和第一回报信息，需求信息用于表示样本账号在参考特征信息表示的参考环境下对互联网平台发放虚拟资源的需求，第一回报信息用于表示样本账号基于虚拟资源，对互联网平台产生的回报。

202、基于发放环节序列包括的多个发放环节的顺序，依次执行如下步骤，直到资源发放模型满足收敛条件为止，得到目标资源发放模型：基于当前发放环节的样本数据，确定当前发放环节的第二回报信息，第二回报信息用于表示样本账号在第一个环节至当前发放环节基于互联网平台发放的虚拟资源，对互联网平台产生的总回报，基于当前发放环节的样本数据和第二回报信息，对资源发放模型进行训练。

在一些实施例中，基于当前发放环节的样本数据和第二回报信息，对资源发放模型进行训练，包括：

基于当前发放环节的样本数据和第二回报信息，确定当前发放环节对应的参数调整信息；

基于参数调整信息，调整资源发放模型的模型参数。

在一些实施例中，基于当前发放环节的样本数据和第二回报信息，确定当前发放环节对应的参数调整信息，包括：

基于第一发放环节的第二回报信息和当前发放环节的第二回报信息和第一回报信息，确定损失值，第一发放环节为当前发放环节的上一发放环节；

基于损失值、当前发放环节的参考特征信息和需求信息，确定资源发放模型的参数调整信息。

在一些实施例中，基于当前发放环节的样本数据和第二回报信息，确定当前发放环节对应的参数调整信息之前，方法还包括：

在第一发放环节的第二回报信息表示的第一回报值小于当前发放环节的第二回报信息表示的第二回报值的情况下，确定调整资源发放模型的模型参数，执行基于当前发放环节的样本数据和第二回报信息，确定当前发放环节对应的参数调整信息的步骤；

其中，第一发放环节为当前发放环节的上一发放环节。

在一些实施例中，基于当前发放环节的样本数据，确定当前发放环节的第二回报信息，包括：

调用第一发放环节训练得到的资源发放模型，第一发放环节为当前发放环节的上一发放环节；

基于当前发放环节的样本数据，通过资源发放模型，确定当前发放环节的第二回报信息。

在一些实施例中，第一回报信息的确定过程包括：

获取目标商品的点击参数、购买参数、价格参数和所发放虚拟资源的成本参数中的至少一项，目标商品为虚拟资源能够兑换的商品；

基于点击参数、购买参数、价格参数和成本参数中的至少一项，确定第一回报信息，点击参数、购买参数和价格参数均与第一回报信息正相关，成本参数与第一回报信息负相关。

在一些实施例中，虚拟资源的发放渠道为多个，多个发放渠道分别配置有发放权重；

基于点击参数、购买参数、价格参数和成本参数中的至少一项，确定第一回报信息，包括：

确定所发放虚拟资源的目标发放渠道；

基于点击参数、购买参数、价格参数和成本参数中的至少一项，确定目标发放渠道的回报信息；

将目标发放渠道的回报信息与目标发放渠道的发放权重之积，作为第一回报信息。

在一些实施例中，需求信息的确定过程包括：

将资源类型信息、发放渠道信息和发放时段信息中的至少一项，作为需求信息。

在一些实施例中，当前发放环节的参考特征信息的获取过程，包括：

获取样本账号的特征信息、场景信息和虚拟资源的发放信息中的至少一项，场景信息包括样本账号所在的时间和地点中的至少一项，发放信息包括为样本账号历史发放虚拟资源的信息和剩余虚拟资源信息中的至少一项；

将特征信息、场景信息和发放信息中的至少一项作为参考特征信息。

基于当前发放环节的参考特征信息、需求信息和第二回报信息，确定第二发放环节的参考特征信息，第二发放环节为当前发放环节的下一发放环节。

本申请实施例提供了一种资源发放模型的训练方法，由于发放环节的第二回报信息是样本账号在第一个发放环节至该发放环节基于互联网平台发放的虚拟资源，对互联网平台产生的总回报，即第二回报信息代表了为样本账号发放虚拟资源后带来的长期回报，这样基于发放环节序列的多个发放环节的样本数据和第二回报信息训练资源发放模型，来得到目标资源发放模型，使得该目标资源发放模型能够确定出为互联网平台带来长期回报的需求信息，进而基于该需求信息来发放虚拟资源，能够为互联网平台带来长期回报，从而提高了发放虚拟资源的有效性。

图3是本申请实施例提供的另一种资源发放模型的训练方法，参见图3，该方法包括：

301、计算机设备获取发放环节序列包括的多个发放环节的样本数据。

其中，发放环节的样本数据包括样本账号的参考特征信息、需求信息和第一回报信息，需求信息用于表示样本账号在参考特征信息表示的参考环境下对互联网平台发放虚拟资源的需求，第一回报信息用于表示样本账号基于虚拟资源，对互联网平台产生的回报。发放环节序列包括的多个发放环节的样本数据为样本账号在一个长周期内产生的样本数据，该长周期可以为一个月、三个月或半年等，在此不作具体限制。虚拟资源包括卡券、红包和立减金等中的至少一项，在此不作具体限定。

其中，需求信息包括为样本账号发放虚拟资源的资源类型信息、发放渠道信息和发放时段信息中的至少一项。该资源类型信息包括卡券类、红包类和立减金类等中的至少一项。发放渠道信息包括目标应用内的发放渠道和目标应用外的发放渠道，目标应用为用户账号所登录的应用，用户账号在该目标应用内兑换虚拟资源完成消费。可选地，目标应用内的发放渠道包括“猜你喜欢”页面的渠道、频道页的渠道和目标应用的推送消息渠道等。目标应用外的发放渠道包括在其他应用内对虚拟资源进行推送的渠道以及短信渠道等，在此不作具体限制。该时段信息包括早中晚、就餐时段、工作日、周末和节假日等。相应地，需求信息的确定过程包括以下步骤：计算机设备获取资源类型信息、发放渠道信息和发放时段信息中的至少一项；计算机设备将资源类型信息、发放渠道信息和发放时段信息中的至少一项，作为需求信息。

在该实施例中，通过分别确定为用户账号发放虚拟资源的资源类型、发放渠道和发放时段，即将需求信息设置为资源类型×发放渠道×发放时段的输出形式，这样能将需求信息拆分为需要发放虚拟资源的资源类型信息、发放渠道信息和发放时段信息，实现了在多个维度考虑用户账号对发放虚拟资源的需求，从而基于该需求信息能够为用户账号精准的发放虚拟资源。

并且，通过将发放渠道信息作为样本数据训练资源发放模型，进而通过该资源发放模型确定需求信息时，能够确定为用户账号发放虚拟资源的发放渠道，这样能够实现在用户账号最敏感的发放渠道上精准的发放虚拟资源，在保证效率的同时，避免了用户产生反感而屏蔽发放渠道，从而能够实现高效利用这些发放渠道，使得虚拟资源能够有效触达到用户。而通过将发放时段信息作为样本数据训练资源发放模型，进而该资源发放模型确定需求信息时，能够确定为用户账号发放虚拟资源的最佳时段。由于不同的用户使用目标应用的时间习惯不同，进而在恰当的时段为发放虚拟资源，能够避免对用户的过多打扰，其能够提高用户参与兑换虚拟资源的意愿，避免了用户的流失。

其中，参考特征信息包括特征信息、场景信息和虚拟资源的发放信息中的至少一项。特征信息包括用户账号的商品点击序列信息、商品购买记录信息、购买商品的类目信息、资源类型信息和用户账号对应的年龄信息中的至少一项，在此不作具体限定。场景信息包括样本账号所在的时间和地点中的至少一项。发放信息包括为样本账号历史发放虚拟资源的信息和剩余虚拟资源信息中的至少一项；其中，为样本账号历史发放虚拟资源的信息包括为该用户账号历史发放虚拟资源的次数等，在此不作具体限定；剩余虚拟资源的信息指已为用户账号发放且用户账号还未兑换的虚拟资源，如卡券的剩余张数或红包的剩余个数等。

相应地，当前发放环节的参考特征信息的获取过程，包括以下步骤：计算机设备获取样本账号的特征信息、场景信息和虚拟资源的发放信息中的至少一项，计算机设备将特征信息、场景信息和发放信息中的至少一项作为参考特征信息。

在该实施例中，通过基于样本账号的特征信息、场景信息和发放信息中的至少一项作为参考特征信息，丰富了参考特征信息的内容，综合考虑了多方面的参考信息，进而使得在该参考特征信息表示的参考环境下确定的发放虚拟资源的需求是符合用户账号的实际需求的。

需要说明的是，发放环节序列的多个发放环节是依次连贯的，当前发放环节的资源发放情况会影响下一发放环节的参考特征信息。相应地，在一些实施例中，第二发放环节的参考特征信息的获取过程，包括以下步骤：计算机设备基于当前发放环节的参考特征信息、需求信息和第二回报信息，确定第二发放环节的参考特征信息，第二发放环节为当前发放环节的下一发放环节。其中，在当前发放环节的参考特征信息基础上，基于当前发放环节的需求信息和第二回报信息更新该参考特征信息，以得到下一发放环节的参考特征信息。

在该实施例中，基于当前发放环节的参考特征信息、需求信息和第二回报信息，来确定下一发放环节的参考特征信息，使得确定的该参考特征信息是与上一发放环节相连贯的，进而使得该多个发放环节的参考特征信息能够代表用户账号在一个长周期内的整体参考特征信息变化情况；且基于当前环节的参考特征信息、需求信息和第二回报信息，来确定下一发放环节的参考特征信息，能够提高获取下一发放环节的参考特征信息的效率。

需要说明的，第一回报信息包括多个回报目标；在一些实施例中，第一回报信息的确定过程包括以下步骤：计算机设备获取目标商品的点击参数、购买参数、价格参数和所发放虚拟资源的成本参数中的至少一项，目标商品为虚拟资源能够兑换的商品；计算机设备基于点击参数、购买参数、价格参数和成本参数中的至少一项，确定第一回报信息，点击参数、购买参数和价格参数均与第一回报信息正相关，成本参数与第一回报信息负相关。可选地，点击参数、购买参数和价格参数均与第一回报信息中的回报值正相关，成本参数与该回报值负相关。

其中，点击参数用于表示该目标商品是否被点击；可选地，若该点击参数为1，则表示被点击，若点击参数为0，则表示未被点击。购买参数用于表示该目标商品是否被购买；可选地，若该购买参数为1，则表示被购买，若该购买参数为0，则说明未被购买。价格参数用于表示该目标商品的价格，成本参数用于表示所发放虚拟资源的成本，如虚拟资源为20元的卡券，则该成本参数为20元。需要说明的是，本申请实施例的第一回报信息综合考虑了虚拟资源的发放成本、点击率和访购率等多个回报目标，使得基于该第一回报信息可以权衡多个回报目标，以基于更小的发放成本来实现更大的产出，提高发放虚拟资源的投资回报率。

在一种实现方式中，虚拟资源的发放渠道为多个，多个发放渠道分别配置有发放权重；则相应地，计算机设备基于点击参数、购买参数、价格参数和成本参数中的至少一项，确定第一回报信息，包括以下步骤：计算机设备确定所发放虚拟资源的目标发放渠道；计算机设备基于点击参数、购买参数、价格参数和成本参数中的至少一项，确定目标发放渠道的回报信息；计算机设备将目标发放渠道的回报信息与目标发放渠道的发放权重之积，作为第一回报信息。

可选地，第一回报信息包括回报值，且计算机设备为点击参数和价格参数配置了加权权重；则计算机设备基于点击参数、购买参数、价格参数、成本参数、发放权重、以及点击参数和价格参数各自的加权权重，通过下述公式(1)，得到第一回报信息中的回报值：

其中，i表示第i个目标商品，Reward_i表示第一回报信息中的回报值，γ₁表示点击参数的加权权重，isClick_i表示点击参数，γ₂表示价格参数的权重，price_i表示价格参数，isPay_i表示购买参数，cost_i表示成本参数，W_channel表示目标发放渠道的发放权重。在该实施例中，通过为多个发放渠道分别配置发放权重，进而基于该发放权重便于为各个发放渠道的资源发放流量进行调控。

需要说明的是，用于确定第一回报信息的点击参数、购买参数、价格参数、成本参数和发放权重等回报目标可以根据需要进行设定并更改，进而使得第一回报信息的设定比较灵活，该第一回报信息的确定公式可以通过预设函数或预设规则确定，其基于业务的实际需求确定，以使基于该公式确定出的第一回报信息与业务的实际需求相匹配。

302、计算机设备基于当前发放环节的样本数据，确定当前发放环节的第二回报信息。

其中，第二回报信息用于表示样本账号在第一个环节至当前发放环节基于互联网平台发放的虚拟资源，对互联网平台产生的总回报。

在本申请实施例中，资源发放模型是基于深度的强化学习算法训练得到的，强化学习算法是通过智能体(Agent)和参考环境(Environment)进行交互，并通过获取回报值来自动学习决策的机器学习算法。参见图4，图4为本申请实施例提供的一种强化学习算法的示意图，强化学习算法中的元素包括智能体、参考环境、参考特征信息、需求信息和回报信息，智能体不断与参考环境交互，观察参考环境的当前参考特征信息，以确定在当前参考特征信息下，应该输出的需求信息；然后该需求信息进一步作用于参考环境，其产生的回报信息反馈给智能体进一步学习，以形成两个闭环。

其中，强化学习算法是一种序列化学习、决策的算法，其基于马尔科夫决策过程(MDP，Markov decision process)，使智能体在一连串发放环节上与参考环境进行交互，不断学习，经过多轮的决策，实现了最大化累计回报信息，其与序列化发放虚拟资源的行为相契合，即强化学习算法最大化累计回报信息的过程就是最优化发放虚拟资源的过程；强化学习算法在探索(Exploration)和利用(Exploitation)的过程中，通过最大化累计回报信息来最大化长期收益，而不仅是对用户账号单次产生的回报信息最大化，其全面的参与到用户账号的整个发放环节序列的长周期中，其对互联网平台的长期发展以及获取长期收益十分重要。

相应地，在一些实施例中，计算机设备基于当前发放环节的样本数据，确定当前发放环节的第二回报信息，包括以下步骤：计算机设备调用第一发放环节训练得到的资源发放模型，第一发放环节为当前发放环节的上一发放环节；计算机设备基于当前发放环节的样本数据，通过资源发放模型，确定当前发放环节的第二回报信息。其中，第一发放环节训练得到资源发放模型的训练过程包括：将第一发放环节的第二回报信息反馈给资源发放模型，在该第二回报信息的基础上对该资源发放模型的模型参数进行调整，以实现对资源发放模型的训练。

在本申请实施例中，强化学习算法为Actor-Critic(一种强化学习算法)算法，该资源发放模型基于Actor-Critic算法对应的神经网络训练得到，其包括决策网络(PolicyNetwork)和值网络(Value Network)。其中，决策网络用于在输入当前发放环节的参考特征信息的情况下，输出当前发放环境的需求信息。值网络用于在输入当前发放环节的参考特征信息和需求信息的情况下，输出当前发放环节的第二回报信息。如参见图5，图5为本申请实施例提供的一种资源发放模型的示意图，其虚线左侧对应决策网络，虚线右侧对应值网络，图中的Q(s，a)表示在参考特征信息s下，输出需求信息a，能够获得的第二回报信息，用于评估在该参考特征信息s表示的参考环境下，输出的需求信息a好不好。其中，该资源发放模型中的Actor-Critic网络与生成对抗网络类似；决策网络类似于生成对抗网络的生成网络，值网络类似于生成对抗网络的判别网络。需要说明的是，决策网络和值网络中的一些隐层可以共享，如图5所示，决策网络对输入的参考特征信息，通过嵌入层处理后得到的参考特征向量，该参考特征向量可以直接应用在值网络中，进而值网络的嵌入层仅需对输入的需求信息进行处理后得到需求特征向量。

需要说明的是，决策网络和值网络中分别包括嵌入层和多个全连接层。输入决策网络的参考特性信息依次经过嵌入层和其全连接层的处理，得到需求信息。输入值网络的需求信息和参考特征信息，依次经过嵌入层和其全连接层的处理，得到第二回报信息。在一种实现方式中，继续参见图5，值网络基于输入的参考特征信息s和目标需求信息a，得到平均回报信息V(s)和额外回报信息A(s，a)，该平均回报信息为多种需求信息分别对应的第二回报信息的平均值，额外回报信息为目标需求信息除平均回报信息外的回报信息，该目标需求信息的第二回报信息即为平均回报信息中的回报值与额外回报信息中的回报值之和。

303、计算机设备基于当前发放环节的样本数据和第二回报信息，确定当前发放环节对应的参数调整信息。

在一些实施例中，计算机设备基于当前发放环节的样本数据和第二回报信息，确定当前发放环节对应的参数调整信息，包括以下步骤：计算机设备基于第一发放环节的第二回报信息和当前发放环节的第二回报信息和第一回报信息，确定损失值，第一发放环节为当前发放环节的上一发放环节；服务基于损失值、当前发放环节的参考特征信息和需求信息，确定资源发放模型的参数调整信息。

在一些实施例中，计算机设备基于第一发放环节的第二回报信息和当前发放环节的第二回报信息和第一回报信息，通过下述公式(2)确定损失值。

其中，

代表损失值，

代表当前发放环节对应的模型参数，V_φ(s′)代表当前发放环节的第二回报信息，V_φ(s)代表第一发放环节的第二回报信息，r代表当前发放环节的第一回报信息。

需要说明的是，资源发放模型对应的模型参数包括决策网络和值网络分别对应的第一模型参数和第二模型参数。相应地，参数调整信息包括第一参数调整信息和第二参数调整信息，分别用于调整第一模型参数和第二模型参数。

在一些实施例中，计算机设备基于参考特性信息和需求信息，确定第二模型参数的梯度更新值，作为第一参数调整信息。其中，计算机设备确定参考特征信息和需求信息对应的第二回报值，基于参考特征信息、需求信息和该第二回报值，来确定该梯度更新值。该损失值为值网络对应的损失值，计算机设备直接将该损失值作为第二参数调整信息。

在一些实施例中，计算机设备基于当前发放环节的样本数据和第二回报信息，确定当前发放环节对应的参数调整信息之前，还基于上一发放环节的第二回报信息和当前发放环节的第二回报信息，来确定是否对资源发放模型的模型参数进行调整。在该实施例中，在第一发放环节的第二回报信息表示的第一回报值小于当前发放环节的第二回报信息表示的第二回报值的情况下，计算机设备确定调整资源发放模型的模型参数，执行步骤303；在第一回报值不小于第二回报值的情况下，则计算机设备确定不调整资源发放模型的模型参数。其中，第一发放环节为当前发放环节的上一发放环节。

需要说明的是，由于当前发放环节的第二回报信息为第一个发放环节至该当前发放环节的累计总回报，则若当前发放环节的第二回报值不大于上一发放环节的第一回报值，则说明在当前发放环节并未产生回报，则无需在当前发放环节对资源发放模型的模型参数进行调整。因此在该实施例中，在基于当前发放环节和上一发放环节的回报值确定需要调整资源发放模型的模型参数的情况下，才去确定参数调整信息，提高了确定参数调整信息的有效性。

304、计算机设备基于参数调整信息，调整资源发放模型的模型参数。

其中，参数调整信息包括决策网络和值网络分别对应的第一参数调整信息和第二参数调整信息，其第一参数调整信息和第二参数调整信息分别为梯度更新值和损失值，计算机设备基于该梯度更新值调整决策网络的第一模型参数，且基于该损失值调整值网络的第二模型参数，如参见图6，图6为本申请实施例提供的一种模型参数调整示意图，其中st代表当前发放环节的参考特征信息，s_t+1代表下一发放环节的参考特征信息，

代表当前发放环节的第二回报信息，

代表下一发放环节的第二回报信息，πw(a丨s)代表当前发放环节的需求信息，

代表损失值，

代表梯度更新值，通过梯度更新值，调整决策网络的权重梯度，通过损失值，使值网络的损失最小化。

在本申请实施例中，计算机设备基于发放环节序列包括的多个发放环节的顺序，依次执行步骤302-304，直到资源发放模型满足收敛条件为止，得到目标资源发放模型。可选地，该收敛条件为损失值不再下降或损失值达到预设数值等，在此不作具体限定。

在本申请实施例中，计算机设备训练得到目标资源发放模型后，将目标账号的参考特征信息输入目标资源发放模型，通过该目标资源发放模型中的决策网络来确定需求信息，进而基于该需求信息为目标账号发放虚拟资源，该目标账号为待发放虚拟资源的账号。

需要说明的是，计算机设备训练资源发放模型的算法伪代码包括以下内容，首先构造并初始化决策网络的第一模型参数W和值网络的第二模型参数

然后重复以下步骤，直到资源发放模型满足收敛条件：通过决策网络与参考环境交互产生样本数据(s，a，r，s′)，s表示当前发放环节的参考特征信息，a表示基于决策网络和该参考特征信息得到的需求信息，r表示当前发放环节的第一回报信息，s′表示下一发放环节的参考特征信息。然后训练值网络，即让第二模型参数沿着损失值下降的方向调整，损失值

与上述公式(2)相同，在此不再赘述；最后训练决策网络，让第一模型参数沿着梯度更新值

的方向调整。

需要说明的是，针对复杂的虚拟资源发放业务，相关技术中仅关注发放虚拟资源的单个发放环节，且往往仅从单个维度进行建模，若要从多个维度进行完整建模，则需要多个维度的模型协作来完成，多个模型之间存在累计误差，使得完整建模的建模效果较差。而在本申请实施例中，参见图7，图7为本申请实施例提供的一种基于深度强化学习的虚拟资源发放方法，通过分别确定多个维度的参考特征信息、多个维度的需求信息和多个维度的第一回报信息，且以深度强化学习为核心算法，构建出虚拟资源投放引擎即资源发放模型，提升了互联网平台发放虚拟资源的能力，实现了从单个维度发放虚拟资源到从多个维度发放虚拟资源的转变。且通过基于用户账号发放环节序列中的多个发放环节的累计总回报，训练得到资源发放模型，使得基于该资源发放模型确定的需求信息来进行虚拟资源发放，能够最大化互联网平台的长期收益，进而对于各种不同的业务，均能够基于该资源发放模型实现大规模且有效的虚拟资源发放。

在一些实施例中，本申请实施例提供的资源发放模型应用在发放虚拟资源的场景中，其相对于未应用该资源发放模型的相同场景，商品访购率提高了1.4％，获客成本降低了3.6％，获客成本指发放的虚拟资源的总值与购买商品的用户账号个数的比值。

本申请实施例还提供了一种资源发放模型的训练装置，参见图8，装置包括：

获取模块801，用于获取发放环节序列包括的多个发放环节的样本数据，发放环节的样本数据包括样本账号的参考特征信息、需求信息和第一回报信息，需求信息用于表示样本账号在参考特征信息表示的参考环境下对互联网平台发放虚拟资源的需求，第一回报信息用于表示样本账号基于虚拟资源，对互联网平台产生的回报；

训练模块802，用于基于发放环节序列包括的多个发放环节的顺序，依次执行如下步骤，直到资源发放模型满足收敛条件为止，得到目标资源发放模型：

基于当前发放环节的样本数据，确定当前发放环节的第二回报信息，第二回报信息用于表示样本账号在第一个环节至当前发放环节基于互联网平台发放的虚拟资源，对互联网平台产生的总回报，基于当前发放环节的样本数据和第二回报信息，对资源发放模型进行训练。

在一些实施例中，训练模块802，用于：

基于参数调整信息，调整资源发放模型的模型参数。

在一些实施例中，训练模块802，用于：

在一些实施例中，装置还包括：

执行模块，用于在第一发放环节的第二回报信息表示的第一回报值小于当前发放环节的第二回报信息表示的第二回报值的情况下，确定调整资源发放模型的模型参数，执行基于当前发放环节的样本数据和第二回报信息，确定当前发放环节对应的参数调整信息的步骤；其中，第一发放环节为当前发放环节的上一发放环节。

在一些实施例中，训练模块802，用于：调用第一发放环节训练得到的资源发放模型，第一发放环节为当前发放环节的上一发放环节；

在一些实施例中，装置还包括第一确定模块，用于：

在一些实施例中，虚拟资源的发放渠道为多个，多个发放渠道分别配置有发放权重；第一确定模块，用于：

确定所发放虚拟资源的目标发放渠道；

在一些实施例中，装置还包括第二确定模块，用于：

在一些实施例中，获取模块801，用于：

本申请实施例提供了一种资源发放模型的训练装置，由于发放环节的第二回报信息是样本账号在第一个发放环节至该发放环节基于互联网平台发放的虚拟资源，对互联网平台产生的总回报，即第二回报信息代表了为样本账号发放虚拟资源后带来的长期回报，这样基于发放环节序列的多个发放环节的样本数据和第二回报信息训练资源发放模型，来得到目标资源发放模型，使得该目标资源发放模型能够确定出为互联网平台带来长期回报的需求信息，进而基于该需求信息来发放虚拟资源，能够为互联网平台带来长期回报，从而提高了发放虚拟资源的有效性。

在一些实施例中，计算机设备提供为终端，图9示出了本申请一个示例性实施例提供的终端900的结构框图。该终端900可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器901所执行以实现本申请中方法实施例提供的资源发放模型的训练方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置在终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在另一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户对显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置在终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一些实施例中，计算机设备提供为服务器，图10是本申请实施例提供的一种服务器的框图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1001和一个或一个以上的存储器1002，其中，存储器1002用于存储可执行程序代码，处理器1001被配置为执行上述可执行程序代码，以实现上述各个方法实施例提供的资源发放模型的训练方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括程序代码的存储介质，例如包括程序代码的存储器1002，上述程序代码可由服务器1000的处理器1001执行以完成上述资源发放模型的训练方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有至少一条程序代码，至少一条程序代码由处理器加载并执行，以实现上述任一实现方式的资源发放模型的训练方法。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括计算机程序代码，计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取计算机程序代码，处理器执行计算机程序代码，使得计算机设备执行上述任一实现方式的资源发放模型的训练方法。

在一些实施例中，本申请实施例所涉及的计算机程序产品可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的样本数据都是在充分授权的情况下获取的。

Claims

1.一种资源发放模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述当前发放环节的样本数据和第二回报信息，对所述资源发放模型进行训练，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述当前发放环节的样本数据和第二回报信息，确定所述当前发放环节对应的参数调整信息，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述基于所述当前发放环节的样本数据和第二回报信息，确定所述当前发放环节对应的参数调整信息之前，所述方法还包括：

5.根据权利要求1或2所述的方法，其特征在于，所述基于当前发放环节的样本数据，确定所述当前发放环节的第二回报信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述第一回报信息的确定过程包括：

7.根据权利要求6所述的方法，其特征在于，所述虚拟资源的发放渠道为多个，多个发放渠道分别配置有发放权重；

确定所发放虚拟资源的目标发放渠道；

8.根据权利要求1所述的方法，其特征在于，所述需求信息的确定过程包括：

9.根据权利要求1所述的方法，其特征在于，所述当前发放环节的参考特征信息的获取过程，包括：

10.根据权利要求1或9所述的方法，其特征在于，第二发放环节的参考特征信息的获取过程，包括：

11.一种资源发放模型的训练装置，其特征在于，所述装置包括：

12.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行，以实现如权利要求1至权利要求10任一项所述的资源发放模型的训练方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至权利要求10任一项所述的资源发放模型的训练方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码，使得所述计算机设备执行如权利要求1至权利要求10任一项所述的资源发放模型的训练方法。