CN113435935A

CN113435935A - 权益推送的方法及装置

Info

Publication number: CN113435935A
Application number: CN202110753638.2A
Authority: CN
Inventors: 徐海瑞
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-09-24
Anticipated expiration: 2041-07-02
Also published as: CN113435935B

Abstract

本说明书实施例提供一种权益推送的方法及装置，可以通用于待推送权益的多种业务场景。该方法将元学习和强化学习的思想相结合，将不同的业务场景作为元学习的任务，结合强化学习长期收益最大化决策的优势设计，得到多场景动态决策最优策略的机器学习方案，使得短周期和新业务场景的活动建模成为可能。在线上运行时，业务编码网络采用在线策略，仅需要极少数业务数据快速适应新的业务场景，得到携带业务场景信息的编码表示，并基于其进行推送策略的决策，进一步提高了推送策略与业务场景的关联性。智能体中的网络参数还可以采用离线策略更新，从而提高模型的可用性。

Description

权益推送的方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及权益推送的方法及装置。

背景技术

互联网技术的发展，使得集成化逐渐成为各种网络平台的发展趋势。平台的集成化可以将各种相关的业务方联系在一起，并可以实现业务的互通。例如，支付平台可以将多种支付渠道联系起来，并接入多种支付场景，例如购物场景、水电煤气缴费场景、话费充值场景、外卖场景等。这些场景可以通过相关平台链接跳转到当前支付平台，也可以通过嵌入支付平台的小程序或微应用进入。支付渠道例如可以是信用卡支付、储蓄卡支付、网贷平台支付等等。各种支付渠道下又可以链接多种子支付渠道，例如储蓄卡支付渠道可以对应各个银行的子支付渠道。

实践中，各个支付渠道为了维护自身的用户群体或对用户进行激励，可能会提供一些权益，例如红包奖励、随机减免、消费积分等等。这些权益对不同用户而言，也有着不同的意义。为了向用户提供更合适的权益，通常利用机器学习模型进行权益推送。常规技术中，对机器学习模型的建模方式通常有统一建模和针对不同场景各自建模两种。统一模型适用于历史数据丰富的场景，对于数据不足或无数据的场景效果较差，可能无法达到业务的要求，并且训练流程可能较复杂，并需要不断收集数据重训模型。针对不同场景各自建模则通常需要维护多个模型，例如模型数与场景数相等，训练及维护成本高，并且当场景数据较少时无法训练模型或训练的模型不够准确。为此，提供一种能够统一适用于各种场景，并且对新场景或数据较少的场景也具有较好适应能力的权益推送方式，具有重大的意义。

发明内容

本说明书一个或多个实施例描述了一种更新权益决策模型及权益推送的方法及装置，用以解决背景技术提到的一个或多个问题。

根据第一方面，提供一种更新权益决策模型的方法，所述权益决策模型包括业务编码网络，以及通过强化学习实现的智能体，该智能体包括决策模块和策略评估模块；所述方法包括：从样本集中采集m个业务场景下与所述决策模块的当前策略一致的N₁条业务数据样本，N₁＞m，单个业务场景采集有多条业务数据样本，单条业务数据样本对应以下四元参数组：第一用户状态s、执行的推送策略a、当前收益r、用户基于对a的响应从s转变后的第二用户状态s＇；通过业务编码网络处理所述N₁条业务数据样本，从而分别针对m个业务场景，得到相应的m个编码向量；从样本集中采集所述m个业务场景下的N₂条业务数据样本；针对N₂条业务数据样本中的单条业务数据样本，将其对应的业务场景下的编码向量及第一用户状态s通过决策模块进行决策，并通过策略评估模块对决策结果的评估确定模型损失，从而调整所述业务编码网络、所述决策模块和所述策略评估模块中的模型参数。

在一个实施例中，所述从样本集中采集m个业务场景下与所述决策模块的当前策略一致的N₁条业务数据样本包括：利用m个业务场景分别对应的m个当前的编码向量，以及所述决策模块的当前参数，针对样本集中的各条业务数据样本分别预测各个样本推送权益a＇；确定相应的样本推送权益a＇和执行的推送策略a一致的业务数据样本与所述决策模块的当前策略一致。

在一个实施例中，所述N₁条业务数据样本包括，针对单个业务场景，按照时间从近到远的顺序从样本集中与所述决策模块的当前策略一致的业务数据样本中采样的多条业务数据样本。

在一个实施例中，所述决策结果包括对各个候选推送权益进行选择的第一概率分布；所述通过策略评估模块对决策结果的评估确定模型损失从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括：通过策略评估模块中的状态值函数确定N₂条业务数据分别对应的长期收益估计值的各个第二概率分布；以N₂条业务数据样本各自的第一概率分布和第二概率分布相一致为目标确定第三损失，从而通过最小化第三损失调整决策模块的参数。

在一个实施例中，所述策略评估模块通过策略评估模块对决策结果的评估通过预先确定的值函数进行，所述值函数包括状态值函数和状态动作值函数，所述状态值函数用于根据单条业务数据样本中的第一用户状态s、对应的业务场景下的编码向量执行各种推送策略确定第一收益值Q，所述状态动作值函数用于根据单条业务数据样本中的第二用户状态s＇、对应的业务场景下的编码向量执行各种推送策略确定第二收益值V；所述通过策略评估模块对决策结果的评估确定模型损失，从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括：针对N₂条业务数据样本中的单条业务数据，分别确定第一收益值Q、第二收益值V，并确定第二收益值V和当前收益r之和与第一收益值Q之间的收益差值；根据对N₂个收益差值进行融合得到的收益差值的期望，确定第二损失；以最小化第二损失为目标，调整策略评估模块中的模型参数。

在一个实施例中，所述通过策略评估模块对决策结果的评估确定模型损失，从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括：以各个编码向量的后验分布分别接近预定先验分布为目标确定第一损失；通过第二损失和第一损失之和确定编码损失，从而以最小化编码损失为目标调整编码网络的参数。

在一个实施例中，最小化编码损失通过计算各个模型参数的梯度方式进行，编码损失中第二收益值为依据当前的编码向量和第二用户状态s＇得到的确定值。

在一个实施例中，所述预定先验分布为高斯分布。

在一个实施例中，所述业务编码网络针对单个业务场景通过以下方式进行编码：针对单个业务场景下的各个业务数据样本，分别确定相应的各个高斯因子，单个高斯因子的均值和方差由第一神经网络对相应业务数据样本的四元参数组进行处理得到；利用对各个高斯因子按照乘积方式的拟合，得到单个业务场景对应的业务编码向量。

在一个实施例中，所述N₂条业务数据样本从整个样本集中随机采样确定。

根据第二方面，提供一种权益推送的方法，通用于多种业务场景，用于从多个候选待推送权益中选出至少一项权益推送给用户，所述方法包括：响应于当前用户的第一业务请求，获取用户当前的第一用户状态s，以及当前业务场景的场景标识；根据所述场景标识，从编码服务端获取当前业务场景的业务编码向量，其中，编码服务端部署有预先训练的业务编码网络，所述业务编码向量通过对按照第一采样方式从样本集采集的当前业务场景中的至少一条样本数据的编码得到；基于所述业务编码向量和所述第一用户状态s向决策服务端请求推送策略，所述决策服务端部署有预先训练的智能体，所述智能体的决策模块通过所述第一用户状态s和所述业务编码向量，对各条候选推送权益进行选择概率预测，从而根据预测的概率选择至少一项候选推送权益生成权益推送策略A；按照所述决策服务端反馈的权益推送策略A向所述当前用户进行权益推送。

在一个实施例中，所述权益推送策略A包括待推送的权益类别、权益份额中的至少一项。

在一个实施例中，所述方法还包括：基于所述用户针对所述权益推送策略A进行的业务响应，确定所述权益推送策略A带来的业务收益以及所述用户在所述业务响应后的第二用户状态s＇；提供所述权益推送策略A、所述业务收益r、所述第一用户状态s、所述第二用户状态s＇，以用于进一步更新针对业务场景进行编码的编码网络以及所述智能体。

在一个实施例中，在当前业务场景为新的业务场景的情况下，所述业务编码向量为预定向量或按照预定方式生成的向量。

在一个实施例中，在当前业务场景对应有业务数据样本的情况下，所述业务编码向量通过以下方式确定：按照时间由近及远的顺序选择所述当前业务场景下的若干条业务数据样本；将所述若干条业务数据样本输入所述业务编码网络，根据所述编码网络的输出确定所述业务编码向量。

根据第三方面，提供一种更新权益决策模型的装置，所述权益决策模型包括业务编码网络，以及通过强化学习实现的智能体，该智能体包括决策模块和策略评估模块；所述装置包括：

第一采样单元，配置为从样本集中采集m个业务场景下与所述决策模块的当前策略一致的N₁条业务数据样本，N₁＞m，单个业务场景对应多条业务数据，单条业务数据样本对应以下四元参数组：第一用户状态s、执行的推送策略a、当前收益r、用户基于对a的响应从s转变后的第二用户状态s＇；

编码单元，配置为通过业务编码网络处理所述N₁条业务数据样本，从而分别针对m个业务场景，得到相应的m个编码向量；

第二采样单元，配置为从样本集中采集所述m个业务场景下的N₂条业务数据样本；

调整单元，配置为针对N₂条业务数据样本中的单条业务数据样本，将其对应的业务场景下的编码向量及第一用户状态s通过决策模块进行决策，并通过策略评估模块对决策结果的评估确定模型损失，从而调整所述业务编码网络、所述决策模块和所述策略评估模块。

根据第四方面，提供一种权益推送的装置，通用于多种业务场景，用于从多个候选待推送权益中选出至少一项权益推送给用户，所述装置包括：

第一获取单元，配置为响应于当前用户的第一业务请求，获取用户当前的第一用户状态s，以及当前业务场景的场景标识；

第二获取单元，配置为根据所述场景标识，从编码服务端获取当前业务场景的业务编码向量，其中，编码服务端部署有预先训练的业务编码网络，所述业务编码向量通过对按照第一采样方式从样本集采集的当前业务场景中的至少一条样本数据的编码得到；

决策单元，配置为基于所述业务编码向量和所述第一用户状态s向决策服务端请求推送策略，所述决策服务端部署有预先训练的智能体，所述智能体的决策模块通过所述第一用户状态s和所述业务编码向量，对各条候选推送权益进行选择概率预测，从而根据预测的概率选择至少一项候选推送权益生成权益推送策略A；

推送单元，配置为按照所述决策服务端反馈的权益推送策略A向所述当前用户进行权益推送。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或第二方面的方法。

通过本说明书实施例提供的方法和装置，将元学习和强化学习的构思相结合，将不同的业务场景作为元学习的任务，结合强化学习长期收益最大化决策的优势设计，得到多场景动态决策最优策略的机器学习方案，使得短周期和新业务场景的建模成为可能。在线上运行时，业务编码网络采用在线策略，仅需要极少数业务数据快速适应新的业务场景，得到携带业务场景信息的编码表示，并基于其确定决策特征，进一步提高了推送策略与业务场景的关联性。智能体中的网络参数可以采用离线策略更新，从而提高模型的可用性。总之，本说明书的技术构思提高了业务场景之间经验共享的互通性，并可以更及时有效地进行在线更新，提高权益推送决策的有效性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本说明书的一个实施场景示意图；

图2示出本说明书技术构思下的权益推送的实施架构示意图；

图3示出本说明书一个实施例的权益决策模型训练的流程示意图；

图4示出本说明书一个实施例的权益推送的流程示意图；

图5示出本说明书一个实施例的更新权益决策模型的装置的结构框图；

图6示出本说明书一个实施例的权益推送的装置的结构框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1示出了本说明书的一个实施场景示意图。该实施场景中，至少可以包括平台服务方、关联业务方和广大网络用户。其中，平台服务方可以是提供各种业务，例如支付业务、新闻推送业务等等。用户关联业务方可以通过网络与或平台服务器交互。关联业务方可以是与平台关联并使用平台关联的其他业务方提供服务的业务方，例如商户等，也可以是与用户关联提供某种服务的业务方，例如银行、借贷平台等。事实上，关联业务方和平台服务方都是为用户提供服务的业务方，因此，在一些实施例中，平台服务方也可以作为关联业务方之一。

为用户提供服务的关联业务方，在为用户提供服务过程中，为了激励用户使用其提供的相关服务，可以为用户提供相关权益。举例而言，银行、借贷平台等，可以为用户提供支付服务，平台服务方可以对接多种支付机构，同时，平台服务方还可以对接多种具有支付需求的第三方平台，例如购物平台、生活缴费平台等。在用户通过第三方平台进行支付操作时，可以链接到图1示出的平台服务方，并选择平台服务方对接的一个支付机构进行支付操作。各个支付机构可以在用户选择其进行支付的情况下，为用户提供权益激励，权益形式例如可以为积分、红包、数据流量等等。可以理解，如果用户选择提供某种权益的支付机构进行了支付，并进行了权益核销，则表明所推送的权益是有效的。另一方面，如果通过推送某种权益，用户使用该支付机构的频次明显增多，则也可以表明推送的权益是有效的。

在市场营销中，平台或商家还会根据具体业务场景设计适合的活动来达到其营销目的。如在双十一、618和春节等时期，购物平台对用户进行差异化的红包发放提升交易量，外卖平台会通过发放不同额度的折扣券来刺激用户使用外卖产品，支付平台会通过发放多样化的权益提高用户黏性。然而通常权益发放策略是根据历史经验或数据中学习得到，建模需要收集大量样本，会带来大量的营销成本。如果按场景训练不同的模型，则需要训练和维护多个模型。此外，为了适应市场的变化，市场活动往往有不断更新调整需求，活动的更新可能会使得原策略模型失效，无法继续提供服务。

为此，本说明书提供的技术构思期望不仅对已有业务场景能很好预测，对新场景的决策能够不强依赖活动数据的收集，而是基于其他历史数据快速学习，并自适应场景的变化，在满足业务目标的同时，提升用户的活动体验。

强化学习(Reinforcement Learning,RL)：又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。如本领域技术人员所知，强化学习是一种基于序列行为的反馈，进行的无标注的学习方法，通过不断“试错”的方式进行策略的学习。元学习是让机器学会如何去学习的机器学习方式，可以提高对多任务的泛化学习能力。在本说明书的技术构思下，将元学习和强化学习进行结合，从而提供更有效适应于各种业务场景的业务预测方式。

本说明书中，在强化学习的基础上，借鉴元学习的思想，利用已有任务(一个业务场景可以作为一个任务)中的数据训练模型，以适应这些已有任务的业务预测，并帮助其他任务(新任务)快速学习。为了保证新数据和历史数据具有相同的分布，从而对全新的业务场景数据进行自适应，可以利用编码网络来编码任务信息。并且，可以假设各个业务场景的数据具有相同的分布。这样，理论上多个具有相似业务场景的任务可以作为一个任务来学习。

具体地，本说明书的技术构思，提出用一种任务的概率表示的方式，假设各个业务场景的数据分布是一致的，理论上可以作为一个任务来学习。这样模型可以学习到的各个任务的共性(common knowledge)。另一方面，如果将单个业务场景作为单个任务，这样模型学到更多是任务的个性(special knowledge)。common knowledge有利于快速学习，special knowledge有利于区分业务场景，如何把二者统一起来，是建模的关键。

为此，本说明书提出一种如下的基本设计思路：首先通过元学习(meta-training)过程对历史任务数据进行编码(encoding)，以捕捉历史任务的不确定性，相当于训练出一个任务编码网络(task encoder)，使得在线上实践(meta-testing)过程中，对已有任务编码得到有效的任务信息，在遇到新任务的情况下，可以进一步利用编码网络来编码新任务的关键信息，并在不断学习过程中更新对新任务的判断，利用编码网络返回的信息进行新任务的学习过程。

为了明确本说明书的技术构思，图2示出了本说明书技术构思的一个实施架构示意图。根据图2示出的实施架构示意图可知，整体的机器学习模型分为2个部分，一部分为用于根据具体场景对业务进行编码的业务编码网络，另一部分为用于在线决策的智能体。另外，通过图2也可以看出，本说明书的实施架构可以包括3个阶段，模型训练、线上部署以及在线决策。在模型训练阶段，可以利用历史业务场景中的业务数据作为样本，调整编码网络和智能体中的参数，从而训练机器学习模型。其中，业务数据样本可以从历史业务数据中得到，例如是从日志数据获取的数据集(如存储在replay buffer)中的。

在模型训练阶段，可以利用历史业务数据，例如缓存数据中的历史业务数据，训练业务编码网络和强化学习的智能体。一方面，可以将业务数据样本通过业务编码网络进行处理，得到各个业务场景分别对应的各个业务编码向量，其中，单个业务场景对应的编码向量z可以通过编码网络对当前业务场景下的若干条业务数据的编码结果拟合而成。业务编码向量z携带有业务场景的信息。另一方面，可以将业务编码向量z和业务数据样本一起输入智能体进行决策。

可以理解，由于单个业务编码向量z由多条业务数据拟合而来，针对业务数据样本，同一业务场景下的业务数据可以具有共用的编码向量z。对于单条业务数据样本，智能体可以通过决策模块actor给出用户的当前状态(s)下执行各种可能的动作(按照各种可能的权益进行推送)的概率，并通过策略评估模块评估收益(通常利用值函数确定)，从而确定模型损失，调节各部分的模型参数。

训练好的业务编码网络和智能体可以进行线上部署。业务编码网络用于提供业务编码服务，智能体用于决策服务。在在线决策阶段，经过具体业务场景的业务触发，可以启动智能决策。智能决策可以分为两部分，第一部分经由业务编码服务获取相应任务的业务编码向量。业务编码网络用于根据历史业务数据针对相应业务场景进行编码，从而得到携带有业务场景信息的业务编码向量。业务编码向量的一个维度可以看作一个业务编码特征。第二部分通过决策服务进行权益推送决策。业务编码向量中的业务特征例如可以通过拼接等方式和用户特征融合，形成决策特征，一起用于在线决策。

在在线决策阶段，针对触发决策的业务数据，可以利用在同一业务场景的业务数据拟合得到当前业务场景下的编码向量z，并由当前用户状态与编码向量z相结合通过actor进行决策。决策结果例如可以是选择各个候选推送权益的概率，也可以是概率最大的一个或多个权益。根据决策结果可以生成权益推送策略中，权益推送策略例如包括概率最大的一个或多个权益作为待推送的权益。在用户根据在线决策结果对所推送的权益进行响应后，可以将决策特征、权益推送策略以及根据权益策略进行权益推送后用户的响应、基于用户响应获取的收益、基于用户响应改变后的用户状态等，回流到样本集(如replaybuffer)中，以扩充业务数据样本，从而用于更新业务编码网络和智能体。

可以理解，当前用户状态、编码向量z、actor的决策结果等是可以从日志数据实时回流至数据集中的，而用户是否核销权益、核销权益后状态的改变等数据，由于用户响应与获得权益相比，时间间隔不确定，不一定可以随actor的决策结果等一起回流。进一步地，这些数据可以在用户响应产生时，通过网页缓存等实时回流，并根据相应标识与之前记录的当前用户状态、编码向量z、actor的决策结果归为一条数据记录。

下面具体描述这种技术构思的原理。

通常，样本集可以包括多条历史业务数据。历史业务数据可以具有业务场景标识，以区分不同业务场景。可以理解，同一业务场景的业务数据通常具有一定的共性，例如换购促销的业务场景下，可选换购商品的价值与换购价格之间具有一定的关联关系，而满额买赠促销场景下，满足满赠条件的额度与赠品价值之间可以存在关联关系，等等。因此，为了学习单个任务之间数据的共同特征，可以对同一业务场景的多条业务数据进行编码，得到该业务场景(一个业务场景可以对应一个任务)对应的业务编码向量。

另一方面，根据实际业务情形，业务数据也可以有各种形式。例如前述的营销架构下，单条业务数据可以包括：当前用户状态(s)、推送的权益(a)、用户针对推送的权益进行响应(如是否核销等)而由商家或平台获得的收益(r)、用户针对推送的权益进行响应后的状态(s＇)，等等。也就是说，每条作为样本的历史业务数据都可以通过一个四元组(s，a，r，s＇)表示。其中，用户状态可以包括用户的各种属性，例如性别、职业、购物习惯、支付习惯、支付方式、权益偏好等等。对于一个四元组来说，s为初始用户状态，为了描述方便，以下还可以称为第一用户状态。同理，s＇表示用户针对推送的权益a进行相应后改变成的状态，为结果状态，以下还可以称为第二用户状态。推送的权益例如是换购权益、积分权益、返现权益、赠品权益等等。推送的权益对应强化学习中执行的动作。商家或平台获得的收益可以通过利润、销量等进行描述。实际上，这里的收益也可以认为是强化学习中相应动作的奖励(reword)。

编码网络针对各种业务场景的业务数据c(例如以上的四元组)都可以输出携带相应任务信息的编码向量，例如记为z。其中，业务编码网络可以通过注意力网络、卷积神经网络、深度神经网络等各种网络实现，业务编码网络可以由技术人员根据经验确定网络结构，也可以借鉴现有的网络结构，例如Bert网络、VAE(变分自业务编码网络)，等等。

由于没有针对输出的编码向量的监督信息，本说明书的技术构思采用VAE的变分思想，通过以上下文为输入的编码网络推断出编码向量z的后验概率的变分近似。这里，上下文可以用于表示当前任务下的多条业务数据。业务编码的目的，可以使得业务数据的分布保持一致。进一步地，新业务场景的业务数据和历史业务数据具有相同的分布，从而可以对全新的业务场景数据进行自适应。基于这样的目的，可以假设历史业务数据的编码向量满足在历史业务数据条件下的预定分布作为后验分布。这里的预定分布可以是任意分布，例如高斯分布、抛物线分布、均匀分布等等。具体训练过程中，可以令编码网络对业务数据的处理结果(编码向量)的后验分布尽可能向预定分布靠拢。

根据变分推断的假设，可以假设编码向量z的后验概率分布满足一个先验分布，例如高斯分布等。此时，编码网络也可以记为q(z|c)，c表示历史业务数据，z表示编码向量。也就是说，在单个业务场景的业务数据c条件下，通过业务编码网络可以确定一个后验分布q(z|c)满足预定的先验分布。因此，可以将业务编码网络记为q(z|c)。业务编码网络可以针对单个业务场景下的业务数据拟合一个向量z，使得向量z满足预定的先验分布。该预定的先验分布例如记为P(z)，其可以是任意的预定分布，例如可以是均匀分布、高斯分布、抛物线分布等等任意合理的的数值分布形式。如此，业务编码网络q(z|c)针对某个业务场景下的业务数据的编码向量z的目标后验分布应与其先验分布尽可能接近。

在一个具体例子中，为了保证模型训练对各种业务场景数据处理的均衡性，可以在每个批次，对各种业务场景的业务数据分别挑选若干条，例如各自随机或按顺序取出200条。这些数据可以依次通过编码网络进行处理，得到各自的编码结果。值得说明的是，各种业务场景下的业务数据可以按照混乱的顺序输入业务编码网络，以免过多连续输入单一业务场景的业务数据使得业务编码网络偏向处理该种业务数据。对于每个业务场景下的业务数据，业务编码网络拟合的数据分布q(z|c)可以与预定分布p(z)(如均值为0方差为1的正态分布)对比作为编码网络的第一损失，例如为编码网络的编码结果与预定分布之间的距离或相似度。如通过KL距离，即相对熵

描述。该KL距离可以解释为约束z和业务数据c之间互信息的信息瓶颈的变分近似结果。这种信息瓶颈将z约束为包含上下文的信息，这些信息对于当前任务是必须的，从而可以减轻对训练任务的过拟合。这里的KL距离还可以通过其他向量相似度方式代替，例如余弦相似度等，在此不做限定。

业务编码在多条历史业务数据(上下文)下进行，并在潜在的历史业务数据的潜在变量上生成后验分布。进一步地，基于马尔科夫的排列不变性，可以认为历史业务数据在编码时的排列顺序不影响结果而不必考虑。因此，在一个实施例中，可以采用一种具有排列不变性，且可以独立预测每个状态转换的高斯因子的业务编码网络，并让这些因子项构成后验分布，从而将单个业务场景下条的各条业务数据的编码结果融合为一个满足高斯分布的编码向量。

例如，将编码网络建模为独立因子的乘积：

为了便于处理，在一个具体例子中，可以假设单个业务数据样本n对应的高斯因子为

这里的单个高斯因子是一个高斯后验，其中，f_φ表示由Ф参数化的神经网络，均值μ和方差σ均为c_n的函数，

和

分别用于预测均值μ和方差σ，Ф是待调整的参数。则一个状态转换(代表着一个业务数据样本)对应着一个高斯因子。

这样，可以独立预测每条业务数据中的状态转换的高斯因子，并让这些高斯因子的乘积构成后验分布。以N条业务数据为例，分别记为c₁、c₂……c_N，第n条业务数据c_n＝(s₁，a，r，s₂)_n，经由Ф参数化的神经网络f_φ，得到相应的高斯因子Ψ_ф(z|c_n)。其对应的后验分布可以为。相比于RNN，该编码网络不需要保留轨迹，并且更快速、稳定，适应更大规模的样本(text)。

事实上，在一个实施例中，根据VAE的变分思想，假设目标为对数似然，可以使用变分变换，产生以下变分下界作为编码网络的损失：

其中，p(z)为关于z的预定先验分布，例如为单位高斯分布，R(T，z)是最终任务目标的损失，其可以根据后续强化学习的决策和样本评估结果确定，例如记为第二损失，β作为平衡系数，用于平衡第一损失

和第二损失

之间的关系。在本说明书的实施架构下，任务目标和第二损失可以通过后续智能体确定，将在下文详细描述。

为了进一步将这种任务信息用于权益推送的决策过程，可以将编码向量z与强化学习的智能体决策相结合。更具体地，将编码向量作为强化学习输入的一部分，参与到策略制定和策略评估中。

一般地，强化学习涉及智能体和执行环境，智能体通过与执行环境的交互和反馈，不断进行学习，优化其策略。具体而言，智能体观察并获得执行环境的状态s(state)，根据一定策略π，针对当前执行环境的状态确定要采取的行为或动作a(action)。这样的行为作用于执行环境，会改变执行环境的状态，同时产生一个反馈，该反馈又称为奖励或奖励分数r(reward)。例如前文示例的业务场景中，环境可以是用户及网络平台，动作a可以是推送的权益，用户针对推送的权益做出相应，从而使得用户状态及网络平台的数据产生变化，并给出相应激励，例如网络平台上的某个业务方获得收益作为奖励。于是，可以根据获得的奖励分数来判断，之前的行为是否正确，策略是否需要调整，进而更新其策略。

更具体地说，智能体通过反复不断地观察状态、确定行为、收到反馈，从而进行学习，学习的目标是理想的值函数或策略。其中，值函数是，通过执行策略π，预期达到的折扣累积奖励函数。

例如可以如下定义状态值函数：

V^π(s)＝E_π[R_t|s_t＝s]

其中，R_t表示按照策略π的轨迹执行所获得的长期累计回报。上述状态值函数表示，从状态s出发，使用策略π所带来的累积奖励的期望。

还可以类似的定义动作-状态值函数：

Q^π(s，a)＝E_π[R_t|s_t＝s，a_t＝a]

该状态-动作值函数表示，从状态s出发，执行动作a后再使用策略π所带来的累积奖励。

根据马尔可夫特性，二者有如下关系：

其中，状态值函数V^π(s)是动作-状态值函数Q^π(s，a)关于动作a的期望，γ为衰减系数，r_t+1表示执行动作a得到的收益。

在本说明书的技术构思下，动作-状态值函数Q不仅与状态s有关，还与通过业务编码网络确定的业务编码向量z有关，因此，在通过θ表示网络参数的情况下，动作-状态值函数Q^π(s，a)可以进一步表示为Q_θ(s，a，z)，状态值函数V^π(s)可以进一步表示为V_θ(s，z)。

通常，强化学习的目的是最大化长期累积奖赏，也就是最大化值函数的过程。然而，在本说明书的实施架构下，单条历史业务数据的一个四元组(s，a，r，s＇)包含了动作a、动作a执行前后的两个状态s、s＇，以及执行动作a的回报r(即奖赏reword)，根据马尔科夫的假设，下一状态仅与当前状态有关。如此，可以采用SAC(soft actor-critic)架构等方法建模。SAC方法是一种基于最大熵强化学习目标的异策actor-critic方法，该方法可以用策略的熵增加折扣回报的总和。这样，强化学习部分可以包括用于确定权益推送策略(预测动作)的决策模块actor，以及对确定的策略进行评估的策略评估模块critic。强化学习部分可以包括用于确定权益推送策略(预测动作)的决策模块actor，以及对确定的策略进行评估的策略评估模块critic。

本领域技术人员可以理解，元学习通常要求同步策略(on-policy)。这是因为，元学习预测的基本假设是训练和测试阶段应保持一致，训练样本与测试样本要有关联，或者说在分布上有关联。例如在做动物分类任务时，要训练元学习智能体使得其可以在新动物物种上进行分类，用于训练的样本至少包括近似动物的样本在内。这就需要on-policy方法在近似动物的类分布上进行训练。也就是说，假设一个业务场景下，针对同一个强化学习策略，数据分布保持一致，从而可以减少训练数据(train data)和测试数据(test data)的偏差。这就需要编码模块的一次采样保持在一个确定的当前策略下。

可以理解，同步策略样本利用率低，强化学习的训练更适合采用样本利用率较高、稳定性较强的异步策略(off-policy)。off-policy是一种不与目标策略绑定的采样方式。off-policy不一定要用重要性采样，其通常存在一定的随机性。强化学习使用off-policy训练，从而可能不符合分布一致性的基本假设。

这样，为了减少训练数据(train data)和测试数据(test data)的偏差，可以将强化学习部分(决策模块和策略评估模块)和数据分布确定部分(编码网络)解耦，使得actor的采样可以采用与编码网络完全不同的采样方式，而两者在任务状态上保持一致。即，用于确定数据分布的业务编码网络部分的采样采用on-policy方式，用于决策的强化学习智能体的采样采用off-policy方式。这种分离的方式非常重要。在采样过程中，针对编码网络通过对同步策略数据进行上下文采样，另一方面针对强化学习的智能体将异步策略数据用于actor-critic训练的方式，则可以减小分布变化，从而可以大规模使用异步策略数据。

在这种采样机制下，编码网络和决策模块各自可以通过完全独立的采样器进行采样操作。具体地，在业务编码网络的采样过程中，可以按照当前策略选择样本。当前策略可以理解成决策模块在当前模型参数下确定的策略。为了从当前策略下采样，可以先对训练样本按照当前策略进行筛选。筛选可以采用各种合理的方法进行。在一个具体例子中，可以将各个训练样本按照当前确定的在相应业务场景下的编码向量，以及训练样本中的四元组数据，通过决策模块预测相应的样本推送权益a＇。如果针对一条训练样本，预测的样本推送权益a＇和其四元组中采用的策略a一致，则可以认为该训练样本是当前策略下的训练样本。其中，在决策模块输出在各个权益上的预测概率的情况下，预测的样本推送权益a＇可以是对应其中最大概率的权益。在其他实施例中，还可以通过其他方式确定当前策略下的训练样本，在此不做赘述。从而，可以通过逐条判断，从样本集中确定与当前策略一致的各条训练样本。

进一步地，可以从与当前策略一致的各条训练样本中采样部分训练样本用于编码网络对业务场景进行编码。在一个实施方式中，可以针对各个业务场景随机采样若干条训练样本。在另一个实施例中，可以针对各个业务场景分别按照时间顺序从样本集中采样。例如针对单个业务场景，按照时间由近到远的顺序采样若干条业务数据。在又一种实施例中，可以针对每条训练样本，按照时间先后顺序确定相应的采样权重，采样权重与时间相关，时间越早，采样权重越小，时间越晚，采样权重越大。从而，在采样到相应训练样本的采样概率与采样权重正相关的情况下，可以较大概率地采样到时间较晚的训练样本。也就是说在采样过程中更注重样本的时效性和在各个业务场景中的均匀性。这种采样方式更注重时间对用户群体的观念影响，更注重数据的实效性。在其他实施例中，还可以通过其他方式从与当前策略一致的各条训练样本中采样部分训练样本用于编码网络对业务场景进行编码。

对于强化学习的智能体而言，由于采用off-policy策略，可以从整个样本集中随机采样(不区分业务场景而均匀抽取一部分转换，例如是状态s向状态s＇的转换)，或者按照预定规则采样。也就是采样过程中，更加具有普遍性、随机性，而不特别考虑业务场景。

如此，由于两部分采用相互独立的采样过程，从而，采样过程是不可导的，导致整个网络无法反向回馈(BP)。因此，可以使用重参数技巧(Reparametrization tricks)来优化编码网络q(z|c)以及actor网络和critic网络的参数。

决策模块actor的输出为当前状态下，执行各个动作(推送各个权益)的概率。在权益有多个的情况下，可以将actor的输出层各个节点分别与各个权益相对应。权益种类多样性的情况下，可以将各种权益拉平，也就是通过一个行向量、列向量、一维数组等进行描述，向量或数组的各个维度分别对应拉平的各个权益。

以SAC方法为例，是一种基于最大熵强化学习目标的异策actor-critic方法，该方法可以用策略的熵增加折扣回报的总和。具体地，可以通过采样得到的各条业务数据样本对应的业务场景下的z来确定损失并计算梯度，例如可以使用贝尔曼(Bellman)方程(即状态值函数V的表达式)更新的梯度为critic训练推断网络。

根据强化学习的原理，当前状态s下的状态动作值函数的评估结果，应为当前状态s下执行某种动作a获得的收益r(奖赏)，与下一状态s＇下的状态值函数评估结果。因此，可以将当前状态s下的状态动作值函数的评估结果与收益r和下一状态s＇下的状态值函数评估结果之和的差值，作为策略评估损失。在一个实施例中，可以令策略评估的损失为：

这里的

表示当前业务数据样本的四元组采样自数据集(replaybuffer，这里为全量的样本集)，

表示在计算梯度时，在V部分可以将z看作固定值，这是因为V通过状态s的下一状态s＇确定，强化学习中为了保持稳定性，不会跟其他数据同步更新，而采用延迟更新的机制，并且V的目标值通过V和Q的关系推断。θ为策略网络π的参数，Q_θ(s，a，z)表示在当前状态s下获得长期收益回报的期望，

表示在下一状态s＇获得长期收益回报的期望。

经实践，这种恢复状态-动作值函数的损失确定方式，效果优于对值函数进行优化以最大化actor回报或者重建状态和奖励的损失确定方式。

可以理解，由于编码网络的编码结果(向量z)被强化学习的actor和critic使用，为了优化业务编码网络，可以将编码网络的优化也与critic相结合。更具体地，可以使用critic的梯度进行编码网络的优化。损失函数L_critic描述出了业务模型的训练目标，其除了用于调整critic模块的参数外，还可以进一步作为业务编码网络的第二损失R(T，z)，用于调整编码网络的模型参数。

另一方面，actor的损失可以与SAC类似，区别在于在本说明书的技术架构下还依赖于作为决策模块输入的z。假设actor通过网络π推测当前状态下各个可能的动作分别对应的各个概率，各个概率构成的概率分布应尽可能与通过值函数对相应动作(针对某个权益的推送)下的长期累计收益的评估结果的概率分布一致。也就是说，长期累计收益越大，越希望相应权益在决策模型输出的概率越大(越可能被推送)。在一个具体例子中，基于最大熵理论，actor的损失例如可以为：

其中，

为通过网络π得到的各个动作(分别对应各种权益)的概率分布，

表示状态s下基于业务编码向量z，执行各个动作得到的长期累计收益期望(对应状态值函数Q)的概率分布。为了控制该先验概率分布的值域，该先验概率分布可以通过分配函数

进行归一化。分配函数Z基于最大熵理论的推导产生，

表示在状态s下的分配函数取值。

值得说明的是，由于强化学习的智能体训练过程的采样方式与业务编码网络不同，智能体训练过程的采样针对的是全量样本集，业务编码网络的采样结果从样本集中与当前策略对应的样本中产生，并且每次采样对应一次策略输出，因此，业务编码网络的预测要与某个策略预测保持一致。采样方式保持一致还包括高斯分布的参数(均值和方差)保持一致。换句话说，在每个策略推断开始之前，要把业务编码网络针对前一次策略推断的采样结果清除，而使用当前策略重新进行采样，以免造成偏差。

通过图2可以看出，在本说明书的实施架构下，用于线上决策时，随着决策数据的回流，业务编码网络可以快速适应新的业务场景，而强化学习的智能体更新，可能需要利用新样本进一步调节模型参数。因此，对于固定的决策模块，对应的数据都是同策的。

实践中，在在线预测阶段，对于新的业务场景，可以在最初的少量流程(如第一个用户触发的智能决策流程)中，使用预定的任务编码向量，例如各个维度都是预设值的向量等。后续流程中，可以基于该业务场景下已知的决策数据，确定业务编码向量(如前述的z)。然后，使用业务编码向量中包含的隐藏特征(即业务编码特征，z的各个维度)和用户特征一起进行在线决策。

这种技术构思一方面利用业务编码网络，对具体的业务场景进行编码，得到包含场景特点的业务编码特征，和用户特征一起进行决策，对于数据较少或无数据的新场景，本方案可以利用元学习的优势，通过观察历史其他活动的数据获得先验知识，训练得到初始的业务模型，在此基础上只需要少量数据即可适应新的场景。另一方面，针对各种不同的业务场景建立统一的决策模型，并可以根据在线采集的数据及时地更新决策模型，从而可以为新业务场景的快速适应提供条件。

本方案将不同的业务场景作为元学习的任务，结合强化学习长期收益的反馈，得到多场景动态决策最优策略的机器学习方案，使得短周期和新业务场景的活动建模成为可能。由于基于各业务场景的历史数据及交互信息动态生成任务编码表示，作为业务特征迁移到其他业务场景中，其中的任务编码和在线推断极大程度的减少meta-training和meta-testing的分布不匹配，使得模型可以充分利用历史数据进行学习。总之，本说明书的技术构思提高了业务场景之间经验共享的互通性，并可以更及时有效地进行在线更新，提高权益推送决策的有效性。

以上详细描述了本说明书设计构思的技术原理，下面结合具体实施例详细描述本说明书的技术构思。

图3示出了权益决策模型的训练阶段的一个实施例的训练流程示意图。该流程的执行主体可以是具有一定计算能力的设备、计算机、服务器等，例如其可以对应图1示出的平台服务方。可以理解，平台服务方可以持有大量用户数据，这些用户数据可以通过日志(log)缓存等获取，因此这里可以称为缓存数据，缓存数据可以存储于样本集(或者数据池)。

根据强化学习的需要，单条业务数据可以对应到其中一个用户的某一次业务产生的数据，例如可以通过四元组的形式表示为：(s、a、r、s＇)。其中，s表示在当前样本中的初始用户状态，下文称为第一用户状态，a表示权益决策(action)，r表示获得的奖赏或当前收益(reward)，s＇表示s经过a、r之后转变成的结果用户状态，下文称为第二用户状态。

其中，用户状态例如可以通过用户的性别、年龄、职业、消费习惯、支付偏好、权益偏好、各种权益选择频次、权益核销率等等中的一项或多项进行描述。值得说明的是，用户进行的一次预定业务(例如支付业务、分享业务等等)可以产生一条业务数据，因此，一个用户可以对应一条或多条业务数据。权益例如可以是红包、返现、随机减免等等。用户响应例如是使用红包进行再次消费、选择某种支付方式进行支付的行为等等。收益可以是基于用户相应获取的利润、销量的增加、支付方式使用比例的增加等等。

权益决策模型的训练流程可以如图3所示，包括以下步骤：步骤301，从样本集中采集m个业务场景下与决策模块的当前策略一致的N₁条业务数据样本，N₁＞m，单个业务场景采集有多条业务数据样本，单条业务数据样本对应以下四元参数组：第一用户状态s、执行的推送策略a、当前收益r、用户基于对a的响应从s转变后的第二用户状态s＇；步骤302，通过业务编码网络处理N₁条业务数据样本，从而分别针对m个业务场景，得到相应的m个编码向量；步骤303，从样本集中采集m个业务场景下的N₂条业务数据样本；步骤304，针对N₂条业务数据样本中的单条业务数据样本，将其对应的业务场景下的编码向量及第一用户状态s通过决策模块进行决策，并通过策略评估模块对决策结果的评估确定模型损失，从而调整业务编码网络、决策模块和策略评估模块。

首先，在步骤301中，从样本集中采集m个业务场景下与决策模块的当前策略一致的N₁条业务数据样本。其中，N₁＞m。也就是说，每个业务场景采样至少一条业务数据。实际上，为了模型效果，通常针对单个业务场景采样多条业务数据。

单条业务数据对应以下四元参数组：第一用户状态s、执行的推送策略a、当前收益r、用户基于对a的响应从s转变后的第二用户状态s＇，例如记为四元组(s，a，r，s＇)。

根据前文的描述原理，业务编码网络的采样采用on-policy形式。实践中，通常是使用多条业务数据(通常是一个battle的业务数据)进行一次决策模型的更新。图3示出的流程对应的是决策模块的一次更新过程，因此，属于一个policy。在当前policy下，可以从样本集中与当前策略一致的样本中采样。这里，如前文的原理描述，可以通过决策模块逐条判断，从样本集中确定与当前策略一致的各条训练样本。然后，从当前策略一致的各条训练样本中，针对每个业务场景，可以随机采样、按照时间由近到远的顺序采样、按照基于时间确定的采样概率采样等。每个业务场景可以采样预定条数的训练样本，预定条数如为N₁/m。在一些实施例中，还可以按照各个业务场景下的业务数据比例采集样本。例如业务场景1的业务数据样本在总样本集中的比例为10％，则当前批次对业务场景1采样的业务数据条数占当前批次总采样业务数据条数的10％。

接着，通过步骤302，通过业务编码网络处理N₁条业务数据样本，从而分别针对m个业务场景，得到相应的m个编码向量。在该步骤302中，针对单个业务场景，可以利用编码网络对采样到的各条业务数据进行编码，并将编码结果拟合成一个满足预定分布的向量z。其中，这里的业务编码网络例如为前文中的q(z|c)，在此不再赘述。M个编码向量例如可以记为z₁、z₂……z_m。

进一步地，在步骤303中，从样本集中采集m个业务场景下的N₂条业务数据样本。

根据前文的原理，决策模块的采样可以通过off-policy的方式进行。根据一个实施例，在该步骤303中，可以较均匀地随机从样本集中抽取N₂条(一个battle)的业务数据。这N₂条业务数据可以涵盖m个业务场景，也可以涵盖m-1个业务场景，是抽取的样本本身决定的。抽取到的单个业务场景可以对应一条或多条业务数据，例如业务场景1对应1条业务数据，业务场景2对应200条业务数据等，这里不做设定。其中，这里说的均匀采样是指，各条目标业务数据被采样到的概率是一致的。在其他实施例中，还可以采用高斯概率分布的采样等，使得各条业务数据具有不同的被采样到的概率，在此不再赘述。

然后，利用步骤304，针对N₂条业务数据样本中的各条业务数据样本，分别将其对应的业务场景下的编码向量及初始用户状态通过决策模块进行决策，并通过策略评估模块对决策结果的评估确定模型损失，从而调整业务编码网络、决策模块和策略评估模块中的模型参数。

可以理解，为了挖掘权益推送策略与业务场景的关系，针对单条业务数据样本(s，a，r，s＇)而言，可以将其对应的编码向量z(为了描述方便，这里用z表示，实践中，该业务数据样本对应第i个业务场景，则使用步骤302中确定的编码向量z_i)与初始用户状态s，一起作为决策模块的输入，用于预测推送策略。而策略评估模块基于训练样本中的实际反馈针对决策结果的评估结果，可以确定模型损失。

其中，初始用户状态s可以是文字描述的用户的业务状态，也可以是提取了特征值的用户状态特征向量。根据业务需求不同，业务状态也不同。例如，在权益发放业务需求下，文字描述的用户的业务状态可以是和用户消费行为或支付行为相关的描述。例如：职业、性别、收入、购物频次、购物偏好、历史支付方式、历史权益使用频次、历史使用权益偏好等等中的一种或多种。在s为用户状态特征向量的情况下，可以从这些状态描述中提取为用户特征，用户特征例如用数值表示，各个特征值构成特征向量。如职业特征的特征值可以为表示具体职业类别的数值，收入特征可以对应到收入等级(如5000到8000等级)的数值或者收入本身的数值，等等。

在进行决策时，将用户和业务场景一起考虑，可以更加充分地利用现有数据，为用户提供更加符合业务场景的权益。例如，对于同一用户，在电费充值场景，用户可能不会一下子预存很多，并且电费充值通常是刚需，可以提供满100元减X(如0-2之间)元的权益给用户，而购物场景，用户更倾向于更大的优惠，则可以提供满99元减40元之类的权益给用户，以便用户更倾向于核销相关权益。另外，在同一场景，不同的用户，对权益的需求也不同。例如，对于一个购物频率较高(如3-4次/天)的用户，则较小的权益也会倾向于核销，如可以提供2元红包权益。再例如，对于一个购物频率较低的用户，则较大的权益才会倾向于核销，如可以提供满99元减40元之类的满减权益。值得说明的是，以上例子中仅描述了其中一个用户状态项，示例性说明用户状态和业务场景分别对用户权益是否有效核销的结果的影响，事实上，决策过程需要综合考虑各种用户状态，例如，除了购物频率，还考虑其年龄、性别、支付偏好、借贷情况、金融信用情况等。

可见，用户状态和业务场景特征对用户权益是否核销(能否带来预期的收益)都具有重要的决定作用。可以理解，业务编码向量中各个维度的隐含特征携带有业务场景相关的信息，用户特征携带的是用户信息。将携带业务场景信息的业务编码向量和携带用户信息的用户特征一起输入智能体，可以更利于智能体进行权益决策。以上s表示第一用户状态，通过用户状态可以提取到用户特征，这里，为了描述方便，也可以将s看作第一用户状态下的用户特征。

在可能的设计中，可以将z和s直接输入决策模块，也可以将z和s通过拼接、求平均(维度一致的情况下)、加权求和(维度一致的情况下)等方式进行融合后作为决策模块的输入。决策模块可以对z和s或者其融合结果进行处理，从而得到各个候选推送权益被推送的概率，即在各个候选推送权益上的第一概率分布。

根据一个可选的实现方式，决策模块例如可以通过网络π输出一个概率分布，例如(0.001，0.2，0.05……)。其中，一个数值对应着一个候选权益，用于表示在当前的第一用户状态及业务场景下，对相应候选权益的预测概率。单条业务数据可以通过决策模块输出一个这样的概率分布，N₂条业务数据可以对应N₂个这样的概率分布。为了描述方便，可以将决策模块输出的概率分布称为第一概率分布。

候选权益根据具体业务领域的不同而有所区别。例如在支付业务领域下，候选权益可以是积分、返现、随机抵扣等，还可以包括积分、返现、随机抵扣等的额度。值得说明的是，对于离散的action(候选推送权益)，会输出每个action的概率，对于连续型的action，第一概率分布可以满足预定分布，预定分布的参数通过输入的s和z确定。例如所满足分布为高斯分布，则高斯分布的均值和方差通过s和z确定。

可以理解，在强化学习中，决策模块输出策略的好坏，可以通过相应值函数来评价。对于单条业务数据样本而言，根据当前用户状态s下选择各个候选权益的概率，可以对应着一个长期累计收益的期望。该期望可以通过状态值函数确定，例如可以记为第一收益值Q。由于业务数据样本中还包含着真实推送的权益，以及下一个状态s＇，于是还可以估计下一个状态s＇下执行相关权益推送策略长期累计收益的期望，例如记为第二收益值V。

根据前文的原理，可以利用通过策略评估模块中的状态值函数确定N₂条业务数据各自的长期收益估计值的第二概率分布Q_θ(s，a，z)。在SAC架构下，希望单条业务数据样本中的第一概率分布和第二概率分布一致。因此可以通过KL距离、向量相似度等方式衡量第一概率分布和第二概率分布之间的相似性，从而构建决策模块的模型损失。在本说明书中可以将决策模块的模型损失称为第三损失。

在一些可选的实现方式中，可以先通过单条业务数据确定的单份模型损失，再将N₂条业务数据样本对应的N₂份模型损失加和，从而确定当前批次业务数据样本下确定的模型损失作为第三损失。

在另一些可选的实现方式中，可以先通过单条业务数据确定的单份模型损失，再分别对各自第一概率分布和第二概率分布确定概率差异(如通过前文的KL距离等表示)，以N₂条业务数据样本中的第一概率分布期望和第二概率分布距离的期望一致为目标确定第三损失。可选地，第一概率分布期望和第二概率分布距离的期望为N₂条业务数据样本的分布距离的均值方的期望。

在其他实现方式中，还可以通过其他方式确定第三损失，在此不再赘述。通过最小化第三损失，可以调整决策模块的模型参数。例如前文的公式中网络π对应的参数θ。

另一方面，对于单条业务数据，决策模块输出较优的权益推送策略(或第一概率分布)的情况下，认为状态值函数确定的s状态下的长期累计收益(假设为第一收益值)，与状态动作值函数在s＇状态下的长期累计收益(假设为第二收益值)和当前收益r的和相一致。

如此，可以针对N₂条业务数据样本中的单条业务数据，分别确定第一收益值、第二收益值，并确定第二收益值与当前收益之和与第一收益值之间的收益差值。之后，在一个实施例中，可以对N₂个收益差值求和，得到第二损失。在另一个实施例中，可以根据对N₂个收益差值进行融合得到的收益差值的期望，确定第二损失。可选地，收益差值的期望为N₂个收益差值的均值。进一步地，可以以最小化第二损失为目标，调整策略评估模块中的模型参数。

对于业务编码网络来说，单个业务场景下融合得到的编码向量，与先验分布之间的相似性，可以作为一部分损失。则m个业务场景下分别对应的损失可以加或求平均，作为第一损失。另外，在VAE变分推理下，业务编码网络还应包括由变分下界产生的另一部分损失，这里可以为第二损失。也就是说，可以通过第二损失和第一损失之和确定编码损失。进而，以最小化编码损失为目标调整编码网络的参数。其中，由于第二损失中的第二收益值与状态s＇有关，而和状态s不直接相关，因此，在最小化编码损失通过计算各个模型参数的梯度方式进行，编码损失中第二收益值为确定值，即，在计算梯度时，不考虑第二收益值部分的编码向量z的梯度。

以上步骤301-304中，通过元学习和强化学习的结合训练业务模型，该业务模型可以包括业务编码网络和强化学习的智能体两个部分。通过多个批次的学习过程，可以调整各部分的网络参数，从而训练各部分网络。

参考图2所示，训练好的网络可以在线上分开部署。部署好的网络可以用于各种业务场景的权益推送策略预测。图4给出了在线上部署好的网络用于策略推送的流程示意图。如图4所示，策略推送的流程包括：

步骤401，响应于当前用户的第一业务请求，获取描述用户当前的第一用户状态s，以及当前业务场景的场景标识；步骤402，根据场景标识，从编码服务端获取当前业务场景的业务编码向量z，其中，编码服务端部署有预先训练的业务编码网络，业务编码向量z通过对按照第一采样方式从样本集采集的当前业务场景中的至少一条样本数据的编码得到；步骤403，基于业务编码向量z和第一用户状态s向决策服务端请求推送策略，决策服务端部署有预先训练的智能体，智能体的决策模块通过第一用户状态s和业务编码向量，对各条候选推送权益进行选择概率预测，从而根据预测的概率选择至少一项候选推送生成权益推送策略A；步骤404，按照权益推送策略向当前用户进行权益推送。

步骤401，响应于当前用户的第一业务请求，获取描述用户当前的第一用户状态s，以及当前业务场景的场景标识。可以理解，根据用户当前进行的业务，例如支付业务、分享业务等，产生针对预测权益的需求。这里，将产生预测权益需求的业务称为第一业务，相应的业务请求称为第一业务请求。

在检测到当前用户的第一业务请求的情况下，可以获取描述用户当前的第一用户状态s，以及当前业务场景的场景标识。这是因为，在本说明书的实施架构下，业务编码网络按业务场景给出相应的编码向量，因此，需要对业务场景进行标识。

步骤402，根据场景标识，从编码服务端获取当前业务场景的业务编码向量z。其中，编码服务端部署有预先训练的业务编码网络，这样，业务编码网络可以仅使用相应业务场景下的业务数据进行编码，得到针对该业务场景的编码向量。

其中，对于已有业务场景(例如可以通过业务场景的标识区分)，可以利用相应业务场景下的若干条业务数据通过业务编码网络的处理得到业务编码向量，业务编码向量的各个维度可以认为是各个隐含特征。业务编码向量z通过对按照第一采样方式从样本集采集的当前业务场景中的至少一条样本数据的编码得到。第一采样方式例如可以是按照时间由近到远的顺序获取若干条业务数据。这里的若干条业务数据可以是预定条数，例如200条。对于总的业务数据条数不足预定条数的业务场景，这里的若干条业务数据可以是该业务场景下的全部业务数据，或者预定比例(如80％)的业务数据。对于业务数据条数较多的业务场景，可以随机挑选若干条业务数据，也可以按照时间由近及远的顺序选择若干条数据。

对于新业务场景(可以理解为一条业务数据样本都没有的业务场景)，业务编码向量可以是预先设置的，或者是随机赋值的。接着，通过步骤403，基于业务编码特征向量和第一用户状态s特征向决策服务端请求推送策略。其中，决策服务端部署有预先训练的智能体，智能体的决策模块通过初始用户状态s和业务编码向量，对各条候选推送权益进行选择概率预测，从而根据预测概率选择至少一项候选推送生成权益推送策略A。该权益推送策略包括待推送的权益类别、权益份额中的至少一项。权益推送策略A可以包括至少一项待推送权益，因此这里用A表示，以与权益a形成区别。

可以理解，这里的智能体可以包括决策模块actor和策略评估模块critic，决策模块可以确定当前策略，收益评估模块critic可以预测在当前业务场景的编码向量z和第一用户状态s下的权益概率分布。并选择概率最大的一条或多条权益生成推送策略A。

然后，在步骤403，按照权益推送策略向当前用户进行权益推送。例如，向用户推送使用某银行的信用卡可获得5元红包的权益。在可选的实现方式中，可以向用户推送多个权益供用户选择。例如向用户推送3个权益：A银行信用卡支付对应5元红包、B信贷平台支付对应2000积分、C银行储蓄卡支付对应8元特定店铺代金券。

为了使得业务模型能够更好地适应线上环境，完成自适应的预测过程，可以进一步采集用户针对权益推送策略A进行的业务响应，确定权益推送策略A带来的业务收益以及用户在业务响应后的第二用户状态s＇，然后提供权益推送策略A、业务收益r、第一用户状态s、第二用户状态s＇，以用于进一步更新针对业务场景进行编码的编码网络以及智能体。其中，这里用户针对权益推送策略A进行的业务响应例如可以包括以下中的一项或多项：从多项权益中选择的权益、对权益是否核销等等。在可选的实现方式中，用户的业务响应还可以包括权益核销的具体份额，例如进一步购买了多少钱的商品以进行权益核销。

可以理解，用户在经历一次支付行为后，描述其状态的信息也会增加，例如购物频次改变、支付偏好改变、针对当前权益及其是否核销的相应改变等等。因此，输入智能体的用户特征根据支付行为发生之前的用户状态信息确定。基于这种相应，用户状态可能发生了改变，改变后的用户状态为s＇。这样，就可以构成新的四元组作为样本，加入样本集。这样，在下一个相应业务场景的业务请求来临时，可以采样新加入的样本，形成循环和参考。四元组数据可以通过日志数据回流到样本集。

对于业务编码网络来说，由于可以根据样本集中收集的业务数据快速适应新的业务场景，因此能够快速适应新业务场景。对于包含决策模块和策略评估模块的智能体来说，可以按照预定的更新规则进行更新。例如，每月更新一次，或者人为确定什么时候更新。在智能体更新时，可以将增量数据和历史业务数据一起进行采样更新。在可选的实施例中，数据池中的数据还可以按照时间的久远程度进行删除，例如定期删除距离当前时间较远的数据，以更多地使用较新的数据，适应外界环境变化或用户观念变化导致的数据变化。

可以理解的是，前文参考图2对本说明书技术构思的原理进行描述，是本说明书的根本，图3、图4示出的流程都是基于这种技术构思的原理具体体现，因此，关于前文中的一些关于本说明书技术构思的原理性描述，同样可以适应于图3、图4示出的实施例。

回顾以上过程，将元学习和强化学习的构思相结合，将不同的业务场景作为元学习的任务，结合强化学习长期收益最大化决策的优势设计，得到多场景动态决策最优策略的机器学习方案，使得短周期和新业务场景的活动建模成为可能。在线上运行时，业务编码网络通过在线策略，仅需要极少数业务数据快速适应新的业务场景，得到携带业务场景信息的编码表示，并基于其确定决策特征，进一步提高了推送策略与业务场景的关联性。智能体中的网络参数可以采用离线策略更新，从而提高模型的可用性。总之，本说明书的技术构思提高了业务场景之间经验共享的互通性，并可以更及时有效地进行在线更新，提高权益推送决策的有效性。

根据另一方面的实施例，还提供一种更新权益决策模型的装置。权益决策模型可以包括业务编码网络，以及通过强化学习实现的智能体，该智能体包括决策模块和策略评估模块。图5示出了一个实施例的更新权益决策的装置500。如图5所示，装置500可以包括：

第一采样单元51，配置为从样本集中采集m个业务场景下与决策模块的当前策略一致的N₁条业务数据样本，N₁＞m，针对单个业务场景采集有多条业务数据样本，单条业务数据对应以下四元参数组：第一用户状态s、执行的推送策略a、当前收益r、用户基于对a的响应从s转变后的第二用户状态s＇；

编码单元52，配置为通过业务编码网络处理N₁条业务数据样本，从而分别针对m个业务场景，得到相应的m个编码向量；

第二采样单元53，配置为从样本集中采集m个业务场景下的N₂条业务数据样本；

调整单元54，配置为针对N₂条业务数据样本中的单条业务数据样本，将其对应的业务场景下的编码向量及第一用户状态s通过决策模块进行决策，并通过策略评估模块对决策结果的评估确定模型损失，从而调整业务编码网络、决策模块和策略评估模块。

根据另一方面的实施例，还提供一种权益推送的装置。如图6所示，该装置600可以设于为用户提供某种业务的服务端，或者与该业务服务端相关的设备。装置600可以调用预先训练的业务编码网络及智能体中的决策模块、收益估计模块等。装置600可以包括：

第一获取单元61，配置为响应于当前用户的第一业务请求，获取用户当前的第一用户状态s，以及当前业务场景的场景标识；

第二获取单元62，配置为根据场景标识，从编码服务端获取当前业务场景的业务编码向量，其中，编码服务端部署有预先训练的业务编码网络，业务编码向量通过从样本集采集的当前业务场景中的至少一条样本数据的编码得到；

决策单元63，配置为基于业务编码向量和第一用户状态s向决策服务端请求推送策略，决策服务端部署有预先训练的智能体，智能体的决策模块通过第一用户状态s和业务编码向量，对各条候选推送权益进行选择概率预测，从而根据预测的概率选择至少一项候选推送生成权益推送策略A；

推送单元64，配置为按照决策服务端反馈的权益推送策略A向当前用户进行权益推送。

值得说明的是，以上装置500、600可以分别对应图3、图4的方法实施例相对应，因此，针对图3、图4的方法实施例中的描述同样适用于装置500、600，在此不再赘述。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图3、图4等所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图3、图4等所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的技术构思的具体实施方式而已，并不用于限定本说明书的技术构思的保护范围，凡在本说明书实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的技术构思的保护范围之内。

Claims

1.一种更新权益决策模型的方法，所述权益决策模型包括业务编码网络，以及通过强化学习实现的智能体，该智能体包括决策模块和策略评估模块；所述方法包括：

从样本集中采集m个业务场景下与所述决策模块的当前策略一致的N₁条业务数据样本，N₁＞m，单个业务场景采集有多条业务数据样本，单条业务数据样本对应以下四元参数组：第一用户状态s、执行的推送策略a、当前收益r、用户基于对a的响应从s转变后的第二用户状态s＇；

通过业务编码网络处理所述N₁条业务数据样本，从而分别针对m个业务场景，得到相应的m个编码向量；

从样本集中采集所述m个业务场景下的N₂条业务数据样本；

针对N₂条业务数据样本中的单条业务数据样本，将其对应的业务场景下的编码向量及第一用户状态s通过决策模块进行决策，并通过策略评估模块对决策结果的评估确定模型损失，从而调整所述业务编码网络、所述决策模块和所述策略评估模块中的模型参数。

2.根据权利要求1所述的方法，其中，所述从样本集中采集m个业务场景下与所述决策模块的当前策略一致的N₁条业务数据样本包括：

利用m个业务场景分别对应的m个当前的编码向量，以及所述决策模块的当前参数，针对样本集中的各条业务数据样本分别预测各个样本推送权益a＇；

确定相应的样本推送权益a＇和执行的推送策略a一致的业务数据样本与所述决策模块的当前策略一致。

3.根据权利要求1或2所述的方法，其中，所述N₁条业务数据样本包括，针对单个业务场景，按照时间从近到远的顺序从样本集中与所述决策模块的当前策略一致的业务数据样本中采样的多条业务数据样本。

4.根据权利要求1所述的方法，其中，所述决策结果包括对各个候选推送权益进行选择的第一概率分布；所述通过策略评估模块对决策结果的评估确定模型损失，从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括：

通过策略评估模块中的状态值函数确定N₂条业务数据分别对应的长期收益估计值的各个第二概率分布；

以N₂条业务数据样本各自的第一概率分布和第二概率分布相一致为目标确定第三损失，从而通过最小化第三损失调整决策模块的参数。

5.根据权利要求1所述的方法，其中，所述策略评估模块通过策略评估模块对决策结果的评估通过预先确定的值函数进行，所述值函数包括状态值函数和动作状态值函数，所述动作状态值函数用于根据单条业务数据样本中的第一用户状态s、对应的业务场景下的编码向量执行各种推送策略确定第一收益值Q，所述状态值函数用于根据单条业务数据样本中的第二用户状态s＇、对应的业务场景下的编码向量执行各种推送策略确定第二收益值V；

所述通过策略评估模块对决策结果的评估确定模型损失，从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括：

针对N₂条业务数据样本中的单条业务数据，分别确定第一收益值Q、第二收益值V，并确定第二收益值V和当前收益r之和与第一收益值Q之间的收益差值；

根据对N₂个收益差值进行融合得到的收益差值的期望，确定第二损失；

以最小化第二损失为目标，调整策略评估模块中的模型参数。

6.根据权利要求5所述的方法，其中，所述通过策略评估模块对决策结果的评估确定模型损失，从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括：

以各个编码向量的后验分布分别接近预定先验分布为目标确定第一损失；

通过第二损失和第一损失之和确定编码损失，从而以最小化编码损失为目标调整编码网络的参数。

7.根据权利要求6所述的方法，其中，最小化编码损失通过计算各个模型参数的梯度方式进行，编码损失中第二收益值为依据当前的编码向量和第二用户状态s＇得到的确定值。

8.根据权利要求6所述的方法，其中，所述预定先验分布为高斯分布。

9.根据权利要求8所述的方法，其中，所述业务编码网络针对单个业务场景通过以下方式进行编码：

针对单个业务场景下的各个业务数据样本，分别确定相应的各个高斯因子，单个高斯因子的均值和方差由第一神经网络对相应业务数据样本的四元参数组进行处理得到；

利用对各个高斯因子按照乘积方式的拟合，得到单个业务场景对应的业务编码向量。

10.根据权利要求1所述的方法，其中，所述N₂条业务数据样本从整个样本集中随机采样确定。

11.一种权益推送的方法，通用于多种业务场景，用于从多个候选待推送权益中选出至少一项权益推送给用户，所述方法包括：

响应于当前用户的第一业务请求，获取用户当前的第一用户状态s，以及当前业务场景的场景标识；

根据所述场景标识，从编码服务端获取当前业务场景的业务编码向量，其中，编码服务端部署有预先训练的业务编码网络，所述业务编码向量通过从样本集采集的当前业务场景中的至少一条样本数据的编码得到；

基于所述业务编码向量和所述第一用户状态s向决策服务端请求推送策略，所述决策服务端部署有预先训练的智能体，所述智能体的决策模块通过所述第一用户状态s和所述业务编码向量，对各条候选推送权益进行选择概率预测，从而根据预测的概率选择至少一项候选推送权益生成权益推送策略A；

按照所述决策服务端反馈的权益推送策略A向所述当前用户进行权益推送。

12.根据权利要求11所述的方法，其中，所述权益推送策略A包括待推送的权益类别、权益份额中的至少一项。

13.根据权利要求11所述的方法，其中，所述方法还包括：

基于所述用户针对所述权益推送策略A进行的业务响应，确定所述权益推送策略A带来的业务收益r以及所述用户在所述业务响应后的第二用户状态s＇；

提供所述权益推送策略A、所述业务收益r、所述第一用户状态s、所述第二用户状态s＇，以用于进一步更新针对业务场景进行编码的编码网络以及所述智能体。

14.根据权利要求11所述的方法，其中，在当前业务场景为新的业务场景的情况下，所述业务编码向量为预定向量或按照预定方式生成的向量。

15.根据权利要求11所述的方法，其中，在当前业务场景对应有业务数据样本的情况下，所述业务编码向量通过以下方式确定：

按照时间由近及远的顺序选择所述当前业务场景下的若干条业务数据样本；

将所述若干条业务数据样本输入所述业务编码网络，根据所述编码网络的输出确定所述业务编码向量。

16.一种更新权益决策模型的装置，所述权益决策模型包括业务编码网络，以及通过强化学习实现的智能体，该智能体包括决策模块和策略评估模块；所述装置包括：

第一采样单元，配置为从样本集中采集m个业务场景下与所述决策模块的当前策略一致的N₁条业务数据样本，N₁＞m，针对单个业务场景采集有多条业务数据，单条业务数据样本对应以下四元参数组：第一用户状态s、执行的推送策略a、当前收益r、用户基于对a的响应从s转变后的第二用户状态s＇；

17.一种权益推送的装置，通用于多种业务场景，用于从多个候选待推送权益中选出至少一项权益推送给用户，所述装置包括：

第二获取单元，配置为根据所述场景标识，从编码服务端获取当前业务场景的业务编码向量，其中，编码服务端部署有预先训练的业务编码网络，所述业务编码向量通过从样本集采集的当前业务场景中的至少一条样本数据的编码得到；

18.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-15中任一项所述的方法。

19.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-15中任一项所述的方法。