CN111311384A

CN111311384A - 一种训练推荐模型的方法和系统

Info

Publication number: CN111311384A
Application number: CN202010409777.9A
Authority: CN
Inventors: 谭晓宇; 屈超; 蒋才高; 徐海瑞; 熊君武; 詹姆士·张
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-06-19

Abstract

本说明书实施例公开了一种训练推荐模型方法和系统，方法包括：对于多个训练样本的每一个执行以下步骤，以迭代更新推荐模型的参数，得到训练好的推荐模型：利用推荐模型处理样本对象的当前时点状态，得到样本对象对应的推荐标的分布，并确定服从推荐标的分布的预测推荐标的；利用状态转移模型处理样本对象的当前时点状态以及预测推荐标的，得到样本对象的下一时点状态；计算样本对象的下一时点状态相关的收益；利用奖励模型处理样本对象的当前时点状态及预测推荐标的，得到预测奖励；确定所述推荐模型的目标函数，其中，推荐模型的目标函数至少与预测奖励以及样本对象的下一时点状态相关的收益正相关；调整推荐模型的参数，以使其目标函数最大化。

Description

一种训练推荐模型的方法和系统

技术领域

本申请涉及计算机技术领域，特别涉及一种训练推荐模型方法和系统。

背景技术

随着人工智能的发展，机器学习模型越来越多的应用到人们的生产生活领域，并且发挥着更加智慧的决策作用。例如，可以基于用户的个人属性、历史行为习惯等数据，向用户推荐更加适配的商品或服务，以促成交易等目的的实现。在一些具体应用场景中，推荐结果可能是从大量候选标的中选取的一个，甚至可能从连续数值空间中选取的某一个数值点。因此现有的基于有限候选标的推荐的分类思想的机器学习模型难以实现此类推荐任务。

所以，本说明书提供了一种训练推荐推荐模型的方法和系统，来得到一个基于策略的推荐模型，通过该推荐模型可以基于某一策略从候选标的空间（或集合）中选取更优的标的进行推荐。

发明内容

本说明书一个方面提供一种训练推荐模型的方法。所述方法包括：获得状态转移模型和奖励模型；所述状态转移模型用于根据对象的当前时点状态和推荐标的确定所述对象的下一时点状态；所述奖励模型用于根据所述对象的当前时点状态和推荐标的确定奖励，所述对象的下一时点状态表示向所述对象推荐所述推荐标的后该对象的状态；获得多个训练样本，所述训练样本至少包括样本对象的当前时点状态；构建推荐模型，所述推荐模型用于根据对象的当前时点状态预测推荐标的分布；对于所述多个训练样本的每一个执行以下步骤，以迭代更新推荐模型的参数，得到训练好的推荐模型：利用所述推荐模型处理样本对象的当前时点状态，得到样本对象对应的推荐标的分布，并确定服从所述推荐标的分布的预测推荐标的；利用所述状态转移模型处理样本对象的当前时点状态以及所述预测推荐标的，得到样本对象的下一时点状态；计算所述样本对象的下一时点状态相关的收益；利用所述奖励模型处理样本对象的当前时点状态及所述预测推荐标的，得到预测奖励；确定所述推荐模型的目标函数，其中，所述推荐模型的目标函数至少与所述预测奖励以及所述样本对象的下一时点状态相关的收益正相关；调整所述推荐模型的参数，以使其目标函数最大化。

本说明书另一个方面提供一种基于推荐模型的交易权益推荐方法。所述方法包括：获取目标用户在当前交易时点下的交易状态特征；所述当前交易时点早于支付时点；利用推荐模型处理所述交易状态特征，得到与目标支付渠道关联的交易权益比例分布；所述推荐模型基于前述训练推荐模型的方法获得；确定某一服从所述交易权益比例分布的交易权益比例；将所述交易权益比例联合所述目标支付渠道推荐给所述目标用户。

本说明书另一个方面提供一种训练推荐模型的系统。所述系统包括：第一模型构建模块：用于获得状态转移模型和奖励模型；所述状态转移模型用于根据对象的当前时点状态和推荐标的确定所述对象的下一时点状态；所述奖励模型用于根据所述对象的当前时点状态和推荐标的确定奖励，所述对象的下一时点状态表示向所述对象推荐所述推荐标的后该对象的状态；训练样本获取模块：用于获得多个训练样本，所述训练样本至少包括样本对象的当前时点状态；第二模型构建模块：用于构建推荐模型，所述推荐模型用于根据对象的当前时点状态预测推荐标的分布；训练模块：用于对于所述多个训练样本的每一个执行以下步骤，以迭代更新推荐模型的参数，得到训练好的推荐模型：利用所述推荐模型处理样本对象的当前时点状态，得到样本对象对应的推荐标的分布，并确定服从所述推荐标的分布的预测推荐标的；利用所述状态转移模型处理样本对象的当前时点状态以及所述预测推荐标的，得到样本对象的下一时点状态；计算所述样本对象的下一时点状态相关的收益；利用所述奖励模型处理样本对象的当前时点状态及所述预测推荐标的，得到预测奖励；确定所述推荐模型的目标函数，其中，所述推荐模型的目标函数至少与所述预测奖励以及所述样本对象的下一时点状态相关的收益正相关；调整所述推荐模型的参数，以使其目标函数最大化。

本说明书另一个方面提供一种基于推荐模型的交易权益推荐系统。所述系统包括：第一获取模块：用于获取目标用户在当前交易时点下的交易状态特征；所述当前交易时点早于支付时点；第一处理模块：用于利用推荐模型处理所述交易状态特征，得到与目标支付渠道关联的交易权益比例分布；所述推荐模型基于前述训练推荐模型的方法获得；交易权益比例确定模块：用于确定某一服从所述交易权益比例分布的交易权益比例；推荐模块：用于将所述交易权益比例联合所述目标支付渠道推荐给所述目标用户。

本说明书另一个方面提供一种训练推荐模型的装置，包括处理器，所述处理器用于执行所述训练推荐模型的方法。

本说明书另一个方面提供一种基于推荐模型的交易权益推荐的装置，包括处理器，所述处理器用于执行所述基于推荐模型的交易权益推荐的方法。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的训练推荐模型的系统的应用场景示意图；

图2是根据本说明书一些实施例所示的训练推荐模型的方法的示例性流程图；

图3是根据本说明书一些实施例所示的迭代更新推荐模型的参数得到训练好的推荐模型的方法的示例性流程图；

图4是根据本说明书一些实施例所示的状态转移模型训练的方法的示例性流程图；

图5是根据本说明书一些实施例所示的奖励模型训练的方法的示例性流程图；

图6是根据本说明书一些实施例所示的基于推荐模型的交易权益推荐方法的示例性流程图；

图7是根据本说明书一些实施例所示的马尔可夫决策过程的示意图；

图8是根据本说明书的一些实施例所示的训练推荐模型的系统的模块图；

图9是根据本说明书的一些实施例所示的基于推荐模型的交易权益推荐系统的模块图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本说明书的一些实施例所示的示例性推荐模型的系统的应用场景示意图。

在人们的生产生活领域，常常遇到基于当前状态进行标的推荐（或决策）的具体场景，如果能将更加智慧的机器学习模型应用到此类环境，将能更好的延伸和扩展人类的智能理论，为人们的生产生活带来更多的便利。为此，本说明书提出通过推荐模型基于某一策略从候选标的空间（或集合）中选取更优的标的进行推荐。推荐模型的应用场景可以是基于当前状态，从候选标的空间（或集合）中确定标的，进行推荐或执行，以促成最终目标。推荐模型所处理的数据可以包括但不限于图像数据、文本数据、视频数据和音频数据等一种或多种的组合。

仅作为示例，这些应用场景可能是基于用户的个人属性以及历史行为习惯（当前状态），从大量的商品（数码产品、服装、食品等实体）或服务（候选标的空间）中确定与该用户更适配的商品或服务（标的），推荐给用户，提高用户满意度（最终目标）。在该应用场景下，训练推荐模型的训练样本可以是用户的个人属性，具体可以是画像信息，或历史行为信息等，历史行为信息可以包括历史浏览记录、历史消费记录或与客服的历史对话等，用户的画像信息可以通过音频或文本等表达。将训练好的推荐模型可以应用于各个服务平台（例如，购物平台），基于用户的个人属性和历史行为习惯，确定推荐给用户的服务内容（例如，某个类型的服装），提高用户体验。

这些应用场景还可能是无人驾驶领域，推荐模型基于车辆当前位置或环境信息（当前状态），从大量候选路径（候选标的空间）中确定出下一路径（标的），并引导车辆按照此行驶，从而使车辆从当前位置以最少时间达到目标位置（最终目标）。在该应用场景下，训练推荐模型的训练样本可以是车辆的位置信息或路况信息等，路况信息可以是路况的视频、路况的照片、路况的音频描述、或路况的文本描述等。训练好的推荐模型可以是应用于无人驾驶管理平台，基于车辆当前的位置和环境信息，控制车辆的后续行驶的方向或者路径，提高无人驾驶的安全性。

推荐模型的应用场景还可以是基于用户的个人属性以及历史支付渠道（当前状态），确定促使用户使用目标支付渠道所需要的交易权益定价（标的），以增加某支付平台的整体收益（最终目标）。在该应用场景下，训练推荐模型的训练样本可以是用户的个人属性，具体可以是画像信息，和历史支付渠道的信息等。训练好的推荐模型可以是根据用户的个人信息和历史支付行为，为特定的支付渠道确定合理的权益定价，尽量保证用户对该支付渠道的粘性的同时，保证支付平台的利益。

在一些实施例中，推荐模型的系统100可以包括用户终端110、处理设备120以及网络130。本说明书将以交易权益定价场景为例阐述相关的技术方案，但不应将交易权益定价作为本说明书的限制。

在一些实施例中，用户终端110可以是指用户所使用的一个或多个终端设备或软件。在一些实施例中，使用用户终端110的可以是一个或多个用户，可以包括直接使用服务的用户，也可以包括其他相关用户。在一些实施例中，用户终端110与处理设备120通过网络130相连。在一些实施例中，用户终端110可以接收处理设备推荐的目标支付渠道以及相关的交易权益。在一些实施例中，用户终端110可以使用目标支付渠道进行线上支付，并享受相关的交易权益（如交易金额抵扣或减免）。在一些实施例中，用户终端110可以是移动设备、平板计算机、膝上型计算机、台式计算机等其他具有输入和/或输出功能的设备中的一种或其任意组合。

在一些实施例中，处理设备120可以处理从其他设备或系统组成部分中获得的数据和/或信息。处理设备120可以基于这些数据、信息和/或处理结果执行程序指令，以执行一个或多个本申请中描述的功能。在一些实施例中，处理设备120可以训练推荐模型，并基于推荐模型处理用户的个人属性以及历史行为数据，以确定与目标支付渠道关联的交易权益定价。在一些实施例中，处理设备120可以包含一个或多个子处理设备（例如，单核处理设备或多核多芯处理设备）。仅作为示例，处理器120可以包括中央处理器（CPU）、专用集成电路（ASIC）、专用指令处理器（ASIP）、图形处理器（GPU）、物理处理器（PPU）、数字信号处理器（DSP）、现场可编程门阵列（FPGA）、可编辑逻辑电路（PLD）、控制器、微控制器单元、精简指令集电脑（RISC）、微处理器等或以上任意组合。

在一些实施例中，网络130可以连接系统的各组成部分和/或连接系统与外部资源部分。网络130使得各组成部分之间，以及与系统之外其他部分之间可以进行通讯，促进数据和/或信息的交换。在一些实施例中，网络130可以是有线网络或无线网络中的任意一种或多种。例如，网络130可以包括电缆网络、光纤网络、电信网络、互联网、局域网络（LAN）、广域网络（WAN）、无线局域网络（WLAN）、城域网（MAN）、公共交换电话网络（PSTN）、蓝牙网络、紫蜂网络（ZigBee）、近场通信（NFC）、设备内总线、设备内线路、线缆连接等或其任意组合。各部分之间的网络连接可以是采用上述一种方式，也可以是采取多种方式。在一些实施例中，网络可以是点对点的、共享的、中心式的等各种拓扑结构或者多种拓扑结构的组合。在一些实施例中，网络130可以包括一个或以上网络接入点。例如，网络130可以包括有线或无线网络接入点，例如基站和/或网络交换点130-1、130-2、…，通过这些进出点系统100的一个或多个组件可连接到网络130上以交换数据和/或信息。

应当理解，图1所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器（固件）的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合（例如，固件）来实现。

需要注意的是，以上对于推荐模型的系统100及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。

图2是根据本说明书的一些实施例所示的示例性训练推荐模型的方法的示例性流程图。

在一些实施例中，为了得到推荐模型，可以先获得状态转移模型和奖励模型；所述状态转移模型用于根据对象的当前时点状态和推荐标的确定所述对象的下一时点状态；所述奖励模型用于根据所述对象的当前时点状态和推荐标的确定奖励，所述对象的下一时点状态表示向所述对象推荐所述推荐标的后该对象的状态。在一些实施例中，可以通过第一模型构建模块810获得状态转移模型和奖励模型。

在一些实施例中，对象可以是指对现实世界中具体的业务参与方的抽象，在一些实施例中，对象可以是指用户，例如使用线上支付渠道的用户或购买商品的用户等等。

在一些实施例中，状态可以是对象在某一时点对应的情况，可以使用特征数据表征。例如对于对象是用户，状态可以是在2019年12月1日12:02时点对应的用户的交易情况，可以包括用户交易金额、交易商品、历史支付渠道信息、用户相关特征等。其中，历史支付渠道信息可以进一步包括历史使用过的支付渠道以及被使用的次数。支付渠道可以理解为提供线上支付技术服务的平台，或者某支付平台内的不同支付方式（如余额支付、信用卡支付等）。

在一些实施例中，当前时点状态可以是指在参考时点的状态，参考时点可以是被观察的一个历史时点，如2019年12月1日12:02，所述参考时点还可以是推荐某一推荐标的前的一个时点。

在一些实施例中，推荐标的可以是指向对象推荐的内容，推荐标的与对象有关。例如对于用户交易权益定价，推荐标的可以是指向用户推荐用户交易时使用的优惠券、使用的折扣等交易权益。在一些实施例中，交易权益可以是一个定额值，如2元、5元等，或者可以是一个比例值，指示交易权益占交易额的比例，如1%，2%等，此时交易权益又可称为交易权益比例。

在一些实施例中，交易权益可以是与目标支付渠道绑定的，可以理解，当用户使用目标支付渠道进行支付时，可以在交易过程中享受该交易权益（交易金额被抵扣或减免一定的额度）。在一些实施例中，向对象推荐某推荐标的后，对象的状态会发生状态转移，可以将转移后的状态确定为对象的下一时点状态。例如，当前时点状态中的用户的历史支付渠道信息包括支付渠道a，3次；支付渠道b，5次。当给用户发放与目标支付渠道绑定的交易权益（如，定价为2元的现金红包）后（即向用户推荐某推荐标的后），用户发生状态转移，即下一时点状态中的历史支付渠道信息变为支付渠道a，3次；支付渠道b，5次；目标支付渠道，1次。

在一些实施例中，状态转移模型和奖励模型可以利用训练数据通过监督学习进行训练得到，关于状态转移模型和奖励模型的具体细节可以参见图4、图5及其相关描述，此处不再赘述。

在一些实施例中，为了训练推荐模型，可以获得多个训练样本。在一些实施例中，可以由训练样本获取模块820获得多个训练样本。在一些实施例中，训练样本至少包括样本对象的当前时点状态。在一些实施例中，训练样本包括文本数据、图像数据或音频数据等。以交易权益定价为例，对象为用户，获取的训练样本至少包括多个作为样本的用户的当前时点状态，当前时点状态可以是用户的个人属性（如年龄、职业、性别等）以及当前时点以前的历史支付渠道信息。

如图7所示马尔可夫决策过程700，在马尔可夫决策过程中，策略可以用

表示。在处于某个当前时点状态s时，可以以一定的策略

来选择下一个推荐标的的推荐，然后转移到下一时点状态，在当前时点状态转移到下一时点状态后可以得到一个奖励，奖励可以用r表示。在一些实施例中，可以基于马尔可夫决策过程的策略函数

构建推荐模型。在一些实施例中，可以通过第二模型构建模块830构建推荐模型。推荐模型可以用于得到特定观测（如当前时点状态）下的策略，具体地，构建的推荐模型可以用于在特定策略下，根据对象的当前时点状态得到对应的推荐标的分布，即推荐模型的输入为状态s，输出为推荐标的a的分布。其中推荐标的的分布可以为连续的推荐标的的分布情况。在一些实施例中，推荐标的的分布可以是正态分布、平均分布或者线性分布。其中，输出推荐标的的分布是平均分布时，推荐模型的输出可以是推荐标的的均值，输出推荐标的的分布是线性分布时，推荐模型的输出可以是线性分布的两端点位置和分配率等分布特征，输出推荐标的的分布是正态分布时，推荐模型的输出可以是推荐标的的均值、方差等分布特征。以推荐模型的输出是推荐标的的均值、方差等分布特征为例，对象为用户，推荐标的为针对用户交易向用户发放的各种额度（或定价）的优惠券，给定的策略为令用户当周交易金额增大而发放的优惠券额度最小化，推荐模型的输入可以为用户的一个时点状态s，模型可以确定发放各种额度的优惠券的定价分布，如优惠券定价分布的均值、方差等分布特征。

在一些实施例中，可以将获得的多个训练样本的每一个执行流程200的步骤，以迭代更新推荐模型的参数，得到训练好的推荐模型。在一些实施例中，流程200可以通过训练模块840执行。

如图2所示，该训练推荐模型的流程200可以包括：

步骤210、利用所述推荐模型处理样本对象的当前时点状态，得到样本对象对应的推荐标的分布，并确定服从所述推荐标的分布的预测推荐标的。

在一些实施例中，预测推荐标的可以是指在处于某个状态s时，以一定的策略

来确定的所推荐的下一个推荐标的。

如前所述，将样本对象的当前时点状态输入推荐模型，可以得到在一定的策略

下，该样本对象的当前时点状态对应的推荐标的分布

，即所述样本对象对应的推荐标的分布，例如连续的推荐标的分布情况。在一些实施例中，可以通过样本对象对应的推荐标的分布确定预测推荐标的，该预测推荐标的即是服从推荐标的分布的。具体地，模型输出的可以是对交易权益价格的均值与方差，可以基于该价格均值确定一具体定价，且该定价与价格均值的偏差在所述方差范围内，将向用户推荐的该定价的交易权益作为预测推荐标的。可以理解的是，在模型训练之初，这个预测推荐标的可能是不准确的，需要调整推荐模型的参数，使其输出接近于真实情况。

步骤220、利用所述状态转移模型处理样本对象的当前时点状态以及所述预测推荐标的，得到样本对象的下一时点状态。

在一些实施例中，确定预测推荐标的后，可以向样本对象推荐预测推荐标的，对象的状态会按照状态转移概率转移到下一个状态，即样本对象的下一时点状态。如前所述，状态转移模型可以用于根据对象的当前时点状态和推荐标的确定所述对象的下一时点状态，所以可以输入样本对象的当前时点状态和预测推荐标的到状态转移模型

，得到样本对象的下一时点状态，其中的

表示确定的预测推荐标的。可以理解，在一些实施例中，可以向样本对象真实的推荐预测推荐标的，将推荐后样本对象的状态作为下一时点状态。然而，在一些应用场景中，由于训练数据有限，通过训练好的状态转移模型模拟向样本对象推荐预测推荐标的这一过程，得到样本对象下一时点状态可以有效弥补训练数据有限。

步骤230、计算所述样本对象的下一时点状态相关的收益。

样本对象的下一时点状态相关的收益可以是指对于预测样本对象的下一时点状态对应的（预期）总体收益。在一些实施例中，可以构造价值模型来计算。

在一些实施例中，价值模型的输入为给定的状态，输出为采用当前策略的预期总体收益，也就是包含未来预估的长远收益是多少，或者其输出可以理解为从该给定状态开始采用当前策略

选择一系列推荐标的进行推荐得到的总体收益。可以利用价值模型处理样本对象的下一时点状态来得到样本对象的下一时点状态对应的总体收益，可以表示为

。其中，

为样本对象的下一时点状态，其可以是利用状态转移模型处理样本对象的当前时点状态以及所述预测推荐标的得到。

关于价值模型的具体细节可以参见图3及其相关说明，此处不再赘述。

步骤240、利用所述奖励模型处理样本对象的当前时点状态及所述预测推荐标的，得到预测奖励。

奖励可以是对样本对象在当前时点状态下推荐预测推荐标的后得到的单次回报。以交易权益定价为例，奖励可以是对样本对象在当前时点状态下推送某权益定价后，样本对象使用目标支付渠道产生的收益。如前所述，奖励模型

可以根据对象的当前时点状态和推荐标的确定奖励。在一些实施例中，可以输入样本对象的当前时点状态及预测推荐标的到奖励模型

，奖励模型输出得到的奖励即为预测奖励。可以理解，与状态转移模型一样，使用奖励模型模拟向样本对象推荐预测推荐标的后得到的奖励可以弥补训练数据不足。

步骤250、确定所述推荐模型的目标函数，其中，所述推荐模型的目标函数至少与所述预测奖励以及所述样本对象的下一时点状态相关的收益正相关。

在一些实施例中，在训练推荐模型时，可以为推荐模型建立目标函数以调整推荐模型的参数。

在一些实施例中，推荐模型的目标函数至少与预测奖励以及样本对象的下一时点状态相关的收益正相关。具体地，推荐模型可以为深度神经网络，其目标函数可以用

表示，

为推荐模型的深度神经网络参数，

与

和

正相关。在一些实施例中，可以令策略函数的目标函数为

，其中

为折扣因子，用于减弱未来收益对于当前收益的影响。通过本实施例，在推荐模型的训练中使用的奖励和下一时点状态分别由奖励模型和状态转移模型的输出得到，实现嵌入奖励模型与状态转移模型以便在迭代中能够完全使用两个模型的梯度讯息，从而提升了算法的收敛性。

在一些实施例中，推荐模型的目标函数还可以与动作熵的值正相关。动作熵基于所述推荐模型根据样本对象的当前时点状态预测的推荐标的分布获得。具体地，动作熵可以表示为

，

可以看作是基于推荐标的分布确定的预测推荐标的的概率。推荐模型的目标函数可以为

。通过本实施例，在策略函数的目标函数中加入动作熵，在模型训练时可以令熵最大化，能够让模型的随机性更强，有效保证了推荐模型产生定价的随机性，有利于平衡模型的探索与利用，保证模型的稳定性。这一特征能够保证算法迭代过程中，能够鼓励智能体对推荐标的空间进行进一步的探索，生成更具有鲁棒性的推荐标的策略。

步骤260、调整所述推荐模型的参数，以使其目标函数最大化。

在一些实施例中，进行模型训练过程中，使用获得的多个训练样本来迭代更新推荐模型的参数时以最大化目标函数为目的，进行模型参数的调整。通过本实施例，得到的训练好的推荐模型可以用于确定满足总体收益最大化的策略。

在一些实施例中，计算样本对象的下一时点状态相关的收益所使用的价值模型是需要跟随推荐模型的训练过程同步调参。在一些实施例中，价值模型的训练还需要借助另一值函数，如Q值模型，用于根据对象既定状态和推荐标的计算向对象推荐该推荐标的后的总体收益。在一些实例中，Q值模型也需要与推荐模型、价值模型同步调参，交替训练得到。在一些实施例中，可以通过第二模型构建模块830构建价值模型以及Q值模型，并通过训练模块840对前述三种模型进行交替训练。为实现前述三种模型的交替训练，在一些实施例中，训练样本获取模块820获取的训练样本除了包括样本对象的当前时点状态外，训练样本还可以包括历史推荐标的、向所述样本对象推荐所述历史推荐标的之后该样本对象的下一时点状态以及与所述历史推荐标的相关的历史奖励。关于历史推荐标的、向所述样本对象推荐所述历史推荐标的之后该样本对象的下一时点状态以及与所述历史推荐标的相关的历史奖励可以参考前文关于推荐标的、向对象推荐标的之后该对象的下一时点状态以及奖励的定义或相关说明。只不过，这里的向样本对象推荐历史推荐标的之后该样本对象的下一时点状态以及与所述历史推荐标的相关的历史奖励是从真实世界中获取，而非通过模型计算得到。

图3是根据本说明书的又一些实施例所示的训练推荐模型的方法的示例性流程图。如图3所示，该训练推荐模型的方法300可以由训练模块840执行，其包括：

步骤310，为所述价值模型与Q值模型分别建立目标函数，其中，所述Q值模型的目标函数基于训练样本中的历史奖励与基于价值模型得到的样本对象的下一时点状态对应的总体收益的一部分之和与Q值模型的输出的差异构建；所述Q值模型的输出基于样本对象的当前时点状态与历史推荐标的得到。

所述价值模型的目标函数基于Q值模型得到的样本对象的当前时点状态与历史推荐标的对应的总体收益与动作熵的和值与价值模型的输出的差异构建；所述动作熵基于所述推荐模型根据样本对象的当前时点状态预测的推荐标的分布获得，所述价值模型的输出基于样本对象的当前时点状态得到。

在一些实施例中，训练样本还包括历史推荐标的、向样本对象推荐历史推荐标的之后该样本对象的下一时点状态以及与所述历史推荐标的相关的历史奖励。

在一些实施例中，在训练Q值模型时，可以为Q值模型建立目标函数以调整Q值模型的参数。在使用训练样本迭代更新模型参数时，Q值模型的输入为训练样本中的样本对象的当前时点状态与历史推荐标的。

在一些实施例中，Q值模型的目标函数基于训练样本中的历史奖励与基于价值模型得到的样本对象的下一时点状态对应的总体收益的一部分之和与Q值模型的输出的差异构建。具体地，Q值模型可以是深度神经网络，其目标函数可以用

表示，

为Q值模型的深度神经网络参数，基于价值模型得到的样本对象的下一时点状态对应的总体收益的一部分之和可以表示为

，

为折扣因子，用于减弱未来收益对于当前收益的影响。在一些实施例中，可以令Q值模型的目标函数为

，其中，

表示训练样本中的历史奖励。

在一些实施例中，在训练价值模型时，可以为价值模型建立目标函数以调整价值模型的参数。在使用训练样本迭代更新模型参数时，价值模型的输入为训练样本中的样本对象的当前时点状态。

在一些实施例中，价值模型的目标函数基于Q值模型得到的样本对象的当前时点状态与历史推荐标的对应的总体收益与动作熵的和值与价值模型的输出的差异构建。其中，动作熵基于所述推荐模型根据样本对象的当前时点状态预测的推荐标的分布获得。具体地，动作熵可以表示为

，价值模型可以是深度神经网络，其目标函数可以用

表示，

为价值模型的深度神经网络参数，可以令价值模型的目标函数为

。通过本实施例，在价值模型的目标函数中加入动作熵，在模型训练时可以令熵最大化，能够让模型的随机性更强，进一步有效保证了推荐模型产生推荐标的的随机性，有利于平衡模型的探索与利用，保证模型的稳定性。这一特征能够保证算法迭代过程中，能够鼓励智能体对推荐标的空间进行进一步的探索，生成更具有鲁棒性的推荐标的策略。

步骤320，调整所述价值模型与Q值模型的参数，分别以使其目标函数最小化。

在一些实施例中，进行模型训练过程中，使用获得的多个训练样本来迭代更新价值模型与Q值模型的参数时以最小化其目标函数为目的，进行模型参数的调整。通过本实施例，可以得到最大化总体收益的价值模型与Q值模型，通过最大化价值模型与Q值模型的方式对推荐模型进行迭代更新，实现长远收益最大化的目标。

在一些实施例中，可以通过迭代更新后的价值模型和Q值模型，进一步迭代更新推荐模型的参数，得到训练好的推荐模型时，价值模型、Q值模型和推荐模型的参数可以是交替更新的，例如可以按照依次更新价值模型参数、Q值模型参数、推荐模型参数的顺序，或者按照依次更新Q值模型参数、价值模型参数、推荐模型参数等顺序，3个模型的更新顺序为任意次序，不做限制。

图4是根据本说明书的一些实施例所示的状态转移模型训练的方法的示例性流程图。在一些实施例中，可以通过第一模型构建模块810训练状态转移模型。

在一些实施例中，状态转移模型

可以采用深度神经网络模型，例如DNN、CNN等。

如图4所示的状态转移模型训练的方法400，在一些实施例中，状态转移模型

可以利用训练样本通过监督学习进行训练得到。所述训练样本可以与训练推荐模型的训练样本相同，也可以不同。例如，可以将训练样本集分为两个子集，其中一个用于训练推荐模型，另一个用于训练状态转移模型。具体地，将训练样本中样本对象的当前时点状态、历史推荐标的作为状态转移模型

的输入，将训练样本中向所述样本对象推荐所述历史推荐标的之后该样本对象的下一时点状态作为状态转移模型

的输出，进行监督学习的训练。

在一些实施例中，状态转移模型

进行训练时，可以构建目标函数来进行调整模型的参数。具体地，其目标函数可以用

表示，ω为状态转移模型的参数。

可以基于状态转移模型预测的下一时点状态与训练样本中向所述样本对象推荐所述历史推荐标的之后该样本对象实际的下一时点状态的差值构建。例如，令目标函数为

，其中D为历史数据集即获取的多个训练样本。

图5是根据本说明书的一些实施例所示的奖励模型训练的方法的示例性流程图。在一些实施例中，可以通过第一模型构建模块810训练奖励模型。

在一些实施例中，奖励模型

可以采用深度神经网络模型，例如DNN、CNN等。

如图5所示的奖励模型训练的方法500，在一些实施例中，奖励模型

可以利用训练样本通过监督学习进行训练得到。所述训练样本可以与用于训练状态转移模型的训练样本相同。具体地，将训练样本中样本对象的当前时点状态、历史推荐标的作为奖励模型

的输入，将训练样本中历史推荐标的相关的历史奖励作为奖励模型

的输出，进行监督学习的训练。

在一些实施例中，奖励模型

表示，

为奖励模型的参数。

可以基于奖励模型的预测奖励与训练样本中对应的历史推荐标的相关的实际历史奖励的差值构建。例如，令目标函数为

，其中

表示计算数学期望，D为历史数据集即获取的多个训练样本。

经过上述步骤得到的推荐模型可以用于商品或服务推荐领域，或者无人驾驶导航领域，又或者用于交易权益定价。以交易权益定价为例，其应用场景可以是某线上支付平台为平台内用户提供了各种支付渠道，这里的支付渠道可以理解为支付方式，仅作为示例，支付渠道可以是余额支付、借记卡支付、信用卡支付等等。随着业务的开展，平台提出了一种新的更有助于为平台增收的支付渠道（目标支付渠道），希望更多的用户使用。为了给目标支付渠道争取更多的用户，平台可以给目标支付渠道关联一定的交易权益。交易权益可以是一定额度的现金红包或者折扣，当用户使用目标支付渠道支付时，可以在原交易额（如用户购买鞋子需要支付500元的交易额）的基础上，可以享受所述交易权益（如500元-10元的现金红包，用户实际只需要支付490元）。那么交易权益的定价将成为一个问题。定价多少更有益于平台的降本增收呢。为此，可以使用推荐模型对交易权益进行定价，以实现降本增收（如当周交易金额增大而发放的优惠券额度最小化）的最终目标。

图6是根据本说明书的一些实施例所示的基于推荐模型的交易权益推荐方法的示例性流程图。

在一些实施例中，基于推荐模型的交易权益推荐方法中，训练样本可以基于交易数据获取。样本对象的当前时点状态包括样本用户在当前交易时点下的交易状态特征，历史推荐标的包括向样本用户推荐的与目标支付渠道关联的交易权益比例，样本对象的下一时点状态包括向所述样本用户推荐所述历史推荐标的后样本用户在下一交易时点下的交易状态特征，历史奖励与向所述样本用户推荐历史推荐标的后样本用户产生的交易金额相关。

在一些实施例中，基于推荐模型的交易权益推荐方法中，以用户发起支付的每笔交易订单为单位，可以定义奖励数值为历史用户交易的交易金额值，或者结合历史用户交易的交易金额值、渠道使用费率与转化率作为奖励。具体地，可以表示为奖励函数：r=α1_转化+β×GMV×1_转化-γ×a×GMV×1_转化，其中1_转化是指如果该笔交易订单推荐历史推荐标的转化为使用指定支付渠道则结果为1，如果该笔交易订单推荐历史推荐标的未转化为使用指定支付渠道则结果为0，GMV表示交易金额值，a×GMV表示费率发放成本，α，β与γ表示不同项的权重，用于调节并约束马尔可夫决策过程中智能体行为。

如图6所示，该基于推荐模型的交易权益推荐方法600可以包括：

步骤610、获取目标用户在当前交易时点下的交易状态特征；所述当前交易时点早于支付时点。

具体地，该步骤610可以由第一获取模块910执行。

在一些实施例中，目标用户可以是指一个给定的用户或者满足目标条件的用户。例如目标用户可以是某线上支付平台内的任意一个用户。

可以理解，用户在线交易的一般过程可以依次包括在电商平台选定商品、下单、电商平台结算、用户利用线上平台提供的服务完成线上支付。目标用户在当前交易时点下的交易状态特征是目标用户在当次在线交易过程中的线上支付时间节点之前的交易状态特征，其中，交易状态特征可以反映以下信息的一种或多种：用户的个人属性信息、交易时间、交易金额、交易平台和历史支付渠道信息。其中，个人属性信息可以包括目标用户的性别、年龄、职业、籍贯、居住地等。交易时间可以是当前交易发生的时间。交易金额可以是当前交易的交易额。交易平台可以是当前在线交易发生的平台，如某电商平台。历史支付渠道信息可以以用户在支付时间节点以前的某一历史时间段内发起支付的每笔交易订单为单位进行统计得到，历史时间段可以是三天、五天、一周、三个月或半年等。历史支付渠道信息可以包括渠道类型、不同渠道的使用次数或者不同渠道支付总金额中的一种或多种。

步骤620、利用推荐模型处理所述交易状态特征，得到与目标支付渠道关联的交易权益比例分布；所述推荐模型可以基于本说明书中任一实施例所述的方法获得。

具体地，该步骤620可以由第一处理模块920执行。

在一些实施例中，可以令推荐标的为向目标用户推荐的与目标支付渠道关联的交易权益比例。交易权益比例可以理解为交易权益定价或额度占交易额的比例。例如，0.5%、1%、6%等。

如前所述，推荐模型可以根据样本对象的当前时点状态，预测得到样本对象对应的推荐标的分布。在一些实施例中，推荐模型可以基于本说明书中任一实施例获得，例如基于图2和图3中的获得推荐模型的实施例获得。对于推荐模型，可以给定当前策略为将原本不选择目标支付渠道的用户引入目标支付渠道的同时令交易权益成本降低。

在一些实施例中，可以将目标用户在当前交易时点的状态即目标用户在当前交易时点下的交易状态特征输入推荐模型，输出得到与目标支付渠道关联的交易权益比例分布，例如推荐模型可以输出反映交易权益比例分布的均值和方差。在本说明书中，训练得到的推荐模型可以用于确定最优策略，所以在本实施例中，推荐模型输出的与目标支付渠道关联的交易权益比例分布应当是最优策略下的一组交易权益比例分布。

步骤630、确定某一服从所述交易权益比例分布的交易权益比例。

具体地，该步骤630可以由交易权益比例确定模块930执行。

如前所述，推荐模型根据对象的当前时点状态预测推荐标的分布后，可以确定服从所述推荐标的分布的预测推荐标的，例如基于前述比例均值确定一具体比例，该比例与均值的差异不超过所述方差。

在一些实施例中，可以在推荐模型根据目标用户在当前交易时点的状态预测得到与目标支付渠道关联的交易权益比例分布后，按照前述确定预测推荐标的的方法根据交易权益比例分布确定一个服从所述交易权益比例分布的交易权益比例。例如确定服从连续的交易权益比例分布的一个交易权益比例为5%。

步骤640、将所述交易权益比例联合所述目标支付渠道推荐给所述目标用户。

具体地，该步骤640可以由推荐模块940执行。

在一些实施例中，确定某一服从所述交易权益比例分布的交易权益比例即最优策略对应的一个推荐标的后，就可以将该交易权益比例联合所述目标支付渠道推荐给目标用户，例如推荐给用户使用目标支付渠道即发放交易权益比例为5%的红包优惠，并在用户的支付界面上显示。使目标用户大概率的选择目标支付渠道完成当前在线交易的支付。相应的，该交易权益比例是根据推荐模型的给定策略确定的最优推荐标的，所以目标用户收到推荐后，可以大概率实现预期的，让该未使用目标支付渠道的目标用户转移到目标支付渠道中，且该权益定价比例对应的成本是在给定策略下能选择的权益定价比例中最低的。

图8是本说明书的一些实施例所示的训练推荐模型的系统的模块图。

在一些实施例中，训练推荐模型的系统800可以包括第一模型构建模块810、训练样本获取模块820、第二模型构建模块830和训练模块840。

第一模型构建模块，用于获得状态转移模型和奖励模型；所述状态转移模型用于根据对象的当前时点状态和推荐标的确定所述对象的下一时点状态；所述奖励模型用于根据对象的当前时点状态和推荐标的确定奖励，所述对象的下一时点状态表示向对象推荐所述推荐标的后该对象的状态。关于状态转移模型和奖励模型参见图2、图4和图5及其相关描述。

训练样本获取模块，用于获得多个训练样本，所述训练样本至少包括样本对象的当前时点状态。在一些实施例中，所述训练样本还包括历史推荐标的、向样本对象推荐所述历史推荐标的之后该样本对象的下一时点状态以及与所述历史推荐标的相关的历史奖励。关于训练样本参见图2、图3及其相关描述。

在一些实施例中，所述训练样本基于交易数据获取。其中，所述样本对象的当前时点状态包括样本用户在当前交易时点下的交易状态特征，所述历史推荐标的包括向样本用户推荐的与目标支付渠道关联的交易权益比例，所述样本对象的下一时点状态包括向样本用户推荐所述历史推荐标的后样本用户在下一交易时点下的交易状态特征，所述历史奖励与向样本用户推荐历史推荐标的后样本用户产生的交易金额相关；所述交易状态特征反映在以下信息的一种或多种：用户的个人属性信息、交易时间、交易金额、交易平台和历史支付渠道信息。

第二模型构建模块，用于构建推荐模型，所述推荐模型用于根据对象的当前时点状态预测推荐标的分布。在一些实施例中，所述第二模型构建模块还用于：构建所述价值模型和Q值模型，所述价值模型用于根据对象的当前时点状态计算总体收益，所述Q值模型用于根据对象的当前时点状态和推荐标的计算向对象推荐该推荐标的后的总体收益。

训练模块，用于对于所述多个训练样本的每一个执行以下步骤，以迭代更新推荐模型的参数，得到训练好的推荐模型：利用所述推荐模型处理样本对象的当前时点状态，得到样本对象对应的推荐标的分布，并确定服从所述推荐标的分布的预测推荐标的；利用所述状态转移模型处理样本对象的当前时点状态以及所述预测推荐标的，得到预测样本对象的下一时点状态；计算所述预测样本对象的下一时间点状态相关的收益；利用所述奖励模型处理样本对象的当前时点状态及所述预测推荐标的，得到预测奖励；确定所述推荐模型的目标函数，其中，所述推荐模型的目标函数至少与所述预测奖励以及所述预测样本对象的下一时间点状态相关的收益正相关；调整所述推荐模型的参数，以使其目标函数最大化。关于训练模块训练推荐模型的具体细节可以参见图2及其相关描述。

图9是本说明书的一些实施例所示的基于推荐模型的交易权益推荐系统的模块图。

在一些实施例中，基于推荐模型的交易权益推荐系统900可以包括第一获取模块910、第一处理模块920、交易权益比例确定模块930和推荐模块940。

第一获取模块，用于获取目标用户在当前交易时点下的交易状态特征；所述当前交易时点早于支付时点。

第一处理模块，用于利用推荐模型处理所述交易状态特征，得到与目标支付渠道关联的交易权益比例分布；所述推荐模型基于本说明书中任一所述训练推荐模型的方法获得。

交易权益比例确定模块，用于确定某一服从所述交易权益比例分布的交易权益比例。

推荐模块，用于将所述交易权益比例联合所述目标支付渠道推荐给所述目标用户。

应当理解，训练推荐模型的系统及其模块、基于推荐模型的交易权益推荐系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器（固件）的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合（例如，固件）来实现。

需要注意的是，以上对于训练推荐模型的系统及其模块、基于推荐模型的交易权益推荐系统及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，训练推荐模型的系统中披露的第一模型构建模块、训练样本获取模块、第二模型构建模块和训练模块可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，第一模型构建模块和训练样本获取模块可以是两个模块，也可以是一个模块实现上述的两个或两个以上模块的功能。又例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本申请的保护范围之内。

本说明书实施例还提供一种装置，其至少包括处理器以及存储器。所述存储器用于存储指令。当所述指令被所述处理器执行时，导致所述装置实现前述任一种训练推荐模型的方法。

本说明书实施例还提供一种装置，其至少包括处理器以及存储器。所述存储器用于存储指令。当所述指令被所述处理器执行时，导致所述装置实现前述任一种基于推荐模型的交易权益推荐的方法。

本说明书实施例可能带来的有益效果包括但不限于：（1）本方法通过构建推荐模型可以直接根据总体目标确定最优策略，且方法可以在限制的推荐标的空间内寻找长远收益最大化的最优策略，可以实现例如权益定价中的平衡短期投入与长期收益，达到长期降本增收；（2）对于推荐模型的训练，嵌入奖励模型与状态转移模型的结果，以便在迭代中能够使用两个模型的梯度讯息，弥补了训练数据的不足，从而提升算法的收敛性。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件（包括固件、常驻软件、微码等）执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网（LAN）或广域网（WAN），或连接至外部计算机（例如通过因特网），或在云计算环境中，或作为服务使用如软件即服务（SaaS）。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件（当前或之后附加于本说明书中的）也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种训练推荐模型的方法，包括：

获得状态转移模型和奖励模型；所述状态转移模型用于根据对象的当前时点状态和推荐标的确定所述对象的下一时点状态；所述奖励模型用于根据所述对象的当前时点状态和推荐标的确定奖励，所述对象的下一时点状态表示向所述对象推荐所述推荐标的后该对象的状态；

获得多个训练样本，所述训练样本至少包括样本对象的当前时点状态；

构建推荐模型，所述推荐模型用于根据对象的当前时点状态预测推荐标的分布；

对于所述多个训练样本的每一个执行以下步骤，以迭代更新推荐模型的参数，得到训练好的推荐模型：

利用所述推荐模型处理样本对象的当前时点状态，得到样本对象对应的推荐标的分布，并确定服从所述推荐标的分布的预测推荐标的；

利用所述状态转移模型处理样本对象的当前时点状态以及所述预测推荐标的，得到样本对象的下一时点状态；

计算所述样本对象的下一时点状态相关的收益；

利用所述奖励模型处理样本对象的当前时点状态及所述预测推荐标的，得到预测奖励；

确定所述推荐模型的目标函数，其中，所述推荐模型的目标函数至少与所述预测奖励以及所述样本对象的下一时点状态相关的收益正相关；

调整所述推荐模型的参数，以使其目标函数最大化。

2.如权利要求1所述的方法，所述计算所述样本对象的下一时点状态相关的收益，还包括：

利用价值模型处理所述样本对象的下一时点状态得到其对应的总体收益。

3.如权利要求2所述的方法，所述训练样本还包括历史推荐标的、向所述样本对象推荐所述历史推荐标的之后该样本对象的下一时点状态以及与所述历史推荐标的相关的历史奖励；

所述方法还包括：

构建价值模型和Q值模型，所述价值模型用于根据对象的当前时点状态计算总体收益，所述Q值模型用于根据对象的当前时点状态和推荐标的计算向所述对象推荐该推荐标的后的总体收益；

对于所述多个训练样本的每一个执行以下步骤，以迭代更新推荐模型的参数，得到训练好的推荐模型中，所述以下步骤还包括：

为所述价值模型与Q值模型分别建立目标函数，其中，

所述Q值模型的目标函数基于训练样本中的历史奖励与基于价值模型得到的样本对象的下一时点状态对应的总体收益的至少一部分之和与Q值模型的输出的差异构建；所述Q值模型的输出基于样本对象的当前时点状态与历史推荐标的得到；

所述价值模型的目标函数基于Q值模型得到的样本对象的当前时点状态与历史推荐标的对应的总体收益与动作熵的和值与价值模型的输出的差异构建；所述动作熵基于所述推荐模型根据样本对象的当前时点状态预测的推荐标的分布获得，所述价值模型的输出基于样本对象的当前时点状态得到；

调整所述价值模型与Q值模型的参数，分别以使其目标函数最小化。

4.如权利要求1所述的方法，所述推荐模型的目标函数还与所述动作熵正相关，所述动作熵基于所述推荐模型根据样本对象的当前时点状态预测的推荐标的分布获得。

5.如权利要求3所述的方法，所述训练样本基于交易数据获取；其中，

所述样本对象的当前时点状态包括样本用户在当前交易时点下的交易状态特征，

所述历史推荐标的包括向样本用户推荐的与目标支付渠道关联的交易权益比例，

所述样本对象的下一时点状态包括向所述样本用户推荐所述历史推荐标的后样本用户在下一交易时点下的交易状态特征，

所述历史奖励与向样本用户推荐所述历史推荐标的后样本用户产生的交易金额相关；

所述交易状态特征反映在以下信息的一种或多种：用户的个人属性信息、交易时间、交易金额、交易平台和历史支付渠道信息。

6.如权利要求3所述的方法，还包括：

所述状态转移模型和奖励模型利用所述训练样本通过监督学习进行训练得到。

7.如权利要求1所述的方法，所述推荐模型输出的推荐标的分布包括所述推荐标的的均值和方差。

8.一种基于推荐模型的交易权益推荐方法，包括：

获取目标用户在当前交易时点下的交易状态特征；所述当前交易时点早于支付时点；

利用推荐模型处理所述交易状态特征，得到与目标支付渠道关联的交易权益比例分布；所述推荐模型基于权利要求1~7中任一项所述的方法获得；

确定某一服从所述交易权益比例分布的交易权益比例；

将所述交易权益比例联合所述目标支付渠道推荐给所述目标用户。

9.一种训练推荐模型的系统，包括：

第一模型构建模块：用于获得状态转移模型和奖励模型；所述状态转移模型用于根据对象的当前时点状态和推荐标的确定所述对象的下一时点状态；所述奖励模型用于根据所述对象的当前时点状态和推荐标的确定奖励，所述对象的下一时点状态表示向所述对象推荐所述推荐标的后该对象的状态；

训练样本获取模块：用于获得多个训练样本，所述训练样本至少包括样本对象的当前时点状态；

第二模型构建模块：用于构建推荐模型，所述推荐模型用于根据对象的当前时点状态预测推荐标的分布；

训练模块：用于对于所述多个训练样本的每一个执行以下步骤，以迭代更新推荐模型的参数，得到训练好的推荐模型：

计算所述样本对象的下一时点状态相关的收益；

调整所述推荐模型的参数，以使其目标函数最大化。

10.如权利要求9所述的系统，所述训练模块还用于：

11.如权利要求10所述的系统，所述训练样本还包括历史推荐标的、向所述样本对象推荐所述历史推荐标的之后该样本对象的下一时点状态以及与所述历史推荐标的相关的历史奖励；

所述第二模型构建模块还用于：构建所述价值模型和Q值模型，所述价值模型用于根据对象的当前时点状态计算总体收益，所述Q值模型用于根据对象的当前时点状态和推荐标的计算向所述对象推荐该推荐标的后的总体收益；

所述训练模块还用于：

为所述价值模型与Q值模型分别建立目标函数，其中，

12.如权利要求9所述的系统，所述推荐模型的目标函数还与所述动作熵正相关，所述动作熵基于所述推荐模型根据样本对象的当前时点状态预测的推荐标的分布获得。

13.如权利要求11所述的系统，所述训练样本基于交易数据获取；其中，

所述历史奖励与向样本用户推荐历史推荐标的后样本用户产生的交易金额相关；

14.如权利要求11所述的系统，

15.如权利要求9所述的系统，所述推荐模型输出的推荐标的分布包括所述推荐标的的均值和方差。

16.一种基于推荐模型的交易权益推荐系统，包括：

第一获取模块：用于获取目标用户在当前交易时点下的交易状态特征；所述当前交易时点早于支付时点；

第一处理模块：用于利用推荐模型处理所述交易状态特征，得到与目标支付渠道关联的交易权益比例分布；所述推荐模型基于权利要求1~7中任一项所述的方法获得；

交易权益比例确定模块：用于确定某一服从所述交易权益比例分布的交易权益比例；

推荐模块：用于将所述交易权益比例联合所述目标支付渠道推荐给所述目标用户。

17.一种训练推荐模型的装置，包括处理器，所述处理器用于执行如权利要求1~7任一项所述的训练推荐模型的方法。

18.一种基于推荐模型的交易权益推荐的装置，包括处理器，所述处理器用于执行如权利要求8所述的基于推荐模型的交易权益推荐的方法。