CN110599238A

CN110599238A - 一种对象排序方法、装置、电子设备及可读存储介质

Info

Publication number: CN110599238A
Application number: CN201910754266.8A
Authority: CN
Inventors: 董健; 王永康
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-12-20

Abstract

本公开提供了一种对象排序方法、装置、电子设备及可读存储介质，包括：通过电子设备执行训练过程和排序应用过程；其中，训练过程中的一次迭代过程包括：获取系统当前的状态特征以及上一次迭代的奖赏值；在奖赏值未满足训练停止条件时，调整强化学习模型中的预设参数并对系统当前的特征进行运算得到当前的第一权重系数；基于第一权重系数与当前状态特征得到目标对象的排序分值；根据排序分值对各个对象进行排序；获取在相应排序结果下系统的成交总额和成交成本参数；基于成交总额和成交成本参数计算本次迭代的奖赏值；在奖赏值满足预设条件时停止训练。并将得到的模型应用在排序过程。解决了现有技术中平台收益和商户利益不能平衡的问题。

Description

一种对象排序方法、装置、电子设备及可读存储介质

技术领域

本公开涉及推荐技术领域，特别是涉及一种对象排序方法、一种对象排序装置、电子设备及可读存储介质。

背景技术

在广告投放领域，为了在广告中体现商户和广告投放平台的收益权衡，通常采用线性融合的方式来确定广告投放过程中多个收益特征的平衡效果。

现有技术中，通常通过平台收益、商户利益是广告平台的优化目标，二者通过线性加权的方式，收益权重值构成排序公式，来确定平衡关系。

但是，由于收益权重值往往固定不变，广告是实际收益值和商户利益值确实灵活变动，所以收益权重值不能正确体现平台收益、商户利益之间的关系。

发明内容

根据本公开的第一方面，本公开实施例公开了一种对象排序方法，

通过电子设备执行训练过程和排序应用过程；

所述训练过程包括多次迭代过程；

一次迭代过程包括：

获取系统当前的状态特征以及上一次迭代的奖赏值；

若所述奖赏值未满足训练停止条件，则停止训练；

若所述奖赏值未满足训练停止条件，调整强化学习模型中的预设参数，并根据调整后的模型对系统当前的特征进行运算得到当前的第一权重系数；

基于所述第一权重系数与当前订单点击率、订单转化率的乘积得到目标对象的排序分值；

基于各个对象的排序分值对各个对象进行排序；

获取在相应排序结果下系统的成交总额和成交成本参数；

基于成交总额和成交成本参数计算本次迭代的奖赏值；

所述排序应用过程包括：

获取系统当前的状态特征；

基于训练好的强化学习模型对所述特征进行运算得到第一权重系数；

基于各个对象的排序分值对各个对象进行排序。

根据本公开的第二方面，本公开实施例公开了一种对象排序装置，具体包括：

通过电子设备运行训练模块和排序应用模块；

所述训练模块，用于执行多次迭代过程；

一次迭代过程包括：

奖赏值获取模块，用于获取系统当前的状态特征以及上一次迭代的奖赏值；

停止模块，用于若所述奖赏值未满足训练停止条件，则停止训练；

第一权重系数得到模块，用于若所述奖赏值未满足训练停止条件，调整强化学习模型中的预设参数，并根据调整后的模型对系统当前的特征进行运算得到当前的第一权重系数；

排序分值计算模块，用于基于所述第一权重系数与当前订单点击率、订单转化率的乘积得到目标对象的排序分值；

排序模块，用于基于各个对象的排序分值对各个对象进行排序；

奖赏参数获取模块，用于获取在相应排序结果下系统的成交总额和成交成本参数；

奖赏值计算模块，用于基于成交总额和成交成本参数计算本次迭代的奖赏值；

排序应用模块，用于所述排序应用过程，包括：

状态特征获取模块，用于获取系统当前的状态特征；

第一权重系数获取模块，用于基于训练好的强化学习模型对所述特征进行运算得到第一权重系数；

排序分值得到模块，用于基于所述第一权重系数与当前订单点击率、订单转化率的乘积得到目标对象的排序分值；

排序模块，用于基于各个对象的排序分值对各个对象进行排序。

根据本公开的第三方面，提供了一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如前述的对象排序方法。

根据本公开的第四方面，提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够实现前述的对象排序方法。

本公开的实施例中，构强化学习模型，并使用电子设备对强化学习模型进行训练，在训练过程中基于成交总额和成交成本参数计算本次迭代的奖赏值，并将这样的奖赏值作为对训练过程的约束；在训练之后的排序过程中，基于训练好的强化学习模型生成用以调整排序的参数。这样就能够使得电子设备输出的排序结果较好地平衡商户和平台收益之间关系，解决了现有技术中计算机设备无法在平衡商户和平台收益之间关系的情况下进行排序的技术问题。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开的一种对象排序方法实施例的步骤流程图；

图2是本公开的一种对象排序装置实施例的结构框图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

实施例一

参照图1，示出了本公开的一种对象排序方法实施例的步骤流程图，具体可以包括通过电子设备执行训练过程和排序应用过程；

所述训练过程包括多次迭代过程；

一次迭代过程包括：

步骤101，获取系统当前的状态特征以及上一次迭代的奖赏值；

本公开实施例中，在系统上进行对象操作时，对象根据操作生成的一系列状态变化，则获取系统当前的状态特征，并且获取上一次迭代产生的奖赏值。

其中，奖赏值是强化学习又称再励学习、评价学习或增强学习产生的参数。用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题，主要通过给定条件(如状态特征)进行以“试错”方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。

优选地，所述状态特征包括所述广告点击率、对象排序费、针对所述对象排序商品的下单数量以及针对所述对象排序商品的下单价格。

步骤102，若所述奖赏值未满足训练停止条件，则停止训练；

本公开实施例中，在得到的上一次迭代产生的奖赏值满足预设值，即满足训练停止条件，则停止训练，否则进行下一步骤。

步骤103，若所述奖赏值未满足训练停止条件，调整强化学习模型中的预设参数，并根据调整后的模型对系统当前的特征进行运算得到当前的第一权重系数；

本公开实施例中，如果上一次迭代产生的奖赏值为满足预设值，即未满足训练停止条件，则调整强化学习模型中的预设参数，即更新了强化学习模型，用更新后的强化学习模型对当前获取的状态特征进行新一轮的迭代运算，得到当前的第一权重系数。

步骤104，基于所述第一权重系数与当前订单点击率、订单转化率的乘积得到目标对象的排序分值；

优选地，通过以下公式计算得到目标对象的排序分值：

Rankscore＝ctr*bid+K1*GMV

其中，Rankscore为排序分值，K1为第一回报权重，GMV为用户针对广告中展示产品在第一回报权重状态下的下单总额；ctr为目标对象的点击率，bid为目标对象的对象排序费。

本公开实施例中，根据得到的第一权重系数，与已获取的状态特征计算目标对象的排序分值。

步骤105，基于各个对象的排序分值对各个对象进行排序；

本公开实施例中，根据排序分值的大小对目标对象进行排序。

步骤106，获取在相应排序结果下系统的成交总额和成交成本参数；

本公开实施例中，在排序结果中，计算每一个排序目标对象在系统中产生的成交总额和成交成本。

其中，成交总额为用户在系统中对于目标对象(例如广告对象)的点击率以及下单率产生的下单总额，成交成本为商户在系统平台上宣传目标对象产生的费用(即单位时间内的广告投放费用)。

在实际应用中，CPM为广告投放费用(即成交成本参数)，计算方法为ctr(点击率)*bid*1000，其代表广告投放的千次展现的收费。

可以理解地，上述目标对象为商户通过系统投放的广告，其中的用户投入和输出计算方法不限于上述描述，本公开实施例不加以限制。

步骤107，基于成交总额和成交成本参数计算本次迭代的奖赏值；

本公开实施例中，可以基于成交总额和成交成本参数之间的比值计算本次迭代的奖赏值。

当然，奖赏值的计算方式不限于上述描述，本公开实施例对此不加以限制。

优选地，在一次迭代过程中，若判断上一次迭代的奖赏值与上一次迭代之前的预设数量次迭代奖赏值相比均没有增长，确定上一次迭代的奖赏值满足训练停止条件。

本公开实施例中，如果在经过预设数量的多次迭代训练后，奖赏值都没有增长，或者增长数值未达到预设值，则停止训练。

优选地，所述强化学习模型为DQN、双DQN或竞争DQN中的一种。

所述排序应用过程包括：

步骤108，获取系统当前的状态特征；

本公开实施例中，在停止训练后的模型确定为最终的强化学习模型。在确定强化学习模型后可以获取系统最新的状态特征。

步骤109，基于训练好的强化学习模型对所述特征进行运算得到第一权重系数；

本公开实施例中，将获取系统的最新状态特征输入训练好的强化学习模型，得到最新的第一权重系数。

步骤110，基于所述第一权重系数与当前订单点击率、订单转化率的乘积得到目标对象的排序分值；

本公开实施例中，将最新的第一权重系数，与当前目标对象产生的当前订单点击率、订单转化率的乘积得到目标对象的排序分值。

步骤111，基于各个对象的排序分值对各个对象进行排序。

本公开实施例中，根据各个对象计算得到新的排序分值对各个对象进行排序，展示在系统平台。

在本公开实施例中，通过电子设备执行训练过程和排序应用过程；所述训练过程包括多次迭代过程；一次迭代过程包括：获取系统当前的状态特征以及上一次迭代的奖赏值；若所述奖赏值未满足训练停止条件，则停止训练；若所述奖赏值未满足训练停止条件，调整强化学习模型中的预设参数，并根据调整后的模型对系统当前的特征进行运算得到当前的第一权重系数；基于所述第一权重系数与当前订单点击率、订单转化率的乘积得到目标对象的排序分值；基于各个对象的排序分值对各个对象进行排序；获取在相应排序结果下系统的成交总额和成交成本参数；基于成交总额和成交成本参数计算本次迭代的奖赏值；所述排序应用过程包括：获取系统当前的状态特征；基于训练好的强化学习模型对所述特征进行运算得到第一权重系数；基于所述第一权重系数与当前订单点击率、订单转化率的乘积得到目标对象的排序分值；基于各个对象的排序分值对各个对象进行排序。具备通过排序展现了用户收益和平台收益之间的关系的有益效果。

实施例二

参照图2，示出了本公开的一种对象排序装置实施例的结构框图，具体可以包括：通过电子设备运行的训练模块和排序应用模块；

所述训练模块201，用于执行多次迭代过程；

一次迭代过程包括：

奖赏值获取模块2011，用于获取系统当前的状态特征以及上一次迭代的奖赏值；

停止模块2012，用于若所述奖赏值未满足训练停止条件，则停止训练；

第一权重系数得到模块2013，用于若所述奖赏值未满足训练停止条件，调整强化学习模型中的预设参数，并根据调整后的模型对系统当前的特征进行运算得到当前的第一权重系数；

排序分值计算模块2014，用于基于所述第一权重系数与当前订单点击率、订单转化率的乘积得到目标对象的排序分值；

优选地，排序分值计算子模块，用于通过以下公式计算得到目标对象的排序分值：

Rankscore＝ctr*bid+K1*GMV

排序模块2015，用于基于各个对象的排序分值对各个对象进行排序；

奖赏参数获取模块2016，用于获取在相应排序结果下系统的成交总额和成交成本参数；

奖赏值计算模块2017，用于基于成交总额和成交成本参数计算本次迭代的奖赏值；

优选地，所述训练模块201，还包括：

训练停止模块，用于在一次迭代过程中，若判断上一次迭代的奖赏值与上一次迭代之前的预设数量次迭代奖赏值相比均没有增长，确定上一次迭代的奖赏值满足训练停止条件。

排序应用模块202，用于所述排序应用过程，包括：

状态特征获取模块2021，用于获取系统当前的状态特征；

第一权重系数获取模块2022，用于基于训练好的强化学习模型对所述特征进行运算得到第一权重系数；

实时排序分值得到模块2023，用于基于所述第一权重系数与当前订单点击率、订单转化率的乘积得到目标对象的排序分值；

实时排序模块2024，用于基于各个对象的排序分值对各个对象进行排序。

优选地，所述强化学习模型为DQN、双DQN或竞争DQN中的一种。

在本公开实施例中，通过电子设备运行的训练模块和排序应用模块；所述训练模块，用于执行多次迭代过程；一次迭代过程包括：奖赏值获取模块，用于获取系统当前的状态特征以及上一次迭代的奖赏值；停止模块，用于若所述奖赏值未满足训练停止条件，则停止训练；第一权重系数得到模块，用于若所述奖赏值未满足训练停止条件，调整强化学习模型中的预设参数，并根据调整后的模型对系统当前的特征进行运算得到当前的第一权重系数；排序分值计算模块，用于基于所述第一权重系数与当前订单点击率、订单转化率的乘积得到目标对象的排序分值；排序模块，用于基于各个对象的排序分值对各个对象进行排序；奖赏参数获取模块，用于获取在相应排序结果下系统的成交总额和成交成本参数；奖赏值计算模块，用于基于成交总额和成交成本参数计算本次迭代的奖赏值；排序应用模块，用于所述排序应用过程，包括：状态特征获取模块，用于获取系统当前的状态特征；第一权重系数获取模块，用于基于训练好的强化学习模型对所述特征进行运算得到第一权重系数；实时排序分值得到模块，用于基于所述第一权重系数与当前订单点击率、订单转化率的乘积得到目标对象的排序分值；实时排序模块，用于基于各个对象的排序分值对各个对象进行排序。具备通过排序展现了用户收益和平台收益之间的关系的有益效果。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开实施例还提供一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述的一个或多个所述的对象排序方法。

本公开实施例还提供一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如所述的对象排序方法。

综上所述，在本公开实施例中，通过电子设备执行训练过程和排序应用过程；其中，训练过程中的一次迭代过程包括：获取系统当前的状态特征以及上一次迭代的奖赏值；在奖赏值未满足训练停止条件时，调整强化学习模型中的预设参数并对系统当前的特征进行运算得到当前的第一权重系数；基于第一权重系数与当前状态特征得到目标对象的排序分值；根据排序分值对各个对象进行排序；获取在相应排序结果下系统的成交总额和成交成本参数；基于成交总额和成交成本参数计算本次迭代的奖赏值；在奖赏值满足预设条件时停止训练。并将得到的模型应用在排序过程。解决了现有技术中平台收益和商户利益不能平衡的问题。具备通过排序展现了用户收益和平台收益之间的关系的有益效果。

其具有如下优点：

一.调整训练参数，平衡多目标的过程中，更符合强化学习的过程；

二.在强化学习中对训练参数的调整中，实际商户/用户利益作为反馈，不断的更新迭代,根据实际反馈,调整动作,达到二者收益的最大化。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本公开实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本公开实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开实施例是参照根据本公开实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本公开实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本公开实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本公开所提供的一种对象排序方法、装置、电子设备及可读存储介质，进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域的一般技术人员，依据本公开的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本公开的限制。

Claims

1.一种对象排序方法，其特征在于，包括：通过电子设备执行训练过程和排序应用过程；

所述训练过程包括多次迭代过程；

一次迭代过程包括：

获取系统当前的状态特征以及上一次迭代的奖赏值；

若所述奖赏值未满足训练停止条件，则停止训练；

基于各个对象的排序分值对各个对象进行排序；

获取在相应排序结果下系统的成交总额和成交成本参数；

基于成交总额和成交成本参数计算本次迭代的奖赏值；

所述排序应用过程包括：

获取系统当前的状态特征；

基于各个对象的排序分值对各个对象进行排序。

2.根据权利要求1所述的方法，其特征在于，所述状态特征包括所述广告点击率、对象排序费、针对所述对象排序商品的下单数量以及针对所述对象排序商品的下单价格。

3.根据权利要求1所述的方法，其特征在于，

通过以下公式计算得到目标对象的排序分值：

Rankscore＝ctr*bid+K1*GMV

4.根据权利要求1所述的方法，其特征在于，所述训练过程还包括：在一次迭代过程中，若判断上一次迭代的奖赏值与上一次迭代之前的预设数量次迭代奖赏值相比均没有增长，确定上一次迭代的奖赏值满足训练停止条件。

5.根据权利要求1所述的方法，其特征在于，所述强化学习模型为DQN、双DQN或竞争DQN中的一种。

6.一种对象排序装置，其特征在于，包括：通过电子设备运行的训练模块和排序应用模块；

所述训练模块，用于执行多次迭代过程；

一次迭代过程包括：

排序应用模块，用于所述排序应用过程，包括：

状态特征获取模块，用于获取系统当前的状态特征；

实时排序分值得到模块，用于基于所述第一权重系数与当前订单点击率、订单转化率的乘积得到目标对象的排序分值；

实时排序模块，用于基于各个对象的排序分值对各个对象进行排序。

7.根据权利要求6所述的装置，其特征在于，所述状态特征包括所述广告点击率、对象排序费、针对所述对象排序商品的下单数量以及针对所述对象排序商品的下单价格。

8.根据权利要求7所述的装置，其特征在于，所述排序分值计算模块，包括：

排序分值计算子模块，用于通过以下公式计算得到目标对象的排序分值：

Rankscore＝ctr*bid+K1*GMV

9.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5之任一项所述的对象排序方法。

10.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够实现如权利要求1-5之任一项所述的对象排序方法。