CN111598616B

CN111598616B - 对象集合筛选的实现方法、装置、设备以及存储介质

Info

Publication number: CN111598616B
Application number: CN202010391847.2A
Authority: CN
Inventors: 陈志杰; 裴欣; 连义江; 陶志鹏; 丘岳峰; 张志恒; 袁亮; 袁瑞玉; 王天宇; 李爽
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2023-08-01
Anticipated expiration: 2040-05-11
Also published as: CN111598616A

Abstract

本申请实施例公开了一种对象集合筛选的实现方法、装置、设备以及存储介质，涉及大数据处理和人工智能技术领域。具体实现方案为：获取初始对象集合；其中，所述初始对象集合中包括至少两个对象；基于强化学习的序列决策算法中的筛选策略，对所述初始对象集合执行对象筛选操作，以形成目标对象集合；其中，所述初始对象集合和/或所述对象筛选操作的数量为两个以上，以形成至少两个所述目标对象集合；获取将各所述目标对象集合在运行环境中实施而获得的收益；根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的筛选策略进行更新。本申请实施例解决了集合筛选过程决策的通用性问题。

Description

对象集合筛选的实现方法、装置、设备以及存储介质

技术领域

本申请实施例涉及计算机技术领域，具体涉及大数据处理和人工智能技术。

背景技术

广告检索系统，是一个针对特定流量拉取所有满足要求的候选广告，并进行广告位竞价的系统。当候选广告太多时，广告检索系统不会让所有候选广告都参与竞价，而是在竞价前不同阶段对候选广告进行排序、截断、去重等操作，以从候选广告集合中筛选子集再进行竞价，以平衡性能和效果。这样的广告检索系统可称为漏斗检索系统。

在漏斗式检索系统中，排序、截断、去重可以看成是一种典型的最优子集选择过程，优化目标是在漏斗的各个阶段所选择的广告子集，经展现后的收益期望最大化。漏斗筛选操作可以是一次或多次，从而构成多级漏斗检索系统。

目前的漏斗检索系统中，对子集的筛选规则单一，往往对场景的适用专属强，不具备通用性，在场景或外围影响因素变化时，需要进行较大调整。

发明内容

本申请实施例提供了一种对象集合筛选的实现方法、装置、设备以及存储介质。

根据第一方面，提供了一种对象集合筛选的实现方法，包括：

获取初始对象集合；其中，所述初始对象集合中包括至少两个对象；

基于强化学习的序列决策算法中的筛选策略，对所述初始对象集合执行对象筛选操作，以形成目标对象集合；其中，所述初始对象集合和/或所述对象筛选操作的数量为两个以上，以形成至少两个所述目标对象集合；

获取将各所述目标对象集合在运行环境中实施而获得的收益；

根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的筛选策略进行更新。

根据第二方面，提供了一种对象集合筛选的实现装置，包括：

初始对象集合获取模块，用于获取初始对象集合；其中，所述初始对象集合中包括至少两个对象；

目标对象集合筛选模块，用于基于强化学习的序列决策算法中的筛选策略，对所述初始对象集合执行对象筛选操作，以形成目标对象集合；其中，所述初始对象集合和/或所述对象筛选操作的数量为两个以上，以形成至少两个所述目标对象集合；

收益获取模块，用于获取将各所述目标对象集合在运行环境中实施而获得的收益；

筛选策略更新模块，用于根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的筛选策略进行更新。

根据第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任意实施例所提供的对象集合筛选的实现方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请任意实施例所提供的对象集合筛选的实现方法。

根据本申请实施例的技术，解决了集合筛选过程决策的通用性问题。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例一提供的一种对象集合筛选的实现方法的流程示意图；

图2A为本申请实施例二提供的一种对象集合筛选的实现方法的流程示意图；

图2B为本申请实施例所适用的筛选过程示意图；

图3A为本申请实施例三提供的一种对象集合筛选的实现方法的流程示意图；

图3B为本申请实施例所采用的在线和离线系统架构示意图；

图4为本申请实施例四提供的一种对象集合筛选的实现装置的结构示意图；

图5是用来实现本申请实施例的对象集合筛选的实现方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例一

图1为本申请实施例一提供的一种对象集合筛选的实现方法的流程示意图。本实施例的对象集合筛选实现方法，可适用于对任何对象进行筛选的场景，对象是可以用各维度信息进行其特点表征的对象，例如文档、广告等各种信息对象等，由此本申请实施例可适用于任何通过抓取技术自动生成对象集合的场景。本实施例的技术方案由对象集合筛选的实现装置来实现，该装置可以采用硬件和/或软件的方式来实现，可集成于具备计算能力的电子设备中。

如图1所示，该方法包括：

S110、获取初始对象集合；其中，所述初始对象集合中包括至少两个对象；

初始对象集合是有待筛选的对象集合，其来源不限，例如，可以通过用户搜索来确定初始对象集合，进而进行后续筛选；或者，可以随机从对象库中提取初始对象集合，以便再进行后续筛选。

S120、基于强化学习的序列决策算法中的筛选策略，对所述初始对象集合执行对象筛选操作，以形成目标对象集合；其中，所述初始对象集合和/或所述对象筛选操作的数量为两个以上，以形成至少两个所述目标对象集合；

在上述操作中，强化学习(Reinforcement Learning,RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决模拟器(Agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。序列决策算法是强化学习的一种，主要是针对对象集合，执行序列化的决策，并通过学习使得决策不断优化。典型的序列决策算法例如为马尔科夫序列决策算法(Markov Decision Process,MDP)。

对一个初始对象集合执行一次对象筛选操作，即最终可以形成一个目标对象集合。如果获取的初始对象集合的数量为两个以上，或者每个初始对象集合执行两次以上的对象筛选操作，则可以获得至少两个目标对象集合。当然，对于一个初始对象集合执行两次以上的对象筛选操作，也可以视为是对两个以上相同的初始对象集合分别执行对象筛选操作，可形成多个目标对象集合。无论针对的是相同的初始对象集合还是不同的初始对象集合，在执行两次以上对象筛选操作时，均可获得至少两个目标对象集合。

在一个实施例中，基于强化学习的序列决策算法中的筛选策略，对所述初始对象集合执行对象筛选操作，以形成目标对象集合具体可包括：

基于强化学习的序列决策算法中的筛选策略，对所述初始对象集合逐步执行至少两次对象筛选动作，将筛选得到的对象逐步添加至已选对象集合，以最终形成所述目标对象集合。

在上述操作中，对初始对象集合执行一次对象筛选操作的过程，可以具体是执行多次对象筛选动作，可以将多个对象筛选动作看做序列化的动作。每步对象筛选动作，将从未选对象集合中选中一个对象，添加至已选对象集合中，则已选对象集合中的对象不断增加，在本次对象筛选操作结束时，则形成了目标对象集合。对象筛选操作的结束条件可以有多种确定方式，例如，可以确定目标对象集合中的选中对象数量上限、或确定未选对象集合中不存在可选对象等。

S130、获取将各所述目标对象集合在运行环境中实施而获得的收益；

将各所述目标对象集合，投放在运行环境中实施，来检测各目标对象集合的实施收益。在运行环境不同、对象种类不同时，其对应可获取的收益也会不同。例如，如果对象是文档，运行环境是资讯类应用软件中向用户推荐感兴趣文档，则在筛选确定的感兴趣文档集合，在资讯类应用软件中推送时，其收益可变现为用户对推送文档的浏览量、点击量等数据。如果对象是广告，运行环境是搜索引擎中的广告展示功能，则在筛选确定当前待推送广告集合，在搜索引擎的搜索结果中推送时，其收益可变现为用户对推送广告的点击量、广告转化率等数据。收益可以是积极收益，也可以是消极收益。消极收益即在运行环境中实施目标对象集合时的损失。

S140、根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的筛选策略进行更新。

上述操作中，对于各目标对象集合的收益，如果存在差异，说明确定各目标对象集合的筛选策略存在差异，收益更高的表明筛选策略更佳，收益更低的表明筛选策略更差。由此，可以对更佳的筛选策略的参数进行加强，对更差的筛选策略的参数进行改进，从而使得筛选策略逐步更新优化，以达到筛选策略确定的目标对象集合的期望收益最大化的目标。

针对从初始对象集合中选择确定目标对象集合的应用场景，目标对象集合需要适用于运行环境。如果运行环境对目标对象集合的评价标准不统一或在动态变化，那么往往需要对选择确定目标对象集合的规则不断进行调整，缺乏通用性。本申请实施例的技术方案，基于强化学习的序列决策算法来进行筛选，以目标对象集合在运行环境中实施收益来更新筛选策略。由此，使得筛选策略能够普遍适用于各种运行环境对各种集合筛选目标的学习优化，具有较好的通用性。

实施例二

图2A为本申请实施例二提供的一种对象集合筛选的实现方法的流程示意图。本实施例以前述实施例为基础，进一步详细介绍序列决策算法中对筛选策略的学习过程。

如图2A所示，该方法包括：

S210、获取初始对象集合；其中，所述初始对象集合中包括至少两个对象；

本实施例中，以对象为广告内容对象为例进行说明。初始对象集合中包括多个广告内容对象，需要筛选T个广告内容对象，T为大于或等于2的整数。筛选的目标广告内容对象集合，是经过筛选后能展现收益最大化的广告集合。

S220、基于强化学习的序列决策算法中的筛选策略，对所述初始对象集合执行对象筛选操作，以形成目标对象集合；

在上述操作中，每次对象筛选操作包括多步对象筛选动作，可以用MDP五元组(S,A,P,R,γ)来表示对象筛选操作。其中：

S是状态空间，第t步对象筛选动作所基于的状态s_t至少包括已选广告集合优选是还包括未选广告集合/>在未开始筛选时，已选广告集合/>为初始对象集合，未选广告集合/>为空。T为对象筛选动作的序号，1≤t≤T。由此，每个步状态即包括执行上一步对象筛选动作后的已选对象集合和未选对象集合，所述未选对象集合包括所述初始对象集合中除所述已选对象集合之外的其余对象。由此，使得在更新筛选策略时，不仅考虑了已选对象，还能考虑未选对象对收益的影响。

A是动作空间，模拟器(Agent)在状态s_t下执行一次对象筛选动作a_t，就是从中选择一个广告。

P是状态转移概率，P(s_t+1|s_t,a_t)表示在状态s_t下执行a_t后，进入状态s_t+1的概率。

R是收益(reward)函数，R(s_t,a_t)表示在状态s_t下执行对象筛选动作a_t后的奖励。对于不同的应用场景，收益的确实方式可以不同，例如可以分别获得每步对象筛选动作的收益，用于更新筛选策略，或累加后用于更新筛选策略。或者，如果对于广告筛选场景，则可以在最终形成目标广告内容集合后，再获取整个目标广告内容集合实施于运行环境中的总收益。对于获得总收益的情况，可选的视为各步对象筛选动作对收益的影响无衰减，则收益函数中的γ，作为收益函数中的衰减因子，可设置为恒为1。

可选的，基于强化学习的序列决策算法中的筛选策略，对所述初始对象集合执行的每步对象筛选动作，将筛选的对象添加至已选对象集合具体可包括：

S221、采用所述筛选策略，基于上一步对象筛选动作后的未选对象集合，计算各未选对象被选中概率；

即，对于当前第t步对象筛选动作，基于状态s_t执行对象筛选动作a_t。通过筛选策略可以计算状态s_t下，各个未选中对象被选中的概率。进而可根据概率来确定当前对象筛选动作该选中哪个对象。

所述筛选策略的模型可以选择各种机器学习模型，能够对不同对象进行分类或概率计算即可。优选可以为深度神经网络模型(DNN)，所述深度神经网络模型的输入数据为待筛选对象的至少一个属性值，输出数据为各个待筛选对象被选中的概率。

属性是表示对象的特点，与其他对象之间区别的内容。对于各种对象，可以选择各种维度，或者运行环境和筛选策略所关注的属性。例如，当对象为广告内容对象，所述广告内容对象的属性值包括下述至少一项的数值：广告内容属性、广告主属性、广告预估收益属性、广告展示成本属性以及广告间相关性属性。广告内容属性例如包括广告标题、广告产品领域类别、广告内容形式、广告文本内容、和广告图像内容等，经过量化确定为广告内容属性值。广告主属性是反映广告所属广告主的属性，例如可包括广告主的经营性质、广告主标识和广告主所属行业等。广告预估收益属性是反映该广告展示后可能收益的属性，通常，基于历史数据，可以对不同行业、不同内容、不同形式的广告进行收益预估，如可估算点击量、转化率等收益参数。广告展示成本属性是反映在广告展示后，广告主所应承担的成本数据。广告间相关性属性是反映广告之间关联的数据，例如，同一个产品可能有不同的广告，则这些广告同属于一个产品就是其相关性；或者，广告内容的相关性、广告主相关性等。由此，可以从多维度来表征对象。

广告的不同属性值，可以采用向量或矩阵的形式进行量化表达，并输入深度神经网络模型。深度神经网络模型包括多个隐层，隐层反映了输入和输出之间的变化，以权重参数连接输入和输出。通过多个隐层的计算可确定各未选中广告，在当前步对象筛选动作中被选中的概率。

S222、按照各所述未选对象被选中概率的概率分布，从所述未选对象中确定当前步对象筛选动作的选中对象；

基于筛选策略所确定的未选对象的被选中概率，进行对象选择的方式有多种。如果选择概率最大的对象，则表明已经默认该筛选策略的正确性。如果需要不断优化学习筛选策略，则需要从各个未选对象中选择非最大概率的对象，则可以通过收益来确定会不会其他选择才是最佳选择。由此，可以基于不同规则来确定选中对象，也由此，相当于基于筛选策略实施了多次对象筛选操作，得到了多个目标对象集合。

其中，可选的是，按照各所述未选对象被选中概率的概率分布，从所述未选对象中确定当前步对象筛选动作的选中对象。

例如，假设未选中对象的数量为3个，对象A、对象B和对象C，计算的被选中概率分别为10％、60％、30％。则按照被选中概率的概率分布，从三个对象中随机选择，则选中对象A的概率为10％，选中对象B的概率为60％，选中对象C的概率为30％。虽然对象A和C的被选中概率不是最大，但仍然有机会被选中。

S223、将所述选中对象添加至已选对象集合。

S230、获取将各所述目标对象集合在运行环境中实施而获得的收益；

S240、根据各所述目标对象集合之间的收益差异和所述筛选策略基于步状态确定筛选动作的概率，采用策略梯度上升方式，确定所述筛选策略的参数更新方向，并对所述筛选策略进行更新。

在本实施例的操作中，可选的是，基于策略梯度上升方式来进行筛选策略的参数更新。

在强化学习模型训练上，使用基于策略(Policy Based)方法可以是策略梯度类算法。具体来说：筛选策略的模型是DNN网络，DNN网络输入当前的状态信息，综合考虑CPM、相关性、多样性等因素，输出策略π_θ(a_t|s_t)，表示在状态s_t下选择对象筛选动作a_t的概率。

设概率p_θ(τ)是在策略π_θ(a_t|s_t)下生成决策路径τ＝(s₁，a₁，s₂，a₂，...，s_T，a_T)的概率，根据Markov性质可知：

如果优化目标是要最大化序列决策整体收益的期望J(θ)：

r(τ)是决策路径τ的整体收益。E是收益的期望函数。

通过随机梯度上升来优化上述目标。此目标的梯度如下，这个梯度即被称为策略梯度：

以上为理论推导的策略梯度。可得到策略梯度的估计值。即具体的，可采用下述公式确定所述筛选策略的参数更新值

其中，θ为所述筛选策略的模型参数，N为目标对象集合的数量，即N为大于等于2的整数。1≤i≤N，T为每个目标对象和所执行的对象筛选动作的步数，1≤t≤T，a_i，t为第i个目标对象集合中第t步的筛选动作，s_i，t为第i个目标对象集合中第t步所基于的步状态，π_θ(a_i，t|s_i，t)为基于第t步的步状态执行第t步的对象筛选动作的概率；为第i个目标对象集合的收益。

将此梯度以反向传播的方式应用于DNN模型网络的更新，即可实现筛选策略的学习。

如图2B所示，输入的初始对象集合包括AD1、……AD5。经过在状态State1的基础上执行第一步的对象筛选动作(Action1)，选中AD3；经过在状态State2的基础上执行第二步的对象筛选动作(Action2)，选中AD4；经过在状态State3的基础上执行第三步的对象筛选动作(Action3)，选中AD1。由此输出选中的目标对象集合，包括AD3、AD4和AD1。

本申请实施例的技术方案，通过DNN模型来确定对象的被选中概率，且能够进一步以策略梯度上升的方式，通过整体收益来确定筛选策略的参数更新方向，能够使得筛选策略能够迅速学习优化。

实施例三

图3A为本申请实施例三提供的一种对象集合筛选的实现方法的流程示意图。本实施例以前述实施例为基础，进一步提供了该方法适用于漏斗式广告检索系统中的实现方案。

漏斗式广告检索系统，是在搜索引擎进行搜索展现的过程中，基于用户输入的检索词确定初始广告集合，初始广告集合的广告数量通常很多，因此需要各个截断、去重环节进行广告子集优选工作，以优化多级漏斗的效率，提升系统收益。从前一级的广告集合中进行筛选的过程，就需要实施一次本实施例所提供的对象集合筛选。

如图3A所示，对象为广告内容对象，该方法包括：

S310、获取检索词；

S320、根据所述检索词确定匹配的广告内容对象，以形成所述初始对象集合。

本实施例中，获取的检索词可以是用户在搜索引起中输入的检索词。例如，用户输入检索词是“鲜花”，则基于“鲜花”可在广告内容对象数据库中匹配到很多与鲜花关联的广告，这些广告形成初始对象集合。对筛选策略进行学习更新所需要的初始对象集合和收益，均需要在运行环境中获得，可以是直接在线上运行环境中获取，也可以是基于线上运行数据确定的离线运行环境中获取。

为了形成多个目标对象集合，可以是对相同初始对象集合进行多次对象筛选操作，也可以是确定多个初始对象集合。对于两个以上的初始对象集合，可选是各自对应的检索词之间具有关联性；所述关联性的维度包括语义匹配度和/或预估收益匹配度。相当于形成了一个泛化的初始对象集合，在该泛化初始对象集合中所对应的检索词有多个，检索词之间具有关联性。目标对象集合的广告在展示时，展示收益不仅受到广告本身影响，也会受到同时展示的目标对象集合中其他广告的影响，因此，需要检索词具有关联性，这样不同初始对象集合所确定的目标对象集合，其展示收益理论上应该更趋于一致，可比性更强。检索词之间的关联性可体现在语义匹配度上，如“苹果”和“iPhone”的语义匹配度很高，确定具有关联性。关联性还可以体现在预估收益匹配度，即，不同检索词的广告展示收益可进行预估，对于预估收益接近的检索词可确定具有关联性。

S330、基于强化学习的序列决策算法中的筛选策略，对所述初始对象集合执行对象筛选操作，以形成目标对象集合；其中，所述初始对象集合和/或所述对象筛选操作的数量为两个以上，以形成至少两个所述目标对象集合；

S340、获取将各所述目标对象集合在运行环境中实施的收益；

S350、根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的筛选策略进行更新。

对于收益的获取，可以是在线获取，也可以是离线获取。

所谓在线获取，即获取各广告内容对象集合，在线上广告展示平台进行展示而获得的收益。该操作，即将筛选策略直接应用于线上系统，如线上广告展示平台。经过筛选确定的目标对象集合，即响应检索词进行实时的展示。而后根据用户的点击量等数据确定收益，来更新筛选策略。这种方案更为直接，但可能会短时影响线上的广告投放收益。

或者，可以采用离线获取方式，即获取各广告内容对象集合，在离线策略学习系统中计算而获得的预估收益。该操作，即复制了线上的流量来确定初始对象集合，经过筛选策略确定的目标对象集合并不实施于线上系统，而是经过离线策略学习系统模拟运行环境来评估收益，进而更新筛选策略。这样对线上的运行影响较小。

其中，所述收益可选的是至少包括点击收益以及下游调整收益。对于广告来说，其能够吸引用户点击、甚至购买商品就是其收益，因此可以用点击收益来反映广告展示收益。此外，还可包括下游调整收益。下游调整收益是对所展示广告的下游约束。例如可规定，在一次展示过程中，同一广告主的广告数量不能超过2个，如果目标对象集合中同一广告主的广告超过2个，则需要删除至符合要求。该删除操作相当于目标对象集合的不利收益，也就是在点击收益的基础上，需要进行不利的调整。具体的，各种收益数据和影响因素可通过设置收益函数来整体表达。

在本申请实施例中，在线点击收益的获取方式具体可以是：将所述目标对象集合作为所述检索词的响应结果，向用户展示，以获取各广告内容对象集合获得的用户点击量，并根据用户点击量计算点击收益。

离线点击收益的获取方式，具体是：获取各广告内容对象集合，在离线策略学习系统中计算而获得的预估收益包括：

将所述目标对象集合输入所述离线策略学习系统中的离线评估模型，基于所述离线评估模型，计算各广告内容对象集合获得的预估点击量，并根据所述预估点击量计算点击收益。

相应的，对筛选策略的更新可区分为线上策略更新和线下策略更新，即根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的筛选策略进行更新包括：

根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的线上广告展示平台的筛选策略进行更新；或

根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的离线策略学习系统的筛选策略进行更新。

如图3B所示，整体系统中包括在线系统和离线策略学习系统。在线系统用于搜索引擎响应搜索请求和展示广告，包括全流量环境，用来处理真实流量。全流量环境中可以设置模拟器(Agent)，以上线方式来学习筛选策略。

离线策略学习系统中包括广告系统、漏斗和模拟器(Agent)，作为强化学习模拟器(RL-Simulator)。训练器(Trainer)随机初始化筛选策略的参数θ；训练器将策略参数θ发布到模拟器(Agent)；检索请求q真实请求搜索引擎，产生初始广告候选集合D，交给Agent进行带随机探索的选择，选择得到目标广告集合D′，并将目标广告集合D′交给下游，同时记录Agent决策序列(MDP中的状态S与动作A)；下游基于目标广告集合D′进行广告展现得到奖励信息R(收益)；将检索请求q的Agent决策序列以及下游奖励信息，整合成强化学习训练样本<S,A,R>发给训练器；训练器根据训练样本进行训练，优化策略参数θ；使用评估器对Agent进行策略评估，将好的策略推至线上；若评估不佳，则继续训练。

上述过程中，广告系统从搜索引擎的入口复制了真实流量，得到初始对象集合。初始对象集合在漏斗(即广告的截断、筛选环节)中，采用Agent的筛选策略进行筛选目标对象集合。筛选后的目标对象集合，能够通过广告系统来预估收益。基于预估收益和筛选策略的决策序列，进行训练器来更新筛选策略。更新后的筛选策略，可以更新Agent中的模型。如果通过评估器验证是优化符合要求的，则可以发布模型，即投放至线上环境来采用。

上述系统中，离线评估模型就是用来确定奖励收益的模型，可以基于线上的历史数据来预估各个广告的点击量情况，作为预估收益。上述技术方案，可以采用离线方式来优化筛选策略，从而减少对线上系统的展示收益影响。

可选的，对于采用离线策略学习系统的情况，将离线系统中的筛选策略投放到线上系统的时机可以有多种。例如可以是维护人员来决定何时尝试投放，或定期尝试投放等。即根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的离线策略学习系统的筛选策略进行更新之后，还包括：

将所述离线策略学习系统中的筛选策略推送至线上广告展示平台中实施；

比较所述筛选策略在所述离线策略学习系统和所述线上广告展示平台实施后的收益差异；

根据收益差异的比较结果确定是否在所述线上广告展示平台继续实施所述筛选策略。

通过上述方案，如果筛选策略在线上广告展示平台实施后的收益优于离线策略学习系统的预估收益，则可以在线上保留该筛选策略。否则说明该筛选策略的学习还未达到较优状态，可拒绝执行。仍然采用之前的筛选策略在线上实施。由此，可以使得离线学习的筛选策略，能够在线上系统中尝试、验证其优化效果。

实施例四

图4为本申请实施例四提供的一种对象集合筛选的实现装置的结构示意图。如图4所示，该对象集合筛选的实现装置400包括：初始对象集合获取模块410、目标对象集合筛选模块420、收益获取模块430和筛选策略更新模块440。

其中，初始对象集合获取模块410，用于获取初始对象集合；其中，所述初始对象集合中包括至少两个对象；目标对象集合筛选模块420，用于基于强化学习的序列决策算法中的筛选策略，对所述初始对象集合执行对象筛选操作，以形成目标对象集合；其中，所述初始对象集合和/或所述对象筛选操作的数量为两个以上，以形成至少两个所述目标对象集合；收益获取模块430，用于获取将各所述目标对象集合在运行环境中实施而获得的收益；筛选策略更新模块440，用于根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的筛选策略进行更新。

本申请实施例的技术方案，基于强化学习的序列决策算法来进行筛选，以目标对象集合在运行环境中实施收益来更新筛选策略。由此，使得筛选策略能够普遍适用于各种运行环境对各种集合筛选目标的学习优化，具有较好的通用性。

上述装置中，可选的是，所述目标对象集合筛选模块具体用于：

基于强化学习的序列决策算法中的筛选策略，对所述初始对象集合逐步执行至少两次对象筛选动作，将筛选得到的对象逐步添加至已选对象集合，以形成所述目标对象集合。

上述装置中，可选的是，所述序列决策算法为马尔科夫序列决策算法。

上述装置中，可选的是，所述筛选策略更新模块具体用于：

根据各所述目标对象集合之间的收益差异和所述筛选策略基于步状态确定筛选动作的概率，采用策略梯度上升方式，确定所述筛选策略的参数更新方向，并对所述筛选策略进行更新。

上述装置中，可选的是，每个步状态包括执行上一步对象筛选动作后的已选对象集合和未选对象集合，所述未选对象集合包括所述初始对象集合中除所述已选对象集合之外的其余对象。

上述装置中，可选的是，所述筛选策略更新模块具体用于：

采用下述公式确定所述筛选策略的参数更新值

其中，θ为所述筛选策略的模型参数，N为所述目标对象集合的数量，1≤i≤N，T为每个目标对象集合所执行的对象筛选动作的步数，1≤t≤T，a_i,t为第i个目标对象集合中第t步的筛选动作，s_i,t为第i个目标对象集合中第t步所基于的步状态，π_θ(a_i,t|s_i,t)为基于第t步的步状态执行第t步的对象筛选动作的概率；为第i个所述目标对象集合的收益。

上述装置中，可选的是，所述目标对象集合筛选模块包括：

选中概率确定单元，用于采用所述筛选策略，基于上一步对象筛选动作后的未选对象集合，计算各未选对象被选中概率；

选中对象确定单元，用于按照各所述未选对象被选中概率的概率分布，从所述未选对象中确定当前步对象筛选动作的选中对象；

对象添加单元，用于将所述选中对象添加至已选对象集合。

上述装置中，可选的是，所述筛选策略的模型为深度神经网络模型，所述深度神经网络模型的输入数据为待筛选对象的至少一个属性值，输出数据为各个待筛选对象被选中的概率。

上述装置中，可选的是，所述对象为广告内容对象，所述广告内容对象的属性值包括下述至少一项的数值：广告内容属性、广告主属性、广告预估收益属性、广告展示成本属性以及广告间相关性属性。

上述装置中，可选的是，所述对象为广告内容对象，则初始对象集合获取模块包括：

检索词获取单元，用于获取检索词；

广告内容对象匹配单元，用于根据所述检索词确定匹配的广告内容对象，以形成所述初始对象集合。

上述装置中，可选的是，所述两个以上的初始对象集合各自对应的检索词之间具有关联性；所述关联性的维度包括语义匹配度和/或预估收益匹配度。

上述装置中，可选的是，所述收益获取模块包括：

线上收益获取单元，用于获取各广告内容对象集合，在线上广告展示平台进行展示而获得的收益；或

离线收益获取单元，用于获取各广告内容对象集合，在离线策略学习系统中计算而获得的预估收益；

其中，所述收益至少包括点击收益以及下游调整收益。

上述装置中，可选的是，所述离线收益获取单元具体用于：

上述装置中，可选的是，所述筛选策略更新模块包括：

在线策略更新单元，用于根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的线上广告展示平台的筛选策略进行更新；或

离线策略更新单元，用于根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的离线策略学习系统的筛选策略进行更新。

上述装置中，可选的是，还包括：

策略推送模块，用于根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的离线策略学习系统的筛选策略进行更新之后，将所述离线策略学习系统中的筛选策略推送至线上广告展示平台中实施；

收益比较模块，用于比较所述筛选策略在所述离线策略学习系统和所述线上广告展示平台实施后的收益差异；

策略确认模块，用于根据收益差异的比较结果确定是否在所述线上广告展示平台继续实施所述筛选策略。

本申请实施例所提供的对象集合筛选的实现装置，可用于执行本申请任意实施例所提供的对象集合筛选的实现方法，具备方法相应的功能和有益效果。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的对象集合筛选的实现方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的对象集合筛选的实现方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的对象集合筛选的实现方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的对象集合筛选的实现方法对应的程序指令/模块(例如，附图4所示的初始对象集合获取模块410、目标对象集合筛选模块420、收益获取模块430和筛选策略更新模块440)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的对象集合筛选的实现方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据对象集合筛选的实现方法的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至对象集合筛选的实现电子设备。上述网络的实例包括但不限于区块链网络、互联网、企业内部网、局域网、移动通信网及其组合。

对象集合筛选的实现方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与对象集合筛选的实现电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种对象集合筛选的实现方法，所述对象为广告内容对象，其特征在于，包括：

基于强化学习的序列决策算法中的筛选策略，对所述初始对象集合逐步执行至少两次对象筛选动作，将筛选得到的对象逐步添加至已选对象集合，以形成目标对象集合；其中，所述初始对象集合和/或所述对象筛选操作的数量为两个以上，以形成至少两个所述目标对象集合；

获取将各所述目标对象集合在运行环境中实施而获得的收益；根据各所述目标对象集合之间的收益差异和所述筛选策略基于步状态确定筛选动作的概率，采用策略梯度上升方式，确定所述筛选策略的参数更新方向，并对所述筛选策略进行更新。

2.根据权利要求1所述的方法，其特征在于，所述序列决策算法为马尔科夫序列决策算法。

3.根据权利要求1所述的方法，其特征在于，每个步状态包括执行上一步对象筛选动作后的已选对象集合和未选对象集合，所述未选对象集合包括所述初始对象集合中除所述已选对象集合之外的其余对象。

4.根据权利要求1所述的方法，其特征在于，根据各所述目标对象集合之间的收益差异和所述筛选策略基于步状态确定筛选动作的概率，采用策略梯度上升方式，确定所述筛选策略的参数更新方向包括：

采用下述公式确定所述筛选策略的参数更新值

其中，θ为所述筛选策略的模型参数，N为所述目标对象集合的数量，1≤i≤N，T为每个目标对象和所执行的对象筛选动作的步数，1≤t≤T，a_i,t为第i个目标对象集合中第t步的筛选动作，s_i,t为第i个目标对象集合中第t步所基于的步状态，π_θ(a_i,t|s_i,t)为基于第t步的步状态执行第t步的对象筛选动作的概率；为第i个所述目标对象集合的收益。

5.根据权利要求1所述的方法，其特征在于，基于强化学习的序列决策算法中的筛选策略，对所述初始对象集合逐步执行至少两次对象筛选动作，将筛选得到的对象逐步添加至已选对象集合，其中每一步包括：

采用所述筛选策略，基于上一步对象筛选动作后的未选对象集合，计算各未选对象被选中概率；

按照各所述未选对象被选中概率的概率分布，从所述未选对象中确定当前步对象筛选动作的选中对象；

将所述选中对象添加至已选对象集合。

6.根据权利要求1-5任一所述的方法，其特征在于，所述筛选策略的模型为深度神经网络模型，所述深度神经网络模型的输入数据为待筛选对象的至少一个属性值，输出数据为各个待筛选对象被选中的概率。

7.根据权利要求6所述的方法，其特征在于，所述对象为广告内容对象，所述广告内容对象的属性值包括下述至少一项的数值：广告内容属性、广告主属性、广告预估收益属性、广告展示成本属性以及广告间相关性属性。

8.根据权利要求1-5任一所述的方法，其特征在于，所述对象为广告内容对象，则获取初始对象集合包括：

获取检索词；

根据所述检索词确定匹配的广告内容对象，以形成所述初始对象集合。

9.根据权利要求8所述的方法，其特征在于，所述两个以上的初始对象集合各自对应的检索词之间具有关联性；所述关联性的维度包括语义匹配度和/或预估收益匹配度。

10.根据权利要求8所述的方法，其特征在于，获取将各所述目标对象集合在运行环境中实施而获得的收益包括：

获取各广告内容对象集合，在线上广告展示平台进行展示而获得的收益；或

获取各广告内容对象集合，在离线策略学习系统中计算而获得的预估收益；

其中，所述收益至少包括点击收益以及下游调整收益。

11.根据权利要求10所述的方法，其特征在于，获取各广告内容对象集合，在离线策略学习系统中计算而获得的预估收益包括：

12.根据权利要求10所述的方法，其特征在于，根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的筛选策略进行更新包括：

13.根据权利要求12所述的方法，其特征在于，根据各所述目标对象集合之间的收益差异，对形成各所述目标对象集合的离线策略学习系统的筛选策略进行更新之后，还包括：

14.一种对象集合筛选的实现装置，所述对象为广告内容对象，其特征在于，包括：

目标对象集合筛选模块，具体用于基于强化学习的序列决策算法中的筛选策略，对所述初始对象集合逐步执行至少两次对象筛选动作，将筛选得到的对象逐步添加至已选对象集合，以形成目标对象集合；其中，所述初始对象集合和/或所述对象筛选操作的数量为两个以上，以形成至少两个所述目标对象集合；

筛选策略更新模块，具体用于根据各所述目标对象集合之间的收益差异和所述筛选策略基于步状态确定筛选动作的概率，采用策略梯度上升方式，确定所述筛选策略的参数更新方向，并对所述筛选策略进行更新。

15.根据权利要求14所述的装置，其特征在于，所述序列决策算法为马尔科夫序列决策算法。

16.根据权利要求14所述的装置，其特征在于，每个步状态包括执行上一步对象筛选动作后的已选对象集合和未选对象集合，所述未选对象集合包括所述初始对象集合中除所述已选对象集合之外的其余对象。

17.根据权利要求14所述的装置，其特征在于，所述筛选策略更新模块具体用于：

采用下述公式确定所述筛选策略的参数更新值

18.根据权利要求14所述的装置，其特征在于，所述目标对象集合筛选模块包括：

对象添加单元，用于将所述选中对象添加至已选对象集合。

19.根据权利要求14-18任一所述的装置，其特征在于，所述筛选策略的模型为深度神经网络模型，所述深度神经网络模型的输入数据为待筛选对象的至少一个属性值，输出数据为各个待筛选对象被选中的概率。

20.根据权利要求19所述的装置，其特征在于，所述对象为广告内容对象，所述广告内容对象的属性值包括下述至少一项的数值：广告内容属性、广告主属性、广告预估收益属性、广告展示成本属性以及广告间相关性属性。

21.根据权利要求14-18任一所述的装置，其特征在于，所述对象为广告内容对象，则初始对象集合获取模块包括：

检索词获取单元，用于获取检索词；

22.根据权利要求21所述的装置，其特征在于，所述两个以上的初始对象集合各自对应的检索词之间具有关联性；所述关联性的维度包括语义匹配度和/或预估收益匹配度。

23.根据权利要求21所述的装置，其特征在于，所述收益获取模块包括：

其中，所述收益至少包括点击收益以及下游调整收益。

24.根据权利要求23所述的装置，其特征在于，所述离线收益获取单元具体用于：

25.根据权利要求23所述的装置，其特征在于，所述筛选策略更新模块包括：

26.根据权利要求25所述的装置，其特征在于，还包括：

27.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的对象集合筛选的实现方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-13中任一项所述的对象集合筛选的实现方法。