CN117033757A

CN117033757A - 信息选取方法、装置、电子设备及存储介质

Info

Publication number: CN117033757A
Application number: CN202211289741.7A
Authority: CN
Inventors: 徐国强; 尹存祥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-11-10

Abstract

本申请公开了一种信息选取方法、装置、电子设备及存储介质。本申请的实施例涉及人工智能的机器学习等技术，本发明实施例可应用于云技术、人工智能、智慧出行、辅助驾驶等各种场景。该方法包括：获取与每个目标信息的信息类别对应的目标选取模型；将数字化之后的向量输入每个目标选取模型，得到第一概率；将数字化之后的向量以及干预因子输入目标选取模型，得到第二概率；根据每个目标信息对应的第一概率以及第二概率，得到每个目标信息的增益；获取增益最高的目标信息作为最终选取信息。通过本申请的方法，根据第一概率以及第二概率求得的增益可以准确的反映目标用户对目标信息的需求度，进而使得最终选取的信息较准确，提高信息的利用率。

Description

信息选取方法、装置、电子设备及存储介质

技术领域

本申请涉及互联网信息处理技术领域，更具体地，涉及一种信息选取方法、装置、电子设备及存储介质。

背景技术

在信息推荐业务中，可以在多个候选信息中选取满足用户需求的推送信息，并向用户推送该推送信息，以便于用户直接浏览推送信息。候选信息可以包括新闻、小说、商品以及多媒体信息等。

目前，可以将用户的浏览记录以及个人信息等特征，输入训练获得的信息选取模型，由信息选取模型输出各候选信息被用户选取的概率，并筛选概率最高的信息作为推送给用户的推送信息。

但是，由于用户的浏览行为也并不能准确的反应用户对信息的需求度，导致信息利用效率较低，存在较大的资源浪费。

发明内容

有鉴于此，本申请实施例提出了一种信息选取方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种信息选取方法，方法包括：获取目标用户的用户特征、多个目标信息以及与每个目标信息的信息类别对应的目标选取模型；将目标用户的用户特征输入每个目标选取模型，得到每个目标选取模型各自对应的第一概率，第一概率用于表征每个目标选取模型各自对应信息类别的目标信息被目标用户选取的概率；将目标用户的用户特征以及干预因子输入目标选取模型，得到每个目标选取模型各自对应的第二概率，第二概率用于表征对每个目标选取模型各自对应信息类别的目标信息施加干预时，该目标信息被目标用户选取的概率，干预用于增加对该目标信息的曝光度；获取每个目标信息对应的第一概率以及第二概率，根据每个目标信息对应的第一概率以及第二概率，得到每个目标信息的增益；获取多个目标信息中增益最高的目标信息，作为对应目标用户的最终选取信息。

第二方面，本申请实施例提供了一种信息选取装置，装置包括：第一获取模块，用于获取目标用户的用户特征、多个目标信息以及与每个目标信息的信息类别对应的目标选取模型；第一获得模块，用于将目标用户的用户特征输入每个目标选取模型，得到每个目标选取模型各自对应的第一概率，第一概率用于表征每个目标选取模型各自对应信息类别的目标信息被目标用户选取的概率；第二获得模块，用于将目标用户的用户特征以及干预因子输入目标选取模型，得到每个目标选取模型各自对应的第二概率，第二概率用于表征对每个目标选取模型各自对应信息类别的目标信息施加干预时，该目标信息被目标用户选取的概率，干预用于增加对该目标信息的曝光度；第二获取模块，用于获取每个目标信息对应的第一概率以及第二概率，根据每个目标信息对应的第一概率以及第二概率，得到每个目标信息的增益；信息获取模块，用于获取多个目标信息中增益最高的目标信息，作为对应目标用户的最终选取信息。

可选地，第二获取模块，还用于计算每个目标信息对应的第二概率以及第一概率的差，作为每个目标信息的概率差；获取每个目标信息对应的预估点击率；计算每个目标信息对应的概率差以及预估点击率的乘积，作为每个目标信息的增益。

可选地，第二获得模块，还用于通过每个目标选取模型对目标用户的用户特征进行处理，得到对应每个目标选取模型的用户特征向量；通过每个目标选取模型对干预因子进行处理，得到对应每个目标选取模型的干预特征向量；对每个目标选取模型对应的用户特征向量以及干预特征向量进行注意力机制运算，得到每个目标选取模型对应的注意力运算结果；通过每个目标选取模型，对各自对应的用户特征向量以及注意力运算结果进行处理，得到每个目标选取模型输出的预测概率，作为每个目标选取模型各自对应的第二概率。

可选地，第二获得模块，还用于根据每个目标选取模型对应的用户特征向量，获取每个目标选取模型对应的键向量以及值向量；计算每个目标选取模型对应的键向量以及干预特征向量的乘积，作为每个目标选取模型对应的乘积结果；对每个目标选取模型对应的乘积结果进行规整处理，得到每个目标选取模型对应的规整结果；对每个目标选取模型对应的规整结果进行掩膜处理，得到每个目标选取模型对应的掩膜处理结果；对每个目标选取模型对应的掩膜处理结果进行归一化处理，得到每个目标选取模型对应的归一化结果；计算每个目标选取模型对应的归一化结果以及值向量的乘积，作为每个目标选取模型对应的注意力运算结果。

可选地，第二获得模块，还用于对每个目标选取模型对应的用户特征向量包括的多个维度的向量进行拼接处理，得到每个目标选取模型对应的拼接向量；计算每个目标选取模型对应的拼接向量以及注意力运算结果的和，作为每个目标选取模型各自对应的和向量；通过每个目标选取模型，对各自对应的和向量进行处理，得到每个目标选取模型输出的预测概率。

可选地，第二获得模块，还用于对每个目标选取模型对应的和向量进行归一化处理，得到每个目标选取模型对应的归一化向量；通过每个目标选取模型，对各自对应的归一化向量进行处理，得到每个目标选取模型输出的预测概率。

可选地，第二获得模块，还用于通过每个目标选取模型，对各自对应的归一化向量进行处理，得到每个目标选取模型对应的第一向量；对每个目标选取模型对应的第一向量以及干预向量进行拼接处理，得到每个目标选取模型对应的第二向量；通过每个目标选取模型，对各自对应的第二向量进行处理，得到每个目标选取模型输出的预测概率。

可选地，装置还包括显示模块；第一获取模块，还用于响应于目标用户针对目标页面的访问请求，获取目标用户的用户特征、多个目标信息以及与每个目标信息的信息类别对应的目标选取模型；显示模块，用于在目标页面显示最终选取信息。

可选地，第一获取模块，还用于根据每个目标信息的信息类别，在多个预置选取模型中确定每个目标信息各自对应的目标选取模型，多个预置选取模型分别对应不同的信息类别。

可选地，装置还包括训练模块，用于获取每个信息类别各自对应的训练样本，每个信息类别对应的训练样本包括第一用户的用户特征、第二用户的用户特征、该信息类别下的第一样本信息对应的第一选取结果以及该信息类别下的第二样本信息对应的第二选取结果，第一选取结果是指在未对第一样本信息施加干预时，第一用户针对第一样本信息的选取结果，第二选取结果是指在对第二样本信息施加干预时，第二用户针对第二样本信息的选取结果；根据每个信息类别对应的训练样本，对初始模型进行训练，得到每个信息类别对应的目标选取模型。

第三方面，本申请实施例提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有程序代码，其中，在程序代码被处理器运行时执行上述的方法。

第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述的方法。

本申请实施例提供的一种信息选取方法、装置、电子设备及存储介质，通过目标选取模型得到对应每个目标信息的第一概率以及第二概率，其中，第二概率中反映了对目标信息施加干预后目标信息被目标用户选取的概率，根据第一概率以及第二概率求得的增益可以准确的反映目标用户对目标信息的需求度，进而使得根据增益确定的最终选取信息与用户的需求匹配度较高，提高了信息利用效率，降低资源浪费。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例示出的应用场景的示意图；

图2示出了本申请一个实施例提出的一种信息选取方法的流程图；

图3示出了本申请又一个实施例提出的一种信息选取方法的流程图；

图4示出了本申请实施例中一种目标选取模型的结构示意图；

图5示出了本申请实施例中又一种目标选取模型的结构示意图；

图6示出了本申请再一个实施例提出的一种信息选取方法的流程图；

图7示出了本申请实施例中再一种目标选取模型的结构示意图；

图8示出了本申请再一个实施例提出的一种信息选取方法的流程图；

图9示出了本申请实施例中一种目标页面的示意图；

图10示出了本申请再一个实施例提出的一种信息选取方法的流程图；

图11示出了本申请实施例中预置选取模型的训练过程示意图；

图12示出了本申请实施例中信息选取流程的示意图；

图13示出了本申请实施例中再一种目标选取模型的结构示意图；

图14示出了本申请一个实施例提出的一种信息选取装置的框图；

图15示出了用于执行根据本申请实施例的信息选取方法的电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。根据本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请公开了一种信息选取方法、装置、电子设备及存储介质，涉及人工智能的机器学习等技术。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

强化学习(Reinforcement Learning，RL),又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process,MDP)。按给定条件，强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL)，以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。深度学习模型可以在强化学习中得到使用，形成深度强化学习。

每日活跃用户数量(Daily Active Use，简称dau)用于反映互联网应用程序、网站等运营状况和用户规模的一种数据。

业务dau特指在包含多个子业务的互联网应用程序(例如移动端的APP)中具体子业务的每日活跃用户数量。例如浏览器中含有信息流资讯、免费小说、搜索、文件、工具等业务，这些业务的每日活跃用户共同组成了浏览器dau。

业务渗透率是指业务dau相对应用程序端的dau的占比，反映了不同子业务在互联网应用程序总体用户中的渗透情况。

资源位是指用户在使用互联网应用程序过程中，应用程序的特定页面中包含的可供展示推荐的信息的位置。例如用户在使用浏览器浏览图片的时候，可以通过底浏览器的资源位为用户展示推荐的小说。

随机实验是指将受试人群随机划分为干预组和控制组，对干预组人群施加干预，控制组人群不施加干预。基于随机实验产生的随机数据即可说明干预对人群整体的因果效应。

因果效应是指比较当一项干预发生时的观测结果以及这项干预不发生时的观测结果，如果两个观测结果不同，称这项干预对于结果有因果效应，干预和不干预下的观测结果的差值为因果效应的大小。

Response模型是指直接根据用户特征建模用户的响应。例如基于用户的历史数据信息建模用户是否会点击推荐的信息，点击即是用户的响应。

需要说明的是，在本申请实施例中，用户的浏览记录、点击记录、购买记录、收藏记录以及年纪等用户特征的获取均需要获得用户许可或同意，且用户的浏览记录、点击记录、购买记录、收藏记录以及年纪等用户特征的收集、使用、处理和存储均需要符合所在地区的规定。

如图1所示，本申请实施例所适用的应用场景包括终端20和服务端10，终端20和服务端10通过有线网络或者无线网络通信连接。终端20可以是智能手机、平板电脑、笔记本电脑、台式电脑、智能家电、车载终端、飞行器、可穿戴设备终端、虚拟现实设备以及其他可以进行页面展示的终端设备，或者运行其他可以调用页面展示应用的其他应用(例如即时通讯应用、购物应用、搜索应用、游戏应用、论坛应用、地图交通应用等)。

服务端10可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务端10可以用于为终端20运行的应用提供服务。

其中，终端20可以向服务端10发送用户的展示需求，由此，服务端10可以根据该用户的展示需求反馈对应的展示页面，或者由服务端10直接发送展示页面给终端20，或者服务端10根据与终端20绑定的用户信息发送用户定制的展示页面，或者与用户兴趣相关的展示页面。

终端20可以接收目标用户的访问请求，并将访问请求发送至服务10，由服务端10响应于访问请求，基于目标用户的用户特征以及干预因子，通过目标选取模型，确定多个目标信息各自对应的第一概率以及第二概率，并根据每个目标信息的第一概率以及第二概率，确定每个目标信息的增益，然后在多个目标信息中筛选最终选取信息，再由服务端10将最终选取信息发送至终端10，以便于终端20向目标用户展示最终选取信息。

其中，目标用户可以是指最终选取信息所针对的用户，例如目标用户可以是小孩子、老人或青年人，目标用户也可以是职场白领、医生或程序员等。目标用户的用户特征可以包括目标用户的浏览记录、点击记录、购买记录、收藏记录以及年纪等信息。

目标信息可以是指候选的信息，目标信息可以是任何可进行选取的实体物品、虚拟物品或多媒体信息等，例如，目标信息可以是实体商品、虚拟商品以、新闻、搜索信息以及小说等。

在另一实施方式中，目标选取模型预置在终端20中，终端20可以接收目标用户的访问请求，并响应于访问请求，基于目标用户的用户特征以及干预因子，通过目标选取模型，确定多个目标信息各自对应的第一概率以及第二概率，并根据每个目标信息的第一概率以及第二概率，确定每个目标信息的增益，然后在多个目标信息中筛选最终选取信息，最后，终端20向目标用户展示最终选取信息。

为了方便表述，下述各个实施例中，以信息选取由电子设备执行为例进行说明。

请参阅图2，图2示出了本申请一个实施例提出的一种信息选取方法的流程图，该方法可以应用于电子设备，电子设备可以是图1中的服务端10，该方法包括：

S110、获取目标用户的用户特征、多个目标信息以及与每个目标信息的信息类别对应的目标选取模型。

在本实施例中，目标信息可以是指小说、资讯信息和搜索信息等，例如，一个小说可以作为一个目标信息，一个资讯信息可以作为一个目标信息，一个搜索信息可以作为一个目标信息。目标用户的用户特征参照上文，不再赘述。

不同目标信息可以对应有不同信息类别，信息类别可以包括小说类别、资讯类别以及搜索类别，不同的信息类别对应有各自的目标选取模型。例如，一个小说对应的信息类别为小说类别，对应的目标选取模型为小说类别的目标选取模型，一个资讯信息对应的信息类别为资讯类别，对应的目标选取模型为资讯类别的目标选取模型。

作为一种实施方式，可以根据每个目标信息的信息类别，在多个预置选取模型中确定每个目标信息各自对应的目标选取模型，多个预置选取模型分别对应不同的信息类别。

电子设备可以存储多个预置选取模型，每个信息类别对应一个预置选取模型，针对目标信息，获取该目标信息的信息类别，并将与该目标信息的信息类别对应的预置选取模型作为该目标信息的目标选取模型。不同的目标信息对应的目标选取模型可能不同。

例如，预置选取模型包括搜索类别对应的预置选取模型a1、小说类别对应的预置选取模型a2以及资讯类别对应的预置选取模型a3，目标信息包括1个小说b和1个资讯信息c，则确定出与目标信息b对应的目标选取模型为a1，确定出与目标表信息c对应的目标选取模型为a3。

S120、将目标用户的用户特征输入每个目标选取模型，得到每个目标选取模型各自对应的第一概率，第一概率用于表征每个目标选取模型各自对应信息类别的目标信息被目标用户选取的概率。

可以将目标用户的用户特征数字化为向量，并将用户特征数字化之后的向量输入每个目标选取模型，得到每个目标选取模型输出的预测概率，作为每个目标选取模型对应的第一概率。

针对同一个信息类别下的目标信息，通过该信息类别的目标选取模型确定该信息类别下的各个目标信息被目标用户选取的概率均为第一概率。例如，小说类别对应的目标信息为10个小说，通过小说类别对应的目标选取模型对目标用户的用户特征进行处理，该小说类别对应的目标选取模型输出的预测概率作为第一概率，该10个小说被目标用户选取的概率均为该小说类别对应的目标选取模型输出的第一概率。

S130、将目标用户的用户特征以及干预因子输入目标选取模型，得到每个目标选取模型各自对应的第二概率，第二概率用于表征对每个目标选取模型各自对应信息类别的目标信息施加干预时，该目标信息被目标用户选取的概率，干预用于增加对该目标信息的曝光度。

可以将目标用户的用户特征数字化为向量，并将用户特征数字化之后的向量以及干预因子输入每个目标选取模型，得到每个目标选取模型输出的预测概率，作为每个目标选取模型对应的第二概率。

针对同一个信息类别下的目标信息，通过该信息类别的目标选取模型确定该信息类别下的各个目标信息被目标用户选取的概率均为第二概率。例如，资讯类别对应的目标信息为5个资讯，通过资讯类别对应的目标选取模型对目标用户的用户特征以及干预因子进行处理，该资讯类别对应的目标选取模型输出的预测概率作为第二概率，该5个资讯被目标用户选取的概率均为该资讯类别对应的目标选取模型输出的第二概率。

干预是指施加给受试用户的某些操作(例如服用某种药物、发放优惠券以及发送营销邮件等)，在本实施例中，干预是指将目标信息下发给目标用户，从而增加目标信息的曝光度。

在本实施例中，干预因子可以是指1，将目标用户的用户特征以及干预因子输入目标选取模型时，表征对该目标选取模型对应的目标信息施加了干预，此时，得到的第二概率表征对每个目标选取模型各自对应信息类别的目标信息施加干预时，该目标信息被目标用户选取的概率。

在一些可能实施方式中，还可以将用户特征数字化的向量以及非干预因子输入每个目标选取模型，得到每个目标选取模型输出的第一概率，其中，非干预因子可以为0。将目标用户的用户特征以及非干预因子输入目标选取模型时，针对该目标选取模型对应的目标信息未施加干预，此时，得到的第一概率表征对每个目标选取模型各自对应信息类别的目标信息未施加干预时，该目标信息被目标用户选取的概率。

作为一种实施方式，目标选取模型的训练方法(预置选取模型的训练方法参照目标选取模型的训练方法，不再赘述)，包括：获取每个信息类别各自对应的训练样本，每个信息类别对应的训练样本包括第一用户的用户特征、第二用户的用户特征、该信息类别下的第一样本信息对应的第一选取结果以及该信息类别下的第二样本信息对应的第二选取结果，第一选取结果是指在未对第一样本信息施加干预时，第一用户针对第一样本信息的选取结果，第二选取结果是指在对第二样本信息施加干预时，第二用户针对第二样本信息的选取结果；根据每个信息类别对应的训练样本，对初始模型进行训练，得到每个信息类别对应的目标选取模型。

针对每个信息类别，该信息类别对应的训练样本可包括第一用户的用户特征、第二用户的用户特征、该信息类别下的多个第一样本信息各自对应的第一选取结果以及该信息类别下的多个第二样本信息各自对应的第二选取结果；可以是将第一用户的用户特征、非干预因子以及该信息类别下的多个第一样本信息各自对应的第一选取结果作为非干预训练样本，对初始模型进行训练；同时，将第二用户的用户特征、干预因子以及该信息类别下的多个第二样本信息各自对应的第二选取结果作为干预训练样本，对初始模型进行训练；当非干预训练样本以及干预训练样本均完成训练时，将初始模型作为该信息类别对应的目标选取模型。

可以是将第一用户的用户特征以及非干预因子，输入初始模型，得到初始模型输出的多个第一样本信息各自对应的被第一用户选取的概率，根据多个第一样本信息各自对应的被第一用户选取的概率以及多个第一样本信息各自对应的第一选取结果，确定损失值，通过确定的损失值对初始模型训练，从而实现通过非干预训练样本对初始模型训练。同时，也可以是将第二用户的用户特征以及干预因子，输入初始模型，得到初始模型输出的多个第二样本信息各自对应的被第二用户选取的概率，根据多个第二样本信息各自对应的被第二用户选取的概率以及多个第二样本信息各自对应的第二选取结果，确定损失值，通过确定的损失值对初始模型训练，从而实现通过干预训练样本对初始模型训练。

在本实施例中，训练获得的目标选取模型是一种Uplift模型，Uplift模型是指基于随机实验对具有因果效应的事件，进行建模后获得的模型，通过随机实验得到不同受试人群在干预和不干预下的表现，并以此来训练模型，以通过训练后的模型预测用户受到干预后的变化(也即用户被干预后的因果效应)。例如，一些特定的场景(例如营销场景)，关注出的重点不仅是用户的响应，而是用户受到某种干预后带来的响应变化，例如发放优惠券后用户的购买概率增加了多少，显然，这类问题无法通过Response模型解决，而Uplift模型恰好可以解决这个问题。

可以理解的是，通过本申请的目标选取模型，可以准确的预测出目标信息被施加干预前后，目标表信息被目标用户选取的概率的变化(第一概率与第二概率的差距)，从而可以根据该概率的变化，确定是否对目标信息进行推送。

S140、获取每个目标信息对应的第一概率以及第二概率，根据每个目标信息对应的第一概率以及第二概率，得到每个目标信息的增益。

将目标用户的用户特征输入每个目标选取模型，得到每个目标选取模型各自对应的第一概率，并将目标用户的用户特征以及干预因子输入目标选取模型，得到每个目标选取模型各自对应的第二概率。针对每个目标信息，获取与该目标信息的信息类别对应的目标选取模型输出的第一概率和第二概率，作为该目标信息对应的第一概率以及第二概率。

作为一种实施方式，根据每个目标信息对应的第一概率以及第二概率，确定每个目标信息的增益的方法可以包括：计算每个目标信息对应的第二概率以及第一概率的差，作为每个目标信息的概率差；获取每个目标信息对应的预估点击率；计算每个目标信息对应的概率差以及预估点击率的乘积，作为每个目标信息的增益。

如上，每个目标信息的增益的计算过程表述参照公式一，公式一如下：

Z_i＝argmax_i(ctr_i*uplift_i) (一)

其中，Z_i为目标信息i的增益，ctr_i为目标信息的预估点击率，uplift_i为目标信息i的概率差。

其中，目标信息i的概率差的计算公式可以参照公式二，公式二如下：

uplift_i＝E(Y|T＝1,X＝x_i)-E(Y|T＝1,X＝x_i) (二)

其中，E(Y|T＝1,X＝x_i)为目标信息i的第二概率，E(Y|T＝0,X＝x_i)为目标信息的第一概率。T＝1表示干预因子为1，T＝0表示非干预因子为0。

每个目标信息对应的预估点击率可以是从服务器(例如图1中的服务端10)直接获取的。服务器可以根据预置的算法，确定各个目标信息的预估点击率，例如，预置的算法可以是对目标信息的历史点几率求平均，并将该平均点击率作为预置点击率；预置的算法还可以是线性插值法，通过线性差值法和历史点记率，确定预估点击率。

在本实施例，根据每个目标信息的第一概率和第二概率，确定每个目标信息的增益，由于第二概率准确的反映了对目标信息施加干预后目标信息被用户选取的概率，使得每个目标信息的增益可以准确的反映对目标信息被用户需求的程度。当一个目标信息的增益越高，目标用户针对该目标信息的需求度越高。

S150、获取多个目标信息中增益最高的目标信息，作为对应目标用户的最终选取信息。

得到多个目标信息各自的增益之后，在各个目标信息中选取增益最高的一个目标信息作为最终选取信息，最终选取信息的增益是最高的，最终选取信息为目标用户最可能关注的目标信息。

作为一种实施方式，得到最终选取信息后，可以将最终选取信息展示给目标用户。展示该最终选取信息之后，该最终选取信息被目标用户选取的概率是所有的目标信息中最高。

在本实施例中，通过目标选取模型得到对应每个目标信息的第一概率以及第二概率，其中，第二概率中反映了对目标信息施加干预后目标信息被目标用户选取的概率，根据第一概率以及第二概率求得的增益可以准确的反映目标用户对目标信息的需求度，进而使得根据增益确定的最终选取信息与用户的需求匹配度较高，提高了信息利用效率，降低资源浪费。

同时，在提高最终选取信息准确性的同时，可以提高dau增量以及业务渗透率。因而，相较于根据现有的Response模型，通过本实施例的目标选取模型获得的最终选取信息更加容易被用户响应。

请参阅图3，图3示出了本申请又一个实施例提出的一种信息选取方法的流程图，该方法可以应用于电子设备，电子设备可以是图1中的服务端10，该方法包括：

S210、获取目标用户的用户特征、多个目标信息以及与每个目标信息的信息类别对应的目标选取模型。

S220、将目标用户的用户特征输入每个目标选取模型，得到每个目标选取模型各自对应的第一概率，第一概率用于表征每个目标选取模型各自对应信息类别的目标信息被目标用户选取的概率。

其中，S210-S220的描述参照上文S110-S120的描述，此处不再赘述。

S230、通过每个目标选取模型对目标用户的用户特征进行处理，得到对应每个目标选取模型的用户特征向量；并通过每个目标选取模型对干预因子进行处理，得到对应每个目标选取模型的干预特征向量。

每个目标选取模型可以包括特征表示模块，特征表示模块用于把目标用户的用户特征以及干预因子转换为向量的形式，得到每个目标选取模型各自对应的用户特征向量以及干预特征向量。其中，干预因子可以是指1。

如图4所示，目标选取模型包括特征表示模块，特征表示模块包括用户特征单元以及因子单元，特征表示模块中的用户特征单元以及因子单元可以均是由神经网络的输入层构成的，以在将目标用户的用户特征(包括d维特征，d为非零自然数，分别表示为X¹、X²、…、X^d)输入用户特征单元后，得到用户特征向量，以及将干预因子输入因子单元后，得到干预特征向量。

S240、对每个目标选取模型对应的用户特征向量以及干预特征向量进行注意力机制运算，得到每个目标选取模型对应的注意力运算结果。

对每个目标选取模型对应的用户特征向量以及干预特征向量进行注意力机制运算，得到注意力运算结果。通过注意力机制运算，可以将用户特征向量以及干预特征向量较好的融合，从而使得得到的注意力运算结果准确的反映目标信息被施加干预后对应的状态，从而可以有效的提高根据注意力运算结果的得到的第二概率的准确率。

如图4所示，目标选取模型还包括注意力机制模块，通过注意力机制模块对用户特征向量以及干预特征向量进行注意力机制运算，得到目标选取模型对应的注意力运算结果。

作为一种实施方式，S240可以包括：根据每个目标选取模型对应的用户特征向量，获取每个目标选取模型对应的键向量以及值向量；计算每个目标选取模型对应的键向量以及干预特征向量的乘积，作为每个目标选取模型对应的乘积结果；对每个目标选取模型对应的乘积结果进行规整处理，得到每个目标选取模型对应的规整结果；对每个目标选取模型对应的规整结果进行掩膜处理，得到每个目标选取模型对应的掩膜处理结果；对每个目标选取模型对应的掩膜处理结果进行归一化处理，得到每个目标选取模型对应的归一化结果；计算每个目标选取模型对应的归一化结果以及值向量的乘积，作为每个目标选取模型对应的注意力运算结果。

如图5所示，目标选取模型的注意力机制模块可以包括：第一乘积单元，用于计算目标选取模型对应的键向量以及干预特征向量的乘积，作为目标选取模型对应的乘积结果；规整单元，用于对目标选取模型对应的乘积结果进行规整处理，得到目标选取模型对应的规整结果；掩膜单元，用于对目标选取模型对应的规整结果进行掩膜处理，得到目标选取模型对应的掩膜处理结果；第一归一单元，用于对目标选取模型对应的掩膜处理结果进行归一化处理，得到目标选取模型对应的归一化结果；第二乘积单元，用于计算目标选取模型对应的归一化结果以及值向量的乘积，作为目标选取模型对应的注意力运算结果。其中，第一归一单元可以是根据softmax激活函数对目标选取模型对应的规整结果进行掩膜处理，得到目标选取模型对应的掩膜处理结果。

如上，每个目标选取模型对应的注意力运算结果的计算过程表述参照公式三，公式三如下：

其中，Attention(Q,K,V)为注意力运算结果，d_k为键向量的维度，Q为干预特征向量，K为键向量，V为值向量。

S250、通过每个目标选取模型，对各自对应的用户特征向量以及注意力运算结果进行处理，得到每个目标选取模型输出的预测概率，作为每个目标选取模型各自对应的第二概率。

针对每个目标选取模型，得到对应的注意力运算结果以及用户特征向量之后，可以对每个目标选取模型对应的注意力运算结果以及用户特征向量进行求和，并通过目标选取模型对求和后的结果进行处理，得到输出的第二概率。

如图4所示和图5，目标选取模型还包括输出预测模块，通过注意力机制模块对标选取模型对应的用户特征向量以及注意力运算结果进行求和，得到求和结果，再通过输出预测模块对求和结果进行处理，得到目标选取模型输出的第二概率。

S260、获取每个目标信息对应的第一概率以及第二概率，根据每个目标信息对应的第一概率以及第二概率，得到每个目标信息的增益。

S270、获取多个目标信息中增益最高的目标信息，作为对应目标用户的最终选取信息。

其中，S260-S270的描述参照上述S140-S150的描述，此处不再赘述。

在本实施例中，对每个目标选取模型对应的用户特征向量以及干预特征向量进行注意力机制运算，得到注意力运算结果，通过注意力机制运算，可以将用户特征向量以及干预特征向量进行较好的融合，从而使得得到的注意力运算结果准确的反映目标信息被施加干预后对应的状态，从而可以有效的提高根据注意力运算结果的得到的第二概率的准确率。

请参阅图6，图6示出了本申请再一个实施例提出的一种信息选取方法的流程图，该方法可以应用于电子设备，电子设备可以是图1中的服务端10，该方法包括：

S310、获取目标用户的用户特征、多个目标信息以及与每个目标信息的信息类别对应的目标选取模型。

S320、将目标用户的用户特征输入每个目标选取模型，得到每个目标选取模型各自对应的第一概率，第一概率用于表征每个目标选取模型各自对应信息类别的目标信息被目标用户选取的概率。

S330、通过每个目标选取模型对目标用户的用户特征进行处理，得到对应每个目标选取模型的用户特征向量；并通过每个目标选取模型对干预因子进行处理，得到对应每个目标选取模型的干预特征向量。

S340、对每个目标选取模型对应的用户特征向量以及干预特征向量进行注意力机制运算，得到每个目标选取模型对应的注意力运算结果。

其中，S310-S340的描述参照上文S210-S240的描述，此处不再赘述。

S350、对每个目标选取模型对应的用户特征向量包括的多个维度的向量进行拼接处理，得到每个目标选取模型对应的拼接向量；计算每个目标选取模型对应的拼接向量以及注意力运算结果的和，作为每个目标选取模型各自对应的和向量。

通过每个目标选取模型对输入的多个维度的用户特征进行处理，得到每个目标选取模型对应的多个维度的向量，该多个维度的向量作为该目标选取模型对应的用户特征向量。通过每个目标选取模型，对用户特征向量包括的多个维度的向量进行拼接处理，得到一个拼接后的向量，作为每个目标选取模型对应的拼接向量。

得到每个目标选取模型对应的拼接向量以及注意力运算结果之后，将每个目标选取模型的拼接向量以及注意力运算结果进行求和，得到每个目标选取模型各自对应的和向量。

如图7所示，注意力机制模块还可以包括第一拼接单元和求和单元，第一拼接单元用于对每个目标选取模型对应的用户特征向量包括的多个维度的向量进行拼接处理，得到每个目标选取模型对应的拼接向量；求和单元用于计算每个目标选取模型对应的拼接向量以及注意力运算结果的和，作为每个目标选取模型各自对应的和向量。

S360、通过每个目标选取模型，对各自对应的和向量进行处理，得到每个目标选取模型输出的预测概率，作为每个目标选取模型各自对应的第二概率。

得到和向量之后，通过每个目标选取模型，对各自对应的和向量进行处理，得到每个目标选取模型输出的预测概率，作为每个目标选取模型各自对应的第二概率。

作为一种实施方式，S360可以包括：对每个目标选取模型对应的和向量进行归一化处理，得到每个目标选取模型对应的归一化向量；通过每个目标选取模型，对各自对应的归一化向量进行处理，得到每个目标选取模型输出的预测概率，作为每个目标选取模型各自对应的第二概率。

如图7所示，注意力机制模块还可以包括第二归一单元，通过第二归一单元对目标选取模型对应的和向量进行归一化处理，得到每个目标选取模型对应的归一化向量，在通过目标选取模型中的输出预测模块对归一化向量进行处理，得到目标选取模型输出的预测概率。

通过对和向量进行归一化处理，减少了数据的数值大小，从而提高目标选取模型对和向量的处理效率，从而提高了预测概率的获得效率。

在另一种可能的实现方式中，S360还可以包括：对每个目标选取模型对应的和向量进行归一化处理，得到每个目标选取模型对应的归一化向量；通过每个目标选取模型，对各自对应的归一化向量进行处理，得到每个目标选取模型对应的第一向量；对每个目标选取模型对应的第一向量以及干预向量进行拼接处理，得到每个目标选取模型对应的第二向量；通过每个目标选取模型，对各自对应的第二向量进行处理，得到每个目标选取模型输出的预测概率，作为每个目标选取模型各自对应的第二概率。

可以是通过目标选取模型中的第一全连接网络对归一化向量进行处理，得到处理后的第一向量，再对目标选取模型对应的第一向量以及干预向量进行拼接处理，得到目标选取模型对应的第二向量，然后依次通过目标选取模型中的第二全连接网络以及第三全连接网络，对目标选取模型对应的第二向量进行处理，得到输出结果，并通过目标选取模型中的sigmoid激活函数对输出结果进行处理，得到第二概率。

如图7所示，注意力机制模块包括第一全连接网络，输出预测模块包括：第二拼接单元、第二全连接网络、第三全连接网络以及激活函数。

通过第一全连接网络对归一化向量进行处理，得到第一向量，并通过第二拼接单元对第一向量以及干预特征向量进行拼接处理，得到第二向量；再将第二向量输入第二全连接网络，并将第二全连接网络输出的结果输入第三全连接网络，得到第三全连接网络输出的输出结果，然后再通过激活函数sigmoid对输出结果进行处理，得到第二概率。

S370、获取每个目标信息对应的第一概率以及第二概率，根据每个目标信息对应的第一概率以及第二概率，得到每个目标信息的增益。

S380、获取多个目标信息中增益最高的目标信息，作为对应目标用户的最终选取信息。

其中，S370-S380的描述参照上文S140-S150的描述，此处不再赘述。

在本实施例中，对用户特征向量包括的多个维度的向量进行拼接处理，并将拼接处理后的拼接向量与注意力运算结果求和，在对求和结果对应的和向量进行处理，得到输出的预测概率，作为第二概率，和向量融合了户特征向量包括的多个维度的向量以及注意力运算结果，使得和向量更准确的反映了施加干预后，目标信息被目标用户选取的概率，从而提高了第二概率的准确性。

请参阅图8，图8示出了本申请再一个实施例提出的一种信息选取方法的流程图，该方法可以应用于电子设备，电子设备可以是图1中的服务端10，该方法包括：

S410、响应于目标用户针对目标页面的访问请求，获取目标用户的用户特征、多个目标信息以及与每个目标信息的信息类别对应的目标选取模型。

在本申请中，目标页面可以是指终端(例如图1中的20)的应用程序中的某个页面，例如，目标页面可以是聊天软件的信息推荐页面或文件管理软件的主页面等。

当目标用户向终端发送打开目标页面的操作时，根据目标用户打开目标页面的操作，获取到针对目标页面的访问请求。例如，聊天软件d的推荐页面为目标页面，目标用户通过聊天软件d的聊天页面进行聊天，然后目标用户退出聊天页面，打开推荐页面，此时电子设备根据目标用户打开推荐页面的操作，得到访问请求。

S420、将目标用户的用户特征输入每个目标选取模型，得到每个目标选取模型各自对应的第一概率，第一概率用于表征每个目标选取模型各自对应信息类别的目标信息被目标用户选取的概率。

S430、将目标用户的用户特征以及干预因子输入目标选取模型，得到每个目标选取模型各自对应的第二概率，第二概率用于表征对每个目标选取模型各自对应信息类别的目标信息施加干预时，该目标信息被目标用户选取的概率，干预用于增加对该目标信息的曝光度。

S440、获取每个目标信息对应的第一概率以及第二概率，根据每个目标信息对应的第一概率以及第二概率，得到每个目标信息的增益。

S450、获取多个目标信息中增益最高的目标信息，作为对应目标用户的最终选取信息。

其中，S420-S450的描述参照上文S120-S150的描述，此处不再赘述。

S460、在目标页面显示最终选取信息。

在获取到最终选取信息之后，在终端的目标页面显示最终选取信息。

作为一种实施方式，可以由目标用户通过终端发送访问请求，并由终端将访问请求发送至服务器，服务器作为执行主体，根据访问请求，获取最终选取信息，再由服务器返回最终选取信息给终端，然后由终端输出最终选取信息。

可选地，目标页面可以包括至少一个展示控件(也可以叫做资源位，资源位是指用户在使用互联网应用软件过程中，特定页面中包含的可供展示推荐内容的位置。例如用户在使用应用软件浏览图片的时候，可以通过资源位为用户展示推荐内容)，可以通过目标页面中的展示控件显示最终选取信息。如图9所示，目标页面为文件管理软件的主页面，在文件管理软件的主页面中包括一个展示控件910，通过展示控件输出最终选取信息，最终选取信息为女性跳舞视频。

如图9所示，展示控件还包括喜欢按钮和换一换按钮，目标用户可以通过点击喜欢按钮将最终选取信息收藏的喜欢的信息列表。目标用户也可以点击换一换按钮，来触发新的访问请求。

在本实施例中，通过目标页面发送访问请求，并在目标页面输出最终选取信息，便于目标用户通过目标页面直接观看展示信息，提高了用户的浏览体验。

请参阅图10，图10示出了本申请再一个实施例提出的一种信息选取方法的流程图，该方法可以应用于电子设备，电子设备可以是图1中的服务端10，该方法包括：

S510、获取目标用户的用户特征、多个目标信息以及与每个目标信息的信息类别对应的目标选取模型。

S520、通过每个目标选取模型对目标用户的用户特征进行处理，得到对应每个目标选取模型的用户特征向量；通过每个目标选取模型对非干预因子进行处理，得到对应每个目标选取模型的非干预特征向量。

每个目标选取模型可以包括特征表示模块，特征表示模块用于把目标用户的用户特征以及非干预因子转换为向量的形式，得到每个目标选取模型各自对应的用户特征向量以及非干预特征向量。其中，非干预因子可以是指0。

S530、根据每个目标选取模型对应的用户特征向量，获取每个目标选取模型对应的键向量以及值向量；计算每个目标选取模型对应的键向量以及非干预特征向量的乘积，作为每个目标选取模型对应的非干预乘积结果；对每个目标选取模型对应的非干预乘积结果进行规整处理，得到每个目标选取模型对应的非干预规整结果；对每个目标选取模型对应的非干预规整结果进行掩膜处理，得到每个目标选取模型对应的非干预掩膜处理结果；对每个目标选取模型对应的非干预掩膜处理结果进行归一化处理，得到每个目标选取模型对应的非干预归一化结果；计算每个目标选取模型对应的非干预归一化结果以及值向量的乘积，作为每个目标选取模型对应的非干预注意力运算结果。

S540、对每个目标选取模型对应的用户特征向量包括的多个维度的向量进行拼接处理，得到每个目标选取模型对应的拼接向量；计算每个目标选取模型对应的拼接向量以及非干预注意力运算结果的和，作为每个目标选取模型各自对应的非干预和向量；对每个目标选取模型对应的非干预和向量进行归一化处理，得到每个目标选取模型对应的非干预归一化向量。

S550、通过每个目标选取模型，对各自对应的非干预归一化向量进行处理，得到每个目标选取模型对应的第三向量；对每个目标选取模型对应的第三向量以及非干预向量进行拼接处理，得到每个目标选取模型对应的第四向量；通过每个目标选取模型，对各自对应的第四向量进行处理，得到每个目标选取模型输出的预测概率，作为第一概率。

其中，S530-S550中获得第一概率的过程与上文获得第二概率的运算过程相似，区别在于将运算过程中将干预因子替换为非干预因子，运算过程中的中间结果也是非干预因子对应的中间结果，此处不再赘述。

可以理解的是，非干预因子为0，将非干预因子以及目标用户的用户特征输入目标选取模型进行处理的过程实际上，等同于通过目标选取模型只对目标用户的用户特征进行处理的过程。

S560、将目标用户的用户特征以及干预因子输入目标选取模型，得到每个目标选取模型各自对应的第二概率，第二概率用于表征对每个目标选取模型各自对应信息类别的目标信息施加干预时，该目标信息被目标用户选取的概率，干预用于增加对该目标信息的曝光度。

S570、获取每个目标信息对应的第一概率以及第二概率，根据每个目标信息对应的第一概率以及第二概率，得到每个目标信息的增益。

S580、获取多个目标信息中增益最高的目标信息，作为对应目标用户的最终选取信息。

其中，S560-S580的描述参照上文S130-S150的描述，不再赘述。

在本实施例中，通过目标选取模型可以对包括目标用户的用户特征以及非干预因子进行处理，得到第一概率，从而不需要重新部署新的模型，只需要输入不同的值(干预因子或非干预因子)即可获得第一概率或第二概率，提高了目标选模型的适用性。

为了更方便理解本方案，接下来，将结合一示例性场景对本申请实施例提供的信息选取方法进行举例说明。在该场景中，涉及到的信息类别包括搜索类别、资讯类别以及小说类别。

1.预置模型训练

如图12所示，线上获取数据(可以是指业务dau，业务dau可以包括用于训练初始模型的用户特征、针对用户的候选信息以及候选信息对应的选取结果)作为训练样本。首先，通过随机试验，对线上获取的数据随机分桶，在每个桶中选择1％的数据不做任何业务下发(不作曝光，也就是不施加干预)，该不做任何业务下发对应的数据作为对照组无干预数据；其次，对搜索类别(也叫搜索业务)、资讯类别(也叫资讯业务)、小说类别(也叫小说业务)各选择1％的数据，只曝光单个业务内容(每天的数据只对搜索业务、资讯业务、小说业务中任意一个业务下的信息施加干预)，并将获取到的只曝光单个信息类别的数据，分别作为搜索干预数据、资讯干预数据以及小说干预数据。

同时，为了保证训练数据的有效性，防止干预组的数据(搜索干预数据、资讯干预数据以及小说干预数据)产生疲劳性，随机实验的流量分桶需要定期shuffle。

根据搜索干预数据以及对照组无干预数据对初始模型进行训练，得到对应搜索类别的预置选取模型，根据资讯干预数据以及对照组无干预数据对初始模型进行训练，得到对应资讯类别的预置选取模型，根据小说干预数据以及对照组无干预数据对初始模型进行训练，得到对应小说类别的预置选取模型。

此时，获取到多个预置选取模型，将多个预置选取模型上线，部署在服务器中。

2.信息选取

如图12所示，用户通过终端访问页面(用户针对终端中的目标页面发送访问请求)，服务器的总控决策模块，根据访问请求，从小说内容池、资讯内容池以及搜索内容池各获取一条信息作为目标信息：小说类别的目标信息g1、搜索类别的目标信息g2以及资讯类别的目标信息g3。(其中，针对每个信息类别对应的信息，总控决策模块可以获取该信息类别下的多条信息，并在其中筛选远古点击率最高的一个作为该信息类别下的目标信息)。

同时，总控决策模块，根据访问请求获取目标用户的用户特征，并将用户特征以及干预因子(干预因子可以是1)分别输入小说类别的预置选取模型、资讯类别的预置选取模型以及搜索类别的预置选取模型，得到小说类别的目标信息的第二概率、资讯类别的目标信息的第二概率以及搜索类别的目标信息的第二概率。

小说类别的预置选取模型对用户特征以及干预因子的处理过程如下：

如图13所示，将用户特征(包括d维特征，d为非零自然数，分别表示为X¹、X²、…、X^d)输入特征表示模块，得到用户特征向量，用户特征向量也是d维向量，并将干预因子t输入特征表示模块，得到干预特征向量。

在注意力机制模块中，对用户特征向量以及干预特征向量进行注意力机制运算，得到注意力运算结果；由注意力机制模块对用户特征向量包括的d维向量进行拼接，得到拼接向量，再由注意力机制模块对拼接向量以及注意力运算结果先进行相加，在将相加后的结果(也就是上述实施例的和向量)进行归一化，得到归一化向量，然后再由注意力机制模块中的第一全连接网络对归一化向量进行处理，得到第一向量。

在输出预测模块中，对干预特征向量以及第一向量进行拼接，得到第二向量，再将第二向量依次输入输出预测模块中的第二全连接网络、第三全连接网络以及激活函数，得到预测概率，作为该小说类别的预置选取模型对应的第二概率。

资讯类别的预置选取模型、搜索类别的预置选取模型对用户特征以及干预因子的处理过程，参照小说类别的预置选取模型对用户特征以及干预因子的处理过程，不再赘述。

小说类别的预置选取模型对用户特征以及非干预因子的处理过程如下：

将用户特征输入特征表示模块，得到用户特征向量，用户特征向量也是d维向量，并将非干预因子输入特征表示模块，得到非干预特征向量。

在注意力机制模块中，对用户特征向量以及非干预特征向量进行注意力机制运算，得到非干预注意力运算结果；由注意力机制模块对用户特征向量包括的d维向量进行拼接，得到拼接向量，再由注意力机制模块对拼接向量以及非干预注意力运算结果先进行相加，在将相加后的结果(也就是上述实施例的非干预和向量)进行归一化，得到非干预归一化向量，然后再由注意力机制模块中的第一全连接网络对非干预归一化向量进行处理，得到第三向量。

在输出预测模块中，对非干预特征向量以及第三向量进行拼接，得到第四向量，再将第四向量依次输入输出预测模块中的第二全连接网络、第三全连接网络以及激活函数，得到预测概率，作为该小说类别的预置选取模型对应的第一概率。

资讯类别的预置选取模型、搜索类别的预置选取模型对用户特征以及非干预因子的处理过程，参照小说类别的预置选取模型对用户特征以及非干预因子的处理过程，不再赘述。

根据对应目标信息g1的第一概率以及第二概率，确定目标信息g1的增益h1，根据对应目标信息g2的第一概率以及第二概率，确定目标信息g2的增益h2，根据对应目标信息g3的第一概率以及第二概率，确定目标信息g3的增益h3。

获取增益最高的h3对应的目标信息g3作为最终选取信息，目标信息g3为资讯类别的信息。

如图12所示，服务器的总控决策模块获取到目标信息g3之后，通过目标信息g3对应的资源位后台(不同类别的资源位可以对应不同的资源位后台，例如，小说类别的资源位后台与资讯类别的资源位后台可以不同，资源位也就是上述实施例的展示控件)将目标信息g3发送给终端，由终端在目标页面的资源位输出目标信息g3。

输出的最终目标信息g3被目标用户选取的可能性是目标信息g1、目标信息g2以及目标信息g3中最高的一个。

本方案是以因果效应为核心，从因果推断的角度，建模不同业务(上述实施例中的信息类别)在被施加干预时，用户的响应的，从而可以更科学的衡量用户选取业务下的信息时，所带来的dau增量，最后结合业务信息的预估ctr共同决策信息的增益，以便用户访问，达到各个业务整体日活跃用户最大化。

请参阅图14，图14示出了本申请一个实施例提出的一种信息选取装置的框图，所述装置1100包括：

第一获取模块1110，用于获取目标用户的用户特征、多个目标信息以及与每个目标信息的信息类别对应的目标选取模型；

第一获得模块1120，用于将目标用户的用户特征输入每个目标选取模型，得到每个目标选取模型各自对应的第一概率，第一概率用于表征每个目标选取模型各自对应信息类别的目标信息被目标用户选取的概率；

第二获得模块1130，用于将目标用户的用户特征以及干预因子输入目标选取模型，得到每个目标选取模型各自对应的第二概率，第二概率用于表征对每个目标选取模型各自对应信息类别的目标信息施加干预时，该目标信息被目标用户选取的概率，干预用于增加对该目标信息的曝光度；

第二获取模块1140，用于获取每个目标信息对应的第一概率以及第二概率，根据每个目标信息对应的第一概率以及第二概率，得到每个目标信息的增益；

信息获取模块1150，用于获取多个目标信息中增益最高的目标信息，作为对应目标用户的最终选取信息。

可选地，第二获取模块1140，还用于计算每个目标信息对应的第二概率以及第一概率的差，作为每个目标信息的概率差；获取每个目标信息对应的预估点击率；计算每个目标信息对应的概率差以及预估点击率的乘积，作为每个目标信息的增益。

可选地，第二获得模块1130，还用于通过每个目标选取模型对目标用户的用户特征进行处理，得到对应每个目标选取模型的用户特征向量；通过每个目标选取模型对干预因子进行处理，得到对应每个目标选取模型的干预特征向量；对每个目标选取模型对应的用户特征向量以及干预特征向量进行注意力机制运算，得到每个目标选取模型对应的注意力运算结果；通过每个目标选取模型，对各自对应的用户特征向量以及注意力运算结果进行处理，得到每个目标选取模型输出的预测概率，作为每个目标选取模型各自对应的第二概率。

可选地，第二获得模块1130，还用于根据每个目标选取模型对应的用户特征向量，获取每个目标选取模型对应的键向量以及值向量；计算每个目标选取模型对应的键向量以及干预特征向量的乘积，作为每个目标选取模型对应的乘积结果；对每个目标选取模型对应的乘积结果进行规整处理，得到每个目标选取模型对应的规整结果；对每个目标选取模型对应的规整结果进行掩膜处理，得到每个目标选取模型对应的掩膜处理结果；对每个目标选取模型对应的掩膜处理结果进行归一化处理，得到每个目标选取模型对应的归一化结果；计算每个目标选取模型对应的归一化结果以及值向量的乘积，作为每个目标选取模型对应的注意力运算结果。

可选地，第二获得模块1130，还用于对每个目标选取模型对应的用户特征向量包括的多个维度的向量进行拼接处理，得到每个目标选取模型对应的拼接向量；计算每个目标选取模型对应的拼接向量以及注意力运算结果的和，作为每个目标选取模型各自对应的和向量；通过每个目标选取模型，对各自对应的和向量进行处理，得到每个目标选取模型输出的预测概率。

可选地，第二获得模块1130，还用于对每个目标选取模型对应的和向量进行归一化处理，得到每个目标选取模型对应的归一化向量；通过每个目标选取模型，对各自对应的归一化向量进行处理，得到每个目标选取模型输出的预测概率。

可选地，第二获得模块1130，还用于通过每个目标选取模型，对各自对应的归一化向量进行处理，得到每个目标选取模型对应的第一向量；对每个目标选取模型对应的第一向量以及干预向量进行拼接处理，得到每个目标选取模型对应的第二向量；通过每个目标选取模型，对各自对应的第二向量进行处理，得到每个目标选取模型输出的预测概率。

可选地，装置还包括显示模块；第一获取模块1110，还用于响应于目标用户针对目标页面的访问请求，获取目标用户的用户特征、多个目标信息以及与每个目标信息的信息类别对应的目标选取模型；显示模块，用于在目标页面显示最终选取信息。

可选地，第一获取模块1110，还用于根据每个目标信息的信息类别，在多个预置选取模型中确定每个目标信息各自对应的目标选取模型，多个预置选取模型分别对应不同的信息类别。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

图15示出了用于执行根据本申请实施例的信息选取方法的电子设备的结构框图。该电子设备可以是图1中的服务端10等，需要说明的是，图15示出的电子设备的计算机系统1200仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图15所示，计算机系统1200包括中央处理单元(Central Processing Unit，CPU)1201，其可以根据存储在只读存储器(Read-Only Memory，ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(Random Access Memory，RAM)1203中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM 1203中，还存储有系统操作所需的各种程序和数据。CPU1201、ROM1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output，I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以使于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令，当该计算机可读存储指令被处理器执行时，实现上述任一实施例中的方法。

根据本申请实施例的一个方面，提供了计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述任一实施例中的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台电子设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种信息选取方法，其特征在于，所述方法包括：

获取目标用户的用户特征、多个目标信息以及与每个所述目标信息的信息类别对应的目标选取模型；

将所述目标用户的用户特征输入每个所述目标选取模型，得到每个所述目标选取模型各自对应的第一概率，所述第一概率用于表征每个所述目标选取模型各自对应信息类别的目标信息被所述目标用户选取的概率；

将所述目标用户的用户特征以及干预因子输入所述目标选取模型，得到每个所述目标选取模型各自对应的第二概率，所述第二概率用于表征对每个目标选取模型各自对应信息类别的目标信息施加干预时，该目标信息被所述目标用户选取的概率，所述干预用于增加对该目标信息的曝光度；

获取每个所述目标信息对应的第一概率以及第二概率，根据每个所述目标信息对应的第一概率以及第二概率，得到每个所述目标信息的增益；

获取所述多个目标信息中增益最高的目标信息，作为对应所述目标用户的最终选取信息。

2.根据权利要求1所述的方法，其特征在于，所述根据每个所述目标信息对应的第一概率以及第二概率，得到每个所述目标信息的增益，包括：

计算每个所述目标信息对应的第二概率以及第一概率的差，作为每个所述目标信息的概率差；

获取每个所述目标信息对应的预估点击率；

计算每个所述目标信息对应的概率差以及预估点击率的乘积，作为每个所述目标信息的增益。

3.根据权利要求1所述的方法，其特征在于，所述将所述目标用户的用户特征以及干预因子输入所述目标选取模型，得到每个所述目标选取模型各自对应的第二概率，包括：

通过每个所述目标选取模型对所述目标用户的用户特征进行处理，得到对应每个所述目标选取模型的用户特征向量；

通过每个所述目标选取模型对所述干预因子进行处理，得到对应每个所述目标选取模型的干预特征向量；

对每个所述目标选取模型对应的用户特征向量以及干预特征向量进行注意力机制运算，得到每个所述目标选取模型对应的注意力运算结果；

通过每个所述目标选取模型，对各自对应的用户特征向量以及注意力运算结果进行处理，得到每个所述目标选取模型输出的预测概率，作为每个所述目标选取模型各自对应的第二概率。

4.根据权利要求3所述的方法，其特征在于，所述对每个所述目标选取模型对应的用户特征向量以及干预特征向量进行注意力机制运算，得到每个所述目标选取模型对应的注意力运算结果，包括：

根据每个所述目标选取模型对应的用户特征向量，获取每个所述目标选取模型对应的键向量以及值向量；

计算每个所述目标选取模型对应的键向量以及干预特征向量的乘积，作为每个所述目标选取模型对应的乘积结果；

对每个所述目标选取模型对应的乘积结果进行规整处理，得到每个所述目标选取模型对应的规整结果；

对每个所述目标选取模型对应的规整结果进行掩膜处理，得到每个所述目标选取模型对应的掩膜处理结果；

对每个所述目标选取模型对应的掩膜处理结果进行归一化处理，得到每个所述目标选取模型对应的归一化结果；

计算每个所述目标选取模型对应的归一化结果以及值向量的乘积，作为每个所述目标选取模型对应的注意力运算结果。

5.根据权利要求3所述的方法，其特征在于，所述通过每个所述目标选取模型，对各自对应的用户特征向量以及注意力运算结果进行处理，得到每个所述目标选取模型输出的预测概率，包括：

对每个所述目标选取模型对应的用户特征向量包括的多个维度的向量进行拼接处理，得到每个所述目标选取模型对应的拼接向量；

计算每个所述目标选取模型对应的拼接向量以及注意力运算结果的和，作为每个所述目标选取模型各自对应的和向量；

通过每个所述目标选取模型，对各自对应的和向量进行处理，得到每个所述目标选取模型输出的预测概率。

6.根据权利要求5所述的方法，其特征在于，所述通过每个所述目标选取模型，对各自对应的和向量进行处理，得到每个所述目标选取模型输出的预测概率，包括：

对每个所述目标选取模型对应的和向量进行归一化处理，得到每个所述目标选取模型对应的归一化向量；

通过每个所述目标选取模型，对各自对应的归一化向量进行处理，得到每个所述目标选取模型输出的预测概率。

7.根据权利要求6所述的方法，其特征在于，所述通过每个所述目标选取模型，对各自对应的归一化向量进行处理，得到每个所述目标选取模型输出的预测概率，包括：

通过每个所述目标选取模型，对各自对应的归一化向量进行处理，得到每个目标选取模型对应的第一向量；

对每个所述目标选取模型对应的第一向量以及干预向量进行拼接处理，得到每个所述目标选取模型对应的第二向量；

通过每个所述目标选取模型，对各自对应的第二向量进行处理，得到每个所述目标选取模型输出的预测概率。

8.根据权利要求1所述的方法，其特征在于，所述获取目标用户的用户特征、多个目标信息以及与每个所述目标信息的信息类别对应的目标选取模型，包括：

响应于所述目标用户针对目标页面的访问请求，获取所述目标用户的用户特征、所述多个目标信息以及与每个所述目标信息的信息类别对应的目标选取模型；

所述获取所述多个目标信息中增益最高的信息，作为对应所述目标用户的最终选取信息之后，所述方法还包括：

在所述目标页面显示所述最终选取信息。

9.根据权利要求1所述的方法，其特征在于，所述获取与每个所述目标信息的信息类别对应的目标选取模型，包括：

根据每个所述目标信息的信息类别，在多个预置选取模型中确定每个所述目标信息各自对应的目标选取模型，所述多个预置选取模型分别对应不同的信息类别。

10.根据权利要求1至9任一项所述的方法，其特征在于，所述目标选取模型的训练方法，包括：

获取每个所述信息类别各自对应的训练样本，每个所述信息类别对应的训练样本包括第一用户的用户特征、第二用户的用户特征、该信息类别下的第一样本信息对应的第一选取结果以及该信息类别下的第二样本信息对应的第二选取结果，所述第一选取结果是指在未对所述第一样本信息施加干预时，所述第一用户针对所述第一样本信息的选取结果，所述第二选取结果是指在对所述第二样本信息施加干预时，所述第二用户针对所述第二样本信息的选取结果；

根据每个所述信息类别对应的训练样本，对初始模型进行训练，得到每个所述信息类别对应的目标选取模型。

11.一种信息选取装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标用户的用户特征、多个目标信息以及与每个所述目标信息的信息类别对应的目标选取模型；

第一获得模块，用于将所述目标用户的用户特征输入每个所述目标选取模型，得到每个所述目标选取模型各自对应的第一概率，所述第一概率用于表征每个所述目标选取模型各自对应信息类别的目标信息被所述目标用户选取的概率；

第二获得模块，用于将所述目标用户的用户特征以及干预因子输入所述目标选取模型，得到每个所述目标选取模型各自对应的第二概率，所述第二概率用于表征对每个目标选取模型各自对应信息类别的目标信息施加干预时，该目标信息被所述目标用户选取的概率，所述干预用于增加对该目标信息的曝光度；

第二获取模块，用于获取每个所述目标信息对应的第一概率以及第二概率，根据每个所述目标信息对应的第一概率以及第二概率，得到每个所述目标信息的增益；

信息获取模块，用于获取所述多个目标信息中增益最高的目标信息，作为对应所述目标用户的最终选取信息。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-10中任一项所述的方法。

13.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-10中任一项所述的方法。