CN113590929A

CN113590929A - 基于人工智能的信息推荐方法、装置及电子设备

Info

Publication number: CN113590929A
Application number: CN202110120525.9A
Authority: CN
Inventors: 沈力; 黄含驰; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-11-02

Abstract

本申请提供了一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质；方法包括：获取多个候选推荐信息集合，确定每个候选推荐信息集合的信息特征的期望项和不确定项；对每个候选推荐信息集合的期望项和不确定项进行聚合处理，得到每个候选推荐信息集合的上置信界特征；确定对应每个候选推荐信息集合的多样性特征；根据每个候选推荐信息集合的上置信界特征以及约束违反特征，确定对应候选推荐信息集合的推荐指数；将推荐指数最高的候选推荐信息集合作为待推荐信息集合，以执行针对待推荐信息集合的推荐操作。通过本申请，能够提高推荐准确率。

Description

基于人工智能的信息推荐方法、装置及电子设备

技术领域

本申请涉及人工智能技术，尤其涉及一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

信息推荐是人工智能的重要应用，相关技术中为了提高推荐率会预测点击率等指标，并基于预测的点击率进行推荐，但是申请人在实施本申请实施例的过程中发现，仅基于点击率进行推荐难以有效刻画冷启动信息对于用户行为的积极影响以及刻画用户多样性兴趣，进而影响信息推荐的精度。

发明内容

本申请实施例提供一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质，能够提高推荐准确率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的信息推荐方法，包括：

获取多个候选推荐信息集合，确定每个所述候选推荐信息集合的信息特征的期望项和不确定项；

对每个所述候选推荐信息集合的期望项和不确定项进行聚合处理，得到每个所述候选推荐信息集合的上置信界特征；

确定对应每个所述候选推荐信息集合的多样性特征；

根据每个所述候选推荐信息集合的上置信界特征以及约束违反特征，确定对应所述候选推荐信息集合的推荐指数；

将所述推荐指数最高的候选推荐信息集合作为待推荐信息集合，以执行针对所述待推荐信息集合的推荐操作。

本申请实施例提供一种基于人工智能的信息推荐装置，包括：。

获取模块，用于获取多个候选推荐信息集合，确定每个所述候选推荐信息集合的信息特征的期望项和不确定项；

聚合模块，用于对每个所述候选推荐信息集合的期望项和不确定项进行聚合处理，得到每个所述候选推荐信息集合的上置信界特征；

多样性模块，用于确定对应每个所述候选推荐信息集合的多样性特征；

指数模块，用于根据每个所述候选推荐信息集合的上置信界特征以及约束违反特征，确定对应所述候选推荐信息集合的推荐指数；

推荐模块，用于将所述推荐指数最高的候选推荐信息集合作为待推荐信息集合，以执行针对所述待推荐信息集合的推荐操作。

在上述方案中，所述获取模块，还用于：执行以下处理至少之一以获取多个候选推荐信息集合：根据线性估计函数获取多个所述候选推荐信息集合；根据二次估计函数获取多个所述候选推荐信息集合；通过动作评价框架获取多个所述候选推荐信息集合；结合软注意力机制与硬注意力机制获取多个所述候选推荐信息集合；通过伯努利分布获取多个所述候选推荐信息集合。

在上述方案中，所述获取模块，还用于：针对单位矩阵的L个列向量中的第i列向量进行映射处理，得到对应所述第i列向量的映射处理结果；其中，所述L个列向量与L个信息一一对应；L为大于或者等于2的整数，i的取值范围满足1≤i≤L；以对应信息的列向量的映射处理结果为权重，对L个信息的动作数据进行加权求和处理，得到线性估计函数；其中，所述动作数据表征对应的信息被选择或者不被选择；确定所述L个信息的同时满足以下条件的动作数据：当将所述L个信息的动作数据代入所述线性估计函数时，所述线性估计函数的取值是最大化收敛取值；所述L个信息的动作数据表征所述L个信息中被选择的至少一个信息满足多样性约束；将所述L个信息中被选择的至少一个信息组成所述候选推荐信息集合。

在上述方案中，所述获取模块，还用于：针对单位矩阵的L个列向量中的第i列向量进行映射处理，得到对应所述第i列向量的映射处理结果，并将对应所述第i列向量的映射处理结果作为矩阵元素；将所述单位矩阵的L个列向量中第i列向量和第j列向量进行求和处理，对求和处理结果进行映射处理，得到对应所述第i列向量和所述第j列向量的映射处理结果；其中，L为大于或者等于2的整数，i和j的取值范围满足1≤i，j≤L，i和j的取值不同；将对应所述第i列向量的映射处理结果与对应所述第j列向量的映射处理结果进行平均处理，并将对应所述第i列向量和所述第j列向量的映射处理结果与平均处理结果进行相减处理，得到矩阵元素；根据所述矩阵元素构建矩阵；将对应L个信息的动作数据矩阵的转置、所述矩阵与所述动作数据矩阵进行相乘处理，得到二次估计函数；其中，所述动作数据矩阵包括与L个信息一一对应的动作数据，所述动作数据表征对应的被选择或者不被选择；确定所述L个信息的同时满足以下条件的动作数据：当将所述L个信息的动作数据代入所述二次估计函数时，所述二次估计函数的取值是最大化收敛取值；所述L个信息的动作数据表征所述L个信息中被选择的至少一个信息满足多样性约束；将所述L个信息中被选择的至少一个信息组成所述候选推荐信息集合。

在上述方案中，所述获取模块，还用于：通过动作评价框架中的动作网络生成具有L个列向量的动作矩阵，并确定对应所述动作矩阵的候选推荐信息集合；其中，所述L个列向量的列标识与L个信息一一对应，L为大于或者等于2的整数，所述列向量的值表征对应所述信息的动作数据；针对所述动作矩阵执行任意次数的以下处理：对所述动作矩阵中所述L个列向量中任意两个不同的列向量进行对换处理，得到新动作矩阵，并确定对应所述新动作矩阵的候选推荐信息集合。

在上述方案中，所述获取模块，还用于：通过所述动作评价框架中的动作网络生成对应每个所述信息的动作数据；根据每个所述信息的动作数据，对所述L个信息进行降序排序；将所述L个信息中排序靠前的多个信息的动作数据更新为一，并将其他信息的动作数据更新为零；其中，所述其他信息为所述L个信息中除了所述排序靠前的多个信息之外的信息；将更新后的每个所述信息的动作数据转化为对应所述信息的列向量，以得到具有所述L个列向量的动作矩阵。

在上述方案中，所述获取模块，还用于：初始化所述动作评价框架的评价网络以及所述动作网络；针对所述动作评价框架进行K次迭代处理，并在每次迭代处理过程中执行以下处理：根据所述期望项与所述多样性特征的权衡系数，对所述动作评价框架的动作网络以及评价网络进行T轮更新处理，并根据第T轮更新处理结果，更新所述权衡系数；其中，T与K均为大于或者等于2的整数；将第K次迭代处理得到的动作网络确定为用于生成具有L个列向量的动作矩阵的动作网络。

在上述方案中，所述获取模块，还用于：针对所述动作评价框架进行T轮迭代处理，并在每轮迭代处理过程中执行以下处理：通过所述动作网络预测候选推荐信息集合样本，并获取对应所述候选推荐信息集合样本的期望项以及多样性特征；通过所述评价网络确定对应所述候选推荐信息集合样本的价值函数值，并根据所述期望项、所述多样性特征、所述权衡系数以及所述价值函数值，确定对应所述候选推荐信息集合样本的综合价值；获取所述综合价值与所述价值函数值之间的误差，并根据对应所述误差的梯度项更新所述评价网络的参数；根据所述期望项、所述多样性特征以及所述权衡系数，确定对应所述候选推荐信息集合样本的惩罚性价值函数值，并根据对应所述惩罚性价值函数的梯度项更新所述动作网络的参数。

在上述方案中，所述获取模块，还用于：获取L个信息中对应每个信息的局部观测数据，并将所述局部观测数据编码为观测特征；根据硬注意力机制，并结合每个所述信息的观测特征，确定所述L个信息中与第i信息之间存在交互关系的至少一个交互信息；根据软注意力机制确定每个所述交互信息与所述第i信息之间的交互权重，根据所述交互权重确定所有所述交互信息对应所述第i信息的交互特征；根据所述第i信息的观测特征以及交互特征，通过策略网络确定对应所述第i信息的策略预测值；其中，L为大于或者等于2的整数，i为取值从1开始递增的整数，且i的取值范围满足1≤i≤L；根据所述L个信息中每个信息的策略预测值，获取所述候选推荐信息集合。

在上述方案中，所述获取模块，还用于：将所述第i信息的观测特征与不同于所述第i信息的每个其他信息的观测特征进行合并处理，得到对应每个所述其他信息的合并特征；通过双向时间长短期记忆人工神经网络对每个所述合并特征进行映射处理，并对映射处理结果进行最大似然处理，得到对应每个所述其他信息的硬注意力值；将所述硬注意力值大于硬注意力阈值的其他信息，确定为所述L个信息中与所述第i信息之间存在交互关系的交互信息。

在上述方案中，所述获取模块，还用于：针对每个所述交互信息执行以下处理：获取所述第i信息的第i嵌入特征，并根据所述软注意力机制的查询参数对所述第i嵌入特征进行线性映射，得到对应所述第i信息的查询特征；获取所述交互信息的交互嵌入特征，并根据所述软注意力机制的键参数对所述交互嵌入特征进行线性映射，得到对应所述交互信息的键特征；确定与所述键特征、所述查询特征以及所述硬注意力值成指数正相关的软注意力值，以作为对应所述交互信息的交互权重；根据对应所述交互信息的交互权重，对每个所述交互信息的观测特征进行加权处理，得到所有所述交互信息针对所述第i信息的交互特征。

在上述方案中，所述获取模块，还用于：执行以下任意一种处理：从所述L个信息中获取所对应的策略预测值大于策略预测阈值的多个信息，并从所述多个信息采样得到K个采样信息，以组成所述候选推荐信息集合；根据每个所述信息策略预测值，对所述L个信息进行降序排序处理，并获取排序靠前的K个信息，以组成所述候选推荐信息集合；其中，K为所述候选推荐信息集合中推荐信息的数目。

在上述方案中，所述获取模块，还用于：获取训练样本集合，其中，所述训练样本集合包括与N轮历史推荐一一对应的N个候选推荐信息集合样本，N为大于或者等于2的整数；对所述N轮历史推荐进行划分，得到多个历史推荐周期，其中，每个所述历史推荐周期包括M轮历史推荐，M为大于1且小于N的整数；初始化目标函数，其中，所述目标函数用于表征最大化所述M轮历史推荐中的惩罚性价值函数值，所述目标函数包括对应第q历史推荐周期的伯努利分布以及对应第q-1历史推荐周期的伯努利分布，q为大于或者等于2的整数；在每个所述历史推荐周期中，执行以下处理：获取对应所述历史推荐周期的伯努利分布，并根据所述伯努利分布生成对应每轮所述历史推荐的候选推荐信息集合样本；确定对应每个所述候选推荐信息集合样本的惩罚性价值函数值，并代入所述目标函数，以针对对应第q历史推荐周期的伯努利分布进行所述目标函数的梯度下降处理，得到对应第q+1历史推荐周期的伯努利分布；基于最后一个历史推荐周期的伯努利分布生成候选推荐信息集合。

在上述方案中，所述获取模块，还用于：根据教师-学生机制，并结合获取的多个所述候选推荐信息集合，生成新的候选推荐信息集合；或者根据贝塔分布采样机制，并结合获取的多个所述候选推荐信息集合，生成新的候选推荐信息集合。

在上述方案中，所述获取模块，还用于：获取每个历史候选推荐信息集合的期望项以及多样性特征，以确定对应每个所述历史候选推荐信息集合的惩罚性价值函数值，并将所对应的惩罚性价值函数值最高的历史候选推荐信息集合确定为教师集合，将每个候选推荐信息集合确定为学生集合；针对任意一个学生集合，执行以下处理至少之一：将所述任意一个学生集合以及所述教师集合按照算子进行映射处理，得到新的候选推荐信息集合，或者将所述任意一个学生集合以及不同于所述任意一个学生集合的另一个学生集合按照算子进行映射处理，得到新的候选推荐信息集合。

在上述方案中，所述获取模块，还用于：针对每个所述候选推荐信息集合执行以下处理：对所述候选推荐信息集合的每个推荐信息的动作数据进行扰动处理，得到所述候选推荐信息集合的每个动作数据的扰动值；对其他信息的动作数据进行扰动处理，得到每个所述其他信息的扰动值，其中，所述其他信息为L个信息中除了所述推荐信息之外的信息，L为大于或者等于2的整数；基于对应每个所述推荐信息的扰动值，获取对应所述推荐信息的贝塔分布，并基于对应每个所述其他信息的扰动值，获取对应所述其他信息的贝塔分布；从对应所述推荐信息的贝塔分布进行采样，得到对应每个所述推荐信息的采样动作数据，并从对应所述其他信息的贝塔分布进行采样，得到对应每个所述其他信息的采样动作数据；基于对应每个所述推荐信息的采样动作数据、对应每个所述其他信息的采样动作数据，对所述其他信息以及所述推荐信息进行混合降序排序，并获取排序靠前的K个信息，以组成新的候选推荐信息集合；其中，K为所述候选推荐信息集合中推荐信息的数目。

在上述方案中，所述获取模块，还用于：将每个所述候选推荐信息集合的信息特征，在置信神经网络中进行正向传播，以得到对应每个所述候选推荐信息集合的期望项；获取所述置信神经网络的梯度函数，并将每个所述候选推荐信息集合的信息特征代入所述梯度函数，以得到对应每个所述候选推荐信息集合的不确定项。

在上述方案中，所述多样性模块，还用于：对每个所述候选推荐信息集合进行多次推荐信息提取处理，对应得到多个推荐信息子集；其中，在每次推荐信息提取过程中提取两个推荐信息，且每个所述推荐信息子集包括在对应的推荐信息提取过程中所提取的两个推荐信息；获取所述推荐信息子集的总数目、以及不满足多样性约束的所述推荐信息子集的数目，确定不满足多样性约束的所述推荐信息子集的数目与所述总数目之间的比值，并确定与所述比值对应的多样性特征。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于人工智能的信息推荐方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现本申请实施例提供的基于人工智能的信息推荐方法。

本申请实施例具有以下有益效果：

基于候选推荐信息集合的信息特征，针对候选推荐信息集合刻画出用于进行推荐收益预测的期望项以及不确定项，考虑到信息特征对用户行为预测的贡献，并且通过多样性特征保证候选推荐信息集合的信息覆盖范围广，以深度挖掘用户感兴趣的信息，保证了后续进行信息推荐的信息推荐精度，同时有效避免无效推荐，进而节约服务器中与推荐逻辑相关的计算资源。

附图说明

图1A-1B是本申请实施例提供的基于人工智能的信息推荐系统的结构示意图；

图2是本申请实施例提供的电子设备的结构示意图；

图3A-3D是本申请实施例提供的基于人工智能的信息推荐方法的流程示意图；

图4是本申请实施例提供的基于人工智能的信息推荐系统的架构示意图；

图5A-5B是本申请实施例提供的基于人工智能的信息推荐系统的模型示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)期望项，期望行为特征是一种历史平均收益值，例如，在推荐系统中可以为任意信息的历史点击率(历史平均收益值)，历史点击率可以在一定程度上预测信息真实点击率。

2)不确定项，不确定性特征是表征历史平均收益值的不确定性的上确界值，例如，在推荐系统中有的信息由于曝光次数较小，因此，其历史点击率并不一定可以准确预测信息真实点击率，从而通过不确定性特征对期望行为特征进行修正。

3)上置信界特征，上置信界特征是基于期望项以及不确定项进行加权计算得到的值，用于预测执行推荐操作后的的正向收益。

相关技术中通常将推荐系统包装为老虎机问题以决策出最优解作为每轮推荐的决策结果，但是申请人在实施本申请实施例时发现，推荐系统中的收益反馈主要体现在奖励反馈以及约束反馈，继而将推荐系统的推荐决策问题解释为求解带有复杂约束以及稀疏非线性反馈的优化问题，目前暂未相关技术方案以求解带有复杂约束以及稀疏非线性反馈的优化问题，该问题旨在让每轮从L(L为大于或者等于2的整数)个收益未知的信息中挑选K(K为大于或者等于2的整数)个信息推荐至用户，以使T(T为大于或者等于2的整数)轮交互的收益最大化，相关技术中是假设每轮决策后将收到每个信息的反馈而非仅有被挑选信息的总反馈(稀疏反馈)，总反馈(稀疏反馈)是每轮推荐的总反馈是每个被挑选的信息的反馈之和，并且相关技术中是对信息的选取施加基数约束(每轮挑选的信息数为定值K)、背包约束等少量约束，而不是多样性约束这种复杂约束。

本申请实施例提供一种基于人工智能的推荐方法、装置、电子设备和计算机可读存储介质，能够考虑到信息特征对用户行为预测的贡献，并且通过多样性特征保证候选推荐信息集合的信息覆盖范围广，从而提高推荐准确率，下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为服务器，下面，将说明设备实施为服务器时示例性应用。

服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自己专属的云人工智能服务，在本申请实施例提供的基于人工智能的推荐方法中，可以通过人工智能云服务提供的AI框架和AI基础设施来部署和运维推荐系统。

参见图1A，图1A是本申请实施例提供的基于人工智能的推荐系统的架构示意图，推荐系统可以用于支撑各种信息的推荐场景和搜索场景，搜索场景是一种特殊的推荐场景，即响应于用户输入的检索式进行推荐的场景，推荐系统包括对新闻进行推荐的应用场景，对商品进行推荐的应用场景、对视频进行推荐的应用场景等等，根据应用场景不同，信息可以为新闻、视频文章、图文等，也可是与产品(例如衣服等实物，游戏道具等虚拟物品)相关的信息。在用户使用客户端的过程中，响应于终端400的推荐请求，服务器200可以从数据库500中获取多个候选推荐信集合，并基于用户行为、环境数据以及候选推荐信集合的属性数据获取每个候选推荐信集合的信息特征(包括用户维度、环境维度以及信息本身维度)，服务器200基于每个候选推荐信集合的信息特征确定对应推荐指数，服务器基于对应推荐指数，将推荐指数最高的候选推荐信集合作为待推荐信息集合，并将待推荐信息集合中的信息推荐至终端400。

下面介绍推荐系统的具体架构，参见图1B，基于图1A，图1B是本申请实施例提供的基于人工智能的推荐系统的架构示意图，在推荐系统中，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，服务器200可以抽象为一个服务器集群，包括一个主服务器200-1以及多个从服务器200-2，…，从服务器200-7。主服务器200-1估计出非线性反馈函数h(.)，以为从服务器提供奖励反馈，同时主服务器200-1结合多样性约束违反程度构造对候选推荐信息集合的多样性约束违反程度的评估器，以为从服务器提供约束反馈，主服务器针对从服务器的收益反馈中包括奖励反馈h'(.)和约束反馈，奖励反馈是估计得到的非线性反馈函数实际值，以使得从服务器200-2，…，服务器200-7基于所接收到的收益反馈生成多个候选推荐信息集合发送至主服务器200-1，主服务器200-1在接收到满足多样性约束的候选推荐信息集合后，决策出推荐指数(结合上置信特征以及多样性特征)最高的候选推荐信息集合进行决策。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

参见图2，图2是本申请实施例提供的应用基于人工智能的推荐方法的服务器200的结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250和至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本申请实施例提供的基于人工智能的推荐装置可以采用软件方式实现，图2示出了存储在存储器250中的基于人工智能的推荐装置255，包括了多个模块，模块可以是程序和插件等形式的软件，包括以下软件模块：获取模块2551、聚合模块2552、多样性模块2553、指数模块2554以及推荐模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

将结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的基于人工智能的推荐方法。

参见图3A，图3A是本申请实施例提供的基于人工智能的推荐方法的流程示意图，将结合图3A示出的步骤进行说明。

在步骤101中，获取多个候选推荐信息集合，确定每个候选推荐信息集合的信息特征的期望项和不确定项。

在一些实施例中，参见图3B，图3B是本申请实施例提供的基于人工智能的推荐方法的流程示意图，将结合图3B示出的步骤进行说明，步骤101中获取多个候选推荐信息集合可以通过以下步骤1011-1015中的至少之一实现，即执行以下步骤1011-1015中的至少之一以获取多个候选推荐信息集合

在步骤1011中，根据线性估计函数获取多个候选推荐信息集合。

在一些实施例中，上述根据线性估计函数获取多个候选推荐信息集合，可以通过以下技术方案实现：针对单位矩阵的L个列向量中的第i列向量进行映射处理，得到对应第i列向量的映射处理结果；其中，L个列向量与L个信息一一对应；L为大于或者等于2的整数，i的取值范围满足1≤i≤L；以对应信息的列向量的映射处理结果为权重，对L个信息的动作数据进行加权求和处理，得到线性估计函数；其中，动作数据表征对应的信息被选择或者不被选择；确定L个信息的同时满足以下条件的动作数据：当将L个信息的动作数据代入线性估计函数时，线性估计函数的取值是最大化收敛取值；L个信息的动作数据表征L个信息中被选择的至少一个信息满足多样性约束；将L个信息中被选择的至少一个信息组成候选推荐信息集合。

作为示例，对置信神经网络的非线性反馈函数h'进行线性估计，将单位矩阵I_L*L的L个列向量(L个列向量与L个信息分别一一对应)分别输入置信神经网络中，得到L个输出

通过置信神经网络对L个列向量进行处理的过程即为映射处理，对应第i列向量的映射处理结果即为b_i，b_i为对应第i个信息(第i个信息与第i列向量对应)的权重，根据

构建以下线性整数规划问题，线性整数规划问题中x满足多样性约束，x表征对应每个信息的动作数据，例如，x为1表征被选择，x为0表征不被选择，参见公式(1)-(3)：

其中，L是信息的数目，K是候选推荐信息集合的信息的数目，x_i是第i个信息的动作数据，动作数据为1表征第i个信息被选入候选推荐信息集合，利用优化器Gurobi求解以上问题得到候选推荐信息集合，所求解的结果即为从L个信息中选出的K个信息，对应K个信息的动作数据为1，并且在满足多样性约束使得公式(1)达到最大化收敛，公式(1)即为线性估计函数。

在步骤1012中，根据二次估计函数获取多个候选推荐信息集合。

在一些实施例中，上述根据二次估计函数获取多个候选推荐信息集合，可以通过以下技术方案实现：针对单位矩阵的L个列向量中的第i列向量进行映射处理，得到对应第i列向量的映射处理结果，并将对应第i列向量的映射处理结果作为矩阵元素；将单位矩阵的L个列向量中第i列向量和第j列向量进行求和处理，对求和处理结果进行映射处理，得到对应第i列向量和第j列向量的映射处理结果；其中，L为大于或者等于2的整数，i和j的取值范围满足1≤i，j≤L，i和j的取值不同；将对应第i列向量的映射处理结果与对应第j列向量的映射处理结果进行平均处理，并将对应第i列向量和第j列向量的映射处理结果与平均处理结果进行相减处理，得到矩阵元素；根据矩阵元素构建矩阵；将对应L个信息的动作数据矩阵的转置、矩阵与动作数据矩阵进行相乘处理，得到二次估计函数；其中，动作数据矩阵包括与L个信息一一对应的动作数据，动作数据表征对应的被选择或者不被选择；确定L个信息的同时满足以下条件的动作数据：当将L个信息的动作数据代入二次估计函数时，二次估计函数的取值是最大化收敛取值；L个信息的动作数据表征L个信息中被选择的至少一个信息满足多样性约束；将L个信息中被选择的至少一个信息组成候选推荐信息集合。

作为示例，对置信神经网络的非线性反馈函数h'进行二次估计，将单位矩阵I_L*L的L个列向量(L个列向量与L个信息分别一一对应)分别输入置信神经网络中，得到L个输出

即为对应每个列向量的映射处理结果，并将对应列向量的映射处理结果作为矩阵元素Q_ii，对于i∈[L]，矩阵元素Q_ii＝b_i，假设h′≈x^TQx，Q∈R^L*L，Q＝Q^T，e_i为单位矩阵I_L*L的第i个列向量，将单位矩阵的L个列向量中第i列向量和第j列向量进行求和处理，对求和处理结果进行映射处理，即是将

确定为置信神经网络的输入，通过置信神经网络进行映射处理，得到输出{O_ij}_{i，j∈[L]，i≠j}作为对应第i列向量和第j列向量的映射处理结果，将对应第i列向量的映射处理结果b_i与对应第j列向量的映射处理结果b_j进行平均处理，并将对应第i列向量和第j列向量的映射处理结果O_ij与平均处理结果进行相减处理，得到矩阵元素Q_ij，即对于i，j∈[L]，i≠j，Q_ij＝O_ij-(b_i+b_j)/2；由于

故而对于i,j∈[L],i≠j，令Q_ij＝o_ij-(b_i+b_j)/2，在得到矩阵Q后，建立以下二次整数规划问题，二次整数规划问题中x满足多样性约束，参见公式(4)-(6)：

max_xx^TQx(4)；

其中，L是信息的数目，K是候选推荐信息集合的信息的数目，x_i是第i个信息的动作数据，动作数据为1表征第i个信息被选入候选推荐信息集合，利用优化器Gurobi求解以上问题得到候选推荐信息集合，所求解的结果即为从L个信息中选出的K个信息，对应K个信息的动作数据为1，并且在满足多样性约束使得公式(4)达到最大化收敛，公式(4)即为二次估计函数。

在步骤1013中，通过动作评价框架获取多个候选推荐信息集合。

在一些实施例中，上述通过动作评价框架获取多个候选推荐信息集合，可以通过以下技术方案实现：通过动作评价框架中的动作网络生成具有L个列向量的动作矩阵，并确定对应动作矩阵的候选推荐信息集合；其中，L个列向量的列标识与L个信息一一对应，L为大于或者等于2的整数，列向量的值表征对应信息的动作数据；针对动作矩阵执行任意次数的以下处理：对动作矩阵中L个列向量中任意两个不同的列向量进行对换处理，得到新动作矩阵，并确定对应新动作矩阵的候选推荐信息集合。

作为示例，动作评价框架由动作网络和评价网络组成，动作网络根据状态特征以及信息特征进行决策得到候选动作数据集合，候选动作数据集合可以通过具有L个列向量的动作矩阵表示，L个列向量的列标识与L个信息一一对应，L为大于或者等于2的整数，列向量的值表征对应信息的动作数据，动作数据表征被选择的信息在候选推荐信息集合中，随机地将该动作矩阵的某两个取值不同的分量(任意两个不同的列向量)进行对换处理，得到新的动作矩阵，任意两个不同的列向量的值表征对应任意两个不同信息的动作数据，例如，信息i对应的动作数据为1，信息j对应的动作数据为0，在经过对换处理后，信息i对应的动作数据为0，信息j对应的动作数据为1，重复上述随机对换操作多次，得到多个新的动作矩阵，多个新的候选动作数据集合对应于多个新的候选推荐信息集合。

作为示例，在获取到多个新的候选推荐信息集合以及通过动作网络决策的候选推荐信息集合后，可以通过评价网络对这些候选推荐信息集合进行评分，得到对应每个候选推荐信息集合的价值函数值，并选取价值函数值，超过价值函数阈值或者降序排序靠前的多个候选推荐信息集合，作为步骤101中的候选推荐信息集合。

在一些实施例中，上述通过动作评价框架中的动作网络生成具有L个列向量的单元矩阵，可以通过以下技术方案实现：通过动作评价框架中的动作网络生成对应每个信息的动作数据；根据每个信息的动作数据，对L个信息进行降序排序；将L个信息中排序靠前的多个信息的动作数据更新为一，并将其他信息的动作数据更新为零；其中，其他信息为L个信息中除了排序靠前的多个信息之外的信息；将更新后的每个信息的动作数据转化为对应信息的列向量，以得到具有L个列向量的单元矩阵。

作为示例，动作网络根据状态特征以及信息特征进行决策得到的候选动作数据集合(对应候选推荐信息集合)可以是不属于动作空间的原始动作数据集合，例如，候选动作数据集合中的动作数据为任意实数值，而不是预先设定的动作空间的值(例如，0和1)，故而在动作空间中搜索与原始动作数据集合最相近的多个候选动作数据集合，令动作空间为

A₁为0表征第一个信息不被选择，A₁为1表征第一个信息被选择，在计算出原始动作数据集合PA_t，例如，PA_t中有L个列向量，第一个列向量的值为0.9，第二个列向量的值为0.95，第三个列向量的值为0.4，…，第L个列向量的值为0.75，对PA_t各分量进行降序排序，对排序在前K个的分量(动作数据)取值为1(将L个信息中排序靠前的多个信息的动作数据更新为一，以一作为对应信息的动作数据)，其他分量取值为0(将其他信息的动作数据更新为零，以零作为对应信息的动作数据)，K为候选推荐信息集合的信息数目，将更新后的每个信息的动作数据转化为对应信息的列向量，以得到具有L个列向量的动作矩阵。

在一些实施例中，上述通过动作评价框架中的动作网络生成具有L个列向量的单元矩阵之前，可以通过以下技术方案实现：初始化动作评价框架的评价网络以及动作网络；针对动作评价框架进行K次迭代处理，并在每次迭代处理过程中执行以下处理：根据期望项与多样性特征的权衡系数，对动作评价框架的动作网络以及评价网络进行T轮更新处理，并根据第T轮更新处理结果，更新权衡系数；其中，T与K均为大于或者等于2的整数；将第K次迭代处理得到的动作网络确定为用于生成具有L个列向量的动作矩阵的动作网络。

作为示例，通过动作评价框架中的动作网络生成具有L个列向量的单元矩阵之前，需要训练动作评价框架以及并在训练动作评价框架时更新期望项(可以理解为时候奖励反馈)与多样性特征(可以理解为约束反馈)之间的权衡系数，奖励反馈和约束反馈的权衡系数十分重要，它会影响评价网络对不同候选动作数据集合的动作价值估计准确度以及训练稳定性，因此设计随训练进度自适应调整的权衡系数具有重要意义。在第t轮状态s_t下采取动作a_t将获得奖励反馈r(s_t,a_t)和约束反馈c(s_t,a_t)，令约束函数C(s_t)＝F(c(s_t,a_t),…,c(s_N,a_N))，N为推荐轮次的总数目，F函数是根据不同情境自定义的，μ为初始状态服从的分布，奖励反馈如公式(7)所示：

其中，S为状态空间，π为候选动作数据集合的采样基础，通过奖励约束策略优化求解以下问题，参见公式(8)：

其中，

γ^t为第t轮的参数，r_t为第t轮的奖励反馈，μ(s)为状态特征，

为评价网络输出的估计奖励反馈，C(s)是每轮推荐的候选推荐信息集合的预测约束反馈。

采取拉格朗日松弛法求解上述公式(8)的问题，即将上述公式(8)的问题转化为以下优化问题，参见公式(9)：

公式(9)所描述的优化问题是求解θ以最大化

再固定θ来求解λ以最小化

求解θ的过程即为更新动作网络的网络，求解λ与求解θ不在相同时间维度上，因此采用双重时间维度方法求解公式(9)中的优化问题，在快时间维度的层面上，动作评价框架的参数一直在更新以最大化收益J_R，在慢时间维度的层面上，拉格朗日乘子也在缓慢更新以最大化J_C，动作评价框架的最终目标是要找到一个鞍点(θ^*(λ^*),λ^*)，奖励约束策略优化中引入可变权衡参数λ和两个评价网络，一个评价网络负责拟合关于实际奖励的回报(估计奖励反馈)，另一个负责拟合实际约束的回报(估计约束反馈)，再将两者利用λ加权得到动作价值函数值，参见公式(10)：

其中，

为评价网络输出的针对每轮推荐的估计收益反馈，r(s，a)为评价网络输出的针对每轮推荐的估计奖励反馈，c(s，a)为评价网络输出的针对每轮推荐的估计约束反馈，

是评价网络输出的针对多轮推荐得到的价值函数值，

是评价网络输出的针对多轮推荐得到的奖励反馈，

是评价网络输出的针对多轮推荐得到的约束反馈。

将评价网络、动作网络和λ依次更新，三者的学习率(lr)满足如下关系：lr(λ)<lr(动作网络)<lr(评价网络)，训练过程中包括两个时间维度，即包括两种循环，大循环是以迭代次数作为时间维度进行更新(更新λ)，小循环是以推荐轮次作为时间维度进行更新(更新动作网络和评价网络)，针对每次迭代，会进行多轮次推荐，即多次更新动作网络和评价网络后更新一次λ，针对动作评价框架进行K次迭代处理，并在每次迭代处理过程中进行T轮推荐，每轮推荐的过程中更新动作网络与评价网络的参数，在完成T轮推荐之后，则相当于完成了一次迭代，在完成一次迭代之后更新权衡系数，参见公式(11)：

其中，λ_k+1是每次迭代之后更新得到的评价网络的参数，λ_k是更新之前权衡系数，Γ_λ为投影算子，Γ_λ设置为将λ限制在[0，λ_max]区间的算子；

设置为对应π_θ分布的候选推荐信息集合在最近T轮中对应的平均约束违反率；α设置为候选推荐信息集合的约束违反率的上界，需要根据具体情境确定。

在一些实施例中，上述根据期望项与多样性特征的权衡系数，对动作评价框架的动作网络以及评价网络进行T轮更新处理，可以通过以下技术方案实现：针对动作评价框架进行T轮迭代处理，并在每轮迭代处理过程中执行以下处理：通过动作网络预测候选推荐信息集合样本，并获取对应候选推荐信息集合样本的期望项以及多样性特征；通过评价网络确定对应候选推荐信息集合样本的价值函数值，并根据期望项、多样性特征、权衡系数以及价值函数值，确定对应候选推荐信息集合样本的综合价值；获取综合价值与价值函数值之间的误差，并根据对应误差的梯度项更新评价网络的参数；根据期望项、多样性特征以及权衡系数，确定对应候选推荐信息集合样本的惩罚性价值函数值，并根据对应惩罚性价值函数的梯度项更新动作网络的参数。

作为示例，首先输入实际约束反馈c、估计反馈约束C、阈值α、评价网络的参数、动作网络以及λ的学习率，初始化动作网络的参数θ，评价网络的参数v，拉格朗日乘子λ，首先依据迭代次数K进行循环计算，在每次迭代过程中，进行T轮推荐，在推荐过程中，候选推荐信息集合(候选动作数据集)为{a_t}，执行推荐之后的状态特征为s_t+1，实际约束反馈为c_t，根据实际奖励反馈r_t、实际约束反馈c_t以及评价网络输出的价值函数值

确定综合价值，参见公式(12)：

其中，

为综合价值，r_t为实际奖励反馈，c_t为实际约束反馈，γ为参数，

为对应状态特征s_t下动作评价框架输出的价值函数值。

基于所确定的综合价值，对评价网络的参数进行更新，并对动作网络的参数进行更新，参见公式(13)和(14)：

其中，v_k+1是每次推荐之后更新得到的评价网络的参数，v_k是更新之前的评价网络的参数，θ_k是更新之前的动作网络的参数，θ_k+1是每次推荐之后更新得到的动作网络的参数。Γ_θ为投影算子，Γ_θ设置为恒等算子。

在步骤1014中，结合软注意力机制与硬注意力机制获取多个候选推荐信息集合。

在一些实施例中，上述结合软注意力机制与硬注意力机制获取多个候选推荐信息集合，可以通过以下技术方案实现：获取L个信息中对应每个信息的局部观测数据，并将局部观测数据编码为观测特征；根据硬注意力机制，并结合每个信息的观测特征，确定L个信息中与第i信息之间存在交互关系的至少一个交互信息；根据软注意力机制确定每个交互信息与第i信息之间的交互权重，根据交互权重确定所有交互信息对应第i信息的交互特征；根据第i信息的观测特征以及交互特征，通过策略网络确定对应第i信息的策略预测值；其中，L为大于或者等于2的整数，i为取值从1开始递增的整数，且i的取值范围满足1≤i≤L；根据L个信息中每个信息的策略预测值，获取候选推荐信息集合。

作为示例，可以将L个信息设定为L个智能体，其中，L为大于或者等于2的整数，多智能体环境中大量智能体间存在交互关系，申请人在实施本申请实施例时发现决策过程中每个智能体并不需要一直与所有智能体保持交互，而只需要与邻居智能体交互，通过本申请实施例提供的基于人工智能的信息推荐方法，对每两个智能体间的交互关系进行建模，即判断两个智能体是否存在交互，如果交互存在，则判断该交互对智能体策略影响的重要性。将多智能体系统建模为图网络，即全连接拓扑图。图网络中每个节点表示一个智能体，即每个信息表示一个智能体，作图网络中的一个节点，节点间的连边表示两个智能体间的交互关系，即两个信息之间的交互关系，采用两种注意力机制来进行推理智能体间的交互机制，首先通过硬注意力机制确定无关交互边，根据硬注意力机制，并结合每个信息的观测特征，确定L个信息中与第i信息之间存在交互关系的至少一个交互信息，i为取值从1开始递增的整数，且i的取值范围满足1≤i≤L，再通过软注意力机制，判断经过硬注意力机制保留下的交互边的重要性权重，根据软注意力机制确定每个交互信息与第i信息之间的交互权重，根据交互权重确定所有交互信息对应第i信息的交互特征，即通过硬注意力机制以及软注意力机制获取每个信息(智能体)的交互信息以及对应每个交互信息的交互权重。

作为示例，硬注意力机制是通过观测特征实现的，观测特征是经过局部观测数据编码得到的，对于第i个信息(智能体)，其局部观测数据

被多层感知机编码成观测特征

局部观测数据由该信息在过往至当前轮次中被挑选比率、该信息与自身不容许集中信息同时被挑选的平均比率、该信息被挑选的轮次中整体动作的平均收益与标准差组成，根据第i信息的观测特征以及交互特征，通过策略网络确定对应第i信息的策略预测值；根据L个信息中每个信息的策略预测值，获取候选推荐信息集合。通过两阶段的图注意力网络得到约简图，其中，每个信息只连接到需要交互的信息。利用软注意力机制输出的对交互信息的观测特征进行加权处理得到交互特征x_i，最后利用策略梯度算法强化学习得到每个智能体的策略，a_i＝π(h_i，x_i)为第i个信息的动作数据，π为最终进行动作决策的全连接层，其中，h_i,x_i分别表示第i个信息的观测特征和其他信息对第i个信息交互特征。

在一些实施例中，上述根据硬注意力机制，并结合每个信息的观测特征，确定L个信息中与第i信息之间存在交互关系的至少一个交互信息，可以通过以下技术方案实现：将第i信息的观测特征与不同于第i信息的每个其他信息的观测特征进行合并处理，得到对应每个其他信息的合并特征；通过双向时间长短期记忆人工神经网络对每个合并特征进行映射处理，并对映射处理结果进行最大似然处理，得到对应每个其他信息的硬注意力值；将硬注意力值大于硬注意力阈值的其他信息，确定为L个信息中与第i信息之间存在交互关系的交互信息。

作为示例，首先用双向长短期记忆人工神经网络实现硬注意力机制以确定智能体间是否存在交互关系，将第i信息的观测特征与不同于第i信息的每个其他信息的观测特征进行合并处理，得到对应每个其他信息的合并特征，例如，对于第i个信息和第j个信息，将第i个信息和第j个信息的观测特征合并处理，得到第i个信息对应第j个信的合并特征(h_i,h_j)，将合并特征(h_i,h_j)输入双向时间长短期记忆人工神经网络得到映射处理结果h_i,j＝f(Bi-LSTM(h_i,h_j))，其中f是一个全连接层，再利用gumbel-softmax函数(最大似然处理)进行最大似然处理，得到对应每个其他信息的硬注意力值

得到第i个信息和第j个信息连边的0-1之间的实数值，若是

大于硬注意力阈值，则第j个信息是与第i信息之间存在交互关系的交互信息，从L个信息中获取所有与第i信息之间存在交互关系的交互信息，得到第i个信息的子图G_i。

在一些实施例中，上述根据软注意力机制，确定每个交互信息与第i信息之间的交互权重，根据交互权重确定所有交互信息针对第i信息的交互特征，可以通过以下技术方案实现：针对每个交互信息执行以下处理：获取第i信息的第i嵌入特征，并根据软注意力机制的查询参数对第i嵌入特征进行线性映射，得到对应第i信息的查询特征；获取交互信息的交互嵌入特征，并根据软注意力机制的键参数对交互嵌入特征进行线性映射，得到对应交互信息的键特征；确定与键特征、查询特征以及硬注意力值成指数正相关的软注意力值，以作为对应交互信息的交互权重；根据对应交互信息的交互权重，对每个交互信息的观测特征进行加权处理，得到所有交互信息针对第i信息的交互特征。

作为示例，使用软注意力机制来学习子图G_i中每条边的交互权重，G_i中第i个信息和第j个信息连边的交互权重为

其中e_i和e_j分别为第i个信息和第j个信息的嵌入特征，W_k和W_q分别为键线性映射与查询线性映射，W_k将e_j转换为一个键向量，W_q将e_i转换为一个查询向量。

在一些实施例中，上述根据L个信息中每个信息的策略预测值，获取候选推荐信息集合，可以通过以下技术方案实现：执行以下任意一种处理：从L个信息中获取所对应的策略预测值大于策略预测阈值的多个信息，并从多个信息采样得到K个采样信息，以组成候选推荐信息集合；根据每个信息策略预测值，对L个信息进行降序排序处理，并获取排序靠前的K个信息，以组成候选推荐信息集合；其中，K为候选推荐信息集合中推荐信息的数目。

作为示例，利用策略梯度算法强化学习得到每个信息的推荐策略，a_i＝π(h_i，x_i)为第i个信息的动作数据，π为最终进行动作决策的全连接层，其中，h_i,x_i分别表示第i个信息的观测特征和其他信息对第i个信息交互特征，最终进行动作决策的全连接层为每个信息输出一个[0，1]区间的实数作为策略预测值，为得到每轮的最终决策，可采取三种方式：对第i个信息，若图注意力网络在第i个信息的输出大于0.5，则挑选第i个信息；将图注意力网络为所有信息输出的实值降序排序，挑选排序前K个实值对应的信息；还可以假设针对信息i输出a_i，计算采样概率，参见公式(15)：

U～uniform(0，1)，b_i＝a_i-log(-logU) (15)；

通过公式(15)计算得到b_i，b_i服从对应于a_i的gumbel分布，挑选b_i中排序靠前的K个值对应的信息，此时对b_i中排序靠前的K个值的顺序做了区分，进而可以将上述有序概率转为无序概率，即对每个新的排名进行K！次置换，对K！个不同的有序概率求平均，得到无序概率，由于求K！个概率计算量较大，可随机生成针对K各信息的M个置换，并对相应的M个概率求平均，根据图注意力网络的输出采样得到每轮最终决策的概率。

图注意力网络可以通过最小化每轮推荐的损失函数进行更新，第t轮推荐的损失函数为-r_t+λc_t，其中，r_t是基于主服务器的非线性反馈函数h'为图注意力网络针对第t轮决策计算的奖励反馈，c_t是第t轮决策的约束违反率(约束反馈)。

在步骤1015中，通过伯努利分布获取多个候选推荐信息集合。

在一些实施例中，上述通过伯努利分布获取多个候选推荐信息集合，可以通过以下技术方案实现：获取训练样本集合，其中，训练样本集合包括与N轮历史推荐一一对应的N个候选推荐信息集合样本，N为大于或者等于2的整数；对N轮历史推荐进行划分，得到多个历史推荐周期，其中，每个历史推荐周期包括M轮历史推荐，M为大于1且小于N的整数；初始化目标函数，其中，目标函数用于表征最大化M轮历史推荐中的惩罚性价值函数值，目标函数包括对应第q历史推荐周期的伯努利分布以及对应第q-1历史推荐周期的伯努利分布，q为大于或者等于2的整数；在每个历史推荐周期中，执行以下处理：获取对应历史推荐周期的伯努利分布，并根据伯努利分布生成对应每轮历史推荐的候选推荐信息集合样本；确定对应每个候选推荐信息集合样本的惩罚性价值函数值，并代入目标函数，以针对对应第q历史推荐周期的伯努利分布进行目标函数的梯度下降处理，得到对应第q+1历史推荐周期的伯努利分布；基于最后一个历史推荐周期的伯努利分布生成候选推荐信息集合。

作为示例，对于任意

A_t,i是否为1表示第t轮信息i是否被挑选，A_t,i服从均值为μ_i的伯努利分布，对于任意

令初始的μ_i为0.5，Q∈{1,2,...,int(T/N)}，(int(T/N)为T/N的下取整，N是一个epoch的推荐轮数，T为正整数)，t∈{QN+1,...,min{(Q+1)N,T}}，在每个分量i∈[L]上，从均值为μ_i的伯努利分布抽样得到A_t,i，对于t＝min{(Q+1)N,T}，根据h'(.)-λc(.)为{A_QN+1,...,A_{min{(Q+1)N,T}}}中的每个向量计算分值，其中h'(.)为来自主服务器的奖励收益，c(.)为多样性约束违反率，对分值排名前百分之ρ的向量取平均得到新的(μ₁,μ₂,...,μ_L)向量，为使由(μ₁,μ₂,...,μ_L)生成的样本分数尽可能高，需要对候选推荐信息集合的布局有更准确的认识，这要求训练轮次的长度N应该尽可能大，然而大的N值将导致(μ₁,μ₂,...,μ_L)更新缓慢因而收敛缓慢，使得交叉熵方法无法在在线决策环境中发挥优势，因此将一个批次的训练数目N等分成多个长为M的时间片段，在每个小片段临界处根据近端策略优化对(μ₁,μ₂,...,μ_L)做多步梯度下降处理，对于j∈{1,2,...,int(N/M)}，当t＝min{QN+(j+1)n,T}时，以公式(16)为目标函数，采取下降梯度算法更新u_new,i，参见公式(16)：

其中，公式(16)表征最大化M轮历史推荐中的惩罚性价值函数值，u_old为距t＝min{QN+(j+1)n,T}时刻最近的M轮中采样遵照的参数，u_new为从min{QN+(j+1)n+1,T}轮开始往后M轮推荐中采样遵照的参数，若A_t,i＝1，则P(A_t,i|u_i)＝u_i；若A_t,i＝0，则P(A_t,i|u_i)＝1-u_i，每隔M轮(一个历史推荐周期)更新J_t，并对J_t关于u_new做多步梯度下降以实现在线决策所需的及时参数更新，将根据最后一个历史推荐周期更新得到的u_new,i，并根据更新得到的u_new,i构建伯努利分布进行采样得到候选推荐信息集合，采样时，当u_new,1为0.6时，可以生成针对第1个信息的随机数，当随机数不大于0.6时，表征第1个信息的动作数据为1，当随机数大于0.6时，表征第1个信息的动作数据为0。

在一些实施例中，参见图3C，图3C是本申请实施例提供的基于人工智能的推荐方法的流程示意图，将结合图3C示出的步骤进行说明，步骤101中确定每个候选推荐信息集合的信息特征的期望项和不确定项可以通过步骤1016-1017实现。

在步骤1016中，将每个候选推荐信息集合的信息特征，在置信神经网络中进行正向传播，以得到对应每个候选推荐信息集合的期望项。

在步骤1017中，获取置信神经网络的梯度函数，并将每个候选推荐信息集合的信息特征代入梯度函数，以得到对应每个候选推荐信息集合的不确定项。

作为示例，置信神经网络针对每个候选动作数据集合x(对应的信息特征)计算对应候选动作数据集合的上置信界特征，参见公式(17)和公式(18)：

U_x＝h′(x；θ)+γVar (18)；

其中，Var是对应候选动作数据集合x的不确定项，h′(x；θ)是对应候选动作数据集合x的期望项，θ表征置信神经网络的参数，Z^-1和γ是参数。基于不确定项以及期望项，得到对应候选动作数据集合x的上置信界特征U_x，再确定候选动作数据集合x的多样性特征C(x)，利用上置信界特征(包括奖励反馈)与多样性特征(用于表征约束违反程度的约束反馈)的权衡系数λ对上置信界特征U_x和多样性特征C(x)进行聚合，得到推荐指数，将推荐指数最高的候选动作数据集合作为最终决策，候选动作数据集合指的是动作集合，通常用L维向量标识，每个维度的向量用于表征对应维度的信息是否被选择。

在一些实施例中，根据以下更新流程对非线性反馈函数进行估计，得到估计的非线性反馈函数h'(x；θ)，首先进行置信神经网络的初始化，对于1≤l<L₁，令

W_{i,j}～N(0,4/m)，对于L₁，令W_l＝(W^T-W^T)，W_{i}～N(0，2/m)，在第t轮推荐时，获取候选动作数据集合，置信神经网络针对每个候选动作数据集合x(对应的信息特征)计算对应候选动作数据集合的上置信界特征，参见公式(19)和公式(20)：

U_t,x＝h′(x；θ_t-1)+γ_t-1Var_t (20)；

其中，Var_t是对应候选动作数据集合x的不确定项，h′(x；θ_t-1)是对应候选动作数据集合x的期望项，θ_t-1表征置信神经网络的非线性反馈函数是基于前t-1轮推荐得到的，

和γ_t-1是基于前t-1轮推荐得到的参数，基于不确定项以及期望项，得到对应候选动作数据集合x上置信界特征U_t,x，再确定候选动作数据集合x的多样性特征C(x)，利用上置信界特征(包括奖励反馈)与多样性特征(用于表征约束违反程度的约束反馈)的权衡系数λ对上置信界特征U_t,x和多样性特征C(x)进行聚合，得到推荐指数，将推荐指数最高的候选动作数据集合作为第t轮推荐的最终决策，候选动作数据集合指的是动作集合，在更新参数时，对于参数Z_t，参见公式(21)进行更新：

Z_t＝Z_t-1+g(x_t；θ_t-1)g(x_t；θ_t-1)^T/m (21)；

其中，Z_t-1是基于前t-1轮推荐更新得到的参数，Z_t是基于第t轮推荐更新得到的参数，g(x_t；θ_t-1)是将x_t代入非线性反馈函数h′(x；θ_t-1)得到的梯度。

在一些实施例中，在更新参数时，对于θ_t，参见公式(22)进行更新：

其中，从θ＝θ₀开始，对损失函数L(θ)做J步梯度下降，θ_t是最后一次迭代所得，即θ⁽⁰⁾＝θ₀，

θ_t＝θ^(j)，置信神经网络中设置γ_t为0.1，可根据不同情况进行调整，主服务器遵循置信神经网络的上述流程不断更新非线性反馈函数h'(.)，在每轮推荐过程中，主服务器将收集每个从服务器提供的候选推荐信息集合，候选推荐信息集合可以通过候选动作数据集合进行表示，假设动作数据为1表征信息被选取，动作数据为0表示未被选择，则可以存在如下两个候选动作数据集合：(1，1，0)用于表征包括第一个信息、第二个信息的候选推荐信息集合，(0，1，1)用于表征包括第二个信息、第三个信息的候选推荐信息集合。

在步骤102中，对每个候选推荐信息集合的期望项和不确定项进行聚合处理，得到每个候选推荐信息集合的上置信界特征。

作为示例，参见公式(23)和公式(24)：

U_x＝h′(x；θ)+γVar (24)；

其中，Var是对应候选动作数据集合x的不确定项，h′(x；θ)是对应候选动作数据集合x的期望项，θ表征置信神经网络的参数，Z^-1、γ和m是参数，

基于不确定项以及期望项，得到对应候选动作数据集合x的上置信界特征U_x，期望项用于表征对应候选推荐信息集合的期望收益，不确定项表征期望收益的不确定性，上置信界特征实际上是考虑了不确定性的期望收益。

在步骤103中，确定对应每个候选推荐信息集合的多样性特征。

在一些实施例中，参见图3D，图3D是本申请实施例提供的基于人工智能的推荐方法的流程示意图，将结合图3D示出的步骤进行说明，步骤103中确定对应每个候选推荐信息集合的多样性特征可以通过步骤1031-1032实现。

在步骤1031中，对每个候选推荐信息集合进行多次推荐信息提取处理，对应得到多个推荐信息子集。

作为示例，在每次推荐信息提取过程中提取两个推荐信息，且每个推荐信息子集包括在对应的推荐信息提取过程中所提取的两个推荐信息。

在步骤1032中，获取推荐信息子集的总数目、以及不满足多样性约束的推荐信息子集的数目，确定不满足多样性约束的推荐信息子集的数目与总数目之间的比值，并确定与比值对应的多样性特征。

作为示例，对每个候选推荐信息集合进行多次推荐信息提取处理，对应得到多个推荐信息子集，在每次推荐信息提取过程中提取两个推荐信息，且每个推荐信息子集包括在对应的推荐信息提取过程中所提取的两个推荐信息，例如，候选推荐信息集合中包括10个信息，进行10选2的计算，进行多次提取后可以获得45个推荐信息子集，获取推荐信息子集的总数目、以及不满足多样性约束的推荐信息子集的数目，多样性约束要求推荐信息子集中的两个信息之间的特征距离大于特征距离阈值，假设有20个推荐信息子集的两个信息之间的特征距离大于特征距离阈值，则不满足多样性约束的推荐信息子集的数目为20，确定不满足多样性约束的推荐信息子集的数目与总数目之间的比值，并确定与比值对应的多样性特征。

在步骤104中，根据每个候选推荐信息集合的上置信界特征以及约束违反特征，确定对应候选推荐信息集合的推荐指数。

作为示例，利用上置信界特征(包括奖励反馈)与多样性特征(用于表征约束违反程度的约束反馈)的权衡系数λ对上置信界特征和多样性特征进行聚合，得到推荐指数。

在步骤105中，将推荐指数最高的候选推荐信息集合作为待推荐信息集合，以执行针对待推荐信息集合的推荐操作。

在一些实施例中，还可以根据教师-学生机制，并结合步骤101中获取的多个候选推荐信息集合，生成新的候选推荐信息集合；或者根据贝塔分布采样机制，并结合步骤101中获取的多个候选推荐信息集合，生成新的候选推荐信息集合。

在一些实施例中，上述根据教师-学生机制，并结合获取的多个候选推荐信息集合，生成新的候选推荐信息集合，可以通过以下技术方案实现：获取每个历史候选推荐信息集合的期望项以及多样性特征，以确定对应每个历史候选推荐信息集合的惩罚性价值函数值，并将所对应的惩罚性价值函数值最高的历史候选推荐信息集合确定为教师集合，将每个候选推荐信息集合确定为学生集合；针对任意一个学生集合，执行以下处理至少之一：将任意一个学生集合以及教师集合按照算子进行映射处理，得到新的候选推荐信息集合，或者将任意一个学生集合以及不同于任意一个学生集合的另一个学生集合按照算子进行映射处理，得到新的候选推荐信息集合。

作为示例，获取每个历史候选推荐信息集合的期望项以及多样性特征，以确定对应每个历史候选推荐信息集合的惩罚性价值函数值(h'(.)-λc(.))，历史候选推荐信息集合为在执行步骤101之前参与推荐的被确定为待推荐信息集合的候选推荐信息集合，将所对应的惩罚性价值函数值最高的历史候选推荐信息集合确定为教师集合，将通过步骤1011-1015获取的每个候选推荐信息集合确定为学生集合，在教师集合与学生集合之间、学生集合与学生集合之间进行交互，产生新的候选推荐信息集合，设教师候选推荐信息集合为T，学生集合为S，针对任意一个学生集合，可以将任意一个学生集合以及教师集合按照算子进行映射处理，得到新的候选推荐信息集合，从S集合中任选一个作为学生集合的候选推荐信息集合A，令B＝A+rand*(T-A)(映射处理)，rand是[0，1]区间的随机数，候选推荐信息集合A存在对应的候选动作集合A，例如{1，0，0，0，1}，表征第一个信息和第五个信息被选择，候选推荐信息集合T(教师集合)存在对应的候选动作集合T，例如{0，1，1，0，0}，表征第二个信息和第三个信息被选择，经过映射得到的候选动作集合B为{0.8，1.1，1.5，0，0.7}，对将映射处理结果的分量进行排序，并将排在前K位的分量设为1，其他分量设为0，得到新的候选推荐信息集合B，新的候选推荐信息集合中包括第二个信息和第三个信息，重复上述操作若干次可以得到多个新的候选推荐信息集合，或者将任意一个学生集合以及不同于任意一个学生集合的另一个学生集合按照算子进行映射处理，得到新的候选推荐信息集合，从S集合中任选两个作为学生集合的候选推荐信息集合A和B分别对应有候选动作集合A和候选动作集合B，针对候选推荐信息集合A确定惩罚性价值函数值h'(A)-λc(A)，针对候选推荐信息集合B确定惩罚性价值函数值h'(B)-λc(B)，若h'(A)-λc(A)<h'(B)-λc(B)，C＝A+rand*(B-A)，否则C＝A+rand*(A-B)，h'(A)-λc(A)<h'(B)-λc(B)，通过算子C＝A+rand*(B-A)进行映射，候选推荐信息集合A存在对应的候选动作集合A，例如{1，0，0，0，1}，表征第一个信息和第五个信息被选择，候选推荐信息集合B存在对应的候选动作集合B，例如{0，1，1，0，0}，表征第二个信息和第三个信息被选择，经过映射得到的候选动作集合C为{0.8，1.1，1.5，0，0.7}，将映射处理结果的分量进行排序，并将排在前K位的分量设为1，其他分量设为0，得到新的候选推荐信息集合C，新的候选推荐信息集合中包括第二个信息和第三个信息。

在一些实施例中，上述根据贝塔分布采样机制，并结合获取的多个候选推荐信息集合，生成新的候选推荐信息集合，可以通过以下技术方案实现：针对每个候选推荐信息集合执行以下处理：对候选推荐信息集合的每个推荐信息的动作数据进行扰动处理，得到候选推荐信息集合的每个动作数据的扰动值；对其他信息的动作数据进行扰动处理，得到每个其他信息的扰动值，其中，其他信息为L个信息中除了推荐信息之外的信息，L为大于或者等于2的整数；基于对应每个推荐信息的扰动值，获取对应推荐信息的贝塔分布，并基于对应每个其他信息的扰动值，获取对应其他信息的贝塔分布；从对应推荐信息的贝塔分布进行采样，得到对应每个推荐信息的采样动作数据，并从对应其他信息的贝塔分布进行采样，得到对应每个其他信息的采样动作数据；基于对应每个推荐信息的采样动作数据、对应每个其他信息的采样动作数据，对其他信息以及推荐信息进行混合降序排序，并获取排序靠前的K个信息，以组成新的候选推荐信息集合；其中，K为候选推荐信息集合中推荐信息的数目。

作为示例，对候选推荐信息集合的每个推荐信息的动作数据进行扰动处理，得到候选推荐信息集合的每个动作数据的扰动值(针对被推荐的信息)，对其他信息的动作数据进行扰动处理，得到每个其他信息的扰动值(针对L个信息中未被推荐的信息)，其中，其他信息为L个信息中除了推荐信息之外的信息，L为大于或者等于2的整数，获取候选推荐信息集合对应的候选动作集合A(针对L个信息的动作数据)，候选动作集合A可以用0-1整数值向量A表示，对应0(动作数据)的分量表征对应信息未被选择，对应1(动作数据)的分量表征对应信息被选择，对整数值向量A的各分量(各动作数据)进行扰动并将扰动值作为贝塔(beta)分布的参数，基于对应每个推荐信息的扰动值，获取对应推荐信息的贝塔分布，并基于对应每个其他信息的扰动值，获取对应其他信息的贝塔分布，例如，构造[0，1]区间实值向量B∈[0，1]^L，对于i∈[L]，若A_i＝1则令B_i＝1-τ；否则令B_i＝τ，以(B_i，1-B_i)为贝塔分布的参数，从对应推荐信息的贝塔分布进行采样，得到对应每个推荐信息的采样动作数据，并从对应其他信息的贝塔分布进行采样，得到对应每个其他信息的采样动作数据，从对应每个信息的贝塔分布中随机采样出一个实值C_i，基于C₁,C₂,...,C_L构成向量C，基于对应每个推荐信息的采样动作数据(实数值)、对应每个其他信息的采样动作数据(实数值)，对其他信息以及推荐信息进行混合降序排序，并获取排序靠前的K个信息，以组成新的候选推荐信息集合；其中，K为候选推荐信息集合中推荐信息的数目，对C中分量(实数值)进行排序，排在前K位的分量设为1(表征动作数据为1，被选择)，其他分量设为0(表征动作数据为0，不被选择)，得到新的候选推荐信息集合C。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

以推荐系统为例，推荐系统每一轮与用户交互时，从L(L为大于或者等于2的整数)个信息中挑选K个信息(K为大于或者等于2的整数)推荐至用户的终端，在执行推荐操作后收到用户对K个信息的总反馈，推荐系统的评价体系中希望针对用户进行多轮交互后得到的总收益尽可能大，可拆解为执行每轮推荐操作后收到的总反馈尽可能大，并且参与每轮推荐的各信息的多样性尽可能大，多样性尽可能大表征参与每轮推荐的各信息的特征间的欧式距离大于欧氏距离阈值。

在一些实施例中，首先将推荐系统优化问题的性质和约束形式进行了转换，再采用主从服务器架构估计非线性反馈函数以及多样性采样的较优解。

在一些实施例中，在推荐系统中，在每轮推荐时从L个信息中选取K个信息是组合老虎机问题，在每轮选取过程中，针对L个信息的每轮选取的动作数据用二元向量A_t＝(A_t,1,A_t,2,...,A_t,L)∈{0,1}^L表示，其中，

A_t,L为第t轮推荐中第L个信息的动作数据，动作数据为1或者为0，分别用于表征被选择和不被选择，每轮推荐的总奖励是A_t的非线性反馈函数加上服从高斯发布的噪音项，即h(A_t)+ε_t，其中，噪音项ε_t不是必要的，h(A_t)是A_t的非线性反馈函数，通过动作数据的二元向量表示，将组合老虎机问题转换为上下文老虎机问题，针对上下文老虎机问题，可以使用上下文上置信算法，在平衡探索未知数据与利用已知数据的同时估计非线性反馈函数h(.)。

在一些实施例中，将推荐系统中复杂且不可微分的多样性约束转化成可微分的线性约束，多样性约束要求每轮推荐的每两个信息的特征向量的间距大于欧式距离阈值，这涉及多维度运算以及取绝对值再截断的不可微过程，为使多样性约束可微分，根据“每两个信息的特征向量的间距大于欧式距离阈值”这一多样性约束为每个信息构造不容许信息集合，若存在信息i与信息j同时身处对方的不容许信息集合(也即信息i与信息j的特征向量的间距小于或者等于欧式距离阈值)中，针对处于互相的不容许信息集合的信息i和信息j，Ai与Aj的和大于1则表征信息i和信息j同时被推荐，违反了多样性约束，即对于任意的A_t＝(A_t,1,A_t,2,...,A_t,L)，尽量要求A_t,i+A_t,j≤1，这是可微分的简单线性约束。

在一些实施例中，参见图4，图4是本申请实施例提供的基于人工智能的信息推荐方法的主从服务器架构图，主服务器主要用于估计非线性反馈函数h(.)，为从服务器提供代理奖励(Surrogate Reward)作为收益反馈，收益反馈中包括奖励反馈h'(.)和约束反馈，奖励反馈是估计得到的非线性反馈函数实际值，同时结合多样性约束违反程度构造对候选推荐信息集合的评估器(Sample Evaluator)，主服务器和从服务器左侧的连接线是单向的，表征代理奖励的箭头向下，用于表征主服务器将奖励反馈发送至从服务器，表征评估器(Sample Evaluator)的箭头向下，用于表征主服务器将约束反馈发送至从服务器，主服务器和从服务器右侧的连接线是单向的，表征从服务器将满足多样性约束的候选推荐信息集合发送至主服务器，以使主服务器选择多个候选推荐信息集合中推荐指数最高的候选推荐信息集合进行决策。

在一些实施例中，从服务器接收主服务器提供的收益反馈，并据此产生候选推荐信息集合供主服务器决策，从服务器包括优势互补的六个服务器：由优化求解器Gurobi组成的解决策略采样器(以下简称第一从服务器)；Wolpertinger采样器(以下简称第二从服务器)，Wolpertinger采样器融合了原始-对偶方法和求解带有大规模离散动作空间的强化学习方法Wolpertinger策略；图注意力网络采样器(以下简称第三从服务器)：将每个信息看成一个智能体并作为图注意力网络的节点，借助图注意力网络的正向传播来推理非线性反馈函数中不同信息间的联系，为每个信息做出综合决策；改进交叉熵方法-增强深度学习进化采样器(以下简称第四从服务器)：融合了进化策略交叉熵算法和经典强化学习算法(近端策略优化)，并对多样性约束和非线性反馈函数进行权衡，选出综合表现较佳的候选推荐信息集合；随机采样器(以下简称第五从服务器)：从{0,1}^L集合中随机选取多个满足基数约束的向量；教师-学生采样器(以下简称第六从服务器)：以历史最佳的候选推荐信息集合为教师，其他从服务器提供的候选推荐信息集合为学生，在教师-学生、学生-学生间进行交互，产生新的候选推荐信息集合。

在一些实施例中，主服务器用于实施上下文上置信界算法，以处理带有非线性反馈的上下文老虎机问题，线性上置信界算法主要估计具有线性反馈老虎机问题的反馈函数，上下文上置信界算法则基于线性上置信界算法并结合深度神经网络估计非线性反馈函数，本申请实施例提供的基于人工智能的信息推荐方法中利用上下文上置信界算法求解带有复杂约束的组合老虎机问题，利用Wolpertinger策略可用于求解具有大规模离散动作空间的强化学习问题，它通过动作评价框架在动作空间巨大且要求复杂约束时来产生可能不可行的原始动作数据集合，再在动作空间中搜寻距原始动作数据集合前Y个相近的可行动作集中动作价值函数最大的解，效果稳定且不容易陷入局部最优，通过运筹优化求解器Gurobi可以解决带有诸多线性约束的线性整数规划问题，将非线性反馈函数进行线性化或者二次近似处理，以使得当非线性反馈函数为二次函数或更复杂函数时，利用运筹优化求解器Gurobi产生最优解。

本申请实施例提供的基于人工智能的信息推荐方法能够解决带有稀疏且形式未知的反馈函数、并对候选推荐信息集合施加诸多约束的在线组合老虎机问题，能在准确估计反馈函数的同时兼顾采样和优化，实现对巨大动作空间的智能搜索以及对约束和真实反馈在奖励项的权衡，逼近真实最优解以推荐至用户，从而提高推荐准确率。

应用在推荐系统中的具体问题如下：每轮从L个收益未知的信息中挑选K个信息，以使T轮交互的总收益最大化。每个信息在各轮次的单独收益服从不同期望和方差的次高斯分布，挑选的K个信息的总收益是每个信息单独收益的非线性函数加上次高斯噪声，智能体在每轮做出挑选动作后，将仅收到K个信息的总收益作为稀疏反馈，而无法获得每个信息的单独收益，此外，智能体每轮挑选的信息满足多样性约束，即，每两个被挑选的信息的特征向量的欧式距离应大于某一阈值，上述问题的评价指标由两部分组成：T轮挑选的总收益R_T(各轮推荐的收益反馈U_t,x的和)；T轮的累积约束违反率C_T，共有M个多样性约束时，第t轮决策时违反多样性约束的个数为n_t，则

多轮推荐的综合评价指标为R_T-λC_T，λ的取值由具体情境确定。

在一些实施例中，主服务器与从服务器的交互频率：主服务器中的置信神经网络在每轮都运行一次；第一从服务器、第五从服务器与第六从服务器在每轮都运行一次；当已经运行的轮次大于轮次阈值时(例如，轮次阈值为4倍的信息数目，即4L)，可每5轮运行20次Wolpertinger采样器、图注意力网络采样器与改进交叉熵-深度增强学习进化采样器，运行间隔与次数可根据具体情境与训练情况灵活调整。

在一些实施例中，主服务器主要由置信神经网络组成，置信神经网络是对线性上下文上置信算法的非线性化，它用L₁层感知机h'(.)来估计非线性反馈函数h(.)，

其中，m是置信神经网络的参数，例如为4、8、16，σ(x)＝max{x,0},W₁∈R^m*L,W_l∈R^m*m，W_l是L₁层感知机中对应第l层的感知机，

p＝m+mL+m²(L₁-1)，在第t轮推荐中，θ是基于数据(A₁,r₁),(A₂,r₂),...,(A_t-1,r_t-1)训练得到的，r_i是第i轮推荐主服务器执行对应动作数据的推荐后收到的实际反馈。

在一些实施例中，非线性反馈函数h(.)的梯度为

置信神经网络的更新流程如下所示，首先进行置信神经网络的初始化，对θ₀初始化(θ₀是神经网络的参数)，对于1≤l<L₁，令

W_{i,j}～N(0,4/_m)，对于L₁，令W_l＝(W^T-W^T)，W_{i}～N(0，2/m)，在第t轮推荐时，置信神经网络获取候选动作数据集合，针对每个候选动作数据集合x计算对应候选动作数据集合的上置信界，参见公式(1)和公式(2)：

U_t,x＝h′(x；θ_t-1)+γ_t-1Var_t (26)；

和γ_t-1是基于前t-1轮推荐得到的参数，基于不确定项以及期望项，得到对应候选动作数据集合x上置信界特征U_t,x，再确定候选动作数据集合x的多样性特征C(x)，利用上置信界特征(包括奖励反馈)与多样性特征(用于表征约束违反程度的约束反馈)的权衡系数λ对上置信界特征U_t,x和多样性特征C(x)进行聚合，得到推荐指数，将推荐指数最高的候选动作数据集合作为第t轮推荐的最终决策，候选动作数据集合指的是动作集合，通常用L维向量标识，每个维度的向量用于表征对应维度的信息是否被选择。

在一些实施例中，在更新参数时，对于参数Z_t，参见公式(27)进行更新：

Z_t＝Z_t-1+g(x_t；θ_t-1)g(x_t；θ_t-1)^T/m (27)；

在一些实施例中，在更新参数时，对于θ_t，参见公式(28)进行更新：

θ_t＝θ^(j)，置信神经网络中设置γ_t为0.1，可根据不同情况进行调整，主服务器遵循置信神经网络的上述流程不断更新非线性反馈函数h'(.)，在每轮推荐过程中，主服务器将收集每个从服务器提供的候选推荐信息集合，候选推荐信息集合可以通过候选动作数据集合进行表示，假设动作数据为1表征信息被选取，动作数据为0表示未被选择，则可以存在如下两个候选动作数据集合：(1，1，0)用于表征包括第一个信息、第二个信息的候选推荐信息集合，(0，1，1)用于表征包括第二个信息、第三个信息的候选推荐信息集合，并用U_t,x-λC(x)而非U_t,x评估各候选推荐信息集合(候选动作)以做出决策。

下面详细说明介绍由优化求解器Gurobi组成的解决策略采样器(以下简称第一从服务器)，当给定参数已知的线性或二次目标函数与线性化后的多样性约束时，Gurobi优化器能分别较快输出满足约束的最优解与较优解，由于置信神经网络的非线性反馈函数形式未知，若要使用Gurobi优化器进行求解，可能需要对置信神经网络的非线性反馈函数h'进行线性化处理或二次近似。

在一些实施例中，通过以下技术方案对置信神经网络的非线性反馈函数h'进行线性估计：将I_L*L的L个列向量分别输入置信神经网络中，得到L个输出

I为单位矩阵，L个列向量分别对应L个信息，根据

构建以下线性整数规划问题，线性整数规划问题中x满足多样性约束，参见公式(29)-(31)：

其中，L是信息的数目，K是候选推荐信息集合的信息的数目，x_i是第i个信息的动作数据，动作数据为1表征第i个信息被选入候选推荐信息集合，利用优化器Gurobi求解以上问题得到候选推荐信息集合，所求解的结果即为从L个信息中选出的K个信息，对应K个信息的动作数据为1，并且在满足多样性约束使得公式(29)达到最大化收敛，公式(29)即为线性估计函数。

在一些实施例中，对置信神经网络的非线性反馈函数h'进行二次估计，假设h′≈x^TQx，Q∈R^L*L，Q＝Q^T，令e_i为I_L*L的第i个列向量，将

输入置信神经网络中，得到输出{O_ij}_{i，j∈[L]，i≠j}，对于i,j∈[L],i≠j，令Q_ij＝O_ij-(b_i+b_j)/2；对于i∈[L]，Q_ii＝b_i，由于

故而对于i,j∈[L],i≠j,令Q_ij＝o_ij-(b_i+b_j)/2。得到矩阵Q后，建立以下二次整数规划问题，二次整数规划问题中x满足多样性约束，参见公式(32)-(34)：

max_xx^TQx (32)；

其中，L是信息的数目，K是候选推荐信息集合的信息的数目，x_i是第i个信息的动作数据，动作数据为1表征第i个信息被选入候选推荐信息集合，利用优化器Gurobi求解以上问题得到候选推荐信息集合，所求解的结果即为从L个信息中选出的K个信息，对应K个信息的动作数据为1，并且在满足多样性约束使得公式(32)达到最大化收敛，公式(32)即为二次估计函数，限制最大迭代次数为600-10000。

下面详细说明介绍Wolpertinger采样器(以下简称第二从服务器)，Wolpertinger策略是基于动作评价框架通过深度确定性策略梯度来训练参数，在每轮推荐中，动作网络决策得到一个可能不属于动作空间的原始动作数据集合，故而在动作空间中搜索与原始动作数据集合最相近的Y(Y为大于或者等于2的整数)个候选动作数据集合，并通过评价网络获取Y个候选动作数据集合的动作数据(Q值)，并将动作数据最大的候选动作数据集合作为第t轮推荐的决策。在推荐系统中，令动作空间为

A₁为0表征第一个信息不被选择，A₁为1表征第一个信息被选择，第t轮推荐中过程，在计算出原始动作数据集合PA_t后，对PA_t各分量进行降序排序，对排序在前K个的分量取值为1，其他分量取值为0，得到一个候选动作数据集合，随机地将该候选动作数据集合的某两个取值不同的分量进行对换处理，得到新的候选动作数据集合，重复上述随机对换操作Y-1次，得到Y-1个新的候选动作数据集合，将所有候选动作数据集合中动作价值函数值最大的候选动作数据集合作为第t轮推荐的决策结果。

当对候选动作数据集合施加多样性约束时，需要对收益反馈进行调整，收益反馈需要包含奖励反馈和约束反馈，其中，奖励反馈和约束反馈的权衡系数十分重要，它会影响评价网络对不同候选动作数据集合的动作价值估计准确度以及训练稳定性，因此设计随训练进度自适应调整的权衡系数具有重要意义。通过奖励约束策略优化进行训练，设在第t轮状态s_t下采取动作a_t将获得奖励反馈r(s_t,a_t)和约束反馈c(s_t,a_t)，令约束函数C(s_t)＝F(c(s_t,a_t),…,c(s_N,a_N)),N为推荐轮次的总数目，F函数是根据不同情境自定义的，μ为初始状态服从的分布，初始化的奖励反馈如公式(35)所示：

其中，S为状态空间，π为候选动作数据集合的采样基础，通过奖励约束策略优化求解以下问题，参见公式(36)：

其中，

在一些实施例中，采取拉格朗日松弛法求解上述公式(36)的问题，即将上述公式(36)的问题转化为以下优化问题，参见公式(37)：

公式(9)所描述的优化问题是求解θ以最大化

再固定θ来求解λ以最小化

求解θ的过程即为更新动作网络的网络，求解λ与求解θ不在相同时间维度上，因此采用双重时间维度方法求解公式(9)中的优化问题，在快时间维度的层面上，动作评价框架的参数一直在更新以最大化收益J_R，在慢时间维度的层面上，拉格朗日乘子也在缓慢更新以最大化J_C，动作评价框架的最终目标是要找到一个鞍点(θ^*(λ^*),λ^*)，奖励约束策略优化中引入可变权衡参数λ和两个评价网络，一个评价网络负责拟合关于实际奖励的回报(估计奖励反馈)，另一个负责拟合实际约束的回报(估计约束反馈)，再将两者利用λ加权得到动作价值函数值，参见公式(38)和(39)：

其中，

是评价网络输出的针对多轮推荐得到的价值函数值，

是评价网络输出的针对多轮推荐得到的奖励反馈，

是评价网络输出的针对多轮推荐得到的约束反馈。

通过奖励约束策略优化将评价网络、动作网络和λ依次更新，三者的学习率(lr)满足如下关系：lr(λ)<lr(动作网络)<lr(评价网络)，训练过程中包括两个时间维度，即包括两种循环，大循环是以迭代次数作为时间维度进行更新(更新λ)，小循环是以推荐轮次作为时间维度进行更新(更新动作网络和评价网络)，针对每次迭代，会进行多轮次推荐，即多次更新动作网络和评价网络后更新一次λ，针对动作评价框架进行K次迭代处理，并在每次迭代处理过程中进行T轮推荐，每轮推荐的过程中更新动作网络与评价网络的参数，在完成T轮推荐之后，则相当于完成了一次迭代，在完成一次迭代之后更新权衡系数，首先输入实际约束反馈c、反馈约束C、阈值α、评价网络、动作网络以及λ的学习率，初始化动作网络的参数θ，评价网络的参数v，拉格朗日乘子λ，首先依据迭代次数K进行循环计算，在每次迭代过程中，进行t轮推荐，完成了一次迭代，在完成一次迭代之后更新权衡系数的过程可以参见公式(40)：

设置为对应π_θ分布的候选推荐信息集合在最近T轮中对应的平均约束违反率；a设置为候选推荐信息集合的约束违反率的上界，需要根据具体情境确定。

在推荐过程中，候选推荐信息集合(候选动作数据集)为a_t，执行推荐之后的状态特征为s_t+1，实际约束反馈为c_t，将实际奖励反馈、实际约束反馈以及评价网络输出的价值函数值，确定综合价值，参见公式(41)：

其中，

为对应状态特征s_t下动作评价框架输出的价值函数值。

基于所确定的综合价值，对评价网络的参数进行更新，并对动作网络的参数进行更新，参见公式(42)和(43)：

动作网络和评价网络的初始化遵循动作评框架算法中的设置，奖励约束策略优化对收益的量级不作要求，因为λ的自动更新使得奖励约束策略优化能够自适应地进行反馈修正，λ仅会在奖励约束策略优化算法中发生变动，在主服务器与其他从服务器中λ不变，仍然为奖励反馈与约束反馈之间的权衡系数。

在Wolpertinger采样器中，动作网络生成原始动作数据集合，基于原始动作数据集合向第t轮推荐的最终决策a_t的转换流程遵循Wolpertinger策略的设置。在动作评价框架的更新中使用主服务器提供的h'计算候选动作数据集合a_t的奖励反馈r_t。

下面详细介绍图注意力网络采样器(以下简称第三从服务器)，在多智能体环境中，大量智能体间复杂的博弈关系导致策略学习非常困难，此外，在决策过程中，每个智能体并不需要一直与所有智能体保持交互，而只需要与邻居智能体交互。相关技术中只能通过先验知识来确定哪些智能体之间有交互，当系统十分复杂时，基于规则定义交互十分困难，通过本申请实施例提供的基于人工智能的信息推荐方法，对每两个智能体间的交互关系进行建模，即判断两个智能体是否存在交互，如果交互存在，则判断该交互对智能体策略影响的重要性。

在一些实施例中，将多智能体系统建模为图网络，即全连接拓扑图。图中每个节点表示一个智能体，节点间的连边表示两个智能体间的交互关系。采用两种注意力机制来进行推理智能体间的交互机制：硬注意力机制：旨在断开无关交互边，硬注意力机制通过采样得到且不可微，对硬注意力机制做了改进，使其能够实现端到端学习，软注意力机制，对经过硬注意力机制保留下的交互边，判断交互边的重要性权重。

图注意力网络融合上述两种注意力机制与强化学习或动作评价框架等强化学习算法以应用于多智能体策略的学习。参见图5A-5B，图5A-5B是本申请实施例提供的基于人工智能的信息推荐系统的模型示意图，考虑一个局部可观测环境。对于第i个智能体，其局部观测

被多层感知机编码成特征向量

多层感知机可以是长短期记忆人工神经网络(LSTM，LongShort-Term Memory)，首先用双向长短期记忆人工神经网络实现硬注意力机制以确定智能体间是否存在交互关系，对于第i和第j个智能体，将智能体i，j的特征合并得到(h_i,h_j)((h_i,h₁)，…，(h_i,h_N))，将(h_i,h_j)输入Bi-LSTM模型得到h_i,j＝f(Bi-LSTM(h_i,h_j))，其中f是一个全连接层，由于长短期记忆人工神经网络的输出只依赖于当前时间和前一时间的输入，从而忽略了后期时间的输入信息，使得部分智能体的信息无法被利用，这是短视且不合理的。因此使用双向长短期记忆人工神经网络来实现硬注意力机制，此外，硬注意力机制涉及采样过程，不能反向传播梯度，故而利用gumbel-softmax函数解决反向传播问题，得到智能体i，j连边的0-1之间的实数值

通过硬注意力机制，可以得到第i个智能体的子图G_i，针对多个信息，分别得到不同的硬注意力值

使用软注意力机制来学习子图G_i中每条边的权重，G_i中智能体i、j连边的权重为

针对多个信息，分别得到不同的硬注意力值

其中，e_i和e_j分别为智能体i、j的嵌入(e_i和e_j可以被替换为h_i和h_j)，W_k和W_q分别为键线性映射与查询线性映射。W_k将e_j转换为一个键向量，W_q将e_i转换为一个查询向量W_k和W_q分别为键线性映射与查询线性映射。W_k将e_j转换为一个键向量，W_q将e_i转换为一个查询向量。

在一些实施例中，通过两阶段的注意力模型，我们可以得到一个约简图，其中每个智能体＝只连接到需要交互的智能体(节点)。利用软注意力机制输出的权重对邻居特征进行加权处理得到邻居信息x_i(x₁，x₂，x₃，x₄)，最后利用策略梯度算法强化学习得到每个智能体的策略，a_i＝π(h_i，x_i)为第i个智能体的策略π，即为候选推荐信息集合，其中，h_i,x_i分别表示智能体的观测特征和其他智能体对第i个智能体的贡献。

在一些实施例中，将原问题的每个信息看成一个智能体并作为图注意力网络的节点，借助图注意力网络的消息传递推理反馈函数中不同信息之间的联系，为每个节点做出综合决策，令每个节点的特征为节点所代表信息的特征向量(可根据推荐系统数据集中信息相关信息提取)，每个节点的观测向量为节点所代表信息的训练进度向量，它由该信息在过往至当前轮次中被挑选比率、该信息与自身不容许集中信息同时被挑选的平均比率、该信息被挑选的轮次中整体动作的平均收益与标准差组成，第t轮的损失为-r_t+λc_t,其中r_t是主服务器的神经网络函数h'为图注意力网络针对第t轮决策计算的代理反馈，c_t是第t轮决策的约束违反率(约束反馈)。

图注意力网络为每个节点输出一个[0，1]区间的实数，为得到每轮的最终决策，可采取三种方式：对节点i，若图注意力网络在节点i的输出大于0.5，则挑选信息i；将图注意力网络为所有节点输出的实值排序，挑选排序前K大的实值对应的信息；还可以针对节点i输出a_i，计算采样概率，参见公式(44)：

U～uniform(0，1)，b_i＝a_i-log(-logU) (44)；

通过公式(44)计算得到b_i，b_i服从对应于a_i的gumbel分布，挑选b_i中排序靠前的K个节点对应信息，此时对b_i中排序靠前的K个值的顺序做了区分，进而可以将上述有序概率转为无序概率，即对每个新的排名进行K！次置换，对K！个不同的有序概率求平均，得到无序概率，由于求K！个概率计算量较大，可随机生成针对K各信息的M个置换，并对相应的M个概率求平均，根据图注意力网络的输出采样得到每轮最终决策的概率。

下面详细介绍改进交叉熵-深度增强学习进化采样器(以下简称第四从服务器)，进化策略是黑箱优化技术，其在现代强化学习基准上的表现可以比肩标准的强化学习技术，同时还能克服强化学习的许多不便，例如不需要反向传播、更容易在分布式环境中扩展、不易受到稀疏奖励的影响、有更少的超参数。交叉熵方法一种进化策略，可用于并行求解连续与离散优化问题，从本质上来说，交叉熵方法是一种基于参数扰动的搜索算法，给参数空间v一些合理的扰动，在这些扰动(变体/子代)中搜索和选择较好的集合，之后利用交叉墒来指导更新v，使得这些扰动方向越趋近于目标优化方向，交叉熵方法普适性强，其具体实施步骤如下：首先进行初始化，对于任意

A_t,i是否为1表示第t轮信息i是否被挑选，设A_t,i服从均值为μ_i的伯努利分布，对于任意

令初始μ_i＝0.5。对于Q∈{1,2,...,int(T/N)}(int(T/N)为T/N的下取整，N是一个epoch的轮数)，t∈{QN+1,QN+1,...,min{(Q+1)N,T}}，在每个分量i∈[L]上，从均值为μ_i的伯努利分布抽样得到A_t,i。对于t＝min{(Q+1)N,T}，根据h'(.)-λc(.)为{A_QN+1,A_QN+1,...,A_{min{(Q+1)N,T}}}中的每个向量计算分值，其中h'(.)为来自主服务器的代理收益，c(.)为向量的多样性约束违反率，对分值排名前百分之ρ的向量取平均得到新的(μ₁,μ₂,...,μ_L)向量，为使由(μ₁,μ₂,...,μ_L)生成的样本分数尽可能高，需要对候选推荐信息集合的布局有更准确的认识，这要求训练轮次的长度N应该尽可能大，然而大的N值将导致(μ₁,μ₂,...,μ_L)更新缓慢因而收敛缓慢，使得交叉熵方法无法在在线决策环境中发挥优势。因此将一个批次的训练数目等分成多个长为n的时间片段，在每个小片段临界处根据近端策略优化对(μ₁,μ₂,...,μ_L)做多步梯度下降处理，对于j∈{1,2,...,int(N/n)}，当t＝min{QN+(j+1)n,T}时，以公式(45)为目标函数为，采取下降梯度算法进行参数更新，参见公式(45)：

其中，u_old为距t＝min{QN+(j+1)n,T}时刻最近的n轮中采样遵照的参数，u_new为从min{QN+(j+1)n+1,T}轮开始往后n轮采样遵照的参数。若A_t,i＝1，则P(A_t,i|u_i)＝u_i；若A_t,i＝0，则P(A_t,i|u_i)＝1-u_i。每隔n轮，更新J_t，并对J_t关于u_new做多步梯度下降以实现在线决策所需的及时参数更新，可适当存储历史最佳样本以充实当前的候选推荐信息集合集；也可设置线性或指数衰减因子，使得新参数是过往参数与当前更新所得参数的组合。

下面详细介绍教师-学生采样器，以历史最佳候选推荐信息集合(由h'(.)-λc(.)评定)为教师，其他从服务器提供的候选推荐信息集合为学生，在教师与学生之间、学生与学生间进行交互，产生新的候选推荐信息集合，设教师候选推荐信息集合为T，学生集合为S，教师-学生的交互是从S集合中任选一个学生候选推荐信息集合A，令B＝A+rand*(T-A)，rand是[0,1]区间的随机数，对A中分量进行排序，排在前K位的分量设为1，其他分量设为0，得到新的候选推荐信息集合B，重复上述操作若干次，学生-学生的交互是从S集合中任选两个学生候选推荐信息集合A、B，若h'(A)-λc(A)<h'(B)-λc(B)，令C＝A+rand*(B-A)；否则C＝A+rand*(A-B)。对C中分量进行排序，排在前K位的分量设为1，其他分量设为0，得到新的候选推荐信息集合C。贝塔分布在从服务器的作用如下：当一些从服务器输出0-1整数值向量A时，可对A的各分量进行扰动并将扰动值作为beta分布的参数，执行对beta分布的采样得到新候选推荐信息集合，例如，构造[0，1]区间实值向量B∈[0,1]^L，对于i∈[L]，若A_i＝1则令B_i＝1-τ；否则令B_i＝τ，以(B_i,1-B_i)为beta分布的参数，从该beta分布中随机采样出一个实值C_i，C₁,C₂,...,C_L构成向量C，对C中分量进行排序，排在前K位的分量设为1，其他分量设为0，得到新的候选推荐信息集合C。

在一些实施例中，主从服务器的数据处理流程如下：获取推荐系统或其他领域关于组合决策的数据集，通过粗排或根据物品的流行度，选出L个物品作为原问题的L个信息s。根据数据集中组合推荐的数量确定K值。每个信息的特征向量由数据集提供，若无提供，可对用户与信息的交互矩阵采取奇异值分解或其他标准方法计算特征向量，主服务器做出决策后收到的反馈由数据集直接提供，从服务器做出决策后收到的反馈为主服务器的收益反馈h'(.)-λc(.)，其中的奖励反馈为h'(.)。

在一些实施例中，本申请实施例提供了将推荐系统中求解在线组合优化问题的框架，综合多种采样器(从服务器)来保证框架输出的针对多个信息的动作数据大概率满足多样性约束且具有较好的收益反馈，利用了采样器所对应的优化方法的强约束处理能力、群体智能体的进化算法的高度可并行能力、神经网络的强拟合能力和强化学习方法的在线决策能力，并在求解大规模在线组合优化问题时实现了巧妙融合。

在一些实施例中，组合优化问题的目标函数形式很复杂且未知，因此难以凭借优化求解器输出较优解，从而需要依赖于深度学习和强化学习方法，但当存在可以编码成逻辑约束的众多约束时，神经网络输出难以输出可行解或近似可行解，这时需要借助在神经输出向量和逻辑约束间架起桥梁的高度聚合的语义损失函数，语义损失函数将逻辑约束在可反向传播的概率电路上传播并聚合，计算每个变量在全体约束中的重要性，使推理过程变得可微分且保留知识的精确逻辑含义，同时语义损失函数的高度聚合性使得无需对每个约束手动赋予不同权重，可以在多个从服务器中将约束反馈(多样性特征)以及主服务器中的多样性特征可以用语义损失函数代替，语义损失函数计算流程如下：进行数据预处理，对于可转换成伪布尔约束(如0-1线性约束)的约束，可用约束规划求解器将约束转换成伪布尔约束，再将伪布尔约束转换成合取范式，之后将合取范式转换成概率句子决策图，用PyPSDD库根据概率句子决策图计算神经网络输出的候选推荐信息集合的语义损失，以替代原先的多样性特征。

下面继续说明本申请实施例提供的基于人工智能的信息推荐装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的基于人工智能的信息推荐装置255中的软件模块可以包括：获取模块2551，用于获取多个候选推荐信息集合，确定每个候选推荐信息集合的信息特征的期望项和不确定项；聚合模块2552，用于对每个候选推荐信息集合的期望项和不确定项进行聚合处理，得到每个候选推荐信息集合的上置信界特征；多样性模块2553，用于确定对应每个候选推荐信息集合的多样性特征；指数模块2554，用于根据每个候选推荐信息集合的上置信界特征以及约束违反特征，确定对应候选推荐信息集合的推荐指数；推荐模块2555，用于将推荐指数最高的候选推荐信息集合作为待推荐信息集合，以执行针对待推荐信息集合的推荐操作。

在一些实施例中，获取模块2551，还用于：执行以下处理至少之一以获取多个候选推荐信息集合：根据线性估计函数获取多个候选推荐信息集合；根据二次估计函数获取多个候选推荐信息集合；通过动作评价框架获取多个候选推荐信息集合；结合软注意力机制与硬注意力机制获取多个候选推荐信息集合；通过伯努利分布获取多个候选推荐信息集合。

在一些实施例中，获取模块2551，还用于：针对单位矩阵的L个列向量中的第i列向量进行映射处理，得到对应第i列向量的映射处理结果；其中，L个列向量与L个信息一一对应；L为大于或者等于2的整数，i的取值范围满足1≤i≤L；以对应信息的列向量的映射处理结果为权重，对L个信息的动作数据进行加权求和处理，得到线性估计函数；其中，动作数据表征对应的信息被选择或者不被选择；确定L个信息的同时满足以下条件的动作数据：当将L个信息的动作数据代入线性估计函数时，线性估计函数的取值是最大化收敛取值；L个信息的动作数据表征L个信息中被选择的至少一个信息满足多样性约束；将L个信息中被选择的至少一个信息组成候选推荐信息集合。

在一些实施例中，获取模块2551，还用于：针对单位矩阵的L个列向量中的第i列向量进行映射处理，得到对应第i列向量的映射处理结果，并将对应第i列向量的映射处理结果作为矩阵元素；将单位矩阵的L个列向量中第i列向量和第j列向量进行求和处理，对求和处理结果进行映射处理，得到对应第i列向量和第j列向量的映射处理结果；其中，L为大于或者等于2的整数，i和j的取值范围满足1≤i，j≤L，i和j的取值不同；将对应第i列向量的映射处理结果与对应第j列向量的映射处理结果进行平均处理，并将对应第i列向量和第j列向量的映射处理结果与平均处理结果进行相减处理，得到矩阵元素；根据矩阵元素构建矩阵；将对应L个信息的动作数据矩阵的转置、矩阵与动作数据矩阵进行相乘处理，得到二次估计函数；其中，动作数据矩阵包括与L个信息一一对应的动作数据，动作数据表征对应的被选择或者不被选择；确定L个信息的同时满足以下条件的动作数据：当将L个信息的动作数据代入二次估计函数时，二次估计函数的取值是最大化收敛取值；L个信息的动作数据表征L个信息中被选择的至少一个信息满足多样性约束；将L个信息中被选择的至少一个信息组成候选推荐信息集合。

在一些实施例中，获取模块2551，还用于：通过动作评价框架中的动作网络生成具有L个列向量的动作矩阵，并确定对应所述动作矩阵的候选推荐信息集合；其中，L个列向量的列标识与L个信息一一对应，L为大于或者等于2的整数，列向量的值表征对应信息的动作数据；针对动作矩阵执行任意次数的以下处理：对动作矩阵中L个列向量中任意两个不同的列向量进行对换处理，得到新动作矩阵，并确定对应新动作矩阵的候选推荐信息集合。

在一些实施例中，获取模块2551，还用于：通过动作评价框架中的动作网络生成对应每个信息的动作数据；根据每个信息的动作数据，对L个信息进行降序排序；将L个信息中排序靠前的多个信息的动作数据更新为一，并将其他信息的动作数据更新为零；其中，其他信息为L个信息中除了排序靠前的多个信息之外的信息；将更新后的每个信息的动作数据转化为对应信息的列向量，以得到具有L个列向量的动作矩阵。

在一些实施例中，获取模块2551，还用于：初始化动作评价框架的评价网络以及动作网络；针对动作评价框架进行K次迭代处理，并在每次迭代处理过程中执行以下处理：根据期望项与多样性特征的权衡系数，对动作评价框架的动作网络以及评价网络进行T轮更新处理，并根据第T轮更新处理结果，更新权衡系数；其中，T与K均为大于或者等于2的整数；将第K次迭代处理得到的动作网络确定为用于生成具有L个列向量的动作矩阵的动作网络。

在一些实施例中，获取模块2551，还用于：针对动作评价框架进行T轮迭代处理，并在每轮迭代处理过程中执行以下处理：通过动作网络预测候选推荐信息集合样本，并获取对应候选推荐信息集合样本的期望项以及多样性特征；通过评价网络确定对应候选推荐信息集合样本的价值函数值，并根据期望项、多样性特征、权衡系数以及价值函数值，确定对应候选推荐信息集合样本的综合价值；获取综合价值与价值函数值之间的误差，并根据对应误差的梯度项更新评价网络的参数；根据期望项、多样性特征以及权衡系数，确定对应候选推荐信息集合样本的惩罚性价值函数值，并根据对应惩罚性价值函数的梯度项更新动作网络的参数。

在一些实施例中，获取模块2551，还用于：获取L个信息中对应每个信息的局部观测数据，并将局部观测数据编码为观测特征；根据硬注意力机制，并结合每个信息的观测特征，确定L个信息中与第i信息之间存在交互关系的至少一个交互信息；根据软注意力机制确定每个交互信息与第i信息之间的交互权重，根据交互权重确定所有交互信息对应第i信息的交互特征；根据第i信息的观测特征以及交互特征，通过策略网络确定对应第i信息的策略预测值；其中，L为大于或者等于2的整数，i为取值从1开始递增的整数，且i的取值范围满足1≤i≤L；根据L个信息中每个信息的策略预测值，获取候选推荐信息集合。

在一些实施例中，获取模块2551，还用于：将第i信息的观测特征与不同于第i信息的每个其他信息的观测特征进行合并处理，得到对应每个其他信息的合并特征；通过双向时间长短期记忆人工神经网络对每个合并特征进行映射处理，并对映射处理结果进行最大似然处理，得到对应每个其他信息的硬注意力值；将硬注意力值大于硬注意力阈值的其他信息，确定为L个信息中与第i信息之间存在交互关系的交互信息。

在一些实施例中，获取模块2551，还用于：针对每个交互信息执行以下处理：获取第i信息的第i嵌入特征，并根据软注意力机制的查询参数对第i嵌入特征进行线性映射，得到对应第i信息的查询特征；获取交互信息的交互嵌入特征，并根据软注意力机制的键参数对交互嵌入特征进行线性映射，得到对应交互信息的键特征；确定与键特征、查询特征以及硬注意力值成指数正相关的软注意力值，以作为对应交互信息的交互权重；根据对应交互信息的交互权重，对每个交互信息的观测特征进行加权处理，得到所有交互信息针对第i信息的交互特征。

在一些实施例中，获取模块2551，还用于：执行以下任意一种处理：从L个信息中获取所对应的策略预测值大于策略预测阈值的多个信息，并从多个信息采样得到K个采样信息，以组成候选推荐信息集合；根据每个信息策略预测值，对L个信息进行降序排序处理，并获取排序靠前的K个信息，以组成候选推荐信息集合；其中，K为候选推荐信息集合中推荐信息的数目。

在一些实施例中，获取模块2551，还用于：获取训练样本集合，其中，训练样本集合包括与N轮历史推荐一一对应的N个候选推荐信息集合样本，N为大于或者等于2的整数；对N轮历史推荐进行划分，得到多个历史推荐周期，其中，每个历史推荐周期包括M轮历史推荐，M为大于1且小于N的整数；初始化目标函数，其中，目标函数用于表征最大化M轮历史推荐中的惩罚性价值函数值，目标函数包括对应第q历史推荐周期的伯努利分布以及对应第q-1历史推荐周期的伯努利分布，q为大于或者等于2的整数；在每个历史推荐周期中，执行以下处理：获取对应历史推荐周期的伯努利分布，并根据伯努利分布生成对应每轮历史推荐的候选推荐信息集合样本；确定对应每个候选推荐信息集合样本的惩罚性价值函数值，并代入目标函数，以针对对应第q历史推荐周期的伯努利分布进行目标函数的梯度下降处理，得到对应第q+1历史推荐周期的伯努利分布；基于最后一个历史推荐周期的伯努利分布生成候选推荐信息集合。

在一些实施例中，获取模块2551，还用于：根据教师-学生机制，并结合获取的多个候选推荐信息集合，生成新的候选推荐信息集合；或者根据贝塔分布采样机制，并结合获取的多个候选推荐信息集合，生成新的候选推荐信息集合。

在一些实施例中，获取模块2551，还用于：获取每个历史候选推荐信息集合的期望项以及多样性特征，以确定对应每个历史候选推荐信息集合的惩罚性价值函数值，并将所对应的惩罚性价值函数值最高的历史候选推荐信息集合确定为教师集合，将每个候选推荐信息集合确定为学生集合；针对任意一个学生集合，执行以下处理至少之一：将任意一个学生集合以及教师集合按照算子进行映射处理，得到新的候选推荐信息集合，或者将任意一个学生集合以及不同于任意一个学生集合的另一个学生集合按照算子进行映射处理，得到新的候选推荐信息集合。

在一些实施例中，获取模块2551，还用于：针对每个候选推荐信息集合执行以下处理：对候选推荐信息集合的每个推荐信息的动作数据进行扰动处理，得到候选推荐信息集合的每个动作数据的扰动值；对其他信息的动作数据进行扰动处理，得到每个其他信息的扰动值，其中，其他信息为L个信息中除了推荐信息之外的信息，L为大于或者等于2的整数；基于对应每个推荐信息的扰动值，获取对应推荐信息的贝塔分布，并基于对应每个其他信息的扰动值，获取对应其他信息的贝塔分布；从对应推荐信息的贝塔分布进行采样，得到对应每个推荐信息的采样动作数据，并从对应其他信息的贝塔分布进行采样，得到对应每个其他信息的采样动作数据；基于对应每个推荐信息的采样动作数据、对应每个其他信息的采样动作数据，对其他信息以及推荐信息进行混合降序排序，并获取排序靠前的K个信息，以组成新的候选推荐信息集合；其中，K为候选推荐信息集合中推荐信息的数目。

在一些实施例中，获取模块2551，还用于：将每个候选推荐信息集合的信息特征，在置信神经网络中进行正向传播，以得到对应每个候选推荐信息集合的期望项；获取置信神经网络的梯度函数，并将每个候选推荐信息集合的信息特征代入梯度函数，以得到对应每个候选推荐信息集合的不确定项。

在一些实施例中，多样性模块2553，还用于：对每个候选推荐信息集合进行多次推荐信息提取处理，对应得到多个推荐信息子集；其中，在每次推荐信息提取过程中提取两个推荐信息，且每个推荐信息子集包括在对应的推荐信息提取过程中所提取的两个推荐信息；获取推荐信息子集的总数目、以及不满足多样性约束的推荐信息子集的数目，确定不满足多样性约束的推荐信息子集的数目与总数目之间的比值，并确定与比值对应的多样性特征。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的基于人工智能的信息推荐方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3示出的基于人工智能的信息推荐方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例基于候选推荐信息集合的信息特征，针对候选推荐信息集合刻画出用于进行推荐收益预测的期望项以及不确定项，考虑到信息特征对用户行为预测的贡献，并且通过多样性特征保证候选推荐信息集合的信息覆盖范围广，以深度挖掘用户感兴趣的信息，保证了后续进行信息推荐的信息推荐精度，同时有效避免无效推荐，进而节约服务器中与推荐逻辑相关的计算资源。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的信息推荐方法，其特征在于，包括：

确定对应每个所述候选推荐信息集合的多样性特征；

2.根据权利要求1所述的方法，其特征在于，所述获取多个候选推荐信息集合，包括：

执行以下处理至少之一以获取多个候选推荐信息集合：

根据线性估计函数获取多个所述候选推荐信息集合；

根据二次估计函数获取多个所述候选推荐信息集合；

通过动作评价框架获取多个所述候选推荐信息集合；

结合软注意力机制与硬注意力机制获取多个所述候选推荐信息集合；

通过伯努利分布获取多个所述候选推荐信息集合。

3.根据权利要求2所述的方法，其特征在于，所述根据线性估计函数获取多个所述候选推荐信息集合，包括：

针对单位矩阵的L个列向量中的第i列向量进行映射处理，得到对应所述第i列向量的映射处理结果；

其中，所述L个列向量与L个信息一一对应；L为大于或者等于2的整数，i的取值范围满足1≤i≤L；

以对应信息的列向量的映射处理结果为权重，对L个信息的动作数据进行加权求和处理，得到线性估计函数；

其中，所述动作数据表征对应的信息被选择或者不被选择；

确定所述L个信息的同时满足以下条件的动作数据：

当将所述L个信息的动作数据代入所述线性估计函数时，所述线性估计函数的取值是最大化收敛取值；

所述L个信息的动作数据表征所述L个信息中被选择的至少一个信息满足多样性约束；

将所述L个信息中被选择的至少一个信息组成所述候选推荐信息集合。

4.根据权利要求2所述的方法，其特征在于，所述根据二次估计函数获取多个所述候选推荐信息集合，包括：

针对单位矩阵的L个列向量中的第i列向量进行映射处理，得到对应所述第i列向量的映射处理结果，并将对应所述第i列向量的映射处理结果作为矩阵元素；

将所述单位矩阵的L个列向量中第i列向量和第j列向量进行求和处理，对求和处理结果进行映射处理，得到对应所述第i列向量和所述第j列向量的映射处理结果；

其中，L为大于或者等于2的整数，i和j的取值范围满足1≤i，j≤L，i和j的取值不同；

将对应所述第i列向量的映射处理结果与对应所述第j列向量的映射处理结果进行平均处理，并将对应所述第i列向量和所述第j列向量的映射处理结果与平均处理结果进行相减处理，得到矩阵元素；

根据所述矩阵元素构建矩阵；

将对应L个信息的动作数据矩阵的转置、所述矩阵与所述动作数据矩阵进行相乘处理，得到二次估计函数；

其中，所述动作数据矩阵包括与L个信息一一对应的动作数据，所述动作数据表征对应的被选择或者不被选择；

确定所述L个信息的同时满足以下条件的动作数据：

当将所述L个信息的动作数据代入所述二次估计函数时，所述二次估计函数的取值是最大化收敛取值；

5.根据权利要求2所述的方法，其特征在于，所述通过动作评价框架获取多个所述候选推荐信息集合，包括：

通过动作评价框架中的动作网络生成具有L个列向量的动作矩阵，并确定对应所述动作矩阵的候选推荐信息集合；

其中，所述L个列向量的列标识与L个信息一一对应，L为大于或者等于2的整数，所述列向量的值表征对应所述信息的动作数据；

针对所述动作矩阵执行任意次数的以下处理：

对所述动作矩阵中所述L个列向量中任意两个不同的列向量进行对换处理，得到新动作矩阵，并确定对应所述新动作矩阵的候选推荐信息集合。

6.根据权利要求5所述的方法，其特征在于，所述通过动作评价框架中的动作网络生成具有L个列向量的动作矩阵，包括：

通过所述动作评价框架中的动作网络生成对应每个所述信息的动作数据；

根据每个所述信息的动作数据，对所述L个信息进行降序排序；

将所述L个信息中排序靠前的多个信息的动作数据更新为一，并将其他信息的动作数据更新为零；

其中，所述其他信息为所述L个信息中除了所述排序靠前的多个信息之外的信息；

将更新后的每个所述信息的动作数据转化为对应所述信息的列向量，以得到具有所述L个列向量的动作矩阵。

7.根据权利要求5所述的方法，其特征在于，所述通过动作评价框架中的动作网络生成具有L个列向量的动作矩阵之前，所述方法还包括：

初始化所述动作评价框架的评价网络以及所述动作网络；

针对所述动作评价框架进行K次迭代处理，并在每次迭代处理过程中执行以下处理：

根据所述期望项与所述多样性特征的权衡系数，对所述动作评价框架的动作网络以及评价网络进行T轮更新处理，并根据第T轮更新处理结果，更新所述权衡系数；

其中，T与K均为大于或者等于2的整数；

将第K次迭代处理得到的动作网络确定为用于生成具有L个列向量的动作矩阵的动作网络。

8.根据权利要求7所述的方法，其特征在于，所述根据所述期望项与所述多样性特征的权衡系数，对所述动作评价框架的动作网络以及评价网络进行T轮更新处理，包括：

针对所述动作评价框架进行T轮迭代处理，并在每轮迭代处理过程中执行以下处理：

通过所述动作网络预测候选推荐信息集合样本，并获取对应所述候选推荐信息集合样本的期望项以及多样性特征；

通过所述评价网络确定对应所述候选推荐信息集合样本的价值函数值，并根据所述期望项、所述多样性特征、所述权衡系数以及所述价值函数值，确定对应所述候选推荐信息集合样本的综合价值；

获取所述综合价值与所述价值函数值之间的误差，并根据对应所述误差的梯度项更新所述评价网络的参数；

根据所述期望项、所述多样性特征以及所述权衡系数，确定对应所述候选推荐信息集合样本的惩罚性价值函数值，并根据对应所述惩罚性价值函数的梯度项更新所述动作网络的参数。

9.根据权利要求2所述的方法，其特征在于，所述结合软注意力机制与硬注意力机制获取多个所述候选推荐信息集合，包括：

获取L个信息中对应每个信息的局部观测数据，并将所述局部观测数据编码为观测特征；

根据硬注意力机制，并结合每个所述信息的观测特征，确定所述L个信息中与第i信息之间存在交互关系的至少一个交互信息；

根据软注意力机制确定每个所述交互信息与所述第i信息之间的交互权重，根据所述交互权重确定所有所述交互信息对应所述第i信息的交互特征；

根据所述第i信息的观测特征以及交互特征，通过策略网络确定对应所述第i信息的策略预测值；

其中，L为大于或者等于2的整数，i为取值从1开始递增的整数，且i的取值范围满足1≤i≤L；

根据所述L个信息中每个信息的策略预测值，获取所述候选推荐信息集合。

10.根据权利要求9所述的方法，其特征在于，所述根据硬注意力机制，并结合每个所述信息的观测特征，确定所述L个信息中与所述第i信息之间存在交互关系的至少一个交互信息，包括：

将所述第i信息的观测特征与不同于所述第i信息的每个其他信息的观测特征进行合并处理，得到对应每个所述其他信息的合并特征；

通过双向时间长短期记忆人工神经网络对每个所述合并特征进行映射处理，并对映射处理结果进行最大似然处理，得到对应每个所述其他信息的硬注意力值；

将所述硬注意力值大于硬注意力阈值的其他信息，确定为所述L个信息中与所述第i信息之间存在交互关系的交互信息。

11.根据权利要求9所述的方法，其特征在于，所述根据软注意力机制，确定每个所述交互信息与所述第i信息之间的交互权重，根据所述交互权重确定所有所述交互信息针对所述第i信息的交互特征，包括：

针对每个所述交互信息执行以下处理：

获取所述第i信息的第i嵌入特征，并根据所述软注意力机制的查询参数对所述第i嵌入特征进行线性映射，得到对应所述第i信息的查询特征；

获取所述交互信息的交互嵌入特征，并根据所述软注意力机制的键参数对所述交互嵌入特征进行线性映射，得到对应所述交互信息的键特征；

确定与所述键特征、所述查询特征以及所述硬注意力值成指数正相关的软注意力值，以作为对应所述交互信息的交互权重；

根据对应所述交互信息的交互权重，对每个所述交互信息的观测特征进行加权处理，得到所有所述交互信息针对所述第i信息的交互特征。

12.根据权利要求9所述的方法，其特征在于，所述根据所述L个信息中每个所述信息的策略预测值，获取所述候选推荐信息集合，包括：

执行以下任意一种处理：

从所述L个信息中获取所对应的策略预测值大于策略预测阈值的多个信息，并从所述多个信息采样得到K个采样信息，以组成所述候选推荐信息集合；

根据每个所述信息策略预测值，对所述L个信息进行降序排序处理，并获取排序靠前的K个信息，以组成所述候选推荐信息集合；

其中，K为所述候选推荐信息集合中推荐信息的数目。

13.根据权利要求2所述的方法，其特征在于，所述通过伯努利分布获取多个所述候选推荐信息集合，包括：

获取训练样本集合，其中，所述训练样本集合包括与N轮历史推荐一一对应的N个候选推荐信息集合样本，N为大于或者等于2的整数；

对所述N轮历史推荐进行划分，得到多个历史推荐周期，其中，每个所述历史推荐周期包括M轮历史推荐，M为大于1且小于N的整数；

初始化目标函数，其中，所述目标函数用于表征最大化所述M轮历史推荐中的惩罚性价值函数值，所述目标函数包括对应第q历史推荐周期的伯努利分布以及对应第q-1历史推荐周期的伯努利分布，q为大于或者等于2的整数；

在每个所述历史推荐周期中，执行以下处理：

获取对应所述历史推荐周期的伯努利分布，并根据所述伯努利分布生成对应每轮所述历史推荐的候选推荐信息集合样本；

确定对应每个所述候选推荐信息集合样本的惩罚性价值函数值，并代入所述目标函数，以针对对应第q历史推荐周期的伯努利分布进行所述目标函数的梯度下降处理，得到对应第q+1历史推荐周期的伯努利分布；

基于最后一个历史推荐周期的伯努利分布生成候选推荐信息集合。

14.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据教师-学生机制，并结合获取的多个所述候选推荐信息集合，生成新的候选推荐信息集合；或者

根据贝塔分布采样机制，并结合获取的多个所述候选推荐信息集合，生成新的候选推荐信息集合。

15.根据权利要求14所述的方法，其特征在于，所述根据教师-学生机制，并结合获取的多个所述候选推荐信息集合，生成新的候选推荐信息集合，包括：

获取每个历史候选推荐信息集合的期望项以及多样性特征，以确定对应每个所述历史候选推荐信息集合的惩罚性价值函数值，并将所对应的惩罚性价值函数值最高的历史候选推荐信息集合确定为教师集合，将每个候选推荐信息集合确定为学生集合；

针对任意一个学生集合，执行以下处理至少之一：

将所述任意一个学生集合以及所述教师集合按照算子进行映射处理，得到新的候选推荐信息集合，或者

将所述任意一个学生集合以及不同于所述任意一个学生集合的另一个学生集合按照算子进行映射处理，得到新的候选推荐信息集合。

16.根据权利要求14所述的方法，其特征在于，所述根据贝塔分布采样机制，并结合获取的多个所述候选推荐信息集合，生成新的候选推荐信息集合，包括：

针对每个所述候选推荐信息集合执行以下处理：

对所述候选推荐信息集合的每个推荐信息的动作数据进行扰动处理，得到所述候选推荐信息集合的每个动作数据的扰动值；

对其他信息的动作数据进行扰动处理，得到每个所述其他信息的扰动值，其中，所述其他信息为L个信息中除了所述推荐信息之外的信息，L为大于或者等于2的整数；

基于对应每个所述推荐信息的扰动值，获取对应所述推荐信息的贝塔分布，并基于对应每个所述其他信息的扰动值，获取对应所述其他信息的贝塔分布；

从对应所述推荐信息的贝塔分布进行采样，得到对应每个所述推荐信息的采样动作数据，并从对应所述其他信息的贝塔分布进行采样，得到对应每个所述其他信息的采样动作数据；

基于对应每个所述推荐信息的采样动作数据、对应每个所述其他信息的采样动作数据，对所述其他信息以及所述推荐信息进行混合降序排序，并获取排序靠前的K个信息，以组成新的候选推荐信息集合；

其中，K为所述候选推荐信息集合中推荐信息的数目。

17.根据权利要求1所述的方法，其特征在于，所述确定每个所述候选推荐信息集合的信息特征的期望项和不确定项，包括：

将每个所述候选推荐信息集合的信息特征，在置信神经网络中进行正向传播，以得到对应每个所述候选推荐信息集合的期望项；

获取所述置信神经网络的梯度函数，并将每个所述候选推荐信息集合的信息特征代入所述梯度函数，以得到对应每个所述候选推荐信息集合的不确定项。

18.根据权利要求1所述的方法，其特征在于，所述确定对应每个所述候选推荐信息集合的多样性特征，包括：

对每个所述候选推荐信息集合进行多次推荐信息提取处理，对应得到多个推荐信息子集；

其中，在每次推荐信息提取过程中提取两个推荐信息，且每个所述推荐信息子集包括在对应的推荐信息提取过程中所提取的两个推荐信息；

获取所述推荐信息子集的总数目、以及不满足多样性约束的所述推荐信息子集的数目，确定不满足多样性约束的所述推荐信息子集的数目与所述总数目之间的比值，并确定与所述比值对应的多样性特征。

19.一种基于人工智能的信息推荐装置，其特征在于，包括：

20.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至18任一项所述的基于人工智能的信息推荐方法。

21.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至18任一项所述的基于人工智能的信息推荐方法。