CN111368210A

CN111368210A - 基于人工智能的信息推荐方法、装置以及电子设备

Info

Publication number: CN111368210A
Application number: CN202010458852.0A
Authority: CN
Inventors: 张晗
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-07-03
Anticipated expiration: 2040-05-27
Also published as: CN111368210B

Abstract

本发明提供了一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质；方法包括：获取用户的历史行为信息序列；根据所述历史行为信息序列中每个信息的向量表示，确定表征所述用户的行为特征的行为特征向量；将所述行为特征向量进行多次迭代地编码处理，得到表征所述用户的兴趣的用户兴趣向量；确定与所述用户兴趣向量满足相似条件的多个信息，以执行针对所述用户的推荐操作。通过本发明，能够提升推荐准确率以及推荐信息的点击率指标。

Description

基于人工智能的信息推荐方法、装置以及电子设备

技术领域

本发明涉及人工智能技术，尤其涉及一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质。

背景技术

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

人工智能（AI，Artificial Intelligence）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

信息推荐是人工智能的重要应用，相关技术中推荐系统的召回模块通常是基于人口统计学、用户的长期兴趣标签以及信息词向量，从信息库中召回信息以进行后续排序以及重排序处理，进而推荐至用户，但是存在推荐不精确、且推荐缺乏个性化的问题。

发明内容

本发明实施例提供一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质，能够提升推荐准确率以及推荐信息的点击率指标。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种基于人工智能的信息推荐方法，包括：

获取用户的历史行为信息序列；

根据所述历史行为信息序列中每个信息的向量表示，确定表征所述用户的行为特征的行为特征向量；

将所述行为特征向量进行多次迭代地编码处理，得到表征所述用户的兴趣的用户兴趣向量；

确定与所述用户兴趣向量满足相似条件的多个信息，以执行针对所述用户的推荐操作。

本发明实施例提供一种基于人工智能的信息推荐装置，所述装置包括：

序列获取模块，用于获取用户的历史行为信息序列；

特征确定模块，用于根据所述历史行为信息序列中每个信息的向量表示，确定表征所述用户的行为特征的行为特征向量；

迭代编码模块，用于将所述行为特征向量进行多次迭代地编码处理，得到表征所述用户的兴趣的用户兴趣向量；

推荐模块，用于确定与所述用户兴趣向量满足相似条件的多个信息，以执行针对所述用户的推荐操作。

在上述方案中，所述特征确定模块，用于：

根据所述每个信息在所述历史行为信息序列中的位置，对所述每个信息进行三角函数编码处理，得到所述每个信息的位置编码，并结合所述每个信息的原始向量表示，确定对应所述每个信息的向量表示；

对所述每个信息的向量表示进行平均处理，得到表征所述用户的行为特征的行为特征向量。

在上述方案中，所述位置编码的维度与所述信息的原始向量表示的维度相同，所述特征确定模块，用于：

当所述位置编码中维度的序号为偶数时，根据以下正弦函数确定所述位置编码中对应所述维度的编码值：

当所述位置编码中维度的序号为奇数时，根据以下余弦函数确定所述位置编码中对应所述维度的编码值：

其中，PE（i）为所述位置编码中第i个维度的编码值，pos为所述信息在所述历史行为信息序列中根据行为时间的排序位置，i为所述位置编码中每个维度的序号，且i为不小于0的整数，d_model为所述位置编码的维度。

在上述方案中，所述特征确定模块，用于：

对所述每个信息的原始向量表示进行偏置处理；

对所述每个信息的偏置处理结果与所述每个信息的位置编码进行对应相加处理，得到对应所述每个信息的向量表示。

在上述方案中，所述迭代编码模块，还用于：

通过N个级联的神经网络模型中的第n神经网络模型，对所述第n神经网络模型的输入进行编码处理，并将所述第n神经网络模型输出的第n编码处理结果传输到第n+1神经网络模型以继续进行编码；

其中，n为取值从1开始递增的整数，且n的取值范围满足

，N为大于或等于2的整数；当n取值为1时，所述第n神经网络模型的输入为所述行为特征向量，当n取值为

时，所述第n神经网络模型的输入为第n-1神经网络模型的编码处理结果；

将第N神经网络模型输出的第N编码处理结果作为对应所述行为特征向量的编码处理结果；

将对应所述行为特征向量的编码处理结果与对应所述用户的用户数据向量进行融合处理，得到对应所述用户的融合处理结果；

对所述融合处理结果进行横向规范化处理，得到表征所述用户的兴趣的用户兴趣向量。

在上述方案中，每个所述神经网络模型包括第一隐层、线性整流层、第二隐层以及横向规范化层，所述迭代编码模块，还用于：

将所述第n神经网络的输入与所述第一隐层的第一隐层参数相乘，得到对应所述行为特征向量的第一隐层结果；

通过所述线性整流层对所述第一隐层结果进行线性整流处理，得到对应所述行为特征向量的线性整流处理结果；

将所述线性整流处理结果与所述第二隐层的第二隐层参数相乘，得到对应所述行为特征向量的第二隐层结果；

通过所述横向规范化层对所述第二隐层结果进行横向规范化处理以及残差连接处理，得到所述第n神经网络模型输出的第n编码处理结果。

在上述方案中，所述迭代编码模块，还用于：

将对应所述编码处理结果的影响因子作为所述编码处理结果的权重参数，并将对应所述用户数据向量的影响因子作为所述用户数据向量的权重参数，对所述编码处理结果以及所述用户数据向量根据各自对应的权重参数进行加权处理，得到加权处理结果；

对所述加权处理结果进行偏置处理，得到对应所述用户的融合处理结果。

在上述方案中，所述推荐模块，还用于：

根据信息集合中每个信息的原始向量表示，对所述信息集合中的信息进行聚类处理，得到对应所述信息集合的多个聚类；

对每个所述聚类中多个信息的原始向量表示进行平均处理，得到所述聚类的中心向量；

确定与所述用户兴趣向量之间的第一相似度超过相似度阈值的中心向量，以作为相似中心向量；

针对所述相似中心向量所对应的聚类中每个信息，确定所述每个信息的原始向量表示与所述用户兴趣向量之间的第二相似度，并

将所对应的第二相似度超过所述相似度阈值的多个信息，确定为与所述用户兴趣向量满足相似条件的信息。

在上述方案中，所述推荐模块，还用于：

从所述信息集合中随机选择多个信息，以作为多个聚类的初始质心，并从所述信息集合中移除所述选择的多个信息；

初始化聚类处理的迭代次数为M，其中，M为大于或者等于2的整数；

在所述聚类处理的每一次迭代过程中执行以下处理：

将所述多个聚类初始化为空集，并确定所述信息集合中每个信息的原始向量表示与多个初始质心的原始向量表示之间的相似度；

将相似度最大的信息与初始质心确定为属于相同聚类，并将所确定的相似度最大的信息转移至所对应的聚类；

针对经过转移处理后的每个所述聚类，将每个所述聚类中的每个信息的原始向量表示进行平均处理，得到每个所述聚类的新质心；

将迭代M次后得到的多个聚类确定为聚类处理结果，或者，将迭代m次后得到的多个聚类确定为聚类处理结果；其中，迭代m次后得到的多个聚类与迭代m-1次后得到的多个聚类的质心相同，m小于M。

在上述方案中，所述用户兴趣向量是通过调用特征合成模型获取的；所述特征合成模型包括：多个级联的神经网络模型、以及用于进行融合处理的神经网络模型；所述装置还包括：训练模块，用于：

在获取所述用户的历史行为信息序列之前，

生成用于训练所述特征合成模型的训练样本集合；

将所述训练样本集合中的每个样本在所述特征合成模型的各个层以及最大似然函数层中进行正向传播，以得到对应所述每个样本的预测类别；

初始化包括所述每个样本以及对应所述每个样本的预测类别的损失函数；

确定所述每个样本的预测类别和真实类别之间的误差，并根据所述损失函数在所述特征合成模型中反向传播所述误差，以

确定所述损失函数取得最小值时所述特征合成模型的变化值，并根据所述变化值更新所述特征合成模型的参数。

在上述方案中，所述训练模块，还用于：

获取第一窗口时间内响应于历史请求所生成的曝光日志、以及响应于所述历史请求和历史操作所生成的行为日志；

其中，所述行为日志按照生成时间降序记录在所述曝光日志中；

对所述曝光日志以及所述行为日志进行过滤处理，并对过滤结果进行合并处理，得到用于训练所述特征合成模型的训练样本集合。

在上述方案中，所述训练模块，还用于：

获取在第二窗口时间内对应多个用户身份的行为日志；

当所述第二窗口时间内的行为日志中的行为次数超过行为次数阈值时，将所述行为日志所对应的用户身份确定为可疑用户身份；

从所述第一窗口时间内的曝光日志以及行为日志中，过滤掉对应所述可疑用户身份的曝光日志以及行为日志；

在过滤处理的所述第一窗口时间内的曝光日志以及行为日志中，将对应相同历史请求的曝光日志以及行为日志进行合并处理，得到对应所述历史请求的合并日志，以作为训练数据；

获取对应所述训练数据的正例信息以及负例信息，并结合所述训练数据生成对应所述历史请求的训练样本；

将多个所述历史请求对应的训练样本组合形成训练样本集合；

其中，所述负例信息包括在所述第一窗口时间内记载于所述曝光日志、且未记载于所述行为日志中的信息。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于人工智能的信息推荐方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现本发明实施例提供的基于人工智能的信息推荐方法。

本发明实施例具有以下有益效果：

通过历史行为信息序列对用户兴趣进行建模，学习表征用户兴趣的用户兴趣向量，在建模过程中，通过获取历史行为信息序列中信息的位置编码，学习到用户历史行为信息之间的关系，进而对所学习到的结果进行多次迭代编码处理，从而得到用户兴趣向量，使得基于用户兴趣向量所召回信息的相关程度较高，进而提升推荐的个性化程度以及推荐信息的点击率。

附图说明

图1是相关技术中的基于人工智能的信息推荐方法的实际应用效果图；

图2是本发明实施例提供的基于人工智能的信息推荐系统的架构示意图；

图3是本发明实施例提供的应用基于人工智能的信息推荐方法的服务器200的结构示意图；

图4A-4D是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图；

图5是本发明实施例提供的基于人工智能的信息推荐方法的整体模型结构图；

图6是本发明实施例提供的基于人工智能的信息推荐方法的应用场景示意图；

图7是本发明实施例提供的基于人工智能的信息推荐方法的整体架构图；

图8是本发明实施例提供的基于人工智能的信息推荐方法的离线架构图；

图9是本发明实施例提供的基于人工智能的信息推荐方法的离线召回率示意图；

图10是本发明实施例提供的基于人工智能的信息推荐方法的模型训练结构示意图；

图11是本发明实施例提供的基于人工智能的信息推荐方法的在线应用流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解, “一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1）历史行为信息序列：在进行召回处理之前，经过点击操作或者播放操作等用户行为的信息按照行为产生的时间戳排序形成的有序信息序列；

2）稠密向量表示：离散输入的向量化表示，零数值的数目小于稠密特征阈值的特征，并且稠密向量表示中的不同维度可以具有相关性，从而可以基于稠密向量表示描述信息间的相关性，导致模型具有较强的泛化能力。

相关技术中针对召回问题存在以下技术方案：

1、可以基于人口统计学进行推荐，该方法基于“一个用户可能喜欢与其相似的用户所喜欢的信息”的假设，根据用户的性别、年龄将用户进行分簇，进而进行簇内热点信息的召回，这种方法简单易于实现，因此在线响应的速度快；

2、可以基于用户的长期标签兴趣进行推荐：该方法基于“一个用户有可能会喜欢和他曾经喜欢过的信息相似的信息”的假设，使用用户的长期画像去召回相关信息，这种方法显式使用信息的标签等文本信息，故而推荐结果具有较好的可解释性，但是由于只使用信息的文本信息，因此不存在冷启动问题；

3、可以基于信息的词向量进行协同推荐：这种方法离线计算信息的词向量，使用稠密向量建模对信息进行建模，从而进行信息的召回，利用群体智慧提升了推荐的个性化程度，其具有计算简单、实时响应、且可解释强的特点，但是，相关技术的上述方案中仍然存在以下问题：针对于第一种方法而言：即便是性别、年龄相同的用户，他们喜欢的信息可能截然不同，因此计算可信度较低，

另外，由于该方法基于的假设是“一个用户有可能会喜欢与其相似的用户所喜欢的信息”，因此，该方法的可解释性较低；针对第二种方法而言，用户兴趣中的标签频道实际上是信息在不同语义维度上的泛化，从信息到标签频道经过了一次泛化，所以是泛个性化推荐，导致推荐不精准。

另外，该方法强依赖信息的标签频道的标注，需要复杂的预处理甚至手工预处理信息，才能得到信息的标签频道，这种工作难以达到理想的效果，且标注不准确时一般不能得到较好的推荐结果；针对第三种方法而言，以信息的行为为基础进行相应词向量的计算，根据词向量计算离线情形下的相似信息对，在线使用时将信息点击历史拆分成单个信息，根据相似信息对分别进行信息的召回，存在以下问题：

首先，该方法存在召回个性化不足的问题。

参见图1，图1是相关技术中的基于人工智能的信息推荐方法的实际应用效果图，某女明星的左侧视频能召回该女明星的亲子类视频和八卦类视频，由于更多用户点击亲子类视频，所以亲子类视频总是排在八卦类视频的前面，这对母婴类用户的召回效果较好，但是对八卦类用户的召回效果一般，对于八卦类用户应该优先召回八卦类视频。

其次，该方法以共现统计为基础，仅使用了用户所点击的信息，没有考虑展示且未被用户点击的信息。

最后，将用户的点击历史分拆成单个的信息分别进行召回，没有将点击序列进行整体建模，即未考虑序列中的时序信息。

针对相关技术提供的上述几种方法存在的推荐不精准、强依赖信息标注、推荐个性化不足、仅使用点击信息训练模型等问题，本发明实施例提供了一种基于人工智能的信息推荐方法，装置、电子设备和计算机可读存储介质，能够解决推荐精确度较低且推荐缺乏个性化的问题，这是一种基于神经网络模型的信息协同召回方法，使用稠密向量对信息进行建模，并且通过深度学习整体建模历史行为信息序列，从而学习到表征用户兴趣的向量，以进行信息召回，从而提升推荐的个性化程度和推进准确度。

下面说明本发明实施例提供的电子设备的示例性应用，本发明实施例提供的电子设备可以实施为服务器。下面，将说明电子设备实施为服务器时示例性应用。

服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例在此不做限制。

所谓人工智能云服务，一般也被称作是AIaaS（AI as a Service，中文为“AI即服务”）。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自己专属的云人工智能服务。

参见图2，图2是本发明实施例提供的基于人工智能的信息推荐系统的架构示意图，信息推荐系统可以用于支撑各种信息的推荐场景，例如对新闻进行推荐的应用场景，对商品进行推荐的应用场景、对视频进行推荐的应用场景等等，根据应用场景不同，信息可以为新闻、实际商品、视频信息、图文等等，在信息推荐系统中，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，响应于接收到终端400的推荐信息请求，信息推荐系统的功能是基于服务器200中的各个模块实现的，在用户使用客户端的过程中，终端400将收集到的用户针对信息的互动行为上报至日志数据库600，作为训练样本数据，训练样本数据是来自于各个终端上报的不同用户的行为数据，基于所得到的训练数据对特征合成模型进行训练，响应于服务器200接收到终端400的信息推荐请求，服务器200中的序列获取模块2551从日志数据库600中获取历史行为信息序列，并通过特征确定模块2552以及迭代编码模块2553基于历史行为信息序列建模用户兴趣，首先通过特征确定模块2552得到行为特征向量，进而通过迭代编码模块2553得到用户兴趣向量，推荐模块2554基于用户兴趣向量从信息数据库500中获取满足相似条件的信息，作为召回的信息，对服务器对召回的信息进行后续排序以及多样化处理，得到推荐结果并推荐至终端400以响应信息推荐请求。

参见图3，图3是本发明实施例提供的应用基于人工智能的信息推荐方法的服务器200的结构示意图，图3所示的服务器200包括：至少一个处理器210、存储器250和至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器 210的一个或多个存储设备。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个（有线或无线）网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（USB，Universal Serial Bus）等。

在一些实施例中，本发明实施例提供的基于人工智能的信息推荐装置可以采用软件方式实现，图3示出了存储在存储器250中的基于人工智能的信息推荐装置255，包括了信息推荐系统的多个模块，模块可以是程序和插件等形式的软件，包括以下软件模块：序列获取模块2551、特征确定模块2552、迭代编码模块2553、推荐模块2554、以及训练模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

将结合本发明实施例提供的信息推荐系统的示例性应用和实施，说明本发明实施例提供的基于人工智能的信息推荐方法，信息推荐系统包括训练阶段以及应用阶段。

首先对本发明实施例提供的基于人工智能的信息推荐方法中模型的应用进行说明。参见图4A，图4A是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图，将结合图4A示出的步骤101-105进行说明。

在步骤101中，服务器获取用户的历史行为信息序列。

在一些实施例中，在服务器获取用户的历史行为信息序列之前，服务器接收到终端发送的推荐信息请求，服务器响应于接收到终端发送的推荐信息请求获取接收请求之前的多个历史行为信息序列，历史行为信息序列中信息的数目优选为100以内，历史行为可以是点击行为、播放行为以及其他用户行为，历史行为信息是被用户点击或者播放过的信息，历史行为信息序列即为由上述信息组成的序列，序列中信息的顺序是按照对应用户行为时间戳的降序排序，由于用户行为日志会被终端实时上传到日志数据库中，因此服务器可以从日志数据库中获取历史行为信息序列，从数据库中获取的历史行为信息序列的准确度较高，服务器还可以从用户行为缓存中获取历史行为信息序列，直接从用户行为缓存中获取历史行为信息序列过程的响应速度更快。

在步骤102中，服务器根据历史行为信息序列中每个信息的向量表示，确定表征用户的行为特征的行为特征向量。

在一些实施例中，步骤102中根据历史行为信息序列中每个信息的向量表示，确定表征用户的行为特征的行为特征向量，可以通过以下技术方案实现，根据每个信息在历史行为信息序列中的位置，对每个信息进行三角函数编码处理，得到每个信息的位置编码，并结合每个信息的原始向量表示，确定对应每个信息的向量表示；对每个信息的向量表示进行平均处理，得到表征用户的行为特征的行为特征向量。

在一些实施例中，上述结合每个信息的原始向量表示，确定对应每个信息的向量表示，可以通过以下技术方案实现，对每个信息的原始向量表示进行偏置处理；对每个信息的偏置处理结果与每个信息的位置编码进行对应相加处理，得到对应每个信息的向量表示。

作为示例，将信息的原始向量表示、信息的偏置向量以及信息的位置编码这三个向量进行相加处理，得到对应信息的向量表示，进而对序列中的每个信息的向量表示进行平均处理，即对多个向量表示求平均，由于求平均的结果是对历史行为信息序列中的每个信息进行处理得到的，且求平均的结果中包含了信息在序列中的位置信息，即能够表征用户行为的顺序关系以及对应信息的顺序关系，因此得到的行为特征向量可以表征用户的行为特征。

在一些实施例中，位置编码的维度与信息的原始向量表示的维度相同；上述根据每个信息在历史行为信息序列中的位置，对每个信息进行三角函数编码处理，得到每个信息的位置编码，可以通过以下技术方案实现，当位置编码中维度的序号为偶数时，根据以下正弦函数（1）确定位置编码中对应维度的编码值：

（1）

当位置编码中维度的序号为奇数时，根据以下余弦函数（2）确定位置编码中对应维度的编码值：

（2）

其中，PE（i）为位置编码中第i个维度的编码值，pos为信息在历史行为信息序列中根据行为时间的排序位置，i为位置编码中每个维度的序号，且i为不小于0的整数，d_model为位置编码的维度。

作为示例，位置编码不局限于使用三角函数进行编码，但是三角函数编码的方式不仅能够表达信息的绝对位置信息，三角函数还可以表达信息的相对位置关系，由于三角函数的公式特性，下一个位置的位置编码可以通过上一个位置的位置编码来表示，因此可以学习到信息的相对位置关系，在位置编码的偶数维度位置使用正弦编码，在位置编码的奇数维度位置使用余弦编码，从而位置编码更容易获取时序信息。

在步骤103中，服务器将行为特征向量进行多次迭代地编码处理，得到表征用户的兴趣的用户兴趣向量。

参见图4B，图4B是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图，步骤103中将行为特征向量进行多次迭代地编码处理，得到表征用户的兴趣的用户兴趣向量，可以通过步骤1031-1034实现。

在步骤1031中，通过N个级联的神经网络模型中的第n神经网络模型，对第n神经网络模型的输入进行编码处理，并将第n神经网络模型输出的第n编码处理结果传输到第n+1神经网络模型以继续进行编码。

作为示例，n为取值从1开始递增的整数，且n的取值范围满足

，N为大于或等于2的整数；当n取值为1时，第n神经网络模型的输入为行为特征向量，当n取值为

时，第n神经网络模型的输入为第n-1神经网络模型的编码处理结果，神经网络模型的级联数目N可以为3，前一个神经网络模型的输出结果是后一个神经网络模型的输入，最后一个神经网络模型的输出是得到的行为特征向量的编码处理结果，第一个神经网络模型的输入是行为特征向量。

在一些实施例中，每个神经网络模型包括第一隐层、线性整流层、第二隐层以及横向规范化层；步骤1031中通过N个级联的神经网络模型中的第n神经网络模型对行为特征向量进行编码处理，可以通过以下技术方案实现，将第n神经网络的输入与第一隐层的第一隐层参数相乘，得到对应行为特征向量的第一隐层结果；通过线性整流层对第一隐层结果进行线性整流处理，得到对应行为特征向量的线性整流处理结果；将线性整流处理结果与第二隐层的第二隐层参数相乘，得到对应行为特征向量的第二隐层结果；通过横向规范化层对第二隐层结果进行横向规范化处理以及残差连接处理，得到第n神经网络模型输出的第n编码处理结果。

作为示例，多个级联的神经网络模型可以是三个神经网络模型级联得到的，每个神经网络模型包括两部分，第一部分是前向传输层，第二部分是残差连接和横向规范化层，前向传输层包括两层深度神经网络（DNN，Deep Neural Networks）结构和激活函数层（Relu），前向传输层中的第一隐层和第二隐层是DNN结构，激活函数层是对该层的输入进行线性整流处理，线性整流处理可以通过Relu函数实现，多个前向传输层的堆叠使用，可以增加对用户行为历史刻画的精准程度。

作为示例，网络的深度可以帮助模型提取到更为丰富、抽象和具有语义信息的特征，深度增加不能简单地通过增加层数来进行，不仅会导致梯度出现弥散或者爆炸，更为严重的是会导致模型退化，残差连接是为了解决退化的问题，以尽可能保留上一层的原始输入，横向规范化（LN，Layer Normalization）是对本次输入的一个样本进行归一化处理，归一化因子是本层的神经元的个数，通过横向规范化可以提高模型的收敛速度。

在步骤1032中，将第N神经网络模型输出的第N编码处理结果作为对应行为特征向量的编码处理结果。

作为示例，将级联的最后一个神经网络模型输出的第N编码处理结果作为对应行为特征向量的编码处理结果，并将得到的编码处理结果传输到用于进行融合处理的神经网络模型中。

在步骤1033中，将对应行为特征向量的编码处理结果与对应用户的用户数据向量进行融合处理，得到对应用户的融合处理结果。

作为示例，将得到的编码处理结果与用户性别的向量表示和用户年龄的向量表示输入到用于进行特征融合处理的神经网络模型进行特征融合处理，得到用户兴趣向量，用于进行特征融合处理的神经网络模型包括DNN结构和横线规范化结构。

在一些实施例中，步骤1033中将对应行为特征向量的编码处理结果与对应用户的用户数据向量进行融合处理，得到对应用户的融合处理结果，可以通过以下技术方案实现，将对应编码处理结果的影响因子作为编码处理结果的权重参数，并将对应用户数据向量的影响因子作为用户数据向量的权重参数，对编码处理结果以及用户数据向量根据各自对应的权重参数进行加权处理，得到加权处理结果；对加权处理结果进行偏置处理，得到对应用户的融合处理结果。

作为示例，用户数据向量包括用户年龄的向量表示，用户性别的向量表示，步骤1033中的技术方案实际上是通过用于进行特征融合处理的神经网络模型实现的，具体通过训练得到的分别对应编码处理结果以及用户数据向量的权重参数，对编码处理结果以及用户数据向量进行加权处理以及偏置处理，得到融合处理结果，且这里的权重参数表征对应向量对融合处理结果的影响，即编码处理结果以及用户数据向量的影响因子。

在步骤1034中，对融合处理结果进行横向规范化处理，得到表征用户的兴趣的用户兴趣向量。

作为示例，横向规范化是对本次输入的一个样本进行归一化处理，通过横向规范化可以提高模型的收敛速度，横向规范化也是归一化数据的方式，横向规范化是通过以下公式（3）实现的：

（3）

其中，

是横向规范化处理的输出结果，

是横向规范化处理的输入，

是样本方差，

是样本期望，

和

是横向规范化层的参数。

在一些实施例中，还可以通过以下技术方案来获取用户兴趣向量，获取用户数据向量、行为特征向量以及上下文特征向量，行为特征向量是对每个信息的原始向量表示进行池化得到的，直接对获取的向量进行拼接处理，将拼接处理结果直接传递到多层感知机中进行计算，最终得到用户兴趣向量，在池化过程中，序列中信息池化的权重和信息与候选信息之间的相关度成正相关，将候选信息与序列中的每个信息发生的交互来计算相关度分数，

在步骤104中，服务器确定与用户兴趣向量满足相似条件的多个信息。

参见图4C，图4C是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图，步骤104中确定与用户兴趣向量满足相似条件的多个信息，可以通过步骤1041-1044实现。

在步骤1041中，根据信息集合中每个信息的原始向量表示，对信息集合中的信息进行聚类处理，得到对应信息集合的多个聚类。

在一些实施例中，步骤1041中根据信息集合中每个信息的原始向量表示，对信息集合中的信息进行聚类处理，得到对应信息集合的多个聚类，可以根据以下技术方案实现，从信息集合中随机选择多个信息，以作为多个聚类的初始质心，并从信息集合中移除选择的多个信息；初始化聚类处理的迭代次数为M，其中，M为大于或者等于2的整数；在聚类处理的每一次迭代过程中执行以下处理：将多个聚类初始化为空集，并确定信息集合中每个信息的原始向量表示与多个初始质心的原始向量表示之间的相似度；将相似度最大的信息与初始质心确定为属于相同聚类，并将所确定的相似度最大的信息转移至所对应的聚类；针对经过转移处理后的每个聚类，将每个聚类中的每个信息的原始向量表示进行平均处理，得到每个聚类的新质心；将迭代M次后得到的多个聚类确定为聚类处理结果，或者，将迭代m次后得到的多个聚类确定为聚类处理结果；其中，迭代m次后得到的多个聚类与迭代m-1次后得到的多个聚类的质心相同，m小于M。

作为示例，上述聚类处理的过程实际上是一种迭代求解的聚类分析算法，首先将信息库中得到的多个信息的原始向量表示预先分为多组（k组），k为大于等于2的整数，则随机选取k个对象作为初始的聚类中心，然后确定每个对象分别与k个聚类中心之间的距离，假设存在有p个对象，p为大于等于1的整数，则将会得到p*k个距离结果，将每个对象分配给距离它最近的聚类中心，聚类中心以及分配给它们的对象就代表一个聚类，每完成一次分配过程，聚类的聚类中心会根据聚类中现有的对象被重新计算，这个过程将不断重复直到满足某个终止条件，终止条件可以是没有聚类中心再发生变化，或者达到仅有最小数目的聚类中心发生变化，终止条件还可以是上述过程的重复次数达到迭代次数M，上述方式的原理比较简单，因而实现容易且收敛速度快，当结果聚类密集且聚类与聚类之间区别明显时,上述聚类算法效果较好，上述聚类算法中需要参与调参的参数仅仅是聚类数目k。

在步骤1042中，对每个聚类中多个信息的原始向量表示进行平均处理，得到聚类的中心向量。

作为示例，通过聚类方式对信息库中信息进行聚类处理，得到多个聚类的中心向量，基于得到的聚类的中心向量，可以确认出与用户兴趣向量之间满足相似条件的聚类，后续仅需要基于聚类中的信息计算与用户兴趣向量之间满足相似条件的信息，从而可以减少相似度计算的工作量，减轻计算资源的压力。

在步骤1043中，确定与用户兴趣向量之间的第一相似度超过相似度阈值的中心向量，以作为相似中心向量。

在步骤1044中，针对相似中心向量所对应的聚类中每个信息，确定所述每个信息的原始向量表示与用户兴趣向量之间的第二相似度，并将所对应的第二相似度超过相似度阈值的多个信息，确定为与用户兴趣向量满足相似条件的信息。

作为示例，假设需要从100000信息中获取原始向量表示与用户兴趣向量之间的相似度超过相似度阈值的信息，作为召回得到的信息，首先对100000条信息进行基于原始向量表示的聚类处理，得到100个聚类，分别确定每一个聚类的中心向量，具体是将该聚类中的所有信息的原始向量表示进行平均处理，得到该聚类的中心向量，接着计算100个中心向量与用户兴趣向量之间的第一相似度，筛选出第一相似度大于相似度阈值的5个中心向量，得到这些中心向量所对应的5个信息聚类，假设这些信息聚类中包括4000条信息，则仅需要分别计算4000条信息的原始向量表示与用户兴趣向量之间的第二相似度，筛选出第二相似度大于相似度阈值的500个原始向量表示，得到所对应的500条信息作为召回得到的信息，即为与用户兴趣向量满足相似条件的信息，通过上述实施方式，将原本需要进行的100000次相似度计算精简为需要进行4100次相似度计算，减少了相似度计算的工作量，从而减少了响应时间。

在步骤105中，服务器执行针对用户的推荐操作。

在一些实施例中，服务器所执行的针对用户的推荐操作包括排序操作、多样化处理操作以及重排序操作，排序操作以及重排序操作是基于点击率预测模型对步骤104中得到的信息进行点击率预测，得到点击率降序排序靠前的多个信息，进而根据信息之间的语义距离对排序得到的多个信息进行多样化处理，得到多样化处理结果，多样化处理结果中信息与信息之间的语义距离大于语义距离阈值，从而保证多样化处理结果中的多个信息不属于雷同信息，能够广泛覆盖用户兴趣，最后再进行重排序处理，基于点击率预测模型对能够广泛覆盖用户兴趣的信息进行点击率预测，进一步得到点击率降序排序靠前的多个信息，推荐至用户终端。

参见图4D，图4D是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图，在步骤201中，服务器接收终端发送的信息推荐请求，在步骤202中，服务器获取用户的历史行为信息序列；在步骤203中，服务器根据每个信息在历史行为信息序列中的位置，对每个信息进行三角函数编码处理，得到每个信息的位置编码，并结合每个信息的原始向量表示，确定对应每个信息的向量表示；在步骤204中，服务器对每个信息的向量表示进行平均处理，得到表征用户的行为特征的行为特征向量；在步骤205中，服务器将行为特征向量进行多次迭代地编码处理，得到表征用户的兴趣的用户兴趣向量；在步骤206中，服务器根据信息集合中每个信息的原始向量表示，对信息集合中的信息进行聚类处理，得到对应信息集合的多个聚类；在步骤207中，服务器对每个聚类中多个信息的原始向量表示进行平均处理，得到聚类的中心向量；在步骤208中，服务器确定与用户兴趣向量之间的第一相似度超过相似度阈值的中心向量，以作为相似中心向量；在步骤209中，服务器确定相似中心向量所对应的聚类中每个信息的原始向量表示与用户兴趣向量之间的第二相似度，并将所对应的第二相似度超过相似度阈值的多个信息，确定为与用户兴趣向量满足相似条件的信息；在步骤210中，服务器基于与用户兴趣向量满足相似条件的信息向终端执行推荐操作。

接下来对本发明实施例提供的基于人工智能的信息推荐方法中所使用的模型以及模型所进行的训练进行说明。

参见图5，图5是本发明实施例提供的基于人工智能的信息推荐方法的整体模型结构图，整体模型是用于建模用户兴趣向量的特征合成模型，由于模型架构中利用了级联神经网络模型，因此该特征合成模型实际是深度协同模型，特征合成模型包括多个级联的神经网络模型以及用于进行特征融合处理的神经网络模型，在特征合成模型之前还需要通过位置编码结构对信息的向量表示进行位置编码处理，得到行为特征向量，其中，位置编码结构用于对输入的历史行为信息序列进行位置编码处理，具体是对输入模型的历史行为信息序列中的信息标识的向量表示增加偏置以及对应位置编码，进而通过平均算子对得到的各个信息的向量进行求平均处理，得到行为特征向量，多个级联的神经网络模型可以是三个神经网络模型级联得到的，每个神经网络模型包括两部分，第一部分是前向传输层，第二部分是残差连接和横向规范化层，前向传输层包括两层深度神经网络（DNN，Deep NeuralNetworks）结构和激活函数层（Relu），在级联的神经网络模型中，前一个神经网络模型的输出结果是后一个神经网络模型的输入，最后一个神经网络模型的输出是得到的行为特征向量的编码处理结果，第一个神经网络模型的输入是行为特征向量，将得到的编码处理结果与用户性别的向量表示和用户年龄的向量表示输入到用于进行特征融合处理的神经网络模型进行特征融合处理，得到用户兴趣向量，用于进行特征融合处理的神经网络模型包括DNN结构和横向规范化结构。

在一些实施例中，用户兴趣向量是通过调用特征合成模型获取的；特征合成模型包括：多个级联的神经网络模型、以及用于进行融合处理的神经网络模型；在获取用户的历史行为信息序列之前，还可以执行以下技术方案：生成用于训练特征合成模型的训练样本集合；将训练样本集合中的每个样本在特征合成模型的各个层以及最大似然函数层中进行正向传播，以得到对应每个样本的预测类别；初始化包括每个样本以及对应每个样本的预测类别的损失函数；确定每个样本的预测类别和真实类别之间的误差，并根据损失函数在特征合成模型中反向传播误差，以确定损失函数取得最小值时特征合成模型的变化值，并根据变化值更新特征合成模型的参数。

作为示例，针对于每个训练样本，解析训练样本中的历史行为信息标识序列、用户性别、用户年龄、正例以及负例，其中，查表获取历史行为信息标识、用户性别、以及用户年龄所对应的向量表示，针对用户的行为历史，假设存在N篇历史行为信息，N为大于零的整数，N可以为100，则此时可获取N个历史行为信息标识的向量表示，针对每个历史行为信息标识的向量表示加上偏置向量，为了增加每篇信息在序列中不同位置的区分性，因此基于上述相加处理的基础上增加额外的位置编码，以刻画行为历史中不同的信息的位置，通过三角函数的位置编码可以表达信息之间的相对距离，最后将三个向量相加的结果进行平均处理，得到行为特征向量，再将行为特征向量传输到多个级联的神经网络模型、以及用于进行融合处理的神经网络模型中，为了进行反向误差传播，在特征合成模型之后续接一个最大似然函数层，以得到预测类别，并将预测类别与真实类别（训练样本中的正例和负例）进行比较得到误差，最后对误差进行反向传播以更新多个级联的神经网络模型、以及用于进行融合处理的神经网络模型中的参数。

作为示例，除了对特征合成模型中的参数进行训练，还可以对特征合成模型的前置部分进行训练，即对偏置处理中的偏置参数进行训练、并对向量表示部分中的参数进行训练，这两部分的训练可以与上述特征合成模型的训练合并进行、还可以进行单独的预训练得到成熟的偏置参数以及向量表示后直接使用，还可以在进行预训练之后，将预训练结果与上述特征合成模型的训练合并进行训练。

在一些实施例中，上述生成用于训练特征合成模型的训练样本集合，还可以通过以下技术方案实现：获取第一窗口时间内响应于历史请求所生成的曝光日志、以及响应于历史请求和历史操作所生成的行为日志；其中，行为日志按照生成时间降序记录在曝光日志中；对曝光日志以及行为日志进行过滤处理，并对过滤结果进行合并处理，得到用于训练特征合成模型的训练样本集合。

在一些实施例中，上述对曝光日志以及行为日志进行过滤处理，可以通过以下技术方案实现：获取在第二窗口时间内对应多个用户身份的行为日志；当第二窗口时间内的行为日志中的行为次数超过行为次数阈值时，将行为日志所对应的用户身份确定为可疑用户身份；从第一窗口时间内的曝光日志以及行为日志中，过滤掉对应可疑用户身份的曝光日志以及行为日志；上述对过滤结果进行合并处理，得到用于训练特征合成模型的训练样本集合，可以通过以下技术方案实现：在过滤处理的第一窗口时间内的曝光日志以及行为日志中，将对应相同历史请求的曝光日志以及行为日志进行合并处理，得到对应历史请求的合并日志，以作为训练数据；获取对应训练数据的正例信息以及负例信息，并结合训练数据生成对应历史请求的训练样本；将多个历史请求对应的训练样本组合形成训练样本集合；其中，负例信息包括在第一窗口时间内记载于曝光日志、且未记载于行为日志中的信息。

作为示例，将前一天（第二窗口时间）的用户行为日志进行数据合并，即将用户前一天的用户行为合并，以用户为键，将一个用户前一天在信息上的所有行为按照时间顺序聚集，针对信息的用户行为超过用户行为次数阈值的用户确定为不合法用户，在后续过程中直接丢弃这部分用户的样本，以天为单位（第一窗口时间）进行用户行为日志以及曝光日志的合并，在在线服务中将请求实时获取的用户行为按照时间顺序降序叠落在曝光日志中；解析用户行为日志时，获取该条行为日志的流水号、用户账号、行为历史信息标识，以流水号为键，输出该条日志的行为信息标识，解析曝光日志时，获取该条曝光日志的流水号、用户账号、信息行为历史、曝光信息标识、用户性别、用户年龄，否则以流水号为键，输出该条日志的信息行为历史、曝光信息标识、用户账号、用户性别以及用户年龄，之后可将一次请求的用户行为以及曝光信息聚合，首先获取一次请求对应的信息行为历史、曝光信息标识集合、用户账号、用户性别以及用户年龄，将信息行为历史按照时间顺序降序排列，若展示的信息中存在具有用户行为的信息，则对应生成一条训练样本，具体包含用户账号、用户信息行为历史、用户性别、用户年龄、正例行为信息标识、以及负例信息标识，若该次请求刷新得到的展示信息中存在不具有用户行为的信息，则该条样本的负例初始化为用户该次请求得到的展示但不具有用户行为的信息，否则将该条样本的负例初始化为零，在初始化样本的负例之后，对负例进行补齐处理，从而使样本能够适应于召回模型的训练，提高训练得到的模型的召回率。

下面，将说明本发明实施例提供的基于人工智能的信息推荐方法在一个实际应用场景中的示例性应用。

使用基于人工智能的信息推荐方法的应用程序可以是一款构建在移动终端上的内容分发平台，或者可以是内置于移动终端的其他应用程序，通过深入挖掘用户兴趣，引入优质内容，将优质的内容以个性化的方式推荐给用户，主要包含图文、视频、图集等不同类型的信息，其中，视频推荐是看点推荐的重要组成部分，如图6所示，图6是本发明实施例提供的基于人工智能的信息推荐方法的应用场景示意图，图6中左侧场景为产品的主信息流界面，主信息流界面展示有图文、视频、图集等不同类型的信息，点击视频信息会进入一拖三场景，即同一个视频信息附带有与该视频信息具有关联的多个视频，如图6中右侧所示，展示有与主信息流中被点击的视频信息相关的一系列视频，视频信息推荐通常占到了整个产品每天的分发总量的75%以上。

视频信息推荐主要包含离线训练和在线应用两个部分，如图7所示，图7是本发明实施例提供的基于人工智能的信息推荐方法的整体架构图，架构中的离线部分主要包含用户行为收集、用户画像计算和点击率（CTR，Click-Through Rate）预测模型训练计算三个部分，用户行为收集主要包含点击、展示曝光、点赞、观看时长等，用户画像计算则主要根据用户行为计算用户在标签、分类等不同维度下的兴趣，用户画像可以是标签兴趣、视频分类等等，标签兴趣可以是“湖人”、“皇马”等等，各个用户画像后的数据表征不同用户画像在整个信息特征中的影响权重或者重要程度，CTR预测模型则主要根据用户行为和用户画像进行特征抽取和模型训练，在线部分主要包括候选召回部分、排序打分部分和多样性展示三个部分，候选召回部分主要根据用户行为和用户画像进行信息召回，排序打分部分则根据离线训练好的模型进行特征抽取和点击率预测打分，多样性展示则是在排序打分的基础上结合多样性模型进行最后信息的展示。

本发明实施例提供的基于人工智能的信息推荐方法主要分为离线部分和在线部分这两个部分，离线部分主要是根据用户行为日志以及曝光日志生成训练数据，进而进行模型的训练，在线部分主要根据用户实时行为历史召回信息。

参见图8，图8是本发明实施例提供的基于人工智能的信息推荐方法的离线架构图，主要分成以下4个步骤：1、根据用户行为进行日志清洗；2、根据用户行为日志以及曝光日志，结合识别出的作弊用户进行日志合并；3、对训练负例进行补齐以生成训练数据；4、根据生成的训练数据、以及相应的网络结构进行模型训练。

在根据用户行为进行日志清洗的过程中，主要存在两个问题：爬虫模拟真实用户行为产生大量虚假行为，这类行为相互之间没有相关性，故而在训练模型时会产生负向作用；极重度用户行为指短期内发生的大量用户行为，这些用户行为所指向的信息相互之间的相关性较弱，在训练模型的时候直接引入会产生负向作用，且由于用户行为量较大，因而会增加样本数量。因此，需要进行日志清洗，将前一天的用户行为日志进行数据合并，即将用户前一天的用户行为合并，以用户为键，将一个用户前一天在信息上的所有行为按照时间顺序聚集，针对信息的用户行为超过用户行为次数阈值的用户确定为不合法用户，在后续过程中直接丢弃这部分用户的样本。

在根据用户行为日志以及曝光日志，结合识别出的作弊用户进行日志合并的过程中，以天为单位进行用户行为日志以及曝光日志的合并，首先在在线服务中将请求实时获取的用户行为按照时间顺序降序叠落在曝光日志中，故而离线可直接使用在线叠落的用户行为历史进行训练数据的生成，避免了在离线时根据用户行为日志进行用户行为历史拼接而造成的不准确；其次用户行为日志以及曝光日志分别包含唯一标记一次请求的流水号，故而根据流水号，可以将一次请求的用户行为对应的信息以及所展示的信息聚集；一条用户行为日志包含用户一次用户行为的相关信息，即用户行为所针对信息的相关信息，一条曝光日志包含用户一次请求刷新的相关信息，通常包括多个信息，可以使用分布式计算平台进行数据处理，下面分映射阶段（map）和归约阶段（reduce）进行具体介绍。

在map阶段中，输入用户行为日志以及曝光日志，将识别出的作弊用户以词表的形式加载到每一个map节点中，解析用户行为日志时，获取该条行为日志的流水号、用户账号、行为历史信息标识，如果用户账号为识别出的作弊用户，则直接丢弃该条用户行为日志，否则以流水号为键，输出该条日志的行为信息标识，解析曝光日志时，获取该条曝光日志的流水号、用户账号、信息行为历史、曝光信息标识、用户性别、用户年龄，如果用户账号为识别出的作弊用户，则直接丢弃该条曝光日志，否则以流水号为键，输出该条日志的信息行为历史、曝光信息标识、用户账号、用户性别以及用户年龄。

在map阶段以流水号为键输出相应信息，在reduce阶段则可将一次请求的用户行为以及曝光信息聚合，首先获取一次请求对应的信息行为历史、曝光信息标识集合、用户账号、用户性别以及用户年龄，将信息行为历史按照时间顺序降序排列，若用户行为历史为0，则丢弃该次请求的样本，否则分别遍历用户的曝光信息标识集合，查找是否具有用户行为，若具有用户行为，则生成一条训练样本，具体包含用户账号、用户信息行为历史、用户性别、用户年龄、正例行为信息标识、负例等信息，若该次请求刷新得到的展示信息中存在不具有用户行为的信息，则该条样本的负例初始化为用户该次请求得到的展示但不具有用户行为的信息，否则将该条样本的负例初始化为零。

在训练数据的生成过程中，上述过程中得到的初始训练样本中的负例仅包含用户该次请求刷新得到的展示信息中存在不具有用户行为的信息，由于给用户展示的信息都是用户感兴趣的信息，而未产生用户行为的信息也仅是表征用户对该信息的兴趣较低，而并不是完全不相关，由于通常排序过程所使用的点击率模型所解决的问题是从用户感兴趣的信息集合中选取最相关的信息，而召回模型是在信息整体库中选取用户可能感兴趣的信息，存在大量完全不相关的信息，而这种负例生成方法只选取了用户相关的信息，故而对于训练点击率模型来说是适用的，但是对训练召回阶段的模型并不适用。

基于上述考虑，在每条训练数据的负例方面，除将对用户展示但不具有用户行为的信息作为负例外，在信息整体库中随机选取多个信息作为负例，这里将负例初始化为100、300、500、1000这4组进行实验，从召回率可以得出，负例为100、以及负例为300相比于负例为500有明显的折损，负例为1000相对于负例为500有略微提升，参见图9，图9是本发明实施例提供的基于人工智能的信息推荐方法的离线召回率示意图，这里考虑到训练耗时，优选500负例对初始训练样本进行补齐，得到用于训练模型的训练样本，综上所述，一条训练样本包括：最近多次的用户行为；用户信息（性别、年龄）；用户行为信息（1个正例）；不具有用户行为的信息（500个负例），训练语料可以选择最近多天的语料，测试语料可以选取用户维度时间序列最靠后的多个样本，离线训练效果可以通过在验证集的召回率进行评估。

参见图10，图10是本发明实施例提供的基于人工智能的信息推荐方法的模型训练结构示意图，在模型的训练过程中，针对一条训练样本，首先解析其历史行为信息标识、用户性别、用户年龄、正例、负例等信息，分别查表获取历史行为信息标识、用户性别、以及用户年龄的稠密向量表示，其中信息标识的稠密向量表示为64维，用户性别、年龄的稠密向量表示为8维。

针对用户行为历史，假设为N篇信息，则此时可获取N个64维度的向量，首先针对每个信息标识的64维向量加上64维度的偏置向量，所有的信息共享同一组偏置向量；其次为了增加每篇信息在不同位置的区分性，为行为历史的信息稠密向量表示增加一个额外的位置编码，位置编码的维度和稠密向量表示的维度一样，刻画了行为历史中不同信息的位置和他们之间的相对距离，位置编码的具体计算方法有很多种，这里可以采用基于三角函数的计算方法，参见公式（4）和公式（5）：

（4）

（5）

其中，

为信息在序列中的顺序，i是指向量中每个值的维度序号，在偶数维度使用正弦编码，在奇数维度使用余弦编码，通过位置编码可以获取长距离依赖信息的时序信息，最后将N个信息的向量表示求平均得到行为特征向量，行为特征向量会通过过3层的前向传输层，每个子层的输入和输出都存在着残差连接和横向规范化层，前向传输层的前半部分比较简单，是两层的深度神经网络（DNN）结构，第一层的维度为256，第二层的维度与信息的稠密向量表示的维度一致，为64，其结构为

，即为DNN、激活函数层以及DNN的结构；前向传输层的后半部分则为残差连接和横向规范化层，通过残差连接可以获得较好的回传梯度，横向规范化处理可以加快模型的收敛速度，横向规范化也是归一化数据的方式，可以在每一个样本上计算均值和方差，参见公式（6）

（6）

其中

和

为LN层的学习参数，将行为特征向量传输经过3层的前向传输层即可得到该部分的输出，多层前向传输层的堆叠使用，可以增加对用户行为历史刻画的精准程度，然后通过一个DNN的结构将用户行为历史得到的向量表示，用户性别、用户年龄的向量表示融合一起，融合处理方式参见公式（7）：

（7）

其中，

的维度为64（基于用户行为历史得到的向量表示），

、

维度为8（用户性别、用户年龄的向量表示），则

的大小是

（基于用户行为历史得到的向量表示对应的影响因子），

的大小是

，

的大小是

（用户性别、用户年龄的向量表示对应的影响因子），b为偏置参数，最后可得到一个64维向量y，y是用户兴趣向量，为了加快模型的收敛速度，可以在这个DNN结构后续接LN层，顶层为一个501分类的最大似然函数分类器，对应训练样本中的1个正例和500个负例，使用开源框架可以实现上述模型，采用随机优化方法优化模型权重，同时为了增加模型的鲁棒性，在信息标识的向量表示，用户性别、用户年龄的向量表示处增加了0.25的随机丢弃处理，以天为级别进行模型训练，然后进行线上模型的更新。

模型的在线应用过程即为根据用户的行为历史向用户推荐感兴趣的信息，通常离线根据前一日的用户行为历史使用基于图像处理单元的服务器进行相似信息的召回，优势在于可以充分利用图像处理单元的高性能计算服务，在线过程中只需加载计算得到的相似信息，并基于得到的相似信息进行后续的排序打分以及多样性处理，但是申请人在实施本发明时发现其缺点在于用户离线行为历史以天为单位更新，用户离线行为在一天时间内是静态不变的，而用户实时行为历史是实时变化的，从而导致离线计算与在线使用中用户兴趣向量不一致的问题，为了解决这个问题，将用户相似信息计算的逻辑进行在线运行，目前在线仅部署有基于中央处理器的服务器，导致计算耗时高的问题，为了解决这个问题，基于算字库实现了高效的矩阵运算，将前馈网络用算子实现，从而将计算前馈网络的耗时控制在了15毫秒之内，同时采用聚类的方式首先对大量信息进行聚类处理，接着确定出用户相似聚类，进而有限范围内确定相似信息，避免对全部信息计算相似度，从而将总耗时控制在了40毫秒以内。

参见图11，图11是本发明实施例提供的基于人工智能的信息推荐方法的在线应用流程图，图11的左侧虚线框内是对历史行为信息以及用户的性别年龄等特征进行建模处理，得到表征用户的兴趣的用户兴趣向量的过程，图11右侧的虚线框内是信息推荐方法的主要流程，主要分成以下3个步骤：1、根据用户行为历史、性别、年龄等信息进行用户兴趣向量的计算，具体可以通过左侧虚线框内的建模处理过程得到表征用户的兴趣的用户兴趣向量；2、根据对信息整体库中的信息进行聚类处理得到的信息聚类结果，计算用户兴趣向量与各个聚类的相似度，选取其中最相似k个聚类（分簇）；3、根据选取的分簇分别计算用户向量与聚类信息的相似度，选取其中最相似的多个信息（最相似的N个信息），具体过程如下，基于算子库实现特征合成模型中的全部算子，主要包括有DNN层以及LN层的实现，还有预训练的向量表示映射层的实现，算子支持包括固定以及任意大小的所有矩阵操作，能够有效支持线性代数，矩阵和矢量运算，数值分析及其相关的算法，故而基于算子库实现计算算子可以大幅降低运算的耗时，当用户的实时行为历史超过100时，截取最近的100次用户行为得到历史行为信息序列，以进行用户兴趣向量的计算，具体根据前述网络结构进行前馈网络的传递，得到64维的用户兴趣向量，若在线加载约80万信息，那么全部参与用户兴趣向量之间的相似度的计算将造成较大延时，为了降低在线参与与用户向量之间的相似度计算的信息数，首先对信息进行聚类处理，再根据用户兴趣向量进行相似聚类的计算。具体而言，在线服务启动加载召回模型时，首先加载全部信息的原始向量表示，根据信息的原始向量表示使用聚类算法进行信息的聚类，将约80万信息聚成了4096个聚类，每个聚类的中心为聚类内所有信息的原始向量表示的均值，分别计算用户兴趣向量与4096个聚类的中心向量相似度（例如，余弦距离的倒数，或者，基于余弦距离倒数的其他数学变形），选取相似度降序排序靠前的15个聚类，将选取的前15个聚类按照与用户兴趣向量的相似度从高到低的顺序，分别计算聚类内的信息与用户兴趣向量的相似度，为了节约耗时，最多计算前5000个信息与用户兴趣向量之间的相似度，最后选取相似度降序排序靠前的1000信息为最后召回与用户兴趣最相符的信息。

本发明实施例提供的基于人工智能的信息推荐方法，应用于信息推荐产品中，相比于对照组的行为率从14.36%提升到15.21%，相对提升了5.9%，信息整体行为率相对于对照组提升了3.6%，信息整体播放量相对于对照组提升1.12%，在周末高峰期提升将近4千万的播放量，带来了明显的应用效果。

下面继续说明本发明实施例提供的基于人工智能的信息推荐装置255的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器250的基于人工智能的信息推荐装置255中的软件模块可以包括：序列获取模块2551，用于获取用户的历史行为信息序列；特征确定模块2552，用于根据所述历史行为信息序列中每个信息的向量表示，确定表征所述用户的行为特征的行为特征向量；迭代编码模块2553，用于将所述行为特征向量进行多次迭代地编码处理，得到表征所述用户的兴趣的用户兴趣向量；推荐模块2554，用于确定与所述用户兴趣向量满足相似条件的多个信息，以执行针对所述用户的推荐操作。

在一些实施例中，所述特征确定模块2552，用于：根据所述每个信息在所述历史行为信息序列中的位置，对所述每个信息进行三角函数编码处理，得到所述每个信息的位置编码，并结合所述每个信息的原始向量表示，确定对应所述每个信息的向量表示；对所述每个信息的向量表示进行平均处理，得到表征所述用户的行为特征的行为特征向量。

在一些实施例中，所述位置编码的维度与所述信息的原始向量表示的维度相同，所述特征确定模块2552，用于：当所述位置编码中维度的序号为偶数时，根据以下正弦函数确定所述位置编码中对应所述维度的编码值：

在一些实施例中，所述特征确定模块2552，用于：对所述每个信息的原始向量表示进行偏置处理；对所述每个信息的偏置处理结果与所述每个信息的位置编码进行对应相加处理，得到对应所述每个信息的向量表示。

在一些实施例中，所述迭代编码模块2553，还用于：通过N个级联的神经网络模型中的第n神经网络模型，对所述第n神经网络模型的输入进行编码处理，并将所述第n神经网络模型输出的第n编码处理结果传输到第n+1神经网络模型以继续进行编码；其中，n为取值从1开始递增的整数，且n的取值范围满足

时，所述第n神经网络模型的输入为第n-1神经网络模型的编码处理结果；将第N神经网络模型输出的第N编码处理结果作为对应所述行为特征向量的编码处理结果；将对应所述行为特征向量的编码处理结果与对应所述用户的用户数据向量进行融合处理，得到对应所述用户的融合处理结果；对所述融合处理结果进行横向规范化处理，得到表征所述用户的兴趣的用户兴趣向量。

在一些实施例中，每个所述神经网络模型包括第一隐层、线性整流层、第二隐层以及横向规范化层，所述迭代编码模块2553，还用于：将所述第n神经网络的输入与所述第一隐层的第一隐层参数相乘，得到对应所述行为特征向量的第一隐层结果；通过所述线性整流层对所述第一隐层结果进行线性整流处理，得到对应所述行为特征向量的线性整流处理结果；将所述线性整流处理结果与所述第二隐层的第二隐层参数相乘，得到对应所述行为特征向量的第二隐层结果；通过所述横向规范化层对所述第二隐层结果进行横向规范化处理以及残差连接处理，得到所述第n神经网络模型输出的第n编码处理结果。

在一些实施例中，所述迭代编码模块2553，还用于：将对应所述编码处理结果的影响因子作为所述编码处理结果的权重参数，并将对应所述用户数据向量的影响因子作为所述用户数据向量的权重参数，对所述编码处理结果以及所述用户数据向量根据各自对应的权重参数进行加权处理，得到加权处理结果；对所述加权处理结果进行偏置处理，得到对应所述用户的融合处理结果。

在一些实施例中，所述推荐模块2554，还用于：根据信息集合中每个信息的原始向量表示，对所述信息集合中的信息进行聚类处理，得到对应所述信息集合的多个聚类；对每个所述聚类中多个信息的原始向量表示进行平均处理，得到所述聚类的中心向量；确定与所述用户兴趣向量之间的第一相似度超过相似度阈值的中心向量，以作为相似中心向量；针对所述相似中心向量所对应的聚类中每个信息，确定所述每个信息的原始向量表示与所述用户兴趣向量之间的第二相似度，并将所对应的第二相似度超过所述相似度阈值的多个信息，确定为与所述用户兴趣向量满足相似条件的信息。

在一些实施例中，所述推荐模块2554，还用于：从所述信息集合中随机选择多个信息，以作为多个聚类的初始质心，并从所述信息集合中移除所述选择的多个信息；初始化聚类处理的迭代次数为M，其中，M为大于或者等于2的整数；在所述聚类处理的每一次迭代过程中执行以下处理：将所述多个聚类初始化为空集，并确定所述信息集合中每个信息的原始向量表示与多个初始质心的原始向量表示之间的相似度；将相似度最大的信息与初始质心确定为属于相同聚类，并将所确定的相似度最大的信息转移至所对应的聚类；针对经过转移处理后的每个所述聚类，将每个所述聚类中的每个信息的原始向量表示进行平均处理，得到每个所述聚类的新质心；将迭代M次后得到的多个聚类确定为聚类处理结果，或者，将迭代m次后得到的多个聚类确定为聚类处理结果；其中，迭代m次后得到的多个聚类与迭代m-1次后得到的多个聚类的质心相同，m小于M。

在一些实施例中，所述用户兴趣向量是通过调用特征合成模型获取的；所述特征合成模型包括：多个级联的神经网络模型、以及用于进行融合处理的神经网络模型；所述装置255还包括：训练模块2555，用于：在获取所述用户的历史行为信息序列之前，生成用于训练所述特征合成模型的训练样本集合；将所述训练样本集合中的每个样本在所述特征合成模型的各个层以及最大似然函数层中进行正向传播，以得到对应所述每个样本的预测类别；初始化包括所述每个样本以及对应所述每个样本的预测类别的损失函数；确定所述每个样本的预测类别和真实类别之间的误差，并根据所述损失函数在所述特征合成模型中反向传播所述误差，以确定所述损失函数取得最小值时所述特征合成模型的变化值，并根据所述变化值更新所述特征合成模型的参数。

在一些实施例中，所述训练模块2555，还用于：获取第一窗口时间内响应于历史请求所生成的曝光日志、以及响应于所述历史请求和历史操作所生成的行为日志；其中，所述行为日志按照生成时间降序记录在所述曝光日志中；对所述曝光日志以及所述行为日志进行过滤处理，并对过滤结果进行合并处理，得到用于训练所述特征合成模型的训练样本集合。

在一些实施例中，所述训练模块2555，还用于：获取在第二窗口时间内对应多个用户身份的行为日志；当所述第二窗口时间内的行为日志中的行为次数超过行为次数阈值时，将所述行为日志所对应的用户身份确定为可疑用户身份；从所述第一窗口时间内的曝光日志以及行为日志中，过滤掉对应所述可疑用户身份的曝光日志以及行为日志；在过滤处理的所述第一窗口时间内的曝光日志以及行为日志中，将对应相同历史请求的曝光日志以及行为日志进行合并处理，得到对应所述历史请求的合并日志，以作为训练数据；获取对应所述训练数据的正例信息以及负例信息，并结合所述训练数据生成对应所述历史请求的训练样本；将多个所述历史请求对应的训练样本组合形成训练样本集合；其中，所述负例信息包括在所述第一窗口时间内记载于所述曝光日志、且未记载于所述行为日志中的信息。

需要说明的是，本发明实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本发明实施例提供的基于人工智能的信息推荐装置中未尽的技术细节，可以根据图4A-4D任一附图的说明而理解。

本发明实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的基于人工智能的信息推荐方法，例如，如图4A-4D示出的基于人工智能的信息推荐方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上，通过历史行为信息序列对用户兴趣进行建模，学习表征用户兴趣的用户兴趣向量，在建模过程中，通过获取历史行为信息序列中信息的位置编码，学习到用户历史行为信息之间的关系，进而对所学习到的结果进行多次迭代编码处理，从而得到用户兴趣向量，使得基于用户兴趣向量所召回信息的相关程度较高，进而提升推荐的个性化程度以及推荐信息的点击率。

以上，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的信息推荐方法，其特征在于，所述方法包括：

获取用户的历史行为信息序列；

2.根据权利要求1所述的方法，其特征在于，根据所述历史行为信息序列中每个信息的向量表示，确定表征所述用户的行为特征的行为特征向量，包括：

根据所述每个信息在所述历史行为信息序列中的位置，对所述每个信息进行三角函数编码处理，得到所述每个信息的位置编码，并

结合所述每个信息的原始向量表示，确定对应所述每个信息的向量表示；

3.根据权利要求2所述的方法，其特征在于，所述位置编码的维度与所述信息的原始向量表示的维度相同；

所述根据所述每个信息在所述历史行为信息序列中的位置，对所述每个信息进行三角函数编码处理，得到所述每个信息的位置编码，包括：

4.根据权利要求2所述的方法，其特征在于，所述结合所述每个信息的原始向量表示，确定对应所述每个信息的向量表示，包括：

对所述每个信息的原始向量表示进行偏置处理；

5.根据权利要求1所述的方法，其特征在于，所述将所述行为特征向量进行多次迭代地编码处理，得到表征所述用户的兴趣的用户兴趣向量，包括：

通过N个级联的神经网络模型中的第n神经网络模型，对所述第n神经网络模型的输入进行编码处理，并

将所述第n神经网络模型输出的第n编码处理结果传输到第n+1神经网络模型以继续进行编码；

其中，n为取值从1开始递增的整数，且n的取值范围满足

6.根据权利要求5所述的方法，其特征在于，

每个所述神经网络模型包括第一隐层、线性整流层、第二隐层以及横向规范化层；

所述通过N个级联的神经网络模型中的第n神经网络模型，对所述第n神经网络模型的输入进行编码处理，包括：

7.根据权利要求5所述的方法，其特征在于，所述将对应所述行为特征向量的编码处理结果与对应所述用户的用户数据向量进行融合处理，得到对应所述用户的融合处理结果，包括：

8.根据权利要求1所述的方法，其特征在于，所述确定与所述用户兴趣向量满足相似条件的多个信息，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述信息集合中每个信息的原始向量表示，对所述信息集合中的信息进行聚类处理，得到对应所述信息集合的多个聚类，包括：

在所述聚类处理的每一次迭代过程中执行以下处理：

10.根据权利要求1所述的方法，其特征在于，

所述用户兴趣向量是通过调用特征合成模型获取的；所述特征合成模型包括：多个级联的神经网络模型、以及用于进行融合处理的神经网络模型；

在获取所述用户的历史行为信息序列之前，所述方法还包括：

生成用于训练所述特征合成模型的训练样本集合；

11.根据权利要求10所述的方法，其特征在于，所述生成用于训练所述特征合成模型的训练样本集合，包括：

12.根据权利要求11所述的方法，其特征在于，

所述对所述曝光日志以及所述行为日志进行过滤处理，包括：

获取在第二窗口时间内对应多个用户身份的行为日志；

所述对过滤结果进行合并处理，得到用于训练所述特征合成模型的训练样本集合，包括：

13.一种基于人工智能的信息推荐装置，其特征在于，所述装置包括：

序列获取模块，用于获取用户的历史行为信息序列；

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的基于人工智能的信息推荐方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的基于人工智能的信息推荐方法。