CN111339433B

CN111339433B - 基于人工智能的信息推荐方法、装置、电子设备

Info

Publication number: CN111339433B
Application number: CN202010435449.6A
Authority: CN
Inventors: 张晗
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-08-21
Anticipated expiration: 2040-05-21
Also published as: CN111339433A

Abstract

本发明提供了一种基于人工智能的信息方法、装置、电子设备及计算机可读存储介质；方法包括：基于第一信息集合中每个信息的多个逻辑回归特征，确定对应的第一点击率，并从所述第一点击率的降序排序结果中选取排序在前的多个信息，以形成第二信息集合；对所述第二信息集合中每个信息的多个逻辑回归特征进行压缩处理，得到对应所述每个信息的多个共享特征；基于所述第二信息集合中每个信息的多个共享特征，确定对应的第二点击率；基于所述第二信息集合中每个信息的第二点击率的降序排序结果，执行推荐操作。通过本发明，能够减少特征工程复杂度并提高推荐响应速度。

Description

基于人工智能的信息推荐方法、装置、电子设备

技术领域

本发明涉及人工智能技术，尤其涉及一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质。

背景技术

云技术（Cloud technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

人工智能（AI，Artificial Intelligence）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

信息推荐是人工智能的重要应用，推荐系统中的排序模块通常是基于机器学习模型预测点击率并排序，将评分高的作为优先推荐的对象。相关技术中为了提高为机器学习模型的点击率预测精度进行了各种努力，例如在特征工程阶段构建大量的特征数据以使机器学习模型进行充分学习，特征数据的匮乏将影响点击率预测精度进而影响信息推荐的精度。

从而，特征数据的匮乏与信息推荐的精度之间的矛盾成为相关技术中难以解决的技术问题。

发明内容

本发明实施例提供一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质，能够以集约化的特征数据进行精确地点击率确定，从而保证信息推荐的精度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种基于人工智能的信息推荐方法，包括：

基于第一信息集合中每个信息的多个逻辑回归特征，确定对应的第一点击率，并

从所述第一点击率的降序排序结果中选取排序在前的多个信息，以形成第二信息集合；

对所述第二信息集合中每个信息的多个逻辑回归特征进行压缩处理，得到对应所述每个信息的多个共享特征；

基于所述第二信息集合中每个信息的多个共享特征，确定对应的第二点击率；

基于所述第二信息集合中每个信息的第二点击率的降序排序结果，执行推荐操作。

本发明实施例提供一种基于人工智能的信息推荐装置，包括：

第一点击率确定模块，用于基于第一信息集合中每个信息的多个逻辑回归特征，确定对应的第一点击率，并

特征压缩模块，用于对所述第二信息集合中每个信息的多个逻辑回归特征进行压缩处理，得到对应所述每个信息的多个共享特征；

第二点击率确定模块，用于基于所述第二信息集合中每个信息的多个共享特征，确定对应的第二点击率；

推荐模块，用于基于所述第二信息集合中每个信息的第二点击率的降序排序结果，执行推荐操作。

在上述方案中，所述装置还包括：特征获取模块，用于：在基于第一信息集合中每个信息的多个逻辑回归特征，确定对应的第一点击率之前，

针对所述第一信息集合中的每个信息执行以下处理：

从逻辑回归模型的特征数据库中，查询与所述信息的特征数据对应的逻辑回归特征；其中，所述逻辑回归模型用于基于所述逻辑回归特征确定所述第一点击率；

当所述信息的特征数据是对应所述逻辑回归模型的特征数据，且从所述逻辑回归模型的特征数据库中未查询到所述特征数据时，将所述特征数据的特征值转化为特征索引，并将所述特征索引进行哈希处理，得到特征索引编码；

将所述特征数据的特征名称进行哈希处理得到特征名称编码，并将所述特征名称编码以及所述特征索引编码进行组合，得到所述信息的逻辑回归特征。

在上述方案中，所述特征压缩模块，还用于：

当所述逻辑回归特征为单值特征时，将分别对应所述多个逻辑回归特征的点击率关联影响因子，与对应的逻辑回归特征进行相乘处理，得到对应所述每个信息的多个共享特征；

当所述逻辑回归特征为多值特征时，将分别对应所述多个逻辑回归特征的点击率关联影响因子，与对应的逻辑回归特征的多个值进行相乘处理，并对相乘处理结果进行求和池化处理，得到对应所述每个信息的多个共享特征。

在上述方案中，所述特征压缩模块，还用于：

针对所述第二信息集合中的每个信息执行以下处理：

获取所述信息的附加特征，且所述附加特征与点击用户相关；

当所述逻辑回归特征和所述附加特征为单值特征时，将分别对应多个所述附加特征的点击率关联影响因子，与对应的附加特征进行相乘处理，得到对应所述每个信息的多个共享特征；并将分别对应所述多个逻辑回归特征的点击率关联影响因子，与对应的逻辑回归特征进行相乘处理，得到对应所述每个信息的多个共享特征；

当所述逻辑回归特征和所述附加特征为多值特征时，将分别对应多个所述附加特征的点击率关联影响因子，与对应的附加特征的多个值进行相乘处理，并将得到的对应所述附加特征的多个值的相乘处理结果进行求和池化处理，得到对应所述每个信息的多个共享特征，

将分别对应所述多个逻辑回归特征的点击率关联影响因子，与对应的逻辑回归特征的多个值进行相乘处理，并将得到的对应所述逻辑回归特征的多个值的相乘处理结果进行求和池化处理，得到对应所述每个信息的多个共享特征。

在上述方案中，所述信息的附加特征的类型包括一阶特征和多阶特征；所述特征压缩模块，还用于：

获取所述信息的点击用户的多个维度的用户特征，并将每个所述维度的用户特征作为所述一阶特征；

通过以下组合方式至少之一得到所述多阶特征：

将所述点击用户的至少一个维度的用户特征与所述信息的至少一个维度相关的特征组合；将所述点击用户的至少一个维度的用户特征与环境相关的至少一个维度的特征组合。

在上述方案中，所述第二点击率确定模块，还用于：

基于所述第二信息集合中每个信息的多个共享特征，以及所述多个共享特征之间的关联关系，确定对应的第三点击率；

对所述第二信息集合中每个信息的多个共享特征进行特征空间映射处理，得到对应的第四点击率；

对所述第二信息集合中每个信息的所述第三点击率以及所述第四点击率进行求和处理，得到对应的第二点击率。

在上述方案中，所述第二点击率确定模块，还用于：

针对所述第二信息集合中每个信息执行以下处理：

将所述信息的多个共享特征进行按照以下方式中的至少之一进行组合以得到对应的组合特征：

将对应至少两个所述逻辑回归特征的共享特征进行相乘处理，将得到的相乘结果作为对应的组合特征；

将对应至少一个所述逻辑回归特征的共享特征和对应至少一个所述附加特征的共享特征进行相乘处理，将得到的相乘结果作为对应的组合特征；

将分别对应至少两个所述附加特征的共享特征进行相乘处理，将得到的相乘结果作为对应的组合特征；

其中，每次所述组合所使用的共享特征部分不同或完全不同，以形成所述信息的多个组合特征；

将所述信息的所述多个组合特征进行求和处理，基于得到的第一求和结果确定所述信息的第三点击率。

在上述方案中，所述第二点击率确定模块，还用于：

以所述多个逻辑回归特征以及多个所述附加特征分别对应的点击率影响因子为权重参数，对所述多个逻辑回归特征以及多个所述附加特征进行加权求和处理，得到第二加权求和结果；

将所述第一求和结果作为所述信息的第三点击率，或者，将所述第一求和结果和所述第二加权求和结果的加和进行偏置处理，并将偏置处理结果作为所述信息的第三点击率。

在上述方案中，所述第二点击率确定模块，还用于：

对所述信息的多个共享特征进行拼接处理，并将拼接处理结果与前馈深度神经网络模型的隐层参数相乘，得到对应所述信息的隐层特征；

将所述隐层特征从隐层特征空间映射到点击率空间，得到对应所述信息的第四点击率。

在上述方案中，所述装置还包括：训练模块，用于：

所述第二点击率的确定是通过调用因子分解机模型以及前馈深度神经网络模型确定得到的，且所述因子分解机模型以及所述前馈深度神经网络模型共享压缩层；

在获取第一信息集合中每个信息的逻辑回归特征之前，所述方法还包括：

将窗口时间内的点击日志、展示日志以及特征日志合并成推荐日志，并从所述推荐日志中获取信息样本以及对应的真实第二点击率；

对所获取的信息样本的多个逻辑回归特征以及多个附加特征进行基于特征频次的过滤处理，得到对应所述信息样本的训练特征；

将所述信息样本的训练特征，在所述因子分解机模型以及所述前馈深度神经网络模型中进行正向传播，并在所述因子分解机模型以及所述前馈深度神经网络模型中进行反向传播，以

基于所述真实第二点击率更新所述压缩层的点击率关联影响因子、所述因子分解机模型的点击率影响因子以及所述前馈深度神经网络模型的隐层参数。

在上述方案中，所述训练模块，还用于：

确定所述多个逻辑回归特征以及多个所述附加特征的对应的特征频次；

将特征频次超过特征频次阈值的特征转移至正式特征集合，将所述正式特征集合中包括的训练特征作为所述信息样本的训练特征；

当特征频次不超过所述特征频次阈值的特征转移至淘汰特征集合；

当所述正式特征集合的累积未更新时长超出时长阈值内，将所述正式特征池的中的特征从所述正式特征集合转移至所述淘汰特征集合。

在上述方案中，所述训练模块，还用于：

将每个所述信息样本的训练特征在所述因子分解机模型的各个层中进行正向传播，以得到对应所述信息样本的确定的第二点击率；

初始化包括所述信息样本的训练特征以及对应所述信息样本的确定的第二点击率的损失函数；

确定所述信息样本的确定的第二点击率和所述真实第二点击率之间的误差，并根据所述损失函数在所述因子分解机模型中反向传播所述误差，以

确定所述损失函数取得最小值时所述因子分解机模型的变化值，并基于所述变化值更新所述压缩层的点击率关联影响因子、所述因子分解机模型的点击率影响因子以及所述前馈深度神经网络模型的隐层参数。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于人工智能的信息推荐方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现本发明实施例提供的基于人工智能的信息推荐方法。

本发明实施例具有以下有益效果：

将逻辑回归特征用于第一点击率确定，并在进行第二点击率的确定时复用对应同样特征的共享特征，减少了不同阶段点击率确定中所需要进行多次特征工程所带来的工作量，从而实现了特征数据的集约化使用，分阶段点击率确定的方式，相比于对大量信息进行一次性点击率确定效率更高，且基于压缩降维后的共享特征确定第二点击率可以进一步提高确定点击率的精度且降低特征工程复杂度，从而基于第一点击率和第二点击率能够对信息进行全面的排序，保证了信息推荐精度。

附图说明

图1是本发明实施例提供的基于人工智能的信息推荐系统的架构示意图；

图2是本发明实施例提供的应用基于人工智能的信息推荐方法的服务器200的结构示意图；

图3A是本发明实施例提供的基于人工智能的信息推荐方法的整体模型结构图；

图3B是本发明实施例提供的基于人工智能的信息推荐方法的逻辑回归模型结构示意图；

图3C是本发明实施例提供的基于人工智能的信息推荐方法的深度因子分解机模型结构示意图；

图3D是本发明实施例提供的基于人工智能的信息推荐方法的因子分解机模型结构示意图；

图3E是本发明实施例提供的基于人工智能的信息推荐方法的前馈深度神经网络模型结构示意图；

图4A-4E是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图；

图5是本发明实施例提供的基于人工智能的信息推荐方法中特征工程体系示意图；

图6是本发明实施例提供的基于人工智能的信息推荐方法的特征压缩示意图；

图7是本发明实施例提供的基于人工智能的信息推荐方法的应用场景示意图；

图8是本发明实施例提供的基于人工智能的信息推荐方法的整体架构图；

图9是本发明实施例提供的基于人工智能的信息推荐方法使用的整体模型架构图；

图10是本发明实施例提供的基于人工智能的信息推荐方法的整体框架图；

图11是本发明实施例提供的基于人工智能的信息推荐方法中特征工程体系示意图；

图12是本发明实施例提供的基于人工智能的信息推荐方法的在线耗时优化示意图；

图13是本发明实施例提供的基于人工智能的信息推荐方法的离线训练架构图；

图14是本发明实施例提供的基于人工智能的信息推荐方法的特征频次占比示意图；

图15是本发明实施例提供的基于人工智能的信息推荐方法的特征管理示意图；

图16A-16D是本发明实施例提供的基于人工智能的信息推荐方法的指标示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解, “一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1）单特征，又称为一阶特征，是信息的任意一个维度的特征，例如用户维度的职业，环境维度的访问时间，信息维度的文章样式等。

2）组合特征，也称为交叉特征或高阶特征（其中阶数表示所组合的单特征的数量），由两个或两个以上的单特征组合形成。例如，用户维度的职业与环境维度的访问时间组合形成二阶特征，当然，组合特征与组合特征/单特征也可以组合为新的组合特征。

3）逻辑回归特征，是基于逻辑回归模型确定信息的点击率（本文中也称为第一点击率）时所使用的特征，包括单特征和组合特征。

4）附加特征，用于基于信息的逻辑回归特征调用因子分解机（FM，FactorizationMachine）模型确定信息的点击率（本文中也称为第二点击率）时所使用的特征，用于在确定信息的第二点击率时作为信息的逻辑回归特征的补充，包括单特征和组合特征。

以信息推荐系统为看点推荐系统为例，个性化推荐的点击率预估中使用的是逻辑回归（LR，Logistic Regression）模型，并且逻辑回归（LR，Logistic Regression）模型已经取得了工业上的运用，LR模型是解决工业规模问题的算法，在工业应用上，如果需要分类的数据拥有很多有意义的特征，每个特征都对最后的分类结果有或多或少的影响，那么一种方案是将这些特征线性加权，一起参与到决策过程中，即为LR模型，其主要有如下优点：

1、适合需要得到一个分类概率的场景，输出值落到0-1之间，具有概率意义；2、计算代价低，容易理解实现，模型结构清晰，时间、内存需求上高效，可用于分布式数据，可用较少数据来处理大型数据；3、参数代表每个特征对点击率确定的影响，可解释性强；4、解决过拟合的方法很多，例如采取L1、L2正则化的方式。

本发明实施例中发现主要有如下缺点：1、泛化能力弱，无法进行特征的自动交叉，需要手工指定大量的交叉特征；2、数据特征有缺失时表现效果并不好，本质上是一个线性的分类器，所以处理不好特征之间相关的情况；3、准确率并不是很高，因为其形式简单，非常类似线性模型，很难去拟合数据的真实分布；4、随着特征的不断深入，提升空间越来越小；从下面表1可以看出，日特征数从10亿提升至50亿的时候样本排序能力的指标AUC提升了1%，日特征数从50亿提升至100亿的时候，样本排序能力的指标AUC只提升了0.5%。

逻辑回归模型存在的泛化能力弱、需要大量手工特征工程、拟合准确率低等问题等问题，深度因子分解机模型能够建模点击率预估，将线性模型的记忆性与深度模型的泛化性融合在一起。线性部分使用FM结构，相比LR模型在原有记忆性的基础上，增加了二阶交叉处理，深度结构部分使用了深度神经网络（DNN，Deep Neural Networks）模型，这里可以将神经网络模型中层数超过深度阈值的神经网络模型称为深度神经网络模型，将DNN与FM二者融合在一起则为深度因子分解机（DeepFM）模型，DeepFM模型相比于LR模型而言，一方面将离散特征向量化，有效的解决了高维数据特征组合的稀疏问题，提升了模型的泛化能力和拟合能力，另一方面DeepFM模型中的因子分解机模型和前馈DNN模型共享输入特征，一定程度上避免了复杂的特征工程，但是在发明实施例中发现训练DeepFM模型的过程中，因子分解机模型部分仍然需要进行大量的特征工程，以及在应用DeepFM模型的过程中，通过DeepFM模型对大量的召回信息进行一次性点击率确定需要耗费较长时间。

为解决上述技术问题，本发明实施例提供了一种基于人工智能的信息推荐方法，即基于LR模型以及DeepFM模型的文章排序方法，例如，在一些实施例中，通过使用DeepFM模型建模点击率预估，对离散特征向量化压缩得到共享特征，以进一步提高确定精度且降低特征工程复杂度，提升了模型的泛化能力和拟合能力，有效的解决了高维数据特征组合的稀疏问题，提升了确定精度和计算效率，通过将逻辑回归特征复用于第一点击率确定以及第二点击率确定，从而减少了不同阶段确定中所需要进行重复特征工程所带来的工作量，从而减轻了开发者负担，通过进行分阶段点击率确定的方式，相比于对大量信息进行一次性点击率确定需要耗费较长时间，减少了推荐响应时间。

首先通过LR模型对召回的文章（第一信息集合中的信息）进行第一点击率确定，将所有召回文章进行降序排序以及头部信息转移，以形成第二信息集合，接着通过DeepFM模型对第二信息集合中的信息进行第二点击率确定，然后基于第二点击率对第二信息集合中的信息进行降序排序，以按照降序排序结果执行推荐操作。

本发明实施例提供一种基于人工智能的信息推荐方法、装置、电子设备和计算机可读存储介质，能够实现减少特征工程复杂度并提高推荐响应速度的技术效果，下面说明本发明实施例提供的电子设备的示例性应用，本发明实施例提供的电子设备可以实施为服务器。下面，将说明设备实施为服务器时示例性应用。

服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

人工智能云服务，一般也被称作是AIaaS（AI as a Service，中文为“AI即服务”）。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务，在本发明实施例提供的基于人工智能的信息推荐方法中，可以通过人工智能云服务提供的AI框架和AI基础设施来部署和运维信息推荐系统。

参见图1，图1是本发明实施例提供的基于人工智能的信息推荐系统的架构示意图，信息推荐系统可以用于支撑各种信息的推荐场景，例如对新闻进行推荐的应用场景，对商品进行推荐的应用场景、对视频进行推荐的应用场景等等，根据应用场景不同，信息可以为新闻、实际商品、视频文章、图文等等，在用户使用客户端的过程中，终端400将收集到的用户针对信息的互动行为上报至服务器200，作为训练样本数据以及对应于该用户的用户画像和用户特征，训练样本数据是来自于各个终端上报的不同用户的行为数据，基于这些行为数据进行LR模型的训练，用户画像和用户特征是对应某一用户的终端所反馈得到的，LR模型基于用户特征、信息特征以及环境特征，确定信息的第一点击率，将所有召回文章进行第一点击率的降序排序以及头部信息转移，以形成第二信息集合，头部信息可以为第一信息集合中排序靠前的200条信息，这里头部信息的数目可以为第二信息集合的信息数目，或者是第一信息集合的信息数目与转移比例的乘积，接着通过DeepFM模型确定第二信息集合中信息的第二点击率，然后基于第二点击率对第二信息集合中的信息进行降序排序，按照降序排序结果执行推荐操作。

下面介绍信息推荐系统的具体架构，在信息推荐系统中，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，响应于接收到终端400的推荐信息请求，信息推荐系统100的功能是基于服务器200中的各个模块实现的，服务器200通过两个不同的模型（LR模型以及DeepFM模型）分别确定信息的第一点击率以及第二点击率，在分别用这两种模型进行两次点击率确定的过程中复用了部分相同特征，服务器200中的第一点击率确定模块2551从信息数据库500中获取召回的信息，并基于召回的信息的逻辑回归特征，调用LR模型确定信息的第一点击率，并对第一信息集合中的信息进行基于第一点击率的降序排序，以将头部信息转移至第二信息集合，通过特征压缩模块2552对第二信息集合中的信息进行特征压缩处理，即对特征进行向量化处理，得到第二信息集合中分别对应各个信息的共享特征，通过第二点击率确定模块2553调用DeepFM模型基于共享特征确定第二信息集合中的信息的第二点击率，通过推荐模块2554对第二信息集合中的信息进行基于第二点击率的降序排序，以推荐给用户，并在用户所使用的终端400上呈现，将包含信息曝光和点击率等数据的日志实时上报到推荐系统，作为生成用户实时特征以及信息实时特征的训练样本，来训练LR模型以及DeepFM模型。

参见图2，图2是本发明实施例提供的应用基于人工智能的信息推荐方法的服务器200的结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250和至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器 210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（RAM，Random Access Memory）。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个（有线或无线）网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（USB，Universal Serial Bus）等。

在一些实施例中，本发明实施例提供的基于人工智能的信息推荐装置可以采用软件方式实现，图2示出了存储在存储器250中的基于人工智能的信息推荐装置255，包括了信息推荐系统的多个模块，模块可以是程序和插件等形式的软件，包括以下软件模块：第一点击率确定模块2551、特征压缩模块2552、第二点击率确定模块2553、推荐模块2554、特征获取模块2555以及训练模块2556，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

将结合本发明实施例提供的信息推荐系统的示例性应用和实施，说明本发明实施例提供的基于人工智能的信息推荐方法，信息推荐系统包括训练阶段以及应用阶段，首先对本发明实施例提供的基于人工智能的信息推荐方法中所使用的模型以及各模型所进行的训练进行说明。

在本发明实施例提供的信息推荐系统中涉及到两个需要进行训练的模型，分别是LR模型以及DeepFM模型。

参见图3A，图3A是本发明实施例提供的基于人工智能的信息推荐方法的整体模型结构图，整体模型中包括LR模型以及DeepFM模型，首先，针对于第一信息集合中的每个信息，LR模型接收与信息相关的用户数据、信息数据以及环境数据，确定第一信息集合中每个信息的第一点击率，接着通过DeepFM模型对从第一点击率的降序排序结果中选取的排序在前的多个信息进行点击率确定，得到每个信息的第二点击率，这里所选取的排序在前的多个信息组成第二信息集合，同样的，DeepFM模型基于与第二信息集合中信息相关的用户数据、信息数据以及环境数据，确定第二信息集合中每个信息的第二点击率，最后从DeepFM模型中输出每个信息的第二点击率，从而根据第二点击率的降序排序结果对第二信息集合执行推荐操作。

参见图3B，图3B是本发明实施例提供的基于人工智能的信息推荐方法的逻辑回归模型结构示意图，LR模型包括特征获取层，用于获取各种类型的稀疏特征（例如，视频标签、视频频道、视频点击、用户标签以及用户年龄等等），稀疏特征指的是该特征向量中非零值的数目远小于特征向量的维度（长度），这里可以设定一个稀疏特征阈值，即特征向量中非零值的数目小于稀疏特征阈值的特征向量为稀疏特征，相对而言，稠密特征指的是上述稀疏特征的向量化表示，稠密特征指的是零数值的数目小于稠密特征阈值的特征，并且稠密特征中的不同维度可以具有相关性，从而可以基于稠密特征描述信息间的相关性，导致模型具有较强的泛化能力，LR模型还包括逻辑回归层，用于对获取的各种类型的稀疏特征进行线性逻辑回归处理，线性逻辑回归处理可以是线性加和处理，也可以是对线性加和结果代入逻辑回归函数，相关技术中的批量算法无法有效地处理超大规模的数据集和在线数据流，FTRL（Follow-the-regularized-Leader）算法在处理诸如逻辑回归之类的带非光滑正则化项的凸优化问题上性能非常出色，因此采用FTRL算法进行训练迭代。

参见图3C，图3C是本发明实施例提供的基于人工智能的信息推荐方法的深度因子分解机模型结构示意图，深度因子分解机（DeepFM）模型可以是FM模型以及前馈DNN模型组成的模型结构，包含了稀疏特征层、压缩层、因子分解机层、隐藏层以及输出单元，左侧的FM模型包括稀疏特征层、压缩层以及因子分解机层，右侧的前馈DNN模型包括稀疏特征层、压缩层、隐藏层以及输出单元，圆点表示特征，字段i、字段j和字段m（field i、field j和field m）代表不同的特征类别，例如性别特征与年龄特征采用不同的字段表示，连线有虚线和实线的区别，虚线箭头表示权重为1，实线连接线表示存在需要进行训练的权重。相加处理（Addition）即为普通的线性加权相加，点积操作（Inner Product）即为因子分解机的二阶项隐向量两两相乘的部分，Sigmoid激活函数，即最后整合因子分解机以及前馈神经网络的输出，以合并到sigmoid激活函数得到输出结果，激活函数（Activation Function），隐藏层中的激活函数用的是线性整流器Relu函数。

参见图3D，图3D是本发明实施例提供的基于人工智能的信息推荐方法的FM模型结构示意图，FM模型包含了稀疏特征层、压缩层、因子分解机层、输出单元，圆点表示特征，字段i、字段j和字段m（field i、field j和field m）代表不同的特征类别，例如性别特征与年龄特征采用不同的字段表示，连线有虚线和实线的区别，虚线箭头表示权重为1，实线连接线表示存在需要进行训练的权重。相加处理（Addition）即为普通的线性加权相加，点积操作（Inner Product）即为因子分解机的二阶项隐向量两两相乘的部分，通过因子分解机的输出单元中的Sigmoid激活函数得到输出结果，需要说明的是在更新FM模型的参数时，不需要训练组合特征的权重，因为需要组合特征的两个样本值同时有值时才能使组合特征的权重得到训练，但是组合特征样本较少，这样的训练方式很难使组合特征的权重得到充分训练，通过因子分解机，可以使用隐向量v来表达每个输入的特征值，标记为v，并且通过两个特征的v求内积，其结果可以等同于组合特征的权重，通过隐向量v表示特征的方式优点是，组合特征不需要保证两个特征均有值才能使v得到训练，每个包含有值特征x的样本，都能使之对应的隐向量v得到训练。

参见图3E，图3E是本发明实施例提供的基于人工智能的信息推荐方法的前馈DNN模型的结构示意图，包括稀疏特征层、压缩层、隐藏层以及输出单元，圆点表示特征，字段i、字段j和字段m（field i、field j和field m）代表不同的特征类别，例如性别特征与年龄特征采用不同的字段表示，实线连接线表示存在需要进行训练的权重，Sigmoid激活函数，即最后整合因子分解机以及前馈神经网络的输出，以合并到sigmoid激活函数得到输出结果，激活函数（Activation Function），隐藏层中激活函数用的是线性整流器Relu函数。

在一些实施例中，第二点击率的确定是通过调用因子分解机模型以及前馈深度神经网络模型确定得到的，且因子分解机模型以及前馈深度神经网络模型共享压缩层；由因子分解机模型以及前馈深度神经网络模型组成的深度因子分解机模型的训练过程如下，将窗口时间内的点击日志、展示日志以及特征日志合并成推荐日志，并从推荐日志中获取信息样本以及对应的真实第二点击率；对所获取的信息样本的多个逻辑回归特征以及多个附加特征进行基于特征频次的过滤处理，得到对应信息样本的训练特征；将信息样本的训练特征，在因子分解机模型以及前馈深度神经网络模型中进行正向传播，并在因子分解机模型以及前馈深度神经网络模型中进行反向传播，以基于真实第二点击率更新压缩层的点击率关联影响因子、因子分解机模型的点击率影响因子以及前馈深度神经网络模型的隐层参数。

作为示例，FM模型和前馈DNN模型组成了DeepFM模型，通过调用DeepFM模型进行第二点击率确定，DeepFM模型的训练采取随机梯度下降的方式，DeepFM模型中的FM模型公式具有可导的特性，可以用不同的损失函数来训练FM模型，FM模型的参数值可以按照线性时间复杂度计算出来，FM模型的目标函数如公式（1）：

（1）

其中，

的值由模型训练本身产生，分量

，

的点积就是两个特征的融合参数，x为特征，y为计算得到的点击率，w_j为特征的点击率影响因子，为了简化计算，降低计算复杂度，可以对二阶项做简化处理，如公式（2）所示：

（2）

经过上述变化之后，二次项部分的时间复杂度从

变成了

，因此FM模型可以在线性时间内对新样本进行求导，经过上述分解后，因子分解机模型也可使用随机梯度下降法进行求解，参见公式（3）：

（3）

从上式可知，

的训练只需要样本

的特征非0即可，故而适用于稀疏数据，隐向量

是特征

的低维稠密表达，因子分解机模型学到的隐向量可以看作是特征的嵌入压缩表示，把离散特征转化为稠密特征。

作为示例，在前馈DNN模型中，在第一层隐含层之前，引入一个特征嵌入层（压缩层）来将输入的离散特征压缩到低维稠密向量，这里前馈DNN模型与FM模型共用压缩层，同时在两边的网络参与训练，例如，在一些实施例中，总共需要使用538类特征稀疏特征，压缩层的维度为10，故而针对输入的不定长特征，压缩后可得到5380固定维度的共享特征，针对多值特征，采用求和池化的方式进行处理，针对未出现的特征使用0补齐，将压缩层表征为

，

是第 i个特征的向量化表示，m是特征的总数，特征总数为538，

是输入到前馈DNN模型的向量，即对多个共享特征进行拼接得到的，然后通过公式（4）进行前向传播，并通过公式（5）得到基于前馈DNN模型确定的第二点击率：

（4）

（5）

其中，

表示第

层的输出，

是激活函数，

是前馈DNN模型的输出。

作为示例，本发明实施例提供的基于人工智能的信息推荐方法使用ReLU的激活函数，DNN模型中的三层神经网络结构的维度分别为256、128、64，FM模型与DNN模型共享相同的压缩层存在如下有益效果：从原始数据中同时学习到了低阶特征（一阶特征或者二阶特征）与高阶特征（三阶特征及以上），一定程度降低了特征工程的复杂度。

在一些实施例中，上述对所获取的信息样本的多个逻辑回归特征以及多个附加特征进行基于特征频次的过滤处理，得到对应信息样本的训练特征，可以通过以下技术方案实现：确定多个逻辑回归特征以及多个附加特征的对应的特征频次；将特征频次超过特征频次阈值的特征转移至正式特征集合，将正式特征集合中包括的训练特征作为信息样本的训练特征；还可以实施以下技术方案，当特征频次不超过特征频次阈值的特征转移至淘汰特征集合；当正式特征集合的累积未更新时长超出时长阈值内，将正式特征池的中的特征从正式特征集合转移至淘汰特征集合。

作为示例，多个逻辑回归特征以及多个附加特征首先进入候选特征集合，根据特征频次进行特征准入的判断，例如，特征频次可以为100，则出现了100次及以上的特征才能进入正式特征集合，只有正式特征集合中的特征被作为训练特征，用于进行深度因子分解机模型训练，在需要导出模型时，将最近一段时间内没有更新的特征进行过期处理，转移到淘汰特征集合，最近一段时间即为时长阈值，时长阈值可以是24小时，通过上述方式对模型的大小进行了有效的控制，例如，在一些实施例中，仅保留头部2亿个特征，控制离线模型的体积是8G-9G（字节），离线训练得到的因子分解机模型每60分钟导出一次并推送至线上环境以应用于线上推荐系统，同时将训练的二进制文件存储到分布式存储系统上，供异常恢复使用。

由于在发明实施例中发现一天内所收集的数据中91.6%的特征只出现了10次以下，特征频次非常低，有些特征已经长时间未被更新，直接将这部分特征拿来做训练，也会很影响模型训练的效果，其次由于使用的是在线学习方式，获取到源源不断的特征作为训练样本，导致模型越来越大，而在线的机器内存是有限的，因此，通过上述特征管理方案可以进行低频特征过滤以及过期特征过滤，特征频次阈值可以是10，从而既可以节省空间以使得训练得到的深度因子分解机模型更稳定又可以实现深度因子分解机模型的压缩，以提升模型的计算速度以及计算精度。

在一些实施例中，上述将信息样本的训练特征，在因子分解机模型以及前馈深度神经网络模型中进行正向传播，可以通过以下技术方案实现：初始化因子分解机模型以及前馈深度神经网络模型，并执行以下处理：将每个信息样本的训练特征在因子分解机模型以及前馈深度神经网络模型的各个层中进行正向传播，以得到对应信息样本的确定的第二点击率；上述在因子分解机模型以及前馈深度神经网络模型中进行反向传播，以基于真实第二点击率更新压缩层的点击率关联影响因子、因子分解机模型的点击率影响因子以及前馈深度神经网络模型的隐层参数，可以通过以下技术方案实现：初始化包括信息样本的训练特征以及对应信息样本的确定的第二点击率的损失函数；确定信息样本的确定的第二点击率和真实第二点击率之间的误差，并根据损失函数在因子分解机模型以及前馈深度神经网络模型中反向传播误差，以确定损失函数取得最小值时因子分解机模型以及前馈深度神经网络模型的变化值，并基于变化值更新压缩层的点击率关联影响因子、因子分解机模型的点击率影响因子以及前馈深度神经网络模型的隐层参数。

作为示例，FM模型中所涉及到的正向传播以及反向传播，所经过的层包括稀疏特征层、压缩层、因子分解机层以及输出单元，DNN模型中所涉及到的正向传播以及反向传播，所经过的层包括稀疏特征层、压缩层、隐藏层以及输出单元，稀疏特征层的特征为稀疏特征，压缩层输出的是稀疏特征的向量化表示，因子分解机层接收稀疏特征层的稀疏特征x以及压缩层输出的特征的向量化表示v，当特征数量比较大的时候，稀疏特征会很长，一旦模型更加复杂，计算的复杂度就会增长到机器无法承受的程度，同时，由于特征向量中不同维度之间是完全无关的，这就会导致特征向量无法描述信息间的相似性，从而导致模型的泛化能力较差，因此需要通过压缩层对稀疏特征进行基于隐向量的压缩处理，得到与多个特征类型分别对应的稠密向量化表示，将稀疏特征压缩为稠密特征进行处理，降低了模型计算的复杂度，并且可以基于稠密特征描述信息间的相关性，导致模型具有较强的泛化能力。

接下来对本发明实施例提供的基于人工智能的信息推荐方法中模型的应用进行说明。参见图4A，图4A是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图，将结合图4A示出的步骤101-106进行说明。

在步骤101中，服务器获取第一信息集合中每个信息的多个逻辑回归特征。

作为示例，逻辑回归特征可以是用户特征、信息特征以及环境特征，用户特征是与用户相关的单特征或者组合特征，单特征可以为用户年龄、用户职业，组合特征可以是用户不同维度的组合特征，还可以是既与用户相关又与信息相关的组合特征，用于供逻辑回归模型确定信息的第一点击率。

基于图4A，参见图4B，图4B是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图，步骤101中获取第一信息集合中每个信息的多个逻辑回归特征可以通过步骤1011-1013实现，将结合图4B示出的步骤1011-1013进行说明。

针对第一信息集合中的每个信息执行以下步骤1011-1013。

在步骤1011中，从逻辑回归模型的特征数据库中，查询与信息的特征数据对应的逻辑回归特征；其中，逻辑回归模型用于基于逻辑回归特征确定信息的第一点击率。

在一些实施例中，逻辑回归模型的特征数据库中存储有各种特征编码，尤其是对于那些固定的特征，例如用户设备的操作系统、网络制式等等这些相对固定的特征数据，对于这些特征数据，可以直接在特征数据库中查询对应的特征编码，而不需要再执行特征编码过程，有利于提高特征获取速率，进而减少推荐响应时间。

在步骤1012中，当信息的特征数据是对应逻辑回归模型的特征数据，且从逻辑回归模型的特征数据库中未查询到特征数据时，将特征数据的特征值转化为特征索引，并将特征索引进行哈希处理，得到特征索引编码。

在一些实施例中，对于特征数据库中未查询到的特征数据，需要计算特征数据对应的索引，并对索引进行编码，在机器学习处理过程中，为了方便相关算法的实现，经常需要把标签数据（一般是字符串）转化成整数索引，或是在计算结束后将整数索引还原为相应的标签，转换器可以把一列类别属性特征（或标签）进行编码，使其数值化，索引的范围从0开始，该过程可以使得相应的特征索引化，使得某些无法接受类别型特征的算法可以使用，并提高诸如决策树等机器学习算法的效率，如果输入的是数值型数据，可以把它转化成字符型数据后，再对其进行编码。

这里在计算特征索引时，单特征（一阶特征）有一个输入值，交叉特征（多阶特征）有多个输入值，根据输入的一个或者多个值计算该特征的索引，以单特征为例，输入一般为uint64_t、float类型，例如一级分类、二级分类、标签等，是uint64_t类型，此时特征索引

；例如点击率、转发率等，是float类型，此时特征索引

；以交叉特征为例，输入为多个参数，首先通过上述方式得到各个单特征的索引，记为

、

，采用质数连乘的方式进行多个特征的连接得到

，将特征索引哈希取低48位得到，即为

。

在步骤1013中，将特征数据的特征名称进行哈希处理得到特征名称编码，并将特征名称编码以及特征索引编码进行组合，得到信息的逻辑回归特征并存储到逻辑回归模型的特征数据库中。

在一些实施例中，特征名称实际上表征了特征类别，例如特征的属性，可以将特征映射到64位哈希空间，使用64位哈希空间的前16位表示特征类别，并使用后48位表示特征索引，将特征名称字符串哈希取低16位即可得到特征类别值：

。

在一些实施例中，在特征处理中可以利用笛卡尔乘积的方法来构造组合特征，会使得特征数量爆炸式增长，比如一个可以取N个不同值的类别特征，与一个可以取M个不同值的类别特征做笛卡尔乘积，就能构造出N*M个组合特征，如果把用户账号看成一个类别特征，那么它可以取的值的数量就等于用户数，再经过乘积产生组合特征后，就能产生庞大的特征集，从而通过哈希算法对特征进行编码处理，输入任意长度的数据，经过哈希算法处理后输出一个定长的数据，如果是一个数据集，经过哈希算法处理后得到新数据集，然后将新数据与原始数据进行一一映射就得到了哈希表，哈希表的好处是当原始数据较大时，可以用哈希算法处理得到定长的哈希值，那么这个值相对原始数据要小得多，从而可以用这个较小的数据集来做索引，达到快速查找的目的。

在一些实施例中，在从逻辑回归模型的特征数据库中，查询与信息的特征数据对应的逻辑回归特征之前，还可以执行以下技术方案，接收推荐信息请求，并获取推荐信息请求的用户账号；获取用户账号的点击历史信息以及展示历史信息；在用户画像数据库中查询对应点击历史信息和展示历史信息的用户画像，以结合其他数据作为对应逻辑回归特征的特征数据；其中，用户画像包括与根据点击历史信息和展示历史信息确定的用户账号在不同维度下的兴趣，其他数据可以是与待推荐的信息本身相关的数据，还可以是与用户相关的数据，或者是与环境相关的数据，例如访问设备、访问网络以及访问时间。

参见图5，图5是本发明实施例提供的基于人工智能的信息推荐方法中特征工程体系示意图，特征工程体系中包括有新闻特征（信息特征）、用户特征以及环境特征，新闻特征可以有新闻质量相关的特征，例如，质量得分，低俗惊悚、标题党等等，用户特征可以有短期兴趣特征，例如，短期点击率，短期点击行为，环境特征可以为访问相关的特征，例如访问时间、访问地域以及访问网络等等。

在步骤102中，服务器调用逻辑回归模型，以基于第一信息集合中每个信息的多个逻辑回归特征，确定对应第一信息集合中每个信息的第一点击率。

这里，将调用逻辑回归模型对第一信息集合中的每个信息进行第一点击率确定，从而获得头部信息，推荐系统的召回得到的信息数目量较大，通常通过第一点击率确定的方式对召回得到的信息进行第一次筛选，保留第一点击率从高到低排序靠前的多个信息作为头部信息，并对头部信息进行基于第二点击率的确定以及排序，以将得到的信息进行多样化展示以及推荐。

在一些实施例中，步骤102中基于第一信息集合中每个信息的多个逻辑回归特征，确定对应第一信息集合中每个信息的第一点击率可以通过以下技术方案实现，针对第一信息集合中的每个信息执行以下技术方案，以信息的多个逻辑回归特征分别对应的点击率影响因子为权重，对多个逻辑回归特征进行加权求和处理，对加权求和处理结果进行偏置处理，得到对应信息的第一点击率。

在一些实施例中，逻辑回归模型可以是线性模型或者线性模型与逻辑回归方程结合的模型，对于线性模型而言，则对各个特征进行线性组合即可得到第一点击率，参见公式（6）：

（6）

其中，

为偏置处理的偏置量，

为各个逻辑回归特征

分别对应的点击率影响因子。

在一些实施例中，还可以在上述方法的基础上将线性组合代入到逻辑回归方程（7）中，如此，将特征的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷，因此，使用逻辑回归方程将自变量映射到（0，1）上，将代入逻辑回归方程后得到的结果作为第一点击率：

（7）

其中， z为公式（6）示出的特征的线性组合，g为第一点击率。

通过逻辑回归模型对召回的信息进行初次筛选得到头部信息，这里采取逻辑回归模型的原因在于，节省对大量召回信息进行点击率确定的计算时间，使得后续仅需要对头部信息进行第二点击率确定，这样既能够保证确定精度也能保证确定效率。

在步骤103中，服务器从第一点击率的降序排序结果中选取排序在前的多个信息，以形成第二信息集合。

在一些实施例中，步骤103中从第一点击率的降序排序结果中选取排序在前的多个信息，以形成第二信息集合，可以通过以下技术方案实现：将第一信息集合中第一点击率最高的信息转移到第二信息集合，以作为第二信息集合中的首个信息；当第二信息集合中的信息的数目小于信息数目阈值时，针对第一信息集合中第一点击率最高的信息，执行以下处理：确定第一信息集合中第一点击率最高的信息与首个信息之间的语义距离；当语义距离大于语义距离阈值时，将第一点击率最高的信息从第一信息集合转移到第二信息集合，并更新为第二信息集合中的首个信息。

在一些实施例中，将信息进行转移的过程可以仅基于第一点击率进行转移，例如，针对召回得到了10000条信息，分别进行第一点击率确定，得到对应的第一点击率，接着将这10000条信息按照点击率从高往低排列，可以选取点击率排在前序位置的200条信息作为头部信息，将这些信息转移到第二信息集合，这里第一信息集合和第二信息集合中信息的数目可以根据实际需求进行设定，这里将信息数目阈值作为第二信息集合中信息的数目的最小值。

在一些实施例中，当第二信息集合中的候选推荐信息的数目小于信息数目阈值时，去重功能数目阈值为第二信息集合中的信息数目，即为进行去重处理后需要得到的信息的数目，第二信息集合中的信息的数目小于信息数目阈值，意味着第二信息集合中的信息数目没有达到预先设定的数值，即还需要继续对第一信息集合进行去重处理。

在一些实施例中，语义距离是基于两个信息各自的语义特征获得的，语义特征可以是候选推荐信息的隐语义向量，候选推荐信息的隐语义向量格式为[a₁ ，a₂ ，a₃，…，a_n]，a_i是浮点数，候选推荐信息的隐语义向量长度是在矩阵分解或基于深度神经网络的推荐算法训练时进行指定，将信息的隐语义向量同步到服务器，存储在服务器内存的哈希表中，从而在混排时可以使用信息的标识在哈希表中快速查询对应的隐语义向量。

在一些实施例中，语义距离大于语义距离阈值表征两个信息之间的相似度较低，意味着两个信息可以是属于不同的一级兴趣、不同的二级兴趣或者是不同的标签，这里点击率最高的信息是当前第一信息集合中的信息，当语义距离大于语义距离阈值时，服务器将点击率最高的信息从第一信息集合中删除，添加到第二信息集合中，更新为第二信息集合中的首个信息，继续将第一信息集合中的点击率最高的信息与刚刚更新到第二信息集合的首个信息进行语义距离确定，以从第一信息集合中，继续筛选出与上一个转移到第二信息集合中的信息不相似的信息，转移到第二信息集合，是否相似是通过语义距离阈值来界定的，当两个信息之间的语义距离大于语义距离阈值时，确定两个信息属于不相似的信息，当两个信息之间的语义距离不大于语义距离阈值时，确定两个信息属于相似的信息，通过多样性处理来实现头部信息转移，以保证基于第二点击率的确定结果所得到的进行推荐的信息能够被多样性呈现。

在步骤104中，服务器对第二信息集合中每个信息的多个逻辑回归特征进行压缩处理，将多个逻辑回归特征一一对应的压缩处理结果作为对应每个信息的多个共享特征。

作为示例，生成共享特征并进行第二点击率确定的方式包括两种，一种是仅对逻辑回归特征进行复用，调用DeepFM模型对信息进行第二点击率确定，另一种是获取除了逻辑回归特征之外的附加特征，并调用DeepFM模型，基于附加特征以及逻辑回归特征对信息进行第二点击率确定。

在一些实施例中，步骤104中对第二信息集合中每个信息的多个逻辑回归特征进行压缩处理，将多个逻辑回归特征一一对应的压缩处理结果作为对应每个信息的多个共享特征，可以通过以下技术方案实现：当逻辑回归特征为单值特征时，将分别对应多个逻辑回归特征的点击率关联影响因子，与对应的逻辑回归特征进行相乘处理，得到对应每个信息的多个共享特征；当逻辑回归特征为多值特征时，将分别对应多个逻辑回归特征的点击率关联影响因子，与对应的逻辑回归特征的多个值进行相乘处理，并对相乘处理结果进行求和池化处理，得到对应每个信息的多个共享特征。

在一些实施例中，对组合特征建模，带来泛化能力比较弱的问题，尤其是在大规模稀疏特征存在的场景下，满足交叉项不为0的样本将非常少，有些特征本来就是稀疏的，很多样本在该特征上是无值的，有些是由于收集该特征成本过大或者由于监管、隐私等原因无法收集到，当训练样本不足时，很容易导致参数

训练不充分而不准确，最终影响模型的效果，特别是对于数据非常稀疏的业务场景来说，标的物是海量的，每个用户只对很少的标的物有操作，因此特征稀疏，很多特征之间的交叉是缺少训练数据支撑的，但是借助矩阵分解的思路，对二阶交叉特征的系数进行调整，让系数不再是独立无关的，从而减少模型独立系数的数量，解决由于数据稀疏导致无法训练出参数的问题，参见改进后的模型公式（8）：

（8）

其中，

的值由模型训练本身产生，分量

的点积就是两个特征的融合参数，

即为上述的点击率关联影响因子，

即为上述的参与到第二点击率确定的逻辑回归特征。

参见图6，图6是本发明实施例提供的基于人工智能的信息推荐方法的特征压缩示意图，压缩层601的结构图6所示，图6中不同神经元的填充色不同表征这些神经元所对应的嵌入维度不同，不同的嵌入维度具有不同的维度权重，虽然输入到输入层602的多个稀疏特征的长度不一样（例如字段1的稀疏特征以及字段m的稀疏特征），但是基于多个稀疏特征得到的稠密特征的长度是固定的，深度因子分解机中的隐向量v作为从稀疏特征到稠密特征的权重矩阵，隐向量v需要在网络中进行学习，假设稠密特征的维度k为5，对于输入的一条信息，一个稀疏特征中（同一个字段）只有一个位置的值为1（单值特征）或者有多个位置的值为1（多值特征），对于稀疏特征而言，映射到稠密特征的多个嵌入维度值均为1，在由输入的稀疏特征得到稠密特征的过程中，稀疏特征层中只有非零值起作用，将稀疏特征层中的特征的非零值1与压缩层的5个维度权重（vi1，vi2，vi3，vi4，vi5）相乘得到v1，即将特征值与对应的点击率关联影响因子相乘，得到共享特征v1，由于特征值为1，因此共享特征为v1，基于多值特征获得共享特征的方式和基于单值特征获得共享特征的方式类似，区别仅在于基于多值特征获得共享特征时，需要在得到对应各个值的共享特征后，将得到的对应各个值的共享特征进行求和池化处理，从而将得到的池化结果作为对应该多值特征的共享特征。

逻辑回归特征均属于离散特征，具体分为单值特征与多值特征，单值特征中还包括交叉值特征，例如，单值特征可以是表征用户兴趣的特征“湖人”，多值特征可以是表征用户兴趣的特征“湖人；皇马”，即特征包括多个值，交叉值特征可以是表征用户兴趣的特征“青少年+湖人”，即“青少年+湖人”为一个用户年龄特征与用户兴趣特征组成的交叉特征。

在一些实施例中，步骤104中对第二信息集合中每个信息的多个逻辑回归特征进行压缩处理，将多个逻辑回归特征一一对应的压缩处理结果作为对应每个信息的多个共享特征，可以通过以下技术方案实现，针对第二信息集合中的每个信息执行以下处理：获取信息的附加特征，且附加特征与点击用户相关；当逻辑回归特征和附加特征为单值特征时，将分别对应多个附加特征的点击率关联影响因子，与对应的附加特征进行相乘处理，得到对应所述每个信息的多个共享特征；并将分别对应多个逻辑回归特征的点击率关联影响因子，与对应的逻辑回归特征进行相乘处理，得到对应每个信息的多个共享特征；当逻辑回归特征和附加特征为多值特征时，将分别对应多个附加特征的点击率关联影响因子，与对应的附加特征的多个值进行相乘处理，并将得到的对应所述附加特征的多个值的相乘处理结果进行求和池化处理，得到对应每个信息的多个共享特征，将分别对应多个逻辑回归特征的点击率关联影响因子，与对应的逻辑回归特征的多个值进行相乘处理，并将得到的对应所述逻辑回归特征的多个值的相乘处理结果进行求和池化处理，得到对应每个信息的多个共享特征；当逻辑回归特征为单值特征，且附加特征为多值特征时，将分别对应多个附加特征的点击率关联影响因子，与对应的附加特征的多个值进行相乘处理，并将得到的对应所述附加特征的多个值的相乘处理结果进行求和池化处理，得到对应每个信息的多个共享特征；并将分别对应多个逻辑回归特征的点击率关联影响因子，与对应的逻辑回归特征进行相乘处理，得到对应每个信息的多个共享特征；当逻辑回归特征为多值特征，且附加特征为单值特征时，将分别对应多个附加特征的点击率关联影响因子，与对应的附加特征进行相乘处理，得到对应所述每个信息的多个共享特征，将分别对应多个逻辑回归特征的点击率关联影响因子，与对应的逻辑回归特征的多个值进行相乘处理，并将得到的对应所述逻辑回归特征的多个值的相乘处理结果进行求和池化处理，得到对应每个信息的多个共享特征。

上述两种获取共享特征的技术方案类似，区别仅在于前者是基于多个逻辑回归特征生成分别对应各个逻辑回归特征的多个共享特征，而后者是基于多个逻辑回归特征生成分别对应各个逻辑回归特征的多个共享特征的同时还会基于多个附加特征生成分别对应各个附加特征的多个共享特征，这样各类型类型的分布均衡，从而能够准确基于各类型特征全面确定点击率。

作为示例，信息的附加特征的类型包括一阶特征和多阶特征；上述获取信息的附加特征，可以通过以下技术方案实现，获取信息的点击用户的多个维度的用户特征，并将每个维度的用户特征作为一阶特征；通过以下组合方式至少之一得到多阶特征：将点击用户的至少一个维度的用户特征与信息的至少一个维度相关的特征组合；将点击用户的至少一个维度的用户特征与环境相关的至少一个维度的特征组合。

其中，附加特征是逻辑回归特征的补充，由于在发明实施例中发现逻辑回归特征中的特征类型大部分属于二阶特征或者三阶特征，那么在二阶特征和三阶特征的基础上再进行特征交叉，并不能取得较好的测试效果，因此，如果使用附加特征对逻辑回归特征进行补充，从而使各类型特征分布均衡，就能够准确基于各类型特征全面确定点击率。

附加特征可以是用户相关的特征，例如可以是单特征（一阶特征），也可以是组合特征（二阶特征等高阶特征），构建属于单特征的附加特征的方式可以为：分别获取每个维度的用户特征，例如，用户年龄、用户性别，这些均属于用户特征，且属于单特征，还可以通过以下组合方式至少之一构建属于多阶特征的附加特征：将点击用户的至少一个维度的用户特征与信息的至少一个维度相关的特征组合例如，用户年龄与信息来源组合得到的特征，将点击用户的至少一个维度的用户特征与环境相关的至少一个维度的特征组合，例如，用户年龄与用户设备组合得到的特征，还可以是多个维度的用户特征，例如，用户兴趣与用户年龄组合得到的特征。

在步骤105中，服务器基于第二信息集合中每个信息的多个共享特征，确定对应的第二点击率。

基于图4A，参见图4C，图4C是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图，步骤105中基于第二信息集合中每个信息的多个共享特征，确定对应的第二点击率可以通过步骤1051-1053实现，将结合图4C示出的步骤1051-1053进行说明。

在步骤1051中，基于第二信息集合中每个信息的多个共享特征，以及多个共享特征之间的关联关系，确定对应的第三点击率。

基于图4A，参见图4D，图4D是本发明实施例提供的基于人工智能的信息推荐方法的流程示意图，步骤1051中基于第二信息集合中每个信息的多个共享特征，以及多个共享特征之间的关联关系，确定对应的第三点击率可以通过步骤10511-10512实现，将结合图4D示出的步骤10511-10512进行说明。

针对第二信息集合中每个信息执行以下处理：

在步骤10511中，将信息的多个共享特征进行按照以下方式中的至少之一进行组合以得到对应的组合特征：将对应至少两个不同的逻辑回归特征的共享特征进行相乘处理，将得到的相乘结果作为对应至少两个逻辑回归特征的组合特征；将对应至少一个逻辑回归特征的共享特征和对应至少一个附加特征的共享特征进行相乘处理，将得到的相乘结果作为对应的至少一个逻辑回归特征和至少一个附加特征的共享特征组合特征；将分别对应至少两个不同的附加特征的共享特征进行相乘处理，将得到的相乘结果作为对应至少两个不同的附加特征的组合特征。

这里逻辑回归特征与附加特征在参与组合时实际上是无差别的，可以是分别对应至少两个逻辑回归特征的共享特征组合得到组合特征，也可以是分别对应至少一个逻辑回归特征与至少一个附加特征的共享特征组合得到组合特征，还可以是分别对应至少两个附加特征的共享特征组合得到组合特征，每次组合所使用的共享特征部分不同或完全不同，以形成信息的多个组合特征，组合的方式可以是共享特征相乘，由于逻辑回归特征以及附加特征中的数值为0或者1，因此共享特征之间的相乘过程即为对应特征的点击率关联影响因子的点乘过程。

作为示例，每次组合所使用的共享特征部分相同指的是，逻辑回归特征x₁所对应的共享特征可以和逻辑回归特征x₂所对应的共享特征组合，形成组合特征x₁₂，逻辑回归特征x₁所对应的共享特征可以和逻辑回归特征x₃所对应的共享特征组合，形成组合特征x₁₃，所涉及到的两次组合中所使用的共享特征部分不同，但是均是与逻辑回归特征x₁所对应的共享特征组成组合特征，每次组合所使用的共享特征完全不同指的是，逻辑回归特征x₁所对应的共享特征可以和逻辑回归特征x₂所对应的共享特征组合，形成组合特征x₁₂，逻辑回归特征x₃所对应的共享特征可以和逻辑回归特征x₄所对应的共享特征组合，形成组合特征x₃₄，所涉及到的两次组合中所使用的共享特征完全不同。

在步骤10512中，将信息的多个组合特征进行求和处理，基于得到的第一求和结果确定信息的第三点击率。

在一些实施例中，步骤10512中基于得到的第一求和结果确定信息的第三点击率，可以通过以下技术方案实现，以多个逻辑回归特征以及多个附加特征分别对应的点击率影响因子为权重参数，对多个逻辑回归特征以及多个附加特征进行加权求和处理，得到第二加权求和结果；将第一求和结果作为信息的第三点击率，或者，将第一求和结果和第二加权求和结果的加和进行偏置处理，并将偏置处理结果作为信息的第三点击率。

这里，可以直接将第一求和结果作为第三点击率，这时的第三点击率是可以表征特征之间关系的确定结果，除此之外，还可以以每个逻辑回归特征的点击率影响因子为权重参数，对信息的每个逻辑回归特征进行加权求和处理，将信息的每个逻辑回归特征的加权求和处理结果、与信息的第一求和结果相加以及偏置处理，作为信息的第三点击率，通过在第三点击率的确定中引入线性部分，兼顾了各个特征分别对第三点击率的影响、以及特征之间的关系对第三点击率的影响，提升了确定第三点击率的精度。

在步骤1052中，对第二信息集合中每个信息的多个共享特征进行特征空间映射处理，得到对应的第四点击率。

在一些实施例中，步骤1052中，对第二信息集合中每个信息的多个共享特征进行特征空间映射处理，得到对应的第四点击率，可以通过以下技术方案实现，对信息的多个共享特征进行拼接处理，并将拼接处理结果与前馈深度神经网络模型的隐层参数相乘，得到对应信息的隐层特征；将隐层特征从隐层特征空间映射到点击率空间，得到对应信息的第四点击率。

作为示例，可以通过DNN模型对第二信息集合中每个信息的多个共享特征进行特征空间映射处理，得到对应的第四点击率，

是对信息的多个共享特征进行拼接处理得到的拼接处理结果，由于特征值为1或者0，因此

，然后通过下述方式前向传播

得到各层的隐层特征，最终将隐层特征从隐层特征空间映射到点击率空间，得到第四点击率的确定结果为：

，通过如上前述传播的方式可以学习高阶的特征组合，隐藏层设置为3层，每层单元数为200~400，使用Relu函数作为激活函数，增加了随机失活（Dropout）处理机制。

在步骤1053中，对第二信息集合中每个信息的第三点击率以及第四点击率进行求和处理，得到对应的第二点击率。

作为示例，将第二信息集合中每个信息的第三点击率以及第四点击率相加，将相加得到的结果代入signoid激活函数，得到对应第二信息集合中每个信息的第二点击率。

在上述方案中，第三点击率是基于FM模型确定得到的，第四点击率是基于DNN模型确定得到的，除了对上述两种模型进行结合的实施方式外，还可以通过其他不同模型分别确定得到点击率分量，进而得打第二点击率，例如，在一些实施例中，FM模型可以替换为广义线性模型，广义线性模型可以为LR模型，利用广义线性模型从历史数据中学习特征相关性，利用DNN模型揭示隐式特征之间的相互作用，在训练过程中同时优化两个模型的参数，从而达到整体模型的确定能力最优。

在步骤106中，服务器基于第二点击率的降序排序结果执行推荐操作。

在一些实施例中，可以直接将降序排序结果推送至用户的终端按照点击率的高低顺序进行呈现；或者，将降序排序结果中排序靠前的若干个信息推送至用户的终端按照点击率的高低顺序进行呈现；又或者，对降序排序结果进行如上文的多样性处理。

参见图4E，图4E是本发明实施例提供的基于人工智能的信息推荐方法的交互流程图，在步骤201中，服务器接收终端上报的用户日志，在步骤202中，服务器生成对应的训练样本并训练逻辑回归模型以及深度因子分解机模型，在步骤203中，服务器接收终端发送的推荐信息请求，在步骤204中，服务器从信息数据库中筛选出与用户相关的信息，形成第一信息集合，在步骤205中，服务器使用逻辑回归模型对信息进行第一点击率确定和以及降序排序，在步骤206中，服务器从第一点击率的降序排序结果中选取排序在前的多个信息，以形成第二信息集合，在步骤207中，服务器对第二信息集合中的信息的逻辑回归特征进行压缩处理，得到共享特征，在步骤208中，服务器基于共享特征对第二信息集合中的每个信息进行第二点击率确定和降序排序处理，在步骤209中，服务器基于降序排序处理结果执行推荐操作，在步骤210中，服务器在用户所使用的终端上呈现经过两次排序得到的信息。

下面，将说明本发明实施例提供的基于人工智能的信息推荐方法在一个实际的应用场景中的示例性应用。

使用基于人工智能的信息推荐方法的应用程序可以是一款构建在移动终端上的内容分发平台，或者可以是内置于移动终端的其他应用程序，通过深入挖掘用户兴趣，引入优质内容，将优质的内容以个性化的方式推荐给用户，主要包含图文、视频、图集等不同类型的文章，其中，视频推荐是看点推荐的重要组成部分，如图7所示，图7是本发明实施例提供的基于人工智能的信息推荐方法的应用场景示意图，图7中左侧场景为产品的主信息流界面，主信息流界面展示有图文、视频、图集等不同类型的文章，点击视频文章会进入一拖三场景，即同一个视频文章附带有与该视频文章具有关联的多个视频，如图7中右侧所示，展示有与主信息流中被点击的视频文章相关的一系列视频，视频文章推荐通常占到了整个产品每天的分发总量的75%以上。

视频文章推荐主要包含离线训练和在线应用两个部分，如图8所示，图8是本发明实施例提供的基于人工智能的信息推荐方法的整体架构图，架构中的离线部分主要包含用户行为收集、用户画像计算和点击率（CTR，Click-Through Rate）确定模型训练计算三个部分，用户行为收集主要包含点击、展示曝光、点赞、观看时长等，用户画像计算则主要根据用户行为计算用户在标签、分类等不同维度下的兴趣，用户画像可以是标签兴趣、视频分类等等，标签兴趣可以是“湖人”、“皇马”等等，各个用户画像后的数据表征不同用户画像在整个信息特征中的影响权重或者重要程度，CTR确定模型则主要根据用户行为和用户画像进行特征抽取和模型训练，在线部分主要包括候选召回部分、排序打分部分和多样性展示三个部分，候选召回部分主要根据用户行为和用户画像进行文章召回，排序打分部分则根据离线训练好的模型进行特征抽取和点击率确定打分，多样性展示则是在排序打分的基础上结合多样性模型进行最后文章的展示。

参见图9，图9是本发明实施例提供的基于人工智能的信息推荐方法使用的整体模型架构图，使用深度因子分解机模型建模点击率预估模型，深度因子分解机模型包含两部分：左边的FM部分和右边的DNN部分，分别负责低阶特征（一阶特征或者二阶特征）的提取和高阶特征（三阶特征及以上）的提取，这两部分共享同样的输入。对于给定的特征x_i，

用于表示一阶特征的重要性，特征x_i的隐向量

用来建模和其他特征间的相互影响，在FM部分，

用于表征该特征与其他特征之间的相互影响，<vi,vj>xixj为二阶特征，同时在DNN部分用于构建高阶特征，所有的参数共同参与训练，DeepFM的确定结果为:

（9）

是最终第二点击率的确定值，

是FM部分的结果，

是Deep部分的结果。

FM模型的目标函数如下：

（10）

其中，

的值由模型训练本身产生，特征向量的点积就是两个特征的融合参数。为了简化计算，可以对二阶项做如下的计算

（11）

经过上述变化，二次项部分的时间复杂度从

变成了

，因此FM可以在线性时间内对新样本进行求解。因子分解机模型学到的隐向量可以看作是特征的一种嵌入压缩表示，把离散特征转化为稠密特征，即为隐向量

是特征

的低维稠密表达，其长度远远小于特征维度N，本发明中嵌入压缩的维度统一设为10。

DNN部分是一个前馈神经网络，在第一层隐含层之前，引入一个特征嵌入层（压缩层）来将输入的离散特征压缩到低维稠密向量，这里前馈DNN模型与FM模型共用压缩层，同时在两边的网络参与训练，例如，在一些实施例中，总共需要使用538类特征稀疏特征，压缩层的维度为10，故而针对输入的不定长特征，压缩后可得到5380固定维度的共享特征，针对多值特征，采用求和池化的方式进行处理，针对未出现的特征使用0补齐，将压缩层（Embedding Layer）表征如下：

，

是第i个特征的嵌入压缩表示，m是特征的总数，

是输入DNN模型的向量，然后通过下述方式前向传播

，则DNN部分对CTR的确定结果为：

，使用了ReLU的激活函数，三层神经网络的维度分别为256、128、64。FM部分与DNN部分共享相同的Embedding层存在两个优势：1、从原始数据中同时学习到了低阶特征与高阶特征；2、一定程度上降低了特征工程的复杂度。

参见图10，图10是本发明实施例提供的基于人工智能的信息推荐方法的整体框架图，主要包括在线和离线两个部分，在线部分包括资源适配、特征抽取和打分排序三个步骤：资源适配，主要处理用户画像信息和行为信息；特征抽取，主要包括特征设计、特征索引和特征编码三个方面；打分排序，主要根据抽取特征和点击率确定模型进行点击率分数的计算，离线部分主要为模型训练，根据合并好的日志进行特征的抽取，进而进行模型的训练。

在资源适配阶段，资源主要包含用户画像信息和用户行为信息，用户画像信息主要包含用户视频标签画像，短视频一级分类画像、短视频二级分类画像，小视频一级分类画像、小视频二级分类画像，图文标签画像、图文一级分类画像、图文二级分类画像等；用户行为信息为用户的点击历史和展示历史，点击历史为用户最近多天的点击信息，包含所有类型的图文、视频等等，以一次点击为单位进行存储，展示历史为用户最近多天的展示信息，以一刷为单位存储，一刷为一次请求，一刷一般包含10篇图文、视频文章，通过点击信息以及展示信息中的文章分别查询正排，以获取其相应的文章信息，文章信息中包括有标签等用户画像。

在特征抽取阶段，若直接将逻辑回归模型特征直接用于因子分解机模型，发现AUC稳定低于逻辑回归模型，参见图11，图11是本发明实施例提供的基于人工智能的信息推荐方法中特征工程体系示意图，以小视频为例，经过统计发现逻辑回归模型特征中的88%的特征都是二阶、三阶或者更高阶特征；12%的一阶特征中也主要是文章测的属性特征和统计特征，描述用户兴趣的画像特征基本都是以与文章信息交叉的形式存在，单特征非常少，在特征设计时，为了增强用户兴趣的表示，提升上述逻辑回归模型特征与用户兴趣的关联程度，在保留已有逻辑回归特征的基础上，新增了15类用户相关的特征，如下表2所示，平均每条样本增加53个特征。

计算特征索引时，单特征（一阶特征）有一个输入值，交叉特征（多阶特征）有多个输入值，根据输入的一个或者多个值计算该特征的索引，以单特征为例，输入一般为uint64_t、float类型，例如一级分类、二级分类、标签等，是uint64_t类型，此时特征索引

；例如点击率、转发率等，是float类型，此时特征索引

；以交叉特征为例，输入为多个参数，以2个参数为例，首先各个特征通过单特征的方式得到各自的索引，记为

、

，采用质数连乘的方式进行多个特征的连接：

，输入为多个参数时以此类推。

本发明实施例提供的基于人工智能的信息推荐方法将特征映射到64位哈希空间，使用64位哈希空间的前16位表示特征类别，将特征名称字符串哈希取低16位即可得到特征类别值：

；后48位表示特征索引，将特征值哈希取低48位得到，即为

。

在线部分根据特征和模型进行前馈计算，本发明实施例提供的基于人工智能的信息推荐方法在线首先使用逻辑回归模型进行基于第一点击率的降序排序，针对头部的300文章使用DeepFM模型进行基于第二点击率的降序排序，将耗时控制在50ms以内，以控制推荐响应时间。

参见图12，图12是本发明实施例提供的基于人工智能的信息推荐方法的在线耗时优化示意图，由于乘法运算的总次数过多，每篇文章需要运算361W次，且单次乘法的运算性能比较低，可以对模型进行压缩，分别试验了512、512、512的3层常量神经网络结构和256、128、64的3层递减神经网络结构，乘法运算从361W减少至158W，相对减少了56%，效果持平，为了逐步减少了单次运算的耗时，首先基于Eigen库，将乘法计算矩阵化，打分300篇耗时280ms，其次利用Intel MKL进偏置，从而加速计算，耗时降到90ms，最后采取打分服务分离处理，即通过并行打分进一步降低耗时，耗时降到40ms。

离线模型训练主要包含日志合并、特征抽取和模型训练三个部分，参见图13，图13是本发明实施例提供的基于人工智能的信息推荐方法的离线训练架构图，日志合并主要是根据点击日志、展示日志、在线特征日志，将一次请求的信息聚合在一起，合并日志过程可以依据曝光日志进行，即为在曝光日志到达时等候15分钟的时间内，认为一次展示内的所有点击都会在15分钟之内发生，若超时未收到点击操作，则认为没有点击操作，最后将合并好的日志写到分布式消息系统，由于上述日志合并步骤合并了在线特征日志，故而接下来的特征抽取则主要是根据是否接收到针对信息的点击操作，将特征预置为正样本或者负样本，正负样本混合在一起，随机抽取99%作为训练样本，剩余1%为测试样本，训练样本和测试样本分别写到kafka上，以供模型训练以及测试使用。

本发明实施例提供的基于人工智能的信息推荐方法使用特征抽取到的全部训练样本进行模型训练，可以采用各种机器学习框架（例如DIFACTO）进行模型训练，例如，在一些实施例中，在模型训练的过程中，存在一系列问题，其中最主要的是在线训练的稳定性和动态特征管理两个问题，关于在线训练的稳定性问题，1、在线流式学习导致数据仅正向传递一次，因此需要参数的快速收敛且要保持稳定；2、训练的过程中会出现梯度弥散的现象，靠近输入层的参数变化比较慢；3、过拟合的问题，训练数据流的AUC正常，但是测试数据流上的AUC偏低，为了解决上述问题，可以使用在线最优化算法FTRL优化一阶权重，AdaGrad优化Embedding层和DNN模型的部分参数，提升模型的稳定性和稀疏性；在隐藏层之后增加残差连接，将激活函数从ReLU替换为Sigmoid，以增强梯度传播；针对Embedding和DNN部分参数，增加Droupout处理，按照0.25进行随机丢弃，以增加模型的鲁棒性，从而保证了离线训练流程的稳定性，另一方面采用动态特征管理，由于这里使用的是动态哈希特征，维度高变化快，而且稀疏，参见图14，图14是本发明实施例提供的基于人工智能的信息推荐方法的特征频次占比示意图，经过统计发现一天的数据中91.6%的特征只出现了10次以下，频次非常低，直接将这部分特征拿来做训练，也会很影响模型训练的效果。其次由于使用的是在线学习方式，获取到源源不断的特征作为训练样本，模型越来越大，而在线的机器内存是有限的，具体实践中，离线模型体积会到10G（字节），在线内存会到50G，为了解决上述问题，可以进行低频特征过滤，分布式哈希表存储特征频次，过滤超低频特征，既可以节省空间让模型更稳定又可以进行模型压缩，通过候选特征集合、正式特征集合、淘汰特征集合的三级管理实现特征的动态增删。

参见图15，图15是本发明实施例提供的基于人工智能的信息推荐方法的特征管理示意图，例如，在一些实施例中，特征首先进入候选特征集合，根据频次进行特征准入的判断，达到100次频次限制的才能进入正式特征集合，进行相应的训练，在需要导出模型的时候，综合根据参数的L1模，即为

，进行模型的压缩，并将最近3周没有更新的特征进行过期处理。通过上述方式对模型的大小进行了有效的控制，例如，在一些实施例中具体而言，仅保留头部2亿个特征，控制离线模型8G-9G，离线训练得到的因子分解机模型每60分钟导出一次并推送线上环境，同时将训练的二进制文件存储到分布式存储系统上，供异常恢复使用。

本发明实施例提供了一种基于人工智能的信息推荐方法，逻辑回归模型存在的泛化能力弱、拟合准确率低的问题，通过使用深度因子分解机模型建模点击率预估，将线性模型的记忆性与深度模型的泛化性融合在一起，一方面将离散特征向量化，有效的解决了高维数据特征组合的稀疏问题，提升了模型的泛化能力和拟合能力，另一方面宽度部分和深度部分共享输入特征，避免了复杂的特征工程，应用于推荐系统中的排序模块，通过使用深度因子分解机模型建模点击率预估模型，大大提高了排序的精准度，从而提升了推荐引擎的点击率、点击量、日活、时长等关键指标，在一些实施例中，在确定了第二点击率之后，还可以基于共享特征之间的关系确定信息的最终点击率，基于注意力机制确定每个信息的共享特征之间的关联关系，得到对应每个信息的注意力特征，进而根据注意力特征来确定信息最终点击率，注意力机制可以用于增加模型对于特征上下文关系的刻画能力。

参见表3和表4，并参见图16A-16D，图16A-16D是本发明实施例提供的基于人工智能的信息推荐方法的指标示意图，对于实验桶与对照桶分别设置有不同的用户数量，从图16A中可以看出指标测试中实验组中的主信息流小视频点击率高于对照组中的主信息流小视频点击率，从图16B中可以看出指标测试中实验期内的相对差百分比为正数，且稳定在5%-6%左右，表征指标性能具有正向提升，从图16C中可以看出指标测试中实验组中的整体总分发量高于对照组中的整体总分发量，从图16D中可以看出指标测试中实验期内的大盘整体的相对差百分比为正数，且稳定在2%-3%左右，表征指标性能具有正向提升，本发明实施例提供的基于人工智能的信息推荐方法应用于视频推荐产品中，离线AUC相比逻辑回归模型提升2%+；小视频点击率提升5.88 %，视频点击率提升5.24%，主feeds小视频点击量提升6.88%，主feeds视频点击量提升5.97% ；小视频时长提升4.22%，视频时长提升1.71%；看点总分发提升2.68%，总广告收入提升了1.41%，累计使用时长提升0.62%，总曝光提升了0.42%，广义日活提升0.05%，可见，这些指标性能具有显著性提升。

表3 本发明实施例提供的视频核心指标

表4 本发明实施例提供的大盘核心指标

下面继续说明本发明实施例提供的基于人工智能的信息推荐装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的基于人工智能的信息推荐装置255中的软件模块可以包括：第一点击率确定模块2551，用于基于第一信息集合中每个信息的多个逻辑回归特征，确定对应的第一点击率，并从所述第一点击率的降序排序结果中选取排序在前的多个信息，以形成第二信息集合；特征压缩模块2552，用于对所述第二信息集合中每个信息的多个逻辑回归特征进行压缩处理，得到对应所述每个信息的多个共享特征；第二点击率确定模块2553，用于基于所述第二信息集合中每个信息的多个共享特征，确定对应的第二点击率；推荐模块2554，用于基于所述第二信息集合中每个信息的第二点击率的降序排序结果，执行推荐操作。

在一些实施例中，所述装置还包括：特征获取模块2555，用于：在基于第一信息集合中每个信息的多个逻辑回归特征，确定对应的第一点击率之前，针对所述第一信息集合中的每个信息执行以下处理：从逻辑回归模型的特征数据库中，查询与所述信息的特征数据对应的逻辑回归特征；其中，所述逻辑回归模型用于基于所述逻辑回归特征确定所述第一点击率；当所述信息的特征数据是对应所述逻辑回归模型的特征数据，且从所述逻辑回归模型的特征数据库中未查询到所述特征数据时，将所述特征数据的特征值转化为特征索引，并将所述特征索引进行哈希处理，得到特征索引编码；将所述特征数据的特征名称进行哈希处理得到特征名称编码，并将所述特征名称编码以及所述特征索引编码进行组合，得到所述信息的逻辑回归特征。

在一些实施例中，所述特征压缩模块2552，还用于：当所述逻辑回归特征为单值特征时，将分别对应所述多个逻辑回归特征的点击率关联影响因子，与对应的逻辑回归特征进行相乘处理，得到对应所述每个信息的多个共享特征；当所述逻辑回归特征为多值特征时，将分别对应所述多个逻辑回归特征的点击率关联影响因子，与对应的逻辑回归特征的多个值进行相乘处理，并对相乘处理结果进行求和池化处理，得到对应所述每个信息的多个共享特征。

在一些实施例中，所述特征压缩模块2552，还用于：针对所述第二信息集合中的每个信息执行以下处理：获取所述信息的附加特征，且所述附加特征与点击用户相关；当所述逻辑回归特征和所述附加特征为单值特征时，将分别对应多个所述附加特征的点击率关联影响因子，与对应的附加特征进行相乘处理，得到对应所述每个信息的多个共享特征；并将分别对应所述多个逻辑回归特征的点击率关联影响因子，与对应的逻辑回归特征进行相乘处理，得到对应所述每个信息的多个共享特征；当所述逻辑回归特征和所述附加特征为多值特征时，将分别对应多个所述附加特征的点击率关联影响因子，与对应的附加特征的多个值进行相乘处理，并将得到的对应所述附加特征的多个值的相乘处理结果进行求和池化处理，得到对应所述每个信息的多个共享特征，将分别对应所述多个逻辑回归特征的点击率关联影响因子，与对应的逻辑回归特征的多个值进行相乘处理，并将得到的对应所述逻辑回归特征的多个值的相乘处理结果进行求和池化处理，得到对应所述每个信息的多个共享特征。

在一些实施例中，所述信息的附加特征的类型包括一阶特征和多阶特征；所述特征压缩模块2552，还用于：获取所述信息的点击用户的多个维度的用户特征，并将每个所述维度的用户特征作为所述一阶特征；通过以下组合方式至少之一得到所述多阶特征：将所述点击用户的至少一个维度的用户特征与所述信息的至少一个维度相关的特征组合；将所述点击用户的至少一个维度的用户特征与环境相关的至少一个维度的特征组合。

在一些实施例中，所述第二点击率确定模块2553，还用于：基于所述第二信息集合中每个信息的多个共享特征，以及所述多个共享特征之间的关联关系，确定对应的第三点击率；对所述第二信息集合中每个信息的多个共享特征进行特征空间映射处理，得到对应的第四点击率；对所述第二信息集合中每个信息的所述第三点击率以及所述第四点击率进行求和处理，得到对应的第二点击率。

在一些实施例中，所述第二点击率确定模块2553，还用于：针对所述第二信息集合中每个信息执行以下处理：将所述信息的多个共享特征进行按照以下方式中的至少之一进行组合以得到对应的组合特征：将对应至少两个所述逻辑回归特征的共享特征进行相乘处理，将得到的相乘结果作为对应的组合特征；将对应至少一个所述逻辑回归特征的共享特征和对应至少一个所述附加特征的共享特征进行相乘处理，将得到的相乘结果作为对应的组合特征；将分别对应至少两个所述附加特征的共享特征进行相乘处理，将得到的相乘结果作为对应的组合特征；其中，每次所述组合所使用的共享特征部分不同或完全不同，以形成所述信息的多个组合特征；将所述信息的所述多个组合特征进行求和处理，基于得到的第一求和结果确定所述信息的第三点击率。

在一些实施例中，所述第二点击率确定模块2553，还用于：以所述多个逻辑回归特征以及多个所述附加特征分别对应的点击率影响因子为权重参数，对所述多个逻辑回归特征以及多个所述附加特征进行加权求和处理，得到第二加权求和结果；将所述第一求和结果作为所述信息的第三点击率，或者，将所述第一求和结果和所述第二加权求和结果的加和进行偏置处理，并将偏置处理结果作为所述信息的第三点击率。

在一些实施例中，所述第二点击率确定模块2553，还用于：对所述信息的多个共享特征进行拼接处理，并将拼接处理结果与前馈深度神经网络模型的隐层参数相乘，得到对应所述信息的隐层特征；将所述隐层特征从隐层特征空间映射到点击率空间，得到对应所述信息的第四点击率。

在一些实施例中，所述装置还包括：训练模块2556，用于：所述第二点击率的确定是通过调用因子分解机模型以及前馈深度神经网络模型确定得到的，且所述因子分解机模型以及所述前馈深度神经网络模型共享压缩层；在获取第一信息集合中每个信息的逻辑回归特征之前，将窗口时间内的点击日志、展示日志以及特征日志合并成推荐日志，并从所述推荐日志中获取信息样本以及对应的真实第二点击率；对所获取的信息样本的多个逻辑回归特征以及多个附加特征进行基于特征频次的过滤处理，得到对应所述信息样本的训练特征；将所述信息样本的训练特征，在所述因子分解机模型以及所述前馈深度神经网络模型中进行正向传播，并在所述因子分解机模型以及所述前馈深度神经网络模型中进行反向传播，以基于所述真实第二点击率更新所述压缩层的点击率关联影响因子、所述因子分解机模型的点击率影响因子以及所述前馈深度神经网络模型的隐层参数。

在一些实施例中，所述训练模块2556，还用于：确定所述多个逻辑回归特征以及多个所述附加特征的对应的特征频次；将特征频次超过特征频次阈值的特征转移至正式特征集合，将所述正式特征集合中包括的训练特征作为所述信息样本的训练特征；当特征频次不超过所述特征频次阈值的特征转移至淘汰特征集合；当所述正式特征集合的累积未更新时长超出时长阈值内，将所述正式特征池的中的特征从所述正式特征集合转移至所述淘汰特征集合。

在一些实施例中，所述训练模块2556，还用于：将每个所述信息样本的训练特征在所述因子分解机模型的各个层中进行正向传播，以得到对应所述信息样本的确定的第二点击率；初始化包括所述信息样本的训练特征以及对应所述信息样本的确定的第二点击率的损失函数；确定所述信息样本的确定的第二点击率和所述真实第二点击率之间的误差，并根据所述损失函数在所述因子分解机模型中反向传播所述误差，以确定所述损失函数取得最小值时所述因子分解机模型的变化值，并基于所述变化值更新所述压缩层的点击率关联影响因子、所述因子分解机模型的点击率影响因子以及所述前馈深度神经网络模型的隐层参数。

需要说明的是，本发明实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本发明实施例提供的基于人工智能的信息推荐装置中未尽的技术细节，可以根据图4A-4E任一附图的说明而理解。

本发明实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的基于人工智能的信息推荐方法，例如，如图4A-4E示出的基于人工智能的信息推荐方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上，通过本发明实施例将逻辑回归特征用于第一点击率确定，并在进行第二点击率的确定时复用对应同样特征的共享特征，减少了不同阶段确定中所需要进行多次特征工程所带来的工作量，从而实现了特征数据的集约化使用，分阶段点击率确定的方式，相比于对大量信息进行一次性点击率效率更高，且基于压缩降维后的共享特征确定第二点击率可以进一步提高确定精度且降低特征工程复杂度，从而基于第一点击率和第二点击率能够对信息进行全面的排序，保证了信息推荐精度。

以上，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的信息推荐方法，其特征在于，所述方法包括：

针对第一信息集合中的每个信息执行以下处理：

从逻辑回归模型的特征数据库中，查询与所述信息的特征数据对应的逻辑回归特征；

将所述特征数据的特征名称进行哈希处理得到特征名称编码，并将所述特征名称编码以及所述特征索引编码进行组合，得到所述信息的逻辑回归特征；

基于所述第一信息集合中每个信息的多个所述逻辑回归特征，确定对应的第一点击率，并从所述第一点击率的降序排序结果中选取排序在前的多个信息，以形成第二信息集合；

其中，所述逻辑回归特征是基于所述逻辑回归模型确定所述第一信息集合中每个信息的所述第一点击率时所使用的特征；

2.根据权利要求1所述的方法，其特征在于，所述对所述第二信息集合中每个信息的多个逻辑回归特征进行压缩处理，得到对应所述每个信息的多个共享特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述第二信息集合中每个信息的多个逻辑回归特征进行压缩处理，得到对应所述每个信息的多个共享特征，包括：

针对所述第二信息集合中的每个信息执行以下处理：

4.根据权利要求3所述的方法，其特征在于，

所述信息的附加特征的类型包括一阶特征和多阶特征；

所述获取所述信息的附加特征，包括：

通过以下组合方式至少之一得到所述多阶特征：

5.根据权利要求3所述的方法，其特征在于，所述基于所述第二信息集合中每个信息的多个共享特征，确定对应的第二点击率，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述第二信息集合中每个信息的多个共享特征，以及所述多个共享特征之间的关联关系，确定对应的第三点击率，包括：

针对所述第二信息集合中每个信息执行以下处理：

将所述信息的多个共享特征进行按照以下方式中的至少之一进行组合，以得到对应的组合特征：

7.根据权利要求6所述的方法，其特征在于，所述基于得到的第一求和结果确定所述信息的第三点击率，包括：

8.根据权利要求5所述的方法，其特征在于，所述对所述第二信息集合中每个信息的多个共享特征进行特征空间映射处理，得到对应的第四点击率，包括：

9.根据权利要求1所述的方法，其特征在于，

10.根据权利要求9所述的方法，其特征在于，

所述对所获取的信息样本的多个逻辑回归特征以及多个附加特征进行基于特征频次的过滤处理，得到对应所述信息样本的训练特征，包括：

所述方法还包括：

11.根据权利要求9所述的方法，其特征在于，

所述将所述信息样本的训练特征，在所述因子分解机模型以及所述前馈深度神经网络模型中进行正向传播，包括：

将每个所述信息样本的训练特征在所述因子分解机模型以及所述前馈深度神经网络模型的各个层中进行正向传播，以得到对应所述信息样本的确定的第二点击率；

所述在所述因子分解机模型以及所述前馈深度神经网络模型中进行反向传播，以基于所述真实第二点击率更新所述压缩层的点击率关联影响因子、所述因子分解机模型的点击率影响因子以及所述前馈深度神经网络模型的隐层参数，包括：

确定所述信息样本的确定的第二点击率和所述真实第二点击率之间的误差，并根据所述损失函数在所述因子分解机模型以及所述前馈深度神经网络模型中反向传播所述误差，以

确定所述损失函数取得最小值时所述因子分解机模型以及所述前馈深度神经网络模型的变化值，并基于所述变化值更新所述压缩层的点击率关联影响因子、所述因子分解机模型的点击率影响因子以及所述前馈深度神经网络模型的隐层参数。

12.一种基于人工智能的信息推荐装置，其特征在于，所述装置包括：

特征获取模块，用于针对第一信息集合中的每个信息执行以下处理：从逻辑回归模型的特征数据库中，查询与所述信息的特征数据对应的逻辑回归特征；当所述信息的特征数据是对应所述逻辑回归模型的特征数据，且从所述逻辑回归模型的特征数据库中未查询到所述特征数据时，将所述特征数据的特征值转化为特征索引，并将所述特征索引进行哈希处理，得到特征索引编码；将所述特征数据的特征名称进行哈希处理得到特征名称编码，并将所述特征名称编码以及所述特征索引编码进行组合，得到所述信息的逻辑回归特征；

第一点击率确定模块，用于基于所述第一信息集合中每个信息的多个所述逻辑回归特征，确定对应的第一点击率，并从所述第一点击率的降序排序结果中选取排序在前的多个信息，以形成第二信息集合；其中，所述逻辑回归特征是基于所述逻辑回归模型确定所述第一信息集合中每个信息的所述第一点击率时所使用的特征；

13.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的基于人工智能的信息推荐方法。

14.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至11任一项所述的基于人工智能的信息推荐方法。