CN111967892A

CN111967892A - 一种信息推荐方法及装置

Info

Publication number: CN111967892A
Application number: CN201910418493.3A
Authority: CN
Inventors: 刘家豪; 谢淼; 彭艺; 王寅; 王超; 李楠; 杨程
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2020-11-20
Also published as: WO2020233432A1

Abstract

本申请公开了一种信息推荐方法及装置，本申请通过半参环境引入非参项，使得评估模型实现了对未知数据分布的拟合。在对候选数据的价值预估过程中，本申请综合了参数模型与非参数模型的优点，即实现了快速收敛又保证了与最优解之间的理论损失距离较短，从而保证了产生的解即推荐结果具有很高的质量，提升了用户体验。

Description

一种信息推荐方法及装置

技术领域

本申请涉及但不限于电子商务技术，尤指一种信息推荐方法及装置。

背景技术

随着互联网的飞速发展，尤其是移动互联网的发展，推荐系统发挥着越来越重要的作用。在推荐系统中，有些场景的需求是从候选数据集中选取一个最优的候选项信息推荐给用户。比如，在电子商务领域，会从多张封面图中为商品推荐一张最佳的封面图；再如，对于服务优选问题，会在多个WiFi热点中选出一个最优的热点推荐给用户；又如，对于视频封面图优选问题，会从多张图片中为同一个视频推荐一张最佳的图片作为该视频的封面图，等等。

对于这些应用场景，相关技术中对候选项的推荐方法只适用于参数化建模的场景，即建模成一个排序问题，针对候选数据集中的各候选项信息，利用参数化模型根据特征分别计算一个预估值，再根据得到的预估值选出一个最优的候选项信息推荐给用户。

以为商品选择封面图为例，在电子商务领域，商家会发布很多商品，同时也会为商品设计或拍摄很多宣传图。这些宣传图本身是存在质量上的差异。相关技术中，就是按照宣传图本身质量上的差异，利用该质量参数为商品选择出最优的一副宣传图作为该商品的封面图。但是，这样的选择方式存在一个问题，不同用户对于不同图片是有自己的偏爱和喜好的，这样，仅从图片质量选择出的封面图不一定满足用户的需求，也就是说，相关技术中提供的信息推荐方案不准确，会直接导致该用户浏览该商品时出现用户体验差的问题，从而降低了商品的成交转化率。

发明内容

本申请提供一种信息推荐方法及装置，能够实现高质量的信息推荐，从而提升用户体验。

本发明实施例提供了一种信息推荐方法，包括：

根据用户对被推荐候选项的用户行为反馈信息对评估模型的参数项和非参项进行更新，根据用户属性信息和用户行为反馈信息生成表示用户喜好的用户特征信息；

当再次对所述用户进行信息推荐时，根据更新后的评估模型以及用户特征信息对待推荐候选数据集中的每个候选项进行评估，并按照评估结果推荐候选项，并返回所述更新的步骤。

在一种示例性实例中，所述方法之前还包括：

对所述待推荐候选数据集进行排序处理，以降低所述待推荐候选数据集的规模。

在一种示例性实例中，所述方法之前还包括：

从所述待推荐候选数据集中向所述用户推荐所述被推荐候选项。

在一种示例性实例中，所述根据用户行为反馈信息对评估模型的参数项进行更新，包括：

根据推荐所述被推荐候选项时的参数矩阵和所述被推荐侯选项的特征信息更新参数矩阵；

根据更新后的参数矩阵、所述被推荐侯选项的特征信息和所述用户行为反馈信息确定新的参数向量。

在一种示例性实例中，所述根据用户行为反馈信息对模型的非参项进行更新，包括：

根据所述被推荐候选项的推荐次数、更新后的推荐次数和所述被推荐候选项的非参项估计值，确定所述被推荐候选项的新的非参项估计值；

根据所述被推荐候选项的推荐次数、更新后的推荐次数、所述被推荐候选项的特征向量均值和所述被推荐候选项的特征信息，确定所述被推荐候选项的新的特征向量均值。

在一种示例性实例中，所述生成表示用户喜好的用户特征信息，包括：

针对所述待推荐候选数据集中的每一个候选项，分别根据所述用户属性信息与候选项的特征的交集生成该候选项的特征信息，以构建所述表示用户喜好的用户特征信息的特征集合。

在一种示例性实例中，所述根据更新后的评估模型以及用户特征信息对待推荐候选数据集中的每个候选项进行评估，并按照评估结果推荐候选项，包括：

将更新得到的所述参数项和所述非参项，以及生成的用户特征信息作为所述评估模型的输入，对所述待推荐候选数据集中的各候选项进行打分并排序，将得分最高的候选项作为所述再次对所述用户进行信息推荐时的候选项推荐给所述用户。

在一种示例性实例中，所述对所述待推荐候选数据集中的各候选项进行打分并排序，将得分最高的候选项作为所述再次对所述用户进行信息推荐时的候选项，包括：

针对所述待推荐候选数据集中的每一个候选项，根据模型参数向量信息、所述候选项的特征向量信息、对所述候选项的用户行为反馈信息及用户行为反馈均值计算每个候选项的预估值P_t(a)；

根据每个候选集的预估值P_t(a)，对各候选项进行排序，将预估值最大的候选项a_t作为所述再次对所述用户进行信息推荐时的候选项推荐给所述用户。

本申请还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项所述的信息推荐方法。

本申请又提供了一种用于实现命名实体识别的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上述任一项所述的信息推荐方法的步骤。

本申请再提供了一种信息推荐装置，包括：训练模块、生成模块，评估模块；其中，

训练模块，用于根据用户对被推荐候选项的用户行为反馈信息对评估模型的参数项和非参项进行更新；

生成模块，用于对待推荐候选数据集中的每一个候选项，根据用户属性信息和用户对被推荐候选项的用户行为反馈信息生成表示用户喜好的用户特征信息；

评估模块，用于当再次对所述用户进行信息推荐时，根据更新后的评估模型，以及用户特征信息对待推荐候选数据集中的每个候选项进行评估，并按照评估结果推荐候选项。

在一种示例性实例中，所述装置还包括：

收集模块，用于获取用户行为数据，对获得的用户行为数据进行处理得到所述用户属性信息和所述用户行为反馈信息。

在一种示例性实例中，所述装置还包括：

召回模块，用于从数据库中获取所述待推荐候选数据集。

在一种示例性实例中，所述召回模块还用于：

本申请包括：根据用户对被推荐候选项的用户行为反馈信息对评估模型的参数项和非参项进行更新，根据用户属性信息和用户行为反馈信息生成表示用户喜好的用户特征信息；当再次对所述用户进行信息推荐时，根据更新后的评估模型以及用户特征信息对待推荐候选数据集中的每个候选项进行评估，按照评估结果推荐候选项，并返回对评估模型的参数项和非参项进行更新的步骤。本申请通过半参环境引入非参项，使得评估模型实现了对未知数据分布的拟合，实现了高质量的信息推荐，从而提升了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请信息推荐方法的实施例的流程示意图；

图2为本申请信息推荐装置的实施例的组成结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在本申请一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

以封面图推荐场景为例(其它场景类似)，本申请发明人认为：在选择图片的过程中，决定图片好坏的因素包括两方面：一方面是图片本身的质量，是图片的固有属性，质量是一个固定值，在图片产生时就已确定，不会随时间和环境发生变化，可以称为非参数项；另一方面是用户的偏好，是会随时间和环境而发生变化的，可以称为参数项。因此，对于如商品或视频最优封面图推荐等问题，可以看作是一个半参环境下的图片优选问题，其中，半参指的是决定因素由参数部分和非参数部分组合而成。

对于反映用户喜好的这一变化因素，可以看作是参数项，本申请实施例中提出可采用特征向量对其进行表示，通过模型学习得到用户的偏好，如图公式(1)所示的评估模型

比如可以采用公式(1)和公式(2)来表示影响被推荐项信息的评价结果的因素x_t,a：

其中，

为参数项，用于表示用户喜好；b_a为非参项，用于表示被推荐项信息如素材本身的质量；

表示最优的模型参数，用来刻画用户的真实喜好；x_t,a表示待推荐候选数据集中的侯选项a在第t次被推荐时的特征信息；n表示总的实验轮数；L表示候选集大小。

图1为本申请信息推荐方法的实施例的流程示意图，如图1所示，包括：

步骤101：根据用户对被推荐候选项的用户行为反馈信息对评估模型的参数项和非参项进行更新，根据用户属性信息和用户行为反馈信息生成表示用户喜好的用户特征信息。

在一种示例性实例中，针对同一个用户，在对该用户第一次进行信息推荐时，本步骤之前还包括：

利用初始化的评估模型对待推荐候选数据集中的每个候选项进行评估，并按照评估结果推荐所述被推荐候选项；或者，

利用相关技术中的任意方法从待推荐候选数据集，向用户推荐所述被推荐候选项。

在一种示例性实例中，用户属性信息可以包括但不限于如：用户的年龄、用户的性别、用户所在省市等。

在一种示例性实例中，用户行为反馈信息可以包括但不限于如：点击被推荐候选项或未点击被推荐候选项，或者，同意使用被推荐候选项或不同意使用被推荐候选项等。

在一种示例性实例中，根据用户行为反馈信息对评估模型的参数项进行更新，可以包括：

根据推荐所述被推荐候选项时(下文简称为当前)的参数矩阵和当前被推荐侯选项e(我们用a表示任意一个候选项，用e表示被推荐的候选项)的特征信息更新参数矩阵A；

根据更新后的参数矩阵、当前被推荐侯选项e的特征信息和用户行为反馈信息确定新的参数向量μ。

在一种示例性实例中，可以采用如下公式(3)～公式(6)表示：

A_t+1←A_t+Δx_t,eΔ^Tx_t,e (5)

μ_t+1←μ_t+Δx_t,eΔr_t,e (6)

其中，公式(5)中的A_t+1和公式(6)中的μ_t+1分别表示更新后即最新的参数矩阵和更新后即最新的参数向量；公式(3)中的x_t,e表示当前时刻t的被推荐候选项e(被推荐候选项e是待推荐候选数据集中的某一个侯选项a)的特征向量，

表示被推荐候选项e的特征向量均值；公式(4)中的r_t,e表示用户对被推荐候选项e的用户行为反馈信息，以点击为例，如果用户点击了被推荐侯选项e，那么，r_t,e为1，如果用户没有点击被推荐侯选项e，那么，r_t,e为0；

表示用户对被推荐候选项e的用户行为反馈信息均值，

为被推荐候选项e的特征向量均值(可以分别由下述公式(8)～公式(9)计算得到)。

这样，通过公式(7)，利用更新后的参数矩阵和更新后的参数向量获取当前的模型参数θ_t+1。

在一种示例性实例中，根据用户行为反馈信息对模型的非参项进行更新，可以包括如：

根据当前被推荐候选项e的推荐次数、更新后的推荐次数和被推荐候选项e的非参项估计值，确定被推荐候选项e的新的非参项估计值；

根据当前被推荐候选项e的推荐次数、更新后的推荐次数、当前被推荐候选项e的特征向量均值和当前被推荐候选项e的特征信息，确定被推荐候选项e的新的特征向量均值。

在一种示例性实例中，可以采用下计算公式表示：

T_t+1(e)←T_t(e)+1；

其中，T_t(e)为当前时刻t的被推荐候选项e的被推荐次数，

为被推荐候选项e最新的用户行为反馈均值，

为被推荐候选项e最新的特征向量均值。

在一种示例性实例中，生成表示用户喜好的用户特征信息，可以包括：

针对待推荐候选数据集S中的每一个候选项a，生成当前时刻t的候选项a的特征信息x_t,a，构建特征集合

本申请特别强调的是，所需要的特征信息满足至少如下两个条件：

候选项a与用户的交叉特征，即将用户属性信息与候选项a的特征(包括但不限于候选项a的属性，如图片(视频)的内容信息等)进行交叉即取交集，得到交叉特征作为表示用户喜好的用户特征信息。这类特征主要用于表示用户与候选数据之间的交集信息；

用户自身的特征，主要用于表示用户的喜好，作为表示用户喜好的用户特征信息。

需要说明的是，在实际应用中可以不限于上述两类特征。

本申请强调的是特征信息需要至少满足上述两个条件。但是如何生成可以适用任何特征生成方法，具体实现方式并不用于限定本申请的保护范围，这里不再赘述。

本申请利用用户行为反馈信息构建了多种类型的用户特征信息，达到了刻画用户喜好的目的。而且，通过构建丰富的用户特征，使得后续对参数部分的预估结果达到了更优，从而使得整个系统返回的结果具有更高的质量。

在一种示例性实例中，本步骤之前还包括：从后台数据库中获取待推荐候选数据集S。

在一种示例性实例中，如果待推荐候选数据集S非常大，还可以包括：

对待推荐候选数据集S进行排序处理，以降低整个待推荐候选数据集S的规模，从而降低后续针对待推荐候选数据集S处理的耗时，达到提升信息推荐的服务性能。

在一种示例性实例中，排序处理可以采用如粗排等，粗排可以是一个非常轻量级的算分排序过程。这个算分排序过程可以利用如非常简单的价值预估模型对每一个候选数据进行预估。这样，可以将预估结果序最靠前的Top-K候选数据组成待推荐候选数据集S。

步骤102：当再次对所述用户进行信息推荐时，根据更新后的评估模型以及用户特征信息对待推荐候选数据集中的每个候选项进行评估，并按照评估结果推荐候选项，并返回步骤101。

在一种示例性实例中，本步骤中的根据更新后的评估模型以及用户特征信息对待推荐候选数据集中的每个候选项进行评估，并按照评估结果推荐候选项，可以包括：

将更新得到的参数项和非参项，以及生成的用户特征信息作为评估模型的输入，采用如半参赌博机对待推荐候选数据集中的各候选项进行打分即得到公式(2)中的θ_t ^*并排序，将得分最高的即最优的候选项作为所述再次对所述用户进行信息推荐时的候选项推荐给用户。

在一种示例性实例中，对待推荐候选数据集中的各候选项进行打分并排序，将得分最高的候选项作为再次对所述用户进行信息推荐时的候选项，包括：

针对待推荐候选数据集中的每一个候选项，根据模型参数向量信息、所述候选项的特征向量信息、对所述候选项的用户行为反馈信息及用户行为反馈均值计算每个候选项的预估值P_t(a)；

根据每个候选集的预估值P_t(a)，对各候选项进行排序，将预估值最大的候选项a_t作为所述再次对用户进行信息推荐时的候选项推荐给用户。

在一种示例性实例中，采用半参赌博机对待推荐候选数据集S中的各候选项进行打分并排序，可以包括：

首先，针对待推荐候选数据集S中的每一个候选项a，进行如下计算得到如公式(10)所示的每个候选项的预估值P_t(a)：

其中，P_t(a)为每个候选项的预估值；x_t,a表示候选项a在当前时刻t的特征向量，

表示候选项a的特征向量均值，T_t(a)表示当前时刻t候选项a被推荐次数，

表示参数矩阵的逆矩阵，θ_t表示模型参数向量，

表示用户对候选项a的用户行为反馈均值，γ_t(a)表示用户对候选项a的用户行为反馈信息。

T_t(a)、

θ_t均通过对评估模型的更新得到，具体如何获得请参见上文步骤101中对参数项和非参项的更新过程，这里不再赘述。

本申请在对候选数据的价值预估过程中，综合了参数与非参数的优点，即实现了快速收敛又保证了与最优解之间的理论损失距离较短，从而保证了产生的解即推荐结果具有很高的质量，提升了用户体验。

然后，根据每个候选集的预估值P_t(a)，对各候选项进行排序，将预估值最大的候选项a推荐给用户。

在一种示例性实例中，如果预估值最高的候选项包括两个或两个以上，可以随机选择其中一个候选项推荐给用户，也可以按照非参项进行再一次评估后选出评估最高的一个候选项推荐给用户，还可以按照参数项进行再一次评估后选出最高的一个候选项推荐给用户，当然也可以给参数项和非参项加上权值后再进行步骤102的评估后选出评估最高的一个候选项推荐给用户，等等。

本申请提供的采用半参赌博机对待推荐候选数据集S中的各候选项进行打分并排序的方式，实现了对用户兴趣信息的动态捕获，尤其适用于用户兴趣变化较快的场景或者缺乏用户行为数据的冷启动情况。

本申请通过半参环境引入非参项，使得评估模型实现了对未知数据分布的拟合。在对候选数据的价值预估过程中，本申请综合了参数模型与非参数模型的优点，即实现了快速收敛又保证了与最优解之间的理论损失距离较短，从而保证了产生的解即推荐结果具有很高的质量。

在一种示例性实例中，步骤101之前，本申请信息推荐方法还包括：

步骤100：获取用户行为数据，对获得的用户行为数据进行处理得到用户属性信息和用户行为反馈信息。

在一种示例性实例中，用户行为数据即用户行为反馈信息，包括但不限于如，点击被推荐候选项或未点击被推荐候选项，或者，同意使用被推荐候选项或不同意使用被推荐候选项等。

在一种示例性实例中，对获得的用户行为数据进行处理，可以包括：

对获得的用户行为数据进行相应的格式解析，以将获得的用户行为数据解析为后续处理如步骤101所支持的数据格式。

在一种示例性实例中，获取用户行为数据，可以包括：

通过用户的终端设备如手机等获取反馈的用户行为数据。

在一种示例性实例中，在获取用户行为数据之前，还可以包括：

判断用户是否有反馈，如果用户有行为反馈，则继续执行获取用户行为数据的步骤；如果用户没有行为反馈，则直接结束本流程。

本步骤通过实时收集用户行为数据，并且对用户行为数据进行了预处理，方便了后续进一步的处理。本申请中通过实时处理数据实现了及时捕获用户兴趣点的变化，从而更准确地获得了随时间和环境而发生变化的用户的偏好，进而更好地保障了信息推荐性能的提升。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项的信息推荐方法。

本申请再提供一种实现信息推荐的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上任一项所述的信息推荐方法的步骤。

图2为本申请信息推荐装置的实施例的组成结构示意图，如图2所示，至少包括：训练模块、生成模块，评估模块；其中，

生成模块，用于对待推荐候选数据集S中的每一个候选项，根据用户属性信息和用户对被推荐候选项的用户行为反馈信息生成表示用户喜好的用户特征信息；

在一种示例性实例中，本申请信息推荐装置还包括：

收集模块，用于获取用户行为数据，对获得的用户行为数据进行处理得到用户属性信息和用户行为反馈信息。

在一种示例性实例中，本申请信息推荐模块还包括：

召回模块，用于从数据库中获取待推荐候选数据集S。

在一种示例性实例中，召回模块还用于：对待推荐候选数据集S进行排序处理，以降低整个待推荐候选数据集S的规模。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种信息推荐方法，包括：

2.根据权利要求1所述的信息推荐方法，所述方法之前还包括：

3.根据权利要求1或2所述的信息推荐方法，所述方法之前还包括：

4.根据权利要求3所述的信息推荐方法，其中，所述根据用户行为反馈信息对评估模型的参数项进行更新，包括：

5.根据权利要求3所述的信息推荐方法，其中，所述根据用户行为反馈信息对模型的非参项进行更新，包括：

6.根据权利要求1或2所述的信息推荐方法，其中，所述生成表示用户喜好的用户特征信息，包括：

7.根据权利要求1或2所述的信息推荐方法，其中，所述根据更新后的评估模型以及用户特征信息对待推荐候选数据集中的每个候选项进行评估，并按照评估结果推荐候选项，包括：

8.根据权利要求7所述的信息推荐方法，其中，所述对所述待推荐候选数据集中的各候选项进行打分并排序，将得分最高的候选项作为所述再次对所述用户进行信息推荐时的候选项，包括：

9.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～权利要求8任一项所述的信息推荐方法。

10.一种用于实现命名实体识别的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行权利要求1～权利要求8任一项所述的信息推荐方法的步骤。

11.一种信息推荐装置，包括：训练模块、生成模块，评估模块；其中，

12.根据权利要求11所述的信息推荐装置，还包括：

13.根据权利要求11所述的信息推荐装置，还包括：

召回模块，用于从数据库中获取所述待推荐候选数据集。

14.根据权利要求13所述的信息推荐装置，所述召回模块还用于：