CN112184391A

CN112184391A - 一种推荐模型的训练方法、介质、电子设备和推荐模型

Info

Publication number: CN112184391A
Application number: CN202011109159.9A
Authority: CN
Inventors: 许倩倩; 郝前秀; 杨智勇; 黄庆明
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-01-05
Anticipated expiration: 2040-10-16
Also published as: CN112184391B

Abstract

本发明实施例提供了一种推荐模型的训练方法、介质、电子设备和推荐模型，训练方法包括A1、构建推荐模型、损失构建模块和多目标优化模块；A2、获取不同用户的商品交互记录，根据用户属性设置不同的用户组；A3、利用商品交互记录对推荐模型进行多次迭代训练至收敛，其中，每次训练包括：A31、用推荐模型从本次获取的商品交互记录中学习用户对商品的决策过程，获取用户对所有商品的偏好概率；A32、基于用户对所有商品的偏好概率，损失构建模块构建第一损失函数用于计算针对不同用户的推荐准确性损失以及构建连续可微的第二损失函数用于计算针对不同的用户组的推荐公平性损失；A33、多目标优化模块根据推荐准确性损失和推荐公平性损失确定参数更新方向。

Description

一种推荐模型的训练方法、介质、电子设备和推荐模型

技术领域

本发明涉及数据处理技术领域，具体来说涉及推荐技术领域，更具体地说，涉及一种推荐模型的训练方法、介质、电子设备和推荐模型。

背景技术

推荐系统是互联网发展的重要增长引擎，已被广泛应用于诸如电商推荐、电影推荐、新闻推荐、音乐推荐等众多场景。推荐系统为用户从海量的物品中推荐其可能感兴趣的物品，帮助用户在信息过载的情况下高效地做出决策。

随着推荐系统的广泛应用，推荐系统的公平性逐渐引起关注。由于种种原因，现实中的用户与物品的历史交互数据不可避免地存在不均衡和偏置现象。例如，新用户和中老年人用户因过去在推荐系统中不活跃，商品交互记录数据稀疏；小众爱好者偏好的小众商品在大部分用户的交互记录中都未曾出现过等等。这种情况下，仅依靠一个总体目标损失的数据驱动训练策略，很有可能导致模型牺牲少数群体的推荐准确率以保证总体推荐准确率，从而产生不公平的推荐结果。然而，提升少数群体的用户体验满意度，尤其新用户以及中老年用户的推荐体验，对平台的扩展、用户留存等十分重要。

构建公平的推荐系统有两大关键问题：一是构建合适的准确性损失函数以及公平性损失函数，二是如何形式化地权衡推荐准确性与公平性。

对于关键问题一：从不同的公平性损失定义角度出发，现有的考虑公平性的推荐算法主要可以分为三类方法：第一类方法针对打包推荐(Package-to-Grouprecommendation，即为同一组用户推荐相同的商品)的应用场景，比如一些现有方法中通过定义商品对用户的效用函数，训练公平的推荐策略，使所推荐商品对同一组内不同用户具有公平的效用；第二类方法旨在追求不同平台参与方(用户和商家)之间效用的公平性；第三类方法旨在实现不同的商品之间相对公平的排序。尽管现在有许多方法定义了不同的公平性度量，但目前为止，尚没有工作从不同用户组的推荐准确率方面考虑公平性。其主要限制因素是：推荐算法一般将用户物品预测得分的前K个物品预测为正样本，此排序操作不可导，故基于排序的准确性度量(如精准率、召回率)均不可导，从而无法高效地训练和优化推荐模型。

对于关键问题二，现有方法实现公平推荐主要通过以下两个途径：第一个途径是将推荐问题形式化为一个受限优化问题，求解在一定公平限制条件下，最大化推荐的准确率。其中，一些现有技术采用后处理方法，以单一准确率为目标训练好模型后，提出一些后续处理技术，增加推荐策略的公平性；还有一些现有技术采用传统的受限优化算法求解该问题，或者利用强化学习求解该受限优化问题。第二个途径是将推荐准确性损失与公平性损失进行加权求得到一个总的代理损失，通过最小化代理损失求解模型；但这种方法需要对权重进行网格搜索，耗时耗力。更重要的是，加权求和的形式仅适用于不同目标损失具有一致性的情况。然而，由于不同用户组的历史记录存在不均衡和偏置，公平性目标与总体准确性目标之间存在竞争关系。因此，优化加权求和的代理损失将产生何种性质的解并不为人知。

因此，现有的推荐系统难以在推荐的准确性与公平性之间获得较好的权衡，导致一些少数群体的用户体验不佳。因此，有必要对现有技术进行改进。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，尤其是解决在不同用户组的商品交互记录具有偏差时，推荐系统中总体推荐准确性和不同用户组的推荐公平性之间的权衡问题，提供一种推荐模型的训练方法、介质、电子设备和推荐模型。

本发明的目的是通过以下技术方案实现的：

根据本发明的第一方面，提供一种推荐模型的训练方法，包括：A1、构建推荐模型、损失构建模块和多目标优化模块；A2、获取不同用户的商品交互记录，根据用户属性设置不同的用户组；A3、利用商品交互记录对推荐模型进行多次迭代训练至收敛，其中，每次训练包括：A31、用推荐模型从本次获取的商品交互记录中学习用户对商品的决策过程，获取用户对所有商品的偏好概率；A32、基于用户对所有商品的偏好概率，损失构建模块构建第一损失函数用于计算针对不同用户的推荐准确性损失以及构建连续可微的第二损失函数用于计算针对不同的用户组的推荐公平性损失；A33、多目标优化模块根据推荐准确性损失和推荐公平性损失确定推荐模型的参数更新方向并据此更新推荐模型的参数。

在本发明的一些实施例中，所述推荐模型包括信息获取模块、变分自编码器、重参数化模块和解码器，其中，所述步骤A31包括：A311、用信息获取模块获取预先设置的用户的潜在偏好向量的先验分布、商品的簇隶属度矩阵的先验分布；A312、用变分自编码器从本次获取的商品交互记录中学习用户对商品的决策过程，得到对先验分布通过变分推断修正后的用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布以及商品的潜在向量；A313、用重参数化模块利用重参数化技巧对用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布分别进行采样，得到用户的潜在偏好向量和商品的簇隶属度矩阵；A314、用解码器根据用户的潜在偏好向量和商品的簇隶属度矩阵以及商品的潜在向量获取用户对所有商品的偏好概率。

在本发明的一些实施例中，步骤A33包括：A331、根据推荐准确性损失计算推荐模型参数更新的第一梯度，根据推荐公平性损失计算推荐模型参数更新的第二梯度，基于第一梯度和第二梯度动态确定第一梯度的第一权重和第二梯度的第二权重；A332、获取第一权重乘以第一梯度加上第二权重乘以第二梯度的加权和作为推荐模型的参数更新的方向。

根据权利要求1所述的推荐模型的训练方法，其特征在于，确定推荐模型是否训练至收敛的方式为：如果加权和的范数小于给定误差阈值或者迭代次数超过预定迭代次数上限，则推荐模型已训练至收敛。

在本发明的一些实施例中，第一损失函数为：

其中，u表示用户u，N表示用户数量，i表示商品i，x_ui＝1表示用户u与商品i有正反馈，K表示簇的数量，D表示商品的潜在向量的维度，σ_uj表示正态分布的方差向量σ_u的第j项，μ_uj表示正态分布的均值向量μ_u的第j项。

在本发明的一些实施例中，第二损失函数为：l_fair＝logVar(l¹,l²,...,l^|Α|)；其中，l^a∈(l¹,l²,...,l^|Α|)，

l^a表示推荐模型在第a个用户组G_a上的平均预测性能，x_ui＝1表示用户u与商品i有正反馈，p_ui表示用户u选择商品i的概率。

根据本发明的第二方面，提供一种采用第一方面所述的方法训练得到的推荐模型，包括：信息获取模块，用于获取用户的商品交互记录、预先设置的用户的潜在偏好向量的先验分布、商品的簇隶属度矩阵的先验分布；变分自编码器，用于从获取的商品交互记录中学习用户对商品的决策过程，得到对先验分布通过变分推断修正后的用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布以及商品的潜在向量；重参数化模块，用于利用重参数化技巧对用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布分别进行采样，得到用户的潜在偏好向量和商品的簇隶属度矩阵；解码器，用于根据用户的潜在偏好向量和商品的簇隶属度矩阵以及商品的潜在向量获取用户对所有商品的偏好概率；结果输出模块，用于将用户对所有商品的偏好概率中概率值较高的一个或者多个商品推荐给用户。

根据本发明的第三方面，提供一种在第二方面所述的推荐模型中使用的推荐方法，包括：B1、获取用户的商品交互记录、预先设置的用户的潜在偏好向量的先验分布、商品的簇隶属度矩阵的先验分布；B2、从获取的商品交互记录中学习用户对商品的决策过程，得到对先验分布通过变分推断修正后的用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布以及商品的潜在向量；B3、利用重参数化技巧对用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布分别进行采样，得到用户的潜在偏好向量和商品的簇隶属度矩阵；B4、根据用户的潜在偏好向量和商品的簇隶属度矩阵以及商品的潜在向量获取用户对所有商品的偏好概率；B5、将用户对所有商品的偏好概率中概率值较高的一个或者多个商品推荐给用户。

根据本发明的第四方面，提供一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储一个或多个可执行指令；所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现第一方面所述方法的步骤。

与现有技术相比，本发明的优点在于：

本发明训练得到的推荐模型可以在不同用户的推荐准确性损失和不同的用户组的推荐公平性损失获得良好地权衡，从而避免推荐模型仅考虑多数群体的推荐准确性而未考虑到多数群体和少数群体直接的推荐公平性，提升用户组之间的推荐公平性，从而提高整体的用户体验，特别是代表群体的用户体验。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的训练推荐模型的过程构建的模块示意图；

图2为根据本发明实施例的推荐模型的模块示意图；

图3为根据本发明实施例的推荐模型的原理示意图；

图4为根据本发明实施例的推荐模型的训练方法的示意图；

图5为根据本发明实施例的实验结果的示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如在背景技术部分提到的，当前的推荐系统难以在推荐的准确性与公平性之间获得较好的权衡，导致一些少数群体的用户体验不佳。本发明通过建模用户对商品的决策过程，构建了一个在训练时同时考虑不同用户的推荐准确性损失和不同的用户组的推荐公平性损失进行参数更新的推荐模型，最终得到的推荐模型可以在不同用户的推荐准确性损失和不同的用户组的推荐公平性损失获得良好地权衡，从而避免推荐模型仅考虑多数群体的推荐准确性而未考虑到多数群体和少数群体直接的推荐公平性，提升用户组之间的推荐公平性，从而提高整体的用户体验，特别是代表群体的用户体验。

在对本发明的实施例进行具体介绍之前，先对其中使用到的部分术语作如下解释：

KL散度(Kullback-Leibler Divergence)，是衡量两个概率分布差异的非对称性度量。在机器学习领域的物理意义是用来度量两个分布的相似程度或者相近程度。

先验分布(Prior Distribution)，又称验前分布或者事前分布，是概率分布的一种；与“后验分布”相对。先验分布与试验结果无关，或与随机抽样无关，反映在进行统计试验之前根据其他有关参数的知识而得到的分布。换言之，先验分布是事先根据已有的知识或者经验的推断

后验分布，是指通过当前训练数据修正的随机变量的分布。后验分布比先验分布更符合当前数据。后验分布往往是基于先验分布和极大似然估计计算出来的。

本发明提供一种推荐模型的训练方法，包括步骤A1、A2、A3。为了更好地理解本发明，下面结合具体的实施例针对每一个步骤分别进行详细说明。

在步骤A1中，参见图1，构建推荐模型100、损失构建模块200和多目标优化模块300。损失构建模块200和多目标优化模块300用于辅助训练推荐模型。

参见图2，根据本发明的一个实施例，推荐模型100包括变分自编码器102和解码器104。变分自编码器102可以采用多层感知机(Multilayer Perceptron，简称MLP)。优选的，变分自编码器102采用的多层感知机的网络层数为3层，其中，1层与2层的连接权重的大小是总商品数乘以商品的潜在向量的维度，即M×D，2层与3层的连接权重的大小是商品的潜在向量的维度乘以商品的潜在向量的维度，即D×D。变分自编码器102的参数初始化采用的是泽维尔初始化法(Xavier Initialize)。损失构建模块用于构建损失函数，在本发明中，损失构建模块200分别构建准确性目标对应的第一损失函数以及公平性目标对应的第二损失函数。多目标优化模块300，用于同时优化推荐准确性损失与推荐公平性损失，求解出一个合适的帕累托最优解，在推荐准确性损失和推荐公平性损失之间获得良好的权衡。

在步骤A2中，获取不同用户的商品交互记录，根据用户属性设置不同的用户组。

根据本发明的一个实施例，步骤A2包括：A21、获取不同用户与不同商品的商品交互记录，其中，用第一交互值表示用户与一商品有正反馈，用第二交互值表示用户与一商品有负反馈或者没有反馈；A22、根据一个或者多个用户属性设置不同的用户组。例如，假设有N个用户，M个商品，x_u＝{x_u1,x_u2,...,x_uM}表示用户u的商品交互记录，其中，x_ui＝1(对应于第一交互值)表示用户u与商品i有正反馈，x_ui＝0(对应于第二交互值)表示用户u与商品i没有正反馈(负反馈或者没有反馈)。正反馈或者负反馈的具体情形可根据用户需要设置。正反馈例如是购买、好评、点击等操作，负反馈例如是差评，没有反馈例如是用户和该商品没有交互。用户属性例如是年龄、性别、学历、职业、爱好中的一个或者多个的组合。若是只选一个，则用户组为该单个属性的取值数量。即：假设每个用户u具有一个用户属性s_u∈Α，其中，Α表示用户属性取值集合(可以为二值属性也可以为多值属性)。根据用户属性可以将用户分为|Α|个组：{G₁,G₂,...,G_Α}，其中，用户组G_a＝{u|s_u＝a}。若是选择多个用户属性，则用户组的个数为各用户属性的取值数量的乘积。比如，若仅选择性别作为用于分组的用户属性，则用户组只包括男性用户组和女性用户组。若选择性别和职业(假设预设500个细分的职业)，则会形成2×500＝1000个用户组。

在步骤A3中，利用商品交互记录对推荐模型进行多次迭代训练至收敛。参见图2和图3，推荐模型包括信息获取模块101、变分自编码器102、重参数化模块103、解码器104、结果输出模块105。步骤A3中每次训练包括：A31、A32、A33、A34。

步骤A31、用推荐模型100从本次获取的商品交互记录中学习用户对商品的决策过程，获取用户对所有商品的偏好概率。

根据本发明的一个实施例，步骤A31包括步骤A311、A312、A313、A314。

步骤A311、用信息获取模块101获取预先设置的用户的潜在偏好向量的先验分布、商品的簇隶属度矩阵的先验分布。

根据本发明的一个实施例，假设每个用户有K个兴趣簇，对每个兴趣簇的商品具有不同的潜在偏好向量，定义用户u对兴趣簇k内商品的潜在偏好向量为

其中，D是用户的第k组潜在偏好向量的维度，

表示一个D维的实数向量，则用户u的潜在向量组成为：

假设商品i的潜在表示向量为

用

表示商品的簇隶属度矩阵(此处的簇对应于前面提及的兴趣簇)，其中c_i＝[c_i1,c_i2,...,c_iK]表示商品i的簇隶属度向量，若商品i属于簇k,则c_ik＝1,且c_ij＝0,

表示一个M×K维的实数矩阵。假设每个簇k具有原型向量

是该簇的代表性的中心向量。发明人假设用户的潜在偏好向量z_u是一个随机变量，服从分布p(z_u)。另外由于商品的簇隶属度矩阵C常常无法直接获取，在训练过程中也被建模为随机变量C～p(C)。优选的，预先设置的用户的潜在偏好向量的先验分布是一个正态分布，商品的簇隶属度矩阵的先验分布是一个范畴分布。经过后续的实验表明，此种设置方式能够使得训练得到的推荐模型100获得良好的性能。

步骤A312、用变分自编码器102从本次获取的商品交互记录中学习用户对商品的决策过程，得到对先验分布通过变分推断修正后的用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布以及商品的潜在向量。

根据本发明的一个实施例，由于用户的潜在偏好向量的分布、商品的簇隶属度矩阵的分布未知，训练过程根据已给的用户与不同商品交互记录x_u,(u＝1,2...,N)进行推理学习。商品交互记录内包含商品潜在空间。为了推断用户的潜在偏好向量的分布和商品的簇隶属度矩阵的分布，假设每个用户与商品的簇隶属度矩阵的分布之间相互独立，即，p(z_u,C)＝p(z_u)p(C)，其中，p(z_u,C)表示用户u的潜在偏好向量z_u和商品的簇隶属矩阵C的真实联合分布，p(z_u)表示用户的潜在偏好向量的真实分布，p(C)表示簇隶属度矩阵的分布。直观来说，可以利用贝叶斯定理求解用户u的潜在偏好向量z_u和商品的簇隶属矩阵C的真实的联合后验分布

p₀(z_u,C)表示用户u的潜在偏好向量z_u和商品的簇隶属矩阵C的联合先验分布，p(x_u|z_u,C)表示给定C和z_u条件下计算出来的商品交互记录x_u的概率分布，但是由于p(x_u)未知，后验分布不可以直接求解。因此，发明人利用变分推断技术的变分自编码器102，用一个已知分布族的变分分布

近似真实后验分布p(z_u,C|x_u)，于是问题转化为：通过最小化变分分布与真实后验分布之间的距离求解近似变分分布

将求解出的变分分布作为最终的后验分布。两个分布之间的距离采用KL距离(Kullback-Leibler Divergence)进行衡量，KL距离的定义为：

其中，KL[q(z)||p(z)]表示任意两个概率分布q(z)、p(z)之间的KL距离，z表示任意一个随机变量。本发明利用一个概率模型建模用户生成决策的过程，假设用户对商品的偏好向量符合一个概率分布，并利用变分自编码器102求解该后验概率分布，相比较传统协同过滤算法的单一偏好向量，学得的偏好向量空间具有连续性，从而可解释性以及可控性较好。

对于KL距离，有以下推导：

其中，

表示给定x_u的情况下z_u与C的联合变分分布，p(z_u,C|x_u)表示用户u的潜在偏好向量z_u和商品的簇隶属矩阵C的真实的联合后验分布，p₀(z_u)表示用户u的潜在偏好向量z_u的先验分布，p(x_u)表示用户u的商品交互记录x_u的概率，E表示求期望。

对于用户u的商品交互记录x_u的概率p(x_u)，可以表示为：

其中，x_u表示用户u的商品交互记录，z_u表示用户的潜在偏好向量，C表示簇隶属度矩阵，p(x_u|z_u,C)表示给定C和z_u条件下计算出来的商品交互记录x_u的概率分布，p(z_u,C)表示用户u的潜在偏好向量z_u和商品的簇隶属矩阵C的真实联合分布，

表示在分布p(z_u,C)下对方括号内的值求期望值。

对于商品的簇隶属度矩阵的分布p(C)，假设

商品i的簇隶属度向量c_i符合一个范畴分布，商品的簇隶属度矩阵的分布的参数化形式表示为：p(c_i)＝Categorical(π_i1,π_i2,...,π_iK)；其中，商品i隶属于第k个簇的隶属度π_ik＝softmax_k{exp(-Dis(h_i,m_k)/τ}，由商品i与簇k的原型向量的距离经过softmax操作得到，其中，h_i表示商品i的潜在表示向量，m_k表示簇k的原型向量，Dis(h_i,m_k)表示对商品i的潜在向量h_i和簇k的原型向量m_k求距离，例如，求余弦距离，τ表示尺度参数，是一个预设的超参数。例如，取τ＝0.1。训练时，使用Gumbel-Softmax技术，用连续向量近似独热(One-hot)向量c_i从而避免因直接采样c_i导致的无法对推荐模型100进行端到端训练的问题。测试时，取c_i对各个簇的隶属度的期望值，即c_i＝[π_i1,π_i2,...,π_iK]^T进行计算。

对于近似联合变分分布

的参数化形式：

假设

为正态分布，假设p₀(z_u)也为正态分布，且p₀(z_u)～Ν(0,I)，

则KL项可简化为：

其中，σ_uj表示正态分布的标准方差向量σ_u的第j项，μ_uj表示正态分布的均值向量μ_u的第j项，D表示商品的潜在向量的维度。正态分布的均值向量μ_u与方差向量σ_u是K个簇对应的均值与方差向量的拼接：

其中，

f_nn是一个浅层神经网络，采用一个3层的多层感知机，其中，多层感知机的1-2层的连接权重的大小是M×D，2-3层的连接权重的大小是D×D，M表示总商品数，D表示商品的潜在向量的维度，参数初始化采用的是Xavier初始化方法，

表示逐元素乘积运算，C_:,k是簇隶属度矩阵的第k列，σ₀是初始方差(实验中选取0.075),

和

表示对应第k组偏好向量的神经网络中间输出。对于第k组偏好向量，k,利用一个共享的浅层神经网络作为变分自编码器102，输入用户的商品交互记录以及商品的对第k个簇的簇隶属度向量，即C_:,k，变分自编码器102输出用户潜在偏好向量分布的参数

和

A313、用重参数化模块103利用重参数化技巧对用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布分别进行采样，得到用户的潜在偏好向量和商品的簇隶属度矩阵。

由于采样操作的不连续性质，导致推荐模型100无法利用基于梯度的方法进行端到端训练。为了解决这一问题，在推荐模型100的训练过程中，利用重参数化技巧对两个后验分布分别进行采样，得到用户的潜在偏好向量、商品的簇隶属度矩阵。之后根据得到的用户的潜在偏好向量、商品的簇隶属度矩阵以及商品的潜在向量获取用户对所有商品的偏好概率，从而保证推荐模型100可进行端到端训练。推荐模型100训练完毕后，在测试应用过程中，直接使用两个后验分布的均值获取用户对所有商品的偏好概率。

A314、用解码器104根据用户的潜在偏好向量和商品的簇隶属度矩阵以及商品的潜在向量获取用户对所有商品的偏好概率。步骤A313-A314的过程相当于图4左侧的前两个框图示出的过程，即图4中的标记41和标记42指示的位置。

根据本发明的一个实施例，假设用户潜在偏好向量的分布p(z_u)与商品的簇隶属度矩阵C，得到用户的潜在偏好向量z_u后，根据如下规则建模用户决策：

假设x_u|z_u,C服从一个多项式分布，即p(x_u|z_u,C)＝Mult(p_u)，其中，p_u＝[p_u1,p_u2,...,p_uM]满足

且p_ui表示用户u选择商品i的概率，对于多项式分布Mult(p_u)，用户u与商品1,商品2…商品M的交互次数分别为m₁,m₂,...,m_M次(m₁,m₂,...,m_M之和为M_u)的概率为：

其中，

表示用户u对商品M的偏好概率p_uM的m_M次幂(即m_M个p_uM相乘)，其中m_M表示与第M个商品的交互次数。

由此，可以按照以下方式计算每个用户u与每个商品i的偏好概率：

其中，softmax_i{·}表示将大括号内的变量对所有商品i进行softmax归一化，exp(·)表示自然常数e指数函数。对于一个标量x而言，exp(x)＝e^x,对于一个向量或矩阵x而言，exp(x)保持向量或矩阵的排列位置不变，并对原向量或矩阵的逐个元素求指数函数值。

A32、基于用户对所有商品的偏好概率，损失构建模块200构建第一损失函数用于计算针对不同用户的推荐准确性损失以及构建连续可微的第二损失函数用于计算针对不同的用户组的推荐公平性损失。

对于第一损失函数：

基于上述对KL距离推导，由于logp(x_u)是常数，要想最小化

等价于最大化

该式被称为证据下界(Evidence Lower Bound,简称ELBO)。于是，在训练阶段，为了学习用户潜在偏好向量的分布以及商品的簇隶属度矩阵分布，构建如下目标损失函数：

即构造目标损失函数为负的证据下界，最小化该损失即可求得最逼近真实后验分布的变分分布。该式花括号内的第一项logp_φ(x_u|C,z_u)是给定用户偏好向量与商品的簇隶属度矩阵下，用户选择已知感兴趣样本的似然概率，由于用户偏好向量与商品的簇隶属度矩阵被认为是随机变量，故取其期望。公式的第一项可视为模型对用户已知商品交互记录的重建损失项。第二项为给定x_u,C条件下用户的潜在偏好向量z_u的变分分布

与用户u的潜在偏好向量z_u的先验分布p₀(z_u)的KL距离，该项可以看作正则化项，使得用户的潜在偏好向量的分布不会偏离先验分布太远。

上式中求期望的操作可通过采样替代，若只采样一次，上述损失可重写为：

由于输入的用户的商品交互记录x_ui＝1或x_ui＝0，故有：

将上式和

带入目标损失函数公式

里，得到准确性目标的对应的第一损失函数具体形式为：

对于第二损失函数：

观察证据下界的组成，p_φ(x_u|C,z_u)为用户已知决策x_u的似然概率，其本身包含预测准确性的概念。如前所述，p_ui表示用户u选择商品i的概率，满足

直观上说，推荐模型100预测得越准确，

越接近于1，故用下式表示推荐模型100在用户组G_a上的总体表现：

该公式表示推荐模型100在第a个用户组G_a上的平均预测性能。则公平性目标对应的损失函数定义为不同组的平均预测性能的方差，并取对数使得公平性损失值与推荐损失值在同一个量级上，即，第二损失函数如下：

l_fair＝logVar(l¹,l²,...,l^|Α|)；

其中，l^a∈(l¹,l²,...,l^|Α|)，

l^a表示推荐模型100在第a个用户组G_a上的平均预测性能，x_ui＝1表示用户u与商品i有正反馈，p_ui表示用户u选择商品i的概率。第二损失函数用于尽可能减少不同用户组之间推荐准确性的方差。现有技术很少从用户角度考虑不同组用户的推荐准确性的不同(即不同的用户组的推荐公平性)，该方向的缺失主要是由于推荐系统的准确性计算涉及排序操作，该操作不可导，因而无法进行高效地进行端到端的优化。本发明中，推荐系统和推荐模型可以彼此替换。因此，本发明设计一个概率生成模型框架，建模用户决策的生成过程，基于似然函数设计了推荐公平性对应的第二损失函数。本发明构建的第二损失函数是连续可微的，进而可以利用梯度更新的方法进行优化。

A33、多目标优化模块300根据推荐准确性损失和推荐公平性损失确定推荐模型100的参数更新方向并据此更新推荐模型100的参数。

根据本发明的一个实施例，步骤A33包括：A331、A332、A333、A334。

本发明首次从推荐系统在不同用户组上的推荐准确性角度考虑推荐系统的推荐公平性，开创性地将公平性与准确性的权衡问题形式化为一个多目标优化问题。并且，本发明设计利用基于梯度更新的多目标优化算法进行求解，得到的解具有良好的帕累托最优性。基于模型给出的推荐准确性目标和模型公平性目标对应的损失，本发明从求解多目标优化问题角度同时求解两个目标损失，同时最小化推荐准确性目标对应的推荐准确性损失和推荐公平性目标对应的推荐公平性损失，即多目标优化模块300的总体目标为：

为求解上述多目标问题并得到良好的帕累托最优解，发明人设计了一个基于梯度更新的多目标优化算法框架。假设有T个目标损失l₁(Θ),l₂(Θ),...,l_T(Θ)，则每一步的梯度更新方向d可由各个目标损失的梯度的加权和组成。为了实现公平性与准确性之间的良好权衡，本发明将推荐准确性目标对应的第一损失函数与推荐公平性目标对应的第二损失函数的联合求解问题形式化为一个多目标优化问题，并提出一个基于梯度更新的求解算法框架，该算法框架可以产生一个良好的帕累托最优解。帕累托最优解指的是不存在任何另一个解，在所有目标上均比帕累托最优解表现得好，即，其他的解要么在所有目标上均比帕累托最优解性能差，要么在某些目标上比帕累托最优解好而另外一些目标上比帕累托最优解性能差。

A331、根据推荐准确性损失计算推荐模型100参数更新的第一梯度，根据推荐公平性损失计算推荐模型100参数更新的第二梯度，基于第一梯度和第二梯度动态确定第一梯度的第一权重和第二梯度的第二权重。

根据本发明的一个实施例，假设梯度更新方向d表示为：

其中，

表示函数l_t(Θ)关于参数Θ的梯度，权重ω₁,ω₂,...,ω_T由以下优化问题求得：

上式表示动态确定ω₁,...,ω_T的多个权重，模型的参数每一步更新方向要么使得所有损失函数均得到下降，要么

模型达到帕累托最优解。本发明所提出的多目标优化算法是通用性的，可简单扩展到任意数量以及任意形式的可微分损失函数，同时所提出的基于变分自编码器102的概率推荐模型100也具有良好的扩展性，只需改变变分分布(编码器)和似然函数(解码器104)的不同参数化形式即可得到不同的模型。在本发明中，对于T＝2的情况，上式优化问题具有解析解：

其中，ω₁表示第一权重，ω₂表示第二权重，

表示函数l_t(Θ)关于参数Θ的梯度，(·)'表示括号内的向量或矩阵的转置，

表示min(max(·,0),1)。

A332、获取第一权重乘以第一梯度加上第二权重乘以第二梯度的加权和作为推荐模型100的参数更新的方向。

经过转换，得到本发明中模型参数每一步的更新方向：

其中，

表示第一损失函数关于推荐模型的参数的梯度，

表示第二损失函数关于推荐模型的参数的梯度。

对于本发明中的推荐公平性—准确性权衡问题，T＝2，故可直接采用上述计算第一权重和第二权重的方式进行模型更新。该梯度更新算法每一步根据不同目标损失的梯度，动态确定不同目标的权重ω_t，进而加权得到参数更新方向。该参数更新方向可被证明为使所有目标损失均有下降的更新方向。

优选的，确定推荐模型100是否训练至收敛的方式为：如果加权和的范数小于给定误差阈值或者迭代次数超过预定迭代次数上限，则推荐模型100已训练至收敛。

根据本发明的另一方面，还提供一种推荐方法，包括：B1、获取用户的商品交互记录、预先设置的用户的潜在偏好向量的先验分布、商品的簇隶属度矩阵的先验分布；B2、从获取的商品交互记录中学习用户对商品的决策过程，得到对先验分布通过变分推断修正后的用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布以及商品的潜在向量，B3、利用重参数化技巧对用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布分别进行采样，得到用户的潜在偏好向量和商品的簇隶属度矩阵，B4、根据用户的潜在偏好向量和商品的簇隶属度矩阵以及商品的潜在向量获取用户对所有商品的偏好概率；B5、将用户对所有商品的偏好概率中概率值较高的一个或者多个商品推荐给用户。

根据本发明的另一方面，还提供一种推荐方法，包括：B1、获取用户的商品交互记录、预先设置的用户的潜在偏好向量的先验分布、商品的簇隶属度矩阵的先验分布；B2、用前述实施例的训练方法得到的推荐模型执行以下步骤：从获取的商品交互记录中学习用户对商品的决策过程，得到对先验分布通过变分推断修正后的用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布以及商品的潜在向量；利用重参数化技巧对用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布分别进行采样，得到用户的潜在偏好向量和商品的簇隶属度矩阵；根据用户的潜在偏好向量和商品的簇隶属度矩阵以及商品的潜在向量获取用户对所有商品的偏好概率；B3、将用户对所有商品的偏好概率中概率值较高的一个或者多个商品推荐给用户。应当理解的是，为避免赘述，前述训练方法中的一些对应步骤可作为推荐方法的步骤的实施方式。

根据本发明的一个实施例，获取偏好概率的方式为：根据用户的潜在偏好向量和商品的簇隶属度矩阵以及商品的潜在向量获取用户对所有商品的偏好概率：

其中，

表示商品的潜在向量的期望，

Dis(·)表示余弦距离，

然后依据该偏好概率p_ui的值，按照由大到小的顺序选择的前K个商品推荐给用户u。

根据本发明的再一个方面，还提供一种采用前述实施例的训练方法得到的推荐模型，包括：信息获取模块101，用于获取用户的商品交互记录、预先设置的用户的潜在偏好向量的先验分布、商品的簇隶属度矩阵的先验分布；变分自编码器102，用于从获取的商品交互记录中学习用户对商品的决策过程，得到对先验分布通过变分推断修正后的用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布以及商品的潜在向量；重参数化模块103，用于利用重参数化技巧对用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布分别进行采样，得到用户的潜在偏好向量和商品的簇隶属度矩阵；解码器104，用于根据用户的潜在偏好向量和商品的簇隶属度矩阵以及商品的潜在向量获取用户对所有商品的偏好概率；结果输出模块105，用于将用户对所有商品的偏好概率中概率值较高的一个或者多个商品推荐给用户。

根据本发明的一个示例，本发明中的推荐系统流程可总结为如下步骤：T1、输入一批用户商品交互记录数据x_u＝{x_u1,x_u2,...,x_uM}(u为该批次内任意一个用户)与用户敏感属性s_u∈Α，据此对该批用户进行分组；T2、将该批次用户与商品的商品交互记录数据输入推荐模型，得到该批次用户对所有商品的偏好概率向量p_u＝[p_u1,p_u2,...,p_uM](对应于图4中的标记42指示的位置)；T3、将预测的所有该批次用户对商品的偏好概率分布输入损失构建模块200，构建准确性损失l_acc和公平性损失l_fair(对应于图4中的标记43、44指示的位置)；T4、将l_acc与l_fair输入多目标优化模块300，每一步迭代时，首先计算两个目标损失l_acc、l_fair关于模型参数的梯度

(对应于图4中的标记45、46指示的位置)然后基于该梯度求出一组权重ω₁,ω₂，之后利用该组权重对不同梯度进行加权，确定参数的更新方向

该梯度更新算法每一步根据不同目标损失的梯度，动态确定不同目标的权重ω_t(对应于图4中的标记47指示的位置)，进而加权得到参数更新方向(对应于图4中的标记48指示的位置)。该参数更新方向可被证明为使所有目标损失均有下降的更新方向。当d的范数||d||₂小于给定误差阈值ε，或迭代次数到达最大预设迭代次数T_max时，模型停止训练。

根据本发明的一个示例，本发明在常用推荐数据集MovieLens-100k(简写为ML-100k)和MovieLens-1m(简写为ML-1m)上均获得较好结果，结果见图5。对于不同类型(簇)的电影，例如对于纪实、历史类影片，用户的潜在偏好因子可能是真实、经典老片，对于科幻、喜剧等类型影片，用户的潜在偏好可能是戏剧化(没有那么真实)、最新影片，因此只建模一组用户潜在偏好或许无法满足用户对属于不同类型(簇)的商品的偏好预测。在ML-100k和ML-1m数据集上，发明人采用性别与年龄两个属性，对用户进行分组，具体为：男性且小于18岁、女性且小于18岁、男性且年龄18～50岁、女性且年龄18～50岁、男性且年龄大于50岁，女性且年龄大于50岁，这6组用户。推荐模型100的准确性评价指标为推荐领域常见的基于排序的推荐指标：Recall@k和HitRate@k(k取20)，即图5a和图5c中的Recall@20和图5b和图5d中的HitRate@20。同时采用上述两指标在6个用户组之间表现的标准均方差：Recall@k-std和HitRate@k-std(k取20)，即图5a和图5c中的Recall@20-std和图5b和图5cHitRate@20-std，用于衡量不同用户组之间的推荐公平性。此处引用三篇现有技术对应的文献：[1]X.He,L.Liao,H.Zhang,L.Nie,X.Hu,and T.Chua.Neural collaborative filtering.InInternational World Wide Web Conferences,pages 173–182,2017.；[2]D.Liang,R.G.Krishnan,M.D.Hoffman,and T.Jebara.Variational autoencoders forcollaborative filtering.In International World Wide Web Conferences,pages689–698,2018.；[3]J.Ma,C.Zhou,P.Cui,H.Yang,and W.Zhu.Learning disentangledrepresentations for recommendation.In Advances in Neural InformationProcessing Systems,pages 5712–5723,2019.。该示例中采用三篇文献中给出不同的推荐模型100：GMF模型^[1]、NeuMF模型^[1]、Mult-DAE模型^[2]、Mult-VAE模型^[2]、DisRpre^[3]与发明人所提推荐模型100(Ours)进行比较，得到如图5a、5b、5c、5d的性能比较。每个图中，由于指标Recall@20和HitRate@20均为越大越好，而指标Recall@20-std和HitRate@20-std均为越小越好，故图5a～5d中，模型的代表点越接近于图5a～5d的右下角，则表明该模型的性能越好。从图5a～5d中可见，本发明所提模型性能排在前位，相比之下在推荐准确性与公平性之间获得较好的权衡。

根据本发明的一个方面，还提供一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储一个或多个可执行指令；所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现前述实施例的方法的步骤。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种推荐模型的训练方法，其特征在于，包括：

A1、构建推荐模型、损失构建模块和多目标优化模块；

A2、获取不同用户的商品交互记录，根据用户属性设置不同的用户组；

A3、利用商品交互记录对推荐模型进行多次迭代训练至收敛，其中，每次训练包括：

A31、用推荐模型从本次获取的商品交互记录中学习用户对商品的决策过程，获取用户对所有商品的偏好概率；

A32、基于用户对所有商品的偏好概率，损失构建模块构建第一损失函数用于计算针对不同用户的推荐准确性损失以及构建连续可微的第二损失函数用于计算针对不同的用户组的推荐公平性损失；

A33、多目标优化模块根据推荐准确性损失和推荐公平性损失确定推荐模型的参数更新方向并据此更新推荐模型的参数。

2.根据权利要求1所述的推荐模型的训练方法，其特征在于，所述推荐模型包括信息获取模块、变分自编码器、重参数化模块和解码器，其中，所述步骤A31包括：

A311、用信息获取模块获取预先设置的用户的潜在偏好向量的先验分布、商品的簇隶属度矩阵的先验分布；

A312、用变分自编码器从本次获取的商品交互记录中学习用户对商品的决策过程，得到对先验分布通过变分推断修正后的用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布以及商品的潜在向量；

A313、用重参数化模块利用重参数化技巧对用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布分别进行采样，得到用户的潜在偏好向量和商品的簇隶属度矩阵；

A314、用解码器根据用户的潜在偏好向量和商品的簇隶属度矩阵以及商品的潜在向量获取用户对所有商品的偏好概率。

3.根据权利要求1所述的推荐模型的训练方法，其特征在于，步骤A33包括：

A331、根据推荐准确性损失计算推荐模型参数更新的第一梯度，根据推荐公平性损失计算推荐模型参数更新的第二梯度，基于第一梯度和第二梯度动态确定第一梯度的第一权重和第二梯度的第二权重；

A332、获取第一权重乘以第一梯度加上第二权重乘以第二梯度的加权和作为推荐模型的参数更新的方向。

4.根据权利要求1所述的推荐模型的训练方法，其特征在于，确定推荐模型是否训练至收敛的方式为：如果加权和的范数小于给定误差阈值或者迭代次数超过预定迭代次数上限，则推荐模型已训练至收敛。

5.根据权利要求1至4任一项所述的推荐模型的训练方法，其特征在于，第一损失函数为：

6.根据权利要求1至4任一项所述的推荐模型的训练方法，其特征在于，第二损失函数为：

l_fair＝log Var(l¹,l²,...,l^|Α|)；

其中，l^a∈(l¹,l²,...,l^|Α|)，

7.一种采用权利要求1至6任一项所述的方法训练得到的推荐模型，包括：

信息获取模块，用于获取用户的商品交互记录、预先设置的用户的潜在偏好向量的先验分布、商品的簇隶属度矩阵的先验分布；

变分自编码器，用于从获取的商品交互记录中学习用户对商品的决策过程，得到对先验分布通过变分推断修正后的用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布以及商品的潜在向量，

重参数化模块，用于利用重参数化技巧对用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布分别进行采样，得到用户的潜在偏好向量和商品的簇隶属度矩阵，

解码器，用于根据用户的潜在偏好向量和商品的簇隶属度矩阵以及商品的潜在向量获取用户对所有商品的偏好概率；

结果输出模块，用于将用户对所有商品的偏好概率中概率值较高的一个或者多个商品推荐给用户。

8.一种在如权利要求7所述的推荐模型中使用的推荐方法，其特征在于，包括：

B1、获取用户的商品交互记录、预先设置的用户的潜在偏好向量的先验分布、商品的簇隶属度矩阵的先验分布；

B2、从获取的商品交互记录中学习用户对商品的决策过程，得到对先验分布通过变分推断修正后的用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布以及商品的潜在向量，

B3、利用重参数化技巧对用户的潜在偏好向量的后验分布、商品的簇隶属度矩阵的后验分布分别进行采样，得到用户的潜在偏好向量和商品的簇隶属度矩阵，

B4、根据用户的潜在偏好向量和商品的簇隶属度矩阵以及商品的潜在向量获取用户对所有商品的偏好概率；

B5、将用户对所有商品的偏好概率中概率值较高的一个或者多个商品推荐给用户。

9.一种计算机可读存储介质，其特征在于，其上包含有计算机程序，所述计算机程序可被处理器执行以实现权利要求1至6、8中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

存储器，其中存储器用于存储一个或多个可执行指令；

所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现权利要求1至6、8中任一项所述方法的步骤。