CN116720006B

CN116720006B - 一种基于有限用户敏感属性的公平推荐方法、设备及介质

Info

Publication number: CN116720006B
Application number: CN202311004219.4A
Authority: CN
Inventors: 冯福利; 史天昊; 何向南; 张洋; 张及之
Original assignee: Data Space Research Institute
Current assignee: Data Space Research Institute
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-11-03
Anticipated expiration: 2043-08-10
Also published as: CN116720006A

Abstract

本发明公开了一种基于有限用户敏感属性的公平推荐方法、设备及介质，利用已有的敏感属性信息和用户的历史交互记录以重建用户的缺失敏感属性，基于用户的交互历史并使用机器学习技术或神经网络技术，推断得出缺失敏感属性的可能取值，弥补已有的敏感属性信息的不完整性，数据导向方法、对抗学习方法、正则化方法、重新排序方法都假设全部用户的敏感属性已知，这在实践中往往是难以成立的，法律保护的原因，收集敏感属性需要得到用户的明确同意，这限制了这些方法的适用性，发明提出一种基于有限用户敏感属性的公平推荐方法，旨在为推荐系统提供一种更加普适且有效的推荐系统公平性解决方案。

Description

一种基于有限用户敏感属性的公平推荐方法、设备及介质

技术领域

本发明涉及机器学习、数据挖掘领域，尤其是涉及一种基于有限用户敏感属性的公平推荐方法、设备及介质。

背景技术

推荐系统在当今的电子商务、社交媒体和其他领域扮演着重要的角色，它们旨在为用户提供个性化的推荐结果，以满足其需求和兴趣。然而，在推荐过程中存在着一些公平性问题，可能偏向具有特定敏感属性的用户，比如带有性别、种族、年龄等标签的用户。

目前已经提出了一些解决推荐系统公平性问题的方法，其中，数据导向方法通过根据敏感属性调整训练数据，包括重新采样和添加抗衡数据，来减轻偏见的影响。对抗学习方法利用最小最大博弈来学习公平表示，防止在用户嵌入或图结构中预测敏感属性的发生。正则化方法则将公平度量指标作为正则化器加入目标函数或奖励函数中，如不同敏感属性组之间的效用绝对差异，重新排序方法通过重新排序推荐结果，为具有不同敏感属性的用户群体实现更公平的结果，这些方法代表了在推荐系统领域解决公平性问题的一些创新尝试。然而，这些方法都假设全部用户的敏感属性已知，这在实践中往往是难以成立的，比如在许多推荐场景中如在线广告中，用户无需注册或提交个人信息。此外，由于法律保护的原因，收集敏感属性需要得到用户的明确同意，这限制了这些方法的适用性。

为了解决在缺乏完整敏感属性信息的情况下提供公平推荐的挑战，我们设计了一种基于有限用户敏感属性的公平推荐方法。该方法利用用户的历史交互记录和已有的敏感属性信息，通过重建用户的缺失敏感属性来弥补信息不完整性。

为了应对重建过程中的误差，通过构建了一个模糊集合，其中包含了缺失敏感属性的真实分布以及一部分其他潜在分布，然后，采用分布式鲁棒优化技术对模糊集合中的所有分布进行公平性优化，以确保在有限敏感属性的情况下，推荐结果仍能保持公平。

发明内容

本发明的目的是为推荐系统提供一种更加普适且有效的推荐系统公平性解决方案，不再依赖于完整敏感属性信息的获取,通过该方法为用户提供个性化且公平的推荐体验，促进推荐系统的公平性和社会的公正性。

本发明为达到上述发明目的，采用如下技术方案：

第一方面，本发明提供一种基于有限用户敏感属性的公平推荐方法，该方法包括以下步骤：

S1：利用已有的敏感属性信息和用户的历史交互记录以重建用户的缺失敏感属性，基于用户的交互历史使用机器学习或神经网络，推断得出缺失敏感属性的可能取值，以弥补已有的敏感属性信息的不完整性；

S2：利用重建后的敏感属性以及重建的错误率构建模糊集合，模糊集合包含缺失敏感属性的真实分布以及其他潜在部分的分布；

S3：基于分布式鲁棒优化方法，对模糊集合中包含的所有分布进行公平性优化。

更进一步地，所述缺失敏感属性的可能取值范围与敏感属性的可能取值范围相同，敏感属性的取值范围为{1,2,…,M}，其中M表示为敏感属性的所有不同取值数量。

更进一步地，在步骤S1中，所述对用户的缺失敏感属性重建的具体过程如下：

（1）定义数据集D中每个样本表述为，其中/>表示用户，/>表示物品，/>表示用户的敏感属性，/>表示用户评分，对于任意用户/>，将其交互历史构建为向量,其中/>为用户/>对物品/>的评分，且/>，若数据集D中用户/>未对/>显式评分，则/>；

（2）利用SVM、逻辑回归或深度神经网络作为重建网络，重建网络将用户历史交互向量作为输入，以预测得出缺失的敏感属性；

（3）使用预测得出的敏感属性填补入缺失敏感属性的子数据集/>中，填补后的子数据集称为/>，按照敏感属性不同划分数据集D，将数据集/>中具有敏感属性/>的子数据集记作/>，并将/>中具有重建敏感属性/>的样本子集记作/>，不含有用户敏感属性的子数据集为/>，拥有已知敏感属性的子数据集/>，其中，/>，且/>。

更进一步地，所述敏感属性包括性别、年龄、职业、专业。

更进一步地，在步骤S2中，所述模糊集合的具体构建过程为：

（1）若用户-物品对的条件联合分布满足经验分布形式/>，，且重建后的敏感属性值为s，则/>，反之，则，其中/>表示用户-物品对在/>条件下的联合经验分布，/>表示集合中元素的数量，/>表示样本/>在/>中的概率样本权重；

（2）利用全变差距离衡量两个概率分布之间的距离，并基于全变差距离构建模糊集合，构建的模糊集合为，其中/>表示两个分布间的全变差距离，/>表示/>维实数空间，/>表示分布间的距离上界，表示模糊集合中的元素，表达为：/>，/>表示模糊集合中元素/>对于样本/> 的概率样本权重；

（3）利用真实敏感属性的重建错误率估计分布间的距离上界，表达为：，其中，/>表示对真实敏感属性/>的重建错误率。

更进一步地，当重建敏感属性的分布/>与真实敏感属性S的分布/>相同时，则所述两个分布间的全变差距离/>，其中/>为真实缺失敏感属性/>条件下用户-物品对的条件联合分布，/>表示重建敏感属性/>的分布，/>表示真实敏感属性S的分布。

更进一步地，在步骤S3中，所述基于分布式鲁棒优化的推荐公平优化的具体过程为：

（1）构建统计公平，要求推荐模型的预测得分与敏感属性独立，即，其中/>表示模型的预测得分，/>代表推荐模型预测得分/>的概率密度函数，/>代表推荐模型预测得分 />在给定敏感属性S的条件下的条件概率密度函数；

（2）利用分布式鲁棒优化技术提升统计公平，通过最小化整个模糊集合中使公平性最差的分布，以在整个模糊集合中包含的所有分布上均保证模型公平，具体的优化目标如下：/>，其中，为推荐模型的损失函数，/>为推荐模型的参数，/>为对用户/>与物品/>的交互的评分，/>表示模糊集合中元素的数量，/>是用于平衡推荐系统损失函数与公平正则项的超参数/>表示利用分布式鲁棒优化的公平正则项，/>，M表示为敏感属性的所有不同取值数量；

（3）针对模糊集合中的任一个分布，/>通过约束整个数据集上预测得分的总体期望与给定敏感属性任一个具体取值/>下的条件期望以实现统计公平,具体表达为:/>，其中，，/>，/>为数据集/>上的预测得分的期望，/>为数据集/>上的预测得分的期望，则表示为在分布/>下模型预测得分的经验期望。

第二方面，本发明提供一种基于有限用户敏感属性的公平推荐装置，包括存储器以及处理器，存储器存储有计算机可执行指令，处理器被配置为运行所述计算机可执行指令，所述计算机可执行指令被所述处理器运行时实现所述的基于有限用户敏感属性的公平推荐方法。

第三方面，本发明提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现所述的基于有限用户敏感属性的公平推荐方法。

与现有技术相比，本发明的有益效果如下：

1、数据导向方法、对抗学习方法、正则化方法、重新排序方法都假设全部用户的敏感属性已知，这在实践中往往是难以成立的，法律保护的原因，收集敏感属性需要得到用户的明确同意，这限制了这些方法的适用性，本发明提出一种基于有限用户敏感属性的公平推荐方法，旨在为推荐系统提供一种更加普适且有效的推荐系统公平性解决方案，不再依赖于完整敏感属性信息的获取，推动推荐系统的公平性和社会的公正性。

2、本发明方法利用用户的历史交互记录和已有的敏感属性信息，通过重建用户的缺失敏感属性来弥补信息不完整性，为了应对重建过程中的误差，构建了一个模糊集合，其中包含了缺失敏感属性的真实分布以及一部分其他潜在分布，采用分布式鲁棒优化技术对模糊集合中的所有分布进行公平性优化，以确保在有限敏感属性的情况下，推荐结果仍能保持公平。

3、根据重建出的敏感属性以及重建的错误率，构建了一个模糊集合，考虑到重建过程中的不确定性，可以通过构建的模糊集合，使得更全面地考虑并建模敏感属性的潜在真实取值，而不仅仅依赖于单一的重建结果。

附图说明

图1为本发明提供的整体流程示意图。

具体实施方式

实施例1：

本实施例公开了一种基于有限用户敏感属性的公平推荐方法，参考图1，该方法包括以下步骤：

S1：利用已有的敏感属性信息和用户的历史交互记录以重建用户的缺失敏感属性，基于用户的交互历史使用机器学习技术或神经网络技术，推断得出缺失敏感属性的可能取值，以弥补已有的敏感属性信息的不完整性；

在步骤S1中，对用户的缺失敏感属性重建的具体过程如下：

（3）使用预测得出的敏感属性填补入缺失敏感属性的子数据集/>中，填补后的子数据集称为/>，按照敏感属性不同划分数据集D，将数据集/>中具有敏感属性/>的子数据集记作/>，并将/>中具有重建敏感属性/>的样本子集记作/>，不含有用户敏感属性的子数据集为/>，拥有已知敏感属性的子数据集/>，数据集/>中具有敏感属性的子数据集记作/>，其中，/>，且/>。

其中，缺失敏感属性的可能取值范围与敏感属性的可能取值范围相同，敏感属性的取值范围为{1,2,…,M}，其中M表示为敏感属性的所有不同取值数量。

敏感属性可能是性别，职业等，根据应用场景不同而改变，比如敏感属性是性别，用中文表示敏感属性的取值范围是{男，女}，则数学化为敏感属性的取值范围为{1,2}。再比如敏感属性是职业，中文表示敏感属性的取值范围是{医生，老师，工人}，数学化敏感属性的取值范围为{1,2,3}，敏感属性的取值范围为{1,2,…,M}，其中M表示敏感属性的所有不同取值数量。

将已知敏感属性用户的历史交互信息进行多次训练，且将缺失敏感属性用户的历史交互进行输出，确定重建的网络。

在步骤S2中，模糊集合的具体构建过程为：

（1）若用户-物品对的条件联合分布满足经验分布形式/>，，且重建后的敏感属性值为s,则/>，反之，，其中/>表示用户-物品对在/>条件下的联合经验分布，/>表示集合中元素的数量，/>表示样本/>在/>中的概率样本权重；

（2）利用全变差距离衡量两个概率分布之间的距离，并基于全变差距离构建模糊集合，构建的模糊集合为，其中/>表示两个分布间的全变差距离，/>表示/>维实数空间，/>表示分布间的距离上界，表示集合中的元素，表达为：/>，/>表示模糊集合中元素/>对于样本/> 的概率样本权重；

（3）利用对真实敏感属性的重建错误率估计分布间的距离上界，表达为：，其中，/>表示对真实敏感属性/>的重建错误率。

当重建敏感属性的分布/>与真实敏感属性S的分布/>相同时，则两个分布间的全变差距离/>，其中/>为真实缺失敏感属性/>条件下用户-物品对的条件联合分布，/>表示重建敏感属性/>的分布，/>表示真实敏感属性S的分布。

在步骤S3中，基于分布式鲁棒优化的推荐公平优化的具体过程为：

（2）利用分布式鲁棒优化技术提升统计公平，通过最小化整个模糊集合中使公平性最差的分布，以在整个模糊集合中包含的所有分布上均保证模型公平，具体的优化目标如下：/>，其中，为推荐系统的损失函数，/>为推荐模型的参数，/>为对用户/>与物品/>的交互的评分，/>表示为集合中元素的数量，为用于平衡推荐系统损失函数与公平正则项的超参数/>表示利用分布式鲁棒优化的公平正则项，/>，M表示为敏感属性的所有不同取值数量；

3）针对模糊集合中的任一个分布，/>通过约束整个数据集上预测得分的总体期望与给定敏感属性任一个具体取值/>下的条件期望以实现统计公平,具体表达为:/>，其中，，/>，/>是数据集/>上的预测得分的期望，/>是数据集/>上的预测得分的期望，则表示在分布/>下模型预测得分的经验期望。

为了验证实施例1中基于有限用户敏感属性的公平推荐方法的有效性，在MovieLens-1M公开数据集和腾讯Tenrec公开数据集中进行实验。

两类数据集都随机选取一半用户作为已知敏感属性的用户，并选取另一半用户作为缺失敏感属性的用户。采用矩阵分解算法作为推荐系统的骨架模型，同时并本方法与其它公平性算法进行比较。比较的公平性算法包括RegK，RegR，CGL，其中RegK，RegR是基于正则公平性算法改进而来，原始的正则公平性算法需要假设获取全部敏感属性，这在现实场景中常常不能成立。RegK只基于拥有的敏感属性施加公平性约束，而RegR同时利用拥有的敏感属性与重建的敏感属性施加公平约束，CGL是分类任务中基于有限敏感属性的公平性算法。在验证集上以不超过骨架模型98%的RMSE性能下降选取最公平的模型。以统计公平指标为测试指标，最终结果如表格1所示：

表格1 不同方法在公开数据集上的测试表现

从表格1可以看出，本方法的推荐公平优化方法在实际场景中无需收集完整敏感属性的情况下成功地实现了更好的公平性，而传统的正则公平性算法需要获取全部敏感属性，在现实场景中，这往往是不可行的，本发明的方法则不受此限制，通过利用已有的敏感属性和重建的敏感属性，更加鲁棒地施加公平性约束，使得推荐结果在有限敏感属性情况下仍能表现出更好的公平性。

实施例2：

一种基于有限用户敏感属性的公平推荐装置，包括存储器以及处理器，存储器存储有计算机可执行指令，处理器被配置为运行所述计算机可执行指令，计算机可执行指令被所述处理器运行时实现本实施例1公开的基于有限用户敏感属性的公平推荐方法

实施例3：

一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时实现本实施例1公开的基于有限用户敏感属性的公平推荐方法。

Claims

1.一种基于有限用户敏感属性的公平推荐方法，其特征是，该方法包括以下步骤：

在步骤S1中，所述用户的缺失敏感属性重建的具体过程如下：

(1)定义数据集D中每个样本表述为(u，v，s，r)，其中u表示用户，v表示物品，s表示用户的敏感属性，r表示用户评分，对于任意用户u，将其交互历史构建为向量x＝[x_u，0，x_u，1，...，x_u，N]，其中x_u，v为用户u对物品v的评分，且x_u，v∈{0，1}，若数据集D中用户u未对v显式评分，则x_u，v＝0；

(2)利用SVM、逻辑回归或深度神经网络作为重建网络，重建网络将用户历史交互向量作为输入，以预测得出缺失的敏感属性

(3)使用预测得出的敏感属性填补入缺失敏感属性的子数据集D_m中，填补后的子数据集称为/>按照敏感属性不同划分数据集D，将数据集D中具有敏感属性S＝s的子数据集记作D^(s)，并将D^(s)中具有重建敏感属性/>的样本子集记作/>不含有用户敏感属性的子数据集为D_m，拥有已知敏感属性的子数据集D_k，数据集D_k中具有敏感属性S＝s的子数据集记作/>其中，D＝D_k∪D_m，且/>

在步骤S2中，所述模糊集合的具体构建过程为：

(1)若用户物品对的条件联合分布满足经验分布形式且重建后的敏感属性值为s，则反之，则/>其中/>表示用户物品对在/>条件下的联合经验分布，|·|表示集合中元素的数量，/>表示样本(u，v，s)在/>中的概率样本权重；

(2)利用全变差距离衡量两个概率分布之间的距离，并基于全变差距离构建模糊集合，构建的模糊集合为其中TV(·，·)表示两个分布间的全变差距离，/>表示/>维实数空间，/>表示模糊集合中的元素，表达为：/> 表示模糊集合中元素/>对于样本(u，v，s)的概率样本权重；

(3)利用真实敏感属性的重建错误率估计分布间的距离上界ρs，表达为：其中，/>表示对真实敏感属性S＝s的重建错误率；

当重建敏感属性的分布/>与真实敏感属性S的分布P(S)相同时，则所述两个分布间的全变差距离/>其中Q^(s)为真实缺失敏感属性S＝s条件下用户物品对的条件联合分布，/>表示重建敏感属性/>的分布，P(S)表示真实敏感属性S的分布；

S3：基于分布式鲁棒优化方法，对模糊集合中包含的所有分布进行公平性优化；

在步骤S3中，所述模糊集合中包含的所有分布公平性优化的具体过程为：

(1)构建统计公平，要求推荐模型的预测得分与敏感属性独立，即其中/>表示模型的预测得分，/>代表推荐模型预测得分/>的概率密度函数，/>代表推荐模型预测得分/>在给定敏感属性S的条件下的条件概率密度函数；

(2)利用分布式鲁棒优化方法提升统计公平，通过最小化整个模糊集合中公平性最差的分布，以保证整个模糊集合中包含的所有分布的公平性，其中，具体的公平性优化目标如下：/>其中，为推荐模型的损失函数，θ为推荐模型的参数，/>为对用户u与物品v的交互的评分，|·|表示模糊集合中元素的数量，λ_s为用于平衡推荐模型损失函数与公平正则项的超参数，/>表示利用分布式鲁棒优化的公平正则项，/>M表示为敏感属性的所有不同取值数量；

(3)针对模糊集合中的任一个分布通过约束整个数据集上预测得分的总体期望与给定敏感属性任一个具体取值s下的条件期望以实现统计公平，具体表达为：其中，

为子数据集/>上的预测得分的期望，为数据集D上的预测得分的期望，则表示在分布/>下模型预测得分的经验期望。

2.根据权利要求1所述的基于有限用户敏感属性的公平推荐方法，其特征是，所述缺失敏感属性的可能取值范围与敏感属性的可能取值范围相同，敏感属性的取值范围为{1，2，...，M}，其中M表示为敏感属性的所有不同取值数量。

3.根据权利要求1所述的基于有限用户敏感属性的公平推荐方法，其特征是，所述敏感属性包括性别、年龄、职业、专业。

4.一种基于有限用户敏感属性的公平推荐装置，包括存储器以及处理器，存储器存储有计算机可执行指令，处理器被配置为运行所述计算机可执行指令，其特征在于，所述计算机可执行指令被所述处理器运行时实现权利要求1～3任一项所述的基于有限用户敏感属性的公平推荐方法。

5.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时实现权利要求1～3任一项所述的基于有限用户敏感属性的公平推荐方法。