CN114398538B

CN114398538B - 隐私保护的跨域推荐方法、系统、存储介质、计算机设备

Info

Publication number: CN114398538B
Application number: CN202111496617.3A
Authority: CN
Inventors: 张涛; 韩雅妮; 沈玉龙; 宋安霄; 徐扬; 杨绍京
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2024-02-06
Anticipated expiration: 2041-12-08
Also published as: CN114398538A

Abstract

本发明属于个性化推荐技术领域，公开了一种隐私保护的跨域推荐方法、系统、存储介质、计算机设备，包括：建立本地模型，针对各个域中的用户‑项目关系图，基于图神经网络技术从图中学习用户、项目特征，利用交叉熵损失函数训练本地模型；上传模型梯度，将本地模型梯度添加基于瑞丽熵的差分隐私的噪声后上传给服务器，有效保护用户隐私；聚合更新模型，服务器使用FedAvg算法，聚合各个域上传的模型梯度，以此更新全局模型；利用全局模型来更新本地模型，迭代这个过程直至收敛。本发明能够在多域数据环境下实现有效推荐，并能保护多域训练数据隐私；能够在冷启动和数据稀疏的情况下，通过跨域的信息共享实现推荐；能够同时提高多个域上的推荐性能。

Description

隐私保护的跨域推荐方法、系统、存储介质、计算机设备

技术领域

本发明属于个性化推荐技术领域，尤其涉及一种隐私保护的跨域推荐方法、系统、存储介质、计算机设备。

背景技术

目前，随着互联网技术的发展，迎来了真正意义上的大数据时代，但与此同时，也面临着信息过载的问题，推荐系统应运而生，成为有效解决这类问题的方法之一。推荐主要是根据用户和项目之间的关系，挖掘用户的喜好，帮助用户从海量的数据中发现其可能感兴趣的物品，最终形成个性化的推荐列表。协同过滤是一种常用的推荐方法，基于用户的相似度进行匹配。但是，在实际场景中，用户可能只与少量的物品发生交互，对于新的物品来说，甚至是没有交互的，这也就面临着冷启动和数据稀疏性问题。跨域推荐在一定程度上能够解决这些问题，已有的跨域推荐，如单目标跨域推荐，双目标跨域推荐以及多目标跨域推荐，关注如何利用原域中相对丰富的信息，来提高信息相对稀疏的目标域中推荐的准确性。因此，跨域推荐的主要目的是通过利用来自辅助域的信息来提高目标域中的推荐性能。

联邦学习是一种隐私保护的机器学习技术，用户数据不需要集中收集就可以利用，只需保存在本地设备无需上传给服务器。上传的模型相比于用户的原始数据有较少的信息，因此能够有效地减小隐私泄露的风险。联邦学习旨在保护隐私，每个设备利用自己的数据来训练其本地模型。然后，所有设备定期交换其经过训练的模型参数，并在有无中央服务器的情况下都可更新全局模型。现阶段也有一些将联邦学习应用到推荐系统中的研究，Ammad等人提出了联邦协同过滤FCF，用户的评分数据存储在用户设备，用来计算本地梯度。用户的嵌入向量存储在本地，上传给服务器的是梯度；中心服务器聚合多个客户端上传的梯度来更新。然而，上述方法只考虑到了用户在单个域中的信息，随着用户隐私意识的加强，跨域的数据很难共享。因此，需要发明一种能够同时解决上述问题的推荐方法。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有方法采用跨域推荐技术解决推荐系统中的冷启动和数据稀疏性问题过程中，不能同时提高多个域上的推荐性能。

(2)现有方法采用联邦学习技术解决用户的隐私泄露问题过程中，只考虑到了用户在一个域上的信息，并未考虑跨域的问题。

解决以上问题及缺陷的难度为：传统的跨域推荐方法主要借助于信息丰富域的信息来提高目标域的推荐性能，但不能充分利用每个域的信息，同时提高多个域的推荐性能。此外，信息在域间的共享不可避免的会泄露用户隐私。

解决以上问题及缺陷的意义为：本发明能够有效解决上述问题，可以促进共享生态的飞速发展，不同域间的共享数据能够得到有效的利用，发挥其更大的价值。多个域上的推荐性能将会不断提高，同时能够有效的保护用户隐私，提高用户体验和满意度，进一步促进互联网的发展。

发明内容

针对现有技术存在的问题，本发明提供了一种隐私保护的跨域推荐方法、存储介质、计算机设备。本发明在提高了多个域上推荐性能的同时，有效保护了用户隐私。

本发明是这样实现的，一种隐私保护的跨域推荐方法，所述隐私保护的跨域推荐方法，包括以下步骤：

建立本地模型，针对各个域中的用户-项目关系图，基于图神经网络技术从图中学习用户、项目特征，利用交叉熵损失函数对本地模型进行训练；

上传模型梯度，将本地训练好的模型梯度添加基于瑞丽熵的差分隐私(Rényi-Differential Privacy,RDP)的噪声之后再上传给服务器，并没有直接上传用户数据，可以有效保护用户隐私；

聚合更新模型，服务器使用FedAvg算法，对于各个域上传的模型梯度进行聚合，以此更新全局的模型；

更新后的模型下发给各个域，各个域再根据下发的全局模型，更新本地模型，迭代这个过程直至收敛。

进一步，所述隐私保护的跨域推荐方法具体过程为：

步骤一，在每个域中构建用户-项目交互关系图，以用户和项目作为节点，它们之间的交互关系作为边，输入各个域中构建的关系图，包括n个不同领域的数据集；

步骤二，初始化模型，中心服务器初始化全局模型，使用相同的随机种子seed初始化每个域中的模型参数θi；

步骤三，每个域在本地并行的训练基于图神经网络的跨域推荐模型，以交叉熵损失函数作为模型的目标函数，进而得到本地模型；

步骤四，每个域在给服务器上传本地模型之前，需要进行一些处理，对本地模型梯度添加RDP噪声；

步骤五，服务器接收来自各个域中的上传的添加RDP噪声的模型梯度之后，使用FedAvg算法进行聚合，根据聚合结果更新全局模型；

步骤六，将全局模型再分发给各个域，每个域再根据全局模型调整本地模型；

步骤七，重复上述过程，直至模型训练收敛。

进一步，所述步骤一中，各个用户-项目交互图建立过程为：

针对不同的领域，以用户、项目作为节点，它们之间的交互关系作为边，构建用户-项目交互图，作为隐私保护的跨域推荐方法的输入。

进一步，所述步骤一中，用户-项目交互图具体为：

根据用户、项目的交互情况进行构造，交互图建模了用户和项目的交互关系；使用G＝(V,E)表示异构图，其中用户U＝{u₁，u₂，...，u_M}、项目I＝{i₁，i₂，...，i_N}作为图中的节点V，M和N分别表示用户和项目的个数，用户-项目交互矩阵表示为E_M×N＝{e_ui|u∈U，i∈I}，e_ui表示图中的边E，当用户u和项目i有交互时，e_ui＝1，否则为0。最终在各个域中完成交互图的构造。

进一步，所述步骤三中，本地模型训练过程具体为：

对于输入的用户-项目交互图，使用独热编码技术对用户、项目节点进行处理，并压缩成低维实值嵌入向量：

p_u＝P^Tv_u；

q_i＝Q^Tv_i.

其中，v_u、v_i分别表示用户u、项目i的独热编码；P、Q分别表示用户、项目嵌入矩阵；

用户和项目之间的嵌入传播得到用户和项目的嵌入向量，使用图神经网络技术建模用户-项目异构图中的交互关系，学习用户、项目的特征向量，对于用户u和项目i，更新规则如下：

其中，A表示所属域；l表示训练模型的层数；W和b分别表示学习到的权重和偏差；σ表示非线性激活函数；

使用多层感知器作为全连接神经网络来表示用户和项目之间的非线性关系。输入A域中用户、项目的特征向量，输出表示为：

其中，和/>表示用户和项目在A域中不同层的权重；/>和/>表示用户和项目在A域中不同层的偏差；σ是非线性激活函数ReLU；

经过多层传播之后，使用用户和项目的特征向量做最终的预测，在A域，用户u和项目i的预测交互表示为：

以防止模型的过拟合，添加了L2正则化项，对参数进行惩罚，最终的目标函数表示为：

其中，和/>分别表示A域的预测值和真实值，σ是sigmoid非线性激活函数，θ表示训练模型的参数，β控制惩罚的强度；最初的模型大多数采用SGD随机梯度下降法训练，与SGD相比，Adam可以自适应的调整学习率，本发明使用Adam优化器优化模型参数。

进一步，所述步骤四中，具体过程为：

使用基于瑞丽熵的本地差分隐私技术，在上传本地模型梯度之前，向本地模型梯度添加Laplace噪声，增强本地模型梯度的隐私保护；

g′_d＝g_d+Λ(0,λ).

其中，g_d表示训练模型的梯度，Λ(0,λ)是Laplace噪声，均值为0，参数λ控制Laplace的强度，λ越大，隐私保护效果越好，为了获得指数机制的RDP预算曲线，需要计算Laplace分配的瑞丽熵及其偏移λ：

其中，在上述式子中，α≥1且λ>0。

进一步，所述步骤五中，服务器接收来自各个域中的上传的添加RDP噪声的模型梯度之后，使用FedAvg算法进行聚合，聚合方式为：

根据聚合结果更新全局模型：

其中，η为学习率，为聚合的梯度。

进一步，所述步骤六中，各个域使用全局的θ更新相应本地模型参数。

本发明的另一目的在于提供一种实施所述隐私保护的跨域推荐方法的隐私保护的跨域推荐系统，所述隐私保护的跨域推荐系统包括：

本地模型建立及训练模块，用于建立本地模型，针对各个域中的用户-项目关系图，基于图神经网络技术从图中学习用户、项目特征，利用交叉熵损失函数对本地模型进行训练；上传模型梯度，将本地训练好的模型梯度添加基于瑞丽熵的差分隐私(Rényi-Differential Privacy,RDP)的噪声之后再上传给服务器，并没有直接上传用户数据，可以有效保护用户隐私；

本地模型更新模块，服务器使用FedAvg算法，对于各个域上传的模型梯度进行聚合，以此更新全局的模型；更新后的模型下发给各个域，各个域再根据下发的全局模型，更新本地模型，迭代这个过程直至收敛。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述隐私保护的跨域推荐方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述隐私保护的跨域推荐方法的步骤。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明能够有效解决多域推荐难，跨域冷启动和用户数据稀疏性等问题，可以促进推荐系统的共享生态的发展，实现不同域间的共享数据能够得到有效的利用，发挥不同域内的数据价值。其次，解决现有推荐系统中数据安全推荐问题，本发明实现跨域推荐服务的同时，能够有效的保护用户隐私，提高用户体验和满意度，推动跨域推荐的发展。本发明提供的隐私保护的跨域推荐方法，它能在社交网络，商品推广等个性化保护推荐服务领域同时保证了模型的高效性和安全性。在高效性方面，每个域的用户数据保存在本地，不会上传给服务器，使用图嵌入技术从图中学习用户、项目特征，训练本地的模型。其次，将本地训练好的模型梯度上传给服务器，最后，服务器聚合本地上传的模型梯度，更新全局模型，并将更新后的模型分发给各个域。在迭代过程中，不断更新全局模型和本地模型，直至收敛。本发明在真实数据集上进行对比实验，实验结果表明，与已有技术相比，本发明具有高效性，是一种能够同时提高多个域上推荐性能的方法。在隐私方面，本发明能够在给多域用户完成推荐的情况保护用户隐私数据安全，实现安全可靠的项目捆绑式推荐。

本发明提出的隐私保护的跨域推荐方法主要功能分为：(1)在冷启动和数据稀疏的情况下，能够实现跨域捆绑式项目推荐，并同时实现在多个域上的推荐性能提高(2)在不可信的多域用户的条件下，实现跨域安全保护用户隐私数据。

附图说明

图1是本发明实施例提供的隐私保护的跨域推荐方法流程图。

图2是本发明实施例提供的隐私保护的跨域推荐具体过程示意图。

图3是本发明实施例提供的隐私保护的跨域推荐方法的总体模型训练过程示意图。

图4是本发明实施例提供的隐私保护的跨域推荐方法的本地模型训练过程示意图。

图5是本发明实施例提供的隐私保护的跨域推荐方法仿真系统的体系结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种隐私保护的跨域推荐方法、系统、存储介质、计算机设备，下面结合附图对本发明作详细的描述。

本发明提供的隐私保护的跨域推荐方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的隐私保护的跨域推荐方法仅仅是一个具体实施例而已。

如图1所示，本发明实施例提供的隐私保护的跨域推荐方法，包括以下步骤：

S101：建立本地模型，针对各个域中的用户-项目关系图，基于图神经网络技术从图中学习用户、项目特征，利用损失函数对本地模型进行训练。

S102：上传模型梯度，将本地训练好的模型梯度添加基于瑞丽熵的差分隐私(Rényi-Differential Privacy,RDP)的噪声之后再上传给服务器，并没有直接上传用户数据，可以有效保护用户隐私。

S103：聚合更新模型，服务器使用FedAvg算法，对于各个域上传的模型梯度进行聚合，以此更新全局的模型。

S104：更新后的模型下发给各个域，用来更新本地模型，迭代这个过程直至收敛。

本发明实施例提供的隐私保护的跨域推荐具体过程为：

S201：输入每个域中用户-项目交互图，包括n个不同领域的数据集；

S202：使用相同的随机种子初始化每一个域中的模型参数θi；

S203：在每个域中训练本地模型；

S204：上传本地模型之前，对模型梯度添加噪声；

S205：服务器聚合来自各个域中的模型梯度，更新全局模型；

S206：将全局模型再分发给各个域，每个域利用全局模型调整本地模型；

S207：重复上述过程，直至模型训练收敛。

本发明实施例提供的S201中，各个用户-项目交互图建立过程为：

各个域中的交互图，根据项目的不同对领域进行划分，针对不同领域得到的用户-项目交互图。

本发明实施例提供的S201中，用户-项目交互图具体为：

根据用户、项目的交互情况进行构造，交互图建模了用户和项目的交互关系；使用G＝(V,E)来表示异构图，其中用户U＝{u₁，u₂，...，u_M}、项目I＝{i₁，i₂，...，i_N}作为图中的节点V，M和N分别表示用户和项目的个数，用户-项目交互矩阵表示为E_M×N＝{e_ui|u∈U，i∈I}，e_ui表示图中的边E，当用户u和项目i有交互时，e_ui＝1，否则为0。最终在各个域中完成交互图的构造。

本发明实施例提供的S203中，本地模型训练过程具体过程为：

对于输入的用户-项目交互图，使用独热编码技术对用户、项目节点进行处理，并压缩成嵌入向量，如下所示：

p_u＝P^Tv_u；

q_i＝Q^Tv_i.

其中，v_u、v_i分别表示用户u、项目i的独热编码；P、Q分别表示用户、项目嵌入矩阵。

用户和项目之间的嵌入传播可以得到用户和项目的嵌入向量，使用图神经网络技术建模用户-项目异构图中的交互关系，学习用户、项目的特征向量，对于用户u和项目i，更新规则如下：

其中，A表示所属域；l表示训练模型的层数；W和b分别表示学习到的权重和偏差；σ表示非线性激活函数。

使用多层感知器作为全连接神经网络来表示用户和项目之间的非线性关系。输入A域中用户、项目的特征向量，输出可以表示为：

其中，和/>表示用户和项目在A域中不同层的权重；/>和/>表示用户和项目在A域中不同层的偏差；σ是非线性激活函数ReLU。

经过多层传播之后，使用用户和项目的特征向量做最终的预测，在A域，用户u和项目i的预测交互可以表示为：

为了防止模型的过拟合，添加了L2正则化项，对参数进行惩罚，最终的目标函数可以表示为：

本发明实施例提供的S204中，使用基于瑞丽熵的本地差分隐私技术，在上传本地模型梯度之前，向本地模型梯度添加Laplace噪声，增强本地模型梯度的隐私保护：

g′_d＝g_d+Λ(0,λ).

其中，在上述式子中，α≥1且λ>0。

本发明实施例提供的S205中，在服务器端聚合本地模型梯度，聚合方式为：

更新全局模型方式为：

其中，η为学习率，为聚合的梯度。

本发明实施例提供的S206中，各个域使用全局的θ更新相应本地模型参数。

下面结合仿真对本发明的技术效果作详细的描述。

1、仿真条件

仿真环境是：笔记本，处理器AMD Ryzen 5 1400Quad-Core Processor，操作系统为64位Windows10，基于PyChram工具，实现语言为Python。

仿真数据集：包含三个真实数据集Youshu，Netease，Movielens，代表三个域：书域，音乐域，电影域。其中，使用的Movielens数据集是公开的，Youshu数据集是从中国书评网站上爬取的，Netease数据集是从网易云音乐平台上爬取的。参数设置：学习率η＝3e-5，正则化参数λ＝0.001，嵌入向量的维数k＝64，以及批量大小512。

2、方法内容与结果分析

共设三个实验场景

场景1：在单个域中进行推荐STR

场景2：借助于另外一个域的信息在本域进行推荐DTCDR

场景3：结合其他多个域的信息在本域进行推荐MTCDR

表1不同模型在Youshu数据集中的性能对比

模型	Recall-20	NDCG-20	Recall-40	NDCG-40	Recall-80	NDCG-80
							STR	0.2453	0.1377	0.3240	0.1557	0.4384	0.1777
DTCDR	0.2509	0.1410	0.3307	0.1592	0.4337	0.1790
							MTCDR	0.2613	0.1440	0.3598	0.1664	0.4668	0.1870

表2不同模型在Netease数据集中的性能对比

不同场景下的对比如表1和表2所示，显示了本发明提出的隐私保护跨域推荐方法与单域推荐STR，双目标跨域推荐DTCDR的召回率Recall以及归一化折损累积增益NDCG(Normalized Discounted Cumulative Gain)的对比。结果表明，本发明所提出的隐私保护跨域推荐方法的推荐性能显著优于其他两种方法，能够充分利用其他域的信息，同时提高多个域中的推荐性能，解决冷启动和数据稀疏性问题。另外，该方法基于联邦学习的技术，不需在域间直接共享用户信息，因此能够很好的保护用户隐私。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种隐私保护的跨域推荐方法，其特征在于，所述隐私保护的跨域推荐方法包括：

更新后的模型下发给各个域，各个域再根据下发的全局模型，更新本地模型，迭代这个过程直至收敛；

所述隐私保护的跨域推荐方法的具体包括以下步骤：

步骤二，初始化模型，中心服务器初始化全局模型，使用相同的随机种子seed初始化每个域中的模型参数θ_i；

步骤七，重复上述过程，直至模型训练收敛；

所述步骤一中，各个域中用户-项目交互图的建立过程为：针对不同的领域，以用户、项目作为节点，它们之间的交互关系作为边，构建用户-项目交互图，作为隐私保护的跨域推荐方法的输入；

所述步骤一中，用户-项目交互图具体为：根据用户、项目的交互情况进行构造，交互图建模了用户和项目的交互关系；使用G＝(V,E)表示异构图，其中用户U＝{u₁，u₂，...，u_M}、项目I＝{i₁，i₂，...，i_N}作为图中的节点V，M和N分别表示用户和项目的个数，用户-项目交互矩阵表示为E_M×N＝{e_ui|u∈U，i∈I}，e_ui表示图中的边E，当用户u和项目i有交互时，e_ui＝1，否则为0，最终在各个域中完成交互图的构造。

2.如权利要求1所述的隐私保护的跨域推荐方法，其特征在于，所述步骤三中，本地模型训练过程具体为：对于输入的用户-项目交互图，使用独热编码技术对用户、项目节点进行处理，并压缩成低维实值嵌入向量：

p_u＝P^Tv_u；

q_i＝Q^Tv_i.

使用多层感知器作为全连接神经网络来表示用户和项目之间的非线性关系，输入A域中用户、项目的特征向量，输出表示为：

其中，和/>表示用户和项目在A域中不同层的权重；/>和表示用户和项目在A域中不同层的偏差；σ是非线性激活函数ReLU；

3.如权利要求1所述的隐私保护的跨域推荐方法，其特征在于，所述步骤四中，具体过程为：使用基于瑞丽熵的本地差分隐私技术，在上传本地模型梯度之前，向本地模型梯度添加Laplace噪声，增强本地模型梯度的隐私保护；

g′_d＝g_d+Λ(0，λ).

其中，g_d表示训练模型的梯度，Λ(0，λ)是Laplace噪声，均值为0，参数λ控制Laplace的强度，λ越大，隐私保护效果越好，为了获得指数机制的RDP预算曲线，需要计算Laplace分配的瑞丽熵及其偏移λ：

其中，在上述式子中，α≥1且λ>0。

4.如权利要求1所述的隐私保护的跨域推荐方法，其特征在于，所述步骤五中，服务器接收来自各个域中的上传的添加RDP噪声的模型梯度之后，使用FedAvg算法进行聚合，聚合方式为：

根据聚合结果更新全局模型：

其中，η为学习率，为聚合的梯度。

所述步骤六中，各个域使用全局的θ更新相应本地模型参数。

5.一种实施权利要求1～4任意一项所述隐私保护的跨域推荐方法的隐私保护的跨域推荐系统，其特征在于，所述隐私保护的跨域推荐系统包括：

本地模型建立及训练模块，用于建立本地模型，针对各个域中的用户-项目关系图，基于图神经网络技术从图中学习用户、项目特征，利用交叉熵损失函数对本地模型进行训练；

利用更新后的全局模型来更新本地模型，迭代这个过程直至收敛。

6.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～4任意一项所述隐私保护的跨域推荐方法的步骤。

7.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1～4任意一项所述隐私保护的跨域推荐方法的步骤。