CN114595396B - 一种基于联邦学习的序列推荐方法和系统 - Google Patents

一种基于联邦学习的序列推荐方法和系统 Download PDF

Info

Publication number
CN114595396B
CN114595396B CN202210490648.6A CN202210490648A CN114595396B CN 114595396 B CN114595396 B CN 114595396B CN 202210490648 A CN202210490648 A CN 202210490648A CN 114595396 B CN114595396 B CN 114595396B
Authority
CN
China
Prior art keywords
local
client
vector
model
local model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210490648.6A
Other languages
English (en)
Other versions
CN114595396A (zh
Inventor
吴超
陈玥
李皓
王永恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Zhejiang Lab
Original Assignee
Zhejiang University ZJU
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Zhejiang Lab filed Critical Zhejiang University ZJU
Priority to CN202210490648.6A priority Critical patent/CN114595396B/zh
Publication of CN114595396A publication Critical patent/CN114595396A/zh
Application granted granted Critical
Publication of CN114595396B publication Critical patent/CN114595396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于联邦学习的序列推荐方法和系统,属于个性化推荐领域和用户隐私保护领域。本发明将用户的个人信息、实时和历史数据都存放在本地,每个客户端能够根据自己的历史数据进行状态表示,捕捉用户与物品之间的交互关系,并基于深度强化学习将推荐过程看做一个序列化决策过程;本发明在联邦学习的聚合算法中引入了注意力机制,考虑到各个客户端提取特征信息的相关性,以及各个客户端的个性化带来的数据差异性,为每一个客户端制定权重系数,这是一种细粒度的重新赋权的手段,增加了数据的个性化程度,提高了推荐准确率,更加适合序列推荐领域,在保护个人数据隐私的同时,实现对用户的个性化推荐。

Description

一种基于联邦学习的序列推荐方法和系统
技术领域
本发明涉及推荐方法领域和用户隐私保护领域,尤其涉及一种基于联邦学习的序列推荐方法和系统。
背景技术
随着信息技术不断地发展,互联网上的信息发生了指数型的增长,用户无法快速地在网上寻找到自己想要的信息,由此诞生了个性化推荐技术。目前常见的推荐方法假设用户的喜好是一个静态的过程,即其喜好对于当前的历史数据是基本不变的,因此现有算法基于历史数据使用协同过滤、矩阵因子分解、深度学习等技术来对用户偏好进行建模,来独立地预测每个待推荐项目的评分或者排序,这样的技术方案虽然可解释性较强,能持续不断地给用户提供与其历史浏览/购买物品相似的项目或与其好友浏览/购买相似的项目,但是忽略了用户序列化决策的动态过程。
因此,为了实现动态建模以及长期收益的最大化,现有技术引入强化学习来将推荐过程看作一个序列化推荐过程,提出了基于策略或者基于价值的方法。其中,基于策略方法是学习生成策略来直接生成动作,这类方案专注于连续动作空间,在离散和连续动作空间存在不可忽视的鸿沟;基于价值的方法是评估特定状态下所有动作的Q值,选择Q值最大的动作,因此当动作空间规模较大的情况下,算法效率会变得十分低效。
除了考虑推荐的表现效果,数据隐私安全和实时性性能同样作为重要的研究方向,现有比较经典的通用联邦学习算法为FedAvg及其相关变形,该类算法的重心关注于在模型服务端以何种方式将参与聚合的模型参数或者梯度信息参与进行聚合,大多采用的是平均或加权平均方法,这样简单的聚合方法容易忽略客户端端模型的个性化,更重要的是,可能会遇到一些模型攻击的潜在威胁,即部分本地模型表现极端或者表现很差,这样简单的平均会影响全局模型的表现性能,尤其是在序列推荐领域,需要更加智能个性化的选择模式和聚合方式。
发明内容
本发明针对现有技术的不足,提出了一种基于联邦学习的序列推荐方法和系统,采用了基于自注意力机制的联邦学习范式和深度强化学习的算法,通过本地模型训练和中央参数聚合的方式实现,在保护个人数据隐私的同时,实现对用户的个性化推荐。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个目的在于提供一种基于联邦学习的序列推荐方法,包括以下步骤:
步骤1:中心服务器预先设置好强化学习模型参数,向参与联邦的客户端发送初始化的强化学习模型参数;所述的强化学习模型包括策略网络和评价网络;
步骤2:各个客户端独立观察本地环境状态,收集本地的用户交互数据,存储到本地数据库;
步骤3:各个客户端根据中心服务器发送的强化学习模型参数,加载本地模型,并从本地数据库中读取数据进行预处理操作,利用预处理后的本地数据对本地模型进行训练;所有的客户端均在“状态-行动-奖励-状态”循环中训练各自的本地模型,直到本地训练轮次达到预设轮次或者达到收敛;
步骤4:待各个客户端的本地模型收敛后,将随机选中客户端的本地模型参数上传到中心服务器端;
将每个选中的客户端的本地模型训练指标作为一个参数组合,采用自注意力机制获取本地模型的权重值,计算上传的本地模型参数的加权值作为全局模型参数,并将全局模型参数传回本地客户端;
步骤5:判断联邦学习训练轮次是否达到预设轮次;
若是,则将最后一次本地训练结束后得到的本地模型作为各个客户端的个性化本地模型,用于生成符合用户操作习惯的序列化推荐方案;
若否,则重复步骤3-4,各个客户端开始下一次的参数上传及迭代训练。
本发明的第二个目的在于提供一种基于联邦学习的序列推荐系统,用于实现上述的序列推荐方法。
与现有技术相比,本发明的有益效果如下:
1)本发明提出了一种能够实现序列化推荐的方法,将用户的个人信息、实时和历史数据都存放在本地,每个客户端能够根据自己的历史数据进行状态表示,捕捉用户与物品之间的交互关系,并基于深度强化学习将推荐过程看做一个序列化决策过程,避免了传统推荐方法的推荐内容同质化问题,充分考虑了用户的个性化偏好随时间动态变化的特性,提高了用户的个性化体验,可应用在商品推荐、电影推荐等业务场景,适用范围广。
2)本发明使用联邦学习进行训练学习,使得客户端能够在数据不出本地的前提下,提高采样效率,提升在单一场景下的深度强化学习训练速度,另外来自多方的客户端模型信息也会被聚合在中心服务器,既保护了数据隐私安全,也通过分布式的训练方式提高了采样训练效率。另外,对于新的客户端,在缺乏本地数据集的情况下,可以从中心服务器下载全局模型,获得一个全局最优的“解决方案”,在一定程度上解决了冷启动的问题。
3)本发明在联邦学习的聚合算法中引入了注意力机制,考虑到各个客户端提取特征信息的相关性,以及各个客户端的个性化带来的数据差异性,为每一个客户端制定权重系数,其中权重系数是本地模型的所有参数共用的,这是一种细粒度的重新赋权的手段,增加了数据的个性化程度,提高了推荐准确率,更加适合序列推荐领域。
附图说明
图1为本发明实施例示出的联邦学习架构示意图;
图2为本发明实施例示出的基于联邦学习的序列推荐方法的示意图;
图3为本发明实施例示出的基于注意力机制实现全局模型参数聚合的方法。
具体实施方式
以下将结合附图和具体实施方式对本发明进行详细说明。
本发明提出的联邦学习架构如图1所示,在用户数据和信息不出本地的条件下利用强化学习进行序列化建模,在本地与中心服务器通信过程中,传输的内容不再是原始数据,而是一定比例客户端的模型参数,解决了数据隐私保护问题和集中式采样效率低下的问题,减少冷启动带来的经济损失,对于大规模推荐场景具有重要意义。
如图2所示,基于联邦学习的序列推荐方法主要包括以下步骤:
步骤1:中心服务器预先设置好强化学习模型参数,向参与联邦的客户端发送初始化的强化学习模型参数;所述的强化学习模型包括策略网络和评价网络;
步骤2:各个客户端独立观察环境状态,收集本地的用户交互数据,存储到本地数据库;
步骤3:各个客户端根据中心服务器发送的强化学习模型参数,加载本地模型,并从本地数据库中读取数据并进行数据清洗等数据预处理操作,利用预处理后的本地数据对本地模型进行训练;所有的客户端均在“状态-行动-奖励-状态”循环中训练各自的本地模型;
步骤4:待各个客户端的本地模型收敛后,将随机选中客户端的本地模型参数上传到中心服务器端;
将每个选中的客户端的本地模型训练指标作为一个参数组合,采用自注意力机制获取各组指标参数的局部权重值,计算上传的本地模型参数的加权值作为全局模型参数,并将全局模型参数传回本地客户端;
步骤5:判断联邦学习训练轮次是否达到预设轮次;
若是,则将最后一次本地训练结束后得到的本地模型作为各个客户端的个性化本地模型,用于生成符合用户操作习惯的序列化推荐方案;
若否,则重复步骤3-4,各个客户端开始下一次的参数上传及迭代训练。
在本发明的一项具体实施中,可以每隔一段时间去测试最新的全局模型的性能,通过从本地各个客户端收集部分脱敏数据进行全局模型性能测试,由于这些数据来自各个客户端,因此这些数据集满足平衡性质,各类别都有相当一定的数量。若性能低于预期,说明本地数据库更新较大,用户习惯有所改变,可重复本发明的训练过程来对本地模型进行更新。
本发明的测试方法保护了用户的隐私安全。对于每一个客户端来说,用户的个人信息、实时和历史数据都存放在本地数据库。但由于每个客户端只能观察到有限的数据,提取到的数据特征有限,尤其是在数据隐私保护的限制下,不管是环境还是奖励信息,都不足以获得足够的数据来做决策,此时,联邦学习范式使通过聚合的方式来整合这些信息成为可能。在本发明中,每个客户端能够根据本地数据库进行状态建模,捕捉到用户和物品之间的交互关系,各自维护一个策略网络和评价网络。
本发明将推荐过程建模成一个顺序决策过程,其中用户与推荐系统呈现的物品进行交互,本地客户端将历史时间段内带有时间戳的用户交互数据收集到本地数据库中,假设该数据为用户一段时间连续点击的物品,记为<显示器,电脑,鼠标,…>,表示为项目信息;同时记录用户个人信息,例如年龄、姓名、喜好等。所述的项目信息和个人信息共同构成用户交互数据。
在本发明的一项具体实施中,利用本地用户交互数据对本地模型进行训练的过程,具体为:
步骤3.1:对用户交互数据进行预处理,例如采用词嵌入方法,得到用户嵌入向量u_i和项目嵌入向量{i_b|b=1,2,...,n};其中,u_i表示第i个用户的嵌入向量,i_b表示第i个用户的第b个项目的嵌入向量,n表示项目的数量。
本发明中,根据设定的时间戳,将最近若干个用户嵌入向量和项目嵌入向量作为策略网络的输入,首先利用状态表示模块得到用户的状态向量s。
上述状态表示模块的数据处理过程为:
a. 对项目嵌入向量{i_b|b=1,2,...,n}进行加权元素级相乘后进行平均池化,得到池化后的项目嵌入向量{g(i_b)|b=1,2,...,n},其中{g(i_b)=ave(w_b*i_b)|b=1,2,...,n}表示第i个用户的第b个项目的加权平均嵌入向量,g(.)表示加权平均池化操作,w_b表示第b个项目的权重,ave(.)表示计算每一个项目占所有项目加权和的比例;
b. 对用户嵌入向量u_i和项目的加权平均嵌入向量{g(i_b)|b=1,2,...,n}连接 起来,得到引入个人信息的项目嵌入向量
Figure 285961DEST_PATH_IMAGE001
c. 将用户嵌入向量、引入个人信息的项目嵌入向量、池化后的项目嵌入向量拼 接,作为状态表示模块的输出,即
Figure 406364DEST_PATH_IMAGE002
所述的状态表示模块输出的状态向量s依次经过ReLU和Tanh激活层,转化为动作 信息向量a,a是
Figure 654943DEST_PATH_IMAGE003
维向量,其输出格式是由连续参数向量表示的排序函数,用于在后续计 算项目的排名分数:score_t=i_t*aT;其中,i_t表示t时刻的候选项目,score_t表示候选项 目的分数,上角标T表示转置。
在评价网络中,其输入对象是状态表示模块生成的状态表示s,以及激活层输出的动作信息向量a;所述的状态表示s经ReLU激活层转化后再与动作信息向量a进行拼接,拼接向量依次经ReLU和Tanh激活层得到Q值,其为标量。在训练过程中,根据Q值大小来更新策略网络的参数,直至收敛。
如前所述,本地客户端利用用户与推荐系统的交互历史作为训练数据。在此过程中,推荐系统会根据当前策略和当前状态采取一定的行动,从用户处获得反馈(奖励)r_t,并将用户状态更新为s_{t+1}。在这项工作中,本发明使用深度确定性策略梯度(DDPG)算法来训练本地的强化学习算法。具体来说,在时间步长t中,训练过程主要包括两个阶段:
第一阶段,推荐系统观察由状态表示模块计算出的当前状态s_t,然后基于
Figure 266796DEST_PATH_IMAGE004
-贪 婪的探索方式,根据当前策略
Figure 550010DEST_PATH_IMAGE005
生成下一得分最高(根据等式:score_t=i_t aT)的动作
Figure 841314DEST_PATH_IMAGE006
随后,可以根据用户对其推荐项目的反馈来计算奖励r_t=R(s_t,a_t),并更新用户状态s_t+1=f{H_(t+1)}。如果r_t是正反馈,则H_t={i_1, ..., i_n,i_t},否则H_(t+1)=H_t。
最后,推荐系统将状态转换过程{s_t, a_t, r_t, s_(t+1)}存储到重放缓冲区D中。
第二阶段,模型更新中,推荐系统使用优先经验重放采样技术,根据损失函数对策略网络和评价网络的参数进行更新。
在本发明的一项具体实施中,损失函数为:
Figure 577189DEST_PATH_IMAGE007
其中,这里采用小批量策略(mini-batch strategy),N表示批量大小(batchsize),上述损失函数表示每次迭代使用N个样本来对参数进行更新,总共进行E轮迭代,E表示本地模型的训练轮次,yi是第i个样本总的实际奖励,Qw(.)是预期奖励,si是第i个样本对应的状态向量,ai是第i个样本对应的动作信息向量。
小批量策略的梯度下降可以利用矩阵和向量计算进行加速,还可以减少参数更新的方差,得到更稳定的收敛。当本地模型经过设定轮次迭代达到收敛之后,本发明采用自注意力机制来进行全局模型的参数聚合,可以倾注更多的注意力在性能更好的模型上,同时也可以避免性能较差甚至存在有攻击风险的本地模型对全局模型造成不利的影响。
将全局模型的参数聚合过程进行形式化定义如下:
Figure 494198DEST_PATH_IMAGE008
其中,R表示选中的需要上传参数的本地客户端集合,F(.)表示全局模型损失,wt 是全局模型中的策略网络的参数,
Figure 631919DEST_PATH_IMAGE009
是全局模型中的评价网络的参数,L_r (.)表示第r个 本地模型的损失函数,
Figure 94124DEST_PATH_IMAGE010
是第r个本地模型中的策略网络的参数,
Figure 317295DEST_PATH_IMAGE011
是第r个本地模型中 的评价网络的参数,W_r是第r个本地模型的权重。
如图3所示,对于每个选中的客户端智能体
Figure 273881DEST_PATH_IMAGE012
,利用注意力机制对不同的智能 体赋予不同的权重W_r,用于衡量每个客户端对全局模型的贡献。权重W_r是基于以下本地 模型训练指标利用注意力机制生成的,过程如下:
定义本地模型训练指标向量
Figure 266107DEST_PATH_IMAGE013
其中,
Figure 164793DEST_PATH_IMAGE014
为第r个本地模型的平均奖励,由E轮本地更新中所得奖励计算均值得 到;
Figure 875260DEST_PATH_IMAGE015
为第r个本地模型的平均损失,由E轮本地更新中所得损失函数值计算均值得到;M_ r是第r个本地模型的经验重放内存的大小,对于拥有更多内存资源的客户端,它们可以将 更多的训练数据存储到回放内存中;m_r是第r个本地模型的训练批数据大小,对于有更多 的计算能力的智能体,它们可以在一个本地训练过程中训练更多的数据;
Figure 868493DEST_PATH_IMAGE016
为第r个本地 模型的平均准确率,由E轮本地更新中所得的准确率计算均值得到。
引入自注意力机制用于全局模型的参数聚合,期待得到更加强大的智能体,获得更多的奖励,更少的损失和更高的准确率。将每一个选中的本地模型训练指标向量K_r作为注意力机制的键向量,将每一个选中的本地模型参数作为注意力机制的值向量V_r,定义注意力机制的查询向量Q:
Figure 980806DEST_PATH_IMAGE017
其中,
Figure 784814DEST_PATH_IMAGE018
表示第r个本地模型,maxr表示在R个本地模型指标中取最大值,minr表 示在R个本地模型指标中取最小值。
在自注意力机制中,首先计算每一个本地模型的权重:
Figure 982577DEST_PATH_IMAGE019
其中,d_k是训练指标向量K_r的维度。
再将每一个本地模型参数代表的值向量V_r和权重W_r进行加权计算,得到全局模 型参数
Figure 283895DEST_PATH_IMAGE020
Figure 250714DEST_PATH_IMAGE021
,本发明可以获得相比传统FedAvg算法性能更加优越的全局模型。
各个客户端在本地使用过程中,将本地数据库中最近时间段的用户交互数据经上述同样的方法进行预处理后作为训练好的本地模型中的策略网络的输入,根据候选项目的排名分数输出推荐结果。本发明使用深度强化学习进行模型的训练学习,再通过联邦学习的范式,使得各个客户端能够根据模型实现个性化推荐。本地模型利用策略-评价网络来建模用户和推荐系统之间的交互,这个过程可以认为是动态适应和长期奖励,实现了用户的个性化体验。
与前述的一种基于联邦学习的序列推荐方法的实施例相对应,本申请还提供了一种基于联邦学习的序列推荐系统的实施例,其包括:
中心服务器初始化模块,其用于在中心服务器中预先设置好强化学习模型参数,向参与联邦的客户端发送初始化的强化学习模型参数;所述的强化学习模型包括策略网络和评价网络;
本地数据库模块,其分布在每一个独立的客户端中,用于收集本地的用户交互数据;
本地模型训练模块,其分布在每一个独立的客户端中,用于根据中心服务器发送的强化学习模型参数,加载本地模型,并从本地数据库模块中读取数据进行预处理操作,利用预处理后的本地数据对本地模型进行训练;
数据传输模块,其用于将随机选中的客户端的本地模型参数上传到中心服务器端,并用于将中心服务器端聚合后的全局模型参数下传到本地模型训练模块;
自注意力模块,其用于获取每个选中的客户端的本地模型训练指标,计算上传的本地模型参数的加权值作为全局模型参数。
本实施例中,所述的本地模型训练模块中内置计数器,用于判断本地训练轮次是否达到预设轮次;
若是,则将最后一次本地训练结束后得到的本地模型作为各个客户端的个性化本地模型,用于生成符合用户操作习惯的序列化推荐方案;
若否,则继续将随机选中的本地模型参数利用数据传输模块上传至中心服务器端。
关于上述实施例中的系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,各个模块可以是或者也可以不是物理上分开的。另外,在本发明中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现,以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于联邦学习的序列推荐方法,其特征在于,包括以下步骤:
步骤1:中心服务器预先设置好强化学习模型参数,向参与联邦的客户端发送初始化的强化学习模型参数;所述的强化学习模型包括策略网络和评价网络;
步骤2:各个客户端独立观察本地环境状态,收集本地的用户交互数据,存储到本地数据库;
步骤3:各个客户端根据中心服务器发送的强化学习模型参数,加载本地模型,并从本地数据库中读取数据进行预处理操作,利用预处理后的本地数据对本地模型进行训练;所有的客户端均在“状态-行动-奖励-状态”循环中训练各自的本地模型;
所述的步骤3包括:
步骤3.1:对用户交互数据进行词嵌入处理,得到用户嵌入向量u_i和项目嵌入向量{i_b|b=1,2,...,n};其中,u_i表示第i个用户的嵌入向量,i_b表示第i个用户的第b个项目的嵌入向量,n表示项目的数量;
步骤3.2:将最近一段时间内的若干个用户嵌入向量和项目嵌入向量作为策略网络的输入,利用状态表示模块得到用户的状态向量s;
所述的步骤3.2具体为:
3.2a.对项目嵌入向量{i_b|b=1,2,...,n}进行加权元素级相乘后进行平均池化,得到池化后的项目嵌入向量{g(i_b)|b=1,2,...,n},其中{g(i_b)=ave(w_b*i_b)|b=1,2,...,n}表示第i个用户的第b个项目的加权平均嵌入向量,g(.)表示加权平均池化操作,w_b表示第b个项目的权重,ave(.)表示计算每一个项目占所有项目加权和的比例;
3.2b.对用户嵌入向量u_i和项目的加权平均嵌入向量{g(i_b)|b=1,2,...,n}连接起来,得到引入个人信息的项目嵌入向量
Figure FDA0003709324370000011
3.2c.将用户嵌入向量、引入个人信息的项目嵌入向量、池化后的项目嵌入向量拼接,作为状态表示模块的输出,即
Figure FDA0003709324370000012
步骤3.3:将步骤3.2得到的状态向量s依次经过ReLU和Tanh激活层,转化为动作信息向量a,计算候选项目的排名分数;
步骤3.4:将步骤3.2得到的状态向量s和步骤3.3得到的动作信息向量a作为评价网络的输入,所述的状态表示s经ReLU激活层转化后再与动作信息向量a进行拼接,拼接向量依次经ReLU和Tanh激活层得到Q值,根据Q值大小来更新策略网络的参数,直至收敛;
步骤4:待各个客户端的本地模型收敛后,将随机选中客户端的本地模型参数上传到中心服务器端;
将每个选中的客户端的本地模型训练指标作为一个参数组合,采用自注意力机制获取本地模型的权重值,计算上传的本地模型参数的加权值作为全局模型参数,并将全局模型参数传回本地客户端;
步骤5:判断联邦学习训练轮次是否达到预设轮次;
若是,则将最后一次本地训练结束后得到的本地模型作为各个客户端的个性化本地模型,用于生成符合用户操作习惯的序列化推荐方案;
若否,则重复步骤3-4,各个客户端开始下一次的参数上传及迭代训练。
2.根据权利要求1所述的基于联邦学习的序列推荐方法,其特征在于,所述的用户交互数据包括带有时间戳的项目信息和个人信息。
3.根据权利要求1所述的基于联邦学习的序列推荐方法,其特征在于,所述的候选项目的排名分数计算公式为:score_t=i_t*aT;其中,i_t表示t时刻的候选项目,score_t表示候选项目的分数,上角标T表示转置。
4.根据权利要求1所述的基于联邦学习的序列推荐方法,其特征在于,所述的步骤4中聚合全局模型参数的方法包括:
步骤4.1:获取每个选中的客户端的本地模型训练指标向量K_r:
Figure FDA0003709324370000021
其中,
Figure FDA0003709324370000022
为第r个本地模型的平均奖励,
Figure FDA0003709324370000023
为第r个本地模型的平均损失,M_r是第r个本地模型的经验重放内存的大小,m_r是第r个本地模型的训练批数据大小,
Figure FDA0003709324370000024
为第r个本地模型的平均准确率;
步骤4.2:将每一个选中的本地模型训练指标向量K_r作为注意力机制的键向量,将每一个选中的本地模型参数作为注意力机制的值向量V_r,定义注意力机制的查询向量Q:
Figure FDA0003709324370000025
其中,r∈R表示第r个本地模型,R表示选中的需要上传参数的本地客户端集合,maxr表示在R个本地模型指标中取最大值,minr表示在R个本地模型指标中取最小值;
步骤4.3:计算每一个本地模型的权重:
Figure FDA0003709324370000031
其中,d_k是训练指标向量K_r的维度;
步骤4.4:将由每一个本地模型参数代表的值向量V_r和权重W_r进行加权计算,得到全局模型参数。
5.根据权利要求1所述的基于联邦学习的序列推荐方法,其特征在于,利用训练好的本地模型进行序列化推荐时,将本地数据库中最近时间段的用户交互数据经步骤3中的预处理操作进行处理,预处理后作为训练好的本地模型中的策略网络的输入,根据候选项目的排名分数输出推荐结果。
6.一种基于联邦学习的序列推荐系统,其特征在于,用于实现权利要求1所述的序列推荐方法;所述的序列推荐系统包括:
中心服务器初始化模块,其用于在中心服务器中预先设置好强化学习模型参数,向参与联邦的客户端发送初始化的强化学习模型参数;所述的强化学习模型包括策略网络和评价网络;
本地数据库模块,其分布在每一个独立的客户端中,用于收集本地的用户交互数据;
本地模型训练模块,其分布在每一个独立的客户端中,用于根据中心服务器发送的强化学习模型参数,加载本地模型,并从本地数据库模块中读取数据进行预处理操作,利用预处理后的本地数据对本地模型进行训练;
数据传输模块,其用于将随机选中的客户端的本地模型参数上传到中心服务器端,并用于将中心服务器端聚合后的全局模型参数下传到本地模型训练模块;
自注意力模块,其用于获取每个选中的客户端的本地模型训练指标,计算上传的本地模型参数的加权值作为全局模型参数。
7.根据权利要求6所述的基于联邦学习的序列推荐系统,其特征在于,所述的本地模型训练模块中内置计数器,用于判断本地训练轮次是否达到预设轮次;
若是,则将最后一次本地训练结束后得到的本地模型作为各个客户端的个性化本地模型,用于生成符合用户操作习惯的序列化推荐方案;
若否,则继续将随机选中的本地模型参数利用数据传输模块上传至中心服务器端。
CN202210490648.6A 2022-05-07 2022-05-07 一种基于联邦学习的序列推荐方法和系统 Active CN114595396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210490648.6A CN114595396B (zh) 2022-05-07 2022-05-07 一种基于联邦学习的序列推荐方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210490648.6A CN114595396B (zh) 2022-05-07 2022-05-07 一种基于联邦学习的序列推荐方法和系统

Publications (2)

Publication Number Publication Date
CN114595396A CN114595396A (zh) 2022-06-07
CN114595396B true CN114595396B (zh) 2022-10-11

Family

ID=81821758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210490648.6A Active CN114595396B (zh) 2022-05-07 2022-05-07 一种基于联邦学习的序列推荐方法和系统

Country Status (1)

Country Link
CN (1) CN114595396B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292612B (zh) * 2022-10-10 2023-01-24 北京锘崴信息科技有限公司 基于隐私保护的信息和金融信息推荐方法及装置
CN116226540B (zh) * 2023-05-09 2023-09-26 浙江大学 一种基于用户兴趣域的端到端联邦个性化推荐方法和系统
CN116361561A (zh) * 2023-05-30 2023-06-30 安徽省模式识别信息技术有限公司 一种基于变分推理的分布式跨界服务推荐方法及系统
CN117150416B (zh) * 2023-10-27 2024-03-08 烟台大学 一种工业互联网异常节点的检测方法、系统、介质及设备
CN117557870B (zh) * 2024-01-08 2024-04-23 之江实验室 基于联邦学习客户端选择的分类模型训练方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507219A (zh) * 2020-12-07 2021-03-16 中国人民大学 一种基于联邦学习增强隐私保护的个性化搜索系统
CN113626687A (zh) * 2021-07-19 2021-11-09 浙江师范大学 以联邦学习为核心的在线课程推荐方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021185427A1 (en) * 2020-03-16 2021-09-23 Huawei Technologies Co., Ltd. Generation of personalized recommendations
US20210406782A1 (en) * 2020-06-30 2021-12-30 TieSet, Inc. System and method for decentralized federated learning
CN113191484B (zh) * 2021-04-25 2022-10-14 清华大学 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN113420232B (zh) * 2021-06-02 2022-05-10 杭州电子科技大学 一种面向隐私保护的图神经网络联邦推荐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507219A (zh) * 2020-12-07 2021-03-16 中国人民大学 一种基于联邦学习增强隐私保护的个性化搜索系统
CN113626687A (zh) * 2021-07-19 2021-11-09 浙江师范大学 以联邦学习为核心的在线课程推荐方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Data Protection-Oriented Design Procedure for a Federated Learning Framework;Yu,Y(Yu Yue) et al.;《2020 12TH INTERNATIONAL CONFERENCE ON WIRELESS COMMUNICATIONS AND SIGNAL PROCESSING (WCSP)》;20201228;第968-974页 *

Also Published As

Publication number Publication date
CN114595396A (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN114595396B (zh) 一种基于联邦学习的序列推荐方法和系统
US20220027359A1 (en) Online hyperparameter tuning in distributed machine learning
Yang et al. Operation-aware neural networks for user response prediction
CN113191484B (zh) 基于深度强化学习的联邦学习客户端智能选取方法及系统
Liu et al. State representation modeling for deep reinforcement learning based recommendation
Jiang et al. Stacked autoencoder-based deep reinforcement learning for online resource scheduling in large-scale MEC networks
Zhang et al. Field-aware neural factorization machine for click-through rate prediction
Lee et al. A genetic fuzzy agent using ontology model for meeting scheduling system
CN108280104A (zh) 目标对象的特征信息提取方法及装置
Liao et al. Accurate sub-swarms particle swarm optimization algorithm for service composition
CN111563770A (zh) 一种基于特征差异化学习的点击率预估方法
CN114896899B (zh) 一种基于信息交互的多智能体分散式决策方法及系统
CN113449183B (zh) 基于离线用户环境和动态奖励的交互式推荐方法和系统
CN112948885B (zh) 实现隐私保护的多方协同更新模型的方法、装置及系统
CN112765461A (zh) 一种基于多兴趣胶囊网络的会话推荐方法
Chen et al. Generative inverse deep reinforcement learning for online recommendation
Liu et al. Top-aware reinforcement learning based recommendation
Xiao et al. User behavior prediction of social hotspots based on multimessage interaction and neural network
CN114595383A (zh) 一种基于会话序列的海洋环境数据推荐方法及系统
Long et al. Fedsiam: Towards adaptive federated semi-supervised learning
CN113361928B (zh) 一种基于异构图注意力网络的众包任务推荐方法
Xu et al. Prediction and big data impact analysis of telecom churn by backpropagation neural network algorithm from the perspective of business model
Wang Multimodal emotion recognition algorithm based on edge network emotion element compensation and data fusion
Baker et al. Machine learning: factorization machines and normalized discounted cumulative gain for tourism recommender system optimisation
CN116578774A (zh) 一种预估排序方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant