CN114564742B - 一种基于哈希学习的轻量化联邦推荐方法 - Google Patents

一种基于哈希学习的轻量化联邦推荐方法 Download PDF

Info

Publication number
CN114564742B
CN114564742B CN202210150584.5A CN202210150584A CN114564742B CN 114564742 B CN114564742 B CN 114564742B CN 202210150584 A CN202210150584 A CN 202210150584A CN 114564742 B CN114564742 B CN 114564742B
Authority
CN
China
Prior art keywords
binary
client
matrix
user
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210150584.5A
Other languages
English (en)
Other versions
CN114564742A (zh
Inventor
李浥东
张洪磊
金�一
陈乃月
徐群群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202210150584.5A priority Critical patent/CN114564742B/zh
Publication of CN114564742A publication Critical patent/CN114564742A/zh
Application granted granted Critical
Publication of CN114564742B publication Critical patent/CN114564742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于哈希学习的轻量化联邦推荐方法。该方法包括:初始化服务端全局模型并下发参数;初始化客户端本地模型并下载全局参数;设计联邦推荐场景下基于哈希学习的目标函数,根据协同离散优化算法得到二值化的用户特征向量与物品特征矩阵;根据二值的用户特征向量和物品特征矩阵完成本地客户端上的高效推荐任务。本发明通过在联邦推荐框架下设计高效的哈希学习策略,可以在本地客户端得到紧致的二值用户与物品离散特征,较之于连续实值的特征表示,该二值特征在资源受限的本地客户端上具有显著提高推荐效率、减少存储与通信开销并增强隐私保护能力的多重优势。

Description

一种基于哈希学习的轻量化联邦推荐方法
技术领域
本发明涉及推荐系统技术领域,尤其涉及一种基于哈希学习的轻量化联邦推荐方法。
背景技术
随着大数据时代的悄然而至,互联网产生数据的速度远远超过用户所能处理数据的速度,以至于造成用户不能及时运用有效信息的情况,最终导致信息过载现象的发生。推荐系统作为缓解信息过载问题的有效途径,利用用户与物品的历史交互数据以及各自固有的内容属性特征进行个性化建模,以此实现对于用户未来可能感兴趣的物品进行精准预测的功能,因而该技术得到了学术界与工业界的广泛关注。
推荐系统根据其所利用具体数据的不同,可进一步划分为利用属性信息的基于内容的方法以及利用历史行为信息的协同过滤方法。近年来,由于深度学习出色的表示能力,基于深度学习的推荐算法能够高效地利用海量的训练样本,并且能够有效整合多种附加信息(比如社交信息、文本信息、图像信息等),以此缓解推荐系统固有的数据稀疏与冷启动问题。然而,融合用户大量个人信息往往会对用户的隐私和数据安全问题产生担忧,因为海量信息中不可避免的存在用户个人数据以及敏感信息,因此平台需要收集更多的训练数据以提升推荐性能与用户为保护隐私而尽可能少量的共享个人数据间的矛盾逐渐凸显。综上,基于隐私保护的推荐算法成为了近年来推荐系统领域关注的重点。
目前,传统的隐私保护推荐算法主要采用差分隐私等机制添加数据扰动或者利用同态加密等密码学的方式实现对于个人敏感信息的隐私保护。然而,上述传统隐私保护推荐算法需要额外的计算开销来进行加密与解密操作,并且需要将个人数据收集到中心服务端进行存储与训练,因此在原始数据传输等过程中仍然存在隐私泄露与安全威胁的问题。另外,由于上述关于隐私与安全问题的担忧造成了多方参与者不能安全高效的进行数据共享,最终导致数据孤岛现象进而影响整体模型的预测性能。
得益于近年来分布式学习与边缘计算的飞速发展,以及互联网生态逐渐移动化与开放化,使得用户终端设备有能力存储并训练相当容量的数据。联邦推荐学习充分发挥终端设备的计算能力并协同服务端联合优化全局模型,同时能够使得原始数据保留在本地而较好的保护用户隐私信息,这一新兴的隐私保护范式逐渐得到大家的认可。由于推荐系统的数据来源存在天然的分布式特性,以及用户对于推荐服务严苛的实时性要求,因此近年来端云架构下结合联邦学习的推荐算法取得了较大的进展,比如经典的基于隐式反馈数据的联邦协同过滤算法FCF以及基于显式反馈数据的联邦推荐算法FedRec。现有的联邦推荐学习方法大多假设服务端与客户端的模型规模一致,并基于欧式空间的连续实值嵌入特征进行推理预测。
上述现有技术中的联邦推荐算法的缺点为:通常假设服务端与客户端的模型规模一致,并且基于欧式空间的连续实值嵌入特征进行推理预测。随着用户和物品数量迅猛增长,通过内积进行预测的推荐效率严重受限于在线用户和物品的数量,因此难以适用于大规模推荐任务。另外,尽管在用户与物品交互数据中学习二者的连续实值嵌入向量能够保持良好的推荐性能,但在联邦推荐场景下进行连续嵌入空间的用户偏好推断的计算代价、存储代价以及通信开销是巨大的。具体的,针对于移动客户端有限的计算与存储资源,大规模的推荐模型需要巨大的计算资源在欧式空间进行最近邻搜索,并且客户端上的内存容量相比于服务端的大型服务器来说是非常有限的。另外,由于联邦推荐场景下需要服务端与客户端进行参数通信进而协同优化全局推荐模型,因此上述连续实值特征除了在本地客户端增加计算与存储开销外,同样也增加了服务端与客户端之间的通信成本,并且随着物品数量的增加上述问题会越来越严重。综上,当前的联邦推荐算法忽略了客户端对于计算资源、存储资源以及通信带宽资源的严格限制,最终使得服务端的实值全局模型难以在移动客户端上高效运行。
另外,在联邦推荐场景下进行实值参数传输的过程中并非是严格的保护隐私的,有相关的文献表明根据相邻两轮更新的梯度信息能够推断出原始的用户对于物品的评分记录。因此,为了加强联邦推荐优化过程中的参数隐私保护程度,目前常用的隐私保护机制是采用差分隐私方法等添加数据扰动或者利用加密的方式(比如同态加密与安全多方计算等)实现对于敏感信息的隐私保护。然而添加扰动的方法需要严格的数学假设并且不可避免的对原始数据引入偏差。而加密的方式虽然能够实现对于原始数据的无损保护,但加密操作往往需要更大的计算量最终使得模型的实时性大打折扣。
因此亟需设计一种能够兼顾客户端有限计算资源、存储资源以及带宽资源并且具有隐私保护能力的联邦推荐算法。
发明内容
本发明的实施例提供了一种基于哈希学习的轻量化联邦推荐方法,以实现基于二值特征进行有效的联邦推荐场景下的用户物品推荐。
为了实现上述目的,本发明采取了如下技术方案。
一种基于哈希学习的轻量化联邦推荐方法,包括:
在服务端维护全局二值矩阵分解模型参数,向客户端下发全局二值矩阵分解模型;
客户端初始化本地二值矩阵分解模型,并从服务端下载全局二值矩阵分解模型参数,维护本地的二值用户特征向量和二值物品特征矩阵;
在服务端设定联邦推荐场景下哈希学习的目标函数,基于所述目标函数通过离散优化算法在服务端与客户端之间进行协同离散迭代优化,得到全局最优的二值矩阵分解模型,使得每个客户端得到各自独有的二值用户特征向量与全局的二值物品特征矩阵。
根据每个客户端的二值用户特征向量和二值物品特征矩阵借助逻辑运算完成本地客户端的预测任务,将预测评分较高的若干物品推荐给相应客户端。
优选地,所述的在服务端维护全局二值矩阵分解模型参数,向客户端下发全局二值矩阵分解模型,包括:
所述服务端与每个客户端通过无线网络进行数据通信,管理所有客户端的优化过程,维护全局二值矩阵分解模型的参数信息,所述全局二值矩阵分解模型包括二值的用户特征矩阵P∈{±1}f×m与物品特征矩阵Q∈{±1}f×n,f表示特征向量的维度,m表示用户的数量,n表示物品数量,全局二值矩阵分解模型权重的初始化从{±1}集合中按位进行均匀采样得到,服务端向每个客户端下发全局二值矩阵分解模型。
优选地,所述的客户端初始化本地二值矩阵分解模型,并从服务端下载全局二值矩阵分解模型参数,维护本地的二值用户特征向量和二值物品特征矩阵,包括:
所述客户端为用户的移动端设备,客户端u拥有私有的本地数据其中/>表示用户u在本地所交互过的物品集合,r∈{0,1}表示用户u对于物品i交互的结果,客户端u维护自己私有的二值用户特征向量/>和本地的二值物品特征矩阵Q∈{±1}f×n,其中pu为用户特征矩阵P∈{±1}f×m的第u列,待一轮更新后客户端将本地的二值用户特征向量和二值物品特征矩阵上传到服务端。
优选地,所述的在服务端设定联邦推荐场景下哈希学习的目标函数,包括:
在服务端设定的联邦推荐场景下哈希学习的目标函数定义如下:
s.t.pu∈{±1}f,qi∈{±1}f
其中,是由训练集中(u,i,r)三元组构成的集合,/>和/>分别表示用户u和物品i的二值特征向量,分别对应于矩阵P的第u列和矩阵Q的第i列,其中f表示向量的长度;
在上式目标函数定义的基础上添加两个约束项:P1m=0和Q1n=0用于保证特征编码的均衡性,PPT=mIf和QQT=nIf用于保证特征编码之间的独立性;定义两个连续变量和/>将编码均衡约束和编码独立约束条件进行放松,所述目标函数被等价转换为如下优化问题:
其中,α,β>0为超参数,用于调节待优化变量的放松程度,在上式基础上添加离散约束形式,即P∈{±1}f×m和Q∈{±1}f×n,添加编码均衡性与对立性约束项,即X1m=0,Y1n=0用来保证编码均衡性,XXT=mIf,YYT=nI用来保证编码独立性。
优选地,所述的基于所述目标函数通过离散优化算法在服务端与客户端之间进行协同离散迭代优化,得到全局最优的二值矩阵分解模型,使得每个客户端得到各自独有的二值用户特征向量与全局的二值物品特征矩阵,包括:
基于所述目标函数利用离散坐标下降算法逐位对用户二值特征矩阵P或者物品二值特征矩阵Q进行更新,借助奇异值分解算法更新辅助变量矩阵X/Y,在服务端与客户端之间进行协同离散迭代优化,待本地客户端更新完成后上传本地的二值用户特征向量和二值物品特征矩阵给服务端,服务端将各个客户端上传的二值用户特征向量和二值物品特征矩阵进行聚合更新,重复上述步骤,不断交替更新参数P,Q,X,Y,直到满足收敛条件,停止训练过程,服务端输出全局最优的二值矩阵分解模型,使得每个客户端得到各自独有的二值用户特征矩阵P与全局的二值物品特征矩阵Q。
优选地,所述的基于所述目标函数通过离散优化算法在服务端与客户端之间进行协同离散迭代优化,得到全局最优的二值矩阵分解模型,使得每个客户端得到各自独有的二值用户特征向量与全局的二值物品特征矩阵,包括:
步骤S3-1:针对于联邦推荐场景下求解用户特征矩阵P,固定参数Q,X,Y,对每个客户端进行单独并行的求解,基于客户端本地数据采用离散坐标下降算法对每个客户端私有二值用户特征向量pu进行逐位更新,定义/>和/>其中puk和qik分别表示pu和qi的第k位,/>和/>分别表示除去puk和qik其余哈希码所组成的向量,具体puk的更新规则如下:
其中,当a≠0时,F(a,b)=a,否则F(a,b)=b;如果不对puk进行更新;
步骤S3-22针对于联邦推荐场景下求解物品特征矩阵Q,固定参数P,X,Y,在每个客户端进行单独求解,基于客户端本地数据采用离散坐标下降算法对客户端u所交互物品i的特征向量qi进行逐位更新;具体pik的更新规则如下:
同样,如果则更新qik,否则不对qik进行更新;
客户端首先进行用户二值特征向量的权重参数初始化,然后进行多轮次的本地模型训练,在某轮次的局部更新过程中,客户端首先按位对私有用户二值特征向量进行更新,随后进行用户所交互过的物品集合的特征更新,最后返回用户二值特征向量与当前轮次的部分物品特征矩阵;
步骤S3-3:针对于联邦推荐场景下求解X子问题,首先固定参数P,Q,Y,然后在服务端进行聚合求解,聚合所有的用户向量构成二值用户矩阵P=[p1,p2,…,pm],具体X的更新规则如下:
其中Bb和Db分别表示将矩阵通过奇异值分解SVD得到的左奇异矩阵和右奇异矩阵;/>表示SVD过程中零特征值对应的特征矩阵;此外,通过对[Db1]进行施密特正交化得到/>
步骤S3-4:针对于联邦推荐场景下求解Y子问题,首先固定参数P,Q,X,然后在服务端进行聚合求解,具体Y的更新规则如下:
其中Bd和Dd分别表示将矩阵通过SVD得到的左奇异矩阵和右奇异矩阵;/>表示SVD过程中零特征值对应的特征矩阵;此外,通过对[Dd1]进行施密特正交化得到/>
服务端首先进行初始化模型的权重参数,然后进行多轮次的服务端与客户端的协同优化,直到模型收敛输出用户二值特征矩阵与物品二值特征矩阵,在某轮次的更新过程中,服务端并行执行客户端的本地模型训练得到来自客户端上传的用户特征向量以及部分物品特征向量,在服务端进行物品特征矩阵聚合更新操作,在拼接完来自客户端的二值特征向量得到特征矩阵后进行辅助参数的更新,最后缩减学习率进行下一轮次的更新步骤;
迭代执行S3-1到S3-4步骤,直到满足收敛条件,训练过程停止,最后在每个客户端获得二值化的用户特征向量pu以及在服务端获得全局物品特征矩阵Q。
优选地,所述的根据每个客户端的二值用户特征向量和二值物品特征矩阵借助逻辑运算完成本地客户端的预测任务,将预测评分较高的若干物品推荐给相应客户端,包括:
对于客户端u,根据客户端u的二值用户特征向量pu和二值物品特征矩阵Q在海明空间借助逻辑运算预测未观测评分向量对未观测评分向量/>进行降序排列,并将预测分值较高的若干物品列表推荐给客户端u的用户。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例通过在联邦推荐框架下设计高效的哈希学习策略,可以在本地客户端得到紧致的二值用户与物品离散特征,基于二值特征进行有效的联邦推荐场景下的用户物品推荐。本发明方法较之于连续实值的特征表示,该二值特征在资源受限的本地客户端上具有显著提高推荐效率、减少存储与通信开销并增强隐私保护能力的多重优势。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于哈希学习的轻量化联邦推荐方法处理流程图;
图2为本发明实施例提供的一种基于哈希学习的轻量化联邦推荐方法架构示意图;
图3为本发明中关于计算开销的对比实验结果图。
图4为本发明中关于存储开销与通信开销的对比实验结果图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例提出了一种基于哈希学习的轻量化联邦推荐方法。通过在联邦推荐框架下设计高效的哈希学习策略,可以在资源有限的本地客户端得到紧致的用户与物品二值离散特征,基于二值特征进行联邦推荐场景下的推理预测。
本发明实施例提供的一种基于哈希学习的轻量化联邦推荐方法的实现原理示意图如图1所示,具体处理流程如图2所示,包括以下处理步骤:
步骤S1:在服务端维护全局二值矩阵分解模型参数,进行全局二值矩阵分解模型的权重初始化,向客户端下发全局二值矩阵分解模型。
步骤S2:客户端从服务端下载全局二值矩阵分解模型参数,完成本地二值用户特征向量和二值物品特征矩阵的初始化工作,并维护本地的二值用户特征向量和二值物品特征矩阵。
步骤S3:将所有用户的二值用户特征和二值物品特征上传到服务端,在服务端设定联邦推荐场景下哈希学习的目标函数,并设计二值矩阵分解模型的离散优化算法,基于上述目标函数通过上述离散优化算法在服务端与客户端之间进行协同离散迭代优化,得到全局最优的二值矩阵分解模型,在客户端更新用户特征向量,在服务端更新物品特征矩阵,使得每个客户端得到各自独有的二值用户特征向量与全局的二值物品特征矩阵。
步骤S4:根据每个客户端的二值用户特征向量和二值物品特征矩阵在海明空间借助逻辑运算完成本地客户端的高效预测任务,将预测评分较高的若干物品推荐给相应用户。
具体的,上述步骤S1中的服务端是指中央协调方,服务端与每个客户端通过无线网络进行数据通信,管理所有客户端的优化过程,并维护服务端全局二值矩阵分解模型的参数信息,上述服务端全局二值矩阵分解模型包括二值的用户特征矩阵P∈{±1}f×m与物品特征矩阵Q∈{±1}f×n。其中,f表示特征向量的维度,m表示用户的数量,n表示物品数量。模型权重的初始化从{±1}集合中按位进行均匀采样得到。服务端向每个客户端下发全局二值矩阵分解模型。
本发明在基于哈希学习的联邦推荐场景下为了保证学得的二值表示能够保持编码均衡性与独立性,因此有必要维护二值用户矩阵。由于服务端只保存了用户特征的二值离散表示,较之于传统的连续空间表示,其可以很好的保护用户个人的敏感信息。
具体的,上述步骤S2中的客户端是指参与本地模型训练的用户,可以为用户的移动端设备,其目的是配合服务端完成全局模型的更新。对于本地客户端u,其拥有私有的本地数据其中/>表示用户u所交互过的物品集合,r∈{0,1}表示用户u对于物品i交互的结果。另外,客户端维护自己私有的二值用户特征向量/>以及本地的二值物品特征矩阵Q∈{±1}f×n。其中pu为用户特征矩阵P∈{±1}f×m的第u列。待一轮更新后客户端将本地的二值用户特征向量pu和二值物品特征矩阵Q上传到服务端。注意,由于联邦推荐场景下客户端之间只能维护自己独有的用户数据以及用户特征,因此相比于传统集中式的推荐算法来说,上述限制可以起到保护用户敏感信息隐私的目的。
具体的,上述步骤S3中联邦推荐场景下哈希学习的目标函数定义如下:
s.t.pu∈{±1}f,qi∈{±1}f
其中,是由训练集中(u,i,r)三元组构成的集合,/>和/>分别表示用户u和物品i的二值特征向量,分别对应于矩阵P的第u列和矩阵Q的第i列,其中f表示向量的长度。通过约束用户和物品特征矩阵为离散表示形式,相比于传统连续的特征表示,其具有推荐效率高、存储容量占用低以及隐私保护能力强等特点。为了进一步学习到更优的离散特征表示,需要在上式的基础上添加两个约束项,P1m=0和Q1n=0用于保证特征编码的均衡性,PPT=mIf和QQT=nIf用于保证特征编码之间的独立性。
值得注意的是,在传统哈希学习方法上可以直接进行上述约束求解,但在联邦推荐场景下由于用户的二值特征向量pu保存在本地,因此在本地客户端无法直接完成编码平衡性与独立性的矩阵形式约束。为了适配联邦推荐场景下的离散优化算法,可行的解决方案是将客户端的二值用户特征向量聚合到服务端进行约束项求解。由于二值特征向量相比于传统连续特征向量来说可以起到隐私保护的作用,因此可以安全地将所有用户的二值特征上传到服务端,进而完成客户端与服务端的协同离散优化过程。
由于求解上述目标函数需要较高的复杂度,因此本发明通过放松上述两个约束,在上述的基础上定义两个连续变量进而将编码均衡约束和编码独立约束条件进行放松。因此上述目标函数被等价转换为如下优化问题:
其中,α,β>0为超参数,用于调节待优化变量的放松程度。在此基础上为了学习到用户和物品的二值特征表示,因此需要添加两者的离散约束形式,即P∈{±1}f×m和Q∈{±1}f×n。并且为了学到更优的离散特征表示,需要添加编码均衡性与对立性约束项,即X1m=0,Y1n=0用来保证编码均衡性,XXT=mIf,YYT=nI用来保证编码独立性。
根据以上所述的方法,其特征在于,所述的步骤S3中设计的二值二值矩阵分解模型的离散优化算法如下:
具体的,利用离散坐标下降(Discrete Coordinate Descent,DCD)算法逐位对用户二值特征矩阵P或者物品二值特征矩阵Q进行更新;借助奇异值分解(Singular ValueDecomposition,SVD)算法更新辅助变量矩阵X/Y。重复上述步骤,不断交替更新参数P,Q,X,Y,直到满足收敛条件,停止训练过程,最后输出二值化的用户特征矩阵P和物品特征矩阵Q。
步骤S3-1:针对于联邦推荐场景下求解P子问题,首先固定参数Q,X,Y,然后对每个客户端进行单独并行的求解,基于客户端本地数据采用离散坐标下降算法对每个客户端私有二值用户特征向量pu进行逐位更新,定义/>和/>其中puk和qik分别表示pu和qi的第k位,/>和/>分别表示除去puk和qik其余哈希码所组成的向量,具体puk的更新规则如下:
其中,当a≠0时,F(a,b)=a,否则F(a,b)=b;如果不对puk进行更新;
步骤S3-2:针对于联邦推荐场景下求解Q子问题,首先固定参数P,X,Y,然后在每个客户端进行单独求解,同样基于客户端本地数据采用离散坐标下降算法对客户端u所交互物品i的特征向量qi进行逐位更新;具体pik的更新规则如下:
同样,如果则更新qik,否则不对qik进行更新。
根据上述的方法,其特征在于,所述的步骤S3中关于客户端的更新流程如下:
本地客户端首先进行用户二值特征向量的权重参数初始化(第1行),然后进行多轮次的本地模型训练(第2-10行)。在第e轮次的局部更新过程中,客户端首先按位对私有二值特征向量进行更新(第3-5行),随后进行用户所交互过的物品集合的特征更新(第6-10行),最后返回用户二值特征向量与当前轮次的部分物品特征矩阵。待一轮更新后,客户端将本地的二值用户特征向量pu和二值物品特征矩阵Q上传到服务端。
步骤S3-3:针对于联邦推荐场景下求解X子问题,首先固定参数P,Q,Y,然后在服务端进行聚合求解,由于用户特征向量分布在不同的客户端中,因此在更新辅助变量前需要聚合所有的用户向量构成二值用户矩阵P=[p1,p2,…,pm]。具体X的更新规则如下:
其中Bb和Db分别表示将矩阵通过奇异值分解SVD得到的左奇异矩阵和右奇异矩阵;/>表示SVD过程中零特征值对应的特征矩阵;此外,通过对[Db1]进行施密特正交化得到/>
步骤S3-4:针对于联邦推荐场景下求解Y子问题,首先固定参数P,Q,X,然后在服务端进行聚合求解,具体Y的更新规则如下:
其中Bd和Dd分别表示将矩阵通过SVD得到的左奇异矩阵和右奇异矩阵;/>表示XVD过程中零特征值对应的特征矩阵;此外,通过对[Dd1]进行施密特正交化得到/>
根据上述的方法,其特征在于,所述的步骤S3中关于服务端的更新流程如下:
服务端首先进行初始化模型的权重参数(第1行),然后进行多轮次的服务端与客户端的协同优化(第2-11行),直到模型收敛输出用户二值特征矩阵与物品二值特征矩阵。在第t轮次的更新过程中,服务端并行执行客户端的本地模型训练(第2-5行)得到来自客户端上传的用户特征向量以及部分物品特征向量。随后在服务端进行物品特征矩阵聚合更新操作(第6行),在拼接完来自客户端的二值特征向量得到特征矩阵(第7行)后进行辅助参数的更新(第8-9行),最后缩减学习率(第10行)进行下一轮次的更新步骤。
迭代执行S3-1到S3-4步骤,直到满足收敛条件,训练过程停止。最后在每个客户端获得二值化的用户特征向量pu以及在服务端获得全局物品特征矩阵Q。通过中央服务端协同客户端进行优化,得到全局最优的二值矩阵分解模型。在推荐性能可比的情况下,可以大大的缩减客户端的计算开销、存储开销以及通信开销能,实验对比结果图可见附图3与图4。
具体的,在上述步骤S4中:对于特定客户端用户u的本地推荐任务,具体包括:
根据每个客户端所述二值用户特征向量pu和二值物品特征矩阵Q预测未观测评分向量对未观测评分向量/>进行降序排列,并将预测分值较高的若干物品列表推荐给用户。
综上所述,本发明实施例提出了一种基于哈希学习的轻量化联邦推荐方法。通过在联邦推荐框架下设计高效的哈希学习策略,可以在资源有限的本地客户端得到紧致的用户与物品二值离散特征,以实现基于二值特征进行有效的联邦推荐场景下的用户物品推荐。
本发明实施例的基于哈希学习的轻量化联邦推荐方法相比于连续实值特征表示来说在推荐性能接近的情况下,还具有如下四方面优势:(1)该二值特征较之于欧式空间的连续实值特征表示,可以在海明空间借助逻辑运算进行高效的近邻搜索进而显著提高推荐效率;(2)二值特征较之于稠密的浮点表示,可以通过按位存储进而大大降低客户端上的存储开销;(3)二值离散特征相比于稠密的连续特征表示可以显著减少联邦优化过程中多轮次的通信成本;(4)二值离散特征相比于连续的特征表示,其难以通过严格的数学推导反推出用户原始信息进而起到增强隐私保护的作用。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种基于哈希学习的轻量化联邦推荐方法,其特征在于,包括:
在服务端维护全局二值矩阵分解模型参数,向客户端下发全局二值矩阵分解模型;
客户端初始化本地二值矩阵分解模型,并从服务端下载全局二值矩阵分解模型参数,维护本地的二值用户特征向量和二值物品特征矩阵;
在服务端设定联邦推荐场景下哈希学习的目标函数,基于所述目标函数通过离散优化算法在服务端与客户端之间进行协同离散迭代优化,得到全局最优的二值矩阵分解模型,使得每个客户端得到各自独有的二值用户特征向量与全局的二值物品特征矩阵;
根据每个客户端的二值用户特征向量和二值物品特征矩阵借助逻辑运算完成本地客户端的预测任务,将预测评分较高的若干物品推荐给相应客户端;
所述的基于所述目标函数通过离散优化算法在服务端与客户端之间进行协同离散迭代优化,得到全局最优的二值矩阵分解模型,使得每个客户端得到各自独有的二值用户特征向量与全局的二值物品特征矩阵,包括:
步骤S3-1:针对于联邦推荐场景下求解用户特征矩阵P,固定参数Q,X,Y,对每个客户端进行单独并行的求解,基于客户端本地数据采用离散坐标下降算法对每个客户端私有二值用户特征向量pu进行逐位更新,定义/>和/>其中puk和qik分别表示pu和qi的第k位,/>和/>分别表示除去puk和qik其余哈希码所组成的向量,具体puk的更新规则如下:
其中,当a≠0时,F(a,b)=a,否则F(a,b)=b;如果不对puk进行更新;
步骤S3-2:针对于联邦推荐场景下求解物品特征矩阵Q,固定参数P,X,Y,在每个客户端进行单独求解,基于客户端本地数据采用离散坐标下降算法对客户端u所交互物品i的特征向量qi进行逐位更新;具体pik的更新规则如下:
其中,α,β>0为超参数,用于调节待优化变量的放松程度;
同样,如果则更新qik,否则不对qik进行更新;
客户端首先进行用户二值特征向量的权重参数初始化,然后进行多轮次的本地模型训练,在某轮次的局部更新过程中,客户端首先按位对私有用户二值特征向量进行更新,随后进行用户所交互过的物品集合的特征更新,最后返回用户二值特征向量与当前轮次的部分物品特征矩阵;
步骤S3-3:针对于联邦推荐场景下求解X子问题,首先固定参数P,Q,Y,然后在服务端进行聚合求解,聚合所有的用户向量构成二值用户矩阵P=[p1,p2,…,pm],具体X的更新规则如下:
其中Bb和Db分别表示将矩阵通过奇异值分解SVD得到的左奇异矩阵和右奇异矩阵;/>表示SVD过程中零特征值对应的特征矩阵;此外,通过对[Db1]进行施密特正交化得到/>
步骤S3-4:针对于联邦推荐场景下求解Y子问题,首先固定参数P,Q,X,然后在服务端进行聚合求解,具体Y的更新规则如下:
其中Bd和Dd分别表示将矩阵通过SVD得到的左奇异矩阵和右奇异矩阵;/>表示SVD过程中零特征值对应的特征矩阵;此外,通过对[Dd1]进行施密特正交化得到/>
服务端首先进行初始化模型的权重参数,然后进行多轮次的服务端与客户端的协同优化,直到模型收敛输出用户二值特征矩阵与物品二值特征矩阵,在某轮次的更新过程中,服务端并行执行客户端的本地模型训练得到来自客户端上传的用户特征向量以及部分物品特征向量,在服务端进行物品特征矩阵聚合更新操作,在拼接完来自客户端的二值特征向量得到特征矩阵后进行辅助参数的更新,最后缩减学习率进行下一轮次的更新步骤;
迭代执行S3-1到S3-4步骤,直到满足收敛条件,训练过程停止,最后在每个客户端获得二值化的用户特征向量pu以及在服务端获得全局物品特征矩阵Q。
2.根据权利要求1所述的方法,其特征在于,所述的在服务端维护全局二值矩阵分解模型参数,向客户端下发全局二值矩阵分解模型,包括:
所述服务端与每个客户端通过无线网络进行数据通信,管理所有客户端的优化过程,维护全局二值矩阵分解模型的参数信息,所述全局二值矩阵分解模型包括二值的用户特征矩阵P∈{±1}f×m与物品特征矩阵Q∈{±1}f×n,f表示特征向量的维度,m表示用户的数量,n表示物品数量,全局二值矩阵分解模型权重的初始化从{±1}集合中按位进行均匀采样得到,服务端向每个客户端下发全局二值矩阵分解模型。
3.根据权利要求2所述的方法,其特征在于,所述的客户端初始化本地二值矩阵分解模型,并从服务端下载全局二值矩阵分解模型参数,维护本地的二值用户特征向量和二值物品特征矩阵,包括:
所述客户端为用户的移动端设备,客户端u拥有私有的本地数据其中/>表示用户u在本地所交互过的物品集合,r∈{0,1}表示用户u对于物品i交互的结果,客户端u维护自己私有的二值用户特征向量/>和本地的二值物品特征矩阵Q∈{±1}f×n,其中pu为用户特征矩阵P∈{±1}f×m的第u列,待一轮更新后客户端将本地的二值用户特征向量和二值物品特征矩阵上传到服务端。
4.根据权利要求3所述的方法,其特征在于,所述的在服务端设定联邦推荐场景下哈希学习的目标函数,包括:
在服务端设定的联邦推荐场景下哈希学习的目标函数定义如下:
s.t.pu∈{±1}f,qi∈{±1}f
其中,是由训练集中(u,i,r)三元组构成的集合,/>表示物品i的二值特征向量,对应于矩阵Q的第i列;
在上式目标函数定义的基础上添加两个约束项:P1m=0和Q1n=0用于保证特征编码的均衡性,PPT=mIf和QQT=nIf用于保证特征编码之间的独立性;定义两个连续变量和/>将编码均衡约束和编码独立约束条件进行放松,所述目标函数被等价转换为如下优化问题:
在上式基础上添加离散约束形式P∈{±1}f×m和Q∈{±1}f×n,添加编码均衡性与对立性约束项X1m=0,Y1n=0用来保证编码均衡性,XXT=mIf,YYT=nI用来保证编码独立性。
5.根据权利要求4所述的方法,其特征在于,所述的基于所述目标函数通过离散优化算法在服务端与客户端之间进行协同离散迭代优化,得到全局最优的二值矩阵分解模型,使得每个客户端得到各自独有的二值用户特征向量与全局的二值物品特征矩阵,包括:
基于所述目标函数利用离散坐标下降算法逐位对用户二值特征矩阵P或者物品二值特征矩阵Q进行更新,借助奇异值分解算法更新辅助变量矩阵X/Y,在服务端与客户端之间进行协同离散迭代优化,待本地客户端更新完成后上传本地的二值用户特征向量和二值物品特征矩阵给服务端,服务端将各个客户端上传的二值用户特征向量和二值物品特征矩阵进行聚合更新,重复上述步骤,不断交替更新参数P,Q,X,Y,直到满足收敛条件,停止训练过程,服务端输出全局最优的二值矩阵分解模型,使得每个客户端得到各自独有的二值用户特征矩阵P与全局的二值物品特征矩阵Q。
6.根据权利要求5所述的方法,其特征在于,所述的根据每个客户端的二值用户特征向量和二值物品特征矩阵借助逻辑运算完成本地客户端的预测任务,将预测评分较高的若干物品推荐给相应客户端,包括:
对于客户端u,根据客户端u的二值用户特征向量pu和二值物品特征矩阵Q在海明空间借助逻辑运算预测未观测评分向量对未观测评分向量/>进行降序排列,并将预测分值较高的若干物品列表推荐给客户端u的用户。
CN202210150584.5A 2022-02-18 2022-02-18 一种基于哈希学习的轻量化联邦推荐方法 Active CN114564742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210150584.5A CN114564742B (zh) 2022-02-18 2022-02-18 一种基于哈希学习的轻量化联邦推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210150584.5A CN114564742B (zh) 2022-02-18 2022-02-18 一种基于哈希学习的轻量化联邦推荐方法

Publications (2)

Publication Number Publication Date
CN114564742A CN114564742A (zh) 2022-05-31
CN114564742B true CN114564742B (zh) 2024-05-14

Family

ID=81714071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210150584.5A Active CN114564742B (zh) 2022-02-18 2022-02-18 一种基于哈希学习的轻量化联邦推荐方法

Country Status (1)

Country Link
CN (1) CN114564742B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115225405B (zh) * 2022-07-28 2023-04-21 上海光之树科技有限公司 联邦学习框架下基于安全聚合和密钥交换的矩阵分解方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105103487A (zh) * 2013-08-09 2015-11-25 汤姆逊许可公司 用于基于矩阵分解的到评级贡献用户的隐私保护推荐的方法和系统
CN110188227A (zh) * 2019-05-05 2019-08-30 华南理工大学 一种基于深度学习与低秩矩阵优化的哈希图像检索方法
CN111104604A (zh) * 2019-11-25 2020-05-05 北京交通大学 基于哈希学习的轻量级社会化推荐方法
CN111444848A (zh) * 2020-03-27 2020-07-24 广州英码信息科技有限公司 一种基于联邦学习的特定场景模型升级方法和系统
CN111552852A (zh) * 2020-04-27 2020-08-18 北京交通大学 基于半离散矩阵分解的物品推荐方法
CN113240461A (zh) * 2021-05-07 2021-08-10 广州银行股份有限公司 基于纵向联邦学习的潜在客户的识别方法、系统及介质
WO2021218167A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 数据处理模型生成方法和装置、数据处理方法和装置
CN113779613A (zh) * 2021-11-05 2021-12-10 深圳致星科技有限公司 用于联邦学习的安全数据网络的数据管理方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105103487A (zh) * 2013-08-09 2015-11-25 汤姆逊许可公司 用于基于矩阵分解的到评级贡献用户的隐私保护推荐的方法和系统
CN110188227A (zh) * 2019-05-05 2019-08-30 华南理工大学 一种基于深度学习与低秩矩阵优化的哈希图像检索方法
CN111104604A (zh) * 2019-11-25 2020-05-05 北京交通大学 基于哈希学习的轻量级社会化推荐方法
CN111444848A (zh) * 2020-03-27 2020-07-24 广州英码信息科技有限公司 一种基于联邦学习的特定场景模型升级方法和系统
CN111552852A (zh) * 2020-04-27 2020-08-18 北京交通大学 基于半离散矩阵分解的物品推荐方法
WO2021218167A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 数据处理模型生成方法和装置、数据处理方法和装置
CN113240461A (zh) * 2021-05-07 2021-08-10 广州银行股份有限公司 基于纵向联邦学习的潜在客户的识别方法、系统及介质
CN113779613A (zh) * 2021-11-05 2021-12-10 深圳致星科技有限公司 用于联邦学习的安全数据网络的数据管理方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Efficient-FedRec:Efficient Federated Learning Framework for Privacy-Preserving News Recommendation;Jingwei Yi 等;Computer Science;20210912;1-12 *
LightFR: Lightweight Federated recommendation with privacy-Preserving matrix factorization;Honglei Zhang 等;ACM Transactions on Information Systems;20230322;第41卷(第4期);1-28 *
一种两阶段联合哈希的协同过滤算法;张辉宜;侯耀祖;陶陶;;计算机工程;20181215(第12期);316-320 *
基于多维信任和联合矩阵分解的社会化推荐方法;王磊;任航;龚凯;;计算机应用;20190121(第05期);1269-1274 *
基于离散优化的哈希编码学习方法;刘昊淼;王瑞平;山世光;陈熙霖;;计算机学报;20190327(第05期);1149-1160 *

Also Published As

Publication number Publication date
CN114564742A (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN112989064B (zh) 一种聚合知识图神经网络和自适应注意力的推荐方法
Gao et al. A survey on heterogeneous federated learning
Dieu et al. The augmented Lagrange Hopfield network for economic dispatch with multiple fuel options
Li et al. An improved quantum-behaved particle swarm optimization algorithm
Raja et al. Solution of the 2-dimensional Bratu problem using neural network, swarm intelligence and sequential quadratic programming
CN114564742B (zh) 一种基于哈希学习的轻量化联邦推荐方法
Wu et al. Decentralized unsupervised learning of visual representations
Zeng et al. Heterogeneous federated learning via grouped sequential-to-parallel training
Nagy et al. Privacy-preserving Federated Learning and its application to natural language processing
Reddy et al. Many-objective differential evolution optimization based on reference points: NSDE-R
Luo et al. Finding Second-Order Stationary Points in Nonconvex-Strongly-Concave Minimax Optimization
Liu et al. Tensor-train-based higher order dominant z-eigen decomposition for multi-modal prediction and its cloud/edge implementation
Luo et al. Finding second-order stationary points in nonconvex-strongly-concave minimax optimization
Ito et al. An on-device federated learning approach for cooperative model update between edge devices
Takagi et al. A distribution control of weight vector set for multi-objective evolutionary algorithms
Chen et al. Privacy-preserving hierarchical federated recommendation systems
Chen et al. Probabilistic optimal design of laminates using improved particle swarm optimization
Sheikh et al. A simple approach to attributed graph embedding via enhanced autoencoder
Xi et al. Graph factorization machines for cross-domain recommendation
Liu et al. Federated neural architecture search evolution and open problems: An overview
Ji et al. Fast CP‐compression layer: Tensor CP‐decomposition to compress layers in deep learning
Zhao et al. PPCNN: An efficient privacy‐preserving CNN training and inference framework
Li et al. Probabilistic robust regression with adaptive weights—a case study on face recognition
Lu et al. Particle swarm optimization (pso) based topology optimization of part design with fuzzy parameter tuning
Yang et al. A novel pso-de co-evolutionary algorithm based on decomposition framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant