CN112487456A - 联邦学习模型训练方法、系统、电子设备及可读存储介质 - Google Patents
联邦学习模型训练方法、系统、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN112487456A CN112487456A CN202011415106.XA CN202011415106A CN112487456A CN 112487456 A CN112487456 A CN 112487456A CN 202011415106 A CN202011415106 A CN 202011415106A CN 112487456 A CN112487456 A CN 112487456A
- Authority
- CN
- China
- Prior art keywords
- data
- local
- matrix
- user
- updated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 title claims abstract description 48
- 239000011159 matrix material Substances 0.000 claims abstract description 93
- 239000000463 material Substances 0.000 claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 35
- 230000002776 aggregation Effects 0.000 claims description 12
- 238000004220 aggregation Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 238000006116 polymerization reaction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 8
- 238000004891 communication Methods 0.000 description 9
- 238000001914 filtration Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002955 isolation Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000007123 defense Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种联邦学习模型训练方法、系统、电子设备及可读存储介质,所述方法包括:从服务器下载全局物料因子矩阵;基于本地数据、全局物料因子矩阵与本地用户因子向量将数据集进行更新并上传至所述服务器;服务器基于联邦加权算法与更新后的本地模型对全局物料因子矩阵进行更新并发送给用户。整个建模过程有效实现了数据共享与数据隐私的保护,满足在保证参与双方保持独立的情况下,进行信息的加密交换。
Description
技术领域
本发明涉及数据安全保护技术领域,尤其涉及一种用于解决推荐系统中数据隐私问题的联邦学习模型训练方法、系统、电子设备及可读存储介质。
背景技术
推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为数据就成为推荐系统的重要组成部分和先决条件。在推荐系统领域,用户数据隐藏是一个主要的挑战。
现有的大多数隐私保护个性化推荐服务都假定用户诚实地参与整个过程。但有两种情况并未考虑其中,一种情况是出现恶意用户,比如某些用户可能会故意向推荐人提供无效数据以破坏系统。这将会是一个严重的威胁,并且在关于保护隐私的个性化推荐服务的现有研究中大部分都未被探讨。针对这种威胁的防御可能具有挑战性,特别是当推荐人仅接收到加密的用户数据时。另一种情况是出现恶意推荐,比如移动设备在访问网页、视频。这些项目通常会访问外部存储——不同的移动应用程序存储其文件的共享位置。这些媒体推荐项目可以用来推断隐私敏感信息,如性别和社交圈。
在国内,用户对于数据隐私的保护还没有那么强烈,应用都要很多的权限,但是在海外,特别是欧洲国家,GDPR的管控是极其严格的,采集用户隐私数据是不合法的。那么如何能够合法合规的使用海量用户数据,Google率先提出联邦学习的概念。
联邦学习是一种机器学习技术,可在拥有本地数据样本的多个分布式边缘设备或服务器之间训练算法而无需交换数据样本。联邦学习能够充分的利用参与方的数据和计算能力,使多方可以协作构建通用更健壮的机器学习模型而不需要共享数据,在数据监管越来越严格的大环境下,联邦学习能够解决数据所有权、数据隐私、数据访问权以及异构数据的访问等关键问题,所以自从联邦学习的概念一提出就获得了人工智能行业的追捧,目前已经在很多行业受到一定的应用,比如国防,电信,医疗和物联网等。
发明内容
本发明针对上述的保护用户数据隐私的技术问题,提出一种用于解决推荐系统中数据隐私问题的联邦学习模型训练方法、系统、电子设备及可读存储介质。
第一方面,本申请实施例提供了一种用于解决推荐系统中数据隐私问题的联邦学习模型训练方法,包括:
矩阵下载步骤:从服务器下载全局物料因子矩阵;
数据集上传步骤:基于本地数据、所述全局物料因子矩阵与本地用户因子向量将数据集进行更新并上传至所述服务器;
矩阵发送步骤:所述服务器基于联邦加权算法与更新后的本地模型对所述全局物料因子矩阵进行更新并发送给用户。
上述联邦学习模型训练方法,其中,所述矩阵下载步骤中的所述全局物料因子矩阵为随机的初始化模型或预训练模型。
上述联邦学习模型训练方法,其中,所述数据集上传步骤包括:
数据聚合步骤:将所述数据集中的显式数据和隐式数据进行聚合;
向量更新步骤:使用所述本地数据和所述全局物料因子矩阵对所述本地用户因子向量进行更新;
对齐步骤:使用所述本地数据和更新后的所述本地用户因子向量,通过加密的方式将所述数据集以不同的方式进行对齐;
上传步骤:将更新后的所述数据集进行加密并通过一个安全协议将其上传至所述服务器。
上述联邦学习模型训练方法,其中,所述矩阵发送步骤包括:
模型更新步骤:基于更新后的所述数据集进行本地模型更新;
模型聚合步骤:所述服务器通过所述联邦加权算法聚合从各个用户客户端上传的更新后的所述本地模型;
矩阵更新步骤:使用更新后的所述本地模型聚合的结果对所述全局物料因子矩阵进行更新;
发送用户步骤:所述服务器将更新后的所述全局物料因子矩阵发送给各个用户。
第二方面,本申请实施例提供了一种用于解决推荐系统中数据隐私问题的联邦学习模型训练系统,包括:
矩阵下载模块:从服务器下载全局物料因子矩阵;
数据集上传模块:基于本地数据、所述全局物料因子矩阵与本地用户因子向量将数据集进行更新并上传至所述服务器;
矩阵发送模块:所述服务器基于联邦加权算法与更新后的本地模型对所述全局物料因子矩阵进行更新并发送给用户。
上述联邦学习模型训练系统,其中,所述矩阵下载模块中的所述全局物料因子矩阵为随机的初始化模型或预训练模型。
上述联邦学习模型训练系统,其中,所述数据集上传模块包括:
数据聚合单元:将所述数据集中的显式数据和隐式数据进行聚合;
向量更新单元:使用所述本地数据和所述全局物料因子矩阵对所述本地用户因子向量进行更新;
对齐单元:使用所述本地数据和更新后的所述本地用户因子向量,通过加密的方式将所述数据集以不同的方式进行对齐;
上传单元:将更新后的所述数据集进行加密并通过一个安全协议将其上传至所述服务器。
上述联邦学习模型训练系统,其中,所述矩阵发送模块包括:
模型更新单元:基于更新后的所述数据集进行本地模型更新;
模型聚合单元:所述服务器通过所述联邦加权算法聚合从各个用户客户端上传的更新后的所述本地模型;
矩阵更新单元:使用更新后的所述本地模型聚合的结果对所述全局物料因子矩阵进行更新;
发送用户单元:所述服务器将更新后的所述全局物料因子矩阵发送给各个用户。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的联邦学习模型训练方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的联邦学习模型训练方法。
与现有技术相比,本发明的优点和积极效果在于:
1.本发明采用联邦学习方法,在客户端移动设备上使用本地数据进行本地模型加密训练,然后进行更新汇总,实现了数据隔离,满足用户对隐私保护和数据安全的需求。
2.本发明提出的方案在保证参与各方保持独立性的情况下,进行信息与模型参数的加密交换,同时,参与各方的地位对等,促进公平合作。
3.本发明采用的联邦学习方法可以解决用户数据量大、网络连接费用昂贵、传输速度缓慢、传输安全性低等工程问题。
附图说明
图1为本发明提供的用于解决推荐系统中数据隐私问题的联邦学习模型训练方法的步骤示意图;
图2为本发明提供的基于图1中步骤S2的流程图;
图3为本发明提供的基于图1中步骤S3的流程图;
图4为本发明提供的用于解决推荐系统中数据隐私问题的联邦学习模型训练方法一实施例流程示意图;
图5为本发明提供的用于解决推荐系统中数据隐私问题的联邦学习模型训练系统的框架图;
图6为根据本申请实施例的计算机设备的框架图。
其中,附图标记为:
11、矩阵下载模块;12、数据集上传模块;121、数据聚合单元;122、向量更新单元;123、对齐单元;124、上传单元;13、矩阵发送模块;131、模型更新单元;132、模型聚合单元;133、矩阵更新单元;134、发送用户单元;81、处理器;82、存储器;83、通信接口;80、总线。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
本方案根据用户移动设备使用情况,在客户端移动设备上使用本地数据进行本地模型训练,通过加密的方式将数据集以不同的方式进行对齐,而后进行加密并通过一个安全协议将更新上传至服务器,最终形成共享模型。
实施例一:
参照图1所示,图1为本发明提供的用于解决推荐系统中数据隐私问题的联邦学习模型训练方法的步骤示意图。如图1所示,本实施例揭示了一种用于解决推荐系统中数据隐私问题的联邦学习模型训练方法(以下简称“方法”)的具体实施方式。
具体而言,推荐系统可以分为两类:基于协同过滤(CFB)推荐系统和基于内容(CB)的推荐系统。CFB根据用户之间的相似性向特定用户推荐具有相似偏好的项目。CB是基于项目的性质来执行推荐,其可以通过某些显性特征(如属性和特性)来推荐。
针对CFB推荐隐私保护方案:通常采用基于隐私保护的邻近用户的方法或基于机器学习的方法。
1、在基于隐私保护的邻近用户的方法支撑下的现有解决方案通常采用两种主要类别的技术。第一类是密码技术。第二类是随机化技术。基于密码技术的解决方案通常需要高负荷运算,不太适合大规模数据。基于随机化技术的解决方案将随机扰动应用于用户的隐私保护数据,这种方案通常为用户隐私牺牲准确性。但这种方法的运算负荷较低,并且比基于密码技术的方法快得多。
2、基于隐私保护机器学习的方法,基本思想是首先以保护隐私的方式对收集的用户数据进行机器学习模型训练,然后应用该模型生成个性化的推荐。这些研究中通常采用的机器学习技术包括矩阵分解(MF)和岭回归(RR)。为了保护隐私,这些工作通常依赖于加密技术,包括PHE、完全同态加密(FHE)和GCs。
针对CB推荐隐私保护方案:CB是系统根据物品的属性推荐物品,CB推荐服务的两个常见应用是定向广告和定向优惠券发放。
1、隐私保护定向广告,即有针对性的广告投放和保护用户个人信息的解决方案。通常采用的隐私保护机制包括局部定位、博弈论、匿名化、密码技术和模糊化。
2、隐私保护定向优惠券发放,即有针对性的将优惠券投放给符合条件的用户。并且这些用户的行为档案可以准确地满足供应商的定位资料。
而联邦学习方法正好解决了推荐系统数据隐私问题。联邦学习要解决的问题是把各自自有数据在不出本地的情况下,建立一个虚拟的共有模型。这个虚拟模型就好像把大家数据都聚合在一起,建立一个全局模型。
在这个过程中,作为移动服务商,并不会采集用户的数据,不需要把数据传到服务器上,只需要在服务器(Server)和每一个节点(Worker)之间传递参数就可以了,就解决了数据隐私的问题。
这样建好的模型仅在本地为各自目标服务。在这样一种组织机制下,各自参与者的身份和地位都是相同的。而联邦学习策略为大家建立了一个数据“共享”策略。实现了公共价值和商业价值的最大化。
由于数据不共享等原因,无法直接收集到用户的原始数据,因此可以利用联邦学习训练协同过滤模型。一个协同过滤模型可以表示为,由多个用户因子向量(每个向量表示一个储户)组成的用户因子矩阵(user factor matrix)、由多个物料因子向量(每个向量表示一件物料)组成的物料因子矩阵(item factor matrix)的组合。联邦协同过滤由所有用户共同地学习这两个矩阵得到。
具体而言,本实施例所揭示的方法主要包括以下步骤:
步骤S1:从服务器下载全局物料因子矩阵。
具体而言,所述全局物料因子矩阵为随机的初始化模型或预训练模型。
然后参照图2,执行步骤S2:基于本地数据、所述全局物料因子矩阵与本地用户因子向量将数据集进行更新并上传至所述服务器。
其中,步骤S2具体包括以下内容:
步骤S21:将所述数据集中的显式数据和隐式数据进行聚合;
其中,显式数据包括用户的曝光数据,隐式数据由浏览历史、点击历史、搜索日志等信息组成。
步骤S22:使用所述本地数据和所述全局物料因子矩阵对所述本地用户因子向量进行更新;
步骤S23:使用所述本地数据和更新后的所述本地用户因子向量,通过加密的方式将所述数据集以不同的方式进行对齐;
步骤S24:将更新后的所述数据集进行加密并通过一个安全协议将其上传至所述服务器。
然后参照图3,执行步骤S3:所述服务器基于联邦加权算法与更新后的本地模型对所述全局物料因子矩阵进行更新并发送给用户。
其中,步骤S3具体包括以下内容:
步骤S31:基于更新后的所述数据集进行本地模型更新;
步骤S32:所述服务器通过所述联邦加权算法聚合从各个用户客户端上传的更新后的所述本地模型;
步骤S33:使用更新后的所述本地模型聚合的结果对所述全局物料因子矩阵进行更新;
步骤S34:所述服务器将更新后的所述全局物料因子矩阵发送给各个用户。
整个建模过程实现了数据隐私的保护,同时会以约定的机制奖励数据贡献更多的拥有方。
以下,请参照图4。图4为本发明提供的用于解决推荐系统中数据隐私问题的联邦学习模型训练方法一实施例流程示意图,结合图4,具体说明本方法的应用流程如下:
根据用户手机的使用情况,在客户端移动设备上使用不同位置不同类型设备上的本地数据进行本地模型训练,然后将这些用户模型进行更新汇总,当形成对共享模型的共识后,形成统一共享模型,然后重复此过程,从而不断地优化模型算法。
例如,假设某银行想要训练一个协同过滤(CF)模型,让储户可以根据个人喜好和流行程度来找到想要的理财资讯。由于数据不共享等原因,无法直接收集到用户的原始数据,因此可以利用联邦学习训练协同过滤模型。
通常,一个协同过滤模型可以表示为,由多个用户因子向量(每个向量表示一个储户)组成的用户因子矩阵(user factor matrix)、由多个理财物料因子向量(每个向量表示一件物料)组成的物料因子矩阵(item factor matrix)的组合。联邦协同过滤由所有用户共同地学习这两个矩阵得到,如图中所示,包含以下五个步骤:
1、每一个用户(例如,用户的手机客户端)从服务器下载全局理财物料因子矩阵。该矩阵可以是随机初始化的模型或预训练模型。
2、每一个用户聚合显式数据和隐式数据。显式数据包括用户的曝光数据,隐式数据由浏览历史、点击历史、搜索日志等信息组成。
3、每一个用户使用本地数据和全局理财物料因子矩阵对本地用户因子向量进行更新。
4、每一个用户使用本地数据和本地用户因子向量,通过加密的方式将数据集以不同的方式进行对齐,而后进行加密并通过一个安全协议将更新上传至服务器。
5、服务器通过联邦加权算法聚合从各个用户客户端上传的本地模型更新。并使用聚合的结果对全局物料因子矩阵进行更新。之后,服务器将全局物料因子矩阵发送给各个用户。整个建模过程实现了数据隐私的保护,同时会以约定的机制奖励数据贡献更多的拥有方。
随着互联网信息爆炸式增长,数据的隔离和对数据隐私的保护正成为当前互联网领域的下一个挑战,但联邦学习为我们带来了新的希望。随着技术的推广与标准的完善,它将打破行业之间的障碍,建立起一个可以安全地共享数据和知识的社区,让每个参与者都能公平的分享利益。联邦学习具有如下优势:
1、实现数据隔离:满足用户对隐私保护和数据安全的需求。
2、满足监管需要:《中华人民共和国网络安全法》、欧盟的《通用数据保护条例》、HIPAA法案等都要求用户数据的收集必须公开透明,企业或机构之间在无用户授权的情况下不能交换用户数据,联邦学习可以满足这样的监管要求。
3、避免数据孤岛:联邦学习在保证参与各方保持独立性的情况下,进行信息与模型参数的加密交换。同时,参与各方的地位对等,促进公平合作。
4、清除工程障碍:联邦学习可以避免用户数据量大、网络连接费用昂贵、传输速度缓慢、传输安全性低等工程问题。
实施例二:
结合实施例一所揭示的一种用于解决推荐系统中数据隐私问题的联邦学习模型训练方法,本实施例揭示了一种用于解决推荐系统中数据隐私问题的联邦学习模型训练系统(以下简称“系统”)的具体实施示例。
参照图5所示,所述系统包括:
矩阵下载模块11:从服务器下载全局物料因子矩阵;
数据集上传模块12:基于本地数据、所述全局物料因子矩阵与本地用户因子向量将数据集进行更新并上传至所述服务器;
矩阵发送模块13:所述服务器基于联邦加权算法与更新后的本地模型对所述全局物料因子矩阵进行更新并发送给用户。
具体而言,所述矩阵下载模块11中的所述全局物料因子矩阵为随机的初始化模型或预训练模型。
具体而言,所述数据集上传模块12包括:
数据聚合单元121:将所述数据集中的显式数据和隐式数据进行聚合;
向量更新单元122:使用所述本地数据和所述全局物料因子矩阵对所述本地用户因子向量进行更新;
对齐单元123:使用所述本地数据和更新后的所述本地用户因子向量,通过加密的方式将所述数据集以不同的方式进行对齐;
上传单元124:将更新后的所述数据集进行加密并通过一个安全协议将其上传至所述服务器。
具体而言,所述矩阵发送模块13包括:
模型更新单元131:基于更新后的所述数据集进行本地模型更新;
模型聚合单元132:所述服务器通过所述联邦加权算法聚合从各个用户客户端上传的更新后的所述本地模型;
矩阵更新单元133:使用更新后的所述本地模型聚合的结果对所述全局物料因子矩阵进行更新;
发送用户单元134:所述服务器将更新后的所述全局物料因子矩阵发送给各个用户。
本实施例所揭示的一种用于解决推荐系统中数据隐私问题的联邦学习模型训练系统与实施例一所揭示的一种用于解决推荐系统中数据隐私问题的联邦学习模型训练方法中其余相同部分的技术方案,请参实施例一所述,在此不再赘述。
实施例三:
结合图6所示,本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种联邦学习模型训练的方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图6所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的联邦学习模型训练的方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种联邦学习模型训练的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,基于本发明的有益效果在于,本发明采用联邦学习方法,在客户端移动设备上使用本地数据进行本地模型加密训练,然后进行更新汇总,实现了数据隔离,满足用户对隐私保护和数据安全的需求;在保证参与各方保持独立性的情况下,进行信息与模型参数的加密交换,同时,参与各方的地位对等,促进公平合作;解决了用户数据量大、网络连接费用昂贵、传输速度缓慢、传输安全性低等工程问题。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种联邦学习模型训练方法,其特征在于,用于解决推荐系统中数据隐私问题,包括:
矩阵下载步骤:从服务器下载全局物料因子矩阵;
数据集上传步骤:基于本地数据、所述全局物料因子矩阵与本地用户因子向量将数据集进行更新并上传至所述服务器;
矩阵发送步骤:所述服务器基于联邦加权算法与更新后的本地模型对所述全局物料因子矩阵进行更新并发送给用户。
2.根据权利要求1所述的联邦学习模型训练方法,其特征在于,所述矩阵下载步骤中的所述全局物料因子矩阵为随机的初始化模型或预训练模型。
3.根据权利要求1所述的联邦学习模型训练方法,其特征在于,所述数据集上传步骤包括:
数据聚合步骤:将所述数据集中的显式数据和隐式数据进行聚合;
向量更新步骤:使用所述本地数据和所述全局物料因子矩阵对所述本地用户因子向量进行更新;
对齐步骤:使用所述本地数据和更新后的所述本地用户因子向量,通过加密的方式将所述数据集以不同的方式进行对齐;
上传步骤:将更新后的所述数据集进行加密并通过一个安全协议将其上传至所述服务器。
4.根据权利要求1所述的联邦学习模型训练方法,其特征在于,所述矩阵发送步骤包括:
模型更新步骤:基于更新后的所述数据集进行本地模型更新;
模型聚合步骤:所述服务器通过所述联邦加权算法聚合从各个用户客户端上传的更新后的所述本地模型;
矩阵更新步骤:使用更新后的所述本地模型聚合的结果对所述全局物料因子矩阵进行更新;
发送用户步骤:所述服务器将更新后的所述全局物料因子矩阵发送给各个用户。
5.一种联邦学习模型训练系统,其特征在于,用于解决推荐系统中数据隐私问题,包括:
矩阵下载模块:从服务器下载全局物料因子矩阵;
数据集上传模块:基于本地数据、所述全局物料因子矩阵与本地用户因子向量将数据集进行更新并上传至所述服务器;
矩阵发送模块:所述服务器基于联邦加权算法与更新后的本地模型对所述全局物料因子矩阵进行更新并发送给用户。
6.根据权利要求5所述的联邦学习模型训练系统,其特征在于,所述矩阵下载模块中的所述全局物料因子矩阵为随机的初始化模型或预训练模型。
7.根据权利要求5所述的联邦学习模型训练系统,其特征在于,所述数据集上传模块包括:
数据聚合单元:将所述数据集中的显式数据和隐式数据进行聚合;
向量更新单元:使用所述本地数据和所述全局物料因子矩阵对所述本地用户因子向量进行更新;
对齐单元:使用所述本地数据和更新后的所述本地用户因子向量,通过加密的方式将所述数据集以不同的方式进行对齐;
上传单元:将更新后的所述数据集进行加密并通过一个安全协议将其上传至所述服务器。
8.根据权利要求5所述的联邦学习模型训练系统,其特征在于,所述矩阵发送模块包括:
模型更新单元:基于更新后的所述数据集进行本地模型更新;
模型聚合单元:所述服务器通过所述联邦加权算法聚合从各个用户客户端上传的更新后的所述本地模型;
矩阵更新单元:使用更新后的所述本地模型聚合的结果对所述全局物料因子矩阵进行更新;
发送用户单元:所述服务器将更新后的所述全局物料因子矩阵发送给各个用户。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的联邦学习模型训练方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的联邦学习模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011415106.XA CN112487456A (zh) | 2020-12-07 | 2020-12-07 | 联邦学习模型训练方法、系统、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011415106.XA CN112487456A (zh) | 2020-12-07 | 2020-12-07 | 联邦学习模型训练方法、系统、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112487456A true CN112487456A (zh) | 2021-03-12 |
Family
ID=74940286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011415106.XA Pending CN112487456A (zh) | 2020-12-07 | 2020-12-07 | 联邦学习模型训练方法、系统、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487456A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077060A (zh) * | 2021-03-30 | 2021-07-06 | 中国科学院计算技术研究所 | 针对边云协同的联邦学习系统及方法 |
CN113159279A (zh) * | 2021-03-18 | 2021-07-23 | 中国地质大学(北京) | 基于神经网络与深度学习的跨域知识协助方法与系统 |
CN113626687A (zh) * | 2021-07-19 | 2021-11-09 | 浙江师范大学 | 以联邦学习为核心的在线课程推荐方法和系统 |
CN113660080A (zh) * | 2021-10-20 | 2021-11-16 | 北京金鸿睿信息科技有限公司 | 一种安全多方计算与联邦分析技术 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288094A (zh) * | 2019-06-10 | 2019-09-27 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法及装置 |
CN110825970A (zh) * | 2019-11-07 | 2020-02-21 | 浙江同花顺智能科技有限公司 | 一种信息推荐方法、装置、设备及计算机可读存储介质 |
CN110874649A (zh) * | 2020-01-16 | 2020-03-10 | 支付宝(杭州)信息技术有限公司 | 基于状态机的联邦学习方法、系统、客户端及电子设备 |
-
2020
- 2020-12-07 CN CN202011415106.XA patent/CN112487456A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288094A (zh) * | 2019-06-10 | 2019-09-27 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法及装置 |
CN110825970A (zh) * | 2019-11-07 | 2020-02-21 | 浙江同花顺智能科技有限公司 | 一种信息推荐方法、装置、设备及计算机可读存储介质 |
CN110874649A (zh) * | 2020-01-16 | 2020-03-10 | 支付宝(杭州)信息技术有限公司 | 基于状态机的联邦学习方法、系统、客户端及电子设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159279A (zh) * | 2021-03-18 | 2021-07-23 | 中国地质大学(北京) | 基于神经网络与深度学习的跨域知识协助方法与系统 |
CN113159279B (zh) * | 2021-03-18 | 2023-06-23 | 中国地质大学(北京) | 基于神经网络与深度学习的跨域知识协助方法与系统 |
CN113077060A (zh) * | 2021-03-30 | 2021-07-06 | 中国科学院计算技术研究所 | 针对边云协同的联邦学习系统及方法 |
CN113626687A (zh) * | 2021-07-19 | 2021-11-09 | 浙江师范大学 | 以联邦学习为核心的在线课程推荐方法和系统 |
CN113660080A (zh) * | 2021-10-20 | 2021-11-16 | 北京金鸿睿信息科技有限公司 | 一种安全多方计算与联邦分析技术 |
CN113660080B (zh) * | 2021-10-20 | 2021-12-14 | 北京金鸿睿信息科技有限公司 | 一种安全多方计算与联邦分析技术 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11805105B2 (en) | System and associated method for ensuring data privacy | |
Sun et al. | A two‐stage privacy protection mechanism based on blockchain in mobile crowdsourcing | |
Waheed et al. | Security and privacy in IoT using machine learning and blockchain: Threats and countermeasures | |
US11637703B2 (en) | Zero-knowledge environment based social networking engine | |
Shen et al. | From distributed machine learning to federated learning: In the view of data privacy and security | |
Yamin et al. | An innovative method for preserving privacy in Internet of Things | |
CN112487456A (zh) | 联邦学习模型训练方法、系统、电子设备及可读存储介质 | |
Dhinakaran et al. | Protection of data privacy from vulnerability using two-fish technique with Apriori algorithm in data mining | |
Kalapaaking et al. | Blockchain-based federated learning with secure aggregation in trusted execution environment for internet-of-things | |
Yao et al. | Differential privacy in edge computing-based smart city Applications: Security issues, solutions and future directions | |
Al-Khateeb et al. | Leveraging social network analysis and cyber forensics approaches to study cyber propaganda campaigns | |
Wang et al. | PPFLHE: A privacy-preserving federated learning scheme with homomorphic encryption for healthcare data | |
Gao et al. | BFR‐SE: A Blockchain‐Based Fair and Reliable Searchable Encryption Scheme for IoT with Fine‐Grained Access Control in Cloud Environment | |
Wang et al. | Beyond model splitting: Preventing label inference attacks in vertical federated learning with dispersed training | |
Wang et al. | Protecting data privacy in federated learning combining differential privacy and weak encryption | |
Zhang et al. | Visual object detection for privacy-preserving federated learning | |
Gheid et al. | An efficient and privacy-preserving similarity evaluation for big data analytics | |
TW202301160A (zh) | 對位於複數個資訊儲存器的資訊進行的私人聯結、分析和共享 | |
Shi et al. | Mitigation of a poisoning attack in federated learning by using historical distance detection | |
Xu et al. | FedG2L: a privacy-preserving federated learning scheme base on “G2L” against poisoning attack | |
Trujillo et al. | A traffic analysis attack to compute social network measures | |
Wang et al. | LDP‐Fed+: A robust and privacy‐preserving federated learning based classification framework enabled by local differential privacy | |
Xu et al. | Fedbc: an efficient and privacy-preserving federated consensus scheme | |
Zhu et al. | Multimedia fusion privacy protection algorithm based on iot data security under network regulations | |
Rekha et al. | Understanding trust and privacy of big data in social networks-a brief review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |