CN113434898A - 一种非交互式的隐私保护逻辑回归联邦训练方法及系统 - Google Patents
一种非交互式的隐私保护逻辑回归联邦训练方法及系统 Download PDFInfo
- Publication number
- CN113434898A CN113434898A CN202110561403.3A CN202110561403A CN113434898A CN 113434898 A CN113434898 A CN 113434898A CN 202110561403 A CN202110561403 A CN 202110561403A CN 113434898 A CN113434898 A CN 113434898A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- local
- logistic regression
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Storage Device Security (AREA)
Abstract
本发明属于信息安全技术领域,公开了一种非交互式的隐私保护逻辑回归联邦训练方法及系统,所述非交互式的隐私保护逻辑回归联邦训练方法包括:系统初始化与数据归一化;数据预处理和本地训练数据加密;密文训练数据聚合与解密;逻辑回归训练与测试。本发明采用非交互式的联邦学习逻辑回归训练方法,用户不必保证每轮训练过程的在线状态也不必耗费本地资源去参与训练,用户只需在最开始的时候对数据进行预处理与加密,将加密后的数据交由云服务提供商即可,由云服务提供商完成数据的聚合与解密,对全局数据集进行训练,最终得到全局的高效模型,实现本地数据的隐私保护和非交互式的联邦学习逻辑回归训练机制,能提供高效的服务。
Description
技术领域
本发明属于信息安全技术领域,尤其涉及一种非交互式的隐私保护逻辑回归联邦训练方法及系统。
背景技术
目前,随着大数据时代的到来与机器学习技术的发展,联邦学习也得到了越来越广泛地运用。大数据时代,不可避免地会出现数据孤岛的问题,即数据间彼此孤立、同时被不同组织所拥有并且不能被轻易地聚合在一起的问题,由此提出了联邦学习的概念,即联合构建机器学习模型的方法。联邦学习的优势在于它既能帮助多个参与方共同搭建共享的高性能模型,还能最大化地利用云系统下终端设备的计算能力。
但是传统的联邦学习训练采用的是用户在本地对自己拥有的数据进行训练得到本地模型更新参数,然后将本地模型更新参数上传给服务器,由服务器完成各个本地模型更新参数的聚合并返回给用户。采取这样的训练方式要求用户必须保证每轮训练都在线并且需要消耗大量本地资源去进行训练,同时用户上传的本地模型更新参数并未进行加密保护,会造成用户数据在一定程度上的泄露的问题。
现有技术为了实现高效的隐私保护的基于横向联邦学习的逻辑回归方案,通常现有的技术是通过用户在本地对数据进行训练,然后将得到的梯度参数加密之后上传给服务器的方式。但是会存在各数据拥有者的敏感数据(例如样本数据、统计分析数据等)并未得到保护,存在敏感信息泄露的风险。
具体来说,例如同盾控股有限公司的专利“联邦学习的方法、装置及系统”(申请号202010370086.2申请公布号CN 111553484 A)一种联邦学习的方法、装置及系统,可以解决现有的联邦学习系统中网络传输开销大以及数据不安全的问题中至少一个问题。该方法的不足之处在于:只能解决数据传输中开销大的问题,以及通过传输更新梯度的最后几层也可以有效的避免根据全部的更新梯度得到客户端本地原始数据的风险,达到了对更新的梯度保密的效果,但没有对传输过程的中的梯度进行密码学保护,存在安全性不足的问题。
具体来说,例如哈尔滨工业大学(深圳)申请的专利“一种联邦学习的模型分发与聚合的传输调度方法”(申请号202011059108.X申请公布号CN112183767A)公开了一种多密钥下模型聚合的联邦学习方法及相关设备,用于在多方协同训练机器学习模型时,保障各个数据公司的数据样本不被公开。但是由于训练训练的过程需要用户一直保持在线,并且每轮迭代都需要进行一次通信,增加了通信开销。
通过上述分析,现有技术存在的问题及缺陷为:
(1)传统的联邦学习训练方法没有对用户上传的本地模型更新参数进行加密保护,会造成用户数据在一定程度上的泄露的问题。
(2)现有的联邦学习逻辑回归训练方案,存在安全性不足,不能支持逻辑回归模型训练过程中数据保护的问题。
(3)同时,现有的联邦学习逻辑回归训练方案大多数未针对非交互式的场景,需要用户一直保持在线的状态,消耗用户本地的计算资源。
解决以上问题及缺陷的难度为:
(1)现存同态加密技术难以用于非交互式计算场景,不能为多数据源提供有效的隐私保护。
(2)要对用户上传的本地模型更新参数进行加密保护,则需要用到同态加密的密码学保护方法,会在一定程度上降低模型的准确度以及会加大通信和计算开销。
(3)要在保护用户上传的本地模型更新参数的基础上保护其他数据的安全性,且存在安全性与可用性相互制约的问题。
解决以上问题及缺陷的意义为:针对分布式的场景中的数据安全问题,面向逻辑回归模型设计高效隐私保护的非交互式联邦学习算法,能够确保多源数据协同训练过程中敏感信息的安全性,有效促进和推动大数据相关技术的蓬勃发展。
发明内容
针对现有联邦学习技术存在的问题,本发明提供了一种非交互式的隐私保护逻辑回归联邦训练方法及系统。
本发明是这样实现的,一种非交互式的隐私保护逻辑回归联邦训练方法,所述非交互式的隐私保护逻辑回归联邦训练方法包括以下步骤:
步骤一,系统初始化与数据归一化,在这一步骤中,可信机构生成云服务提供商所需的聚合数据解密密钥和数据拥有者所需的分布式数据加密密钥,为后续数据的安全发送与聚合提供密钥支持,并保障了在非交互式场景下的用户数据的安全性和隐私性;同时可信机构和数据拥有者共同完成数据的归一化处理,为后续的逻辑回归模型训练提供数据支持;
步骤二,数据预处理和本地训练数据加密,在这一步骤中,数据拥有者对归一化的本地数据进行预处理生成本地训练数据,为后续的逻辑回归模型训练提供训练数据支持;同时数据拥有者使用分布式数据加密密钥对本地训练数据进行加密计算,得到密文本地训练数据,并将密文本地训练数据发送给云服务提供商,在这一过程中保障了用户数据的安全性和隐私性;
步骤三,密文训练数据聚合与解密,在这一步骤中,云服务提供商接收所有来自数据拥有者的密文本地训练数据聚合之后使用聚合数据解密密钥进行解密计算,得到全局逻辑回归训练数据,在这一过程中,如果云服务提供商不按照协议要求,而是对接收的数据先进行解密的话,是得不到最终的数据的,因为聚合数据解密密钥只能对聚合后的数据进行解密,不能对未聚合后的数据进行解密,这样就保障了用户数据的安全性和隐私性,云服务提供商只能得到聚合后的数据即全局训练数据,而得不到每个数据拥有者的本地训练数据。
步骤四,逻辑回归训练与测试,在这一步骤中,云服务提供商利用所得到的全局逻辑回归训练数据进行训练,在这一过程中,就可以得到最终训练好的高效的模型,并对得到的模型进行精度测试。
进一步,步骤一中,所述系统初始化与数据归一化具体包括:
(1)可信机构执行KeyGenerate(κ)算法为数据拥有者以及服务提供商生成计算所需密钥,包括:
1)可信机构选择一个安全参数α和两个大素数p,q;其中|p|=|q|=α;
3)生成加密密钥(N,g)和解密密钥(φ(N),μ)。
(2)数据拥有者统计所采集本地训练数对所有属性的最大值和最小值,生成向量:
并将其发送给可信机构。
假设存储在数据拥有者的本地数据集表示为:
(4)可信机构在在x(max)和x(min)加入扰动如下:
并将扰动之后的数据返回给数据拥有者。
进一步,步骤二中,所述数据预处理和本地训练数据加密具体包括:
之后,从k=1到k=n(i)。
(3)在生成本地训练数据M(i)后,针对M(i)中的每一个元素a(i)∈M(i),数据拥有者执行Encrypt(a(i))对其进行加密操作,最终数据拥有者得到密文本地训练数据并将其发送给云服务提供商。
进一步,步骤三中,所述密文训练数据聚合与解密具体包括:
其中,⊙代表矩阵的Hadamard乘积。
AX0=(n,AX01,…,AX0d);
AXj=(AX0j,AXj1,…,AXjd)。
进一步,步骤四中,所述逻辑回归训练与测试具体包括:
(1)在得到全局训练数据M之后,云服务提供商可通过以下公式训练全局逻辑回归模型:
(2)云服务提供商最终得到高效的模型,并进行模型精度的测试。
本发明的另一目的在于提供一种应用所述的非交互式的隐私保护逻辑回归联邦训练方法的非交互式的隐私保护逻辑回归联邦训练系统,所述非交互式的隐私保护逻辑回归联邦训练系统包括:
可信机构,用于完成系统初始化和数据归一化处理,设置系统所需的参数以及Paillier加密系统所需的参数,并根据数据拥有者的数量将Paillier加密系统公钥进行拆分,为各数据拥有者生成分布式数据加密密钥;根据Paillier加密系统私钥和系统安全参数,为云服务提供商生成聚合数据解密密钥;接收来自所有数据拥有者的本地最值数据,然后计算出全局最值数据加噪处理之后返回给数据拥有者;
数据拥有者,根据可信机构返回的全局最值数据对本地数据进行归一化处理,并对归一化处理之后的本地数据进行预处理操作得到本地训练数据;使用分布式数据加密密钥对本地训练数据进行加密计算,得到密文本地训练数据,并将密文本地训练数据发送给云服务提供商;
云服务提供商将收到的所有密文本地训练数据进行聚合计算,生成密文全局训练数据;使用聚合数据解密密钥对,密文全局训练数据进行解密,得到逻辑回归训练数据。
进一步,所述可信机构包括:
可信系数选取模块,用于根据需求的不同选取相应的可信系数,可信系数越大则系统的安全性能越好,同时系统的计算开销也越大;
密钥生成模块,用于完成系统初始化,生成Paiiler加密系统所需的安全参数以及系统所需的安全参数;根据数据拥有者的数量将Paillier加密系统公钥进行拆分,为各数据中心生成分布式数据加密密钥;根据Paillier加密系统私钥和系统的安全参数,为云服务提供商生成聚合数据解密密钥;并将生成的密钥发送给各个数据拥有者以及云服务提供商;
归一化计算模块,用于接收来自所有数据拥有者的本地最值数据,然后计算出全局最值数据加噪处理之后返回给数据拥有者。
所述数据拥有者包括:
数据处理模块,其中包括数据归一化子模块和数据预处理子模块,数据归一化子模块用于使用可信机构返回的全局最值数据对本地数据进行归一化处理;数据预处理子模块用于对归一化处理的数据进行预处理,生成本地训练数据;
加密发送模块,用于接收可信机构分发的分布式数据加密密钥,并使用分布式数据加密密钥对本地训练数据进行加密,生成密文本地训练数据,然后将密文本地训练数据发送给云服务提供商。
所述云服务提供商包括:
密文数据处理模块,其中包括密文数据聚合子模块和数据解密子模块。密文数据聚合子模块用于对各数据拥有者的密文本地训练数据进行聚合计算,生成密文全局训练数据;数据解密子模块用于对密文全局训练数据进行解密计算,得到全局逻辑回归训练数据;
逻辑回归训练模块,使用得到的全局逻辑回归训练数据进行训练得到最终的逻辑回归模型,并对得到的逻辑回归模型进行精确度测试。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的非交互式的隐私保护逻辑回归联邦训练方法,在保证用户本地数据隐私的前提下,采用了非交互式的联邦学习逻辑回归训练方法,即用户不必保证每轮训练过程的在线状态也不必耗费本地资源去参与训练,用户只需要在最开始的时候对数据进行预处理与加密,然后将加密后的数据交由云服务提供商即可,由云服务提供商完成数据的聚合与解密,然后对全局数据集进行训练,最终得到了全局的高效模型。
同时,本发明与现有技术相比有如下优点:
(1)实现了本地数据的隐私保护。
本发明采用的方式是首先对用户拥有的本地数据进行归一化与预处理操作得到本地训练数据,然后对本地训练数据进行加密得到加密的本地训练数据并上传给云服务提供商,交由云服务提供商对加密的本地训练数据进行聚合之后再进行解密,解密之后的数据其实是所有用户本地训练数据的和。这里云服务提供商不能对加密的本地训练数据先进行解密然后聚合的,因为云服务提供商得到的聚合数据解密密钥只有当所有加密的本地训练数据完成聚合之后才能进行正确的解密。因此云服务提供商并不能得知单个用户的本地训练数据,也不能从本地训练数据中去推断出本地数据,从而保护了本地数据的隐私性,防止了本地数据的泄露。
(2)实现了非交互式的联邦学习逻辑回归训练机制。
本发明采用的方式是用户将加密的本地训练数据上传给云服务提供商,由云服务提供商来完成后续的训练迭代过程而不需要用户的全程参与,因此不需要用户在整个训练过程中保持在线,也不需要耗费用户的本地资源来进行训练,极大地减少了通信开销与计算开销。
(3)能提供高效的服务。
本发明中由云服务提供商来完成大量的聚合计算与逻辑回归模型训练,而云服务提供商具有强大的计算能力,可以快速地完成大量的数据处理,大大地提高了训练模型的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的非交互式的隐私保护逻辑回归联邦训练方法流程图。
图2是本发明实施例提供的非交互式的隐私保护逻辑回归联邦训练方法原理图。
图3是本发明实施例提供的非交互式的隐私保护逻辑回归联邦训练系统的原理示意图。
图4是本发明实施例提供的系统初始化子流程图。
图5是本发明实施例提供的数据处理与逻辑回归模型生成子流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了非交互式的隐私保护逻辑回归联邦训练方法及系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的非交互式的隐私保护逻辑回归联邦训练方法包括以下步骤:
S101,系统初始化与数据归一化;
S102,数据预处理与本地训练数据加密;
S103,密文训练数据聚合与解密;
S104,逻辑回归训练与测试。
下面结合实施例对本发明的技术方案作进一步描述。
实施例1
本发明实施例提供的基于联邦学习的逻辑回归模型训练算法的非交互性以及隐私保护性,具体包括:
(1)非交互性
通过采用让用户对本地数据进行归一化处理与预处理并加密得到密文本地训练数据,然后将密文本地训练数据发送给服务器,由服务器去完成后续的安全聚合以及安全训练的过程,用户不必全程参与的方式,可以实现基于联邦学习的逻辑回归模型训练算法的非交互性。
(2)隐私保护性
为了保护用户的训练数据隐私,设计了基于Paillier加密方案的单云结构的安全数据聚合方案,用户对本地数据进行归一化处理与预处理并加密得到密文本地训练数据,然后将密文本地训练数据发送给服务器,从而可以保证服务器得到逻辑回归训练数据的过程中,对用户的密文本地训练数据进行安全地聚合与解密,而云服务提供商不能对密文本地训练数据先进行解密然后聚合的,因为云服务提供商得到的聚合数据解密密钥只有当所有密文本地训练数据完成聚合之后才能进行正确的解密,不会直接得到用户的本地明文数据,这样就可以实现在保护用户数据的同时,训练出最终的模型。
本发明目的在于针对现有的联邦学习技术的不足,提出非交互式的隐私保护逻辑回归联邦训练方法。本发明旨在在保证用户本地数据隐私的前提下,采用了非交互式的隐私保护逻辑回归联邦训练方法,即用户不必保证每轮训练过程的在线状态也不必耗费本地资源去参与训练,用户只需要在最开始的时候对数据进行预处理与加密,然后将加密后的数据交由云服务提供商即可,由云服务提供商完成数据的聚合与解密,然后对全局数据集进行训练,最终得到了全局的高效模型。
本发明的方案是这样实现的,一种非交互式的隐私保护逻辑回归联邦训练方法,所述非交互式的隐私保护逻辑回归联邦训练方法包括以下步骤:
第一步,系统初始化与数据归一化,可信机构生成系统所需的安全参数和Paillier加密系统所需的安全参数,并为数据拥有者和云服务提供商计算生成所需的密钥。可信机构将生成的Paillier加密系统公钥进行拆分,为各个数据拥有者生成分布式数据加密密钥;根据Paillier加密系统私钥和系统安全参数,为云服务提供商生成聚合数据解密密钥。
可信机构接收来自所有数据拥有者的本地最值数据,然后计算出全局最值数据加噪处理之后返回给数据拥有者,数据拥有者使用全局最值数据对本地数据进行归一化处理。
第二步,数据预处理和本地训练数据加密,所有数据拥有者将归一化的本地数据进行处理,生成本地训练数据;所有数据拥有者使用分布式数据加密密钥对本地训练数据进行加密计算,得到密文本地训练数据,并将密文本地训练数据发送给云服务提供商。
第三步,密文训练数据聚合与解密,云服务提供商接收所有来自数据拥有者的密文本地训练数据,并对其进行聚合计算,生成密文全局训练数据,云服务提供商使用聚合数据解密密钥对密文全局训练数据进行解密,得到全局逻辑回归训练数据。
第四步,逻辑回归训练与测试,云服务提供商利用所得的全局逻辑回归训练数据进行训练,得到全局逻辑回归训练的模型,并对得到的模型进行精度测试。
进一步,所述第一步系统初始化与数据归一化具体包括:
(1)可信机构执行KeyGenerate(κ)算法为数据拥有者以及服务提供商生成计算所需密钥:
(2)数据拥有者统计所采集本地训练数对所有属性的最大值和最小值,生成向量:
并将其发送给可信机构。
假设存储在数据拥有者的本地数据集表示为:
(4)可信机构在在x(max)和x(min)加入扰动如下:
并将扰动之后的数据返回给数据拥有者。
进一步,所述第二步数据预处理和本地训练数据加密具体包括:
之后,从k=1到k=n(i)。
(3)在生成本地训练数据M(i)后,针对M(i)中的每一个元素a(i)∈M(i),数据拥有者执行Encrypt(a(i))对其进行加密操作,最终数据拥有者得到密文本地训练数据并将其发送给云服务提供商。
进一步,所述第三步密文训练数据聚合与解密具体包括:
其中,⊙代表矩阵的Hadamard乘积。
AX0=(n,AX01,…,AX0d);
AXj=(AX0j,AXj1,…,AXjd);
(3)在得到全局训练数据M之后,云服务提供商可通过以下公式训练全局逻辑回归模型:
(4)云服务提供商最终得到高效的模型,并进行模型精度的测试。
本发明的另一目的在于提供一种实施所述非交互式的隐私保护逻辑回归联邦训练方法的非交互式的隐私保护逻辑回归联邦训练系统,所述非交互式的隐私保护逻辑回归联邦训练系统包括:
可信机构,用于完成系统初始化和数据归一化处理,设置系统所需的参数以及Paillier加密系统所需的参数,并根据数据拥有者的数量将Paillier加密系统公钥进行拆分,为各数据拥有者生成分布式数据加密密钥;根据Paillier加密系统私钥和系统安全参数,为云服务提供商生成聚合数据解密密钥;接收来自所有数据拥有者的本地最值数据,然后计算出全局最值数据加噪处理之后返回给数据拥有者。
数据拥有者,根据可信机构返回的全局最值数据对本地数据进行归一化处理,并对归一化处理之后的本地数据进行预处理操作得到本地训练数据;使用分布式数据加密密钥对本地训练数据进行加密计算,得到密文本地训练数据,并将密文本地训练数据发送给云服务提供商。
云服务提供商将收到的所有密文本地训练数据进行聚合计算,生成密文全局训练数据;使用聚合数据解密密钥对,密文全局训练数据进行解密,得到逻辑回归训练数据。
进一步,所述可信机构包括:
可信系数选取模块,用于根据需求的不同选取相应的可信系数,可信系数越大则系统的安全性能越好,同时系统的计算开销也越大;
密钥生成模块,用于完成系统初始化,生成Paiiler加密系统所需的安全参数以及系统所需的安全参数;根据数据拥有者的数量将Paillier加密系统公钥进行拆分,为各数据中心生成分布式数据加密密钥;根据Paillier加密系统私钥和系统的安全参数,为云服务提供商生成聚合数据解密密钥;并将生成的密钥发送给各个数据拥有者以及云服务提供商;
归一化计算模块,用于接收来自所有数据拥有者的本地最值数据,然后计算出全局最值数据加噪处理之后返回给数据拥有者。
进一步,所述数据拥有者包括:
数据处理模块,其中包括数据归一化子模块和数据预处理子模块,数据归一化子模块用于使用可信机构返回的全局最值数据对本地数据进行归一化处理;数据预处理子模块用于对归一化处理的数据进行预处理,生成本地训练数据;
加密发送模块,用于接收可信机构分发的分布式数据加密密钥,并使用分布式数据加密密钥对本地训练数据进行加密,生成密文本地训练数据,然后将密文本地训练数据发送给云服务提供商。
进一步,所述云服务提供商包括:
密文数据处理模块,其中包括密文数据聚合子模块和数据解密子模块。密文数据聚合子模块用于对各数据拥有者的密文本地训练数据进行聚合计算,生成密文全局训练数据;数据解密子模块用于对密文全局训练数据进行解密计算,得到全局逻辑回归训练数据;
逻辑回归训练模块,使用得到的全局逻辑回归训练数据进行训练得到最终的逻辑回归模型,并对得到的逻辑回归模型进行精确度测试。
实施例2
参照图3,本发明实施例提供的非交互式的隐私保护逻辑回归联邦训练系统包括:
可信机构,用于完成系统初始化和数据归一化处理,设置系统所需的参数以及Paillier加密系统所需的参数,并根据数据拥有者的数量将Paillier加密系统公钥进行拆分,为各数据拥有者生成分布式数据加密密钥;根据Paillier加密系统私钥和系统安全参数,为云服务提供商生成聚合数据解密密钥;接收来自所有数据拥有者的本地最值数据,然后计算出全局最值数据加噪处理之后返回给数据拥有者。
数据拥有者,根据可信机构返回的全局最值数据对本地数据进行归一化处理,并对归一化处理之后的本地数据进行预处理操作得到本地训练数据;使用分布式数据加密密钥对本地训练数据进行加密计算,得到密文本地训练数据,并将密文本地训练数据发送给云服务提供商。
云服务提供商将收到的所有密文本地训练数据进行聚合计算,生成密文全局训练数据;使用聚合数据解密密钥对,密文全局训练数据进行解密,得到逻辑回归训练数据;使用逻辑回归训练数据进行训练得到最终模型,并对模型的精度进行测试。
可信机构包括:
可信系数选取模块,用于根据需求的不同选取相应的可信系数,可信系数越大则系统的安全性能越好,同时系统的计算开销也越大;
密钥生成模块,用于完成系统初始化,生成Paiiler加密系统所需的安全参数以及系统所需的安全参数;根据数据拥有者的数量将Paillier加密系统公钥进行拆分,为各数据拥有者生成分布式数据加密密钥;根据Paillier加密系统私钥和系统的安全参数,为云服务提供商生成聚合数据解密密钥;并将生成的密钥发送给各个数据拥有者以及云服务提供商;
归一化计算模块,用于接收来自所有数据拥有者的本地最值数据,然后计算出全局最值数据加噪处理之后返回给数据拥有者。
数据拥有者包括:
数据处理模块,其中包括数据归一化子模块和数据预处理子模块,数据归一化子模块用于使用可信机构1返回的全局最值数据对本地数据进行归一化处理;数据预处理子模块用于对归一化处理的数据进行预处理,生成本地训练数据;
加密发送模块,用于接收可信机构分发的分布式数据加密密钥,并使用分布式数据加密密钥对本地训练数据进行加密,生成密文本地训练数据,然后将密文本地训练数据发送给云服务提供商。
云服务提供商包括:
密文数据处理模块,其中包括密文数据聚合子模块和数据解密子模块。密文数据聚合子模块用于对各数据拥有者的密文本地训练数据进行聚合计算,生成密文全局训练数据;数据解密子模块用于对密文全局训练数据进行解密计算,得到全局逻辑回归训练数据;
逻辑回归训练模块,使用得到的全局逻辑回归训练数据进行训练得到最终的逻辑回归模型,并对得到的逻辑回归模型进行精确度测试。
参照图2,本发明实施例提供的非交互式的隐私保护逻辑回归联邦训练方法包括以下步骤:
步骤1.系统参数初始化(见图4)
1.1)可信机构选择一个安全参数α和两个大素数p,q,其中|p|=|q|=α;
1.3)生成加密密钥(N,g)和解密密钥(φ(N),μ);
1.4)数据拥有者统计所采集本地训练数对所有属性的最大值和最小值,生成向量:
并将其发送给可信机构。
并将扰动之后的数据返回给数据拥有者。
本发明实施例提供的数据处理与逻辑回归模型生成子流程图见图5。
步骤2.数据预处理与本地训练数据加密
2.2)在生成本地训练数据M(i)后,针对M(i)中的每一个元素a(i)∈M(i),数据拥有者执行Encrypt(a(i))对其进行加密操作,最终数据拥有者得到密文本地训练数据并将其发送给云服务提供商。
步骤3.安全数据聚合和训练
其中,⊙代表矩阵的Hadamard乘积。之后,对中的每一个元素云服务提供商执行机密操作最终,云服务提供商得到全局训练数据M。为了简化描述,使用AXjj′以及AYj,j=0,…,d,j′=1,…,d来表示M中的元素。最终,云服务提供商得到:
3.3)在得到全局训练数据M之后,云服务提供商可通过以下公式训练全局逻辑回归模型:
表1
数据集 | 维度 | 数据集大小 | 迭代次数 | 准确率 | 运行时间 |
Diabetes Database | 9 | 768 | 10<sup>4</sup> | 0.764705 | 460ms |
Breast Cancer Database | 9 | 699 | 10<sup>4</sup> | 0.978102 | 380.5ms |
Us Census Income Dataset | 14 | 48842 | 10<sup>4</sup> | 0.754980 | 1794ms |
如表1所示,为本发明在不同数据集下的测试结果,在Diabetes Database数据集中,数据集维度为9,数据集大小为768,迭代次数为104,最终得到的准确率为0.764705,运行时间这里只包含数据拥有者的计算时间和云服务提供商的计算时间为460ms;在BreastCancer Database数据集中,数据集维度为9,数据集大小为699,迭代次数为104,最终得到的准确率为0.978102,运行时间这里只包含数据拥有者的计算时间和云服务提供商的计算时间为380.5ms;在Us Census Income Dataset数据集中,数据集维度为14,数据集大小为48842,迭代次数为104,最终得到的准确率为0.754980,运行时间这里只包含数据拥有者的计算时间和云服务提供商的计算时间为1794ms。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种非交互式的隐私保护逻辑回归联邦训练方法,其特征在于,所述非交互式的隐私保护逻辑回归联邦训练方法包括以下步骤:
步骤一,系统初始化与数据归一化;
步骤二,数据预处理和本地训练数据加密;
步骤三,密文训练数据聚合与解密;
步骤四,逻辑回归训练与测试。
2.如权利要求1所述的非交互式的隐私保护逻辑回归联邦训练方法,其特征在于,步骤一中,所述系统初始化与数据归一化,包括:
可信机构生成系统所需的安全参数和Paillier加密系统所需的安全参数,并为数据拥有者和云服务提供商计算生成所需的密钥;
可信机构将生成的Paillier加密系统公钥进行拆分,为各个数据拥有者生成分布式数据加密密钥;根据Paillier加密系统私钥和系统安全参数,为云服务提供商生成聚合数据解密密钥;
可信机构接收来自所有数据拥有者的本地最值数据,然后计算出全局最值数据加噪处理之后返回给数据拥有者,数据拥有者使用全局最值数据对本地数据进行归一化处理。
3.如权利要求1所述的非交互式的隐私保护逻辑回归联邦训练方法,其特征在于,步骤一中,所述系统初始化与数据归一化,还包括:
(1)可信机构执行KeyGenerate(κ)算法为数据拥有者以及服务提供商生成计算所需密钥,包括:
1)可信机构选择一个安全参数α和两个大素数p,q;其中|p|=|q|=α;
3)生成加密密钥(N,g)和解密密钥(φ(N),μ);
(2)数据拥有者统计所采集本地训练数对所有属性的最大值和最小值,生成向量:
并将其发送给可信机构;
假设存储在数据拥有者的本地数据集表示为:
(4)可信机构在在x(max)和x(min)加入扰动如下:
并将扰动之后的数据返回给数据拥有者;
4.如权利要求1所述的非交互式的隐私保护逻辑回归联邦训练方法,其特征在于,步骤二中,所述数据预处理和本地训练数据加密,包括:
所有数据拥有者将归一化的本地数据进行处理,生成本地训练数据;所有数据拥有者使用分布式数据加密密钥对本地训练数据进行加密计算,得到密文本地训练数据,并将密文本地训练数据发送给云服务提供商。
5.如权利要求1所述的所述的非交互式的隐私保护逻辑回归联邦训练方法,其特征在于,步骤二中,所述数据预处理和本地训练数据加密,还包括:
之后,从k=1到k=n(i);
6.如权利要求1所述的非交互式的隐私保护逻辑回归联邦训练方法,其特征在于,步骤三中,所述密文训练数据聚合与解密,包括:
云服务提供商接收所有来自数据拥有者的密文本地训练数据,并对其进行聚合计算,生成密文全局训练数据,云服务提供商使用聚合数据解密密钥对密文全局训练数据进行解密,得到全局逻辑回归训练数据。
7.如权利要求1所述的所述的非交互式的隐私保护逻辑回归联邦训练方法,其特征在于,步骤三中,所述密文训练数据聚合与解密,还包括:
其中,⊙代表矩阵的Hadamard乘积;
AX0=(n,AX01,…,AX0d);
AXj=(AX0j,AXj1,…,AXjd);
(3)在得到全局训练数据M之后,云服务提供商可通过以下公式训练全局逻辑回归模型:
(4)云服务提供商最终得到高效的模型,并进行模型精度的测试。
8.如权利要求1所述的所述的非交互式的隐私保护逻辑回归联邦训练方法,其特征在于,步骤四中,所述逻辑回归训练与测试,包括:
云服务提供商利用所得的全局逻辑回归训练数据进行训练,得到全局逻辑回归训练的模型,并对得到的模型进行精度测试。
9.一种实施权利要求1~8任意一项所述的非交互式的隐私保护逻辑回归联邦训练方法的非交互式的隐私保护逻辑回归联邦训练系统,其特征在于,所述非交互式的隐私保护逻辑回归联邦训练系统包括:
可信机构,用于完成系统初始化和数据归一化处理,设置系统所需的参数以及Paillier加密系统所需的参数,并根据数据拥有者的数量将Paillier加密系统公钥进行拆分,为各数据拥有者生成分布式数据加密密钥;根据Paillier加密系统私钥和系统安全参数,为云服务提供商生成聚合数据解密密钥;接收来自所有数据拥有者的本地最值数据,然后计算出全局最值数据加噪处理之后返回给数据拥有者;
数据拥有者,根据可信机构返回的全局最值数据对本地数据进行归一化处理,并对归一化处理之后的本地数据进行预处理操作得到本地训练数据;使用分布式数据加密密钥对本地训练数据进行加密计算,得到密文本地训练数据,并将密文本地训练数据发送给云服务提供商;
云服务提供商将收到的所有密文本地训练数据进行聚合计算,生成密文全局训练数据;使用聚合数据解密密钥对,密文全局训练数据进行解密,得到逻辑回归训练数据。
10.如权利要求9所述的非交互式的隐私保护逻辑回归联邦训练系统,其特征在于,所述可信机构包括:
可信系数选取模块,用于根据需求的不同选取相应的可信系数,可信系数越大则系统的安全性能越好,同时系统的计算开销也越大;
密钥生成模块,用于完成系统初始化,生成Paiiler加密系统所需的安全参数以及系统所需的安全参数;根据数据拥有者的数量将Paillier加密系统公钥进行拆分,为各数据中心生成分布式数据加密密钥;根据Paillier加密系统私钥和系统的安全参数,为云服务提供商生成聚合数据解密密钥;并将生成的密钥发送给各个数据拥有者以及云服务提供商;
归一化计算模块,用于接收来自所有数据拥有者的本地最值数据,然后计算出全局最值数据加噪处理之后返回给数据拥有者;
所述数据拥有者包括:
数据处理模块,其中包括数据归一化子模块和数据预处理子模块,数据归一化子模块用于使用可信机构返回的全局最值数据对本地数据进行归一化处理;数据预处理子模块用于对归一化处理的数据进行预处理,生成本地训练数据;
加密发送模块,用于接收可信机构分发的分布式数据加密密钥,并使用分布式数据加密密钥对本地训练数据进行加密,生成密文本地训练数据,然后将密文本地训练数据发送给云服务提供商;
所述云服务提供商包括:
密文数据处理模块,其中包括密文数据聚合子模块和数据解密子模块;密文数据聚合子模块用于对各数据拥有者的密文本地训练数据进行聚合计算,生成密文全局训练数据;数据解密子模块用于对密文全局训练数据进行解密计算,得到全局逻辑回归训练数据;
逻辑回归训练模块,使用得到的全局逻辑回归训练数据进行训练得到最终的逻辑回归模型,并对得到的逻辑回归模型进行精确度测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110561403.3A CN113434898B (zh) | 2021-05-22 | 2021-05-22 | 一种非交互式的隐私保护逻辑回归联邦训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110561403.3A CN113434898B (zh) | 2021-05-22 | 2021-05-22 | 一种非交互式的隐私保护逻辑回归联邦训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113434898A true CN113434898A (zh) | 2021-09-24 |
CN113434898B CN113434898B (zh) | 2022-10-18 |
Family
ID=77802694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110561403.3A Active CN113434898B (zh) | 2021-05-22 | 2021-05-22 | 一种非交互式的隐私保护逻辑回归联邦训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434898B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091690A (zh) * | 2021-11-25 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 联邦学习模型的训练方法和调用方法以及联邦学习系统 |
CN114239070A (zh) * | 2021-12-23 | 2022-03-25 | 电子科技大学 | 在联邦学习中移除非规则用户的隐私保护方法 |
CN117395083A (zh) * | 2023-12-11 | 2024-01-12 | 东信和平科技股份有限公司 | 基于联邦学习的数据保护方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055779A (zh) * | 2016-05-27 | 2016-10-26 | 大连楼兰科技股份有限公司 | 基于人工智能半监督学习逻辑回归方法建立分车型远程定损系统及方法 |
CN109815709A (zh) * | 2018-12-11 | 2019-05-28 | 顺丰科技有限公司 | 敏感信息非法拷贝的识别方法、装置、设备及存储介质 |
CN110704860A (zh) * | 2019-11-18 | 2020-01-17 | 深圳前海微众银行股份有限公司 | 提升安全性的纵向联邦学习方法、设备、系统及存储介质 |
CN111859440A (zh) * | 2020-08-21 | 2020-10-30 | 安徽大学 | 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法 |
CN112182649A (zh) * | 2020-09-22 | 2021-01-05 | 上海海洋大学 | 一种基于安全两方计算线性回归算法的数据隐私保护系统 |
CN112613618A (zh) * | 2021-01-04 | 2021-04-06 | 神谱科技(上海)有限公司 | 一种安全联邦学习逻辑回归算法 |
-
2021
- 2021-05-22 CN CN202110561403.3A patent/CN113434898B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055779A (zh) * | 2016-05-27 | 2016-10-26 | 大连楼兰科技股份有限公司 | 基于人工智能半监督学习逻辑回归方法建立分车型远程定损系统及方法 |
CN109815709A (zh) * | 2018-12-11 | 2019-05-28 | 顺丰科技有限公司 | 敏感信息非法拷贝的识别方法、装置、设备及存储介质 |
CN110704860A (zh) * | 2019-11-18 | 2020-01-17 | 深圳前海微众银行股份有限公司 | 提升安全性的纵向联邦学习方法、设备、系统及存储介质 |
CN111859440A (zh) * | 2020-08-21 | 2020-10-30 | 安徽大学 | 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法 |
CN112182649A (zh) * | 2020-09-22 | 2021-01-05 | 上海海洋大学 | 一种基于安全两方计算线性回归算法的数据隐私保护系统 |
CN112613618A (zh) * | 2021-01-04 | 2021-04-06 | 神谱科技(上海)有限公司 | 一种安全联邦学习逻辑回归算法 |
Non-Patent Citations (2)
Title |
---|
夏仕冰: "机器学习中的隐私保护研究 ——基于门限秘密共享技术", 《中国优秀硕士学位论文全文数据库》 * |
陈涛等: "面向大数据隐私保护的联邦学习算法航空应用模型研究", 《信息安全与通信保密》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091690A (zh) * | 2021-11-25 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 联邦学习模型的训练方法和调用方法以及联邦学习系统 |
CN114239070A (zh) * | 2021-12-23 | 2022-03-25 | 电子科技大学 | 在联邦学习中移除非规则用户的隐私保护方法 |
CN117395083A (zh) * | 2023-12-11 | 2024-01-12 | 东信和平科技股份有限公司 | 基于联邦学习的数据保护方法及系统 |
CN117395083B (zh) * | 2023-12-11 | 2024-03-19 | 东信和平科技股份有限公司 | 基于联邦学习的数据保护方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113434898B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108712260B (zh) | 云环境下保护隐私的多方深度学习计算代理方法 | |
Hao et al. | Towards efficient and privacy-preserving federated deep learning | |
US11196541B2 (en) | Secure machine learning analytics using homomorphic encryption | |
CN113434898B (zh) | 一种非交互式的隐私保护逻辑回归联邦训练方法及系统 | |
CN111931250B (zh) | 多方安全计算一体机 | |
CN106850656B (zh) | 一种云环境下多用户文件共享控制方法 | |
CN112822005A (zh) | 基于同态加密的安全迁移学习系统 | |
Erkin et al. | Privacy-preserving distributed clustering | |
Singh et al. | Privacy-preserving serverless computing using federated learning for smart grids | |
Liu et al. | A privacy-preserving outsourced functional computation framework across large-scale multiple encrypted domains | |
Liu et al. | Lightning-fast and privacy-preserving outsourced computation in the cloud | |
CN111159727B (zh) | 一种面向多方协同的贝叶斯分类器安全生成系统及方法 | |
Wang et al. | PPFLHE: A privacy-preserving federated learning scheme with homomorphic encryption for healthcare data | |
CN115664629A (zh) | 一种基于同态加密的智慧物联平台数据隐私保护方法 | |
Ma et al. | Privacy-preserving distributed multi-task learning against inference attack in cloud computing | |
Wang et al. | Privacy-preserving outsourced feature extractions in the cloud: A survey | |
Zhou et al. | Toward Scalable and Privacy-preserving Deep Neural Network via Algorithmic-Cryptographic Co-design | |
Sun et al. | Feature engineering framework based on secure multi-party computation in federated learning | |
Li et al. | Secure and evaluable clustering based on a multifunctional and privacy-preserving outsourcing computation toolkit | |
Jiang et al. | Federated Learning-Based Privacy Protection for IoT-based Smart Healthcare Systems | |
Wang et al. | Multi-Key Clustering Method for Cloud Environments' Privacy-Preserving | |
Singh et al. | Cloud assisted semi-static secure accountable authority identity-based broadcast encryption featuring public traceability without random oracles | |
Tang | Cryptographic framework for analyzing the privacy of recommender algorithms | |
Zhu et al. | PFED-AGG: A Personalized Private Federated Learning Aggregation Algorithm | |
Wang et al. | Sym-Fed: Unleashing the Power of Symmetric Encryption in Cross-Silo Federated Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |