CN113434898A

CN113434898A - 一种非交互式的隐私保护逻辑回归联邦训练方法及系统

Info

Publication number: CN113434898A
Application number: CN202110561403.3A
Authority: CN
Inventors: 朱辉; 王二梅; 宛海涛; 王枫为; 李临风; 涂敬伟; 赵家奇
Original assignee: Xidian University; China Mobile Suzhou Software Technology Co Ltd
Current assignee: Xidian University; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2021-05-22
Filing date: 2021-05-22
Publication date: 2021-09-24
Anticipated expiration: 2041-05-22
Also published as: CN113434898B

Abstract

本发明属于信息安全技术领域，公开了一种非交互式的隐私保护逻辑回归联邦训练方法及系统，所述非交互式的隐私保护逻辑回归联邦训练方法包括：系统初始化与数据归一化；数据预处理和本地训练数据加密；密文训练数据聚合与解密；逻辑回归训练与测试。本发明采用非交互式的联邦学习逻辑回归训练方法，用户不必保证每轮训练过程的在线状态也不必耗费本地资源去参与训练，用户只需在最开始的时候对数据进行预处理与加密，将加密后的数据交由云服务提供商即可，由云服务提供商完成数据的聚合与解密，对全局数据集进行训练，最终得到全局的高效模型，实现本地数据的隐私保护和非交互式的联邦学习逻辑回归训练机制，能提供高效的服务。

Description

一种非交互式的隐私保护逻辑回归联邦训练方法及系统

技术领域

本发明属于信息安全技术领域，尤其涉及一种非交互式的隐私保护逻辑回归联邦训练方法及系统。

背景技术

目前，随着大数据时代的到来与机器学习技术的发展，联邦学习也得到了越来越广泛地运用。大数据时代，不可避免地会出现数据孤岛的问题，即数据间彼此孤立、同时被不同组织所拥有并且不能被轻易地聚合在一起的问题，由此提出了联邦学习的概念，即联合构建机器学习模型的方法。联邦学习的优势在于它既能帮助多个参与方共同搭建共享的高性能模型，还能最大化地利用云系统下终端设备的计算能力。

但是传统的联邦学习训练采用的是用户在本地对自己拥有的数据进行训练得到本地模型更新参数，然后将本地模型更新参数上传给服务器，由服务器完成各个本地模型更新参数的聚合并返回给用户。采取这样的训练方式要求用户必须保证每轮训练都在线并且需要消耗大量本地资源去进行训练，同时用户上传的本地模型更新参数并未进行加密保护，会造成用户数据在一定程度上的泄露的问题。

现有技术为了实现高效的隐私保护的基于横向联邦学习的逻辑回归方案，通常现有的技术是通过用户在本地对数据进行训练，然后将得到的梯度参数加密之后上传给服务器的方式。但是会存在各数据拥有者的敏感数据(例如样本数据、统计分析数据等)并未得到保护，存在敏感信息泄露的风险。

具体来说，例如同盾控股有限公司的专利“联邦学习的方法、装置及系统”(申请号202010370086.2申请公布号CN 111553484 A)一种联邦学习的方法、装置及系统，可以解决现有的联邦学习系统中网络传输开销大以及数据不安全的问题中至少一个问题。该方法的不足之处在于：只能解决数据传输中开销大的问题，以及通过传输更新梯度的最后几层也可以有效的避免根据全部的更新梯度得到客户端本地原始数据的风险，达到了对更新的梯度保密的效果，但没有对传输过程的中的梯度进行密码学保护，存在安全性不足的问题。

具体来说，例如哈尔滨工业大学(深圳)申请的专利“一种联邦学习的模型分发与聚合的传输调度方法”(申请号202011059108.X申请公布号CN112183767A)公开了一种多密钥下模型聚合的联邦学习方法及相关设备，用于在多方协同训练机器学习模型时，保障各个数据公司的数据样本不被公开。但是由于训练训练的过程需要用户一直保持在线，并且每轮迭代都需要进行一次通信，增加了通信开销。

通过上述分析，现有技术存在的问题及缺陷为：

(1)传统的联邦学习训练方法没有对用户上传的本地模型更新参数进行加密保护，会造成用户数据在一定程度上的泄露的问题。

(2)现有的联邦学习逻辑回归训练方案，存在安全性不足，不能支持逻辑回归模型训练过程中数据保护的问题。

(3)同时，现有的联邦学习逻辑回归训练方案大多数未针对非交互式的场景，需要用户一直保持在线的状态，消耗用户本地的计算资源。

解决以上问题及缺陷的难度为：

(1)现存同态加密技术难以用于非交互式计算场景，不能为多数据源提供有效的隐私保护。

(2)要对用户上传的本地模型更新参数进行加密保护，则需要用到同态加密的密码学保护方法，会在一定程度上降低模型的准确度以及会加大通信和计算开销。

(3)要在保护用户上传的本地模型更新参数的基础上保护其他数据的安全性，且存在安全性与可用性相互制约的问题。

解决以上问题及缺陷的意义为：针对分布式的场景中的数据安全问题，面向逻辑回归模型设计高效隐私保护的非交互式联邦学习算法，能够确保多源数据协同训练过程中敏感信息的安全性，有效促进和推动大数据相关技术的蓬勃发展。

发明内容

针对现有联邦学习技术存在的问题，本发明提供了一种非交互式的隐私保护逻辑回归联邦训练方法及系统。

本发明是这样实现的，一种非交互式的隐私保护逻辑回归联邦训练方法，所述非交互式的隐私保护逻辑回归联邦训练方法包括以下步骤：

步骤一，系统初始化与数据归一化，在这一步骤中，可信机构生成云服务提供商所需的聚合数据解密密钥和数据拥有者所需的分布式数据加密密钥，为后续数据的安全发送与聚合提供密钥支持，并保障了在非交互式场景下的用户数据的安全性和隐私性；同时可信机构和数据拥有者共同完成数据的归一化处理，为后续的逻辑回归模型训练提供数据支持；

步骤二，数据预处理和本地训练数据加密，在这一步骤中，数据拥有者对归一化的本地数据进行预处理生成本地训练数据，为后续的逻辑回归模型训练提供训练数据支持；同时数据拥有者使用分布式数据加密密钥对本地训练数据进行加密计算，得到密文本地训练数据，并将密文本地训练数据发送给云服务提供商，在这一过程中保障了用户数据的安全性和隐私性；

步骤三，密文训练数据聚合与解密，在这一步骤中，云服务提供商接收所有来自数据拥有者的密文本地训练数据聚合之后使用聚合数据解密密钥进行解密计算，得到全局逻辑回归训练数据，在这一过程中，如果云服务提供商不按照协议要求，而是对接收的数据先进行解密的话，是得不到最终的数据的，因为聚合数据解密密钥只能对聚合后的数据进行解密，不能对未聚合后的数据进行解密，这样就保障了用户数据的安全性和隐私性，云服务提供商只能得到聚合后的数据即全局训练数据，而得不到每个数据拥有者的本地训练数据。

步骤四，逻辑回归训练与测试，在这一步骤中，云服务提供商利用所得到的全局逻辑回归训练数据进行训练，在这一过程中，就可以得到最终训练好的高效的模型，并对得到的模型进行精度测试。

进一步，步骤一中，所述系统初始化与数据归一化具体包括：

(1)可信机构执行KeyGenerate(κ)算法为数据拥有者以及服务提供商生成计算所需密钥，包括：

1)可信机构选择一个安全参数α和两个大素数p，q；其中|p|＝|q|＝α；

2)可信机构用参数计算出公钥N＝pq，私钥λ＝lcm(p-1，q-1)然后可信机构选择一个生成器g，g＝-a^2N；其中，a是一个

中的随机数；

3)生成加密密钥(N，g)和解密密钥(φ(N)，μ)。

(2)数据拥有者统计所采集本地训练数对所有属性的最大值和最小值，生成向量：

并将其发送给可信机构。

假设存储在数据拥有者的本地数据集表示为：

其中，

表示训练样本属性向量，y^(ik)为目标向量，n⁽ⁱ⁾表示属于数据拥有者采集到的样本个数。

(3)可信机构在收到所有数据拥有者提交的向量之后，对

i＝1，…，m中各属性进行比较，提取全局属性的最大值和最小值，并生成向量

和

(4)可信机构在在x^(max)和x^(min)加入扰动如下：

并将扰动之后的数据返回给数据拥有者。

(5)各数据拥有者在收到<x^(max)，x^(min)>之后，通过计算

对本地数据集进行归一化处理，其中，j＝1，…，d，k＝1，…，n⁽ⁱ⁾。

进一步，步骤二中，所述数据预处理和本地训练数据加密具体包括：

(1)在进行数据归一化之后，各数据拥有者对本地训练数据集进行预处理。假设

中每一个训练样本表示为向量

数据拥有者首先将X^(ik)扩展成为如下(d+1)×(d+1)的矩阵：

之后，从k＝1到k＝n⁽ⁱ⁾。

(2)数据拥有者对所得到的矩阵进行求和计算

并将求和结果M⁽ⁱ⁾作为本地训练数据。

(3)在生成本地训练数据M⁽ⁱ⁾后，针对M⁽ⁱ⁾中的每一个元素a⁽ⁱ⁾∈M⁽ⁱ⁾，数据拥有者执行Encrypt(a⁽ⁱ⁾)对其进行加密操作，最终数据拥有者得到密文本地训练数据

并将其发送给云服务提供商。

进一步，步骤三中，所述密文训练数据聚合与解密具体包括：

(1)当云服务提供商收到所有m个数据拥有者的密文本地训练数据

i＝1，…，m之后，针对

中的所有元素

云服务提供商执行聚合操作

即计算：

其中，⊙代表矩阵的Hadamard乘积。

(2)对

中的每一个元素

云服务提供商执行机密操作

云服务提供商得到全局训练数据M。为了简化描述，使用AX_jj′以及AY_j，j＝0，…，d，j′＝1，…，d来表示M中的元素。云服务提供商得到：

AX₀＝(n，AX₀₁，…，AX_0d)；

AX_j＝(AX_0j，AX_j1，…，AX_jd)。

进一步，步骤四中，所述逻辑回归训练与测试具体包括：

(1)在得到全局训练数据M之后，云服务提供商可通过以下公式训练全局逻辑回归模型：

(2)云服务提供商最终得到高效的模型，并进行模型精度的测试。

本发明的另一目的在于提供一种应用所述的非交互式的隐私保护逻辑回归联邦训练方法的非交互式的隐私保护逻辑回归联邦训练系统，所述非交互式的隐私保护逻辑回归联邦训练系统包括：

可信机构，用于完成系统初始化和数据归一化处理，设置系统所需的参数以及Paillier加密系统所需的参数，并根据数据拥有者的数量将Paillier加密系统公钥进行拆分，为各数据拥有者生成分布式数据加密密钥；根据Paillier加密系统私钥和系统安全参数，为云服务提供商生成聚合数据解密密钥；接收来自所有数据拥有者的本地最值数据，然后计算出全局最值数据加噪处理之后返回给数据拥有者；

数据拥有者，根据可信机构返回的全局最值数据对本地数据进行归一化处理，并对归一化处理之后的本地数据进行预处理操作得到本地训练数据；使用分布式数据加密密钥对本地训练数据进行加密计算，得到密文本地训练数据，并将密文本地训练数据发送给云服务提供商；

云服务提供商将收到的所有密文本地训练数据进行聚合计算，生成密文全局训练数据；使用聚合数据解密密钥对，密文全局训练数据进行解密，得到逻辑回归训练数据。

进一步，所述可信机构包括：

可信系数选取模块，用于根据需求的不同选取相应的可信系数，可信系数越大则系统的安全性能越好，同时系统的计算开销也越大；

密钥生成模块，用于完成系统初始化，生成Paiiler加密系统所需的安全参数以及系统所需的安全参数；根据数据拥有者的数量将Paillier加密系统公钥进行拆分，为各数据中心生成分布式数据加密密钥；根据Paillier加密系统私钥和系统的安全参数，为云服务提供商生成聚合数据解密密钥；并将生成的密钥发送给各个数据拥有者以及云服务提供商；

归一化计算模块，用于接收来自所有数据拥有者的本地最值数据，然后计算出全局最值数据加噪处理之后返回给数据拥有者。

所述数据拥有者包括：

数据处理模块，其中包括数据归一化子模块和数据预处理子模块，数据归一化子模块用于使用可信机构返回的全局最值数据对本地数据进行归一化处理；数据预处理子模块用于对归一化处理的数据进行预处理，生成本地训练数据；

加密发送模块，用于接收可信机构分发的分布式数据加密密钥，并使用分布式数据加密密钥对本地训练数据进行加密，生成密文本地训练数据，然后将密文本地训练数据发送给云服务提供商。

所述云服务提供商包括：

密文数据处理模块，其中包括密文数据聚合子模块和数据解密子模块。密文数据聚合子模块用于对各数据拥有者的密文本地训练数据进行聚合计算，生成密文全局训练数据；数据解密子模块用于对密文全局训练数据进行解密计算，得到全局逻辑回归训练数据；

逻辑回归训练模块，使用得到的全局逻辑回归训练数据进行训练得到最终的逻辑回归模型，并对得到的逻辑回归模型进行精确度测试。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的非交互式的隐私保护逻辑回归联邦训练方法，在保证用户本地数据隐私的前提下，采用了非交互式的联邦学习逻辑回归训练方法，即用户不必保证每轮训练过程的在线状态也不必耗费本地资源去参与训练，用户只需要在最开始的时候对数据进行预处理与加密，然后将加密后的数据交由云服务提供商即可，由云服务提供商完成数据的聚合与解密，然后对全局数据集进行训练，最终得到了全局的高效模型。

同时，本发明与现有技术相比有如下优点：

(1)实现了本地数据的隐私保护。

本发明采用的方式是首先对用户拥有的本地数据进行归一化与预处理操作得到本地训练数据，然后对本地训练数据进行加密得到加密的本地训练数据并上传给云服务提供商，交由云服务提供商对加密的本地训练数据进行聚合之后再进行解密，解密之后的数据其实是所有用户本地训练数据的和。这里云服务提供商不能对加密的本地训练数据先进行解密然后聚合的，因为云服务提供商得到的聚合数据解密密钥只有当所有加密的本地训练数据完成聚合之后才能进行正确的解密。因此云服务提供商并不能得知单个用户的本地训练数据，也不能从本地训练数据中去推断出本地数据，从而保护了本地数据的隐私性，防止了本地数据的泄露。

(2)实现了非交互式的联邦学习逻辑回归训练机制。

本发明采用的方式是用户将加密的本地训练数据上传给云服务提供商，由云服务提供商来完成后续的训练迭代过程而不需要用户的全程参与，因此不需要用户在整个训练过程中保持在线，也不需要耗费用户的本地资源来进行训练，极大地减少了通信开销与计算开销。

(3)能提供高效的服务。

本发明中由云服务提供商来完成大量的聚合计算与逻辑回归模型训练，而云服务提供商具有强大的计算能力，可以快速地完成大量的数据处理，大大地提高了训练模型的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的非交互式的隐私保护逻辑回归联邦训练方法流程图。

图2是本发明实施例提供的非交互式的隐私保护逻辑回归联邦训练方法原理图。

图3是本发明实施例提供的非交互式的隐私保护逻辑回归联邦训练系统的原理示意图。

图4是本发明实施例提供的系统初始化子流程图。

图5是本发明实施例提供的数据处理与逻辑回归模型生成子流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了非交互式的隐私保护逻辑回归联邦训练方法及系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的非交互式的隐私保护逻辑回归联邦训练方法包括以下步骤：

S101，系统初始化与数据归一化；

S102，数据预处理与本地训练数据加密；

S103，密文训练数据聚合与解密；

S104，逻辑回归训练与测试。

下面结合实施例对本发明的技术方案作进一步描述。

实施例1

本发明实施例提供的基于联邦学习的逻辑回归模型训练算法的非交互性以及隐私保护性，具体包括：

(1)非交互性

通过采用让用户对本地数据进行归一化处理与预处理并加密得到密文本地训练数据，然后将密文本地训练数据发送给服务器，由服务器去完成后续的安全聚合以及安全训练的过程，用户不必全程参与的方式，可以实现基于联邦学习的逻辑回归模型训练算法的非交互性。

(2)隐私保护性

为了保护用户的训练数据隐私，设计了基于Paillier加密方案的单云结构的安全数据聚合方案，用户对本地数据进行归一化处理与预处理并加密得到密文本地训练数据，然后将密文本地训练数据发送给服务器，从而可以保证服务器得到逻辑回归训练数据的过程中，对用户的密文本地训练数据进行安全地聚合与解密，而云服务提供商不能对密文本地训练数据先进行解密然后聚合的，因为云服务提供商得到的聚合数据解密密钥只有当所有密文本地训练数据完成聚合之后才能进行正确的解密，不会直接得到用户的本地明文数据，这样就可以实现在保护用户数据的同时，训练出最终的模型。

本发明目的在于针对现有的联邦学习技术的不足，提出非交互式的隐私保护逻辑回归联邦训练方法。本发明旨在在保证用户本地数据隐私的前提下，采用了非交互式的隐私保护逻辑回归联邦训练方法，即用户不必保证每轮训练过程的在线状态也不必耗费本地资源去参与训练，用户只需要在最开始的时候对数据进行预处理与加密，然后将加密后的数据交由云服务提供商即可，由云服务提供商完成数据的聚合与解密，然后对全局数据集进行训练，最终得到了全局的高效模型。

本发明的方案是这样实现的，一种非交互式的隐私保护逻辑回归联邦训练方法，所述非交互式的隐私保护逻辑回归联邦训练方法包括以下步骤：

第一步，系统初始化与数据归一化，可信机构生成系统所需的安全参数和Paillier加密系统所需的安全参数，并为数据拥有者和云服务提供商计算生成所需的密钥。可信机构将生成的Paillier加密系统公钥进行拆分，为各个数据拥有者生成分布式数据加密密钥；根据Paillier加密系统私钥和系统安全参数，为云服务提供商生成聚合数据解密密钥。

可信机构接收来自所有数据拥有者的本地最值数据，然后计算出全局最值数据加噪处理之后返回给数据拥有者，数据拥有者使用全局最值数据对本地数据进行归一化处理。

第二步，数据预处理和本地训练数据加密，所有数据拥有者将归一化的本地数据进行处理，生成本地训练数据；所有数据拥有者使用分布式数据加密密钥对本地训练数据进行加密计算，得到密文本地训练数据，并将密文本地训练数据发送给云服务提供商。

第三步，密文训练数据聚合与解密，云服务提供商接收所有来自数据拥有者的密文本地训练数据，并对其进行聚合计算，生成密文全局训练数据，云服务提供商使用聚合数据解密密钥对密文全局训练数据进行解密，得到全局逻辑回归训练数据。

第四步，逻辑回归训练与测试，云服务提供商利用所得的全局逻辑回归训练数据进行训练，得到全局逻辑回归训练的模型，并对得到的模型进行精度测试。

进一步，所述第一步系统初始化与数据归一化具体包括：

(1)可信机构执行KeyGenerate(κ)算法为数据拥有者以及服务提供商生成计算所需密钥：

并将其发送给可信机构。

假设存储在数据拥有者的本地数据集表示为：

其中，

(3)可信机构在收到所有数据拥有者提交的向量之后，对

和

(4)可信机构在在x^(max)和x^(min)加入扰动如下：

并将扰动之后的数据返回给数据拥有者。

(5)各数据拥有者在收到<x^(max)，x^(min)>之后，通过计算

进一步，所述第二步数据预处理和本地训练数据加密具体包括：

中每一个训练样本表示为向量

数据拥有者首先将X^(ik)扩展成为如下(d+1)×(d+1)的矩阵：

之后，从k＝1到k＝n⁽ⁱ⁾。

(2)数据拥有者对所得到的矩阵进行求和计算

并将求和结果M⁽ⁱ⁾作为本地训练数据。

并将其发送给云服务提供商。

进一步，所述第三步密文训练数据聚合与解密具体包括：

i＝1，…，m之后，针对

中的所有元素

云服务提供商执行聚合操作

即计算：

其中，⊙代表矩阵的Hadamard乘积。

(2)对

中的每一个元素

云服务提供商执行机密操作

AX₀＝(n，AX₀₁，…，AX_0d)；

AX_j＝(AX_0j，AX_j1，…，AX_jd)；

(3)在得到全局训练数据M之后，云服务提供商可通过以下公式训练全局逻辑回归模型：

(4)云服务提供商最终得到高效的模型，并进行模型精度的测试。

本发明的另一目的在于提供一种实施所述非交互式的隐私保护逻辑回归联邦训练方法的非交互式的隐私保护逻辑回归联邦训练系统，所述非交互式的隐私保护逻辑回归联邦训练系统包括：

可信机构，用于完成系统初始化和数据归一化处理，设置系统所需的参数以及Paillier加密系统所需的参数，并根据数据拥有者的数量将Paillier加密系统公钥进行拆分，为各数据拥有者生成分布式数据加密密钥；根据Paillier加密系统私钥和系统安全参数，为云服务提供商生成聚合数据解密密钥；接收来自所有数据拥有者的本地最值数据，然后计算出全局最值数据加噪处理之后返回给数据拥有者。

数据拥有者，根据可信机构返回的全局最值数据对本地数据进行归一化处理，并对归一化处理之后的本地数据进行预处理操作得到本地训练数据；使用分布式数据加密密钥对本地训练数据进行加密计算，得到密文本地训练数据，并将密文本地训练数据发送给云服务提供商。

进一步，所述可信机构包括：

进一步，所述数据拥有者包括：

进一步，所述云服务提供商包括：

实施例2

参照图3，本发明实施例提供的非交互式的隐私保护逻辑回归联邦训练系统包括：

云服务提供商将收到的所有密文本地训练数据进行聚合计算，生成密文全局训练数据；使用聚合数据解密密钥对，密文全局训练数据进行解密，得到逻辑回归训练数据；使用逻辑回归训练数据进行训练得到最终模型，并对模型的精度进行测试。

可信机构包括：

密钥生成模块，用于完成系统初始化，生成Paiiler加密系统所需的安全参数以及系统所需的安全参数；根据数据拥有者的数量将Paillier加密系统公钥进行拆分，为各数据拥有者生成分布式数据加密密钥；根据Paillier加密系统私钥和系统的安全参数，为云服务提供商生成聚合数据解密密钥；并将生成的密钥发送给各个数据拥有者以及云服务提供商；

数据拥有者包括：

数据处理模块，其中包括数据归一化子模块和数据预处理子模块，数据归一化子模块用于使用可信机构1返回的全局最值数据对本地数据进行归一化处理；数据预处理子模块用于对归一化处理的数据进行预处理，生成本地训练数据；

云服务提供商包括：

参照图2，本发明实施例提供的非交互式的隐私保护逻辑回归联邦训练方法包括以下步骤：

步骤1.系统参数初始化(见图4)

1.1)可信机构选择一个安全参数α和两个大素数p，q，其中|p|＝|q|＝α；

1.2)可信机构用参数计算出公钥N＝pq，私钥λ＝lcm(p-1，q-1)然后可信机构选择一个生成器g，例如g＝-a^2N，其中，a是一个

中的随机数；

1.3)生成加密密钥(N，g)和解密密钥(φ(N)，μ)；

1.4)数据拥有者统计所采集本地训练数对所有属性的最大值和最小值，生成向量：

并将其发送给可信机构。

1.5)可信机构在收到所有数据拥有者提交的向量之后，对

和

之后，TA在x^(max)和x^(min)加入扰动如下：

并将扰动之后的数据返回给数据拥有者。

1.6)各数据拥有者在收到<x^(max)，x^(min)>之后，通过计算

本发明实施例提供的数据处理与逻辑回归模型生成子流程图见图5。

步骤2.数据预处理与本地训练数据加密

2.1)在进行数据归一化之后，各数据拥有者对本地训练数据集进行预处理。假设

中每一个训练样本表示为向量

数据拥有者首先将X^(ik)扩展成为如下(d+1)×(d+1)的矩阵：

之后，从k＝1到k＝n⁽ⁱ⁾，数据拥有者对所得到的矩阵进行求和计算

并将求和结果M⁽ⁱ⁾作为本地训练数据。

2.2)在生成本地训练数据M⁽ⁱ⁾后，针对M⁽ⁱ⁾中的每一个元素a⁽ⁱ⁾∈M⁽ⁱ⁾，数据拥有者执行Encrypt(a⁽ⁱ⁾)对其进行加密操作，最终数据拥有者得到密文本地训练数据

并将其发送给云服务提供商。

步骤3.安全数据聚合和训练

3.1)当云服务提供商收到所有m个数据拥有者的密文本地训练数据

i＝1，…，m之后，针对

中的所有元素

云服务提供商执行聚合操作

即计算：

其中，⊙代表矩阵的Hadamard乘积。之后，对

中的每一个元素

云服务提供商执行机密操作

最终，云服务提供商得到全局训练数据M。为了简化描述，使用AX_jj′以及AY_j，j＝0，…，d，j′＝1，…，d来表示M中的元素。最终，云服务提供商得到：

3.3)在得到全局训练数据M之后，云服务提供商可通过以下公式训练全局逻辑回归模型：

表1

数据集	维度	数据集大小	迭代次数	准确率	运行时间
						Diabetes Database	9	768	10<sup>4</sup>	0.764705	460ms
Breast Cancer Database	9	699	10<sup>4</sup>	0.978102	380.5ms
						Us Census Income Dataset	14	48842	10<sup>4</sup>	0.754980	1794ms

如表1所示，为本发明在不同数据集下的测试结果，在Diabetes Database数据集中，数据集维度为9，数据集大小为768，迭代次数为10⁴，最终得到的准确率为0.764705，运行时间这里只包含数据拥有者的计算时间和云服务提供商的计算时间为460ms；在BreastCancer Database数据集中，数据集维度为9，数据集大小为699，迭代次数为10⁴，最终得到的准确率为0.978102，运行时间这里只包含数据拥有者的计算时间和云服务提供商的计算时间为380.5ms；在Us Census Income Dataset数据集中，数据集维度为14，数据集大小为48842，迭代次数为10⁴，最终得到的准确率为0.754980，运行时间这里只包含数据拥有者的计算时间和云服务提供商的计算时间为1794ms。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种非交互式的隐私保护逻辑回归联邦训练方法，其特征在于，所述非交互式的隐私保护逻辑回归联邦训练方法包括以下步骤：

步骤一，系统初始化与数据归一化；

步骤二，数据预处理和本地训练数据加密；

步骤三，密文训练数据聚合与解密；

步骤四，逻辑回归训练与测试。

2.如权利要求1所述的非交互式的隐私保护逻辑回归联邦训练方法，其特征在于，步骤一中，所述系统初始化与数据归一化，包括：

可信机构生成系统所需的安全参数和Paillier加密系统所需的安全参数，并为数据拥有者和云服务提供商计算生成所需的密钥；

可信机构将生成的Paillier加密系统公钥进行拆分，为各个数据拥有者生成分布式数据加密密钥；根据Paillier加密系统私钥和系统安全参数，为云服务提供商生成聚合数据解密密钥；

3.如权利要求1所述的非交互式的隐私保护逻辑回归联邦训练方法，其特征在于，步骤一中，所述系统初始化与数据归一化，还包括：

中的随机数；

3)生成加密密钥(N，g)和解密密钥(φ(N)，μ)；

并将其发送给可信机构；

假设存储在数据拥有者的本地数据集表示为：

其中，

表示训练样本属性向量，y^(ik)为目标向量，n⁽ⁱ⁾表示属于数据拥有者采集到的样本个数；

(3)可信机构在收到所有数据拥有者提交的向量之后，对

中各属性进行比较，提取全局属性的最大值和最小值，并生成向量

和

(4)可信机构在在x^(max)和x^(min)加入扰动如下：

并将扰动之后的数据返回给数据拥有者；

(5)各数据拥有者在收到<x^(max)，x^(min)>之后，通过计算

对本地数据集进行归一化处理；其中，j＝1，…，d，k＝1，…，n⁽ⁱ⁾。

4.如权利要求1所述的非交互式的隐私保护逻辑回归联邦训练方法，其特征在于，步骤二中，所述数据预处理和本地训练数据加密，包括：

所有数据拥有者将归一化的本地数据进行处理，生成本地训练数据；所有数据拥有者使用分布式数据加密密钥对本地训练数据进行加密计算，得到密文本地训练数据，并将密文本地训练数据发送给云服务提供商。

5.如权利要求1所述的所述的非交互式的隐私保护逻辑回归联邦训练方法，其特征在于，步骤二中，所述数据预处理和本地训练数据加密，还包括：

(1)在进行数据归一化之后，各数据拥有者对本地训练数据集进行预处理；假设

中每一个训练样本表示为向量

数据拥有者首先将X^(ik)扩展成为如下(d+1)×(d+1)的矩阵：

之后，从k＝1到k＝n⁽ⁱ⁾；

(2)数据拥有者对所得到的矩阵进行求和计算

并将求和结果M⁽ⁱ⁾作为本地训练数据；

并将其发送给云服务提供商。

6.如权利要求1所述的非交互式的隐私保护逻辑回归联邦训练方法，其特征在于，步骤三中，所述密文训练数据聚合与解密，包括：

云服务提供商接收所有来自数据拥有者的密文本地训练数据，并对其进行聚合计算，生成密文全局训练数据，云服务提供商使用聚合数据解密密钥对密文全局训练数据进行解密，得到全局逻辑回归训练数据。

7.如权利要求1所述的所述的非交互式的隐私保护逻辑回归联邦训练方法，其特征在于，步骤三中，所述密文训练数据聚合与解密，还包括：

之后，针对

中的所有元素

云服务提供商执行聚合操作

即计算：

其中，⊙代表矩阵的Hadamard乘积；

(2)对

中的每一个元素

云服务提供商执行机密操作

云服务提供商得到全局训练数据M；使用AX_jj′以及AY_j，j＝0，…，d，j′＝1，…，d来表示M中的元素；云服务提供商得到：

AX₀＝(n，AX₀₁，…，AX_0d)；

AX_j＝(AX_0j，AX_j1，…，AX_jd)；

8.如权利要求1所述的所述的非交互式的隐私保护逻辑回归联邦训练方法，其特征在于，步骤四中，所述逻辑回归训练与测试，包括：

云服务提供商利用所得的全局逻辑回归训练数据进行训练，得到全局逻辑回归训练的模型，并对得到的模型进行精度测试。

9.一种实施权利要求1～8任意一项所述的非交互式的隐私保护逻辑回归联邦训练方法的非交互式的隐私保护逻辑回归联邦训练系统，其特征在于，所述非交互式的隐私保护逻辑回归联邦训练系统包括：

10.如权利要求9所述的非交互式的隐私保护逻辑回归联邦训练系统，其特征在于，所述可信机构包括：

归一化计算模块，用于接收来自所有数据拥有者的本地最值数据，然后计算出全局最值数据加噪处理之后返回给数据拥有者；

所述数据拥有者包括：

加密发送模块，用于接收可信机构分发的分布式数据加密密钥，并使用分布式数据加密密钥对本地训练数据进行加密，生成密文本地训练数据，然后将密文本地训练数据发送给云服务提供商；

所述云服务提供商包括：

密文数据处理模块，其中包括密文数据聚合子模块和数据解密子模块；密文数据聚合子模块用于对各数据拥有者的密文本地训练数据进行聚合计算，生成密文全局训练数据；数据解密子模块用于对密文全局训练数据进行解密计算，得到全局逻辑回归训练数据；