CN116070277A

CN116070277A - 一种基于深度哈希的纵向联邦学习隐私保护方法和系统

Info

Publication number: CN116070277A
Application number: CN202310210011.1A
Authority: CN
Inventors: 纪守领; 邱鹏宇; 林瑞潇; 张旭鸿; 蒲誉文
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-05-05
Anticipated expiration: 2043-03-07
Also published as: CN116070277B

Abstract

本发明公开了一种基于深度哈希的纵向联邦学习隐私保护方法和系统，属于分布式机器学习安全技术领域。通过各合作方本地模型获取样本的抽象表示，通过归一化层得到零均值连续码，利用哈希层对连续码进行二值化后得到哈希码；各参与方将哈希码上传服务器端，服务器端聚合各方哈希码，通过顶层模型计算预测值，依据预测值和标签计算分类损失、利用预生成的二值码计算各参与方哈希码间的余弦相似度损失，通过上述损失计算梯度，更新顶层模型，并向各合作方分发各自梯度，梯度在本地哈希层传播时保持不变。本发明利用深度哈希技术，能够在保障用户数据安全的前提下，既不损失模型性能，又极大程度地提高了计算效率，不存在模型被攻击者逆向重构的风险。

Description

一种基于深度哈希的纵向联邦学习隐私保护方法和系统

技术领域

本发明属于分布式机器学习安全技术领域，尤其涉及一种基于深度哈希的纵向联邦学习隐私保护方法和系统。

背景技术

人工智能时代，利用海量数据训练机器学习模型，使其代替人类工作或辅助人类决策成为主要趋势，如智慧医疗、无人驾驶等等。机器学习模型是数据支撑的，因此用户数据成为了企业的核心资产之一；同时，要训练出性能完备的高质量机器学习模型，必须拥有大规模的训练数据。然而，由于单一企业的业务范围有限，能够收集到的数据类型相对有限，并且为了保护用户隐私，禁止企业直接转移或交换用户数据，导致企业间存在“数据孤岛”。针对这一现状，为了在不泄露用户隐私的前提下，充分利用不同类型的数据，共同训练性能优良的机器学习模型，纵向联邦学习方法应运而生。

纵向联邦学习方法适用于各参与方在样本空间重叠多、特征空间重叠少的条件下共同训练预测模型，且训练参与方数据不出本地的场景。例如面向同一客户范围的超市和银行，两机构持有的用户数据样本空间重合度大，而由于业务不同，特征空间重合度小。纵向联邦学习方法可以打破数据孤岛，联合各方数据获得更高质量的机器学习模型，同时兼顾用户隐私数据保护，在增加数据流通以广泛应用智能模型方面发挥了重要作用。

当前已有的纵向联邦学习的隐私保护手段，通常为差分隐私方法和同态加密方法。差分隐私方法通过为数据或模型更新梯度添加噪声来保护隐私，旨在增加攻击者重构数据的难度，但存在的问题是噪声累积会降低数据可用性，影响模型性能；同态加密方法则通过密码学手段保护数据传输和计算过程，客户端本地通过公钥对上传数据加密，服务器端则在加密状态下将数据进行聚合计算，但计算开销相较于明文计算显著增加。同时，上述两种隐私保护手段，仍然存在用户隐私数据被逆向重构的风险，尤其是两方参与的纵向联邦学习场景。

综上所述，当前纵向联邦学习隐私保护方法在设计上主要存在以下不足：一、添加随机噪声导致模型性能下降，违背纵向联邦学习方法提出初衷；二、加密计算方法，依赖第三方生成密钥并分发，客户端依据接收的密钥对明文进行加密再上传，服务器端则对上传的密文再度进行运算，密文运算相较于明文运算而言，计算开销大，通信耗时长，通信带宽占用高，不利于纵向联邦学习的大规模应用；三、现有方法仍存在数据被逆向重构的风险，不利于保护用户隐私数据。

发明内容

本发明针对现有纵向联邦学习隐私保护技术的不足，提出了一种基于深度哈希的纵向联邦学习隐私保护方法和系统，本发明首次在纵向联邦学习中采用深度哈希的技术手段实现隐私保护，在保证模型性能的前提下消除数据泄露风险，同时降低了计算开销，不存在模型被攻击者逆向重构的风险。

为了达到上述目的，本发明采用如下技术方案实现：

一种基于深度哈希的纵向联邦学习隐私保护方法，包括以下步骤：

步骤1，服务器端接收来自各合作方的经过加密的全量隐私数据样本，所述的全量隐私数据样本标注有标识；服务器端根据标识进行对齐操作，生成标识交集；

步骤2，各合作方建立本地模型、本地批处理归一化层和本地哈希层；服务器端建立顶层模型；

步骤3，各轮次迭代训练中，服务器端根据标识交集随机生成若干批样本，各合作方按照批样本顺序训练本地模型，得到各合作方本地模型输出的当前批样本的抽象表示；

步骤4，利用本地批处理归一化层对本地模型输出的当前批样本的抽象表示进行处理，得到各合作方的零均值连续码；

步骤5，利用本地哈希层对本地批处理归一化层输出的零均值连续码进行哈希编码，得到各合作方的哈希码，并上传至服务器端；

步骤6，服务器端将各方哈希码进行聚合，并利用顶层模型计算预测结果、损失值和梯度，更新顶层模型，同时分发各合作方本地模型的更新梯度，由各合作方更新本地模型；

步骤7，遍历当前轮次迭代训练中的所有批样本，重复步骤3-6，直至达到预设迭代轮次。

进一步地，所述的各合作方根据本地隐私数据样本的数据类型选择本地模型，所述的数据类型包括文本类型、图像类型。

进一步地，所述的各合作方本地模型输出的当前批样本的抽象表示的特征维度相同，所述特征维度，其中C为标识交集中所有隐私数据样本的标签数量，为向上取整符号。

进一步地，所述的利用本地批处理归一化层对本地模型输出的当前批样本的抽象表示进行处理，得到各合作方的零均值连续码，具体为：

4.1）针对当前批样本，计算本地模型输出的每一维特征在该批次中的均值和方差；

4.2）利用均值和方差对当前批样本对应的本地模型输出结果进行归一化处理，得到零均值连续码。

进一步地，所述的本地哈希层利用符号函数，对本地批处理归一化层输出的零均值连续码进行哈希编码，得到哈希码。

进一步地，步骤6中，顶层模型的损失值包括两部分：

第一部分，利用顶层模型的预测结果与隐私数据样本的标签计算交叉熵损失；

第二部分，在服务器端预先生成隐私数据样本各标签对应的二值码，计算各合作方的哈希码与顶层模型的预测结果对应的二值码之间的余弦距离，取均值作为余弦相似度损失；

所述的交叉熵损失和余弦相似度损失之和作为顶层模型的总损失值。

进一步地，步骤6中，服务器端将各方哈希码进行聚合后，当前批样本中的各样本由各合作方的哈希码拼接后的结果进行表示。

进一步地，步骤6中，由服务器端分发的各合作方本地模型的更新梯度在本地哈希层传播时保持不变。

一种基于深度哈希的纵向联邦学习隐私保护系统，包括：

样本接收单元，其布置在服务器端，用于接收来自各合作方的经过加密的全量隐私数据样本，所述的全量隐私数据样本标注有标识；

样本对齐单元，其布置在服务器端，用于根据样本接收单元获取的全量隐私数据样本及其标识进行对齐操作，生成标识交集，并在各轮次迭代训练中，根据标识交集随机生成若干批样本；

模型构建模块，其用于构建各合作方的本地模型、本地批处理归一化层和本地哈希层，以及构建服务器端的顶层模型；

所述的本地批处理归一化层用于对本地模型输出的当前批样本的抽象表示进行处理，得到各合作方的零均值连续码；所述的本地哈希层用于对本地批处理归一化层输出的零均值连续码进行哈希编码，得到各合作方的哈希码，并上传至服务器端；

本地模型训练模块，其用于在各轮次迭代训练中，按照样本对齐单元生成的批样本顺序训练本地模型，得到各合作方本地模型输出的当前批样本的抽象表示；以及，用于接收服务器端下发的本地模型的更新梯度，对本地模型进行更新；

顶层模型训练模块，其布置在服务器端，用于接收各合作方的哈希码并进行聚合，根据聚合后的哈希码训练顶层模型，同时分发各合作方本地模型的更新梯度。

与现有技术相比，本发明具备的有益效果是：

（1）本发明采用了深度哈希的技术手段保护用户隐私，相比于现有的添加随机噪声的方式，既保证了模型性能，又从根本上消除了数据逆向重构的风险；

（2）在保障了用户隐私的基础上，本发明得到的哈希码可进行明文传输和运算，并由于其二值化的特质，与现有的加密传输和加密计算方法相比，大幅降低了通信带宽和计算开销。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明示出的基于深度哈希的纵向联邦学习隐私保护方法的流程示意图；

图2为本发明示出的基于深度哈希的纵向联邦学习隐私保护方法在某一具体实施例中的示意图。

图3为本发明示出的数据逆向重构攻击示意图。

具体实施方式

以下将结合附图和具体实施方式对本发明进行详细说明。

如图1所示，本发明提出了一种基于深度哈希的纵向联邦学习隐私保护方法，具体步骤如下：

（1）服务器端接收来自各合作方的经过加密的全量隐私数据样本，所述的全量隐私数据样本标注有标识；纵向联邦学习应用于多个数据所有者样本空间（用户群体）重合大，但样本的特征空间（隐私数据）重叠小的场景，因此服务器需要根据标识对样本（用户）进行对齐操作，以保证各参与方训练对象一致，生成标识交集。

所述的标识代表了一条数据样本的id，该标识可以是基于身份证号等信息，例如，对于某一标识id=A，不同合作方提供了该标识下的不同数据，对齐操作就是将同一标识下的数据对齐，若所有合作方均存在标识id=A的样本数据，则保留该标识id，否则剔除，最终生成标识交集。由于对齐操作属于本领域的公知常识，此处不再赘述。

（2）各合作方根据本地数据类型选择本地模型，例如，若本地数据类型为图像，则选择卷积神经网络模型 ResNet50 ；若本地数据类型为文本，则选择神经网络模型 BERT等；以及，各合作方还需建立本地批处理归一化层和本地哈希层；同理，服务器端建立顶层模型。

（3）各轮次迭代训练中，服务器端根据标识交集随机生成若干批样本，各合作方按照批样本顺序训练本地模型，得到各合作方本地模型输出的当前批样本的抽象表示。

在本发明的一项具体实施中，随机生成若干批样本的方法为：

对于对齐后的N个样本，给定批大小K，每轮训练选择的批次集合为项取值为二进制的向量，。

其中，s_i 表示长度为N的二进制向量，其每一项的取值代表该项序号所对应的样本是否出现在第i个批次，即s_i[j]=1表示第i个批次中，N个样本中的第j个样本被选中。

各合作方按照批样本顺序，对本地模型进行批训练，各合作方训练样本的使用顺序是预定的顺序。如图2所示，例如图像数据选择卷积神经网络模型 ResNet50 提取图片的深度特征，文本数据选择神经网络模型 BERT 用以提取词向量等，由此，本地样本经本地模型训练得到的抽象表示由特征向量表示，其中表示第t轮迭代中的第i维特征，各合作方本地模型输出的当前批样本的抽象表示的特征维度相同，所述特征维度，其中C为标识交集中所有隐私数据样本的标签数量，为向上取整符号，例如，标签数量为10，则抽象表示的特征总数为。

（4）在步骤（3）中得到本地模型提取当前批样本的抽象表示 v 的基础上，将所述抽象表示输入批处理归一化层，得到各合作方的零均值连续码。

在本发明的一项具体实施中，步骤（4）的实现方式如下：

（4-1）针对当前批样本，计算批样本的本地模型输出中每一维特征在该批次中的均值和方差。

（4-2）利用均值和方差对该批次样本的本地模型输出进行归一化处理，每一维特征的处理结果为，得到零均值连续码v′。

（5）将步骤（4）所述的零均值连续码输入至本地哈希层，利用本地哈希层对本地批处理归一化层输出的零均值连续码进行哈希编码，得到各合作方的哈希码，并上传至服务器端。

在本发明的一项具体实施中，利用符号函数，将步骤（4）中得到的零均值连续码进行哈希编码，得到哈希码；其中，v′表示零均值连续码，sign(.)表示符号函数，h表示哈希码。

（6）服务器端将各合作方的哈希码进行聚合，并利用顶层模型计算预测结果、损失值和梯度，更新顶层模型，同时分发各合作方本地模型的更新梯度，由各合作方更新本地模型。

在本发明的一项具体实施中，首先，服务器端将各合作方上传的哈希码进行聚合，例如concate操作，得到，m代表参与方数量。之后，服务器端利用顶层模型，例如，可选择多层感知器MLP，对聚合后的哈希码进行计算，得到样本的预测值。最后，服务器端按照预定义的损失函数计算损失值和梯度，对顶层模型进行更新，同时将各参与方的哈希码对应的梯度分发回各参与方，各参与方利用接收的梯度更新本地模型。

顶层模型的损失值包括两部分：

第一部分，利用顶层模型的预测结果与隐私数据样本的标签计算交叉熵损失，计算公式为：

其中，x_n是第n个样本，y_nj是第n个样本属于第j类的真实标签，K表示批大小，表示预测结果中样本x_n属于第 j 类标签的概率，C如上所述表示标签数量。

所述的交叉熵损失和余弦相似度损失之和作为顶层模型的总损失值，计算梯度，利用反向传播机制，更新顶层模型。

在本发明的一项具体实施中，由服务器端分发的各合作方本地模型的更新梯度在本地哈希层传播时保持不变，在梯度反向传播通过哈希层后，后续层参数依据链式法则进行更新。

（7）遍历当前轮次迭代训练中的所有批样本，重复步骤（1）至步骤（6），直至达到预设迭代轮次。

如图3所示，针对传统的纵向联邦学习的隐私保护手段，攻击者可以通过获取目标本地模型上传的样本的抽样表示和顶层模型广播的模型更新，得到目标样本抽象表示的近似解，之后结合目标本地模型的替代模型，重构目标数据集。而由于本发明所采用的深度哈希技术对任意输入通过提取抽象语义信息，再仅保留符号的方式进行编码，抹去了输入的细节特征，保证了哈希的单向特质，确保本发明不存在模型被攻击者逆向重构的风险。在本实施例中还提供了一种基于深度哈希的纵向联邦学习隐私保护系统，该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能的。

本实施例提供的一种基于深度哈希的纵向联邦学习隐私保护系统，包括：

在本发明的一项具体实施中，所述的顶层模型训练模块包括：

交叉熵损失计算模块，其用于利用顶层模型的预测结果与隐私数据样本的标签计算交叉熵损失；

余弦相似度损失计算模块，其用于计算各合作方的哈希码与顶层模型的预测结果对应的二值码之间的余弦距离，取均值作为余弦相似度损失；

总损失计算模块，其用于计算交叉熵损失和余弦相似度损失之和，作为顶层模型的总损失值。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可，其余模块的实现方法此处不再赘述。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明的系统的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种基于深度哈希的纵向联邦学习隐私保护方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度哈希的纵向联邦学习隐私保护方法，其特征在于，所述的各合作方根据本地隐私数据样本的数据类型选择本地模型，所述的数据类型包括文本类型、图像类型。

3.根据权利要求1所述的一种基于深度哈希的纵向联邦学习隐私保护方法，其特征在于，所述的各合作方本地模型输出的当前批样本的抽象表示的特征维度相同，所述特征维度，其中C为标识交集中所有隐私数据样本的标签数量，为向上取整符号。

4.根据权利要求1所述的一种基于深度哈希的纵向联邦学习隐私保护方法，其特征在于，所述的利用本地批处理归一化层对本地模型输出的当前批样本的抽象表示进行处理，得到各合作方的零均值连续码，具体为：

5.根据权利要求1所述的一种基于深度哈希的纵向联邦学习隐私保护方法，其特征在于，所述的本地哈希层利用符号函数，对本地批处理归一化层输出的零均值连续码进行哈希编码，得到哈希码。

6.根据权利要求1所述的一种基于深度哈希的纵向联邦学习隐私保护方法，其特征在于，步骤6中，顶层模型的损失值包括两部分：

7.根据权利要求1所述的一种基于深度哈希的纵向联邦学习隐私保护方法，其特征在于，步骤6中，服务器端将各方哈希码进行聚合后，当前批样本中的各样本由各合作方的哈希码拼接后的结果进行表示。

8.根据权利要求1所述的一种基于深度哈希的纵向联邦学习隐私保护方法，其特征在于，步骤6中，由服务器端分发的各合作方本地模型的更新梯度在本地哈希层传播时保持不变。

9.一种基于深度哈希的纵向联邦学习隐私保护系统，其特征在于，包括：

10.根据权利要求9所述的一种基于深度哈希的纵向联邦学习隐私保护系统，其特征在于，所述的顶层模型训练模块包括：