CN111091193B

CN111091193B - 一种面向深度神经网络的基于差分隐私的域适应隐私保护方法

Info

Publication number: CN111091193B
Application number: CN201911054227.3A
Authority: CN
Inventors: 王骞; 李子希; 赵令辰; 邹勤
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2022-07-05
Anticipated expiration: 2039-10-31
Also published as: CN111091193A

Abstract

本发明公开了一种面向深度神经网络的基于差分隐私的域适应隐私保护方法。提出了一个新颖的深度网络框架，可以在实现域适应技术的同时保护数据隐私。由于在进行迁移学习的现实场景中，比如学校和医院，训练数据集通常是隐私的，而现如今并没有灵活的保护域适应技术隐私的方案，所以本发明有着很强的实用性。本发明使用对抗学习的思想进行域适应训练，并首次通过差分隐私对域适应训练过程进行隐私保护。实验结果表明本模型可以在合适的隐私消耗下以理想的准确率完成域适应任务。

Description

一种面向深度神经网络的基于差分隐私的域适应隐私保护方法

技术领域

本发明涉及一种面向深度神经网络的基于差分隐私的域适应隐私保护方法，属于人工智能安全领域。

背景技术

深度学习在解决很多问题方面已经展现了很强大的能力，比如说语音识别、计算机视觉。但是为了获得好的表现，深度学习需要大量的数据来训练模型，这通常需要大量的时间精力。数据集的差别也使得一个训练好的模型很难直接去分类另一个数据集。这些需求促进了迁移学习的发展，迁移学习可以将在源域上训练好的模型进行迁移并用来分类目标域数据。域适应技术是实现迁移学习的一种方法。

具体来讲，域适应技术旨在映射源域数据和目标域数据到同一个特征空间，以此来使得源域数据训练出来的分类器分类目标域的数据。但是在很多环境下，比如说医院、学校，域适应的过程中涉及到了目标域的隐私信息。这些敏感的隐私数据将作为输入数据来训练域适应模型，攻击者可能通过攻击手段从模型获取目标域数据的隐私。

本发明考虑的是一种对抗强攻击的保护方法，本发明假设攻击者拥有训练结构和模型参数的全部信息。差分隐私是解决这类隐私问题的最先进的隐私保护机制。它通过向数据中添加噪声来实现隐私保护，而且已经成为了隐私担保的一个标准。由于源域的数据通常来自于谷歌等公开的大型服务器，所以现实中没有很大的必要去保护源域数据隐私，本发明主要考虑的是目标域数据的隐私保护。

发明内容

本发明就是为了克服现有技术的不足，提出了一种新颖的架构来通过差分隐私保护深度域适应网络的隐私信息，称为差分隐私域适应模型。本发明使用先进的隐私保护机制来提供强有力的隐私担保并保持较低的隐私消耗。

具体来讲，本发明在卷积神经网络中通过两个阶段来完成差分隐私域适应任务。在过程1中本发明使用传统的优化算法来训练源域数据。在过程2中，本发明使用对抗学习的策略来构建域的不变特征。在两个过程中，神经网络的前面几层是通过微调Alexnet模型实现的。本发明没有重训练Alexnet的所有层，而是选择固定其前几层来保护域适应的有效性。

为了提供差分隐私保护，本发明向梯度中利用高斯机制加入噪声。本发明只在过程2中加入噪声来减少噪声对模型正确分类的影响。为了进一步减小训练过程中多次迭代带来的大量的隐私消耗，本发明使用moment accountant技术来追踪隐私损失的细节信息来使得以合适的隐私预算训练模型。

本发明所设计的本发明所述设计的一种面向深度神经网络的基于差分隐私的域适应隐私保护方法，包含如下步骤：

对于拥有源域图像的服务器和拥有目标域图像的用户，定义了一个包含两个过程的深度前馈神经网络模型；过程1中，模型被训练来预测源域图像的标签，其中源域图像标签已知；过程2中，模型被训练来预测源域图像和目标域图像的域标签，其中源域图像域标签定义为1，目标域图像域标签定义为0；

其中，所述神经网络模型包括特征提取部分，标签预测部分和域分类部分；在过程1和2中的数据均会在特征提取部分被映射；本模型使用Alexnet结构来实现特征提取部分的映射，并固定Alexnet结构的前五个卷积层和第六层全连接层，重训练后两个全连接层；整个训练过程中共享Alexnet最后两个全连接层的参数；特征提取部分的参数将分别传给标签预测部分和域分类部分；

所述神经网络模型在过程1中使用标准SGD算法最小化标签分类损失；在过程2中，在特征提取部分最大化域分类损失，在域分类部分最小化分类损失；

为了避免个人隐私的泄露，本模型在过程2的参数中添加了噪声。

另一种噪声的添加方式为，本模型在SGD过程中的每一步中添加噪声，使得模型的特征不会暴露目标域中数据的隐私信息。

本模型的主要创新在于通过固定部分层参数提高了迁移学习的分类准确率，并通过特殊的加入噪声的梯度下降优化算法保护了训练数据集的隐私。相比于其他深度学习以及迁移学习模型，本模型可以在保护训练数据集隐私的情况下达到理想的分类准确率，在许多例如医疗数据训练的现实场景中有着很强的实用性。

进一步地，所述的一种面向深度神经网络的基于差分隐私的域适应隐私保护方法在过程1中使用标准SGD算法最小化经验损失函数。特征提取部分的参数θ_f和标签预测部分的参数θ_y以以下方式更新：

其中

是分类损失，η是学习速率。

更进一步地，在过程2中本模型通过添加高斯噪声来保护目标域数据的隐私。由于过程1中没有目标域数据参与训练，所以本模型常规下只在过程2中加入噪声。本模型首先在训练数据集中随机选取样本M。对于样本M，本模型先进行梯度裁剪，然后在梯度裁剪后的参数中利用高斯机制加入噪声。域分类部分的参数θ_d以以下方式更新：

其中η是学习速率，C是梯度常数边界，σ是噪声等级，N(0，σ²C²I)是高斯分布。由于过程2中有对抗过程，本模型在此过程中添加梯度反转层(GRL)。GRL被定义为R_V(x)：

R_V(x)＝x；

更进一步地，本发明同时还提出了一种同时保护源域数据和目标域数据的全局差分隐私域适应模型，即全局隐私保护模型。此模型中噪声被同时添加到过程1和过程2中。全局隐私保护模型从过程1的训练数据中随机提取样本M_s，并以以下方式更新：

其中η是学习速率，C是梯度常数边界，σ是噪声等级，N(0，σ²C²I)是高斯分布。通过两个过程的迭代训练，噪声被加到所有训练数据上，从而保护了数据隐私。

再进一步地，本发明中使用moment account方法来计算隐私消耗，使得在过程2中本模型的算法满足

差分隐私，其中N是输入数据集的大小，M_b是批大小，T是训练的次数。对于全局隐私保护模型，模型在过程1和过程2中均满足

差分隐私。

本发明和现有技术相比，具有的有益效果是：

1、深度域适应学习训练过程中存在的隐私问题，本发明提出了一个能保护域适应任务隐私的新方法，本发明之前并没有灵活的域适应模型保护方案。

2、为了保护个人隐私，本发明向模型指定层和指定阶段的梯度中加入噪声，并且使模型达到了(∈，δ)_-差分隐私。本发明使用对抗学习的策略进行域适应并保证了较低的实际损失。

3、为了评估本发明的有效性，本发明进行了大量的实验，并与目前最好的域适应算法进行了比较。实验的结果证明本发明可以以理想的准确率完成域适应任务，并且在合适的整体隐私消耗下保护训练数据的个人隐私。

4、本发明分别提出了能保护目标域域训练数据隐私和同时保护源域和目标域训练数据隐私的模型。如果不使用本模型而直接使用现有的深度迁移学习算法，现有攻击方法可以攻击得到训练数据的信息。若使用本发明提出的保护目标域隐私的模型，则攻击者难以攻击得到目标域数据的信息，从而达到隐私保护的效果。若使用本发明提出的同时保护目标域和源域数据隐私的模型，则攻击者无法攻击得到训练相关的所有数据的隐私。由于现在迁移学习过程中很多训练数据集涉及到隐私，如医疗数据、人像数据等，所以本模型有着较强的实用性。

附图说明

图1为面向深度神经网络的基于差分隐私的域适应隐私保护方法框架。

图2为全局差分隐私域适应模型框架。

具体实施方式

如图所示，本发明所设计的面向深度神经网络的基于差分隐私的域适应隐私保护方法，包含如下步骤：

1)如图1所示，对于拥有源域图像的服务器和拥有目标域图像的用户，定义了一个包含两个过程的深度前馈神经网络模型。过程1中，模型被训练来预测源域图像的标签，其中源域图像标签已知。过程2中，模型被训练来预测源域图像和目标域图像的标签，其中源域图像标签定义为1，目标域图像标签定义为0.

2)如图1所示，本模型可分解为三部分，特征提取部分，标签预测部分和域分类部分。在两个阶段中的数据均会在特征提取部分被映射。本模型使用Alexnet结构来实现特征提取部分的映射。本模型固定Alexnet的前五个卷积层和第六层全连接层，并重训练后两个全连接层。整个训练过程中共享Alexnet最后两个全连接层的参数。特征提取部分的参数将分别传给标签预测部分和域分类部分。

3)本模型在过程1中使用标准SGD算法最小化标签分类损失。在过程2中，本模型利用对抗思想，在特征提取部分最大化域分类损失，在域分类部分最小化分类损失。

4)本模型中添加噪音的两种方式包括：第一，为了避免个人隐私的泄露，本模型在过程2的参数中添加了噪声。第二，本模型在SGD过程中的每一步中添加噪声，使得模型的特征不会暴露目标域中数据的隐私信息。

本模型在过程1中使用标准SGD算法最小化经验损失函数。特征提取部分的参数θ_f和标签预测部分的参数θ_y以以下方式更新：

其中

是分类损失，η是学习速率。

在过程2中本模型通过添加高斯噪声来保护目标域数据的隐私。由于过程1中没有目标域数据参与训练，所以本模型常规下只在过程2中加入噪声。本模型首先在训练数据集中随机选取样本M。对于样本M，本模型先进行梯度裁剪，然后在梯度裁剪后的参数中利用高斯机制加入噪声。域分类部分的参数θ_d以以下方式更新：

其中η是学习速率，C是梯度常数边界，σ是噪声等级，N(0，σ²C²I)是高斯分布。

由于过程2中有对抗过程，本模型在此过程中添加梯度反转层(GRL)。GRL被定义为R_V(x)：

R_V(x)＝x；

在SGD过程中的每一步中添加噪声,即为同时保护源域数据和目标域数据的全局差分隐私域适应模型(全局隐私保护模型)。如图2所示，此模型中噪声被同时添加到过程1和过程2中。全局隐私保护模型从过程1的训练数据中随机提取样本M_s，并以以下方式更新：

本发明中，使用moment account方法来计算隐私消耗，使得在过程2中本模型的算法可以满足

差分隐私，其中N是输入数据集的大小，

是批大小，T是训练的次数。对于全局隐私保护模型，模型在过程1和过程2中均满足

差分隐私。

本发明的有益效果为：

Claims

1.一种面向深度神经网络的基于差分隐私的域适应隐私保护方法，其特征在于包含如下步骤：

所述神经网络模型在过程1中使用标准SGD算法最小化标签分类损失；在过程2中，在特征提取部分最大化域分类损失，在域分类部分最小化分类损失；在本模型在过程中添加噪声，具体为在过程2中通过添加高斯噪声来保护目标域数据的隐私，且在SGD过程中的每一步中添加噪声，具体如下：

首先在训练数据集中随机选取样本M，对于样本M，本模型先进行梯度裁剪，然后在梯度裁剪后的参数中利用高斯机制加入噪声；域分类部分的参数θ_d以以下方式更新：

其中η是学习速率，C是梯度常数边界，σ是噪声等级，N(0，σ²C²I)是高斯分布；由于过程2中有对抗过程，本模型在此过程中添加梯度反转层GRL，GRL被定义为R_V(x)

R_V(x)＝x；

2.如权利要求1所述的一种面向深度神经网络的基于差分隐私的域适应隐私保护方法，其特征在于：在过程1中，本模型使用标准SGD算法最小化经验损失函数，特征提取部分的参数θ_f和标签预测部分的参数θ_y以以下方式更新：

其中

是分类损失，η是学习速率。

3.如权利要求2所述的面向深度神经网络的基于差分隐私的域适应隐私保护方法，其特征在于：本模型在过程中添加噪声为向SGD过程中的每一步中添加噪声，即全局隐私保护，具体为：

从过程1的训练数据中随机提取样本M_s，并以以下方式更新：

其中η是学习速率，C是梯度常数边界，σ是噪声等级，N(0，σ²C²I)是高斯分布；通过两个过程的迭代训练，噪声被加到所有训练数据上，从而保护了数据隐私。

4.如权利要求3所述的一种面向深度神经网络的基于差分隐私的域适应隐私保护方法，其特征在于：本模型使用moment account方法来计算隐私消耗，使得在过程2中本模型的算法满足

-差分隐私，其中N是输入数据集的大小，M_b是批大小，T是训练的次数；对于全局隐私保护模型，模型在过程1和过程2中均满足

-差分隐私。