CN113283520B

CN113283520B - 面向成员推理攻击的基于特征增强的深度模型隐私保护方法和装置

Info

Publication number: CN113283520B
Application number: CN202110619608.2A
Authority: CN
Inventors: 陈晋音; 上官文昌; 鲍亮; 吴长安
Original assignee: Zhejiang University of Technology ZJUT; Third Research Institute of the Ministry of Public Security
Current assignee: Zhejiang University of Technology ZJUT; Third Research Institute of the Ministry of Public Security
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2024-02-13
Anticipated expiration: 2041-06-03
Also published as: CN113283520A

Abstract

本发明公开了一种面向成员推理攻击的基于特征增强的深度模型隐私保护方法和装置，包括：在用于人脸识别的原始目标模型中增加用于增强特征的特征增强单元，组成增强目标模型，利用图像样本优化增强目标模型的模型参数；构建用于模拟目标模型的阴影模型，利用图样样本优化阴影模型的模型参数，依据参数优化的阴影模型的输出置信度重新定义型标签，以构建新图像样本；构建用于判别图像是否为攻击的攻击模型，利用新图像样本优化攻击模型的模型参数；利用参数优化的增强目标模型获得输入测试图像的预测置信度，并将预测置信度输入至参数优化的攻击模型，经计算获得攻击模型的预测结果，依据预测结果判断测试图像是否为原始目标模型的训练样本。

Description

面向成员推理攻击的基于特征增强的深度模型隐私保护方法和装置

技术领域

本发明属于信息安全技术领域，具体涉及一种面向成员推理攻击的基于特征增强的深度模型隐私保护方法和装置。

背景技术

机器学习(ML)的进步已进入了现实生活中诸多场景，例如分类，推荐和自然语言处理等。现代深度神经网络(DNN)的成功主要取决于目前强大的计算能力和大量数据的可用性。机器学习即服务(MLaaS)提供商已经利用了上述两个可用性，开发了面向客户的机器学习服务。通过提供黑盒的交互接口，MLaaS允许个人或团体轻松地上传数据，利用强大的DNN并通过即用即付的方式应用多种分析服务。

但是，目前DNN模型存在重要的隐私安全风险。研究人员通过研究发现MLaaS对敏感数据(例如患者治疗记录)存在严重的安全和隐私方面的风险。即使DNN模型结构处于黑盒状态，MLaaS也会泄漏有关用于构建模型的训练数据的敏感信息。例如，成员推理攻击(MIA)就是利用上述漏洞的多种重要推理攻击之一。通过使用MIA，攻击者通过重复且复杂设计的推理请求来观测DNN模型的独特行为，从而判断输入样本是否为目标模型的训练数据。

为了应对MIA挑战，目前已经开发了几种机制。差分隐私(DP)是一种针对一般推理攻击的主要隐私保护机制，该机制基于将噪声添加到训练模型的梯度或目标函数中，已应用于不同的机器学习模型。尽管DP的鲁棒性已经被证明，但是DP的效用成本很难被限制到可接受的范围，因为在保护复杂模型和高维数据时，如果噪声太大，会带来很大的分类准确性损失。另一种防御机制是对抗正则化方法。该方法借鉴了生成式对抗网络的思路，其主要思想是将目标模型与实施成员推理的攻击模型进行对抗式训练。训练二者的过程中，一方面可以提升目标模型对攻击模型的防御能力，一方面可以增加攻击模型对目标模型的攻击能力，在结束迭代后，训练好的目标模型面对攻击能力强大的成员推理模型依然有较好的防御效果。然而，这种防御方法具有一定的局限性。对抗式训练引入了较高的时间复杂度，且经过对抗式训练的目标模型会对正常样本的预测准确率有一定程度的下降，且因为损失函数的改变，目标模型会在训练过程中出现不收敛的现象。

现有的公安系统中，对于人脸识别要求很严格，为了保证人脸识别的安全性，防攻击的人脸识别非常重要。

发明内容

鉴于上述，本发明的目的是提供一种面向成员推理攻击的基于特征增强的深度模型隐私保护方法和装置，提升对样本数据的分辨能力，以将存在严重的安全和隐私方面的风险的非正常样本分辨出来。

第一方面，实施例提供的一种面向成员推理攻击的基于特征增强的深度模型隐私保护方法，包括以下步骤：

在用于人脸识别的原始目标模型中增加用于增强特征的特征增强单元，组成增强目标模型，利用图像样本优化增强目标模型的模型参数；

构建用于模拟目标模型的阴影模型，利用图像样本优化阴影模型的模型参数，依据参数优化的阴影模型的输出置信度重新定义型标签，依据新标签和输出置信度构建新图像样本；

构建用于判别图像是否为目标模型成员样本的攻击模型，利用新图像样本优化攻击模型的模型参数；

利用参数优化的增强目标模型获得输入测试图像的预测置信度，并将预测置信度输入至参数优化的攻击模型，经计算获得攻击模型的预测结果，依据预测结果判断测试图像是否为原始目标模型的训练样本。

一个实施例中，所述特征增强单元用于对输入特征进行各种变换操作，其包含两个参数，两个参数均从正态分布中随机采样获得，一个作为缩放因子，一个作为偏置项，基于两个参数对输入特征进行线性增强操作。

一个实施例中，利用图像样本优化增强目标模型的模型参数时，先固定特征增强单元的参数，利用第一批图像样本优化原始目标模型的参数；然后，固定原始目标模型的参数，利用第二批图像样本优化特征增强单元的参数；第一批图像样本与第二批图像样本不重复，采用图像样本的标签和预测置信度的交叉熵作为损失函数，更新参数。

一个实施例中，在优化特征增强单元的参数时，采用以下方式进行参数更新：

其中，表示第t次迭代时，特征增强单元的参数，α表示放缩因子，/>表示损失函数L₂对特征增强单元参数的梯度值。

一个实施例中，所述阴影模型包括均卷积层、池化层以及全连接层，采用图像样本的标签和预测置信度的交叉熵作为损失函数，更新参数。

一个实施例中，构建新图像样本的过程为：

将训练阴影模型的样本图像分成第三批样本图像和第四批样本图像；利用参数优化的阴影模型获得输入的第三批样本图像的预测置信度，并将预测置信度的新标签设置为1；利用参数优化的阴影模型获得输入的第四批样本图像的预测置信度，并将预测置信度的新标签设置为0；将预测置信度与对应的新标签组成一个新图像样本。

一个实施例中，所述攻击模型为二分类模型，采用新图像样本的标签和预测置信度的交叉熵作为损失函数，更新参数。

一个实施例中，所述攻击模型采用支持向量机。

第二方面，实施例提供的一种面向成员推理攻击的基于特征增强的深度模型隐私保护装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，所述处理器执行计算机程序时实现第一方面所述的面向成员推理攻击的基于特征增强的深度模型隐私保护方法。

上述实施例提供的面向成员推理攻击的基于特征增强的深度模型隐私保护方法和装置，具有的有益效果至少包括：

通过在原始目标模型中增加特征增强单元，解决了传统防御方法存在的梯度不稳定、训练不收敛、收敛速度慢等过拟合问题；同时通过特征增强单元，显著提高了目标模型对正常样本的分类性能。

通过利用使攻击者误认为是目标模型的阴影模型，来构建新图像样本，并利用新图像样本更新攻击模型的参数，使得攻击模型能够准确分辨图像样本是否为目标模型的训练样本，依次可以对训练样本进行隐私保护。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是一实施例中面向成员推理攻击的基于特征增强的深度模型隐私保护方法的流程图；

图2是一实施例中增强目标模型的训练流程图；

图3是一实施例中增强目标模型中特征增强单元的增强原理示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了分辨图像样本是否为目标模型的训练样本，同时缓解目标模型的过拟合程度，提升目标模型的识别能力。实施例提供了一种面向成员推理攻击的基于特征增强的深度模型隐私保护方法和装置，其主要技术构思为：模型过拟合是成员推理攻击的主要原因，通过特征增强方法，扩充了目标模型的训练数据，大大增加了目标模型训练数据的特征多样性，可以有效缓解目标模型的过拟合程度，使目标模型对成员样本和非成员样本的预测结果无显著区别，从而使成员推理攻击的性能降低，可以有效防御成员推理攻击。基于上述原理，本发明在目标模型中添加特征增强层，对输入样本的特征进行变换，后训练目标模型，使目标模型可以学到样本的多种潜在特征，缓解了模型的过拟合程度。

图1是一实施例中面向成员推理攻击的基于特征增强的深度模型隐私保护方法的流程图。如图1所示，实施例提供的深度模型隐私保护方法，包括以下步骤：

步骤1，在用于人脸识别的原始目标模型中增加用于增强特征的特征增强单元，组成增强目标模型。

实施例中，原始目标模型用于对人脸进行识别，该目标模型可以为VGG-16，其主要由13层卷积层和3层全连接层组成，当然目标模型也可以为其他任何模型结构的网络模型。

实施例中，增强特征单元用于增强输入特征的特征，其主要用于对输入特征进行各种变换操作，以达到增强训练数据多样性的目的。特征增强单元包含至少1个特征增强层，每个特征增强层包含两个参数θ_α和θ_β，其中θ_α∈R^C×1×1，θ_β∈R^C×1×1。特征增强的具体操作公式如下：

其中，θ_α表示从正太分布中随机采样的缩放因子，θ_β表示从正太分布中随机采样得到的偏置项。f表示输入样本在目标模型中的中间特征，具体为在特征增强层前一层的输出特征。c表示特征的通道数，h表示特征的高度，w表示特征的宽度。表示经过特征变换后的特征，为了能使模型正常训练，特征增强过程不改变特征的维度大小。通过改变缩放因子θ_α和偏置项θ_β，可以调节增强变换操作。

步骤2，利用图像样本优化增强目标模型的模型参数。

图像样本作为优化目标模型的模型参数的训练样本，不仅包含图像，还包含图像对应的标签。实施例中，图像样本均为3通道(RGB)的人脸彩色图像，每张图像大小可以为32*32。从图像样本集通抽取第一批图像样本和抽取第二批图像样本，且第一批图像样本与第二批图像样本没有交集，即不重复。

在利用图像样本优化增强目标模型的模型参数时，首先，初始化特征增强单元的参数，固定特征增强单元维持初始化参数不变，将第一批图像样本输入至增强目标模型，以训练原始目标模型的参数。训练时设置的超参数包括：采用随机梯度下降(SGD)、优化方法采用adam优化器、学习率设置为0.001、训练迭代次数epoch设置为100、训练批次大小为batch_size设置为16；训练目标的损失函数设置为交叉熵函数，即图像样本的标签和预测置信度的交叉熵函数。

然后，固定原始目标模型的参数不变，将第二批图像样本输入至增强目标模型，以训练特征增强单元的参数。训练目标的损失函数同样采用交叉熵函数。依据该交叉熵函数对特征增强单元的参数进行更新如下：

经过两步参数优化的增强目标模型具有更好的鲁棒性，能够准确进行人脸识别。

步骤3，构建用于模拟目标模型的阴影模型，利用图像样本优化阴影模型的模型参数。

为了实现对增强目标模型的成员推理攻击和防御，建立用于模拟目标模型的阴影模型，该阴影模型会被攻击者认为是人脸识别的目标模型。该阴影模型主要包含卷积层，池化层，全连接层等模型结构。其中，卷积层用来提取输入样本的特征，根据任务的复杂程度，选取卷积核数量，卷积核大小，步长值。一般情况下，分类任务越复杂，卷积核数量越多，卷积核尺寸越大。实施例中国，阴影模型采用5层卷积层，其中两层的卷积核数量设置为64，卷积核尺寸设置为5*5。另外两层卷积核数量设置为128，卷积核尺寸设置为3*3。选用relu函数作为激活函数。

池化层的作用是为了下采样，对卷积层提取的特征进行压缩，去除冗余信息，简化网络复杂度，减小计算量，减小内存消耗等。常用池化层主要分为两类，平均池化层和最大池化层。平均池化层将该区域的平均值作为区域池化后的值。最大池化层将区域内最大的值作为该区域池化后的值。实施例中，选用最大池化层，池化区域设置为2*2。

全连接层用来整合卷积层和池化层的局部信息。通常放置在模型的顶部。根据分类任务的复杂度，选取不同的神经元数量。一般情况下，分类任务越复杂，神经元数量越多。实施例中添加了两层全连接层，神经元数目分别为512和10。至此，阴影模型构架完成。

实施例中，同样从图像样本集中提取图像样本用于阴影模型的参数优化，具体优化时，同样采用图像样本的标签和预测置信度的交叉熵作为损失函数，更新参数，设置参数包括：训练次数epoch为100。学习率lr为0.001。

步骤4，依据参数优化的阴影模型的输出置信度重新定义型标签，依据新标签和输出置信度构建新图像样本。

实施例中，构建的阴影模型主要用于生成用于训练攻击模型的样本数据。在构建训练攻击模型的样本数据时，将训练阴影模型的样本图像分成第三批样本图像和第四批样本图像；利用参数优化的阴影模型获得输入的第三批样本图像的预测置信度，并将预测置信度的新标签设置为1；利用参数优化的阴影模型获得输入的第四批样本图像的预测置信度，并将预测置信度的新标签设置为0；将预测置信度与对应的新标签组成一个新图像样本。

步骤5，构建用于判别图像是否为目标模型成员样本的攻击模型，利用新图像样本优化攻击模型的模型参数。

攻击模型作为二分类模型，用于判别输入图像是否为成员样本。实施例中，可以采用由包含128个神经元的隐藏层和一个包含64个神经元的隐藏层组成的多层感知机作为攻击模型。

在对攻击模型进行训练时，设置参数包括：训练次数epoch为100。学习率lr为0.001；采用新图像样本的标签和预测置信度的交叉熵作为损失函数，更新参数。

步骤6，利用参数优化的增强目标模型获得输入测试图像的预测置信度，并将预测置信度输入至参数优化的攻击模型，经计算获得攻击模型的预测结果，依据预测结果判断测试图像是否为原始目标模型的训练样本。

进行训练样本区分时，将测试图像输入至参数优化的增强目标模型，获得预测置信度，并将预测置信度输入至参数优化的攻击模型中，若攻击模型的预测结果为1，则认为测试图像为训练原始目标模型的成员训练样本，当攻击模型的预测结果为0时，则认为测试图像为训练原始目标模型的非成员样本，这样实现了对存在严重的安全和隐私方面的风险的敏感数据的区分。

实施例中，还采用准确率、精确率、召回率作为攻击模型的攻击性能的评价指标。

其中，准确率表示输入的待测样本中，预测正确的样本占输入样本总数的百分比，表示为：

式中，TP表示正类判定为正类，即成员样本是成员样本。FP表示负类被判定为正类，即存伪，非成员样本被判定为成员样本。FN表示正类被判定为负类，即去真，成员样本被判定为非成员样本。TN表示负类被判定为负类。即非成员样本被判定为非成员样本。准确率越低，说明防御算法越好。

精确率表示被判定为成员样本的样本中判断正确的比例。精确率越低，表明防御效果越好。精确率表示为：

召回率表示被成功预测的成员样本占成员样本总数的百分比。召回率越低，表明防御效果越好。召回率表示为：

实施例还提供了一种面向成员推理攻击的基于特征增强的深度模型隐私保护装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，所述处理器执行计算机程序时实现上述面向成员推理攻击的基于特征增强的深度模型隐私保护方法，具体包括以下步骤：

步骤2，利用图像样本优化增强目标模型的模型参数。

实际应用中，存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现面向成员推理攻击的基于特征增强的深度模型隐私保护方法步骤。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向成员推理攻击的基于特征增强的深度模型隐私保护方法，其特征在于，包括以下步骤：

2.如权利要求1所述的面向成员推理攻击的基于特征增强的深度模型隐私保护方法，其特征在于，所述特征增强单元用于对输入特征进行各种变换操作，特征增强单元包含至少1个特征增强层，每个特征增强层包含两个参数θ_α和θ_β，两个参数均从正态分布中随机采样获得，θ_α作为缩放因子，θ_β作为偏置项，基于两个参数对输入特征进行线性增强操作，公式为：

其中，f表示输入样本在目标模型中的中间特征，具体为在特征增强层前一层的输出特征，c表示特征的通道数，h表示特征的高度，w表示特征的宽度，表示经过特征变换后的特征，为了能使模型正常训练，特征增强过程不改变特征的维度大小。

3.如权利要求1所述的面向成员推理攻击的基于特征增强的深度模型隐私保护方法，其特征在于，利用图像样本优化增强目标模型的模型参数时，先固定特征增强单元的参数，利用第一批图像样本优化原始目标模型的参数；然后，固定原始目标模型的参数，利用第二批图像样本优化特征增强单元的参数；第一批图像样本与第二批图像样本不重复，采用图像样本的标签和预测置信度的交叉熵作为损失函数，更新参数。

4.如权利要求3所述的面向成员推理攻击的基于特征增强的深度模型隐私保护方法，其特征在于，在优化特征增强单元的参数时，采用以下方式进行参数更新：

5.如权利要求1所述的面向成员推理攻击的基于特征增强的深度模型隐私保护方法，其特征在于，所述阴影模型包括卷积层、池化层以及全连接层，采用图像样本的标签和预测置信度的交叉熵作为损失函数，更新参数。

6.如权利要求1所述的面向成员推理攻击的基于特征增强的深度模型隐私保护方法，其特征在于，构建新图像样本的过程为：

7.如权利要求1所述的面向成员推理攻击的基于特征增强的深度模型隐私保护方法，其特征在于，所述攻击模型为二分类模型，采用新图像样本的标签和预测置信度的交叉熵作为损失函数，更新参数。

8.如权利要求1所述的面向成员推理攻击的基于特征增强的深度模型隐私保护方法，其特征在于，所述攻击模型采用支持向量机。

9.一种面向成员推理攻击的基于特征增强的深度模型隐私保护装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求1～8任一项所述的面向成员推理攻击的基于特征增强的深度模型隐私保护方法。