CN111768325B

CN111768325B - 大数据隐私保护中基于生成对抗样本的安全性提升方法

Info

Publication number: CN111768325B
Application number: CN202010257323.4A
Authority: CN
Inventors: 崔琦; 孟若涵; 袁程胜; 周志立; 付章杰; 孙星明
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2023-07-25
Anticipated expiration: 2040-04-03
Also published as: CN111768325A

Abstract

本发明公开了一种大数据隐私保护中基于生成对抗样本的安全性提升方法，其特征在于，主要包括步骤如下：(1)原始信息的初始化；(2)通过生成器生成载体图像和通过对抗攻击生成对抗扰动图像；(3)将载体图像和对抗扰动图像进行线性混合；(4)对合成载体图像应用信息隐藏算法进行处理；所述步骤(1)～(4)中通过建立前景物体生成模块、强对抗扰动生成模块、信息隐藏模块以及线性混合函数，实现大数据隐私保护的安全性。本发明基于GAN的框架及对抗攻击算法，通过生成针对隐写分析模型的对抗扰动，实现对隐写分析的对抗干扰；使扰动与前景物体融合，降低不规则扰动的可察觉性；提供一种基于GAN生成对抗样本的大数据隐私保护方法。

Description

大数据隐私保护中基于生成对抗样本的安全性提升方法

技术领域

本发明涉及对抗样本的安全性提升方法，尤其涉及大数据隐私保护中基于生成对抗样本的安全性提升方法。

背景技术

大数据作为当今普遍使用的技术，为企业和个人提供海量数据的云端存储和管理服务。大数据中丰富的多媒体数据在分享和通信中为个人和企业的各种社会活动提供了便利。但与此同时，大数据分析和数据挖掘可能会过度使用隐私和重要信息，例如利用技术漏洞，使用关键字爬取数据拥有者在云端的私密信息、与个人和企业财产相关的信息等。即使用户设置云端密码，一些提供云端秘钥保存的应用也存在被恶意攻击的风险，造成大量用户数据泄露的隐患。这些重要数据的泄露会带来严重的安全问题，给个人和企业利益造成损害。所以在发展大数据技术的同时，保护大数据中的隐私安全也至关重要。现有技术主要通过加对称密算法来对重要数据加密管理，然而这种方式存在以下的弊端：对称加密算法需要管理好秘钥，如秘钥泄露，则会造成直接性的损失；每次实施对称加密算法都会产生秘钥，久而久之秘钥数量巨大，秘钥管理也将成为数据拥有者的负担。

为解决上述存在的问题，现已对信息隐藏进行了一些研究，例如，基于生成对抗网络(Generative AdversarialNetworks，GAN)和生成对抗样本，并用于图像信息隐藏已有基础研究。其中一部分方法是以Volkhonskiy等人在《隐写生成对抗网络》(Volkhonskiy D,Nazarov I,Burnaev E.Steganographic generative adversarial networks[C]//Twelfth International Conference on Machine Vision(ICMV 2019).InternationalSociety for Optics and Photonics,2020,11433:114333M.)中提出的基于GAN在生成图像上隐藏信息为代表，这个过程中模拟信息的嵌入采用的是生成一个随机的0/1比特矩阵，因此存在生成图像的真实性难以保证、判别器对嵌入的随机信息难以获取特征的问题，即难以学习载体图像和含密图像的区别。现有的基于添加对抗样本攻击隐写分析的方法中，以Zhang等人在《对抗基于深度神经网络的隐写分析的对抗样本》(Zhang Y,Zhang W,ChenK,et al.Adversarial examples against deep neural network based steganalysis[C]//Proceedings of the 6th ACM Workshop on Information Hiding and MultimediaSecurity.2018:67-72)中提出的方法为代表，只把攻击隐写分析作为目标，虽然验证了通过迭代式训练添加微弱扰动，使该扰动添加在载体图像，可以有效地攻击隐写分析算法，使隐写分析器不能有效的区分原始载体图像和含密图像；但是，这种方法由于过于强调靶向攻击，导致训练出的对抗样本的可转移性不强，无法保证针对一个隐写分析模型训练后的网络参数，对其他隐写分析模型依然有效。因此，这种方法并不能真正用于信息隐藏；在这些方法的基础上，Tang等人在《基于CNN的对抗嵌入图像隐写术》(Tang W,Li B,Tan S,etal.CNN-based adversarial embedding for image steganography[J].IEEETransactions on Information Forensics and Security,2019,14(8):2074-2087.)中提出将对抗扰动嵌入和隐写嵌入分为两组，互不干扰，在信息嵌入的阶段，将对抗样本以微小扰动的形式嵌入一组分组中以对抗检测，将待隐藏信息嵌入到另一组分组中。这样既达到了对抗隐写分析的目的，也不会对隐藏后的信息提取有所影响；但是这些方法只考虑到提升安全性，这些微小对抗扰动占据了一部分区域，因此在一定程度对隐藏容量有所牺牲。另外，Cui等人在《物联网移动边缘计算中基于前景对象生成的生成对抗网络图像隐写技术》(Cui Q,Zhou Z,Fu Z,et al.Image steganography based on foreground objectgeneration by generative adversarial networks in mobile edge computing withInternet of Things[J].IEEE Access,2019,7:90815-90824.)中提出基于GAN生成前景物体，并用于信息隐藏的方法，但是，这类方法的角度是，相对于原始图像中较为平滑的背景区域，生成具有纹理的前景的物体更适用于隐写；这类方法的缺陷在于无法确保每次生成的前景物体的隐藏能力完全强于覆盖的背景区域。因此，也就不能完全保证对载体图像隐藏能力的有效提升。

发明内容

发明目的：本发明的目的是提供一种在保证大数据安全性的同时避免产生秘钥的大数据隐私保护中基于生成对抗样本的安全性提升方法。

技术方案：本发明的安全性提升方法，主要包括步骤如下：(1)原始信息的初始化；(2)通过生成器生成载体图像和通过对抗攻击生成对抗扰动图像；(3)将载体图像和对抗扰动图像进行线性混合；(4)对合成载体图像应用隐藏算法进行处理；所述步骤(1)～(4)中通过建立前景物体生成模块、强对抗扰动生成模块、信息隐藏模块以及线性混合函数实现大数据隐私保护的安全性。

步骤(1)中所述的原始信息包括随机噪声、原始载体图像和前景蒙版；步骤(1)中的信息初始化包括：生成器从原始载体图像随机采样一个批次的原始数据，生成器从随机噪声分布中随机采样一个批次的随机噪声，生成器从前景蒙版集中随机采样一个批次的真实前景蒙版。

所述前景物体生成模块包括生成器和判别器，所述生成器将整体呈残差连接进行同等尺度上的特征复用；所述判别器为一个下采样网络，将特征映射成向量并用以分类。

进一步，步骤(2)根据步骤(1)的初始条件，生成器生成一个批次的生成载体图像；所述生成器通过共享得到其损失函数。

步骤(2)中判别器从真实图像数据集中随机采样一组数据；

所述判别器将“图像-蒙版”作为输入格式，将图像与蒙版的特征相拼接；

所述判别器分别计算真实的一组“图像-蒙版”和以随机采样蒙版为驱动生成的一组“图像-蒙版”的卷积特征；

所述判别器根据计算结果实施分类，将交叉熵函数作为损失函数，判别生成图像的效果。

步骤(2)通过强对抗扰动生成模块从步骤(1)得到真实前景蒙版。

步骤(2)通过对抗攻击将预训练隐写分析模型作为白盒攻击的对象，以前景蒙版控制形状，训练生成具有对抗扰动特性的强扰动图像。

进一步，步骤(3)将步骤(2)生成的生成载体图像和强扰动图像进行线性混合，完成对原始载体图像到合成载体图像的安全性提升。

进一步，步骤(4)将步骤(3)得到的合成载体图像通过信息隐藏模块应用信息隐藏算法嵌入隐私数据，以信息隐藏方式完成隐私数据保护。

有益效果：本发明与现有技术相比，其显著效果如下：1、基于GAN的框架以及对抗攻击算法，通过生成针对隐写分析模型的对抗扰动，实现对隐写分析的对抗干扰；2、在含有对抗样本块的图像上隐藏信息后，带来的隐写嵌入不会干扰对抗样本块的攻击能力，整个过程不会产生秘钥，解除了数据拥有者在秘钥管理上的负担；3、使扰动与前景物体融合，降低了不规则扰动的可察觉性；4、提供一种基于GAN生成对抗样本的大数据隐私保护方法。

附图说明

图1为本发明的总流程示意图；

图2为本发明的前景物体生成模块的生成器网络结构图；

图3为本发明的前景物体生成模块的判别器网络结构图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明做进一步详细描述。

本发明以图像文件作为嵌入信息的载体，通过嵌入算法将待隐藏的信息嵌入到图像的冗余信息位，所以不会破坏载体图像的“原貌”。载体图像传输的同时，嵌入其中的数据也一并被传递。另外，可以用对应的提取算法提取出载体图像中嵌入的信息，还原隐藏信息和原始载体。此外，通过GAN生成符合载体图像语义分布的前景图像块，同时该图像块在训练后作为对抗样本，攻击隐写检测算法，旨在使隐写检测算法失效，从而提升安全性。

本发明的大数据隐私保护中基于生成对抗样本的安全性提升方法在结构上主要包括以下部分：前景物体生成模块、强对抗扰动生成模块、信息隐藏模块以及线性混合函数。

(一)前景物体生成模块

为了掩盖强对抗扰动造成的视觉保真度(visualfidelity)下降，本模块利用前景蒙版，以GAN作为基础结构，生成前景物体，与之后生成的强对抗扰动合成。具体的结构包括生成器网络和判别器网络，如图2和图3所示。生成器先经过一个下采样网络，后经过上采样网络，整体呈残差连接(skip-connection)进行同等尺度上的特征复用，辅助上采样网络学习。生成器的主要结构单元包括卷积层(Conv2D)、正则化层(BatchNorm)、反卷积层(DeConv2D)、激活层(Relu)及残差块网络(ResBlock)。判别器为一个下采样网络，将特征映射成向量并用以分类。判别器的主要结构单元包括卷积层(Conv2D)、正则化层(BatchNorm)、激活层(Relu)及分类层(Softmax)。

生成器网络G_fg(·,·,·)以原始载体图像x_bg为背景，以前景蒙版m_t规定形状和位置，并以随机噪声z作为驱动，在原始载体图像上生成前景物体(如一只鸟)后作为生成载体图像输出生成载体图像/>生成器网络的目标函数如公式(1)所示：

其中，P_data为真实图像分布，⊙代表矩阵的点乘法运算，(x_t,m_t)是数据集中的原始载体图像和对应的前景蒙版。

判别器网络D(·,·)将真实图像分布P_data和生成器生成的生成载体图像作为输入，判别生成载体图像的真实性，其目标函数的公式(2)如下：

(二)强对抗扰动生成模块

该模块在数据集P_data(X|x)上，基于卷积神经网络(CNN)预训练隐写分析模型Φ_w(·)，网络结构如图1所示。该网络的首层是一个高通滤波(HPF)，选取隐写分析关注的高频区域，因为隐写算法往往在高频区域嵌入信息。该预训练隐写分析模型通过提取CNN特征，可以在隐写分析任务上实现正确率高于95％的分类。通过计算Φ_w(·)的反向梯度信息寻找合适的扰动δ，实施定向攻击，使得生成的对抗扰动m_δ＝m_t⊙δ可以使Φ_w(·)的分类失效，并且在后续的隐写算法嵌入信息后仍然具有较强的攻击性，从而完成对隐写分析模型的鲁棒性攻击。该模块的目标函数的公式(3)如下：

其中，F代表预训练的隐写分析模型Φ_w(·)，y代表带有对抗扰动的前景蒙版变量，y＝y_stego代表该隐写分析模型Φ_w(·)将y分类为含密图像，y＝y_cover代表该隐写分析模型Φ_w(·)将y分类为载体图像。

(三)线性混合函数

在分别得到生成载体图像和对抗扰动m_δ后，通过一个线性混合函数将这两部分混合以组成合成载体图像/>该混合函数的公式(4)如下：

其中，λ∈(0,1)。

(四)信息隐藏模块

本模块通过信息隐藏算法，将需要保护的信息m嵌入到线性混合函数输出的合成载体图像。首先计算信息隐藏算法的嵌入过程带来的失真代价。设X＝(x_i,j)^H×W代表合成载体图像，Y＝(y_i,j)^H×W代表含密图像，其中x_i,j、y_i,j分别代表合成载体图像和含密图像中的坐标为(i,j)的图像单元(像素点)。H和W分别代表图像的高度和宽度。令ρ_i,j代表将坐标为(i,j)的图像单元(像素点)x_i,j修改为y_i,j，则信息隐藏带来的失真代价D(X,Y)为：

接着，参照失真代价D(X,Y)，使用STC编码的方式将需要保护的信息m嵌入到线性混合函数输出的合成载体图像，实现对m的保护。此过程需定义一个校验矩阵H，通过找到使失真代价最小的y，来实现嵌入m，即

Hy^T＝m^T (6)

其中T代表矩阵转置操作。

本发明的安全性提升方法实现的详细步骤如下：

(1)原始数据初始化

(1-1)如图1的前景生成模块，首先，生成器G_fg(·,·,·)从原始载体图像集X_bg随机采样出一个批次(Batch)的原始载体图像其中n表示Batch的尺寸，即一个Batch包含的样本数量，k代表Batch的序号，即第k个Batch；

(1-2)生成器G_fg(·,·,·)从随机噪声分布P_z中随机采样出一个Batch的随机噪声z^k＝(z₁,z₂,…,z_n)∈P_z；

(1-3)生成器G_fg(·,·,·)从前景蒙版集M中随机采样一个Batch的真实前景蒙版

(2)通过生成器生成载体图像和通过对抗攻击生成强扰动图像

(2-1)根据上述的初始条件，生成器生成一个Batch的结果，即表示在背景图像上生成前景物体的过程，生成器G_fg的具体结构如图2所示；

(2-2)判别器D(·,·)从真实图像数据集(包含图像-蒙版对)中随机采样一组(x^k,m^k)∈P_data；

(2-3)由于判别器D(·,·)将“图像-蒙版”作为输入格式，即将图像与蒙版的特征相拼接。

判别器D(·,·)分别计算真实的一组“图像-蒙版”，和以随机采样蒙版为驱动生成的一组“图像-蒙版”的卷积特征，即计算和/>判别器D(·,·)的具体结构如图3所示。

(2-4)判别器D(·,·)根据计算结果，最后实施分类。将交叉熵函数作为损失函数，判别生成图像的效果，即计算

(2-5)生成器G_fg(·,·,·)通过共享得到其损失函数的结果：

(2-6)以Adam为随机梯度下降算法更新参数梯度，以最小化判别器D(·,·)的损失，即计算θ_D＝θ_D+Δ_D，Δ_D为针对判别器D(·,·)计算出的梯度；

(2-7)以Adam为随机梯度下降算法更新参数梯度，以最小化生成器G_fg(·,·,·)的损失，即计算θ_G＝θ_G-Δ_G，Δ_G为针对生成器G_fg(·,·,·)计算出的梯度，此时完成前景物体生成模块的一次迭代过程；

(2-8)接下来，强对抗扰动生成模块从步骤(1-3)得到真实前景蒙版

(2-9)通过将预训练隐写分析模型Φ_w(·)作为白盒攻击的对象，以前景蒙版控制形状，训练生成具有对抗扰动特性的强扰动图像/>此过程的目标函数如公式3所示；

(3)进行线性混合

将步骤(2-1)生成的的生成载体图像与步骤(2-9)生成的强扰动图像/>做线性混合，即按照公式(4)，合成/>为了同时保证合成载体图像的视觉保真度和强攻击性，将λ设置为0.3。至此完成了对原始载体图像/>到合成载体图像/>的安全性提升。

(4)将合成载体图像应用信息隐藏算法进行处理

将合成载体图像应用信息隐藏算法(例如S-UNIWARD)嵌入隐私数据，以信息隐藏方式完成隐私数据保护，得到含密图像/>

(4-1)定义水平、垂直和对角线三个方向滤波算子K^a、K^b和K^c，令h和g分别代表低通滤波器系数和高通滤波器系数，T代表矩阵转置，则：

K¹＝h·g^T，K²＝g·h^T，K³＝g·g^T；

(4-2)和/>分别代表合成载体图像和含密图像的第k组滤波残差，其中k＝(1,2,3)。

(4-3)令(4-2)中的滤波残差在坐标(u,v)位置上的小波系数在合成载体图像和含密图像上分别为和/>则失真代价为：

其中调节参数σ设为1。

(4-4)参照(4-3)中的失真代价，使用STC编码的方式将需要保护的信息m嵌入到线性混合函数输出的合成载体图像。定义一个校验矩阵H，通过在含密图像对于H的所有右陪集中找到使失真代价最小的y，来实现嵌入m，目标函数为：

Hy^T＝m^T

由上述可知，本发明通过GAN和对抗样本，生成接近真实的前景物体与对抗样本的线性混合，以掩盖对抗样本的可见性，同时也保证了对抗扰动的鲁棒性，从而实现了在大数据隐私保护中的高容量、高安全信息隐藏。

Claims

1.一种大数据隐私保护中基于生成对抗样本的安全性提升方法，其特征在于，主要包括步骤如下：

(1)原始信息的初始化；

(1-1)首先，生成器G_fg(·,·,·)从原始载体图像集X_bg随机采样出一个批次的原始载体图像其中n表示Batch的尺寸，即一个Batch包含的样本数量，k代表Batch的序号，即第k个Batch；

(2)通过生成器生成载体图像和通过对抗攻击生成对抗扰动图像；

(2-1)根据上述的初始条件，生成器G_fg生成一个Batch的结果，即表示在背景图像上生成前景物体的过程；

(2-2)判别器D(·,·)从真实图像数据集中随机采样一组(x^k,m^k)∈P_data；

(2-3)由于判别器D(·,·)将“图像-蒙版”作为输入格式，即将图像与蒙版的特征相拼接；

判别器D(·,·)分别计算真实的一组“图像-蒙版”，和以随机采样蒙版为驱动生成的一组“图像-蒙版”的卷积特征，即计算和/>

(2-4)判别器D(·,·)根据计算结果，最后实施分类；将交叉熵函数作为损失函数，判别生成图像的效果，即计算

(2-5)生成器G_fg(·,·,·)通过共享得到其损失函数的结果：

(2-9)通过将预训练隐写分析模型Φ_w(·)作为白盒攻击的对象，以前景蒙版控制形状，训练生成具有对抗扰动特性的强扰动图像/>此过程的目标函数如下式所示；

其中，F代表预训练的隐写分析模型Φ_w(·)，y代表带有对抗扰动的前景蒙版变量，y＝y_stego代表该隐写分析模型Φ_w(·)将y分类为含密图像，y＝y_cover代表该隐写分析模型Φ_w(·)将y分类为载体图像；

(3)将载体图像和对抗扰动图像进行线性混合；

将步骤(2-1)生成的的生成载体图像与步骤(2-9)生成的强扰动图像/>做线性混合，合成/>为了同时保证合成载体图像/>的视觉保真度和强攻击性，将λ设置为0.3；至此完成了对原始载体图像/>到合成载体图像/>的安全性提升；

(4)对合成载体图像应用信息隐藏算法进行处理；

将合成载体图像应用信息隐藏算法嵌入隐私数据，以信息隐藏方式完成隐私数据保护，得到含密图像/>

K¹＝h·g^T，K²＝g·h^T，K³＝g·g^T；

(4-2)和/>分别代表合成载体图像和含密图像的第k组滤波残差，其中k＝(1,2,3)；

其中调节参数σ设为1；

(4-4)参照(4-3)中的失真代价，使用STC编码的方式将需要保护的信息m嵌入到线性混合函数输出的合成载体图像；定义一个校验矩阵H，通过在含密图像对于H的所有右陪集中找到使失真代价最小的y，来实现嵌入m，目标函数为：

Hy^T＝m^T

所述步骤(1)～(4)中通过建立前景物体生成模块、强对抗扰动生成模块、信息隐藏模块以及线性混合函数实现大数据隐私保护的安全性。

2.根据权利要求1所述的大数据隐私保护中基于生成对抗样本的安全性提升方法，其特征在于，步骤(1)中所述的原始信息包括随机噪声、原始载体图像和前景蒙版；信息初始化包括：生成器从原始载体图像随机采样一个批次的原始数据，生成器从随机噪声分布中随机采样一个批次的随机噪声，生成器从前景蒙版集中随机采样一个批次的真实前景蒙版。

3.根据权利要求1所述的大数据隐私保护中基于生成对抗样本的安全性提升方法，其特征在于，所述前景物体生成模块包括生成器和判别器，所述生成器将整体呈残差连接进行同等尺度上的特征复用；所述判别器为一个下采样网络，将特征映射成向量并用以分类。

4.根据权利要求1或3所述的大数据隐私保护中基于生成对抗样本的安全性提升方法，其特征在于，步骤(2)根据步骤(1)的初始条件，生成器生成一个批次的生成载体图像；所述生成器通过共享得到其损失函数。

5.根据权利要求1或3所述的大数据隐私保护中基于生成对抗样本的安全性提升方法，其特征在于，步骤(2)中判别器从真实图像数据集中随机采样一组数据；

6.根据权利要求1所述的大数据隐私保护中基于生成对抗样本的安全性提升方法，其特征在于，步骤(2)通过强对抗扰动生成模块从步骤(1)得到真实前景蒙版。

7.根据权利要求1所述的大数据隐私保护中基于生成对抗样本的安全性提升方法，其特征在于，步骤(2)通过对抗攻击将预训练隐写分析模型作为白盒攻击的对象，以前景蒙版控制形状，训练生成具有对抗扰动特性的强扰动图像。

8.根据权利要求1所述的大数据隐私保护中基于生成对抗样本的安全性提升方法，其特征在于，步骤(3)将步骤(2)生成的生成载体图像和强扰动图像进行线性混合，完成对原始载体图像到合成载体图像的安全性提升。

9.根据权利要求1所述的大数据隐私保护中基于生成对抗样本的安全性提升方法，其特征在于，步骤(4)将步骤(3)得到的合成载体图像通过信息隐藏模块应用信息隐藏算法嵌入隐私数据，以信息隐藏方式完成隐私数据保护。