CN115546003A

CN115546003A - 基于对抗训练网络的后门水印图像数据集生成方法

Info

Publication number: CN115546003A
Application number: CN202211242857.5A
Authority: CN
Inventors: 朱笑岩; 谢雨欣; 马建峰; 韩雪雪; 张琳杰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2022-12-30

Abstract

本发明公开了一种基于对抗训练网络的后门水印图像数据集生成方法。该方法是通过分别构建生成器网络和鉴别器网络，并对两个网络进行对抗训练，得到的图片样本被鉴别器以50％的概率判定为真实图片样本，以50％的概率判定为生成器生成的假样本，使得本发明的后门水印图像数据集与真实图片样本集统计分布相似，不易被攻击者检测到，具有隐蔽性较强的优点；同时，本发明的后门水印图像数据集修改生成器网络生成的所有假样本的标签，没有引入无效或者错误特征，不会影响图像分类模型在原始任务上的精度，图像分类模型在原始任务上的决策边界没有改变，图像分类模型在原始任务上仍保持高精度。

Description

基于对抗训练网络的后门水印图像数据集生成方法

技术领域

本发明属于图像处理技术领域，更进一步涉及神经网络水印领域中的一种基于对抗训练网络的后门水印图像数据集生成方法。本发明可用于图像分类模型在黑盒场景下的版权保护，用一种不可见的方式生成后门水印图像数据集，当出现模型版权纠纷时，模型使用者可通过验证水印信息声明所有权。

背景技术

水印作为模型版权保护的一种方式，在黑盒场景中得到广泛应用。目前，基于后门的设计是通过构造一个特定的后门水印图像数据集，后门水印图像数据集通常由一组图片样本和对应的特定标签组成，特定输入与其标签之间的映射被视为后门并用作水印，用该后门水印图像数据集微调训练好的图像分类模型，使该模型含有水印信息，图像分类模型可以将后门水印图像数据集中图片样本预测为特定标签；模型使用者用后门水印图像数据集对可疑模型发起预测查询，如果检测到水印信息，模型使用者可以声明模型的所有权。

然而在现实场景下，攻击者可以通过一系列手段例如查询修改攻击检测到后门样本，从而躲避检测。另外，目前的后门水印技术中后门水印不可避免对模型的原始任务产生影响，导致含有后门水印的图像分类模型分类精度低。因此，水印应该足够隐蔽，不易被攻击者检测，同时，后门水印不应该影响原始模型的准确性，而目前的神经网络模型后门水印技术很难同时兼顾保真度和隐蔽性。

华南师范大学在其申请的专利文献“一种神经网络水印嵌入方法、装置、电子设备及存储介质”(申请号：202210016799.8申请公布号：CN 114359011 A)中公开了一种神经网络水印嵌入方法。该方法利用密钥获取模块获取对应唯一的时间戳的密钥；然后在原始训练集中随机选择部分图片数据集通过密钥产生的混沌序列对图片进行置乱加密得到触发集。该发明在保证触发集对攻击者高不可见的基础上具有较好的验证效果。但是，该方法仍然存在的不足之处是，由于该方法是在原始数据集图片上进行加密，置乱加密得到的触发集改变了原始图片的特征，引入无效或者错误特征，扭曲了图像分类模型在原始任务上的决策边界，使图像分类模型在原始任务上的性能下降。

Ryota Namba等人在其发表的论文“Robust Watermarking of Neural Networkwith Exponential Weighting”(Proc of the 2019 ACM Asia Conf on Computer andCommunications Security)中提出一种指数加权的后门水印方法。该方法通过在原始训练数据集上随机选取一定比例的训练样本，只改变其标签来得到后门水印图像数据集。该方法提高了后门水印的隐蔽性。但是，该方法仍然存在的不足之处是，该方法对原始图片的标签进行更改，分类带有错误标签的样本让图像分类模型学习到坏的特征，从而改变图像分类模型在原始分类任务上的决策边界，导致原始性能下降，无法满足保真度需求。

发明内容

本发明的目的在于针对上述已有技术存在的不足，提供一种基于对抗训练网络的后门水印图像数据集生成方法，旨在解决现有技术生成的后门水印隐秘性较差，因引入无效特征导致模型原始性能下降，无法满足保真度需求的问题。

实现本发明目的的具体思路是，首先分别构建生成器网络和鉴别器网络，生成器网络的目的是尽可能使生成的假样本分布拟合真实图像样本分布，鉴别器网络目的是尽可能鉴别输入样本是真实图像样本还是假样本；再对两个网络进行对抗训练，在训练过程中，生成器网络生成看起来真的和真实图像样本相似的假样本去欺骗鉴别器网络，鉴别器网络把假样本和真实图像样本区分开来。这样，生成器网络试图欺骗判别器网络，判别器网络则努力不被生成器网络欺骗。两个网络经过交替训练，互相提升，构成了一个动态的“博弈”，最后训练好的生成器网络可以生成足以“以假乱真”的图片样本，最后得到的图片样本被鉴别器网络以50％的概率判定为真实图片样本，以50％的概率判定为生成器网络生成的假样本。

通过修改生成器网络生成的所有假样本的标签，将所有的假样本及其修改后的标签组成后门水印图像数据集，添加新标签不仅不会扭曲原始决策边界，还可以帮助模型更好地学习图片样本集的特征，克服了现有的神经网络后门水印方法中引入错误的映射关系，扭曲原始决策边界的问题，使得生成的后门水印图像数据集不会影响模型在原始任务上的精度。

本发明实现的具体步骤如下：

步骤1，构建生成器网络：

构建一个由5个全连接层级联的生成器网络，将第一至第五全连接层的输入神经元个数依次设置为100，128，256，512，1024，输出神经元个数依次设置为128，256，512，1024，784；第一至第四全连接层的激活函数均采用Relu函数实现，第五全连接层的激活函数采用tanh函数实现；

步骤2，构建鉴别器网络：

构建一个由3个全连接层级联的鉴别器网络，将第一至第三全连接层的输入神经元个数依次设置为784，512，256，输出神经元个数依次设置为512，256，1；第一，第二全连接层的激活函数均采用Relu函数实现，第三全连接层的激活函数采用Sigmoid函数实现；

步骤3，生成图片样本集和噪声样本集：

步骤3.1，将包含C个目标类别的N幅图像中的一半图像及其标签组成图片样本集，其中，C≥2，N≥2000；

步骤3.2，随机生成符合高斯分布的包含有m个噪声的噪声样本集，每个噪声样本的维度为100，其中，m的取值与N相同；

步骤4，对生成器网络和鉴别器网络进行对抗训练：

步骤4.1，将噪声样本集输入到生成器网络中，通过生成器网络对每个噪声样本进行非线性映射，将映射后的所有噪声样本组成假样本集；将假样本集输入到鉴别器网络中，输出每个假样本的预测值；将图片样本集输入到鉴别器网络中，输出每个图片样本的预测值；

步骤4.2，计算所有噪声样本输入到生成器网络后输出的噪声样本平均损失值，计算所有图片样本和所有假样本输入到鉴别器网络后输出的样本平均损失值，分别计算生成器网络和鉴别器网络损失函数的梯度，采用梯度下降算法，对生成器网络和鉴别器网络的参数进行交替更新，直至噪声样本平均损失值和样本平均损失值均不再变化为止，得到训练好的生成器网络和鉴别器网络；

步骤5，生成后门水印图像数据集：

修改生成器网络和鉴别器网络均训练好时生成器网络输出的每个假样本的标签，将所有的假样本及其修改后的标签组成后门水印图像数据集。

与现有技术相比，本发明具有以下优点：

第一，本发明通过分别构建生成器网络和鉴别器网络，并对两个网络进行对抗训练，得到的图片样本被鉴别器以50％的概率判定为真实图片样本，以50％的概率判定为生成器生成的假样本；克服了现有技术中后门水印图像数据集和真实图片样本集差异过大，易被攻击者检测到从而逃避验证的问题，使得本发明的后门水印图像数据集与真实图片样本集统计分布相似，不易被攻击者检测到，具有隐蔽性较强的优点，用该后门水印图像数据集微调训练好的图像分类模型，使该模型含有水印信息，通过查询含有水印模型中的水印信息，模型使用者可声明模型所有权。

第二，本发明修改生成器网络生成的所有假样本的标签，将其修改为与原始图片样本标签类别均不同的新标签，克服了现有技术中将后门水印图像数据集中的样本标签修改成原始图片样本标签类别中的其他标签，引入无效或者错误特征，扭曲图像分类模型在原始任务上的决策边界的问题，使得本发明的后门水印图像数据集不会影响图像分类模型在原始任务上的精度，图像分类模型在原始任务上仍保持高精度。

附图说明：

图1为本发明的流程图。

具体实施方式：

下面结合附图1和实施例，对本发明的实现步骤做进一步的描述。

步骤1，构建生成器网络：

搭建一个由5个全连接层级联的生成器网络，设置网络各层参数如下，第一至第五全连接层的输入神经元个数依次设置为100，128，256，512，1024，输出神经元个数依次设置为128，256，512，1024，784。第一至第四全连接层的激活函数均采用Relu函数，第五全连接层的激活函数采用tanh函数。

步骤2，构建鉴别器网络：

搭建一个由3个全连接层级联的鉴别器网络，设置网络各层参数如下，第一至第三全连接层的输入神经元个数依次设置为784，512，256，输出神经元个数依次设置为512，256，1。第一，第二全连接层的激活函数均采用Relu函数，第三全连接层的激活函数采用Sigmoid函数。

步骤3，生成图片样本集和噪声样本集：

步骤3.1，将包含C个目标类别的N幅图像的其中一半图像及其标签组成图片样本集，其中，C≥2，N≥200。

在本发明实施例中，从MNIST数据集的10个类别中选取30000幅图像及其标签组成图片样本集。MNIST数据集的标签是0-9的数字，MNIST数据集中包括60000个训练图像样本和10000个测试图像样本，每个图像样本是一个大小为28×28的灰度图像。

步骤3.2，随机生成符合高斯分布的包含有m个噪声的噪声样本集，每个噪声样本的维度为100，其中，m的取值与N相同，本发明实施例中，m＝30000。

步骤4，对生成器网络和鉴别器网络进行对抗训练：

步骤4.1，将噪声样本集输入到生成器网络中，通过五层全连接层上采样将每个维度为100的噪声样本映射成维度为784的噪声样本，将映射后的所有噪声样本组成假样本集。将假样本集输入到鉴别器网络中，通过三层全连接层下采样，输出每个假样本的预测值。将图片样本集输入到鉴别器网络中，通过三层全连接层下采样，输出每个图片样本的预测值。

步骤4.2，计算所有噪声样本输入到生成器网络后输出的噪声样本的平均损失值，计算所有图片样本和所有假样本输入到鉴别器网络后输出的样本平均损失值，分别计算生成器网络和鉴别器网络损失函数的梯度，采用梯度下降算法，对生成器网络和鉴别器网络的参数进行交替更新，直至噪声样本平均损失值和样本平均损失值均不再变化为止，得到训练好的生成器网络和鉴别器网络。

本发明实施例中，训练100次后噪声样本平均损失值和样本平均损失值均不再变化，生成器网络输出的假样本有50％的概率被鉴别器网络判为真实样本，有50％的概率被判为假样本。

步骤4.3，利用下式，计算所有噪声样本输入到生成器网络后输出的噪声样本平均损失值：

其中，G_loss表示所有噪声样本输入到生成器网络后输出的噪声样本平均损失值，i表示噪声样本集中样本的序号，i＝1,2,...,m，m表示噪声样本集中样本的总数，本发明实施例中m＝30000。∑表示求和操作，log表示以2为底的对数操作，G(z⁽ⁱ⁾)表示噪声样本集中第i个噪声样本z⁽ⁱ⁾输入到生成器网络后输出的假样本，D(G(z⁽ⁱ⁾))表示假样本G(z⁽ⁱ⁾)输入到鉴别器网络后输出的对该假样本的鉴别概率。

步骤4.4，利用下式，计算所有图片样本和所有假样本输入到鉴别器网络后输出的样本平均损失值：

其中，D_loss表示所有假样本和所有图像样本输入到鉴别器网络后输出的样本平均损失值，j表示样本序号，j＝1,2,...,n，n表示所有假样本和所有图像样本样本总数，本发明实施例中n＝30000，x^j表示第j个图片样本，

表示第j个假样本，D(x^j)表示图片样本xⁱ输入到鉴别器网络后输出的鉴别概率，

表示以假样本

输入到鉴别器网络后输出的鉴别概率。

步骤5，生成后门水印图像数据集：

修改生成器网络和鉴别器网络均训练好时生成器网络输出的每个假样本的标签，将所有的假样本及其修改后的标签组成后门水印图像数据集。本发明实施例中每个假样本标签修改为*。

Claims

1.一种基于对抗训练网络的后门水印图像数据集生成方法，其特征在于，分别构建生成器网络和鉴别器网络，对生成器网络和鉴别器网络进行对抗训练，生成后门水印图像数据集，该方法的步骤包括如下：

步骤1，构建生成器网络：

步骤2，构建鉴别器网络：

步骤3，生成图片样本集和噪声样本集：

步骤4，对生成器网络和鉴别器网络进行对抗训练：

步骤5，生成后门水印图像数据集：

2.根据权利要求1所述的基于对抗训练网络的后门水印图像数据集生成方法，其特征在于，步骤4.2中所述计算所有噪声样本输入到生成器网络后输出的噪声样本平均损失值是由下式得到的：

其中，G_loss表示所有噪声样本输入到生成器网络后输出的噪声样本平均损失值，i表示噪声样本集中样本的序号，i＝1,2,...,m，m表示噪声样本集中样本的总数，∑表示求和操作，log表示以2为底的对数操作，G(z⁽ⁱ⁾)表示噪声样本集中第i个噪声样本z⁽ⁱ⁾输入生成器网络后输出的假样本，D(G(z⁽ⁱ⁾))表示假样本G(z⁽ⁱ⁾)输入鉴别器网络后输出的对该假样本的鉴别概率。

3.根据权利要求2所述的基于对抗训练网络的后门水印图像数据集生成方法，其特征在于，步骤4.2中所述计算所有图片样本和所有假样本输入到鉴别器网络后输出的样本平均损失值是由下式得到的：

其中，D_loss表示所有假样本和所有图像样本输入到鉴别器网络后输出的样本平均损失值，j表示所有假样本和所有图像样本对应位置的样本序号，j＝1,2,...,n，n表示所有假样本和所有图像样本样本总数，x^j表示第j个图片样本，

表示第j个假样本，D(x^j)表示图片样本x^j输入鉴别器网络后输出的鉴别概率，

表示假样本

输入鉴别器网络后输出的鉴别概率。

4.根据权利要求1所述的基于对抗训练网络的后门水印图像数据集生成方法，其特征在于，步骤4.2中所述的采用梯度下降算法对生成器网络和鉴别器网络的参数进行交替更新，实现步骤如下：

步骤1，利用梯度下降算法，用生成器网络的损失函数值更新生成器网络的参数；

步骤2，利用梯度下降算法，用判别器网络的损失函数值更新判别器网络的参数。