CN115546003A - 基于对抗训练网络的后门水印图像数据集生成方法 - Google Patents

基于对抗训练网络的后门水印图像数据集生成方法 Download PDF

Info

Publication number
CN115546003A
CN115546003A CN202211242857.5A CN202211242857A CN115546003A CN 115546003 A CN115546003 A CN 115546003A CN 202211242857 A CN202211242857 A CN 202211242857A CN 115546003 A CN115546003 A CN 115546003A
Authority
CN
China
Prior art keywords
network
samples
sample
false
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211242857.5A
Other languages
English (en)
Inventor
朱笑岩
谢雨欣
马建峰
韩雪雪
张琳杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202211242857.5A priority Critical patent/CN115546003A/zh
Publication of CN115546003A publication Critical patent/CN115546003A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明公开了一种基于对抗训练网络的后门水印图像数据集生成方法。该方法是通过分别构建生成器网络和鉴别器网络,并对两个网络进行对抗训练,得到的图片样本被鉴别器以50%的概率判定为真实图片样本,以50%的概率判定为生成器生成的假样本,使得本发明的后门水印图像数据集与真实图片样本集统计分布相似,不易被攻击者检测到,具有隐蔽性较强的优点;同时,本发明的后门水印图像数据集修改生成器网络生成的所有假样本的标签,没有引入无效或者错误特征,不会影响图像分类模型在原始任务上的精度,图像分类模型在原始任务上的决策边界没有改变,图像分类模型在原始任务上仍保持高精度。

Description

基于对抗训练网络的后门水印图像数据集生成方法
技术领域
本发明属于图像处理技术领域,更进一步涉及神经网络水印领域中的一种基于对抗训练网络的后门水印图像数据集生成方法。本发明可用于图像分类模型在黑盒场景下的版权保护,用一种不可见的方式生成后门水印图像数据集,当出现模型版权纠纷时,模型使用者可通过验证水印信息声明所有权。
背景技术
水印作为模型版权保护的一种方式,在黑盒场景中得到广泛应用。目前,基于后门的设计是通过构造一个特定的后门水印图像数据集,后门水印图像数据集通常由一组图片样本和对应的特定标签组成,特定输入与其标签之间的映射被视为后门并用作水印,用该后门水印图像数据集微调训练好的图像分类模型,使该模型含有水印信息,图像分类模型可以将后门水印图像数据集中图片样本预测为特定标签;模型使用者用后门水印图像数据集对可疑模型发起预测查询,如果检测到水印信息,模型使用者可以声明模型的所有权。
然而在现实场景下,攻击者可以通过一系列手段例如查询修改攻击检测到后门样本,从而躲避检测。另外,目前的后门水印技术中后门水印不可避免对模型的原始任务产生影响,导致含有后门水印的图像分类模型分类精度低。因此,水印应该足够隐蔽,不易被攻击者检测,同时,后门水印不应该影响原始模型的准确性,而目前的神经网络模型后门水印技术很难同时兼顾保真度和隐蔽性。
华南师范大学在其申请的专利文献“一种神经网络水印嵌入方法、装置、电子设备及存储介质”(申请号:202210016799.8申请公布号:CN 114359011 A)中公开了一种神经网络水印嵌入方法。该方法利用密钥获取模块获取对应唯一的时间戳的密钥;然后在原始训练集中随机选择部分图片数据集通过密钥产生的混沌序列对图片进行置乱加密得到触发集。该发明在保证触发集对攻击者高不可见的基础上具有较好的验证效果。但是,该方法仍然存在的不足之处是,由于该方法是在原始数据集图片上进行加密,置乱加密得到的触发集改变了原始图片的特征,引入无效或者错误特征,扭曲了图像分类模型在原始任务上的决策边界,使图像分类模型在原始任务上的性能下降。
Ryota Namba等人在其发表的论文“Robust Watermarking of Neural Networkwith Exponential Weighting”(Proc of the 2019 ACM Asia Conf on Computer andCommunications Security)中提出一种指数加权的后门水印方法。该方法通过在原始训练数据集上随机选取一定比例的训练样本,只改变其标签来得到后门水印图像数据集。该方法提高了后门水印的隐蔽性。但是,该方法仍然存在的不足之处是,该方法对原始图片的标签进行更改,分类带有错误标签的样本让图像分类模型学习到坏的特征,从而改变图像分类模型在原始分类任务上的决策边界,导致原始性能下降,无法满足保真度需求。
发明内容
本发明的目的在于针对上述已有技术存在的不足,提供一种基于对抗训练网络的后门水印图像数据集生成方法,旨在解决现有技术生成的后门水印隐秘性较差,因引入无效特征导致模型原始性能下降,无法满足保真度需求的问题。
实现本发明目的的具体思路是,首先分别构建生成器网络和鉴别器网络,生成器网络的目的是尽可能使生成的假样本分布拟合真实图像样本分布,鉴别器网络目的是尽可能鉴别输入样本是真实图像样本还是假样本;再对两个网络进行对抗训练,在训练过程中,生成器网络生成看起来真的和真实图像样本相似的假样本去欺骗鉴别器网络,鉴别器网络把假样本和真实图像样本区分开来。这样,生成器网络试图欺骗判别器网络,判别器网络则努力不被生成器网络欺骗。两个网络经过交替训练,互相提升,构成了一个动态的“博弈”,最后训练好的生成器网络可以生成足以“以假乱真”的图片样本,最后得到的图片样本被鉴别器网络以50%的概率判定为真实图片样本,以50%的概率判定为生成器网络生成的假样本。
通过修改生成器网络生成的所有假样本的标签,将所有的假样本及其修改后的标签组成后门水印图像数据集,添加新标签不仅不会扭曲原始决策边界,还可以帮助模型更好地学习图片样本集的特征,克服了现有的神经网络后门水印方法中引入错误的映射关系,扭曲原始决策边界的问题,使得生成的后门水印图像数据集不会影响模型在原始任务上的精度。
本发明实现的具体步骤如下:
步骤1,构建生成器网络:
构建一个由5个全连接层级联的生成器网络,将第一至第五全连接层的输入神经元个数依次设置为100,128,256,512,1024,输出神经元个数依次设置为128,256,512,1024,784;第一至第四全连接层的激活函数均采用Relu函数实现,第五全连接层的激活函数采用tanh函数实现;
步骤2,构建鉴别器网络:
构建一个由3个全连接层级联的鉴别器网络,将第一至第三全连接层的输入神经元个数依次设置为784,512,256,输出神经元个数依次设置为512,256,1;第一,第二全连接层的激活函数均采用Relu函数实现,第三全连接层的激活函数采用Sigmoid函数实现;
步骤3,生成图片样本集和噪声样本集:
步骤3.1,将包含C个目标类别的N幅图像中的一半图像及其标签组成图片样本集,其中,C≥2,N≥2000;
步骤3.2,随机生成符合高斯分布的包含有m个噪声的噪声样本集,每个噪声样本的维度为100,其中,m的取值与N相同;
步骤4,对生成器网络和鉴别器网络进行对抗训练:
步骤4.1,将噪声样本集输入到生成器网络中,通过生成器网络对每个噪声样本进行非线性映射,将映射后的所有噪声样本组成假样本集;将假样本集输入到鉴别器网络中,输出每个假样本的预测值;将图片样本集输入到鉴别器网络中,输出每个图片样本的预测值;
步骤4.2,计算所有噪声样本输入到生成器网络后输出的噪声样本平均损失值,计算所有图片样本和所有假样本输入到鉴别器网络后输出的样本平均损失值,分别计算生成器网络和鉴别器网络损失函数的梯度,采用梯度下降算法,对生成器网络和鉴别器网络的参数进行交替更新,直至噪声样本平均损失值和样本平均损失值均不再变化为止,得到训练好的生成器网络和鉴别器网络;
步骤5,生成后门水印图像数据集:
修改生成器网络和鉴别器网络均训练好时生成器网络输出的每个假样本的标签,将所有的假样本及其修改后的标签组成后门水印图像数据集。
与现有技术相比,本发明具有以下优点:
第一,本发明通过分别构建生成器网络和鉴别器网络,并对两个网络进行对抗训练,得到的图片样本被鉴别器以50%的概率判定为真实图片样本,以50%的概率判定为生成器生成的假样本;克服了现有技术中后门水印图像数据集和真实图片样本集差异过大,易被攻击者检测到从而逃避验证的问题,使得本发明的后门水印图像数据集与真实图片样本集统计分布相似,不易被攻击者检测到,具有隐蔽性较强的优点,用该后门水印图像数据集微调训练好的图像分类模型,使该模型含有水印信息,通过查询含有水印模型中的水印信息,模型使用者可声明模型所有权。
第二,本发明修改生成器网络生成的所有假样本的标签,将其修改为与原始图片样本标签类别均不同的新标签,克服了现有技术中将后门水印图像数据集中的样本标签修改成原始图片样本标签类别中的其他标签,引入无效或者错误特征,扭曲图像分类模型在原始任务上的决策边界的问题,使得本发明的后门水印图像数据集不会影响图像分类模型在原始任务上的精度,图像分类模型在原始任务上仍保持高精度。
附图说明:
图1为本发明的流程图。
具体实施方式:
下面结合附图1和实施例,对本发明的实现步骤做进一步的描述。
步骤1,构建生成器网络:
搭建一个由5个全连接层级联的生成器网络,设置网络各层参数如下,第一至第五全连接层的输入神经元个数依次设置为100,128,256,512,1024,输出神经元个数依次设置为128,256,512,1024,784。第一至第四全连接层的激活函数均采用Relu函数,第五全连接层的激活函数采用tanh函数。
步骤2,构建鉴别器网络:
搭建一个由3个全连接层级联的鉴别器网络,设置网络各层参数如下,第一至第三全连接层的输入神经元个数依次设置为784,512,256,输出神经元个数依次设置为512,256,1。第一,第二全连接层的激活函数均采用Relu函数,第三全连接层的激活函数采用Sigmoid函数。
步骤3,生成图片样本集和噪声样本集:
步骤3.1,将包含C个目标类别的N幅图像的其中一半图像及其标签组成图片样本集,其中,C≥2,N≥200。
在本发明实施例中,从MNIST数据集的10个类别中选取30000幅图像及其标签组成图片样本集。MNIST数据集的标签是0-9的数字,MNIST数据集中包括60000个训练图像样本和10000个测试图像样本,每个图像样本是一个大小为28×28的灰度图像。
步骤3.2,随机生成符合高斯分布的包含有m个噪声的噪声样本集,每个噪声样本的维度为100,其中,m的取值与N相同,本发明实施例中,m=30000。
步骤4,对生成器网络和鉴别器网络进行对抗训练:
步骤4.1,将噪声样本集输入到生成器网络中,通过五层全连接层上采样将每个维度为100的噪声样本映射成维度为784的噪声样本,将映射后的所有噪声样本组成假样本集。将假样本集输入到鉴别器网络中,通过三层全连接层下采样,输出每个假样本的预测值。将图片样本集输入到鉴别器网络中,通过三层全连接层下采样,输出每个图片样本的预测值。
步骤4.2,计算所有噪声样本输入到生成器网络后输出的噪声样本的平均损失值,计算所有图片样本和所有假样本输入到鉴别器网络后输出的样本平均损失值,分别计算生成器网络和鉴别器网络损失函数的梯度,采用梯度下降算法,对生成器网络和鉴别器网络的参数进行交替更新,直至噪声样本平均损失值和样本平均损失值均不再变化为止,得到训练好的生成器网络和鉴别器网络。
本发明实施例中,训练100次后噪声样本平均损失值和样本平均损失值均不再变化,生成器网络输出的假样本有50%的概率被鉴别器网络判为真实样本,有50%的概率被判为假样本。
步骤4.3,利用下式,计算所有噪声样本输入到生成器网络后输出的噪声样本平均损失值:
Figure BDA0003885382210000061
其中,Gloss表示所有噪声样本输入到生成器网络后输出的噪声样本平均损失值,i表示噪声样本集中样本的序号,i=1,2,...,m,m表示噪声样本集中样本的总数,本发明实施例中m=30000。∑表示求和操作,log表示以2为底的对数操作,G(z(i))表示噪声样本集中第i个噪声样本z(i)输入到生成器网络后输出的假样本,D(G(z(i)))表示假样本G(z(i))输入到鉴别器网络后输出的对该假样本的鉴别概率。
步骤4.4,利用下式,计算所有图片样本和所有假样本输入到鉴别器网络后输出的样本平均损失值:
Figure BDA0003885382210000062
其中,Dloss表示所有假样本和所有图像样本输入到鉴别器网络后输出的样本平均损失值,j表示样本序号,j=1,2,...,n,n表示所有假样本和所有图像样本样本总数,本发明实施例中n=30000,xj表示第j个图片样本,
Figure BDA0003885382210000063
表示第j个假样本,D(xj)表示图片样本xi输入到鉴别器网络后输出的鉴别概率,
Figure BDA0003885382210000064
表示以假样本
Figure BDA0003885382210000065
输入到鉴别器网络后输出的鉴别概率。
步骤5,生成后门水印图像数据集:
修改生成器网络和鉴别器网络均训练好时生成器网络输出的每个假样本的标签,将所有的假样本及其修改后的标签组成后门水印图像数据集。本发明实施例中每个假样本标签修改为*。

Claims (4)

1.一种基于对抗训练网络的后门水印图像数据集生成方法,其特征在于,分别构建生成器网络和鉴别器网络,对生成器网络和鉴别器网络进行对抗训练,生成后门水印图像数据集,该方法的步骤包括如下:
步骤1,构建生成器网络:
构建一个由5个全连接层级联的生成器网络,将第一至第五全连接层的输入神经元个数依次设置为100,128,256,512,1024,输出神经元个数依次设置为128,256,512,1024,784;第一至第四全连接层的激活函数均采用Relu函数实现,第五全连接层的激活函数采用tanh函数实现;
步骤2,构建鉴别器网络:
构建一个由3个全连接层级联的鉴别器网络,将第一至第三全连接层的输入神经元个数依次设置为784,512,256,输出神经元个数依次设置为512,256,1;第一,第二全连接层的激活函数均采用Relu函数实现,第三全连接层的激活函数采用Sigmoid函数实现;
步骤3,生成图片样本集和噪声样本集:
步骤3.1,将包含C个目标类别的N幅图像中的一半图像及其标签组成图片样本集,其中,C≥2,N≥2000;
步骤3.2,随机生成符合高斯分布的包含有m个噪声的噪声样本集,每个噪声样本的维度为100,其中,m的取值与N相同;
步骤4,对生成器网络和鉴别器网络进行对抗训练:
步骤4.1,将噪声样本集输入到生成器网络中,通过生成器网络对每个噪声样本进行非线性映射,将映射后的所有噪声样本组成假样本集;将假样本集输入到鉴别器网络中,输出每个假样本的预测值;将图片样本集输入到鉴别器网络中,输出每个图片样本的预测值;
步骤4.2,计算所有噪声样本输入到生成器网络后输出的噪声样本平均损失值,计算所有图片样本和所有假样本输入到鉴别器网络后输出的样本平均损失值,分别计算生成器网络和鉴别器网络损失函数的梯度,采用梯度下降算法,对生成器网络和鉴别器网络的参数进行交替更新,直至噪声样本平均损失值和样本平均损失值均不再变化为止,得到训练好的生成器网络和鉴别器网络;
步骤5,生成后门水印图像数据集:
修改生成器网络和鉴别器网络均训练好时生成器网络输出的每个假样本的标签,将所有的假样本及其修改后的标签组成后门水印图像数据集。
2.根据权利要求1所述的基于对抗训练网络的后门水印图像数据集生成方法,其特征在于,步骤4.2中所述计算所有噪声样本输入到生成器网络后输出的噪声样本平均损失值是由下式得到的:
Figure FDA0003885382200000021
其中,Gloss表示所有噪声样本输入到生成器网络后输出的噪声样本平均损失值,i表示噪声样本集中样本的序号,i=1,2,...,m,m表示噪声样本集中样本的总数,∑表示求和操作,log表示以2为底的对数操作,G(z(i))表示噪声样本集中第i个噪声样本z(i)输入生成器网络后输出的假样本,D(G(z(i)))表示假样本G(z(i))输入鉴别器网络后输出的对该假样本的鉴别概率。
3.根据权利要求2所述的基于对抗训练网络的后门水印图像数据集生成方法,其特征在于,步骤4.2中所述计算所有图片样本和所有假样本输入到鉴别器网络后输出的样本平均损失值是由下式得到的:
Figure FDA0003885382200000022
其中,Dloss表示所有假样本和所有图像样本输入到鉴别器网络后输出的样本平均损失值,j表示所有假样本和所有图像样本对应位置的样本序号,j=1,2,...,n,n表示所有假样本和所有图像样本样本总数,xj表示第j个图片样本,
Figure FDA0003885382200000023
表示第j个假样本,D(xj)表示图片样本xj输入鉴别器网络后输出的鉴别概率,
Figure FDA0003885382200000024
表示假样本
Figure FDA0003885382200000025
输入鉴别器网络后输出的鉴别概率。
4.根据权利要求1所述的基于对抗训练网络的后门水印图像数据集生成方法,其特征在于,步骤4.2中所述的采用梯度下降算法对生成器网络和鉴别器网络的参数进行交替更新,实现步骤如下:
步骤1,利用梯度下降算法,用生成器网络的损失函数值更新生成器网络的参数;
步骤2,利用梯度下降算法,用判别器网络的损失函数值更新判别器网络的参数。
CN202211242857.5A 2022-10-11 2022-10-11 基于对抗训练网络的后门水印图像数据集生成方法 Pending CN115546003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211242857.5A CN115546003A (zh) 2022-10-11 2022-10-11 基于对抗训练网络的后门水印图像数据集生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211242857.5A CN115546003A (zh) 2022-10-11 2022-10-11 基于对抗训练网络的后门水印图像数据集生成方法

Publications (1)

Publication Number Publication Date
CN115546003A true CN115546003A (zh) 2022-12-30

Family

ID=84733592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211242857.5A Pending CN115546003A (zh) 2022-10-11 2022-10-11 基于对抗训练网络的后门水印图像数据集生成方法

Country Status (1)

Country Link
CN (1) CN115546003A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117454181A (zh) * 2023-11-16 2024-01-26 国网山东省电力公司枣庄供电公司 基于级联生成对抗网络的局部放电数据生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117454181A (zh) * 2023-11-16 2024-01-26 国网山东省电力公司枣庄供电公司 基于级联生成对抗网络的局部放电数据生成方法

Similar Documents

Publication Publication Date Title
Li et al. Piracy resistant watermarks for deep neural networks
Han et al. Content-based image authentication: current status, issues, and challenges
CN109543674B (zh) 一种基于生成对抗网络的图像拷贝检测方法
Ulutas et al. A new copy move forgery detection method resistant to object removal with uniform background forgery
Chutani et al. A review of forensic approaches to digital image Steganalysis
CN106503721A (zh) 基于cmos图像传感器puf的哈希算法及认证方法
Xu et al. “identity bracelets” for deep neural networks
CN113034332A (zh) 不可见水印图像、后门攻击模型构建、分类方法及系统
CN115546003A (zh) 基于对抗训练网络的后门水印图像数据集生成方法
Alkhowaiter et al. Evaluating perceptual hashing algorithms in detecting image manipulation over social media platforms
Wu et al. Watermarking pre-trained encoders in contrastive learning
Ekhande et al. Review on effectiveness of deep learning approach in digital forensics.
Jain et al. Deep perceptual hashing algorithms with hidden dual purpose: when client-side scanning does facial recognition
CN112907431A (zh) 一种对对抗隐写鲁棒的隐写分析方法
Chakraborty et al. Dynamarks: Defending against deep learning model extraction using dynamic watermarking
Xie et al. Detection of information hiding at anti-copying 2D barcodes
Rodríguez-Lois et al. Towards traitor tracing in black-and-white-box DNN watermarking with tardos-based codes
Radhakrishnan et al. Security of the visual hash function
Cheng et al. DeepDIST: A Black-Box Anti-Collusion Framework for Secure Distribution of Deep Models
Ye et al. Deep neural networks watermark via universal deep hiding and metric learning
Chen et al. When deep learning meets watermarking: A survey of application, attacks and defenses
Dong et al. TADW: Traceable and Anti‐detection Dynamic Watermarking of Deep Neural Networks
Suryawanshi et al. Universal steganalysis using IQM and multiclass discriminator for digital images
Amerini et al. Acquisition source identification through a blind image classification
Wu Robust and lossless fingerprinting of deep neural networks via pooled membership inference

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination