CN115660931A

CN115660931A - 基于Transformer和去噪扩散模型的鲁棒水印方法

Info

Publication number: CN115660931A
Application number: CN202211357598.0A
Authority: CN
Inventors: 张小瑞; 蒋睿; 孙伟; 张小娜; 付章杰; 夏志华; 周志立
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2023-01-31

Abstract

本发明公开了基于Transformer和去噪扩散模型的鲁棒水印方法，包括以下步骤：将载体图像与原始水印输入由Transformer组成的水印编码器中，生成嵌入水印的编码图像；将编码图像分三路输入无噪声层、已知噪声层和基于去噪扩散模型的未知噪声层，生成噪声图像；将噪声图像输入由Transformer组成的水印解码器中，得到提取水印；计算损失函数，并采用随机梯度下降方法更新水印编码器和水印解码器的参数；重复以上步骤，直到满足设定的训练次数，水印编码器和水印解码器训练完毕，保留水印编码器和水印解码器分别用于水印的嵌入和提取。

Description

基于Transformer和去噪扩散模型的鲁棒水印方法

技术领域

本发明涉及信息隐藏技术领域，具体的是基于Transformer和去噪扩散模型的鲁棒水印方法。

背景技术

图像水印方法追求的是高不可感知性和强鲁棒性，即人眼几乎无法察觉嵌入水印后的编码图像与原始图像的差别和编码图像在经受攻击后依然能正确提取出水印。随着深度学习的发展，利用神经网络强大的学习能力将图像水印推向了更高的水平。

现有基于深度学习的方法大多采用卷积神经网络，对水印进行编码后嵌入载体图像，并能从噪声图像中提取出水印。由于卷积神经网络具有强大的归纳偏置：平移同变性和局部性，这使得卷积神经网络能够学习到优秀的图像特征，获得较好的性能。2018年，JirenZhu等人提出一种基于卷积神经网络的水印模型HiDDeN，它在图像质量和鲁棒性都取得了成功。但是一旦图像经过平移、旋转等几何攻击，基于卷积神经网络的水印方法就很难正确提取出水印。并且，现有方法大多采用特定数种噪声参与训练，以增强水印算法的鲁棒性，但是对于未参与训练的噪声，往往鲁棒性较差。2019年，Xiyang Luo等人采用生成对抗网络和对抗样本的思想，构建出模拟未知噪声的噪声层，提升水印的泛化性。但是由于生成对抗网络训练不稳定，导致部分训练效果不佳。此外卷积神经网络常用的3×3大小卷积核的有效感受野较小，只能关注局部信息。最近广受研究的大核卷积虽然进一步扩大了卷积神经网络的有效感受野，但是仍然难以扩大到整张图像，这限制了卷积神经网络将水印扩散到更多像素的能力，从而降低了水印方法的性能。

目前国内外尚无解决卷积神经网络性能不佳、对未知噪声模拟不足的方法，为此，设计了基于Transformer和去噪扩散模型的鲁棒水印方法，采用更加先进的Transformer架构，利用其全局建模的自注意力机制规避卷积神经网络关注局部信息的缺陷，提升水印的扩散能力；以及设计引导函数指引去噪扩散模型得到比生成对抗网络更加优质的未知噪声，提升了水印的透明性和鲁棒性，具有现实意义和良好的应用前景。

发明内容

为解决上述背景技术中提到的不足，本发明的目的在于提供基于Transformer和去噪扩散模型的鲁棒水印方法。

本发明的目的可以通过以下技术方案实现：基于Transformer和去噪扩散模型的鲁棒水印方法，方法包括以下步骤：

将载体图像离散小波变换后与原始水印输入由Transformer组成的水印编码器中，经过逆离散小波变换后生成嵌入水印的编码图像；

将嵌入水印的编码图像和原始水印分三路输入无噪声层、已知噪声层和基于去噪扩散模型的未知噪声层，生成噪声图像；

将噪声图像离散小波变换后输入由Transformer组成的水印解码器中，得到提取水印；

根据载体图像和编码图像、原始水印与提取水印，计算损失函数，并采用随机梯度下降方法更新水印编码器和解码器的参数；

重复以上步骤，直到满足设定的训练次数，水印编码器和水印解码器训练完毕，保留水印编码器和水印解码器分别用于水印的嵌入和提取。

优选地，所述生成嵌入水印的编码图像的过程包括以下步骤：

将载体图像IC离散小波变换后，分割为不重叠的图像块，并根据图像块内容通过线性投影生成图像块嵌入AE，同时按照图像块的顺序生成位置嵌入OE，将原始水印M线性投影为水印嵌入ME，将AE、OE和ME三者相加后得到图像嵌入IM，再将IM输入基于Transformer的水印编码器中计算，生成水印掩码MASK，将MASK加到IC之上，得到编码图像IE；

IM＝AE+OE+ME

MASK＝TF(IM)

IE＝α×MASK+(1-α)×IC

其中，TF表示经过12个Transformer块运算，α表示嵌入强度因子。

优选地，所述原始水印M由二进制字符串构成。

优选地，所述生成噪声图像的过程包括以下步骤：

所述无噪声层NN不对输入的编码图像做任何改动，直接输出为无噪声图像INN；

INN＝IE

所述已知噪声层中包括高斯模糊、高斯噪声、模拟可微JPEG压缩、真实不可微JPEG压缩、裁剪、旋转和放缩，一共7种常见噪声，添加到编码图像IE之上生成已知噪声图像IK；

n＝(gb,gn,jpegs,jpegr,crop,rotation,resize)

IK＝n(IE)

其中，n表示一种已知噪声,gb表示高斯模糊，gn表示高斯噪声，jpegs表示模拟可微JPEG压缩，jpegr表示真实不可微JPEG压缩，crop表示裁剪，rotation表示旋转，resize表示放缩；

所述基于去噪扩散模型的未知噪声层在正向过程中，对编码图像逐步添加服从正态分布的高斯噪声，经过T个采样步后，直到整张编码图像成为服从正态分布的高斯噪声；在逆向过程中，从随机生成的服从正态分布的高斯噪声出发，使用添加注意力机制的U-Net预测上一采样步编码图像的均值和方差，并通过重参数化技巧采样出上一采样步图像，经过T个采样步后，预测出编码图像，并通过均方差损失和相对熵损失更新添加注意力机制的U-Net的网络参数；重复以上步骤，直到经过设定的训练次数，得到具有图像生成能力的添加注意力机制的U-Net模型；最后在采样过程中，随机生成一组服从正态分布的高斯噪声x_T，输入添加注意力机制的U-Net模型，在引导函数FN的引导下，经过T个采样步后，生成未知噪声图像IUK，公式如下；

RM＝1-M

FN＝-β₁MSE(IE,x_t)-β₂MSE(D(x_t),RM),t＝T,T-1,…,1

IUK＝x₀

其中，RM表示原始水印M的相反水印，β₁、β₂表示权重，MSE表示计算均方差损失，x_t表示采样过程中第t个采样步时的噪声图像，D表示采用水印解码器计算水印，t表示在第T个采样步到第1个采样步之间的某个采样步，x_t-1表示采样过程中第t-1个采样步时的噪声图像，～表示从该数据分布中采样，

表示均值为

且方差为Σ的高斯分布，μ和Σ表示添加注意力机制的U-Net预测出的均值和方差，s表示引导函数FN的权重，

表示对于x_t计算梯度，x₀表示采样过程中第0个采样步时的噪声图像。

优选地，所述噪声图像IN包括无噪声图像INN、已知噪声图像IK和未知噪声图像IUK；在训练过程中，对于每一个最小批分为9组，每组包含一种噪声，使得一个最小批同时拥有无噪声、7种已知噪声和未知噪声类型，以加速模型收敛。

优选地，所述得到提取水印的过程包括以下步骤：

将噪声图像离散小波变换后，生成图像块嵌入，同时按照图像块的顺序生成位置嵌入，相加后输入基于Transformer的水印解码器；基于Transformer的水印解码器包括若干个Transformer块，并在最后一个Transformer块之后采用全局平均池化，最后经过全连接层输出提取的水印；将噪声图像IN输入水印解码器D，输出提取水印MR，如下式：

MR＝D(IN)＝D(INN,IK,IUK)

优选地，计算损失函数，并采用随机梯度下降方法更新水印编码器和解码器参数的过程包括以下步骤：

根据载体图像和编码图像、原始水印与提取水印，分别计算出嵌入损失函数LossE、提取损失函数LossD、小波高频损失函数LossHF、LPIPS感知损失函数LossLPIPS，以上4种损失加权求和形成总损失函数Loss，并采用随机梯度下降方法更新水印编码器和水印解码器的参数；各损失函数如下式：

LossE＝MSE(IC,IE)

LossD＝MSE(MR,M)

LossHF＝MSE9DWT9IC),DWT(IE))

LossLPIPS＝Alex9IC,IE)

Loss＝γ₁LossE+γ₂LossD+γ₃LossHF+γ₄LossLPIPS

式中，DWT表示提取经过离散小波变换后的HL、LH和HH子带，Alex表示使用AlexNet计算载体图像和编码图像的特征图之间的感知距离，γ₁、γ₂、γ₃、γ₄分别表示对各损失函数的权重。

优选地，所述水印编码器和水印解码器的训练过程包括以下步骤：

一种设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当一个或多个所述程序被一个或多个所述处理器执行，使得一个或多个所述处理器实现如上所述的基于Transformer和去噪扩散模型的鲁棒水印方法。

一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的基于Transformer和去噪扩散模型的鲁棒水印方法。

本发明的有益效果：

提出一种基于Transformer的水印编码器和解码器框架，能够实现端到端训练，从而获得更好的效果；提出一种基于去噪扩散模型的未知噪声层，在条件函数的引导下，实现在对编码图像改动幅度微小的情况下，使得提取水印错误率最大，从而有助于增强水印的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图；

图1是本发明方法流程图；

图2是本发明水印编码器流程图；

图3是本发明基于去噪扩散模型的未知噪声层流程图；

图4是本发明的已知噪声和无噪声样例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1-3所示，基于Transformer和去噪扩散模型的鲁棒水印方法，方法包括以下步骤：

需要进一步进行说明的是，在具体实施过程中，所述生成嵌入水印的编码图像的过程包括以下步骤：

将形状为128×128×3的彩色RGB载体图像IC经离散小波变换后，得到形状为64×64×12的小波频率图，并分割为不重叠的4×4×12大小的图像块，并根据图像块内容通过全连接层线性投影生成形状为256×192的图像块嵌入AE，同时按照图像块的顺序使用余弦位置编码算法生成同样形状为256×192的位置嵌入OE，将原始水印M通过全连接层线性投影为形状为256×192的水印嵌入ME，将AE、OE和ME三者相加后得到图像嵌入IM，再将IM输入基于Transformer的水印编码器中计算，生成水印掩码MASK，将MASK加到IC之上，并重新调整形状，得到形状为64×64×12的小波频率图，经逆小波变换得到编码图像IE；

IM＝AE+OE+ME

MASK＝TF(IM)

IE＝α×MASK+(1-α)×IC

需要进一步进行说明的是，在具体实施过程中，所述M由30位二进制字符串构成。

需要进一步进行说明的是，在具体实施过程中，所述Transformer由数个Transformer块组成，每个Transformer块主要由多头自注意力机制MSA和前馈网络FFN构成，其中单头自注意力机制SA结构如下：

其中，SA9X)表示对输入特征图X计算单头自注意力机制，Softmax表示归一化指数函数，Q、K、V表示从特征图X中线性投影得到的三个矩阵，D表示单头自注意力机制中张量的维度，T表示矩阵转置；

多头自注意力机制MSA由H个单头自注意力机制SA构成，其结构如下：

MSA(X)＝concat_h∈H(SA_h(X))W

其中，MSA(X)表示对输入特征图X计算多头自注意力机制，concat表示张量在通道维度拼接，h表示第h个单头自注意力机制，W表示可学习的参数；

Transformer块包含多头自注意力机制MSA和前馈网络FFN构成，前馈网络FFN由多层感知机构成，其结构如下：

Y＝X+MSA(LN(X))

Z＝Y+FFN(LN(Y))

其中，Y表示中间变量，X表示输入特征图，LN表示层归一化，Z表示输出特征图。

需要进一步进行说明的是，在具体实施过程中，所述生成噪声图像的过程包括以下步骤：

所述无噪声层NN不对输入的编码图像做任何改动，直接输出为无噪声图像INN，用于保证在无噪声的情况下能正确提取水印；

INN＝IE

所述已知噪声层中包括高斯模糊、高斯噪声、模拟可微JPEG压缩、真实不可微JPEG压缩、裁剪、旋转和放缩，一共7种常见噪声，如图4所示，添加到编码图像IE之上生成已知噪声图像IK；

n＝(gb,gn,jpegs,jpegr,crop,rotation,resize)

IK＝n(IE)

其中，n表示一种已知噪声,gb表示方差为2的高斯模糊，gn表示方差为2的高斯噪声，jpegs表示模拟可微JPEG压缩，jpegr表示质量因子为50的真实不可微JPEG压缩，crop表示比率为原图3.5％大小的裁剪，rotation表示角度在0到180的旋转，resize表示比率为原图50％的放缩；

所述基于去噪扩散模型的未知噪声层在正向过程中，对编码图像逐步添加服从正态分布的高斯噪声，经过T个采样步后，直到整张编码图像成为服从正态分布的高斯噪声；在逆向过程中，从随机生成的服从正态分布的高斯噪声出发，使用添加注意力机制的U-Net预测上一采样步编码图像的均值和方差，并通过重参数化技巧采样出上一采样步图像，经过T个采样步后，预测出编码图像，并通过均方差损失和相对熵损失更新添加注意力机制的U-Net的网络参数，得到具有图像生成能力的添加注意力机制的U-Net模型；最后在采样过程中，随机生成一组服从正态分布的高斯噪声x_T，输入添加注意力机制的U-Net模型，在条件函数FN的引导下，经过T个采样步后，生成未知噪声图像IUK，公式如下；

RM＝1-M

FN＝-β₁MSE(IE,x_t)-β₂MSE(D(x_t),RM),t＝T,T-1,…,1

IUK＝x₀

表示均值为

且方差为Σ的高斯分布，μ和Σ表示添加注意力机制的U-Net预测出的均值和方差，s表示条件函数FN的权重，

需要进一步进行说明的是，在具体实施过程中，所述噪声图像IN包括无噪声图像INN、已知噪声图像IK和未知噪声图像IUK；在训练过程中，对于每一个最小批分为9组，每组包含一种噪声，使得一个最小批同时拥有无噪声、7种已知噪声和未知噪声类型，以加速模型收敛。

需要进一步进行说明的是，在具体实施过程中，所述得到提取的水印的过程包括以下步骤：

将噪声图像离散小波变换后，生成图像块嵌入，同时按照图像块的顺序生成位置嵌入，相加后输入基于Transformer的水印解码器；水印解码器包括若干个Transformer块，并在最后一个Transformer块之后采用全局平均池化，最后经过全连接层输出提取的水印；将噪声图像IN输入水印解码器D，输出提取水印MR，如下式：

MR＝D(IN)＝D(INN,IK,IUK)

需要进一步进行说明的是，在具体实施过程中，计算损失，更新水印编码器和解码器参数的过程包括以下步骤：

分别计算出嵌入损失函数LossE、提取损失函数LossE、小波频率损失函数LossHF、LPIPS感知损失函数LossLPIPS，将以上4种损失加权求和形成总损失函数Loss，并采用随机梯度下降方法更新水印编码器和水印解码器的参数，各损失函数

如下式：

LossE＝MSE(IC,IE)

LossD＝MSE(MR,M)

LossHF＝MSE(DWT(IC),DWT(IE))

LossLPIPS＝Alex(IC,IE)

Loss＝γ₁LossE+γ₂LossD+γ₃LossHF+γ₄LossLPIPS

需要进一步进行说明的是，在具体实施过程中，所述水印编码器和水印解码器的训练过程包括以下步骤：

需要进一步进行说明的是，在具体实施过程中，所述水印编码器和水印解码器的实验性能如下所示：

与2018年JirenZhu等人于论文《HiDDeN:Hiding Data With Deep Networks》提出的水印模型HiDDeN，以下简称HiD，以及2020年Xiyang Luo等人于论文《DistortionAgnostic Deep Watermarking》提出的水印模型Distortion-Agnostic，以下简称DA；并在1000张图像上测试并记录平均值。

表1展示了本发明方法嵌入水印的编码图像与载体图像之间的峰值信噪比，能够达到37分贝以上，比HiD和DA高近4分贝，实验结果证明了本方法具有良好的视觉质量。

表1水印不可感知性

方法	峰值信噪比
		HiD	33.5
DA	33.7
		本专利	37.6

为了评估本专利提出水印方法对于参与训练的已知噪声和无噪声的鲁棒性，如表2所示，使用不同强度和种类的噪声对嵌入水印的编码图像进行攻击，记录提取水印的误码率。

表2水印对于无噪声和已知噪声的误码率(％)

噪声	强度	HiD	DA	本专利
					无噪声	-	0.0	0.0	0.0
高斯模糊	方差2	4.0	8.0	3.6
					缩放	比率70％	15.1	11.6	4.3
裁剪	比率3.5％	12.0	6.5	27.3
					高斯噪声	方差0.06	6.5	4.4	0.0
JPEG压缩	质量因子50％	37.0	18.3	25.3

为了评估本专利提出水印方法对于未参与训练的未知噪声的鲁棒性，如表3所示，使用不同强度和种类的噪声对嵌入水印的编码图像进行攻击，记录提取水印的误码率。

表3水印对于未知噪声的误码率(％)

噪声	强度	HiD	DA	本专利
					椒盐噪声	概率0.15	-	22.9	35.8
图像量化	-	-	-	0.0
					Dropout	比率0.3	7.0	2.1	0.1
Cropout	比率0.3	6.0	-	0.7
					旋转	角度45	-	-	6.5

通过实验结果能够明显发现本专利在大多数已知噪声攻击情况下，鲁棒性都比HiD和DA更好，并且对于未知噪声的鲁棒性依旧更好。这说明通过引导函数指引去噪扩散概率模型能够进一步加强水印解码器的鲁棒性，并且Transformer架构避免了卷积神经网络的缺陷，增强了对于几何攻击的鲁棒性。

基于同一种发明构思，本发明还提供一种计算机设备，该计算机设备包括包括：一个或多个处理器，以及存储器，用于存储一个或多个计算机程序；程序包括程序指令，处理器用于执行存储器存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其用于实现一条或一条以上指令，具体用于加载并执行计算机存储介质内一条或一条以上指令从而实现上述方法。

需要进一步进行说明的是，基于同一种发明构思，本发明还提供一种计算机存储介质，该存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法。该存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电、磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本公开的基本原理、主要特征和本公开的优点。本行业的技术人员应该了解，本公开不受上述实施例的限制，上述实施例和说明书中描述的只是说明本公开的原理，在不脱离本公开精神和范围的前提下，本公开还会有各种变化和改进，这些变化和改进都落入要求保护的本公开范围内容。

Claims

1.基于Transformer和去噪扩散模型的鲁棒水印方法，其特征在于，方法包括以下步骤：

2.根据权利要求1所述的基于Transformer和去噪扩散模型的鲁棒水印方法，其特征在于，所述生成嵌入水印的编码图像的过程包括以下步骤：

IM＝AE+OE+ME

MASK＝TF(IM)

IE＝α×MASK+(1-α)×IC

3.根据权利要求2所述的基于Transformer和去噪扩散模型的鲁棒水印方法，其特征在于，所述原始水印M由二进制字符串构成。

4.根据权利要求1所述的基于Transformer和去噪扩散模型的鲁棒水印方法，其特征在于，所述生成噪声图像的过程包括以下步骤：

INN＝IE

n＝(gb,gn,jpegs,jpegr,crop,rotation,resize)

IK＝n(IE)

RM＝1-M

FN＝-β₁MSE(IE,x_t)-β₂MSE(D(x_t),RM),t＝T,T-1,…,1

IUK＝x₀

其中，RM表示原始水印M的相反水印，β₁、β₂表示权重，MSE表示计算均方差损失，x_t表示采样过程中第t个采样步时的噪声图像，D表示采用水印解码器计算水印，t表示在第T个采样步到第1个采样步之间的某个采样步，x_t-1表示采样过程中第t-1个采样步时的噪声图像，～表示从数据分布中采样，

表示均值为

5.根据权利要求4所述的基于Transformer和去噪扩散模型的鲁棒水印方法，其特征在于，所述噪声图像IN包括无噪声图像INN、已知噪声图像IK和未知噪声图像IUK；在训练过程中，对于每一个最小批分为9组，每组包含一种噪声，使得一个最小批同时拥有无噪声、7种已知噪声和未知噪声类型，以加速模型收敛。

6.根据权利要求1所述的基于Transformer和去噪扩散模型的鲁棒水印方法，其特征在于，所述得到提取水印的过程包括以下步骤：

MR＝D(IN)＝D(INN,IK,IUK)。

7.根据权利要求1所述的基于Transformer和去噪扩散模型的鲁棒水印方法，其特征在于，计算损失函数，并采用随机梯度下降方法更新水印编码器和解码器参数的过程包括以下步骤：

LossE＝MSE(IC,IE)

LossD＝MSE(MR,M)

LossHF＝MSE(DWT(IC),DWT(IE))

LossLPIPS＝Alex(IC,IE)

Loss＝γ₁LossE+γ₂LossD+γ₃LossHF+γ₄LossLPIPS

8.根据权利要求1所述的基于Transformer和去噪扩散模型的鲁棒水印方法，其特征在于，所述水印编码器和水印解码器的训练过程包括以下步骤：

9.一种设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当一个或多个所述程序被一个或多个所述处理器执行，使得一个或多个所述处理器实现如权利要求1-8中任一所述的基于Transformer和去噪扩散模型的鲁棒水印方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的基于Transformer和去噪扩散模型的鲁棒水印方法。