CN115880125B

CN115880125B - 基于Transformer的软融合鲁棒图像水印方法

Info

Publication number: CN115880125B
Application number: CN202310186948.XA
Authority: CN
Inventors: 骆挺; 吴俊�; 何周燕; 徐海勇; 宋洋
Original assignee: College of Science and Technology of Ningbo University
Current assignee: College of Science and Technology of Ningbo University
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-05-26
Anticipated expiration: 2043-03-02
Also published as: CN115880125A

Abstract

本发明提供了基于Transformer的软融合鲁棒图像水印方法，包括：构建基于Transformer的端到端水印模型；其中，所述端到端水印模型包括：编码器、解码器、噪声层和鉴别器；将原始图像和原始水印输入所述编码器进行编码，获取编码图像；将所述编码图像输入所述噪声层进行噪声添加，获取噪声图像；将所述噪声图像输入所述解码器进行水印提取，获取解码后的水印；基于所述鉴别器，对所述编码图像进行鉴别。本发明在获得高质量的编码图像的同时，能够抵抗大部分的图像攻击，与现有技术方法相比，性能更好。

Description

基于Transformer的软融合鲁棒图像水印方法

技术领域

本发明水印技术领域，尤其涉及基于Transformer的软融合鲁棒图像水印方法。

背景技术

水印技术是通过将秘密消息隐藏到多媒体中来保护版权或跟踪信息泄露的关键解决方案。图像鲁棒水印的目标是将水印不可见地嵌入到图像中，并希望能够从编码后的图像中完全提取水印，即使图像是失真的。因此，不可感知性和鲁棒性是鲁棒水印方法的两个必要要求。

在过去的几年里，许多传统的基于变换域的鲁棒水印方法被提出，这些方法尝试挖掘鲁棒图像特征进行水印嵌入。然而，这些图像特征是人工提取的，不能代表各种图像的主要能量，可能导致鲁棒性差。由于深度神经网络(DNN)可以从不同的图像数据集中学习鲁棒图像特征，因此提出了一些基于DNN的水印模型来提高水印性能。

现有的基于DNN的水印模型通常采用编码器-噪声层-解码器架构作为主骨干，如图1的(a)所示。编码器将水印嵌入到图像中，解码器尝试恢复水印。在最先进的方法中，如Hidden和TSDL，水印被复制并分布在整幅图像上，以增加鲁棒性，然后水印与原始图像的特征直接融合，如图1的(b)所示，得到编码后(带水印)的图像，称为硬融合。但是，有两个缺点限制了相应的性能。(1)水印的简单复制操作会产生过多的冗余，从而降低图像质量。(2)由于水印和原始图像来自不同的域，硬融合将两种具有远距离关系的不同模态连接在一起，而不调整水印特征向原始图像的结构或细节靠拢，从而导致图像失真和鲁棒性差。为了解决第一个缺点，如图1的(c)所示，提出的一个水印处理器模块，将水印扩展到图像上。然而，该处理器仍然不能解决两种不同模态之间的差距，因此水印的不可见性和鲁棒性仍然有限。

据所知，上述已有的水印模型都是采用硬融合作为水印嵌入，只有在融合后，通过学习卷积运算的映射函数，调整水印分布，使编码后的图像接近原始图像，抵御不同的图像攻击。然而，卷积运算只有一个有限的感受野，因此很难建模水印与原始图像之间的远程依赖关系。此外，卷积滤波器在推理时具有静态权重，因此不能灵活调节不同图像的水印融合。为了解决上述缺点，我们需要弥补原始图像与水印之间的模态差距，并捕获它们的跨模态特征依赖，进行水印融合。

近年来，由于其有效的表示学习，transformer已成功应用于计算机视觉和自然语言任务。由于transformer可以获得两种不同模态之间的远程相互作用，并建立自注意机制来指导模态融合，因此仍然可以在水印模型中使用transformer结构，以提高水印性能。然而，到目前为止，基于transformer的水印模型鲜有报道。

发明内容

为解决上述技术问题，本发明提出了基于Transformer的软融合鲁棒图像水印方法；本发明在获得高质量的编码图像的同时，能够抵抗大部分的图像攻击，与现有技术方法相比，性能更好。

为实现上述目的，本发明提供了基于Transformer的软融合鲁棒图像水印方法，包括：

构建基于Transformer的端到端水印模型；其中，所述端到端水印模型包括：编码器、解码器、噪声层和鉴别器；

将原始图像和原始水印输入所述编码器进行编码，获取编码图像，完成水印融合；

将所述编码图像输入所述噪声层进行噪声添加，获取噪声图像；

将所述噪声图像输入所述解码器进行水印提取，获取解码后的水印；

基于所述鉴别器，对所述编码图像进行鉴别。

可选地，所述编码器包括：水印预处理模块、第一卷积层、特征增强模块、软融合模块、Transformer块和第二卷积层；

所述原始水印输入所述水印预处理模块进行扩展，获取初始水印特征图，所述原始图像输入所述第一卷积层进行卷积处理，获取初始图像特征图；

将所述初始水印特征图和所述初始图像特征图输入所述特征增强模块，获取增强特征图；

将所述增强特征图和所述初始水印特征图输入所述软融合模块，获取带水印特征图；

将所述带水印特征图通过Transformer块后与所述原始图像进行连接，再通过所述第二卷积层进行卷积处理，获取含水印的所述编码图像。

可选地，所述编码器的编码过程表示为：

其中，I _c为原始图像，I _e为编码图像，E为编码器，W为原始水印，θ _E为编码器的参数，L _E为编码损失。

可选地，所述解码器进行水印提取的过程表示为：

其中，W为原始水印，W ^，为解码器提取的水印，I _n为噪声图像，θ _D为解码器的参数，D为解码器，

为解码损失。

可选地，所述鉴别器对所述编码图像进行鉴别包括：

所述鉴别器对所述编码图像进行识别；所述编码器阻止所述鉴别器对所述编码图像进行识别；

所述鉴别器对所述编码图像进行识别表示为：

其中，θ _A为鉴别器的参数，I _e为编码图像，A为鉴别器，θ _E为编码器的参数，W为原始水印，E为编码器，I _c为原始图像，

为鉴别损失；

所述编码器阻止所述鉴别器对所述编码图像进行识别表示为：

其中，

为对抗损失。

可选地，构建基于Transformer的所述端到端水印模型还包括：对所述端到端水印模型设置总损失函数；

所述总损失函数包括：编码损失，对抗损失和解码损失；

所述总损失函数为：

其中，L _overall为总损失函数，λ ₁为编码损失权重，λ ₂为对抗损失权重，λ ₃为解码损失权重，L _E为编码损失，L _A为对抗损失，L _D为解码损失。

可选地，获取所述初始水印特征图包括：

将所述原始水印重塑为预设大小的矩阵；

使用pixel-shuffle操作进行对所述矩阵进行上采样，并利用Transformer块操作对所述矩阵自注意提取有效特征，获取所述初始水印特征图；

所述矩阵的预设大小为：

其中，L为水印长度，h×w为水印大小，K ₃为整数，表示pixel-shuffle和Transformer块的次数，H为原始图像的高，W为原始图像的宽。

可选地，通过所述特征增强模块获取所述增强特征图的过程表示为：

其中，F _F为增强特征图，

为初始水印特征图生成的2D 查询张量，/>

为初始图像特征图生成的2D 键张量，/>

为初始图像特征图生成的2D 值张量，F _c为初始图像特征图，/>

为注意力图，/>

为激活函数，d为键张量的维度。

可选地，通过所述软融合模块获取所述带水印特征图的过程表示为：

其中，

和/>

分别表示初始水印和原始图像的注意力图，P(.)为线性映射，/>

为特征拼接操作，/>

为增强特征图生成的2D 查询张量，F _wc为带水印特征图。

与现有技术相比，本发明具有如下优点和技术效果：

本发明为了避免水印的过度冗余，采用基于transformer的水印预处理模块，以自动学习的方式扩展水印，而不是简单的水印复制，提取有效的水印特征进行融合，增强编码图像。为了提取适合水印嵌入的原始图像特征，通过捕获水印与原始图像特征之间的交叉特征依赖关系，设计了特征增强模块，指导水印融合。更重要的是，为了克服硬融合的缺点，采用了软融合模块，计算混合注意提取有效特征并进行水印融合。具体来说，计算自注意，分别提取水印和原始图像的主要特征，同时计算交叉注意，使水印嵌入在鲁棒性和图像质量方面更好。实验结果表明，本发明在获得高质量的编码图像的同时，能够抵抗大部分的图像攻击。与现有技术方法相比，性能更好。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为现有的基于DNN的水印模型示意图；其中，（a）为现有基于DNN水印模型的通用框架示意图，（b）为硬融合框架示意图，（c）为增加水印处理器模块的硬融合框架示意图；

图2为本发明实施例的模型的整体框架示意图；

图3为本发明实施例的特征增强模块网络框架示意图；

图4为本发明实施例的软融合模块网络框架示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明提供了基于Transformer的软融合鲁棒图像水印方法，包括：

基于所述鉴别器，对所述编码图像进行鉴别。

进一步地，所述编码器包括：水印预处理模块、第一卷积层、特征增强模块、软融合模块、Transformer块和第二卷积层；

进一步地，所述鉴别器对所述编码图像进行鉴别包括：

进一步地，构建基于Transformer的所述端到端水印模型还包括：对所述端到端水印模型设置总损失函数；

所述总损失函数包括：编码损失，对抗损失和解码损失。

进一步地，获取所述初始水印特征图包括：

将所述原始水印重塑为预设大小的矩阵；

使用pixel-shuffle操作进行对所述矩阵进行上采样，并利用Transformer块操作对所述矩阵自注意提取有效特征，获取所述初始水印特征图。

实施例

如图2所示，本实施例提供一种基于Transformer的端到端水印模型，即WFormer，该模型对不同的图像攻击具有鲁棒性，且图像失真较小。为了增加有效的水印冗余，采用了水印预处理模块。此外，为了进一步提高水印的性能，设计了更好的水印融合特征增强模块(FEM)，设计了挖掘自注意和交叉注意嵌入水印的软融合模块(SFM)。WFormer包括：编码器、解码器、噪声层和鉴别器。

1.WFormer的整体描述

设原始水印为

，其L表示水印长度，设原始图像为/>

，其中H和W表示空间维度大小。如图2所示，整个框架由四部分组成：编码器、解码器、噪声层和鉴别器。参数为θ _E的编码器E，将原始图像I _c和水印W进行融合，以生成编码图像I _e。在噪声层N中，对编码图像I _e随机添加不同的噪声，以生成噪声图像In进行鲁棒性训练。参数为θ _D的解码器D，从噪声图像I _n中提取水印；参数为θ _A的鉴别器A用于对I _e是否接近I _c给出反馈。下面将对每个部分进行详细描述。

编码器E：E主要由水印预处理模块(WPM)、特征增强模块(FEM)和软融合模块(SFM)组成。首先使用WPM扩展W得到特征图

，其中C为通道数。同时，对原始图像I _c进行3×3卷积运算，生成初始图像特征图/>

，该特征图不能表示图像的主能量。然后将Fc和Fw输入到K ₁个重复的FEM，去生成Ic的增强特征图/>

。然后，将F _F和Fw输入到SFM进行融合，生成带水印的特征图/>

。最后，Fwc通过跳跃式连接与Ic连接，再通过3×3卷积层，生成含水印图像。在下面的小节中，分别描述了WPM、FEM和SFM。

编码器的训练目标是通过更新参数θE来最小化Ic与Ie之间的L2距离，使其在视觉上相似，该过程可以表示为：

(1)

其中E(.) 表示编码过程。

噪声层N：在N中，通过添加不同的可微图像处理操作，编码图像I _e会失真为不同版本的噪声图像I _n，并且I _n将被解码器进一步解码。因此，训练采用的噪声将决定最终水印模型的鲁棒性。常用的失真包括“JPECompression”、“Crop”、“GaussianNoising”、“Salt&Pepper”和“MedianFiltering”等。

解码器D：首先对噪声图像I _n进行3×3卷积运算，然后用K ₂个pixel-unshuffle和Transformer块去生成

。最后，对F _d使用一个3×3卷积将多通道张量转化为1通道，并对其进行重塑以获得解码后的水印/>

。

解码器训练的目的是通过更新参数θ _E来最小化W和

之间的L ₂距离，该过程可以表示为：

(2)

其中，D(.)表示编码过程。

鉴别器：鉴别器由4个卷积层和一个全局平均池化层组成。鉴别器作为编码器的对手，通过更新参数θ _D，试图识别出编码图像，该过程可以表示为：

(3)

另一方面，编码器通过更新参数θ _E来阻止鉴别器，该过程可以表示为：

(4)

WFormer对于编码器和解码器的最终损失函数包括图像质量损失，对抗损失和解码损失，可以表示为：

(5)

其中，L _overall为总损失函数，λ ₁为编码损失权重，λ ₂为对抗损失权重，λ ₃为解码损失权重，L _E为编码损失，L _A为对抗损失，L _D为解码损失；λ₁，λ₂和λ₃根据实验结果分别设置为3，10和0.0001。而对于鉴别器的损失为L _Dis。

2.1.水印处理模块

首先将水印重塑为大小为h×w的矩阵，其中h×w=L。然后使用pixel-shuffle操作进行上采样，并利用Transformer块操作自注意提取有效特征。重复这些操作，直到得到F _w。在扩展过程中，由于pixel-shuffle操作会导致输入张量的宽度和高度加倍，所以一般要求水印长度L和原始图像的形状H×W遵循以下关系：

(6)

其中K ₃是由L、H和W决定的整数，表示pixel-shuffle和Transformer块的次数。

2.2.特征增强模块

如图3所示，首先通过层归一化、1×1卷积和3×3深度卷积对F _w进行转换来生成查询 Q _w张量，对F _c进行转换来生成键K _c和值V _c张量，这里Q _w，K _c和V _c的形状是

。然后，为了执行注意力计算，将Q _w，K _c和V _c分别重塑为/>

和/>

。最后，计算交叉注意力，该过程可以表示为：

其中d表示键张量的维度，Attention(.) 主要挖掘水印与原始图像特征之间的跨模态特征依赖关系，以增强特征与水印的融合。

2.3交互融合模块

如图4所示，首先对F _w和F _F执行与特征提取增强模块相同的操作，分别得到水印的查询Q _w、键K _w和值V _w张量以及图像的查询Q _c、键K _c和值V _c张量。然后将它们分别重塑为

，/>

和/>

。最后将水印和原始图像的键和值张量进行concatenation操作，以执行自注意力和交叉注意力计算，该过程可以表示为：/>

其中

和/>

分别表示水印和原始图像的注意力图，它既包含自注意力又包含交叉注意力。最后，将重塑后的水印注意力图和原始图像特征图进行特征拼接操作，并通过线性投影进行处理，该过程可以表示为：

其中P(.) 表示线性映射。

3.实验

3.1.特定失真比较

为了测试提出框架的图像视觉质量和鲁棒性，对下面8种不同类型的失真进行了实验：“JPEG”，“Crop”，“Cropout”，“Dropout”，“Gaussian Noise”，“Gaussian Filter”，“Salt&Pepper”和“Median Filter”。对于每一种失真，训练一个特定的模型，并与MBRS进行比较。

a)JPEG压缩：JPEG压缩总是出现在图像保存和格式转换中。在训练过程中，噪声层中使用失真方法，并设置质量因子QF=50。对于测试过程，设置JPEG压缩攻击的QF从40到90，以显示其鲁棒性，实验结果如表1不同方法在JPEG压缩上的PSNR,SSIM以及BER比较所示。

表1

如表1所示，提出的方法生成的含水印图像具有最高的PSNR值，比MBRS方法至少大2dB，且SSIM相似。在这样的PSNR和SSIM水平下，提出的方法在不同QF下仍然具有最小的误码率，这表明对JPEG压缩具有很好的鲁棒性。其中，MBRS为：利用真实的和模拟JPEG压缩的小批量增强DNN水印的鲁棒性。

b)Crop失真：Crop是指按一定ratio随机裁剪出图像块，并用黑色图像块替换裁剪区域以外区域的失真。在训练阶段，将随机裁剪的ratio固定为20%。对于测试过程，设置Crop失真的ratio从5%到30%，实验结果如表2不同方法在Crop失真上的PSNR,SSIM以及BER比较所示。

表2

如表2所示，提出的方法生成的含水印图像具有最高的PSNR和SSIM值，特别是PSNR值比MBRS方法至少大5dB。此外，对于所有的裁剪ratio，提出的方法保证了最小的误码率，这表明对Crop失真具有鲁棒性。并且随着裁剪ratio的降低，该方法的优势越来越明显。

c)Cropout失真：与Crop失真不同，Cropout是指按一定ratio随机裁剪出图像块，并将图像块以外区域替换为原始图像的操作。在训练阶段，将Cropout的ratio固定为40%。对于测试过程，设置Cropout的ratio从20%到70%，实验结果如表3不同方法在Cropout失真上的PSNR,SSIM以及BER比较所示。

表3

如表3所示，提出的方法生成的含水印图像具有最高的PSNR和SSIM值，特别是PSNR值比MBRS方法至少大3dB，并且SSIM也超过了0.996。此外，对于所有的裁剪ratio，提出的方法的误码率明显小于其它方法，这表明对Cropout失真具有很强的鲁棒性。

d)Dropout失真：与Crop和Cropout失真不同，Dropout表示按ratio随机选取图像像素，并将其余像素替换为原始图像的操作。在训练阶段，将Dropout的ratio固定为40%。对于测试过程，设置Dropout的ratio从20%到70%，实验结果如表4不同方法在Dropout失真上的PSNR,SSIM以及BER比较所示。

表4

/>

如表4所示，与MBRS方法相比，提出的方法生成的含水印图像具有最高的PSNR和SSIM值。对于不同的ratio，提出的方法在低ratio下具有更低的误码率，这表明该方法对于高强度的Dropout失真具有更好的鲁棒性。

e)GaissianNoise：GaissianNoise是指它的概率密度函数服从高斯分布的一类噪声，通常出现在消息传输中。在训练阶段，将GaissianNoise的variance固定为0.04。对于测试过程，设置GaissianNoise的variance从0.01到0.06，实验结果如表5不同方法在GaissianNoise上的PSNR,SSIM以及BER比较所示。

表5

如表5所示，提出的方法在PSNR指标上与MBRS取得了相似的性能，在SSIM指标上略低于MBRS。对于不同的variance，提出的方法都表现出最低的误码率，这表明对GaissianNoise具有很好的鲁棒性。

f)GaissianBlur：对于GaissianBlur失真，在训练阶段，将variance固定为2。在测试过程中，设置GaissianBlur的variance从0.001到2.5，实验结果如表6不同方法在GaissianBlur上的PSNR,SSIM以及BER比较所示。

表6

如表6所示，与其它方法相比，提出的方法生成的含水印图像具有最高PSNR和SSIM值。对于不同的variance，提出方法的误码率也都低于其它方法，这表明对GaissianBlur具有很强的鲁棒性。

g)Salt&PepperNoise：Salt&PepperNoise是指将一定ratio的图像像素随机采样为噪声，与GaissianNoise类似，Salt&PepperNoise也通常出现在信息传输中。在训练阶段，将ratio固定为0.04。在测试过程中，设置Salt&PepperNoise的ratio从0.01到0.06，实验结果如表7不同方法在Salt&PepperNoise上的PSNR,SSIM以及BER比较所示。

表7

如表7所示，提出的方法生成的含水印图像具有最高的PSNR和SSIM值，特别是PSNR值比其他方法至少大2dB。对于不同的ratio，提出方法的误码率也明显低于其它方法，这表明对Salt&Pepper Noise具有很强的鲁棒性。

h)Median Blur：Median Blur是一种常用的图像处理操作。在训练阶段，将模糊windows大小固定为7×7。在测试过程中，设置Median Blur的windows从3×3到9×9，实验结果如表8不同方法在Median Blur上的PSNR,SSIM以及BER比较所示。

表8

如表8所示，与其它方法相比，提出的方法生成的含水印图像具有最高的PSNR和SSIM值。对于不同的windows，提出方法的误码率都低于其它方法，这表明对MedianBlur具有优异的鲁棒性。

以上实验结果表明，提出的模型对各种不同类型的失真具有较强的鲁棒性，并且生成的含水印编码图像具有较好的视觉质量。

3.2.组合失真比较

在现实图像传输场景中，通常会受到各种不同的噪声攻击，因此一个优秀的模型应该能抵抗不同噪声的攻击，而不是只对一种攻击具有鲁棒性。为此，训练了一个组合失真模型。具体来说，噪声层中包括JPEG-Mask(QF=50)，real JPEG(QF=10)，Identity，Crop(Ratio=0.0225)，Cropout(Ratio=0.2)，Gaussian Blur(Variance=2)，其中Identity表示不对图像做任何处理，每个训练小批次随机选择其中的一种失真。提出的方法与HiDDen和MBRS进行比较，为了比较的公平性，在含水印图像PSNR=33.5dB的情况下进行以下6种失真测试：Identity，Crop(Ratio=0.035)，Cropout(Ratio=0.3)，Dropout(Ratio=0.3)，Gaussian Blur(Variance=2)和JPEG(QF=50)，实验结果如表9不同方法在6种失真下的EBR比较所示。

表9

如表9所示，除了在Identity失真上的误码率都为0.0%以外，本实施例所提出的模型在所有其它测试失真中都取得了最好的性能。特别地，在Cropout(Ratio=0.3)，Dropout(Ratio=0.3)上的误码率为0.0%，能够完整提取水印信息，在Crop(Ratio=0.035)上的误码率为2.83%，比其它方法的误码率最少低了1.5%，在JPEG(QF=50)上的误码率比其它方法的误码率最少低了2%。此外，的模型能够嵌入64bit的水印信息，在水印容量方面都高于其它方法。以上结果表明，提出的模型能够在水印容量更大的情况下，获得更强的鲁棒性。其中，MBRS为：利用真实的和模拟JPEG压缩的小批量增强DNN水印的鲁棒性；HiDDen为:用深度网络隐藏数据。

本实施例提出了一种新的基于transformer的水印融合策略，即WFormer。为了避免水印的过度冗余，采用基于transformer的水印预处理模块，以自动学习的方式扩展水印，而不是简单的水印复制，提取有效的水印特征进行融合，增加编码图像。为了提取适合水印的原始图像特征，通过捕获水印与原始图像特征之间的交叉特征依赖关系，设计了特征增强模块，指导水印融合。更重要的是，为了克服硬融合的缺点，采用了软融合模块，计算混合注意提取有效特征并进行水印融合。具体来说，计算自注意，分别提取水印和原始图像的主要特征，同时计算交叉注意，使水印嵌入在鲁棒性和图像质量方面更好。实验结果表明，该算法在获得高质量的编码图像的同时，能够抵抗大部分的图像攻击。与最先进的现有技术方法相比，性能更好。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。