CN114066709A

CN114066709A - 一种基于深度学习的抗拍屏鲁棒水印系统及算法

Info

Publication number: CN114066709A
Application number: CN202111366216.6A
Authority: CN
Inventors: 秦川; 李晓萌
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-02-18

Abstract

本发明公开了一种基于深度学习的抗拍屏鲁棒水印系统及算法，包括：编码器、与所述编码器信号连接的鉴别器与噪声网络模块及与所述噪声网络模块信号连接的解码器；所述编码器用于用待嵌入的秘密信息构造信息膜；所述鉴别器用于来区分图像是否被编码；所述噪声网络模块用于对编码图像进行攻击；所述解码器用于利用被攻击的编码图像来恢复嵌入的秘密信息.根据本发明，在保证一定图像质量的同时具有更强的鲁棒性和实用性，输出得到只含有信息的信息膜，可以附加在任意图像上，更具有实际应用价值，在各种真实的拍摄屏幕场景下也可以达到几乎百分之百的提取准确率。

Description

一种基于深度学习的抗拍屏鲁棒水印系统及算法

技术领域

本发明涉及多媒体信息安全的技术领域，特别涉及一种基于深度学习的抗拍屏鲁棒水印算法系统及。

背景技术

近年来，随着互联网的发展以及数字移动设备的普及，我们生活在一个信息爆炸的时代，人们已经习惯于出门携带手机作为数据处理的便携终端。借助智能手机的摄像功能，扫码付款、扫码点单、物品识别、物流信息查询等与数字图像处理技术息息相关的应用已经融入我们的生活中，成为不可分割的一部分。另一方面，由于数字媒体的获取变得几乎没有成本，这就导致数字媒体非法获得、盗取和篡改也愈演愈烈，不仅给媒体作品的作者带来困扰，有时甚至会影响国家信誉和安全，因此迫切的需要版权保护技术。

对打印的图像进行扫描，对打印或者显示在显示器上的图像进行拍摄，都是日常生活中常见的图像重获手段。然而当互联网中的图像经过这种重获过程，会引入多种复杂噪声，图像中的水印信息往往会丢失，从而导致无法正确提取信息。在这种情况下，如何设计能够抵抗现实世界中的复杂噪声的鲁棒性水印成为数字水印技术领域的一大难点。

近年来，深度卷积神经网络在图像处理和图像分类领域取得了巨大进步，亦有学者提出在数字图像信息隐藏领域应用深度卷积神经网络，取得了优异的成果，与传统方法相比，它具有更强的鲁棒性可以抵抗多种噪声同时具有不错的图像质量。但是他们通常根据载体图像来进行编码嵌入水印，实用性不强。本文将以基于深度卷积神经网络的抗屏幕拍摄算法作为研究对象，探讨如何使用深度卷积神经网络：1.搭建针对抗屏幕拍摄过程的编码和提取网络；2.编码网络只编码秘密信息，而与载体图像无关；3.在确保鲁棒性的同时降低水印图像的失真。

发明内容

针对现有技术中存在的不足之处，本发明的目的是提供一种基于深度学习的抗拍屏鲁棒水印算法，在保证一定图像质量的同时具有更强的鲁棒性和实用性，输出得到只含有信息的信息膜，可以附加在任意图像上，更具有实际应用价值，在各种真实的拍摄屏幕场景下也可以达到几乎百分之百的提取准确率。为了实现根据本发明的上述目的和其他优点，提供了一种基于深度学习的抗拍屏鲁棒水印系统，包括：

编码器、与所述编码器信号连接的鉴别器与噪声网络模块及与所述噪声网络模块信号连接的解码器；

所述编码器用于用待嵌入的秘密信息构造信息膜；

所述鉴别器用于来区分图像是否被编码；

所述噪声网络模块用于对编码图像进行攻击；

所述解码器用于利用被攻击的编码图像来恢复嵌入的秘密信息。

一种基于深度学习的抗拍屏鲁棒水印算法，包括以下步骤：

S1、将随机二进制信息m₀输入编码器，所述m₀首先通过一个线性全连接层，处理成一个50*50*3的张量，再上采样成400*400*3的张量，这种信息的预处理方式有助于其收敛；

S2、构建编码网络，编码网络的作用是生成一张用于附加在待编码图像上的信息膜，应用几个卷积层和Relu层对步骤1产生的张量进行向下采样四次得到50*50*3的张量，然后再进行向上采样四次恢复到原来的尺寸，输出一个尺寸为400*400*3的信息膜；

S3、将待编码图像与步骤S2中生成的信息膜相加即可得到水印图像；

S4、构建噪声网络，用一系列数学模型来模拟由物理成像而引起的畸变；

S5、将步骤S3生成的水印图像输入到步骤S4构建的噪声网络中；

S6、构建解码网络，通过解码器将编码后的图像向下采样为一系列数字，然后分成二进制；

S7、将步骤S5产生的加噪水印图像作为解码网络的输入，馈送入解码网络进行解码，得到嵌入的水印信息。

优选的，所述步骤S4中包括透视变换、运动模糊、随机离散噪声、色彩失真、JPEG压缩噪声五种噪声，用于来模拟真实拍摄屏幕过程中会产生的噪声。

优选的，所述透视变换为在拍摄屏幕过程中，摄像头没有对齐图像可能会造成图像发生形变，本发明使用随机的单应性透视变换来映射原图和形变的图像，把一个图像投影到一个新的视平面的过程，通用的变换公式为：

其中(u，v)为原始图像像素坐标，

为变换之后的图像像素坐标，在训练过程中，将四个角的透视变换程度控制在图像长宽的10％以内，并且在变换时使用双线性插值法，对需要填充的区域进行补全，经过透视变换后的图像，记为I_a。

优选的，所述运动模糊为在拍摄屏幕过程中，由于相机运动或者不准确的对焦都可能导致拍摄出的图像模糊，设置了一个值来控制模糊核的方差，以生成7像素宽度的直线高斯模糊核G，并将旋转角度控制在0和2π之间。模糊图像I_b可用以下公式表示：

其中(i，j)表示加上模糊噪声后的图像I_b的坐标，(m，n)表示旋转后的高斯卷积核的坐标。

优选的，所述随机离散噪声为相机系统成像时会引入各种噪声，如光子噪声、暗噪声和散粒噪声等，通过高斯噪声(N_g)模型，添加噪声后的图像I_c可表示为：

I_c＝I_b+N_g。

优选的，所述色彩失真为与整个RGB颜色空间相比，打印机和显示器的色域有限，通过一系列随机颜色变换来近似这些失真，如色相调整：色彩补偿由随机设定在-0.1到0.1之间的参数乘上的I_c的RGB分量生成，记为I_d，亮度调整：使用线性变换生成亮度调整的值，公式如下：I_br.＝I_d.m+b，将b的值限制在-0.3到0.3之间，m的值限制在0.5到1.5之间，饱和度调整：我们先将图像从RGB色域转化到YUV色域，其中Y分量代表图像的亮度信息，记为I_y，然后将原图与Y分量进行线性组合。

最终图像可用以下公式表示为：

I_e＝(1+t).(I_br+I_d)+t.I_y。

优选的，所述JPEG压缩噪声为通过在图像的每个8×8块上计算离散余弦变换(DCT)，并舍入到最接近的整数来量化实现的，如下公式：

其中q(x)是JPEG压缩后的结果，x表示该点像素值。

步骤S7中，解码网络的输入是加噪水印图像，配合相应的BCH纠错码，可以正确提取水印信息。

本发明与现有技术相比，其有益效果是：使用深度学习算法，构建了一个端到端的神经网络架构，利用大数据图像集进行驱动，具有更好的普适性。编码网络用来生成只含有水印信息的信息膜，可以附加到任意图像上，与其他方法不同的是，信息膜的生成不需要载体图像参与，所以更具有实际应用价值。然后信息膜与待编码图像相加就产生了水印图像。为了提高水印图像在真实情况下的鲁棒性，在深度卷积网络训练过程中，需要加入噪声网络，使得之后的水印提取网络可以对噪声产生鲁棒性。我们使用一系列数学模型来模拟拍摄屏幕过程中产生的噪声，实验证明可以更加可靠的传输水印信息。解码网络的主要作用是从加了噪声后的水印图像中，提取原始的信息。为了使二维的水印图像变为一维的01数字串，我们使用几层卷积层，将图像尺寸缩小，再经由全连接层映射到一维，为了抵抗真实环境中会产生的形变，在将编码噪声图像馈送入解码器网络之前使用空间变换网络(STN)，STN会将图像进行仿射变换，修正形变。并且训练过程中引入基于图像JND的残差图监督，可以进一步减小覆盖信息膜后的水印图像失真。所以本发明相较于传统水印算法和其他基于深度学习的水印算法在保证一定图像质量的同时具有更强的鲁棒性和实用性。

附图说明

图1为根据本发明的基于深度学习的抗拍屏鲁棒水印算法的编码网络图；

图2为根据本发明的基于深度学习的抗拍屏鲁棒水印算法的解码网络图；

图3为根据本发明的基于深度学习的抗拍屏鲁棒水印算法的所使用的端到端网络框架图；

图4为根据本发明的基于深度学习的抗拍屏鲁棒水印算法的部分待嵌入图像；

图5为根据本发明的基于深度学习的抗拍屏鲁棒水印算法的含嵌入信息的信息膜图；

图6为根据本发明的基于深度学习的抗拍屏鲁棒水印算法的部分待嵌入图像附加信息膜的水印图像；

图7为根据本发明的基于深度学习的抗拍屏鲁棒水印算法的不同角度下的屏幕拍摄实验图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1-7，一种基于深度学习的抗拍屏鲁棒水印系统，包括：编码器、与所述编码器信号连接的鉴别器与噪声网络模块及与所述噪声网络模块信号连接的解码器；

所述编码器用于用待嵌入的秘密信息构造信息膜；

所述鉴别器用于来区分图像是否被编码；

所述噪声网络模块用于对编码图像进行攻击；

实施例

步骤1：随机二进制信息m₀作为编码器的输入，首先通过一个线性全连接层，处理成一个50*50*3的张量，然后再上采样成400*400*3的张量；

步骤2：搭建编码网络，由图1所示，应用几个卷积层和Relu层对步骤1产生的张量进行向下采样四次得到50*50*3的张量，然后再进行向上采样四次恢复到原来的尺寸，输出是一个尺寸为400*400*3的信息膜。设待编码图像为I_o，信息膜附加在I_o上生成水印图像I_en，将两张图像都从RGB色域转化到YUV色域，使用L₂损失函数评估两张图像的相似度：

L₂(I_o，I_en)＝||I_o-I_en||²/(C·H·W)

其中C·H·W是图像的尺寸。在此基础上，引入图像感知损失函数进一步对图像质量进行监督，可表示为LPIPS(I_o，I_en)。为了可以最大程度上减少水印图像的失真，加入基于图像JND的残差图监督函数L_jnd，综上所述，编码网络的多任务损失函数可用以下式子表示：

L_en＝k₁·L₂+k₂·L_jnd+k₃·LPIPS(I_o，I_en)

步骤3：搭建噪声网络，使用一系列数学模型模拟真实物理世界的打印成像、拍摄成像过程，包括透视变换、运动模糊、随机离散噪声、色彩失真、JEPG压缩。

步骤4：搭建解码网络，如图2所示。解码网络的作用是提取水印图像中嵌入的信息。设原始信息为M₀，编码后的水印图像经过解码器后提取出的水印信息为M_de，使用交叉熵公式计算两组信息的差异：

其中M₀(n)代表原始水印信息的第n位，M_de(n)代表提取信息的第n位，s代表信息长度。信息熵越大意味着两段信息的差异越大，故该网络的目标是将该损失函数的输出值尽可能地小。

步骤5：端到端的网络模型搭建完毕，如图3所示。设置模型可嵌入信息位数为32位，其中包含16位信息位(两个字符)和16位纠错位，使用COCO数据集作为训练过程中待编码的图像，并将图像大小调整到400*400进行训练；

步骤6：使用训练好的模型，进行水印嵌入，首先设置嵌入信息为xm，生成相应的信息膜，如图2所示，并得到覆盖信息膜的水印图像，如图3所示；

步骤7：使用训练好的模型对水印图像进行解码，配合BCH(32，16)纠错码可以纠错3位，实验证明正确恢复水印信息，这32位信息位，可以组成2³²种不同信息，对一般应用而言已经足够。

根据上述的步骤进行实验。对于水印图像的质量，使用峰值信噪比(PSNR)、结构化相似度(SSIM)和图像感知相似度(LPIPS)作为衡量指标。PSNR指标和SSIM指标越大表明图像相比原始载体图像的失真越小，LPIPS指标是图像的感知相似度，数值越小，视觉效果越好，更能反映人眼的视觉感官。在实验过程中，我们对60张原始图片，如图4所示，覆盖生成的嵌入信息为“xm”的信息膜，如图5所示，对得到的相应的水印图像，如图6所示，分别计算它们的PSNR、SSIM、LPIPS，最后取平均，结果如表1所示：

表1水印图像质量

指标	值
		PSNR	31.825145
SSIM	0.952779
		LPIPS	0.014151

对于真实环境和数字环境下的鲁棒性测试，还设计了两个指标来衡量，一个是直接解码后的误码率：

其中，N_bc代表每个解码后的比特串正确的比特个数，L_bs是每个比特串的长度

另一个是经过纠错编码还原后的平均准确率ε2：

其中，N表示测试图像的数量，N_c表示正确提取水印信息的图像数量。

数字环境下的鲁棒性实验可以从一定程度上反映出深度学习模型对于噪声的抵抗性。在该实验中我们选取了五种在拍摄屏幕过程中可能出现的噪声，包括：高斯噪声、缩放噪声、边缘覆盖、中心裁剪、JEPG压缩。对于高斯噪声攻击，高斯核的大小直接决定了对图像的破坏程度，故在实验中分别选用了长宽为3、5、7、9、11、23的高斯核，作为添加噪声运算时的卷积核。对于图像缩放攻击，图像尺寸决定了攻击的强弱，由于网络的输出最后为400*400的三通道图像，为了让缩放后的长宽不出现小数，在实验过程中，选取4/5，3/4，3/5，1/2，2/5，1/4，1/5作为缩放尺寸(即缩放后的图像大小为320*320，300*300，240*240，200*200，160*160，100×100，80×80)。对于边缘覆盖攻击，实验中我们采用四周加边框的方式为图像增加边缘遮挡，遮挡时使用的像素值RGB为(0，0，0)，加框的厚度分别为10、20、30、40和50个像素。对于中心裁剪攻击，我们选用不同的尺寸大小的黑色方块区域，遮盖水印图像的中心部分。实验中我们选用20×20、40×40、60×60、80×80、100×100和120×120的黑色像素方块遮盖嵌入水印后的图像的中心位置。对于JPEG压缩，影响压缩后图像质量的参数是质量因子，在实验中我们选取40、50、60、70、80和90作为JPEG质量因子取值。我们对覆盖了嵌入信息为“xm”的59张水印图像进行以上五种攻击的数字环境下鲁棒性试验，直接解码平均误码率ε1和经过纠错编码还原后的平均准确率ε2结果如表2、表3、表4、表5、表6所示：

表2模型在不同尺寸高斯模糊核攻击下的平均误码率ε1及平均准确率ε2

高斯核	平均误码率ε1	平均准确率ε2
			3	0.003939	100％
5	0.007878	99.1597％
			7	0.016817	95.7983％
9	0.031513	89.916％
			11	0.056197	76.4706％

表3模型在不同尺寸缩放攻击下的平均误码率ε1及平均准确率ε2

缩放	平均误码率ε1	平均准确率ε2
			320*320	0.002889	100％
280*280	0.003676	100％
			240*240	0.003151	100％
200*200	0.003676	100％
			160*160	0.004464	100％
120*120	0.006828	100％
			80*80	0.012605	99.1597％

表4模型在不同尺寸边缘覆盖攻击下的平均误码率ε1及平均准确率ε2

表5模型在不同尺寸中心裁剪攻击下的平均误码率ε1及平均准确率ε2

中心裁剪	平均误码率ε1	平均准确率ε2
			20	0.002626	100％
40	0.002889	100％
			60	0.004989	100％
80	0.005252	100％
			100	0.007090	98.3193％
120	0.008403	99.1597％

表6模型在不同JEPG压缩因子攻击下的平均误码率ε1及平均准确率ε2

JEPG压缩	平均误码率ε1	平均准确率ε2
			40	0.004202	100％
50	0.004464	100％
			60	0.003676	100％
70	0.004727	100％
			80	0.002889	99.1597％
90	0.002889	100％

真实环境下的鲁棒性实验，实验过程中采用的水印图像是通过真实的拍摄屏幕得到的，真实的拍屏过程会产生更为复杂的噪声，实验结果更能证明模型的鲁棒性。为了使实验结果更具有说服性，我们把实验分为四组，分别是：不同距离下拍摄、不同角度下拍摄、不同光照条件下拍摄、不同设备拍摄。对于不同距离下拍屏实验，我们在150lux光照条件下使用iPhone xs拍摄三组水印图像，每组20张，分别是：18cm、35cm和55cm。对于不同角度下拍屏实验，如图7所示，我们在150lux光照条件下，将每次拍摄距离固定为35cm，使用iPhonexs拍摄六组水印图像，每组20张，分别是：左偏15度、左偏30度、左偏45度以及右偏15度、右偏30度、右偏45度。对于不同光照条件下拍屏实验，我们将每次拍摄距离固定为35cm，使用iPhone xs拍摄3组水印图像，分别是50lux、150lux和500lux。对于不同拍摄设备下拍屏实验，我们在15lux光照条件下，将每次拍摄距离固定为35cm，分别使用iPhone xs、HUAWEIP40 Pro+、小米11拍摄三组水印图像，每组20张。我们对覆盖了嵌入信息为“xm”的20张水印图像进行以上四种条件下的真实环境下鲁棒性试验，直接解码平均误码率ε1和经过纠错编码还原后的平均准确率ε2结果如表7、表8、表9、表10所示：

表7模型在不同距离下实际拍摄屏幕后的平均误码率ε1及平均准确率ε2

拍摄距离	平均误码率ε1	平均准确率ε2
			18cm	0.0516	85％
35cm	0.0125	100％
			55cm	0.0312	95％

表8模型在不同角度下实际拍摄屏幕后的平均误码率ε1及平均准确率ε2

拍摄角度	平均误码率ε1	平均准确率ε2
			左偏15度	0.0203	100％
左偏30度	0.0219	100％
			左偏45度	0.0203	100％
右偏15度	0.0016	100％
			右偏30度	0.0016	100％
右偏45度	0.0078	100％

表9模型在不同光照条件下实际拍摄屏幕后的平均误码率ε1及平均准确率ε2

光照条件	平均误码率ε1	平均准确率ε2
			50lux	0.0187	100％
150lux	0.0125	100％
			500lux	0.0187	100％

表10模型在不同拍摄设备下实际拍摄屏幕后的平均误码率ε1及平均准确率ε2

拍摄设备	平均误码率ε1	平均准确率ε2
			iPhone xs	0.0125	100％
华为P40 Pro	0.0109	100％
			小米11	0.0250	100％

实施例的作用与效果

根据本实施例所涉及的基于深度学习的抗拍屏鲁棒水印算法，编码网络用来生成仅含有信息的信息膜，信息膜与任意图像叠加产生水印图像，噪声层模拟了屏幕拍摄过程中可能产生的噪声，解码网络用来解码经过噪声层的水印图像。本实施例分别对模型进行了数字环境下鲁棒性实验和真实环境下鲁棒性实验，实验结果显示，相比传统基于图像处理的抗屏幕拍摄方法，基于深度神经网络训练后的抗屏幕拍摄水印算法，其在信息鲁棒性和水印图像视觉质量等指标上表现更优异，在各种复杂的真实拍摄屏幕情况下也可以实现近乎100％的解码准确率。并且，本发明与其他基于深度学习的抗屏幕拍摄方法不同的是，信息膜的生成仅需要嵌入信息的参与，这意味着它可以叠加在任意原始图像上，所以本发明提出的方法更具有实际应用价值。

这里说明的设备数量和处理规模是用来简化本发明的说明的，对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于深度学习的抗拍屏鲁棒水印系统，其特征在于，包括：

所述编码器用于用待嵌入的秘密信息构造信息膜；

所述鉴别器用于来区分图像是否被编码；

所述噪声网络模块用于对编码图像进行攻击；

2.如权利要求1所述的一种基于深度学习的抗拍屏鲁棒水印算法，其特征在于，包括以下步骤：

S1、将随机二进制信息m₀输入编码器，所述m₀首先通过一个线性全连接层，处理成一个50*50*3的张量，再上采样成400*400*3的张量；

S2、构建编码网络，编码网络的作用是生成一张用于附加在待编码图像上的信息膜；

3.如权利要求2所述的一种基于深度学习的抗拍屏鲁棒水印算法，其特征在于，所述步骤S4中包括透视变换、运动模糊、随机离散噪声、色彩失真、JPEG压缩噪声五种噪声，用于来模拟真实拍摄屏幕过程中会产生的噪声。

4.如权利要求3所述的一种基于深度学习的抗拍屏鲁棒水印算法，其特征在于，所述透视变换为在拍摄屏幕过程中，摄像头没有对齐图像可能会造成图像发生形变，把一个图像投影到一个新的视平面的过程，通用的变换公式为：

其中(u，v)为原始图像像素坐标，

5.如权利要求4所述的一种基于深度学习的抗拍屏鲁棒水印算法，其特征在于，所述运动模糊为在拍摄屏幕过程中，由于相机运动或者不准确的对焦都可能导致拍摄出的图像模糊，设置了一个值来控制模糊核的方差，以生成7像素宽度的直线高斯模糊核G，并将旋转角度控制在0和2π之间。模糊图像I_b可用以下公式表示：

6.如权利要求5所述的一种基于深度学习的抗拍屏鲁棒水印算法，其特征在于，所述随机离散噪声为相机系统成像时会引入各种噪声，如光子噪声、暗噪声和散粒噪声等，通过高斯噪声(N_g)模型，添加噪声后的图像I_c可表示为：

I_c=I_b+N_g。

7.如权利要求6所述的一种基于深度学习的抗拍屏鲁棒水印算法，其特征在于，所述色彩失真为与整个RGB颜色空间相比，打印机和显示器的色域有限，通过一系列随机颜色变换来近似这些失真，如色相调整：色彩补偿由随机设定在-0.1到0.1之间的参数乘上的I_c的RGB分量生成，记为I_d,亮度调整：使用线性变换生成亮度调整的值，公式如下：I_br＝I_d·m+b,将b的值限制在-0.3到0.3之间，m的值限制在0.5到1.5之间,饱和度调整：我们先将图像从RGB色域转化到YUV色域，其中Y分量代表图像的亮度信息，记为I_y，然后将原图与Y分量进行线性组合。

最终图像可用以下公式表示为：

I_e＝(1+t)·(I_br+I_d)+t.I_y。

8.如权利要求7所述的一种基于深度学习的抗拍屏鲁棒水印算法，其特征在于，所述JPEG压缩噪声为通过在图像的每个8×8块上计算离散余弦变换(DCT)，并舍入到最接近的整数来量化实现的，如下公式：

其中q(x)是JPEG压缩后的结果，x表示该点像素值。