CN116939222A

CN116939222A - 基于多尺度注意力机制的视频水印嵌入系统及方法

Info

Publication number: CN116939222A
Application number: CN202310927292.2A
Authority: CN
Inventors: 李健; 左涛; 马宾; 王春鹏; 吴晓明
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-10-24

Abstract

本公开提供了基于多尺度注意力机制的视频水印嵌入系统及方法，涉及数字版权保护技术领域，方法包括获取待嵌入水印的原视频以及待嵌入的水印信息；对所述原视频的视频帧序列进行不同尺度的特征提取，获取原视频的多尺度特征信息；对所述水印信息进行水印信息编码，获取水印信息掩码，将原视频的多尺度特征信息、水印信息掩码以及水印信息进行特征融合，融合生成水印信息残差；使用权重因子控制水印信息残差嵌入强度，与原视频直接相加后生成带水印的视频，完成水印的嵌入过程；本公开提高水印的嵌入效果鲁棒性，也提高了水印的可读性和抗攻击能力。

Description

基于多尺度注意力机制的视频水印嵌入系统及方法

技术领域

本公开涉及数字版权保护技术领域，具体涉及基于多尺度注意力机制的视频水印嵌入系统及方法。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着互联网技术的不断发展与多媒体技术的日益更新，衍生了大量的视频数据，这些视频数据被广泛应用于新闻播报、社交网络上传的短视频和有线网络广播视频节目中。得益于网络的发展和大量的视频数据，用户获得视频数据资源的方式也越来越多，视频处理工具也在不断进步，这使得某些侵权者可以更快更容易地获取、篡改甚至非法传播视频获利，损害了视频所有者的利益。因此，为了保护视频所有者的合法权益，防止数字盗版越发泛滥，现有方法提出多种手段来保护和声明视频的所有权，其中数字视频水印是一种重要且有效的技术手段。近年来，为了应对视频传输中不同类型的水印攻击，如缩放、裁剪和几何攻击等，提出了多种数字图像水印算法，旨在不断提高水印图像的鲁棒性和不可感知性。并对这些算法不断进行改进，以增强水印在面对攻击时的抵抗力、确保水印的稳定性和可靠性。

目前，基于深度学习的数字水印技术正不断发展并应用，取得了显著进展。但是现有的水印嵌入方法仍然存在一些缺点。其中最常见的方法是将二进制数据连接到从图像派生的特征图中，并通过额外的卷积层生成输出。虽然这种方法通过将数据嵌入到图像的特征图中实现了数据的隐藏，但是在嵌入和提取过程中会引入可感知的失真，从而降低数据的隐蔽性。另一种常见的方法是使用注意力机制生成的注意力权重矩阵与水印进行编码。这两种方法都是使用单一的卷积核进行特征提取，使用单一大小的卷积核进行特征提取可能导致感受野有限、缺乏多尺度信息、限制模型表达能力和参数效率较低等问题。

发明内容

本公开为了解决上述问题，提出了基于多尺度注意力机制的视频水印嵌入系统及方法，采用多尺度卷积核，捕捉不同尺度的特征信息；通过组合使用不同大小的卷积核，获得更丰富的特征表示，增强模型的感受野，提高对特征提取的稳定性，降低了水印信息对视频质量的影响，从而使得嵌入后的视频更加接近原视频。

根据一些实施例，本公开采用如下技术方案：

基于多尺度注意力机制的视频水印嵌入方法，包括：

获取待嵌入水印的原视频以及待嵌入的水印信息；

对所述原视频的视频帧序列进行不同尺度的特征提取，获取原视频的多尺度特征信息；对所述水印信息进行水印信息编码，获取水印信息掩码，将原视频的多尺度特征信息、水印信息掩码以及水印信息进行特征融合，融合生成水印信息残差；

使用权重因子控制水印信息残差嵌入强度，与原视频直接相加后生成带水印的视频，完成水印的嵌入过程；

其中，视频帧序列不同尺度的特征提取过程为：首先将视频帧序列输入编码器的特征提取网络的第一多尺度注意力模块中提取单尺度下的特征，输出第一特征图，在输出的第一特征图引入残差连接，即将视频帧序列与生成的第一特征图相加后作为下一个多尺度注意力模块的输入，最终提取出原视频的多尺度特征信息。

根据一些实施例，本公开采用如下技术方案：

基于多尺度注意力机制的视频水印嵌入系统，包括：

数据获取模块，用于获取待嵌入水印的原视频以及待嵌入的水印信息；

特征提取与融合模块，用于对所述原视频的视频帧序列进行不同尺度的特征提取，获取原视频的多尺度特征信息；对所述水印信息进行水印信息编码，获取水印信息掩码，将原视频的多尺度特征信息、水印信息掩码以及水印信息进行特征融合，融合生成水印信息残差；

水印嵌入模块，用于使用权重因子控制水印信息残差嵌入强度，与原视频直接相加后生成带水印的视频，完成水印的嵌入过程；

根据一些实施例，本公开采用如下技术方案：

一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现所述的基于多尺度注意力机制的视频水印嵌入方法。

根据一些实施例，本公开采用如下技术方案：

一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现所述的基于多尺度注意力机制的视频水印嵌入方法。

与现有技术相比，本公开的有益效果为：

本公开提供了一种基于多尺度注意力机制的视频水印嵌入方法，采用基于多尺度注意力机制的视频水印嵌入网络，在视频水印嵌入上具有鲁棒性高且不可感知性高的特点，并在鲁棒性和不可感知性之间取得了良好的平衡。本公开中采用了四个不同尺度的注意力模块进行特征提取，可以更充分得捕捉到不同尺度下的视频帧序列的信息，可以更好地适应不同视频内容和场景的特点。不同尺度的特征提取可以提供更全面、多样化的特征表示，使得水印可以更好地嵌入到不同类型的视频中，提供水印的可嵌入性。另外，多尺度注意力机制可以根据视频的内容和结构，选择性地嵌入水印信息。可以使水印更隐蔽地融入视频中，减少对视频视觉质量的影响，增加水印的隐蔽性。

本公开通过引入多尺度注意力机制，充分利用各个尺度下的视频序列的特征信息，提高水印的嵌入效果、鲁棒性，也提高了水印的可读性和抗攻击能力。这种方案具有广泛的应用前景，尤其在视频版权保护方面具有重要的应用价值，因此有望成为未来数字水印技术的重要发展方向。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例中的视频水印嵌入网络的编码器的网络结构图；

图2为本公开实施例中的视频水印提取网络的解码器的网络结构图；

图3为本公开实施例中的现有基线模型与本公开的模型的裁剪攻击抵抗效果对比图；

图4为本公开实施例中的现有基线模型与本公开的模型的缩放攻击抵抗效果对比图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

本公开的一种实施例中提供了一种基于多尺度注意力机制的视频水印嵌入方法，包括：

步骤一：获取待嵌入水印的原视频以及待嵌入的水印信息；

步骤二：对所述原视频的视频帧序列进行不同尺度的特征提取，获取原视频的多尺度特征信息；对所述水印信息进行水印信息编码，获取水印信息掩码，将原视频的多尺度特征信息、水印信息掩码以及水印信息进行特征融合，融合生成水印信息残差；

对所述原视频的视频帧序列进行不同尺度的特征提取，获取原视频的多尺度特征信息，包括：将原视频的视频帧序列输入至视频水印嵌入网络的特征提取网络中，所述特征提取网络由多个不同尺度的注意力模块构成，多个不同尺度的注意力模块分别使用不同大小的卷积核。

首先由第一多尺度注意力模块提取单尺度下的特征，生成第一特征图，在多尺度注意力模块输出的特征图引入残差连接，即将视频帧序列与生成的第一特征图相加后再输入下一个注意力模块，最终提取出原视频的多尺度特征信息，多尺度特征信息经过Softmax函数处理生成权重矩阵来与水印信息进行编码，水印信息掩码为编码后的水印信息。

步骤三：使用权重因子控制水印信息残差嵌入强度，与原视频直接相加后生成带水印的视频，完成水印的嵌入过程；

将原视频的多尺度特征信息、水印信息掩码以及水印信息进行特征融合，融合生成水印信息残差，包括：首先使用Concat模块将水印信息、多尺度特征信息、水印信息掩码在通道维度进行拼接生成多尺度特征层，然后使用特征融合将这些信息融合生成水印信息残差，最后使用权重因子控制水印信息残差嵌入强度，与原视频直接相加后生成带水印的视频，完成水印的嵌入过程。

作为一种实施例，本公开采用端到端的水印嵌入方式，简化网络结构，同时提高水印嵌入的鲁棒性。采用多尺度卷积核，捕捉不同尺度的特征信息。较大的卷积核可以捕捉到更大范围的上下文信息，用于提取全局特征，而较小的卷积核更好地捕捉局部细节特征。通过组合使用不同大小的卷积核，获得更丰富的特征表示，增强模型的感受野。

具体的，提出了一种基于多尺度注意力机制的视频水印嵌入网络，该视频水印嵌入网络包括编码器和解码器，所述编码器用于视频水印的嵌入，解码器用于视频水印的提取。

所述编码器的网络结构如图1所示，包括特征提取网络和特征融合网络两部分，特征提取网络由四个不同尺度的注意力模块组成，水印信息和原视频输入编码器后，将水印信息扩维到视频帧同样维度，再由多尺度注意力模块提取视频的特征信息并生成注意力权重矩阵，并利用权重矩阵对扩维后的水印信息进行编码(水印信息与权重矩阵相乘)，生成水印信息掩码。特征融合网络负责将编码后的水印信息和多尺度注意力模块中提取的特征信息进行特征融合，生成包含视频特征和水印信息的水印信息残差。最后，将水印信息残差经过权重因子调整后加到原视频上，完成水印嵌入。

编码器的输入是一个由(N,C,L,H,W)构成的张量，其中N表示batch_size(批处理数量)，C表示通道数，L表示帧数，H表示高度，W表示宽度。在该网络结构图1中，水印信息表示待嵌入的水印信息，而扩维水印信息则表示将水印信息扩展到与视频序列相同的大小，以方便进行水印编码。

图1中，编码器中的视频序列的特征提取网络由四个不同尺度的注意力模块构成，四个注意力模块分别使用不同大小的卷积核,分别为(1，5，5)，(1，7，7)，(1，9，9)，(1，11，11)。首先由第一多尺度注意力模块1提取单尺度下的特征，生成第一特征图1，为了在提取不同尺度特征的同时，最大程度减少信息损失，在多尺度注意模块输出的特征图引入残差连接，即将原始视频帧与生成的特征图相加后再输入下一个注意力模块，最终提取出视频的多尺度特征信息，特征信息经过Softmax模块处理生成权重矩阵来与水印信息进行编码，水印信息掩码为编码后的水印信息。将权重矩阵与扩维后的水印信息相乘，相乘的过程即为编码操作，得到的结果为水印信息掩码。

其中，Softmax是一种激活函数，使用Softmax将特征通道上的数值向量归一化为一个概率分布向量，且在通道维度的概率之和为1，最后将水印信息输入特征融合网络。

特征融合网络的作用是将水印信息、多尺度注意力模块提取的不同尺度的视频特征还有水印信息掩码融合，首先使用Concat模块将水印信息、视频特征信息、水印信息掩码在通道维度进行拼接生成多尺度特征层，然后使用特征融合模块(由三层卷积核大小为(1，1，1)的卷积层构成)，将这些信息融合生成水印信息残差，最后使用权重因子α来控制水印信息残差嵌入强度，权重因子为自定义数值，数值设定为0.016，通过与水印残差相乘来改变像素值大小，达到控制水印信息嵌入强度的目的；与原视频直接相加后生成带水印的视频，完成水印的嵌入过程。

作为一种实施例，将水印嵌入到视频中后，利用解码器进行水印提取，在进行水印提取之前，则要先经过噪声层预处理。所述预处理包括裁剪、缩放、压缩等常见攻击。

具体的，解码器网络结构如图2所示，解码器的结构主要包括多尺度注意力网络(重用编码器的多尺度注意力网络)，多尺度特征提取网络，负责提取带水印视频的特征信息。

解码器主要包括特征提取网络和多尺度特征提取网络两部分。解码器重用编码器的多尺度注意力模块对水印视频进行特征提取并生成权重矩阵对水印信息进行预测。同时，编码器独有的多尺度特征提取模块,由四个不同尺度(卷积核大小不同)的3D卷积构成，对视频特征信息提取，通过将权重矩阵和视频特征加权来对水印信息进行预测，并对结果取均值来获得水印信息。

解码器的目标是从视频的每个位置提取水印数据。其输入是带有水印的视频序列，其形式与编码器生成的序列相同，即由(N,C,L,H,W)的张量构成。为了提取水印信息，在解码器中重复利用编码器的多尺度注意力模块来处理带水印的视频序列，从而生成一个新的权重矩阵，所述权重矩阵为注意力权重矩阵，与编码器生成权重矩阵的方式一致，多尺度注意力模块提取多尺度特征信息，经由softmax处理得到权重矩阵，用于预测水印信息。

同时，解码器使用新的四个不同尺度的特征提取模块，四个不同大小特征提取模块卷积核大小分别为(1，5，5)，(1，7，7)，(1，9，9)，(1，11，11)，用来提取带水印视频序列的特征信息，生成水印信息残差，水印信息残差包含着水印信息，如果生成的权重矩阵特别关注水印信息残差某个像素位置，那么该像素的值就有更高的可能性包含有关水印的信息，所以将权重矩阵与水印残差相乘，并根据每个位置上每个比特的关注程度来加权解码器生成的预测，解码器生成的预测为水印残差，此时水印残差包含冗余信息，需要使用权重矩阵解码。权重矩阵和水印残差为相同大小的矩阵，且数量相同，权重矩阵的数值即表示对每个位置上水印的嵌入强度或关注度，权重矩阵与水印残差相乘的操作即为加权解码，并计算平均值。这种方法可以更有效地提取水印信息。

首先，预处理阶段，在使用多尺度注意力机制的视频水印嵌入神经网络作为水印嵌入方法时，本公开的目标是在保持水印的鲁棒性和图像内容质量的前提下，增强对各种水印攻击的抵抗能力，以及增强模型的表达能力。为此，在将水印嵌入神经网络后，对带水印的视频进行随机的裁剪、缩放和压缩处理，并将处理后的视频序列传递给解码器进行解码操作。这种方法有助于提高水印嵌入方案的鲁棒性，并使其对多种攻击手段具有更好的适应性。

进一步的，在准备好的测试集上测试训练好的网络。所述训练的步骤包括：

在对网络进行训练时，预先将数据集划分为训练集、验证集，需使用2000个左右的视频数据，从每个视频中的随机位置读取视频序列。并将视频序列裁剪到3128128大小。初始参数设置如下：学习率为，权重因子设置为0.016，训练批次数量为6，网络训练参数设置为100轮迭代训练。训练环境使用以python为基础的torch框架，硬件条件使用GPU进行训练。

首先，将原始视频输入对应的训练好的网络进行水印嵌入和提取操作。然后，将提取出的水印信息与原始水印信息进行比较。在进行提取操作之前，验证了水印攻击的效果，如裁剪、缩放和压缩等。这样做的目的是衡量已嵌入水印对水印攻击的鲁棒性。采用水印算法评价指标图像峰值信噪比PSNR来评价水印嵌入后的不可感知性，计算方法如下：

其中I与I′为待比较的图像，PSNR值越高，表明前后图像相关度越高，图像细节保留较完整，若PSNR值偏低，则表明水印对图像的损伤较为严重，细节保留程度较差。其中MN为比较图像的高跟宽，符号i、j为图像像素点的坐标。为了能够准确衡量水印嵌入后的鲁棒性，在提取水印后，将提取的水印信息与原水印数据进行对比，选择使用准确率Acc作为评价指标，Acc公式为：

其中M′表示从带水印的视频中提取的水印，M表示原始水印信息。Acc率的取值范围为[0，100，当Acc值越接近100时，说明所提取的水印信息越完整，则表明嵌入水印的鲁棒性较高。

实验分析

为了能够准确评估模型的鲁棒性，本公开对嵌入水印后的视频进行了一系列攻击操作，攻击主要包括裁剪、缩放、MJPEG压缩。缩放攻击将视频重新缩放为随机大小，其中缩放攻击强度为0.8-1.3。通过在编码器和解码器之间插入这个缩放噪声层，使其能够在不同尺度下保持稳定性。裁剪攻击被设计为随机选择包含视频帧的子窗口。其攻击强度为0.3-0.8，我们确保我们的模型学会嵌入具有足够空间冗余的数据位，裁剪不会删除消息。

压缩层使用离散余弦变换(DCT)来提供视频压缩算法的可微分近似。这能够帮助模型在嵌入的水印具有抵抗压缩攻击的能力。

模型整体效果优于基线模型，基线模型为RivaGAN，本公开模型整体效果优于基线模型，并且在同等攻击强度下，不仅水印鲁棒性强度高于基线，视觉质量也高于基线，具体效果如下表1所示：

表1效果对比表

根据具体效果表得到效果对比的折线图，如图3和图4所示，可以看出，模型整体效果优于基线模型，并且在同等攻击强度下，不仅水印鲁棒性强度高于基线，视觉质量也高于基线。

实施例2

本公开的一种实施例中提供了一种基于多尺度注意力机制的视频水印嵌入系统，包括：

其中，视频帧序列不同尺度的特征提取过程为：首先将视频帧序列输入特征提取网络的第一多尺度注意力模块中提取单尺度下的特征，输出第一特征图，在输出的第一特征图引入残差连接，即将视频帧序列与生成的第一特征图相加后作为下一个多尺度注意力模块的输入，最终提取出原视频的多尺度特征信息。

实施例3

本公开的一种实施例中提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现所述的基于多尺度注意力机制的视频水印嵌入方法。

实施例4

本公开的一种实施例中提供了一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现所述的基于多尺度注意力机制的视频水印嵌入方法。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于多尺度注意力机制的视频水印嵌入方法，其特征在于，包括：

获取待嵌入水印的原视频以及待嵌入的水印信息；

2.如权利要求1所述的基于多尺度注意力机制的视频水印嵌入方法，其特征在于，在对水印信息进行水印信息编码之前，对水印信息进行扩维，将水印信息扩展到与视频帧序列相同的大小。

3.如权利要求1所述的基于多尺度注意力机制的视频水印嵌入方法，其特征在于，对所述原视频的视频帧序列进行不同尺度的特征提取，获取原视频的多尺度特征信息，包括：将原视频的视频帧序列输入至编码器的特征提取网络中，所述特征提取网络由多个不同尺度的注意力模块构成，多个不同尺度的注意力模块分别使用不同大小的卷积核。

4.如权利要求3所述的基于多尺度注意力机制的视频水印嵌入方法，其特征在于，首先由第一多尺度注意力模块提取单尺度下的特征，生成第一特征图，在多尺度注意力模块输出的特征图引入残差连接，即将视频帧序列与生成的第一特征图相加后再输入下一个注意力模块，最终提取出原视频的多尺度特征信息，多尺度特征信息经过Softmax函数处理生成权重矩阵来与水印信息进行编码，水印信息掩码为编码后的水印信息。

5.如权利要求1所述的基于多尺度注意力机制的视频水印嵌入方法，其特征在于，将原视频的多尺度特征信息、水印信息掩码以及水印信息进行特征融合，融合生成水印信息残差，包括：首先使用Concat模块将水印信息、多尺度特征信息、水印信息掩码在通道维度进行拼接生成多尺度特征层，然后使用特征融合将这些信息融合生成水印信息残差，最后使用权重因子控制水印信息残差嵌入强度，与原视频直接相加后生成带水印的视频，完成水印的嵌入过程。

6.如权利要求4所述的基于多尺度注意力机制的视频水印嵌入方法，其特征在于，所述Softmax函数是一种激活函数，使用Softmax将特征通道上的数值向量归一化为一个概率分布向量，且在通道维度的概率之和为1，最后将水印信息输入特征融合网络。

7.如权利要求1所述的基于多尺度注意力机制的视频水印嵌入方法，其特征在于，当对嵌入原视频中的水印进行提取时，先经过噪声处理，然后利用视频水印嵌入网络中的解码器进行水印提取，从视频的每个位置提取水印信息。

8.基于多尺度注意力机制的视频水印嵌入系统，其特征在于，包括：

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如权利要求1-7任一项所述的基于多尺度注意力机制的视频水印嵌入方法。

10.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如权利要求1-7任一项所述的基于多尺度注意力机制的视频水印嵌入方法。