CN112040241B

CN112040241B - 一种基于深度学习的视频图像透明水印嵌入提取方法

Info

Publication number: CN112040241B
Application number: CN201910480250.2A
Authority: CN
Inventors: 杨公所; 袭喜悦; 陆腾
Original assignee: Shandong Chinasoft Goldencis Software Co ltd
Current assignee: Shandong Chinasoft Goldencis Software Co ltd
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2022-08-05
Anticipated expiration: 2039-06-04
Also published as: CN112040241A

Abstract

本发明提出了一种基于深度学习的视频图像透明水印嵌入提取方法，包括如下步骤：获取不同场景、不同时间段的视频图像；对视频图像添加透明水印，并生成对应的标签；使用数据增强技术，制作视频图像透明水印数据集；训练深度网络YOLO v3模型，保存训练参数；使用训练好的深度网络YOLO v3模型，识别待提取水印编码图形的水印编码位置、类别信息及类别置信度；整合水印编码图形，生成完整的水印信息。本发明能够增加视频水印的冗余信息，实现局部、不同光线等不同场景下的恶意拍摄传播时，能够提取水印的完整信息；嵌入的半透明水印抗压缩能力强，在手机拍摄等恶劣条件下传播能够保留水印信息；使用深度学习模型提取水印信息，运算快，较传统算法更鲁棒。

Description

一种基于深度学习的视频图像透明水印嵌入提取方法

技术领域

本发明涉及视频图像透明水印嵌入提取技术领域，具体涉及一种基于深度学习的视频图像透明水印嵌入提取方法。

背景技术

随着计算机网络和嵌入式设备的迅速发展，以及人们公共安全意识的增强，监控设备随处可见，监控视频很容易存储、复制、传播，对现场保护、事件复现起到很大的作用。但监控视频、视频图像的恶意传播却越来越受到人们的关注。

对视频图像添加可提取水印成为追踪视频图像泄露源的重要手段。视频水印算法一般分为三大类，第一类就是在DCT系数中嵌入水印，第二类是在运动矢量中嵌入水印，第三类是在熵编码后的码字中嵌入水印，但存在以下不足：算法抗压缩性不强，带有水印的视频经过重编码后，其中的水印就会损坏，不利于后续的验证。水印冗余信息不足，水印视频经手机拍摄等传播后，水印信息丢失无法提取。

发明内容

为了解决上述问题，本发明提出一种基于深度学习的视频图像透明水印嵌入提取方法。

为实现以上目的，本发明采用的技术方案是：

一种基于深度学习的视频图像透明水印嵌入提取方法，包括如下步骤：

步骤一：获取不同场景、不同时间段的视频图像；

步骤二：对视频图像添加透明水印，并生成对应的标签；

步骤三：使用数据增强技术，制作视频图像透明水印数据集；

步骤四：训练深度网络YOLO v3模型，保存训练参数；

步骤五：使用训练好的深度网络YOLO v3模型，识别待提取水印编码图形的水印编码位置、类别信息及类别置信度；

步骤六：整合水印编码图形，生成完整的水印信息。

优选的，所述步骤二中，对视频图像添加透明水印，并生成对应的标签的具体方法为：

步骤11、随机生成水印信息，水印信息是一个六位数字的整形数；

步骤12、对水印信息进行编码，每个数字对应一个水印编码图形，水印信息编码有一个相同的共用的起始水印编码图形；

步骤13、将水印信息编码嵌入到视频图像中，水印编码图形等间距水平平铺，在竖直方向上的距离在视频图像宽度范围内随机产生；

步骤14、生成对应视频图像的标签文件，每行包含一个水印编码图形的信息:类别,起始坐标，长宽。

进一步的，所述步骤12中，水印编码图形等宽等高，不同的水印编码图形区分度明显，共有11个类别。

进一步的，所述步骤13中，水印信息编码嵌入到视频图像中的嵌入方式算法为：

i(x,y)＝α*i(x,y)+(1-α)*(255-i(x,y))

其中，i(x,y)表示水印编码图形掩码下坐标(x,y)的像素值，α表示透明度系数，可通过α值来调整透明度程度。

进一步的，所述水印编码图形水平平铺的间距为水印编码图形宽度的一半。

优选的，所述步骤三中，制作视频图像透明水印数据集的具体方法为：

步骤21、将步骤二中已添加透明水印的视频图像，组成数据集；

步骤22、将数据集中的每张图像依次做水平翻转、随机裁剪、平移变换、仿射变换、颜色变换、光照变换、旋转变换后得到的视频图像分别存入数据集中，并生成对应的标签文件；

步骤23、从数据集中所有图像中随机选取80％的图像，组成训练集，将剩余的20％图像组成测试集。

优选的，所述步骤六中，整合水印编码图形，生成完整的水印信息的具体方法为：

步骤31、过滤掉所述步骤五中类别置信度小于0.55的水印编码图形；

步骤32、对所述步骤31中的水印编码图形从左上角坐标位置进行从左往右、从上往下排序；

步骤33、计算所述步骤32中水印编码图形平均高度；

步骤34、若两个水印编码图形垂直间距相差小于0.25倍的水印编码图形平均高度，并且水平间距小于1.5倍的水印编码图形平均高度，则两水印编码图形相邻。定义6个数组，对应水印信息的六位数字，步骤32中水印编码图形取出起始水印编码图形，从剩余水印编码图形中取出与起始水印编码图形右侧相邻的水印编码图形放入第一个数组，从剩余水印编码图形中取出与第一个数组中水印编码图形右侧相邻的水印编码图形放入第二个数组，以此类推；从剩余水印编码图形中取出与起始水印编码图形左侧相邻的水印编码图形放入第六个数组，从剩余水印编码图形中取出与第六个数组中水印编码图形左侧相邻的水印编码图形放入第五个数组，以此类推。统计每个数组中水印编码图形的种类、以及每类水印编码图形的个数和最大置信度；

步骤35、根据步骤34的统计结果来确认水印编码图形的类别，若在数组中的水印编码图形对应的某一类别的个数最多，则认为该类别为该数组所对应的水印编码图形的类别，若个数相同，则选择类别置信度较大的类别为该数组所对应的水印编码图形的类别，进而将每个数组对应的水印编码图形所对应的数字提取出来。

本发明能够增加视频水印的冗余信息，实现局部、不同光线等不同场景下的恶意拍摄传播时，能够提取水印的完整信息；嵌入的半透明水印抗压缩能力强，在手机拍摄等恶劣条件下传播能够保留水印信息；使用深度学习模型提取水印信息，运算快，较传统算法更鲁棒。

附图说明

构成本发明的一部分附图用来提供对本发明的进一步理解。

在附图中：

图1为本发明一种基于深度学习的视频图像透明水印嵌入提取方法的工作流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

缩略语和关键术语定义：

YOLO:Real-Time Object Detection的缩写，一个先进的实时目标检测系统。

GPU:Graphics Processing Unit的缩写，是一种专门在个人电脑、工作站、游戏机和一些移动设备上图像运算工作的微处理器。

如图1所示，一种基于深度学习的视频图像透明水印嵌入提取方法，包括如下步骤：

步骤一：获取不同场景、不同时间段的视频图像；

通过一段时间收集室内、室外的视频图像。室外的包括停车场、公园、小区、路口等不同场景，清早、正午、下午、黄昏、晚上等不同时间段的视频图像；室内的包括厂房、办公室、室内停车场、室内运动场等不同场景不同光线效果下的视频图像。收集的视频图像涵盖的情况越多越好。

步骤二：对视频图像添加透明水印，并生成对应的标签；

具体方法为：

步骤11、随机生成水印信息，水印信息是一个六位数字的整形数M；

步骤12、对水印信息进行编码，每个数字对应一个水印编码图形，水印信息编码有一个相同的共用的起始水印编码图形；水印编码图形等宽等高，不同的水印编码图形区分度明显，共有11个类别，分别用a～k表示，如数9302的编码是akebd，a对应起始水印编码图形对应的类别。

步骤13、将水印信息编码嵌入到视频图像中，水印编码图形等间距水平平铺，所述水印编码图形水平平铺的间距为水印编码图形宽度的一半，在竖直方向上的距离在视频图像宽度范围内随机产生；嵌入方式算法为：

i(x,y)＝α*i(x,y)+(1-α)*(255-i(x,y))

步骤24、生成对应视频图像的标签文件，每行包含一个水印编码图形的信息:类别,起始坐标x、y，长宽h,w。

具体方法为：

步骤四：训练深度网络YOLO v3模型，保存训练参数；

定义算法目标。算法全部使用了均方和误差作为Loss函数，算法最终迭代Loss函数，使其收敛值最小(一般情况下为0.6即可)。Loss函数由3部分组成：坐标误差、IOU误差和分类误差，具体计算公式如下:

数理统计中均方误差是指参数估计值与参数真值之差平方的期望值，记为MSE。MSE是衡量“平均误差”的一种较方便的方法，MSE可以评价数据的变化程度，MSE的值越小，说明预测模型描述实验数据具有更好的精确度。一般地，在样本量一定时，评价一个点估计的好坏标准使用的指标总是点估计与参数真值的距离的函数，最常用的函数是距离的平方，由于估计量具有随机性，可以对该函数求期望。均方和方差公式：

其中y_i是真实数据，

是拟合数据，w_i＞0，m为样本个数。从这里可以看出SSE越接近于0，说明模型选择和拟合更好，数据预测也越成功，对SSE求均值即为MSE。

IOU(Intersection-over-Union，IoU)，是一种测量在特定数据集中检测相应物体准确度的一个标准，是产生的候选框(candidate bound)与原标记框(ground truthbound)的交叠率。最理想情况是完全重叠，即比值为1。其计算公式为

公式中C为候选框，G为原标记框；模型将输入图像划分为S×S网格，如果编码图形的中心落入网格单元，那么这个网格单元就负责这个编码图形的检测，每个网格单元要预测B个边界框。

x_i,y_i,w_i,h_i分别表示模型训练标注的坐标值，x_i表示边界框中心点的横坐标，y_i表示边界框中心点的纵坐标，w_i表示边界框的宽度，h_i表示边界框的高度，

是对应预测坐标值，在公式中坐标值都是归一化的相对值，范围为[0,1]。

表示第i个网格单元的第j个边界框预测有效取1，无效取0；

则相反，有效取0，无效取1。C_i与

标注与预测的边界框的置信度。p_i(c)与

分别表示标注与预测类别的置信度。

初始化训练参数：种类classes为11，yolo层的filters为48，初始学习率base_lr为0.001,优化器采用随机梯度下降(SGD)，迭代次数为20000。

开始训练模型，模型采用全卷积和类似残差网络的跨层跳跃链接结构的网络结构对输入图片提取特征，得到一定尺寸的特征映射(feature map)。将输入图像分成网格，如果编码图像目标落到哪个网格单元中，那么这个网格单元负责来预测该目标，在网格单元预测的3个边界框中计算IOU,只用IOU最大的边界框来预测该目标。

模型中采用多标签多分类的逻辑回归层做类别预测。逻辑回归层主要用到sigmoid函数，网格单元的classes个类型预测经sigmoid函数约束到0到1的范围内，如值大于0.5，则目标属于该类。

模型中采用多个尺度融合的方式做边框位置预测，在多个尺度的特征映射上做检测。预测得到的输出特征映射有两个维度是提取到的特征的维度，还有一个维度(深度)是B*(5+C)，其中B表示每个单元格预测的边界框的数量，本发明专利中的值为3个，C表示边界框的类别数11，5表示4个坐标信息和一个目标置信度。

加载初始化训练参数，根据上述思路在GPU服务器上进行模型训练。使用测试集对训练的模型效果进行检测，保存最优模型权重参数用于视频图像透明水印编码图形的位置信息与类别信息的提取。

步骤五：使用训练好的深度网络YOLO v3模型，识别待提取水印编码图形的水印编码位置(左上角坐标x,y以及长宽h,w)、类别信息及类别置信度；

步骤六：整合水印编码图形，生成完整的水印信息。

具体方法为：

步骤33、计算所述步骤32中水印编码图形平均高度；

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的视频图像透明水印嵌入提取方法，其特征在于：包括如下步骤：

步骤一：获取不同场景、不同时间段的视频图像；

步骤二：对视频图像添加透明水印，并生成对应的标签；

步骤四：训练深度网络YOLO v3模型，保存训练参数；

步骤六：整合水印编码图形，生成完整的水印信息；

所述步骤二中，对视频图像添加透明水印，并生成对应的标签的具体方法为：

步骤14、生成对应视频图像的标签文件，每行包含一个水印编码图形的信息:类别,起始坐标，长宽；

所述步骤三中，制作视频图像透明水印数据集的具体方法为：

步骤23、从数据集中所有图像中随机选取80％的图像，组成训练集，将剩余的20％图像组成测试集；

所述步骤六中，整合水印编码图形，生成完整的水印信息的具体方法为：

步骤33、计算所述步骤32中水印编码图形平均高度；

步骤34、若两个水印编码图形垂直间距相差小于0.25倍的水印编码图形平均高度，并且水平间距小于1.5倍的水印编码图形平均高度，则两水印编码图形相邻；定义6个数组，对应水印信息的六位数字，步骤32中水印编码图形取出起始水印编码图形，从剩余水印编码图形中取出与起始水印编码图形右侧相邻的水印编码图形放入第一个数组，从剩余水印编码图形中取出与第一个数组中水印编码图形右侧相邻的水印编码图形放入第二个数组，以此类推；从剩余水印编码图形中取出与起始水印编码图形左侧相邻的水印编码图形放入第六个数组，从剩余水印编码图形中取出与第六个数组中水印编码图形左侧相邻的水印编码图形放入第五个数组，以此类推；统计每个数组中水印编码图形的种类、以及每类水印编码图形的个数和最大置信度；

2.根据权利要求1所述的一种基于深度学习的视频图像透明水印嵌入提取方法，其特征在于：所述步骤12中，水印编码图形等宽等高，不同的水印编码图形区分度明显，共有11个类别。

3.根据权利要求1所述的一种基于深度学习的视频图像透明水印嵌入提取方法，其特征在于：所述步骤13中，水印信息编码嵌入到视频图像中的嵌入方式算法为：

i(x,y)＝α*i(x,y)+(1-α)*(255-i(x,y))

4.根据权利要求1所述的一种基于深度学习的视频图像透明水印嵌入提取方法，其特征在于：所述水印编码图形水平平铺的间距为水印编码图形宽度的一半。