CN109348211A

CN109348211A - 一种视频帧内帧间编码的通用信息隐藏检测方法

Info

Publication number: CN109348211A
Application number: CN201810883975.1A
Authority: CN
Inventors: 刘鹏; 李松斌
Original assignee: Research Station Of South China Sea Institute Of Acoustics Chinese Academy Of Sciences; Institute of Acoustics CAS
Current assignee: Research Station Of South China Sea Institute Of Acoustics Chinese Academy Of Sciences; Institute of Acoustics CAS
Priority date: 2018-08-06
Filing date: 2018-08-06
Publication date: 2019-02-15
Anticipated expiration: 2038-08-06
Also published as: CN109348211B

Abstract

本发明公开了一种视频帧内帧间编码的通用信息隐藏检测方法，所述方法包括：步骤1)构建和训练视频隐写分析卷积神经网络；步骤2)基于视频隐写分析卷积神经网络对待检测图片实现视频帧内帧间编码通用信息隐藏检测。本发明的方法将特征提取和分类模块整合到一个可训练的网络模型框架下进行全局优化，以数据驱动的形式自动学习特征并实现分类，从而有效解决了现有方法所存在的问题；由于全局优化往往优于局部优化，因而本发明所述方法在理论上更具合理性。

Description

一种视频帧内帧间编码的通用信息隐藏检测方法

技术领域

本发明涉及信息安全及深度学习技术领域，特别涉及一种视频帧内帧间编码的通用信息隐藏检测方法。

背景技术

随着网络技术和数字多媒体技术的日益成熟，特别是网络流媒体的迅速发展，使得图像、音频、视频等多媒体的传输和交换非常快捷方便。视频信息因其直观性、确定性和高效性等特点，已成为了一种广泛应用的信息隐藏载体。视频编码信息隐藏方法根据秘密信息嵌入位置的不同，可大致分为两类：其一是在原始图像或视频中嵌入秘密信息，其二是在图像或视频编码过程中嵌入秘密信息。第一类方法一般将视频视为运动图像，对视频帧像素进行操作，按照一定嵌入强度把秘密信息隐藏在像素之中。该类方法的实质是图像信息隐藏，方法直观、易于理解，但不能很好的抵抗压缩编码，即压缩编码后嵌入的信息可能丢失。此外，该类方法由于在像素上直接操作嵌入秘密信息，会引入较大失真；第二类方法将信息嵌入到图像视频编码处理过程之中，即在编码的过程中结合编码标准某方面的特性进行信息的嵌入，如帧内预测、帧间预测、DCT变换和熵编码。在视频编码过程中，大部分时间均在进行帧内编码和帧间编码，而帧内编码的预测模式和帧间编码的运动矢量均是由预测而来，本身就是一个不精确的过程，存在着一定的误差，为信息隐藏提供了很好的机会。此外，在整个视频编码过程中，预测模式和运动矢量数量很大，因此基于帧内编码预测模式调制的信息隐藏和帧间编码运动矢量调制的信息隐藏成为了视频编码信息隐藏的研究热点。

现有视频帧内帧间编码隐写分析方法主要存在有三个问题：一是采用“特征提取—特征分类”的框架，两个步骤相互独立，并未纳入统一框架进行全局优化；二是特征提取过程采用的是人工设计特征，而人工设计特征是一件非常费力、启发式(需要先验知识)的任务，特征设计、选取的好坏在很大程度上依靠经验和运气，而且它的调节需要大量的时间；三是现有方法通常只适用于检测特定的一种或一类隐写方法，例如只能检测帧内预测的I帧信息隐藏或者帧间预测的B/P帧信息隐藏。而在实际应用中事先无法知道秘密信息被隐藏在哪一类帧中，缺乏实用性。

基于数据驱动学习模式的深度学习方法已在计算机视觉、语义分析，语音识别以及自然语言处理等众多机器学习相关应用领域取得了成功的应用，并颠覆了这些领域基于“人工特征”的传统范式。将深度学习方法引入视频隐写分析领域已是大势所趋。

在针对帧内帧间编码调制的通用信息隐藏检测方法中，基于预测模式和运动矢量等特定编码域的隐写分析思想不再适用。因此，需要从图像域入手，即基于最终的图像像素值判定隐写状态。此时，可以对现有空域图像隐写分析方法中的核心思想及主要步骤进行借鉴。目前，空域图像隐写分析方法均包含三个步骤，分别是：残差计算、特征提取以及二分类。这三个步骤实际上可以被卷积神经网络模型很好地替代。残差计算实际上可以通过卷积运算实现，因此可用一个卷积层代替该步骤；卷积神经网络中多个级联的卷积层可被训练用于从原始数据中自主学习高层特征，对应于特征提取步骤；对于分类步骤而言，卷积神经网络中的Softmax分类器能够实现与SVM等分类器相同的作用。此外，传统方法中三个步骤是相互独立的，而基于卷积神经网络的信息隐藏检测方法能够将残差计算、特征提取与分类步骤纳入统一框架进行迭代与全局优化。由于全局优化往往优于局部优化，因而基于卷积神经网络的隐写分析方法在理论上更具合理性。

卷积神经网络的一个重要性质是可以自主挖掘输入图像中存在的规律并自动将这些规律抽象为有效的深层特征，这使得它可以很好地应对人脸识别、图像分类等各类机器视觉问题。但是，机器视觉和隐写分析却有着截然不同的前提条件。在机器视觉问题中，目标对象通常可以很容易地被从背景中区分出，也就是说，在机器视觉问题中信号是具有高信噪比的。此时可以通过ReLU等激活函数有选择性的对输入信号进行响应，从而产生更容易分类的稀疏特征。然而，隐写分析中的目标对象与机器视觉中的截然相反。隐写嵌入过程可以被视为在载体图像中添加低幅噪声，因此隐写信息相较于图像内容具有极低的信噪比。

极低的信噪比主要会带来两类问题。首先是常用的ReLU等激活函数在该类问题中并不完全适用。因为本身输入信号中有用信号所占比例已经非常低，如果每次激活时强行丢掉一半的信号将导致训练过程中产生大量的无效滤波器；然后是参数初始化的问题。由于隐写分析目标对象信噪比很低，机器视觉领域常用的随机初始化生成网络初始权重的方法往往会导致网络无法收敛。

现有的隐写检测方法都是针对某一种或者一类隐写方法提出的，例如只针对帧内编码信息隐藏或只针对帧间编码信息隐藏，不具备通用性。

现有的帧内帧间信息隐藏检测方法主要存在三个问题：一是采用“特征提取—特征分类”的框架，两个步骤相互独立，并未纳入统一框架进行全局优化；二是特征提取过程采用的是人工设计特征，而人工设计特征是一件非常费力、启发式(需要先验知识)的任务，特征设计、选取的好坏在很大程度上依靠经验和运气，而且它的调节需要大量的时间；三是现有方法通常只适用于检测特定的一种或一类隐写方法，例如只能检测帧内预测的I帧信息隐藏或者帧间预测的B/P帧信息隐藏。而在实际应用中事先无法知道秘密信息被隐藏在哪一类帧中，缺乏实用性。

发明内容

本发明的目的在于克服现有的帧内帧间信息隐藏检测方法存在的技术缺陷，提出了视频帧内帧间编码的通用信息隐藏检测方法，不仅能够实现第一个视频帧内帧间编码通用信息隐藏检测，对两类隐写方法都有效。

为了实现上述目的，本发明提出了一种视频帧内帧间编码的通用信息隐藏检测方法；所述方法包括：

步骤1)构建和训练视频隐写分析卷积神经网络；

步骤2)基于视频隐写分析卷积神经网络对待检测图片实现视频帧内帧间编码通用信息隐藏检测。

作为上述方法的一种改进，所述步骤1)具体包括：

步骤1-1)构建视频隐写分析卷积神经网络，所述视频隐写分析卷积神经网络包含依次连接的残差计算模块、特征提取模块和分类模块；

所述残差计算模块为1个残差卷积层；

所述特征提取模块包括依次连接的第一卷积层、第二卷积层、第三卷积层、第一池化层、第一隐写残差单元、第二池化层、第二隐写残差单元、第三池化层、第四卷积层、第四池化层、第五卷积层和第六卷积层；

所述分类模块包括依次连接的1个全连接层和1个Softmax层；

步骤1-2)将训练集中的每个训练样本输入视频隐写分析卷积神经网络，利用分类结果和训练标签迭代从而训练出视频隐写分析卷积神经网络的参数，所述训练样本为大小256×256的灰度图像。

作为上述方法的一种改进，所述残差卷积层用于计算与图像内容无关的残差特征；该层包含34个尺寸为5×5×1的滤波器，该层的输出为34个尺寸为252×252的特征图。

作为上述方法的一种改进，在所述特征提取模块中，所述第一卷积层包含34个尺寸为3×3×34的滤波器，步长为1，采用带有可学习参数的截断线性单元PTLU作为激活函数；第一卷积层的输出为34个尺寸为250×250的特征图；

所述第二卷积层包含34个尺寸为3×3×34的滤波器，步长为1，采用带有可学习参数的截断线性单元PTLU作为激活函数；输出为34个尺寸为248×248的特征图；

所述第三卷积层包含34个尺寸为3×3×34的滤波器，步长为1，采用带有可学习参数的截断线性单元PTLU作为激活函数；输出为34个尺寸为246×246的特征图；

所述第一池化层的核大小为2×2，步长为2，输出为34个123×123的特征图；

所述第一隐写残差单元中包含两个卷积层，每个卷积层均包含34个3×3×34的滤波器，步长为1，采用带有可学习参数的截断线性单元PTLU作为激活函数并在激活函数前进行批量标准化处理；输出为34个123×123的特征图；

所述第二池化层的核大小为3×3，步长为2，输出为34个61×61的特征图；

所述第二隐写残差单元中包含两个卷积层，每个卷积层均包含34个3×3×34的滤波器，步长为1，采用带有可学习参数的截断线性单元PTLU作为激活函数并在激活函数前进行批量标准化处理；输出为34个61×61的特征图；

所述第三池化层的核大小为3×3，步长为2，输出为34个30×30的特征图；

所述第四卷积层包含32个3×3×34的滤波器，采用带有可学习参数的截断线性单元PTLU作为激活函数，输出为32个尺寸为28×28的特征图；

所述第四池化层的核大小为2×2，步长为2，输出为32个14×14的特征图；

所述第五卷积层包含16个3×3×32的滤波器，步长为1，采用带有可学习参数的截断线性单元PTLU作为激活函数，输出为16个尺寸为12×12的特征图；

所述第六卷积层包含16个3×3×16的滤波器，步长为3，采用带有可学习参数的截断线性单元PTLU作为激活函数，输出为16个尺寸为4×4的特征图。

作为上述方法的一种改进，所述带有可学习参数的截断线性单元PTLU定义为：

其中，T为阈值；PTLU采用共享模式时，同一个卷积层的所有通道共享同一个参数α；α的梯度由下式求得：

其中，ε表示目标函数，x_i表示第i个通道的输入，表示从网络深层反向传播返回的梯度值；其中激活函数的梯度由下式求得：

参数更新时采用动量更新，用更新Δα；μ表示动量参数，γ表示学习率。

采用独立模式时，同一个卷积层的每个通道均独立学习一个参数α_i，α_i为第i个通道的参数；某一层中第i个通道对应参数α_i的梯度值由下式求得：

参数更新时采用动量更新方法：用更新Δα_i，μ表示动量参数，γ表示学习率。

作为上述方法的一种改进，所述全连接层包含两个神经元，所述全连接层结合Softmax层实现最终的二分类，判定输入图片隐写还是未隐写。

作为上述方法的一种改进，所述步骤2)具体包括：

步骤2-1)对于待检测的压缩视频数据，利用视频解码函数库对其进行解码得到视频帧；

步骤2-2)如果解码得到的视频帧尺寸大于256*256，则利用图像裁剪方法将解码图像裁剪为大小256*256的不同图像块，并以这些图像块作为卷积神经网络的输入；裁剪时，从图像左上角开始，从左向右，从上向下依次进行裁剪；如果最右侧剩余图像宽度不足256，则裁剪窗口向左平移至宽度刚好满足256；如果最下方剩余图像宽度不足256，则裁剪窗口向上平移至高度刚好满足256；

步骤2-3)将步骤2-2)得到的N个图像块集合输入隐写分析卷积神经网络，得到每个图像块对应的检测结果：隐写的图像块个数为M；

步骤2-3)判断N/M≥W是否成立，W＝0.2，如果成立认为该帧中存在隐写，否则，认为该帧中未隐写；

步骤2-4)执行步骤2-2)和步骤2-3)，直到全部视频帧检测完毕。

本发明的优势在于：

本发明的方法将特征提取和分类模块整合到一个可训练的网络模型框架下进行全局优化，以数据驱动的形式自动学习特征并实现分类，从而有效解决了现有方法所存在的问题；由于全局优化往往优于局部优化，因而本发明所述方法在理论上更具合理性。

附图说明

图1为本发明提供的视频隐写分析卷积神经网络结构图；

图2为本发明残差卷积层滤波器初始化参数可视化图；

图3为本发明所提出的带有可学习参数的截断线性单元的形状；

图4(a)为传统残差单元结构的示意图；

图4(b)为本发明所提出的隐写残差单元结构的示意图。

具体实施方式

本发明提出了一种视频帧内帧间编码通用信息隐藏的检测方法。由于视频帧内帧间编码信息隐藏本质上都是修改了视频解码帧图像像素值，因此本发明从图像域的角度出发，设计了一种视频隐写分析卷积神经网络，将特征提取和分类模块整合到一个可训练的网络模型框架下，以数据驱动的形式自动学习特征并实现分类。本发明所构建的视频隐写分析卷积神经网络共包含1个残差卷积层、6个卷积层、4个池化层、1个隐写残差单元、1个全连接层以及1个Softmax层。其中，残差卷积层和隐写残差单元的概念由本发明首次提出。残差卷积层用于获得隐写残差信号特征图，包含34个卷积核，使用本发明预先设计的固定参数进行初始化。此外，残差卷积层使用本发明提出的“带有可学习参数的截断线性单元”作为激活函数；隐写残差单元由本发明针对隐写分析问题专门设计而来，该结构能够提升网络对隐写残差信号的学习能力。

下面结合附图对本发明作进一步的描述。

本发明提出了一种视频帧内帧间编码通用信息隐藏的检测方法。由于视频帧内帧间编码信息隐藏本质上都是修改了视频解码帧图像像素值，因此本发明从图像域的角度出发，设计了一个视频隐写分析卷积神经网络，将特征提取和分类模块整合到一个可训练的网络模型框架下，以数据驱动的形式自动学习特征并实现分类，从而有效解决了现有方法所存在的问题，网络结构如图1所示，下面将对该方法进行详细介绍：

步骤1)建立和训练视频隐写分析卷积神经网络；

视频隐写分析卷积神经网络输入图片为大小256×256的灰度图像。

如图1所示，本发明所构建的视频隐写分析卷积神经网络包含1个残差卷积层、6个卷积层、4个池化层、1个隐写残差单元、1个全连接层以及1个Softmax层。

残差卷积层“ResConv”用于实现残差计算功能。这一层非常重要，因为现有的卷积神经网络倾向于从图像内容中学习特征，而嵌入的秘密信息是与图像内容相独立的。本层的作用就是求取与图像内容无关的残差特征。残差卷积层与普通卷积层的区别即卷积核参数采用固定值进行初始化。该层为视频隐写分析卷积神经网络的第一层，输入数据为256×256的单通道图像数据，该层包含34个尺寸为5×5×1的滤波器，其中1表示通道数。图2为残差卷积层34个滤波器的初始化参数可视化图像。卷积的步长为1并采用本发明提出的PTLU作为激活函数，阈值T＝7。PTLU激活函数将在后续步骤进行介绍。该层的输出为34个尺寸为252×252的特征图。

卷积层“Conv1”、“Conv2”、“Conv3”，均包含34个尺寸为3×3×34的滤波器，步长为1，采用PTLU作为激活函数。其中，卷积层“Conv1”的输出为34个尺寸为250×250的特征图，卷积层“Conv2”的输出为34个尺寸为248×248的特征图，卷积层“Conv3”的输出为34个尺寸为246×246的特征图。卷积层“Conv4”，包含32个3×3×34的滤波器，采用PTLU作为激活函数，输出为32个尺寸为28×28的特征图。卷积层“Conv5”，包含16个3×3×32的滤波器，步长为1，采用PTLU作为激活函数，输出为16个尺寸为12×12的特征图。卷积层“Conv6”，包含16个3×3×16的滤波器，步长为3，采用PTLU作为激活函数，输出为16个尺寸为4×4的特征图。需要说明的是，本发明在每个卷积层激活函数之前均采用批量标准化操作对数据进行标准化处理。

针对视频隐写分析问题，提出了一种新的激活函数——带有可学习参数的截断线性单元(Parametric TLU，PTLU)，如图3所示。其定义为：

对于PTLU，负半轴非截断部分的系数不是恒定的，可以自适应的学习得到。PTLU包含两种模式，分别是共享模式与独立模式。PTLU采用共享模式时，同一个卷积层的所有通道共享同一个参数α；采用共享模式时，α的梯度可由下式求得：

其中，ε表示目标函数，x_i表示第i个通道的输入，表示从网络深层反向传播返回的梯度值。其中激活函数的梯度可由下式求得：

参数更新时采用动量更新方法：

其中，μ表示动量参数，γ表示学习率。

采用独立模式时，同一个卷积层的每个通道均独立学习一个参数α_i，i表示通道号。PTLU基于反向传播进行参数训练。采用独立模式时，参数{α_i}的更新公式可基于链式法则推导得到。某一层中第i个通道对应参数α_i的梯度值可由下式求得：

参数更新时采用动量更新方法：

其中，μ表示动量参数，γ表示学习率。

本发明针对隐写检测问题对传统的残差单元结构进行了改进，提出了一种隐写残差单元结构。图4(a)为传统残差单元结构，其通过在传统的CNN网络结构中增加恒等映射，将原始所需要学习的函数F(x)转换为F(x)+x。这个简单的加法并不会给网络增加额外的参数和计算量，同时却可以大大增加模型的训练速度、提高训练效果，并且当模型的层数加深时，这个简单的结构能够很好的解决退化问题。本发明提出的隐写残差单元如图4(b)所示，相较于传统残差单元，隐写残差单元将所需要学习的函数由F(x)+x改为x-F(x)。在隐写分析问题中，隐写残差单元的的输入数据x可以认为是载体图像内容c与隐写残差信号m之和，即：

x＝c+m

理想情况下，输入数据x中的载体图像内容部分已经在之前的处理中被滤除干净，则此时载体图像内容部分c＝0。但是，在实际情况下，载体图像内容部分往往存在残留，即c≠0。隐写残差单元的目的就是进一步对载体图像内容进行抑制，从而减小c。在隐写残差单元中，F(x)用于滤除隐写残差信号m，仅保留载体图像内容c，则x-F(x)可以尽可能的保留隐写残差信号m。因此，隐写残差单元非常适合于学习隐写残差信号m。

本发明使用了两个隐写残差单元，每个隐写残差单元中包含两个卷积层，每个卷积层均包含34个3×3×34的滤波器，步长为1，边缘填充，采用ReLu作为激活函数并在激活函数前进行Batch Normalization处理。由于进行了边缘填充，每个卷积层的输出特征图尺寸与输入相同。残差卷积层“ResBlock1”的输出为34个123×123的特征图。残差卷积层“ResBlock2”的输出为34个61×61的特征图。

全连接层在整个卷积神经网络中起到“分类器”的作用；全连接层结合Softmax层实现最终的二分类，即判定输入图片隐写还是未隐写。

如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的“分层特征表示”映射到样本标记空间的作用。本发明所构建的视频隐写分析卷积神经网络中，全连接层包含两个神经元。

批量标准化(Batch Normalization，BN)操作用于在训练中将训练批次B中的每个数据项x_i标准化为y_i，可表示为：

其中，γ和β为批量标准化参数，定义为：

其中，E_B(x_i)和Var_B(x_i)分别表示x_i在B中均值和方差。批量标准化的主要功能是强制使数据远离饱和区域。鉴于此优点，一个包含批量标准化的神经网络对参数初始化相对不敏感并且收敛速度快于无批量标准化的网络。

使用池化层有三个方面的作用：一是可以使输入特征维度变小，从而减小整个网络的参数和计算数量，控制过拟合；二是可以使网络对于输入图像中更小的变化、冗余和变换具有不变性，即输入的微小冗余将不会改变池化的输出；三是可以帮助获取图像最大程度上的尺度不变性，即从宏观的角度来说池化不会影响图像内目标的相对位置。

特征提取部分包含四个池化层，均采用均值池化方式。池化层“AvgPool1”的核大小为2×2，步长为2，输出为34个123×123的特征图。池化层“AvgPool2”的核大小为3×3，步长为2，输出为34个61×61的特征图。池化层“AvgPool3”的核大小为3×3，步长为2，输出为34个30×30的特征图。池化层“AvgPool4”的核大小为2×2，步长为2，输出为32个14×14的特征图。

步骤2)基于视频隐写分析卷积神经网络实现视频帧内帧间编码通用信息隐藏检测，具体包括：

步骤2-1)在针对帧内帧间编码调制的通用信息隐藏检测方法中，基于预测模式和运动矢量等特定编码域的隐写分析思想不再适用。因此，需要从图像域入手，即基于最终的图像像素值判定隐写状态。对于待检测的压缩视频数据，首先利用视频解码函数库对其进行解码得到视频帧。本发明采用ffmpeg视频解码函数库。

步骤2-2)如果解码得到的视频帧尺寸大于256*256，则利用图像裁剪方法将解码图像裁剪为大小256*256的不同图像块，并以这些图像块作为卷积神经网络的输入。裁剪时，从图像左上角开始，从左向右，从上向下依次进行裁剪。如果最右侧剩余图像宽度不足256，则裁剪窗口向左平移至宽度刚好满足256。如果最下方剩余图像宽度不足256，则裁剪窗口向上平移至高度刚好满足256。

步骤2-3)将步骤2-2得到的图像块集合输入隐写分析卷积神经网络，得到每个图像块对应的检测结果。假设一个解码帧对应的图像块个数为N，其中判断为隐写的图像块个数为M，则我们认为该解码帧图像中进行隐写的置信度为N/M。为防止误检，本发明设置阈值W＝0.2。当N/M≥W时，即认为该帧中存在隐写。

步骤2-4)继续解码得到下一帧图像，重新执行步骤2-2)和步骤2-3)，直到全部分析完毕。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种视频帧内帧间编码的通用信息隐藏检测方法，所述方法包括：

步骤1)构建和训练视频隐写分析卷积神经网络；

2.根据权利要求1所述的视频帧内帧间编码的通用信息隐藏检测方法，其特征在于，所述步骤1)具体包括：

所述残差计算模块为1个残差卷积层；

所述分类模块包括依次连接的1个全连接层和1个Softmax层；

3.根据权利要求2所述的视频帧内帧间编码的通用信息隐藏检测方法，其特征在于，所述残差卷积层用于计算与图像内容无关的残差特征；该层包含34个尺寸为5×5×1的滤波器，该层的输出为34个尺寸为252×252的特征图。

4.根据权利要求3所述的视频帧内帧间编码的通用信息隐藏检测方法，其特征在于，在所述特征提取模块中，所述第一卷积层包含34个尺寸为3×3×34的滤波器，步长为1，采用带有可学习参数的截断线性单元PTLU作为激活函数；第一卷积层的输出为34个尺寸为250×250的特征图；

5.根据权利要求4所述的视频帧内帧间编码的通用信息隐藏检测方法，其特征在于，所述带有可学习参数的截断线性单元PTLU定义为：

6.根据权利要求4所述的视频帧内帧间编码的通用信息隐藏检测方法，其特征在于，所述带有可学习参数的截断线性单元PTLU定义为：

7.根据权利要求1-6之一所述的视频帧内帧间编码的通用信息隐藏检测方法，其特征在于，所述全连接层包含两个神经元，所述全连接层结合Softmax层实现最终的二分类，判定输入图片隐写还是未隐写。

8.根据权利要求7所述的视频帧内帧间编码的通用信息隐藏检测方法，其特征在于，所述步骤2)具体包括：

步骤2-4)执行步骤2-2)和步骤2-3)，直到全部视频帧检测完毕。