CN111723735A

CN111723735A - 一种基于卷积神经网络的伪高码率hevc视频检测方法

Info

Publication number: CN111723735A
Application number: CN202010563654.0A
Authority: CN
Inventors: 何沛松; 王宏霞; 刘嘉勇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-09-29
Anticipated expiration: 2040-06-18
Also published as: CN111723735B

Abstract

一种基于卷积神经网络的伪高码率HEVC视频检测方法，通过计算HEVC视频的平均检测分数，与阈值比较判定是否为伪高码率视频。平均检测分数由视频的所有I帧的检测分数取平均值得到。I帧的检测分数的计算方法包括：对视频进行解压缩，提取I帧中亮度分量的所有PU的块大小和PU的帧内预测模式；构建I帧的PU块大小信息图和PU预测模式信息图；计算I帧的解压帧的灰度图中具有最大空间复杂度的正方形区域；构造I帧的PU块大小信息子图和PU预测模式信息子图，输入基于注意力机制的双通道卷积神经网络，得到I帧的检测分数。本发明将编码信息图与基于注意力机制的神经网络相结合能够有效提升检测性能，增强对不同编码设置与视频内容的鲁棒性。

Description

一种基于卷积神经网络的伪高码率HEVC视频检测方法

技术领域

本发明涉及多媒体安全技术领域，具体地，涉及一种基于卷积神经网络的伪高码率HEVC视频检测方法。

背景技术

随着数字视频处理技术和网络传输技术的快速发展，数字视频已经成为人们接触最新资讯的重要方式之一，并在娱乐，司法，金融，医疗和教育等众多领域中得到广泛应用。视频码率常常被视作反应数字视频画面质量的重要指标，高码率视频具有更良好的画面质量。然而，先进的视频编辑软件，例如Adobe Premiere和FFmpeg，能够十分容易的将低码率视频转换为高码率视频，此类经过码率上转的视频称为伪高码率视频。相对的，只经历过一次编码过程的视频称为真实码率视频。伪高码率视频虽然具有较高的码率，但其画面质量较差。此类视频常常被不法分子用于伪装高画质视频吸引网站点击量，也会出现在由不同码率视频拼接而成的篡改视频中。对于网络用户体验以及数字视频的真实性具有严重的负面影响。因此，准确检测数字视频是否为伪高码率视频对于保护数字视频的完整性与真实性具有重要的实际应用价值。此外，在大数据时代的互联网中，海量数字视频也急需可靠高效的方法进行伪高码率视频检测，这对保障网络空间安全具有积极的作用。伪高码率视频是一种特殊的数字视频转码操作已受到国内外学者的重视。现有的伪高码率视频检测方法大致分为基于像素域特征和基于编码域特征两类方法。

在目前公开发表的专利中，有下列专利与本发明方法解决类似的问题；公开号为CN103327320A，题为《一种用于伪高码率视频的鉴定方法》的专利是一种基于像素域特征的检测方法。该方法根据多次重编码后伪高码率视频客观质量非单调下降的特征构建特征曲线，利用其拟合系数提取检测特征并结合支持向量机分类器对伪高码率视频进行检测。然而，此方法存在以下局限性：1)此方法在特征提取过程中需要进行多次重编码和解码，当输入视频分辨率较高时运算效率会明显降低。2)此方法根据解压帧的客观质量构造特征曲线，容易受到不同转码参数的影响，例如不同的视频编码标准等，鲁棒性较差。

参考文献[1](X.Liang,Z.Li,Z.Li,Z.Zhang:Fake Bitrate Detection of HEVCVideos Based on Prediction Process.Symmetry 11(7):918(2019))公开了一种基于预测过程信息的伪高码率HEVC视频检测方法。该方法利用编码单元的划分模式和预测单元的划分模式等编码信息构建统计特征，并结合支持向量机分类器对伪高码率视频进行检测。该算法运算效率较快，但存在以下不足：1)此方法的检测特征中包含帧间编码预测单元划分模式信息，因此无法对只包含I帧的伪高码率视频进行检测。2)此方法将不同编码信息的出现频率用于构建检测特征，无法反映编码信息的空间分布规律。因此，对伪高码率HEVC视频编码域的异常痕迹表征能力有限，对多样的视频内容泛化能力较差。

参考文献[2](P.He,H.Li,B.Li,H.Wang and L.Liu,Exposing Fake BitrateVideos Using Hybrid Deep-learning Network from Recompression Error,in IEEETransactions on Circuits and Systems for Video Technology,2019,Early Access.)公开了一种基于重编码误差及复合神经网络的伪高码率HEVC视频检测方法。该方法首先采用一次重编码过程，然后在像素域计算重编码误差并进行分块。将误差块输入复合神经网络对伪高码率视频进行检测。该算法在视频转码设置单一的情况下性能良好，但存在以下不足：1)当待测视频的编码过程与提取重编码误差的重编码过程存在编码参数不同的情况时，该方法的检测性能会出现明显下降，可靠性较差，不利于在实际取证场景下应用。2)此方法采用的复合神经网络对于不同来源的输入特征采用简单的拼接操作进行融合，容易造成网络参数过多的局限，增加对训练样本过拟合的风险。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于卷积神经网络的伪高码率HEVC视频检测方法。

实现本发明目的的技术方案如下：

一种基于卷积神经网络的伪高码率HEVC视频检测方法，包括：

计算HEVC视频的平均检测分数

与阈值T_f进行比较：若大于T_f则为伪高码率HEVC视频，反之则为真实码率HEVC视频；

所述计算HEVC视频的平均检测分数

的方法为：计算得到HEVC视频的每个I帧(Intra-coded frame，帧内编码帧)的检测分数s_fake，将所有I帧的检测分数的平均值作为平均检测分数

即

T表示I帧的总数，t表示I帧的序号；

其中，计算I帧的检测分数s_fake的方法为：

步骤1.对HEVC视频进行解压缩，得到I帧的解压帧，并提取I帧中亮度分量的所有PU(Prediction Unit，预测单元)的块大小和PU的帧内预测模式；

步骤2.构建I帧的PU块大小信息图F_s和PU预测模式信息图F_p；F_s和F_p均为M×N的矩阵，M×N为I帧的分辨率；对于I帧的解压帧中坐标为(i,j)的像素，根据其所属PU的块大小c×c，令F_s(i,j)＝log₂(c)，i∈{1,...,M},j∈{1,...,N}，c表示块的边长；对于I帧的解压帧中坐标为(i,j)的像素，根据其所属PU的帧内预测模式，若为平面模式则令F_p(i,j)＝0，若为均值模式则令F_p(i,j)＝1，若为角度预测模式q则令F_p(i,j)＝q，q∈{2,3,...,34}；其中，角度预测模式的预测方向及编号方式与HEVC标准一致；

步骤3.计算I帧的解压帧的灰度图中具有最大空间复杂度的正方形区域；包括

3.1计算I帧的解压帧的灰度图

3.2将灰度图

分割为互不重叠的b×b正方形区域B_k；其中，b和k分别表示正方形区域的边长和编号，

表示向下取整；B_k左上角像素点的坐标为

表示向上取整；

3.3计算正方形区域B_k的空间复杂度

其中，

为水平二维图像熵，

为垂直二维图像熵，

其中，

表示在正方形区域B_k中灰度图

的像素与其水平右侧相邻像素的取值分别为u和v的情况出现的次数，

表示在正方形区域B_k中灰度图

的像素与其垂直下侧相邻像素的取值分别为u和v的情况出现的次数，u,v∈{0,1,...,255}；m、n分别表示灰度图

中像素的横、纵坐标，and表示逻辑运算与操作；δ(·)表示指示函数，当指示函数中的条件成立时，指示函数取值为1，反之取值为0；

3.4提取灰度图

中具有最大空间复杂度的正方形区域

其中，

步骤4.构造I帧的PU块大小信息子图和PU预测模式信息子图，输入基于注意力机制的双通道卷积神经网络，得到I帧的检测分数；包括

4.1构造I帧的PU块大小信息子图和PU预测模式信息子图，即大小均为r×r的矩阵

和

和

的元素赋值为

其中，x,y∈{1,...,r}，x_max和y_max分别为I帧的灰度图

中具有最大空间复杂度的正方形区域

的左上角元素的横、纵坐标；

4.2构造基于注意力机制的双通道卷积神经网络并进行训练；所述神经网络：

包括结构相同的通道1和通道2；所述通道1由多个相同的卷积模块依次连接之后再连接一个全连接层；所述卷积模块包括依次连接的卷积层、非线性激活层和池化层；其中，非线性激活层采用线性整流函数f(x)＝max(x,0)，池化层采用平均池化操作；所述通道1和通道2的输出分别为特征向量f₁和f₂；

还包括，基于注意力机制的特征融合模块，其特征融合过程为：

f_c＝w₁f₁+w₂f₂；

其中，f_c为融合特征，

w₁和w₂分别表示特征向量f₁和f₂的加权系数；h₁＝f_kernel⊙f₁，h₂＝f_kernel⊙f₂，f_kernel与f₁和f₂具有相同的维度，h₁和h₂分别表示特征向量f₁和f₂的重要性，f_kernel为特征融合模块的网络参数，⊙表示向量内积运算；

还包括，将融合特征f_c输入具有两个神经元的全连接层，得到向量[z₁,z₂]；再将向量[z₁,z₂]通过非线性激活函数

即softmax函数，得到概率向量[s_fake,s_real]，其中j'∈{1,2}；

4.3将I帧的

和

分别输入基于注意力机制的双通道卷积神经网络的通道1和通道2，求得概率向量[s_fake,s_real]，将s_fake作为I帧的检测分数。

进一步的技术方案为：所述基于注意力机制的双通道卷积神经网络进行训练的方法，具体为：

按照步骤1到步骤4.1的方法，提取训练集中HEVC视频的I帧的

和

构成训练样本x'；将训练样本x'的

和

分别输入基于注意力机制的双通道卷积神经网络的通道1和通道2，求得训练样本x'的概率向量[s_fake,s_real]；所述训练集中HEVC视频包括伪高码率HEVC视频和真实码率HEVC视频，如训练样本x'由伪高码率HEVC视频提取则设置训练样本x'的标签y'＝1，如训练样本x'由真实码率HEVC视频提取则设置训练样本x'的标签y'＝0；

计算交叉熵C，

其中N_s表示训练样本x'的总数；对交叉熵C利用梯度下降及反向传播算法更新网络参数。

进一步的技术方案为：还包括阈值T_f的计算方法，具体为：根据训练集中所有伪高码率HEVC视频及真实码率HEVC视频计算阈值T_f，包括：

5.1按照计算HEVC视频的平均检测分数

的方法，计算训练集中每个伪高码率HEVC视频的平均检测分数，构成集合

其中

为训练集中第n₁个伪高码率HEVC视频的平均检测分数，N₁为训练集中伪高码率HEVC视频的总数；

5.2按照计算HEVC视频的平均检测分数

的方法，计算训练集中每个真实码率HEVC视频的平均检测分数，构成集合

其中

为训练集中第n₂个真实码率HEVC视频的平均检测分数，N₂为训练集中真实码率HEVC视频的总数；

5.3将S₁作为观测样本集合，利用正态分布N(μ₁,σ₁ ²)拟合S₁的样本分布，μ₁和σ₁ ²分别表示正态分布的均值和方差；采用最大似然估计方法计算该分布的参数：

5.4将S₂作为观测样本集合，利用正态分布N(μ₂,σ₂ ²)拟合S₂的样本分布，μ₂和σ₂ ²分别表示正态分布的均值和方差；采用最大似然估计方法计算该分布的参数：

5.5计算阈值T_f，

与现有技术相比，本发明具有如下的有益效果：

1.本发明提出了一种编码信息图的构建方法，将PU块大小信息图和PU预测模式信息图作为基于注意力机制卷积神经网络的输入。相比于将解压帧的像素信息作为神经网络的输入，编码信息图对于视频在互联网传输过程中存在的转码等干扰具有更加良好的鲁棒性。

2.早期检测算法均通过特征工程结合像素域或编码域信息的统计特性设计检测特征，可扩展性较差，对于不同场景的适用性存在局限。本发明通过卷积神经网络模型从训练样本的编码信息图中自动学习和提取检测特征，对于伪高码率视频所产生的痕迹具有更强的表征能力。并且，通过选择具有最大空间复杂度的区域能够帮助挖掘伪高码率视频I帧中显著的异常痕迹。此外，基于注意力机制的特征融合方法能够通过网络模型学习过程调整对于不同通道输出特征的权重系数，特征学习过程对于多样的视频内容具有更强的自适应性。因此，本发明更适用于情况复杂的实际取证应用场景。

3.本发明在阈值计算时考虑了训练集中伪高码率HEVC视频和真实码率HEVC视频平均检测分数的分布情况，能够根据训练集的具体特性进行阈值的自适应调整，具有更高的可靠性。

附图说明

图1为本发明的流程图。

图2为HEVC标准的帧内预测模式中，亮度分量不同角度预测模式的预测方向与编号的对应关系图。

图3为将解压帧的灰度图分割为互不重叠的正方形区域的示意图。

图4为基于注意力机制的双通道卷积神经网络的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

一种基于卷积神经网络的伪高码率HEVC视频检测方法，包括：

步骤1.对输入的HEVC视频进行解压缩，在解压缩过程中提取每个I帧(Intra-coded frame，帧内编码帧)中亮度分量的所有PU(Prediction Unit，预测单元)的块大小和PU的帧内预测模式两种信息。完成解压缩过程，得到输入的HEVC视频每个I帧的解压帧。

步骤2.对于每个I帧，根据步骤1所得PU的两种信息，构建PU块大小信息图F_s和PU预测模式信息图F_p；F_s和F_p均为M×N的矩阵，M×N为I帧的分辨率。例如：输入视频分辨率为720p，则M＝720且N＝1280。对于I帧的解压帧中坐标为(i,j)的像素，根据其所属PU的块大小c×c，c表示块的边长(在HEVC视频编码标准中，c可能的取值属于集合{4,8,16,32,64})，令F_s(i,j)＝log₂(c)，i∈{1,...,M},j∈{1,...,N}；对于I帧的解压帧中坐标为(i,j)的像素，根据其所属PU的帧内预测模式，若为平面模式则令F_p(i,j)＝0，若帧内预测模式为均值模式则令F_p(i,j)＝1，若帧内预测模式为角度预测模式q则令F_p(i,j)＝q，q∈{2,3,...,34}；其中，角度预测模式的预测方向及编号方式与HEVC标准一致，如图2所示。

步骤3.对于每个I帧，根据步骤1所得解压帧，计算其解压帧的灰度图中具有最大空间复杂度并且大小为b×b的正方形区域B_k，b和k分别表示正方形区域的边长和编号。

步骤3.1对于每个I帧，计算其解压帧的灰度图

以第t个I帧的解压帧为例，

其中

分别表示解压帧的RGB三个颜色分量。灰度图

的计算方式为：

T表示I帧总数。其中(i,j)表示解压帧中像素的横、纵坐标，i∈{1,2,...,M}并且j∈{1,2,...,N}，M和N分别表示解压帧的高和宽。

步骤3.2将每个I帧对应的灰度图

分割为互不重叠的b×b正方形区域B_k，如图3所示。其中b和k分别表示正方形区域的边长和编号，

表示向下取整运算。B_k左上角像素点的坐标为

其中

mod(·,·)表示取模(取余数)运算，而

表示向上取整运算。根据数字视频的常见分辨率设置，b的推荐取值为224。计算每一个正方形区域B_k的空间复杂度

空间复杂度由两种二维图像熵构成，包括水平二维图像熵

和垂直二维图像熵

其计算方式分别为：

其中，

表示在正方形区域B_k中灰度图

的像素与其水平右侧相邻像素的取值分别为u和v的情况出现的次数，即

(m,n)表示灰度图

中像素的横纵坐标，and表示逻辑运算与操作。δ(·)表示指示函数，当指示函数中的条件成立时，指示函数取值为1，反之，取值为0。

表示在正方形区域B_k中灰度图的像素与其垂直下侧相邻像素的取值分别为u和v的情况出现的次数，即

最终，正方形区域B_k的空间复杂度

步骤3.3对每个I帧中所有正方形区域B_k，提取其中具有最大空间复杂度的正方形区域

其中

记正方形区域

左上角元素的坐标为(x_max,y_max)。

步骤4.对于每个I帧，根据步骤3所得

的位置，分别提取该I帧的PU块大小信息子图

和PU预测模式信息子图

将

和

输入基于注意力机制的双通道卷积神经网络，获得该I帧的检测分数。

步骤4.1利用步骤3得到的具有最大空间复杂度的正方形区域

对于每个I帧，构建大小为r×r的矩阵

即I帧的PU块大小信息子图，r为矩阵的行数和列数。其元素的赋值方式为：

对于每个I帧，构建大小为r×r的矩阵

即I帧的PU预测模式信息子图。其元素的赋值方式为：

本步骤中，x,y∈{1,...,r}。r建议与b具有相同的取值，因此本实施例中r的推荐取值为224。步骤4.2构造基于注意力机制的双通道卷积神经网络，网络结构如图4所示。该网络包含两个输入通道，对于每个I帧，将

和

分别输入通道1和通道2。两个通道具有相同的网络结构：每个通道均由3个卷积模块依次连接而成，也可以采用更多数量的卷积模块。每个卷积模块中依次连接一个卷积层，一个非线性激活层和一个池化层。其中，卷积层的卷积核尺寸均为3×3，卷积步长均为1×1。三个卷积模块中卷积层的输出特征图数量分别为32，64和128。非线性激活层均采用线性整流函数(Rectified Linear Unit,简称ReLU)，其形式为f(x)＝max(x,0)。池化层均采用平均池化操作，池化操作窗口尺寸为2×2，池化操作步长为2×2。在3个卷积模块之后再连接一个全连接层，该全连接层的神经元数量为128。通道1和通道2的输出特征向量(分别记为

和

)输入一个基于注意力机制的特征融合模块。该模块的特征融合过程为：

f_c＝w₁f₁+w₂f₂

其中，w_i'表示特征向量f_i'的加权系数，

h_i'表示特征向量f_i'的重要性，h_i'＝f_kernel⊙f_i'，

表示向量点乘(内积)运算。从[h₁,h₂]到[w₁,w₂]的计算过程即为softmax函数。

为基于注意力机制的特征融合模块的网络参数。f_kernel与f₁和f₂具有相同的维度。然后将融合特征f_c输入一个具有两个神经元的全连接层。该全连接层之后连接一个非线性层，该非线性层记为L_final。该非线性层的非线激活函数采用softmax函数，其形式为

其中j'∈{1,2}，[z₁,z₂]表示softmax函数的输入向量；该softmax函数输出的概率向量为[s_fake,s_real]，分别代表输入I帧属于伪高码率HEVC视频和输入I帧属于真实码率HEVC视频的概率。最终将s_fake作为输入I帧的检测分数。

使用上述网络模型之前，需要对该网络模型的参数进行训练，本发明还提供了一种训练方法。具体地，收集多个伪高码率HEVC视频和真实码率HEVC视频构成训练集。综合考虑运算复杂度和网络模型性能，两类HEVC视频的数量均建议为500，每段视频包含的I帧数目约为50。将从伪高码率HEVC视频中I帧提取的PU块大小信息子图

及PU预测模式信息子图

作为正样本；从真实码率HEVC视频中I帧提取的PU块大小信息子图

及PU预测模式信息子图

作为负样本。将正样本的标签y'置为1，将负样本的标签y'置为0。利用训练样本输入网络得到的概率s_fake与其标签，计算交叉熵C，

其中x'表示训练样本，N_s表示训练样本总数，y'表示训练样本的标签，训练时对交叉熵利用梯度下降及反向传播算法更新网络模型参数，直到网络模型收敛或达到网络参数更新的最大次数，便完成训练。本实施例中，网络模型收敛的条件为交叉熵损失函数的值小于10^-3，网络参数更新的最大次数设置为10³次，梯度下降算法的学习率设置为0.001。

总的来说，该网络的两个通道能够分别学习HEVC视频在PU块大小和PU帧内预测模式两种信息中存在的异常特性，并通过注意力机制模块进行自适应的特征加权融合，提升检测性能。

步骤5.根据训练集中所有伪高码率HEVC视频及真实码率HEVC视频计算阈值T_f。

步骤5.1计算训练集中所有伪高码率HEVC视频的平均检测分数，构成集合

其中

为训练集中第n₁个伪高码率HEVC视频的平均检测分数，N₁为训练集中伪高码率HEVC视频的总数。平均检测分数计算方法如下：对于第n₁个伪高码率HEVC视频，将其每个I帧根据步骤1-步骤4计算检测分数

然后计算该视频所有I帧检测分数的平均值作为平均检测分数，即

T表示该视频中I帧的总数并且t表示I帧的序号。

步骤5.2计算训练集中所有真实码率HEVC视频的平均检测分数，构成集合

其中

为训练集中第n₂个真实码率HEVC视频的平均检测分数，N₂为训练集中真实码率HEVC视频的总数。平均检测分数的计算方法与步骤5.1所述类似。

步骤5.3将S₁作为观测样本集合，利用正态分布N(μ₁,σ₁ ²)拟合S₁的样本分布，μ₁和σ₁ ²分别表示正态分布的均值与方差。采用最大似然估计方法计算该分布的参数：

和

步骤5.4将S₂作为观测样本集合，利用正态分布N(μ₂,σ₂ ²)拟合S₂的样本分布，μ₂和σ₂ ²分别表示正态分布的均值与方差。采用最大似然估计方法计算该分布的参数：

和

步骤5.5计算阈值T_f，具体计算方法为：

步骤6.计算待测HEVC视频的平均检测分数，并与预设阈值T_f进行比较。若大于T_f则待测视频为伪高码率HEVC视频。反之，待测视频为真实码率HEVC视频。

步骤6.1对待测HEVC视频，根据步骤1到步骤5计算其平均检测分数。

步骤6.2将步骤6.1所得的平均检测与阈值T_f进行比较。若大于T_f，则待测视频为伪高码率HEVC视频。反之，待测视频为真实码率HEVC视频。