CN109104609B

CN109104609B - 一种融合hevc压缩域和像素域的镜头边界检测方法

Info

Publication number: CN109104609B
Application number: CN201811063111.1A
Authority: CN
Inventors: 朱威; 商明将; 陈康; 吴远; 钱丽萍; 郑雅羽
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2020-10-30
Anticipated expiration: 2038-09-12
Also published as: CN109104609A

Abstract

本发明涉及一种融合HEVC压缩域和像素域的镜头边界检测方法，包括以下步骤：（1）输入视频码流；（2）解析并统计码流；（3）基于CU深度的运动矢量幅值滤波；（4）基于Intra模式和运动矢量的候选突变P帧分级；（5）突变P帧检测；（6）基于直方图的突变I帧检测；（7）基于突变帧的视频分段；（8）渐变候选帧选取；（9）每帧编码比特数平滑滤波；（10）渐变帧检测；（11）渐变帧合并；以突变P帧、突变I帧和渐变帧为镜头边界。本发明充分利用了HEVC编码过程中产生的编码信息并且辅以直方图比较法，能够有效地检测镜头突变和镜头渐变，相比完全像素域的处理方法极大地减少了计算复杂度。

Description

一种融合HEVC压缩域和像素域的镜头边界检测方法

技术领域

本发明涉及数字视频编码领域，具体涉及一种融合HEVC压缩域和像素域的镜头边界检测方法。

背景技术

随着视频信息技术的快速发展，海量视频数据正在呈现井喷式地增长，传统人为分析视频数据的方法已经难以跟上发展的步伐，视频数据的自动挖掘技术的需求不断增大。视频挖掘的最高目标是实现高层语义的挖掘，其第一步就是分割视频的镜头。

镜头间的变化主要分为突变和渐变：突变就是镜头间直接地切换，即上一镜头尾帧和下一镜头首帧直接相连；而渐变是通过人为处理后逐渐变化的帧序列，即两个镜头间存在若干帧的过渡。镜头边界检测就是找出视频中两个连续镜头之间的变换位置，即准确的定位哪一帧发生了突变以及哪一段发生了渐变。

近些年，高清1080P(1920×1080)视频已经普及，超高清4K(3840×2160)视频正逐渐进入我们的生活和工作。为了应对多样化和高清化的视频压缩性能，国际标准化组织ITU-T的视频编码专家组(VCEG)和ISO/IEC的运动图像专家组(MPEG)于2013年共同推出了新一代的高效率视频编码标准(HEVC)，与上一代编码标准H.264相比，HEVC采用了更为先进的编码技术，在相同视频图像质量的条件下可以节约50％左右的视频码流，同时，为了灵活有效地编码视频图像，HEVC采用了新的处理单元划分机制(见G.J.Sullivan,J.R.Ohm,W.J.Han,and T.Wiegand,Overview of the high efficiency video coding(HEVC)standard，即“高效率视频编码标准概述”，IEEE Transactions on Circuits and Systemsfor Video Technology,vol.22,no.12,pp.1649-1668,Dec.2012)，包括编码单元(CU)、预测单元(PU)和变换单元(TU)，这种划分机制有利于编码器根据视频图像内容特点自适应选择最佳的划分方式。在HEVC中，一帧视频图像被划分成多个不同尺寸的正方形CU进行编码，CU深度为0、1、2、3分别表示大小为64×64、32×32、16×16、8×8的CU编码块，且运动活跃性较大的区域CU尺寸相对较小，运动活跃性较小的区域CU尺寸相对较大；每个CU又被进一步划分为一个或多个PU进行预测，PU的预测模式可以为帧内预测模式(Intra模式)或帧间预测模式(Inter模式)，同一个CU下的PU预测模式相同；PU的帧间预测模式包括SKIP、Inter-2N×2N、Inter-N×N、Inter-N×2N、Inter-2N×N、Inter-2N×nU、Inter-2N×nD、Inter-nL×2N和Inter-nR×2N，在这些帧间编码模式下，每个PU利用之前已编码重建的图像进行预测，得到相应的运动矢量，其中运动矢量幅值的单位为四分之一像素位移；PU的SKIP模式不会对残差进行编码，划分方式与2N×2N模式相同；PU的帧内预测模式包括Intra-2N×2N和Intra-N×N，在这些帧内编码模式下，每个PU利用当前图像内已编码重建的像素进行预测。

目前，镜头边界检测的研究成果主要在像素域，少量的成果在H.264压缩域，而在HEVC压缩域的研究还处在起步之中。现有的像素域中检测方法主要包括像素比较法、直方图比较法、边缘比较法等。压缩域中检测方法主要包括基于变换系数的方法、基于DC图的方法和基于运动矢量的方法等。

申请号为201610670319.4的专利公开一种基于卷积神经网络的镜头边界检测方法。该方法首先将视频分段，计算各段局部阈值，排除段内亮度距离低于阈值的段，对高于阈值的段进行两次二分处理，得到突变边界候选段和渐变边界候选段；然后用卷积神经网络提取段内每帧的特征并利用特征间的余弦距离衡量帧间相似度；最后对突变边界候选段，根据连续两帧的帧间相似度和候选段首末帧的帧间相似度的关系确定该段是否存在突变边界及位置，对渐变边界候选段，计算绝对距离差并绘制曲线，进而确定该段是否为渐变边界，并将相邻的渐变边界融合。

申请号为201610855759.7的专利公开了一种基于HSV颜色直方图和DCT感知哈希的镜头边界检测方法。该方法首先使用基于HSV颜色空间的直方图统计方法计算出相邻两帧图像之间的直方图差异度；接着采用自适应阀值对相邻两帧间的差异度进行镜头边界判别；最后采用基于DCT的感知哈希算法对初检结果进行复检并得出最终的视频镜头边界集合。

申请号为201510253354.1的专利公开了一种基于X264压缩视频的镜头分割方法。该方法首先以X264压缩视频的图像组GOP为单位逐帧解码提取帧序号、帧类型和帧内预测宏块比例；接着根据待测GOP的长度判断当前I帧是否发生镜头突；然后以所述待测GOP中所有P帧的帧内预测宏块比例为样本数据，并根据样本数据的波动程度判断是否需要镜头分割；最后基于预测宏块比例进行镜头分割。

上述方法主要是在像素域或H.264压缩域进行镜头分割，不能完全适用于具有全新编码划分结构的HEVC高清视频码流。HEVC具有灵活的编码机制，其压缩过程中产生的CU深度、PU模式、运动矢量以及帧比特数等编码信息反映了视频图像相邻帧之间的联系，可以用于快速、有效地分割视频镜头。

发明内容

为了降低镜头边界检测的计算复杂度并保证检测精度，本发明主要利用从HEVC码流中解析得到的运动矢量、CU深度、PU预测模式、帧比特数等码流信息，并辅以像素域的直方图信息进行镜头边界检测，提出了一种融合HEVC压缩域和像素域的镜头边界检测方法，所述方法包括以下步骤：

(1)输入视频码流

输入的视频码流为HEVC码流，支持的帧类型为帧内编码帧(I帧)或前向帧间编码帧(P帧)。

(2)解析并统计码流

每帧不同预测模式的PU都对镜头边界检测有重要意义，在Intra模式下，每个PU利用当前图像内已编码重建的像素进行预测，无运动矢量；在Inter模式下，每个PU利用之前已编码重建的图像进行预测，得到相应的运动矢量和残差，其中SKIP模式的运动矢量是通过已编码的相邻PU的运动矢量预测得到，且其没有残差，在本发明中将其单独列出，不计入Inter模式。在HEVC编码过程中，最小的帧间预测PU尺寸为8×4和4×8，因此本发明中取基本粒度为4×4块进行统一的数量统计，可使每帧中各种模式PU总量都可以用若干个4×4块来表示。

解析的码流信息获得每个亮度分量子帧中所有的CU深度、PU模式、4×4像素块在水平和垂直方向上的运动矢量MV_x和MV_y、以及整个编码帧的帧比特数，并记NumBytes_i为第i帧的帧比特数。为了能快速有效地检测镜头边界，需要对这些不同模式的PU进行数量统计。本发明以4×4块为基本粒度单位，统计一帧中对应PU为Intra模式的块个数NumIntra_i、对应PU为除SKIP模式的Inter模式的块个数NumInter_i以及对应PU为SKIP模式的块个数NumSkip_i。

(3)基于CU深度的运动矢量幅值滤波

由于视频编码采用率失真优化技术，码流中的运动矢量并不与真实运动完全匹配，存在少量噪声。因此，本发明对每帧的所有4×4像素块的运动矢量进行基于CU深度的运动矢量幅值滤波，并统计滤波后的幅值非零运动矢量的个数。具体子步骤如下：

(3-1)首先对运动矢量按式(1)计算得到运动矢量幅值MV_ap，再对得到的运动矢量幅值按式(2)进行基于CU深度的运动矢量幅值滤波，滤除极小的和极大的运动矢量幅值。式(2)中，CU_dep表示所属CU的深度；T₀、T₁、T₂、T₃分别表示CU_dep为0、1、2、3时的运动矢量幅值滤波下限阈值，T_m表示全部深度CU的运动矢量幅值滤波上限阈值，这五个阈值之间的关系需满足式(3)，且T₀∈[1,8]、T₁∈[1,6]、T₂∈[1,4]、T₃∈[0,2]、T_m∈[120,200]。

MV_ap＝|MV_x|+|MV_y| (1)

T_m>T₀≥T₁≥T₂≥T₃ (3)

(3-2)统计滤波后运动矢量幅值MV_ap非零的个数NumMvs_i，i为帧索引。

(4)基于Intra模式和运动矢量的候选突变P帧分级

镜头突变是指上一个镜头结束直接到下一个镜头开始，中间没有过度帧。绝大多数情况下，下一镜头开始帧与上一镜头结束帧在视频场景上没有太大的相关性。大部分情况下，突变P帧(下一个镜头的始帧)帧间预测PU数量较少，帧内预测PU数量较多；在部分情况下，下一镜头开始帧与上一镜头结束帧中天空、黑夜等场景较大的单一颜色区域较多，会出现帧间预测PU数量较多，帧内预测PU数量较少。因此本发明利用Intra模式PU数量和运动矢量进行候选突变P帧分级，具体子步骤如下：

(4-1)先利用步骤(2)统计的Intra模式4×4块数量NumIntra_i将全部编码帧初步分为0、1、2三个等级的候选突变P帧，如式(4)，记第i帧的候选突变P帧等级为Clevp_i，其级别越大表示当前帧i为突变帧的可能越大；NumTotal_i表示第i帧中全部4×4块的个数。

(4-2)由于滤波后突变P帧为下一镜头的开始帧，前一帧为上一镜头的结尾帧，故在突变P帧中滤波后的运动矢量数量比较少。因此，接着按式(5)使用步骤(3)统计得到的运动矢量NumMvs_i来对上述候选突变P帧进行二次筛选。若第i帧滤波后的4×4块运动矢量NumMvs_i大于等于4×4块总个数NumTotal_i的四分之一，则认为此帧为0级候选突变P帧，即不可能是突变P帧。

(5)突变P帧检测

经步骤(4)筛选后的候选突变P帧，再针对不同的突变等级使用不同的突变P帧选取方法。由于第一帧是起始帧，不需要进行突变检测，故突变P帧检测从第二帧开始。对于2级候选突变P帧，其Intra模式PU数量较多，Inter模式PU数量较少，突变P帧的相邻帧大多是Intra模式PU数量少且Inter模式PU数量多，可以利用这个差异选取准确的突变P帧；对于1级候选突变P帧，其Intra模式PU数量适中，Inter模式PU数量较多，若突变P帧相对于前一帧背景大致相似，则其中的Inter模式PU的运动矢量有一部分特别大，整个编码帧比特数也相当大。对于0级候选突变P帧，其Intra模式PU数量较少，基本不可能是突变P帧。

因此，本发明按式(6～10)对所有的切换候选P帧按等级选取真正的突变P帧。Ctfp_i表示突变P帧标识，其值为0则表示第i帧为非突变P帧，其值为1则表示第i帧为突变P帧；记Dv为当前帧中Intra模式PU数量与Inter模式PU数量的比例，Dv_i表示第i帧中Intra模式PU数量与Inter模式PU数量的比例，Inter模式PU不包含SKIP模式，式(7)中NumInter_i加1是为了防止分母为零的情况出现；Tcu_i表示第i帧的Intra模式PU比例阈值，能自适应视频序列；Dv_avg表示距第i帧最近的前后各M个P帧的Dv平均值，M∈[1,10]，α₁为阈值调整系数，表示对平均值Dv_avg的增益，α₁∈[4,12]；T_cs表示相邻两帧比特数差值阈值，α₂为阈值调整系数，α₂∈[0.5,0.9]，NumBytes_max为当前编码视频序列中最大帧比特数；Csbyte_i表示第i帧与其前一帧(第i-1帧)的帧比特数差值绝对值。

Tcu_i＝α₁×Dv_avg (8)

T_cs＝α₂×Num Bytes_max (9)

Csbyte_i＝|NumBytes_i-Num Bytes_i-1| (10)

(6)基于直方图的突变I帧检测

经步骤(5)检测出的突变帧为所有的突变P帧，不能检测I帧是否为突变帧，因此需要专门针对I帧进行突变检测。由于第一个I帧为起始帧，本发明从第二个I帧开始，提取每个I帧以及其前一帧的Y分量直方图，将这两帧中提取的直方图采用相关系数的方式进行距离度量，相关系数最小为0表示直方图所在的两帧相关性最低，最大值为1表示直方图所在的两帧相关性最高，其值越大相关性越大，从而利用计算得到的相关系数判别当前I帧是否为突变I帧。具体方法如下：

从第二个I帧开始，依次提取序列中的I帧以及其前一帧图像的Y分量图，并将它们的Y分量图使用0～255均匀划分的16个区间进行直方图统计；然后利用OpenCV算法库的直方图匹配函数计算这两帧直方图的相关系数CORREL(i-1,i)，其中i表示I帧的帧序号索引；最后按式(11)对所有的I帧进行基于直方图的突变帧检测。式(11)中，CtfI_i表示突变I帧标识，其值为0则表示第i帧为非突变I帧，其值为1则表示第i帧为突变I帧；T_pcs为相邻两帧直方图相关系数阈值，T_pcs∈[0.4,0.8]，取值越小则判定突变I帧越严格；即当相关系数CORREL(i-1,i)小于阈值T_pcs，则判定此I帧为突变帧，否则，此I帧不是突变帧。

(7)基于突变帧的视频分段

视频编码时，在突变帧前后的十几帧可能会有连续的Intra模式PU数量不为零的帧，而连续几帧Intra模式PU数量非零的特征也是确定渐变候选帧的重要依据，故经步骤(5)和步骤(6)检测到的突变帧极有可能会再次被误检为渐变帧。因此，为了更为准确地检测渐变帧，本发明利用已检测到的突变帧将整个编码视频进行分段，避免将突变帧及其周围帧误检为渐变帧。具体分段方法如下：

使用这些按顺序检测到的突变P帧、突变I帧、视频首帧和尾帧作为分段点，将整个视频分为多个片段视频。镜头渐变是一个过程，通常在两个镜头之间至少会持续十几帧，并且一个镜头本身会至少持续十几帧，这些组成小段视频的本身帧数如果太少就不会有渐变帧。故本发明将帧数小于N_L的片段视频直接视为不存在渐变帧，对于符合这一条件的片段视频不再进行下一步检测，N_L∈[30,90]。对于进行下一步检测的片段视频，接着对这些片段视频的首N_b帧和尾N_b帧不做镜头渐变检测，从而最大程度排除突变帧及其附近帧对渐变检测的影响，N_b∈[10,30]。

(8)渐变候选帧选取

镜头的渐变是一个连续的过程，在镜头渐变期间，当前帧与其前一帧总是会有较多相似的区域和较少差异比较大的区域，即帧间预测较多和帧内预测较少。Inter模式PU(不包含SKIP模式)大多与已经编码好的前向参考帧整体上相似较多且有一些细微差别，而小部分亮度变化明显、运动比较剧烈等差异比较大的区域的PU会采用Intra模式编码。渐变是两个镜头切换的过渡过程，编码帧比特数不会太小，有不少的Intra模式PU。

因此，本发明采用连续五帧的Intra模式4×4块个数和编码帧比特数来初步选出渐变候选帧，利用式(12～16)对步骤(7)的每个分段视频选取渐变候选帧；Dsel_i表示第i帧的渐变候选帧标识，Dsel_i为1代表第i帧被选为渐变候选帧，为0代表不是渐变候选帧；Ict_i表示以第i帧为中心的连续五帧中Intra模式4×4块个数大于等于T_gia的帧数量，Bct_i表示以第i帧为中心的连续五帧中原始帧比特数大于等于T_gbt的帧数量；当以第i帧为中心的连续五帧中Ict_i大于等于4并且Bct_i等于5，则判定第i帧为渐变候选帧；由于Ict_i和Bct_i是以i帧为中心的连续五帧统计得到，减少了这五帧中的I帧对渐变帧检测的影响；T_gia为Intra模式4×4块个数阈值，由式(15)计算得到，其阈值系数β₁∈[0.001,0.1]，NumTotal_i为第i帧4×4块总个数；T_gbt为帧比特数阈值，由式(16)计算得到，其阈值系数β₂∈[0.1,0.5]，MeanByte为全部帧比特数的平均值。

T_gia＝β₁×NumTotal_i (15)

T_gbt＝β₂×MeanByte (16)

(9)每帧编码比特数平滑滤波

属于同一个镜头的视频帧由于背景相似性较大，相邻帧在时域上相关性大，在编码时通常会有比较相近的帧比特数。通常不同镜头之间的背景、编码的预测信息、编码的残差信息差异较大，编码帧的帧比特数差异也会比较大。镜头内一般会有较为相似的相邻帧，它们的帧比特数与前后差异较大。本发明对步骤(2)解析得到的所有帧比特数进行平滑滤波，以得到渐变帧中比较明显的帧比特数先逐渐增加后逐渐减少的特征，具体子步骤如下：

(9-1)先对帧比特数进行中值滤波，以第i帧为中心的连续五帧的帧比特数进行从小到大的排序，并将排好序后的中间位置的帧比特数记为MidBytes_i，对于整个编码视频的首N_mid帧和尾N_mid帧的MidBytes_i置零处理，N_mid∈[2,10]。经过中值滤波之后，可以消除单个I帧比特数过大对后续判别的影响。

(9-2)中值滤波后的编码帧比特数已经能大致反映每个镜头内每帧编码帧比特数的平均水平。实际码流的镜头之间的渐变区域的帧比特数大都有先逐渐增加后逐渐减少的趋势，本发明进一步对上述中值滤波后的帧比特数MidBytes_i使用均值滤波来凸显这个特点：以第i帧为中心的连续九帧的帧比特数进行均值滤波，记均值滤波后的帧比特数为AvgBytes_i，对于一个视频序列的开始N_avg帧与结束前N_avg帧，大多不会有镜头间的转换，所以直接对此边界区域的AvgBytes_i置零，N_avg∈[3,10]。

(9-3)均值滤波后编码视频各处的帧比特数比较平滑，渐变帧区域的帧比特数大部分符合先逐渐增加后逐渐减少的过程(逐渐增加即后一帧的帧比特数要大于等于其前一帧的帧比特数，逐渐减少即后一帧的帧比特数要小于其前一帧的帧比特数)。本发明在帧比特数均值滤波之后，对除开始五帧和结束五帧外的每帧进行逐渐增加后逐渐减少的连续帧数进行统计，记Wb_i为包含第i帧的连续帧的均值滤波后帧比特数符合先逐渐增加后逐渐减小特征的帧数量，若逐渐增加或逐渐减小的帧数为一，则直接将Wb_i置零。

(10)渐变帧检测

渐变是两个镜头间逐渐转变的过程，当前帧主要参考前面已经编码帧，而且会与前一帧有一些细微的差别，还会有部分变化比较大的区域，即大部分渐变帧会采用较多的Inter模式PU进行帧间预测编码、较少的Intra模式PU进行帧内预测编码、以及较少的SKIP模式PU进行无残差的帧间编码。

因此，本发明在步骤(8)初步选取渐变候选帧后，利用SKIP模式PU数量和步骤(9)中平滑滤波后帧比特数先逐渐增加后逐渐减小的帧数Wb_i按式(17～20)确定最终的渐变帧。Dtf_i表示第i帧的渐变帧标识，0表示不是渐变帧，1表示是渐变帧；NumSkip_i表示第i帧中对应PU为SKIP模式4×4块个数；Tsk₁、Tsk₂和Tsk₃分别为渐变帧判别的三个范围阈值，不同的SKIP模式4×4块数量范围的镜头渐变检测有所差异，其中阈值调整系数γ₁∈[0.01,0.05]，阈值调整系数γ₂∈[0.1,0.3]，阈值调整系数γ₃∈[0.2,0.4]，NumTotal_i为第i帧4×4块总个数，这样可以比较全面地覆盖各种SKIP模式PU数量的渐变候选帧，且能分辨率自适应；Wb_i由步骤(9)计算得到，表示包含第i帧的连续帧中符合先逐渐增加后逐渐减小特征的帧数量。Td₁、Td₂和Td₃分别为不同范围的Wb_i阈值，Td₁∈[10,20]，Td₂∈[20,30]，Td₃∈[30,50]。当第i帧中对应PU为SKIP模式4×4块个数小于等于Tsk₁，且Wb_i大于等于Td₁，则判定第i帧为渐变帧；当第i帧中对应PU为SKIP模式4×4块个数大于Tsk₁并小于等于Tsk₂，且Wb_i大于等于Td₂，则判定第i帧为渐变帧；当第i帧中对应PU为SKIP模式4×4块个数大于Tsk₂并小于等于Tsk₃，且Wb_i大于等于Td₃，则判定第i帧为渐变帧。

Tsk₁＝γ₁×NumTotal_i (18)

Tsk₂＝γ₂×NumTotal_i (19)

Tsk₃＝γ₃×NumTotal_i (20)

(11)渐变帧合并

经过步骤(10)渐变检测后，检测出符合要求的渐变帧可能是一个渐变过程中的几帧，需要对这些帧进行合并。渐变过程持续的帧数不是特别的一致，少的会持续十五帧，一般的会持续二十多帧，多的会达到六十多帧。检测到符合要求的渐变帧位置也各不相同，有的在渐变开始区域，有的在渐变中间区域，有的在渐变结束区域，镜头本身也会至少持续十帧。

因此，本发明将合并的帧间距离设为N_merge，将前后帧间序号差小于等于N_merge的渐变帧两两合并为一个个帧集合，并取每个集合靠近中心位置的帧作为该渐变区域的渐变帧，N_merge∈[10,30]。最终输出步骤(5)检测到的突变P帧，步骤(6)检测到的突变I帧，以及当前步骤检测到的渐变帧，这些检测到的突变帧和渐变帧即为组成镜头边界。

本发明的技术构思为：首先对编码信息进行预测模式统计，并对每帧的运动矢量进行基于CU深度的幅值滤波；接着根据Intra模式PU数量将所有P帧分为三个不同等级的候选突变P帧，并使用每帧滤波后的运动矢量数量对所有的候选突变P帧进行二次筛选；然后利用每帧的Intra模式PU数量、Inter模式PU数量和编码帧比特数检测出突变P帧，并进一步利用像素域的直方图匹配对I帧进行突变检测；以及利用已检测出的突变帧、首帧和尾帧将整个视频划分为小段视频；接着连续五帧Intra模式PU数量和连续五帧编码后的帧比特数筛选出渐变候选帧，并对每帧编码的帧比特数进行中值滤波和均值滤波；再采用SKIP模式PU数量和平滑后的帧比特数对这些候选的渐变帧进行二次筛选；最后合并选取的渐变帧，使每个镜头渐变区只有一帧渐变帧。

与现有技术相比，本发明具有以下有益效果：

本发明提出一种融合HEVC压缩域和像素域的镜头边界检测方法。该方法与现有技术相比，具有如下特点和优点：本发明充分利用了HEVC编码过程中产生的编码信息并且辅以直方图比较法，能够有效地检测镜头突变和镜头渐变，相比完全像素域的处理方法极大地降低了计算复杂度，同时具有较高的镜头检测准确率。

附图说明

图1为本发明方法的基本流程图。

具体实施方式

下面结合实施例和附图来详细描述本发明，但本发明并不仅限于此。

本发明采用编译工具为Visual Studio2013编译器，HEVC编码软件为官方参考软件X265_1.8，处理器为Inter-Core-i5-3210@2.50GHz。X265编码器的配置如下：帧率25fps，关闭WPP功能，开启AMP与Rect划分方式，编码帧预测结构为IPPP模式。输入的视频源为视频检索领域的国际评测视频集TRECVID2001中的序列Anni009，包含突变镜头和渐变镜头，其中渐变镜头主要以叠化为主。如图1所示，一种融合HEVC压缩域和像素域的镜头边界检测方法，包括以下步骤：

(1)输入视频码流；

(2)解析并统计码流；

(3)基于CU深度的运动矢量幅值滤波；

(4)基于Intra模式和运动矢量的候选突变P帧分级；

(5)突变P帧检测；

(6)基于直方图的突变I帧检测；

(7)基于突变帧的视频分段；

(8)渐变候选帧选取；

(9)每帧编码比特数平滑滤波；

(10)渐变帧检测；

(11)渐变帧合并；

步骤(1)具体包括：

输入用X265编码的HEVC码流，其编码配置为帧率25fps，关闭WPP功能，开启AMP与Rect划分方式，编码帧预测结构为IPPP模式，I帧间隔为250。

步骤(2)具体包括：

解析的HEVC码流信息包括每帧亮度分量子帧所有的CU深度、PU模式、4×4像素块水平和垂直方向上的运动矢量MV_x和MV_y、以及整个编码帧的帧比特数。取4×4块为基本粒度单位块进行统一的数据统计，分别记NumIntra_i、NumInter_i和NumSkip_i为第i帧中所有PU为Intra模式、除SKIP模式的Inter模式和SKIP模式的4×4块个数，记NumBytes_i为第i帧的帧比特数。

步骤(3)具体包括：

对每帧的运动矢量进行基于CU深度的运动矢量幅值滤波，并统计其滤波后的4×4块个数。

(3-1)首先对运动矢量按式(1)计算得到运动矢量幅值MV_ap，再对得到的运动矢量幅值按式(2)进行基于CU深度的运动矢量幅值滤波。CU_dep表示所属CU的深度；T₀、T₁、T₂、T₃分别表示CU_dep为0、1、2、3时的运动矢量幅值滤波下限阈值，T_m表示全部深度CU的运动矢量幅值滤波上限阈值；且T₀∈[1,8]，此处取4；T₁∈[1,6]，此处取2；T₂∈[1,4]，此处取1；T₃∈[0,2]，此处取0；T_m∈[120,200]，此处取160，这五个阈值之间的关系需满足式(3)。

MV_ap＝|MV_x|+|MV_y| (1)

T_m>T₀≥T₁≥T₂≥T₃ (3)

(3-2)统计滤波后运动矢量幅值MV_ap非零的数NumMvs_i。

步骤(4)具体包括：

(4-1)利用步骤(2)统计的Intra模式4×4块数量NumIntra_i将全部编码帧初步分为0、1、2三个等级的候选突变P帧，如式(4)，记第i帧的候选突变P帧等级为Clevp_i，其级别越大表示当前帧i为突变帧的可能越大；NumTotal_i表示第i帧中全部4×4块的个数。

(4-2)接着按式(5)使用步骤(3)统计得到的运动矢量NumMvs_i来对上述候选突变P帧进行二次筛选。若第i帧滤波后的4×4块运动矢量NumMvs_i大于等于4×4块总个数NumTotal_i的四分之一，则认为此帧为0级候选突变P帧，即不可能是突变P帧。

步骤(5)具体包括：

经步骤(4)筛选后的候选突变P帧按式(6～10)对所有的切换候选P帧按等级选取真正的突变P帧。Ctfp_i表示突变P帧标识，其值为0则表示第i帧为非突变P帧，其值为1则表示第i帧为突变P帧；记Dv为当前帧中Intra模式PU数量与Inter模式PU数量的比例，Dv_i表示第i帧中Intra模式PU数量与Inter模式PU数量的比例，Inter模式PU不包含SKIP模式，式(7)中NumInter_i加1是为了防止分母为零的情况出现；Tcu_i表示第i帧的Intra模式PU比例阈值，能自适应视频序列；Dv_avg表示距第i帧最近的前后各M个P帧的Dv平均值，M∈[1,10]，此处取5；α₁为阈值调整系数，表示对平均值Dv_avg的增益，α₁∈[4,12]，此处取8；T_cs表示相邻两帧比特数差值阈值，α₂为阈值调整系数，α₂∈[0.5,0.9]，此处取0.67，NumBytes_max为当前编码视频序列中最大帧比特数；Csbyte_i表示第i帧与其前一帧的帧比特数差值绝对值。

Tcu_i＝α₁×Dv_avg (8)

T_cs＝α₂×Num Bytes_max (9)

Csbyte_i＝|Num Bytes_i-Num Bytes_i-1| (10)

步骤(6)具体包括：

从第二个I帧开始，依次提取序列中的I帧以及其前一帧图像的Y分量图，并将它们的Y分量图使用0～255均匀划分的16个区间进行直方图统计；然后利用OpenCV算法库的直方图匹配函数计算这两帧直方图的相关系数CORREL(i-1,i)，其中i表示I帧的帧序号索引；最后按式(11)对所有的I帧进行基于直方图的突变帧检测。式(11)中，CtfI_i表示突变I帧标识，其值为0则表示第i帧为非突变I帧，其值为1则表示第i帧为突变I帧，T_pcs为相邻两帧直方图相关系数阈值，T_pcs∈[0.4,0.8]，此处取0.6。；即当相关系数CORREL(i-1,i)小于阈值T_pcs，则判定此I帧为突变帧，否则，此I帧不是突变帧。

步骤(7)具体包括：

利用步骤(5)和步骤(6)已检测到的突变P帧和突变I帧将整个编码视频分段，将这些按顺序检测到的突变P帧、突变I帧、首帧和尾帧作为分段点，将整个视频分为多个片段视频。对于帧数小于N_L的片段视频，不进行后续渐变检测；对于帧数大于等于N_L的片段视频，除首N_b帧和尾N_b帧外的视频帧都进行下一步的渐变检测，N_b∈[10,30]，此处取10；N_L∈[30,90]，此处取50。

步骤(8)具体包括：

利用Intra模式PU和编码帧比特数来初步选出渐变候选帧，结合式(12～16)对步骤(7)的每个分段视频进行渐变候选帧选取。Dsel_i表示第i帧的渐变候选帧标识，Dsel_i为1代表第i帧被选为渐变候选帧，Dsel_i为0代表不是渐变候选帧；Ict_i表示以第i帧为中心的连续五帧中Intra模式4×4块个数大于等于T_gia的帧数量，Bct_i表示以第i帧为中心的连续五帧中原始帧比特数大于等于T_gbt的帧的数量；当以第i帧为中心的连续五帧中Ict_i大于等于4并且Bct_i等于5，则判定第i帧为渐变候选帧；T_gia为Intra模式4×4块个数阈值，由式(15)计算得到，其阈值系数β₁∈[0.001,0.1]此处取0.01，NumTotal_i为第i帧4×4块总个数；T_gbt为帧比特数阈值，由式(16)计算得到，其阈值系数β₂∈[0.1,0.5]，此处取0.33，MeanByte为全部帧比特数NumBytes_i平均值。

T_gia＝β₁×NumTotal_i (15)

T_gbt＝β₂×MeanByte (16)

步骤(9)具体包括：

(9-1)首先对步骤(2)解析得到的所有帧比特数进行中值滤波，以第i帧为中心的连续五帧的帧比特数进行从小到大的排序，并将排好序后的中间位置的帧比特数记为MidBytes_i，对于整个编码视频的首N_mid帧和尾N_mid帧的MidBytes_i置零处理，N_mid∈[2,10]，此处取3。

(9-2)进一步对上述中值滤波后的帧比特数MidBytes_i使用均值滤波，以第i帧为中心的连续九帧的帧比特数进行均值滤波，记均值滤波后的帧比特数为AvgBytes_i。并直接对边界区域首N_avg帧和尾N_avg帧的AvgBytes_i置零，N_avg∈[3,10]，此处取5。

(9-3)最终计算均值滤波后包含第i帧的连续帧的均值滤波后帧比特数符合先逐渐增加后逐渐减小特征的帧数量，记为Wb_i。若符合要求的连续帧中，逐渐增加或逐渐减小的帧数为一，则直接将Wb_i置零。

步骤(10)具体包括：

在步骤(8)初步选取渐变候选帧后，利用SKIP模式PU数量和步骤(9)中平滑滤波后帧比特数先逐渐增加后逐渐减小的帧数Wb_i按式(17～20)确定最终的渐变帧。Dtf_i表示第i帧的渐变帧标识，0表示不是渐变帧，1表示是渐变帧；NumSkip_i表示第i帧中对应PU为SKIP模式4×4块个数；Tsk₁、Tsk₂和Tsk₃分别为渐变帧判别的三个范围阈值，不同的SKIP模式4×4块数量范围的镜头渐变检测有所差异，其中阈值调整系数γ₁∈[0.01,0.05]此处取0.03；阈值调整系数γ₂∈[0.1,0.3]，此处取0.2；阈值调整系数γ₃∈[0.2,0.4]，此处取0.3；NumTotal_i为第i帧4×4块总个数；这样可以比较全面地覆盖各种SKIP模式PU数量的渐变候选帧，且能分辨率自适应；Wb_i由步骤(9)计算得到，表示包含第i帧的连续帧中符合先逐渐增加后逐渐减小特征的帧数量。Td₁、Td₂和Td₃分别为不同范围的Wb_i取值阈值，Td₁∈[10,20]，此处取15；Td₂∈[20,30]，此处取25；Td₃∈[30,50]，此处取40。即当第i帧中对应PU为SKIP模式4×4块个数小于等于Tsk₁，且Wb_i大于等于Td₁，则判定第i帧为渐变帧；当第i帧中对应PU为SKIP模式4×4块个数大于Tsk₁并小于等于Tsk₂，且Wb_i大于等于Td₂，则判定第i帧为渐变帧；当第i帧中对应PU为SKIP模式4×4块个数大于Tsk₂并小于等于Tsk₃，且Wb_i大于等于Td₃，则判定第i帧为渐变帧。

Tsk₁＝γ₁×NumTotal_i (18)

Tsk₂＝γ₂×NumTotal_i (19)

Tsk₃＝γ₃×NumTotal_i (20)

步骤(11)具体包括：

经过步骤(10)渐变检测后，对渐变帧进行合并。将合并的帧间距离设为N_merge，将检测到的渐变帧按从小到大排序后，对于前后帧间序号差小于等于N_merge的渐变帧聚成一个个集合，并取每个集合靠近中心位置的帧作为此渐变区域的渐变帧，N_merge∈[10,30]，此处取15。最终输出步骤(5)检测到的突变P帧，步骤(6)检测到的突变I帧，以及当前步骤检测到的渐变帧，这些检测到的突变帧和渐变帧即为镜头边界。

Claims

1.一种融合HEVC压缩域和像素域的镜头边界检测方法，其特征在于，所述的检测方法包括以下步骤：

(1)输入视频码流：

输入的视频码流为HEVC码流，支持的帧类型为帧内编码帧I帧和前向帧间编码帧P帧；

(2)解析并统计码流：

解析视频码流，得到的HEVC码流信息包括每帧视频码流的亮度分量子帧的所有CU深度、PU模式、4×4像素块水平和垂直方向上的运动矢量MV_x和MV_y、以及整个编码帧的帧比特数；取4×4块为基本粒度单位块进行统一的数据统计，分别记NumIntra_i、NumInter_i和NumSkip_i为第i帧中所有PU为Intra模式、除SKIP模式的Inter模式和SKIP模式的4×4块个数，记NumBytes_i为第i帧的帧比特数；

(3)基于CU深度的运动矢量幅值滤波：

对每帧的运动矢量进行基于CU深度的运动矢量幅值滤波，并统计其滤波后运动矢量幅值非零的个数NumMvs_i；

(4)基于Intra模式和运动矢量的候选突变P帧分级：

利用步骤(2)统计的Intra模式4×4块数量NumIntra_i将全部编码P帧分为0、1、2三个等级的候选突变P帧，然后用步骤(3)统计得到的NumMvs_i来对上述候选突变P帧进行二次筛选；

(5)突变P帧检测：

经步骤(4)筛选后的候选突变P帧，对应不同的候选突变等级使用不同的突变P帧选取方法，检测出突变P帧；

(6)基于直方图的突变I帧检测：

利用直方图比较法对I帧进行突变检测，检测出突变I帧；

(7)基于突变帧的视频分段：

利用步骤(5)和步骤(6)已检测到的突变P帧和突变I帧对整个编码视频进行分段；

(8)渐变候选帧选取：

利用Intra模式PU和编码帧的帧比特数对步骤(7)的片段视频选出渐变候选帧；

(9)每帧编码比特数平滑滤波：

对步骤(2)中统计的所有帧比特数NumBytes_i进行中值滤波和均值滤波，对包含第i帧的符合实际码流的镜头之间的渐变区域的、帧比特数先逐渐增加后逐渐减少的特点的帧区域进行帧数统计，得到帧数量Wb_i；

(10)渐变帧检测：

在步骤(8)选取渐变候选帧后，利用SKIP模式的PU数量和步骤(9)中统计的Wb_i确定最终的渐变帧；

所述的步骤(10)中，利用SKIP模式PU数量和步骤(9)中平滑滤波后帧比特数先逐渐增加后逐渐减小的帧数Wb_i按式(17)～(20)对步骤(8)选取的渐变候选帧确定最终的渐变帧；

Tsk₁＝γ₁×NumTotal_i (18)

Tsk₂＝γ₂×NumTotal_i (19)

Tsk₃＝γ₃×NumTotal_i (20)

其中，Dtf_i表示第i帧的渐变帧标识，0表示不是渐变帧，1表示是渐变帧；NumSkip_i表示第i帧中对应PU为SKIP模式的4×4块个数；Tsk₁、Tsk₂和Tsk₃分别为渐变帧判别的三个范围阈值，阈值调整系数γ₁∈[0.01,0.05]，阈值调整系数γ₂∈[0.1,0.3]，阈值调整系数γ₃∈[0.2,0.4]，NumTotal_i为第i帧4×4块总个数；Td₁、Td₂和Td₃分别为不同范围的Wb_i的取值阈值，Td₁∈[10,20]，Td₂∈[20,30]，Td₃∈[30,50]；

当第i帧中对应PU为SKIP模式4×4块个数小于等于Tsk₁，且Wb_i大于等于Td₁，则判定第i帧为渐变帧；当第i帧中对应PU为SKIP模式4×4块个数大于Tsk₁并小于等于Tsk₂，且Wb_i大于等于Td₂，则判定第i帧为渐变帧；当第i帧中对应PU为SKIP模式4×4块个数大于Tsk₂并小于等于Tsk₃，且Wb_i大于等于Td₃，则判定第i帧为渐变帧；

(11)渐变帧合并：

对检测出的渐变帧进行合并；将合并的帧间距离设为N_merge，将检测到的渐变帧按从小到大排序，对于前后帧间序号差小于等于N_merge的渐变帧聚成若干个集合，取每个集合靠近中心位置的帧作为此渐变区域的渐变帧，N_merge∈[10,30]；最终输出步骤(5)检测到的突变P帧，步骤(6)检测到的突变I帧，以及当前步骤检测到的渐变帧，这些检测到的突变帧和渐变帧即为镜头边界。

2.如权利要求1所述的一种融合HEVC压缩域和像素域的镜头边界检测方法，其特征在于，所述的步骤(3)中包含以下子步骤：

(3-1)对运动矢量按式(1)计算得到运动矢量幅值MV_ap，

MV_ap＝|MV_x|+|MV_y| (1)

对得到的运动矢量幅值按式(2)进行基于CU深度的运动矢量幅值滤波，滤除极小的和极大的运动矢量幅值，

其中，CU_dep表示所属CU的深度；T₀、T₁、T₂、T₃分别表示CU_dep为0、1、2、3时的运动矢量幅值滤波下限阈值，T_m表示全部深度CU的运动矢量幅值滤波上限阈值，这五个阈值之间的关系需满足式(3)，

T_m>T₀≥T₁≥T₂≥T₃ (3)

且T₀∈[1,8]、T₁∈[1,6]、T₂∈[1,4]、T₃∈[0,2]、T_m∈[120,200]；

(3-2)统计滤波后运动矢量幅值MV_ap非零的4×4块个数NumMvs_i。

3.如权利要求1所述的一种融合HEVC压缩域和像素域的镜头边界检测方法，其特征在于，所述的步骤(4)中包含以下子步骤：

(4-1)利用步骤(2)统计的Intra模式4×4块数量NumIntra_i将全部编码帧以式(4)分为0、1、2三个等级的候选突变P帧，

记第i帧的候选突变P帧等级为Clevp_i，其级别越大表示当前帧i为突变帧的可能越大；NumTotal_i表示第i帧中全部4×4块的个数；

(4-2)使用步骤(3)统计得到的滤波后运动矢量NumMvs_i对所述候选突变P帧进行二次筛选，如式(5)，

若第i帧滤波后的4×4块运动矢量NumMvs_i大于等于4×4块总个数NumTotal_i的四分之一，则认为此帧为0级候选突变P帧，即不可能是突变P帧。

4.如权利要求1所述的一种融合HEVC压缩域和像素域的镜头边界检测方法，其特征在于，所述的步骤(5)中，以式(6)～(10)对所有的切换候选P帧按等级选取真正的突变P帧，

Tcu_i＝α₁×Dv_avg (8)

T_cs＝α₂×NumBytes_max (9)

Csbyte_i＝|NumBytes_i-NumBytes_i-1| (10)

其中，Ctfp_i表示突变P帧标识，其值为0则表示第i帧为非突变P帧，其值为1则表示第i帧为突变P帧；记Dv为当前帧中Intra模式PU数量与Inter模式PU数量的比例，Dv_i表示第i帧中Intra模式PU数量与Inter模式PU数量的比例；Tcu_i表示第i帧的Intra模式PU比例阈值；Dv_avg表示距第i帧最近的前后各M个P帧的Dv平均值，M∈[1,10]；α₁为阈值调整系数，α₁∈[4,12]；T_cs表示相邻两帧比特数差值阈值，α₂为阈值调整系数，α₂∈[0.5,0.9]，NumBytes_max为当前编码视频序列中最大帧比特数；Csbyte_i表示第i帧与其前一帧的帧比特数差值绝对值，NumBytes_i为第i帧的帧比特数。

5.权利要求1所述的一种融合HEVC压缩域和像素域的镜头边界检测方法，其特征在于，所述的步骤(6)中，从第二个I帧开始，依次提取原始编码视频中的I帧以及其前一帧图像的Y分量图，并将它们的Y分量图使用0～255均匀划分的16个区间进行直方图统计；然后计算这两帧直方图的相关系数CORREL(i-1,i)，其中i表示当前I帧对应的帧序号索引；

按式(11)对所有的I帧进行基于直方图的突变帧检测；

其中，CtfI_i表示突变I帧标识，其值为0则表示第i帧为非突变I帧，其值为1则表示第i帧为突变I帧，T_pcs为相邻两帧直方图相关系数阈值，T_pcs∈[0.4,0.8]。

6.如权利要求1所述的一种融合HEVC压缩域和像素域的镜头边界检测方法，其特征在于，所述的步骤(7)中，利用步骤(5)和步骤(6)已检测到的突变P帧和突变I帧将整个编码视频分段，以这些按顺序检测到的突变P帧、突变I帧、首帧和尾帧作为分段点，将整个视频分为多个片段视频；对于帧数小于N_L的片段视频，不进行后续渐变检测；对于帧数大于等于N_L的片段视频，除首N_b帧和尾N_b帧外的视频帧都进行下一步的渐变检测，N_b∈[10,30]，N_L∈[30,90]。

7.如权利要求1所述的一种融合HEVC压缩域和像素域的镜头边界检测方法，其特征在于，所述的步骤(8)中，以式(12)～(16)对步骤(7)的每个片段视频进行渐变候选帧选取；

T_gia＝β₁×NumTotal_i (15)

T_gbt＝β₂×MeanByte (16)

其中，Dsel_i表示第i帧的渐变候选帧标识，Dsel_i为1代表第i帧被选为渐变候选帧，Dsel_i为0代表不是渐变候选帧；Ict_i表示以第i帧为中心的连续五帧中Intra模式4×4块的个数大于等于T_gia的帧数量，Bct_i表示以第i帧为中心的连续五帧中原始帧比特数大于等于T_gbt的帧的数量，当以第i帧为中心的连续五帧中Ict_i大于等于4并且Bct_i等于5，则判定第i帧为渐变候选帧；T_gia为Intra模式4×4块个数阈值，阈值系数β₁∈[0.001,0.1]，NumTotal_i为第i帧4×4块总个数；T_gbt为帧比特数阈值，阈值系数β₂∈[0.1,0.5]，MeanByte为全部帧比特数NumBytes_i平均值。

8.如权利要求1所述的一种融合HEVC压缩域和像素域的镜头边界检测方法，其特征在于，所述的步骤(9)中包含以下子步骤：

(9-1)先对步骤(2)解析得到的所有帧比特数进行中值滤波，将以第i帧为中心的连续五帧的帧比特数进行从小到大的排序，并将排好序后的中间位置的帧比特数记为MidBytes_i，对于整个编码视频的首N_mid帧和尾N_mid帧的MidBytes_i置零处理，N_mid∈[2,10]；

(9-2)对中值滤波后的帧比特数MidBytes_i使用均值滤波，以第i帧为中心的连续九帧的帧比特数进行均值滤波，记均值滤波后的帧比特数为AvgBytes_i，对整个编码视频边界区域首N_avg帧和尾N_avg帧的AvgBytes_i置零，N_avg∈[3,10]；

(9-3)计算均值滤波后包含第i帧的连续帧的均值滤波后帧比特数符合先逐渐增加后逐渐减小特征的帧数量，记为Wb_i；若符合要求的连续帧中，逐渐增加或逐渐减小的帧数为一，则直接将Wb_i置零。