CN113327234A

CN113327234A - 基于空时显著性分类和融合的视频重定向质量评价方法

Info

Publication number: CN113327234A
Application number: CN202110597672.5A
Authority: CN
Inventors: 唐振华; 董伟鑫; 赵祖翌; 李喆; 覃团发
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-31
Anticipated expiration: 2041-05-31
Also published as: CN113327234B

Abstract

本发明公开了一种基于空时显著性分类和融合的视频重定向质量评价方法：根据视频的空时显著性构建一个视频分类模型，根据原始视频的运动信息和前景信息将视频分为四类；提取原始视频的显著信息、边缘特征、前景信息和运动特征等，并采用感知几何失真、边缘组相似度、时间连续性相似失真和重要目标时间失真四个时空指标对重定向视频的质量进行评估；对不同类别的视频采用不同的自适应赋予权重方法，将四种时空指标的质量分数融合得到重定向视频的整体客观质量。本发明对分类后的视频采用指标权重自适应融合的方式，对不同种类的视频提取不同的空时特性，并采用不同的指标权重自适应融合方法，充分考虑视频的特征，极大保证客观评估算法的性能。

Description

基于空时显著性分类和融合的视频重定向质量评价方法

技术领域

本发明属于图像评价技术领域，更具体地，涉及一种基于空时显著性分类和融合的视频重定向质量评价方法。

背景技术

随着液晶电视、平板电脑、笔记本电脑和智能手机等多媒体显示设备的迅速普及以及视频数据爆炸式的增长，人们可以随时随地观看媒体视频。然而，由于存在不同的应用需求，终端显示设备往往没有统一的分辨率和宽高比，而同一原始视频在不同分辨率和宽高比的终端显示时会受到不同程度的拉伸或挤压，不仅会造成显示屏幕空间的浪费，而且还会严重影响用户的观看体验。为了避免该现象，需要对视频内容进行调整处理，根据视频内容自适应地调整其分辨率或宽高比，避免视频重要内容出现变形或丢失，并保持视频流畅的播放效果，这个过程被称为基于内容感知的视频重定向(Content-aware VideoRetargeting)^[1]-[5]。

现有的基于内容感知的视频重定向算法可粗略地分为以下几种：基于细缝裁剪方法(Seam Carving)^[6]-[9]、基于网格变形方法(Warping)^[10]-[13]，基于多算子的视频重定向算法^[14]-[16]，以及基于深度学习^[17]-[19]的算法。但是，对于特征各异的视频内容而言，现有的视频重定向算法仍难以获得理想的性能。为了更好地提升视频重定向算法的性能，需要对重定向视频的质量进行有效的评价。

现有的视频重定向质量评价方法主要分为两种类型^[20]-[23]：主观评价和客观评价。主观评价是通过组织一批测试者观看重定向视频，并根据既定的测试原则和流程对重定向视频进行质量评估。客观评价是通过算法提取重定向视频的特征，从而自动地得出质量分数。由于主观评价存在一些缺点：1)参与主观评价的测试者通常会依据自己的主观感受直接判定重定向视频的质量，难以量化分析和评价重定向过程中各种失真对重建视频质量的影响，因而评价的过程和结果往往难以直接应用于重定向算法的性能提升；2)主观评价需要大批的测试者对重定向视频的组合进行反复投票，整个过程费时耗力，且容易受到测试者的知识背景和观测环境等因素的影响，主观评价的结果难以直接嵌入到新兴的实时视频应用中，可移植性低。而客观评价具有以下特点：1)不需要人为参与，不容易受环境等因素干扰；2)评价的过程及结果有利于分析视频重定向算法的不足之处，从而促进视频重定向算法性能的提升；3)客观评价算法可移植性高，容易移植到新型的实时视频应用中。所以，对于视频重定向质量客观评价算法的研究是有必要的。

一方面，视频质量评价(VQA)方法采用的评估指标均难以应用到视频重定向质量的客观评价中。如：均方差(MSNR)，峰值信噪比(PSNR)和结果相似度(SSIM)等评价指标或方法均要求结果视频与原始视频的空间分辨率(尺寸)保持一致，而重定向视频的分辨率或宽高比已发生变化。并且视频质量评价主要针对压缩或传输过程中所产生的误码、噪声、模糊和对比度/亮度改变等失真，往往不涉及视频内部结构的改变，但重定向后视频的结构已发生明显的变化。另一方面，由于图像与视频本身特性的不同，人眼往往更多关注视频重定向中的时间失真，导致图像重定向质量评价(IRQA)^[24]-[25]方法也难以直接应用到视频重定向质量客观评价中。

视频质量的客观评价算法根据利用原始视频信息的情况分为三种类型^[25]：全参考(full reference，FR)、部分参考(reduced reference，RR)和非参考(no reference，NR)。全参考方法需要利用原始视频的所有数据用于评价视频的视觉质量^[26]-[29]；部分参考方法需要部分地利用原始视频数据用于评价^[30]-[35]；而非参考方法则不需要利用任何的原始视频数据进行评价^[36]-[39]。鉴于现有的视频重定向质量的客观评价结果与主观评价结果的正相关度仍较低，因而目前主要考虑采用全参考的方法予以评价。

目前，学者们已提出一些视频重定向质量的客观评价方法^[40]-[42]。K.Li等人^[40]提出一种新型评估视频时间连续性的指标，通过测量视觉相邻帧之间映射像素点的坐标差来评估重定向视频的视觉质量，该方法简单高效，但只适用于目标快速运动的视频的时间失真，对于其他类型的视频难以取得较好的结果。Bo Yan等人^[41]提出一种针对视频时间抖动的评价方法，主要利用相邻帧之间对应网格的高度差或宽度差来评估视频的时间抖动，由于该方法需要视频帧的网格信息，只适用对Warping处理的重定向视频的时间失真进行评估。Chih-Chung Hsu等人^[42]提出一种基于时空质量分析的视频重定向质量的客观评价方法，通过融合空间质量、时间不连续失真和显著相似度测量三种指标来评估重定向视频的整体质量，采用光流法和SIFT匹配来评估视频中内容变化的时空连续性。虽然该方法可以评估重定向视频的整体质量，但由于其难以很好地评估视频空间的几何失真，并且无法对目标静止的视频的时间失真评估。综上所述，现有的视频重定向质量的客观评价算法的评估指标较为单一，没有充分考虑HVS的特性，难以适用于不同类型的视频，而且往往采用固定的指标权重融合方式，导致评估分数难以符合人眼主观感知的结果。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于空时显著性分类和融合的视频重定向质量评价方法，提取视频特征对原始视频进行分类，并对不同类别视频采用不同的指标权重自适应融合方法。本发明提出时间连续性相似失真指标(TCD)和目标时间失真(OTD)指标。TCD指标用于衡量重定向视频相邻帧之间重合区域的信息丢失的相似程度，从而评估重定向视频的时间连续性。由于人眼往往更多关注重要区域的变化，OTD指标主要用来评估重定向视频重要内容的时间变化，从而更好的评估包含重要内容的重定向视频的时间失真。

本发明提供了一种基于空时显著性分类和融合的视频重定向质量评价方法，包括：

S1、根据视频的空时显著性构建一个视频分类模型，根据原始视频的运动信息和前景信息将视频分为四类：显著区域运动视频、无显著区域运动视频、显著区域静止视频和无显著区域静止视频；

S2、提取原始视频的显著信息、边缘特征、前景信息和运动特征等，并采用感知几何失真、边缘组相似度、时间连续性相似失真和重要目标时间失真四个时空指标对重定向视频的质量进行评估；

S3、对不同类别的视频采用不同的自适应赋予权重方法，将四种时空指标的质量分数融合得到重定向视频的整体客观质量。

本发明的一个实施例中，所述步骤S1包括：

步骤S11：根据SIFT特征点匹配方法，构建基于输入视频的相机运动模型，获取相邻两帧之间匹配的特征点的变换关系，在根据变换关系中累计相乘的特点得到相邻视频帧的相对位移关系；

步骤S12：采用目标检测方法提取视频的前景目标图F；

步骤S13：根据得到的相对位移关系，得到视频最后一帧与第1帧的相对位移，从而得到每帧的平均位移M，根据人眼主观感知的结果，设置平均位移的阈值S，若M＞S，说明视频存在相机运动，反之，若M＜S，则说明视频不存在相机运动；

步骤S14：根据得到的前景目标图F，对其进行膨胀腐蚀操作，消除图像中的噪点，得到处理后的前景目标图F'，通过计算得到前景目标与视频帧的面积比V，根据面积比V值判断视频中是否包含前景目标；

步骤S15：根据步骤S13-S14，若视频同时存在前景目标及相机运动，则将该类视频归为显著区域运动视频；若视频不存在相机运动，存在前景目标，则将该视频归为显著区域静止视频；若视频存在相机运动，不存在前景目标，则将该视频归为无显著区域运动视频；若视频不存在相机运动，不存在前景目标，则将该视频归为无显著区域静止视频。

本发明的一个实施例中，所述步骤S2中的时间连续性相似失真TCD指标考虑视频内容的运动情况，通过SIFT方法对重定向视频的相邻帧进行拼接，从而得到相邻视频帧之间的重合区域，根据原始视频帧的反向注册图来计算相邻帧重合区域对应位置的信息丢失的相似程度来衡量重定向视频的时间连续性，计算方式为：

步骤S211：将原始视频和重定向视频的第k帧和第k+1帧分别表示为：

和

根据SIFT方法，对重定向前后的视频帧进行像素点匹配，得到重定向视频相邻帧的反向注册图

和

并得到原始视频相邻帧的拼接图

步骤S212：根据原始视频相邻帧的拼接图

得到相邻帧之间的重叠区域

并得到拼接图的重要度图

步骤S213：根据重定向相邻帧的反向注册图

和

删除视频内容，得到重定向过程中的丢失信息，即无内容的反向注册图

和

步骤S214：根据重叠区域，对无内容的反向注册图以及拼接图的重要度图进行裁剪，得到重定向视频相邻帧重合区域的信息损失图

和

从而得到重叠区域的重要度图G；

步骤S215：以重叠区域的重要度值为权重，根据式(1)，计算重定向视频相邻帧重合区域的信息损失图的距离，即得到TCD值；

其中，(i,j)是像素点坐标，G(i,j)是在像素点(i,j)处的重要度值，W、H分别为无内容反向注册图的宽和高，k为重定向视频当前帧数，K为非零数。

本发明的一个实施例中，所述步骤S2中的重要目标时间失真OTD指标为：通过评估重定向视频相邻帧的重要度图的对应像素点的位置变化情况，从而衡量重定向视频中重要区域内容的时间失真情况，计算方式为：

步骤S221：根据重定向视频的第k帧和第k+1帧，得到相邻视频帧的重要度图

和

步骤S222：根据原始视频的第k帧和第k+1帧，采用SIFT像素点匹配方法得到原始视频相邻帧之间像素点的对应位置关系图

步骤S223：采用SIFT方法，得到原始视频帧与重定向视频帧之间的像素映射关系图W_o→r，根据W_o→r对

进行变形，得到重定向视频相邻帧之间的像素映射关系

步骤S224：根据像素映射关系

和相邻视频帧的重要度图，计算相邻帧重要度图的对应像素点的位置变化程度，即为OTD值，计算如式(2)所示：

其中，M,N为重定向视频的宽和高，

是重定向视频第i帧在点(i,j)的重要度值，

是重定向视频第i-1帧对应像素点(i',j')的重要度值；

步骤S225：将得到的所有帧间的OTD进行归一化处理，并取均值，使其在[0，1]之间，即为整个重定向视频的OTD值。

本发明的一个实施例中，所述步骤S3中重定向视频整体质量ST由空间质量SD和时间质量TD组成，评估如下：

ST＝(1-α)·(SD)+α·(TD) (3)

其中，D_frame为原始视频相邻帧灰度图的像素差值和，n为视频帧的数目，W_r、W_o分别表示重定向视频的宽和原始视频的宽，H_r、H_o分别表示重定向视频的宽和原始视频的高。

本发明的一个实施例中，对于显著区域运动视频：

空间失真的评估如下：

SD＝η·(PGD)+(1-η)·(EGS) (6)

其中，W_R是重定向视频与原始视频的宽度比，H_R是重定向视频与原始视频的高度比，S_R是显著区域与原始视频帧的面积比；

时间失真的评估如下：

其中，μ是归一化在[0，1]区间内，

为μ的均值，N_p是原始视频帧的像素个数，I_n是原始视频的第n帧的灰度图。

本发明的一个实施例中，对于无显著区域运动视频：

空间失真的评估如下：

SD＝(1-γ)·(PGD)+γ·(EGS) (10)

其中，W_R是重定向视频与原始视频的宽度比，F是原始视频的总帧数，f是当前帧数，G是原始视频第f帧的边缘度图的均值；

时间失真的评估如下：

TD＝TCD。

本发明的一个实施例中，对于显著区域静止视频：

空间失真的评估如下：

SD＝λ·(PGD)+(1-λ)·(EGS) (13)

时间失真的评估如下：

其中，μ是归一化在[0，1]区间内，

为μ的均值，N_p是原始视频帧的像素个数，I_n是原始视频的第n帧的灰度图；W_R是重定向视频与原始视频的宽度比，S_R是显著区域与原始视频帧的面积比。

本发明的一个实施例中，对于无显著区域静止视频：

空间失真的评估如下：

SD＝(1-φ)·(PGD)+φ·(EGS) (17)

时间失真的评估如下：

TD＝TCD；

其中，W_R是重定向视频与原始视频的宽度比，H_R是重定向视频与原始视频的高度比。

本发明的一个实施例中，K＝10^-6

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

(1)目前存在算法的性能较差，并且还没有基于视频分类的视频重定向质量客观评价方法。由于人眼对具有不同特征视频的关注点往往不同，同一种客观评价指标融合方法难以适用于不同的视频。对视频进行分类评估，可以保证视频重定向质量客观评价算法的性能。根据HVS的特性，在观看视频时，人们主要受视频的时间失真影响，往往会先关注视频的流畅程度；其次，人眼的关注点往往在前景目标上，对于包含前景目标的视频，更多关注显著目标的形变失真，而对于不包含前景目标的视频，更多关注视频内容的扭曲失真。为了充分考虑HVS的特性，本发明构建一个基于空时显著性的视频分类模型，采用相机运动模型^[47]和深度学习方法^[48]来提取视频的运动信息及前景信息，并根据前景信息和运动信息将视频分为：显著区域运动(SRM)、无显著区域运动(NSRM)、显著区域静止(SRS)、非显著区域静止(NSRS)四类视频。通过视频分类处理，可以充分提取视频的特征，保证了算法的性能。

(2)目前存在的算法多数采用对评价指标设置固定权重的融合方式，难以适用于不同内容和类别的视频，严重的影响了算法的性能。本发明方法对分类后的视频采用指标权重自适应融合的方式。对不同种类的视频提取不同的空时特性，并采用不同的指标权重自适应融合方法，充分考虑了视频的特征，极大地保证客观评估算法的性能。

(3)由于目前存在的时间失真指标的性能较差，不能很好的衡量重定向视频的时间连续性。本发明提出时间连续性相似失真(TCD)指标，用于评估重定向视频相邻帧之间的时间连续性，该指标考虑了视频内容的运动情况，评估相邻帧共同区域的丢失信息的相似度，避免了视频区域的位置及内容变化对评估结果的影响，从而提高对重定向视频时间失真评估的性能。经过实验证明，该指标具有较好的性能，并且保持较好的稳定性。

(4)根据HVS的特性，人眼往往会关注重定向视频重要区域的时间失真，忽视非重要区域。本发明提出重要目标时间失真(OTD)指标，通过衡量重定向视频中重要区域在相邻帧之间的对应像素点变化程度，从而评估重定向视频的时间失真。该指标主要用于评估包含前景目标的视频的时间失真情况。经过实验证明，该指标对包含前景目标的视频具有较好的性能，可以更好的衡量重要区域的时间连续性。

(5)经实验证明，与现有算法相比，本发明提出的基于空时显著性分类和自适应融合的视频重定向质量客观评价算法具有较好的性能，可以有效的评估重定向视频的客观质量。本发明提出的时间失真指标可以更好的评估重定向视频的时间失真，可以得到与人眼主观评估结果更一致的客观质量分数。

附图说明

图1是本发明实施例中一种基于空时显著性分类的VRQA算法框图；

图2是本发明实施例中基于空时显著性的视频分类模型示意图；

图3是本发明实施例中TCD指标计算流程图；

图4是本发明实施例中Foreman序列的测试视频；

图5是本发明实施例中不同算法的KRCC值比较(视频宽度缩为50％)；

图6是本发明实施例中不同算法的KRCC值比较(视频宽度缩为75％)；

图7是本发明实施例中不同算法的运行时间比较(重定向视频宽度缩为50％)；

图8是本发明实施例中不同算法的运行时间比较(重定向视频宽度缩为75％)。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为了充分考虑HVS的特性，对不同内容的视频采取不同的评估方法，从而保证视频重定向质量客观评价算法的有效性。如图1所示，本发明提出一种基于空时显著性分类和融合的视频重定向质量评价方法，该方法包括：

S1、根据视频的空时显著性构建一个视频分类模型，根据原始视频的运动信息和前景信息将视频分为：包含显著区域，且相机运动(Salient Region–Camera Moton，SR-CM)；无显著区域，且相机运动(No Salient Region–Camera Moton，NSR-CM)；包含显著区域，且相机静止(Salient Region–Camera Static，SR-CS)；无显著区域，且相机静止(NoSalient Region–Camera Static，NSR-CS)四类视频；

S2、然后提取原始视频的显著信息、边缘特征、前景信息和运动特征等，并采用感知几何失真(Perceptual Geometric Distortion，PGD)^[42]、边缘组相似度(Edge GroupSimilarity，EGS)^[49]、时间连续性相似失真(Temporal Continuity-similarityDistortion，TCD)和重要目标时间失真(Object Temporal Distortion，OTD)四个时空指标对重定向视频的质量进行评估；

步骤S1、视频分类

由于视频内容具有复杂性，不同视频的结构信息、显著信息以及运动信息都不尽相同，但这几方面却是评价重定向视频质量的重要特征，而且人眼对具有不同特征视频的关注点往往不同，同一种客观评价指标融合方法难以适用于不同的视频。本发明建立一个基于空时显著性的视频分类模型，如图2所示。该模型提取视频的运动信息以及前景信息将视频分为四类：SR-CM(包含显著区域，且相机运动视频)、NSR-CM(无显著区域，且相机运动视)、SR-CS(包含显著区域，且相机静止视频)和NSR-CS(无显著区域，且相机静止视频)。对输入视频进行分类的具体步骤如下：

步骤S11：首先根据SIFT特征点匹配方法，构建基于输入视频的相机运动模型。采用文献^[47]的方法获取相邻两帧之间匹配的特征点的变换关系，在根据变换关系中累计相乘的特点得到相邻视频帧的相对位移关系。

步骤S12：采用PicNet^[48]的目标检测方法来提取视频的前景目标图F。

步骤S13：根据得到的相对位移关系，得到视频最后一帧与第1帧的相对位移，从而得到每帧的平均位移M，根据人眼主观感知的结果，设置平均位移的阈值S，若M＞S，说明视频存在相机运动，反之，若M＜S，则说明视频不存在相机运动。

步骤S14：根据得到的前景目标图F，对其进行膨胀腐蚀操作，消除图像中的噪点，得到处理后的前景目标图F'，通过计算得到前景目标与视频帧的面积比V，根据HVS的特性，人眼一般仅能关注图像中占比为1％以上的显著目标。若V＞0.01，说明视频中包含前景目标，反之，若V＜0.01，则说明视频中不包含前景目标。

步骤S15：根据步骤S13-S14，若视频同时存在前景目标及相机运动，则将该类视频归为SR-CM(包含显著区域，且相机运动视频)；若视频不存在相机运动，存在前景目标，则将该视频归为SR-CS(包含显著区域，且相机静止视频)；若视频存在相机运动，不存在前景目标，则将该视频归为NSR-CM(无显著区域，且相机运动视频)；若视频不存在相机运动，不存在前景目标，则将该视频归为NSR-CS(无显著区域，且相机静止视频)。

步骤S2、失真指标

本发明评估模型主要采用PGD^[42]、EGS^[49]、TCD和OTD四种失真评估指标。采用PGD和EGS对重定向视频内容的空间失真(SD)进行评估，其中PGD主要用于评估重定向视频内容的几何失真，EGS主要用于评估重定向视频内容的结构失真。采用TCD和OTD对重定向视频的时间失真(TD)进行评估，其中TCD主要用于评估重定向视频内容的信息丢失相似程度，OTD主要用于评估重定向视频中重要内容的时间连续性失真。

目前存在的时间失真指标性能较差，并且无法适用于不同类型视频的时间质量评估。本发明提出时间连续性相似失真(TCD)指标和重要目标时间失真(OTD)指标，分别用于评估重要内容的时间失真和重定向视频的时间连续性。

步骤S21、时间连续性相似失真(TCD)

目前存在的时间失真指标一般直接衡量重定向视频相邻帧之间的变化情况，而忽略视频的运动信息，导致无法保证评估结果的有效性。为了充分考虑重定向视频的时间信息，从而更好的评估其时间失真，本发明提出时间连续性相似失真(TCD)指标。该指标考虑了视频内容的运动情况，通过SIFT方法对重定向视频的相邻帧进行拼接，从而得到相邻视频帧之间的重合区域，根据原始视频帧的反向注册图来计算相邻帧重合区域对应位置的信息丢失的相似程度来衡量重定向视频的时间连续性。TCD的具体实现步骤如下(TCD的流程图如图3所示)：

和

和

并得到原始视频相邻帧的拼接图

步骤S212：根据原始视频相邻帧的拼接图

得到相邻帧之间的重叠区域

并根据^[43]方法得到拼接图的重要度图

步骤S213：根据重定向相邻帧的反向注册图

和

和

和

从而得到重叠区域的重要度图G。

步骤S215：以重叠区域的重要度值为权重，根据式(1)，计算重定向视频相邻帧重合区域的信息损失图的距离，即得到TCD值。

其中，(i,j)是像素点坐标，G(i,j)是在像素点(i,j)处的重要度值，W、H分别为无内容反向注册图的宽和高，k为重定向视频当前帧数，K为非零数(保证分母非0)，此处K＝10^-6。

S22、重要目标时间失真(OTD)

根据HVS的特性，人眼往往更多关注视频中重要内容的变化，忽视非重要区域，而目前存在的时间失真指标没有充分考虑HVS的特性。由此，本发明提出目标时间失真(OTD)指标，通过评估重定向视频相邻帧的重要度图的对应像素点的位置变化情况，从而衡量重定向视频中重要区域内容的时间失真情况。目标时间失真的实现具体如下：

步骤S221：根据重定向视频的第k帧和第k+1帧，采用^[43]方法得到相邻视频帧的重要度图

和

进行变形，得到重定向视频相邻帧之间的像素映射关系

步骤S224：根据像素映射关系

和相邻视频帧的重要度图，计算相邻帧重要度图的对应像素点的位置变化程度，即为OTD值。计算如式(2)所示。

其中，M,N为重定向视频的宽和高，

是重定向视频第i帧在点(i,j)的重要度值，

是重定向视频第i-1帧对应像素点(i',j')的重要度值。

步骤S225：最终，将得到的所有帧间的OTD进行归一化处理，并取均值，使其在[0，1]之间，即为整个重定向视频的OTD值。

步骤S3、失真指标的自适应融合

为了有效评估重定向视频的质量，本发明对不同类型视频提取不同的视频特征，采用不同的自适应权重融合方法，从而提高评估算法的有效性。由于重定向视频的整体质量(ST)可由空间质量(SD)和时间质量(TD)组成，根据对人眼视觉系统的特点，视频的空间特征和时间特征分别影响着视频的视觉质量，且对于包含运动的视频，人眼往往更关注视频的时间失真信息，而对于静止的视频，人眼更多关注视频的空间内容失真。本发明根据视频的相邻帧灰度图之间的差异变化对SD和TD赋予权重，从而使评估质量更加符合人眼视觉的主观结果。如果相邻帧之间的差异越大，说明视频内容的变化越快，此时人眼更多关注视频的时间失真；如果相邻帧之间的差异越小，说明视频内容的变化越慢，此时人眼更多关注视频的空间失真。由此，对重定向视频整体质量(ST)的评估如下：

ST＝(1-α)·(SD)+α·(TD) (3)

其中，D_frame为原始视频相邻帧灰度图的像素差值和，n为视频帧的数目，W_r、W_o分别表示重定向视频的宽和原始视频的宽，H_r、H_o分别表示重定向视频的宽和原始视频的高。如果R_W-R_H＝0，即R_W＝R_H时，此时α＝0，说明当重定向视频与原始视频的宽度和高度的变化率相同时，此时视频进行等比均匀缩放，则人眼仅关注重定向视频的空间失真。

步骤S31、显著区域运动视频SR-CM

对于此类存在前景区域的视频，人眼往往更多地关注显著区域的几何失真情况，本发明根据原始视频与重定向视频之间的宽度和高度的变化率以及原始视频帧的前景区域的所占面积比自适应地对PGD指标和EGS分配权重，则空间失真的评估如下：

SD＝η·(PGD)+(1-η)·(EGS) (6)

其中，W_R是重定向视频与原始视频的宽度比，H_R是重定向视频与原始视频的高度比，S_R是显著区域与原始视频帧的面积比。

对于此类运动视频，人眼更多关注视频中重要区域的时间连续性。本发明根据视频特性自适应对OTD指标分配权重，则时间失真的评估如下：

其中，μ是归一化在[0，1]区间内，

步骤S32、无显著区域运动视频NSR-CM

对于无显著区域的运动视频，视频的主观质量主要受结构信息的影响，本发明提取视频的边缘特征对EGS自适应分配权重，则空间失真的评估如下：

SD＝(1-γ)·(PGD)+γ·(EGS) (10)

其中，W_R是重定向视频与原始视频的宽度比，F是原始视频的总帧数，f是当前帧数，G是原始视频第f帧的边缘度图的均值。

由于本类视频中无显著区域，而OTD指标主要用于评估视频中显著区域的运动失真，所以主要采用TCD指标进行衡量，则时间失真的评估如下：

TD＝TCD (12)

步骤S33、显著区域静止视频SR-CS

对于此类视频，与SR-CM类视频相似，人眼更多地关注显著区域的几何失真情况，所以提取前景信息特征对PGD指标自适应地分配权重，则空间失真的评估如下：

SD＝λ·(PGD)+(1-λ)·(EGS) (13)

对于此类为静止视频，人眼会关注视频内容的抖动情况及时间连续性，则时间失真的评估如下：

其中，μ是归一化在[0，1]区间内，

步骤S34、无显著区域静止视频NSR-CS

对于无显著区域的静止视频，与NSR-CM类视频相似，视频的主观质量主要受结构信息的影响，则空间失真的评估如下：

SD＝(1-φ)·(PGD)+φ·(EGS) (17)

对于此类无前景内容的视频，时间失真的评估如式(19)所示：

TD＝TCD (19)

实验结果与讨论

下面主要介绍Multimedia Lab(ML)^[50]数据库及其评估准则，并依据数据库将本发明方法与现有算法进行性能比较。实验运行的平台配置为：windows10系统、奔腾G3250显卡、GTX750处理器和8G运行内存。

ML主观质量评价数据库

ML数据库中包含40位被试者的56组重定向视频的主观结果。该数据库包含28个原始视频，其中包含352*288、1280*720和1920*1080三种尺寸。每一个原始视频经过6种视频重定向算法进行处理，包含US、Cropping、Letterboxing、Warping、SC和RH，按照缩小比例50％和75％进行处理，共生成336个重定向视频。数据库有43位参与者进行主观实验，实验对每一个原始视频的相同缩小尺寸的不同重定向视频进行两两比较，选择质量较好的重定向视频进行投票(测试视频如图4所示)，每位参与者进行840次投票，得到主观结果后，通过分析对比，删除误差较大的实验组，并统计得到主观数据库，部分结果如表1所示。

表1.ML数据库中352*288的不同重定向方法投票结果(宽度缩小为50％)

本发明采用肯德尔相关系数(KRCC)^[46]来评估客观评价分数与主观质量顺序的一致性，如式(19)所示。

其中，N是总匹配对数(

n是排序数量，本发明n＝6)，N_c是正匹配对数，N_d是逆匹配对数，KRCC的值在[-1,1]范围内。

性能对比

由于目前仅有Hsu^[42]算法用于对重定向视频整体质量进行评价，Li^[37]方法用于评估重定向视频的时间失真。ML^[50]主观数据库将28个原始视频分为6类：含大显著区域(9)、含小显著区域(14)、无显著区域(5)、目标静止(9)和相机静止(12)。本发明根据视频的不同类别将所提出的时间指标和质量评估算法与现有的算法进行性能对比，对比结果如表2：

表2.不同VRQA算法在ML数据库上的KRCC对比

从表2可以看出，对于Li^[37]、TCD和OTD这三个时间指标，在不同属性视频下，OTD和TCD都比Li的性能较好，并具有更好的稳定性。由于OTD主要评估重定向视频中重要目标的时间失真，导致其更适用于包含显著区域的重定向视频的质量评估，而TCD更适用于包含小显著区域或无显著区域的视频。对于所有的评估指标和算法，在不同属性的视频下，本发明提出的算法都可以较有效的评估重定向视频的质量，并且得出与人眼主观感知一致的结果。通过视频分类评估，保证了算法在不同属性视频的性能，从而保证了算法的稳定性。由于本发明方法可以很好的提取视频的前景信息，导致本发明方法对于包含前景目标的重定向视频的评估性能更好，而对于无前景目标的重定向视频的评估性能较差。

根据本发明方法的时空显著性分类结果，将ML数据库中56组重定向视频对SR-CM(26组)、NSR-CM(10组)、SR-CS(16组)和NSR-CS(4组)四类视频集的不同算法的性能进行比较，具体如表3所示。

表3.不同视频集在ML数据库上的KRCC比较

从表3可以看出，与其他指标和算法相比，本发明方法对于不同类别的视频都保持较高的平均相关度，并保持更好的性能稳定性。在SR-CM和SR-CS类视频集中，由于本发明方法可以充分的提取视频的显著信息、前景目标信息和运动信息，使本发明方法的平均相关度明显高于其他指标和算法，并且具有较高的稳定性。在NSR-CM和NSR-CS类视频集中，由于本发明方法不能充分提取无显著区域视频的特征，导致其平均相关度仅略高于其他指标和算法。本发明方法采用视频分类的方式进行质量评价，充分提取不同种类视频的特征，使得对于每种类型视频集的评估都达到较好的评价结果，从而保证算法对所有重定向视频的评价性能。

本发明从ML数据库的不同分辨率视频中分别随机抽取2组视频作为测试序列，分别为：akiyo、bus、fourpeople、stockholm、blue_sky和life。其中akiyo和bus的分辨率为352*288，fourpeople和stockholm的分辨率为1280*720，blue_sky和life的分辨率为1920*1080。本发明对不同算法在缩小宽度分别为50％和75％处理得到的测试视频的主客观KRCC值和运行时间分别进行比较，图5和图6分别为不同算法在缩小宽度为50％和75％处理得到的测试视频的主客观KRCC值比较，图7和图8分别为不同算法在缩小宽度为50％和75％处理得到的测试视频的运行时间比较。

从图5-6中可以看出，在不同的分辨率和缩小比例下，本发明方法几乎都保持较好的性能，更加符合人眼主观评估的结果，并且保持较好的稳定性。在图5中，本发明方法对于blue_sky序列的评估结果较差，而OTD的性能较好。在图6中，本发明方法对于bus序列的评估结果较差，而TCD的性能较好。虽然本发明方法融合OTD和TCD指标，但对于不同属性视频采用不同的权重融合方法，无法充分提取每一个视频的特征，导致本发明方法无法保证对每一个重定向视频的评估结果的有效性。

从图7和图8可以看出，对于Li^[37]、OTD和TCD三个时间指标，由于Li^[37]的指标较为简单，而OTD和TCD的算法较为复杂，导致其时间复杂度略高于Li^[37],但OTD和TCD的评估性能明显优于Li^[37]。综合来讲，OTD和TCD的性能较好。对于Hsu^[42]和本发明方法，这两种算法用于评估重定向视频的整体客观质量。与Hsu^[42]相比，本发明方法明显具有更低的运行时间以及时间复杂度。虽然与Li^[37]、OTD和TCD三个时间指标相比，本发明方法具有较高的时间复杂度，但本发明方法具有较好的评估性能和稳定性，并且适用于任意的重定向视频的整体质量评估。综上所述，与现有算法相比，本发明提出的算法具有较好的性能，与人眼感知结果保持较高的一致性，并且具有较好的稳定性及时间复杂度。

实验结果表明，与现有的算法相比，本发明提出的算法也具有较好的评估性能，可以与人眼主观结果保持较高的匹配度，同时具有较低的时间复杂度。本发明提出的时间指标也具有较好的性能。对于包含前景目标的视频，OTD指标可以较好的评估其时间失真并保证与人眼主观结果的一致性。对于包含运动的视频，TCD指标可以更好地评估其时间连续性。

参考文献：

[1]Shamir A,Sorkine O.Visual media retargeting[C]//InternationalConference on Computer Graphics&Interactive Techniques.2009.

[2]L.Wolf,M.Guttmann and D.Cohen-Or,"Non-homogeneous Content-drivenVideo-retargeting,"2007IEEE 11th International Conference on Computer Vision,Rio de Janeiro,2007,pp.1-6.

[3]M.Grundmann,V.Kwatra,M.Han and I.Essa,"Discontinuous seam-carvingfor video retargeting,"2010IEEE Computer Society Conference on ComputerVision and Pattern Recognition,San Francisco,CA,2010,pp.569-576.

[4]J.Kim,J.Kim and C.Kim,"Adaptive image and video retargetingtechnique based on Fourier analysis,"2009IEEE Conference on Computer Visionand Pattern Recognition,Miami,FL,2009,pp.1730-1737.

[5]V.Setlur,T.Lechner,M.Nienhaus and B.Gooch,"Retargeting Images andVideo for Preserving Information Saliency,"in IEEE Computer Graphics andApplications,vol.27,no.5,pp.80-88,Sept.-Oct.2007.

[6]Chen L Q,Xie X,Fan X,et al.A visual attention model for adaptingimages on small displays[J].Multimedia Systems,2003,9(4):353-364.

[7]C.Chiang,S.Wang,Y.Chen and S.Lai,"Fast JND-Based Video CarvingWith GPU Acceleration for Real-Time Video Retargeting,"in IEEE Transactionson Circuits and Systems for Video Technology,vol.19,no.11,pp.1588-1597,Nov.2009.

[8]B.Yan,K.Sun and L.Liu,"Matching-Area-Based Seam Carving for VideoRetargeting,"in IEEE Transactions on Circuits and Systems for VideoTechnology,vol.23,no.2,pp.302-310,Feb.2013.

[9]H.Kaur,S.Kour and D.Sen,"Prediction based seam carving for videoretargeting,"2016 23rd International Conference on Pattern Recognition(ICPR),Cancun,2016,pp.877-882.

[10]Fan X,Xie X,Zhou H,et al.Looking into Video Frames on SmallDisplays[C]//Eleventh Acm International Conference on Multimedia.2003.

[11]S.Lin,C.Lin,I.Yeh,S.Chang,C.Yeh and T.Lee,"Content-Aware VideoRetargeting Using Object-Preserving Warping,"in IEEE Transactions onVisualization and Computer Graphics,vol.19,no.10,pp.1677-1686,Oct.2013.

[12]B.Li,L.Duan,J.Wang,R.Ji,C.Lin and W.Gao,"Spatiotemporal Grid Flowfor Video Retargeting,"in IEEE Transactions on Image Processing,vol.23,no.4,pp.1615-1628,April 2014.

[13]Wang Y S,Fu H,Sorkine O,et al.Motion-aware temporal coherence forvideo resizing[J].ACM Transactions on Graphics,2009,28(5):1.

[14]W.Yo,J.Leou and H.Hsiao,"Video retargeting using non-homogeneousscaling and cropping,"2013 Asia-Pacific Signal and Information ProcessingAssociation Annual Summit and Conference,Kaohsiung,2013,pp.1-5.

[15]D.Wei,Y.Chou and P.Su,"A Multi-Operator Retargeting Scheme forCompressed Videos,"2018 IEEE International Conference on ConsumerElectronics-Taiwan(ICCE-TW),Taichung,2018,pp.1-2.

[16]H.Hsin,"Video retargeting based on SH equalisation and seamcarving,"in IET Image Processing,vol.13,no.8,pp.1333-1340,20 6 2019.

[17]Bansal A,Ma S,Ramanan D,et al.Recycle-gan:Unsupervised videoretargeting[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:119-135.

[18]Cho D,Jung Y,Rameau F,et al.Video Retargeting:Trade-off betweenContent Preservation and Spatio-temporal Consistency[C]//Proceedings of the27th ACM International Conference on Multimedia.ACM,2019:882-889

[19]R.Villegas,J.Yang,D.Ceylan and H.Lee,"Neural Kinematic Networksfor Unsupervised Motion Retargetting,"2018 IEEE/CVF Conference on ComputerVision and Pattern Recognition,Salt Lake City,UT,2018,pp.8639-8648.

[20]Z.Wang,L.Lu,and A.C.Bovik,“Video quality assessment based onstructural distortion measurement,”Signal Process,Image Commun,vol.19,no.2,pp.121–132,2004.

[21]M.Kazemi,M.Ghanbari and S.Shirmohammadi,“The Performance ofQuality Metrics in Assessing Error-Concealed Video Quality,”in IEEETransactions on Image Processing,vol.29,pp.5937-5952,2020.

[22]P.V.Vu,C.T.Vu,and D.M.Chandler,“A spatiotemporal most apparent-distortion model for video quality assessment,”in Proc.IEEE Int.Conf.ImageProcess.,Sep.2011,pp.2505–2508.

[23]S.Chikkerur,V.Sundaram,M.Reisslein,and L.J.Karam,“Objective videoquality assessment methods:A classification,review,and performancecomparison,”IEEE Trans.Broadcast.,vol.57,no.2,pp.165–182,Jun.2011.

[24]Y.Niu,S.Zhang,Z.Wu,T.Zhao and W.Chen,"Image Retargeting QualityAssessment Based on Registration Confidence Measure and Noticeability-BasedPooling,"in IEEE Transactions on Circuits and Systems for Video Technology,vol.31,no.3,March 2021,pp.972-985.

[25]Y.Zhang,K.N.Ngan,L.Ma and H.Li,"Objective Quality Assessment ofImage Retargeting by Incorporating Fidelity Measures and InconsistencyDetection,"in IEEE Transactions on Image Processing,vol.26,no.12,pp.5980-5993,Dec.2017.

[26]M.H.Pinson,L.K.Choi,and A.C.Bovik,“Temporal video quality modelaccounting for variable frame delay distortions,”IEEE Trans.Broadcast.,vol.60,no.4,pp.637–649,Dec.2014.

[27]K.Manasa and S.S.Channappayya,“An optical flow-based fullreference video quality assessment algorithm,”IEEE Trans.Image Process,vol.25,no.6,pp.2480–2492,Jun.2016.

[28]K.Seshadrinathan and A.C.Bovik,“Motion tuned spatio-temporalquality assessment of natural videos,”IEEE Trans.Image Process.,vol.19,no.2,pp.335–350,Feb.2010.

[29]Z.Li,A.Aaron,I.Katsavounidis,A.Moorthy,and M.Manohara,Toward aPractical Perceptual Video Quality Metric.Accessed:Aug.15,2017.[Online].Available:http://techblog.netflix.com/2016/06/toward-practical-perceptual-video.html

[30]Z.Wang and E.P.Simoncelli,“Reduced-reference image qualityassessment using a wavelet-domain natural image statistic model,”Electron.Image,vol.5666,pp.149–159,Mar.2005.

[31]Q.Li and Z.Wang,“Reduced-reference image quality assessment usingdivisive normalization-based image representation,”IEEE J.Sel.Topics SignalProcess.,vol.3,no.2,pp.202–211,Apr.2009.

[32]L.Ma,S.Li,F.Zhang,and K.N.Ngan,“Reduced-reference image qualityassessment using reorganized DCT-based image representation,”IEEETrans.Multimedia,vol.13,no.4,pp.824–829,Aug.2011.

[33]A.Rehman and Z.Wang,“Reduced-reference image quality assessmentby structural similarity estimation,”IEEE Trans.Image Process.,vol.21,no.8,pp.3378–3389,Aug.2012.

[34]R.Soundararajan and A.C.Bovik,“Video quality assessment byreduced reference spatio-temporal entropic differencing,”IEEE Trans.CircuitsSyst.Video Technol.,vol.23,no.4,pp.684–694,Apr.2012.

[35]C.G.Bampis,P.Gupta,R.Soundararajan,and A.C.Bovik,“SpEED-QA:Spatial efficient entropic differencing for image and video quality,”IEEESignal Process.Lett,vol.24,no.9,pp.1333–1337,Sep.2017.

[36]J.Xu,P.Ye,Y.Liu,and D.Doermann,“No-reference video qualityassessment via feature learning,”in Proc.IEEE Int.Conf.Image Process.,Oct.2014,pp.491–495.

[37]K.Zhu,K.Hirakawa,V.Asari,and D.Saupe,“A no-reference videoquality assessment based on Laplacian pyramids,”in Proc.IEEE Int.Conf.ImageProcess.,Sep.2013,pp.49–53.

[38]X.Lin,H.Ma,L.Luo,and Y.Chen,“No-reference video qualityassessment in the compressed domain,”IEEE Trans.Consum.Electron.,vol.58,no.2,pp.505–512,May 2012.

[39]J.Sogaard,S.Forchhammer,and J.Korhonen,“No-reference videoquality assessment using codec analysis,”IEEE Trans.Circuits Syst.VideoTechnol.,vol.25,no.10,pp.1637–1650,Oct.2015.

[40]K.Li,B.Yan,and B.Yuan,“A new metric to assess temporal coherencefor video retargeting,”in Proc.SPIE 9273,Optoelectronic Imaging andMultimedia Technology III,Oct.2014.

[41]B.Yan,B.Yuan and B.Yang,"Effective Video Retargeting With JitteryAssessment,"in IEEE Transactions on Multimedia,vol.16,no.1,pp.272-277,Jan.2014.

[42]C.Hsu and C.Lin,"Objective quality assessment for videoretargeting based on spatio-temporal distortion analysis,"2017 IEEE VisualCommunications and Image Processing,St.Petersburg,FL,2017,pp.1-4.

[43]Y.Fang,W.Lin,Z.Chen,and C.-W.Lin,“Saliency detection in thecompressed domain for adaptive image retargeting,”IEEE Trans.Image Process.,vol.21,no.9,pp.3888-3901,Sept.2012.

[44]Wang Y S,Tai C L,Sorkine O,et al.Optimized scale-and-stretch forimage resizing[J].ACM Transactions on Graphics,2008,27(5):1-8.

[45]Zhang,Y.；Fang,Y.；Lin,W.；Zhang,X.；Li,L.Backward Registration BasedAspect Ratio Similarity(ARS)for Image Retargeting Quality Assessment.IEEETrans.Image Process.2016,25,4286–4297.

[46]M.G.Kendall,“A new measure of rank correlation,”Biometrika,vol.30,pp.81–93,Jun.1938.

[47]Wang Y S,Fu H,Sorkine O,et al.Motion-aware temporal coherence forvideo resizing[J].ACM Transactions on Graphics,2009,28(5):127:1-127:10.

[48]Liu N,Han J,Yang M H.PiCANet:Learning Pixel-wise ContextualAttention for Saliency Detection[J].2017.

[49]Piotr Dollar,Zitnick L C.Structured Forests for Fast EdgeDetection[C]//IEEE International Conference on Computer Vision.IEEE ComputerSociety,2013.

[50]主观数据库ML网址.https://pan.baidu.com/s/14RW_xpQ-XuZCP-nws4K_1A提取码：uw36.

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于空时显著性分类和融合的视频重定向质量评价方法，其特征在于，包括：

2.如权利要求1所述的基于空时显著性分类和融合的视频重定向质量评价方法，其特征在于，所述步骤S1包括：

步骤S12：采用目标检测方法提取视频的前景目标图F；

3.如权利要求1或2所述的基于空时显著性分类和融合的视频重定向质量评价方法，其特征在于，所述步骤S2中的时间连续性相似失真TCD指标考虑视频内容的运动情况，通过SIFT方法对重定向视频的相邻帧进行拼接，从而得到相邻视频帧之间的重合区域，根据原始视频帧的反向注册图来计算相邻帧重合区域对应位置的信息丢失的相似程度来衡量重定向视频的时间连续性，计算方式为：