CN113298779A

CN113298779A - 基于逆向重建网格的视频重定向质量客观评价方法

Info

Publication number: CN113298779A
Application number: CN202110563933.1A
Authority: CN
Inventors: 唐振华; 董伟鑫; 赵祖翌; 李喆; 覃团发
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-08-24
Anticipated expiration: 2041-05-24
Also published as: CN113298779B

Abstract

本发明公开了一种基于逆向重建网格的视频重定向质量客观评价方法，包括：对重定向视频帧划分均匀网格，并利用SIFT方法对重定向前后的视频帧进行特征点匹配，将初始网格顶点逆向重建，从而在原始视频帧中获得对应的网格顶点；采用空间几何失真、空间结构失真和局部信息丢失这个三个指标来衡量重定向视频的空域失真；采用时间网格失真指标来衡量重定向视频的时间连续性；对空间网格失真和时间网格失真进行加权融合，从而得到重定向视频的整体质量。本发明基于逆向网格重建实现全参考的视频重定向质量客观评价，根据SIFT方法匹配像素点，将初始网格顶点逆向重建，从而得到重建网格，避免了原始视频与重定向视频尺寸不匹配的问题。

Description

基于逆向重建网格的视频重定向质量客观评价方法

技术领域

本发明属于通信技术领域，更具体地，涉及一种基于逆向重建网格的视频重定向质量客观评价方法。

背景技术

随着各种各样的多媒体终端的普及应用，人们可以随时随地观看媒体视频，既能享受宽大屏幕带来的视觉盛宴，又可以体验小尺寸屏幕带来的轻巧便捷。由于不同的应用场景需要及人们的不同需求，这些显示终端往往包含多种不同的分辨率和宽高比。例如，目前智能手机的显示屏尺寸从5.0英寸到6.95寸不等，屏幕的宽高比有16:9、16:10和21:9等不同的规格。固定尺寸的原始视频在不同分辨率和宽高比的终端显示时受到不同程度的拉伸或挤压，不仅会造成显示屏幕空间的浪费，而且还会严重影响用户的观看体验。为了避免该现象，需要对视频内容进行必要的缩放调整，以适应终端设备的显示尺寸。为了适应不同设备的显示要求，根据视频内容自适应地调整其分辨率或宽高比，在避免视频重要内容出现变形或丢失的同时，保持视频流畅的播放效果，这一过程被称为基于内容感知的视频重定向(Content-aware Video Retargeting)^[1]-[5]。

现有的基于内容感知的视频重定向算法可粗略地分为以下几种：基于细缝裁剪方法(Seam Carving)^[6]-[9]、基于网格变形方法(Warping)^[10]-[13]，基于多算子的视频重定向算法^[14]-[16]，以及基于深度学习^[17]-[19]的算法。但是，对于特征各异的视频内容而言，一种特定的算法往往难以获得质量理想的缩放结果，重定向视频中或多或少地存在空域失真或时域失真^[20,21]。因而，对重定向视频的质量进行评价不仅可以了解视频重定向算法的各方面性能，从而有利于在实际应用中选择合适的重定向算法进行视频缩放，而且为改进视频重定向算法的性能提供了评价基准。

现有的视频重定向质量评价方法主要分为两种类型：主观评价和客观评价。视频重定向质量的主观评价需要组织一批测试者观看重定向视频，并根据既定的测试原则和流程对重定向视频的质量做出评价。主观评价过程费时耗力，且容易受到测试者的知识背景和观测环境等因素的影响。而视频重定向客观评价根据算法自动地生成重定向视频质量评价结果(分数)，该过程方便快捷，不需要人为参与，不容易受环境等因素干扰，并且客观评价算法的可移植性高，容易移植到新型的实时视频应用中。

目前，已有不少关于视频质量主客观评价的工作^[23]-[29]，这些工作主要针对视频在传输或压缩过程中引入的编码失真、色差、对比度变化等失真的评估。例如，对于视频质量的主观研究，视频质量专家组^[23]提出一个VQEG视频质量主观数据库，该数据库将视频包括纯编码(CODING)、传输错误的编码(ERROR)和间歇式编码(INTER)等三类视频。K.Seshadrinathan等人^[24]建立一个LIVE视频质量主观数据库，数据库的视频包括无线丢失失真、互联网协议丢失失真(IP)、H.264压缩失真和MPEG-2压缩失真等四类子视频集，并分别给出了其主观分数。近期针对视频质量客观评估的工作主要有：F.Zhang等人^[25]提出一种基于感知的新型混合模型，用于视频质量的评价，采用一种非线性结合显著变形和模糊的方法，使用二元树复杂小波变换(DT-CWT)结合运动分析来模拟人眼对空间和时间纹理的容忍度。K.Manasa等人^[26]提出一种简单而有效的基于光流的全参考视频质量评估方法(FR-VQA)。J.Y.Yao等人^[27]提出一种基于比特率结合视频内容的视觉感知的非参考VQA指标，提出一个只考虑比特率的VQA模型，根据图像的结构复杂度、局部对比度和视频的时间信息及其视觉感知特征，设计了视频内容的视觉感知模型。Y.Zhang等人^[28]提出一种基于弱监督学习和卷积神经网络(CNN)的非参考视频质量评价(VQA)框架，通过弱监督学习网络提取有效的视频变形特征，从而得到视频质量的最终分数。由于视频质量的评价指标或方法均要求结果视频与原始视频的尺寸保持一致，而重定向视频的分辨率或宽高比已发生变化，导致这些视频质量的主客观评价研究均难以直接应用到视频重定向质量的客观评价中。

现有不少关于图像重定向质量的主客观评价^[30]-[^36]工作。图像重定向的主观质量的工作主要有：Rubinstein.M等人^[30]建立RetargetMe主观数据库，让被试者对不同重定向结果进行投票，并且对投票结果进行统计和分析。L.Ma等人^[31]建立CUHK图像重定向主观数据库，通过让被试者对不同重定向结果进行评分，并采用不同的评估方式对结果进行分析。近年来针对图像重定向质量的客观评价主要有：Lin等人^[32]提出了一种基于混合失真混合模型(Hybrid Distortion Pooled Model,HDPM)的图像重定向质量客观评估方法，该方法融合了图像局部相似性(ILS)，内容信息丢失(CIL)和图像结构失真(ISD)等几种指标来评估重定向图像的质量。Liang等人^[33]提出了一种融合多指标的重定向图像质量评价算法，该算法通过融合显著区域保留程度、伪影产生情况、图像全局结构保留程度、美学原则和对称情况等五个指标的评估分数，获得最终的客观评价分数。Liu等人^[34]针对不同的源图像的重定向结果的一致性评分问题，提出了一种基于机器学习的客观质量评价方法。该方法基于图像重定向的主观结果，采用广义回归神经网络模型对相对分数进行训练，从而得到重定向图像的客观质量分数，该算法对不同的数据集都具有较好的通用性。Zhang等人^[35]使用给定一种前向重采样的框架，提出一种基于图像块宽高比相似度(ARS)重定向图像质量评价算法。通过马尔可夫随机场(Markov Random Field,MRF)将几何变化转换为后向配准的问题。Y.Niu^[36]提出一种基于映射置信评估(RCM)和显著池(NBP)的图像重定向客观质量评估框架，先得到原始图像与重定向图像的像素映射关系，采用RCM计算每个图像块的局部置信度，并结合NBP，得到图像的整体客观质量。由于图像重定向客观质量评价算法只考虑重定向图像的空间内容失真，而重定向视频的内容和失真复杂多变，且人眼更关注视频的时间失真，使图像重定向评价算法难以直接应用视频重定向的质量评估。

目前对于视频重定向质量客观评价^[37]-[39]的研究较少。Bo Yan等人^[37]提出一种衡量视频时间抖动的评价方法，主要利用相邻帧之间对应网格的高度差或宽度差来评估视频的时间抖动。但由于该方法需要视频帧的网格信息，只适用对Warping处理的重定向视频的时间失真进行评估。据此，K.Li等人^[38]将该方法扩展到不同重定向视频的时间质量评估，提出一种新型评估视频时间连续性的指标，通过测量视觉相邻帧之间映射像素点的坐标差来评估重定向视频的视觉质量，该方法简单高效，但只适用于目标快速运动的视频的时间失真，对于其他类型的视频难以取得较好的结果。Chih-Chung Hsu等人^[39]提出一种基于时空质量分析的视频重定向质量的客观评价方法，通过融合空间质量、时间不连续失真和显著相似度测量三种指标来评估重定向视频的整体质量，采用光流法和SIFT匹配来评估视频中内容变化的时空连续性。虽然该方法可以评估重定向视频的整体质量，但由于其难以很好地评估视频空间的几何失真，并且无法对目标静止的视频的时间失真评估。

综上所述，一方面，现有的视频重定向质量的客观评价算法一般采用统一视频尺寸的方式，根据SIFT方法将重定向视频帧放大到原始视频帧的尺寸，从而解决重定向前后分辨率不一的问题，但这样很容易引入额外失真，影响评价性能；另一方面，这些算法采用的评估指标仅考虑重定向视频失真的严重程度(其中包含重要区域的失真和非重要区域的失真)，但人眼往往更多地关注重要区域的失真，导致容易出现无效指标的情况，使最终难以获得符合人眼视觉感知的质量分数。

发明内容

为了解决以上问题，本发明提供了一种基于逆向重建网格的视频重定向质量客观评价方法，采用逆向重建网格的方式，根据SIFT的方法对重定向视频帧的初始网格进行逆向重建，通过衡量重建网格的形变来评估重定向视频的失真，有效地解决了重定向前后视频尺寸不同的问题；而且本发明借鉴了基于Warping的视频重定向方法中的能量度量指标，Warping结果的有效性证实了能量指标对人眼视觉感知的重要性，从而保证了失真指标的有效性。

为实现上述目的，本发明提供了一种基于逆向重建网格的视频重定向质量客观评价方法，包括：

S1、对重定向视频帧划分均匀网格，并利用SIFT方法对重定向前后的视频帧进行特征点匹配，将初始网格顶点逆向重建，从而在原始视频帧中获得对应的网格顶点；

S2、采用空间几何失真、空间结构失真和局部信息丢失这个三个指标来衡量重定向视频的空域失真；

S3、采用时间网格失真指标来衡量重定向视频的时间连续性；

S4、对空间网格失真和时间网格失真进行加权融合，从而得到重定向视频的整体质量。

优选地，所述步骤S1具体为：

首先在重定向视频帧划分均匀网格即初始网格，初始网格的集合表示为M，每一个初始网格的顶点表示为

其中v₁为网格左上顶点，v₂为网格右上顶点，v₃为网格的左下顶点，v₄为网格的右下顶点，m∈M，然后利用SIFT方法在原始视频帧进行逆向重建后获得对应网格，其集合表示为M'，每个重建网格的顶点表示为

优选地，所述步骤S1具体包括如下子步骤：

步骤S11：对每个重定向的视频帧划分尺寸为N*N的规则网格，N为预设值；

步骤S12：采用SIFT特征匹配方法，获得重定向视频帧与原始视频帧之间的像素映射关系I_map；

步骤S13：根据像素点映射关系I_map，将重定向视频帧的网格顶点反向映射到原始视频帧，从而在原始视频帧中获得对应的网格，其顶点为

步骤S14：根据原始视频帧中的逆向重建网格M'，计算每个网格内所有像素的重要度值的均值，并将其作为网格的权重值

优选地，所述步骤S2中的空间几何失真计算方式具体为：

步骤S211：分别计算每个初始网格与对应的逆向重建网格的宽度和高度的相似度：

其中(x'_k,y'_k)和(x_k,y_k)分别为原始视频帧和重定向视频帧的网格顶点坐标；k＝1,2,4,m'∈M'；

步骤S212：计算原始网格和重建网格的宽高相似度来衡量重定向视频的空间几何失真S_SGD：

其中，w_f(p,q)表示原始视频中第f帧的第(p,q)个网格的重要度值；将SGD_m'归一化到[0，1]区间内，从而得到SGD'_m'；

步骤S213：计算第f帧中所有重建网格的SGD均值，得到重定向视频第f帧的宽高相似度，则宽高相似失真

为：

其中，m'∈M',Q为重建网格总数，若

的值越大，说明初始网格与重建网格的宽高相似失真越大，即重定向视频出现较严重的几何失真。

优选地，所述步骤S2中的空间结构失真的计算方式具体为：

步骤S221：计算原始视频帧中每一个重建网格的直线弯曲形变：

其中，||·||表示范数；

步骤S222：计算第f帧中所有重建网格的SSD均值，该均值即为重定向视频第f帧的

值：

其中，

的值越大，表示重建网格的直接弯曲形变越大，重定向视频的质量越差。

优选地，所述步骤S2中的局部信息丢失的计算方式具体为：

步骤S231：计算对应的初始网格和重建网格的尺度形变：

步骤S232：计算第f帧中所有重建网格的LIL均值，该均值即为重定向视频第f帧的

值：

其中，

的值越大，表示重建网格的信息丢失程度越大，重定向视频的质量越差。

优选地，所述步骤S3中的时间网格失真的计算方式具体为：

步骤S31：分别获得第f帧与第f+1帧的重建网格顶点集合V′_f和V′_f+1；

步骤S32：计算原始视频第f帧与第f+1帧之间的单应性矩阵H_f→f+1，用于作为对视频运动的补偿；

步骤S33：根据单应性矩阵H_f→f+1，计算第f帧与第f+1帧之间重建网格顶点的位置变化，并将其作为第f帧的

其中，

-分别为原始视频第f+1帧和第f帧的网格顶点；

步骤S34：计算原始视频所有帧的

均值，该均值即为重定向视频的S_TMD值，S_TMD的值越大，表示重定向视频的时间连续性越差。

优选地，所述步骤S4中重定向视频的整体质量具体为：

S_RVQ＝η*S_SMD+λ*S_TMD (10)

η+λ＝1

其中，η、λ分别为空时网格失真的权重。

优选地，所述步骤S2中的空域失真计算方式具体为：

将空间几何失真SGD、空间结构失真SSD和局部信息丢失LIL三个指标线性加权得到：

α+β+χ＝1

其中，α、β、χ为权重。

优选地，α＝0.2,β＝0.3,χ＝0.5。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

本发明提供了一种基于逆向重建网格的视频重定向质量客观评价方法，其基于逆向网格重建实现全参考的视频重定向质量客观评价，根据SIFT方法匹配像素点，将初始网格顶点逆向重建，从而得到重建网格，避免了原始视频与重定向视频尺寸不匹配的问题。本算法还考虑了人眼视觉的特性，采用Warping过程中的能量指标用于评估重定向视频的失真，将评估重定向视频的失真转换为评估网格的形变，降低了算法的时间复杂度，并保证了该算法的有效性。经实验证明，与现有算法相比，本发明算法具有较好的评估性能，与ML主观数据库的KRCC匹配度达到0.5，并且具有较低的时间复杂度。

附图说明

图1是本发明提供的基于逆向重建网格的视频重定向质量客观评价方法的整体流程图；

图2是本发明实施例中划分均匀网格示意图；

图3是本发明实施例中原始视频帧的重建网格示意图；

图4是本发明实施例中不同重定向方法生成的视频帧及逆向重建网格图；

图5是本发明实施例中Foreman序列的测试视频；

图6是本发明实施例中不同算法的运行时间比较(宽度缩小到50％)。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出一个基于逆向重建网格的视频重定向质量客观评价算法。该算法借鉴了基于网格的Warping方法的思想，在充分考虑了人眼视觉的特性及原始视频信息的情况下，利用逆向重建网格衡量重定向视频的空域和时域的失真。具体而言，该算法通过融合空间网格失真(SMD)(其中包含：空间结构失真(SSD)、空间几何失真(SGD)和局部信息失真(LIL)三个空间失真指标)和时间网格失真(TMD)指标来衡量网格的空间形变以及时间连续性，从而评估重定向视频的整体质量。本发明的贡献如下：

(1)据我们了解，在现有的视频重定向质量客观评价算法中很少有人将视频重定向处理的方法运用到质量评价中。尽管学者们提出了多种视频重定向算法，但由于这些算法本身的特性，大都难以运用到质量评价中。例如：Seam Carving通过删除缝来达到重定向的目的，但难以通过缝来评估重定向视频的失真。本发明借鉴基于Warping的视频重定向方法，采用划分网格的方式，通过衡量重建网格的形变程度来评估重定向视频的失真。与现有算法相比，本发明提出的算法具有更好的性能，与人眼主观感知结果的匹配度更高，并具有较低的时间复杂度。

(2)由于原始视频与重定向视频的尺寸不相同，难以直接利用原始视频的信息。Hsu等人^[39]先将原始视频帧和重定向视频帧的尺寸统一，然后评估其失真，但这样容易引入较大的实验误差，使客观评估结果难以与人眼主观结果保持一致。与上述工作不同的是，本发明利用SIFT方法将重定向视频帧的网格顶点映射到原始视频帧中，在逆向重建网格的中衡量视觉失真，这样能有效地解决原始视频与重定向视频尺寸不匹配的问题，保证了该算法的有效性。

(3)在基于Warping的视频重定向方法中空域和时域能量的度量差异较大，通常不能直接转化为视频质量的评价指标，而且也难以进行相应的融合。即便对能量度量进行归一化处理，往往会破坏其分数原本的特性。为了解决这个问题，本发明充分利用视觉感知对失真的关注程度，将不同失真量度指标控制在接近[0,1]范围内。具体而言，在SGD中，本发明通过计算宽高相似度的距离并进行加权处理来衡量网格的形状形变；在SSD、LIL和TMD中，本发明对相应的能量度量进行平方根及加权处理。这样避免了不同能量量度差异较大的问题，从而将能量分数转换为有效的失真指标分数，保证了该算法的性能。

本发明提出的基于逆向重建网格的VRQA算法框图如图1所示。该算法首先对重定向视频帧划分均匀网格，并利用SIFT方法对重定向前后的视频帧进行特征点匹配，将初始网格顶点逆向重建，从而在原始视频帧中获得对应的网格顶点；然后采用SGD、SSD和LIL这个三个指标来衡量重定向视频的空域失真，并采用TMD指标来衡量重定向视频的时间连续性。

算法伪代码如下：

具体算法如下：

S1、逆向重建网格

首先在重定向视频帧划分均匀网格(初始网格)，初始网格的集合表示为M，每一个初始网格的顶点表示为

其中v₁为网格左上顶点，v₂为网格右上顶点，v₃为网格的左下顶点，v₄为网格的右下顶点，m∈M。然后利用SIFT方法在原始视频帧进行逆向重建后获得对应网格，其集合表示为M'，每个重建网格的顶点表示为

具体步骤如下：

步骤S11：对每个重定向的视频帧划分尺寸为N*N的规则网格，N为预设值，如图2所示；

步骤S12：采用SIFT[43]特征匹配方法，获得重定向视频帧与原始视频帧之间的像素映射关系I_map；

如图3所示；

步骤S14：根据Wang^[44]提出的重要度图方法，生成原始视频帧的重要度图。根据原始视频帧中的逆向重建网格M'，计算每个网格内所有像素的重要度值的均值，并将其作为网格的权重值

图4为当前常用的6种重定向方法生成的重定向视频帧及对应的逆向重建网格图。由图4可看出，与原始帧初始网格相比，若逆向重建网格出现几何变形、扭曲等形变时，重定向视频帧会出现失真，主观质量往往变差。

S2、空间网格失真

由于重定向视频帧中重要内容出现的几何变形、结构失真及信息丢失容易引起人眼视觉的关注，因而本发明采用以下三个失真指标来衡量逆向重建网格的空域失真：空间几何失真、空间结构失真和局部信息丢失。最终的空间网格失真由空间几何失真SGD、空间结构失真SSD和局部信息丢失LIL三个指标线性加权得到：

α+β+χ＝1

其中，α、β、χ为权重，通过实验测试，本发明将这三个参数设为α＝0.2,β＝0.3,χ＝0.5。

表示重定向视频中第f帧的空间网格失真，计算所有帧

的均值为S_SMD,即为重定向视频的空间失真分数。S_SMD的值越大，重定向视频的空间失真越大，其空间质量也越差。

S21、空间几何失真

本发明通过计算每一个原始网格与逆向重建网格的宽高相似度来衡量逆向重建网格的形状形变，并采用网格的重要度值对其进行加权，从而评估重定向视频帧的空间几何失真，具体步骤如下：

其中(x'_k,y'_k)和(x_k,y_k)^-分别为原始视频帧和重定向视频帧的网格顶点坐标；k＝1,2,4,m'∈M'。

步骤S212：计算原始网格和重建网格的宽高相似度来衡量重定向视频的空间几何失真(S_SGD)，如式(3)所示：

其中，w_f(p,q)表示原始视频中第f帧的第(p,q)个网格的重要度值；由于不同网格之间SGD值差异较大，为了减小实验误差，将SGD_m'归一化到[0，1]区间内，从而得到SGD'_m'。

可通过式(4)计算得到。

其中，m'∈M',Q为重建网格总数。若

S22、空间结构失真

对于重要区域过大或无前景区域的视频，人眼往往关注重定向视频中重要区域内部的扭曲或形变，的结构失真。本发明通过计算每一个重建网格的直线弯曲形变来衡量空间结构失真，具体步骤如下：

步骤S221：计算原始视频帧中每一个重建网格的直线弯曲形变，如式(5)所示：

其中，||·||表示范数。

值，如式(6)所示。

其中，

S23、局部信息丢失(LIL)

重定向处理容易造成视频信息的丢失，而信息丢失会一定程度上影响人眼主观感受。本发明通过计算原始视频帧与重定向视频帧之间对应网格的面积形变来衡量局部信息丢失，具体步骤如下：

步骤S231：计算对应的初始网格和重建网格的尺度形变，如式(7)所示：

值，如式(8)所示。

其中，

S3、时间网格失真

视频重定向处理容易造成视频的时间不连续，播放时出现令人产生眩晕的抖动，严重影响人的主观感受。本发明通过相邻帧的重建网格之间的变化来衡量重定向视频的时间网格失真，为了更好地评估重定向视频的时间连续性，本发明加入单应性矩阵H^[45]用于运动补偿，将视频内容运动对评估结果产生的影响考虑在内。具体步骤如下：

步骤S32：利用图像配准^[45]方法，计算原始视频第f帧与第f+1帧之间的单应性矩阵H_f→f+1，用于作为对视频运动的补偿。

具体如式(9)所示：

其中，

-分别为原始视频第f+1帧和第f帧的网格顶点。

步骤S34：计算原始视频所有帧的

均值，该均值即为重定向视频的S_TMD值。S_TMD的值越大，表示重定向视频的时间连续性越差。

S4、重定向视频质量指标融合

本发明对空间网格失真和时间网格失真进行加权融合，从而得到重定向视频的整体质量(Retargeted Video Quality,RVQ)，如式(10)所示：

S_RVQ＝η*S_SMD+λ*S_TMD (10)

η+λ＝1

其中，η、λ分别为空时网格失真的权重。根据人眼视觉的特性，人眼往往更多地关注重定向视频的时间失真，对于时间失真较大的视频，人们通常趋向于认定其整体质量较差，因而本发明设置这两个参数为：η＝0.3，λ＝0.7。

实验结果分析

ML主观数据库

为了评估本发明算法的性能，本发明采用已建立的ML^[46]定向主观数据库作为评价的基准。该数据库包含28个不同分辨率的原始视频，其中CIF格式(空间分辨率为352*288)的视频20个，4个尺寸为720P格式(1280*720)的视频和4个1080P格式(1920*1080)的视频考虑2种缩放比例(宽度缩小50％和75％)以及6种重定向方法(包括：US、Cropping、Letterboxing、Warping^[47]、SC^[48]和RH^[49])，共生成28×2×6＝336个重定向视频。本发明的笔者随机召集了43名测试者(经过结果分析，删去3组误差较大的实验结果，最终得到40组主观数据)进行实验。实验采用双刺激方法，将一个原始视频与其任意两个缩放尺寸一致重定向视频构成一个测试视频组，如图5所示。本发明数据库采用

个测试视频组，测试者需要观看测试视频，并为质量较佳的一个重定向视频进行投票，最终统计每个重定向视频的投票总数。ML数据库中分辨率为CIF格式的视频评价的结果如表1所示。ML数据库完整的评价结果具体可见网址https://pan.baidu.com/s/14RW_xpQ-XuZCP-nws4K_1A，提取码：uw36。

本发明主要采用肯德尔系数(KRCC)^[50]来衡量VRQA客观算法与主观数据库结果的排序一致性，具体如式(11)所示：

其中，N_c表示正匹配数；N_d表示负匹配数；KRCC的值在[-1，1]区间内，KRCC的值越接近1，表示客观评价算法与主观人眼视觉感知结果的吻合度越高，即客观评价算法的性能越好，反之，说明相关度越低，性能越差。

表1.ML数据库中352*288的不同重定向方法投票结果(宽度缩小为50％)

不同算法性能比较

现有针对视频重定向的客观质量评价算法主要有：Hsu^[39]等人提出的用于对重定向视频质量整体评估的算法，Yan^[37]等人提出一个评估网格时间连续性的失真指标以及Li^[38]等人提出一个用于评估相邻帧像素点变化的时间失真指标。但由于Yan^[37]的评估指标需要Warping处理的网格信息，无法用于评估其它重定向视频的质量评估。所以本发明将所提算法与Hsu^[39]、Li^[38]两种算法的性能进行比较。ML数据库根据视频特征对视频分为5类：包含较大显著区域、包含较小显著区域、无显著区域、目标静止和背景静止，每个视频包含一种或者多种视频特征。表2为不同算法的KRCC值比较。

表2.不同算法的KRCC比较(标记红色为性能最好)

由表2可看出，本发明算法的平均KRCC明显地高于其他两种算法。在所有类别视频中，本发明算法的KRCC值也均远高于其他算法，仅标准差略低于Hsu^[39]的算法，该算法对于包含小显著区域和无显著区域视频的评估效果最好。可以表明，与目前算法相比，本发明算法获得的重定向视频的质量与人眼主观感知的吻合程度最高，算法的评估性能最好。

由于算法的时间复杂度一般与视频的尺寸有关，本发明将不同算法对ML数据库中CIF、720P和1080P三种尺寸视频的运行时间分别进行比较。从不同尺寸视频中分别随机抽取2组视频作为测试序列，分别为：akiyo、bus、fourpeople、stockholm、blue_sky和life。其中akiyo和bus的尺寸为CIF；fourpeople和stockholm的尺寸为720p；blue_sky和life的尺寸为1080p。由于视频尺寸与宽度缩放比例对算法性能的影响几乎相同，本发明仅对宽度缩小为50％的不同算法运行时间进行比较，如图6所示。

从图6可以看出，对于不同尺寸的视频，本发明算法的运行时间明显低于Hsu^[39]方法。在视频尺寸较小时，该算法的运行时间低于Li^[38]方法；在视频尺寸较大时，该算法的运行时间略高于Li^[38]方法。但Li^[38]方法只是用于评估重定向视频的时间失真，而本发明算法用于评估重定向视频的整体质量。

综上所述，与现有算法相比，本发明算法具有更好的评估性能，与人眼主观感知结果保持较高的一致性，并且具有较低的算法复杂度。

不同网格尺寸的算法性能比较

本发明还进一步研究不同的网格尺寸对算法性能的影响。表3为不同网格尺寸下算法的平均KRCC值。由于过大的网格会同时包含不重要区域内容和重要区域内容，降低算法性能，而过小的网格会使算法的复杂度急剧增加，因而本发明只考虑网格尺寸为10*10、20*20和30*30三种情况下算法的性能比较。

表3.本发明算法采用不同网格尺寸的KRCC比较

从表3可以看出，当初始网格尺寸设置为10*10时，本发明算法的平均KRCC值最高，达到0.5，标准差也达到最低值。除了包含大显著区域的视频，在其他所有类别视频中，网格尺寸10*10的性能都为最佳，这是因为对于包含大显著区域的视频，随着初始网格尺寸的增大，网格包含的重要信息更多，可以更好的评估重定向视频的失真。综上所述，网格尺寸设置为10*10时，本发明算法具有最优的评估性能。

参考文献：

[1]Shamir A,Sorkine O.Visual media retargeting[C]//InternationalConference on Computer Graphics&Interactive Techniques.2009.

[2]L.Wolf,M.Guttmann and D.Cohen-Or,"Non-homogeneous Content-drivenVideo-retargeting,"2007 IEEE 11th International Conference on ComputerVision,Rio de Janeiro,2007,pp.1-6.

[3]M.Grundmann,V.Kwatra,M.Han and I.Essa,"Discontinuous seam-carvingfor video retargeting,"2010 IEEE Computer Society Conference on ComputerVision and Pattern Recognition,San Francisco,CA,2010,pp.569-576.

[4]J.Kim,J.Kim and C.Kim,"Adaptive image and video retargetingtechnique based on Fourier analysis,"2009 IEEE Conference on Computer Visionand Pattern Recognition,Miami,FL,2009,pp.1730-1737.

[5]V.Setlur,T.Lechner,M.Nienhaus and B.Gooch,"Retargeting Images andVideo for Preserving Information Saliency,"in IEEE Computer Graphics andApplications,vol.27,no.5,pp.80-88,Sept.-Oct.2007.

[6]Chen L Q,Xie X,Fan X,et al.A visual attention model for adaptingimages on small displays[J].Multimedia Systems,2003,9(4):353-364.

[7]C.Chiang,S.Wang,Y.Chen and S.Lai,"Fast JND-Based Video CarvingWith GPU Acceleration for Real-Time Video Retargeting,"in IEEE Transactionson Circuits and Systems for Video Technology,vol.19,no.11,pp.1588-1597,Nov.2009.

[8]B.Yan,K.Sun and L.Liu,"Matching-Area-Based Seam Carving for VideoRetargeting,"in IEEE Transactions on Circuits and Systems for VideoTechnology,vol.23,no.2,pp.302-310,Feb.2013.

[9]H.Kaur,S.Kour and D.Sen,"Prediction based seam carving for videoretargeting,"2016 23rd International Conference on Pattern Recognition(ICPR),Cancun,2016,pp.877-882.

[10]Fan X,Xie X,Zhou H,et al.Looking into Video Frames on SmallDisplays[C]//Eleventh Acm International Conference on Multimedia.2003.

[11]S.Lin,C.Lin,I.Yeh,S.Chang,C.Yeh and T.Lee,"Content-Aware VideoRetargeting Using Object-Preserving Warping,"in IEEE Transactions onVisualization and Computer Graphics,vol.19,no.10,pp.1677-1686,Oct.2013.

[12]B.Li,L.Duan,J.Wang,R.Ji,C.Lin and W.Gao,"Spatiotemporal Grid Flowfor Video Retargeting,"in IEEE Transactions on Image Processing,vol.23,no.4,pp.1615-1628,April 2014.

[13]Wang Y S,Fu H,Sorkine O,et al.Motion-aware temporal coherence forvideo resizing[J].ACM Transactions on Graphics,2009,28(5):1.

[14]W.Yo,J.Leou and H.Hsiao,"Video retargeting using non-homogeneousscaling and cropping,"2013 Asia-Pacific Signal and Information ProcessingAssociation Annual Summit and Conference,Kaohsiung,2013,pp.1-5.

[15]D.Wei,Y.Chou and P.Su,"A Multi-Operator Retargeting Scheme forCompressed Videos,"2018 IEEE International Conference on ConsumerElectronics-Taiwan(ICCE-TW),Taichung,2018,pp.1-2.

[16]H.Hsin,"Video retargeting based on SH equalisation and seamcarving,"in IET Image Processing,vol.13,no.8,pp.1333-1340,20 6 2019.[17]Bansal A,Ma S,Ramanan D,et al.Recycle-gan:Unsupervised video retargeting[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:119-135.

[18]Cho D,Jung Y,Rameau F,et al.Video Retargeting:Trade-off betweenContent Preservation and Spatio-temporal Consistency[C]//Proceedings of the27th ACM International Conference on Multimedia.ACM,2019:882-889

[19]R.Villegas,J.Yang,D.Ceylan and H.Lee,"Neural Kinematic Networksfor Unsupervised Motion Retargetting,"2018 IEEE/CVF Conference on ComputerVision and Pattern Recognition,Salt Lake City,UT,2018,pp.8639-8648.

[20]M.Rubinstein,D.Gutierrez,O.Sorkine,and A.Shamir,“A comparativestudy of image retargeting,”ACM Trans.Graphics,vol.29,no.6,2010.

[21]C.-C.Hsu,C.-W.Lin,Y.Fang,and W.Lin“Objective quality assessmentfor image retargeting based on perceptual geometric distortion andinformation loss”,IEEE J.Sel.Topics Signal Process.,vol.8,no.3,pp.337-389,2014.

[22]S.Chikkerur,V.Sundaram,M.Reisslein,and L.J.Karam,“Objective videoquality assessment methods:A classification,review,and performancecomparison,”IEEE Trans.Broadcast.,vol.57,no.2,pp.165–182,Jun.2011.

[23]Video Quality Experts Group.(2000).“Final report from the videoquality experts group on the validation of objective quality metrics forvideo quality assessment,”VQEG,Boulder,CO,USA,Tech.Rep.

[24]K.Seshadrinathan,R.Soundararajan,A.C.Bovik,and L.K.Cormack,“Studyof subjective and objective quality assessment of video,”IEEE Trans.ImageProcess.,vol.19,no.6,pp.1427–1441,Jun.2010.

[25]F.Zhang and D.R.Bull,"A Perception-Based Hybrid Model for VideoQuality Assessment,"in IEEE Transactions on Circuits and Systems for VideoTechnology,vol.26,no.6,pp.1017-1028,June 2016.

[26]K.Manasa and S.S.Channappayya,"An Optical Flow-Based FullReference Video Quality Assessment Algorithm,"in IEEE Transactions on ImageProcessing,vol.25,no.6,pp.2480-2492,June 2016.

[27]J.Y.Yao and G.Liu,"Bitrate-Based No-Reference Video QualityAssessment Combining the Visual Perception of Video Contents,"in IEEETransactions on Broadcasting,vol.65,no.3,pp.546-557,Sept.2019.

[28]Y.Zhang,X.Gao,L.He,W.Lu and R.He,"Blind Video Quality AssessmentWith Weakly Supervised Learning and Resampling Strategy,"in IEEE Transactionson Circuits and Systems for Video Technology,vol.29,no.8,pp.2244-2255,Aug.2019.

[29]A.K.Moorthy and A.C.Bovik,"Efficient Video Quality AssessmentAlong Temporal Trajectories,"in IEEE Transactions on Circuits and Systems forVideo Technology,vol.20,no.11,pp.1653-1658,Nov.2010.

[30]Rubinstein M,Gutierrez D,Sorkine O,et al.A comparative study ofimage retargeting[J].ACM Transactions on Graphics,2010.

[31]L.Ma,W.Lin,C.Deng,et al,Image retargeting quality assessment:Astudy of subjective scores and objective metrics[J].IEEE Journal of SelectedTopics in Signal Processing,2012,6(6):pp.626–639.

[32]Y.Liang,Y.J.Liu,D.Gutierrez.Objective quality prediction of imageretargeting algorithms[J].IEEE Transactions on Visualization and ComputerGraphics,2017,23(2):pp.1099-1110.

[33]J.Lin,L.Zhu,Z.Chen,X.Chen.Objective quality assessment for imageretargeting based on hybrid distortion pooled model[C].Proceedings of SeventhInternational Workshop on Quality of Multimedia Experience,2015,pp.1-6.

[34]A.Liu,W.Lin,H.Chen,et al.Image retargeting quality assessmentbased on support vector regression[J].Signal Processing:Image Communication,2015,39(2015):pp.444-456.

[35]Y.Zhang,Y.Fang,W.Lin,X.Zhang,Li,L.Backward registration-basedaspect ratio similarity for image retargeting quality assessment[J].IEEETransactions on Image Processing,2016,25(9):pp.4286-4297.

[36]Y.Niu,S.Zhang,Z.Wu,T.Zhao and W.Chen,"Image Retargeting QualityAssessment Based on Registration Confidence Measure and Noticeability-basedPooling,"in IEEE Transactions on Circuits and Systems for VideoTechnology.2020.

[37]B.Yan,B.Yuan and B.Yang,"Effective Video Retargeting With JitteryAssessment,"in IEEE Transactions on Multimedia,vol.16,no.1,pp.272-277,Jan.2014.

[38]K.Li,B.Yan,and B.Yuan,“A new metric to assess temporal coherencefor video retargeting,”in Proc.SPIE 9273,Optoelectronic Imaging andMultimedia Technology III,Oct.2014.

[39]C.Hsu and C.Lin,"Objective quality assessment for videoretargeting based on spatio-temporal distortion analysis,"2017 IEEE VisualCommunications and Image Processing,St.Petersburg,FL,2017,pp.1-4.

[40]Niu Y,Liu F,Li X,et al.Warp propagation for video resizing[C]//2010IEEE Computer Society Conference on Computer Vision and PatternRecognition.IEEE,2010.

[41]Grundmann M,Kwatra V,Han M,et al.Discontinuous Seam-Carving forVideo Retargeting[C]//Computer Vision and Pattern Recognition(CVPR),2010IEEEConference on.IEEE,2010.

[42]Yuan Z.Addressing Visual Consistency in Video Retargeting:ARefined Homogeneous Approach[J].IEEE Transactions on Circuits&Systems forVideo Technology,2012,22(6):890-903.

[43]Lowe D G.Lowe,D.G.:Distinctive Image Features from Scale-Invariant Key-points.Int.J.Comput.Vision 60(2),91-110[J].InternationalJournal of Computer Vision,2004,60(2).

[44]Wang Y S,Tai C L,Sorkine O,et al.Optimized scale-and-stretch forimage resizing[J].ACM Transactions on Graphics,2008.

[45]Szeliski R.Image Alignment and Stitching:A Tutorial[J].Foundations&Trends in Computer Graphics&Vision,2007,2(1):1-104.

[46]主观数据库ML网址.https://pan.baidu.com/s/14RW_xpQ-XuZCP-nws4K_1A.提取码：uw36.

[47]Niu Y,Liu F,Li X,et al.Warp propagation for video resizing[C]//2010IEEE Computer Society Conference on Computer Vision and PatternRecognition.IEEE,2010.

[48]Grundmann M,Kwatra V,Han M,et al.Discontinuous Seam-Carving forVideo Retargeting[C]//Computer Vision and Pattern Recognition(CVPR),2010IEEEConference on.IEEE,2010.

[49]Yuan Z.Addressing Visual Consistency in Video Retargeting:ARefined Homogeneous Approach[J].IEEE Transactions on Circuits&Systems forVideo Technology,2012,22(6):890-903.

[50]M.G.Kendall,“A new measure of rank correlation,”Biometrika,vol.30,pp.81–93,Jun.1938.

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。