CN107071423A

CN107071423A - 视觉多通道模型在立体视频质量客观评价中的应用方法

Info

Publication number: CN107071423A
Application number: CN201710271303.0A
Authority: CN
Inventors: 李素梅; 常永莉; 丁学东; 侯春萍
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2017-08-18

Abstract

本发明属于视频和图像处理领域，为提出一种更加符合人类视觉系统相关特性且有效的立体视频客观质量评价方法，使新的立体视频客观质量评价方法更加准确高效的评价立体视频的质量，同时推动立体成像技术的发展。本发明，视觉多通道模型在立体视频质量客观评价中的应用方法，利用haar小波建模视觉多通道模型，首先将关键帧的绝对差值图进行三级小波变换，分解成不同的方向和频率成分来模拟人眼多通道特性；然后应用SSIM对变换所得的不同分量进行评价从而得到相应的客观质量，再利用小波逆变换得到每一关键帧的单一质量；最后应用关键帧的权重加权关键帧的质量从而得到完整的立体视频质量。本发明主要应用于视频和图像处理。

Description

视觉多通道模型在立体视频质量客观评价中的应用方法

技术领域

本发明属于视频和图像处理领域，涉及到立体图像质量评价方法和立体视频质量评价方法的改进优化，以及人类视觉系统中的多通道效应在立体视频质量客观评价中的应用，具体讲,涉及视觉多通道模型在立体视频质量客观评价中的应用方法。

背景技术

人眼视觉系统(Human Visual System)可以被看成是一个错综复杂的综合性信息处理系统，它是人类认知大自然的关键工具，在生物学上它由大量的神经细胞相互组织连接而成。通过了解人眼视觉系统及其特性，能更好的认识人眼观看立体视频的过程，从而更好地进行立体视频的质量评价。

随着对于视觉生理学与心理学方面的研究更加深入，研究者发现在人类视觉系统里存在着多个独立的频率处理单元，人眼视觉系统通过这样多个视觉通道来传输采集到的视觉信息。这些通道的空间频率相互独立，它们把采集到的视觉信号划分到具有不同空间频率的通道中进行处理。现阶段，对于人眼视觉系统的多通道特性的研究主要包括时域多通道分解特性与空域多通道分解特性。对于时域多通道效应作用机制的研究仍然存在一些争议，但大多数研究者认为时域多通道效应主要由永久机制与暂时机制两部分构成[1]。而对于空域多通道效应的研究则比较完善，文献[2]通过研究人眼视觉系统对于图像信号处理过程，发现灰度信号通常可分解为4-6个频带和4-8个方向。通常情况下，我们可以采用诸如离散余弦滤波器组、金字塔滤波器或二维方向小波变换的多分辨滤波器组来模拟人眼视觉系统的空域多通道特性。

立体视频能够使观看者获得立体感，这无疑增强了用户的观看体验，使用户的感受更加真实。图像处理、显示技术以及视频编码技术(例如H.264/AVC,H.264/SVC以及多视点视频编码(MVC))使得立体视频技术在很多应用领域得到广泛的发展。最近，最新的HEVC/H.265标准[3]已经增加了对立体视频编码的支持，与H.264相比，在相同的码速率条件下H.265压缩的视频质量更好。而且，随着网络容量和速度的快速增长，高清晰度的立体视频向大的用户群(移动用户、桌面办公用户以及可穿戴设备用户)投送成为可能。这些技术的发展为传统立体电影以外的很多应用带来了革命性的机会，例如移动电话立体视频流、立体视频在线交流、立体视频会议、远程三维重现以及沉浸式三维视频游戏等。全球很多组织机构已经在这方面加强学术交流和标准制定，例如3D@Home[4]致力于3D消费产品对人类生理的影响，并且与很多国际性机构都有联系(包括中国3D工业联盟[5]和日本的3D联合会[6]等)。

立体视频通过引入深度信息从而给观众带来了更好的视觉体验。然而，为了给用户提供更好的立体视频质量，那就不仅要面对2D视频中存在的问题，而且还要面对3D视频所特有的问题。典型的立体视频分别由左右视点构成，有多种存储方式。例如，立体视频的左右视点可以分别存储[7]；可以以彩色图像加深度图[8]的方式存储，在这种存储方式下显示终端可以由深度图来恢复左视图或者右视图；还可以以多视点[9]的方式存储，这种格式可以创建出多种观察角度的视图[10]。立体视频通常有很高的冗余度，这些冗余信息可以通过各种各样的压缩算法来部分消除。但是在对立体视频压缩的同时也会造成立体视频质量的下降，从而影响用户的观看体验甚至给用户的视觉系统带来伤害。所以对压缩的立体视频进行质量评价从而将压缩立体视频的质量管控在一定的范围内显得尤为重要。

立体视频质量评价可分为主观评价和客观评价。由于主观评价方法对实验环境、测试流程、被试者素质等有较高要求，所以完成一次主观评价既耗时又耗力，且结果的精确度易受外界条件影响，结果的可移植性和稳定性难以达到应用要求。客观评价方法较主观评价方法快速、稳定且简单易行。因此，研究合理且高效的客观评价方法意义重大。

立体视频具有数据量大的特点，这给立体视频的传输和存储带来了很大的挑战，所以在立体视频传输和存储的过程中通常需要将其进行压缩，然而不当的压缩可能造成立体视频质量的下降，而且在其传输过程中可能引入噪声的影响，这同样可能引起立体视频质量的下降。所以，对立体视频进行评价从而确定其质量范围对于控制立体视频的舒适度至关重要。由人来对其进行评价无疑是最准确有效的方法，这种直接由人来评价立体视频质量的方式就是主观评价。显然主观评价方法准确有效而且可以真正的反应人类对于立体视频质量好坏的感受。然而主观评价往往需要大量的人力物力和时间，而且对于不同的视频内容需要进行多次的重复劳动，这对于立体视频质量评价的实际应用十分不利。因此，寻求一种自动且智能的方法来评价立体视频的质量显的尤为重要。所以立体视频质量的客观评价方法就应运而生了，所谓客观评价方法是指利用计算机执行相应的评价算法来对立体视频进行评价从而得到立体视频的质量。显然客观评价算法高效并且快速，然而客观评价算法也有其面临的难题，那就是客观评价算法的准确性。毕竟客观评价算法不是由人来做出评价的，所以客观评价算法能够在多大程度上反映人类的观看体验是其准确性的评价标准。然而人类的观看体验本身就很抽象又怎么用来评价客观算法的准确性呢？通常的做法是对相同的视频材料分别进行主观评价和客观评价，再通过主客观评价结果的一致性来衡量客观评价算法的准确性，并且通过主客观评价结果的一致性来指导客观评价算法的设计。下面分别介绍一些立体内容的主观评价方法和客观评价方法。

主观评价的基本过程是首先让多名被试观看同一段立体视频，然后取这些被试给出的分值的平均值作为当前立体视频所对应的主观分值。主观评价能够直接体现观看者的真实感受，结果更直接、更真实、更准确，是最有效的评价视频质量的方法[11]。电视图像质量主观评价方法建议书(Recommendation ITU-R BT.500-11)是由国际电信联盟(ITU)制定的，其中推荐了很多图像、视频主观质量评价的方法。在ITU-R BT.500标准的基础，ITU制定了立体电视图像主观评价标准ITU-R BT.1438[12]，其中双重刺激连续质量标度(DoubleStimulus Continuous Quality Scale，DSCQS)和双重刺激损伤标度(Double StimulusImpairment Scale，DSIS)方法是评价立体视频质量时常用的主观评价方法。

视频专家组[13]是国际电信联盟下属的一个分支机构，他们提出可以根据客观评价过程中对原始参考信息依赖程度的不同将客观评价方法分为全参考(Full Reference,FR)评价方法、部分参考(Reduced Reference,RR)评价方法和无参考(No Reference,NR)评价方法。其中全参考评价方法是指在进行客观质量评价时需要全部原始立体视频作为评价时的参考依据；其中部分参考评价方法是指在进行客观质量评价时需要原始立体视频的部分参数作为评价时的参考依据，并不需要原始的立体视频，这种方法与全参考立体视频质量评价方法相比可以有效的节省带宽资源；而无参考评价方法是指在进行客观质量评价时完全不需要原始立体视频作为参考，这种方法所需的传输代价最小，但是也是最难实现的。下面介绍几种典型的客观质量评价方案。

视觉信噪比(VSNR)是另一种比较经典的基于人类视觉特性的评价方法，该方法是由Chandler等人[14,15,16,17]提出的。这种方法首先用小波变换计算失真图像与原始图像差异量的小波系数，然后判断这些系数是否超过最小可辨失真的阈值，如果没有超过阈值的系数就认为；如果小波系数超过阈值，则依据视觉敏感度计算出使失真最小的噪声分布，最后将计算所得分布与理想分布之间的欧氏距离作为图像质量的评价指标。

结构相似度(Structural Similarity,SSIM)是Wang Zhou等人[18,19,20,21]经过一系列研究提出的一种非常经典的图像质量评价算法。该方法主要通过失真图像与原始图像之间的亮度相似性、对比度相似性和结构相似性三个指标来衡量失真图像的质量的。在平面图像质量评价领域，该方法以及其相关的衍生方法具有十分优秀的性能。是很多立体图像和立体视频质量评价算法的基础。

在立体视频质量评价方面研究人员通常都是结合一些已有的相关领域的方法通过迭代或者组合的方式来设计立体视频质量评价算法。例如，通过将上面提到的一些平面图像质量评价算法与视频中特有的运动信息结合就可以得到视频质量评价算法；将平面图像质量评价方法与深度信息结合就可以得到立体图象质量评价方法；将平面图像质量评价方法、运动信息以及深度信息结合在一起就可以得到立体视频质量评价算法。在此基础上再结合人类视觉系统特性就可以得到更加符合人类视觉特性的立体视频质量评价模型。其中在深度信息方面，人类视觉系统特性体现为双目融合；在运动信息方面人类视觉系统特性体现为视觉显著性；在图像质量提取方面人类视觉特性通过对比敏感度、视觉多通道以及最小可辨失真等方面体现出来。目前大部分立体视频质量评价算法都是以上所提内容优化组合的结果。

在客观评价方面，比较经典的方法有基于统计方法的峰值信噪比PSNR以及其衍生的一系列模型；还有基于结构相似度的方法以及其衍生出的一些方法；还有VQM模型[22]。有些研究人员直接将普通视频质量评价方法应用于立体视频中。例如，成于庆等人[23]通过将PSNR应用于立体图像的绝对差值图来评价立体图像的质量；Donghyun Kim等人[24]将运动信息和深度信息与SSIM和PSNR算法结合构造了一种用于评价立体视频质量的算法；文献[25]、[26]、[27]直接将VQM、SSIM和PSNR应用于立体视频左、右视点，然后取左右视点的均值作为立体视频的质量，其中VQM模型所得结果与主观评价具有最好的一致性；文献[28]所提立体视频质量评价方法将视频内容、环境亮度与VQM模型结合，这使得该方法更加接近人类视觉特性。有些文献[29，30]将立体视频质量的评价分为两个部分：画面质量和深度感。画面质量可以通过普通视频质量评价方法获得，深度感的好坏可以通过评价深度图来获得，而要想获得深度图就需要先知道左右视点的视差图，所以视差图在某种程度上也可以反映立体视频中的深度信息。张艳等人[31]分别对立体视频左右视点和视差图进行评价从而获得了立体视频的画面质量和立体感质量，然后将这两种质量通过加权的方式结合在一起从而得到最终的立体视频质量。马辰阳等人[32]所提的立体视频质量评价方法中考虑了帧间的运动信息和帧内的结构信息和亮度信息，该方法利用GSSIM评价左右视点的质量，然后加权得到立体视频的画面质量，在深度质量方面该方法通过利用PSNR评价绝对差值图从而得到深度质量。文献[33]所提方法首先提取图像中的视觉显著性区域，然后再提取这些区域中的空间复杂度信息、运动信息、视差信息以及不对称性信息，最后通过训练支持向量机来预测立体视频的质量。文献[34]提出了一种基于3D-DCT的立体视频质量评价方法。文献[35]提出了一种空间频率域(SFD)的立体视频质量评价方法。文献[36]提出了一种三维时空结构(3D-STS)的立体视频质量评价方法。

还有一些研究人员在设计立体视频质量评价算法时结合了人类视觉系统(HumanVisual System，HVS)特性。文献[37]提出了名为感知质量评价(Perceptual QualityMetric，PQM)的立体视频质量评价算法，该算法考虑了人类视觉系统中的对比度和亮度敏感特性。文献[38]提出了一种名为VQM3D的立体视频质量评价算法，该算法考虑了像素块的边界失真，在此基础上利用PQM计算立体视频质量。文献[39]提出了一种新的最小可辨失真模型(Just Noticeable Distortion，JND)，该模型主要考虑了人类视觉系统中的双目亮度掩盖特性。文献[40]提出立体视频质量评价算法(Stereoscopic Video QualityAssessment，SVQA)，该算法构建了立体最小可变失真SJND(Stereo Just-NoticeableDifference，SJND)模型，该模型主要模拟了人类视觉系统中的对比敏感度特性、空间掩盖特性、时间掩盖特性以及双目掩盖特性，该算法能够较好的模拟人类视觉系统特性。文献[41]中提出的一种立体视频质量评价方法考虑了时空结构的相关性，通过提取视觉显著性区域提升了计算速度；文献[42]提出了一种针对非对称编码的立体视频质量评价算法，该算法中结合了视频的深度信息和单眼色度信息。Jin等人[43]提出了一种FRSIQA模型用于评价移动3D视频，这种模型利用中央视野、双目竞争以及场景的几何结构来评价图像的质量，最后通过机器学习来获得立体视频的质量。文献[44]提出了一种基于视频压缩损伤特征分析的质量评价方法，该方法主要考虑了视频的时间特征以及人类视觉中的双目感知特性。文献[45]提出了一种基于视觉显著性和边缘差异的立体视频质量评价方法，该方法先利用边缘信息计算块效应、零交叉以及视差等特征，再用视觉显著性加权这些特征来获得立体视频的质量。文献[46]提出了一种基于视觉显著性和最小可辨失真的立体视频质量评价方法。

在实际应用中很难获得原始的立体信息，所以全参考立体视频质量评价方法往往不能直接应用于实际的生产环境当中，针对全参考立体视频质量评价方法的这种局限性，又有一些研究人员设计并提出了半参考立体视频质量评价方法和无参考立体视频质量评价方法。例如文献[47]和[48]中就提出了部分参考立体视频质量评价算法，这些算法中所用到的参考信息是原始立体视频的部分特征，而且这些特征只需要通过辅助信道传输即可；文献[49]中提出了一种基于时空分割的无参考立体视频质量评价算法，该算法主要考虑了立体视频中的视差、时间特征和空间特征等指标；文献[50]中提出了一种基于深度图的立体视频质量评价算法，该算法主要考虑了垂直视差、水平视差以及像素深度值在时间域上的跳变；文献[51]中提出了另一种无参考立体视频质量评价模型，该模型主要针对深度图加彩色图的立体视屏进行评价质量评价，该模型主要涉及到立体视频中的空间差异、时间差异和时间不一致性这三个评价指标。文献[52]提出了一种基于双目感知的半参考立体视频质量评价方法，该方法主要考虑了视频的时域特征以及人类视觉中的双目感知特性。文献[53]提出了一种无参考的质量评价方法，但是现存的一些无参考评价方法只对特定的内容或者特定的损伤类型有效。

发明内容

为克服现有技术的不足，本发明旨在利用小波变换建模人类视觉系统中的视觉多通道特性，在关键帧上应用该模型以便得到更好的立体视频质量评价结果。提出一种更加符合人类视觉系统相关特性且有效的立体视频客观质量评价方法。使新的立体视频客观质量评价方法更加准确高效的评价立体视频的质量，同时在一定程度上推动立体成像技术的发展。本发明采用的技术方案是，视觉多通道模型在立体视频质量客观评价中的应用方法，利用haar小波建模视觉多通道模型，首先将关键帧的绝对差值图进行三级小波变换，分解成不同的方向和频率成分来模拟人眼多通道特性；然后应用SSIM对变换所得的不同分量进行评价从而得到相应的的客观质量，然后利用小波逆变换得到每一关键帧的单一质量；最后应用关键帧的权重加权关键帧的质量从而得到完整的立体视频质量。

使用自适应权重法提取关键帧，具体是是将立体视频中所有帧的权重看作是一个“基因序列”，然后通过变异、选择等过程优化这组“基因序列”，最终得到一组能够使得立体视频主客观质量一致性高的权重组合。

应用绝对差值图来表示立体信息，绝对差值图由式(1)计算得到:

I_abs(x,y)＝|I_left(x,y)-I_right(x,y)| (1)

式(1)中I_left(x,y)，I_right(x,y)分别为立体图像左右视点位置(x,y)的像素值，I_abs(x,y)为所求的相应位置处的绝对差值。

haar小波对提取出的关键帧的绝对差值图进行三级小波变换，经过三级小波变换后，共得到1个低频近似分量系数矩阵cA(p)和9个高频系数矩阵，分别为垂直方向高频细节分量矩阵cV_λ(p)，水平方向高频细节分量矩阵cH_λ(p)和对角方向高频细节分量矩阵cD_λ(p)，其中λ为小波分解级数，λ＝{1,2,3}。

应用关键帧的权重加权关键帧的质量是用对比度敏感度函数对小波分解后得到的各个高频系数矩阵进行加权，从而模拟人眼视觉系统在识别静态图像时的多通道特性，具体做法如下：首先计算各高频系数矩阵空间频率：

对于水平方向高频细节系数矩阵cH_λ(p)，因为其描述的是图像在水平方向的细节变化，所以在计算空间频率的过程中，只需要计算水平方向的频率，如式(8)所示，同理垂直方向高频细节系数矩阵cV_λ(p)，因为其描述的是图像在垂直方向的细节变化，所以只需要计算垂直方向的频率，如式(9)所示；对于对角方向的系数矩阵cD_λ(p)，因为其反映的是45°和135°两个方向上的边缘细节信息，因此需要按照式(10)计算空间频率：

其中，M为系数矩阵行数，N为系数矩阵列数，λ为小波分解级数，λ＝{1,2,3}，(i,j)为所得系数矩阵第i行、第j列元素值，是水平方向空间频率；是垂直方向空间频率；是图像的空间频率；

然后将各个高频系数矩阵的空间频率与观看角度η的商μ作为对比度敏感度函数CSF(f)的输入，计算各通道对比度敏感度权重ω；

ω＝CSF(μ) (11)

最后使用各通道对比度敏感度权重ω对高频系数矩阵进行加权重构，计算重构后图像P，如式(12)所示，其中分别代表第λ层小波分解后水平、垂直和对角方向权重系数，cA(p)表示低频近似分量系数矩阵，cH_λ(p)、cV_λ(p)、cD_λ(p)分别代表水平、垂直和对角方向高频细节分量系数矩阵，iWavelet代表小波逆变换，

重构后的图像即为人眼实际感知到的图像，使用重构后的图像计算失真度。

本发明的特点及有益效果是：

本立体视频质量客观评价方法由于考虑了人眼单目视觉中的多通道效应视觉特性，通过自适应权重调节方法提取关键帧，然后将视觉多通道模型应用于关键帧，从而得到更加优秀的立体视频质量评价方法。由于该立体视频质量评价方法考虑到了人类视觉系统中很多视觉特性，所以其评价结果十分接近主观质量评价的结果。实验结果说明，本方法的准确性和可靠性优于目前常见的其它立体视频质量客观评价方法。

附图说明：

图1视觉多通道模型的应用。

图2立体视频库中三段不同内容视频图示，图中：

(a)airplane参考图像 (b)ballroom参考图像 (c)woshou参考图像

(d)airplane失真图像 (e)ballroom失真图像 (f)woshou失真图像。

图3haar小波三级分解后的图像，图中：

(g)airplane (h)ballroom (i)woshou。

图4haar小波分解图。

图5主客观质量评价散点图，图中：

(a)3DVIF散点图 (b)3DPSNR散点图

(c)3DVSNR散点图 (d)3DSSIM散点图

(e)3DMSSIM散点图 (f)3DMS散点图

(g)3DMSFW散点图 (h)3DMSFWMR散点图。

具体实施方式

本发明利用小波变换建模人类视觉系统中的视觉多通道特性，在关键帧上应用该模型得到了很好的立体视频质量评价结果。实验结果表明，本发明提出的立体视频质量评价模型的评价结果与主观评价结果有很好的一致性，不仅能够体现人类视觉特性，还能够准确的评价立体视频的质量。

视觉多通道模型源于对人类视觉系统中的外侧膝状体的研究，研究发现人类视觉系统会将人眼所感知到的场景中不同的频率成分通过不同的神经通道传输，这就是所谓的人类视觉系统的视觉多通道效应。

为了建模视觉多通道效应，我们就应该将图像进行多分辨率分解从而得到图像的不同频率成分。然后再分别对不同频率成分进行质量评价，最后再将不同频率成分的质量分值合成完整的图像质量分值。对图像进行多分辨率分解以及再对其中不同成分进行质量评价势必会增加计算复杂度，虽然计算复杂度的增加对图像处理没有实质性的影响，但是对于立体视频质量评价来说计算复杂度的增加会积累到每一帧上，这就使得立体视频质量评价过程会变得非常缓慢。所以对立体视频中每一帧都应用视觉多分辨率模型是不可行的。

首先，我们通过自适应权重调整算法得到了具有稀疏性的权值向量，即能够通过自适应权重调整算法确定立体视频中的关键帧，而关键帧的数量远远少于立体视频的帧数，这就使得将视觉多通道模型应用于立体视频质量评价成为可能。所以本发明接下来视觉多通道的应用都是在图像自适应权重处理所得的关键帧上进行的，其具体过程如图1所示。

本发明是利用小波变换来建模人类视觉系统中的多通道特性的。小波变换能够将图像分解成不同的方向和频率成分，这与人类视觉系统中的多通道特征不谋而合，所以用小波变换建模视觉多通道很合适。本发明用haar小波建模视觉多通道模型，首先将提取的关键帧的绝对差值图进行三级小波变换，分解成不同的方向和频率成分来模拟人眼多通道特性；然后应用SSIM对变换所得的不同分量进行评价从而得到相应的的客观质量，然后利用小波逆变换得到每一关键帧的单一质量；最后应用关键帧的权重加权关键帧的质量从而得到完整的立体视频质量。

立体视频、立体图像中的一个关键因素就是深度，然而本发明所涉及的立体视频库中并没有深度信息，所以想要对深度信息做出评价就必须先对立体视频中的所有帧进行立体匹配从而得到相应的深度图。目前还没有任何一种立体匹配算法能够从原始立体图像中获得完美的深度图，所以效果不是最好的立体匹配算法的性能也会影响立体视频质量评价的准确性。而本发明所研究的目标并不在于立体匹配算法性能的好坏，所以我们并不希望立体匹配算法性能的差异影响立体视频质量。因此本发明中并没有利用立体匹配算法来提取深度信息，但是为了得到立体信息的近似表述，本发明应用绝对差值图来表示立体信息。绝对差值图的计算非常简单，由式(1)计算得到:

I_abs(x,y)＝|I_left(x,y)-I_right(x,y)| (1)

本发明所提的关于视觉多通道模型的应用主要涉及如下内容。首先利用自适应权重调节算法来确定立体视频中对评价起决定作用的关键帧，并利用小波变换建模人类视觉系统中的视觉多通道模型，然后将视觉多通道模型应用于这些关键帧的绝对差值图来获得最终的评价结果。由于自适应权重调节算法所得结果具有稀疏性，所以在关键帧上应用视觉多通道模型可以有效的节省计算资源。

本发明所提立体视频库中原始的立体视频来自天津三维显示技术有限公司和HHI研究所，其中包括三种不同内容的立体视频，其信息列于表2中。

表2视频内容及参数

由于人类视觉系统对量化参数小于24的压缩失真不敏感，所以我们在建立主观实验数据库时选择了如下7种步长的量化参数：24、28、32、36、40、44、48。立体视频左右视点分别以每种量化步长进行压缩，再相互结合成完整的立体视频，所以每种内容的立体视频都包含有49种不同损伤程度的失真视频和一个未失真的原始立体视频，其中49种不同损伤程度的立体视频既包括对称压缩损伤也包括非对称压缩损伤。本发明所提立体视频主观实验数据库一共包含150段不同内容和不同损伤程度的立体视频。

下面结合技术方案详细说明本方法：

本方法首先对立体视频采用自适应权重法提取关键帧，然后将视觉多通道模型应用于关键帧，得出评价结果作为立体图像失真程度的客观评价的一部分。对于本发明所提的关于视觉多通道模型的应用主要涉及如下内容。首先利用自适应权重调节算法来确定立体视频中对评价起决定作用的关键帧，并利用小波变换建模人类视觉系统中的视觉多通道模型，然后将视觉多通道模型应用于这些关键帧的绝对差值图来获得最终的评价结果。由于自适应权重调节算法所得结果具有稀疏性，所以在关键帧上应用视觉多通道模型可以有效的节省计算资源。

具体步骤如下：

1提取关键帧

本发明使用自适应权重法提取关键帧。自适应权重分配方法的思想来源于遗传算法。而遗传算法是对生物体的遗传变异以及环境选择的数学建模。其核心思想是基因的交叉、变异与选择。自适应权重分配算法的核心思想是将立体视频中所有帧的权重看作是一个“基因序列”，然后通过变异、选择等过程优化这组“基因序列”，最终得到一组能够使得立体视频主客观质量一致性高的权重组合。

实际上最后得到的最优权值向量具有稀疏性，即的大部分元素值为零，只有很少一部分元素的值不为零。这又进一步说明立体视频中帧与帧之间存在着显著性差异，某些帧的显著性非常强，能够引起观看者较强烈的关注；而另外一些帧则不具有显著性，甚至不能引起观看者的注意。本发明把具有非零权值的少数帧称作关键帧，显然当对立体视频进行质量预测时我们只需得到少数关键帧的立体图像质量保真度就可以了，其它非关键帧根本无需计算其质量保真度，因为它们对立体视频最终的质量预测值没有任何影响(非关键帧所对应的权值因子都为零)。如果能够在计算视频中每帧立体图像质量保真度前就确定关键帧，则会节省很多计算代价，与此同时会大大提升计算速度。

2差值图的获取

立体视频、立体图像中的一个关键因素就是深度，本发明所涉及的立体视频库中并没有深度信息，所以想要对深度信息做出评价就必须先对立体视频中的所有帧进行立体匹配从而得到相应的深度图。然而，目前还没有任何一种立体匹配算法能够从原始立体图像中获得完美的深度图，所以立体匹配算法的性能也会影响立体视频质量评价的准确性。因为本发明所研究的目标并不在于立体匹配算法性能的好坏，所以我们并不希望立体匹配算法性能的差异影响立体视频质量。故本发明中并没有利用立体匹配算法来提取深度信息，但是为了得到立体信息的近似表述，本发明应用绝对差值图来表示立体信息。绝对差值图的计算非常简单，由式(1)计算得到:

I_abs(x,y)＝|I_left(x,y)-I_right(x,y)| (1)

3视觉多通道模型应用

3.1多通道模型简介

本发明是利用小波变换来建模人类视觉系统中的多通道特性的。小波变换能够将图像分解成不同的方向和频率成分，这与人类视觉系统中的多通道特征不谋而合，所以用小波变换建模视觉多通道很合适。本发明用haar小波建模视觉多通道模型，首先将关键帧的绝对差值图进行三级小波变换，分解成不同的方向和频率成分来模拟人眼多通道特性，然后应用SSIM对变换所得的不同分量进行评价从而得到相应的的客观质量，然后利用小波逆变换得到每一关键帧的单一质量，最后应用关键帧的权重加权关键帧的质量从而得到完整的立体视频质量。

3.2小波变换

3.2.1一维小波变换

小波变换的产生是为了弥补傅里叶变换的不足。众所周知傅里叶变换可以时域信号变换为频域信号，这有助于将原来的问题转化为频域问题从而在频域中寻找解决方案。式(2)和(3)分别为傅里叶正变换和傅里叶逆变换的计算公式。

式(2)和式(3)中的f(t)是时域信号，F(ω)是频域信号。

从以上计算公式中我们可以看到频域信号是由全部时域信号计算得到的，同理其反变换中时域信号是由全部频域信号计算所得，这就说明每一个局部的频域信号都会与全部的时域信号相关，而每一个局部的时域信号同样与全部的频域信号相关，这就使得傅立叶变换不能很好的同时体现局部的时频域信息。为了同时获得局部时域和频域信息，小波变换就应运而生了。

小波变换由于其分析窗口的尺度可以自由调节，所以能够同时获得不同尺度的时域和频域信息。正因为小波变换具有这种优良的分析性能，所以得到了广泛的应用。

函数的小波变换定义如下：

其内积形式为：

WT_f(α,τ)＝<f,Ψα,_τ} (5)

当满足以下条件时，它存在逆变换：

小波逆变换的形式为：

式(4)中α是尺度参数，τ是时间参数或者平移参数，f(t)是输入信号，WT_f(α,τ)是指对信号f(t)在尺度参数α和平移参数τ下进行小波变换后的小波系数。式(5)中<>表示内积符号，f是输入信号，Ψ_α,τ是小波基。式(6)中的是小波基函数的傅里叶变换系数，ω是频率。

由小波变换的计算公式可知，小波变换是将时域信号转变为时间尺度域信号，而尺度就是频率的另一种表述，所以小波变换可以同时获得局部时域和频域信息。这十分有利于同时在时域和频域中分析信号。

3.2.2二维haar小波变换

在众多正交函数中，haar小波函数是最简单的正交函数，与其它正交函数相比，它具有构造简单、对应的滤波器具有线性相位性、计算方便的特点。因此haar小波函数引起人们的普遍关注。haar函数的正交集是一些幅值为+1或-1的方波，而且在一段区间有值，其他区间为零。这使得haar小波变换比其它小波函数要快。

小波变换的基本思想是用一组小波函数或者基函数表示一个函数或者信号。信号分析一般是为了获得时间和频率域之间的相互关系，傅立叶变换提供了有关频率域的信息，但时间方面的局部化信息却基本丢失。与傅立叶变换不同，小波变换通过平移母小波可获得信号的时间信息，而通过缩放小波的宽度(或者叫做尺度)可获得信号的频率特性。在小波变换中，近似值是大的缩放因子产生的系数，表示信号的低频分量。而细节值是小的缩放因子产生的系数，表示信号的高频分量。

对二维图像进行haar小波变换有两种方法：标准分解和非标准分解。标准分解是指先使用一维小波对图像的每一行的像素值进行变换，产生每一行像素的平均值和细节系数，然后再使用一维小波对这个经过行变换的图像的列进行变换，产生这个图像的平均值和细节系数。非标准分解是指使用一维小波交替地对每一行和每一列像素值进行变换。图4是haar小波对二维图像的一级及三级分解子带图，在右图中最低频a3子带图像与原始图像极其相似，只是尺寸变小，它包含了原图的绝大部分能量,对恢复图像质量影响较大，其余高频子带的小波系数大多非常小。在同一层，由于v及h子图表示的边缘子图像的小波系数和方差比d子图要大，因此d子图在重构图像时不是很重要。

3.3多通道分解特性

视觉心理学和生理学实验[24]表明人类视觉系统存在独立的空间频率处理单元，它通过多个并列的视觉通道来传输观看到的信息，不同通道的处理单元整体上相互独立。这些通道把视觉激励划分到不同的子带进行处理，相当于一组方向性带通滤波器，这些通道会对特定空间频率和方向上的视觉激励做出响应。通常使用低通与带通滤波器来模拟实现。

小波分析是一种空间频率局部化的分析方法，它具有良好的“空间域-频域”定位能力[25]。通过设置不同的滤波器组，小波变换可以极大的减少或消除不同通道之间的相关性，这与人眼视觉系统的多通道效应不谋而合，与此同时，小波变换通过在低频段使用宽分析窗口，在高频段使用窄分析窗口，从而能够准确的提取图像不同频率间的细节信息，这对立体图像质量评价是非常重要的。因此本发明选取小波变换，来模拟人眼视觉系统中的多个通道。

对于二维平面图像而言，它的一次小波分解是由行变换和列变换两部分组成的。首先经过一次行变换后，图像分成低频矩阵L和高频矩阵H，之后再对所得系数矩阵进行列变换。分别将低频矩阵L和高频矩阵H中的系数进行列变换，从而得到四个系数矩阵，分别为LL、LH、HL、HH。其中，LL表示图像的低频近似分量，其中包含着图像大部分能量，呈现为原始图像的缩略图；LH表示图像在水平方向(0°)高频细节分量，HL表示图像在垂直方向(90°)高频细节分量，HH表示图像在对角方向(45°、135°)高频细节分量。经过一次完整的小波变换后，所得系数矩阵的尺寸变为分解前的四分之一，即矩阵的行数和列数均减半。对于一次小波分解后的系数矩阵，因为低频系数矩阵中仍然包含着原始图像的大部分能量，所以可以对其再进行小波分解，进一步提取图像的高频信息。重复上述过程，即可以得到经过多级小波分解的系数。

根据对比度敏感度理论，人眼视觉系统对于不同频率的图像呈现一种带通特性，即当图像频率过低或过高的情况下，人眼对图像的识别能力都会降低。同时为了降低计算复杂度，本方法选取haar小波对参考图像和失真图像进行三级小波分解。图像p经过三级小波分解后，共得到1个低频近似分量系数矩阵cA(p)和9个高频系数矩阵，分别为垂直方向高频细节分量矩阵cV_λ(p)，水平方向高频细节分量矩阵cH_λ(p)和对角方向高频细节分量矩阵cD_λ(p)，其中λ为小波分解级数，λ＝{1,2,3}。

根据对比度敏感度带通理论，在识别静态图像时，对于空间频率不同的图像人眼对其的感知程度存在差异。因此，可以用对比度敏感度函数对小波分解后得到的各个高频系数矩阵进行加权，从而模拟人眼视觉系统在识别静态图像时的多通道特性。具体做法如下：首先计算各高频系数矩阵空间频率。

对于水平方向高频细节系数矩阵cH_λ(p)，因为其描述的是图像在水平方向的细节变化，所以在计算空间频率的过程中，只需要计算水平方向的频率，如式(8)所示。同理垂直方向高频细节系数矩阵cV_λ(p)，因为其描述的是图像在垂直方向的细节变化，所以只需要计算垂直方向的频率，如式(9)所示。对于对角方向的系数矩阵cD_λ(p)，因为其反映的是45°和135°两个方向上的边缘细节信息，因此需要按照式(10)计算空间频率。

其中，M为系数矩阵行数，N为系数矩阵列数，λ为小波分解级数，λ＝{1,2,3}，(i,j)为所得系数矩阵第i行、第j列元素值。是水平方向空间频率；是垂直方向空间频率；是图像的空间频率。

然后将各个高频系数矩阵的空间频率与观看角度η的商μ作为对比度敏感度函数CSF(f)的输入，计算各通道对比度敏感度权重ω。

ω＝CSF(μ) (11)

最后使用各通道对比度敏感度权重ω对高频系数矩阵进行加权重构，计算重构后图像P，如式(12)所示。其中分别代表第λ层小波分解后水平、垂直和对角方向权重系数，cA(p)表示低频近似分量系数矩阵，cH_λ(p)、cV_λ(p)、cD_λ(p)分别代表水平、垂直和对角方向高频细节分量系数矩阵。iWavelet代表小波逆变换。

重构后的图像即为人眼实际感知到的图像，所以本方法使用重构后的图像计算失真度。

4立体视频质量评价结果与分析

在立体视频客观质量评价方面，目前常见的立体视频质量评价方法大多是来自于2D图像质量评价方法的改进，即直接应用2D图像质量评价方法对立体视频中的单一视点的每一帧图像进行评价，然后再平均立体视频中所有帧的2D质量得到最终的立体视频质量。其中典型的2D图像质量评价方法有视觉信息保真度(VIF)、峰值信噪比(PSNR)、视觉信噪比(VSNR)、质量结构相似度(SSIM)以及多尺度质量结构相似度(MSSIM)等。本节分别应用以上所提到的2D图像质量评价方法对立体视频左右视点的每一帧图像进行评价，然后将左右视点所有帧的质量平均得到左右视点质量，最后再取左右视点质量的平均值作为最终的立体视频质量。本节将这五种不同的立体视频质量评价方法所得的结果作为对比数据，并且将这些客观方法分别命名为3DPSNR、3DVSNR、3DSSIM、3DMSSIM以及3DVIF。加上本发明所提出的三种立体视频客观质量评价方法MS_VQM(或称3DMS)、MSFW_VQM(或称3DMSFW)以及MSFWMR_VQM(或称3DMSFWMR)，共涉及到八种不同的立体视频质量评价方法。如图3所示。

图5所示分别为这八种客观评价方法所得结果与主观评价方法所得结果之间的散点图。由图5可以看出：3DMS、3DSSIM以及3DMSSIM方法所得结果与主观评价结果有更好的一致性。这说明在立体视频质量评价方面基于结构相似度的方法更符合人类的观看体验。

本发明利用Pearson相关系数(PCC)、Spearman等级相关系数(SPCC)以及均方根误差(RMSE)作为主客观评价结果一致性的度量方法。每种客观质量评价方法所得的客观质量分值与主观评价方法所得的MOS值之间的Pearson相关系数、Spearman等级相关系数以及均方根误差列于表1中。

表1客观质量评价方法性能

由表1可以看出：由客观评价方法3DVIF所得结果与主观评价结果一致性最差，本发明所提方法3DMS、3DMSFW以及3DMSFWMR所得结果与主观评价结果具有更好的一致性；客观评价方法3DPSNR和3DVSNR的评价性能稍微比3DVIF好一些，而客观评价方法3DSSIM和3DMSSIM的评价性能要优于客观评价方法3DPSNR和3DVSNR的评价性能，且仅次于本发明所提客观质量评价方法3DMS的性能。通过以上各种立体视频质量评价方法性能对比，我们可以发现在立体视频质量评价方面基于结构相似性的方法更接近人类做出的主观评价，而在基于结构相似性的立体视频质量评价方法中本发明所提方法3DMS的评价结果与人类主观评价结果更接近。由图5和表1都可以看出本发明最后所提的方法3DMSFWMR的评价准确性远远优于其它方法，这是由于在评价模型3DMSFWMR中不仅运用了基于运动显著性的分割方法和恰当的双目融合方法，而且应用了自适应权重调节方法来确定关键帧，最后还在关键帧上应用了视觉多通道模型。通过对比评价方法3DMSFW和3DMSFWMR的评价准确性可以得到如下结论：本发明所设计的视觉多通道模型有利于提高立体视频质量评价方法的性能。

参考文献

[1]侯春萍.平面图像立体化技术的研究[D].天津：天津大学，1998.

[2]张英静，李素梅，卫津津等.立体图像质量的主观评价方案[J].光子学报，2012，41(5)：602～607.

[3]ITU-T R.H.265,High efficiency video coding[S].Apr.2015.

[4]3D@Home Website—Steering Teams Overview.[OL].International 3D&Advanced Imaging Society.(2015).Available:http://www.3dathome.org/steering- overview.aspx

[5]China 3D Industry Association.[OL].China 3D Industry Association.(Aug.2015).Available:http://www.c3dworld.org/

[6]3D Consortium—New Era of 3D—“From Surprise to Impression！”[OL].3D-Consortium.(Aug.2014).Available:http://www.3dc.gr.jp

[7]W.J.Tam,F.Speranza,S.Yano,et al.Stereoscopic 3D-TV:Visual comfort[J].IEEE Trans.Broadcast,2011,57(2):335–346.

[8]Y.-H.Lin and J.-L.Wu.A depth information based fast mode decisionalgorithm for color plus depth-map 3D videos[J].IEEE Trans.Broadcast.,2011,57(2):542–550.

[9]A.Pulipaka,P.Seeling,M.Reisslein,et al,Traffic and statisticalmultiplexing characterization of 3-D video representation formats[J].IEEETrans.Broadcast.,2013,59(2):382–389.

[10]P.Merkle,K.Müller,and T.Wiegand.3D video:Acquisition,coding,anddisplay[C].In Proc.IEEE Int.Conf.Consum.Electron.(ICCE),Piscataway,NJ,USA:IEEE,2010:127–128.

[11]张英静,李素梅,卫津津等.立体图像质量的主观评价方案[J].光子学报,2012,41(5):602-607.

[12]International Telecommunication Union(ITU)，Recommendation ITU～RBT.1438，Subjective assessment of stereoscopic television pictures[S].2000.

[13]VQEG.Video Quality Expert Group Motivation Objectives and Rules[OL].2010:http://www.its.bldrdoc.gov/vqeg

[14]Chandler,D.M.,M.A.Masry,and S.S.Hemami.Quantifying the visualquality of wavelet-compressed images based on local contrast,visual masking,and global precedence[C].In:Signals,Systems and Computers,2003.ConferenceRecord of the Thirty-Seventh Asilomar Conference on,Piscataway,NJ,USA:IEEE,2003:1393-1397.

[15]Chandler,D.M.and S.S.Hemami.VSNR:A Wavelet-Based Visual Signal-to-Noise Ratio for Natural Images.Image Processing[J],IEEE Transactions,2007,16(9):2284-2298.

[16]Chandler,D.and S.Hemami.vsnr:A visual signalto-noise ratio fornatural images based on near-threshold and suprathreshold vision[J].RetrievedJuly.2010,15(3):12-17.

[17]Chandler,D.M.and S.S.Hemami.Effects of natural images on thedetectability of simple and compound wavelet subband quantization distortions[J].J.Opt.Soc.Am.A.2003,20(7):1164-1180.

[18]Wang,Z.and A.C.Bovik.A Universal Image Quality Index[J].SignalProcessing Letters,IEEE,2002,9(3):81-84.

[19]Wang,Z.,A.C.Bovik,H.R.Sheikh,et al.Image quality assessment:fromerror visibility to structural similarity[J].IEEE Transactions on ImageProcessing,2004,13(4):600-612.

[20]Wang,Z.,A.C.Bovik,and L.Lu.Why is image quality assessment sodifficult[J].Acoustics,Speech,and Signal Processing,2002,4(1):1-4.

[21]Wang,Z.and A.C.Bovik.Mean squared error:love it or leave it？A newlook at signal fidelity measures[J].Signal Processing Magazine,IEEE,2009,26(1):98-117.

[22]Pinson M H,Wolf S.A new standardized method for objectivelymeasuring video quality[J].IEEE Transactions on Broadcasting,2004,50(3):312-322.

[23]成于庆,姜秀华.3D电视视频质量主客观评价最新技术研究[J].中国传媒大学学报:自然科学版,2012,19(1):31-36.

[24]Donghyun Kim,SeungchulRyu and Kwanghoon.Depth perception andmotion cue based3D video quality assessment[C].2012IEEE InternationalSymposium on Broadband Multimedia System and Broadcasting,Piscataway,NJ,USA:IEEE,2012:1-4.

[25]C.T.E.R.Hewage,S.T.Worrall,S.Dogan,et al.Prediction ofstereoscopic video quality using objective quality models of 2-D video[J].Electronics Letters,2008,44(16):963-965.

[26]S.L.P.Yasakethu,C.T.E.R.Hewage,W.A.C.Yernando,et al.QualityAnalysis for 3D Video Using 2D Video Quality Models[J].IEEE Transactions onConsumer Electronics,2008,54(4):1969-1976.

[27]Chaminda T.E.R.Hewage,Stewart T.Worrall,SafakDogan,et al.QualityEvaluation of Color Plus Depth Map-Based Stereoscopic Video[J].IEEE Journalof selected topics in signal processing,2009,3(2):304-318.

[28]G.Nur,H.Kodikara Arachchi,S.Dogan,et al,Extended VQM model forpredicting 3D video quality considering ambient illumination context[C],3DTV-Conference:The True Vision-Capture,Transmission and Display of 3D Video(3DTV-CON),Piscataway,NJ,USA:IEEE,2011:1-4.

[29]Atanas Boev,Atanas Gotchev,Karen Egiazarian,et al.,Towardscompound stereo-video quality metric:a special encoder-based framework[C].2006IEEE Southwest Symposium on Image Analysis and Interpretation,Piscataway,NJ,USA:IEEE,2006:218-222.

[30]刘文娟,李素梅,臧艳军等.基于梯度和运动估计的视频质量评价[J].光子学报,2011,40(10):1547-1552.

[31]Y.Zhang,P.An,Y.Wu,et al.A multiview video quality assessmentmethod based on disparity and SSIM[C].2010IEEE 10th International Conferenceon Signal Processing,Piscataway,NJ,USA:IEEE,2010:1044-1047.

[32]马辰阳,李素梅,马瑞泽等.基于运动和视差信息的立体视频质量客观评价[J].光电子·激光,2013,24(10):2002-2009.

[33]Sang-Hyun Cho,Hang-Bong Kang.Prediction of visual discomfort inwatching 3D video using multiple features[C].2014IEEE Southwest Symposium onImage Analysis and Interpretation(SSIAI),Piscataway,NJ,USA:IEEE,2014:65-68.

[34]Jin,L.,Boev,A.,Gotchev,A.,et al.3D-DCT based perceptual qualityassessment of stereo video[C].In:Proceedings-International Conference onImage Processing,ICIP,Piscataway,NJ,USA:IEEE,2011:2521-2524.

[35]Lu,F.,Wang,H.,Ji,X.,et al.Quality assessment of 3D asymmetricview coding using spatial frequency dominance model[C].In:3DTV-CON 2009-3rd3DTV-Conference:The True Vision-Capture,Transmission and Display of 3D Video,Proceedings,Piscataway,NJ,USA:IEEE,2009:1-4.

[36]Han,J.,Jiang,T.,Ma,S.Stereoscopic video quality assessment modelbased on spatial–temporal structural information[C].In:2012IEEE VisualCommunications and Image Processing,VCIP 2012,Piscataway,NJ,USA:IEEE,2012:119-125.

[37]P.Joveluro,H.Malekmohamadi,W.A.C Fernando,et al.Perceptual videoquality metric for 3D video quality assessment[C].2010 3DTV-Conference:TheTrue Vision-Capture,Transmission and Display of 3D Video,Piscataway,NJ,USA:IEEE,2010:1-4.

[38]Chao Sun,Xingang Liu,XiangbinXu,et al.An Efficient QualityAssessment Metric for 3D Video[C].2012IEEE 12th International Conference onComputer and Information Technology,Piscataway,NJ,USA:IEEE,2012:209-213.

[39]张艳,安平,张秋闻等.双目立体视频最小可辨失真模型及其在质量评价中的应用[J].电子与信息学报,2012,34(3):698-703.

[40]Feng Qi,Tingting Jiang,Xiaopeng Fan,et al.Stereoscopic videoquality assessment based on stereo just-noticeable difference model[C].201320th IEEE International Conference on Image Processing(ICIP),Piscataway,NJ,USA:IEEE,2013:34-38.

[41]Jingjing Han,Tingting Jiang,Siwei Ma.Stereoscopic video qualityassessment model based on spatial-temporal structural information[C].2012IEEEVisual Communications and Image Processing(VCIP),Piscataway,NJ,USA:IEEE,2012:119-125.

[42]F.Lu,H.Wang,X.Ji,et al.Quality Assessment of 3D Asymmetric ViewCoding Using Spatial Frequency Dominance Model[C].3DTV Conference:The TrueVision-Capture,Transmission and Display of 3D Video.Piscataway,NJ,USA:IEEE,2009:1-4.

[43]L.Jin,A.Boev,K.Egiazarian,A.Gotchev.Quantifying the importance ofcyclopean view and binocular rivalry-related features for objective qualityassessment of mobile 3D video[J].EURASIP J.Image Video Process.2014,2014(2):1–18.

[44]Hong Zhu,Mei Yu,Yang song,et al.A Stereo Video Quality AssessmentMethod for Compression Distortion[C].IEEE,International Conference onComputational Science and Computational Intelligence,Piscataway,NJ,USA:IEEE,2015:481-485.

[45]Wei Zhao,Long Ye,et al.No-reference Objective Stereo VideoQuality Assessment based on Visual Attention and Edge Difference[C].IEEEAdvanced Information Technology,Electronic and Automation Control Conference,Piscataway,NJ,USA:IEEE,2015:523-526.

[46]Feng Qi,Denbin Zhao,Xiaopeng Fan,et al.Stereoscopic video qualityassessment based on visual attention and just-noticeable difference models[J].Signal,Image and Video Processing,2016,10(4):737-744.

[47]Hewage C T E R,Martini M G.Reduced-reference quality evaluationfor compressed depth maps associated with colour plus depth 3D video[C].201017th IEEE International Conference on Image Processing(ICIP),Piscataway,NJ,USA:IEEE,2010:4017-4020.

[48]Hewage C T E R,Martini M G.Reduced-reference quality assessmentfor 3D video compression and transmission[J].IEEE Transactions on ConsumerElectronics,2011,57(3):1185-1193.

[49]Z.M.ParvezSazzad,S.Yamanaka and Y.Horita.Spatio-temporalSegmentation Based Continuous No-reference Stereoscopic Video QualityPrediction[C].2010Second International Workshop on Quality of MultimediaExperience(QoMEX),Piscataway,NJ,USA:IEEE,2010:106-111.

[50]Donghyun.Kim,Dongbo.Min,Juhyun Oh,et al.Depth map quality metricfor three-dimensional video[C].Displays and Applications,San Jose,CA,USA:SPIE-The International Society for Optical Engineering,2009:723719-723728.

[51]MashhourSolh and GhassanAiregib.A No-Reference Quality Measurefor DIBR-Based 3D Videos[C].2011 IEEE International Conference on Multimediaand Expo(ICME).Piscataway,NJ,USA:IEEE,2011:1-6.

[52]Mei Yu,Zheng Kaihua,Jiang Gangyi,et al.Binocular perception basedreduced-reference stereo video quality assessment method[J].Journal of VisualCommunication and Image Representation,2016,38:246-255.

[53]T.Zhu,L.Karam.A no-reference objective image quality metric basedon perceptually weighted local noise[J].EURASIP J.Image Video Process.2014,2014(1):1–8。

Claims

1.一种视觉多通道模型在立体视频质量客观评价中的应用方法，其特征是，利用haar小波建模视觉多通道模型，首先将关键帧的绝对差值图进行三级小波变换，分解成不同的方向和频率成分来模拟人眼多通道特性；然后应用SSIM对变换所得的不同分量进行评价从而得到相应的的客观质量，然后利用小波逆变换得到每一关键帧的单一质量；最后应用关键帧的权重加权关键帧的质量从而得到完整的立体视频质量。

2.如权利要求1所述的视觉多通道模型在立体视频质量客观评价中的应用方法，其特征是，使用自适应权重法提取关键帧，具体是是将立体视频中所有帧的权重看作是一个“基因序列”，然后通过变异、选择等过程优化这组“基因序列”，最终得到一组能够使得立体视频主客观质量一致性高的权重组合。

3.如权利要求1所述的视觉多通道模型在立体视频质量客观评价中的应用方法，其特征是，应用绝对差值图来表示立体信息，绝对差值图由式(1)计算得到:

I_abs(x,y)＝|I_left(x,y)-I_right(x,y)| (1)

4.如权利要求1所述的视觉多通道模型在立体视频质量客观评价中的应用方法，其特征是，haar小波对提取出的关键帧的绝对差值图进行三级小波变换，经过三级小波变换后，共得到1个低频近似分量系数矩阵cA(p)和9个高频系数矩阵，分别为垂直方向高频细节分量矩阵cV_λ(p)，水平方向高频细节分量矩阵cH_λ(p)和对角方向高频细节分量矩阵cD_λ(p)，其中λ为小波分解级数，λ＝{1,2,3}。

5.如权利要求1所述的视觉多通道模型在立体视频质量客观评价中的应用方法，应用关键帧的权重加权关键帧的质量是用对比度敏感度函数对小波分解后得到的各个高频系数矩阵进行加权，从而模拟人眼视觉系统在识别静态图像时的多通道特性，具体做法如下：首先计算各高频系数矩阵空间频率：

<mrow> <msubsup> <mi>f</mi> <mi>H</mi> <mi>&lambda;</mi> </msubsup> <mo>=</mo> <msubsup> <mi>f</mi> <mi>R</mi> <mi>&lambda;</mi> </msubsup> <mo>=</mo> <msqrt> <mrow> <mfrac> <mn>1</mn> <mrow> <mi>M</mi> <mi>N</mi> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>2</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mi>cH</mi> <mi>&lambda;</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>cH</mi> <mi>&lambda;</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>f</mi> <mi>V</mi> <mi>&lambda;</mi> </msubsup> <mo>=</mo> <msubsup> <mi>f</mi> <mi>C</mi> <mi>&lambda;</mi> </msubsup> <mo>=</mo> <msqrt> <mrow> <mfrac> <mn>1</mn> <mrow> <mi>M</mi> <mi>N</mi> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>2</mn> </mrow> <mi>M</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mi>cV</mi> <mi>&lambda;</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>cV</mi> <mi>&lambda;</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mtable> <mtr> <mtd> <mrow> <msubsup> <mi>f</mi> <mi>D</mi> <mi>&lambda;</mi> </msubsup> <mo>=</mo> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <msubsup> <mi>f</mi> <mi>R</mi> <mi>&lambda;</mi> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msubsup> <mi>f</mi> <mi>C</mi> <mi>&lambda;</mi> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <msqrt> <mrow> <mfrac> <mn>1</mn> <mrow> <mi>M</mi> <mi>N</mi> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>2</mn> </mrow> <mi>M</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>2</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mi>cD</mi> <mi>&lambda;</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>cD</mi> <mi>&lambda;</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <mfrac> <mn>1</mn> <mrow> <mi>M</mi> <mi>N</mi> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>2</mn> </mrow> <mi>M</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>2</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mi>cD</mi> <mi>&lambda;</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>cD</mi> <mi>&lambda;</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

ω＝CSF(μ) (11)

<mrow> <mi>P</mi> <mo>=</mo> <mi>i</mi> <mi>W</mi> <mi>a</mi> <mi>v</mi> <mi>e</mi> <mi>l</mi> <mi>e</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>c</mi> <mi>A</mi> <mo>(</mo> <mi>p</mi> <mo>)</mo> <mo>,</mo> <msubsup> <mi>&omega;</mi> <mi>H</mi> <mi>&lambda;</mi> </msubsup> <mo>&times;</mo> <msub> <mi>cH</mi> <mi>&lambda;</mi> </msub> <mo>(</mo> <mi>p</mi> <mo>)</mo> <mo>,</mo> <msubsup> <mi>&omega;</mi> <mi>V</mi> <mi>&lambda;</mi> </msubsup> <mo>&times;</mo> <msub> <mi>cV</mi> <mi>&lambda;</mi> </msub> <mo>(</mo> <mi>p</mi> <mo>)</mo> <mo>,</mo> <msubsup> <mi>&omega;</mi> <mi>D</mi> <mi>&lambda;</mi> </msubsup> <mo>&times;</mo> <msub> <mi>cD</mi> <mi>&lambda;</mi> </msub> <mo>(</mo> <mi>p</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> <mi>&lambda;</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>3</mn> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>