CN103514580A

CN103514580A - 用于获得视觉体验优化的超分辨率图像的方法和系统

Info

Publication number: CN103514580A
Application number: CN201310447132.4A
Authority: CN
Inventors: 梁路宏; 罗鹏; 赵京雄; 张伟强
Original assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Current assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Priority date: 2013-09-26
Filing date: 2013-09-26
Publication date: 2014-01-15
Anticipated expiration: 2033-09-26
Also published as: US20150093015A1; US9547887B2; CN103514580B

Abstract

本发明提出了人类视觉体验优化的超分辨率(SR)的方法和系统，用于从单个或多个低分辨率图像获得高分辨率图像。实施例包括具体的人类视觉偏好模型(HVPM)，所述模型综合考虑了亮度适应、对比度掩蔽以及纹理规整性，并且通过使用所述HVPM优化了基于单帧和多帧图像的SR方法。具体的反投影迭代(IBP)方法涉及使用HVPM使结果图像的细节可见性更接近人类视觉系统偏好。提出一种经HVPM优化的样例融合方法，用来同时减少失真和获取更多的细节信息。此外，还可以根据像素深度信息以及HVPM来选择性地对像素进行平滑和去模糊处理，以增强二维图像的三维视觉效果。本发明的优越性在于可以生成出其细节可见性更适于人类观看者的高分辨率图像，从而具有更高的主观质量。

Description

用于获得视觉体验优化的超分辨率图像的方法和系统

技术领域

本发明主要涉及图像和视频处理，具体而言，涉及用于从图像获得视觉体验优化的超分辨率图像的方法和系统。

背景技术

超分辨率（SR）方法旨在获取高于低分辨率（LR）图像的奈奎斯特频率的新的高分辨率（HR）信息，在高清电视HDTV、超高清电视UHDTV（4KTV和8KTV）、视频通信、视频监控、医学成像等领域具有广泛的应用。

超分辨率技术可以大致分为为传统的多帧SR和单帧SR方法。多帧SR方法利用视频序列或多个图像帧间的亚像素错位，获取高频信息。大部分方法涉及用来获取这些亚像素位移的某种运动估计方法，以及多种融合与规整化方法，例如IBP（反投影迭代）以及MAP（最大后验概率）等方法，保证重构的HR图像与输入LR图像相一致。例如，[现有技术2]、[现有技术7]、[现有技术8]和[现有技术9]利用个多种线索，包括样例匹配的相似度、运动矢量的连续性和运动矢量的长度等来计算权值，用于融合与规整化，以及用于一些SR方法中的“运动补偿”。

由于多帧SR方法需要对多个图像或视频帧进行捕获、缓存并操纵，其内存消耗以及计算复杂度都相当高。另外，尽管此类SR方法已被证明在放大因子高达2倍时仍能提供稳定的结果，但这类方法对噪声敏感，且仅限于帧间存在亚像素错位（misregistration）的情况。为了克服上述缺点，研究者提出了单帧SR方法。这类方法也被称为做基于样例或基于学习的SR，或者为“幻像”。

典型的基于样例的SR方法利用单个低分辨率（LR）图像获得高分辨率（HR）信息，大致可以分为两个主要模块，即重构与保持一致性。在第一个模块中，输入LR图像首先被分为多个小的重叠LR样例。对于每个LR样例，在预先建立的数据库或LR图像和/或下采样/上采样后的LR图像中搜索其对应的HR样例。随后，一般使用融合与加权技术，利用得到的HR样例重构出放大的图像[现有技术1]。另外，也有方法通过选择这些样例而不是搜索这些样例来降低计算复杂度[现有技术3]。在第二个模块中，在某种假设（例如，数字图像生成模型）下，使用后处理（例如，反投影迭代（IBP）)来保持重构的HR图像与输入的LR图像之间的一致性。还有一些其它的单帧SR方法，例如，[现有技术6]中描述的基于FFT的迭代去模糊的SR方法。

一些方法组合了来自“经典”SR（即多帧SR）和基于样例的SR（即单帧SR）的技术。例如，[现有技术1]从下采样后的输入LR图像以及LR图像本身搜索HR样例。如果将其在当前LR图像中的搜索方法扩展到视频序列的多个帧中，就可以变成一种混合SR方法。

超分辨率是存在多个解的不适定问题。大部分的现有SR方法会采用优化方法，例如，MAP（最大后验概率）、ML（极大似然）和IBP（反投影迭代）来对重构图像进行规整化以使其与输入LR图像相一致，同时在锐度与失真之间保持平衡。这些方法全都基于某种客观度量，例如，均方误差（MSE）。然而，人类视觉系统（HVS）对不同局部区域中的图像细节和失真具有不同的偏好与敏感度。例如，相比于规整的结构区域，随机纹理区域中的噪声与失真，对于HVS来说更不易察觉。从另一个角度来看，这相当于相比于规整的结构区域，HVS更偏好随机的纹理区域中的细节信息。因此，由于没有考虑HVS的偏好，现有基于客观度量的SR方法，无法创建观看者视觉体验意义上的最佳高分辨率图像。

HVS模型用来预测HVS的感知特性，已被深入研究了数十年。HVS模型，例如视觉注意、中央凹、色彩感知、立体感和最小可觉失真（justnoticeable distortion，JND）等均已得到视觉生理和心理学实验的强有力支持。在这些模型中，JND模型被广泛用于图像处理。JND模型输出一个阈值，该阈值代表人类视觉系统在感知图像的微小变化方面的局限性。如果图像中的噪声、失真或细节变化小于JND阈值，这些变化就无法被人类视觉系统感知到。在实践中，这些图像失真在图像处理中可以被忽略而不影响图像的主观质量。

JND模型可以分为基于空域和基于变换域两类，通常包括HVS亮度适应、对比度掩蔽和色彩掩蔽特性的数学描述。在最新的研究中，不同纹理和时域变化的影响也被考虑在内，例如，[现有技术12]。

一些方法利用JND模型来降低计算复杂度，或者用于选择图像放大和SR的不同处理方法。[现有技术4]利用考虑到亮度适应和对比度掩蔽的JND模型，用于提前终止MAP迭代，从而降低SR的计算复杂度。该方法也使用了显著性图来辅助实现提前终止。[现有技术10]利用相似的JND模型，对一些“不重要的”像素应用插值而不是SR，由此来降低计算复杂度。一些其它方法利用纹理规整性来调整SR重构。例如，[现有技术5]使用基于梯度的方法来区分均匀/噪声/低纹理区域和规整的高纹理区域。随后，对规整的高纹理区域使用更为先进复杂的方法以获得更高质量的结果，而对随机的纹理区域则采用插值方法或设置较小的样例搜索范围来降低计算复杂度。[现有技术11]使用结构张量来获得规整性特性并调节滤波器的形状和曲线拟合过程。据我们所知，现有技术方法的不足之处在于，一方面，HVS或规整性模型仅仅用于降低SR重构的计算复杂度，而不是进一步提高重构图像的主观质量；另一方面，大多数方法所使用的JND模型仅仅考虑了HVS特性的一部分。

[现有技术1]米哈尔·伊拉尼（Michal Irani）、丹尼尔·格拉斯纳（DanielGlasner）、欧迪德·沙哈尔（Oded Shahar）、沙尔·巴贡（Shai Bagon），单信号产生的超分辨率（Super Resolution From a Single Signal），美国专利申请案20120086850，2012年4月12日

[现有技术2]户田玛莎（Masato Toda），用于增强图像分辨率的方法、设备和程序（Method,Apparatus and Program for Enhancement of ImageResolution），美国专利8374464，2013年2月12日

[现有技术3]梁路宏（Luhong Liang）、赵京雄（King Hung Chiu）、林彦民（Edmund Y.Lam），基于多样例的单帧SR设备、系统和方法（Apparatus,system,and method for multi-patch based SR from an image），美国专利申请案（已提交），2012年

[现有技术4]纳比尔·G·萨达卡（Nabil G.Sadaka）和丽娜·J·卡拉姆（Lina J.Karam），基于感知注意的SR（Perceptual attentive SR），VPQM2009年

纳比尔·G·萨达卡和丽娜·J·卡拉姆，基于感知注意的高效SR（Efficientperceptual attentive SR），ICIP2009年

[现有技术5]柘林（Zhe Lin）、斯科特·D·科恩（Scott D.Cohen）、简仁灿（Jen-Chan Chien）、莎拉·A·孔（Sarah A.Kong）和杨建超（JianchaoYang），在图像放大过程中的去噪和失真去除，美国专利申请案20130034311，2013年2月7日

柘林、斯科特·D·科恩、简仁灿、莎拉·A·孔和杨建超，用于图像放大的回归学习模型（Regression-Based Learning Model for Image Upscaling），美国专利申请案20130034313，2013年2月7日

柘林、斯科特·D·科恩、简仁灿、莎拉·A·孔和杨建超，用于图像放大的基于原位自相似性的鲁棒样例回归（Robust Patch Regression based onIn-Place Self-similarity for Image Upscaling），美国专利申请案20130034299，2013年2月7日

[现有技术6]单奇（Qi Shan）、李兆荣（Zhaorong Li）、贾佳亚（JiayaJia）和唐志强（Chi-Keung Tang），快速图像/视频上采样（Fast Image/VideoUpscampling），美国计算机学会图形学汇刊第27卷第5期153节（2008年12月）

[现有技术7]保罗·斯普林格（Paul Springer）、西彻（Toru Nishi）、马丁·里希特（Martin Richter）和马蒂亚斯·布鲁格曼（MatthiasBrueggemann），用于增强图像的设备和方法（Image EnhancementApparatus and Method），美国专利申请案20120219229，2012年8月30日

[现有技术8]陈枚（Mei Chen），增强图像分辨率（Enhancing ImageResolution），美国专利8,036,494B2，2011年10月11日

[现有技术9]马克·保尔·瑟维斯（Marc Pau Servais）和安德鲁·凯（Andrew Kay），高效的时空视频放大（Spatio-Temporal VideoUp-Scaling），美国专利申请案20100135395A1，2010年6月3日

[现有技术10]林进灯（Chin-Teng Lin）、樊康伟（Kang-Wei Fan）、蒲河常（Her-Chang Pu）、吕世茂（Shih-Mao Lu）和梁胜福（Sheng-FuLiang），用于图像大小调整的HVS引导且基于神经网络的图像分辨率增强方案（An HVS-Directed Neural-Network-Based Image ResolutionEnhancement Scheme for Image Resizing），IEEE模糊系统汇刊，第15卷，第4期，2007年8月

[现有技术11]三岛奈央（Nao Mishima）、五十川贤三（KenzoIsogawa）和马场雅宏（Masahiro Baba），图像处理设备、成像装置、图像处理方法和计算机程序产品，美国专利申请案20100079630，2010年4月1日

[现有技术12]吴晋建（Jinjian Wu）、齐飞（Fei Qi）和石光明（Guangming Shi），用于最小可觉差估计的基于自相似的结构规整，视觉通信与图像表示期刊（J.Vos.Commun.Image R）第23卷（2012年）第845至852页

发明内容

本发明提供用于从单个或多个低分辨率图像生成超分辨率（SR）图像的方法和系统。本文所用的术语“图像”指的是通过捕获与某物体对应的光辐射或电磁辐射而获得的事物的可视化表示。术语图像可以包括静态图像或视频帧。

一种用于从单个或多个低分辨率图像获得视觉体验优化的超分辨率（SR）图像的方法，其包括：

为所述低分辨率图像的每个像素建立人类视觉偏好模型（HVPM）；

将所述低分辨率图像划分为多个相互重叠的样例；

在预先建立的数据库和/或一个或多个输入的低分辨率图像中搜索或选择每个样例的对应样例；

对搜索到的对应样例进行融合以形成重构的高分辨率（HR）图像；

对所述重构的高分辨率（HR）图像应用经专门的人类视觉偏好模型（HVPM）优化后的反投影迭代，从而创建出更高质量的高分辨率图像。

一种用于从单个或多个低分辨率图像获得视觉体验优化的超分辨率（SR）图像的系统，其包括：

用于为所述低分辨率图像的像素创建人类视觉偏好模型（HVPM）的装置；

用于将所述低分辨率图像划分为多个相互重叠的样例的装置；

用于在预先建立的数据库和/或一个或多个输入的低分辨率图像中搜索或选择每个样例的对应样例的装置；

用于对搜索到的对应样例进行融合以形成重构的高分辨率（HR）图像的装置；

用于对所述重构的高分辨率（HR）图像应用经专门的人类视觉偏好模型（HVPM）优化后的反投影迭代，从而创建出更高质量的高分辨率图像的装置。

本发明的实施例可以包括人类视觉偏好模型（HVPM），该模型将亮度适应、对比度掩蔽和纹理规整性度量结合起来。与已有的方法以降低计算复杂度为目的不同，本发明的这些实施例可以在SR各阶段中使用所提出的HVPM来优化图像的细节可见性，从而满足在规整的结构区域和随机的纹理区域中的不同HVS偏好。这些实施例可以包括SR重构方法，该方法将LR图像划分为多个重叠的查询样例，并且随后在预先建立的数据库和/或一个或多个输入的LR图像中为每个查询样例搜索或选择对应的HR样例。所述方法，即，视觉体验优化的SR（VEO-SR），可以使用HVPM来优化这些HR样例的权值，调整反投影迭代（IBP）中的滤波器，以及/或者调节在选择性的平滑/去模糊过程中使用的滤波器。本发明的技术效果在于其实施例可以创建出其细节可见性更适于人类观看者的高分辨率图像，即这些创建的HR图像具有更高的主观质量。

在一些实施例中，为建立HVPM，首先利用输入图像中每个像素的周围区域中的亮度适应和对比度掩蔽效应而计算出JND模型。接下来，使用基于梯度的结构张量对输入图像中每个像素的局部规整性进行度量。此外，对局部规整性的度量可以包括：计算结构张量的特征值、使用特征值计算出各向同性的度量、使用特征值确定角点、计算图像的局部方差、将这些计算结果组合成规整性图，以及，最后使用形态学运算将此规整性图中的孤立点去除。最后，JND和规整性的度量组合在一起形成HVPM图。

在一个实施例中，所提出的HVPM用于对反投影迭代（IBP）进行优化，在保持重构的HR图像与输入的LR图像之间的一致性的同时，获得在HVS偏好意义下的图像细节的适当可见性。该实施例，即VEO-IBP，可以包括：使用经HVPM调节后的平滑滤波器对重构的HR图像进行平滑处理；对平滑后的图像进行下采样，使其尺寸与LR图像尺寸相同；将LR图像减去下采样后的图像，从而获得残差图像；对残差图像进行校正；以及将校正后的残差图像与重构的HR图像相加。在一些实施例中，上述步骤可以重复一定次数。

在一些实施例中，对残差图像的校正可以包括：将残差图像中的每个像素乘以对应的残差权值。可以根据以下步骤来计算残差权值。首先，计算输入的LR图像中每个像素的锐度度量。然后，计算平滑和下采样后的图像中每个像素的另一个锐度度量。接下来，计算输入的LR图像中以及下采样后的图像中的对应像素之间的锐度差。最后，使用锐度差以及平滑和下采样后的图像的锐度度量，计算出残差权值。

在一个实施例中，VEO-SR方法可以进一步包括，经HVPM优化后的融合运算，即VEO融合。该方法将LR图像划分为多个相互重叠的查询样例，并且随后在预先建立的数据库和/或一个或多个输入的LR图像中为每个样例搜索或选择HR样例。随后，一些实施例仅从当前输入的LR帧或其下采样后的图像中搜索/选择HR样例（这与典型的单帧SR方法相似），并且随后通过加权求和对所搜索/所选择的样例进行融合。可以通过使用样例匹配的相似度、查询样例与所搜索/所选择的样例之间的像素间相似度以及HVPM来计算出权值，即单帧样例权值。

或者，一些实施例仅在其它多个LR图像中搜索样例（这与典型的多帧SR方法相似），并且随后通过加权求和对所搜索/所选择的样例进行融合。可以通过使用运动矢量的连续性度量、运动矢量长度、样例匹配的相似度以及HVPM来计算出权值，即多帧样例权值。

在一些实施例中，该方法在当前帧和其它先前和/或之后的帧中搜索或选择样例，即，同时利用单帧和多帧SR方法。在这种情况下，来自单帧SR的样例首先使用前述方法进行融合，从而形成单帧重构图像。来自多帧SR的样例随后使用前述方法进行融合，从而形成多帧重构图像。接下来，分别计算出单帧重构图像和多帧重构图像的锐度度量。最后，通过像素对像素的方式对这两个重构的图像进行加权求和，其中权值由对应像素的锐度度量来确定。

需要提及的是，与一些用于图像增强、图像色调映射或图像光照效果合成方法的不同之处在于，这些方法实际上会改变图像的内容，而本发明所提出的VEO-IBP和VEO融合方法所创建的HR图像仍然符合图像退化模型的假设，即仍然符合超分辨率的约束条件。换而言之，本发明不会改变图像内容，而是会在不适定超分辨率问题的大量解中，生成某种在人类视觉体验意义上的更优化的解。

在一个实施例中，VEO-SR方法进一步可以包括根据深度图和HVPM来选择性的对图像进行平滑和去模糊运算，从而增强2D图像或视频中的深度线索。该方法可以通过根据每个像素的局部特征估计像素的深度来计算出低分辨率图像的深度图。随后，该方法对深度大于阈值的像素应用平滑运算，其中每个运算中的平滑滤波器的强度与像素的深度大致成正比。同时，该方法还对深度小于阈值的每个像素应用可调谐去模糊运算。此外，可调谐去模糊运算可以包括以下步骤，包括：使用经HVPM调节后的平滑滤波器对输入的图像进行平滑处理；通过将输入的图像减去平滑后的图像而计算出残差图像；使用锐度度量对残差图像进行校正；以及将校正后的残差图像与输入的图像相加。在一些实施例中，这些步骤可以重复若干次。

前述内容已相当广泛地概述了本发明的特征和技术优势，以便更好地理解下文中的本发明的具体实施方式。下文中将描述本发明的额外特征和优势，其形成本发明的权利要求书的主题。所属领域的技术人员应了解，所揭示的概念及具体实施例可以易于用作修改或设计其它结构以实行本发明相同目的的基础。所属领域的技术人员还应意识到，此类等效构造不脱离所附权利要求书中所提出的本发明的精神和范围。通过以下具体实施方式并连同附图一起参考，将能够更好地理解被认为是本发明在其管理及运算方法方面的特性的新颖特征，以及进一步特征和优势。然而，应清楚地明白，所提出的每个特征都仅出于说明和描述的目的，而不意图作为对本发明的限制的定义。

附图说明

图1所示为用于获得视觉体验优化的SR（VEO-SR）方法的一个实施例。

图2所示为图像的随机的纹理区域和规整的结构区域的一些样例。

图3所示为用于建立人类视觉偏好模型（HVPM）的一个实施例。

图4所示为使用视觉体验优化的反投影迭代（VEO-IBP）的单帧SR的实施例。

图5所示为VEO-IBP的实施例。

图6所示为VEO-IBP的实验结果。

图7所示为使用VEO-IBP的多帧SR的实施例。

图8所示为使用VEO-IBP的单帧及多帧SR的实施例。

图9所示为使用VEO融合以及VEO-IBP的单帧及多帧SR的实施例。

图10所示为VEO融合的实施例。

图11所示为VEO融合的实验结果。

图12所示为使用“幻像3D”的SR的实施例。

图13所示为用于实现“幻像3D”的VEO去模糊的实施例。

图14所示为“幻像3D”的实验结果。

图15所示为用于预处理的VEO去模糊的实施例。

图16所示为VEO-SR的实施例应用。

具体实施方式

图1所示为用于获得经人类视觉偏好模型优化的超分辨率（SR）重构的方法的一个实施例，即，视觉体验优化的SR或VEO-SR。如图所示，传统的SR方法可以被抽象为两个主要模块，即高分辨率（HR）信息获取（102）和规整化（108）。对于单帧SR，输入可以为单个的低分辨率（LR）图像/视频帧X₀；或者对于多帧SR，可以为p个LR视频帧/图像X₀～X_p-1。HR信息获取（102）模块从这些输入的LR图像或视频帧中获取HR信息。在一些传统方法中，一个输入的LR图像X₀可以被划分为方形或各种形状的多个相互重叠的查询样例。随后，可以通过在先前和/或之后的输入LR图像（X₀～X_p-1）中的运动估计（105）或在下采样后的输入LR图像X₀中的样例搜索（104）而获取到每个查询样例或下采样后的查询样例的HR对应样例。在一些方法中，依据尺度不变自相似性（SiSS）模块（106）中的SiSS特性，可将查询样例本身作为其中心区域的HR对应样例。在其它方法中，可以在输入的LR图像（X₁～X_p-1）与X₀之间进行对齐操作（103），从而在获取它们之间的亚像素位移，并且随后还可以把这些图像作为HR对应样例插值到HR网格中。如图所示，随后对所获取的HR对应样例P_i（107）进行处理，方式是使用规整化模块（108）中所列各个方法中的一个或多个方法，包括HR对应样例的融合（109）、不同HR信息获取方法产生的融合结果的二次融合（110）、应用反投影迭代（IBP）（111）以及其它图像增强（112）方法。最后，规整化模块（108）输出HR图像Y（118）。

不同于传统的SR方法，本发明提出建立人类视觉偏好模型（HVPM）并对规整化模块进行优化，以获得主观质量更好的HR图像。如图1所示，人类视觉偏好模型（HVPM）模块（113）通过考虑输入图像X₀以及其它输入图像的亮度适应（114）、对比度掩蔽（115）和纹理规整性（116）特性，预测了HVS在图像细节方面的偏好，或与之等价的HVS对图像噪声/失真的容忍度。HVS偏好可以用HVPM图（117）来描述，其中每个像素表示HVS可以感知到的失真程度，而可感知的失真程度反映了HVS所偏好的图像细节程度的高低。随后，可以使用HVPM图（117）来优化规整化模块（108），即可以用它来对融合、再融合、IBP和增强方法的参数进行自适应调节，以获得主观质量更好的结果图像Y（118）。

图2所示为HVS对图像的随机的纹理（即不规整纹理）区域以及规整的结构区域中的噪声或失真的不同敏感度的一个实例。例如，在随机的纹理区域（201）中（如图2所示图像中的珊瑚），粗糙的外观使得HVS不易觉察到与之混叠的噪声和失真。在这种情况下，人类观看者更偏好于图像细节的高可见度，以便更容易地感知到关于物体的信息，同时可以容忍更多的噪声与失真。相反，在规整的结构区域（202）中（如图2所示图像中的斑马），平滑和规整的外观则使得HVS更容易觉察到图像的噪声和失真。在这种情况下，人类观看者更倾向于较低的噪声和失真，同时能够在一定程度上容忍物体细节信息的缺失。

图3所示为用于建立HVPM的一个实施例。除了亮度适应和对比度掩蔽特性以外，所提出的模型还考虑了纹理规整性对HVS偏好的影响。该实施例可以使用基于梯度的结构张量来对输入的LR图像中的每个像素的规整性特性进行度量。如图3所示，该实施例可以首先在步骤（302）中计算出输入的LR图像（301）的梯度：

\begin{matrix} g_{x} (x, y) = \frac{&PartialD; I (x, y)}{&PartialD; x} \\ g_{y} (x, y) = \frac{&PartialD; I (x, y)}{&PartialD; y} \end{matrix}, - - - (1)

其中I(x,y)为输入的LR帧（301），而g_x(x,y)和g_y(x,y)为X（水平）方向和Y（垂直）方向上的梯度。在实践中，梯度计算可以使用索贝尔算子或其它梯度计算滤波器。随后，在步骤（303）中，对于每个像素，用以下公式来计算相邻区域的结构张量矩阵：

T (x, y) = [\begin{matrix} T_{xx} & T_{xy} \\ T_{xy} & T_{yy} \end{matrix}], - - - (2)

其中T_xx=∑_u,v∈R(x,y)g_x(u,v)²、T_yy=∑_u,v∈R(x,y)g_y(u,v)²并且

T_x,y=∑_u,v∈R(x,y)g_x(u,v)g_y(u,v).R(x,y)是以(x,y)为中心的图像区域。通常，图像区域可以选择5×5的方形区域。

接下来，在步骤（304）中通过求解以下方程来计算出张量矩阵T(x,y)的特征值：

(λ-T_xx)(λ-T_yy)-T_xy ²=0，（3）

其中λ是矩阵的特征值。该方程的两个解可以通过以下公式进行计算：

\{\begin{matrix} λ_{1} = \frac{T_{xx} + T_{yy} + \sqrt{k}}{2} \\ λ_{2} = \frac{T_{xx} + T_{yy} - \sqrt{k}}{2} \end{matrix}, - - - (4)

其中k=(T_xx+T_yy)²-4(T_xxT_yy-T_xy ²)。

特征向量描述了图像区域内的梯度分布。具体而言，两个特征值之间的相对差异是图像局部区域各向异性程度的指标。在步骤（305）中可以用以下公式计算上述指标：

ω_{1} = {(\frac{λ_{1} - λ_{2}}{λ_{1} + λ_{2}})}^{2} . - - - (5)

当局部区域内的梯度方向完全相同时，该指标为1，即该图像区域具有高度的各向异性；当局部区域内没有优势的梯度方向时，该指标为0，即该图像区域是各向同性的。当图像像素在区域内为恒定值时，该公式是未定义的，即λ₁=λ₂=0。我们可以将上述各向异性的区域和像素为恒定值的区域视作规整的结构区域，而将其它区域视作随机的纹理区域。

然而，张量度量无法将角点和交叉点（如十字交叉点和丁字形交叉点）分类为规整的结构，因为这些区域的梯度分布没有优势方向。为解决这个问题，在步骤（306）中，还检查第二个特征值λ₂来检测图像中的角点和交叉点，其公式表达为：

ω₂=α·λ₂，（6）

其中α是控制检测敏感度的参数。

由于图像的一些平坦区域中缺少梯度信息，因此在步骤（307）中还计算了图像的局部方差。在此实施例中，以像素(x,y)为中心的区域的平坦度用如下的平均绝对偏差（MAD）来描述：

MAD (x, y) = \frac{1}{N} Σ_{u, v &Element; R (x, y)} | I (u, v) - m (x, y) |, - - - (7)

其中

在此公式中，I(u,v)为像素的强度，N为区域R(x,y)内的像素数目。在此实施例中，使用5×5区域来计算局部MAD图。

随后，在步骤（308）中，通过对各向异性度量、角点、交叉点和局部方差进行融合来计算规整性度量，计算方法如下：

m_reg=f₁(ω₁+ω₂)·f₂(MAD)。（8）

函数f₁(·)为与其自变量成正比的分段线性函数。当各向异性度量或角点度量较高时，相应的图像区域属于规整结构的概率也较高，反之亦然。函数f₂(·)为与其自变量成反比的分段线性函数。当MAD度量较小时，相应的图像区域属于规整结构的概率则较高，反之亦然。当将公式（8）中的两项组合后，则得到的各向异性、角点和平坦区域属于规整结构的概率较高，反之亦然，这与图2所揭示的现象相一致。

使用公式（8），可以计算出输入图像的每个像素的规整性度量并且形成规整性度量图（309）。由于在实际应用中各向异性、角点和平坦性度量存在不可避免的误差，因此在规整性度量图（309）中，可能会有一些错误的规整性度量形成若干孤立点。因此，在步骤（310）中，通过后处理来去除那些孤立点。在大部分情况下，现有形态学运算（例如腐蚀和膨胀）的组合可以有效地去除掉这些孤立点。

上述描述仅介绍了图像中的规整性度量的一个实施例。一些实施例可以使用其它各向异性/各向同性度量或自相似性度量，来达到相同的目的。

除了图像的规整性之外，本发明还考虑了传统JND（最小可觉失真）模型中广泛使用的亮度适应和对比度掩蔽效应。如图3所示，步骤（311）使用以下公式计算每个像素的基于梯度的局部对比度度量：

MC = \sqrt{g_{x}^{2} + g_{y}^{2}}, - - - (9)

其中g_x和g_y为根据公式（1）计算出的梯度。

在步骤（312）中，可以用背景亮度计算出亮度适应度量。在一个实施例中，可以用以下公式来计算背景亮度度量b_g：

b_g=I*LP （10）

其中I为输入图像，LP为滤波器。一些实施例可以使用现有的5×5滤波器，例如，

\frac{1}{32} [\begin{matrix} 1 & 1 & 1 & 1 & 1 \\ 1 & 2 & 2 & 2 & 1 \\ 1 & 2 & 0 & 2 & 1 \\ 1 & 2 & 2 & 2 & 1 \\ 1 & 1 & 1 & 1 & 1 \end{matrix}] .

随后，在步骤（313）中，可以用以下公式计算出JND亮度图：

{JND}_{l} = \{\begin{matrix} T_{0} (1 - \frac{\sqrt{b_{g}}}{127}) + 3 & b_{g} < 127 \\ γ (b_{g} - 127) + 3 & else \end{matrix} - - - (11)

其中T₀和γ是调节敏感度的参数。

最后，在步骤（314）中，将规整性、亮度适应和对比度掩蔽组合起来。由于这3个特性彼此间有耦合效应，因此在一些实施例中，可以用以下公式来降低其影响：

其中，JND_con=f₃(MC),JND_reg=f₄(m_reg)，而τ、ε₀、ε₁、ε₂、ε₃分别为调节总体权值以及耦合效应权值的参数。在此具体实施例中，在输入图像的每个像素中计算m_HVP度量以形成HVPM图。HVPM图中的较高数值表示HVS对噪声/失真不敏感，并且偏好更多的细节信息，反之亦然。

上述描述仅介绍了通过将规整性度量、亮度适应和对比度掩蔽组合而形成HVPM的一个实施例。还可能有替代实施例使用其它的各向异性/各向同性度量或自相似性度量来实现相同或类似的功能。

图4所示为用于在单帧SR框架中对反投影迭代（IBP）进行优化的一个实施例，即VEO-IBP。在此实施例中，一幅LR图像或视频帧（401）输入到SR系统，最终生成一个HR图像或视频帧（411）。此实施例遵从一般基于样例的SR方法，其中在开始时，可以将输入LR图像划分为多个相互重叠的查询样例以待进一步处理。为了获取高于LR图像网格的分辨率的信息，可以通过一个以亚像素步长移动的滑动窗口来创建这些重叠的查询样例。在实施例中，可以通过初始放大步骤（402）来实施上述方法，即预先在各个亚像素位置插值出新的像素值。随后，在步骤（403）中应用基于尺度不变自相似性（SiSS）的单帧SR方法，并且在步骤（404）中对所选的HR样例进行融合，从而形成重构的HR图像。接下来，可以应用反投影迭代（IBP，406）来保持重构的HR图像（405、411）与输入的LR图像（401）之间的一致性。

在此具体实施例中，采用前述的建立人类视觉偏好模型模块（407）来创建HVPM图（408）。由于HVPM图（408）是使用LR图像（401）建立的并且尺寸与LR图像（401）的尺寸相同，因此它经缩放模块（409）放大后才能与重构图像的尺寸相匹配。有多种方法可以实现此放大，包括双线性、双立方、最近邻和其它插值方法。随后，在IBP（406）中使用放大后的HVPM图（410），对重构的图像（405、411）的细节可见性进行基于人类视觉偏好的优化。

图5所示为视觉体验优化的IBP（VEO-IBP）的一个实施例。IBP模块的输入为融合后的HR图像（501）和原始LR图像（503）（作为参考）。传统的IBP方法遵从图像退化模型（或即照相机模型）依次对融合后的HR图像（501）进行平滑处理（504）和下采样（506），随后将中间结果（507）与参考LR图像（503）相比较。最后对差值（即残差（513））进行放大并将其再返回与融合后的图像（501）相加。此过程保持融合后的HR图像（501）与参考LR图像（503）之间的一致性，且更重要的是，提高了融合后的图像（501）的细节可见性。作为不适定问题，SR重构过程可以生成与原始LR图像（503）相一致的大量“正确”的解。传统IBP方法实际上仅提供了在某种图像退化模型意义上的最优化解，而该最优化解对人类观看者而言可能并不是最优的。

在图5所示的VEO-IBP实施例中，使用HVPM图（502）来优化IBP的求解过程，以便匹配人眼的视觉偏好。对于HVPM图（502）中那些数值较高的像素，代表人眼偏好更多的细节信息并且可以容忍更多的噪声/失真。为了满足这种偏好，在IBP步骤中可以对相应像素应用更强的平滑运算，进而得到更多的细节信息（当然也伴随有更多的噪声/失真）。而对于HVPM图（502）中那些值较小的像素来说，人眼对噪声/失真更敏感，即偏好较低水平的噪声/失真，而不是高细节可见性。为了满足这种偏好，在IBP步骤中可以对相应的像素应用较弱的平滑运算，进而得到更少的细节信息但也产生更少的噪声/失真。

更具体地说，在图5所示的VEO-IBP的此具体实施例中，对融合后的HR图像（501）应用经HVPM图（502）调节后的可调谐平滑滤波器（504），而不是传统IBP中具有一致参数的平滑滤波器。在一些实施例中，可调谐平滑滤波器（504）可以为具有可变参数的高斯滤波器。对于融合后的HR图像（501）中的每个像素，提取出HVPM图中的对应像素值并用来计算高斯滤波器的方差，计算方法如下：

σ_VEO=f₅(m_HVP)，（13）

其中m_HVP为HVPM图的对应位置中的像素值，而f₅(·)则是用于将优选程度与高斯滤波器的方差参数形成映射的函数。在大部分实施例中，f₅(·)为使σ_VEO与像素值m_HVP大致成正比的分段线性或非线性函数。随后，在融合后的图像的此具体位置处应用具有方差参数σ_VEO的高斯滤波器。高斯滤波器可以用公式表达如下：

G (u, v) = \frac{1}{{2 πσ}_{VEO}^{2}} e^{(- \frac{u^{2} + v^{2}}{σ_{VEO}^{2}})} - - - (14)

在图5所示的具体实施例中，可以有步骤（508、510），以分别计算下采样后的图像（507）和输入LR图像（503）的局部锐度。在一些实施例中，可以经由用公式（7）列出的局部MAD来实施局部锐度度量。不同于传统IBP，下采样后的图像（507）的局部锐度以及这两个锐度度量（509、511）之间的差均被考虑在加权像素相减（512）中，以便保持一定的锐度（或相当于，图像细节的可见性）并避免超调。更具体地说，假定LR图像和融合的HR图像中的像素(x,y)的MAD分别为MAD_L(x,y)和MAD_b(x,y)，那么加权像素相减可以用公式表达如下：R(x,y)=w_sh(x,y)·(I_L(x,y)-I_b(x,y))

和

w_sh(x,y)=f₆(MAD_b(x,y)-MAD_L(x,y))·f₇(MAD_b)，（15）

其中I_L(x,y)和I_b(x,y)分别为下采样后的图像（507）和LR图像（503）中的像素，f₆(·)和f₇(·)为与自变量成反比的分段线性函数或非线性函数，并且R(x,y)为结果残差（513）。公式（15）显示，当MAD_L(x,y)>MAD_b(x,y)时，这意味着下采样后的图像（507）（或相当于，融合的图像（501））中的锐度不足，那么此时，将则较大的权值赋给像素相减结果，以补偿下采样后的图像（507）（或相当于，融合的图像（501））中的锐度损失。当MAD_L(x,y)<MAD_b(x,y)时，这意味着下采样后的图像（507）（或相当于，融合的图像（501））过度锐化，那么此时，则赋以较小的权值或零以减少过度锐化。公式（15）还显示，当MAD_b(x,y)较大时，这意味着下采样后的图像（507）（或相当于，融合的图像（501））中的锐度足够，那么此时，则赋以较小的权值以减少过度锐化。

在图5所示的VEO-IBP的此具体实施例中，以下步骤与传统IBP方法相同，其中随后对残差（513）进行上采样（514）并通过像素相加（515）再返回与融合的HR图像（501）相加，从而获得更新的重构图像（517）。图5所示的步骤可以重复预定次数的迭代，以逐步地提高重构图像（517）的锐度和细节可见性。在一些实施例中，根据重构图像（517）上的一些特征度量，可以预先确定迭代次数。这些度量的获得途径可以是图像的特征统计、无参考/半参考图像质量评估方法，或其它用来评价图像质量的方法。在一些实施例中，每个像素的迭代次数可以是不同的，并且可以通过与前述方法相似的局部图像质量评估来确定。

上述描述仅介绍了用于实施VEO-IBP的一个实施例。替代实施例可以采用其它类的平滑滤波器，例如，箱式滤波器、双边滤波器、三边滤波器等。在一些实施例中，可以根据像素的边缘或梯度方向对平滑滤波器的形状进行调节，以进一步抑制失真。一些其它实施例可以采用其它类的滤波器，实现对细节可见性进行调节的相同目的。此外，一些实施例可以使用其它类的锐度度量方法，例如，梯度剖面锐度、基于小波的或其它空间域和频域方法。

图6以一个实例展示出所提出的VEO-IBP的优势。其中，（a）部分代表输入图像，（b）部分为双立方插值的结果，（c）部分为最小失真优化的超分辨率结果，（d）部分为人类视觉偏好模型图，（e）部分为最大细节可见性优化的超分辨率结果，（f）部分为视觉体验优化的超分辨率（即使用了视觉体验优化的反投影迭代）的结果。可以看出，与（b）中所示的双立方插值相比，（c）、（e）和（f）中所示的SR技术能创建出更清晰的边缘以及更多的细节信息。由于SR是具有个“正确”解的不适定问题，因此，SR重构图像的细节可见性以及其伴随的失真可以优化到各种程度。如果使用如（c）中所示的传统IBP使融合的图像被优化到具有最小失真，那么斑马看起来更清晰生动，但是，草地看上去缺少细节。相反，如果融合的图像被优化到如图（e）所示具有最大细节可见性，那么草地上将有更多的细节信息可见，但是斑马则看起来“不干净”，因为有过多的细节（其中部分“细节”是由输入图像中不可避免的缺陷造成的）可见。（c）和（e）中的结果并不令人满意的原因在于，传统的IBP未考虑HVS对图像中不同类型纹理的不同偏好。如图（d）所示，所提出的方法建立了HVPM图，其中红像素表示对噪声/失真不敏感（或相当是说，偏好更多的细节可见性），而蓝像素则表示对噪声/失真敏感（或相当是说，偏好较少的细节可见性）。可以看出，HVPM图提供了与观看者主观体验非常接近的度量。例如，预期草地具有大量细节，而斑马的身体则被预期为看起来“干净”、仅有少量的粗糙细节。在（f）所示的VEO-IBP结果中，可以看出，斑马和草地都具有符合HVS偏好的适当细节，因此，该结果向终端用户提供了优异的视觉体验。

需要提及的是，与一些用于图像增强、图像色调映射或图像光照效果合成的方法的不同之处在于，这些方法实际上会改变图像的内容，而所提出的VEO-IBP仍然保留了作为传统IBP的像素相减和相加的步骤（512、513、516）。这些步骤使得VEO-IBP在某种程度上仍然遵从图像退化模型假设以及超分辨率的约束条件。从某种意义上讲，VEO-IBP实际上是从不适定的超分辨率问题的大量解中，选择了一个对人类视觉体验而言最优或较优的解，而不是改变图像的内容。

图7所示为使用多帧SR和VEO-IBP的一个实施例。在此实施例中，多个LR图像或视频帧（701）被馈送到SR系统，以形成一个HR图像或视频帧（711）。此实施例遵从传统的多帧SR方法，其中在开始时，可以将当前的输入LR帧划分为多个重叠的查询样例以待进一步处理。为了获取输入LR帧之间的亚像素位移，可以利用以亚像素步长移动的滑动窗口来创建这些重叠的查询样例。在实施例中，可以通过初始放大步骤（702）来实施上述方法，即提前在亚像素位置插值出相应的像素值。在一些实施例中，在（702）中对其它输入LR帧进行放大并将它们存储在帧缓存（703）中。随后，应用多帧快速运动估计（704）以在帧缓存（703）中搜索查询样例的对应样例。接下来，在融合模块（705）中对所有所搜索到的对应样例进行加权求和，从而形成重构图像（706）。在此具体实施例中，使用前述的建立人类视觉偏好模型模块（707）和放大（708）来创建放大后的HVPM图（709）。随后，在VEO-IBP（710）中使用放大后的HVPM图（709）对重构图像（706）的细节可见性根据人类视觉偏好进行优化。

图8所示为同时使用单帧及多帧SR方法以及VEO-IBP的一个实施例。在此实施例中，多个LR图像或视频帧（801）被馈送到SR系统，以形成一个HR图像或视频帧（814）。在此实施例中，多帧SR方法包括初始放大（802）、帧缓存（803）和多帧快速ME（804），所述多帧SR方法与图7所示的实施例相同或相似。单帧SR（806）可以与图4所示实施例中的SiSS方法相同或相似。在一些替代实施例中，单帧SR（806）可以使用其它基于样例的方法来在输入LR帧或预先建立的数据库中搜索对应样例。不同于前述实施例，在图8所示的实施例中，融合（808）对来自单帧SR模块和多帧SR模块的样例（805、807）进行加权求和，从而形成重构的HR图像（809）。在一些实施例中，融合（808）中所用的权值可以使用查询样例与所搜索到的对应样例之间的相似度、查询样例与所搜索到的对应样例之间的像素间相似度、运动估计的可靠性、运动矢量的长度等来确定。在图8所示的实施例中，在当前帧中使用前述的建立人类视觉偏好模型模块（810）和缩放（811），并且随后在VEO-IBP（813）中使用放大后的HVPM图（812）对重构图像（809）的细节可见性根据人类视觉偏好进行优化。

图9所示为进一步对融合运算进行优化以匹配人类视觉偏好的一个实施例。在此实施例中，单帧及多帧SR、人类视觉偏好模型以及IBP模块与图8所示的实施例相同或相似，它们包括初始放大（902）、帧缓存（903）、多帧快速ME（904）、人类视觉偏好模型（910）、缩放（911）和VEO-IBP（913）。不同之处在于，放大后的HVPM图（912）不仅用于优化IBP，还用于优化VEO融合（908）。还可能存在与此具体实施例相似的其它实施例，或使用此实施例的一部分模块。例如，一些实施例可以只使用单帧SR，包括初始放大（902）和单帧SR（906），但仍然使用HVPM来优化融合和IBP。一些实施例可以只使用多帧SR，但仍然使用HVPM来优化融合和IBP。一些其它实施例可以只使用图像放大技术而不是SR，但仍然使用VEO-IBP（913）。

图10所示为经人类视觉偏好优化的融合的一个实施例。输入为由单帧SR（1001）搜索或选择的样例以及在多帧SR（1002）中搜索到的样例。对于来自单帧SR（1001）的样例，前述HVPM（1006）涉及单帧权值的计算（1003），从而根据人类视觉偏好对融合结果进行优化。不失一般性地假设单帧SR使用基于尺度不变自相似性（SiSS）的方法，那么样例P中像素(x,y)的单帧样例权值可以计算如下：

w_{sf} (x, y) = \exp (\frac{siss}{σ_{patch}}) \cdot \exp (- \frac{| P (x, y) - P_{&DownArrow;} (u, v) |}{σ_{pixel}}) \cdot f_{8} (m_{HVP} (x, y)), - - - (15)

其中，m_HVP(x,y)、siss、P(x,y)、P↓(u,v)、σ_patch和σ_pixel分别为HVPM图（即，人类视觉偏好度量）中的像素值、样例的尺度不变自相似性度量、样例中的像素值、下采样样例中的像素值以及用于调节敏感度的参数。在公式中，第一和第二指数项分别反映了样例相似度度量和像素间相似度度量，这些已在一些现有技术使用。这两项赋予“高质量”像素（即，从样例相似度与像素间相似度来看更可能包含真正的高分辨率信息的像素）以较高的权值，反之亦然。在最后一项中，f₈(·)为与自变量大致成反比的分段线性或非线性函数。不同于现有技术，当人类视觉偏好度量m_HVP(x,y)具有较小值（即，HVS对噪声/失真敏感）时，公式中这个新的最后一项放大了“高质量”与“低质量”样例像素之间的权值差。这个新的最后一项反映了以下事实：当HVS对噪声/失真敏感时，应将额外的较高权值赋给“高质量”像素，类似地，同时也应将额外的较低权值赋给“低质量”像素。此策略可以突出“高质量”像素的作用，同时抑制由“低质量”像素引起的失真。还反映了以下事实：当HVS对噪声/失真不敏感时，应对所有的像素赋以相似的权值，以充分利用样例中的信息，同时忽略由“低质量”像素引起的噪声/失真。在计算出权值之后，在用于单帧SR的加权融合模块（1004）中对来自单帧SR的所有样例的所有像素进行加权求和，从而形成单帧的重构HR图像（1005）。

对于来自多帧SR（1002）的ME结果，首先计算一些度量，包括：匹配相似度（1007）、运动矢量的连续性（1008）以及运动矢量的长度（1009）。在一些现有技术中，这些度量用来计算ME可靠度。不同于现有技术，图10所示实施例在多帧权值的计算（1010）中使用前述HVPM（1006）来优化权值计算。不失一般性地，在ME中搜索到的样例中的像素(x,y)的多帧样例权值可以计算如下：

w_{mf} (x, y) = \exp (- \frac{\sqrt{SAD}}{σ_{sad}}) \cdot \exp (- \frac{MVC}{σ_{mvc}}) \cdot \exp (- \frac{| MV |}{σ_{mv}}) \cdot f_{9} (m_{HVP} (x, y)), - - - (16)

其中，SAD、MVC、|MV|、m_HVP(x,y)、σ_sad、σ_mvc和σ_mv(x,y)分别为ME中查询样例与搜索样例之间的绝对差值的和、运动矢量的连续性度量、运动矢量的长度、HVPM图中的像素值，以及用于调节对SAD、MVC和|MV|的敏感度的参数。在最后一项中，f₉(·)为与自变量大致成反比的分段线性或非线性函数。不同于现有技术，当人类视觉偏好度量m_HVP(x,y)具有较小值（即，HVS对噪声/失真敏感）时，这个新的项放大了“高质量”与“低质量”样例之间的权值差，且反之亦然。这种策略与公式（15）中所述的针对单帧SR的加权方法相同。在计算出权值之后，在用于多帧SR的加权融合模块（1011）中对来自单帧SR的所有样例的所有像素进行加权求和，从而形成多帧的重构HR图像（1012）。

考虑以下事实：单帧SR可以重构出更锐利的强边缘，而多帧SR可以从随机的纹理区域中获取更多的细节信息。针对这种情况，图10所示实施例也采用锐度度量模块（1013、1014）以分别获得融合后的图像（1005、1012）中每个像素的局部锐度度量。在一些实施例中，可以使用公式（7）所述的局部MAD来实现锐度度量。随后，在融合模块（1015）中对来自单帧SR和多帧SR的像素进行融合，以形成最终的融合图像（1016）。更具体地说，融合可以用公式表达如下：

I_{h} (x, y) = \frac{w_{ssf} (x, y) \cdot I_{sf} (x, y) + w_{smf} (x, y) \cdot I_{mf} (x, y)}{w_{ssf} (x, y) + w_{smf} (x, y)}

以及w_ssf(x,y)=f₁₀(s_sf)w_smf(x,y)=f₁₁(s_mf)，（17）

其中，I_sf(x,y)、I_mf(x,y)、s_sf(x,y)和s_mf(x,y)分别为：来自单帧重构HR图像（1005）的像素、来自多帧重构HR图像（1012）的像素、I_sf(x,y)上的锐度度量以及I_mf(x,y)上的锐度度量。在公式（17）中，f₁₀(·)和f₁₁(·)为与自变量成正比的分段线性或非线性函数，这两个函数用于调节对锐度度量的敏感度。

图11所示为所提出的融合方法的优越性。在单帧SR的融合结果（1101）中，所重构出的规整的区域（1102）具有清晰干净的外观，但是所重构出的随机的纹理区域具有较少的细节信息。而在多帧SR的融合结果（1104）中，所重构出的随机的纹理区域（1106）具有更多的细节信息，但是规整的区域（1105）看起来没有那么高的锐度。如果来自单帧SR和多帧SR的样例使用图10所示实施例进行融合，那么规整的区域与随机的纹理区域均可以具有适当的锐度和细节可见度，如融合结果（1107）所示。

尽管所提出的VEO融合根据某种主观度量对权值进行了调整，但它仍然是由基于单帧和/或多帧SR框架下的客观的样例搜索/选择结果确定的。因此，VEO融合结果仍然是超分辨率重构的一种解，只是基于HVS的偏好，对失真与细节可见性之间的平衡进行了适当的调整。与VEO-IBP一起，整个实施例实际上是从不适定的超分辨率问题的大量解中，选择了一个对人类视觉体验而言最优或较优的解，而并非改变图像的内容。

图12所示为使用前述视觉体验优化技术来进一步增强图像和视频帧的深度线索的一个实施例。在此实施例中，单帧及多帧SR、HVPM、VEO融合、VEO-IBP模块（1203、1204、1205、1206、1207、1208、1210和1211）与图9所示实施例相同。新特征包括深度估计模块（1213）及之后的缩放模块（1215）、前景-背景划分模块（1217）、可调谐平滑滤波器（1221）和VEO去模糊模块（1219），所述滤波器和去模糊模块根据深度以及人类视觉偏好而选择性地对重构图像（1212）进行平滑和去模糊处理。该实施例可以进一步包括作为整个方法的预处理阶段的VEO去模糊模块（1202），用以去除LR帧中原有的模糊。

在图12所示的实施例中，深度估计（1213）使用2D深度线索估计了输入LR帧的每个像素的深度，并且随后生成深度图（1214）。在一些实施例中，该估计可以基于局部锐度、局部对比度、梯度剖面锐度、基于小波的或其它空间域和频域方法。在其它实施例中，输入LR帧为立体帧或多视图帧，或伴随有深度图。在此情况下，系统用于在2D显示器上显示出立体的或3D内容。当输入LR图像为立体图像或多视图图像时，一些实施例可以基于各视图之间的视差来估计深度。当输入LR图像为伴随有深度图的图像时，则可以绕过深度估计（1213）。随后，在缩放模块（1215）中对深度图（1214）进行放大，以匹配重构的HR图像（1212）的尺寸。（1215）中的放大方法可以为最近邻方法或其它插值方法。

接下来，前景-背景划分模块（1217）根据深度估计结果（1216）将重构的HR图像（1212）中的像素归类为前景（1218）和背景（1220）。在一些实施例中，前景和背景使用阈值进行划分。当像素的深度估计小于阈值时，像素被归类为前景，反之亦然。在一些实施例中，阈值可以由以下几种方法或其组合来确定：预定义值、帧的中心区域中的像素的平均深度、预定义区域中的像素的平均深度等。

最后，VEO去模糊模块（1219）对被归类为“前景”的那些像素应用去模糊运算。去模糊运算的强度可以根据深度估计以及HVPM图进行调节，以便使更近的物体更清晰（即具有较高的锐度），并且此锐度符合人类视觉偏好、避免主观感受意义上的过度锐化。

对于被归类为“背景”的像素，应用可调谐平滑滤波器（1221），根据深度估计值对平滑滤波器的参数进行调节，从而使较远的物体更模糊。不失一般性地，假设“背景”像素的深度为d_b，而前景-背景划分（1217）中使用的阈值为d₀，那么可调谐平滑滤波器可以是具有可变方差参数的高斯滤波器，其用公式表达如下：

G (u, v) = \frac{1}{2 π σ_{d}^{2}} e^{(- \frac{u^{2} + v^{2}}{σ_{d}^{2}})} and σ_{d} = f_{12} (d_{b} - d_{0}) - - - (18)

其中f₁₂(·)为与自变量大致成正比的分段线性或非线性函数，用于调节对深度的敏感度。一些实施例可以实施具有由深度调节的可变参数的平滑滤波器，例如，其它的低通滤波器、双边滤波器和三边滤波器。

由于模糊度是2D图像中的重要深度线索，因此，当前景与背景之间的锐度差使用前述方法得以增强时，输出HR帧（1222）具有对HVS的更强深度线索。因此，HR帧（1222）看起来更生动，以致产生如同处于真实的3D场景中一样的视觉效果。在某种意义上，图12所示的实施例可以称作“幻像3D”技术。

可以有其它的实施例，以使用图12所示实施例中的模块的一部分来实现“幻像3D”。一些实施例可以只使用单帧SR模块或多帧SR模块。一些实施例可以只使用初始放大模块和VEO-IBP模块。在输入帧为高清的情况下，一些实施例可以仅使用以下的所有或一部分模块，包括：深度估计（1213）、前景-背景划分（1217）、人类视觉偏好模块（1207）、可调谐平滑滤波器（1221）和VEO去模糊（1219），用以增强输入帧的3D体验。

图13所示为图12所述实施例中的VEO去模糊模块（1219）的一个实施例。输入图像（1301）首先用可调谐平滑滤波器（1302）来处理，所述滤波器的参数可以通过深度估计（1304）和前述HVPM图（1303）来确定。不失一般性地，假设“前景”像素的深度为d_f，而前景-背景划分（1217）中使用的阈值为d₀，那么可调谐平滑滤波器可以是具有可变方差参数的高斯滤波器，其用公式表达如下：

G (u, v) = \frac{1}{2 π σ_{f}^{2}} e^{(- \frac{u^{2} + v^{2}}{σ_{f}^{2}})} and σ_{f} = f_{13} (d_{0} - d_{f}) \cdot f_{14} (m_{HVP}) - - - (19)

其中f₁₃(·)和f₁₄(·)为与自变量大致成正比的分段线性或非线性函数，它们分别用于调节对深度和对人类视觉偏好的敏感度。公式（19）中的第二项可以限制平滑运算的强度，因此，它可以避免HVS偏好意义上的过度锐化。一些实施例可以实施具有由深度和HVPM图调节的可变参数的平滑滤波器，例如，其它的低通滤波器、双边滤波器和三边滤波器。

与VEO-IBP相似，图13所示实施例也对滤波后的图像（1305）进行锐度度量（1306）。随后，加权像素相减模块（1307）计算出滤波后的前景像素与原始的前景像素之间的加权差。不失一般性地假设，锐度通过公式（7）所述的局部MAD度量出，那么加权相减可以用公式表达如下：

R(x,y)=w_s(x,y)·(I_F(x,y)-I_s(x,y))andw_s(x,y)=f₁₅(MAD_b), （20）

其中，I_F(x,y)和I_s(x,y)分别为前景像素（1301）和滤波后的像素（1305），而f₁₅(·)为与自变量成反比的分段线性或非线性函数。最后，将公式（15）中的残差R(x,y)再返回到像素相加模块（1308）中与原始前景像素（1301）相加。

图13所示的实施例对前景像素进行了去模糊处理，而对背景像素进行了模糊处理。这样，图像中接近观察者的物体看起来更为清晰，而远离观察者的物体看起来更为模糊，这种效果与人眼对物体的深度感知经验相符合，从而增强了图像的立体感受。应用于去模糊中的HVPM图（1303）以及锐度度量（1306）可以避免在人眼敏感度意义上的过度锐化，因此，去模糊可以创建出具有更好视觉体验的更生动图像（1309）。

上述描述仅介绍了用于实施VEO去模糊的一个实施例。替代实施例可以采用其它类的平滑滤波器，例如，箱式滤波器、双边滤波器、三边滤波器等。在一些实施例中，可以根据像素的边缘或梯度方向对平滑滤波器的形状进行调节，以进一步抑制失真。一些其它实施例可以采用其它类的滤波器来实现对细节可见性进行调节的相同目的。此外，一些实施例可以使用其它的锐度度量方法，例如，梯度剖面锐度、基于小波的或其它空间域和频域方法。

图14示出了由图12和图13所示实施例来实施的“幻像3D”的有效性。在原始图像（1401）中，前景像素（1402）和背景（1403）的锐度因大气消光的原因而稍有不同。使用锐度以及其它线索，可以大致地估计出每个像素的深度。随后，图12和图13所示的实施例通过选择性地对前景像素（1405）进行去模糊处理并对背景像素（1406）进行平滑处理来放大前景区域与背景区域之间的锐度差。因此，增强图像（1404）看起来更像3D场景。

图15所示为VEO去模糊的一个替代实施例，所述VEO去模糊可以用作图12所示实施例中的预处理阶段（1202）。输入图像（1501）首先用可调谐平滑滤波器（1502）来处理，所述滤波器的参数可以通过前述HVPM图（1503）来确定。在一些实施例中，可调谐平滑滤波器可以为具有可变方差参数的高斯滤波器，其用公式表达如下：

G (u, v) = \frac{1}{2 π σ_{f}^{2}} e^{(- \frac{u^{2} + v^{2}}{σ_{f}^{2}})} and σ_{f} = f_{16} (m_{HVP}) - - - (21)

其中m_VPH是HVPM图（1503）中的像素值，而f₁₆(·)为与自变量大致成正比的分段线性或非线性函数，分别用于调节对人类视觉偏好的敏感度。HVPM图（1503）可以限制平滑强度，因此，它可以避免人眼偏好意义上的过度锐化。一些实施例可以实施具有由HVPM图调节的可变参数的平滑滤波器，例如，其它的低通滤波器、双边滤波器和三边滤波器。以下步骤（1505、1506和1507）与图13所示的各实施例相同。

图16所示为所提出技术的一个应用实例。前述实施例可以用作HDTV板（1601）中的一个组件，即，VEO-SR（1611）。HDTV板（1601）的输入可以是来自广播（1602）、有线电视（1603）、卫星广播（1604）和因特网（1605）的信号，所述信号可以在调节器/接收器/接口模块（1606）中进行接收、放大、解调和/或解码。随后，解码器（1607）对音频和HD视频流进行解码并将它们馈送到媒体处理器（1608）中，以进行进一步处理并与其它内容（如，图形和OSD）组合。音频数据（1610）可以用于驱动音频装置，而视频数据（1609）进一步用所提出的VEO-SR模块（1611）进行处理。VEO-SR模块（1611）随后进行为人类视觉偏好进行优化的分辨率转换和增强，并输出4K视频流（1612）到时序控制器/显示驱动器模块（1613）以最终驱动4K电视面板（1614）。在一些实施例中，VEO-SR模块（1611）可以用独立的FPGA或ASIC来实施。在一些其它实施例中，VEO-SR模块（1611）可以与其它组件一起整合到ASCI中，所述组件例如，调节器/接收器/接口模块（1606）、解码器（1607）和媒体处理器（1608）。在一些实施例中，VEO-SR模块（1611）可以用媒体处理器（1608）中的软件组件来实现。可以用各种其它实施例在其它装置中实施所提出的VEO-SR技术，所述装置例如，STB、A/V接收器、媒体播放器或其它软件，以支持视频转码、内容制作、编辑、重分布等应用。

尽管已详细描述本发明及其优点，但应理解，在不脱离所附权利要求书界定的本发明的精神和范围的前提下，可以在本文中作出各种改变、替代和更改。此外，本发明的范围不应限于说明书中描述的过程、机器、制造工艺、物质成分、构件、方法和步骤的特定实施例。所属领域的一般技术人员容易从本发明的揭示内容中了解到，可以根据本发明利用执行与本文本中所描述的对应实施例大体相同的功能或实现与本文本中所描述的对应实施例大体相同的结果的目前存在或稍后将开发的过程、机器、制造、物质成分、构件、方法或步骤。因此，所附权利要求书既定在其范围内包括此类过程、机器、制造工艺、物质成分、构件、方法或步骤。

Claims

1.一种用于从单个或多个低分辨率图像获得视觉体验优化的超分辨率（SR）图像的方法，其特征在于，包括：

为低分辨率图像的每个像素建立人类视觉偏好模型（HVPM）；

将所述低分辨率图像划分为多个相互重叠的样例；

在预先建立的数据库和/或一个或多个输入低分辨率图像中搜索或选择每个样例的相应的对应样例；

对所述重构的高分辨率（HR）图像应用经上述人类视觉偏好模型（HVPM）优化后的反投影迭代，从而创建出高分辨率图像。

2.根据权利要求1所述的方法，其特征在于，进一步包括：在对所述搜索到的对应样例进行融合时，使用所述专门的人类视觉偏好模型（HVPM）和可靠性度量。

3.根据权利要求1所述的方法，其特征在于，进一步包括根据深度图以及所述专门的人类视觉偏好模型（HVPM）选择性地对所述高分辨率图像进行平滑和去模糊处理。

4.根据权利要求1所述的方法，其特征在于，创建人类视觉偏好模型（HVPM）包括：

使用所述低分辨率图像的亮度适应以及局部对比度，计算出所述低分辨率图像的传统最小可觉失真（JND）模型；

使用结构张量、角点、局部方差和形态学特征，计算所述低分辨率图像每个像素上的规整性度量；

通过将所述传统最小可觉失真（JND）模型与所述规整性度量结合起来，计算出所述低分辨率图像的每个像素上的人类视觉偏好度量。

5.根据权利要求1所述的方法，其特征在于，经所述专门的人类视觉偏好模型（HVPM）优化的所述反投影迭代包括：

使用经所述专门创建的人类视觉偏好模型调节的平滑滤波器来对所述重构的HR图像进行平滑处理；

对平滑后的图像进行下采样使其尺寸与所述低分辨率图像的尺寸相同；

将所述低分辨率图像减去所述平滑及下采样后的图像，并获得残差图像；

通过将每个像素乘以其对应残差权值而对所述残差图像进行校正；

对校正后的残差图像进行上采样；

将上采样后的残差图像与所述重构的高分辨率（HR）图像相加；

以预定的次数重复上述步骤。

6.根据权利要求5所述的方法，其特征在于，残差权值的计算方式为：

分别计算低分辨率图像和所述下采样后的图像中各个像素的所述锐度度量；

根据所述下采样后的图像的锐度与低分辨率图像的锐度之间的差值来计算出第一个权值；

根据所述下采样后的图像的锐度计算出第二个权值；

将所述第一个权值与所述第二个权值组合起来。

7.根据权利要求2所述的方法，其特征在于，在对所述搜索到的对应样例进行融合时，使用所述人类视觉偏好模型（HVPM）和所述可靠性度量包括：

为帧间搜索得到的各个对应样例，计算相应的多帧样例权值；

使用所述多帧样例权值，将上述帧间搜索得到的对应样例中的各个像素加权相加，从而创建出多帧重构图像；

为帧内搜索和/或在预先建立的数据库中搜索到的各个对应样例，计算相应的单帧样例权值；

使用所述单帧样例权值，将上述帧内搜索和/或在预先建立的数据库中搜索到的各个对应样例中的各个像素加权相加，从而创建出单帧重构图像；

将所述多帧重构图像与所述单帧重构图像加权相加，其权值由这两个图像中的对应像素的所述锐度度量确定。

8.根据权利要求7所述的方法，其特征在于，计算所述对应样例的所述多帧样例权值包括：针对所述对应样例中的每个像素，将所述人类视觉偏好模型（HVPM）、运动矢量的连续性度量、运动矢量的长度以及样例相似度组合起来。

9.根据权利要求7所述的方法，其特征在于，计算所述对应样例的所述单帧样例权值包括：针对所述对应样例中的每个像素，将所述人类视觉偏好模型（HVPM）、所述样例相似度以及像素间相似度组合起来。

10.根据权利要求3所述的方法，其特征在于，根据深度图以及所述专门的人类视觉偏好模型（HVPM）选择性地对所述高分辨率图像进行平滑和去模糊处理包括：

根据像素的局部特征估计各个像素的深度；

对于深度大于阈值的像素，使用可调谐平滑滤波器进行滤波，其中所述滤波器的参数由所述像素的深度确定；

对于深度小于阈值的像素，使用可调谐去模糊运算，其中去模糊强度由所述像素的深度确定；

将平滑后的像素与去模糊的像素组合起来。

11.根据权利要求10所述的方法，其特征在于，所述可调谐去模糊运算包括：

使用滤波器对所述输入图像进行平滑处理，其中所述滤波器的参数由所述人类视觉偏好模型（HVPM）和/或所述像素的深度确定；

将所述输入图像减去所述平滑后的图像，并获得所述残差图像；

通过将每个像素乘以某个权值来对所述残差图像进行校正，所述权值由所述输入图像中的所述像素周围的所述锐度度量确定；

将所述残差图像与所述输入图像相加；

以预定的次数重复上述步骤。

12.一种用于从单个或多个低分辨率图像获得视觉体验优化的超分辨率（SR）图像的系统，其特征在于，包括：

用于为低分辨率图像的每个像素建立人类视觉偏好模型（HVPM）的装置；

用于在预先建立的数据库和/或一个或多个输入低分辨率图像中搜索或选择每个样例的相应的对应样例的装置；

用于对所述重构的高分辨率（HR）图像应用经专门的人类视觉偏好模型（HVPM）优化后的反投影迭代，从而创建出高分辨率图像的装置。