CN110300977A

CN110300977A - 用于图像处理和视频压缩的方法

Info

Publication number: CN110300977A
Application number: CN201880012659.5A
Authority: CN
Inventors: C·E·里金德斯
Original assignee: COGISEN Srl
Current assignee: Intel Corp
Priority date: 2017-02-17
Filing date: 2018-02-19
Publication date: 2019-10-01
Anticipated expiration: 2038-02-19
Also published as: IL268214B; JP2020508010A; EP3364342A1; CN110300977B; IL268214A; WO2018150024A1; KR20190117651A; US20180240221A1; EP3583547A1; US10586312B2; KR102535098B1

Abstract

一种用于通过图像处理和对象检测的视频压缩的方法，所述方法由电子处理单元基于图像或数字视频图像流来执行，所述图像由所述视频流的单个帧或帧序列来定义，目的是增强并接着隔离表示要标识的内容的频域信号，并相对于所述图像或所述视频流内的所述内容减少或忽略频域噪声，包括以下步骤：从所述视频流的对应单个帧或对应帧序列获得数字图像或数字图像序列，所有的数字图像在空间域中被定义；选择一对或多对稀疏区域，每对稀疏区域覆盖所述单个帧的至少一部分或所述帧序列的至少两个帧，每对稀疏区域生成所选择的特征，每个区域由两个空间数据序列定义；通过以下方式将所选择的特征变换成频域数据：对于每个区域，通过L变换的2D变型来组合所述两个空间数据序列，改变每个区域的频域数据的传递函数、形状和方向，因而为所述所选择的特征的每一者生成经标准化的复向量；组合所有所述经标准化的复向量以定义要标识的内容的模型；以及将来自所述所选择的特征的该模型输入分类器中，因此获得用于对象检测或视觉显著性的数据以供视频压缩使用。

Description

用于图像处理和视频压缩的方法

说明书

发明背景

1.发明领域

本公开涉及一种用于图像处理和生成用于内容检测的数据以改进视频压缩的方法，该方法旨在被构建在提供有用于数字化图像的合适装置的任何类型的设备中，可能是常见设备。该方法对于创建在数字视频流(但不限于数字视频流)中使用的时间模型特别有用。

内容意指感兴趣要去检测的任何对象。然后，内容的概念不仅限于对象(即通过图像可见的物理项目)，而且还包括按论点或种类选择的对象族，例如表达暴力、展示裸露、显示体育活动、人群中的面部、标识车辆以及按种类或大小选择它们、为自动驾驶车辆系统辨别行人、骑车人和交通信号、识别地点或风景的图像，等等。在本发明中尤其可以涉及包括检测特定内容的步骤的任何领域。

常见设备意指易于商业上可获得的电子设备，如智能电话、平板、膝上型设备或具有合适的数字摄像机的任何便携式或手持式设备。另一方面，该设备可以由一个或多个相机表示，可能被组织成网络，被要么链接到计算机要么链接到服务器以进行图像计算。此外，可以在离线过程中通过在硬件中运行的软件来对通过合适硬件(包括存储存储器、RAM存储器和至少微处理器)存储的数字图像或视频简单地实现该视频压缩方法。

本公开还涉及一种用于操作至少提供有产生视频流或一系列数字图像的数字相机的设备或系统的方法，以通过该设备或系统的相机和处理器两者结合存储在可由所操作的设备或系统访问的存储器设备中的至少一个视频编解码器来获得视频压缩中的改进。

该方法中的公开涉及稀疏地且因此非常迅速地将图像数据转换到频域中。其允许用于视频压缩方法的新数据输入类型，这些视频压缩方法使用图像处理和内容检测来获得更多视频压缩。而且，该方法允许用于所述转换成频域数据的多个调谐参数，从而允许根据所选择的图像处理或内容检测方法的特性选择的优化以改善视频压缩。

此外，该方法适用于以与给定比特率的视频流的主观质量相关的方式使用所述频域数据。这意味着使用该方法生成的频域数据可被用来避免数据中将导致图像中的压缩伪像的特性。该方法因而在压缩时允许针对给定比特率的更好的主观视频质量。

在该方法中公开的频域计算的实现之一中，视觉显著性图可以被创建并且以其改变压缩的方式与视频编解码器集成。这种显著性图的输入要么是当前视频帧(用于帧内静态显著性)，要么是帧之间的差异(用于帧间运动显著性)。

根据视觉显著性将显著性图的输出发送到视频编码器的量化块，以影响被分配给图像的每个部分的信息量。许多编解码器提供了一种影响压缩和质量之间权衡的方法。例如，对于流行的编解码器H264，这种权衡被称为“速率失真”。速率-失真允许由编码器做出的各种决策的结果受到针对质量增益所花费的比特方面的影响。编码器基于速率-失真曲线评估决策。控制速率-失真曲线的值通常被称为Lambda(λ)。

编码器通常自动地改变lambda，以找到质量与比特率的折衷。使用此方法创建的显著性图针对每个宏块独立地调制编解码器的Lambda。编码的输出是完全符合编解码器标准的视频比特流。使用该方法的频域数据，压缩编解码器可因而被指令来对可能产生伪像的这些区域执行较少的压缩，从而针对给定比特率给出较高的主观视频质量。

2.现有技术的描述

2.1用于视频压缩的图像处理和对象检测

图像处理中的对象检测技术正在各种上下文中广泛应用。作为示例并且没有限制的目的，此类算法被用在社交网络上的人脸标记技术、用于识别手势的软件、用于检测行人、骑车人和车辆的汽车软件、用于识别身体移动的软件、用于增强现实和具有3D效果的屏幕的人脸情绪检测技术、用于增强现实的对象识别、使用头部取向或眼睛取向跟踪的界面、用于安全系统的对象跟踪技术以及最终注视跟踪技术和还有各种视频压缩技术中。

已知文献涉及将这些技术用于视频压缩的目的，特别是作为处理视频流内的内容和视觉信息以提高当前视频压缩编解码器的有效性的附加计算。

存在所有这些对象检测和图像处理技术迁移到下一代交互式接口和操作系统的清晰的未来趋势。例如，可在其上表示此类技术的设备不仅是智能电话、平板、可穿戴硬件(诸如交互式眼镜或虚拟现实接口)，而且还有未来家庭、办公室或公共场所中的任何种类的交互式对象。这些设备可被提供用于特殊用途，诸如交互式电视或智能家居，并且它们还可被用在汽车安全系统、医疗保健、广告、安全相机网络、物联网，以及许多其他可能的用途中。

这种技术基本上可以被集成到任何设备或网络连接设备中，其中可重编程硬件被使用并且其中摄像机输入可被添加。

向设备添加额外的硬件，纯粹是为了帮助对象检测和图像处理算法的运行，意味着更高的成本和额外的电池消耗。然后，创建微型硬件需要额外的研发成本，目前最先进的硬件通常仍然过大而无法被集成到大部分消费者电子设备中。

除了硬件成本之外，在很大程度上阻碍在例如移动硬件平台上大规模使用这种视频压缩技术的原因在于，所需的对象检测和图像处理计算过慢以至于无法跟上相机的帧率，或者在这么做时使用过多的可用处理能力。

因此，在下一代操作系统和设备上的实现在大规模体量上变得可行之前，这种视频压缩技术首先将需要能够比当前现有技术快得多地处理图像的纯软件解决方案。

这种向纯软件解决方案的迁移也得益于连续的相机技术改进，这些技术带来越来越高的帧率、更好的运动处理、更有效的色彩高亮显示、更敏锐地适应对比度、更灵活地适应光线变化以及越来越高的屏幕分辨率。这种趋势将进一步提高用于对象检测的纯软件解决方案的有效性。

对象检测使用尽可能少的处理能力的必要性旨在节省电池寿命以及针对实时使用的需要这两者。在实时运行时，对象检测算法还需要在后台运行，而不限制在前台运行的主进程。

此外，应该注意，随着输入图像大小的增加，所需的计算量可能呈指数增长。视频帧率的上升也意味着对图像处理算法而言在下一个视频输入帧到达之前完成计算的时间更短。

因此，愈发得高的视频帧率和不断增长的输入图像质量的副作用在于，当前的现有技术图像处理和对象检测算法将愈发需要对输入图像进行下采样，以返回到可接受的处理速度，因而失去较高质量输入图像中的大部分额外信息。

这种下采样由此否定了在输入中具有这种高清晰度图像的大部分优点。

使这些针对对象检测的挑战加剧的事实在于，存在愈发仅在视频流的时间数据中可见的需要被捕捉的内容。各示例是暴力的检测、行人意图的检测、对安全相机的实况馈送上的可疑行为的检测，等等。这意味着视频流的两个或更多个图像帧需要在单个模型中交叉引用。目前的方法主要基于对静态图像的训练。换言之，视频被处理为一系列静态图像，而不是真正处理时间数据。增加的复杂度和处理开销在必须交叉引用多个帧以处理单个分类模型时将是清楚的。

当创建待用来调制视频编解码器的压缩的显著性模型时，这种时间数据特别重要，这意味着所描述的方法对于这种视频压缩实现非常有效。

依靠继续提高处理能力以减少给定算法对处理能力的相对使用也不是有效的，因为应用(例如具有交互式视频的游戏)会缩放以使用最大的处理能力，因此总是给算法(诸如要在后台运行的对象检测)留出最小的量。

鉴于上述情况，在对象识别和图像处理技术的计算机视觉文献中公开了利用其来改进视频压缩的许多方法。

2.2视频压缩

数字视频按其原始形式的存储和传输是非常昂贵的-模拟电视视频序列一旦被数字化，则每秒可消耗高达165兆比特。为了规避这个问题，已导出一系列视频压缩技术以减少表示数字视频数据所需的比特数，同时保持可接受的保真度或视频质量。视频压缩方法减少所需比特的能力由“压缩比”量化，“压缩比”是原始视频的大小与经压缩视频的大小的比率。这些方法通常使用图像处理和/或对象检测来提高压缩比。

视频可被视为按顺序显示的一系列图像。这些图像中的每一者都被称为帧。视频信号在若干重要特性上与图像信号有所不同。最重要的区别在于，视频信号具有从15到60帧/秒之间的任意位置的相机帧率，这提供了在所显示的信号中的平滑运动的错觉。在图像和视频压缩之间的另一区别是利用空间冗余(帧内)以及时间冗余(帧间)的能力。

帧内编码指的是相对于仅被包含在当前帧内的信息执行压缩，而非相对于视频序列中的任何其他帧执行压缩的事实。换言之，在当前图片或帧之外不执行时间处理。这种帧内编码非常类似于JPEG静止图像视频编码器，仅具有轻微的实现细节差异。

帧间编码指的是通常每秒在屏幕上显示30帧的事实。将有大量信息在连贯帧中重复，因此帧间压缩试图利用相邻帧之间的时间冗余，因而允许实现更高的压缩比。如果树被显示达一秒钟，则30帧被用于这棵树，于是可以通过基于先前帧定义各帧来压缩该重复信息(图1)。

时间冗余的示例是“运动补偿”，其建立视频序列中图像元素之间的对应关系。运动补偿利用了以下事实：视频序列中的对象倾向于以可预测的模式移动，并且可因此被编码为逐帧移动的单个对象，而非图像的序列。

帧间和帧内编码两者可以是“无损”或“有损”的。人类无法注意到各帧中的细小变化(如颜色的微小差异)，因此视频压缩标准不会对视频中的所有细节进行编码；一些细节实际上已被丢失。这被称为有损压缩。在无损压缩中，原始数据可以被完美地重构。当有损压缩被使用时，可以获得非常高的压缩比。

2.3块编码

所有最流行的视频编解码器都将图像拆分成“块”，其可以在帧内以及在帧间进行压缩。最简单的“块”算法将视频帧划分成被称为“宏块”的均等大小的块(图2)。

取代直接编码每个块的原始像素值，编码器将尝试找到类似于其在先前经编码的帧(被称为“参考帧”)上编码了的块的块。该搜索过程由块匹配算法完成。

更复杂的块算法基于信息内容的测量和帧间变化来使用不均匀的块大小。这些块通常通过将现有块划分成更小的块来做出(图3)。

2.4可变块压缩

通过应用不同的压缩因子来相比一些块更多地压缩其他块是可能的。压缩的差异可以基于若干不同的因素，例如算法可以决定锐利边缘应该被压缩得更少，以避免压缩伪像(图4)。

2.5显著性(saliency)

显著性意指由于所呈现的视觉信息的量和类型，更多地关注场景的一个方面而非另一方面。通过使有机体将其有限的感知和认知资源集中在可用的感官数据的最相关子集上，显著性被认为是促进学习和生存的关键注意机制。

视频通常包含观察者更多地关注的主题，以及图像的被较少地关注的其他部分。人最关注的图像部分将在很大程度上影响感知到的质量，因此可能被略微地压缩，而图像中被较少地关注的部分可能被更大程度地压缩而不会影响感知到的图像质量(图5)。

通常使用的一种显著性方法是用于分割出显著对象的图像分析。该方法采用诸如边缘检测或对比度等图像属性来近似地预测图像的哪些部分将是显著的。出于性能原因，显著性算法通常使用简单模型，诸如边缘检测。

另一种预测显著性的方法是预测稀疏眼睛固定。人类基于大脑中的注意力机制选择重要的视觉信息。鉴于这种动机，早期关于显著性检测的工作更多地集中在预测由眼球跟踪器检测到的稀疏人眼注视点上。相应地，该轨道上的大部分研究都是基于生物学启发的算法，这些算法试图模仿人类注意力机制的动力学。大部分传统的对象检测器需要训练以便检测特定对象类别，但是人类视觉可以在聚集的视觉场景中迅速聚焦于一般的显著对象而无需训练，这是因为视觉注意力机制的存在，其允许人类视觉良好地处理一般对象检测。

2.6分割

分割是将图像分解成区域或对象的动作。分割可被用来确保感兴趣的对象不被过度压缩(图6)。

分割的一个问题在于，感兴趣的对象可以通过分割而被划分成各部分，从而导致压缩中的明显差异(图7)。

“主动视觉分割”接着使用显著性图来确定潜在的片段区域是否包含固定点(Mishra等人[1])，因此分割可以被调整以避免对象内的联结处。

这一含义在于，应该在分割过程开始之前标识感兴趣的对象。

2.7自底向上的显著性

可以通过在图像像素中寻找特定模式的算法来导出显著性。这被称为“自底向上”的显著性，因为其纯粹从信息中的模式导出注意力预测。自底向上的视觉显著性可以使用与所有其他像素的像素级对比度、与平均图像颜色的颜色差异来被导出。包括Bruce和Tsotsos[2]和Zhang等人[13]在内的一些研究人员尝试过基于信息理论来定义视觉显著性。其他一些人已进一步使用图形切割算法来细化其显著性图的边界，并且针对显著对象轮廓且跨多个尺度进行计算(例如Ma和Zhang[3])。尽管一些方法以局部方式定义视觉显著性，但是一些其他方法基于图像区域在整个场景上的全局稀有性。

一些模型通过采用从固定位置处的图像区域习得的运动、闪烁、光流、或兴趣点来致力于时空域中的显著性检测。最近出现了一种称为主动视觉分割的新趋势，其意图是分割包含固定点的区域(Mishra等人[1])。它们的框架以线索独立的方式将单眼线索(颜色/强度/纹理)与立体声和/或运动相组合。

一些编解码器使用眼生理学和神经科学模型来预测哪些区域更可能吸引人类注意力并被注视。根据人类视觉选择性注意力模型，计算注意力模型已被做出，其处理诸如取向、强度、运动等低等级特征，并且随后通过这些特征的非线性生物学启发组合，显著性图可被生成。例如，靠近在一起的显著对象可能比其间具有更多空间的相同的显著对象吸引相对更多的注意力。

大部分自底向上的显著性模型落在以下七个一般类别之一中：

认知模型：基于显著性的模型的开发在Itti等人(1998)[4]实现Koch和Ullman(1985)[5]的计算架构之后升级。认知模型是逼近可应用于任何数字图像的显著性计算的算法的首例。在这些模型中，输入图像被分解成在多个空间尺度处对基本视觉属性(例如，亮度或颜色对比度、运动能量)有选择性的特征图。特征图跨特征和尺度被组合以形成主显著性图。该理论的一重要元素是中心环绕算子的概念，它将显著性定义为图像区域与其周围环境相比的独特性。几乎所有显著性模型都直接或间接地受到视觉注意力的认知概念(例如：Le Meur等人(2006)；Marat等人(2009)[6])的启发。

信息理论模型：从生物可信的实现中退回来，这一类别中的模型基于这样的前提：局部化显著性计算首先用于引导对最具信息性的图像区域的关注。这些模型因而向具有罕见(低概率)特征的场景区域分配更高的显著性。尽管理论上使用任何特征空间都是可行的，但这些模型(受视觉皮层中的高效编码的启发)通常利用从自然场景中习得的基函数的稀疏集。这一类别中的示例模型是AIM(Bruce和Tsotsos，2005[8])、稀有性(Mancas，2007[9])、LG(局部+全局图像分块稀有性)(Borji和Itti，2012[10])，以及增量编码长度模型(Hou和Zhang，2008[11])。

图形模型：图形模型是广义贝叶斯模型，其已被采用以在空间和时间上对复杂注意力机制进行建模。Torralba(2003)[12]提出了一种用于对视觉搜索上的上下文效应进行建模的贝叶斯办法，其后来在用于自由查看中的固定预测的SUN模型中被采纳。Itti和Baldi(2005)[13]将令人惊讶的刺激定义为显著地改变观察者信念的刺激。Harel等人(2007)[14]在完全连通图中传播了特征的相似性，以构建显著性图。Avraham和Lindenbaum(2010)[15]、Jia Li等人(2010)[16]以及Tavakoli等人(2011)[17]也已利用贝叶斯概念进行显著性建模。

决策理论模型：这一解释提出了注意力在任务方面被最佳地驱动。Gao和Vasconcelos(2004)[18]认为，对于对象的识别，显著的特征是最能将一类感兴趣对象与所有其他类区分开来的特征。给定一些特征集，每一特征集具有位置和所指派的类标签(例如，背景或感兴趣的对象)，显著性接着是互信息的测量(通常是KullbackLeibler散度)。除了在预测眼睛固定方面具有良好的准确度之外，这些模型也已在计算机视觉应用(例如，异常检测和对象跟踪)中取得了成功。

频谱分析模型：取代在空间域中对图像进行处理，这些模型在频域中计算显著性。Hou和Zhang(2007)[19]通过计算图像的傅立叶变换、保留相位信息同时丢弃大部分幅度谱(以聚焦于图像不连续性)，以及采用逆傅立叶变换获得最终显著性图来导出图像的显著性。

模式分类模型：这一类别中的模型使用机器学习技术来学习从图像特征到眼睛固定的刺激到显著性映射。它们将显著性估计为特征向量，该特征向量可以是一位置与其周围邻域相比的对比度。Kienzle等人(2007)[20]、Peters和Itti(2007)[21]，以及Judd等人(2009)[22]分别使用了图像分块、场景要点、和每个像素处的若干特征的向量，并且使用了模式分类器以接着从特征中学习显著性。Tavakoli等人(2011)[17]使用稀疏采样和核密度估计来估计贝叶斯框架中的上述概率。需要注意，这些模型中的一些可能并非纯粹自底向上的，因为它们使用引导自顶向下注意力的特征，例如面部或文本(Judd等人，2009[22]；Cerf等人，2008[23])。

其他模型：存在不易融入这一分类的其他模型。例如，Seo和Milanfar(2009)[24]提出了用于显著性检测的局部图像结构的自相似性。神经响应去相关的想法被用于自适应白化显著性(AWS)模型中的标准化方案(Garcia-Diaz等人，2009[25])。Kootstra等人(2008)[26]开发了用于测量显著性的对称算子，而Goferman等人(2010)[27]提出了一种上下文知悉式显著性检测模型，其成功应用于重新定位和汇总。

自底向上显著性的问题在于，感知敏感性可能不一定能解释人们的注意力，因为人们在不同的境况中寻找不同事物。解决这一问题需要对人们在查看图像或视频时正寻求达成的事物有一些“自顶向下”的理解。

2.8自顶向下的显著性

从人类意图的知识中“自顶向下”地导出显著性也是可能的。基于对象的注意力理论提出了人类关注于对象和高级概念。相比其他对象，人们更容易被某些类型的对象所吸引-例如，相比其他对象类型，人们被吸引来更多地着眼于场景中的面部。受这些认知发现的启发，一些模型(例如，Judd等人[22])已使用对象检测器(诸如面部、人类、动物和文本)来检测显著位置。

致力于自顶向下的、对注意力的依赖于任务的影响的模型是复杂的，因为目标和任务的某些表示是必要的。另外，自顶向下模型通常涉及一定程度的认知推理，不仅要关注，而且还要识别对象及它们的上下文。

自顶向下模型的典型步骤是：

解释任务定义：通过评估已知实体(在长期符号存储器中)与手头任务的相关性，并将少数最相关的实体存储到符号工作存储器中。例如，如果任务是去驾驶，请警惕交通标志、行人和其他车辆。

事先准备视觉分析：给定一组所需实体以及对“要点”的迅速分析和环境的粗略布局，通过事先准备已被习得为通常相关的空间位置，以及通过事先准备正被寻找的最相关的实体的视觉特征(例如，颜色、大小)(Wolfe，1994[28])。

关注并识别：最显著的位置，给定事先准备和偏置在前一步骤处完成。使用实体之间相互关系的长期知识，评估所识别的实体如何与工作存储器中的相关实体相关。

更新：基于所识别的实体的相关性，决定是否应将其丢弃为无兴趣的或保留在工作存储器中(可能在工作存储器中创建相关联的摘要“对象文件”(Kahneman等人1992[29]))作为用于行动计划的感兴趣的潜在对象和位置。

迭代：该过程直到已收集到足够的信息，以便允许针对行动的有信心的决定。

行动：基于当前对视觉环境和高级目标的理解。

自顶向下显著性的问题在于，更复杂的自顶向下视觉注意力模型取决于对象识别中的进展，这对于推断下一个要寻找的对象是必要的。

所描述的方法的另一个问题在于，显著性不仅仅是关于视频帧中显著的内容，还关于由于压缩伪像而变得显著的内容。视频的压缩可导致伪像，诸如振铃(ringing)、轮廓加工(contouring)、后加工(posturizing)、沿着弯曲边缘的混叠和宏块边界伪像。很大程度地压缩图像会产生伪像失真，其可导致图像中先前不显著的部分变得显著。例如，平滑纹理区域当在非常大的程度上被量化时变为块状。显著的伪像对于平滑的渐变和具有规则运动的对象(这些通常属于场景中不一定引起人们注意的背景)而言尤其成问题。但是，如果不加以注意，这些类型的区域在感知上是高度敏感的。背景通常由于其不显著而在很大程度上被压缩，所以致使查看者着眼于背景的任何伪像都会使他们意识到其质量有多低。

2.9运动/时空显著性

虽然在每个视频帧内存在相当多的冗余，但是最大量的冗余出现在各视频帧之间，因为通常图像的80％从一帧到下一帧是未改变的。各帧之间也存在显著性，因为人们更关注于移动的对象。没有移动的宏块比那些有移动的宏块更不显著，因此它们可以被压缩得更多而质量上没有明显降级(图8)。

运动的显著性被称为“时空显著性”，并且其不仅仅是运动或者缺乏运动。不同类型的运动吸引或多或少的注意力。例如，海面上轻柔的波浪所吸引的注意力不如朝相机扔过去的板砖。同样，运动显著性不仅仅是显著性的时间导数。在移动中引起人们注意的事物可能与静态空间中的事物非常不同。例如，同样的板砖在静止时可能是无趣的。一种复杂的显著性测量将使用运动显著性的人类感知模型来产生显著性图。运动和静止显著性将接着被组合以产生整体显著性图。

相比空间显著性，时空显著性在较少程度上被研究，并且似乎存在两种主要的研究途径：

认知模型：人类时空显著性上的人类基础模型。这些方法扩展了具有附加时间轴的单场景显著性模型，以寻找随时间变化的视觉模式(例如Mahadevan和Vasconcelos[30]，Muddamsetty、Sidib′e、Tr′emeau和Meriaudeau 2014[31])；

频谱分析模型：通过扩展相位数据的频域使用，Bian和Zhang(2009)[32]以及Guo和Zhang(2010)[33]提出了谱域中的时空模型。

来自相机传感器的“颗粒(grain)”噪声(特别是在低光下)或来自编解码器的压缩噪声使得时空显著性变得困难。在高噪声环境中，各帧之间的大部分移动都是像素噪声，因此时空显著性算法需要善于抑制噪声并识别真正显著的运动。

2.10基于显著性的视频压缩

显著性计算可被用来提高视频编解码器的压缩比。如果显著性可以几乎不利用附加的处理器开销来被高效地计算，则其可以在具有有限处理能力(例如，移动设备)或时间约束(例如，实况视频)的情景中被使用。快速计算显著性对于实况视频的压缩尤为关键，因为许多其他形式的压缩对于实况计算而言过慢，所以视频中存在显著性可以移除的甚至多得多的冗余。

空间域中的显著性计算通常涉及实质性处理。多次计算对整个图像进行若干次处理，以容适不同的现象和尺度。

显著性图通常由空间域中的多个现象构成。例如，Zhicheng Li、Shiyin Qin、Laurent Itti[34]的显著性模型分析了12个低等级特征通道以产生多尺度特征图，其使用经模拟的中心环绕神经元检测潜在有趣的局部空间不连续性。这十二个特征通道被用来模拟对以下内容敏感的神经特征：

1.红/绿色对比度

2.蓝/黄色对比度

3.时间强度闪烁

4.强度对比度

5. 0°取向

6. 45°取向

7. 90°取向

8. 135°取向

9.向上运动能量

10.向下运动能量

11.向左运动能量

12.向右运动能量

这些特征接着在多个尺度处被比较。中心环绕尺度是从具有9个尺度(从尺度0(原始图像)到尺度8(图像在水平和垂直两个维度中由因子减少到2⁸＝256))的二元金字塔获得的。对于12个特征中的每一者，六个中心环绕差异图接着被计算作为跨金字塔尺度的点对点差异，从而产生总共72个特征图。每个特征图被附加地赋予内部动力学，其针对活动提供强空间的特征内和尺度内竞争，之后是特征内、跨尺度竞争。所有特征图最终都对独特的标量显著性图有贡献。该方法的复杂度表明了在空间域中计算显著性的难度。

研究人员(例如Bruce和Tsotsos[2])已使用其他基于局部像素的显著性计算方法来基于信息理论或使用图形切割或抓取算法定义视觉显著性以细化其显著性图的边界并计算显著对象轮廓。这些方法也是不准确和/或计算密集的，并且它们不是通用的，它们的准确度取决于参数的选择。

代替以局部方式计算视觉显著性，一些其他空间显著性计算基于图像区域在整个场景上的全局稀有性。基于对象的注意力理论提出了人类关注于对象和高级概念。受这些认知发现的启发，一些模型(例如，Judd等人[22])已使用对象检测器(诸如面部、人类、动物和文本)来检测显著位置。一些模型通过采用从固定位置处的图像区域习得的运动、闪烁、光流、或兴趣点来致力于时空域中的显著性检测。这些全局搜索方法各自致力于单个现象，因此通用显著性算法将需要在许多产品销售中组合许多这样的搜索算法，从而有效地创建与其他显著性计算所遭受的相同繁重的计算负荷。

2.11视频压缩的基于频域的显著性

频域已被用于计算视频图像的视觉显著性，因为人类视觉被可以在频域中被更简洁地描述的某些模式所吸引。

图像的频域表示也可以比空间域更容易搜索。频域中的每个点都连接到空间域中的每个点，因此可以通过检查频域中的单个位置来找到图像中任何位置的已知形状或图案(图9)。

使用场景的频域表示的困难在于，转换至频域已通常是计算密集型的。傅立叶表明，时域中的任何信号都可以在频域中被表示为具有各种幅度、频率和相位的正弦波之和(图10)。

随着更多正弦波被组合，这些正弦波的求和变成时域信号的越来越准确的表示。对于大部分时域信号，完美表示所需的正弦波的数量是无限长的，因此时域信号的频域表示是正弦波的无限序列。

在实践中，无限的波是不可用的，因此通过将频率波的连续序列采样成在频域中等间隔的离散数目的步长来做出近似，这被称为离散傅立叶变换。在大部分现代装备中，通常使用快速傅立叶变换(FFT)来执行到频域的转换，FFT通过将离散傅立叶变换矩阵分解成稀疏(通常是零)因子的乘积来迅速计算频域变换。快速傅立叶变换仍然是计算密集型的，因为每个步骤都对在先的残差进行操作，因此必须计算整个矩阵以便找到感兴趣的区域。然而，没有已知带有更低复杂度的算法。计算整个FFT的需要意味着虽然显著性的频域表示可能是简单的，但所需的计算对于实时计算而言仍然过于繁重。

对于大部分图像压缩目的，离散余弦变换(DCT)被使用以代替FFT。离散傅立叶变换(DFT)和离散余弦变换(DCT)之间的区别在于，离散余弦变换仅使用余弦函数，而离散傅立叶变换使用余弦和正弦两者。仅使用余弦意味着DCT仅产生实数，因为所有波具有相同的相位，而傅立叶变换产生包含相位和幅度的复数。DCT通常被用于压缩，因为它具有强大的“能量压缩”属性：在典型应用中，大部分信号信息趋向于集中在DCT的一些低频分量中，并且小的高频分量可以被丢弃(图11)。

若干团队已探索了图像中的频域显著性算法：

在2007年，Hou和Zhang[35]使用图像中的频谱分量来检测视觉显著性。自底向上的显著性被从对比度差异中提取，对比度差异可以从幅度或相位获得。Hou通过幅度谱残差(SR)设计了一种简单且快速的显著性检测办法。在这种方法中，Hou假设图像信息由两部分组成：创新和先验知识。幅度谱中的统计奇点可能负责图像中显著对象弹出的异常区域的原因。在他们的方法中，场景的要点用平均傅立叶包络表示，并且微分频谱分量被用来提取显著区域。他们使用频谱残差办法来从频域计算显著性。他们发现图像的对数幅度谱的频谱残差表示其“创新”水平。通过使用频谱残差的指数而不是原始幅度谱，并且保持相位谱，执行逆傅立叶变换产生了显著性图。该算法执行得明显快于类似的空间域显著性方法。

在2012年，Schauerte和Stiefelhagen[36]调查了基于四元数的频谱显著性检测以用于眼睛固定预测。

在2013年，Li、Levine、An和He[37]研究了对空间和频域显著性预测进行组合的方式。

2015年，Li、Duan、Chen、Huang和Tian[38]研究了来自中频相位的视觉显著性。他们从基于模板的对比度计算的角度重新解释离散傅立叶变换的概念，并且在通过无监督和监督学习获得的先验知识的帮助下设计显著性检测器。

除了对图像中的频域算法的研究之外，关于基于频域的运动显著性还有一系列简短而明确的论文：

在2008年，Guo、Ma和Zhang[39]使用傅立叶变换的相位谱来计算时空(运动)显著性，并且发现相位比其他频域方法(诸如频谱残差)更成功，并且具有更少的计算开销。Guo认为相位谱是视觉显著性的关键因素，而显著区域通常是由相位的突然变化造成的。由于无论幅度谱值如何都可以通过极坐标傅立叶变换计算显著图，因此减少了计算工作量。他们计算了2D图像的极坐标傅立叶变换，并通过将每个像素表示为由强度、颜色和运动组成的四元数来将其进一步扩展到四元数傅立叶变换。所添加的“运动”维度允许相位谱适用于视频以及图像。

在2010年，Guo和Zhang[40]使他们的计算时空显著性的极坐标傅立叶变换方法致力于多分辨率，并将其应用于图像和视频压缩中的应用。四元数傅立叶变换模型的相位谱可以计算从粗到细的各种分辨率下图像的显著性图，因此基于该模型的“分层选择性框架”被引入来构造图像的树结构表示。在分层选择性的帮助下，提出了一种称为多分辨率小波域凹形的模型，以改善图像和视频压缩中的编码效率和显著性计算时间。

在2013年，Li、Xue、Zheng、Lan和Tian[41]通过将相位和幅度数据两者包括在内以经由“超复数频谱对比度”计算时空显著性感知来使四元数傅里叶变换的概念更进一步。修改Guo和Zhang的方法的关键原因之一是发现单独的相位谱不足以计算视觉显著性。频域变换和逆变换实现需要共同信息的相位和幅度。幅度信息说明突变的能量谱，而相位信息说明图像中的纹理变化。基于幅度谱，显著性检测方法具有显著对象预定位能力，但对象的完整性较差。基于相位谱的方法对显著对象的边界敏感。过分强调仅幅度或相位会产生不良结果，两者都需要被考虑。

他们的方法具有以下步骤：

·将图像转换为HSV(色调、饱和度和值或亮度)色彩空间，与人类感知更自然地对应的是该色彩空间，并且捕捉现实世界遮蔽对象所固有的一些3D结构；

·然后在三级金字塔上通过2D高斯模糊HSV图像以消除精细纹理细节，以及平均图像的能量，以通过HSV色彩空间中的纯四元数(超复数)来表示图像像素；

·计算超复数傅立叶频谱，其包含图像在不同尺度中的幅度和相位信息；

·计算原始图像和经模糊图像之间的频谱对比度，接着使用原始图像的各种尺度下的幅度谱和相位谱重构这些对比度图；

·归一化经重构的频谱对比度图并使用对数极坐标非均匀采样来获得最终的显著性图；

他们接着对其执行四元数傅立叶变换。

2.12基于显著性的视频压缩

一旦感兴趣的区域被提取，许多策略就已被提出来调制感兴趣和不感兴趣区域的视频压缩和编码质量。

2.13模糊

一种直截了当的办法是通过根据显著性图使其模糊来减少输入帧中的信息。只有图像的受关注的区域才被以高质量保持，而其他区域都是模糊的。然而，模糊在低显著性区域中产生主观质量的明显降级。

2.14压缩调制

常规的速率控制算法为所有宏块提供相同的压缩级别。显著性给予了对块进行不均等编码的机会，更多地压缩那些不显著的块以提高编码效率，或者将更多比特分配给显著区域以增加质量(图12)。

已经提出了许多算法，其使用视觉显著性的测量以通过改变取决于块的显著性的量来压缩这些块。感知质量可被用来每宏块地调制若干不同的压缩方面，诸如

·量化参数

·模式决策

·参考帧的数目

·运动向量的准确度

·运动估计的搜索范围

2.15预滤波器

从非显著区域中移除信息不必集成到编解码器中。其可以被实现为检测和跟踪显著特征、使它们保持清晰的预滤波器，同时非显著特征被低通滤波，从而导致比特率中的自动且有益的下降。因为基于显著性的预滤波是作为预处理步骤来被执行的，所以其可以对接到任何视频编码器。

预滤波器具有一些缺点－预滤波器中的宏块不太可能完全匹配编解码器的宏块，并且存在无法受预滤波器影响的编码器的许多其他方面，诸如将宏块细分成较小的宏块以获得细粒度的显著性。还存在预滤波器可能干扰编解码器的处理的可能性－例如，改变对象显著性可能改变对象的外观，使得编解码器的运动预测算法(其必须在各帧之间发送对象中的差异作为附加信息)无法使用它。

2.16视频编解码器

所有行业标准编解码器共享相同的基本块(图13)：它们以DCT块开始以将图像变换到频域中。量化块接着降低那些频率分量的分辨率，接着可变长度编码器从流中移除熵。

2.17运动补偿

所有现代视频编解码器还包括运动估计－当前帧中的每个像素块与先前帧中一组相同大小的候选块进行比较，以确定最佳地预测当前块的一个块。当最佳匹配块被找到时，运动向量被确定，其指定参考块(图14)。

运动补偿的关键思想是通过预测宏块来添加预测编码，以更好地压缩图像。运动补偿对编解码器增加了一些复杂度(图15)：

运动补偿难以在频域中执行，因此第一步是对经压缩图像进行逆量化和逆变换，这接着允许运动估计块在像素域中创建运动补偿的预测误差。对于当前帧的每个块，参考帧中的预测块使用运动估计被找到，并且被差分以生成预测误差信号。该计算仅需要编码器和解码器中的单个帧存储。所得到的预测误差使用DCT被变换、量化、使用可变长度编码器(VLC)被熵编码并且被缓冲以供在固定速率信道上传输。

相同的压缩块可被用于帧内(内)和帧间(间)两者。帧间压缩从先前帧中减去当前帧，以对帧之间的差异进行操作，而帧内压缩则对最新近的帧进行操作(图16)。

2.18行业标准编解码器

视频编码的主要举措导致新的编解码器。最受欢迎的视频编解码器的年表是：

·H.261(1990)-由国际电信联盟(ITU)开发，该编码算法使用图片间预测来移除时间冗余。宏块(时间编码的基本单元)被用来表示16×16像素区域。H.261旨在用于在电话会议应用中通过ISDN承载视频，并且不适于一般数字视频编码中的使用。

·MPEG-1(1991)-来自移动图片专家组(MPEG)的第一个编解码器旨在用于以1.2Mb/s的量级在CD-ROM上储存电影。其包含了以下创新：

·帧内编码(I帧)：编码为离散帧(静止帧)，独立于毗邻帧；

·预测编码(P帧)：通过来自过去的I帧或P帧的预测进行编码，从而导致更好的压缩比(更小的帧)；

·双向预测编码(B帧)：通过使用要么I帧要么P帧的先前和未来帧的预测进行编码；提供最高程度的压缩；

·H.262/MPEG-2(1994)-扩展MPEG-1的压缩技术，以更高的带宽使用为代价来覆盖更大的图片和更高的质量。MPEG-2被设计成用于需要通常在4和15Mbps之间的比特率的数字电视广播应用，或者以2-400Mb/s的量级将视频储存在DVD(数字视频盘)上；

·H.263/MPEG-4部分2(1996)-使用被称为测试模型(TMN)的编码算法，该算法类似于H.261所使用的编码算法，但具有改进的性能和错误恢复，从而导致更高的效率。其针对低比特率的编码进行了优化。H.263被用于通过POTS2网络进行低比特率视频电话的视频编码，被分配给以从14.4至56kb/s的调制解调器速率使用的视频只不过10kb/s，其中调制解调器速率包括视频编码、语音编码、控制信息，以及用于数据的其他逻辑信道。MPEG 4具有被称为“视频对象平面”的特征，其将视频流拆分成由alpha蒙版定义的前景和背景区域。背景信息仅需要被发送一次。编解码器可以通过检查视频流自动地生成alpha蒙版，或者它们可以通过在第一帧中手动选择感兴趣的对象来被半自动地产生；

·H.264/MPEG-4AVC/MPEG-4部分10(2003)-与用于各种应用的任何其他现有视频编码标准相比，具有使编码效率加倍的目标。H.264于2003年3月获得ITU-T批准(也被称为MPEG-4部分10)。目标是提供足够的灵活性，以允许该标准被应用于各种各样的应用：适用于低(低至8kb/s)和高(高于1Mb/s)比特率，适用于低分辨率和高分辨率视频以及对等待时间的高诉求和低诉求。提高编码效率的主要特征如下：

o可变块大小运动补偿o图片边界上的运动向量

o多参考图片运动补偿

o环路内去块滤波

o 4x4像素小块尺寸变换

o增强的熵编码方法(上下文自适应可变长度编码(CAVLC)和上下文自适应二进制算术编码(CABAC))

·VP8(2008)-传统的基于块的变换编码格式，与H.264/AVC有很多共同点；

·H.265/HVEC/MPEG-H部分2(2010)-JCT-VC组织，ISO/IEC MPEG和ITU-T VCEG之间的合作。与H.264相比，其提供了50％的效率提高；

·VP9(2012)-比x264效率高30％；

·VP10/AV1(2017年估计)-性能目标是相比HEVC和VP9的约50％的效率提高。

2.19标准编解码器的改进实现

并非来自同一编解码器的所有视频都是均等的。视频压缩标准指定了由视频编码器产生的经压缩比特流的语法和语义，以及如何解析和解码该比特流以产生经解压缩的视频信号。然而，编码中的算法和参数选择没有被指定，诸如运动估计、编码模式的选择、比特到图像的不同部分的分配。这些被留出为开放的，并且在很大程度上取决于编码器实现。然而，要求来自编码的所得比特流符合指定的语法。结果是，基于标准的视频编解码器的质量在很大程度上取决于编码器实现，即使在相同的比特率下也是如此。这解释了为什么某些实现似乎比其他实现产生更好的视频质量。

2.20预滤波器和后滤波器

编解码器通常使用预滤波器，诸如视频降噪、去闪烁和去抖动。降噪和去抖动通常维持峰值信噪比(PSNR)值，同时提高视觉质量。去抖动极大地降低了PSNR，但提高了视觉质量。后滤波器显示出类似的特性–去块和去振铃维持了PSNR，但提高了质量。粒度化(在H.264中提出)提高了视频质量，但降低了PSNR。所有滤波器增加压缩/解压缩时间。一些显著性算法(例如，EuclidIQ的IQ264)已被实现为在视频到达编解码器之前对视频进行操作的预滤波器。

2.21速率控制

还可以控制视频被转换成的最终数据速率。对于序列的相同平均客观质量值(例如，PSNR)，可变比特率通常导致比恒定比特率更好的视觉质量标记。

2.22宏块跳跃

运动估计寻找先前帧的没有被更改的部分，并将它们编码为始于其原始参考位置加上差异的向量。在经编码的流中，运动估计创建三种类型的视频帧：

·I帧-包含所有宏块的参考帧；

·P帧-从较早的帧(主要是I帧)制作的前向预测图像，因此需要较少的数据(通常是I帧大小的50％)；

·B帧-使用稍早和稍晚帧的一些部分的双向预测的图片，比P帧的数据少(通常为I帧大小的25％)，因为它们可以从稍早和/或稍晚的帧来被预测或插值。

P帧和B帧被表示为运动向量和变换系数，允许编解码器发送图像部分的变换而不是其内容。但是这些运动向量和变换仍然占用了一些比特率。

对于与前一帧不改变的一些宏块，发送跳跃(Skip)宏块是可能的，其不包括运动向量或变换。跳跃块也可以被用于都以相同方式变换的大组宏块-解码器将从已被解码的其他块推导出跳跃编码的块的运动向量。

2.23视频压缩质量评估

为了评估一个视频编解码器是否比另一个更好，需要有一种测量视频质量的方式。视频质量测量是视频编解码器开发和评估的一个组成部分，并且在考虑基于人类感知的新型视频压缩时尤其关键，旧的质量测量可能无法评估。

2.24主观质量

测量视频质量的最简单且最准确的方式是让人们观察它并对它进行评分。随着视频压缩变得更精细复杂并且使用人眼的感知属性，人类主观质量评级在视频质量的评分中变得更加重要，因为综合模型无法完美地对人类视觉进行建模。

将主观质量评级转变为可靠的质量测量可能是困难的，因为主观意见各不相同，并且有很多方式向参与者显示视频序列并记录他们的意见。为了使主观分数可靠，一些呈现方法已被标准化，主要是在ITU-R建议书BT.500中，该建议书规定了一种受控的呈现格式，以用于从各主体获得平均意见分数。

有限的人类注意力时间使得难以将长序列用于主观测试。通常，四个十秒序列被使用。序列的选择具有影响-与开发人员用来调谐其编解码器的序列类似的序列表现得更好。非专家的意见通常用于对视频质量评级，因为专家以与普通用户不同的方式观看视频，导致并不指示消费者将如何体验到视频质量的质量分数。

主观质量测试的主要问题是它们是耗时的，需要招募25到40名观察者(取决于测试的复杂度)，以获得平均意见分数的可接受的精度。设计和执行主观视频测试的过程通常花费一周以上。

2.25客观质量

综合测量提供视频质量分数，而无需大量人类视频测试人员。因为人类查看没有延迟，所以综合分数允许视频编解码器被快速地开发–或甚至允许质量评估被用在编解码器中以在比特率和质量之间做出动态调整。

2.26PSNR

峰值信噪比(PSNR)是信号的最大可能功率与破坏噪声功率之间的比率的工程术语。PSNR在视频帧已通过编码和解码之前和之后执行对视频帧的逐像素的比较。这种类型的前后比较被称为“完全参考”。存在仅使用经压缩图像的其他类型的质量估计。

PSNR计算首先取每个比特的均方误差(MSE)。最大可能的像素值被平方且被除以MSE，并且取其对数以给出PSNR。

使用峰值信噪比是因为它提供了对被添加到图像中的失真和噪声的简单测量。

PSNR的弱点在于，它不能良好地对人类视觉进行建模-一些人眼几乎注意不到的图像失真会产生大的PSNR误差(例如亮化图像)，而其他失真则十分可见。出现这些问题是因为PSNR不具有人类感知的概念。例如，使用显著性来指导压缩的编解码器将具有与未经指导的压缩相同的PSNR分数(它只是重新分配损失)，但是主观分数将经显著性引导的图像评定为显著更高的质量。随着现代编解码器越来越多地利用人类感知来丢弃不被感知的信息，PSNR分数已变得不那么有用。

已被提出的PSNR的一种变体是中央凹PSNR，其中PSNR分数根据每个宏块的相对重要性(从注意力图获得)在宏块级被自适应地调整。然而，该方法仅限于实验室视频样本，因为注意力图必须通过对主观查看者的眼睛跟踪来被获得。新颖视频将不具有注意力图。

2.27SSIM

结构相似性试图通过计算以某种方式对人类感知质量进行建模的“结构相似性”测量来更好地容适人类感知。SSIM并非计算绝对误差，而是将图像降级视为“结构信息”中的感知到的改变，这是像素具有强相互依赖性的观点，尤其是当它们在空间上接近时。这些依赖性携带关于可视场景中的对象结构的重要信息。SSIM还包含感知现象，诸如“亮度掩蔽”和“对比度掩蔽”。“亮度掩蔽”是一种其中图像失真在明亮区域中往往不太可见的现象。“对比度掩蔽”是一种其中在图像中存在显著活动或“纹理”的情况下失真变得不太可见的现象。

SSIM包括三个因素的加权组合：

·亮度-像素的高值被更多地加权。每个点的亮度是平均x和y的乘积除以平均的平方和的两倍。

·对比度–局部唯一的像素值的被更多地加权。每个点的对比度是方差x和y的乘积除以平均的平方和的两倍。

·结构-在此确定值是否随其邻居而改变。每个点的结构是x和y的协方差除以方差x和y的乘积。

SSIM的一种变体(被称为多尺度SSIM(MSSIM))通过被设计成模仿早期视觉系统中的多尺度处理的多级子采样过程来计算多个尺度上的这些分数。如在图像质量数据库上测量的那样，MSSIM的性能与人类判断十分高度相关。大部分竞争对象图像质量模型是MSSIM概念的某种形式或变体。

虽然MSSIM具有一些优势，但它也具有限制其有用性的问题：

·MSSIM计算起来比PSNR更复杂。

·也许最显著的是，MSSIM适用于静态图像，而非适用于视频。视频在帧间具有比帧内更多的相关性，因此大部分压缩在帧间执行，这意味着MSSIM不测量大多数的失真。运动显著性与SSIM之间不存在相关性。

·MSSIM没有显著性的概念–其可以标识结构关系，但其无法说明这些关系是否显著。这是测试基于显著性的压缩算法时的一个关键缺点，这保持平均失真水平相同，但不均匀地分配比特以在显著区域中提供更好的质量。MSSIM通常显示没有来自基于显著性的比特分布的改善，而主观测试显示显著的改善。

·MSSIM是复杂的，这使得难以开发编解码器应对。编解码器通常通过改变参数并针对客观测量对它们进行测试来被增量式且迭代地优化。对于像PSNR这样的简单测量，很明显为什么分数变得更好或更差。对于复杂的测量，可能难以知道场景的分数为何已改变。

已经提出了许多附加类型的客观(包括基于人类视觉的客观)质量评估方法。然而，视频质量专家组(VQEG)的研究结果表明，不存在可以反映所有条件下的主观质量的客观测量。

2.28质量曲线

大部分的视频编解码器具有比特率和质量之间的非线性关系-比特率中的每个增加具有对质量的较小影响。这种非线性关系形成了“质量曲线”，其描述了编解码器如何对更高和更低的比特率做出反应。该压缩曲线是被使用来比较编解码器的事物(图17)。

2.29闭合回路预测

客观质量测量可以以闭环方式被使用，以调制压缩。如果质量测量知道压缩一个区域将具有对质量的影响，则编解码器可以被引导来较少地压缩该区域，以维持主观质量。

以客观质量作为反馈的闭环视频压缩由Caviedes和Ali在2005年提出[42]。

质量估计和显著性可以被视为相同的算法：完善质量的测量将使最佳压缩能够在图像的所有部分处被使用。

2.30行业问题

视频编解码器行业面临着若干问题，并且新的编解码器被定期地引进，以试图更好地解决这些问题。

2.31视频的增加的使用

视频互联网话务正以数量级增加。互联网话务数量被预计从2005年到2020年增加100倍(思科)。视频将占这一增长的大部分：到2020年，IP视频话务占所有消费者互联网话务将从2015年的70％上涨到82％(思科)。2011年至2013年间，平均在线视频观看增长了6分钟/人/天。

2.32视频分辨率正在增加

随着更大、更高清晰度屏幕被使用，视频帧大小正在增加。

不仅帧的分辨率正在增加，而且更大的色彩空间也正被使用。新屏幕技术(诸如360度和立体视频)进一步增加了数据和分辨率需求。

2.33小带宽

互联网话务正在转变为主要通过移动网络：智能电话互联网话务将在2020年超过PC话务(思科)。各种模式也显示出了在移动设备上观看视频的趋势——爱立信预测，到2019年，来自移动设备的IP话务将远远超过来自有线设备的话务，并且视频消费将占移动话务的50％以上。但移动数据速度通常比有线网络速度慢，所以每视频的平均带宽并没有在快速地增加。实时视频受到大部分蜂窝通信链路的非对称性质的进一步限制，大部分蜂窝通信链路提供了比上载链路更宽的下载链路。

2.34实时视频具有较低的压缩

视频编解码器在编码实时视频方面效率较低，因为许多编解码器操作(诸如运动估计)在计算上过于繁重而无法实时执行。但由于视频通话硬件和软件的可用性，实况视频正变成互联网话务中越来越大的占比。大部分这种实况视频都是在具有较低计算能力的移动设备上被编码的。

2.35开发新编解码器所花费的时间正在增加

新编解码器通过采用更复杂的算法通常可以提供更好的压缩率。随着这些编解码器变得更加复杂，它们需要更长的时间来开发。新版编解码器之间的平均时间已从2年增加到5年。

2.36计算工作量正在增加

随着编解码器变得更加复杂，它们每像素执行的计算也增加。现代编解码器可以执行搜索、变换和建模以降低比特率。每像素增加的工作量与视频分辨率的增加相组合使得视频编码过于严苛，以至于无法在大部分现代CPU上被实时地执行。处置大量视频的机构通常都有“代码转换器”场，其花费编码视频的大量工作量，来以最佳压缩对它们进行编码。

2.37编解码器的度量正变得愈发困难

随着编解码器变得更加复杂，阐明编解码器的效率已变得愈发困难。一些新的编解码器针对人类视觉或针对某些内容类型(例如体育)进行了优化，所以它们在综合测试中表现不佳。为了进行测试，它们需要大量的人类观察者观看视频，该视频是最流行的内容类型的代表。

2.38硬件兼容性

视频编解码器表示处理器上的显著负载，所以许多设备包括硬件视频编解码器加速器，尤其是在低功率设备(例如，电视机、移动电话)中。这些硬件视频加速器变为引入新视频编码方法的障碍，因为新的编解码器与大基数的已安装的加速器硬件不兼容。

2.39软件兼容性

大部分浏览器和操作系统包含视频编解码器，以允许视频的回放。软件可能花费很多年来采纳新编解码器，这是因为如下的因果难分(chicken-and-egg)的情况：不存在播放视频的编解码器，所以视频内容不在该编解码器中被编码，这减少了采纳编解码器的需要，等等。

2.40现有视频内容

大部分视频内容已经以现有视频格式之一被编码。内容所有者可能没有原始高质量版本的视频，不愿意承担重新编码视频的成本。除了动机之外，他们可能发现先前的编码器已引入干扰新编解码器所作的压缩的视觉伪像，或者具有较低压缩比的旧编解码器已要求质量降级以实现期望的比特率。

2.41非常低比特率的视频

低分辨率/低质量视频的量正在增加-部分网站、广告和曾经是静态图像的用户界面正在显示视频内容。然而，大部分视频编码器在低比特率下表现不佳。鉴于非常低的比特率，许多编码器将扭曲整个图像，使其质量无法接受。

总而言之，以上作为现有技术所描述的方法仍未在无约束的现实世界实时应用中被大规模使用，因为根据利用此类方法的当前处理能力，难以以改善视频压缩为目标来实现对象检测和图像处理的可接受的稳健性和速度。本发明的方法描述了可以实现所需稳健性和速度两者的计算。

参考书目

[1]Mishra AK,Aloimonos Y,Cheong LF,Kassim A(2012)，Active visualsegmentation(主动视觉分割)，IEEE transactions on pattern analysis and machineintelligence(关于模式分析和机器智能的IEEE汇刊)，34(4)，639-653。

[2]Bruce N,Tsotsos J(2006)，Saliency based on information maximization(基于信息最大化的显著性)，Advances in neural information processing systems(神经信息处理系统中的进展)，18,155。

[3]Ma Y-F,Zhang H-J，Contrast-based image attention analysis by usingfuzzy growing(通过使用模糊生长的基于对比度的图像注意力分析)，Proceedings ofthe eleventh ACM international conference on Multimedia–MULTIMEDIA(第十一届ACM国际多媒体会议论文集-多媒体)’03,2003，doi:10.1145/957092.957094。

[4]L.Itti,C.Koch和E.Niebur(1998)，A Model of Saliency-Based VisualAttention for Rapid Scene Analysis(用于快速场景分析的基于显著性的视觉注意力模型)，IEEE Transactions on Pattern Analysis and Machine Intelligence(关于模式分析和机器智能的IEEE汇刊)20(11):1254-1259。

[5]C.Koch和S.Ullman(1985)，Shifts in selective visual attention:towards the underlying neural circuitry(选择性视觉注意力转移：朝向底层的神经电路系统)，Human Neurobiology(人类神经生物学)4:219-227。

[6]O.Le Meur,P.Le Callet,D.Barba和D.Thoreau(2006)，A coherentcomputational approach to model bottom-up visual attention(一种对自底向上视觉注意力进行建模的连贯的计算办法)，IEEE Transactions on Pattern Analysis andMachine Intelligence(关于模式分析和机器智能的IEEE汇刊)28(5):802-817。

[7]Sophie Marat,Tien Ho Phuoc,Lionel Granjon,Nathalie Guyader,DenisPellerin等人(2009)，Modelling spatio-temporal saliency to predict gazedirection for short videos(对时空显著性进行建模以预测短视频的注视方向)，International Journal of Computer Vision,Springer Verlag(国际计算机视觉杂志，施普林格出版社)2009,82(3),第231-243页。

[8]Bruce,N.D.和Tsotsos,J.K.,2005年5月，An attentional framework forstereo vision(立体视觉的注意力框架)，发表于Computer and Robot Vision,2005(计算机和机器人视觉2005)，Proceedings.The 2nd Canadian Conference(第二届加拿大会议论文集)(第88-95页),IEEE。

[9]Mancas,M.,Gosselin B.,MA CQ B.(2007)，A Three-Level ComputationalAttention Model(三层次计算注意力模型)，Proceedings of ICVS Workshop onComputational Attention&Applications(ICVS计算注意力与应用研讨会论文集)(WCAA-2007)。

[10]A Borji,DN Sihite,L Itti(2012)，Quantitative Analysis of Human-Model Agreement in Visual Saliency Modeling:A Comparative Study(视觉显著性建模中人类模型协议的定量分析：比较研究)IEEE Transactions on Image Processing(图像处理的IEEE汇刊)(TIP)。

[11]Hou X,Zhang L.，Saliency Detection:A Spectral Residual Approach(显著性检测：频谱残差办法)，2007IEEE Conference on Computer Vision and PatternRecognition,2007(2007IEEE计算机视觉和模式识别会议，2007年)，doi:10.1109/cvpr.2007.383267。

[12]Torralba,A(2003)，Contextual Priming for Object DetectionInternational Journal of Computer Vision(用于对象检测的上下文事先准备，国际计算机视觉杂志)(2003)53:169，doi:10.1023/A:1023052124951。

[13]L.Itti和P.Baldi(2006)，Bayesian Surprise Attracts Human Attention(贝叶斯惊喜吸引人类注意力)，发表于Advances in Neural Information ProcessingSystems(神经信息处理系统中的进展)，卷19(NIPS*2005)，马萨诸塞州剑桥：MIT出版社。

[14]Harel,J.,Koch,C.和Perona,P.,(2006年12月)，Graph-based visualsaliency(基于图形的视觉显著性)，发表于NIPS(卷1，编号2，第5页)。

[15]Avraham,T.和Lindenbaum,M.(2010)，Esaliency(extended saliency):Meaningful attention using stochastic image modeling(E显著性(经扩展的显著性)：使用随机图像建模的有意义的注意力)，IEEE Transactions on Pattern Analysis andMachine Intelligence(模式分析和机器智能的IEEE汇刊)，32,693–708。

[16]Li,L.J.,Su,H.,Fei-Fei,L.和Xing,E.P.,(2010)，Object bank:A high-level image representation for scene classification&semantic featuresparsification(对象库：用于场景分类和语义特征稀疏化的高层次图像表示)，发表于Advances in neural information processing systems(神经信息处理系统中的进展)(第1378-1386页)。

[17]Hamed Rezazadegan Tavakoli,Esa Rahtu,Janne (2011)，Fast andefficient saliency detection using sparse sampling and kernel densityestimation(使用稀疏采样和核密度估计的快速且高效的显著性检测)，Proceedings ofthe 17th Scandinavian conference on Image analysis(第17届斯堪的纳维亚图像分析会议论文集)，2011年5月1日，瑞典于斯塔德。

[18]D.Gao和N.Vasconcelos,(2004)，Discriminant Saliency for VisualRecognition from Cluttered Scenes(杂乱场景中的视觉识别的判别显著性)，Proceedings of Neural Information Processing Systems(NIPS)(神经信息处理系统(NIPS)论文集)，加拿大温哥华，2004年。

[19]Hou,X.和Zhang,L.,2007年6月，Saliency detection:A spectral residualapproach(显著性检测：频谱残差办法)，发表于Computer Vision and PatternRecognition(计算机视觉和模式识别),2007.CVPR'07.IEEE Conference(IEEE会议)(第1-8页)，IEEE。

[20]Kienzle,W.,Wichmann,F.A.,B.和Franz,M.O.,(2007)，Anonparametric approach to bottom-up visual saliency(自底向上视觉显著性的非参数办法)，Advances in neural information processing systems(神经信息处理系统中的进展)，19,第689页。

[21]Peters,R.J.和Itti,L.,2007年6月，Beyond bottom-up:Incorporatingtask-dependent influences into a computational model of spatial attention(在自底向上之外：将依赖于任务的影响纳入空间注意力的计算模型)，发表于ComputerVision and Pattern Recognition(计算机视觉和模式识别),2007.CVPR'07.IEEEConference(IEEE会议)(第1-8页).IEEE。

[22]Judd,T.,Ehinger,K.,Durand,F.和Torralba,A.,2009年9月，Learning topredict where humans look(学习预测人类看向哪里)，发表于Computer Vision(计算机视觉)，2009IEEE 12th international conference(2009年IEEE第12届国际会议)(第2106-2113页)，IEEE。

[23]Cerf,M.,Frady,E.P.和Koch,C.,2008年3月，Using semantic content ascues for better scanpath prediction(使用语义内容作为更好的扫描路径预测的提示)，发表于Proceedings of the 2008symposium on Eye tracking research&applications(2008年眼动追踪研究与应用研讨会论文集)(第143-46页)，ACM。

[24]Seo,H.J.和Milanfar,P.,(2009)，Static and space-time visualsaliency detection by self-resemblance(通过自相似性进行静态和时空视觉显著性检测)，Journal of vision(视觉杂志)，9(12),第15-15页。

[25]Garcia-Diaz,A.,Fdez-Vidal,X.R.,Pardo,X.M.和Dosil,R.,2009年9月，Decorrelation and distinctiveness provide with human-like saliency(去相关和独特性提供了类似人类的显著性)，发表于International Conference on AdvancedConcepts for Intelligent Vision Systems(智能视觉系统高级概念国际会议)(第343-354页)，柏林海德堡施普林格出版社。

[26]Kootstra,G.,Nederveen,A.和De Boer,B.,(2008)，Paying attention tosymmetry(给予对称性注意)，发表于British Machine Vision Conference(英国机器视觉会议)(BMVC2008)(第1115-1125页)，The British Machine Vision Association andSociety for Pattern Recognition(英国机器视觉协会和模式识别协会)

[27]Goferman,S.和Zelnik,L.,2010年6月，L.manor,和A.Tal，Context-awaresaliency detection(上下文知悉式显著性检测)，发表于CVPR(卷1，编号2，第3页)。

[28]Wolfe,J.M.,(1994)，Visual search in continuous,naturalisticstimuli(以连续、自然的刺激进行视觉搜索)，Vision research(视觉研究)，34(9),第1187-1195页。

[29]Kahneman,D.,Treisman,A.和Gibbs,B.J.,1992，The reviewing of objectfiles:Object-specific integration of information(目标文件的审视：因目标而异的信息集成)，Cognitive psychology(认知心理学)，24(2),第175-219页。

[30]Mahadevan,V.,Li,W.,Bhalodia,V.和Vasconcelos,N.,2010年6月，Anomalydetection in crowded scenes(拥挤场景中的异常检测)，发表于Computer Vision andPattern Recognition(计算机视觉和模式识别)(CVPR)，2010IEEE Conference(2010年IEEE会议)(第1975-1981页)，IEEE。

[31]Muddamsetty,S.M.,Sidibé,D.,Trémeau,A.和Mériaudeau,F.,2014年8月，Spatio-Temporal Saliency Detection in Dynamic Scenes using Local BinaryPatterns(使用局部二元模式的动态场景中的时空显著性检测)，发表于PatternRecognition (模式识别)(ICPR)，2014 22nd International Conference(2014年第22届国际会议)(第2353-2358页)，IEEE。

[32]Bian,P.和Zhang,L.,2008年11月，Biological plausibility of spectraldomain approach for spatiotemporal visual saliency(时空视觉显著性谱域办法的生物学合理性)，发表于International conference on neural information processing(神经信息处理国际会议)(第251-258页)，柏林海德堡施普林格出版社。

[33]Guo,C.和Zhang,L.,2010，A novel multiresolution spatiotemporalsaliency detection model and its applications in image and video compression(一种新的多分辨率时空显著性检测模型及其在图像和视频压缩中的应用)，IEEEtransactions on image processing(图像处理IEEE汇刊)，19(1),第185-198页。

[34]Li,Z.,Qin,S.和Itti,L.,2011，Visual attention guided bit allocationin video compression(视频压缩中的视觉注意力引导的比特分配)，Image and VisionComputing(图像和视觉计算)，29(1),第1-14页。

[35]Hou,X.和Zhang,L.,2007年6月，Saliency detection:A spectral residualapproach(显著性检测：频谱残差办法)，发表于Computer Vision and PatternRecognition(计算机视觉和模式识别)2007.CVPR'07，IEEE Conference(IEEE会议)(第1-8页)，IEEE。

[36]Schauerte,B.和Stiefelhagen,R.,2012，Quaternion-based spectralsaliency detection for eye fixation prediction(用于眼睛固定预测的基于四元数的频谱显著性检测)，发表于Computer Vision–ECCV 2012(计算机视觉–ECCV 2012)(第116-129页)，柏林海德堡施普林格出版社。

[37]Li,J.,Levine,M.D.,An,X.,Xu,X.和He,H.,2013，Visual saliency basedon scale-space analysis in the frequency domain(基于频域中的尺度空间分析的视觉显著性)，IEEE transactions on pattern analysis and machine intelligence(关于模式分析和机器智能的IEEE汇刊)，35(4),第996-1010页。

[38]Li,J.,Duan,L.Y.,Chen,X.,Huang,T.和Tian,Y.,2015，Finding the secretof image saliency in the frequency domain(在频域中找到图像显著性的秘密)，IEEEtransactions on pattern analysis and machine intelligence(关于模式分析和机器智能的IEEE汇刊)，37(12),第2428-2440页。

[39]Guo,C.,Ma,Q.和Zhang,L.,2008年6月，Spatio-temporal saliencydetection using phase spectrum of quaternion fourier transform(使用四元数傅立叶变换相位谱进行时空显著性检测)，发表于Computer vision and pattern recognition(计算机视觉和模式识别)2008.cvpr 2008，ieee conference(ieee会议)(第1-8页)，IEEE。

[40]Guo,C.和Zhang,L.,2010，A novel multiresolution spatiotemporalsaliency detection model and its applications in image and video compression(一种新的多分辨率时空显著性检测模型及其在图像和视频压缩中的应用)，IEEEtransactions on image processing(图像处理IEEE汇刊)，19(1),第185-198页。

[41]Li,C.,Xue,J.,Zheng,N.,Lan,X.和Tian,Z.,2013，Spatio-temporalsaliency perception via hypercomplex frequency spectral contrast(经由超复数频谱对比的时空显著性感知)，Sensors(传感器),13(3),第3409-3431页。

[42]Caviedes,J.E.和Ali,W.S.I.,2005年9月，Closed-loop video processingfor objective quality optimization(用于客观质量优化的闭环视频处理)，发表于Signal Processing Conference,2005 13th European(2005年第13届欧洲信号处理会议)(第1-4页)，IEEE。

发明内容

用于视频压缩的本发明的方法可被应用于在频域中使用核的情况。其不适用于基于空间域中的像素信息的分析而不将图像数据变换到频域的方法。该方法尤其适用于其中以压缩视频流为目的而需要检测待压缩图像内的对象或者需要在设备或网络连通设备上实时地从视频流中的图像创建视觉显著性图的情景。

一般而言，本发明的方法具有以下详述的过程：使用在频域中提取的特征来检测对象或视觉显著性。这些特征已通过将原始图像变换到频域并将该经变换的图像信息乘以频域中的一个或多个核而被获得。

在该过程中，数个特征首先被选择，并且之后，在离线学习阶段(其中诸如用于核和特征布局等的参数被优化)中，最佳参数设置被选择。该组特征因此描述了频域中用于通用对象或视觉上显著的对象的模型。

在下文中，通常仅使用描述“分类器”和“对象”。意思是“分类器和/或视觉显著性”。将清楚的是，视觉显著性模型将是比分类器更高级、更通用的模型。例如，分类器可以被训练来识别像面部这样的对象。而对于视觉显著性模型，面部只是感兴趣的对象之一。本领域的专家将清楚，对于创建分类器或视觉显著性模型，该方法的公开内容的应用将完全相同。因此，在本公开中，术语“分类器”和“对象”亦足以描述被用于视频压缩的视觉显著性模型。

更深入详细地，用于在频域中提取和使用特征的方法包括以下步骤：

·获得通过空间域中的数据定义的数字图像；

·使用L变换的2D变型将图像数据的总频域数据的稀疏部分转移到频域；

·向经变换的频域应用一起覆盖频域的一部分的一个或多个稀疏区域，以及与所述稀疏区域至少部分地交叠的一个或多个滤波核；

·在每个稀疏区域内的经变换的频率数据和所述核之间执行乘法，将结果组合成单个值，每个值表示对应的所提取的特征；

·使用所提取的特征的输出来创建分类器和/或视觉显著性模型，因此当与视频编解码器结合使用时，获得调制视频压缩的手段；

·改变所述稀疏区域和/或核的参数、重复乘法和提取的过程直到预定准确度被达到。

对于视频编解码器领域的专家而言清楚的是，存在作为数字图像输入使用的若干可能性：

·整个图像被变换

·图像的一些片段被变换

·如由编解码器定义的图像的每个宏块输入被变换

还将清楚的是，数字输入的大小不改变此处所公开的权利要求。该方法可被用于任何输入大小，例如被用于视频编解码器的宏块的大小。

鉴于上述，根据本发明的用于图像处理和视频压缩的方法在所附权利要求1中被定义。在从属权利要求中限定了导致附加优点的方法的进一步细节。

因此，本方法能够大大提高对象检测和图像处理方法的处理速度，同时提高其准确度。如上面所阐述的，对于能够提高对象检测和图像处理技术的速度的新方法存在巨大需求。这种速度增加应使对象检测和视觉显著性的计算足够快，以便在最新一代移动设备和其他类似设备内部的后台中工作。

除了在最新一代移动设备上使用外，屏息以待诸如可穿戴硬件等未来趋势，算法需要能够在主要个人计算机操作系统和移动操作系统之外工作，并因而能够在处理器上进行编程以及对诸如现场可编程门阵列等硬件进行重新编程。这些方法还需要由算法构建，这些算法可以利用个人计算机和移动设备(诸如多核和强大的图形处理单元(GPU))上的最新硬件开发。

在这一点上，使用频域中的计算自然地使其本身响应于出于若干原因对更快计算的需求。该方法允许这种并行处理。本领域的专家众所周知，FFT的许多变体不适合在处理器上编程。

傅立叶的标准频域理论表明，任何信号(在我们的情形中是数字图像)都可以被表示为一系列正弦曲线的求和。在图像处理的情形中，这些是跨图像的亮度中的正弦变化。正弦函数可以编码：

·空间频率

·幅度

·相位

空间频率是跨亮度随其调制的空间的频率。

正弦曲线的幅度对应于其对比度，或者图像的最暗和最亮峰之间的差异。相位表示波相对于原点如何被移位。

傅立叶变换不单单编码单个正弦曲线，而且编码通过从零直到“奈奎斯特频率”的空间频率范围的整个系列的正弦曲线，“奈奎斯特频率”意指可以在数字图像中被编码的最高空间频率，其与分辨率、或像素总数相关。

傅立叶变换同时编码存在于图像中的所有空间频率。

奈奎斯特频率是离散信号处理系统(在我们的情形中是数字图像)的采样率的1/2。

被用于图像处理的傅立叶变换背后的底层原理在于，每个像素影响所有频率，并且每个频率影响所有像素。

此处所公开的方法背后的直觉在于，空间域中所述对比度的位置由频域中的正弦曲线编码。空间域中的某些对比度仅受频域中某些正弦曲线的影响。对于由空间域中的对比度的组合定义的形状，这意味着该形状通过频域中的位置信息的唯一组合来被捕捉。并且这意味着通过频域中位置信息的唯一改变来捕捉移动。

因此，我们可以将对频域中特定信息或信息改变的捕捉用于特定对象的检测。

在频域中工作允许更容易的计算，因为利用滤波器的乘法和利用矩阵的其他类似计算是简单的分量级乘法，与在其中它是两个函数之间的卷积(其在计算上更昂贵)的空间域中不同。

因此，频域允许对用于对象检测的稀疏的、小的、部分频域信息的计算上简单的使用。在下文中将解释和详述稀疏区域以及在频域中作为滤波器操作的核。

完全工作在频域中而不需要在频域计算之后的将图像变换回空间域的计算，还允许在执行到频域的变换的数学选择中的增加了的灵活性。

附图说明

通过下面对参考附图给出的优选实施例的描述，本方法的其他特征和优点将变得更加明显，在附图中：

·图1至17解说了根据现有技术的视频压缩方法(见上文)；

·图18示出了在图像的空间域中，索引是怎样指示位置，而图像内的频率是怎样指示像素强度的正弦变化的，并且这在频域内正好相反；

·图19示出了将怎样通过编码频域中位置的波的变化来捕捉给定对象的空间域中的移动信息；

·图20示出了在频域中怎样需要数个波来捕捉足够的位置和形状信息以对图像内的对象进行分类；

·图21示出了如何仅需要频域信息的稀疏部分来捕捉频域中的正弦信息；

·图22和图23示出了的完整2D实现实际上将怎样是许多1D 计算的组合；

·图24示出了完整2D实现将怎样在计算上是不理想的；

·图25示出了怎样可以更快地做出完整2D实现，即使仍然不理想；

·图26示出了如果通过分开计算索引处的行和列的1D输出并接着将这组合成单个值来获取索引的结果，则这是怎样有效的；

·图27示出了如何更快地进行计算；用于变换到频域的输入单元仅在需要该值的索引的位置周围被取得；

·图28示出了区域的输入是怎样不限于仅行和列作为输入的，而可以是任何自由形状；

·图29示出了每个区域如何具有可以是任何自由形状的两个输入；

·图30示出了两个区域如何形成特征，该特征利用标准化变成给出两个区域之间的信息移位的复向量；

·图31示出了每个索引如何具有目标频率、变换的底层传递函数以及定义频域变换的输入的方向和序列的特定特征形状；

·图32示出了怎样通过顺序移动输入的每个索引来优化频域变换的输入形状；

·图33示出了输入图像如何可以是任何形状，不限于方形和矩形；

·图34示出了区域和特征可以如何交叉引用视频流中的帧序列中的数据；

·图35示出了定义每个索引的频域变换序列的形状不限于单帧，而是可以交叉引用视频流中的多个帧；

·图36解说了该方法允许选择被用来生成模型的频域变换的帧序列的自由度，从而允许真实的时间数据被用于内容的检测；

·图37示出了频域中的优化如何在非常大的多维噪声区域中具有成为清晰信号的非常大的优势，从而允许不仅监督学习而且还有无监督学习的目前逻辑类型；

·图38示出了流程图，该流程图是所描述的方法的可能的优化逻辑的示例。

具体实施方式

在下文中，将参考附图详述根据本发明的方法的实施例。

显而易见的是，本文中参考视频流(即一连串具有特定速率的图像帧系列)所描述的内容，也适用于等同于视频流的帧的任何一连串单个图像，并且适用于等同于单个帧的一个单一图像。

在第一步中，可以在完整输入图像上使用搜索逻辑以生成用于该方法的计算的输入帧。搜索逻辑可以例如是整个图像或图像的子集。应该清楚的是，许多类型的搜索逻辑是可能的，但是从此处所公开的方法的观点来看，该计算或权利要求并不改变，只是用于变换的图像输入改变。还将清楚的是，单个帧可以具有用于多个计算的多个输入，该多个计算的每一者如权利要求中所描述进行处理。

然后在频域中提取从帧或帧序列获得的一个或多个输入。帧的频域数据内的数据接着被处理以检测内容。此处所描述的方法使所使用的分类开放，相反，在该方法中强调的是被用于选择的分类的数据的质量和类型中的改进。

如上面提到的，所描述的方法在检测特别或甚至排他地在视频流的时间数据中的对象和过程时尤其有效。此处将解释可以怎样将多个帧组合成单个输入以进行检测。

当已检测到对象或者搜索逻辑的重复未能在图像内找到对象时，检测将移动到视频流的下一帧或帧序列。应该清楚的是，搜索逻辑可以基于哪个对象在前一帧中被找到而被致使是自适应的。

在已知技术中，在频域中处理图像通常使用快速傅立叶变换(FFT)的变型来完成，但是本方法既不使用FFT或其变体(例如离散余弦变换(DCT))，也不使用离散傅立叶变换(DFT)。

然而，为了突出常规图像处理和本方法之间的差异，本文中给出了FFT和DFT的一般概览。

FFT被用在广泛的应用中，诸如图像分析、图像重构和图像压缩、文本识别等等。

FFT的主要原理遵循自离散傅立叶变换(DFT)。由于DFT需要大量的计算，因此存在寻求加速该过程的其他类型的变换。快速傅立叶变换(FFT)是这些中最有建树的。利用DFT，计算的数量与N²相关，其中N是输入矩阵的长度。

FFT算法依赖于标准DFT涉及大量冗余计算的事实。

通过将样本序列划分成子序列来计算FFT；在每个阶段，需要N/2次复数乘法来组合前一级的结果。

由于存在log(N)级，因此复数乘法的数目需要在N点DFT上进行评估，其中FFT近似为N*log(N)。

频率数对应于空间域图像中的像素数，即空间和频域中的图像具有相同的大小。

如上面提到的，存在FFT的许多变型。FFT在图像处理方面也有其局限性。例如，在用于FFT的输入中使用的图像的边需要具有像素中的长度，其是2的幂。

另一限制是需要在给定特定频率的结果之前计算完整的FFT。换言之，FFT无法被转换用于稀疏计算，因为必须在可以获得单个频率的值之前计算完整的FFT。FFT的复杂结构也不允许在可重新编程的硬件和多核处理器上的简单编码实现。另外，由于首先需要计算完整的FFT以获得单个结果，因此还需要更多地使用设备上的存储器。

可以提供诸如修剪的快速傅立叶变换之类的方法，但是它们需要大量复杂的代码以获得速度和存储器使用方面的相对小的增益，同时仍然难以在可重新编程的硬件上实现。

在空间域中，值通常是像素的光强度，其范围从0到255。相同图像的傅立叶域值具有比空间域中的图像大得多的范围。

傅立叶变换产生复数值输出图像，其可以用两个图像显示，要么通过实部和虚部要么通过幅度和相位。在图像处理中，通常仅显示傅立叶变换的幅度，因为其包含空间域图像的几何结构的大部分信息。然而，为了在频域中的一些处理之后将傅立叶图像重新变换到正确的空间域中，必须保留傅立叶图像的幅度和相位两者。

在根据本公开的方法中，使得对所有计算而言排他地使用频域中的信息成为可能。

由于不需要保留所有信息以返回空间域，因此存在若干优点。

首先，缺少从频域返回空间域的额外步骤加速了整体计算。

其次，由于不需要将频域数据转换回正确的空间域图像，因此较小的稀疏区域可以被使用。这是因为不需要具有将允许图像数据被转换回空间域的频域数据而没有图像质量和信息的大的损失。频域中的稀疏区域本身不一定包含足够的频域信息来重新创建空间图像。但是它们包含足够的信息以供分类。

第三，额外的计算可以被执行以移除FFT中常见的混叠并且其他计算可以被执行以更好地准备数据以用于频域内的分类。

第四，在如FFT和DCT之类的方法中存在的其他限制被移除。例如，FFT和DCT的频率变换沿着图像的行和列完成，并且总是在单个帧内。在该方法中，频域变换的方向可以是任何排列，其中对于传递函数具有更大的自由度，并且变换甚至在视频序列的帧之间交叉。

在图18中，表示了在图像的空间域中，索引是怎样指示位置，而图像内的频率是怎样指示像素强度中的正弦变化的。在频域内正好相反，索引示出频率，而正弦波则包含位置数据。

以相同的方式，给定对象的空间域中的移动信息将通过对频域中的位置进行编码的波的改变来被捕捉。这用图19中的眼睛移动图像示意性地示出。

上面给出的示例当然是为了概念的解说而简化的。实际上，以与在空间域中需要捕捉像素强度中的变化的许多频率来绘制图像相同的方式，在频域中需要数个波来捕捉足够的位置和形状信息以对图像内的对象进行分类。这在图20内被表示。

如上面提到的，频域内的每个索引潜在地影响空间域中的所有像素。因此，与利用从空间域提取的特征将对象进行分类相比，在频域中需要相对较少的特征来将对象进行分类。在本文中所描述的对象检测方法中，公开了一种技术以在频域中找到捕捉空间域中的特定类型的形状的信息的最小部分组合。这种信息组合尤其也可以是视频流中的帧序列，目的是捕捉在单独考虑序列的每个静止图像时未被找到的时间和动态信息。

这里和以下描述中，稀疏区域意指覆盖频域的一部分的信息选择。应将每个区域视为特定的频域信息。图21示出了频域中稀疏特征的布局示例。需要注意每个特征是如何从一对区域创建的。需要注意，频域网格的大小仅用于解说的目的，并且可以是许多其他大小，如稍后将解说的。图21示出了捕捉空间域中的位置和移动的可能的频域正弦对比度的示例，也以叠加示出。图21所示的是，仅需要捕捉频域正弦对比度的一部分以检测空间域中的移动类型或形状，这是稀疏区域所做的。

稀疏区域可以被分组在一起，或者可以彼此部分交叠或者并排放置，以增加局部分辨率。

对从所述稀疏区域导出的频率值的计算被指示为稀疏计算。

由于不需要将图像转换回空间域，且并非所有频域信息是必需的，因此对于使用除DFT或FFT之外的其他方法来将图像转换到空间域中的可能性是开放的。

根据本方法，一对或多对稀疏区域被选择，每个稀疏区域覆盖单个帧的至少一部分，或者在帧序列的情形中，覆盖序列的至少两个帧。

如上面提到的，每对稀疏区域生成特征，并且每个稀疏区域由两个空间数据序列定义。接着，根据本方法，所述经选择的特征通过以下方式被变换成频域数据：对于每个稀疏区域，通过L变换的2D变型来组合所述两个空间数据序列，改变每个区域的频域数据的传递函数、形状和方向，因而为所述特征的每一者生成经标准化的复向量。

因此，可以使用诸如从算法导出的二维变换等其他方法来执行变换，其中关于目标频率、在变换中使用的传递函数以及定义变换的输入的环路的形状和方向具有相当大的设计自由度。如将在本公开中进一步解释的，所使用的方法与算法非常不同，并因此所使用的描述在于其是L变换的2D变型。

如之前提到的，该方法的优点在于，其可以以更灵活的方式来被稀疏地并行设置，以供在可重新编程的处理器或GPU上使用，同时使用最小量的存储器。在下文中，首先描述了变换背后的理论。之后详述了该方法的实现，以及针对图像处理中2D情形的扩展和可以被使用的各种设计选项。

当单个正弦频调的检测和测量中的频谱分析不得不被执行时，无限脉冲响应(IIR)滤波器结构被使用。

频谱能量的标准方法是离散傅立叶变换(DFT)，通常使用快速傅立叶变换(FFT)或离散余弦变换(DCT)算法来实现。

然而，存在仅需要在N点DFT的N-箱(N-bin)中心频率的子集上进行频谱分析的应用。用于在1D中计算稀疏FFT结果的流行且高效的技术是算法，其使用IIR滤波器实现来基于N个输入时间样本计算单个复DFT频谱箱值。

这个过程最常见的应用是检测单个连续波正弦频调的存在。作为1D计算，算法不旨在被用于其中图像是2D的图像处理。

算法基于计算长度为N的信号{x[n]}的k分量的概念

用乘以这个等式(1)的右边，我们得到：

其可以被写为

(3)的右边可以被看作信号{x[n]}和{h_k[n]}的离散线性卷积，其中：

事实上，如果{y_k[n]}表示该卷积的结果，那么我们有：

其可以被改写为

卷积被定义为两个函数的在一个被反转和移位之后的乘积的积分。由此，其是一种特殊的积分变换。

卷积定理表明，在适当的条件下，卷积的傅立叶变换是傅立叶变换的逐点乘积。换言之，一个域(例如，时域)中的卷积等于另一域(例如，频域)中的逐点乘法。

将(3)与(5)进行比较，明显的是，所需的X[k]是卷积的第N个样本：

X[k]＝y_k[N] (等式6)

对于k＝0，...，N-1。这意味着所需的值可以被获得作为具有脉冲响应{h_k[n]}的IIR线性系统的时间N中的输出样本。

现在将导出该系统的传递函数H_k(z)；这是其脉冲响应的L变换：

该几何级数是收敛的，并且其求和等于传递函数：

这给出以下差分方程：

等式(12)涉及与复数相乘，并且每个复数乘法导致四个实数乘法和四个实数加法。为了避免复杂的乘法，该函数可以乘以复共轭极点并被简化为如下：

二阶的该IIR的差分方程是：

并且这样的结构可以使用状态变量来描述：

并且我们令s[-1]＝s[-2]＝0

A＝s[n]

B＝s[n-1]

事实上，算法执行单个1D DFT系数的计算。与DFT相比，其具有若干优点，并且出于这一原因，其有时被用在1D应用中。

算法在仅需要很少的频谱分量的值而不是整个频谱时的情况中是有利的。一示例是识别按下具有特定音频脉冲的按钮。在这样的情形中，该算法可以显著地更快速。

将FFT算法用于计算DFT分量的效率很大程度上由信号长度N(N必须是2的幂)确定。相比而言，在算法的情形中，N可以是任意的，并且计算复杂度不变。

可以在任意时刻启动计算，不必像在FFT的情形中那样等待整个数据块。因而，从存储器容量的角度来看，算法的要求较低，并且其可以以非常低的等待时间执行。因此，算法不需要以位反转顺序对输入或输出数据进行任何重新排序。

1D 算法

1D 的算法具有非常基本的结构。我们可以从等式(17)开始。

一些中间处理在每个样本中被完成。与FFT一样，我们用样本块工作。

若干设置被需要以初始化1D 的计算：

1.采样速率

2.块大小，N

3.目标频率

一旦采样速率和块大小被选择，便存在计算所需常数的五步过程：

常数k、w、cosine、sine和coeff定义如下：

w＝(2π/N)*k

cosine＝cos w

sine＝sin w

coeff＝2*cosine (等式20)

对于每样本处理，三个变量被使用：S₀、S₁和S₂。S₁仅仅是最后一次迭代时S₀的值。S₂是两个迭代步骤之前(或者换言之，在S₁之前的一次迭代)的S₀的值。必须在每个样本块的开头将S₁和S₂初始化为零。

对于矩阵[n x m]的每个列(行)，计算以下三个等式：

{S₀＝coeff*S₁-S₂+sample

S₂＝S₁

S₁＝S₀

real＝(S₁-S₂*cosine)

imag＝(S_2*sine)

magnitude²＝real²+imag²} (等式21)

这是1D 算法的基本版本。如上面提到的，其给出与1D DFT相同的结果。也可以使用1D 的需要比基本版本更少的计算的版本，代价是相位信息，这意味着不计算变换的实部和虚部两者。将清楚的是，优选计算实部和虚部两者，并且更快的选项仅用于其中处理器开销被非常严格地限制的情形。

在更快的版本中，每样本处理是相同的，但块处理的结束是不同的。不是计算实数和虚数分量并接着将这些转换成相对平方幅度，而是直接计算以下而无需其中还计算实数和虚数分量的基本版本的步骤：

L变换版本的2D实现

应当再次注意，算法的这个通用版本是为1D计算定义的。在图像处理中，这种计算是不够的，因为用于将图像变换到频域中的计算需要在两个维度上完成：X和Y。另外，尽管的

1D实现等同于1D DFT，但对于2D而言，这将不是真的。因此，算法似乎不是对象检测和图像处理的候选者。的另一限制在于，没有太多能力来针对特定信号进行调谐和优化。

然而，本公开从1D 算法的原理开始描述了藉此利用2D实现将图像转换到频域的方法，但是将它们改变到可以在2D中被称为全新方法的程度，该全新方法在本文中被描述为L变换的2D变型。另外，由于该方法中的计算完全在频域中，而不需要返回到空间域，因此不要求2D计算等同于2D DFT。

图22和图23示出了的完整2D实现实际上将怎样是许多1D 计算的组合。

一选项将首先对图22的行进行各种1D计算，接着将这些结果用于第二步，其中所有1D 计算针对各列完成，如图23中那样。替代地，首先可以计算各列，接着是各行。

即使此处所描述的方法可以使用这样的实现，但由于若干原因其不是优选方式。首先，行的计算必须等待列的计算完成，或反之亦然。

意味着并行处理将是不可能的。其次，计算仍然不会真正稀疏。图24解说了这点。在该图中，针对2D实现示出了所需的计算，其中需要索引(i,j)中的频域值。在图24中，示出了该选项，其中首先计算各行，接着计算各列。1D计算将首先计算索引i处每行的值。在这之后，列的1D计算可以

被计算完成以获得索引j处的值。将清楚的是，在计算上这并不理想。对于频域变换领域的专家而言将清楚的是，的2D实现将以这样的方式改变数据，即原始图像无法在返回空间域时被重新创建。然而，如之前所阐述的，该方法通过仅使用频域日期来描述数据的分类。因此，此处所描述的方法中的驱动程序要具有尽可能快地为分类器生成最佳可能输入的计算，而不是驱动程序作为空间域数据。

接下来，本公开将描述在速度和检测方面具有用于分类器的经优化数据的一系列选项。具体而言，将描述如何最佳地捕捉视频流中的时间数据。

这些尤其是：

·使用多个特征，每个特征使用两个区域；

·选择由特征和区域覆盖的视频流序列中的帧数；

·为每个区域选择不同的目标频率；

·具有给每个区域的两个输入，每个输入是频域变换；

·具有给每个输入的可变核滤波器，其可以针对变换的实部和虚部两者被优化；

·具有给定义每个索引的频域变换的环路的输入的可变序列和形状；

·使用每个特征的特征对来为每个特征生成经标准化复向量；以及

·最后，将所有经标准化的复向量以单一格式组合在一起；

可以使这些计算比图24中的示例更稀疏。一种方式如图25所示，其中用于变换到频域的输入单元仅在需要该值的索引的位置周围被取得。然而，这仍然需要各行等待各列的结果，或反之亦然。优点是单位量的长度可以变成输入参数，从而允许特征之间的更多区分，同时还可以捕捉被分类的对象的细节。

更有效的计算如图26所示。这里，通过分开计算索引处的行和列的1D输出并接着将这组合成单个值来获取索引的结果。除了速度中的增益之外，这种方式的最大优点在于，在首先计算行的1D或者列的1D的情况下是没有区别的，因此可以并行计算行和列的值。通过如图27所示限制输入的长度可以实现甚至更大的速度增益，其中在这种情形中，只需要计算单个行和列输入。

如果考虑跟着在给定区域索引中得到结果的2个输入甚至不需要沿着行和列或甚至是毗邻的单元(如图28所示)，则用频域输入数据训练分类器的自由度的量变得甚至更大。

在以下描述中，通常每区域显示单个输入，以使图更加示意性。但是应该强调对于每个区域存在两个输入，如图29所示。

频域变换针对每个输入完成，从而给出实数和虚数。如所提到的，每个区域具有两个输入，并且在下文中描述了将它们组合成单个经标准化的复数值的方式。这也在图30中示出。

首先，区域1的两个实输入被组合：

区域1的两个虚输入被组合以给出相位：

对区域2的两个实和虚输入重复相同的过程：

接下来，区域1和区域2的实数值的结果在标准化中被组合：

这还针对区域1和区域2的虚数值完成：

以这种方式，形成1个特征的每对区域给出经标准化的复向量，如图30所示：

可以使用大量这样的经标准化的复向量来构建模型：

这种经标准化的复向量的格式正是此处描述的方法给予的给分类器的新输入类型的输入。对本领域专家而言将清楚的是，该格式允许将概率论和量子物理学的所有数学应用于分类。

与使空间域中的像素作为给分类器的输入相比，在所描述的方法中获得索引中的值所需的频域计算的数量将在很大程度上被减少。以这种方式获得的值仍将与频域中的形状信息强相关，同时还允许大量控制减少如混叠和周期信号等影响。这些影响的减少是重要的，因为一个关键目标是在每个索引中具有唯一结果。这里需要再次注意，对于该方法，不需要具有在空间域中重建图像的所有数据。目标是对频域信息的捕捉，其稀疏地编码被检测对象的位置和移动。

将清楚的是，当与直接使用空间域中的像素输入相比时，所创建的频域空间非常强烈地减少了分类器需要处理的参数量。当所描述的方法被用来捕捉只能在视频流中的帧序列中检测到的时间信息时，该优点被指数地放大。

返回到沿每个索引的1D计算(其不需要沿着行或列，而是自由的)，我们可以按如下方式将它们重写为：

coeff＝2·digital-filter (等式33)

S₀＝coeff·S₁-S₂+sample (等式35)

S₁＝S₀

S₂＝S₁

Real＝(S₁-S₂·sin(Aω+b)) (等式36)

我们看到在这种方法中，对于频域变换的实部和虚部两者，是怎样以利用参数a和b来致使传递函数可调谐的。

应当注意，对于区域的每个输入，可以针对每一者来分开地选择这些数字传递函数选项，这意味着第一输入和第二输入可以具有不同的离散数字传递函数设置。

如之前提到的，该方法的优点之一在于，所描述的许多选项还用于调谐在用作给分类器的输入之前要被清理的频域数据时的大量自由度。

这在图31中示出。我们看到对每个输入而言是如何存在选择目标频率、核环路中使用的输入的方向和顺序以及核环路中使用的底层传递函数的自由度的。

图32示出了可如何在优化阶段调整给核内环的输入的方向和顺序。

将清楚的是，此时该方法中的计算与使用L变换(等式7)创建Goertzel算法的理论非常不同。

其实质上也与Z变换不同，Z变换与L变换相连。为了描述起见，我们在这里称这种方法中使用的变换是L变换的2D变型。

本领域技术人员将清楚，通过该方法，仅需要计算索引中包含特征的频域值。而在使用FFT的情形中，必须计算频域中的所有值，因为FFT无法被稀疏地计算。同样重要的是，再次强调该方法不具有像FFT那样的图像输入大小的限制。实际上，甚至没有具有方形或矩形输入图像大小的限制，如图33所示。

接下来，描述了将该方法应用于从视频帧序列中提取时间信息。

图34示出了形成特征的每对区域不一定必须位于视频序列的同一帧中。而图35示出了核内环的每个输入的方向和顺序如何可以采用不限于视频帧序列的单个帧的路径。专家们将清楚，如果像素被直接用作来自空间域的输入，则与本文中所描述的方法相比，当在视频序列的各帧之间交叉引用像素时要求解的排列训练起来将慢得多且难得多。

图36解说了该方法允许选择被用来生成模型的频域变换的帧序列的自由度，从而允许真实的时间数据被用于内容的检测；

我们还在图37中看到，与像素的空间域相比，在频域中进行工作如何具有大的优势。而在空间域中，每个像素具有0到255之间的输入，而没有太多可能性来推断像素的良好性，相比之下在频域中，频域中的搜索空间最大部分是由大量噪声组成的，伴随着信号清晰地凸显出。因此，本文中所描述的方法还具有基于信号质量的更有效的优化逻辑的潜力，其潜在地也可以以无监督的方式完成。

图38示出了当使用该方法创建检测视频帧序列中的时间效应的模型时可用于所描述的方法的训练的可能的更高级别图。图38示出了序列中所使用的帧数如何是变量，并接着对于每个特征的每个索引(亦如图31所示)，目标频率被优化，底层环路的序列被选择并且在环路内使用的底层传递函数被优化。这是针对每个环路的实部和虚部完成的。优化的输出将是具有多个经标准化的复向量的格式，其可以被用作用于检测和分类视频帧序列中的时间效益的尤其有效的输入，但是该方法不限于这样的实现。

Claims

1.一种用于通过图像处理和对象检测的视频压缩的方法，所述方法由电子处理单元基于图像或数字视频图像流来执行，所述图像由所述视频流的单个帧或帧序列来定义，目的是增强并接着隔离表示要标识的内容的频域信号，并相对于所述图像或所述视频流内的所述内容减少或忽略频域噪声，包括以下步骤：

·从所述视频流的对应单个帧或对应帧序列获得数字图像或数字图像序列，所有的所述数字图像在空间域中被定义；

·选择一对或多对稀疏区域，每对稀疏区域覆盖所述单个帧的至少一部分或所述帧序列的至少两个帧，每对稀疏区域生成所选择的特征，每个区域由两个空间数据序列定义；

·通过以下方式将所选择的特征变换成频域数据：对于每个区域，通过L变换的2D变型来组合所述两个空间数据序列，改变每个区域的所述频域数据的传递函数、形状和方向，因而为所述所选择的特征的每一者生成经标准化的复向量；

·组合所有所述经标准化的复向量以定义要标识的所述内容的模型；以及

·将来自所述所选择的特征的该模型输入分类器中，因此获得用于对象检测或视觉显著性的数据以供视频压缩使用。

2.根据权利要求1所述的用于视频压缩的视频压缩方法，其特征在于，将所选择的特征变换成频域数据的步骤使用来自不同数量和/或选择的帧的空间数据。

3.根据权利要求1所述的视频压缩方法，其特征在于，搜索逻辑被用在全输入图像上以生成其中所述稀疏区域被标识的输入帧。

4.根据权利要求1所述的视频压缩方法，其特征在于，所述稀疏区域被分组在一起，要么可能彼此部分交叠要么并排放置，以增加局部分辨率。

5.根据权利要求1所述的视频压缩方法，其特征在于，关于所述两个轴的计算是并行执行的。

6.根据权利要求1所述的视频压缩方法，其特征在于，在所述变换步骤中，首先1D计算按行来执行，并且随后结果被用于第二步骤，其中1D 计算按列来执行，或反之亦然。

7.根据权利要求1所述的视频压缩方法，其特征在于，对于一对中的每个稀疏区域，不同的目标频率被选择。

8.根据权利要求1所述的视频压缩方法，其特征在于，用于到频域的变换步骤的输入单元仅在需要该值的索引的位置周围被取得。

9.根据权利要求1所述的视频压缩方法，其特征在于，所述索引的结果通过分开计算所述索引处的行和列的1D输出并接着将这组合成单个值来获取。

10.根据权利要求1所述的视频压缩方法，其特征在于，所述传递函数针对稀疏区域的每个输入来被分开选择，使得第一输入和第二输入具有不同的离散传递函数设置。