CN101999231A

CN101999231A - 利用基于模板的对象跟踪和增强的视频编码

Info

Publication number: CN101999231A
Application number: CN200980112735.0A
Authority: CN
Inventors: 斯塔拉姆·巴加瓦蒂; 琼·利亚奇; 俞璜
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2008-04-11
Filing date: 2009-04-07
Publication date: 2011-03-30
Also published as: JP2011517228A; BRPI0910478A2; EP2266320A2; US20110026607A1; WO2009126261A2; CA2720900A1; WO2009126261A3

Abstract

通过将数字图片的输入视频与存储的表示对象的性质和特性的信息相比较以形成标识和定位对象的对象定域信息来增强对象在数字图片中的可见性。输入视频和对象定域信息被编码并发送到接收机，在接收机处对输入视频和对象定域信息解码，并且通过经解码的对象定域信息来增强经解码的输入视频。

Description

利用基于模板的对象跟踪和增强的视频编码

与相关申请的交叉引用

本申请要求2008年4月11日提交的、题为“PROCESSINGOBJECTS WITHIN IMAGES”、序列号为No.61/123913(代理人案卷号PU080055)的美国临时专利申请的权益，这里通过引用将该临时专利申请全部并入。

技术领域

本发明总地涉及数字图片的传送，具体而言涉及增强所关注对象在数字图片尤其是以具有低分辨率、低比特率视频编码的单位显示的数字图片中的可见性。

背景技术

对于将视频内容递送到诸如蜂窝电话和PDA之类的手持设备的需求越来越大。因为屏幕尺寸较小、带宽有限且解码器端处理能力有限，视频是以低比特率、按低分辨率来编码的。低分辨率、低比特率视频编码的主要问题之一是对于感知到的视频质量至关重要的对象的劣化或丢失。例如，以下情况是很恼人的：在观看足球比赛或网球比赛的视频剪辑时，球不是清楚可见的。

发明内容

因此，希望突出所关注对象，以提高低分辨率、低比特率视频的主观视觉质量。在本发明的各种实现方式中，在给定所关注对象在数字图像中的大致位置和大小的情况下，增强对象在图像中的可见性，或者在细化对象的大致位置和大小之后增强对象的可见性。对象增强提供了至少两个益处。首先，对象增强使得对象更容易被看到和跟随，从而改善了用户体验。第二，对象增强帮助了对象在编码(即，压缩)阶段期间保持较小的劣化。本发明的一个主要应用是将视频递送到诸如蜂窝电话和PDA之类的手持设备，但是本发明的特征、概念和实现方式对于例如包括基于互联网协议的视频(低比特率、标准清晰度内容)在内的多种其他应用、情境和环境也可能是有帮助的。

本发明提供了突出视频中的所关注对象以提高低分辨率、低比特率视频的主观视觉质量。本发明的系统和方法能够处理具有不同特性的对象并且能够在全自动、半自动(即，手工辅助)和全手工模式中操作。对象的增强可在预处理阶段(即，在视频编码阶段之前或之中)或者在后期处理阶段(即，在视频解码阶段之后)执行。

根据本发明，通过以下方式来增强对象在数字图片中的可见性：提供包含对象的数字图片的输入视频，存储表示对象的性质和特性的信息，并且响应于视频输入和表示对象的性质和特性的信息而形成标识和定位对象的对象定域信息(object localization information)。对输入视频和对象定域信息编码和解码，并且响应于经解码的对象定域信息，形成输入视频的包含对象和数字图片中对象所位于的区域的那个部分的经增强视频。

附图说明

图1是根据本发明构造的用于增强对象在数字视频中的可见性的系统的优选实施例的框图。

图2是图1的系统提供的大致对象定域。

图3A至3D示出了根据本发明的对象增强中的工作流程。

图4是根据本发明可用于细化对象标识信息和对象位置信息的对象边界估计算法的流程图。

图5A至5D示出了根据本发明的任意形状的对象的边界的位阶集合(level set)估计的概念的实现方式。

图6是根据本发明的对象增强算法的流程图。

图7A至7C示出了可用于说明编码阶段期间对象标识信息和对象位置信息的细化的16×16宏块的三种可能的细分。

具体实施方式

参考图1，根据本发明构造的对象增强系统可以跨越发送机10中的所有组件，或者对象增强组件可以在接收机20中。在过程链中有三个可以执行对象突出的阶段：(1)预处理，其中在编码(即，压缩)阶段之前在发送机10中增强对象；(2)编码，其中通过对关于对象及其位置的信息的细化，在发送机10中向包含对象的所关注区域给予特殊对待；以及(3)后期处理，其中在利用从发送机10通过比特流作为元数据传送来的关于对象及其位置的附加信息进行解码之后，在接收机20中增强对象。根据本发明构造的对象增强系统可被布置为仅在上述阶段之一中、在上述阶段之中的两个阶段中或者在所有上述三个阶段中提供对象突出。

图1的用于增强对象在数字图片中的可见性的系统包括用于提供包含所关注对象的输入视频的装置。包含要被增强可见性的对象的数字图片的来源可以是具有传统构造和操作的电视摄像机并且由箭头12表示。

图1的系统还包括用于存储表示所关注对象的性质和特性的信息(例如，对象模板)并且响应于视频输入和表示对象的性质和特性的信息来形成标识和定位对象的对象定域信息的装置。这种装置在图1中被标识为对象定域模块14，其包括用于以帧为单位扫描输入视频以在图片中识别具有与存储的表示所关注对象的性质和特性的信息类似的性质和特性的对象(即，对象是什么)和定位该对象(即，对象在何处)的装置。对象定域模块14可以是具有传统构造和操作的单元，其以帧为单位扫描输入视频的数字图片，并且将输入视频的数字图片的被扫描的区段与存储的表示所关注对象的性质和特性的信息相比较，从而在由于扫描特定区段而形成的信息与存储的表示对象的性质和特性的信息类似时识别并定位(按数字图片的网格坐标)所关注对象。

一般地，对象定域模块14在识别和定位所关注对象时实现以下方法中的一种或多种：

·对象跟踪-对象跟踪器的目标是定位视频中的运动对象。通常，在给定来自先前帧的运动对象的历史的情况下，跟踪器估计当前帧中的对象参数(例如，位置、大小)。跟踪方案可基于例如模板匹配、光流、卡尔曼滤波器、均值漂移分析、隐式马尔可夫模型和粒子滤波器。

·对象检测-对象检测的目标是基于关于对象的先前知识来检测图像或视频帧中的对象的存在和位置。对象检测方法一般采用自上而下和自下而上方案的组合。在自上而下方案中，对象检测方法是基于从人类关于所检测的对象的知识得出的规则的。在自下而上方案中，对象检测方法将对象与低级别结构特征或图案关联起来，然后通过搜索这些特征或图案来定位对象。

·对象分割-在此方案中，图像或视频被分解成其构成“对象”，这些构成“对象”可包括语义实体或视觉结构，比如色块。此分解通常是基于对象的运动、颜色和纹理属性的。对象分割具有若干的应用，包括紧凑视频编码、自动和半自动的基于内容的描述、影片后期制作、以及场景解释。尤其，分割通过提供对场景的基于对象的描述而简化了对象定域问题。

图2示出了由对象定域模块14提供的大致对象定域。用户例如在对象所位于的区域周围绘出一椭圆，以大致定位对象。最终，大致对象定域信息(即，椭圆的中心点、长轴和短轴参数)被细化。

理想情况下，对象定域模块14在全自动模式中操作。然而，实际上，可能需要一些手工辅助来纠正系统所犯的差错或者至少限定供系统定域的重要对象。增强非对象区域可能导致观看者分散注意力、错过真正的动作。为了避免或最小化此问题，用户如上所述可以在对象周围绘出椭圆，而系统随后可以从指定的位置跟踪对象。如果在某一帧中成功定位到对象，则对象定域模块14输出相应的椭圆参数(即，中心点、长轴和短轴)。理想情况下，此定界椭圆的轮廓将与对象的轮廓一致。

然而，当参数可能只是大致的且所得到的椭圆没有严密包含对象，并且对象增强被应用时，可能发生两个问题。第一，对象可能没有被完全增强，因为椭圆没有包括整个对象。第二，非对象区域可能被增强。因为这两个结果都可能是不合需要的，所以在这种情况下，在增强之前细化对象区域是有用的。在下文中更详细地关注对象定域信息的细化。

图1的系统还包括以下装置：该装置用于响应于视频输入和从对象定域模块14接收的对象定域信息，形成数字图片的包含所关注对象和对象所位于的区域的那个部分的经增强视频。这种装置在图1中被标识为对象增强模块16，其可以是具有传统构造和操作的单元，通过向数字图片的包含所关注对象的区域应用传统的图像处理操作来增强该区域的可见性。以帧为单位从对象定域模块14接收的对象定域信息包括所关注对象所位于的、具有预定大小的区域的网格坐标。此外，如上所述，对象增强帮助减轻增强阶段之后的编码阶段期间对象的劣化，下文中将对其加以描述。截至此时图1的系统的操作对应于以上所述的操作的预处理模式。

当增强对象时，通过在所关注对象所位于的区域中应用图像处理操作来提高对象的可见性。这些操作可以沿着对象边界来应用(例如，边缘锐化)，在对象内部应用(例如，纹理增强)，甚至可能在对象外部应用(例如，对比度增大、在对象区域之外模糊)。例如，吸引更多注意力到对象的一种方式是对对象内部和沿着对象轮廓的边缘进行锐化。这使得对象中的细节更可见，并且还使得对象从背景中突显出来。另外，更锐利的边缘往往能更好地从编码中幸存下来。另一种可能方式是放大对象，例如通过反复地应用平滑、锐化和对象细化操作(不一定按此顺序)。

图3A至3D示出了对象增强过程中的工作流程。图3A是足球视频中的单个帧，其中关注的对象是足球。图3B示出了对象定域模块14的输出，即该帧中的足球的对象定域信息。图3C示出了区域细化步骤(下文中更详细关注)，其中图3B的大致对象位置信息被细化以形成对对象边界的更准确估计，即围绕着球的浅色线。图3D示出了在应用对象增强(在此示例中是边缘锐化)之后的结果。注意，与图3A的原始帧中相比，在图3D中足球更锐利，因而更可见。对象还具有更高的对比度，这一般指的是使深色更深并使浅色更浅。

在图1的系统中包括对象增强提供了重大优点。与有缺陷的跟踪和失真的增强相关联的问题得到了克服。有缺陷的跟踪可能造成难以定位对象。在帧与帧之间，对象位置可能有轻微偏差，并且每个帧可能以不同的方式有轻微偏差。这可能导致闪烁，闪烁例如是由于在各个帧中背景的片段被增强和/或在各个帧中对象的不同部分被增强而引起的。此外，常见的增强技术在某些情况下可能引入失真。

如上所述，当对象定域信息只是近似了每个帧中对象的性质和对象的位置时，可能需要在增强之前对对象定域信息进行细化，以避免对对象所位于的区域的边界之外的特征进行增强。

对象定域模块14对对象定域信息的形成和将对象定域信息递送到对象增强模块16如上所述可以是全自动的。随着输入视频的帧被对象定域模块14接收到，对象定域信息被对象定域模块所更新，并且经更新的对象定域信息被递送到对象增强模块16。

对象定域模块14对对象定域信息的形成和将对象定域信息递送到对象增强模块16也可以是半自动的。不是将对象定域信息直接从对象定域模块14递送到对象增强模块16，而是用户在得到了对象定域信息之后可以手工向输入视频的数字图片添加标记，例如边界线，这些标记限定了对象所位于的具有预定大小的区域。

形成对象定域信息和将对象定域信息递送到对象增强模块16也可以是全手工的。在这种操作中，用户查看输入视频的数字图片并且手工向输入视频的数字图片添加限定了对象所位于的具有预定大小的区域的标记，例如边界线。实际上，对于实况事件报导，不推荐全手工操作。

在必要或希望时对对象定域信息的细化包括对象边界估计，其中估计对象的确切边界。对确切边界的估计在没有不自然的对象外观和运动的副作用的情况下帮助增强对象可见性，并且是基于若干个标准的。公开了用于对象边界估计的三种方案。

第一种是基于椭圆的方案，其通过在某一范围的椭圆参数上搜索，来确定或识别最严密地划定对象边界的椭圆。用于对象边界估计的第二种方案是基于位阶集合的搜索，其中获得对象邻域的位阶集合，然后构造对最有可能表示对象边界的位阶集合轮廓的搜索。用于对象边界估计的第三种方案包括曲线演化方法(例如轮廓或蛇形线)，这些方法可用于以某些约束来收缩或扩展曲线，以便其收敛到对象边界。下文中仅更详细关注用于对象边界估计第一和第二种方案。

在基于椭圆的方案中，对象边界估计相当于确定最严密地划定对象边界的椭圆的参数。此方案在初始值(即，对象定域模块14的输出)周围的某一范围的椭圆参数上搜索，并且确定每个椭圆划定对象边界的严密度。图4中示出的该算法的输出是最严密定界的椭圆。

椭圆的严密度度量被定义为沿着椭圆边缘的图像强度的平均梯度。此度量的原理在于，最严密的定界椭圆应当密切地跟随对象轮廓，而图像强度的梯度通常沿着对象轮廓(即，对象与背景之间的边缘)较高。该对象边界估计算法的流程图在图4中示出。用于细化参数的搜索范围(Δ_x，Δ_y，Δ_a，Δ_b)是用户指定的。

图4的流程图开始于计算平均强度梯度。然后初始化变量并且进入用于水平中心点位置、垂直中心点位置和两个轴的四个嵌套循环。如果由此中心点和两个轴描述的椭圆产生了更好(即，更大)的平均强度梯度，那么此梯度值和此椭圆被标注为到目前为止最好的。接下来是在所有四个循环上循环，退出时得到最好的椭圆。

基于椭圆的方案可被应用到对象与背景之间的边界具有一致的高梯度的环境。然而，此方案也可应用到边界不具有一致高梯度的环境。例如，即使对象和/或背景在沿着对象/背景边界的强度上有变动，此方案也是有用的。

基于椭圆的方案在典型实现方式中产生对最佳拟合椭圆的描述。该描述通常包括中心点以及长轴和短轴。

基于椭圆的表示可能不足以描述具有任意形状的对象。即使是椭圆形的对象在因运动而模糊或者部分被遮挡时也可能看起来具有不规则形状。位阶集合表示帮助实现了对任意形状对象的边界的估计。

图5A至5D示出了用于对象边界估计的位阶集合方案的概念。假定强度图像I(x，y)是例如图5B所示的连续强度表面，而不是例如图5A所示的离散强度的网格。强度值i上的位阶集合是由I_I(i)＝{(x，y)|I(x，y)＝i}定义的闭合轮廓的集合。该闭合轮廓可被描述为连续曲线，或者由沿着该曲线的离散像素的串来描述。图像I的位阶集合表示是不同强度位阶值上的位阶集合的集合(即，L_I(M)＝{I_I(i)|i∈M})。例如，M＝{0，...，255}或M＝{50.5，100.5，200.5}。可以通过若干方法从图像中提取位阶集合。这些方法之一是每次在四个像素的集合之间应用双线性插值，以便将离散强度网格转换成在空间和强度值上都连续的强度表面。然后，通过计算该表面与例如图5C所示的一个或多个位阶平面(即，具有指定位阶的水平平面)的交集，来提取出例如图5D所示的位阶集合。

位阶集合表示在许多方面类似于地形图。地形图通常包括各种高程值的闭合轮廓。

实践中，图像I可以是包含其边界要被估计的对象的子图像。提取位阶集合表示L_I(M)，其中M＝{i₁，i₂，...，i_N}。可以基于对象像素的大概强度来构造集合M，或者集合M可以就简单地以固定的步长跨越整个强度范围(例如，M＝{0.5，1.5，...，254.5，255.5})。然后，考虑集合L_I(M)中包含的所有位阶集合曲线(即，闭合轮廓)C_j。对象边界估计被安排成确定最满足与对象有关的若干标准的位阶集合曲线C^*的问题。这些标准可包括以下变量等等：

·沿着C_j的平均强度梯度；

·C_j内的面积；

·C_j的长度；

·C_j的中心的位置；

·C_j所包含的像素的强度的均值和/或方差。

这些标准可基于先前的关于对象的知识来向这些变量施加约束。在下文中，描述了使用位阶集合的对象边界估计的一种具体实现方式。

令m_ref，s_ref、a_ref和x_ref＝(x_ref，y_ref)分别为对象的平均强度、强度标准偏差、面积和中心的基准值。可以基于先前的关于对象的知识(例如，来自对象定域模块14的、例如从椭圆获得的对象参数)来初始化这些值。位阶的集合M随后被构造为：

M＝{i_min，i_min+Δ_l，i_min+2Δ_l，…，i_max}，

其中

并且

其中N是预设值(例如，10)。注意

表示向下取整运算。

对于特定的位阶集合曲线C_j，令m_j、s_j、a_j和x_j＝(x_j，y_j)分别为C_j所包含的图像区域的平均强度、强度标准偏差、面积和中心的测量值。还计算了沿着C_j的平均强度梯度G_avg(C_j)。换言之，G_avg(C_j)是C_j上的每个像素处的梯度大小的平均值。对于每个C_j，现在如下计算一个分数：

S(C_j)＝G_avg(C_j)S_a(a_ref，a_j)S_x(x_ref，x_j)，

其中S_a和S_x是相似性函数，其输出值位于范围[0，1]中，值越高表明基准值和测量值之间的匹配越好。例如，S_a＝exp(-|a_ref-a_j|)并且S_x＝exp(-||x_ref-x_j||₂)。对象边界C^*随后被估计为使此得分达到最大的曲线(即，

在估计对象边界之后，可以利用学习因子α∈[0，1](例如，

)来更新基准值m_ref，s_ref、a_ref和x_ref。在视频序列的情况下，因子α可以是时间(例如，帧索引)t的函数，其开始于高值，然后随着每个帧而减小，最后饱和到固定的低值α_min。

在对象的增强中，通过在对象的邻域中应用图像处理操作来提高对象的可见性。这些操作可以沿着对象边界来应用(例如，边缘锐化)，在对象内部应用(例如，纹理增强)，甚至可能在对象外部应用(例如，对比度增大)。在这里描述的实现方式中，提出了若干种用于对象增强的方法。第一种是对对象内部和沿着其轮廓的边缘进行锐化。第二种是通过反复地应用平滑、锐化和边界估计操作(不一定按此顺序)来放大对象。其他可能的方法包括使用形态滤波器和对象替换。

吸引更多注意力到对象的一种方式是对对象内部和沿着对象的轮廓的边缘进行锐化。这使得对象中的细节更可见，并且还使得对象从背景中突显出来。另外，更锐利的边缘往往能更好地从压缩中幸存下来。通过锐化来增强对象的算法每次一帧地在对象上操作，并且以强度图像I(x，y)和由对象定域模块14提供的对象参数(即，位置、大小等等)作为其输入。该算法包括如下三个步骤：

·估计对象O的边界。

·向对象边界内和对象边界上的图像I中的所有像素应用锐化滤波器F_α。这给出了O所包含的所有像素的新锐化值I_sharp(x，y)，其中I_sharp(x，y)＝(I*F_α)(x，y)，并且(I*F_α)表示图像I与锐化滤波器F_α的卷积。

·对于O内部或O上的所有(x，y)，用I_sharp(x，y)来替换像素I(x，y)。

锐化滤波器F_α被定义为Kronecker(克罗内克)delta函数与离散拉普拉斯算符

之差：

F_{α} (x, y) = δ (x, y) - {&dtri;}_{α}^{2} (x, y) .

参数α∈[0，1]控制拉普拉斯算符的形状。实践中，构造3×3滤波器内核，其中内核的中心为原点(0，0)。这种内核的一个示例如下所示：

F_{1} (x, y) = [\begin{matrix} - 0.5 & 0 & - 0.5 \\ 0 & 3.0 & 0 \\ - 0.5 & 0 & - 0.5 \end{matrix}]

通过放大进行的对象增强尝试通过反复应用平滑、锐化和边界估计操作(不一定按此顺序)来扩展对象的轮廓。对象放大算法的具体实施例的流程图在图6中示出。该算法以强度图像I(x，y)和由对象定域模块14提供的对象参数作为其输入。首先，隔离出包含对象并且在对象周围有充足的余裕的区域(子图像J)并且利用高斯滤波器来平滑该区域。此操作将对象边界向外扩散了几个像素。然后，应用如前所述的锐化操作以使得边缘更清楚。利用当前估计的对象边界以及经平滑和锐化的子图像(J_smoothsharp)，应用边界估计算法来获得对象边界的新估计O。最后，O所包含的图像I中的所有像素被子图像J_smoothsharp中的相应像素所替换。

平滑滤波器G_α是二维高斯函数：

G_{σ} (x, y) = \frac{1}{2 π σ^{2}} \exp (- \frac{x^{2} + y^{2}}{2 σ^{2}}) .

参数σ＞0控制着高斯函数的形状，值越大，结果就越平滑。实践中，构造3×3滤波器内核，其中内核的中心为原点(0，0)。这种内核的一个示例如下所示：

G_{1} (x, y) = [\begin{matrix} 0.0751 & 0.1238 & 0.0751 \\ 0.1238 & 0.2042 & 0.1238 \\ 0.0751 & 0.1238 & 0.0751 \end{matrix}]

图1的系统还包括用于对从对象增强模块16输出的经增强的视频进行编码的装置。这种装置在图1中被标识为对象知晓型编码器模块18，其可以是具有传统构造和操作的模块，其通过向包含所关注对象的所关注区域给予特殊对待来在重要对象的劣化达到最低限度的情况下压缩经增强的视频，其中特殊对待的方式例如向所关注区域分配更多比特或者执行将更好地保护对象的模式判决。这样，对象知晓型编码器18利用了经增强的对象可见性来以更高的保真度对对象编码。

为了优化输入视频的增强，对象知晓型编码器18从对象定域模块14接收对象定域信息，从而更好地保护了对对象所位于的区域的增强并因此更好地保护了对对象的增强。不论增强是否被保护，与没有由对象知晓型编码器18进行的编码时相比，对象所位于的区域都被更好地保护。然而，增强也使压缩期间的对象劣化达到最低限度。这种优化的增强是通过适当地管理编码判决和资源(例如比特)的分配来实现的。

对象知晓型编码器18可被布置成进行“对象友好型”宏块(MB)模式判决，即不那么可能劣化对象的判决。这种布置例如可包括出于预测目的对MB的对象友好型划分，例如图7A至7C所示。另一种方案是向包含对象的MB强制应用更精细的量化，即更多的比特。这使得对象得到更多的比特。另一种方案瞄准对象本身获得更多比特。还有一种方案在率失真优化过程期间使用加权失真量度，其中属于所关注区域的像素将比所关注区域外的像素具有更高的权重。

参考图7A至7C，示出了16×16宏块的三种可能的细分。这种细分是编码器为了确定如何对MB编码而做出的模式判决的一部分。一个关键量度是，如果对象占据了该细分部的面积的更大比例，则对象在编码期间就不那么可能劣化。这是因为劣化对象就会劣化该细分部的更大部分的质量。因此，在图7C中，对象仅构成每个16×8细分部的一小部分，因此这不被认为是一种好的细分。各种实现方式中的对象知晓型编码器知道对象位于何处并且将此位置信息计入其模式判决中。这种对象知晓型编码器倾向于使得对象占据细分部的较大部分的细分。整体上，对象知晓型编码器18的目标是帮助对象在编码过程期间遭受尽可能小的劣化。

如图1所示，对象定域模块14、对象增强模块16和对象知晓型编码器模块18是接收包含所关注对象的数字图片的输入视频并且发送对象可见性得到了增强的压缩视频流的发送机10的组件。所发送的压缩视频流被接收机20(例如蜂窝电话或PDA)所接收。

因此，图1的系统还包括用于对接收机20所接收的压缩视频流中的经增强视频进行解码的装置。这种装置在图1中被标识为解码器模块22，其可以是具有传统构造和操作的模块，其通过向包含所关注对象的所关注区域给予特殊对待来在重要对象的劣化达到最低限度的情况下对经增强的视频进行解压缩，其中特殊对待的方式例如向所关注区域分配更多比特或者执行将更好地保护经增强的对象可见性的模式判决。

暂时忽略图1中以虚线形式示出的对象知晓型后期处理模块24，从解码器模块22输出的经解码视频被引导至显示组件26，例如蜂窝电话或PDA的屏幕，以便查看具有增强的对象可见性的数字图片。

以上所述的图1系统的操作模式被表征为预处理，即对象是在对象增强模块16进行编码操作之前被增强的。序列在被压缩之前被修改。

取代如上所述在编码之前增强对象的可见性，输入视频可以被直接引导至对象知晓型编码器模块18，如虚线19所示，并且在对象的可见性未被增强的情况下被编码，并且让接收机20中的对象知晓型后期处理模块24来实现增强。图1系统的这种操作模式被表征为后期处理，即对象的可见性在编码和解码阶段之后被增强并且可以通过利用通过比特流作为元数据发送的诸如对象的位置和大小之类的关于对象的附加信息来实现。后期处理操作模式具有接收机复杂度增大的缺点。在后期处理操作模式中，当对象的可见性是在接收机中被增强时，发送机10中的对象知晓型编码器18只利用了对象位置信息。

如上所述，发送机端对象突出系统(即，预处理操作模式)的一个优点在于避免了增大通常是低功率设备的接收机端的复杂度的需要。此外，预处理操作模式允许了利用标准视频解码器，这有助于系统的部署。

所描述的实现方式可以实现在方法或过程、装置或者软件程序中。即使只是在单个实现形式的上下文中论述的(例如，只论述为方法)，所论述的特殊的实现方式也可以以其他形式来实现(例如，装置或程序)。装置例如可以实现在适当的硬件、软件和固件中。方法例如可以实现在诸如计算机或其他处理设备之类的装置中。此外，方法可以通过由处理设备或其他装置执行指令来实现，并且这种指令可被存储在诸如CD或其他计算机可读存储设备之类的计算机可读介质或集成电路上。

正如对本领域的技术人员来说显而易见的，实现方式也可产生被格式化为携带例如可被存储或传送的信息的信号。该信息例如可包括用于执行方法的指令，或者由上述实现方式之一产生的数据。例如，信号可被格式化为携带各种类型的对象信息(例如，位置、形状)作为数据，和/或携带经编码的图像数据作为数据。

虽然这里是参考特定实施例来图示和描述本发明的，但是并不希望本发明限于所示出的细节。而是可以在权利要求的等同物的范围内、在不脱离本发明的情况下对细节进行各种修改。

Claims

1.一种用于增强对象在数字图片中的可见性的系统，包括：

用于提供包含对象的数字图片的输入视频的装置；

用于进行以下操作的装置：

(a)存储表示对象的性质和特性的信息，以及

(b)响应于输入视频和表示对象的性质和特性的信息，形成标识和定位对象的对象定域信息；

用于对输入视频和对象定域信息编码的装置；

用于发送经编码的输入视频和经编码的对象定域信息的装置；

用于接收经编码的输入视频和经编码的对象定域信息的装置；

用于对经编码的输入视频和经编码的对象定域信息解码的装置；

用于响应于经解码的输入视频和经解码的对象定域信息、形成输入视频的包含对象和数字图片中对象所位于的区域的那个部分的经增强视频的装置；以及

用于显示经增强视频的装置。

2.根据权利要求1所述的用于增强对象在数字图片中的可见性的系统，其中，所述用于形成对象定域信息的装置包括：

(a)用于扫描输入视频的区段的装置，以及

(b)用于将输入视频的被扫描区段与存储的表示对象的性质和特性的信息相比较以识别和定位图片中具有与存储的表示对象的性质和特性的信息相类似的性质和特性的那个对象的装置。

3.根据权利要求2所述的用于增强对象在数字图片中的可见性的系统，其中：

(a)对象定域信息只近似了对象的身份和位置，并且

(b)所述用于对经编码的输入视频和经编码的对象定域信息解码的装置包括用于细化对象定域信息的装置。

4.根据权利要求3所述的用于增强对象在数字图片中的可见性的系统，其中所述用于细化对象定域信息的装置包括用于进行以下操作的装置：

(a)估计对象的边界，以及

(b)增强对象。

5.根据权利要求2所述的用于增强对象在数字图片中的可见性的系统，其中：

(a)对象定域信息只近似了对象的身份和位置，并且

(b)所述用于对输入视频和对象定域信息编码的装置包括用于细化对象定域信息的装置。

6.根据权利要求5所述的用于增强对象在数字图片中的可见性的系统，其中所述用于细化对象定域信息的装置包括用于进行以下操作的装置：

(a)估计对象的边界，以及

(b)增强对象。

7.一种用于增强对象在数字图片中的可见性的方法，包括以下步骤：

提供包含对象的数字图片的输入视频；

存储表示对象的性质和特性的信息；

响应于输入视频和表示对象的性质和特性的信息，形成标识和定位对象的对象定域信息；

对输入视频和对象定域信息编码；

发送经编码的输入视频和经编码的对象定域信息；

接收经编码的输入视频和经编码的对象定域信息；

对经编码的输入视频和对象定域信息解码；

响应于经解码的输入视频和经解码的对象定域信息，形成输入视频的包含对象和数字图片中对象所位于的区域的那个部分的经增强视频；以及

显示经增强视频。

8.根据权利要求7所述的用于增强对象在数字图片中的可见性的方法，其中，所述形成对象定域信息的步骤包括以下步骤：

(a)扫描输入视频的区段，以及

(b)将输入视频的被扫描区段与存储的表示对象的性质和特性的信息相比较，以识别和定位图片中具有与存储的表示对象的性质和特性的信息相类似的性质和特性的那个对象。

9.根据权利要求8所述的用于增强对象在数字图片中的可见性的方法，其中：

(a)对象定域信息只近似了对象的身份和位置，并且

(b)所述用于对输入视频和对象定域信息解码的步骤包括细化对象定域信息的步骤。

10.根据权利要求9所述的用于增强对象在数字图片中的可见性的方法，其中所述用于细化对象定域信息的步骤包括以下步骤：

(a)估计对象的边界，以及

(b)增强对象。

11.根据权利要求8所述的用于增强对象在数字图片中的可见性的方法，其中：

(a)对象定域信息只近似了对象的身份和位置，并且

(b)所述对输入视频和对象定域信息编码的步骤包括细化对象定域信息的步骤。

12.根据权利要求9所述的用于增强对象在数字图片中的可见性的方法，其中所述细化对象定域信息的步骤包括以下步骤：

(a)估计对象的边界，以及

(b)增强对象。

13.一种用于增强对象在数字图片中的可见性的系统，包括：

用于提供包含对象的数字图片的输入视频的装置；

用于进行以下操作的装置：

(a)存储表示对象的性质和特性的信息，以及

(b)响应于输入视频和表示对象的性质和特性的信息，形成标识和定位对象的对象定域信息；以及

用于响应于视频输入和对象定域信息对输入视频编码的装置。