CN101999138A - 增强数字图像中对象的可见性的系统和方法 - Google Patents
增强数字图像中对象的可见性的系统和方法 Download PDFInfo
- Publication number
- CN101999138A CN101999138A CN200980112778.9A CN200980112778A CN101999138A CN 101999138 A CN101999138 A CN 101999138A CN 200980112778 A CN200980112778 A CN 200980112778A CN 101999138 A CN101999138 A CN 101999138A
- Authority
- CN
- China
- Prior art keywords
- video
- digital picture
- strengthening
- locating information
- observability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 46
- 230000002708 enhancing effect Effects 0.000 title claims description 31
- 238000005728 strengthening Methods 0.000 claims description 30
- 230000004044 response Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 abstract description 7
- 230000004807 localization Effects 0.000 abstract 1
- 230000001149 cognitive effect Effects 0.000 description 12
- 230000006866 deterioration Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 241000270295 Serpentes Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000004087 circulation Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63B—APPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
- A63B24/00—Electric or electronic controls for exercising apparatus of preceding groups; Controlling or monitoring of exercises, sportive games, training or athletic performances
- A63B24/0021—Tracking a path or terminating locations
- A63B2024/0028—Tracking the path of an object, e.g. a ball inside a soccer pitch
- A63B2024/0034—Tracking the path of an object, e.g. a ball inside a soccer pitch during flight
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30221—Sports video; Sports image
- G06T2207/30224—Ball; Puck
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
Abstract
通过将数字图像的输入视频与代表对象的属性和特性的存储信息相比较,来产生对对象加以识别和定位的对象定位信息,从而增强数字图像中对象的可见性。通过图像处理来增强对象以及对象所处的区域的可见性,并且对增强输入视频进行编码。
Description
相关申请的交叉参考
本申请要求于2008年4月11日提交的题为“PROCESSINGIMAGES HAVING OBJECTS”的美国临时专利申请序号No.61/123844(代理公司案号PU080054)的权益,其全部内容通过引用合并于此。
技术领域
本发明总体上涉及数字图像的传输,具体地,涉及数字图像中感兴趣对象的可见性的增强,尤其是在具有低分辨率、低比特率视频编码的单元中显示的数字图像。
背景技术
越来越需要向诸如蜂窝电话和PDA之类的手持设备传递视频内容。由于屏幕尺寸小,有限的带宽以及有限的解码器端处理能力,以低比特率和低分辨率来编码视频。低分辨率、低比特率视频编码的一个主要问题在于,对于感知到的视频质量的至关重要的对象劣化和丢失。例如,观看足球比赛或网球比赛的视频剪辑如果球不清楚可见,则是令人烦恼的。
发明内容
因此,期望加亮感兴趣对象,以提高低分辨率、低比特率视频的主观视觉质量。在本发明的各种实现方式中,给定图像中对象的近似位置和尺寸的情况下,增强了数字图像中感兴趣对象的可见性。或者在细化对象的近似位置和尺寸之后,增强对象的可见性。对象增强提供了至少两个优点。首先,对象增强使得更容易看到和跟随对象,从而提高用户体验。第二,对象增强在编码(即,压缩)阶段期间有助于对象保持较少劣化。本发明的一个主要应用是:向诸如蜂窝电话和PDA之类的手持设备传递视频,但是本发明的特征、构思、以及实现方式对于例如包括通过互联网协议的视频(低比特率、标清内容)的各种其他应用、上下文以及环境也是有用的。
本发明提供了:加亮视频中的感兴趣对象,以提高低分辨率、低比特率视频的主观视觉质量。本发明的系统和方法能够处理不同特性的对象,并且以全自动、半自动(即,手动辅助)、以及全手动模式进行操作。可以在预处理阶段(即,在视频编码阶段之前或期间)或者在后处理阶段(即,在视频解码阶段之后)执行对象的增强。
根据本发明,通过以下操作来增强数字图像中对象的可见性:提供包含对象在内的输入视频;存储代表对象的属性和特性的信息;以及响应于视频输入以及代表对象的属性和特性的信息,产生对对象进行识别和定位的对象定位信息。响应于对象定位信息,根据输入视频产生输入视频中包含对象的那部分以及对象所处的区域的增强视频,并且对增强视频进行编码。
附图说明
图1是用于增强根据本发明构造的数字视频中对象的可见性的系统的优选实施例的框图。
图2示出了图1系统所提供的近似对象定位。
图3A至图3D示出了根据本发明的对象增强的工作流。
图4是根据本发明实施例的用于对象边界估计算法的流程图,该对象边界估计算法可以用于细化对象识别信息和对象位置信息。
图5A至5D示出了根据本发明的、任意形状对象的边界的水平集估计的构思的实现方式。
图6是根据本发明的对象放大算法的流程图。
图7A至7C示出了三种可能的16×16宏块再划分,这用于说明编码阶段期间的对象识别信息和对象位置信息的细化。
具体实施方式
参照图1,根据本发明构造的对象增强系统可以涵盖发射机10中的所有组件,或者对象增强组件可以在接收机20中。在可以执行对象加亮的处理链中有三个阶段:(1)预处理,在编码(即,压缩)阶段之前在发射机10中增强对象;(2)编码,通过与对象及其位置有关的信息的细化,在发射机10中对包含对象在内的感兴趣区域给予特殊处理;以及(3)后处理,在解码之后,通过作为元数据的比特流,利用从发射机10传输的与对象及其位置有关的辅助信息,在接收机20处增强对象。根据本发明构建的对象增强系统可以被布置为在上述阶段的仅一个阶段中、或在上述阶段的两个阶段中,或在上述全部三个阶段中提供对象加亮。
用于增强数字图像中对象的可见性的图1系统包括:用于提供包含感兴趣对象的输入视频的装置。包含要增强其可见性的对象在内的数字图像的源可以是传统结构和操作的电视摄像机,并且由箭头12表示。
图1系统还包括:用于以下操作的装置:存储代表感兴趣对象(例如,对象模板)的属性和特性的信息的装置,并且响应于视频输入和代表对象的属性和特性的信息,产生对对象加以识别和定位的对象定位信息。图1中对象定位模块14所表示的这种装置包括用于以下操作的装置:逐帧地扫描输入视频,以在图像中识别具有类似于存储信息的属性和特性的对象(即,对象是什么)并定位对象(即,对象在何处),所述存储信息代表感兴趣对象的属性和特性。对象定位模块14可以是传统结构和操作的单元,逐帧地扫描输入视频的数字图像,并且将输入视频的数字图像中所扫描的部分与代表感兴趣对象的属性和特性的存储信息相比较,以在根据特定部分的扫描而产生的信息类似于代表对象的属性和特性的存储信息时,通过数字图像的网格坐标来识别和定位感兴趣对象。
通常,对象定位模块14实现对感兴趣对象进行识别和定位的以下方法中的一个或多个:
●对象跟踪-对象跟踪器的目标是定位视频中的运动对象。典型地,在根据先前帧给出运动对象的历史的情况下,跟踪器对当前帧中的对象参数(例如,位置、尺寸)进行估计。跟踪方法例如可以基于模板匹配、光流、卡尔曼滤波、均值偏移分析(mean shift analysis)、隐藏马尔可夫模型、以及粒度(particle)滤波器。
●对象检测-对象检测的目标是基于关于对象的先验知识,检测图像或视频帧中对象的存在和位置。对象检测方法通常采用自顶向下和自底向上方法的组合。在自顶向下方法中,对象检测方法基于从正被检测的对象的人类知识中导出的规则。在自底向上方法中,对象检测方法将对象与低级别结构特征或图案相关联,然后通过搜索这些特征或图案来定位对象。
●对象分割-在该方法中,将图像或视频分解成其组成“对象”,组成“对象”可以包括语义实体或视觉结构,例如颜色补丁。这种分解通常基于对象的运动、颜色以及纹理属性。对象分割有多种应用,包括压缩视频编码、自动和半自动基于内容的描述、影片后期制作、以及场景解释。具体地,分割通过提供场景的基于对象的描述而简化了对象定位问题。
图2示出了由对象定位模块14提供的近似对象定位。例如,用户围绕对象所处的区域绘制椭圆,以近似定位对象。最后,对近似对象定位信息(即,椭圆的中心点、长轴以及短轴参数)进行细化。
理想地,对象定位模块14以全自动模式进行操作。然而,实际上,可能需要一些手动辅助来校正系统误差,或者至少定义系统要定位的重要对象。增强非对象区会使观看者分散注意力,且错过真正的动作。为了避免或最小化该问题,如上所述,用户可以围绕对象绘制椭圆,然后系统从指定位置跟踪对象。如果在帧中成功地定位对象,对象定位模块14输出相应椭圆参数(即,中心点、长轴以及短轴)。理想地,该包围(bounding)椭圆的轮廓应与对象的轮廓一致。
然而,当参数可能仅是近似的且所获得的椭圆没有紧密地包含对象,并且应用了对象增强时,可能出现两个问题。首先,由于椭圆不包括整个对象,因此不能在整体上增强对象。其次,可能会增强非对象区。由于这两种结果不是令人期望地,因此在这样的情况下,在增强之前对对象区域进行细化是有用的。以下更详细考虑对象定位信息的细化。
图1系统还包括进行以下操作的装置:响应于视频输入和从对象定位模块14接收到的对象定位信息,产生数字图像中包含感兴趣对象的那部分以及对象所处的区域的增强视频。图1中对象增强模块16所表示的这种装置可以是传统构造和操作单元,通过对数字图像中包含感兴趣对象的区域应用传统图像处理操作来增强该区域的可见性。逐帧地从对象定位模块14接收到的对象定位信息包括感兴趣对象所处的预定尺寸的区域的网格坐标。此外,如上所述,对象增强有助于在编码阶段期间降低对象的劣化,编码阶段在增强阶段之后,并在以下进行描述。实现这一点的图1系统的操作与参照上述的预处理操作模式相对应。
当增强对象时,可以通过对感兴趣对象所处的区域应用图像处理操作来提高对象的可见性。可以沿着对象边界(例如,边缘锐化)在对象内部应用这些操作(例如,纹理增强),并且甚至可能在对象外部应用这些操作(例如,对比度增加,对象区之外的模糊)。例如,注意对象的一种方式是在对象内部并且沿着对象的轮廓锐化边缘。这使得对象的细节更加可见,并且还使得对象从背景中突出。此外,较锐化的边缘倾向于使编码保持更好。另一种可能性是扩大对象,例如,通过反复应用平滑、锐化和对象细化操作,但不必按照上述顺序应用这些操作。
图3A至3D示出了对象增强处理的工作流。图3A是具有对象的足球比赛视频中的单个帧,其中关注的对象是足球。图3B示出了对象定位模块14的输出,即帧中足球的对象定位信息。图3C示出了以下更详细考虑的区域细化步骤,其中,对图3B的近似对象定位信息进行细化,以产生对象边界的更精确估计,即,包含球的浅色线条。图3D示出了应用对象增强(在该示例中应用边缘锐化)之后的结果。注意,在图3D中足球更锐化,因此比图3A的原始帧中的足球更加可见。对象还具有较高的对比度,这通常是指使深色更深浅色更浅。
图1系统的对象增强的列举提供的显著的优点。与不理想跟踪和失真增强相关联的问题得到了克服。不理想跟踪可能使定位对象变得困难。从帧到帧,可以略微远离对象位置,并且可以以不同方式略微远离每个帧。这会导致例如由于在不同帧中被增强的背景片段和/或在不同帧中被增强的对象的不同部分而引起的闪烁。此外,普通增强技术在特定情况下会引入失真。
如上所述,当对象定位信息仅近似每个帧中对象的属性和对象的位置时,在增强之前可能需要对象定位信息的细化,以避免增强对象所处区域的边界之外的特征。
如上所述,对象定位模块14对对象定位信息的产生以及向对象增强模块16传递对象定位信息可以是全自动的。在对象定位模块14接收到输入视频的帧时,通过对象定位模块来更新对象定位信息,并且将更新后的对象定位信息传递至对象增强模块16。
对象定位模块14对对象定位信息的产生以及向对象增强模块16传递对象定位信息也可以是半自动的。代替直接从对象定位模块14向对象增强模块16传递对象定位信息,用户可以在获得可用的对象定位信息之后手动地向输入视频的数字图像添加标记,例如,边界线,以限定对象所处的预定尺寸的区域。
对象定位信息的产生以及向对象增强模块16传递对象定位信息还可以是全手动的。在这样的操作中,用户观看输入视频的数字图像,并且手动地向输入视频的数字图像添加标记,例如,边界线,以限定对象所处的预定尺寸的区域。事实上,对于现场事件报道而言不推荐全手动操作。
在需要和期望时,对象定位信息的细化涉及对象边界估计,其中,估计对象的精确边界。精确边界的估计有助于增强对象可见性,而不具有不自然对象外观和运动的副作用,并且基于若干准则。公开了对象边界估计的三种方法。
第一种方法是基于椭圆的方法,通过在椭圆参数的范围上进行搜索,来确定或识别最紧密包围对象的椭圆。对象边界估计的第二种方法是基于水平集(level-set)的搜索,其中获得对象邻域的水平集表示,然后针对最可能表示对象边界的水平集轮廓来进行搜索。对象边界估计的第三种方法涉及曲线演化方法,例如,等高线或蛇形(snake),可以用于利用特定约束来收缩或扩展曲线,使得该曲线覆盖对象边界。以下仅更详细考虑对象边界估计的第一和第二种方法。
在基于椭圆的方法中,对象边界估计等同于确定最紧密包围对象的椭圆的参数。该方法围绕初始值(即,对象定位模块14的输出)在椭圆参数的范围上进行搜索,并且确定每个椭圆包围对象的紧密程度。图4所示的算法输出是最紧密的包围椭圆。
椭圆的紧密程度测量被定义为,沿着椭圆的边缘的图像强度的平均梯度。这种测量背后的基本原理在于,最紧密的包围椭圆应严密遵循对象轮廓,并且典型地,图像强度的梯度沿着对象轮廓(即,对象与背景之间的边缘)较陡。在图4中示出了对象边界估计算法的流程图。用于细化参数的搜索范围(Δx、Δy、Δa、Δb)是用户指定的。
图4的流程图开始于计算平均强度梯度。然后对变量进行初始化,并且进入针对水平中心点位置、垂直中心点位置、以及两个轴的4个嵌套循环。如果该中心点和两个轴所描述的椭圆产生更好的(即,更陡的)平均强度梯度,则将该梯度值和该椭圆表示为迄今最好的。接着是在所有4个循环内进行循环,获得最佳椭圆就退出。
可以将基于椭圆的方法应用于对象与背景之间的边界具有均匀陡梯度的情况。然而,该方法还可以应用于边界不具有均匀陡梯度的情况。例如,该方法甚至在对象和/或背景沿着对象/背景边界具有强度变化的情况下也是有用的。
在典型实现方式中,基于椭圆的方法产生最佳拟合椭圆的描述。该描述典型地包括中心点、以及长轴和短轴。
基于椭圆的表示对于描述具有任意形状的对象而言是不充分的。甚至椭圆对象在被运动模糊或部分遮蔽的情况下会看起来具有不规则形状。水平集表示便于任意形状对象的边界的估计。
图5A至5D示出了针对对象边界估计的水平集方法的构思。假定强度图像I(x,y)是如图5B所示的连续强度表面,并且不是如图5A所示的离散强度的网格。强度值i处的水平集是由Il(i)={(x,y)|I(x,y)=i}定义的闭合轮廓的集合。闭合的轮廓可以被描述为连续曲线,或者通过遵循曲线的离散像素的串来描述。代表图像I的水平集是在不同强度等级值处的一组水平集,(即,L1(M)={Il(i)|i∈M})。例如,M={0,...,255},或者M={50.5,100.5,200.5}。例如,可以通过若干方法从图像中提取水平集。这些方法之一是一次在4个像素集合之间应用双线性插值,以便将离散强度网格转换成空间和强度值均连续的强度表面。其后,通过计算表面与如图5C所示的一个或多个等级平面(即,在指定等级处的水平平面)的交集来提取如图5D所示的水平集。
水平集表示在许多方面上类似于地形图。典型地,地形图包括针对海拔的各个值的闭合等高线。
实际上,图像I可以是包含要估计其边界的对象的子图像。提取水平集表示L1(M),其中,M={i1,i2...,iN}。集合M可以基于对象像素的大致强度来构造,或者可以以固定步长简单跨过整个强度范围,(例如,M={0.5,1.5,...,254.5,255.5})。然后,考虑包含在集合L1(M)中的所有水平集曲线(即,闭合轮廓)Cj *。对象边界估计被指定为确定水平集曲线C*的问题,这最大满足了与对象相关的多个准则。这些准则可以包括以下变量:
●沿着Cj *的平均强度梯度,
●Cj *内的面积,
●Cj *的长度
●Cj的中心的位置
●Cj *所包含的像素的强度的均值和/或方差,
准则可以基于关于对象的先验知识对这些变量进行约束。在以下,对使用水平集的对象边界估计的特定实现方式进行描述。
设mref、sref、aref、和xref=(xref,yref)是分别针对对象的均值强度、强度的标准偏差、面积和中心的参考值。基于关于对象的先验知识(例如,来自对象定位模块14、从椭圆获得的对象参数)对这些参考值进行初始化。然后将水平集M构造为,
M={imin,imin+Δl,imin+2Δl,...,imax},
对于特定水平集曲线Cj,设mj、sj、aj、和xj=(xj,yj)是分别针对受Cj约束的图像区域的均值强度、强度的标准偏差、面积和中心的测量值。同样计算沿着Cj的平均强度梯度Gavg(Cj)。换言之,Gavg(Cj)是Cj上每个像素处的梯度幅度的平均。对于每个Cj,得分计算如下:
S(Cj)=Gavg(Cj)Sa(aref,aj)Sx(xref,xj)
其中,Sa和Sx是输出值落在范围[0,1]内的相似函数,其中较大值指示参考值与测量值之间的更好匹配。例如,Sa=exp(-|aref-aj|)和Sx=exp(-||xref-xj||2)。然后将对象边界C*估计为最大化该得分的曲线,(即,)。
在估计对象边界之后,可以利用学习因子(learning factor)α∈[0,1],来更新参考值mref、sref、aref、和xref,(例如,)。在视频序列的情况下,因子α应当是时间t的函数(例如,帧索引),以较高值开始,然后随着每个帧而递减,最后达到固定的低值αmin。
在对象的增强中,可以通过在对象的邻域中应用图像处理操作来提高对象的可见性。可以沿着对象边界应用这些操作(例如,边缘锐化)、在对象内部应用这些操作(例如,纹理增强),甚至可能在对象外部应用这些操作(例如,对比度增加)。在这里描述的实施例中,提出了对象增强的许多方法。首先是在对象内部并沿着其轮廓对边缘进行锐化。其次通过反复应用平滑、锐化和边界估计操作来扩大对象,但不必按照上述顺序进行。其他可能的方法包括使用形态学滤波器和对象替换。
注意对象的一种方式是在对象内部并沿着对象的轮廓锐化边缘。这使得对象的细节更可见,并且还使得对象从背景中突出。此外,更锐化的边缘倾向于使压缩保持的更好。通过锐化用于对象增强的算法一次对一个帧上的对象进行操作,并且将强度图像I(x,y)和对象定位模块14所提供的对象参数(即,位置、尺寸等)作为其输入。算法包括以下三个步骤:
●估计对象的边界O,
●在对象边界内和在对象边界上,对图像I中的所有像素应用锐化滤波器Fα。这为O所约束的所有像素给出了新的锐化值Isharp(x,y),其中,Isharp(x,y)=(I*Fα)(x,y),并且(I*Fα)指示图像I与锐化滤波器Fα的卷积。
●针对O内或O上的所有(x,y),用Isharp(x,y)来代替像素I(x,y)。
参数α∈[0,1]控制拉普拉斯算子的形状。实际上,以核中心为原点(0,0)来构造3×3滤波器核。这种核的示例如下:
通过扩大的对象增强尝试通过反复应用平滑、锐化核边界估计操作来扩展对象的轮廓,但不必按照上述顺序。在图6中示出了对象扩大算法的特定实施例的流程图。该算法将强度图像I(x,y)和对象定位模块14所提供的对象参数作为其输入。首先,使用高斯滤波器对包含对象,且围绕对象具有显著余量(margin)的区域(子图像J)进行隔离和平滑。该操作扩展到对象边界外的几个像素。其后,如上所述应用锐化操作,使得边缘更清晰。使用当前估计的对象边界以及平滑和锐化后的子图像(Jsmoothsharp),应用边界估计算法,以获得对象边界的新估计O。最后,用子图像Jsmoothsharp中的相应像素来代替图像I中O所包含的所有像素。
平滑滤波器Gσ是二维高斯函数
参数σ>0控制高斯函数的形状,值越大就越平滑。实际上,以核中心为原点(0,0)来构造3×3滤波器核。这样的核的示例如下:
图1系统还包括用于对从对象增强模块16输出的增强视频进行编码的装置。图1中对象认知(aware)编码器模块18所表示的这种装置可以是传统结构和操作的模块,通过对包含感兴趣对象的感兴趣区域给予特殊处理(例如,通过向感兴趣区域分配更多比特或者执行更好地保留对象的模式判定),以对重要对象的最小劣化来压缩增强视频。这样,对象认知编码器18产生增强的对象可见性,以高保真度来编码对象。
为了优化输入视频的增强,对象认知编码器18从对象定位模块14接收对象定位信息,从而更好地保留对象所处地区域的增强,因此保留对象的增强。不管是否保留增强,与不通过对象认知编码器18进行编码的情况相比,可以更好地保留对象所处的区域。然而,增强还最小化压缩期间的对象劣化。该最优增强通过适当管理编码判定和资源(例如,比特)分配来完成。
对象认知编码器18可以被设置为,进行“对象友好”宏块(MB)模式判定,即,几乎不可能劣化对象的那些模块判定。例如,如图7A至7C所示,这样的布置可以包括用于预测目的的MB的对象友好分块。另一种方法是施加更精细量化,即向包含对象的MB施加更多比特。这使得对象获得更多比特。又一种方法以向对象本身添加比特为目的。又一种方法在速率失真优化处理期间使用加权失真度量,其中,属于感兴趣区域的像素应具有比感兴趣区域之外的像素更高的权重。
参照图7A至7C,示出了三种可能的16×16宏块再划分。这样的再划分是编码器确定如何对MB进行编码所进行的模式判定的一部分。一个关键度量在于,如果对象占据再划分区域的较大部分,则在编码期间对象几乎不可能被劣化。这是由于劣化对象将劣化再划分的较大部分的质量。从而,在图7C中,对象仅占据每个16×8再划分的小部分,因此不能认为这是良好的再划分。在不同实现方式中,对象认知编码器知道对象所处的位置,并且将该位置信息包括到其模式判定中。这样的对象认知编码器偏好使得对象占据再划分的较大部分的再划分。总之,对象认知编码器的目的是在编码处理期间帮助对象尽可能较少地受到劣化的影响。
如图1所示,对象定位模块14、对象增强模块16和对象认知编码器模块18是发射机20的组件,发射机20接收包含感兴趣对象的数字图像的输入视频,并且传输对象可见性被增强的压缩视频流。压缩视频流的传输由诸如蜂窝电话或PDA之类的接收机20来接收。
相应地,图1系统还包括用于对接收机20接收到的压缩视频流中的增强视频进行解码的装置。图1中解码器模块22所表示的这种装置可以是传统结构和操作的模块,通过对包含感兴趣对象的感兴趣区域给予特殊处理(例如,通过向感兴趣区域分配更多比特,或者执行更好地保留增强的对象可见性的模式判定),以对重要对象的最小劣化来解压缩增强视频。
临时省略图1中虚线中所示的对象认知后处理模块24,向显示组件26(例如,蜂窝电话或PDA的屏幕)传送从解码器模块22输出的已解码视频,用于观看具有增强对象可见性的数字图像。
将以上描述的图1系统的操作模式表征为预处理在于,在编码操作之前通过对象增强模块16来增强对象。在压缩之前可以对顺序进行修改。
代替如上所述在编码之前增强对象的可见性,而是如虚线19所示,将输入视频直接传送至对象认知编码器模块18,并且在不增强对象可见性的情况下来编码且由接收机20中的对象认知后处理模块24来实现增强。将图1系统的这种操作模式表征为后处理在于,在编码和解码阶段之后,增强对象的可见性,并且利用通过作为元数据的比特流发送的与对象有关的辅助信息(例如,对象的位置和尺寸)来实现对象可见性的增强。后处理操作模式具有增加接收机复杂性的缺点。在后处理操作模式中,发射机10中的对象认知编码器18在接收机中增强对象可见性的情况下仅产生对象位置信息。
如上所述,发射机端对象加亮系统(即,预处理操作模式)的一个优点是,避免增加接收机端(典型地,接收机端是低功率设备)的复杂性的需要。此外,预处理操作模式允许使用便于系统产生的标准视频解码器。
例如,所描述的实现方式可以以方法或过程、设备或软件程序来实现。即使仅在单一形式的实现方式的上下文中进行讨论(仅作为方法进行讨论),但是所讨论的实现方式或特征也可以以其他形式(例如,设备或程序)来实现。例如,设备可以被实现为适当的硬件、软件和固件。例如,方法可以在诸如计算机或其他处理设备之类的设备中实现。此外,方法可以由处理设备或其他设备所执行的指令来实现,并且可以将这样的指令存储在计算机可读介质(例如,CD),或其他计算机可读存储设备,或集成电路上。
本领域技术人员应显而易见的是,实现方式还可以产生被格式化为承载信息(例如,可以存储或传输的信息)的信号。例如,信息可以包括用于执行方法的指令,或者所描述的实现方式之一产生的数据。例如,信号可以被格式化为承载各种类型的对象信息(即,位置,形状)作为数据,和/或承载已编码图像数据作为数据。
尽管这里参照特定实施例示意和描述了本发明,但是本发明并不意在限于所示的细节。而是,在权利要求的等同物的范畴和范围内以及在不背离本发明的前提下,可以在细节上进行各种修改。
Claims (15)
1.一种用于增强数字图像中对象的可见性的系统,包括:
用于提供包含对象的输入视频的装置;
用于以下操作的装置:
(a)存储代表对象的属性和特性的信息,以及
(b)响应于输入视频和代表对象的属性和特性的信息,产生对对象加以识别和定位的对象定位信息;
用于以下操作的装置:响应于视频输入和对象定位信息,产生输入视频中包含对象的那部分以及数字图像中对象所处的区域的增强视频;以及
用于对增强视频进行编码的装置。
2.根据权利要求1所述的用于增强数字图像中对象的可见性的系统,还包括:
(a)用于传输已编码增强视频的装置,
(b)用于对已编码增强视频进行解码的装置,以及
(c)用于显示增强视频的装置。
3.根据权利要求1所述的用于增强数字图像中对象的可见性的系统,其中,所述用于产生对象定位信息的装置包括:
(a)用于扫描输入视频的部分的装置,以及
(b)用于进行以下操作的装置:将输入视频的扫描部分与所存储的代表对象的属性和特性的信息相比较,以识别和定位数字图像中具有与所存储的代表对象的属性和特性的信息类似的属性和特性的对象。
4.根据权利要求3所述的用于增强数字图像中对象的可见性的系统,其中:
(a)对象定位信息仅近似对象的身份和位置,以及
(b)所述用于对增强输入视频进行编码的装置:
(1)接收对象定位信息,以及
(2)包括用于细化对象定位信息的装置。
5.根据权利要求4所述的用于增强数字图像中对象的可见性的系统,其中,所述用于细化对象定位信息的装置包括用于以下操作的装置:
(a)估计对象的边界,以及
(b)增强对象。
6.根据权利要求3所述的用于增强数字图像中对象的可见性的系统,其中:
(a)对象定位信息仅近似对象的身份和位置,以及
(b)所述用于产生输入视频中包含对象的那部分以及数字图像中对象所处的区域的增强视频的装置包括:用于细化对象定位信息的装置。
7.根据权利要求6所述的用于增强数字图像中对象的可见性的系统,其中,用于细化对象定位信息的装置包括用于以下操作的装置:
(a)估计对象的边界,以及
(b)增强对象。
8.一种用于增强数字图像中对象的可见性的方法,包括以下步骤:
提供包含对象的数字图像的输入视频;
存储代表对象的属性和特性的信息;
响应于输入视频和代表对象的属性和特性的存储信息,产生对对象加以识别和定位的对象定位信息;
响应于输入视频和对象定位信息,产生输入视频中包含对象的那部分以及数字图像中对象所处的区域的增强视频;
对增强视频进行编码;以及
传输已编码增强视频。
9.根据权利要求8所述的用于增强数字图像中对象的可见性的方法,还包括以下步骤:
(a)接收已编码增强视频,
(b)对已编码增强视频进行解码,以及
(c)显示增强视频。
10.根据权利要求8所述的用于增强数字图像中对象的可见性的方法,其中,所述用于产生对象定位信息的步骤包括以下步骤:
(a)扫描输入视频的部分,以及
(b)将输入视频的扫描部分与所存储的代表对象的属性和特性的信息相比较,以识别和定位图像中具有与所存储的代表对象的属性和特性的信息类似的属性和特性的对象。
11.根据权利要求10所述的用于增强数字图像中对象的可见性的方法,其中:
(a)对象定位信息仅近似对象的身份和位置,以及
(b)所述用于对增强输入视频进行编码的步骤包括以下步骤:
(1)接收对象定位信息,以及
(2)细化对象定位信息。
12.根据权利要求11所述的用于增强数字图像中对象的可见性的方法,所述细化对象定位信息的步骤包括以下步骤:
(a)估计对象的边界,以及
(b)增强对象。
13.根据权利要求10所述的用于增强数字图像中对象的可见性的方法,其中:
(a)对象定位信息仅近似对象的身份和位置,以及
(b)所述产生输入视频中包含对象的那部分以及数字图像中对象所处的区域的增强视频的步骤包括:细化对象定位信息的步骤。
14.根据权利要求13所述的用于增强数字图像中对象的可见性的方法,其中,所述细化对象定位信息的步骤包括以下步骤:
(a)估计对象的边界,以及
(b)增强对象。
15.一种用于增强数字图像中对象的可见性的系统,包括:
用于提供包含对象的数字图像的输入视频的装置;
用于以下操作的装置:
(a)存储代表对象的属性和特性的信息,以及
(b)响应于输入视频和代表对象的属性和特性的信息,产生对对象加以识别和定位的对象定位信息;以及
响应于视频输入和对象定位信息用于对输入视频进行编码的装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12384408P | 2008-04-11 | 2008-04-11 | |
US60/123,844 | 2008-04-11 | ||
PCT/US2009/002173 WO2009126258A1 (en) | 2008-04-11 | 2009-04-07 | System and method for enhancing the visibility of an object in a digital picture |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101999138A true CN101999138A (zh) | 2011-03-30 |
Family
ID=40848271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980112778.9A Pending CN101999138A (zh) | 2008-04-11 | 2009-04-07 | 增强数字图像中对象的可见性的系统和方法 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP2277142A1 (zh) |
JP (1) | JP2011517226A (zh) |
CN (1) | CN101999138A (zh) |
BR (1) | BRPI0911189A2 (zh) |
CA (1) | CA2720947A1 (zh) |
WO (1) | WO2009126258A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019242386A1 (zh) * | 2018-06-19 | 2019-12-26 | 葛高丽 | 智能化加湿式取暖器 |
CN111028243A (zh) * | 2019-11-29 | 2020-04-17 | 上海交通大学 | Ct扫描图像的儿童神经母细胞瘤分割方法、系统及装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2514207A2 (en) * | 2009-12-14 | 2012-10-24 | Thomson Licensing | Object-aware video encoding strategies |
WO2011156074A2 (en) | 2010-06-08 | 2011-12-15 | Dolby Laboratories Licensing Corporation | Tone and gamut mapping methods and apparatus |
US8665286B2 (en) | 2010-08-12 | 2014-03-04 | Telefonaktiebolaget Lm Ericsson (Publ) | Composition of digital images for perceptibility thereof |
US10022544B2 (en) | 2013-07-22 | 2018-07-17 | National Ict Australia Limited | Vision enhancement apparatus for a vision impaired user |
EP3191021B1 (en) | 2014-09-10 | 2021-05-05 | National ICT Australia Limited | Enhancing vision for a vision impaired user |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9019538D0 (en) * | 1990-09-07 | 1990-10-24 | Philips Electronic Associated | Tracking a moving object |
US6466275B1 (en) * | 1999-04-16 | 2002-10-15 | Sportvision, Inc. | Enhancing a video of an event at a remote location using data acquired at the event |
JP2002207992A (ja) * | 2001-01-12 | 2002-07-26 | Hitachi Ltd | 画像処理方法及び画像処理装置 |
US6757434B2 (en) * | 2002-11-12 | 2004-06-29 | Nokia Corporation | Region-of-interest tracking method and device for wavelet-based video coding |
US7430335B2 (en) * | 2003-08-13 | 2008-09-30 | Apple Inc | Pre-processing method and system for data reduction of video sequences and bit rate reduction of compressed video sequences using spatial filtering |
JP4468734B2 (ja) * | 2004-04-27 | 2010-05-26 | オリンパス株式会社 | 映像信号処理装置と映像信号処理プログラム |
JP2006013722A (ja) * | 2004-06-23 | 2006-01-12 | Matsushita Electric Ind Co Ltd | 画像処理装置および画像処理方法 |
AT508595B1 (de) * | 2005-10-21 | 2011-02-15 | A1 Telekom Austria Ag | Vorbearbeitung von spiel-videosequenzen zur übertragung über mobilnetze |
GB2435140B (en) * | 2006-02-13 | 2011-04-06 | Snell & Wilcox Ltd | Sport action coding |
JP4703449B2 (ja) * | 2006-03-23 | 2011-06-15 | 三洋電機株式会社 | 符号化方法 |
WO2008039217A1 (en) * | 2006-09-29 | 2008-04-03 | Thomson Licensing | Dynamic state estimation |
-
2009
- 2009-04-07 CA CA2720947A patent/CA2720947A1/en not_active Abandoned
- 2009-04-07 CN CN200980112778.9A patent/CN101999138A/zh active Pending
- 2009-04-07 JP JP2011503987A patent/JP2011517226A/ja active Pending
- 2009-04-07 BR BRPI0911189A patent/BRPI0911189A2/pt not_active IP Right Cessation
- 2009-04-07 WO PCT/US2009/002173 patent/WO2009126258A1/en active Application Filing
- 2009-04-07 EP EP09729220A patent/EP2277142A1/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019242386A1 (zh) * | 2018-06-19 | 2019-12-26 | 葛高丽 | 智能化加湿式取暖器 |
CN111028243A (zh) * | 2019-11-29 | 2020-04-17 | 上海交通大学 | Ct扫描图像的儿童神经母细胞瘤分割方法、系统及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2009126258A1 (en) | 2009-10-15 |
CA2720947A1 (en) | 2009-10-15 |
JP2011517226A (ja) | 2011-05-26 |
WO2009126258A9 (en) | 2009-12-17 |
EP2277142A1 (en) | 2011-01-26 |
BRPI0911189A2 (pt) | 2018-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Spg-net: Segmentation prediction and guidance network for image inpainting | |
CN101999231A (zh) | 利用基于模板的对象跟踪和增强的视频编码 | |
CN101999138A (zh) | 增强数字图像中对象的可见性的系统和方法 | |
Yuan et al. | Image haze removal via reference retrieval and scene prior | |
Zhang et al. | Exemplar-based image inpainting using color distribution analysis | |
Zheng et al. | No-reference quality assessment for screen content images based on hybrid region features fusion | |
Vitoria et al. | Semantic image inpainting through improved wasserstein generative adversarial networks | |
CN115082329A (zh) | 使用用于图像修复的深度视觉引导补丁匹配模型生成修改的数字图像 | |
Wang et al. | Reference-free DIBR-synthesized video quality metric in spatial and temporal domains | |
Sahu et al. | Trends and prospects of techniques for haze removal from degraded images: A survey | |
CN114240954A (zh) | 网络模型的训练方法及装置、图像分割方法及装置 | |
Tangsakul et al. | Single image haze removal using deep cellular automata learning | |
US20110026606A1 (en) | System and method for enhancing the visibility of an object in a digital picture | |
Banitalebi-Dehkordi et al. | An image quality assessment algorithm based on saliency and sparsity | |
Guo et al. | Progressive domain translation defogging network for real-world fog images | |
Wang et al. | Fast blur detection algorithm for UAV crack image sets | |
Tsai et al. | A novel method for 2D-to-3D video conversion based on boundary information | |
Kumar et al. | Novel unsupervised learning architecture for exposure-based classification and enhancement | |
CN113610863A (zh) | 多曝光图像融合质量评估方法 | |
Peng et al. | A human visual system-driven image segmentation algorithm | |
Wang et al. | A brief review of image dehazing algorithms based on deep learning | |
Xu et al. | Quality-aware features-based noise level estimator for block matching and three-dimensional filtering algorithm | |
Li et al. | Multiscale modeling algorithm for core images | |
Brekhna et al. | An experimental approach for evaluating superpixel’s consistency over 2D Gaussian blur and impulse noise using Jaccard similarity coefficient | |
Xue et al. | MSFSA-GAN: Multi-Scale Fusion Self Attention Generative Adversarial Network for Single Image Deraining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110330 |