CN103582900A - 用于对3d内容进行重定目标的方法和设备 - Google Patents

用于对3d内容进行重定目标的方法和设备 Download PDF

Info

Publication number
CN103582900A
CN103582900A CN201280026599.5A CN201280026599A CN103582900A CN 103582900 A CN103582900 A CN 103582900A CN 201280026599 A CN201280026599 A CN 201280026599A CN 103582900 A CN103582900 A CN 103582900A
Authority
CN
China
Prior art keywords
cutting window
view
window
area
prohibited area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280026599.5A
Other languages
English (en)
Inventor
克里斯特尔·沙马雷
法布里斯·尤本
泰全·阮氏
让-克洛德·舍韦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN103582900A publication Critical patent/CN103582900A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/139Format conversion, e.g. of frame-rate or size
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Television Signal Processing For Recording (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明涉及一种裁剪至少包括第一视图和第二视图的3D内容的方法,所述方法包括以下步骤:从第一视图和第二视图确定(10、12)第一显著图和第二显著图;从第一和第二显著图确定(18、24、32)最终裁剪窗;以及根据最终裁剪窗裁剪(20)第一视图和第二视图。

Description

用于对3D内容进行重定目标的方法和设备
技术领域
本发明涉及3D内容重定目标(retargeting)。更具体地,本发明涉及一种裁剪至少包括第一视图和第二视图在内的3D内容的方法。
背景技术
由于3D屏幕和素材的剧增(例如,电影院的3D电影),需要转换长宽比,以便允许将3D流从影院长宽比(2:35)转换到TV屏幕(16:9)。此外,可以想象即将涌现支持3D立体显示的新设备,例如,平板电脑、智能电话。这样的设备将有它们自己的长宽比。因此,强制进行长宽比转换以便适于任何设备。自动方案具有使视觉舒适度最大化的高价值。
目前,由操作员(例如,中央裁剪)手动地,或通过以相同形式(例如,渐变算子、填充黑条纹)处理所有帧,来解决长宽比转换。这两种类型的方法都不考虑执行转换的内容本身。
此外,相较于全屏显示的电影,添加黑条纹严重地降低了原始3D效果。
发明内容
本发明针对缓解现有技术的缺点中的至少一个。本发明涉及一种裁剪至少包括第一视图和第二视图的3D内容的方法,所述方法包括步骤:
从第一视图确定第一显著图,并从第二视图确定第二显著图;
从第一和第二显著图确定最终裁剪窗;以及
根据最终裁剪窗裁剪第一视图和第二视图。
根据第一实施例,从第一和第二显著图确定最终裁剪窗的步骤包括步骤:
从第一显著图确定第一裁剪窗;
从第二显著图确定第二裁剪窗;以及
将第一和第二裁剪窗组合为最终裁剪窗。
根据第二实施例,由参数标识最终裁剪窗,所述方法还包括步骤:
随着时间对最终裁剪窗的参数进行滤波;
确定禁止区域图,该禁止区域图指示了要避免最终裁剪窗边界的区域;以及
使用禁止区域图将最终裁剪窗的长宽比转换为目标长宽比。
根据第二实施例的变体,由参数标识最终裁剪窗,所述方法还包括步骤:
随着时间对最终裁剪窗的参数进行滤波;
确定禁止区域图,该禁止区域图指示了要避免最终裁剪窗边界的区域;以及
使用禁止区域图和深度图将最终裁剪窗的长宽比转换为目标长宽比。
有利地,确定禁止区域图的步骤包括以下步骤:
将所述至少两个视图之一分割为区域的分割图;
针对分割图的每个区域,根据至少两个视图之一的显著图计算显著值;
针对每个区域计算的显著值进行阈值处理,以便形成禁止区域图。
根据第三实施例,从第一和第二显著图确定最终裁剪窗的步骤包括步骤:
将第一和第二显著图组合为单个显著图;以及
基于单个显著图确定最终裁剪窗。
附图说明
根据以下结合附图的对一些实施例的描述,将清楚本发明的其它特点和优点,附图中:
图1a描述了根据本发明第一实施例的方法的流程图;
图1b描述了根据本发明第一实施例的变体的方法的流程图;
图2描述了根据本发明第二实施例的方法的流程图;
图3描述了根据本发明第三实施例的方法的流程图;
图4示出了在图3中描述的流程图的第一细节;
图5从左到右表示了画面、分割图、显著图和禁止区域图;
图6示出了在图3中描述的流程图的另一细节;
图7示出了Winner-Take-All算法;
图8用它们的参数表示裁剪窗;
图9示出了画面的显著图、画面上的第一裁剪窗、禁止区域图和最终裁剪窗;以及
图10图解性地示出了根据本发明的重定目标设备2。
具体实施方式
应理解,本原理可以实现为多种形式的硬件、软件、固件、专用处理器或其结合。优选地,本原理可以实现为硬件和软件的结合。此外,软件优选地实现为切实表现在程序存储设备上的应用程序。应用程序可以上传到并由包括任何合适结构的机器执行。优选地,机器可以实现在具有如一个或多个中央处理单元(CPU)、随机访问存储器(RAM)和输入/输出(I/O)接口的硬件的计算机平台。计算机平台也包括操作系统和微指令代码。这里所述的多种处理和功能可以是部分微指令代码或通过操作系统执行的部分应用程序(或其结合)。此外,可以将多种其它外围设备(例如,其它数据存储设备和打印设备)连接到该计算机平台。
本发明可以实现在包括重定目标装置的任何电子设备上。例如,本发明可以实现为电视、移动视频电话、PDA、个人计算机、数字视频摄像机、导航系统或汽车视频系统。
本发明涉及一种用于重定目标3D内容的方法。这里公开了三个实施例。前两个实施例是2D重定目标方法的扩展。添加新步骤以确保可接受的3D质量。第三实施例是一种3D内容专用的重定目标方法。3D内容由左视图和右视图构成。但是本发明可以扩展到多于两个的视图。下文中,由裁剪窗的参数来标识裁剪窗,该参数可以是裁剪窗左上角像素和右下角像素的坐标,或是裁剪窗中心的坐标以及裁剪窗的高度和宽度。
所有实施例均基于裁剪,即,提取具有最重要内容的原始视图像素的子区域,也称为感兴趣区域(regions of interest)。此外,即使基于每个视图的内容来确定最终裁剪窗,对左右视图而言,最终裁剪窗也是一样的。
一些实施例涉及视觉注意模型。该视觉注意模型提供显著图(灰度图),标识视图中最受瞩目的区域/像素。这样的显著图可以用于确定画面中的感兴趣区域。2005年6月30日公开的EP专利申请04804828.4编号1695288中公开了这种视觉注意模型的示例。可以使用提供显著图的其它视觉注意模型。本发明不限于在EP专利申请04804828.4中公开的模型。
图1a示出了根据第一实施例对包括左视图和右视图的3D内容进行重定目标的方法。所述方法包括对每个视图独立应用常规2D重构,以便在每个视图中得到一个裁剪窗,然后通过考虑关于3D内容的一些约束来组合所有裁剪窗,以便得到要应用到每个视图的最终裁剪窗。
为此,在步骤10处,在左视图中确定第一感兴趣区域ROI1,并在步骤12处,在右视图中确定第二感兴趣区域ROI2。
在步骤14处,从第一感兴趣区域ROI1确定左裁剪窗,并从第二感兴趣区域确定右裁剪窗ROI2。例如,左裁剪窗是包括第一感兴趣区域的最小窗,右裁剪窗是包括第二感兴趣区域的最小窗。
在步骤18处,将左右裁剪窗组合在平滑裁剪窗中。在该步骤,考虑关于3D内容的以下约束:在左右裁剪视图之间不允许垂直视差;每个视图的裁剪窗具有相同高度和相同垂直坐标。
CombineCroppingWindow步骤18利用步骤14和16处对每个视图独立施加2D重构的结果,并数学上将两个裁剪窗组合为一个平滑裁剪窗,该平滑裁剪窗的中心坐标为(xsmooth,ysmooth),尺寸(高度和宽度)为(hsmooth,wsmooth)。(xleft,yleft)是左裁剪窗的中心坐标,(xright,yright)是右裁剪窗的中心坐标。(hleft,wleft)是左裁剪窗的高度和宽度,且(hright,wright)是右裁剪窗的高度和宽度。
y smooth = y left + y right 2 x smooth = x left + x right 2 h smooth = h left + h right 2 根据变体,在公式8中代入最小和最大值。对两个视图应用相同裁剪窗。因此,左右裁剪视图之间不存在垂直视差。
用于确定平滑修剪窗口的另一方法在于确定哪个修剪窗口最大化在其内部可用的显著质量。如下公式所示,修剪窗口坐标从最小x和y坐标到最大x和y坐标进行变化,其中最小x和y坐标是在两个视图之间最初确定的:
(1)
( x 1 , y 1 , x 2 , y 2 ) = arg max [ Σ X = x 1 x 2 Σ Y = y 1 y 2 0.5 · ( SM left ( X , Y ) + SM right ( X , Y ) ) ]
withx1min<x1<x1max;y1min<y1<y1max;x2min<x2
<x2max;y2min<y2<y2max
x 1 min = min ( x 1 left , x 1 right ) ; x 1 nax = max ( x 1 left , x 1 right ) x 2 min = min ( x 2 left , x 2 right ) ; x 2 max = max ( x 2 left , x 2 right ) y 1 min = min ( y 1 left , y 1 right ) ; y 1 max = max ( y 1 left , y 1 right ) y 2 min = min ( y 2 left , y 2 right ) ; y 2 min = max ( y 2 left , y 2 right )
SMleft(x,y)是左视图中坐标(x,y)的显著值,SMright(x,y)在右视图中坐标(x,y)的显著值。(x1,y1)是平滑修剪窗口的左上角像素的坐标,(x2,y2)是平滑修剪窗口的右下角像素的坐标。(x1left,y1left)是左修剪窗口的左上角像素的坐标,(x2left,y2left)是左修剪窗口的右下角像素的坐标。(x1right,y1right)是右修剪窗口的左上角像素的坐标,(x2right,y2left)是左修剪窗口的右下角像素的坐标。
在步骤20处,通过在每个视图中提取由平滑裁剪窗分隔的部分,将左右视图裁剪为左裁剪视图和右裁剪视图。
第一实施例实行起来简单快速。
图1b示出了根据第一实施例的具体实施,对包括左右视图的3D内容进行重定目标的方法。所述方法包括对每个视图上单独应用常规2D重构,以便在每个视图中得到一个裁剪窗,然后,通过考虑关于3D内容的一些约束来组合所有裁剪窗,以便得到要应用到每个视图的最终裁剪窗。在该具体实施中,通过使用显著图来确定第一和第二感兴趣区域。
为此,在步骤10处,针对左视图确定左显著图,在步骤12处,针对右视图确定右显著图。例如,使用EP专利申请04804828.4的模型来确定两个显著图。因此,显著图表示画面中的显著区域。
在步骤14处,基于左显著图确定左裁剪窗,在步骤16处,基于右显著图确定右裁剪窗。通过裁剪窗的裁剪窗坐标来在对应视图中标识每个裁剪窗的位置。例如,使用2007年3月21日公开的编号1764736的EP申请05291938.8中公开的重构方法之一,来确定裁剪窗。例如,在显著图中标识最显著像素,即,在显著图中显著值最高的像素。将预定尺寸的第一窗定位于该视图中,使得第一窗的中心位于所述最显著像素处。计算与第一窗有关的显著值SM1和与该视图有关的显著值SMview。如果比值
Figure BDA0000426672250000061
接近1,即,高于阈值T(例如,Ψ0≥0.8),则视图的裁剪窗是第一窗。如果Ψ0没有接近1,即,低于T,则将与第一窗尺寸相同的第二窗定位于该视图中,使得第二窗的中心位于第一窗以外视图的最显著像素处。计算与第二窗有关的显著像素SM2。如果比值接近1,则视图的裁剪窗是包括第一和第二窗的较小窗。如果比值Ψ1没有接近1,则将第三窗定位于该视图中,使得第三窗的中心位于在两个窗之外视图的第三最显著像素处。将与三个窗相关的三个显著值的总和与显著值SMview之间的比值和1进行比较。如果接近1,则视图的裁剪窗是包括三个窗的较小窗。如果没有接近1,则重复定位新窗的处理直到与每个定位窗相关的显著值的总和与SMview之间的比值接近于1。因此,在每次迭代k,在视图中定位新窗,使得新窗的中心位于已定位窗之外的最大显著像素(k)处。因此,视图的裁剪窗是包括所有已定位窗的较小窗。可以使用其他方法,本发明不限于用于基于显著图来确定裁剪窗的位置的该方法。
在步骤18中,将左右裁剪窗组合为平滑裁剪窗。在该步骤中,考虑与3D内容有关的以下约束:在左右裁剪视图之间不允许垂直视差;每个视图的裁剪窗具有相同高度和相同垂直坐标。
CombineCroppingWindow步骤18利用步骤14和16处对每个视图独立应用2D重构的结果,并在数学上将两个裁剪窗组合为一个平滑裁剪窗,该平滑裁剪窗的中心坐标为(xsmooth,ysmooth),尺寸(高度和宽度)为(hsmooth,wsmooth)。(xleft,yleft)是左裁剪窗的中心坐标,(xright,yright)是右裁剪窗的中心坐标。(hleft,wleft)是左裁剪窗的高度和宽度,(hright,wright)是右裁剪窗的高度和宽度。
y smooth = y left + y right 2 x smooth = x left + x right 2 h smooth = h left + h right 2 根据变体,在公式8中代入最小和最大值。对两个视图应用相同裁剪窗。因此,在左右裁剪视图之间不存在垂直视差。
用于确定平滑裁剪窗的另一方法在于确定哪个裁剪窗最大化该裁剪窗内部可用的显著量(saliency quantity)。例如,如下公式所述,裁剪窗坐标从最小x和y坐标变化到最大x和y坐标,其中初始在两个视图之间确定最小x和y坐标:
(2)     ( x 1 , y 1 , x 2 , y 2 ) = arg max [ &Sigma; X = x 1 x 2 &Sigma; Y = y 1 y 2 0.5 &CenterDot; ( SM left ( X , Y ) + SM right ( X , Y ) ) ]
withx1min<x1<x1max;y1min<y1<y1max;x2min<x2
<x2max;y2min<y2<y2max
x 1 min = min ( x 1 left , x 1 right ) ; x 1 nax = max ( x 1 left , x 1 right ) x 2 min = min ( x 2 left , x 2 right ) ; x 2 max = max ( x 2 left , x 2 right ) y 1 min = min ( y 1 left , y 1 right ) ; y 1 max = max ( y 1 left , y 1 right ) y 2 min = min ( y 2 left , y 2 right ) ; y 2 min = max ( y 2 left , y 2 right )
SMleft(x,y)是左视图中坐标(x,y)的显著值,SMright(x,y)左视图中坐标(x,y)的显著值。(xl,y1)是平滑裁剪窗的左上角像素的坐标,(x2,y2)是平滑裁剪窗的右下角像素的坐标。(x1left,y1left)是左裁剪窗的左上角像素的坐标,(x2left,y2left)是左裁剪窗的右下角像素的坐标。(x1right,y1right)是在右裁剪窗的左上角像素的坐标,(x2right,y2right)是在左裁剪窗中的右下角像素的坐标。
在步骤20处,通过在每个视图中提取由平滑裁剪窗分隔的部分,将左右视图裁剪为左裁剪视图和右裁剪视图。
第一实施例实行起来简单快速。
图2示出了第二实施例。用相同的附图标号来标示图2中与第一实施例的步骤相同的步骤。
在步骤10处,针对左视图确定左显著图,在步骤12处,针对右视图确定右显著图。
在步骤22处,将来自每个视图的视觉注意模型的两个显著图组合为特有显著图,特有显著图利用显著图的2D表示来描述3D显著信息。CombineForVAM3D步骤22突出显示了两个显著图中存在的共同区域,以便产生特有2D显著图。在步骤22中,将两个显著图融合为特有显著图(SaliencyMap_3Dlike),特有显著图是突出显示两个视图中共同显著的一些区域的2D图。例如,将在SaliencyMap_3Dlike中的像素(x,y)的显著值SM3Dlike(x,y)定义为:
(3)SM3Dlike(x,y)=α·SMleft(x,y)+β·SMright(x,y)
其中 &alpha; = DM ( x , y ) 255 &beta; = 1 - &alpha;
其中,SMleft(x,y)是左显著图中的像素(x,y)的显著值,SMright(x,y)是右显著图中的像素(x,y)的显著值,DM(x,y)是位置(x,y)处的深度值。
在步骤24处,基于SaliencyMap_3Dlike来确定平滑裁剪窗。例如,除了显著图是SaliencyMap_3Dlike之外,步骤24与步骤14或16相同。
在步骤20中,通过在每个视图中提取由平滑裁剪窗分隔的部分,将左右视图裁剪为左裁剪视图和右裁剪视图。
图3示出了第三实施例。该实施例专用于3D内容。关于裁剪窗扩展的判决可能使用深度图。3维数据用于确定平滑裁剪窗。
利用相同的附图标号来识别在图2中与第一实施例的步骤相同的步骤。
在步骤10中,在左视图中确定第一感兴趣区域ROIl,并在步骤12中,在右视图中确定第二感兴趣区域ROI2。根据变体,针对左视图确定左显著图,在步骤12中,针对右视图确定右显著图。
在称为CreateForbiddenAreaMap的步骤30处,向Reframing3D步骤32提供图,确保对3D内容的以下约束:如果对象在屏幕的前方,则裁剪窗的边界上不允许任何对象。实际上,人的大脑无法对此进行处理。从视图之一(左视图或右视图)产生禁止区域图。虽然图3和4从左视图产生了禁止区域图,但是也可以从右视图进行相同处理。
图4中详述了步骤30。定义了不能放置裁剪窗的禁止区域图,例如,在对象上(图5中右侧图像的白色像素)。
在步骤300处,使用颜色分割算法,例如,IEEE Transactions inImage Processing2009由J.van de Weijer等公开的“Learning ColorNames for Real-World Applications”中所公开的方法,来得到分割图。可以使用提供分割图的任何其它方法。将分割图应用于视图之一。
在步骤302处,针对分割图中识别的每个颜色区域,计算显著值。例如,对属于给定区域的像素的显著值进行平均。将该平均值认为是该区域的显著值。
在步骤304处,对该区域的显著值进行阈值处理。如果区域的显著值(或显著的平均)超过阈值T(阈值处理步骤),则在该区域中将最终禁止图设为1(或255,白色像素)。图5表示了存在禁止对象的这种黑白图。以下方程总结了对适用阈值T的计算:
(4)     T R ( &mu; , &sigma; ) = &mu; R - &sigma; R if &mu; R > 128 = &mu; R + &sigma; R else
其中μR和σR分别是区域R的平均差和标准差。从与用于分割的视图有关的显著图计算μR和σR
在步骤32处,确定平滑裁剪窗。在图6中详述了该步骤32。
在步骤322处,针对每个视图独立确定第一裁剪窗。步骤322的目标是:针对每个视图从该视图的显著图SM(x,y)限定裁剪窗,该裁剪窗包含在步骤10和12处确定的感兴趣区域、或宽度W和高度H的关注视图(considered view)S(x,y)中最醒目的部分。为此,裁剪窗可以是包围第一和第二感兴趣区域的最小窗。
可以应用多种2D重构方法。例如,首先对显著图进行二值化以便识别最显著区域。在二值图中将具有大于阈值的显著值的像素设为255。包括所有所识别显著区域(即,白色像素)的最小窗是第一裁剪窗。
根据变体,Winner-Take-All算法用于在WxH个候选中选择K个区域Ak,其中1<k<K。该选择包括两个步骤。首先,逐像素地扫描视图S(x,y),并在每个像素位置p(x,y)处,计算特征矢量
Figure BDA0000426672250000102
例如第二特征是从当前像素到画面的中心的欧氏距离。通过方程4所述,计算具有K个第一像素的子集M,该第一像素具有最高显著值且到中心距离最小。其次,当定位并存储第k个候选Ck时,禁止它的邻居以便确定第(k+1)个候选Ck+1,邻居意味着包括在Ak中的像素。Ak是在视角为1度的弧度内的像素的集合。邻居的尺寸依赖于观看距离。观看距离越远,则邻居的尺寸越大。
(5)     M = { C 1 . . C K } = Max ( SM ( p k ) ) Min ( d ( p k ( x , y ) ) , p ( W 2 , H 2 ) )
显著图可以有多个像素具有最大值;因此,接近画面中心的像素受欢迎。场景中心的偏移有重要作用:即使当显著性为空时,观看者仍趋于固定在场景中心附近。
考虑到迭代次数(或换言之数目K),强调该参数对裁剪窗的尺寸的影响非常重要。如果迭代次数较小(或换言之,位置的数目K较小),则裁剪窗的尺寸可能较小。相反,多次迭代可能确保较大的边界框。尽管该方法看似方便,然而明显地忽略了一个方面:显著图中显著性的分布。图7示出了这方面,其中图7表示两个不同图像。实际上,显著性的分布(或平均观察者变化性)可能在风景画面上较少。换言之,峰值显著性和平均背景等级之间的间距非常重要。对于风景图像,显著性的分布更均匀,其中风景图像没有明显突出物。在这种情况下,选择K个第一位置可能产生错误结果。为了解决该问题,通过由边界框包围的显著量来监控迭代。因此,由先前区域A1..k包含的显著量SQ来约束K。在没有验证关系(3)的情况下,继续迭代处理。调整K以便裁剪窗中具有百分之P的显著性,例如:
(6)     &Sigma; k = 1 K SQ k &le; P &times; SQ Total
(7)    其中 SQ Total = &Sigma; y = 0 H - 1 &Sigma; x = 0 W - 1 SM ( x , y )
(8)    且 SQ k = &Sigma; p ( x , y ) &Element; A k SM ( p ( x , y ) )
P是应用到该图的全部显著量SQtotal的最大量,例如,0<P<1。在图7中示出了这种裁剪窗的示例。
在步骤324处,将左右裁剪窗组合为中间裁剪窗,中间裁剪窗的左上角坐标(xLR,yLR),高度为hLR,且宽度为wHR。通过对于每个x和y分量应用求最大值和求最小值运算符来组合左右裁剪窗。
(9)     LRCoord ( x LR , y LR , w LR , h LR ) = min ( x left , x right ) min ( y left , y right ) max ( w left , w right ) max ( h left , h right )
另一方案在于应用CombineCroppingWindow模块的方程(1)的解。
在步骤326处,随着时间对裁剪窗的参数(位置、大小)进行滤波。该步骤称为时间一致性。时间一致性作用于裁剪窗的位置和尺寸,并包括随着时间稳定中间裁剪窗坐标/尺寸。由索引i来标识时间。例如,时间一致性包括两个连续步骤,Kalman滤波和非线性滤波。
首先应用Kalman滤波,以便更好地预测当前样本的轨迹。Kalman滤波器的特征为良好的递归性。不是对所有先前数据进行处理来提供估计(Wiener滤波器会如此),Kalman滤波器不需要长期的先前数据。Kalman滤波器是一种线性系统,其中最小化预测输出和真实输出之间的均方差。Kalman滤波器考虑在系统内不准确度的两个固有源,处理Wi并测量噪声Vi,以便最小化预测误差。在以下方程中,Xi是表示矢量坐标(xi LR,yi LR)和裁剪窗尺寸(wi LR,hi LR)的通用名称。Kalman滤波器由状态(方程9)和测量(方程10)方程来定义:
(10)    Xi=A.Xi-1+Wi
(11)    Zi=H.Xi+Vi
其中A是常数转移矩阵,H也是常数测量矩阵。
(12)     A = 1 0 0 1 H = 1 0 0 1
W和V(矩阵1x2)分别表示过程和测量噪声。假定它们相互独立,为白噪声且具有正态概率。凭经验设置W和V,并通过R和Q来给出相关噪声协方差矩阵。在来自公开于Course8,SIGGRAPH2001,2001,G.Welch和G.Bishop,标题为“An introduction to the kalman filter”的文献中详述了Kalman滤波。
(13)     R = 50 10 10 50 Q = 5 0 0 5
确定过程噪声非常困难。在该研究中,过程噪声协方差是恒定的。不确定性越高,则滤波器收敛越快。裁剪窗具有快速适应新显著性改变的趋势。由于应当认为滤波器接近摄像机运动,滤波器具有快速收敛。
Median滤波是一种改进,使得可以避免不可能的样本。仅使用Kalman滤波器不足以获得真实效果。应用非线性滤波以便移除可能是干扰的轨迹(水平或/和垂直)的短暂增大或减小。对于帧的较长轨迹受欢迎以模拟自然摄像机动作。对于裁剪窗CWLR i(xLR,yLR,wLR,hLR)的中心坐标和尺寸上独立应用每个滤波。该步骤的结果是具有平滑空间轨迹和尺寸的裁剪窗CWTC i(xTC,yTC,wTC,hTC)=(xsmooth,ysmooth,wsmooth,hsmooth)。
在步骤328处,应用长宽比转换。图8示出了使用的不同变量和标号。裁剪窗沿一个方向或另一方向扩展,或以不同比例沿每个方向扩展。由于重定目标也基于深度图,重定目标是立体的。动机在于避免被裁剪窗“剪切”边界或较强视差。感兴趣方案在于包括或拒绝具有相同视差的所有对象。
从显著图提取的中间窗的尺寸和由用户设置或应用定义的最终长宽比之间没有关系(没有联合分析)。实际上,步骤322执行对符合显著性峰Ak(如图7所示)的边界的最重要区域的准确估计,所述显著性峰Ak与重定目标应用的长宽比完全无关。通过根据当前比值RSM沿一个方向扩展裁剪窗CWSM i(xSM,ySM,wSM,hSM),各向异性扩展细化了裁剪窗尺寸。在宽度或高度上进行扩展以便达到目标长宽比RTG。假定:
Figure BDA0000426672250000133
是目标长宽比。
是中间裁剪窗的长宽比。
如果RTG>RSM,执行水平扩展(对于当前矩形的宽度),否则执行垂直扩展(对于当前矩形的高度)。如果水平扩展(相应地垂直扩展),可以定义:
hAR=hSM(resp.wAR=wSM)
wAR=wSM+dw(resp.hAR=hSM+dh)
xAR=xSM+dx(resp.xAR=xSM)
(14)    yAR=ySM(resp.yAR=ySM+dy)
其中
d w = d left + d right = w AR h AR &times; h SM - w SM = R TG &times; h SM - w SM
Figure BDA0000426672250000142
且wAR=wSM+dright+dleft
一旦定义了扩展侧,还有多种方式来扩展该窗。换言之,可以以不同方式计算dright和dleft。假定要扩展宽度wSM以便达到最终长宽比。
深度图和/或禁止区域图用于沿一个方向或另一方向扩展裁剪窗。
根据使用情况,深度图可以可用或不可用。因此,公开了长宽比转换步骤328的两个变体:当深度图不可用时的情况和当深度图可用时的情况。
当深度图不可用时,仅使用步骤30的禁止区域图。计算与SmoothedLRCoord窗相邻的像素列中的梯度总和(全局梯度或GG),以便描述每个扩展边的大小和表示。可以在水平方向上应用相同处理。当以下最小化问题具有解(假定yopt=ySM)时,得到优化裁剪窗CW(xopt,yopt):
(15)    xmin=argminx(GGx)
GG x min = &Sigma; y = y SM - h SM 2 , y SM + h SM 2 &OverBar; &dtri; FAM ( x , y ) = &Sigma; y = y SM - h SM 2 , y SM + h SM 2 &OverBar; ( &PartialD; FAM &PartialD; x , &PartialD; FAM &PartialD; y ) = &Sigma; y = y SM - h SM 2 , y SM + h SM 2 ( dFAM dx ) 2 + ( dFAM dy ) 2
实际上,通过在x轴以间隔[xSM-dw-wSM/2;xSM-wSM/2]来进行水平平移,确定窗(以目标长宽比),以便最小化方程(14)。dw是最大扩展宽度。
对应xmin是优化裁剪窗的左侧边。那么,xopt=xSM+dx(在(13中定义了dx))
dleft=xSM-xmin-wsm/2
dright=dw-dleft
根据变体,首先通过在x轴以间隔[xSM+wSM/2;xSM+dw+wSM/2]进行水平平移来确定dright,以便最小化方程(14)。
当最小化问题无解时,对每个边进行相同的扩展,意味着:dleft=dright=dw/2。
当深度图可用时,针对每个图计算置信度Confx。接着最大化该置信度,以便找到最佳裁剪窗。
(16)    xmin=argmaxx[Confx]
其中     Conf x = &Sigma; y = y SM - h SM 2 y SM + h SM 2 DM ( x , y SM ) &Sigma; y = y SM - h SM 2 y SM + h SM 2 FAM ( x , y SM )
实际上,通过在x轴以间隔[xSM-dw-wSM/2;xSM-wSM/2]进行水平平移来确定窗(以目标长宽比),以便最大化方程(15)。dw是最大扩展宽度。
对应xmin是优化裁剪窗的左侧边。接着,xopt=xSM+dx(在(13)中定义了dx)
dleft==xSM-xmin-wsm/2
dright=dw-dleft
根据变体,首先通过在x轴以间隔[xSM+wSM/2;xSM+dw+wSM/2]进行水平平移来确定dright,以便最大化方程(15)。
在步骤20处,通过在每个视图中提取由平滑裁剪窗分隔的部分,将左右视图裁剪为左裁剪视图和右裁剪视图。
图9的左上侧示出了显著图,右上侧表示第一显著峰以及对应第一裁剪窗(步骤322)。左下侧图像是禁止区域图以及作为最终裁剪窗的最小大小的滑动窗(sliding window)。右下侧表示避免剪切对象的最终左右选择数目。实际上,禁止区域图指示了要避免最终裁剪窗边界的区域(白色)。
根据本发明的重定目标方法完全自动,在不丢失用于全面理解场景的基础部分的情况下确保良好最终质量,并组合黑条纹的视觉改善3D效果和逼真的体验。
对多种后期制作任务而言,本发明是有利地,例如:
·长宽比转换的内容制备。TV所有者可以设想针对若干支持设备(例如,因特网、移动TV、常规TV频道(普通TV和VOD))对内容重定格式。
·蓝光盘的内容制备,在准备篮光支持设备中,需要从电影院到TV长宽比的长宽比转换。
图10图解性地示出了根据本发明的重定目标设备2。在图10中仅示出了重定目标设备2的关键部件。重定目标设备2包括通过地址和数据总线24连接的以下组件:
-处理单元21,例如,微处理器(或CPU),
-ROM(只读存储器)类型22的非易失性存储器,
-随机存取存储器(RAM)23,
-输入和输出接口25,以及
-可能地人机接口26。
应注意,存储器22和23的描述中所用词语“寄存器”表示所提及的存储器、小容量(一些二进制数据)存储区域和大容量存储区域(能够存储整个程序或所有或部分的表示所接收音频/视频服务的数据)中的每个。
非易失性存储器22包含实现根据本发明的重定目标方法的步骤。当加电时,处理单元21加载并运行这些算法的指令。随机存取存储器23尤其包括处理器单元21的操作程序以及要处理的(即,要重定目标的)图像,其中在设备加电时加载该操作程序。输入/输出接口25的功能在于接收输入信号(即,要重构的图像),并发送根据本发明方法的步骤10到20重定目标的图像。重定目标设备2的人机接口26能够令操作员在发生与要求不兼容的重定目标错误时中断处理。该接口还可以令操作员使用该接口手动识别例如文本区和脸部的认知信息。要重定目标的图像存储在随机存取存储器中,然后可以发送给只读存储器,以便以视图进行存档以进行后续处理操作。人机接口26可以包括控制面板,例如,键盘和显示屏幕。
根据变体,根据纯硬件实施来实现与本发明兼容的重定目标设备,例如,以专用组件(例如,ASIC(专用集成电路)或FPGA(现场可编程门阵列)或VLSI(超大规模集成电路)或集成在设备中的若干电子组件)的形式、或以硬件元件和软件元件混合的形式。

Claims (12)

1.一种对至少包括第一视图和第二视图的3D内容进行重定目标的方法,其特征在于所述方法包括步骤:
从所述第一视图确定(10、12)第一感兴趣区域,以及从所述第二视图确定(10、12)第二感兴趣区域;
从所述第一感兴趣区域确定(14、322、16、322)第一裁剪窗,以及从所述第二感兴趣区域确定(14、322、16、322)第二裁剪窗;
将所述第一和第二裁剪窗组合(18、324)为最终裁剪窗;
根据所述最终裁剪窗裁剪(20)所述第一视图和所述第二视图,裁剪后的第一和第二视图构成重定目标的3D内容。
2.根据权利要求1所述的方法,其中由参数标识最终裁剪窗,所述方法还包括:
随着时间对最终裁剪窗的参数进行滤波(326);
确定(30)禁止区域图,所述禁止区域图指示了要避免最终裁剪窗边界的区域;以及
使用禁止区域图将最终裁剪窗的长宽比转换(328)为目标长宽比。
3.根据权利要求1所述的方法,其中由参数标识最终裁剪窗,所述方法还包括:
随着时间对最终裁剪窗的参数进行滤波(326);
确定(30)禁止区域图,所述禁止区域图指示了要避免最终裁剪窗边界的区域;以及
使用禁止区域图和深度图将最终裁剪窗的长宽比转换(328)为目标长宽比。
4.根据权利要求2或3所述的方法,其中确定禁止区域图的步骤(30)包括步骤:
将所述至少两个视图中之一分割(300)为区域的分割图;
针对分割图的每个区域,根据所述至少两个视图之一的显著图计算(302)显著值;
针对每个区域计算的所述显著值进行阈值处理(304),以便形成禁止区域图。
5.根据权利要求1到4中的任意一个所述的方法,其中确定(10、12)所述第一和第二感兴趣区域包括确定第一和第二显著图。
6.一种用于对至少包括第一视图和第二视图的3D内容进行重定目标的设备,其特征在于所述设备包括:
用于从所述第一视图确定第一感兴趣区域以及从所述第二视图确定第二感兴趣区域的装置;
用于从所述第一感兴趣区域确定第一裁剪窗以及从所述第二感兴趣区域确定第二裁剪窗的装置;
用于将所述第一和第二裁剪窗组合为最终裁剪窗的装置;
用于根据所述最终裁剪窗裁剪所述第一视图和所述第二视图的装置,裁剪后的第一和第二视图构成重定目标的3D内容。
7.根据权利要求6所述的设备,其中由参数标识最终裁剪窗,所述设备还包括:
用于随着时间对最终裁剪窗的参数进行滤波的装置;
用于确定禁止区域图的装置,所述禁止区域图指示了要避免最终裁剪窗边界的区域;以及
用于使用禁止区域图将最终裁剪窗的长宽比转换为目标长宽比的装置。
8.根据权利要求6所述的设备,其中由参数标识最终裁剪窗,所述方法还包括:
随着时间对最终裁剪窗的参数进行滤波的装置;
用于确定禁止区域图的装置,所述禁止区域图指示了要避免最终裁剪窗边界的区域;以及
用于使用禁止区域图和深度图将最终裁剪窗的长宽比转换为目标长宽比的装置。
9.根据权利要求7或8所述的设备,其中用于确定禁止区域图的装置包括:
用于将所述至少两个视图之一分割为区域的分割图的装置;
用于针对分割图的每个区域,根据所述至少两个视图之一的显著图计算显著值的装置;
用于针对每个区域计算的所述显著值进行阈值处理以便形成禁止区域图的装置。
10.根据权利要求6到9中任意一个所述的设备,其中用显著图来确定感兴趣区域。
11.一种计算机程序产品,包括程序代码指令,以便当在计算机上执行所述程序时执行根据权利要求1到5中任意一个所述方法的步骤。
12.一种处理器可读介质,在其中存储指令,用于使处理器至少执行根据权利要求1到5中任意一个所述方法的步骤。
CN201280026599.5A 2011-05-31 2012-05-23 用于对3d内容进行重定目标的方法和设备 Pending CN103582900A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP11305661.8 2011-05-31
EP11305661A EP2530642A1 (en) 2011-05-31 2011-05-31 Method of cropping a 3D content
PCT/EP2012/059535 WO2012163743A1 (en) 2011-05-31 2012-05-23 Method and device for retargeting a 3d content

Publications (1)

Publication Number Publication Date
CN103582900A true CN103582900A (zh) 2014-02-12

Family

ID=44558272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280026599.5A Pending CN103582900A (zh) 2011-05-31 2012-05-23 用于对3d内容进行重定目标的方法和设备

Country Status (7)

Country Link
US (1) US9743062B2 (zh)
EP (2) EP2530642A1 (zh)
JP (1) JP6039657B2 (zh)
KR (1) KR20140038436A (zh)
CN (1) CN103582900A (zh)
TW (1) TWI553590B (zh)
WO (1) WO2012163743A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108205431A (zh) * 2016-12-16 2018-06-26 三星电子株式会社 显示设备及其控制方法
CN110024397A (zh) * 2016-10-07 2019-07-16 交互数字Vc控股公司 用于编码视频的方法和装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2894852A1 (en) * 2014-01-14 2015-07-15 Alcatel Lucent Process for increasing the quality of experience for users that watch on their terminals a high definition video stream
US9626584B2 (en) * 2014-10-09 2017-04-18 Adobe Systems Incorporated Image cropping suggestion using multiple saliency maps
US9805445B2 (en) * 2014-10-27 2017-10-31 Adobe Systems Incorporated Image zooming
WO2016204481A1 (ko) * 2015-06-16 2016-12-22 엘지전자 주식회사 미디어 데이터 전송 장치, 미디어 데이터 수신 장치, 미디어 데이터 전송 방법, 및 미디어 데이터 수신 방법
EP3223524A1 (en) 2016-03-22 2017-09-27 Thomson Licensing Method, apparatus and stream of formatting an immersive video for legacy and immersive rendering devices
US20210398333A1 (en) * 2020-06-19 2021-12-23 Apple Inc. Smart Cropping of Images

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101040536A (zh) * 2004-10-06 2007-09-19 汤姆逊许可公司 提供图片裁切功能的方法和设备
CN101535941A (zh) * 2006-09-01 2009-09-16 汤姆逊许可公司 自适应视频呈现的方法和装置
US20100259595A1 (en) * 2009-04-10 2010-10-14 Nokia Corporation Methods and Apparatuses for Efficient Streaming of Free View Point Video

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3632529A1 (de) 1986-09-25 1988-04-07 Basf Ag Verfahren zur herstellung von aldehyden und/oder ketonen durch umsetzung von epoxiden
JPH0563978A (ja) 1991-08-30 1993-03-12 Toshiba Corp 画像読取装置
GB2372659A (en) 2001-02-23 2002-08-28 Sharp Kk A method of rectifying a stereoscopic image
JP2005072674A (ja) * 2003-08-27 2005-03-17 Sharp Corp 三次元画像生成装置および三次元画像生成システム
EP1544792A1 (en) 2003-12-18 2005-06-22 Thomson Licensing S.A. Device and method for creating a saliency map of an image
EP1889171A4 (en) * 2005-04-07 2012-11-28 Visionsense Ltd METHOD FOR RECONSTRUCTING A THREE-DIMENSIONAL SURFACE OF AN OBJECT
EP1764736A1 (en) 2005-09-19 2007-03-21 Thomson Licensing Method and device for image cropping
TW200719281A (en) * 2005-07-28 2007-05-16 Thomson Licensing Method and device for generating a sequence of images of reduced size
JP4249187B2 (ja) * 2006-01-13 2009-04-02 エヌ・ティ・ティ・コムウェア株式会社 立体映像処理装置並びにそのプログラム
TW200733741A (en) * 2006-02-20 2007-09-01 Inventec Appliances Corp Method for converting image screen specification for handheld multimedia playing device
FR2912237A1 (fr) 2007-02-07 2008-08-08 Thomson Licensing Sas Procede de traitement d'image
US8824833B2 (en) * 2008-02-01 2014-09-02 Omnivision Technologies, Inc. Image data fusion systems and methods
TW200937344A (en) 2008-02-20 2009-09-01 Ind Tech Res Inst Parallel processing method for synthesizing an image with multi-view images
JP2009212929A (ja) * 2008-03-05 2009-09-17 Fujifilm Corp 画像トリミング範囲の評価方法、装置およびプログラム
US9240056B2 (en) 2008-04-02 2016-01-19 Microsoft Technology Licensing, Llc Video retargeting
FR2929797A1 (fr) 2008-04-03 2009-10-09 Thomson Licensing Sas Procede et dispositif de codage d'une sequence d'images
JP2011039801A (ja) * 2009-08-12 2011-02-24 Hitachi Ltd 画像処理装置および画像処理方法
US8711204B2 (en) * 2009-11-11 2014-04-29 Disney Enterprises, Inc. Stereoscopic editing for video production, post-production and display adaptation
US9142026B2 (en) * 2010-02-26 2015-09-22 Thomson Licensing Confidence map, method for generating the same and method for refining a disparity map
US9591281B2 (en) * 2010-12-22 2017-03-07 Thomson Licensing Apparatus and method for determining a disparity estimate
FR2968108A1 (fr) 2011-06-20 2012-06-01 Thomson Licensing Procede de reduction de la taille d’une image stereoscopique
US8619082B1 (en) * 2012-08-21 2013-12-31 Pelican Imaging Corporation Systems and methods for parallax detection and correction in images captured using array cameras that contain occlusions using subsets of images to perform depth estimation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101040536A (zh) * 2004-10-06 2007-09-19 汤姆逊许可公司 提供图片裁切功能的方法和设备
CN101535941A (zh) * 2006-09-01 2009-09-16 汤姆逊许可公司 自适应视频呈现的方法和装置
US20100259595A1 (en) * 2009-04-10 2010-10-14 Nokia Corporation Methods and Apparatuses for Efficient Streaming of Free View Point Video

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
K UTSUGI ET AL.: "seam carving for stereo images", 《3DTV-CONFERENCE: THE TRUE VISION-CAPTURE》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110024397A (zh) * 2016-10-07 2019-07-16 交互数字Vc控股公司 用于编码视频的方法和装置
CN108205431A (zh) * 2016-12-16 2018-06-26 三星电子株式会社 显示设备及其控制方法
CN108205431B (zh) * 2016-12-16 2021-06-25 三星电子株式会社 显示设备及其控制方法
US11094105B2 (en) 2016-12-16 2021-08-17 Samsung Electronics Co., Ltd. Display apparatus and control method thereof

Also Published As

Publication number Publication date
US9743062B2 (en) 2017-08-22
KR20140038436A (ko) 2014-03-28
TWI553590B (zh) 2016-10-11
WO2012163743A1 (en) 2012-12-06
JP2014522596A (ja) 2014-09-04
EP2715660A1 (en) 2014-04-09
EP2530642A1 (en) 2012-12-05
JP6039657B2 (ja) 2016-12-07
TW201248545A (en) 2012-12-01
US20140232821A1 (en) 2014-08-21

Similar Documents

Publication Publication Date Title
CN103582900A (zh) 用于对3d内容进行重定目标的方法和设备
CN102741879B (zh) 由单眼图像产生深度图的方法及其系统
US8861836B2 (en) Methods and systems for 2D to 3D conversion from a portrait image
RU2587425C2 (ru) Способ получения карты глубины изображения повышенного качества
KR101584115B1 (ko) 시각적 관심맵 생성 장치 및 방법
US20160364877A1 (en) Apparatus and method for extracting object of interest from image using image matting based on global contrast
CN104756491A (zh) 基于组合的深度提示从单视场图像生成深度图
KR20110113924A (ko) 영상 변환 장치 및 이를 포함하는 입체 영상 표시 장치
CN103226824B (zh) 维持视觉显著性的视频重定向系统
JP2014522596A5 (zh)
CN113516666A (zh) 图像裁剪方法、装置、计算机设备及存储介质
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
US8705847B2 (en) Method and system of two-dimensional to stereoscopic conversion
US8995755B2 (en) Two-dimensional to stereoscopic conversion systems and methods
US10089954B2 (en) Method for combined transformation of the scale and aspect ratio of a picture
US20150030233A1 (en) System and Method for Determining a Depth Map Sequence for a Two-Dimensional Video Sequence
CN110991440A (zh) 一种像素驱动的手机操作界面文本检测方法
CN102883170A (zh) 图像处理装置、图像处理方法及图像处理程序
CN102708570B (zh) 获取深度图的方法及装置
CN102609958A (zh) 视频对象提取的方法及设备
Li et al. Saliency segmentation and foreground extraction of underwater image based on localization
CN113888567A (zh) 一种图像分割模型的训练方法、图像分割方法及装置
KR101382227B1 (ko) 윈도우 영상을 분류하는 방법, 이를 입체 영상으로 변환하는 방법 및 이를 수행하는 전자 장치
CN110602479A (zh) 视频转换方法及系统
JP2018010359A (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20171222