CN102271262A - 用于3d显示的基于多线索的视频处理方法 - Google Patents

用于3d显示的基于多线索的视频处理方法 Download PDF

Info

Publication number
CN102271262A
CN102271262A CN2010101986467A CN201010198646A CN102271262A CN 102271262 A CN102271262 A CN 102271262A CN 2010101986467 A CN2010101986467 A CN 2010101986467A CN 201010198646 A CN201010198646 A CN 201010198646A CN 102271262 A CN102271262 A CN 102271262A
Authority
CN
China
Prior art keywords
pixel
significantly
frame
remarkable
video frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010101986467A
Other languages
English (en)
Other versions
CN102271262B (zh
Inventor
王海涛
马赓宇
梅星
金智渊
金智元
郑用柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Priority to CN201010198646.7A priority Critical patent/CN102271262B/zh
Priority to KR1020110038344A priority patent/KR101820673B1/ko
Priority to US13/067,465 priority patent/US9148652B2/en
Publication of CN102271262A publication Critical patent/CN102271262A/zh
Application granted granted Critical
Publication of CN102271262B publication Critical patent/CN102271262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种用于3D显示的基于多线索的视频处理方法,所述方法包括:1)对输入视频的每个帧进行镜头的边界检测,获得镜头的切边界;2)对输入视频的每个像素计算纹理显著;3)对输入视频的每个像素计算运动显著;4)基于获得的镜头的切边界对输入视频的每个像素计算对象显著;5)通过将纹理显著、运动显著、对象显著组合来获得每个像素的通用显著;6)使用空时技术对每个像素的通用显著进行平滑。

Description

用于3D显示的基于多线索的视频处理方法
技术领域
本发明涉及一种视频处理方法,更具体地,涉及一种用于3D显示的基于多线索的视频处理方法。
背景技术
最近几年,由于在包括医疗、教育、娱乐和制造业的广泛领域内的迫切需要,3D(三维)显示市场已经快速扩展。同时,由于大量3D素材(尤其是3D电影)对于普通消费者可用,因此未来几年3D显示市场的扩展速度会更加快速。虽然每年整个电影工业会制作更多的3D电影,但是仍有大量视频素材是通过单个相机捕捉,并以传统2D(二维)格式存储。由于这些单眼2D视频没有相应的深度信息,故它们不能直接被3D显示。因此,由于巨大的市场潜力,2D到3D视频转换技术引起了工业的极大兴趣。
大多数现有转换方法和技术(诸如,TriDef的3D体验方案(DDD))都遵循相似的工作流程:首先从输入视频序列估计似然深度图,随后将视频帧与深度图组合以用于立体视角合成。为了恢复这些场景的深度信息,通常使用各种深度线索(诸如,阴影、运动估计、纹理模式、聚焦/失焦、几何透视和统计模型)用于视频分析。虽然这些现有转换方法获得了一些明显效果,但是它们没有为实际应用做好准备,原因在于:首先,深度线索仅对特定视觉场景具有较好的效果,这种对视觉场景的极端假设通常会在一般视频素材中被干扰;其次,难以将各种线索组合以产生一致的深度结果;再次,从单眼图像或视频恢复深度本身就是不适定问题。在一些情况中,如果没有必需的多视角信息,则不可能测量视觉深度。
显著图是指示视觉场景的视觉显著性的强度图,已经在大脑和视觉科学领域中对其进行了二十多年的研究。图1示出示例性视觉场景及其相应的显著图。如图1所示,显著图中的亮度区域表示引起人类观察者注意的对象。由于显著图可以提供有价值的低等级场景信息,故已经将其广泛应用于许多机器版本任务,诸如自动目标检测和视频压缩等。
然而,现有显著技术不适用于2D到3D视频转换。虽然这些通过现有方法产生的显著图成功地指出场景中的重要对象,但是这些显著图共有以下缺点:出现块状;显著信息没有准确跟随对象边界;对于较大的对象,仅高亮显示轮廓而不填充整个对象。现有显著技术的另一问题是仅聚焦于静态显著特征(诸如,强度/色彩对比、亮度和定位),而没有对视频素材中提供了重要的视觉信息的动态线索(诸如,运动对象和人)进行处理。
发明内容
本发明提供了一种用于3D显示的基于多线索的视频处理方法,该方法对现有显著技术进行改进,并将改进的显著技术应用于2D到3D视频转换。
本发明提供了一种用于3D显示的基于多线索的视频处理方法,所述方法包括:1)对输入视频的每个帧进行镜头的边界检测,获得镜头的切边界;2)对输入视频的每个像素计算纹理显著;3)对输入视频的每个像素计算运动显著;4)基于获得的镜头的切边界对输入视频的每个像素计算对象显著;5)通过将纹理显著、运动显著、对象显著组合来获得每个像素的通用显著。
所述步骤1)可包括:对输入视频的每个帧计算HSV直方图;计算当前帧与先前帧的HSV直方图之差,得到直方图相交距离;将直方图相交距离与阈值进行比较,如果直方图相交距离低于阈值,则当前帧被检测为镜头的切边界。
所述阈值可等于一帧图像总像素数的一半。
所述步骤1)可包括:对输入视频的每个帧计算HSV直方图;在与当前帧相邻的先前帧和随后帧可用时,计算先前帧与当前帧的直方图之差和当前帧与随后帧的直方图之差,得到第一相交距离和第二相交距离;将第一相交距离与第一阈值进行比较,第二相交距离与第二阈值进行比较,如果第一相交距离低于第一阈值并且第二相交距离高于第二阈值,则当前帧被检测为镜头的切边界。
所述第一阈值可等于第二阈值等于一帧图像总像素数的一半。
所述步骤2)可包括:对每个帧构造金字塔结构,通过一对参数(lx,ly)分别控制金字塔结构的X、Y方向的尺度等级,使用以下公式来计算像素x的纹理显著ST(x):
S T ( x ) = Σ lx = 1 L X Σ ly = 1 L Y W lx , ly · StatDiff ( I lx , ly ( x ) )
其中,LX、LY是金字塔结构的X、Y方向的尺度等级最大值,Wlx,ly是权重参数,StatDiff(Ilx,ly(x))是计算尺度等级(lx,ly)图像上的像素x的统计差的函数;块B1、B2、B3和B4分别是中心块B0在上、下、左和右四个方向上的相邻块,像素x总是位于中心块B0的预定位置,使用以下公式计算像素x的统计差:
StatDiff ( I ( x ) ) = Σ i = 1 4 W μ | μ i - μ 0 | + W σ | σ i - σ 0 | + W γ | γ i - γ 0 |
其中,μi是块Bi的像素值分布上的中值,σi是块Bi的像素值分布上的标准偏差,γi是块Bi的像素值分布上的偏斜度,Wμ、Wσ、Wγ是权重参数。
所述步骤3)可包括:使用Rosenholtz的简单统计模型计算输入视频的每个像素的运动显著SM(x)。
所述步骤4)可包括:基于获得的镜头的切边界,检测人脸的位置和大小;基于检测的人脸的位置和大小确定人体的位置和大小;
所述步骤4)可进一步包括:将处于所述人脸位置和人体位置内的像素的对象显著SO设置为预定值,其它部分像素的对象显著SO设置为另一预定值。
所述步骤5)可包括:根据以下等式通过将纹理显著、运动显著、对象显著组合来计算像素x的通用显著S(x):
S(x)=WT·ST(x)+WM·SM(x)+WO·SO(x)
其中,ST(x)是像素x的纹理显著,SM(x)是像素x的运动显著,SO(x)是像素x的对象显著,WT是纹理显著的权重参数,WM是运动显著的权重参数,WO是对象显著的权重参数。
在当前镜头是自然场景时,可将WT设置为1,WT设置为0,WT设置为0。
在当前镜头是动作场景时,可将WT设置为0.7,WT设置为0.3,WT设置为0。
在当前镜头是戏剧场景时,可将WT设置为0.5,WT设置为0.2,WT设置为0.3。
所述视频处理方法还可包括:使用空时技术对每个像素的通用显著进行平滑。
使用空时技术对每个像素的通用显著进行平滑包括步骤:使用以下等式对帧t中的像素x计算平滑显著SS
S S ( x , t ) = Σ t ′ ∈ N ( t ) Σ x ′ ∈ N ( x ) W 1 ( x , t ′ , x , t ′ ) · W 2 ( S ( x ′ , t ′ ) , S ( x , t ) ) · S ( x ′ , t ′ )
其中,N(x)定义像素x的空间邻域,N(t)定义像素x的时间邻域,W1(x,t,x′,t′)是像素(x,t)与相邻像素(x’,t’)之间的空时权重,W2(S(x′,t′),S(x,t))是像素(x,t)与相邻像素(x’,t’)之间的强度权重,S(x′,y′)是像素(x’,t’)的通用显著。
将在接下来的描述中部分阐述本发明另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明的实施而得知。
附图说明
通过下面结合附图进行的详细描述,本发明的上述和其它目的和特点将会变得更加清楚,其中:
图1示出示例性视觉场景及其相应的显著图;
图2是示出根据本发明示例性实施例的用于3D显示的基于多线索的视频处理方法的流程图;
图3A是示出现有技术的边界检测的流程图;
图3B是示出根据本发明示例性实施例的边界检测的流程图;
图4是示出根据本发明示例性实施例的金字塔等级的示图;
图5是示出根据本发明示例性实施例的计算像素的统计差所需的块的示图;
图6是示出根据本发明示例性实施例的获得对象显著的示图;
图7是根据本发明示例性实施例的自然场景的测试结果的示图;
图8是根据本发明示例性实施例的动作场景的测试结果的示图;
图9是根据本发明示例性实施例的戏剧场景的测试结果的示图。
具体实施方式
现在,详细描述本发明的实施例,其示例在附图中表示,其中,相同的标号始终表示相同的部件。
图2是示出根据本发明示例性实施例的用于3D显示的基于多线索的视频处理方法的流程图。
在操作S210,对输入视频的每个帧进行镜头的边界检测,获得镜头的切边界。
镜头是来自一个相机的帧的完整序列。视频素材通常包含各个场景的多个镜头。存在几种不同类型的镜头边界,诸如,切、渐进/渐出、溶解和划变等。本发明主要对发生突然场景改变的切边界进行检测。用于切边界检测的主要方法有基于像素差的算法、基于直方图的算法、基于DCT系数差的算法和基于运动信息的算法。本发明使用具有精确和速度之间的较好折中的基于直方图的算法。
图3A是示出现有技术的边界检测的流程图。参照图3A,在操作S211A,对输入视频的每个帧计算HSV(即,色度、饱和度、亮度)直方图。在操作S212A,计算当前帧与先前帧的HSV直方图之差,得到直方图相交距离。在操作S213A,将直方图相交距离与阈值进行比较,如果直方图相交距离低于阈值,则当前帧被检测为镜头的切边界。在此,设置阈值=50%×一帧图像的总像素数。应该理解,所述阈值并不限于以上实施例,可以对其进行修改和改变。
为了获得更好的准确性,在与当前帧相邻的先前帧和随后帧可用时,在操作S210还可执行上述现有技术的基本直方图算法的简单扩展。图3B是示出根据本发明示例性实施例的边界检测的流程图。参照图3B,在操作S211B,对输入视频的每个帧计算HSV直方图。在操作S212B,先前帧、当前帧和随后帧的HSV直方图分别为H1、H2和H3,计算H1与H2之间的相交距离和H2与H3之间的相交距离。在操作S213B,将H1与H2的相交距离与阈值V1进行比较,将H2与H3的相交距离与阈值V2进行比较,如果H1与H2的相交距离低于阈值V1,并且H2与H3的相交距离高于阈值V2,则当前帧被检测为镜头的切边界。在此,设置V1=V2=50%×一帧图像的总像素数。对本领域技术人员清楚的是,所述阈值V1和V2并不限于以上实施例,可以对其进行修改和改变。
应该理解,除了上述方法之外,还可使用其它适合的方法对输入视频的每个帧进行镜头的边界检测。
在操作S220,对输入视频的每个像素计算纹理显著(texture saliency)。
纹理信息是任何一般视觉场景的可靠视觉特征。根据本发明的示例性实施例,首先对每个帧构造金字塔结构:使用一对参数(lx,ly)来分别控制金字塔结构的X、Y方向的尺度等级,在此,将当前尺度等级设置为前一相邻尺度等级的一半。图4是示出根据本发明示例性实施例的金字塔等级的示图。应该理解,根据本发明示例性实施例的每个帧不限于图4所示的X、Y方向具有三个尺度等级,也不限于将当前尺度等级设置为前一相邻尺度等级的一半。
使用以下公式对像素x的多尺度纹理显著ST(x)进行计算:
S T ( x ) = Σ lx = 1 L X Σ ly = 1 L Y W lx , ly · StatDiff ( I lx , ly ( x ) )
其中,LX、LY是金字塔结构的X、Y方向的尺度等级最大值,Wlx,ly是权重参数,StatDiff(Ilx,ly(x))是计算尺度等级(lx,ly)图像上的像素x的统计差的函数。
图5是示出根据本发明示例性实施例的计算像素的统计差所需的块B0、B1、B2、B3和B4的示图。如图5所示,块B1、B2、B3和B4分别是中心块B0在上、下、左和右四个方向上的相邻块,像素x总是位于中心块B0的预定位置(即,块B0、B1、B2、B3和B4的位置随着像素x位置的改变而改变)。对每个块Bi(i=0,1,2,3,4),首先计算像素值分布上的三个统计测量,即,中值μi、标准偏差σi和偏斜度γi,随后,使用以下公式计算像素x的统计差:
StatDiff ( I ( x ) ) = Σ i = 1 4 W μ | μ i - μ 0 | + W σ | σ i - σ 0 | + W γ | γ i - γ 0 |
其中,Wμ、Wσ、Wγ(Wμ+Wσ+Wγ=1)是用于平衡三个测量的贡献率的权重参数。
依次对输入视频的每帧的每个像素计算纹理显著,从而获得输入视频所有像素的纹理显著。
作为后处理步骤,使用交叉双向滤波器对每个像素的纹理显著进行平滑,以去除块状伪影和错误对象边界。
应该理解,除了上述方法之外,还可使用其它适合的方法对输入视频的每个像素计算纹理显著。
在操作S230,对输入视频的每个像素计算运动显著(motion saliency)。在此,使用Rosenholtz的简单统计模型计算运动显著SM(x),像素x的运动显著SM(x)被定义为速度场的中值
Figure GSA00000141483000071
和协方差
Figure GSA00000141483000072
之间的Mahalanobis距离:
S M ( x ) = | ( v → - μ v → ) T Σ - 1 ( v → - μ v → ) |
其中,使用块匹配算法来估计像素x的初始光流
Figure GSA00000141483000074
依次对输入视频的每帧的每个像素计算运动显著,从而获得输入视频所有像素的运动显著。
由于运动对象非常可能突然跑出在它们的运动与扩张运动的中值之间的极大距离,故使用交叉双向滤波器对每个像素的运动显著进行平滑,以去除光流噪声并使显著边界成形。
应该理解,除了上述方法之外,还可使用其它适合的方法对输入视频的每个像素计算运动显著。
在操作S240,基于获得的镜头的切边界对输入视频的每个像素计算对象显著(object saliency)。
根据本发明示例性实施例的对象显著高亮显示每帧图像的视觉场景中的特定对象,将高亮显示的特定对象内的像素的对象显著设置为预定值,其它像素设置为另一预定值(例如,电视广播中的人脸、电影中的演员、体育视频中的车辆)。视觉场景中的这些特定对象通常在相应的视觉场景中扮演中心角色,故应包括在显著图中。由于人脸在各种类型的视觉场景中是主要元素,故在此聚焦于检测人脸并将其高亮显示。
根据本发明示例性实施例,将人脸检测和跟踪技术组合以获得稳定的对象显著,并将置信参数c作为跟踪分量。根据操作S210划分的镜头,在输入视频每个镜头的第一帧,使用Viola-Jones检测器检测人脸的位置,如果检测到人脸,则采用自适应中值偏移跟踪技术对当前镜头随后的帧进行人脸跟踪(跟踪的人脸位置和大小是以矩形框的形式);如果没有检测到人脸或者跟踪丢失,则在下一帧继续进行人脸检测。将检测结果与当前跟踪结果进行比较,以进行置信更新:如果检测的人脸的位置与跟踪结果接近,则将置信参数c增加1,否则,将置信参数c减小1。如果置信参数c>0,则跟踪结果可靠,仍然使用上述跟踪技术来更新人脸位置;否则,丢弃跟踪结果,使用检测结果重新初始化人脸位置。
图6是示出根据本发明示例性实施例的获得对象显著的示图。通过获得的人脸位置和大小信息,使用一个椭圆来标示出跟踪的人脸(所述椭圆内切人脸矩形框,如图6中的(a)所示),然后将标示出的人脸椭圆放大n(n=[2,5])倍,生成人体椭圆。所述人体椭圆的中心在人脸椭圆长轴的延长线上,两个椭圆相切。随后,通过将上述两个椭圆高亮显示来产生初始显著图(如图6中的(b)所示)。通过将高亮的两个椭圆区域的像素值设定为预定值h1(h1>0),其它部分的像素值设置为0来确定像素的对象显著SO。随后,将初始显著图与原始彩色图像一起交叉双向滤波,以修正形状边界(如图6中的(c)所示)。
应该理解,除了上述方法之外,还可使用其它适合的方法对输入视频的每个像素计算对象显著。
在操作S250,根据以下等式通过组合纹理显著、运动显著、对象显著来产生像素x的通用显著S(x):
S(x)=WT·ST(x)+WM·SM(x)+WO·SO(x)
其中,WT、WM、WO(WT+WM+WO=1)是相应显著的权重参数。为了处理一般视觉场景,定义了不同的视觉场景类型:自然场景、动作场景和戏剧场景。表1是当前镜头分别是自然场景、动作场景和戏剧场景的权重参数设置。
  类型/权重参数   WT   WM   WO
  自然场景   1.0   0.0   0.0
  动作场景   0.7   0.3   0.0
  戏剧场景   0.5   0.2   0.3
表1自然场景、动作场景和戏剧场景相应的权重参数设置
应该了解,这些参数仅是示例性的,观看者可以自由地选择三种不同的场景类型并可以对所述三种类型的权重参数进行设置。
至此,根据本发明示例性实施例的用于3D显示的基于多线索的视频处理方法独立地产生了用于视频序列中的每帧的显著图。
由于某些显著线索或显著对象可能会突然消失,或者视觉场景中的暗部区域突然被高亮显示,故显著信息会从帧到帧突然改变,引起令观看者不舒服的闪烁,产生眼睛疲惫。因此,在操作S206,使用空时技术对显著图序列进行平滑。对于帧t中的像素x(像素(x,t)),根据以下等式计算其平滑显著SS
S S ( x , t ) = Σ t ′ ∈ N ( t ) Σ x ′ ∈ N ( x ) W 1 ( x , t , x ′ , t ′ ) · W 2 ( S ( x ′ , t ′ ) , S ( x , t ) ) · S ( x ′ , t ′ )
其中,N(x)、N(t)分别定义像素x的空间、时间邻域,W1(x,t,x′,t′)是像素(x,t)与相邻像素(x’,t’)之间的空时权重,W2(S(x′,t′),S(x,t))是像素(x,t)与相邻像素(x’,t’)之间的强度权重(W1(x,t,x′,t′)+W2(S(x′,t′),S(x,t))=1),S(x′,t′)是像素(x’,t’)的通用显著。
应该理解,除了上述方法之外,还可使用其它适合的方法对输入视频的每个像素计算平滑显著。
图7是根据本发明示例性实施例的自然场景的测试结果的示图,图8是根据本发明示例性实施例的动作场景的测试结果的示图,图9是根据本发明示例性实施例的戏剧场景的测试结果的示图。
如图7所示,第一行为原始图像,第二行的现有DDD方法产生了过渡平滑的似斜坡深度图,第三行的根据本发明示例性实施例的方法准确地高亮显示了显著对象。如图8所示,第一行为原始图像,第二行的现有DDD方法使用几乎没有增强的运动信息产生了模糊的深度信息,第三行的根据本发明示例性实施例的使用纹理显著和运动显著的组合的方法成功地示出运动对象。如图9所示,第一行为原始图像,第二行的现有DDD方法几乎没有还原人物,第三行的根据本发明示例性实施例的使用纹理显著、运动显著和对象显著的组合的方法适当地示出人脸和上身。同时,对于现有DDD方法产生的深度序列,闪烁伪影也是可以察觉的。
本发明对所有类型的测试视频具有更好的观看体验,对动作场景和戏剧场景尤其明显。同时,本发明的方法是完全自动的,并且可以处理任何类型的视频,甚至是静态图片。
虽然已经参照示例性实施例示出和描述了本发明,但是本领域的技术人员应该理解:在不脱离由权利要求定义的本发明的精神和范围的情况下,可以进行形式和细节上的各种改变。

Claims (15)

1.一种用于3D显示的基于多线索的视频处理方法,所述方法包括:
1)对输入视频的每个帧进行镜头的边界检测,获得镜头的切边界;
2)对输入视频的每个像素计算纹理显著;
3)对输入视频的每个像素计算运动显著;
4)基于获得的镜头的切边界对输入视频的每个像素计算对象显著;
5)通过将纹理显著、运动显著、对象显著组合来获得每个像素的通用显著。
2.如权利要求1所述的视频处理方法,所述步骤1)包括:
对输入视频的每个帧计算HSV直方图;
计算当前帧与先前帧的HSV直方图之差,得到直方图相交距离;
将直方图相交距离与阈值进行比较,如果直方图相交距离低于阈值,则当前帧被检测为镜头的切边界。
3.如权利要求2所述的视频处理方法,所述阈值等于一帧图像总像素数的一半。
4.如权利要求1所述的视频处理方法,所述步骤1)包括:
对输入视频的每个帧计算HSV直方图;
在与当前帧相邻的先前帧和随后帧可用时,计算先前帧与当前帧的直方图之差和当前帧与随后帧的直方图之差,得到第一相交距离和第二相交距离;
将第一相交距离与第一阈值进行比较,第二相交距离与第二阈值进行比较,如果第一相交距离低于第一阈值并且第二相交距离高于第二阈值,则当前帧被检测为镜头的切边界。
5.如权利要求4所述的视频处理方法,所述第一阈值等于第二阈值等于一帧图像总像素数的一半。
6.如权利要求1所述的视频处理方法,所述步骤2)包括:
对每个帧构造金字塔结构,通过一对参数(lx,ly)分别表示金字塔结构的X、Y方向的尺度等级,使用以下公式来计算像素x的纹理显著ST(x):
S T ( x ) = Σ lx = 1 L X Σ ly = 1 L Y W lx , ly · StatDiff ( I lx , ly ( x ) )
其中,LX、LY是金字塔结构的X、Y方向的尺度等级最大值,Wlx,ly是权重参数,StatDiff(Ilx,ly(x))是计算尺度等级(lx,ly)图像上的像素x的统计差的函数;
块B1、B2、B3和B4分别是中心块B0在上、下、左和右四个方向上的相邻块,像素x总是位于中心块B0的预定位置,使用以下公式计算像素x的统计差:
StatDiff ( I ( x ) ) = Σ i = 1 4 W μ | μ i - μ 0 | + W σ | σ i - σ 0 | + W γ | γ i - γ 0 |
其中,μi是块Bi的像素值分布上的中值,σi是块Bi的像素值分布上的标准偏差,γi是块Bi的像素值分布上的偏斜度,Wμ、Wσ、Wγ是权重参数。
7.如权利要求1所述的视频处理方法,所述步骤3)包括:
使用Rosenholtz的简单统计模型计算输入视频的每个像素的运动显著SM(x)。
8.如权利要求1所述的视频处理方法,所述步骤4)包括:
基于获得的镜头的切边界,检测人脸的位置和大小;
基于检测的人脸的位置和大小确定人体的位置和大小。
9.如权利要求8所述的视频处理方法,所述步骤4)进一步包括:
将处于所述人脸位置和人体位置内的像素的对象显著SO设置为预定值,其它部分像素的对象显著SO设置为另一预定值。
10.如权利要求1所述的视频处理方法,所述步骤5)包括:
根据以下等式通过将纹理显著、运动显著、对象显著组合来计算像素x的通用显著S(x):
S(x)=WT·ST(x)+WM·SM(x)+WO·SO(x)
其中,ST(x)是像素x的纹理显著,SM(x)是像素x的运动显著,SO(x)是像素x的对象显著,WT是纹理显著的权重参数,WM是运动显著的权重参数,WO是对象显著的权重参数。
11.如权利要求10所述的视频处理方法,其中,在当前镜头是自然场景时,将WT设置为1,WT设置为0,WT设置为0。
12.如权利要求10所述的视频处理方法,其中,在当前镜头是动作场景时,将WT设置为0.7,WT设置为0.3,WT设置为0。
13.如权利要求10所述的视频处理方法,其中,在当前镜头是戏剧场景时,将WT设置为0.5,WT设置为0.2,WT设置为0.3。
14.如权利要求1所述的视频处理方法,还包括:使用空时技术对每个像素的通用显著进行平滑。
15.如权利要求14所述的视频处理方法,所述使用空时技术对每个像素的通用显著进行平滑包括步骤:
使用以下等式对帧t中的像素x计算平滑显著SS
S S ( x , t ) = Σ t ′ ∈ N ( t ) Σ x ′ ∈ N ( x ) W 1 ( x , t ′ , x t ′ ) · W 2 ( S ( x ′ , t ′ ) , S ( x , t ) ) · S ( x ′ , t ′ )
其中,N(x)定义像素x的空间邻域,N(t)定义像素x的时间邻域,W1(x,t,x′,t′)是像素(x,t)与相邻像素(x’,t’)之间的空时权重,W2(S(x′,t′),S(x,t))是像素(x,t)与相邻像素(x’,t’)之间的强度权重,S(x′,t′)是像素(x’,t’)的通用显著。
CN201010198646.7A 2010-06-04 2010-06-04 用于3d显示的基于多线索的视频处理方法 Active CN102271262B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201010198646.7A CN102271262B (zh) 2010-06-04 2010-06-04 用于3d显示的基于多线索的视频处理方法
KR1020110038344A KR101820673B1 (ko) 2010-06-04 2011-04-25 멀티 스레드 방식을 기반으로 하는 3d 디스플레이를 위한 비디오 처리 방법
US13/067,465 US9148652B2 (en) 2010-06-04 2011-06-02 Video processing method for 3D display based on multi-cue process

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010198646.7A CN102271262B (zh) 2010-06-04 2010-06-04 用于3d显示的基于多线索的视频处理方法

Publications (2)

Publication Number Publication Date
CN102271262A true CN102271262A (zh) 2011-12-07
CN102271262B CN102271262B (zh) 2015-05-13

Family

ID=45053403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010198646.7A Active CN102271262B (zh) 2010-06-04 2010-06-04 用于3d显示的基于多线索的视频处理方法

Country Status (3)

Country Link
US (1) US9148652B2 (zh)
KR (1) KR101820673B1 (zh)
CN (1) CN102271262B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015188666A1 (zh) * 2014-06-13 2015-12-17 华为技术有限公司 三维视频滤波方法和装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366352B (zh) * 2012-03-30 2017-09-22 北京三星通信技术研究有限公司 用于产生背景被虚化的图像的设备和方法
DE102012205907B4 (de) * 2012-04-11 2018-11-08 Trumpf Werkzeugmaschinen Gmbh + Co. Kg System und Verfahren zur Maschinenwartung
US9202258B2 (en) * 2012-06-20 2015-12-01 Disney Enterprises, Inc. Video retargeting using content-dependent scaling vectors
US9025880B2 (en) * 2012-08-29 2015-05-05 Disney Enterprises, Inc. Visual saliency estimation for images and video
FR3047597B1 (fr) * 2016-01-04 2018-01-19 Laoviland Experience Procede de traitement graphique d'images
KR20200116728A (ko) 2019-04-02 2020-10-13 삼성전자주식회사 자체 운동 정보 추정 장치 및 방법
CN110769242A (zh) * 2019-10-09 2020-02-07 南京航空航天大学 基于时空信息建模的全自动2d视频到3d视频的转换方法
KR102285039B1 (ko) * 2019-12-12 2021-08-03 한국과학기술원 다중 클래스화를 이용한 샷 경계 검출 방법 및 장치
CN111079661B (zh) * 2019-12-19 2022-07-15 中国科学技术大学 手语识别系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1822646A (zh) * 2005-02-17 2006-08-23 国际商业机器公司 用于检测可视对象的方法和系统
WO2009004296A1 (en) * 2007-06-29 2009-01-08 Imperial Innovations Limited Non-photorealistic rendering of augmented reality
CN101542529A (zh) * 2006-11-21 2009-09-23 皇家飞利浦电子股份有限公司 图像的深度图的生成
CN101553845A (zh) * 2006-07-31 2009-10-07 惠普开发有限公司 图像主线确定和使用

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020154833A1 (en) * 2001-03-08 2002-10-24 Christof Koch Computation of intrinsic perceptual saliency in visual environments, and applications
US7130461B2 (en) * 2002-12-18 2006-10-31 Xerox Corporation Systems and method for automatically choosing visual characteristics to highlight a target against a background
US20070156382A1 (en) * 2005-12-29 2007-07-05 Graham James L Ii Systems and methods for designing experiments
WO2007130122A2 (en) 2006-05-05 2007-11-15 Thomson Licensing System and method for three-dimensional object reconstruction from two-dimensional images
JP4736985B2 (ja) * 2006-07-14 2011-07-27 ソニー株式会社 画像処理装置および方法、並びにプログラム
US8326042B2 (en) * 2007-06-18 2012-12-04 Sony (China) Limited Video shot change detection based on color features, object features, and reliable motion information

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1822646A (zh) * 2005-02-17 2006-08-23 国际商业机器公司 用于检测可视对象的方法和系统
US20080304742A1 (en) * 2005-02-17 2008-12-11 Connell Jonathan H Combining multiple cues in a visual object detection system
CN101553845A (zh) * 2006-07-31 2009-10-07 惠普开发有限公司 图像主线确定和使用
CN101542529A (zh) * 2006-11-21 2009-09-23 皇家飞利浦电子股份有限公司 图像的深度图的生成
WO2009004296A1 (en) * 2007-06-29 2009-01-08 Imperial Innovations Limited Non-photorealistic rendering of augmented reality

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015188666A1 (zh) * 2014-06-13 2015-12-17 华为技术有限公司 三维视频滤波方法和装置

Also Published As

Publication number Publication date
CN102271262B (zh) 2015-05-13
KR20110133416A (ko) 2011-12-12
US20120007960A1 (en) 2012-01-12
US9148652B2 (en) 2015-09-29
KR101820673B1 (ko) 2018-01-23

Similar Documents

Publication Publication Date Title
CN102271262B (zh) 用于3d显示的基于多线索的视频处理方法
US8761501B2 (en) Method for 3D video content generation
CN104395931A (zh) 图像的深度图的生成
CN1975782B (zh) 视频序列中感兴趣区域的校正方法
US20130079911A1 (en) Method and device for generating morphing animation
US10425634B2 (en) 2D-to-3D video frame conversion
CN101873509B (zh) 消除深度图序列背景和边缘抖动的方法
CN101542529A (zh) 图像的深度图的生成
CN102750695A (zh) 一种基于机器学习的立体图像质量客观评价方法
CN105374039B (zh) 基于轮廓锐度的单目图像深度信息估计方法
TWI712990B (zh) 用於判定影像之深度圖之方法與裝置、及非暫時性電腦可讀取儲存媒體
KR20110014067A (ko) 스테레오 컨텐트의 변환 방법 및 시스템
CN102420985A (zh) 一种多视点视频对象提取方法
CN104639933A (zh) 一种立体视图的深度图实时获取方法及系统
CN102368826A (zh) 双视点视频到多视点视频的实时自适应生成方法
CN103077542A (zh) 一种深度图的感兴趣区域压缩方法
CN106447718B (zh) 一种2d转3d深度估计方法
CN109725721A (zh) 用于裸眼3d显示系统的人眼定位方法及系统
CN105578035B (zh) 一种图像处理方法及电子设备
CN109218706A (zh) 一种由单张图像生成立体视觉图像的方法
CN105872516A (zh) 获取立体片源视差参数的方法及装置
CN106683072B (zh) 一种基于pup图的3d图像舒适度质量评价方法及系统
CN104537637A (zh) 一种单幅静态图像深度估计方法及装置
CN104243977B (zh) 基于眼优势理论和视差补偿的立体图像质量评价方法
CN104052990B (zh) 一种基于融合深度线索的全自动二维转三维方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant