CN108510574B - 一种基于样例学习并增强视觉质量的3d图像裁剪方法 - Google Patents

一种基于样例学习并增强视觉质量的3d图像裁剪方法 Download PDF

Info

Publication number
CN108510574B
CN108510574B CN201810342814.1A CN201810342814A CN108510574B CN 108510574 B CN108510574 B CN 108510574B CN 201810342814 A CN201810342814 A CN 201810342814A CN 108510574 B CN108510574 B CN 108510574B
Authority
CN
China
Prior art keywords
image
window
candidate
images
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810342814.1A
Other languages
English (en)
Other versions
CN108510574A (zh
Inventor
牛玉贞
林玉清
王石平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810342814.1A priority Critical patent/CN108510574B/zh
Publication of CN108510574A publication Critical patent/CN108510574A/zh
Application granted granted Critical
Publication of CN108510574B publication Critical patent/CN108510574B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/30Clipping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于样例学习并增强视觉质量的3D图像裁剪方法,包括:计算专业3D立体图像库中每幅图像的GIST特征和HIST特征;输入待裁剪图像和目标尺寸,采用采样方法获得候选裁剪窗口集合;计算每个候选裁剪窗口与图像库中每幅图像的GIST特征和HIST特征的相似性,并获得与其最相似的n幅图像,组合形成学习的样例集合;利用样例评估各候选裁剪窗口的构图和深度信息分布质量,及信息丢失和立体图像视觉舒适规则遵守情况,计算左视图的裁剪窗口;通过学习样例,对右视图的裁剪窗口水平移动获得与学习样例最相似的深度分布,从而获得最终的裁剪结果。该方法有利于获得视觉舒适的裁剪结果,可应用于图像处理及计算机视觉等领域。

Description

一种基于样例学习并增强视觉质量的3D图像裁剪方法
技术领域
本发明涉及图像处理及计算机视觉领域,特别是一种基于样例学习并增强视觉质量的3D图像裁剪方法。
背景技术
图像裁剪是最基本的图像处理操作之一。从2003年开始,专家学者们不断研究并提出基于内容意识的图像裁剪方法,即基于智能裁剪的方法。该类方法首先根据图像信息的重要度进行裁剪,初步获得与目标屏幕纵横比相同的裁剪区域,然后将裁剪区域的内容用等比放缩技术将其适应成目标屏幕大小的尺寸。Liu H.等人通过眼部追踪(eyetracking)的方法确定图像重要内容的位置信息,然后用交互的方式将包含最少的重要度信息的内容区域裁剪掉。Liu F.等人首先定义了基于区域的图像的感兴趣区域(Regionsof Interest,ROI),并提出一种ROI排序方法可以将大尺寸的图像很好地缩小到小尺寸的显示屏幕上。Suh B.等人提出自动缩略图(thumbnail)裁剪方法,它融合了图像显著区域检测方法和人脸识别技术,主要解决因缩小图像导致图像对象变得模糊的问题。Chen L Q.等人提出一种适用于小尺寸显示屏幕的视觉注意模型(visual attention model),从用户感知图像的注意力出发,综合考虑了ROI,图像重要度度值以及由分支限界(branch-and-bound)算法得到的最小可察觉尺寸等属性。Shen X.等人使用了视觉构图、边界简化和内容保护等多个模型进行图像的自动裁剪。Yan J.等人的自动裁剪技术在裁剪掉非重要内容的同时增强图像的全局结构,并利用大量的数据集训练出裁剪前后图像内容和结构的变化程度进行裁剪方法的质量评估。
上述的几种基于智能裁剪的方法在2D图像裁剪技术领域取得重大成果。随着3D媒体内容在人们日常生活中日益普遍化,3D图像裁剪方法正逐渐涌现。对3D图像的裁剪操作不但能对图像重新构图,从而提高美学质量,还能改变图像的深度信息分布,增强视觉舒适度。
与对2D图像的裁剪不同,对3D图像裁剪是一个具有挑战性的任务,因为3D图像的质量是高度主观的,而且3D图像裁剪窗口可能导致违反立体图像视觉舒适规则。3D图像裁剪方法的难点是确保裁减结果能够通过立体显示设备舒适的观看。例如,如果某个视图中的显著对象被裁剪掉,裁剪结果中将引入“单目对象”问题,如果观看者感知到显示在屏幕前面的对象被屏幕边缘切割,裁剪结果将遭受“窗口冲突”问题。对于“单目对象”问题,由于对象只存在于左右视图的某一视图中,而另一张视图中不出现该对象,因此,人眼无法合成该对象的视差,导致大脑无法形成该对象的立体感。对于“窗口冲突”问题,对象被屏幕边缘切割决定了该对象在屏幕后面,而立体视差形成的深度信息表示该对象显示在屏幕前面,从而导致屏幕和对象的位置关系冲突。“单目对象”问题和“窗口冲突”问题都会混淆我们的大脑,导致视觉疲劳。综上,遵守立体图像的构图规则对于3D图像的视觉质量至关重要。
目前研究者已经提出多种3D图像裁剪方法。Zhang F.等人建立了一个交互式裁剪系统,用户执行裁剪操作过程中,系统自动判断裁剪窗口是否引入了立体窗口干扰和单目对象,并将判断结果实时反馈给用户。交互式裁剪系统需要大量用户交互,非常耗时。NiuY.等人提出一种自动立体图像裁剪方法。该方法计算得到一个最好的遵守立体图像摄像学规则和传统图像摄像学规则的最优裁剪窗口。3D图像拍摄过程中,对各种规则的使用是随着拍摄内容变化的,如拍摄肖像和风景通常遵守不同的摄像学规则。已有的自动立体图像裁剪方法没有考虑这一问题。
发明内容
本发明的目的在于提供一种基于样例学习并增强视觉质量的3D图像裁剪方法,该方法有利于获得视觉舒适的裁剪结果。
为实现上述目的,本发明采用的技术方案是:一种基于样例学习并增强视觉质量的3D图像裁剪方法,包括以下步骤:
步骤S1:计算专业3D立体图像库中每幅图像的描述图像场景的GIST特征;
步骤S2:计算专业3D立体图像库中每幅图像的描述图像色彩的颜色直方图HIST特征;
步骤S3:输入待裁剪图像和目标尺寸,采用采样方法,获得候选裁剪窗口集合;
步骤S4:计算待裁剪图像的每个候选裁剪窗口与所述步骤S1、S2得到的专业3D立体图像库中每幅图像的GIST特征和HIST特征的相似性,并获得与每个候选裁剪窗口最相似的n幅图像,组合所有候选裁剪窗口的n幅图像作为学习的样例集合;
步骤S5:利用样例集合中的样例评估各候选裁剪窗口的构图和深度信息分布的质量,以及各候选裁剪窗口的信息丢失和立体图像视觉舒适规则遵守情况,综合计算得到一个最优裁剪窗口,此窗口即是左视图的裁剪窗口;
步骤S6:再次通过对样例的学习,对左视图的裁剪窗口进行水平移动,选择与所学习样例最相似的深度分布对应的平移量,确定右视图的裁剪窗口,从而通过左、右视图的裁剪窗口,组成最终的裁剪结果。
进一步地,所述步骤S1中,对于专业3D立体图像库中的第i幅图像,将其分为4×4的图像块,用于滤波处理的Gabor滤波器有4个尺寸,每个尺寸8个方向,因此每幅图像由4×4×32=512个值表示,则第i幅图像的GIST特征记为Gi={G1i,G2i,G3i,…,G512i}。
进一步地,所述步骤S2中,对于专业3D立体图像库中的第i幅图像,将所述第i幅图像的RGB的每个通道0~255的像素范围分为8个组,三个通道共有8×8×8=512个组,则第i幅图像的HIST特征记为Hi={H1i,H2i,H3i,…,H512i}。
进一步地,所述步骤S3中,采用采样方法获得候选裁剪窗口集合的方法为:
输入的待裁剪图像的尺寸为W×H,目标尺寸为W’×H’,采用采样方法,即在水平和垂直方向上,每隔l个窗口中选择一个窗口,获得候选裁剪窗口集合
Figure BDA0001630947680000031
其中
Figure BDA0001630947680000032
表示第k个候选裁剪窗口,候选裁剪窗口集合的样本容量m的计算方式如下:
Figure BDA0001630947680000033
进一步地,所述步骤S4中,计算待裁剪图像的每个候选裁剪窗口与专业3D立体图像库中每幅图像的GIST特征和HIST特征的相似性,并获得与每个候选裁剪窗口最相似的n幅图像,组合所有候选裁剪窗口的n幅图像作为学习的样例集合,包括以下步骤:
步骤S41:对于候选裁剪窗口集合中的每个候选项
Figure BDA0001630947680000034
与专业3D立体图像库中每幅图像进行图像相似性度量;结合GIST特征和HIST特征对图像的场景和色彩进行描述,按照如下公式计算两幅图像Ii和Ij之间的相似性:
F(Ii,Ij)=αfG(Ii,Ij)+(1-α)fH(Ii,Ij)
Figure BDA0001630947680000035
Figure BDA0001630947680000041
其中,F(Ii,Ij)是图像Ii和Ij的相似性,fG(Ii,Ij)和fH(Ii,Ij)分别是图像Ii和Ij的GIST相似性和HIST相似性,fG(Ii,Ij)和fH(Ii,Ij)的值越小,图像越相似;Gdi和Gdj分别是图像Ii和Ij第d维的GIST特征,NG是GIST特征的维数,即512;Hdi和Hdj分别是图像Ii和Ij第d维的HIST特征,NH是HIST特征的维数,即512;α是fG(Ii,Ij)的权重;
步骤S42:通过步骤S41中的图像相似性度量方法,获得与每个候选裁剪窗口最相似的n幅图像,最后将所有候选裁剪窗口的n幅图像去除重复图像后,互相不重复的u幅图像构成学习的样例集合
Figure BDA0001630947680000042
其中
Figure BDA0001630947680000043
表示第t个学习的样例。
进一步地,所述步骤S5中,利用样例评估各候选裁剪窗口的构图和深度信息分布的质量,以及各候选裁剪窗口的信息丢失和立体图像视觉舒适规则遵守情况,综合计算得到一个最优裁剪窗口,包括以下步骤:
步骤S51:根据任意样例图像
Figure BDA0001630947680000044
计算任意候选裁剪窗口图像
Figure BDA0001630947680000045
的构图质量;构图的相似性通过两个左视图的显著性图的相似性度量;候选裁剪窗口图像
Figure BDA0001630947680000046
和样例图像
Figure BDA0001630947680000047
之间的构图相似性度量公式为:
Figure BDA0001630947680000048
Figure BDA0001630947680000049
Figure BDA00016309476800000410
其中,(p,q)是像素位置,
Figure BDA00016309476800000411
分别是候选裁剪窗口图像
Figure BDA00016309476800000412
和样例图像
Figure BDA00016309476800000413
的左视图的显著性图,函数R()表示对显著性图
Figure BDA00016309476800000414
进行放缩,放缩后的宽度为w、高度为h,
Figure BDA00016309476800000423
分别是显著性图
Figure BDA00016309476800000415
放缩后的显著性图,
Figure BDA00016309476800000416
是放缩后的显著性图
Figure BDA00016309476800000417
在(p,q)处的显著性值,
Figure BDA00016309476800000418
是放缩后的显著性图
Figure BDA00016309476800000419
在(p,q)处的显著性;
步骤S52:根据任意样例图像
Figure BDA00016309476800000420
计算任意候选裁剪窗口图像
Figure BDA00016309476800000421
的深度信息分布质量;深度信息分布的相似性通过两个视差图的相似性度量;候选裁剪窗口图像
Figure BDA00016309476800000422
和样例图像
Figure BDA0001630947680000051
之间的深度信息分布相似性度量公式为:
Figure BDA0001630947680000052
Figure BDA0001630947680000053
Figure BDA0001630947680000054
其中,
Figure BDA0001630947680000055
分别是候选裁剪窗口图像
Figure BDA0001630947680000056
和样例图像
Figure BDA0001630947680000057
的视差图,函数N()表示对视差图
Figure BDA0001630947680000058
进行一系列预处理:为了消除图像
Figure BDA0001630947680000059
不同尺寸的影响,首先将
Figure BDA00016309476800000510
分别除以图像
Figure BDA00016309476800000511
的宽度,从而将视差表示成占图像宽度的比例;然后将
Figure BDA00016309476800000512
再除以
Figure BDA00016309476800000513
的最大值,使得
Figure BDA00016309476800000514
的最大值接近1;最后将
Figure BDA00016309476800000515
放缩到同一图像尺寸,即宽度为w,高度为h,
Figure BDA00016309476800000516
分别是
Figure BDA00016309476800000517
经过函数N()预处理后的视差图,
Figure BDA00016309476800000518
分别是
Figure BDA00016309476800000519
在(p,q)处的视差值;
步骤S53:对于任意候选裁剪窗口图像
Figure BDA00016309476800000520
按如下公式计算其与每一个样例图像
Figure BDA00016309476800000521
的相似度:
Figure BDA00016309476800000522
其中,β是
Figure BDA00016309476800000523
的权重;
步骤S54:对于每个候选裁剪窗口图像
Figure BDA00016309476800000524
将相似性度量
Figure BDA00016309476800000525
进行非降序排序,排在第v位的样例图像为
Figure BDA00016309476800000526
然后获得与每个候选裁剪窗口图像
Figure BDA00016309476800000527
最相似的s(s=5)个样例图像集合
Figure BDA00016309476800000528
然后计算与这s个样例图像的平均相似性
Figure BDA00016309476800000529
作为
Figure BDA00016309476800000530
的构图和深度信息分布的质量:
Figure BDA00016309476800000531
步骤S55:计算每个候选裁剪窗口的信息丢失量;信息丢失表示为输入图像Ii中候选裁剪窗口
Figure BDA00016309476800000532
之外的图像区域中显著性总和与输入图像Ii的显著性总和的比例,计算公式为:
Figure BDA0001630947680000061
其中,
Figure BDA0001630947680000062
和Si分别是候选裁剪窗口图像
Figure BDA0001630947680000063
和输入图像Ii的显著性图,(p,q)是像素位置;
步骤S56:从两方面考虑候选裁剪窗口的立体图像视觉舒适规则遵守情况;首先,计算对避免出现“单目对象”这一规则的遵守质量;通过最小化鬼影边缘区域中的显著性,从而避免在裁剪结果中出现“单目对象”,计算公式为:
Figure BDA0001630947680000064
其中,Rl和Rr分别是候选裁剪窗口图像
Figure BDA0001630947680000065
的宽度为w个像素的左边缘和右边缘区域,max()为取最大值运算;
其次,计算对避免出现窗口冲突这一规则的遵守质量;当候选裁剪窗口图像的左、右边缘区域内的图像内容的视差为负数时,这些图像内容会显示在屏幕前面,从而引起窗口处突现象,因此通过最小化这些负视差像素避免立体窗口冲突,计算公式为:
Figure BDA0001630947680000066
其中,
Figure BDA0001630947680000067
是指示函数,当像素(p,q)的视差为负数时,取值为1,否则为0;
步骤S58:综合考虑上述各个因素,将最优的裁剪窗口,即左视图的裁剪窗口用如下公式表示:
Figure BDA0001630947680000068
其中,Il是左视图的最优裁剪窗口,λe、λi、λo、λw分别是各个因素的权重。
进一步地,所述步骤S6中,利用步骤S5计算得到的最优裁剪窗口以及与其最相似的s个样例图像,计算窗口平移x个像素时新的视差图分布相似性,并选择使得相似性最大的平移值x,计算公式为:
Figure BDA0001630947680000071
其中,(p+x,q)是从位置(p,q)水平移动x个像素后到达的像素位置,x>0时,水平向右移动,否则水平向左移动;步骤S58中求得的左视图最优裁剪窗口对应候选裁剪窗口集合
Figure BDA0001630947680000072
中的候选裁剪窗口图像
Figure BDA0001630947680000073
Figure BDA0001630947680000074
的视差图,
Figure BDA0001630947680000075
Figure BDA0001630947680000076
在(p+x,q)处的视差值;
Figure BDA0001630947680000077
是与候选裁剪窗口图像
Figure BDA0001630947680000078
最相似第v个的样例,
Figure BDA0001630947680000079
Figure BDA00016309476800000710
在(p,q)处的视差值;
通过对左视图的裁剪窗口水平移动x个像素,得到右视图的裁剪窗口Ir,x>0时,左视图的裁剪窗口向右移动,否则向左移动;
最终通过左、右视图的裁剪结果Il和Ir,组成最终的3D裁剪结果。
相较于现有技术,本发明的有益效果是:提出了一种基于样例学习并增强视觉质量的3D图像裁剪方法,该方法通过样例学习的思路,首先检索与给定输入图像场景相似的高质量专业3D图像,并作为学习的样例,然后采用基于样例学习的方法,评估各裁剪窗口的构图和深度信息分布的质量,以及信息丢失和立体图像视觉舒适规则遵守情况,综合计算得到一个最优的裁剪窗口,最后再次通过对样例的学习,对右视图进行水平移动操作调整深度信息分布,得到最终裁剪结果,以此对3D图像进行智能裁剪,能有效地获得视觉舒适的裁剪结果,可应用于图像处理以及计算机视觉等领域。
附图说明
图1是本发明方法的实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步说明。
本发明提供一种基于样例学习并增强视觉质量的3D图像裁剪方法,如图1所示,包括以下步骤:
步骤S1:计算专业3D立体图像库中每幅图像的描述图像场景的GIST特征。
在本实施例中,对于专业3D立体图像库中(本发明在NJUDS2000数据集上进行实验)的第i幅图像,将其分为4×4的图像块,用于滤波处理的Gabor滤波器有4个尺寸,每个尺寸8个方向,因此每幅图像由4×4×32=512个值表示,则第i幅图像的GIST特征记为Gi={G1i,G2i,G3i,…,G512i}。
步骤S2:计算专业3D立体图像库中每幅图像的描述图像色彩的颜色直方图HIST特征。
在本实施例中,对于专业3D立体图像库中的第i幅图像,将所述第i幅图像的RGB的每个通道0~255的像素范围分为8个组,三个通道共有8×8×8=512个组,则第i幅图像的HIST特征记为Hi={H1i,H2i,H3i,…,H512i}。
步骤S3:输入待裁剪图像和目标尺寸,采用采样方法,获得候选裁剪窗口集合。具体方法为:
输入的待裁剪图像的尺寸为W×H,目标尺寸为W’×H’。本实施例中,待裁剪图像的尺寸大小为517*499,目标尺寸为388*499;由于潜在的候选裁剪窗口数量较多,采用采样方法,即在水平和垂直方向上,每隔l(l=20)个窗口中选择一个窗口,获得候选裁剪窗口集合
Figure BDA0001630947680000081
其中
Figure BDA0001630947680000082
表示第k个候选裁剪窗口,候选裁剪窗口集合的样本容量m的计算方式如下:
Figure BDA0001630947680000083
则计算可得本实施例中集合的样本容量大小为m=7。
步骤S4:计算待裁剪图像的每个候选裁剪窗口与所述步骤S1、S2得到的专业3D立体图像库中每幅图像的GIST特征和HIST特征的相似性,并获得与每个候选裁剪窗口最相似的n幅图像(本实施例中n=5),组合所有候选裁剪窗口的n幅图像作为学习的样例集合。具体包括以下步骤:
步骤S41:对于候选裁剪窗口集合中的每个候选项
Figure BDA0001630947680000084
与专业3D立体图像库中每幅图像进行图像相似性度量;结合GIST特征和HIST特征对图像的场景和色彩进行描述,按照如下公式计算两幅图像Ii和Ij之间的相似性:
F(Ii,Ij)=αfG(Ii,Ij)+(1-α)fH(Ii,Ij)
Figure BDA0001630947680000085
Figure BDA0001630947680000091
其中,F(Ii,Ij)是图像Ii和Ij的相似性,fG(Ii,Ij)和fH(Ii,Ij)分别是图像Ii和Ij的GIST相似性和HIST相似性,fG(Ii,Ij)和fH(Ii,Ij)的值越小,图像越相似;Gdi和Gdj分别是图像Ii和Ij第d维的GIST特征,NG是GIST特征的维数,即512;Hdi和Hdj分别是图像Ii和Ij第d维的HIST特征,NH是HIST特征的维数,即512;α是fG(Ii,Ij)的权重,为了均衡GIST和HIST特征的影响,设α=0.5;
步骤S42:通过步骤S41中的图像相似性度量方法,获得与每个候选裁剪窗口最相似的n幅图像,最后将所有候选裁剪窗口的n幅图像去除重复图像后,互相不重复的u幅图像构成学习的样例集合
Figure BDA0001630947680000092
其中
Figure BDA0001630947680000093
表示第t个学习的样例。
步骤S5:利用样例集合中的样例评估各候选裁剪窗口的构图和深度信息分布的质量,以及各候选裁剪窗口的信息丢失和立体图像视觉舒适规则遵守情况,综合计算得到一个最优裁剪窗口,此窗口即是左视图的裁剪窗口。具体包括以下步骤:
步骤S51:根据任意样例图像
Figure BDA0001630947680000094
计算任意候选裁剪窗口图像
Figure BDA0001630947680000095
的构图质量;由于显著对象的位置在图像构图中具有重要作用,因此构图的相似性通过两个左视图的显著性图的相似性度量;候选裁剪窗口图像
Figure BDA0001630947680000096
和样例图像
Figure BDA0001630947680000097
之间的构图相似性度量公式为:
Figure BDA0001630947680000098
Figure BDA0001630947680000099
Figure BDA00016309476800000910
其中,(p,q)是像素位置,
Figure BDA00016309476800000911
分别是候选裁剪窗口图像
Figure BDA00016309476800000912
和样例图像
Figure BDA00016309476800000913
的左视图的显著性图,函数R()表示对显著性图
Figure BDA00016309476800000914
进行放缩,放缩后的宽度为w、高度为h,由于
Figure BDA00016309476800000915
放缩到256×256大小,所以w=256,h=256;
Figure BDA00016309476800000916
分别是显著性图
Figure BDA00016309476800000917
放缩后的显著性图,
Figure BDA00016309476800000918
是放缩后的显著性图
Figure BDA00016309476800000919
在(p,q)处的显著性值,
Figure BDA0001630947680000101
是放缩后的显著性图
Figure BDA0001630947680000102
在(p,q)处的显著性;
步骤S52:根据任意样例图像
Figure BDA0001630947680000103
计算任意候选裁剪窗口图像Ii ck的深度信息分布质量;由于3D图像的深度信息分布质量中视差值的大小和视差的空间分布都至关重要,因此深度信息分布的相似性通过两个视差图的相似性度量;候选裁剪窗口图像
Figure BDA0001630947680000104
和样例图像
Figure BDA0001630947680000105
之间的深度信息分布相似性度量公式为:
Figure BDA0001630947680000106
Figure BDA0001630947680000107
Figure BDA0001630947680000108
其中,
Figure BDA0001630947680000109
分别是候选裁剪窗口图像
Figure BDA00016309476800001010
和样例图像
Figure BDA00016309476800001011
的视差图,函数N()表示对视差图
Figure BDA00016309476800001012
进行一系列预处理:为了消除图像
Figure BDA00016309476800001013
不同尺寸的影响,首先将
Figure BDA00016309476800001014
分别除以图像
Figure BDA00016309476800001015
的宽度,从而将视差表示成占图像宽度的比例;然后将
Figure BDA00016309476800001016
再除以
Figure BDA00016309476800001017
的最大值,使得
Figure BDA00016309476800001018
的最大值接近1;最后将
Figure BDA00016309476800001019
放缩到同一图像尺寸,即宽度为w,高度为h,本实施例中,w=256,h=256;
Figure BDA00016309476800001020
分别是
Figure BDA00016309476800001021
经过函数N()预处理后的视差图,
Figure BDA00016309476800001022
分别是
Figure BDA00016309476800001023
在(p,q)处的视差值;
步骤S53:对于任意候选裁剪窗口图像
Figure BDA00016309476800001024
按如下公式计算其与每一个样例图像
Figure BDA00016309476800001025
的相似度:
Figure BDA00016309476800001026
其中,β是
Figure BDA00016309476800001027
的权重,为了均衡候选裁剪窗口图像
Figure BDA00016309476800001028
和样例图像
Figure BDA00016309476800001029
之间的构图相似性以及深度信息分布相似性的影响,设β=0.5;
步骤S54:由于对于同一场景,可能存在多种构图和深度信息分布都能拍摄出高质量的3D图像,因此对于每个候选裁剪窗口图像
Figure BDA00016309476800001030
只考虑和它的相似性最高的样例图像,即将相似性度量
Figure BDA00016309476800001031
进行非降序排序,排在第v位的样例图像为
Figure BDA00016309476800001032
然后获得与每个候选裁剪窗口图像
Figure BDA0001630947680000111
最相似的s个样例图像集合
Figure BDA0001630947680000112
本实施例中s=5,然后计算与这s个样例图像的平均相似性
Figure BDA0001630947680000113
作为
Figure BDA0001630947680000114
的构图和深度信息分布的质量:
Figure BDA0001630947680000115
步骤S55:计算每个候选裁剪窗口的信息丢失量;信息丢失表示为候选裁剪窗口
Figure BDA0001630947680000116
外的显著性总和与输入图像Ii的显著性总和的比例,计算公式为:
Figure BDA0001630947680000117
其中,
Figure BDA0001630947680000118
和Si分别是候选裁剪窗口图像
Figure BDA0001630947680000119
和输入图像Ii的显著性图,(p,q)是像素位置;
步骤S56:从两方面考虑候选裁剪窗口的立体图像视觉舒适规则遵守情况;首先,计算对避免出现“单目对象”这一规则的遵守质量;裁剪窗口可能导致“单目对象”出现在裁剪结果的“鬼影边缘”(ghost edge),即图像的左右边缘,左右视图的鬼影边缘区域之间没有相对应的信息;通过最小化鬼影边缘区域中的显著性,从而避免在裁剪结果中出现“单目对象”,计算公式为:
Figure BDA00016309476800001110
其中,Rl和Rr分别是候选裁剪窗口图像
Figure BDA00016309476800001111
的宽度为w(本实施例中,取5)个像素的左边缘和右边缘区域,max()为取最大值运算;
其次,计算对避免出现窗口冲突这一规则的遵守质量;当候选裁剪窗口图像的左、右边缘区域内的图像内容的视差为负数时,这些图像内容会显示在屏幕前面,从而引起窗口处突现象,因此通过最小化这些负视差像素避免立体窗口冲突,计算公式为:
Figure BDA00016309476800001112
其中,
Figure BDA00016309476800001113
是指示函数,当像素(p,q)的视差为负数时,取值为1,否则为0;
步骤S58:综合考虑上述各个因素,将最优的裁剪窗口,即左视图的裁剪窗口用如下公式表示:
Figure BDA0001630947680000121
其中,Il是左视图的最优裁剪窗口,λe、λi、λo、λw分别是各个因素的权重,本实施例中各个权重的默认值分别为λe=5,λi=1,λo=2,λw=5。
步骤S6:再次通过对样例的学习,对左视图的裁剪窗口进行水平移动,选择与所学习样例最相似的深度分布对应的平移量,确定右视图的裁剪窗口,从而通过左、右视图的裁剪窗口,组成最终的裁剪结果。
在本实施例中,利用步骤S5计算得到的最优裁剪窗口以及与其最相似的s个样例图像,计算窗口平移x个像素时新的视差图分布相似性,并选择使得相似性最大的平移值x,计算公式为:
Figure BDA0001630947680000122
其中,(p+x,q)是从位置(p,q)水平移动x个像素后到达的像素位置,x>0时,水平向右移动,否则水平向左移动;步骤S58中求得的左视图最优裁剪窗口对应候选裁剪窗口集合
Figure BDA0001630947680000123
中的候选裁剪窗口图像
Figure BDA0001630947680000124
Figure BDA0001630947680000125
的视差图,
Figure BDA0001630947680000126
Figure BDA0001630947680000127
在(p+x,q)处的视差值;
Figure BDA0001630947680000128
是与候选裁剪窗口图像
Figure BDA0001630947680000129
最相似第v个的样例,
Figure BDA00016309476800001210
Figure BDA00016309476800001211
在(p,q)处的视差值;
通过对左视图的裁剪窗口水平移动x个像素,得到右视图的裁剪窗口Ir,x>0时,左视图的裁剪窗口向右移动,否则向左移动;
最终通过左、右视图的裁剪结果Il和Ir,组成最终的3D裁剪结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (3)

1.一种基于样例学习并增强视觉质量的3D图像裁剪方法,其特征在于,包括以下步骤:
步骤S1:计算专业3D立体图像库中每幅图像的描述图像场景的GIST特征;
步骤S2:计算专业3D立体图像库中每幅图像的描述图像色彩的颜色直方图HIST特征;
步骤S3:输入待裁剪图像和目标尺寸,采用采样方法,获得候选裁剪窗口集合;
步骤S4:计算待裁剪图像的每个候选裁剪窗口与所述步骤S1、S2得到的专业3D立体图像库中每幅图像的GIST特征和HIST特征的相似性,并获得与每个候选裁剪窗口最相似的n幅图像,组合所有候选裁剪窗口的n幅图像作为学习的样例集合;
步骤S5:利用样例集合中的样例评估各候选裁剪窗口的构图和深度信息分布的质量,以及各候选裁剪窗口的信息丢失和立体图像视觉舒适规则遵守情况,综合计算得到一个最优裁剪窗口,此窗口即是左视图的裁剪窗口;
步骤S6:再次通过对样例的学习,对左视图的裁剪窗口进行水平移动,选择与所学习样例最相似的深度分布对应的平移量,确定右视图的裁剪窗口,从而通过左、右视图的裁剪窗口,组成最终的裁剪结果;
所述步骤S3中,采用采样方法获得候选裁剪窗口集合的方法为:
输入的待裁剪图像的尺寸为W×H,目标尺寸为W’×H’,采用采样方法,即在水平和垂直方向上,每隔l个窗口中选择一个窗口,获得候选裁剪窗口集合
Figure FDA0003191324630000011
其中
Figure FDA0003191324630000012
表示第k个候选裁剪窗口,候选裁剪窗口集合的样本容量m的计算方式如下:
Figure FDA0003191324630000013
所述步骤S4中,计算待裁剪图像的每个候选裁剪窗口与专业3D立体图像库中每幅图像的GIST特征和HIST特征的相似性,并获得与每个候选裁剪窗口最相似的n幅图像,组合所有候选裁剪窗口的n幅图像作为学习的样例集合,包括以下步骤:
步骤S41:对于候选裁剪窗口集合中的每个候选项Ii ck,与专业3D立体图像库中每幅图像进行图像相似性度量;结合GIST特征和HIST特征对图像的场景和色彩进行描述,按照如下公式计算两幅图像Ii和Ij之间的相似性:
F(Ii,Ij)=αfG(Ii,Ij)+(1-α)fH(Ii,Ij)
Figure FDA0003191324630000021
Figure FDA0003191324630000022
其中,F(Ii,Ij)是图像Ii和Ij的相似性,fG(Ii,Ij)和fH(Ii,Ij)分别是图像Ii和Ij的GIST相似性和HIST相似性,fG(Ii,Ij)和fH(Ii,Ij)的值越小,图像越相似;Gdi和Gdj分别是图像Ii和Ij第d维的GIST特征,NG是GIST特征的维数,即512;Hdi和Hdj分别是图像Ii和Ij第d维的HIST特征,NH是HIST特征的维数,即512;α是fG(Ii,Ij)的权重;
步骤S42:通过步骤S41中的图像相似性度量方法,获得与每个候选裁剪窗口最相似的n幅图像,最后将所有候选裁剪窗口的n幅图像去除重复图像后,互相不重复的u幅图像构成学习的样例集合
Figure FDA0003191324630000023
其中
Figure FDA0003191324630000024
表示第t个学习的样例;
所述步骤S5中,利用样例评估各候选裁剪窗口的构图和深度信息分布的质量,以及各候选裁剪窗口的信息丢失和立体图像视觉舒适规则遵守情况,综合计算得到一个最优裁剪窗口,包括以下步骤:
步骤S51:根据任意样例图像
Figure FDA0003191324630000025
计算任意候选裁剪窗口图像
Figure FDA0003191324630000026
的构图质量;构图的相似性通过两个左视图的显著性图的相似性度量;候选裁剪窗口图像
Figure FDA0003191324630000027
和样例图像
Figure FDA0003191324630000028
之间的构图相似性度量公式为:
Figure FDA0003191324630000029
Figure FDA00031913246300000210
Figure FDA00031913246300000211
其中,(p,q)是像素位置,
Figure FDA00031913246300000212
分别是候选裁剪窗口图像
Figure FDA00031913246300000213
和样例图像
Figure FDA00031913246300000214
的左视图的显著性图,函数R()表示对显著性图
Figure FDA00031913246300000215
进行放缩,放缩后的宽度为w、高度为h,
Figure FDA0003191324630000031
分别是显著性图
Figure FDA0003191324630000032
放缩后的显著性图,
Figure FDA0003191324630000033
是放缩后的显著性图
Figure FDA0003191324630000034
在(p,q)处的显著性值,
Figure FDA0003191324630000035
是放缩后的显著性图
Figure FDA0003191324630000036
在(p,q)处的显著性;
步骤S52:根据任意样例图像
Figure FDA0003191324630000037
计算任意候选裁剪窗口图像
Figure FDA0003191324630000038
的深度信息分布质量;深度信息分布的相似性通过两个视差图的相似性度量;候选裁剪窗口图像
Figure FDA0003191324630000039
和样例图像
Figure FDA00031913246300000310
之间的深度信息分布相似性度量公式为:
Figure FDA00031913246300000311
Figure FDA00031913246300000339
Figure FDA00031913246300000312
其中,
Figure FDA00031913246300000313
分别是候选裁剪窗口图像
Figure FDA00031913246300000314
和样例图像
Figure FDA00031913246300000315
的视差图,函数N()表示对视差图
Figure FDA00031913246300000316
进行一系列预处理:为了消除图像
Figure FDA00031913246300000317
不同尺寸的影响,首先将
Figure FDA00031913246300000318
分别除以图像
Figure FDA00031913246300000319
的宽度,从而将视差表示成占图像宽度的比例;然后将
Figure FDA00031913246300000320
再除以
Figure FDA00031913246300000321
的最大值,使得
Figure FDA00031913246300000322
的最大值接近1;最后将
Figure FDA00031913246300000323
放缩到同一图像尺寸,即宽度为w,高度为h,
Figure FDA00031913246300000324
分别是
Figure FDA00031913246300000325
经过函数N()预处理后的视差图,
Figure FDA00031913246300000326
分别是
Figure FDA00031913246300000327
在(p,q)处的视差值;
步骤S53:对于任意候选裁剪窗口图像
Figure FDA00031913246300000328
按如下公式计算其与每一个样例图像
Figure FDA00031913246300000329
的相似度:
Figure FDA00031913246300000330
其中,β是
Figure FDA00031913246300000331
的权重;
步骤S54:对于每个候选裁剪窗口图像
Figure FDA00031913246300000332
将相似性度量
Figure FDA00031913246300000333
进行非降序排序,排在第v位的样例图像为
Figure FDA00031913246300000334
然后获得与每个候选裁剪窗口图像
Figure FDA00031913246300000335
最相似的s(s=5)个样例图像集合
Figure FDA00031913246300000336
然后计算与这s个样例图像的平均相似性
Figure FDA00031913246300000337
作为
Figure FDA00031913246300000338
的构图和深度信息分布的质量:
Figure FDA0003191324630000041
步骤S55:计算每个候选裁剪窗口的信息丢失量;信息丢失表示为输入图像Ii中候选裁剪窗口
Figure FDA0003191324630000042
之外的图像区域中显著性总和与输入图像Ii的显著性总和的比例,计算公式为:
Figure FDA0003191324630000043
其中,
Figure FDA0003191324630000044
和Si分别是候选裁剪窗口图像
Figure FDA0003191324630000045
和输入图像Ii的显著性图,(p,q)是像素位置;
步骤S56:从两方面考虑候选裁剪窗口的立体图像视觉舒适规则遵守情况;首先,计算对避免出现“单目对象”这一规则的遵守质量;通过最小化鬼影边缘区域中的显著性,从而避免在裁剪结果中出现“单目对象”,计算公式为:
Figure FDA0003191324630000046
其中,Rl和Rr分别是候选裁剪窗口图像
Figure FDA0003191324630000047
的宽度为w个像素的左边缘和右边缘区域,max()为取最大值运算;
其次,计算对避免出现窗口冲突这一规则的遵守质量;当候选裁剪窗口图像的左、右边缘区域内的图像内容的视差为负数时,这些图像内容会显示在屏幕前面,从而引起窗口处突现象,因此通过最小化这些负视差像素避免立体窗口冲突,计算公式为:
Figure FDA0003191324630000048
其中,
Figure FDA0003191324630000049
是指示函数,当像素(p,q)的视差为负数时,取值为1,否则为0;
步骤S58:综合考虑上述各个因素,将最优的裁剪窗口,即左视图的裁剪窗口用如下公式表示:
Figure FDA00031913246300000410
其中,Il是左视图的最优裁剪窗口,λe、λi、λo、λw分别是各个因素的权重;
所述步骤S6中,利用步骤S5计算得到的最优裁剪窗口以及与其最相似的s个样例图像,计算窗口平移x个像素时新的视差图分布相似性,并选择使得相似性最大的平移值x,计算公式为:
Figure FDA0003191324630000051
其中,(p+x,q)是从位置(p,q)水平移动x个像素后到达的像素位置,x>0时,水平向右移动,否则水平向左移动;步骤S58中求得的左视图最优裁剪窗口对应候选裁剪窗口集合
Figure FDA0003191324630000052
中的候选裁剪窗口图像
Figure FDA0003191324630000053
Figure FDA0003191324630000054
的视差图,
Figure FDA0003191324630000055
Figure FDA0003191324630000056
在(p+x,q)处的视差值;
Figure FDA0003191324630000057
是与候选裁剪窗口图像
Figure FDA0003191324630000058
最相似第v个的样例,
Figure FDA0003191324630000059
Figure FDA00031913246300000510
在(p,q)处的视差值;
通过对左视图的裁剪窗口水平移动x个像素,得到右视图的裁剪窗口Ir,x>0时,左视图的裁剪窗口向右移动,否则向左移动;
最终通过左、右视图的裁剪结果Il和Ir,组成最终的3D裁剪结果。
2.根据权利要求1所述的一种基于样例学习并增强视觉质量的3D图像裁剪方法,其特征在于,所述步骤S1中,对于专业3D立体图像库中的第i幅图像,将其分为4×4的图像块,用于滤波处理的Gabor滤波器有4个尺寸,每个尺寸8个方向,因此每幅图像由4×4×32=512个值表示,则第i幅图像的GIST特征记为Gi={G1i,G2i,G3i,…,G512i}。
3.根据权利要求1所述的一种基于样例学习并增强视觉质量的3D图像裁剪方法,其特征在于,所述步骤S2中,对于专业3D立体图像库中的第i幅图像,将所述第i幅图像的RGB的每个通道0~255的像素范围分为8个组,三个通道共有8×8×8=512个组,则第i幅图像的HIST特征记为Hi={H1i,H2i,H3i,…,H512i}。
CN201810342814.1A 2018-04-17 2018-04-17 一种基于样例学习并增强视觉质量的3d图像裁剪方法 Expired - Fee Related CN108510574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810342814.1A CN108510574B (zh) 2018-04-17 2018-04-17 一种基于样例学习并增强视觉质量的3d图像裁剪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810342814.1A CN108510574B (zh) 2018-04-17 2018-04-17 一种基于样例学习并增强视觉质量的3d图像裁剪方法

Publications (2)

Publication Number Publication Date
CN108510574A CN108510574A (zh) 2018-09-07
CN108510574B true CN108510574B (zh) 2021-09-28

Family

ID=63382178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810342814.1A Expired - Fee Related CN108510574B (zh) 2018-04-17 2018-04-17 一种基于样例学习并增强视觉质量的3d图像裁剪方法

Country Status (1)

Country Link
CN (1) CN108510574B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110456960B (zh) 2019-05-09 2021-10-01 华为技术有限公司 图像处理方法、装置及设备
CN110297927B (zh) * 2019-05-17 2022-07-29 百度在线网络技术(北京)有限公司 文章发布方法、装置、设备及存储介质
CN113724261A (zh) * 2021-08-11 2021-11-30 电子科技大学 一种基于卷积神经网络的快速图像构图方法
CN115482248B (zh) * 2022-09-22 2023-12-08 推想医疗科技股份有限公司 图像分割方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102740117A (zh) * 2011-04-08 2012-10-17 索尼公司 3d视频分析
CN104243956A (zh) * 2014-09-12 2014-12-24 宁波大学 一种立体图像视觉显著图提取方法
CN106251403A (zh) * 2016-06-12 2016-12-21 深圳超多维光电子有限公司 一种虚拟立体场景实现的方法、装置和系统
CN106600581A (zh) * 2016-12-02 2017-04-26 北京航空航天大学 一种基于双目立体视觉的列车运行故障自动检测系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6032452B2 (ja) * 2013-09-30 2016-11-30 エルジー・ケム・リミテッド 光学素子
CN107240106A (zh) * 2017-06-09 2017-10-10 山东师范大学 一种图像分割方法和系统
CN107808132A (zh) * 2017-10-23 2018-03-16 重庆邮电大学 一种融合主题模型的场景图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102740117A (zh) * 2011-04-08 2012-10-17 索尼公司 3d视频分析
CN104243956A (zh) * 2014-09-12 2014-12-24 宁波大学 一种立体图像视觉显著图提取方法
CN106251403A (zh) * 2016-06-12 2016-12-21 深圳超多维光电子有限公司 一种虚拟立体场景实现的方法、装置和系统
CN106600581A (zh) * 2016-12-02 2017-04-26 北京航空航天大学 一种基于双目立体视觉的列车运行故障自动检测系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于缝雕刻的图像缩放算法研究";翟栋;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315(第3期);I138-6748 *
Yuzhen Niu等."Aesthetics-based stereoscopic photo cropping for heterogeneous displays".《IEEE TRANSACTIONS ON MULTIMEDIA》.2012,第14卷(第3期), *

Also Published As

Publication number Publication date
CN108510574A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN108510574B (zh) 一种基于样例学习并增强视觉质量的3d图像裁剪方法
CN101601287B (zh) 产生照片级真实感图像缩略图的设备和方法
CN102741879B (zh) 由单眼图像产生深度图的方法及其系统
US9137512B2 (en) Method and apparatus for estimating depth, and method and apparatus for converting 2D video to 3D video
CN101635859B (zh) 一种实现平面视频转立体视频的方法和装置
US8494256B2 (en) Image processing apparatus and method, learning apparatus and method, and program
US8553972B2 (en) Apparatus, method and computer-readable medium generating depth map
US7760956B2 (en) System and method for producing a page using frames of a video stream
RU2587425C2 (ru) Способ получения карты глубины изображения повышенного качества
US8861836B2 (en) Methods and systems for 2D to 3D conversion from a portrait image
Hong et al. A local stereo matching algorithm based on weighted guided image filtering for improving the generation of depth range images
CN107452010A (zh) 一种自动抠图算法和装置
US20100046837A1 (en) Generation of depth map for an image
US20100014781A1 (en) Example-Based Two-Dimensional to Three-Dimensional Image Conversion Method, Computer Readable Medium Therefor, and System
KR20150079576A (ko) 조합된 깊이 큐들에 기초하여 모노스코픽 이미지로부터 깊이 맵 생성
US20170069101A1 (en) Method and system for unsupervised image segmentation using a trained quality metric
Jung et al. Depth map estimation from single-view image using object classification based on Bayesian learning
JP2012521708A (ja) 色周波数に基づく顕著性マップを用いて画像を修正する方法及び装置
CN102271262B (zh) 用于3d显示的基于多线索的视频处理方法
CN110223236B (zh) 用于增强图像序列的方法
US9600888B2 (en) Image processing device, image processing method, and program
US8565513B2 (en) Image processing method for providing depth information and image processing system using the same
KR20110014067A (ko) 스테레오 컨텐트의 변환 방법 및 시스템
EP2530642A1 (en) Method of cropping a 3D content
CN116385316B (zh) 多目标图像动态捕捉方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210928