CN105913377B - 一种保留图片相关性信息的图片拼接方法 - Google Patents
一种保留图片相关性信息的图片拼接方法 Download PDFInfo
- Publication number
- CN105913377B CN105913377B CN201610172203.8A CN201610172203A CN105913377B CN 105913377 B CN105913377 B CN 105913377B CN 201610172203 A CN201610172203 A CN 201610172203A CN 105913377 B CN105913377 B CN 105913377B
- Authority
- CN
- China
- Prior art keywords
- picture
- region
- pictures
- interests
- roi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000005304 joining Methods 0.000 title claims abstract description 8
- 238000009826 distribution Methods 0.000 claims abstract description 28
- 238000005457 optimization Methods 0.000 claims abstract description 24
- 238000010219 correlation analysis Methods 0.000 claims abstract description 7
- 238000010008 shearing Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims 1
- 238000009877 rendering Methods 0.000 abstract description 2
- 238000011835 investigation Methods 0.000 description 11
- 241001465754 Metazoa Species 0.000 description 6
- 238000012856 packing Methods 0.000 description 6
- 230000001788 irregular Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 4
- 230000001747 exhibiting effect Effects 0.000 description 4
- 239000004744 fabric Substances 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 241000251468 Actinopterygii Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- VIKNJXKGJWUCNN-XGXHKTLJSA-N norethisterone Chemical compound O=C1CC[C@@H]2[C@H]3CC[C@](C)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1 VIKNJXKGJWUCNN-XGXHKTLJSA-N 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种保留图片相关性信息的图片拼接方法,包括以下步骤:步骤1,相关性分析:采集待拼接的图片得到图片集,并使每张图片获得一个类标签,再由t分布随机领域嵌入方法t‑SNE方法将图片的相关性信息嵌入到初始展示面板分布中,得到t‑SNE分布结果;步骤2,初始化展示面板子区域;步骤3,展示面板子区域划分:结合子区域优化及错误位置校正方法,确定每幅图片的朝向角θ、摆放位置、缩放尺度,并保证图片的相关性信息不被丢失;步骤4,无缝混合渲染:基于概率混合模型对展示面板子区域之间的边界区域进行无缝混合渲染,从而完成图片集中图片的剪切拼接。
Description
技术领域
本发明属于计算机图像、多媒体信息技术等领域,尤其涉及一种保留图片相关性信息的图片拼接方法。
背景技术
随着手持照相设备的日益普及,人们拍照更加方便,获取的图片更加丰富,继而对图片集自动管理技术的需求更加突显。作为一种重要的图片集摘要和展示技术,图片拼贴近年来正受到越来越多的重视。图片拼贴的主要目的在于提供一个紧致、丰富而美观的图片集摘要图。由于手动制作这样的拼贴摘要图需要用到一些专业的图片编辑技巧同时耗时颇多,自动化的拼贴摘要图生成技术近年来成为了一个研究热点。
传统的图片拼贴方法一般基于构造一个优化框架,将拼贴结果的好坏以某种客观标准加以量化,此优化方程通常具有复杂的非线性形式。由于每张图片的状态决定于若干参数,总共可能产生成百上千个参数需要优化。在如此复杂的非线性优化方程中求解如此规模的优化解通常是低效的,同时也很容易陷入局部最优解。尽管一些提升求解效率的方法已先后被提出,但此类方法仍有其固有的局限性。
目前所提出的方法具有许多方面的不足。第一,每张图片的最优状态参数往往与其它若干图片的状态紧耦合,导致某张图片状态的更新全局性或局部地影响到其它图片,从而导致拼贴的可扩展性很差。第二,用于拼接的图片集中,往往包含很多语义信息,以往的方法都会忽略这一重要信息,只是随机的将图片拼接在一起。第三,不能对图片感兴趣区域进行最大化展示,若只提取每张图片的感兴趣区域,并允许该区域的形状为不规则多边形,则可以在最大化展示图片主要内容的同时,使得拼接结果更加紧凑。
发明内容
发明目的:本发明提供一种保留图片相关性信息的图片拼接方法,可以保留图片集中图片之间的相关性信息,突出各个图片中的主题内容,且能够更高效地利用面板空间。
技术方案:本发明公开了一种保留图片相关性信息的图片拼接方法,其核心在于保留图片之间相关性信息的同时最大化展示图片的主要内容,包括以下步骤:
步骤1,相关性分析:采集待拼接的图片得到图片集,采用扩展了的深度神经网络(Convolutional Neural Networks,简称CNN)模型提取每张图片的语义描述,并使每张图片获得一个类标签,再由t分布随机领域嵌入方法(t-Distributed Stochastic NeighborEmbedding,简称t-SNE,该方法参见Van der Maaten等发表于Journal of MachineLearning Research的论文《Visualizing data using t-SNE》)将图片的相关性信息嵌入到初始展示面板分布中,得到t-SNE(t分布随机领域嵌入方法,t-Distributed StochasticNeighbor Embedding,简称t-SNE)分布结果。
步骤2,初始化展示面板子区域:结合显著性检测和人脸检测,提取每张图片的ROI关注区域(Region of Interest,简称ROI关注区域),该区域形状可以是不规则多边形,缩放t-SNE分布结果,使其与展示面板大小相等,并作为初始展示面板,将每张图片的ROI关注区域送入到其在初始展示面板中的对应位置;
步骤3,展示面板子区域划分:结合子区域优化及错误位置校正方法,确定每幅图片的朝向角θ、摆放位置、缩放尺度,并保证图片的相关性信息不被丢失;
步骤4,无缝混合渲染:基于概率混合模型对展示面板子区域之间的边界区域进行无缝混合渲染,从而完成计算机图片集中图片的剪切拼接。
步骤1中,利用扩展了的CNN模型得到图片的相关性信息,并由t-SNE方法将相关性信息映射到二维平面上。
所述步骤1具体包括以下步骤:
步骤1-1,为得到图片的相关性信息,本方法选取目前最为流行的深度学习方法,卷积神经网络(Convolutional Neural Networks,简称CNN)。首先利用VGG-16CNN模型(该模型参见Simony等发表于arXiv preprint arXiv的论文《Very deep convolutionalnetworks for large-scale image recognition》)对每张图片提取一个4096维的特征向量;
步骤1-2,对于一般主题(容易分类的普通类别,如动物、花等,具有明显区别特征)的图片集,将提取的4096维特征向量直接用主成分分析方法(Principal ComponentAnalysis,简称PCA)进行降维处理,得到一个256维的特征向量,再通过k-means算法(k-均值算法,k取值为50)给每一张图片分配一个类标签;
对于具有特定主题(难以分类的特殊类别,如旅游、聚会等特征不明显的主题,例如在一个旅游照片集中,让在相同旅游景点拍摄的照片作为一类)的图片集,额外根据主题内容训练一个两层的全连接神经网络。将4096维的特征作为该两层网络的输入,隐含层设置为256维的双曲正切非线性激活函数,输出层获得一个关于主题内容的类标签,即将由VGG-16CNN(该模型参见Simony等发表于arXiv preprint arXiv的论文《Very deepconvolutional networks for large-scale image recognition》)模型得到的4096维特征向量作为输入,然后输出其在特定域内的类别。
步骤1-3,采用t-SNE方法将每张图片映射到一个2维平面上,使同类图片的位置相近,得到一个t-SNE分布结果;
步骤2中,提取每张图片的ROI区域,并将这些区域送入到步骤1中获得的t-SNE分布结果中,得到一个初始展示画板分布。
步骤2具体包括以下步骤:
步骤2-1,结合显著性检测和人脸检测,提取每张图片的ROI关注区域,该区域的形状可以为任意多边形。显著性检测采用Jiang等提出的方法(该方法参考Jiang等发表于Proceedings of the IEEE conference on computer vision and pattern recognition的《A discriminative regional feature integration approach》的论文),为了保证人们通常更加敏感的人脸能得到充分显示,使用OpenCV中的人脸检测算法(该算法可参见PaulViola和MichaelJones发表于CVPR的《RapidObjectDetectionusingaBoostedCascadeofSimpleFeature》)检测人脸区域,将该区域内显著性置为最大;
步骤2-2,将步骤1得到的t-SNE分布结果进行缩放,使其与用来图片拼接的展示面板大小相等,并作为初始展示面板,将每张图片的ROI关注区域缩小为原始大小的30%后送入到其在初始展示面板中的对应位置,得到一个初始展示面板分布结果。
步骤3中,展示面板子区域划分过程中,通过计算设定每幅图片的朝向角、摆放位置和缩放尺度使得每幅图片在展示画板上最大化地呈现其主要内容,并保证图片的相关性信息不被丢失。步骤3具体包括以下步骤:
步骤3-1,根据步骤2-2得到的初始展示面板分布结果,将展示面板划分为一个个包含图片ROI关注区域的子区域,采集ROI关注区域多边形的边,并利用德洛内三角方法(Delaunay Triangulation)使这些边及对应顶点形成三角形,由这些三角形形成每个ROI关注区域的弦轴转换区域(ChordalAxisTransformation,简称CAT);
步骤32,子区域优化确定坐标、缩放尺度及方向角:寻找CAT(弦轴转换区域,ChordalAxisTransformation,简称CAT)区域中的最大ROI关注区域,最大化展示面板的覆盖率,该过程采用如下公式计算:
Maximize f(t,θ,s)=s,
满足于:
其中1≤k≤M,j∈Ek,t、θ、s分别表示坐标变换、方向角和缩放尺度,pk(t,θ,s)为ROI关注区域上的采样点,Ek为CAT区域与采样点pk(t,θ,s)的维诺区域的相交线段,M为线段总和,为CAT区域中指定边ej的起始点,ej为θk中的一条有向线段,σ为每次迭代优化过程中旋转角的总和,对象函数f(t,θ,s)等于缩放尺度s,表示该过程的目标是最大化展示面板的覆盖率,为了不使ROI关注区域相对于原始方向旋转得过多,设置旋转角总和小于
步骤33,寻找错误放置的ROI关注区域:在子区域优化过程中,无法避免部分不同类的ROI混在了一起,此时,计算相同类ROI关注区域的重心点,对每个ROI关注区域,计算其重心点到其对应类的重心点的距离,将相同类ROI关注区域的距离和的平均值设置为该类的距离阈值,若一个ROI关注区域的距离大于该距离阈值,则判定该ROI关注区域为错误放置;
步骤34,错误位置校正,假设有N个错误放置ROI关注区域,则在展示面板上对应有N个错误位置,对于每一对错误放置ROI关注区域和错误位置,计算每一个错误位置到对应错误放置ROI关注区域相应类的重心点的距离,通过匈牙利算法,分配一个错误放置ROI关注区域到一个错误位置,使距离总和最小,该过程的公式表示如下:
满足于:
xab∈{0,1},
其中,N为错误放置个数,cab为错误位置j到错误放置ROI(感兴趣区域,Region ofInterest,简称ROI)关注区域a对应类重心点的距离,[xab]N*N为一个待优化二值矩阵,xab只有在错误放置ROI(感兴趣区域,Region of Interest,简称ROI)关注区域a放置到错误位置b上时才为1;
步骤3-5,缩小所有ROI(感兴趣区域,Region of Interest,简称ROI)关注区域直到没有重叠,迭代子区域优化和错误位置校正过程,直到该过程收敛,得到一个所有ROI(感兴趣区域,Region of Interest,简称ROI)关注区域都无法变大且各ROI(感兴趣区域,Region of Interest,简称ROI)关注区域位置相关的图片拼接结果。
步骤4具体包括以下步骤:
对展示面板上的每一个像素点p,均关联一组概率{Prob1(p),Prob2(p),…,Probn(p)},其中n为图片总数,Probz(p)表示第z幅图片在该像素点处对应像素能够显示的概率,1≤i≤n,Qpz和Qrz分别表示第z幅图片对应的CAT(弦轴转换区域,ChordalAxisTransformation,简称CAT)区域和ROI(感兴趣区域,Region of Interest,简称ROI)关注区域。混合可以使得Qrz中不在Qpz中的部分也能得到一定程度上的展现,采用如下公式计算Probz(p):
其中,e为自然对数的底,d(p,Qpz)表示点p到CAT区域Qpz的最近欧式距离,d(p,Qrz)表示像素点p到ROI关注区域Qrz的最近欧式距离,δ为贡献率概率概率分布的标准差,计算得δ≈0.39894223。
得到展示面板每个像素点的关联概率后,将每个像素点的关联概率Probi(p)平均的分发到其4邻域上,以使得邻近的像素点具有接近的概率值再将每个像素点的一组关联概率归一化,将得到的概率图即作为无缝混合渲染的Alpha通道值用于最终拼贴图片的合成。
有益效果:本发明包括以下优点:
(1)能够表达图片之间的相关性。可以根据图片内容,将图片的相关性信息表现在二维图片拼接中,使拼接结果具有更好的可读性,让用户可以更容易地理解图片拼接结果的内容。
(2)更高的可扩展性同时兼备低耦合性。这一特性得益于以下三个方面:首先,本发明采用的子区域划分算法高效鲁棒。其次,每张图片的状态参数——位置、朝向角、缩放尺度和层次的优化互相关性弱,每个参数均可在一个独立的阶段优化求解。最后,每张图片的状态参数优化均与邻近图片的状态解耦合,从而可并行地进行。
(3)更好地展示图片内容。对于一些感兴趣区域较为不规则的图片,其通过直接对感兴趣区域进行拼接的方法,能够更好的展示图片的内容。
(4)更高的展示面板空间利用率。通过直接对感兴趣区域进行拼接的方法,有效地利用了展示画板的空间,保证有限的展示面板空间不浪费。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1为本发明方法的流程图。
图2为图片相关性分析的工作流程示意图。
图3为本发明中展示面板子区域划分的工作流程示意图。
图4为本发明方法实施的实例流程图。
图5关于问题1用户调查的反馈结果图。
图6关于问题2用户调查的反馈结果图。
图7关于问题3用户调查的反馈结果图。
图8关于问题4用户调查的反馈结果图。
图9为动物图片集的各方法最终生成结果。
图10为建筑物图片集的各方法最终生成结果。
图11为巴黎图片集的各方法最终生成结果。
图12为交通工具图片集的各方法最终生成结果。
图13为三藩市图片集的各方法最终生成结果。
图14为模特图片集的各方法最终生成结果。
图15为北京图片集的各方法最终生成结果。
图16为鸟图片集的各方法最终生成结果。
图17为罗马图片集的各方法最终生成结果。
图18为鱼图片集的各方法最终生成结果。
具体实施方式:
本方法的流程如图1所示,首先进行图片相关性分析,并根据相关性分析结果,通过t分布随机领域嵌入方法(t-Distributed Stochastic Neighbor Embedding,简称t-SNE,该方法参见Van der Maaten等发表于Journal of Machine Learning Research的论文《Visualizing data using t-SNE》)得到展示面板的初始分布,图2展示了得到t-SNE分布结果的工作流程;然后结合显著性检测和人脸检测提取图片的感兴趣区域,缩放t-SNE分布结果,使其与展示面板大小相等,并作为初始展示面板,再将每张图片的感兴趣区域缩小为原始大小的30%后送入到其在初始展示面板中的对应位置,采集感兴趣区域多边形的边,并利用德洛内三角方法(Delaunay Triangulation)使这些边及对应顶点形成三角形,由这些三角形形成每个感兴趣区域的弦轴转换区域(ChordalAxisTransformation,简称CAT),得到初始展示面板子区域划分结果;最后,结合子区域优化及错误位置校正方法,确定每幅图片的朝向角θ、摆放位置、缩放尺度,并保证图片的相关性信息不被丢失,图3展示了一次优化过程;最后是无缝混合技术处理图片间的重叠算法,获得图片集拼贴展示结果。图4展示了本发明方法的具体流程及每步操作完成后的子结果。
具体地说,如图1所示,本发明公开了一种保留图片相关性信息的图片拼接方法:
步骤1,相关性分析:采集待拼接的图片得到图片集,采用扩展了的深度神经网络(Convolutional Neural Networks,简称CNN)模型提取每张图片的语义描述,并使每张图片获得一个类标签,再由t-SNE方法将图片的相关性信息嵌入到初始展示面板分布中,得到t-SNE分布结果;
步骤2,初始化展示面板子区域:结合显著性检测和人脸检测,提取每张图片的ROI关注区域(Region of Interest,简称ROI关注区域),缩放t-SNE分布结果,使其与展示面板大小相等,并作为初始展示面板,将每张图片的ROI关注区域送入到其在初始展示面板中的对应位置;
步骤3,展示面板子区域划分:结合子区域优化及错误位置校正方法,确定每幅图片的朝向角θ、摆放位置、缩放尺度,并保证图片的相关性信息不被丢失;
步骤4,无缝混合渲染:基于概率混合模型对展示面板子区域之间的边界区域进行无缝混合渲染,从而完成图片集中图片的剪切拼接。
步骤1中,如图2所示,利用扩展了的CNN模型得到图片的相关性信息,并由t-SNE方法将相关性信息映射到二维平面上。
步骤1具体包括以下步骤:
步骤1-1,采用VGG-16CNN模型对每张图片提取一个4096维的特征向量,如图2中最左边的CNN特征提取部分;
步骤1-2,对于一般主题(容易分类的普通类别,如动物、花等,具有明显区别特征)的图片集,将提取的4096维特征向量用主成分分析方法(Principal Component Analysis,简称PCA)进行降维处理,得到一个256维的特征向量,再通过k-means(k-均值算法,k取值为50)算法给每一张图片分配一个类标签,其过程如图2中间的k-means聚类部分;
对于具有特定主题(难以分类的特殊类别,如旅游、聚会等特征不明显的主题,例如在一个旅游照片集中,让在相同旅游景点拍摄的照片作为一类)的图片集,根据主题内容训练一个两层的全连接神经网络,再由该全连接神经网络获得一个关于主题内容的类标签,其过程如图2中间的两层网络分类部分;
步骤1-3,采用t-SNE方法将每张图片映射到一个2维平面上,使同类图片的位置相近,得到t-SNE分布结果。如图2最右边所示,共7个类,每个类用不同形状的符号表示。可以看到,相同类的子元素(即图片)聚集地分布在一个二维平面上,但仍有部分类的子元素分布在远离其类的位置,而这些子元素的产生是由于错误的分类结果所导致的。
步骤2中,提取每张图片的ROI区域,并将这些区域送入到步骤1中获得的t-SNE结果中,得到一个初始展示面板分布结果。
步骤2具体包括以下步骤:
步骤2-1,结合显著性检测和人脸检测,提取每张图片的ROI(感兴趣区域,Regionof Interest,简称ROI)关注区域,该区域的形状可以为任意多边形。显著性检测采用Jiang等提出的方法,为了保证人们通常更加敏感的人脸能得到充分显示,使用OpenCV中的人脸检测算法检测人脸区域,将该区域内显著性置为最大;
步骤2-2,将步骤1得到的t-SNE结果缩放,使其与用来图片拼接的展示面板大小相等,并作为初始展示面板,将每张图片的ROI关注区域缩小为原始大小的30%,避免感兴趣区域之间潜在的重叠,然后将每张图片的ROI关注区域送入到其在初始展示面板中的对应位置,得到一个初始展示面板分布结果。
步骤3中,展示面板子区域划分过程中,通过计算设定每幅图片的朝向角、摆放位置和缩放尺度使得每幅图片在展示画板上最大化地呈现其主要内容,并保证图片的相关性信息不被丢失。如图4展示面板子区域划分部分所示,具体包括以下步骤:
步骤3-1,根据步骤2-2得到的初始展示面板分布结果,将展示面板划分为一个个包含图片ROI关注区域的子区域。采集ROI关注区域多边形的边,并利用德洛内三角方法使这些边及对应顶点形成三角形,由这些三角形形成每个感兴趣区域的CAT(弦轴转换区域,ChordalAxisTransformation,简称CAT)区域。如图3最左边的那张图所示,共包含4类,每个类包含5个子元素,由1到4分别标注,1为狗,2为鸟,3为贝壳,4为花,被标注的不规则多边形即为从原图中提取的ROI关注区域,而包围不规则多边形的外围区域,即为CAT区域;
步骤3-2,子区域优化确定坐标、缩放尺度及方向角:寻找CAT区域中的最大ROI关注区域,最大化展示面板的覆盖率,该过程采用如下公式计算:
Maximize f(t,θ,s)=s,
满足于:
其中1≤k≤M,j∈Ek,t、θ、s分别表示坐标变换、方向角和缩放尺度,pk(t,θ,s)为ROI关注区域上的采样点,Ek为CAT区域与采样点pk(t,θ,s)的维诺区域的相交线段,M为线段总和,为CAT区域中指定边ej的起始点,ej为Ek中的一条有向线段,σ为每次迭代优化过程中旋转角的总和,对象函数f(t,θ,s)等于缩放尺度s,表示该过程的目标是最大化展示面板的覆盖率,为了不使ROI区域相对于原始方向旋转得过多,设置旋转角总和小于图3中间那张图即为子区域优化结果。从图中可以看出,各子区域的ROI已经最大,但是,在优化过程中,部分不同类产生了混合,破坏了图片相关性信息。图3中间的那张图为子区域优化后的结果,图中虽然各ROI已经最大,画板的覆盖率最高,但是相同类的部分ROI没有聚集分布(如标注2的鸟,左上角有两个,右下角有3个);
步骤3-3,寻找错误放置的ROI关注区域:在子区域优化过程中,无法避免部分不同类的ROI混在了一起。此时,计算相同类ROI关注区域的重心点,对每个ROI关注区域,计算其重心点到其对应类的重心点的距离,将相同类ROI关注区域距离的平均值设置为距离阈值,若一个ROI关注区域的距离大于该距离阈值,则判定该ROI关注区域为错误放置;
步骤3-4,错误位置校正:假设有N个错误放置ROI关注区域,则在展示面板上对应有N个错误位置,对于每一对错误放置ROI关注区域和错误位置,计算每一个错误位置到对应错误放置ROI关注区域相应类的重心点的距离,通过匈牙利算法,分配一个错误放置ROI关注区域到一个错误位置,使距离总和最小,该过程的公式表示如下:
满足于:
xab∈{0,1},
其中,N为错误放置个数,cab为错误位置j到错误放置ROI关注区域a对应类重心点的距离,[xab]N*N为一个待优化二值矩阵,xab只有在错误放置ROI关注区域a放置在错误位置b上时才为1。图3最右边那张图显示了错误位置校正方法执行后的结果,其中同类的ROI关注区域(标注为相同数字)重新聚合在了一起,图片的相关性信息得到了保留;
步骤3-5,缩小所有ROI关注区域直到没有重叠,迭代子区域优化和错误位置校正,直到该过程收敛,得到一个所有ROI关注区域都无法变大且各ROI关注区域位置相关的图片拼接结果。
步骤4具体包括以下步骤:
对展示面板上的每一个像素点p,均关联一组概率{Prob1(p),Prob2(p),…,Probn(p)},其中n为图片总数,Probz(p)表示第i幅图片在该像素点处对应像素能够显示的概率。Qpz和Qrz分别表示第z幅图片对应的CAT区域和其ROI关注区域。混合可以使得Qrz中不在Qpz中的部分也能得到一定程度上的展现,采用如下公式计算Probz(p)计算公式如下:
其中,e为自然对数的底,d(p,Qpz)表示像素点p到CAT区域Qpz的最近欧式距离,d(p,Qrz)表示像素点p到ROI关注区域Qrz的最近欧式距离,δ为贡献率概率概率分布的标准差,计算得δ≈0.39894223;
得到展示面板每个像素点的关联概率后,将每个像素点的关联概率Probi(p)平均的分发到其4邻域上,再将每个像素点的一组概率归一化,将得到的概率图即作为无缝混合渲染的Alpha通道值用于最终拼贴图片的合成。图4显示了本发明的全过程,其输出图片拼接结果部分即为无缝混合渲染的最终效果图。
实施例
本实施例用于测试的硬件环境是:Intel-Core I73.46GHz处理器,24G内存。软件环境是Visual Studio2010和Windows7专业版。测试图像来自于组内旅游照片、网络上公开的一些动物、建筑物、交通工具等照片。实验时根据大分类分成10组,分别是动物、建筑物、巴黎、交通工具、三藩市、模特、北京、鸟、罗马、鱼。
本方法的实验结果与Photo Gallery套件中的“自动拼贴”功能(AutoCollage)获得的结果及Yu等发表于Visualization and Computer Graphics的论文《Content-aware photo collage using circle packing》所提出的Circle Packing结果进行了用户调查。60位与本发明毫无关系的计算机系同学参与了双盲的用户调查,在没有其他外界干预的前提下靠自己的判断来选择更符合自己审美的结果。从4个方面进行用户调查,分别为(1)哪一个结果更紧凑?(2)哪一个更好地展示了图片的前景?(3)哪一个更容易理解主题,并能够找到图片之间的关系?(4)从整体而言,你更喜欢哪个?图5至图8分别显示了问题1到问题4的用户调查的反馈结果,调查结果已经进行了归一化处理,用百分比来展示用户的偏好,右侧竖线柱体表示选择本实施例生成结果的用户占总人数的百分比,中间斜线柱体表示选择Circle Packing生成结果的用户占总人数的百分比,左侧点柱体表示选择AutoCollage生成结果的用户占总人数的百分比。具体生成结果参见图9至图18,图中最左边为AutoCollage生成结果,中间为Circle Packing生成结果,最右边为本实施例结果。图9至图18的样本大类分别对应为动物、建筑物、巴黎、交通工具、三藩市、模特、北京、鸟、罗马、鱼。问题1对应的结果比依次为:0%,25%,75%:27%,12%,62%:30%,25%,45%:13%,20%,67%:40%,7%,53%:17%,5%,78%:23%,12%,65%:15%,20%,65%:40%,12%,68%:30%,17%,53%;问题2对应的结果比依次为:5%,17%,78%:25%,5%,70%:43%,7%,50%:20%,0%,80%:26%,2%,72%:15%,5%,80%:26%,7%,67%:27%,13%,60%:35%,13%,52%:26%,7%,67%;问题3对应的结果比依次为:5%,18%,77%:33%,7%,60%:47%,3%,50%:13%,5%,82%:28%,0%,72%:12%,5%,83%:23%,7%,70%:23%,15%,62%:38%,10%,52%:26%,12%,72%;问题4对应的结果比依次为:2%,12%,86%:40%,2%,58%:42%,8%,50%:17%,0%,83%:27%,0%,73%:8%,5%,87%:25%,3%,72%:22%,17%,61%:38%,10%,52%:25%,12%,63%;
图5至图8为用户调查结果显示,对于4个问题,本实施例生成的结果在所有10组结果中大部分都具有绝对的优势。三种方法对于10类图片的最终生成图片比对如图9至图18所示。用户调查的结果也表明了大部分用户倾向于选择本方法生成的图片集拼接结果。在用户的调查问卷上,还设置有“选择理由”这一条选答项,从回答该问题的用户意见来看,大部分选择本方法的理由都是集中在以下两个:
1,本方法生成的图片具有更好的可读性,更容易让用户理解图片拼接结果所要描述的内容,相对于AutoCollage、Circle Packing生成结果死板且毫无规则的排列更具有语义信息,令人赏心悦目;
2,本方法直接用图片的感兴趣区域进行拼接,生成的图片中人脸或者物体遮挡以及图片重要内容的最大化展示的情况均好于AutoCollage、Circle Packing的生成结果。
Claims (1)
1.一种保留图片相关性信息的图片拼接方法,其特征在于,包括以下步骤:
步骤1,相关性分析:采集待拼接的图片得到图片集,采用扩展了的CNN模型提取每张图片的语义描述,并使每张图片获得一个类标签,再由t分布随机领域嵌入方法将图片的相关性信息嵌入到初始展示面板分布中,得到t-SNE分布结果;
步骤2,初始化展示面板子区域:结合显著性检测和人脸检测,提取每张图片的ROI关注区域,缩放t-SNE分布结果,使其与展示面板大小相等,并作为初始展示面板,将每张图片的ROI关注区域送入到其在初始展示面板中的对应位置;
步骤3,展示面板子区域划分:结合子区域优化及错误位置校正方法,确定每幅图片的朝向角θ、摆放位置、缩放尺度,并保证图片的相关性信息不被丢失;
步骤4,无缝混合渲染:基于概率混合模型对展示面板子区域之间的边界区域进行无缝混合渲染,从而完成图片集中图片的剪切拼接;
步骤1包括以下步骤:
步骤1-1,采用VGG-16CNN模型对每张图片提取一个4096维的特征向量;
步骤1-2,对于一般主题的图片集,将提取的4096维特征向量直接用PCA方法进行降维处理,得到一个256维的特征向量,再通过k-means算法给每一张图片分配一个类标签;
对于具有特定主题的图片集,根据主题内容额外训练一个两层的全连接神经网络,将4096维的特征作为该两层网络的输入,隐含层设置为256维的双曲正切非线性激活函数,输出层获得一个关于主题内容的类标签;
步骤1-3,采用t-SNE方法将每张图片映射到一个2维平面上,使同类图片的位置相近,得到t-SNE分布结果;
步骤2包括以下步骤:
步骤2-1,结合显著性检测和人脸检测,提取每张图片的ROI关注区域;
步骤2-2,将步骤1得到的t-SNE分布结果进行缩放,使其与用来图片拼接的展示面板大小相等,并作为初始展示面板,将每张图片的ROI关注区域缩小为原始大小的30%后送入到其在初始展示面板中的对应位置,得到一个初始展示面板分布结果;
步骤3包括以下步骤:
步骤3-1,根据步骤2-2得到的初始展示面板分布结果,将展示面板划分为一个个包含图片ROI关注区域的子区域,采集ROI关注区域多边形的边,并利用德洛内三角方法使这些边及对应顶点形成三角形,由这些三角形形成每个ROI关注区域的CAT区域;
步骤3-2,子区域优化确定坐标、缩放尺度及方向角:寻找CAT区域中的最大ROI关注区域,最大化展示面板的覆盖率,该过程采用如下公式计算:
Maximize f(t,θ,s)=s,
满足于:
其中t、θ、s分别表示坐标变换、方向角和缩放尺度,1≤k≤M,j∈Ek,Ek为CAT区域与采样点pk(t,θ,s)的维诺区域的相交线段,M为线段总和,pk(t,θ,s)为ROI关注区域上的采样点,为CAT区域中指定边ej的起始点,ej为Ek中的一条有向线段,σ为每次迭代优化过程中旋转角的总和,对象函数f(t,θ,s)等于缩放尺度s,表示该过程的目标是最大化展示面板的覆盖率,设置旋转角总和小于
步骤3-3,寻找错误放置的ROI关注区域:计算相同类ROI关注区域的重心点,对每个ROI关注区域,计算其重心点到其对应类的重心点的距离,将相同类ROI关注区域的距离和的平均值设置为该类的距离阈值,若一个ROI关注区域的距离大于该距离阈值,则判定该ROI关注区域为错误放置;
步骤3-4,错误位置校正:假设有N个错误放置ROI关注区域,则在展示面板上对应有N个错误位置,对于每一对错误放置ROI关注区域和错误位置,计算每一个错误位置到对应错误放置ROI关注区域相应类的重心点的距离,通过匈牙利算法,分配一个错误放置ROI关注区域到一个错误位置,使距离总和最小,该过程的公式表示如下:
满足于:
xab∈{0,1},
其中,N为错误放置个数,cab为错误位置b到错误放置ROI关注区域a对应类重心点的距离,[xab]N*N为一个待优化二值矩阵,xab只有在错误放置ROI关注区域a放置到错误位置b上时才为1;
步骤3-5,缩小所有ROI关注区域直到没有重叠,迭代子区域优化及错误位置校正过程,直到该过程收敛,得到一个所有ROI关注区域都无法变大且各ROI关注区域位置相关的图片拼接结果;
步骤4中包括如下步骤:
对展示面板上的每一个像素点p,均关联一组概率{Prob1(p),Prob2(p),...,Probn(p)},其中n为图片总数,Probz(p)表示第z幅图片在该像素点处对应像素能够显示的概率,设Qpz和Qrz分别表示第z幅图片对应的CAT区域和ROI关注区域;采用如下公式计算Probz(p):
其中,e为自然对数的底,d(p,Qpz)表示像素点p到CAT区域Qpz的最近欧式距离,d(p,Qrz)表示像素点p到ROI关注区域Qrz的最近欧式距离,δ为贡献率概率概率分布的标准差;
得到展示面板每个像素点的关联概率后,将每个像素点的关联概率Probz(p)平均的分发到其4邻域上,再将每个像素点的一组概率归一化,将得到的概率图作为无缝混合渲染的Alpha通道值用于最终拼贴图片的合成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610172203.8A CN105913377B (zh) | 2016-03-24 | 2016-03-24 | 一种保留图片相关性信息的图片拼接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610172203.8A CN105913377B (zh) | 2016-03-24 | 2016-03-24 | 一种保留图片相关性信息的图片拼接方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105913377A CN105913377A (zh) | 2016-08-31 |
CN105913377B true CN105913377B (zh) | 2018-10-16 |
Family
ID=56744495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610172203.8A Active CN105913377B (zh) | 2016-03-24 | 2016-03-24 | 一种保留图片相关性信息的图片拼接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105913377B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570824A (zh) * | 2016-10-12 | 2017-04-19 | 网易(杭州)网络有限公司 | 一种散图拼接方法和装置 |
CN106599159A (zh) * | 2016-12-08 | 2017-04-26 | 南京大学 | 一种基于内容相关性的图像排布方法 |
TWI753034B (zh) * | 2017-03-31 | 2022-01-21 | 香港商阿里巴巴集團服務有限公司 | 特徵向量的產生、搜索方法、裝置及電子設備 |
CN107403194B (zh) * | 2017-07-26 | 2020-12-18 | 广州慧扬健康科技有限公司 | 基于t-SNE的皮肤癌图像识别可视化系统 |
CN108171649B (zh) * | 2017-12-08 | 2021-08-17 | 广东工业大学 | 一种保持焦点信息的图像风格化方法 |
CN108563841B (zh) * | 2018-03-23 | 2021-09-21 | 杭州群核信息技术有限公司 | 一种用于室内设计的饰品智能摆放系统 |
CN110569793B (zh) * | 2019-09-09 | 2022-06-07 | 西南交通大学 | 一种无监督相似性判别学习的目标跟踪方法 |
CN113761249B (zh) * | 2020-08-03 | 2024-10-22 | 北京沃东天骏信息技术有限公司 | 一种确定图片类型的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315663A (zh) * | 2008-06-25 | 2008-12-03 | 中国人民解放军国防科学技术大学 | 一种基于区域潜在语义特征的自然场景图像分类方法 |
CN102842121A (zh) * | 2011-06-24 | 2012-12-26 | 鸿富锦精密工业(深圳)有限公司 | 图片拼接系统及方法 |
CN103093447A (zh) * | 2013-01-18 | 2013-05-08 | 南京大学 | 一种计算机图片集中图片剪切拼接方法 |
-
2016
- 2016-03-24 CN CN201610172203.8A patent/CN105913377B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315663A (zh) * | 2008-06-25 | 2008-12-03 | 中国人民解放军国防科学技术大学 | 一种基于区域潜在语义特征的自然场景图像分类方法 |
CN101315663B (zh) * | 2008-06-25 | 2010-06-09 | 中国人民解放军国防科学技术大学 | 一种基于区域潜在语义特征的自然场景图像分类方法 |
CN102842121A (zh) * | 2011-06-24 | 2012-12-26 | 鸿富锦精密工业(深圳)有限公司 | 图片拼接系统及方法 |
CN103093447A (zh) * | 2013-01-18 | 2013-05-08 | 南京大学 | 一种计算机图片集中图片剪切拼接方法 |
Non-Patent Citations (1)
Title |
---|
Learning Deep Representations for Ground-to-Aerial Geolocalization;Tsung-YiLin等;《CVPR》;20150612;第3.1-3.2节,4.1-4.3节,4.5节 * |
Also Published As
Publication number | Publication date |
---|---|
CN105913377A (zh) | 2016-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105913377B (zh) | 一种保留图片相关性信息的图片拼接方法 | |
Li et al. | Simplified unsupervised image translation for semantic segmentation adaptation | |
Dai et al. | Edge-guided composition network for image stitching | |
Nguyen et al. | Image re-attentionizing | |
Kumar et al. | Image data augmentation approaches: A comprehensive survey and future directions | |
CN115761222B (zh) | 图像分割方法、遥感图像分割方法以及装置 | |
Yang et al. | Context-aware text-based binary image stylization and synthesis | |
CN110119688A (zh) | 一种利用视觉注意力协同网络的图像情感分类方法 | |
CN103093447A (zh) | 一种计算机图片集中图片剪切拼接方法 | |
CN109740515A (zh) | 一种评阅方法及装置 | |
Zhang et al. | Detection of regions of interest in a high-spatial-resolution remote sensing image based on an adaptive spatial subsampling visual attention model | |
CN111563462A (zh) | 图像元素的检测方法及装置 | |
CN113361387A (zh) | 人脸图像融合方法及装置、存储介质及电子设备 | |
Xu et al. | Generative image completion with image-to-image translation | |
Thiengtham et al. | Improve template matching method in mobile augmented reality for thai alphabet learning | |
CN102542590A (zh) | 基于监督主题模型的高分辨率sar影像标注方法 | |
Liu et al. | A study of digital exhibition visual design led by digital twin and VR technology | |
Way et al. | A video painterly stylization using semantic segmentation | |
CN113936147A (zh) | 一种社群图像的显著区域提取方法及系统 | |
CN113506306A (zh) | 多人抠图方法、系统、装置和存储介质 | |
CN115631516A (zh) | 人脸图像处理方法、装置、设备及计算机可读存储介质 | |
CN114764776A (zh) | 影像标注方法及装置、电子设备 | |
Guan et al. | Synthetic region screening and adaptive feature fusion for constructing a flexible object detection database | |
Siracusa et al. | An Approach Towards Architecture-Independent Output for Generative Networks: Texturing Aerial Town Maps for Roleplaying Games | |
CN112819841B (zh) | 人脸区域分割方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |