CN114913064A - 基于结构保持和多对多匹配的大视差图像拼接方法及装置 - Google Patents
基于结构保持和多对多匹配的大视差图像拼接方法及装置 Download PDFInfo
- Publication number
- CN114913064A CN114913064A CN202210251143.4A CN202210251143A CN114913064A CN 114913064 A CN114913064 A CN 114913064A CN 202210251143 A CN202210251143 A CN 202210251143A CN 114913064 A CN114913064 A CN 114913064A
- Authority
- CN
- China
- Prior art keywords
- matching
- target picture
- line
- transformation
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000009466 transformation Effects 0.000 claims abstract description 56
- 238000005457 optimization Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims description 17
- 238000004321 preservation Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000002156 mixing Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 102000002274 Matrix Metalloproteinases Human genes 0.000 claims description 3
- 108010000684 Matrix Metalloproteinases Proteins 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000010813 municipal solid waste Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于结构保持和多对多匹配的大视差图像拼接方法及装置,涉及图像处理的技术领域,包括:获取参考图片以及目标图片,并对参考图片以及目标图片进行预对齐;将目标图片进行网格变换并进行网格优化以获取第一目标图片;对第一目标图片进行点线匹配约束以获取第二目标图片;基于目标图片进行合并以及划分,采用quasi‑homography变换对交叉线进行优化;采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合。通过本发明可以避免视差伪影,很好地保持拼接结果的整体结构,而且能有效消除由复杂多行人引起的合成伪影,得到自然的拼接结果。
Description
技术领域
本发明涉及图像拼接的技术领域,尤其是涉及一种基于结构保持和多对多匹配的大视差图像拼接方法及装置。
背景技术
图像拼接技术是一个将两个或多个具有重叠区域的图像组合成一张高分辨率和的大视场图像的过程。已经广泛应用于工农业、航空以及人们的日常生活中。比如全景图像合成、遥感图像处理、医学图像分析、虚拟现实技术等等。
大多数图像拼接方法都遵循类似的步骤:首先从待拼接图像检测并匹配特征点,然后根据特征之间的对应关系建立变换模型,统一坐标变换,最后将待拼接图像的重叠区域进行融合,得到平滑无缝自然的全景图像。
但当场景不是平面或相机基线很大时,同一静止物体在不同图像中的相对位置发生变化,待拼接图像会呈现大视差,导致拼接结果中容易出现视差伪影和结构失真问题。此外,当待拼接图像中存在复杂的多行人时,由行人移动导致前景物体与背景的相对位置发生变化,拼接结果中同一人可能会被复制或者被切割,即产生了合成伪影。大视差场景和复杂多移动行人都给图像拼接任务带来了很大的挑战。
经过十多年的研究,图像拼接领域已经取得了一些进展。最近,SPW 算法同时强调了单视角变换下的不同特征,包括对齐、失真和显著性。SLSM 将点-线特征作为对齐项来对齐图像,并使用像素差异值评估模型计算沿接缝切割的像素成本,迭代计算和更新平滑项以求找到最合适的接缝。贾琪教授等人提出了特征数来匹配输入图像的共面局部子区域,并将全局共线结构引入目标函数。Flores,A教授专注于从谷歌街景图像中移除行人,基于Liebe来提取行人的边界框,使用seam-driven的方法来消除伪影。OGIE 算法提出了一种物体感知的合成伪影消除方法,使用目标检测SSD的方法检测场景中的移动物体。随着深度学习算法的发展,Lang Nie等人提出了一种基于重建的无监督的深度图像拼接框架:无监督粗对齐和无监督重建,并公开了首个真实场景的无监督图像拼接数据集。以上方法扩大了图像拼接的应用领域,应用前景广阔。但应对复杂多行人的大视差场景的挑战时图像拼接效果仍不是很好。
发明内容
有鉴于此,本发明的目的在于提供一种基于结构保持和多对多匹配的大视差图像拼接方法及装置,以避免视差伪影,很好地保持拼接结果的整体结构,而且能有效消除由复杂多行人引起的合成伪影,得到自然的拼接结果。
本发明一种基于结构保持和多对多匹配的大视差图像拼接方法,包括:
获取参考图片以及目标图片,并对所述参考图片以及所述目标图片进行预对齐;
将所述目标图片进行网格变换并进行网格优化以获取第一目标图片;
对所述第一目标图片进行点线匹配约束以获取第二目标图片;
基于所述目标图片进行合并以及划分,采用quasi-homography变换对交叉线进行优化;
采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合。
优选的,所述获取参考图片以及目标图片,并对所述参考图片以及所述目标图片进行预对齐的步骤包括:
采用如下公式获取计单应性变换矩阵:
其中{(pi,p′i)}i=1,2,…,N和{(lj,l′j)}j=1,2,…,L分别是在参考图片和目标图片中检测和匹配的点对和线对集合,N和L分别是点对和线对的数量,线段lj可以由它的两个端点表示,H是由匹配点线对计算的初始单应性矩阵,通过SVD最小化匹配点线对的欧式距离,就是预变换后所需的全局单应性矩阵。
采用如公式定义总能量函数:
优选的,所述对所述第一目标图片进行点线匹配约束以获取第二目标图片的步骤包括:
其中是点对齐项,是线对齐项,λp和λl分别是每一项的权重,设置为1和5;尽可能对齐匹配点特征,其中匹配点p′i∈I1,pi∈I2,变换后的点可以表示为保证了重叠区域的对齐。最小化的匹配线之间的距离,变换后的线可以表示为线l′j∈I1可以表示为ajx+bjy+cj=0, 不仅增强了图像的对齐,而且保持了直线结构的直线性。
其中是线保存项,为了最小化相邻采样点之间的距离,将其划分为局部保留项和全局保留项λlq和λlg分别是它们的权重,设置为50和150用于保持线性结构。根据LSD给出的原始线集合Sl,合并并划分出局部线Slq和全局线Slg,在每一条局部线和全局线上分别进行采样,记为和Q和G是局部线和全局线的数量,Mq和Mg是每条线上采样点的数量。
优选的,所述基于所述目标图片进行合并以及划分,采用 quasi-homography变换对交叉线进行优化的步骤包括:
将失真控制项划分为全局失真控制项和非重叠区域失真控制项其中λds和λdn分别代表和的权重,设置为50和 100用于最小化失真。给定交叉线特征的集合:和其中和平行于lu和lv,和表示变换后的线,和分别是和的法向量,S 和T是交叉线特征的个数,在交叉线上均匀采样Li和Kj个点,记为和相应的变换后的点可以用表示。
优选的,所述采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合的步骤包括:
采用如下公式:
和是采用YOLOV4在变换目标图片和变换参考图片中检测到的行人坐标信息集合,存储了行人的坐标信息;T0和S0分别表示检测出来的个数。ξ1设置为0.15用于判断是否合并重叠物体,当时,表示和有很大的重叠区域,取二者的最大范围赋值给同时清空掉进行更新,将用同样的方法更新。经过上述操作,行人数量将更新为T1和S1。
优选的,所述采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合的步骤包括采用如下公式对行人多对多匹配:
Tid,Sid=Hungarian(C);
使用Resnet18在Market-1501数据集上训练的最好的模型参数,分别对提取出来的行人图片(即目标集PED1和搜索集PED2)进行深度特征提取,其中每幅图像的特征维度为R1×W,W=512,将PED1和PED2中提取的特征分别堆叠,记为和通过计算特征间的欧式距离来衡量图片的相似性,存入距离矩阵中,Ci,j表示目标集中的第i张图像与搜索集中的第j张图像之间特征级别的距离,采用匈牙利算法计算从目标集到搜索集的最小距离匹配,获取对应索引值Tid,Sid,Sid[i]表示PED2中匹配行人的索引值,对应PED1中的第i张图像,将匹配的索引值和添加至和设置ξ2=15判断是否有对应匹配的行人,当匹配行人之间的特征距离大于阈值ξ2时,确定在PED2中没有匹配的行人,设置匹配 id值为0。
优选的,所述采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合的步骤包括:
采用如下公式进行无缝图像重合
IS=SeamlessCloning(Iinit,τ);
是我们的变换参考图像和变换目标图像,我们采用平均混合方法融合和获得初始的拼接图像Iinit,其中平均混合区域是二者的重叠区域;使用初始拼接结果Iinit中的梯度作为指导梯度,通过泊松重建,最小化融合边界上保留区域τ和Iinit之间的差异,平滑过渡得到混合图像块,并将其无缝混合到最终结果IS中。
另一方面,本发明提供了一种基于结构保持和多对多匹配的大视差图像拼接装置,其包括:
获取模块:用于获取参考图片以及目标图片,并对所述参考图片以及所述目标图片进行预对齐;
网格变换模块:用于将所述目标图片进行网格变换并进行网格优化以获取第一目标图片;
点线约束模块:用于对所述第一目标图片进行点线匹配约束以获取第二目标图片;
优化模块:用于基于所述目标图片进行合并以及划分,采用 quasi-homography变换对交叉线进行优化;
图像融合模块:用于采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合。
本发明实施例带来了以下有益效果:本发明提供了一种基于结构保持和多对多匹配的大视差图像拼接方法及装置,包括:获取参考图片以及目标图片,并对参考图片以及目标图片进行预对齐;将目标图片进行网格变换并进行网格优化以获取第一目标图片;对第一目标图片进行点线匹配约束以获取第二目标图片;基于目标图片进行合并以及划分,采用 quasi-homography变换对交叉线进行优化;采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合。通过本发明可以避免视差伪影,很好地保持拼接结果的整体结构,而且能有效消除由复杂多行人引起的合成伪影,得到自然的拼接结果。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于结构保持和多对多匹配的大视差图像拼接方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,在图像拼接任务中,视差伪影和合成伪影广泛地存在于具有复杂移动行人和大视差场景的图像拼接结果中,导致了极其不自然的拼接结果,给拼接任务了带来了很大的挑战,基于此,本发明实施例提供的一种基于结构保持和多对多匹配的大视差图像拼接方法及装置,可以避免视差伪影,很好地保持拼接结果的整体结构,而且能有效消除由复杂多行人引起的合成伪影,得到自然的拼接结果。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于结构保持和多对多匹配的大视差图像拼接方法进行详细介绍。
实施例一:
本发明实施例一提供了一种基于结构保持和多对多匹配的大视差图像拼接方法,包括:
获取参考图片以及目标图片,并对所述参考图片以及所述目标图片进行预对齐;
其中{(pi,p′i)}i=1,2,…,N和{(lj,l′j)}j=1,2,…,L分别是在参考图片和目标图片中检测和匹配的点对和线对集合,N和L分别是点对和线对的数量,线段lj可以由它的两个端点表示,H是由匹配点线对计算的初始单应性矩阵,通过SVD最小化匹配点线对的欧式距离,就是预变换后所需的全局单应性矩阵。
为了实现更好的配准,需要最小化变换后匹配点和线之间的欧氏距离;
将所述目标图片进行网格变换并进行网格优化以获取第一目标图片;
预对齐估计的全局单应性只提供了一个近似的变换,仍不可避免地存在视差伪影和结构失真,为了优化局部调整,进一步采用网格变形的方法。
首先将目标图像I2划分为规则网格,网格顶点索引从1到n,将n个顶点重塑为2n维度的向量V=[x1 y1 x2 y2…xn yn]T,预变换图像中的一个点p可以用四个网格顶点ν=[v1,v2,v3,v4]T的线性组合p=ων表示,其中ω=[w1,w2,w3,w4]由双线性插值计算并且ω的四个值相加和为1。因此,对点对应的任何约束都可以表示为对顶点对应的约束,图像变换问题可以表述为一个网格变换问题。即在经过网格优化后,顶点变换为 假设系数是固定的,相应的点表征为双线性插值:实际上,这是一个优化问题,其目标是准确地对齐预变换图像与参考图像,同时避免明显的扭曲;
其中是点对齐项,是线对齐项,λp和λl分别是每一项的权重,设置为1和5;尽可能对齐匹配点特征,其中匹配点p′i∈I1,pi∈I2,变换后的点可以表示为保证了重叠区域的对齐。最小化的匹配线之间的距离,变换后的线可以表示为线l′j∈I1可以表示为ajx+bjy+cj=0, 不仅增强了图像的对齐,而且保持了直线结构的直线性。
对所述第一目标图片进行点线匹配约束以获取第二目标图片;
尽可能对齐匹配点特征,其中匹配点p′i∈I1,pi∈I2,变换后的点可以表示为保证了重叠区域的对齐。最小化的匹配线之间的距离,变换后的线可以表示为线l′j∈I1可以表示为ajx+bjy+ cj=0,其中 不仅增强了图像的对齐,而且保持了直线结构的直线性。定义如下:
其中λp和λl分别是每一项的权重;
需要说明的是,在本发明提供的实施例中
基于所述目标图片进行合并以及划分,采用quasi-homography变换对交叉线进行优化;
采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合。
优选的,所述获取参考图片以及目标图片,并对所述参考图片以及所述目标图片进行预对齐的步骤包括:
采用如下公式获取计单应性变换矩阵:
采用如公式定义总能量函数:
优选的,所述基于所述目标图片进行合并以及划分,采用 quasi-homography变换对交叉线进行优化的步骤包括:
将失真控制项划分为全局失真控制项和非重叠区域失真控制项其中λds和λdn分别代表和的权重,设置为50和 100用于最小化失真。给定交叉线特征的集合:和其中和平行于lu和lv,和表示变换后的线,和分别是和的法向量,S 和T是交叉线特征的个数,在交叉线上均匀采样Li和Kj个点,记为和相应的变换后的点可以用表示。
进一步的,当输入图像中存在复杂的多个行人时,很容易产生失真和形状变形。受quasi-homography变换的启发,优化交叉线的斜率可以有效减少失真。在全局单应性的变换后,有且仅有一簇平行线在经过变换过程后仍保持平行关系,记为lu,并且与lv保持垂直关系。
优选的,所述采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合的步骤包括:
需要说明是,因为yolov4检测出来的物体要比我们想要的更多,比如的区域之间重叠率太大时,很可能检测到同一行人中有子物体,例如背包或自行车。为了减少数据冗余,我们基于IoU的思想设计了一个区域合并策略,公式如下:
和是采用YOLOV4在变换目标图片和变换参考图片中检测到的行人坐标信息集合,存储了行人的坐标信息;T0和S0分别表示检测出来的个数。ξ1设置为0.15用于判断是否合并重叠物体,当时,表示和有很大的重叠区域,取二者的最大范围赋值给同时清空掉进行更新,将用同样的方法更新。经过上述操作,行人数量将更新为T1和S1。
优选的,所述采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合的步骤包括采用如下公式对行人多对多匹配:
为了消除合成伪影,为候选集中对应的行人建立匹配关系也是一项特别重要的任务。为了准确地进行匹配,受ReID的启发,我们设计了一种基于匈牙利算法的多对多匹配方法。
首先,我们使用Resnet18在Market-1501数据集上训练的最好的模型参数,分别对目标集PED1和搜索集PED2中的图片进行深度特征提取,其中每幅图像的特征维度为R1×W,W=512,然后将PED1和PED2中提取的特征分别堆叠,记为和通过计算特征间的欧式距离来衡量图片的相似性,存入距离矩阵中,最后再采用匈牙利算法计算从目标集到搜索集的最小距离匹配,获取对应索引值Tid,Sid。
Tid,Sid=Hungarian(C)
使用Resnet18在Market-1501数据集上训练的最好的模型参数,分别对提取出来的行人图片(即目标集PED1和搜索集PED2)进行深度特征提取,其中每幅图像的特征维度为R1×W,W=512,将PED1和PED2中提取的特征分别堆叠,记为和通过计算特征间的欧式距离来衡量图片的相似性,存入距离矩阵中,Ci,j表示目标集中的第i张图像与搜索集中的第j张图像之间特征级别的距离,采用匈牙利算法计算从目标集到搜索集的最小距离匹配,获取对应索引值Tid,Sid,Sid[i]表示PED2中匹配行人的索引值,对应PED1中的第i张图像,将匹配的索引值和添加至和设置ξ2=15判断是否有对应匹配的行人,当匹配行人之间的特征距离大于阈值ξ2时,确定在PED2中没有匹配的行人,设置匹配 id值为0。
Ci,j表示目标集中的第i张图像与搜索集中的第j张图像之间特征级别的距离,Sid[i]表示PED2中匹配行人的索引值,对应PED1中的第i张图像;
Mid=0表示没有对应的匹配行人。
直观地说,合成伪影通常是由重叠区域内或重叠区域边界处的移动行人而产生的,而非重叠区域内的行人一定是真实存在的。为了有效消除合成伪影,我们根据最优变换计算和的重叠区域Ω,进而进一步判断行人是否在重叠区域内,将和添加到和中。此外,如果对应的匹配行人都在重叠区域并且没有产生移动,则不会产生合成伪影。
目前,我们已经识别并匹配了所有潜在的移动行人,为了保证最终结果足够自然,设计了保留区域选择策略。具体来说,由于中的行人在变换后不可避免地会发生畸变和失真问题,因此我们应尽可能选择中的行人作为保留区域τ。但是,当Ω的边界或Ω之外有行人时,我们必须选择它作为保留区τ。根据保留区域的三个规则:非失真、完整性和唯一性规则,我们将需要保留的行人区域存储到τ中,有关详细信息,参见表1。
表1保留区域τ的选择
优选的,所述采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合的步骤包括:
采用如下公式进行无缝图像重合
IS=SeamlessCloning(Iinit,τ)
需要说明的是我们旨在通过一个基于泊松方程的无缝图像融合方法去消除合成伪影,以生成最终的拼接结果。在图像混合过程中,首先,我们采用平均混合方法融合和获得初始的拼接图像Iinit,其中平均混合区域是二者的重叠区域。然后,我们使用初始拼接结果Iinit中的梯度作为指导梯度,通过泊松重建,最小化融合边界上保留区域τ和Iinit之间的差异,平滑过渡得到混合图像块,并将其无缝混合到最终结果IS中:
实施例二:
本发明实施例二提供了一种基于结构保持和多对多匹配的大视差图像拼接装置,包括:
获取模块:用于获取参考图片以及目标图片,并对所述参考图片以及所述目标图片进行预对齐;
网格变换模块:用于将所述目标图片进行网格变换并进行网格优化以获取第一目标图片;
电线约束模块:用于对所述第一目标图片进行点线匹配约束以获取第二目标图片;
优化模块:用于基于所述目标图片进行合并以及划分,采用 quasi-homography变换对交叉线进行优化;
图像融合模块:用于采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合。
实施例三:
我们的设置中,输入图像的大小被重塑为3000×4000像素,点特征由 VLFeat库中的SIFT算法进行检测和匹配,使用RANSAC去除异常点;线特征由线段检测器(LSD)检测,并由点线不变量方法进行匹配。对于参数设置,在网格约束中,网格大小设置为100×100,划分局部和全局线段的阈值μ被设置为网格对角线长度的三倍,λp,λl设置为1和5用于点线对齐,λlq,λlg设置为50和150用于结构保持,λds,λdn设置为50和100用于最小化失真。在合成伪影去除中,ξ1设置为0.15用于判断是否合并重叠物体,ξ2设置为15判断是否有对应匹配的行人,以上参数设置在我们的发明中比较稳定。
我们展示了两个拼接实例,验证了基于网格约束的结构保持的有效性,放大的区域显示在每个结果的右侧。可以看到红框内有明显的伪影和变形,而我们的结构保存部分在绿框内产生了自然的拼接结果。
在本法发明提供的实施例中,我们选择了五组有代表性的图像样本进行了展示。分别与当前五种流行的拼接算法进行了比较,拼接结果的右侧突出显示了一些细节。红框表示重复的行人和弯曲的结构,绿框则展示出令人满意的拼接效果。从中可以观察到,这五种流行的算法都存在不同程度的视差伪影和合成伪影,行人出现两次并在场景中被拉伸,地面与石柱的垂直结构被扭曲,黄色网格线被弯曲,垃圾桶发现变形等,在视觉上导致特别不自然拼接结果。而我们的发明不仅可以去除视差伪影,保持很好的线性结构,还可以有效去除所有合成伪影,确保每个行人在最终拼接结果中只出现一次,行人不会被分割。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/ 或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种基于结构保持和多对多匹配的大视差图像拼接方法,其特征在于,包括:
获取参考图片以及目标图片,并对所述参考图片以及所述目标图片进行预对齐;
将所述目标图片进行网格变换并进行网格优化以获取第一目标图片;
对所述第一目标图片进行点线匹配约束以获取第二目标图片;
基于所述目标图片进行合并以及划分,采用quasi-homography变换对交叉线进行优化;
采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合。
2.根据权利要求1所述的方法,其特征在于,所述获取参考图片以及目标图片,并对所述参考图片以及所述目标图片进行预对齐的步骤包括:
采用如下公式获取计单应性变换矩阵:
其中{(pi,p′i)}i=1,2,...,N和{(lj,l′j)}j=1,2,...,L分别是在参考图片和目标图片中检测和匹配的点对和线对集合,N和L分别是点对和线对的数量,线段lj可以由它的两个端点表示,H是由匹配点线对计算的初始单应性矩阵,通过SVD最小化匹配点线对的欧式距离,就是预变换后所需的全局单应性矩阵。
采用如公式定义总能量函数:
3.根据权利要求1所述的方法,其特征在于,所述对所述第一目标图片进行点线匹配约束以获取第二目标图片的步骤包括:
其中是点对齐项,是线对齐项,λp和λl分别是每一项的权重,设置为1和5;尽可能对齐匹配点特征,其中匹配点p′i∈I1,pi∈I2,变换后的点可以表示为保证了重叠区域的对齐。最小化的匹配线之间的距离,变换后的线可以表示为线l′j∈I1可以表示为ajx+bjy+cj=0, 不仅增强了图像的对齐,而且保持了直线结构的直线性。
6.根据权利要求1所述的方法,其特征在于,所述采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合的步骤包括采用如下公式对行人多对多匹配:
Tid,Sid=Hungarian(C);
使用Resnet18在Market-1501数据集上训练的最好的模型参数,分别对提取出来的行人图片(即目标集PED1和搜索集PED2)进行深度特征提取,其中每幅图像的特征维度为R1×W,W=512,将PED1和PED2中提取的特征分别堆叠,记为和通过计算特征间的欧式距离来衡量图片的相似性,存入距离矩阵中,Ci,j表示目标集中的第i张图像与搜索集中的第j张图像之间特征级别的距离,采用匈牙利算法计算从目标集到搜索集的最小距离匹配,获取对应索引值Tid,Sid,Sid[i]表示PED2中匹配行人的索引值,对应PED1中的第i张图像,将匹配的索引值和添加至和设置ξ2=15判断是否有对应匹配的行人,当匹配行人之间的特征距离大于阈值ξ2时,确定在PED2中没有匹配的行人,设置匹配id值为0。
8.一种基于结构保持和多对多匹配的大视差图像拼接装置,其特征在于,包括:
获取模块:用于获取参考图片以及目标图片,并对所述参考图片以及所述目标图片进行预对齐;
网格变换模块:用于将所述目标图片进行网格变换并进行网格优化以获取第一目标图片;
点线约束模块:用于对所述第一目标图片进行点线匹配约束以获取第二目标图片;
优化模块:用于基于所述目标图片进行合并以及划分,采用quasi-homography变换对交叉线进行优化;
图像融合模块:用于采用YOLOV4,利用匈牙利算法进行多匹配,并选择保留区域以及无线图像融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210251143.4A CN114913064A (zh) | 2022-03-15 | 2022-03-15 | 基于结构保持和多对多匹配的大视差图像拼接方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210251143.4A CN114913064A (zh) | 2022-03-15 | 2022-03-15 | 基于结构保持和多对多匹配的大视差图像拼接方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114913064A true CN114913064A (zh) | 2022-08-16 |
Family
ID=82762571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210251143.4A Pending CN114913064A (zh) | 2022-03-15 | 2022-03-15 | 基于结构保持和多对多匹配的大视差图像拼接方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114913064A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117336620A (zh) * | 2023-11-24 | 2024-01-02 | 北京智汇云舟科技有限公司 | 基于深度学习的自适应视频拼接方法及系统 |
-
2022
- 2022-03-15 CN CN202210251143.4A patent/CN114913064A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117336620A (zh) * | 2023-11-24 | 2024-01-02 | 北京智汇云舟科技有限公司 | 基于深度学习的自适应视频拼接方法及系统 |
CN117336620B (zh) * | 2023-11-24 | 2024-02-09 | 北京智汇云舟科技有限公司 | 基于深度学习的自适应视频拼接方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10958854B2 (en) | Computer-implemented method for generating an output video from multiple video sources | |
US10334168B2 (en) | Threshold determination in a RANSAC algorithm | |
US6556704B1 (en) | Method for forming a depth image from digital image data | |
Kumar et al. | Registration of video to geo-referenced imagery | |
KR101396346B1 (ko) | 다수의 2차원 실사 영상들을 이용하여 3차원 영상을생성하는 방법 및 장치 | |
CN107767339B (zh) | 一种双目立体图像拼接方法 | |
GB2557398A (en) | Method and system for creating images | |
CN110855903A (zh) | 一种多路视频实时拼接方法 | |
Mistry et al. | Image stitching using Harris feature detection | |
CN106023230B (zh) | 一种适合变形图像的稠密匹配方法 | |
US20120027371A1 (en) | Video summarization using video frames from different perspectives | |
CN105005964A (zh) | 基于视频序列影像的地理场景全景图快速生成方法 | |
CN111242848B (zh) | 基于区域特征配准的双目相机图像缝合线拼接方法及系统 | |
CN106530407A (zh) | 一种用于虚拟现实的三维全景拼接方法、装置和系统 | |
CN109801212A (zh) | 一种基于sift特征的鱼眼图像拼接方法 | |
KR101868740B1 (ko) | 파노라마 이미지 생성 방법 및 장치 | |
Wan et al. | Drone image stitching using local mesh-based bundle adjustment and shape-preserving transform | |
CN114913064A (zh) | 基于结构保持和多对多匹配的大视差图像拼接方法及装置 | |
KR102388777B1 (ko) | 360도 vr 카메라를 이용한 연도변 조사 서비스 제공 시스템 | |
Lu et al. | Multiperspective image stitching and regularization via hybrid structure warping | |
CN110120012A (zh) | 基于双目摄像头的同步关键帧提取的视频拼接方法 | |
CN117173012A (zh) | 无监督的多视角图像生成方法、装置、设备及存储介质 | |
CN116132610A (zh) | 一种综采面视频拼接方法及系统 | |
CN113298871B (zh) | 地图生成方法、定位方法及其系统、计算机可读存储介质 | |
Liu | Improving forward mapping and disocclusion inpainting algorithms for depth-image-based rendering and geomatics applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |