CN113313147A - 一种基于深度语义对齐网络模型的图像匹配方法 - Google Patents
一种基于深度语义对齐网络模型的图像匹配方法 Download PDFInfo
- Publication number
- CN113313147A CN113313147A CN202110516741.5A CN202110516741A CN113313147A CN 113313147 A CN113313147 A CN 113313147A CN 202110516741 A CN202110516741 A CN 202110516741A CN 113313147 A CN113313147 A CN 113313147A
- Authority
- CN
- China
- Prior art keywords
- image
- transformation
- alignment
- model
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000009466 transformation Effects 0.000 claims abstract description 133
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 61
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 18
- 230000000694 effects Effects 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims abstract description 10
- 238000013519 translation Methods 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 30
- 238000013527 convolutional neural network Methods 0.000 claims description 26
- 238000001514 detection method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000000844 transformation Methods 0.000 claims description 10
- 238000013459 approach Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 1
- 238000013507 mapping Methods 0.000 claims 1
- 230000011218 segmentation Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 241000282465 Canis Species 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 240000008313 Pseudognaphalium affine Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公布了一种基于深度语义对齐网络模型的图像匹配方法,通过建立对象位置感知的语义对齐网络模型OLASA,逐步估计两个语义相似图像之间的对齐;采用三重采样策略训练网络模型OLASA,通过潜在对象协同定位POCL、仿射变换回归ATR、双向薄板样条回归TTPS三个子网络Ntran,Naffi和Nttps,分别估计平移、仿射变换和样条变换;再通过分层建立和优化图像之间的对齐关系,得到图像匹配结果。利用本发明提供的技术方案,可提高位置差异较大的图像对齐效果,提高图像匹配的准确度。本发明可应用于计算机视觉领域的目标跟踪、语义分割和多视点三维重建等应用中。
Description
技术领域
本发明属于计算机视觉和数字图像处理技术领域,涉及图像匹配技术,具体涉及一种基于图像深度语义对齐网络模型建立相似图像中主要目标物体的准确对应匹配关系的方法。
背景技术
图像语义对齐旨在图像间建立相似目标物体的准确对应关系,即,不同图像中相似目标物体间点对点的特征匹配关系。具体场景是指在图像内容信息相同或者相似的前提下,利用图像的特征信息,分析并量化特征之间的相似度,进而确定图像中相似物体上特征点的匹配关系。该问题是计算机视觉中的一个基本问题,在目标跟踪、图像语义分割、多视点三维重建等领域有着广泛的应用。
语义对齐近年来受到广泛关注。早期的研究包括通过定义和计算稀疏或密集描述子来寻找实例级匹配的方法[5]。然而,这些方法的实例级描述缺乏类别级对应的泛化能力。类别级对应的目的是在语义相似的图像之间找到密集的对应关系。一些方法使用局部描述子并最小化投入的匹配能量。而人工构建的描述子很难嵌入高级语义特征,并对图像变化很敏感。
受卷积神经网络(CNN)特征丰富的高级语义的启发,最近的解决方案(参考文献[2],[4],[6],[7],[8])采用训练CNN特征并将其结合,来估计稠密流场,从而对齐图像。此外参考文献[1],[3],[9],[10]中采用的方法是估计具有可训练CNN特征的几何变换,并将语义对应表述为几何对齐问题。得益于描述稠密对应的几何变换,其中一些方法的性能优于基于稠密流的方法,并产生了更平滑的匹配结果。
尽管现有方法取得了很大的进展,但语义对齐问题仍面临着一些挑战,如由物体变化(如外观、尺度、形状、位置)和复杂背景导致的对齐困难。具体地,首先,由于目标位置差异较大,很难直接建立图像间的密集对应关系,效果不佳(如图1所示)。由于处理此类情况的研究不够,以前的方法往往无法对齐此类图像。其次,是数据标注方面的困难,即很难收集到大量的具有地面真实稠密对应和显著外观变换的训练图像对。手工注释这样的训练数据是非常耗费人力并且带有一定的主观性。
参考文献:
[1]Ignacio Rocco,Relja Arandjelovic,and Josef Sivic,“Convolutionalneural network architecture for geometric matching,”inCVPR,2017.
[2]Kai Han,Rafael S Rezende,Bumsub Ham,Kwan-Yee K Wong,Minsu Cho,Cordelia Schmid,and Jean Ponce,“Scnet:Learning semantic correspondence,”inICCV,2017.
[3]Ignacio Rocco,Reljaand Josef Sivic,“End-to-end weakly-supervised semantic alignment,”in CVPR,2018.
[4]Junghyup Lee,Dohyung Kim,Jean Ponce,and Bumsub Ham,“Sfnet:Learningobject-aware semantic correspondence,”in CVPR,2019.
[5]David G Lowe,“Distinctive image features from scale-invariantkeypoints,”IJCV,vol.60,no.2,2004.
[6]Ce Liu,Jenny Yuen,and Antonio Torralba,“Sift flow:Densecorrespondence across scenes and its applications,”IEEE TPAMI,vol.33,no.5,2010.
[7]Bumsub Ham,Minsu Cho,Cordelia Schmid,and Jean Ponce,“Proposalflow:Semantic correspondences from object proposals,”IEEETPAMI,vol.40,no.7,2017.
[8]Seungryong Kim,Dongbo Min,Bumsub Ham,Sangryul Jeon,Stephen Lin,andKwanghoon Sohn,“Fcss:Fully convolutional self-similarity for dense semanticcorrespondence,”in CVPR,2017.
[9]Paul Hongsuck Seo,Jongmin Lee,Deunsol Jung,Bohyung Han,and MinsuCho,“Attentive semantic alignment with offset-aware correlation kernels,”inECCV,2018.
发明内容
为了克服上述现有技术的不足,本发明提供一种基于深度语义对齐网络模型的图像匹配方法,通过建立一个对象位置感知的语义对齐网络并采用三重采样策略训练该网络,以分层建立和优化图像之间的对齐关系,解决现有技术难以直接建立图像间的密集对应关系以及图像数据标注费时费力且准确度低的技术问题,提高图像匹配的准确度。
本发明中的图像语义对齐技术是图像匹配或图像特征匹配领域中的子问题,它主要针对的场景为:待匹配的两个图像虽不相同,但均包含了一个相似的前景目标,即,前景目标的外观、形状、姿态等高层语义信息是相似的,而且该目标基本属于同一类别,如不同品牌的轿车。
本发明提供的技术方案是:
一种基于深度语义对齐网络模型的图像匹配方法,通过建立一个对象位置感知的语义对齐网络模型——OLASA,逐步、鲁棒地估计两个语义相似图像之间的对齐;同时,提出了一种三重采样策略训练该网络,通过三个子网络(潜在对象协同定位(POCL)、仿射变换回归(ATR)、双向薄板样条回归(TTPS))分别估计平移、仿射变换和样条变换,进而以分层建立和优化图像之间的对齐关系,得到图像匹配结果;包括如下步骤:
步骤1、提取图像语义特征;
本方法中,每个子网络的前端采用一个独立的卷积神经网络(CNN)用来提取图像的特征。具体实施时,本发明采用一个卷积神经网络(CNN)提取两个图像的特征,该网络可以是最基本的CNN网络,也可以是改进或增强后的CNN网络。
式(1)中,F为从图像中提取的特征,为特征的数据空间(实数),h,w,d分别表示特征数据空间的三个维度,即高、宽、通道数;为卷积神经网络(CNN);I为图像;为图像的数据空间(实数),H,W,D分别表示图像数据空间的三个维度,即高、宽、通道数。
本发明建立一个对象位置感知的语义对齐网络模型——OLASA,逐步、鲁棒地估计两个语义相似图像之间的对齐。OLASA的系统架构也是以POCL、ATR、TTPS三个子网络为主体,分别命名为Ntran,Naffi和Nttps,分别用于估计偏移、仿射及TTPS变换,记作Ttran,Taffi和Tttps,如图3所示。通过变换模型Ttran,Taffi和Tttps可获得源图像在各阶段的变换结果和最终利用这些变换模型的连续变换IH,即获得源图像Is与目标图像It的对齐结果建立一个对象位置感知的语义对齐网络模型包括步骤2~4。
步骤2、采用潜在对象协同定位子网络(Ntran)估计图像间目标物体的偏移,消除待匹配对象的位置偏差;
针对图像间相似目标物体往往存在显著位移的问题,Ntran子网络采用潜在目标位置检测与估计技术,先行预测一个偏移变换模型,并通过对源图像的变换消除其在大跨度上的影响。
选取Zst中最高相似度得分的若干特征对组成相似特征对组,并以它们在源图像和目标图像中分别代表的特征点组计算相应的两个区域,作为两个主要的潜在对象,并计算其对应的边框坐标,即空间位置;
ATR子网络用于估计经过偏移调整后的图像与目标图像的仿射变换模型。ATR子网络需将图像特征构造成对,即特征对,并计算特征对的相关度,据此估计仿射变换模型的参数。
具体实施时,将经位置偏移变换的图像和目标图像It的特征Fs 1和Ft组成特征对,计算这些特征对相关度即4D相关度张量该张量的每个元素记录两个局部特征向量间的内积。特征向量和相关度张量是L2归一化的。将相关度张量输入进行和It间的仿射变换模型估计
步骤4、构建双向薄板样条回归子网络Nttps,使用双向薄板样条回归子网络优化对齐效果;
TTPS子网络Nttps利用控制点在仿射变换后的图像和目标图像之间估计一个回归变换模型,该模型可进一步改善或增强图像的语义对齐效果。TTPS采用双向策略避免图像的过度扭曲或失真。比现有的薄板样条回归TPS方法增加从图像It到图像反方向的控制点调整,有效地去除过度形变,改善匹配失真的情况。
步骤5、联合训练包括三个子网络的整体OLASA网络模型;
在训练样本的选择方面,本发明通过引入参考图像提出了三元组方法,该方法可以更好地捕获训练数据中的几何变化和外观变化。
步骤52、设计三个损失函数来实现OLASA的优化,包括传递性损失、一致性损失和对齐损失。
传递损失函数用于度量所预测变换模型的准确度。为检验所预测的变换模型是否准确,可将该模型的变换结果与为达成相同变换目的的另一变换途径的变换结果做对比;另一种变换途径具体可采用通过两种变换模型的组合的间接式变换途径;间接式变换途径实现与只采用一种变换模型的直接式变换途径相同变换目的,即待检测的变换模型的变换目标相同。
以检验某个仿射变换为例,如果将一个(从源图像到参考图像的仿射变换)作为所预测的变换模型,要检验其是否准确,可先找出另外一个可以实现统一变换目的的间接变换途径如两个变换模型的组合即通过组合(从源图像到目标图像的仿射变换)和(从目标图像到参考图像的仿射变换)两个相关的连续变换来模拟变换,通过对比两个途径得到的变换结果的差异度来判断从源图像到参考图像的变换的准确程度。其具体实现可借助由图像中有选择的像素点组成的网格,如对图像在水平和竖直方向进行二十份的划分,可得到网格G(|G|=20×20)包含了400个点,G中的一个点以(x,y)表示,初始网格可以构造在Is上。按前文所述,通过和来判断准确度的实现方法,就可转为基于网格点的具体计算,即,理论上,通过的重投影应该与连续变形后的投影点对齐,而在与真实数据的对比下,即(根据标注数据计算得到,而非预测的,源图像到目标图像的仿射变换)与差异就被作为机器学习方法所依据的误差损失,所以,传递损失函数可表示为:
其中,上述变换涉及了源图像、目标图像和参考图像三类对象,为此,我们将其组建成用于训练相关模型的三元组,即一条训练数据需由一副源图像、一副目标图像和一副参考图像构成。该方法亦可看成在传统的训练对(源图像、目标图像)基础上增加了一副相应参考图像。相关的损失计算有可能同时计算三种变换,每种变换会涉及三元组中的某个图对(两图属于不同图像类型),例如,仿射变换回归子网络估计了三元样本的(源图像与目标图像)和(目标图像与参考图像)仿射变换模型。
一致性损失函数一致性损失定义为:一致性损失函数定义为:由源图像、目标图像和参考图像构成的三元样本中,网格G中一个点在不同图像对之间的双向重投影误差的累计,构成一致性损失函数用于表示仿射变换和样条回归的差异;
其中,ε(Is,It)为源图像-目标图像对之间的重投影误差。
其中cst表示通过对齐Is到It的软内联计数,类似地,cts表示对齐It到Is的软内联计数。
步骤6、获得图像匹配结果;
依据联合训练的整体网络,可针对给定待匹配图像对,给出源图像到目标图像的对齐结果。
具体通过包含三个子网络的整体网络进行学习训练,本方法可以根据训练数据样本得到图像对齐的变换模型,即得到训练好的对象位置感知的语义对齐网络模型OLASA。在测试阶段,即可针对给定的待匹配图像对,计算出源图像到目标图像的匹配图像结果。
与现有技术相比,本发明的有益效果:
本发明提供一种基于深度语义对齐网络模型的图像匹配方法,包括潜在对象协同定位(POCL)、仿射变换回归(ATR)、双向薄板样条回归(TTPS)三个子网络,其中POCL可有效地感知潜在对象的偏移,ATR可学到几何形变的参数,TTPS可提高变形的鲁棒性,三个子网络的联合学习不仅可以实现图像的语义对齐,而且能够获得更高准确率的图像匹配效果。利用本发明提供的技术方案,可以提高位置差异较大的图像对齐效果。同时,可以在标注数据缺乏的场景中,借助生成参考图像,更深入地挖掘和利用现有数据中的几何变化和外观变化,提高图像匹配的准确度。本发明可应用于计算机视觉领域的多种任务中,如目标跟踪、语义分割和多视点三维重建等。
附图说明
图1为图像匹配中图像中物体对象位置感知语义对齐的示意图;
其中,Is表示源图像;It表示目标图像。
图2为本发明建立的OLASA网络模型进行图像匹配的方法流程框图;
图3为本发明建立的2-2为OLASA网络模型的结构框图;
其中,Is为源图像,It为目标图像,分别为各阶段变换的结果。为特征提取网络,Ntran为潜在对象协同定位(POCL)子网络,Ttran为相应的变换模型,Naffi为仿射变换回归(ATR)子网络,Taffi为相应的变换模型,Nttps为双向薄板样条回归(TTPS)子网络,Tttps为相应的变换模型。
图4为本发明中OLASA网络模型的训练三元组及相关变换模型示意图;
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明所提出基于深度语义对齐网络模型的图像匹配方法是一个基于语义对齐的深度神经网络模型OLASA,该模型方法的输入是源图像、目标图像和参考图像,OLASA通过对源图像和目标图像的深度语义分析,依据其内在对齐关系估计出对源图像的变形参数,经过变形的后源图像即为本方法的输出结果,其所含的目标物体可以匹配到目标图像中相应物体上。OLASA的内部实现是通过三个子网络的联合学习:三个子网络,潜在对象协同定位(POCL)、仿射变换回归(ATR)、双向薄板样条回归(TTPS)而达到有效进行图像匹配的目的。
图2所示为本发明建立的OLASA网络模型进行图像匹配的方法流程。本发明方法可用于任何给定的图像对(即源图像、目标图像),源图像和目标图像组成的图像对可以通过拍摄或网络下载等方式获取。采用图像数据集如PF-WILLOW[11],PF-PASCAL(文献[11]:Bumsub Ham,Minsu Cho,Cordelia Schmid,and Jean Ponce,“Proposal flow,”in CVPR,2016.)和Caltech-101(文献[12]:Li Fei-Fei,Rob Fergus,and Pietro Perona,“One-shot learning of object categories,”IEEE TPAMI,vol.28,no.4,2006.)等均可。参考图像采用本发明方法在执行过程中根据源图像计算得到。本发明方法的具体实现步骤如下。
步骤1、图像语义特征提取
OLASA接收源图像、目标图像和参考图像后,首先要提取其特征。即,将待匹配的一对图像(源图像和目标图像,可采用图像库中的图像或拍摄得到)作为输入,本方法采用一个卷积神经网络(CNN)提取两个图像的特征,该网络可以是最基本的CNN网络,也可以是改进或增强后的CNN网络,不是一般性,本文中称其为所提取的两组特征命名为这些语义特征将用于后续子网络的学习过程。
步骤2、采用潜在对象协同定位(POCL)子网络估计偏移
在实际情况中,源图像和目标图像中要做匹配的对象往往分别位于各自图像中的不同位置,即,待匹配对象之间往往存在较大的位置差异。现有方法往往只处理几乎处于同一位置的待匹配对象,而对上述存在较大位置差异的情况很少采取专门的处理方法,从而导致了很多方法的实际应用难以取得理想的匹配效果。本发明针对该问题,在实现图像匹配的第一阶段就采用一个预处理网络,潜在对象协同定位子网络(POCL)来消除待匹配对象的位置偏差。
为了估计偏移变换模型需要先估测待匹配对象的位置,为此,可采用现有的分类目标检测技术,具体地,如常用的目标检测网络——Faster R-CNN[12]等。需要说明的是在此阶段采用目标检测技术并非是要得到精确的目标检测结果,而只是为了获取潜在对象的大致位置信息,以实现协同定位,因此目标检测技术在这里的用法有所不同。具体地,基于图像特征Fs和Ft只需预测两组潜在对象边框和(i=1,…,ns,j=1,…,nt),分别描述了图像Is和It中第ith和jth个潜在边框,可用左上角和右下角的坐标记录,ns和nt分别表示Is和It中的边框数量。再次说明,这些边框也无需是精确的对象边框,只是其近似或可能边框即可,在本现阶段旨在估计其大致位置。
为了进一步定位Is和It中两个主要且语义相关的对象,我们通过潜在边框和从图像中裁剪潜在对象,并将它们的尺寸调整为H×W。然后再利用另一个特征提取模块,如CNN,来提取对应于源图像和目标图像的特征映射{Vs i}和{Vt j}。之后,我们将描述子{Vs i}和{Vt j}堆叠(stack)为特征矩阵和这样,就可以通过两个特征矩阵相乘计算语义相似性矩阵, 其中,关注Zst中最高相似度得分的组成项目,即选取两个对应的边框和从而分别定位两个主要的潜在对象。最后,利用和的空间坐标就可以计算出位置偏移变换模型源图像Is通过变换为位置偏移后的图像
POCL仅用来捕获潜在对象位置偏差,并在位置偏差较大时,能够通过位置偏移变换实现相应的位置调整,但POCL还不能实现精准的语义对齐。
步骤3、利用仿射变换回归(ATR)子网络估计仿射变换模型
OLASA通过更为精准的仿射变换回归(ATR)子网络估计待匹配图像的仿射变换模型现有的类似ATR功能的子网络[11]亦可用来估计仿射变换。为获得更好效果,本方法基于张量有效性的研究[1],[3],将图像和It的特征Fs 1和Ft组成特征对,计算这些特征对相关度,即,4D相关度张量该张量的每个元素记录两个局部特征向量间的内积。特征向量和相关度张量是L2归一化的。相关度张量被输入以估计和It间的仿射变换模型
步骤4、使用双向薄板样条回归(TTPS)子网络优化对齐效果
利用控制点网络可以进一步改善或增强图像的语义对齐效果。具体地,通过使用双向薄板样条回归(TTPS)子网络进一步在图像和It之间估计一个回归变换模型并以此模型来优化图像和It间的语义对齐。实际上,现有的薄板样条回归TPS的现有方法,如[13]等,亦可实现本项功能,但TPS是单向的,所依赖的控制点是固定的,效果相应地会受到影响,如,在一些局部范围内会产生过度扭曲,导致较大的物体失真。本发明设计了TTPS,同样是针对一组已知的对应控制点执行回归预测,结合一种简单示例,即在图像和It上设置一个统一的3×3的控制点网格。但与TPS不同的是,TTPS是双向的,增加从图像It到图像反方向的控制点调整,相对于TPS而言TTPS将两个图像中控制点视为可移动的,因此TTPS可以有效地去除过度形变,改善匹配失真的情况。在具体实现上,TTPS以图像和It的特征和Ft特征对的相关度张量作为计算对象,即4D相关度张量 以更为准确地捕捉物体形变的细节。用TTPS回归子网络估计回归变形模型的过程在形式上可表示为:
步骤5、整体网络的联合训练
上述三个子网络的连续变换,实现了一种从粗到细的匹配原则,图像对Is和It的语义对齐可以完整地描述为三个变换模型联立的结果,即其中,表示几何变换的组成。不仅如此,作为一个整体网络,三个子网络需要前后贯通,具体操作方法就是作为一个完整网络进行联合训练。
传统方法在训练该网络时通常使用图像对作为训练样本,与之不同,对于OLASA的训练,我们通过引入参考图像,提出了三重抽样策略来生成训练数据。每个三元组包含源图像Is、参考图像Ir、和目标图像It。其中,从Is中通过随机几何变换或生成的参考图像Ir,如图4中的(a)所示。传统方法所用组合对包含很少的外观变化,三重抽样策略可以同时捕获训练数据中的几何和外观变化,换言之,该三元组不仅丰富了原图像对的外观变化,而且也为差异较大的源图像和目标图像提供了有力的过渡信息。在具体计算过程中,三元组的引入丰富了此前提出的转换模型,在图4中的(b)中分别用虚线和实线分开表示:1)仍需要估计的模型,如与原来的仿射回归变换或样条回归变换类似,只是模型数量在细分后有所增加,如虚箭头表示的等,2)由于参考图是生成结果,其已知的变换即可作为真实的标注数据,因此其有关变换用实箭头表示,如
为实现整体模型的训练目标,我们设计了三个损失函数来实现OLASA的优化,包括传递性损失、一致性损失和对齐损失。
传递损失。在三重样本上,我们根据几何变换的传递性和网络MSE设计了传递损失以仿射变换为例,可以通过合并另外两个相关的连续变换和来推断从源图像到参考图像的变换即,(x,y)表示构造在Is上一致网格G中的一个点(x,y)通过的重投影应该与连续变形后的投影点对齐。其中,仿射变换回归子网络估计了三元样本的和网格G(|G|=20×20)可分别由和变换。我们用损失函数即传递损失,来度量仿射变换前后两个网格间的差异。
一致性损失。几何变换中的一致性是从图像到图像变换中使用的循环一致性拓展得到的,可作为传递损失的补充。我们设计的一致性损失定义为:给定一个图像Is和It间仿射变换和对应的逆变换时,对比其双向变换的结果,点(x,y)∈G应与原始空间的坐标对齐,即,因此,网格G中一个点在源图像-目标图像对之间的重投影误差可通过以下公式计算得到,
其中cst表示通过对齐Is到It的软内联计数,类似地,cts表示对齐It到Is的软内联计数。
步骤6、匹配结果的获得
通过包含三个子网络在内的整体网络学习,本方法可以根据训练数据样本得到图像对齐的变换模型,在测试阶段,即可针对给定的待匹配图像对,计算出源图像到目标图像的匹配结果。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (7)
1.一种基于深度语义对齐网络模型的图像匹配方法,通过建立对象位置感知的语义对齐网络模型OLASA,逐步估计两个语义相似图像之间的对齐;采用三重采样策略训练网络模型OLASA,通过潜在对象协同定位POCL、仿射变换回归ATR、双向薄板样条回归TTPS三个子网络Ntran,Naffi和Nttps,分别估计平移、仿射变换和样条变换;再通过分层建立和优化图像之间的对齐关系,得到图像匹配结果;包括如下步骤:
每个子网络的前端采用卷积神经网络CNN提取图像的特征,表示为式(1):
式(1)中,F为从图像中提取的特征;实数为特征的数据空间;h、w、d分别表示特征数据空间的高、宽、通道数;为卷积神经网络CNN;I为图像;实数为图像的数据空间;H、W、D分别表示图像数据空间的高、宽、通道数;
建立对象位置感知的语义对齐网络模型OLASA,OLASA包括子网络Ntran,Naffi和Nttps,分别用于估计偏移、仿射及TTPS变换,记作Ttran,Taffi和Tttps;源图像通过变换获得各阶段的变换结果和最终通过连续变换TH获得源图像Is与目标图像It的对齐结果其中建立对象位置感知的语义对齐网络模型OLASA包括步骤2~4:
步骤2、构建潜在对象协同定位子网络Ntran,用于估计图像间目标物体的偏移,消除待匹配对象的位置偏差;
进一步定位Is和It中两个语义相关的对象,再提取对应的特征描述子{Vs i}和{Vt j},其中,i,j分别表示源图像和目标图像中的特征点的序号;
选取Zst中最高相似度得分的多个特征对组成相似特征对组,并以其在源图像和目标图像中分别代表的特征点组计算相应的两个区域,作为两个主要的潜在对象,并计算对应的边框坐标,即空间位置;
步骤4、构建双向薄板样条回归子网络Nttps;Nttps利用控制点在仿射变换后的图像和目标图像之间估计回归变换模型,进一步优化图像的语义对齐效果;
步骤5、引入参考图像,采用三元组方法选择训练样本,联合训练网络模型OLASA;
传递损失函数用于度量所预测变换模型的准确度;将变换模型的变换结果与为达成相同变换目的的另一变换途径的变换结果的差作为传递损失;另一种变换途径具体采用通过两种变换模型的组合的间接式变换途径;间接式变换途径实现与只采用一种变换模型的直接式变换途径相同变换目的,即待检测的变换模型的变换目标相同;
其中,cst表示通过对齐Is到It的软内联计数;cts表示对齐It到Is的软内联计数;
步骤6、针对给定待匹配图像对,利用步骤5训练好的对象位置感知的语义对齐网络模型OLASA,得到源图像到目标图像的对齐结果,即获得图像匹配结果;
通过上述步骤,实现基于深度语义对齐网络模型的图像匹配。
2.如权利要求1所述基于深度语义对齐网络模型的图像匹配方法,其特征是,步骤2中,具体通过分类目标检测方法估测潜在目标,得到潜在目标对象的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110516741.5A CN113313147B (zh) | 2021-05-12 | 2021-05-12 | 一种基于深度语义对齐网络模型的图像匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110516741.5A CN113313147B (zh) | 2021-05-12 | 2021-05-12 | 一种基于深度语义对齐网络模型的图像匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113313147A true CN113313147A (zh) | 2021-08-27 |
CN113313147B CN113313147B (zh) | 2023-10-20 |
Family
ID=77373055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110516741.5A Active CN113313147B (zh) | 2021-05-12 | 2021-05-12 | 一种基于深度语义对齐网络模型的图像匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113313147B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111621508A (zh) * | 2020-06-11 | 2020-09-04 | 云南中烟工业有限责任公司 | 烟草萜类合成酶NtTPS7基因及其载体与应用 |
CN115861393A (zh) * | 2023-02-16 | 2023-03-28 | 中国科学技术大学 | 图像匹配方法、航天器着陆点定位方法及相关装置 |
CN116977652A (zh) * | 2023-09-22 | 2023-10-31 | 之江实验室 | 基于多模态图像生成的工件表面形貌生成方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862707A (zh) * | 2017-11-06 | 2018-03-30 | 深圳市唯特视科技有限公司 | 一种基于卢卡斯‑卡纳德图像对齐的图像配准方法 |
US20190371080A1 (en) * | 2018-06-05 | 2019-12-05 | Cristian SMINCHISESCU | Image processing method, system and device |
CN110580715A (zh) * | 2019-08-06 | 2019-12-17 | 武汉大学 | 一种基于照度约束和格网变形的图像对齐方法 |
CN110909778A (zh) * | 2019-11-12 | 2020-03-24 | 北京航空航天大学 | 一种基于几何一致性的图像语义特征匹配方法 |
CN112102303A (zh) * | 2020-09-22 | 2020-12-18 | 中国科学技术大学 | 基于单图像生成对抗网络的语义图像类比方法 |
CN112634341A (zh) * | 2020-12-24 | 2021-04-09 | 湖北工业大学 | 多视觉任务协同的深度估计模型的构建方法 |
-
2021
- 2021-05-12 CN CN202110516741.5A patent/CN113313147B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862707A (zh) * | 2017-11-06 | 2018-03-30 | 深圳市唯特视科技有限公司 | 一种基于卢卡斯‑卡纳德图像对齐的图像配准方法 |
US20190371080A1 (en) * | 2018-06-05 | 2019-12-05 | Cristian SMINCHISESCU | Image processing method, system and device |
CN110580715A (zh) * | 2019-08-06 | 2019-12-17 | 武汉大学 | 一种基于照度约束和格网变形的图像对齐方法 |
CN110909778A (zh) * | 2019-11-12 | 2020-03-24 | 北京航空航天大学 | 一种基于几何一致性的图像语义特征匹配方法 |
CN112102303A (zh) * | 2020-09-22 | 2020-12-18 | 中国科学技术大学 | 基于单图像生成对抗网络的语义图像类比方法 |
CN112634341A (zh) * | 2020-12-24 | 2021-04-09 | 湖北工业大学 | 多视觉任务协同的深度估计模型的构建方法 |
Non-Patent Citations (2)
Title |
---|
刘岩;吕肖庆;秦叶阳;汤帜;徐剑波;: "尺度与颜色不变性图像特征描述", 小型微型计算机系统, no. 10, pages 187 - 192 * |
廖明哲;吴谨;朱磊;: "基于ResNet和RF-Net的遥感影像匹配", 液晶与显示, no. 09, pages 91 - 99 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111621508A (zh) * | 2020-06-11 | 2020-09-04 | 云南中烟工业有限责任公司 | 烟草萜类合成酶NtTPS7基因及其载体与应用 |
CN111621508B (zh) * | 2020-06-11 | 2022-07-01 | 云南中烟工业有限责任公司 | 烟草萜类合成酶NtTPS7基因及其载体与应用 |
CN115861393A (zh) * | 2023-02-16 | 2023-03-28 | 中国科学技术大学 | 图像匹配方法、航天器着陆点定位方法及相关装置 |
CN115861393B (zh) * | 2023-02-16 | 2023-06-16 | 中国科学技术大学 | 图像匹配方法、航天器着陆点定位方法及相关装置 |
CN116977652A (zh) * | 2023-09-22 | 2023-10-31 | 之江实验室 | 基于多模态图像生成的工件表面形貌生成方法和装置 |
CN116977652B (zh) * | 2023-09-22 | 2023-12-22 | 之江实验室 | 基于多模态图像生成的工件表面形貌生成方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113313147B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Labbé et al. | Cosypose: Consistent multi-view multi-object 6d pose estimation | |
US11763433B2 (en) | Depth image generation method and device | |
CN113313147B (zh) | 一种基于深度语义对齐网络模型的图像匹配方法 | |
CN103700099B (zh) | 一种旋转和尺度不变的宽基线立体匹配方法 | |
CN111625667A (zh) | 一种基于复杂背景图像的三维模型跨域检索方法及系统 | |
CN113160285B (zh) | 一种基于局部深度图像关键性的点云匹配方法 | |
CN104517289A (zh) | 一种基于混合摄像机的室内场景定位方法 | |
Yi et al. | Motion keypoint trajectory and covariance descriptor for human action recognition | |
CN110969648A (zh) | 一种基于点云序列数据的3d目标跟踪方法及系统 | |
CN110544202A (zh) | 一种基于模板匹配与特征聚类的视差图像拼接方法及系统 | |
CN111368733B (zh) | 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端 | |
He et al. | Detector-free structure from motion | |
Shen et al. | Semi-dense feature matching with transformers and its applications in multiple-view geometry | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN113988269A (zh) | 一种基于改进孪生网络的回环检测及优化方法 | |
Lee et al. | Learning to distill convolutional features into compact local descriptors | |
Huang et al. | Life: Lighting invariant flow estimation | |
Zhang et al. | An automatic three-dimensional scene reconstruction system using crowdsourced Geo-tagged videos | |
CN110849380A (zh) | 一种基于协同vslam的地图对齐方法及系统 | |
CN115375746A (zh) | 基于双重空间池化金字塔的立体匹配方法 | |
CN114155406A (zh) | 一种基于区域级特征融合的位姿估计方法 | |
CN113762165A (zh) | 一种嫌疑人识别追踪方法及系统 | |
Xu et al. | Improved HardNet and Stricter Outlier Filtering to Guide Reliable Matching. | |
Wang et al. | Convolutional neural network-based recognition method for volleyball movements | |
Jung et al. | Local feature extraction from salient regions by feature map transformation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |