CN113313147A - 一种基于深度语义对齐网络模型的图像匹配方法 - Google Patents

一种基于深度语义对齐网络模型的图像匹配方法 Download PDF

Info

Publication number
CN113313147A
CN113313147A CN202110516741.5A CN202110516741A CN113313147A CN 113313147 A CN113313147 A CN 113313147A CN 202110516741 A CN202110516741 A CN 202110516741A CN 113313147 A CN113313147 A CN 113313147A
Authority
CN
China
Prior art keywords
image
transformation
alignment
model
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110516741.5A
Other languages
English (en)
Other versions
CN113313147B (zh
Inventor
吕肖庆
瞿经纬
王天乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202110516741.5A priority Critical patent/CN113313147B/zh
Publication of CN113313147A publication Critical patent/CN113313147A/zh
Application granted granted Critical
Publication of CN113313147B publication Critical patent/CN113313147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种基于深度语义对齐网络模型的图像匹配方法,通过建立对象位置感知的语义对齐网络模型OLASA,逐步估计两个语义相似图像之间的对齐;采用三重采样策略训练网络模型OLASA,通过潜在对象协同定位POCL、仿射变换回归ATR、双向薄板样条回归TTPS三个子网络Ntran,Naffi和Nttps,分别估计平移、仿射变换和样条变换;再通过分层建立和优化图像之间的对齐关系,得到图像匹配结果。利用本发明提供的技术方案,可提高位置差异较大的图像对齐效果,提高图像匹配的准确度。本发明可应用于计算机视觉领域的目标跟踪、语义分割和多视点三维重建等应用中。

Description

一种基于深度语义对齐网络模型的图像匹配方法
技术领域
本发明属于计算机视觉和数字图像处理技术领域,涉及图像匹配技术,具体涉及一种基于图像深度语义对齐网络模型建立相似图像中主要目标物体的准确对应匹配关系的方法。
背景技术
图像语义对齐旨在图像间建立相似目标物体的准确对应关系,即,不同图像中相似目标物体间点对点的特征匹配关系。具体场景是指在图像内容信息相同或者相似的前提下,利用图像的特征信息,分析并量化特征之间的相似度,进而确定图像中相似物体上特征点的匹配关系。该问题是计算机视觉中的一个基本问题,在目标跟踪、图像语义分割、多视点三维重建等领域有着广泛的应用。
语义对齐近年来受到广泛关注。早期的研究包括通过定义和计算稀疏或密集描述子来寻找实例级匹配的方法[5]。然而,这些方法的实例级描述缺乏类别级对应的泛化能力。类别级对应的目的是在语义相似的图像之间找到密集的对应关系。一些方法使用局部描述子并最小化投入的匹配能量。而人工构建的描述子很难嵌入高级语义特征,并对图像变化很敏感。
受卷积神经网络(CNN)特征丰富的高级语义的启发,最近的解决方案(参考文献[2],[4],[6],[7],[8])采用训练CNN特征并将其结合,来估计稠密流场,从而对齐图像。此外参考文献[1],[3],[9],[10]中采用的方法是估计具有可训练CNN特征的几何变换,并将语义对应表述为几何对齐问题。得益于描述稠密对应的几何变换,其中一些方法的性能优于基于稠密流的方法,并产生了更平滑的匹配结果。
尽管现有方法取得了很大的进展,但语义对齐问题仍面临着一些挑战,如由物体变化(如外观、尺度、形状、位置)和复杂背景导致的对齐困难。具体地,首先,由于目标位置差异较大,很难直接建立图像间的密集对应关系,效果不佳(如图1所示)。由于处理此类情况的研究不够,以前的方法往往无法对齐此类图像。其次,是数据标注方面的困难,即很难收集到大量的具有地面真实稠密对应和显著外观变换的训练图像对。手工注释这样的训练数据是非常耗费人力并且带有一定的主观性。
参考文献:
[1]Ignacio Rocco,Relja Arandjelovic,and Josef Sivic,“Convolutionalneural network architecture for geometric matching,”inCVPR,2017.
[2]Kai Han,Rafael S Rezende,Bumsub Ham,Kwan-Yee K Wong,Minsu Cho,Cordelia Schmid,and Jean Ponce,“Scnet:Learning semantic correspondence,”inICCV,2017.
[3]Ignacio Rocco,Relja
Figure BDA0003062597440000021
and Josef Sivic,“End-to-end weakly-supervised semantic alignment,”in CVPR,2018.
[4]Junghyup Lee,Dohyung Kim,Jean Ponce,and Bumsub Ham,“Sfnet:Learningobject-aware semantic correspondence,”in CVPR,2019.
[5]David G Lowe,“Distinctive image features from scale-invariantkeypoints,”IJCV,vol.60,no.2,2004.
[6]Ce Liu,Jenny Yuen,and Antonio Torralba,“Sift flow:Densecorrespondence across scenes and its applications,”IEEE TPAMI,vol.33,no.5,2010.
[7]Bumsub Ham,Minsu Cho,Cordelia Schmid,and Jean Ponce,“Proposalflow:Semantic correspondences from object proposals,”IEEETPAMI,vol.40,no.7,2017.
[8]Seungryong Kim,Dongbo Min,Bumsub Ham,Sangryul Jeon,Stephen Lin,andKwanghoon Sohn,“Fcss:Fully convolutional self-similarity for dense semanticcorrespondence,”in CVPR,2017.
[9]Paul Hongsuck Seo,Jongmin Lee,Deunsol Jung,Bohyung Han,and MinsuCho,“Attentive semantic alignment with offset-aware correlation kernels,”inECCV,2018.
[10]Ignacio Rocco,Mircea Cimpoi,Relja
Figure BDA0003062597440000022
Akihiko Torii,TomasPajdla,and Josef Sivic,“Neighbourhood consensus net-works,”in NIPS,2018.
发明内容
为了克服上述现有技术的不足,本发明提供一种基于深度语义对齐网络模型的图像匹配方法,通过建立一个对象位置感知的语义对齐网络并采用三重采样策略训练该网络,以分层建立和优化图像之间的对齐关系,解决现有技术难以直接建立图像间的密集对应关系以及图像数据标注费时费力且准确度低的技术问题,提高图像匹配的准确度。
本发明中的图像语义对齐技术是图像匹配或图像特征匹配领域中的子问题,它主要针对的场景为:待匹配的两个图像虽不相同,但均包含了一个相似的前景目标,即,前景目标的外观、形状、姿态等高层语义信息是相似的,而且该目标基本属于同一类别,如不同品牌的轿车。
本发明提供的技术方案是:
一种基于深度语义对齐网络模型的图像匹配方法,通过建立一个对象位置感知的语义对齐网络模型——OLASA,逐步、鲁棒地估计两个语义相似图像之间的对齐;同时,提出了一种三重采样策略训练该网络,通过三个子网络(潜在对象协同定位(POCL)、仿射变换回归(ATR)、双向薄板样条回归(TTPS))分别估计平移、仿射变换和样条变换,进而以分层建立和优化图像之间的对齐关系,得到图像匹配结果;包括如下步骤:
步骤1、提取图像语义特征;
本方法中,每个子网络的前端采用一个独立的卷积神经网络(CNN)用来提取图像的特征。具体实施时,本发明采用一个卷积神经网络(CNN)提取两个图像的特征,该网络可以是最基本的CNN网络,也可以是改进或增强后的CNN网络。
Figure BDA0003062597440000031
式(1)中,F为从图像中提取的特征,
Figure BDA0003062597440000032
为特征的数据空间(实数),h,w,d分别表示特征数据空间的三个维度,即高、宽、通道数;
Figure BDA0003062597440000033
为卷积神经网络(CNN);I为图像;
Figure BDA0003062597440000034
为图像的数据空间(实数),H,W,D分别表示图像数据空间的三个维度,即高、宽、通道数。
将一对图像
Figure BDA0003062597440000035
作为
Figure BDA0003062597440000036
的输入,分别提取得到的两组特征
Figure BDA0003062597440000037
Figure BDA0003062597440000038
Is,It分别为源图像和目标图像;Fs,Ft分别为源图像语义特征和目标图像语义特征。
本发明建立一个对象位置感知的语义对齐网络模型——OLASA,逐步、鲁棒地估计两个语义相似图像之间的对齐。OLASA的系统架构也是以POCL、ATR、TTPS三个子网络为主体,分别命名为Ntran,Naffi和Nttps,分别用于估计偏移、仿射及TTPS变换,记作Ttran,Taffi和Tttps,如图3所示。通过变换模型Ttran,Taffi和Tttps可获得源图像在各阶段的变换结果
Figure BDA0003062597440000039
Figure BDA00030625974400000310
最终利用这些变换模型的连续变换IH,即
Figure BDA00030625974400000311
获得源图像Is与目标图像It的对齐结果
Figure BDA00030625974400000312
建立一个对象位置感知的语义对齐网络模型包括步骤2~4。
步骤2、采用潜在对象协同定位子网络(Ntran)估计图像间目标物体的偏移,消除待匹配对象的位置偏差;
针对图像间相似目标物体往往存在显著位移的问题,Ntran子网络采用潜在目标位置检测与估计技术,先行预测一个偏移变换模型,并通过对源图像的变换消除其在大跨度上的影响。
潜在对象协同定位子网络表示为
Figure BDA00030625974400000313
将源图像的特征Fs和目标图像的特征Ft作为输入,通过分类目标检测方法估测潜在目标,根据潜在对象位置,训练协同定位子网络
Figure BDA0003062597440000041
进而实现Is和It间的初步变换的估计
Figure BDA0003062597440000042
表示如下:
Figure BDA0003062597440000043
式中,
Figure BDA0003062597440000044
为潜在对象协同定位子网络;
Figure BDA0003062597440000045
为Is和It间的初步变换(偏移变换)的估计;
Figure BDA0003062597440000046
的自由度为4;(x,y)表示目标图像的空间坐标,(x′,y′)表示源图像中对应的采样坐标。
为了估计偏移变换模型
Figure BDA0003062597440000047
需要先估测待匹配对象的位置,为此,可采用现有的分类目标检测技术,估计得到其大致位置;
进一步定位Is和It中两个主要且语义相关的对象;再利用另一个特征提取模块,如CNN,
Figure BDA0003062597440000048
来提取对应的特征描述子{Vs i}和{Vt j},其中,i,j分别表示源图像和目标图像中的特征点的序号;
将描述子{Vs i}和{Vt j}堆叠(stack)为特征矩阵
Figure BDA0003062597440000049
Figure BDA00030625974400000410
Figure BDA00030625974400000411
通过两个特征矩阵相乘计算语义相似性矩阵,
Figure BDA00030625974400000412
选取Zst中最高相似度得分的若干特征对组成相似特征对组,并以它们在源图像和目标图像中分别代表的特征点组计算相应的两个区域,作为两个主要的潜在对象,并计算其对应的边框坐标,即空间位置;
最后,利用定位得到两个主要的潜在对象对应的边框的空间坐标,计算出位置偏移变换模型
Figure BDA00030625974400000413
源图像Is通过
Figure BDA00030625974400000414
变换为位置偏移后的图像
Figure BDA00030625974400000415
步骤3、构建仿射变换回归子网络Naffi,利用仿射变换回归子网络估计待匹配图像的仿射变换模型
Figure BDA00030625974400000416
得到仿射变换参数估计;
ATR子网络用于估计经过偏移调整后的图像与目标图像的仿射变换模型。ATR子网络需将图像特征构造成对,即特征对,并计算特征对的相关度,据此估计仿射变换模型的参数。
具体实施时,将经位置偏移变换的图像
Figure BDA00030625974400000417
和目标图像It的特征Fs 1和Ft组成特征对,计算这些特征对相关度
Figure BDA00030625974400000418
即4D相关度张量
Figure BDA00030625974400000419
该张量的每个元素
Figure BDA00030625974400000420
记录两个局部特征向量
Figure BDA00030625974400000421
间的内积。特征向量和相关度张量是L2归一化的。将相关度张量
Figure BDA00030625974400000422
输入
Figure BDA00030625974400000423
进行
Figure BDA00030625974400000424
和It间的仿射变换模型估计
Figure BDA00030625974400000425
Figure BDA0003062597440000051
其中,仿射变换模型
Figure BDA0003062597440000052
的自由度是6,即需要估计6个仿射变换参数。图像
Figure BDA0003062597440000053
通过该模型可被进一步变换为
Figure BDA0003062597440000054
经过仿射变换后得到的
Figure BDA0003062597440000055
与It完成了进一步的对齐。
步骤4、构建双向薄板样条回归子网络Nttps,使用双向薄板样条回归子网络优化对齐效果;
TTPS子网络Nttps利用控制点在仿射变换后的图像和目标图像之间估计一个回归变换模型,该模型可进一步改善或增强图像的语义对齐效果。TTPS采用双向策略避免图像的过度扭曲或失真。比现有的薄板样条回归TPS方法增加从图像It到图像
Figure BDA0003062597440000056
反方向的控制点调整,有效地去除过度形变,改善匹配失真的情况。
具体实施时,在图像
Figure BDA0003062597440000057
和It上设置一个控制点网格,TTPS子网络以图像
Figure BDA0003062597440000058
和It的特征
Figure BDA00030625974400000523
和Ft特征对的相关度张量作为计算对象,即4D相关度张量
Figure BDA0003062597440000059
用TTPS回归子网络
Figure BDA00030625974400000510
估计回归变形模型
Figure BDA00030625974400000511
的过程可表示为:
Figure BDA00030625974400000512
其中,
Figure BDA00030625974400000513
根据
Figure BDA00030625974400000524
和Ft中控制点对的相关度计算得到,回归变形模型
Figure BDA00030625974400000514
的估计结果通过计算其中的6个变换权重参数来得到。根据所估计的
Figure BDA00030625974400000515
回归变换模型,可将
Figure BDA00030625974400000516
进一步变换为
Figure BDA00030625974400000517
进而可实现源图像与目标图像It的对齐。
步骤5、联合训练包括三个子网络的整体OLASA网络模型;
在训练样本的选择方面,本发明通过引入参考图像提出了三元组方法,该方法可以更好地捕获训练数据中的几何变化和外观变化。
步骤51、本发明提出了三重抽样策略来生成训练数据。每个三元组包含源图像Is、参考图像Ir、和目标图像It。其中,从Is中通过随机几何变换
Figure BDA00030625974400000518
Figure BDA00030625974400000519
生成的参考图像Ir
步骤52、设计三个损失函数来实现OLASA的优化,包括传递性损失、一致性损失和对齐损失。
传递损失函数
Figure BDA00030625974400000520
用于度量所预测变换模型的准确度。为检验所预测的变换模型是否准确,可将该模型的变换结果与为达成相同变换目的的另一变换途径的变换结果做对比;另一种变换途径具体可采用通过两种变换模型的组合的间接式变换途径;间接式变换途径实现与只采用一种变换模型的直接式变换途径相同变换目的,即待检测的变换模型的变换目标相同。
以检验某个仿射变换
Figure BDA00030625974400000521
为例,如果将一个
Figure BDA00030625974400000522
(从源图像到参考图像的仿射变换)作为所预测的变换模型,要检验其是否准确,可先找出另外一个可以实现统一变换目的的间接变换途径如两个变换模型的组合
Figure BDA0003062597440000061
即通过组合
Figure BDA0003062597440000062
(从源图像到目标图像的仿射变换)和
Figure BDA0003062597440000063
(从目标图像到参考图像的仿射变换)两个相关的连续变换来模拟
Figure BDA0003062597440000064
变换,通过对比两个途径得到的变换结果的差异度来判断从源图像到参考图像的变换
Figure BDA0003062597440000065
的准确程度。其具体实现可借助由图像中有选择的像素点组成的网格,如对图像在水平和竖直方向进行二十份的划分,可得到网格G(|G|=20×20)包含了400个点,G中的一个点以(x,y)表示,初始网格可以构造在Is上。按前文所述,通过
Figure BDA0003062597440000066
Figure BDA0003062597440000067
来判断
Figure BDA0003062597440000068
准确度的实现方法,就可转为基于网格点的具体计算,即,
Figure BDA0003062597440000069
理论上,通过
Figure BDA00030625974400000610
的重投影应该与
Figure BDA00030625974400000611
连续变形后的投影点对齐,而在与真实数据的对比下,即
Figure BDA00030625974400000612
(根据标注数据计算得到,而非预测的,源图像到目标图像的仿射变换)与
Figure BDA00030625974400000613
差异就被作为机器学习方法所依据的误差损失,所以,传递损失函数
Figure BDA00030625974400000614
可表示为:
Figure BDA00030625974400000615
其中,上述变换涉及了源图像、目标图像和参考图像三类对象,为此,我们将其组建成用于训练相关模型的三元组,即一条训练数据需由一副源图像、一副目标图像和一副参考图像构成。该方法亦可看成在传统的训练对(源图像、目标图像)基础上增加了一副相应参考图像。相关的损失计算有可能同时计算三种变换,每种变换会涉及三元组中的某个图对(两图属于不同图像类型),例如,仿射变换回归子网络
Figure BDA00030625974400000616
估计了三元样本的
Figure BDA00030625974400000617
(源图像与目标图像)和
Figure BDA00030625974400000618
(目标图像与参考图像)仿射变换模型。
类似地,本方法中也将传递损失
Figure BDA00030625974400000619
用于样条回归
Figure BDA00030625974400000620
的差异分析。
一致性损失函数
Figure BDA00030625974400000621
一致性损失
Figure BDA00030625974400000622
定义为:一致性损失函数
Figure BDA00030625974400000623
定义为:由源图像、目标图像和参考图像构成的三元样本中,网格G中一个点在不同图像对之间的双向重投影误差的累计,构成一致性损失函数
Figure BDA00030625974400000624
用于表示仿射变换
Figure BDA00030625974400000625
和样条回归
Figure BDA00030625974400000626
的差异;
给定一个图像Is和It间仿射变换
Figure BDA00030625974400000627
和对应的逆变换
Figure BDA00030625974400000628
时,对比其双向变换的结果,点(x,y)∈G应与原始空间的坐标对齐,即,
Figure BDA00030625974400000629
因此,网格G中一个点在源图像-目标图像对之间的重投影误差可通过以下公式计算得到:
Figure BDA00030625974400000630
其中,ε(Is,It)为源图像-目标图像对之间的重投影误差。
在由源图像、目标图像和参考图像构成的三元样本中,还有其他图像对也包含了双向重投影误差,将其全部累计起来,就可以作为本方法的一致性损失函数
Figure BDA0003062597440000071
Figure BDA0003062597440000072
类似地,本方法中也将一致性损失
Figure BDA0003062597440000073
用于样条回归
Figure BDA0003062597440000074
的差异分析。
对齐损失函数
Figure BDA0003062597440000075
基于文献[3]中的软内联计数(Soft-inlier Count)和双向测量对齐质量设计,用于评估
Figure BDA0003062597440000076
Figure BDA0003062597440000077
的质量,可进一步优化对齐精度。
Figure BDA0003062597440000078
计算公式如下:
Figure BDA0003062597440000079
其中cst表示通过对齐Is到It的软内联计数,类似地,cts表示对齐It到Is的软内联计数。
步骤6、获得图像匹配结果;
依据联合训练的整体网络,可针对给定待匹配图像对,给出源图像到目标图像的对齐结果。
具体通过包含三个子网络的整体网络进行学习训练,本方法可以根据训练数据样本得到图像对齐的变换模型,即得到训练好的对象位置感知的语义对齐网络模型OLASA。在测试阶段,即可针对给定的待匹配图像对,计算出源图像到目标图像的匹配图像结果。
与现有技术相比,本发明的有益效果:
本发明提供一种基于深度语义对齐网络模型的图像匹配方法,包括潜在对象协同定位(POCL)、仿射变换回归(ATR)、双向薄板样条回归(TTPS)三个子网络,其中POCL可有效地感知潜在对象的偏移,ATR可学到几何形变的参数,TTPS可提高变形的鲁棒性,三个子网络的联合学习不仅可以实现图像的语义对齐,而且能够获得更高准确率的图像匹配效果。利用本发明提供的技术方案,可以提高位置差异较大的图像对齐效果。同时,可以在标注数据缺乏的场景中,借助生成参考图像,更深入地挖掘和利用现有数据中的几何变化和外观变化,提高图像匹配的准确度。本发明可应用于计算机视觉领域的多种任务中,如目标跟踪、语义分割和多视点三维重建等。
附图说明
图1为图像匹配中图像中物体对象位置感知语义对齐的示意图;
其中,Is表示源图像;It表示目标图像。
图2为本发明建立的OLASA网络模型进行图像匹配的方法流程框图;
图3为本发明建立的2-2为OLASA网络模型的结构框图;
其中,Is为源图像,It为目标图像,
Figure BDA0003062597440000081
分别为各阶段变换的结果。
Figure BDA0003062597440000082
为特征提取网络,Ntran为潜在对象协同定位(POCL)子网络,Ttran为相应的变换模型,Naffi为仿射变换回归(ATR)子网络,Taffi为相应的变换模型,Nttps为双向薄板样条回归(TTPS)子网络,Tttps为相应的变换模型。
图4为本发明中OLASA网络模型的训练三元组及相关变换模型示意图;
其中,(a)为源图像Is生成参考图像Ir;(b)为三元组之间的各种变换。
Figure BDA0003062597440000083
分别表示从源图像到参考图像的仿射变换模型和双向薄板样条回归模型,作为比较的基准(Groundtruth),
Figure BDA0003062597440000084
分别表示从源图像到目标图像的仿射变换模型和双向薄板样条回归模型,
Figure BDA0003062597440000085
则表示相应的反向变换的两个模型;
Figure BDA0003062597440000086
分别表示从目标图像到参考图像的仿射变换模型和双向薄板样条回归模型,
Figure BDA0003062597440000087
则表示相应的反向变换的两个模型。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明所提出基于深度语义对齐网络模型的图像匹配方法是一个基于语义对齐的深度神经网络模型OLASA,该模型方法的输入是源图像、目标图像和参考图像,OLASA通过对源图像和目标图像的深度语义分析,依据其内在对齐关系估计出对源图像的变形参数,经过变形的后源图像即为本方法的输出结果,其所含的目标物体可以匹配到目标图像中相应物体上。OLASA的内部实现是通过三个子网络的联合学习:三个子网络,潜在对象协同定位(POCL)、仿射变换回归(ATR)、双向薄板样条回归(TTPS)而达到有效进行图像匹配的目的。
图2所示为本发明建立的OLASA网络模型进行图像匹配的方法流程。本发明方法可用于任何给定的图像对(即源图像、目标图像),源图像和目标图像组成的图像对可以通过拍摄或网络下载等方式获取。采用图像数据集如PF-WILLOW[11],PF-PASCAL(文献[11]:Bumsub Ham,Minsu Cho,Cordelia Schmid,and Jean Ponce,“Proposal flow,”in CVPR,2016.)和Caltech-101(文献[12]:Li Fei-Fei,Rob Fergus,and Pietro Perona,“One-shot learning of object categories,”IEEE TPAMI,vol.28,no.4,2006.)等均可。参考图像采用本发明方法在执行过程中根据源图像计算得到。本发明方法的具体实现步骤如下。
步骤1、图像语义特征提取
OLASA接收源图像、目标图像和参考图像后,首先要提取其特征。即,将待匹配的一对图像(源图像和目标图像,可采用图像库中的图像或拍摄得到)
Figure BDA0003062597440000091
作为输入,本方法采用一个卷积神经网络(CNN)提取两个图像的特征,该网络可以是最基本的CNN网络,也可以是改进或增强后的CNN网络,不是一般性,本文中称其为
Figure BDA0003062597440000092
所提取的两组特征命名为
Figure BDA0003062597440000093
这些语义特征将用于后续子网络的学习过程。
Figure BDA0003062597440000094
步骤2、采用潜在对象协同定位(POCL)子网络估计偏移
在实际情况中,源图像和目标图像中要做匹配的对象往往分别位于各自图像中的不同位置,即,待匹配对象之间往往存在较大的位置差异。现有方法往往只处理几乎处于同一位置的待匹配对象,而对上述存在较大位置差异的情况很少采取专门的处理方法,从而导致了很多方法的实际应用难以取得理想的匹配效果。本发明针对该问题,在实现图像匹配的第一阶段就采用一个预处理网络,潜在对象协同定位子网络(POCL)来消除待匹配对象的位置偏差。
该子网络定义为
Figure BDA0003062597440000095
Figure BDA0003062597440000096
将源图像和目标图像的特征Fs和Ft作为输入,通过分类目标检测技术估测潜在目标,根据潜在对象位置,训练协同定位子网络
Figure BDA0003062597440000097
进而实现Is和It间的初步变换
Figure BDA0003062597440000098
的估计。
Figure BDA0003062597440000099
其中,
Figure BDA00030625974400000910
的自由度为4,这里的(x,y)表示目标图像的空间坐标,(x′,y′)表示源图像中对应的采样坐标。
为了估计偏移变换模型
Figure BDA00030625974400000911
需要先估测待匹配对象的位置,为此,可采用现有的分类目标检测技术,具体地,如常用的目标检测网络——Faster R-CNN[12]等。需要说明的是在此阶段采用目标检测技术并非是要得到精确的目标检测结果,而只是为了获取潜在对象的大致位置信息,以实现协同定位,因此目标检测技术在这里的用法有所不同。具体地,
Figure BDA00030625974400000912
基于图像特征Fs和Ft只需预测两组潜在对象边框
Figure BDA00030625974400000913
Figure BDA00030625974400000914
(i=1,…,ns,j=1,…,nt),
Figure BDA0003062597440000101
分别描述了图像Is和It中第ith和jth个潜在边框,可用左上角和右下角的坐标记录,ns和nt分别表示Is和It中的边框数量。再次说明,这些边框也无需是精确的对象边框,只是其近似或可能边框即可,在本现阶段旨在估计其大致位置。
为了进一步定位Is和It中两个主要且语义相关的对象,我们通过潜在边框
Figure BDA0003062597440000102
Figure BDA0003062597440000103
从图像中裁剪潜在对象,并将它们的尺寸调整为H×W。然后再利用另一个特征提取模块,如CNN,
Figure BDA0003062597440000104
来提取对应于源图像和目标图像的特征映射{Vs i}和{Vt j}。之后,我们将描述子{Vs i}和{Vt j}堆叠(stack)为特征矩阵
Figure BDA0003062597440000105
Figure BDA0003062597440000106
这样,就可以通过两个特征矩阵相乘计算语义相似性矩阵,
Figure BDA0003062597440000107
Figure BDA0003062597440000108
其中,关注Zst中最高相似度得分的组成项目,即选取两个对应的边框
Figure BDA0003062597440000109
Figure BDA00030625974400001010
从而分别定位两个主要的潜在对象。最后,利用
Figure BDA00030625974400001011
Figure BDA00030625974400001012
的空间坐标就可以计算出位置偏移变换模型
Figure BDA00030625974400001013
源图像Is通过
Figure BDA00030625974400001014
变换为位置偏移后的图像
Figure BDA00030625974400001015
POCL仅用来捕获潜在对象位置偏差,并在位置偏差较大时,能够通过位置偏移变换实现相应的位置调整,但POCL还不能实现精准的语义对齐。
步骤3、利用仿射变换回归(ATR)子网络估计仿射变换模型
OLASA通过更为精准的仿射变换回归(ATR)子网络
Figure BDA00030625974400001016
估计待匹配图像的仿射变换模型
Figure BDA00030625974400001017
现有的类似ATR功能的子网络[11]亦可用来估计仿射变换。为获得更好效果,本方法基于张量有效性的研究[1],[3],将图像
Figure BDA00030625974400001018
和It的特征Fs 1和Ft组成特征对,计算这些特征对相关度,即,4D相关度张量
Figure BDA00030625974400001019
该张量的每个元素
Figure BDA00030625974400001020
记录两个局部特征向量
Figure BDA00030625974400001021
间的内积。特征向量和相关度张量是L2归一化的。相关度张量
Figure BDA00030625974400001022
被输入
Figure BDA00030625974400001023
以估计
Figure BDA00030625974400001024
和It间的仿射变换模型
Figure BDA00030625974400001025
Figure BDA00030625974400001026
其中,仿射变换模型
Figure BDA00030625974400001027
的自由度是6,即需要估计的6个仿射变换参数。图像
Figure BDA00030625974400001028
通过该模型可被进一步变换为
Figure BDA00030625974400001029
经过了仿射变换后的
Figure BDA00030625974400001030
与It完成了进一步的与其对齐。
步骤4、使用双向薄板样条回归(TTPS)子网络优化对齐效果
利用控制点网络可以进一步改善或增强图像的语义对齐效果。具体地,通过使用双向薄板样条回归(TTPS)子网络进一步在图像
Figure BDA00030625974400001031
和It之间估计一个回归变换模型
Figure BDA00030625974400001032
并以此模型来优化图像
Figure BDA00030625974400001033
和It间的语义对齐。实际上,现有的薄板样条回归TPS的现有方法,如[13]等,亦可实现本项功能,但TPS是单向的,所依赖的控制点是固定的,效果相应地会受到影响,如,在一些局部范围内会产生过度扭曲,导致较大的物体失真。本发明设计了TTPS,同样是针对一组已知的对应控制点执行回归预测,结合一种简单示例,即在图像
Figure BDA0003062597440000111
和It上设置一个统一的3×3的控制点网格。但与TPS不同的是,TTPS是双向的,增加从图像It到图像
Figure BDA0003062597440000112
反方向的控制点调整,相对于TPS而言TTPS将两个图像中控制点视为可移动的,因此TTPS可以有效地去除过度形变,改善匹配失真的情况。在具体实现上,TTPS以图像
Figure BDA0003062597440000113
和It的特征
Figure BDA00030625974400001120
和Ft特征对的相关度张量作为计算对象,即4D相关度张量
Figure BDA0003062597440000114
Figure BDA0003062597440000115
以更为准确地捕捉物体形变的细节。用TTPS回归子网络
Figure BDA0003062597440000116
估计回归变形模型
Figure BDA0003062597440000117
的过程在形式上可表示为:
Figure BDA0003062597440000118
类似地,
Figure BDA0003062597440000119
是根据特
Figure BDA00030625974400001121
和Ft中控制点对的相关度计算得到,回归变形模型
Figure BDA00030625974400001110
的估计结果通过计算其中的6个变换权重参数来得到。根据所估计的
Figure BDA00030625974400001111
回归变换模型,可将
Figure BDA00030625974400001112
进一步变换为
Figure BDA00030625974400001113
进而可实现源图像与目标图像It的对齐。
步骤5、整体网络的联合训练
上述三个子网络的连续变换,实现了一种从粗到细的匹配原则,图像对Is和It的语义对齐可以完整地描述为三个变换模型联立的结果,即
Figure BDA00030625974400001114
其中,
Figure BDA00030625974400001115
表示几何变换的组成。不仅如此,作为一个整体网络,三个子网络需要前后贯通,具体操作方法就是作为一个完整网络进行联合训练。
传统方法在训练该网络时通常使用图像对作为训练样本,与之不同,对于OLASA的训练,我们通过引入参考图像,提出了三重抽样策略来生成训练数据。每个三元组包含源图像Is、参考图像Ir、和目标图像It。其中,从Is中通过随机几何变换
Figure BDA00030625974400001116
Figure BDA00030625974400001117
生成的参考图像Ir,如图4中的(a)所示。传统方法所用组合对包含很少的外观变化,三重抽样策略可以同时捕获训练数据中的几何和外观变化,换言之,该三元组不仅丰富了原图像对的外观变化,而且也为差异较大的源图像和目标图像提供了有力的过渡信息。在具体计算过程中,三元组的引入丰富了此前提出的转换模型,在图4中的(b)中分别用虚线和实线分开表示:1)仍需要估计的模型,如与原来的仿射回归变换或样条回归变换类似,只是模型数量在细分后有所增加,如虚箭头表示的
Figure BDA00030625974400001118
等,2)由于参考图是生成结果,其已知的变换即可作为真实的标注数据,因此其有关变换用实箭头表示,如
Figure BDA00030625974400001119
为实现整体模型的训练目标,我们设计了三个损失函数来实现OLASA的优化,包括传递性损失、一致性损失和对齐损失。
传递损失。在三重样本上,我们根据几何变换的传递性和网络MSE设计了传递损失
Figure BDA0003062597440000121
以仿射变换
Figure BDA0003062597440000122
为例,可以通过合并另外两个相关的连续变换
Figure BDA0003062597440000123
Figure BDA0003062597440000124
来推断从源图像到参考图像的变换
Figure BDA0003062597440000125
即,
Figure BDA0003062597440000126
(x,y)表示构造在Is上一致网格G中的一个点(x,y)通过
Figure BDA0003062597440000127
的重投影应该与
Figure BDA0003062597440000128
连续变形后的投影点对齐。其中,仿射变换回归子网络
Figure BDA0003062597440000129
估计了三元样本的
Figure BDA00030625974400001210
Figure BDA00030625974400001211
网格G(|G|=20×20)可分别由
Figure BDA00030625974400001212
Figure BDA00030625974400001213
变换。我们用损失函数
Figure BDA00030625974400001214
即传递损失,来度量仿射变换前后两个网格间的差异。
Figure BDA00030625974400001215
类似地,本方法中也将传递损失
Figure BDA00030625974400001216
用于样条回归
Figure BDA00030625974400001217
的差异分析。
一致性损失。几何变换中的一致性是从图像到图像变换中使用的循环一致性拓展得到的,可作为传递损失的补充。我们设计的一致性损失
Figure BDA00030625974400001218
定义为:给定一个图像Is和It间仿射变换
Figure BDA00030625974400001219
和对应的逆变换
Figure BDA00030625974400001220
时,对比其双向变换的结果,点(x,y)∈G应与原始空间的坐标对齐,即,
Figure BDA00030625974400001221
因此,网格G中一个点在源图像-目标图像对之间的重投影误差可通过以下公式计算得到,
Figure BDA00030625974400001222
在三元样本中,还有其他图像对也包含了双向重投影误差,将其全部累计起来,就可以作为本方法的一致性损失函数
Figure BDA00030625974400001223
Figure BDA00030625974400001224
类似地,本方法中也将一致性损失
Figure BDA00030625974400001225
用于样条回归
Figure BDA00030625974400001226
的差异分析。
对齐损失。对齐损失
Figure BDA00030625974400001227
用于评估
Figure BDA00030625974400001228
Figure BDA00030625974400001229
的质量,可进一步来优化对齐精度。
Figure BDA00030625974400001230
是基于文献[3]中的软内联计数(Soft-inlier Count)和双向测量对齐质量设计的,其计算公式如下:
Figure BDA00030625974400001231
其中cst表示通过对齐Is到It的软内联计数,类似地,cts表示对齐It到Is的软内联计数。
步骤6、匹配结果的获得
通过包含三个子网络在内的整体网络学习,本方法可以根据训练数据样本得到图像对齐的变换模型,在测试阶段,即可针对给定的待匹配图像对,计算出源图像到目标图像的匹配结果。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (7)

1.一种基于深度语义对齐网络模型的图像匹配方法,通过建立对象位置感知的语义对齐网络模型OLASA,逐步估计两个语义相似图像之间的对齐;采用三重采样策略训练网络模型OLASA,通过潜在对象协同定位POCL、仿射变换回归ATR、双向薄板样条回归TTPS三个子网络Ntran,Naffi和Nttps,分别估计平移、仿射变换和样条变换;再通过分层建立和优化图像之间的对齐关系,得到图像匹配结果;包括如下步骤:
步骤1、提取图像语义特征:将一对图像Is
Figure FDA0003062597430000011
作为卷积神经网络
Figure FDA0003062597430000012
的输入,分别提取得到的两组特征Fs
Figure FDA0003062597430000013
Is,It分别为源图像和目标图像;Fs,Ft分别为源图像语义特征和目标图像语义特征;
每个子网络的前端采用卷积神经网络CNN提取图像的特征,表示为式(1):
Figure FDA0003062597430000014
式(1)中,F为从图像中提取的特征;实数
Figure FDA0003062597430000015
为特征的数据空间;h、w、d分别表示特征数据空间的高、宽、通道数;
Figure FDA0003062597430000016
为卷积神经网络CNN;I为图像;实数
Figure FDA0003062597430000017
为图像的数据空间;H、W、D分别表示图像数据空间的高、宽、通道数;
建立对象位置感知的语义对齐网络模型OLASA,OLASA包括子网络Ntran,Naffi和Nttps,分别用于估计偏移、仿射及TTPS变换,记作Ttran,Taffi和Tttps;源图像通过变换获得各阶段的变换结果
Figure FDA0003062597430000018
Figure FDA0003062597430000019
最终通过连续变换TH获得源图像Is与目标图像It的对齐结果
Figure FDA00030625974300000110
其中
Figure FDA00030625974300000111
建立对象位置感知的语义对齐网络模型OLASA包括步骤2~4:
步骤2、构建潜在对象协同定位子网络Ntran,用于估计图像间目标物体的偏移,消除待匹配对象的位置偏差;
将源图像Fs和目标图像的特征Ft作为潜在对象协同定位子网络
Figure FDA00030625974300000112
的输入,根据潜在目标对象位置,训练子网络
Figure FDA00030625974300000113
进而实现Is和It间的初步变换的估计
Figure FDA00030625974300000114
表示如下:
Figure FDA00030625974300000115
Figure FDA00030625974300000116
式中,
Figure FDA00030625974300000117
为潜在对象协同定位子网络;
Figure FDA00030625974300000118
为Is和It间的初步变换即偏移变换的估计;(x,y)表示目标图像的空间坐标,(x′,y′)表示源图像中对应的采样坐标;
进一步定位Is和It中两个语义相关的对象,再提取对应的特征描述子{Vs i}和{Vt j},其中,i,j分别表示源图像和目标图像中的特征点的序号;
将描述子{Vs i}和{Vt j}堆叠为特征矩阵
Figure FDA00030625974300000119
Figure FDA00030625974300000120
通过两个特征矩阵相乘计算语义相似性矩阵:
Figure FDA0003062597430000021
选取Zst中最高相似度得分的多个特征对组成相似特征对组,并以其在源图像和目标图像中分别代表的特征点组计算相应的两个区域,作为两个主要的潜在对象,并计算对应的边框坐标,即空间位置;
再利用定位得到的潜在对象对应边框的空间坐标,计算出位置偏移变换模型
Figure FDA0003062597430000022
源图像Is通过
Figure FDA0003062597430000023
变换为位置偏移后的图像
Figure FDA0003062597430000024
步骤3、构建仿射变换回归子网络Naffi,利用仿射变换回归子网络估计待匹配图像的仿射变换模型
Figure FDA0003062597430000025
得到仿射变换参数估计;包括:
仿射变换回归子网络将图像特征
Figure FDA00030625974300000234
和Ft构造成特征对,计算特征对的相关度
Figure FDA0003062597430000026
并估计得到仿射变换模型的参数;
特征对相关度
Figure FDA0003062597430000027
即4D相关度张量,
Figure FDA0003062597430000028
该张量的每个元素
Figure FDA0003062597430000029
记录两个局部特征向量
Figure FDA00030625974300000235
Figure FDA00030625974300000210
间的内积;
特征向量和相关度张量是L2归一化的;将相关度张量
Figure FDA00030625974300000211
输入
Figure FDA00030625974300000212
根据式(3)进行
Figure FDA00030625974300000213
和It间的仿射变换模型估计
Figure FDA00030625974300000214
Figure FDA00030625974300000215
图像
Figure FDA00030625974300000216
通过式(3)进一步变换为
Figure FDA00030625974300000217
经过仿射变换后的
Figure FDA00030625974300000218
进一步与It对齐;
步骤4、构建双向薄板样条回归子网络Nttps;Nttps利用控制点在仿射变换后的图像和目标图像之间估计回归变换模型,进一步优化图像的语义对齐效果;
具体在图像
Figure FDA00030625974300000219
和It上设置控制点网格,以
Figure FDA00030625974300000233
和Ft特征对的相关度张量
Figure FDA00030625974300000220
为计算对象,采用
Figure FDA00030625974300000221
估计回归变形模型
Figure FDA00030625974300000222
的过程表示为式(4):
Figure FDA00030625974300000223
其中,
Figure FDA00030625974300000224
根据
Figure FDA00030625974300000225
和Ft中控制点对的相关度计算得到;通过计算6个变换权重参数得到回归变形模型
Figure FDA00030625974300000226
的估计结果;根据回归变换模型
Figure FDA00030625974300000227
Figure FDA00030625974300000228
进一步变换为
Figure FDA00030625974300000229
实现源图像与目标图像It的对齐;
步骤5、引入参考图像,采用三元组方法选择训练样本,联合训练网络模型OLASA;
步骤51、采用三重抽样策略方法生成训练数据;每个三元组包含源图像Is、参考图像Ir和目标图像It;从Is中通过随机几何变换
Figure FDA00030625974300000230
Figure FDA00030625974300000231
生成参考图像Ir
步骤52、设计三个损失函数实现OLASA的优化,包括传递性损失函数
Figure FDA00030625974300000232
一致性损失函数
Figure FDA0003062597430000031
和对齐损失函数
Figure FDA0003062597430000032
传递损失函数
Figure FDA0003062597430000033
用于度量所预测变换模型的准确度;将变换模型的变换结果与为达成相同变换目的的另一变换途径的变换结果的差作为传递损失;另一种变换途径具体采用通过两种变换模型的组合的间接式变换途径;间接式变换途径实现与只采用一种变换模型的直接式变换途径相同变换目的,即待检测的变换模型的变换目标相同;
一致性损失函数
Figure FDA0003062597430000034
定义为:由源图像、目标图像和参考图像构成的三元样本中,网格G中一个点在不同图像对之间的双向重投影误差的累计,构成一致性损失函数
Figure FDA0003062597430000035
用于表示仿射变换
Figure FDA0003062597430000036
和样条回归
Figure FDA0003062597430000037
的差异;
对齐损失函数
Figure FDA0003062597430000038
基于软内联计数和双向测量对齐质量设计,用于评估
Figure FDA0003062597430000039
Figure FDA00030625974300000310
的质量,进一步优化对齐精度;
Figure FDA00030625974300000311
通过式(8)计算得到:
Figure FDA00030625974300000312
其中,cst表示通过对齐Is到It的软内联计数;cts表示对齐It到Is的软内联计数;
步骤6、针对给定待匹配图像对,利用步骤5训练好的对象位置感知的语义对齐网络模型OLASA,得到源图像到目标图像的对齐结果,即获得图像匹配结果;
通过上述步骤,实现基于深度语义对齐网络模型的图像匹配。
2.如权利要求1所述基于深度语义对齐网络模型的图像匹配方法,其特征是,步骤2中,具体通过分类目标检测方法估测潜在目标,得到潜在目标对象的位置。
3.如权利要求1所述基于深度语义对齐网络模型的图像匹配方法,其特征是,步骤2中,进一步定位Is和It中两个语义相关的对象,再具体利用特征提取模块CNN,
Figure FDA00030625974300000313
提取得到对应的特征映射{Vs i}和{Vt j}。
4.如权利要求1所述基于深度语义对齐网络模型的图像匹配方法,其特征是,步骤3中,仿射变换模型
Figure FDA00030625974300000314
的自由度为6,估计6个仿射变换参数。
5.如权利要求1所述基于深度语义对齐网络模型的图像匹配方法,其特征是,步骤4中,双向薄板样条回归子网络采用双向策略,增加从图像It到图像
Figure FDA00030625974300000315
反方向的控制点调整,有效避免图像的过度扭曲或失真。
6.如权利要求1所述基于深度语义对齐网络模型的图像匹配方法,其特征是,步骤52中,对于仿射变换
Figure FDA00030625974300000316
图像Is中的像素点组成的网格G中的一个点以(x,y)表示,基于网格点计算
Figure FDA0003062597430000041
通过
Figure FDA0003062597430000042
Figure FDA0003062597430000043
判断
Figure FDA0003062597430000044
准确度,即将
Figure FDA0003062597430000045
Figure FDA0003062597430000046
Figure FDA0003062597430000047
的差异作为误差损失,传递损失函数
Figure FDA0003062597430000048
表示为式(5):
Figure FDA0003062597430000049
其中,
Figure FDA00030625974300000410
为源图像与目标图像的仿射变换模型;
Figure FDA00030625974300000411
为目标图像与参考图像的仿射变换模型;
Figure FDA00030625974300000412
为根据标注数据得到源图像到目标图像的仿射变换模型;
还可将传递损失函数用于样条回归
Figure FDA00030625974300000413
的差异分析。
7.如权利要求6所述基于深度语义对齐网络模型的图像匹配方法,其特征是,步骤52中,一致性损失函数
Figure FDA00030625974300000414
表示为式(7):
Figure FDA00030625974300000415
其中,ε(Is,It)为网格G中一个点在源图像-目标图像对之间的重投影误差,可通过式(6)计算得到:
Figure FDA00030625974300000416
其中,ε(Is,It)为源图像-目标图像对之间的重投影误差;
Figure FDA00030625974300000417
为图像Is和It间的仿射变换;
Figure FDA00030625974300000418
Figure FDA00030625974300000419
对应的逆变换;
还可将一致性损失
Figure FDA00030625974300000420
用于样条回归
Figure FDA00030625974300000421
的差异分析。
CN202110516741.5A 2021-05-12 2021-05-12 一种基于深度语义对齐网络模型的图像匹配方法 Active CN113313147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110516741.5A CN113313147B (zh) 2021-05-12 2021-05-12 一种基于深度语义对齐网络模型的图像匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110516741.5A CN113313147B (zh) 2021-05-12 2021-05-12 一种基于深度语义对齐网络模型的图像匹配方法

Publications (2)

Publication Number Publication Date
CN113313147A true CN113313147A (zh) 2021-08-27
CN113313147B CN113313147B (zh) 2023-10-20

Family

ID=77373055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110516741.5A Active CN113313147B (zh) 2021-05-12 2021-05-12 一种基于深度语义对齐网络模型的图像匹配方法

Country Status (1)

Country Link
CN (1) CN113313147B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111621508A (zh) * 2020-06-11 2020-09-04 云南中烟工业有限责任公司 烟草萜类合成酶NtTPS7基因及其载体与应用
CN115861393A (zh) * 2023-02-16 2023-03-28 中国科学技术大学 图像匹配方法、航天器着陆点定位方法及相关装置
CN116977652A (zh) * 2023-09-22 2023-10-31 之江实验室 基于多模态图像生成的工件表面形貌生成方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862707A (zh) * 2017-11-06 2018-03-30 深圳市唯特视科技有限公司 一种基于卢卡斯‑卡纳德图像对齐的图像配准方法
US20190371080A1 (en) * 2018-06-05 2019-12-05 Cristian SMINCHISESCU Image processing method, system and device
CN110580715A (zh) * 2019-08-06 2019-12-17 武汉大学 一种基于照度约束和格网变形的图像对齐方法
CN110909778A (zh) * 2019-11-12 2020-03-24 北京航空航天大学 一种基于几何一致性的图像语义特征匹配方法
CN112102303A (zh) * 2020-09-22 2020-12-18 中国科学技术大学 基于单图像生成对抗网络的语义图像类比方法
CN112634341A (zh) * 2020-12-24 2021-04-09 湖北工业大学 多视觉任务协同的深度估计模型的构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862707A (zh) * 2017-11-06 2018-03-30 深圳市唯特视科技有限公司 一种基于卢卡斯‑卡纳德图像对齐的图像配准方法
US20190371080A1 (en) * 2018-06-05 2019-12-05 Cristian SMINCHISESCU Image processing method, system and device
CN110580715A (zh) * 2019-08-06 2019-12-17 武汉大学 一种基于照度约束和格网变形的图像对齐方法
CN110909778A (zh) * 2019-11-12 2020-03-24 北京航空航天大学 一种基于几何一致性的图像语义特征匹配方法
CN112102303A (zh) * 2020-09-22 2020-12-18 中国科学技术大学 基于单图像生成对抗网络的语义图像类比方法
CN112634341A (zh) * 2020-12-24 2021-04-09 湖北工业大学 多视觉任务协同的深度估计模型的构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘岩;吕肖庆;秦叶阳;汤帜;徐剑波;: "尺度与颜色不变性图像特征描述", 小型微型计算机系统, no. 10, pages 187 - 192 *
廖明哲;吴谨;朱磊;: "基于ResNet和RF-Net的遥感影像匹配", 液晶与显示, no. 09, pages 91 - 99 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111621508A (zh) * 2020-06-11 2020-09-04 云南中烟工业有限责任公司 烟草萜类合成酶NtTPS7基因及其载体与应用
CN111621508B (zh) * 2020-06-11 2022-07-01 云南中烟工业有限责任公司 烟草萜类合成酶NtTPS7基因及其载体与应用
CN115861393A (zh) * 2023-02-16 2023-03-28 中国科学技术大学 图像匹配方法、航天器着陆点定位方法及相关装置
CN115861393B (zh) * 2023-02-16 2023-06-16 中国科学技术大学 图像匹配方法、航天器着陆点定位方法及相关装置
CN116977652A (zh) * 2023-09-22 2023-10-31 之江实验室 基于多模态图像生成的工件表面形貌生成方法和装置
CN116977652B (zh) * 2023-09-22 2023-12-22 之江实验室 基于多模态图像生成的工件表面形貌生成方法和装置

Also Published As

Publication number Publication date
CN113313147B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
Labbé et al. Cosypose: Consistent multi-view multi-object 6d pose estimation
US11763433B2 (en) Depth image generation method and device
CN113313147B (zh) 一种基于深度语义对齐网络模型的图像匹配方法
CN103700099B (zh) 一种旋转和尺度不变的宽基线立体匹配方法
CN111625667A (zh) 一种基于复杂背景图像的三维模型跨域检索方法及系统
CN113160285B (zh) 一种基于局部深度图像关键性的点云匹配方法
CN104517289A (zh) 一种基于混合摄像机的室内场景定位方法
Yi et al. Motion keypoint trajectory and covariance descriptor for human action recognition
CN110969648A (zh) 一种基于点云序列数据的3d目标跟踪方法及系统
CN110544202A (zh) 一种基于模板匹配与特征聚类的视差图像拼接方法及系统
CN111368733B (zh) 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端
He et al. Detector-free structure from motion
Shen et al. Semi-dense feature matching with transformers and its applications in multiple-view geometry
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN113988269A (zh) 一种基于改进孪生网络的回环检测及优化方法
Lee et al. Learning to distill convolutional features into compact local descriptors
Huang et al. Life: Lighting invariant flow estimation
Zhang et al. An automatic three-dimensional scene reconstruction system using crowdsourced Geo-tagged videos
CN110849380A (zh) 一种基于协同vslam的地图对齐方法及系统
CN115375746A (zh) 基于双重空间池化金字塔的立体匹配方法
CN114155406A (zh) 一种基于区域级特征融合的位姿估计方法
CN113762165A (zh) 一种嫌疑人识别追踪方法及系统
Xu et al. Improved HardNet and Stricter Outlier Filtering to Guide Reliable Matching.
Wang et al. Convolutional neural network-based recognition method for volleyball movements
Jung et al. Local feature extraction from salient regions by feature map transformation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant