CN113313147A

CN113313147A - 一种基于深度语义对齐网络模型的图像匹配方法

Info

Publication number: CN113313147A
Application number: CN202110516741.5A
Authority: CN
Inventors: 吕肖庆; 瞿经纬; 王天乐
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-08-27
Anticipated expiration: 2041-05-12
Also published as: CN113313147B

Abstract

本发明公布了一种基于深度语义对齐网络模型的图像匹配方法，通过建立对象位置感知的语义对齐网络模型OLASA，逐步估计两个语义相似图像之间的对齐；采用三重采样策略训练网络模型OLASA，通过潜在对象协同定位POCL、仿射变换回归ATR、双向薄板样条回归TTPS三个子网络N_tran，N_affi和N_ttps，分别估计平移、仿射变换和样条变换；再通过分层建立和优化图像之间的对齐关系，得到图像匹配结果。利用本发明提供的技术方案，可提高位置差异较大的图像对齐效果，提高图像匹配的准确度。本发明可应用于计算机视觉领域的目标跟踪、语义分割和多视点三维重建等应用中。

Description

一种基于深度语义对齐网络模型的图像匹配方法

技术领域

本发明属于计算机视觉和数字图像处理技术领域，涉及图像匹配技术，具体涉及一种基于图像深度语义对齐网络模型建立相似图像中主要目标物体的准确对应匹配关系的方法。

背景技术

图像语义对齐旨在图像间建立相似目标物体的准确对应关系，即，不同图像中相似目标物体间点对点的特征匹配关系。具体场景是指在图像内容信息相同或者相似的前提下，利用图像的特征信息，分析并量化特征之间的相似度，进而确定图像中相似物体上特征点的匹配关系。该问题是计算机视觉中的一个基本问题，在目标跟踪、图像语义分割、多视点三维重建等领域有着广泛的应用。

语义对齐近年来受到广泛关注。早期的研究包括通过定义和计算稀疏或密集描述子来寻找实例级匹配的方法[5]。然而，这些方法的实例级描述缺乏类别级对应的泛化能力。类别级对应的目的是在语义相似的图像之间找到密集的对应关系。一些方法使用局部描述子并最小化投入的匹配能量。而人工构建的描述子很难嵌入高级语义特征，并对图像变化很敏感。

受卷积神经网络(CNN)特征丰富的高级语义的启发，最近的解决方案(参考文献[2],[4],[6],[7],[8])采用训练CNN特征并将其结合，来估计稠密流场，从而对齐图像。此外参考文献[1],[3],[9],[10]中采用的方法是估计具有可训练CNN特征的几何变换，并将语义对应表述为几何对齐问题。得益于描述稠密对应的几何变换，其中一些方法的性能优于基于稠密流的方法，并产生了更平滑的匹配结果。

尽管现有方法取得了很大的进展，但语义对齐问题仍面临着一些挑战，如由物体变化(如外观、尺度、形状、位置)和复杂背景导致的对齐困难。具体地，首先，由于目标位置差异较大，很难直接建立图像间的密集对应关系，效果不佳(如图1所示)。由于处理此类情况的研究不够，以前的方法往往无法对齐此类图像。其次，是数据标注方面的困难，即很难收集到大量的具有地面真实稠密对应和显著外观变换的训练图像对。手工注释这样的训练数据是非常耗费人力并且带有一定的主观性。

参考文献：

[1]Ignacio Rocco,Relja Arandjelovic,and Josef Sivic,“Convolutionalneural network architecture for geometric matching,”inCVPR,2017.

[2]Kai Han,Rafael S Rezende,Bumsub Ham,Kwan-Yee K Wong,Minsu Cho,Cordelia Schmid,and Jean Ponce,“Scnet:Learning semantic correspondence,”inICCV,2017.

[3]Ignacio Rocco,Relja

and Josef Sivic,“End-to-end weakly-supervised semantic alignment,”in CVPR,2018.

[4]Junghyup Lee,Dohyung Kim,Jean Ponce,and Bumsub Ham,“Sfnet:Learningobject-aware semantic correspondence,”in CVPR,2019.

[5]David G Lowe,“Distinctive image features from scale-invariantkeypoints,”IJCV,vol.60,no.2,2004.

[6]Ce Liu,Jenny Yuen,and Antonio Torralba,“Sift flow:Densecorrespondence across scenes and its applications,”IEEE TPAMI,vol.33,no.5,2010.

[7]Bumsub Ham,Minsu Cho,Cordelia Schmid,and Jean Ponce,“Proposalflow:Semantic correspondences from object proposals,”IEEETPAMI,vol.40,no.7,2017.

[8]Seungryong Kim,Dongbo Min,Bumsub Ham,Sangryul Jeon,Stephen Lin,andKwanghoon Sohn,“Fcss:Fully convolutional self-similarity for dense semanticcorrespondence,”in CVPR,2017.

[9]Paul Hongsuck Seo,Jongmin Lee,Deunsol Jung,Bohyung Han,and MinsuCho,“Attentive semantic alignment with offset-aware correlation kernels,”inECCV,2018.

[10]Ignacio Rocco,Mircea Cimpoi,Relja

Akihiko Torii,TomasPajdla,and Josef Sivic,“Neighbourhood consensus net-works,”in NIPS,2018.

发明内容

为了克服上述现有技术的不足，本发明提供一种基于深度语义对齐网络模型的图像匹配方法，通过建立一个对象位置感知的语义对齐网络并采用三重采样策略训练该网络，以分层建立和优化图像之间的对齐关系，解决现有技术难以直接建立图像间的密集对应关系以及图像数据标注费时费力且准确度低的技术问题，提高图像匹配的准确度。

本发明中的图像语义对齐技术是图像匹配或图像特征匹配领域中的子问题，它主要针对的场景为：待匹配的两个图像虽不相同，但均包含了一个相似的前景目标，即，前景目标的外观、形状、姿态等高层语义信息是相似的，而且该目标基本属于同一类别，如不同品牌的轿车。

本发明提供的技术方案是：

一种基于深度语义对齐网络模型的图像匹配方法，通过建立一个对象位置感知的语义对齐网络模型——OLASA，逐步、鲁棒地估计两个语义相似图像之间的对齐；同时，提出了一种三重采样策略训练该网络，通过三个子网络(潜在对象协同定位(POCL)、仿射变换回归(ATR)、双向薄板样条回归(TTPS))分别估计平移、仿射变换和样条变换，进而以分层建立和优化图像之间的对齐关系，得到图像匹配结果；包括如下步骤：

步骤1、提取图像语义特征；

本方法中，每个子网络的前端采用一个独立的卷积神经网络(CNN)用来提取图像的特征。具体实施时，本发明采用一个卷积神经网络(CNN)提取两个图像的特征，该网络可以是最基本的CNN网络，也可以是改进或增强后的CNN网络。

式(1)中，F为从图像中提取的特征，

为特征的数据空间(实数)，h，w,d分别表示特征数据空间的三个维度，即高、宽、通道数；

为卷积神经网络(CNN)；I为图像；

为图像的数据空间(实数)，H，W,D分别表示图像数据空间的三个维度，即高、宽、通道数。

将一对图像

作为

的输入，分别提取得到的两组特征

I_s,I_t分别为源图像和目标图像；F_s,F_t分别为源图像语义特征和目标图像语义特征。

本发明建立一个对象位置感知的语义对齐网络模型——OLASA，逐步、鲁棒地估计两个语义相似图像之间的对齐。OLASA的系统架构也是以POCL、ATR、TTPS三个子网络为主体，分别命名为N_tran,N_affi和N_ttps，分别用于估计偏移、仿射及TTPS变换，记作T_tran,T_affi和T_ttps，如图3所示。通过变换模型T_tran,T_affi和T_ttps可获得源图像在各阶段的变换结果

和

最终利用这些变换模型的连续变换I_H，即

获得源图像I_s与目标图像I_t的对齐结果

建立一个对象位置感知的语义对齐网络模型包括步骤2～4。

步骤2、采用潜在对象协同定位子网络(N_tran)估计图像间目标物体的偏移，消除待匹配对象的位置偏差；

针对图像间相似目标物体往往存在显著位移的问题，N_tran子网络采用潜在目标位置检测与估计技术，先行预测一个偏移变换模型，并通过对源图像的变换消除其在大跨度上的影响。

潜在对象协同定位子网络表示为

将源图像的特征F_s和目标图像的特征F_t作为输入，通过分类目标检测方法估测潜在目标，根据潜在对象位置，训练协同定位子网络

进而实现I_s和I_t间的初步变换的估计

表示如下：

式中，

为潜在对象协同定位子网络；

为I_s和I_t间的初步变换(偏移变换)的估计；

的自由度为4；(x,y)表示目标图像的空间坐标，(x′,y′)表示源图像中对应的采样坐标。

为了估计偏移变换模型

需要先估测待匹配对象的位置，为此，可采用现有的分类目标检测技术，估计得到其大致位置；

进一步定位I_s和I_t中两个主要且语义相关的对象；再利用另一个特征提取模块，如CNN，

来提取对应的特征描述子{V_s ⁱ}和{V_t ^j}，其中，i，j分别表示源图像和目标图像中的特征点的序号；

将描述子{V_s ⁱ}和{V_t ^j}堆叠(stack)为特征矩阵

和

通过两个特征矩阵相乘计算语义相似性矩阵，

选取Z_st中最高相似度得分的若干特征对组成相似特征对组，并以它们在源图像和目标图像中分别代表的特征点组计算相应的两个区域，作为两个主要的潜在对象，并计算其对应的边框坐标，即空间位置；

最后，利用定位得到两个主要的潜在对象对应的边框的空间坐标，计算出位置偏移变换模型

源图像I_s通过

变换为位置偏移后的图像

步骤3、构建仿射变换回归子网络N_affi，利用仿射变换回归子网络估计待匹配图像的仿射变换模型

得到仿射变换参数估计；

ATR子网络用于估计经过偏移调整后的图像与目标图像的仿射变换模型。ATR子网络需将图像特征构造成对，即特征对，并计算特征对的相关度，据此估计仿射变换模型的参数。

具体实施时，将经位置偏移变换的图像

和目标图像I_t的特征F_s ¹和F_t组成特征对，计算这些特征对相关度

即4D相关度张量

该张量的每个元素

记录两个局部特征向量

间的内积。特征向量和相关度张量是L2归一化的。将相关度张量

输入

进行

和I_t间的仿射变换模型估计

其中，仿射变换模型

的自由度是6，即需要估计6个仿射变换参数。图像

通过该模型可被进一步变换为

经过仿射变换后得到的

与I_t完成了进一步的对齐。

步骤4、构建双向薄板样条回归子网络N_ttps，使用双向薄板样条回归子网络优化对齐效果；

TTPS子网络N_ttps利用控制点在仿射变换后的图像和目标图像之间估计一个回归变换模型，该模型可进一步改善或增强图像的语义对齐效果。TTPS采用双向策略避免图像的过度扭曲或失真。比现有的薄板样条回归TPS方法增加从图像I_t到图像

反方向的控制点调整，有效地去除过度形变，改善匹配失真的情况。

具体实施时，在图像

和I_t上设置一个控制点网格，TTPS子网络以图像

和I_t的特征

和F_t特征对的相关度张量作为计算对象，即4D相关度张量

用TTPS回归子网络

估计回归变形模型

的过程可表示为：

其中，

根据

和F_t中控制点对的相关度计算得到，回归变形模型

的估计结果通过计算其中的6个变换权重参数来得到。根据所估计的

回归变换模型，可将

进一步变换为

进而可实现源图像与目标图像I_t的对齐。

步骤5、联合训练包括三个子网络的整体OLASA网络模型；

在训练样本的选择方面，本发明通过引入参考图像提出了三元组方法，该方法可以更好地捕获训练数据中的几何变化和外观变化。

步骤51、本发明提出了三重抽样策略来生成训练数据。每个三元组包含源图像I_s、参考图像I_r、和目标图像I_t。其中，从I_s中通过随机几何变换

或

生成的参考图像I_r。

步骤52、设计三个损失函数来实现OLASA的优化，包括传递性损失、一致性损失和对齐损失。

传递损失函数

用于度量所预测变换模型的准确度。为检验所预测的变换模型是否准确，可将该模型的变换结果与为达成相同变换目的的另一变换途径的变换结果做对比；另一种变换途径具体可采用通过两种变换模型的组合的间接式变换途径；间接式变换途径实现与只采用一种变换模型的直接式变换途径相同变换目的，即待检测的变换模型的变换目标相同。

以检验某个仿射变换

为例，如果将一个

(从源图像到参考图像的仿射变换)作为所预测的变换模型，要检验其是否准确，可先找出另外一个可以实现统一变换目的的间接变换途径如两个变换模型的组合

即通过组合

(从源图像到目标图像的仿射变换)和

(从目标图像到参考图像的仿射变换)两个相关的连续变换来模拟

变换，通过对比两个途径得到的变换结果的差异度来判断从源图像到参考图像的变换

的准确程度。其具体实现可借助由图像中有选择的像素点组成的网格，如对图像在水平和竖直方向进行二十份的划分，可得到网格G(|G|＝20×20)包含了400个点，G中的一个点以(x,y)表示，初始网格可以构造在I_s上。按前文所述，通过

和

来判断

准确度的实现方法，就可转为基于网格点的具体计算，即，

理论上，通过

的重投影应该与

连续变形后的投影点对齐，而在与真实数据的对比下，即

(根据标注数据计算得到，而非预测的，源图像到目标图像的仿射变换)与

差异就被作为机器学习方法所依据的误差损失，所以，传递损失函数

可表示为：

其中，上述变换涉及了源图像、目标图像和参考图像三类对象，为此，我们将其组建成用于训练相关模型的三元组，即一条训练数据需由一副源图像、一副目标图像和一副参考图像构成。该方法亦可看成在传统的训练对(源图像、目标图像)基础上增加了一副相应参考图像。相关的损失计算有可能同时计算三种变换，每种变换会涉及三元组中的某个图对(两图属于不同图像类型)，例如，仿射变换回归子网络

估计了三元样本的

(源图像与目标图像)和

(目标图像与参考图像)仿射变换模型。

类似地，本方法中也将传递损失

用于样条回归

的差异分析。

一致性损失函数

一致性损失

定义为：一致性损失函数

定义为：由源图像、目标图像和参考图像构成的三元样本中，网格G中一个点在不同图像对之间的双向重投影误差的累计，构成一致性损失函数

用于表示仿射变换

和样条回归

的差异；

给定一个图像I_s和I_t间仿射变换

和对应的逆变换

时，对比其双向变换的结果，点(x,y)∈G应与原始空间的坐标对齐，即，

因此，网格G中一个点在源图像-目标图像对之间的重投影误差可通过以下公式计算得到：

其中，ε(I_s,I_t)为源图像-目标图像对之间的重投影误差。

在由源图像、目标图像和参考图像构成的三元样本中，还有其他图像对也包含了双向重投影误差，将其全部累计起来，就可以作为本方法的一致性损失函数

类似地，本方法中也将一致性损失

用于样条回归

的差异分析。

对齐损失函数

基于文献[3]中的软内联计数(Soft-inlier Count)和双向测量对齐质量设计，用于评估

和

的质量，可进一步优化对齐精度。

计算公式如下：

其中c_st表示通过对齐I_s到I_t的软内联计数，类似地，c_ts表示对齐I_t到I_s的软内联计数。

步骤6、获得图像匹配结果；

依据联合训练的整体网络，可针对给定待匹配图像对，给出源图像到目标图像的对齐结果。

具体通过包含三个子网络的整体网络进行学习训练，本方法可以根据训练数据样本得到图像对齐的变换模型，即得到训练好的对象位置感知的语义对齐网络模型OLASA。在测试阶段，即可针对给定的待匹配图像对，计算出源图像到目标图像的匹配图像结果。

与现有技术相比，本发明的有益效果：

本发明提供一种基于深度语义对齐网络模型的图像匹配方法，包括潜在对象协同定位(POCL)、仿射变换回归(ATR)、双向薄板样条回归(TTPS)三个子网络，其中POCL可有效地感知潜在对象的偏移，ATR可学到几何形变的参数，TTPS可提高变形的鲁棒性，三个子网络的联合学习不仅可以实现图像的语义对齐，而且能够获得更高准确率的图像匹配效果。利用本发明提供的技术方案，可以提高位置差异较大的图像对齐效果。同时，可以在标注数据缺乏的场景中，借助生成参考图像，更深入地挖掘和利用现有数据中的几何变化和外观变化，提高图像匹配的准确度。本发明可应用于计算机视觉领域的多种任务中，如目标跟踪、语义分割和多视点三维重建等。

附图说明

图1为图像匹配中图像中物体对象位置感知语义对齐的示意图；

其中，Is表示源图像；It表示目标图像。

图2为本发明建立的OLASA网络模型进行图像匹配的方法流程框图；

图3为本发明建立的2-2为OLASA网络模型的结构框图；

其中，I_s为源图像，I_t为目标图像，

分别为各阶段变换的结果。

为特征提取网络，N_tran为潜在对象协同定位(POCL)子网络，T_tran为相应的变换模型，N_affi为仿射变换回归(ATR)子网络，T_affi为相应的变换模型，N_ttps为双向薄板样条回归(TTPS)子网络，T_ttps为相应的变换模型。

图4为本发明中OLASA网络模型的训练三元组及相关变换模型示意图；

其中，(a)为源图像I_s生成参考图像I_r；(b)为三元组之间的各种变换。

分别表示从源图像到参考图像的仿射变换模型和双向薄板样条回归模型，作为比较的基准(Groundtruth)，

分别表示从源图像到目标图像的仿射变换模型和双向薄板样条回归模型，

则表示相应的反向变换的两个模型；

分别表示从目标图像到参考图像的仿射变换模型和双向薄板样条回归模型，

则表示相应的反向变换的两个模型。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明所提出基于深度语义对齐网络模型的图像匹配方法是一个基于语义对齐的深度神经网络模型OLASA，该模型方法的输入是源图像、目标图像和参考图像，OLASA通过对源图像和目标图像的深度语义分析，依据其内在对齐关系估计出对源图像的变形参数，经过变形的后源图像即为本方法的输出结果，其所含的目标物体可以匹配到目标图像中相应物体上。OLASA的内部实现是通过三个子网络的联合学习：三个子网络，潜在对象协同定位(POCL)、仿射变换回归(ATR)、双向薄板样条回归(TTPS)而达到有效进行图像匹配的目的。

图2所示为本发明建立的OLASA网络模型进行图像匹配的方法流程。本发明方法可用于任何给定的图像对(即源图像、目标图像)，源图像和目标图像组成的图像对可以通过拍摄或网络下载等方式获取。采用图像数据集如PF-WILLOW[11],PF-PASCAL(文献[11]：Bumsub Ham,Minsu Cho,Cordelia Schmid,and Jean Ponce,“Proposal flow,”in CVPR,2016.)和Caltech-101(文献[12]：Li Fei-Fei,Rob Fergus,and Pietro Perona,“One-shot learning of object categories,”IEEE TPAMI,vol.28,no.4,2006.)等均可。参考图像采用本发明方法在执行过程中根据源图像计算得到。本发明方法的具体实现步骤如下。

步骤1、图像语义特征提取

OLASA接收源图像、目标图像和参考图像后，首先要提取其特征。即，将待匹配的一对图像(源图像和目标图像，可采用图像库中的图像或拍摄得到)

作为输入，本方法采用一个卷积神经网络(CNN)提取两个图像的特征，该网络可以是最基本的CNN网络，也可以是改进或增强后的CNN网络，不是一般性，本文中称其为

所提取的两组特征命名为

这些语义特征将用于后续子网络的学习过程。

步骤2、采用潜在对象协同定位(POCL)子网络估计偏移

在实际情况中，源图像和目标图像中要做匹配的对象往往分别位于各自图像中的不同位置，即，待匹配对象之间往往存在较大的位置差异。现有方法往往只处理几乎处于同一位置的待匹配对象，而对上述存在较大位置差异的情况很少采取专门的处理方法，从而导致了很多方法的实际应用难以取得理想的匹配效果。本发明针对该问题，在实现图像匹配的第一阶段就采用一个预处理网络，潜在对象协同定位子网络(POCL)来消除待匹配对象的位置偏差。

该子网络定义为

将源图像和目标图像的特征F_s和F_t作为输入，通过分类目标检测技术估测潜在目标，根据潜在对象位置，训练协同定位子网络

进而实现I_s和I_t间的初步变换

的估计。

其中，

的自由度为4，这里的(x,y)表示目标图像的空间坐标，(x′,y′)表示源图像中对应的采样坐标。

为了估计偏移变换模型

需要先估测待匹配对象的位置，为此，可采用现有的分类目标检测技术，具体地，如常用的目标检测网络——Faster R-CNN[12]等。需要说明的是在此阶段采用目标检测技术并非是要得到精确的目标检测结果，而只是为了获取潜在对象的大致位置信息，以实现协同定位，因此目标检测技术在这里的用法有所不同。具体地，

基于图像特征F_s和F_t只需预测两组潜在对象边框

和

(i＝1,…,n_s,j＝1,…,n_t)，

分别描述了图像I_s和I_t中第i^th和j^th个潜在边框，可用左上角和右下角的坐标记录，n_s和n_t分别表示I_s和I_t中的边框数量。再次说明，这些边框也无需是精确的对象边框，只是其近似或可能边框即可，在本现阶段旨在估计其大致位置。

为了进一步定位I_s和I_t中两个主要且语义相关的对象，我们通过潜在边框

和

从图像中裁剪潜在对象，并将它们的尺寸调整为H×W。然后再利用另一个特征提取模块，如CNN，

来提取对应于源图像和目标图像的特征映射{V_s ⁱ}和{V_t ^j}。之后，我们将描述子{V_s ⁱ}和{V_t ^j}堆叠(stack)为特征矩阵

和

这样，就可以通过两个特征矩阵相乘计算语义相似性矩阵，

其中，关注Z_st中最高相似度得分的组成项目，即选取两个对应的边框

和

从而分别定位两个主要的潜在对象。最后，利用

和

的空间坐标就可以计算出位置偏移变换模型

源图像I_s通过

变换为位置偏移后的图像

POCL仅用来捕获潜在对象位置偏差，并在位置偏差较大时，能够通过位置偏移变换实现相应的位置调整，但POCL还不能实现精准的语义对齐。

步骤3、利用仿射变换回归(ATR)子网络估计仿射变换模型

OLASA通过更为精准的仿射变换回归(ATR)子网络

估计待匹配图像的仿射变换模型

现有的类似ATR功能的子网络[11]亦可用来估计仿射变换。为获得更好效果，本方法基于张量有效性的研究[1],[3]，将图像

和I_t的特征F_s ¹和F_t组成特征对，计算这些特征对相关度，即，4D相关度张量

该张量的每个元素

记录两个局部特征向量

间的内积。特征向量和相关度张量是L2归一化的。相关度张量

被输入

以估计

和I_t间的仿射变换模型

其中，仿射变换模型

的自由度是6，即需要估计的6个仿射变换参数。图像

通过该模型可被进一步变换为

经过了仿射变换后的

与I_t完成了进一步的与其对齐。

步骤4、使用双向薄板样条回归(TTPS)子网络优化对齐效果

利用控制点网络可以进一步改善或增强图像的语义对齐效果。具体地，通过使用双向薄板样条回归(TTPS)子网络进一步在图像

和I_t之间估计一个回归变换模型

并以此模型来优化图像

和I_t间的语义对齐。实际上，现有的薄板样条回归TPS的现有方法，如[13]等，亦可实现本项功能，但TPS是单向的，所依赖的控制点是固定的，效果相应地会受到影响，如，在一些局部范围内会产生过度扭曲，导致较大的物体失真。本发明设计了TTPS，同样是针对一组已知的对应控制点执行回归预测，结合一种简单示例，即在图像

和I_t上设置一个统一的3×3的控制点网格。但与TPS不同的是，TTPS是双向的，增加从图像I_t到图像

反方向的控制点调整，相对于TPS而言TTPS将两个图像中控制点视为可移动的，因此TTPS可以有效地去除过度形变，改善匹配失真的情况。在具体实现上，TTPS以图像

和I_t的特征

和F_t特征对的相关度张量作为计算对象，即4D相关度张量

以更为准确地捕捉物体形变的细节。用TTPS回归子网络

估计回归变形模型

的过程在形式上可表示为：

类似地，

是根据特

和F_t中控制点对的相关度计算得到，回归变形模型

回归变换模型，可将

进一步变换为

进而可实现源图像与目标图像I_t的对齐。

步骤5、整体网络的联合训练

上述三个子网络的连续变换，实现了一种从粗到细的匹配原则，图像对I_s和I_t的语义对齐可以完整地描述为三个变换模型联立的结果，即

其中，

表示几何变换的组成。不仅如此，作为一个整体网络，三个子网络需要前后贯通，具体操作方法就是作为一个完整网络进行联合训练。

传统方法在训练该网络时通常使用图像对作为训练样本，与之不同，对于OLASA的训练，我们通过引入参考图像，提出了三重抽样策略来生成训练数据。每个三元组包含源图像I_s、参考图像I_r、和目标图像I_t。其中，从I_s中通过随机几何变换

或

生成的参考图像I_r，如图4中的(a)所示。传统方法所用组合对包含很少的外观变化，三重抽样策略可以同时捕获训练数据中的几何和外观变化，换言之，该三元组不仅丰富了原图像对的外观变化，而且也为差异较大的源图像和目标图像提供了有力的过渡信息。在具体计算过程中，三元组的引入丰富了此前提出的转换模型，在图4中的(b)中分别用虚线和实线分开表示：1)仍需要估计的模型，如与原来的仿射回归变换或样条回归变换类似，只是模型数量在细分后有所增加，如虚箭头表示的

等，2)由于参考图是生成结果，其已知的变换即可作为真实的标注数据，因此其有关变换用实箭头表示，如

为实现整体模型的训练目标，我们设计了三个损失函数来实现OLASA的优化，包括传递性损失、一致性损失和对齐损失。

传递损失。在三重样本上，我们根据几何变换的传递性和网络MSE设计了传递损失

以仿射变换

为例，可以通过合并另外两个相关的连续变换

和

来推断从源图像到参考图像的变换

即，

(x,y)表示构造在I_s上一致网格G中的一个点(x,y)通过

的重投影应该与

连续变形后的投影点对齐。其中，仿射变换回归子网络

估计了三元样本的

和

网格G(|G|＝20×20)可分别由

和

变换。我们用损失函数

即传递损失，来度量仿射变换前后两个网格间的差异。

类似地，本方法中也将传递损失

用于样条回归

的差异分析。

一致性损失。几何变换中的一致性是从图像到图像变换中使用的循环一致性拓展得到的，可作为传递损失的补充。我们设计的一致性损失

定义为：给定一个图像I_s和I_t间仿射变换

和对应的逆变换

因此，网格G中一个点在源图像-目标图像对之间的重投影误差可通过以下公式计算得到，

在三元样本中，还有其他图像对也包含了双向重投影误差，将其全部累计起来，就可以作为本方法的一致性损失函数

类似地，本方法中也将一致性损失

用于样条回归

的差异分析。

对齐损失。对齐损失

用于评估

和

的质量，可进一步来优化对齐精度。

是基于文献[3]中的软内联计数(Soft-inlier Count)和双向测量对齐质量设计的，其计算公式如下：

步骤6、匹配结果的获得

通过包含三个子网络在内的整体网络学习，本方法可以根据训练数据样本得到图像对齐的变换模型，在测试阶段，即可针对给定的待匹配图像对，计算出源图像到目标图像的匹配结果。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于深度语义对齐网络模型的图像匹配方法，通过建立对象位置感知的语义对齐网络模型OLASA，逐步估计两个语义相似图像之间的对齐；采用三重采样策略训练网络模型OLASA，通过潜在对象协同定位POCL、仿射变换回归ATR、双向薄板样条回归TTPS三个子网络N_tran，N_affi和N_ttps，分别估计平移、仿射变换和样条变换；再通过分层建立和优化图像之间的对齐关系，得到图像匹配结果；包括如下步骤：

步骤1、提取图像语义特征：将一对图像I_s，

作为卷积神经网络

的输入，分别提取得到的两组特征F_s，

I_s，I_t分别为源图像和目标图像；F_s，F_t分别为源图像语义特征和目标图像语义特征；

每个子网络的前端采用卷积神经网络CNN提取图像的特征，表示为式(1)：

式(1)中，F为从图像中提取的特征；实数

为特征的数据空间；h、w、d分别表示特征数据空间的高、宽、通道数；

为卷积神经网络CNN；I为图像；实数

为图像的数据空间；H、W、D分别表示图像数据空间的高、宽、通道数；

建立对象位置感知的语义对齐网络模型OLASA，OLASA包括子网络N_tran，N_affi和N_ttps，分别用于估计偏移、仿射及TTPS变换，记作T_tran，T_affi和T_ttps；源图像通过变换获得各阶段的变换结果

和

最终通过连续变换T_H获得源图像I_s与目标图像I_t的对齐结果

其中

建立对象位置感知的语义对齐网络模型OLASA包括步骤2～4：

步骤2、构建潜在对象协同定位子网络N_tran，用于估计图像间目标物体的偏移，消除待匹配对象的位置偏差；

将源图像F_s和目标图像的特征F_t作为潜在对象协同定位子网络

的输入，根据潜在目标对象位置，训练子网络

进而实现I_s和I_t间的初步变换的估计

表示如下：

式中，

为潜在对象协同定位子网络；

为I_s和I_t间的初步变换即偏移变换的估计；(x，y)表示目标图像的空间坐标，(x′，y′)表示源图像中对应的采样坐标；

进一步定位I_s和I_t中两个语义相关的对象，再提取对应的特征描述子{V_s ⁱ}和{V_t ^j}，其中，i，j分别表示源图像和目标图像中的特征点的序号；

将描述子{V_s ⁱ}和{V_t ^j}堆叠为特征矩阵

和

通过两个特征矩阵相乘计算语义相似性矩阵：

选取Z_st中最高相似度得分的多个特征对组成相似特征对组，并以其在源图像和目标图像中分别代表的特征点组计算相应的两个区域，作为两个主要的潜在对象，并计算对应的边框坐标，即空间位置；

再利用定位得到的潜在对象对应边框的空间坐标，计算出位置偏移变换模型

源图像I_s通过

变换为位置偏移后的图像

得到仿射变换参数估计；包括：

仿射变换回归子网络将图像特征

和F_t构造成特征对，计算特征对的相关度

并估计得到仿射变换模型的参数；

特征对相关度

即4D相关度张量，

该张量的每个元素

记录两个局部特征向量

间的内积；

特征向量和相关度张量是L2归一化的；将相关度张量

输入

根据式(3)进行

和I_t间的仿射变换模型估计

图像

通过式(3)进一步变换为

经过仿射变换后的

进一步与I_t对齐；

步骤4、构建双向薄板样条回归子网络N_ttps；N_ttps利用控制点在仿射变换后的图像和目标图像之间估计回归变换模型，进一步优化图像的语义对齐效果；

具体在图像

和I_t上设置控制点网格，以

和F_t特征对的相关度张量

为计算对象，采用

估计回归变形模型

的过程表示为式(4)：

其中，

根据

和F_t中控制点对的相关度计算得到；通过计算6个变换权重参数得到回归变形模型

的估计结果；根据回归变换模型

将

进一步变换为

实现源图像与目标图像I_t的对齐；

步骤5、引入参考图像，采用三元组方法选择训练样本，联合训练网络模型OLASA；

步骤51、采用三重抽样策略方法生成训练数据；每个三元组包含源图像I_s、参考图像I_r和目标图像I_t；从I_s中通过随机几何变换

或

生成参考图像I_r；

步骤52、设计三个损失函数实现OLASA的优化，包括传递性损失函数

一致性损失函数

和对齐损失函数

传递损失函数

用于度量所预测变换模型的准确度；将变换模型的变换结果与为达成相同变换目的的另一变换途径的变换结果的差作为传递损失；另一种变换途径具体采用通过两种变换模型的组合的间接式变换途径；间接式变换途径实现与只采用一种变换模型的直接式变换途径相同变换目的，即待检测的变换模型的变换目标相同；

一致性损失函数

用于表示仿射变换

和样条回归

的差异；

对齐损失函数

基于软内联计数和双向测量对齐质量设计，用于评估

和

的质量，进一步优化对齐精度；

通过式(8)计算得到：

其中，c_st表示通过对齐I_s到I_t的软内联计数；c_ts表示对齐I_t到I_s的软内联计数；

步骤6、针对给定待匹配图像对，利用步骤5训练好的对象位置感知的语义对齐网络模型OLASA，得到源图像到目标图像的对齐结果，即获得图像匹配结果；

通过上述步骤，实现基于深度语义对齐网络模型的图像匹配。

2.如权利要求1所述基于深度语义对齐网络模型的图像匹配方法，其特征是，步骤2中，具体通过分类目标检测方法估测潜在目标，得到潜在目标对象的位置。

3.如权利要求1所述基于深度语义对齐网络模型的图像匹配方法，其特征是，步骤2中，进一步定位I_s和I_t中两个语义相关的对象，再具体利用特征提取模块CNN，

提取得到对应的特征映射{V_s ⁱ}和{V_t ^j}。

4.如权利要求1所述基于深度语义对齐网络模型的图像匹配方法，其特征是，步骤3中，仿射变换模型

的自由度为6，估计6个仿射变换参数。

5.如权利要求1所述基于深度语义对齐网络模型的图像匹配方法，其特征是，步骤4中，双向薄板样条回归子网络采用双向策略，增加从图像I_t到图像

反方向的控制点调整，有效避免图像的过度扭曲或失真。

6.如权利要求1所述基于深度语义对齐网络模型的图像匹配方法，其特征是，步骤52中，对于仿射变换

图像I_s中的像素点组成的网格G中的一个点以(x，y)表示，基于网格点计算

通过

和

判断

准确度，即将

与

的差异作为误差损失，传递损失函数

表示为式(5)：

其中，

为源图像与目标图像的仿射变换模型；

为目标图像与参考图像的仿射变换模型；

为根据标注数据得到源图像到目标图像的仿射变换模型；

还可将传递损失函数用于样条回归

的差异分析。

7.如权利要求6所述基于深度语义对齐网络模型的图像匹配方法，其特征是，步骤52中，一致性损失函数

表示为式(7)：

其中，ε(I_s，I_t)为网格G中一个点在源图像-目标图像对之间的重投影误差，可通过式(6)计算得到：

其中，ε(I_s，I_t)为源图像-目标图像对之间的重投影误差；

为图像I_s和I_t间的仿射变换；

为

对应的逆变换；

还可将一致性损失

用于样条回归

的差异分析。