CN114022729A

CN114022729A - 基于孪生网络和监督训练的异源图像匹配定位方法和系统

Info

Publication number: CN114022729A
Application number: CN202111255618.9A
Authority: CN
Inventors: 左峥嵘; 马阳阳; 袁定兴
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-02-08

Abstract

本发明公开基于孪生网络和监督训练的异源图像匹配定位方法和系统，属于图像匹配领域。本发明通过具有多感受野特征融合模块的孪生网络提取特征，逐级嵌套，融合不同感受野深度的特征，使得提取到的特征图不仅能保持边缘轮廓等低级特征，还保证具有纹理细节等高级特征，利用特征图进行归一化相关性运算进行位置估计时，定位精度高；通过理想互相关图进行弱监督，将匹配互相关图与理想互相关图共同输入到判别网络中，通过判别损失函数进行反向传播对构建的孪生网络进行训练，调整网络参数至该损失函数收敛完成对孪生网络的训练，优化匹配互相关图来缩小二者之间的差异，使匹配互相关图更接近理想效果，更容易拟合，提高匹配精度，网络适应性更强。

Description

基于孪生网络和监督训练的异源图像匹配定位方法和系统

技术领域

本发明属于图像匹配技术领域，更具体地，涉及基于孪生网络和监督训练的异源图像匹配定位方法和系统。

背景技术

匹配制导定位精度高、抗干扰能力强、场景适应性好，在精确制导领域具有广泛的应用。为保证制导系统可全天时工作，同时具备恶劣气象条件、地面伪装等因素下的抗干扰能力，导引头获取的实时图像一般为红外图像。然而，通过卫星等手段拍摄的红外图像分辨率较低，难以作为参考图使用，因此制作参考图的数据来源一般为可见光图像。红外与可见光图像的成像原理不同，其灰度分布和纹理特征等存在巨大差异，难以直接匹配。

基于特征的图像匹配是通过提取图像特征，对特征进行相似性度量来完成匹配，是目前异源图像匹配的主要方式。由于参考图与实时图需要在同一特征空间完成匹配，目前依靠人工设计的匹配特征在不同场景中的匹配性能存在差异，导致基于人工设计特征的匹配方法匹配精度不高、适应性较差。

专利CN113223068A公开一种基于深度全局特征的多模态图像配准方法及系统，其主要思想如下：准备数据集并制作；制作数据集；图像预处理；设计全卷积孪生网络结构；提取图像特征；获取相似性得分图，基于相似性得分图，使用对比损失函数优化相似度得分图，使用峰值损失函数来加快收敛速度，使用排序损失函数使得正样本的相似度分布接近真实分布；联合优化对比损失、排序损失和峰值损失，将训练好的权重载入到模型中，并依次读取所有测试集数据，预测测试集中浮动图在基准图中的平移参数；确定浮动图在基准图上的位置，实现多模态图像配。然而，该方法存在以下缺点：1)在利用孪生网络进行特征提取的过程中，往往采用串联式的卷积层提取到高层特征，但是忽略了其他感受野的特征，使得提取到的特征不能完整的表达出真实图像的语义信息；2)在获取到相似性得分图之后，直接利用对比损失函数优化相似性得分图，但是不能提出一个有力的优化监督方向，极大考验了网络在训练过程中的收敛拟合难度以及收敛速度。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了基于孪生网络和监督训练的异源图像匹配定位方法和系统，其目的在于解决异源图像无法直接进行匹配、传统基于人工设计特征的匹配方法匹配精度低和鲁棒性不强的问题，利用深度学习技术进行特征提取，使其能够根据原始的输入图像，自动学习并提取到两种图像间的匹配特征并完成匹配，为异源图像匹配定位提供新的解决思路。

为实现上述目的，按照本发明的第一方面，提供了一种基于孪生网络和监督训练的异源图像匹配定位方法，该方法包括：

训练阶段：采用已配准的可见光-红外图数据集作为训练集，对每个训练样本，做以下处理：

将可见光图像输入至孪生网络第一分支，得到模板特征图，将红外图像输入至孪生网络第二分支，得到搜索特征图，将模板特征图和搜索特征图进行归一化相关性运算，生成匹配互相关图，根据可见光模板图和红外搜索图的实际匹配位置，生成理想互相关图，作为匹配互相关图的监督信息；

将匹配互相关图和和理想互相关图输入至判别器，输出对输入信息整体的判别结果，计算判别损失；对匹配互相关图进行位置回归，得到可见光图像在红外图像上的估计位置；根据估计位置和实际匹配位置，计算整体损失；

若整体损失和判别损失函数同时收敛，则训练完成，否则，将判别损失反馈至孪生网络，通过反向传播调整孪生网络的参数，使得判别损失越来越小；

应用阶段：将可见光图像输入至训练好的孪生网络第一分支，将红外图像输入至训练好的孪生网络第二分支，对孪生网络的两个输出进行归一化相关性运算，将运算结果输入进行位置回归，得到可见光图像在红外图像上的估计位置。

优选地，孪生网络第一分支和孪生网络第二分支相同，且共享权重与网络参数，每个分支包括：

特征提取模块，用于提取不同感受野的特征；

特征融合模块，用于融合两个感受野差异最小的特征，得到的新的特征，再与感受野差异次小的特征再次进行融合，以此类推，采用逐级嵌套融合方式，将提取到的所有感受野特征融合为一个特征图。

有益效果：现有技术利用孪生网络的特征提取模块与特征融合模块均采用依次串联卷积层进行特征提取，其导致提取到的仅有高层特征，但是忽略了其他感受野的特征，使得提取到的特征不能完整的表达出真实图像的语义信息。本发明在特征提取模块中，采用一系列嵌套式密集的跨层连接进行特征提取，由于利用上采样、下采样以及跳连接的网络操作，从而缩小多个特征之间的语义上的差异性，降低特征融合的难度；此外，现有技术直接将提取到的特征在通道上合并，其导致不能对不同感受野的特征进行权重学习，导致各个感受野的特征所占的比重是一样的，这种融合机制无法关注通道中局部特征与整体特征的空间权重，只能融合整个通道特征而无法实现像素级的融合，最终导致的结果就是提取到的特征失真，将直接影响到后续的匹配性能。本发明通过特征融合模块，进行逐级嵌套，融合不同感受野深度的特征，使得提取到的特征图不仅能保持其边缘轮廓等低级特征，还能保证具有纹理细节等高级特征，实现利用特征图进行归一化相关性运算并进行位置估计时，匹配定位的精度得到提高。

优选地，所述融合两个感受野差异最小的特征，得到的新的特征，公式如下：

其中，F_fuse()表示融合特征，f_n表示感受野级别为n的特征，α_n表示权重，n表示感受野级别，H()表示卷积函数。

有益效果：现有技术直接将提取到的特征在通道上合并，其导致融合后的特征无法关注通道中局部特征与整体特征的空间权重，只能融合整个通道特征而无法实现像素级的融合，最终导致的结果就是提取到的特征无用信息过多，与真实图像语义信息差距较大，继而影响到后续的匹配性能。本发明通过多注意力融合机制，学习两特征之间的相关性，进行各特征空间位置处的权重学习，得到两个特征图之间同一空间位置的相关性作为权重，两特征各像素间既按一定的权重进行融合，由于进行逐级嵌套，融合不同感受野深度的特征，使得融合后的特征图不仅能保持其边缘轮廓等低级特征，还能保证具有纹理细节等高级特征，实现提高特征提取的准确性以及图像的匹配率的效果。

优选地，位置(x,y)处的理想互相关图的面值计算公式如下：

其中，(x₀,y₀)表示匹配位置点。

有益效果：针对现有技术度量匹配相关系数单纯采用任意位置与匹配位置的余弦距离来衡量二者的相关性，但是余弦距离虽然适用于衡量匹配时特征像素的相关性，但是在理想互相关图中，直接衡量的是预测的匹配位置于实际位置之间的匹配准确性，采用余弦距离不能直观地表达出匹配位置的偏移量，因此在后续输入到判别网络中，不能起到好的监督效果。，本发明通过利用上公式度量任意位置与匹配位置的空间距离，距离匹配位置越近，相关系数越低。设计这种互相关图作为每个匹配位置对应的理想互相关图保证了互相关图只有一个主峰，且主峰下降速度较快，在相差十几个像素以上时，相关系数将逐渐接近0，同时主峰占有一定位置区域也能有效抑制由于正负样本数量失衡而导致网络难以正确拟合互相关图的问题，实现提升网络的鲁棒性的效果。

优选地，所述判别器包含六层卷积块，其中，

第一层卷积层的卷积核大小为2、步长为1，用于将特征图尺寸降为128×128；

中间四层的卷积核大小为4、步长为2，用于降低特征图尺寸；

最后一层卷积核大小为1，用于对特征图进行降维。

有益效果：针对现有技术缺乏对真实配准位置的监督问题，本发明通过判别器网络来区分理想互相关图与匹配互相关图，由于加入了判别损失，来通过反向传播不断调整孪生网络的参数，来降低判别损失，实现了对孪生网络的不断优化，从而使提取到的特征图与真实的图像语义信息更加接近，提高后续的匹配精度。

优选地，所述判别损失L_D-net的计算公式如下：

其中，x表示输入真实样本，λ表示梯度惩罚权重，x′表示生成样本，b表示固定偏移量，E_x[]表示真实样本的期望，D()表示判别器判断真实样本是否真实的概率，D(G(x))表示判别器判断生成器生成的样本的是否真实的概率，G()表示生成器生成的样本，

表示梯度惩罚项，‖‖₂表示2范数。

有益效果：针对现有技术损失存在训练困难、收敛速度慢的问题，本发明通过对每个样本独立性施加梯度惩罚，由于梯度惩罚让G(x) 更加接近真实样本x，并且靠近的过程中D(G(x))不超过D(x)，实现新的损失函数更易收敛的效果，另外加入一个固定偏移量b，保证判别器的损失不出现负值而导致反向传播错误。

优选地，对匹配互相关图进行位置回归，得到可见光图像在红外图像上的估计位置，通过回归网络实现，所述回归网络包括卷积模块和全连接模块；

卷积模块，用于对匹配互相关图进行下采样并进行特征提取，得到特征f_{_reg}；

全连接模块，用于对特征f_{_reg}进行维度转换，输出位置估计。

有益效果：针对现有技术缺乏对回归位置的预测输出，本发明通过回归网络，将匹配互相关图输入到回归网络中进行匹配位置回归，得到网络对于图像匹配的位置估计。

优选地，整体损失计算公式如下：

L_G-net＝-L_G-adv+γL_G-reg+b

L_G-adv＝E_x[D(G(x))]

其中，L_G-net表示整体损失，L_G-adv表示对抗损失，L_G-reg表示回归损失，γ表示回归损失权重，b表示固定偏移量，E_x[]表示真实样本的期望，D(G(x))表示判别器判断生成器生成的样本的是否真实的概率，R()表示回归网络对生成器生成的样本的预测输出，

表示均方误差函数。

有益效果：现有技术损失仅利用预测匹配位置与实际位置的对比损失函数来调整优化网络参数，其导致衡量网络的整体损失函数不够全面，虽然有预测位置的对比损失，但是直接从预测的位置反向传播调整网络参数，只从输出结果进行约束不能直观感知到理想的优化方向，这样没有监督的学习会提高网络收敛的难度；本发明通过均方误差组成的对抗损失与回归损失来优化整体的孪生网络，其中对抗损失使得孪生网络能够间接感知理想互相关图的特征分布，从而优化互相关图，回归损失则是对匹配位置的约束，保证回归网络能够对匹配互相关图进行正确的位置估计，实现对孪生网络以及回归网络的优化，达到更加精确的匹配率。

为实现上述目的，按照本发明的第二方面，提供了一种基于孪生网络和监督训练的异源图像匹配定位系统，该系统包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行第一方面所述的基于孪生网络和监督训练的异源图像匹配定位方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明通过具有多感受野特征融合模块的孪生网络进行特征提取，由于进行逐级嵌套，融合不同感受野深度的特征，使得提取到的特征图不仅能保持其边缘轮廓等低级特征，还能保证具有纹理细节等高级特征，实现利用特征图进行归一化相关性运算并进行位置估计时，匹配定位的精度得到提高。

(2)本发明通过利用配准的可见光图像与红外图像生成理想互相关图来进行弱监督，将匹配互相关图与理想互相关图共同输入到判别网络中，通过判别损失函数进行反向传播对构建的孪生网络进行训练，调整网络参数至该损失函数收敛完成对孪生网络的训练，优化匹配互相关图来缩小二者之间的差异，这样的弱监督使得匹配互相关图更加接近理想效果，也更容易拟合，从而提高匹配精度，并使网络的适应性更强。

附图说明

图1为本发明提供的一种基于孪生网络和监督训练的异源图像匹配定位方法流程图。

图2为本发明提供的一种基于孪生网络和监督训练的异源图像匹配定位方法具体流程图。

图3为本发明提供的整体网络模型结构示意图。

图4为本发明提供的孪生网络结构示意图。

图5为本发明提供的回归网络结构示意图。

图6为本发明提供的判别网络结构示意图。

图7为本发明提供的孪生网络的特征提取实验结果，其中，第一列为输入的红外与可见光图像，第二列为对应的输出的特征提取结果。

图8为本发明提供的匹配互相关图的实验对比结果，其中，第一列为输入的红外与可见光图像，第二列为本发明算法生成的匹配互相关图。

图9为本发明提供的孪生网络特征提取的街道场景图像实验对比结果，其中，第一列为输入的红外与可见光图像，第二列为利用 SiameseNCR提取到特征结果，第三列为本发明算法提取到特征结果。

图10为本发明提供的孪生网络特征提取马路场景图像的实验对比结果，其中，第一列为输入的红外与可见光图像，第二列为利用 SiameseNCR提取到特征结果，第三列为本发明算法提取到特征结果。

图11为本发明提供的匹配互相关图的实验对比结果，其中，第一列为输入的红外与可见光图像，第二列为利用SiameseNCR得到的匹配互相关图，第三列为本发明算法优化后的匹配互相关图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种基于孪生网络和监督训练的异源图像匹配定位方法，其整体流程图如图1所示，包括以下步骤：

S1.搭建孪生网络Net_sia，分别将待匹配的图像T与异源搜索图像I进行特征提取，得到对应特征图F_T及F_I；

S2.将得到的待匹配特征图F_T在异源搜索特征图F_I上遍历，在每个遍历位置上进行归一化相关性运算，得到匹配互相关图M_gen；

S3.搭建回归网络Net_reg，对匹配互相关图M_gen进行位置回归，输出待匹配的图像T在异源图像I上的相对位置估计；

S4.根据实际位置信息构建理想互相关图M_ide，作为匹配互相关图的监督信息；

S5.搭建判别网络Net_dis，构造判别损失以及整体的生成损失函数，并训练网络。

本实施例训练网络过程采用已配准的可见光-红外图像的数据集进行异源匹配定位，该数据来源于Kaist实验室发布的车载道路场景公开数据集。在本实施例中将可见光图像作为模板图T，尺寸为 128×128，红外图像作为异源搜索图I，尺寸为256×256。具体的实现流程示意图，如图2所示，该方法整体思想为：

将可见光图像与红外图像同时输入到孪生网络中提取两者的相似特征，经过相关层得到两组特征的匹配互相关图M_gen，匹配互相关图经回归网络得到估计位置。另一方面，匹配互相关图M_gen输入到判别网络中，同时理想互相关图M_ide也输入到判别网络中，判别网络度量两个互相关图之间的距离。判别网络的目的是为了将匹配互相关图 M_gen与理想互相关图M_ide尽可能区分开，将匹配互相关图M_gen判别为假而理想互相关图M_ide判别为真。与此同时，生成网络则从判别网络的判别结果得到反馈，调整其网络参数，使其生成的互相关图经判别网络判别后尽量为真。整体网络模型如图3所示。

首先利用孪生网络将待匹配的可见光模板图T以及红外搜索图I 进行特征提取，包括：

S110：构建孪生网络，用以提取图像的特征。首先搭建两个相同的网络分支，并且这两个分支共享权重和网络参数。每个分支网络均包含特征提取部分和特征融合部分。孪生网络的单个分支网络结构如图4所示。

S120：特征提取部分构建一个深度为5的Unet++网络，网络深度从左到右，从上到下依次增加。U-net++网络中存在下采样、上采样和跳连接的过程，从图4中看出，输入图像经过第一层卷积模块X^0,0得到特征x^0,0，并将x^0,0输入到第二层卷积模块X^1,0进行下采样得到x^1,0；将x^1,0再上采样输入到X^1,0卷积模块中并与x^0,0进行跳跃连接得到x^0,1。随着网络的深度，从左往右以此类推。网络下采样过程增加提取的特征的感受野，使之能够感知更大图像块中的有用信息，网络跳跃连接和上采样过程则实现不同特征的初步融合。不同的感受野提取的特征不同，小的感受野关注图像的局部特征，可以实现图像细节的重建，大的感受野则关注更大区域的图像特征，可以实现图像整体特征的重建。特征提取模块的每个基础卷积块采用的是VGG卷积模块：输入特征经过一个卷积核为3×3的卷积层后再对其进行批归一化，之后经过一个激活层，激活函数为ReLU，得到一个中间特征。中间特征再经过一个卷积核为3×3的卷积层，对输出特征进行批归一化，最后经过一个激活层，激活函数同样为ReLU，最终得到该卷积模块的输出不同感受野的特征f_n，n＝1,2,3,4。

S130：搭建特征融合部分。采用嵌套式的多感受野特征融合方式，每次设计一个注意力融合结构来融合两个感受野差异较小的特征，得到的新的特征F_fuse再与感受野差异较大的特征再次进行融合，利用嵌套式多感受野特征融合将提取到的所有特征融合为一个特征图F。多感受野特征融合模块通过采用像素级的注意力机制融合不同感受野的特征，其中每2个特征采用一个融合块，逐层嵌套，其结构如图4 所示，每个融合块参数不共享。其中将f_n进行融合，得到F_fuse(f_n)的公式为：

其中，n＝2,3,4；

当n＝1时：

F_fuse(f₁)＝f₁

S131：两个指定特征f_n与F_fuse(f_n-1)利用

进行融合，引入一个像素级的注意力机制模块来学习这两个特征的像素级的关联权重。首先将特征f_n与特征F_fuse(f_n-1)进行通道数上的concat合并得到 [f_n,F_fuse(f_n-1)]，之后采用卷积层学习像素级的注意力图，同时映射函数将注意力图中的权重限制到[0,1]，权重学习如下式所示：

其中，g表示映射函数，H表示卷积函数。

S132：计算得到特征f_n与F_fuse(f_n-1)之间的注意力权重α_n后，两特征之间按一定的权值进行融合得到F_fuse(f_n)。特征f_n和F_fuse(f_n-1) 具体的融合方式为：

FeatureFuse(f_n,F_fuse(f_n-1))＝f_n×α_n+F_fuse(f_n-1)×(1-α_n)

其中，f_n和F_fuse(f_n-1)两个特征的注意力权重大小负相关。

在本发明中，给定四个相同尺寸的特征f₁、f₂、f₃、f₄，首先采样四个卷积层对特征分别进行降维，之后采用两两嵌套的方式实现不同感受野特征的融合。本发明对其中一个融合块进行详细说明：对于 f₁、f₂，首先分别进行步长为2的下采样，再进行通道上的合并，之后采用两个卷积核大小为3的卷积层Conv12、Conv12_a学习注意力图Map；根据得到的注意力图Map，进行f₁、f₂特征融合得到 f₁₂＝f₁×Map+f₂×(1-Map)；最后采用卷积核大小为3的卷积核对f₁₂进一步优化得到f₁、f₂融合后的最终结果f₁₂。f₁、f₂融合后的特征f₁₂再与f₃进行特征融合，以此类推，逐级嵌套。

通过逐级嵌套的方式对不同感受野的特征进行融合，使得来自编码器的特征逐步丰富起来，保证了图像融合时不会因为语义信息差异过大而导致融合困难。

S140：分别将尺寸为N×N的待匹配模板图像T以及尺寸为M×M 的异源搜索图像I输入到所述孪生网络Net_sia中，得到对应的尺寸为 N×N的模板特征图F_T和尺寸为M×M的异源搜索特征图F_I。

待匹配的可见光模板图经过孪生网络Net_sia之后，得到 128×128的可见光模板特征图F_T，红外搜索图经过孪生网络之后，得到256×256的可见光模板特征图F_I。

在得到可见光模板特征图F_T和红外搜索特征图F_I之后，按照以下方式计算得到F_T和F_I的匹配互相关图M_gen，包括：

S210：将得到的待匹配特征图F_T在异源搜索特征图F_I上遍历，将待匹配的模板特征图当作滑窗，在搜索图上依次以步长为1进行滑动。在每个搜索位置，对两个不同尺寸的特征图F_T和F_I进行归一化相关性运算，计算模板图与搜索图对应位置处的相似程度。归一化相关性运算为计算尺寸较小的模板特征图F_T在尺寸大的搜索特征图F_I上每个对应位置(x,y)处的余弦距离R(x,y)，余弦距离度量两个样本分布的夹角，是从样本方向上区分差异，其计算复杂度高于欧式距离，但余弦距离能从整体上度量两个样本的相似性，对局部坏点不敏感，适应性更好。其计算公式为：

其中，x<256，y<256，在搜索图的非边界位置x′<128，y′<128；在搜索图边界位置(x₁,y₁,)处x′<256-x₁,，y′<256-y₁,。最终输出结果为 129×129的相关系数矩阵，即匹配互相关图M_gen。

为实现匹配位置估计的反向传播，在获得匹配互相关图M_gen后，本发明将匹配互相关图M_gen输入到回归网络中进行匹配位置回归，得到网络对于图像匹配的位置估计，回归网络如图5所示。具体做法为：

S310：搭建回归网络的主体网络。回归网络包含两部分，卷积模块和全连接模块。

回归网络的作用是通过输入步骤S210生成的匹配互相关图M_gen，对其中的相关系数进行学习，得到预测的匹配位置。

S320：卷积模块对匹配互相关图M_gen进行下采样并提取特征。卷积模块包含五层卷积，第一层卷积核大小为2，步长为1，后四层卷积核大小为4，步长为2，五个卷积层的输出通道分别为32、64、 128、256、512。卷积模块对所述相关系数矩阵图M_gen进行s倍下采样并进行特征提取，得到尺寸为

的特征f_{_reg}。

S330：将提取的特征f_{_reg}输入到全连接模块中，全连接模块包含 3个全连接层，其输出维度分别为512、512、2。经全连接模块进行维度转换，输出位置估计，实现网络位置估计的回归，得到预测的匹配位置(x₀,y₀)。

但是预测到的匹配位置是由计算得到的匹配互相关图M_gen进行回归得到的，而M_gen是利用孪生网络提取模板图和异源搜索图的特征之后进行相似性度量得到的，在这一过程中受到孪生网络提取特征准确性的限制，因此提出了理想互相关图，对匹配互相关图进行判别反馈。

利用生成对抗网络，根据实际匹配位置信息构建理想互相关图 M_ide，作为匹配互相关图的监督信息。具体实施步骤为：

S410：构建理想互相关图M_ide。根据给定所述匹配位置信息构建理想互相关图，其尺寸为(M-N+1)×(M-N+1)，其中搜索图尺寸为M×M，待匹配的模板图尺寸为N×N。

在本发明实施例中，待匹配的模板图像尺寸为128×128，异源的搜索图像尺寸为256×256，建立理想互相关图M_ide，尺寸为 129×129。

S420：计算互相关图值。假设匹配位置点为(x₀,y₀)，则该位置处的值设为1，对于任意位置(x,y)处的值按下式给出：

从公式中可以看出，距离匹配位置(x₀,y₀)越远的点相关系数越低。设计这种互相关图作为每个匹配位置对应的理想互相关图保证了互相关图中只有一个主峰，且主峰下降速度较快，在相差十几个像素以上时相关系数将逐渐接近0。同时主峰占有一定位置区域也能有效抑制由于正负样本数量失衡而导致网络难以正确拟合互相关图。

通过上述分析，在本发明实施例中，利用生成对抗网络进行弱监督学习，对匹配互相关图进行判别反馈，使得匹配互相关图尽可能效果最好的表达出两个特征图的相关信息。该方式具体步骤如下：

S510：构建判别器网络，判别器网络结构如图6所示。每一层包含卷积层、归一化层和激活层，归一化层使用批归一化，激活层使用 LeakyReLU作为激活函数。

构建判别器的主体网络，该网络包含六层卷积块，具体实现为：

S511：第一层卷积层利用大小为2、步长为1的卷积核将特征图尺寸降为128×128并提升特征维度。

S512：中间四层使用大小为4、步长为2的卷积核来降低特征图尺寸并提升维度。

S513：最后一层使用大小为1的卷积核对特征图进行降维处理，输出的矩阵为判别网络对输入信息整体的判别结果。

S520：将匹配互相关图矩阵图M_gen和理想互相关图矩阵M_ide分别输入到判别器网络中，判别器度量两个互相关图之间的距离，输出的矩阵为判别网络对输入信息整体的判别结果。

S530：在具体实施过程中，判别网络损失函数为L_D-net(D)：

其中，x为输入样本，λ为梯度惩罚权重，为保证判别器的损失不出现负值而导致梯度反向传播错误，整体损失函数还加了一个固定偏移量b，该值取1.0。

可见光图像T与红外图像I同时输入到孪生网络中提取两者的相似特征，经相关层得到两组特征的匹配互相关图，由匹配互相关图经回归层得到估计位置。另一方面，匹配互相关图输入到判别网络中，理想互相关图也输入到判别网络中，判别网络度量两个互相关图之间的距离。在用可见光模板特征图F_T和红外搜索图F_I得到匹配互相关图之后，依然加入理想互相关图，用判别器进行判别反馈的好处在于：

(1)判别网络的目的是为了将匹配互相关图与理想互相关图尽可能区分开，将匹配互相关图判别为假而理想互相关图判别为真。与此同时，生成网络则从判别网络的判别结果得到反馈，调整其网络参数，使其生成的互相关图经判别网络判别后尽量为真。

(2)生成器无法直接感知到理想互相关图的特征分布，而是通过判别器反馈的判别结果间接感知到理想互相关图可能的特征分布形式。这样做的好处是，网络并没有对生成器生成的互相关图进行完全约束，而是以一种弱监督的方式使得生成网络不必强行生成与理想互相关图一致的互相关图，只需要接近即可，这样能够有效地避免网络寻优过程出现特征提取失败的情况。

S540：生成损失函数整体分为两部分，分别为对抗损失和回归损失：

对抗损失的损失函数定义为：

L_G-adv＝E_x[D(G(x))]

回归损失的损失函数定义为：

综上所述，二者整体的损失函数为生成网络的损失函数L_G-net：

L_G-net＝-L_G-adv+γL_G-re+b

其中，γ为回归损失权重。同样，为防止损失函数出现负值的情况，损失函数中加了一个固定偏移量b，该值取1.0。

对抗损失使得生成网络能够间接感知理想互相关图特征分布，从而优化互相关图，回归损失则是对匹配位置的约束，保证回归网络能够对互相关图进行正确的位置估计。

在整体网络搭建之后，进行数据集的准备及训练。在具体实施过程中，训练时使用的128×128分辨率图像是在300张256×256分辨率的训练集上随机截取得到。测试集使用的128×128分辨率图像则是在另外200张256×256分辨率的测试集上随机截取得到的。为保证选择的数据集的有效性，对截取得到的图像进行了一定的筛选，选择其中信息量较大的图像，以满足匹配要求。通过计算归一化到0～1 后的图像像素的标准差，对于标准差大于0.1的认为其图像信息较为丰富，予以保留，小于0.1的则予以剔除。

网络训练的所有数据集均来自于Kaist实验室发布的车载道路场景可见光-红外配对数据集。数据集制备完成后，在数据集上进行了训练和测试，对孪生网络提取的特征图进行了可视化，如图7所示，第一行为256×256分辨率的红外图像及其提取到的特征图，第二行是截取与红外图像场景相同的128×128分辨率的可见光图像及其提取到的特征图。可以看到本发明提出的方法提取到的特征图清晰，其以一个个较小的亮块对输入图像中对应目标进行了响应，其粒度小，区分精度高。同时本发明还对生成的互相关图进行了可视化输出，如图8所示。可以看出本发明提出的方法生成的优化互相关图，其主峰突出，而次峰被抑制在一个很小的高度。

为了比较用理想互相关图进行优化是否能提升网络的特征提取及匹配效果，本发明进行了一定的实验对比：

将用孪生网络生成特征图并直接进行归一化计算互相关图的网络结构SiameseNCR与本发明SiameseNCR-GAN网络进行实验对比，其中SiameseNCR-GAN是在SiameseNCR网络基础上加入GAN来生成理想互相关图对计算得到的互相关图进行判别反馈来进行互相关图优化的网络。

首先为了比较SiameseNCR网络和SiameseNCR-GAN对于孪生网络提取特征的优化能力，分别利用这两种网络对可见光图像和红外搜索图进行特征提取，结果如图9和图10所示，分别代表了街道场景图像以及马路场景图像特征提取结果对比。第一行分别为 256×256分辨率的红外图像、其利用SiameseNCR网络提取到的特征图、其利用SiameseNCR-GAN网络提取到的特征图；第二行是截取与红外图像场景相同的128×128分辨率的可见光图像、其利用 SiameseNCR网络提取到的特征图、其利用SiameseNCR-GAN网络提取到的特征图。图中方框标示了红外实时图像与可见光图像之间的对应位置关系，每次输入网络中包含一张红外图像(大图)和一张可见光图像(小图)，另外特征提取结果图中包含了两张可见光图像表示进行了两次匹配过程。

从图中可以看出，SiameseNCR网络生成的特征图比较模糊，可以观察到其相对于原图的对应响应关系，反映的是原图中的轮廓和部分纹理细节，但生成的图像均不够清晰，存在一些无关特征。而 SiameseNCR-GAN网络提取到的特征图则更为清晰，以一个个较小的亮块对输入图像中对应目标进行了响应，其粒度更小，具有更精确的区分度。另外SiameseNCR对房子和树提取特征后，其目标的轮廓模糊，对于整个房子目标而言，提取的各区域特征融合在一块，从而很难对房子结构加以区分，而SiameseNCR-GAN结果中，房子的特征虽然已经很难分辨，但更为清晰，房子各结构之间的特征对比明显。典型的对人物进行的特征提取结果对比中，SiameseNCR得到的原始的两个人物提取特征后融合为一个，已经不具有区分度，斑马线处的图像块较大，同时存在阴影；对比SiameseNCR-GAN中提取的特征，两人物的特征重叠情况减弱，同时人物的头部和身体可以明显区分，对于斑马线部分的响应块也更小，区分度更大。另外，本发明在实验中也观察到采用生成对抗网络对生成的互相关图进行弱化监督后，提取的特征基本都是对应目标的响应，证明特征提取结果有效。

为更加客观地判断两个网络的孪生网络部分对红外图和可见光图的特征提取效果，本发明将红外特征图对应区域截取出来，与可见光特征图进行相似性对比，相似度越高说明孪生网络提取的特征的匹配性能越好。考虑到本发明在相关层使用余弦距离度量匹配特征相似性，因此在此处依然使用余弦距离度量两特征图的相似性。度量结果如下：

表1孪生网络提取特征的相似性

网络模型	数据集A	数据集B
			SiameseNCR	0.714	0.735
SiameseNCR-GAN	0.853	0.867

由表中的相似性计算结果可以看出，相较于SiameseNCR网络，经过互相关图优化后，SiameseNCR-GAN网络提取的匹配特征相似性更高，且提升显著，更高的相似性意味着进行匹配时的性能更好。当然，除了要保证与对应区域的相似性更高，还需要判断在非对应区域的相似性是否尽可能低，以提高匹配定位精度，下面将从互相关图的分布进行分析。

为观察SiameseNCR-GAN对互相关图的优化结果，本发明对网络相关层中生成的特征互相关图进行了三维可视化，并与基于 SiameseNCR网络的互相关图进行了对比，其对比结果如图11所示。

由图中可以看出，SiameseNCR算法可以使得图像匹配的互相关图主峰在实际位置附近，但误差较大。而在SiameseNCR-GAN算法中，采用生成对抗网络对匹配互相关图进行优化后，主峰的下降梯度增加，其主峰更为突出，而次峰基本被抑制在一个很小的高度，说明生成对抗网络能够有效地优化匹配互相关图。

为进一步比较互相关图优化性能，本发明实施例中计算了互相关图中相关系数的极值、均值和标准差，计算结果如表2所示。

表2不同网络模型中互相关图的均值与标准差

由表中的统计结果可以看出，不经过互相关图优化时其相关系数均值约为0.25，而优化后均值约为0.05，优化前约为优化后的5倍，说明优化后整体相关系数维持在一个较低水平。另外在相关系数标准差中，优化前约为优化后的2倍，说明优化后的波动更小。同时两种互相关图的最大值接近，说明经过优化后的互相关图主峰更为尖锐，而这也与图11所给出的互相关图分布形式一致。综合以上分析可以看出，经过SiameseNCR-GAN优化后的互相关图的主峰得到了有效地突出，而次峰等干扰则显著地被抑制，说明SiameseNCR-GAN实现了很好的互相关图优化效果。

接下来，为了进一步说明本发明方法所实现的异源图像匹配效果，本发明将灰度直接匹配、ORB特征点匹配和Canny边缘特征匹配方法与本发明算法进行了对比。另外还将SiameseNCR加入对比实验，验证GAN对于匹配效果是否存在优化能力。ε为匹配时的误差容限像素，在不同的匹配误差容限下，不同方法得到的匹配正确率结果如表3所示：

表3不同方法得到的匹配正确率结果

匹配方法	ε＝1(像素)	ε＝2(像素)	ε＝3(像素)
				灰度匹配	0.3％	1.0％	1.5％
ORB特征点匹配	0.5％	0.9％	1.2％
				边缘特征匹配	43.9％	49.3％	74.8％
SiameseNCR	30.8％	62.7％	88.1％
				SiameseNCR-GAN	68.7％	84.9％	93.7％

由表3的第二行、第三行、第四行及第六行可知，与基于人工设计特征进行匹配的方法相比，本发明提出的SiameseNCR-GAN算法具有更高的匹配成功率，其匹配率显著高于基于灰度、基于点特征和基于线特征的异源图像匹配方法，说明本发明提出的算法能够很好地解决异源图像间匹配困难的问题；由表3的第五行及第六行可知，相较于基于SiameseNCR算法，SiameseNCR-GAN算法的匹配性能在不同测试集上均有大幅度提升，尤其是在低误差容限条件下提升更为显著，表明利用生成对抗网络对互相关图进行优化能够提高图像的定位精度。

综合以上分析，本发明提出的SiameseNCR-GAN算法能够有效地提取到异源图像间稳定的匹配特征，其提取的特征结构清晰，区分度大，匹配时得到的匹配互相关图主峰明显，非匹配位置的峰值则被有效地抑制。对比不同算法在测试集上的匹配率，本发明提出的算法在不同成像条件下整体上匹配率更高，表明SiameseNCR-GAN算法鲁棒性更强，综合匹配性能更好。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。