CN109064502A

CN109064502A - 基于深度学习和人工设计特征相结合的多源图像配准方法

Info

Publication number: CN109064502A
Application number: CN201810754359.6A
Authority: CN
Inventors: 张秀伟; 张艳宁; 齐予海; 田牧; 金娇娇; 陈妍佳; 李飞
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2018-12-21
Anticipated expiration: 2038-07-11
Also published as: CN109064502B

Abstract

本发明提供了一种基于深度学习和人工设计特征相结合的多源图像配准方法。首先采用传统的人工设计特征点提取方法来提取匹配点对，并利用改进的加权图变换算法去除误匹配点对；然后，以匹配点对坐标为中心，分别在基准图像和待配准图像中截取固定大小的图像块得到匹配图像块集合；接着，构建相似性度量深度卷积网络模型，并使用自建的多源匹配图像数据集对模型进行预训练，再利用前面获得的匹配图像块集合对预训练网络模型进行微调，得到最终的网络模型；最后，利用此网络对基准图像和待配准图像中的图像块进行相似性度量，计算变换矩阵，并完成图像配准。本发明方法结合了人工设计特征以及基于深度学习的特征度量，提高了图像配准的精度。

Description

基于深度学习和人工设计特征相结合的多源图像配准方法

技术领域

本发明属图像配准技术领域，具体涉及一种基于深度学习和人工设计特征相结合的多源图像配准方法。

背景技术

多源图像配准是指将不同类型的传感器从不同时间、不同角度所获得的针对同一场景的两幅或多幅图像数据进行预处理后，再采用一定的算法或模型将它们变换到同一坐标系下的过程，这里的多源图像主要是指可见光图像、热红外图像、近红外图像、高光谱图像的单波段图像等。多源图像配准为多源图像处理提供了统一的空间基准，是多源图像融合等处理的基础，可用于图像拼接、目标检测、运动估计、特征匹配等，具有重要的研究意义和实用价值。

在现有的多源图像配准方法中，无论是基于特征的图像配准方法还是基于灰度的图像配准方法，在匹配阶段都需要采用某个相似性度量标准进行匹配与否的判断。因此，多源图像配准的难点就在于相似性难以度量，同名点的特征描述不一致，灰度信息也不一致，而传统的相似性度量方法难以达到度量值越小相似度越高的目标。

文献“M.Izadi,P.Saeedi.Robust Weighted Graph Transformation Matchingfor Rigid and Nonrigid Image Registration.[J].IEEE Transactions on ImageProcessing A Publication of the IEEE Signal Processing Society,2012,21(10):4369”提出了一种基于图变化匹配(GTM)的加权图变换算法(WGTM)，引入角距离作为另一空间信息对匹配点对进行判断，从而进行外点去除。该算法首先构造了中值K邻接图及邻接矩阵，然后给每个特征点构建权重矩阵，根据权重值的大小进行多次迭代筛选内点和外点。该算法在配准成功率上优于现有其他方法，但由于筛选内点的条件过于苛刻，导致配准匹配点对数量太少，从而降低了配准精度。

发明内容

为了解决现有多源图像配准方法提取的配准点对数量少和配准精度不高的问题，本发明提供一种基于深度学习和人工设计特征相结合的多源图像配准方法。首先采用传统的人工设计特征点提取方法来提取匹配点对，通过改进的加权图变换算法去除误匹配点对后，得到匹配点对集合；再以匹配点对集合中的匹配点对坐标为中心，分别在基准图像和待配准图像中截取固定大小的图像块得到匹配图像块集合；然后，构建基于深度卷积网络的图像块相似性度量网络，并使用自建的多源匹配图像数据集对整个模型进行预先训练，再使用前面获得的匹配图像块集合对预训练网络模型进行微调，得到最终的相似性度量模型；最后，以此网络作为相似性度量手段，对基准图像和待配准图像中的所有图像块进行相似性度量，计算得到变换矩阵，并完成图像配准。本发明方法通过传统提取特征匹配对的方式和深度学习的结合来进行相似性度量，提高了图像配准的精度。

一种基于深度学习和人工设计特征相结合的多源图像配准方法，其特征在于步骤如下：

步骤1：输入多源图像对，分别记为基准图像和待配准图像，采用传统人工设计特征点提取和匹配方法，分别对输入图像进行特征点提取和匹配，得到初步的特征点集P和P′，其中，P＝{p₁,…,p_N}是基准图像的特征点集合，P′＝{p′₁,…,p′_N}是待配准图像的特征点集合，两个集合中相同下标的两个元素p_i和p_i′为一对匹配点，i＝1,…,N，N为集合P中的特征点个数。

步骤2：采用改进的加权图变换算法去除错误匹配点对，具体为：

步骤2.1：以集合P中的特征点为顶点，当点p_i是点p_j的邻接特征点时，则有一条无向边(p_i,p_j)连接点p_i和p_j，同时令邻接矩阵A中的元素A(i,j)＝1；否则，点p_i和点p_j之间不存在无向边，并令邻接矩阵A中的元素A(i,j)＝0，其中，i＝1,…,N，j＝1,…,N，所有连接邻接特征点之间的无向边共同构成边的集合F_P。所述的邻接特征点需要满足条件：||p_i-p_j||≤η，η为阈值，Rmedian(·)表示取迭代中位数，||p_i-p_j||表示点p_i和点p_j空间上的欧式距离或马氏距离。

对集合P′按此步骤上述过程构造得到其邻接矩阵A′和边的集合F_P′。

如果集合P中某个特征点上与之相连的无向边个数少于2，则从集合P中删除该特征点，并从集合F_P中删除该特征点上的无向边，同时，对应从集合P′中删除与该特征点匹配的点，以及集合F_P′中与该特征点匹配的点上的无向边；如果集合P′中某个特征点上与之相连的无向边个数少于2，则从集合P′中删除该特征点，并从集合F_P′中删除该特征点上的无向边，同时，对应从集合P中删除与该特征点匹配的点，以及集合F_P中与该特征点匹配的点上的无向边。此时，集合P中剩余特征点构成集合V_p＝{v₁,…,v_n}，集合P′中剩余特征点构成集合V_p′＝{v₁′,…,v_n′}，n为集合P中剩余特征点的个数，集合F_P中剩余边构成集合E_P，集合F_P′中剩余边构成集合E_P′，集合V_p中的点及其点之间的无向边共同构成中值K邻近图G_p＝(V_p,E_p)，集合V_p′中的点及其点之间的无向边共同构成中值K邻近图G_p′＝(V_p′,E_p′)。

步骤2.2：构造得到权重矩阵W，如果集合V_p中特征点v_i和v_j之间没有无向边，则W(i,j)＝0，否则：

其中，W(i,j)表示集合V_p中连接特征点v_i和特征点v_j的无向边的权值，v_i和v_j为集合V_p中的点，v_i′和v_j′为集合V_p′中的点，表示特征点v_i在图像上的坐标向量，表示特征点v_j在图像上的坐标向量，表示特征点在图像上的坐标向量，表示特征点v_i′在图像上的坐标向量，表示特征点v_j′在图像上的坐标向量，i＝1,…,n，j＝1,…,n；Rot(·)表示转向率，θ(·)表示求取两个向量间的夹角，其计算公式分别如下：

其中，对于任意的坐标向量

其中，υ_y，υ_x分别表示向量在x方向和y方向的坐标值；

其中，(v_i,v_K)表示集合E_P中连接点v_i和v_K的无向边，(v_i,v_j)表示集合E_P中连接点v_i和v_j的无向边。

然后，对于集合V_p和V_p′中的对应匹配的点对v_i和v_i′，如果v_i′上的无向边的个数与v_i上的无向边的个数的比值小于0.5，则将权重矩阵W中所有不对应的边的权值W(i,l)设为π，所述的不对应的边，是指(v_i′,v_l′)属于E_P′，但(v_i,v_l)不属于E_P的边，i＝1,…,n，l＝1,…,n。

步骤2.3：对V_p中的每个特征点v_i，i＝1,…,n，按照下式计算其权重：

其中，M为特征点v_i上的无向边的个数，median(·)表示取中位数。

找到所有特征点的权重最大值ω_max，并从集合V_p中删除权重最大值ω_max对应的特征点，同时从集合V_p′中删除与该特征点匹配的点。

然后，计算剩余所有特征点权重的均值μ，如果ω_max＜π且|μ-μ_old|＜ε，则此时的特征点集合V_p和V_p′即为最终的特征点集合；否则，令μ_old＝μ，以此时的特征点集合V_p和V_p′作为初始特征点集合P和P′，返回步骤2.1；其中，μ_old的初始值为2π，阈值ε＝0.001。

步骤3：以步骤2得到的最终特征点集合V_p和V_p′为基础，首先，计算两个集合中各匹配特征点对v_i和v_i′的尺度比值，并计算所有尺度比值的平均值作为相似尺度值，其中，i＝1,…,n1，n1为特征点集合V_p中最终剩余的特征点个数；然后，将待配准图像变换到基准图像的这个相似尺度上，并分别以各个特征点的坐标为中心分别在基准图像和待配准图像中截取65×65大小的匹配图像块，所有匹配图像块构成匹配图像块数据集。

步骤4：构建多源图像块相似性度量深度卷积网络模型，该网络包括2层卷积层、2层池化层和3层全连接层，具体网络结构为：第1个卷积层使用32个大小为3×3×3的卷积核来进行卷积，得到的结果通过非线性激活函数RELU后送入第1个池化层；第1个池化层的池化核的大小为2×2，采用最大池化方法，池化的步长为2，得到结果送入第2个卷积层；第2个卷积层使用64个大小为3×3×3的卷积核来进行卷积，得到结果通过非线性激活函数RELU函数送入第2个池化层；第2个池化层与第1个池化层参数相同，得到结果送入第1个全连接层；在进入第1个全连接层前将第2个池化层输出的数据变为一维向量，经过第1个全连接层输出节点数量变为500，并送入第2个全连接层中；数据经过第2个全连接层输出节点数量变为10并送入第3个全连接层中；数据经过第3个全连接层输出一个一维向量，节点数为2；网络的损失函数采用对比损失函数，由正例部分和反例部分组成。

步骤5：将多源图像匹配数据集的训练集数据输入到步骤4得到的多源图像块相似性度量深度卷积网络，采用Adam优化方法对网络进行迭代训练，得到预训练网络模型。

所述的多源图像匹配数据集按如下方法构建得到：给定已有的已逐像素空间对齐后的多源图像数据集，在两幅匹配图像中分别以同一特征点空间坐标为中心截取65×65的图像块，得到匹配图像块，并设其标签为0，记为正样本；在两幅匹配图像中分别以任意不同空间坐标为中心截取65×65的图像块，得到不匹配图像块，并设其标签为1，记为负样本；所有正负样本共同构成多源图像匹配数据集，其中，每组数据包含两个图像块和一个标签；多源图像匹配数据集中的数据按照3:1:1的比例划分为训练集、测试集和验证集。

步骤6：将多源图像匹配数据集的测试集数据中的所有样本标签均设置为0，并输入到步骤5得到的预训练网络模型，每组测试数据得到一个网络输出损失值，以能够最大程度将测试数据集中的正负样本分开的损失值为阈值T；

步骤7：将多源图像块相似性度量深度卷积网络模型中除了全连接层外的所有其他层均固定使用步骤5得到的预训练模型中的参数，并以步骤3得到的匹配图像块数据集为输入，采用Adam优化方法对网络模型进行训练，训练时仅对全连接层的参数进行迭代优化，得到最终的网络模型。

步骤8：以步骤1中的特征点集合P和P′为基础，首先，计算两个集合中各匹配特征点对p_i和p_i′的尺度比值，并计算所有尺度比值的平均值作为相似尺度值，其中，i＝1,…,N；然后，将待配准图像变换到基准图像的这个相似尺度上，并分别以各个特征点的坐标为中心在基准图像和待匹配图像中截取65×65大小的对应图像块，将这些对应图像块分别输入到步骤7得到的最终的网络模型中，如果得到的网络输出损失值小于阈值T，则输入的对应图像块对即为一对匹配的图像块，图像块的中心点坐标即为一对匹配的点对。利用所有匹配点对的坐标，使用最小二乘法计算得到变换矩阵H，利用变换矩阵H将待配准图像变换到基准图像坐标系下，完成图像配准。

步骤1中所述的传统人工设计特征点提取和匹配方法包括SIFT方法、SR-SIFT方法、MOGSIFT方法、SURF方法、MMSURF方法，匹配搜素过程采用K-D Tree加速。

步骤5中所述的已有的多源图像数据集包括：公开数据集OSU、AIC、KAIST，以及各种自建的可见光-热红外、可见光-近红外、可见光-高光谱图像数据集。

本发明的有益效果是：由于采用传统人工设计特征点提取与描述方法初步提取特征点，并采用改进的基于加权图匹配的方法去除其中的错误匹配点对，提高了初始匹配点对的正确性；由于利用初始匹配点对已训练好的多源图像块相似性度量深度网络模型进行再训练，使网络的度量精度更高；由于结合了人工设计特征以及基于深度学习的特征度量，可以更加准确鲁棒得进行多源图像相似特征的提取和度量，获得更多的正确匹配点对数目，变换矩阵计算更加精确，提高图像配准的精度。

具体实施方式

下面结合实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

本发明提供了一种基于深度学习和人工设计特征相结合的多源图像配准方法，其基本实现过程如下：

1、基于传统特征点提取方法对输入的多源图像对寻找匹配点对

输入多源图像对，分别记为基准图像和待配准图像，采用传统人工设计特征点提取和匹配方法分别对输入图像进行特征点提取和匹配，可用方法有SIFT方法、SR-SIFT方法、MOGSIFT方法、SURF方法、MMSURF方法等，匹配搜素过程采用K-D Tree加速。这些方法均是图像配准领域的经典算法。由此得到初步的特征点集P和P′，其中，P＝{p₁,…,p_N}是基准图像的特征点集合，P′＝{p′₁,…,p′_N}是待配准图像的特征点集合，两个集合中相同下标的两个元素p_i和p_i′为一对匹配点，i＝1,…,N，N为集合P中的特征点个数。

其中，SIFT方法记录在文献“Lowe DG.Distinctive Image Features fromScale-Invariant Keypoints(SIFT)[J].IJCV,2004,60(2):91-110.”中，SR-SIFT方法记录在文献“Yi Z,Zhiguo C,Yang X.Multi-spectral remote image registration based onSIFT[J].Electronics Letters.2008,44(2):107-108.”中，MOGSIFT方法记录在文献“LvG,Teng SW,Lu G.Enhancing SIFT-based Image Registration Performance byBuilding and Selecting Highly Discriminating Descriptors(MOGSIFT)[J].PatternRecognition Letters.2016,84:156-162.”中，SURF方法记录在文献“Bay H etal.Speeded-Up Robust Features(SURF)[J].Computer Vision&ImageUnderstanding.2008,110(3):346-359.”中，MMSURF方法记录在文献“Zhao D et al.Rapidmultimodality registration based on MM-SURF[J].Neurocomputing.2014,131(131):87-97.”中，K-D Tree加速方法记录在文献“C Silpaanan,R Hartley.Optimised KD-treesfor fast image descriptor matching.IEEE Conference on Computer Vision&PatternRecognition,2008:1-8.”中。

2、利用改进的加权图变换算法去除错误匹配对

由于传统的特征点采用的匹配方式依赖于特征描述的准确性，因此匹配中往往存在错误匹配对，需要采用数据拟合方法剔除其中的错误匹配对，本发明采用了一种改进的加权图变换算法去除错误匹配对。具体为：

步骤2.1：以集合P中的特征点为顶点，当点p_i是点p_j的邻接点时，则有一条无向边(p_i,p_j)连接点p_i和p_j，所述的邻接点需要满足条件：||p_i-p_j||≤η，η为阈值，Rmedian(·)表示取迭代中位数，||p_i-p_j||表示点p_i和点p_j空间上的欧式距离或马氏距离，i和j分别为集合P中特征点的下标，i＝1,…,N，j＝1,…,N。此处，为了克服特征点存在多簇分布情况带来的影响，采用了迭代中位数，而非中位数。如果点p_i和p_j满足上述邻接点条件，则认为这两个点间存在相邻边(p_i,p_j)，即(p_i,p_j)∈F_p，F_p为集合P中特征点间边的集合；反之，如果这两点不满足上述邻接点条件，则认为这两点间不存在边，即

基于上述描述，构造对于集合P中的点构造邻接矩阵A：

对集合P′按上述过程构造得到其邻接矩阵A′和边的集合F_P′。

如果集合P中某个特征点上与之相连的无向边个数少于2，则从集合P中删除该特征点，并从集合F_P中删除该特征点上的无向边，同时，对应从集合P′中删除与该特征点匹配的点，以及集合F_P′中与该特征点匹配的点上的无向边；如果集合P′中某个特征点上与之相连的无向边个数少于2，则从集合P′中删除该特征点，并从集合F_P′中删除该特征点上的无向边，同时，对应从集合P中删除与该特征点匹配的点，以及集合F_P中与该特征点匹配的点上的无向边。

此时，集合P中剩余特征点构成集合V_p＝{v₁,…,v_n}，集合P′中剩余特征点构成集合V_p′＝{v₁′,…,v_n′}，n为集合P中剩余特征点的个数，集合F_P中剩余边构成集合E_P，集合F_P′中剩余边构成集合E_P′，集合V_p中的点及其点之间的无向边共同构成中值K邻近图G_p＝(V_p,E_p)，集合V_p′中的点及其点之间的无向边共同构成中值K邻近图G_p′＝(V_p′,E_p′)。

步骤2.2：构造得到权重矩阵W：

W(i,j)表示集合V_p中连接特征点v_i和特征点v_j的无向边的权值。如果集合V_p中特征点v_i和v_j之间没有无向边，则W(i,j)＝0；否则，按如下公式计算W(i,j)。

其中，v_i和v_j为集合V_p中的点，v_i′和v_j′为集合V_p′中的点，表示特征点v_i在图像上的坐标向量，表示特征点v_j在图像上的坐标向量，表示特征点在图像上的坐标向量，表示特征点v_i′在图像上的坐标向量，表示特征点v_j′在图像上的坐标向量，i＝1,…,n，j＝1,…,n；Rot(·)表示转向率，θ(·)表示求取两个向量间的夹角，用于求解有向边和之间的夹角；k_min(·)函数是为了求取相对于输入点而言最优的旋转角度，该最优旋转角是由另一个特征点来决定，这里用特征点序号K_min来表示。其计算公式分别如下：

上述公式的含义为：对于给定的输入点v_i，在集合E_P所有与之相连的特征点v_K中，寻找一个特征点使得所有与v_i相连的有向边(v_i,v_j)在按照角度旋转后，与有向边(v_i′,v_j′)的夹角之和最小。

其中，α表示弧度，表示二维坐标向量，υ_y，υ_x分别表示该向量在x方向和y方向的坐标值。

对于集合V_p和V_p′中的对应匹配的点对v_i和v_i′，如果v_i′上的无向边的个数与v_i上的无向边的个数的比值小于0.5，则将权重矩阵W中所有不对应的边的权值W(i,l)设为π。所述的不对应的边，是指(v_i′,v_l′)属于E_P′，但(v_i,v_l)不属于E_P的边，i＝1,…,n，l＝1,…,n。即：

然后，计算剩余所有特征点权重的均值μ，如果ω_max＜π且|μ-μ_old|＜ε，则此时的特征点集合V_p和V_p′即为最终的特征点集合；否则，令μo_ld＝μ，以此时的特征点集合V_p和V_p′作为初始特征点集合P和P′，返回步骤2.1；其中，μo_ld的初始值为2π，阈值ε＝0.001。

每一次迭代都将会有一个外点及其对应点被移除出匹配点集，这个过程将使得μ逐渐减小，一旦所有的外点都被去除，算法将找到内点中最“坏”的点并认为它为外点，此时的μ改变的值将很小，满足停止迭代条件。

3、利用初始匹配点集构造得到匹配图像块数据集

由于输入的图像对之间可能存在较大的尺度差异，如果直接从基准图像和待配准图像上截取图像块，则所截取的两个图像块并不是空间上匹配的。因此，需要首先估计基准图像和待配准图像间的尺度变化，将待配准图像缩放到与基准图像近似尺度上，再进行图像块的截取，才能得到匹配图像块。

由于采用传统人工设计特征点提取方法进行特征点提取时，包含了特征点的尺度信息。因此，以步骤2得到的最终特征点集合V_p和V_p′为基础，首先，计算两个集合中各匹配特征点对v_i和v_i′的尺度比值，并计算所有尺度比值的平均值作为尺度变换的估计值，即相似尺度值，其中，i＝1,…,n1，n1为特征点集合V_p中最终剩余的特征点个数；然后，将待配准图像变换到基准图像的这个相似尺度上，并分别以各个特征点的坐标为中心分别在基准图像和待配准图像中截取65×65大小的匹配图像块，所有匹配图像块构成匹配图像块数据集，这个数据集用于对后面的多源图像块相似性度量深度卷积网络模型进行微调。

4、构建基于深度卷积网络的多源图像块相似性度量模型

本发明方法，借鉴Siamese网络思想，构建多源图像块相似性度量深度卷积网络模型。该网络包括2层卷积层、2层池化层和3层全连接层，损失函数为对比损失函数。考虑到不同源图像在灰度分布和纹理方面差异较大，与Siamese网络不同，该网络的两个网络分支的权值是不共享的，每个分支代表不同的特征提取过程。具体网络结构为：

第1个卷积层使用32个大小为3×3×3的卷积核来进行卷积，得到的结果通过非线性激活函数RELU后送入第1个池化层；第1个池化层的池化核的大小为2×2，采用最大池化方法，池化的步长为2，得到结果送入第2个卷积层；第2个卷积层使用64个大小为3×3×3的卷积核来进行卷积，得到结果通过非线性激活函数RELU函数送入第2个池化层；第2个池化层与第1个池化层参数相同，得到结果送入第1个全连接层；在进入第1个全连接层前将第2个池化层输出的数据变为一维向量，经过第1个全连接层输出节点数量变为500，并送入第2个全连接层中；数据经过第2个全连接层输出节点数量变为10并送入第3个全连接层中；数据经过第3个全连接层输出一个一维向量，节点数为2；网络的损失函数采用对比损失函数，由正例部分和反例部分组成。

5、使用自建多源匹配图像数据集对网络进行预训练

首先，基于已有的多源图像数据集构建多源匹配图像数据集，已有的多源图像数据集包括OSU、AIC、KAIST等公开多源图像数据集，以及各种自建的可见光-热红外，可见光-近红外，可见光-高光谱图像数据集合。由于已有多源图像数据集中对应的多源图像均已逐像素空间对齐，因此，构建的数据集中的每一组数据包含两幅图像块和一个标签，如果这两个图像块分别是由一对匹配点为中心截取的65×65大小得到的图像块，则其标签为0，为正样本；反之，如果这两个图像块是由一对不匹配的点为中心截取的65×65大小得到的图像块，则其标签为1，为负样本。并将构建的数据集按照3：1：1的比例将其分成训练集、测试集和验证集。

将训练集数据输入前面构建的多源图像块相似性度量深度卷积网络模型，采用Adam优化方法对网络进行迭代训练，得到训练后的模型参数，称为预训练模型。

其中，公开多源图像数据集OSU记录在文献“Conaire C O,Cooke E,Connor O N,et al.Background modeling infrared and visible spectrum video for peopletracking[C].IEEE Computer Society Conference onComputer Vision and PatternRecognition-Workshops,2005:20-20.”中，AIC记录在文献“Leykin A,Hammoud R.Robustmulti-pedestrian tracking in thermal-visible surveillance videos.IEEEConference on Computer Vision and Pattern Recognition Workshops[C],2006,0:136.”中，KAIST记录在文献“Soonmin H,Jaesik P,Namil K,et al.MultispectralPedestrian Detection:Benchmark Dataset and Baseline,Computer Vision&PatternRecognition,2015:1037-1045.”中。

6、基于测试数据集，计算最佳分类阈值T

在测试阶段，将测试集中的数据样本标签都设置为0，仅考虑对比损失函数中的正例损失部分，即两个输入图像在特征空间中的相似性。并将测试样本输入到预训练模型中。这种情况下，标签原本为0的测试数据，在通过预训练模型时，输出的损失普遍都会很小；而标签原本为1的测试数据，强制把其标签设为0，则通过预训练模型输出的损失将会普遍很大。因此，通过预训练模型输出的损失，可以将两类标签不同的测试数据显著区别开来。对于每组测试数据将得到一个网络输出损失值，在此基础上，以最大程度上将测试数据集中的正负样本区分开来的损失值即作为阈值T。阈值T的求取可看作一维数据的二分类问题，阈值T即为最佳的分界点，可以利用逻辑回归算法计算得到。

7、网络微调

由于多源图像数据量相对较少，模态间差异也常随时间发生变化，使用预训练模型对实际问题的图像进行配准时，难以取得很满意效果，需要对预训练模型进行微调工作。微调操作可以使网络模型更加适用于当前问题，微调也是深度神经网络模型在实际应用时的常用步骤。此处的做法是：多源图像块相似性度量深度卷积网络模型中除了全连接层外的所有层都固定使用步骤5得到的预训练模型中对应层的参数，并以步骤3得到的匹配图像块数据集为输入，使用Adam优化方法对网络模型进行训练，训练时仅仅对全连接层的参数进行迭代优化，完成微调工作，从而得到最终的相似性度量模型。

8、计算变换矩阵并完成图像配准

以步骤1中的特征点集合P和P′为基础，首先，计算两个集合中各匹配特征点对p_i和p_i′的尺度比值，并计算所有尺度比值的平均值作为尺度变换的估计值，即相似尺度值，其中，i＝1,…,N；然后，将待配准图像变换到基准图像的这个相似尺度上，并分别以各个特征点的坐标为中心在基准图像和待匹配图像中截取65×65大小的对应图像块，将这些对应图像块分别输入到步骤7得到的最终的网络模型中，如果得到的网络输出损失值小于阈值T，则输入的对应图像块对即为一对匹配的图像块，图像块的中心点坐标即为一对匹配的点对，记录图像块的中心点坐标，并使用这些坐标使用最小二乘法计算得到变换矩阵H，待配准图像通过变换矩阵H的变换得到一个新的图像，即将待配准图像变换到与基准图像在同一坐标系下，从而完成图像配准。

Claims

1.一种基于深度学习和人工设计特征相结合的多源图像配准方法，其特征在于步骤如下：

步骤1：输入多源图像对，分别记为基准图像和待配准图像，采用传统人工设计特征点提取和匹配方法，分别对输入图像进行特征点提取和匹配，得到初步的特征点集P和P′，其中，P＝{p₁,…,p_N}是基准图像的特征点集合，P′＝{p′₁,…,p′_N}是待配准图像的特征点集合，两个集合中相同下标的两个元素p_i和p_i′为一对匹配点，i＝1,…,N，N为集合P中的特征点个数；

步骤2.1：以集合P中的特征点为顶点，当点p_i是点p_j的邻接特征点时，则有一条无向边(p_i,p_j)连接点p_i和p_j，同时令邻接矩阵A中的元素A(i,j)＝1；否则，点p_i和点p_j之间不存在无向边，并令邻接矩阵A中的元素A(i,j)＝0，其中，i＝1,…,N，j＝1,…,N，所有连接邻接特征点之间的无向边共同构成边的集合F_P。所述的邻接特征点需要满足条件：||p_i-p_j||≤η，η为阈值，Rmedian(·)表示取迭代中位数，||p_i-p_j||表示点p_i和点p_j空间上的欧式距离或马氏距离；

对集合P′按此步骤上述过程构造得到其邻接矩阵A′和边的集合F_P′；

如果集合P中某个特征点上与之相连的无向边个数少于2，则从集合P中删除该特征点，并从集合F_P中删除该特征点上的无向边，同时，对应从集合P′中删除与该特征点匹配的点，以及集合F_P′中与该特征点匹配的点上的无向边；如果集合P′中某个特征点上与之相连的无向边个数少于2，则从集合P′中删除该特征点，并从集合F_P′中删除该特征点上的无向边，同时，对应从集合P中删除与该特征点匹配的点，以及集合F_P中与该特征点匹配的点上的无向边。此时，集合P中剩余特征点构成集合V_p＝{v₁,…,v_n}，集合P′中剩余特征点构成集合V_p′＝{v₁′,…,v_n′}，n为集合P中剩余特征点的个数，集合F_P中剩余边构成集合E_P，集合F_P′中剩余边构成集合E_P′，集合V_p中的点及其点之间的无向边共同构成中值K邻近图G_p＝(V_p,E_p)，集合V_p′中的点及其点之间的无向边共同构成中值K邻近图G_p′＝(V_p′,E_p′)；

其中，对于任意的坐标向量

其中，υ_y，υ_x分别表示向量在x方向和y方向的坐标值；

其中，(v_i,v_K)表示集合E_P中连接点v_i和v_K的无向边，(v_i,v_j)表示集合E_P中连接点v_i和v_j的无向边；

然后，对于集合V_p和V_p′中的对应匹配的点对v_i和v_i′，如果v_i′上的无向边的个数与v_i上的无向边的个数的比值小于0.5，则将权重矩阵W中所有不对应的边的权值W(i,l)设为π，所述的不对应的边，是指(v_i′,v_l′)属于E_P′，但(v_i,v_l)不属于E_P的边，i＝1,…,n，l＝1,…,n；

其中，M为特征点v_i上的无向边的个数，median(·)表示取中位数；

找到所有特征点的权重最大值ω_max，并从集合V_p中删除权重最大值ω_max对应的特征点，同时从集合V_p′中删除与该特征点匹配的点；

然后，计算剩余所有特征点权重的均值μ，如果ω_max＜π且|μ-μ_old|＜ε，则此时的特征点集合V_p和V_p′即为最终的特征点集合；否则，令μ_old＝μ，以此时的特征点集合V_p和V_p′作为初始特征点集合P和P′，返回步骤2.1；其中，μ_old的初始值为2π，阈值ε＝0.001；

步骤3：以步骤2得到的最终特征点集合V_p和V_p′为基础，首先，计算两个集合中各匹配特征点对v_i和v_i′的尺度比值，并计算所有尺度比值的平均值作为相似尺度值，其中，i＝1,…,n1，n1为特征点集合V_p中最终剩余的特征点个数；然后，将待配准图像变换到基准图像的这个相似尺度上，并分别以各个特征点的坐标为中心分别在基准图像和待配准图像中截取65×65大小的匹配图像块，所有匹配图像块构成匹配图像块数据集；

步骤4：构建多源图像块相似性度量深度卷积网络模型，该网络包括2层卷积层、2层池化层和3层全连接层，具体网络结构为：第1个卷积层使用32个大小为3×3×3的卷积核来进行卷积，得到的结果通过非线性激活函数RELU后送入第1个池化层；第1个池化层的池化核的大小为2×2，采用最大池化方法，池化的步长为2，得到结果送入第2个卷积层；第2个卷积层使用64个大小为3×3×3的卷积核来进行卷积，得到结果通过非线性激活函数RELU函数送入第2个池化层；第2个池化层与第1个池化层参数相同，得到结果送入第1个全连接层；在进入第1个全连接层前将第2个池化层输出的数据变为一维向量，经过第1个全连接层输出节点数量变为500，并送入第2个全连接层中；数据经过第2个全连接层输出节点数量变为10并送入第3个全连接层中；数据经过第3个全连接层输出一个一维向量，节点数为2；网络的损失函数采用对比损失函数，由正例部分和反例部分组成；

步骤5：将多源图像匹配数据集的训练集数据输入到步骤4得到的多源图像块相似性度量深度卷积网络，采用Adam优化方法对网络进行迭代训练，得到预训练网络模型；

所述的多源图像匹配数据集按如下方法构建得到：给定已有的已逐像素空间对齐后的多源图像数据集，在两幅匹配图像中分别以同一特征点空间坐标为中心截取65×65的图像块，得到匹配图像块，并设其标签为0，记为正样本；在两幅匹配图像中分别以任意不同空间坐标为中心截取65×65的图像块，得到不匹配图像块，并设其标签为1，记为负样本；所有正负样本共同构成多源图像匹配数据集，其中，每组数据包含两个图像块和一个标签；多源图像匹配数据集中的数据按照3:1:1的比例划分为训练集、测试集和验证集；

步骤7：将多源图像块相似性度量深度卷积网络模型中除了全连接层外的所有其他层均固定使用步骤5得到的预训练模型中的参数，并以步骤3得到的匹配图像块数据集为输入，采用Adam优化方法对网络模型进行训练，训练时仅对全连接层的参数进行迭代优化，得到最终的网络模型；

2.如权利要求1所述的一种基于深度学习和人工设计特征相结合的多源图像配准方法，其特征在于步骤1中所述的传统人工设计特征点提取和匹配方法包括SIFT方法、SR-SIFT方法、MOGSIFT方法、SURF方法、MMSURF方法，匹配搜素过程采用K-D Tree加速。

3.如权利要求1或2所述的一种基于深度学习和人工设计特征相结合的多源图像配准方法，其特征在于步骤5中所述的已有的多源图像数据集包括：公开数据集OSU、AIC、KAIST，以及各种自建的可见光-热红外、可见光-近红外、可见光-高光谱图像数据集。