CN114565511A

CN114565511A - 基于全局单应性估计的轻量级图像配准方法、系统及装置

Info

Publication number: CN114565511A
Application number: CN202210190445.5A
Authority: CN
Inventors: 刘帅; 肖洪金; 许翔; 肖嘉华; 秦志杰
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-05-31
Anticipated expiration: 2042-02-28
Also published as: CN114565511B

Abstract

本发明公开一种基于全局单应性估计的轻量级图像配准方法、系统及装置，包括：基于现有的数据集构建训练数据集，在训练数据集中提取基准图像和待配准图像；基于ShuffleNetV2网络构建的神经网络，获取待配准特征图像和基准特征图像；匹配待配准特征图像与基准特征图像，获取待配准特征图像的每个位置的相对位移期望；对相对位移期望进行回归预测处理，获得待配准图像4个顶点坐标位移；基于顶点坐标位移和DLT函数获取单应性矩阵；基于训练数据集训练网络结构输出算法模型；输入待配准图像至所获取的算法模型，根据单应性矩阵，将待配准图像扭曲到基准图像坐标系完成配准。本发明能够节省内存消耗，提高图像配准速度，在CPU或GPU环境下，模型运行所需硬件代价小。

Description

基于全局单应性估计的轻量级图像配准方法、系统及装置

技术领域

本发明属于图像配准领域，具体涉及一种基于全局单应性估计的轻量级图像配准方法、系统及装置。

背景技术

图像配准是在同一场景下将不同时间获取的两张图像进行对齐的过程，是图像拼接算法中的一个关键步骤。目前，在工业应用中，单视点图像拼接普遍采用全局单应性估计的方式进行图像配准，而在多视点图像拼接中则有采用全局单应性配准加拼接缝，图像网格局部单应性配准两种方式。其中图像网格局部单应性配准因为在非重叠区域有着失真现象，面对复杂场景结果不够稳定，所有其还处于发展中，工业界在多视点采集场景下的图像拼接应用也普遍使用前者。因此全局单应性估计的图像配准方式在图像拼接应用中起着关键作用。

传统图像配准方法主要有基于灰度信息，基于变换域和基于特征的方法。其中基于特征的方法因为其可适用于刚性变换和非刚性变换是目前的应用主流手段，该方法流程为先特征提取，特征匹配，特征筛选，然后计算3*3的单应性矩阵，最后通过该矩阵将目标图像扭曲到基准图像上来完成配准，目前常见的有SIFT，SURF等算法。该类方法因为匹配的是稀疏特征符而非整个图像信息，所以有速度快的优点。虽然其在一般环境下精度高，速度快，但是在面对极端场景下，如低照度，低纹理，多重复纹理和低重叠场景，存在失败率高和配准精度低的问题。同时基于特征的方案因为其图像配准环节多，每个环境可调参数多，导致还有结果不稳定的特点。

如今，在面对极端场景，基于深度学习的方法依靠其强大的特征提取能力，可以很好的解决在极端场景因为特征点不足而导致失败率高的问题，比如基于学习的特征提取Superpoint和特征匹配Superglue算法，但是该方法因为还是在传统的配准框架中工作，结果不稳定，可调参数多的问题依然没有解决。最近几年，基于单应性估计的图像配准方法，因为其直接估计图像对的图像变换矩阵这种端到端的方式便捷高效已经成为目前图像配准领域的研究热点。目前许多研究仅靠简单的类VGG网络结构提取图像对的特征信息后直接回归预测单应性矩阵，如HomographyNet，这些网络不具备匹配能力，无法泛化到真实数据集上，且仅在高重叠场景下也有精度不高的问题。为了让网络拥有特征匹配的能力，许多研究在网络结构中引入匹配层强化位置联系，同时为了提高精确度增加了网络的规模。以上这些方法虽然取得了优秀且稳定的表现，但是需要的硬件条件高，预测时间长，低重叠场景下精度不够高。而在目前工业界，许多领域如无损检测，生物医疗等领域的设备难以保证提供高性能的硬件环境，同时他们又对配准的精度和时间上有着极高的要求。因此，提供一个速度快精度高，硬件消耗小的图像配准方法是本发明亟需解决的问题。

发明内容

本发明的目的在于解决现有技术中的问题，提供一种基于全局单应性估计的轻量级图像配准方法、系统及装置，能够提高待配准图像和基准图像的匹配速度，节约内存消耗。

为达到上述目的，本发明采用以下技术方案予以实现：

基于全局单应性估计的轻量级图像配准方法，包括：

基于现有的数据集构建训练数据集，并在训练数据集中提取基准图像和待配准图像；

基于ShuffleNetV2网络构建的神经网络，对基准图像和待配准图像进行特征信息提取，获取待配准特征图像和基准特征图像；

对待配准特征图像与基准特征图像进行匹配，获取待配准特征图像的每个位置的相对位移期望；

基于ShuffleNetV2网络，对相对位移期望进行回归预测处理，获得待配准图像的4个顶点坐标位移；

基于顶点坐标位移和DLT功能函数获取单应性矩阵；

基于训练数据集，采用非监督学习的方式训练网络结构输出算法模型；

输入待配准图像至所获取的算法模型，根据单应性矩阵，将待配准图像扭曲到基准图像坐标系下完成配准。

本发明的进一步改进在于：

基于现有的数据集构建训练数据集，具体为：基于MS-COCO公开数据集获取以位移变换为主的刚性变换合成数据集，截取每张图的中间部位，分辨率为128*128的图像块作为基准图像，将图像块的4个顶点坐标随机移动相同值，所获取的图像块为待配准图像；其中，x方向，y方向的最大位移均为图像块边长的75％，其中基准图像和待配准图像为一对训练数据。

基于ShuffleNetV2网络构建的神经网络，对基准图像和待配准图像进行特征信息提取，获取待配准特征图像和基准特征图像，具体为：

基于每经过ShuffleNetV2网络的2层3*3卷积结构进行1次步长为2的最大池化层的网络结构和金字塔结构思想，获取待配准特征图像和基准特征图像；所述待配准特征图像和基准特征图像为一组特征图像对。

对待配准特征图像与基准特征图像进行匹配，获取待配准特征图像的每个位置的相对位移期望，具体为：

分割待配准特征图像得到H*W个k*k的小块，并重叠所得到的小块形成形状为(k，k，H*W)的卷积层；

基于所获取的卷积层与基准特征图像进行卷积，获得形状为H*W*(H*W)的相似立方体；

将相似立方体中的数值与系数α相乘，并基于Softmax函数对立方体进行激活，得到形状为[H，W，H*W]的相似几率立方体；

将相似几率立方体转化为H*W*2的特征流，获取待配准特征图像的每个坐标的相对位移期望；转化公式为：

其中，i,j为特征流的坐标，通过mod{k,W}得到在待配准特征图像x方向的位置，通过

得到在待配准特征图像y方向的位置；其物理意义是待配准特征图像每个坐标的相对位移期望，特征流的第一层为x方向的位移期望，第二层为y方向上的位移期望。

基于ShuffleNetV2网络，对相对位移期望进行回归预测处理，获得待配准图像的4个顶点坐标位移，包括：

对位移期望通过3*3卷积进行维度提升，并基于ShuffleNetV2网络中的stage进行组合，经过ShuffleNetV2网络中的GlobalPool层和全连接层输出目标图像的顶点坐标位移值。

还包括基于ShuffleNetV2网络的最后2层输出的特征图预测完整图像的4个顶点坐标位移，由粗到细地获取全局单应性；

基于ShuffleNetV2网络的最后2层输出的特征图预测完整图像的顶点坐标位移，由粗到细地获取全局单应性，具体为：

对ShuffleNetV2网络的最后一层的特征图像对进行预测，获取粗配准4个顶点坐标位移值；

基于粗配准4个顶点坐标位移值获取粗单应性矩阵；

基于粗单应性矩阵与ShuffleNetV2网络的倒数第2层待配准特征图像，获得扭转后的粗配准图像；

基于粗配准图像与ShuffleNetV2网络的倒数第2层基准特征图像，获取基于粗配准4个顶点位移值基础上的微调值；

基于微调值和粗配准4个顶点坐标位移值，获取待配准图像的顶点坐标位移。

基于训练数据集和非监督学习的方式，训练网络结构输出算法模型，具体为：

设置Adam优化器训练，基于内容对齐项进行网络优化，内容对齐项为：

其中，Wⁱ代表使用金字塔第i层特征图像预测得到的单应性矩阵空间扭曲函数，

代表使用第i层预测的单应性矩阵配准后图像对交集部分的灰度差；

目标函数为

目标函数进行迭代，当目标函数收敛后，输出网络结构输出模型。

基于全局单应性估计的轻量级图像配准系统，包括：

构建模块，所述构建模块基于现有的数据集构建训练数据集，并在训练数据集中提取基准图像和待配准图像；

特征提取模块，所述特征提取模块基于ShuffleNetV2网络构建的神经网络，对基准图像和待配准图像进行特征信息提取，获取待配准特征图像和基准特征图像；

匹配模块，所述匹配模块用于对待配准特征图像与基准特征图像进行匹配，获取待配准特征图像的每个位置的相对位移期望；

回归预测网络模块，所述回归预测网络模块基于ShuffleNetV2网络，对相对位移期望进行回归预测处理，获得待配准图像的4个顶点坐标位移；

获取模块，所述获取模块基于顶点坐标位移和DLT功能函数获取单应性矩阵；

模型训练模块，所述模型训练模块基于训练数据集，采用非监督学习的方式训练网络结构输出算法模型；

配准模块，所述配准模块用于输入待配准图像至所获取的算法模型，根据单应性矩阵，将待配准图像扭曲到基准图像坐标系下完成配准。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明通过对待配准特征图像和基准特征图像进行匹配，得到待配准特征图像的每个坐标的相对位移期望；同时对相对位移期望进行预测，获得待配准图像的顶点坐标位移，进而得到单应性矩阵，单应性矩阵与待配准原图进行扭曲完成配准，本发明能够节省内存消耗，提高图像配准速度，同时在CPU或GPU环境下，模型参数量更少，模型运行需要的硬件代价更小。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的基于全局单应性估计的轻量级图像配准方法流程图；

图2为本发明实施例网络结构示意图；

图3为本发明实施例的回归预测模块的示意图；其中(1)为回归网络1，(b)为回归网络2；

图4为本发明实施例的ShuffleNetV2网络中stage组合；其中(a)为基本单位，(b)为空间下采样单元；

图5为本发明实施例的基于全局单应性估计的轻量级图像配准方法的另一种流程图；

图6为本发明实施例的基于全局单应性估计的轻量级图像配准系统的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明公布了一种基于全局单应性估计的轻量级图像配准方法，包括：

S101，基于现有的数据集构建训练数据集，并在训练数据集中提取基准图像和待配准图像。

在无损检测领域能够严格控制图像采集时的角度和位置，待配准图像对之间的变换关系属于刚性变换；基于MS-COCO公开数据集获取以位移变换为主的刚性变换合成数据集，截取每张图的中间部位，分辨率为128*128的图像块作为基准图像，将图像块的4个顶点坐标随机移动相同值，所获取的图像块为待配准图像；其中，x方向，y方向的最大位移均为图像块边长的75％，其中，基准图像和待配准图像为一对训练数据；获得最小重叠率为10％的低重叠场景数据集，其中训练集50000张，测试集1000张。

S102，基于ShuffleNetV2网络构建的神经网络，对基准图像和待配准图像进行特征信息提取，获取待配准特征图像和基准特征图像。

参见图2，利用金字塔结构以及ShuffleNetV2提出的高性能网络构建原则构建的孪生网络作为特征提取模块，基于每经过ShuffleNetV2网络的2层3*3卷积结构进行1次步长为2的最大池化层的网络结构和金字塔结构思想，获取待配准特征图像和基准特征图像；所述待配准特征图像和基准特征图像为一组特征图像对。将金字塔最后2层输出的特征图用来预测完整图像的4个顶点位移，并获取全局单应性。由ShuffleNetV2提出的高性能网络结构设计原则，为了获得尽可能小的内存访问代价，严格控制输入通道数等于输出通道数，在channel从64升到128步骤，采用直接将输入的64通道和卷积得到的64通道拼接的方式。

S103，对待配准特征图像与基准特征图像进行匹配，获取待配准特征图像的每个位置的相对位移期望。

将相似立方体中的数值与系数α相乘，并基于Softmax函数对立方体进行激活，得到形状为[H，W，H*W]的相似几率立方体；α＝10，点乘系数α后再使用Softmax函数可以将相似度低的点的值压缩到0附近，而相似度最高的点对应值增加到1附近，这样可以将相似度高的特征显著地区分出来。

为了使整个网络更容易训练，将相似几率立方体转化为H*W*2的特征流，获取待配准特征图像的每个坐标的相对位移期望；转化公式为：

S104，基于ShuffleNetV2网络，对相对位移期望进行回归预测处理，获得待配准图像的顶点坐标位移。

利用ShuffleNetV2中stage来构建回归预测网络，参见图3，对位移期望通过3*3卷积进行维度提升，将通道升维到32，并基于ShuffleNetV2网络中的stage进行组合，参见图4，每个组合单元里是(b)->(a)*n的结构；其中，图4(a)为基本单位，图4(b)空间下采样单元；经过ShuffleNetV2网络中的GlobalPool层和全连接层输出目标图像的4个顶点坐标位移值。在回归网络1中，组合单元里的n为5，经过2个stage后进行全局池化层和全连接预测输出。在回归网络2中，组合单元n为3，经过3个stage后进行全局池化层和全连接预测输出。

整个配准过程采用由粗到细的迭代方式，将粗尺度作为细尺度的初始值，对ShuffleNetV2网络的最后一层的特征图像对进行预测，获取粗配准4个顶点坐标位移值；基于粗配准4个顶点坐标位移值获取粗单应性矩阵；基于粗单应性矩阵与ShuffleNetV2网络的倒数第2层待配准特征图像，获得扭转后的粗配准图像；基于粗配准图像与ShuffleNetV2网络的倒数第2层基准特征图像，获取基于粗配准4个顶点位移值基础上的微调值；基于微调值和粗配准4个顶点坐标位移值，获取待配准图像的顶点坐标位移。

S105,基于顶点坐标位移和DLT功能函数获取单应性矩阵。

将待配准图像的顶点坐标位移直接线性转换DLT获取最终需要的单应性矩阵，待配准图像与单应性矩阵进行扭曲进而与基准图像进行配准。

S106，基于训练数据集，采用非监督学习的方式训练网络结构输出算法模型。

设置Adam优化器训练，初始值为10^-4,每12500步进行一次衰减，衰减比例为0.96，基于内容对齐项进行网络优化，内容对齐项为：

目标函数为

其中，w₁取4，w₂取1，使用50000张训练集，batchsize设为8，训练了32个epoch，输出网络结构输出模型。

S107，输入待配准图像至所获取的算法模型，根据单应性矩阵，将待配准图像扭曲到基准图像坐标系下完成配准。

输入待配准图像对至训练好的模型，根据输出的单应性矩阵将待配准图像扭曲到基准图像坐标系下完成配准；如图5所示，将待配准图像对改变大小至分辨率128*128，同时将其转化为灰度图像。将预处理好的图像对输入至图像配准网络，得到4个顶点的位移值，使用DLT方法计算对应的单应性矩阵。使用单应性矩阵与待配准原图作用，扭曲至基准图像坐标完成图像配准过程。

本发明与传统算法SIFT、SURF、ORB、最新的基于深度学习的方法SuperPoint+SuperGlue和无监督学习LB-UDHN进行对比，使用结构相似度SSIM指标来衡量配准的精度，以及在CPU Intel Xeon(R)Silver 4116@2.10GHz，GPU Nvidia RXT1080Ti环境下的预测1000张测试集时每张图像预测时间来直接衡量算法的速度。其中若配准失败，则其成绩不会纳入SSIM统计。具体情况如表1所示，可以得出结论：

表1：本发明与传统算法SIFT、SURF、ORB、SuperPoint+SuperGlue和LB-UDHN实验对比

基于传统特征匹配框架的算法虽然在Easy场景有着高精度表现，但是因为特征点不足，匹配对不足，匹配错误等原因，其在Hard场景精度会显著下降，失败率也明显增高，而端到端的非监督学习方式不光精度高，且在Hard场景也更加稳定。

本发明不光在低重叠率极端场景下能取得了最好的成绩，同时在Easy，Moderate环境都有着不错的结果。

本发明所提出的方法与其他深度学习方法相比，在GPU和CPU环境下预测时间上都有明显的优势，特别在CPU环境上，运行时间仅是LB-UDHN的1/3。并且在GPU环境下，速度十分接近目前工业界广泛使用的传统算法。

参见图6，本发明公布了一种基于全局单应性估计的轻量级图像配准系统，包括：

本发明一实施例提供的终端设备。该实施例的终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。

所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于全局单应性估计的轻量级图像配准方法，其特征在于，包括：

基于顶点坐标位移和DLT功能函数获取单应性矩阵；

2.根据权利要求1所述的基于全局单应性估计的轻量级图像配准方法，其特征在于，所述基于现有的数据集构建训练数据集，具体为：基于MS-COCO公开数据集获取以位移变换为主的刚性变换合成数据集，截取每张图的中间部位，分辨率为128*128的图像块作为基准图像，将图像块的4个顶点坐标随机移动相同值，所获取的图像块为待配准图像；其中，x方向，y方向的最大位移均为图像块边长的75％，其中基准图像和待配准图像为一对训练数据。

3.根据权利要求2所述的基于全局单应性估计的轻量级图像配准方法，其特征在于，所述基于ShuffleNetV2网络构建的神经网络，对基准图像和待配准图像进行特征信息提取，获取待配准特征图像和基准特征图像，具体为：

4.根据权利要求3所述的基于全局单应性估计的轻量级图像配准方法，其特征在于，所述对待配准特征图像与基准特征图像进行匹配，获取待配准特征图像的每个位置的相对位移期望，具体为：

5.根据权利要求4所述的基于全局单应性估计的轻量级图像配准方法，其特征在于，所述基于ShuffleNetV2网络，对相对位移期望进行回归预测处理，获得待配准图像的4个顶点坐标位移，包括：

6.根据权利要求5所述的基于全局单应性估计的轻量级图像配准方法，其特征在于，还包括基于ShuffleNetV2网络的最后2层输出的特征图预测完整图像的4个顶点坐标位移，由粗到细地获取全局单应性；

所述基于ShuffleNetV2网络的最后2层输出的特征图预测完整图像的顶点坐标位移，由粗到细地获取全局单应性，具体为：

基于粗配准4个顶点坐标位移值获取粗单应性矩阵；

7.根据权利要求5所述的基于全局单应性估计的轻量级图像配准方法，其特征在于，所述基于训练数据集和非监督学习的方式，训练网络结构输出算法模型，具体为：

目标函数为

8.基于全局单应性估计的轻量级图像配准系统，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。