CN116681742A - 基于图神经网络的可见光与红外热成像图像配准方法 - Google Patents
基于图神经网络的可见光与红外热成像图像配准方法 Download PDFInfo
- Publication number
- CN116681742A CN116681742A CN202310542777.XA CN202310542777A CN116681742A CN 116681742 A CN116681742 A CN 116681742A CN 202310542777 A CN202310542777 A CN 202310542777A CN 116681742 A CN116681742 A CN 116681742A
- Authority
- CN
- China
- Prior art keywords
- feature
- point
- matching
- image
- visible light
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 38
- 238000001931 thermography Methods 0.000 title claims abstract description 38
- 238000005070 sampling Methods 0.000 claims abstract description 53
- 230000009466 transformation Effects 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 42
- 239000011159 matrix material Substances 0.000 claims description 31
- 238000011176 pooling Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 27
- 230000007246 mechanism Effects 0.000 claims description 21
- 230000014509 gene expression Effects 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000001629 suppression Effects 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 2
- 241000212948 Cnidium Species 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图神经网络的可见光与红外热成像图像配准方法,首先采集对应的原始红外热成像和可见光异源图像数据,处理图像数据形成无标签数据集;然后通过插入特征点提取网络基于自监督的方式对输入图像的特征点以及对应的描述子进行提取;再采用由粗到精的二阶段匹配方法得到一、二阶段的匹配点对,根据一二阶段匹配点对进行基于置信度的采样权重计算,根据采样权重进行次优变换模型估计并得到最优变换模型,完成图像配准任务,提高了在图神经网络下对于特征点提取的精度以及特征点匹配时的准确性,保证红外热成像与可见光异源图像配准的效果。
Description
技术领域
本发明属于计算机视觉图像处理的技术领域,主要涉及了一种基于图神经网络的可见光与红外热成像图像配准方法。
背景技术
随着计算机视觉的技术进步,互联网技术不断发展,计算机视觉中最重要的目标检测技术也进入了全新的时代。随着目标检测的应用领域逐渐广泛,在比较复杂场景下,比如戈壁滩下进行已经风化部分掩埋的金属片检测而言,单一相机生成的影像难以获取足够的信息来支撑目标检测任务完成。,此时则需要引入同一目标的不同设备来获取图像,不仅可以提供丰富的信息,还可以克服单一模态图像本身的缺陷,而为了将异源图像信息融合,首先要进行的就是图像配准工作。
图像配准是计算机视觉中的一个基本任务,主要目的是拟合两张图像之间的变换参数,而变换参数反映这图像之间的映射关系。用于配准的图像通常来自同一场景下不同角度进行拍摄的相机。在图像配准任务中,异源图像配准是其中的一种特例,其中异源主要指的是配准图像之间存在着极大的模态差异或者来自不同的传感器。
同源图像配准取任务可以采用SIFT以及它的一系列变体例如SURF这些人工设计的描述子取得不错的效果。然而由于异源图像自身的特点,这些传统的特征提取方法在异源图像配准上通常受到了很大的挑战。描述子的判别性极大地影响了匹配的性能,对于异源图像具有的外观差异显著、相关性小的特点,获取具有足够判别性的特征描述子仍然是一个需要进一步解决的难题。相比于传统的同源图像配准中面临的几何形变、光照变化等困难外,异源图像配准还要解决具有不同成像机理的传感器所带来的显著的外观差异的问题。传统的配准方法受限于人工设计的特征提取方式,在更加困难的异源图像配准上往往不能获得具有判别性的特征描述子。
近些年,卷积神经网络在很多计算机视觉的任务中都展现了强大的特征表示能力。同时通过图神经网络来进行图像内部特征点以及图像外部特征点之间关系的聚合可以获得更加准确的特征点配对关系,从而得到效果更好的配准结果。
发明内容
本发明正是针对现有技术中复杂环境下,现有方法对于异源图像配准存在特征点提取与特征点匹配精度不够的问题,提供一种基于图神经网络的可见光与红外热成像图像配准方法,首先采集对应的原始红外热成像和可见光异源图像数据,处理图像数据形成无标签数据集;然后通过插入特征点提取网络基于自监督的方式对输入图像的特征点以及对应的描述子进行提取;再采用由粗到精的二阶段匹配方法得到一、二阶段的匹配点对,根据一二阶段匹配点对进行基于置信度的采样权重计算,根据采样权重进行次优变换模型估计并得到最优变换模型,完成图像配准任务,提高了在图神经网络下对于特征点提取的精度以及特征点匹配时的准确性,保证红外热成像与可见光异源图像配准的效果。
为了实现上述目的,本发明采取的技术方案是:基于图神经网络的可见光与红外热成像图像配准方法,包括如下步骤:
S1,数据处理:采集对应的原始红外热成像和可见光异源图像数据,处理图像数据形成无标签数据集;
S2,特征提取:通过插入特征点提取网络基于自监督的方式对输入图像的特征点以及对应的描述子进行提取;所述步骤中,特征点提取网络的编码器对输入图像进行处理,输出的特征图输入至特征提取网络的解码器中,得到代表各像素点是特征点概率的得分图,对得分图进行极大值抑制,得到特征点分布;对编码器输出的特征图多重卷积后输出初始描述子矩阵,通过双插值法对初始描述子举证进行扩充,并进行归一化处理,得到每一个像素的描述子,与特征点对应的描述子进行联合编码,得到统一长度的描述子;
S3,特征点匹配:
S31:通过图神经网络对步骤S2获得的特征点及对应的描述子进行处理,通过Sinkhorn算法迭代求解得到异源图像之间的匹配矩阵,输出一阶段匹配点对;
S32:对步骤S31获得的一阶段匹配点对进行筛选后估计得到共视区域,对共视区域重复步骤S2和S31,得到二阶段匹配点对;
S4,图像配准:根据步骤S3获得的一二阶段匹配点对进行基于置信度的采样权重计算,根据采样权重进行次优变换模型估计并得到最优变换模型,完成图像配准任务。
作为本发明的一种改进,所述步骤S1中的处理图像数据具体包括:对每个图像沿图像中心x轴、y轴分别进行像素对称变换,翻转扩充数据量后进行拉伸,统一图像尺寸调整,形成图像分辨率均为H*W、单通道、像素取值范围为0-255的灰度图,所述数据集D:
D={(x1,y1),(x2,y2)…(xn,yn)}
其中,(x,y)为经处理后的红外热成像与可见光图像对,图像形式为1*H*W的张量;n表示数据量。
作为本发明的另一种改进,所述步骤S2中,特征点提取网络的编码器包含卷积层、池化层和非线性激活函数层,非激活函数采用Relu函数,其数学表达式如下:
池化层在每两个卷积层后放置一个最大池化操作,池化核尺寸为2×2,步长为2。;
所述特征点提取网络的解码器包含2个通道分别为256和65的卷积层和多个BN层和激活函数层,输出80×60×65的张量,通过Softmax层分类得到归一化概率分布,再通过ReShape层将尺寸还原,得到得分图,得分图各像素值分布在0~1之间,代表输入图像上各像素点是特征点的概率。
作为本发明的另一种改进,所述步骤S2特征点提取网络编码器中还插入通道空间注意力机制模块,
所述通道注意力机制模块:基于网络特征图的尺寸进行全局平均池化、全局最大池化,通过多重感知机得到权重,并逐项进行求和操作,最后通过Sigmoid函数对权重进行归一化处理并逐通道进行乘法加权到输入特征图中融合输出,具体为:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))
所述空间注意力机制模块:对通道注意力机制模块输出的特征图进行特征图的全局平均池化、全局最大池化操作,进行卷积操作降维成1维后,通过Sigmoid函数得到注意力特征最后与输入特征图进行融合再输出,具体为:
Ms(F)=σ(∫7×7(MLP(AvgPool(F));MLP(MaxPool(F)))。
作为本发明的又一种改进,所述步骤S31具体包括:
S311:对输入的红外热成像图像Ithermal和可见光图像Ivisible提取出特征点p和描述子d,两幅图像分别提取到M个和N个特征点,分别记作T={1,…,M},V={1,…,N};对红外热成像图像Ithermal提取到的特征点和描述子/>融合构成初始特征匹配向量/>向量数学表示式为:
其中MLP为多层感知编码器;
对于Ivisible提取得到的特征点信息和描述子/>进行上述相同操作得到初始特征匹配向量/>
S312:将得到的初始特征匹配向量输入多层图神经网络中,图神经网络中每一层完全图的节点代表着每个特征点的特征匹配向量或者/>对每个特征点i进行聚合边信息得到mε→i,数学表达式为:
其中αij为注意力权重,代表查询的特征点i与所有相邻特征点j之间的相似度;
S313:得到各层特征点聚合信息后,结合初始匹配向量逐层进行计算更新,向量计算公式如下:
其中[·||·]表示两个向量之间的串联操作;
经过总数为L层的图神经网络传递后,得到最终的特征点匹配向量fi T:
其中W和b为权重和偏差,可见光图像也经过上述步骤得到特征点匹配向量fi V;
S314:对上述得到的fi T、fi V进行得分矩阵S∈RM×N构建,并通过最大化总体得分∑i,jSi,jPi,j来获得最优匹配矩阵P,得分矩阵数学构成如下所示:
S315:通过Sinkhorn算法来迭代求解∑i,jSi,jPi,j最大化总体得分,对最终得到的匹配矩阵进行阈值化,将匹配矩阵的每个低于阈值t的元素视作该元素所在的不匹配,输出一阶段匹配点对集。
作为本发明的又一种改进,所述步骤S32具体包括:
S321:根据步骤S31输出的一阶段匹配点对进行由大到小的置信度排序,取排序后的匹配点对集的前n%作为共视区域估计点集;
S322:根据共视区域估计点集,进行像素横纵坐标排序,得到坐标最值:xmax、xmin、ymax、ymin,通过坐标最值裁剪框选区域:起始点为(xmin,ymin),长为(xmax-xmin),宽为(ymax-ymin),裁剪得到共视区域异源图像对;
S323:对步骤S322裁剪得到的框选区域放缩至H*W,重复步骤S2和S31得到二阶段匹配点集:
S324:对二阶段匹配点集进行基于变换矩阵F的仿射变换,将其变换至一阶段输入图像对应点集中,使一二阶段匹配点对进行串联,对串联匹配结果进行NMS筛选,得到最后匹配点对集。
作为本发明的更进一步改进,所述步骤S4具体包括:
S41:根据匹配点对对应的置信度进行采样权重计算,其匹配点对i对应的采样权重数学表达式如下:
其中,Si代表各个匹配点对的置信度;
S42:根据采样权重对匹配点对集进行随机采样并估计模型,得到一个置信度较低的次优模型,输出此次优模型对应的内点集ms,次优模型的输出条件为:
其中,k为迭代轮次,p为此时模型的置信度,ε为此模型对应的内点数占总样本的比例,n为最小采样数;
S43:通过内点集ms继续进行基于采样权重的随机采样并估计模型,当得到的模型能够找到更多的内点时,则以此内点集来替换原采样集,否则继续在原采样集上进行采样估计;当内点数量占比接近100%或不再变换时,输出最优变换模型,完成图像配准。
与现有技术相比,本发明具有的有益效果:
(1)本发明使用图神经网络对于特征点以及特征描述子进行聚合,得到特征点与其他特征点之间的相互关系信息,通过关系信息来指导特征点精确匹配;
(2)本发明方法通过对一阶段匹配点对进行筛选实现红外热成像与可见光图像共视区域提取任务,然后对共视区域二次特征点提取与匹配,完成由粗到精的图像匹配,通过这种方法得到更多高可靠性的匹配点对来降低背景高重复性、低纹理带来的影响;
(3)本发明利用特征点置信度进行了基于采样权重的图像变换模型参数估计,通过先得到一个置信度较低的次优模型来对样本集进行筛选,得到高质量采样点集,通过对高质量匹配点对进行正确配准模型不断逼近,得到最优配准模型,这种方法快速并准确的得到高精度图像透视变换模型,最终提升图像配准质量。
附图说明
图1为本发明方法的总体步骤流程图
图2为本发明方法步骤S2中特征点提取网络的结构示意图;
图3为本发明方法步骤S2特征点提取网络中注意力机制的结构框架图;
图4为本发明方法步骤S3两阶段图像配准的流程示意图;
图5为本发明方法步骤S4的步骤流程图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实施例1
一种基于图神经网络的可见光与红外热成像图像配准方法,通过注意力机制改进的特征提取网络来进行异源图像特征点提取,使用图神经网络来构造特征匹配向量,从而提高特征点提取的精度以及特征点匹配的准确率;采用由粗到精的二阶段匹配方法来进一步提高特征点匹配精度,并对于冗余度较高的特征点匹配结果进行采样优化的算法处理,如图1所示,具体包括如下步骤:
S1:数据处理:采集对应的原始红外热成像和可见光异源图像数据,处理图像数据形成无标签数据集。
搭建模拟场景,对场景模拟要求目标物与背景难以直观分辨,通过架设固定位置的红外热成像相机与可见光相机构建双目相机进行数据采集,采集对应的原始红外热成像、可见光异源图像数据,构成数据集D1;
处理异源图像数据形成无标签数据集:对数据集D1中每个图像对进行翻转扩充数据量后,统一进行图像尺寸调整操作;其中所述翻转指将图片沿图像中心x轴、y轴分别进行像素对称变换,所述图像尺寸调整是指利用双线性插值方法来求得图像尺寸调整后得到的各个像素点的像素值。最终形成了图像分辨率均为H*W、单通道、像素取值范围为0-255的灰度图。最终形成的数据集D2:
D2={(x1,y1),(x2,y2)…(xn,yn)}
其中(x,y)为经处理后的红外热成像与可见光图像对,图像形式为1*H*W的张量;n表示数据量。
S2,特征提取:通过插入特征点提取网络基于自监督的方式对输入图像的特征点以及对应的描述子进行提取,所述特征点提取网络的结构示意图如图2所示。
S21:将待配准图像(xi,yi)输入本发明提出的使用注意力模块改进的特征点提取网络的编码器中,编码器包含卷积层、池化层和非线性激活函数层,所述卷积层主要功能为首先对输入图像的边界进行填充,然后利用卷积核对输入图像进行卷积运算,提取图像的特征并输出特征图;所述非线性激活函数层功能为增加神经网络的非线性;所述池化层主要功能为池化层对卷积层所得到的特征图进行下采样,降低卷积层输出的特征图尺寸,减少网络的计算量;
S22:结合通道注意力机制模块和空间注意力机制模块构建注意力机制模块,并将构建好的注意力机制模块插入编码器中,经过编码器一系列运算最终得到一张H/8×W/8×128的特征图;
注意力机制的结构框架图如图3所示,其中,通道注意力机制过程:基于网络特征图的尺寸进行全局平均池化、全局最大池化,并通过多重感知机得到权重,并逐项进行求和操作,最后通过Sigmoid函数对权重进行归一化处理并逐通道进行乘法加权到输入特征图中,其数学表达式为:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))
空间注意力机制模块过程:对通道注意力模块输出的特征图进行特征图的全局平均池化、全局最大池化操作,然后进行卷积操作降维成1维,最后通过Sigmoid函数得到注意力特征最后与输入特征图进行融合,其数学表达式为:
S23:将步骤S22得到的特征图输入到特征点提取网络的特征点解码器中,解码器包含2个通道为256和65的卷积层和多个BN层和非线性激活函数层,输出H/8×W/8×65的张量。每个65维的张量代表原始图像不重叠的的8×8像素窗内第i个像素为特征点或像素窗内不包含特征点的65种情况。通过Softmax层分类得到65种情况的归一化概率分布,再通过ReShape层将尺寸还原为H×W×1,得到大小为H×W的得分图,得分图各像素值分布在0~1之间,代表输入图像上各像素点是特征点的概率;
S24:对步骤S23得到的输出得分图中每个N×N窗口应用非极大值抑制算法(NMS),每个窗口仅保留一个极大值存在,随后对全图进行阈值判断,将高于阈值的点视为特征点,得到M个特征点;
S25:将步骤S22得到的特征图输入到特征点提取网络的描述子解码器中,对图像尺寸进行归一化,同时特征点也随之归一化至相应的位置;然后罗列归一化后的特征点构建1×1×K×2的张量,其中K表示特征点数量,2分别代表特征点的X、Y坐标;将特征点的位置进行反归一化:按照比例缩放、平移得到反归一化后特征点在张量的位置,由于位置可能是非整数像素,需要通过双线次插值算法补齐,将描述子插入到对应关键点的位置;最后通过L2范数标准归一化,得到统一长度的描述子。
S3,特征点匹配:如图4所示,分为两个部分:
S31:通过图神经网络对步骤S2获得的特征点及对应的描述子进行处理,通过Sinkhorn算法迭代求解得到异源图像之间的匹配矩阵,输出一阶段匹配点对。
S311:通过步骤S2可以对输入的红外热成像图像Ithermal和可见光图像Ivisible提取出特征点p和描述子d,两幅图像分别提取到M个和N个特征点,分别记作T={1,…,M},V={1,…,N}。
对红外热成像图像Ithermal提取到的特征点和描述子/>融合构成初始特征匹配向量/>向量数学表示式为:
其中MLP为多层感知编码器,主要功能是将特征点位置信息升维后能与描述子进行相加操作;
对于Ivisible提取得到的特征点信息和描述子/>进行上述相同操作得到初始特征匹配向量/>
S312:将得到的一系列初始特征匹配向量输入多层图神经网络中,图神经网络中每一层完全图的节点代表着每个特征点的特征匹配向量或者/>而节点之间存在两种无向边:一种是εself,其代表着红外热成像图像或者可见光图像内部特征点之间的关系,另一种是εcross,其代表着红外热成像图像特征点与可见光图像特征点之间的关系。对每个特征点i进行聚合边信息得到mε→i,数学表达式为:
其中αij为注意力权重,代表查询的特征点i与所有相邻特征点j之间的相似度,其数学表达式如下:
Softmax算法将求得qi和kj之间的相似度。
设特征点i位于输入图像Q上,特征点j位于输入图像S上,(Q,S)∈{T,V}2,上两式中q,k,v数学表达式如下:
其中l为多层图神经网络中第l层,W1,W2,W3,b1,b2,b3分别代表第l层共享的权重与偏差。
S313:得到各层特征点聚合信息后,结合初始匹配向量逐层进行计算更新,向量计算公式如下:
其中[·‖·]表示两个向量之间的串联操作,当l为奇数时,ε仅为εself,l为偶数时,ε仅为εcross。
经过总数为L层的图神经网络传递后,得到最终的特征点匹配向量
其中W和b为权重和偏差,可见光图像也可经过上述步骤得到特征点匹配向量fi V。
S314:对上述得到的fi T、fi V进行得分矩阵S∈RM×N构建,并通过最大化总体得分∑i,jSi,jPi,j来获得最优匹配矩阵P,得分矩阵数学构成如下所示:
S315:通过Sinkhorn算法来求解∑i,jSi,jPi,j最大化总体得分,在求得得分矩阵S后,设定分布向量和/>正则项λ,具体算法步骤如下:
初始化匹配矩阵P=e-λS,开始下列迭代操作:
步骤1:计算目前矩阵P每一行之和;
步骤2:对每一行元素分别各自除以上述行之和、乘以分布向量对应值;
步骤3:计算目前矩阵P每一列之和;
步骤4:对每一列元素分别各自除以上述列之和并乘以分布向量对应值;
重复上述操作直至收敛为止。
对最终得到的匹配矩阵P进行阈值化,将匹配矩阵的每个低于阈值t的元素视作该元素所在的不匹配,输出匹配点对集m1。
S32:对步骤S31获得的一阶段匹配点对进行筛选后估计得到共视区域,对共视区域重复步骤S2和S31,得到二阶段匹配点对;
S321:根据步骤S31输出的匹配点对得的置信度进行由大到小的排序,取排序后的匹配点对集的前n%作为共视区域估计点集;
S322:根据S321得到的共视区域估计点集,进行像素横纵坐标排序,得到坐标最值:xmax、xmin、ymax、ymin,通过坐标最值裁剪框选区域:起始点为(xmin,ymin),长为(xmax-xmin),宽为(ymax-ymin);
S323:对步骤S322裁剪得到的框选区域,将图像分辨率放缩至H*W,重复步骤S2和S31得到二阶段匹配点集m2;
S324:对二阶段匹配点集m2进行基于变换矩阵F的仿射变换,将其变换至一阶段输入图像对应点集m′2中,其数学表示为
m′2=Fm2
其中m′2为匹配点对的匹配点对的坐标变换矩阵F如下所示:
其中变换矩阵中的各项参数可由S52的坐标最值计算得出:
使一二阶段匹配点对进行串联,对串联匹配结果进行NMS筛选,得到最后匹配点对集m。
S4,图像配准:根据步骤S3获得的一二阶段匹配点对进行基于置信度的采样权重计算,根据采样权重进行次优变换模型估计并得到最优变换模型,完成图像配准任务,具体流程如图5所示。
S41:根据匹配点对对应的置信度进行采样权重计算,其匹配点对i对应的采样权重数学表达式如下:
S42:根据采样权重对匹配点对集进行随机采样并估计模型,得到一个置信度较低的次优模型,输出此次优模型对应的内点集ms,次优模型的输出条件如下式所示:
其中,k为迭代轮次,p为此时模型的置信度,ε为此模型对应的内点数占总样本的比例,n为最小采样数,在图像变换模型估计任务中值为4。
S43:通过内点集ms继续进行基于采样权重的随机采样并估计模型,当得到的模型能够找到更多的内点时,则以此内点集来替换原采样集,否则继续在原采样集上进行采样估计,通过这种方式,采样集中内点数量会不断增加,当内点数量占比接近100%时,或不再变换时,则输出最优变换模型,完成图像配准。
实施例2
一种基于图神经网络的可见光与红外热成像图像配准方法,包括如下步骤:
S1:从红外热成像与可见光构建的多模态成像系统中获取同一场景下红外热成像与可见光图像,并通过翻转以及拉伸等操作得到最终形成了图像分辨率均为640*480、单通道、像素取值范围为0-255的灰度图。数据集D:
D={(x1,y1),(x2,y2)…(x400,y400)}
S2:通过插入特征点提取网络基于自监督的方式对输入图像的特征点以及对应的描述子进行提取。
S21:编码器对输入图像进行处理,本实施例中,图像尺寸由640×480×1降为80×60×128具有较小的空间尺寸和较大的通道深度,编码器结构是由编码器包含8个卷积层、3个池化层和非线性激活函数层。其中八个卷积层的前四个卷积层包含64个大小为3×3的卷积核,步长为1,后四个卷积层包含128个大小为3×3的卷积核,步长为。非激活函数采用Relu函数,其数学表达式如下:
其中池化层在每两个卷积层后放置一个最大池化操作,池化核尺寸为2×2,步长为2。
S22:在上述编码器中插入通道空间注意力机制模块:通道注意力机制过程:基于网络特征图的尺寸进行全局平均池化、全局最大池化,并通过多重感知机得到权重,并逐项进行求和操作,最后通过Sigmoid函数对权重进行归一化处理并逐通道进行乘法加权到输入特征图中融合输出。对通道注意力模块输出的特征图进行特征图的全局平均池化、全局最大池化操作,然后进行卷积操作降维成1维,最后通过Sigmoid函数得到注意力特征最后与输入特征图进行融合再输出。
S23:对编码器输出的特征图进行特征点提取:特征点提取部分包含2个通道分别为256和65的卷积层和多个BN层和激活函数层,输出80×60×65的张量。每个65维的张量代表原始图像不重叠的8×8像素窗内第i个像素为特征点或像素窗内不包含特征点的65种情况。通过Softmax层分类得到65种情况的归一化概率分布,再通过ReShape层将尺寸还原为640×480×1,得到640×480的得分图,得分图各像素值分布在0~1之间,代表输入图像上各像素点是特征点的概率;
S24:对得分图进行极大值抑制得到最后的特征点分布;
S25:对编码器输出的特征图多重卷积后输出维度为80×60×256的初始描述子矩阵,然后通过双插值法将初始描述子矩阵扩充至640×480×256,借助L2正则化对256通道归一化处理,得到原图每一个像素的描述子,再与特征点对应的描述子进行联合编码。
S3:使用了注意力的图神经网络来聚合特征点与描述子联合向量的特性,得到更具自身空间位置特性与特征特性的匹配向量,通过Sinkhorn算法迭代求解来得到异源图像之间的匹配矩阵,输出匹配点对。
S31:通过图神经网络对步骤S2得到的特征点以及对应描述子进行处理得到特征匹配描述子,并通过相似性度量得到一阶段匹配点对;
将配准图像特征点与对应特征描述子耦合构成特征匹配向量,其构成表达式如下所示:
其中通过MLP多层感知编码器对特征点位置信息进行升维后,与描述子/>维度相同,从而实现相加操作。
通过节点形式保存其信息。通过对图像内部节点以及配准图像之间节点关系运算结果聚合构成特征匹配向量,特征匹配向量在多层图神经网络中不断传递聚合,特征匹配向量由上一层传递至下一层传递公式如下所示:
其中[·‖·]表示两个向量之间的串联操作,mε→i表示每个特匹配向量的聚合边信息。当l为奇数时,ε仅为εself,l为偶数时,ε仅为εcross。
S32:将匹配结果根据匹配矩阵中的值进行从大到小的排序,取前40%作为共视区域估计参考点集,进行共视区域估计;根据参考点集求出共视区域,裁剪得到共视区域异源图像对;将估计得到的共视区域裁剪后放缩至640×480,,进行二次特征点提取与匹配,二阶段匹配点对进行仿射变换,将匹配点对投影至输入图像中,与一阶段匹配点对共同进行NMS操作,对每组匹配点对周围1个像素点的进行非极大抑制来,选取置信度最大的匹配点对,输出最终匹配点对。
S4:根据一二阶段匹配结果对匹配点对进行基于置信度的采样权重计算,并根据采样权重来进行次优变换模型估计,利用次优变换模型估计得到的内点集来估计采样点数量来逼近正确变换模型,得到最优变换模型,完成图像配准任务;
S41:根据匹配点对对应的置信度进行采样权重计算;
S42:根据下列公式,进行次优模型和采样点集估计
其中模型置信度p取0.6,得到次优模型与对应的采样点集;
S43:对步骤S42得到采样点集进行基于采样权重的随机一致采样,当得到的模型能够找到更多的内点时,则以此内点集来替换原采样集,否则继续在原采样集上进行采样估计,通过这种方式,采样集中内点数量会不断增加,当内点数量占比接近100%时,或不再变化时,则输出最优变换模型。完成图像配准。
本发明方法使用注意力机制进行针对性特征提取,得到更精确的特征点;通过图神经网络对来对配准图像自身以及相互特征点进行关系聚合,使特征匹配向量获得上下文信息,从而能够获取区分度更高的特征点匹配对,最后利用两阶段的图像配准方法,提高了在图神经网络下对于特征点提取的精度以及特征点匹配时的准确性。面对初匹配产生的大量匹配点对,本发明采用了由粗到精的模型估计方法,借助匹配点对置信度构建采样权重,根据采样权重,筛选出整体可靠性偏高的采样点集。基于采样点集进行正确模型逼近的图像变换模型参数估计,适用于背景重复度高、细节模糊的困难场景下红外热成像与可见光异源图像配准方法,最终保证红外热成像与可见光异源图像配准的效果。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。
Claims (7)
1.基于图神经网络的可见光与红外热成像图像配准方法,其特征在于,包括如下步骤:
S1,数据处理:采集对应的原始红外热成像和可见光异源图像数据,处理图像数据形成无标签数据集;
S2,特征提取:通过插入特征点提取网络基于自监督的方式对输入图像的特征点以及对应的描述子进行提取;所述步骤中,特征点提取网络的编码器对输入图像进行处理,输出的特征图输入至特征提取网络的解码器中,得到代表各像素点是特征点概率的得分图,对得分图进行极大值抑制,得到特征点分布;对编码器输出的特征图多重卷积后输出初始描述子矩阵,通过双插值法对初始描述子举证进行扩充,并进行归一化处理,得到每一个像素的描述子,与特征点对应的描述子进行联合编码,得到统一长度的描述子;
S3,特征点匹配:
S31:通过图神经网络对步骤S2获得的特征点及对应的描述子进行处理,通过Sinkhorn算法迭代求解得到异源图像之间的匹配矩阵,输出一阶段匹配点对;
S32:对步骤S31获得的一阶段匹配点对进行筛选后估计得到共视区域,对共视区域重复步骤S2和S31,得到二阶段匹配点对;
S4,图像配准:根据步骤S3获得的一二阶段匹配点对进行基于置信度的采样权重计算,根据采样权重进行次优变换模型估计并得到最优变换模型,完成图像配准任务。
2.如权利要求1所述的基于图神经网络的可见光与红外热成像图像配准方法,其特征在于:所述步骤S1中的处理图像数据具体包括:对每个图像沿图像中心x轴、y轴分别进行像素对称变换,翻转扩充数据量后进行拉伸,统一图像尺寸调整,形成图像分辨率均为H*W、单通道、像素取值范围为0-255的灰度图,所述数据集D:
D={(x1,y1),(x2,y2)…(xn,yn)}
其中,(x,y)为经处理后的红外热成像与可见光图像对,图像形式为1*H*W的张量;n表示数据量。
3.如权利要求1所述的基于图神经网络的可见光与红外热成像图像配准方法,其特征在于:所述步骤S2中,特征点提取网络的编码器包含卷积层、池化层和非线性激活函数层,非激活函数采用Relu函数,其数学表达式如下:
池化层在每两个卷积层后放置一个最大池化操作,池化核尺寸为2×2,步长为2。;
所述特征点提取网络的解码器包含2个通道分别为256和65的卷积层和多个BN层和激活函数层,输出80×60×65的张量,通过Softmax层分类得到归一化概率分布,再通过ReShape层将尺寸还原,得到得分图,得分图各像素值分布在0~1之间,代表输入图像上各像素点是特征点的概率。
4.如权利要求3所述的基于图神经网络的可见光与红外热成像图像配准方法,其特征在于:所述步骤S2特征点提取网络编码器中还插入通道空间注意力机制模块,
所述通道注意力机制模块:基于网络特征图的尺寸进行全局平均池化、全局最大池化,通过多重感知机得到权重,并逐项进行求和操作,最后通过Sigmoid函数对权重进行归一化处理并逐通道进行乘法加权到输入特征图中融合输出,具体为:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))
所述空间注意力机制模块:对通道注意力机制模块输出的特征图进行特征图的全局平均池化、全局最大池化操作,进行卷积操作降维成1维后,通过Sigmoid函数得到注意力特征最后与输入特征图进行融合再输出,具体为:
Ms(F)=σ(∫7×7(MLP(AvgPool(F));MLP(MaxPool(F)))。
5.如权利要求4所述的基于图神经网络的可见光与红外热成像图像配准方法,其特征在于:所述步骤S31具体包括:
S311:对输入的红外热成像图像Ithermal和可见光图像Ivisible提取出特征点p和描述子d,两幅图像分别提取到M个和N个特征点,分别记作T={1,…,M},V={1,…,N};对红外热成像图像Ithermal提取到的特征点和描述子/>融合构成初始特征匹配向量/>向量数学表示式为:
其中MLP为多层感知编码器;
对于Ivisible提取得到的特征点信息和描述子/>进行上述相同操作得到初始特征匹配向量/>
S312:将得到的初始特征匹配向量输入多层图神经网络中,图神经网络中每一层完全图的节点代表着每个特征点的特征匹配向量或者/>对每个特征点i进行聚合边信息得到mε→i,数学表达式为:
其中αij为注意力权重,代表查询的特征点i与所有相邻特征点j之间的相似度;
S313:得到各层特征点聚合信息后,结合初始匹配向量逐层进行计算更新,向量计算公式如下:
其中[·‖·]表示两个向量之间的串联操作;
经过总数为L层的图神经网络传递后,得到最终的特征点匹配向量
其中W和b为权重和偏差,可见光图像也经过上述步骤得到特征点匹配向量
S314:对上述得到的进行得分矩阵S∈RM×N构建,并通过最大化总体得分∑i, jSi,jPi,j来获得最优匹配矩阵P,得分矩阵数学构成如下所示:
S315:通过Sinkhorn算法来迭代求解∑i,jSi,jPi,j最大化总体得分,对最终得到的匹配矩阵进行阈值化,将匹配矩阵的每个低于阈值t的元素视作该元素所在的不匹配,输出一阶段匹配点对集。
6.如权利要求5所述的基于图神经网络的可见光与红外热成像图像配准方法,其特征在于:所述步骤S32具体包括:
S321:根据步骤S31输出的一阶段匹配点对进行由大到小的置信度排序,取排序后的匹配点对集的前n%作为共视区域估计点集;
S322:根据共视区域估计点集,进行像素横纵坐标排序,得到坐标最值:xmax、xmin、ymax、ymin,通过坐标最值裁剪框选区域:起始点为(xmin,ymin),长为(xmax-xmin),宽为(ymax-ymin),裁剪得到共视区域异源图像对;
S323:对步骤S322裁剪得到的框选区域放缩至H*W,重复步骤S2和S31得到二阶段匹配点集;
S324:对二阶段匹配点集进行基于变换矩阵F的仿射变换,将其变换至一阶段输入图像对应点集中,使一二阶段匹配点对进行串联,对串联匹配结果进行NMS筛选,得到最后匹配点对集。
7.如权利要求6所述的基于图神经网络的可见光与红外热成像图像配准方法,其特征在于:所述步骤S4具体包括:
S41:根据匹配点对对应的置信度进行采样权重计算,其匹配点对i对应的采样权重数学表达式如下:
其中,Si代表各个匹配点对的置信度;
S42:根据采样权重对匹配点对集进行随机采样并估计模型,得到一个置信度较低的次优模型,输出此次优模型对应的内点集ms,次优模型的输出条件为:
其中,k为迭代轮次,p为此时模型的置信度,v为此模型对应的内点数占总样本的比例,n为最小采样数;
S43:通过内点集ms继续进行基于采样权重的随机采样并估计模型,当得到的模型能够找到更多的内点时,则以此内点集来替换原采样集,否则继续在原采样集上进行采样估计;当内点数量占比接近100%或不再变换时,输出最优变换模型,完成图像配准。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310542777.XA CN116681742A (zh) | 2023-05-15 | 2023-05-15 | 基于图神经网络的可见光与红外热成像图像配准方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310542777.XA CN116681742A (zh) | 2023-05-15 | 2023-05-15 | 基于图神经网络的可见光与红外热成像图像配准方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116681742A true CN116681742A (zh) | 2023-09-01 |
Family
ID=87781611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310542777.XA Pending CN116681742A (zh) | 2023-05-15 | 2023-05-15 | 基于图神经网络的可见光与红外热成像图像配准方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116681742A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056377A (zh) * | 2023-10-09 | 2023-11-14 | 长沙军顺航博科技有限公司 | 一种基于图论的红外图像处理方法、系统及存储介质 |
-
2023
- 2023-05-15 CN CN202310542777.XA patent/CN116681742A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056377A (zh) * | 2023-10-09 | 2023-11-14 | 长沙军顺航博科技有限公司 | 一种基于图论的红外图像处理方法、系统及存储介质 |
CN117056377B (zh) * | 2023-10-09 | 2023-12-26 | 长沙军顺航博科技有限公司 | 一种基于图论的红外图像处理方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113065558B (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN112507997B (zh) | 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统 | |
Zhang et al. | Deep hierarchical guidance and regularization learning for end-to-end depth estimation | |
CN109977757B (zh) | 一种基于混合深度回归网络的多模态的头部姿态估计方法 | |
CN111145131A (zh) | 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法 | |
Guo et al. | Multiview high dynamic range image synthesis using fuzzy broad learning system | |
CN112308092A (zh) | 一种基于多尺度注意力机制的轻量型车牌检测与识别方法 | |
WO2023137914A1 (zh) | 图像处理方法、装置、电子设备及存储介质 | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
CN111462012A (zh) | 一种基于条件生成对抗网络的sar图像仿真方法 | |
CN112801015A (zh) | 一种基于注意力机制的多模态人脸识别方法 | |
CN115423734B (zh) | 一种基于多尺度注意机制的红外与可见光图像融合方法 | |
CN107609571A (zh) | 一种基于lark特征的自适应目标跟踪方法 | |
CN112084952B (zh) | 一种基于自监督训练的视频点位跟踪方法 | |
CN116681742A (zh) | 基于图神经网络的可见光与红外热成像图像配准方法 | |
CN116664892A (zh) | 基于交叉注意与可形变卷积的多时相遥感图像配准方法 | |
Zhou et al. | Attention transfer network for nature image matting | |
CN110097499B (zh) | 基于谱混合核高斯过程回归的单帧图像超分辨率重建方法 | |
CN113259883B (zh) | 一种面向手机用户的多源信息融合的室内定位方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN114170526A (zh) | 基于轻量化网络的遥感影像多尺度目标检测识别方法 | |
CN116385401B (zh) | 一种高精度纺织品缺陷可视化检测方法 | |
CN116758419A (zh) | 针对遥感图像的多尺度目标检测方法、装置和设备 | |
CN108765384B (zh) | 一种联合流形排序和改进凸包的显著性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |