CN114255197B

CN114255197B - 一种红外与可见光图像自适应融合对齐方法及系统

Info

Publication number: CN114255197B
Application number: CN202111615821.2A
Authority: CN
Inventors: 刘立成; 惠维; 刘新慧; 白改瑞; 刘志林; 赵鲲; 赵季中; 王鹏; 董博
Original assignee: Second Research Institute Of Casic; Xian Jiaotong University
Current assignee: Second Research Institute Of Casic; Xian Jiaotong University
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2024-04-05
Anticipated expiration: 2041-12-27
Also published as: CN114255197A

Abstract

本发明公开了一种红外与可见光图像自适应融合对齐方法及系统，通过编码得到表征周围纹理区域的特征描述子D₁；将特征点位置信息进行上采样后与特征描述子D₁结合，得到包含纹理信息和结构信息的特征描述子D₂；将两组特征描述子D₂进行匹配，获得特征点之间的对应关系，根据对应关系得到透视变换矩阵；利用透视变换矩阵进行图像变换，将原始的热红外辐射图像和可见光图像映射到同一坐标体系中，通过透视变换矩阵进行两幅图像的变换，将表征同一物理位置的特征点映射在同一位置，然后将对齐后的热红外辐射图像和可见光图像进行融合，获得包含热红外和可见光信息的目标图片。实现热辐射热红外辐射图像和可见光图像的自适应融合。

Description

一种红外与可见光图像自适应融合对齐方法及系统

技术领域

本发明属于图像处理和局部图像描述技术领域，具体涉及一种红外与可见光图像自适应融合对齐方法及系统。

背景技术

现在正处于高速发展的信息时代，人工智能技术在人类的生活中随处可见，多模态数据已成为近来数据资源的主要形式。多数人把模态与代表我们感知方式联系起来，如视觉、触觉和听觉等。因此，当一个研究问题或数据集包含多个这样的模式时，它就具有多模态的特征。由于数据的异构性，多模态学习给计算研究者带来了一些独特的挑战。

红外线是波长介乎微波与可见光之间的电磁波，波长为0.75～1000um。热红外辐射图像可以根据辐射差异将目标与背景区分开来，这在全天候和全天/整夜的情况下效果很好。可见图像与人类视觉系统一致的方式可以提供具有高分辨率和清晰度的纹理细节。因此，期望融合这两种类型的图像，这可以结合热红外辐射图像中的热辐射信息和可见图像中的详细纹理信息的优点。红外和可见光图像融合是一种增强技术，旨在合并由不同类型的传感器获得的图像，以生成可促进后续处理或有助于决策的鲁棒性或信息性图像。

红外和可见光图像来自于相同场景的不同传感器，并且因拍摄角度不同，使红外和可见光图图像不能完全对齐。出色的融合方法的关键是有效的图像信息提取和适当的融合原理，这些原理允许从源图像中提取不同信道中的有用信息并将其集成在融合图像中。热红外辐射图像和可见图像具有互补的特性，从而产生了健壮且信息丰富的融合图像。红外和可见光图像的对齐是图像融合的必要前提，人工对齐费时费力，成本较大。经过图像配准可以获得质量更高，清晰度更好，定位更准确的图像用于图像的融合。配准后进行融合的图像可以同时获得热红外和可见光图像的信息。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种红外与可见光图像自适应融合对齐方法及系统，实现红外和可见光图像的配准的自适应融合，获得质量更高，清晰度更好，定位更准确的图像。

本发明采用以下技术方案：

1.一种红外与可见光图像自适应融合对齐方法，包括以下步骤：

S1、将热红外辐射图像和可见光图像的梯度进行编码，得到特征点位置信息；

S2、将以步骤S1得到的特征点位置为中心的图像块，将图像块输入到特征描述生成器中，通过编码得到表征周围纹理区域的特征描述子D₁；

S3、将步骤S1获得特征点位置信息进行上采样，与步骤S2得到的特征描述子D₁结合，得到包含纹理信息和结构信息的特征描述子D₂；

S4、将两组步骤S3得到的特征描述子D₂进行匹配，获得特征点之间的对应关系，根据对应关系得到透视变换矩阵；

S5、利用步骤S4得到的透视变换矩阵进行图像变换，将原始的热红外辐射图像和可见光图像映射到同一坐标体系中，通过透视变换矩阵进行两幅图像的变换，将表征同一物理位置的特征点映射在同一位置，然后将对齐后的热红外辐射图像和可见光图像进行融合，获得包含热红外和可见光信息的目标图片。

具体的，步骤S2具体为：

S201、通过特征点的位置和所在层级，获取以特征点为中心的反应不同尺度的图像块，大小为32*32，作为特征描述生成器的输入；

S202、将热红外辐射图像片段和可见光图像片段送入特征点描述生成器Descriptor；

S203、使用对比学习方法训练特征点描述生成器，同时通过神经网络的卷积操作得到特征描述子D₁。

进一步的，步骤S201中，采用双线性插值的方式获取以相邻整数坐标为中心的图像进行加权求和，最后将所有的图像片段统一缩放到32*32的尺寸。

进一步的，步骤S202中，特征点描述生成器Descriptor由卷积网络组成，网络的输入为32x32大小的图像，输出L2归一化的128dim的特征描述符。

进一步的，步骤S203中，在训练过程中，每个输入的图片都要以概率p＝0.5进行旋转、裁剪、缩放，最后投影为32*32尺寸大小的图像作为网络的输入。

进一步的，步骤S203中，特征点描述生成器的损失函数包括：

InfoNCE Loss：

Triplet Loss：

其中，N为样本数量，L₂(inf_i,vis_imin)为距离样本inf_i最近的样本之间的距离，L₂(inf_imin,vis_i)为距离样本vis_i最近的样本之间的距离，inf_imin和vis_imin分别表示在距离矩阵中，除对角线上元素外，距离最小的元素；L₂(inf_i,vis_j)表示热辐射红外第i特征点描述子和可见光图像第j特征描述子之间的欧氏距离；＜inf_i,vis_j＞表示热辐射红外第i特征点描述子和可见光图像第j特征描述子之间的相似度度量。

具体的，步骤S3具体为：将位置信息设置为2D静态编码，通过channel attention机制对不同位置的信息赋予不同的权重，利用注意力制或卷积网络将位置信息嵌入步骤S2得到的特征描述子D₁中，得到位置嵌入的权重并与静态位置编码结合，将位置扩充到特征描述子D₁相同的维度并相加，同时保留纹理信息和结构信息，获得包含纹理信息和结构信息的特征描述子D₂。

具体的，步骤S4中，通过最近邻匹配或最优传输匹配获得特征点之间的对应关系，利用纹理信息和结构信息计算特征点之间的匹配关系。

具体的，步骤S5中，利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使承影面绕迹线旋转，将热红外辐射图像和可见光图像映射到同一坐标体系中；最后通过裁剪获取热红外辐射图像和可见光图像之间的公共区域用于图像的融合。

本发明的另一技术方案是，一种红外与可见光图像自适应融合对齐系统，包括：

编码模块，将热红外辐射图像和可见光图像的梯度进行编码，得到特征点位置信息；

特征模块，将以编码模块得到的特征点位置为中心的图像块，将图像块输入到特征描述生成器中，通过编码得到表征周围纹理区域的特征描述子D₁；

结合模块，将编码模块获得特征点位置信息进行上采样，与特征模块得到的特征描述子D₁结合，得到包含纹理信息和结构信息的特征描述子D₂；

匹配模块，将两组结合模块得到的特征描述子D₂进行匹配，获得特征点之间的对应关系，根据对应关系得到透视变换矩阵；

融合模块，利用匹配模块得到的透视变换矩阵进行图像变换，将原始的热红外辐射图像和可见光图像映射到同一坐标体系中，通过透视变换矩阵进行两幅图像的变换，将表征同一物理位置的特征点映射在同一位置，然后将对齐后的热红外辐射图像和可见光图像进行融合，获得包含热红外和可见光信息的目标图片。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种红外与可见光图像自适应融合对齐方法，将热红外辐射图像和可见光图像透视输入到给特征点检测器一系列卷积操作得到对应的特征点，特征点及其周围图像区域通过一系列连续的卷积之后获得特征向量，这些特征向量作为特征点的描述子，此时将特征点、特征点描述子同时输送到配准器R，配准器将特征点位置及其描述作为特征点配准的基准，获得点与点的对齐关系；利用对比学习的思想增强特征描述子的特异性，增强在不同图像中，特征点之间对齐的准确性；同时位置信息中包含很多的有利于匹配的结构信息，能够增强网络性能，以达到红外与可见光图像自适应融合对齐的目的，同时还能捕获特征点之间的互信息。通过两组特征点之间进行局部或全局匹配，获得红外和可见光之间的透视变化矩阵，从而实现红外和可见光图像的对齐，进而实现红外和可见光图像之间的融合。

进一步的，使用通过对比学习训练出的特征描述生成器，可以生成表征特征点周围区域的纹理信息，用于后续匹配任务中的特征点相似度度量学习。

进一步的，特征点往往是图像的极值点，在不同的层级中，特征点所辐射的方位是不同的，其纹理特征描述来自于不同的感受野，将其重建为32*32便于后续模块的输入。

进一步的，S203使用对比学习的方式训练特征描述生成器，可以拉近热红外和可见光图像中，表征同一物理位置的描述子之间的距离，拉远表征不同位置的特征点描述子的距离。从而增加特征点的匹配性和在一幅图像中的特异性。

进一步的，利用对比学习的损失函数训练特征描述生成器，为了拉近两幅图上表征同一位置特征点描述的距离，拉远表征不同位置特征点位置的距离。使表征同一物理位置的特征点，能够在热红外和可见光图像上呈现出高度的相似性，用于特征点的匹配；分离不同位置特征点的描述，减少匹配的错误率。

进一步的，步骤S2仅能获取特征点周围区域的纹理信息。但图像的结构信息同样有利于特征点的匹配，人们往往通过图像的整体结合局部信息去判断图像的类别。步骤S3将特征点的位置和纹理信息相结合，获得更加利于匹配的特征点，用于提高特征点匹配的准确率。

进一步的，步骤S3得到包含纹理信息和结构信息的特征描述子D₂。通过最近邻匹配或最优传输匹配筛选出最佳的对应关系。

综上所述，本发明使用对比学习的思想训练特征描述生成器，拉近红外图像和可见光图像在同一物理位置的描述子距离，拉远不同位置的描述子距离。从而增加了特征描述子在热红外和可见光图像之间的匹配性，及其本身的特异性。同时，本发明将纹理信息和位置信息相结合，更有利与进行特征点之间的精确匹配，提高了匹配的准确性。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明基于对比学习的红外与可见光图像自适应融合对齐方法的流水线图；

图2为本发明输入检测器的图像经过检测器的操作，生成像素级特征点置信度的过程图；

图3为本发明图像片段输入特征描述器，生成特征点描述子的过程图；

图4为本发明通过上采样实现位置嵌入方法图；

图5为本发明基于注意力机制的位置嵌入方法图；

图6为本发明未使用位置嵌入的全局匹配结果图；

图7为本发明使用位置嵌入的全局匹配结果图；

图8为本发明特征描述生成器训练示意图以及距离矩阵图，其中，(a)为训练示意图，(b)为距离矩阵图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种红外与可见光图像自适应融合对齐方法，可以自适应的实现热辐射热红外辐射图像和可见光图像的融合对齐，提高下游任务的性能，比如在目标检测可以调高识别的准确率。本发明通过已有的数据集利用对比学习的思想进行训练，以达到特征描述具有特异性和匹配性的目的，以满足在热辐射热红外辐射图像和可见光图像之间特征点配准的现实需求。现有的基于纹理和统计周围区域梯度的方式不能满足我们的需求，或者只能满足其中的一部分要求，不能同时完全达到需求，所以需要综合纹理(局部)信息和结构信息来解决现实生产生活中的需求问题。

请参阅图1，本发明一种红外与可见光图像自适应融合对齐方法，包括以下步骤：

S1、使用Sobel算子获得热红外辐射图像和可见光图像的近似一阶导数和二阶导数，然后将热红外辐射图像和可见光图像的梯度进行编码，获得大小为H*W的特征图，H为示输入图像的高度，W为输入图像的宽，特征图中的值表示对应位置的像素点是特征点的概率，将特征图中对应的值作为得分，选取大于阈值0.7的前K个最大值作为特征点的位置坐标；

请参阅图2，将FLIR数据集中热红外辐射图像和可见光图像作为输入部分送入特征点检测器Detector进行编码，每张图片对应表示一组不同层级的像素级的特征点置信得分的特征图(Feature map)，用于选择特征点，通过对图像的多次下采样获得不同层级的梯度信息；

为了方便操作，将输入的热红外辐射图像和可见光图像统一裁剪缩放到同一尺寸，并将可见光图像灰度化，降低光线变化的影响。

S2、描述特征点周围区域的纹理特征。

S201、获取精准的特征点周围图像。

通过特征点的位置和所在层级，获取以特征点为中心的图像片段，为了获取更加准确的图像片段，采用双线性插值的方式获取以相邻整数坐标为中心的图像进行加权求和。在不同层级，特征点表征不同感受野的极值点，需要截取不同尺寸的图像片段，为了方便编码简化计算，最后将所有的图像片段统一缩放到32*32的尺寸。

S202、将热红外辐射图像片段和可见光图像片段送入到特征点描述生成器Descriptor，同时通过神经网络的卷积操作得到特征描述子D₁；

如图3所示，描述生成器Descriptor将输入的图像进行卷积操作，得到1*1*128的张量(tensor)，并进行L2归一化，得到最后的描述子D₁，即1*128的张量。

S203、基于对比学习的思想训练特征描述网络(Descriptor)。

使用对比学习的方法去训练特征点描述生成器(Descriptor)。比如在热红外辐射图像，特征点之间的描述要具有差异性，用于强调两个特征点的差异性。基于特征点的图像配准的实质是，表征同一物理位置的特征点的一一对应，所以在热红外辐射图像和可见光图像之间，表征同一位置的特征点的描述应尽可能的相同。

现有的对比学习的方法需要大量的负样本和对应的正样本。RGB-T234存在大量对齐的目标追踪的数据集，根据在热热红外辐射图像和可见光图像上边界框的位置，截取移动(变化)的部分以及每对图像上的一个随机位置图像用于对特征描述器的训练。在FLIR热数据集中，存在4,000张BONUS图像来自一段140秒视频，热红外辐射图像和可见光图像之间存在的角度偏差基本一致，可以序列化的人工对齐两幅图片。在人工对齐4000张图片后，将每一个对应的热红外辐射图像和可见光图像以网格形式随机生成9*9个特征点，提取以每个特征点为中心的64*64大小的图像片段作为对比学习的训练中用于微调的数据。

如图8(a)所示，需要特征描述子在纵方向具有特异性，在横轴方向具有相似性。于此同时也可以认为，热红外辐射图像和可见光图像之间，只有表征同一位置的特征点才认为是正样本，与同组和另一组其他图像均为负样本。所以扩展下列两种损失函数为：

InfoNCE Loss：

和Triplet Loss：

损失函数说明：

参阅图8，计算m*n大小的距离矩阵，m与n分别表示热红外辐射图像和可见光图像中特征点的数量。在训练过程中，使用成对的图像片段，m与n的大小均为N。计算两组特征点描述子D₁两两之间的距离，获得距离矩阵。距离矩阵中对角线上元素值表示正样本之间的距离，其余均负样本的距离。

inf_imin和vis_imin分别表示在距离矩阵中，除对角线上元素外，距离最小的元素，如图8(b)所示。

L₂(inf_i,vis_j)表示热辐射红外第i特征点描述子和可见光图像第j特征描述子之间的欧氏距离。

＜inf_i,vis_j＞表示热辐射红外第i特征点描述子和可见光图像第j特征描述子之间的相似度度量，其欧氏距离越小，相似度越高，因特征描述子D₁经过L2归一化处理，两个描述子之间的最大距离为2，则使用2-L₂(inf_i,vis_i)表示为特征之间的相似度。

在训练过程中，每个输入的图片都要以一定的概率(p＝0.5)进行旋转、裁剪、缩放，最后均投影为32*32尺寸大小的图像作为网络的输入。

S3、通过位置嵌入，将部分结构信息嵌入到描述子D₁，得到包含纹理信息和结构信息的特征描述子D₂,并将得到的特征描述子D₂保存。

图4表示的基于上采样的位置嵌入由多层感知机结构组成，并连接一个CONCAT层，得到特征点的特征描述子D₂并进行保存。

图5表述基于注意力机制的位置嵌入，首先将位置信息设置为2D静态编码，再通过一个channel attention机制对于不同位置的信息赋予不同的权重。注意力机制由全连接层组成，并连接一个sigmoid层输出，得到位置嵌入的权重并与静态位置编码结合。

位置嵌入是将位置信息和纹理信息相结合，需要将位置(x,y)扩充到特征描述子D₁相同的维度(128)，并与之相加，同时保留纹理信息和结构信息。

S4、在步骤S3中，获得表征特征点周围纹理信息和位置信息的特征描述子D₂，作为输入送入matcher，通过最近邻(NN)匹配或最优传输匹配(Sinkhorn)获得特征点之间的对应关系，利用纹理信息和结构信息计算特征点之间的匹配关系。

图6是只使用纹理信息进行匹配的可视化结果，因为热红外辐射图像和可见光图像，存在很多的噪音，因为天空和道路的纹理信息相似，天空与道路的错误对应关系更加明显。经观察，车载热红外辐射图像和可见光图像存在明显的上下左右对应关系，所以结构信息在实验中更加突出。

图7是使用包含纹理信息和位置信息的特征描述子D₂的匹配的可视化结构，即可以更加准确的实现天空对天空、道路对道路、右侧对右侧和左侧对左侧的匹配结果。

S5、根据特征点之间的对应关系，计算两组特征点之间的变换关系，认为是热红外辐射图像和可见光图像之间的变换关系；透视变换(Perspective Transformation)是指利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度，破坏原有的投影光线束，仍能保持承影面上投影几何图形不变的变换。将热红外辐射图像和可见光图像映射到同一坐标体系中。最后通过裁剪获取热红外辐射图像和可见光图像之间的公共区域用于图像的融合。

通过步骤S3获得特征描述子D₂，计算不同特征描述子之间的距离，利用相互最近邻的方法查找相互最近的特征点对应关系。根据热红外和可见光两组特征点的对应关系，通过RANSAC(随机一致性采样)不断迭代，获得热红外图像到可见光图像的单应矩阵，将单应矩阵与热红外图像位置逐像素相乘，获得在可见光坐标系中对齐后的图像。

本发明再一个实施例中，提供一种红外与可见光图像自适应融合对齐系统，该系统能够用于实现上述红外与可见光图像自适应融合对齐方法，具体的，该红外与可见光图像自适应融合对齐系统包括模块、模块、模块、模块以及模块。

其中，编码模块，将热红外辐射图像和可见光图像的梯度进行编码，获得大小为H*W的特征图，H为示输入图像的高度，W为输入图像的宽，将特征图中对应的值作为得分，选取大于阈值的前K个最大值作为特征点的位置坐标；

特征模块，将以编码模块得到的特征点位置坐标为中心的图像块，将图像块输入到特征描述生成器中，通过编码得到表征周围纹理区域的特征描述子D₁；

结合模块，将编码模块获得特征点位置坐标进行上采样，与特征模块得到的特征描述子D₁结合，得到包含纹理信息和结构信息的特征描述子D₂；

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

原始数据分为热热红外辐射图像和可见光图像，如FLIR热数据集，同步注释热图像和无注释RGB图像供参考。热像仪中心线相距大约2英寸并且经校准以最大限度地减小视差。RGB-T234数据集包含大量视频帧，分为afterrain、aftertree、baby和baginhand等类别，因为在热热红外辐射图像和可见光图像之间的对齐非常准确，并不需要使用高级成像机制进行任何预处理和后处理(例如，立体匹配和颜色校正)。

在ADAS环境中，感知热红外辐射或热量的能力为可见光相机、激光雷达和雷达系统等现有传感器技术提供了独特的互补优势，FLIR热数据集，共14,000张图像，训练集有8862张图像、测试集1366张图像，外加一个视频切割成的图像4224张，其中10,000张来自短视频片段，另外4,000张BONUS图像来自一段140秒视频，在11月至5月期间日间(60％)和夜间(40％)晴到多云天气行驶在加利福尼亚州圣巴巴拉市街道和公路上进行记录。热红外辐射图像和可见光图像来自相同时刻不同的传感器，存在角度和分辨率的区别。

在人共对齐的热红外和可见光图像上检测本方法的准确性。输入对齐好的热红外和可见光图像，其中一幅图像发生缩放、旋转、平移，通过步骤S4，获得热红外和可见光两组特征点之间的对应关系。我们假设一组对应的特征点，若坐标差值小于3个像素，则认为其为正确对齐的数据。通过实验发现，只使用表征纹理的特征描述子D₁进行匹配，每组图像的准确率在60％-73％左右，使用特征特征描述子D₂，准确率可以达到70％-85％。若两幅图像未发生变化，会达到更高的准确率。通过实验发现，只使用对比学习训练，可以获得较好的效果，位置信息中包含有利于配准的信息。

综上所述，本发明一种红外与可见光图像自适应融合对齐方法及系统，根据需求自适应的对齐来自不同传感器的图像，通过纹理信息和位置信息的结合，提高特征配准的准确性，可以实现热辐射热红外辐射图像和可见光图像的自适应融合，获得质量更高，包含更多信息的图像，以供下游任务使用。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种红外与可见光图像自适应融合对齐方法，其特征在于，包括以下步骤：

S1、将热红外辐射图像和可见光图像的梯度进行编码，获得大小为H*W的特征图，H为示输入图像的高度，W为输入图像的宽，将特征图中对应的值作为得分，选取大于阈值的前K个最大值作为特征点的位置坐标；

S2、将以步骤S1得到的特征点位置坐标为中心的图像块，将图像块输入到特征描述生成器中，通过编码得到表征周围纹理区域的特征描述子D₁；

S3、将步骤S1获得特征点位置坐标进行上采样，与步骤S2得到的特征描述子D₁结合，得到包含纹理信息和结构信息的特征描述子D₂；

2.根据权利要求1所述的红外与可见光图像自适应融合对齐方法，其特征在于，步骤S2具体为：

3.根据权利要求2所述的红外与可见光图像自适应融合对齐方法，其特征在于，步骤S201中，采用双线性插值的方式获取以相邻整数坐标为中心的图像进行加权求和，最后将所有的图像片段统一缩放到32*32的尺寸。

4.根据权利要求2所述的红外与可见光图像自适应融合对齐方法，其特征在于，步骤S202中，特征点描述生成器Descriptor由卷积网络组成，网络的输入为32x32大小的图像，输出L2归一化的128dim的特征描述符。

5.根据权利要求2所述的红外与可见光图像自适应融合对齐方法，其特征在于，步骤S203中，在训练过程中，每个输入的图片都要以概率p＝0.5进行旋转、裁剪、缩放，最后投影为32*32尺寸大小的图像作为网络的输入。

6.根据权利要求2所述的红外与可见光图像自适应融合对齐方法，其特征在于，步骤S203中，特征点描述生成器的损失函数包括：

InfoNCE Loss：

<inf_i,vis_i>＝2-L₂(inf_i,vis_i)

Triplet Loss：

其中，N为样本数量，L₂(inf_i,vis_imin)为距离样本inf_i最近的样本之间的距离，L₂(inf_imin,vis_i)为距离样本vis_i最近的样本之间的距离，inf_imin和vis_imin分别表示在距离矩阵中，除对角线上元素外，距离最小的元素；L₂(inf_i,vis_j)表示热辐射红外第i特征点描述子和可见光图像第j特征描述子之间的欧氏距离；<inf_i,vis_j>表示热辐射红外第i特征点描述子和可见光图像第j特征描述子之间的相似度度量。

7.根据权利要求1所述的红外与可见光图像自适应融合对齐方法，其特征在于，步骤S3具体为：将位置信息设置为2D静态编码，通过channel attention机制对不同位置的信息赋予不同的权重，利用注意力制或卷积网络将位置信息嵌入步骤S2得到的特征描述子D₁中，得到位置嵌入的权重并与静态位置编码结合，将位置扩充到特征描述子D₁相同的维度并相加，同时保留纹理信息和结构信息，获得包含纹理信息和结构信息的特征描述子D₂。

8.根据权利要求1所述的红外与可见光图像自适应融合对齐方法，其特征在于，步骤S4中，通过最近邻匹配或最优传输匹配获得特征点之间的对应关系，利用纹理信息和结构信息计算特征点之间的匹配关系。

9.根据权利要求1所述的红外与可见光图像自适应融合对齐方法，其特征在于，步骤S5中，利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使承影面绕迹线旋转，将热红外辐射图像和可见光图像映射到同一坐标体系中；最后通过裁剪获取热红外辐射图像和可见光图像之间的公共区域用于图像的融合。

10.一种红外与可见光图像自适应融合对齐系统，其特征在于，包括：

编码模块，将热红外辐射图像和可见光图像的梯度进行编码，获得大小为H*W的特征图，H为示输入图像的高度，W为输入图像的宽，将特征图中对应的值作为得分，选取大于阈值的前K个最大值作为特征点的位置坐标；