CN112163588A

CN112163588A - 基于智能进化的异源图像目标检测方法、存储介质及设备

Info

Publication number: CN112163588A
Application number: CN202011073830.9A
Authority: CN
Inventors: 杨一岱; 张栩培; 马钟
Original assignee: Xian Microelectronics Technology Institute
Current assignee: Xian Microelectronics Technology Institute
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-01-01

Abstract

本发明公开了一种基于智能进化的异源图像目标检测方法、存储介质及设备，基于深度卷积神经网络，逐步分阶段建立待匹配的数据集；基于神经网络算法D2‑net，利用数据集建立深度学习网络模型；对建立的深度学习网络模型进行训练和迁移学习；利用迁移学习得到的神经网络模型对异源图像分别进行特征点提取，利用特征点中的内点框选出异源图像中相匹配的目标，完成目标检测。本发明提出的智能方法训练框架可完成算法模型的持续进化，准确完成跨源目标匹配。

Description

基于智能进化的异源图像目标检测方法、存储介质及设备

技术领域

本发明属于目标检测技术领域，具体涉及一种基于智能进化的异源图像目标检测方法、存储介质及设备。

背景技术

目前，随着图像匹配技术的广泛应用，其研究取得了显著成果。其中特征空间与相似性度量准则是实现图像匹配的关键要素。特征空间的选择决定了参与匹配的特征量；相似性度量指用什么来确定待匹配特征之间的相似性，它通常是某种代价函数或者是距离函数的形式。相似性度量与特征空间的选择密切相关，它们是决定匹配精度的关键。通常如果采用的匹配特征确定，其相似性度量准则也随之确定。根据特征空间的不同，将匹配方法分为基于灰度的匹配算法和基于特征的匹配算法。

像素灰度值是图像最直观的特征。该类方法直接利用图像灰度信息进行匹配，一般采用基于距离度量和相关度量的相似性度量准则。对于距离度量，有绝对差算法(AD)，平均绝对差算法(MAD)，平方差算法(SD)，平均平方差算法(MSD)；相关度量有积相关算法(PROD)，归一化积相关算法(NPROD)等。为了抗旋转干扰，有些学者在灰度特征的基础上进行数学变换，从而达到鲁棒匹配，如对数极坐标匹配算法(如图1所示)、直方图相关匹配算法(如图2所示)、圆投影匹配算法、互信息匹配方法、相位相关算法等。这类方法优点是算法实现简单，计算速度快，发展得比较成熟，在特征分析中较为常用，如适配性分析。缺点是灰度信息易受成像条件等外部因素的影响，导致稳定性差，抗几何畸变能力较弱，在复杂环境下的匹配导航定位应用中鲁棒性不好。

基于特征的匹配算法是指在两幅待匹配图像中分别提取特征，通过判定这些特征之间的相似性来达到匹配的目的。相对于灰度匹配，特征匹配具有较好的稳定性和鲁棒性。

适合匹配的特征点有边缘点、角点、SIFT特征点等。根据特征空间的不同，匹配方法可分为基于特征点局部灰度区域描述符的匹配方法和基于特征点空间结构信息的匹配方法。基于特征点局部灰度区域描述符的匹配方法是指在匹配时需提取以特征点位置为中心的局部区域灰度信息的某类特征作为描述符进行相似性度量，如SIFT特征点匹配是提取局部区域128维特征向量作为描述子进行匹配，Harris角点匹配是利用以角点为中心的局部区域灰度信息进行相关匹配等，该类方法可获取点对点的一一精确匹配。基于特征点空间结构信息的匹配方法是指在特征点确定其位置后，仅利用特征点的空间结构信息进行相似性度量，如基于边缘点集的Hausdorff距离匹配是提取图像边缘点集合，以点集的Hausdorff距离作为特性进行相似性度量，基于形状上下特征匹配是提取图像的边缘轮廓特征点，计算点与点之间的距离和方向信息进行匹配等。该类方法可通过计算点集的总匹配代价，实现点集的相似性度量；也可结合结构模型，实现点对点一一匹配，但由于没有对特征点进行区域描述，无法确认匹配点对是否正确。针对实际应用的不同需求，选则合适的特征点与特征空间是正确匹配的前提。

由于图像的种类数量繁多，且单幅图像传递的特征信息较为复杂，因此如何描述图像特征成为一个关键性难题。所提取的图像特征传递的信息质量将直接影响对图像处理的结果。传统的图像特征提取过于繁琐和低效。近年来广泛使用的神经网络很好的解决了这一问题。神经网络应用基于学习的图像特征提取方式，这种方式将图像数据作为神经网络的输入，将其经过一系列堆叠的线性组合及非线性变换转化为更高层次的抽象表示，自动逐层的提取图像的特征信息。含有多隐含层的深度网络往往能够对原始输入数据做出更加深刻和本质的刻画,从而学习到更加高级的数据特征表示。

在计算机视觉领域，局部特征发挥着重要作用，从图像中寻找与匹配它们是大量的研究工作的课题。在过去几年，在许多计算机视觉领域，基于机器学习或更确切说是深度学习已经开始表现的比传统技术更好。尽管如此，这些新算法只在完整的计算过程中的某一步使用深度学习，例如特征检测，角度变化检测，特征表示。如何使用一种全新的深度架构，将特征匹提取的全流程同步进行是现在基于深度学习的特征提取方法的主要研究方向。

在许多实际应用领域中，用作匹配基准的先验图像信息往往来源于与实时采集图像的视觉传感器不同的相机，即待匹配的二者是异源图像，而目前在图像匹配领域的研究主要关注同源图像间的匹配问题，而当前尽管异源图像目标匹配问题经过数十年的研究，涌现了大量的算法，但依然没有得到彻底解决。目前，多数异源图像目标匹配方法均是基于传统方法的图像特征提取和特征点匹配，此类方法在计算速度和适应变形方面具有一定的优势，但由于异源图像上的目标外观变化较大，因此容易出现大量误匹配的特征点，所以此类方法可靠性比较差，不能很好的解决图像内容变化剧烈的异源图像目标匹配问题。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于智能进化的异源图像目标检测方法，针对红外—可见光异源图像的匹配问题展开研究，提出一种机器学习框架，可同时训练目标检测的特征检测器与描述子，得到一种可基于其自身计算结果不断持续进化的智能算法模型，用于跨源目标的图像匹配，对人工智能算法的工程化应用具有重要意义。

本发明采用以下技术方案：

基于智能进化的异源图像目标检测方法，包括以下步骤：

S1、基于深度卷积神经网络，逐步分阶段建立待匹配的数据集；

S2、基于神经网络算法D2-net，利用步骤S1的数据集建立深度学习网络模型；

S3、对步骤S2建立的深度学习网络模型进行训练和迁移学习；

S4、利用步骤S3迁移学习得到的神经网络模型对异源图像分别进行特征点提取，利用特征点中的内点框选出异源图像中相匹配的目标，完成目标检测。

具体的，步骤S1具体为：

S101、根据应用场景，选择具有相似性的带有典型标志物的区域，应用无人机机载可见光与红外摄像功能对区域进行数据采集；

S102、通过采购方式获取SAR图像；

S103、确定红外、SAR和可见光图像中轮廓清晰的地物特征，各类异源图像自身组成具有不小于50％重叠度的图像序列；

S104、对步骤S103的图像序列进行旋转，对目标角度进行校正；

S105、以各类目标的具体坐标进行比例缩放，使异源图像目标尺度相同；

S106、对步骤S105的图像进行裁剪，使图像中目标中心与整幅图像中心像素坐标误差小于等于图像长边尺寸的10％，且异源图像大小小于等于30％；

S107、将主要目标按场景进行分类，将数据集分为无交集的训练集与测试集。

具体的，步骤S2具体为：

S201、修改开源工具COLMAP中的SIFT特征提取和匹配代码，以D2-net算法提取特征并用RANSAC方法进行筛选和匹配；

S202、将原始图像以场景为单位送入算法模型进行特征提取和特征匹配，遍历场景中所有图像对，并将正确匹配的图像对保存记录，最终生成场景内图像的匹配列表；

S203、根据任务需要，对三维重建工具COLMAP中的参数进行配置，包括相机参数、特征点匹配模式和ransac算法参数，使场景重建效果最优；

S204、利用重建工具完成场景的稀疏重建与稠密重建，得到场景中的相机内参、图像描述文件、3D点云信息、畸变矫正图像和深度信息文件，为模型训练做准备；

S205、将场景中的原始图像、match list以及步骤S203中生成的文件作为输入，送入D2-net的训练程序，得到经过优化的D2-net算法模型，即经过重训练得到的具有新的权值系数的神经网路模型；

S206、重复步骤S201～S204，进行多次迭代，直到新生成的模型无法更进一步优化为止。

进一步的，步骤S202中，利用D2-net算法完成两两特征点提取和配对，根据匹配内点对个数确定各图像对是否正确匹配。

进一步的，步骤S203中，参数的调整配置根据实际效果调整至重建场景的点云坐标与实际坐标误差最小。

具体的，步骤S3具体为：

S301、收集新应用场景下的数据，并如前述步骤按场景完成分类和预处理；

S302、将新的场景数据作为训练数据集，送入训练框架；

S303、重复步骤S2，完成模型迭代。

具体的，步骤S4具体为：利用训练得到的神经网络模型提取待匹配目标所在的图像中特征点，随后在异源图像中提取特征点，利用ransac方法寻找两幅图像中的内点，当内点数量超过阈值时，匹配成功。

进一步的，阈值最小值大于等于9。

本发明的另一个技术方案是，一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

本发明的另一个技术方案是，一种计算设备，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

与现有技术相比，本发明至少具有以下有益效果：

本发明基于智能进化的异源图像目标检测方法，可完成SAR图像、可见光、红外目标的跨源目标检测。

进一步的，训练框架可用于智能算法的持续进化，不断提升算法精度。

进一步的，本发明提出的算法可针对不同应用场景，使其精度达到应用水平。

进一步的，在算法模型的训练过程中，本训练框架能够充分利用场景的三维特征信息，使训练数据中包含的信息不会被浪费。

进一步的，本发明提出的训练框架对拍摄环境、相机类型具有鲁棒性，可兼容多种应用场景。

进一步的，本算法在训练优化过程中，以3D坐标误差为优化对象，因此本算法在图像三维信息丰富的应用场景下效果极佳

进一步的，本发明提出的算法迁移学习方法，能够快速适应新的应用场景，可随时根据用户需求进行参数调整。

进一步的，本发明提出的算法在进行特征点匹配时运用了最新的改进ransac优化方法，其可信度高，具有较大的工程应用价值。

综上所述，本发明提出的智能方法训练框架可完成算法模型的持续进化，准确完成跨源目标匹配。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为对数极坐标匹配算法效果图，其中，(a)为模板，(b)为极坐标变换图；

图2为直方图相关匹配算法效果图，其中，(a)为模板，(b)为原始图，(c)为顺时针旋转15°，(d)为透视，(e)为亮度变化；

图3为可见光数据采集示例；

图4为红外数据采集示例；

图5为SAR图像数据采集示例；

图6为本发明智能算法的整体流程框架；

图7是本发明实施例1中的匹配结果；

图8是实施例1中作为对比的SIFT方法的匹配结果；

图9是本发明实施例2中的匹配结果；

图10是实施例2中作为对比的SIFT方法的匹配结果。

具体实施方式

异源图像匹配的基准图与传感器获得的实时图像往往来源于不同的传感器，两者之间的成像原理、像素、光照条件等等因素均存有所不同，因此图像上目标区域的灰度、纹理、边缘等方面都存在较大的差异，增大了图像匹配的难度。本发明提供了一种基于智能进化算法的异源图像目标检测方法，采用深度学习方法进行图像匹配，在用于可见光图像匹配的深度神经网络基础上进行改进，将特征检测器和描述子进行紧耦合设计，在模型训练阶段同时对二者进行优化，以提高异源图像匹配的准确率。

本发明一种基于智能进化算法的异源图像目标检测方法，包括以下步骤：

S1、数据集建立；

深度CNN的性能好坏很大程度上取决于数据集的丰富程度，当前绝大多数视觉任务的性能仍然以训练数据大小的数量级线性增加，因此为保证CNN的性能，首先须建立丰富的待匹配数据集。

S101、拍摄：根据应用场景，选择具有相似性的带有典型标志物的区域，应用无人机机载可见光与红外摄像功能对该区域进行数据采集，如图3，图4所示；

具有相似性的带有典型标志物，如地标建筑物、机场、码头等。

S102、收集：SAR图像来源较为特殊，可根据需要通过采购方式获取，如图5所示；

S103、整理：找出红外、SAR和可见光中均包含轮廓清晰的地物特征目标，如地标建筑物、机场、码头等，且目标的背景干净、无噪声，各类异源图像自身应可组成具有不小于50％重叠度的图像序列；

S104、校正：旋转图像，使目标角度相差不大；

S105、缩放：以各类目标具体坐标，经过比例缩放，使异源图像目标尺度大致相同；

利用图像处理软件进行缩放，使目标尺度差异不超过30％。

S106、裁剪：对步骤S105的图像进行裁剪，使图像中目标中心与整幅图像中心像素坐标误差不超过图像长边尺寸的10％，且异源图像大小相差不不超过30％；

S107、分类：将主要目标按场景进行划分，如公园A、公园B、小区A、市区B等，红外图像和可见光图像数量尽可能接近，并将数据集分为无交集的训练集与测试集。

考虑到神经网络的性能随着数据量增加而增强，数据集的建立可以逐步分阶段完成，通过逐渐增加数据集中的数据逐步提升网络的能力，最终达到应用需求。

S2、建立深度卷积神经网络；

在神经网络算法D2-net基础上提出一种深度学习网络模型架构；原始的D2-net模型训练流程的一大特点是利用传统算法SIFT对海量数据进行特征提取和特征匹配，根据匹配结果对海量数据进行筛选，随后通过三维重建工具COLMAP基于筛选后的数据进行稠密重建从而还原真实场景，最终依据此真实场景完成对数据的标注工作，该标注结果可作为模型训练时的输入数据，从而规避了数据的人工标注流程，大大简化针对海量数据的训练机制。本发明受原始的D2-net方法启发，直接将D2-net算法用于对海量原始数据的特征提取和匹配，彻底摆脱了智能算法模型对传统算法(SIFT)的依赖，同时，设计了模型的自迭代框架，使D2-net算法经过多次训练可不断对自身优化，检测并匹配到模型在原始状态下无法检测出的目标特征信息，从而完成自我进化。

请参阅图6，具体步骤如下：

S202、特征提取和特征匹配，将原始图像以场景为单位送入算法模型进行特征提取和特征匹配，遍历场景中所有图像对，利用D2-net算法完成两两特征点提取和配对，根据匹配内点对个数确定各图像对是否正确匹配并将正确匹配的图像对保存记录，最终生成该场景内图像的匹配列表；

S203、根据任务需要，对三维重建工具COLMAP中的参数进行配置，包括相机参数、特征点匹配模式、ransac算法参数等，使场景重建效果达到最优，上述参数的调整配置应根据实际效果多次调整，直到重建场景的点云坐标与实际坐标误差达到最小；

S205、将场景中的原始图像、match list以及步骤S203中生成的文件作为输入，送入D2-net的训练程序，得到经过优化的D2-net模型，即经过重训练得到的具有新的权值系数的神经网路模型；

S3、神经网络训练与迁移学习。

将经过训练得到的神经网络模型任意迁移至其他应用背景下，针对神经网络算法模型泛化能力差的问题，提出了一种快速迁移学习方法。

由于本发明的训练框架利用3D重建工具生成了图像对应关系，因此在面向新的应用场景对模型进行迁移学习训练时，无需对新的数据进行任何标注，大大节省了模型迁移学习的时间，具体步骤如下：

根据应用场景收集，可通过购买卫星影像数据、公开数据集下载或实地拍摄等，此数据收集步骤是为应用做准备，为实际目标匹配应用提供参考基准。如S2训练的模型是针对城市地图的异源目标检测模型，当需要在海上应用时，则需要再次收集海上图像数据。

S302、将新的场景数据作为训练数据集，送入步骤S2所述的训练框架；

S303、重复步骤S2，完成模型迭代。

S4、利用训练得到的神经网络模型提取待匹配目标所在的图像中特征点，随后在异源图像中提取特征点，利用ransac方法寻找两幅图像中的内点，当内点数量超过一定阈值时，则成功匹配，该阈值具体取值根据实际场景而定，图像尺寸越大，阈值取值越高，其最小值一般不小于9。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

红外-可见光匹配结果

应用本发明的方法进行红外-可见光图像目标匹配，并将匹配结果与业界公认的最先进的经典SIFT算法进行比较。以西安市区某建筑物为目标，选用谷歌卫星图片作为可见光目标，以无人机红外摄像头航拍影像为红外目标进行匹配，得到结果如附图所示。应用本发明方法，经过训练后得到的模型用于异源图像匹配结果如图7所示，图8为当前业界公认的能力最强的经典算法SIFT所得到的匹配结果，可以看出，本发明给出的算法能够准确完成跨源目标匹配，其效果远好于SIFT算法得到的结果。

实施例2

SAR图像-可见光匹配结果

应用本发明的方法进行SAR-可见光图像目标匹配，并将匹配结果与业界公认的最先进的经典SIFT算法进行比较。以土耳其伊斯坦布尔地区某港口为目标，选用谷歌卫星图片作为可见光目标，以卫星收集的SAR图像为目标进行匹配，得到结果如附图所示。应用本发明方法，经过训练后得到的模型用于异源图像匹配结果如图9所示，图10为当前业界公认的能力最强的经典算法SIFT所得到的匹配结果，可以看出，本发明给出的算法能够准确完成跨源目标匹配，其效果远好于SIFT算法得到的结果。

将本发明的算法在异源目标匹配的测试数据集上进行测试，得到的结果平均IOU可达0.635，而当前的其他同类型算法(SIFT、SuperPoint、R2D2-net等)的IOU均不超过0.15，由此可知本发明在红外-可见光异源图像目标匹配应用背景下具有先进性。

综上所述，本发明一种基于智能进化算法的异源图像目标检测方法，利用本发明提出的智能算法训练框架可完成算法模型的持续进化，准确完成跨源目标匹配。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.基于智能进化的异源图像目标检测方法，其特征在于，包括以下步骤：

S3、对步骤S2建立的深度学习网络模型进行训练和迁移学习；

2.根据权利要求1所述的方法，其特征在于，步骤S1具体为：

S102、通过采购方式获取SAR图像；

3.根据权利要求1所述的方法，其特征在于，步骤S2具体为：

4.根据权利要求3所述的方法，其特征在于，步骤S202中，利用D2-net算法完成两两特征点提取和配对，根据匹配内点对个数确定各图像对是否正确匹配。

5.根据权利要求3所述的方法，其特征在于，步骤S203中，参数的调整配置根据实际效果调整至重建场景的点云坐标与实际坐标误差最小。

6.根据权利要求1所述的方法，其特征在于，步骤S3具体为：

S302、将新的场景数据作为训练数据集，送入训练框架；

S303、重复步骤S2，完成模型迭代。

7.根据权利要求1所述的方法，其特征在于，步骤S4具体为：利用训练得到的神经网络模型提取待匹配目标所在的图像中特征点，随后在异源图像中提取特征点，利用ransac方法寻找两幅图像中的内点，当内点数量超过阈值时，匹配成功。

8.根据权利要求7所述的方法，其特征在于，阈值最小值大于等于9。

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至8所述的方法中的任一方法。

10.一种计算设备，其特征在于，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至8所述的方法中的任一方法的指令。