CN112016478A

CN112016478A - 一种基于多光谱图像融合的复杂场景识别方法及系统

Info

Publication number: CN112016478A
Application number: CN202010895905.5A
Authority: CN
Inventors: 赵涛; 程勇策; 温明; 袁滔; 乔宇晨
Original assignee: Third Research Institute Of China Electronics Technology Group Corp
Current assignee: Third Research Institute Of China Electronics Technology Group Corp
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-01
Anticipated expiration: 2040-08-31
Also published as: CN112016478B

Abstract

本发明公开了一种基于多光谱图像融合的复杂场景识别方法，包括：将场景数据集的图像划分为训练数据集和测试数据集，场景数据集的图像为将红外光和可见光融合后的图像；根据训练数据集构建场景识别的DL‑FME卷积神经网络，利用DL‑FME卷积神经网络对融合后的图像进行分割，得到分割后的图像；利用DL‑FME卷积神经网络对分割后的图像进行训练以生成场景识别训练模型；将测试数据集的图像输入训练模型以生成场景识别模型；利用场景识别模型对待识别的场景进行识别。本发明还公开了一种基于多光谱图像融合的复杂场景识别系统。本发明的计算成本降低、场景识别的准确率高。

Description

一种基于多光谱图像融合的复杂场景识别方法及系统

技术领域

本发明涉及视频处理技术领域，尤其涉及一种基于多光谱图像融合的复杂场景识别方法及系统。

背景技术

复杂环境下，对典型目标进行识别和提取是机载光电侦查领域的中一个重要领域，在军事监视、目标探测、毁伤评估以及目标导航等方面都有广泛的应用。

目前机载光电侦查设备往往需要搭载多台不同光谱的传感器，这种组合后的传感器极大地丰富了人们对地面的观察与测量，能够帮助人民更加有效地认知地面目标物。

多谱段传感器的共同使用获取到的航拍图像具有更加丰富的光谱特征信息、空间结构和几何纹理等信息。比如在光电侦查领域，通过可见光相机所获得图像下并不容易区分军事伪装；而在长波/中波红外相机下，生命体和伪装物体的成像却非常明显。但是由于中波和长波红外成像的纹理缺失严重，如果在侦查中单独依靠热红外图像时，会给后续图像中场景的精确识别带来极大的困难。

因此，针对航拍侦查场景的应用需求，需要通过一定的图像融合手段来合理地处理这些图像，并结合人工智能的方法对场景进行识别以获取感兴趣的信息，这已经成为机载光电侦查的重要应用方向。

在机载图像融合和复杂环境识别应用中，现有技术中的图像融合方法对于图像细节特征的保留较少。

由于镜头材料和探测器靶面的限制，可见光镜头和红外镜头的焦距往往是不同的探测器成像像素数也是不同的，这就给图像高效快速地融合带来了极大地困难。在航拍图像中，包含的地物种类繁多，其中，道路、建筑物、水体等信息是重要的基础地理信息以及生命体、伪装等是重要的场景信息。

目前，由于影像分辨率的提高，影像中包含的地物变得越发丰富，图像的细节特征也越来越丰富。现有技术中对颜色空间的色彩融合方法为了保持自然感的彩色图像，在彩色初始化中，主要是将目标场景纹理信息较为丰富的可见光图像(灰度化处理后)送到Y通道，将白热红外图像主要送到V通道，将黑热红外图像(即红外图像的正片)主要送到U通道，受制于机载平台上图像处理硬件的计算能力，这就给不同波段图像的快速匹配和融合带来较大的困难。同时，为了图像后期图像识别的方便，保留更丰富的图像信息也逐渐成为图像融合的关注的主要问题。

在对图像信息进行地理及场景信息的识别时，现有技术中利用SVM、K-means分割定位算法受到场景信息的干扰往往比较大，如场景中树木与建筑物的阴影、车辆及路面上的临时施工区都会影响到信息的准确提取；并且现有技术中的Mask-RCNN、Deeplab等神经网络算法受到机载平台计算能力的影响，面临着计算耗时长，特征提取能力差的问题。

发明内容

本发明提出了一种基于多光谱图像融合的复杂场景识别方法及系统，利用DeepLabv3--Feature Map Enhancement(DL-FME)卷积神经网络，以解决上述现有技术中存在的至少一个技术问题。

为了达到上述目的，本发明采用的技术方案为：

第一方面，本发明实施例提供一种基于多光谱图像融合的复杂场景识别方法，该方法包括以下步骤：

将场景数据集的图像划分为训练数据集和测试数据集，所述场景数据集的图像为将红外光和可见光融合后的图像；

根据所述训练数据集构建场景识别的DL-FME卷积神经网络，利用所述DL-FME卷积神经网络对所述融合后的图像进行分割，得到分割后的图像；

利用所述DL-FME卷积神经网络对所述分割后的图像进行训练以生成场景识别训练模型；

将所述测试数据集的图像输入所述训练模型以生成场景识别模型；

利用所述场景识别模型对待识别的场景进行识别。

进一步的，所述训练数据集和测试数据集通过以下子步骤获得：

对所述融合后的图像进行预处理以获得场景数据集；

标记并划分所述场景数据集中的图像以获得所述训练数据集和测试数据集。

进一步的，所述融合后的图像通过以下子步骤获得：

对相机的摄像头进行畸变校正；

将校正后的摄像头所拍摄的红外光图像和可见光图像进行配准操作；

将配准后的红外光和可见光图像进行融合以获得所述融合后的图像。

进一步的，所述配准操作包括以下子步骤，

采用计算标定板法计算所述红外光图像和可见光图像之间的像素差，根据所述像素差得到图像尺度因子；

根据标定板中圆形的坐标位置在红外图像中的像素坐标位置以及标定板中圆形的坐标位置在可见光图像中的像素坐标位置，以获得标定板中的圆心在红外和可见光图像的偏移距离；

根据所述偏移距离将红外光图像与可见光图像进行对齐以完成所述配准操作。

进一步的，所述将配准后的红外光和可见光图像进行融合以获得融合后的图像包括以下子步骤获得：

将含有多个细节特征的可见光图像和含有多个伪装目标图像强度特征的红外光图像在Y通道进行融合叠加；

根据预设的填充系数对可见光图像的U通道或V通道进行填充，并根据预设的补强强度对填充后的可见光图像进行补强以获得所述融合后的图像。

进一步的，所述网络架构DL-FME以Xception网络作为该网络架构的骨架网络。

进一步的，所述分割后的图像通过以下子步骤获得：

将融合后的图像输入所述网络架构DL-FME中，以获得第一批特征图，

利用特征增强函数对所述第一批特征图的特征进行增强以得到第二批特征图；

将所述第一特征图的特征与第二批特征图连接，以得到所述分割后的图像。

进一步的，所述场景识别训练模型是通过以下子步骤获得的：

在训练初期，采用Warmup策略对所述分割后的图像进行训练；

在训练后期，采用余弦衰减策略对所述分割后的图像进行训练；

逐层对所述DL-FME卷积神经网络进行微调，以获得所述场景识别训练模型。

第二方面，本发明实施例提供一种，包括：

划分模块，用于将场景数据集的图像划分为训练数据集和测试数据集，所述场景数据集的图像为将红外光和可见光融合后的图像；

分割模块，用于根据所述训练数据集构建场景识别的DL-FME卷积神经网络，利用所述DL-FME卷积神经网络对所述融合后的图像进行分割，得到分割后的图像；

训练模块，用于利用所述DL-FME卷积神经网络对所述分割后的图像进行训练以生成场景识别训练模型；

生成模块，用于将所述测试数据集的图像输入所述训练模型以生成场景识别模型；

识别模块，用于利用所述场景识别模型对待识别的场景进行识别。

本发明的有益效果是：

本发明通过将含有多个细节特征的可见光图像和含有多个伪装目标图像强度特征的红外光图像在Y通道进行融合叠加，然后根据预设的填充系数对可见光图像的U通道或V通道进行填充，并根据预设的补强强度对填充后的可见光图像进行补强以获得所述融合后的图像，这样在卷积神经网络中，可以保留更多细节特征，使得YUV空间图像能够快速融合；

本发明利用构建好的构建场景识别的DL-FME卷积神经网络来获得所述融合后的图像的特征图，使得计算成本降低，且丰富了DL-FME卷积神经网络提取融合后的图像的细节特征，从而也就增加了场景识别的准确率。

本发明利用DL-FME卷积神经网络可以通过浅层特征图的线性或者二次变换等简单的运算进行近似，可以快速的丰富特征图的数量；

准确且高效地增强DL-FME卷积神经网络的提取能力，解决复杂环境下场景智能识别的问题。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明的一个实施例提供的一种基于多光谱图像融合的复杂场景识别方法的流程示意图；

图2本发明的一个实施例的提供的一种获得融合后的图像流程示意图；

图3(a)为多光谱相机的安装方式示意图；

图3(b)为多光谱相机在未校正前的成像区域示意图；

图3(c)为多光谱相机在矫正后的成像区域示意图；

图4(a)为本发明的一个实施例的提供的可见光原图的光谱图像示意图；

图4(b)为本发明的一个实施例的提供的红外光原图的光谱图像示意图；

图4(c)为本发明的一个实施例的提供的将可见光和红外光融合后的光谱图像示意图。

图5为本发明的一个实施例利用DL-FME卷积神经网络对所述融合后的图像进行图像分割的流程示意图；

图6为本发明的一个实施例提供的一种基于多光谱图像融合的复杂场景识别系统的结构示意图。

具体实施方式

以下描述用于公开本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变形。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

可以理解的是，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

在这里使用的术语仅用于描述各种实施例的目的且不意在限制。如在此使用的，单数形式意在也包括复数形式，除非上下文清楚地指示例外。另外将理解术语“包括”和/或“具有”当在该说明书中使用时指定所述的特征、数目、步骤、操作、组件、元件或其组合的存在，而不排除一个或多个其它特征、数目、步骤、操作、组件、元件或其组的存在或者附加。

实施例一

参见图1，图1为本发明的一个实施例提供的一种基于多光谱图像融合的复杂场景识别方法的流程示意图；

该方法包括以下步骤：

S100：将场景数据集的图像划分为训练数据集和测试数据集，所述场景数据集的图像为将红外光和可见光融合后的图像；

S200：根据所述训练数据集构建场景识别的DL-FME卷积神经网络，利用所述DL-FME卷积神经网络对所述融合后的图像进行分割，得到分割后的图像；

S300：利用所述DL-FME卷积神经网络对所述分割后的图像进行训练以生成场景识别训练模型；

S400：将所述测试数据集的图像输入所述场景识别训练模型以生成场景识别模型；

S500：利用所述场景识别模型对待识别的场景进行识别。

上述DL-FME卷积神经网络是指基于深度学习的特征图增强神经网络。

进一步的，S100中的场景数据集来源于将红外光和可见光融合后的图像集，所述S100包括以下子步骤：

S110：对融合后的图像进行预处理以获得场景数据集；例如，可以对所述融合后的图像进行筛选以去除模糊不清的图像或对部分包含无关背景的图像进行裁剪，从而保留清晰且有效的图像；其中，融合后的图像的分辨率大小可以为1920×1080。

S120：标记并划分所述场景数据集中的图像以获得所述训练数据集和测试数据集；例如，本实施例可以选取场景数据集中的10000张图像作为训练数据集，1500张图像作为测试数据集；所述场景包括道路、建筑、水体、森林、草地等。

进一步的，参见图2，在S110中，融合后的图像通过以下子步骤S111-S113获得，参见图3(a)-3(c)；其中，图3(a)为多光谱相机的安装方式示意图，图3(b)为多光谱相机在未校正前的成像区域示意图，图3(c)为多光谱相机在矫正后的成像区域示意图；

S111：对相机的摄像头进行畸变校正；

具体的，可以首先建立像平面坐标到物空间坐标的严密几何映射关系，以消除相机的摄像头的畸变的影响。理论上，针孔相机的理想成像模型中物方坐标和像方坐标(x’,y’,z’)之间完全符合线性变换关系。在考虑光学畸变的情况下，根据物方坐标(x,y,z)和像方坐标(x’,y’,z’)之间的线性变换关系，来消除相机的摄像头的畸变。

优选的，本实施例可采用张氏校正法对各个相机的摄像头进行畸变校正，并通过Opencv软件集成的单目标标定定方法和相应函数Calibra-camera()对各个相机拍摄的图像进行畸变校正，以消除初始的红外光图像和可见光图像边缘的畸变。

S112：将校正后的相机的摄像头所拍摄的红外光图像和可见光图像进行配准操作；

一般情况下，本实施例中的相机为多光谱相机，将多个多光谱相机安装于一个相机系统平台上，各个多光谱相机的光轴是平行安装的。

将不同的多光谱相机所拍摄的图像变换到全局统一的像平面坐标系下，进而实现多同步影像的几何配准。

配准时主要考虑两个因素：图像尺度因子和图像偏移。

进一步的，所述S112包括以下子步骤S11和S12；其中，

S11：采用计算标定板法计算所述红外光图像和可见光图像之间的像素差，根据所述像素差得到图像尺度因子，以将空间物体在红外和可见光图像的空间分辨率缩放为统一大小。

具体的，由于红外光的焦距f＝12mm，而可见光的焦距f＝12mm，因此红外光和可见光的焦距不完全一致，导致空间物体在两种图像上成像大小不一样，也就是说图像的空间分辨率不同。图像尺度因子可以由相机的摄像头的光学参数计算得到，也可以通过实验测得到。单纯应用光学试验检参数时会引入的误差(光学加工误差)，本实施采用计算标定板法，该方法通过计算标定板在两两圆心之间在红外和可见光图像间的像素差，根据像素差得到红外和可见光图像的缩放比例，从而将红外和可见光图像的空间分辨率(单像素对应的实际空间尺寸)统一起来；其中，本实施例中，标定板距离为100米，红外光图像的原始大小为：640×512；可见光的图像的原始大小为：1920×1080。将红外光图像的空间分辨率统一升采样到1920×1536的分辨率，可见光图像的分辨率保持1920×1080的分辨率；

所述图像尺度因子通过以下公式获得：

其中，TP_n(Thermal Point)为第n个圆心的红外图像的x或y像素坐标值,

VP_n(Visible Point)为第n个圆心的可见光图像的x或者y像素坐标值,其中n≥2。

S12：根据标定板中圆形的坐标位置在红外图像中的像素坐标位置以及标定板中圆形的坐标位置在可见光图像中的像素坐标位置，以获得标定板中的圆心在红外和可见光图像的偏移距离；

具体的，可以将红外图像移动到可见光图像上并以调整红外图像和可见光图像图像偏移，从而抵消在系统平台上的安装位置所带来的平移，从而将红外与可见光像素对齐；

其中，所述偏移距离通过以下公式获得：

X_diff,Y_diff为标定板的同一个圆心在红外和可见光图像中的像素坐标值。但是由于缺少红外图像和可见光图像的深度信息，上述求出的偏移距离只能将空间距离与标定板距离接近的物体对齐。

S13：根据所述偏移距离将红外光图像与可见光图像进行对齐以完成所述配准操作。

本实施例的相机的摄像头的光学结构和安装结构，标定板中的圆心在红外和可见光图像在x方向的偏移像素数为18像素，在y方向上的偏移像素数为21像素。

S113：将配准后的红外光和可见光图像进行融合以获得所述融合后的图像，即将多谱图像的YUV色彩空间的图像进行快速融合；

上述YUV色彩空间的“Y”表示明亮度(Luminance或Luma)，也就是灰阶值；而“U”和“V”表示的则是色度(Chrominance或Chroma)，作用是描述影像色彩及饱和度，用于指定像素的颜色。

本实施例的颜色空间的色彩融合方法中，主要是将目标场景纹理信息较为丰富的可见光的Y通道图像和白热红外图在Y通道进行融合，U和V通道不在进行红外热白或者热黑的融合，仅进行适当的增强以减少计算量，尽管在复杂环境智能识别中，对于图像的视觉效果关注较少，更加注重卷积神经网络的场景分类和识别精度。

参见图4(a)、4(b)和4(c),本实施例中的S113通过以下子步骤将配准后的可见光和红外光图像进行融合：

S21：将含有多个细节特征的可见光图像和含有多个伪装目标图像强度特征的红外光图像在Y通道进行融合叠加，其中，融合系数α₁＝0.67，α₂＝0.33,α₃＝0.91,α₄＝0.95。其中Y_s，U_s，V_s分别是融合后图像的Y,U,V颜色通道，V_Y是可见光图像的Y通道，IR是热红外图像，V_U是可见光图像的U通道，V_V是可见光图像的V通道。

S22：然后根据预设的填充系数对可见光图像的U通道或V通道进行填充，并根据预设的补强强度对填充后的可见光图像进行补强以获得所述融合后的图像；其中，U通道预设的填充系数为：α₃＝0.91,预设的补强强度为22；V通道预设的填充系数为：α₃＝0.95。这样既充分保证可见光图像丰富的细节，又很好地利用了特定场景下红外通道的亮度特性，将配准后的可见光和红外光图像进行融合后的效果如图4(c)所示。

进一步的，所述S200中，所述网络架构DL-FME以Xception 65稀疏卷积网络作为该网络架构DL-FME的骨架网络。

进一步的，参见图5，图5为本发明的一个实施例利用所述DL-FME卷积神经网络获得所述分割后的图像的流程示意图；

在S200中，所述分割后的图像是通过以下子步骤获得的：

S210：将融合后的图像输入所述网络架构DL-FME的编码器中，以获得第一特征图；

具体的，在一个实施例中，所述第一批特征图通过以下子步骤获得：

S211：利用DCNN网络对融合后的图像进行浅层特征的提取；

S212：通过Xception65稀疏卷积网络对图像特征进行提取，以获得所述第一批特征图；

S213：同时对浅层特征图进行最大池化，以作为所述第一批特征图的补充。

在另一个实施例中，还可以通过增加卷积神经网络层数，如采用残差网络(Res-net)等对图像的多层信息进行精确提取。

S220：利用特征增强函数对所述第一批特征图进行增强以得到第二批特征图；本实施例中，可以利用特征图增强器(Feature Map Enhancement，FME)对所述第一批特征图进行增强以获得所述第二批特征图；特征图增强器可以依据特征增强函数将第一批特征图的每张特征图产生一张或多张同分辨率的特征图，以形成第二批特征图。

具体的，所述特征增强函数包括以下一个或多个函数：

(1)线性增强函数：y＝kx+c，

(2)二次增强函数：y＝ax²+bx，

(3)ReLu非线性增强函数。

其中，所述线性增强函数和/或ReLU非线性增强函数主要用于对低扩张率得到的第二批特征图的部分特征图进行增强；

二次增强函数主要用于高扩张率得到的第二批特征图的另一部分特征图进行增强。

S230：将所述第一批特征图的特征与第二批特征图的特征进行融合连接，以得到融合后的图像的特征图；

利用48通道的1×1卷积对融合后的特征图进行卷积以得到第三批特征图，以减少融合后的特征图的通道数。

S240：利用解码器对所述第三批特征图进行解码，以获得所述分割后的图像，具体包括以下步骤：

S241：采用1×1的卷积核对DCNN网络提取的浅层特征进行卷积以得到第四批特征图；即采用1×1的卷积核卷积网络提取DCNN网络提取的浅层特征的特征图，以得到压缩后的特征图，从而可以使得后面的解码部分对于编码网络得到的高纬特征通道有一个偏重，可以保留融合后的图像的更多的深层次语义信息。

S242：利用4倍放大的双线性内插上采样方法对所述第三批特征图进行卷积获得第五批特征图，该第五批特征图为高层次特征图；

S243：将所述第四批特征图与第五批特征图进行特征融合得到第六特征图；

S244：对所述第六批特征图进行3×3卷积，以获得第七批特征图；

S245：利用4倍放大的双线性内插上采样方法将所述第七批特征图的分辨率恢复至融合后的图像的分辨率，以将第七批特征图与融合后的图像进行等大的分割以获得所述分割后的图像。

该分割方法在训练初期(即Epoch迭代次数较少时)，其平均重叠面积(MIOU)较现有技术的分割方法中的MIOU略有降低；但是随着训练次数的增加，MIOU的增长将超过现有技术的分割方法中的MIOU增长，能够提高约7％左右。

进一步的，DL-FME卷积网络可以看作是特征提取器，多以浅层卷积提取的基本是图像轮廓、纹理、边缘等信息，这对于图像来说通用的，所以训练采用训练迁移的方法进行以减少训练时间。

具体的，将分割后的图像输入FME-DL网络，并采用训练迁移的方法分割后的图像进行训练以获得场景识别训练模型。

进一步的，其中，所述场景识别训练模型是通过以下子步骤获得的，以得到更好的训练结果：

S310：在训练初期，采用Warmup策略对所述分割后的图像进行训练，使DL-FME卷积神经网络在训练初期更加稳定；

S320：在训练后期，采用余弦衰减策略对所述分割后的图像进行训练，这样可以使得场景识别训练模型的学习率更加平滑，同时能使学习率跳出局部最优。

S330：逐层对所述DL-FME卷积神经网络进行微调，以获得所述场景识别训练模型；

具体的，在一个实施例中，在训练中，可以对ASPP网络3*3和5*5扩张卷积层和特征增强模块中的DL-FME的RELU非线性增强函数和二次增强函数进行微调，对5特征层的中小区域的检测和识别进行训练，参见下表1，可将ASPP网络对中小物体的MIOU的检测精度由62％提高至75％以上。

下面通过表1，来说明本实施例与现有技术中采用Deeplabv3+分割算法或仅采用线性增强模块或采用线性+二次增强模块在不同的迭代次数下，各种分割算法所获得的MIOU。

表1

优选的，在获得所述场景识别训练模型后，还通过冻结调到最优的ASPP网络和特征增强网络层，对其他部分进行单独优化的方法进行调优。这样可以减小网络的搜索空间，从而降低对网络的优化难度，以得到能够准确识别场景的场景识别训练模型。

上述ASPP(Atrous Spatial Pyramid Pooling)是DeepLab中用于语义分割的一个模块，提出将不同扩张率下的atrous convolution生成的feature map串联起来，使得输出feature map中的神经元包含多个接受域大小，对多尺度信息进行编码，最终提高性能。

实施例二

参见图6，图6为本发明的一个实施例提供的一种基于多光谱图像融合的复杂场景识别系统的结构示意图，包括

融合模块，用于将场景数据集的图像划分为训练数据集和测试数据集，所述场景数据集的图像为将红外光和可见光融合后的图像；

提取模块，提取模块是训练环节的重要模块，位于根据所述训练数据集构建场景识别的DL-FME卷积神经网络中，利用所述DL-FME卷积神经网络对所述融合后的图像进行特征提取，得到融合后图像的特征；

增强模块，用于将所述测试数据集的图像输入所述训练模型以生成场景识别模型，增强模块用于特征图的进一步丰富；

进一步的，所述划分模块包括预处理模块和标记模块，其中，

所述预处理模块，用于对所述融合后的图像进行预处理以获得场景数据集；

所述标记模块，用于标记并划分所述场景数据集中的图像以获得所述训练数据集和测试数据集。

进一步的，所述复杂场景识别系统还包括：

校正模块，用于对相机的摄像头进行畸变校正；

配准模块，用于将校正后的摄像头所拍摄的红外光图像和可见光图像进行配准操作；

融合模块，用于将配准后的红外光和可见光图像进行融合以获得所述融合后的图像。

进一步的，所述配准模块用于执行以下操作：

进一步的，所述融合模块用于执行以下操作：

进一步的，所述分割模块用于执行以下操作：

进一步的，所述生成模块用于执行以下操作：

在训练初期，采用Warmup策略对所述分割后的图像进行训练；

本实施例中的复杂场景识别系统与上述实施例一的复杂场景识别方法的工作过程基本一致，在此不再赘述。

与现有技术相比，本发明具有以下几个优点：

本发明基于无人机载平台对于目标识别的需求，提出了一种基于多光谱图像融合的复杂场景识别方法和系统，包括以下几个优点：

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于多光谱图像融合的复杂场景识别方法，该方法包括以下步骤：

利用所述场景识别模型对待识别的场景进行识别。

2.根据权利要求1所述的复杂场景识别方法，其特征在于，所述训练数据集和测试数据集通过以下子步骤获得：

对所述融合后的图像进行预处理以获得场景数据集；

3.根据权利要求2所述的复杂场景识别方法，其特征在于，所述融合后的图像通过以下子步骤获得：

对相机的摄像头进行畸变校正；

4.根据权利要求3所述的复杂场景识别方法，其特征在于，所述配准操作包括以下子步骤，

5.根据权利要求3所述的复杂场景识别方法，所述将配准后的红外光和可见光图像进行融合以获得融合后的图像包括以下子步骤获得：

6.根据权利要求1所述的复杂场景识别方法，其特征在于，所述网络架构DL-FME以Xception网络作为该网络架构的骨架网络。

7.根据权利要求1所述的复杂场景识别方法，其特征在于，所述分割后的图像通过以下子步骤获得：

8.根据权利要求1所述的复杂场景识别方法，其特征在于，所述场景识别训练模型是通过以下子步骤获得的：

在训练初期，采用Warmup策略对所述分割后的图像进行训练；

9.一种基于多光谱图像融合的复杂场景识别系统，包括：