CN112434745B

CN112434745B - 基于多源认知融合的遮挡目标检测识别方法

Info

Publication number: CN112434745B
Application number: CN202011362265.8A
Authority: CN
Inventors: 杨淑媛; 高全伟; 常志豪; 于子凡; 冯志玺; 翟蕾; 李奕彤; 李源钊; 柯希鹏; 高欣怡
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2023-01-24
Anticipated expiration: 2040-11-27
Also published as: CN112434745A

Abstract

本发明公开的基于多源认知融合的遮挡目标检测识别方法，解决现有方法对于遮挡的目标无法进行精确检测的问题。实现步骤是：构建多源训练数据集和测试数据集；构建改进的多源认知融合模块；生成融合后的训练数据集与测试数据集；引入目标检测网络Faster R‑CNN；用融合后的训练集对目标检测网络Faster R‑CNN进行训练；得到目标检测结果。本发明基于多源认知融合，使用了仿照人脑认知的注意力模块，在注意力机制模块中进行了光学图像与SAR图像的融合，以得到融合后的特征图，本发明对光学图像和SAR图像进行了融合，提取了光学图像和SAR图像的特征，提高了对目标，尤其是对遮挡目标的检测能力，用于对多源图像进行目标识别。

Description

基于多源认知融合的遮挡目标检测识别方法

技术领域

...本发明属于图像处理技术领域，涉及多源目标检测，具体是一种基于多源认知融合的遮挡目标检测识别方法，用于对有云雾等障碍物进行遮挡的目标进行检测。

背景技术

合成孔径雷达(SAR)可以全天时、全天候进行成像探测，具有一定的穿透能力。根据不同表面材料引起的反射强度，产生不同的灰度图像。然而，场景的纹理边缘描述并不完整，同一目标的判读能力较差。

可见光成像依赖于物体表面的反射能力，它能直接反映地物的真实纹理、颜色等信息。在良好的光照环境下，它能提供丰富的细节信息，并能获得解释力强、空间分辨率高的图像。但是，受光、雨、雾等因素的影响，会得到模糊的成像结果。

在没有云层遮挡的情况下，光学目标检测模型可以准确地完成检测任务，但在云层遮挡情况下无法检测到目标的位置；单源SAR目标检测模型在目标不是很密集的情况下也能很好地完成检测任务，但是在目标密集度不高的情况下，检测效果却很好目标密集区域较差，虚警较多。为了将这两种方法的优点结合起来，进行了雷达和光学多源信息融合。在云层遮挡的极端情况下，多源数据融合目标检测模型能够很好地融合多源数据，充分互补，成功完成检测。

多源图像融合技术是将来自同一场景的不同图像传感器的多幅图像进行综合处理，得到一幅融合后的图像。与单一图像传感器所获得的图像相比，融合后的图像对场景提供更全面，精准，可靠的图像表示。图像融合技术广泛应用于军事，遥感，机器人技术，医学图像处理以及计算机视觉等领域。

多源图像融合技术从融合层次上主要分为三个级别：像素级融合，特征级融合，和决策级融合。常用的传统融合方法有小波变换法，IHS变换法等。基于离散小波变换进行图像融合时首先对原图像分别进行二维离散小波分解，建立图像的小波金字塔；然后对各分解层分别进行融合处理，得到融合后的小波金字塔，各分解层的不同频率分量可采用不同算子进行融合；最后对融合后的小波金字塔进行小波逆变换，得到融合图像。IHS是一种基于视觉原理、感知颜色的表色模型，它根据人类识别色彩的特点定义了三个互不相关，容易预测的颜色属性：明度I、色调H和饱和度S。基于IHS变换的图像融合技术一般是对原始RGB图像进行IHS变换，分离出强度I、色度H和饱和度S三个分量，然后根据一定的融合准则，生成新的强度分量I、色度分量H和饱和度分量S，最后根据IHS逆变换得到视觉辨识度提升的融合影像。但是这些传统方法实时性差、容错性差，且都为像素级融合，无法利用SAR图像的背向散射信息。

Jitao Qin等人2019年在IGARSS 2019上发表的《Joint Detection of AirplaneTargets Based on Sar Images and Optical Images》中，先在光学图像中搜寻疑似目标，然后通过OCSVM分类器分辨出真目标和假目标，最后通过从SAR图像中提取的特征来对误检的目标进行进一步选择。然而，该方法先只在光学图像中搜索疑似目标，对于未在光学图像中搜到的目标在之后的步骤中无法被检测到，该方法以光学图像为主，没有充分利用SAR图像信息，难以对遮挡的目标进行准确检测。

孔莹莹等人在《SAR图像与可见光图像的融合方法》(专利号CN 111199530 A)中，公开了一种SAR图像与可见光图像的融合方法。该方法在Gram-Schmidt变换中，利用NSCT分解对SAR图像与可见光图像进行处理，获得包含可见光图像光谱信息与SAR图像细节信息的图像。之后，初步融合图像代替Gram-Schmidt变换的第一分量进行Gram-Schmidt逆变换，从而获得最终融合图像。该方法能够改善融合中仅使用Gram-Schmidt方法而产生的严重的光谱畸变，取得较好的融合效果。然而，该方法仅对图像进行了融合，没有进行目标检测，没有专门对被遮挡目标进行处理，难以在融合后对被遮挡目标进行检测。

综上，现有技术对多源图像的信息利用不足，不充分，难以对遮挡的目标进行高精度检测。

发明内容

本发明的目的在于针对上述已有技术的不足，提出了一种对遮挡目标也能进行精确检测的基于多源认知融合的遮挡多源融合目标检测方法。

本发明是一种基于多源认知融合的遮挡目标检测识别方法，包括有如下步骤：

(1)构建多源训练数据集和测试数据集：输入待识别的SAR图像和光学图像，对待识别的SAR图像和光学图像进行预处理，将原始图像使用ENVI软件进行手动配准，将配准好的图像进行标注，标注出图像中的飞机目标，对标注后的图像进行分割，为避免分割时造成目标不完整，采用重叠分割，得到分割后的图像，并对分割后图像中的目标坐标进行大图像坐标到小图像坐标的转换，生成目标标签，坐标转换后生成分割后数据集，对分割后的数据集按照8:2的比例划分为训练数据集与测试数据集，数据集中每张图像大小为H×W×C，H为图像高度，W为图像宽度，C为图像通道数；

(2)构建改进的多源认知融合模块，以获得融合后的特征图：改进的多源认知融合模块设有两路输入，一路输出，在输入和输出之间，除了池化和生成权重系数，还增加了特征融合；改进的多源认知融合模块的两路输入中的一路输入光学图像，另一路输入与之对应的SAR图像输入图像分别经过全局平均池化后，加入了特征融合，具体为：将两张池化后图像转置后合成为大小为1×C×2的图像，并通过卷积操作对池化转置后图像进行融合，融合后分离为仍以各自特征为主的两张特征融合后图像，此时，分离后光学图像具有SAR特征，SAR图像具有光学特征；然后分别通过sigmoid激活函数生成特征融合后图像各自通道的权重系数，权重系数再分别与同路的图像相乘，然后将两张相乘后的图像拼接后卷积生成H×W×C的一张图像，输出为一路图像结果，总体形成构建改进的多源认知融合模块；输出的结果为一张有注意力机制的融合后的特征图；

(3)生成融合后的训练数据集与测试数据集：将训练数据集与测试数据集中的所有图像都通过改进的多源认知融合模块进行操作，改进的多源认知融合模块输出图像仍归为原本数据集，称作融合后的训练数据集与融合后的测试数据集；

(4)引入目标检测网络Faster R-CNN：

引入目标检测网络Faster R-CNN，包括顺次连接的特征提取子网络、建议区域提取子网络、感兴趣区域池化层和分类回归子网络，其中特征提取子网络包含13个卷积层和4个池化层，建议区域提取子网络包含2个卷积层，分类回归子网络包含2个全连接层；目标检测网络Faster R-CNN的损失函数为L：

其中,x为目标的边框坐标检测结果和目标标签之差；

(5)用融合后的训练集对目标检测网络Faster R-CNN进行训练：在对目标检测网络Faster R-CNN初始化后，输入融合后的训练集中的所有特征图，迭代计算损失值和更新子网络权值的操作，得到训练好的目标检测网络Faster R-CNN，具体包括以下步骤：

(5a)初始化目标检测网络Faster R-CNN：初始化特征提取子网络的权值为在ImageNet数据集上预训练好的VGG16模型的权值

随机初始化建议区域提取子网络的权值为

随机初始化分类回归子网络的权值为

初始化迭代次数为q_S，最大迭代次数为Q_S，初始化时令q_S＝0；

(5b)计算目标检测网络Faster R-CNN的损失值：将融合后的训练集中的所有特征图作为目标检测网络Faster R-CNN的输入进行目标检测，得到每幅图像中每个目标的边框坐标的检测结果；采用损失函数L结合每个目标的边框坐标检测结果以及每幅图像的目标标签计算目标检测网络Faster R-CNN的损失值

(5c)对目标检测网络Faster R-CNN的每个子网络更新权值：采用随机梯度下降法，并通过损失值

对特征提取子网络的权值

建议区域提取子网络的权值

和分类回归子网络的权值

进行更新；

(5d)判断迭代次数q_S＝Q_S是否成立，若是，得到训练好的权值为

的目标检测网络Faster R-CNN，否则，令q_S＝q_S+1，并执行步骤(5b)，其中目标检测网络Faster R-CNN的权值为步骤(5c)中更新后的权值，进入下一轮迭代；

(6)得到目标检测结果：将融合后的测试集中的所有特征图输入到已训练好的目标检测网络Faster R-CNN中，网络输出就是对应特征图的目标检测结果，完成基于多源认知融合的多源目标检测，得到目标检测结果。

本发明解决了现有图像融合方法中，因为目标存在遮挡，难以对遮挡目标进行准确检测的技术问题。

本发明与现有技术相比，具有如下优点：

提高对遮挡目标的检测准确度：本发明将光学图像和SAR图像融合的同时引入了注意力机制，注意力机制仿照人脑的注意力，使系统能够忽略无关信息而关注重点信息，这与人脑的认知机制类似，然而对于多源图像融合，直接引入注意力机制模块会导致信息的丢失，为此，本发明构建了改进的多源认知融合模块，在其中将注意力机制与特征融合结合，能够充分利用信息，本发明是一种多源认知融合，能够充分利用多源图像的信息，从而提高了检测准确度，尤其提高了对遮挡目标的准确度，解决了现有图像融合算法对SAR图像信息利用不充分，难以对遮挡目标进行检测的不足。

注意力机制与特征融合结合，充分利用多源图像信息：本发明将注意力机制与特征融合结合，在注意力机制中也进行了融合，避免了因为不同源中目标的差异导致的信息的丢失，能够充分利用多源图像信息，更好的表达了多源图像的信息特征。

附图说明

图1是本发明的实现流程框图；

图2是本发明中改进的多源认知融合模块的流程示意图。

具体实施方式

下面结合附图对本发明详细描述。

实施例1

多源图像融合技术是将来自同一场景的不同图像传感器的多幅图像进行综合处理，得到一幅融合后的图像。与单一图像传感器所获得的图像相比，融合后的图像对场景提供更全面，精准，可靠的图像表示。传统的多源图像融合技术大多为像素级融合，无法利用SAR图像的背向散射信息，实时性差，容错性差，难以对遮挡的目标进行精确检测；而其他现有的多源图像融合技术在融合时没有引入注意力机制，对遮挡的目标的检测精度不高；注意力机制通过学习的方式来自动获取到每个特征的重要程度，然后按照这个重要程度提升有用的特征并抑制对当前任务用处不大的特征，这与人脑的认知机制类似，是一种认知机制；为解决以上问题，本发明经过研究提出了基于多源认知融合的遮挡目标检测识别方法，能够对遮挡的目标进行精确检测。

本发明是一种基于多源认知融合的遮挡目标检测识别方法，参见图1，包括有如下步骤：

(1)构建多源训练数据集和测试数据集：输入待识别的SAR图像和光学图像，本发明待识别的图像，对同一场景同一时刻的待检测图像既有SAR图像，又有光学图像，为多源图像。对待识别的SAR图像和光学图像进行预处理，预处理包括配准，标注，分割，坐标转换，划分训练集和测试集，具体为：将原始图像使用ENVI软件进行手动配准，将配准好的图像进行标注，标注出图像中的飞机目标。对标注后的图像进行分割，为避免分割时造成目标不完整，本发明采用重叠分割，保证目标的完整性，得到分割后的图像；并对分割后图像中的目标坐标进行大图像坐标到小图像坐标的转换，转换后生成目标标签。坐标转换后生成分割后数据集，对分割后的数据集按照8:2的比例划分为训练数据集与测试数据集，数据集中每张图像大小为H×W×C，H为图像高度，W为图像宽度，C为图像通道数。

(2)构建改进的多源认知融合模块，以获得融合后的特征图：现有技术中的通道注意力模块输入一张图像，通过全局平均池化压缩图像，然后通过sigmoid激活函数生成各个通道的权重系数，再与原先的输入图像相乘，获得有注意力机制的特征图。本发明改进的多源认知融合模块设有两路输入，一路输出，在输入和输出之间，除了池化和生成权重系数，还增加了特征融合。参见图2，改进的多源认知融合模块的两路输入中的一路输入光学图像，另一路输入与之对应的SAR图像，两路输入可以互换，这两张输入图像均来源于训练数据集与测试数据集。在对这两张输入图像分别经过全局平均池化后，加入了特征融合，具体为：将两张池化后图像转置后拼接合成为大小为1×C×2的图像，并通过卷积操作对池化转置后图像进行融合，融合后分离为仍以各自特征为主的两张特征融合后图像，一张以光学特征为主，也含有SAR特征，另一张以SAR特征为主，也有光学特征；或者说，分离后光学图像具有SAR特征，SAR图像具有光学特征，从而便于后续步骤中对遮挡的目标进行精确检测。特征融合后分别通过sigmoid激活函数生成特征融合后图像各自通道的权重系数，权重系数再分别与同路的改进的多源认知融合模块输入图像相乘，然后将两张相乘后的图像拼接合成后卷积生成H×W×C的一张图像，输出为一路图像结果，总体形成构建改进的多源认知融合模块；输出的结果为一张有注意力机制的融合后的特征图。本发明改进的多源认知融合模块将特征融合与注意力机制相结合，能够充分利用多源图像中的信息，从而能够对遮挡的目标进行精确检测。

(3)生成融合后的训练数据集与测试数据集：将训练数据集与测试数据集中的所有图像都通过改进的多源认知融合模块进行操作，改进的多源认知融合模块输出图像仍归为原本数据集，称作融合后的训练数据集与融合后的测试数据集。经本发明融合后的数据集更利于对遮挡目标的检测。

(4)引入目标检测网络Faster R-CNN：引入目标检测网络Faster R-CNN，包括顺次连接的特征提取子网络、建议区域提取子网络、感兴趣区域池化层和分类回归子网络，其中特征提取子网络包含13个卷积层和4个池化层，建议区域提取子网络包含2个卷积层，分类回归子网络包含2个全连接层；目标检测网络Faster R-CNN的损失函数为L：

其中,x为目标的边框坐标检测结果和目标标签之差。

随机初始化建议区域提取子网络的权值为

随机初始化分类回归子网络的权值为

初始化迭代次数为q_S，最大迭代次数为Q_S，本例中Q_S＝36，初始化时令q_S＝0。本发明中最大迭代次数Q_S可以根据实际需要更改设置。

(5b)计算目标检测网络Faster R-CNN的损失值：将步骤(3)中得到的融合后的训练集中的所有特征图作为目标检测网络Faster R-CNN的输入进行目标检测，得到每幅图像中每个目标的边框坐标的检测结果。采用损失函数L结合每个目标的边框坐标检测结果以及每幅图像的目标标签计算目标检测网络Faster R-CNN的损失值

对特征提取子网络的权值

建议区域提取子网络的权值

和分类回归子网络的权值

进行更新。

的目标检测网络Faster R-CNN，否则，令q_S＝q_S+1，并执行步骤(5b)，其中目标检测网络Faster R-CNN的权值为步骤(5c)中更新后的权值，进入下一轮迭代；直至迭代结束，得到训练好的目标检测网络Faster R-CNN。

(6)得到目标检测结果：将融合后的测试集中的所有特征图输入到已训练好的目标检测网络Faster R-CNN中，目标检测网络Faster R-CNN的输出就是多源目标检测结果。完成检测，得到目标检测结果。

现有技术对多源图像的信息利用不足，难以对遮挡的目标进行检测，为解决现有方法对于被遮挡的目标难以进行检测的问题，本发明通过将特征融合与注意力机制模块结合，通道注意力机制通过学习的方式来自动获取到每个特征通道的重要程度，然后按照这个重要程度提升有用的特征并抑制对当前任务用处不大的特征，这与人脑的认知机制类似，然而对于多源图像融合，直接引入注意力机制模块会导致信息的丢失，为此，本发明构建了改进的多源认知融合模块，在其中将注意力机制与特征融合结合，能够充分利用信息，用于对遮挡目标进行检测。

实施例2

基于多源认知融合的遮挡目标检测识别方法同实施例1，步骤(2)所述的构建改进的多源认知融合模块，参见图2，以注意力机制为基础改进，包括有如下步骤：

(2a)本发明改进的多源认知融合模块的输入为一张光学图像和一张与之对应的SAR图像。分别对输入的这两张对应的光学图像和SAR图像分别进行全局池化，按照下式进行：

其中，a_gap为全局平均池化后的值，a_ij为要被全局平均池化的图像第i行j列的值，H为图像的高度，W为图像的宽度。

(2b)对两张池化后光学图像和SAR图像分别进行转置，使其由1×1×C转换为1×C×1，然后将两张转置后的图像拼接合成为一张大小为1×C×2的图像。

(2c)对合成后图像的卷积按照下式进行：

其中，Z_i,j,k表示第i通道j行k列的输出值，V_l,j+m,k+n表示图像第l通道j+m行k+n列的输入值，K_i,l,m,n表示第i个卷积核第l通道m行n列的输入值。

(2d)将卷积后的大小为1×C×2的图像分离为两张1×C×1的图像，对分离后的图像分别通过sigmoid激活函数生成各自的权重系数，按照下式进行：

s＝σ(W₂δ(W₁z))

其中，s为生成的权重系数，z为输入的矩阵，即分离后的图像，σ为sigmoid函数，其表达式为

作用为归一化权重系数，使权重系数取值为0至1之间，δ为ReLU函数，其表达式为δ(x)＝max(0,x)，作用为使权重系数为正值，

r为降维系数，取r＝16，通过先降维再升维降低运算量。生成的光学图像的权重系数为s₁，生成的SAR图像的权重系数为s₂。

(2e)将生成的光学图像的权重系数s₁和生成的SAR图像的权重系数s₂分别与对应的输入改进的多源认知融合模块的光学图像和SAR图像相乘，生成两张相乘后的图像，大小均为H×W×C。再两张相乘后的图像拼接合成为H×W×2C的图像后，卷积生成H×W×C的一张有注意力机制的融合后的图像，即为改进的多源认知融合模块的输出。总体形成改进的多源认知融合模块。

上述技术方案将特征融合与注意力机制结合，突出了多源图像中的重点信息，能够有效利用多源图像中的不同信息，从不同的角度用不同的数据反映特征，因此本发明对遮挡目标进行更精确的检测。

实施例3

基于多源认知融合的遮挡目标检测识别方法同实施例1-2，步骤4中所述的引入目标检测网络Faster R-CNN，具体包括如下步骤：

(4a)特征提取子网络的具体结构和参数为：

第一卷积层→第二卷积层→最大池化层→第三卷积层→第四卷积层→最大池化层→第五卷积层→第六卷积层→第七卷积层→最大池化层→第八卷积层→第九卷积层→第十卷积层→最大池化层→第十一卷积层→第十二卷积层→第十三卷积层；卷积核大小均为3×3，卷积核步长均为1，填充方式均为等大填充，第一卷积层至第十三卷积层的卷积核数量分别为64、64、128、128、256、256、256、512、512、512、512、512、512。

(4b)建议区域提取子网络的具体结构和参数为：第一卷积层→第二卷积层；第一卷积层的卷积核大小为3×3，卷积核数量为18，第二卷积层的卷积核大小为1×1，卷积核数量为36，第一卷积层和第二卷积层的卷积核步长均为1，填充方式均为等大填充。

(4c)感兴趣区域池化层包含一个最大池化层。

(4d)分类回归子网络的具体结构和参数为：第一全连接层→第二全连接层；每个全连接层的节点数均为4096。

Faster R-CNN速度快，精度高，支持不同尺度输入的优点，选择Faster R-CNN作为目标检测网络；也可根据实际需要，选择其他目标检测网络。

下面给出一个更加详细的例子，对本发明进一步说明

实施例4

基于多源认知融合的遮挡目标检测识别方法同实施例1-3，

(1)构建多源训练数据集和测试数据集：输入待识别的SAR图像和光学图像，对待识别的SAR图像和光学图像进行预处理，将原始图像使用ENVI软件进行手动配准，将配准好的图像进行标注，标注出图像中的飞机目标，对标注后的图像进行分割，为避免分割时造成目标不完整，采用重叠分割，得到分割后的图像，并对分割后图像中的目标坐标进行大图像坐标到小图像坐标的转换，生成目标标签，坐标转换后生成分割后数据集，对分割后的数据集按照8:2的比例划分为训练数据集与测试数据集，训练数据集有8239张光学图像和等量的与之对应的SAR图像，测试数据集有2058张光学图像和等量的与之对应的SAR图像，数据集中每张图像大小为H×W×C，H＝1024，为图像高度，W＝1024，为图像宽度，C＝3，为图像通道数；

(2)构建改进的多源认知融合模块，以获得融合后的特征图：原先的通道注意力模块输入一张图像，通过全局平均池化压缩图像，按照下式进行：

其中，a_gap为全局平均池化后的值，a_ij为要被全局平均池化的图像第i行j列的值，然后通过sigmoid激活函数生成各个通道的权重系数，sigmoid激活函数生成权重系数按照下式进行：

s＝σ(W₂δ(W₁z))

其中，s为生成的权重系数，z为输入的矩阵，σ为sigmoid函数，其表达式为

δ为ReLU函数，其表达式为δ(x)＝max(0,x)，

r为降维系数，再与原先的输入图像相乘，获得有注意力机制的特征图。

改进的多源认知融合模块设有两路输入，一路输出，在输入和输出之间，除了池化和生成权重系数，还增加了特征融合；改进的多源认知融合模块的两路输入中的一路输入光学图像，另一路输入与之对应的SAR图像，这两张图像来源于训练数据集与测试数据集；在对这两张输入图像分别经过全局平均池化后，变为两张1×1×C的图像，加入了特征融合，具体为：将两张池化后图像转置为1×C×1的图像后拼接合成为大小为1×C×2的图像，并通过卷积操作对池化转置后图像进行融合，卷积按照下式进行：

其中，Z_i,j,k表示第i通道j行k列的输出值，V_l,j+m,k+n表示图像第l通道j+m行k+n列的输入值，K_i,l,m,n表示第i个卷积核第l通道m行n列的输入值；融合后分离为仍以各自特征为主的两张特征融合后的1×C×1的图像，一张以光学特征为主，也含有SAR特征，另一张以SAR特征为主，也有光学特征；或者说，分离后光学图像具有SAR特征，SAR图像具有光学特征，从而便于后续步骤中对遮挡的目标进行精确检测。然后分别通过sigmoid激活函数生成特征融合后图像各自通道的权重系数，权重系数再分别与同路的改进的多源认知融合模块输入图像相乘，相乘后图像仍为H×W×C，然后将两张相乘后的图像拼接合成后，形成一张H×W×2C的图像，对拼接后图像做卷积生成H×W×C的一张图像，输出为一路图像结果，总体形成构建改进的多源认知融合模块。改进的多源认知融合模块输出的结果为一张有注意力机制的融合后的特征图；(3)生成融合后的训练数据集与测试数据集：将训练数据集与测试数据集中的所有图像都通过改进的多源认知融合模块进行操作，改进的多源认知融合模块输出图像仍归为原本数据集，称作融合后的训练数据集与融合后的测试数据集，其中分别有8239张融合后图像和2058张融合后图像；

(4)引入目标检测网络Faster R-CNN：

引入目标检测网络Faster R-CNN，包括顺次连接的特征提取子网络、建议区域提取子网络、感兴趣区域池化层和分类回归子网络，其中特征提取子网络包含13个卷积层和4个池化层，建议区域提取子网络包含2个卷积层，分类回归子网络包含2个全连接层；特征提取子网络的具体结构和参数为：第一卷积层→第二卷积层→最大池化层→第三卷积层→第四卷积层→最大池化层→第五卷积层→第六卷积层→第七卷积层→最大池化层→第八卷积层→第九卷积层→第十卷积层→最大池化层→第十一卷积层→第十二卷积层→第十三卷积层；卷积核大小均为3×3，卷积核步长均为1，填充方式均为等大填充，第一卷积层至第十三卷积层的卷积核数量分别为64、64、128、128、256、256、256、512、512、512、512、512、512；建议区域提取子网络的具体结构和参数为：第一卷积层→第二卷积层；第一卷积层的卷积核大小为3×3，卷积核数量为18，第二卷积层的卷积核大小为1×1，卷积核数量为36，第一卷积层和第二卷积层的卷积核步长均为1，填充方式均为等大填充；感兴趣区域池化层包含一个最大池化层；分类回归子网络的具体结构和参数为：第一全连接层→第二全连接层；每个全连接层的节点数均为4096。目标检测网络Faster R-CNN的损失函数为L：

其中,x为目标的边框坐标检测结果和目标标签之差；

随机初始化建议区域提取子网络的权值为

随机初始化分类回归子网络的权值为

初始化迭代次数为q_S，最大迭代次数为Q_S，Q_S＝36，并令q_S＝0；

(5b)计算目标检测网络Faster R-CNN的损失值：将步骤(3)中得到的融合后的训练集中的所有特征图作为目标检测网络Faster R-CNN的输入进行目标检测，特征提取子网络对每幅输入图像进行特征提取，得到I_S幅输入图像的特征图，建议区域提取子网络对每幅输入图像的特征图进行建议目标区域提取，得到I_S幅输入图像的建议目标区域特征图以及建议目标区域中每个目标的类别和边框坐标，感兴趣区域池化层对每幅输入图像的建议目标区域特征图进行裁剪和池化，得到I_S幅大小为m×n的建议目标区域特征图，分类回归子网络对建议目标区域特征图进行目标边框坐标回归，得到I_S幅输入图像中每个目标的边框坐标；采用损失函数L结合每个目标的边框坐标检测结果以及每幅图像的目标标签计算目标检测网络Faster R-CNN的损失值

对特征提取子网络的权值

建议区域提取子网络的权值

和分类回归子网络的权值

进行更新，更新公式分别为：

其中，

表示更新后的特征提取子网络参数，

表示更新前的特征提取子网络参数，

表示目标检测网络Faster R-CNN的参数梯度，α表示学习率，初始值设为0.001，在q_S＝16、q_S＝24、q_S＝32时更新子网络权值前，令α＝α×0.1，

表示更新后的特征提取子网络参数，

表示更新前的特征提取子网络参数，

表示更新后的特征提取子网络参数，

表示更新前的特征提取子网络参数；

的目标检测网络Faster R-CNN，否则，令q_S＝q_S+1，并执行步骤(5b)，其中目标检测网络Faster R-CNN的权值为步骤(5c)中更新后的权值，进入下一轮迭代；直至得到训练好的目标检测网络Faster R-CNN。

(6)得到目标检测结果：将融合后的测试集中的所有特征图输入到已训练好的目标检测网络Faster R-CNN中，目标检测网络Faster R-CNN的输出就是多源目标检测结果。得到目标检测结果。

下面通过实验数据对本发明的技术效果再作说明

实施例5

基于多源认知融合的遮挡目标检测识别方法同实施例1-4。

该实验数据中SAR图像来源于高分三数据集，光学图像来源于谷歌地球数据。该数据集包含戴维斯-蒙森空军基地中的飞机作为目标，数据集中包括遮挡的目标。实验时，处理器为至强2697V3，2块NVIDIA TITAN V显卡。

训练时均使用Faster R-CNN目标检测网络，训练代数为36代，初始学习率为0.001，分别在第16、24、32代将学习率减少为原先的十分之一。选择IoU阈值为0.5时的识别率作为评价指标。实验结果如表1所示，表1为四种参与仿真的多源图像融合方法的识别率比较表。

对比模型一InputFusionRedu并未使用本发明改进的多源认知融合模块，直接对两张输入图像进行融合。

对比模型二InputFusionNin并未使用本发明改进的多源认知融合模块，分别对两张输入图像通过现有的NIN网络后再两张图像进行融合。

对比模型三InputFusionDECANoInter的结构与本发明类似，但并未使用本发明改进的多源认知融合模块，而是在对两张输入图像分别通过现有注意力机制模块后再做融合。

本发明在同样的条件下，使用本发明改进的多源认知融合模块对同样的两张图像进行融合。

表1四种参与仿真的多源图像融合识别率比较表

模型	AP0.5
		InputFusionRedu	0.85
InputFusionNin	0.843
		InputFusionDECANoInter	0.848
本发明	0.887

结果对比表明，本发明获得的识别率为0.887，高于其他三种对比方法，与对比方法中识别率最高的0.85相比，识别率有了明显的提升，提高了0.037。对多源图像的目标识别过程复杂，识别率提升较为困难。识别率的提升主要是因为对遮挡目标的识别率的提升，本发明改进的多源认知融合模块将通道注意力机制与特征融合相结合，突出了目标，同时避免了信息的损失，从而提高了对遮挡目标的识别率。反映出本发明改进的多源认知融合模块能够充分利用多源图像的信息，而本发明对多源图像信息的有效利用有利于提高目标识别性能。

综上所述，本发明公开的基于多源认知融合的遮挡目标检测识别方法，解决现有方法对于遮挡的目标无法进行精确检测的问题。实现步骤是：构建多源训练数据集和测试数据集；构建改进的多源认知融合模块；生成融合后的训练数据集与测试数据集；引入目标检测网络Faster R-CNN；用融合后的训练集对目标检测网络Faster R-CNN进行训练；得到目标检测结果。本发明基于多源认知融合，使用了仿照人脑认知机制的注意力模块，在注意力机制模块中进行了光学图像与SAR图像的融合，以得到融合后的特征图，本发明对光学图像和SAR图像进行了融合，提取了光学图像和SAR图像的特征，提高了对目标，尤其是对遮挡目标的检测能力，用于对多源图像进行目标识别。

Claims

1.一种基于多源认知融合的遮挡目标检测识别方法，其特征在于，包括有如下步骤：

(2)构建改进的多源认知融合模块，以获得融合后的特征图：改进的多源认知融合模块设有两路输入，一路输出，在输入和输出之间，除了池化和生成权重系数，还增加了特征融合；改进的多源认知融合模块的两路输入中的一路输入光学图像，另一路输入与之对应的SAR图像输入图像分别经过全局平均池化后，加入了特征融合，具体为：将两张池化后图像转置后合成为大小为1×C×2的图像，并通过卷积操作对池化转置后图像进行融合，融合后分离为仍以各自特征为主的两张特征融合后图像，此时，分离后光学图像具有SAR特征，SAR图像具有光学特征；然后分别通过sigmoid激活函数生成特征融合后图像各自通道的权重系数，权重系数再分别与同路的图像相乘，然后将两张相乘后的图像拼接后卷积生成H×W×C的一张图像，输出为一路图像结果，总体形成构建改进的多源认知融合模块；输出的结果为一张融合后的特征图；

(4)引入目标检测网络Faster R-CNN：