CN110348296A

CN110348296A - 一种基于人机融合的目标识别方法

Info

Publication number: CN110348296A
Application number: CN201910464579.XA
Authority: CN
Inventors: 江碧涛; 李晓斌; 王生进; 杨渊博; 傅雨泽; 孟钢; 罗江锋; 尹璐; 岳文振; 李阳; 张宇喆; 李志欣
Original assignee: Institute of Remote Sensing and Digital Earth of CAS
Current assignee: Institute of Remote Sensing and Digital Earth of CAS
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-10-18
Anticipated expiration: 2039-05-30
Also published as: CN110348296B

Abstract

本发明涉及一种基于人机融合的目标识别方法，属于遥感图像处理和分析领域，解决大幅面多目标遥感图像的目标识别分类问题；方法包括，获取图像分析员进行图像分析时的眼动信号,生成与图像对应的眼动热图，根据设置的热度阈值确定图像中的候选目标区域，裁剪图像提取候选目标；利用预先训练的卷积神经网络对所述候选目标进行特征提取；根据候选目标的特征进行目标识别和分类。本发明联合了人眼准确高效的目标搜索能力和卷积神经网络强大的目标分类能力，实现大幅面可见光遥感图像目标识别，并且可扩展应用于红外、高光谱、合成孔径雷达遥感图像目标识别。

Description

一种基于人机融合的目标识别方法

技术领域

本发明涉及遥感图像处理和分析领域，尤其是一种基于人机融合的目标识别方法。

背景技术

目标识别是遥感图像分析和应用领域的重要研究内容，其主要目的是区分目标的具体类型，例如区分某架飞机是波音-737还是波音-787。

现有的目标识别方法通常以目标检测为基础，即假设已经通过检测得到了包含单个目标的切片图像，但不符合实际应用中通常需要在包含多个目标和背景的大幅面图像中识别目标的要求。

目前，在大幅面图像中识别目标有两种可行的方法：第一种方法是先检测后识别，这种方法太复杂。第二种方法是先提取候选目标，然后直接识别。但第二种方法为保证识别性能，候选目标提取方法除了需要具有高的召回率外，还需要高效且定位准确，即提取的候选目标数量不能太多，且能够精确地定位候选目标的位置；然而，现有的候选目标提取方法无法满足上述需求，通常会提取上百个候选目标，且定位不够准确；并且第二种方法中在提取候选目标后续的目标特征提取主要使用传统人工设计特征，不能满足对目标识别的要求。

发明内容

鉴于上述的分析，本发明旨在提供一种基于人机融合的目标识别方法，解决大幅面多目标遥感图像的目标识别分类问题。

本发明的目的主要是通过以下技术方案实现的：

本发明公开了一种基于人机融合的目标识别方法，包括，

候选目标提取步骤：获取进行图像分析时图像分析人员的眼动信号,生成与图像对应的眼动热图，根据设置的热度阈值确定图像中的候选目标区域，裁剪图像提取候选目标；

目标分类识别步骤：利用卷积神经网络对所述候选目标进行特征提取；根据候选目标的特征进行目标识别和分类。

进一步地，所述眼动信号包括视觉注视点以及与其对应的注视时长信息；

在所述眼动热图中，对每个视觉注视点对应的图像位置根据对应的注视时长进行热度区域面积标注；热度区域面积的大小与注视时长成正比；

对眼动热图进行滤波和热度区域面积归一化；

将归一化后热度区域面积大于热度阈值的图像区域进行切片，作为候选目标图像。

进一步地，利用卷积神经网络对所述候选目标进行特征提取，包括：

对卷积神经网络进行调优处理；

对所述候选目标图像进行数据增强处理；

将数据增强处理后的候选目标图像输入到卷积神经网络进行特征提取。

进一步地，所述卷积神经网络为预先训练好的VGGNet-16卷积神经网络。

进一步地，所述调优处理包括对卷积神经网络的全连接层和软最大层进行调优；

所述增强处理包括图像旋转、剪裁和水平镜像。

进一步地，所述VGGNet-16卷积神经网络包含13个卷积层、2个全连接层和1个C路软最大层；所述C为待识别目标的类型数。

进一步地，所述特征提取包括全连接层特征提取和卷积层特征提取，将全连接层特征提取的特征与卷积层特征提取的特征串联后，作为卷积神经网络的提取特征输出；所述全连接层特征提取从调优后的卷积神经网络的第一个全连接层提取特征；所述卷积层特征提取从调优后的卷积神经网络的最后一个卷积层提取卷积层特征。

进一步地，所述卷积层特征提取中采用高斯核对卷积层特征进行编码；具体包括：

输入卷积层特征X＝{x_t，t＝1，2，...，T}，T是卷积层特征图的尺寸；

给定高斯核集合U＝{u_i，i＝1，2，...，K}，其中，K是高斯核的数量；

给定高斯核u_i的混合权重ω_i、平均向量μ_i和方差向量

对卷积层进行编码得到特征Y＝[g_μ，1，g_σ，1，...，g_μ，i，g_σ，i，…，g_μ，K，g_σ，K]；

式中，

进一步地，还包括利用主成分分析方法对所述输入卷积层特征xt进行降维处理。

进一步地，将候选目标的特征输入到训练后的SVM分类器进行分类，得到图像中目标的类型标签。

本发明有益效果如下：

1、本发明首先利用图像分析人员的眼动信号提取候选飞机目标，然后利用卷积神经网络特征进行候选飞机目标分类，可实现大幅面可见光遥感图像飞机目标识别。

2、本发明联合了人眼准确高效的目标搜索能力和卷积神经网络强大的目标分类能力，识别精度95.56％。

3、本发明适用于可见光遥感图像飞机、船舶等目标识别，还可扩展应用于红外、高光谱、合成孔径雷达遥感图像目标识别。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例一中的目标识别方法流程图；

图2为本发明实施例二中的输入的大幅面可见光遥感图；

图3为本发明实施例二中的生成的眼动热图；

图4为本发明实施例二中的滤波和归一化后的眼动热图；

图5为本发明实施例二中的提取的候选飞机目标图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。

本实施例公开了一种基于人机融合的目标识别方法，如图1所示，包括以下步骤：

步骤S1、候选目标提取步骤：获取图像分析员进行图像分析时的眼动信号,生成与图像对应的眼动热图，根据设置的热度阈值确定图像中的候选目标区域，裁剪图像提取候选目标；

步骤S2、目标分类识别步骤：利用卷积神经网络对所述候选目标进行特征提取；根据候选目标的特征进行目标识别和分类。

具体的，步骤S1包括以下子步骤：

步骤S1-1、眼动信号获取；

具体的，图像分析人员坐于电脑显示器和眼动仪前，眼动仪经过校准后，将包含目标的大幅面遥感图像依次呈现在显示器上，例如包含有多个飞机目标的大幅面光学遥感图像。图像分析人员按要求在图像中视觉搜索飞机目标，搜索到飞机目标后，图像分析人员短暂注视飞机的中心点。在这一过程中，利用眼动仪获取并记录图像分析人员的眼动信号；所示眼动信号包括视觉注视点以及在该注视点的注视时长。

本实例中，可使用的眼动仪型号为Eyelink1000，使用的显示器为21英寸液晶显示器。

步骤S1-2、生成眼动热图；

眼动热图利用视觉注视点和注视时长生成；在眼动热图中，对每个注视点对应的图像位置使用热度区域面积进行热度标注，热度区域面积的大小与注视时长成正比。

步骤S1-3、对眼动热图进行滤波和热度面积归一化；

在实际操作中，图像分析人员在注视某个目标时，其视觉注视点有时会发生微小漂移，导致在同一个目标上可能会出现超过一个的注视点，进而在眼动热图上出现多个热度区域表示一个目标热度的情况。因此需要对眼动热图进行滤波；

优选的滤波方法为：

首先，计算眼动热图中不同热度区域之间的距离，该距离可以为两个热度区域中心之间的直线距离；

其次，判断热度区域之间的距离是否小于距离阈值D；如果是，则将小于距离阈值D的热度区域合并；

优选的合并方法，将需合并热度区域的视觉注视点坐标平均得到合并后的视觉注视点坐标，将需合并热度区域面积累加得到合并后的热度区域面积。

另外，由于图像分析人员注视不同目标时的注视时长很难定量控制。为了消除注视时长的绝对差异，在每幅眼动热图中，热度面积需要进行归一化。

归一化的具体步骤是：对于某幅眼动热图，首先在其中寻找面积最大的热度区域；然后，将该眼动热图中的所有热度区域的面积除以该面积最大的热度区域的面积，完成热度面积归一化。

步骤S1-4、候选目标提取；

将归一化后热度区域面积大于热度阈值A的图像区域进行切片，作为候选目标图像。

设定热度阈值A，在眼动热图中，如果归一化后热度区域面积大于热度阈值，表明图像分析人员注视了这个点，且在这个点很可能存在目标；则以该热度区域中心点为中心在图像中裁剪大小为B×B的切片图像，作为候选目标。需要说明的是，提取出的候选目标可能是目标，也可能是背景。

具体的，步骤S2包括以下子步骤：

步骤S2-1、对卷积神经网络进行调优处理；

优选的，本实施例的卷积神经网络为VGGNet-16卷积神经网络；该卷积神经网络已经在大规模图像分类数据集上进行了预先训练，包含13个卷积层、2个全连接层和1个1000路的软最大层。

在本实施例的应用中，根据目标识别任务的需要，软最大层的路数需要由1000路改为C路，其中C是目标的类型数量。

在调优过程中，为了避免过拟合，优选只对VGGNet-16的全连接层和软最大层进行调优。

调优过程中，初始学习率设置为0.001，每循环2000次学习率减小为原来的1/10。

其它的调优参数，包括数据块大小、动量、权重衰减和循环次数分别设置为256、0.9、0.0005和5000。

步骤S2-2、对所述候选目标图像进行数据增强处理；

优选的，所述增强处理包括图像旋转、剪裁和水平镜像。

在数据增强时，使用的图像旋转角度包括三种，分别是90°、180°和270°，裁剪在五个位置上进行，分别是图像的中心和四个角点。

步骤S2-3、利用卷积神经网络进行特征提取；

优选的，卷积神经网络特征提取包括全连接层特征提取和卷积层特征提取。

首先，从调优后的卷积神经网络的第一个全连接层提取候选目标的特征；

然后，从调优后的卷积神经网络的最后一个卷积层提取特征。

最后，

将全连接层特征和编码后的卷积层特征串联后，得到候选目标的卷积神经网络特征，用于后续的候选目标分类。

为了去除卷积层特征中的冗余信息，提高特征的分类能力，利用高斯核对卷积层特征进行编码；

对给定一幅候选目标的切片图像提取的卷积层特征为X＝{x_t，t＝1，2，...，T}；其中，x_t是一个M维的向量，M是卷积层特征图的通道数量，T是卷积层特征图的尺寸；为了控制编码后的卷积层特征的长度，利用主成分分析方法将x_t的维数由M降为M′。

具体卷积层特征编码包括：

输入卷积层特征X＝{x_t，t＝1，2，...，T}；

给定高斯核u_i的混合权重ω_i、平均向量μ_i和方差向量

对卷积层进行编码得到特征Y＝[g_μ，1，g_σ，1，...，g_μ，i，g_σ，i，…，g_μ，K，g_σ，K]；式中，

步骤S2-4、根据提取的特征进行目标识别和分类。

优选的，将候选目标的特征输入到训练后的SVM分类器进行分类，得到图像中目标的类型标签。

其中，训练SVM分类器使用的是从训练图像中得到的候选目标的卷积神经网络特征和类标签。进行候选目标分类时，将从测试图像中得到的候选目标的卷积神经网络特征输入到训练后的SVM分类器，可得到候选目标的类标签，进而完成目标识别。

本实施例中输入的大幅面遥感图像可以是可见光遥感图像，也可以是红外、高光谱、合成孔径雷达遥感图像；识别的目标可以飞机、船舶或其他需要识别分类的目标。

实施例二、

本实施例对包含多个飞机目标大幅面可见光遥感图像采用实施例一中的目标识别方法进行飞机目标的识别。

在步骤S1候选目标提取过程中，

输入的大幅面可见光遥感图像大小均为1024×768像素，每幅图像中包含多个飞机目标和背景如图2所示。

获取眼动信号的眼动仪型号为Eyelink1000，使用的显示器为21英寸液晶显示器，图像分析人员坐于电脑显示器和眼动仪前，眼动仪经过校准后，将包含多个飞机目标的大幅面遥感图像依次呈现在显示器上。图像分析人员按要求在图像中视觉搜索飞机目标，搜索到飞机目标后，图像分析人员短暂注视飞机的中心点。在这一过程中，利用眼动仪获取并记录图像分析人员的视觉注视点以及在该注视点的注视时长。

生成的眼动热图中，如图3所示，以圆圈代表热度区域，圆圈的中心位于注视点，圆圈面积与注视时长成正比，即注视时长越长，圆圈面积越大。生成的眼动热图如图3所示。

对眼动热图进行滤波和热度面积归一化后的结果如图4所示，其中，距离阈值D置为50像素。即当两个圆圈的距离小于50像素时，认为它们对应同一个飞机目标，将其合并为一个圆圈。

裁剪图像提取的候选飞机目标如图5所示，其中A设置为0.25，B设置为128像素。即，如果某个热度区域的归一化面积大于0.25，认为在该点可能存在飞机目标。以该圆圈的中心点为中心，裁剪大小为128×128像素的切片图像作为候选飞机目标。

在步骤S2目标分类识别过程中，

对VGGNet-16进行调优，采用收集的210幅训练图像，图像的空间分辨率约为0.5米，大小均为1024×768像素。利用图像分析人员的眼动数据，从这些训练图像中共得到1259幅候选飞机目标的切片图像，其中997幅为飞机目标的切片图像，262幅为背景的切片图像。每幅切片图像的原始大小为128×128像素，为了匹配卷积神经网络的输入，切片图像被重采样至256×256像素。人工对这些切片图像进行标注，将10类飞机和1类背景的类标签分别设置为1、2、3、4、5、6、7、8、9、10和11，即类型数量C为11。

在数据增强时，使用的图像旋转角度包括三种，分别是90°、180°和270°，裁剪在五个位置上进行，分别是图像的中心和四个角点，裁剪得到的图像的大小为224×224像素。

在利用卷积神经网络进行特征提取过程中，卷积神经网络的全连接层特征的维数为1024，卷积层特征的通道数量512，卷积层特征图的尺寸为169，卷积层特征的维数512×169；利用主成分分析方法降维后，卷积层特征的通道数量下降为128，卷积层特征的维数变为128×169；编码后的卷积层特征的维数为2×128×128＝32768。串联后的卷积神经网络特征的维数为1024+32768＝33792。通过降维减少了运算量，提高了特征提取的效率。

在本实施例中，收集了210幅空间分辨率约为0.5米，大小均为1024×768像素的测试图像，共包含1016个飞机目标。基于以上测试数据，采用实施例一的目标识别方法，使用全局精度进行识别精度评价，其中全局精度定义为正确识别的飞机目标数量/飞机目标总数量。测试得到的识别精度为95.56％，优于当前主流算法的92.19％和89.34％。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于人机融合的目标识别方法，其特征在于，包括，

2.根据权利要求1所述的目标识别方法，其特征在于，所述眼动信号包括视觉注视点以及与其对应的注视时长信息；

对眼动热图进行滤波和热度区域面积归一化；

3.根据权利要求1所述的目标识别方法，其特征在于，利用卷积神经网络对所述候选目标进行特征提取，包括：

对卷积神经网络进行调优处理；

对所述候选目标图像进行数据增强处理；

4.根据权利要求3所述的目标识别方法，其特征在于，所述卷积神经网络为预先训练好的VGGNet-16卷积神经网络。

5.根据权利要求4所述的目标识别方法，其特征在于，所述调优处理包括对卷积神经网络的全连接层和软最大层进行调优；

所述增强处理包括图像旋转、剪裁和水平镜像。

6.根据权利要求5所述的目标识别方法，其特征在于，所述VGGNet-16卷积神经网络包含13个卷积层、2个全连接层和1个C路软最大层；所述C为待识别目标的类型数。

7.根据权利要求3所述的目标识别方法，其特征在于，所述特征提取包括全连接层特征提取和卷积层特征提取，将全连接层特征提取的特征与卷积层特征提取的特征串联后，作为卷积神经网络的提取特征输出；所述全连接层特征提取从调优后的卷积神经网络的第一个全连接层提取特征；所述卷积层特征提取从调优后的卷积神经网络的最后一个卷积层提取卷积层特征。

8.根据权利要求7所述的目标识别方法，其特征在于，所述卷积层特征提取中采用高斯核对卷积层特征进行编码；具体包括：

输入卷积层特征X＝{x_t,t＝1,2,…,T}，T是卷积层特征图的尺寸；

给定高斯核集合U＝{u_i,i＝1,2,…,K}，其中，K是高斯核的数量；

给定高斯核u_i的混合权重ω_i、平均向量μ_i和方差向量

对卷积层进行编码得到特征Y＝[g_μ,1,g_σ,1,…,g_μ,i,g_σ,i,…,g_μ,K,g_σ,K]；式中，

9.根据权利要求8所述的目标识别方法，其特征在于，还包括利用主成分分析方法对所述输入卷积层特征x_t进行降维处理。

10.根据权利要求1-9任一所述的目标识别方法，其特征在于，将候选目标的特征输入到训练后的SVM分类器进行分类，得到图像中目标的类型标签。