CN114973390B

CN114973390B - 结合眼动注意力机制的复杂背景红外微弱目标检测方法

Info

Publication number: CN114973390B
Application number: CN202210605519.7A
Authority: CN
Inventors: 张兆祥; 许悦雷; 周清; 马林华; 加尔肯别克; 回天; 袁超峰
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2024-03-12
Anticipated expiration: 2042-05-30
Also published as: CN114973390A

Abstract

本发明公开了一种结合眼动注意力机制的复杂背景红外微弱目标检测方法，采集红外微弱目标图像数据作为训练样本；再进行数据增强，然后设计带有眼动采集功能的专家判读系统和相应的采集流程，收集专家的眼动信号；对眼动信号进行预处理，同时利用图神经网络获取眼动信号的局部特征和全局特征；构建眼动注意力机制，采用典型的YOLO网络对红外微弱目标图像进行特征提取，然后将眼动信号的特征作为注意力特征的YOLO网络的特征进行特征融合，将眼动信号作为网络特征参数的约束；最后对模型进行训练，并进行对比分析。本发明能够实现红外图像的自动化检测，大幅提高图像判读的准确性，可靠性和泛化性，进一步降低红外图像检测的人工成本。

Description

结合眼动注意力机制的复杂背景红外微弱目标检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种复杂背景红外微弱目标检测方法。

背景技术

由于红外成像系统可以全天候提供清晰图像，且能够穿透雾、烟和其他大气条件等障碍物，在民用与军事领域都有着广泛应用。红外微弱目标检测作为目标识别与跟踪领域的重要内容，近年来已成为研究热点。根据国际光学工程学会的定义，把面积不大于9×9像素的红外目标称为红外微弱目标。红外微弱目标检测的研究对象通常为距离较远的机动目标——红外微弱目标，往往占有像素少，缺少颜色、形状和纹理等细节信息，检测难度较大。而且红外图像获取受环境因素和设备的影响，会产生背景噪声和固有噪声，难以区分噪声和微弱目标，使得红外微弱目标检测更加困难、综上所述，当前需要一种自动化的红外图像智能识别算法，以大幅提高复杂背景下的红外微弱目标检测效率和可靠性。因此本发明提出一种基于眼动注意力机制的红外微弱目标检测模型。通过测量专家判读红外图像时的眼睛的注视点位置，实现对眼球运动的追踪。采集的眼动轨迹经过去噪处理后，生成眼动注意力图，同时利用注意力机制对深度学习卷积层参数进行约束，突出重要目标的特征。使得模型能够利用人类的专家知识，学习到红外目标的有效特征，大幅度提升模型对红外微弱目标的检测效率。

当前的红外图像微弱目标的检测和判别任务中，现有的判别手段严重依靠人工经验，经验不足的判图人员可能会出现误判；同时人工判别比较主观，同一个样本不同的专家可能会有不同的结论。同时，针对高价值目标的判读任务十分紧急，对大量红外微弱目标的评估必须要作出及时、有效的判断，并且做好充足的应对准备，随着无人系统平台的大力发展，近几年红外图像海量增加，迫切需求对红外微弱的快速准确的判别手段。

发明内容

为了克服现有技术的不足，本发明提供了一种结合眼动注意力机制的复杂背景红外微弱目标检测方法，采集红外微弱目标图像数据作为训练样本；再进行数据增强，然后设计带有眼动采集功能的专家判读系统和相应的采集流程，收集专家的眼动信号；对眼动信号进行预处理，同时利用图神经网络获取眼动信号的局部特征和全局特征；构建眼动注意力机制，采用典型的YOLO网络对红外微弱目标图像进行特征提取，然后将眼动信号的特征作为注意力特征的YOLO网络的特征进行特征融合，将眼动信号作为网络特征参数的约束；最后对模型进行训练，并进行对比分析。本发明能够实现红外图像的自动化检测，大幅提高图像判读的准确性，可靠性和泛化性，进一步降低红外图像检测的人工成本。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：采集红外微弱目标图像数据，进行预处理，得到仅由红外微弱目标样本组成的训练样本数据集；所述红外微弱目标为面积不大于9×9像素的红外目标，一幅图像中的红外微弱目标数目为1-2个；

步骤2：对训练样本数据集进行数据增强，包括随机改变图像对比度、亮度、平移操作，增强训练样本数据集的数据多样性，扩展数据分布范围；

步骤3：使用眼动仪采集专家判读红外微弱目标图像时的眼动信号；

步骤3-1：对红外微弱目标图像中的红外微弱目标进行标注；

步骤3-2：对眼动仪进行标定，调整座椅位置和眼动仪角度，确保专家眼动信号始终处于视野中间，不会超出视野范围；

步骤3-3：在采集过程中，从训练样本数据集中随机抽出一张图像并显示在屏幕中，专家对图像进行判读，记录专家的判读结果，录入数据库中；最后将每个样本对应的专家判读结果和判读过程中专家的眼动信息对应起来并保存；

步骤4：对眼动信号进行预处理，同时利用图神经网络获取眼动信号的局部特征和全局特征；

步骤4-1：对眼动信号进行去噪处理；采用两种手段进行：一种是通过多次实验，降低异常点干扰；另一种是对每次采集的眼动信号形成的二维数据，进行二维高斯滤波，提高眼动信息的信噪比；

步骤4-2：采用图神经网络对眼动信号进行特征处理和特征分类，将眼动信号特征分为局部特征和全局特征；所述局部特征由眼动信号的高频停留位置组成，全局特征由全部眼动信号组成；

步骤4-3：在图神经网络对特征进行分类之后，再采用动态区域卷积的特征融合方法对眼动信号的局部特征和全局特征进行融合，得到眼动信号的物理特征；

步骤5：构建眼动注意力机制，先采用YOLO网络对红外微弱目标图像进行特征提取，然后将眼动信号的特征作为注意力特征与YOLO网络提取的特征进行特征融合，将眼动信号作为网络特征参数的约束；

步骤5-1：采用YOLO网络作为主干网络，将锚框大小设定为9、13和15，提取红外微弱目标图像的空间特征；

步骤5-2：采用多粒度注意力机制的深度学习模型融合眼动信号的物理特征和红外微弱目标图像的空间特征；具体如下：

步骤5-2-1：深度学习模型的输入为(I_r,E₁,E₂)，I_r为红外微弱目标图像，E₁和E₂分别是眼动信号的局部特征和全局特征；

步骤5-2-2：I_r通过基于YOLO的主干网络得到空间特征；E₁特征进行特征维度变换、对齐预处理操作，之后使用多个图神经网络对时频信息进行推理，生成具有语义关系的特征其中N_v是特征向量数目；再利用池化函数，将语义特征池化为全局特征V_1,*；

步骤5-2-3：使用门控融合方法提取全局视觉特征；

给定图像区域特征c_1,i和图表示v_1,*，门控融合方法表示为：

α_i＝σ(W_1,a[c_1,i,v_1,*])

r_1,i＝α_i*W_1,rc_1,i+(1-α_i)*W_1,gv_1,*

其中σ是sigmoid激活函数，W_1,a、W_1,r和W_1,g表示不同的线性变换，r_1,i表示融合后特征表示；

步骤5-2-4：采用细粒度特征融合模块，将眼动特征E₂和空间特征进行融合，从而引入局部注意力来提取目标细节信息；在第τ次迭代中，利用前(τ-1)个推理块的节点特征V_τ-1和图像特征r_τ-1作为输入，得到细粒度的融合特征；

步骤5-2-4：细粒度融合模块进一步结合注意力机制对目标的红外微弱目标特征进行评分并对其进行加权求和；细粒度融合模块的第一个全景融合模块和随后的T-1个细粒度模块按顺序堆叠，形成了多粒度多层次的渐进特征融合过程；融合之后的特征，经过深度网络的预测层进行类比和位置预测，最终输出的红外微弱目标的类别信息；

步骤6：对模型进行训练；

构建注意力机制之后，利用已经得到的目标样本和对应的眼动信号以及专家给出的标签，对YOLO网络、图神经网络以及动态区域卷积进行训练，通过损失函数，对模型的参数进行后向传递，在多次迭代之后，模型参数达到稳定状态，作为预训练模型；当新的数据输入到模型之后，不用专家判读，无需眼动信号，仅利用模型参数，能够对红外微弱目标特征进行自动化提取，同时对红外微弱目标位置和类别进行准确输出。

本发明的有益效果如下：

本发明采用卷积神经网络和眼动注意力机制进行红外图像微弱目标的自动提取和检测，能够实现红外图像的自动化检测，相比于现有的人工判读手段，能大幅提高图像判读的准确性，可靠性和泛化性，进一步降低红外图像检测的人工成本。

附图说明

图1为本发明方法流程示意图。

图2为本发明方法的眼动注意力模块示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

为有效提升检测模型对于红外微弱目标的特征提取和分类能力，提升红外图像判读的自动化程度。本发明有效结合专家眼动信号和卷积神经网络方法，实现自动化的红外微弱目标判别方法，构建了快速可靠的红外微弱目标检测模型，为后续的任务决策提供可靠的感知信息。

如图1所示，一种结合眼动注意力机制的复杂背景红外微弱目标检测方法，包括如下步骤：

步骤3-1：对红外微弱目标图像中的红外微弱目标进行标注；

步骤5-2-3：使用门控融合方法提取全局视觉特征；

给定图像区域特征c_1,i和图表示v_1,*，门控融合方法表示为：

α_i＝σ(W_1,a[c_1,i,v_1,*])

r_1,i＝α_i*W_1,rc_1,i+(1-α_i)*W_1,gv_1,*

步骤6：对模型进行训练；

具体实施例：

本发明是要使用深度学习方法来解决红外图像微弱目标预测问题，首先要考虑到的就是数据问题。深度学习是以大量数据为基础的，可以说数据量越多，网络模型的效果越好，因此数据的采集与数据库的建立至关重要。

步骤一，利用无人飞行平台，挂载红外传感器，对典型的移动目标进行远距离图像采集。在获取可见光图像的过程中，飞行平台上的红外传感器易受到光照条件、气候条件、传感器噪声、拍摄平台等条件的影响，进而影响红外图像的质量。比如在成像过程中受到光学透镜的不均匀性、大气衰减、云雾以及太阳光照条件的影响而造成成像时曝光不均匀。这些情况使得可见光成像传感器拍摄的图像具有其它类型的图像所不具备的特点，比如存在图像背景复杂程度较高、目标的灰度特性不稳定等特点。针对这些特点，对采集到的红外图像进行筛选，将容易区分的大目标和目标完全遮挡的极难目标等样本进行剔除。最终数据集仅由微弱目标样本组成。其中微弱目标像素的短边大小一般在9-15像素之间。一幅图像中的目标数目为1-2个左右。

步骤二，邀请判读专家对微弱目标的红外图像数据进行标注，同时记录专家的眼动信号。本发明设计了一套带有眼动采集功能的程序和相应的采集流程。在收集得到专家的眼动信息后，使用网络注意力与专家视觉注意力的一致性约束对模型加以训练。具体过程为，将收集到的数据存放在计算机中，并在计算机显示器上按照商用的眼动仪，收集专家的眼动信号。在专业人士判读图片之前，需要先对眼动仪信号进行标定，调整座椅位置和眼动仪角度，确保专家眼动信号始终处于视野中间，不会超出视野范围。眼动仪的数据采集软件可以采用开源数据收集软件。

本发明使用的显示器是分辨率为1920×1080的27英寸液晶显示器。屏幕与使用者眼睛的距离约为50厘米。在采集过程中，程序从训练数据集中随机抽出一张图像并显示在屏幕中，专家对图像进行查询，其中专家可以要求更换同一个样例的不同视角的红外微弱目标图片，注意，专家通过语音口令进行操作，以保证专家的视野不受到干扰。直到专家有信心做出分类决定时，场外工作人员在另一台计算机中记录下专家的判读结果，之后录入库中。最后将每个样本对应的专家判读结合和整个过程专家的眼动信息收集起来保存。

在获取到专家的眼动信号之后，因为仪器误差和眼动误差，眼动信号需要进行一定的去噪处理。本发明使用两种手段进行去噪处理。一种是利用多次实验，降低异常点干扰，同时对于每次采集到的眼动信号形成的二维数据，施加以二维高斯滤波，进一步提高眼动信息的信噪比。

步骤三，搭建卷积神经网络模型。本发明采用YOLO作为基本的网络卷积模块，用于提取微弱目标的卷积特征。YOLO是当前目标检测领域常用的模型之一，相比于其他目标检测模型，YOLO将目标检测问题转化为回归问题。给定输入图像，直接在图像的多个位置上回归出目标的位置框以及其分类类别。YOLO可以一次性预测多个目标的位置和类别，从而实现端到端的目标检测和识别，大量实验表明，YOLO具有速度快和效率高的优势。

然而，针对微弱目标，单独的YOLO网络往往会将背景中的噪声识别为目标，使得识别结果的虚警率比较高。因此本发明利用YOLO网络作为主干网络，仅提取目标的特征，同时和眼动注意力机制进行结合，最终提高微弱目标检测准确率。针对微弱目标，本发明对YOLO模型进行了改进，将模型中的锚框大小设定为9，13,15，以提高模型对微弱目标的检测效率。

步骤四，搭建完卷积网络之后，进行眼动信号注意力机制的构建，对步骤二中的眼动信号和步骤三中的卷积特征进行特征融合。具体过程如下：

本发明提取到的眼动信号特征分为局部特征和全局特征，这是在数据收集过程中，对眼动信号仪不同类型的输出提取获得的。其中的局部特征由眼动信号的高频停留位置组成，更侧重反映红外微弱目标本身的物理特性，而全局分析特征由全部眼动信号组成，更侧重于图像全局特征，以及红外微弱目标和复杂背景之间的联系。而两种特征在注意力机制的侧重点上存在差异。本发明利用图卷积网络对收集到的眼动信号进行特征处理和特征分类。相比于传统的卷积神经网络特征提取器，图卷积网络可以学习关键节点的依赖关系，充分挖掘目标在空间域和频域中的上下文特征信息，从非结构化数据中提取特征图，学习到不规则复杂图上的映射函数。在图神经网络对特征进行分类之后，之后再动态区域卷积的特征融合方法对多维度的眼动信息特征进行融合，具体为两个步骤。

①构建图卷积网络模型，利用不同维度的上下文特征构建目标候选框的图结构。之后通过缩放操作对图结构特征进行空间对齐和聚合；

②引入动态区域感知卷积网络，提取特征之后，设计可学习指导模块，根据目标的物理特征生成卷积核的区域模板，该模板将空间特征划分成许多区域，每个区域仅共享一个卷积核，从而根据相应的空间特征动态生成针对不同样本和不同区域的卷积核。相比于普通卷积，动态区域卷积能更深入的融合物理特征分布，并大幅提升模型对眼动信息的特征提取能力。

经过动态区域卷积提取到物理特征之后，本项目采用多粒度注意力机制融合物理特征和空间特征，将目标的眼动特征渐进地到“注入”到深度学习模型中。深度学习模型的输入为(I_r,E₁,E₂),I_r为红外微弱目标图像，E₁和E₂分别是全局眼动分析特征和局部眼动分析特征。I_r首先通过基于VGG的主干卷积模块进行视觉结构推理，得到空间特征，E₁特征先进行特征维度变换、对齐等预处理操作，之后使用多个图卷积网络对时频信息进行推理，从而生成具有语义关系的特征其中N_v是特征向量数目。之后再利用池化函数，将语义特征池化为全局特征V_1,*，进一步提取全局特征。该特征可以表征目标和背景间的联系，并对目标进行初步定位。

在图像全局层面，特征融合就是提取物理模型的视觉语义信息来丰富和突出图像空间特征图。本发明使用门控融合方法来实现这一功能。给定图像区域特征r_1,i和图表示v_1,*，门控融合方法表示为：

α_i＝σ(W_1,a[c_1,i,v_1,*])

r_1,i＝α_i*W_1,rc_1,i+(1-α_i)*W_1,gv_1,*

其中σ是sigmoid激活函数。W_1,a、W_1,r和W_1,g表示线性变换。W_1,r和W_1,g将图像特征和物理特征转换为联合视觉语义特征空间。在训练过程中，该函数能突出特征相关区域并抑制不相关的区域，从而提取到有效的全局视觉特征。

为了获取和目标相关的细节特征，进一步提升图像中目标的辨识度，本发明设计了细粒度特征融合模块，用于将眼动特性E₂和检测模块中的目标候选区域特征进行融合，从而引入局部注意力来提取目标细节信息，增加目标辨识度。在第τ次迭代中，利用前(τ-1)个推理块的节点特征V_τ-1和图像特征r_τ-1作为输入，得到细粒度的融合特征。利用注意力机制，对重要的视觉模式以及有意义的物理特征进行局部视觉推理，从而对齐两种模态的结构，同时抑制不必要的背景区域和不相关物理特性。

细粒度融合模块进一步结合了注意力机制来对目标的红外微弱目标特征进行评分并对其进行加权求和，从而在空间特征和物理特征上捕获像素级细节。第一个全景融合模块和随后的T-1个细粒度模块按顺序堆叠，形成了多粒度多层次的渐进特征融合过程。融合之后的特征，经过网络的预测层进行类比和位置预测，最终输出的红外微弱目标的类别信息。具体的过程可以参考图2.

步骤五，构建注意力机制之后，利用已经得到的目标样本和对应的眼动信号已经专家给出的标签，对YOLO网络和图神经网络，以及动态区域卷积进行训练。也就是通过损失函数，对模型的参数进行后向传递，在多次迭代之后，模型参数达到稳定状态，此时将参数保存下来。作为预训练模型。当新的数据输入到模型之后，可以不用专家判读，无需眼动信号，仅利用模型参数，便能够对红外微弱目标特征进行自动化提取，同时对红外微弱目标位置和类别进行准确输出。表1是本发明对红外微弱目标信号进行目标检测的结果。

表1红外微弱目标检测试验测试结果图

Claims

1.一种结合眼动注意力机制的复杂背景红外微弱目标检测方法，其特征在于，包括如下步骤：

步骤3-1：对红外微弱目标图像中的红外微弱目标进行标注；

步骤5-2-3：使用门控融合方法提取全局视觉特征；

给定图像区域特征c_1,i和图表示v_1,*，门控融合方法表示为：

α_i＝σ(W_1,a[c_1,i,v_1,*])

r_1,i＝α_i*W_1,rc_1,i+(1-α_i)*W_1,gv_1,*

步骤6：对模型进行训练；