CN114973390B - 结合眼动注意力机制的复杂背景红外微弱目标检测方法 - Google Patents
结合眼动注意力机制的复杂背景红外微弱目标检测方法 Download PDFInfo
- Publication number
- CN114973390B CN114973390B CN202210605519.7A CN202210605519A CN114973390B CN 114973390 B CN114973390 B CN 114973390B CN 202210605519 A CN202210605519 A CN 202210605519A CN 114973390 B CN114973390 B CN 114973390B
- Authority
- CN
- China
- Prior art keywords
- eye movement
- features
- image
- feature
- weak target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004424 eye movement Effects 0.000 title claims abstract description 126
- 230000007246 mechanism Effects 0.000 title claims abstract description 30
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000004927 fusion Effects 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 31
- 230000000007 visual effect Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 14
- 238000007500 overflow downdraw method Methods 0.000 claims description 11
- 238000013136 deep learning model Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims description 4
- 230000000750 progressive effect Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 5
- 239000000284 extract Substances 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明公开了一种结合眼动注意力机制的复杂背景红外微弱目标检测方法,采集红外微弱目标图像数据作为训练样本;再进行数据增强,然后设计带有眼动采集功能的专家判读系统和相应的采集流程,收集专家的眼动信号;对眼动信号进行预处理,同时利用图神经网络获取眼动信号的局部特征和全局特征;构建眼动注意力机制,采用典型的YOLO网络对红外微弱目标图像进行特征提取,然后将眼动信号的特征作为注意力特征的YOLO网络的特征进行特征融合,将眼动信号作为网络特征参数的约束;最后对模型进行训练,并进行对比分析。本发明能够实现红外图像的自动化检测,大幅提高图像判读的准确性,可靠性和泛化性,进一步降低红外图像检测的人工成本。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种复杂背景红外微弱目标检测方法。
背景技术
由于红外成像系统可以全天候提供清晰图像,且能够穿透雾、烟和其他大气条件等障碍物,在民用与军事领域都有着广泛应用。红外微弱目标检测作为目标识别与跟踪领域的重要内容,近年来已成为研究热点。根据国际光学工程学会的定义,把面积不大于9×9像素的红外目标称为红外微弱目标。红外微弱目标检测的研究对象通常为距离较远的机动目标——红外微弱目标,往往占有像素少,缺少颜色、形状和纹理等细节信息,检测难度较大。而且红外图像获取受环境因素和设备的影响,会产生背景噪声和固有噪声,难以区分噪声和微弱目标,使得红外微弱目标检测更加困难、综上所述,当前需要一种自动化的红外图像智能识别算法,以大幅提高复杂背景下的红外微弱目标检测效率和可靠性。因此本发明提出一种基于眼动注意力机制的红外微弱目标检测模型。通过测量专家判读红外图像时的眼睛的注视点位置,实现对眼球运动的追踪。采集的眼动轨迹经过去噪处理后,生成眼动注意力图,同时利用注意力机制对深度学习卷积层参数进行约束,突出重要目标的特征。使得模型能够利用人类的专家知识,学习到红外目标的有效特征,大幅度提升模型对红外微弱目标的检测效率。
当前的红外图像微弱目标的检测和判别任务中,现有的判别手段严重依靠人工经验,经验不足的判图人员可能会出现误判;同时人工判别比较主观,同一个样本不同的专家可能会有不同的结论。同时,针对高价值目标的判读任务十分紧急,对大量红外微弱目标的评估必须要作出及时、有效的判断,并且做好充足的应对准备,随着无人系统平台的大力发展,近几年红外图像海量增加,迫切需求对红外微弱的快速准确的判别手段。
发明内容
为了克服现有技术的不足,本发明提供了一种结合眼动注意力机制的复杂背景红外微弱目标检测方法,采集红外微弱目标图像数据作为训练样本;再进行数据增强,然后设计带有眼动采集功能的专家判读系统和相应的采集流程,收集专家的眼动信号;对眼动信号进行预处理,同时利用图神经网络获取眼动信号的局部特征和全局特征;构建眼动注意力机制,采用典型的YOLO网络对红外微弱目标图像进行特征提取,然后将眼动信号的特征作为注意力特征的YOLO网络的特征进行特征融合,将眼动信号作为网络特征参数的约束;最后对模型进行训练,并进行对比分析。本发明能够实现红外图像的自动化检测,大幅提高图像判读的准确性,可靠性和泛化性,进一步降低红外图像检测的人工成本。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:采集红外微弱目标图像数据,进行预处理,得到仅由红外微弱目标样本组成的训练样本数据集;所述红外微弱目标为面积不大于9×9像素的红外目标,一幅图像中的红外微弱目标数目为1-2个;
步骤2:对训练样本数据集进行数据增强,包括随机改变图像对比度、亮度、平移操作,增强训练样本数据集的数据多样性,扩展数据分布范围;
步骤3:使用眼动仪采集专家判读红外微弱目标图像时的眼动信号;
步骤3-1:对红外微弱目标图像中的红外微弱目标进行标注;
步骤3-2:对眼动仪进行标定,调整座椅位置和眼动仪角度,确保专家眼动信号始终处于视野中间,不会超出视野范围;
步骤3-3:在采集过程中,从训练样本数据集中随机抽出一张图像并显示在屏幕中,专家对图像进行判读,记录专家的判读结果,录入数据库中;最后将每个样本对应的专家判读结果和判读过程中专家的眼动信息对应起来并保存;
步骤4:对眼动信号进行预处理,同时利用图神经网络获取眼动信号的局部特征和全局特征;
步骤4-1:对眼动信号进行去噪处理;采用两种手段进行:一种是通过多次实验,降低异常点干扰;另一种是对每次采集的眼动信号形成的二维数据,进行二维高斯滤波,提高眼动信息的信噪比;
步骤4-2:采用图神经网络对眼动信号进行特征处理和特征分类,将眼动信号特征分为局部特征和全局特征;所述局部特征由眼动信号的高频停留位置组成,全局特征由全部眼动信号组成;
步骤4-3:在图神经网络对特征进行分类之后,再采用动态区域卷积的特征融合方法对眼动信号的局部特征和全局特征进行融合,得到眼动信号的物理特征;
步骤5:构建眼动注意力机制,先采用YOLO网络对红外微弱目标图像进行特征提取,然后将眼动信号的特征作为注意力特征与YOLO网络提取的特征进行特征融合,将眼动信号作为网络特征参数的约束;
步骤5-1:采用YOLO网络作为主干网络,将锚框大小设定为9、13和15,提取红外微弱目标图像的空间特征;
步骤5-2:采用多粒度注意力机制的深度学习模型融合眼动信号的物理特征和红外微弱目标图像的空间特征;具体如下:
步骤5-2-1:深度学习模型的输入为(Ir,E1,E2),Ir为红外微弱目标图像,E1和E2分别是眼动信号的局部特征和全局特征;
步骤5-2-2:Ir通过基于YOLO的主干网络得到空间特征;E1特征进行特征维度变换、对齐预处理操作,之后使用多个图神经网络对时频信息进行推理,生成具有语义关系的特征其中Nv是特征向量数目;再利用池化函数,将语义特征池化为全局特征V1,*;
步骤5-2-3:使用门控融合方法提取全局视觉特征;
给定图像区域特征c1,i和图表示v1,*,门控融合方法表示为:
αi=σ(W1,a[c1,i,v1,*])
r1,i=αi*W1,rc1,i+(1-αi)*W1,gv1,*
其中σ是sigmoid激活函数,W1,a、W1,r和W1,g表示不同的线性变换,r1,i表示融合后特征表示;
步骤5-2-4:采用细粒度特征融合模块,将眼动特征E2和空间特征进行融合,从而引入局部注意力来提取目标细节信息;在第τ次迭代中,利用前(τ-1)个推理块的节点特征Vτ-1和图像特征rτ-1作为输入,得到细粒度的融合特征;
步骤5-2-4:细粒度融合模块进一步结合注意力机制对目标的红外微弱目标特征进行评分并对其进行加权求和;细粒度融合模块的第一个全景融合模块和随后的T-1个细粒度模块按顺序堆叠,形成了多粒度多层次的渐进特征融合过程;融合之后的特征,经过深度网络的预测层进行类比和位置预测,最终输出的红外微弱目标的类别信息;
步骤6:对模型进行训练;
构建注意力机制之后,利用已经得到的目标样本和对应的眼动信号以及专家给出的标签,对YOLO网络、图神经网络以及动态区域卷积进行训练,通过损失函数,对模型的参数进行后向传递,在多次迭代之后,模型参数达到稳定状态,作为预训练模型;当新的数据输入到模型之后,不用专家判读,无需眼动信号,仅利用模型参数,能够对红外微弱目标特征进行自动化提取,同时对红外微弱目标位置和类别进行准确输出。
本发明的有益效果如下:
本发明采用卷积神经网络和眼动注意力机制进行红外图像微弱目标的自动提取和检测,能够实现红外图像的自动化检测,相比于现有的人工判读手段,能大幅提高图像判读的准确性,可靠性和泛化性,进一步降低红外图像检测的人工成本。
附图说明
图1为本发明方法流程示意图。
图2为本发明方法的眼动注意力模块示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
为有效提升检测模型对于红外微弱目标的特征提取和分类能力,提升红外图像判读的自动化程度。本发明有效结合专家眼动信号和卷积神经网络方法,实现自动化的红外微弱目标判别方法,构建了快速可靠的红外微弱目标检测模型,为后续的任务决策提供可靠的感知信息。
如图1所示,一种结合眼动注意力机制的复杂背景红外微弱目标检测方法,包括如下步骤:
步骤1:采集红外微弱目标图像数据,进行预处理,得到仅由红外微弱目标样本组成的训练样本数据集;所述红外微弱目标为面积不大于9×9像素的红外目标,一幅图像中的红外微弱目标数目为1-2个;
步骤2:对训练样本数据集进行数据增强,包括随机改变图像对比度、亮度、平移操作,增强训练样本数据集的数据多样性,扩展数据分布范围;
步骤3:使用眼动仪采集专家判读红外微弱目标图像时的眼动信号;
步骤3-1:对红外微弱目标图像中的红外微弱目标进行标注;
步骤3-2:对眼动仪进行标定,调整座椅位置和眼动仪角度,确保专家眼动信号始终处于视野中间,不会超出视野范围;
步骤3-3:在采集过程中,从训练样本数据集中随机抽出一张图像并显示在屏幕中,专家对图像进行判读,记录专家的判读结果,录入数据库中;最后将每个样本对应的专家判读结果和判读过程中专家的眼动信息对应起来并保存;
步骤4:对眼动信号进行预处理,同时利用图神经网络获取眼动信号的局部特征和全局特征;
步骤4-1:对眼动信号进行去噪处理;采用两种手段进行:一种是通过多次实验,降低异常点干扰;另一种是对每次采集的眼动信号形成的二维数据,进行二维高斯滤波,提高眼动信息的信噪比;
步骤4-2:采用图神经网络对眼动信号进行特征处理和特征分类,将眼动信号特征分为局部特征和全局特征;所述局部特征由眼动信号的高频停留位置组成,全局特征由全部眼动信号组成;
步骤4-3:在图神经网络对特征进行分类之后,再采用动态区域卷积的特征融合方法对眼动信号的局部特征和全局特征进行融合,得到眼动信号的物理特征;
步骤5:构建眼动注意力机制,先采用YOLO网络对红外微弱目标图像进行特征提取,然后将眼动信号的特征作为注意力特征与YOLO网络提取的特征进行特征融合,将眼动信号作为网络特征参数的约束;
步骤5-1:采用YOLO网络作为主干网络,将锚框大小设定为9、13和15,提取红外微弱目标图像的空间特征;
步骤5-2:采用多粒度注意力机制的深度学习模型融合眼动信号的物理特征和红外微弱目标图像的空间特征;具体如下:
步骤5-2-1:深度学习模型的输入为(Ir,E1,E2),Ir为红外微弱目标图像,E1和E2分别是眼动信号的局部特征和全局特征;
步骤5-2-2:Ir通过基于YOLO的主干网络得到空间特征;E1特征进行特征维度变换、对齐预处理操作,之后使用多个图神经网络对时频信息进行推理,生成具有语义关系的特征其中Nv是特征向量数目;再利用池化函数,将语义特征池化为全局特征V1,*;
步骤5-2-3:使用门控融合方法提取全局视觉特征;
给定图像区域特征c1,i和图表示v1,*,门控融合方法表示为:
αi=σ(W1,a[c1,i,v1,*])
r1,i=αi*W1,rc1,i+(1-αi)*W1,gv1,*
其中σ是sigmoid激活函数,W1,a、W1,r和W1,g表示不同的线性变换,r1,i表示融合后特征表示;
步骤5-2-4:采用细粒度特征融合模块,将眼动特征E2和空间特征进行融合,从而引入局部注意力来提取目标细节信息;在第τ次迭代中,利用前(τ-1)个推理块的节点特征Vτ-1和图像特征rτ-1作为输入,得到细粒度的融合特征;
步骤5-2-4:细粒度融合模块进一步结合注意力机制对目标的红外微弱目标特征进行评分并对其进行加权求和;细粒度融合模块的第一个全景融合模块和随后的T-1个细粒度模块按顺序堆叠,形成了多粒度多层次的渐进特征融合过程;融合之后的特征,经过深度网络的预测层进行类比和位置预测,最终输出的红外微弱目标的类别信息;
步骤6:对模型进行训练;
构建注意力机制之后,利用已经得到的目标样本和对应的眼动信号以及专家给出的标签,对YOLO网络、图神经网络以及动态区域卷积进行训练,通过损失函数,对模型的参数进行后向传递,在多次迭代之后,模型参数达到稳定状态,作为预训练模型;当新的数据输入到模型之后,不用专家判读,无需眼动信号,仅利用模型参数,能够对红外微弱目标特征进行自动化提取,同时对红外微弱目标位置和类别进行准确输出。
具体实施例:
本发明是要使用深度学习方法来解决红外图像微弱目标预测问题,首先要考虑到的就是数据问题。深度学习是以大量数据为基础的,可以说数据量越多,网络模型的效果越好,因此数据的采集与数据库的建立至关重要。
步骤一,利用无人飞行平台,挂载红外传感器,对典型的移动目标进行远距离图像采集。在获取可见光图像的过程中,飞行平台上的红外传感器易受到光照条件、气候条件、传感器噪声、拍摄平台等条件的影响,进而影响红外图像的质量。比如在成像过程中受到光学透镜的不均匀性、大气衰减、云雾以及太阳光照条件的影响而造成成像时曝光不均匀。这些情况使得可见光成像传感器拍摄的图像具有其它类型的图像所不具备的特点,比如存在图像背景复杂程度较高、目标的灰度特性不稳定等特点。针对这些特点,对采集到的红外图像进行筛选,将容易区分的大目标和目标完全遮挡的极难目标等样本进行剔除。最终数据集仅由微弱目标样本组成。其中微弱目标像素的短边大小一般在9-15像素之间。一幅图像中的目标数目为1-2个左右。
步骤二,邀请判读专家对微弱目标的红外图像数据进行标注,同时记录专家的眼动信号。本发明设计了一套带有眼动采集功能的程序和相应的采集流程。在收集得到专家的眼动信息后,使用网络注意力与专家视觉注意力的一致性约束对模型加以训练。具体过程为,将收集到的数据存放在计算机中,并在计算机显示器上按照商用的眼动仪,收集专家的眼动信号。在专业人士判读图片之前,需要先对眼动仪信号进行标定,调整座椅位置和眼动仪角度,确保专家眼动信号始终处于视野中间,不会超出视野范围。眼动仪的数据采集软件可以采用开源数据收集软件。
本发明使用的显示器是分辨率为1920×1080的27英寸液晶显示器。屏幕与使用者眼睛的距离约为50厘米。在采集过程中,程序从训练数据集中随机抽出一张图像并显示在屏幕中,专家对图像进行查询,其中专家可以要求更换同一个样例的不同视角的红外微弱目标图片,注意,专家通过语音口令进行操作,以保证专家的视野不受到干扰。直到专家有信心做出分类决定时,场外工作人员在另一台计算机中记录下专家的判读结果,之后录入库中。最后将每个样本对应的专家判读结合和整个过程专家的眼动信息收集起来保存。
在获取到专家的眼动信号之后,因为仪器误差和眼动误差,眼动信号需要进行一定的去噪处理。本发明使用两种手段进行去噪处理。一种是利用多次实验,降低异常点干扰,同时对于每次采集到的眼动信号形成的二维数据,施加以二维高斯滤波,进一步提高眼动信息的信噪比。
步骤三,搭建卷积神经网络模型。本发明采用YOLO作为基本的网络卷积模块,用于提取微弱目标的卷积特征。YOLO是当前目标检测领域常用的模型之一,相比于其他目标检测模型,YOLO将目标检测问题转化为回归问题。给定输入图像,直接在图像的多个位置上回归出目标的位置框以及其分类类别。YOLO可以一次性预测多个目标的位置和类别,从而实现端到端的目标检测和识别,大量实验表明,YOLO具有速度快和效率高的优势。
然而,针对微弱目标,单独的YOLO网络往往会将背景中的噪声识别为目标,使得识别结果的虚警率比较高。因此本发明利用YOLO网络作为主干网络,仅提取目标的特征,同时和眼动注意力机制进行结合,最终提高微弱目标检测准确率。针对微弱目标,本发明对YOLO模型进行了改进,将模型中的锚框大小设定为9,13,15,以提高模型对微弱目标的检测效率。
步骤四,搭建完卷积网络之后,进行眼动信号注意力机制的构建,对步骤二中的眼动信号和步骤三中的卷积特征进行特征融合。具体过程如下:
本发明提取到的眼动信号特征分为局部特征和全局特征,这是在数据收集过程中,对眼动信号仪不同类型的输出提取获得的。其中的局部特征由眼动信号的高频停留位置组成,更侧重反映红外微弱目标本身的物理特性,而全局分析特征由全部眼动信号组成,更侧重于图像全局特征,以及红外微弱目标和复杂背景之间的联系。而两种特征在注意力机制的侧重点上存在差异。本发明利用图卷积网络对收集到的眼动信号进行特征处理和特征分类。相比于传统的卷积神经网络特征提取器,图卷积网络可以学习关键节点的依赖关系,充分挖掘目标在空间域和频域中的上下文特征信息,从非结构化数据中提取特征图,学习到不规则复杂图上的映射函数。在图神经网络对特征进行分类之后,之后再动态区域卷积的特征融合方法对多维度的眼动信息特征进行融合,具体为两个步骤。
①构建图卷积网络模型,利用不同维度的上下文特征构建目标候选框的图结构。之后通过缩放操作对图结构特征进行空间对齐和聚合;
②引入动态区域感知卷积网络,提取特征之后,设计可学习指导模块,根据目标的物理特征生成卷积核的区域模板,该模板将空间特征划分成许多区域,每个区域仅共享一个卷积核,从而根据相应的空间特征动态生成针对不同样本和不同区域的卷积核。相比于普通卷积,动态区域卷积能更深入的融合物理特征分布,并大幅提升模型对眼动信息的特征提取能力。
经过动态区域卷积提取到物理特征之后,本项目采用多粒度注意力机制融合物理特征和空间特征,将目标的眼动特征渐进地到“注入”到深度学习模型中。深度学习模型的输入为(Ir,E1,E2),Ir为红外微弱目标图像,E1和E2分别是全局眼动分析特征和局部眼动分析特征。Ir首先通过基于VGG的主干卷积模块进行视觉结构推理,得到空间特征,E1特征先进行特征维度变换、对齐等预处理操作,之后使用多个图卷积网络对时频信息进行推理,从而生成具有语义关系的特征其中Nv是特征向量数目。之后再利用池化函数,将语义特征池化为全局特征V1,*,进一步提取全局特征。该特征可以表征目标和背景间的联系,并对目标进行初步定位。
在图像全局层面,特征融合就是提取物理模型的视觉语义信息来丰富和突出图像空间特征图。本发明使用门控融合方法来实现这一功能。给定图像区域特征r1,i和图表示v1,*,门控融合方法表示为:
αi=σ(W1,a[c1,i,v1,*])
r1,i=αi*W1,rc1,i+(1-αi)*W1,gv1,*
其中σ是sigmoid激活函数。W1,a、W1,r和W1,g表示线性变换。W1,r和W1,g将图像特征和物理特征转换为联合视觉语义特征空间。在训练过程中,该函数能突出特征相关区域并抑制不相关的区域,从而提取到有效的全局视觉特征。
为了获取和目标相关的细节特征,进一步提升图像中目标的辨识度,本发明设计了细粒度特征融合模块,用于将眼动特性E2和检测模块中的目标候选区域特征进行融合,从而引入局部注意力来提取目标细节信息,增加目标辨识度。在第τ次迭代中,利用前(τ-1)个推理块的节点特征Vτ-1和图像特征rτ-1作为输入,得到细粒度的融合特征。利用注意力机制,对重要的视觉模式以及有意义的物理特征进行局部视觉推理,从而对齐两种模态的结构,同时抑制不必要的背景区域和不相关物理特性。
细粒度融合模块进一步结合了注意力机制来对目标的红外微弱目标特征进行评分并对其进行加权求和,从而在空间特征和物理特征上捕获像素级细节。第一个全景融合模块和随后的T-1个细粒度模块按顺序堆叠,形成了多粒度多层次的渐进特征融合过程。融合之后的特征,经过网络的预测层进行类比和位置预测,最终输出的红外微弱目标的类别信息。具体的过程可以参考图2.
步骤五,构建注意力机制之后,利用已经得到的目标样本和对应的眼动信号已经专家给出的标签,对YOLO网络和图神经网络,以及动态区域卷积进行训练。也就是通过损失函数,对模型的参数进行后向传递,在多次迭代之后,模型参数达到稳定状态,此时将参数保存下来。作为预训练模型。当新的数据输入到模型之后,可以不用专家判读,无需眼动信号,仅利用模型参数,便能够对红外微弱目标特征进行自动化提取,同时对红外微弱目标位置和类别进行准确输出。表1是本发明对红外微弱目标信号进行目标检测的结果。
表1红外微弱目标检测试验测试结果图
Claims (1)
1.一种结合眼动注意力机制的复杂背景红外微弱目标检测方法,其特征在于,包括如下步骤:
步骤1:采集红外微弱目标图像数据,进行预处理,得到仅由红外微弱目标样本组成的训练样本数据集;所述红外微弱目标为面积不大于9×9像素的红外目标,一幅图像中的红外微弱目标数目为1-2个;
步骤2:对训练样本数据集进行数据增强,包括随机改变图像对比度、亮度、平移操作,增强训练样本数据集的数据多样性,扩展数据分布范围;
步骤3:使用眼动仪采集专家判读红外微弱目标图像时的眼动信号;
步骤3-1:对红外微弱目标图像中的红外微弱目标进行标注;
步骤3-2:对眼动仪进行标定,调整座椅位置和眼动仪角度,确保专家眼动信号始终处于视野中间,不会超出视野范围;
步骤3-3:在采集过程中,从训练样本数据集中随机抽出一张图像并显示在屏幕中,专家对图像进行判读,记录专家的判读结果,录入数据库中;最后将每个样本对应的专家判读结果和判读过程中专家的眼动信息对应起来并保存;
步骤4:对眼动信号进行预处理,同时利用图神经网络获取眼动信号的局部特征和全局特征;
步骤4-1:对眼动信号进行去噪处理;采用两种手段进行:一种是通过多次实验,降低异常点干扰;另一种是对每次采集的眼动信号形成的二维数据,进行二维高斯滤波,提高眼动信息的信噪比;
步骤4-2:采用图神经网络对眼动信号进行特征处理和特征分类,将眼动信号特征分为局部特征和全局特征;所述局部特征由眼动信号的高频停留位置组成,全局特征由全部眼动信号组成;
步骤4-3:在图神经网络对特征进行分类之后,再采用动态区域卷积的特征融合方法对眼动信号的局部特征和全局特征进行融合,得到眼动信号的物理特征;
步骤5:构建眼动注意力机制,先采用YOLO网络对红外微弱目标图像进行特征提取,然后将眼动信号的特征作为注意力特征与YOLO网络提取的特征进行特征融合,将眼动信号作为网络特征参数的约束;
步骤5-1:采用YOLO网络作为主干网络,将锚框大小设定为9、13和15,提取红外微弱目标图像的空间特征;
步骤5-2:采用多粒度注意力机制的深度学习模型融合眼动信号的物理特征和红外微弱目标图像的空间特征;具体如下:
步骤5-2-1:深度学习模型的输入为(Ir,E1,E2),Ir为红外微弱目标图像,E1和E2分别是眼动信号的局部特征和全局特征;
步骤5-2-2:Ir通过基于YOLO的主干网络得到空间特征;E1特征进行特征维度变换、对齐预处理操作,之后使用多个图神经网络对时频信息进行推理,生成具有语义关系的特征其中Nv是特征向量数目;再利用池化函数,将语义特征池化为全局特征V1,*;
步骤5-2-3:使用门控融合方法提取全局视觉特征;
给定图像区域特征c1,i和图表示v1,*,门控融合方法表示为:
αi=σ(W1,a[c1,i,v1,*])
r1,i=αi*W1,rc1,i+(1-αi)*W1,gv1,*
其中σ是sigmoid激活函数,W1,a、W1,r和W1,g表示不同的线性变换,r1,i表示融合后特征表示;
步骤5-2-4:采用细粒度特征融合模块,将眼动特征E2和空间特征进行融合,从而引入局部注意力来提取目标细节信息;在第τ次迭代中,利用前(τ-1)个推理块的节点特征Vτ-1和图像特征rτ-1作为输入,得到细粒度的融合特征;
步骤5-2-4:细粒度融合模块进一步结合注意力机制对目标的红外微弱目标特征进行评分并对其进行加权求和;细粒度融合模块的第一个全景融合模块和随后的T-1个细粒度模块按顺序堆叠,形成了多粒度多层次的渐进特征融合过程;融合之后的特征,经过深度网络的预测层进行类比和位置预测,最终输出的红外微弱目标的类别信息;
步骤6:对模型进行训练;
构建注意力机制之后,利用已经得到的目标样本和对应的眼动信号以及专家给出的标签,对YOLO网络、图神经网络以及动态区域卷积进行训练,通过损失函数,对模型的参数进行后向传递,在多次迭代之后,模型参数达到稳定状态,作为预训练模型;当新的数据输入到模型之后,不用专家判读,无需眼动信号,仅利用模型参数,能够对红外微弱目标特征进行自动化提取,同时对红外微弱目标位置和类别进行准确输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210605519.7A CN114973390B (zh) | 2022-05-30 | 2022-05-30 | 结合眼动注意力机制的复杂背景红外微弱目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210605519.7A CN114973390B (zh) | 2022-05-30 | 2022-05-30 | 结合眼动注意力机制的复杂背景红外微弱目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114973390A CN114973390A (zh) | 2022-08-30 |
CN114973390B true CN114973390B (zh) | 2024-03-12 |
Family
ID=82958038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210605519.7A Active CN114973390B (zh) | 2022-05-30 | 2022-05-30 | 结合眼动注意力机制的复杂背景红外微弱目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114973390B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619373A (zh) * | 2019-10-31 | 2019-12-27 | 北京理工大学 | 一种基于bp神经网络的红外多光谱微弱目标检测方法 |
CN113591968A (zh) * | 2021-07-27 | 2021-11-02 | 中国人民解放军国防科技大学 | 一种基于非对称注意力特征融合的红外弱小目标检测方法 |
WO2021244079A1 (zh) * | 2020-06-02 | 2021-12-09 | 苏州科技大学 | 智能家居环境中图像目标检测方法 |
-
2022
- 2022-05-30 CN CN202210605519.7A patent/CN114973390B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619373A (zh) * | 2019-10-31 | 2019-12-27 | 北京理工大学 | 一种基于bp神经网络的红外多光谱微弱目标检测方法 |
WO2021244079A1 (zh) * | 2020-06-02 | 2021-12-09 | 苏州科技大学 | 智能家居环境中图像目标检测方法 |
CN113591968A (zh) * | 2021-07-27 | 2021-11-02 | 中国人民解放军国防科技大学 | 一种基于非对称注意力特征融合的红外弱小目标检测方法 |
Non-Patent Citations (1)
Title |
---|
毛雪宇 ; 彭艳兵 ; .增量角度域损失和多特征融合的地标识别.中国图象图形学报.2020,(08),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114973390A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444821B (zh) | 一种城市道路标志自动识别方法 | |
CN111553929B (zh) | 基于融合网络的手机屏幕缺陷分割方法、装置及设备 | |
US10984532B2 (en) | Joint deep learning for land cover and land use classification | |
CN111797716B (zh) | 一种基于Siamese网络的单目标跟踪方法 | |
CN110472627B (zh) | 一种端到端的sar图像识别方法、装置及存储介质 | |
EP3614308A1 (en) | Joint deep learning for land cover and land use classification | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN110059558A (zh) | 一种基于改进ssd网络的果园障碍物实时检测方法 | |
CN111080629A (zh) | 一种图像拼接篡改的检测方法 | |
CN114693615A (zh) | 一种基于域适应的深度学习混凝土桥梁裂缝实时检测方法 | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN114241548A (zh) | 一种基于改进YOLOv5的小目标检测算法 | |
CN110929593A (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN104504395A (zh) | 基于神经网络实现人车分类的方法和系统 | |
CN106778687A (zh) | 基于局部评估和全局优化的注视点检测方法 | |
CN110717863B (zh) | 一种基于生成对抗网络的单图像去雪方法 | |
CN111611861B (zh) | 一种基于多尺度特征关联的图像变化检测方法 | |
CN112597815A (zh) | 一种基于Group-G0模型的合成孔径雷达图像舰船检测方法 | |
CN112489054A (zh) | 一种基于深度学习的遥感图像语义分割方法 | |
CN104143102A (zh) | 在线图像数据处理方法 | |
Hu et al. | Gabor-CNN for object detection based on small samples | |
Junwu et al. | An infrared and visible image fusion algorithm based on LSWT-NSST | |
CN111260687A (zh) | 一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法 | |
Zhao et al. | Image dehazing based on haze degree classification | |
Khoshboresh-Masouleh et al. | Robust building footprint extraction from big multi-sensor data using deep competition network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |