CN115620125A - 一种基于时空渐进式学习的抗干扰方法及装置 - Google Patents

一种基于时空渐进式学习的抗干扰方法及装置 Download PDF

Info

Publication number
CN115620125A
CN115620125A CN202211080203.7A CN202211080203A CN115620125A CN 115620125 A CN115620125 A CN 115620125A CN 202211080203 A CN202211080203 A CN 202211080203A CN 115620125 A CN115620125 A CN 115620125A
Authority
CN
China
Prior art keywords
suggestion
regression
frame
box
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211080203.7A
Other languages
English (en)
Inventor
温焱
苏毅
甄政
左峥嵘
欧文
盛忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Remote Sensing Equipment
Original Assignee
Beijing Institute of Remote Sensing Equipment
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Remote Sensing Equipment filed Critical Beijing Institute of Remote Sensing Equipment
Priority to CN202211080203.7A priority Critical patent/CN115620125A/zh
Publication of CN115620125A publication Critical patent/CN115620125A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及精确制导领域,特别涉及一种基于时空渐进式学习的抗干扰方法、基于时空渐进式学习的抗干扰装置、电子设备及计算机可读存储介质。其中,方法包括:取待检测目标的连续帧,其中,连续帧包括时间轴上连续的多帧图像;生成初始的建议框;基于当前建议框位置,预测相邻的建议框的位置,形成轨迹管道;通过双分支网络,基于全局分支根据区域特征时空关系得到分类概率,并基于局部分支根据全局信息和局部信息确定回归框;将分类概率最大的回归框替代建议框,更新轨迹管道。本发明从粗尺度的建议框开始,采用渐进式学习,利用空间细化模块完成检测和级联任务,结合时序拓展模块提取更多时序信息,提高了识别准确性,具备优异的抗干扰性能。

Description

一种基于时空渐进式学习的抗干扰方法及装置
技术领域
本发明涉及精确制导领域,特别涉及一种基于时空渐进式学习的抗干扰方法、基于时空渐进式学习的抗干扰装置、电子设备及计算机可读存储介质。
背景技术
在精确制导技术中,红外成像制导技术利用目标和背景不同的热辐射分布实现对目标的精确的打击,具备在复杂战术环境下自主搜索跟踪识别目标的能力。红外制导具有高空间分辨率、高灵敏度、能够昼夜工作的优势,已经成为各国精确制导技术中的主流发展方向。随着红外制导武器的大量使用,对应的红外干扰技术也在不断地发展。导致制导准确度降低,干扰目标被误识别的概率提升,原有制导技术的抗干扰能力不足。
发明内容
为解决上述问题,本发明提供了一种基于时空渐进式学习的抗干扰方法、基于时空渐进式学习的抗干扰装置、电子设备及计算机可读存储介质。
第一方面,本发明提供一种基于时空渐进式学习的抗干扰方法,包括:获取待检测目标的连续帧,其中,所述连续帧包括时间轴上连续的多帧图像;生成初始的建议框;基于当前建议框位置,预测相邻的建议框的位置,形成轨迹管道;通过双分支网络,基于全局分支根据区域特征时空关系得到分类概率,并基于局部分支根据全局信息和局部信息确定回归框;将分类概率最大的回归框替代建议框,更新轨迹管道。
在一些实施例中,所述生成初始的建议框,包括:基于预设尺度和重叠度,生成初始的建议框。
在一些实施例中,所述基于当前建议框位置,预测相邻的建议框的位置,形成轨迹管道,包括:基于时序对建议框进行逐步时间扩展,其中,每一步s均满足1<s<Smax,且,包含K帧图像的轨迹管道Bs被扩展到
Figure BDA0003832696620000021
其中
Figure BDA0003832696620000029
表示连接;确定回归函数为Ls=f(x),其中f为输入、x为特征,预测位置的公式为:
Figure BDA0003832696620000022
其中,f-1和f+1为回归量;基于所述预测位置的公式,确定相邻的轨迹管道
Figure BDA0003832696620000023
Figure BDA0003832696620000024
在一些实施例中,所述通过双分支网络,基于全局分支根据区域特征时空关系得到分类概率,并基于局部分支根据全局信息和局部信息确定回归框,包括:将所述轨迹管道经映射到特征图生成的区域特征输入所述双分支网络;基于所述全局分支,对所述区域特征进行时空建模,得到所述分类概率;基于所述局部分支,融合全局信息和局部信息,结合所述建议框的位置得到更新后的回归框。
在一些实施例中,所述将分类概率最大的回归框替代建议框,更新轨迹管道,包括:基于以下公式更新轨迹管道:
Figure BDA0003832696620000025
其中,c代表分类类别,
Figure BDA0003832696620000026
代表第i个建议框在c个类别和背景类上的概率分布,
Figure BDA0003832696620000027
代表在每个类每帧上的边界框回归参数,
Figure BDA0003832696620000028
代表对坐标进行解码。
在一些实施例中,所述双分支网络中包括注意力机制模块。
在一些实施例中,所述注意力机制模块包括时空注意力模块、通道注意力模块以及运动注意力模块,其中,基于所述时空注意力模块,突出目标的特征信息;基于所述通道注意力模块,增强网络卷积通道在时序上的相关性;基于所述运动注意力模块,突出目标的运动信息。
第二方面,本发明还提供一种基于时空渐进式学习的抗干扰装置,包括:获取单元,用于获取待检测目标的连续帧,其中,所述连续帧包括时间轴上连续的多帧图像;建议框生成单元,用于生成初始的建议框;时空拓展单元,用于基于当前建议框位置,预测相邻的建议框的位置,形成轨迹管道;空间细化单元,用于通过双分支网络,基于全局分支根据区域特征时空关系得到分类概率,并基于局部分支根据全局信息和局部信息确定回归框;更新轨迹单元,用于将分类概率最大的回归框替代建议框,更新轨迹管道。
第三方面,本发明还提供一种电子设备,包括:存储器,用于存储指令;以及处理器,用于调用所述存储器存储的指令执行如第一方面所述的基于时空渐进式学习的抗干扰方法。
第四方面,本发明还提供一种计算机可读存储介质,其中存储有指令,所述指令被处理器执行时,执行如第一方面所述的基于时空渐进式学习的抗干扰方法。
本发明的实施例提供的技术方案可以包括以下有益效果:本发明提出了端到端的基于时空渐进式学习的抗干扰识别方法,从粗尺度的建议框开始,采用渐进式学习的思想,利用空间细化模块完成检测和级联任务,结合时序拓展模块提取更多时序信息,提高了识别准确性,具备优异的抗干扰性能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
图1示出了一些实施例的基于时空渐进式学习的抗干扰方法流程示意图;
图2示出了一些实施例的I3D网络结构示意图;
图3示出了一些实施例的Inc.子结构示意图;
图4示出了一些实施例的渐进式学习的框架示意图;
图5示出了一些实施例的网络结构示意图;
图6示出了一些实施例的初始建议框示意图;
图7示出了一些实施例的渐进式学习网络在第一步和第三步下的损失函数收敛图;
图8示出了一些实施例的输出结果示意图;
图9示出了一些实施例的初始建议框和输出结果对比示意图;
图10示出了一些实施例的检测结果示意图;
图11示出了一些实施例的目标识别装置模块示意图;
图12示出了一种电子设备示意图。
具体实施方式
现在将参照若干示例性实施例来论述本发明的内容。应当理解,论述了这些实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容,而不是暗示对本发明的范围的任何限制。
如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。
目前,深度学习技术已经成为图像领域研究的热点方向,而将深度学习技术在抗干扰任务中的研究很少。一些技术中,检测级联网络中存在单帧候选目标提取和帧间级联性能严重制约抗干扰能力的问题,使得算法性能比较依赖于检测级联网络的准确率,如果检测级联网络的性能不好、计算力不足或训练效果不佳,则无法完成后续实际的分类任务。
一些相关技术中,受I3D(Inflated 3D,膨胀三维)网络和Faster RCNN(快速区域卷积神经网络)中RPN(Region Proposal Network,区域建议网络)的启发,在关键帧(有标签的帧)的周围提取一个较短的剪辑段(clip),首先将这个包含多帧图像的剪辑段通过I3Dhead的结构传递到Mixed_4f层,得到剪辑片段的特征图。然后对特征图在时间维上进行切分,获得关键帧的特征图表示,输入到RPN中,为图像中的目标提取检测框,由于RPN检测的区域只对应于关键帧,所以延时间复制检测框以形成相对应的动作通道。之后利用RoIPooling(Region of Interest Pooling,感兴趣区域池化)操作将每一帧的建议框映射到特征图上,并在时间上连接起来得到每个动作管道的区域特征图。最后将提取到的区域特征图利用I3D tail模块传递至Mixed_5c层,通过softmax输出分类结果。
但是,上述网络的一个核心思想在于利用关键帧中的建议框延时间复制生成动作管道(轨迹管道),这就包含了一个必要条件,即,要求物体在一个包含多帧图像的剪辑段内不能发生较大的空间位移。如果物体的空间位移较大,则延时间复制出的动作管道相对实际的动作管道会存在较大的误差,引发空间上物体定位偏差较大,时序信息特征提取不准,导致分类结果很差。
本发明研究的抗干扰任务中,目标和干扰在时序上的空间运动性较强,不能满足上述的必要条件。如果减少剪辑段内的图像数量,能够一定程度上弱化空间位移问题,但长期的事件依赖性是准确进行动作分类的关键,因此,选取过少的图像不足以描述物体的时序特征信息。
为了解决上述问题,本发明采用了基于空间渐进式学习的抗干扰网络,通过渐进式学习来解决问题。本发明采用的渐进式学习,是在输入误差较大的轨迹管道的条件下,逐渐地修正轨迹管道,使其与真是目标位置越来越近,完成在空间上的物体位置回归问题,同时在时序上进行拓展,在保证位置精度的基础上,尽可能地提取更多时间维度的物体轨迹管道,完成时序中的分类任务,而非通过一次直接检测出所有目标和干扰。此外,本发明的渐进式学习,网络不需以来于特定的目标检测框架,可一次性直接输出空间位置和分类结果。
为解决以上问题,针对检测级联网络中存在的单帧候选目标提取和帧间级联性能严重制约抗干扰能力的问题,本发明提出了端到端的基于时空渐进式的抗干扰算法,实现目标检测。本发明的方法从粗尺度的建议框开始,采用渐进式学习的思想,利用空间细化模块完成检测和级联任务,结合时序拓展模块,提取更多时序信息,提高分类准确率。本发明还可以采用注意力机制突出目标和干扰的时空特征和运动特征,进一步提高抗干扰的性能。实验结果表明,本发明的目标识别方法可达到96.3%的分类准确率,具备优异的抗干扰性能。
如图1所示,本发明实施例提供一种基于时空渐进式学习的抗干扰方法,可以包括步骤S11-S15,以下详细说明。
步骤S11,获取待检测目标的连续帧,其中,所述连续帧包括时间轴上连续的多帧图像。本发明中,可以通过红外或其他拍摄装置获取目标的图像。单帧的图像容易发生误识别的情况,因此采用连续帧的多帧图像,从而能够通过连续图像中判断目标,分别根据运动信息和图像信息进行识别。
在一些实施例中,抗干扰的数据中可以包含不同的干扰释放方式,如四连发、双发;也可以包含不同的目标运动方式,如转弯、加速等逃逸动作。抗干扰试验数据可以50组,每组数据可以是连续帧或视频,包括160帧图像,每帧图像大小可以归一化设置,如400×400像素。
步骤S12,生成初始的建议框。在一些实施例中,生成初始的建议框,包括:基于预设尺度和重叠度,生成初始的建议框。
步骤S13,基于当前建议框位置,预测相邻的建议框的位置,形成轨迹管道。
步骤S14,通过双分支网络,基于全局分支根据区域特征时空关系得到分类概率,并基于局部分支根据全局信息和局部信息确定回归框。
步骤S15,将分类概率最大的回归框替代建议框,更新轨迹管道。
本发明提供的时空渐进式学习网络采用I3D head作为特征提取网络,其中,I3D网络是在C3D(三维卷积)网络上改进的,相对于C3D网络,在卷积层和全连接层后加入BN(Batch Normalization,批量归一化)层,加速了训练过程,有效地解决了梯度弥散现象。I3D head网络结构可以如图2所示,截取了I3D网络的Conv3d_1a卷积层到Mixed_4f层,包含三个Conv3d卷积层,三个Max-Pool池化层和七个Inc.子结构。其中,Inc.子结构如图3所示,通过这样的设计,增加了网络的深度和宽度。在图像任务中,网络在进行池化操作时一般设置卷积核和步长的大小相同,表示平等地对待两个空间维度,但在时序任务中,需要考虑时间因素,如果时间维度相对空间增长过快,可能破坏物体的特征,比如合并两个物体的边缘信息,如果增长过慢,则不利于捕捉动态场景,因此在I3D head中对于前两个Max-Pool层中时间维度可以设为1,空间尺度可以为2×2。
设网络中最大的渐进步骤为Smax,一个剪辑片段It包含K帧图像,首先通过I3Dhead网络对
Figure BDA0003832696620000071
若干剪辑片段进行特征提取。设定初始生成M个建议框,沿时间轴复制生成初始的轨迹管道
Figure BDA0003832696620000072
本发明提供了一种渐进式学习的框架,如图4所示,其中S代表空间细化模块,T代表时序拓展模块,L代表位置回归定位,P代表分类概率,后面的数字代表步数。例如L0代表由初始的建议框沿时间复制生成的动作管道。如图4所示,图像序列首先经过backbone(主干)网络得到特征图F后,进入渐进式学习步骤。以第一步骤为例,L0是较大尺度下的动作轨道,与特征图F共同输入到RoI Pool中,得到区域特征图,在S1中外城一个多任务学习任务,包括动作分类与定位回归,输出第一步骤下的分类概率和轨道管道位置。但第一步骤下的分类和回归结果依然不够准确,因此把回归生成的轨迹管道L1输入到T1,T1中完成的是时序拓展任务,由当前的轨道管道位置向相邻的剪辑段拓展,作为新的建议轨迹管道,再输入第二步骤中。总之,网络通过渐进式学习,通过空间细化S不断修正回归的位置,使回归结果更加准确,通过时序拓展T尽可能包含更多时间维度,使时序分类结果更加准确。
在每一个渐进步骤中,网络的具体结构如图5所示,特征图和轨迹管道输入到RoIPool得到区域特征图后,进入一个双分支结构(双分支网络),其中,全局分支入图中GlobalBranch所示,对区域特征进行时空建模生成全局特征,用作动作分类。局部分支如图中Local Branch所示,将全局特征在每一帧上与对应的区域特征连接起来,形成局部特征,用于回归输出。
在本网络中,整个损失函数可以包括时序分类损失、当前剪辑段的回归损失、以及相邻剪辑段的预测回归损失。
损失函数可以如以下公式所示:
Figure BDA0003832696620000081
Figure BDA0003832696620000082
Figure BDA0003832696620000091
其中,Ps和Ns分别代表在第s步采样中选择的正样本集合和负样本集合,ui和u′i分别代表在不同管道内第i个采样样本真是的类别标签,vi和v′i分别代表在不同管道内第i个采样样本的目标框位置,l为调整分类和当前回归损失的权重,b为时序拓展预测回归损失的权重。其中,分类损失可以选择交叉熵损失函数,当前回归损失帧间的预测框和真实位置之间的l1,smooth损失,预测回归损失损失函数形式和当前回归损失相同,为相邻帧间的预测框和真实位置之间的l1,smooth损失。
本发明实施例中,可以设定一系列的尺度和重叠度生成初始的建议框。具体方式可以如下:
生成的一类初始建议框,建议框可以共9个,如图6所示,每个子图片中大框为初始建议框,小框为目标的真实位置。在网络的训练过程中,需要对初始的建议框进行筛选,选择正样本和负样本,计算损失函数。
需要平衡正负样本之间的数量,并尽可能选择难例负样本,从而提升训练效果。计算轨迹管道中K帧边界框的IoU(Intersection-over-Union,交并比)的平均值,通过平均IoU计算两个轨迹管道的重叠度。这样可以使分类分数较高的负样本更大概率被选中。在一些实施例中,在第s步,对于给定的一系列样本框,可以首先选择与真是框IoU最大的样本框作为正样本,保证每一个真实框至少有一个正样本。之后,在剩余样本中挑选IoU大于阈值ts的样本加入正样本池,最后剩余的其他样本加入负样本池。在正负样本池中按照分类得分进行抽样,分类得分越高则抽样概率越大。在第一步的采样过程中,采用IoU作为正负样本分类标准。
初始框的数量对于正负样本的采样也很重要,当一个动作管道内的包含的目标和干扰弹的数量较多,即真实框比较多时,正样本至少和真实框的数量保持一致,正负样本数比例可以设置为1:3。
本发明实施例中,可以选择包含不同尺度的34个初始建议框用于第一步的正负样本的选择。
在一些实施例中,步骤S13,基于当前建议框位置,预测相邻的建议框的位置,形成轨迹管道,包括:基于时序对建议框进行逐步时间扩展,其中,每一步s均满足1<s<Smax,且,包含K帧图像的轨迹管道Bs被扩展到
Figure BDA0003832696620000101
其中
Figure BDA0003832696620000108
表示连接;确定回归函数为Ls=f(x),其中f为输入、x为特征,预测位置的公式为:
Figure BDA0003832696620000102
其中,f-1和f+1为回归量;基于预测位置的公式,确定相邻的轨迹管道
Figure BDA0003832696620000103
Figure BDA0003832696620000104
本发明实施例中,基于时序对建议框逐步扩展,从而保证了扩展后的轨迹管道可靠性,避免了目标和干扰的空间位移问题。时序拓展的过程具体可以如下:
对物体的轨迹管道进行了拓展。但时序的拓展不能简单地随时间复制建议框,考虑到抗干扰任务中目标和干扰的空间位移问题,应逐步自适应地进行时间拓展。对于每一步s满足1<s<Smax,包含K帧图像的轨迹管道Bs被扩展到
Figure BDA0003832696620000105
Figure BDA0003832696620000106
其中
Figure BDA0003832696620000109
表示连接。
本发明可以采用位置预测来实现自适应的时间拓展,训练一个额外的回归分支,根据当前剪辑片段的轨迹管道位置来预测相邻管道的位置。这个回归分支主要学习的是两个相邻片段管道之间的残差。设在第s步,回归函数为Ls=f(x),其中x为回归网络输入f的特征,则预测的位置可以如公式所示:
Figure BDA0003832696620000107
其中,f-1和f+1为回归量,由此可解码出
Figure BDA0003832696620000111
Figure BDA0003832696620000112
在一些实施例中,步骤S14,通过双分支网络,基于全局分支根据区域特征时空关系得到分类概率,并基于局部分支根据全局信息和局部信息确定回归框,包括:将轨迹管道经映射到特征图生成的区域特征输入双分支网络;基于全局分支,对区域特征进行时空建模,得到分类概率;基于局部分支,融合全局信息和局部信息,结合建议框的位置得到更新后的回归框。
本发明实施例中,可以通过双分支网络对建议框进行更新,得到更加精确的更新后的回归框。具体方式可以如下:
输入为当前步骤的动作管道经RoI Pool映射到特征图生成的区域特征Pool-Feat。
全局分支(Global Branch)对区域特征进行时空建模,负责时序分类任务。具体过程可以为,将Pool-Feat输入到时序建模模块,即图5中的Temporal modeling结构,具体由I3D的mixed_5b、mixed_5c、mixed_5d以及Conv3d卷积层组成,由此生成全局特征Global-Feat。对Global-Feat做拉直处理,对整个动作管道中的上下文信息编码,经dropout层输入分类卷积层,输出分类概率。
局部分支(Local Branch)融合全局信息和局部信息,负责物体检测框的回归。具体过程可以为,将区域特征Pool-Feat和全局特征Global-Feat连接起来,在每一帧上生成局部特征Local-Feat,将Local-Feat输入到回归模块,回归模块由几个Bottleneck(瓶颈层)级联后接入下采样层组成,最后输出回归框的偏差值,结合建议框的位置解码出更新后的建议框。
在一些实施例中,步骤S15,将分类概率最大的回归框替代建议框,更新轨迹管道,包括:基于以下公式更新轨迹管道:
Figure BDA0003832696620000121
其中,c代表分类类别,
Figure BDA0003832696620000122
代表第i个建议框在c个类别和背景类上的概率分布,
Figure BDA0003832696620000123
代表在每个类每帧上的边界框回归参数,
Figure BDA0003832696620000124
代表对坐标进行解码。
在一些实施例中,双分支网络中包括注意力机制模块。从而进一步提升了网络的性能。
在一些实施例中,注意力机制模块包括时空注意力模块、通道注意力模块以及运动注意力模块,其中,基于时空注意力模块,突出目标的特征信息;基于通道注意力模块,增强网络卷积通道在时序上的相关性;基于运动注意力模块,突出目标的运动信息。
本发明实施例中,可以在网络中融入注意力机制,具体方式可以如下:
在抗干扰任务中,输入的图像序列信息经3D卷积网络后得到的特征图大小为I(N,T,C,H,W),其中N代表批次,T代表序列图像的特征分组数,C代表听到书,H、W分别代表特征图的高和宽。3D卷积网络虽然具有一定的时空建模能力,但注意力机制能够让网络更加关注到更加重要的信息,如不同片段之间的空间位移信息、目标的时空信息等。
时空注意力模块(STE)的结构基本思想和传统的时空注意力模块类似,可以理解为让神经网络看哪里,以突出物体的特征信息。该模块借鉴残差网络的思想,经过网络生成单通道上的时空信息掩码,与原输入相乘得到被激发的特征,加回原输入作为模块的输出。时空注意力模块中的特征
Figure BDA0003832696620000125
为跨通道平均、模块的输入X中的而每一个通道都能从掩码M中获取时空信息的重要性。
时空注意力模块输入特征X(N,T,C,H,W),对所有通道做全局平均池化,得到全局时空特征F(N,T,C,H,W),调整特征F(N,T,1,H,W)维度为F*(N,1,T,H,W),输入3D卷积层K中,得到特征
Figure BDA0003832696620000131
调整
Figure BDA0003832696620000132
维度为Fo(N,T,1,H,W),输入Sigmoid激活函数,输出权重系数M=d(F0),时空注意力模块输出结果:Y=X+X⊙M,输出加注意力后的特征Y(N,T,C,H,W)。
通道注意力模块(CE)的结构可以类似于SE-Net(Squeeze-and-ExcitationNetworks,压缩激励网络)中的通道注意力机制。卷积网络的每一层的卷积核数量很大,导致特征图的通道数比较大,通道注意力机制主要是对各个卷积通道之间的资源再分配的过程。通道注意力模块可以采用残差的思想,通过掩码突出通道特征后,加回原输入中作为输出。
通道注意力可以通过两个1×1的2D(二维)卷积分别对通道进行压缩和还原,中间接入一个1D(一维)卷积,来增强通道在时序上的相关性。具体来说,输入特征X(N,T,C,H,W),在空间维度做平均池化,压缩特征图的维度,获取输入特征的全局信息F:
Figure BDA0003832696620000133
输入2D卷积层K1,压缩通道数,得到特征
Figure BDA0003832696620000134
Fh=K1*F。调整
Figure BDA0003832696620000135
的维度为
Figure BDA0003832696620000136
输入1D卷积层K2得到特征
Figure BDA0003832696620000137
Figure BDA0003832696620000138
调整
Figure BDA0003832696620000139
维度为
Figure BDA00038326966200001310
输入2D卷积层K3扩展通道数,得到Fo:Fo=K3*Ftmp
输入Sigmoid激活函数,输出权重系数M=d(F0);通道注意力模块输出结果:Y=X+X⊙M,输出加注意力后的特征Y(N,T,C,H,W)。
运动注意力模块的结构可以主要是针对时序中的运动问题,对于I(N,T,C,H,W),其中T实际啥那个代表的事3D卷积后若干张图像在时间维度上的融合的通道数,通过对T维度的拆分,可以让网路学习到不同特征之间的差异。运动注意力关注的相邻的片段特征之间的残差,突出运动信息。输入特征X(N,T,C,H,W),输入到2D卷积层K1,压缩通道数,得到特征
Figure BDA0003832696620000141
沿T维划分T段:
Figure BDA0003832696620000142
分别将Fht输入到2D卷积层K2中,与上一层的Fh(t-1)相减,得到特征Fm:Fm=K2*Fh(t+1)-Fht
将所有相邻的Fm连接到一起,得到FM;输入空间池化层,得到特征
Figure BDA0003832696620000143
输入2D卷积层,对通道升维,得到特征Fo(N,T,C,1,1);输入Sigmoid激活函数,输出权重系数M=d(F0);运动注意力模块输出结果:Y=X+X⊙M,输出加注意力后的特征Y(N,T,C,H,W)。
本发明实验环境为:操作系统为Ubuntu16.04,CPU为Inter(R)Core(TM)i7-6850k,内存为64G,GPU为NVIDIA GTX 2080Ti,采用PyTorch和Keras深度学习框架,python3.6编程语言。
设置最大渐进学习步骤为3步,每一步的分类阀值分别为0.2、0.35、0.5。设置批大小batch size为2,训练轮次epoch为16,骨干网络I3D head的初始学习率为5×10-6,全局和局部分支网络的初始学习率为5×10-5,在第6个epoch后衰减为一般直至训练结束。采用随机裁剪,擦除等数据增强方式,仅在第三步使用时序扩展。设置损失函数中分类权重为1,当前剪辑片段的回归损失权重为5,预测剪辑片段的回归损失权重为1。
如图7所示为渐进式学习网络在第一步和第三步下的损失函数收敛图。三角标志的曲线为第一步下的损失函数收敛曲线,矩形标志的曲线为第三步下的损失函数收敛曲线。从图中可以看出,三角标志曲线在训练开水时的loss比较大,在训练过程中曲线比较震荡,矩形标志曲线则相对更加平滑。分析原因,在第一步时,输入网络建议框尺度较大,与真实的目标框差距很大,因此loss比较大。经过网络的渐进式学习,逐步地细化了建议框,回归的损失变小,在网络训练前期第三步的损失大于第一步的损失,这是因为第三步中由于时序扩展包含了位置预测的回归损失,而在第一步中,并未进行时序拓展。这说明了本发明采用的渐进式学习网络很好地学会了从一个粗尺度的建议框逐步向精细的建议框的转化。
为说明渐进式学习的作用,本发明对目标在三步中的输出结果做局部放大后可视化,如图8所示。其中第一列到第三列依次为第一步到第三步的检测结果,每一行为一个图像序列中的三帧,每帧中最上方的检验框表示目标,其余框表示干扰弹。从图8中第一行图像可知,经过三次渐进式学习,目标的检测框越来越接近于真实位置,其分类置信度也越来越高,第一步中置信度为0.53,第二步中置信度为0.78,第三步中置信度为0.98。这说明网络通过渐进式学习逐步细化物体的空间位置,提高了分类置信度。第二行图像中在第一步时对目标的检测出现了干扰,一个红色检测框检测其为目标的置信度为0.65,另一个黄色检测框检测其为干扰弹的置信度为0.54,但随着网络的渐进式学习,在第二步中去除了错误的分类结果,说明网络可以通过渐进式学习有效提高抗干扰分类的准确率。
如图9所示,大框为网络在第一步输入的初始建议框,小框为网络的最终输出结果,这说明网络虽然从尺度比较大的建议框开始学习,但最终对于抗干扰任务中的尺度较小的目标和干扰弹仍然有比较好的作用。
如图10所示为网络在三个序列图像上的检测结果图,其中每帧最右上方框表示目标,其余框表示干扰弹,时间轴方向为从左至右。第一行序列图像中目标做转弯动作,第二行序列图像中目标做加速动作,第三行序列图像中目标做逃逸动作。从图中可以看出,在三种目标机动的条件下,网络都表现出了良好的检测分类性能。
本发明关于注意力机制做了对比实验,采用分类准确率作为评价指标,实验结果如表1所示,从表1中看出,添加注意力机制后,分类准确率从94.2%提升到96.3%,证明注意力机制模块能够突出目标和干扰的特征,进一步提高网络性能。
表1:
抗干扰算法 分类准确率
STP 94.2%
STP+MA 96.3%
本发明与先通过检测级联网络获取物体的动作管道,再利用1DCNN和CLSTM的双分支网络完成抗干扰任务的方法做了对比。该方法与本发明的实验结果对比如表2所示。
表2:
抗干扰算法 分类准确率
DC-1DCNN-CLSTM 93.3%
STP+MA 96.3%
从表2中可以看出本发明设计的算法的分类准确率高于采用1DCNN和CLSTM的双分支网络完成抗干扰任务的方法算法。在DC-1DCNN-CLSTM方法中,将抗干扰任务分为了两个阶段,首先利用检测级联网络提取轨迹管道,然后再在轨迹管道上做分类任务,在第二阶段的分类任务中对时序信息的提取主要依靠CNN+LSTM结构。本发明采用3D卷积网络,并加入注意力机制,其对时空信息的表达能力要优于CNN+LSTM。本发明算法可实现端到端的训练,从初始生成的建议框就可回归出物体的位置,不需依赖于检测器和级联器。
综合以上分析,本发明提出的基于时空渐进式学习的抗干扰算法在网络的内部完成物体的检测和级联,不依赖于特定检测级联框架。算法从预设的若干个大尺度随机生成的建议框开始,利用空间细化模块在每一步中细化检测框,利用时序拓展模块获取更多的时序信息,提高了抗干扰分类准确率。同时融入注意力机制,突出目标和干扰的特征,进一步提高了抗干扰算法的性能。
1、本发明提出了一种基于时空渐进式学习的抗干扰方法,在空间上定位出物体位置信息,在时间上分类出物体的类别信息,针对检测级联网络性能严重制约抗干扰能力的问题,将动作分类网络应用到抗干扰任务中。
2、本发明不依赖于检测级联框架,而是从初始生成的粗尺度的若干个建议框,渐进式地回归物体的位置,将上一步回归的物体检测框作为下一步的物体建议框,逐步实现空间细化,同时在第三步时进行时序上的拓展,包含更多的时间信息,使分类结果更加准确。
3、本发明采用了时空注意力、通道注意力、运动注意力结合的注意力模块,突出了物体的时空特征和运动特征,将其插入I3Dhead网络结构中,进一步提高了网络的性能。
基于同一发明构思,如图11所示,本发明还提供一种基于时空渐进式学习的抗干扰装置100,包括:获取单元110,用于获取待检测目标的连续帧,其中,连续帧包括时间轴上连续的多帧图像;建议框生成单元120,用于生成初始的建议框;时空拓展单元130,用于基于当前建议框位置,预测相邻的建议框的位置,形成轨迹管道;空间细化单元140,用于通过双分支网络,基于全局分支根据区域特征时空关系得到分类概率,并基于局部分支根据全局信息和局部信息确定回归框;更新轨迹单元150,用于将分类概率最大的回归框替代建议框,更新轨迹管道。
在一些实施例中,建议框生成单元120采用以下方式生成初始的建议框:基于预设尺度和重叠度,生成初始的建议框。
在一些实施例中,时空拓展单元130采用以下方式形成轨迹管道:基于时序对建议框进行逐步时间扩展,其中,每一步s均满足1<s<Smax,且,包含K帧图像的轨迹管道Bs被扩展到
Figure BDA0003832696620000181
其中
Figure BDA00038326966200001810
表示连接;确定回归函数为Ls=f(x),其中f为输入、x为特征,预测位置的公式为:
Figure BDA0003832696620000182
Figure BDA0003832696620000183
其中,f-1和f+1为回归量;基于预测位置的公式,确定相邻的轨迹管道
Figure BDA0003832696620000184
Figure BDA0003832696620000185
在一些实施例中,空间细化单元140采用以下方式通过双分支网络,基于全局分支根据区域特征时空关系得到分类概率,并基于局部分支根据全局信息和局部信息确定回归框:将轨迹管道经映射到特征图生成的区域特征输入双分支网络;基于全局分支,对区域特征进行时空建模,得到分类概率;基于局部分支,融合全局信息和局部信息,结合建议框的位置得到更新后的回归框。
在一些实施例中,更新轨迹单元150通过以下方式将分类概率最大的回归框替代建议框,更新轨迹管道:基于以下公式更新轨迹管道:
Figure BDA0003832696620000186
其中,c代表分类类别,
Figure BDA0003832696620000187
代表第i个建议框在c个类别和背景类上的概率分布,
Figure BDA0003832696620000188
代表在每个类每帧上的边界框回归参数,
Figure BDA0003832696620000189
代表对坐标进行解码。
在一些实施例中,双分支网络中包括注意力机制模块。
在一些实施例中,注意力机制模块包括时空注意力模块、通道注意力模块以及运动注意力模块,其中,基于时空注意力模块,突出目标的特征信息;基于通道注意力模块,增强网络卷积通道在时序上的相关性;基于运动注意力模块,突出目标的运动信息。
关于上述实施例中的基于时空渐进式学习的抗干扰装置100,其中各个单元执行操作的具体方式已经在有关基于时空渐进式学习的抗干扰方法的实施例中进行了详细描述,此处将不做详细阐述说明。
如图12所示,本发明的一个实施方式提供了一种电子设备400。其中,该电子设备400包括存储器401、处理器402、输入/输出(Input/Output,I/O)接口403。其中,存储器401,用于存储指令。处理器402,用于调用存储器401存储的指令执行本发明实施例的目标识别方法。其中,处理器402分别与存储器401、I/O接口403连接,例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器401可用于存储程序和数据,包括本发明实施例中涉及的目标识别方法的程序,处理器402通过运行存储在存储器401的程序从而执行电子设备400的各种功能应用以及数据处理。
本发明实施例中处理器402可以采用数字信号处理器(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现,所述处理器402可以是中央处理单元(Central Processing Unit,CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。
本发明实施例中的存储器401可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory,RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)等。
本发明实施例中,I/O接口403可用于接收输入的指令(例如数字或字符信息,以及产生与电子设备400的用户设置以及功能控制有关的键信号输入等),也可向外部输出各种信息(例如,图像或声音等)。本发明实施例中I/O接口403可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。
可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本发明实施例涉及的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。
此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。
出于示例和描述的目的,已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所发明的确切形式,根据上述教导还可能存在各种变形和修改,或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

Claims (10)

1.一种基于时空渐进式学习的抗干扰方法,其特征在于,所述基于时空渐进式学习的抗干扰方法包括:
获取待检测目标的连续帧,其中,所述连续帧包括时间轴上连续的多帧图像;
生成初始的建议框;
基于当前建议框位置,预测相邻的建议框的位置,形成轨迹管道;
通过双分支网络,基于全局分支根据区域特征时空关系得到分类概率,并基于局部分支根据全局信息和局部信息确定回归框;
将分类概率最大的回归框替代建议框,更新轨迹管道。
2.根据权利要求1所述的基于时空渐进式学习的抗干扰方法,其特征在于,所述生成初始的建议框,包括:基于预设尺度和重叠度,生成初始的建议框。
3.根据权利要求1所述的基于时空渐进式学习的抗干扰方法,其特征在于,所述基于当前建议框位置,预测相邻的建议框的位置,形成轨迹管道,包括:
基于时序对建议框进行逐步时间扩展,其中,每一步s均满足1<s<Smax,且,包含K帧图像的轨迹管道Bs被扩展到
Figure FDA0003832696610000011
其中
Figure FDA0003832696610000015
表示连接;
确定回归函数为Ls=f(x),其中f为输入、x为特征,预测位置的公式为:
Figure FDA0003832696610000012
其中,f-1和f+1为回归量;
基于所述预测位置的公式,确定相邻的轨迹管道
Figure FDA0003832696610000013
Figure FDA0003832696610000014
4.根据权利要求1-3任一项所述的基于时空渐进式学习的抗干扰方法,其特征在于,所述通过双分支网络,基于全局分支根据区域特征时空关系得到分类概率,并基于局部分支根据全局信息和局部信息确定回归框,包括:
将所述轨迹管道经映射到特征图生成的区域特征输入所述双分支网络;
基于所述全局分支,对所述区域特征进行时空建模,得到所述分类概率;
基于所述局部分支,融合全局信息和局部信息,结合所述建议框的位置得到更新后的回归框。
5.根据权利要求4所述的基于时空渐进式学习的抗干扰方法,其特征在于,所述将分类概率最大的回归框替代建议框,更新轨迹管道,包括:
基于以下公式更新轨迹管道:
Figure FDA0003832696610000021
其中,c代表分类类别,
Figure FDA0003832696610000022
代表第i个建议框在c个类别和背景类上的概率分布,
Figure FDA0003832696610000023
代表在每个类每帧上的边界框回归参数,
Figure FDA0003832696610000024
代表对坐标进行解码。
6.根据权利要求4所述的基于时空渐进式学习的抗干扰方法,其特征在于,所述双分支网络中包括注意力机制模块。
7.根据权利要求6所述的基于时空渐进式学习的抗干扰方法,其特征在于,所述注意力机制模块包括时空注意力模块、通道注意力模块以及运动注意力模块,其中,
基于所述时空注意力模块,突出目标的特征信息;
基于所述通道注意力模块,增强网络卷积通道在时序上的相关性;
基于所述运动注意力模块,突出目标的运动信息。
8.一种基于时空渐进式学习的抗干扰装置,其特征在于,所述基于时空渐进式学习的抗干扰装置包括:
获取单元,用于获取待检测目标的连续帧,其中,所述连续帧包括时间轴上连续的多帧图像;
建议框生成单元,用于生成初始的建议框;
时空拓展单元,用于基于当前建议框位置,预测相邻的建议框的位置,形成轨迹管道;
空间细化单元,用于通过双分支网络,基于全局分支根据区域特征时空关系得到分类概率,并基于局部分支根据全局信息和局部信息确定回归框;
更新轨迹单元,用于将分类概率最大的回归框替代建议框,更新轨迹管道。
9.一种电子设备,其中,所述电子设备包括:
存储器,用于存储指令;以及
处理器,用于调用所述存储器存储的指令执行如权利要求1-7任一项所述的基于时空渐进式学习的抗干扰方法。
10.一种计算机可读存储介质,其中存储有指令,所述指令被处理器执行时,执行如权利要求1-7任一项所述的基于时空渐进式学习的抗干扰方法。
CN202211080203.7A 2022-09-05 2022-09-05 一种基于时空渐进式学习的抗干扰方法及装置 Pending CN115620125A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211080203.7A CN115620125A (zh) 2022-09-05 2022-09-05 一种基于时空渐进式学习的抗干扰方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211080203.7A CN115620125A (zh) 2022-09-05 2022-09-05 一种基于时空渐进式学习的抗干扰方法及装置

Publications (1)

Publication Number Publication Date
CN115620125A true CN115620125A (zh) 2023-01-17

Family

ID=84857924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211080203.7A Pending CN115620125A (zh) 2022-09-05 2022-09-05 一种基于时空渐进式学习的抗干扰方法及装置

Country Status (1)

Country Link
CN (1) CN115620125A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797789A (zh) * 2023-02-20 2023-03-14 成都东方天呈智能科技有限公司 基于级联检测器的水稻害虫监测系统、方法和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797789A (zh) * 2023-02-20 2023-03-14 成都东方天呈智能科技有限公司 基于级联检测器的水稻害虫监测系统、方法和存储介质

Similar Documents

Publication Publication Date Title
CN107688821B (zh) 基于视觉显著性与语义属性跨模态图像自然语言描述方法
Sadeghian et al. Sophie: An attentive gan for predicting paths compliant to social and physical constraints
Yoon et al. Online multiple pedestrians tracking using deep temporal appearance matching association
Yang et al. Online multi-object tracking using multi-function integration and tracking simulation training
Lei et al. Region-enhanced convolutional neural network for object detection in remote sensing images
CN109766557B (zh) 一种情感分析方法、装置、存储介质及终端设备
Das et al. Deep learning for military image captioning
CN109033321B (zh) 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
Wibowo et al. Collaborative learning based on convolutional features and correlation filter for visual tracking
CN115620125A (zh) 一种基于时空渐进式学习的抗干扰方法及装置
Wang et al. Detection and tracking based tubelet generation for video object detection
Fu et al. A case study of utilizing YOLOT based quantitative detection algorithm for marine benthos
CN113378919B (zh) 融合视觉常识和增强多层全局特征的图像描述生成方法
CN116955616A (zh) 一种文本分类方法及电子设备
EP4030352A1 (en) Task-specific text generation based on multimodal inputs
CN113627245B (zh) Crts目标检测方法
Zhu et al. Confusion region mining for crowd counting
Xie et al. Dynamic Dual-Peak Network: A real-time human detection network in crowded scenes
Yang et al. Visual Skeleton and Reparative Attention for Part-of-Speech image captioning system
CN114821356A (zh) 一种精确定位的光学遥感目标检测方法
Xiao 3D feature pyramid attention module for robust visual speech recognition
Runyu Pedestrian detection based on SENet with attention mechanism
Xiang et al. An object detection algorithm combining FPN structure with DETR
Li et al. A fast detection method for polynomial fitting lane with self-attention module added
Yuan et al. Self-supervised discriminative model prediction for visual tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination