CN112966659B - 一种基于深度学习的视频图像小目标检测方法 - Google Patents

一种基于深度学习的视频图像小目标检测方法 Download PDF

Info

Publication number
CN112966659B
CN112966659B CN202110345772.9A CN202110345772A CN112966659B CN 112966659 B CN112966659 B CN 112966659B CN 202110345772 A CN202110345772 A CN 202110345772A CN 112966659 B CN112966659 B CN 112966659B
Authority
CN
China
Prior art keywords
scale
target
detection
branches
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110345772.9A
Other languages
English (en)
Other versions
CN112966659A (zh
Inventor
邱雁成
邹勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beiwan Technology Wuhan Co ltd
Original Assignee
Beiwan Technology Wuhan Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beiwan Technology Wuhan Co ltd filed Critical Beiwan Technology Wuhan Co ltd
Priority to CN202110345772.9A priority Critical patent/CN112966659B/zh
Publication of CN112966659A publication Critical patent/CN112966659A/zh
Application granted granted Critical
Publication of CN112966659B publication Critical patent/CN112966659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的视频图像小目标检测方法。主要用于在视频图像中检测小目标,构建了一种层次化尺度敏感的深度卷积神经网络模型,它摒弃了锚框机制和区域提议机制,采用了类似多任务学习的三分支并行检测架构。利用小、中、大三个尺度的目标在不同深度的基础卷积特征中的表达差异性,产生三种对应不同尺度性质的融合特征,使用三个并行分支在这三种融合特征上分别检测三个尺度范围的目标。使用层次化多尺度训练机制使得三个并行检测分支互相独立、互不干扰地运行,极大提高了对小目标的检测能力,并能稳定地在目标尺度范围变化复杂的场景下使用。其对偶方向矢量机制来预测倾斜框的姿态,有效提升了对小目标的检测性能。

Description

一种基于深度学习的视频图像小目标检测方法
技术领域
本发明涉及计算机视觉和视频图像智能分析领域,具体涉及一种基于深度学习的视频图像小目标检测方法。
背景技术
随着深度学习技术在计算机视觉领域的迅猛发展,其对目标检测的能力越来越强。目标检测任务中,有些目标的像素面积非常小,如小于30×30像素,一般被称为小目标。小目标检测是一项非常具有挑战性的任务。但在实际应用中,小目标检测具有非常广泛的需求,例如无人机航拍影像中车辆的检测、遥感影像中篮球场的检测、显微图像中细胞的检测等。随着无人机、遥感卫星、显微成像技术的快速发展,高精度的小目标检测技术已成为越来越迫切的需求。
通常,目标检测技术是在视频图像中用一组方框将目标标示出来。传统的方法都是首先手工设计特征,然后通过提取的手工特征构造模板得到特征向量,最后使用AdaBoost或者SVM训练分类器。这样构建的目标检测器往往性能很差,因为采集数据时对光照条件、气象条件和拍摄姿态的影响非常敏感,成像效果差别非常大,手工设计的特征鲁棒性非常低,使得目标检测的精度较低,而面对小目标检测时,其误检率更高、检出率更低。
近年来,深度神经网络的应用在目标检测领域取得了非常惊人的成果。与传统方法相比,基于深度卷积神经网络目标检测算法在通用目标检测任务上的性能提高了60%之多,并且仍在不断上升。然而,小目标检测仍然面临许多困难和挑战。在同一幅图像中,就同一种目标来说,有的目标像素面积可能非常大,而有的目标可能很小,且可能呈现为纤细的长条形,如船舶,它们的尺度变化范围非常广。小目标通常占据很少的像素面积,在图像上显现为一小团像素块,朝向可以为任意方向,容易混杂在背景信息中,也给小目标检测带来了巨大困难。总的来说,小目标检测面临面积小、尺度多变和方向多变等问题。
本发明针对小目标检测的难题,发明了一种基于深度学习的小目标检测方法,解决视频图像小目标检测的多尺度、多方向等难题。
发明内容
为解决上述背景技术中存在的问题,本发明实例提出一种基于深度学习的小目标检测方法,包含一种层次化尺度敏感的小目标检测网络设计架构,和一种能增强卷积网络尺度敏感性的多尺度训练机制。
本发明的技术方案包含以下步骤:
步骤S1,制作训练样本构建数据集,所述数据集中图片为包含待检测类别目标的影像,且目标具有不同的尺度,需包含大尺度(如大于90×90像素),小尺度(如小于30×30像素),以及中尺度(介于小尺度和大尺度之间),对图像中的目标使用倾斜框标注。
步骤S2,构建神经网络检测模型,该模型分为三部分:基础特征提取模块,特征融合模块、方框检测模块。其中,在基础特征提取模块之后,网络分成了三个分支,每个分支包含独立的特征融合模块和方框检测模块,三个分支分别检测大、中、小三个尺度的目标。
步骤S3,构建层次化多尺度训练机制,使用S1构建的数据集对步骤S2构建的检测模型进行训练。该训练机制使S2所构建的模型中各尺度分支互相独立、互不影像地预测各自尺度范围内的目标。
步骤S4,利用步骤S3训练好的模型在视频图像中检测目标。
进一步地,上述步骤S1具体如下。
步骤S1-1,在视频图像数据系统中,选择不同场景的含有待检测目标的场景,收集M张样本图像。
步骤S1-2,使用标注软件将M张图像中的全部待检测目标以倾斜矩形框的方式标注出来,得到M张图像对应的标签数据。
进一步地,上述步骤S2所述神经网络模型包括基础特征提取模块、特征融合模块和方框检测模块3个组成部分。本发明所设计地神经网络架构如图1所示,具体如下。
步骤S2-1,基础特征提取模块由深度卷积网络以残差堆叠的方式构成。本发明使用Resnet50作为基础特征提取模块的网络结构。第1层和第2层是conv1,第3至11层是conv2_x,第12至23层是conv3_x,第24至41层是conv4_x,第41至50层是conv5_x。输入图像的分辨率为H×W,则conv2_x至conv5_x输出的基础卷积特征的分辨率分别为
Figure GDA0003045431130000031
Figure GDA0003045431130000032
分别称为C2、C3、C4和C5。选择这4个基础卷积特征构成基础特征金字塔,作为基础特征提取模块的输出。
步骤S2-2,特征融合模块分为三个分支,每个分支选取特定的基础特征融合得到单层特征,如图3所示。小尺度分支选取C3、C4、C5以自顶向下的方式融合得到P3,再经过3层转置卷积得到F3,F3的分辨率为H×W;中尺度分支选取C2、C3、C4以自底向上的方式融合得到P4,再经过2层转置卷积得到F4,F4的分辨率为
Figure GDA0003045431130000033
大尺度分支选取C3、C4、C5以自底向上的方式融合得到P5,再经过2层转置卷积得到F5,F5的分辨率为
Figure GDA0003045431130000034
步骤S2-3,方框检测模块接收特征融合模块输出的融合特征,检测每个分支范围内的待检测目标。每个分支的方框检测网络结构相同。但是它们的参数不同。检测模块接收融合特征后,分别输入4个卷积网络,输出4个张量。每个卷积网络都由两个卷积层构成,每层的卷积核都为3×3,步长为1,第一层的卷积核数量都为256,第二层的卷积核数量则不尽相同。第一个网络输出的张量表示目标的中心点热力图,通道数为C,C为所预测的目标类别;第二个网络输出的张量表示目标的中心点量化补偿,通道数为2;第三个网络输出的张量表示目标的方框宽高值,通道数2×C;第四个网络输出的张量表示目标的方框姿态,通道数为4。经过后处理,中心点量化补偿、方框宽高值和方框姿态张量会转换为向量,向量的长度表示可以预测目标的最大数量。从中心点热力图可以提取所预测目标的中心点坐标和类别。中心偏移向量会修正中心点坐标使其更为精确,再结合方框的宽高值和方框姿态就能获得倾斜矩形框的坐标。
步骤S2-4,每个尺度分支预测各自尺度范围内的目标,在训练时,模型计算过程到此结束;在测试时,还要使用后处理过程将三个尺度分支的预测结果合并,使用非极大值抑制算法去除重复的预测框。
进一步地,步骤3是本发明提出的层次化多尺度训练机制。该训练机制可以使步骤2所构建的模型中各尺度分支互相独立、互不影像地预测各自尺度范围内的目标,具体过程如下所述。
将训练数据的标注分为三组,分表为小尺度、中尺度、大尺度的目标的标注。小尺度检测分支输入的融合特征分辨率为H×W,小尺度目标训练标签的坐标保持不变;中尺度分支的分辨率为
Figure GDA0003045431130000041
中尺度目标训练标签的坐标缩小为
Figure GDA0003045431130000042
大尺度分支的分辨率为
Figure GDA0003045431130000043
大尺度目标训练标签的坐标缩小为
Figure GDA0003045431130000044
每个分支中,中心点热力图使用改进的focal loss监督训练;中心点偏移补偿使用L1损失函数训练;方框的尺寸,既宽度和高度,也是使用L1损失函数训练;方框的姿态,具体来说就是对偶方向矢量,使用L1损失和几何损失共同监督训练。将所列4项加权求和得到每个分支的损失函数。
最后,将三个分支的损失函数加总求和,便得到整个模型总的损失函数。
进一步地,以步骤3方式训练步骤2构建的神经网络,得到收敛的检测模型。使用该检测模型和适当的后处理过程即可在测试图像中检测待检测的目标,具体过程如下。
步骤4-1,将待检测图像输入到模型中,则三个检测分支分别预测三个尺度范围内的目标。每个检测分支都会输出4个张量,分别为中心热力图张量、中心偏移张量、方框宽高张量和方框姿态张量。
步骤4-2,对中心热力图使用一个3×3最大池化层抑制非极大值。接着,在每个分支的中心热力图中选择前100个峰值,峰值所在的平面坐标即为中心点坐标,峰值所在通道坐标即为类别,峰值本身表示检测为目标的置信度得分。
步骤4-3,通过峰值所在平面坐标找到中心偏移张量和方框宽高向量对应坐标的值,即为同一目标的中心点偏移值和方框的宽高值。
步骤4-4,通过峰值所在平面坐标找到方框姿态张量对应坐标的值,它是该目标方框的对偶方向矢量。假设预测的对偶方向矢量为
Figure GDA0003045431130000045
则取
Figure GDA0003045431130000046
为预测结果。
步骤4-5,将同一目标的中心点坐标、中心点偏移量、方框的宽度和高度、方框的对偶方向矢量在原始图像坐标系上转换为方框坐标。
步骤4-6,将三个尺度分支的检测结果合并,然后使用非极大值抑制算法去除重复的检测框。
基于同一构思,本发明还涉及一种电子设备,包括:一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述方法。
基于同一构思,本发明还涉及一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现上述任一所述方法任一所述的方法。
本发明的优点:
1.本发明设计了一种新型的基于卷积神经网络的尺度敏感的小目标检测模型。该模型摒弃了常见的锚框机制和区域提议机制,大幅降低了模型的硬件开销,并提升了模型的检测速度。在此基础上,本发明使用了类似多任务学习的架构,将总的检测任务分解为小尺度目标检测、中尺度目标检测、大尺度目标检测三个子任务。本发明设计的检测模型使用三个并行分支分别执行三个子任务。三个分支使用独立的特征融合策略,使得每个分支具有很好的尺度敏感性。因而本发明所设计的小目标检测模型具有非常高的检测精度。
2.本发明使用了层次化多尺度训练机制,结合分尺度并行三分支的网络结构设计,使得每个分支在检测各自尺度范围的目标时互相独立、互不干扰。因而本发明所设计的模型在小目标检测和多尺度目标检测两种特定场景下都具有突出的性能表现。
3.本发明使用了对偶方向矢量的机制来表示目标的姿态。这种表示机制具有更强鲁棒性,可以显著提高检测检测的精确度。
附图说明
图1是本发明实例的神经网络模型架构图。
图2是本发明实例所提模型中基础特征提取模块的示意图。
图3是本发明实例所提模型中特征融合模块的示意图。
图4是本发明实例所提模型中方框预测模块的示意图。
图5是本发明实例的层次化多尺度训练机制的示意图。
图6是本发明的工作流程图。
具体实施方式
为使本发明实施方式的目的、技术方案和和特点说明更加清楚,下面结合本发明的附图,对本发明实施方式中的技术方案进行清晰、完整地描述。显然,所描述的实施方式是本发明实施方法中的一部分,而不是全部。本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都属于本发明保护的范围。因此,以下对在本发明附图中所提供的消息描述并非旨在限制要求本发明的保护范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都属于本发明保护的范围。
本发明提供的方法设计了一种新型的基于深度学习的小目标检测模型,并提出了一种层次化多尺度训练机制和一种预测倾斜框姿态的对偶方向矢量机制。目标检测总体架构参见图1,模型的基础特征提取模块参见图2,模型的特征融合模块参见图3,模型的方框预测模块参见图4,层次化多尺度训练机制参见图5。本发明的具体实施流程参见图3,包含以下步骤。
步骤S1,制作训练样本构建数据集,所述数据集中图片为包含待检测类别目标的影像,且目标具有不同的尺度,需包含大尺度(如大于90×90像素),小尺度(如小于30×30像素),以及中尺度(介于小尺度和大尺度之间),对图像中的目标使用倾斜框标注。
步骤S2,构建神经网络检测模型,该模型分为三部分:基础特征提取模块,特征融合模块、方框检测模块。其中,在基础特征提取模块之后,网络分成了三个分支,每个分支包含独立的特征融合模块和方框检测模块,三个分支分别检测大、中、小三个尺度的目标。
步骤S3,构建层次化多尺度训练机制,使用S1构建的数据集对步骤S2构建的检测模型进行训练。该训练机制可以使S2所构建的模型中各尺度分支互相独立、互不影像地预测各自尺度范围内的目标。具体请见本发明实例步骤S3。
步骤S4,利用步骤S3训练好的模型在视频图像中检测目标。
进一步地,上述步骤S1具体如下。
步骤S1-1,在视频图像数据系统中,选择不同场景的含有待检测目标的场景,收集M张样本图像,其分辨率可以设为1200×720。
步骤S1-2,使用标注软件将M张图像中的全部待检测目标以倾斜矩形框的方式标注出来,得到M张图像对应的标签数据。
进一步地,上述步骤S2所述神经网络模型包括基础特征提取模块、特征融合模块和方框检测模块3个组成部分。本发明所设计地神经网络架构如图1所示,具体如下。
步骤S2-1,基础特征提取模块由深度卷积网络以残差堆叠的方式构成。本发明使用Resnet50作为基础特征提取模块的网络结构,如图2所示。第1层是3×3卷积,第2层是步长为2的3×3卷积,它们组成conv1;第3至11层是conv2_x,它包含3个残差块,第一个卷积层步长为2;第12至23层是conv3_x,它包含4个残差块,第一个卷积层步长为2;第24至41层是conv4_x,它包含6个残差块,第一个卷积层步长为2;第41至50层是conv5_x,它包含3个残差块,第一个卷积层步长为2。输入图像的分辨率为H×W,则conv2_x至conv5_x输出的基础卷积特征的分辨率分别为
Figure GDA0003045431130000071
Figure GDA0003045431130000072
分别称为C2、C3、C4和C5。选择这4个基础卷积特征构成基础特征金字塔,作为基础特征提取模块的输出。
步骤S2-2,特征融合模块分为三个分支,每个分支选取特定的基础特征融合得到单层特征,如图3所示。小尺度分支选取C3、C4、C5以自顶向下的方式融合得到P3,再经过3层转置卷积得到F3,F3的分辨率为H×W;中尺度分支选取C2、C3、C4以自底向上的方式融合得到P4,再经过2层转置卷积得到F4,F4的分辨率为
Figure GDA0003045431130000073
大尺度分支选取C3、C4、C5以自底向上的方式融合得到P5,再经过2层转置卷积得到F5,F5的分辨率为
Figure GDA0003045431130000074
自顶向下融合过程为,首先基础特征经过1×1卷积得到中间特征,从最深层的中间特征开始,分辨率放大2倍与下一层的中间特征逐元素相加,由深至浅渐次传递,在最浅层经过3×3卷积得到融合特征。而自底向上融合过程为,首先基础特征也要经过1×1卷积得到中间特征,相反的是从最浅层的中间特征开始,分辨率放大2倍与上一层的中间特征逐元素相加,由浅至深渐次传递,在最深层经过3×3卷积得到融合特征。
步骤S2-3,方框检测模块接收特征融合模块输出的融合特征,检测每个分支范围内的目标。每个分支的方框检测网络结构相同,如图4所示。但是它们的参数不同。检测模块接收融合特征后,分别输入4个卷积网络,输出4个张量。每个卷积网络都由两个卷积层构成,每层的卷积核都为3×3,步长为1,第一层的卷积核数量都为256,第二层的卷积核数量则不尽相同。第一个网络输出的张量表示目标的中心点热力图,通道数为C,C为所预测的目标类别;第二个网络输出的张量表示目标的中心点量化补偿,通道数为2;第三个网络输出的张量表示目标的方框宽高值,通道数2×C;第四个网络输出的张量表示目标的方框姿态,通道数为4。经过后处理,中心点量化补偿、方框宽高值和方框姿态张量会转换为向量,向量的长度表示可以预测目标的最大数量。从中心点热力图可以提取所预测目标的中心点坐标和类别。中心偏移向量会修正中心点坐标使其更为精确,再结合方框的宽高值和方框姿态就能获得倾斜矩形框的坐标。
步骤S2-4,每个尺度分支预测各自尺度范围内的目标,在训练时,模型计算过程到此结束;在测试时,还要使用后处理过程将三个尺度分支的预测结果合并,使用非极大值抑制算法去除重复的预测框。
进一步地,
步骤S3,本发明提出的层次化多尺度训练机制。该训练机制可以使步骤2所构建的模型中各尺度分支互相独立、互不影像地预测各自尺度范围内的目标,具体过程如下所述。
Figure GDA0003045431130000081
表示输入的图像,宽度为W高度为H。对每个尺度范围的目标,神经网络输出中心点热力图
Figure GDA0003045431130000082
中心点偏移补偿
Figure GDA0003045431130000083
方框尺寸
Figure GDA0003045431130000084
和方框姿态
Figure GDA0003045431130000085
其中*∈{s,m,l}分别表示小尺度中尺度和大尺度。假设训练样本图像I中有一个目标,它的方框的左上和右下角的坐标是(x1,y1,x2,y2)。那么其中心点为
Figure GDA0003045431130000086
点p坐标为
Figure GDA0003045431130000087
它的尺寸为
Figure GDA0003045431130000088
s表示为
Figure GDA0003045431130000089
中心点热力图
Figure GDA00030454311300000810
其中R(*)为降采样率,C是类别数量。这里C=1,只有一个类别。预测结果
Figure GDA00030454311300000811
表示该点对应一个目标方框中心,
Figure GDA00030454311300000812
表示背景。对图像I中每个尺度的目标,其方框中心点为p,类别为c=1。点p在中心点热力图上的对应点为
Figure GDA00030454311300000813
本发明使用高斯核将训练样本的方框中心点铺在热力图
Figure GDA00030454311300000814
上,
Figure GDA00030454311300000815
这里标准差σp与方框尺寸有关。如果两个中心点的高斯分布重合,取较大值。本发明使用改进的focal loss监督神经网络预测中心点热力图,它是一个带惩罚项针对像素逻辑回归的优化目标函数:
Figure GDA0003045431130000091
其中α和β都是focal loss中的超参数,N(*)是图像I中尺度为*的目标中心点数量。N(*)用于对所有该尺度的正样本中心点的focal loss值进行归一化。在本发明中设置α=2和β=4。
由于中心点热力图的尺寸和输入图像不同,从中心点热力图上的预测的坐标存在量化偏移,每个目标方框中心点的偏移补偿为
Figure GDA0003045431130000092
偏移补偿预测使用L1损失函数训练:
Figure GDA0003045431130000093
在训练中只对点
Figure GDA0003045431130000094
所在像素计算损失值,其它位置不参与计算。
在预测了目标方框中心点p以后,还需要预测方框宽度和高度,或者说方框的尺寸
Figure GDA0003045431130000095
点p所在目标方框的标注尺寸为sp。与中心偏移补偿类似,方框尺寸的优化目标也是L1损失函数:
Figure GDA0003045431130000096
在预测方框的宽度和高度时不会对其正则化或是从中心点热力图中获取,而是直接在输入图像的坐标系中回归目标的尺寸。
如果执行倾斜框检测任务,还需要预测方框的姿态
Figure GDA0003045431130000097
也就是。点p所在目标方框的标注的对偶向量为Ap,其预测的对偶方向向量为
Figure GDA0003045431130000098
倾斜框姿态预测网络的优化目标包含三部分。第一部分是L1损失函数:
Figure GDA0003045431130000099
两个向量
Figure GDA00030454311300000910
Figure GDA00030454311300000911
大小相等方向相反,将这个约束条件作为优化目标第二部分:
Figure GDA00030454311300000912
两个向量
Figure GDA0003045431130000101
Figure GDA0003045431130000102
同时还是单位向量,优化目标第三部分是:
Figure GDA0003045431130000103
因此倾斜框姿态损失函数为:
L(*)attitude=λa1L(*)a1a2L(*)a2a3L(*)a3 (7)
在本发明中设置λa1=1,λa2=0.5,λa3=0.5。
本发明设计的网络使用三个分支检测不同尺度范围的目标,每个检测分支的优化目标如下:
L(*)=L(*)koffL(*)offsizeL(*)sizeattitude L(*)attitude (8)
在不进行另外说明的情况下,本发明中设置λoff=1,λsize=0.1,λattitude=0.1。整个网络的优化目标则是:
Loss=L(s)+L(m)+L(l) (9)
显然,如果不加限制每个尺度检测分支在训练时会受到其它尺度样本的影响。例如,小目标检测分支在训练时L(s)会计算大中目标样本的损失值,小目标检测分支在L(s)在回传梯度更新权重参数时会受到大中尺度样本的干扰。中尺度和大尺度目标检测分支也是如此。
假设训练时正向计算的目标宽度高度分别为w和h,那么只有当
Figure GDA0003045431130000104
Figure GDA0003045431130000105
时,该目标样本的梯度才参与反向计算。这里l(*)和u(*)分别表示尺度(*)检测分支的有效尺度的上下限。本发明设计的模型的三个检测分支经过了不同采样率地缩放,也就是说三者计算的坐标参考系不相同。因此在生成训练标签数据时,需要分别对应三个检测分支的样本尺寸生成三组标签数据,如图5所示。输入图像尺寸为H×W,目标方框中心点热力图有3个。对应小尺度检测分支的中心点热力图尺寸为H×W,只包含小尺度目标的中心点分布;对应中尺度检测分支的中心点热力图尺寸为
Figure GDA0003045431130000106
只包含中尺度目标的中心点分布;对应大尺度检测分支的中心点热力图尺寸为
Figure GDA0003045431130000107
只包含大尺度目标的中心点分布。如果训练图像中不包含某个检测分支尺度范围内的目标,则使用空白的热力图代替。例如图5中的训练图像不含有大尺度的目标,对应大尺度检测分支的热力图仍然产生,这是为了训练模型时便于使用较大的batch size。不同尺度分支训练数据的中心点热力图上高斯分布的标准差σ=φ(*)r,这里r即是实际标注框分配正样本的分布圆半径,φ(*)表示尺度为(*)的系数。分布半径r由实际标注框分配正样本的交并比阈值t和标注框的尺寸sp有关,r=R(sp,t),这里p表示标注框的中心点。由于各分支用于检测的卷积特征尺寸不同,对应各分支的中心点热力图上二维高斯分布的标准差σp也有差异,具体设定如下:
Figure GDA0003045431130000111
与此同时,中心点偏移和方框尺寸的训练数据也要依据尺寸分成三组。简言之,一张训练图像的标注数据需要分成三份,分别对应三个不同尺度的检测分支。
进一步地,以步骤3方式训练步骤2构建的神经网络,得到收敛的检测模型。使用该检测模型和适当的后处理过程即可在视频图像中检测小目标,具体过程如下。
步骤4-1,将待检测图像输入到模型中,则三个检测分支分别预测三个尺度范围内的目标。每个检测分支都会输出4个张量,分别为中心热力图张量、中心偏移张量、方框宽高张量和方框姿态张量。
步骤4-2,对中心热力图使用一个3×3最大池化层抑制非极大值。接着,在每个分支的中心热力图中选择前100个峰值,峰值所在的平面坐标即为中心点坐标,峰值所在通道坐标即为类别,峰值本身表示检测为目标的置信度得分。
步骤4-3,通过峰值所在平面坐标找到中心偏移张量和方框宽高向量对应坐标的值,即为同一目标的中心点偏移值和方框的宽高值。
步骤4-4,通过峰值所在平面坐标找到方框姿态张量对应坐标的值,它是该目标方框的对偶方向矢量。假设预测的对偶方向矢量为
Figure GDA0003045431130000112
则取
Figure GDA0003045431130000113
为预测结果。
步骤4-5,将同一目标的中心点坐标、中心点偏移量、方框的宽度和高度、方框的对偶方向矢量在原始图像坐标系上转换为方框坐标。
步骤4-6,将三个尺度分支的检测结果合并,然后使用非极大值抑制算法去除重复的检测框,得到最终的检测结果。
基于同一构思,本发明还涉及一种电子设备,包括:一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述方法。
基于同一构思,本发明还涉及一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现上述任一所述方法任一所述的方法。

Claims (10)

1.一种基于深度学习的视频图像小目标检测方法,包含以下步骤:
步骤S1,制作训练样本构建数据集,所述数据集中的目标具有大中小三种不同尺度,且框出该目标;
步骤S2,构建神经网络检测模型,该模型分为三部分:基础特征提取模块,特征融合模块、方框检测模块,其中,在基础特征提取模块之后,网络分成了三个分支,每个分支包含独立的特征融合模块和方框检测模块,三个分支分别检测不同尺度的目标;
所述特征融合模块分为三个分支,每个分支选取特定的基础特征融合得到单层特征;其中小尺度分支以自顶向下的方式融合,中尺度分支以自底向上的方式融合,大尺度分支以自底向上的方式融合;
所述方框检测模块接收特征融合模块输出的融合特征,检测每个分支范围内的待检测目标;检测模块接收融合特征后,分别输入4个卷积网络,输出4个张量;第一个网络输出的张量表示目标的中心点热力图;第二个网络输出的张量表示目标的中心点量化补偿;第三个网络输出的张量表示目标的方框宽高值;第四个网络输出的张量表示目标的方框姿态;融合方框的宽高值和方框姿态得到倾斜矩形框的坐标;
步骤S3,构建层次化多尺度训练机制,使用S1构建的数据集对步骤S2构建的检测模型进行训练,该训练机制使S2所构建的模型中各尺度分支互相独立、互不影响地预测各自尺度范围内的目标;
步骤S4,利用步骤S3训练好的模型在视频图像中检测目标。
2.根据权利要求1所述的方法,其特征在于:所述步骤S1中不同尺度包括大中小三种尺度,其中大尺度为目标像素大于90×90;小尺度为目标像素小于30×30,中尺度介于小尺度和大尺度之间;目标以倾斜矩形框的方式标注出来。
3.根据权利要求1所述的方法,其特征在于:步骤S2构建的神经网络检测模型具体如下:
步骤S2-1,基础特征提取模块由深度卷积网络以残差堆叠的方式构成,使用深度卷积网络作为基础特征提取模块的网络结构;依次选择经过四次池化操作的卷积输出作为特征层;选择这4个基础卷积特征构成基础特征金字塔,作为基础特征提取模块的输出;
步骤S2-2,特征融合模块分为三个分支,每个分支选取特定的基础特征融合得到单层特征;若S2-1中四次池化后的分辨率分别为C2、C3、C4和C5,则小尺度分支选取C3、C4、C5以自顶向下的方式融合,再经过3层转置卷积;中尺度分支选取C2、C3、C4以自底向上的方式融合,再经过2层转置卷积;大尺度分支选取C3、C4、C5以自底向上的方式融合,再经过2层转置卷积;
步骤S2-3,方框检测模块接收特征融合模块输出的融合特征,输出为倾斜矩形框的坐标;
步骤S2-4,每个尺度分支预测各自尺度范围内的目标,在训练时,模型计算过程到此结束;在测试时,将三个尺度分支的预测结果合并,使用非极大值抑制算法去除重复的预测框。
4.根据权利要求3所述的方法,其特征在于:自顶向下融合过程为,首先基础特征经过1×1卷积得到中间特征,从最深层的中间特征开始,分辨率放大2倍与下一层的中间特征逐元素相加,由深至浅渐次传递,在最浅层经过3×3卷积得到融合特征;而自底向上融合过程为,首先基础特征也要经过1×1卷积得到中间特征,相反的是从最浅层的中间特征开始,分辨率放大2倍与上一层的中间特征逐元素相加,由浅至深渐次传递,在最深层经过3×3卷积得到融合特征。
5.根据权利要求1所述的方法,其特征在于:所述步骤S2所构建的神经网络参数的训练方法如下:
将训练数据的标注分为三组,分表为小尺度、中尺度、大尺度的目标的标注;小尺度检 测分支输入的融合特征分辨率为H×W,小尺度目标训练标签的坐标保持不变;中尺度分支 的分辨率为
Figure 821240DEST_PATH_IMAGE001
,中尺度目标训练标签的坐标缩小为
Figure 207222DEST_PATH_IMAGE002
;大尺度分支的分辨率为
Figure 832631DEST_PATH_IMAGE003
,大尺度目标训练标签的坐标缩小为
Figure 696682DEST_PATH_IMAGE004
6.根据权利要求1所述的方法,其特征在于:每个分支中,中心点热力图使用改进的focal loss监督训练;中心点偏移补偿使用L1损失函数训练;方框的尺寸,既宽度和高度,也是使用L1损失函数训练;方框的姿态,具体来说就是对偶方向矢量,使用L1损失和几何损失共同监督训练;将所列4项加权求和得到每个分支的损失函数;
最后,将三个分支的损失函数加总求和,便得到整个模型总的损失函数。
7.根据权利要求6所述的方法,其特征在于:所述改进的focal loss具体为:
Figure 104530DEST_PATH_IMAGE006
其中,αβ都是focal loss中的超参数, N (*)是图像中尺度为*的目标中心点数量;N (*)用于对所有该尺度的正样本中心点的focal loss值进行归一化;中心点热力图
Figure DEST_PATH_IMAGE007
,其中R (*)为降采样率,C是类别数量。
8.根据权利要求3所述的方法,其特征在于:
利用步骤S3训练得到检测模型后,使用步骤S4进行目标检测的具体过程如下:
步骤S4-1,对中心热力图使用一个3×3最大池化层抑制非极大值,接着,在每个分支的中心热力图中选择前100个峰值,峰值所在的平面坐标即为中心点坐标,峰值所在通道坐标即为类别,峰值本身表示检测为目标的置信度得分;
步骤S4-2,通过峰值所在平面坐标找到中心偏移张量和方框宽高向量对应坐标的值,即为同一目标的中心点偏移值和方框的宽高值;
步骤S4-3,通过峰值所在平面坐标找到方框姿态张量对应坐标的值,它是该目标方框的对偶方向矢量;
步骤S4-4,将同一目标的中心点坐标、中心点偏移量、方框的宽度和高度、方框的对偶方向矢量在原始图像坐标系上转换为方框坐标;
步骤S4-5,将三个尺度分支的检测结果合并,然后使用非极大值抑制算法去除重复的检测框。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN202110345772.9A 2021-03-31 2021-03-31 一种基于深度学习的视频图像小目标检测方法 Active CN112966659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110345772.9A CN112966659B (zh) 2021-03-31 2021-03-31 一种基于深度学习的视频图像小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110345772.9A CN112966659B (zh) 2021-03-31 2021-03-31 一种基于深度学习的视频图像小目标检测方法

Publications (2)

Publication Number Publication Date
CN112966659A CN112966659A (zh) 2021-06-15
CN112966659B true CN112966659B (zh) 2022-08-23

Family

ID=76280454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110345772.9A Active CN112966659B (zh) 2021-03-31 2021-03-31 一种基于深度学习的视频图像小目标检测方法

Country Status (1)

Country Link
CN (1) CN112966659B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642558A (zh) * 2021-08-16 2021-11-12 云南电网有限责任公司电力科学研究院 耐张线夹压接缺陷的x射线图像识别方法及装置
CN113947774B (zh) * 2021-10-08 2024-05-14 东北大学 一种轻量级的车辆目标检测系统
CN114067105B (zh) * 2022-01-12 2022-04-22 安徽高哲信息技术有限公司 谷物密度估计方法、存储介质及谷物密度估计设备
CN114943888B (zh) * 2022-03-24 2023-05-30 中国人民解放军海军大连舰艇学院 基于多尺度信息融合的海面小目标检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109886359A (zh) * 2019-03-25 2019-06-14 西安电子科技大学 基于卷积神经网络的小目标检测方法及检测模型
CN111275171A (zh) * 2020-01-19 2020-06-12 合肥工业大学 一种基于参数共享的多尺度超分重建的小目标检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109886359A (zh) * 2019-03-25 2019-06-14 西安电子科技大学 基于卷积神经网络的小目标检测方法及检测模型
CN111275171A (zh) * 2020-01-19 2020-06-12 合肥工业大学 一种基于参数共享的多尺度超分重建的小目标检测方法

Also Published As

Publication number Publication date
CN112966659A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN112966659B (zh) 一种基于深度学习的视频图像小目标检测方法
CN112818903B (zh) 一种基于元学习和协同注意力的小样本遥感图像目标检测方法
CN110232350B (zh) 一种基于在线学习的实时水面多运动目标检测跟踪方法
CN111862126A (zh) 深度学习与几何算法结合的非合作目标相对位姿估计方法
CN108764244B (zh) 基于卷积神经网络和条件随机场的潜在目标区域检测方法
CN112434618B (zh) 基于稀疏前景先验的视频目标检测方法、存储介质及设备
CN109902631B (zh) 一种基于图像金字塔的快速人脸检测方法
CN110310305A (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
Teimouri et al. A real-time ball detection approach using convolutional neural networks
CN114241250A (zh) 一种级联回归目标检测方法、装置及计算机可读存储介质
CN115147488B (zh) 一种基于密集预测的工件位姿估计方法与抓取系统
CN114120045B (zh) 一种基于多门控混合专家模型的目标检测方法和装置
CN113743521B (zh) 一种基于多尺度上下文感知的目标检测方法
CN113128564B (zh) 一种基于深度学习的复杂背景下典型目标检测方法及系统
Feng et al. Height aware understanding of remote sensing images based on cross-task interaction
CN117542082A (zh) 一种基于YOLOv7的行人检测方法
CN112651294A (zh) 基于多尺度融合的遮挡人体姿势识别方法
CN115100136B (zh) 基于YOLOv4-tiny模型的工件类别与位姿估计方法
Yang et al. An effective and lightweight hybrid network for object detection in remote sensing images
CN116385876A (zh) 基于yolox的光学遥感影像地物检测方法
CN116189269A (zh) 一种多任务人脸检测方法、装置、电子设备及存储介质
Ito et al. Point proposal based instance segmentation with rectangular masks for robot picking task
Ying et al. GPK-YOLOv5s: Content-Aware Reassembly of Features and Self Attention for High Altitude Parabolic Detection and Tracking
Paturi et al. Real Time Object Detection using Tensor Flow
CN113743189B (zh) 一种基于分割引导的人体姿态识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant