CN111914727B - 基于平衡采样与非线性特征融合的小目标人体检测方法 - Google Patents

基于平衡采样与非线性特征融合的小目标人体检测方法 Download PDF

Info

Publication number
CN111914727B
CN111914727B CN202010735119.9A CN202010735119A CN111914727B CN 111914727 B CN111914727 B CN 111914727B CN 202010735119 A CN202010735119 A CN 202010735119A CN 111914727 B CN111914727 B CN 111914727B
Authority
CN
China
Prior art keywords
frames
network
scale
training
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010735119.9A
Other languages
English (en)
Other versions
CN111914727A (zh
Inventor
张如飞
姜丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lianxin Intelligent Nanjing Technology Co ltd
Original Assignee
Lianxin Intelligent Nanjing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lianxin Intelligent Nanjing Technology Co ltd filed Critical Lianxin Intelligent Nanjing Technology Co ltd
Priority to CN202010735119.9A priority Critical patent/CN111914727B/zh
Publication of CN111914727A publication Critical patent/CN111914727A/zh
Application granted granted Critical
Publication of CN111914727B publication Critical patent/CN111914727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于平衡采样与非线性特征融合的小目标人体检测方法,在训练过程中对所有尺度的特征进行融合并增强,令小目标人体所在尺度得到足够的人体语义信息;在随后计算损失时对正样本使用实例平衡采样策略,保证不同尺度的人体都能得到相同的训练,对负样本使用交并比平衡采样策略,保证足够数量的难样本参与训练,最终提高网络的分类能力;在训练策略上采用了知识蒸馏训练方法,在保证精度的同时压缩了模型大小,提高了推理速度。

Description

基于平衡采样与非线性特征融合的小目标人体检测方法
技术领域
本发明涉及目标检测领域,具体涉及一种基于平衡采样与非线性特征融合的小目标人体检测方法。
背景技术
目标检测是计算机视觉中的一个重要研究领域,其包括两个过程:分类和定位。分类过程输出目标的类别,定位过程产生目标的坐标信息。人体检测是目标检测的一个重要分支,人体检测的目标是在图像场景中检测出是否存在人体目标并给出目标的位置,在自动驾驶、视频监控、移动机器人等领域有着广泛应用。
目前基于深度学习的目标检测方法可大致分为单阶段和双阶段两类:单阶段检测方法将目标检测视为单独的回归和分类问题,首先提取图片特征,然后按照特征与图片的对应关系直接对各个位置进行分类与回归,最终得到图片上各位置的检测结果;双阶段检测方法则继承了早期算法的流程,在第一个阶段中粗略扫描整个场景,提出一组候选框,在第二个阶段中提取候选框的特征,用全连接网络得到每个区域的分类信息和回归结果。
然而在对人体目标进行检测时,由于人体检测中的小目标较多,使得简单容易分类的负样本数量过多,导致网络分类能力变差;且现有的特征融合方式仅将高层特征信息融合到低层,各层特征信息融合不充分,导致小目标物体缺少人体语义信息,影响检测效果。
发明内容
针对上述技术问题,本发明提供了一种基于平衡采样与非线性特征融合的小目标人体检测方法。
基于平衡采样与非线性特征融合的小目标人体检测方法,包括训练阶段和推理阶段,所述训练阶段包括教师网络训练、学生网络训练以及微调训练,三种训练依次进行,且主要包括以下步骤:
S11:数据预处理
在不改变原始图片长宽比的前提下,将图片根据给定的目标尺度进行放大或缩小,并根据其比例对原始真实框进行处理;随后对图片数据进行处理,得到输入网络的图片数据;
S12:多尺度特征提取、融合与增强
使用卷积神经网络提取图片特征,并利用上采样与下采样的方法将提取出的多尺度特征转换到相同尺度,再对特征进行融合、增强,最后再次利用上采样与下采样的方法将增强后的特征还原到之前的尺度,并与对应的输入特征相加,得到每个尺度的特征;
S13:区域建议网络损失计算及候选框生成
首先得到所有特征图对应的锚点框,并为每个锚点框分配标签;随后用一个3×3卷积对步骤S12中得到的各个尺度的特征进行处理,然后分两路进行1×1的卷积操作,其中一路用Sigmoid激活函数激活后得到分类得分,另一路直接得到回归结果;
对于一个中心点坐标为(x,y),宽为w,高为h的锚点框B,其对应标签为y∈{0,1},其中0代表背景类,1代表前景类,其通过网络得到的分类得分为s,回归结果为t=(tx,ty,tw,th),则其分类损失lcls的计算方式如下:
lcls=-(ylog(s)+(1-y)log(1-s))
锚点框B为正样本时,其对应真实框的中心点坐标为宽为/>高为/>则其回归目标/>按如下方式计算:
回归损失lreg则按如下方式计算:
其中L表示smooth L1损失,定义如下:
其中β为手动设定的超参数,在不同阶段有不同的值;
之后选取部分正样本和负样本进行区域建议网络损失计算,并保证选取的正负样本的数量在同一个量级上;随后进行候选框的生成,根据锚点框的分类得分,按照前景的得分阈值筛选出属于前景的框,并根据锚点框的回归结果对其进行微调,最后对所有微调后的框使用非极大值抑制算法,得到一定数量的候选框;
S14:RCNN损失计算
首先利用RoI池化操作和步骤S12中得到的多尺度特征,得到步骤S13中的每个候选框对应的特征向量,每个候选框所对应的步骤S12的特征尺度层级level由下式决定:
其中w是候选框的宽,h是候选框的高;
再通过两个全连接层对得到的特征向量进行处理,然后分两路用全连接层分别对其进行分类和回归;得到分类结果和回归结果后,使用SoftmaxLoss计算分类损失,使用步骤S13相同的方法计算回归损失;
S15:知识蒸馏损失计算
首先根据教师网络在步骤S11中得到的尺度因子,将学生网络在步骤S13中得到的候选框映射到教师网络的输入尺度;再使用与步骤S14相同的方法,利用映射后的候选框以及教师网络训练在步骤S12中得到的多尺度特征,得到所有候选框在教师网络中对应的特征向量,并结合学生网络在步骤S14中得到的对应的特征向量计算知识蒸馏损失,知识蒸馏损失lmimic的计算公式如下:
其中表示第i个候选框在教师网络中对应的特征向量,/>表示第i个候选框在学生网络中对应的特征向量;
S16:整体损失计算及网络参数更新
计算整体损失,其中教师网络训练、微调训练的整体损失l表示如下:
l=lRPN+αlRCNN
学生网络训练的整体损失l表示如下:
l=lRPN+αlRCNN+βlmimic
其中,lRPN为区域建议网络损失,lRCNN为RCNN损失,lmimic为知识蒸馏损失,α、β均在训练时手动设定;
最后利用训练的整体损失对整个网络的参数进行更新;网络收敛后,训练结束,反之则回到步骤S11重新训练。
优选的,步骤S11中所述的数据预处理的具体过程为:使用原始尺度与目标尺度中的较短边与较长边分别计算尺度因子,并取二者中的较小值作为最终尺度因子计算原始图片对应的目标真实尺寸;随后根据该尺度因子,将原始真实框也映射到目标尺度;最后将图片每个通道的数据减均值,再除以标准差,得到最终输入网络的图片数据。
优选的,步骤S11所述的数据预处理过程在所述学生网络训练中需进行两次,以得到教师网络的输入和学生网络的输入。
优选的,所述教师网络训练在步骤S12中使用的特征提取网络为ResNet50,所述学生网络训练以及微调训练在步骤S12中使用的特征提取网络均为ResNet18。
优选的,步骤S13中为每个锚点框分配标签的原则如下:
a、对每个锚点框,计算其与所有真实框的交并比,并找到与其交并比最大的真实框;交并比小于背景阈值时,将其标记为背景类,交并比大于前景阈值时,则将其标记为前景类,对应的真实框就为该真实框;
b、对每个真实框,计算其与所有锚点框的交并比,并找到与其交并比最大的锚点框;交并比大于前景阈值时,将该锚点框标记为前景类,对应真实框为该真实框;得到的对应关系与前一个原则a冲突时,则以本原则为准。
优选的,步骤S13中所述的微调方式是回归目标的逆运算,锚点框B的微调结果如下:
x′=x+wtx
y′=y+hty
其中(x′,y′)是微调后的中心点坐标,w′是微调后的宽,h′是微调后的高。
优选的,所述步骤S14中每个候选框的标签分配原则与所述步骤S13相同。
优选的,所述步骤S14中正负样本的采样方法为:
对于正样本采样,每个真实框保留相同数量的候选框;对于负样本采样,将所有M个负样本与真实框的最大交并比划分为K个阶层,采样出的N个负样本在每个阶层上均匀分布;且对负样本进行采样时,从交并比较高的阶层开始采样,样本数量不足时,该阶层全部选取,并从下面的阶层依次向上补充。
优选的,所述推理阶段主要包括以下步骤:
S21:在不改变原始图片长宽比的前提下,将图片根据给定的目标尺度进行放大或缩小,并根据其比例对原始真实框进行处理;随后对图片数据进行处理,得到输入网络的图片数据;
S22:使用卷积神经网络提取图片特征,微调后的模型中使用的是ResNet18;并利用上采样与下采样的方法将提取出的多尺度特征转换到相同尺度,再对特征进行融合、增强,最后再次利用上采样与下采样的方法将增强后的特征还原到之前的尺度;
S23:根据锚点框的分类得分,按照前景的得分阈值筛选出属于前景的框,并根据锚点框的回归结果对其进行微调;对于一个锚点框B,其中心点坐标为(x,y),宽为w,回归结果为t=(tx,ty,tw,th),锚点框B的微调结果如下:
x′=x+wtx
y′=y+hty
其中(x′,y′)是微调后的中心点坐标,w′是微调后的宽,h′是微调后的高;最后对所有微调后的框使用非极大值抑制算法,得到一定数量的候选框;
S24:首先利用RoI池化操作和步骤S22中得到的多尺度特征,得到步骤S23中的每个候选框对应的特征向量,每个候选框所对应的步骤S22的特征尺度层级level由下式决定:
其中w是候选框的宽,h是候选框的高;
得到特征向量后,首先通过两个全连接层对其进行处理,然后分两路用全连接层分别对其进行分类和回归,得到分类结果和回归结果;使用Softmax函数对分类结果进行处理,得到所有属于人体的检测框;利用回归结果,按照与步骤S23中对锚点框微调的相同方法,对可能是人体的检测框进行微调,得到所有微调后的检测框;
S25:对于步骤S24中得到的所有检测框及其分类得分,按照一定阈值筛选出得分较高的框,之后对这些框使用非极大值抑制算法删除冗余框,剩余的所有框作为最终的检测结果输出。
本发明的有益效果是:
1、本发明克服了现有特征融合方法中,小目标所在层级仅能得到经逐层融合后的高层语义信息导致的高层语义信息丢失问题,利用上采样以及下采样对所有层的特征进行融合,增强,最后再分配到原有层级,保证小目标所在层级得到充分的人体语义信息,提升了小目标人体的检测效果;
2、本发明充分考虑了检测中小目标较多所带来的训练过程中简单负样本数量过大的问题,在训练过程中依据交并比为负样本划分阶层,保证了难负样本与简单负样本被采样的概率一致,从而保证了网络对难负样本也进行了充分的学习,提高了网络的分类能力;
3、本发明结合了知识蒸馏训练方式,首先训练一个参数量较大、输入图片分辨率较大的教师网络,再用其作为指导训练一个参数量较小、输入图片分辨率较小的学生网络,最后在学生网络上进行微调,有效提升了推理速度的同时保证了精度。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明实施例的训练及推理流程图;
图2为本发明实施例中多尺度特征的提取与融合示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了更好地理解本发明,首先对一些概念进行解释说明。
1、卷积神经网络:一类包含卷积操作的前馈神经网络,是深度学习的代表算法之一。
2、ResNet:深度残差网络,采用残差连接的方式,解决了增加网络深度带来的梯度退化问题,使网络更容易优化,可以有效提高网络的泛化性能。
3、RoI池化:一种池化方式,可以针对不同大小的区域,在特征图上通过该操作得到相同维度的特征向量。
本发明的具体实施过程如下:
一种基于平衡采样与非线性特征融合的小目标人体检测方法,如图1所示,包括训练阶段和推理阶段。训练阶段包括教师网络训练、学生网络训练以及微调训练,三种训练依次进行。首先进行教师网络的训练,再用教师网络作为指导训练学生网络,最后在学生网络上进行微调,有效提升推理速度的同时还保证了精度。
三种训练的步骤类似,主要包括:
S11:数据预处理
数据预处理是对原始图片及原始真实框的信息进行预处理,以便后续步骤的进行。其中包括:在不改变原始图片长宽比的前提下,将图片根据给定的目标尺度进行放大或缩小。具体方法是使用原始尺度与目标尺度中的较短边与较长边分别计算尺度因子,并取二者中的较小值作为最终尺度因子计算原始图片对应的目标真实尺寸。随后根据该尺度因子,将原始真实框也映射到目标尺度。最后将图片每个通道的数据减均值,再除以标准差,得到最终输入网络的图片数据。如果该步骤是学生网络训练步骤,则存在两个目标尺度,上述预处理流程要进行两次以得到教师网络的输入和学生网络的输入;如果该步骤是教师网络训练或微调训练,则上述流程只需要进行一次。
在训练过程中,对于教师网络,使用的图片分辨率为1920×1088,对于学生网络,使用的图片分辨率为1376×768,二者图片通道顺序均为RGB,各通道均值分别为123.675,116.28,103.53,方差分别为58.395,57.12,57.375。
S12:多尺度特征提取、融合与增强
本发明在不同阶段使用的特征提取网络虽然都是计算机视觉领域常用的残差网络ResNet,但是不同网络中的深度不同,教师网络使用ResNet50,学生网络及微调训练使用ResNet18。多尺度特征的提取与融合步骤如图2所示,首先在ResNet中选取其不同阶段的特征(C2,C3,C4,C5),通过横向的卷积操作,竖向的上采样与按元素加操作,以及为了消除混叠效应在各尺度上再次进行的卷积操作,最终得到多尺度特征(P2,P3,P4,P5),随后将P2、P4和P5都转换至P3的特征尺度大小。具体地,如果小于P3的特征尺度,则使用最近邻差值算法,将特征上采样至该则特征尺度,如果大于P3的特征尺度,使用MaxPooling算法,将特征下采样至该特征尺度。
尺度转换完毕后,计算所有特征的平均值以得到融合后的特征,再用卷积操作对融合后的特征进行增强;最后通过与转换至P3的特征尺度相同的方式,将增强后的特征还原至对应尺度,并与对应尺度的输入特征(P2,P3,P4,P5)相加,最终得到每个尺度的特征。
在训练过程中,对于教师网络,得到的(C2,C3,C4,C5)的通道数分别为256,512,1024,2048,横向的卷积操作使用的卷积核大小为1×1,输出通道为256,消除混叠效应的卷积核大小为3×3,输出通道为256,最终得到的(P2,P3,P4,P5)通道数皆为256,增强特征的卷积操作的卷积核大小为3×3,输出通道为256。对于学生网络,得到的(C2,C3,C4,C5)的通道数分别为64,128,256,512,其他配置与教师网络相同。
S13:区域建议网络损失计算及候选框生成
首先得到所有特征图对应的锚点框,教师网络和学生网络的锚点框配置相同,对应到各特征图的尺度分别为162,322,642,1282,每个位置上每个尺度的锚点框有三种长宽比,分别为0.5,1.0,2.0。随后给每个锚点框分配标签,分配原则如下:a、对每个锚点框,计算其与所有真实框的交并比,找到与其交并比最大的真实框,若交并比小于背景阈值,则把其标记为背景类,若交并比大于前景阈值,则把其标记为前景类,对应的真实框就为该真实框。b、对每个真实框,计算其与所有锚点框的交并比,并找到与其交并比最大的锚点框,如果交并比大于前景阈值,则把该锚点框标记为前景类,对应真实框为该真实框。如果该步骤中得到的对应关系与原则a冲突,则以该原则为准。在训练中,前景交并比阈值设定为0.7,背景交并比阈值设定为0.3。
通过上述步骤,得到了每个锚点框的标签,随后用一个3×3卷积对步骤S12中得到的各个尺度的特征进行处理,然后分两路进行1×1卷积操作,其中一路用Sigmoid激活函数激活后得到分类得分,另一路直接得到回归结果。对于一个锚点框B,其中心点坐标为(x,y),宽为w,高为h,对应标签为y∈{0,1},其中0代表背景类,1代表前景类,设其通过网络得到的分类得分为s,回归结果为t=(tx,ty,tw,th),则其分类损失lcls计算方式如下:
lcls=-(ylog(s)+(1-y)log(1-s))
只有正样本可以计算回归损失,不失一般性,设锚点框B为正样本,其对应真实框中心点坐标为宽为/>高为/>则其回归目标/> 按如下方式计算:
回归损失lreg则按如下方式计算:
其中L表示smooth L1损失,定义如下:
其中β取1/9。
在具体计算时,由于负样本过多,造成正样本与负样本的数量严重不平衡,所以只选取一部分正样本和一部分负样本进行损失计算,以保证正负样本的数量在同一个量级上。在训练时设定正负样本最多256个参与损失计算,其中正样本最多128个,如果不足128个,则负样本数量至多为正样本数量的5倍。
候选框的生成过程就是根据锚点框的分类得分,按照前景的得分阈值筛选出属于前景的框,并根据锚点框的回归结果对其进行微调,微调方式是回归目标的逆运算,沿用前文的符号,锚框B的微调结果如下:
x′=x+wtx
y′=y+hty
其中(x′,y′)是微调后的中心点坐标,w′是微调后的宽,h′是微调后的高。最后对所有微调后的框使用非极大值抑制算法,交并比阈值设定为0.7,得到最多2000个候选框,如果结果多于2000个,则取分类得分较高的前2000个作为候选框。
S14:RCNN损失计算
首先利用RoI池化操作和步骤S12中得到的多尺度特征,得到步骤S13中的每个候选框对应的特征向量,每个候选框所对应的步骤S12的特征尺度层级level由下式决定:
其中w是候选框的宽,h是候选框的高。得到其特征向量后,首先通过两个全连接层对其进行处理,然后分两路用全连接层分别对其进行分类和回归,得到分类结果和回归结果。每个候选框的标签分配原则与步骤S13中相同,前景交并比阈值设定为0.5,背景交并比阈值设定为0.5;分类损失在此处使用Softmax Loss,回归损失计算方式与步骤S13相同,β取1.0。
在训练时,正负样本的采样策略不同。对于正样本采样,每个真实框都选择相同数量的候选框作为正样本,数量为个,其中n是真实框的个数。对于负样本采样,首先按交并比将所有负样本划分为3个阶层,分别为[0,0.1],(0.1,0.2],(0.2,0.3],在第一个阶层和第二个阶层选取85个样本,在第三个阶层选取86个样本,如果某个阶层样本数量不足,则该层样本全部选取,不足的部分按照交并比从大到小向下扩充。
如果是学生网络训练,则进入步骤S15,否则进入步骤S16。
S15:知识蒸馏损失计算
仅在学生网络训练时包含这一过程。首先将步骤S11中得到的教师网络的输入数据输入教师网络,并按照步骤S12的方法得到教师网络的多尺度特征;之后,使用学生网络在步骤S13中得到的候选框,根据步骤S11中得到的教师网络的尺度因子,将候选框映射到教师网络的输入尺度;再使用与步骤S14中相同的方法,利用映射后的候选框与教师网络的多尺度特征,得到所有候选框在教师网络中对应的特征向量,并与学生网络在步骤S14中得到的对应的特征向量计算损失。知识蒸馏损失lmimic计算如下:
其中表示第i个候选框在教师网络中对应的特征向量,/>表示第i个候选框在学生网络中对应的特征向量。
S16:整体损失计算及网络参数更新
整体损失由区域建议网络损失lRPN与RCNN损失lRCNN组成,如果是学生网络训练阶段,整体损失中还包括知识蒸馏损失lmimic
教师网络训练、微调训练损失l表示如下:
l=lRPN+αlRCNN
其中α在训练时取1.0。学生网络训练损失l表示如下:
l=lRPN+αlRCNN+βlmimic
其中α,β在训练时均取1.0。之后利用训练损失对整个网络的参数进行更新,如果网络已经收敛,结束训练,否则回到步骤S11重新训练。
推理阶段步骤如下:
S21:数据预处理
在不改变原始图片长宽比的前提下,将图片根据给定的目标尺度进行放大或缩小,并根据其比例对原始真实框进行处理;随后对图片数据进行处理,得到输入网络的图片数据。
S22:多尺度特征提取、融合与增强
使用卷积神经网络提取图片特征,微调后的模型中使用的是ResNet18;并利用上采样与下采样的方法将提取出的多尺度特征转换到相同尺度,再对特征进行融合、增强,最后再次利用上采样与下采样的方法将增强后的特征还原到之前的尺度。
S23:候选框生成
根据锚点框的分类得分,按照前景的得分阈值筛选出属于前景的框,并根据锚点框的回归结果对其进行微调;对于一个锚点框B,其中心点坐标为(x,y),宽为w,回归结果为t=(tx,ty,tw,th),锚点框B的微调结果如下:
x′=x+wtx
y′=y+hty
其中(x′,y′)是微调后的中心点坐标,w′是微调后的宽,h′是微调后的高;最后对所有微调后的框使用非极大值抑制算法,得到一定数量的候选框。
S24:候选框分类及回归
首先利用RoI池化操作和步骤S22中得到的多尺度特征,得到步骤S23中的每个候选框对应的特征向量,每个候选框所对应的步骤S22的特征尺度层级level由下式决定:
其中w是候选框的宽,h是候选框的高。得到特征向量后,首先通过两个全连接层对其进行处理,然后分两路用全连接层分别对其进行分类和回归,得到分类结果和回归结果。使用Softmax函数对分类结果进行处理,得到所有属于人体的检测框。利用回归结果,按照与步骤S23中对锚点框微调的相同方法,对可能是人体的检测框进行微调,得到所有微调后的检测框。
S25:后处理
对于步骤S24中得到的所有检测框及其分类得分,按照阈值0.05筛选出分类得分大于阈值的框,之后对这些框使用非极大值抑制算法删除冗余框,非极大值抑制的交并比阈值设定为0.5,剩余的所有框作为最终的检测结果输出。
本发明提供了一种基于平衡采样与非线性特征融合的小目标人体检测方法,在训练过程中对所有尺度的特征进行融合并增强,令小目标人体所在尺度得到足够的人体语义信息;在随后计算损失时对正样本使用实例平衡采样策略,保证不同尺度的人体都能得到相同的训练,对负样本使用交并比平衡采样策略,保证足够数量的难样本参与训练,最终提高网络的分类能力;在训练策略上采用了知识蒸馏训练方法,在保证精度的同时压缩了模型大小,提高了推理速度。
本发明未详细描述的部分属于本领域公知技术。对本发明实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。

Claims (6)

1.一种基于平衡采样与非线性特征融合的小目标人体检测方法,包括训练阶段和推理阶段,其特征在于,所述训练阶段包括教师网络训练、学生网络训练以及微调训练,三种训练依次进行,且主要包括以下步骤:
S11:数据预处理
在不改变原始图片长宽比的前提下,将图片根据给定的目标尺度进行放大或缩小,并根据其比例对原始真实框进行处理;随后对图片数据进行处理,得到输入网络的图片数据;
S12:多尺度特征提取、融合与增强
使用卷积神经网络提取图片特征,并利用上采样与下采样的方法将提取出的多尺度特征转换到相同尺度,再对特征进行融合、增强,最后再次利用上采样与下采样的方法将增强后的特征还原到之前的尺度,并与对应的输入特征相加,得到每个尺度的特征;该步骤中使用的特征提取网络为ResNet50,所述学生网络训练以及微调训练在步骤S12中使用的特征提取网络均为ResNet18;
S13:区域建议网络损失计算及候选框生成
首先得到所有特征图对应的锚点框,并为每个锚点框分配标签;随后用一个3×3卷积对步骤S12中得到的各个尺度的特征进行处理,然后分两路进行1×1的卷积操作,其中一路用Sigmoid激活函数激活后得到分类得分,另一路直接得到回归结果;
对于一个中心点坐标为(x,y),宽为w,高为h的锚点框B,其对应标签为y∈{0,1},其中0代表背景类,1代表前景类,其通过网络得到的分类得分为s,回归结果为t=(tx,ty,tw,th),则其分类损失lcls的计算方式如下:
lcls≡-(ylog(s)+(1-y)log(1-s))
锚点框B为正样本时,其对应真实框的中心点坐标为宽为/>高为/>则其回归目标/>按如下方式计算:
回归损失lreg则按如下方式计算:
其中L表示smooth L1损失,定义如下:
其中β为手动设定的超参数,在不同阶段有不同的值;
之后选取部分正样本和负样本进行区域建议网络损失计算,并保证选取的正负样本的数量在同一个量级上;随后进行候选框的生成,根据锚点框的分类得分,按照前景的得分阈值筛选出属于前景的框,并根据锚点框的回归结果对其进行微调,最后对所有微调后的框使用非极大值抑制算法,得到一定数量的候选框;
每个锚点框分配标签的原则如下:
a、对每个锚点框,计算其与所有真实框的交并比,并找到与其交并比最大的真实框;交并比小于背景阈值时,将其标记为背景类,交并比大于前景阈值时,则将其标记为前景类,对应的真实框就为该真实框;
b、对每个真实框,计算其与所有锚点框的交并比,并找到与其交并比最大的锚点框;交并比大于前景阈值时,将该锚点框标记为前景类,对应真实框为该真实框;得到的对应关系与前一个原则a冲突时,则以本原则为准;
微调方式是回归目标的逆运算,锚点框B的微调结果如下:
x′=x+wtx
y′=y+hty
其中(x′,y′)是微调后的中心点坐标,w′是微调后的宽,h′是微调后的高;
S14:RCNN损失计算
首先利用RoI池化操作和步骤S12中得到的多尺度特征,得到步骤S13中的每个候选框对应的特征向量,每个候选框所对应的步骤S12的特征尺度层级level由下式决定:
其中w是候选框的宽,h是候选框的高;
再通过两个全连接层对得到的特征向量进行处理,然后分两路用全连接层分别对其进行分类和回归;得到分类结果和回归结果后,使用Softmax Loss计算分类损失,使用步骤S13相同的方法计算回归损失;
S15:知识蒸馏损失计算
首先根据教师网络在步骤S11中得到的尺度因子,将学生网络在步骤S13中得到的候选框映射到教师网络的输入尺度;再使用与步骤S14相同的方法,利用映射后的候选框以及教师网络训练在步骤S12中得到的多尺度特征,得到所有候选框在教师网络中对应的特征向量,并结合学生网络在步骤S14中得到的对应的特征向量计算知识蒸馏损失,知识蒸馏损失lmimic的计算公式如下:
其中表示第i个候选框在教师网络中对应的特征向量,/>表示第i个候选框在学生网络中对应的特征向量;
S16:整体损失计算及网络参数更新
计算整体损失,其中教师网络训练、微调训练的整体损失l表示如下:
l=lRPN+αlRCNN
学生网络训练的整体损失l表示如下:
l=lRPN+αlRCNN+βlmimic
其中,lRPN为区域建议网络损失,lRCNN为RCNN损失,lmimic为知识蒸馏损失,α、β均在训练时手动设定;
最后利用训练的整体损失对整个网络的参数进行更新;网络收敛后,训练结束,反之则回到步骤S11重新训练。
2.根据权利要求1所述的基于平衡采样与非线性特征融合的小目标人体检测方法,其特征在于,步骤S11中所述的数据预处理的具体过程为:使用原始尺度与目标尺度中的较短边与较长边分别计算尺度因子,并取二者中的较小值作为最终尺度因子计算原始图片对应的目标真实尺寸;随后根据该尺度因子,将原始真实框也映射到目标尺度;最后将图片每个通道的数据减均值,再除以标准差,得到最终输入网络的图片数据。
3.根据权利要求2所述的基于平衡采样与非线性特征融合的小目标人体检测方法,其特征在于:步骤S11所述的数据预处理过程在所述学生网络训练中需进行两次,以得到教师网络的输入和学生网络的输入。
4.根据权利要求1所述的基于平衡采样与非线性特征融合的小目标人体检测方法,其特征在于:所述步骤S14中每个候选框的标签分配原则与所述步骤S13相同。
5.根据权利要求4所述的基于平衡采样与非线性特征融合的小目标人体检测方法,其特征在于,所述步骤S14中正负样本的采样方法为:
对于正样本采样,每个真实框保留相同数量的候选框;对于负样本采样,将所有M个负样本与真实框的最大交并比划分为K个阶层,采样出的N个负样本在每个阶层上均匀分布;且对负样本进行采样时,从交并比较高的阶层开始采样,样本数量不足时,该阶层全部选取,并从下面的阶层依次向上补充。
6.根据权利要求1-5中任意一项所述的基于平衡采样与非线性特征融合的小目标人体检测方法,其特征在于,所述推理阶段主要包括以下步骤:
S21:在不改变原始图片长宽比的前提下,将图片根据给定的目标尺度进行放大或缩小,并根据其比例对原始真实框进行处理;随后对图片数据进行处理,得到输入网络的图片数据;
S22:使用卷积神经网络提取图片特征,微调后的模型中使用的是ResNet18;并利用上采样与下采样的方法将提取出的多尺度特征转换到相同尺度,再对特征进行融合、增强,最后再次利用上采样与下采样的方法将增强后的特征还原到之前的尺度;
S23:根据锚点框的分类得分,按照前景的得分阈值筛选出属于前景的框,并根据锚点框的回归结果对其进行微调;对于一个锚点框B,其中心点坐标为(x,y),宽为w,回归结果为t=(tx,ty,tw,th),锚点框B的微调结果如下:
x′=x+wtx
y′=y+hty
其中(x′,y′)是微调后的中心点坐标,w′是微调后的宽,h′是微调后的高;最后对所有微调后的框使用非极大值抑制算法,得到一定数量的候选框;
S24:首先利用RoI池化操作和步骤S22中得到的多尺度特征,得到步骤S23中的每个候选框对应的特征向量,每个候选框所对应的步骤S22的特征尺度层级level由下式决定:
其中w是候选框的宽,h是候选框的高;
得到特征向量后,首先通过两个全连接层对其进行处理,然后分两路用全连接层分别对其进行分类和回归,得到分类结果和回归结果;使用Softmax函数对分类结果进行处理,得到所有属于人体的检测框;利用回归结果,按照与步骤S23中对锚点框微调的相同方法,对可能是人体的检测框进行微调,得到所有微调后的检测框;
S25:对于步骤S24中得到的所有检测框及其分类得分,按照一定阈值筛选出得分较高的框,之后对这些框使用非极大值抑制算法删除冗余框,剩余的所有框作为最终的检测结果输出。
CN202010735119.9A 2020-07-28 2020-07-28 基于平衡采样与非线性特征融合的小目标人体检测方法 Active CN111914727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010735119.9A CN111914727B (zh) 2020-07-28 2020-07-28 基于平衡采样与非线性特征融合的小目标人体检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010735119.9A CN111914727B (zh) 2020-07-28 2020-07-28 基于平衡采样与非线性特征融合的小目标人体检测方法

Publications (2)

Publication Number Publication Date
CN111914727A CN111914727A (zh) 2020-11-10
CN111914727B true CN111914727B (zh) 2024-04-26

Family

ID=73281467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010735119.9A Active CN111914727B (zh) 2020-07-28 2020-07-28 基于平衡采样与非线性特征融合的小目标人体检测方法

Country Status (1)

Country Link
CN (1) CN111914727B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070075B (zh) * 2020-11-12 2021-02-09 之江实验室 一种基于协同回归的人体检测方法
CN112348110B (zh) * 2020-11-18 2022-10-04 北京市商汤科技开发有限公司 模型训练及图像处理方法、装置、电子设备和存储介质
CN112560956A (zh) * 2020-12-16 2021-03-26 珠海格力智能装备有限公司 目标检测方法及装置、非易失性存储介质、电子设备
CN112837297B (zh) * 2021-02-08 2023-04-28 福建医科大学附属协和医院 一种渐进式多尺度的颅面骨骨折检测方法
CN113095251B (zh) * 2021-04-20 2022-05-27 清华大学深圳国际研究生院 一种人体姿态估计方法及系统
CN113159216B (zh) * 2021-05-10 2023-04-28 上海电力大学 一种用于表面缺陷检测的正样本扩充方法
CN113255915B8 (zh) * 2021-05-20 2024-02-06 深圳思谋信息科技有限公司 基于结构化实例图的知识蒸馏方法、装置、设备和介质
CN113920307A (zh) * 2021-09-29 2022-01-11 北京百度网讯科技有限公司 模型的训练方法、装置、设备、存储介质及图像检测方法
CN114462469B (zh) * 2021-12-20 2023-04-18 浙江大华技术股份有限公司 目标检测模型的训练方法、目标检测方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210482A (zh) * 2019-06-05 2019-09-06 中国科学技术大学 改进类别不平衡的目标检测方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110674714A (zh) * 2019-09-13 2020-01-10 东南大学 基于迁移学习的人脸和人脸关键点联合检测方法
CN111402226A (zh) * 2020-03-13 2020-07-10 浙江工业大学 一种基于级联卷积神经网络的表面疵点检测方法
CN111428765A (zh) * 2020-03-17 2020-07-17 武汉大学 一种基于全局卷积、局部深度卷积融合的目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110210482A (zh) * 2019-06-05 2019-09-06 中国科学技术大学 改进类别不平衡的目标检测方法
CN110674714A (zh) * 2019-09-13 2020-01-10 东南大学 基于迁移学习的人脸和人脸关键点联合检测方法
CN111402226A (zh) * 2020-03-13 2020-07-10 浙江工业大学 一种基于级联卷积神经网络的表面疵点检测方法
CN111428765A (zh) * 2020-03-17 2020-07-17 武汉大学 一种基于全局卷积、局部深度卷积融合的目标检测方法

Also Published As

Publication number Publication date
CN111914727A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN111914727B (zh) 基于平衡采样与非线性特征融合的小目标人体检测方法
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN111797716B (zh) 一种基于Siamese网络的单目标跟踪方法
CN110276765B (zh) 基于多任务学习深度神经网络的图像全景分割方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN111696110B (zh) 场景分割方法及系统
CN111191583A (zh) 基于卷积神经网络的空间目标识别系统及方法
CN111523553A (zh) 一种基于相似度矩阵的中心点网络多目标检测方法
CN111192294B (zh) 一种基于目标检测的目标跟踪方法及系统
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN108764244B (zh) 基于卷积神经网络和条件随机场的潜在目标区域检测方法
CN114758288A (zh) 一种配电网工程安全管控检测方法及装置
CN112036447A (zh) 零样本目标检测系统及可学习语义和固定语义融合方法
CN111461213A (zh) 一种目标检测模型的训练方法、目标快速检测方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN110969171A (zh) 基于改进卷积神经网络的图像分类模型、方法及应用
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN113128308B (zh) 一种港口场景下的行人检测方法、装置、设备及介质
CN116091823A (zh) 一种基于快速分组残差模块的单特征无锚框目标检测方法
CN111199255A (zh) 基于darknet53网络的小目标检测网络模型及检测方法
CN114708615A (zh) 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质
CN113065379A (zh) 融合图像质量的图像检测方法、装置、电子设备
EP4016394A1 (en) Object identification device and object identification method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant