CN108830205B - 基于改进全卷积网络的多尺度感知行人检测方法 - Google Patents

基于改进全卷积网络的多尺度感知行人检测方法 Download PDF

Info

Publication number
CN108830205B
CN108830205B CN201810563873.1A CN201810563873A CN108830205B CN 108830205 B CN108830205 B CN 108830205B CN 201810563873 A CN201810563873 A CN 201810563873A CN 108830205 B CN108830205 B CN 108830205B
Authority
CN
China
Prior art keywords
scale
pedestrian
network
rpn
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810563873.1A
Other languages
English (en)
Other versions
CN108830205A (zh
Inventor
彭力
刘辉
闻继伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201810563873.1A priority Critical patent/CN108830205B/zh
Priority to US16/618,269 priority patent/US10977521B2/en
Priority to PCT/CN2018/093046 priority patent/WO2019232836A1/zh
Publication of CN108830205A publication Critical patent/CN108830205A/zh
Application granted granted Critical
Publication of CN108830205B publication Critical patent/CN108830205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/545Interprogram communication where tasks reside in different layers, e.g. user- and kernel-space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于改进全卷积网络的多尺度感知行人检测方法,属于行人检测领域。首先,通过在全卷积网络结构中引进可形变卷积层,扩大特征图的感受野;其次,通过级联RPN提取多尺度行人建议区域,引入多尺度判别策略,定义尺度判别层,判别行人建议区域的尺度类别;最后构建一个多尺度感知网络,引进Soft‑NMS检测算法,融合每个网络输出的分类值和回归值,获取最终的行人检测结果。实验表明,本发明的检测算法在基准行人检测数据集Caltech和ETH上产生较低的检测误差,优于当前数据集中所有检测算法的精度,并适用于检测远尺度的行人。

Description

基于改进全卷积网络的多尺度感知行人检测方法
技术领域
本发明涉及行人检测技术领域,特别是涉及基于改进全卷积网络的多尺度感知行人检测方法。
背景技术
近年来,随着智能视频监控、车辆辅助驾驶(ADAS)、基于内容的图像或者视频的探索和人体行为分析等领域的广泛应用,以及一些新的应领域的出现,如家庭服务机器人、基于航拍图像的行人等,行人检测技术的研究已经成为了机器视觉领域的重要研究课题。行人检测技术具有很大的挑战性和提升空间,主要是因为行人目标比人脸目标有更大幅度的姿态变化,而且在视频或者图片中不同行人尺寸跨度较大。由于行人所在背景不同、光照强度不同、服饰装扮的多样性等,使得实时检测行人检测而且高精度非常困难,特别是在智能车辆辅助驾驶这个领域。
传统技术存在以下技术问题:
由于环境的复杂性,当前的算法在雨天或者黑夜条件下检测到行人的精度达不到工业的要求。
发明内容
基于此,有必要针对上述技术问题,提供一种基于改进全卷积网络的多尺度感知行人检测方法,可以在复杂背景下检测出不同尺度的行人,减少交通事故的发生,该方法通过在全卷积网络结构中引进可形变卷积层,通过级联RPN提取多尺度行人建议区域,提出多尺度判别策略,构建一个多尺度感知网络,引进Soft-NMS检测算法,融合每个网络输出的分类值和回归值,输出行人检测的结果。
一种基于改进全卷积网络的多尺度感知行人检测方法,包括:
将输入图片尺寸归一化为预定像素,输入到ResNet-50网络的RoIDataLayer,学习行人特征;
ResNet-50网络的前四层用于提取图像中的行人区域,生成不同尺度的特征图;
在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层,卷积核大小为3×3,膨胀大小为2,步长为1,留白为2,输出多尺度特征图y(p0);
分别在C3、C4、C5的最后一层增加一个随机初始化的1×1卷积,将最后输出通道尺度减少到1024维,实现每个卷积层的特征共享;
在ResNet-50的res4f层引入级联RPN网络,定义近尺度RPN和远尺度RPN,级联后提取不同高度的RoIs;
对每个提取到的行人RoI的高度进行判断,根据级联RPN获取到的图片的输入信息,定义一个尺度判别层,输出近尺度的RoIs-N和远尺度的RoIs-F;
尺度判别层分别输出不同尺度的RoI-N和RoI-F,构建一个多尺度感知网络,所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成;
利用Soft-NMS算法来抑制生成框中的冗余信息。
在另外的一个实施例中,步骤“在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层,卷积核大小为3×3,膨胀大小为2,步长为1,留白为2,输出多尺度特征图;”中的多尺度特征图y(p0)计算公式为:
y(p0)=∑w(pn)x(p0+pn+Δpn)
其中卷积窗口中的每个像素点pn对应权重w,p0代表窗口输出的每个像素点,x是输入层像素点集合,采样位置为pn,可变形卷积利用偏移量Δpn({Δpn|n=1,...,N})来增大规则网格R的感受野,N=|R|表示网格中像素个数,采样偏移位置为pn+Δpn
在另外的一个实施例中,步骤“在ResNet-50的res4f层引入级联RPN网络,定义近尺度RPN和远尺度RPN,级联后提取不同高度的RoIs;”中的级联RPN获取不同高度的RoIs方式如下:级联RPN中锚点的尺度改为32,64,128,256,512,比例为1:2,1:1,2:1,生成15个锚点,通过滑动窗口的方式,RPN-N获取近尺度的行人区域建议(reg-N)和分类得分,然后将reg-N作为RPN-F的输入,RPN-F通过reg-N的区域坐标值在原图片直接获取行人RoIs,得到最终的得分值和行人区域建议。
在另外的一个实施例中,步骤“对每个提取到的行人RoI的高度进行判断,根据级联RPN获取到的图片的输入信息,定义一个尺度判别层,输出近尺度的RoIs-N和远尺度的RoIs-F;”中的尺度判别层判别过程如下:
根据级联RPN获取不同尺度的RoIs,定义每个RoI的边界框j的高度大小为Hj=ymax-ymin;在第m层(m=3,4,5)的平均高度
N表示当前层训练样本数量,i表示一个行人边界框,y表示获取到行人标注框的纵坐标;
引进符号函数ε(x),判断后输出近尺度的RoIs和远尺度的RoIs;
其中,Scalen表示近尺度网络,Scalef表示远尺度网络,如果输入图片中包含的行人感兴趣区域判定为远尺度行人,则激活Scalef,将RoI-F池化后传播到远尺度检测网络中检测;若判定为近尺度行人,则激活Scalen,将RoI-N池化后传播到近尺度检测网络中训练。
在另外的一个实施例中,步骤“尺度判别层分别输出不同尺度的RoI-N和RoI-F,构建一个多尺度感知网络,所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成;”的近尺度检测网络和远尺度检测网络组成为:每个子网络都有两个输出层,对于每个目标建议i,第一个输出层输出离散置信值分布si=(s0,s1),另一层输出每个边界框回归偏移值ti=(tx,ty,tw,th),其中,ti指定相对于对象提议的原始位置和大小的位置转换和边界框偏移值,tx,ty,tw,th分别表示边界框的坐标和宽度与高度。
在另外的一个实施例中,步骤“利用Soft-NMS算法来抑制生成框中的冗余信息。”中,Soft-NMS的计算方法为:
当IoU小于阈值Nt时,检测得分值为si;在IoU大于阈值Nt后,得分值si
si(1-iou(M,bi));
每个训练的行人建议都有一个真实的类别g和一个真实边界框回归目标值t*的标签,多任务损失函数L在每个目标建议i用来联合输出两个检测子网络的参数:
其中Lcls和Lloc分别是分类和边界框回归损失函数,Lcls是Softmax损失函数,输出分类的准确值。
在另外的一个实施例中,步骤“将输入图片尺寸归一化为预定像素,输入到ResNet-50网络的RoIDataLayer,学习行人特征;”中所述预定像素是640x480。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
上述基于改进全卷积网络的多尺度感知行人检测方法,可以在复杂背景下检测出不同尺度的行人,减少交通事故的发生,该方法通过在全卷积网络结构中引进可形变卷积层,通过级联RPN提取多尺度行人建议区域,提出多尺度判别策略,构建一个多尺度感知网络,引进Soft-NMS检测算法,融合每个网络输出的分类值和回归值,输出行人检测的结果。
附图说明
图1为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的网络结构图。
图2为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的可形变卷积示例图。
图3为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的级联RPN提取不同尺度建议的过程图。
图4为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的Caltech数据集行人多尺度检测结果对比图。
图5为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的ETH数据集行人多尺度检测结果对比图。
图6为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参阅图6,一种基于改进全卷积网络的多尺度感知行人检测方法,包括:
将输入图片尺寸归一化为预定像素,输入到ResNet-50网络的RoIDataLayer,学习行人特征;
ResNet-50网络的前四层用于提取图像中的行人区域,生成不同尺度的特征图;
在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层,卷积核大小为3×3,膨胀大小为2,步长为1,留白为2,输出多尺度特征图y(p0);
分别在C3、C4、C5的最后一层增加一个随机初始化的1×1卷积,将最后输出通道尺度减少到1024维,实现每个卷积层的特征共享;
在ResNet-50的res4f层引入级联RPN网络,定义近尺度RPN和远尺度RPN,级联后提取不同高度的RoIs;
对每个提取到的行人RoI的高度进行判断,根据级联RPN获取到的图片的输入信息,定义一个尺度判别层,输出近尺度的RoIs-N和远尺度的RoIs-F;
尺度判别层分别输出不同尺度的RoI-N和RoI-F,构建一个多尺度感知网络,所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成;
利用Soft-NMS算法来抑制生成框中的冗余信息。
在另外的一个实施例中,步骤“在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层,卷积核大小为3×3,膨胀大小为2,步长为1,留白为2,输出多尺度特征图;”中的多尺度特征图y(p0)计算公式为:
y(p0)=∑w(pn)x(p0+pn+Δpn)
其中卷积窗口中的每个像素点pn对应权重w,p0代表窗口输出的每个像素点,x是输入层像素点集合,采样位置为pn,可变形卷积利用偏移量Δpn({Δpn|n=1,...,N})来增大规则网格R的感受野,N=|R|表示网格中像素个数,采样偏移位置为pn+Δpn
在另外的一个实施例中,步骤“在ResNet-50的res4f层引入级联RPN网络,定义近尺度RPN和远尺度RPN,级联后提取不同高度的RoIs;”中的级联RPN获取不同高度的RoIs方式如下:级联RPN中锚点的尺度改为32,64,128,256,512,比例为1:2,1:1,2:1,生成15个锚点,通过滑动窗口的方式,RPN-N获取近尺度的行人区域建议(reg-N)和分类得分,然后将reg-N作为RPN-F的输入,RPN-F通过reg-N的区域坐标值在原图片直接获取行人RoIs,得到最终的得分值和行人区域建议。
在另外的一个实施例中,步骤“对每个提取到的行人RoI的高度进行判断,根据级联RPN获取到的图片的输入信息,定义一个尺度判别层,输出近尺度的RoIs-N和远尺度的RoIs-F;”中的尺度判别层判别过程如下:
根据级联RPN获取不同尺度的RoIs,定义每个RoI的边界框j的高度大小为Hj=ymax-ymin;在第m层(m=3,4,5)的平均高度
N表示当前层训练样本数量,i表示一个行人边界框,y表示获取到行人标注框的纵坐标;
引进符号函数ε(x),判断后输出近尺度的RoIs和远尺度的RoIs;
其中,Scalen表示近尺度网络,Scalef表示远尺度网络,如果输入图片中包含的行人感兴趣区域判定为远尺度行人,则激活Scalef,将RoI-F池化后传播到远尺度检测网络中检测;若判定为近尺度行人,则激活Scalen,将RoI-N池化后传播到近尺度检测网络中训练。
在另外的一个实施例中,步骤“尺度判别层分别输出不同尺度的RoI-N和RoI-F,构建一个多尺度感知网络,所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成;”的近尺度检测网络和远尺度检测网络组成为:每个子网络都有两个输出层,对于每个目标建议i,第一个输出层输出离散置信值分布si=(s0,s1),另一层输出每个边界框回归偏移值ti=(tx,ty,tw,th),其中,ti指定相对于对象提议的原始位置和大小的位置转换和边界框偏移值,tx,ty,tw,th分别表示边界框的坐标和宽度与高度。
在另外的一个实施例中,步骤“利用Soft-NMS算法来抑制生成框中的冗余信息。”中,Soft-NMS的计算方法为:
当IoU小于阈值Nt时,检测得分值为si;在IoU大于阈值Nt后,得分值si
si(1-iou(M,bi));
每个训练的行人建议都有一个真实的类别g和一个真实边界框回归目标值t*的标签,多任务损失函数L在每个目标建议i用来联合输出两个检测子网络的参数:
其中Lcls和Lloc分别是分类和边界框回归损失函数,Lcls是Softmax损失函数,输出分类的准确值。
在另外的一个实施例中,步骤“将输入图片尺寸归一化为预定像素,输入到ResNet-50网络的RoIDataLayer,学习行人特征;”中所述预定像素是640x480。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
上述基于改进全卷积网络的多尺度感知行人检测方法,可以在复杂背景下检测出不同尺度的行人,减少交通事故的发生,该方法通过在全卷积网络结构中引进可形变卷积层,通过级联RPN提取多尺度行人建议区域,提出多尺度判别策略,构建一个多尺度感知网络,引进Soft-NMS检测算法,融合每个网络输出的分类值和回归值,输出行人检测的结果。
下面介绍本发明的一个具体应用场景:
学习行人特征:将输入图片尺寸归一化为640×480像素的大小,输入到ResNet-50网络的“RoIDataLayer”,学习行人特征。
提取行人多尺度特征图:在ResNet-50网络中引入可形变卷积,扩大特征图感受野,提取行人多尺度特征图。
在res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层,卷积核大小为3×3,扩张大小为2,步长为1,留白(pad)为2,可形变卷积组为4。传统的卷积输出特征图y(p0)通过等式(1)获得:
y(p0)=∑w(pn)x(p0+pn)) (1)
其中卷积窗口中的每个像素点pn对应权重w,p0代表窗口输出的每个像素点,x是输入层像素点集合,采样位置为pn。可变形卷积利用偏移量Δpn({Δpn|n=1,...,N})来增大规则网格R的感受野,其中N=|R|表示网格中像素个数,如等式(2):
y(p0)=∑w(pn)x(p0+pn+Δpn) (2)
采样偏移位置为pn+Δpn。由于Δpn为分数,所以等式(2)通过双线性插值为
x(p)=∑G(q,p)x(q) (3)
其中p表示任意位置(p=p0+pn+Δpn),q枚举特征图x中的所有整体空间位置,G(·,·)为双线性插值内核,G函数可以分为两个一维内核的乘积
G(q,p)=g(qx,px)g(qy,py)(4)
其中g(x,y)=max(0,1-|x-y|),可以快速计算G(q,p)非零时的q值。
移除了ResNet-50模型的平均池化层,在C3、C4、C5的最后增加了一个随机初始化的1×1卷积,将最后输出通道尺度减少到1024维,实现每个卷积层的特征共享。保留了原始输入图像中的空间信息,RoI池化层将每个RoI池化为固定长度的特征向量,该特征向量前向传播到全连接层,如图2所示。
引进级联RPN网络提取区域建议,然后输入到尺度判别层中,判断当前边界框的类别,是属于近尺度或者远尺度行人。
将锚点的尺度改为32,64,128,256,512,比例为1:2,1:1,2:1,生成15个锚点,用于提取原图片中的不同尺度的RoIs。通过滑动窗口的方式,RPN-N获取行人的区域建议(reg-N)和分类得分(cls-N),然后将reg-N输入到RPN-F中,RPN-F通过获取到的reg-N在原图片获取行人区域,得到最终的得分值(cls-F)和区域建议(reg-F)。对于获取不同尺度的行人RoIs,通过级联RPN的方式,将RPN-N中输出的reg-N作为RPN-F的输入,代替了RPN-F中锚点的结构,直接计算出最终的区域建议(reg-F),相比于滑动窗口的方式,可以很大程度上节省计算的时间,而且比单个RPN提取行人建议的效果好,如图3所示。
对于行人建议j的边界框高度Hj=ymax-ymin。在当前第m层(m=3,4,5)的行人建议的平均高度
(N表示当前层训练样本数量,i表示一个行人边界框,y表示获取到行人标注框的纵坐标)。定义了一个符号函数ε(x)
其中,Scalen表示为近尺度网络,Scalef表示远尺度网络。符号函数ε(x)表示为
如果输入图片中包含的行人感兴趣区域判定为远尺度行人,则激活Scalef,将RoI传播到远尺度网络中检测;若判定为近尺度行人,则激活Scalen,将RoI传播到近尺度网络中训练。由于每张图片会包含多个行人区域,为了减少计算时间,根据当前的判别机制,构建了一个多尺度感知网络(MSAN)。
尺度判别层分别输出不同尺度的RoI-N和RoI-F,为了分别检测不同尺度的RoIs,构建了一个多尺度感知网络。
每个子网络都有两个输出层,对于每个目标建议i,第一个输出层输出离散置信值分布si=(s0,s1),另一层输出每个边界框回归偏移值ti=(tx,ty,tw,th)。其中,ti指定相对于对象提议的原始位置和大小的位置转换和边界框偏移值,tx,ty,tw,th分别表示边界框的坐标和宽度与高度。
引进Soft-NMS算法来抑制生成框中的冗余信息。传统的NMS算法和Soft-NMS的公式如下:
当IoU小于阈值Nt时,检测得分值为si;IoU大于阈值Nt时,得分值为0。该过程被不断递归的应用于其余检测框。根据算法的设计,如果一个物体处于预设的重叠阈值之内,可能会导致检测不到该待检测物体。而Soft-NMS对非最大检测框的检测分数进行衰减而非彻底移除。在IoU大于阈值Nt后,得分值si为si(1-iou(M,bi))。在传统的NMS算法进行简单的改动,而且不增额外的参数,可以提高检测精度1.5%左右和检测速度。
每个训练的行人建议都有一个真实的类别g和一个真实边界框回归目标值t*的标签。多任务损失函数L在每个目标建议i用来联合输出两个检测子网络的参数:
其中Lcls和Lloc分别是分类和边界框回归损失函数。Lcls是Softmax损失函数,输出分类的准确值;Lloc为SmoothL1损失函数,输出边界框坐标和宽高。1[g≥1]当分类值g≥1为1,否则为0。通过联合两个子检测网络(NSN和FSN)的输出,使用Soft-NMS算法输出检测结果,该算法在不同范围的输入尺度下,可以准确的输出检测结果。如图5和下表所示。
表1漏检率与检测速度
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于改进全卷积网络的多尺度感知行人检测方法,其特征在于,包括:
将输入图片尺寸归一化为预定像素,输入到ResNet-50网络的RoIDataLayer,学习行人特征;
ResNet-50网络的前四层用于提取图像中的行人区域,生成不同尺度的特征图;
在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层,卷积核大小为3×3,膨胀大小为2,步长为1,留白为2,输出多尺度特征图y(p0);
分别在C3、C4、C5的最后一层增加一个随机初始化的1×1卷积,将最后输出通道尺度减少到1024维,实现每个卷积层的特征共享;
在ResNet-50的res4f层引入级联RPN网络,定义近尺度RPN和远尺度RPN,级联后提取不同高度的RoIs;
对每个提取到的行人RoI的高度进行判断,根据级联RPN获取到的图片的输入信息,定义一个尺度判别层,输出近尺度的RoIs-N和远尺度的RoIs-F;
尺度判别层分别输出不同尺度的RoI-N和RoI-F,构建一个多尺度感知网络,所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成;
利用Soft-NMS算法来抑制生成框中的冗余信息;
步骤“在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层,卷积核大小为3×3,膨胀大小为2,步长为1,留白为2,输出多尺度特征图;”中的多尺度特征图y(p0)计算公式为:
其中卷积窗口中的每个像素点pn对应权重w,p0代表窗口输出的每个像素点,x是输入层像素点集合,采样位置为pn,可变形卷积利用偏移量Δpn,{Δpn|n=1,...,N1}来增大规则网格R的感受野,N1=|R|表示网格中像素个数,采样偏移位置为pn+Δpn
步骤“在ResNet-50的res4f层引入级联RPN网络,定义近尺度RPN和远尺度RPN,级联后提取不同高度的RoIs;”中的级联RPN获取不同高度的RoIs方式如下:级联RPN中锚点的尺度改为32,64,128,256,512,比例为1:2,1:1,2:1,生成15个锚点,通过滑动窗口的方式,RPN-N获取近尺度的行人区域建议(reg-N)和分类得分,然后将reg-N作为RPN-F的输入,RPN-F通过reg-N的区域坐标值在原图片直接获取行人RoIs,得到最终的得分值和行人区域建议;
步骤“对每个提取到的行人RoI的高度进行判断,根据级联RPN获取到的图片的输入信息,定义一个尺度判别层,输出近尺度的RoIs-N和远尺度的RoIs-F;”中的尺度判别层判别过程如下:
根据级联RPN获取不同尺度的RoIs,定义每个RoI的边界框j的高度大小为Hj=ymax-ymin;在第m层的平均高度,其中,m=3,4,5,
N2表示当前层训练样本数量,i表示一个行人边界框,y表示获取到行人标注框的纵坐标;
引进符号函数ε(x),判断后输出近尺度的RoIs和远尺度的RoIs;
其中,Scalen表示近尺度网络,Scalef表示远尺度网络,如果输入图片中包含的行人感兴趣区域判定为远尺度行人,则激活Scalef,将RoI-F池化后传播到远尺度检测网络中检测;若判定为近尺度行人,则激活Scalen,将RoI-N池化后传播到近尺度检测网络中训练;
步骤“尺度判别层分别输出不同尺度的RoI-N和RoI-F,构建一个多尺度感知网络,所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成;”的近尺度检测网络和远尺度检测网络组成为:每个子网络都有两个输出层,对于每个目标建议i,第一个输出层输出离散置信值分布si=(s0,s1),另一层输出每个边界框回归偏移值ti=(tx,ty,tw,th),其中,ti指定相对于对象提议的原始位置和大小的位置转换和边界框偏移值,tx,ty,tw,th分别表示边界框的坐标和宽度与高度。
2.根据权利要求1所述的基于改进全卷积网络的多尺度感知行人检测方法,其特征在于,步骤“将输入图片尺寸归一化为预定像素,输入到ResNet-50网络的RoIDataLayer,学习行人特征;”中所述预定像素是640x480。
3.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到2任一项所述方法的步骤。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到2任一项所述方法的步骤。
5.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到2任一项所述的方法。
CN201810563873.1A 2018-06-04 2018-06-04 基于改进全卷积网络的多尺度感知行人检测方法 Active CN108830205B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810563873.1A CN108830205B (zh) 2018-06-04 2018-06-04 基于改进全卷积网络的多尺度感知行人检测方法
US16/618,269 US10977521B2 (en) 2018-06-04 2018-06-27 Multi-scale aware pedestrian detection method based on improved full convolutional network
PCT/CN2018/093046 WO2019232836A1 (zh) 2018-06-04 2018-06-27 基于改进全卷积网络的多尺度感知行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810563873.1A CN108830205B (zh) 2018-06-04 2018-06-04 基于改进全卷积网络的多尺度感知行人检测方法

Publications (2)

Publication Number Publication Date
CN108830205A CN108830205A (zh) 2018-11-16
CN108830205B true CN108830205B (zh) 2019-06-14

Family

ID=64143628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810563873.1A Active CN108830205B (zh) 2018-06-04 2018-06-04 基于改进全卷积网络的多尺度感知行人检测方法

Country Status (3)

Country Link
US (1) US10977521B2 (zh)
CN (1) CN108830205B (zh)
WO (1) WO2019232836A1 (zh)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522855B (zh) * 2018-11-23 2020-07-14 广州广电银通金融电子科技有限公司 结合ResNet和SENet的低分辨率行人检测方法、系统及存储介质
CN109598220B (zh) * 2018-11-26 2021-07-30 山东大学 一种基于多元输入多尺度卷积的人数统计方法
CN109583517A (zh) * 2018-12-26 2019-04-05 华东交通大学 一种适用于小目标检测的增强的全卷积实例语义分割算法
CN109670555B (zh) * 2018-12-27 2023-07-07 吉林大学 基于深度学习的实例级行人检测和行人重识别系统
CN109741318B (zh) * 2018-12-30 2022-03-29 北京工业大学 基于有效感受野的单阶段多尺度特定目标的实时检测方法
CN110009599A (zh) * 2019-02-01 2019-07-12 腾讯科技(深圳)有限公司 肝占位检测方法、装置、设备及存储介质
CN109948480A (zh) * 2019-03-05 2019-06-28 中国电子科技集团公司第二十八研究所 一种针对任意四边形的非极大值抑制方法
CN110348543B (zh) * 2019-06-10 2023-01-06 腾讯医疗健康(深圳)有限公司 眼底图像识别方法、装置、计算机设备及存储介质
CN110472640B (zh) * 2019-08-15 2022-03-15 山东浪潮科学研究院有限公司 一种目标检测模型预测框处理方法及装置
CN110533000A (zh) * 2019-09-06 2019-12-03 厦门美图之家科技有限公司 人脸图像检测方法、装置、计算机设备和可读存储介质
CN110610509B (zh) * 2019-09-18 2023-07-21 上海大学 可指定类别的优化抠图方法及系统
CN110728200B (zh) * 2019-09-23 2023-06-06 武汉大学 一种基于深度学习的实时行人检测方法及系统
CN112989898A (zh) * 2019-12-18 2021-06-18 中国船舶重工集团公司第七一一研究所 图像处理方法、系统、计算机设备、可读存储介质与船舶
CN111144376B (zh) * 2019-12-31 2023-12-05 华南理工大学 视频目标检测特征提取方法
CN111401163B (zh) * 2020-03-04 2022-04-15 南京林业大学 基于多尺度注意力感知卷积网络的目标数量统计方法
CN111738069A (zh) * 2020-05-13 2020-10-02 北京三快在线科技有限公司 人脸检测方法、装置、电子设备及存储介质
CN112001878A (zh) * 2020-05-21 2020-11-27 合肥合工安驰智能科技有限公司 基于二值化神经网络的深度学习矿石尺度测量方法及应用系统
CN111723743A (zh) * 2020-06-19 2020-09-29 北京邮电大学 一种小尺度行人快速检测方法
CN111738336B (zh) * 2020-06-22 2024-04-05 上海应用技术大学 基于多尺度特征融合的图像检测方法
CN111914924B (zh) * 2020-07-28 2024-02-06 西安电子科技大学 一种快速舰船目标检测方法、存储介质及计算设备
CN112132258B (zh) * 2020-08-26 2022-06-24 中国海洋大学 一种基于可变形卷积的多任务图像处理方法
CN112115862B (zh) * 2020-09-18 2023-08-29 广东机场白云信息科技有限公司 一种结合密度估计的拥挤场景行人检测方法
CN112163499A (zh) * 2020-09-23 2021-01-01 电子科技大学 一种基于融合特征的小目标行人检测方法
CN111931729B (zh) * 2020-09-23 2021-01-08 平安国际智慧城市科技股份有限公司 基于人工智能的行人检测方法、装置、设备及介质
CN112132093B (zh) * 2020-09-30 2024-01-05 湖南省气象科学研究所 高分辨率遥感图像目标检测方法、装置和计算机设备
CN112418271A (zh) * 2020-10-28 2021-02-26 北京迈格威科技有限公司 一种目标检测方法、装置、系统及存储介质
CN112446308A (zh) * 2020-11-16 2021-03-05 北京科技大学 基于语义增强的多尺度特征金字塔融合的行人检测方法
CN112381021B (zh) * 2020-11-20 2022-07-12 安徽一视科技有限公司 一种基于深度学习的人员检测计数方法
KR102427634B1 (ko) * 2020-12-15 2022-08-02 주식회사 써로마인드 변형가능 컨벌루션 네트워크를 정적 계산 기법을 사용하여 최적화한 BSDCN(Bounded Static Deformable Convolution Network)의 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN112686107A (zh) * 2020-12-21 2021-04-20 中国铁道科学研究院集团有限公司电子计算技术研究所 隧道入侵物体检测方法及装置
CN112651490B (zh) * 2020-12-28 2024-01-05 深圳万兴软件有限公司 人脸关键点检测模型的训练方法及设备、可读存储介质
CN112861915A (zh) * 2021-01-13 2021-05-28 北京航空航天大学 一种基于高级语义特征无锚框非合作目标检测方法
CN112364855B (zh) * 2021-01-14 2021-04-06 北京电信易通信息技术股份有限公司 一种基于多尺度特征融合的视频目标检测方法及系统
CN112949486B (zh) * 2021-03-01 2022-05-17 八维通科技有限公司 基于神经网络的智能交通数据处理方法及装置
CN112818942B (zh) * 2021-03-05 2022-11-18 清华大学 一种车辆行驶过程中行人动作识别方法和系统
CN113158789B (zh) * 2021-03-15 2023-08-25 华南理工大学 一种遥感图像的目标检测方法、系统、装置及介质
CN113033638A (zh) * 2021-03-16 2021-06-25 苏州海宸威视智能科技有限公司 一种基于感受野感知的无锚点框目标检测方法
CN113095479B (zh) * 2021-03-22 2024-03-12 北京工业大学 一种基于多尺度注意力机制的冰下层结构提取方法
CN112906658A (zh) * 2021-03-30 2021-06-04 航天时代飞鸿技术有限公司 一种无人机侦查地面目标的轻量化自动检测方法
CN113191204B (zh) * 2021-04-07 2022-06-17 华中科技大学 一种多尺度遮挡行人检测方法及系统
CN113033500B (zh) * 2021-05-06 2021-12-03 成都考拉悠然科技有限公司 动作片段检测方法、模型训练方法及装置
CN113222003B (zh) * 2021-05-08 2023-08-01 北方工业大学 一种基于rgb-d的室内场景逐像素语义分类器构造方法及系统
CN113505640A (zh) * 2021-05-31 2021-10-15 东南大学 一种基于多尺度特征融合的小尺度行人检测方法
CN113326779B (zh) * 2021-05-31 2024-03-22 中煤科工集团沈阳研究院有限公司 一种井下巷道积水检测识别方法
CN113343846B (zh) * 2021-06-04 2024-03-15 温州大学 一种基于深浅层特征融合的反光衣检测系统
CN113435266B (zh) * 2021-06-09 2023-09-01 东莞理工学院 基于极值点特征增强的fcos智能目标检测方法
CN113378704B (zh) * 2021-06-09 2022-11-11 武汉理工大学 一种多目标检测方法、设备及存储介质
CN113255589B (zh) * 2021-06-25 2021-10-15 北京电信易通信息技术股份有限公司 一种基于多卷积融合网络的目标检测方法及系统
CN113469973A (zh) * 2021-06-30 2021-10-01 佛山市南海区广工大数控装备协同创新研究院 一种基于erfam-yolov3网络结构的pcb电子元件的检测方法
CN113516076B (zh) * 2021-07-12 2023-09-01 大连民族大学 一种基于注意力机制改进的轻量化YOLO v4安全防护检测方法
CN113469286A (zh) * 2021-07-27 2021-10-01 北京信息科技大学 一种基于区域卷积神经网络的航天器多局部构件检测方法
CN113705359B (zh) * 2021-08-03 2024-05-03 江南大学 一种基于洗衣机滚筒图像的多尺度衣物检测系统及方法
CN113705361A (zh) * 2021-08-03 2021-11-26 北京百度网讯科技有限公司 活体检测模型的方法、装置及电子设备
CN113743470B (zh) * 2021-08-04 2022-08-23 浙江联运环境工程股份有限公司 自动破袋分类箱基于ai算法垃圾识别精度提升方法
CN113705583B (zh) * 2021-08-16 2024-03-22 南京莱斯电子设备有限公司 一种基于卷积神经网络模型的目标检测识别方法
CN113610037A (zh) * 2021-08-17 2021-11-05 北京计算机技术及应用研究所 一种基于头部和可见区域线索的遮挡行人检测方法
CN113657587B (zh) * 2021-08-17 2023-09-26 上海大学 基于fpga的可变形卷积加速方法及装置
CN113723400A (zh) * 2021-08-23 2021-11-30 中南大学 一种基于红外图像的电解槽极板故障识别方法、系统、终端及可读存储介质
CN113971731A (zh) * 2021-10-28 2022-01-25 燕山大学 一种目标检测方法、装置及电子设备
CN113822278B (zh) * 2021-11-22 2022-02-11 松立控股集团股份有限公司 一种无受限场景车牌识别方法
CN114332697A (zh) * 2021-12-19 2022-04-12 西安科技大学 输电线路中多类目标故障检测方法、系统、设备及介质
CN114155246B (zh) * 2022-02-10 2022-06-14 国网江西省电力有限公司电力科学研究院 一种基于可变形卷积的输电塔销钉缺陷检测方法
CN114782986B (zh) * 2022-03-28 2024-04-26 佳源科技股份有限公司 基于深度学习的安全帽佩戴检测方法、装置、设备及介质
CN114743045B (zh) * 2022-03-31 2023-09-26 电子科技大学 一种基于双分支区域建议网络的小样本目标检测方法
CN115147664A (zh) * 2022-07-28 2022-10-04 哈尔滨市科佳通用机电股份有限公司 一种铁路货车制动阀防盗罩脱落的故障图像识别方法
CN115082713B (zh) * 2022-08-24 2022-11-25 中国科学院自动化研究所 引入空间对比信息的目标检测框提取方法、系统及设备
CN115272665B (zh) * 2022-09-27 2023-03-24 南京信息工程大学 一种基于改进ssd算法的交通障碍检测方法和系统
CN116524420B (zh) * 2023-07-03 2023-09-12 武汉大学 一种交通场景下的关键目标检测方法及系统
CN116612122B (zh) * 2023-07-20 2023-10-10 湖南快乐阳光互动娱乐传媒有限公司 图像显著性区域的检测方法及装置、存储介质及电子设备
CN117475389B (zh) * 2023-12-27 2024-03-15 山东海润数聚科技有限公司 一种人行横道信号灯的控制方法、系统、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874894A (zh) * 2017-03-28 2017-06-20 电子科技大学 一种基于区域全卷积神经网络的人体目标检测方法
CN108090417A (zh) * 2017-11-27 2018-05-29 上海交通大学 一种基于卷积神经网络的人脸检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN108073929B (zh) * 2016-11-15 2023-11-24 北京三星通信技术研究有限公司 基于动态视觉传感器的物体检测方法及设备
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874894A (zh) * 2017-03-28 2017-06-20 电子科技大学 一种基于区域全卷积神经网络的人体目标检测方法
CN108090417A (zh) * 2017-11-27 2018-05-29 上海交通大学 一种基于卷积神经网络的人脸检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于全卷积神经网络的人脸检测算法研究;卫露宁;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20180115;第2018年卷(第1期);I138-1243

Also Published As

Publication number Publication date
WO2019232836A1 (zh) 2019-12-12
CN108830205A (zh) 2018-11-16
US10977521B2 (en) 2021-04-13
US20210056351A1 (en) 2021-02-25

Similar Documents

Publication Publication Date Title
CN108830205B (zh) 基于改进全卷积网络的多尺度感知行人检测方法
CN108549891B (zh) 基于背景与目标先验的多尺度扩散显著目标检测方法
CN105069746B (zh) 基于局部仿射和颜色迁移技术的视频实时人脸替换方法及其系统
CN104572804B (zh) 一种视频物体检索的方法及其系统
US8213679B2 (en) Method for moving targets tracking and number counting
CN103942577B (zh) 视频监控中基于自建立样本库及混合特征的身份识别方法
CN103617426B (zh) 一种自然环境干扰和有遮挡时的行人目标检测方法
CN108961229A (zh) 基于深度学习的心血管oct影像易损失斑块检测方法及系统
CN109978882A (zh) 一种基于多模态融合的医疗影像目标检测方法
CN109800628A (zh) 一种加强ssd小目标行人检测性能的网络结构及检测方法
CN106156744A (zh) 基于cfar检测与深度学习的sar目标检测方法
CN107016357A (zh) 一种基于时间域卷积神经网络的视频行人检测方法
CN105447529A (zh) 一种服饰检测及其属性值识别的方法和系统
CN107730515A (zh) 基于区域增长和眼动模型的全景图像显著性检测方法
CN112766184B (zh) 基于多层级特征选择卷积神经网络的遥感目标检测方法
JP2006524394A (ja) 画像における人体輪郭描写
CN107491734A (zh) 基于多核融合与空间Wishart LapSVM的半监督极化SAR图像分类方法
CN106228569A (zh) 一种适用于水质监测的鱼体运动速度检测方法
CN108256462A (zh) 一种商场监控视频中的人数统计方法
CN110096961A (zh) 一种超像素级别的室内场景语义标注方法
CN111160111A (zh) 一种基于深度学习的人体关键点检测方法
Lam Methodologies for mapping land cover/land use and its change
CN109712149A (zh) 一种基于小波能量和模糊c均值的图像分割方法
CN109117717A (zh) 一种城市行人检测方法
CN108734200A (zh) 基于bing特征的人体目标视觉检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant