CN108133235B - 一种基于神经网络多尺度特征图的行人检测方法 - Google Patents

一种基于神经网络多尺度特征图的行人检测方法 Download PDF

Info

Publication number
CN108133235B
CN108133235B CN201711396890.2A CN201711396890A CN108133235B CN 108133235 B CN108133235 B CN 108133235B CN 201711396890 A CN201711396890 A CN 201711396890A CN 108133235 B CN108133235 B CN 108133235B
Authority
CN
China
Prior art keywords
network
pedestrian
pedestrian detection
layers
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711396890.2A
Other languages
English (en)
Other versions
CN108133235A (zh
Inventor
舒泓新
蔡晓东
陈昀
王秀英
贺光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinaccs Information Industry Co ltd
Original Assignee
Chinaccs Information Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinaccs Information Industry Co ltd filed Critical Chinaccs Information Industry Co ltd
Priority to CN201711396890.2A priority Critical patent/CN108133235B/zh
Publication of CN108133235A publication Critical patent/CN108133235A/zh
Application granted granted Critical
Publication of CN108133235B publication Critical patent/CN108133235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于神经网络多尺度特征图的行人检测方法,检测方法为:收集行人检测样本;对选取的视频进行截帧处理,仅保留含有行人的图片;制作样本标签;搭建轻量化残差特征提取网络;搭建多尺度特征图行人检测网络;对搭建的特征提取网络在样本数据集进行网络预训练;将训练好的特征提取网络与搭建的检测网络进行拼接,使用准备好的行人训练数据集进行最终的网络训练。本发明的有益效果是:本发明的检测方法是将残差网络作为特征提取网络,并与多尺度特征图行人检测网络进行拼接,能够在场景复杂、行人尺度变化大情况下进行检测,且准确率高、检测效率高等优势。

Description

一种基于神经网络多尺度特征图的行人检测方法
技术领域
本发明涉及图像识别技术领域,特别涉及一基于神经网络多尺度特征图的行人检测方法。
背景技术
随着经济的发展,科技的进步,人们越来越希望计算机具有智能化,使其能够相比人类更有效、准确的处理问题。在计算机智能化的领域中,计算机视觉的智能化是很重要的一个部分。如今汽车自动驾驶、无人商店、机器人自动化等应用都与计算机视觉智能化息息相关,智能化目标检测技术是这些应用需解决的核心问题之一。目前,传统的行人检测方法,通过提取HOG、LBP、Haar等特征来训练分类器,得到的模型对姿态变化小的行人有着较好的检测率,但是鲁棒性不高。
发明内容
为了能够大幅提高在场景复杂、行人尺度变化大情况下的行人检测效率,本发明提供了一种能够在复杂场景等情况下进行行人检测且准确率高、检测效率高的基于神经网络多尺度特征图的行人检测方法。
为了实现上述发明目的,本发明提供了一种基于神经网络多尺度特征图的行人检测方法,所述检测方法为:
步骤S1:收集行人检测样本;对选取的视频进行截帧处理,对含有行人的图片保留并构成行人检测数据集,不含行人的图片丢弃;其中,所选的视频为多种实时场景监控视频,且视频需要不同分辨率,防止训练时网络过拟合;
步骤S2:制作样本标签,对行人检测数据集中一张图片中的每一个行人目标的坐标保存到xml格式的标签文件;
步骤S3:搭建轻量化残差特征提取网络;
步骤S4:搭建多尺度特征图行人检测网络;
步骤S5:对步骤S3搭建的特征提取网络在imagenet数据集进行网络预训练;
步骤S6:将步骤S5训练好的特征提取网络与步骤S4搭建的检测网络进行拼接,使用准备好的行人训练数据集进行拼接的网络中训练,得到最终收敛的网络模型。
具体的,将待检测视频依次按照步骤S1、步骤S2处理后,输入到步骤S6中最终收敛的网络模型中,得到行人检测结果;检测结果的准确率,可通过行人检测结果的行人数目与实际真人总数的比值来判定。
其中,步骤S1中所述的截帧处理,具体为:对每个视频3秒截取一帧并保存为jpg图片格式。对保存的图片进行检查,将不含有行人的图片删除。
其中,所述步骤S2中所述的制作样本标签,具体为:将一张图片中每个行人目标左上角、右下角的坐标写入xml文件进行保存,保存xml文件名与图片名一致;可使用python的xml.dom模块来构建xml标签文件,文件内容需包括图片名称、行人目标左上角和右下角坐标。
其中,所述步骤S3中的轻量化残差特征提取网络具体为:将残差网络使用的普通3*3卷积层替换为先使用1*1的卷积层,然后对卷积输出的每一个通道进行3*3的独立卷积,最后将所有3*3的独立卷积层的输出拼接;将原有残差网络中的卷积核替换成多个互相独立的卷积核,本发明的网络形式在准确率下降很小的情况下大大减少网络大小,提高检测速度。
其中,所述步骤S4中,所述多尺度特征行人检测网络,由3个卷积核为3*3卷积层组成,每个卷积层再接两个卷积层;两个卷基层中,其中一个后接smothL1loss进行坐标回归用于预测行人位置,另一个后接softmax loss进行分类用于判断默认框是否含有行人。
其中,所述步骤S4的所述行人检测网络,用于对每一尺度的每一张特征图,按照不同默认框的大小和长宽比生成k个默认框,对默认框和标签文件中的行人坐标进行jaccard计算,结果大于0.7的作为正样本,小于等于0.7的样本作为负样本。
其中,所述默认框以滑动形式遍历整张特征图,使用5个不同层的特征图来做预测,遍历最底层的特征图的默认框缩放系数为Smax,遍历最高层的特征图的默认框缩放系数为Smin,其他中间层的特征图的默认框缩放系数通过下面公式计算得到:
Figure BDA0001518680970000031
每个默认框有着不同的长宽比,用c来表示:
Figure BDA0001518680970000032
所以每个默认框的长宽为:
Figure BDA0001518680970000033
Figure BDA0001518680970000034
其中,Smax为最底层的特征图的默认框缩放系数,Smin为最高层的特征图的默认框缩放系数,m为用来进行预测的不同层特征图的层数。
其中,所述步骤S5中,所述特征提取网络在imagenet数据集进行网络预训练时,使用一种多分类的逻辑回归进行分类训练:
xi=xi-max(x1,...,xn)
Figure BDA0001518680970000035
Loss=-log pk
并对其加入一个约束项,相当于把每一个输入样本都自动配了一个类中心
Figure BDA0001518680970000036
公式中,n为类别数,cyi表示第yi个类别的特征中心,xi表示全连接层之前的特征。
其中,所述步骤S6中,所述特征提取网络与所述检测网络进行拼接,具体为:将所述特征提取网络的最后两层的全连接成利用astrous算法转换成卷积层并与所述检测网络连接;所述特征提取网络的最后5层卷积层作为多尺度特征图行人检测网络的输入层。
本发明的有益效果是:本发明的检测方法是将残差网络作为特征提取网络,并与多尺度特征图行人检测网络进行拼接,能够在场景复杂、行人尺度变化大情况下进行检测,且准确率高、检测效率高等优势。
附图说明
图1为本发明实施例中轻量化残差特征提取网络的结构示意图。
具体实施方式
近年来,基于卷积神经网络的方法在计算机视觉领域取得了巨大的成就,例如:目标检测、特征匹配、姿态估计和许多其他任务。为了能够大幅度提高现有行人检测效率,本发明提出一种基于神经网络多尺度特征图的行人检测方法,将残差网络作为特征提取网络,并与多尺度特征图行人检测网络进行拼接,能够在场景复杂、行人尺度变化大情况下进行检测,且准确率高、检测效率高等优势,特别是检测速度能提高4倍。
为能清楚说明本方案的技术特点,下面通过具体实施方式,对本方案进行阐述。
本发明实施例提供了一种基于神经网络多尺度特征图的行人检测方法,检测方法为:
步骤S1:收集行人检测样本;对选取的视频进行截帧处理,对含有行人的图片保留并构成行人检测数据集,不含行人的图片丢弃;其中,所选的视频为多种实时场景监控视频,且视频需要不同分辨率,防止训练时网络过拟合;
步骤S2:制作样本标签,对行人检测数据集中一张图片中的每一个行人目标的坐标保存到xml格式的标签文件;
步骤S3:搭建轻量化残差特征提取网络;
步骤S4:搭建多尺度特征图行人检测网络;
步骤S5:对步骤S3搭建的特征提取网络在imagenet数据集进行网络预训练;
步骤S6:将步骤S5训练好的特征提取网络与步骤S4搭建的检测网络进行拼接,使用准备好的行人训练数据集进行拼接的网络中训练,得到最终收敛的网络模型。
具体的,将待检测视频依次按照步骤S1、步骤S2处理后,输入到步骤S6中最终收敛的网络模型中,得到行人检测结果。检测结果的准确率,可通过行人检测结果的行人数目与实际真人总数的比值来判定。
其中,步骤S1中的截帧处理,具体为:对每个视频3秒截取一帧并保存为jpg图片格式。对保存的图片进行检查,将不含有行人的图片删除。
其中,步骤S2中的制作样本标签,具体为:将一张图片中每个行人目标左上角、右下角的坐标写入xml文件进行保存,保存xml文件名与图片名一致;可使用python的xml.dom模块来构建xml标签文件,文件内容需包括图片名称、行人目标左上角和右下角坐标。
其中,步骤S3中的轻量化残差特征提取网络(如图1所示),具体为:将残差网络使用的普通3*3卷积层替换为先使用1*1的卷积层,然后对卷积输出的每一个通道进行3*3的独立卷积,最后将所有3*3的独立卷积层的输出拼接;将原有残差网络中的卷积核替换成多个互相独立的卷积核,本发明的网络形式在准确率下降很小的情况下大大减少网络大小,提高检测速度。
其中,步骤S4中,多尺度特征行人检测网络,由3个卷积核为3*3卷积层组成,每个卷积层再接两个卷积层;两个卷基层中,其中一个后接smothL1loss进行坐标回归用于预测行人位置,另一个后接softmax loss进行分类用于判断默认框是否含有行人。
其中,步骤S4的行人检测网络,用于对每一尺度的每一张特征图,按照不同默认框的大小和长宽比生成5个默认框,对默认框和标签文件中的行人坐标进行jaccard计算,结果大于0.7的作为正样本,小于等于0.7的样本作为负样本。其中,“每一尺度”即为特征图的尺寸。
其中,默认框以滑动形式遍历整张特征图,使用5个不同层的特征图来做预测,遍历最底层的特征图的默认框缩放系数Smax为0.2,遍历最高层的特征图的默认框缩放系数Smin为0.9,其他中间层的特征图的默认框缩放系数通过下面公式计算得到:
Figure BDA0001518680970000051
每个默认框有着不同的长宽比,用c来表示:
Figure BDA0001518680970000052
所以每个默认框的长宽为:
Figure BDA0001518680970000053
Figure BDA0001518680970000054
其中,m为用来进行预测的不同层特征图的层数。
其中,步骤S5中,特征提取网络在imagenet数据集进行网络预训练时,使用一种多分类的逻辑回归进行分类训练:
xi=xi-max(x1,...,xn)
Figure BDA0001518680970000061
Loss=-log pk
并对其加入一个约束项,相当于把每一个输入样本都自动配了一个类中心
Figure BDA0001518680970000062
公式中,n为类别数,cyi表示第yi个类别的特征中心,xi表示全连接层之前的特征。
其中,步骤S6中,特征提取网络与检测网络进行拼接,具体为:将特征提取网络的最后两层的全连接成利用astrous算法转换成卷积层并与检测网络连接;特征提取网络的最后5层卷积层作为多尺度特征图行人检测网络的输入层。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于神经网络多尺度特征图的行人检测方法,其特征在于,所述检测方法为:
步骤S1:收集行人检测样本;对选取的视频进行截帧处理,对含有行人的图片保留并构成行人检测数据集,不含行人的图片丢弃;
步骤S2:制作样本标签,对行人检测数据集中一张图片中的每一个行人目标的坐标保存到xml格式的标签文件;
步骤S3:搭建轻量化残差特征提取网络;
步骤S4:搭建多尺度特征图行人检测网络;
步骤S5:对步骤S3搭建的特征提取网络在imagenet数据集进行网络预训练;
步骤S6:将步骤S5训练好的特征提取网络与步骤S4搭建的检测网络进行拼接,使用准备好的行人训练数据集进行最终的网络训练;
其中,所述步骤S3中的轻量化残差特征提取网络具体为:将残差网络使用的普通3*3卷积层替换为先使用1*1的卷积层,然后对卷积输出的每一个通道进行3*3的独立卷积,最后将所有3*3的独立卷积层的输出拼接;
其中,默认框以滑动形式遍历整张特征图,使用5个不同层的特征图来做预测,遍历最底层的特征图的默认框缩放系数为Smax,遍历最高层的特征图的默认框缩放系数为Smin,其他中间层的特征图的默认框缩放系数通过下面公式计算得到:
Figure FDA0002969017480000011
每个默认框有着不同的长宽比,用c来表示:
Figure FDA0002969017480000012
所以每个默认框的长宽为:
Figure FDA0002969017480000013
Figure FDA0002969017480000014
其中,Smax为最底层的特征图的默认框缩放系数,Smin为最高层的特征图的默认框缩放系数,m为用来进行预测的不同层特征图的层数。
2.根据权利要求1所述的行人检测方法,其特征在于,步骤S1中所述的截帧处理,具体为:对每个视频3秒截取一帧并保存为jpg图片格式。
3.根据权利要求1所述的行人检测方法,其特征在于,所述步骤S2中所述的制作样本标签,具体为:将一张图片中每个行人目标左上角、右下角的坐标写入xml文件进行保存,保存xml文件名与图片名一致。
4.根据权利要求1所述的行人检测方法,其特征在于,所述步骤S4中,所述多尺度特征图行人检测网络,由3个卷积核为3*3卷积层组成,每个卷积层再接两个卷积层;两个卷积层中,其中一个后接smothL1loss进行坐标回归用于预测行人位置,另一个后接softmax loss进行分类用于判断默认框是否含有行人。
5.根据权利要求1所述的行人检测方法,其特征在于,所述步骤S4的所述行人检测网络,用于对每一尺度的每一张特征图,按照不同默认框的大小和长宽比生成k个默认框,对默认框和标签文件中的行人坐标进行jaccard计算,结果大于0.7的作为正样本,小于等于0.7的样本作为负样本。
6.根据权利要求1所述的行人检测方法,其特征在于,所述步骤S5中,所述特征提取网络在imagenet数据集进行网络预训练时,使用一种多分类的逻辑回归进行分类训练:
xi=xi-max(x1,...,xn)
Figure FDA0002969017480000021
Loss=-log pk
并对其加入一个约束项,相当于把每一个输入样本都自动配了一个类中心
Figure FDA0002969017480000022
其中,公式中,n为类别数,cyi表示第yi个类别的特征中心,xi表示全连接层之前的特征。
7.根据权利要求1-6任一项所述的行人检测方法,其特征在于,所述步骤S6中,所述特征提取网络与所述检测网络进行拼接,具体为:将所述特征提取网络的最后两层的全连接层利用astrous算法转换成卷积层并与所述检测网络连接;所述特征提取网络的最后5层卷积层作为多尺度特征图行人检测网络的输入层。
CN201711396890.2A 2017-12-21 2017-12-21 一种基于神经网络多尺度特征图的行人检测方法 Active CN108133235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711396890.2A CN108133235B (zh) 2017-12-21 2017-12-21 一种基于神经网络多尺度特征图的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711396890.2A CN108133235B (zh) 2017-12-21 2017-12-21 一种基于神经网络多尺度特征图的行人检测方法

Publications (2)

Publication Number Publication Date
CN108133235A CN108133235A (zh) 2018-06-08
CN108133235B true CN108133235B (zh) 2021-09-10

Family

ID=62391312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711396890.2A Active CN108133235B (zh) 2017-12-21 2017-12-21 一种基于神经网络多尺度特征图的行人检测方法

Country Status (1)

Country Link
CN (1) CN108133235B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299366B (zh) * 2018-09-28 2019-07-30 西安交通大学深圳研究院 一种基于内容相似度实时计算的网络数据分类推荐系统
CN109447962A (zh) * 2018-10-22 2019-03-08 天津工业大学 一种基于卷积神经网络的眼底图像硬性渗出物病变检测方法
CN109740413B (zh) * 2018-11-14 2023-07-28 平安科技(深圳)有限公司 行人重识别方法、装置、计算机设备及计算机存储介质
CN109635717A (zh) * 2018-12-10 2019-04-16 天津工业大学 一种基于深度学习的矿用行人检测方法
CN110570350A (zh) * 2019-09-11 2019-12-13 深圳开立生物医疗科技股份有限公司 一种二维卵泡检测方法、装置和超声设备及可读存储介质
CN113516655B (zh) * 2021-09-13 2022-01-18 常州市宏发纵横新材料科技股份有限公司 基于YOLOv4-Tiny神经网络的布面缺陷检测方法、装置及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9718401B2 (en) * 2012-11-30 2017-08-01 Tae Won Kim Foldable emergency road sign
CN106874894B (zh) * 2017-03-28 2020-04-14 电子科技大学 一种基于区域全卷积神经网络的人体目标检测方法
CN107169421B (zh) * 2017-04-20 2020-04-28 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
CN107145908B (zh) * 2017-05-08 2019-09-03 江南大学 一种基于r-fcn的小目标检测方法

Also Published As

Publication number Publication date
CN108133235A (zh) 2018-06-08

Similar Documents

Publication Publication Date Title
CN108133235B (zh) 一种基于神经网络多尺度特征图的行人检测方法
US20220092351A1 (en) Image classification method, neural network training method, and apparatus
CN109934173B (zh) 表情识别方法、装置及电子设备
CN108460356B (zh) 一种基于监控系统的人脸图像自动处理系统
CN108647665B (zh) 基于深度学习的航拍车辆实时检测方法
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN112150821B (zh) 轻量化车辆检测模型构建方法、系统及装置
CN110414344B (zh) 一种基于视频的人物分类方法、智能终端及存储介质
CN110852368A (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN114220035A (zh) 一种基于改进yolo v4的快速害虫检测方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN113128558B (zh) 基于浅层空间特征融合与自适应通道筛选的目标检测方法
CN110555420B (zh) 一种基于行人区域特征提取和重识别融合模型网络及方法
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及系统
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN112784756B (zh) 人体识别跟踪方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN112597920A (zh) 基于YOLOv3剪枝网络的实时物体检测系统
WO2023036157A1 (en) Self-supervised spatiotemporal representation learning by exploring video continuity
CN114677687A (zh) 一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法
CN116129291A (zh) 一种面向无人机畜牧的图像目标识别方法及其装置
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN110533074B (zh) 一种基于双深度神经网络的图片类别自动标注方法及系统
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant