CN111339967B - 一种基于多视域图卷积网络的行人检测方法 - Google Patents

一种基于多视域图卷积网络的行人检测方法 Download PDF

Info

Publication number
CN111339967B
CN111339967B CN202010131268.4A CN202010131268A CN111339967B CN 111339967 B CN111339967 B CN 111339967B CN 202010131268 A CN202010131268 A CN 202010131268A CN 111339967 B CN111339967 B CN 111339967B
Authority
CN
China
Prior art keywords
convolution
characteristic
size
feature
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010131268.4A
Other languages
English (en)
Other versions
CN111339967A (zh
Inventor
刘占文
沈超
高涛
樊星
徐江
王润民
窦瑞娟
阿比
班邵雄
齐明远
曾高文
范颂华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changan University
Original Assignee
Changan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changan University filed Critical Changan University
Priority to CN202010131268.4A priority Critical patent/CN111339967B/zh
Publication of CN111339967A publication Critical patent/CN111339967A/zh
Application granted granted Critical
Publication of CN111339967B publication Critical patent/CN111339967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于多视域图卷积网络的行人检测方法,采用卷积神经网络从待处理图像进行特征提取,对提取的特征图像进行多次池化、卷积处理得到预处理特征图像,然后采用多视域池化金字塔提取中得到的预处理特征图像的多尺度特征信息特征图,然后进行人体图卷积得到多个人体图卷积后的特征图,采用Nbox个锚点的预测框分别对人体图卷积后的特征图中的人体目标区域进行预测并识别,完成预测框及预测类别概率值,使用最大池化构建多视域特征金字塔,提高了检测效率,本发明能够有效且高效地处理行人检测中的尺度变化和遮挡问题。

Description

一种基于多视域图卷积网络的行人检测方法
技术领域
本发明属于目标检测技术领域,具体涉及一种基于多视域图卷积网络的行人检测方法。
背景技术
随着深度学习的出现,一般目标检测已经取得了很大进展,目前已经提出了各种图像处理和基于机器学习的方法来改善目标检测的性能,尽管这些方法显示了很好的结果,但考虑到它们的计算成本,仍然难以在实时系统中使用它们。而且当其应用于遮挡行人检测任务时仍然存在一些限制。
行人检测是智能交通系统的重要组成部分,可用于告知驾驶员道路上个人的位置,以便更安全地进行驾驶。尽管一些基于深度CNN的方法在一般目标检测方面获得了很好的性能提升,但在应用于遮挡行人检测任务时仍存在一些局限性。由于准确检测行人在自动驾驶和监视等各种应用中具有很大的潜力,因此需要对其进行广泛研究,处理尺度变化和遮挡问题。一个限制是行人尺度可以在一个框架内大幅度变化,这使得难以实时准确地检测。此外,遮挡是行人检测的另一个限制。
发明内容
本发明的目的在于提供一种基于多视域图卷积网络的行人检测方法,以克服现有行人检测中的尺度变化和遮挡问题。
为达到上述目的,本发明采用如下技术方案:
一种基于多视域图卷积网络的行人检测方法,包括以下步骤:
步骤1)、采用卷积神经网络从待处理图像进行特征提取,对提取的特征图像进行多次池化、卷积处理得到预处理特征图像;
步骤2)、采用多视域池化金字塔提取步骤1)中得到的预处理特征图像的多尺度特征信息特征图;
步骤3)、在步骤1)中提取的特征图像进行倒数第二次池化、卷积处理得到特征图像和步骤2)中得到的多尺度特征信息图上分别建立人体部位图模型,然后进行人体图卷积得到多个人体图卷积后的特征图;
步骤4)、采用Nbox个锚点的预测框分别对人体图卷积后的特征图中的人体目标区域进行预测并识别,完成预测框及预测类别概率值,即完成行人目标的检测。
进一步的,构建多分辨率和多视域特征金字塔模型,包含四个用于对采集的特征图的空间大小进行下采样的最大池化层,利用四个最大池化层依次进行池化后得到具有不同空间分辨率的五个特征图。
进一步的,具体包括以下步骤:
步骤1.1,采用卷积神经网络将待处理图像缩放至分辨率为300×300得到缩放后的图像A;
步骤1.2,采用2组卷积层对图像A进行卷积得到300×300大小的特征图像B,每组卷积采用64个卷积核;
步骤1.3,对特征图像B进行池化,得到分辨率为150×150的特征图像BP,并采用2组卷积层对特征图像BP进行卷积,每组卷积采用128个卷积核,得到150×150大小的特征图像C;
步骤1.4,对特征图像C进行池化,得到分辨率为75×75的特征图像CP,并采用3组卷积层对特征图像CP进行卷积,每组卷积采用256个卷积核,得到75×75大小的特征图像D;
步骤1.5,对特征图像D进行池化,得到分辨率为38×38的特征图像DP,并采用3组卷积层对特征图像DP进行卷积,每组卷积采用512个卷积核,得到38×38大小的特征图像E;
步骤1.6,对特征图像E进行池化,得到分辨率为19×19的特征图像EP,并采用3组卷积层对特征图像EP进行卷积,每组卷积采用512个卷积核,得到19×19大小的预处理特征图像F。
进一步的,步骤2)具体包括以下步骤:
步骤2.1,对19×19大小的预处理特征图像F,分别使用分辨率为1×1、3×3和5×5的卷积核进行卷积成分辨率为19×19大小的特征图F1、特征图F2和特征图F3
步骤2.2,分别对特征图F1,特征图F2和特征图F3采用不同间隔的空洞卷积进行多视域特征的提取分别得到19×19大小的特征图Fmrc1,特征图Fmrc2和特征图Fmrc3
步骤2.3,对19×19大小的特征图Fmrc1,特征图Fmrc2和特征图Fmrc3分别进行4次最大池化操作分别得到特征图Fmrc1,特征图Fmrc2和特征图Fmrc3的5组不同尺度的池化特征图;
步骤2.4,对步骤2.3得到的15组池化特征图中相同尺寸的池化特征进行连接得到多尺度特征信息。
进一步的,其中分辨率为5×5的卷积核采用1个分辨率为1×1和2个分辨率为3×3的卷积核。
进一步的,采用空洞为1的3×3卷积核对特征图F1进行卷积,得到19×19大小的特征图Fmrc1;采用空洞为3的3×3卷积核对特征图F2进行卷积,得到19×19大小的特征图Fmrc2;采用空洞为5的3×3卷积核对特征图F3进行卷积,得到19×19大小的特征图Fmrc3
进一步的,记Fmrc1
Figure BDA0002395833610000041
Figure BDA0002395833610000042
进行最大池化操作得到10×10大小的
Figure BDA0002395833610000043
Figure BDA0002395833610000044
进行最大池化操作得到5×5大小的
Figure BDA0002395833610000045
Figure BDA0002395833610000046
进行最大池化操作得到3×3大小的
Figure BDA0002395833610000047
Figure BDA0002395833610000048
进行最大池化操作得到1×1大小的
Figure BDA0002395833610000049
采用上述方法对Fmrc2进行操作,得到19×19大小的
Figure BDA00023958336100000410
10×10大小的
Figure BDA00023958336100000411
5×5大小的
Figure BDA00023958336100000412
3×3大小的
Figure BDA00023958336100000413
1×1大小的
Figure BDA00023958336100000414
采用上述方法对Fmrc3进行操作,得到19×19大小的
Figure BDA00023958336100000415
10×10大小的
Figure BDA00023958336100000416
5×5大小的
Figure BDA00023958336100000417
3×3大小的
Figure BDA00023958336100000418
1×1大小的
Figure BDA00023958336100000419
进一步的,步骤3)具体步骤为:
步骤3.1,采用1×1卷积核对提取的特征图像进行倒数第二次池化、卷积处理得到特征图像E以及多尺度特征信息特征图
Figure BDA00023958336100000420
Figure BDA00023958336100000421
Figure BDA00023958336100000422
分别进行特征转换,得到6组转换后的特征图E′、
Figure BDA00023958336100000423
Figure BDA00023958336100000424
Figure BDA00023958336100000425
步骤3.2,构建人体部位图模型;
步骤3.3,根据步骤3.2中的人体图模型,设定图连接矩阵Matrix_A为:
Figure BDA00023958336100000426
建立图隶属度矩阵Matrix_D为:
Figure BDA00023958336100000427
步骤3.4,在步骤3.1上得到的特征图E′、
Figure BDA00023958336100000428
Figure BDA00023958336100000429
Figure BDA00023958336100000430
上分别采用分辨率为3×1的滑动窗口提取图向量Vg;并通过如下公式计算人体图卷积特征结果:
Figure BDA0002395833610000051
其中i=1,…,k,
其中Vgi为特征图像中提取的第i个图向量;
将特征图E′、
Figure BDA0002395833610000052
Figure BDA0002395833610000053
通过人体图卷积进一步得到人体图卷积后的特征图E″、
Figure BDA0002395833610000054
Figure BDA0002395833610000055
Figure BDA0002395833610000056
进一步的,步骤4)具体包括以下步骤:
步骤4.1、在人体图卷积后的特征图E″、
Figure BDA0002395833610000057
Figure BDA0002395833610000058
Figure BDA0002395833610000059
上分别采用Nbox个锚点的预测框,对于每个预测框,预测C个类别得分,以及预测框相对应的4个偏移值,在m×n的特征图上将产生(C+4)×Nbox×m×n个预测值;
步骤4.2,将预测框预测值分为行人和非行人两类,分别获取人体图卷积后的特征图E″、
Figure BDA00023958336100000510
Figure BDA00023958336100000511
的预测值;
步骤4.3,对步骤4.2中的所有预测值所对应的预测框,按照预测类别为行人的概率从大到小排列,并从概率最大的预测框开始,计算其余预测框与当前预测框的重叠度,丢弃重叠度大于设定阈值的预测框,标记该预测框,并在剩余预测框中从预测概率最大的框继续计算重叠度并丢弃重叠度大于设定阈值的预测框;
步骤4.4,循环步骤4.3,直到全部筛选完毕,得到最终的预测框及预测类别概率值,即完成行人目标的检测。
进一步的,通过带有标注的数据进行卷积神经网络训练,并优化模型参数;具体地:
建立如下训练损失函数:
L=Lcls+αLloc
其中,Lcls为目标类别分类损失,Lloc为目标位置检测损失,α用于平衡两种损失的参数;
对于目标类别分类损失Lcls
Figure BDA0002395833610000061
其中ti,j为第j个类别中的第i个预测框与相应类别是否匹配,匹配则为1,不匹配为0;y为训练数据的标签类别,pi,j为模型对预测框i在j类的预测概率值,其计算式如下:
Figure BDA0002395833610000062
对于目标位置检测损失Lloc的设计如下:
Figure BDA0002395833610000063
其中,pbox为目标位置预测参数,gbox为训练数据标签中的位置参数。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种基于多视域图卷积网络的行人检测方法,采用卷积神经网络从待处理图像进行特征提取,对提取的特征图像进行多次池化、卷积处理得到预处理特征图像,然后采用多视域池化金字塔提取中得到的预处理特征图像的多尺度特征信息特征图,然后进行人体图卷积得到多个人体图卷积后的特征图,采用Nbox个锚点的预测框分别对人体图卷积后的特征图中的人体目标区域进行预测并识别,完成预测框及预测类别概率值,使用最大池化构建多视域特征金字塔,减少了模型参数的数量,提高了检测效率,使用多个特征图来生成不同规模的检测结果,对于最终特征图上的每个位置,一组不同的比例和宽高比默认框用于匹配检测结果并回归最终的框坐标,能够有效且高效地处理行人检测中的尺度变化和遮挡问题。
附图说明
图1为本发明整个提出的检测框架的示意图。
图2为本发明多视域池化金字塔模块的示意图。
图3为本发明基于图卷积的遮挡处理模块的示意图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
如图1至图3所示,一种基于多视域图卷积网络的行人检测方法,包括以下步骤:
步骤1)、采用卷积神经网络从待处理图像进行特征提取,对提取的特征图像进行多次池化、卷积处理得到预处理特征图像;
构建多分辨率和多视域特征金字塔模型,包含四个用于对采集的特征图的空间大小进行下采样的最大池化层,利用四个最大池化层依次进行池化后得到具有不同空间分辨率的五个特征图;
具体的,步骤1.1,采用卷积神经网络将待处理图像缩放至分辨率为300×300得到缩放后的图像A;
步骤1.2,采用2组卷积层对图像A进行卷积得到300×300大小的特征图像B,每组卷积采用64个卷积核;
步骤1.3,对特征图像B进行池化,得到分辨率为150×150的特征图像BP,并采用2组卷积层对特征图像BP进行卷积,每组卷积采用128个卷积核,得到150×150大小的特征图像C;
步骤1.4,对特征图像C进行池化,得到分辨率为75×75的特征图像CP,并采用3组卷积层对特征图像CP进行卷积,每组卷积采用256个卷积核,得到75×75大小的特征图像D;
步骤1.5,对特征图像D进行池化,得到分辨率为38×38的特征图像DP,并采用3组卷积层对特征图像DP进行卷积,每组卷积采用512个卷积核,得到38×38大小的特征图像E;
步骤1.6,对特征图像E进行池化,得到分辨率为19×19的特征图像EP,并采用3组卷积层对特征图像EP进行卷积,每组卷积采用512个卷积核,得到19×19大小的预处理特征图像F;
步骤2)、采用多视域池化金字塔提取步骤1)中得到的预处理特征图像的多尺度特征信息特征图;
具体包括以下步骤:
步骤2.1,对19×19大小的预处理特征图像F,分别使用分辨率为1×1、3×3和5×5的卷积核进行卷积成分辨率为19×19大小的特征图F1、特征图F2和特征图F3,其中分辨率为5×5的卷积核采用1个分辨率为1×1和2个分辨率为3×3的卷积核;
步骤2.2,分别对特征图F1,特征图F2和特征图F3采用不同间隔的空洞卷积进行多视域特征的提取分别得到19×19大小的特征图Fmrc1,特征图Fmrc2和特征图Fmrc3,具体的:采用空洞为1的3×3卷积核对特征图F1进行卷积,得到19×19大小的特征图Fmrc1;采用空洞为3的3×3卷积核对特征图F2进行卷积,得到19×19大小的特征图Fmrc2;采用空洞为5的3×3卷积核对特征图F3进行卷积,得到19×19大小的特征图Fmrc3
步骤2.3,对19×19大小的特征图Fmrc1,特征图Fmrc2和特征图Fmrc3分别进行4次最大池化操作分别得到特征图Fmrc1,特征图Fmrc2和特征图Fmrc3的5组不同尺度的池化特征图;具体的:记Fmrc1
Figure BDA0002395833610000091
Figure BDA0002395833610000092
进行最大池化操作得到10×10大小的
Figure BDA0002395833610000093
Figure BDA0002395833610000094
进行最大池化操作得到5×5大小的
Figure BDA0002395833610000095
Figure BDA0002395833610000096
进行最大池化操作得到3×3大小的
Figure BDA0002395833610000097
Figure BDA0002395833610000098
进行最大池化操作得到1×1大小的
Figure BDA0002395833610000099
采用上述方法对Fmrc2进行操作,得到19×19大小的
Figure BDA00023958336100000910
10×10大小的
Figure BDA00023958336100000911
5×5大小的
Figure BDA00023958336100000912
3×3大小的
Figure BDA00023958336100000913
1×1大小的
Figure BDA00023958336100000914
采用上述方法对Fmrc3进行操作,得到19×19大小的
Figure BDA00023958336100000915
10×10大小的
Figure BDA00023958336100000916
5×5大小的
Figure BDA00023958336100000917
3×3大小的
Figure BDA00023958336100000918
1×1大小的
Figure BDA00023958336100000919
步骤2.4,对步骤2.3得到的15组池化特征图中相同尺寸的池化特征进行连接得到多尺度特征信息,具体如下公式:
Figure BDA00023958336100000920
Figure BDA00023958336100000921
Figure BDA00023958336100000922
Figure BDA00023958336100000923
Figure BDA00023958336100000924
其中concat为特征图连接操作。
步骤3)、在步骤1)中提取的特征图像进行倒数第二次池化、卷积处理得到特征图像和步骤2)中得到的多尺度特征信息图上分别建立人体部位图模型,然后进行人体图卷积得到多个人体图卷积后的特征图;如图3所示,在特征图像E、
Figure BDA00023958336100000925
Figure BDA00023958336100000926
6组特征图上分别建立人体部位图模型,具体地:
步骤3.1,采用1×1卷积核对提取的特征图像进行倒数第二次池化、卷积处理得到特征图像E以及多尺度特征信息特征图
Figure BDA00023958336100000927
Figure BDA0002395833610000101
Figure BDA0002395833610000102
分别进行特征转换,得到6组转换后的特征图E′、
Figure BDA0002395833610000103
Figure BDA0002395833610000104
Figure BDA0002395833610000105
步骤3.2,构建人体部位图模型:将人体分为头、躯干及腿三个部分,具体脖颈以上为头部,脖颈至胯部为躯干,胯部以下为腿,根据先验知识,“头”和“腿”对决定一个目标是否为行人目标至关重要,我们构建人体图模型如图3所示;
步骤3.3,根据步骤3.2中的人体图模型,设定图连接矩阵Matrix_A为:
Figure BDA0002395833610000106
建立图隶属度矩阵Matrix_D为:
Figure BDA0002395833610000107
步骤3.4,在步骤3.1上得到的特征图E′、
Figure BDA0002395833610000108
Figure BDA0002395833610000109
Figure BDA00023958336100001010
上分别采用分辨率为3×1的滑动窗口提取图向量Vg;并通过如下公式计算人体图卷积特征结果:
Figure BDA00023958336100001011
其中i=1,…,k,
其中Vgi为特征图像中提取的第i个图向量;
将特征图E′、
Figure BDA00023958336100001012
Figure BDA00023958336100001013
通过人体图卷积进一步得到人体图卷积后的特征图E″、
Figure BDA00023958336100001014
Figure BDA00023958336100001015
Figure BDA00023958336100001016
步骤4)、采用Nbox个锚点的预测框分别对人体图卷积后的特征图中的人体目标区域进行预测并识别,完成预测框及预测类别概率值,即完成行人目标的检测;具体包括以下步骤:
步骤4.1、在人体图卷积后的特征图E″、
Figure BDA00023958336100001017
Figure BDA0002395833610000111
Figure BDA0002395833610000112
上分别采用Nbox个锚点的预测框,对于每个预测框,预测C个类别得分,以及预测框相对应的4个偏移值,即需要(C+4)×Nbox个预测器,因此,在m×n的特征图上将产生(C+4)×Nbox×m×n个预测值;
步骤4.2,将预测框预测值分为行人和非行人(即背景)两类,因此C取2;对于分辨率为38×38的特征图E″,设定锚点个数为4,则有(2+4)×4×38×38个预测值;对于分辨率为19×19的特征图
Figure BDA0002395833610000113
设定锚点个数为6,则有(2+4)×6×19×19个预测值;对于分辨率为10×10的特征图
Figure BDA0002395833610000114
设定锚点个数为6,则有(2+4)×6×10×10个预测值;对于分辨率为5×5的特征图
Figure BDA0002395833610000115
设定锚点个数为6,则有(2+4)×6×5×5个预测值;对于分辨率为3×3的特征图
Figure BDA0002395833610000116
设定锚点个数为4,则有(2+4)×4×3×3个预测值;对于分辨率为1×1的特征图
Figure BDA0002395833610000117
设定锚点个数为4,则有(2+4)×4×1×1个预测值;
步骤4.3,对步骤4.2中的所有预测值所对应的预测框,按照预测类别为行人的概率从大到小排列,并从概率最大的预测框开始,计算其余预测框与当前预测框(即当前概率最大的预测框)的重叠度,丢弃重叠度大于设定阈值的预测框,标记该预测框,并在剩余预测框中从预测概率最大的框继续计算重叠度并丢弃重叠度大于设定阈值的预测框;
步骤4.4,循环步骤4.3,直到全部筛选完毕,得到最终的预测框及预测类别概率值,即完成行人目标的检测。
通过带有标注的数据进行卷积神经网络训练,并优化模型参数;具体地:
建立如下训练损失函数:
L=Lcls+αLloc
其中,Lcls为目标类别分类损失,Lloc为目标位置检测损失,α用于平衡两种损失的参数;
对于目标类别分类损失Lcls
Figure BDA0002395833610000121
其中ti,j为第j个类别中的第i个预测框与相应类别是否匹配,匹配则为1,不匹配为0;y为训练数据的标签类别,pi,j为模型对预测框i在j类的预测概率值,其计算式如下:
Figure BDA0002395833610000122
对于目标位置检测损失Lloc的设计如下:
Figure BDA0002395833610000123
其中,pbox为目标位置预测参数,gbox为训练数据标签中的位置参数。
为了全面评估本方法,对两个公共数据集进行了实验,这两个公共数据集包括一个一般目标检测数据集和一个大型行人检测数据集。在每个数据集上,我们将提出的行人检测框架与最新的最先进的方法进行比较。
此外,从三个方面审查了行人检测的方法,包括手工制作的模型、基于CNN的方法和遮挡处理方法。我们提出了尺度感知深度检测模型来处理行人检测的尺度变化问题。使用多个CNN层的特征来检测多个尺度的对象,这已被证明是有效和高效的。本发明采用多分辨率特征学习框架,并且使用几个最大池层来构建多分辨率特征金字塔,这是有效的并且减少了模型的大小。同时通过一个多接收场模块来提取具有不同上下文大小的特征,并将它们连接在一起,以进行最终的多尺度表示学习。
本发明一种基于多视域图卷积网络的行人检测方法,通过提出的检测框架,不仅处理了行人检测中的尺度变化和遮挡处理问题,使用最大池化构建多视域特征金字塔,提高了检测效率,本发明能够有效且高效地处理行人检测中的尺度变化和遮挡问题。

Claims (10)

1.一种基于多视域图卷积网络的行人检测方法,其特征在于,包括以下步骤:
步骤1)、采用卷积神经网络从待处理图像进行特征提取,对提取的特征图像进行多次池化、卷积处理得到预处理特征图像;
步骤2)、采用多视域池化金字塔提取步骤1)中得到的预处理特征图像的多尺度特征信息特征图;
步骤3)、在步骤1)中提取的特征图像进行倒数第二次池化、卷积处理得到特征图像和步骤2)中得到的多尺度特征信息图上分别建立人体部位图模型,然后进行人体图卷积得到多个人体图卷积后的特征图;
步骤4)、采用Nbox个锚点的预测框分别对人体图卷积后的特征图中的人体目标区域进行预测并识别,完成预测框及预测类别概率值,即完成行人目标的检测。
2.根据权利要求1所述的一种基于多视域图卷积网络的行人检测方法,其特征在于,构建多分辨率和多视域特征金字塔模型,包含四个用于对采集的特征图的空间大小进行下采样的最大池化层,利用四个最大池化层依次进行池化后得到具有不同空间分辨率的五个特征图。
3.根据权利要求2所述的一种基于多视域图卷积网络的行人检测方法,其特征在于,具体包括以下步骤:
步骤1.1,采用卷积神经网络将待处理图像缩放至分辨率为300×300得到缩放后的图像A;
步骤1.2,采用2组卷积层对图像A进行卷积得到300×300大小的特征图像B,每组卷积采用64个卷积核;
步骤1.3,对特征图像B进行池化,得到分辨率为150×150的特征图像BP,并采用2组卷积层对特征图像BP进行卷积,每组卷积采用128个卷积核,得到150×150大小的特征图像C;
步骤1.4,对特征图像C进行池化,得到分辨率为75×75的特征图像CP,并采用3组卷积层对特征图像CP进行卷积,每组卷积采用256个卷积核,得到75×75大小的特征图像D;
步骤1.5,对特征图像D进行池化,得到分辨率为38×38的特征图像DP,并采用3组卷积层对特征图像DP进行卷积,每组卷积采用512个卷积核,得到38×38大小的特征图像E;
步骤1.6,对特征图像E进行池化,得到分辨率为19×19的特征图像EP,并采用3组卷积层对特征图像EP进行卷积,每组卷积采用512个卷积核,得到19×19大小的预处理特征图像F。
4.根据权利要求3所述的一种基于多视域图卷积网络的行人检测方法,其特征在于,步骤2)具体包括以下步骤:
步骤2.1,对19×19大小的预处理特征图像F,分别使用分辨率为1×1、3×3和5×5的卷积核进行卷积成分辨率为19×19大小的特征图F1、特征图F2和特征图F3
步骤2.2,分别对特征图F1,特征图F2和特征图F3采用不同间隔的空洞卷积进行多视域特征的提取分别得到19×19大小的特征图Fmrc1,特征图Fmrc2和特征图Fmrc3
步骤2.3,对19×19大小的特征图Fmrc1,特征图Fmrc2和特征图Fmrc3分别进行4次最大池化操作分别得到特征图Fmrc1,特征图Fmrc2和特征图Fmrc3的5组不同尺度的池化特征图;
步骤2.4,对步骤2.3得到的15组池化特征图中相同尺寸的池化特征进行连接得到多尺度特征信息。
5.根据权利要求4所述的一种基于多视域图卷积网络的行人检测方法,其特征在于,其中分辨率为5×5的卷积核采用1个分辨率为1×1和2个分辨率为3×3的卷积核。
6.根据权利要求4所述的一种基于多视域图卷积网络的行人检测方法,其特征在于,采用空洞为1的3×3卷积核对特征图F1进行卷积,得到19×19大小的特征图Fmrc1;采用空洞为3的3×3卷积核对特征图F2进行卷积,得到19×19大小的特征图Fmrc2;采用空洞为5的3×3卷积核对特征图F3进行卷积,得到19×19大小的特征图Fmrc3
7.根据权利要求4所述的一种基于多视域图卷积网络的行人检测方法,其特征在于,记Fmrc1
Figure FDA0002395833600000031
Figure FDA0002395833600000032
进行最大池化操作得到10×10大小的
Figure FDA0002395833600000033
Figure FDA0002395833600000034
进行最大池化操作得到5×5大小的
Figure FDA0002395833600000035
Figure FDA0002395833600000036
进行最大池化操作得到3×3大小的
Figure FDA0002395833600000037
Figure FDA0002395833600000038
进行最大池化操作得到1×1大小的
Figure FDA0002395833600000039
采用上述方法对Fmrc2进行操作,得到19×19大小的
Figure FDA00023958336000000310
10×10大小的
Figure FDA00023958336000000311
5×5大小的
Figure FDA00023958336000000312
3×3大小的
Figure FDA00023958336000000313
1×1大小的
Figure FDA00023958336000000314
采用上述方法对Fmrc3进行操作,得到19×19大小的
Figure FDA00023958336000000315
10×10大小的
Figure FDA00023958336000000316
5×5大小的
Figure FDA00023958336000000317
3×3大小的
Figure FDA00023958336000000318
1×1大小的
Figure FDA00023958336000000319
8.根据权利要求4所述的一种基于多视域图卷积网络的行人检测方法,其特征在于,步骤3)具体步骤为:
步骤3.1,采用1×1卷积核对提取的特征图像进行倒数第二次池化、卷积处理得到特征图像E以及多尺度特征信息特征图
Figure FDA00023958336000000320
Figure FDA00023958336000000321
Figure FDA00023958336000000322
分别进行特征转换,得到6组转换后的特征图E′、
Figure FDA00023958336000000323
Figure FDA00023958336000000324
Figure FDA00023958336000000325
步骤3.2,构建人体部位图模型;
步骤3.3,根据步骤3.2中的人体图模型,设定图连接矩阵Matrix_A为:
Figure FDA0002395833600000041
建立图隶属度矩阵Matrix_D为:
Figure FDA0002395833600000042
步骤3.4,在步骤3.1上得到的特征图E′、
Figure FDA0002395833600000043
Figure FDA0002395833600000044
Figure FDA0002395833600000045
上分别采用分辨率为3×1的滑动窗口提取图向量Vg;并通过如下公式计算人体图卷积特征结果:
Figure FDA0002395833600000046
其中i=1,…,k,
其中Vgi为特征图像中提取的第i个图向量;
将特征图E′、
Figure FDA0002395833600000047
Figure FDA0002395833600000048
通过人体图卷积进一步得到人体图卷积后的特征图E″、
Figure FDA0002395833600000049
Figure FDA00023958336000000410
Figure FDA00023958336000000411
9.根据权利要求8所述的一种基于多视域图卷积网络的行人检测方法,其特征在于,步骤4)具体包括以下步骤:
步骤4.1、在人体图卷积后的特征图E″、
Figure FDA00023958336000000412
Figure FDA00023958336000000413
Figure FDA00023958336000000414
上分别采用Nbox个锚点的预测框,对于每个预测框,预测C个类别得分,以及预测框相对应的4个偏移值,在m×n的特征图上将产生(C+4)×Nbox×m×n个预测值;
步骤4.2,将预测框预测值分为行人和非行人两类,分别获取人体图卷积后的特征图E″、
Figure FDA00023958336000000415
Figure FDA00023958336000000416
的预测值;
步骤4.3,对步骤4.2中的所有预测值所对应的预测框,按照预测类别为行人的概率从大到小排列,并从概率最大的预测框开始,计算其余预测框与当前预测框的重叠度,丢弃重叠度大于设定阈值的预测框,标记该预测框,并在剩余预测框中从预测概率最大的框继续计算重叠度并丢弃重叠度大于设定阈值的预测框;
步骤4.4,循环步骤4.3,直到全部筛选完毕,得到最终的预测框及预测类别概率值,即完成行人目标的检测。
10.根据权利要求1所述的一种基于多视域图卷积网络的行人检测方法,其特征在于,通过带有标注的数据进行卷积神经网络训练,并优化模型参数;具体地:
建立如下训练损失函数:
L=Lcls+αLloc
其中,Lcls为目标类别分类损失,Lloc为目标位置检测损失,α用于平衡两种损失的参数;
对于目标类别分类损失Lcls
Figure FDA0002395833600000051
其中ti,j为第j个类别中的第i个预测框与相应类别是否匹配,匹配则为1,不匹配为0;y为训练数据的标签类别,pi,j为模型对预测框i在j类的预测概率值,其计算式如下:
Figure FDA0002395833600000052
对于目标位置检测损失Lloc的设计如下:
Figure FDA0002395833600000061
其中,pbox为目标位置预测参数,gbox为训练数据标签中的位置参数。
CN202010131268.4A 2020-02-28 2020-02-28 一种基于多视域图卷积网络的行人检测方法 Active CN111339967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010131268.4A CN111339967B (zh) 2020-02-28 2020-02-28 一种基于多视域图卷积网络的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010131268.4A CN111339967B (zh) 2020-02-28 2020-02-28 一种基于多视域图卷积网络的行人检测方法

Publications (2)

Publication Number Publication Date
CN111339967A CN111339967A (zh) 2020-06-26
CN111339967B true CN111339967B (zh) 2023-04-07

Family

ID=71181976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010131268.4A Active CN111339967B (zh) 2020-02-28 2020-02-28 一种基于多视域图卷积网络的行人检测方法

Country Status (1)

Country Link
CN (1) CN111339967B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733671A (zh) * 2020-12-31 2021-04-30 新大陆数字技术股份有限公司 行人检测方法、装置及可读存储介质
CN113988147B (zh) * 2021-12-08 2022-04-26 南京信息工程大学 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN114821233B (zh) * 2022-04-26 2023-05-30 北京百度网讯科技有限公司 目标检测模型的训练方法及装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038409A (zh) * 2017-10-27 2018-05-15 江西高创保安服务技术有限公司 一种行人检测方法
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN110533105A (zh) * 2019-08-30 2019-12-03 北京市商汤科技开发有限公司 一种目标检测方法及装置、电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038409A (zh) * 2017-10-27 2018-05-15 江西高创保安服务技术有限公司 一种行人检测方法
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN110533105A (zh) * 2019-08-30 2019-12-03 北京市商汤科技开发有限公司 一种目标检测方法及装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
联合膨胀卷积残差网络和金字塔池化表达的高分影像建筑物自动识别;乔文凡等;《地理与地理信息科学》(第05期);全文 *

Also Published As

Publication number Publication date
CN111339967A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111259850B (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN111259930B (zh) 自适应注意力指导机制的一般性目标检测方法
CN110084292B (zh) 基于DenseNet和多尺度特征融合的目标检测方法
CN110084156B (zh) 一种步态特征提取方法及基于步态特征的行人身份识别方法
CN107016357B (zh) 一种基于时间域卷积神经网络的视频行人检测方法
CN111339967B (zh) 一种基于多视域图卷积网络的行人检测方法
CN107203781B (zh) 一种基于显著性指导的端到端的弱监督目标检测方法
CN103886308B (zh) 一种使用聚合通道特征和软级联分类器的行人检测方法
CN108520226B (zh) 一种基于躯体分解和显著性检测的行人重识别方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN108830188A (zh) 基于深度学习的车辆检测方法
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN109902806A (zh) 基于卷积神经网络的噪声图像目标边界框确定方法
CN111079602A (zh) 基于多尺度区域特征约束的车辆细粒度识别方法及装置
CN109559320A (zh) 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
CN109492706B (zh) 一种基于循环神经网络的染色体分类预测装置
CN110163069B (zh) 用于辅助驾驶的车道线检测方法
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN104063719A (zh) 基于深度卷积网络的行人检测方法及装置
CN113673510B (zh) 一种结合特征点和锚框共同预测和回归的目标检测方法
CN107767416B (zh) 一种低分辨率图像中行人朝向的识别方法
CN110569843A (zh) 一种矿井目标智能检测与识别方法
CN113011386B (zh) 一种基于等分特征图的表情识别方法及系统
CN111753682A (zh) 一种基于目标检测算法的吊装区域动态监控方法
CN114821014A (zh) 基于多模态与对抗学习的多任务目标检测识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant