CN113128308B - 一种港口场景下的行人检测方法、装置、设备及介质 - Google Patents

一种港口场景下的行人检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN113128308B
CN113128308B CN202010027137.1A CN202010027137A CN113128308B CN 113128308 B CN113128308 B CN 113128308B CN 202010027137 A CN202010027137 A CN 202010027137A CN 113128308 B CN113128308 B CN 113128308B
Authority
CN
China
Prior art keywords
pedestrian
detection
prediction
frames
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010027137.1A
Other languages
English (en)
Other versions
CN113128308A (zh
Inventor
邹逸群
肖志红
吴志虎
唐琎
汤松林
张泳祥
邹双
李江涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010027137.1A priority Critical patent/CN113128308B/zh
Publication of CN113128308A publication Critical patent/CN113128308A/zh
Application granted granted Critical
Publication of CN113128308B publication Critical patent/CN113128308B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种港口场景下的行人检测方法、装置、设备及介质,其方法为:获取若干已知行人框的预处理图像,计算行人框中心在行人检测网络输出端的映射值;在行人检测网络的所有预测框中,选择与映射值匹配的预测框为正样本,其余预测框为负样本;以预处理图像作为输入、预测框的标签值作为学习目标,训练行人检测网络,得到行人检测系统;计算负样本预测框与预处理图像中所有行人框的交并比,若最大值大于0.5,则该负样本不参与训练;将待检测的预处理图像输入到行人检测系统,提取检测框;去掉行人置信度低于阈值的检测框以及重叠框,剩余的检测框即为待检测的行人框。本发明可解决目前检测方法中需要人为设计anchor的问题。

Description

一种港口场景下的行人检测方法、装置、设备及介质
技术领域
本发明属于图像信息处理领域,具体涉及一种港口场景下的行人检测的方法。
背景技术
行人检测技术是指通过图像处理及模式识别等算法从给定的图像数据中检测出行人坐标位置并给予此检测结果的置信度。行人检测是计算机视觉中一个重要的研究热点,是众多实际应用中核心技术之一,例如,人类行为分析,行人姿态估计,行人属性分析,智能监控,自动驾驶等。因此行人检测技术具有极高的科研价值和商业价值,并有大量的学者从事行人检测的研究,众多有效的行人检测算法被提出来。
尽管近几年计算机视觉研究者致力于行人检测的研究中,但是行人检测问题依旧挑战性很大。这主要是因为有两个原因:其一,由于行人与摄像机的距离是不固定的,行人的尺度有很大的变化;其二,在实际环境中,大部分的行人距离摄像机较远,这些小目标的特征不明显,容易被误认为是背景,从而造成大量的漏检和误检。
为了获取给定图片中所有行人的坐标,行人检测器通常有以下三步:第一,对整张图片进行一系列的操作(梯度计算,卷积等),获取对应的特征;其次,使用不同尺度和形状的预选框遍历整张图;最后基于预选框中的特征,判断其中是否存在行人目标,如存在目标则调整预选框的坐标和大小,从而得到最后的行人检测框。其中,提取特征这一步骤是行人检测技术中最重要的一步,所以,现如今主要的研究方法可以被分为两类:基于手工特征的方法和基于深度特征学习的方法。
基于手工特征的方法主要考虑了行人的先验信息,对输入图像进行一系列的计算和投影,然后得到行人特征。例如,HOG(Histogram ofOriented Gradient,方向梯度直方图算法),挖掘行人的形状信息。对图像进行不同的变化,颜色空间转换,梯度计算,边缘检测等(LUV,Gabor,edges),并提出利用积分通道特征将其融合,从而获得更丰富的特征集。DPM(Deformable Part Model,可变形部件模型的检测算法)针对人体部件建立一定形式的空间约束,根据模型与部件模型的共同作用检测人体目标。上述传统行人检测方法的优点是计算速度快且不需要昂贵的计算资源如GPU和大量内存。但是,虽然这些行人检测算法能够在简单的环境中达到应用要求,在实际复杂的环境中,存在大量的误检和漏检。
相比之下,基于深度学习的行人检测系统通过大量的数据自主学习得到具有强大语义表述能力的特征,从而显著性地降低误检和漏检率,使得行人技术能够应用于真实场景。目前基于深度学习的行人检测算法大致可分为两类,其中一类算法是两阶段行人检测算法,如RCNN、SPPNet、Faster RCNN、Mask RCNN等,这类算法在第一阶段使用RPN(RegionProposal Network)或者FPN(Feature PyramidNetwork)等预选框提取网络获取行人预选框,然后将第一阶段获得的行人预选框送入第二阶段网络进行二次分类和回归,两阶段行人检测算法的优点是性能好,能够满足大多数场景的性能需求,但缺点是速度慢,在对实时性有要求的场景下基本无法使用。另一类算法是一阶段行人检测算法,如YOLO、SSD、RetinaNet等,这类算法相当于两阶段算法的第一阶段,即直接使用一个网络回归出行人框,一阶段算法的优点是速度快,基本能够满足实时性要求,但性能不如两阶段算法。这两类算法都是基于anchor的,而使用anchor就存在需要人为设计的问题,目前的解决方法是在训练集上使用kmeans聚类出anchor,但这种聚类出来的anchor仍然不能跨数据集使用。
在此背景下,研究一种不需要anchor,且可以解决尺度变化问题的行人检测算法尤为重要。
发明内容
本发明所要解决的技术问题是提供一种港口场景下的行人检测方法,解决了已有行人检测方法需要人为设计anchor的问题。
为实现上述技术目的,本发明采用如下技术方案:
一种港口场景下的行人检测方法,包括以下步骤:
步骤1,获取若干已知行人框的、有关港口场景的预处理图像,并根据行人检测网络的步长设置,计算预处理图像中每个行人框中心在行人检测网络输出端的映射值;
步骤2,在行人检测网络输出端的所有预测框中:选择与步骤1得到的映射值匹配的预测框作为正样本,设置其标签为
Figure GDA0003545912970000021
将其余预测框作为负样本,设置其标签为
Figure GDA0003545912970000022
样本的标签中,
Figure GDA0003545912970000023
表示第(i,j)个预测框是否参与训练,confij表示第(i,j)个预测框的行人置信度预测目标,(xij,min,yij,min)和(xij,max,yij,max)分别表示第(i,j)个预测框的左上角和右下角坐标预测目标,
Figure GDA0003545912970000024
Figure GDA0003545912970000025
分别表示预处理图像中第k个行人框的左上角和右下角坐标;
步骤3,以预处理图像作为输入、预测框的标签值作为学习目标,训练行人检测网络,得到行人检测系统;
在训练过程中计算损失时,计算被标记为负样本的预测框与预处理图像中所有行人框的交并比,如果最大交并比大于0.5,则该负样本不参与训练,即设置其第一位标签值为
Figure GDA0003545912970000031
步骤4,将行人框待检测的、有关港口场景的预处理图像,输入至步骤3得到的行人检测系统中,获取预处理图像中的检测框;
步骤5,对步骤4中得到的检测框,去掉其中行人置信度低于阈值的检测框以及重叠框,剩余的检测框即为待检测的行人框。
进一步地,训练行人检测网络所采用的损失函数为:
Figure GDA0003545912970000032
式中,L表示行人检测网络在当前训练迭代时的总损失,
Figure GDA0003545912970000033
分别表示第(i,j)个预测框Θij的置信度损失和坐标回归损失;h、w分别表示行人检测网络的中间输出特征图的高和宽;
Figure GDA0003545912970000034
表示预测框Θij的行人置信度预测值,confij表示预测框Θij的标签值中的行人置信度;
Figure GDA0003545912970000035
表示预测框Θij的行人框坐标预测值,Bij表示预测框Θij的标签值中的行人框坐标,Gij表示
Figure GDA0003545912970000036
和Bij的最小闭包区域;
Figure GDA0003545912970000037
表示置信度损失的权重,
Figure GDA0003545912970000038
表示坐标回归损失的权重,λ为行人检测网络中的超参数;himg、wimg分别表示预处理图像的高和宽。
进一步地,所述行人检测网络包括:由backbone和FPN组成的特征提取网络模块、特征图融合模块、尺度attention模块、分类子网络和回归子网络;
所述backbone采用轻量化网络mobileNetV2,对输入大小为512×512×3的预处理图像进行特征提取,获取大小分别为64×64×32、32×32×96、16×16×1024的特征图C3、C4、C5;
所述FPN的结构为:首先是在特征图C5后面使用一个输出通道为96的bottleneck模块,得到大小为16×16×96的特征图P5;然后在特征图P5后面使用一个最近邻插值层,得到大小为32×32×96的特征图P5*,之后将特征图C4和P5*相加得到特征图C4*,然后在C4*后面使用一个输出通道为32的bottleneck模块,得到大小为32×32×32的特征图P4,然后在特征图P4后面使用一个最近邻插值层,得到大小为64×64×32的特征图P4*,之后将特征图C3和特征图P4*相加得到特征图C3*,最后在C3*后面使用一个输出通道为16的bottleneck模块,得到大小为64×64×16的特征图P3;
所述特征图融合模块的结构为:在特征图P5后面接一个步长为4、输出通道为16的转置卷积层,得到大小为64×64×16的特征图PL;在P4后面接一个步长为2、输出通道为16的转置卷积层,得到大小为64×64×16的特征图PM;在P3后面接一个步长为1、输出通道为16的普通卷积层,得到大小为64×64×16的特征图PS;最后将特征图PS、PM、PL级联起来,得到大小为64×64×48的特征图P_concat;
所述尺度attention模块的结构为:在特征图P_concat后面使用一个步长为1、输出通道为3的3×3卷积层和sigmoid激活层,得到大小为64×64×3的特征图P_concat*;之后将特征图P_concat*沿通道维复制16次,得到大小为64×64×48的特征图P_scale_attention;然后将特征图P_scale_attention与特征图P_concat点乘,得到检测特征图P;
所述分类子网络的结构为:首先在特征图P后面使用一个步长为1、输出通道为1的1×1卷积层,得到clsp∈R64×64×1,然后再用以下公式对clsp中的每个值
Figure GDA0003545912970000041
进行解码,得到分类子网络的输出confp∈R64×64×1,其中
Figure GDA0003545912970000042
表示分类子网络为第(i,j)个预测框预测的行人置信度;对
Figure GDA0003545912970000043
进行解码的公式为:
Figure GDA0003545912970000044
所述回归子网络的结构为:首先在检测特征图P后面使用一个步长为1、输出通道为4的1×1卷积层,得到regp∈R64×64×4,其中
Figure GDA0003545912970000045
表示regp的第(i,j)个向量,然后再使用以下公式对
Figure GDA0003545912970000046
进行解码,得到回归子网络的输出coorp∈R64 ×64×4,其中
Figure GDA0003545912970000047
表示回归子网络为第(i,j)个预测框预测的坐标,s是行人检测网络的步长;对
Figure GDA0003545912970000048
进行解码的公式为:
Figure GDA0003545912970000049
将分类子网络的输出confp与回归子网络的输出coorp沿通道级联起来,得到行人检测网络最终输出的检测框Θ∈R64×64×5,其中
Figure GDA0003545912970000051
进一步地,步骤1中计算预处理图像中每个行人框中心在行人检测网络输出端的映射值的方法为:
Figure GDA0003545912970000052
式中,
Figure GDA0003545912970000053
为预处理图像中第k个行人框的中心点在预处理图像中的坐标,s是行人检测网络的步长;
与映射值匹配的预测框是指,第(i,j)个预测框满足:
Figure GDA0003545912970000054
进一步地,步骤5中使用soft-nms算法去掉其中的重叠框,具体过程为:
步骤5.1,首先将预处理图像中的所有检测框放入列表L1中;
步骤5.2,将列表L1中所有检测框按行人置信度从高到低的顺序排序;
步骤5.3,从列表L1中取出行人置信度最高的检测框A放入列表L2中,并将检测框A从列表L1中删除,计算检测框A与列表L1中所有检测框的交并比IOUl,l表示列表L1中的第l个检测框;
步骤5.4,根据列表L1中每个检测框的IOUl,按公式
Figure GDA0003545912970000055
计算该检测框的权重;其中中间参数δ=0.3;
步骤5.5,去掉列表L1中权重低于权重阈值的检测框,并返回执行步骤5.2,直到列表L1为空。
进一步地,所述预处理图像是指,对港口场景图像进行直方图均衡化处理和标准化处理后得到的图像;
其中,直方图均衡化处理的转换公式为:
Figure GDA0003545912970000056
式中,MN表示港口场景图像的像素点总数,np表示灰度值为p的像素个数,sq表示灰度值q经过直方图均衡化之后得到的新灰度值;
标准化处理的过程为:
步骤A1,计算出直方图均衡化处理得到的图像中RGB三个通道的均值uc和标准差σc
步骤A2,使用以下公式对图像进行标准化处理:
Figure GDA0003545912970000061
其中gc表示某一像素点的c通道灰度值,r,g,b表示图像的RGB三个通道。
本发明还提供一种港口场景下的行人检测装置,所述装置包括映射值计算模块、标签设置模块、行人检测网络训练模块、行人检测模块和行人框筛选模块;
所述映射值计算模块,用于获取若干已知行人框的、有关港口场景的预处理图像,并根据行人检测网络的步长设置,计算预处理图像中每个行人框中心在行人检测网络输出端的映射值;
所述标签设置模块,用于在行人检测网络输出端的所有预测框中:选择与映射值匹配的预测框作为正样本,设置其标签为
Figure GDA0003545912970000062
将其余预测框作为负样本,设置其标签为
Figure GDA0003545912970000063
其中,
Figure GDA0003545912970000064
表示第(i,j)个预测框是否参与训练,confij表示第(i,j)个预测框的行人置信度预测目标,(xij,min,yij,min)和(xij,max,yij,max)分别表示第(i,j)个预测框的左上角和右下角坐标预测目标,
Figure GDA0003545912970000065
Figure GDA0003545912970000066
分别表示预处理图像中第k个行人框的左上角和右下角坐标;
所述行人检测网络训练模块,用于以预处理图像作为输入、预测框的标签值作为学习目标,训练行人检测网络,得到行人检测系统;在训练过程中计算损失时,计算被标记为负样本的预测框与预处理图像中所有行人框的交并比,如果最大交并比大于0.5,则该负样本不参与训练,即设置其第一位标签值为
Figure GDA0003545912970000067
所述行人检测模块,用于接收行人框待检测的、有关港口场景的预处理图像的输入,并使用行人检测系统获取预处理图像中的检测框;
所述行人框筛选模块,用于对行人检测模块得到的检测框,去掉其中行人置信度低于阈值的检测框,并使用soft-nms算法去掉其中的重叠框,将剩余的检测框作为待检测的行人框。
本发明还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
有益效果
首先,本发明分析了anchor在行人检测网络中的作用,并通过合理分配正负样本以及合理设置回归目标,实现了anchor-free,使行人检测网络摆脱对anchor的依赖,解决了anchor需要人为设计、且不能跨数据集使用的问题;其次,通过融合FPN所有检测分支的特征以及尺度attention模块,使网络在检测某个尺度的行人时,能够自适应地为该行人对应的多个具有不同感受野的ROI特征赋予合适的权重,从而缓解行人尺度变化问题;再次,针对港口场景亮度分布比较大的问题,使用图像处理中的直方图均衡化对原始图像进行亮度均衡化处理,提高行人检测精度;另外,使用soft-nms算法去掉重叠框,获取最终的行人框,该方法可广泛应用于辅助驾驶、无人驾驶、智能监控等实际应用场景中。
附图说明
图1为本发明实例中港口场景下的行人检测方法流程图;
图2为本发明实例中行人检测网络的结构图;
图3为实施例1的各步骤效果图;其中图a为港口场景图,图b为直方图均衡化之后的效果图,图c为灰度值标准化之后的效果图,图d为原始检测效果图,图e为去掉低置信度检测框之后的检测效果图,图f为去掉重叠检测框之后的检测效果图;
图4为实施例5的各步骤效果图;其中图a为港口场景图,图b为直方图均衡化之后的效果图,图c为灰度值标准化之后的效果图,图d为原始检测效果图,图e为去掉低置信度检测框之后的检测效果图,图f为去掉重叠检测框之后的检测效果图;
图5为实施例6的各步骤效果图;其中图a为港口场景图,图b为直方图均衡化之后的效果图,图c为灰度值标准化之后的效果图,图d为原始检测效果图,图e为去掉低置信度检测框之后的检测效果图,图f为去掉重叠检测框之后的检测效果图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
实施例1:
本实施例提供一种港口场景下的行人检测方法,整体实施流程如图1所示,包括以下步骤:
步骤0,获取港口场景图像,并进行直方图均衡化处理和标准化处理。
由于港口场景会受到天气和环境的影响,所以场景亮度分布比较大,这会影响后续步骤的检测效果,本实施例采用直方图均衡化算法对图像灰度值进行非线性拉伸,使图像的灰度值在各个灰度值区域分布比较均匀。
首先使用双线性插值算法将港口图3(a)的尺寸调整到512×512,然后使用直方图均衡化算法对图3(a)进行均衡化处理得到图片3(b),具体的直方图均衡化处理的转换函数为:
Figure GDA0003545912970000081
式中,MN表示港口场景图像的像素点总数,np表示灰度值为p的像素个数,sq表示灰度值q经过直方图均衡化之后得到的新灰度值。
为了提高网络训练效率,增强网络对环境的鲁棒性,本实施例在直方图均衡化之后的均衡化图像3(b)基础上进行标准化处理,所述过程分为两个小步骤:
步骤A1,计算出直方图均衡化处理得到的均衡化图像3(b)的RGB三个通道的均值uc和标准差σc
步骤A2,使用以下公式对图像进行标准化处理得到图像3(c):
Figure GDA0003545912970000082
其中gc表示某一像素点的c通道灰度值,r,g,b表示图像的RGB三个通道。
步骤1,获取若干经过步骤0得到的且已知行人框的预处理图像,并根据行人检测网络的步长s,按以下公式计算预处理图像中每个行人框中心在行人检测网络输出端的映射值:
Figure GDA0003545912970000083
式中,
Figure GDA0003545912970000084
为预处理图像中第k个行人框的中心点在预处理图像中的坐标,
Figure GDA0003545912970000085
为第k个行人框的中心点在行人检测网络输出端的映射值。
本发明实施例所采用的行人检测网络包括:由backbone和FPN组成的特征提取网络模块、特征图融合模块、尺度attention模块、分类子网络和回归子网络。
(1)特征提取网络的设计
特征提取网络是一种卷积神经网络,主体结构由backbone和FPN组成,backbone用于提取图像的多尺度多语义特征,FPN负责使用高语义特征来丰富低层的精细特征。backbone和FPN结构的具体描述如下:
(i)backbone的设计
为保证检测的实时性,本实施例的backbone采用轻量化网络mobileNetV2,训练和测试期间的输入都是大小为512×512×3的RGB图像矩阵,用Cx表示mobileNetV2第x阶段输出的特征图,Cx相对于原图的步长为2x,本实施例从backbone中提取的特征图分别是大小为64×64×32、32×32×96、16×16×1024的特征图C3、C4、C5
(ii)FPN的设计
为保证检测的实时性,本发明设计了一个轻量化的FPN结构,在FPN结构中包含了一系列的卷积层、GN(Group Normalization)层、激活层和双线性插值层,为方便描述,我们定义一个bottleneck(cout)模块,cout表示bottleneck模块的输出通道,bottleneck模块由1×1的卷积层、GN层、relu6激活层、3×3的depthwise卷积层、GN层、relu6激活层、1×1的卷积层和GN层组成,第一个1×1卷积层的输出通道为2×cout,第二个1×1的卷积层的输出通道为cout。
FPN在本实施例中的具体结构为:首先是在特征图C5后面使用一个输出通道为96的bottleneck模块,得到大小为16×16×96的特征图P5;然后在特征图P5后面使用一个最近邻插值层,得到大小为32×32×96的特征图P5*,之后将特征图C4和P5*相加得到特征图C4*,然后在C4*后面使用一个输出通道为32的bottleneck模块,得到大小为32×32×32的特征图P4,然后在特征图P4后面使用一个最近邻插值层,得到大小为64×64×32的特征图P4*,之后将特征图C3和特征图P4*相加得到特征图C3*,最后在C3*后面使用一个输出通道为16的bottleneck模块,得到大小为64×64×16的特征图P3。
(2)特征图融合模块的设计
特征提取网络输出3个检测分支的特征图P3、P4、P5,特征图融合模块则对该3个特征图沿通道进行融合,这样的设计有以下两个好处:
(i)由于本发明之后会实现anchor-free,如果像FPN一样使用多个检测分支,那么就需要为每个检测分支设置有效的训练尺度范围,从而引入很多超参数,而融合所有检测特征图之后,就只有一个检测分支,这个检测分支负责检测所有尺度的行人,所以不再需要设置有效训练尺度范围。
(ii)由于FPN各个检测分支的特征图具有不同大小的感受野,所以低层特征图具有详细的空间位置信息,高层特征图具有丰富的语义信息,因此将这些特征图融合之后,在检测某个尺度的行人时,可以充分利用低层的空间位置特征和高层的语义特征,从而缓解尺度变化问题。
特征图融合模块在本实施例中的具体结构为:在特征图P5后面接一个步长为4、输出通道为16的转置卷积层,得到大小为64×64×16的特征图PL;在P4后面接一个步长为2、输出通道为16的转置卷积层,得到大小为64×64×16的特征图PM;在P3后面接一个步长为1、输出通道为16的普通卷积层,得到大小为64×64×16的特征图PS;最后将特征图PS、PM、PL级联起来,得到大小为64×64×48的特征图P_concat。
(3)尺度attention模块的设计
本实施例提出一个尺度attention模块,使网络在检测某个尺度的行人时,能够自适应地为该行人对应的多个具有不同感受野的ROI特征赋予合适的权重。
尺度attention模块在本实施例中的具体结构为:在特征图P_concat后面使用一个步长为1、输出通道为3的3×3卷积层和sigmoid激活层,得到大小为64×64×3的特征图P_concat*;之后将特征图P_concat*沿通道维复制16次,得到大小为64×64×48的特征图P_scale_attention;然后将特征图P_scale_attention与特征图P_concat点乘,得到检测特征图P;
(4)分类子网络和回归子网络的设计
分类子网络用于预测行人框的置信度,在本实施例中的具体结构为:首先在检测特征图P后面使用一个步长为1、输出通道为1的1×1卷积层,得到clsp∈R64×64×1;然后再用以下公式对clsp中的每个值
Figure GDA0003545912970000101
进行解码,得到分类子网络的输出confp∈R64×64×1,其中
Figure GDA0003545912970000102
表示分类子网络为第(i,j)个预测框预测的行人置信度;对
Figure GDA0003545912970000103
进行解码的公式为:
Figure GDA0003545912970000104
回归子网络用于预测行人框的坐标,在本实施例中的具体结构为:首先在检测特征图P后面使用一个步长为1、输出通道为4的1×1卷积层,得到regp∈R64×64×4,其中
Figure GDA0003545912970000105
表示regp的第(i,j)个向量,然后再使用以下公式对
Figure GDA0003545912970000106
进行解码,得到回归子网络的输出coorp∈R64×64×4,其中
Figure GDA0003545912970000107
表示回归子网络为第(i,j)个预测框预测的坐标,s是行人检测网络的步长;对
Figure GDA0003545912970000108
进行解码的公式为:
Figure GDA0003545912970000109
将分类子网络的输出confp与回归子网络的输出coorp沿通道级联起来,得到行人检测网络最终输出的检测框Θ∈R64×64×5,其中
Figure GDA0003545912970000111
在本实施例中,行人检测网络的步长取值s=8。
(5)损失函数的设计
本发明设计的损失函数如下所示:
Figure GDA0003545912970000112
式中,L表示行人检测网络在当前训练迭代时的总损失,
Figure GDA0003545912970000113
分别表示第(i,j)个预测框Θij的置信度损失和坐标回归损失;h、w分别表示行人检测网络的中间输出特征图的高和宽;
Figure GDA0003545912970000114
表示预测框Θij的行人置信度预测值,confij表示预测框Θij的标签值中的行人置信度;
Figure GDA0003545912970000115
表示预测框Θij的行人框坐标预测值,Bij表示预测框Θij的标签值中的行人框坐标,Gij表示
Figure GDA0003545912970000116
和Bij的最小闭包区域;
Figure GDA0003545912970000117
表示置信度损失的权重,类似于focal loss用来缓解正负样本不均衡问题;
Figure GDA0003545912970000118
表示坐标回归损失的权重,用于平衡不同尺度行人的回归损失;λ为行人检测网络中的超参数;himg、wimg分别表示预处理图像的高和宽。
在本实施例中,h=w=64,himg=wimg=512,λ=2。
步骤2,在行人检测网络输出端的所有预测框中:选择与步骤1得到的映射值匹配的预测框作为正样本,设置其标签为
Figure GDA0003545912970000119
将其余预测框作为负样本,设置其标签为
Figure GDA00035459129700001110
样本的标签中,
Figure GDA00035459129700001111
表示第(i,j)个预测框是否参与训练,confij表示第(i,j)个预测框的行人置信度预测目标,(xij,min,yij,min)和(xij,max,yij,max)分别表示第(i,j)个预测框的左上角和右下角坐标预测目标,
Figure GDA00035459129700001112
Figure GDA00035459129700001113
分别表示预处理图像中第k个行人框的左上角和右下角坐标。
Anchor是人工在输入图像中设定的先验框,可用于分配正负样本和作为回归子网络回归目标框的初始框。其在行人检测网络中主要有两个作用,第一个作用是可以解决行人框平移的问题,第二个作用是可以缓解尺度变化问题。Anchor的缺点是需要人工设计,且基于anchor的行人检测网络对anchor超参数都非常敏感。针对anchor存在的问题,本发明提出一种anchor-free方法,通过对正负样本进行分配和设置回归目标框,使行人检测网络摆脱对anchor的依赖。
本发明在步骤2中,使用
Figure GDA0003545912970000121
表示行人检测网络输出端的第(i,j)个预测框的标签,其中
Figure GDA0003545912970000122
表示该预测框是否参与训练,confij表示行人置信度预测目标,(xij,min,yij,min,xij,max,yij,max)表示Θij负责回归的行人框坐标。输入行人检测网络的预处理图像中第k个行人框用
Figure GDA0003545912970000123
表示,其中
Figure GDA0003545912970000124
Figure GDA0003545912970000125
分别表示左上角坐标和右下角坐标。
在分配正样本的时候,行人框Bk的中心
Figure GDA0003545912970000126
经步骤1得到的映射值
Figure GDA0003545912970000127
与行人检测网络的第(i,j)个预测框相匹配,即满足
Figure GDA0003545912970000128
则将该第(i,j)个预测框Θij设置为正样本,即设置该预测框Θij的标签为
Figure GDA0003545912970000129
对于其他非正样本的预测框,则首先将它们全部设置为负样本,即标签设置为(1,0,0,0,0,0)。
步骤3,以预处理图像作为输入、预测框的标签值作为学习目标,训练行人检测网络,得到行人检测系统;
在训练过程中计算损失时,计算被标记为负样本的预测框与预处理图像中所有行人框的交并比,如果最大交并比大于0.5,那么本发明认为该预测框已经能够相对准确地预测出行人框,不应该属于负样本,设置该预测框不参与负样本损失计算,即设置其第一位标签值为
Figure GDA00035459129700001210
在本实施例中,训练使用GPU进行加速,训练使用的优化算法为Adam,初始学习率为1e-4,使用cosine learning rate对学习率进行调整,最终学习率为1e-6,使用的数据增增广方式是裁剪、翻转、平移,batch size设置为2,训练200个周期。
步骤4,将行人框待检测的、有关港口场景的预处理图像,输入至步骤3得到的行人检测系统,获取预处理图像中的检测框,如图3(d)所示。
步骤5,对步骤4中得到的检测框,去掉其中行人置信度低于阈值的检测框,得到如图3(e)所示的图像;再使用soft-nms算法去掉其中的重叠框,剩余的检测框即为待检测的行人框,如图3(f)所示。
其中使用soft-nms算法去掉其中的重叠框的计算过程为:
步骤5.1,首先将预处理图像中的所有检测框放入列表L1中;
步骤5.2,将列表L1中所有检测框按行人置信度从高到低的顺序排序;
步骤5.3,从列表L1中取出行人置信度最高的检测框A放入列表L2中,并将检测框A从列表L1中删除,计算检测框A与列表L1中所有检测框的交并比IOUl,l表示列表L1中的第l个检测框;
步骤5.4,根据列表L1中每个检测框的IOUl,按公式
Figure GDA0003545912970000131
计算该检测框的权重;其中中间参数δ=0.3;
步骤5.5,去掉列表L1中权重低于权重阈值0.5的检测框,并返回执行步骤5.2,直到列表L1为空。
实施例2:
本发明还提供一种港口场景下的行人检测装置,包括映射值计算模块、标签设置模块、行人检测网络训练模块、行人检测模块和行人框筛选模块;
所述映射值计算模块,用于获取若干已知行人框的、有关港口场景的预处理图像,并根据行人检测网络的步长设置,计算预处理图像中每个行人框中心在行人检测网络输出端的映射值;
所述标签设置模块,用于在行人检测网络输出端的所有预测框中:选择与映射值匹配的预测框作为正样本,设置其标签为
Figure GDA0003545912970000132
将其余预测框作为负样本,设置其标签为
Figure GDA0003545912970000133
其中,
Figure GDA0003545912970000134
表示第(i,j)个预测框是否参与训练,confij表示第(i,j)个预测框的行人置信度预测目标,(xij,min,yij,min)和(xij,max,yij,max)分别表示第(i,j)个预测框的左上角和右下角坐标预测目标,
Figure GDA0003545912970000135
Figure GDA0003545912970000136
分别表示预处理图像中第k个行人框的左上角和右下角坐标;
所述行人检测网络训练模块,用于以预处理图像作为输入、预测框的标签值作为学习目标,训练行人检测网络,得到行人检测系统;在训练过程中计算损失时,计算被标记为负样本的每个预测框与预处理图像中所有行人框的交并比,如果最大交并比大于0.5,则该负样本不参与训练,即设置其第一位标签值为
Figure GDA0003545912970000137
所述行人检测模块,用于接收行人框待检测的、有关港口场景的预处理图像的输入,并使用行人检测系统获取预处理图像中的检测框;
所述行人框筛选模块,用于对行人检测模块得到的检测框,去掉其中行人置信度低于阈值的检测框,并使用soft-nms算法去掉其中的重叠框,将剩余的检测框作为待检测的行人框。
实施例3:
本发明还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如实施例1所述的方法。
实施例4:
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如实施例1所述的方法。
实施例5:
对港口图像4(a)进行行人检测。第一步是使用传统图像处理算法对港口图像进行预处理。首先使用双线性插值算法将港口图4(a)的尺寸调整到512×512,然后使用直方图均衡化算法对图4(a)进行均衡化处理得到图4(b)。接着进行灰度值标准化处理,首先计算出训练数据集中RGB三个通道的均值和方差,然后用公式(2)对图4(b)进行标准化处理得到图4(c)。
第二步是使用基于深度卷积神经网络的行人检测系统进行检测。由第一步获取了预处理图像,如图4(c)所示,将图像4(c)作为行人检测系统的输入。按照实施例1所述搭建出行人检测网络,其中网络最终的损失函数如公式(6)所示。搭建好的网络与实施例1相同需要先经过训练,训练过程使用GPU加速,训练使用的优化算法为Adam,初始学习率为1e-4,使用cosine learning rate对学习率进行调整,最终学习率为1e-6,使用的数据增广方式是多尺度训练、裁剪、翻转、平移,batch size设置为2,训练200个周期。通过训练好的行人检测系统来检测行人,得到如图4(d)所示的原始检测框。
第三步是对原始检测结果进行后处理。由第二步获得了原始的行人检测框,如图4(d)所示,首先去掉所有置信度低于0.5的检测框,得到如图4(e)所示的检测框,然后使用soft-nms算法去掉重叠框,得到最终的检测结果,如图4(f)所示。
实施例5:
对港口图像5(a)进行行人检测。第一步是使用传统图像处理算法对港口图像进行预处理。首先使用双线性插值算法将港口图像5(a)的尺寸调整到512×512,然后使用直方图均衡化算法对图5(a)进行均衡化处理得到图5(b)。接着进行灰度值标准化处理,首先计算出训练数据集中RGB三个通道的均值和方差,然后用公式(2)对图5(b)进行标准化处理得到图5(c)。
第二步是使用基于深度卷积神经网络的行人检测系统进行检测。由第一步获取了预处理图像,如图5(c)所示,将图5(c)作为行人检测系统的输入。按照实施例1中所搭建的行人检测网络,其中网络最终的损失函数如公式(6)所示。搭建好的网络与实施例1相同需要先经过训练,训练过程使用GPU加速,训练使用的优化算法为Adam,初始学习率为1e-4,使用cosine learning rate对学习率进行调整,最终学习率为1e-6,使用的数据增广方式是多尺度训练、裁剪、翻转、平移,batch size设置为2,训练200个周期。通过训练好的行人检测系统来检测行人,得到如图5(d)所示的原始检测框。
第三步是对原始检测结果进行后处理。由第二步获得了原始的行人检测框,如图5(d)所示,首先去掉所有置信度低于0.5的检测框,得到如图5(e)所示的检测框,然后使用soft-nms算法去掉重叠框,得到最终的检测结果,如图5(f)所示。
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。

Claims (9)

1.一种港口场景下的行人检测方法,其特征在于,包括以下步骤:
步骤1,获取若干已知行人框的、有关港口场景的预处理图像,并根据行人检测网络的步长设置,计算预处理图像中每个行人框中心在行人检测网络输出端的映射值;
步骤2,在行人检测网络输出端的所有预测框中:选择与步骤1得到的映射值匹配的预测框作为正样本,设置其标签为
Figure FDA0003545912960000011
将其余预测框作为负样本,设置其标签为
Figure FDA0003545912960000012
样本的标签中,
Figure FDA0003545912960000013
表示第(i,j)个预测框是否参与训练,confij表示第(i,j)个预测框的行人置信度预测目标,(xij,min,yij,min)和(xij,max,yij,max)分别表示第(i,j)个预测框的左上角和右下角坐标预测目标,
Figure FDA0003545912960000014
Figure FDA0003545912960000015
分别表示预处理图像中第k个行人框的左上角和右下角坐标;
步骤3,以预处理图像作为输入、预测框的标签值作为学习目标,训练行人检测网络,得到行人检测系统;
在训练过程中计算损失时,计算被标记为负样本的预测框与预处理图像中所有行人框的交并比,如果最大交并比大于0.5,则该负样本不参与训练,即设置其第一位标签值为
Figure FDA0003545912960000016
步骤4,将行人框待检测的、有关港口场景的预处理图像,输入至步骤3得到的行人检测系统中,获取预处理图像中的检测框;
步骤5,对步骤4中得到的检测框,去掉其中行人置信度低于阈值的检测框以及重叠框,剩余的检测框即为待检测的行人框。
2.根据权利要求1所述的方法,其特征在于,训练行人检测网络所采用的损失函数为:
Figure FDA0003545912960000017
式中,L表示行人检测网络在当前训练迭代时的总损失,
Figure FDA0003545912960000018
分别表示第(i,j)个预测框Θij的置信度损失和坐标回归损失;h、w分别表示行人检测网络的中间输出特征图的高和宽;
Figure FDA0003545912960000019
表示预测框Θij的行人置信度预测值,confij表示预测框Θij的标签值中的行人置信度;
Figure FDA0003545912960000021
表示预测框Θij的行人框坐标预测值,Bij表示预测框Θij的标签值中的行人框坐标,Gij表示
Figure FDA0003545912960000022
和Bij的最小闭包区域;
Figure FDA0003545912960000023
表示置信度损失的权重,
Figure FDA0003545912960000024
表示坐标回归损失的权重,λ为行人检测网络中的超参数;himg、wimg分别表示预处理图像的高和宽。
3.根据权利要求1所述的方法,其特征在于,所述行人检测网络包括:由backbone和FPN组成的特征提取网络模块、特征图融合模块、尺度attention模块、分类子网络和回归子网络;
所述backbone采用轻量化网络mobileNetV2,对输入大小为512×512×3的预处理图像进行特征提取,获取大小分别为64×64×32、32×32×96、16×16×1024的特征图C3、C4、C5;
所述FPN的结构为:首先是在特征图C5后面使用一个输出通道为96的bottleneck模块,得到大小为16×16×96的特征图P5;然后在特征图P5后面使用一个最近邻插值层,得到大小为32×32×96的特征图P5*,之后将特征图C4和P5*相加得到特征图C4*,然后在C4*后面使用一个输出通道为32的bottleneck模块,得到大小为32×32×32的特征图P4,然后在特征图P4后面使用一个最近邻插值层,得到大小为64×64×32的特征图P4*,之后将特征图C3和特征图P4*相加得到特征图C3*,最后在C3*后面使用一个输出通道为16的bottleneck模块,得到大小为64×64×16的特征图P3;
所述特征图融合模块的结构为:在特征图P5后面接一个步长为4、输出通道为16的转置卷积层,得到大小为64×64×16的特征图PL;在P4后面接一个步长为2、输出通道为16的转置卷积层,得到大小为64×64×16的特征图PM;在P3后面接一个步长为1、输出通道为16的普通卷积层,得到大小为64×64×16的特征图PS;最后将特征图PS、PM、PL级联起来,得到大小为64×64×48的特征图P_concat;
所述尺度attention模块的结构为:在特征图P_concat后面使用一个步长为1、输出通道为3的3×3卷积层和sigmoid激活层,得到大小为64×64×3的特征图P_concat*;之后将特征图P_concat*沿通道维复制16次,得到大小为64×64×48的特征图P_scale_attention;然后将特征图P_scale_attention与特征图P_concat点乘,得到检测特征图P;
所述分类子网络的结构为:首先在特征图P后面使用一个步长为1、输出通道为1的1×1卷积层,得到clsp∈R64×64×1,然后再用以下公式对clsp中的每个值
Figure FDA0003545912960000025
进行解码,得到分类子网络的输出confp∈R64×64×1,其中
Figure FDA0003545912960000026
表示分类子网络为第(i,j)个预测框预测的行人置信度;对
Figure FDA0003545912960000027
进行解码的公式为:
Figure FDA0003545912960000031
所述回归子网络的结构为:首先在检测特征图P后面使用一个步长为1、输出通道为4的1×1卷积层,得到regp∈R64×64×4,其中
Figure FDA0003545912960000032
表示regp的第(i,j)个向量,然后再使用以下公式对
Figure FDA0003545912960000033
进行解码,得到回归子网络的输出coorp∈R64×64×4,其中
Figure FDA0003545912960000034
表示回归子网络为第(i,j)个预测框预测的坐标,s是行人检测网络的步长;对
Figure FDA0003545912960000035
进行解码的公式为:
Figure FDA0003545912960000036
将分类子网络的输出confp与回归子网络的输出coorp沿通道级联起来,得到行人检测网络最终输出的检测框Θ∈R64×64×5,其中
Figure FDA0003545912960000037
4.根据权利要求1所述的方法,其特征在于,步骤1中计算预处理图像中每个行人框中心在行人检测网络输出端的映射值的方法为:
Figure FDA0003545912960000038
式中,
Figure FDA0003545912960000039
为预处理图像中第k个行人框的中心点在预处理图像中的坐标,s是行人检测网络的步长;
与映射值匹配的预测框是指,第(i,j)个预测框满足:
Figure FDA00035459129600000310
5.根据权利要求1所述的方法,其特征在于,步骤5中使用soft-nms算法去掉其中的重叠框,具体过程为:
步骤5.1,首先将预处理图像中的所有检测框放入列表L1中;
步骤5.2,将列表L1中所有检测框按行人置信度从高到低的顺序排序;
步骤5.3,从列表L1中取出行人置信度最高的检测框A放入列表L2中,并将检测框A从列表L1中删除,计算检测框A与列表L1中所有检测框的交并比IOUl,l表示列表L1中的第l个检测框;
步骤5.4,根据列表L1中每个检测框的IOUl,按公式
Figure FDA0003545912960000041
计算该检测框的权重;其中中间参数δ=0.3;
步骤5.5,去掉列表L1中权重低于权重阈值的检测框,并返回执行步骤5.2,直到列表L1为空。
6.根据权利要求1所述的方法,其特征在于,所述预处理图像是指,对港口场景图像进行直方图均衡化处理和标准化处理后得到的图像;
其中,直方图均衡化处理的转换公式为:
Figure FDA0003545912960000042
式中,MN表示港口场景图像的像素点总数,np表示灰度值为p的像素个数,sq表示灰度值q经过直方图均衡化之后得到的新灰度值;
标准化处理的过程为:
步骤A1,计算出直方图均衡化处理得到的图像中RGB三个通道的均值uc和标准差σc
步骤A2,使用以下公式对图像进行标准化处理:
Figure FDA0003545912960000043
其中gc表示某一像素点的c通道灰度值,r,g,b表示图像的RGB三个通道。
7.一种港口场景下的行人检测装置,其特征在于,所述装置包括映射值计算模块、标签设置模块、行人检测网络训练模块、行人检测模块和行人框筛选模块;
所述映射值计算模块,用于获取若干已知行人框的、有关港口场景的预处理图像,并根据行人检测网络的步长设置,计算预处理图像中每个行人框中心在行人检测网络输出端的映射值;
所述标签设置模块,用于在行人检测网络输出端的所有预测框中:选择与映射值匹配的预测框作为正样本,设置其标签为
Figure FDA0003545912960000044
将其余预测框作为负样本,设置其标签为
Figure FDA0003545912960000045
其中,
Figure FDA0003545912960000046
表示第(i,j)个预测框是否参与训练,confij表示第(i,j)个预测框的行人置信度预测目标,(xij,min,yij,min)和(xij,max,yij,max)分别表示第(i,j)个预测框的左上角和右下角坐标预测目标,
Figure FDA0003545912960000047
Figure FDA0003545912960000048
分别表示预处理图像中第k个行人框的左上角和右下角坐标;
所述行人检测网络训练模块,用于以预处理图像作为输入、预测框的标签值作为学习目标,训练行人检测网络,得到行人检测系统;在训练过程中计算损失时,计算被标记为负样本的预测框与预处理图像中所有行人框的交并比,如果最大交并比大于0.5,则该负样本不参与训练,即设置其第一位标签值为
Figure FDA0003545912960000051
所述行人检测模块,用于接收行人框待检测的、有关港口场景的预处理图像的输入,并使用行人检测系统获取预处理图像中的检测框;
所述行人框筛选模块,用于对行人检测模块得到的检测框,去掉其中行人置信度低于阈值的检测框,并使用soft-nms算法去掉其中的重叠框,将剩余的检测框作为待检测的行人框。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。
CN202010027137.1A 2020-01-10 2020-01-10 一种港口场景下的行人检测方法、装置、设备及介质 Expired - Fee Related CN113128308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010027137.1A CN113128308B (zh) 2020-01-10 2020-01-10 一种港口场景下的行人检测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010027137.1A CN113128308B (zh) 2020-01-10 2020-01-10 一种港口场景下的行人检测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113128308A CN113128308A (zh) 2021-07-16
CN113128308B true CN113128308B (zh) 2022-05-20

Family

ID=76770870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010027137.1A Expired - Fee Related CN113128308B (zh) 2020-01-10 2020-01-10 一种港口场景下的行人检测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113128308B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591735A (zh) * 2021-08-04 2021-11-02 上海新纪元机器人有限公司 一种基于深度学习的行人检测方法及系统
CN114644276B (zh) * 2022-04-11 2022-12-02 伊萨电梯有限公司 一种混合场景条件下的智能电梯控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520229A (zh) * 2018-04-04 2018-09-11 北京旷视科技有限公司 图像检测方法、装置、电子设备和计算机可读介质
CN109741318A (zh) * 2018-12-30 2019-05-10 北京工业大学 基于有效感受野的单阶段多尺度特定目标的实时检测方法
CN110503112A (zh) * 2019-08-27 2019-11-26 电子科技大学 一种增强特征学习的小目标检测及识别方法
CN110569757A (zh) * 2019-08-26 2019-12-13 高新兴科技集团股份有限公司 基于深度学习的多姿态行人检测方法及计算机存储介质
CN110598764A (zh) * 2019-08-28 2019-12-20 杭州飞步科技有限公司 目标检测模型的训练方法、装置及电子设备
CN110633731A (zh) * 2019-08-13 2019-12-31 杭州电子科技大学 一种基于交错感知卷积的单阶段无锚框目标检测方法
CN110659721A (zh) * 2019-08-02 2020-01-07 浙江省北大信息技术高等研究院 一种目标检测网络的构建方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160072676A (ko) * 2014-12-15 2016-06-23 삼성전자주식회사 객체 검출 장치 및 방법과, 컴퓨터 보조 진단 장치 및 방법
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520229A (zh) * 2018-04-04 2018-09-11 北京旷视科技有限公司 图像检测方法、装置、电子设备和计算机可读介质
CN109741318A (zh) * 2018-12-30 2019-05-10 北京工业大学 基于有效感受野的单阶段多尺度特定目标的实时检测方法
CN110659721A (zh) * 2019-08-02 2020-01-07 浙江省北大信息技术高等研究院 一种目标检测网络的构建方法和系统
CN110633731A (zh) * 2019-08-13 2019-12-31 杭州电子科技大学 一种基于交错感知卷积的单阶段无锚框目标检测方法
CN110569757A (zh) * 2019-08-26 2019-12-13 高新兴科技集团股份有限公司 基于深度学习的多姿态行人检测方法及计算机存储介质
CN110503112A (zh) * 2019-08-27 2019-11-26 电子科技大学 一种增强特征学习的小目标检测及识别方法
CN110598764A (zh) * 2019-08-28 2019-12-20 杭州飞步科技有限公司 目标检测模型的训练方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Center and Scale Prediction:》;Wei Liu;《arxiv.org/abs/1904.02948v3》;20190423;全文 *
《FCOS: Fully Convolutional One-Stage Object Detection》;Zhi Tian;《https://arxiv.org/abs/1904.01355》;20190820;全文 *
《LapNet : Automatic Balanced Loss and Optimal Assignment for Real-Time》;Florian Chabot;《https://arxiv.org/abs/1911.01149》;20191104;全文 *

Also Published As

Publication number Publication date
CN113128308A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN107229904B (zh) 一种基于深度学习的目标检测与识别方法
Roy et al. Monocular depth estimation using neural regression forest
CN112990211B (zh) 一种神经网络的训练方法、图像处理方法以及装置
CN112101175A (zh) 基于局部图像的高速公路车辆检测及多属性特征提取方法
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
CN112150821B (zh) 轻量化车辆检测模型构建方法、系统及装置
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
EP3261017A1 (en) Image processing system to detect objects of interest
CN112507777A (zh) 一种基于深度学习的光学遥感图像舰船检测与分割方法
CN109558806A (zh) 高分遥感图像变化的检测方法和系统
CN112395951B (zh) 一种面向复杂场景的域适应交通目标检测与识别方法
CN113052006B (zh) 一种基于卷积神经网络的图像目标检测方法,系统及可读存储介质
CN110222718B (zh) 图像处理的方法及装置
CN109657715B (zh) 一种语义分割方法、装置、设备及介质
CN110991349B (zh) 一种基于度量学习的轻量级车辆属性识别方法
CN109766828A (zh) 一种车辆目标分割方法、装置及通信设备
CN113128308B (zh) 一种港口场景下的行人检测方法、装置、设备及介质
CN111428664A (zh) 一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法
CN112132145A (zh) 一种基于模型扩展卷积神经网络的图像分类方法及系统
CN113052184A (zh) 一种基于两阶段局部特征对齐的目标检测方法
CN111540203B (zh) 基于Faster-RCNN调节绿灯通行时间的方法
CN111199255A (zh) 基于darknet53网络的小目标检测网络模型及检测方法
CN109635649B (zh) 一种无人机侦察目标的高速检测方法及系统
CN112766176B (zh) 轻量化卷积神经网络的训练方法及人脸属性识别方法
CN114359578A (zh) 病虫害识别智能终端应用方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220520