CN112800942A - 一种基于自校准卷积网络的行人检测方法 - Google Patents
一种基于自校准卷积网络的行人检测方法 Download PDFInfo
- Publication number
- CN112800942A CN112800942A CN202110105126.5A CN202110105126A CN112800942A CN 112800942 A CN112800942 A CN 112800942A CN 202110105126 A CN202110105126 A CN 202110105126A CN 112800942 A CN112800942 A CN 112800942A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- self
- calibration
- characteristic
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 72
- 238000010586 diagram Methods 0.000 claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 8
- 238000002474 experimental method Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000003247 decreasing effect Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101000713575 Homo sapiens Tubulin beta-3 chain Proteins 0.000 description 1
- 102100036790 Tubulin beta-3 chain Human genes 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于自校准卷积网络的行人检测方法,包括:步骤10、采用自校准卷积网络对输入的图片进行多层卷积网络的特征提取,得到不同层的特征图;步骤20、通过特征融合将高低层之间的特征进行融合得到用于检测的行人特征图;步骤30、通过检测器的头部对行人特征图生成中心点特征图、尺度特征图和偏差特征图来调整预测值和真实值之间的偏差,将特征图解译为检测结果;步骤40、输出检测结果中带有边界框的行人。采用本发明的行人检测方法,可实现小尺度行人的高精度检测。
Description
技术领域
本发明涉及一种基于自校准卷积网络的行人检测方法。
背景技术
行人检测作为一项重要的基础研究任务在机器视觉领域发挥着重要作用,其在视频监控、自动驾驶、虚拟现实、智能安防等方面都有广泛的应用前景。由于行人与摄像头距离的不同,导致行人在图像或视频中的尺寸大小不一,准确地检测并定位图像或视频中的小尺度行人仍是一项极具挑战的任务。已有的基于锚框的行人检测方法通常都需要铺设锚点框,用传统的滑动窗口的形式来判断预设的锚点框内是否存在行人。这些方法需要针对特定数据集设计,且需要优化锚点框超参数,从而增加了训练难度,另外这些方法在分类阶段,由于高层卷积特征图分辨率降低,小尺度的行人无法得到有效的描述,会降低检测的总体性能。
发明内容
本发明要解决的技术问题,在于提供一种基于自校准卷积网络的行人检测方法,可实现对小尺度行人的高效检测。
本发明提供了一种基于自校准卷积网络的行人检测方法,包括:
步骤10、采用自校准卷积网络对输入的图片进行多层卷积网络的特征提取,得到不同层的特征图;
步骤20、通过特征融合将高低层之间的特征进行融合得到用于检测的行人特征图;
步骤30、通过检测器的头部对行人特征图生成中心点特征图、尺度特征图和偏差特征图来调整预测值和真实值之间的偏差,将特征图解译为检测结果;
步骤40、输出检测结果中带有边界框的行人。
进一步的,所述步骤10进一步包括:
步骤11、预先输入图像X到SCNet自校准卷积网络,通过两个卷积分成两个特征X1、X2,对其中的特征X1采用平均池化,下采样r倍,再经过F2卷积提取得到特征,对得到的特征进行上采样,经过Sigmoid激活函数对F3卷积提取后的特征进行校准得到特征Y'1,对Y'1进行F4卷积提取特征得到输出特征Y1,对特征X2经过F1卷积提取得到特征Y2;
步骤12、对两个尺度空间输出的特征Y1、Y2进行拼接操作,得到特征Y;
步骤13、将图像特征Y作为输入,经过SCNet自校准卷积网络生成具有不同分辨率的复数层特征图,所述复数层特征图的大小逐层递减。
进一步的,所述步骤13具体为:将图像Y作为输入,生成具有不同分辨率的复数个特征图,将所述特征图定义为:φi=fi(φi-1)=fi(fi-1(...f2(f1(Y))));
其中φi表示第i层输出的特征图,复数个所述特征图的大小逐渐减小,生成的特征图fi(·)由卷积或池化处理得到,给定一个具有N层的网络,所有生成的特征图表示为φ={φ1,φ2,...,φN},将负责检测的这些特征图表示为φdet。
进一步的,所述步骤20进一步包括:
步骤21、对所有要融合的特征图进行L2归一化;
步骤22、将除了第1层外的其余层的特征图分辨率反卷积到和第1层的特征图分辨率一致的尺度;
步骤23、再将这些特征图连接起来,得到用于检测的行人特征图。
进一步的,所述步骤30进一步包括:
步骤31、预先在检测器头部依次添加一个3×3的卷积层、两个并联的1×1的卷积层和一个2×2的卷积层;
步骤32、先对行人特征图采用所述检测器头部的3×3的卷积层将其通道数减小到256;
步骤32、通过所述检测器头部的两个并联的1×1的卷积层生成行人中心点特征图和行人尺度预测图;
步骤33、通过所述检测器头部的2×2的卷积层生成行人偏差预测图。
进一步的,预先在训练过程中获取公开数据集中对应的中心点真实值和尺度真实值,并获取行人中心点偏移量的真实值为其中,xk和yk表示第K个行人的中心点坐标,根据所述中心点真实值、尺度真实值以及偏移量的真实值对检测器头部的中心点预测值、尺度预测值以及行人偏差预测值进行调整。
进一步的,所述检测器头部采用如下损失函数对预测值进行优化:
L=λ1Lc+λ2Ls+λ3Lo,
其中λ1、λ2和λ3分别表示中心分类损失Lc的权重、尺度回归损失Ls的权重和偏移回归损失Lo的权重,具体值通过实验设置。
进一步的,所述步骤40进一步包括:
步骤41、获取中心点热图中置信度高于0.01的位置及其在比例图中的相应比例,自动生成边界框,每个边界框需预测x、y、wide、height和置信度这5个参数,其中(x、y)为边界框左上角的坐标,wide为边界框的宽,height为边界框的高;
步骤42、将其重新映射到原始图像大小;
步骤43、使用阈值为0.5非极大值抑制算法去除多余的窗口,找到最佳的行人检测位置;
步骤44、绘制边界框,输出检测结果中带有边界框的行人。
本发明的优点在于:
通过高效的自校准卷积网络的方法来扩大网络的感受野范围进行行人特征的提取,并通过特征融合将高低层之间的特征进行融合来提升多尺度行人的检测精度,通过检测器头部进行特征图的解译工作,将特征图解译为检测结果,来进行偏差调整,实现小尺度行人无锚框的高效检测。本发明的基于自校准卷积网络的行人检测方法,可应用于需要进行目标检测的各种任务,如视频监控、自动驾驶、虚拟现实、智能安防等,应用范围广。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明一种基于自校准卷积网络的行人检测方法的执行流程图。
图2为本发明一种基于自校准卷积网络的行人检测方法的原理示意图。
图3为本发明一种基于自校准卷积网络的行人检测方法的SCNetBlock结构示意图。
具体实施方式
如图1至图3所示,本发明的一种基于自校准卷积网络的行人检测方法,包括:
步骤10、采用自校准卷积网络对输入的图片进行多层卷积网络的特征提取,得到不同层的特征图;
步骤20、通过特征融合将高低层之间的特征进行融合得到用于检测的行人特征图;
步骤30、通过检测器的头部对行人特征图生成中心点特征图、尺度特征图和偏差特征图来调整预测值和真实值之间的偏差,将特征图解译为检测结果;
步骤40、输出检测结果中带有边界框的行人。
较佳的,所述步骤10进一步包括:
步骤11、预先输入图像X到SCNet自校准卷积网络,通过两个卷积分成两个特征X1、X2,对其中的特征X1采用平均池化,下采样r倍(r=4),再经过F2卷积提取得到特征,对得到的特征进行上采样(采用双线性插值法),经过Sigmoid激活函数对F3卷积提取后的特征进行校准得到特征Y'1,对Y'1进行F4卷积提取特征得到输出特征Y1,对特征X2经过F1卷积提取得到特征Y2;
步骤12、对两个尺度空间输出的特征Y1、Y2进行拼接操作,得到特征Y;本发明通过将输入的图像先经过SCNet自校准卷积网络(如图3所示),对行人特征进行分层提取,可有效扩大网络中每个卷积层的感受野范围。在SCNet中,它使每个空间位置能够自适应地对不同区域高低层之间的特征进行提取,使得行人与背景物更具区分性,突出行人的中心点位置。这要归功于SCNet的SCNetBlock中的异构卷积和滤波器间的通信模块,此模块是由多个卷积注意力模块组合起来,用来替换ResNet的基本卷积结构。
步骤13、将图像特征Y作为输入,经过SCNet自校准卷积网络生成具有不同分辨率的复数层特征图,所述复数层特征图的大小逐层递减。
较佳的,所述步骤13具体为:将图像Y作为输入,生成具有不同分辨率的复数个特征图,将所述特征图定义为:φi=fi(φi-1)=fi(fi-1(...f2(f1(Y))));
其中φi表示第i层输出的特征图,复数个所述特征图的大小逐渐减小,生成的特征图fi(·)由卷积或池化处理得到,给定一个具有N层的网络,所有生成的特征图表示为φ={φ1,φ2,...,φN},将负责检测的这些特征图表示为φdet。如图2所示,本发明一较佳实施例中,负责检测的特征图为图2中第1-4层的特征图,即采用4层结构,分别为layer1、layer2、layer3和layer4。设置四层特征图可以缓解多尺度行人的检测问题,相比CSP行人检测算法的layer4来说,CSP中的layer4特征图尺寸是原输入图像尺寸的1/16与layer3特征图尺寸一致。而发明在SC-CSP行人检测算法中将其特征图尺度下采样到原图的1/32,本发明的这样做的好处在于使多尺度行人的检测范围更广,从而可以有效提升小尺度行人的检测精度。
较佳的,所述步骤20进一步包括:
步骤21、对所有要融合的特征图进行L2归一化;
步骤22、将除了第1层外的其余层的特征图分辨率反卷积到和第1层的特征图分辨率一致的尺度,即原图的1/4;
步骤23、再将这些特征图连接起来,得到用于检测的行人特征图。
由于低层特征图拥有较高的空间分辨率,高层特征图则包含更多的语义信息。为了使不同层的特征图都能很好的应用在最终的检测中,本发明中把低层和高层的特征图融合成一个特征图。且出于减少算法复杂度的考虑,采用上述这种特征融合方式。
较佳的,所述步骤30进一步包括:
步骤31、预先在检测器头部依次添加一个3×3的卷积层、两个并联的1×1的卷积层和一个2×2的卷积层;
步骤32、先对行人特征图采用所述检测器头部的3×3的卷积层将其通道数减小到256;
步骤32、通过所述检测器头部的两个并联的1×1的卷积层生成行人中心点特征图和行人尺度预测图;
步骤33、通过所述检测器头部的2×2的卷积层生成行人偏差预测图。
在SC-CSP检测器中,仅对一组特征图φdet进行检测,表示为:
较佳的,预先在训练过程中获取公开数据集中对应的中心点真实值和尺度真实值,并获取行人中心点偏移量的真实值为其中,xk和yk表示第K个行人的中心点坐标,根据所述中心点真实值、尺度真实值以及偏移量的真实值对检测器头部的中心点预测值、尺度预测值以及行人偏差预测值进行调整。本发明中,进行预测的特征图尺寸与经过特征提取的特征图尺寸相同,即(H/r×W/r)=(160×320)。给定边界框的注释,就可以自动生成中心点真实值。行人检测的真实值分为:中心点真实值和尺度真实值。中心点真实值指把行人的中心点表示为正样本,行人的其他位置表示为负样本。行人的尺度可以定义为行人的高度或宽度。为了向行人检测提供高质量的真实值,进而提出了线注释,其可以自动生成紧密的边界框,本专利边界框的纵横比是0.41,根据此注释,只能预测每个行人的高度,进而预测行人的宽度,最后以预测的宽高比生成边界框;尺度真实值指第K个正样本的位置分配与第K个行人相应的log(hk)值。当附加了偏移特征图时,将行人中心点偏移量的真实值定义为
较佳的,所述检测器头部采用如下损失函数对预测值进行优化:
L=λ1Lc+λ2Ls+λ3Lo,
其中λ1、λ2和λ3分别表示中心分类损失Lc的权重、尺度回归损失Ls的权重和偏移回归损失Lo的权重,具体值通过实验设置,在一实验中λ1、λ2和λ3的较佳取值分别为0.01、1和0.1。
由于中心点预测通过交叉熵损失可以将其公式化为分类任务,但很难确定更为精确的中心点,且正负样本的模糊性会导致训练过程很难进行。为了减少正样本附近负样本的模糊性,本发明中采用二维高斯掩模G(·),并以每个正样本的位置为中心,用公式表示为:
其中K是图像中行人的数量,(xk,yk,wk,hk)是第K个行人的中心点坐标、宽度和高度,高斯掩模的方差与单个行人的高度和宽度成比例。如果这些掩模有重叠,则重叠位置选择最大值。为了解决极端的正负样本不平衡的问题,我们采用焦点权重,因此,本发明的分类损失函数Lc可以表示为:
其中Pij∈[0,1]是网络的估计概率,指示位置(i,j)中是否存在行人的中心,yij∈{0,1}是真实值的标签,其中yij=1表示正样本的位置,αij和γ是聚焦超参数,实验设置γ=2。为了减少正样本附近负样本的模糊性,使用高斯掩模M的αij来减少负样本的模糊性,其中β超参数控制惩罚,实验中β=4可以获得最佳性能,对于正样本αij设置为1。
对于尺度预测,我们通过Smooth L1损失将其公式化为回归任务。即所述尺度回归损失Ls表示为:
其中sk和tk分别代表网络的预测和每个正样本的真实值。
由于附加了偏移预测分支,类似SmoothL1损失,并将其表示为Lo。
较佳的,所述步骤40进一步包括:
步骤41、获取中心点热图中置信度高于0.01的位置及其在比例图中的相应比例,自动生成边界框,每个边界框需预测x、y、wide、height和置信度这5个参数,其中(x、y)为边界框左上角的坐标,wide为边界框的宽,height为边界框的高;
步骤42、将其重新映射到原始图像大小;
步骤43、使用阈值为0.5非极大值抑制算法(Non-Maximum Suppression,NMS)去除多余(交叉重复)的窗口,找到最佳的行人检测位置;
步骤44、绘制边界框,输出检测结果中带有边界框的行人。
在测试过程中,SC-CSP只是涉及FCN的单个转发,并带有多个预测机制,采用如上步骤41-44的方式可以找到最佳的行人检测位置。
为了验证本发明性能,我们运用Python语言结合PyTorch框架实现了上述算法,卷积网络是在ImageNet上预训练得到的SCNet-50网络。并选择CityPersons数据集进行实验,CityPersons数据集是一个大规模行人检测数据集,用2975幅图像进行训练,用500幅图像进行测试。我们在4个GPU上优化网络,每个GPU上有2个图像用于一个小批量,网络的学习率分别设置为2×10-5。为了检验本专利提出的SC-CSP方法的性能,选用平均漏检率(AverageMiss Rate)作为检验的综合指标。
如下表1、表2给出了本专利方法在CityPersons数据集上对大小为(1024×2048)的原始图像进行测试,并与现有最新方法分别在遮挡方面与多尺度方面进行比较,本发明提出的SC-CSP方法的平均漏检率低于专门针对遮挡处理的RepLoss和OR-CNN方法,可见SC-CSP在没有任何遮挡处理策略的情况下表现良好。在合理的情况下,精度相比原CSP算法提升了0.6%。如表2所示,我们在行人的大中小三个不同尺度范围的情况上与现有最新技术进行对比实验,在各个尺度范围上,行人的平均漏检率均有下降,尤其是在小尺度范围上,行人的平均漏检率相比CSP方法下降了1.1%。
表1 SC-CSP算法与现有技术在遮挡方面的比较情况
表2 SC-CSP算法与现有技术在尺度方面的比较情况
本发明针对小尺度行人的实例数据,深入研究小尺度行人在无锚行人检测框架中的特征区分性,提出上述高效的自校准卷积网络的方法,利用基于自校准卷积网络的行人检测算法对输入图片进行多层卷积网络的特征提取,可以扩大网络的感受野范围,将图像的像素信息充分转化为具有一定语义的高层信息,之后通过特征融合将高低层之间的特征进行融合来提升多尺度行人的检测精度,最后将融合后的特征图通过检测器的头部,利用改进后的检测器头部生成中心点特征图、尺度特征图、偏差特征图来调整预测值和真实值之间的偏差,缓解行人检测中的偏差问题,提升行人的检测精度。本发明提出的基于自校准卷积网络的行人检测方法,可应用于需要进行目标检测的各种任务(如视频监控、自动驾驶、虚拟现实、智能安防等)。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (8)
1.一种基于自校准卷积网络的行人检测方法,其特征在于:包括:
步骤10、采用自校准卷积网络对输入的图片进行多层卷积网络的特征提取,得到不同层的特征图;
步骤20、通过特征融合将高低层之间的特征进行融合得到用于检测的行人特征图;
步骤30、通过检测器的头部对行人特征图生成中心点特征图、尺度特征图和偏差特征图来调整预测值和真实值之间的偏差,将特征图解译为检测结果;
步骤40、输出检测结果中带有边界框的行人。
2.如权利要求1所述的一种基于自校准卷积网络的行人检测方法,其特征在于:所述步骤10进一步包括:
步骤11、预先输入图像X到SCNet自校准卷积网络,通过两个卷积分成两个特征X1、X2,对其中的特征X1采用平均池化,下采样r倍,再经过F2卷积提取得到特征,对得到的特征进行上采样,经过Sigmoid激活函数对F3卷积提取后的特征进行校准得到特征Y'1,对Y'1进行F4卷积提取特征得到输出特征Y1,对特征X2经过F1卷积提取得到特征Y2;
步骤12、对两个尺度空间输出的特征Y1、Y2进行拼接操作,得到特征Y;
步骤13、将图像特征Y作为输入,经过SCNet自校准卷积网络生成具有不同分辨率的复数层特征图,所述复数层特征图的大小逐层递减。
3.如权利要求2所述的一种基于自校准卷积网络的行人检测方法,其特征在于:所述步骤13具体为:将图像Y作为输入,生成具有不同分辨率的复数个特征图,将所述特征图定义为:φi=fi(φi-1)=fi(fi-1(...f2(f1(Y))));
其中φi表示第i层输出的特征图,复数个所述特征图的大小逐渐减小,生成的特征图fi(·)由卷积或池化处理得到,给定一个具有N层的网络,所有生成的特征图表示为φ={φ1,φ2,...,φN},将负责检测的这些特征图表示为φdet。
4.如权利要求1所述的一种基于自校准卷积网络的行人检测方法,其特征在于:所述步骤20进一步包括:
步骤21、对所有要融合的特征图进行L2归一化;
步骤22、将除了第1层外的其余层的特征图分辨率反卷积到和第1层的特征图分辨率一致的尺度;
步骤23、再将这些特征图连接起来,得到用于检测的行人特征图。
5.如权利要求1所述的一种基于自校准卷积网络的行人检测方法,其特征在于:所述步骤30进一步包括:
步骤31、预先在检测器头部依次添加一个3×3的卷积层、两个并联的1×1的卷积层和一个2×2的卷积层;
步骤32、先对行人特征图采用所述检测器头部的3×3的卷积层将其通道数减小到256;
步骤32、通过所述检测器头部的两个并联的1×1的卷积层生成行人中心点特征图和行人尺度预测图;
步骤33、通过所述检测器头部的2×2的卷积层生成行人偏差预测图。
7.如权利要求5所述的一种基于自校准卷积网络的行人检测方法,其特征在于:
所述检测器头部采用如下损失函数对预测值进行优化:
L=λ1Lc+λ2Ls+λ3Lo,
其中λ1、λ2和λ3分别表示中心分类损失Lc的权重、尺度回归损失Ls的权重和偏移回归损失Lo的权重,具体值通过实验设置。
8.如权利要求1所述的一种基于自校准卷积网络的行人检测方法,其特征在于:所述步骤40进一步包括:
步骤41、获取中心点热图中置信度高于0.01的位置及其在比例图中的相应比例,自动生成边界框,每个边界框需预测x、y、wide、height和置信度这5个参数,其中(x、y)为边界框左上角的坐标,wide为边界框的宽,height为边界框的高;
步骤42、将其重新映射到原始图像大小;
步骤43、使用阈值为0.5非极大值抑制算法去除多余的窗口,找到最佳的行人检测位置;
步骤44、绘制边界框,输出检测结果中带有边界框的行人。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110105126.5A CN112800942B (zh) | 2021-01-26 | 2021-01-26 | 一种基于自校准卷积网络的行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110105126.5A CN112800942B (zh) | 2021-01-26 | 2021-01-26 | 一种基于自校准卷积网络的行人检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800942A true CN112800942A (zh) | 2021-05-14 |
CN112800942B CN112800942B (zh) | 2024-02-13 |
Family
ID=75811889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110105126.5A Active CN112800942B (zh) | 2021-01-26 | 2021-01-26 | 一种基于自校准卷积网络的行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800942B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724175A (zh) * | 2022-03-04 | 2022-07-08 | 亿达信息技术有限公司 | 行人图像的检测网络、检测方法、训练方法、电子设备和介质 |
CN116206275B (zh) * | 2023-02-23 | 2024-03-01 | 南通探维光电科技有限公司 | 基于知识蒸馏的识别模型训练方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180158189A1 (en) * | 2016-12-07 | 2018-06-07 | Samsung Electronics Co., Ltd. | System and method for a deep learning machine for object detection |
CN109753927A (zh) * | 2019-01-02 | 2019-05-14 | 腾讯科技(深圳)有限公司 | 一种人脸检测方法和装置 |
CN109919013A (zh) * | 2019-01-28 | 2019-06-21 | 浙江英索人工智能科技有限公司 | 视频图像中基于深度学习的人脸检测方法及装置 |
CN110309747A (zh) * | 2019-06-21 | 2019-10-08 | 大连理工大学 | 一种支持多尺度快速深度行人检测模型 |
CN110728200A (zh) * | 2019-09-23 | 2020-01-24 | 武汉大学 | 一种基于深度学习的实时行人检测方法及系统 |
CN110781744A (zh) * | 2019-09-23 | 2020-02-11 | 杭州电子科技大学 | 一种基于多层次特征融合的小尺度行人检测方法 |
CN110796640A (zh) * | 2019-09-29 | 2020-02-14 | 郑州金惠计算机系统工程有限公司 | 一种小目标缺陷的检测方法、装置、电子设备及存储介质 |
CN110852272A (zh) * | 2019-11-11 | 2020-02-28 | 上海应用技术大学 | 行人检测方法 |
CN111222564A (zh) * | 2020-01-02 | 2020-06-02 | 中国科学院自动化研究所 | 基于图像通道相关性的图像鉴别系统、方法、装置 |
CN112070054A (zh) * | 2020-09-17 | 2020-12-11 | 福州大学 | 基于图结构与注意力机制的车载激光点云标线分类方法 |
CN112233038A (zh) * | 2020-10-23 | 2021-01-15 | 广东启迪图卫科技股份有限公司 | 基于多尺度融合及边缘增强的真实图像去噪方法 |
-
2021
- 2021-01-26 CN CN202110105126.5A patent/CN112800942B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180158189A1 (en) * | 2016-12-07 | 2018-06-07 | Samsung Electronics Co., Ltd. | System and method for a deep learning machine for object detection |
CN109753927A (zh) * | 2019-01-02 | 2019-05-14 | 腾讯科技(深圳)有限公司 | 一种人脸检测方法和装置 |
CN109919013A (zh) * | 2019-01-28 | 2019-06-21 | 浙江英索人工智能科技有限公司 | 视频图像中基于深度学习的人脸检测方法及装置 |
CN110309747A (zh) * | 2019-06-21 | 2019-10-08 | 大连理工大学 | 一种支持多尺度快速深度行人检测模型 |
CN110728200A (zh) * | 2019-09-23 | 2020-01-24 | 武汉大学 | 一种基于深度学习的实时行人检测方法及系统 |
CN110781744A (zh) * | 2019-09-23 | 2020-02-11 | 杭州电子科技大学 | 一种基于多层次特征融合的小尺度行人检测方法 |
CN110796640A (zh) * | 2019-09-29 | 2020-02-14 | 郑州金惠计算机系统工程有限公司 | 一种小目标缺陷的检测方法、装置、电子设备及存储介质 |
CN110852272A (zh) * | 2019-11-11 | 2020-02-28 | 上海应用技术大学 | 行人检测方法 |
CN111222564A (zh) * | 2020-01-02 | 2020-06-02 | 中国科学院自动化研究所 | 基于图像通道相关性的图像鉴别系统、方法、装置 |
CN112070054A (zh) * | 2020-09-17 | 2020-12-11 | 福州大学 | 基于图结构与注意力机制的车载激光点云标线分类方法 |
CN112233038A (zh) * | 2020-10-23 | 2021-01-15 | 广东启迪图卫科技股份有限公司 | 基于多尺度融合及边缘增强的真实图像去噪方法 |
Non-Patent Citations (3)
Title |
---|
LIU JIANGJIANG ET AL.: "Improving convolutional networks with self-calibrated convolutions", 《IEEE CONFERENCEON COMPUTER VISIONAND PATTERN RECOGNITION》 * |
SHAN ZHANG ET AL.: "Asymmetric multi-stage CNNs for small-scale pedestrian detection", 《NEUROCOMPUTING》 * |
曾接贤 等: "融合多层特征的多尺度行人检测", 《中国图象图形学报 》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724175A (zh) * | 2022-03-04 | 2022-07-08 | 亿达信息技术有限公司 | 行人图像的检测网络、检测方法、训练方法、电子设备和介质 |
CN114724175B (zh) * | 2022-03-04 | 2024-03-29 | 亿达信息技术有限公司 | 行人图像的检测网络、检测方法、训练方法、电子设备和介质 |
CN116206275B (zh) * | 2023-02-23 | 2024-03-01 | 南通探维光电科技有限公司 | 基于知识蒸馏的识别模型训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112800942B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9940539B2 (en) | Object recognition apparatus and method | |
WO2021098261A1 (zh) | 一种目标检测方法与装置 | |
JP2020126614A (ja) | 高精度イメージを分析するディープラーニングネットワークの学習に利用するためのトレーニングイメージをオートラベリングするための方法、及びこれを利用したオートラベリング装置{method for auto−labeling training images for use in deep learning network to analyze images with high precision, and auto−labeling device using the same} | |
CN112288008B (zh) | 一种基于深度学习的马赛克多光谱图像伪装目标检测方法 | |
CN111461110A (zh) | 一种基于多尺度图像和加权融合损失的小目标检测方法 | |
CN111222396B (zh) | 一种全天候多光谱行人检测方法 | |
CN110807422A (zh) | 一种基于深度学习的自然场景文本检测方法 | |
CN113076871A (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN112465759A (zh) | 一种基于卷积神经网络的航空发动机叶片缺陷检测方法 | |
CN115131797B (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN112784756B (zh) | 人体识别跟踪方法 | |
CN112800942A (zh) | 一种基于自校准卷积网络的行人检测方法 | |
CN110349167A (zh) | 一种图像实例分割方法及装置 | |
CN111768415A (zh) | 一种无量化池化的图像实例分割方法 | |
CN113191204B (zh) | 一种多尺度遮挡行人检测方法及系统 | |
CN114781514A (zh) | 一种融合注意力机制的漂浮物目标检测方法及系统 | |
CN112215079B (zh) | 一种全局多阶段目标跟踪方法 | |
CN114494812A (zh) | 一种基于改进CenterNet的图像小目标检测方法 | |
Mo et al. | PVDet: Towards pedestrian and vehicle detection on gigapixel-level images | |
CN112101113B (zh) | 一种轻量化的无人机图像小目标检测方法 | |
CN117456330A (zh) | 一种基于MSFAF-Net的低照度目标检测方法 | |
CN113076891A (zh) | 基于改进高分辨率网络的人体姿态预测方法及系统 | |
CN111767919A (zh) | 一种多层双向特征提取与融合的目标检测方法 | |
CN113780462B (zh) | 基于无人机航拍图像的车辆检测网络建立方法及其应用 | |
CN115861922A (zh) | 一种稀疏烟火检测方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |