CN111814754A - 面向夜间场景的单帧图像行人检测方法和装置 - Google Patents
面向夜间场景的单帧图像行人检测方法和装置 Download PDFInfo
- Publication number
- CN111814754A CN111814754A CN202010832371.1A CN202010832371A CN111814754A CN 111814754 A CN111814754 A CN 111814754A CN 202010832371 A CN202010832371 A CN 202010832371A CN 111814754 A CN111814754 A CN 111814754A
- Authority
- CN
- China
- Prior art keywords
- network
- pedestrian detection
- night
- prediction
- proposal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims description 39
- 238000013507 mapping Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000007792 addition Methods 0.000 description 20
- 238000012360 testing method Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 101100042371 Caenorhabditis elegans set-3 gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种面向夜间场景的单帧图像行人检测方法和装置,所述方法包括以下步骤:获取包含多个夜间单帧图像的数据集,并对所述数据集中的夜间单帧图像进行增强处理;构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;通过增强处理后的数据集对所述神经网络进行训练,以得到行人检测模型;通过所述行人检测模型对待检测夜间单帧图像进行行人检测。本发明能够实现针对诸如夜间场景图像的行人检测,准确性和鲁棒性较高。
Description
技术领域
本发明涉及目标检测技术领域,具体涉及一种面向夜间场景的单帧图像行人检测方法、一种面向夜间场景的单帧图像行人检测装置、一种计算机设备、一种非临时性计算机可读存储介质和一种计算机程序产品。
背景技术
行人检测(Pedestrian Detection)是指利用计算机视觉等技术来判断图像或者视频序列中是否存在行人并给予精确定位。行人检测技术在智能辅助驾驶、行人分析、自动驾驶、智能机器人等领域有着非常广泛的应用。然而,由于行人一般是运动着的,所拍摄的图像往往呈现动态趋势,造成了图像模糊且噪声信息干扰,而且,行人本身具有特殊的属性,可因其穿着、姿势、形态等多种因素呈现多样性,这就为精确实现行人检测任务带来了困难。尤其是夜间行人检测,是一个非常困难的研究点。由于夜间拍摄图像往往呈现色彩信息不足,图像对比度低的问题,因此如何设计一个鲁棒的夜间行人检测策略是亟待解决的问题。
发明内容
本发明为解决上述技术问题,提供了一种面向夜间场景的单帧图像行人检测方法和装置,能够实现针对诸如夜间场景图像的行人检测,准确性和鲁棒性较高。
本发明采用的技术方案如下:
一种面向夜间场景的单帧图像行人检测方法,包括以下步骤:获取包含多个夜间单帧图像的数据集,并对所述数据集中的夜间单帧图像进行增强处理;构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;通过增强处理后的数据集对所述神经网络进行训练,以得到行人检测模型;通过所述行人检测模型对待检测夜间单帧图像进行行人检测。
对所述数据集中的夜间单帧图像以批数据的形式执行空间层次的图像增强。
所述特征提取网络为CBNet,所述预测网络包括RPN和Cascade RCNN。
通过增强处理后的数据集对所述神经网络进行训练,包括:将增强后的数据集中的夜间单帧图像I0输入两个主干网络Backbone1和Backbone2,对于Backbone1结构,I0首先经过一个卷积操作后形成F1_0特征图,对于Backbone2结构,I0首先经过一个卷积操作后形成F2_0特征图;之后,F1_0经过Backbone1的R1_1层后,生成特征F1_1,F1_1经过上采样操作后与F2_0进行相加操作,并经过Backbone2的R2_1层,生成特征图F2_1,即D1;特征F1_1经过Backbone1的R1_2层后,生成特征图F1_2,F1_2经过上采样操作后与F2_1进行相加操作,并经过Backbone2的R2_2层,生成特征图F2_2,即D2;同理,特征F1_2经过Backbone1的R1_3层后,生成特征图F1_3,F1_3经过上采样操作后与F2_2进行相加操作,并经过Backbone2的R2_3层,生成特征图F2_3,即D3;最后,特征F1_3经过Backbone1的R1_4层后,生成特征图F1_4,F1_4经过上采样操作后与F2_3进行相加操作,并经过Backbone2的R2_4层,生成特征图F2_4,即D4;将特征图D1、D2、D3、D4分别送入RPN,RPN首先将特征图D1、D2、D3、D4的每个像素点作为锚点,即映射回原图后的一组锚框的中心点,然后为每个锚点设置3种不同比例、3种不同尺度的锚框作为整个检测流程的基础框;RPN通过两路预测分支分别预测锚框的前景背景得分以及回归偏移量,其中,RPN经过预测后得到锚框的前背景得分,只考虑前景得分超过某个threshold的那些锚框,并对其进行偏移量回归操作,得到区域推荐框,即Proposal,其中,将大小不同的Proposal映射特征进行Pooling操作,得到大小相同的特征,得到后续网络Cascade RCNN的输入特征,后续网络Cascade RCNN主要由三级采用双分支结构的网络Head1、Head2、Head3构成,即将Pooling后的特征和Proposal送入第一级网络Head1中,预测Proposal的类别得分和回归偏移量,得到第一级网络Head1的输出框,设为Proposal1;将各个特征图所对应的Proposal1分别映射到D1、D2、D3、D4上,形成大小不同的映射特征,并将其和Proposal1送入第二级网络Head2中,预测Proposal1的类别得分和回归偏移量,得到第二级网络Head2的输出框,设为Proposal2;最后,将各个特征图所对应的Proposal2分别映射到D1、D2、D3、D4上,形成大小不同的映射特征,并将其和Proposal2送入第三级网络Head3中,预测Proposal2的类别得分和回归偏移量,得到第三级网络Head3的输出框,设为Proposal3,即最终目标预测框。
训练网络时的回归损失Lloc使用平滑的L1损失,x是ROI,b是对ROI的预测坐标,g是标签坐标值,f表示回归器,
b=(bx,by,bw,bh)
为保证回归操作对尺度、位置的不变性,Lloc操作对应的向量Δ=(δx,δy,δw,δh),
对Δ做正则化操作:
δ′x=(δx-ux)/σx;
检测网络中每个Headi(i=1,2,3)的总损失:
L(xt,g)=Lcls(ht(xt),yt)+λ[yt≥1]Lloc(ft(xt,bt),g)
bt=ft-1(xt-1,bt-1)
其中,T表示Cascade RCNN叠加的总分支数,t表示当前的分支,Cascade RCNN中每个分支ft通过各个分支上的训练数据bt优化,bt来源于b1经过之前所有分支输出后的结果,λ为加权系数,λ=1,[yt≥1]表示只在正样本中计算回归损失,yt是xt按照上式和ut计算出来的label。
一种面向夜间场景的单帧图像行人检测装置,包括:增强模块,所述增强模块用于获取包含多个夜间单帧图像的数据集,并对所述数据集中的夜间单帧图像进行增强处理;构建模块,所述构建模块用于构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;训练模块,所述训练模块用于通过增强处理后的数据集对所述神经网络进行训练,以得到行人检测模型;检测模块,所述检测模块用于通过所述行人检测模型对待检测夜间单帧图像进行行人检测。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述面向夜间场景的单帧图像行人检测方法。
一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述面向夜间场景的单帧图像行人检测方法。
一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行上述面向夜间场景的单帧图像行人检测方法。
本发明的有益效果:
本发明通过将增强处理后的图像输入神经网络中进行训练,并通过在神经网络的特征提取网络融合多个主干网络,在每个主干网络中均融合可变形卷积网络,以及在预测网络中设置双分支结构,所得到的行人检测模型能够实现针对诸如夜间场景图像的行人检测,准确性和鲁棒性较高。
附图说明
图1为本发明实施例的面向夜间场景的单帧图像行人检测方法的流程图;
图2为本发明一个实施例的CBNet的结构示意图;
图3为本发明一个实施例的DCN的结构示意图;
图4为本发明一个实施例的RPN的结构示意图;
图5为本发明一个实施例的Cascade RCNN的结构示意图;
图6为本发明一个实施例的Double Head的结构示意图;
图7为本发明一个实施例的FPN的结构示意图;
图8为本发明一个实施例的残差通道增加模块的结构示意图;
图9为本发明一个实施例的Bottleneck的结构示意图;
图10为本发明一个实施例的non-local模块的结构示意图;
图11为本发明实施例的面向夜间场景的单帧图像行人检测装置的方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例的面向夜间场景的单帧图像行人检测方法包括以下步骤:
S1,获取包含多个夜间单帧图像的数据集,并对数据集中的夜间单帧图像进行增强处理。
其中,数据集中可包含大量的夜间场景下拍摄得到的单帧图像,例如可以为对应道路处设置的摄像头在夜间拍摄得到的图像,部分图像中包含行人,部分图像中不包含行人。该数据集作为训练集,在存储和处理能力允许的范围内,所包含的图像数量越大,后续训练出的检测模型精度越高。
在本发明的一个实施例中,可对数据集中的夜间单帧图像以批数据的形式执行空间层次的图像增强,以缓解图像对比度低的问题。
具体地,可随机采样数据集中的图像,对于采样到的图像Ii,比较其自身的宽Ii_w和高Ii_h,选取宽高中的长边max(Ii_w,Ii_h)缩放到L,短边min(Ii_w,Ii_h)缩放至S,S从S1~S2之间随机选择。采样的多张图像Ii(i=1,2,3…n)以batch的形式I送入特征提取网络,batch中所有图像的长边为L,图像的短边为了统一尺寸,则以整个batch中图像短边Si(i=1,2,3…n)中最大的值max(Si)为基准S_base,其余的Si加padding至S_base。
S_base=Si+padding
在本发明的一个具体实施例中,L可为2048,短边S1~S2可为为1024~1536。
S2,构建神经网络,其中,神经网络包括特征提取网络和预测网络,特征提取网络融合多个主干网络,每个主干网络中均融合可变形卷积网络,预测网络包含双分支结构。
在本发明的一个实施例中,特征提取网络可为CBNet,其融合多个backbone,能够增强特征提取能力,每个backbone网络中融合DCN(Deformable Convolution Net,可变形卷积网络),能够提高网络对于形变的适应性。在本发明的一个实施例中,CBNet和DCN的结构分别如图2和图3所示。
预测网络包括RPN(Region Proposal Network,区域生成网络)和Cascade RCNN,Cascade RCNN采用Double Head结构,分别为回归和分类分支设计更精准的结构。在本发明的一个实施例中,RPN和Cascade RCNN结构分别如图4和图5所示,Double Head结构如图6所示。
S3,通过增强处理后的数据集对神经网络进行训练,以得到行人检测模型。
在本发明的一个具体实施例中,CBNet可融合两个加入DCN的ResNeXt。加入DCN的ResNeXt进行特征提取的流程包括:将图像I输入ResNeXt,经过stage2输出特征图F2,将F2输入可变形卷积网络DCN输出特征图Fd_2,将Fd_2经过stage3输出特征图F3,将F3输入可变形卷积网络输出特征图Fd_3,将Fd_3经过stage4输出特征图F4,将F4输入可变形卷积网络输出特征图Fd_4,将Fd_4经过stage5输出特征图F5,将F5输入可变形卷积网络输出特征图Fd_5。其中,F2、F3、F4、F5为大小不同、通道数不同的特征图,也就是说,F2、F3、F4和F5构成特征金字塔网络FPN,在本发明的一个实施例中,FPN结构如图7所示。设特征图F2大小为(a,b),通道数为256;特征图F3大小为(a/2,b/2),通道数为512;特征图F4大小为(a/4,b/4),通道数为1024;特征图F5大小为(a/8,b/8),通道数为2048。首先通过4个1x1卷积操作,将F2、F3、F4、F5的通道数变为相同的,即256。将特征图F5进行插值操作,使其大小变为(a/4,b/4),再将F5和F4进行相加操作,形成D4,此时D4的大小为(a/4,b/4),通道数为256;类比地,将特征图D4进行插值操作,使其大小变为(a/2,b/2),再将D4和F3进行相加操作,形成D3,此时D3的大小为(a/2,b/2),通道数为256;类比地,将特征图D3进行插值操作,使其大小变为(a,b),再将D3和F2进行相加操作,形成D2,此时D2的大小为(a,b),通道数为256;特征图F5经过插值以后,所形成的feature map作为D1。由此,D1、D2、D3、D4为融合高低层之后的特征。
而对于融合两个主干网络的CBNet,其进行特征提取的流程为:将增强后的数据集中的夜间单帧图像I0输入两个主干网络Backbone1和Backbone2,对于Backbone1结构,I0首先经过一个卷积操作后形成F1_0特征图,对于Backbone2结构,I0首先经过一个卷积操作后形成F2_0特征图;之后,F1_0经过Backbone1的R1_1层后,生成特征F1_1,F1_1经过上采样操作后与F2_0进行相加操作,并经过Backbone2的R2_1层,生成特征图F2_1,即D1;特征F1_1经过Backbone1的R1_2层后,生成特征图F1_2,F1_2经过上采样操作后与F2_1进行相加操作,并经过Backbone2的R2_2层,生成特征图F2_2,即D2;同理,特征F1_2经过Backbone1的R1_3层后,生成特征图F1_3,F1_3经过上采样操作后与F2_2进行相加操作,并经过Backbone2的R2_3层,生成特征图F2_3,即D3;最后,特征F1_3经过Backbone1的R1_4层后,生成特征图F1_4,F1_4经过上采样操作后与F2_3进行相加操作,并经过Backbone2的R2_4层,生成特征图F2_4,即D4。至此,Backbone1网络和Backbone2网络被融合在了一起,生成的特征D1、D2、D3、D4不仅具有多尺度特征,而且信息表达能力更强。每个输出特征不仅仅只经过一个backbone的一层网络,相当于经过多次卷积操作。公式表示如下:
其中,k表示backbone的下标,l表示backbone中stage的下标。表示第k个backbone的第(l-1)个stage的输出feature值,表示第(k-1)个backbone的第l个stage的输出feature值,表示第k个backbone的第l个stage的输出值,g表示1x1的卷积操作以及上采样操作。
接下来,可将特征图D1、D2、D3、D4分别送入RPN,RPN首先将特征图D1、D2、D3、D4的每个像素点作为锚点,即映射回原图后的一组锚框的中心点,然后为每个锚点设置3种不同比例、3种不同尺度的锚框作为整个检测流程的基础框;RPN通过两路预测分支分别预测锚框的前景背景得分以及回归偏移量。其中,前景背景预测分支的真值由预先设定的锚框与真实的bounding box进行IOU(Intersection Over Union,交并比)值计算得到。具体来说,根据IOU计算值将锚框的标签值设置为-1、0、1。RPN在进行训练时,只会将标签为-1和1的锚框送入网络,并将标签为-1的锚框设置为0标签,主要用于二分类时易于计算损失函数。同时,回归分支的真值由标签为1的锚框与bounding box计算位置偏移量得到。
由上述步骤,RPN经过预测后得到锚框的前背景得分,只考虑前景得分超过某个threshold的那些锚框,并对其进行偏移量回归操作,得到区域推荐框,即Proposal,RPN任务结束。其中,可将大小不同的Proposal映射特征进行Pooling操作,得到大小相同的特征,得到后续网络Cascade RCNN的输入特征,后续网络Cascade RCNN主要由三级采用双分支结构的网络Head1、Head2、Head3构成,即将Pooling后的特征和Proposal送入第一级网络Head1中,预测Proposal的类别得分和回归偏移量,得到第一级网络Head1的输出框,设为Proposal1;将各个特征图所对应的Proposal1分别映射到D1、D2、D3、D4上,形成大小不同的映射特征,并将其和Proposal1送入第二级网络Head2中,预测Proposal1的类别得分和回归偏移量,得到第二级网络Head2的输出框,设为Proposal2;最后,将各个特征图所对应的Proposal2分别映射到D1、D2、D3、D4上,形成大小不同的映射特征,并将其和Proposal2送入第三级网络Head3中,预测Proposal2的类别得分和回归偏移量,得到第三级网络Head3的输出框,设为Proposal3,即最终目标预测框。
上述的第一级网络、第二级网络、第三级网络均分别采用Double Head结构,参照图6,Double Head由ROI Align层和两条平行分支(分类分支和回归分支)组成,即总体上分为分类预测分支和回归预测分支。一般做法中,分类预测分支和回归预测分支都采用全连接层进行预测,在本发明的实施例中,分类预测分支使用两个全连接来输出,回归分支则改为卷积操作来输出。具体来说,卷积操作包括一个如图8所示的残差通道增加模块,即将输出的256通道数增加到1024通道数,除此之外,还包括ResNet网络中如图9所示的Bottleneck结构和如图10所示的non-local模块,采用non-local结构的目的是引入更多非局部信息。
在本发明的一个实施例中,训练网络时的分类损失Lcls使用交叉熵损失,对于每一个ROI,经过头结构(Headi)后得到分类结果Ci(i=1,2,3):
其中,h(x)表示Headi中的分类分支,输出M+1维向量,将ROI预测为M+1中的一个类别,N代表当前Headi阶段中ROI个数,y对应类别标签,y的类别标签由ROI与对应的标签的IoU大小决定:
其中,Head1中的IoU阈值u设置为u1,Head2和Head3中的阈值u分别设置为u2、u3,x是ROI,gy是目标x的类别标签,IoU阈值u定义了检测器的质量。通过不同的IOU阈值,有效地解决了检测中的噪声干扰问题。在本发明的一个具体实施例中,u1、u2、u3可分别设置为0.5、0.6、0.7。
训练网络时的回归损失Lloc使用平滑的L1损失,x是ROI,b是对ROI的预测坐标,g是标签坐标值,f表示回归器:
b=(bx,by,bw,bh)
为保证回归操作对尺度、位置的不变性,Lloc操作对应的向量Δ=(δx,δy,δw,δh),
上式中的数值都比较小,为了提升多任务训练的效率,对Δ做正则化操作:
δ′x=(δx-ux)/σx;
检测网络中每个Headi(i=1,2,3)的总损失:
L(xt,g)=Lcls(ht(xt),yt)+λ[yt≥1]Lloc(ft(xt,bt),g)
bt=ft-1(xt-1,bt-1)
其中,T表示Cascade RCNN叠加的总分支数,t表示当前的分支,Cascade RCNN中每个分支ft通过各个分支上的训练数据bt优化,bt来源于b1经过之前所有分支输出后的结果,而非直接使用RPN的初始分布b1来训练ft,λ为加权系数,[yt≥1]表示只在正样本中计算回归损失,yt是xt按照上式和ut计算出来的label。在本发明的一个具体实施例中,T取3,λ取1。
在本发明的一个实施例中,可利用随机梯度下降对误差求偏导更新网络权值。共训练m个epoch,初始学习率为ε1,参考框的比率设置为[r1,r2,r3,…rn]。训练完成后得到模型M1,更换Cascade RCNN检测网络中的特征提取网络,将ResNeXt更换为HRNet,其他结构保持不变,重新训练第二个模型得到M2。m取50,初始学习率为ε1为0.002,参考框的比率设置为[0.33,0.5,1,2,3]。
通过测试集检验目标检测模型时,测试集中的图片可保持原有宽高比例缩放到(w1,h1),(w2,h2),(w3,h3),对两个模型M1、M2采用多尺度测试。对于测试集的每一张图片,可在两个模型上得到对应的检测框,然后利用softnms对模型得到的所有框进行融合,得到最终检测框结果。宽高比例分别设置为(1333,800)、(1600,1080)、(2048,1280)。M1和M2的特征提取网络分别采用ResNext101(64x4d),HRNet-W32。
S4,通过行人检测模型对待检测夜间单帧图像进行行人检测。
根据本发明实施例的面向夜间场景的单帧图像行人检测方法,通过将增强处理后的图像输入神经网络中进行训练,并通过在神经网络的特征提取网络融合多个主干网络,在每个主干网络中均融合可变形卷积网络,以及在预测网络中设置双分支结构,所得到的行人检测模型能够实现针对诸如夜间场景图像的行人检测,准确性和鲁棒性较高。
对应上述实施例的面向夜间场景的单帧图像行人检测方法,本发明还提出一种面向夜间场景的单帧图像行人检测装置。
如图11所示,本发明实施例的面向夜间场景的单帧图像行人检测装置包括增强模块10、构建模块20、训练模块30和检测模块40。其中,增强模块10用于获取包含多个夜间单帧图像的数据集,并对数据集中的夜间单帧图像进行增强处理;构建模块20用于构建神经网络,其中,神经网络包括特征提取网络和预测网络,特征提取网络融合多个主干网络,每个主干网络中均融合可变形卷积网络,预测网络包含双分支结构;训练模块30用于通过增强处理后的数据集对神经网络进行训练,以得到行人检测模型;检测模块40用于通过行人检测模型对待检测夜间单帧图像进行行人检测。
其中,数据集中可包含大量的夜间场景下拍摄得到的图像,例如可以为对应道路处设置的摄像头在夜间拍摄得到的图像,部分图像中包含行人,部分图像中不包含行人。该数据集作为训练集,在存储和处理能力允许的范围内,所包含的图像数量越大,后续训练出的检测模型精度越高。
在本发明的一个实施例中,增强模块10可对数据集中的夜间单帧图像以批数据的形式执行空间层次的图像增强,以缓解图像对比度低的问题。
具体地,可随机采样数据集中的图像,对于采样到的图像Ii,比较其自身的宽Ii_w和高Ii_h,选取宽高中的长边max(Ii_w,Ii_h)缩放到L,短边min(Ii_w,Ii_h)缩放至S,S从S1~S2之间随机选择。采样的多张图像Ii(i=1,2,3…n)以batch的形式I送入特征提取网络,batch中所有图像的长边为L,图像的短边为了统一尺寸,则以整个batch中图片短边Si(i=1,2,3…n)中最大的值max(Si)为基准S_base,其余的Si加padding至S_base。
S_base=Si+padding
在本发明的一个具体实施例中,L可为2048,短边S1~S2可为为1024~1536。
在本发明的一个实施例中,特征提取网络可为CBNet,其融合多个backbone,能够增强特征提取能力,每个backbone网络中融合DCN,能够提高网络对于形变的适应性。在本发明的一个实施例中,CBNet和DCN的结构分别如图2和图3所示。
预测网络包括RPN和Cascade RCNN,Cascade RCNN采用Double Head结构,分别为回归和分类分支设计更精准的结构。在本发明的一个实施例中,RPN和Cascade RCNN结构分别如图4和图5所示,Double Head结构如图6所示。
在本发明的一个具体实施例中,CBNet可融合两个加入DCN的ResNeXt。加入DCN的ResNeXt进行特征提取的流程包括:将图像I输入ResNeXt,经过stage2输出特征图F2,将F2输入可变形卷积网络DCN输出特征图Fd_2,将Fd_2经过stage3输出特征图F3,将F3输入可变形卷积网络输出特征图Fd_3,将Fd_3经过stage4输出特征图F4,将F4输入可变形卷积网络输出特征图Fd_4,将Fd_4经过stage5输出特征图F5,将F5输入可变形卷积网络输出特征图Fd_5。其中,F2、F3、F4、F5为大小不同、通道数不同的特征图,也就是说,F2、F3、F4和F5构成特征金字塔网络FPN,在本发明的一个实施例中,FPN结构如图7所示。设特征图F2大小为(a,b),通道数为256;特征图F3大小为(a/2,b/2),通道数为512;特征图F4大小为(a/4,b/4),通道数为1024;特征图F5大小为(a/8,b/8),通道数为2048。首先通过4个1x1卷积操作,将F2、F3、F4、F5的通道数变为相同的,即256。将特征图F5进行插值操作,使其大小变为(a/4,b/4),再将F5和F4进行相加操作,形成D4,此时D4的大小为(a/4,b/4),通道数为256;类比地,将特征图D4进行插值操作,使其大小变为(a/2,b/2),再将D4和F3进行相加操作,形成D3,此时D3的大小为(a/2,b/2),通道数为256;类比地,将特征图D3进行插值操作,使其大小变为(a,b),再将D3和F2进行相加操作,形成D2,此时D2的大小为(a,b),通道数为256;特征图F5经过插值以后,所形成的feature map作为D1。由此,D1、D2、D3、D4为融合高低层之后的特征。
而对于融合两个主干网络的CBNet,其进行特征提取的流程为:将增强后的数据集中的夜间单帧图像I0输入两个主干网络Backbone1和Backbone2,对于Backbone1结构,I0首先经过一个卷积操作后形成F1_0特征图,对于Backbone2结构,I0首先经过一个卷积操作后形成F2_0特征图;之后,F1_0经过Backbone1的R1_1层后,生成特征F1_1,F1_1经过上采样操作后与F2_0进行相加操作,并经过Backbone2的R2_1层,生成特征图F2_1,即D1;特征F1_1经过Backbone1的R1_2层后,生成特征图F1_2,F1_2经过上采样操作后与F2_1进行相加操作,并经过Backbone2的R2_2层,生成特征图F2_2,即D2;同理,特征F1_2经过Backbone1的R1_3层后,生成特征图F1_3,F1_3经过上采样操作后与F2_2进行相加操作,并经过Backbone2的R2_3层,生成特征图F2_3,即D3;最后,特征F1_3经过Backbone1的R1_4层后,生成特征图F1_4,F1_4经过上采样操作后与F2_3进行相加操作,并经过Backbone2的R2_4层,生成特征图F2_4,即D4。至此,Backbone1网络和Backbone2网络被融合在了一起,生成的特征D1、D2、D3、D4不仅具有多尺度特征,而且信息表达能力更强。每个输出特征不仅仅只经过一个backbone的一层网络,相当于经过多次卷积操作。公式表示如下:
其中,k表示backbone的下标,l表示backbone中stage的下标。表示第k个backbone的第(l-1)个stage的输出feature值,表示第(k-1)个backbone的第l个stage的输出feature值,表示第k个backbone的第l个stage的输出值,g表示1x1的卷积操作以及上采样操作。
接下来,训练模块30可将特征图D1、D2、D3、D4分别送入RPN,RPN首先将特征图D1、D2、D3、D4的每个像素点作为锚点,即映射回原图后的一组锚框的中心点,然后为每个锚点设置3种不同比例、3种不同尺度的锚框作为整个检测流程的基础框;RPN通过两路预测分支分别预测锚框的前景背景得分以及回归偏移量。其中,前景背景预测分支的真值由预先设定的锚框与真实的bounding box进行IOU值计算得到。具体来说,根据IOU计算值将锚框的标签值设置为-1、0、1。RPN在进行训练时,只会将标签为-1和1的锚框送入网络,并将标签为-1的锚框设置为0标签,主要用于二分类时易于计算损失函数。同时,回归分支的真值由标签为1的锚框与bounding box计算位置偏移量得到。
由上述步骤,RPN经过预测后得到锚框的前背景得分,只考虑前景得分超过某个threshold的那些锚框,并对其进行偏移量回归操作,得到区域推荐框,即Proposal,RPN任务结束。其中,可将大小不同的Proposal映射特征进行Pooling操作,得到大小相同的特征,得到后续网络Cascade RCNN的输入特征,后续网络Cascade RCNN主要由三级采用双分支结构的网络Head1、Head2、Head3构成,即将Pooling后的特征和Proposal送入第一级网络Head1中,预测Proposal的类别得分和回归偏移量,得到第一级网络Head1的输出框,设为Proposal1;将各个特征图所对应的Proposal1分别映射到D1、D2、D3、D4上,形成大小不同的映射特征,并将其和Proposal1送入第二级网络Head2中,预测Proposal1的类别得分和回归偏移量,得到第二级网络Head2的输出框,设为Proposal2;最后,将各个特征图所对应的Proposal2分别映射到D1、D2、D3、D4上,形成大小不同的映射特征,并将其和Proposal2送入第三级网络Head3中,预测Proposal2的类别得分和回归偏移量,得到第三级网络Head3的输出框,设为Proposal3,即最终目标预测框。
上述的第一级网络、第二级网络、第三级网络均分别采用Double Head结构,即总体上分为分类预测分支和回归预测分支。一般做法中,分类预测分支和回归预测分支都采用全连接层进行预测,在本发明的实施例中,分类预测分支使用两个全连接来输出,回归分支则改为卷积操作来输出。具体来说,卷积操作包括一个如图8所示的残差通道增加模块,即将输出的256通道数增加到1024通道数,除此之外,还包括ResNet网络中如图9所示的Bottleneck结构和如图10所示的non-local模块,采用non-local结构的目的是引入更多非局部信息。
在本发明的一个实施例中,训练模块30训练网络时的分类损失Lcls使用交叉熵损失,对于每一个ROI,经过头结构(Headi)后得到分类结果Ci(i=1,2,3):
其中,h(x)表示Headi中的分类分支,输出M+1维向量,将ROI预测为M+1中的一个类别,N代表当前Headi阶段中ROI个数,y对应类别标签,y的类别标签由ROI与对应的标签的IoU大小决定:
其中,Head1中的IoU阈值u设置为u1,Head2和Head3中的阈值u分别设置为u2、u3,x是ROI,gy是目标x的类别标签,IoU阈值u定义了检测器的质量。通过不同的IOU阈值,有效地解决了检测中的噪声干扰问题。在本发明的一个具体实施例中,u1、u2、u3可分别设置为0.5、0.6、0.7。
训练模块30训练网络时的回归损失Lloc使用平滑的L1损失,x是ROI,b是对ROI的预测坐标,g是标签坐标值,f表示回归器:
b=(bx,by,bw,bh)
为保证回归操作对尺度、位置的不变性,Lloc操作对应的向量Δ=(δx,δy,δw,δh),
上式中的数值都比较小,为了提升多任务训练的效率,对Δ做正则化操作:
δ′x=(δx-ux)/σx;
检测网络中每个Headi(i=1,2,3)的总损失:
L(xt,g)=Lcls(ht(xt),yt)+λ[yt≥1]Lloc(ft(xt,bt),g)
bt=ft-1(xt-1,bt-1)
其中,T表示Cascade RCNN叠加的总分支数,t表示当前的分支,Cascade RCNN中每个分支ft通过各个分支上的训练数据bt优化,bt来源于b1经过之前所有分支输出后的结果,而非直接使用RPN的初始分布b1来训练ft,λ为加权系数,[yt≥1]表示只在正样本中计算回归损失,yt是xt按照上式和ut计算出来的label。在本发明的一个具体实施例中,T取3,λ取1。
在本发明的一个实施例中,可利用随机梯度下降对误差求偏导更新网络权值。共训练m个epoch,初始学习率为ε1,参考框的比率设置为[r1,r2,r3,…rn]。训练完成后得到模型M1,更换Cascade RCNN检测网络中的特征提取网络,将ResNeXt更换为HRNet,其他结构保持不变,重新训练第二个模型得到M2。m取50,初始学习率为ε1为0.002,参考框的比率设置为[0.33,0.5,1,2,3]。
通过测试集检验目标检测模型时,测试集中的图片可保持原有宽高比例缩放到(w1,h1),(w2,h2),(w3,h3),对两个模型M1、M2采用多尺度测试。对于测试集的每一张图片,可在两个模型上得到对应的检测框,然后利用softnms对模型得到的所有框进行融合,得到最终检测框结果。宽高比例分别设置为(1333,800)、(1600,1080)、(2048,1280)。M1和M2的特征提取网络分别采用ResNext101(64x4d),HRNet-W32。
根据本发明实施例的面向夜间场景的单帧图像行人检测装置,通过将增强处理后的图像输入神经网络中进行训练,并通过在神经网络的特征提取网络融合多个主干网络,在每个主干网络中均融合可变形卷积网络,以及在预测网络中设置双分支结构,所得到的行人检测模型能够实现针对诸如夜间场景图像的行人检测,准确性和鲁棒性较高。
对应上述实施例,本发明还提出一种计算机设备。
本发明实施例的计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时,可实现根据本发明上述实施例所述的面向夜间场景的单帧图像行人检测方法。
根据本发明实施例的计算机设备,处理器执行存储在存储器上的计算机程序时,通过将增强处理后的图像输入神经网络中进行训练,并通过在神经网络的特征提取网络融合多个主干网络,在每个主干网络中均融合可变形卷积网络,以及在预测网络中设置双分支结构,所得到的行人检测模型能够实现针对诸如夜间场景图像的行人检测,准确性和鲁棒性较高。
对应上述实施例,本发明还提出一种非临时性计算机可读存储介质。
本发明实施例的非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现根据本发明上述实施例所述的面向夜间场景的单帧图像行人检测方法。
根据本发明实施例的非临时性计算机可读存储介质,处理器执行存储在其上的计算机程序时,通过将增强处理后的图像输入神经网络中进行训练,并通过在神经网络的特征提取网络融合多个主干网络,在每个主干网络中均融合可变形卷积网络,以及在预测网络中设置双分支结构,所得到的行人检测模型能够实现针对诸如夜间场景图像的行人检测,准确性和鲁棒性较高。
对应上述实施例,本发明还提出一种计算机程序产品。
当本发明实施例的计算机程序产品中的指令由处理器执行时,可执行根据本发明上述实施例所述的面向夜间场景的单帧图像行人检测方法。
根据本发明实施例的计算机程序产品,处理器执行其中的指令时,通过将增强处理后的图像输入神经网络中进行训练,并通过在神经网络的特征提取网络融合多个主干网络,在每个主干网络中均融合可变形卷积网络,以及在预测网络中设置双分支结构,所得到的行人检测模型能够实现针对诸如夜间场景图像的行人检测,准确性和鲁棒性较高。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种面向夜间场景的单帧图像行人检测方法,其特征在于,包括以下步骤:
获取包含多个夜间单帧图像的数据集,并对所述数据集中的夜间单帧图像进行增强处理;
构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;
通过增强处理后的数据集对所述神经网络进行训练,以得到行人检测模型;
通过所述行人检测模型对待检测夜间单帧图像进行行人检测。
2.根据权利要求1所述的面向夜间场景的单帧图像行人检测方法,其特征在于,对所述数据集中的夜间单帧图像以批数据的形式执行空间层次的图像增强。
3.根据权利要求1或2所述的面向夜间场景的单帧图像行人检测方法,其特征在于,所述特征提取网络为CBNet,所述预测网络包括RPN和Cascade RCNN。
4.根据权利要求3所述的面向夜间场景的单帧图像行人检测方法,其特征在于,通过增强处理后的数据集对所述神经网络进行训练,包括:
将增强后的数据集中的夜间单帧图像I0输入两个主干网络Backbone1和Backbone2,对于Backbone1结构,I0首先经过一个卷积操作后形成F1_0特征图,对于Backbone2结构,I0首先经过一个卷积操作后形成F2_0特征图;之后,F1_0经过Backbone1的R1_1层后,生成特征F1_1,F1_1经过上采样操作后与F2_0进行相加操作,并经过Backbone2的R2_1层,生成特征图F2_1,即D1;特征F1_1经过Backbone1的R1_2层后,生成特征图F1_2,F1_2经过上采样操作后与F2_1进行相加操作,并经过Backbone2的R2_2层,生成特征图F2_2,即D2;同理,特征F1_2经过Backbone1的R1_3层后,生成特征图F1_3,F1_3经过上采样操作后与F2_2进行相加操作,并经过Backbone2的R2_3层,生成特征图F2_3,即D3;最后,特征F1_3经过Backbone1的R1_4层后,生成特征图F1_4,F1_4经过上采样操作后与F2_3进行相加操作,并经过Backbone2的R2_4层,生成特征图F2_4,即D4;
将特征图D1、D2、D3、D4分别送入RPN,RPN首先将特征图D1、D2、D3、D4的每个像素点作为锚点,即映射回原图后的一组锚框的中心点,然后为每个锚点设置3种不同比例、3种不同尺度的锚框作为整个检测流程的基础框;RPN通过两路预测分支分别预测锚框的前景背景得分以及回归偏移量,其中,RPN经过预测后得到锚框的前背景得分,只考虑前景得分超过某个threshold的那些锚框,并对其进行偏移量回归操作,得到区域推荐框,即Proposal,其中,将大小不同的Proposal映射特征进行Pooling操作,得到大小相同的特征,得到后续网络Cascade RCNN的输入特征,后续网络Cascade RCNN主要由三级采用双分支结构的网络Head1、Head2、Head3构成,即将Pooling后的特征和Proposal送入第一级网络Head1中,预测Proposal的类别得分和回归偏移量,得到第一级网络Head1的输出框,设为Proposal1;将各个特征图所对应的Proposal1分别映射到D1、D2、D3、D4上,形成大小不同的映射特征,并将其和Proposal1送入第二级网络Head2中,预测Proposal1的类别得分和回归偏移量,得到第二级网络Head2的输出框,设为Proposal2;最后,将各个特征图所对应的Proposal2分别映射到D1、D2、D3、D4上,形成大小不同的映射特征,并将其和Proposal2送入第三级网络Head3中,预测Proposal2的类别得分和回归偏移量,得到第三级网络Head3的输出框,设为Proposal3,即最终目标预测框。
5.根据权利要求4所述的面向夜间场景的单帧图像行人检测方法,其特征在于,训练网络时的回归损失Lloc使用平滑的L1损失,x是ROI(Region Of Interest,感兴趣区域),b是对ROI的预测坐标,g是标签坐标值,f表示回归器,
b=(bx,by,bw,bh)
为保证回归操作对尺度、位置的不变性,Lloc操作对应的向量Δ=(δx,δy,δw,δh),
对Δ做正则化操作:
δ′x=(δx-ux)/σx;
检测网络中每个Headi(i=1,2,3)的总损失:
L(xt,g)=Lcls(ht(xt),yt)+λ[yt≥1]Lloc(ft(xt,bt),g)
bt=ft-1(xt-1,bt-1)
其中,T表示Cascade RCNN叠加的总分支数,t表示当前的分支,Cascade RCNN中每个分支ft通过各个分支上的训练数据bt优化,bt来源于b1经过之前所有分支输出后的结果,λ为加权系数,λ=1,[yt≥1]表示只在正样本中计算回归损失,yt是xt按照上式和ut计算出来的label。
6.一种面向夜间场景的单帧图像行人检测装置,其特征在于,包括:
增强模块,所述增强模块用于获取包含多个夜间单帧图像的数据集,并对所述数据集中的夜间单帧图像进行增强处理;
构建模块,所述构建模块用于构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;
训练模块,所述训练模块用于通过增强处理后的数据集对所述神经网络进行训练,以得到行人检测模型;
检测模块,所述检测模块用于通过所述行人检测模型对待检测夜间单帧图像进行行人检测。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现根据权利要求1-5中任一项所述的面向夜间场景的单帧图像行人检测方法。
8.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据权利要求1-5中任一项所述的面向夜间场景的单帧图像行人检测方法。
9.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行根据权利要求1-5中任一项所述的面向夜间场景的单帧图像行人检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010832371.1A CN111814754A (zh) | 2020-08-18 | 2020-08-18 | 面向夜间场景的单帧图像行人检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010832371.1A CN111814754A (zh) | 2020-08-18 | 2020-08-18 | 面向夜间场景的单帧图像行人检测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111814754A true CN111814754A (zh) | 2020-10-23 |
Family
ID=72859329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010832371.1A Pending CN111814754A (zh) | 2020-08-18 | 2020-08-18 | 面向夜间场景的单帧图像行人检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814754A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528782A (zh) * | 2020-11-30 | 2021-03-19 | 北京农业信息技术研究中心 | 水下鱼类目标检测方法及装置 |
CN112560874A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 图像识别模型的训练方法、装置、设备和介质 |
CN113591752A (zh) * | 2021-08-06 | 2021-11-02 | 深圳市莱达四维信息科技有限公司 | 基于卷积神经网络的设备漏油监控方法及相关设备 |
CN113610037A (zh) * | 2021-08-17 | 2021-11-05 | 北京计算机技术及应用研究所 | 一种基于头部和可见区域线索的遮挡行人检测方法 |
CN113869361A (zh) * | 2021-08-20 | 2021-12-31 | 深延科技(北京)有限公司 | 模型训练方法、目标检测方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10503966B1 (en) * | 2018-10-11 | 2019-12-10 | Tindei Network Technology (Shanghai) Co., Ltd. | Binocular pedestrian detection system having dual-stream deep learning neural network and the methods of using the same |
CN110728200A (zh) * | 2019-09-23 | 2020-01-24 | 武汉大学 | 一种基于深度学习的实时行人检测方法及系统 |
CN110781744A (zh) * | 2019-09-23 | 2020-02-11 | 杭州电子科技大学 | 一种基于多层次特征融合的小尺度行人检测方法 |
-
2020
- 2020-08-18 CN CN202010832371.1A patent/CN111814754A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10503966B1 (en) * | 2018-10-11 | 2019-12-10 | Tindei Network Technology (Shanghai) Co., Ltd. | Binocular pedestrian detection system having dual-stream deep learning neural network and the methods of using the same |
CN110728200A (zh) * | 2019-09-23 | 2020-01-24 | 武汉大学 | 一种基于深度学习的实时行人检测方法及系统 |
CN110781744A (zh) * | 2019-09-23 | 2020-02-11 | 杭州电子科技大学 | 一种基于多层次特征融合的小尺度行人检测方法 |
Non-Patent Citations (3)
Title |
---|
HIROSHI FUKUI等: "Pedestrian detection based on deep convolutional neural network with ensemble inference network", 《2015 IEEE INTELLIGENT VEHICLES SYMPOSIUM (IV)》 * |
PENGFEI ZHU等: "VisDrone-VID2019 The Vision Meets Drone Object Detection in Video Challenge Results", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOP (ICCVW)》 * |
罗志鹏: "CVPR 2020夜间行人检测挑战赛两冠一亚:DeepBlueAI团队获胜方案解读", 《HTTPS://PICTURE.ICZHIKU.COM/WEIXIN/MESSAGE1592815205387.HTML》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528782A (zh) * | 2020-11-30 | 2021-03-19 | 北京农业信息技术研究中心 | 水下鱼类目标检测方法及装置 |
CN112528782B (zh) * | 2020-11-30 | 2024-02-23 | 北京农业信息技术研究中心 | 水下鱼类目标检测方法及装置 |
CN112560874A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 图像识别模型的训练方法、装置、设备和介质 |
CN112560874B (zh) * | 2020-12-25 | 2024-04-16 | 北京百度网讯科技有限公司 | 图像识别模型的训练方法、装置、设备和介质 |
CN113591752A (zh) * | 2021-08-06 | 2021-11-02 | 深圳市莱达四维信息科技有限公司 | 基于卷积神经网络的设备漏油监控方法及相关设备 |
CN113610037A (zh) * | 2021-08-17 | 2021-11-05 | 北京计算机技术及应用研究所 | 一种基于头部和可见区域线索的遮挡行人检测方法 |
CN113869361A (zh) * | 2021-08-20 | 2021-12-31 | 深延科技(北京)有限公司 | 模型训练方法、目标检测方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN111814754A (zh) | 面向夜间场景的单帧图像行人检测方法和装置 | |
CN109902677B (zh) | 一种基于深度学习的车辆检测方法 | |
CN110298262B (zh) | 物体识别方法及装置 | |
CN109829398B (zh) | 一种基于三维卷积网络的视频中的目标检测方法 | |
CN109325954B (zh) | 图像分割方法、装置及电子设备 | |
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN111814753A (zh) | 针对雾天条件下的目标检测方法和装置 | |
CN101211411B (zh) | 一种人体检测的方法和装置 | |
CN111008567A (zh) | 一种驾驶员行为识别方法 | |
US11017542B2 (en) | Systems and methods for determining depth information in two-dimensional images | |
CN111814755A (zh) | 面向夜间运动场景的多帧图像行人检测方法和装置 | |
CN106971178A (zh) | 行人检测和再识别的方法及装置 | |
CN110675407A (zh) | 一种图像实例分割方法、装置、电子设备及存储介质 | |
CN110310305B (zh) | 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN112365498A (zh) | 一种针对二维图像序列中多尺度多形态目标的自动检测方法 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
CN116188999A (zh) | 一种基于可见光和红外图像数据融合的小目标检测方法 | |
CN116452966A (zh) | 一种水下图像的目标检测方法、装置、设备及存储介质 | |
CN115496971A (zh) | 一种红外目标检测方法、装置、电子设备及存储介质 | |
CN111339934A (zh) | 一种融合图像预处理与深度学习目标检测的人头检测方法 | |
CN111027472A (zh) | 一种基于视频光流和图像空间特征权重融合的视频识别方法 | |
CN112132753B (zh) | 多尺度结构引导图像的红外图像超分辨率方法及系统 | |
CN113744142A (zh) | 图像修复方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201023 |
|
RJ01 | Rejection of invention patent application after publication |