CN114724175A - 行人图像的检测网络、检测方法、训练方法、电子设备和介质 - Google Patents
行人图像的检测网络、检测方法、训练方法、电子设备和介质 Download PDFInfo
- Publication number
- CN114724175A CN114724175A CN202210212341.XA CN202210212341A CN114724175A CN 114724175 A CN114724175 A CN 114724175A CN 202210212341 A CN202210212341 A CN 202210212341A CN 114724175 A CN114724175 A CN 114724175A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- feature map
- map
- convolution
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 title claims abstract description 43
- 238000010586 diagram Methods 0.000 claims description 40
- 230000004927 fusion Effects 0.000 claims description 36
- 238000011176 pooling Methods 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 23
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 238000009825 accumulation Methods 0.000 claims description 6
- 230000007306 turnover Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000006872 improvement Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
行人图像的检测网络、检测方法、训练方法、电子设备和介质,属于图像检测领域,为了提高行人图像中行人检测准确率,解决行人遮挡问题,要点是通过将特征图以相互独立的方式进行三个并行卷积操作,获取检测图像的中心热图、比例图和偏移预测图;根据所述中心热图、比例图和偏移预测图,预测行人的中心点、行人高度、行人宽度和偏移量;响应于所述预测行人的中心点、行人高度、行人宽度和偏移量,获取检测图像的行人坐标,得到图像中行人的预测框,效果是比现有网络模型具有更高的检测精度,并且对于行人遮挡的情况也能有较好的处理。
Description
技术领域
本发明属于图像检测领域,具体涉及一种图像上的行人检测方法。
背景技术
随着人工智能的发展,辅助驾驶,智能监控需求不断提升,目标检测在计算机视觉领域内成为研究热点之一。具体到行人检测领域,FasterR-CNN已经成为主要的方法,它是一个二阶段方法,先生成候选区域,再进行目标分类与回归。许多行人检测方法都基于此改进。例如,RPN+BF修改了RPN,通过强化森林对proposals重新评分,RepLoss,OR-CNN则设计了新的回归损失函数来解决拥挤场景中的行人遮挡问题。而无锚点框检测器没有生成候选区域,直接从图像中检测物体。DeNet通过预测对象的四个角的位置来生成proposals,TLL通过预测顶部和底部顶点来检测对象。为将成对的关键点组合成单独的实例,还采用了基于马尔可夫随机场的后处理方案,并预测了点之间的链路边缘。
而CSP将目标检测作为一种高层语义特征检测任务来对待,类似于边缘,角点检测器。相对于普通特征检测器,CSP对行人检测任务有更高层次的抽象,对行人寻找中心点,还对行人的尺度,偏移量进行了预测。CSP结构简单,但在Caltech和Citypersons行人检测数据集中达到了当时(2019年)的最好性能。同时具有与单阶段检测器相当的检测速度。
但CSP也存在一些问题,首先,对batchsize异常敏感,对较小的batchsize,模型将不收敛,错误率甚至接近1。其次,CSP对不同尺度的输入会带来显著不同的结果,最后,CSP的特征提取器特征(Backbone)抽象能力在如今已经稍有不足,并且检测头(Detectionhead)结构过于简单,仍然有很大的改进空间。
中国专利申请CN113723322A公开了一种基于单阶段无锚点框架的行人检测方法及系统。该方法在CSP网络的基础上加入交叉融合金字塔,一定程度上解决了行人类间差异小的问题。然而上述方法,在同类别的物体遮挡以及行人间存在中心点重合等情况下,检测精度较差。因此现有技术需要一种提高中心点检测准确率的方法,来处理行人遮挡问题。且需要一种新的特征提取方法,来解决CSP网络存在特征提取能力不足问题。
发明内容
为了提高行人图像中行人检测准确率,解决行人遮挡问题,本发明实施例提供一种行人图像检测方法,包括
将检测图像所提取的行人图像特征图M0,通过相互独立的方式分别进行特征融合操作和注意力机制操作,获取具有上下文信息及位置信息的特征图M1和具有不同感受野信息的特征图M2,通过将所述具有不同感受野信息的特征图M2顺序地进行卷积和Sigmoid操作,获取带有注意力机制的特征图MAtt,
通过将所述带有注意力机制的特征图MAtt与所述具有上下文信息及位置信息的特征图M1进行乘积累加操作,获取特征图Frefine;
通过将所述特征图Frefine以相互独立的方式进行三个并行卷积操作,获取检测图像的中心热图、比例图和偏移预测图;
根据所述中心热图、比例图和偏移预测图,预测行人的中心点、行人高度、行人宽度和偏移量;
响应于所述预测行人的中心点、行人高度、行人宽度和偏移量,获取检测图像的行人坐标,得到图像中行人的预测框。
本发明实施例还提供一种行人图像检测网络,包括残差网络、注意力模块、特征融合模块和检测头,
所述的残差网络用于提取检测图像的行人图像特征图M0,
所述的注意力模块用于获取具有上下文信息及位置信息的特征图M1,
所述的特征融合模块用于获取具有不同感受野信息的特征图M2,
检测头用于对所述特征图M1、特征图M2操作,获取检测图像的中心热图、比例图和偏移预测图,
行人坐标计算模块,用于获取检测图像的行人坐标,得到图像中行人的预测框。
所述的检测头对所述特征图M1、特征图M2操作基于如下方式实现:
通过将所述具有不同感受野信息的特征图M2顺序地进行卷积和Sigmoid操作,获取带有注意力机制的特征图MAtt,
通过将所述带有注意力机制的特征图MAtt与所述具有上下文信息及位置信息的特征图M1进行乘积累加操作,获取特征图Frefine;
通过将所述特征图Frefine以相互独立的方式进行三个并行卷积操作,获取检测图像的中心热图、比例图和偏移预测图。
作为技术方案的补充,所述残差网络包含依次连接的四个阶段,分别为Conv1、Conv2_x、Conv3_x、Conv4_x,Conv1输入为H×W,包含1个卷积核为7×7,步长为2的卷积层,输出尺寸为H×W;Conv2_x输入为H×W,包含三个残差块与一个池化层,每个残差块里有三个卷积层,三个卷积核大小依次为1×1、3×3、1×1,池化层为2×2大小的最大池化操作,输出尺寸为H/2×W/2;Conv3_x输入为H/2×W/2,包含依次连接的四个残差块与一个池化层,输出尺寸为H/4×W/4;Conv4_x部分输入为H/4×W/4,包含依次连接的六个残差块与一个池化层,输出尺寸为H/8×W/8;
所述的特征融合模块由上采样单元组成,所述的上采样单元包括1个2×2的上采样卷积层、特征连接层、1个1×1卷积层、以及1个3×3卷积;
所述的注意力模块由上采样单元与SKNet单元组成,所述的上采样单元包括1个2×2的上采样卷积层、特征连接层、1个1×1卷积层、以及1个3×3卷积,所述的SKNet单元主要包含分裂(Split)、融合(Fuse)、选择(Select)三个操作。
作为技术方案的补充,特征融合模块的输入为所述残差网络的Conv4_x的输出,输入尺寸为H/8×W/8,特征融合模块首先对残差网络的Conv4_x的特征图进行2倍的上采样,将Conv4_x与Conv3_x特征图连接在一起,对连接后的特征图进行两次卷积核为3×3的卷积操作,输出尺寸为H/4×W/4;然后将卷积操作后的特征图进行2倍的上采样,将上采样后的特征图与Conv2_x特征图连接在一起,对连接后特征图进行两次卷积核为3×3的卷积操作,输出尺寸为H/2×W/2;最后将卷积后的特征图进行2倍的上采样,将上采样后的特征图与Conv1_x特征图连接在一起,对连接后特征图进行两次卷积核为3×3的卷积操作,得到尺寸为H×W的特征图M1;
注意力模块的输入为所述残差网络的Conv4_x的输出,输入尺寸为H/8×W/8,注意力模块首先对Conv4_x的特征图进行2倍的上采样,将Conv3_x的特征图放入SKNet模块中得到特征图M2-1,将Conv4_x与特征图M2-1特征图连接在一起,对连接后的特征图进行两次卷积核为3×3的卷积操作,输出尺寸为H/4×W/4;然后将卷积后的特征图进行2倍的上采样,对Conv2_x的特征图放入SKNet模块中得到特征图M2-2,将上采样后的特征图与特征图M2-2连接在一起,对连接后特征图进行两次卷积核为3×3的卷积操作,输出尺寸为H/2×W/2;最后将卷积后的特征图进行2倍的上采样,把Conv1_x的特征图放入SKNet模块中得到特征图M2-3,将上采样后的特征图与特征图M2-3连接在一起,对连接后特征图进行两次卷积核为3×3卷积操作,得到尺寸为H×W的特征图M2;
检测头对注意力模块输出的特征图M2进行1×1卷积和Sigmoid操作,生成带有注意力机制的特征图MAtt;接着将特征图MAtt与特征图M1进行矩阵乘法操作,得到特征图Frefine;最后在特征图Frefine后加入三个并行1×1卷积层,得到检测图像的中心热图、比例图和偏移预测图。
作为技术方案的补充,所述SKNet模块由多个SK卷积单元堆叠而成,其中SK卷积操作由Split,Fuse,Select三个模块组成,首先通过Split操作分别通过3×3和5×5大小的SK卷积核对C×W×H的特征图X进行分组卷积操作和空洞卷积,输出和Fuse操作将2个特征图进行element-wisesummation融合后先通过全局平均池化生成C×1×1的特征向量S,C为通道数,特征向量S经过先降维再升维的两全连接层后形成d×1×1的向量Z;Select模块将向量Z通过2个Softmax函数回归出通道之间的权重信息矩阵a和矩阵b,并使用a和b对2个特征图和进行加权操作,然后求和得到最终尺寸大小为W×H的输出特征图。
本发明实施例还提供一种行人图像检测网络的训练方法,包括
获取行人数据集,
根据所述行人数据集得到数据集中行人图像的图集,所述图集包括中心图、比例图和偏移图,所述中心图为包括行人中心点的图,所述比例图为包括行人长宽比信息的图,所述偏移图为包括行人中心点偏移量信息的图,所述行人中心点为所述行人数据集被框选行人图像的中心点;
将所述行人数据集输入网络中获取输出特征图,所述网络包括依次连接的残差网络、注意力模块、特征融合模块和检测头;
计算输出特征图与所述图集中各图之间的误差,并根据所述误差对所述网络进行训练。
作为技术方案的补充,所述的行人图像检测网络的训练方法,还包括
对并对所述行人数据集进行样本增强,
根据样本增强后的行人数据集得到数据集中行人图像的图集;
所述样本增强包括
对所述行人图像数据集进行随机颜色失真和水平翻转,在0.4~1.5的范围内随机缩放,行人图像的纵横比保持不变,并通过零填充使较短边拥有固定像素数;
将所述行人数据集每两张图片分为一组,在行人图像A上随机生成一个裁剪框Box,裁剪掉行人图像A的相应位置,然后用行人图像B相应位置的ROI放到行人图像A中被裁剪的区域形成新的样本;
将所述行人数据集每四张图片分为一组,对四张图片进行拼接,每一张图片都有其对应的框,将四张图片拼接之后获得一张新的图片,同时也获得这张图片对应的框。
作为技术方案的补充,所述中心图、比例图和偏移图作为训练标签使用,
对于中心图的标注,行人对象中心点位置标记为正值,其他位置指定为0,
对于比例图的标注,每个对象中心点的半径为2的范围内位置标记为正值log(h),其中h为行人对象的高度,其他位置指定为0,
对于偏移图的标注,假设目标k的中心点坐标为(xk,yk),则在标签图中目标中心所在的位置赋值为其他位置指定为0,其中xk表示图像中第k个对象的x轴位置,yk表示图像中第k个对象的y轴位置,r表示图像经特征提取器后,尺度缩小的倍数,[·]代表取整函数。
本发明实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中提供的方法中的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中提供的方法中的步骤。
有益效果:本发明得到的行人检测网络模型比现有网络模型具有更高的检测精度,并且对于行人遮挡的情况也能有较好的处理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例训练方法的流程图。
图2为实施例网络的结构图。
图3为实施例残差网络中残差块(ResidualBlock)的网络结构图。
图4为实施例注意力模块中SKNet的网络结构图。
图5为实施例的行人检测结果图。
具体实施方式
下面将结合附图和技术方案,对发明的实施过程进行详细描述。
实施例1:本实施例提供一种行人图像检测方法,具体的是一种基于CSP检测器改进的图像上的行人的检测方法,可在一定程度上解决行人遮挡以及CSP网络特征表征不足的问题,从而提高行人检测的准确性。所述检测方法包括构建用于检测的网络,训练所述网络,使用所述网络对所采集的具有行人的图像进行检测,获取所述检测结果。
所述构建的网络包括残差网络、注意力模块、特征融合模块、检测头和行人坐标计算模块。
在一种方案中,所述的残差网络用于提取检测图像的行人图像特征图M0,所述的注意力模块用于获取具有上下文信息及位置信息的特征图M1,所述的特征融合模块用于获取具有不同感受野信息的特征图M2,检测头用于对所述特征图M1、特征图M2操作,获取检测图像的中心热图、比例图和偏移预测图,行人坐标计算模块,用于获取检测图像的行人坐标。
在一种方案中,所述残差网络包含依次连接的四个阶段,分别为Conv1、Conv2_x、Conv3_x、Conv4_x,Conv1输入为H×W,包含1个卷积核为7×7,步长为2的卷积层,输出尺寸为H×W。Conv2_x输入为H×W,包含三个残差块与一个池化层,每个残差块里有三个卷积层,三个卷积核大小依次为1×1、3×3、1×1,池化层为2×2大小的最大池化操作,输出尺寸为H/2×W/2。Conv3_x输入为H/2×W/2,包含依次连接的四个残差块与一个池化层,输出尺寸为H/4×W/4。Conv4_x部分输入为H/4×W/4,包含依次连接的六个残差块与一个池化层,输出尺寸为H/8×W/8。
在一种方案中,所述的特征融合模块由上采样单元组成,所述的上采样单元包括1个2×2的上采样卷积层、特征连接层、1个1×1卷积层、以及1个3×3卷积。所述的注意力模块由上采样单元与SKNet单元组成,所述的上采样单元包括1个2×2的上采样卷积层、特征连接层、1个1×1卷积层、以及1个3×3卷积,所述的SKNet单元主要包含分裂(Split)、融合(Fuse)、选择(Select)三个操作。
在一种方案中,特征融合模块的输入为所述残差网络的Conv4_x的输出,输入尺寸为H/8×W/8,特征融合模块首先对残差网络的Conv4_x的特征图进行2倍的上采样,将Conv4_x与Conv3_x特征图连接在一起,对连接后的特征图进行两次卷积核为3×3的卷积操作,输出尺寸为H/4×W/4。然后将卷积操作后的特征图进行2倍的上采样,将上采样后的特征图与Conv2_x特征图连接在一起,对连接后特征图进行两次卷积核为3×3的卷积操作,输出尺寸为H/2×W/2。最后将卷积后的特征图进行2倍的上采样,将上采样后的特征图与Conv1_x特征图连接在一起,对连接后特征图进行两次卷积核为3×3的卷积操作,得到尺寸为H×W的特征图M1。
在一种方案中,注意力模块的输入为所述残差网络的Conv4_x的输出,输入尺寸为H/8×W/8,注意力模块首先对Conv4_x的特征图进行2倍的上采样,将Conv3_x的特征图放入SKNet模块中得到特征图M2-1,将Conv4_x与特征图M2-1特征图连接在一起,对连接后的特征图进行两次卷积核为3×3的卷积操作,输出尺寸为H/4×W/4。然后将卷积后的特征图进行2倍的上采样,对Conv2_x的特征图放入SKNet模块中得到特征图M2-2,将上采样后的特征图与特征图M2-2连接在一起,对连接后特征图进行两次卷积核为3×3的卷积操作,输出尺寸为H/2×W/2。最后将卷积后的特征图进行2倍的上采样,把Conv1_x的特征图放入SKNet模块中得到特征图M2-3,将上采样后的特征图与特征图M2-3连接在一起,对连接后特征图进行两次卷积核为3×3卷积操作,得到尺寸为H×W的特征图M2。
在一种方案中,检测头对注意力模块输出的特征图M2进行1×1卷积和Sigmoid操作,生成带有注意力机制的特征图MAtt。接着将特征图MAtt与特征图M1进行矩阵乘法操作,得到特征图Frefine。最后在特征图Frefine后加入三个并行1×1卷积层,得到检测图像的中心热图、比例图和偏移预测图。
在一种方案中,所述SKNet模块由多个SK卷积单元堆叠而成,其中SK卷积操作由Split,Fuse,Select三个模块组成,首先通过Split操作分别通过3×3和5×5大小的SK卷积核对C×W×H的特征图X进行分组卷积操作和空洞卷积,输出和Fuse操作将2个特征图进行element-wisesummation融合后先通过全局平均池化生成C×1×1的特征向量S,C为通道数,特征向量S经过先降维再升维的两全连接层后形成d×1×1的向量Z。Select模块将向量Z通过2个Softmax函数回归出通道之间的权重信息矩阵a和矩阵b,并使用a和b对2个特征图和进行加权操作,然后求和得到最终尺寸大小为W×H的输出特征图。
在一种方案中,所述训练方法包括如下步骤:
S1:获取行人数据集,并对所述行人数据集进行样本增强。
S2:对所述行人数据集进行预处理得到图集。
S3:将所述行人数据集输入网络模型得到输出特征图。所述网络包括依次连接的残差网络、并联的注意力模块与特征融合模块、检测头。所述残差网络模块中的归一化方法包括组归一化和批标准化。
S4:计算输出特征图与所述图集中各图之间的误差,并根据所述误差采用反向传播算法对所述网络的模型进行训练,得到行人检测网络的模型,所述行人检测的网络用于进行图像中行人检测。
在一种方案中,步骤S1中,行人数据集具体包括CityPersons数据集、Caltech数据集和INRIA数据集中的至少一个。在一种方案中,将三个行人检测数据集的图片整合到一起,共10000张图片,其中训练集8000张、测试集1500张、验证集500张。在本方案中,通过将多个行人数据集整合到一起进行训练,可以有效的增强行人检测模型的鲁棒性。
在一种方案中,步骤S1:获取行人数据集,并对所述行人数据集进行样本增强,在该步骤中,所述样本增强包括:对所述行人数据集进行随机颜色失真和水平翻转,在0.4~1.5的范围内随机缩放,并通过零填充使较短边拥有固定像素数。将所述行人数据集每两张图片分为一组,在行人图像A上随机生成一个裁剪框Box,裁剪掉行人图像A的相应位置,然后用行人图像B相应位置的ROI放到A图中被裁剪的区域形成新的样本。将所述行人数据集每四张图片分为一组,对四张图片进行拼接,每一张图片都有其对应的框,将四张图片拼接之后就获得一张新的图片,同时也获得这张图片对应的框。优选的,增强过程中,图像的纵横比保持不变。本方案中对原始数据集进行数据增强,一方面可以增加训练的数据量,提高模型的泛化能力。另一方面增加噪声数据,提升模型的鲁棒性。
在一种方案中,步骤S2:对所述行人数据集进行预处理得到图集,在该步骤中,对数据增强后数据集进行预处理得到中心图、比例图和偏移图。所述中心图包括行人中心点的图,所述比例图为包括行人长宽比信息的图,所述偏移预测图为包括行人中心点偏移量信息的图,所述行人中心点为所述行人数据集被框选行人图像的中心点。
在一种方案中,所述中心图、比例图和偏移预测图作为训练标签使用。
对所述行人数据集进行预处理包括:
对于中心图的标注,行人对象中心点位置标记为正值,其他位置指定为0。
对于比例图的标注,每个对象中心点的半径为2的范围内位置标记为正值log(h)(其中h为行人对象的高度),其他位置指定为0。
其中xk表示图像中第k个对象的x轴位置,yk表示图像中第k个对象的y轴位置,r表示图像经特征提取器后,尺度缩小的倍数,[·]代表取整函数。
本方案中相较于主流的铺设锚点框的检测方式,采用全卷积式的中心点和尺寸预测任务可以在保证检测精度的前提下,能够简化检测器结构,提升行人检测速度。
在一种方案中,步骤S3:将所述行人数据集输入网络模型得到输出特征图。所述网络包括依次连接的残差网络、并联的注意力模块与特征融合模块、检测头。所述残差网络模块中的归一化方法包括组归一化和批标准化。在该步骤中,将所述行人数据集输入网络模型得到输出特征图,其具体方法包括:
将所述数据增强后的数据集输入到残差网络中得到特征图M0。
将所述特征图M0放入并联的注意力模块与特征融合模块得到特征图M1、特征图M2。
将所述特征图M1、M2进行检测头操作得到输出特征图。
在一种方案中,所述特征图M0基于如下方式取得:将行人数据集输入到ResNet50网络中得到的。在本方案中,将ResNet50作为整个模型的主干网络,其作用为提取行人图像中的特征,供后续网络使用。相较于其他特征提取网络,在特征提取能力一样的情况下,ResNet50的参数量更少。
在一种方案中,所述的特征图M1、M2基于如下方式取得:将所述的特征图M0放入特征融合模块得到特征图M1,将所述的特征图M0放入注意力模块得到特征图M2,两个模块都是U型结构。
在一种方案中,所述的特征融合模块由上采样单元组成。所述的上采样单元包括1个2×2的上采样卷积层、特征连接层、1个1×1卷积层、以及1个3×3卷积。
在一种方案中,所述的注意力模块由上采样单元与SKNet单元组成。所述的上采样单元包括1个2×2的上采样卷积层、特征连接层、1个1×1卷积层、以及1个3×3卷积。
在一种方案中,所述的SKNet单元主要包含分裂(Split)、融合(Fuse)、选择(Select)三个操作。
本方案中,所述的特征融合模块的作用为获取上下文信息与位置信息,所述的注意力模块在特征融合的基础上加入注意力机制,使网络可以获取不同感受野的信息,加强对行人区域信息的学习。
在一种方案中,所述的输出特征图基于如下方式取得:对所述特征图M2进行1×1卷积和Sigmoid操作,生成带有注意力机制的特征图MAtt。
将所述特征图MAtt与所述特征图M1进行乘积累加操作得到特征图Frefine。
在所述特征图Frefine后加入三个并行1×1卷积层,得到三个输出特征图。三个特征图分别命名为中心热图,比例图,偏移预测图。
本方案中,通过改进的检测头操作可以有效的防止行人遮挡情况下特征信息丢失,从而提高识别准确度。
在一种方案中,所述步骤S4:计算输出特征图与所述图集中各图之间的误差,并根据所述误差采用反向传播算法对所述网络的模型进行训练得到行人检测网络的模型,所述行人检测的网络用于进行图像中行人检测。在该步骤中,所述误差计算是由中心点损失、比例损失、偏移损失三部分组成。
所述的中心点损失采用focalloss、比例损失采用L1loss、偏移损失采用平滑L1loss。
本方案采用所述损失计算误差可以有效的解决正负样本数量不均衡问题,从而提高检测精度。
在一种方案中,模型训练的阶段得到输出特征图(中心热图,比例图,偏移预测图)后,用于预测行人的中心点、高度、宽度和偏移量。中心热图中每个坐标点的值为行人中心点预测的概率,优选为大于0.75则被预测为行人的中心点。比例图中对应中心点的值为预测行人高度的对数。偏移预测图第一通道为y坐标偏移量,第二通道为x坐标偏移量。
在一种方案中,通过以下公式得到行人坐标:
h=eh_s*down
w=h*0.41
lx=max((xc+ox+0.5)*down-w/2,0)
ly=max((yc+oy+0.5)*down-h/2,0)
rx=min((lx+w),mw)
ry=min((ly+h),mh)
其中,(xc,yc)为模型预测的行人中心点,h_s为比例图中心点对应值,down为下采样倍数,本实施例中优选为4。oy为y轴坐标偏移量,ox为x轴坐标偏移量,mh为特征图高,mw为特征图宽,h,w分别为预测行人的高,宽,(rx,ry)为行人右下角坐标,(lx,ly)为行人左上角坐标。
在一种方案中,通过获取行人坐标,能够得到一系列预测框,优选的,再进行非极大值抑制,得到网络模型输出的图像中行人的预测结果。之后计算预测结果与图像标注之间的损失。
在一种方案中,在算法反向传播计算损失函数的步骤中,需要构造损失函数。总的损失由中心点损失,比例损失,偏移损失三部分组成。lcenter为中心点损失,lscale为比例损失,loffset为偏移损失。lcenter可通过预测中心热图与中心热图标注得到。lcenter是一个focalloss,可通过以下公式得到:
其中,K是图像中行人对象的数目,(xk,yk,wk,hk)是第k个对象的中心点坐标,宽度,高度,为每个对象相应的高斯掩膜的方差,pij是(i,j)位置存在行人中心点的估计概率,yij∈{0,1},是真值标签。αij和γ是focalloss的超参数,β作为惩罚系数,αij用来调整正负样本的权重。根据经验,本方案将β设为4,γ取值为2。在一种方案中,与每个对象的高宽有关,其可由以下公式得到σ=((kernel-1)*0.5-1)*0.3+0.8。其中,kernel为对象的高或宽。
lscale,loffset分别通过以下公式得到:
sk,tk代表每个正例的预测值与真值。
最终损失为:
L=λclcenter+λslscale+λoloffset
其中,λc,λs,λo表示上述三种损失在总损失的比例,本方案将λc,λs,λo分别取值0.01,0.05,0.1。
在一种方案中,在初始化模型参数时,选择在ImageNet上预训练的ResNet50模型作为初始值,并将检测头网络的所有层的权重初始化为均值为0,方差为1的正态分布,偏置初始化为0。除此之外,整个网络的优化算法采用Adam。整个训练过程使用的计算资源为一张英伟达GTX2080Ti显卡。模型训练时,前50k次迭代的学习率设为2e-4,接下来的25k次迭代的训练率设为2e-5,最后的15k次迭代学习率降到2e-6。所有模型在1张GTX2080TiGPU显卡上进行训练和测试,图5展示了在CityPersons数据集上部分图像的预测结果,可以直观的发现本方案提出的方法在严重遮挡情况下仍具有令人满意的检测结果。
实施例2:一种行人图像检测方法,包括将检测图像所提取的行人图像特征图M0,通过相互独立的方式分别进行特征融合操作和注意力机制操作,获取具有上下文信息及位置信息的特征图M1和具有不同感受野信息的特征图M2。通过将所述具有不同感受野信息的特征图M2顺序地进行卷积和Sigmoid操作,获取带有注意力机制的特征图MAtt。通过将所述带有注意力机制的特征图MAtt与所述具有上下文信息及位置信息的特征图M1进行乘积累加操作,获取特征图Frefine。通过将所述特征图Frefine以相互独立的方式进行三个并行卷积操作,获取检测图像的中心热图、比例图和偏移预测图。根据所述中心热图、比例图和偏移预测图,预测行人的中心点、行人高度、行人宽度和偏移量。响应于所述预测行人的中心点、行人高度、行人宽度和偏移量,获取检测图像的行人坐标,获取图像中行人的预测框。在优选方案中,该方法的实施可以由实施例1所提供的网络所实现,更为优选的,所述网络为通过实施例1中所述训练方法训练所得。
实施例3:如图1所示,为本实施例提供的一种行人图像检测网络的训练方法,包括:
步骤1:获取行人数据集,并对所述行人数据集进行样本增强。
将CityPersons数据集、Caltech数据集、INRIA数据集三个行人检测数据集图片整合到一起,共10000张图片,其中训练集8000张、测试集1500张、验证集500张,其中图片大小均为2048*1024。
样本增强阶段,首先在0.4~1.5的范围内随机缩放图片,同时缩放标签,然后以50%的概率左右翻转图片,同时还需翻转标签,50%的概率进行图片的颜色失真,根据当前图片大小,如果当前图片大小大于图片原尺寸(即缩放比例大于1),进行随机裁剪。裁剪后图片大小等于训练要求输入尺寸,如果当前图片大小与原尺寸(即缩放比例小于1),用0随机在图片外围进行填充,填充至训练要求输入尺寸。此外,将训练集的8000张图片,分成4000对,然后将图像A上随机生成一个裁剪框Box,裁剪掉行人图像A的相应位置,然后对应图像B相应位置的ROI放到A图中被裁剪的区域生成新的4000个样本。最后将8000张训练样本排列组合,每四张图片拼接在一起,生成2000张新的样本图片。本实施例图片训练要求输入尺寸为高640,宽1280。
步骤2:对所述行人数据集进行预处理得到图集。所述图集包括中心图、比例图和偏移图。所述中心图包括行人中心点的图。所述比例图为包括行人长宽比信息的图。所述偏移图为包括行人中心点偏移量信息的图。所述行人中心点为所述行人数据集被框选行人图像的中心点。
所述中心图、比例图和偏移预测图作为训练标签使用。
对于中心图的标注,行人对象中心点位置标记为正值,其他位置指定为0。
对于比例图的标注,每个对象中心点的半径为2的范围内位置标记为正值log(h)(其中h为行人对象的高度),其他位置指定为0。
其中xk表示图像中第k个对象的x轴位置,yk表示图像中第k个对象的y轴位置,r表示图像经特征提取器后,尺度缩小的倍数,[·]代表取整函数。
步骤3:将所述行人数据集输入网络模型(如图2所示)得到输出特征图。所述网络包括依次连接的残差网络、并联的注意力模块与特征融合模块、检测头。所述残差网络模块中的归一化方法包括组归一化和批标准化。
残差网络部分使用的是ResNet50,并使用了在COCO数据集上的预训练模型。本实施例采用的ResNet50包含依次连接的四个阶段,分别为(Conv1、Conv2_x、Conv3_x、Conv4_x),其中Conv1部分输入为H×W,包含1个卷积核为7×7,步长为2的卷积层,输出尺寸为H×W。Conv2_x部分输入为H×W,包含如图3所示的三个残差块与一个池化层。每个残差块里有三个卷积层,三个卷积核大小依次为1×1、3×3、1×1,池化层为2×2大小的最大池化操作,输出尺寸为H/2×W/2。Conv3_x部分输入为H/2×W/2,包含依次连接的四个残差块与一个池化层,输出尺寸为H/4×W/4。Conv4_x部分输入为H/4×W/4,包含依次连接的六个残差块与一个池化层,输出尺寸为H/8×W/8。
并联的注意力模块与特征融合模块分为两部分:特征融合模块与注意力模块,两个模块相互并联,互不干扰。
特征融合模块的输入为所述resnet50网络Conv4_x的输出,输入尺寸为H/8×W/8,首先对Conv4_x的特征图进行2倍的上采样,将Conv4_x与Conv3_x特征图连接在一起,对连接后特征图进行两次卷积核3×3为卷积操作,输出尺寸为H/4×W/4。然后将卷积后的特征图进行2倍的上采样,将上采样后的特征图与Conv2_x特征图连接在一起,对连接后特征图进行两次卷积核3×3为卷积操作,输出尺寸为H/2×W/2。最后将卷积后的特征图进行2倍的上采样,将上采样后的特征图与Conv1_x特征图连接在一起,对连接后特征图进行两次卷积核3×3为卷积操作,得到尺寸为H×W的特征图M1。
注意力模块的输入为所述resnet50网络Conv4_x的输出,输入尺寸为H/8×W/8,首先对Conv4_x的特征图进行2倍的上采样,对Conv3_x的特征图放入SKNet模块中得到特征图M2-1,将Conv4_x与特征图M2-1特征图连接在一起,对连接后特征图进行两次卷积核3×3为卷积操作,输出尺寸为H/4×W/4。然后将卷积后的特征图进行2倍的上采样,对Conv2_x的特征图放入SKNet模块中得到特征图M2-2,将上采样后的特征图与特征图M2-2连接在一起,对连接后特征图进行两次卷积核3×3为卷积操作,输出尺寸为H/2×W/2。最后将卷积后的特征图进行2倍的上采样,把Conv1_x的特征图放入SKNet模块中得到特征图M2-3,将上采样后的特征图与特征图M2-3连接在一起,对连接后特征图进行两次卷积核3×3为卷积操作,得到尺寸为H×W的特征图M2。
其中SKNet如图4所示,由多个SK卷积单元堆叠而成,其中SK卷积操作由Split,Fuse,Select三个模块组成。在本实施例网络中,首先通过Split操作分别通过3×3和5×5大小的SK卷积核对C×W×H的特征图X进行分组卷积操作和空洞卷积,输出和Fuse操作将2个特征图进行element-wisesummation融合后先通过全局平均池化生成C×1×1的特征向量S(C为通道数),特征图S经过先降维再升维的两全连接层后形成d×1×1的向量Z。Select模块将向量Z通过2个Softmax函数回归出通道之间的权重信息矩阵a和矩阵b,并使用a和b对2个特征图和进行加权操作,然后求和得到最终尺寸大小为W×H的输出特征图V。
检测头部分包括对注意力模块输出的特征图M2进行1×1卷积和Sigmoid操作,生成带有注意力机制的特征图MAtt。接着将MAtt与M1进行矩阵乘法操作,进一步得到特征图Frefine。最后在Frefine后加入三个并行1×1卷积层,从而得到更精确的中心热图,比例图,偏移预测图。
步骤4:计算所述输出特征图与所述图集中各图之间的误差。根据所述误差采用反向传播算法对所述网络模型进行训练得到行人检测模型,所述行人检测模型用于进行行人检测。
模型训练阶段,得到输出特征图(中心热图,比例图,偏移预测图)后,预测行人的中心点,高度宽度,偏移量。中心热图中每个坐标点的值为行人中心点预测的概率,大于一定阈值则预测为行人的中心点,优选为大于0.75则被预测为行人的中心点。比例图中对应中心点的值为预测行人高度的对数。偏移预测图第一通道为y坐标偏移量,第二通道为x坐标偏移量。
通过以下公式得到行人坐标:
h=eh_s*down
w=h*0.41
lx=max((xc+ox+0.5)*down-w/2,0)
ly=max((yc+oy+0.5)*down-h/2,0)
rx=min((lx+w),mw)
ry=min((ly+h),mh)
其中,(xc,yc)为模型预测的行人中心点,h_s为比例图中心点对应值,down为下采样倍数,本实施例中为4。oy为y轴坐标偏移量,ox为x轴坐标偏移量,mh为特征图高,mw为特征图宽,h,w分别为预测行人的高,宽,(rx,ry)为行人右下角坐标,(lx,ly)为行人左上角坐标。
得到一系列预测框后,再进行非极大值抑制,得到模型输出行人预测结果。之后与图像标注计算损失。
在算法反向传播,计算损失函数步骤中,构造损失函数。总的损失由中心点损失,比例损失,偏移损失三部分组成。lcenter为中心点损失,lscale为比例损失,loffset为偏移损失。lcenter可通过预测中心热图与中心热图标注得到。
lcenter通过以下公式得到,是一个focalloss:
σ=((kernel-1)*0.5-1)*0.3+0.8
其中,kernel为对象的高或宽。
pij是(i,j)位置存在行人中心点的估计概率,yij∈{0,1},是真值标签。αij和γ是focalloss的超参数,β作为惩罚系数,αij用来调整正负样本的权重。根据经验,本实施例将β设为4,γ取值为2。
lscale,loffset分别通过以下公式得到:
sk,tk代表每个正例的预测值与真值。最终损失为:
L=λclcenter+λslscale+λoloffset
λc,λs,λo表示上述三种损失在总损失的比例,本实施例λc,λs,λo分别取值0.01,0.05,0.1。
在初始化模型参数时,本实施例选择在ImageNet上预训练的ResNet50模型作为初始值,并将检测头网络的所有层的权重初始化为均值为0,方差为1的正态分布,偏置初始化为0。除此之外,整个网络的优化算法采用Adam。整个训练过程使用的计算资源为一张英伟达GTX2080Ti显卡。模型训练时,前50k次迭代的学习率设为2e-4,接下来的25k次迭代的训练率设为2e-5,最后的15k次迭代学习率降到2e-6。所有模型在1张GTX2080TiGPU显卡上进行训练和测试,图5展示了在CityPersons数据集上部分图像的预测结果,可以直观的发现本实施例提出的方法在严重遮挡情况下仍具有令人满意的检测结果。
本发明提出的模型主要针对密集场景下的行人检测任务,因此采用更具有针对性的CityPersons数据集、Caltech数据集、INRIA数据集。对于检测网络的评价指标包括Recall、AP、MR-2和FPS四种。对于Recall、AP、FPS来说,其数值越高说明性能越好,而对于MR-2该项指标,则是数值越小性能越好。表1显示了本发明提出的基于CSP改进的行人检测算法的测试结果,对比方法包括:CSPNet、RetinaNet、CenterNet、RepLoss、TLL。
在对比实验过程中,本发明提出基于CSP改进的行人检测算法较其他模型在测试集上均取得最优的Recall、AP、MR-2,对比单阶段模型RetinaNet,虽然在FPS上稍有不足,但是在Recall从93.19%提升至95.70%,AP从82.31%提升至88.11%,MR-2从49.7%降至45.2%。相较于CenterNet,本发明提出的方法在AP从84.22%提升至88.11%,MR-2从47.3降至45.2,但是Recall下降了0.11%,处理速度稍有下降。
表1
方法 | Recall | AP | FPS | MR<sup>-2</sup> |
CSPNet | 91.21 | 84.88 | 14.1 | 55.9 |
RetinaNet | 93.19 | 82.31 | 20.4 | 49.7 |
CenterNet | 95.88 | 84.22 | 16.11 | 47.3 |
RepLoss | 94.67 | 85.14 | 7.64 | 54.6 |
TLL | 93.42 | 83.73 | 9.21 | 51.7 |
本发明算法 | 95.70 | 88.11 | 13.0 | 45.2 |
上面对本发明的实施方法做出了详细说明,但本发明不限于上述实施方法。本发明通过一系列改进,提升了行人检测的精度,在自动驾驶,智能监控领域能够发挥作用。
实施例4:本发明实施例提供一种电子设备,该电子设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的行人图像检测方法中的步骤,或者行人图像检测网络的训练方法。
本发明实施例提供的电子设备能够实现上述方法实施例中的各个实施方式,以及相应有益效果。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的行人图像检测方法或者行人图像检测网络的训练方法的各个过程,且能达到相同的技术效果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,该程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,简称RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种行人图像检测方法,其特征在于,
包括
将检测图像所提取的行人图像特征图M0,通过相互独立的方式分别进行特征融合操作和注意力机制操作,获取具有上下文信息及位置信息的特征图M1和具有不同感受野信息的特征图M2,通过将所述具有不同感受野信息的特征图M2顺序地进行卷积和Sigmoid操作,获取带有注意力机制的特征图MAtt,
通过将所述带有注意力机制的特征图MAtt与所述具有上下文信息及位置信息的特征图M1进行乘积累加操作,获取特征图Frefine;
通过将所述特征图Frefine以相互独立的方式进行三个并行卷积操作,获取检测图像的中心热图、比例图和偏移预测图;
根据所述中心热图、比例图和偏移预测图,预测行人的中心点、行人高度、行人宽度和偏移量;
响应于所述预测行人的中心点、行人高度、行人宽度和偏移量,获取检测图像的行人坐标,得到图像中行人的预测框。
2.一种行人图像检测网络,其特征在于,
包括残差网络、注意力模块、特征融合模块和检测头,
所述的残差网络用于提取检测图像的行人图像特征图M0,
所述的注意力模块用于获取具有上下文信息及位置信息的特征图M1,
所述的特征融合模块用于获取具有不同感受野信息的特征图M2,
检测头用于对所述特征图M1、特征图M2操作,获取检测图像的中心热图、比例图和偏移预测图,
行人坐标计算模块,用于获取检测图像的行人坐标,得到图像中行人的预测框。
所述的检测头对所述特征图M1、特征图M2操作基于如下方式实现:
通过将所述具有不同感受野信息的特征图M2顺序地进行卷积和Sigmoid操作,获取带有注意力机制的特征图MAtt,
通过将所述带有注意力机制的特征图MAtt与所述具有上下文信息及位置信息的特征图M1进行乘积累加操作,获取特征图Frefine;
通过将所述特征图Frefine以相互独立的方式进行三个并行卷积操作,获取检测图像的中心热图、比例图和偏移预测图。
3.根据权利要求1所述的行人图像检测网络,其特征在于,
所述残差网络包含依次连接的四个阶段,分别为Conv1、Conv2_x、Conv3_x、Conv4_x,Conv1输入为H×W,包含1个卷积核为7×7,步长为2的卷积层,输出尺寸为H×W;Conv2_x输入为H×W,包含三个残差块与一个池化层,每个残差块里有三个卷积层,三个卷积核大小依次为1×1、3×3、1×1,池化层为2×2大小的最大池化操作,输出尺寸为H/2×W/2;Conv3_x输入为H/2×W/2,包含依次连接的四个残差块与一个池化层,输出尺寸为H/4×W/4;Conv4_x部分输入为H/4×W/4,包含依次连接的六个残差块与一个池化层,输出尺寸为H/8×W/8;
所述的特征融合模块由上采样单元组成,所述的上采样单元包括1个2×2的上采样卷积层、特征连接层、1个1×1卷积层、以及1个3×3卷积;
所述的注意力模块由上采样单元与SKNet单元组成,所述的上采样单元包括1个2×2的上采样卷积层、特征连接层、1个1×1卷积层、以及1个3×3卷积,所述的SKNet单元主要包含分裂(Split)、融合(Fuse)、选择(Select)三个操作。
4.根据权利要求2所述的行人图像检测网络,其特征在于,
特征融合模块的输入为所述残差网络的Conv4_x的输出,输入尺寸为H/8×W/8,特征融合模块首先对残差网络的Conv4_x的特征图进行2倍的上采样,将Conv4_x与Conv3_x特征图连接在一起,对连接后的特征图进行两次卷积核为3×3的卷积操作,输出尺寸为H/4×W/4;然后将卷积操作后的特征图进行2倍的上采样,将上采样后的特征图与Conv2_x特征图连接在一起,对连接后特征图进行两次卷积核为3×3的卷积操作,输出尺寸为H/2×W/2;最后将卷积后的特征图进行2倍的上采样,将上采样后的特征图与Conv1_x特征图连接在一起,对连接后特征图进行两次卷积核为3×3的卷积操作,得到尺寸为H×W的特征图M1;
注意力模块的输入为所述残差网络的Conv4_x的输出,输入尺寸为H/8×W/8,注意力模块首先对Conv4_x的特征图进行2倍的上采样,将Conv3_x的特征图放入SKNet模块中得到特征图M2-1,将Conv4_x与特征图M2-1特征图连接在一起,对连接后的特征图进行两次卷积核为3×3的卷积操作,输出尺寸为H/4×W/4;然后将卷积后的特征图进行2倍的上采样,对Conv2_x的特征图放入SKNet模块中得到特征图M2-2,将上采样后的特征图与特征图M2-2连接在一起,对连接后特征图进行两次卷积核为3×3的卷积操作,输出尺寸为H/2×W/2;最后将卷积后的特征图进行2倍的上采样,把Conv1_x的特征图放入SKNet模块中得到特征图M2-3,将上采样后的特征图与特征图M2-3连接在一起,对连接后特征图进行两次卷积核为3×3卷积操作,得到尺寸为H×W的特征图M2;
检测头对注意力模块输出的特征图M2进行1×1卷积和Sigmoid操作,生成带有注意力机制的特征图MAtt;接着将特征图MAtt与特征图M1进行矩阵乘法操作,得到特征图Frefine;最后在特征图Frefine后加入三个并行1×1卷积层,得到检测图像的中心热图、比例图和偏移预测图。
5.根据权利要求4所述的行人图像检测网络,其特征在于,
所述SKNet模块由多个SK卷积单元堆叠而成,其中SK卷积操作由Split,Fuse,Select三个模块组成,首先通过Split操作分别通过3×3和5×5大小的SK卷积核对C×W×H的特征图X进行分组卷积操作和空洞卷积,输出和Fuse操作将2个特征图进行element-wisesummation融合后先通过全局平均池化生成C×1×1的特征向量S,C为通道数,特征向量S经过先降维再升维的两全连接层后形成d×1×1的向量Z;Select模块将向量Z通过2个Softmax函数回归出通道之间的权重信息矩阵a和矩阵b,并使用a和b对2个特征图和进行加权操作,然后求和得到最终尺寸大小为W×H的输出特征图。
6.一种行人图像检测网络的训练方法,其特征在于,
包括
获取行人数据集,
根据所述行人数据集得到数据集中行人图像的图集,所述图集包括中心图、比例图和偏移图,所述中心图为包括行人中心点的图,所述比例图为包括行人长宽比信息的图,所述偏移图为包括行人中心点偏移量信息的图,所述行人中心点为所述行人数据集被框选行人图像的中心点;
将所述行人数据集输入网络中获取输出特征图,所述网络包括依次连接的残差网络、注意力模块、特征融合模块和检测头;
计算输出特征图与所述图集中各图之间的误差,并根据所述误差对所述网络进行训练。
7.根据权利要求6所述的行人图像检测网络的训练方法,其特征在于,
还包括
对并对所述行人数据集进行样本增强,
根据样本增强后的行人数据集得到数据集中行人图像的图集;
所述样本增强包括
对所述行人图像数据集进行随机颜色失真和水平翻转,在0.4~1.5的范围内随机缩放,行人图像的纵横比保持不变,并通过零填充使较短边拥有固定像素数;
将所述行人数据集每两张图片分为一组,在行人图像A上随机生成一个裁剪框Box,裁剪掉行人图像A的相应位置,然后用行人图像B相应位置的ROI放到行人图像A中被裁剪的区域形成新的样本;
将所述行人数据集每四张图片分为一组,对四张图片进行拼接,每一张图片都有其对应的框,将四张图片拼接之后获得一张新的图片,同时也获得这张图片对应的框。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1或6或7或8中所述的方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1或6或7或8中所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210212341.XA CN114724175B (zh) | 2022-03-04 | 2022-03-04 | 行人图像的检测网络、检测方法、训练方法、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210212341.XA CN114724175B (zh) | 2022-03-04 | 2022-03-04 | 行人图像的检测网络、检测方法、训练方法、电子设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114724175A true CN114724175A (zh) | 2022-07-08 |
CN114724175B CN114724175B (zh) | 2024-03-29 |
Family
ID=82235923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210212341.XA Active CN114724175B (zh) | 2022-03-04 | 2022-03-04 | 行人图像的检测网络、检测方法、训练方法、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114724175B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229419A (zh) * | 2023-02-21 | 2023-06-06 | 中国人民解放军军事科学院系统工程研究院 | 一种行人检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200250462A1 (en) * | 2018-11-16 | 2020-08-06 | Beijing Sensetime Technology Development Co., Ltd. | Key point detection method and apparatus, and storage medium |
CN112800942A (zh) * | 2021-01-26 | 2021-05-14 | 泉州装备制造研究所 | 一种基于自校准卷积网络的行人检测方法 |
-
2022
- 2022-03-04 CN CN202210212341.XA patent/CN114724175B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200250462A1 (en) * | 2018-11-16 | 2020-08-06 | Beijing Sensetime Technology Development Co., Ltd. | Key point detection method and apparatus, and storage medium |
CN112800942A (zh) * | 2021-01-26 | 2021-05-14 | 泉州装备制造研究所 | 一种基于自校准卷积网络的行人检测方法 |
Non-Patent Citations (1)
Title |
---|
张宇倩等: "FF-CAM:基于通道注意机制前后端融合的人群计数", 计算机学报, vol. 44, no. 2, 28 February 2021 (2021-02-28) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229419A (zh) * | 2023-02-21 | 2023-06-06 | 中国人民解放军军事科学院系统工程研究院 | 一种行人检测方法及装置 |
CN116229419B (zh) * | 2023-02-21 | 2024-04-30 | 中国人民解放军军事科学院系统工程研究院 | 一种行人检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114724175B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109859190B (zh) | 一种基于深度学习的目标区域检测方法 | |
CN109559320B (zh) | 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统 | |
CN111640125B (zh) | 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置 | |
CN113076871B (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
WO2020048396A1 (zh) | 一种连续图像的目标检测方法、装置、设备及存储介质 | |
CN111079739B (zh) | 一种多尺度注意力特征检测方法 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN111696110B (zh) | 场景分割方法及系统 | |
CN111680690B (zh) | 一种文字识别方法及装置 | |
CN107506792B (zh) | 一种半监督的显著对象检测方法 | |
CN111444807B (zh) | 目标检测方法、装置、电子设备和计算机可读介质 | |
CN110991444A (zh) | 面向复杂场景的车牌识别方法及装置 | |
CN111428664A (zh) | 一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法 | |
CN112016512A (zh) | 基于反馈式多尺度训练的遥感图像小目标检测方法 | |
CN112906794A (zh) | 一种目标检测方法、装置、存储介质及终端 | |
CN109671055B (zh) | 肺结节检测方法及装置 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统 | |
CN110503651A (zh) | 一种图像显著对象分割方法及装置 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN113850136A (zh) | 基于yolov5与BCNN的车辆朝向识别方法及系统 | |
CN112381061A (zh) | 一种面部表情识别方法及系统 | |
CN113221731B (zh) | 一种多尺度遥感图像目标检测方法及系统 | |
CN116452966A (zh) | 一种水下图像的目标检测方法、装置、设备及存储介质 | |
CN111199255A (zh) | 基于darknet53网络的小目标检测网络模型及检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |