CN111914726B

CN111914726B - 基于多通道自适应注意力机制的行人检测方法

Info

Publication number: CN111914726B
Application number: CN202010735118.4A
Authority: CN
Inventors: 张如飞; 姜丰
Original assignee: Lianxin Intelligent Nanjing Technology Co ltd
Current assignee: Lianxin Intelligent Nanjing Technology Co ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2024-05-07
Anticipated expiration: 2040-07-28
Also published as: CN111914726A

Abstract

本发明提供了一种基于多通道自适应注意力机制的行人检测方法，通过引入密集连接结构，加深检测层的深度，方便提取目标深层次的信息；通过使用基于多分支特征融合的自适应注意力机制，学习不同通道的权重，为遮挡目标提取利于检测的重要特征；同时，自适应注意力机制还能提取不同感受野的特征，为自身携带信息较少的小目标提供部分信息，方便检测小目标；通过引入基于特征融合的金字塔结构，将不同尺度的特征融合，有利于准确定位不同尺度的目标，提高了检测效果。

Description

基于多通道自适应注意力机制的行人检测方法

技术领域

本发明涉及目标检测领域，具体涉及一种基于多通道自适应注意力机制的行人检测方法。

背景技术

目标检测是计算机视觉中的一个重要研究领域，其包括两个过程：分类和定位。分类过程输出目标的类别，定位过程产生目标的坐标信息。目前，目标检测广泛地用在军事、医疗、智能交通等领域。

行人检测是目标检测的一个重要分支，近几年该领域收到了广泛关注，并且在自动驾驶等领域发挥重要作用。行人检测仅仅包含行人一类目标，而且与通用目标检测不同，行人检测存在以下两个难点：(1)在行人数据集中，行人与行人之间以及行人与背景(如车辆、树等)之间存在严重遮挡，一般的检测方法难以检测被遮挡的行人，存在严重的漏警。(2)在行人数据集中，行人的尺度变化多端，尤其小目标偏多。由于小目标像素点少，包含的目标信息少，不易被检测。在现阶段，解决行人检测中的这两个问题成为行人检查算法研究的主流方向。

相关技术中，有算法使用注意力机制解决行人遮挡问题，但是其感受野固定，难以解决变化尺度的行人检测问题。有算法使用图片金字塔结构解决行人尺度变化问题，然而该方法导致测试时间成本增加，实用性不强。此外，尽管有算法使用不同大小的特征图检测目标，但是低层特征图经过的卷积网络层数较少，提取的特征信息有限，检测效果不好。

发明内容

针对上述技术问题，本发明提供了一种基于多通道自适应注意力机制的行人检测方法。

基于多通道自适应注意力机制的行人检测方法，主要包括以下步骤：

S1：通过卷积神经网络提取输入图片的特征，得到不同大小的特征图；

S2：在得到的不同大小的特征图后构建密集连接结构，以加深检测层的深度，提取深层次的特征；

S3：在密集连接结构的输出端构建基于多分支特征融合的自适应注意力机制，通过学习不同通道的权重，为遮挡目标提取利于检测的重要特征，同时，通过使用不同空洞率的空洞卷积来提取不同感受野的特征，为目标提取环境信息；

S4：在自适应注意力机制的输出端构建基于特征融合的金字塔结构，通过上采样以及横向连接结构将不同大小的特征图融合，得到不同尺度的、富含语义信息的特征图，最后根据这些特征图对行人目标进行预测定位。

优选的，步骤S2中所述的密集连接结构，其具体过程用公式描述为：

C_inew＝B(C_i)+C_i

B(C_i)＝R(R(C_i))

其中，C_i代表所述密集连接结构的输入特征图，R为残差结构，B由两个残差结构级联组成。

优选的，所述残差结构包括卷积、BN层和ReLU层。

优选的，步骤S3中所述的自适应注意力机制，其具体过程用公式描述为：

F₁＝D_i(C_inew) F₂＝D_j(C_inew)

F₃＝F₁+F₂

F₄＝Fc(g(F₃))

a,b＝softmax(F₄)

Y_i＝a*F₁+b*F₂

其中，D_i、D_j代表不同空洞率的空洞卷积，g为全局池化操作，用于提取不同通道的全局信息，Fc代表全连接层，用于学习不同通道的权重。

优选的，所述空洞卷积的具体过程用公式描述为：

其中，x_j、y_j分别代表空洞卷积的输入和输出，r为空洞率，w_n是卷积的权重，N为卷积核的大小。

优选的，步骤S1中所述的输入图片的最短边大小是800像素点，最长边像素点不超过1600像素点。

优选的，步骤S4中所述的对行人目标进行预测定位时使用了5个先验框尺度，分别为{16²,32²,64²,128²,256²}，使用了5个先验框长宽比，分别为{0.33,0.5,1,2,3}。

本发明的有益效果是：

1、本发明引入了密集连接结构，不仅增加了网络深度，利于提取目标深层次的信息，同时还能与前面层的输入融合，有效防止梯度消失；

2、使用基于多分支特征融合的自适应注意力机制，通过学习不同通道的权重，增大利于检测的特征通道的权重，减小重要性较弱的特征通道的权重，从而削弱遮挡对检测结果的影响，为遮挡目标提取利于检测的重要特征；同时，自适应注意力机制还能提取不同感受野的特征，获取环境信息，从而为自身携带信息较少的小目标提供部分信息，方便检测小目标；

3、引入基于特征融合的金字塔结构，将不同尺度的特征融合，有利于准确定位不同尺度的目标，提高了检测效果。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明实施例的整体结构示意图；

图2为本发明实施例中密集连接结构的示意图；

图3为本发明实施例中密集连接结构中的残差结构的示意图；

图4为本发明实施例中自适应注意力机制的示意图；

图5为本发明实施例中自适应注意力机制中的空洞卷积的示意图；

图6为本发明实施例在CityPersons测试集上的检测效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，基于多通道自适应注意力机制的行人检测方法，主要包括以下步骤：

S1：通过卷积神经网络提取输入图片的特征，得到不同大小的特征图。其中，尺度大的特征图含有较多的小尺度行人信息，利于小目标的检测，尺度较小的特征图含有大尺度行人的信息，并且能够提取深层次的目标信息，利于检测大目标。

S2：在上述不同大小的特征图后构建密集连接结构，该结构可以加深检测层的深度，方便提取深层次的特征，同时还能与前面层的输入融合，有效避免深度学习中的梯度消失等问题。

如图2所示，密集连接结构的具体过程用公式描述为：

C_inew＝B(C_i)+C_i

B(C_i)＝R(R(C_i))

其中，C_i代表密集连接结构的某个输入特征图；R为如图3所示的残差结构，主要包括卷积、BN层和ReLU层；B由两个残差结构级联组成。输入的C_i经过两个级联残差结构后，再与输入C_i相加后输出，能有效加深网络深度，使算法定位更加准确。

S3：在行人检测中，卷积神经网络中的每个特征图的不同通道可以学到行人的不同部位的信息。而在普通的卷积结构中，特征图的不同通道的权重是一样的，因此，为了解决行人遮挡问题，需要对同一特征图不同通道赋予不同的权重，使被遮挡部位的权重较低，未被遮挡部位的权重较高，方便检测被遮挡的行人。为了实现这个目的，本发明在密集连接结构的输出端构建了基于多分支特征融合的自适应注意力机制，可以学习不同通道的权重，增大利于检测的特征通道的权重，减小重要性较弱的特征通道的权重，从而削弱遮挡对检测结果的影响，为遮挡目标提取利于检测的重要特征。同时该机制使用多分支结构，且不同分支使用不同空洞率的空洞卷积来提取不同感受野的特征，可以自适应的调整感受野，为目标提取环境信息，从而适应行人尺度变化，方便小尺度目标的检测。

如图4所示，自适应注意力机制的整个流程为：输入的特征图C_inew经过两个空洞率分别为i、j的空洞卷积D_i、D_j，得到特征图F₁和F₂，该过程用于提取不同感受野的特征，空洞率越大则特征的感受野越大。然后将不同感受野的特征图相加，达到融合不同感受野的特征图的目的。融合后的特征图F₃经过一个全局池化操作g提取不同通道的全局信息，再使用全连接层F_c学习不同通道的关系。最后，使用softmax函数将不同通道的关系转化为值分布在[0,1]之间的权重信息，为不同感受野的特征图分配相应的权重a、b。各自的权重对相应感受野的特征图的通道进行加权，然后将加权后的特征图再次相加融合，得到最后的特征图。整个过程用公式描述为：

F₁＝D_i(C_inew) F₂＝D_j(C_inew)

F₃＝F₁+F₂

F₄＝Fc(g(F₃))

a,b＝softmax(F₄)

Y_i＝a*F₁+b*F₂

上述自适应注意力机制中使用的空洞卷积的结构如图5所示。设空洞率为r，与普通卷积相比，如果使用相同大小的卷积核空洞卷积间隔(r-1)取值进行卷积操作，在不增加权重参数的前提下，可以为目标增加环境信息，增大目标的感受野，利于小目标的检测。该过程用公式描述为：

S4：由于尺度大的特征图经过的卷积层数较少，主要提取目标的浅层信息，缺乏深层次的特征，而尺度小的特征图经过的卷积层数多，能够提取富含语义信息的特征。为了结合不同的特征，提高检测效果，本发明在自适应注意力机制的输出端构建了基于特征融合的金字塔结构，通过上采样以及横向连接结构将不同大小的特征图融合，得到不同尺度的、富含语义信息的特征图，最后根据这些特征图对行人目标进行预测定位。

数据集及实验参数设置

在行人检测任务中，CityPersons数据集是一个通用的数据集，其中的图片收集自欧洲多个国家的多个城市。该数据集中的行人目标存在较严重的遮挡，并且行人尺度范围分布较广，小尺度行人较多。本发明使用该数据集的训练集(含2975张图片)训练，并在验证集(含500张图片)上测试。

本发明的输入图片最短边大小是800像素点，最长边像素点不超过1600像素点。在对行人目标进行预测定位时使用了5个先验框尺度，分别为{16²,32²,64²,128²,256²}，使用了5个先验框长宽比，分别为{0.33,0.5,1,2,3}。本发明只使用了随机图片翻转进行数据增强。在训练中，本发明的初始学习率为0.0005，训练10个迭代次数后，学习率降为0.00005，然后再训练5个迭代。在测试阶段，本发明使用非极大抑制算法去除冗余的候选框，保证一个目标上只存在1个检测框。

实验结果

本发明使用行人检测领域通用的评判指标MR^-2(average-log miss rate)评估本发明的有效性，评估算法时该值越小越好。本发明评估其在Heavy子集(行人高度至少有50个，遮挡范围是35％-80％)上的效果。

如表1所示，在CityPersons数据集上，本发明的检测结果与其他主流行人检测方法的结果相比，取得了较好的结果。

表1

本发明的MR^-2值是55.6％，比Faster RCNN的结果低9.2％，比FPN的结果低4.7％，由此证明本发明中自适应注意力机制的有效性。此外，本发明在行人数据集上的检测效果好于目前的主流行人检测方法RepLoss，由此证明本发明适用于行人检测，并能较好的解决行人检测中的难点。

本发明在CityPersons测试集上的检测效果如图6所示，可以看出，本发明能够检测出遮挡行人以及小尺度行人，验证了本发明的有效性。

Claims

1.一种基于多通道自适应注意力机制的行人检测方法，其特征在于，主要包括以下步骤：

S2：在得到的不同大小的特征图后构建密集连接结构，以加深检测层的深度，提取深层次的特征，具体过程用公式描述为：

特征图C_inew＝B(C_i)+C_i

B(C_i)＝R(R(C_i))

其中，C_i代表所述密集连接结构的输入特征图，R为残差结构，B由两个残差结构级联组成；

S3：在密集连接结构的输出端构建基于多分支特征融合的自适应注意力机制，通过学习不同通道的权重，为遮挡目标提取利于检测的重要特征，同时，通过使用不同空洞率的空洞卷积来提取不同感受野的特征，为目标提取环境信息：

自适应注意力机制的整个流程具体为：输入的特征图C_inew经过两个空洞率分别为i、j的空洞卷积D_i、D_j，得到特征图F₁和F₂，该过程用于提取不同感受野的特征，空洞率越大则特征的感受野越大；然后将不同感受野的特征图相加，达到融合不同感受野的特征图的目的；融合后的特征图F₃经过一个全局池化操作g提取不同通道的全局信息，再使用全连接层F_c学习不同通道的关系；最后，使用softmax函数将不同通道的关系转化为值分布在[0,1]之间的权重信息，为不同感受野的特征图分配相应的权重a、b；各自的权重对相应感受野的特征图的通道进行加权，然后将加权后的特征图再次相加融合，得到最后的特征图；整个过程用公式描述为：

F₁＝D_i(C_inew)F₂＝D_j(C_inew)

F₃＝F₁+F₂

F₄＝Fc(g(F₃))

a,b＝soft max(F₄)

Y_i＝a*F₁+b*F₂；

设空洞率为r，与普通卷积相比，如果使用相同大小的卷积核空洞卷积间隔(r-1)取值进行卷积操作，在不增加权重参数的前提下，可以为目标增加环境信息，增大目标的感受野，利于小目标的检测；该过程用公式描述为：

其中，x_j、y_j分别代表空洞卷积的输入和输出，r为空洞率，w_n是卷积的权重，N为卷积核的大小；

2.根据权利要求1所述的基于多通道自适应注意力机制的行人检测方法，其特征在于：所述残差结构包括卷积、BN层和ReLU层。

3.根据权利要求1所述的基于多通道自适应注意力机制的行人检测方法，其特征在于：步骤S1中所述的输入图片的最短边大小是800像素点，最长边像素点不超过1600像素点。

4.根据权利要求1所述的基于多通道自适应注意力机制的行人检测方法，其特征在于：步骤S4中对行人目标进行预测定位时使用了5个先验框尺度，分别为{16²,32²,64²,128²,256²}，使用了5个先验框长宽比，分别为{0.33,0.5,1,2,3}。