CN113076926B

CN113076926B - 一种带语义引导的多尺度目标检测方法及系统

Info

Publication number: CN113076926B
Application number: CN202110447853.XA
Authority: CN
Inventors: 许宏韬; 康文雄; 邓飞其
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2022-11-18
Anticipated expiration: 2041-04-25
Also published as: CN113076926A

Abstract

本发明提供的一种带语义引导的多尺度目标检测方法，包括：构建多尺度目标检测模型，多尺度检测模型包括主干网络、特征金字塔、检测头和语义引导分支；数据预处理；进行前向计算，得到多尺度目标检测模型的输出；将输出与真实目标进行损失函数的计算；使用反向传播算法计算所有可训练参数的梯度；使用梯度下降法更新模型的可训练参数，重复以上步骤，达到预设的次数结束训练，保存训练完成的模型；将待检测的图片输入训练好的模型，得到各分支的输出；对得到的各输出进行后处理，得到最终的检测结果。特征融合模块的检测头中设置两个特征选择模块，分别去学习当前层特征和下一层特征，从而减缓了不同尺度信息的梯度不一致性导致对训练时的干扰。

Description

一种带语义引导的多尺度目标检测方法及系统

技术领域

本发明属于目标检测领域，特别涉及一种带语义引导的多尺度目标检测方法及系统。

背景技术

深度学习、CNN(卷积神经网络)使得当前图像识别、目标检测领域得到快速发展。本发明涉及目标检测领域，人脸检测为目标检测领域的一个分支，可看作单类别的目标检测。所谓检测指的是输入一张图片，经过算法模型得到物体的目标框坐标，如图1所示。

多尺度检测是目标检测领域的重要研究点，意为检测输入图片中不同尺度(大小、比例等)的目标都需要被检测。为了提高多尺度检测的准确性，学界提出了一系列特征融合的算法去融合不同尺度的信息，如FPN、PANet、HrNet等等。其中FPN几乎成为多尺度目标检测算法的标配，结构如图3所示。一般认为，网络越深层的特征所包含的语义信息越多，因此这些做法希望将深层和浅层的特征融合达到强化特征的目的。卷积神经网络是一种多层堆叠的结构，这里的不同尺度特征指的是网络不同层的特征。

因为不同尺度大小的目标所需要的信息是不同的，所以多尺度检测一般会将不同尺度范围的目标分配到不同的特征层上检测，即类似SSD(Single Shot Detector)算法，如图2所示。可以看出图2和图3的区别在于图3对相邻层的特征进行了融合操作，图2直接在不同层上检测，图3则是在相邻层特征融合后的特征上检测。不同层特征融合的方式可以有多种，图3中的FPN进行了相加操作，还有其他如YOLOv3、DSSD中的按通道拼接(concatenate)操作。

计算机视觉中的注意力机制，常见的有通道注意力如SENet、空间注意力如ASFF或二者结合如CBMA。简单来说就是生成一个通道维度或者空间维度上的soft mask(软掩码)对特征进行加权，抑制不重要特征、强化重要特征，从而减少特征冗余。ASFF使用密集连接的注意力机制去选择不同尺度的特征融合，如图4所示，可以看出其是在FPN基础上加入多个ASFF模块来强化特征，可以解决不同尺度梯度不一致的问题。

但是以上方法仍存在以下问题：(1)FPN类的特征融合方法简单来说就是融合相邻两个尺度的特征信息，但融合时上一层使用的是上一个阶段融合后的特征，如图5，这同样存在不同尺度梯度不一致的问题，不利于网络的训练。(2)仅对不同尺度的特征进行相加或拼接操作，缺乏对特征学习的引导，最终可能会因为数据集尺度的不均衡导致特征学习的不均衡。

发明内容

本发明解决基于卷积神经网络的多尺度人脸检测模型特征融合问题，并可利用其副产品来优化推断结果。多尺度特征融合可以强化网络对特征的学习，提高准确率，当前主流的特征融合方法为FPN(特征金字塔)，但此类方法在训练时缺乏对特征学习的引导，本发明在模型中添加语义监督信息来指导网络深层特征与浅层特征的融合。

为了实现本发明目的，本发明提供的一种带语义引导的多尺度目标检测方法，包括以下步骤：

步骤S1:构建多尺度目标检测模型，所述多尺度检测模型包括主干网络、特征金字塔、检测头和语义引导分支，其中，主干网络用来提取图像的基本特征，包括至少两个阶段，设主干网络的阶段数为k，每个阶段用于输出不同尺度的特征图；特征金字塔包括至少一个特征融合模块，特征融合模块的数量为k-1，且检测头模块中检测头数量与特征融合模块相同，特征融合模块依次相连，特征融合模块用于对主干网络中相邻两个阶段的输出进行融合后得到两个输出，其中一个输出作为与之对应设置的检测头的输入，另一个输出作为下一个特征融合模块或者语义引导分支的输出；每个检测头均包括分支分支和目标框回归分支；

步骤S2:对数据进行预处理，得到预处理后的数据；

步骤S3:将一个批的预处理后的数据送入多尺度目标检测模型进行前向计算，得到多尺度目标检测模型的输出，所述输出包括检测头和语义引导分支的输出；

步骤S4:将输出与真实目标进行损失函数的计算；

步骤S5:使用反向传播算法计算所有可训练参数的梯度；

步骤S6:使用梯度下降法更新模型的可训练参数，重复步骤2-步骤6，当训练迭代次数达到预设的次数结束训练，保存训练完成的模型；

步骤S7:将待检测的图片输入训练好的模型，得到输出，包括分类分支输出S_cls、目标框回归分支输出和语义引导分支输出S_sementic；

步骤S8:对步骤S7中得到的各输出进行后处理，得到最终的检测结果。

进一步地，主干网络中设置了6个阶段。

进一步地，主干网络中每个阶段均包括卷积层、BN层和ReLU激活函数。

进一步地，每个特征融合模块均包括上采样操作、拼接操作和两个特征选择模块，上采样操作用于使输入的两个特征大小相同，拼接操作用于将两个特征沿通道维度进行拼接，两个特征选择模块根据拼接后的特征分别得到当前层特征和下一层所需特征。

进一步地，每个特征选择模块均包括两个分支，其中一个分支不做操作，另一分支进行卷积操作，两个分支相乘得到输出特征。

进一步地，每个检测头均包括目标框回归分支和分类分支，目标框回归分支用于回归每个位置的目标框相对于样本点的偏移值，分类分支用于对每个样本进行分类。

进一步地，步骤S2中所述对数据进行预处理，包括：对数据进行归一化后减去均值并除以方差，得到预处理后的数据。

进一步地，步骤S4中的所述损失函数的计算公式如下：

L＝λ₁L_cls+λ₂L_reg+λ₃L_semantic

其中，

式中，N表示计算损失时使用的样本数量，i表示第i个样本，p_ti表示p_i的两种情况，p_i表示对应的某个样本的神经元经过sigmoid函数的激活值，N_pos表示正样本数量，IoU_i表示用于计算的正样本与真实目标框的交并比，λ₁、λ₂、λ₃分别代表三个损失的权重系数。

进一步地，骤S8中所述进行后处理，得到最终的检测结果，包括：

步骤8.1：将分类分支输出S_cls与语义引导分支输出S_sementic相乘得S_out；

步骤8.2：取S_out大于设定的分类得分阈值T的样本作为输出正样本，并从目标框回归分支的输出中筛选得到该正样本相应的正样本输出框B；

步骤8.3：将正样本输出框B与S_out作为NMS非极大值抑制的输入，经过NMS后得到最终输出的目标框。

本发明还提供一种带语义引导的多尺度目标检测系统用于实现前述的方法，所述系统包括：

模型建立模块，用于构建多尺度目标检测模型，所述多尺度检测模型包括主干网络、特征金字塔、检测头和语义引导分支；

数据预处理模块，用于对数据进行预处理，得到预处理后的数据；

前向计算模块，用于将一个批的预处理后的数据送入多尺度目标检测模型进行前向计算，得到多尺度目标检测模型的输出，所述输出包括检测头和语义引导分支的输出；

损失计算模块，用于将输出与真实目标进行损失函数的计算；

参数梯度计算模块，用于使用反向传播算法计算所有可训练参数的梯度；

参数更新模块，用于使用梯度下降法更新模型的可训练参数；

检测模块，用于将待检测的图片输入训练好的模型，得到输出，包括分类分支输出S_cls、目标框回归分支输出和语义引导分支输出S_sementic；

结果输出模块，用于对检测模块得到的各输出进行后处理，得到最终的检测结果。

与现有技术相比，本发明至少具有以下有益效果：

1、通过设置语义引导分支，引入监督信息指导特征融合，优化模型特征的学习效率；且该分支预测得到的语义掩码可以用于优化检测结果。本发明在网络末端添加一个语义引导分支，此分支的损失收敛的同时引导了深层信息向浅层流动。

2、通过设置双分支结构，可以缓解多尺度检测所带来的梯度不一致性问题。即同一特征接受了当前层和下一层的信息，但某一采样点在当前层是正样本，在另一层可能是负样本，这种不一致性会干扰网络的学习。本发明通过双分支结构分别学习这两个特征来缓解这一问题。本发明提出双分支的结构，特征融合模块的检测头中设置两个特征选择模块，分别去学习当前层特征(送往检测头)和下一层特征(送往下一层去融合)，从而减缓了不同尺度信息的梯度不一致性导致对训练时的干扰。

3、本发明的主干网络参数量较小，速度较快。

附图说明

图1是现有技术中的目标检测示意图。

图2是现有技术在不同特征层进行多尺度检测示意图。

图3是现有技术中FPN示意图。

图4是现有技术中ASFF算法示意图。

图5是现有技术中FPN类的特征融合示意图。

图6是本发明提供的一种带语义引导的多尺度目标检测方法中检测头的结构示意图。

图7是本发明的网络设计结构图。

图8是本发明测试时工作流程示意图。

图9是本发明训练时工作流程示意图。

图10是本发明检测头具体结构示意图。

图11是本发明网络模型整体结构示意图。

图12是本发明模型结构各部分抽象构示意图。

图13是本发明ResBlock(残差块)具体结构示意图。

图14是本发明的语义引导分支结构示意图。

图15是本发明的特征选择模块结构示意图。

图16是本发明实施例中提供的系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都是本发明保护的范围。

本发明提供的一种带语义引导的多尺度目标检测方法，包括以下步骤：

步骤1：构建多尺度目标检测模型，多尺度检测模型包括主干网络、特征金字塔、检测头模块和语义引导分支。主干网络用来提取图像的基本特征，包括至少两个阶段，设主干网络的阶段数为k，每个阶段用于输出不同尺度的特征图；特征金字塔包括至少一个特征融合模块，特征融合模块的数量为k-1，且检测头模块中检测头数量与特征融合模块相同，特征融合模块依次相连，特征融合模块用于对主干网络中相邻两个阶段的输出进行融合后得到两个输出，其中一个输出作为与之对应设置的检测头的输入，另一个输出作为下一个特征融合模块或者语义引导分支的输出；每个检测头均包括分支分支和目标框回归分支。

在本发明其中一个实施例中，请参阅图11和表1，主干网络设置有6个阶段，即阶段1～阶段6，下一阶段的输入是上一阶段的输出，每个阶段有不同的下采样倍数，以不断减小特征图尺寸，阶段1～阶段6用来得到不同尺度的特征图。可以理解的是，在其他实施例中可以根据需要将主干网络的阶段设置为其他数量。

表1主干网络的结构

主干网络用来提取图像的基本特征，用来给检测头进行进一步分类与目标框回归。请参阅表1，主干网络的每个阶段均包括卷积层、BN层和ReLU激活函数，卷积、BN、ReLU通常作为一个模块一起使用，即

且阶段1-阶段5均还包括残差块(ResBlock)。阶段r的输出特征的下采样倍数为2ⁱ⁺¹2^r+1。。每个阶段的卷积输出通道数为(64，128，128，256，256，256)。其中BN表示批归一化(batch normalization)操作，ReLU表示线性整流函数，conv2d表示二维卷积，其后的k和s表示卷积的参数，k3表示卷积核尺寸为3*3，s2表示卷积步幅为2，s1表示卷积步幅为1。

残差块中的残差结构可以减缓网络的梯度消失和网络退化问题。残差块具体结构如图13所示，残差块有两个并行分支相加，其中直接相连的分支称为恒等分支，另一分支称为残差分支，残差分支包括多个3*3卷积、批归一化层(BN)、线性整流函数(ReLU)，两个分支相加后再经过一个线性整流函数(ReLU)得到输出。

主干网络的输入为一张图片，图片的形状为(3，h，w)，3表示RGB三个通道，h表示图片的高、w表示图片的宽。主干网络的输出为阶段1～阶段6的输出特征图。

特征金字塔用于特征融合，在本发明其中一个实施例中，特征金字塔包括5个依次相连的特征融合模块。特征金字塔的输入为主干网络的5个输出，特征金字塔的输出为特征融合模块1～特征融合模块5的输出特征。每个特征融合模块如图6所示，包含了上采样操作、拼接(concatenate)操作和特征选择模块。由于主干网络相邻两个阶段的特征下采样倍数不同，阶段r+1的特征比阶段r的尺寸小一倍，因此先对阶段r+1的特征进行2倍上采样使得尺寸与阶段r的特征大小相同，再将两个特征沿通道维度进行拼接，最后通过两个特征选择模块分别得到当前层特征和下一层所需特征，其中当前层特征输入与之对应设置的检测头，下一层所需特征作为本阶段的输出，并和下一段的输出一起输入下一特征融合模块。

在本发明其中一个实施例中，特征选择模块具体结构如图15所示，每个特征选择模块均包含两个分支，一个分支不对输入做任何操作，另一个分支对输入进行1*1卷积，两个分支相乘得到输出特征，即采用空间注意力机制，使用卷积生成一个软掩码用于对特征在空间维度上进行加权。其中，1*1卷积用来改变通道数，在其他实施例中，可以是其他尺寸的卷积，如3*3、5*5，但1*1计算量最小。

本发明选用通道维度拼接相邻的特征，再由两个特征选择模块产生当前层和下一层所需的特征。当前层所需特征送往检测头，下一层所需特征送往下一个特征融合模块或语义引导分支，如图11所示，特征融合模块1～5的当前层特征与检测头1～5相连，特征融合融合模块1的下一层特征送往语义引导分支。

检测头n的输入为特征融合模块n的输出，检测头的输出为分类分支和目标框回归分支的输出。

在本发明其中一个实施例中，检测头有5个，如图11所示，分别与五个特征融合模块相连。每个检测头的结构相同，如图10所示，检测头首先对输入进行3*3卷积，然后分成两个分支，一个分支为目标框回归分支，另一个为分类分支。目标框回归分支用于回归每个位置的目标框相对于样本点的4个偏移值其中，4个偏移值表示样本点相对于真实目标框上下左右边的偏移量，分类分支用于对每个样本进行分类。图示中括号表示按顺序为输出通道、特征图的高、特征图的宽。分类分支输出通道为c，表示有多少个类别。

语义引导分支的输入为特征融合模块1的输出。

在本发明其中一个实施例中，语义引导分支结构如图14所示，包括3x3卷积和1x1卷积操作，输出通道为c，表示类别数量，即为每一个类别预测一个掩码。

语义引导分支引入语义监督信息，此分支输出所有人脸的语义掩码，此分支训练收敛需要多种尺度的信息，通过反向传播算法，引导了网络深层信息向浅层流动。语义引导分支的标签为一个软掩码，软掩码为以真实人脸为中心生成高斯分布，软掩码每个位置(x，y)的值的计算公式为：

target(x，y)表示坐标(x，y)处的值，x、y表示横、纵坐标，

为第z个人脸的中心横纵坐标，σ^z取0.01倍的第z个人脸框最大边长。N表示一张图片中的总共有N个真实人脸框。

步骤2：对数据进行预处理。

在本发明其中一个实施例中，对输入进行预处理操作，即归一化后减去均值并除以方差，均值和方差由数据集统计得到，预处理的公式如下：

式中，X_i表示原始输入，X_j表示预处理后的输入，mean为整个数据集的均值，var为整个数据集的标准差，输入图像X_i形状为(3，h，w)。将预处理后的数据按照设定好的批大小(batch size)组成一个批(batch)的数据，形状为(b，3，h，w)，b为自定义的大小(此处可取32)；

步骤3：将一个批的数据送入多尺度目标检测模型进行前向计算，得到网络模型的输出，其中，输出包括检测头和语义引导分支的输出；

步骤4：将输出与真实目标进行损失函数的计算。

在本发明其中一个实施例中，损失函数L由三部分构成：分类损失L_cls、目标框回归损失L_reg和语义引导损失L_semantic；

L＝λ₁L_cls+λ₂L_reg+λ₃L_semantic

其中，

式中，N表示计算损失时使用的样本数量，i表示第i个样本，p_ti表示p_i的两种情况(positive表示正样本时，negative表示负样本时)，γ表示次方数(一个自定义数字，在本发明其中一个实施例中γ取值2)，p_i表示对应的某个样本的神经元经过sigmoid函数的激活值，N_pos表示正样本数量，IoU_i表示用于计算的正样本与真实目标框的交并比(IoU)，λ₁、λ₂、λ₃分别代表三个损失的权重系数，在本发明其中一个实施例中，λ₁、λ₂、λ₃均取值1.0。

步骤5：使用反向传播算法计算所有可训练参数的梯度；

步骤6：使用梯度下降法更新模型的可训练参数，重复步骤2-步骤6，当训练迭代次数达到预设的次数结束训练，保存训练完成的模型；

步骤7：将待检测的图片输入步骤6中得到的多尺度目标检测模型中，得到分类分支的输出S_cls、目标框回归分支的输出和语义引导分支的输出S_sementic；

步骤8：对步骤7中得到各输出进行后处理，得到最终的检测结果。

在本发明其中一个实施例中，所述后处理包括加权和非极大值抑制NMS处理，具体包括：

步骤8.3：将正样本输出框B与S_out作为NMS(非极大值抑制)的输入，经过NMS后得到最终输出的目标框。

S_out＝S_cls*S_sementic

式中，S_out代表最终输出的分类得分，S_cls表示检测头分类分支输出，S_sementic表示语义引导分支放缩后的输出。

其中，加权操作对5个检测头的分类分支都进行，因为语义引导分支的输出尺寸与五个检测头的输出尺寸有差异，因此会先对语义引导分支的输出进行放缩，放缩到与每个检测头分类分支的尺寸相同再相乘。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种带语义引导的多尺度目标检测方法，其特征在于，包括以下步骤：

步骤S1:构建多尺度目标检测模型，所述多尺度检测模型包括主干网络、特征金字塔、检测头和语义引导分支，其中，主干网络用来提取图像的特征，包括至少两个阶段，设主干网络的阶段数为k，每个阶段用于输出不同尺度的特征图；特征金字塔包括至少一个特征融合模块，特征融合模块的数量为k-1，且检测头模块中检测头数量与特征融合模块相同，特征融合模块依次相连，特征融合模块用于对主干网络中相邻两个阶段的输出进行融合后得到两个输出，其中一个输出作为与之对应设置的检测头的输入，另一个输出作为下一个特征融合模块或者语义引导分支的输入，其中，只有最后一个特征融合模块的另一输出作为语义引导分支的输入；每个检测头均包括分类分支和目标框回归分支；

步骤S2:对数据进行预处理，得到预处理后的数据；

步骤S4:将输出与真实目标进行损失函数的计算；

步骤S5:使用反向传播算法计算所有可训练参数的梯度；

2.根据权利要求1所述的一种带语义引导的多尺度目标检测方法，其特征在于，主干网络中设置了6个阶段。

3.根据权利要求1所述的一种带语义引导的多尺度目标检测方法，其特征在于，主干网络中每个阶段均包括卷积层、BN层和ReLU激活函数。

4.根据权利要求1所述的一种带语义引导的多尺度目标检测方法，其特征在于，每个特征融合模块均包括上采样操作、拼接操作和两个特征选择模块，上采样操作用于使输入的两个特征大小相同，拼接操作用于将两个特征沿通道维度进行拼接，两个特征选择模块根据拼接后的特征分别得到当前层特征和下一层所需特征。

5.根据权利要求4所述的一种带语义引导的多尺度目标检测方法，其特征在于，每个特征选择模块均包括两个分支，其中一个分支不做操作，另一分支进行卷积操作，两个分支相乘得到输出特征。

6.根据权利要求1所述的一种带语义引导的多尺度目标检测方法，其特征在于，每个检测头均包括目标框回归分支和分类分支，目标框回归分支用于回归每个位置的目标框相对于样本点的偏移值，分类分支用于对每个样本进行分类。

7.根据权利要求1所述的一种带语义引导的多尺度目标检测方法，其特征在于，步骤S2中所述对数据进行预处理，包括：对数据进行归一化后减去均值并除以方差，得到预处理后的数据。

8.根据权利要求1所述的一种带语义引导的多尺度目标检测方法，其特征在于，步骤S4中的所述损失函数的计算公式如下：

L＝λ₁L_cls+λ₂L_reg+λ₃L_semantic

其中，

9.根据权利要求1-8任一所述的一种带语义引导的多尺度目标检测方法，其特征在于，步骤S8中所述进行后处理，得到最终的检测结果，包括：

10.一种带语义引导的多尺度目标检测系统，其特征在于，用于实现权利要求1-9任一所述的方法，所述系统包括：