CN111461211A

CN111461211A - 一种用于轻量级目标检测的特征提取方法及相应检测方法

Info

Publication number: CN111461211A
Application number: CN202010243255.6A
Authority: CN
Inventors: 唐乾坤; 李洁; 胡瑜
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28
Anticipated expiration: 2040-03-31
Also published as: CN111461211B

Abstract

本发明提供一种轻量级的目标检测方法与装置。本发明的轻量级的目标检测方法包括：步骤S1：对目标图片进行特征提取以获取至少包含图像底层信息的图像特征，并至少部分保留所述底层信息对图像特征进行降维和卷积操作；步骤S2：对处理后的图像特征进行高层语义信息提取；步骤S3：将网络中前后特征图大小不同的临近层进行自适应融合；步骤S4：对融合后的信息进行分类和回归，获得目标检测结果。本发明方法能够提取和保留更多的底层细节信息，有助于目标的正确地定位、提高检测精度。并且，本发明的检测方法相比于相应技术计算量更小、消耗的存储量更少，能够保存更多底层信息。

Description

一种用于轻量级目标检测的特征提取方法及相应检测方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种用于轻量级目标检测的特征提取方法及相应检测方法和装置。

背景技术

深度学习技术的发展促进了目标检测算法的进步。现有基于深度学习的目标检测算法通常采用复杂的网络结构和大尺寸的图片作为输入以获得更好的检测性能。但是现有的高检测精度的目标检测算法拥有大量的参数量和计算量，在运行时需要较多的存储和频繁的计算。因此这些复杂的目标检测算法不能在计算能力和存储有限的移动平台上运行。

为了能够在资源受限的移动平台上运行目标检测算法，现有一些技术直接将轻量级的分类网络替换现有检测网络的复杂的主干网络。但是这些轻量级的网络是为分类任务设计的，分类网络更多地需要高层语义信息，而缺乏检测网络所需的底层细节信息。另一方面，现有一些技术通过将复杂的检测算法中使用的标准卷积操作分解为分组卷积或者深度可分离卷积操作。直接将复杂检测算法中有效的设计应用到轻量级的目标检测算法也会带来大量的计算。

发明内容

有鉴于此，本发明的目的在于提供用于轻量级目标检测的特征提取方法及相应检测方法和装置。本发明方法通过保存更多的底层细节信息，同时保存和精调高层语义信息，达到特征中既包含高层信息，又包含底层信息的目的。利用本发明方法提取的特征，借助于轻量级检测头部能够在资源受限的移动平台上实时运行、并且对目标进行准确检测的目的。

根据本发明的一个方面，提供了一种用于轻量级目标检测的特征提取方法，其特征在于，包括以下步骤：

步骤S1：对目标图片进行特征提取，获取至少包含图像底层信息的底层图像特征，并至少部分保留所述底层信息对图像特征进行降维和卷积操作。

步骤S2：对处理后的图像特征进行高层语义信息提取获得多层高层语义信息；

步骤S3：在所提取的高层语义信息中选取若干其特征图大小彼此不同的临近层进行融合。

在一种优选实现方式中，所述步骤S1包括：

S11使用标准卷积对图像特征进行维度降低操作；

S12对降维操作后的图像特征使用多个带孔卷积分支提取图像不同感受野的特征，每个感受野与一个带孔卷积分支对应，每个分支的带孔卷积孔率逐渐增大；

S13将不同带孔卷积分支提取的特征在通道维度上拼接在一起。

在另一种优选实现方式中，所述步骤S12包括：

每个分支由多个带孔卷积层和/或恒等映射操作组成来提取和保存特征。

在另一种优选实现方式中，所述步骤S3包括以下步骤：

S31对低层特征进行特征保存操作；

S32将高层特征与经过特征保存操作后的低层特征在通道维度进行拼接；

S33将拼接后的特征使用通道交叉操作处理；

S34将通道交叉处理后的特征进行降维操作，并作为特征融合后的输出特征；

S35使用上采样操作增大降维后特征的尺寸，作为高层特征继续后续融合。

在另一种优选实现方式中，所述步骤S31包括以下步骤:

S311)对输入特征使用通道交叉操作处理；

S312)对处理后的特征在通道维度划分为两部分：第一部分保留，第二部分使用深度可分离卷积进一步处理；

S313)将第一部分特征与处理后的第二部分特征在通道维度进行拼接。

在另一种优选实现方式中，所述步骤S34包括以下步骤:

S341)将特征在通道维度划分为两部分：第一部分保留，第二部分使用深度可分离卷积进一步处理；

S342)将第一部分特征与处理后的第二部分特征进行按特征元素相加。

根据本发明另一方面，提供了一种轻量级的目标检测方法，其特征在于，所述方法包括：

步骤S4：以待检测的图像作为输入，采用所述的特征提取方法进行特征提取和融合，

步骤S5：将步骤S4获得的特征提取和融合数据输入到轻量级目标检测头部模型进行检测，其中所述轻量级目标检测头部模型是采用所述的特征提取方法对样本图像进行特征提取和融合，并输入到轻量级目标检测头部对其进行训练得到的。

在一种优选实现方式中，所述步骤S4包括以下步骤：

步骤S41)将融合后的特征输入轻量级目标预测头部；

步骤S42)对输入的特征使用分类器得到目标分类结果；

步骤S43)对输入的特征使用回归器得到目标边界框位置和尺寸。

在另一种优选实现方式中，所述步骤S41)包括：

步骤S411)对输入特征使用通道交叉操作处理；

步骤S412)处理后的特征在通道维度均匀划分为两部分，分别使用级联的卷积核大小为第一卷积核和第二卷积核的卷积操作处理；

步骤S413)将经处理后的特征在通道维度拼接在一起；

步骤S414)将拼接后的特征使用通道交叉操作处理。

根据本发明的另一方面，提供了一种轻量级的目标检测装置，其特征在于，包括：

底层特征提取模块，用于对目标图片进行特征提取以获取至少包含图像底层信息的图像特征，并至少部分保留所述底层信息对图像特征进行降维和卷积操作；

语义信息提取模块，用于对处理后的图像特征进行高层语义信息提取，获得多层特征图；

特征融合模块，将高层语义信息中特征图大小不同的临近层进行自适应融合；

检测头部模块，用于使用融合后的特征进行目标分类和回归，输出预测的目标类别和边界框。

根据本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至8中任一项所述的方法。

根据本发明的另一方面，提供了一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述的方法。

需要说明的是，本发明中所提到的“轻量级”指的是所需计算量和存储量少，(比如计算量少于预定值，例如，计算量少于1000MFLOPs(每秒百万浮点操作))，以至于可以在手机、平板电脑等移动终端运行的算法。

本发明中所提到的“细节保留”、“细节保留方法”是本发明提出的一个方法，这里的细节是指诸如物体轮廓、边缘等底层信息，能够保留这类底层信息的都可以是细节保留方法，最常用的就是级联多层卷积层，或者还可以采用传统的滑动窗口提取SIFT特征等。

本发明中所提到的“底层信息”指的是点、线、颜色、纹理、边缘等特征。

本发明与现有技术相比，具有如下的优点和有益效果：

1.本发明方法能够提取和保留更多的底层细节信息，有助于目标的正确地定位、提高检测精度。

2.本发明所采用的相邻层的特征融合方式简洁、轻量能够保存底层信息和精调高层语义信息。

3.本发明的检测方法相比于现有同类技术计算量更小(可以减少4-5倍计算量)、消耗的存储量更少，同时也能获得更好的检测精度。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1是本发明实施例中的轻量级目标检测方法的流程图。

图2是本发明实施例中的轻量级目标检测方法的网络结构示意图

图3是本发明实施例中提取和保存底层细节特征的流程图

图4是本发明实施例中提取和保存底层细节特征的网络结构示意图

图5是本发明实施例中特征融合的流程图

图6是本发明实施例中相邻层特征融合操作网络结构示意图

图7是本发明实施例中提取和保留下层特征的网络结构示意图

图8是本发明实施例中提取和精调上层特征的网络结构示意图

图9是本发明实施例中轻量级目标检测头部的网络结构示意图

图10是本发明实施例中轻量级目标检测装置的示意图

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

概括来讲，如图1所示，本实施例中的轻量级的特征提取方法包括三个步骤：

步骤S1：对目标图片进行特征提取以获取至少包含图像底层信息的图像特征，并至少部分保留所述底层信息(细节保留)对图像特征进行降维和卷积操作；

步骤S2：对处理后的图像特征进行高层语义信息提取获得多层特征图；

步骤S3：在所提取的高层语义信息中(卷积神经网络中的)选取若干特征图大小彼此不同的临近层进行自适应融合。

如图2所示为本发明的检测方法所利用的卷积神经网络的结构，其包括主干网络、特征融合模块以及轻量级预测头部三部分。主干网络由标准卷积层、细节保留模块(用于进行保留细节的语义信息提取)及高层语义信息提取层组成。高层语义信息提取层可以采用轻量级模块，如ShuffleV2模块。标准卷积层和细节保留模块用于执行步骤S1，高层语义信息提取层用于执行步骤S2。特征融合模块用于执行步骤S3，轻量级预测头部用于执行步骤S4。

下面，结合示例分别对各个步骤进行进一步详细描述。

步骤S1:对目标图片进行特征提取，获取至少包含图像底层信息的底层图像特征，并保留底层信息对图像特征进行降维和卷积操作。

这里的目标图片指的是外部输入图片，对其使用细节保留方法提取和保存更多的底层细节信息。

参见图2所示，对输入图片首先使用标准卷积操作(卷积计算，BatchNorm和非线性激活)提取输入图片最底层的特征，例如，卷积滤波器大小可以为3×3；然后使用后续步骤中的细节保留的特征提取方法提取和保存更多地底层信息。细节保留操作可以级联多个，以提取更多信息。本实施例中，细节保留的提取方法采用级联多层卷积方法。

作为一种优选的实施方式，步骤S1中的细节保留的特征提取方法包括以下步骤，参见图3所示：

步骤S11:使用标准卷积操作对输入特征(输入特征可以为对图片进行特征提取时所提取的底层特征，或者当级联几个细节保留操作时，上一个细节保留操作的输出特征)进行处理，以降低维度；

例如，使用卷积核大小为1×1的标准卷积操作将输入特征的通道维度降低；比如，对输入图片进行特征提取后得到256个通道的特征图，采用卷积核大小为1×1的标准卷积操作进行处理后，可以将通道数降低到128个。

S12：对降维后的特征使用多个带孔卷积分支提取不同感受野(卷积神经网络每一层输出的特征图上每个像素点在原始图像上映射的区域大小，这里的原始图像是指网络的输入图像，是经过预处理后的图像)的特征，每个感受野与一个带孔卷积分支对应，每个分支的带孔卷积孔率逐渐增大；即，对于每一次提取，采用多个带孔卷积分支对降维后的特征的每个感受野进行提取获得该分支特征；对于每一个带孔卷积分支，具有多层带孔卷积，后续带孔卷积的孔率大于等于前一带孔卷积的孔率。

例如，每个带孔卷积分支中包含多个带孔卷积和/或恒等映射级联，如图4所示为一种优选的实施方式的结构图，每个分支首先经过一个卷积核大小为3×3，孔率d等于第一孔率(比如，1或2)的卷积操作，其后再使用一个卷积滤波器大小为3×3，孔率d等于第二孔率(比如，2或3)的卷积操作，两个卷积操作的特征使用恒等映射按元素相加融合作为该分支的输出特征。(优选地，本实施例中的恒等映射将第二个卷积操作的输出作为残差值与前一个卷积操作输出值相加。)

该步骤可以表示为：

X₁＝W^r*X

X_i＝X_i1+X_i2

其中

表示长为H、宽为W、通道数为C的输入特征；

表示大小为1×1、输出通道数为C_o的卷积核；*表示卷积计算；

表示大小为3×3卷积核，孔率为d_i(d_i＝1或者2),i∈[0,k]表示分支序号；

表示大小为3×3的卷积核,孔率为d_i+1；+表示按元素相加。

S13：将不同带孔卷积分支提取后的特征在通道维度上拼接在一起

该步骤可以表示为：

其中||表示在通道维度上拼接；

S2:提取出的底层信息经过多个级联的轻量级卷积模块提取高层语义信息；

一种优选的实施方式中，对提取出的底层特征再使用多个轻量级的卷积模块进一步的抽象高层语义特征信息。所使用的轻量级的卷积模块包括但不限于诸如MobileNetv1/v2 block,ShuffleNet v1/v2 block等。

S3：在步骤S2中所提取的高层语义信息中选取若干特征图大小彼此不同的相邻层，对其特征进行融合。优选地，所选择的层至少包含一个或多个中间层。比如，第6-10层，对这些层内的任意两个相邻层进行融合，融合后的特征分别与轻量级检测头部连接进行分类和回归，如图6所示。多个融合特征的检测输出结果聚合，经非极大值抑制去重后作为最终检测结果。非极大值抑制去重属于现有技术这里不再详述。

本发明的实施例中，通过将相邻层的特征进行融合可以更好地保留底层特征信息和高层语义信息，以增强特征的表达能力。

如图5所示，作为一种优选的实施方式，具体的特征融合方式包括以下步骤：

S31：对低层特征(相对于高层而言)进行特征保存操作并降维，这样可以保留更多的低层特征信息。

特征保存操作的过程是，首先对输入特征使用通道交叉操作进行处理，将处理后的特征在通道维度上划分为两部分，一部分特征不施加任何处理，另一部分使用卷积滤波器进行卷积处理将两部分特征在通道维度上拼接在一起作为低层特征的输出。

在一种优选的实施方式中，特征保存操作如图7所示，首先对输入特征使用通道交叉操作进行处理，将处理后的特征在通道维度上划分为两部分，一部分特征不施加任何处理；另一部分使用第一卷积(比如卷积滤波器大小为1×1)进行卷积操作和第二卷积进行可分卷积操作(比如卷积滤波器大小为3×3)顺序进行处理；再将两部分特征在通道维度上拼接在一起(比如并排组合，两个特征h×w×c为3×3×3,拼接之后变为3×3×6)，作为输出。该操作输出通道数C₂小于输入通道数C_l，即图7中C₂<C_l。

该步骤可以表示为:

X_s1,X_s2＝P(X_s)

其中

表示长为H、宽为W、通道数为C_l的输入特征；c₁,c₂,

表示X特征图的每个特征通道；S表示通道交叉操作；

表示通道交叉操作处理后的输出特征；P表示通道划分操作，

为划分后的特征图；*表示卷积计算操作；

为大小为1×1的卷积核；

表示大小为3×3的卷积核；

表示该操作的输出特征。

S32：将低层特征经过特征保存操作后所获得的特征与高层特征在通道维度进行拼接，如图6所示；

S33：拼接后的特征使用通道交叉操作处理以使拼接后的特征在每个通道间交换信息，如图6所示；

S34：处理后的特征使用特征精调操作以以降低特征维度，并作为特征融合后的输出特征；

一种优选的实施方式中，特征精调操作如图8所示，首先对输入特征使用通道交叉操作进行处理；处理后的特征在通道维度上被均匀划分为两部分(在通道维度上均匀划分，比如原本为3×3×6,划分之后为两个3×3×3)，一部分保留；另一部分使用可分卷积操作处理，卷积滤波器大小比如可以为3×3；再将两部分特征相加，作为融合特征的输出。

该步骤可以表示为：

X_rs＝S(X_r)

X_rp1,X_rp2＝P₂(X_rs)

其中S表示通道交叉操作，

表示长为H_r宽为W_r通道数为2C₂的输入特征；

表示通道交叉操作后的输出特征；P₂表示按通道均匀划分操作，

表示划分后的特征；

表示大小为3×3的可分卷积核；

表示该操作的输出特征；

S35：使用上采样操作增大融合后的特征尺寸，作为高层特征继续后续融合。

采用本发明上述的特征提取方法进行特征提取后，所提取的特征中将既包含高层语义信息又包含大量底层信息，将所获得的特征代入常规的检测头部即可获得明显优于现有特征提取方法所获得的检测精度并降低所需的迭代计算量。

进一步地，本实施例中还提供了基于上述特征提取方法的轻量级目标检测方法，本实施例的轻量级目标检测方法除了上述步骤S1-S3之外，还包括步骤S4：将融合后的信息输入到轻量级目标预测头部进行目标检测，得到最终的检测结果。优选地，目标检测包括分类和回归。目标检测头部需要利用带标签的训练图像进行训练，这是本领域的常识，这里不再详述。

需要说明的是，这里的头部只是一个通用称呼用于指多个卷积层。在该头部后并列连接两个卷积层，一个用于分类，一个用于回归，这是本领域技术人员的常规设置，这里不再详述。

一种优选的实施方式中，轻量级目标预测头部可以如图9所示，首先对输入特征使用通道交叉操作进行处理；处理后的特征经过两个分支，其中一个分支由卷积滤波器大小为N×1和1×N(N≥2)，比如3×1和1×3的级联卷积层组成，另一分支由卷积滤波器大小为1×N和N×1，比如，1×3和3×1的级联卷积层组成；两个分支的输出特征在通道维度上拼接在一起；拼接后的特征再使用通道交叉操作处理，这里的通道交叉操作的处理过程与上面相同。

该步骤可以表示为：

X_ps＝S(X_p)

X_p1＝W₁₁*(W₁₂*X_ps)

X_p2＝W₂₁*(W₂₂*X_ps)

X_pc＝X_p1||X_p2

其中

表示长为H_p宽为W_p通道数为C_x的输入特征；S表示通道交叉操作；

3分别表示大小为3×1和1×3的卷积核；

分别表示大小为1×3和3×1的卷积核；

表示长为H_p宽为W_p通道数为C_x的输出特征。

处理后的特征连接分类层以输出目标的类别，并且连接回归层输出目标的边界框位置和尺寸，即检测出目标。这里的分类层和回归层采用常规用于目标检测的神经网络的分类层和回归层即可，这里不再详述，本发明的主要特点在于特征的处理过程。

整个网络可以事先采用带有标签的数据按照上述步骤操作以进行训练，然后再使用训练好的网络对目标进行检测。

实施例二

本发明实施例还提供一种轻量级的目标检测装置，如图10所示，该装置包含底层特征提取模块21、语义信息提取模块22、特征融合模块23以及检测头部模块24。

其中底层特征提取模块21，用于从输入图片中提取特征，其中至少保留部分底层细节特征信息，该模块由标准卷积模块和细节保留模块级联组成；语义信息提取模块22，用于从提取到的底层细节特征信息中进一步抽象成高层语义信息；特征融合模块23，用于将相邻层的特征融合，同时能够保留下层的细节信息与精调上层的语义信息；检测头部模块24，用于融合后的特征使用轻量级目标检测头部进行目标分类和回归，输出预测的目标类别和边界框。

本发明实施例所提供的目标候选区域生成装置中，各个模块的工作过程与轻量级目标检测方法中的四个步骤一一对应，分别实现相应的功能，因此，在此不再赘述。

测试

以同样大小(300×300)的图片作为输入，在PASCAL VOC2007上测试，SSD(Single-Shot multibox Detector)算法的计算量为31750MFLOPs,测试速度为46FPS，检测精度为77.2％mAP；本发明方法计算量为465MFLOPs,测试速度为250FPS，检测精度为:75.5％mAP。从测试对比可以看出，本发明方法的检测精度与现有方法具有可比性，但是计算量少于现有方法将近100倍，速度提升了6倍。

以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于轻量级目标检测的特征提取方法，其特征在于，包括以下步骤：

步骤S1：对目标图片进行特征提取以获取至少包含图像底层信息的图像特征，并至少部分保留所述底层信息对图像特征进行降维和卷积操作；

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括：

S11使用标准卷积对图像特征进行维度降低操作；

3.根据权利要求2所述的方法，其特征在于，所述步骤S12包括：

4.根据权利要求1所述的方法，其特征在于，所述步骤S3包括以下步骤：

S31对低层特征进行特征保存操作；

S33将拼接后的特征使用通道交叉操作处理；

S34将通道交叉处理后的特征进行降维，并作为特征融合后的输出特征；

S34)使用上采样操作增大降维后特征的尺寸，作为高层特征继续后续融合。

5.根据权利要求4所述的方法，其特征在于，所述步骤S31包括以下步骤:

S311)对输入特征使用通道交叉操作处理；

6.根据权利要求4所述的方法，其特征在于，所述步骤S34包括以下步骤:

S342)将第一部分特征与处理后的第二部分特征按特征的元素相加。

7.一种轻量级的目标检测方法，其特征在于，所述方法包括：

步骤S4：以待检测的图像作为输入，采用权利要求1中所述的特征提取方法进行特征提取和融合，

步骤S5：将步骤S4获得的特征提取和融合数据输入到轻量级目标检测头部模型进行检测，其中所述轻量级目标检测头部模型是采用权利要求1中所述的特征提取方法对样本图像进行特征提取和融合，

并输入到轻量级目标检测头部对其进行训练得到的。

8.根据权利要求7所述的方法，其特征在于，所述步骤S4包括以下步骤：

步骤S41)将融合后的特征输入轻量级目标预测头部；

步骤S42)对输入的特征使用分类器得到目标分类结果；

9.根据权利要求8所述的方法，其特征在于，所述步骤S41)包括：

步骤S411)对输入特征使用通道交叉操作处理；

步骤S413)将经处理后的特征在通道维度拼接在一起；

步骤S414)将拼接后的特征使用通道交叉操作处理。

10.一种轻量级的目标检测装置，其特征在于，包括：

底层特征提取模块，用于对目标图片进行特征提取以获取至少包含图像底层信息的图像特征，并利用细节保留方法保留底层信息对图像特征进行降维和卷积操作；

11.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至9中任一项所述的方法。

12.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至9中任一项所述的方法。