CN110008949B

CN110008949B - 一种图像目标检测方法、系统、装置和存储介质

Info

Publication number: CN110008949B
Application number: CN201910068062.9A
Authority: CN
Inventors: 高英; 谢杰; 罗雄文
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2020-03-17
Anticipated expiration: 2039-01-24
Also published as: CN110008949A

Abstract

本发明公开了一种图像目标检测方法、系统、装置和存储介质。所述方法使用Faster‑RCNN算法对待处理图像依次进行提取特征图等处理步骤，所述方法还包括对特征图分别进行多次膨胀卷积处理，接收各次所述膨胀卷积处理输出的多个并行特征信息，将多个并行特征信息融合得到第一融合特征信息和将所述第一融合特征信息与特征图融合得到第二融合特征信息等步骤。本发明可以在现有Faster‑RCNN算法能够提取到较丰富的图像细节特征的技术优势基础上，克服特征图的分辨率过低、待处理图像中的细节信息过多地丢失造成的Faster‑RCNN的总体识别精度较低的缺点，获得较高的目标检测准确率。本发明广泛应用于图像处理技术领域。

Description

一种图像目标检测方法、系统、装置和存储介质

技术领域

本发明涉及图像处理技术领域，尤其是一种图像目标检测方法、系统、装置和存储介质。

背景技术

在图像识别领域，经常要进行目标检测，将图像中包含的目标检测出来。例如对于一幅包含有汽车的图像，将汽车设定为目标之后，需要将图像中的目标检测出来，将图像分为汽车区域和背景区域。Faster-RCNN是一种用来进行目标检测的常用算法，它的主要步骤包括对待处理图像依次进行提取特征图、提取感兴趣区域、感兴趣区域映射以及输入到全连接层进行处理，输出图像分类结果和图像边框回归结果，实现对图像的目标检测。Faster-RCNN的一个重要部分是特征提取网络，它可以从待处理图像中提取出特征图，然后进行后续的分析。特征提取网络一般使用卷积神经网络来实现，在卷积过程中，图像的精度被降低，得到的特征图的分辨率相应降低。为了得到更多的特征，卷积神经网络被设计为具有较高的深度，这使得特征图的分辨率过低，待处理图像中的细节信息过多地丢失，造成Faster-RCNN的总体识别精度较低。

发明内容

为了解决上述技术问题，本发明的目在于提供一种图像目标检测方法、系统、装置和存储介质。

一方面，本发明实施例包括一种图像目标检测方法，所述方法使用Faster-RCNN算法对待处理图像依次进行提取特征图、提取感兴趣区域、感兴趣区域映射以及输入到全连接层的处理步骤，所述方法还包括以下用于对所述特征图进行优化的步骤：

对所述特征图分别进行多次膨胀卷积处理；

接收各次所述膨胀卷积处理输出的多个并行特征信息；

将多个所述并行特征信息融合得到第一融合特征信息；

将所述第一融合特征信息与特征图融合得到第二融合特征信息；所述第二融合特征信息用于所述Faster-RCNN算法中提取感兴趣区域和感兴趣区域映射的处理步骤。

进一步地，所述多次膨胀卷积处理包括第一3×3膨胀卷积、第二3×3膨胀卷积和第三3×3膨胀卷积；

所述第一3×3膨胀卷积用于从所述特征图中采集像素点值，并将采集到的像素点值分别与第一卷积核点乘后求和，将求和的结果作为第一并行特征信息输出；

所述第二3×3膨胀卷积用于从所述特征图中采集像素点值，并将采集到的像素点值分别与第二卷积核点乘后求和，将求和的结果作为第二并行特征信息输出；

所述第三3×3膨胀卷积用于从所述特征图中采集像素点值，并将采集到的像素点值分别与第三卷积核点乘后求和，将求和的结果作为第三并行特征信息输出。

进一步地，所述第一3×3膨胀卷积的膨胀系数为2，所述第二3×3膨胀卷积的膨胀系数为4，所述第三3×3膨胀卷积的膨胀系数为8。

进一步地，所述将多个所述并行特征信息融合得到第一融合特征信息这一步骤，具体包括：

将多个所述并行特征信息各自的通道维度进行拼接，所述拼接的结果为第一融合特征信息。

进一步地，所述将所述第一融合特征信息与特征图融合得到第二融合特征信息这一步骤，具体包括：

将所述第一融合特征信息的通道维度与所述特征图的通道维度进行拼接，所述拼接的结果为第二融合特征信息。

进一步地，所述用于对所述特征图进行优化的步骤还包括：

对所述第二融合特征信息在通道维度进行降维。

进一步地，所述对所述第二融合特征信息在通道维度进行降维这一步骤，是通过1×1卷积进行的。

另一方面，本发明实施例还包括一种图像目标检测装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行本发明图像目标检测方法。

另一方面，本发明实施例还包括一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行本发明图像目标检测方法。

本发明的有益效果是：通过对特征图进行膨胀卷积处理，所得的并行特征信息中包含特征图的上下文特征信息；通过多次不同的膨胀卷积处理以及融合处理，所得到的第一融合特征信息中包含多组不同的上下文特征信息。根据第一融合特征信息和特征图融合得到的第二融合特征信息用于后续的处理，可以在现有Faster-RCNN算法能够提取到较丰富的图像细节特征的技术优势基础上，克服特征图的分辨率过低、待处理图像中的细节信息过多地丢失造成的Faster-RCNN的总体识别精度较低的缺点，获得较高的目标检测准确率。

附图说明

图1为现有的Faster-RCNN算法的原理图；

图2为本发明方法实施例的原理图。

具体实施方式

本实施例中的图像目标检测方法是在现有的Faster-RCNN算法基础上实现的。Faster-RCNN算法的原理如图1所示。

现有的Faster-RCNN算法主要包括提取特征图、提取感兴趣区域、感兴趣区域映射以及输入到全连接层进行处理等步骤。

Faster-RCNN算法中，提取特征图这一步骤是通过特征提取网络来实现的。图1中的特征提取网络是卷积神经网络，它可以接收待处理图像并进行特征提取，输出特征图。

Faster-RCNN算法中，提取感兴趣区域这一步骤是通过感兴趣区域提取网络来实现的。图1中的感兴趣区域提取网络(Region Proposal Network，RPN)可以对特征图进行分析，提取并生成图像中所有可能存在目标个体的区域。本实施例中，感兴趣区域提取网络可以输出2000个感兴趣区域，然后从中筛选出300个最优的感兴趣区域。

Faster-RCNN算法中，感兴趣区域映射这一步骤是通过感兴趣区域池化层来实现的。图1中的感兴趣区域池化层可以将多个感兴趣区域映射到特征图上，然后对映射后的特征图进行尺寸统一化处理。本实施例中，将特征图的尺寸统一化为7×7。

图1中的全连接层利用探测分类概率和探测边框回归的方法实现分类概率和边框回归，输出图像分类结果和图像边框回归结果，实现对图像中的目标检测。其中，探测分类概率使用了Softmax Loss损失函数，探测边框回归中使用了Smooth L1 Loss损失函数。

现有的Faster-RCNN算法未对特征图进行优化处理，直接对特征图进行感兴趣区域提取以及感兴趣区域映射，没有利用特征图中的上下文信息，因此最终的目标检测精度较低。

本实施例中的图像目标检测方法对特征图进行了优化处理，所述优化处理包括以下步骤：

S1.对所述特征图分别进行多次膨胀卷积处理；

S2.接收各次所述膨胀卷积处理输出的多个并行特征信息；

S3.将多个所述并行特征信息融合得到第一融合特征信息；

S4.将所述第一融合特征信息与特征图融合得到第二融合特征信息；所述第二融合特征信息用于所述Faster-RCNN算法中提取感兴趣区域和感兴趣区域映射的处理步骤。

本实施例中，所述优化处理是在Faster-RCNN算法的基础上进行的，所述优化处理的原理参照图2中虚线框内的部分。步骤S1中，每次膨胀卷积处理是独立进行的，每次膨胀处理都将得到一个对应的并行特征信息。步骤S3中，将多个并行特征信息融合在一起，得到第一融合特征信息。步骤S4中，将特征图与步骤S3得到的第一融合特征信息融合在一起，得到第二融合特征信息。所述第二融合特征信息作为对现有的Faster-RCNN算法过程中所得的特征图的优化结果，用于代替特征图进行Faster-RCNN算法中后续的提取感兴趣区域和感兴趣区域映射等处理步骤。

对特征图进行膨胀卷积处理，所得的并行特征信息中包含特征图的上下文特征信息。通过多次不同的膨胀卷积处理以及融合处理，所得到的第一融合特征信息中包含多组不同的上下文特征信息。根据第一融合特征信息和特征图融合得到的第二融合特征信息用于后续的处理，可以在现有Faster-RCNN算法能够提取到较丰富的图像细节特征的技术优势基础上，克服特征图的分辨率过低、待处理图像中的细节信息过多地丢失造成的Faster-RCNN的总体识别精度较低的缺点，获得较高的目标检测准确率。

进一步作为优选的实施方式，本实施例中所述的多次膨胀卷积处理，具体包括第一3×3膨胀卷积、第二3×3膨胀卷积和第三3×3膨胀卷积；

本实施例中，第一3×3膨胀卷积为dilated-2算法，第二3×3膨胀卷积为dilated-4算法，第三3×3膨胀卷积为dilated-8算法。即第一3×3膨胀卷积的膨胀系数为2，所述第二3×3膨胀卷积的膨胀系数为4，所述第三3×3膨胀卷积的膨胀系数为8。

第一3×3膨胀卷积的原理为：对于特征图中的各像素点，每隔1个像素点采样一次，并将采样结果与3×3卷积核进行点乘，将多个点乘的结果之和作为中心像素的特征值，所述中心像素点的特征值作为第一并行特征信息输出。所述第一3×3膨胀卷积输出的第一并行特征信息包含了中心像素点周围2个像素点的上下文信息。

第二3×3膨胀卷积的原理为：对于特征图中的各像素点，每隔3个像素点采样一次，并将采样结果与3×3卷积核进行点乘，将多个点乘的结果之和作为中心像素的特征值，所述中心像素点的特征值作为第二并行特征信息输出。所述第二3×3膨胀卷积输出的第二并行特征信息包含了中心像素点周围4个像素点的上下文信息。

第三3×3膨胀卷积的原理为：对于特征图中的各像素点，每隔7个像素点采样一次，并将采样结果与3×3卷积核进行点乘，将多个点乘的结果之和作为中心像素的特征值，所述中心像素点的特征值作为第三并行特征信息输出。所述第三3×3膨胀卷积输出的第三并行特征信息包含了中心像素点周围8个像素点的上下文信息。

进一步作为优选的实施方式，所述步骤S3，即将多个所述并行特征信息融合得到第一融合特征信息这一步骤，具体包括：

将多个所述并行特征信息各自的通道(Channel)维度进行拼接(Concat)，所述拼接的结果为第一融合特征信息。

本实施例中，将第一并行特征信息、第二并行特征信息和第三并行特征信息各自的通道维度进行拼接，所述拼接的结果为第一融合特征信息。

进一步作为优选的实施方式，所述步骤S4，即将所述第一融合特征信息与特征图融合得到第二融合特征信息这一步骤，具体包括：

将所述第一融合特征信息的通道(Channel)维度与所述特征图的通道维度进行拼接(Concat)，所述拼接的结果为第二融合特征信息。

进一步作为优选的实施方式，所述用于对所述特征图进行优化的步骤还包括：

S5.对所述第二融合特征信息在通道维度进行降维。

本实施例中，步骤S5是通过1×1卷积进行的，也就是对第二融合特征信息通过1×1卷积在通道(Channel)维度进行降维。通过步骤S5的降维，可以降低网络宽度，降低对计算机资源的占用。

本实施例还包括一种图像目标检测系统，所述系统包括用于对待处理图像依次进行提取特征图、提取感兴趣区域、感兴趣区域映射以及输入到全连接层进行处理的Faster-RCNN模块，所述系统还包括：

膨胀卷积模块，用于对所述特征图分别进行多次膨胀卷积处理；

并行特征信息模块，用于接收各次所述膨胀卷积处理输出的多个并行特征信息；

第一融合特征信息模块，用于将多个所述并行特征信息融合得到第一融合特征信息；

第二融合特征信息模块，用于将所述第一融合特征信息与特征图融合得到第二融合特征信息；

输入模块，用于将所述第二融合特征信息输入到所述Faster-RCNN模块中，从而使Faster-RCNN模块进行提取感兴趣区域和感兴趣区域映射的处理。

本实施例还包括一种图像目标检测装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行本发明图像目标检测方法。

本实施例还包括一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行本发明图像目标检测方法。

本实施例中的图像目标检测系统、装置和存储介质，可以执行本发明的图像目标检测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

以上是对本发明的较佳实施进行了具体说明，但对本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种图像目标检测方法，所述方法使用Faster-RCNN算法对待处理图像依次进行提取特征图、提取感兴趣区域、感兴趣区域映射以及输入到全连接层的处理步骤，其特征在于，所述方法还包括以下用于对所述特征图进行优化的步骤：

对所述特征图分别进行多次膨胀卷积处理；

接收各次所述膨胀卷积处理输出的多个并行特征信息；

将多个所述并行特征信息融合得到第一融合特征信息；

将所述第一融合特征信息与特征图融合得到第二融合特征信息；所述第二融合特征信息用于所述Faster-RCNN算法中提取感兴趣区域和感兴趣区域映射的处理步骤；将所述第二融合特征信息降维，一方面将降维以后的融合特征信息通过感兴趣区域提取网络(Region Proposal Network，RPN)得到感兴趣区域(Rois)，再通过感兴趣区域池化层(RoiPooling)得到被映射感兴趣区域的特征图；另一方面将降维以后的融合特征信息直接通过感兴趣区域池化层(Roi Pooling)得到被映射感兴趣区域的特征图；

所述多次膨胀卷积处理包括第一3×3膨胀卷积、第二3×3膨胀卷积和第三3×3膨胀卷积；

所述第三3×3膨胀卷积用于从所述特征图中采集像素点值，并将采集到的像素点值分别与第三卷积核点乘后求和，将求和的结果作为第三并行特征信息输出；

所述将多个所述并行特征信息融合得到第一融合特征信息这一步骤，具体包括：

将多个所述并行特征信息各自的通道维度进行拼接，所述拼接的结果为第一融合特征信息；

所述将所述第一融合特征信息与特征图融合得到第二融合特征信息这一步骤，具体包括：

将所述第一融合特征信息的通道维度与所述特征图的通道维度进行拼接，所述拼接的结果为第二融合特征信息；

所述用于对所述特征图进行优化的步骤还包括：

对所述第二融合特征信息在通道维度进行降维；

所述对所述第二融合特征信息在通道维度进行降维这一步骤，是通过1×1卷积进行的。

2.根据权利要求1所述的一种图像目标检测方法，其特征在于，所述第一3×3膨胀卷积的膨胀系数为2，所述第二3×3膨胀卷积的膨胀系数为4，所述第三3×3膨胀卷积的膨胀系数为8。

3.一种图像目标检测系统，所述系统包括用于对待处理图像依次进行提取特征图、提取感兴趣区域、感兴趣区域映射以及输入到全连接层进行处理的Faster-RCNN模块，其特征在于，所述系统还包括：

输入模块，用于将所述第二融合特征信息输入到所述Faster-RCNN模块中，从而使Faster-RCNN模块进行提取感兴趣区域和感兴趣区域映射的处理；将所述第二融合特征信息降维，一方面将降维以后的融合特征信息通过感兴趣区域提取网络(Region ProposalNetwork，RPN)得到感兴趣区域(Rois)，再通过感兴趣区域池化层(Roi Pooling)得到被映射感兴趣区域的特征图；另一方面将降维以后的融合特征信息直接通过感兴趣区域池化层(Roi Pooling)得到被映射感兴趣区域的特征图；

所述用于对所述特征图进行优化的步骤还包括：

对所述第二融合特征信息在通道维度进行降维；

4.一种图像目标检测装置，其特征在于，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行权利要求1-2任一项所述方法。

5.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-2任一项所述方法。