CN110263809A

CN110263809A - 池化特征图处理方法、目标检测方法、系统、装置和介质

Info

Publication number: CN110263809A
Application number: CN201910410693.4A
Authority: CN
Inventors: 高英; 谢杰; 罗雄文
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-09-20
Anticipated expiration: 2039-05-16
Also published as: CN110263809B

Abstract

本发明公开了一种池化特征图处理方法、图像目标检测方法、装置和介质，所述池化特征图处理方法包括对所述池化特征图分别进行两次卷积激活处理，对两次所述卷积激活处理的结果进行通道拼接处理，将所述通道拼接处理的结果中的每个通道对应位置的最大值进行输出，对所述输出的结果进行激活处理，将所述激活处理的结果与所述池化特征图进行逐元素相乘计算和将所述逐元素相乘计算的结果与所述池化特征图进行逐元素相加计算等步骤。本发明可以放大池化特征图中重要区域的像素值信息，从而弥补Faster RCNN算法在区域池化过程中产生的像素损失，提高Faster RCNN算法进行目标检测的精确度。本发明广泛应用于图像识别技术领域。

Description

池化特征图处理方法、目标检测方法、系统、装置和介质

技术领域

本发明涉及图像识别技术领域，尤其是一种池化特征图处理方法、目标检测方法、系统、装置和介质。

背景技术

在人脸识别、车牌监控等图像识别技术领域，广泛使用Faster RCNN算法来提取待处理图像中的目标对象。Faster RCNN算法如图1所示，通过使用ZF、VGG16或RES101等卷积神经网络构建成的特征提取网络T从待处理图像中提取出整体特征图P，然后将整体特征图P输入到PRN网络中，通过RPN网络处理后生成多个候选区域(如2000个)，然后通过NMS算法从中筛选出部分候选区域(如300个)，将筛选出的候选区域映射到整体特征图P中，得到候选区域特征图R，通过池化算法将候选区域特征图R池化得到固定大小的池化特征图S，池化特征图S输入到全连接层进行分类和边框回归等处理，最终的输出结果是选定了待处理图像中的特定目标(如通过方框标记出了待处理图像中所包含的汽车)。

Faster RCNN的执行过程中使用了池化算法，其中的量化操作会使候选区域特征图产生一定程度的失真，发生细节信息丢失以及可辨别度下降的现象，从而降低目标对象的识别结果精度。

术语解释：

卷积神经网络：一种常用于处理网格状数据的深度神经网络，多用在图像处理领域，包括图像分类、图像特征提取、图像合成等等；

特征图：通过卷积神经网络的卷积操作后得到的特征数据，通常以三维的形式存在；

ZF：一种简单的卷积神经网络模型，通常用于图像识别；

VGG16：一种卷积神经网络模型，其中包含13个卷积层以及3个全连接层，可用于图像识别；

RES101：应用了残差模块的卷积神经网络模型，深度为101，利用残差解决网络过深带来的梯度消失，通常用于图像识别和分类；

RPN：全称为Region Proposal Network，通常称为感兴趣区域提取网络，用来分析图像，提取并生成图像中所有可能存在目标个体的区域；

NMS：非最大值抑制算法，通常用于图像处理中候选区域的筛选；

候选区域：指的是图像中可能存在目标个体的区域。机器视觉、图像处理中，以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，这些区域称为候选区域；

池化：池化能够保留图像主要的特征，同时减少输出大小，避免过拟合；

候选区域池化：候选区域池化是池化的一种，只是是针对于候选区域集合的池化操作而已。候选区域池化将不同大小的候选区域映射到特征图上，然后固定到统一的大小；

边框回归：即训练网络定位目标区域的能力，网络所提取出的目标区域与目标真实存在的区域不完全重合，网络存在一定误差，边框回归可以训练网络不断减少这种误差，使得最终网络提取的目标区域与目标真实存在的区域误差最小；

1×1卷积：是一种特殊的卷积方式，通过这种卷积能够实现特征图中不同通道的信息交互和整合，从而充分利用各个通道的信息，建立起不同通道的联系；

Relu激活函数：激活函数的一种，通常用于人工神经网络，在网络中增加非线性变换；

Sigmoid激活函数：激活函数的一种，通常用于人工神经网络，可以将任意值变换为0到1之间的值，通常用于门控机制。

发明内容

为了解决上述技术问题，本发明的目在于提供一种池化特征图处理方法、图像目标检测方法、装置和介质。

一方面，本发明包括一种池化特征图处理方法，所述池化特征图是执行FasterRCNN算法过程中得到的，所述池化特征图处理方法包括以下步骤：

对所述池化特征图分别进行两次卷积激活处理；

对两次所述卷积激活处理的结果进行通道拼接处理；

将所述通道拼接处理的结果中的每个通道对应位置的最大值进行输出；

对所述输出的结果进行激活处理；

将所述激活处理的结果与所述池化特征图进行逐元素相乘计算；

将所述逐元素相乘计算的结果与所述池化特征图进行逐元素相加计算。

进一步地，所述卷积激活处理具体包括以下步骤：

使用第一卷积层对所述池化特征图进行处理；

对所述第一卷积层的处理结果进行Relu激活；

使用第二卷积层对所述Relu激活的结果进行处理。

进一步地，所述第一卷积层包含32个1×1卷积核，所述第二卷积层包含1个1×1卷积核。

进一步地，所述对所述输出的结果进行激活处理这一步骤是使用Sigmoid激活函数执行的。

进一步地，所述池化特征图处理方法还包括以下步骤：

对所述逐元素相乘计算的结果通过乘以预设的配置系数进行调整。

另一方面，本发明实施例还包括一种目标检测方法，其使用Faster RCNN算法对待处理图像进行处理，从而检测出所述待处理图像中的目标对象，对所述Faster RCNN算法执行过程中产生并用于进一步处理的池化特征图，使用本实施例所述的池化特征图处理方法进行处理。

另一方面，本发明实施例还包括一种池化特征图处理系统，所述池化特征图是执行Faster RCNN算法过程中得到的，所述池化特征图处理系统包括：

卷积激活模块，用于对所述池化特征图分别进行两次卷积激活处理；

通道拼接模块，用于对两次所述卷积激活处理的结果进行通道拼接处理；

最大值输出模块，用于将所述通道拼接处理的结果中的每个通道对应位置的最大值进行输出；

激活模块，用于对所述输出的结果进行激活处理；

像素相乘模块，用于将所述激活处理的结果与所述池化特征图进行逐元素相乘计算；

像素相加模块，用于将所述逐元素相乘计算的结果与所述池化特征图进行逐元素相加计算。

另一方面，本发明实施例还包括一种目标检测系统，其包括Faster RCNN模块，所述Faster RCNN模块用于使用Faster RCNN算法对待处理图像进行处理，从而检测出所述待处理图像中的目标对象，所述目标检测系统对所述Faster RCNN算法执行过程中产生并用于进一步处理的池化特征图，使用本发明实施例中所述的池化特征图处理系统进行处理。

另一方面，本发明实施例还包括一种装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行本发明实施例所述池化特征图处理和目标检测方法。

另一方面，本发明实施例还包括一种介质，其具有存储性能，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行本发明实施例所述池化特征图处理和目标检测方法。

本发明的有益效果是：通过进行卷积激活和通道拼接和通道最大值输出等处理，可以得到池化特征图中重要区域的像素值信息；通过逐元素相乘和逐元素相加处理，可以放大池化特征图中重要区域的像素值信息，从而弥补Faster RCNN算法在区域池化过程中产生的像素损失，提高Faster RCNN算法进行目标检测的精确度。

附图说明

图1为现有的Faster RCNN算法的流程图；

图2为本发明池化特征图处理方法实施例的流程图；

图3为本发明池化特征图处理方法实施例的原理图；

图4为应用了本发明池化特征图处理方法的Faster RCNN算法的流程图；

图5为本发明池化特征图处理系统实施例的结构框图。

具体实施方式

本实施例中一种池化特征图处理方法，用于对在执行Faster RCNN算法过程中得到的池化特征图进行处理。参照图2，所述池化特征图处理方法包括以下步骤：

S1.对所述池化特征图分别进行两次卷积激活处理；

S2.对两次所述卷积激活处理的结果进行通道拼接处理；

S3.将所述通道拼接处理的结果中的每个通道对应位置的最大值进行输出；

S4.对所述输出的结果进行激活处理；

S5.将所述激活处理的结果与所述池化特征图进行逐元素相乘计算；

S6.将所述逐元素相乘计算的结果与所述池化特征图进行逐元素相加计算。

所述步骤S1-S6的原理如图3所示。

步骤S1中，针对池化特征图S分别进行两次卷积激活处理，这两次卷积激活处理的步骤是相同的，均包括以下步骤S101-S103：

S101.使用第一卷积层对所述池化特征图进行处理；

S102.对所述第一卷积层的处理结果进行Relu激活；

S103.使用第二卷积层对所述Relu激活的结果进行处理。

其中，所述第一卷积层包含32个1×1卷积核，所述第二卷积层包含1个1×1卷积核。在第一次的卷积激活处理过程中，执行步骤S101对所述池化特征图S进行1×1卷积，从而得到第一卷积层的处理结果，即特征图执行步骤S102对特征图进行Relu激活，从而得到Relu激活的结果，即特征图执行步骤S103对特征图进行1×1卷积，从而得到第二卷积层的处理结果，即特征图在第二次的卷积激活处理过程中，执行步骤S101对所述池化特征图S进行1×1卷积，从而得到第一卷积层的处理结果，即特征图执行步骤S102对特征图进行Relu激活，从而得到Relu激活的结果，即特征图执行步骤S103对特征图进行1×1卷积，从而得到第二卷积层的处理结果，即特征图所述第一次卷积激活处理和第二次卷积激活处理并行进行。

步骤S2中，对两次所述卷积激活处理的结果，即特征图和特征图在通道层面进行拼接，从而得到特征图

步骤S3中，对于所述通道拼接处理的结果，即特征图中的每个通道对应位置的最大值进行输出，从而得到特征图

步骤S4中，对所述输出的结果，即特征图进行激活处理，具体地是使用Sigmoid激活函数对特征图进行激活，从而得到特征图

步骤S5中，将所述激活处理的结果，即特征图与所述池化特征图S进行逐元素相乘计算，优选地，还可以进一步对逐元素相乘计算的结果乘以预设的配置系数从而得到特征图

步骤S6中，将所述逐元素相乘计算的结果，即特征图与所述池化特征图进行逐元素相加计算，从而得到特征图

所述特征图可以替换图1所示的Faster RCNN算法中的池化特征图S，从而用于后续的分类和边框回归等处理。也就是说，本实施例中的步骤S1-S6可以作为对现有的Faster RCNN算法的优化步骤。在执行经过本实施例优化的Faster RCNN算法时，首先按照Faster RCNN算法的流程对待处理图像进行处理，当检测到所述Faster RCNN算法产生池化特征图时，中止执行所述Faster RCNN算法，然后执行本实施例中的池化特征图处理方法对所述池化特征图进行处理，将经过处理的池化特征图替换原先未经处理的池化特征图，再恢复执行所述Faster RCNN算法，对经过处理的池化特征图进行分类和边框回归等进行后续处理，从而输出最后的目标检测结果。

步骤S1-S6的原理在于：执行Faster RCNN算法所产生的池化特征图S是一个长为H、宽为W、通道数为C的特征图，即在卷积激活处理过程中，首先使用包含32个1×1卷积核的卷积层对池化特征图S进行卷积处理，所得到的特征图具有32个通道，同理所得到的特征图也具有32个通道，而引入Relu激活函数对特征图和特征图进行处理可以增加更多的非线性变换，然后使用包含1个1×1卷积核的卷积层对特征图进行卷积处理，所得到的特征图有1个通道，同理特征图也有1个通道，将特征图和特征图在通道层面进行拼接，所得到的特征图具有2个通道，

通过公式对所得的特征图的每个通道对应位置的最大值进行输出，式中表示特征图中第i行第j列的值，表示特征图的第一个通道中第i行第j列的值，表示特征图的第二个通道中第i行第j列的值。Max表示取二者中的最大值作为特征图中第i行第j列的值。得到的特征图即特征图具有一个通道。

使用Sigmoid激活函数对特征图进行处理可以将特征图中每个位置的像素值都变换为0-1之间的值，从而学习到池化特征图S中不同位置的重要系数，系数越大，表示相应位置产生的影响越大。经过Sigmoid激活函数处理得到的特征图保存了池化特征图S中不同位置的重要程度，从而可以得到池化特征图S中关键区域对应的位置，

对特征图和池化特征图S进行逐元素相乘是指将特征图和池化特征图S中对应位置的像素值逐个相乘，所得的结果作为相应位置新的像素值，从而得到特征图由于特征图已经学习到了池化特征图S不同位置的重要系数，将这些系数值与池化特征图S中对应位置的像素值做一个乘法操作，可以让重要区域的像素值得到放大，不重要区域的像素值则被缩小，因此所得的特征图中的各像素值更多地包含了池化特征图S中重要区域的信息。

对特征图和池化特征图S进行逐元素相加是指将特征图和池化特征图S中对应位置的像素值逐个相加，所得的结果作为相应位置新的像素值，从而得到特征图通过逐元素相加，可以将特征图中的像素值信息补充到池化特征图S中去，所得的特征图与特征图相比包含更多的池化特征图S中重要区域的信息，与池化特征图S相比特征图具有更高的可辨认度。通过使用本实施例方法处理得到的的特征图代替池化特征图S用于Faster RCNN算法后续步骤的处理，可以弥补Faster RCNN算法在区域池化过程中产生的像素损失，从而提高Faster RCNN算法进行目标检测的精确度。

本实施例还包括一种目标检测方法，其使用Faster RCNN算法对待处理图像进行处理，从而检测出所述待处理图像中的目标对象。这种目标检测方法所用的Faster RCNN算法经过本实施例中的池化特征图处理方法优化，即使用本实施例中的池化特征图处理方法对Faster RCNN算法执行过程中所产生并后续使用的池化特征图进行处理。经过本实施例中的方法优化后的Faster RCNN算法的原理如图4所示。

本实施例还包括一种池化特征图处理系统，所述池化特征图是执行Faster RCNN算法过程中得到的，参照图5，所述池化特征图处理系统包括：

激活模块，用于对所述输出的结果进行激活处理；

本实施例所述的卷积激活模块、通道拼接模块、最大值输出模块、激活模块、像素相乘模块和像素相加模块可以是计算机系统中具有相应功能的硬件模块或软件模块。

本实施例还包括一种目标检测系统，其包括Faster RCNN模块，所述Faster RCNN模块用于使用Faster RCNN算法对待处理图像进行处理，从而检测出所述待处理图像中的目标对象，所述目标检测系统还调用本实施例中所述的池化特征图处理系统对所述FasterRCNN算法执行过程中产生并用于进一步处理的池化特征图进行处理。

本实施例还包括一种装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行本发明池化特征图处理方法或目标检测方法。

本实施例还包括一种介质，其具有存储性能，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行本发明池化特征图处理方法或目标检测方法。

本实施例中的池化特征图处理系统、目标检测系统、装置和存储介质，可以分别执行本发明的池化特征图处理方法和目标检测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本实施例描述的过程的操作，除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本实施例所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种池化特征图处理方法，所述池化特征图是执行Faster RCNN算法过程中得到的，其特征在于，包括以下步骤：

对所述池化特征图分别进行两次卷积激活处理；

对两次所述卷积激活处理的结果进行通道拼接处理；

对所述输出的结果进行激活处理；

2.根据权利要求1所述的一种池化特征图处理方法，其特征在于，所述卷积激活处理具体包括以下步骤：

使用第一卷积层对所述池化特征图进行处理；

对所述第一卷积层的处理结果进行Relu激活；

使用第二卷积层对所述Relu激活的结果进行处理。

3.根据权利要求2所述的一种池化特征图处理方法，其特征在于，所述第一卷积层包含32个1×1卷积核，所述第二卷积层包含1个1×1卷积核。

4.根据权利要求1所述的一种池化特征图处理方法，其特征在于，所述对所述输出的结果进行激活处理这一步骤是使用Sigmoid激活函数执行的。

5.根据权利要求1所述的一种池化特征图处理方法，其特征在于，还包括以下步骤：

6.一种目标检测方法，其使用Faster RCNN算法对待处理图像进行处理，从而检测出所述待处理图像中的目标对象，其特征在于，对所述Faster RCNN算法执行过程中产生并用于进一步处理的池化特征图，使用如权利要求1-5任一项所述方法进行处理。

7.一种池化特征图处理系统，所述池化特征图是执行Faster RCNN算法过程中得到的，其特征在于，包括：

激活模块，用于对所述输出的结果进行激活处理；

8.一种目标检测系统，其包括Faster RCNN模块，所述Faster RCNN模块用于使用Faster RCNN算法对待处理图像进行处理，从而检测出所述待处理图像中的目标对象，其特征在于，对所述Faster RCNN算法执行过程中产生并用于进一步处理的池化特征图，使用如权利要求7所述的系统进行处理。

9.一种装置，其特征在于，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行权利要求1-6任一项所述方法。

10.一种介质，其具有存储性能，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-6任一项所述方法。