CN112287947A

CN112287947A - 一种区域建议框检测方法、终端及存储介质

Info

Publication number: CN112287947A
Application number: CN202011033504.5A
Authority: CN
Inventors: 张正宇; 邹文斌; 彭映青; 向灿群; 田时舜; 邹光明
Original assignee: Shenzhen Wisdom Union Technology Co ltd; Shenzhen University
Current assignee: Shenzhen Wisdom Union Technology Co ltd; Shenzhen University
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-01-29
Anticipated expiration: 2040-09-27
Also published as: CN112287947B

Abstract

本发明公开了一种区域建议框检测方法、终端及存储介质，方法包括：对目标图像进行特征提取，获取所述目标图像的深度特征图；将所述深度特征图输入至预先训练完成的检测网络中，通过所述检测网络获取至少一组包含N个点的目标点集，并根据各个所述目标点集确定所述目标图像中的区域建议框；其中，所述目标点集中的点为所述检测网络预测的所述目标图像中物体边缘上的点。本发明提供的区域建议框检测方法的检测网络的预测并不以预设锚框为基础，而是通过预测物体边缘上的点来确定区域建议框，不受到预设锚框大小的限制，能够实现更精准的区域建议框检测。

Description

一种区域建议框检测方法、终端及存储介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种区域建议框检测方法、终端及存储介质。

背景技术

区域建议框检测指指定一张输入图像，利用计算机相关技术搜索图像中可能存在物体的区域，并在图像中用矩形框的形式框选出来。

基于深度学习的区域建议框检测方法使用深度神经网络所提取到的深度特征来取代传统方法中的手工特征，精度更高，但是目前基于深度学习的区域建议框检测方法中在网络训练过程中人为设定了不同横纵比和数量的锚框，便给网络所有的预测均是以预设锚框为基础，这直接导致了对形状与预设锚框差异较大的物体的预测结果不准确。

因此，现有技术还有待改进和提高。

发明内容

针对现有技术的上述缺陷，本发明提供一种区域建议框检测方法、终端及存储介质，旨在解决现有技术中基于深度学习的区域建议框检测方法中网络预测均是以预设锚框为基础，导致区域建议框检测结果不准确的问题。

为了解决上述技术问题，本发明所采用的技术方案如下：

本发明的第一方面，提供一种区域建议框检测方法，所述方法包括：

对目标图像进行特征提取，获取所述目标图像的深度特征图；

将所述深度特征图输入至预先训练完成的检测网络中，通过所述检测网络获取至少一组包含N个点的目标点集，并根据各个所述目标点集确定所述目标图像中的区域建议框；

其中，所述目标点集中的点为所述检测网络预测的所述目标图像中物体边缘上的点，N为大于1的正整数。

所述的区域建议框检测方法，其中，所述检测网络包括定位模块，所述通过所述检测网络获取至少一组包含N个点的目标点集，包括：

在所述定位模块中：

对所述深度特征图进行初始定位，获取所述深度特征图中的目标特征点到所述深度特征图中的物体边缘的N组偏移值，得到所述目标特征点对应的第一点集；

根据初始定位后的所述深度特征图获取定位特征图和分类特征图；

对所述定位特征图进行二次定位，获取所述第一点集中的每个点到所述定位特征图中的物体边缘的一组偏移值，得到所述目标点集。

所述的区域建议框检测方法，其中，所述根据各个所述目标点集确定所述目标图像中的区域建议框，包括：

通过所述检测网络获取所述目标点集的置信度；

根据各个所述目标点集确定各个所述目标点集对应的矩形框；

根据各个所述目标点集的置信度对各个所述矩形框进行非极大值抑制操作，获取所述区域建议框。

所述的区域建议框检测方法，其中，所述检测网络包括第一置信度模块和第二置信度模块，所述通过所述检测网络获取所述目标点集的置信度，包括：

通过所述第一置信度模块对所述定位特征图进行处理，得到定位置信度；

通过所述第二置信度模块对所述分类特征图进行处理，得到分类置信度；

根据所述定位置信度和所述分类置信度获取所述目标点集的置信度。

所述的区域建议框检测方法，其中，所述第一置信度模块包括卷积层以及两个Sigmoid函数。

所述的区域建议框检测方法，其中，所述对目标图像进行特征提取，获取所述目标图像的深度特征图，包括：

将所述目标图像输入至预先训练完成的特征提取网络，输出所述深度特征图。

所述的区域建议框检测方法，其中，所述对目标图像进行特征提取之前，所述方法还包括：

根据预先设置的训练集对所述特征提取网络以及所述检测网络进行整体训练，确定所述特征提取网络以及所述检测网络中各个模块的参数；

其中，所述训练集中包括多组训练数据，每组训练数据包括样本图像以及样本图像中的区域建议框标注结果。

所述的区域建议框检测方法，其中，根据所述训练集确定所述第一置信度模块的参数，包括：

对目标样本图像进行处理，获取所述检测网络输出的所述目标样本图像对应的样本目标点集以及所述样本目标点集对应的所述定位置信度；

分别获取各个所述样本目标点集对应的矩形框与所述样本图像对应的区域建议框标注结果的交并比；

根据各个所述交并比将所述目标样本图像中的特征点划分为正样本和负样本；

根据全部正样本对应的所述定位置信度和所述交并比、以及部分负样本对应的所述定位置信度和所述交并比确定所述第一置信度模块的损失值；

使用所述损失值进行反向传播，更新所述第一置信度模块的参数。

本发明的第二方面，提供一种终端，所述终端包括处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令，所述处理器适于调用所述存储介质中的指令，以执行实现上述任一项所述的区域建议框检测方法的步骤。

本发明的第三方面，提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任一项所述的区域建议框检测方法的步骤。

与现有技术相比，本发明提供了一种区域建议框检测方法、终端及存储介质，所述区域建议框检测方法的检测网络的预测并不以预设锚框为基础，而是通过预测物体边缘上的点来确定区域建议框，不受到预设锚框大小的限制，能够实现更精准的区域建议框检测。

附图说明

图1为本发明提供的区域建议框检测方法的实施例的流程图；

图2为本发明提供的区域建议框检测方法的实施例的整体框架示意图；

图3为本发明提供的区域建议框检测方法的实施例中特征提取网络的示意图；

图4为本发明提供的区域建议框检测方法的实施例中获取目标点集的过程示意图；

图5为本发明提供的区域建议框检测方法的实施例中第一置信度模块的结构图；

图6为本发明提供的区域建议框检测方法的实施例中训练第一置信度模块的训练流程示意图；

图7为本发明提供的终端的实施例的原理示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一

本发明提供的区域建议框检测方法，可以是应用在终端中，终端可以通过本发明提供的区域建议框检测方法检测图像中的区域建议框。终端可以但不限于是各种计算机、手机、平板电脑、车载电脑和便携式可穿戴设备。

如图1所示，所述区域建议框检测方法的一个实施例中，包括步骤：

S100、对目标图像进行特征提取，获取所述目标图像的深度特征图。

所述目标图像是需要检测其中的区域建议框的图像，在获取到所述目标图像后，首先对所述目标图像进行特征提取，获取所述目标图像的深度特征图。

具体地，如图2所示，在本实施例中，所述对所述目标图像进行特征提取，获取所述目标图像的深度特征图可以是根据预先训练完成的特征提取网络实现，在获取到所述深度特征图后，再通过预先训练完成的检测网络根据所述深度特征图来实现区域建议框检测，所述特征提取网络是和所述检测网络作为一个整体被训练的，具体的训练方式将在后文被详细说明。

所述特征提取网络可以采用现有的特征提取网络的结构，本实施例中，采取ResNet-50多尺度特征提取网络，如图3所示，所述特征提取网络由自下向上的深层语义提取和自上向下的深层语义特征融合两条路径组成，再通过横向连接的方式将自下向上路径中个层语义特征经过1*1卷积核卷积后和自上向下路径中相同层语义特征相加融合得到不同尺度的特征图，即通过横向连接利用了底层语义的位置细节信息使得融合特征更加精细。当然，本领域技术人员可以选取其他的特征提取网络来实现深度特征图的获取，本发明对此不做具体的限定。

S200、将所述深度特征图输入至预先训练完成的检测网络中，通过所述检测网络获取至少一组包含N个点的目标点集，并根据各个所述目标点集确定所述目标图像中的区域建议框。

所述目标点集中的点为所述检测网络检测的所述目标图像中物体边缘上的点，N为大于1的正整数。也就是说，在本实施例中，所述检测网络并不是直接根据预设的锚框来检测图像中的区域建议框，而是预测所述目标图像中物体边缘上的点，再根据所述检测网络预测出的物体边缘上的点来确定区域建议框，这样，不会受到预设锚框的限制，能够实现更准确的区域建议框检测。

在所述检测网络中包括定位模块，所述的通过所述检测网络获取一组包含N个点的目标点集是通过所述定位模块实现，具体包括：

在所述定位模块中：

S211、对所述深度特征图进行初始定位，获取所述深度特征图中的目标特征点到所述深度特征图中的物体边缘的N组偏移值，得到所述目标特征点对应的第一点集。

如图2所示，在获取到所述深度特征图后，首先对所述深度特征图进行初始定位，具体地，所述初始定位是预测所述深度特征图中每个特征点到图中的物体边缘的N组偏移值，每组偏移值包括水平方向和垂直方向上的偏移值，也就是说，对于目标特征点，所述定位模块预测所述目标特征点到图中的物体边缘的水平方向和垂直方向的距离，每个特征点可以预测N组偏移值，分别对应该特征点到图中的物体边缘上不同位置的点的偏移值，N可以取大于1的整数，在本实施例中，N取9，当然，本领域技术人员可以根据本说明书的说明，对N取其他的值，如8、11等，本发明对此不做具体的限定。

对所述深度特征图中的每个点都作为所述目标特征点，获取到应的N组偏移值，根据每个特征点的坐标和对应的N组偏移值，每个特征点都可以得到N个点，将目标特征点对应的N个点记做第一点集。不难看出，每个第一点集可以对应一个矩形框，第一点集对应的矩形框是通过所述第一点集中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标确定。

S212、根据初始定位后的深度特征图获取定位特征图和分类特征图。

对所述深度特征图进行初始定位后，根据所述深度特征图获取定位特征图和分类特征图，具体地，所述定位特征图反映了各个特征点分别对应的第一点集的特征，所述分类特征图反映了各个特征点分别对应的第一点集对应矩形框中是否存在物体。所述定位特征图和分类特征图可以是对初始定位后的深度特征图进行卷积得到，具体地，使用1*1，通道数为2N的卷积层进行卷积，得到所述定位特征图，使用1*1，通道数为1的卷积层，得到所述分类特征图。

在一种可能的实现方式中，是先对初始定位后的所述深度特征图进行对齐操作后，再获取所述定位特征图和所述分类特征图，具体地，所述对齐操作是根据初始定位结果对所述深度特征图进行调整，若初始定位框(即所述第一点集对应的矩形框)较大，则对应的所述深度特征图中的部分微调至有更大的感受野，反之亦然。

S213、对所述定位特征图进行二次定位，获取所述第一点集中的每个点到所述定位特征图中的物体边缘的一组偏移值，得到所述目标点集。

获取到所述定位特征图后，对所述定位特征图进行二次定位，继续预测所述第一点集中的每个点到图中的物体边缘的一组偏移值，所述第一点集中的每个点对应一组偏移值，即每个所述目标点集中包括N个点。不难看出，目标特征点对应的所述目标点集中的每个点到所述目标特征点的偏移值进行了两次预测，最终结果为两次预测的偏移值相加得到，可以用计算公式表示如下：

其中，P_m是对于特征图上的一个特征点m＝(m_x,m_y)的所述第一点集，(x_k,y_k)为第k个偏移点的初始偏移值。同理，P′_m是对于特征图上的一个特征点m＝(m_x,m_y)的所述目标点集，(x′_k,y′_k)为第k个偏移点的二次偏移值。B_m为特征点m的目标点集对应的矩形框。上述步骤S211-S213的过程示意图可以如图4所示。

在获取到所述目标点集后，根据所述目标点集确定所述目标图像中的区域建议框，具体包括：

S221、通过所述检测网络获取所述目标点集的置信度；

S222、根据各个所述目标点集确定各个所述目标点集对应的矩形框；

S223、根据各个所述目标点集的置信度对各个所述矩形框进行非极大值抑制操作，获取所述区域建议框。

具体地，从前面的说明不难看出，在本实施例中，图像中的每个特征点都对应有一个所述目标点集，即每个特征点都对应有一个矩形框，需要对这些矩形框进行筛选，得到最终的所述区域建议框。

在本实施例中，先通过所述检测网络获取所述目标点集的置信度，再根据各个所述目标点集的置信度对各个所述目标点集对应的矩形框进行非极大值抑制操作，过滤重复度过高的矩形框，获取所述区域建议框，可以用公式表示为：B′NMS(B)，其中，NMS(·)为非极大值抑制操作，B为所述目标点集对应的矩形框，B′为过滤了重复度过高的矩形框后得到的区域建议框。非极大值抑制操作的具体过程如下：

首先保留置信度最高的所述目标点集对应的矩形框(后面称为目标矩形框)作为一个区域建议框，再计算其他的所述目标点集的矩形框与目标矩形框的交并比，若交并比大于预设阈值，则认为重复度过高，将重复度过高的矩形框去除，得到最终的区域建议框。

非极大值一致操作可以是由所述检测网络中的一个模块来实现，也可以由一个单独的模块实现，当执行非极大值一致操作的模块为所述检测网络中的一个模块时，该模块不需要被训练。

所述检测网络包括第一置信度模块和第二置信度模块，所述通过所述检测网络获取所述目标点集的置信度，包括：

通过所述第二置信度模块度所述分类特征图进行处理，得到分类置信度；

根据所述定位置信度和所述分类和自信度获取所述目标点集的置信度。

具体地，如图2所示所述目标点集的置信度由定位置信度和分类置信度共同决定，所述定位置信度反映了所述目标点集对应的矩形框的定位准确性，所述分类置信度反映了所述目标点集对应的矩形框中是否存在物体，所述定位置信度是根据所述定位特征图得到，所述分类置信度是根据所述分类特征图得到。

所述第一置信度模块的结构如图5所示，包括卷积层以及两个Sigmoid函数，卷积层的卷积核尺寸可以为1*1，结构简单，带来的额外计算量很低，其中卷积层用于为每个特征点对应的矩形框预测一个定位置信度，Sigmoid函数的使用能够是定位置信度的结果控制在0到1之间，而两次使用Sigmoid函数能在随后的根据定位置信度和分类置信度确定所述目标点集的置信度的过程中降低定位置信度所占的权重。

所述第二置信度模块的结构包括卷积层以及一个Sigmoid函数。

所述对目标图像进行特征提取之前，所述方法还包括：

根据预先设置的训练集对所述特征提取网络以及所述检测网络进行整体训练，确定所述特征提取网络以及所述检测网络中各个模块的参数。

下面对所述检测网络的训练方法进行说明：

所述检测网络与所述特征提取网络作为整体被训练，训练集中包括多组训练数据，每组训练数据包括样本图像以及样本图像中的区域建议框标注结果，所述特征提取网络以及所述检测网络中所述第一置信度模块之外的模块的参数可以通过本发明提供的方法预测所述训练集中样本图像的区域建议框以及该区域建议框的置信度后与对应的标注结果(即真实值)进行比较，获取与真实值的loss进行反向传播，更新所述检测网络中所述第一置信度模块之外的模块的参数以及所述特征提取网络的参数，实现对所述检测网络与所述特征提取网络的训练。

根据所述训练集确定所述第一置信度模块的参数，即所述第一置信度模块的训练过程包括：

在训练所述检测网络的过程中，由于所述第一置信度模块预测的是定位置信度，其真实值并不能从原始的标注信息中获取，因此，在训练过程中，所述第一置信度模块的参数是通过所述检测网络获取到的样本图像的区域建议框来更新，具体地，如图6所示，对于目标样本图像，首先通过所述检测网络获取到样本目标点集，即所述目标样本图像每个特征点对应的目标点集，并且通过所述检测网络中的所述第一置信度模块获取到各个所述样本目标点集对应的定位置信度，即每个特征点对应一个所述样本目标点集以及一个定位置信度。为提高对所述第一置信度模块的训练效率，对所述目标样本图像的各个特征点进行筛选，选取部分预测结果计算损失值来进行训练，具体地，首先获取所述目标样本图像中每个特征点的所述样本目标点集对应的矩形框与所述样本图像对应的区域建议框标注结果(即所述样本图像中真实的区域建议框)的交并比，不难看出，每个特征点都对应有一个交并比，将交并比大于预设阈值的特征点划分为正样本，将交并比小于该预设阈值的特征点划分为负样本，预设阈值可以根据训练效果进行调整，例如设置为0.7、0.8等。在实际应用过程中，负样本的整体数量会远远超过正样本的数量，因此，在本实施例中，选取全部的正样本以及部分负样本来计算损失值，仅适用部分负样本能够平衡正负样本之间的关系。具体地，对于全部正样本和部分负样本中的每个特征点，都计算交并比(真实值)和对应的所述定位置信度(预测值)的损失值，并求和后得到所述第一置信度模块的损失值，具体的计算流程可以用公式表达如下：

I＝IoU(GT，B)

其中，GT是目标样本图像中的区域建议框标注结果，B为样本目标点集对应的矩形框，IoU(·)指求交并比的操作，I_i为特征点i对应的所述交并比，I′_i为特征点i对应的所述定位置信度，BCE(·)为二分类交叉熵损失函数，PN为全部正样本和部分负样本组成的集合，L为累加得到的所述第一置信度模块的损失值。

在得到所述第一置信度模块的损失之后，使用该损失值进行反向传播和参数更新，再使用下一张样本图像进行继续训练，直至训练完成。

综上所述，本实施例提供了一种区域建议框检测方法，所述区域建议框检测方法的检测网络的预测并不以预设锚框为基础，而是通过预测物体边缘上的点来确定区域建议框，不受到预设锚框大小的限制，能够实现更精准的区域建议框检测。

应该理解的是，虽然本发明说明书附图中给出的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

实施例二

基于上述实施例，本发明还相应提供了一种终端，如图7所示，所述终端包括处理器10以及存储器20。可以理解的是，图7仅示出了终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述终端的内部存储单元，例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有区域建议框检测程序30，该区域建议框检测程序30可被处理器10所执行，从而实现本发明中的区域建议框检测方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行实施例一中所述的区域建议框检测方法等。

实施例三

本发明还提供一种存储介质，其中，存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的区域建议框检测方法的步骤。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种区域建议框检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的区域建议框检测方法，其特征在于，所述检测网络包括定位模块，所述通过所述检测网络获取至少一组包含N个点的目标点集，包括：

在所述定位模块中：

3.根据权利要求2所述的区域建议框检测方法，其特征在于，所述根据各个所述目标点集确定所述目标图像中的区域建议框，包括：

通过所述检测网络获取所述目标点集的置信度；

4.根据权利要求3所述的区域建议框检测方法，其特征在于，所述检测网络包括第一置信度模块和第二置信度模块，所述通过所述检测网络获取所述目标点集的置信度，包括：

5.根据权利要求4所述的区域建议框检测方法，其特征在于，所述第一置信度模块包括卷积层以及两个Sigmoid函数。

6.根据权利要求4所述的区域建议框检测方法，其特征在于，所述对目标图像进行特征提取，获取所述目标图像的深度特征图，包括：

7.根据权利要求6所述的区域建议框检测方法，其特征在于，所述对目标图像进行特征提取之前，所述方法还包括：

8.根据权利要求7所述的区域建议框检测方法，其特征在于，根据所述训练集确定所述第一置信度模块的参数，包括：

9.一种终端，其特征在于，所述终端包括：处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令，所述处理器适于调用所述存储介质中的指令，以执行实现上述权利要求1-8任一项所述的区域建议框检测方法的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-8任一项所述的区域建议框检测方法的步骤。