CN110991560A

CN110991560A - 一种结合上下文信息的目标检测方法及系统

Info

Publication number: CN110991560A
Application number: CN201911319098.6A
Authority: CN
Inventors: 冯大权; 万绍俊; 何春龙; 周健
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-04-10
Anticipated expiration: 2039-12-19
Also published as: CN110991560B

Abstract

本发明公开了一种结合上下文信息的目标检测方法及系统，其中方法包括：提取待检测目标图像的特征，得到目标图像特征图；将目标图像特征图的多层特征进行融合，得到包含高层语义信息和低层位置信息的输出特征图；对输出特征图进行区域提名，得到感兴趣区域的候选框；对候选框进行非线性极大值抑制，得到优选框；根据优选框的尺寸，生成上下文信息子框，将上下文信息子框的特征与优选框的特征进行特征融合，得到融合特征；根据融合特征得到目标检测结果。本发明通过将目标图像特征图的多层特征进行融合，然后结合上下文信息，将其与经过非线性极大值抑制筛选出的候选框进行结合，增强了物体的特征表达能力，能够有效地提升物体的检测精度。

Description

一种结合上下文信息的目标检测方法及系统

技术领域

本发明涉及计算机视觉领域，具体涉及一种结合上下文信息的目标检测方法及系统。

背景技术

目标检测是计算机视觉领域研究中十分重要的一个方向，是很多计算机视觉应用的基础，近些年随着深度学习技术的火热发展，物体检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。尽管当前的物体检测算法使得物体检测精度大幅提升，但是由于有些图像中所占像素点少，分辨率低下，且易受噪声干扰，所携带的信息较少，不少研究同样指出上下文信息对于物体检测是有提升的，但是在实际应用之中，将上下文信息融合到物体检测最终使用的特征中的做法并不常见，且传统的上下文信息结合方法存在计算冗余和重复引入位置回归误差的缺点。

发明内容

有鉴于此，本发明实施例提供了一种结合上下文信息的目标检测方法及系统，解决现有技术中目标检测精度差，并且传统的上下文信息结合方法存在计算冗余和重复引入位置回归的问题。

本发明实施例提供了一种结合上下文信息的目标检测方法，包括：提取待检测目标图像的特征，得到目标图像特征图；将目标图像特征图的多层特征进行融合，得到包含高层语义信息和低层位置信息的输出特征图；对所述输出特征图进行区域提名，得到感兴趣区域的候选框；对所述候选框进行非线性极大值抑制，得到优选框；根据所述优选框的尺寸，生成上下文信息子框，将上下文信息子框的特征与优选框的特征进行特征融合，得到融合特征；根据所述融合特征得到目标检测结果。

可选地，所述利用特征金字塔网络对所述目标图像特征图进行处理，得到包含高层语义信息和低层位置信息的输出特征图的步骤，包括：将所述目标图像特征图自底向上输入特征金字塔网络的各卷积模块中，得到不同维度的第一特征图；将各维度对应的第一特征图自顶向下的输入第一卷积过滤器，得到与各第一特征图对应的各第二特征图；将所述各第二特征图分别输入第二卷积过滤器，分别得到与各第二特征图对应的输出特征图。

可选地，所述对所述输出特征图进行区域提名，得到感兴趣区域的候选框的步骤，包括：利用区域提名网络提取各输出特征图的感兴趣区域；根据感兴趣区域的尺寸，确定与所述感兴趣区域的尺寸对应的输出特征图作为候选框。

可选地，所述根据所述优选框的尺寸，生成上下文信息子框，将上下文信息子框的特征与优选框的特征进行特征融合，得到融合特征的步骤，包括：获取包围优选框四周的八个上下文信息子框；分别判断各上下文信息子框是否满足预设特征融合条件；当上下文信息子框满足预设特征融合条件时，将此上下文信息子框的特征与优选框的特征进行融合，形成融合特征图；利用融合特征图得到目标检测结果。

可选地，所述分别判断各上下文信息子框是否满足预设特征融合条件的步骤，包括：根据预设重叠阈值、上下文信息子框右上角坐标及优选框右上角坐标，得到阈值允许区域坐标；判断阈值允许区域坐标是否与优选框坐标重合；若阈值允许区域坐标与优选框坐标不重合，则上下文信息子框满足预设特征融合条件。

可选地，所述结合上下文信息的目标检测方法，还包括：若阈值允许区域坐标与优选框坐标重合，则上下文信息子框不满足预设特征融合条件，将不满足条件的上下文信息子框剔除。

可选地，所述阈值允许区域坐标为：[(x+3/2*ω)*μ，(y+3/2*h)*μ]，其中，(x,y)表示优选框中心点坐标，w*h表示优选框尺寸，μ表示最大允许重叠阈值。

本发明实施例还提供了一种结合上下文信息的目标检测系统，包括：特征提取模块，用于提取待检测目标图像的特征，得到目标图像特征图；输出特征图获取模块，用于将目标图像特征图的多层特征进行融合，得到包含高层语义信息和低层位置信息的输出特征图；候选框获取模块，用于对所述输出特征图进行区域提名，得到感兴趣区域的候选框；优化模块，用于对所述候选框进行非线性极大值抑制，得到优选框；特征融合模块，用于根据所述优选框的尺寸，生成上下文信息子框，将上下文信息子框的特征与优选框的特征进行特征融合，得到融合特征；检测模块，用于根据所述融合特征得到目标检测结果。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，从而执行本发明实施例提供的结合上下文信息的目标检测方法。

本发明实施例还提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，用于所述计算机指令执行本发明实施例提供的结合上下文信息的目标检测方法。

本发明技术方案，具有如下优点：

1.本发明提供的结合上下文信息的目标检测方法，通过将目标图像特征图的多层特征进行融合，得到包含高层语义信息和低层位置信息的输出特征图，然后结合上下文信息，将其与经过非线性极大值抑制筛选出的区域提名候选框进行结合，增强了物体尤其针对于小尺度物体的特征表达能力，能够有效地提升物体的检测精度。

2.本发明提供的结合上下文信息的目标检测方法，在充分利用上下文信息的同时还考虑了如何减少特征结合所带来的计算消耗，在此过程中只加强了区域候选框的分类信息而未引入位置回归误差，且剔除了对特征信息加强用处不大、与区域候选框重叠过多的上下文子信息子框，有效地减少计算消耗，进而增强了系统的运行速度与检测效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的结合上下文信息的目标检测方法的流程图；

图2为本发明实施例提供的结合上下文信息的目标检测方法的另一个具体示例的流程图；

图3为本发明实施例提供的目标图像的特征图在特征金字塔网络进行特征提取的示意图；

图4为本发明实施例提供的结合上下文信息的目标检测方法的另一个具体示例的流程图；

图5为本发明实施例提供的结合上下文信息的目标检测方法的另一个具体示例的流程图；

图6为本发明实施例提供的结合上下文信息的目标检测方法的上下文信息分布的示意图；

图7为本发明实施例提供的结合上下文信息的目标检测方法的另一个具体示例的流程图；

图8为本发明实施例提供的结合上下文信息的目标检测方法的流程示意图；

图9为本发明实施例提供的结合上下文信息的目标检测系统的模块组成示意图；

图10为本发明实施例提供的计算机设备一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例提供一种结合上下文信息的目标检测方法，该结合上下文信息的目标检测方法可以适用于小尺度物体的检测并且保证检测精度，通常来说，小尺度物体的检测精度往往只有中、大尺度物体检测精度的一半左右，其原因有以下几点：从图像来看，小尺度物体在图像中所占像素点少，分辨率低下，且易受噪声干扰，所携带的信息远少于中、大尺度物体；从数据集来看，普通数据集包含小目标的图片较少，导致模型在训练的时候会偏向中、大尺度物体；从训练网络来看，在使用卷积神经网络的时候由于不断进行卷积池化等下采样操作，损失很多物体信息。需要说明的是，本发明实施例针对小尺度物体检测精度低的问题，提出的结合上下文信息的目标检测方法，但是本方法同样适用于别的中、大尺度的物体检测。

具体地，如图1所示，该结合上下文信息的目标检测方法具体包括：

步骤S1：提取待检测目标图像的特征，得到目标图像特征图。

实际应用中深度学习网络的深度对最后的分类和识别的效果有着很大的影响，常规的网络的堆叠在网络很深时，分类和识别的效果却不理想。本发明实施例实现目标检测的模型是基于Faster R-CNN模型，通过在一个浅层网络基础上叠加y＝x的层，称为恒等映射，可以让网络随深度增加而不退化，学习参差连接它可以从某一层获得激活，迅速反馈给另外一层甚至更深层，利用残差连接可以构建残差网络ResNet来训练更深的网络，其中ResNet网络是由残差模块构建的。其中通过主干网络采用深度残差卷积神经网络(ResNet-101)实现对输入图像的特征提取，其中ResNet-101网络具体结构参数如下表所示，在使用了ResNet-101网络后，随着层数Layer的不断增加，卷积输出尺寸逐渐减小，其中ResNet-101网络参数：卷积层数、卷积核大小、步长、全连接层大小设置为如下。

需要说明的是，本发明实施在特征提取的过程中，以ResNet-101网络为例进行说明的，在实际应用中，也可以根据检测需要选择其他网络，本发明并不以此为限。

步骤S2：将目标图像特征图的多层特征进行融合，得到包含高层语义信息和低层位置信息的输出特征图。

本发明实施例中，得到目标图像特征图后，为了丰富特征图的语义和位置信息，引入特征金字塔结构(feature pyramid networks，FPN)，对目标图像特征图的多层特征进行融合，最后得到包含高层语义信息和低层位置信息的输出特征图。需要说明的是，本发明实施例中，对特征图的语义和位置信息的丰富引入的是FPN结构，在实际应用中，也可以选择其他网络结构对特征图的语义和位置信息进行丰富，本发明并不以此为限。

步骤S3：对输出特征图进行区域提名，得到感兴趣区域的候选框。

本发明实施例中，在对输出特征图进行区域提名后，得到感兴趣区域的候选框，其中，区域提名类似于光学字符识别(OCR)领域的切分，但目标检测的对象相比OCR领域千差万别，而且图形不规则，大小不一，因此区域提名是比OCR切分更难的一个问题。区域提名的方法一般包括以下几种：(1)滑动窗口，但是滑动窗口本质上就是穷举法，利用不同的尺度和长宽比把所有可能的大大小小的块都穷举出来去识别，这样的方法复杂度太高，产生了很多的冗余候选区域，在现实当中不可行；(2)规则块，是在穷举法的基础上进行了一些剪枝，只选用固定的大小和长宽比，因此用规则块做区域提名是一种比较合适的选择，但是对于普通的目标检测来说，规则块依然需要访问很多的位置，复杂度高；(3)选择性搜索，从机器学习的角度来说，问题的核心在于如何有效地去除冗余候选区域，其实冗余候选区域大多是发生了重叠，选择性搜索利用这一点，自底向上合并相邻的重叠区域，从而减少冗余，因此本发明实施例也选择本方法进行区域提名。

需要说明的是，区域提名并不只有以上所述的三种方法，实际上是非常灵活的，因此变种也很多，所以本发明实施例也可以选择其他的方法进行区域提名，本发明并不以此为限。

步骤S4：对候选框进行非线性极大值抑制，得到优选框。

本发明实施例中，对选出的候选框进行非线性极大值抑制，得到优选框，非线性极大值抑制(Non-maximum suppression,NMS)的本质是搜索局部极大值，抑制非极大值元素，通常是用来做边缘检测的，在目标检测中可以减少冗余框，提高精度。需要说明的是，本发明实施例中，也可以根据实际需要选择其他方法进行优选框的筛选。

步骤S5：根据优选框的尺寸，生成上下文信息子框，将上下文信息子框的特征与优选框的特征进行特征融合，得到融合特征。

本发明实施例中，得到优选框的尺寸后，可以根据优选框的尺寸生成上文信息子框，各上下文信息子框将优选框包围，将上下文信息子框的特征与优选框的特征进行融合，得到融合特征。

步骤S6：根据融合特征得到目标检测结果。

本发明实施例中，可以将融合特征送入全连接层，然后分为两个支路，连接最后对应的分类层和回归层，实现最后的目标检测，得到相应的检测结果。

本发明提供的结合上下文信息的目标检测方法，通过将目标图像特征图的多层特征进行融合，得到包含高层语义信息和低层位置信息的输出特征图，然后结合上下文信息，将其与经过非线性极大值抑制筛选出的区域提名候选框进行结合，增强了物体尤其针对于小尺度物体的特征表达能力，能够有效地提升物体的检测精度。

在一具体实施例中，如图2所示，执行步骤S2的过程可以具体包括如下步骤：

步骤S21：将目标图像特征图自底向上输入特征金字塔网络的各卷积模块中，得到不同维度的第一特征图。

本发明实施例中，将目标图像特征图自底向上输入特征金字塔网络的各卷积模块中，此特征金字塔网络自底向上路径由很多卷积模块组成，每个模块又包含许多卷积层，特征金字塔网络是根据特征金字塔概念设计的特征提取器，目的是提高精度和速度，它替代了类如Faster R-CNN中的特征提取器，可以生成更高质量的特征图金字塔。在特征金字塔网络中自底向上的输入目标图像特征图的过程中，如图3所示，空间维度逐模块减半(步长翻倍)，每个卷积模块的输出将在自顶向下的路径中使用，C2-C5的大小和维度分别是56×56×64,28×28×128,14×14×256,7×7×512，得到了不同维度的第一特征图。

步骤S22：将各维度对应的第一特征图自顶向下的输入第一卷积过滤器，得到与各第一特征图对应的各第二特征图。

本发明实施例中，将各维度对应的第一特征图自顶向下的输入第一卷积过滤器，得到与各第一特征图对应的各第二特征图，此第一卷积过滤器可以应用一个1×1×256的卷积将C5降维成M5:7×7×256，用最近邻采样将M5的特征图加倍后M5变成M5′:14×14×256，7×7×256同时C4:14×14×256经过1×1×256卷积得到C4′:14×14×256,将M5′和C4′像素相加就可以得到M4:14×14×256，其中M2、M3的构造方法与M4类似，此处就不再赘述。需要说明的是，本发明实施例中的过滤器的选择和特征图的维度都是可以根据实际需要进行设定的，并不以此为限。

步骤S23：将各第二特征图分别输入第二卷积过滤器，分别得到与各第二特征图对应的输出特征图。

在实际应用中，将各第二特征图分别输入第二卷积过滤器，分别得到与各第二特征图对应的输出特征图，此第二卷积过滤器将M5:7×7×256应用一个3×3×256的卷积，得到对应维度的输出特征图P5，P5正是用于目标预测的第一个输出特征，M4、M3、M2同样应用3×3×256的卷积，分别得到对应维度的输出特征图P4、P3、P2，其中M层后连接的3×3×256卷积是用来消除不同层之间的混叠效果，起到缓冲作用，这一过程在P2后停止，由于C1的空间维度较高，如果不停，按同样过程到P1的话，会大幅拖慢进程，最后的P2-P5大小分别是56×56×256，28×28×256，14×14×256，7×7×256。

本发明实施例中，传统上下文信息融合方法对输入图像分别做多倍的上采样，对采用不同上采样倍数的图像进行两次特征提取，送入全连接层得到维数为优选框特征维数两倍的输出特征，最后进行分类和位置回归。传统的上下文信息融合方法中由于上下文信息框是包含优选框的，采用这种特征提取方式会带来大量的冗余计算，降低物体检测速度。

在一具体实施例中，如图4所示，执行步骤S3的过程可以具体包括如下步骤：

步骤S31：利用区域提名网络提取各输出特征图的感兴趣区域。

本发明实施例中，首先，利用区域提名网络提取出各层输出特征图的感兴趣区域，其中，感兴趣区域(region of interest，ROI)，是机器视觉、图像处理中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，在Halcon、OpenCV、Matlab等机器视觉软件上常用到各种算子和函数来求得感兴趣区域ROI，这个区域是图像分析所关注的重点，圈定该区域以便进行进一步处理，使用ROI圈定想读取的目标，可以减少处理时间，增加精度。

步骤S32：根据感兴趣区域的尺寸，确定与感兴趣区域的尺寸对应的输出特征图作为候选框。

本发明实施例中，在得到感兴趣区域的边界和尺寸基础上，使用非线性极大值抑制算法，对区域提名产生的感兴趣区域进行筛选及过滤，最终得到与感兴趣区域的尺寸对应的输出特征图，并将输出特征图确定为候选框。接下来，这些提名区域为具有不同比例、不同大小且尺寸较小的区域，使用兴趣区域池化(ROI Pooling)算法将提名区域范围转化为同样大小的特征区域，也就是候选框，以进行后续计算。需要说明的是，本发明实施例中以兴趣区域池化为例进行说明，在实际应用中也可以选择其他池化算法，本发明并不以此为限。

在一具体实施例中，如图5所示，执行步骤S5的过程可以具体包括如下步骤：

步骤S51：获取包围优选框四周的八个上下文信息子框。

本发明实施例中，根据优选框的尺寸，可以得到将优选框四周包围的八个上下文信息子框，如图6所示，从上到下从左到右将这八个上下文信息子框进行编号1～8。需要说明的是，本发明实施例中八个上下文信息子框的尺寸与优选框尺寸相同。

步骤S52：分别判断各上下文信息子框是否满足预设特征融合条件。

本发明实施例中，得到的优选框周围取八个尺寸相同的上下文信息子框，将这些子框的上下文特征信息与优选框的特征信息相加，本发明实施例为了减少计算冗余，加速检测，在取上下文信息子框的过程中将抛弃与优选框重叠过多的子框，提升检测精度。其原因在于：重叠过多的子框所含上下文子信息与优选框信息重复过多，不足以丰富优选框信息，因此需要对上下文信息子框是否满足预设特征融合条件进行判断。需要说明的是，本发明实施例中的预设特征融合条件是根据实际检测精度及系统运行效率决定并提前设置的，本发明并不以此为限。

步骤S53：当上下文信息子框满足预设特征融合条件时，将此上下文信息子框的特征与优选框的特征进行融合，形成融合特征图。

本发明实施例中，当上下文信息子框满足预设特征融合条件时，将此上下文信息子框的特征与优选框的特征进行融合，形成融合特征图，对目标图像的特征进行加强，并减少噪声。

步骤S54：利用融合特征图得到目标检测结果。

本发明实施例中，利用融合特征图得到目标检测结果，减少上下文信息结合中不必要的计算消耗，增强了小尺度物体的特征表达能力，能够有效提升目标检测的精准度。

在一具体实施例中，如图7所示，执行步骤S52的过程可以具体包括如下步骤：

步骤S521：根据预设重叠阈值、上下文信息子框右上角坐标及优选框右上角坐标，得到阈值允许区域坐标。

本发明实施例中，根据预设重叠阈值、上下文信息子框右上角坐标及优选框右上角坐标，得到阈值允许区域坐标，如图6所示，以3号子框为例，想要判断3号子框是否需要纳入特征结合，只需要判定3号子框的右上角顶点B与优选框右上角顶点A的位置关系即可，优选框中心点坐标为(x,y)，优选框及上下文信息子框的尺寸均为w×h，则A坐标为(x+1/2*w,y+1/2*h)，3号框右上角顶点B的坐标为(x+3/2*w,y+3/2*h)，设定子框和优选框长最大允许重叠阈值为μ，其中，μ是介于0～1之间的实数，因此得到阈值允许区域坐标为[(x+3/2*w)*μ,(y+3/2*h)*μ]，其他位置的阈值允许区域坐标的获取，也和上述方法一致，在此就不在赘述。需要说明的是，预设重叠阈值是根据实际任务的不同而发生变化，本发明并不以此为限。

步骤S522：判断阈值允许区域坐标是否与优选框坐标重合。

本发明实施例中，在得到阈值允许区域坐标后，判断阈值允许区域坐标是否与优选框坐标重合，还以上述3号子框为例，得到3号子框的阈值允许区域坐标为[(x+3/2*w)*μ,(y+3/2*h)*μ]，然后判断坐标[(x+3/2*w)*μ,(y+3/2*h)*μ]与优选框右上角顶点A的坐标是否重合。

步骤S523：若阈值允许区域坐标与优选框坐标不重合，则上下文信息子框满足预设特征融合条件。

本发明实施例中，若阈值允许区域坐标与优选框坐标不重合，则上下文信息子框满足预设特征融合条件，在特征结合过程中只将子框的上下文信息的分类特征添加到优选框，不对上下文信息中的位置回归信息做结合，在增强优选框分类特征表达的同时不引入位置回归带来的噪声，形成融合特征图。

步骤S524：若阈值允许区域坐标与优选框坐标重合，则上下文信息子框不满足预设特征融合条件，将不满足条件的上下文信息子框剔除。

本发明实施例中，若阈值允许区域坐标与优选框坐标重合，则上下文信息子框不满足预设特征融合条件，将不满足条件的上下文信息子框剔除，此上下文信息子框的特征不纳入融合特征中。

在实际应用中，如图8所示，输入待检测的目标图像到目标检测模型中的ResNet-101网络后，提取出图像的特征，得到目标图像的特征图，将特征图输入到特征金字塔网络中，进行多层特征提取，并融合感兴趣区域的特征，得到包含高层语义信息和低层位置信息的输出特征图，对各层输出特征图进行区域提名然后进行优化，得到优选框，并生成上下文信息子框，然后对满足要求的上下文信息子框的特征与优选框的特征进行融合，将融合后的特征输入7×7×1024卷积层后在输入到全连接层，然后经过激活器后分两个支路，连接最后对应的分类层和回归层，最终实现目标检测。其中，优化上下文信息子框计算方法具体为：首先设置上下文信息子框与区域候选框之间最大允许重叠值，若超过这个重叠值，则认为该子框与候选框重复计算区域太多，包含的上下文信息不足，对提升小尺度物体检测精度帮助不大，抛弃该子框，减少计算消耗。

本发明提供的结合上下文信息的目标检测方法，在充分利用上下文信息的同时还考虑了如何减少特征结合所带来的计算消耗，在此过程中只加强了区域候选框的分类信息而未引入位置回归误差，且剔除了对特征信息加强用处不大、与区域候选框重叠过多的上下文子信息子框，有效地减少计算消耗，进而增强了系统的运行速度与检测效率。

本发明实施例还提供了一种结合上下文信息的目标检测系统，如图9所示，该结合上下文信息的目标检测系统包括：

特征提取模块1，用于提取待检测目标图像的特征，得到目标图像特征图。详细内容参见上述方法实施例中步骤S1的相关描述，在此不再赘述。

输出特征图获取模块2，用于将目标图像特征图的多层特征进行融合，得到包含高层语义信息和低层位置信息的输出特征图。详细内容参见上述方法实施例中步骤S2的相关描述，在此不再赘述。

候选框获取模块3，用于对输出特征图进行区域提名，得到感兴趣区域的候选框。详细内容参见上述方法实施例中步骤S3的相关描述，在此不再赘述。

优化模块4，用于对候选框进行非线性极大值抑制，得到优选框。详细内容参见上述方法实施例中步骤S4的相关描述，在此不再赘述。

特征融合模块5，用于根据优选框的尺寸，生成上下文信息子框，将上下文信息子框的特征与优选框的特征进行特征融合，得到融合特征。详细内容参见上述方法实施例中步骤S5的相关描述，在此不再赘述。

检测模块6，用于根据融合特征得到目标检测结果。详细内容参见上述方法实施例中步骤S6的相关描述，在此不再赘述。

通过上述各个模块组成部分的协同合作，本发明提供的结合上下文信息的目标检测系统，通过将目标图像特征图的多层特征进行融合，得到包含高层语义信息和低层位置信息的输出特征图，然后结合上下文信息，将其与经过非线性极大值抑制筛选出的区域提名候选框进行结合，增强了物体尤其针对于小尺度物体的特征表达能力，能够有效地提升物体的检测精度。并且在充分利用上下文信息的同时还考虑了如何减少特征结合所带来的计算消耗，在此过程中只加强了区域候选框的分类信息而未引入位置回归误差，且剔除了对特征信息加强用处不大、与区域候选框重叠过多的上下文子信息子框，有效地减少计算消耗，进而增强了系统的运行速度与检测效率。

本发明实施例提供一种计算机设备，如图10所示，包括：至少一个处理器401，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口403，存储器404，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，通信接口403可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行结合上下文信息的目标检测方法。存储器404中存储一组程序代码，且处理器401调用存储器404中存储的程序代码，以用于执行上述的结合上下文信息的目标检测方法。

其中，通信总线402可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器404可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固降硬盘(英文：solid-state drive，缩写：SSD)；存储器404还可以包括上述种类的存储器的组合。

其中，处理器401可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器404还用于存储程序指令。处理器401可以调用程序指令，实现如本申请的结合上下文信息的目标检测方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令可执行结合上下文信息的目标检测方法。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccess Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固降硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种结合上下文信息的目标检测方法，其特征在于，包括：

提取待检测目标图像的特征，得到目标图像特征图；

将目标图像特征图的多层特征进行融合，得到包含高层语义信息和低层位置信息的输出特征图；

对所述输出特征图进行区域提名，得到感兴趣区域的候选框；

对所述候选框进行非线性极大值抑制，得到优选框；

根据所述优选框的尺寸，生成上下文信息子框，将上下文信息子框的特征与优选框的特征进行特征融合，得到融合特征；

根据所述融合特征得到目标检测结果。

2.根据权利要求1所述的结合上下文信息的目标检测方法，其特征在于，所述将目标图像特征图的多层特征进行融合，得到包含高层语义信息和低层位置信息的输出特征图的步骤，包括：

将所述目标图像特征图自底向上输入特征金字塔网络的各卷积模块中，得到不同维度的第一特征图；

将各维度对应的第一特征图自顶向下的输入第一卷积过滤器，得到与各第一特征图对应的各第二特征图；

将所述各第二特征图分别输入第二卷积过滤器，分别得到与各第二特征图对应的输出特征图。

3.根据权利要求1所述的结合上下文信息的目标检测方法，其特征在于，所述对所述输出特征图进行区域提名，得到感兴趣区域的候选框的步骤，包括：

利用区域提名网络提取各输出特征图的感兴趣区域；

根据感兴趣区域的尺寸，确定与所述感兴趣区域的尺寸对应的输出特征图作为候选框。

4.根据权利要求1所述的结合上下文信息的目标检测方法，其特征在于，所述根据所述优选框的尺寸，生成上下文信息子框，将上下文信息子框的特征与优选框的特征进行特征融合，得到融合特征的步骤，包括：

获取包围优选框四周的八个上下文信息子框；

分别判断各上下文信息子框是否满足预设特征融合条件；

当上下文信息子框满足预设特征融合条件时，将此上下文信息子框的特征与优选框的特征进行融合，形成融合特征图；

利用融合特征图得到目标检测结果。

5.根据权利要求4所述的结合上下文信息的目标检测方法，其特征在于，所述分别判断各上下文信息子框是否满足预设特征融合条件的步骤，包括：

根据预设重叠阈值、上下文信息子框右上角坐标及优选框右上角坐标，得到阈值允许区域坐标；

判断阈值允许区域坐标是否与优选框坐标重合；

若阈值允许区域坐标与优选框坐标不重合，则上下文信息子框满足预设特征融合条件。

6.根据权利要求4所述的结合上下文信息的目标检测方法，其特征在于，还包括：

若阈值允许区域坐标与优选框坐标重合，则上下文信息子框不满足预设特征融合条件，将不满足条件的上下文信息子框剔除。

7.根据权利要求5所述的结合上下文信息的目标检测方法，其特征在于，所述阈值允许区域坐标为：[(x+3/2*ω)*μ，(y+3/2*h)*μ]，其中，(x,y)表示优选框中心点坐标，w*h表示优选框尺寸，μ表示最大允许重叠阈值。

8.一种结合上下文信息的目标检测系统，其特征在于，包括：

特征提取模块，用于提取待检测目标图像的特征，得到目标图像特征图；

输出特征图获取模块，用于将目标图像特征图的多层特征进行融合，得到包含高层语义信息和低层位置信息的输出特征图；

候选框获取模块，用于对所述输出特征图进行区域提名，得到感兴趣区域的候选框；

优化模块，用于对所述候选框进行非线性极大值抑制，得到优选框；

特征融合模块，用于根据所述优选框的尺寸，生成上下文信息子框，将上下文信息子框的特征与优选框的特征进行特征融合，得到融合特征；

检测模块，用于根据所述融合特征得到目标检测结果。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令被处理器执行时实现如权利要求1-7中任一项所述的结合上下文信息的目标检测方法。

10.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1-7中任一项所述的结合上下文信息的目标检测方法。