CN107563387A

CN107563387A - 一种基于循环神经网络的图像目标检测选框方法

Info

Publication number: CN107563387A
Application number: CN201710828393.9A
Authority: CN
Inventors: 马良庄; 蔡毅; 朱奕
Original assignee: Chengdu Hand Sight Information Technology Co Ltd
Current assignee: Chengdu Hand Sight Information Technology Co Ltd
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2018-01-09

Abstract

本发明公开了一种基于循环神经网络的图像目标检测选框方法，将待测图片输入卷积神经网络，得到N个候选框和所述候选框的预测结果及特征向量；对各个候选框的特征向量和预测结果进行处理，得到一个特征向量序列；将所述特征向量序列中的特征向量依次输入RNN网络，得到所述特征向量序列中各特征向量的置信度d；根据设定的置信度阈值对所述特征向量序列中的特征向量进行筛选，得到最终的目标框，该发明能有效地从大量候选框中挑选出比非极大值抑制法输出更精确的目标框，提高了目标检测器的整体性能。

Description

一种基于循环神经网络的图像目标检测选框方法

技术领域

本发明属于目标检测领域，具体涉及一种基于循环神经网络的图像目标检测选框方法，用于在目标检测时对目标框进行筛选。

背景技术

近几年,由于大数据和GPU,FPGA等并行计算硬件的出现,使得基于数据驱动的深度学习应用成为可能。计算机视觉作为人工智能的重要应用领域，最早将深度学习结合到具体的任务当中，包括图像分类、目标检测、目标分割等。目标检测作为计算机视觉的经典问题之一,其任务目标是给定一张图片，输出图片中一个或多个目标的具体位置和形状(一般用矩形框显示)以及目标对应的类别。在目标检测算法中经常会采用一种过完备的策略来生成候选框,即生成大量可能含有目标的矩形框。面对多余的候选矩阵框,常用非极大值抑制的方式进行筛选,从而输出最终的目标框。

非极大值抑制方法具有实现简单,效果明显的优点,但其缺点也十分明显。缺点主要有如下几点:(1)该方法需要人工设定一个阈值去判定某个框是否为冗余,阈值的值由具体的应用场景所决定,极大地限制了目标检测算法的应用；(2)该方法实现时假定了所有的目标候选框都是独立的个体,忽略了框与框之间存在的逻辑联系,从而无法利用这种联系生成更好的输出结果。

非极大值抑制方法较大地限制了目标检测器的应用范围，因为它默认两个方框重叠率数值较高时证明两框中的目标是重复的，但框内特征信息也具有很强的指示作用。因此，光从选框面积的重叠程度来判定是否发生了目标冗余过于简单，而且极容易发生漏检测现象。

发明内容

本发明的目的在于：提供了一种基于循环神经网络的图像目标检测选框方法，解决了非极大值抑制方法将候选框作为独立个体进行检测，并利用面积重叠度来判断目标是否冗余，从而导致目标检测正确率低、容易发生漏检现象的技术问题。

本发明采用的技术方案如下：

一种基于循环神经网络的图像目标检测选框方法，包括以下步骤：

步骤1：将待测图片输入卷积神经网络进行特征提取，得到N个候选框的预测结果及特征向量；

步骤2：对各个候选框的特征向量和预测结果进行处理，得到一个特征向量序列；

步骤3：将所述特征向量序列中的特征向量依次输入RNN网络，得到所述特征向量序列中各特征向量的置信度d；

步骤4：根据设定的置信度阈值对所述特征向量序列中的特征向量进行筛选，得到最终的目标框。

进一步的，所述预测结果包括候选框左上角的横坐标x、左上角的纵坐标y、候选框的宽度w、候选框的高度h和候选框的置信度c。

进一步的，所述步骤2的具体步骤如下：

S201：将各个候选框的特征向量、预测结果、x²、y²、xy、w²、h²和wh按通道轴堆叠，得到各个候选框对应的新的特征向量；

S202：将N个候选框按置信度c的大小进行排序，选出置信度c大的前M个候选框；

S303：将所述M个候选框按置信度c的大小重新排序，所述候选框对应的特征向量按排列顺序形成一个特征向量序列。

进一步的，所述步骤S303中，所述M个候选框排序后置信度c形成的包络线为类高斯形状，所述类高斯形状中置信度c最大的候选框位于序列中间，其余候选框按置信度c依次向两侧递减的顺序排列。

进一步的，所述RNN网络为双向RNN网络，将所述特征向量序列中的特征向量按正序输入网络后，按反序再次输入网络。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明借助神经网络的“记忆”能力，将相邻候选框中的内容作为重要的筛选依据，同时候选框相互辅助增强了筛选能力，克服了非极大值抑制法每个候选目标框各自独立、互不关联的不足，提高了筛选的正确率。

2.将N个特征向量、N个预测结果、x²、y²、xy、w²、h²和wh按通道轴堆叠，增加了输入RNN网络的特征向量包含的信息，使所述双向RNN成为更好的分类器，提高分类的准确率。

3.由于置信度高的候选框为目标框的可能性高于置信度低的候选框,排序采用类高斯形状，将置信度高的候选框置于序列中间，保证该置信度高的候选框能接受最多周围的信息，从而更好的筛选出正确的目标框。

4.该发明能有效地从大量候选框中挑选出比非极大值抑制法输出更精确的目标框，提高了目标检测器的整体性能。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明的流程图；

图2是本发明类高斯形状图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合图1、图2对本发明作详细说明。

步骤1：将待测图片输入卷积神经网络进行特征提取，得到N个候选框和所述候选框的预测结果及特征向量；所述预测结果包括候选框左上角的横坐标x、左上角的纵坐标y、候选框的宽度w、候选框的高度h和候选框的置信度c。

步骤2：将各个候选框的特征向量、预测结果、x²、y²、xy、w²、h²和wh按通道轴堆叠(concat)，得到各个候选框对应的新的特征向量；将N个候选框按置信度c的大小进行排序，选出置信度c大的前M个候选框；将所述M个候选框按置信度c的大小重新排序，所述M个候选框排序后置信度c形成的包络线为类高斯形状，所述类高斯形状中置信度c最大的候选框位于序列中间，其余候选框按置信度c依次向两侧递减的顺序排列，所述候选框对应的特征向量按排列顺序形成一个特征向量序列。

步骤3：将所述特征向量序列中的特征向量按正序依次输入双向RNN网络(Recurrent Neural Networks)，再按反序依次输入双向RNN网络，得到所述特征向量序列中各特征向量的置信度d；

步骤4：根据设定的置信度阈值对所述特征向量序列中的特征向量进行筛选，筛选出的特征向量对应的候选框为最终的目标框。

具体实施例

步骤1：将一张含有一个或多个待测目标的待测图片输入卷积神经网络进行特征提取，所述卷积神经网络的目标检测器采用基于DarkNet-19的YOLO，所述卷积神经网络最后一层隐藏层输出845个候选框，并输出述候选框的预测结果和特征向量，所述特征向量的维度为1024；所述预测结果包括候选框左上角的横坐标x、左上角的纵坐标y、候选框的宽度w、候选框的高度h和候选框的置信度c。

步骤2：将各个候选框的特征向量、预测结果、x²、y²、xy、w²、h²和wh按通道轴堆叠(concat)，得到各个候选框对应的新的特征向量，所述新的特征向量的维度为1024+5+6＝1035；

将845个候选框按置信度c的大小进行排序，选出置信度c大的前200个候选框；将所述200个候选框按置信度c的大小重新排序，所述200个候选框排序后置信度c形成的包络线为类高斯形状，所述类高斯形状中置信度c最大的候选框位于序列中间，其余候选框按置信度c依次向两侧递减的顺序排列，所述200个候选框对应的特征向量按排列顺序形成一个特征向量序列(如图2所示)。

步骤3：将所述特征向量序列中的特征向量按正序依次输入双向RNN网络，再按反序依次输入双向RNN网络，双向RNN网络会自动将目标框的置信度c调高,而冗余候选框的置信度c调低,实现类似置信度归一化的功能，所述双向RNN网络输出所述特征向量序列中各特征向量的置信度d；

步骤4：设定的置信度阈值为0.8，置信度d小于该阈值的候选框被去除，留下的为最终的目标框。

Claims

1.一种基于循环神经网络的图像目标检测选框方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于循环神经网络的图像目标检测选框方法，其特征在于：所述预测结果包括候选框左上角的横坐标x、左上角的纵坐标y、候选框的宽度w、候选框的高度h和候选框的置信度c。

3.根据权利要求1和2所述的一种基于循环神经网络的图像目标检测选框方法，其特征在于：所述步骤2的具体步骤如下：

4.根据权利要求3所述的一种基于循环神经网络的图像目标检测选框方法，其特征在于：所述步骤S303中，所述M个候选框排序后置信度c形成的包络线为类高斯形状，所述类高斯形状中置信度c最大的候选框位于序列中间，其余候选框按置信度c依次向两侧递减的顺序排列。

5.根据权利要求1所述的一种基于循环神经网络的图像目标检测选框方法，其特征在于：所述RNN网络为双向RNN网络，将所述特征向量序列中的特征向量按正序输入网络后，按反序再次输入网络。