CN110458115A

CN110458115A - 一种基于时序的多帧集成目标检测算法

Info

Publication number: CN110458115A
Application number: CN201910749550.6A
Authority: CN
Inventors: 陈良银; 周良学; 谢晓东; 黄韫栀; 刘伦鑫; 廖俊华; 段海涵; 代湖明; 张媛媛; 陈彦如
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-11-15
Anticipated expiration: 2039-08-14
Also published as: CN110458115B

Abstract

本发明公开了一种基于时序的多帧集成目标检测算法，包括：S1、输入连续若干帧图片，得到包含若干张图片的序列；S2、提取步骤S1中所得序列的图像特征，得到待检测对象空间信息的特征张量；S3、根据步骤S2中所得特征张量，提取若干帧图片中蕴含的时序信息，得到新的蕴含时序信息的特征张量；S4、基于特征金字塔网络，对步骤S3中所得特征张量进行训练，输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度；S5、根据输出的包围盒位置以及置信度，在每帧图片中画出包围待检测对象的包围盒、类标签和置信度。本发明充分利用连续的多帧图像间存在的时序信息来提高目标检测的准确率，并结合FPN网络解决了小目标难以识别的问题。

Description

一种基于时序的多帧集成目标检测算法

技术领域

本发明属于计算机视觉的技术领域，具体涉及一种基于时序的多帧集成目标检测算法。

背景技术

目标检测一直是计算机视觉中的一个重要问题，目标检测就是讲目标定位与目标分类结合起来，利用图像处理技术、机器学习等多方面的知识，从图像(视频)中定位感兴趣的对象。目标分类负责判断输入的图像中是否包含所需物体(object)，目标定位则负责表示目标物体的位置，并用外接矩形框定位。这需要计算机在准确判断目标类别的同时，还要给出每个目标相对精确的位置。随着计算机技术的迅猛发展，目标检测已在人脸识别、行人跟踪、车牌识别、无人驾驶等领域获得了广泛的应用。

目前主流的目标检测算法都是基于CNN的，目前主流的算法主要存在以下几方面的问题：

1、不能很好的解决目标检测中的多尺度问题，使得对小目标的识别率很低。

2、较少的考虑图像前后帧之间的时序关系，大多是只考虑了待检测物体在图像中的位置信息。

3、模型训练时间太长，对硬件要求太高。

发明内容

本发明的目的在于针对现有技术中的上述不足，提供一种基于时序的多帧集成目标检测算法，以解决小目标难以识别的问题。

为达到上述目的，本发明采取的技术方案是：

一种基于时序的多帧集成目标检测算法，其包括：

S1、输入连续若干帧图片，得到包含若干张图片的序列；

S2、提取步骤S1中所得序列的图像特征，得到待检测对象空间信息的特征张量；

S3、根据步骤S2中所得特征张量，提取若干帧图片中蕴含的时序信息，得到新的蕴含时序信息的特征张量；

S4、基于特征金字塔网络，对步骤S3中所得特征张量进行训练，输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度；

S5、根据输出的包围盒位置以及置信度，在每帧图片中画出包围待检测对象的包围盒、类标签和置信度。

优选地，步骤S2具体包括：

将得到的若干张图片序列输入ResNet-50神经网络中提取图像特征，得到包含待检测对象的空间信息的C3、C4、C5层特征张量。

优选地，步骤S2中，输入为n*m*m*3的张量，其中，第一维表示图片数量，第二、三维表示图片分辨率，第四维表示通道数。

优选地，步骤S3的具体包括：

将C3、C4、C5层的特征张量分别输入到1个双向CLSTM神经网络中，提取若干帧图片中蕴含的时序信息，得到新的蕴含时序信息的C3、C4、C5层特征张量。

优选地，每一个双向LSTM神经网络包括一个前向神经网络和一个反向神经网络，前向和反向神经网络均包括若干个神经元。

优选地，前向神经网络中，第1,2…n帧图像特征作为对应的第1,2…n个神经元的输入；反向神经网络中，第n,n-1…1帧图像特征作为对应的第1,2…n个神经元的输入；正向神经网络和反向神经网络输出的特征张量的通道数为输入的一半，再将正向和反向神经网络的特征张量进行通道拼接，得到和输入的特征张量一样的通道数，不改变输入的特征张量的维度。

优选地，步骤S4具体包括：

将经过双向CLSTM计算出的C3、C4、C5层特征张量输入到特征金字塔网络中进行训练，输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度。

本发明提供的基于时序的多帧集成目标检测算法，具有以下有益效果：

本发明充分利用连续的多帧图像间存在的时序信息来提高目标检测的准确率，并结合FPN网络解决了小目标难以识别的问题。除此，本发明在检测时同时考虑图像之间的时序信息和空间位置信息，大幅度提高目标检测识别的正确率和减少模型训练的时间。

附图说明

图1为提取图像时序特征。

图2为双向LSTM提取图像时序特征。

图3为目标检测框架。

图4为目标检测总体框架

图5为目标检测效果图

图6为流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

根据本申请的一个实施例，参考图6，本方案的基于时序的多帧集成目标检测算法，包括：

S1、输入连续8帧图片，得到包含8张图片的序列；

S3、根据步骤S2中所得特征张量，提取8帧图片中蕴含的时序信息，得到新的蕴含时序信息的特征张量；

根据本申请的一个实施例，以下对步骤S1至S5进行详细描述。

S1、参考图1，输入包含待检测对象且具备时序关系的连续8帧图片，得到包含8张图片的序列，其具体步骤包括：

首先输入包含待检测图像且具备时序关系(即存在前后关系)的连续8帧图片，8张图片的分辨率均为288*288，分辨率可改变。每张图片的通道数为3，8帧图片即可转变为8*288*288*3的张量，其中第一维表示图片数量，第二、三维表示图片分辨率，第四维表示图片通道数。

S2、参考图1，将得到的图片序列输入到一个ResNet-50神经网络中提取图像特征，得到包含待检测对象的空间信息的C3、C4、C5层(即ResNet-50神经网络中第三、第四、第五层)特征张量，其具体步骤包括：

将步骤S1中所得张量输入到ResNet-50神经网络中提取每张图像的空间信息，得到包含待检测对象的空间信息的C3、C4、C5层(即ResNet-50神经网络中第三、第四、第五层)特征张量，C3、C4、C5层特征张量维度为8*36*36*512、8*18*18*1024和8*9*9*2048。

S3、参考图2，把C3、C4、C5层的特征张量分别输入到3个双向CLSTM神经网络中提取8帧图片中蕴含的时序信息，得到新的蕴含时序信息的C3、C4、C5层特征张量，其具体步骤包括：

将包含时序信息的C3、C4、C5层特征张量分别输入到一个双向LSTM神经网络中提取连续8帧图像间的时序特征。每一个双向LSTM神经网络由一个前向神经网络和一个反向神经网络组成，前向和反向神经网络均由8个神经元组成，其区别在于输入的顺序不同。

在前向神经网络中，第1,2…8帧图像特征作为对应的第1,2…8个神经元的输入；而在反向神经网络中，第8,7…1帧图像特征作为对应的第1,2…8个神经元的输入。正向神经网络和反向神经网络输出的特征张量的通道数为输入的一半(如输入8*9*9*2048的特征张量，输出为8*9*9*1024)，再将正向和反向神经网络的特征张量进行通道拼接，得到和输入的特征张量一样的通道数，从而不改变输入的特征张量的维度。

S4、参考图3和图4，将经过双向CLSTM计算出的C3、C4、C5层特征张量输入到一个特征金字塔网络(FPN)中进行训练，输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度。

参考图5，本发明充分利用连续的多帧图像间存在的时序信息来提高目标检测的准确率，并结合FPN网络解决了小目标难以识别的问题。除此，本发明在检测时同时考虑图像之间的时序信息和空间位置信息，大幅度提高目标检测识别的正确率和减少模型训练的时间。

虽然结合附图对发明的具体实施方式进行了详细地描述，但不应理解为对本专利的保护范围的限定。在权利要求书所描述的范围内，本领域技术人员不经创造性劳动即可做出的各种修改和变形仍属本专利的保护范围。

Claims

1.一种基于时序的多帧集成目标检测算法，其特征在于，包括：

S1、输入连续若干帧图片，得到包含若干张图片的序列；

2.根据权利要求1所述的基于时序的多帧集成目标检测算法，其特征在于：所述步骤S2具体包括：

3.根据权利要求2所述的基于时序的多帧集成目标检测算法，其特征在于：所述步骤S2中，输入为n*m*m*3的张量，其中，第一维表示图片数量，第二、三维表示图片分辨率，第四维表示通道数。

4.根据权利要求1所述的基于时序的多帧集成目标检测算法，其特征在于：所述步骤S3的具体包括：

5.根据权利要求4所述的基于时序的多帧集成目标检测算法，其特征在于：所述每一个双向LSTM神经网络包括一个前向神经网络和一个反向神经网络，前向和反向神经网络均包括若干个神经元。

6.根据权利要求5所述的基于时序的多帧集成目标检测算法，其特征在于：所述前向神经网络中，第1,2…n帧图像特征作为对应的第1,2…n个神经元的输入；反向神经网络中，第n,n-1…1帧图像特征作为对应的第1,2…n个神经元的输入；正向神经网络和反向神经网络输出的特征张量的通道数为输入的一半，再将正向和反向神经网络的特征张量进行通道拼接，得到和输入的特征张量一样的通道数，不改变输入的特征张量的维度。

7.根据权利要求1所述的基于时序的多帧集成目标检测算法，其特征在于：所述步骤S4具体包括：