CN110674886B

CN110674886B - 一种融合多层级特征的视频目标检测方法

Info

Publication number: CN110674886B
Application number: CN201910948797.0A
Authority: CN
Inventors: 郭昌野; 万超伦; 王文
Original assignee: Yi Tai Fei Liu Information Technology LLC
Current assignee: Yi Tai Fei Liu Information Technology LLC
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2022-11-25
Anticipated expiration: 2039-10-08
Also published as: CN110674886A

Abstract

本发明公开了一种融合多层级特征的视频目标检测方法，本发明具体包括以下步骤：S1、首先通过视频图像采集模块采集图像，并且将采集到的每一帧图片发送给检测模块检测，S2、再通过多层级特征提取模块将传入的视频帧进行特征提取，S3、然后通过时序信息融合模块将当前帧传入的特征与之前帧传入的特征进行融合，得到融合后的特征，本发明涉及视频目标检测技术领域。该融合多层级特征的视频目标检测方法，可实现通过融合视频多层级特征的操作，降低了已有方案中在对视频帧处理时的冗余操作，更好的利用了视频中的时序信息，在提高视频目标检测准确度的同时，加快了视频目标检测的帧率，检测速度更快并且准确率也更高。

Description

一种融合多层级特征的视频目标检测方法

技术领域

本发明涉及视频目标检测技术领域，具体为一种融合多层级特征的视频目标检测方法。

背景技术

随着科学技术的发展，摄像设备得到了快速的普及，应运而生了海量的视频数据，随之而来的，视频目标检测技术也愈渐成熟，视频目标检测的目的在于准确分类视频中出现的目标并精确定位目标位置，这在实时视频监控、交通舆情检测等领域都有着十分重要的作用。因其重要性，视频中的目标检测一直是计算机视觉领域中热门的课题，现有的视频目标检测方法主要分为两种：第一种主要侧重于将视频处理得到的每一帧静态帧进行单独的目标检测，再将每一帧的目标检测结果组合起来，得到整个视频的目标检测结果(例如SSD(轻量级单步多框预测器)算法等)，第二种主要侧重于利用视频两帧或多帧之间的关联关系进行分析，再进行目标检测，基于单帧的视频目标检测检测速度较快，基于多帧的视频目标检测检测精度较高，由此可见，设计一种拥有高精度、实时的视频目标检测方法，是十分有必要的。

1、现有技术的技术方案

视频目标检测方案为首先会采用SSD目标检测算法对视频帧进行处理，得到当前帧的目标检测框，然后技术一再依据当前帧的目标检测框，采用两种方案分别对视频的下一帧检测框进行预测。

第一种方案采用的是光流算法，对于给出检测框的目标，均匀的取100个点，再根据当前帧与下一帧之间的光流图，计算出下一帧中这100个点的对应位置，之后再利用计算出的100个点，反向推导当前帧的100个点位置，最后计算当前帧100个推导点的坐标与实际100个点的坐标的欧氏距离，如果距离小于所设阈值，则给出下一帧的目标检测框。

第二种方案采用全卷积神经网络，将神经网络对视频帧处理之后得到的中高层特征和底层的特征进行分别卷积，最后通过分类器将其融合成特征图，从而确定下一帧的目标检测框。

最后，将两种检测方案对下一帧的检测结果分别提取HOG(方向梯度直方图)特征，通过SVM(支持向量机)将两个结果进行有效性判别，从而最终确定下一帧的目标检测框。

2、现有技术的缺点

存在着以下两种缺陷：

(1)、准确度低：采用的全卷积神经网络单独对视频的下一帧进行特征提取与目标检测，忽略了视频帧间存在的时序信息，导致检测结果的不稳定。

(2)、速度慢：有两个原因导致技术一无法高速运行，首先，提取了视频帧间的光流图，对于视频数据而言，每两帧都去提取光流是极为耗时的；其次，得到下一帧检测框的方法，要求两种不同的方案并行运行，需要花费大量时间。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种融合多层级特征的视频目标检测方法，相比现有的视频目标检测方法而言，本发明能更好的利用视频帧间的时序信息，从而在提高视频目标检测准确度的情况下，降低视频目标检测的计算量得到更高的视频目标检测帧率，实现在提高视频中目标检测结果的准确性的同时，提高目标检测的速度。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种融合多层级特征的视频目标检测方法，具体包括以下步骤：

S1、首先通过视频图像采集模块采集图像，并且将采集到的每一帧图片发送给检测模块检测；

S2、再通过多层级特征提取模块将传入的视频帧进行特征提取；

S3、然后通过时序信息融合模块将当前帧传入的特征与之前帧传入的特征进行融合，得到融合后的特征；

S4、之后通过目标候选输出模块将含有时序信息的融合特征进行检测得到检测框；

S5、然后通过检测结果输出模块将视频帧检测得到的结果进行输出。

优选的，其系统结构包括：视频图像采集模块、多层级特征提取模块、时序信息融合模块、目标候选输出模块和检测结果输出模块。

优选的，所述视频图像采集模块从摄像头采集系统获得视频流。

优选的，所述视频图像采集模块的摄像头为模拟摄像机或数字摄像机。

优选的，所述多层级特征提取模块将视频图像采集模块输出的视频流按视频帧的时序输入进特征提取器中，提取视频帧的特征。

优选的，所述时序信息融合模块将多层级特征提取模块中输出的当前帧特征与时序信息融合模块中存储的过往帧特征进行融合，得到融合特征。

优选的，所述目标候选输出模块将时序信息融合模块输出的融合特征进行检测得到当前帧的目标检测框。

优选的，所述检测结果输出模块将目标候选输出模块得到的检测框标注在视频帧上，按照时序合并视频帧，输出最终的检测结果。

(三)有益效果

本发明提供了一种融合多层级特征的视频目标检测方法。与现有技术相比具备以下有益效果：

(1)、该融合多层级特征的视频目标检测方法，具体包括以下步骤：S1、首先通过视频图像采集模块采集图像，并且将采集到的每一帧图片发送给检测模块检测，S2、再通过多层级特征提取模块将传入的视频帧进行特征提取，S3、然后通过时序信息融合模块将当前帧传入的特征与之前帧传入的特征进行融合，得到融合后的特征，S4、之后通过目标候选输出模块将含有时序信息的融合特征进行检测得到检测框，S5、然后通过检测结果输出模块将视频帧检测得到的结果进行输出，可实现通过融合视频多层级特征的操作，降低了已有方案中在对视频帧处理时的冗余操作，更好的利用了视频中的时序信息，在提高视频目标检测准确度的同时，加快了视频目标检测的帧率，实现了通过n个(n>＝2)不同量级的CNN按照时序交替提取视频帧特征，减少了视频目标检测任务中的冗余计算，提高了检测帧率，能够达到提高视频中目标检测结果的准确性的同时，提高目标检测的速度，相比现有的视频目标检测方法而言，本发明能更好的利用视频帧间的时序信息，从而在提高视频目标检测准确度的情况下，降低视频目标检测的计算量得到更高的视频目标检测帧率。

(2)、该融合多层级特征的视频目标检测方法，通过利用ConvLSTM对CNN提取的特征进行处理，摆脱了传统方法中通过计算光流图来获取视频时序信息的操作，检测速度更快并且准确率也更高。

附图说明

图1为本发明实施例提供的系统结构图；

图2为本发明实施例提供的视频目标检测方法流程图。

图中，101视频图像采集模块、102多层级特征提取模块、103时序信息融合模块、104目标候选输出模块、105检测结果输出模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明实施例提供一种技术方案：一种融合多层级特征的视频目标检测方法，具体包括以下步骤：

S1、首先通过视频图像采集模块101采集图像，并且将采集到的每一帧图片发送给检测模块检测；

S2、再通过多层级特征提取模块102将传入的视频帧进行特征提取；

S3、然后通过时序信息融合模块103将当前帧传入的特征与之前帧传入的特征进行融合，得到融合后的特征；

S4、之后通过目标候选输出模块104将含有时序信息的融合特征进行检测得到检测框；

S5、然后通过检测结果输出模块105将视频帧检测得到的结果进行输出。

由图1所示，本发明系统结构包括：视频图像采集模块101、多层级特征提取模块102、时序信息融合模块103、目标候选输出模块104和检测结果输出模块105，视频图像采集模块101从摄像头采集系统获得视频流，视频图像采集模块101的摄像头为模拟摄像机或数字摄像机，多层级特征提取模块102将视频图像采集模块101输出的视频流按视频帧的时序输入进特征提取器中，提取视频帧的特征，时序信息融合模块103将多层级特征提取模块102中输出的当前帧特征与时序信息融合模块103中存储的过往帧特征进行融合，得到融合特征，目标候选输出模块104将时序信息融合模块103输出的融合特征进行检测得到当前帧的目标检测框，检测结果输出模块105将目标候选输出模块104得到的检测框标注在视频帧上，按照时序合并视频帧，输出最终的检测结果。

由图2所示，本发明视频目标检测方法的流程，具体的实现模块如下所述：

模块201：模块201首先将得到的视频流进行处理，按照时序t提取出视频帧f，依次进行输出。

模块202与模块203：本方法会对视频的多层级特征进行提取，从而进行视频目标检测，提取视频的多层级特征即对模块201中按照时序顺序输出的视频帧，分别采用n个(n>＝2)不同量级的CNN(卷积神经网络)进行特征提取，CNN量级的选取，一般采用一个用来提取视频帧精确特征的高精度CNN和多个不同输入维度、用来提取视频帧主旨特征的轻量级CNN，图2中只画出了当n＝2时的视频目标检测方法流程图，即一个高精度CNN与一个轻量级CNN交错使用，对视频帧f按照时序进行特征提取。

模块204：模块204中采用ConvLSTM单元，按照时序依次接收模块202或模块203中提取的特征，ConvLSTM单元是一个有着记忆功能的循环神经网络单元，因此随着时序的增加，ConvLSTM单元可以将当前帧输入的特征，与之前帧输入的特征进行融合，得到一个包含当前帧特征与过往帧特征的融合特征，即当时间t+1时，ConvLSTM(卷积长短期记忆网络)单元接收由轻量级CNN提取到的特征dt+1，此时ConvLSTM单元中存储着时间t时由高精度CNN提取到的特征dt，因此，当前ConvLSTM单元将会输出一个融合了dt与dt+1的融合特征。

模块205：模块205按照时序接收模块204输出的当前帧的融合特征，采用SSDLite(轻量级单步多框预测器)层作为检测层对融合特征提取候选框，再采用非极大值抑制等后处理操作后，得到当前帧最终的目标检测框，并输出检测框。

综上所述

本发明可实现通过融合视频多层级特征的操作，降低了已有方案中在对视频帧处理时的冗余操作，更好的利用了视频中的时序信息，在提高视频目标检测准确度的同时，加快了视频目标检测的帧率，实现了通过n个(n>＝2)不同量级的CNN按照时序交替提取视频帧特征，减少了视频目标检测任务中的冗余计算，提高了检测帧率，能够达到提高视频中目标检测结果的准确性的同时，提高目标检测的速度，相比现有的视频目标检测方法而言，本发明能更好的利用视频帧间的时序信息，从而在提高视频目标检测准确度的情况下，降低视频目标检测的计算量得到更高的视频目标检测帧率，同时，通过利用ConvLSTM对CNN提取的特征进行处理，摆脱了传统方法中通过计算光流图来获取视频时序信息的操作，检测速度更快并且准确率也更高。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种融合多层级特征的视频目标检测方法，其特征在于：具体包括以下步骤：

S1、首先通过视频图像采集模块(101)采集图像，并且将采集到的每一帧图片发送给检测模块检测；

S2、再通过多层级特征提取模块(102)将传入的视频帧进行特征提取；

S3、然后通过时序信息融合模块(103)将当前帧传入的特征与之前帧传入的特征进行融合，得到融合后的特征；

S4、之后通过目标候选输出模块(104)将含有时序信息的融合特征进行检测得到检测框；

S5、然后通过检测结果输出模块(105)将视频帧检测得到的结果进行输出；

视频目标检测方法的流程，具体实现模块如下所述：模块202与模块203：本方法会对视频的多层级特征进行提取，从而进行视频目标检测，提取视频的多层级特征即对模块201中按照时序顺序输出的视频帧，分别采用n个，不同量级的CNN进行特征提取，CNN量级的选取，一般采用一个用来提取视频帧精确特征的高精度CNN和多个不同输入维度、用来提取视频帧主旨特征的轻量级CNN；

模块204：模块204中采用ConvLSTM单元，按照时序依次接收模块202或模块203中提取的特征，ConvLSTM单元是一个有着记忆功能的循环神经网络单元，因此随着时序的增加，ConvLSTM单元可以将当前帧输入的特征，与之前帧输入的特征进行融合，得到一个包含当前帧特征与过往帧特征的融合特征，当前ConvLSTM单元将会输出一个融合了dt与dt+1的融合特征。

2.根据权利要求1所述的一种融合多层级特征的视频目标检测方法，其特征在于：其系统结构包括：视频图像采集模块(101)、多层级特征提取模块(102)、时序信息融合模块(103)、目标候选输出模块(104)和检测结果输出模块(105)。

3.根据权利要求2所述的一种融合多层级特征的视频目标检测方法，其特征在于：所述视频图像采集模块(101)从摄像头采集系统获得视频流。

4.根据权利要求3所述的一种融合多层级特征的视频目标检测方法，其特征在于：所述视频图像采集模块(101)的摄像头为模拟摄像机或数字摄像机。

5.根据权利要求2所述的一种融合多层级特征的视频目标检测方法，其特征在于：所述多层级特征提取模块(102)将视频图像采集模块(101)输出的视频流按视频帧的时序输入进特征提取器中，提取视频帧的特征。

6.根据权利要求2所述的一种融合多层级特征的视频目标检测方法，其特征在于：所述时序信息融合模块(103)将多层级特征提取模块(102)中输出的当前帧特征与时序信息融合模块(103)中存储的过往帧特征进行融合，得到融合特征。

7.根据权利要求2所述的一种融合多层级特征的视频目标检测方法，其特征在于：所述目标候选输出模块(104)将时序信息融合模块(103)输出的融合特征进行检测得到当前帧的目标检测框。

8.根据权利要求2所述的一种融合多层级特征的视频目标检测方法，其特征在于：所述检测结果输出模块(105)将目标候选输出模块(104)得到的检测框标注在视频帧上，按照时序合并视频帧，输出最终的检测结果。