CN111339863B

CN111339863B - 一种基于物体导向外部记忆模块的视频物体检测模型

Info

Publication number: CN111339863B
Application number: CN202010097320.9A
Authority: CN
Inventors: 马汝辉; 邓瀚铭; 宋涛; 华扬; 管海兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2022-12-20
Anticipated expiration: 2040-02-17
Also published as: CN111339863A

Abstract

本发明公开了一种基于物体导向外部记忆模块的视频物体检测模型，涉及计算机视觉方向的视频物体检测领域，包括外部记忆模块，以及与所述外部记忆模块相连接的外部记忆输入模块和外部记忆输出模块；所述外部记忆模块为物体导向的多级外部记忆模块；所述外部记忆模块包括特征存储矩阵，用于存储特征；所述特征由所述外部记忆输入模块从特征图中进行选择并输入；所述外部记忆输出模块将所述外部记忆模块中的所述特征输出到所述特征图中。本发明具有更好的存储空间利用率和更好的保存长时记忆的能力，同时达到更好的视频物体检测性能。

Description

一种基于物体导向外部记忆模块的视频物体检测模型

技术领域

本发明涉及计算机视觉方向的视频物体检测领域，尤其涉及一种基于物体导向外部记忆模块的视频物体检测模型。

背景技术

基于图像的最新物体检测器为基于图像的物体检测提供了有效的检测框架，但是当这类图像物体检测器应用于视频物体检测时，由于视频帧的质量较低，存在各种在图片数据集中难得出现的情况，例如运动模糊，散焦和遮挡。由于在这类低质量视频帧中，仅凭一帧的内容无法准确检出物体，因此将这类基于单帧图片的物体检测方法直接应用于视频时，检测性能不能达到理想的状态。

为了从根本上提高视频物体检测性能，使检测器能够提供更高质量的卷积特征，最新的视频物体检测器则利用视频中的丰富时序信息来增强卷积神经网络所提取的特征表示，尤其是在低质量帧的特征表示。由于帧内容移位，为了通过时序信息增强视频帧的特征表示，首先要对齐不同帧的卷积特征图，然后将对其的不同帧的特征图与当前帧聚合。这些时序特征图有多种不同的名称，例如时序记忆或记忆缓存，卷积特征图被直接当作用于传播记录时序信息的载体。我们将如何读取和写入时序记忆的方法放在一个统一的视图下来比较，这些方法被分为密集聚合方法和循环聚合方法。

在密集聚合方法中，时序记忆由多个临近帧提取的卷积特征图组成。读取涉及将所有卷积特征图进行空间上的对齐并聚合到当前帧中。聚合的特征图用于在当前帧上进行检测。每次检测后，在检测下一帧时，都会写入下一帧的临近帧的特征图以替换当前存储的特征图。上述方法旨在为当前帧提供足够的时序信息。

在循环聚合方法中，时序记忆内容仅包含一个卷积特征图，读写同时进行。当内存特征图对齐并聚合到当前帧中时，聚合的特征图用于在当前帧上进行检测，并成为新的内存特征图。上述方法相比密集聚合法的检测速度更快，并且能够进行在线物体检测。在密集聚合和循环聚合方法中，时序内存都是由检测网络内完整大小的特征图组成，其大小和内容组织完全取决于检测网络和输入帧中的特征分布，因此被称为“内部记忆”。

内部记忆在时间传播方面有缺陷。在密集聚合方法中，通常会存储20多个临近帧的特征图，以提供足够的时序信息。由于内部记忆存储具有完整大小的特征图，与检测对象无关的冗余信息也会被存储和传播，从而导致存储效率低下。在循环聚合方法中，所有过去的信息都被压缩到一个特征图中，其中信息的空间位置仅取决于当前帧中内容的位置，会导致当当前帧的内容变差，物体表面特征或视野急剧变化时，很容易中断有用的长期信息，因为当前聚合的特征图将成为新的时序记忆并覆盖旧的记忆。

有鉴于已有技术的上述缺陷，本发明所要解决的技术问题是提出一个更好地利用时序信息的视频物体检测模型，该模型可以拥有更好的存储空间利用率和更好的保存长时记忆的能力，同时达到更好的视频物体检测性能。

因此，本领域的技术人员致力于开发一种基于物体导向外部记忆模块的视频物体检测模型，以克服现有技术中存在的技术缺陷。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提出一个更好地利用时序信息的视频物体检测模型，该模型可以拥有更好的存储空间利用率和更好的保存长时记忆的能力，同时达到更好的视频物体检测性能。除此之外，该模型还需要克服两个技术难点：

1、如何使模型更能提取出有意义的记忆内容来，从而为之后帧的检测提供有意义的时序信息，同时避免记忆过于庞大，从而避免需要大量的存储空间来存储记忆而减慢检测速度。除此之外，还需要保证不需要的记忆被及时清除，需要的记忆被长时间保存来维护长时记忆；

2、如何将外部记忆的内容精准的聚合到当前帧中。由于外部记忆具有可变大小的特性，并且其中存储有各个种类的记忆，所以只需要将相关的记忆聚合到当前检测的卷积特征图中对应的特征上，避免错误的聚合。

为实现上述目的，本发明提供了一种基于物体导向的外部记忆模块的视频检测模型，包括外部记忆模块，以及与所述外部记忆模块相连接的外部记忆输入模块和外部记忆输出模块；

所述外部记忆模块为物体导向的多级外部记忆模块；

所述外部记忆模块包括特征存储矩阵，用于存储特征；

所述特征由所述外部记忆输入模块从特征图中进行选择并输入；

所述外部记忆输出模块将所述外部记忆模块中的所述特征输出到所述特征图中。

进一步地，还包括物体检测模块。

进一步地，所述物体检测模块包括物体检测框；

所述物体检测框将位于所述物体检测框内的所述特征图上的所述特征裁出；

所述外部记忆输入模块根据所述物体检测框的置信度进行所述特征的选择；

如果所述物体检测框的所述置信度高于设定的阈值，则将位于所述物体检测框内的所述特征图上的所述特征输入所述外部记忆模块中；

如果所述外部记忆模块中存在与输入的所述外部记忆模块中的所述特征相似的特征，则根据点积注意力机制留下置信度最高的所述特征，去除置信度不是最高的所述特征。

进一步地，所述外部记忆输出模块根据所述特征图的所述点积注意力从所述外部记忆模块中的所述特征中选择与所述特征图相关的所述特征，并输出到所述特征图中。

进一步地，所述特征图来自于一帧图像；所述特征图为深度卷积网络特征图；所述特征为卷积特征。

进一步地，所述一帧图像来自于视频；所述视频包含多帧图像；所述多帧图像按照时间顺序排列。

进一步地，所述特征存储矩阵中所存储的所述特征的数量可变。

进一步地，还包括一种视频检测方法，所述方法包括以下步骤：

步骤1、按时间顺序输入视频帧，所述视频检测模型对所述视频帧按帧提取所述卷积特征，形成所述视频帧的所述深度卷积网络特征图；

步骤2、所述外部记忆模块读入所述步骤1中形成的所述深度卷积网络特征图，进行所述点击注意力的操作，形成所述点击注意力矩阵，并根据所述点积注意力矩阵将所述外部记忆模块中的所述卷积特征聚合到所述深度卷积网络特征图上；

步骤3、经过聚合的所述深度卷积网络特征图被用于所述物体检测模块进行物体检测，输出所述视频帧的物体边框和置信度；

步骤4、所述外部记忆输入模块根据检测出的所述物体边框，将所述置信度大于设定的阈值的所述物体边框内的所述卷积特征从经过聚合的所述深度卷积网络特征图上裁处并输入到所述外部记忆模块中；

步骤5、继续检测下一帧，直到视频结束。

进一步地，在所述步骤3中还输出所述视频帧的物体种类。

进一步地，在开始步骤5之前，所述方法还进行如下判断：如果所述外部记忆模块中存在与输入的所述外部记忆模块中的所述卷积特征相似的特征，则根据点积注意力机制留下置信度最高的所述卷积特征，去除置信度不是最高的所述卷积特征。

本发明所提供的视频物体检测模型和检测方法至少具有以下有益的技术效果：

(1)本发明所提供的视频物体检测模型是视频物体检测中使用外部记忆的第一项工作，该外部记忆大小可变，具有更好的存储空间利用率和更好的保存长时记忆的能力，同时达到更好的视频物体检测性能；

(2)本发明中的外部记忆输入模块可以根据物体边框和置信度筛选出优质的卷积特征写入到外部记忆中，并删去外部记忆中的冗余特征，在维护长时记忆的同时减少外部记忆的空间消耗；

(3)本发明中外部记忆输出模块可以准确将大小可变的外部记忆聚合到当前帧中对应的特征上，传播时序信息，提高视频物体检测准确率。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的外部记忆模块示意图；

图2是本发明的一个较佳实施例的模型架构图；

图3是本发明的一个较佳实施例的训练流程示意图；

图4是本发明的一个较佳实施例的运行流程示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

如图1所示，为本发明所提供的一种视频检测模型中外部记忆模块的示意图，其中外部记忆模块与外部记忆输入模块和外部记忆输出模块相连接。

其中，外部记忆模块为物体导向的多级外部记忆模块；

其中，外部记忆模块包括特征存储矩阵，用于存储特征；

其中，特征由外部记忆输入模块从特征图中进行选择并输入；

其中，外部记忆输出模块将外部记忆模块中的特征输出到特征图中。

如图2所示，本发明还提供一种基于视频检测模型的视频检测方法，该方法为：视频物体检测模型对视频帧按时序提取卷积特征，通过物体导向外部记忆模块进行特征采集并对每一帧特征进行增强，输出每一帧中物体的边框和种类。

具体来说，包括以下步骤：

步骤1、按时间顺序输入T帧视频帧，按时间顺序输入视频帧，视频检测模型对视频帧按帧提取卷积特征，形成视频帧的深度卷积网络特征图，深度卷积网络特征图维持原空间特征，每一帧都会被用于进行物体检测；

步骤2、外部记忆模块读入步骤1中形成的深度卷积网络特征图，进行点击注意力的操作，形成点击注意力矩阵，并根据点积注意力矩阵将外部记忆模块中的卷积特征聚合到深度卷积网络特征图上；

步骤3、经过聚合的深度卷积网络特征图被用于物体检测模块进行物体检测，输出视频帧的物体种类、物体边框和置信度；

步骤4、外部记忆输入模块根据检测出的物体边框，将置信度大于设定的阈值的物体边框内的卷积特征从经过聚合的深度卷积网络特征图上裁处并输入到外部记忆模块中(如图4)；

步骤5、继续检测下一帧，直到视频结束。

最后，输出每帧中的物体种类和物体边框。

其中，在开始步骤5之前，该方法还进行如下判断：如果外部记忆模块中存在与输入的外部记忆模块中的卷积特征相似的特征，则根据点积注意力机制留下置信度最高的卷积特征，去除置信度不是最高的卷积特征。

如图3所示，为本发明所描述的物体导向的外部记忆的视频物体检测模型的训练流程示意图，包括以下步骤：

步骤1、按时间顺序输入同一视频的N帧视频和视频帧中的物体种类和边框信息；

步骤2、对该视频检测模型进行端到端训练，在检测每一帧时，首先由深度卷积网络，比如ResNet，提取卷积特征图，特征卷积图维持原空间特征，每帧的特征为经过下采样的1024维的卷积图；

步骤3、初始外部记忆为第一帧的卷积特征图；外部记忆输出模块读入步骤2提取的卷积特征图，与外部记忆模块进行点击注意力操作，并根据所计算的点积注意力矩阵将外部记忆模块中的特征聚合到当前卷积特征图上；

步骤4、经过外部记忆输出模块聚合的特征图被直接替换为外部记忆；之后经过图片检测器，如RFCN，在聚合的特征图上进行物体检测；

然后继续检测下一帧，直到当前输入的帧检测结束；

在检测完一次输入的N帧视频后，根据每一帧物体检测分类和边框回归损失函数更新全部模型参数；

训练模型算法的主程序为代码如下：

步骤5、输入测试集视频帧，在每一帧检测完成后，外部记忆输入模块根据检测出的物体边框，将置信度大于阈值的物体边框内的特征从经过聚合的卷积特征图上裁处，并与外部记忆中同一种类的特征进行相似度比较，若该特征与记忆中同一种类均不相似，则写入外部记忆，否则只留下相似特征中置信度最高的特征。所保留的特征用于下一帧检测，直到视频结束。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于物体导向的外部记忆模块的视频检测模型，其特征在于，包括外部记忆模块，以及与所述外部记忆模块相连接的外部记忆输入模块和外部记忆输出模块；

所述外部记忆模块为物体导向的多级外部记忆模块；

所述外部记忆模块包括特征存储矩阵，用于存储特征；

所述外部记忆输出模块将所述外部记忆模块中的所述特征输出到所述特征图中；

所述视频检测模型还包括物体检测模块，所述物体检测模块包括物体检测框；

如果所述外部记忆模块中存在与输入的所述外部记忆模块中的所述特征相似的特征，则根据点积注意力机制留下置信度最高的所述特征，去除置信度不是最高的所述特征；

视频检测模型的检测方法包括以下步骤：

步骤1、按时间顺序输入视频帧，所述视频检测模型对所述视频帧按帧提取卷积特征，形成所述视频帧的深度卷积网络特征图；

步骤2、所述外部记忆模块读入所述步骤1中形成的所述深度卷积网络特征图，进行所述点积注意力的操作，形成所述点积注意力矩阵，并根据所述点积注意力矩阵将所述外部记忆模块中的所述卷积特征聚合到所述深度卷积网络特征图上；

步骤5、继续检测下一帧，直到视频结束。

2.如权利要求1所述的基于物体导向的外部记忆模块的视频检测模型，其特征在于，所述外部记忆输出模块根据所述特征图的所述点积注意力从所述外部记忆模块中的所述特征中选择与所述特征图相关的所述特征，并输出到所述特征图中。

3.如权利要求2所述的基于物体导向的外部记忆模块的视频检测模型，其特征在于，所述特征图来自于一帧图像；所述特征图为深度卷积网络特征图；所述特征为卷积特征。

4.如权利要求3所述的基于物体导向的外部记忆模块的视频检测模型，其特征在于，所述一帧图像来自于视频；所述视频包含多帧图像；所述多帧图像按照时间顺序排列。

5.如权利要求1所述的基于物体导向的外部记忆模块的视频检测模型，其特征在于，所述特征存储矩阵中所存储的所述特征的数量可变。

6.如权利要求1所述的基于物体导向的外部记忆模块的视频检测模型，其特征在于，在所述步骤3中还输出所述视频帧的物体种类。

7.如权利要求1所述的基于物体导向的外部记忆模块的视频检测模型，其特征在于，在开始步骤5之前，所述方法还进行如下判断：如果所述外部记忆模块中存在与输入的所述外部记忆模块中的所述卷积特征相似的特征，则根据点积注意力机制留下置信度最高的所述卷积特征，去除置信度不是最高的所述卷积特征。