CN111723719A

CN111723719A - 基于类别外部记忆的视频目标检测方法、系统、装置

Info

Publication number: CN111723719A
Application number: CN202010536900.3A
Authority: CN
Inventors: 张兆翔; 谭铁牛; 宋纯锋; 董文恺
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-29
Anticipated expiration: 2040-06-12
Also published as: CN111723719B

Abstract

本发明属于领域，具体涉及了一种基于类别外部记忆的视频目标检测方法、系统、装置，旨在解决现有技术中当辅助帧数量较小时目标检测性能下降明显的问题。本发明包括：先根据训练视频信息通过自注意机制训练视频目标检测模型，再通过训练好的视频目标检测模型和自注意机制获得待测视频增强的实例特征，最后将增强后的实例特征输入通用目标检测网络的分类分支和边界框回归分支得到目标检测结果。本发明降低了现有技术中基于特征整合的视频目标检测方法对辅助帧数目的敏感性，使在辅助帧较少或没有辅助帧的情况下也能准确地进行目标检测。

Description

基于类别外部记忆的视频目标检测方法、系统、装置

技术领域

本发明属于计算机视觉和模式识别领域，具体涉及了一种基于类别外部记忆的视频目标检测方法、系统、装置。

背景技术

视频目标检测是一个重要且具有挑战性的计算机视觉任务，在安防监控、智能视频分析、自动驾驶等领域具有广泛的应用。然而，由于视频中的一些帧存在运动模糊、失焦等现象，直接使用图像检测器来检测视频中的目标效果不够理想。与图像不同，视频数据包含了丰富的时序运动信息，因此，为了解决图像检测器在视频中低质量帧中效果不好的问题，很多方法通过利用时序上下文的信息来提高检测器的性能，如基于特征聚合的方法。虽然这些方法相比图像检测器在性能上取得了很大提升，但是在测试阶段对采样策略很敏感，这是因为这些方法需要采样辅助帧来为当前帧提供上下文信息，辅助帧的质量对性能影响很大，比如当辅助帧数量较少时，性能下降很明显。这些困难在之前的研究中都尚未得到很好的解决，本方法提出的基于类别外部记忆的视频目标检测方法可以较好的解决这一问题。

发明内容

为了解决现有技术中的上述问题，即现有技术的基于特征聚合的图像识别方法在辅助帧数量较小时性能下降明显的问题，本发明的第一方面提供了一种基于类别外部记忆的视频目标检测方法，所述视频目标检测方法包括以下步骤：

步骤S10，将获取的待检测视频转换为帧序列；

步骤S20，依次选择所述图像帧序列中的一帧作为当前帧，选取其他K帧作为当前帧的辅助帧，通过训练好的视频目标检测模型提取每一帧图像对应的实例特征以及每个实例的类别概率分布；K为自然数；

步骤S30，基于所述每个实例的类别概率分布获取当前帧和当前帧对应的辅助帧的类别中心，通过自注意机制获取当前帧每个实例的实例-类别中心关系，并进行当前帧对应的实例特征的增强；

所述每个实例的实例-类别中心关系为当前帧和当前帧对应的辅助帧的每个实例与当前时刻类别外部记忆中所有类别中心的关系；

步骤S40，将增强的当前帧的实例特征输入视频目标检测模型的分类分支和边界框回归分支，获得当前帧中实例的类别和位置；

重复执行步骤S20-步骤S40直至所述图像帧序列检测完成，获得待检测视频的每一帧图像中实例的类别和位置；

其中，所述视频目标检测模型为基于通用目标检测网络和soft-max预分类器构建，并基于训练视频以及设定的全局损失函数，通过反向传播算法和随机梯度下降法来减小所述全局损失函数值，多次迭代获得的用于进行视频目标检测的模型。

在一些优选的实施方式中，步骤S30中“基于所述每个实例的类别概率分布获取当前帧的类别中心”，其方法为：

其中

为第c类的类别中心，

为第i个实例属于第c类的概率，x_i为第i个实例的特征。

在一些优选的实施方式中，步骤S30中“通过自注意机制获取当前帧每个实例的实例-类别中心关系”，其方法为：

其中，s(i,c)为实例-类别中心关系，θ(·)和

均为全连接层，

为第c类的类别中心，x_i为第i个实例的特征，T表示转置。

在一些优选的实施方式中，步骤S30中“进行当前帧对应的实例特征的增强”其方法为：

其中C为类别的数目，W_z为全连接层，x_i为第i个实例的特征，

为第i个增强后的实例特征。

在一些优选的实施方式中，步骤S20之后还设置有类别外部记忆更新的步骤，其方法为：

将所述实例特征和每个实例的类别概率分布与类别外部记忆的历史记录组成新的历史记录并存储在类别外部记忆：

其中，

为上一时刻的第i个实例属于第c类的概率，x_i,t-1为上一时刻的实例特征，

为当前时刻的第i个实例属于第c类的概率，x_i,t为当前时刻的实例特征。

在一些优选的实施方式中，历史记录的大小为C×D，其中D为实例特征的维数。

所述视频目标检测模型，其训练方法为：

步骤B10，将获取的训练视频集合转化为第一帧序列集合，并分别进行图像归一化操作，获得归一化第一帧序列集合；

步骤B20，对于所述归一化第一帧序列集合中每一个归一化第一帧序列，随机选取一帧作为训练帧，m帧作为训练帧对应的辅助帧，通过基于深度学习的通用目标检测网络提取每一帧图像对应的第一实例特征；m为自然数；

步骤B30，将所述第一实例特征输入soft-max预分类器，得到每个第一实例对应的第一类别概率分布，并计算soft-max预分类器的损失函数值L_pre；

步骤B40,基于所述第一实例特征和第一类别概率分布获取训练帧和训练帧对应的辅助帧的第一类别中心，并将所述第一类别中心存入类别外部记忆；

步骤B50，通过自注意机制计算训练帧的每个第一实例的第一实例-类别中心关系，并进行训练帧对应的第一实例特征的增强；

所述第一实例-类别中心关系为训练帧的每个第一实例和当前时刻类别外部记忆中所有类别中心的关系；

步骤B60，将增强的训练帧对应的第一实例特征输入通用目标检测网络的分类分支和边界框回归分支，获得训练帧中实例的类别和位置；

步骤B70，通过反向传播算法和随机梯度下降法来减小全局损失函数迭代训练soft-max预分类器和通用目标检测网络，直至全局损失函数值低于设定阈值或达到设定训练次数，得到训练好的视频目标检测模型。

在一些优选的实施方式中，所述全局损失函数为：

L_all＝L_rcnn+L_pre+L_rpn

其中，L_all为全局损失函数，L_rpn为目标检测模型中区域提案网络部分的损失函数；L_rcnn为增强后的实例特征输入的通用目标检测网络的分类分支和边界框回归分支的损失函数；L_pre为soft-max预分类器的损失函数。

本发明的另一方面，提出了一种基于类别外部记忆的视频目标检测系统，包括检测视频预处理模块100、特征及概率分布计算模块200、特征增强模块300和实例分类模块400：

检测视频预处理模块100，用于将获取的待检测视频转换为帧序列；

特征及概率分布计算模块200，用于依次选择所述图像帧序列中的一帧作为当前帧，选取其他K帧作为当前帧的辅助帧，通过训练好的视频目标检测模型提取每一帧图像对应的实例特征以及每个实例的类别概率分布；K为自然数；

特征增强模块300，基于所述每个实例的类别概率分布获取当前帧和当前帧对应的辅助帧的类别中心，通过自注意机制获取当前帧每个实例的实例-类别中心关系，并进行当前帧对应的实例特征的增强；

实例分类模块400，用于将增强的当前帧的实例特征输入视频目标检测模型的分类分支和边界框回归分支，获得当前帧中实例的类别和位置；

重复执行特征及概率分布计算模块200-实例分类模块400的功能直至所述图像帧序列检测完成，获得待检测视频的每一帧图像中实例的类别和位置；

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于类别外部记忆的视频目标检测方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于类别外部记忆的视频目标检测方法。

本发明的有益效果：

(1)通过采用基于自注意机制的读取方法，在实例-类别中心关系的指导下利用类别外部记忆中存储的类别的全局表达来增强当前帧中实例的特征，增强了实例特征的鲁棒性和判别力。

(2)通过外部记忆以类别全局表达的形式存储当前帧及其辅助帧信息及过去时刻的所有信息，将长时的时序信息传递给当前帧，增强当前帧特征的鲁棒性和判别力，提高目标检测的准确率。

(3)通过提高不同辅助帧采样策略的鲁棒性降低了现有技术中基于特征整合的视频目标检测方法对辅助帧数目的敏感性，使在辅助帧较少或没有辅助帧的情况下也能准确的进行目标检测。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于类别外部记忆的视频目标检测方法流程示意图；

图2是本发明基于类别外部记忆的视频目标检测方法中的视频目标检测模型获得方法示意图；

图3是本发明实施例中基于类别外部记忆的目标检测模型示意图；

图4是本发明实施例中外部记忆的写入操作示意图；

图5是本发明实施例中外部记忆的读取操作示意图；

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于类别外部记忆的视频目标检测方法，该方法引入的类别外部记忆能以类别全局表达的形式存储当前测试帧及其辅助帧的信息，还可以存储过去时刻的所有信息，将长时的时序信息传递给当前测试帧，增强其特征的鲁棒性和判别力，提高视频目标检测的准确率。在测试过程中，该方法对于不同的辅助帧采样策略具有极强的鲁棒性。以某大型目标检测数据库为例，其中包含3862段训练视频和555段测试视频，30类目标。最终获取的视频目标检测模型，其检测结果精度高、准确率高，模型的鲁棒性好。

本发明的一种基于类别外部记忆的视频目标检测方法，该目标检测方法包括：

步骤S10，将获取的待检测视频转换为图像帧序列；

步骤S50，重复执行步骤S20-步骤S40直至所述图像帧序列检测完成，获得待检测视频的每一帧图像中实例的类别和位置；

为了更清晰地对本发明基于类别外部记忆的视频目标检测方法进行说明，下面结合图1本发明基于类别外部记忆的视频目标检测方法流程示意图和图3本发明实施例中基于类别外部记忆目标检测模型示意图对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于类别外部记忆的视频目标检测方法，包括步骤S10-步骤S50，各步骤详细描述如下

步骤S10，将获取的待检测视频转换为图像帧序列；

优选的，可以将每帧图像归一化处理，如归一化为短边长度至少600个像素。

K通常的取值范围为0-25的整数，在模型的应用中，可以不选取辅助帧也能获得较好的检测结果，因此，在一些实施例中，K的取值可以为0。

如图2本发明基于类别外部记忆的视频目标检测方法中的视频目标检测模型获得方法示意图所示，视频目标检测模型的训练方法为：

步骤B20，对于所述归一化第一帧序列集合中每一个归一化第一帧序列，随机选取一帧作为训练帧，m帧作为辅助帧，m为自然数优选地为平衡训练速度和模型性能的选择，选取两帧为训练帧对应的辅助帧，选取其他数目的帧数也可以达到类似效果此处不做具体限定，通过基于深度学习的通用目标检测网络提取每一帧图像对应的第一实例特征；

本发明一个实施例中，通用目标检测网络选取Faster R-CNN，在其他的实施例中，也可以根据需要选择合适的网络，本发明在此不一一详述；

全局损失函数如式(1)所示：

L_all＝L_rcnn+L_pre+L_rpn

式(1)

其中，L_all为全局损失函数，L_rpn为目标检测模型中区域提案网络部分的损失函数；L_rcnn为增强后的实例特征输入通用目标检测网络的分类分支和边界框回归分支的损失函数；L_pre为soft-max预分类器的损失函数。

在一些优选的实施方式中，步骤S20之后还设置有类别外部记忆更新的步骤，如图4本发明实施例中外部记忆的写入操作示意图，所示，其方法为：

将所述实例特征和每个实例的类别概率分布与类别外部记忆的历史记录组成新的历史记录并存储在类别外部记忆，如式(2)所示：

其中，

在测试阶段，历史记录内容的大小为C×D，其中D为实例特征的维数。因此，记忆内容大小不会随着时间的推移越来越大。

步骤S30，基于所述每个实例的类别概率分布获取当前帧的类别中心，通过自注意机制获取当前帧每个实例的实例-类别中心关系，并进行当前帧对应的实例特征的增强；

所述每个实例的实例-类别中心关系为当前帧的每个实例与当前时刻类别外部记忆中所有类别中心的关系；

基于所述每个实例的类别概率分布获取当前帧的类别中心，如式(3)所示：

其中

为第c类的类别中心，

为第i个实例属于第c类的概率，x_i为第i个实例的特征。

图5为本发明实施例中外部记忆的读取示意图，读取过程包括：“通过自注意机制获取当前帧每个实例的实例-类别中心关系；进行当前帧对应的实例特征的增强”；

通过自注意机制获取当前帧每个实例的实例-类别中心关系，如式(4)所示：

其中，s(i,c)为实例-类别中心关系，θ(·)和

均为全连接层，

为第c类的类别中心，x_i为第i个实例的特征，T表示转置。

进行当前帧对应的实例特征的增强，如式(5)所示：

其中C为类别的数目，W_z为全连接层矩阵，W_z是一个D×D的矩阵，D为实例特征的维数，x_i为第i个实例的特征，

为第i个增强后的实例特征。

步骤S40，将增强的当前帧的实例特征输入通用目标检测网络的分类分支和边界框回归分支，获得当前帧中实例的类别和位置；

其中，所述视频目标检测模型基于通用目标检测网络和soft-max预分类器构建，并基于训练视频以及设定的全局损失函数，通过反向传播算法和随机梯度下降法来减小所述全局损失函数值，多次迭代获得的用于进行视频目标检测的模型。

本发明提供一种基于类别外部记忆的视频目标检测方法，本方法提高了不同辅助帧采样策略的鲁棒性降低了现有技术中基于特征整合的视频目标检测方法对辅助帧数目的敏感性，使在辅助帧较少或没有辅助帧的情况下也能准确的进行目标检测。

本发明的一种基于类别外部记忆的视频目标检测方法，先根据待测视频选取当前帧和辅助帧，再通过训练好的视频目标检测模型获取实例特征和类别概率分布计算类别中心，然后更新外部记忆，通过自注意机制计算每个实例-类别中心关系并增强实例特征，最后将实例特征输入目标检测模型的分类和回归分支计算测试中实例的类别和位置得到检测结果。

本方法通过引进类别外部记忆来传递视频中时序上下文信息，然后设计了估计视频中类别中心的方法以及写入方法来对外部记忆中存储内容进行更新，最后采用基于自注意机制的读取方法，在实例-类别中心关系的指导下，利用外部记忆中存储的类别的全局表达来增强测试帧中实例的特征，增强特征的鲁棒性和判别力。本方法引入的外部记忆除了能以类别全局表达的行驶存储当前测试帧及辅助帧的信息，还可以存储过去时刻的所有信息，将长时的时序信息传递给当前测试帧，增强其鲁棒性和判别力，提高视频目标检测的准确率。在测试过程中，该方法对于不同的辅助帧采样策略具有极强的鲁棒性，可以较好的解决当前基于特征整合的视频目标检测方法对辅助帧数目敏感的问题，甚至在没有辅助帧的情况下，该方法仍能显著提高目标检测的准确率。

本发明第二实施例的基于类别外部记忆的视频目标检测系统，包括检测视频预处理模块100、特征及概率分布计算模块200、特征增强模块300和实例分类模块400：

特征及概率分布计算模块200，，用于依次选择所述图像帧序列中的一帧作为当前帧，选取其他K帧作为当前帧的辅助帧，通过训练好的视频目标检测模型提取每一帧图像对应的实例特征以及每个实例的类别概率分布；K为自然数；

用于将增强的当前帧的实例特征输入视频目标检测模型的分类分支和边界框回归分支，获得当前帧中实例的类别和位置；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于类别外部记忆的视频目标检测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于类别外部记忆的视频目标检测方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于类别外部记忆的视频目标检测方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。