CN111860222A

CN111860222A - 基于稠密-分段式帧采样的视频行为识别方法、系统、计算机设备和存储介质

Info

Publication number: CN111860222A
Application number: CN202010620022.3A
Authority: CN
Inventors: 张宇; 米思娅; 赵俊杰; 陈铮杰
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-30
Anticipated expiration: 2040-06-30
Also published as: CN111860222B

Abstract

本发明公开了一种基于稠密‑分段式帧采样的视频行为识别方法、系统、计算机设备和存储介质。首先将视频均匀地分为N段，在每段中采样一帧做为关键帧，由关键帧组成关键片段。同时，对每一个关键帧，在其前后按固定的采样率采样连续若干帧，作为上下文帧。将上下文帧和其对应的关键帧组成一个上下文片段。进行一次稠密‑分段式帧采样，将会返回一个关键片段和N个上下文片段，将其送入时序稠密‑分段式网络TDSN中进行处理，从关键片段中提取长程时序信息，从上下文片段中提取局部上下文信息，将两种信息融合在一起，最终用于识别视频中的行为动作。本发明能够有效提取视频中的长程时序信息和局部上下文信息，有效地提升了视频行为识别的准确率。

Description

基于稠密-分段式帧采样的视频行为识别方法、系统、计算机设备和存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种基于稠密-分段式帧采样的视频行为识别方法。

背景技术

随着国内经济和科技的快速发展，智能手机、高清摄像机等设备成为人们日常生活中必不可少的物品，在安防领域，高清监控设备在商场、街道上也随处可见，这些都让我们可以方便快捷地拍摄视频。同时随着互联网的快速发展，各类视频网站、短视频APP、直播平台等兴起，人们乐于在网络上通过视频获取资讯，并且与他人分享自己拍摄的视频，这些都使得视频成为互联网上传播信息的重要方式之一。面对爆炸式增长的视频数据，仅依靠人工来分析视频内容可行性将越来越低。一方面视频数据量庞大，雇佣更多人员将会大大增加人力成本，另一方面人在长时间观看视频时，由于疲劳等原因很容易造成误判，降低可靠性。因此，人们对利用计算机来实现视频智能化分析处理的需求越来越迫切。

由于深度学习和计算机视觉的快速发展，视频行为识别任务的表现已经得到了极大的提升。基于深度学习的视频行为识别方法旨在从视频数据中自动识别出人或动物等的行为类别，是实现视频语义理解的基础及关键技术之一。针对视频行为识别的研究具有重大意义和应用价值。

然而，现有公开的基于深度学习的视频行为识别方法，在视频帧采样方式上的研究非常不足，导致神经网络无法有效提取视频在时间维度上的关键信息。现有的稠密式帧采样方法只能在时间维度捕获短时动态信息无法建立长程时序依赖，而分段式帧采样方法又容易忽略低层运动细节。所以为了同时有效捕捉长程时序依赖与低层运动细节，一种基于稠密-分段式帧采样的视频行为识别方法是迫切需求的。

发明内容

为了解决现有技术存在的问题，实现对视频帧采样方法进行优化，有助于同时提取长程时序依赖与低层运动细节，并提升视频行为识别准确率，本发明提供了一种基于稠密-分段式帧采样的视频行为识别方法、系统、计算机设备和存储介质。

本发明为解决以上技术问题采用以下技术方案：

本发明提出一种基于稠密-分段式帧采样的视频行为识别方法，包括以下步骤：

步骤一：将视频所有帧均匀地分为N段，N为超参数；

步骤二：在每段视频帧中采样一帧，作为关键帧；

步骤三：将所有关键帧组成一个关键片段，该片段包含了视频的长程时序信息；

步骤四：对每一个关键帧，在其前后按固定的采样率采样连续若干帧，作为上下文帧，这些上下文帧和其对应的关键帧组成一个上下文片段，该片段包含了关键帧的局部上下文信息；

步骤五：将采样得到的一个关键片段和N个上下文片段，送入时序稠密-分段式网络TDSN中进行处理；TDSN包含两个子网络：关键子网络和上下文子网络；

关键子网络接收关键片段作为输入，从中提取包含长程时序信息特征图；

上下文子网络接收上下文片段作为输入，从中提取包含局部上下文信息特征图；

步骤六：将长程时序信息和局部上下文信息通过融合模块融合在一起，融合的特征最终用于识别视频中的行为动作。

进一步的，本发明所提出的一种基于稠密-分段式帧采样的视频行为识别方法，步骤二中的关键帧采样，是在训练神经网络时随机采样，在推理时采样中间帧。

进一步的，本发明所提出的一种基于稠密-分段式帧采样的视频行为识别方法，步骤四中，采样上下文帧时，是在关键帧的前后，每隔r帧采样一次，其中r是超参数。

进一步的，本发明所提出的一种基于稠密-分段式帧采样的视频行为识别方法，步骤五中，关键子网络的结构为任意的卷积神经网络。

进一步的，本发明所提出的一种基于稠密-分段式帧采样的视频行为识别方法，步骤五中，上下文子网络的结构，为任意的卷积神经网络，对N个上下文片段提取特征时，上下文子网络权值是共享的。

进一步的，本发明所提出的一种基于稠密-分段式帧采样的视频行为识别方法，步骤六中，融合模块将关键子网络提取的一张特征图，和上下文子网络提取的N张特征图融合在一起，并将融合的特征以残差的形式补充到关键子网络中，为关键帧补充局部上下文信息。

进一步的，本发明所提出的一种基于稠密-分段式帧采样的视频行为识别方法，融合模块有多个，用于对不同尺度的特征图进行融合。

本发明还提出一种基于稠密-分段式帧采样的视频行为识别系统，包括：

分段模块，用于将视频所有帧均匀地分为N段，N为超参数；

关键帧提取模块，用于在每段视频帧中采样一帧，作为关键帧；

关键片段组成模块，用于将所有关键帧组成一个关键片段，该片段包含了视频的长程时序信息；

上下文片段提取模块，用于对每一个关键帧，在其前后按固定的采样率采样连续若干帧，作为上下文帧，将这些上下文帧和其对应的关键帧组成一个上下文片段，该片段包含了关键帧的局部上下文信息；

TDSN处理模块，用于将采样得到的一个关键片段和N个上下文片段，送入时序稠密-分段式网络TDSN中进行处理；TDSN处理模块包含：

关键子网络单元，用于接收关键片段作为输入，从中提取包含长程时序信息特征图；

上下文子网络单元，用于接收上下文片段作为输入，从中提取包含局部上下文信息特征图；

融合模块，用于将长程时序信息和局部上下文信息融合在一起，融合的特征最终用于识别视频中的行为动作。

本发明还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明所述视频行为识别方法的步骤。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明所述视频行为识别方法的步骤。

本发明采用以上技术手段，与现有技术相比具有的有益效果如下：

本发明提供了一种基于稠密-分段式帧采样的视频行为识别方法，相比较现有技术，更加适用于视频行为识别任务。输入原始视频数据后，分段采样关键帧并在关键帧附近稠密采样上下文帧，然后输入关键子网络与上下文子网络，最后通过融合模块融合长程时序信息和局部上下文信息，有效地解决了传统视频采样方法在现实应用中面临的无法有效一同捕获长程时序依赖与短时运动细节的问题。

附图说明

图1为本发明的帧采样方法流程图。

图2为本发明的网络流程图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本实施例提供一种基于稠密-分段式帧采样的视频行为识别方法，通过本方法，实现对视频帧采样方法进行优化，有助于同时提取长程时序依赖与低层运动细节，融合长程时序信息和局部上下文信息，最终用于视频行为识别。

该方法的流程如图1所示：

步骤一：将视频所有帧均匀地分为N段，N为超参数；

步骤二：在每段视频帧中采样一帧，称为关键帧(Key Frame)；

步骤三：将这些关键帧组成一个关键片段(Key Clip)，该片段包含了视频的长程时序信息；

步骤四：同时，对每一个关键帧，我们在其前后按固定的采样率采样连续几帧，称为上下文帧(Contextual Frames)。这些上下文帧和它们对应的关键帧组成一个上下文片段(Contextual Clip)，该片段包含了关键帧的局部上下文信息；

步骤四产生的片段送入如图2所示的时序稠密-分段式网络。

步骤五：将稠密-分段式帧采样得到的一个关键片段和N个上下文片段，送入时序稠密-分段式网络(Temporal Dense Segment Network,TDSN)中进行处理。TDSN包含两个子网络，关键子网络(Key Subnet)和上下文子网络(Contextual Subnet)；

步骤六：关键子网络接收关键片段作为输入，从中提取特征图，包含了长程时序信息；

步骤七：上下文子网络接收上下文片段作为输入，从中提取特征图，包含了局部上下文信息；

步骤八：长程时序信息和局部上下文信息通过融合模块(Fusion Module)融合在一起；

步骤九：融合的特征最终用于识别视频中的行为动作。

如下表1展示了所提出方法与其他先进视频行为识别方法的在Something-Something数据集验证集上的准确率比较。

方法	验证集准确率
		MARS	53.0％
TRN	42.0％
		ECO	49.5％
TSM	52.6％
		时序稠密-分段式网络	55.2％

表1

从表1可以看出所提出的时序稠密-分段式网络表现超过了现有的其他先进视频行为识别方法，可见所提出的视频帧采样方法与对应设计的网络结构对视频识别任务起到了较好的优化效果。

本实例中，对所提出的基于时序稠密-分段式帧采样的时序稠密-分段式网络方法在公开视频数据集Something-Something上进行视频行为识别研究。通过上述方法进行帧采样得到的关键帧和上下文帧片段送入时序稠密-分段式网络后，网络输出分类结果，利用验证集分类准确率进行行为识别性能评估。识别性能对比如表1所示。可以看出，时序稠密-分段式网络的识别准确率要高于现有的其他先进行为识别方法，达到了当前最先进的水平。这说明现有视频行为识别方法对帧采样与时间维度信息的提取上存在较大优化空间，合适的时间维度特征优化方法能很大程度上改善行为识别的准确率表现。同时，所提出的帧采样方法可较容易地运用在现有行为识别系统中，因此这也意味着本发明提出的算法在实际工程应用中具有很大的优势。

关于本发明所提出的基于稠密-分段式帧采样的视频行为识别系统的具体限定可以参见上文中对于基于稠密-分段式帧采样的视频行为识别方法的限定，在此不再赘述。本发明所提出的基于稠密-分段式帧采样的视频行为识别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于稠密-分段式帧采样的视频行为识别方法，其特征在于，包括以下步骤：

步骤一：将视频所有帧均匀地分为N段，N为超参数；

步骤二：在每段视频帧中采样一帧，作为关键帧；

2.根据权利要求1所述的一种基于稠密-分段式帧采样的视频行为识别方法，其特征在于，步骤二中的关键帧采样，是在训练神经网络时随机采样，在推理时采样中间帧。

3.根据权利要求1所述的一种基于稠密-分段式帧采样的视频行为识别方法，其特征在于，步骤四中，采样上下文帧时，是在关键帧的前后，每隔r帧采样一次，其中r是超参数。

4.根据权利要求1所述的一种基于稠密-分段式帧采样的视频行为识别方法，其特征在于，步骤五中，关键子网络的结构为任意的卷积神经网络。

5.根据权利要求1所述的一种基于稠密-分段式帧采样的视频行为识别方法，其特征在于，步骤五中，上下文子网络的结构，为任意的卷积神经网络，对N个上下文片段提取特征时，上下文子网络权值是共享的。

6.根据权利要求1所述的一种基于稠密-分段式帧采样的视频行为识别方法，其特征在于，步骤六中，融合模块将关键子网络提取的一张特征图，和上下文子网络提取的N张特征图融合在一起，并将融合的特征以残差的形式补充到关键子网络中，为关键帧补充局部上下文信息。

7.根据权利要求1所述的一种基于稠密-分段式帧采样的视频行为识别方法，其特征在于，融合模块有多个，用于对不同尺度的特征图进行融合。

8.一种基于稠密-分段式帧采样的视频行为识别系统，其特征在于，包括：

分段模块，用于将视频所有帧均匀地分为N段，N为超参数；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。