CN114332723B

CN114332723B - 基于语义指导的视频行为检测方法

Info

Publication number: CN114332723B
Application number: CN202111669113.7A
Authority: CN
Inventors: 任柯燕; 张云路; 张淳; 闫桐; 赵虎
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2024-03-22
Anticipated expiration: 2041-12-31
Also published as: CN114332723A

Abstract

本发明公开了基于语义指导的视频行为检测方法，通过特征的下采样来扩大时间感受野，并将线性插值用于上采样环节，从而得到视频时序上的粗略语义信息，用于指导时间卷积模型的输出；同时对模型的主干网络使用参数共享结构，将网络分为了三部分：生成粗略预测、细化和最终预测，以实现网络层数与参数量的最佳搭配；针对模型的时间建模能力，本发明提供了一种不需人工标注的视频速度预测的自监督辅助任务，可通过随机采样率的变换来模拟视频的播放速度，以辅助主干网络生成质量更高的预测。本发明主要针对以人为主体的视频，具有参数量低、精度高，方便对长视频进行操作等特点；对于无人的视频，本发明根据转场对视频进行分割。

Description

基于语义指导的视频行为检测方法

技术领域

本发明属于人工智能、计算机视觉、视频理解领域，基于时间卷积网络实现长视频中行为的定位与分类。用于日常视频中的信息与事件的发掘。

背景技术

近年来随着互联网的发展与摄影设备的骤增，视频数据的数量呈现着爆炸式的增长。在视频领域中，视频分为：剪辑过的短视频与未剪辑的长视频。剪辑过的短视频由于经过人工处理，使得它只具有单独的语义，其数据结构简单导致对短视频操作的难度十分低，这使得基于短视频的视频分类等任务的研究已经比较成熟。但针对未剪辑的长视频的研究，由于其具有信息冗长、数据分布杂乱、数据过于复杂等特点，这使得对长视频的操作变得十分困难。而我们日常生活中更为常见的便是这种未经剪辑的长视频数据，所以要保持对这些长视频的日常管理和操作就变得十分困难，这需要耗费极高的人工成本。本文提出的基于语义指导的视频行为检测方法，通过时间卷积神经网络对未剪辑的长视频进行时间建模，并根据前后文信息为视频的每一帧分配类别，从而实现对视频的帧级预测，这样就可以得到行为的起始终止时间戳，从而帮助视频操作人员更加快速准确的定位，以方便进行后续操作。

时间卷积网络作为处理序列结构的神经网络的一种，相较于循环神经网络等拥有更为灵活的感受野，更稳定的梯度，并且占用更少的内存，同时它能够对输入并行处理，这极大的加快了模型的计算速度。目前现有方法多基于时间卷积模型，但这些方法都面临着精度低且存在过度分割现象。时间卷积模型的时间建模能力的强弱与“过度分割”将极大影响所提出模型的实际使用效果，所以如何提升时间建模能力和有效避免过度分割问题的出现，成为了目前急需解决的问题。同时，在深度学习中，适当增加参数量与网络层数会提升预测效果，但过度地增加会导致模型过拟合，所以如何权衡层数与参数量之间的关系同样也是一个需要解决的问题。

发明内容

针对上述问题，本发明提供了一种基于语义指导的视频行为检测方法，该方法充分考虑到由于时间卷积结构所导致的过度分割现象的出现，提出了“语义指导”模块用于捕获长距离时序范围中的语义信息，它通过特征的下采样来扩大时间感受野，并将线性插值用于上采样环节，从而得到时序上的粗略语义信息；同时使用参数共享结构对模型的主干网络做了相应改进，将网络分为了三部分：生成粗略预测、细化和最终预测，其中细化阶段使用了参数共享，以实现网络层数与参数量的最佳搭配；并且进一步的，针对模型的时间建模能力会直接影响最终预测结果的问题，本发明提供了一种不需人工标注的视频速度预测的自监督辅助任务，可通过随机采样率的变换来模拟视频的播放速度，以辅助主干网络生成质量更高的预测。基于语义指导的视频行为检测方法，所述方法包括以下步骤：

S1、通过训练好的I3D模型对视频提取I3D特征；

S2、将S1中得到的视频I3D特征分别输入到第一个语义指导模块SG₁和主干网络的“生成粗略预测”阶段中，并将它们的输出进行加和，得到第一阶段最终的输出；

S3、将S2中所得加和后的输出作为第二个语义指导模块SG₂和“细化”阶段R₁的输入，并将它们的输出进行加和，作为第三个语义指导模块SG₃和“细化”阶段R₂的输入；同样地，将SG₃与R₂的输出加和，作为R₃的输入，并得到“细化”阶段最终的输出；

S4、将S3中所得到的“细化”阶段的输出输入到“最终预测”阶段中，得到最终的预测结果。

附图说明

图1本发明的整体网络结构示意图。

图2本发明中“语义指导”模块的详细结构图。

图3本发明中基于参数共享的时间卷积网络的详细结构图。

图4本发明中“视频速度预测”辅助任务的采样策略图。

具体实施方式

为实现上述目的，下面通过附图和具体实施方式，对本发明的技术方案做进一步的详细描述。

为了完成视频行为检测任务，需要对视频中的每一帧分配一个预测的标签。时间卷积模型(TCN)作为主流的模型，它将用预训练好的I3D模型提取的低级视频序列特征V＝(v₁，v₂，...，v_T)作为输入，其中v_i为单帧特征，V∈R^T*C，T为视频长度，C为提取的低级视频特征的通道数。时间卷积模型将每一帧的行为类别预测L＝(l₁，...，l_T)作为输出，其中L_i为网络预测的第i帧的类别。目前的时间卷积模型大致分为两种：普通时间卷积模型(SS-TCN)和双重空洞时间卷积模型(DDL-TCN)。相较于DDL-TCN，SS-TCN的参数量更少，它由首尾的两层1*1卷积和中间的10层空洞卷积组成，而DDL-TCN则是由首尾的两层1*1卷积和中间的11层双重空洞卷积组成。如图3所示，本发明的主干网络采用多级架构的思想，由五个时间卷积模型组合而成，它被分为三个不同的阶段：生成粗略预测，细化和最终预测。其中，“生成粗略预测”阶段和“最终预测”阶段均为一个SS-TCN模型，而中间的“细化”阶段则由三个参数共享的DDL-TCN模型组成，这里仅共享三个DDL-TCN模型的双重空洞卷积部分。

虽然所提出的参数共享的时间卷积模型会有不错的效果，但由于时间卷积模型不使用max-pool，迫使模型每层都对固定长度的特征做卷积操作，这会导致特征缺乏足够的语义信息，从而出现过度分割的问题。为了解决这个问题，本发明提出了“语义指导”模块，通过对特征的下采样来捕获时间上的语义信息，该模块通过对特征尺度的上采样和下采样来实现低层特征与高层特征的融合。其中，特征尺度较小的高层特征包含更多的语义信息，而特征尺度较大的低层特征则包含较为丰富的纹理信息。“语义指导”模块将前一阶段的输出或视频I3D特征作为输入，并输出具有语义信息的特征来与时间卷积的输出融合，并指导下一阶段的预测。图2展示了“语义指导”模块的细节，其中“下采样”阶段采用VGG16网络的前16层来捕获时间语义信息，并且在“上采样”阶段，设计了对称的结构将特征恢复至原始尺寸，其中为了降低参数量，上采样使用线性插值的方法，跳层连接结构有效地将低层细节特征与高层语义特征融合。

同时，为了提升时间卷积模型的时间建模能力，本发明设计了“视频速度预测”的自监督辅助任务。在不需要任何额外人工标注的情况下，将模型每阶段的输出进行不同速率的采样，并将其输入到VGG16分类模型中来预测采样率。图4展示了采样策略，共设置了四个采样速率。该辅助任务步骤如下：

S1、对模型每阶段的输出设置随机采样率，并根据采样率p进行采样，得到采样过后的特征序列；

S2、将S1中得到的采样过后的特征序列输入到VGG16的分类网络中，并做出预测，得到预测的采样率q；

S3、对S2中预测得到的q与实际的采样率p计算交叉熵损失，得到损失L；

S4、通过得到的损失L进行反向传播，从而优化主干网络的参数。

本发明中，速度预测辅助任务与视频行为检测的主任务进行联合训练。

最后，图1展示了本发明的整体网络设计结构图。基于语义指导的视频行为检测方法具体的训练过程如下：

S1、在Kinetics-600数据集上对I3D模型进行训练；

S2、使用在S1中训练好的I3D模型对Breakfast长视频数据集中的视频提取2048维的特征；

S3、将S2中提取的视频特征集作为任务的训练集，并分别输入到第一个语义指导模块SG₁和主干网络的“生成粗略预测”阶段中，并将它们的输出进行加和，得到第一阶段最终的输出O₁。计算O₁与Breakfast数据集中的人工注释标签GT所产生的交叉熵损失L₁。同时生成随机速率P，对O₁进行速率P的采样，并通过VGG16网络对该速率进行预测，产生交叉熵损失L_1p；

S4、将S3中得到的O₁作为第二个语义指导模块SG₂和“细化”阶段R₁的输入，将SG₂和R₁的输出进行加和，得到输出O₂。计算O₂与GT所产生的交叉熵损失L₂。并如S3中一样，将O₂作为“视频速度预测”辅助任务的输入，产生交叉熵损失L_2p；

S5、将S4中得到的O₂作为第二个语义指导模块SG₃和“细化”阶段R₂的输入，将SG₃和R₂的输出进行加和，得到输出O₃。计算O₃与GT所产生的交叉熵损失L₃。并将O₃作为“视频速度预测”辅助任务的输入，产生交叉熵损失L_3p；

S6、将S5中得到的O₃作为“细化”阶段R₃的输入，并得到“细化”阶段的输出O₄。计算O₄与GT所产生的交叉熵损失L₄。并将O₄作为“视频速度预测”辅助任务的输入，产生交叉熵损失L_4p；

S7、将S6中所得到O₄作为“最终预测”阶段的输入，并得到模型最终的输出O。计算O与GT所产生的交叉熵损失L₅。并将O作为“视频速度预测”辅助任务的输入，产生交叉熵损失L_5p；

S8、计算模型总体的损失L＝ΣL_i+ΣL_ip，并进行反向传播，优化模型参数，直至损失收敛，训练结束。

上述介绍了本发明在训练时的具体步骤。在投入使用时，模型去掉“视频速度预测”的辅助任务，只保留主干网络模型即可。

以上介绍仅用于为本领域技术人员理解本发明提供帮助。对于本领域技术人员，可以在本发明的基础上做若干修改和润饰，这些修改和润饰也当视为本发明的保护范围。

Claims

1.基于语义指导的视频行为检测方法，其特征在于，所述方法包括以下步骤：

S1、在Kinetics-600数据集上对I3D模型进行训练；

S3、将S2中提取的视频特征集作为任务的训练集，并分别输入到第一个语义指导模块SG₁和主干网络的“生成粗略预测”阶段中，并将它们的输出进行加和，得到第一阶段最终的输出O₁；计算O₁与Breakfast数据集中的人工注释标签GT所产生的交叉熵损失L₁；同时生成随机速率P，对O₁进行速率P的采样，并通过VGG16网络对该速率进行预测，产生交叉熵损失L_1p；

S4、将S3中得到的O₁作为第二个语义指导模块SG₂和“细化”阶段R₁的输入，将SG₂和R₁的输出进行加和，得到输出O₂；计算O₂与GT所产生的交叉熵损失L₂；同S3，将O₂作为“视频速度预测”辅助任务的输入，产生交叉熵损失L_2p；

S5、将S4中得到的O₂作为第二个语义指导模块SG₃和“细化”阶段R₂的输入，将SG₃和R₂的输出进行加和，得到输出O₃；计算O₃与GT所产生的交叉熵损失L₃；并将O₃作为“视频速度预测”辅助任务的输入，产生交叉熵损失L_3p；

S6、将S5中得到的O₃作为“细化”阶段R₃的输入，并得到“细化”阶段的输出O₄；计算O₄与GT所产生的交叉熵损失L₄；并将O₄作为“视频速度预测”辅助任务的输入，产生交叉熵损失L_4p；

S7、将S6中所得到O₄作为“最终预测”阶段的输入，并得到模型最终的输出O；计算O与GT所产生的交叉熵损失L₅；并将O作为“视频速度预测”辅助任务的输入，产生交叉熵损失L_5p；

S8、计算模型总体的损失L＝ΣL_i+ΣL_ip，并进行反向传播，优化模型参数，直至损失收敛，训练结束；L_i为L₁-L₅；L_ip为L_1p-L_5p。

2.如权利要求1所述的基于语义指导的视频行为检测方法，其特征在于，所述视频速度预测步骤具体为：