CN115588230A

CN115588230A - 基于高精度边界预测的时序动作检测方法及计算机设备

Info

Publication number: CN115588230A
Application number: CN202211051519.3A
Authority: CN
Inventors: 殷蔚明; 陈思微; 黄罗琪; 罗大鹏; 陈应; 程卓; 李欣; 王良波; 柳旭辉
Original assignee: China University of Geosciences; Second Construction Engineering Co Ltd of China Construction Third Engineering Division; China Construction Third Bureau Intelligent Technology Co Ltd
Current assignee: China University of Geosciences; Second Construction Engineering Co Ltd of China Construction Third Engineering Division; China Construction Third Bureau Intelligent Technology Co Ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2023-01-10

Abstract

本发明公开了一个基于高精度边界预测的时序动作检测方法及计算机设备。该方法的任务是对候选提名由粗到细的多阶段修正从而高质量、高效率地完成时序动作定位，主要包含以下步骤：针对起始、中间和结束三个过程进行高斯过程建模，输出每帧为某个动作起始、中间和结束的概率，用于提升边界预测和动作分类的质量；针对从视频中提取到的特征图进行帧级分类；生成高质量的时序候选动作提名和对应的置信度分数；对回归网络结果、帧级动作分类网络结果以及精细动作提名生成网络结果设计总损失函数对时序动作检测架构进行优化。本发明提高了时序动作检测的精度和效率。

Description

基于高精度边界预测的时序动作检测方法及计算机设备

技术领域

本发明涉及时序动作检测技术领域，具体地，涉及一种基于高精度边界预测的时序动作检测方法及计算机设备。

背景技术

随着互联网的时代来临，网络视频的数量呈现爆炸式增长，每天至少有上千万的视频上传网络并需要审核过滤。目前来看，仅靠人工已经无法满足海量视频数据审核的需求，从而促进了自动视频内容理解技术的发展。视频理解包括了时序动作检测、动作识别、视频描述、异常事件检测等，其中时序动作检测最为重要。摄像设备拍摄的视频通常较长，而我们感兴趣的动作只发生在视频的一小部分。因此，需要在时序上定位每个动作片段，同时精确的检测出动作开始和结束的时间点，为后续的动作分类、视频描述以及异常事件检测等提供更具判别力的视频特征表达。时序动作检测已经广泛应用于诸如：监控视频内容分析、精彩片段剪辑和选取以及视频推荐等真实应用场景中，同时对于视频处理技术的智能化具有重大的推动意义。

现有的时序动作检测一般可以分为时序动作提名生成和分类两个过程。虽然动作识别方法已经取得了令人印象深刻的分类精度，但在几个主流数据集例如HACS、ActivityNet-v1.3和THUMOS14的评估中，时序动作检测的性能仍然不能令人满意。因此，许多研究者的首要目标是提高时序动作提名的质量。因此，对生成的动作时序候选提名精度提高的算法是关键。

常用的时序动作检测方法包括基于预定义锚点的方法，以及基于边界的方法。预定义锚点的方法基于密集多尺度的锚点片段来生成时序动作检测结果。由于一个动作片段实例的持续时间从几秒到几分钟不等，基于预定义锚点的方法很难在合理的算力约束下检测出所有不同长度的动作片段。基于边界的方法首先预测起始点和终止点的边界置信度，然后采用自底向上的分组策略匹配起始和结束帧。该方法对边界信息变化敏感，从而能够生成较精确的边界。然而，基于边界的方法主要利用局部特征提取边界信息。因此，较容易受到局部噪声的影响，并且容易产生不完整的预测框。此外，这两类方法大都依赖冗余的多尺度锚点或者边界匹配模块来产生时序提名，需要大量的先验知识和手工调参。

近期，以基于时序上下文聚合的动作提名修正网络为主的方法利用边界信息和提名的内部信息分别进行帧级边界回归和片段级边界回归。具体来说，帧级边界回归优化对边界敏感候选提名的起始和结束位置，同时片段级边界回归通过候选提名的全局信息优化提名的中心位置和提名的持续时间，最后通过局部帧级边界回归和全局片段级边界回归的互补融合来逐步细化边界的精度，从而得到较高质量的提名。基于时序上下文聚合的动作提名修正网络既提高了提名边界的准确性也突破了锚点不灵活的限制。然而，尽管该网络在性能和效率上相比于前人的方法都取得了显著的领先，但仍存在一些弊端：(1)在进行时序动作生成任务时将起始和终止定义为单帧的点，忽视了起始或终止动作变化性，可以看作多帧的一个过程，导致生成的边界概率序列具有很多局部或者全局的噪声，从而使得动作提名边界质量不佳。(2)效率低下：基于时序上下文聚合的动作提名修正网络分别完成动作提名生成任务和动作分类任务，使得两阶段缺乏联合优化。

发明内容

为了解决现有技术的不足，本发明一种基于高精度边界预测的时序动作检测方法，针对动作检测任务中各类动作起始、结束时间点定位不精确的问题，采用高斯模型将动作起始和结束时间点描述为一个高斯变化的多帧过程，避免定义单一的起始帧和结束帧带来的过度自信对动作定位精度的影响。此外，使用单帧动作分类的时序动作检测方法，通过对包含动作的每帧视频进行分类，提升动作边界定位精度。最后，提出基于每帧图像动作分类和候选动作提名的融合策略进一步提升密集动作视频中不同类动作起始、结束时间点的定位精度。

为了实现上述目的，本发明提供一种基于高精度边界预测的时序动作检测方法，包括以下步骤：

S1：采用特征提取器对未剪辑的视频X进行特征提取，得到特征

其中T×D表示特征维度，T是视频的总片段个数，i表示片段序号，D是每个片段特征的维度，f_i表示第i个片段的视觉特征；

S2：通过高斯过程建模每个时序动作实例的开始、中间和结束三个过程生成对应的置信度曲线，得到第t帧的第k类动作开始置信度分数

中间过程的置信度分数

和结束置信度分数

S3：通过动作回归模块预测视频第t帧的第k类动作置信度分数

其中C为数据集动作总类别数；

S4：将S1的特征F输入时序动作分割模型，输出每一帧的动作分类y_o∈R^T×k和每类动作的置信度分数S_action，其中k为动作类别；

S5：使用S3中得到的置信度分数修正由S4中得到的每一帧的动作分类，得到每一帧修正后的动作分类y_n∈R^T×k以及提名的动作类别Y，并根据帧级别的动作分类进一步获得帧级别的动作提名信息

N_P为提名个数；

S6：将S1的特征F输入TCANet模型(基于时序上下文聚合的动作提名修正网络)，得到视频X的片段级别的候选动作提名信息

和每个候选动作提名的置信度分数S_props；

S7：使用非极大抑制算法去除S6中冗余的时序提名；

S8：计算S5获得的帧级别的动作提名信息和S7获得的片段级别的候选动作提名信息的交叠率IoU值，当交叠率IoU值大于阈值时，进行融合得到时序动作提名信息

并计算对应的时序动作检测置信度分数S_det；

S9：根据整个时序动作检测任务S2-S8构建多任务学习模型，通过融合回归损失、分类损失、时序提名定位损失对多任务学习模型进行训练，训练完成后，通过训练好的多任务学习模型输出最终的时序动作检测结果，所述时序动作检测结果包括：融合得到时序动作提名信息

动作类别Y以及对应的时序动作检测置信度分数S_det。

优选地，步骤S3中，所述动作回归模块包括：L层的扩张卷积层，每个扩张卷积层包含一个一维空洞卷积层、一个激活函数层和一个1×1卷积将输出映射到动作置信度分数向量

优选地，步骤S3中，使用均方误差损失函数作为回归损失，回归损失计算公式如下：

其中，n为未剪辑的视频X的总帧数，

为动作置信度分数向量

y_i为真实标签即S2生成的开始置信度

中间置信度

和结束置信度

优选地，步骤S4中，使用交叉熵损失和平滑损失构成分类损失，计算公式如下：

其中，

是t时动作为真实标签

的预测概率，y_t，c是t时动作为c的预测概率，y_t-1，c是t-1时动作为c的预测概率，∑_t∑_c是对每一帧每个动作进行求和，λ是一个平衡权重。

优选地，步骤S6中，使用IoU预测损失L_iou和回归损失L_reg作为时序提名定位损失L_loc，计算公式如下：

L_loc＝L_iou+λL_reg

其中，

N_train＝N_pos+N_incomp+N_neg

其中，p_conf，i，g_iou，i分别为第i个正样本的置信度分数预测值和真实值，SmoothL1()用于计算预测值和真实值之间的损失误差，N_train、N_pos、N_neg、N_incomp分别代表训练样本、正样本、负样本和不完整样本的个数，Δx_i、Δw_i、Δs_i、Δe_i分别为时序提名生成模块预测的中心偏移量、持续时间偏移量、开始时间偏移量和结束时间偏移量，

分别为实际中心偏移量、持续时间偏移量、开始时间偏移量和结束时间偏移量。

优选地，所述S7具体包括：

S71：将S6的动作提名信息

按照置信度分数S_props排名；

S72：计算置信度分数最高的提名

和其他提名

的交叠率IoU值，使用非极大抑制算法的高斯函数衰减高交叠率的提名分数：

其中，ε是高斯函数参数，θ是预先设置的阈值；

S73：重复S72，直到提名个数N_P为预设的个数，经过非极大抑制得到新的提名信息和每个候选提名的置信度分数S′_props。

优选地，所述S8具体包括：

S81：当帧级别的动作提名信息

和片段级别的候选动作提名信息

的交叠率IoU值大于阈值δ时，进行融合得到时序动作提名信息

其计算公式如下：

其中，τ为这两个提名所占权重参数，

为帧级别的第j个提名的起始时间、

为帧级别的第j个提名的结束时间，

为片段级别的候选动作提名的第j个提名的起始时间、

为片段级别的候选动作提名的第j个提名的结束时间，N_p是提名个数；

S82：计算对应的时序动作检测置信度分数S_det，其计算公式为：

S_det＝S'_props×S_action

其中，S′_props为步骤S7得到的每个候选提名的置信度分数，S_action是S4得到的每类动作的置信度分数。

优选地，步骤S9中，多任务学习模型的总损失函数为：

L＝αL_cls+βL_loc+γL_reg

其中，L_reg为回归损失，L_cls为分类损失，L_loc为时序提名定位损失，α、β、γ为权重参数。

可选地，所述特征提取器包括SlowFast、I3D、TSN、CSN、Timesformer、ViViT中的任意一种；

可选地，所述时序动作分割模型包括：MS-TCN和ASFormer中的任意一种。

此外，为了实现上述目的，本发明还提供了一种计算机设备，包括处理器和存储器，存储在存储器上并可在处理器上运行的时序动作检测方法程序，该时序动作检测方法程序被处理器执行时执行所述的时序动作检测方法的步骤。

本发明基于其技术方案所具有的有益效果在于：

(1)加入基于高斯建模的动作回归模块，对边界定位进行研究，对边界单一起始点、结束点和中间过程进行高斯建模，将单个点延展为多个时间点，回归网络生成置信度曲线来评估每一帧属于某个动作的起始、中间和结束区间的概率，以便对候选提名进行修正。

(2)本发明提出提名生成与动作分类多任务的时序动作检测方法。视频帧的动作分类知识能辅助动作提名网络提升动作时序定位的准确程度。因此，根据整个时序动作检测任务构建多任务学习模型，同时进行时序动作提名的生成和动作分类，使两个任务能够互相监督、互相辅助，提升动作定位的准确率。

附图说明

下面将结合附图及实施例对本发明的具体效果作进一步说明，附图中：

图1是本发明基于高精度边界预测的时序动作检测方法的执行流程图；

图2是本发明在HACS数据集上的验证结果实例图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

实施例一：

请参阅图1，本发明提供了一种时序动作检测方法，本实施例中，主要包含特征提取模块、回归模块、帧动作分类模块、动作提名生成模块：

步骤S1：采用特征提取器对未剪辑的视频X进行特征提取，得到特征；其中表示特征维度，是视频的总片段个数，i表示片段序号，是每个片段特征的维度，表示第i个片段的视觉特征；

本实施例中，优选使用SlowFast(SlowFast Networks for Video Recognition，用于视频识别的快慢网络)作为特征提取器。

需要说明的是，在本发明的其他实施例中，还可以用I3D(Two-Stream Inflated3D ConvNet，双流膨胀三维卷积网络)、TSN(Temporal Segment Networks，时间段网络)、CSN(Video classification with channel-separated convolutional networks，基于信道分离卷积网络的视频分类方法)、Timesformer(Time-Space transformer，基于空间和时间上的自我注意的无卷积视频分类方法)、ViViT(A Video Vision Transformer，视频转换器)中的任意一种代替SlowFast模型，进行特征提取，也可以根据实际选择其他可作为特征提取器的模型。

步骤S2：通过高斯过程建模每个时序动作实例的开始、中间和结束三个过程生成对应的置信度曲线，得到第t帧的第k类动作开始置信度分数、中间过程的置信度分数和结束置信度分数；

其中，开始置信度分数的计算公式如下：

其中，σ是用于控制置信度曲线形状的参数，

是第t帧的第k类动作最接近开始的时间点，当

时，置信度为1。

同样的，结束置信度分数

使用类似的公式，其中开始点

被结束点

所取代。

对于中间过程的置信度分数

将动作实例过程中的每一帧的中间置信度设置为1来获得中间置信度分数。

步骤S2中的曲线描述对应的置信度分数，其中置信度分数由0到1，低的置信度分数表明当前帧和是某一个过程的可能性较小，相反，最高点表明当前帧是最接近某个动作实例。对于动作每个类都有开始，中间和结束，置信度大小为类别数k×3，即对每一帧预测其可能是开始、中间、结束的概率。

步骤S3：通过动作回归模块预测视频第t帧的第k类动作置信度分数

其中C为数据集动作总类别数；

步骤S3具体为：使用一系列的块，包含L层的扩张卷积层序列的块来预测第t帧的置信度分数

其中C为数据集动作总类别数。使用扩张卷积块D^(l)作为输入，得到扩张卷积块D^(l+1)，其计算公式如下：

D^(l+1)＝conf_A(f(con v_A(D^(l))))+D^(l)

其中con v_A是具有卷积率的一维卷积层，卷积率增加了感受野，f(.)是激活函数。使用1×1卷积将最后一个扩张卷积块的输出映射到动作置信度分数向量

其中k是动作的种类。

步骤S4：将步骤S1的特征F输入时序动作分割模型，输出每一帧的动作分类y_o∈R^T ^×k和每类动作的置信度分数S_action，其中T是视频的总片段个数，k为动作类别；

本实施例优选使用ASFormer(Transformer for Action Segmentation，用于动作分割的Transformer模型)作为时序动作分割模型，输入步骤S1的特征F，得到每一帧的动作分类y_o∈R^T×k和每类动作的概率分数S_action，ASFormer模型训练时，直接将训练样本的标签由粗粒度的一组动作实例的起止时间转换为细粒度的单帧级别标签，数据集的类别数量C增加一类为背景类；

需要说明的是，在本发明的其他实施例中，可以根据实际选择其他时序动作分割模型，比如MS-TCN(Multi-Stage Temporal Convolutional Network for ActionSegmentation，基于多阶段时间卷积网络的动作分割模型)。

步骤S5：使用步骤S3中得到的置信度分数修正由步骤S4中得到的每一帧的动作分类，得到每一帧更精确的动作分类y_n∈R^T×k以及提名的动作类别Y，并根据帧级别的动作分类进一步获得动作提名信息

包括对于未剪辑的视频X的第j个提名的起始时间

结束时间

和这段候选提名的动作类别k，其中N_p是提名个数。

步骤S6：将步骤S1的特征F输入TCANet(基于时序上下文聚合的动作提名修正网络)模型，预测视频X的一系列可能存在动作实例的候选动作提名信息

和每个候选提名的置信度分数S_props，包括动作的起始时间

和结束时间

步骤S7：使用Soft-NMS(非极大抑制算法)去除步骤S6中冗余的时序提名；

步骤S7具体为：首先将步骤S6提名

按照置信度分数S_props排名，其次计算置信度分数最高的提名

和其他提名

的交叠率IoU值，使用Soft-NMS的高斯函数衰减高交叠率的提名分数：

其中，ε是高斯函数参数，θ是预先设置的阈值。经过非极大抑制得到新的提名信息

和每个候选提名的置信度分数S′_props；

步骤S8：计算步骤S5获得的帧级别的提名信息和步骤S7获得的片段级别的候选提名信息的交叠率IoU值，当当交叠率IoU值大于阈值时，融合这两个提名信息，得到更可靠的时序动作提名信息

并计算对应的时序动作检测置信度分数S_det，其计算公式：

S_det＝S'_props×S_action

其中τ为这两个提名所占权重参数。

步骤S9：根据整个时序动作检测任务S2-S8构建多任务学习模型，通过融合回归损失、分类损失、时序提名定位损失对多任务学习模型进行训练，训练完成后，通过训练好的多任务学习模型输出最终的时序动作检测结果，所述时序动作检测结果包括：融合得到时序动作提名信息

动作类别Y以及对应的时序动作检测置信度分数S_det。

本实施例中，需要对回归过程、帧动作分类、时序动作提名生成整个过程进行训练，整个时序动作定位检测任务可以作为多任务学习，通过融合回归损失(L_reg)、分类损失(L_cls)、时序提名定位损失(L_loc)对时序动作检测进行训练，其损失函数如下：

L＝αL_cls+βL_loc+γL_reg

其中，α、β、γ为权重参数。

在本发明的一种实施例中，帧动作分类模块使用交叉熵损失函数和平滑损失函数组成：

是时间t时动作为c的预测概率，λ是一个平衡权重。

在本发明的一种实施例中，使用IoU预测损失(L_iou)和回归损失(L_reg)作为时序提名定位损失：

L_loc＝L_iou+λL_reg

其中，

N_train=N_pos+N_incomp+N_neg

N_train、N_pos、N_neg、N_incomp分别代表训练样本、正样本、负样本和不完整样本个数，Δx_i、Δw_i、Δs_i、Δe_i分别为时序提名生成模块预测的中心偏移量、持续时间偏移量、开始时间偏移量和结束时间偏移量，

在本发明的一种实施例中，回归模块使用均方误差损失函数训练直至收敛，损失函数计算公式如下：

其中，n为对未剪辑的视频X的总帧数，

为动作置信度分数向量

y_i为真实标签即步骤2生成的开始置信度分数

中间过程的置信度分时

结束置信度分数

在本发明的一种实施例中，采用公开HACS数据集进行训练和测试。HACS是一个用于时序动作检测的大数据集，包含37.6k训练集，6k验证集和6k的测试集，共有200种动作类别，最后验证SSN(Temporal Action Detection with Structured Segment Networks，结构化分段网络的时序动作检测)、S-TAN(Learning sparse 2d temporal adjacentnetworks for temporal action localization学习稀疏二维时序相邻网络进行时序动作定位)、G-TAD(Sub-Graph Localization for Temporal Action Detection用于时序动作检测的子图定位)、SegTAD(Precise Temporal Action Detection via SemanticSegmentation通过语义分割的精确时序动作检测)、TadTR(End-to-end Temporal ActionDetection with Transformer基于Transformer进行端到端时序动作检测)、BMN(Boundary-Matching Network for Temporal Action Proposal Generation边界匹配网络的时序动作提名生成)这六个现有模型与本发明的时序动作检测方法在不同IoU阈值下的mAP值，如表1：

根据表1的结果可知，本发明所提供的时序动作检测方法的检测精度高于现有的六种模型方法。

表1在不同IoU阈值下的时序动作检测结果对比(HACS数据集)

请参阅图2，图2中第一行提名为真实标签，HACS数据集上第二行片段级别的候选提名输出和第三行帧级别的提名输出边界都不准确，将这两种输出融合，使得提名更接近实际情况。第三行显示了融合提名后可以生成高精度的提名。

实施例二：

本实施例提供了一种计算机设备，包括处理器和存储器，存储在存储器上并可在处理器上运行的时序动作检测方法程序，该时序动作检测方法程序被处理器执行时执行实施例一所述的时序动作检测方法的步骤，且能实现与实施例一相同的技术效果，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于高精度边界预测的时序动作检测方法，其特征在于，包括以下步骤：

中间过程的置信度分数

和结束置信度分数

S3：通过动作回归模块预测视频第t帧的第k类动作置信度分数

其中C为数据集动作总类别数；

N_P为提名个数；

S6：将S1的特征F输入TCANet模型，得到视频X的片段级别的候选动作提名信息

和每个候选动作提名的置信度分数S_props；

S7：使用非极大抑制算法去除S6中冗余的时序提名；

并计算对应的时序动作检测置信度分数S_det；

动作类别Y以及对应的时序动作检测置信度分数S_det。

2.如权利要求1所述的基于高精度边界预测的时序动作检测方法，其特征在于，步骤S3中，所述动作回归模块包括：L层的扩张卷积层，每个扩张卷积层包含一个一维空洞卷积层、一个激活函数层和一个1×1卷积将输出映射到动作置信度分数向量

3.如权利要求1所述的基于高精度边界预测的时序动作检测方法，其特征在于，步骤S3中，使用均方误差损失函数作为回归损失，回归损失计算公式如下：

其中，n为未剪辑的视频X的总帧数，

为动作置信度分数向量

y_i为真实标签即S2生成的开始置信度分数

中间过程的置信度分数

和结束置信度分数

4.如权利要求1所述的基于高精度边界预测的时序动作检测方法，其特征在于，步骤S4中，使用交叉熵损失和平滑损失构成分类损失，计算公式如下：

其中，

是t时动作为真实标签

的预测概率，y_t,c是t时动作为c的预测概率，y_t-1,c是t-1时动作为c的预测概率，∑_t∑_c是对每一帧每个动作进行求和，λ是一个平衡权重。

5.如权利要求1所述的基于高精度边界预测的时序动作检测方法，其特征在于，步骤S6中，使用IoU预测损失L_iou和回归损失L_reg作为时序提名定位损失L_loc，计算公式如下：

L_loc＝L_iou+λL_reg

其中，

N_train＝N_pos+N_incomp+N_neg

其中，p_conf,i,g_iou,i分别为第i个正样本的置信度分数预测值和真实值，SmoothL1()用于计算预测值和真实值之间的差值，N_train、N_pos、N_neg、N_incomp分别代表训练样本、正样本、负样本和不完整样本的个数，Δx_i、Δw_i、Δs_i、Δe_i分别为时序提名生成模块预测的中心偏移量、持续时间偏移量、开始时间偏移量和结束时间偏移量，