CN115471771A

CN115471771A - 一种基于语义级时序关联建模的视频时序动作定位方法

Info

Publication number: CN115471771A
Application number: CN202211056608.7A
Authority: CN
Inventors: 刘勇; 杨煜; 王蒙蒙
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-12-13

Abstract

本发明涉及计算机视觉领域，公开了一种基于语义级时序关联建模的视频时序动作定位方法，首先，设计了前景掩码生成模块，自适应性地生成前景掩码，前景掩码在后续中用于指引Transformer模块建模与动作帧的语义级关联，掩码引导的Transformer模块利用前景掩码来引导注意力机制学习语义层次的相似性，最后，在一个统一的框架中融合了两个模块，实现一个端到端的时序动作定位深度神经网络。本发明能够充分建模视频帧与动作片段之间的语义级时序关联，捕获动作的特征信息并抑制背景噪声干扰，使得时序动作定位结果具有更好的准确度，能够在复杂的视频中准确地定位动作区间。

Description

一种基于语义级时序关联建模的视频时序动作定位方法

技术领域

本发明涉及计算机视觉领域，具体是涉及一种基于语义级时序关联建模的视频时序动作定位方法。

背景技术

视频时序动作定位是计算机视觉领域的基本任务之一，其任务目的是在长视频中定位其中人为动作发生的起始时间、终止时间、及其相应类别。它在现实生活中具有重要的应用价值和意义，例如视频检索、视频推荐等。在深度学习的推动下，智能视频分析领域得以蓬勃发展，本发明主要面向的是基于深度学习的视频时序动作定位任务，基于深度学习算法自动检测视频中人为动作发生的时序区间。对视频进行时序动作定位，实现视频数据的自动化处理，在智能监控、虚拟现实、机器人控制等领域有着广阔的应用前景，对于推动智能视频分析技术的发展具有重大意义。

时序动作定位的关键任务是建模不同时间戳之间的时序关联。根据时序关系建模的尺度，目前的方法可以分为三种类型：局部级别、提议级别和全局级别方法。局部级方法包括基于锚框的回归方法和基于帧级的匹配方法。基于锚框的回归方法是在视频片段上均匀分布预定义的不同尺寸锚框，通过挖掘锚框内视频片段的上下文信息从而回归动作片段。此类方法由于受限于锚框的尺寸，无法生成时序更加灵活的提议片段。基于帧级匹配的方法首先评估视频每帧为动作起始和终止的概率，然后匹配起始——终止帧从而生成动作片段，因此此类方法可以预测更加时序尺度灵活的定位片段。但是局部级方法只挖掘了视频中相邻帧之间的联系，从而使动作边界概率对视频中的噪声场景非常敏感，导致错误的边界划分。提议级方法通过在每个提案中的不同时间戳上采样视频特征，构建提案的特征表示，以捕获更多的时间上下文。他们在提案特征图上利用二维卷积网络，或采用图卷积网络来建模提案之间的关系。全局级别方法采用“查询和检索”过程或利用视觉Transformer对全局时序相关性进行编码。

但是现实场景中，一段包含动作片段的视频通常还带有一些与动作不相关的背景帧，它们通常不能够为视频理解提供有效的信息，甚至会带来干扰。现有方法都不能很好的避免这些背景帧对动作片段定位的影响，无法避免背景帧的干扰。

发明内容

针对上述问题，本发明提出了一种基于语义级时序关联建模的视频时序动作定位方法，本发明从两个角度研究了视频中前景(动作片段)和背景(非动作帧)之间的语义级关联：1)语义内相似性：对于前景片段，从其他动作片段中学习语义内相似度可以提取更多支持性线索。2)语义间相似性：对于背景片段，捕捉它们与前景之间的语义间距离有助于区分它们与动作的相似外观或运动模式，从而抑制假阳性检测和背景的干扰。

为了实现上述目的，本发明提供一种基于语义级时序关联建模的视频时序动作定位方法，包括以下步骤：

S1、利用视频特征提取单元对输入的视频进行片段级特征提取与编码；

S2、利用前景掩码生成模块建模视频的全局时序关联，预测生成动作前景(动作主体和边界)的掩码；

S3、利用掩码引导Transformer模块中的自注意力机制计算语义级时序关联，提取动作的特征同时抑制背景干扰；

S4、利用时序动作定位预测输出模块预测动作完整性图和边界置信度图，用于时序动作提议和评估；

S5、对网络模型进行训练，通过降低网络损失函数优化网络参数，直至网络收敛，获得基于语义级关联建模的视频时序动作定位方法；

S6、利用所述基于语义级关联建模的视频时序动作定位方法在新的视频序列中定位动作目标。

优选的，所述步骤S1具体包括以下步骤：

S11、将原始未经剪辑的长视频视为一个帧集合

然后按规则的帧间隔δ将其分割为一个片段集合

其中l_s＝l_v/δ；

S12、将每个片段输入到预训练的双流网络TSN中，提取每个片段的特征

通过这种方式，获得片段特征序列

S13、采用线性插值将每个视频统一到相同的时序长度，视频特征提取单元输出表示为

的视频特征，包含T个特征单元，由后续模块共享。

优选的，所述步骤S2具体包括以下步骤：

S21、利用全局感知注意力模块建模视频的全局时序关联；输入视频特征F，添加正弦位置编码，然后利用线性变换将视频特征投影到三个不同特征表达，即查询

键

和值

利用这三个特征进行自注意力计算，学习视频片段之间的时序交互，输出全局关联建模的

将

输入到具有ReLU激活函数、残差连接和层归一化的前馈神经网络中，最后输出由全局上下文建模的特征

S22、利用全局上下文建模的特征F^g预测动作主体前景掩码和动作边界前景掩码；首先利用堆叠的一维时序卷积和Sigmoid激活函数预测每一个视频片段动作主体、起始和结束的概率

其次，将概率序列设定阈值进行二值化操作，得到前景掩码序列

这些序列中的第i元素S_i∈{0,1}表示第i个片段的前景二进制概率，然后，在时序维度上将前景掩码序列复制T次，得到二维前景掩码图；最后，为了引入前景周围的动作运动趋势信息，在二维掩码图上利用膨胀核对前景掩码图进行膨胀操作，得到膨胀后的前景掩码图

优选的，所述步骤S21具体为：对输入视频特征添加正弦位置编码，得到经过位置编码后视频特征F'；利用该特征进行自注意力计算，计算过程具体为：

Q＝W_QF′,K＝W_KF′,V＝W_VF′

其中

为网络中可学习权值，d＝C/M表示每个注意力头的维度，LN表示层归一化。自注意力机制输出全局关联建模的视频特征

然后与特征F'按元素相加，之后送入带有ReLU激活函数的前馈神经网络，增强特征的非线性表达能力，将结果与

按元素相加，从而获得全局上下文建模的特征

优选的，所述步骤S22前景掩码预测过程中动作主体的二值化阈值设置为0.4，边界掩码二值化阈值设置为0.5，膨胀核的大小设置为kernel＝(3,3)。

优选的，所述步骤S3具体包括以下步骤：

S31、对输入视频特征序列F添加位置编码，进行线性映射将其映射到四个新的特征矩阵

分别表示视频的查询特征、值特征、动作开始键特征和动作结束键特征；然后，计算查询特征和两个键特征的余弦相似度，输出动作起始相似度

和动作结束相似度

S32、基于前景掩码图，构造掩码操作M(·)，然后将掩码结果与动作起始相似度SM^s、动作结束相似度SM^e的Hadamard积，得到掩码引导映射

S33、使用Softmax函数将掩码引导映射进行归一化，然后与值矩阵

相乘，从视频的动作片段中捕获语义关联得到动作起始和动作结束增强特征

将所述动作起始和动作结束增强特征拼接起来并使用一个一维卷积层将特征的通道数从2C'降低到C；利用残差连接和前馈神经网络来增强非线性得到边界增强特征

利用动作主体前景掩码图得到动作主体增强特征

优选的，所述余弦相似度的计算过程为：

所述掩码引导的过程为：首先构造掩码操作，然后将掩码结果与动作相似度映射计算Hadamard积，公式表示为：

GM^s＝M(M^s)°SM^s

GM^e＝M(M^e)°SM^e

其中M(·)表示掩码操作，°表示Hadamard乘积。

优选的，所述步骤S4具体包括以下步骤：

S41、在动作完整性回归模块中，输入动作主体增强特征F^a，首先利用一维卷积预测每帧的动作概率，得到动作概率特征

其次，在P^a上对所有候选提案的起始、中心和结束区域内的进行特征采样，构造动作完整性特征图

其中T×T×N表示所有任意起始和结束时间的所有候选提案，N是每个提案的采样点数；最后，将FM^a输入堆叠的二维卷积神经网络中执行卷积操作，并使用Sigmoid激活函数预测动作完整性置信图

S42、在动作边界分类模块中，输入动作边界增强特征F^b，首先在F^bf上采样构造候选提案的边界特征图

包含T×T个候选提案的边界特征；然后利用一个三维卷积层将采样点的特征进行融合；最后利用堆叠的二维卷积层预测输出候选提案的动作边界置信度图

优选的，所述步骤S5具体包括以下步骤：

S51、利用服务器执行所述视频特征提取单元，得到视频的特征序列F；

S52、利用服务器执行所述前景掩码生成模块预测输出动作主体前景掩码图和动作边界前景掩码图M^a,M^s,M^e；

S53、利用服务器执行所述掩码引导Transformer模块基于前景掩码图，利用自注意力机制建模每一帧与动作片段的语义级时序关联，输出动作主体增强特征F^a和动作边界增强特征F^b；

S54、利用服务器执行所述时序动作定位预测输出模块，将动作主体增强特征F^a输入给动作完整性回归模块，预测动作完整性置信度图P^c；同时将动作边界增强特征F^b送入边界分类模块，输出动作边界置信度图P^s,e；

S55、利用服务器进行网络训练，采用端到端的方式训练模型的整体损失函数的数学表达式为：

L＝L_mask+λ₁L_comple+λ₂L_start+λ₃L_end

其中，L_mask＝L_bl(G^a,S^a)+L_bl(G^s,S^s)+L_bl(G^e,S^e)为掩码生成模块的损失，其加权平衡参数设置为1；

为动作完整性模块的损失，其加权平衡参数设置为λ₁＝1；

是动作起始边界分类损失，

为动作结束边界分类损失，它们的加权平衡因子为λ₂＝λ₃＝1；

S56、利用服务器优化目标函数，获取局部最优网络参数；将步骤S55中的损失函数L作为目标函数，使用AdamW优化器迭代更新网络参数，使目标损失函数降低直至收敛到局部最优，至此训练结束，得到训练完成的基于语义级时序关联建模的视频时序动作定位网络的权重。

优选的，所述步骤S6具体包括以下步骤：

S61、将新的视频首先送入视频特征提取单元，提取视频特征；然后利用前景掩码生成模块，生成视频中动作的前景掩码图；之后将视频特征和前景掩码图输入掩码引导Transformer模块，建立视频的语义级时序关联，输出动作主体和动作边界增强的视频特征；最后将动作主体和动作边界增强的视频特征送入时序动作定位预测输出模块，输出动作完整性置信度图P^c和动作边界置信度图P^s,e；

S62、在动作完整性置信度图P^c和动作边界置信度图P^s,e的右上角区域中，对P^c每一行、P^s,e每一列求平均值，得到动作起始分数序列

和动作结束分数序列

然后将每个候选动作提案(t_i,t_j)的动作起始分数

动作结束分数

动作完整性分数

进行融合，具体为：

S63、采用Soft-NMS算法，通过分数衰减函数消除冗余，得到稀疏的候选动作提案集合

其中P_i,j'是最终的置信度得分，N'是最终候选建议的个数；

S64、利用UntrimmedNet预测的新视频的排名前二的动作类别标签和相应的分数，与步骤S63输出的候选动作提案的置信度分数相乘，得到最终的针对该视频的时序动作定位结果

其中(t_i,t_j)代表预测的动作起始时间为t_i、结束时间为t_j的视频片段，它对应的动作类别为c，置信度分数为S_i,j。

与现有技术相比，本发明的有益效果是：

本发明提供的一种基于语义级时序关联建模的视频时序动作定位方法通过建模视频中每一帧与动作片段的语义级时序关联，学习提取更有效地视频特征，从而完成视频时序动作定位任务，利用前景掩码引导Transformer的注意机制计算每一帧与前景的语义级相似度，捕获语义关联。前景预测可以根据学习到的动作线索细化其动作边界；同时，背景预测可以根据学习到的语义鸿沟来抑制假阳性预测和背景干扰。在众多困难的实际场景中都可以准确地定位视频中的动作片段，在ActivityNet验证集上AUC值达到了68.85％，在THUMOS验证集上所有类别的平均检测精度mAP达到了48.4％，超越了现有的多数算法，具有非常好的效果。

附图说明

图1为本发明一种基于语义级时序关联建模的视频时序动作定位方法的算法框架图；

图2为本发明由前景概率序列预测前景掩码图的流程图；

图3为本发明的掩码引导Transformer模块单元图；

图4为本发明时序动作定位预测输出模块单元图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有技术中存在的问题与不足，本发明设计了一种全新的视频时序动作定位深度神经网络框架，它利用前景掩码作为先验知识来建模每一帧与动作片段之间的语义级关联，从而增强视频的特征表示，进一步提高动过定位的准确性。首先，我们设计了前景掩码生成模块，自适应性地生成前景掩码，表示视频中与动作相关帧的位置。该前景掩码在后续中用于指引Transformer模块建模与动作帧的语义级关联。然后，我们提出了一种掩码引导的Transformer模块，该模块利用前景掩码来引导注意力机制学习语义层次的相似性，为前景构建语义内相似度以从其他动作片段中挖掘支持性线索，同时对背景片段和动作帧之间的语义鸿沟进行建模，以更好地区分背景内容。最后，我们在一个统一的框架中融合了两个模块，实现一个端到端的时序动作定位深度神经网络。

本发明提出的一种基于语义级时序关联建模的视频时序动作定位方法，包括以下步骤：

S2、利用前景掩码生成模块建模视频的全局时序关联，预测生成动作前景(动作主体和边界)的掩码；表示在整个视频中与动作相关帧的位置，后续用于掩码指导Transformer模块建模语义级关联；

S3、利用掩码引导Transformer模块中的自注意力机制计算语义级时序关联，即计算每一帧与动作片段的语义级相似度，提取动作的特征同时抑制背景干扰；

下面对每一步骤进行详细的说明介绍。

步骤S1、利用视频特征提取单元对输入的视频进行片段级特征提取与编码。如图1中的I单元，它接受原始的长视频作为输入，将视频分割为一些小片段，对每个片段进行特征提取，从而获取视频的特征序列。主要步骤为：

S11、将原始未经剪辑的长视频视为一个帧集合

然后按规则的帧间隔δ将其分割为一个片段集合

其中l_s＝l_v/δ；

通过这种方式，获得片段特征序列

的视频特征，包含T个特征单元，由后续模块共享。

步骤S2、利用前景掩码生成模块建模视频的全局时序关联，预测生成动作前景(动作主体和边界)的掩码；表示在整个视频中与动作相关帧的位置，后续用于掩码指导Transformer模块建模语义级关联。如图1中的II模块所示为本发明所设计的前景掩码生成模块单元，主要步骤为：

键

和值

利用这三个特征进行自注意力计算，学习视频片段之间的时序交互，建模全局的时序关联，具体为：

其中，d＝C/M表示每个注意力头的维度，LN表示层归一化；

自注意力机制输出的视频特征

将其输入前馈神经网络，并经过残差链接，得到全局上下文建模的视频特征

具体为：

其中，MLP表示带有ReLu激活函数的前馈神经网络；

S22、利用全局上下文建模的特征F^g预测动作主体前景掩码和动作边界前景掩码；首先利用三个并联的一维时序卷积和Sigmoid激活函数预测每一个视频片段动作主体、起始和结束的概率

如图2所示为由前景概率序列预测前景掩码图的流程图，其次，基于概率序列生成动作前景掩码图，具体地，将概率序列设定阈值进行二值化操作，实现方法是判断每一个小片段是否大于某一阈值，如果大于则将该片段的概率二值化为1，否则为0，最后将前景掩码序列在时序维度复制得到前景掩码图，这些过程用公式表示为：

M^a,M^s,M^e＝Φ(rearrange(S^a,S^s,S^e))

其中，H_m表示堆叠的一维时序卷积层；α_m是前景的二进制概率阈值，动作主体的二值化阈值设置为0.4，动作边界的二值化阈值设置为0.5，rearrange表示对掩码序列进行复制操作；Φ为膨胀卷积核，核的大小设置为kernel＝(3,3)；

为了使用前景掩码指导后续Transformer的注意力机制建模语义级时序关联，由于注意力图是二维的，每一维度的大小都为视频的长度T，因此在时序维度上将前景掩码序列复制T次，得到二维前景掩码图，该前景掩码图代表与动作相关的帧所在的位置；最后，为了引入动作片段周围关于动作变化趋势的信息，利用3×3的膨胀核将对掩码图进行膨胀操作，得到膨胀后的前景掩码图

步骤S3、利用掩码引导Transformer模块中的自注意力机制计算语义级时序关联，即计算每一帧与动作片段的语义级相似度，提取动作的特征同时抑制背景干扰。如图3所示为本发明的所设计的掩码引导Transformer模块单元图，主要步骤为：

S31、对输入视频特征序列F添加位置编码，利用可学习的进行线性映射，将其映射到四个新的特征矩阵

中，分别表示视频的查询特征、值特征、动作开始键特征和动作结束键特征；然后，计算查询特征和两个键特征的余弦相似度，输出动作起始相似度

和动作结束相似度

S32、根据步骤S22生成的前景掩码图，构造掩码操作M(·)，具体为：

然后计算掩码结果与动作起始相似度SM^s、动作结束相似度SM^e的Hadamard积，得到掩码引导映射

该过程实现了利用前景掩码来指导Transformer的注意力机制建模语义级别联系；

S33、使用Softmax函数将掩码引导映射进行归一化，然后与视频的值特征矩阵

相乘，得到动作起始和动作结束增强特征

捕获了视频的动作片段的语义关联；此过程，对于前景片段可以学习视频中其他动作片段的相关信息和支持线索，对于背景片段可以捕获它与动作帧的语义鸿沟；然后，将这两种类型的特征进行拼接后送入一维卷积层进行信息融合，并将通道数数从2C'降低到C；然后将此特征与添加位置编码的视频特征按元素相加，送入前馈神经网络来增强特征的非线性表达能力，输出得到边界增强特征

同理，动作掩码引导的Transformer模块通过建模视频每帧与动作主体的相关性输出动作主体增强特征

其中，步骤S31中余弦相似度的计算过程为：

GM^s＝M(M^s)°SM^s

GM^e＝M(M^e)°SM^e

其中M(·)表示掩码操作，°表示Hadamard乘积。

具体地，所述步骤S33具体为：将掩码引导映射归一化，与值矩阵

相乘从视频的动作片段中捕获语义关联，输出动作起始和动作结束增强特征

将两者拼接送入一维卷积压缩通道维度，然后与原始视频特征按元素相加；将结果送入前馈神经网络，在经过残差链接输出边界增强特征，这些过程的公式化表示为：

其中[·]表示拼接操作，FFN表示前馈神经网络，

表示逐元素相加。

步骤S4、利用时序动作定位预测输出模块预测动作完整性图和边界置信度图，用于时序动作提议和评估。如图4所示位本发明所设计的时序动作定位预测输出模块单元图，主要步骤为：

其中T×T×N表示所有任意起始和结束时间的所有候选提案，N是每个提案的采样点数；设置为N＝32，最后，将FM^a输入堆叠的二维卷积神经网络中执行卷积操作，并使用Sigmoid激活函数预测动作完整性置信图

它表所有候选提案的动作完整性分数；该过程具体表示为：

P^a＝F_(Conv1D)(F^af)

FM^a＝Sample(P^a)

P^c＝Sigmoid(F_(Conv2D)(FM^a))

其中，F_(Conv1D)(·)是一维卷积操作，F_(Conv2D)(·)为二维卷积操作，Sample(·)表示特征采样过程；

包含T×T个候选提案的边界特征，同样采样点个数为N＝32然后利用一个三维卷积层将32个采样点的特征进行融合压缩为N＝1；最后利用堆叠的二维卷积层预测输出候选提案的动作边界置信度图

该过程具体表示为：

FM^b＝Sample(F^bf)

P^s,e＝Sigmoid(F_Conv2D(F_Conv3D(FM^b)))

其中，F_(Conv3D)(·)表示三维卷积操作。

步骤S5、对网络模型进行训练，通过降低网络损失函数优化网络参数，直至网络收敛，获得基于语义级关联建模的视频时序动作定位方法。如图1所示为本发明一种基于语义级时序关联建模的视频时序动作定位方法的算法框架图，主要步骤为：

S51、将训练集的视频输入服务器，执行视频特征提取单元，得到视频的特征序列F；

S52、利用服务器执行前景掩码生成模块预测输出动作主体前景掩码图和动作边界前景掩码图M^a,M^s,M^e；

S53、利用服务器执行掩码引导Transformer模块，基于前景掩码图，利用自注意力机制建模每一帧与动作片段的语义级时序关联，输出动作主体增强特征F^a和动作边界增强特征F^b；

S54、利用服务器执行时序动作定位预测输出模块，将动作主体增强特征F^a输入给动作完整性回归模块，预测动作完整性置信度图P^c；同时将动作边界增强特征F^b送入边界分类模块，输出动作边界置信度图P^s,e；

S55、利用服务器进行网络训练，采用端到端的方式训练；前景掩码生成模块损失的数学表达为：

L_mask＝L_bl(G^a,S^a)+L_bl(G^s,S^s)+L_bl(G^e,S^e)

其中，

)为加权二元逻辑回归损失；G^a,G^s,G^e表示真实的动作前景掩码，α⁺＝T/∑(g_i)和α^-＝T/∑(1-g_i)是权重平衡因子；

动作完整性回归损失的数学表达为：

其中，

表示真实的提案与动作实例的IoU的最大值，P^a是真实的动作概率序列；

动作完整性回归损失的数学表达为：

其中，

表示真实的动作边界概率置信度；

总体整个模型的损失函数的数学表达为：