CN114821420B

CN114821420B - 基于多时间分辨率时态语义聚合网络的时序动作定位方法

Info

Publication number: CN114821420B
Application number: CN202210448080.1A
Authority: CN
Inventors: 张海平; 马琮皓; 胡泽鹏; 刘旭; 管力明; 施月玲
Original assignee: Hangzhou Dianzi University; School of Information Engineering of Hangzhou Dianzi University
Current assignee: Hangzhou Shaobo Shuzhi Technology Co.,Ltd.
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2023-07-25
Anticipated expiration: 2042-04-26
Also published as: CN114821420A

Abstract

本发明公开了一种基于多时间分辨率时态语义聚合网络的时序动作定位方法，包括：获取原始视频并进行预处理，预处理为从原始视频中提取特征序列并注释标签；复制特征序列为N＇份，并通过卷积层将复制后的各特征序列的时间分辨率调整为不同值；建立多时间分辨率时态语义聚合网络；将时间分辨率调整后的各特征序列一一对应输入子模块，采用分类损失和回归损失训练多时间分辨率时态语义聚合网络；利用训练好的多时间分辨率时态语义聚合网络预测待识别视频的动作开始时间、动作结束时间、动作种类和置信分数。该方法可获得更灵活更具鲁棒性的上下文关系表达，并大大提高计算能力和时序动作定位的准确性。

Description

基于多时间分辨率时态语义聚合网络的时序动作定位方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于多时间分辨率时态语义聚合网络的时序动作定位方法。

背景技术

近年来，互联网上的多媒体正在迅速发展，导致每分钟共享的视频数量越来越多。为了应对信息爆炸，理解和分析这些视频是必要的，以便于用于各种目的，如搜索，推荐，排名等。视频理解旨在通过智能分析技术，自动化地对视频中的内容进行识别和解析，涉及生活的多个方面，已经发展成一个十分广阔的学术研究和产业应用方向，主要有动作识别和时序动作定位等基础领域。

在时序动作定位领域，视频往往没有被剪辑，时长较长，且动作通常只发生在视频中的一小段时间内，视频可能包含多个动作，也可能不包含动作，即为背景类。时序动作定位不仅要预测视频中包含了什么动作，还要预测动作的起始和终止时刻。现有方法证明，使用视频上下文来检测动作是有效的。上下文指的是不属于目标动作但携带有价值指示性信息的框架。现有技术一般仅使用时态上下文，缺点是往往携带的信息比较单一，或将语义上下文和时态上下文结合为基于图卷积网络的子图定位问题，但仍不能适应时间跨度变化较大的时序行为片段，生成的代码特性包含信息不够丰富多样，使得预测的候选时序区间边界不够灵活，时序边界不够精确。因此，如何更好的处理时间与语义信息以及如何处理大跨度时序行为片段是提升时序动作定位准确率的关键之一。

发明内容

本发明的目的在于针对上述问题，提出一种基于多时间分辨率时态语义聚合网络的时序动作定位方法，通过将时间与语义上下文结合到视频特征中，同时对每个时序点进行局部与全局的联合建模，得到更灵活更具鲁棒性的上下文关系表达，提高了时序动作定位的准确性。

为实现上述目的，本发明所采取的技术方案为：

本发明提出的基于多时间分辨率时态语义聚合网络的时序动作定位方法，包括如下步骤：

S1、获取原始视频并进行预处理，预处理为从原始视频中提取特征序列特征序列X携带有注释标签/>其中，时间分辨率T＝S/σ，S为原始视频的总帧数，σ为不同片段x_i之间间隔的帧数，C为片段x_i的特征维度，k_n为第n个动作，t_s,n、t_e,n和C_n依次为第n个动作的开始时间、结束时间和动作种类，N为特征序列X的动作数量；

S2、复制特征序列X为N＇份，并通过卷积层将复制后的各特征序列X的时间分辨率调整为不同值；

S3、建立多时间分辨率时态语义聚合网络，多时间分辨率时态语义聚合网络包括依次连接的第一特征提取单元、第二特征提取单元、第三特征提取单元和后处理模块，第一特征提取单元包括N＇个并行的子模块，子模块包括依次连接的第一时态语义上下文融合模块和第一注意力单元，第二特征提取单元用于将各第一注意力单元的输出特征图进行相加聚合，第三特征提取单元包括依次连接的第二注意力单元、第七特征提取单元和第二时态语义上下文融合模块，其中：

各时态语义上下文融合模块，包括第四特征提取单元、以及并行的第一分支单元、第二分支单元和第三分支单元，第一分支单元用于输出对应时态语义上下文融合模块的原始输入特征图，第二分支单元包括依次连接的自注意力模块、第五特征提取单元和第一分组卷积单元，第五特征提取单元还与自注意力模块的输入端连接，用于进行相加聚合，第三分支单元包括依次连接的动态图卷积网络、第一Involution卷积层、第二Involution卷积层、第六特征提取单元、第一MobileNet网络、第二分组卷积单元和第二MobileNet网络，第六特征提取单元还与动态图卷积网络的输出端连接，用于进行相加聚合，第四特征提取单元用于将第一分支单元、第二分支单元和第三分支单元的输出特征图进行相加聚合；

各注意力单元基于八头注意力机制进行局部特征和全局特征提取；

第七特征提取单元用于将第二注意力单元的输出特征图与超参数1/N′进行相乘操作；

后处理模块包括依次连接的上采样模块、concat层和全连接层，上采样模块还与第二时态语义上下文融合模块的动态图卷积网络的输出端连接；

S4、将时间分辨率调整后的各特征序列X一一对应输入子模块，采用分类损失和回归损失训练多时间分辨率时态语义聚合网络；

S5、利用训练好的多时间分辨率时态语义聚合网络预测待识别视频的动作开始时间、动作结束时间、动作种类和置信分数。

优选地，步骤S2中，N′＝3，调整后的各特征序列X的时间分辨率分别为T、T/2、256。

优选地，各分组卷积单元采用32条路径。

优选地，第五特征提取单元、第二Involution卷积层、第四特征提取单元的输出端均连接有Relu激活函数。

优选地，第五特征提取单元将80％的原始输入特征图和20％的自注意力模块的输出特征图进行相加聚合。

优选地，注意力单元分别采用四头注意力机制进行局部特征和全局特征提取。

优选地，分类损失L_c和回归损失L_n，计算公式如下：

L_c＝L_wce(p_s，d_ss)+L_wce(p_e，d_se)

L_n＝L_wce(p_cls，1{ψ_c＞0.5})+ω₁·L_mse(p_reg，ψ_c)

其中，L_mse为均方误差损失，L_wce为加权交叉熵损失，p_s为每个片段对应的预测开始概率，p_e为每个片段对应的预测结束概率，d_ss为每个片段对应的p_s的训练目标，d_se为每个片段对应的p_e的训练目标，p_cls为分类损失对应的得分，p_reg为回归损失对应的得分，ω₁为权衡系数，ψ_c为最大的IoU。

与现有技术相比，本发明的有益效果为：

本发明通过将不同时间分辨率的特征序列进行融合获得含有信息更丰富的特征图，通过时态语义上下文融合模块，将时间上下文分配不同的注意力权重并与多层次语义结合到视频特征中，并针对视频中不同动作之间时间跨度差异大的问题，通过注意力单元对每个时序点结合局部和全局时序依赖关系，以得到更灵活更具鲁棒性的上下文关系表达，通过使用Involution卷积和MobileNet网络减少卷积核的冗余表达，大大提高计算能力和时序动作定位的准确性。

附图说明

图1为本发明的时序动作定位方法流程图；

图2为本发明的多时间分辨率时态语义聚合网络的结构示意图；

图3为本发明的时态语义上下文融合模块结构示意图；

图4为本发明的注意力单元结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

如图1-4所示，基于多时间分辨率时态语义聚合网络的时序动作定位方法，包括如下步骤：

S1、获取原始视频并进行预处理，预处理为从原始视频中提取特征序列特征序列X携带有注释标签/>其中，时间分辨率T＝S/σ，S为原始视频的总帧数，σ为不同片段x_i之间间隔的帧数，C为片段x_i的特征维度，k_n为第n个动作，t_s，n、t_e，n和C_n依次为第n个动作的开始时间、结束时间和动作种类，N为特征序列X的动作数量。

S2、复制特征序列X为N′份，并通过卷积层将复制后的各特征序列X的时间分辨率调整为不同值。

在一实施例中，步骤S2中，N′＝3，调整后的各特征序列X的时间分辨率分别为T、T/2、256。需要说明的是，特征序列X还可根据实际需求复制为任意数量，并可对应调整时间分辨率。

S3、建立多时间分辨率时态语义聚合网络，多时间分辨率时态语义聚合网络包括依次连接的第一特征提取单元、第二特征提取单元、第三特征提取单元和后处理模块，第一特征提取单元包括N′个并行的子模块，子模块包括依次连接的第一时态语义上下文融合模块和第一注意力单元，第二特征提取单元用于将各第一注意力单元的输出特征图进行相加聚合，第三特征提取单元包括依次连接的第二注意力单元、第七特征提取单元和第二时态语义上下文融合模块，其中∶

第七特征提取单元用于将所述第二注意力单元的输出特征图与超参数1/N′进行相乘操作；

后处理模块包括依次连接的上采样模块、concat层和全连接层，上采样模块还与第二时态语义上下文融合模块的动态图卷积网络的输出端连接。

在一实施例中，各分组卷积单元采用32条路径。

在一实施例中，第五特征提取单元、第二Involution卷积层、第四特征提取单元的输出端均连接有Relu激活函数。

在一实施例中，第五特征提取单元将80％的原始输入特征图和20％的自注意力模块的输出特征图进行相加聚合。

在一实施例中，注意力单元分别采用四头注意力机制进行局部特征和全局特征提取。

其中，多时间分辨率时态语义聚合网络的结构如图2所示，第一特征提取单元包括3个并行的子模块，各子模块包括依次连接的第一时态语义上下文融合模块(TSCF1)和第一注意力单元(LGAM1)，第三特征提取单元包括依次连接的第二注意力单元(LGAM2)和第二时态语义上下文融合模块(TSCF2)，各时态语义上下文融合模块的结构相同，如图3所示，各注意力单元的结构相同，如图4所示，注意力单元用于将输入数据同时进行局部(LocalProcess)和全局(GlocalProcess)的时序依赖关系捕获。后处理模块即PostProcess。

时态语义上下文融合模块包含第四特征提取单元、以及并行的第一分支单元、第二分支单元和第三分支单元，如图3所示，其中：

1)第一分支单元用于输出对应时态语义上下文融合模块的原始输入特征图(即固定流不做任何处理)。

2)第二分支单元(TProcess)，通过自注意力模块加入自注意力机制，学习不同时间尺度的注意力权重。将对应时态语义上下文融合模块的输入特征图分三步进行处理。首先，选取时间步长t∈[1，T]内围绕中心元素x_it的元素将其提取出来形成一个代表向量x′_it，这种特征表示基于内核大小ks和膨胀率D，中心元素x_it可根据实际需求选取，将内核大小ks设置为3，即可提取膨胀率D为2的t，t+2，t-2的局部元素，作为代表向量x′_it。引入自注意力机制，时间步长t的注意力操作的输出如下所示：

S(x_it)＝γ(x′_it)[softmax(α(x_it)β(x′_it))]^T

其中，α(x_it)＝w_αx_it，β(x′_it)＝wβx′_it，γ(x′_it)＝w_γx′_it，w_α∈R^c×c，w_β∈R^c×c，w_γ∈R^c ^×c，softmax为softmax函数，T为转置操作。

将对应特征序列X中所有时间步长的输出串联得到i^th块的输出A(x_i)，公式如下：

A(x_i)＝[S(x_i1)^T，S(x_i2)^T，...，S(x_iT)^T]。

其次，将80％的基础信息x_i和20％的复杂信息A(x_i)通过第五特征提取单元进行相加聚合输出E′_t，公式如下：

E′_t＝0.2×A(x_i)+0.8×x_i

其中，x_i是对应时态语义上下文融合模块的输入特征图。

最后，将E′_t经过Relu激活函数和第一分组卷积单元输出最终数据E_t，公式如下：

E_t＝Γ[ReLU(E′_t)]_r＝32

其中，Γ为分组卷积，ReLU为Relu激活函数，r＝32表示分组卷积中采用32条路径来提高转换的多样性。

3)第三分支单元(SProcess)，根据动态图卷积(dynamic edge conv)定义动态聚合语义相似的片段，将对应时态语义上下文融合模块的输入特征图分三步进行处理。首先，以i^th块为例：在此特征空间内，对于每个元素x_i，通过KNN算法找到L个距离最近的元素并将它们按升序排列，得到：计算出L个特征后加入全连接层更新，最后用最大池化操作(max pool)将L个特征整合为x_i的新特征X_s。

其中，代表元素x_i的第k个最近邻居节点。

其次，将X_s依次经过第一Involution卷积层、第二Involution卷积层和激活函数并通过第六特征提取单元实现与原数据X_s的融合，第一Involution卷积层的输入端还可设有依次连接的两个二维卷积层。将融合后的数据经过第一MobileNet网络和第二分组卷积单元输出得到E′_s。

最后，将E′_s经过第二MobileNet网络输出得到最终数据E_s，分组卷积中选择r＝32条路径，并且在分组卷积前后使用MobileNet网络。公式如下：

E′_s＝Γ{M[ReLU(I(I(X_s))+X_s]}_r＝32

E_s＝M(E′_s)

其中，Γ为分组卷积，ReLU为Relu激活函数，I代表Involution卷积，M代表MobileNet网络。其中，动态图卷积、Involution卷积和MobileNet网络均为现有技术，在此不再赘述。通过Involution卷积和MobileNet网络减少卷积核的冗余表达，减少计算量。

第四特征提取单元用于将三个分支单元对应的TProcess流、SProcess流和固定流聚合，并通过激活函数获得Y(X，M，W)，公式如下：

Y(X，M，W)＝ReLU(τ(X，M_TProcess，W_TProcess)+τ(X，M_SProcess，W_SProcess)+X)

其中，τ(X，M_TProcess，W_TProcess)为第二分支单元的输出特征图，τ(X，M_SProcess，W_SProcess)为第三分支单元的输出特征图，M＝{M_TProcess，M_SProcess}，M_TProcess为对应于E_t的邻接矩阵，M_SProcess为对应于E_s的邻接矩阵，W＝{W_TProcess，W_SProcess}，W_TProcess为对应于E_t的可训练权重，W_SProcess为对应于E_s的可训练权重，ReLU为非线性激励函数。

注意力单元通过八头自注意力机制，将输入数据同时进行局部和全局的时序依赖关系捕获。如图4所示，八头注意力机制，各分一半采用不同的查询矩阵、键矩阵和值矩阵分别处理输入数据代表局部上下文信息与全局上下文信息，得到输入x′_i对应的输出x″_i。注意力单元为本领域技术人员熟知的现有技术，在此不再赘述。通过设置不同的掩码信息赋予新的权重，标识数据中的关键特征，可通过训练优化让网络学到局部与全局中各自需要关注的区域，提高了时序特征的鲁棒性和多样性。

将经过三个第一注意力单元处理的数据融合，再次进入第二注意力单元并乘以超参数Q后进入第二时态语义上下文融合模块再次进行特征融合，超参数Q为1/N’。

其中，上采样模块基于线性插值进行上采样，将第二时态语义上下文融合模块输出的Y(X，M，W)和第二时态语义上下文融合模块的动态图卷积网络输出的X_s作为输入，进入后处理模块。对于Y(X，M，W)采样θ₁得到各片段对应的特征对于X_s采样θ₂得到各片段对应的特征/>θ₁、θ₂为对齐量。基于线性插值采样J点，最终分别对应输出和/>

concat层将Y1和Y2连接后输入全连接层，计算它和正确标注动作(即步骤S1中的注释标签K)的IoU，并将最大的IoU作为训练目标ψ_c。IoU是一种测量在特定数据集中检测相应物体准确度的一个标准，为本领域技术人员熟知技术，在此不再赘述。

S4、将时间分辨率调整后的各特征序列X一一对应输入子模块，采用分类损失和回归损失训练多时间分辨率时态语义聚合网络。

在一实施例中，分类损失L_c和回归损失L_n，计算公式如下：

L_c＝L_wce(p_s，d_ss)+L_wce(p_e，d_se)

L_n＝L_wce(p_cls，1{ψ_c＞0.5})+ω₁·L_mse(p_reg，ψ_c)

其中，L_mse为均方误差损失，L_wce为加权交叉熵损失，p_s为每个片段对应的预测开始概率，p_e为每个片段对应的预测结束概率，d_ss为每个片段对应的p_s的训练目标，d_se为每个片段对应的p_e的训练目标，p_cls为分类损失对应的得分，p_reg为回归损失对应的得分，ω₁为权衡系数，ψ_c为最大的IoU。p_cls和p_reg由全连接层输出，分别使用分类损失和回归损失对多时间分辨率时态语义聚合网络进行训练以匹配ψ_c。

具体地，将第二注意力单元处理的数据乘以超参数1/3，经过第二时态语义上下文融合模块处理得到开始/结束概率(p_s，p_e)，并使用(d_ss，d_se)来表示每个片段的相应训练目标。最后，使用加权交叉熵损失L_wce来计算预测和目标之间的差异。利用均方误差损失L_mse和加权交叉熵损失L_wce，计算得到回归损失L_n，计算权重来平衡正负样本的比率，权衡系数ω₁设置为10。

其中，如从待识别视频中提取M个片段U_ε，利用训练好的多时间分辨率时态语义聚合网络对M个片段U_ε进行预测，构造其中，代表预测的动作开始时间和结束时间，/>代表预测动作种类，P_m代表预测置信分数，/>α为模型训练中搜索得到的P_m最高时对应的最优值。在α为最优值时，P_m置信分数越高，/>预测动作种类准确度越高。

通过在两个公共数据集上对本申请的多时间分辨率时态语义聚合网络进行实验验证。具体地，在公共数据集ActivityNet-1.3上，平均mAP为34.94％。在公共数据集HACS上，平均mAP达到28.46％，优于现有技术中的方法，验证了本申请能够提升时序动作定位的准确率。如表1、2所示，表中0.5、0.75、0.95代表mAP(Mean Average Precision)即所有标签的平均精确率，Avg.为平均值。MTSCANet即本申请所述方法，SCC、CDC、BSN、BMN、SSN和G-TAD为现有技术所述方法。

表1

表2

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请描述较为具体和详细的实施例，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多时间分辨率时态语义聚合网络的时序动作定位方法，其特征在于：所述基于多时间分辨率时态语义聚合网络的时序动作定位方法包括如下步骤：

S1、获取原始视频并进行预处理，所述预处理为从原始视频中提取特征序列所述特征序列X携带有注释标签/> 其中，时间分辨率T＝S/σ，S为原始视频的总帧数，σ为不同片段x_i之间间隔的帧数，C为片段x_i的特征维度，k_n为第n个动作，t_s,n、t_e,n和C_n依次为第n个动作的开始时间、结束时间和动作种类，N为特征序列X的动作数量；

S3、建立多时间分辨率时态语义聚合网络，所述多时间分辨率时态语义聚合网络包括依次连接的第一特征提取单元、第二特征提取单元、第三特征提取单元和后处理模块，所述第一特征提取单元包括N＇个并行的子模块，所述子模块包括依次连接的第一时态语义上下文融合模块和第一注意力单元，所述第二特征提取单元用于将各所述第一注意力单元的输出特征图进行相加聚合，所述第三特征提取单元包括依次连接的第二注意力单元、第七特征提取单元和第二时态语义上下文融合模块，其中：

各所述时态语义上下文融合模块，包括第四特征提取单元、以及并行的第一分支单元、第二分支单元和第三分支单元，所述第一分支单元用于输出对应时态语义上下文融合模块的原始输入特征图，所述第二分支单元包括依次连接的自注意力模块、第五特征提取单元和第一分组卷积单元，所述第五特征提取单元还与所述自注意力模块的输入端连接，用于进行相加聚合，所述第三分支单元包括依次连接的动态图卷积网络、第一Involution卷积层、第二Involution卷积层、第六特征提取单元、第一MobileNet网络、第二分组卷积单元和第二MobileNet网络，所述第六特征提取单元还与所述动态图卷积网络的输出端连接，用于进行相加聚合，所述第四特征提取单元用于将所述第一分支单元、第二分支单元和第三分支单元的输出特征图进行相加聚合；

各所述注意力单元基于八头注意力机制进行局部特征和全局特征提取；

所述第七特征提取单元用于将所述第二注意力单元的输出特征图与超参数1/N＇进行相乘操作；

所述后处理模块包括依次连接的上采样模块、concat层和全连接层，所述上采样模块还与所述第二时态语义上下文融合模块的动态图卷积网络的输出端连接；

S4、将时间分辨率调整后的各特征序列X一一对应输入所述子模块，采用分类损失和回归损失训练多时间分辨率时态语义聚合网络；

2.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法，其特征在于：步骤S2中，N＇＝3，调整后的各特征序列X的时间分辨率分别为T、T/2、256。

3.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法，其特征在于：各所述分组卷积单元采用32条路径。

4.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法，其特征在于：所述第五特征提取单元、第二Involution卷积层、第四特征提取单元的输出端均连接有Relu激活函数。

5.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法，其特征在于：所述第五特征提取单元将80％的原始输入特征图和20％的自注意力模块的输出特征图进行相加聚合。

6.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法，其特征在于：所述注意力单元分别采用四头注意力机制进行局部特征和全局特征提取。

7.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法，其特征在于：所述分类损失L_c和回归损失L_n，计算公式如下：

L_c＝L_wce(p_s，d_ss)+L_wce(p_e，d_se)

L_n＝L_wce(p_cls，1{ψ_c＞0.5})+ω₁·L_mse(p_reg，ψ_c)