CN118097510A

CN118097510A - 一种时序动作定位方法、装置、计算机设备及存储介质

Info

Publication number: CN118097510A
Application number: CN202410283426.6A
Authority: CN
Inventors: 尚万峰; 张琦; 吴新宇
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-05-28

Abstract

本申请涉及一种时序动作定位方法、装置、计算机设备以及存储介质。所述方法包括：将视频片段输入视频特征提取模块，通过所述视频特征提取模块提取所述视频片段的视觉特征序列；将所述视觉特征序列输入动作边界定位模块，所述动作边界定位模块采用基于查询向量的transformer网络在所述视觉特征序列中定位出包括动作起始点和结束点的动作边界，得到所述视频片段中的候选动作起始帧和结束帧；对所述候选动作起始帧和结束帧进行两两组合，生成候选动作边界组合，并将所述候选动作边界组合输入分类网络，得到每组候选动作边界组合的动作类别及分数。本申请实施例避免了同一视频片段中相邻片段之间的干扰，提升了时序动作的定位精度。

Description

一种时序动作定位方法、装置、计算机设备及存储介质

技术领域

本申请属于计算机视觉技术领域，特别涉及一种时序动作定位方法、装置、计算机设备以及存储介质。

背景技术

随着互联网上视频数量的快速增长，视频内容分析方法已经引起了学术界和工业界的广泛关注。时序动作定位(Temporal Action Localization)是近年来兴起的一项前沿技术，其目标是在未修剪的长视频中定位动作实例信息，通过结合计算机视觉与机器学习算法，能够准确地识别及追踪视频中复杂的人体动作。目前的时序动作定位方法可以大致分为以下两种：

一、基于候选片段生成的两阶段时间动作定位方法；该方法包含两个阶段：1.生成候选视频片段；2.将候选视频片段分类为动作并细化它们的时间边界。该方法原理简单，对实际动作的区间也能很好的覆盖，但由于没有利用动作的先验信息，生成的窗口数量很冗余，且和时间动作的区间吻合度不高，同时由于没有考虑时序性信息，针对时序性较强的动作识别并不准确。

二、单阶段时序动作定位方法；该方法的核心思想是将候选视频片段生成和视频片段分类集成到一个模型中，同时对片段生成模型和分类模型进行优化，旨在不使用候选视频片段生成的情况下在单个视频中定位动作。比较典型的算法包括基于锚点的(例如，使用从滑动窗口中采样的锚窗口)的方法和不使用锚点的方法。在基于锚点的方法中，首先需要预先设定固定数量锚点，然后基于此锚点生成对应的候选时间区间，最后针对每个区间进行分类。这类方法能够一定程度上避免两个网络独立优化时难以同时达到最优的问题，然而由于固定的预定义锚点，在处理不同的动作类别时缺乏灵活性。不使用锚点的方法提议生成和分类过程是分开的，必须分别进行训练，但理想情况下，我们希望以联合方式训练它们以获得最优模型，提议生成方法或滑动窗口方法需要额外的时间消耗，滑动窗口方法生成的动作实例的时间边界通常是近似的，而不是精确的，并且在分类过程中需要进行修正。此外，由于滑动窗口的尺度是预先确定的，因此无法灵活地预测具有不同尺度的实例。

另一种方法为Act ionFormer方法，该方法基于Transformer结构，通过对每个时间段进行分类和估计动作边界来检测动作实例。具体而言，该方法可以分为三个步骤：1、编码视频帧特征；2、生成动作候选框；3、后处理候选动作框。然而该方法的缺点在于：

1、直接对动作片段整体进行定位，缺少对动作内在结构性信息的有效利用。一个动作按照发生阶段可以分为起始、过程、结束。在这三个阶段中，起始和结束被称作动作边界，往往具有更强的视觉判别信息。现有技术将一个动作看作整体，忽略了对动作本身的结构性信息的有效利用；

2、在一段视频中，一个特定动作可能连续发生了多次，且彼此之间有可能存在重叠。由于该方法只针对单个动作片段进行定位，因此往往不能避免多组动作之间的相互干扰，难以对多组连续发生的动作的有效区分。

发明内容

本申请提供了一种时序动作定位方法、装置、计算机设备以及存储介质，旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题，本申请提供了如下技术方案：

一种时序动作定位方法，包括：

将视频片段输入视频特征提取模块，通过所述视频特征提取模块提取所述视频片段的视觉特征序列；

将所述视觉特征序列输入动作边界定位模块，所述动作边界定位模块采用基于查询向量的transformer网络在所述视觉特征序列中定位出包括动作起始点和结束点的动作边界，得到所述视频片段中的候选动作起始帧和结束帧；

通过动作边界组合模块对所述候选动作起始帧和结束帧进行两两组合，生成候选动作边界组合，并将所述候选动作边界组合输入分类网络，得到每组候选动作边界组合的动作类别及分数。

本申请实施例采取的技术方案还包括：所述通过所述视频特征提取模块提取所述视频片段的视觉特征序列，具体为：

定义长度为I_L的视频序列为V＝{I₁，I₂，...，I_L}，其中I_t表示第t帧图像，将视频片段I作为输入，使用卷积神经网络提取视频片段I中每一帧图像的视觉特征f∈R^C，其中C表示特征维度，得到整个视频片段的视觉特征序列V_cnn＝{f₁，f，...，f_L}；

将视觉特征的特征维度减少到C_e，并将视觉特征序列的大小展平为生成长度为L的位置编码向量/>将展平后的视觉特征序列与位置编码向量相加，得到包含位置信息的视频特征序列：

V_pos＝V_flatten+E_pos

将所述包含位置信息的视频特征序列输入Transformer编码器，得到融合了上下文信息的视频特征序列V_context。

本申请实施例采取的技术方案还包括：所述动作边界定位模块采用基于查询向量的transformer网络在所述视觉特征序列中定位出包括动作起始点和结束点的动作边界，得到所述视频片段中的候选动作起始帧和结束帧，具体为：

使用以下公式生成对应动作起始点和结束点的查询特征：

Q_s＝W_s*V_context+b_s

Q_e＝W_e*V_context+b_e

其中，W_s、W_e是可学习的权重矩阵，b_s、b_e是可学习的偏置项；

将所述视觉特征序列和查询特征输入Transformer编码器中，所述Transformer编码器利用多头注意力机制对视觉特征序列和查询特征进行编码，获取编码后的视觉特征表示F以及编码后的起始帧查询特征表示Q_s和结束帧查询特征表示Q_e；

利用所述编码后的视觉特征表示F以及起始帧查询特征表示Q_s和结束帧查询特征表示Q_e进行注意力计算，分别得到动作起始帧和结束帧的注意力特征；

将所述动作起始帧和结束帧的注意力特征输入分类网络，得到视频片段中每一帧图像为动作起始帧和结束帧的概率，并选择概率大于预设阈值的帧图像作为候选动作起始帧和结束帧。

本申请实施例采取的技术方案还包括：所述Transformer编码器利用多头注意力机制对视觉特征序列和查询特征进行编码，获取编码后的视觉特征表示F以及编码后的起始帧查询特征表示Q_s和结束帧查询特征表示Q_e，具体为：

将所述视觉特征序列和查询特征分别作为查询、键和值输入到多头注意力计算机制中计算注意力得分；

对所述注意力得分进行缩放和归一化，将所述注意力得分除以特征向量的维度的平方根，并应用Softmax函数得到归一化的注意力权重；

使用所述注意力权重对值进行加权求和，得到编码后的视觉特征表示和查询特征表示。

本申请实施例采取的技术方案还包括：所述利用所述编码后的视觉特征表示F以及起始帧查询特征表示Q_s和结束帧查询特征表示Q_e进行注意力计算，分别得到动作起始帧和结束帧的注意力特征，具体为：

将所述起始帧查询特征表示Q_s与视觉特征表示F进行注意力计算，得到起始帧的注意力特征A_s：

A_s＝Attention(Q_s，F，F)

将所述结束帧查询特征表示Q_e与视觉特征表示F进行注意力计算，得到结束帧的注意力特征A_e：

A_e＝Attention(Q_e，F，F)

本申请实施例采取的技术方案还包括：所述通过动作边界组合模块对所述候选动作起始帧和结束帧进行两两组合，生成候选动作边界组合，并将所述候选动作边界组合输入分类网络，得到每组候选动作边界组合的动作类别及分数，具体为：

分别定义候选动作起始帧和结束帧的集合为F_s＝{f_s1，f_s2，...，f_m}，F_e＝{f_e1，f_e2，...，f_n}，其中，表示第i个候选动作起始帧的特征，m表示候选动作起始帧的总数量，n表示结束帧的总数量，且m＝n；

对所述候选动作起始帧和结束帧的集合F_s，F_e进行两两组合，生成组合特征集合其中/>表示第i个起始帧和第j个结束帧的组合特征：

其中Concat表示特征串联操作；

将所述组合特征集合输入分类网络，得到每组组合特征的动作类别及分数S_ij∈R^C：

其中，W_cl，b_cl分别表示分类网络的参数。

本申请实施例采取的技术方案还包括：所述得到每组候选动作边界组合的动作类别及分数之后，还包括：

基于所述候选动作边界组合的动作类别及分数，采用误差反向传播算法对所述视频特征提取模块、动作边界定位模块和动作边界组合模块进行优化。

本申请实施例采取的另一技术方案为：一种时序动作定位装置，包括：

视频特征提取模块：用于提取视频片段的视觉特征序列；

动作边界定位模块：用于采用基于查询向量的transformer网络在所述视觉特征序列中定位出包括动作起始点和结束点的动作边界，得到所述视频片段中的候选动作起始帧和结束帧；

动作边界组合模块：用于对所述候选动作起始帧和结束帧进行两两组合，生成候选动作边界组合，并将所述候选动作边界组合输入分类网络，得到每组候选动作边界组合的动作类别及分数。

本申请实施例采取的又一技术方案为：一种计算机设备，所述计算机设备包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现所述时序动作定位方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以控制时序动作定位方法。

本申请实施例采取的又一技术方案为：一种存储介质，存储有处理器可运行的程序指令，所述程序指令用于执行所述时序动作定位方法。

相对于现有技术，本申请实施例产生的有益效果在于：本申请实施例的时序动作定位方法、装置、计算机设备以及存储介质利用动作边界组合的时序动作定位方式，首先基于动作起始点和结束点等动作本身结构对动作边界进行独立定位，增强对动作边界的定位精度；然后基于动作边界定位结果对不同边界点进行组合，并对动作边界组合进行分类，最终得到视频片段中的动作片段区间，避免了同一视频片段中相邻片段之间的干扰，提升了时序动作定位精度，解决了现有技术中存在的缺少对动作内在结构性信息的有效利用和难以对多组连续发生的动作的有效区分的问题。

附图说明

图1是本申请实施例的时序动作定位方法的流程图；

图2为本申请实施例的时序动作定位装置结构示意图；

图3为本申请实施例的计算机设备结构示意图；

图4为本申请实施例的存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或计算机设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或计算机设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

具体地，请参阅图1，是本申请实施例的时序动作定位方法的流程图。本申请实施例的时序动作定位方法包括以下步骤：

S100：获取待处理的视频片段；

S110：将视频片段输入视频特征提取模块，视频特征提取模块采用一个具有Transformer编码器架构的卷积神经网络作为视频特征提取器，提取视频片段的视觉特征序列；

本步骤中，视频特征提取模块采用一个具有Transformer编码器架构的卷积神经网络作为视频特征提取器，提取视频片段中每一帧图像的视觉特征。视频特征提取模块的视觉特征提取过程具体包括以下步骤：

S111：定义长度为I_L的视频序列为V＝{I₁，I₂，...，I_L}，其中I_t表示第t帧图像，将视频片段I作为输入，使用CNN(Convolutional Neural Networks，卷积神经网络)提取视频片段I中每一帧图像的视觉特征f∈R^C，其中C表示特征维度，得到整个视频片段的视觉特征序列V_cnn＝{f₁，f，...，f_L}；

S112：将视觉特征的特征维度减少到C_e，并将视觉特征序列的大小展平为生成长度为L的位置编码向量/> 将展平后的视觉特征序列与位置编码向量相加，得到包含位置信息的视频特征序列：

V_pos＝V_flatten+E_pos (1)

S113：将包含位置信息的视频特征序列输入Transformer编码器，得到融合了上下文信息的视频特征序列V_context；

其中，Transformer编码器的工作原理如下：

首先生成中间特征向量：

Q＝V_posW_Q (2)

K＝V_posW_K (3)

V＝V_posW_V (4)

然后通过自注意力机制计算注意力：

Attention(Q，K，V)＝softmax(QK^T/sqrt(C_e))V (5)

最后通过归一化层和前馈神经网络层：

Z＝LayerNorm(V+Attention(Q，K，V) (6)

V_context＝Z+FFN(Z) (7)

其中，FFN(Z)是一个包含两个全连接层和激活函数的前馈神经网络。

S120：将视频片段的视觉特征序列输入动作边界定位模块，动作边界定位模块采用基于查询向量(query)的transformer网络在视觉特征序列中定位出包括动作起始点和结束点的动作边界，得到候选动作起始帧和结束帧；

本步骤中，为了定位动作边界，动作边界定位模块基于DETR网络结构，采用基于查询向量的transformer网络利用多个动作起始点查询向量与动作结束点查询向量进行动作边界定位。具体的，动作边界定位模块的动作边界定位过程包括以下步骤：

S121：采用以下公式生成对应动作起始点和结束点的查询特征：

Q_s＝W_s*V_context+b_s (8)

Q_e＝W_e*V_context+b_e (9)

其中，W_s、W_e是可学习的权重矩阵，b_s、b_e是可学习的偏置项。

S122：将视觉特征序列和查询特征输入Transformer编码器中，Transformer编码器利用多头注意力机制(multi-head attention)对视觉特征序列和查询特征进行编码，获取编码后的视觉特征表示F以及编码后的起始帧查询特征表示Q_s和结束帧查询特征表示Q_e；

其中，Transformer编码器将输入的视觉特征序列和查询特征进行自注意力计算，并通过多层前馈神经网络进行编码，获得编码后的视觉特征表示F以及编码后的起始帧查询特征表示Q_s和结束帧查询特征表示Q_e，再利用编码后的视觉特征表示F以及起始帧查询特征表示Q_s和结束帧查询特征表示Q_e计算注意力得分，利用注意力得分衡量视觉特征和查询特征之间的相关性，从而确定动作起始帧和结束帧。

得到查询特征之后，通过Transformer编码器将视觉特征序列和查询特征进行编码，得到编码后的视觉特征表示和查询特征表示。具体编码过程包括：首先将输入序列(视觉特征序列和查询特征)分别作为查询、键(key)和值(value)输入到多头注意力计算(multi-head attention)机制中，计算输入序列的注意力得分；然后对注意力得分进行缩放和归一化，将注意力得分除以特征向量的维度的平方根，并应用Softmax函数得到归一化的注意力权重；最后使用注意力权重对值进行加权求和，得到视觉特征和查询特征的注意力表示。在每个前馈神经网络层中，对注意力表示进行前向传播，得到编码后的注意力表示。

S123：利用编码后的视觉特征表示F以及起始帧查询特征表示Q_s和结束帧查询特征表示Q_e进行注意力计算，分别得到起始帧的注意力特征和结束帧的注意力特征；

具体的，对于起始帧，将起始帧查询特征表示Q_s与视觉特征表示F进行注意力计算，得到起始帧的注意力特征A_s：

A_s＝Attention(Q_s，F，F) (10)

对于结束帧，将结束帧查询特征表示Q_e与视觉特征表示F进行注意力计算，得到结束帧的注意力特征A_e：

A_e＝Attention(Q_e，F，F) (11)

在注意力计算中，使用以下公式计算注意力得分：

Attention(Q，K，V)＝softmax(QK^T/sqrt(d_k))V (12)

其中，d_k是特征向量的维度。

S124：将起始帧的注意力特征和结束帧的注意力特征输入分类网络，得到视频片段中每一帧图像为动作起始帧和结束帧的概率P_s和P_e，并选择概率大于预设阈值的帧图像作为候选动作起始帧和结束帧。

基于上述，本申请实施例的动作边界定位模块通过设计了动作边界定位网络，显式地将视频片段中的动作拆解为动作起始点、动作过程、动作结束点三个部分，并利用动作边界信息对网络进行显式的监督训练，从而得到更为准确的动作边界位置。

S130：通过动作边界组合模块对所有候选动作起始帧和结束帧进行两两组合，生成候选动作边界组合，并将候选动作边界组合输入分类网络，计算每组候选动作边界组合的动作类别及分数；

本步骤中，在得到候选动作起始帧和结束帧之后，本申请实施例通过一个动作组合解码器对所有候选动作起始帧和动作结束帧进行两两组合，生成由候选动作起始帧和结束帧组成的候选动作边界组合，并识别每组组合动作的类别及分数。具体的，动作边界组合模块的动作组合方式包括以下步骤：

S131：分别定义候选动作起始帧和结束帧的集合为F_s＝{f_s1，f_s2，...，f_m}，F_e＝{f_e1，f_e2，...，f_n}，其中，表示第i个候选动作起始帧的特征，m表示候选动作起始帧的总数量，n表示结束帧的总数量，且m＝n；

S132：对候选动作起始帧和结束帧的集合F_s，F_e进行两两组合，生成组合特征集合其中/>表示第i个起始帧和第j个结束帧的组合特征：

其中Concat表示特征串联操作。

S133：将组合特征集合输入分类网络，得到每组组合特征的动作类别及分数S_ij∈R^C：

其中，W_cl，b_cl分别表示分类网络的参数。

基于上述，本申请实施例通过动作边界组合模块根据所有候选动作起始帧和结束帧生成候选动作边界组合，然后通过分类网络对候选动作边界组合进行分类，得到每个组合的动作类别及分数，从而显著区分正确动作组合(真实的动作区间)和错误动作组合(比如第一个动作的起始点与第二个动作的结束点)，最大程度避免多组动作之间的相互干扰。

S140：基于分类网络输出的候选动作边界组合的动作类别及分数预测结果，采用误差反向传播算法对视频特征提取模块、动作边界定位模块和动作边界组合模块进行优化；

本步骤中，误差反向传播算法具体包括：

S141：计算每组候选动作边界组合与实际动作片段的重合分数；假设一个候选动作边界组合为(p_s，p_e)，实际动作片段为(g_s，g_e)，重合分数TIOU计算公式如下：

S142：判断各组候选动作边界组合与实际动作片段的重合分数是否大于设定阈值，如果是，执行S143；否则，执行S144；

S143：生成该候选动作边界组合的类别序号Y，其中Y为对应实际动作片段的类别序号；

S144：生成该候选动作边界组合的类别序号为0，其中0表示背景类别序号；

S145：得到所有候选动作边界组合的类别序号后，计算损失函数：

其中，S_i[Y]表示第i个候选动作边界组合类别序号为Y的分数，N_c表示所有候选动作边界组合的个数。

S146：使用针对动作边界的分类损失优化动作边界定位模块；定义边界定位损失为：

其中，表示某一图像帧预测为动作起始帧/结束帧的概率，/>表示该图像帧实际是否为动作起始帧/结束帧，是则取值为1，否则取值为0。

最终整体优化loss定义为：

loss＝loss_c+λloss_se (18)

其中，λ为设定好的系数。

基于上述，本申请实施例在模块优化过程中，动态构造了大量正负边界组合样本，并通过抑制负样本，避免了相邻片段之间的相互干扰，更准确地识别出正确的边界组合，提升了时序动作定位精度。

为了验证本申请实施例的可行性和有效性，以下实施例利用THUMOS14数据集进行模拟实验，采用指标是Average mAP(平均精度),用于衡量预测动作片段与实际动作片段的重合程度，最大为1，最小为0，越大越好。通常的AveragemAP的计算方式，是计算在不同TIOU的阈值下的mAP，最终平均得到AveragemAP。下表1列出了不同TIOU阈值下的mAP，以及最终的Average mAP：

表1不同TIOU阈值下的mAP，以及最终的Average mAP

实验结果表明，相比于现有技术，本申请实施例对动作片段的动作定位更为准确。

基于上述，本申请实施例的时序动作定位方法利用动作边界组合的时序动作定位方式，首先基于动作起始点和结束点等动作本身结构对动作边界进行独立定位，增强对动作边界的定位精度；然后基于动作边界定位结果对不同边界点进行组合，并对动作边界组合进行分类，最终得到视频片段中的动作片段区间，避免了同一视频片段中相邻片段之间的干扰，提升了时序动作定位精度，解决了现有技术中存在的缺少对动作内在结构性信息的有效利用和难以对多组连续发生的动作的有效区分的问题。

请参阅图2，为本申请实施例的时序动作定位装置结构示意图。本申请实施例的时序动作定位装置40包括：

视频特征提取模块41：用于提取视频片段的视觉特征序列；

动作边界定位模块42：用于采用基于查询向量的transformer网络在所述视觉特征序列中定位出包括动作起始点和结束点的动作边界，得到所述视频片段中的候选动作起始帧和结束帧；

动作边界组合模块43：用于对所述候选动作起始帧和结束帧进行两两组合，生成候选动作边界组合，并将所述候选动作边界组合输入分类网络，得到每组候选动作边界组合的动作类别及分数。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

本申请实施例提供的装置可以应用在前述方法实施例中，详情参见上述方法实施例的描述，在此不再赘述。

请参阅图3，为本申请实施例的计算机设备结构示意图。该计算机设备50包括：

存储有可执行程序指令的存储器51；

与存储器51连接的处理器52；

处理器52用于调用存储器51中存储的可执行程序指令并执行以下步骤：将视频片段输入视频特征提取模块，通过所述视频特征提取模块提取所述视频片段的视觉特征序列；将所述视觉特征序列输入动作边界定位模块，所述动作边界定位模块采用基于查询向量的transformer网络在所述视觉特征序列中定位出包括动作起始点和结束点的动作边界，得到所述视频片段中的候选动作起始帧和结束帧；通过动作边界组合模块对所述候选动作起始帧和结束帧进行两两组合，生成候选动作边界组合，并将所述候选动作边界组合输入分类网络，得到每组候选动作边界组合的动作类别及分数。

其中，处理器52还可以称为CPU(Central Processing Unit，中央处理单元)。处理器52可能是一种集成电路芯片，具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参阅图4，为本申请实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现以下步骤的程序指令61：将视频片段输入视频特征提取模块，通过所述视频特征提取模块提取所述视频片段的视觉特征序列；将所述视觉特征序列输入动作边界定位模块，所述动作边界定位模块采用基于查询向量的transformer网络在所述视觉特征序列中定位出包括动作起始点和结束点的动作边界，得到所述视频片段中的候选动作起始帧和结束帧；通过动作边界组合模块对所述候选动作起始帧和结束帧进行两两组合，生成候选动作边界组合，并将所述候选动作边界组合输入分类网络，得到每组候选动作边界组合的动作类别及分数。其中，该程序指令61可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络计算机设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序指令的介质，或者是计算机、服务器、手机、平板等终端计算机设备。其中，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种时序动作定位方法，其特征在于，包括：

2.根据权利要求1所述的时序动作定位方法，其特征在于，所述通过所述视频特征提取模块提取所述视频片段的视觉特征序列，具体为：

定义长度为I_L的视频序列为V＝{I₁,I₂,…,I_L},其中I_t表示第t帧图像，将视频片段I作为输入，使用卷积神经网络提取视频片段I中每一帧图像的视觉特征f∈R^C,其中C表示特征维度，得到整个视频片段的视觉特征序列V_cnn＝{f₁,f,…,f_L}；

V_pos＝V_flatten+E_pos

3.根据权利要求2所述的时序动作定位方法，其特征在于，所述动作边界定位模块采用基于查询向量的transformer网络在所述视觉特征序列中定位出包括动作起始点和结束点的动作边界，得到所述视频片段中的候选动作起始帧和结束帧，具体为：

使用以下公式生成对应动作起始点和结束点的查询特征：

Q_s＝W_s*V_context+b_s

Q_e＝W_e*V_context+b_e

4.根据权利要求3所述的时序动作定位方法，其特征在于，所述Transformer编码器利用多头注意力机制对视觉特征序列和查询特征进行编码，获取编码后的视觉特征表示F以及编码后的起始帧查询特征表示Q_s和结束帧查询特征表示Q_e，具体为：

5.根据权利要求4所述的时序动作定位方法，其特征在于，所述利用所述编码后的视觉特征表示F以及起始帧查询特征表示Q_s和结束帧查询特征表示Q_e进行注意力计算，分别得到动作起始帧和结束帧的注意力特征，具体为：

A_s＝Attention(Q_s,F,F)

A_e＝Attention(Q_e,F,F)。

6.根据权利要求1至5任一项所述的时序动作定位方法，其特征在于，所述通过动作边界组合模块对所述候选动作起始帧和结束帧进行两两组合，生成候选动作边界组合，并将所述候选动作边界组合输入分类网络，得到每组候选动作边界组合的动作类别及分数，具体为：

分别定义候选动作起始帧和结束帧的集合为F_s＝{f_s1,f_s2,…,f_m},F_e＝{f_e1,f_e2,…,f_n},其中，表示第i个候选动作起始帧的特征，m表示候选动作起始帧的总数量，n表示结束帧的总数量，且m＝n；

其中Concat表示特征串联操作；

将所述组合特征集合输入分类网络，得到每组组合特征的动作类别及分数S_ij∈R^C:

其中，W_cl,b_cl分别表示分类网络的参数。

7.根据权利要求6所述的时序动作定位方法，其特征在于，所述得到每组候选动作边界组合的动作类别及分数之后，还包括：

8.一种时序动作定位装置，其特征在于，包括：

视频特征提取模块：用于提取视频片段的视觉特征序列；

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现权利要求1-7任一项所述的时序动作定位方法的程序指令；

10.一种存储介质，其特征在于，存储有处理器可运行的程序指令，所述程序指令用于执行权利要求1至7任一项所述时序动作定位方法。