CN113569757A

CN113569757A - 一种时序动作定位方法、系统、终端设备及可读存储介质

Info

Publication number: CN113569757A
Application number: CN202110866992.6A
Authority: CN
Inventors: 王乐; 朱子欣; 周三平; 陈仕韬; 辛景民; 郑南宁
Original assignee: Ningbo Shun'an Artificial Intelligence Research Institute; Xian Jiaotong University
Current assignee: Ningbo Shun'an Artificial Intelligence Research Institute; Xian Jiaotong University
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-10-29
Anticipated expiration: 2041-07-29
Also published as: CN113569757B

Abstract

本发明公开了一种时序动作定位方法、系统、终端设备及可读存储介质，所述方法包括以下步骤：获取待时序动作定位的原始视频的候选动作提案集合；获取所述候选动作提案集合中每个提案的提案特征；更新所述候选动作提案集合中每个提案的提案特征，获得更新后的动作提案集合；基于所述更新后的动作提案集合，通过预训练好的全连接层网络获得待时序动作定位的原始视频的时序动作定位结果。本发明提供了利用局部和全局上下文处理时序动作定位的方法；其中，全局上下文能提供对分类有用的信息，让模型更加精准的识别动作类别；在此基础上，局部上下文能提供细腻的时序定位信息，让模型更加精准的定位动作的起止时刻。

Description

一种时序动作定位方法、系统、终端设备及可读存储介质

技术领域

本发明属于计算机视觉领域，特别涉及一种时序动作定位方法、系统、终端设备及可读存储介质。

背景技术

时序动作定位是视频理解中的基本任务，它要求对动作实例分类并且定位动作实例的时序边界。有效地处理时序动作定位任务需要追求两个目标：对于动作分类来说，需要追求足够的视觉不变性；对于定位来说，需要细粒地区分动作的起止时刻。最近，时序动作定位因为在动作检索、视频摘要、智能安防等广泛的应用而越来越受到研究界的关注。

目前，传统的时序动作定位技术并没有很完善的考虑到上面两个目标。其中一方面，没有考虑到全局上下文(整个视频)带来的对分类有用的信息，例如背景等；缺失了对分类有用的信息会导致分类的准确率偏低，让模型错误地识别动作(把调高识别成跳远)。另外一方面，现有方法仅仅通过最大池化视频片段的特征来进行定位，缺失了局部上下文(包含动作起止时间的视频片段)带来的细粒的定位信息，缺失了细腻的定位信息会导致模型无法精准地定位到动作的起止时刻。

发明内容

本发明的目的在于提供一种时序动作定位方法、系统、终端设备及可读存储介质，以解决上述存在的一个或多个技术问题。本发明提供了利用局部和全局上下文处理时序动作定位的方法；其中，全局上下文能提供对分类有用的信息，让模型更加精准的识别动作类别；在此基础上，局部上下文能提供细腻的时序定位信息，让模型更加精准的定位动作的起止时刻。

为达到上述目的，本发明采用以下技术方案：

本发明的一种时序动作定位方法，包括以下步骤：

将待时序动作定位的原始视频划分为视频片段并编码，获得视频片段特征序列；获取待时序动作定位的原始视频的候选动作提案集合；

基于视频片段特征序列，获取所述候选动作提案集合中每个提案的提案特征；

更新所述候选动作提案集合中每个提案的提案特征，获得更新后的动作提案集合；其中，所述更新所述候选动作提案集合中每个提案的提案特征的过程中，更新选中提案的提案特征的操作为，在所述选中提案的提案特征上拼接所述选中提案的局部上下文和全局上下文信息；

基于所述更新后的动作提案集合，通过预训练好的全连接层网络获得待时序动作定位的原始视频的时序动作定位结果。

本发明方法的进一步改进在于，所述获取所述候选动作提案集合中每个提案的提案特征的具体步骤包括：

对于所述候选动作提案集合中每个提案，最大池化提案内部的视频片段特征获得提案的提案特征。

本发明方法的进一步改进在于，所述获得视频片段特征序列之后，还包括：最大池化所有视频片段的特征，获得所述待时序动作定位的原始视频的视频特征。

本发明方法的进一步改进在于，所述在所述选中提案的提案特征上拼接所述选中提案的局部上下文和全局上下文信息的过程中，所述选中提案的局部上下文获取及拼接步骤具体包括：

(1)查询所述选中提案与其内部的视频片段的关系，表达式为：

式中，σ是ReLU激活函数；s是余弦相似度；S(i)是第i个提案内部的视频片段集合；i

是指第i个提案，j是指第i个提案内部的一个视频片段，k是提案内部的所有视频片段的索引；

为第j个提案内部的视频片段与提案的关系，上标L表示这个关系属于L-Net；y_i表示第i个提案的特征，x_j，x_k分别表示提案内部的第j，k个视频片段的特征；

(2)具有局部上下文的提案特征的表达式为：

式中，

是具有局部上下文的提案特征；

和

为可训练的权重。

本发明方法的进一步改进在于，所述在所述选中提案的提案特征上拼接所述选中提案的局部上下文和全局上下文信息的过程中，所述选中提案的全局上下文获取及拼接步骤具体包括：

1)计算所述选中提案的全局上下文的表达式为，

式中，

为提案与全局上下文的关系，

为提案内部的视频片段与全局上下文的关系；上标G表示这些属于G-Net，

为适应第i个提案的全局上下文；

和

为可训练的权重；

2)拼接

和

得到所述选中提案的具有局部和全局上下文的提案特征。

本发明方法的进一步改进在于，所述预训练好的全连接层网络的获取步骤包括：

将具有局部上下文和全局上下文的提案特征通过P-Net处理之后，再送入全连接层获得分类的分数

下标c表示分类，下标i表示第i个提案，上标p表示是原始的提案；

通过交叉熵损失函数计算

与真实的动作类别分数

之间的损失；利用获得的损失优化全连接层，获得训练好的全连接层网络；其中，上标g代表真实值。

本发明方法的进一步改进在于，所述获取待时序动作定位的原始视频的候选动作提案集合之后，还包括：

将原始提案扩展左右两侧的时间边界，扩展长度为原始提案的一半，获取扩充的提案的特征；

将扩充的提案的特征送入两个不同的全连接层，得到完整性的分数

和边界回归的结果

其中，上标e表示是扩充的提案，下标c表示完整性分数是基于类别的，下标s、e分别表示动作的起、止，t表示是动作的起止时间；

使用悬挂损失函数计算完整性分数的损失，使用1范数损失函数计算边界回归的损失，利用获得损失失分别优化两个全连接层；

将P-Net获得的提案特征送入全连接层得到分类结果

将对应的扩充提案的特征送入优化后的两个全连接层得到完整性结果

与定位结果

将

与

相乘得到最后的分类结果。

本发明的一种时序动作定位系统，包括：

特征序列获取模块，用于将待时序动作定位的原始视频划分为视频片段并编码，获得视频片段特征序列；

候选动作提案集合获取模块，用于获取待时序动作定位的原始视频的候选动作提案集合；

提案特征获取模块，用于基于视频片段特征序列，获取所述候选动作提案集合中每个提案的提案特征；

更新模块，用于更新所述候选动作提案集合中每个提案的提案特征，获得更新后的动作提案集合；其中，所述更新所述候选动作提案集合中每个提案的提案特征的过程中，更新选中提案的提案特征的操作为，在所述选中提案的提案特征上拼接所述选中提案的局部上下文和全局上下文信息；

结果获取模块，用于基于所述更新后的动作提案集合，通过预训练好的全连接层网络获得待时序动作定位的原始视频的时序动作定位结果。

本发明的一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序以实现如本发明任意一项上述的时序动作定位方法。

本发明的一种计算机可读存储介质，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现如本发明任意一项上述的时序动作定位方法。

与现有技术相比，本发明具有以下有益效果：

本发明的方法中利用局部和全局上下文处理时序动作定位；其中，局部上下文用来追求对定位的细粒的区分，全局上下文用来追求足够的视觉不变性。具体的，由于本发明考虑了内部的细粒的定位信息(局部上下文)，所以本发明的方法比现有传统方法能更好地定位动作的起始和截至时刻。由于本发明考虑到了外部的对分类有用的信息(全局上下文)，并且全局上下文还能补足不完整的提案，所以本发明的方法比现有的方法能更好地分类动作实例。

本发明在建模时，将扩充的提案当作三个提案来处理，相比于现有方法能够有效地减少网络参数量和计算量并增加性能。

本发明原始的提案使用的网络是扩充提案的网络的一部分，这样考虑到了原始提案和扩充提案的关系，让原始提案和扩充提案的特征具有同一性，符合实际的物理意义，具有可解释性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种时序动作定位方法的流程示意图；

图2是本发明实施例中，上下文示意图；其中，图2(a)为局部上下文示意图；图2(b)为全局上下文示意图；

图3是本发明实施例中，本发明方法处理扩充的提案与现有方法处理扩充的提案对比示意图；

图4是本发明实施例中，定位效果对比示意图；其中，图4(a)为本发明的方法与现有最好的方法在流行的两个数据集上(THUMOS14，ActivityNet v1.3)定位效果对比示意图；图4(b)为本发明的方法与现有最好的方法在流行的两个数据集上(THUMOS14，ActivityNet v1.3)分类效果对比示意图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

实施例1

请参阅图1，本发明实施例的一种基于局部和全局上下文的时序动作定位方法，包括以下步骤：

步骤1：在提案(可能包含动作的视频片段)上保留局部上下文，包括：

获得提案内部的视频片段；

使用提案询问这些视频片段中哪些视频片段是对定位起着关键作用的；将起着关键作用的视频片段经过线性变换之后，合并到提案上。

步骤2：在提案上加入全局上下文，包括：

让全局上下文适应不同的提案；将提案与适应这个提案的全局上下文合并。

步骤3：对这些具有局部和全局上下文的原始提案进行动作类别的打分(假设有20类动作，那么一个提案就有20个分数)；得分最高的动作类别为预测出的动作类别。

步骤4：将原始的提案在时序上向左右各扩充原本1/2的长度，并将左右扩充的部分视为新的两个提案。然后将这两个新的提案通过步骤1和步骤2(此网络与原始提案通过的网络是一样的)，拼接原始的提案和这两个新的提案得到扩充的提案。

步骤5：获得最后分类和定位结果，包括：

通过扩充的提案得到补充的分类分数，并获得对应的原始提案的分类分数。将这两个分数相乘得到最后的分类结果；

通过扩充的提案得到动作的起始时刻和截止时刻。

本发明上述实施例的方法相比于现有技术具有的优点包括：

第一，由于本发明考虑了提案内部的细粒的定位信息(局部上下文)，所以本发明的方法比现有方法能更好地定位动作的起始和截至时刻。

第二，本发明考虑到了提案外部的对分类有用的信息(全局上下文)，并且全局上下文还能补足不完整的提案，所以本发明的方法比现有的方法能更好地分类动作实例。

第三，在建模的时候本发明将扩充的提案当作三个提案来处理，比现有的方法有效地减少了网络参数量和计算量并增加了性能。本发明原始的提案使用的网络是扩充提案的网络的一部分，这样考虑到了原始提案和扩充提案的关系，这是现有的方法所没有的。

实施例2

请参阅图2，如附图2(a)、图2(b)所示，局部上下文能给提案带来细粒的时序定位信息，全局上下文能补充提案并且给提案带来对分类有利的信息如背景信息，然后具有局部和全局上下文的提案可以更精准的进行分类和定位(边界回归)。

本发明实施例的一种基于局部和全局上下文的时序动作定位方法，包括以下步骤：

步骤1：获得多等级特征：

1)将视频分割为64帧的视频片段，然后通过I3D网络提取视频片段特征，标注为x_j，其中j代表着第j个视频片段并且x是1024维度的特征向量；

2)利用已有的理论BSN(Boundary-Sensitive Network for Temporal ActionProposal Generation，用于时序动作提案生成的边界敏感网络方法)获得初始的提案，最大池化提案内部的视频片段特征获得提案特征，标注为y_i，其中i代表着第i个提案并且y是1024维度的特征向量；

3)最大池化所有视频片段的特征得到整个视频的特征，标注为z，z也是1024维度的特征向量。

步骤2：在提案上保留局部上下文：

1)查询提案与它内部的视频片段的关系，计算公式为：

其中，σ是ReLU激活函数；s是余弦相似度；S(i)是第i个提案内部的视频片段集合。如果余弦相似度小于0，代表着提案与这个视频片段关系很弱，就用激活函数移除；

2)得出局部上下文并保留在提案上：

本发明将视频片段的特征通过线性变化得到局部上下文，并且保留与提案关系近的局部上下文在提案上，具体公式如下：

其中，

是具有局部上下文的提案特征，维度为512；

和

为可训练的权重，维度为(512*1024)；σ为ReLU激活函数。

步骤3：在提案上保留全局上下文：

1)全局上下文拥有整个视频全部的信息，它在为提案提供对分类有用的信息的同时会带来大量噪声。因为，对于不同的提案，需要让它们获得各自需要的全局上下文。所以本发明对每个提案设计出与它对应的全局上下文，计算公式为：

其中，

为适应第i个提案的全局上下文，维度为512；

和

为可训练的权重，维度为(512*1024)；

2)本发明拼接

和

两个512维的特征向量，得到具有局部和全局上下文的提案特征(1024维度)。

请参阅图3，步骤4：处理扩充的提案如图3所示，其中L-Net代表步骤2，G-Net代表步骤3。特别地，P-Net为整合提案中的局部和全局上下文的网络，它可以是任意一种处理特征向量之间关系的网络，本发明实施例中使用P-GCN作为P-Net。本发明将扩充的提案当作三个提案分别处理，并且它们共享网络的权重，这样不仅减少了模型的复杂度和计算量，还反应了原始提案是扩充提案的一部分。而在之前的方法中，他们是把扩充的提案当作一个提案，原始提案当作一个提案分开来处理的，它们之间的关系被忽略了，忽略了会导致他们的特征的描述不对应(即不一定都是考虑的跟原始提案相关的部分)，没有可解释性。

步骤5：将原始的提案特征通过全连接层得到预测出的分类分数s_o，将对应的扩充的提案特征通过两个全连接层得到预测出的分类分数s_e和定位结果(边界回归)，最后提案分类的分数为两个分数相乘s_o×s_e。

请参阅图4，表1是本发明实施例的方法在THUMOS14数据集上同之前的方法的性能对比，表2是在ActivityNet v1.3数据集上性能对比的结果。特别地，评估性能的指标为不同tIoU阈值下的mAP(mean Average Precision)。评价指标mAP能综合的反应出动作分类的准确率和动作定位的精准性。从表1和表2可以看出，本发明的方法比现有的方法有了较大提升(在THUMOS数据集tIoU@0.5的情况下mAP比之前最高的方法高了5.2％)，这表明我们的同时在动作分类和定位上都得到了很大的提升，这种好处是考虑了局部和全局上下文带来的。

表1.THUMOS14数据集上性能对比，tIoU阈值为0.3到0.7

表2.ActivityNet v1.3数据集上性能对比，tIoU阈值为0.5到0.95，均值是0.5到0.95步长为0.05的结果；(*)表明额外进行了视频等级的分类预测

综上所述，本发明实施例公开了一种基于局部和全局上下文的时序动作定位方法，属于计算机视觉领域。本发明针对时序动作定位中需要追求的两个目标：时间定位的细粒度识别和动作分类的足够的视觉不变性，使用局部和全局上下文处理时序动作定位任务。首先，通过问询机制在提案上保留局部上下文。其次本发明提供了一种新颖的全局上下文适应方法，使得每一个提案都获得与它适应的全局上下文。最后，本发明提供了一种全新的处理扩充提案的方式，在有效减少参数和计算量的基础上增加了性能。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。