CN113569758B

CN113569758B - 基于动作三元组引导的时序动作定位方法、系统、设备及介质

Info

Publication number: CN113569758B
Application number: CN202110866995.XA
Authority: CN
Inventors: 王乐; 夏锟; 周三平; 陈仕韬; 辛景民; 郑南宁
Original assignee: Ningbo Shun'an Artificial Intelligence Research Institute; Xian Jiaotong University
Current assignee: Ningbo Shun'an Artificial Intelligence Research Institute; Xian Jiaotong University
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2024-04-02
Anticipated expiration: 2041-07-29
Also published as: CN113569758A

Abstract

本发明公开了一种基于动作三元组引导的时序动作定位方法、系统、设备及介质，所述方法包括以下步骤：基于动作开始位置集合、动作中心位置集合和动作结束位置集合，获得候选动作提案集合；其中，所述候选动作提案集合中每个提案生成的具体操作包括：从动作开始位置集合中选取动作开始位置，从动作中心位置集合中选取动作中心位置，从动作结束位置集合中选取动作结束位置；将选取的动作开始位置、动作中心位置和动作结束位置连接形成提案；获取所述候选动作提案集合中每个提案的提案特征；基于每个提案的提案特征，通过预训练好的分类器和回归器预测类别和边界偏移，获得时序动作定位结果。本发明能够实现更精确的动作定位。

Description

基于动作三元组引导的时序动作定位方法、系统、设备及介质

技术领域

本发明属于计算机视觉与模式识别技术领域，涉及时序动作定位领域，特别涉及一种基于动作三元组引导的时序动作定位方法、系统、设备及介质。

背景技术

时间动作定位旨在定位未修剪视频中某些特定动作类别的时间开始和结束，它是一些实际应用(例如，智能监控、视频剪辑和动作检索)的基本工具，近年来已经受到了学术界和工业界的广泛关注。

目前的时序动作定位方法可以大致分为两种形式，分别基于锚点方法和基于边界方法；其中，基于锚点的方法依赖于一组手动定义的动作锚点；基于边界的方法密集地评估整个视频中每个片段的边界分数，并通过连接开始和结束的边界来形成行动提案，上述这些锚点或提案被用于动作分类和时间边界回归。基于锚的方法对锚的数量和尺度的设计很敏感，而基于边界的方法可以以更灵活的持续时间检测动作实例并产生更精确的边界。

尽管基于边界的方法的性能很好，但它还是存在一些缺陷，主要包括：

(1)边界片段的检测只取决于这个片段周围的局部时间区域，即动作的开始或结束阶段，而实际动作在很大程度上被忽略。由于动作边界的巨大变化以及相邻背景片段引起的局部模糊性，估计的边界分数通常都有噪声，对提案的质量产生不利影响。

(2)现有基于边界的方法通过枚举所有有效的开始和结束对来生成一个穷举的候选提案列表，这不仅带来了大量的假阳样本，而且增加了后续阶段的计算复杂度。

综上，现有的时序动作定位方法不能满足更高精确度要求的动作定位，亟需一种新的基于动作三元组引导的时序动作定位方法及系统。

发明内容

本发明的目的在于提供一种基于动作三元组引导的时序动作定位方法、系统、设备及介质，以解决上述存在的一个或多个技术问题。本发明能够实现更精确的动作定位。

为达到上述目的，本发明采用以下技术方案：

本发明的一种基于动作三元组引导的时序动作定位方法，包括以下步骤：

将待时序动作定位的原始视频序列分解为若干个视频片段并编码，获得编码后的视频特征序列；基于视频特征序列分别获得动作开始概率序列、动作中心概率序列、动作结束概率序列；基于所述动作开始概率序列，获得动作开始位置集合；基于所述动作中心概率序列，获得动作中心位置集合；基于所述动作结束概率序列，获得动作结束位置集合；基于动作开始位置集合、动作中心位置集合和动作结束位置集合，获得候选动作提案集合；其中，所述候选动作提案集合中每个提案生成的具体操作包括：从动作开始位置集合中选取动作开始位置，从动作中心位置集合中选取动作中心位置，从动作结束位置集合中选取动作结束位置；将选取的动作开始位置、动作中心位置和动作结束位置连接形成提案；

获取所述候选动作提案集合中每个提案的提案特征；基于每个提案的提案特征，通过预训练好的分类器和回归器预测类别和边界偏移，获得时序动作定位结果。

本发明的进一步改进在于，所述获取所述候选动作提案集合中每个提案的提案特征的步骤具体包括：

所述候选动作提案集合中，每个提案的提案特征为该提案的动作开始位置的特征向量、动作中心位置的特征向量以及动作结束位置的特征向量组成的三维特征向量。

本发明的进一步改进在于，所述获取所述候选动作提案集合中每个提案的提案特征的过程中，获得每个提案的提案特征后还包括：

将每个提案的提案特征输入预训练好的三元组特征校正模型中，获得每个提案校正后的提案特征；

将每个提案校正后的提案特征作为该提案最终的提案特征。

本发明的进一步改进在于，所述三元组特征校正模型包括三个并行的子模块，分别为动作开始点校正模块，动作中心点校正模块和动作结束点校正模块；

所述动作开始点校正模块，用于输入动作开始位置的原始特征向量、动作开始位置邻域内的上下文特征向量和动作中心位置的原始特征向量，将上下文特征向量和动作中心位置的原始特征向量分别经过两个不同的预训练好的卷积层后与动作开始位置的原始特征向量相加，获得动作开始位置的校正后的特征向量并输出；

所述动作中心点校正模块，用于输入动作中心位置的原始特征向量、动作开始位置的原始特征向量和动作结束位置的原始特征向量，将动作开始位置的原始特征向量和动作结束位置的原始特征向量分别经过两个不同的预训练好的卷积层后与动作中心位置的原始特征向量相加，获得动作中心位置的校正后的特征向量并输出；

所述动作结束点校正模块，用于输入动作结束位置的原始特征向量、动作结束位置邻域内的上下文特征向量和动作中心位置的原始特征向量，将上下文特征向量和动作中心位置的原始特征向量分别经过两个不同的预训练好的卷积层后与动作结束位置的原始特征向量相加，获得动作结束位置的校正后的特征向量并输出。

本发明的进一步改进在于，所述三元组特征校正模型包含六个不同的卷积层，每个卷积层包含若干可学习参数，训练过程包括：

输入动作提案集合，其中提案的特征是未被校正的原始特征向量，经过三元组特征校正模型后得到校正后的特征向量，每个校正后的特征向量再经过一个分类器和一个回归器，通过最小化分类损失函数和回归损失函数来训练三元组特征校正模型内的可学习参数；迭代更新后得到训练好的三元组特征校正模型。

本发明的进一步改进在于，校正后的动作提案的特征向量输入一个分类器中，所述分类器由一个包含若干可学习参数的全连接层实现，分类器输出类别预测的概率值；

通过最小化预测概率值与其动作类别真实值的距离来更新分类器内的可学习参数；迭代更新后获得训练好的分类器。

本发明的进一步改进在于，校正后的动作提案的特征向量输入一个回归器中，所述回归器由一个包含若干可学习参数的全连接层实现，回归器输出提案边界偏移量的预测值；

通过最小化预测值和提案与实际动作的偏移量的真实值的距离来更新回归器内的可学习参数；迭代更新后获得训练好的回归器。

本发明的一种基于动作三元组引导的时序动作定位系统，包括：

提案获取模块，用于将待时序动作定位的原始视频序列分解为若干个视频片段并编码，获得编码后的视频特征序列；基于视频特征序列分别获得动作开始概率序列、动作中心概率序列、动作结束概率序列；基于所述动作开始概率序列，获得动作开始位置集合；基于所述动作中心概率序列，获得动作中心位置集合；基于所述动作结束概率序列，获得动作结束位置集合；基于动作开始位置集合、动作中心位置集合和动作结束位置集合，获得候选动作提案集合；其中，所述候选动作提案集合中每个提案生成的具体操作包括：从动作开始位置集合中选取动作开始位置，从动作中心位置集合中选取动作中心位置，从动作结束位置集合中选取动作结束位置；将选取的动作开始位置、动作中心位置和动作结束位置连接形成提案；

定位结果获取模块，用于获取所述候选动作提案集合中每个提案的提案特征；基于每个提案的提案特征，通过预训练好的分类器和回归器预测类别和边界偏移，获得时序动作定位结果。

本发明的一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序以实现如本发明任意一项上述的基于动作三元组引导的时序动作定位方法。

本发明的一种计算机可读存储介质，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现如本发明任意一项上述的基于动作三元组引导的时序动作定位方法。

与现有技术相比，本发明具有以下有益效果：

本发明的方法中提出了一种新的时序动作的表示，鉴于真实动作由开始阶段、动作持续阶段和结束阶段组成，本发明将一个动作实例表示一个三元组，即动作开始、动作中心和动作结束；其中，除了这两个边界之外——动作开始边界与动作结束边界，本发明建模动作中心，由于动作中心周围的时间区域与动作语义高度相关，且更有可能包含它的辨别特征，本发明能够利用这些动作中心来排除通过列举不可靠的开始和结束边界而生成的大量低质量的提案，实现更精确的动作定位。

本发明的方法中，还提出了一种新的中心度标准用于对候选动作提案进行评分和排名，能够降低远离真正行动中心的提案，进一步实现更精确的动作定位。

本发明基于动作的三元组表示，还引入一种新的特征校准机制，它明确地利用了动作的时间结构，能够增强每个三元组的特征表示，校准的动作三元组可以实现更精确的动作定位。

本发明的基于动作三元组引导的时序动作定位系统，将时序动作表示为三元组结构，引入中心度评价准则和三元组特征校正机制，可充分利用动作三元组表达。具体的，中心度评价准则通过抑制那些中心远离真正动作中心的提案，可促进高质量提案完成时序动作定位任务；三元组特征校正机制显式地利用动作的时序结构，可增强动作提案的特征表达，校准后的动作三元组能够实现更精确的动作定位。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于动作三元组引导的时序动作定位方法的流程示意框图；

图2是本发明实施例中，时序动作定位方法的整体架构示意图；

图3是本发明实施例中，三元组特征校正机制示意图；

图4是本发明实施例中，时序采样率为2时的时序金字塔池化网络示意图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

请参阅图1，本发明实施例的一种基于动作三元组引导的时序动作定位方法，包括以下步骤：

步骤1，已知一个未剪辑的视频序列，将所述视频序列分解为若干个片段，每个片段包含视频固定长度的连续帧；利用一个预训练的特征提取器编码每个片段，得到一个D维的视频特征序列，表示为F_v。

步骤2，已知步骤1中得到的视频特征序列F_v，利用修改的时序金字塔池化网络预测动作开始、动作中心和动作结束的概率序列；记录概率峰值的时序位置，并组合开始、中心和结束候选位置生成动作提案，每个提案由三元组构成。

步骤3，已知步骤2获得的每个视频的动作提案集合，本发明提出新的中心度评估准则，用于评估动作提案中心与真实动作中心的偏离程度，结合IoU分数，作为动作提案的置信度分数。

步骤4，已知步骤3得到的动作提案，本发明进一步引入三元组特征校正机制，利用动作的时序特性，结合边界上下文信息，重新校正三元组特征，以降低整体偏差。最后校正后的提案用于进一步分类和回归。

本发明实施例中，步骤1中利用双流网络编码视频序列的具体步骤包括：

步骤1.1，已知一个未剪辑的视频序列，定义其包含的真实动作实例集合为其中/>和/>分别表示第n个动作实例的开始时间、结束时间以及类别标签，N_g表示动作实例的数量。进而将视频序列分解为T个互不重叠的片段，作为双流网络的输入；

步骤1.2，为了分别探索视频序列的外观和运动信息，对原始视频序列进行编码，以生成视频表示。示例性的，本发明利用I3D网络处理每个视频片段，并提取得到D维的RGB特征向量和光流特征向量，定义视频特征序列为F_v。

本发明实施例中，在步骤2中，已知视频特征序列F_v，设计基础模块来预测动作开始、中心和结束的概率序列，基于概率序列组合生成候选动作提案。步骤2具体包括以下步骤：

步骤2.1，修改空间金字塔池化网络(Atrous Spatial Pyramid Pooling)为适用于本发明任务的时序金字塔池化网络(Atrous Temporal Pyramid Pooling)，即将用于图像的2维卷积层替换成适合视频序列的1维卷积层，作为预测概率序列的基础模块。示例性的，时序金字塔池化网络由具有不同时序采样率的一维卷积层构成(时序采样率为2时如图4所示)，本发明设置时序采样率分别为2，4，8和16。

基础模块的时序卷积层预测概率序列可表示为：

[p_s，p_e]＝M_b(F_v)，

p_c＝M_c(F_v)，

式中，p_s、p_e和p_c分别表示开始、结束和中心的概率序列；M_b和M_c是带有sigmoid激活函数的不同的时序卷积层。

步骤2.2，已知开始概率序列p_s，收集一个开始的位置集合B_s：

B_s＝{t|p_s(t)＞max(p_s(t+1)，p_s(t-1))}∪{t|p_s(t)＞0.5·maxτ(p_s(τ))}，

同理可得结束的位置集合B_e和中心的位置集合B_c。

对于每一对起始位置t_s∈B_s和终点位置t_e∈B_e满足t_s＜t_e，计算它们的中心区域[t_a-α·d，t_a+α·d]，其中t_a＝(t_s+t_e)/2，d＝t_e-t_s，α是一个控制区域大小的预定义的超参数。

如果在这个中心区域存在t_c∈B_c，构造一个三元组表示一个动作提案。如果中心区域有多个t_c，选择与t_a距离最近的t_c。

本发明实施例中，在步骤3中，意味着要预测每个提案的置信度分数，以便对其进行排名。本发明实施例中引入了一种新的中心度评价，具体包括以下步骤：

步骤3.1，在训练阶段，定义第n个提案的中心度回归目标为：

其中，和t_a，n分别为真实动作和动作提案的时序中心位置；因此中心度目标范围为[0，1]。

步骤3.2，在推理阶段，对于第n个提案，预测它的的中心度分数s_c，n和IoU分数s_iou,n，分别表示动作提案与真实动作的中心偏离程度和重叠程度，最终融合中心度分数和IoU分数作为动作提案的置信度分数s_f,n：

s_f,n＝(1-λ)s_iou,n+λs_c,n，

其中，λ是超参数。

本发明实施例中，在步骤4中对原始的动作提案特征重新校正，以获得更充分的语义表达；具体包括以下步骤：

步骤4.1，对于每个动作提案其原始特征为开始位置，中心位置和结束位置上的三个D维特征向量，表示为f_s,n，f_c,n和f_e,n。因此可以定义提案的原始特征向量为/>由于动作三元组存在内在的时序联系，它们之间可以通过信息传递的方式进行相互校正。此外我们引入边界上下文信息用于丰富边界信息，在一定程度上缓解边界模糊性。三元组特征校正机制的过程可以描述为：

f′_c，n＝f_c，n+M_s→c(f_s，n)+M_e→c(f_e，n)，

其中，M_·→·可以通过不同的线性映射层实现。f′_s,n，f′_c,n和f′_e,n分别为校正后的特征向量。和/>分别为边界的邻域的上下文特征，上下文区域定义为[t_s,n-β·d_n,t_s,n]和[t_e,n,t_e,n+β·d_n]，其中d_n＝t_e，n-t_s,n，β为控制区域大小的超参数。校正后的动作提案特征记为/>

步骤4.2，已知提案及其特征/>利用常规的回归层和分类层预测开始边界偏移o_s，n和结束边界偏移o_e，n和它的类别y_n：

其中，M_reg和M_cls分别由两个不同的全连接层实现。最后利用边界的偏移来修正动作提案的位置。

步骤4.3，已知步骤4.2获得的边界调整后的动作提案集合，利用Soft-NMS(非极大值抑制)算法抑制冗余的重叠率高的动作提案，处理后的动作提案为时序动作定位的最终结果。

本发明实施例中，三元组特征校正模型包括三个并行的子模块，分别为动作开始点校正模块，动作中心点校正模块和动作结束点校正模块；输入为动作提案原始的特征向量，即开始位置，中心位置和结束位置的三维特征向量，输出为校正后的三维特征向量。动作开始点校正模块。输入开始位置的原始特征向量，以及其邻域内的上下文特征向量和中心位置的原始特征向量。上下文和中心位置的特征向量分别经过两个不同的预训练好的卷积层后与开始位置的原始特征向量相加，得到新的开始位置的特征向量。输出开始位置的校正后的特征向量。动作中心点校正模块。输入中心位置的原始特征向量，以及开始位置和结束位置的原始特征向量。开始位置和结束位置的特征向量分别经过两个不同的预训练好的卷积层后与中心位置的原始特征向量相加，得到新的中心位置的特征向量。输出中心位置的校正后的特征向量。动作结束点校正模块。输入结束位置的原始特征向量，以及其邻域内的上下文特征向量和中心位置的原始特征向量。上下文和中心位置的特征向量分别经过两个不同的预训练好的卷积层后与结束位置的原始特征向量相加，得到新的结束位置的特征向量。输出结束位置的校正后的特征向量。

三元组特征校正模型包含六个不同的卷积层，每个卷积层包含若干可学习参数。训练过程中，输入为动作提案集合，其中提案的特征是未被校正的原始特征向量，经过三元组特征校正模型(六个不同的卷积层)后得到校正后的特征向量，每个校正后的特征向量再经过一个分类器和一个回归器，并通过最小化分类损失函数和回归损失函数来训练三元组特征校正模型内的可学习参数。迭代更新后得到训练好的三元组特征校正模型。

校正后的动作提案特征输入一个分类器，该分类器由一个包含若干可学习参数的全连接层实现，回归器输出类别预测的概率值。通过最小化预测概率值与其动作类别真实值的距离来更新分类器内的可学习参数。迭代更新后获得训练好的分类器。

校正后的动作提案特征输入一个回归器，该回归器由一个包含若干可学习参数的全连接层实现，回归器输出提案边界偏移量的预测值。通过最小化预测值和提案与实际动作的偏移量的真实值的距离来更新回归器内的可学习参数。迭代更新后获得训练好的回归器。

对于所述候选动作提案集合中的每个提案，利用中心度评估准则评估提案动作中心与真实动作中心的偏移分数，将偏移分数结合IoU(重叠率)分数作为动作提案的置信度分数；设置一个置信度分数阈值，将所有动作提案划分成两个集合，高于阈值的集合内的所有动作提案用于训练网络预测动作类别和预测动作边界的偏移量，低于阈值的集合内的所有提案用于训练网络学习识别背景类。

本发明的基于动作三元组引导的时序动作定位方法，是第一个将时序动作表示为三元组结构的工作。本发明引入中心度评价准则和三元组特征校正机制，充分利用动作三元组表达。特别地，中心度评价标准通过抑制那些中心远离真正动作中心的提案，促进高质量提案完成时序动作定位任务。三元组特征校正机制显式地利用动作的时序结构，增强动作提案的特征表达，校正后的动作三元组能够实现更精确的动作定位。

请参阅图1至图4，本发明实施例的一种基于动作三元组引导的时序动作定位方法，具体包括以下步骤：

步骤1，利用双流网络编码视频序列。具体建模步骤包括：

步骤1.1，已知一个未剪辑的视频序列，定义其包含的真实动作实例集合为其中/>和/>分别表示第n个动作实例的开始时间，结束时间以及类别标签，N_g表示动作实例的数量；将视频序列分解为T个互不重叠的片段，作为双流网络的输入；

步骤1.2，为了分别探索视频序列的外观和运动信息，对原始视频序列进行编码，以生成视频表示。具体地，本发明实施例利用I3D网络处理每个视频片段，并提取得到D维的RGB特征向量和光流特征向量，定义视频特征序列为F_v。

步骤2，基础模块将视频特征序列F_v作为输入，输出三个概率序列，分别为动作开始概率序列、动作中心概率序列和动作结束概率序列；通过三元组匹配策略组合开始、中心和结束的候选位置生成候选动作提案；具体包括以下步骤：

步骤2.1，更多的与动作相关的语义和上下文信息能够更加准确的预测概率序列，因此要求基础模块拥有足够大的时序感受野。为此，本发明实施例中修改常用于图像分割任务的空间金字塔池化网络(Atrous Spatial Pyramid Pooling)为适用于本发明实施例任务的时序金字塔池化网络(Atrous Temporal Pyramid Pooling)，作为预测概率序列的基础模块，相应的采样率设置为2、4、8和16。

请参阅图2，图2描绘了采样率为2时的基础模块。因此，基础模块的时序卷积层预测概率序列可表示为：

[p_s,p_e]＝M_b(F_v)，

p_c＝M_c(F_v)，

其中p_s、p_e和p_c分别表示开始、结束和中心的概率序列，M_b和M_c是带有sigmoid激活函数的不同的时序卷积层，分别用于预测边界和动作中心。

步骤2.2，这个步骤意味着记录所有具有高开始、中心或结束概率的时间位置，然后将它们匹配成三元组。已知开始概率序列p_s，收集一个开始的位置集合：

B_s＝{t|p_s(t)＞max(p_s(t+1),p_s(t-1))}∪{t|p_s(t)＞0.5·maxτ（p_s(τ))}

同理可得结束的位置集合B_e和中心的位置集合B_c。

对于每一对起始位置t_s∈B_s和终点位置t_e∈B_e满足t_s＜t_e，计算它们的中心区域[t_a-α·d,t_a+α·d]，其中t_a＝(t_s+t_e)/2，d＝t_e-t_s，α是一个预定义的常数。如果在这个中心区域存在t_c∈B_c，我们构造一个三元组表示一个动作提案。如果中心区域有多个t_c，选择与t_a距离最近的t_c。

步骤3，预测每个提案的置信度分数。本发明实施例引入了一种新的中心度评价。动机包含两方面：一方面，基于自下而上模式的提案生成方法通常生成大量远离实际动作中心的低质量建议，它们带来了大量的假警报，并降低了精度。另一方面，以前的方法根据每个提案预测的IoU分数对动作提案进行排序；然而，类似的IoU分数，提案的中心越接近真实动作中心，其特征更贴近真实动作的语义。具体包括以下步骤：

步骤3.1，在训练阶段，定义第n个提案的中心度回归目标为：

其中，和t_a，n分别为真实动作和动作提案的时序中心位置。因此中心度目标范围为[0,1]。

步骤3.2，在推理阶段，对于第n个提案，我们预测它的的中心度分数s_c,n和IoU分数s_iou,n，分别表示动作提案与真实动作的中心偏离程度和重叠程度，最终融合中心度分数和IoU分数作为动作提案的置信度分数s_f,n：

s_f,n＝(1-λ）s_iou,n+λs_c,n

其中λ是超参数。此时，我们可以获得候选动作提案集合，每个提案包括开始、中心和结束位置的三元组，以及一个置信度分数。表示所有提案的集合为其中N_p是提案的数量。

请参阅图3，步骤4，对原始的动作提案特征重新校正，以获得更充分的语义表达。本发明需要校准这些三元组特征原因有二：首先，虽然三元组被设计用来捕捉动作的时间结构，但每个部分，即开始、中心和结束，仍然局限于局部特征。相邻位置之间的相互作用可以明确地捕捉到它们的内部时间关系。其次，经常会得到不可靠的边界预测，可以利用提案外部的上下文信息来缓解这种边界模糊性。具体包括以下步骤：

步骤4.1，对于每个动作提案其原始特征为开始位置，中心位置和结束位置上的三个D维特征向量。因此可以定义提案的原始特征向量为/>由于动作三元组存在内在的时序联系，它们之间可以通过信息传递的方式进行相互校正。此外我们引入边界上下文信息用于丰富边界信息，在一定程度上缓解边界模糊性。三元组特征校正机制的过程可以描述为：

f′_c，n＝f_c，n+M_s→c(f_s，n)+M_e→c(f_e，n)，

其中，M_·→·可以通过不同的线性映射层实现。f′_s，n，f′_c，n和f′_e，n分别为校正后的特征向量。和/>分别为边界的邻域的上下文特征，上下文区域定义为[t_s，n-β·d_n，t_s，n]和[t_e，n，t_e，n+β·d_n]，其中d_n＝t_e，n-t_s，n。校正后的动作提案特征记为/>

步骤4.2，已知提案及其特征/>我们预测开始边界偏移o_s，n和结束边界偏移o_e，n和它的类别y_n：

其中，M_reg和M_cls分别由两个不同的全连接层实现。

本发明实施例的数据评价分析：

本发明实施例中，使用平均精度(mAP)对提出的方法进行了评价。本发明实施例具体采用ActivityNet提供的官方评估代码来评估本发明在这两个数据集上的性能。特别地，对于THUMOS14和ActivityNet v1.3，tIoU阈值分别来自{0.1、0.2、0.3、0.4、0.5}和{0.5、0.75、0.95、0.95}。在ActivityNet v1.3上，我们报告了10个不同的tIoU阈值[0.5：0.05：0.95]的mAP。

此外，本发明实施例根据不同阈值下的平均召回率(Average Recall)来评估生成的提案的性能。THUMOS14和ActivityNet v1.3上的tIOU阈值设置为[0.5：0.05：1.0]和[0.5：0.05：0.95]。我们评估了不同数量提案(Average Number)下的平均召回率，表示为AR@AN。在ActivityNet v1.3上，我们还使用了AR与AN曲线下的面积(AUC)作为评估度量。

表1是不同的方法在用于评价时序动作定位任务的公开数据集THUMOS14上的实验结果，由表1可以看出，本发明提出的方法能够有效抑制假阳样本，并通过校正每个提案的边界提升检测性能。其中，在THUMOS14数据集上的不同方法mAP结果如表1所示。

表1.在THUMOS14数据集上的不同方法mAP结果

表2为在规模更大动作类别更复杂的ActivityNet v1.3数据集上本发明进行评测的结果，本发明提出的动作三元组引导的时序动作定位方法具有较强的鲁棒性。其中，在ActivityNet v1.3数据集上的不同方法mAP结果如表2所示。

表2.在ActivityNet v1.3数据集上的不同方法mAP结果

表3和表4分别为不同方法在THUMOS14和ActivityNet v1.3数据集上的提案性能比较，结果表明我们的方法能够生成更加可靠的提案。其中，在THUMOS14数据集上的不同方法召回率结果如表3所示，在ActivityNet v1.3数据集上的不同方法召回率结果如表4所示。

表3.在THUMOS14数据集上的不同方法召回率结果

表4.在ActivityNet v1.3数据集上的不同方法召回率结果

从表3、表4可知，与其他方法相比较，本发明实施例提供的方法在时序动作定位任务上获得了较大的提升。

综上所述，本发明实施例公开了一种基于动作三元组引导的时序动作定位方法，将一个动作实例描述为一个三元组，即开始、中心和结束，属于计算机视觉与模式识别领域。本发明实施例方法的步骤包括：首先利用双流网络编码输入视频的特征序列，其包含视频内的外观特征信息和运动光流信息，预测动作开始、动作中心和动作结束的概率序列，并组合三元组生成候选动作提案集合。此外，本发明为动作提案提供了一个额外的中心评估，以抑制假警报和偏离动作实例中心的低质量提案。再者，本发明提出了三元组特征校准机制来重构动作三元组特征，并校准它们的位置，以获得更精确的边界位置。因此，本发明可以预测灵活的时间持续时间和精确的边界，同时在一定程度上减少误报。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种基于动作三元组引导的时序动作定位方法，其特征在于，包括以下步骤：

获取所述候选动作提案集合中每个提案的提案特征；基于每个提案的提案特征，通过预训练好的分类器和回归器预测类别和边界偏移，获得时序动作定位结果；

其中，所述获取所述候选动作提案集合中每个提案的提案特征的步骤具体包括：

所述候选动作提案集合中，每个提案的提案特征为该提案的动作开始位置的特征向量、动作中心位置的特征向量以及动作结束位置的特征向量组成的三维特征向量；

所述获取所述候选动作提案集合中每个提案的提案特征的过程中，获得每个提案的提案特征后还包括：

将每个提案校正后的提案特征作为该提案最终的提案特征；

所述三元组特征校正模型包括三个并行的子模块，分别为动作开始点校正模块，动作中心点校正模块和动作结束点校正模块；

2.根据权利要求1所述的一种基于动作三元组引导的时序动作定位方法，其特征在于，所述三元组特征校正模型包含六个不同的卷积层，每个卷积层包含若干可学习参数，训练过程包括：

3.根据权利要求2所述的一种基于动作三元组引导的时序动作定位方法，其特征在于，校正后的动作提案的特征向量输入一个分类器中，所述分类器由一个包含若干可学习参数的全连接层实现，分类器输出类别预测的概率值；

4.根据权利要求2所述的一种基于动作三元组引导的时序动作定位方法，其特征在于，校正后的动作提案的特征向量输入一个回归器中，所述回归器由一个包含若干可学习参数的全连接层实现，回归器输出提案边界偏移量的预测值；

5.一种基于动作三元组引导的时序动作定位系统，其特征在于，包括：

定位结果获取模块，用于获取所述候选动作提案集合中每个提案的提案特征；基于每个提案的提案特征，通过预训练好的分类器和回归器预测类别和边界偏移，获得时序动作定位结果；

将每个提案校正后的提案特征作为该提案最终的提案特征；

6.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至4中任意一项所述的基于动作三元组引导的时序动作定位方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现如权利要求1至4中任意一项所述的基于动作三元组引导的时序动作定位方法。