CN113569755A

CN113569755A - 基于对偶关系网络的时序动作定位方法、系统、设备及介质

Info

Publication number: CN113569755A
Application number: CN202110866978.6A
Authority: CN
Inventors: 王乐; 夏锟; 周三平; 陈仕韬; 辛景民; 郑南宁
Original assignee: Ningbo Shun'an Artificial Intelligence Research Institute; Xian Jiaotong University
Current assignee: Ningbo Shun'an Artificial Intelligence Research Institute; Xian Jiaotong University
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-10-29
Anticipated expiration: 2041-07-29
Also published as: CN113569755B

Abstract

本发明公开了一种基于对偶关系网络的时序动作定位方法、系统、设备及介质，所述方法包括以下步骤：将待时序动作定位的原始视频序列分解为若干个视频片段并编码，获得编码后的视频特征序列；基于编码后的视频特征序列，获得候选的动作提案集合；利用预训练好的对偶关系网络对所述候选的动作提案集合中的每个提案进行信息更新，获得提案信息更新后的动作提案集合；基于所述提案信息更新后的动作提案集合，获得时序动作定位结果。本发明中，首次提出建模并推理动作提案之间的关系以及动作提案与全局上下文之间的关系，以丰富和补充动作提案表征，进而准确地分类动作和精确地检测动作边界。

Description

基于对偶关系网络的时序动作定位方法、系统、设备及介质

技术领域

本发明属于计算机视觉与模式识别技术领域，涉及时序动作定位领域，特别涉及一种基于对偶关系网络的时序动作定位方法、系统、设备及介质。

背景技术

伴随着视频数据的快速增长，视频的自动处理技术的重要程度与日俱增；其中，视频动作检测问题具有越来越大的理论研究价值与实际应用价值。

目前，如何自动发现检测视频中包含的特定动作的开始时间和结束时间，以及识别该动作的类别，仍是当前视频处理领域的难点问题。在上述难点问题中，输入是未剪辑的视频序列，包含真实的动作实例以及背景等与动作无关的序列；其中，将非动作序列的视频信息称为上下文信息。在上述难点问题中，输出分为两部分，其一是动作发生的开始时间和结束时间；其二是动作的类别。

由于复杂的时空背景、模糊的时间边界，以及人物外观、镜头视角和动作持续时间的变化很大，上述难点问题是非常具有挑战性。

以往的大多数传统方法是首先生成一系列候选动作提案，独立地处理每个动作提案，同时忽略了动作提案和其上下文的关系的推理；由于动作提案与真实动作实例之间存在表征差异和时序偏移，因而在识别动作类别和定位边界上遇到性能瓶颈。

综上，亟需一种新的基于对偶关系网络的时序动作定位方法、系统、设备及介质。

发明内容

本发明的目的在于提供一种基于对偶关系网络的时序动作定位方法、系统、设备及介质，以解决上述存在的一个或多个技术问题。本发明中，首次提出建模并推理动作提案之间的关系以及动作提案与全局上下文之间的关系，以丰富和补充动作提案表征，进而准确地分类动作和精确地检测动作边界。

为达到上述目的，本发明采用以下技术方案：

本发明的一种基于对偶关系网络的时序动作定位方法，包括以下步骤：

将待时序动作定位的原始视频序列分解为若干个视频片段并编码，获得编码后的视频特征序列；

基于所述编码后的视频特征序列，获得候选的动作提案集合；

利用预训练好的对偶关系网络对所述候选的动作提案集合中的每个提案进行信息更新，获得提案信息更新后的动作提案集合；其中，所述信息更新包括推理提案之间的关系特征、提案与全局上下文的关系特征来丰富每个提案的特征；

基于所述提案信息更新后的动作提案集合，获得时序动作定位结果。

本发明的进一步改进在于，所述将待时序动作定位的原始视频序列分解为若干个视频片段并编码，获得编码后的视频特征序列的步骤具体包括：

将待时序动作定位的原始视频序列分解为若干个视频片段，每个视频片段包含原始视频序列固定长度的连续帧；

利用一个预训练好的特征提取器编码每个视频片段，获得编码后的视频特征序列；其中，所述编码后的视频特征序列包含每个视频片段的RGB信息和相邻片段之间的光流信息。

本发明的进一步改进在于，所述预训练好的对偶关系网络包括：

提案-提案关系推理模块，用于推理提案之间的关系特征来丰富每个提案的特征；

提案-上下文关系推理模块，用于推理提案与全局上下文的关系特征来丰富每个提案的特征；

其中，在训练时采用的损失函数包括分类损失、回归损失以及完整性损失；在推理阶段用于预测每个提案的类别、边界偏移以及置信度分数。

本发明的进一步改进在于，在训练时采用的损失函数的表达式为，

其中，L为对偶关系网络的总体损失，L_cls为分类损失、L_reg为回归损失、L_com为完整性损失；

是第n个提案的类别标签；

分别是第n个提案的边界回归目标，即开始时间、结束时间；α和β分别是回归损失和完整性损失的权重超参数；

是第n个提案的完整性标签；

分类损失采用标准的交叉熵损失；

完整性损失采用在线硬实例挖掘铰链损失；

回归损失采用两个smooth L1损失。

本发明的进一步改进在于，所述提案-提案关系推理模块中，推理提案之间的关系特征来丰富每个提案的特征的步骤具体包括：

编码后的视频特征序列表示为

其中，x_t表示第t个视频片段的特征向量，T表示视频片段的总数量；

候选的动作提案集合表示为

其中，t_s,n和t_e,n为第n个动作提案的开始时间和结束时间，f_n为第n个动作提案的特征向量，N表示动作提案的总数量；

第n个提案的更新特征表示为

计算表达式为，

式中，S_n,m是相似矩阵的一个元素，表示第n个提案和第m个提案之间的关系权重，W_S是线性映射层的权重矩阵；f_m为第m个动作提案的特征向量；

相似矩阵S的表达式为，

S＝λS^a+(1-λ)S^g，

式中，λ是一个控制外观和几何图形相似性之间的相对重要性的超参数；S^a为外观相似度矩阵；S^g为几何相似度矩阵；

式中，

和

分别为外观相似度矩阵和几何相似度矩阵的第n行第m列的元素；||·||为L2正则化；

第n个提案的特征更新为，

式中，σ(·)为sigmoid激活函数，ReLU为线性整流函数；W_r、W_ex和W_sq分别为三个线性映射层的权重矩阵。

本发明的进一步改进在于，所述提案-上下文关系推理模块中，推理提案与全局上下文的关系特征来丰富每个提案的特征的步骤具体包括：

计算每个提案与视频特征序列的每个时间位置的关联关系，利用关联关系生成上下文感知特征，使用上下文感知特征增强原始的提案特征；

其中，每个动作提案与视频每个时间位置的特征向量x_t的关系用注意力权重a_t表示；

a_t的数值大小用于表示第t个时间位置的视频特征对动作提案的贡献大小；

利用注意力权重更新原始提案特征，表达式为，

式中，W_p，W_c和W_pc分别为三个不同的权重矩阵。

本发明的进一步改进在于，所述基于所述提案信息更新后的动作提案集合，获得时序动作定位结果的步骤包括：

对于所述提案信息更新后的动作提案集合中的每一个动作提案ψ_n，利用预训练好的全连接网络预测其动作类别分数y_n,边界的偏移量{Δt_s,n,Δt_e,n}以及完整性分数c_n；

通过全连接网络输出每个动作提案的置信度分数s_n＝y_n×c_n，以及其最终的动作边界位置{t_s,n+Δt_s,n,t_e,n+Δt_e,n}；

利用Soft-NMS算法抑制冗余的重叠率高的动作提案，处理后的置信度分数高于预设值的动作提案为时序动作定位的最终结果。

本发明的一种基于对偶关系网络的时序动作定位系统，包括：

视频特征序列获取模块，用于将待时序动作定位的原始视频序列分解为若干个视频片段并编码，获得编码后的视频特征序列；

动作提案集合获取模块，用于基于所述编码后的视频特征序列，获得候选的动作提案集合；

信息更新模块，用于利用预训练好的对偶关系网络对所述候选的动作提案集合中的每个提案进行信息更新，获得提案信息更新后的动作提案集合；其中，所述信息更新包括推理提案之间的关系特征、提案与全局上下文的关系特征来丰富每个提案的特征；

结果获取模块，用于基于所述提案信息更新后的动作提案集合，获得时序动作定位结果。

本发明的一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序以实现如本发明任意一项上述的时序动作定位方法。

本发明的一种计算机可读存储介质，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现如本发明任意一项上述的时序动作定位方法。

与现有技术相比，本发明具有以下有益效果：

本发明通过建立动作提案之间的内在联系，来捕获用于有效分类的补充信息；同时通过建立动作提案与全局上下文之间的交互关系，捕获用于边界回归的补充信息，来完善不完美动作提案对动作演化过程的缺失信息，进而对边界的微妙变化更加敏感。具体的，本发明通过统一的模型即对偶关系网络的模型，同时地处理提案之间的关系和提案与上下文之间的关系，进而赋予模型区分相似动作实例和更精确地定位时间边界的能力。本发明利用动作提案之间的关系和提案与上下文之间的关系，获得的补充信息可以增强提案表示，能够提高时序动作定位的性能。

本发明的基于对偶关系网络的时序动作定位方法，是第一个统一提案之间关系推理和提案与上下文关系推理来提升时序动作定位性能的工作。本发明提出了一个提案-提案关系模块，它可以根据相关提案的外观和几何相似性，有效地执行相关提案之间的关系推理。本发明提出了一个提案-上下文关系模块，它可以自适应地聚合整个视频中的短期和长期上下文，以丰富提案的特征。这两个推理模块是互补的关系，可以很容易地合并到之前的时序动作定位方法中，并通过标准的分类和定位损失进行端到端训练。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于对偶关系网络的时序动作定位方法的流程示意框图；

图2是本发明实施例中，提案上下文推理示意图；

图3是本发明实施例的一种基于对偶关系网络的时序动作定位系统的整体架构示意图；

图4是本发明实施例中，在THUMOS14数据集上不同类别动作的P-R曲线示意图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

请参阅图1，本发明实施例的一种基于对偶关系网络的时序动作定位方法，包括以下步骤：

步骤1，已知一个未剪辑的视频序列，为降低计算量，将所述未剪辑的视频序列分解为若干个视频片段，每个视频片段包含视频固定长度的连续帧。本发明实施例中，利用一个预训练好的特征提取器编码每个片段，进而得到一个编码后的视频特征序列，表示为

其中x_t表示视频的第t个片段的特征向量，T表示视频片段的数量。

步骤2，已知步骤1中得到的视频特征序列

其包含视频的每个视频片段的RGB信息和相邻片段之间的光流信息；利用动作提案生成器得到一个动作提案集合，表示为

其中t_s，n和t_e，n为第n个动作提案的开始时间和结束时间，f_n为第n个动作提案的特征向量，N表示动作提案的数量。

步骤3：已知步骤2获得的每个视频的动作提案集合，利用对偶关系网络，其包含一个提案-提案关系推理模块和一个提案-上下文关系推理模块，丰富每个提案的特征，进而提高候选动作提案边界回归的精确性和分类的准确性。

最终，本发明实施例利用关系推理的动作提案与真实动作构建损失函数，包括分类损失，回归损失以及完整性损失，在训练阶段实现对网络的迭代优化，在推理阶段分别用于预测每个提案的类别，边界偏移以及置信度分数。

步骤4：已知步骤3获得的提案信息更新后的动作提案集合，对于每一个新的动作提案ψ_n，利用全连接网络预测它的动作类别分数y_n，它的边界的偏移量{Δt_s,n,Δt_e,n}以及完整性分数c_n(即该动作提案与真实动作的重叠程度)。最终网络输出每个动作提案的置信度分数s_n＝y_n×c_n，以及其最终的动作边界位置{t_s，n+Δt_s，n，t_e，n+Δt_e，n}，即时序动作定位的结果。

本发明实施例中，步骤1中利用双流网络编码视频序列的具体步骤包括：

步骤1.1，已知一个未剪辑的视频序列，定义其包含的真实动作实例集合为

其中

和

分别表示第n个动作实例的开始时间、结束时间以及类别标签，N_g表示动作实例的数量；将视频序列分解为T个互不重叠的片段，作为双流网络I3D网络(现有技术方案都采用的特征提取网络)的输入；

步骤1.2，为了分别探索视频序列的外观和运动信息，对原始视频序列进行编码，以生成视频表示。具体地，本发明实施例利用I3D网络处理每个视频片段，并提取得到D维的RGB特征向量和光流特征向量。

本发明实施例在步骤2中，已知视频特征序列，采用BSN提案生成方法生成候选动作提案集合，其具体包括以下步骤：

步骤2.1，首先生成候选的边界位置，并组合每对边界位置生成动作提案。利用三个不同的二分类层评估每个视频特征序列的时序位置，以预测每个位置是动作开始，动作结束和是否为动作的概率。记录每个概率峰值所在的时序位置，组合每对开始位置和结束位置生成一个候选动作提案。

步骤2.2，评估每个动作提案的置信度分数。以候选动作提案与真实动作实例的时序重合程度为目标，训练回归器，用于生成每个提案的置信度分数。

本发明实施例在步骤3中，对偶关系网络作用于每个候选的动作提案，目的是通过推理提案之间的关系特征和提案与全局上下文的关系特征来丰富每个原始提案，具体包括以下步骤：

步骤3.1，首先利用提案的开始时间和结束时间在视频特征序列上截取特征向量，再通过时序最大池化操作得到第n个动作提案的语义特征向量，定义为原始的提案特征f_n。

步骤3.2，已知N个候选提案，计算每对提案之间的外观相似度和几何相似度，进而得到一个外观相似度矩阵S^a和一个几何相似度矩阵S^g：

其中

和

分别为外观相似度矩阵和几何相似度矩阵的第n行第m列的元素。||·||为L2正则化。外观相似度矩阵S^a包含每对动作提案的特征向量之间的余弦相似度分数。几何相似矩阵S^g包含动作提案之间的持续时间的相似分数，这里基于假设相关的动作提案的时间尺度往往相似。然后，S^a和S^g的加权求和产生最终的相似矩阵S：

S＝λS^a+(1-λ)S^g

其中λ是一个控制外观和几何图形相似性之间的相对重要性的超参数。本发明通过整合剩余的N-1个动作提案来更新第n个提案的特征。第n个提案的更新特征，表示为

可以通过下式计算：

其中，S_n，m是相似矩阵的一个元素，表示第n个提案和第m个提案之间的关系权重，而W_S是线性映射层的权重矩阵，f_m为第m个动作提案的特征向量。

步骤3.3，步骤3.2明确地建模相关提案之间的微妙的相互作用。为了鼓励网络专注于鉴别性的语义特征，将更新的提案特征输入给通道注意力模块，以获取高阶的支持信息。因此，第n个动作提案的特征被更新为

其中σ(·)为sigmoid激活函数；ReLU为线性整流函数；W_r、W_ex和W_sq分别为三个线性映射层的权重矩阵。因此，通过相似动作提案之间的交互，能够更好的识别提案的动作类别。

步骤3.4，并行于提案关系推理，引入了一个提案上下文关系推理，来建模提案和整个视频之间的关系。首先计算了任意提案与视频特征序列的每个时间位置的关联关系；然后利用这种关联关系生成上下文感知特征，并使用它们来增强原始的提案特性。

具体地，每个动作提案与全局上下文的关系用注意力权重a_t表示：

进而利用注意力权重更新原始提案特征：

式中，W_p，W_c和W_pc分别为三个不同的权重矩阵。因此，自适应地捕获来自全局上下文的支持信息，并嵌入到原始动作提案特征内部，能够更好补充提案的缺失信息。

通过上述两个模块，从时间和语义的两个维度构建了提案关系。因此可以探索和集成尽可能有利于动作定位的支持信息。最后，使用具有C+1输出通道数的全连接层对每个提案的特征向量

进行分类，并输出类别预测结果y，其中C+1表示动作类别的数量以及一个背景类。

本发明的基于对偶关系网络的时序动作定位方法，是第一个统一提案关系推理和提案上下文关系推理来提升时序动作定位性能的工作。本发明提出了一个提案-提案关系模块，它可以根据相关提案的外观和几何相似性，有效地执行相关提案之间的关系推理。本发明提出了一个提案-上下文关系模块，它可以自适应地聚合整个视频中的短期和长期上下文，以丰富提案的特征。这两个推理模块是互补的关系，可以很容易地合并到之前的时序动作定位方法中，并通过标准的分类和定位损失进行端到端训练。

综上所述，与其他方法相比较，本发明实施例公开的方法在时序动作定位任务的评价指标mAP@tIoU上取得显著的性能提升，表明本发明的方法能够精确定位和分类特定的动作。

步骤1，利用双流网络编码视频序列。具体建模步骤包括：

其中

和

分别表示第n个动作实例的开始时间，结束时间以及类别标签，N_g表示动作实例的数量。进而将视频序列分解为T个互不重叠的片段，作为双流网络的输入；

步骤1.2，为了分别探索视频序列的外观和运动信息，本发明对原始视频序列进行编码，以生成视频表示。具体地，本发明利用I3D网络处理每个视频片段，并提取得到D维的RGB特征向量和光流特征向量。

步骤2，已知视频特征序列，本发明采用BSN提案生成方法生成候选动作提案集合，其具体包括以下步骤：

步骤2.1，首先生成候选的边界位置，并组合每对边界位置生成动作提案。本发明利用三个不同的二分类层评估每个视频特征序列的时序位置，以预测每个位置是动作开始，动作结束和是否为动作的概率，记为p_s，p_e和p_a。因此，每个时序位置得到三个概率值，每个视频得到三个概率序列P_S，P_E和P_A。接下来，记录下每个满足以下条件的位置：

B_S＝{t|p_s(t)＞max(p_s(t+1)，p_s(t-1))}∪{t|p_s(t)＞0.5·maxτ(p_s(τ))}

其中，p_s(t)表示t位置的开始的概率值，B_S为开始位置集合。相应地，本发明得到动作结束的位置集合B_E。接下来，从两个位置集合中各取出一个位置，若满足t_s＜t_e，即开始位置所在时间点在结束位置时间点之前，则构成一个候选提案

其中

为提案的分数特征，取自P_A的时序区域[t_s-d/5,t_e+d/5]内均匀采样的32个分数，d＝t_e-t_s。

步骤2.2，评估每个动作提案的置信度分数。构建一个三层的多层感知机M_MLP，其使用

来评估每个提案的置信度分数，表示它与真实动作实例的重叠程度：

步骤3，本发明的对偶关系网络作用于每个候选的动作提案，目的是通过推理提案之间的关系特征和提案与全局上下文的关系特征来丰富每个原始提案，具体包括以下步骤：

步骤3.2，已知N个候选提案，本发明计算每对提案之间的外观相似度和几何相似度，进而得到一个外观相似度矩阵S^a和一个几何相似度矩阵S^g：

其中

和

S＝λS^a+(1-λ)S^g

可以通过下式计算：

步骤3.3，步骤3.2明确地建模相关提案之间的微妙的相互作用。为了鼓励网络专注于鉴别性的语义特征，本发明将更新的提案特征输入给通道注意力模块，以获取高阶的支持信息。因此，第n个动作提案的特征被更新为

其中σ(·)为sigmoid激活函数；ReLU为线性整流函数；W_r、W_ex和W_sq分别为三个线性映射层的权重矩阵。因此，通过相似动作提案之间的交互，能够更好的识别提案的动作类别。通过上述两个模块，本发明从时间和语义的角度构建了提案关系模块。因此，提案关系推理可以探索和集成尽可能有利于动作定位的支持信息。

步骤3.4，并行于提案关系推理，本发明引入了一个提案上下文关系推理，来建模提案和整个视频之间的关系。参见图2，上下文推理负责通过两个流中的提案特征与视频特征之间的交互作用，来推理提案与全局上下文之间的耦合关系。最后，为每个动作提案生成一个具有上下文感知的特征。具体地，每个动作提案与全局上下文的关系用注意力权重a_t表示：

进而利用注意力权重更新原始提案特征：

式中，W_p，W_c和W_pc分别为三个不同的权重矩阵。因此，自适应地捕获来自全局上下文的支持信息，并嵌入到原始动作提案特征内部，能够更好的感知提案的边界位置。

步骤4，在网络训练优化过程中，对上述两个关系推理模块进行端到端的联合训练。该对偶关系网络的总体损失L包括分类损失L_cls、回归损失L_reg和完整性损失L_com：

其中t_s,n和t_e,n分别是第n个提案的开始和结束时间。而α和β分别是回归损失和完整性损失的权重超参数。

是第n个提案的完整性标签。分类损失采用了一个标准的交叉熵损失。完整性损失采用了在线硬实例挖掘铰链损失。回归损失采用了两个smooth L1损失，用于预测边界的偏移：

请参阅图3，本发明实施例的一种基于对偶关系网络的时序动作定位系统，包括：

本发明实施例使用平均精度(mAP)对提出的方法进行了评价，采用ActivityNet提供的官方评估代码来评估本发明在这两个数据集上的性能。特别地，对于THUMOS14和ActivityNet v1.3，tIoU阈值分别来自{0.1、0.2、0.3、0.4、0.5、0.5、0.6、0.7}和{0.5、0.75、0.95、0.95}。在ActivityNet v1.3上，本发明报告了10个不同的tIoU阈值[0.5：0.05：0.95]的mAP。

表1是不同的方法在用于评价时序动作定位任务的公开数据集THUMOS14上的实验结果，由表1可以看出，本发明提出的基于对偶关系网络的时序动作定位方法具有明显优势。

表2为更大更复杂的ActivityNet v1.3数据集上对本发明进行评测的结果，实验结果表明本发明在复杂场景下的关系推理能力的有效性。

表1.在THUMOS14数据集上的不同方法对比的结果

表2.在ActivityNet v1.3数据集上的不同方法对比的结果

请参阅图4，图4为在THUMOS14数据集上每个类别的精确率-召回率曲线，即P-R曲线，其中本发明将整个框架对偶关系网络表示为DRN，提案-提案关系推理模块表示为PPRM，提案-上下文关系推理模块表示为PCRM。显然，PR曲线表明，本发明可以提高大多数类别(即y轴较高)的精度和召回率。此外，PPRM和PCRM在不同的动作类别中有各自的优势，并且对整体框架性能有自己的贡献。综上所述，与其他方法相比较，本发明实施例公开的方法在时序动作定位任务上获得了较大的提升。

本发明公开了一种基于对偶关系网络的时序动作定位方法，属于计算机视觉与模式识别领域，步骤包括：首先利用双流网络编码输入视频的特征序列，其包含视频内的外观特征信息和运动光流信息，并利用动作提案生成器产生一系列候选的动作提案。随后，将动作提案作为对偶关系网络的输入，该网络包含了一个提案关系模块和一个提案上下文关系模块。这两个关系推理模块可以通过自适应地将提案关系特征和上下文关系特征结合在一起，共同学习鉴别性的提案特征，从而提高动作定位的准确性。最后利用置信度传播的方式求解整体模型，获得具有最大后验概率的动作提案作为最终的检测结果。本发明可同时推理提案之间的关系和提案与上下文之间的关系，最终提高模型识别和定位动作实例的准确性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种基于对偶关系网络的时序动作定位方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于对偶关系网络的时序动作定位方法，其特征在于，所述将待时序动作定位的原始视频序列分解为若干个视频片段并编码，获得编码后的视频特征序列的步骤具体包括：

3.根据权利要求1所述的一种基于对偶关系网络的时序动作定位方法，其特征在于，所述预训练好的对偶关系网络包括：

4.根据权利要求3所述的一种基于对偶关系网络的时序动作定位方法，其特征在于，在训练时采用的损失函数的表达式为，

是第n个提案的类别标签；

分别是第n个提案的边界回归目标；α和β分别是回归损失和完整性损失的权重超参数；

是第n个提案的完整性标签；

分类损失采用标准的交叉熵损失；

完整性损失采用在线硬实例挖掘铰链损失；

回归损失采用两个smooth L1损失。

5.根据权利要求3所述的一种基于对偶关系网络的时序动作定位方法，其特征在于，所述提案-提案关系推理模块中，推理提案之间的关系特征来丰富每个提案的特征的步骤具体包括：

编码后的视频特征序列表示为

候选的动作提案集合表示为

第n个提案的更新特征表示为

计算表达式为，

相似矩阵S的表达式为，

S＝λS^a+(1-λ)S^g，

式中，

和

第n个提案的特征更新为，

6.根据权利要求5所述的一种基于对偶关系网络的时序动作定位方法，其特征在于，所述提案-上下文关系推理模块中，推理提案与全局上下文的关系特征来丰富每个提案的特征的步骤具体包括：

利用注意力权重更新原始提案特征，表达式为，

式中，W_p，W_c和W_pc分别为三个不同的权重矩阵。

7.根据权利要求6所述的一种基于对偶关系网络的时序动作定位方法，其特征在于，所述基于所述提案信息更新后的动作提案集合，获得时序动作定位结果的步骤包括：

8.一种基于对偶关系网络的时序动作定位系统，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的时序动作定位方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现如权利要求1至7中任意一项所述的时序动作定位方法。