CN112883868B

CN112883868B - 一种基于关系建模的弱监督视频动作定位模型的训练方法

Info

Publication number: CN112883868B
Application number: CN202110186978.1A
Authority: CN
Inventors: 张天柱; 张勇东; 占永昆; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2022-07-15
Anticipated expiration: 2041-02-10
Also published as: CN112883868A

Abstract

本发明公开了一种基于关系建模的弱监督视频动作定位模型的训练方法，包括：构建初始动作定位模型，其中，初始动作定位模型包括：特征提取模块、视频内关系更新模块、跨视频关系更新模块、分类与定位模块；对样本视频进行特征提取输出初始视频特征；对初始视频特征进行处理得到视频内关系特征；对视频内关系特征进行处理得到背景与前景分离的跨视频特征；根据内关系特征和跨视频特征对初始动作定位模型进行训练，并通过训练后的动作定位模型对视频进行动作定位。

Description

一种基于关系建模的弱监督视频动作定位模型的训练方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于关系建模的弱监督视频动作定位模型的训练方法。

背景技术

弱监督时序动作定位试图从一段未裁剪的视频中，在仅给定视频级别类别标签监督的情况下，定位出所有的动作片段。如今，动作定位技术已经广泛应用于众多领域，如视频监控，自动驾驶，视频检索，体育视频集锦生成等。

随着深度学习的发展，弱监督视频动作定位技术有着很大的进步。然而现有的方法往往是先得到片段级别的类别得分，再通过注意力机制和阈值进行筛选，得到阈值较大的连续片段作为动作片段输出。一些文献直接通过时序类别激活图来进行定位。一些学者使用条件随机场，聚类，背景损失的方式去解决视频神经网络在分类时候关注的视频片段碎片化问题。虽然现阶段时序检测任务发展迅速，但这些方法往往将视频片段看作是相互独立的个体，未能对视频内以及视频间进行建模，这使得现有方法在面对背景复杂，场景多变的实际应用中时，产生动作定位不完整，动作背景混淆两大问题，给弱监督定位的实际应用带来巨大的挑战。

发明内容

有鉴于此，本申请提供了一种基于关系建模的弱监督视频动作定位模型的训练方法，以期至少部分的解决上述提及的技术问题之一。

在本发明实施方式的第一方面中，提供了一种基于关系建模的弱监督视频动作定位模型的训练方法，包括：

构建初始动作定位模型，其中，上述初始动作定位模型包括：特征提取模块、视频内关系更新模块、跨视频关系更新模块、分类与定位模块；

通过上述特征提取模块对样本视频进行特征提取，输出具有相同动作特征标签的第一初始视频特征和第二初始视频特征，其中，上述第一初始视频特征和上述第二初始视频特征分别包括多个视频片段特征；

通过上述视频内关系更新模块对上述第一初始视频特征和上述第二初始视频特征中的视频片段特征分别进行处理，以更新上述第一初始视频特征和上述第二初始视频特征，得到第一视频内关系特征和第二视频内关系特征；

通过上述跨视频关系更新模块对上述第一视频内关系特征和上述第二视频内关系特征进行处理，得到跨视频融合特征，根据上述跨视频融合特征和上述第一初始视频特征生成第一跨视频特征，根据上述跨视频融合特征和上述第二初始视频特征生成第二跨视频特征；

根据上述第一视频内关系特征和上述第一跨视频特征，以及/或者上述第二视频内关系特征和上述第二跨视频特征，输入上述分类与定位模块，以训练上述初始动作定位模型，得到训练后的动作定位模型。

根据本发明实施例，上述通过上述特征提取模块对样本视频进行特征提取，输出具有相同动作特征标签的第一初始视频特征和第二初始视频特征包括：

通过上述特征提取模块对样本视频进行特征提取，得到初始视频特征集；

从上述初始视频特征集中随机采样，输出上述第一初始视频特征和上述第二初始视频特征。

根据本发明实施例，上述通过上述视频内关系更新模块对上述第一初始视频特征和上述第二初始视频特征中的视频片段特征分别进行处理，以更新上述第一初始视频特征和上述第二初始视频特征，得到第一视频内关系特征和第二视频内关系特征包括：

分别对上述第一初始视频特征和上述第二初始视频特征进行降维处理，得到降维后的上述第一初始视频特征和上述第二初始视频特征；

通过图卷积网络对降维后的上述第一初始视频特征和上述第二初始视频特征进行更新，得到上述第一视频内关系特征和上述第二视频内关系特征。

根据本发明实施例，上述通过上述跨视频关系更新模块对上述第一视频内关系特征和上述第二视频内关系特征进行处理，得到跨视频融合特征包括：

分别对所述第一视频内关系特征和所述第二视频内关系特征标准化处理，得到标准化后的所述第一视频内关系特征和所述第二视频内关系特征；

将标准化后的所述第一视频内关系特征和所述第二视频内关系特征通过点积的方法计算，得到所述跨视频融合特征，其中，所述跨视频融合特征为所述第一视频内关系特征和所述第二视频内关系特征的相似度矩阵。

根据本发明实施例，上述根据上述跨视频融合特征和上述第一初始视频特征生成第一跨视频特征，根据上述跨视频融合特征和上述第二初始视频特征生成第二跨视频特征包括：

通过softmax函数对上述跨视频融合特征进行计算，分别得到上述第一初始视频特征相对于上述第二初始视频特征的第一跨视频注意力和上述第二初始视频特征相对于上述第一初始视频特征的第二跨视频注意力；

通过加权求和的方法对上述第一初始视频特征和上述第一跨视频注意力进行计算，得到上述第一跨视频特征；以及

通过加权求和的方法对上述第二初始视频特征和上述第二跨视频注意力进行计算，得到上述第二跨视频特征；

根据本发明实施例，上述根据上述第一视频内关系特征和上述第一跨视频特征，以及/或者上述第二视频内关系特征和上述第二跨视频特征，输入上述分类与定位模块，以训练上述初始动作定位模型，得到训练后的动作定位模型包括：

将上述第一视频内关系特征和上述第一跨视频特征，以及/或者上述第二视频内关系特征和上述第二跨视频特征输入上述分类与定位模块，生成上述样本视频的前景特征和背景特征；

根据上述前景特征和上述背景特征计算上述样本视频的情景分类损失和背景分类损失；

将上述情景分类损失和背景分类损失输入损失函数，得到损失结果；

根据上述损失结果训练上述初始动作定位模型，得到训练后的上述动作定位模型。

在本发明实施方式的第二方面中，提供了一种视频动作定位方法，其中，上述方法基于上述训练方法训练得到的动作定位模型来实现，上述动作定位模型包括：特征提取模块、视频内关系更新模块和分类与定位模块，上述方法包括：

将目标视频输入至上述特征提取模块，得到第三初始视频特征；

通过上述视频内关系更新模块对上述第三初始视频特征进行更新，得到第三视频内关系特征；

通过分类与定位模块对上述第三视频内关系特征进行处理得到上述目标视频的类别激活序列；

根据上述类别激活序列计算得到目标视频的置信度；

将上述置信度进行阈值约束，得到最终的动作定位结果。

根据本发明实施例，上述通过上述视频内关系更新模块对上述第三初始视频特征进行更新，得到第三视频内关系特征包括：

对上述第三初始视频特征进行降维处理，得到降维后的上述第三初始视频特征；

通过图卷积网络对降维后的上述第三初始视频特征进行更新，得到上述第三视频内关系特征。

根据本发明实施例，上述通过分类与定位模块对上述第三视频内关系特征进行处理得到上述目标视频的类别激活序列包括：

将上述第三视频内关系特征输入分类与定位模块，生成样本视频的前景特征和背景特征；

根据上述前景特征和上述背景特征计算上述目标视频的类别激活序列。

在本发明实施方式的第三方面中，提供了一种基于关系建模的弱监督视频动作定位模型的训练装置，包括：

构建模块，用于构建初始动作定位模型，其中，上述初始动作定位模型包括：特征提取模块、视频内关系更新模块、跨视频关系更新模块、分类与定位模块；

提取模块，用于通过上述特征提取模块对样本视频进行特征提取，输出具有相同动作特征标签的第一初始视频特征和第二初始视频特征，其中，上述第一初始视频特征和上述第二初始视频特征分别包括多个视频片段特征；

更新模块，用于通过上述视频内关系更新模块对上述第一初始视频特征和上述第二初始视频特征中的视频片段特征分别进行处理，以更新上述第一初始视频特征和上述第二初始视频特征，得到第一视频内关系特征和第二视频内关系特征；

生成模块，通过上述跨视频关系更新模块对上述第一视频内关系特征和上述第二视频内关系特征进行处理，得到跨视频融合特征，根据上述跨视频融合特征和上述第一初始视频特征生成第一跨视频特征，根据上述跨视频融合特征和上述第二初始视频特征生成第二跨视频特征；

训练模块，用于根据上述第一视频内关系特征和上述第一跨视频特征，以及/或者上述第二视频内关系特征和上述第二跨视频特征，输入上述分类与定位模块，以训练上述初始动作定位模型，得到训练后的动作定位模型。

本发明提供的基于关系建模的弱监督视频动作定位模型的训练方法，仅需要视频级别的标签，数据标注更加简单。同时，与现有方法相比，通过视频内与跨视频之间的关系建模，使得模型在定位一个动作时，充分将动作片段整体进行考虑，本发明提供的方法使得模型学习到更加鲁棒的视频特征，从而更加适用于实际运行环境，获得更加准确的动作定位效果。

附图说明

图1示意性示出了本发明的基于关系建模的弱监督视频动作定位模型的训练方法流程图。

图2示意性示出了本发明的基于关系建模的弱监督视频动作定位模型的结构示意图。

图3示意性示出了本发明的基于关系建模的弱监督视频动作定位方法流程图。

图4示意性示出了本发明的基于关系建模的弱监督视频动作定位模型的训练装置示意图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

现有的弱监督视频动作定位技术往往是先得到片段级别的类别得分，再通过注意力机制和阈值进行筛选，得到阈值较大的连续片段作为动作片段输出。但其往往将视频片段看作是相互独立的个体，未能对视频内以及视频间进行建模，这使得现有方法在面对背景复杂，场景多变的实际应用中时，产生动作定位不完整，动作背景混淆两大问题。

发明人在实现本公开构思的过程中发现，现有的弱监督视频动作定位方法动作定位不准确，且容易将动作和背景混淆。

如图1所示，本发明实施例的基于关系建模的弱监督视频动作定位模型的训练方法包括操作S101～S105。

在步骤S101中，构建初始动作定位模型，其中，初始动作定位模型包括：特征提取模块、视频内关系更新模块、跨视频关系更新模块、分类与定位模块。

在步骤S102中，通过特征提取模块对样本视频进行特征提取，输出具有相同动作特征标签的第一初始视频特征和第二初始视频特征，其中，第一初始视频特征和第二初始视频特征分别包括多个视频片段特征。

在步骤S103中，通过视频内关系更新模块对第一初始视频特征和第二初始视频特征中的视频片段特征分别进行处理，以更新第一初始视频特征和第二初始视频特征，得到第一视频内关系特征和第二视频内关系特征，其中，第一视频内关系特征和第二视频内关系特征能够使单独的视频片段与其他视频片段进行联系，充分将动作片段整体进行考虑，以使最终能够得到更好的定位结果。

在步骤S104中，通过跨视频关系更新模块对第一视频内关系特征和第二视频内关系特征进行处理，得到跨视频融合特征，根据跨视频融合特征和第一初始视频特征生成第一跨视频特征，根据跨视频融合特征和第二初始视频特征生成第二跨视频特征。

在步骤S105中，根据第一视频内关系特征和第一跨视频特征，以及/或者第二视频内关系特征和第二跨视频特征，输入分类与定位模块，以训练初始动作定位模型，得到训练后的动作定位模型。

根据本发明实施例，仅需要视频级别的标签，数据标注更加简单。同时，与现有方法相比，通过视频内与跨视频之间的关系建模，使得模型在定位一个动作时，充分将动作片段整体进行考虑，本发明提供的方法使得模型学习到更加鲁棒的视频特征，从而更加适用于实际运行环境，获得更加准确的动作定位效果。

如图2所示，本实施例的基于关系建模的弱监督视频动作定位模型包括：特征提取模块201、视频内关系更新模块202、跨视频关系更新模块203、分类与定位模块204。

在本实施例中，通过特征提取模块201对样本视频进行特征提取，输出具有相同动作特征标签的第一初始视频特征和第二初始视频特征包括：通过特征提取模块201对样本视频进行特征提取，得到初始视频特征集；从初始视频特征集中随机采样，输出第一初始视频特征和第二初始视频特征。

根据本发明实施例，对于输入的一段未裁剪的样本视频，首先用Kinetics数据集上预训练的I3D双流网络进行特征提取。在视频定位任务中，网络的输入由RGB流与Flow流两部分组成，其各自单独训练，最终进行融合，其中，光流的提取使用的是TV_L1算法。本实施例中，模型的输入是连续的不重叠视频16帧片段，假设输入为T帧的视频为V∈{V_rgb，V_flow}，经过I3D网络提取，得到的视频特征表示为X∈{X^R，X^F}，其维度均为N×1024，其中，N为视频片段的长度，取决于视频本身的长度。随机采样含有相同标签的视频特征分别记为第一初始视频特征

和第二初始视频特征

需要说明的是，本实施例中的特征提取方式仅为示例性说明，根据实现需要，也可以为其他能够达到相同技术效果的特征提取方式。

根据本发明实施例，输出两个初始视频特征为本实施例的示意性数量的初始视频特征，具体的，根据实现需要，也可以输出多个初始视频特征。

在本实施例中，通过视频内关系更新模块202对第一初始视频特征和第二初始视频特征中的视频片段特征分别进行处理，以更新第一初始视频特征和第二初始视频特征，得到第一视频内关系特征和第二视频内关系特征包括：分别对第一初始视频特征和第二初始视频特征进行降维处理，得到降维后的第一初始视频特征和第二初始视频特征；通过图卷积网络对降维后的第一初始视频特征和第二初始视频特征进行更新，得到第一视频内关系特征和第二视频内关系特征。

根据本发明实施例，为了减少计算量，首先通过一个1×1卷积将维度降低到512：

X′₁＝f_conv1d(X₁)，X′₂＝f_conv1d(X₂) (一)

其中，

在图卷积网络中将视频中每一个片段看作是拓扑图中的一个单独的结点，通过图卷积网络桥连不同片段之间的信息流动，从而进行特征的更新，特征的更新公式为

其中，

A为度矩阵，

为

的度矩阵，

σ是非线性激活函数。

更新后的视频特征分别为第一视频内关系特征X′_{1_gcn}和第二视频内关系特征X′_{2_gcn}。

需要说明的是，本实施例中的特征更新方式仅为示例性说明，根据实现需要，也可以为其他能够达到相同技术效果的特征更新方式。

根据本发明实施例，通过对每个初始视频特征进行处理，能够将样本视频中的具有同一动作特征标签的不同动作片段进行连接，从而得到检测完整动作的视频内关系特征。

在本实施例中，通过跨视频关系更新模块203对第一视频内关系特征和第二视频内关系特征进行处理，得到跨视频融合特征包括：分别对第一视频内关系特征和第二视频内关系特征标准化处理，得到标准化后的第一视频内关系特征和第二视频内关系特征；将标准化后的第一视频内关系特征和第二视频内关系特征通过点积的方法计算，得到跨视频融合特征，其中，跨视频融合特征为第一视频内关系特征和第二视频内关系特征的相似度矩阵。

根据本发明实施例，为了更好的将动作从背景中分离出来，采用样本对的方式对模型进行训练，在视频对之间，含有相同动作特征标签的片段特征应该尽可能的接近，使用点积去度量跨视频片段之间的相似度：

其中，

根据本发明实施例，根据跨视频融合特征和第一初始视频特征生成第一跨视频特征，根据跨视频融合特征和第二初始视频特征生成第二跨视频特征包括：

通过softmax函数对跨视频融合特征进行计算，分别得到第一初始视频特征相对于第二初始视频特征的第一跨视频注意力和第二初始视频特征相对于第一初始视频特征的第二跨视频注意力；

通过加权求和的方法对第一初始视频特征和第一跨视频注意力进行计算，得到第一跨视频特征：

其中，S_1→2为第一跨视频注意力。

通过加权求和的方法对第二初始视频特征和第二跨视频注意力进行计算，得到第二跨视频特征：

其中，

为第二跨视频注意力，T表示转置。

在本实施例中，根据第一视频内关系特征和第一跨视频特征，以及/或者第二视频内关系特征和第二跨视频特征，输入分类与定位模块204，以训练初始动作定位模型，得到训练后的动作定位模型包括：

将第一视频内关系特征和第一跨视频特征，以及/或者第二视频内关系特征和第二跨视频特征输入分类与定位模块204，生成样本视频的前景特征和背景特征，其中，前景由Attention层产生的权重λ_t进行加权求和：

而背景特征与前景特征是互补的关系：

根据前景特征和背景特征计算样本视频的情景分类损失和背景分类损失；

将情景分类损失和背景分类损失输入损失函数，得到损失结果，本实施例中，总的损失函数共包含四项，分别是视频内关系特征更新的前景分类损失ζ_{cls_fg}，背景分类损失ζ_{cls_bg}，以及跨视频注意力之后的前景背景损失ζ_{cls_att_fg}，背景分类损失ζ_{cls_att_bg}，总的损失函数是这四项加权之和：

根据损失结果训练初始动作定位模型，得到训练后的动作定位模型。

如图2和图3所示，本实施例提供的基于关系建模的弱监督视频动作定位方法包括操作S301～S305。

需要说明的是，本发明实施例的基于关系建模的弱监督视频动作定位方法基于训练方法训练得到的动作定位模型来实现，动作定位模型包括：特征提取模块201、视频内关系更新模块202和分类与定位模块204。

在操作S301中，将目标视频输入至特征提取模块201，得到第三初始视频特征。

在操作S302中，通过视频内关系更新模块202对第三初始视频特征进行更新，得到第三视频内关系特征。

在操作S303中，通过分类与定位模块204对第三视频内关系特征进行处理得到目标视频的类别激活序列。

在操作S304中，根据类别激活序列计算得到目标视频的置信度。

在操作S305中，将置信度进行阈值约束，得到最终的动作定位结果。

在本实施例中，通过视频内关系更新模块202对第三初始视频特征进行更新，得到第三视频内关系特征包括：对第三初始视频特征进行降维处理，得到降维后的第三初始视频特征；通过图卷积网络对降维后的第三初始视频特征进行更新，得到第三视频内关系特征。

在本实施例中，通过分类与定位模块204对第三视频内关系特征进行处理得到目标视频的类别激活序列包括：将第三视频内关系特征输入分类与定位模块204，生成样本视频的前景特征和背景特征；根据前景特征和背景特征计算目标视频的类别激活序列。

根据本发明实施例，基于弱监督下的视频动作定位，无需大量的手工精细的视频标注，具有重要的现实意义。可以直接放在后台服务器或者集成到手机电脑的软件中。能够充分直接利用现有的互联网用户上传的具有文字性的描述的视频，直接的获取视频动作片段用于其他深度学习任务，如行为识别等。同时，本发明实施例提供的方法亦可以对数据后台中已有的视频进行检索，如视频搜索，视频集锦生成等应用。

如图4所示，本发明实施例提供的一种基于关系建模的弱监督视频动作定位模型的训练装置401包括：构建模块402、提取模块403、更新模块404、生成模块405、训练模块406。

构建模块402，用于构建初始动作定位模型，其中，初始动作定位模型包括：特征提取模块201、视频内关系更新模块202、跨视频关系更新模块203、分类与定位模块204。

提取模块403，用于通过特征提取模块201对样本视频进行特征提取，输出具有相同动作特征标签的第一初始视频特征和第二初始视频特征，其中，第一初始视频特征和第二初始视频特征分别包括多个视频片段特征。

更新模块404，用于通过视频内关系更新模块202对第一初始视频特征和第二初始视频特征中的视频片段特征分别进行处理，以更新第一初始视频特征和第二初始视频特征，得到第一视频内关系特征和第二视频内关系特征。

生成模块405，通过跨视频关系更新模块203对第一视频内关系特征和第二视频内关系特征进行处理，得到跨视频融合特征，根据跨视频融合特征和第一初始视频特征生成第一跨视频特征，根据跨视频融合特征和第二初始视频特征生成第二跨视频特征。

训练模块406，用于根据第一视频内关系特征和第一跨视频特征，以及/或者第二视频内关系特征和第二跨视频特征，输入分类与定位模块204，以训练初始动作定位模型，得到训练后的动作定位模型。

在本实施例中，提取模块403包括特征提取单元和采样单元，其中，

特征提取单元，用于通过特征提取模块201对样本视频进行特征提取，得到初始视频特征集；

采样单元，用于从初始视频特征集中随机采样，输出第一初始视频特征和第二初始视频特征。

在本实施例中，更新模块404包括降维单元和更新单元，其中：

降维单元，用于分别对第一初始视频特征和第二初始视频特征进行降维处理，得到降维后的第一初始视频特征和第二初始视频特征；

更新单元，用于通过图卷积网络对降维后的第一初始视频特征和第二初始视频特征进行更新，得到第一视频内关系特征和第二视频内关系特征。

在本实施例中，生成模块405包括标准化单元和融合单元，其中：

标准化单元，用于分别对第一视频内关系特征和第二视频内关系特征标准化处理，得到标准化后的第一视频内关系特征和第二视频内关系特征。

融合单元，将标准化后的第一视频内关系特征和第二视频内关系特征通过点积的方法计算，得到跨视频融合特征，其中，跨视频融合特征为第一视频内关系特征和第二视频内关系特征的相似度矩阵。

根据本公开实施例，融合单元包括标第一计算子单元和第二计算子单元，其中：

第一计算子单元，用于通过softmax函数对跨视频融合特征进行计算，分别得到第一初始视频特征相对于第二初始视频特征的第一跨视频注意力和第二初始视频特征相对于第一初始视频特征的第二跨视频注意力；

第二计算子单元，用于通过加权求和的方法对第二初始视频特征和第二跨视频注意力进行计算，得到第二跨视频特征。

在本实施例中，训练模块406包括分类单元、第一计算单元、第二计算单元和训练单元，其中：

分类单元，用于将第一视频内关系特征和第一跨视频特征，以及/或者第二视频内关系特征和第二跨视频特征输入分类与定位模块204，生成样本视频的前景特征和背景特征；

第一计算单元，用于根据前景特征和背景特征计算样本视频的情景分类损失和背景分类损失；

第二计算单元，用于将情景分类损失和背景分类损失输入损失函数，得到损失结果；

训练单元，用于根据损失结果训练初始动作定位模型，得到训练后的动作定位模型。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关系建模的弱监督视频动作定位模型的训练方法，包括：

构建初始动作定位模型，其中，所述初始动作定位模型包括：特征提取模块、视频内关系更新模块、跨视频关系更新模块、分类与定位模块；

通过所述特征提取模块对样本视频进行特征提取，输出具有相同动作特征标签的第一初始视频特征和第二初始视频特征，其中，所述第一初始视频特征和所述第二初始视频特征分别包括多个视频片段特征；

通过所述视频内关系更新模块对所述第一初始视频特征和所述第二初始视频特征中的视频片段特征分别进行处理，以更新所述第一初始视频特征和所述第二初始视频特征，得到第一视频内关系特征和第二视频内关系特征；通过所述跨视频关系更新模块对所述第一视频内关系特征和所述第二视频内关系特征进行处理，得到跨视频融合特征，根据所述跨视频融合特征和所述第一初始视频特征生成第一跨视频特征，根据所述跨视频融合特征和所述第二初始视频特征生成第二跨视频特征；

根据所述第一视频内关系特征和所述第一跨视频特征，以及/或者所述第二视频内关系特征和所述第二跨视频特征，输入所述分类与定位模块，以训练所述初始动作定位模型，得到训练后的动作定位模型；

其中，所述通过所述跨视频关系更新模块对所述第一视频内关系特征和所述第二视频内关系特征进行处理，得到跨视频融合特征包括：

2.根据权利要求1所述的方法，其中，所述通过所述特征提取模块对样本视频进行特征提取，输出具有相同动作特征标签的第一初始视频特征和第二初始视频特征包括：

通过所述特征提取模块对样本视频进行特征提取，得到初始视频特征集；

从所述初始视频特征集中随机采样，输出所述第一初始视频特征和所述第二初始视频特征。

3.根据权利要求1所述的方法，其中，所述通过所述视频内关系更新模块对所述第一初始视频特征和所述第二初始视频特征中的视频片段特征分别进行处理，以更新所述第一初始视频特征和所述第二初始视频特征，得到第一视频内关系特征和第二视频内关系特征包括：

分别对所述第一初始视频特征和所述第二初始视频特征进行降维处理，得到降维后的所述第一初始视频特征和所述第二初始视频特征；

通过图卷积网络对降维后的所述第一初始视频特征和所述第二初始视频特征进行更新，得到所述第一视频内关系特征和所述第二视频内关系特征。

4.根据权利要求1所述的方法，其中，所述根据所述跨视频融合特征和所述第一初始视频特征生成第一跨视频特征，根据所述跨视频融合特征和所述第二初始视频特征生成第二跨视频特征包括：

通过softmax函数对所述跨视频融合特征进行计算，分别得到所述第一初始视频特征相对于所述第二初始视频特征的第一跨视频注意力和所述第二初始视频特征相对于所述第一初始视频特征的第二跨视频注意力；

通过加权求和的方法对所述第一初始视频特征和所述第一跨视频注意力进行计算，得到所述第一跨视频特征；以及

通过加权求和的方法对所述第二初始视频特征和所述第二跨视频注意力进行计算，得到所述第二跨视频特征。

5.根据权利要求1所述的方法，其中，所述根据所述第一视频内关系特征和所述第一跨视频特征，以及/或者所述第二视频内关系特征和所述第二跨视频特征，输入所述分类与定位模块，以训练所述初始动作定位模型，得到训练后的动作定位模型包括：

将所述第一视频内关系特征和所述第一跨视频特征，以及/或者所述第二视频内关系特征和所述第二跨视频特征输入所述分类与定位模块，生成所述样本视频的前景特征和背景特征；

根据所述前景特征和所述背景特征计算所述样本视频的情景分类损失和背景分类损失；

将所述情景分类损失和背景分类损失输入损失函数，得到损失结果；

根据所述损失结果训练所述初始动作定位模型，得到训练后的所述动作定位模型。

6.一种视频动作定位方法，其中，所述方法基于如权利要求1至5任一项所述的训练方法训练得到的动作定位模型来实现，所述动作定位模型包括：特征提取模块、视频内关系更新模块和分类与定位模块，所述方法包括：

将目标视频输入至所述特征提取模块，得到第三初始视频特征；

通过所述视频内关系更新模块对所述第三初始视频特征进行更新，得到第三视频内关系特征；

通过分类与定位模块对所述第三视频内关系特征进行处理得到所述目标视频的类别激活序列；

根据所述类别激活序列计算得到目标视频的置信度；

将所述置信度进行阈值约束，得到最终的动作定位结果。

7.根据权利要求6所述的方法，其中，所述通过所述视频内关系更新模块对所述第三初始视频特征进行更新，得到第三视频内关系特征包括：

对所述第三初始视频特征进行降维处理，得到降维后的所述第三初始视频特征；

通过图卷积网络对降维后的所述第三初始视频特征进行更新，得到所述第三视频内关系特征。

8.根据权利要求6所述的方法，其中，所述通过分类与定位模块对所述第三视频内关系特征进行处理得到所述目标视频的类别激活序列包括：

将所述第三视频内关系特征输入分类与定位模块，生成样本视频的前景特征和背景特征；

根据所述前景特征和所述背景特征计算所述目标视频的类别激活序列。

9.一种基于关系建模的弱监督视频动作定位模型的训练装置，包括：

构建模块，用于构建初始动作定位模型，其中，所述初始动作定位模型包括：特征提取模块、视频内关系更新模块、跨视频关系更新模块、分类与定位模块；

提取模块，用于通过所述特征提取模块对样本视频进行特征提取，输出具有相同动作特征标签的第一初始视频特征和第二初始视频特征，其中，所述第一初始视频特征和所述第二初始视频特征分别包括多个视频片段特征；

更新模块，用于通过所述视频内关系更新模块对所述第一初始视频特征和所述第二初始视频特征中的视频片段特征分别进行处理，以更新所述第一初始视频特征和所述第二初始视频特征，得到第一视频内关系特征和第二视频内关系特征；

生成模块，通过所述跨视频关系更新模块对所述第一视频内关系特征和所述第二视频内关系特征进行处理，得到跨视频融合特征，根据所述跨视频融合特征和所述第一初始视频特征生成第一跨视频特征，根据所述跨视频融合特征和所述第二初始视频特征生成第二跨视频特征，

将标准化后的所述第一视频内关系特征和所述第二视频内关系特征通过点积的方法计算，得到所述跨视频融合特征，其中，所述跨视频融合特征为所述第一视频内关系特征和所述第二视频内关系特征的相似度矩阵；

训练模块，用于根据所述第一视频内关系特征和所述第一跨视频特征，以及/或者所述第二视频内关系特征和所述第二跨视频特征，输入所述分类与定位模块，以训练所述初始动作定位模型，得到训练后的动作定位模型。