CN114937164A

CN114937164A - 动作定位模型的训练方法和装置、动作定位方法和设备

Info

Publication number: CN114937164A
Application number: CN202210630615.7A
Authority: CN
Inventors: 梅涛
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-08-23

Abstract

本公开涉及一种动作定位模型的训练方法和装置、动作定位方法和设备。该动作定位模型的训练方法包括：在第一动作定位模型训练过程中，产生第一在线伪标签；采用第一在线伪标签监督第二动作定位模型的训练，其中，第一动作定位模型和第二动作定位模型为不同模态的动作定位模型。本公开可以利用第一动作定位模型在线生成的伪标签监督第二动作定位模型的训练，从而消除了标签噪声，提高了模型的定位精度降低。

Description

动作定位模型的训练方法和装置、动作定位方法和设备

技术领域

本公开涉及动作定位领域，特别涉及一种动作定位模型的训练方法和装置、动作定位方法和设备。

背景技术

相关技术的无监督时域动作定位算法采用迭代式的聚类-表征学习来进行网络训练，聚类生成的伪标签用来监督网络训练，训练好的网络用来提取更好的表征，用于产生更好的聚类结果。

发明内容

发明人通过研究发现：相关技术的迭代式聚类-表征学习方法存在如下技术问题：在每一次迭代中，聚类生成的伪标签都是固定的，标签噪声可能会导致模型精度降低。

鉴于以上技术问题中的至少一项，本公开提供了一种动作定位模型的训练方法和装置、动作定位方法和设备，可以利用第一动作定位模型在线生成的伪标签监督第二动作定位模型的训练，从而消除了标签噪声，提高了模型的定位精度降低。

根据本公开的一个方面，提供一种动作定位模型的训练方法，包括：

在第一动作定位模型训练过程中，产生第一在线伪标签；

采用第一在线伪标签监督第二动作定位模型的训练，其中，第一动作定位模型和第二动作定位模型为不同模态的动作定位模型。

在本公开的一些实施例中，所述训练方法还包括：

在第二动作定位模型训练过程中，产生第二在线伪标签；

采用第二在线伪标签监督第一动作定位模型的训练。

在本公开的一些实施例中，在线伪标签包括视频级伪标签，所述在线伪标签为第一在线伪标签或第二在线伪标签。

在本公开的一些实施例中，在动作定位模型训练过程中，产生在线伪标签包括：

在动作定位模型训练过程中，利用视频之间的相似性来聚合动作定位模型的输出，在线产生动态的视频级伪标签，其中，所述动作定位模型为第一动作定位模型或第二动作定位模型。

在本公开的一些实施例中，所述利用视频之间的相似性来聚合动作定位模型的输出，在线产生动态的视频级伪标签包括：

在动作定位模型训练过程中，对于一个批次的多个视频，生成多个视频的前景特征和对应的分类概率向量；

对于所述多个视频中的每一个视频，利用余弦距离计算该视频和多个视频中其它视频之间的视频相似度，并将该视频相似度进行归一化；

利用归一化后的视频相似度对所述其它视频的分类概率向量进行加权求和，得到该视频的视频级类别在线伪标签。

在本公开的一些实施例中，在线伪标签包括片段级前景伪标签和片段级背景伪标签，所述在线伪标签为第一在线伪标签或第二在线伪标签。

在动作定位模型训练过程中，利用视频片段之间的相似性来聚合片段级预测概率，生成在线的片段级前景伪标签和片段级背景伪标签，其中，所述动作定位模型为第一动作定位模型或第二动作定位模型。

在本公开的一些实施例中，所述利用视频片段之间的相似性来聚合片段级预测概率，生成在线的片段级前景伪标签和片段级背景伪标签包括：

在动作定位模型训练过程中，得到一个视频的多个片段的特征和对应的前景概率；

利用余弦距离计算该片段和所述多个片段中其它片段之间的片段相似度，并将该片段相似度进行归一化；

利用归一化后的片段相似度对上述其它片段的前景概率进行加权求和，得到当前视频片段的片段级前景伪标签和片段级背景伪标签。

在本公开的一些实施例中，所述采用第一在线伪标签监督第二动作定位模型的训练包括：

采用第一在线伪标签和离线聚类生成的伪标签，监督第二动作定位模型的训练。

在本公开的一些实施例中，所述采用第二在线伪标签监督第一动作定位模型的训练包括：

采用第二在线伪标签和离线聚类生成的伪标签，监督第一动作定位模型的训练。

在本公开的一些实施例中，所述第一动作定位模型为颜色模型，所述第二动作定位模型为光流模型。

在本公开的一些实施例中，所述第一动作定位模型为光流模型，所述第二动作定位模型为颜色模型。

根据本公开的另一方面，提供一种动作定位方法，包括：

将视频输入动作定位模型，其中，所述动作定位模型包括第一动作定位模型和第二动作定位模型中的至少一种，所述第一动作定位模型和第二动作定位模型为采用如上述任一实施例所述的训练方法训练得到的；

采用动作定位模型对输入的视频进行时域动作定位。

根据本公开的另一方面，提供一种动作定位模型的训练装置，包括：

在线伪标签产生模块，用于在第一动作定位模型训练过程中，产生第一在线伪标签；

跨模态学习模块，用于采用第一在线伪标签监督第二动作定位模型的训练，其中，第一动作定位模型和第二动作定位模型为不同模态的动作定位模型。

在本公开的一些实施例中，所述训练装置用于执行实现如上述任一实施例所述的训练方法的操作。

根据本公开的另一方面，提供一种动作定位设备，包括：

视频输入单元，用于将视频输入动作定位模型，其中，所述动作定位模型包括第一动作定位模型和第二动作定位模型中的至少一种，所述第一动作定位模型和第二动作定位模型为采用如上述任一实施例所述的训练方法训练得到的；

动作定位单元，用于采用所述动作定位模型对输入的视频进行时域动作定位。

根据本公开的另一方面，提供一种计算机装置，包括：

存储器，用于存储指令；

处理器，用于执行所述指令，使得所述计算机装置执行实现如上述任一实施例所述的训练方法、和/或如上述任一实施例所述的动作定位方法的操作。

根据本公开的另一方面，提供一种非瞬时性计算机可读存储介质，其中，所述非瞬时性计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如上述任一实施例所述的训练方法、和/或如上述任一实施例所述的动作定位方法。

本公开可以利用第一动作定位模型在线生成的伪标签监督第二动作定位模型的训练，从而消除了标签噪声，提高了模型的定位精度降低。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开动作定位模型的训练方法一些实施例的示意图。

图2为本公开动作定位模型的训练方法另一些实施例的示意图。

图3是本公开一些实施例中RGB模型或FLOW模型的结构图。

图4为本公开一些实施例中RGB模型通过片段自标注模块和视频自标注模块来训练的示意图。

图5为本公开动作定位方法一些实施例的示意图。

图6为本公开动作定位方法的动作定位能力的可视化示意图。

图7为本公开动作定位模型的训练装置一些实施例的示意图。

图8为本公开动作定位设备一些实施例的示意图。

图9为本公开计算机装置一些实施例的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

发明人通过研究发现：相关技术的迭代式聚类-表征学习方法还存在如下技术问题：大部分视频帧都是背景，鉴别前景/背景片段对于模型推理和聚类都是至关重要的，然而相关技术方法缺乏有限的前背景分离机制。

鉴于以上技术问题中的至少一项，本公开提供了一种动作定位模型的训练方法和装置、动作定位方法和设备，下面通过具体实施例对本公开上述实施例进行说明。

图1为本公开动作定位模型的训练方法一些实施例的示意图。优选的，本实施例可由动作定位模型的训练装置执行。该方法可以包括步骤11-步骤12中的至少一项，其中：

步骤11，在第一动作定位模型训练过程中，产生第一在线伪标签。

步骤12，采用第一在线伪标签监督第二动作定位模型的训练，其中，第一动作定位模型和第二动作定位模型为不同模态的动作定位模型。

在本公开的一些实施例中，所述第一动作定位模型为RGB(颜色)模型，所述第二动作定位模型为FLOW(光流)模型。

基于本公开上述实施例提供的动作定位模型的训练方法，可以利用第一动作定位模型在线生成的伪标签监督第二动作定位模型的训练，从而消除了标签噪声，提高了模型的定位精度降低。

图2为本公开动作定位模型的训练方法另一些实施例的示意图。优选的，本实施例可由动作定位模型的训练装置执行。该方法可以包括步骤21-步骤24中的至少一项，其中：

步骤21，在第一动作定位模型训练过程中，产生第一在线伪标签。

步骤22，采用第一在线伪标签监督第二动作定位模型的训练，其中，第一动作定位模型和第二动作定位模型为不同模态的动作定位模型。

在本公开的一些实施例中，步骤22或步骤12可以包括：采用第一在线伪标签和离线聚类生成的伪标签，监督第二动作定位模型的训练。

步骤23，在第二动作定位模型训练过程中，产生第二在线伪标签；

步骤24，采用第二在线伪标签监督第一动作定位模型的训练。

在本公开的一些实施例中，步骤24可以包括：采用第二在线伪标签和离线聚类生成的伪标签，监督第一动作定位模型的训练。

本公开上述实施例可以采用在线伪标签和离线聚类生成的伪标签，来共同监督动作定位模型的训练，从而进一步提高了模型的动作定位精度。

基于本公开上述实施例提供的动作定位模型的训练方法，可以利用第一动作定位模型在线生成的伪标签监督第二动作定位模型的训练，从而消除了标签噪声，提高了模型的定位精度降低。由此本公开上述实施例解决了相关技术聚类生成的伪标签都是固定的，标签噪声可能会导致模型精度降低的技术问题。

本公开上述实施例中RGB(颜色模型)和FLOW(光流)模型利用伪标签来进行交叉监督，获取跨模态互补信息，由此可以进一步提高模型的定位精度

在本公开的一些实施例中，步骤12、步骤22或步骤24中，在动作定位模型训练过程中，产生在线伪标签的步骤可以包括：在动作定位模型训练过程中，利用视频之间的相似性来聚合动作定位模型的输出，在线产生动态的视频级伪标签，其中，所述动作定位模型为第一动作定位模型或第二动作定位模型。

在本公开的一些实施例中，所述利用视频之间的相似性来聚合动作定位模型的输出，在线产生动态的视频级伪标签的步骤可以包括：在动作定位模型训练过程中，对于一个批次的多个视频，生成多个视频的前景特征和对应的分类概率向量；对于所述多个视频中的每一个视频，利用余弦距离计算该视频和多个视频中其它视频之间的视频相似度，并将该视频相似度进行归一化；利用归一化后的视频相似度对所述其它视频的分类概率向量进行加权求和，得到该视频的视频级类别在线伪标签。

在本公开的一些实施例中，步骤12、步骤22和步骤24中，在动作定位模型训练过程中，产生在线伪标签包括：在动作定位模型训练过程中，利用视频片段之间的相似性来聚合片段级预测概率，生成在线的片段级前景伪标签和片段级背景伪标签，其中，所述动作定位模型为第一动作定位模型或第二动作定位模型。

在本公开的一些实施例中，所述利用视频片段之间的相似性来聚合片段级预测概率，生成在线的片段级前景伪标签和片段级背景伪标签的步骤可以包括：在动作定位模型训练过程中，得到一个视频的多个片段的特征和对应的前景概率；利用余弦距离计算该片段和所述多个片段中其它片段之间的片段相似度，并将该片段相似度进行归一化；利用归一化后的片段相似度对上述其它片段的前景概率进行加权求和，得到当前视频片段的片段级前景伪标签和片段级背景伪标签。

本公开上述实施例可以生成片段级前景伪标签和片段级背景伪标签。由此可以解决相关技术缺乏有限的前背景分离机制的技术问题。

下面通过具体实施例对本公开动作定位模型的训练方法进行说明。

图3是本公开一些实施例中RGB模型或FLOW模型的结构图。如图3所示，对于给定输入视频(Input Video)，本公开将其以16帧为一组分成N个片段(Segment 1、Segment 2、…、Segment N)，用I3D网络(Inflated 3D ConvNets，膨胀3D卷积网络)提取每个片段的特征，每个片段得到一个特征向量X(X₁、X₂、…、X_N)；将X输入注意力模块(Attention Module)得到每个视频片段的前景概率A₁、A₂、…、A_N；本公开利用该前景概率对视频片段特征进行加权求和，得到视频的前景特征Z；该前景特征Z被输入分类器(Classifier)，得到分类概率向量Y。图3中，Aggregation(聚合)具体可以为加权求和。

图4为本公开一些实施例中RGB模型通过片段自标注模块和视频自标注模块来训练的示意图。图4是以RGB的模型训练为例子，包含RGB模型、片段自标注模块、视频自标注模块。而FLOW模型的训练是完全对称和类似的。

在本公开的一些实施例中，如图4所示，本公开RGB的模型训练装置由基础网络、视频级自标注模块、片段级自标注模块、跨模态学习模块四部分构成。

具体而言，基础网络(RGB模型网络，例如I3D网络)，用来提取视频前景特征并输出每个片段属于前景的概率和每个视频属于每一个类别的概率。

在本公开的一些实施例中，与图3实施例类似，图4实施例中，本公开基础网络进行动作定位，即提取视频前景特征并输出每个片段属于前景的概率和每个视频属于每一个类别的概率的方法可以包括：

步骤1，通过Feature Embedding(特征编码)，从输入视频(Input Video)中得到特征序列(Feature Sequence)。将每个视频(Video 1、Video 2、…、Video N)分成16帧一段，对于RGB模型，每段大小为16×3×H×W,直接输入I3D网络的RGB版本输出得到一个1024维度的特征向量；对于FLOW模型，用TV-L1算法提取光流，每段大小为16×3×H×W,直接输入I3D网络的光流版本输出得到一个1024维度的特征向量。

在本公开的一些实施例中，如图4所示，特征序列包括L₁×F、L₂×F、…、L_N×F，其中，L_N指的是视频Video N以16帧一组划分视频，视频所分的片段数目；F指的是I3D特征输出的特征维度，为1024。

步骤2，将特征序列输入注意力模块(Attention Module)，输出注意力权重，例如：对于Video N，对应输出L_N个片段，每个片段一个权重，其中，注意力模块，用于高亮前景片段。

步骤3，注意力加权平均模块(Attention Weighted Average)对输入的注意力权重进行加权求和，得到视频的前景特征Z₁、Z₂、…、Z_N，其中，注意力加权平均模块，用于得到视频的整体前景特征。

步骤4，将该前景特征Z₁、Z₂、…、Z_N输入分类层(Classification Layer)，得到分类概率向量Y₁、Y₂、…、Y_N。

图4给出了本公开提出的三个核心模块，即视频级自标注(Video-Level Self-Labeling)模块、片段级自标注(Segment-Level Self-Labeling)模块、跨模态学习(Cross-modality Learning)模块。视频自标注模块用于产生视频级类别伪标签(Video PseudoLabels)，片段自标注模块用于产生片段级前景/背景伪标签(Segment Pseudo Labels)，跨模态学习模块用于学习跨模态信息。这三个模块和聚类生成的伪标签一起监督模型训练，从而产生更好的定位模型。

在本公开的一些实施例中，如图4所示，在视频自标注模块中,产生的视频级类别伪标签

其中，Y表示标签，N表示第N个片段，R表示RGB模型，VSL表示视频自标注模块。在本公开的一些实施例中，如图4所示，在视频自标注模块中,本公开可以得到一个batch(一批)中的m个视频的前景特征

和对应的分类概率向量

对于任意一个视频，本公开首先利用余弦距离计算该视频和其他视频之间的相似度，之后将该相似度进行归一化，最后，本公开利用该相似度对其他视频的概率向量进行加权求和，得到当前视频的视频级类别伪标签。

在本公开的一些实施例中，如图4所示，在片段自标注模块中,产生的片段级类别伪标签

其中，A表示Attention,N表示第N个片段，R表示RGB模型，SSL表示片段自标注模块。在本公开的一些实施例中，如图4所示，在片段自标注模块中，本公开得到一个视频中的N个片段的特征

和对应的前景概率

对于任意一个片段，我们首先利用余弦距离计算该片段和其他片段之间的相似度，之后将该相似度进行归一化；最后，本公开利用该相似度对其他片段的前景概率进行加权求和，得到当前视频片段的前景/背景伪标签。

在本公开的一些实施例中，在跨模态学习模块中，本公开将RGB模型产生的伪标签监督FLOW模型训练；FLOW模型产生的伪标签监督RGB模型训练，从而让彼此学习到跨模态互补的信息。

在本公开的一些实施例中，RGB模型的片段自标注模块、视频自标注模块分别产生片段级别和视频伪标签，用来监督FLOW模型；FLOW模型的片段自标注模块、视频自标注模块分别产生片段级别和视频伪标签，用来监督RGB模型。

在本公开的一些实施例中，如图4所示，RGB模型的片段自标注模块、视频自标注模块分别产生片段级别伪标签

和视频级别伪标签

用来监督FLOW模型(图4未示出)。

在本公开的一些实施例中，如图4所示，在跨模态学习模块中，由FLOW模型(图4未示出)产生的片段级类别伪标签

和视频级类别伪标签

用于通过确定损失函数L_SSL和L_VSL，监督RGB模型，其中，A表示Attention,Y表示标签，N表示第N个片段，F表示FLOW模型。

在本公开的一些实施例中，如图4所示，L_SSL为RGB模型的注意力模块输出的注意力权重、和FLOW模型的片段自标注模块确定的片段级类别伪标签，所共同确定的损失函数；L_VSL表示RGB模型的分类层输出的分类概率向量、和注意力权重FLOW模型的视频自标注模块确定的视频级类别伪标签，所共同确定的损失函数。在本公开的一些实施例中，如图4所示，聚类视频标注模块离线聚类生成的伪标签(offline cluster-based labels)包括

其中，Y表示标签，N表示第N个片段，CVL表示聚类视频标注模块。

在本公开的一些实施例中，如图4所示，损失函数L_CVL为RGB模型的分类层输出的分类概率向量、和聚类视频标注模块离线聚类生成的伪标签，所共同确定的损失函数。在本公开的一些实施例中，如图4所示，损失函数L_CVL、L_SSL和L_VSL，用来共同监督RGB模型。

本公开上述实施例主要解决了相关技术的迭代式方法存在的存在噪声的伪标签固定和模型无法较好分离前景和背景帧的问题。本公开上述实施例提出的算法的主要贡献是在设计了视频级在线伪标签生成机制和片段级伪标签生成机制，1)在训练过程中，利用视频之间的相似性来聚合网络的输出，在线产生动态的视频级伪标签；2)训练过程中，利用视频片段之间的相似性来聚合片段级预测，生成在线的片段级前景/背景伪标签；3)RGB(颜色模型)和FLOW(光流)模型利用伪标签来进行交叉监督，获取跨模态互补信息。

本公开上述实施例训练时，除了聚类生成的伪标签外，本公开上述实施例在线生成的伪标签会辅助网络进行训练，从而可以得到更好的模型。

图5为本公开动作定位方法一些实施例的示意图。优选的，本实施例可由动作定位设备执行。该方法可以包括步骤51-步骤52中的至少一项，其中：

步骤51，将视频输入动作定位模型，其中，所述动作定位模型包括第一动作定位模型和第二动作定位模型中的至少一种，所述第一动作定位模型和第二动作定位模型为采用如上述任一实施例(例如图1-图4任一实施例)所述的训练方法训练得到的。

步骤52，采用动作定位模型对输入的视频进行时域动作定位。

在本公开的一些实施例中，所述动作定位模型可以为图3实施例所示的RGB模型或FLOW模型、或者可以为图4实施例所示的RGB模型的基础网络。

本公开上述实施例提供了一种基于在线标签生成的无监督时域动作定位方法。

图6为本公开动作定位方法的动作定位能力的可视化示意图。如图6所示，其中第一行为输入模型的视频，第二行真实的动作发生区间，第三行为我们的定位结果。由图6中可以看出，本公开上述实施例的动作定位方法可以实现和真实标注接近的定位结果，保证良好的定位性能。

本公开上述实施例可以利用公共的行为检测数据集(Activity Net)和行为定位数据集(THUMOS14)来验证所提出研究方案的可行性。数据集分别包含413和20000个视频及相应的分割标注。本公开上述实施例采用不同IoU(Intersection Over Union，交并比)阈值下的类别平均精度来衡量定位精度。本公开上述实施例在测试集上本算法模型的定位精度达到了世界领先的水平。

图7为本公开动作定位模型的训练装置一些实施例的示意图。如图7所示，本公开动作定位模型的训练装置可以包括在线伪标签产生模块71和跨模态学习模块72，其中：

在线伪标签产生模块71，用于在第一动作定位模型训练过程中，产生第一在线伪标签。

跨模态学习模块72，用于采用第一在线伪标签监督第二动作定位模型的训练，其中，第一动作定位模型和第二动作定位模型为不同模态的动作定位模型。

在本公开的另一些实施例中，所述第一动作定位模型为光流模型，所述第二动作定位模型为颜色模型。

在本公开的一些实施例中，跨模态学习模块72，用于采用第一在线伪标签和离线聚类生成的伪标签，监督第二动作定位模型的训练。

在本公开的一些实施例中，在线伪标签产生模块71，还可以用于在第二动作定位模型训练过程中，产生第二在线伪标签。

在本公开的一些实施例中，跨模态学习模块72，还可以用于采用第二在线伪标签监督第一动作定位模型的训练。

在本公开的一些实施例中，跨模态学习模块72，可以用于采用第二在线伪标签和离线聚类生成的伪标签，监督第一动作定位模型的训练。

在本公开的一些实施例中，如图4所示，在线伪标签产生模块71可以包括视频自标注模块711，其中：

视频自标注模块711，用于在动作定位模型训练过程中，利用视频之间的相似性来聚合动作定位模型的输出，在线产生动态的视频级伪标签，其中，所述动作定位模型为第一动作定位模型或第二动作定位模型。

在本公开的一些实施例中，视频自标注模块711，可以用于在动作定位模型训练过程中，对于一个批次的多个视频，生成多个视频的前景特征和对应的分类概率向量；对于所述多个视频中的每一个视频，利用余弦距离计算该视频和多个视频中其它视频之间的视频相似度，并将该视频相似度进行归一化；利用归一化后的视频相似度对所述其它视频的分类概率向量进行加权求和，得到该视频的视频级类别在线伪标签。

在本公开的一些实施例中，如图4所示，在线伪标签产生模块71还可以包括片段自标注模块712，其中：

片段自标注模块712，用于在动作定位模型训练过程中，利用视频片段之间的相似性来聚合片段级预测概率，生成在线的片段级前景伪标签和片段级背景伪标签，其中，所述动作定位模型为第一动作定位模型或第二动作定位模型。

在本公开的一些实施例中，片段自标注模块712，可以用于在动作定位模型训练过程中，得到一个视频的多个片段的特征和对应的前景概率；利用余弦距离计算该片段和所述多个片段中其它片段之间的片段相似度，并将该片段相似度进行归一化；利用归一化后的片段相似度对上述其它片段的前景概率进行加权求和，得到当前视频片段的片段级前景伪标签和片段级背景伪标签。

在本公开的一些实施例中，所述训练装置用于执行实现如上述任一实施例(例如图1-图4任一实施例)所述的训练方法的操作。

图8为本公开动作定位设备一些实施例的示意图。如图8所示，本公开动作定位模型的训练装置可以包括视频输入单元81和动作定位单元82，其中：

视频输入单元81，用于将视频输入动作定位模型，其中，所述动作定位模型包括第一动作定位模型和第二动作定位模型中的至少一种，所述第一动作定位模型和第二动作定位模型为采用如上述任一实施例(例如图1-图4任一实施例)所述的训练方法训练得到的。

动作定位单元82，用于采用所述动作定位模型对输入的视频进行时域动作定位。

在本公开的一些实施例中，所述动作定位单元82可以为图3实施例所示的RGB模型或FLOW模型、或者可以为图4实施例所示的RGB模型的基础网络。

本公开上述实施例提供了一种基于在线标签生成的无监督时域动作定位设备。

本公开上述实施例的动作定位设备可以实现和真实标注接近的定位结果，保证良好的定位性能。

图9为本公开计算机装置一些实施例的结构示意图。如图9所示，计算机装置包括存储器91和处理器92。

存储器91用于存储指令，处理器92耦合到存储器91，处理器92被配置为基于存储器存储的指令执行实现上述实施例涉及的方法。

如图9所示，该计算机装置还包括通信接口93，用于与其它设备进行信息交互。同时，该计算机装置还包括总线94，处理器92、通信接口93、以及存储器91通过总线94完成相互间的通信。

存储器91可以包含高速RAM存储器，也可还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器91也可以是存储器阵列。存储器91还可能被分块，并且块可按一定的规则组合成虚拟卷。

此外，处理器92可以是一个中央处理器CPU，或者可以是专用集成电路ASIC，或是被配置成实施本公开实施例的一个或多个集成电路。

本公开上述实施例主要解决了相关技术的迭代式方法存在的存在噪声的伪标签固定和模型无法较好分离前景和背景帧的问题。本公开上述实施例提出的方案的主要贡献是在设计了视频级在线伪标签生成机制和片段级伪标签生成机制，1)在训练过程中，利用视频之间的相似性来聚合网络的输出，在线产生动态的视频级伪标签；2)训练过程中，利用视频片段之间的相似性来聚合片段级预测，生成在线的片段级前景/背景伪标签；3)RGB(颜色模型)和FLOW(光流)模型利用伪标签来进行交叉监督，获取跨模态互补信息。

根据本公开的另一方面，提供一种非瞬时性计算机可读存储介质，其中，所述非瞬时性计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如上述任一实施例(例如图1-图4任一实施例)所述的训练方法、和/或如上述任一实施例(例如图5实施例)所述的动作定位方法。

本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在上面所描述的动作定位设备、动作定位模型的训练装置可以实现为用于执行本申请所描述功能的通用处理器、可编程逻辑控制器(PLC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指示相关的硬件完成，所述的程序可以存储于一种非瞬时性计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种动作定位模型的训练方法，其特征在于，包括：

在第一动作定位模型训练过程中，产生第一在线伪标签；

2.根据权利要求1所述的训练方法，其特征在于，还包括：

在第二动作定位模型训练过程中，产生第二在线伪标签；

采用第二在线伪标签监督第一动作定位模型的训练。

3.根据权利要求2所述的训练方法，其特征在于，在线伪标签包括视频级伪标签，所述在线伪标签为第一在线伪标签或第二在线伪标签；

在动作定位模型训练过程中，产生在线伪标签包括：

4.根据权利要求3所述的训练方法，其特征在于，所述利用视频之间的相似性来聚合动作定位模型的输出，在线产生动态的视频级伪标签包括：

5.根据权利要求2-4中任一项所述的训练方法，其特征在于，在线伪标签包括片段级前景伪标签和片段级背景伪标签，所述在线伪标签为第一在线伪标签或第二在线伪标签；

在动作定位模型训练过程中，产生在线伪标签包括：

6.根据权利要求5所述的训练方法，其特征在于，所述利用视频片段之间的相似性来聚合片段级预测概率，生成在线的片段级前景伪标签和片段级背景伪标签包括：

7.根据权利要求2-4中任一项所述的训练方法，其特征在于，

所述采用第一在线伪标签监督第二动作定位模型的训练包括：

采用第一在线伪标签和离线聚类生成的伪标签，监督第二动作定位模型的训练；

所述采用第二在线伪标签监督第一动作定位模型的训练包括：

8.根据权利要求1-4中任一项所述的训练方法，其特征在于，

所述第一动作定位模型为颜色模型，所述第二动作定位模型为光流模型；

或，

所述第一动作定位模型为光流模型，所述第二动作定位模型为颜色模型。

9.一种动作定位方法，其特征在于，包括：

将视频输入动作定位模型，其中，所述动作定位模型包括第一动作定位模型和第二动作定位模型中的至少一种，所述第一动作定位模型和第二动作定位模型为采用如权利要求1-8中任一项所述的训练方法训练得到的；

采用动作定位模型对输入的视频进行时域动作定位。

10.一种动作定位模型的训练装置，其特征在于，包括：

11.根据权利要求10所述的训练装置，其特征在于，所述训练装置用于执行实现如权利要求1-8中任一项所述的训练方法的操作。

12.一种动作定位设备，其特征在于，包括：

视频输入单元，用于将视频输入动作定位模型，其中，所述动作定位模型包括第一动作定位模型和第二动作定位模型中的至少一种，所述第一动作定位模型和第二动作定位模型为采用如权利要求1-8中任一项所述的训练方法训练得到的；

13.一种计算机装置，其特征在于，包括：

存储器，用于存储指令；

处理器，用于执行所述指令，使得所述计算机装置执行实现如权利要求1-8中任一项所述的训练方法、和/或如权利要求9所述的动作定位方法的操作。

14.一种非瞬时性计算机可读存储介质，其特征在于，所述非瞬时性计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1-8中任一项所述的训练方法、和/或如权利要求9所述的动作定位方法。