CN114550307A

CN114550307A - 动作定位模型的训练方法、装置及动作定位方法

Info

Publication number: CN114550307A
Application number: CN202210423969.4A
Authority: CN
Inventors: 张天柱; 张哲�; 张勇东; 杨文飞; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-05-27
Anticipated expiration: 2042-04-22
Also published as: CN114550307B

Abstract

本发明提供了一种动作定位模型的训练方法，包括：操作1，对样本视频集中样本视频的样本特征数据进行聚类分析，得到第一伪标签集；操作2，利用样本视频集和第一伪标签集对初始动作定位模型进行训练，得到第一动作定位模型；操作3，根据第一动作定位模型和当前前景特征更新第一伪标签集，得到第二伪标签集；操作4，在确定第二伪标签集不满足预设条件的情况下，利用样本视频集和第二伪标签集对第一动作定位模型进行训练，得到第二动作定位模型；操作5，循环执行操作3和操作4以循环更新伪标签集，直到得到的第i伪标签集满足预设条件时，结束训练，得到最终动作定位模型。本发明还提供了一种动作定位模型的训练装置、动作定位方法。

Description

动作定位模型的训练方法、装置及动作定位方法

技术领域

本发明涉及人工智能技术领域，具体涉及智能行为分析，更具体地涉及一种动作定位模型的训练方法、装置及动作定位方法。

背景技术

时域动作定位能够从给定的大量视频中定位到动作的开始时间和结束时间，在智能监控、视频描述、视频总结等领域有着广泛的应用。

传统的动作定位方法通常基于预定类别或者全监督学习，利用预先定义的动作类型对视频数据进行类别标注和边界标注，然后利用标注数据训练模型。这一过程需要预先定义动作类型，并标注大量数据，限制了动作定位的应用性。

为了减轻对数据标注和预定动作类别的依赖，无监督时域动作定位算法逐渐受到关注。然而，当前无监督时域动作定位方法利用谱聚类算法来产生视频级别的类别伪标签，然后利用这些伪标签来训练模型。但是，该训练过程无法保证不同的聚类过程中伪标签的连续性，使得模型训练不稳定，导致动作定位不完整或错误定位。

发明内容

鉴于上述问题，本发明提供了一种动作定位模型的训练方法、装置及动作定位方法。

根据本发明的第一个方面，提供了一种动作定位模型的训练方法，包括：

操作1，对样本视频集中样本视频的样本特征数据进行聚类分析，得到第一伪标签集，其中，上述第一伪标签集包括与上述样本视频对应的伪标签；

操作2，利用上述样本视频集中样本视频的样本特征数据和上述第一伪标签集中的伪标签对初始动作定位模型进行训练，得到第一动作定位模型；

操作3，根据更新系数和当前前景特征更新上述第一伪标签集，得到第二伪标签集，其中，上述当前前景特征为在对上述初始动作定位模型训练过程中对上述样本视频进行处理得到的；

操作4，在确定上述第二伪标签集不满足预设条件的情况下，利用上述样本视频集中样本视频的样本特征数据和上述第二伪标签集中的伪标签对上述第一动作定位模型进行训练，得到第二动作定位模型；

操作5，循环执行操作3和操作4以循环更新伪标签集，直到得到的第i伪标签集满足上述预设条件时，结束训练，得到最终动作定位模型。

根据本发明的实施例，上述根据更新系数和当前前景特征更新上述第一伪标签集包括：

根据上述更新系数和上述当前前景特征更新样本存储器和中心存储中的特征，得到更新后的前景特征和更新后的中心特征，其中，上述样本存储器用于存储与上述样本视频对应的历史前景特征，上述中心存储器用于存储与每个伪标签对应的历史中心特征；

根据上述样本存储器中更新后的前景特征和上述中心存储器中更新后的中心特征更新上述第一伪标签集。

根据本发明的实施例，上述根据上述样本存储器中更新后的前景特征和上述中心存储器中更新后的中心特征更新上述第一伪标签集包括：

将上述样本存储器中更新后的前景特征输入上述第一动作定位模型的分类器中，输出成本矩阵，其中，上述成本矩阵反映每个候选伪标签分配给上述样本视频的概率；

利用上述样本存储器中更新后的前景特征和上述中心存储器中更新后的中心特征确定相似性矩阵，其中，上述相似性矩阵反映上述样本视频和上述中心特征之间的相似性；

利用上述成本矩阵和上述相似性矩阵更新上述第一伪标签集。

根据本发明的实施例，上述预设条件包括在上述第i伪标签集中的伪标签与第i-1伪标签集中的伪标签相同时，结束训练。

根据本发明的实施例，上述动作定位模型训练方法还包括：

在上述对样本视频集中样本视频的样本特征数据进行聚类分析之前，按照预设方式对上述样本视频进行划分，得到L个视频片段，其中，L≥1；

将上述L个视频片段输入到预设的特征提取网络中，输出L个特征向量；

将上述L个特征向量堆叠，得到与上述样本视频对应的样本特征数据。

根据本发明的实施例，上述利用上述样本视频集中样本视频的样本特征数据和上述第一伪标签集中的伪标签对初始动作定位模型进行训练，得到第一动作定位模型包括：

将上述样本视频集中样本视频的样本特征数据和上述第一伪标签集中的伪标签输入上述初始动作定位模型，生成与上述样本视频对应的前景特征和背景特征；

将上述前景特征和上述背景特征输入分类器，得到与上述前景特征对应的前景分类分数和与上述背景特征对应的背景分类分数；

将上述前景分类分数、背景分类分数和与上述样本视频对应的伪标签输入损失函数，得到损失结果；

根据上述损失结果调整上述初始动作定位模型的模型参数，得到训练后的上述第一动作定位模型。

本发明的第二方面提供了一种动作定位方法，其中，上述动作定位方法基于上述的训练方法训练得到的最终动作定位模型来实现；

上述动作定位方法包括：

将目标视频按照预设方式进行划分，得到K个视频片段，其中，K≥1；

对上述K个视频片段进行特征提取，得到上述目标视频的特征数据；

将上述目标视频的特征数据输入上述最终动作定位模型，输出伪标签概率矩阵和动作概率矩阵，其中，上述伪标签概率矩阵包括上述K个视频片段中每个视频片段属于每个伪标签的概率值，上述动作概率矩阵包括上述K个视频片段中每个视频片段属于动作片段的概率值；

根据上述伪标签概率矩阵和上述动作概率矩阵确定与上述目标视频对应的动作定位结果。

根据本发明的实施例，上述根据上述伪标签概率矩阵和上述动作概率矩阵确定与上述目标视频对应的动作定位结果包括：

根据第二预设阈值对上述动作概率矩阵进行二值化处理，得到二值化矩阵；

根据上述二值化矩阵和预设合并规则合并上述视频片段，得到动作视频；

根据与上述动作视频对应的视频片段和上述伪标签概率矩阵确定与上述动作视频对应的伪标签；

根据上述动作视频和与上述动作视频对应的伪标签生成上述动作定位结果。

根据本发明的实施例，上述预设合并规则包括：将上述K个视频片段中属于动作片段的连续视频片段进行合并。

本发明的第三方面提供了一种动作定位模型的训练装置，包括：

聚类分析模块，用于对样本视频集中样本视频的样本特征数据进行聚类分析，得到第一伪标签集，其中，上述第一伪标签集包括与上述样本视频对应的伪标签；

初始训练模块，用于利用上述样本视频集中样本视频的样本特征数据和上述第一伪标签集中的伪标签对初始动作定位模型进行训练，得到第一动作定位模型；

更新模块，用于根据更新系数和当前前景特征更新上述第一伪标签集，得到第二伪标签集，其中，上述当前前景特征为在对上述初始动作定位模型训练过程中对上述样本视频进行处理得到的；

循环训练模块，用于在确定上述第二伪标签集不满足预设条件的情况下，利用上述样本视频集中样本视频的样本特征数据和上述第二伪标签集中的伪标签对上述第一动作定位模型进行训练，得到第二动作定位模型；

执行模块，用于循环执行更新模块和循环训练模块中的操作以循环更新伪标签集，直到得到的第i伪标签集满足上述预设条件时，结束训练，得到最终动作定位模型。

根据本发明的实施例，通过对样本视频集中样本视频的样本特征进行聚类分析得到第一伪标签集，然后利用第一伪标签集和样本视频集对初始动作定位模型进行训练，得到第一动作定位模型，在训练过程中输出与样本视频对应的当前前景特征，之后利用当前前景特征和更新系数更新第一伪标签集，得到第二伪标签集；在第二伪标签集不满足预设条件的情况下，利用第二伪标签集和样本视频集对第一动作定位模型进行训练，在训练过程中输出与样本视频对应的当前前景特征，再利用当前前景特征和更新系数更新第二伪标签集，如此循环，直到更新后的伪标签集满足预设条件时，结束训练，得到最终动作定位模型。本发明的训练方法通过算法不断更新伪标签从而得到高质量的伪标签，能够同时考虑伪标签的连续性、紧凑性、均匀性，实现鲁棒的动作定位。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本发明实施例的动作定位模型的训练方法的流程图；

图2示意性示出了根据本发明实施例的动作定位模型的结构图；

图3示意性示出了根据本发明实施例的动作定位方法的流程图；

图4示意性示出了根据本发明实施例的动作定位模型的训练装置的结构框图；以及

图5示意性示出了根据本发明实施例的动作定位装置的结构框图；

图6示意性示出了根据本发明实施例的适于实现动作定位模型的训练方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。

传统的行为定位方法通常是基于预定类别或者全监督的，利用预先定义的动作类别对视频数据进行类别标注和边界标注，然后训练模型。这一过程需要预先定义好动作类别，并标注大量数据，限制了动作定位的应用性。

为了减轻对数据标注和预定动作类别的依赖，提升行为定位方法的拓展性和实用性，无监督时域行为定位方法应运而生，在定位任务上也取得了一定的效果。然而，当前无监督时域动作定位方法采用迭代式的“聚类-特征学习”来进行伪标签生成和模型训练，利用谱聚类算法来产生视频级别的类别伪标签，然后利用这些伪标签来训练模型。但是这一迭代过程无法保证不同的聚类过程中伪标签的连续性，并且需要消耗较多的时间，导致模型训练不稳定且训练代价高，容易出现动作定位不完整或错误定位的情况，限制了无监督动作定位方法的应用性。

有鉴于此，本发明针对以上技术问题，通过利用聚类方法生成伪标签集，然后在模型训练过程中，利用预设的最优传输算法不断更新伪标签集，直到伪标签集满足预设条件时，结束训练。本发明的训练方法通过最优传输算法不断更新伪标签从而得到高质量的伪标签，能够同时考虑伪标签的连续性、紧凑性和均匀性，保证伪标签的准确性，实现鲁棒的动作定位。

图1示意性示出了根据本发明实施例的动作定位模型的训练方法的流程图。

如图1所示，该实施例的动作定位模型的训练方法包括操作S101~操作S105。

在操作S101，对样本视频集中样本视频的样本特征数据进行聚类分析，得到第一伪标签集，其中，上述第一伪标签集包括与上述样本视频对应的伪标签。

在操作S102，利用上述样本视频集中样本视频的样本特征数据和上述第一伪标签集中的伪标签对初始动作定位模型进行训练，得到第一动作定位模型。

在操作S103，根据更新系数和当前前景特征更新上述第一伪标签集，得到第二伪标签集，其中，上述当前前景特征为在对上述初始动作定位模型训练过程中对上述样本视频进行处理得到的。

在操作S104，在确定上述第二伪标签集不满足预设条件的情况下，利用上述样本视频集中样本视频的样本特征数据和上述第二伪标签集中的伪标签对上述第一动作定位模型进行训练，得到第二动作定位模型。

在操作S105，循环执行操作S103和操作S104以循环更新伪标签集，直到得到的第i伪标签集满足上述预设条件时，结束训练，得到最终动作定位模型。

根据本发明的实施例，上述预设条件包括在上述第i伪标签集中的伪标签与第i-1伪标签集中的伪标签相同时，结束训练，其中i≥2。

根据本发明的实施例，通过对样本视频集中样本视频的样本特征进行聚类分析得到第一伪标签集，然后利用第一伪标签集和样本视频集对初始动作定位模型进行训练，得到第一动作定位模型，在训练过程中输出与样本视频对应的当前前景特征，之后利用当前前景特征和更新系数更新第一伪标签集，得到第二伪标签集；在第二伪标签集不满足预设条件的情况下，利用第二伪标签集和样本视频集对第一动作定位模型进行训练，在训练过程中输出与样本视频对应的当前前景特征，再利用当前前景特征和更新系数更新第二伪标签集，如此循环，直到更新后的伪标签集满足预设条件时，结束训练，得到最终动作定位模型。本发明的训练方法通过算法不断更新伪标签，能够同时考虑伪标签的连续性、紧凑性、均匀性，从而得到高质量的伪标签实现鲁棒的动作定位。

根据本发明的实施例，上述根据更新系数和当前前景特征更新上述第一伪标签集包括：根据上述更新系数和上述当前前景特征更新样本存储器和中心存储中的特征，得到更新后的前景特征和更新后的中心特征，其中，上述样本存储器用于存储与上述样本视频对应的历史前景特征，上述中心存储器用于存储与每个伪标签对应的历史中心特征；根据上述样本存储器中更新后的前景特征和上述中心存储器中更新后的中心特征更新上述第一伪标签集。

根据本发明的实施例，在动作定位模型训练过程中，维护一个用于存储每个样本视频的历史前景特征的样本存储器

和一个用于存储每个伪标签的中心特征的中心存储器

，其中，N表示样本视频的数量，C表示伪标签的数量，512为模型的输出通道数量。

根据本发明的实施例，根据上述更新系数和上述当前前景特征更新样本存储器和中心存储中的特征的表达式如下：

样本存储器中历史前景特征的更新公式为：

（1）

中心存储器中历史中心特征的更新公式为：

（2）

其中，

表示样本存储器中第

个样本视频的前景特征；

表示中心存储器中第i个样本视频对应的伪标签；

γ表示更新系数，用于控制更新率；

X ^{f g}表示动作定位模型训练过程中输出的当前前景特征；

t表示当前迭代次数。

根据本发明的实施例，利用公式（1）和公式（2）更新历史前景特征和历史中心特征，可以保留历史信息，产生更稳健的中心特征和前景特征。

根据本发明的实施例，上述根据上述样本存储器中更新后的前景特征和上述中心存储器中更新后的中心特征更新上述第一伪标签集包括：将上述样本存储器中更新后的前景特征输入上述第一动作定位模型的分类器中，输出成本矩阵，其中，上述成本矩阵反映每个候选伪标签分配给上述样本视频的概率；利用上述样本存储器中更新后的前景特征和上述中心存储器中更新后的中心特征确定相似性矩阵，其中，上述相似性矩阵反映上述样本视频和上述中心特征之间的相似性；利用上述成本矩阵和上述相似性矩阵更新上述第一伪标签集。

根据本发明的实施例，为了实现伪标签的“一致”属性，将成本矩阵P设计为类分布概率矩阵，其计算公式如下：

（3）

其中，f _cls表示模型的当前分类器，

表示样本存储器中第i个样本的前景特征。与硬的伪标签不同，P可以反映将每个候选伪标签分配给每个样本视频的概率。伪标签每T 次迭代更新一次，这意味着模型参数已经被伪标签更新T次了。因此，P可以记录每个类的语义信息。

根据本发明的实施例，为了实现伪标签的“紧凑”特性，将正则化项S设计为样本中心的相似性矩阵，该相似性矩阵用样本存储器中的前景特征和中心存储器中的中心特征来通过如下公式计算得到的：

（4）

其中，

是温度参数，i表示第i个样本视频，j表示第i个样本视频的类别标签，

表示样本存储器中第i个样本视频的前景特征；

表示中心存储器中第i个样本视频对应的伪标签，T表示转置。相似矩阵反映了每个样本视频和每个中心特征之间的相似性，因此可以鼓励算法将每个样本视频划分到具有高中心相似性的类别中。为了鼓励“均匀”属性，还可以直接将目标标签分布设置为均匀分布。这种约束要求不同类的伪标签数量大致相同。

根据本发明的实施例，利用上述成本矩阵和上述相似性矩阵更新上述第一伪标签集包括，利用Sinkhorn-Knopp算法求解最优传输问题来获得最优伪标签Q _OT，可以通过如下公式计算：

（5）

其中，Q _OT为伪标签，

,

为归一化向量。

根据本发明的实施例，传统的最优传输方法不是为无监督时域动作定位量身定制的，因此本发明提出了一种称为视频标记最优传输(V2L-OT)的最优传输变体，以成本矩阵

、正则化矩阵

、源视频分布向量

和目标分布向量

作为输入，得到如下公式：

（6）

其中，

Q表示伪标签；

；

N表示视频数目；

C表示动作类别数；

1_N和1_C分别表示维数为N和C的全1向量；

源视频分布向量D _S可以设置为

。

根据本发明的实施例，上述动作定位模型的训练方法还包括：在上述对样本视频集中样本视频的样本特征数据进行聚类分析之前，按照预设方式对上述样本视频进行划分，得到L个视频片段，其中，L≥1；将上述L个视频片段输入到预设的特征提取网络中，输出L个特征向量；将上述L个特征向量堆叠，得到与上述样本视频对应的样本特征数据。

根据本发明的实施例，对于每个样本视频V，首先将其划分为不重叠的16帧片段

，其中，v _i表示第i个视频片段，W表示样本视频帧的宽，H表示样本视频帧的高，L表示当前样本视频中的视频片段的数量；然后，将每个视频片段v _i输入到预先训练的特征提取网络(例如，I3D)中，生成1024维特征向量x _i；之后将L个片段的特征向量堆叠在一起，形成样本视频对应的样本特征数据X=[x ₁ ,x ₂ , … , x _L]。

根据本发明的实施例，由于样本视频没有任何类别标注信息，首先需要对样本视频的样本特征数据进行谱聚类，将这些样本视频划分为C个初始伪类，生成第一伪标签集；然后利用第一伪标签和样本视频集进行模型训练，然后解决从视频空间到标签空间的最优传输问题来更新伪标签集，这个过程重复直到收敛。

根据本发明的实施例，上述利用上述样本视频集中样本视频的样本特征数据和上述第一伪标签集中的伪标签对初始动作定位模型进行训练，得到第一动作定位模型包括：将上述样本视频集中样本视频的样本特征数据和上述第一伪标签集中的伪标签输入上述初始动作定位模型，生成与上述样本视频对应的前景特征和背景特征；将上述前景特征和上述背景特征输入分类器，得到与上述前景特征对应的前景分类分数和与上述背景特征对应的背景分类分数；将上述前景分类分数、背景分类分数和与上述样本视频对应的伪标签输入损失函数，得到损失结果；根据上述损失结果调整上述初始动作定位模型的模型参数，得到训练后的上述第一动作定位模型。

图2示意性示出了根据本发明实施例的动作定位模型的结构图。

如图2所示，本实施例的动作定位模型包括适应层201、注意力层202、特征聚合203和分类器204。

在本实施例中，向动作定位模型中输入具有L个视频片段的样本视频，首先通过适应层201来学习任务感知，得到任务感知特征

，

（7）

其中，卷积核大小设置为3，输出通道设置为512。

为了提取每个样本视频的区别性前景特征，利用注意力层202过滤样本视频的背景部分，得到每个视频片段属于动作片段的概率A ₁ ,A ₂ , … , A _L，其中，A为前景注意力权重，公式如下：

（8）

其中，

为sigmoid激活函数，

。

利用任务感知特征

和前景注意力权重A经过特征聚合203，得到前景特征X ^{f g}和背景特征X ^bg，公式如下：

（9）

（10）

其中，A _i表示第i个视频片段的前景注意力权重；

表示第i个视频片段的任务感知特征。

将前景特征X ^{f g}和背景特征X ^bg输入到分类器204中，以获得与前景特征对应的前景分类分数

和与背景特征对应的背景分类分数

。将前景分类分数Y ^{f g}、背景分类分数Y ^{b g}和样本视频对应的伪标签

输入分类损失函数得到分类损失，分类损失函数如下：

（11）；

其中，α用于平衡前景特征和背景特征的分类损失，在本实施例中设置为0.1。

根据本发明的实施例，该前景特征X ^fg会被用来更新样本存储M ^s和类心存储M ^c，以便于对伪标签进行一致性约束、紧凑约束和均匀性约束，从而得到最优伪标签。

根据本发明的实施例，除了分类损失之外，还添加了注意力损失，以学习更好的注意力权重，注意力损失函数如下：

（12）

其中，

是基于阈值的二值化函数, A*表示另一模态模型产生的注意力权重(例如，在训练RGB模型时，A*来自FLOW模型，反之亦然)。基于上述分类损失和注意力损失，网络由总损失训练为：

（13）；

根据总损失得出的损失结果训练初始动作定位模型，得到最终动作定位模型。

图3示意性示出了根据本发明实施例的动作定位方法的流程图。

如图3所示，该动作定位方法包括操作S301~S304。

需要说明的是，本实施例的动作定位方法基于训练方法训练得到的最终动作定位模型来实现。

在操作S301，将目标视频按照预设方式进行划分，得到K个视频片段，其中，K≥1。

在操作S302，对上述K个视频片段进行特征提取，得到上述目标视频的特征数据。

在操作S303，将上述目标视频的特征数据输入上述最终动作定位模型，输出伪标签概率矩阵和动作概率矩阵，其中，上述伪标签概率矩阵包括上述K个视频片段中每个视频片段属于每个伪标签的概率值，上述动作概率矩阵包括上述K个视频片段中每个视频片段属于动作片段的概率值。

在操作S304，根据上述伪标签概率矩阵和上述动作概率矩阵确定与上述目标视频对应的动作定位结果。

根据本发明的实施例，上述根据上述伪标签概率矩阵和上述动作概率矩阵确定与上述目标视频对应的动作定位结果包括：根据第二预设阈值对上述动作概率矩阵进行二值化处理，得到二值化矩阵；根据上述二值化矩阵和预设合并规则合并上述视频片段，得到动作视频；根据与上述动作视频对应的视频片段和上述伪标签概率矩阵确定与上述动作视频对应的伪标签；根据上述动作视频和与上述动作视频对应的伪标签生成上述动作定位结果。

需要说明的是，本发明实施例中的流程图所示的操作除非明确说明不同操作之间存在执行的先后顺序，或者不同操作在技术实现上存在执行的先后顺序，否则，多个操作之间的执行顺序可以不分先后，多个操作也可以同时执行。

基于上述动作定位模型的训练方法，本发明还提供了一种动作定位模型的训练装置。以下将结合图4对该装置进行详细描述。

图4示意性示出了根据本发明实施例的动作定位模型的训练装置的结构框图。

如图4所示，该实施例的动作定位模型的训练装置400包括聚类分析模块410、初始训练模块420、更新模块430、循环训练模块440和执行模块450。

聚类分析模块410用于对样本视频集中样本视频的样本特征数据进行聚类分析，得到第一伪标签集，其中，上述第一伪标签集包括与上述样本视频对应的伪标签。在一实施例中，聚类分析模块410可以用于执行前文描述的操作S101，在此不再赘述。

初始训练模块420用于利用上述样本视频集中样本视频的样本特征数据和上述第一伪标签集中的伪标签对初始动作定位模型进行训练，得到第一动作定位模型。在一实施例中，初始训练模块420可以用于执行前文描述的操作S102，在此不再赘述。

更新模块430用于根据更新系数和当前前景特征更新上述第一伪标签集，得到第二伪标签集，其中，上述当前前景特征为在对上述初始动作定位模型训练过程中对上述样本视频进行处理得到的。在一实施例中，更新模块430可以用于执行前文描述的操作S103，在此不再赘述。

循环训练模块440用于在确定上述第二伪标签集不满足预设条件的情况下，利用上述样本视频集中样本视频的样本特征数据和上述第二伪标签集中的伪标签对上述第一动作定位模型进行训练，得到第二动作定位模型。在一实施例中，循环训练模块440可以用于执行前文描述的操作S104，在此不再赘述。

执行模块450用于循环执行更新模块和循环训练模块中的操作以循环更新伪标签集，直到得到的第i伪标签集满足上述预设条件时，结束训练，得到最终动作定位模型。在一实施例中，执行模块450可以用于执行前文描述的操作S105，在此不再赘述。

根据本发明的实施例，聚类分析模块410、初始训练模块420、更新模块430、循环训练模块440和执行模块450中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，聚类分析模块410、初始训练模块420、更新模块430、循环训练模块440和执行模块450中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，聚类分析模块410、初始训练模块420、更新模块430、循环训练模块440和执行模块450中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

基于上述动作定位方法，本发明还提供了一种动作定位装置。以下将结合图5对该装置进行详细描述。

图5示意性示出了根据本发明实施例的动作定位装置的结构框图。

如图5所示，该实施例的动作定位装置500包括划分模块510、提取模块520、输入模块530、确定模块540。

划分模型，用于将目标视频按照预设方式进行划分，得到K个视频片段，其中，K≥1。

提取模块，用于对上述K个视频片段进行特征提取，得到上述目标视频的特征数据。

输入模块，用于将上述目标视频的特征数据输入上述最终动作定位模型，输出伪标签概率矩阵和动作概率矩阵，其中，上述伪标签概率矩阵包括上述K个视频片段中每个视频片段属于每个伪标签的概率值，上述动作概率矩阵包括上述K个视频片段中每个视频片段属于动作片段的概率值。

确定模块，用于根据上述伪标签概率矩阵和上述动作概率矩阵确定与上述目标视频对应的动作定位结果。

根据本发明的实施例，划分模块510、提取模块520、输入模块530、确定模块540中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，划分模块510、提取模块520、输入模块530、确定模块540中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，划分模块510、提取模块520、输入模块530、确定模块540中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

本发明的实施例的可应用于视频行为定位、检索相关的应用系统中，对于给定的大量无类别标签的视频分配类别伪标签，并对相应的动作类别进行精确定位。在实施上，可以以软件形式嵌入到移动设备中，提供实时分析结果；也可以安装在后台服务器中，提供大批量视频处理结果。

如图6所示，根据本发明实施例的电子设备600包括处理器601，其可以根据存储在只读存储器（ROM）602中的程序或者从存储部分608加载到随机访问存储器（RAM）603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC））等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 603中，存储有电子设备600操作所需的各种程序和数据。处理器 601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，电子设备600还可以包括输入/输出（I/O）接口605，输入/输出（I/O）接口605也连接至总线604。电子设备600还可以包括连接至I/O接口605的以下部件中的一项或多项：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本发明的实施例，计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。

本发明的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本发明实施例所提供的动作定位模型的训练方法。

在该计算机程序被处理器601执行时执行本发明实施例的系统/装置中限定的上述功能。根据本发明的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分609被下载和安装，和/或从可拆卸介质611被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时，执行本发明实施例的系统中限定的上述功能。根据本发明的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本发明的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

以上对本发明的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本发明的范围之内。

Claims

1.一种动作定位模型的训练方法，包括：

操作1，对样本视频集中样本视频的样本特征数据进行聚类分析，得到第一伪标签集，其中，所述第一伪标签集包括与所述样本视频对应的伪标签；

操作2，利用所述样本视频集中样本视频的样本特征数据和所述第一伪标签集中的伪标签对初始动作定位模型进行训练，得到第一动作定位模型；

操作3，根据更新系数和当前前景特征更新所述第一伪标签集，得到第二伪标签集，其中，所述当前前景特征为在对所述初始动作定位模型训练过程中对所述样本视频进行处理得到的；

操作4，在确定所述第二伪标签集不满足预设条件的情况下，利用所述样本视频集中样本视频的样本特征数据和所述第二伪标签集中的伪标签对所述第一动作定位模型进行训练，得到第二动作定位模型；

操作5，循环执行操作3和操作4以循环更新伪标签集，直到得到的第i伪标签集满足所述预设条件时，结束训练，得到最终动作定位模型。

2.根据权利要求1所述的方法，其中，所述根据更新系数和当前前景特征更新所述第一伪标签集包括：

根据所述更新系数和所述当前前景特征更新样本存储器和中心存储中的特征，得到更新后的前景特征和更新后的中心特征，其中，所述样本存储器用于存储与所述样本视频对应的历史前景特征，所述中心存储器用于存储与每个伪标签对应的历史中心特征；

根据所述样本存储器中更新后的前景特征和所述中心存储器中更新后的中心特征更新所述第一伪标签集。

3.根据权利要求2所述的方法，其中，所述根据所述样本存储器中更新后的前景特征和所述中心存储器中更新后的中心特征更新所述第一伪标签集包括：

将所述样本存储器中更新后的前景特征输入所述第一动作定位模型的分类器中，输出成本矩阵，其中，所述成本矩阵反映每个候选伪标签分配给所述样本视频的概率；

利用所述样本存储器中更新后的前景特征和所述中心存储器中更新后的中心特征确定相似性矩阵，其中，所述相似性矩阵反映所述样本视频和所述中心特征之间的相似性；

利用所述成本矩阵和所述相似性矩阵更新所述第一伪标签集。

4.根据权利要求1所述的方法，其中，所述预设条件包括在所述第i伪标签集中的伪标签与第i-1伪标签集中的伪标签相同时，结束训练。

5.根据权利要求1所述的方法，还包括：

在所述对样本视频集中样本视频的样本特征数据进行聚类分析之前，按照预设方式对所述样本视频进行划分，得到L个视频片段，其中，L≥1；

将所述L个视频片段输入到预设的特征提取网络中，输出L个特征向量；

将所述L个特征向量堆叠，得到与所述样本视频对应的样本特征数据。

6.根据权利要求5所述的方法，其中，所述利用所述样本视频集中样本视频的样本特征数据和所述第一伪标签集中的伪标签对初始动作定位模型进行训练，得到第一动作定位模型包括：

将所述样本视频集中样本视频的样本特征数据和所述第一伪标签集中的伪标签输入所述初始动作定位模型，生成与所述样本视频对应的前景特征和背景特征；

将所述前景特征和所述背景特征输入分类器，得到与所述前景特征对应的前景分类分数和与所述背景特征对应的背景分类分数；

将所述前景分类分数、背景分类分数和与所述样本视频对应的伪标签输入损失函数，得到损失结果；

根据所述损失结果调整所述初始动作定位模型的模型参数，得到训练后的所述第一动作定位模型。

7.一种动作定位方法，其中，所述方法基于如权利要求1至6任一项所述的训练方法训练得到的最终动作定位模型来实现；

所述动作定位方法包括：

对所述K个视频片段进行特征提取，得到所述目标视频的特征数据；

将所述目标视频的特征数据输入所述最终动作定位模型，输出伪标签概率矩阵和动作概率矩阵，其中，所述伪标签概率矩阵包括所述K个视频片段中每个视频片段属于每个伪标签的概率值，所述动作概率矩阵包括所述K个视频片段中每个视频片段属于动作片段的概率值；

根据所述伪标签概率矩阵和所述动作概率矩阵确定与所述目标视频对应的动作定位结果。

8.根据权利要求7所述的方法，其中，所述根据所述伪标签概率矩阵和所述动作概率矩阵确定与所述目标视频对应的动作定位结果包括：

根据第二预设阈值对所述动作概率矩阵进行二值化处理，得到二值化矩阵；

根据所述二值化矩阵和预设合并规则合并所述视频片段，得到动作视频；

根据与所述动作视频对应的视频片段和所述伪标签概率矩阵确定与所述动作视频对应的伪标签；

根据所述动作视频和与所述动作视频对应的伪标签生成所述动作定位结果。

9.根据权利要求8所述的方法，其中，所述预设合并规则包括：将所述K个视频片段中属于动作片段的连续视频片段进行合并。

10.一种动作定位模型的训练装置，包括：

聚类分析模块，用于对样本视频集中样本视频的样本特征数据进行聚类分析，得到第一伪标签集，其中，所述第一伪标签集包括与所述样本视频对应的伪标签；

初始训练模块，用于利用所述样本视频集中样本视频的样本特征数据和所述第一伪标签集中的伪标签对初始动作定位模型进行训练，得到第一动作定位模型；

更新模块，用于根据更新系数和当前前景特征更新所述第一伪标签集，得到第二伪标签集，其中，所述当前前景特征为在对所述初始动作定位模型训练过程中对所述样本视频进行处理得到的；

循环训练模块，用于在确定所述第二伪标签集不满足预设条件的情况下，利用所述样本视频集中样本视频的样本特征数据和所述第二伪标签集中的伪标签对所述第一动作定位模型进行训练，得到第二动作定位模型；

执行模块，用于循环执行更新模块和循环训练模块中的操作以循环更新伪标签集，直到得到的第i伪标签集满足所述预设条件时，结束训练，得到最终动作定位模型。