CN116310966B

CN116310966B - 视频动作定位模型训练方法、视频动作定位方法和系统

Info

Publication number: CN116310966B
Application number: CN202310174096.2A
Authority: CN
Inventors: 马华东; 齐梦实; 员武莲
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-12-19
Anticipated expiration: 2043-02-23
Also published as: CN116310966A

Abstract

本申请提供视频动作定位模型训练方法、视频动作定位方法和系统，方法包括：将视频样本中视频片段对应的片段特征输入分类器，以输出视频样本的第一动作定位结果数据；采用注意力机制在各个视频片段的片段特征之间分别针对每个视频样本内部以及相同类别的各个视频样本之间进行信息交互，并基于信息交互结果生成视频样本的第二动作定位结果数据；将该结果数据作为伪标签对第一动作定位结果数据进行监督以对分类器进行模型训练。本申请能够保留视频样本中更丰富的信息，能够生成更准确的伪标签来监督模型训练，进而能够有效提高训练得到的视频动作定位模型的性能以及采用视频动作定位模型进行视频动作定位的结果准确性及可靠性。

Description

视频动作定位模型训练方法、视频动作定位方法和系统

技术领域

本申请涉及计算机视觉技术领域，尤其涉及视频动作定位模型训练方法、视频动作定位方法和系统。

背景技术

随着移动互联网的普及(数据传输速度快)和移动设备的快速发展(拍摄视频或者图像需求增加，设备储存空间大等)，在工业生产和现实生活中多种不同的场景下产生了大量的视频数据，因此如何快速充分对视频内容进行理解从而对其进行管理分析以及处理是一个巨大的挑战，如视频推荐，视频检索等任务。视频时序动作定位(Temporal ActionLocalization，TAL)作为自动化视频理解的一项重要任务而备受关注，该任务的主要目的旨在通过预测视频中相应的动作开始时间、结束时间和动作类别标签来发现视频中的动作实例，精确的动作定位有利于提高视频时序动作序列质量评估的性能，辅助其更好的解析视频中的动作步骤，获取更多的细节信息。动作定位有着广泛的应用前景，例如自动驾驶、医疗看护、监控、视频检索等。

目前，为了获取更为精确的定位性能，现有技术大多利用全监督的方法从人工标注的数据中进行学习，然而详细的数据标注的过程繁重且昂贵，相比之下弱监督(WeaklySupervised Temporal Action Localization，W-TAL)的方法则可以利用视频的粗粒度动作分类标签进行相应的学习，其获取成本相对较低且更为方便。然而，现有的弱监督的算法大多利用多实例学习得到的初步分类结果预测潜在的动作片段，然而这种初步分类的结果并不准确，无法满足视频动作定位模型的应用准确性要求。

发明内容

鉴于此，本申请实施例提供了视频动作定位模型训练方法、视频动作定位方法和系统，以消除或改善现有技术中存在的一个或更多个缺陷。

本申请的一个方面提供了一种视频动作定位模型训练方法，包括：

将各个视频样本中的多个互不重叠的视频片段各自对应的片段特征输入预设的分类器，以使该分类器分别输出各个所述视频样本各自对应的第一动作定位结果数据；

采用注意力机制在各个所述视频片段的片段特征之间分别针对每个所述视频样本内部以及相同类别的各个视频样本之间进行信息交互，并基于对应的信息交互结果生成各个所述视频样本各自对应的第二动作定位结果数据；

将所述第二动作定位结果数据作为伪标签对所述第一动作定位结果数据进行监督以对所述分类器进行模型训练，得到对应的视频动作定位模型。

在本申请的一些实施例中，所述采用注意力机制在各个所述视频片段的片段特征之间分别针对每个所述视频样本内部以及相同类别的各个视频样本之间进行信息交互，并基于对应的信息交互结果生成各个所述视频样本各自对应的第二动作定位结果数据，包括：

将各个所述视频片段各自对应的片段特征，分别划分为动作片段特征和非动作片段特征；

采用注意力机制，对每个所述视频样本各自对应的各个所述片段特征、动作片段特征和非动作片段特征进行视频样本内部的信息交互，以生成每个所述视频样本自身对应的各个类内信息交互片段特征；

在各个所述动作片段特征中选取多个，以作为代表性动作片段特征，并采用注意力机制，对各个所述代表性动作片段特征和所述类内信息交互片段特征进行动作类别相同的视频样本之间的信息交互，以生成各个类间信息交互片段特征；

将各个所述类内信息交互片段特征和所述类间信息交互片段特征分别输入所述分类器以生成各个所述视频样本分别对应的第二动作定位结果数据。

在本申请的一些实施例中，所述将各个所述视频片段各自对应的片段特征，分别划分为动作片段特征和非动作片段特征，包括：

在各个所述视频片段各自对应的片段特征中，分别计算时序相邻的两个视频片段各自对应的片段特征之间的预测值，并将该预测值作为时序相连的两个视频片段中的前一个视频片段的预测值；

按预测值从大到小的顺序对各个所述视频片段各自对应的片段特征的排序；

在排序后的各个所述视频片段各自对应的片段特征中提取前预设阈值数量的片段特征作为动作片段特征，并将未提取的片段特征划分为非动作片段特征。

在本申请的一些实施例中，所述在各个所述动作片段特征中选取多个，以作为代表性动作片段特征，并采用注意力机制，对各个所述代表性动作片段特征和所述类内信息交互片段特征进行动作类别相同的视频样本之间的信息交互，以生成各个类间信息交互片段特征，包括：

按预测值从大到小的顺序，在各个所述动作片段特征中选取多个，以分别作为代表性动作片段特征；

将各个所述代表性动作片段特征存储至预设的存储器中，以使该存储器将当前存储的各个所述代表性动作片段特征经过分类器得到的预测值分别与预存储至该存储器中的同类别的代表性动作片段特征经过分类器得到的预测值进行比较，并在相同类别的动作片段特征中保留预测值较高的一个；

采用注意力机制，对所述类内信息交互片段特征和所述存储器中的各个所述代表性动作片段特征进行动作类别相同的视频样本之间的信息交互，以生成各个类间信息交互片段特征。

在本申请的一些实施例中，在所述将各个视频样本中的多个互不重叠的视频片段各自对应的片段特征输入预设的分类器之前，还包括：

获取多个视频样本；

将各个所述视频样本分别分割成多个互不重叠的视频片段；

基于预训练的特征提取模型分别提取各个所述视频片段的片段特征，其中，每个所述片段特征均对应设置有类别标签。

本申请的另一个方面提供了一种视频动作定位方法，包括：

提取目标视频的片段特征；

将所述目标视频的片段特征输入预先基于所述的视频动作定位模型训练方法训练得到的所述分类器中，以使该分类器输出所述目标视频的动作定位结果数据，其中，所述目标视频的动作定位结果数据包括：所述目标视频中出现动作片段的起始时间、结束时间和所属类别。

本申请的第三个方面提供了一种视频动作定位模型训练系统，包括：

分类模块，用于将各个视频样本中的多个互不重叠的视频片段各自对应的片段特征输入预设的分类器，以使该分类器分别输出各个所述视频样本各自对应的第一动作定位结果数据；

注意力机制模块，用于采用注意力机制在各个所述视频片段的片段特征之间分别针对每个所述视频样本内部以及相同类别的各个视频样本之间进行信息交互，并基于对应的信息交互结果生成各个所述视频样本各自对应的第二动作定位结果数据；

监督训练模块，用于将所述第二动作定位结果数据作为伪标签对所述第一动作定位结果数据进行监督以对所述分类器进行模型训练，得到对应的视频动作定位模型。

本申请的第四个方面提供了一种视频动作定位系统，包括：

特征提取模块，用于提取目标视频的片段特征；

动作定位模块，用于将所述目标视频的片段特征输入预先基于所述的视频动作定位模型训练方法训练得到的所述分类器中，以使该分类器输出所述目标视频的动作定位结果数据，其中，所述目标视频的动作定位结果数据包括：所述目标视频中出现动作片段的起始时间、结束时间和所属类别。

本申请的第五个方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的视频动作定位模型训练方法，或者，实现所述的视频动作定位方法。

本申请的第六个方面提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的视频动作定位模型训练方法，或者，实现所述的视频动作定位方法。

本申请提供的视频动作定位模型训练方法，通过将各个视频样本中的多个互不重叠的视频片段各自对应的片段特征输入预设的分类器，以使该分类器分别输出各个所述视频样本各自对应的第一动作定位结果数据；采用注意力机制在各个所述视频片段的片段特征之间分别针对每个所述视频样本内部以及相同类别的各个视频样本之间进行信息交互，并基于对应的信息交互结果生成各个所述视频样本各自对应的第二动作定位结果数据；将所述第二动作定位结果数据作为伪标签对所述第一动作定位结果数据进行监督以对所述分类器进行模型训练，得到对应的视频动作定位模型，能够在避免繁重且昂贵的详细数据标注过程的基础上，保留视频样本中更丰富的信息，能够生成更准确的伪标签来监督模型训练，进而能够有效提高训练得到的视频动作定位模型的性能，同时能够有效提高视频动作定位模型训练过程的效率及便捷性，并能够有效节省人力成本，进而能够提高采用视频动作定位模型进行视频动作定位的结果准确性及可靠性。

本申请的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本申请的实践而获知。本申请的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本申请实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本申请能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，并不构成对本申请的限定。附图中的部件不是成比例绘制的，而只是为了示出本申请的原理。为了便于示出和描述本申请的一些部分，附图中对应部分可能被放大，即，相对于依据本申请实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1为本申请一实施例中的视频动作定位模型训练方法的第一种流程示意图。

图2为本申请一实施例中的视频动作定位模型训练方法的第二种流程示意图。

图3为本申请一实施例中的视频动作定位模型训练方法的第三种流程示意图。

图4为本申请另一实施例中的视频动作定位方法的流程示意图。

图5为本申请第三个实施例中的视频动作定位模型训练系统的结构示意图。

图6为本申请第四个实施例中的视频动作定位系统的结构示意图。

图7为本申请应用实例中提供的视频动作定位模型训练方法的流程示意图。

图8为本申请应用实例中提供的视频动作定位模型训练系统的逻辑举例示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本申请做进一步详细说明。在此，本申请的示意性实施方式及其说明用于解释本申请，但并不作为对本申请的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本申请，在附图中仅仅示出了与根据本申请的方案密切相关的结构和/或处理步骤，而省略了与本申请关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本申请的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

在弱监督的算法中，大多数方法认为“动作片段信息可以为视频级别的动作分类提供更多的依据”，因此如何找到视频中的动作片段信息为模型训练提供更多的内容是关键问题。例如ASM-Loc(Action-aware Segment Modeling for Weakly-SupervisedTemporal Action Localization)通过使用标准的基于多实例学习的方法生成动作建议从而生成伪标签。还有学者利用代表性的动作片段来生成伪标签指导模型的训练。还有学者利用一种新的对比学习策略，以实现动作背景分离以及类内紧凑性和类间可分离性。

可以理解的是，ASM-Loc利用多实例学习方法(Multiple Instance Learning，MIL)产生的分类结果生成潜在的动作建议，然后在这些动作信息的基础上进行特征提取、特征建模和预测。

然而现有的弱监督的算法大多利用多实例学习得到的初步分类结果预测潜在的动作片段，从而使模型关注更多的动作片段信息以提高模型的动作定位能力，然而这种初步分类的结果并不准确。因而本申请的目的在于利用新的思路去生成动作片段，从而使后续模型有重点关注的内容提高动作定位的能力。

基于此，本申请提供的视频动作定位模型训练方法，在特征建模阶段考虑视频自身信息提出了各个视频样本内部和相同类别的各个视频样本之间的注意力机制，以捕获动作段内和跨动作段之间的时间结构。

在本申请的一个或多个实施例中，视频时序动作定位(Temporal ActionLocalization，TAL)是指一种视频理解任务，主要目的是预测给定一段视频中的动作类别以及动作的开始和结束时间。

在本申请的一个或多个实施例中，多实例学习(Multiple Instance Learning，MIL)是指将整个未修剪的视频视为包含多个动作片段的集合，其中每一个动作看成一个实例，对多个实例进行模型的学习。

在本申请的一个或多个实施例中，所述视频动作定位模型训练方法也可以称之为：基于视频动作特征变化与交互的弱监督视频动作定位模型训练方法，还可以称之为：基于语义类别信息交互的弱监督视频动作定位模型训练方法。

在本申请的一个或多个实施例中，所述视频动作定位方法也可以称之为：基于视频动作特征变化与交互的弱监督视频动作定位方法，还可以称之为：基于语义类别信息交互的弱监督视频动作定位方法。

具体通过下述实施例进行详细说明。

为了有效提高无监督的频动作定位模型训练过程的准确性、效率及可靠性，本申请实施例提供一种可由视频动作定位模型训练系统实现的视频动作定位模型训练方法，参见图1，所述视频动作定位模型训练方法具体包含有如下内容：

步骤100：将各个视频样本中的多个互不重叠的视频片段各自对应的片段特征输入预设的分类器，以使该分类器分别输出各个所述视频样本各自对应的第一动作定位结果数据。

可以理解的是，所述视频样本是指自历史视频数据中获取的视频样本。且每个视频样本中的多个互不重叠的视频片段均设有其对应的粗粒度标签以用于训练弱监督模型，其中，所述粗粒度标签具体是指视频样本对应的类别标签，所述类别标签用于表示当前视频样本中动作片段的所属类别，若包含动作片段，则所述视频以动作片段所属的动作类别进行标识。所述动作类别可以采用视频分类常用数据集进行标识，如HMDB51的51类动作或者UCF101的101类动作等等。

在本申请的一个或多个实施例中，所述第一动作定位结果数据具体可以体现为一种时序动作类别概率分布图(Temporal Class Activation Maps，TCAMs)，是一种用于表示视频中某个动作的分类预测的概率分布图，从该时序动作类别概率分布图中可以得到其对应的视频样本中可能出现动作片段的起始时间、结束时间和所属类型的概率分布数据。

在本申请的一个或多个实施例中，视频动作定位分类器是指通过采用粗粒度标签以弱监督的方式训练分类器，通过设置伪标签来监督分类器的训练过程进而使得最终训练得到的分类器能够用于输出细粒度的分类结果。

在步骤100中，可以利用类不可知注意力分类器和多实例学习分类器对各个视频样本中的多个互不重叠的视频片段各自对应的片段特征进行分类，分别得到各个视频样本对应的时序动作类别概率分布图(TCAMs)：T^ca∈R^(C+1)×T和T^m∈R^(C+1)×T，其中，C+1表示动作类别以及背景类别，T表示片段个数，将T^ca和T^m两者统称为主支路(分类器所在支路)的时序动作类别概率分布图(TCAMs)T^b。类别不可知注意力分类器的损失函数L_CA以及多实例学习分类器的损失函数L_MIL如下：

其中，z∈R^C+1表示T^ca对应的真实标签，额外的背景类设置为0；z′∈R^C+1表示T^ca对应的真实标签，额外的背景类设置为1。A^ca∈R^C+1和A^m∈R^C+1，其中，C+1表示动作类以及背景类别，A^ca和A^m分别表示T^ca和T^m经过softmax的预测结果；L_CA表示类别不可知注意力分类器的损失函数；L_MIL表示多实例学习分类器的损失函数；R表示实数集。

步骤200：采用注意力机制在各个所述视频片段的片段特征之间分别针对每个所述视频样本内部以及相同类别的各个视频样本之间进行信息交互，并基于对应的信息交互结果生成各个所述视频样本各自对应的第二动作定位结果数据。

在步骤200中，采用注意力机制在各个所述视频片段的片段特征之间分别针对每个所述视频样本内部以及相同类别的各个视频样本之间进行信息交互，具体是指：先采用注意力机制在各个所述视频片段的片段特征之间针对每个所述视频样本内部进行信息交互，再次采用注意力机制在相同类别的各个视频样本之间进行信息交互。

也就是说，步骤200通过两次注意力机制的采用，能够保留更丰富的动作信息，进而生成更准确的伪标签来监督模型训练，最终能够提高训练得到的模型分类的结果准确性。

步骤300：将所述第二动作定位结果数据作为伪标签对所述第一动作定位结果数据进行监督以对所述分类器进行模型训练，得到对应的视频动作定位模型。

在本申请的一个或多个实施例中，所述第二动作定位结果数据具体也可以体现为一种时序动作类别概率分布图，从该时序动作类别概率分布图中可以得到其对应的视频样本中可能出现动作片段的起始时间、结束时间和所属类型的概率分布数据。

从上述描述可知，本申请实施例提供的视频动作定位模型训练方法，能够在避免繁重且昂贵的详细数据标注过程的基础上，保留视频样本中更丰富的信息，能够生成更准确的伪标签来监督模型训练，进而能够有效提高训练得到的视频动作定位模型的性能，同时能够有效提高视频动作定位模型训练过程的效率及便捷性，并能够有效节省人力成本，进而能够提高采用视频动作定位模型进行视频动作定位的结果准确性及可靠性。

为了进一步提高采用注意力机制进行信息交互的可靠性及有效性，在本申请实施例提供的一种视频动作定位模型训练方法中，参见图2，所述视频动作定位模型训练方法中的步骤200具体包含有如下内容：

步骤210：将各个所述视频片段各自对应的片段特征，分别划分为动作片段特征和非动作片段特征。

在本申请的一个或多个实施例中，所述动作片段特征可以指置信度高于或等于置信度阈值的动作片段特征，所述非动作片段特征可以指置信度低于置信度阈值的动作片段特征。可以理解的是，所述置信度阈值可以根据实际应用情形预先设置。

在本申请的一个或多个实施例中，所述视频片段各自对应的片段特征也可以称之为初始片段特征，同一个视频样本中的各个视频片段各自对应的片段特征具体包含有f₁、f₂、…f_T，其中，T为该视频样本中视频片段的总数。同一个视频样本中的各个视频片段各自对应的片段特征f₁、f₂、…f_n可以写为片段特征集合F，其中，F∈R^T×D，其中，R表示视频样本中的各个视频片段各自对应的片段特征的数据集，D代表2048维度。

在本申请的一个或多个实施例中，一个视频样本中的各个动作片段特征包含有f_i-1、f_i、…f_k，其中，i为大于1的正整数，k为该视频样本中动作片段特征的总数，一个视频样本中的各个动作片段特征f_i-1、f_i、…f_k也可以写为动作片段特征集合F^A，其中，

在本申请的一个或多个实施例中，一个视频样本中的各个非动作片段特征包含有f_j-1、f_j、…f_T-k，一个视频样本中的各个非动作片段特征f_j-1、f_j、…f_T-k也可以写为非动作片段特征集合F^B，其中，表示特征拼接操作。

步骤220：采用注意力机制，对每个所述视频样本各自对应的各个所述片段特征、动作片段特征和非动作片段特征进行视频样本内部的信息交互，以生成每个所述视频样本自身对应的各个类内信息交互片段特征。

在步骤220中，将高置信度的动作特征集合F^A和低置信度的动作特征集合F^B与片段特征集合F之间利用注意力机制的形式进行信息之间的交互，从而增加高置信度的动作特征的影响，并降低低置信度的动作特征的影响，从而得到包含更多动作信息的各个类内信息交互片段特征，即：可以包含有各个类内信息交互片段特征的集合F′。

其中，表示矩阵点乘，δ表示平衡超参数。

步骤230：在各个所述动作片段特征中选取多个，以作为代表性动作片段特征，并采用注意力机制，对各个所述代表性动作片段特征和所述类内信息交互片段特征进行动作类别相同的视频样本之间的信息交互，以生成各个类间信息交互片段特征。

在本申请的一个或多个实施例中，且代表性动作片段特征分别在各个视频样本的动作片段特征集合F^A中选取N个，形成包含有N*C个代表性动作片段特征的代表性动作片段特征集合F^M，其中，C为视频样本的总类别数，且F^M∈R^C×D，其中C表示类别，D表示特征维度。

步骤240：将各个所述类内信息交互片段特征和所述类间信息交互片段特征分别输入所述分类器以生成各个所述视频样本分别对应的第二动作定位结果数据。

可以理解的是，步骤240的具体实现方式可以采用步骤100的分类器实现。

为了进一步提高区分动作片段和非动作片段的准确性及有效性，在本申请实施例提供的一种视频动作定位模型训练方法中，参见图3，所述视频动作定位模型训练方法中的步骤210还具体包含有如下内容：

步骤211：在各个所述视频片段各自对应的片段特征中，分别计算时序相邻的两个视频片段各自对应的片段特征之间的预测值，并将该预测值作为时序相连的两个视频片段中的前一个视频片段的预测值。

在本申请的一个或多个实施例中，所述预测值具体可以指能够用于预测不同的片段特征之间相关度的参数值，例如可以采用亲和度值作为预测值，也可以采用其他能够表示特征之间相关度的参数值。

例如，以采用亲和度值作为预测值进行举例，在步骤211中，对个所述视频片段各自对应的片段特征F∈R^T×D计算每个时序相邻片段对之间的亲和度A_(t-1，t)：

其中，f_t-1，f_t(f_t∈F，t∈T)分别表示相邻的片段特征，d∈D表示特征维度。

随后得到整个视频的每个时间邻域片段对的亲和度A为：

A＝{A_(1，2)，...，A_(i-1，i)，...，A_(t-1，t)}

其中t，i∈T，表示视频的第t个或第i个视频段特征。

步骤212：按预测值从大到小的顺序对各个所述视频片段各自对应的片段特征的排序。

步骤213：在排序后的各个所述视频片段各自对应的片段特征中提取前预设阈值数量的片段特征作为动作片段特征，并将未提取的片段特征划分为非动作片段特征。

对得到的全部特征片段的亲和度数值进行排序，按照递减的顺序取前k个亲和度值对应的片段作为高置信度的动作特征，生成动作片段特征集合F^A，排序靠后的T-k个片段特征视为低置信度的动作特征，生成非动作片段特征集合为F^B。

为了进一步提高选取到的代表性动作片段特征的应用可靠性及有效性，在本申请实施例提供的一种视频动作定位模型训练方法中，参见图3，所述视频动作定位模型训练方法中的步骤230还具体包含有如下内容：

步骤231：按预测值从大到小的顺序，在各个所述动作片段特征中选取多个，以分别作为代表性动作片段特征。

在本申请的一个或多个实施例中，亲和力(Affinity)表示两种特征分布之间的相关性。

具体来说，首先将每个视频样本各自对应的动作片段特征集合F^A中亲和度值较高的N个片段当作代表性动作片段，将其存入到储存器中得到各个代表性动作片段特征，包含有各个代表性动作片段特征的集合F^M，F^M∈R^C×D，其中C表示类别，D表示特征维度。

步骤232：将各个所述代表性动作片段特征存储至预设的存储器中，以使该存储器将当前存储的各个所述代表性动作片段特征经过分类器得到的预测值分别与预存储至该存储器中的同类别的代表性动作片段特征经过分类器得到的预测值进行比较，并在相同类别的动作片段特征中保留预测值较高的一个。

值得注意的是，本方法在存储的过程中对储存器进行更新，将新进来的样本代表特征和存储器中储存的同类别的特征进行比较，亲和度值较高的保留。

步骤233：采用注意力机制，对所述类内信息交互片段特征和所述存储器中的各个所述代表性动作片段特征进行动作类别相同的视频样本之间的信息交互，以生成各个类间信息交互片段特征。

后将进行过类内信息交互后的特征集合F′中的各个类内信息交互片段特征和储存器中集合F^M相同类别的代表性片段之间进行信息交互得到包含有各个类间信息交互片段特征的集合F^J，从而充分利用整个数据集的信息。

F^J＝(F′·(F^M)^T)·F^M

其中，·表示矩阵点乘。

为了进一步提高视频动作定位模型训练过程的可靠性及有效性，在本申请实施例提供的一种视频动作定位模型训练方法中，参见图3，所述视频动作定位模型训练方法中的步骤100之前还具体包含有如下内容：

步骤010：获取多个视频样本。

步骤020：将各个所述视频样本分别分割成多个互不重叠的视频片段。

步骤030：基于预训练的特征提取模型分别提取各个所述视频片段的片段特征，其中，每个所述片段特征均对应设置有类别标签。

具体来说，给定一组训练视频样本，首先将每个训练视频样本分割成不重叠的片段，然后利用在Kineics-400数据集上预训练好的I3D模型以及TV-L1来分别提取视频RGB和运动(光流)信息，将每个片段转化成维度为2048的特征，随后得到每个视频的特征F∈R^T×D，其中T表示片段个数，D代表2048维度。F作为模型后续输入。

基于前述的视频动作定位模型训练方法，了进一步提高视频动作定位的准确性和可靠性，本申请还提供一种视频动作定位方法，参见图4，所述视频动作定位方法具体包含有如下内容：

步骤400：提取目标视频的片段特征。

步骤500：将所述目标视频的片段特征输入预先基于视频动作定位模型训练方法训练得到的所述分类器中，以使该分类器输出所述目标视频的动作定位结果数据，其中，所述目标视频的动作定位结果数据包括：所述目标视频中出现动作片段的起始时间、结束时间和所属类别。

在步骤500中，视频动作定位模型训练方法是指前述实施例提及的视频动作定位模型训练方法中的全部或部分步骤，其功能在此不再赘述，可以参照上述视频动作定位模型训练方法实施例的详细描述。

从上述描述可知，本申请实施例提供的视频动作定位方法，能够有效节省人力成本，进而能够提高采用视频动作定位模型进行视频动作定位的结果准确性及可靠性。

从软件层面来说，本申请还提供一种用于执行所述视频动作定位模型训练方法中全部或部分内的视频动作定位模型训练系统，参见图5，所述视频动作定位模型训练系统具体包含有如下内容：

分类模块10，用于将各个视频样本中的多个互不重叠的视频片段各自对应的片段特征输入预设的分类器，以使该分类器分别输出各个所述视频样本各自对应的第一动作定位结果数据；

注意力机制模块20，用于采用注意力机制在各个所述视频片段的片段特征之间分别针对每个所述视频样本内部以及相同类别的各个视频样本之间进行信息交互，并基于对应的信息交互结果生成各个所述视频样本各自对应的第二动作定位结果数据；

监督训练模块30，用于将所述第二动作定位结果数据作为伪标签对所述第一动作定位结果数据进行监督以对所述分类器进行模型训练，得到对应的视频动作定位模型。

本申请提供的视频动作定位模型训练系统的实施例具体可以用于执行上述实施例中的视频动作定位模型训练方法的实施例的处理流程，其功能在此不再赘述，可以参照上述视频动作定位模型训练方法实施例的详细描述。

所述视频动作定位模型训练系统进行视频动作定位模型训练的部分可以在服务器中执行，而在另一种实际应用情形中，也可以所有的操作都在客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器，用于视频动作定位模型训练的具体处理。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

上述服务器与所述客户端设备端之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

从上述描述可知，本申请实施例提供的视频动作定位模型训练系统，能够在避免繁重且昂贵的详细数据标注过程的基础上，保留视频样本中更丰富的信息，能够生成更准确的伪标签来监督模型训练，进而能够有效提高训练得到的视频动作定位模型的性能，同时能够有效提高视频动作定位模型训练过程的效率及便捷性，并能够有效节省人力成本，进而能够提高采用视频动作定位模型进行视频动作定位的结果准确性及可靠性。

从软件层面来说，本申请还提供一种用于执行所述视频动作定位方法中全部或部分内的视频动作定位系统，参见图6，所述视频动作定位系统具体包含有如下内容：

特征提取模块40，用于提取目标视频的片段特征；

动作定位模块50，用于将所述目标视频的片段特征输入预先基于视频动作定位模型训练方法训练得到的所述分类器中，以使该分类器输出所述目标视频的动作定位结果数据，其中，所述目标视频的动作定位结果数据包括：所述目标视频中出现动作片段的起始时间、结束时间和所属类别。

在动作定位模块50中，视频动作定位模型训练方法是指前述实施例提及的视频动作定位模型训练方法中的全部或部分步骤，其功能在此不再赘述，可以参照上述视频动作定位模型训练方法实施例的详细描述。

本申请提供的视频动作定位系统的实施例具体可以用于执行上述实施例中的视频动作定位方法的实施例的处理流程，其功能在此不再赘述，可以参照上述视频动作定位方法实施例的详细描述。

所述视频动作定位系统进行视频动作定位的部分可以在服务器中执行，而在另一种实际应用情形中，也可以所有的操作都在客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器，用于视频动作定位的具体处理。

从上述描述可知，本申请实施例提供的视频动作定位系统，能够有效提高视频动作定位过程的效率及便捷性，并能够有效节省人力成本，进而能够提高采用视频动作定位模型进行视频动作定位的结果准确性及可靠性。

为了进一步说明本方案，本申请还提供一种视频动作定位模型训练方法及系统的具体应用实例，尤其体现为一种基于语义类别信息交互的弱监督视频动作定位方法及系统，具体涉及计算机视觉的视频处理和理解技术领域。本申请应用实例提出以下两个方面的创新：

(1)利用视频的动作语义类别信息推导出不同片段之间的亲和度从而来区分动作片段和非动作片段，然后在不同片段之间利用注意力机制操作进行视频内部的信息交互，从而保留更为丰富的动作信息来生成更准确的视频动作定位细粒度伪标签指导模型训练；

(2)利用注意力机制进行相同类别视频之间的信息交互，从而充分利用整个数据集的动作信息生成准确的伪标签监督模型的训练，其中相同类别的视频会有不同的动作表现。

参见图7和图8，可以根据视频片段之间的差异获得不同的亲和力值(Affinity)，依据亲和力值得到高置信度的动作片段和低置信度的动作片段，然后对视频内部的信息和视频之间信息分别进行信息之间的交互，利用信息交互后的特征生成动作定位细粒度伪标签来监督的模型训练。

本申请应用实例提出的视频动作定位模型训练方法具体包含有如下内容：

S1.获取给定的训练视频集以及其所对应的标签集，输入到预训练好的网络中，获得每个训练视频的特征向量集合。

具体是指：给定一组训练视频样本，首先将每个训练视频样本分割成不重叠的片段，然后利用在Kineics-400数据集上预训练好的I3D模型以及TV-L1来分别提取视频RGB和运动(光流)信息，将每个片段转化成维度为2048的特征，随后得到每个视频的特征F∈R^T×D，其中T表示片段个数，D代表2048维度。F作为模型后续输入。

S2.利用分类器对片段级别的视频特征进行分类得到主支路的时序类激活序列。

具体是指：利用类不可知注意力分类器和多实例学习分类器对步骤1生成的特征F进行分类分别得到时序动作类别概率分布图(TCAMs)T^ca∈R^(C+1)×T和T^m∈R^(C+1)×T(其中C+1表示动作类以及背景类别，T表示片段个数)，将两者统称为主支路的时序动作类别概率分布图(TCAMs)T^b。类别不可知注意力分类器的损失函数L_CA以及多实例学习分类器的损失函数L_MIL如下：

其中z∈R^C+1表示T^ca对应的真实标签，额外的背景类设置为0；z′∈R^C+1表示T^ca对应的真实标签，额外的背景类设置为1。A^ca∈R^C+1和A^m∈R^C+1(其中C+1表示动作类以及背景类别)分别表示T^ca和T^m经过softmax的预测结果。

S3.利用所设计的亲和度模块，通过度量视频片段级别的特征之间的差异，得到相邻片段特征之间的亲和度。

具体是指：对步骤1生成的视频片段级别的特征F∈R^T×D计算每个时序相邻片段对之间的亲和度A_(t-1，t)。

其中f_t-1，f_t(f_t∈F，t∈T)分别表示相邻的片段特征，d∈D表示特征维度。随后得到整个视频的每个时间邻域片段对的亲和度为：

A＝{A_(1，2)，...，A_(i-1，i)，...，A_(t-1，t)}

其中t，i∈T，表示视频的第t个或第i个视频段特征。

S4.将亲和力数值较高的片段特征视为高置信度的动作特征F^A，亲和力较低的片段特征视为低置信度的动作特征F^B。

具体是指：对得到的全部特征片段的亲和度数值进行排序，按照递减的顺序取前k个亲和度值对应的片段作为高置信度的动作特征F^A，排序靠后的T-k个片段特征视为低置信度的动作特征F^B。

其中表示特征拼接操作，f_i，f_j分别表示片段特征。

S5.利用所设计的类内注意力机制模块，将高置信度的动作特征和低置信度的动作特征分别和视频片段级别的特征之间进行信息交互。

具体是指：将步骤4生成的高置信度的动作特征F^A和低置信度的动作特征F^B与步骤2生成视频特征F之间利用注意力机制的形式进行信息之间的交互，从而增加高置信度特征的影响，并降低低置信度动作特征的影响，从而得到包含更多动作信息的特征F′。

其中，表示矩阵点乘，δ表示平衡超参数。

S6.将每个样本的代表性动作片段特征存储到储存器中，将这些代表性特征和每个样本特征利用所设计的类间注意力机制模块进行信息交互。

具体是指：首先将步骤4中每个样本的动作片段中得分最高的N个片段当作代表性动作片段，将其存入到储存器中得到特征F^M∈R^C×D，其中C表示类别，D表示特征维度。值得注意的是，本方法在存储的过程中对储存器进行更新，将新进来的样本代表特征和存储器中储存的同类别的特征进行比较，得分较高的保留。随后将进行过步骤4类内信息交互后的每个样本特征和储存器中相同类别的代表性片段之间进行信息交互得到类间信息交互的特征F^J，从而充分利用整个数据集的信息。

F^J＝(F′·(F^M)^T)·F^M

其中，·表示矩阵点乘。

S7.利用分类器对经过类内和类间信息交互后的特征进行分类预测，得到时序类别激活序列，将其作为伪标签监督模型训练。

具体是指：将步骤5和步骤6生成的特征进行合并然后利用步骤2中的分类器进行分类结果预测，从而生成时序动作类别概率分布图(TCAMs)T^F∈R^(C+1)×T，将T^F作为伪标签来监督步骤2中主支路生成的T^b从而进行模型的训练。

训练的总损失函数为：L＝L_cls+αL_kd+βL_att。

L_cls＝L_CA+θL_MIL

L_kd＝-∑T^Flog(T^b)

其中L_cls表示分类损失函数，其目的在于生成时序动作类别概率分布图；L_kd表示蒸馏损失函数，目的在于利用伪标签监督主支路的预测结果进行训练；L_att表示注意力损失函数，目的在于提高了阈值方法生成的动作建议的质量以及α，β表示平衡超参数。训练的过程利用随机梯度下降算法进行优化。

S8.将测试样本输入到训练好的模型中进行预测，输出动作片段的开始和结束时间以及类别。

具体而言，利用与训练样本相同的数据预处理方式如步骤1对测试样本进行数据预处理，然后将测试样本特征输入到训练好的模型当中，利用步骤2的分类器生成时序类激活序列，从而对测试样本进行预测得到样本中动作对应的开始和结束时间以及动作类别。

另外，参见图8，本申请应用实例提供的弱监督视频动作定位系统主要包含以下5个组成部分：

1.特征提取器：用于提取视频帧的片段级别的特征，对视频帧内容进行理解。

2.分类器：对特征进行动作分类，从而生成视频级别的时序动作类别概率分布图(TCAMs)。

3.注意力机制模块：用于信息交互，获得更鲁棒的特征。

4.亲和度模块：用于度量特征之间的差异从而得到相邻片段特征之间的亲和度，并获得潜在动作特征和背景特征。

5.存储器：用于存储整个数据集的代表性特征。

综上所述，本申请应用实例利用视频的语义类别信息来度量视频片段特征之间的差异从而得到不同片段之间的亲和力实现高置信度动作和低置信度动作的预测。利用高置信度动作特征和低置信度动作特征分别与视频自身特征之间进行视频内部的信息交互，可以保留更为丰富的细粒度动作信息。利用当前视频的高置信度动作特征与数据集中相同类别的高置信度动作特征进行视频之间的信息交互可以关注更为多样性的细粒度动作信息。

基于此，与现有技术相比，本申请应用实例的有益效果是：

1.本申请应用实例利用视频的语义类别信息推导出不同片段之间的亲和度(Affinity)，将亲和度值大的视为高置信度的动作特征，亲和度值小的视为低置信度的动作特征，相比于现有的只依赖动作分类结果预测动作片段的方法可以更好地降低误差。

2.本申请应用实例利用注意力机制将获取的高置信度动作特征和低置信度动作特征分别与视频本身表层特征进行视频内部的信息交互，这种信息交互方法有利于帮助模型获取更多更具有代表性的动作信息，达到更好的训练结果。

3.本申请应用实例利用注意力机制将当前视频的高置信度动作特征与整个数据集中同一类别的最有代表性的行为特征进行信息之间的信息交互，相比于仅利用单个视频自身信息的方法可以挖掘多样性的动作信息。

本申请实施例还提供了一种电子设备，该电子设备可以包括处理器、存储器、接收器及发送器，处理器用于执行上述实施例提及的视频动作定位模型训练方法或视频动作定位方法，其中处理器和存储器可以通过总线或者其他方式连接，以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的视频动作定位模型训练方法或视频动作定位方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的视频动作定位模型训练方法或视频动作定位方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器中，当被所述处理器执行时，执行实施例中的视频动作定位模型训练方法或视频动作定位方法。

在本申请的一些实施例中，用户设备可以包括处理器、存储器和收发单元，该收发单元可包括接收器和发送器，处理器、存储器、接收器和发送器可通过总线系统连接，存储器用于存储计算机指令，处理器用于执行存储器中存储的计算机指令，以控制收发单元收发信号。

作为一种实现方式，本申请中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现，处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。

作为另一种实现方式，可以考虑使用通用计算机的方式来实现本申请实施例提供的服务器。即将实现处理器，接收器和发送器功能的程序代码存储在存储器中，通用处理器通过执行存储器中的代码来实现处理器，接收器和发送器的功能。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述视频动作定位模型训练方法或视频动作定位方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本申请中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频动作定位模型训练方法，其特征在于，包括：

将所述第二动作定位结果数据作为伪标签对所述第一动作定位结果数据进行监督以对所述分类器进行模型训练，得到对应的视频动作定位模型；

其中，所述采用注意力机制在各个所述视频片段的片段特征之间分别针对每个所述视频样本内部以及相同类别的各个视频样本之间进行信息交互，并基于对应的信息交互结果生成各个所述视频样本各自对应的第二动作定位结果数据，包括：

2.根据权利要求1所述的视频动作定位模型训练方法，其特征在于，所述将各个所述视频片段各自对应的片段特征，分别划分为动作片段特征和非动作片段特征，包括：

3.根据权利要求2所述的视频动作定位模型训练方法，其特征在于，所述在各个所述动作片段特征中选取多个，以作为代表性动作片段特征，并采用注意力机制，对各个所述代表性动作片段特征和所述类内信息交互片段特征进行动作类别相同的视频样本之间的信息交互，以生成各个类间信息交互片段特征，包括：

4.根据权利要求1所述的视频动作定位模型训练方法，其特征在于，在所述将各个视频样本中的多个互不重叠的视频片段各自对应的片段特征输入预设的分类器之前，还包括：

获取多个视频样本；

将各个所述视频样本分别分割成多个互不重叠的视频片段；

5.一种视频动作定位方法，其特征在于，包括：

提取目标视频的片段特征；

将所述目标视频的片段特征输入预先基于权利要求1至4任一项所述的视频动作定位模型训练方法训练得到的所述分类器中，以使该分类器输出所述目标视频的动作定位结果数据，其中，所述目标视频的动作定位结果数据包括：所述目标视频中出现动作片段的起始时间、结束时间和所属类别。

6.一种视频动作定位模型训练系统，其特征在于，包括：

监督训练模块，用于将所述第二动作定位结果数据作为伪标签对所述第一动作定位结果数据进行监督以对所述分类器进行模型训练，得到对应的视频动作定位模型；

7.一种视频动作定位系统，其特征在于，包括：

特征提取模块，用于提取目标视频的片段特征；

动作定位模块，用于将所述目标视频的片段特征输入预先基于权利要求1至4任一项所述的视频动作定位模型训练方法训练得到的所述分类器中，以使该分类器输出所述目标视频的动作定位结果数据，其中，所述目标视频的动作定位结果数据包括：所述目标视频中出现动作片段的起始时间、结束时间和所属类别。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的视频动作定位模型训练方法，或者，实现如权利要求5所述的视频动作定位方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一项所述的视频动作定位模型训练方法，或者，实现如权利要求5所述的视频动作定位方法。