CN112927266B

CN112927266B - 基于不确定性引导训练的弱监督时域动作定位方法及系统

Info

Publication number: CN112927266B
Application number: CN202110227890.XA
Authority: CN
Inventors: 张天柱; 张勇东; 杨文飞; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2022-07-15
Anticipated expiration: 2041-03-01
Also published as: CN112927266A

Abstract

本公开提供一种基于不确定性引导训练的弱监督时域动作定位方法，包括：对输入的视频进行特征提取，得到视频特征；对所述视频特征进行处理，得到目标任务适应的RGB特征和光流特征；对所述与目标任务适应的RGB特征和光流特征进行处理，得到对应的注意力权重后加权所述视频特征获得聚合的视频级特征；以及将所述聚合的视频级特征进行处理后得到视频级分类结果，完成动作定位。同时本公开还提供一种基于不确定性引导训练的弱监督时域动作定位系统。

Description

基于不确定性引导训练的弱监督时域动作定位方法及系统

技术领域

本公开涉及人工智能技术领域，关于智能行为分析，尤其涉及一种基于不确定性引导训练的弱监督时域动作定位方法及系统。

背景技术

时域动作定位能够准确找到动作的起始和结束时间，在智能监控、视频描述、视频总结等领域有着广泛的应用。

传统方法通常是基于全监督的，首先利用有动作起始和结束时间标注的数据来训练模型，然后进行动作定位。这一过程严重依赖大量有时域边界标注的数据，非常耗费时间和人力，这限制了动作定位的拓展性和实用性。为了减轻对数据的依赖、提升拓展性和实用性，基于弱监督的智能动作定位算法应运而生，在时域动作定位中取得了较好的结果。在当前方法中，利用注意力机制对前景背景进行分离的方法取得了领先的性能。然而，由于缺乏标注信息去引导注意力权重学习，当前方法难以学习到鲁棒的注意力权重。

由此，如何获得更有效的弱监督时域动作定位方法是一个亟需解决的技术课题。

发明内容

(一)要解决的技术问题

基于上述问题，本公开提供了一种基于不确定性引导训练的弱监督时域动作定位方法及系统，以缓解现有技术中时域动作定位时缺乏标注信息去引导注意力权重学习，当前方法难以学习到鲁棒的注意力权重等技术问题。

(二)技术方案

本公开的一个方面，提供一种基于不确定性引导训练的弱监督时域动作定位方法，包括：对输入的视频进行特征提取，得到视频特征；对所述视频特征进行处理，得到目标任务适应的RGB特征和光流特征；对所述与目标任务适应的RGB特征和光流特征进行处理，得到对应的注意力权重后加权所述视频特征获得聚合的视频级特征；以及将所述聚合的视频级特征进行处理后得到视频级分类结果，完成动作定位。

在本公开实施例中，根据权利要求1所述的基于不确定性引导训练的弱监督时域动作定位方法，所述对输入的视频进行特征提取，得到视频特征，包括：将输入的视频分为多个视频片段；提取每个所述视频片段中的特征；以及将该视频的所有片段的特征拼接在一起，作为该视频的特征。

在本公开实施例中，所述对所述视频特征进行处理，得到目标任务适应的RGB特征和光流特征，包括：根据所述视频特征获取与目标任务适应的RGB特征；以及根据所述视频特征获取与目标任务适应的光流特征。

在本公开实施例中，将所述聚合的视频级特征进行处理后得到视频级分类结果，还包括：根据所述视频级分类结果获取基础损失，并对所述RGB特征和光流特征进行协同训练并得到协同训练模型网络的最终训练损失。

在本公开实施例中，所述根据所述视频级分类结果获取基础损失，包括：根据所述分类结果获得视频级别分类损失；引入注意力权重约束损失；以及基于视频级分类损失和注意力权重约束损失，获得基础损失。

在本公开实施例中，所述根据所述RGB特征和光流特征进行协同训练并得到协同训练模型网络的最终训练损失，包括：将所述RGB特征和光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签；以及对所述二值伪标签进行降噪，并获得RGB模型网络和光流模型网络的最终训练损失。

在本公开实施例中，所述将所述RGB特征和光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签，包括给定输入X^R和X^F，将其输入对应的教师网络来产生注意力权重伪标签Λ^RT和Λ^FT，之后通过一个二值化函数G来将他们转化为二值伪标签：

其中，λ_i为第i个片段的注意力权重。

在本公开实施例中，所述对所述二值伪标签进行降噪，并获得RGB模型网络和光流模型网络的最终训练损失，包括：基于伪标签不确定性，获得噪声鲁棒损失；根据噪声鲁棒损失，获得对应模型网络的伪标签损失；以及将伪标签损失和基础损失结合，得到协同训练网络最终训练损失。

在本公开实施例中，所述训练损失，包括：

其中t为当前迭代次数，w(t)为训练中逐渐调整的伪标签损失权重，定义如下：

为RGB和光流模型网络的基础损失，表达如下：

其中，L_cls为视频级别分类损失，表达如下：

L_att为注意力权重约束损失，表达为：

其中，y_i为视频真实类别标签，

为视频分类结果，N为视频片段数。

本公开的另一方面，还提供一种基于不确定性引导训练的弱监督时域动作定位系统，用于执行以上任一项所述的基于不确定性引导训练的弱监督时域动作定位方法，所述基于不确定性引导训练的弱监督时域动作定位系统，包括：

基础单元，用于对输入的视频进行处理得到目标任务适应的RGB特征和光流特征，进而得到视频级分类结果并计算基础损失，所述基础单元，包括：

视频特征提取模块，用于对输入的视频进行特征提取，得到视频特征；

卷积层，用于对所述视频特征进行处理，得到目标任务适应的RGB特征和光流特征；

注意力模块，用于对所述与目标任务适应的RGB特征和光流特征进行处理，得到对应的注意力权重后加权所述视频特征获得聚合的视频级特征；以及

分类器，用于将所述聚合的视频级特征进行处理后得到视频级分类结果，并计算基础损失；以及

协同训练单元，用于根据所述RGB特征和光流特征进行协同训练并得到训练损失；所述协同训练单元包括：

RGB模型网络，用于将所述RGB特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签；

光流模型网络，用于将所述光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签；

不确定性预测分支，加于所述RGB模型网络和光流模型网络上，用于输出伪标签不确定性并获得噪声鲁棒损失。

基于噪声鲁棒损失，能够得到RGB和光流网络的伪标签损失，与上述基础损失结合后，得到协同训练单元网络最终训练损失。

(三)有益效果

从上述技术方案可以看出，本公开基于不确定性引导训练的弱监督时域动作定位方法及系统至少具有以下有益效果其中之一或其中一部分：

(1)不需要精细的动作起始和结束时间标注，只需要视频级别的类别标签进行训练；

(2)能够显著提升基于注意力权重的方法的性能；

(3)可广泛应用于视频行为检测相关的应用系统中，对视频中的动作进行定位；在实施上，能够以软件形式嵌入到移动设备中，提供实时分析结果；也可以安装在后台服务器中，提供大批量视频处理结果。

附图说明

图1为本公开实施例的基于不确定性引导的弱监督时域动作定位方法的流程示意图。

图2为本公开实施例的基于不确定性引导的弱监督时域动作定位系统的基础单元的架构和原理示意图。

图3为本公开实施例的基于不确定性引导的弱监督时域动作定位系统的系统训练单元的架构和原理示意图。

具体实施方式

本公开提供了一种基于不确定性引导训练的弱监督时域动作定位方法及系统，该方法基于不确定性引导协同训练，能够产生伪标签协同训练RGB和光流网络，实现鲁棒的注意力权重学习。其不需要精细的动作起始和结束时间标注，只需要视频级别的类别标签进行训练；该方法能够显著提升基于注意力权重的方法的性能。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

在本公开实施例中，提供一种基于不确定性引导训练的弱监督时域动作定位方法，结合图1至图3所示，所述方法，包括：

操作S1：对输入的视频进行特征提取，得到视频特征；

在本公开实施例中，通过视频特征提取模块完成操作S1，上述操作S1中，所述对输入的视频进行特征提取，得到视频特征，包括：

操作S11：将输入的视频分为多个视频片段；

操作S12：提取每个所述视频片段中的特征；以及

操作S13：将该视频的所有片段的特征拼接在一起，作为该视频的特征。

在本公开实施例中，操作S11中，对于一个输入视频V，首先将其分为16帧一组的多个片段。操作S12中使用经过预训练的行为识别网络13D提取每个视频片段的特征；操作S13中，将该视频的所有片段的特征拼接在一起，作为该视频的视频特征。

操作S2：对所述视频特征进行处理，得到目标任务适应的RGB特征和光流特征；

在本公开实施例中，所述对所述视频特征进行处理，得到目标任务适应的RGB特征和光流特征，包括；

操作S21：根据所述视频特征获取与目标任务适应的RGB特征；

在本公开实施例中，所述该视频特征被输入到一个卷积层得到该目标任务适应的RGB特征X^R：

其中，N为视频片段数；

操作S22：根据所述视频特征获取与目标任务适应的光流特征；

在本公开实施例中，先经过类似上述相同的过程，提取视频的光流信息，再得到光流特征X^F：

上述操作S21和S22得到的X^R和X^F会被输入到后续模块中用于动作定位。

操作S3：对所述与目标任务适应的RGB特征和光流特征进行处理，得到对应的注意力权重后加权所述视频特征获得聚合的视频级特征；

在本公开实施例中，通过基础单元对RGB特征和光流特征各自做单独处理，我们用X来统一表示。我们首先将X输入一个由两个卷积层构成的注意力模块中，产生注意力权重[λ₁，λ₂，...，λ_N]，然后利用该注意力来加权视频特征得到一个聚合的视频级特征

其中，λ_i为第i个视频片段的注意力权重；x_i为第i个视频片段的特征。

操作S4：将所述聚合的视频级特征进行处理后得到视频级分类结果，完成动作定位。

在本公开实施例中，该聚合的视频级特征被送入一个由两个全连接层构成的分类器，得到视频级分类结果

操作S41，根据所述分类结果获得视频级别分类损失；

基于该分类结果，可以计算视频级别分类损失L_cls。

操作S43，引入注意力权重约束损失；

在本公开实施例中，除了上述分类损失外，还引入一个注意力权重约束损失L_att，使得注意力权重能够关注到动作相关片段：

操作S44，基于视频级分类损失和注意力权重约束损失，获得基础损失；

基于上述两个损失，定义RGB和光流分支的基础损失

为：

操作S5：根据所述RGB特征和光流特征进行协同训练并得到协同训练模型网络的最终训练损失；

在该协同训练单元中，包括RGB模型M(·|θ^R)和RGB教师模型M(·|θ^RT)，以及光流模型M(·|θ^F)和光流教师模型M(·|θ^FT)，分别构成RGB模型网络分支和光流模型网络分支，共同组成协同训练网络。

上述操作S5，包括：

操作S51：将所述RGB特征和光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签；

在本公开实施例中，给定输入X^R和X^F，将其输入对应的教师网络来产生注意力权重伪标签Λ^RT和Λ^FT，之后通过一个二值化函数G来将他们转化为二值伪标签：

操作S52：对所述二值伪标签进行降噪，并获得RGB模型网络和光流模型网络的最终训练损失；

所述操作S52包括：

操作S521：基于伪标签不确定性，获得噪声鲁棒损失；

为了解决伪标签中的噪声问题，在RGB和光流模型网络上加入一个不确定性预测分支，输出伪标签不确定性

基于该不确定性，定义噪声鲁棒损失如下

操作S522：根据噪声鲁棒损失，获得对应模型网络的伪标签损失；

基于该噪声鲁棒损失函数，得到RGB和光流模型网络的伪标签损失如下：

操作S523：将伪标签损失和基础损失结合，得到协同训练网络最终训练损失：

所述最终训练损失如下：

基于上述损失，用梯度反传来更新学生网络，其中η为学习率，设置为0.0001

用滑动平均来更新教师网络，其中超参数γ设置为0.999

本公开还提出了一种基于不确定性引导训练的弱监督时域动作定位系统，用于执行以上所述的基于不确定性引导训练的弱监督时域动作定位方法，所述基于不确定性引导训练的弱监督时域动作定位系统，如图2和图3所示，包括：

分类器，用于将所述聚合的视频级特征进行处理后得到视频级分类结果，并计算基础损失；

不确定性预测分支，加于所述RGB模型网络和光流模型网络上，用于输出伪标签不确定性并获得噪声鲁棒损失，

基于噪声鲁棒损失，能够得到RGB和光流网络的伪标签损失，与上述基础损失结合后，得到协同训练单元网络最终训练损失，再进一步更新RGB模型网络和光流模型网络。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

依据以上描述，本领域技术人员应当对本公开基于不确定性引导训练的弱监督时域动作定位方法及系统有了清楚的认识。

综上所述，本公开提供了一种基于不确定性引导训练的弱监督时域动作定位方法及系统，可应用于视频行为检测相关的应用系统中，对视频中的动作进行定位。在实施时，可以以软件形式嵌入到移动设备中，提供实时分析结果；也可以安装在后台服务器中，提供大批量视频处理结果。

还需要说明的是，实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本公开的保护范围。贯穿附图，相同的元素由相同或相近的附图标记来表示。在可能导致对本公开的理解造成混淆时，将省略常规结构或构造。

并且图中各部件的形状和尺寸不反映真实大小和比例，而仅示意本公开实施例的内容。另外，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。

再者，单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。

说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词，以修饰相应的元件，其本身并不意味着该元件有任何的序数，也不代表某一元件与另一元件的顺序、或是制造方法上的顺序，该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且，在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。