CN112818829B

CN112818829B - 基于结构网络的弱监督时域动作定位方法及系统

Info

Publication number: CN112818829B
Application number: CN202110122080.8A
Authority: CN
Inventors: 张天柱; 张勇东; 杨文飞; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-09-09
Anticipated expiration: 2041-01-27
Also published as: CN112818829A

Abstract

本公开提供一种基于结构网络的弱监督时域动作定位方法，包括：对输入的视频进行特征提取，得到目标任务的适应性特征；构建视频片段关系全局网络模型并训练；构建动作局部结构网络模型并训练；以及在所述更具判断性的视频特征上进行每个视频片段的类别预测，形成多支结构感知类别激活序列并融合得到最终的类别激活序列，将最终的类别激活序列阈值化后得到每个类别的动作检测结果，从而实现基于结构网络的弱监督时域动作定位。

Description

基于结构网络的弱监督时域动作定位方法及系统

技术领域

本公开涉及人工智能技术领域，关于智能行为分析，尤其涉及一种基于结构网络的弱监督时域动作定位方法及系统。

背景技术

时域动作定位能够准确找到目标任务动作的起始和结束时间，在智能监控、视频描述、视频总结等领域有着广泛的应用。

传统方法通常是基于全监督的，首先利用有动作起始和结束时间标注的数据来训练模型，然后进行动作定位。这一过程严重依赖大量有时域边界标注的数据，非常耗费时间和人力，这限制了动作定位的拓展性和实用性。

为了减轻对数据的依赖、提升拓展性和实用性，基于弱监督的智能动作定位算法应运而生，在时域动作定位中取得了较好的结果。然而，当前技术利用视频级别的动作类别标签进行弱监督训练，导致模型只关注到动作的最核心片段以及易受噪声干扰，导致定位不完整以及定位失败。

因此，如何实现更有效的弱监督时域动作定位是一个亟需解决的技术课题。

发明内容

(一)要解决的技术问题

基于上述问题，本公开提供了一种基于结构网络的弱监督时域动作定位方法及系统，以缓解现有技术中利用视频级别的动作类别标签进行弱监督训练，导致模型只关注到动作的最核心片段以及易受噪声干扰，导致定位不完整以及定位失败等技术问题。

(二)技术方案

本公开的一个方面，一种基于结构网络的弱监督时域动作定位方法，包括：

对输入的视频进行特征提取，得到目标任务的适应性特征；

构建视频片段关系全局网络模型并训练；

构建动作局部结构网络模型并训练；以及

在所述更具判断性的视频特征上进行每个视频片段的类别预测，形成多支结构感知类别激活序列并融合得到最终的类别激活序列，将最终的类别激活序列阈值化后得到每个类别的动作检测结果，从而实现基于结构网络的弱监督时域动作定位。

在本公开实施例中，所述对输入的视频进行特征提取，得到目标任务的适应性特征，包括：

将输入的视频分为多个视频片段；

提取每个所述视频片段中的特征；

将该视频的所有片段的特征拼接在一起，作为该视频的特征；以及

将所述视频特征输入到一个卷积层得到与目标任务适应的特征。

在本公开实施例中，所述构建视频片段关系全局网络模型并训练，包括：

将片段特征映射到相似性度量空间后，获得相似度矩阵；以及

获得所述相似度矩阵后利用图卷积网络对所述视频的特征进行特征更新，得到更具判断性的视频特征。

在本公开实施例中，构建动作局部结构网络模型并训练，包括：

根据所述具有判别性的特征生成多支局部结构感知的注意力序列；

利用所述多支注意力序列产生结构感知特征；以及

通过所述结构感知特征，生成视频动作标签预测结果。

在本公开实施例中，所述将片段特征映射到相似性度量空间后，获得相似度矩阵，包括：先利用一个卷积层将片段特征映射到相似性度量空间；然后利用余弦相似度计算片段之间的相似度矩阵。

在本公开实施例中，通过K分支注意力机制产生多支局部结构感知的注意力序列a^k，其中K为正整数，k＝1，2...K。

在本公开实施例中，利用所述注意力序列产生结构感知特征X^k；

其中，N为视频中片段的数量，i为片段下标，

为第k个分支对第i个片段的注意力权重，X_i为第i个片段特征。

在本公开实施例中，所述通过所述结构感知特征，生成视频动作标签预测结果，包括：

通过每个分支产生一个视频动作标签预测结果y^k，将多个视频动作标签预测结果融合得到最终的视频动作标签预测结果y：

其中，w^k为自适应学到的每个分支的权重；

通过最终损失来训练：

L＝L_cls+αL_rep+βL_sparse；

其中，L_cls为分类损失，用于引导多个分支的学习：

L_cls＝BinaryCrossEntropy(y，y_gt)；

其中，y_gt为视频的真实类别标签；

L_rep为排斥损失，用于保证能够有效学习到动作的多个构成部分，使得不同的分支关注到不同部分：

其中，m、n为分支下标，

为第m个分支在第i个片段上的权重，

为第n个分支在第i个片段上的权重；

L_sparse为引入的稀疏约束，用于使得每个分支能够关注到有意义的动作片段：

在本公开实施例中，所述在所述更具判断性的视频特征上进行每个视频片段的类别预测，形成多支结构感知类别激活序列并融合得到最终的类别激活序列，将最终的类别激活序列阈值化后得到每个类别的动作检测结果，从而实现基于结构网络的弱监督时域动作定位，包括：

利用每支结构感知类别激活序列的分类器对图卷积网络更新的特征Z上进行每个片段的类别预测，形成结构感知类别激活序列H^k，k＝1，2...K。将K个激活序列融合得到最终的类别激活序列H，阈值化后得到每个类别的动作检测结果，从而实现时域动作的分类和定位，完成基于结构网络的弱监督时域动作定位：

本公开的另一方面，提供一种基于结构网络的弱监督时域动作定位系统，用于执行以上任一项所述的定位方法，所述系统包括：

特征提取模块，用于对输入的视频进行特征提取，得到目标任务的适应性特征；

视频片段关系建模模块，用于构建视频片段关系全局网络模型；

动作局部结构建模模块，用于构建动作局部结构网络模型；以及

预测模块，用于在所述更具判断性的视频特征上进行每个视频片段的类别预测，形成多支结构感知类别激活序列并融合得到最终的类别激活序列，将最终的类别激活序列阈值化后得到每个类别的动作检测结果。

(三)有益效果

从上述技术方案可以看出，本公开至少具有以下有益效果其中之一或其中一部分：

(1)不需要精细的动作起始和结束时间标注，只需要视频级别的类别标签进行训练；

(2)能够挖掘不同视频片段之间的关系，提升视频片段特征判别能力；

(3)能够发掘动作的内部结构信息，实现完整的动作定位；

(4)可应用于视频行为检测相关的应用系统中，对视频中的动作进行定位；

(5)在实施时既可以以软件形式嵌入到移动设备中，提供实时分析结果；也可以安装在后台服务器中，提供大批量视频处理结果。

附图说明

图1为本公开实施例基于结构网络的弱监督时域动作定位系统的组成和原理示意图。

图2为本公开实施例基于结构网络的弱监督时域动作定位方法的流程示意图。

具体实施方式

本公开提供了一种基于结构网络的弱监督时域动作定位方法及系统，利用视频级别的动作类别标签实现动作定位，从而能够考虑整个视频和每个动作的结构信息，实现鲁棒完整的弱监督动作定位。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

在本公开实施例中，提供一种基于结构网络的弱监督时域动作定位方法，如图1所示，所述方法，包括：

操作S1：对输入的视频进行特征提取，得到目标任务的适应性特征；

在本公开实施例中，通过视频特征提取模块完成操作S1，上述操作S1包括：

操作S11：将输入的视频分为多个视频片段；

操作S12：提取每个所述视频片段中的特征；

操作S13：将该视频的所有片段的特征拼接在一起，作为该视频的特征；以及

操作S14：将所述视频特征输入到一个卷积层得到与目标任务适应的特征；

在本公开实施例中，操作S11中，对于一个输入视频V，首先将其分为16帧一组的多个片段。操作S12中使用经过预训练的行为识别网络I3D提取每个视频片段的特征；操作S13中，将该视频的所有片段的特征拼接在一起，作为该视频的特征。操作S14中，该视频特征被输入到一个卷积层得到该任务适应的特征X。X被输入到后续模块进行动作定位。

操作S2：构建视频片段关系全局网络模型并训练；

在本公开实施例中，操作S2包括：

操作S21：将片段特征映射到相似性度量空间后，获得相似度矩阵；

在本公开实施例中，对于X，视频片段关系建模模块首先利用一个卷积层将片段特征映射到相似性度量空间；然后利用余弦相似度计算片段之间的相似度矩阵A。

操作S22：得到所述相似度矩阵后利用图卷积网络对所述视频的特征进行特征更新，得到更具判断性的视频特征。

在本公开实施例中，在得到相似度矩阵后，利用图卷积网络来进行特征更新，得到更具有判别性的特征Z，完成构建视频片段关系全局模型。

Z＝ReLU(AXW)；

其中，W为可学习参数矩阵；

操作S3：构建动作局部结构网络模型并训练；

在本公开实施例中，操作S3包括：

操作S31：根据所述具有判别性的特征生成多支局部结构感知的注意力序列；

在本公开实施例中，对于Z，动作局部结构建模模块首先通过K分支注意力机制产生多支局部结构感知的注意力序列a^k，k＝1，2...K；

操作S32：利用所述多支注意力序列产生结构感知特征；

利用这些注意力序列产生结构感知特征X^k，k＝1，2...K。

其中，N为视频中片段的数量，i为片段下标，

操作S33：通过所述结构感知特征，生成视频动作标签预测结果；

通过每个分支都会产生一个视频动作标签预测结果y^k，将多个视频动作标签预测结果融合得到最终的视频动作标签预测结果y：

其中，w^k为自适应学到的每个分支的权重；

在本公开实施例中，通过分类损失L_cls来引导多个分支的学习：

L_cls＝BinaryCrossEntropy(y，y_gt)；

其中，y_gt为视频的真实类别标签；

在本公开实施例中，为了保证能够有效学习到动作的多个构成部分，我们引入一个排斥损失L_rep，使得不同的分支关注到不同部分：

其中，m、n为分支下标，

为第m个分支在第i个片段上的权重，

为第n个分支在第i个片段上的权重；

在本公开实施例中，为了使得每个分支能够关注到有意义的动作片段，引入稀疏约束L_sparse：

在本公开实施例中，最终损失L为上述三个损失加权和，通过最终损失来训练网络模型。

L＝L_cls+αL_rep+βL_sparse。

操作S4：在所述更具判断性的视频特征上进行每个视频片段的类别预测，形成多支结构感知类别激活序列并融合得到最终的类别激活序列，将最终的类别激活序列阈值化后得到每个类别的动作检测结果。

在本公开实施例中，在训练好网络后，我们利用每个分支的分类器对图卷积网络更新的特征Z上进行每个片段的类别预测，形成结构感知类别激活序列H^k，k＝1，2...K。将K个激活序列融合得到最终的类别激活序列H，阈值化后可以得到每个类别的动作检测结果，从而实现时域动作的分类和定位，完成基于结构网络的弱监督时域动作定位。

在本公开的另一方面，还提供一种基于结构网络的弱监督时域动作定位系统，用于执行以上所述的定位方法，所述定位系统包括：

所述预测模块包括多个分支的分类器。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

依据以上描述，本领域技术人员应当对本公开基于结构网络的弱监督时域动作定位方法及系统有了清楚的认识。

综上所述，本公开提供了一种基于结构网络的弱监督时域动作定位方法及系统，不需要精细的动作起始和结束时间标注，只需要视频级别的类别标签进行训练；该方法能够挖掘不同视频片段之间的关系，提升视频片段特征判别能力；该方法能够发掘动作的内部结构信息，实现完整的动作定位；上述方法和系统可应用于视频行为检测相关的应用系统中，对视频中的动作进行定位。在实施上，可以以软件形式嵌入到移动设备中，提供实时分析结果；也可以安装在后台服务器中，提供大批量视频处理结果。

还需要说明的是，实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本公开的保护范围。贯穿附图，相同的元素由相同或相近的附图标记来表示。在可能导致对本公开的理解造成混淆时，将省略常规结构或构造。

并且图中各部件的形状和尺寸不反映真实大小和比例，而仅示意本公开实施例的内容。另外，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。

再者，单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。

说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词，以修饰相应的元件，其本身并不意味着该元件有任何的序数，也不代表某一元件与另一元件的顺序、或是制造方法上的顺序，该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且，在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。