CN112818828B

CN112818828B - 基于记忆网络的弱监督时域动作定位方法及系统

Info

Publication number: CN112818828B
Application number: CN202110122077.6A
Authority: CN
Inventors: 张天柱; 张勇东; 罗网; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-09-09
Anticipated expiration: 2041-01-27
Also published as: CN112818828A

Abstract

本公开提供一种基于记忆网络的弱监督时域动作定位方法，包括：对输入的视频进行特征提取，得到针对定位任务的视频特征；构建动作单元记忆库；根据所述视频特征，建模视频内部的时序结构，得到语义增强的特征；读取所述动作单元记忆库的信息并进行维度变换后，应用于所述语义增强的视频特征生成片段级分类结果；以及获取模板相似性并进行最大池化生成前景注意力权重，再结合所述片段级分类结果确定动作的类别，从而实现基于记忆网络的弱监督时域动作的定位。本公开同时还提供一种基于记忆网络的弱监督时域动作定位系统。

Description

基于记忆网络的弱监督时域动作定位方法及系统

技术领域

本公开涉及人工智能技术领域，关于智能行为分析，尤其涉及一种基于记忆网络的弱监督时域动作定位方法及系统。

背景技术

时域动作定位的目的是找到视频中动作的开始和结束时间，在智能监控、视频摘要、异常检测等领域有着广泛的应用。

传统的时域动作定位方法通常基于全监督学习，首先利用具有动作起止时间的标注数据来训练模型，然后进行动作定位。但是这样的标注数据昂贵且耗时，限制了时域动作定位的实用性。

为了减轻对数据的依赖，从而提升应用场景中的拓展性以及效率。基于弱监督学习的时域动作定位算法逐渐受到关注，与全监督方法的性能差距也逐渐缩小。然而，由于训练过程中缺少动作边界的标注，模型趋向于只关注动作的核心片段且容易受到非动作片段的干扰，导致定位不完整以及错误定位。

因此，如何实现更有效的弱监督时域动作定位是一个亟需解决的技术课题。

发明内容

(一)要解决的技术问题

基于上述问题，本公开提供了一种基于记忆网络的弱监督时域动作定位方法及系统，以缓解现有技术中弱监督时域动作定位训练模型只关注动作的核心片段且容易受到非动作片段的干扰，导致定位不完整以及错误定位等技术问题。

(二)技术方案

本公开的一个方面，提供一种基于记忆网络的弱监督时域动作定位方法，包括：

对输入的视频进行特征提取，得到针对定位任务的视频特征；

构建动作单元记忆库；

根据所述视频特征，建模视频内部的时序结构，得到语义增强的特征；

读取所述动作单元记忆库的信息并进行维度变换后，应用于所述语义增强的视频特征生成片段级分类结果；以及

获取模板相似性并进行最大池化生成前景注意力权重，再结合所述片段级分类结果确定动作的类别，从而实现基于记忆网络的弱监督时域动作的定位。

在本公开实施例中，所述对输入的视频进行特征提取，得到针对定位任务的视频特征，包括：

将输入的视频分为多个视频片段；

提取每个所述视频片段中的特征；以及

获得针对定位任务的视频特征。

在本公开实施例中，所述构建动作单元记忆库，包括：

预定义多个动作单元模板；以及

根据所述多个动作单元模板得到动作单元自适应分类器和用于检索的关键值，完成动作单元记忆库的构建。

在本公开实施例中，为了保证记忆库中动作单元模板的有效性引入差异性损失L_d来确保模板之间的差异性：

L_d＝||MM^T-I||_F；

其中，I为单位矩阵，||·||_F为Frobenius范数。

在本公开实施例中，分别应用多层感知机和全连接层得到动作单元自适应分类器和用于检索的关键值。

在本公开实施例中，根据针对定位任务的视频特征X^e，引入一个自注意力模块，建模视频内部的时序结构，得到语义增强的特征X^s：

其中，Q为包含视频表象与运动信息的查询值，F、m分别为特征维度和降维尺度参数。

在本公开实施例中，通过交叉注意力模块来读取动作单元记忆库中的信息V^O：

其中，K^M为用于检索的关键值，V^M为动作单元自适应分类器，对读取的记忆库中的信息V^O进行维度变换便可得到自适应的片段级别分类器，并将其应用于视频特征生成片段级分类结果。

在本公开实施例中，所述获取模板相似性并进行最大池化生成前景注意力权重，再结合所述片段级分类结果确定动作的类别，从而实现基于记忆网络的弱监督时域动作的定位，包括：

根据所述定位任务的视频特征、动作单元记忆库中动作单元自适应分类器和用于检索的关键值获取模板相似性，并引入均衡性损失；

对所述模板相似性进行最大池化生成前景注意力权重，并引入稀疏性损失；以及

利用所述前景注意力权重进行阈值截断得到预测的动作起始、截止时间，并结合所述片段级分类结果确定动作的类别，从而实现视频时域动作的分类和定位。

在本公开实施例中，所述均衡性损失L_h：

所述稀疏性损失L_s为：

所述利用所述前景注意力权重进行阈值截断得到预测的动作起始、截止时间，并结合所述片段级分类结果确定动作的类别，从而实现视频时域动作的分类和定位，包括：

对所有片段级分类结果进行加权池化，得到预测结果；

最终视频级分类结果

为所有片段级分类结果的加权池化：

利用视频级标签y及预测结果

使用交叉熵损失作为分类损失来引导记忆网络的学习：

其中，B为批量大小，l为视频中片段数目，i为视频序号，t为片段序号，l_i为第i个视频的片段数目，S_i(t)为第i个视频第t个片段与每个动作单元模板的相似度，a_i为第i个视频的前景注意力权重，a(t)为第i个视频第t个片段的前景注意力权重，W^cls为自适应的片段级别分类器，X^s为视频特征。

在本公开的另一方面，提供一种基于记忆网络的弱监督时域动作定位系统，用于执行以上任一项所述的定位方法，所述系统包括：

特征提取模块，用于对输入的视频进行特征提取，得到针对定位任务的视频特征；

动作单元记忆库；

自注意力模块，用于根据所述视频特征，建模视频内部的时序结构，得到语义增强的特征；以及

交叉注意力模块，用于读取所述动作单元记忆库的信息并进行维度变换后，应用于所述语义增强的视频特征生成片段级分类结果，还用于获取模板相似性并进行最大池化生成前景注意力权重，再结合所述片段级分类结果确定动作的类别，从而实现基于记忆网络的弱监督时域动作的定位。

(三)有益效果

从上述技术方案可以看出，本公开基于记忆网络的弱监督时域动作定位方法及系统至少具有以下有益效果其中之一或其中一部分：

(1)训练过程不需要人工参与，能通过多种约束端到端地学习网络参数；

(2)只需要视频级别的类别标签进行训练，大大减少了人力和时间耗费；

(3)该方法能够建模动作的基本组成单元来进行细粒度的动作分类，从而实现完整、鲁棒的动作定位；

(4)可以应用于视频分析相关的应用系统中；

(5)在实施时既可以以软件的方式安装于个人手机或电脑上，提供实时时域定位结果；也可以安装于公司的后台服务器，提供大批量视频处理结果。

附图说明

图1为本公开实施例基于记忆网络的弱监督时域动作定位系统的组成和原理示意图。

图2为本公开实施例基于记忆网络的弱监督时域动作定位方法的流程示意图。

具体实施方式

本公开提供了一种基于记忆网络的弱监督时域动作定位方法及系统，与现有方法相比，该方法训练过程不需要人工参与，能通过多种约束端到端地学习网络参数；该方法只需要视频级别的类别标签进行训练，大大减少了人力和时间耗费；该方法能够建模动作的基本组成单元来进行细粒度的动作分类，从而实现完整、鲁棒的动作定位。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

在本公开实施例中，提供一种基于记忆网络的弱监督时域动作定位方法，如图1所示，所述方法，包括：

操作S1：对输入的视频进行特征提取，得到针对定位任务的视频特征；

在本公开实施例中，通过视频特征提取模块完成操作S1，上述操作S1包括：

操作S11：将输入的视频分为多个视频片段；

操作S12：提取每个所述视频片段中的特征；以及

操作S13：获得针对定位任务的视频特征；

在本公开实施例中，操作S11中，对于一个输入视频V，首先将其分为16帧一组的多个片段。操作S12中使用经过预训练的行为识别网络I3D提取每个视频片段的特征；操作S13中，通过全连接层得到针对定位任务的视频特征X^e，用于之后的动作分类和定位。

操作S2：构建动作单元记忆库；

在本公开实施例中，操作S2包括：

操作S21：预定义多个动作单元模板；

操作S22：根据所述多个动作单元模板得到动作单元自适应分类器和用于检索的关键值，完成动作单元记忆库的构建。

在本公开实施例中，操作S21中，预定义多个动作单元模板M；

为了保证记忆库中动作单元模板的有效性，我们引入差异性损失L_d来确保模板之间的差异性：

L_d＝||MM^T-I||_F；

其中，I为单位矩阵，||·||_F为Frobenius范数。

操作S22中，为了提取动作单元相关的信息(分类信息和运动信息)，分别应用多层感知机和全连接层得到动作单元自适应分类器V^M和用于检索的关键值K^M。

操作S3：根据所述视频特征，建模视频内部的时序结构，得到语义增强的特征；

在本公开实施例中，对于针对定位任务的视频特征X^e，引入一个自注意力模块来，建模视频内部的时序结构，得到语义增强的视频特征X^s：

其中Q为包含视频表象与运动信息的查询值，F、m分别为特征维度和降维尺度参数。

操作S4：读取所述动作单元记忆库的信息并进行维度变换后，应用于所述语义增强的视频特征生成片段级分类结果；

在本公开实施例中，对于动作单元记忆库，设置一个交叉注意力模块来读取记忆库中的信息V^O：

对读取的记忆库中的信息V^O进行维度变换便可得到自适应的片段级别分类器W^cls，并将其应用于视频特征X^s生成片段级分类结果C。

操作S5：获取模板相似性并进行最大池化生成前景注意力权重，再结合所述片段级分类结果确定动作的类别，从而实现基于记忆网络的弱监督时域动作的定位。

在本公开实施例中，所述操作S5，包括：

操作S51：根据所述定位任务的视频特征、动作单元记忆库中动作单元自适应分类器和用于检索的关键值获取模板相似性S，并引入均衡性损失：

在本公开实施例中，为使得每个模板是有意义的，针对模板的相似性，引入均衡性损失L_h：

其中，B为批量大小，l为视频中片段数目，i为视频序号，t为片段序号，l_i为第i个视频的片段数目，S_i(t)为第i个视频第t个片段与每个动作单元模板的相似度。

操作S52：对所述模板相似性进行最大池化生成前景注意力权重，并引入稀疏性损失；

在本公开实施例中，为了抑制背景片段，我们对模板相似性进行最大池化生成前景注意力权重a，且基于视频中动作的稀疏性，引入了稀疏性损失L_s：

其中，a_i为第i个视频的前景注意力权重；

操作S53：利用所述前景注意力权重进行阈值截断得到预测的动作起始、截止时间，并结合所述片段级分类结果确定动作的类别，从而实现视频时域动作的分类和定位。

在本公开实施例中，对所有片段级分类结果进行加权池化，得到预测结果；

最终视频级分类结果

为所有片段级分类结果的加权池化：

其中，a(t)为第i个视频第t个片段的前景注意力权重，W^cls为自适应的片段级别分类器，利用视频级标签y及预测结果

使用交叉熵损失作为分类损失来引导记忆网络的学习：

可见，最终总的损失L为上述差异性损失、均衡性损失、稀疏性损失、交叉熵损失四个损失加权和，用来训练整个端到端的网络。

L＝L_cls+αL_d+βL_h+γL_s；

在本公开实施例中，在网络训练完成之后，我们利用对前景注意力权重a进行阈值截断得到预测的动作起始、截止时间，并结合片段级分类结果C确定动作的类别，从而实现时域动作的分类和定位，完成基于记忆网络的弱监督时域动作定位。

在本公开的另一方面，还提供一种基于记忆网络的弱监督时域动作定位系统，用于执行以上所述的定位方法，所述定位系统包括：

动作单元记忆库；

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

依据以上描述，本领域技术人员应当对本公开基于记忆网络的弱监督时域动作定位方法及系统有了清楚的认识。

综上所述，本公开提供了一种基于记忆网络的弱监督时域动作定位方法及系统，本公开提出的方法从探索动作的基本单元出发，通过对动作单元进行建模进行片段级的分类，从而实现完整、鲁棒的弱监督时域动作定位。本公开可以应用于视频分析相关的应用系统中。在实施上，可以以软件的方式安装于个人手机或电脑上，提供实时时域定位结果；也可以安装于公司的后台服务器，提供大批量视频处理结果。

还需要说明的是，实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本公开的保护范围。贯穿附图，相同的元素由相同或相近的附图标记来表示。在可能导致对本公开的理解造成混淆时，将省略常规结构或构造。

并且图中各部件的形状和尺寸不反映真实大小和比例，而仅示意本公开实施例的内容。另外，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。

再者，单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。

说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词，以修饰相应的元件，其本身并不意味着该元件有任何的序数，也不代表某一元件与另一元件的顺序、或是制造方法上的顺序，该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且，在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。