CN113221633B

CN113221633B - 一种基于层次类别模型的弱监督时序行为定位方法

Info

Publication number: CN113221633B
Application number: CN202110315302.8A
Authority: CN
Inventors: 王楠楠; 李国璋; 高新波; 李洁; 程德; 朱明瑞; 丁鑫棚
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2023-09-19
Anticipated expiration: 2041-03-24
Also published as: CN113221633A

Abstract

本发明公开了一种基于层次类别模型的弱监督时序行为定位方法，包括：获取包括多个视频的训练数据集，其中，每个视频中包括已标注的行为类别标签；利用经训练的深度3D卷积神经网络获得所述视频的视频特征；对所述视频特征进行层次聚类，获取所述视频的多层次类别；利用所述训练数据集中多个视频的多层次类别训练由多个分类模块构成的深度神经网络模型，获得经训练的所述深度神经网络模型；利用所述经训练的预测网络对待定位视频进行预测，获得所述待定位视频中的行为片段。本发明的方法充分利用动作间的类间共性信息，可以挖掘到视频中更多的动作区域，获取更完整的行为定位结果。

Description

一种基于层次类别模型的弱监督时序行为定位方法

技术领域

本发明属于视频处理技术领域，具体涉及一种基于层次类别模型的弱监督时序行为定位方法，主要用于在未修剪的视频中定位行为的开始及结束时间，可用于社会公共安全领域如行为定位与识别以及数字娱乐领域等。

背景技术

时序行为定位任务的目标是在未修剪的视频中识别出发生的行为并定位出行为的开始时间和结束时间，是计算机视觉领域中的一个基础问题。在未修剪的视频中进行时序行为定位的算法在社会公共安全与数字娱乐等方面具有广泛的应用价值。例如，在社会公共安全场景中，许多安防监控场景中存在着安防人员面对许多的摄像头组成的视频墙，由于安防人员数量太少并且注意力有限，不能实时关注太多的监控画面，很多时候需要后续回放视频进行行为和事件的定位，这需要大量的人力物力。此时，我们可以利用视频时序定位技术对这些未修剪视频进行处理，依靠算法获取行为的位置，减少时间和资源的浪费。

许多视频时序行为定位方法尽管取得了非常精确的结果，但是需要具有帧级标签的训练数据，而获取帧级别的标签非常耗时耗力，因此提出了弱监督的方案，即仅使用视频级标签以减少标注耗费。此外，视频时序行为定位算法也可以用于数字娱乐等场景中，例如可以作为体育视频精彩片段定位等。因此，视频时序行为定位算法的研究具有重要的意义。

Liu等人提出了一种弱监督时序行为定位方法，通过一个带有多样性损失的多分支网络结构用于动作的完整性建模，以及一个困难负样本视频生成的方法用于分离上下文，实现弱监督时序行为定位。Shi等人提出了利用生成式注意力模型解决动作与其时间上下文的混淆问题，实现弱监督时序行为定位。Kyle等人提出了一种对抗性背景感知损失，通过对抗擦除的机制挖掘视频中更多的动作部分，并通过三元组损失实现动作与背景的分离。上述现有的弱监督时序行为定位方法都仅仅只利用原始的视频类别训练单一的分类模型，使网络仅能关注视频帧序列中最具有类间区分性的部分。相似的动作之间存在共享的子动作，这些子动作类间区分性不高，无法被分类模型关注，导致了时序行为定位的不完整。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于层次类别模型的弱监督时序行为定位方法。本发明要解决的技术问题通过以下技术方案实现：

本发明提供了一种基于层次类别模型的弱监督时序行为定位方法，包括：

S1：获取包括多个视频的训练数据集，其中，每个视频中包括已标注的行为类别标签；

S2：利用经训练的深度3D卷积神经网络获得所述视频的视频特征；

S3：对所述视频特征进行层次聚类，获取所述视频的多层次类别；

S4：利用所述训练数据集中多个视频的多层次类别训练由多个分类模块构成的深度神经网络模型，获得经训练的所述深度神经网络模型；

S5：利用所述经训练的预测网络对待定位视频进行预测，获得所述待定位视频中的行为片段。

在本发明的一个实施例中，所述S2包括：

S21：将所述视频平均划分为多个视频片段，利用光流估计算法获得每个视频片段的光流帧；

S22：从每个视频片段中分别任选一帧作为当前视频片段的RGB帧；

S23：将所述光流帧和所述RGB帧输入经训练的深度3D卷积神经网络中，提取所述视频的RGB特征部分与光流特征部分；

S24：将所述视频的RGB特征部分和光流特征部分进行拼接，获得所述视频的视频特征。

在本发明的一个实施例中，所述S24包括：

将每个视频的RGB特征部分与光流特征部分进行拼接，获得每个视频的视频特征X＝[X^f；X^r]，其中，为所述视频的RGB特征部分，/>为所述视频的第t个视频片段的RGB特征部分，/> 为所述视频的光流特征部分，/>为所述视频的第t个视频片段的光流特征部分。

在本发明的一个实施例中，所述S3包括：

S31：将所述视频中的已标注的原始行为类别定义为第一层次的视频类别标签C⁽¹⁾；

S32：对包括同一行为类别的视频特征取均值，获取第c类别的视频特征X_c：

其中，N_c为所述训练数据集中具有第c类别的视频的数量，X_c,n为具有第c类别的第n个视频的视频特征；

S33：计算每两个不同类别的视频特征之间的距离并将距离最近的两个类别的视频特征合为一个类别；

S34：重复步骤S33，直到剩余类别的数量达到预定的C2个类别为止，组成第二层次的视频超类标签C⁽²⁾；

S35：利用所述第二层次的视频超类标签C⁽²⁾，循环重复步骤S32至步骤S34，所述C2个类别直至获取第K层次视频超类标签C^(K)。

在本发明的一个实施例中，所述S4包括：

S41：对所述多层次类别中的K个层次类别分别构造一个分类模块；

S42：利用所述分类模块获得所述K个层次类别的对应时间类激活序列；

S43：利用随机梯度下降算法，根据所述时间类激活序列及所有K个层次的超类标签对所述深度神经网络模型中的分类模块进行训练，其中，总损失函数为：

Loss＝∑_K(L_cls+L_supp)

其中，L_cls为分类损失函数，L_supp为背景抑制损失函数；

S44：当判定所述总损失函数最小时，所述深度神经网络模型训练完成。

在本发明的一个实施例中，每个所述分类模块均包括特征嵌入模块、以及并列连接在所述特征嵌入模块之后的注意力模块和分类层，其中，所述特征嵌入模块由一维时间卷积模块构成；所述注意力模块包括两个全连接层和位于所述全连接层之后的Sigmoid函数层；所述分类层包括一层时间卷积模块。

在本发明的一个实施例中，所述S42包括：

S421：利用所述特征嵌入模块将所述视频的视频特征X转换为特定于定位任务的特征X_e：

X_e＝f(X；W_e)，

其中，W_e为所述特征嵌入模块的参数，包括视频特征中每个维度数值的权重和偏置；

S422：利用所述注意力模块获得所述视频的第t个视频片段的特征x_t存在预定行为类别的概率P(λ＝1|x_t)，并利用所述分类层获得所述特征x_t属于第c类的概率P(y＝c|x_t,λ＝1)；

S423：获取所述特征x_t存在预定行为类别且属于第c类动作的概率：

P(y＝c|x_t)＝P(y＝c|x_t,λ＝1)P(λ＝1|x_t)，

其中，λ＝1代表所述视频片段存在动作；

S424：对视频中所有T个视频片段计算存在动作且属于第c类动作的概率s_t＝[s_t,0；…；s_t,c；…；s_t,C1]，其中，s_t,c＝P(y＝c|x_t)，构成所有T个视频片段在当前层次类别条件下的时间类激活序列

S425：重复步骤S422-S424，获得所有T个视频片段在所有K个层次类别的时间类激活序列。

在本发明的一个实施例中，所述分类损失函数为：

其中，表示当前层次类别下第n个视频是否属于第c类别标签，/>为第n个视频对于第c类别标签的分类分数，

其中，为第n个视频中每个视频片段属于第c类别标签的分数构成的时间类激活序列，/>为/>的一个子集，包含第n个视频中属于第c类别标签得分最高的k_a个视频片段的分数，/>为/>中被选中的第l个视频片段，/>为第n个视频中属于第c类别标签得分最高的k_a个视频片段的分数的平均值。

在本发明的一个实施例中，所述背景抑制损失函数为L_supp：

其中，

为第n个视频中每个视频片段属于第c类别标签的分数构成的时间类激活序列，/>为S_n[:,c]的一个子集，包含第n个视频中属于第c类别标签得分最低的k_b个视频片段的分数，/>为/>中被选中的第l个视频片段，/>为第n个视频中属于第c类别标签得分最低的k_b个视频片段的分数的平均值。

在本发明的一个实施例中，所述S5包括：

S51：获得所述待定位视频的视频特征；

S52：对所述视频特征进行层次聚类，获取所述待定位视频的多层次类别；

S53：利用所述经训练的深度神经网络模型中的多个分类模块，获得所述待定位视频所有层次类别标签对应的时间类激活序列；

S54：将所有层次类别标签对应的时间类激活序列取均值融合，得到融合后的时间类激活序列；

S55：在所述融合后的时间类激活序列中，通过多阈值将超过阈值的连续片段截取出来，得到所述连续片段的开始时间跟结束时间并去除重叠片段。

与现有技术相比，本发明的有益效果在于：

本发明提出的基于层次类别模型的弱监督时序行为定位方法，充分利用了行为动作间的类间共性信息，通过聚类原本类别产生超类，使原本具有较低类间区分性的类间共享子动作在超类之间具有较高的类间区分性，可以被新的分类所关注，并通过融合多个分类模型的时间类激活序列输出获取更完整的行为定位结果。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于层次类别模型的弱监督时序行为定位方法的流程图；

图2是本发明实施例提供的一种基于层次类别模型的弱监督时序行为定位方法的处理过程示意图。

具体实施方式

为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及具体实施方式，对依据本发明提出的一种基于层次类别模型的弱监督时序行为定位方法进行详细说明。

有关本发明的前述及其他技术内容、特点及功效，在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明，可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解，然而所附附图仅是提供参考与说明之用，并非用来对本发明的技术方案加以限制。

应当说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

请参见图1和图2，图1是本发明实施例提供的一种基于层次类别模型的弱监督时序行为定位方法的流程图；图2是本发明实施例提供的一种基于层次类别模型的弱监督时序行为定位方法的处理过程示意图。该弱监督时序行为定位方法包括：

对于本实施例中的训练数据集，不需要对视频中的每帧进行动作标注，只需要标注整个视频的行为类别标签，所述行为类别可以是跳高、撑杆跳、掷铁饼、扔链球、跳远等动作。

进一步地，所述S2包括：

在本实施例中，将所述视频按顺序每30个帧图像组成一个片段，从而将每个视频划分成多个视频片段。随后，利用光流估计算法获得每个视频片段的光流帧，具体地，首先通过全变分正则化对视频片段中的每一帧图像进行去噪，去掉不需要的细节，保留重要细节，随后加入L1正则增加鲁棒性，最后通过光流方程求解该视频片段的光流帧。

具体地，在每个视频片段中的30个帧图像中任选一帧图像作为当前视频片段的RGB帧。

在本实施例中，所述深度3D卷积神经网络为采用Kinetic-700视频数据集预训练的I3D网络。具体地，将当前视频的每个视频片段的光流帧和RGB帧输入所述I3D网络，通过I3D网络获得每个视频片段的RGB特征部分与光流特征部分，从而组成当前视频的RGB特征部分与光流特征部分。

具体地，将每个视频的RGB特征部分与光流特征部分进行拼接，获得该视频的视频特征X＝[X^f；X^r]，其中，为该视频整体的RGB特征部分，/>为该视频的第t个视频片段的RGB特征部分，/> 为该视频整体的光流特征部分，/>为该视频的第t个视频片段的光流特征部分。

进一步地，所述S3包括：

S31：将所述视频中的原始已标注的行为类别定义为第一层次的视频类别标签C⁽¹⁾；

具体地，将所述视频中的原始已标注的行为类别定义为第一层次的视频类别标签C⁽¹⁾，共有C1个动作类别，例如训练数据集中可能已标注的类别类别1跳远、类别2跳高、类别3撑杆跳等。

具体地，利用余弦距离计算每两个不同类别的视频特征之间的距离：

其中，X₁,X₂分别表示两个不同类别的视频特征。

S34：重复步骤S33，直到剩余类别的数量达到预定的C2个类别为止，所述C2个类别组成第二层次的视频超类标签C⁽²⁾；

具体地，不断将距离最近的两个类别的视频特征合为同一类别，直到剩余类别的数量达到要求的k个类别为止，从而得到第二个层次的类别。例如，计算得到原始行为类别中包括跳高与撑杆跳行为类别的视频的视频特征距离最近，则将包括跳高与撑杆跳行为类别的视频合为一类，随后又计算得到包括掷铁饼和扔链球行为类别的视频的视频特征距离最近，则将包括掷铁饼和扔链球行为类别的视频合为一类，等等。对于第二个层次的类别，设置该层次的超类数量为k＝C2，即，获得第二层次的视频超类标签C⁽²⁾，共C2个类别，例如超类1{跳高，撑杆跳}、超类2{掷铁饼，扔链球}等。

S35：利用所述第二层次的视频超类标签C⁽²⁾，循环重复步骤S32至步骤S34，直至获取第K层次视频超类标签C^(K)。

具体地，对所述第二层次的视频超类标签C⁽²⁾进行上述距离计算和合并，获得第三层次的视频超类标签C⁽³⁾，以此类推，直至获取第K层次视频超类标签C^(K)。需要说明的是，每个层次的超类数量可以根据需求进行设置，对于不同的训练数据集，这些超类的层次数量和每个层次的超类数量都可以进行调整。以THUMOS14视频行为定位数据集为例，原始共有20个动作类别，经过层次聚类后，可以获取具有15个类别的第二层超类和具有10个类别的第三层超类。

进一步地，所述S4包括：

具体地，对不同层次的类别标签分别构造一个分类模块，每个分类模块均包括特征嵌入模块、以及并列连接在所述特征嵌入模块之后的注意力模块和分类层，除了分类层的输出维度数(即分类的类别数量)不同，不同层次的类别标签对应的分类模块的结构是一样的。

在本实施例中，所述特征嵌入模块由一维时间卷积模块构成，所述注意力模块包括两个全连接层和位于所述全连接层之后的Sigmoid函数层，所述分类层由一层时间卷积模块构成。

具体地，所述S42包括：

S421：利用由一维时间卷积模块构成的特征嵌入模块将所述视频的视频特征X转换为特定于定位任务的特征X_e：

X_e＝f(X；W_e)，

其中，W_e为所述特征嵌入模块的参数，包括视频特征中每个维度数值的权重和偏置，X∈R^T×D,X_e∈R^T×D，R是实数域，T表示时间段数量，D代表特征维度。

需要说明的是，步骤S2中用来提取特征的深度3D卷积神经网络是用分类任务预训练的，提取的特征如果直接使用在本实施例的弱监督行为定位任务中不一定合适，因此这里使用一个一维的时间卷积模块处理这个特征，因为这个嵌入层(一维时间卷积模块)具有可以训练的参数W_e，随着网络的训练，这一层输出的特征更适合行为定位任务，目的是最终根据视频中每个片段或者帧的分类得分，获取连续行为的开始时间和结束时间。

具体地，λ＝1表示第t个视频片段为动作片段，λ＝0表示第t个视频片段为背景片段。本实施例的注意力模块由两个全连接层构成，第一个全连接层将视频片段由D＝2048维降低至D1＝256维，第二个全连接层将视频片段由D1＝256维降低至D2＝1维，表示每个视频片段中存在动作的概率。随后，在全连接层的输出后面采用一个Sigmoid函数，以将概率限制在0到1之间。

在假定该视频片段为动作片段的前提下，可以利用由一层时间卷积模块组成的分类层获得视频片段x_t属于第c类的概率P(y＝c|x_t,λ＝1)。

S423：根据链式法则获取所述特征x_t存在预定行为类别且属于第c类动作的概率：

P(y＝c|x_t)＝P(y＝c|x_t,λ＝1)P(λ＝1|x_t)，

其中，λ＝1代表所述视频片段存在动作；

S424：对视频中所有T个视频片段计算存在动作且属于第c类动作的概率s_t＝[s_t,0；…；s_t,c；…；s_t,C1]，构成所有T个视频片段在当前层次类别条件下的时间类激活序列其中，s_t,c＝P(y＝c|x_t)表示第t个视频片段属于第c类别的分数。

Loss＝∑_K(L_cls+L_supp)

其中，L_cls为分类损失函数，L_supp为背景抑制损失函数；

具体地，对于所述训练数据集中的第n个视频，从对应的时间类激活序列中选取每个动作类别激活值最高的k_a个片段，取均值然后通过softmax函数计算整个视频对于每个动作类别的分类分数/>利用对应的层次超类标签训练对应的分类模块，以使该分类模块关注到视频层次超类下具有类间区分性的部分片段。

在本实施例中，所述分类损失函数为：

其中，表示当前层次类别下第n个视频是否属于第c类别标签，如果属于，则否则/>使得视频中动作片段对于正确标注的类别的分类分数趋近于1，而错误标注的类别的分类分数趋近于0。/>为第n个视频对于第c类别标签的分类分数，

由于背景片段存在动作的概率很低，因此反应在时间类激活序列中表现为最低的激活值，背景抑制损失函数选取时间类激活序列中激活值最低的k_b个片段构成视频级别的背景类别得分通过强制背景属于所有动作类的概率均等以消除背景的类间区分性。

具体地，所述背景抑制损失函数为L_supp：

其中，

为第n个视频中每个视频片段属于第c类别标签的分数构成的时间类激活序列，/>为S_n[:,c]的一个子集，包含第n个视频中属于第c类别标签得分最低的k_b个视频片段的分数，/>为/>中被选中的第l个视频片段，/>为第n个视频中属于第c类别标签得分最低的k_b个视频片段的分数的平均值。在当前拥有C个类别的层次类别中，/>目的是使得每个视频中的背景片段属于该层次类别中每个类别的分类分数趋于一致，以减少背景片段的类间区分性。

最后，使用所有K个层次的超类标签训练一个分类模块，总损失函数为：

Loss＝∑_K(L_cls+L_supp)。

S44：利用随机梯度下降算法，根据所述时间类激活序列及所有K个层次的超类标签对所述深度神经网络模型中的分类模块进行训练，当判定所述总损失函数最小时，所述深度神经网络模型训练完成，获得经训练的深度神经网络模型。

进一步地，所述S5包括：

S51：获得所述待定位视频的视频特征；

具体地，对于待定位视频，首先根据步骤S2提取视频的RGB视频特征部分与光流视频特征部分，组成该待定位视频的视频特征。之后将视频特征输入步骤S4中经训练的深度神经网络模型中，对于每个层次类别标签训练的分类模块获取对应的时间类激活序列S₁,…,S_K,将对应类别的时间类激活序列取均值融合，由于各个层次类别数量不同导致不同层次类别训练的时间类激活序列类别维度数量不同，本实施例通过一个层次类别映射字典构造不同层次类别之间的对应关系，如原始类别1，2聚类形成超类1，则原始类别1，2聚类与超类1构成对应关系，这样在融合不同层次时间类激活序列时，原始类别1，2的时间激活序列均与超类1的时间激活序列融合。

接着，在所述融合后的时间类激活序列中，通过采用多个不同的阈值，将超过阈值的连续片段截取出来，得到所述连续片段的开始时间跟结束时间，连接连续的动作片段。随后，通过非极大值抑制方法去除重叠的连续片段，获取更准确时序定位的结果。具体地，如果多个连续片段存在重叠，则将所有连续片段的得分排序，其中连续片段的得分由这个连续片段中每个视频片段对于分类分数取均值获得，选中最高分及其对应的连续片段，遍历其余的连续片段，如果和当前最高分连续片段的重叠面积大于一定阈值，就将重叠片段删除。

以下通过仿真实验对本发明实施例的弱监督时序行为定位方法的效果做进一步说明。

1.仿真条件

本发明实施例是在中央处理器为Inter(R)Core(TM)i7-4790 3.60GHz CPU、NVIDIA Titan Xp GPU、Ubuntu 16.04操作系统上，运用美国Facebook公司开源的pytorch1.4进行仿真。数据库采用视频能理解挑战赛THUMOS Challenge开源的THUMOS14数据库。

实验中所对比的方法如下：

一是基于完整性建模及上下文分离的弱监督行为定位方法，实验中记为CMCS。该方法首先通过计算每个视频中每帧的光流强度，将光流强度最低的一些帧标记为硬性背景增加背景类别，其次在分类模块中采用了多个分支，通过一个多样性损失强迫每个分类分支关注视频的不同区域的动作片段以探索更完整的动作区域，该方法的每个分支都是采用单一的原始的视频类别进行训练。参考文献为Liu D,Jiang T,Wang Y.CompletenessModeling and Context Separation for Weakly Supervised Temporal ActionLocalization[C]//IEEE Conference on Computer Vision and PatternRecognition.IEEE,2019.

二是基于生成注意力的弱监督行为定位方法，实验中记为DGAM。该方法通过一个变分自编码器CVAE以生成与视频特征更匹配的注意力。首先固定CVAE，对定位模块以及分类模块进行优化；然后固定这两个模块，并用定位模块产生的为标签去优化CVAE。除此之外，该方法还采用了引导损失引导自顶向下的注意力与自底向上的时间类激活序列趋于一致以进一步获取更准确的注意力实现视频动作片段与背景上下文的分离。参考文献为Shi,B.,Dai,Q.,Mu,Y.,&Wang,J.(2020).Weakly-Supervised Action Localization byGenerative Attention Modeling.In Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition(pp.1009-1019).

三是基于对抗式背景感知损失的弱监督行为定位方法，实验中记为A2CL-PT。该方法分为两个分支，主分支首先通过实践类激活序列作为注意力，与原本的视频特征相乘，以获取视频的动作特征，通过1减去注意力再与原本的视频特征相乘，获取每个视频的背景特征，利用三元组损失和中心损失实现视频中动作特征和背景特征的分离抑制视频背景片段的激活。对于第二个分支，通过擦除由主分支获取的动作得分最高的区域，重复主分支的步骤，以实现挖掘更多的视频动作区域解决动作定位不完整的问题。参考文献为Min,K.,&Corso,J.J.(2020,August).Adversarial Background-Aware Loss for Weakly-supervised Temporal Activity Localization.In European Conference on ComputerVision(pp.283-299).Springer,Cham.

2.仿真内容

根据本发明实施例的方法和现有基于完整性建模及上下文分离的弱监督行为定位方法CMCS、基于生成注意力的弱监督行为定位方法DGAM、基于对抗式背景感知损失的弱监督行为定位方法A2CL-PT，在THUMOS14数据库上进行时序行为定位，实验结果如表1。可以看出本发明实施例的方法的行为定位结果实现最高的全类平均正确率(mAP，mean averageprecision)指标，其中，mAP@IoU＝q为在IoU(Intersection over Union，交并比)为q的情况下，mAP的准确率。

表1各种方法在THUMOS14数据集上实验结果

方法	mAP@IoU＝0.3	mAP@IoU＝0.4	mAP@IoU＝0.5	mAP@IoU＝0.6	mAP@IoU＝0.7
						CMCS	37.0％	30.9％	23.9％	13.9％	7.1％
DGAM	46.8％	38.2％	28.8％	19.8％	11.4％
						A2CL-PT	48.1％	39.0％	30.1％	19.2％	10.6％
本发明	50.3％	41.1％	32.8％	22.8％	12.4％

从表1可以看出，由于本发明实施例的方法所采用的层次类别模型充分利用动作间的类间共性信息，可以挖掘到视频中更多的动作区域，获取更完整的定位结果，验证了本发明的先进性。

综上，本实施例的基于层次类别模型的弱监督时序行为定位方法充分利用了行为动作间的类间共性信息，通过聚类原本类别产生超类，使原本具有较低类间区分性的类间共享子动作在超类之间具有较高的类间区分性，可以被新的分类所关注，并通过融合多个分类模型的时间类激活序列输出获取更完整的行为定位结果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于层次类别模型的弱监督时序行为定位方法，其特征在于，包括：

S5：利用所述经训练的预测网络对待定位视频进行预测，获得所述待定位视频中的行为片段

所述S3包括：

其中，N_c为所述训练数据集中具有第c类别的视频的数量，X_c，n为具有第c类别的第n个视频的视频特征；

S35：利用所述第二层次的视频超类标签C⁽²⁾，循环重复步骤S32至步骤S34，直至获取第K层次视频超类标签C^(K)，

所述S4包括：

Loss＝∑_K(L_cls+L_supp)

其中，L_cls为分类损失函数，L_supp为背景抑制损失函数；

2.根据权利要求1所述的基于层次类别模型的弱监督时序行为定位方法，其特征在于，所述S2包括：

3.根据权利要求2所述的基于层次类别模型的弱监督时序行为定位方法，其特征在于，所述S24包括：

将每个视频的RGB特征部分与光流特征部分进行拼接，获得每个视频的视频特征X＝[X^f；X^r]，其中，为所述视频的RGB特征部分，/>为所述视频的第t个视频片段的RGB特征部分，/>为所述视频的光流特征部分，/>为所述视频的第t个视频片段的光流特征部分。

4.根据权利要求3所述的基于层次类别模型的弱监督时序行为定位方法，其特征在于，每个所述分类模块均包括特征嵌入模块、以及并列连接在所述特征嵌入模块之后的注意力模块和分类层，其中，所述特征嵌入模块由一维时间卷积模块构成；所述注意力模块包括两个全连接层和位于所述全连接层之后的Sigmoid函数层；所述分类层包括一层时间卷积模块。

5.根据权利要求4所述的基于层次类别模型的弱监督时序行为定位方法，其特征在于，所述S42包括：

X_e＝f(X；W_e)，

S422：利用所述注意力模块获得所述视频的第t个视频片段的特征x_t存在预定行为类别的概率P(λ＝1|x_t)，并利用所述分类层获得所述特征x_t属于第c类的概率P(y＝c|x_t，λ＝1)；

P(y＝c|x_t)＝P(y＝c|x_t，λ＝1)P(λ＝1|x_t)，

其中，λ＝1代表所述视频片段存在动作；

S424：对视频中所有T个视频片段计算存在动作且属于第c类动作的概率s_t＝[s_t，0；...；s_t，c；...；s_t，C1]，其中，s_t，c＝P(y＝c|x_t)，构成所有T个视频片段在当前层次类别条件下的时间类激活序列

6.根据权利要求5所述的基于层次类别模型的弱监督时序行为定位方法，其特征在于，所述分类损失函数为：

7.根据权利要求5所述的基于层次类别模型的弱监督时序行为定位方法，其特征在于，所述背景抑制损失函数为L_supp：

其中，

8.根据权利要求1至7中任一项所述的基于层次类别模型的弱监督时序行为定位方法，其特征在于，所述S5包括：

S51：获得所述待定位视频的视频特征；