CN113591731A

CN113591731A - 一种基于知识蒸馏的弱监督视频时序行为定位方法

Info

Publication number: CN113591731A
Application number: CN202110887042.1A
Authority: CN
Inventors: 葛永新; 陈忠明; 李自强; 俞佳若; 徐玲; 黄晟; 洪明坚; 王洪星; 杨梦宁; 张小洪; 杨丹
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-11-02
Anticipated expiration: 2041-08-03
Also published as: CN113591731B

Abstract

本发明公开了一种基于知识蒸馏的弱监督视频时序行为定位方法。包括具体步骤如下：构建分类器模型，选定一个行为类别的已剪切视频，对该视频进行视频特征提取和嵌入特征计算；利用嵌入特征计算P_cls和W₀，之后计算出P_score；通过P_score计算交叉熵损失来更新分类器模型中各个模块的相关参数。构建教师学生网络模型，选择一个该行为类别的未剪切视频，通过特征提取模块提取特征，通过嵌入特征模块计算该未剪切视频的嵌入特征，然后将该嵌入特征通过背景干扰抑制模块和特征对齐模块处理后得到其增强特征；将增强特征通过非极大值抑制法计算出最终的定位结果。通过本方法可以降低背景信息带来的干扰和提高行为信息表达的完整性,使最终的定位结果更加准确。

Description

一种基于知识蒸馏的弱监督视频时序行为定位方法

技术领域

本发明涉及时序行为定位技术领域，特别涉及一种基于知识蒸馏的弱监督视频时序行为定位方法。

背景技术

近几十年来，视频行为分析技术得到了飞速发展，目前科研人员在对已剪切视频进行行为分类的行为识别任务上已取得很好的研究成果。然而现实场景中采集的视频数据大多为未剪切视频，与已剪切视频不同的是，一个未剪切视频通常较长，并可能包含有多个同一动作类别或不同动作类别的行为实例，且常常还包含有与动作本身不相关的背景片段。因此未剪切视频相较于已剪切视频十分复杂，而采用人工来对未剪切视频进行剪辑以得到已剪切视频十分耗费人力资源，因此使用计算机技术自动完成未剪切视频中存在的行为实例定位与分类具有重要意义，视频时序行为定位任务也随之被提出并研究。

此外，关于背景信息易干扰到知识蒸馏。在以已剪切视频为源域、未剪切视频为目标域的设置下，由于目标域中未剪切视频相较于已剪切视频存在背景信息，直接进行知识蒸馏来快速训练目标域上的分类器是不可靠的，因为目标域分类器不具备对背景信息处理的能力，导致分类损失难以收敛，或者分类器将视频背景信息也误激活为各种行为信息。因此，为了保证源域向目标域传递可靠的分类知识，那么研究如何合理处理背景信息带来的干扰十分重要。而且，已有的基于知识蒸馏的弱监督视频时序行为定位算法通常都是从源域向目标域仅传递分类知识，其效果往往只是更高效地训练、优化分类器，使分类器能更好地对未剪切视频进行分类，然而分类器对行为的表达仍然局限于只关注判别性帧。这是由于视频级类别注释这种弱标签导致的，因此如何进一步挖掘源域和目标域上的潜在信息，合理设计网络向目标域传递额外的知识，来提高网络对视频行为特征表达的完整性是一个重大挑战。如此，合理处理背景信息干扰以及完整表达视频的行为特征是该类研究最主要的研究课题。

发明内容

针对现有技术存在的上述问题，本发明要解决的技术问题是：通过降低视频背景信息干扰带来的蒸馏知识偏差和提高行为表达信息的完整性，来进一步提高行为定位的准确性。

为解决上述技术问题，本发明采用如下技术方案：一种基于知识蒸馏的弱监督视频时序行为定位方法，包括如下步骤：

S100：选取公开的已剪切视频数据集A₁，该已剪切视频数据集A₁包括多个已剪切视频，该已剪切视频数据集A₁包含C个行为类别；

S200：预设最大迭代次数，构建已剪切视频分类器模型，该已剪切视频分类器模型由特征提取模块、嵌入模块、判别模块和片段注意力模块构成；

S210：利用特征提取模块提取A₁中每个已剪切视频的视频特征，得到视频特征集

其中，B代表批次训练的样本数量，D₀代表每一帧视频提取的特征维度，T代表视频采样后的时间长度，R代表实数域；

S220：利用嵌入模块计算视频特征集F中每个视频的嵌入特征，得到嵌入特征集F_em，计算表达式如下：

F_em＝Conv1d₁(ReLU(F)) (2-1)

其中，

D₁代表每一帧视频提取的特征维度；

S230：将嵌入特征集F_em作为判别模块的输入，计算每个已剪切视频中包含的每个视频片段的类激活序列P_cls，计算表达式如下：

P_cls＝Conv1d₂(ReLU(FC(F_em))) (2-2)

其中，P_cls∈R^B×T×C，C代表总的行为类别数量；

将嵌入特征集F_em作为片段注意力模块的输入，计算每个已剪切视频中包含的每个视频片段对分类决策的重要程度W₀，计算表达式如下：

W₀＝Conv1d₃(ReLU(Softmax(FC(F_em)))) (2-3)

其中，W₀∈R^B×T×1；

S240：利用每个已剪切视频中每个视频片段相对应的P_cls和W₀计算该视频片段的哈达玛积并再求和，作为该已剪切视频对所有行为类别的分类概率P_score，计算表达式如下：

P_score＝∑(P_cls⊙W₀) (2-4)

其中，P_score∈R^B×C；

S250：通过P_score计算交叉熵损失，并利用梯度下降法更新已剪切视频分类器模型中各个模块的相关参数；

S260：当训练达到最大迭代次数时得到训练好的特征提取模块、训练好的判别模块、训练好的嵌入模块和训练好的片段注意力模块，并执行S300，否则返回S210；

S300：选择公开的未剪切视频数据集A₂，该未剪切视频数据集A₂包含多个未剪切视频，该未剪切视频数据集A₂包含C个行为类别，随机选择其中一部分视频作为训练集；

S310：建立教师学生网络模型并预设训练最大迭代次数，该教师学生网络模型包括背景干扰抑制模块和特征时序对齐模块；

S320：从A₂中选择一个行为类别为a的未剪切视频V_a，利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对未剪切视频V_a进行视频特征提取并计算该未剪切视频V_a的视频嵌入特征X；

S330：从A₁中随机选择一个行为类别为a的已剪切视频TV_a和一个行为类别为k的已剪切视频TV_k，a和k可以相同；

S340：利用步骤S260中训练好的特征提取模块和训练好的嵌入模块分别对TV_a和TV_k进行特征提取并计算相对应的嵌入特征，并对得到的嵌入特征进行池化操作，得到TV_a的池化后嵌入特征

和TV_k的池化后嵌入特征

S350：将步骤S320得到的V_a的视频特征X作为背景干扰抑制模块的输入，计算V_a的前景注意力的稀疏损失

和V_a的进行背景干扰抑制后的特征f_u∈R^T×2D；

S360：利用f_u计算V_a的增强特征f_en∈R^T×2D；

S370：利用V_a的增强特征f_en计算视频特征X的时序对齐相似损失

和交叉熵损失

S380：计算V_a的总损失

并利用梯度下降法更新教师学生网络模型中各个模块的相关参数，总损失

的计算表达式如下：

其中，α、β是超参数，表示该损失所占的比重；

S390：当训练达到最大迭代次数时得到训练好的教师学生网络模型，并执行S400；否则返回步骤S320；

S400：对任一未剪切待预测视频s，预设交并比阈值t和概率阈值P；

S410：利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对s进行视频特征提取并计算s的视频嵌入特征X′；

S420：利用步骤S390中训练好的教室学生网络模型对X′进行背景干扰抑制处理和特征时序对齐处理；

S430：将通过背景干扰抑制处理和特征时序对齐处理后的视频嵌入特征X′，利用步骤S260中训练好的判别模块和训练好的片段注意力模块计算得到s的视频片段的类激活序列P_cls和分类概率P_score；

S440：将s的每个视频片段的分类概率P_score与预设分类概率阈值P进行比较，筛除低于分类概率阈值P的视频片段对应的类激活序列，得到剩余行为类别组成的类激活序列P′_cls；

S450：通过线性插值方式计算新类激活序列A，计算表达式如下：

A＝interp1d(n_frames，P′_cls) (4-1)

其中interp1d表示插值函数，n_frames表示视频原有的帧数，P′_cls，A∈R^t×C′，t为经上采样后的视频帧数，C′为筛除后剩余行为类别构成的类别空间，P′_cls表示剩余行为类别组成的类激活序列；

S460：设A中行为类别为c的激活序列记为A_c，A_c中包含N个行为实例，计算A_c的算术平均值

和算术平均值偏移量

S470：利用

和

进行多阈值划分以及膨胀操作，得到行为类别为c的行为实例的初始定位框{(s_i，e_i，c，p_i)}_i，i∈N；

其中，s_i，e_i分别为预测第i个行为实例的开始边界和结束边界，c表示该行为实例所属类别，p_i表示该行为实例的预测分数；

S480：计算{(s_i，e_i，c，p_i)}_i的置信度q_i，得到{(s_i，e_i，c，p_i)}_i的正式定位框{(s_i，e_i，c，q_i)}_i，i∈N；

S490：重复S460-S480，计算A中所有行为类别中的所有行为实例的正式定位框，得到定位框集合{(s_m，e_m，C_m，q_m)}_m，m∈M；其中，M属于整数域；

S500：预设交并比阈值t，使用非极大值抑制法处理定位框集合{(s_m，e_m，C_m，q_m)}_m得到该未剪切待预测视频s最终的时序定位结果。

作为优选，所述S250中使用P_score计算交叉熵损失的具体步骤为：

计算交叉熵损失

计算表达式如下：

其中，

代表第j个类别的预测得分，y_c表示标签化成one-hot向量y的第c个分量，gt表示真实的标签。

作为优选，所述S320中利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对未剪切视频V_a进行视频特征提取并计算该未剪切视频V_a的视频嵌入特征X的具体步骤为：

S321：将未剪切视频V_a划分为多组视频片段，每组视频片段包含相同数量的视频帧；

S322：从每组视频片段中随机采样一张RGB图像和一张光流图像；

S323：利用步骤S260中训练好的特征提取模块提取RGB图像的RGB特征X_rgb和光流图像的光流特征X_optical，经过训练好的嵌入模块处理后将RGB特征X_rgb和光流特征X_optical进行拼接，得到未剪切视频V_a的视频嵌入特征X，计算表达式如下：

X＝g(X_rgb·X_optical) (3-2)

其中X_rgb，X_optical∈R^T×D，X∈R^T×2D，T表示视频片段数，D表示每一个片段表达的特征维度，g(·)表示拼接操作。

通过这种方式可以将视频的RGB、光流两种模态信息结合在一起作为后续模块的输入，可以增强信息的完整性。

作为优选，所述S340中得到TV_a的池化后嵌入特征f′_ta和TV_k的池化后嵌入特征f′_tk的具体步骤为：

S341：采用S320的方法计算TV_a的嵌入特征

和TV_k的嵌入特征

S342：分别对嵌入特征f_ta和嵌入特征f_tk进行相同时间大小的池化操作，得到池化后嵌入特征

作为优选，所述S350中计算V_a的前景注意力的稀疏损失

和V_a的进行背景干扰抑制后的特征f_u的具体步骤为：

S351：计算V_a的前景注意力λ，计算表达式如下：

λ＝Conv1d₄(Conv1d₅(Sigmoid(X))) (3-3)；

S352：计算V_a的前景注意力的稀疏损失

具体表达式如下：

其中，n_λ为前景注意力向量长度，λ_i为第i个未剪切视频片段的前景注意力；

S353：对V_a的前景注意力λ与V_a的视频嵌入特征X求哈达玛积，得到进行背景干扰抑制后的V_a的特征f_u，计算表达式如下：

f_u＝X⊙λ (3-5)。

通过这种注意力机制方式，来实现抑制视频中的背景信息，并且同时增强视频中的前景信息，抑制背景信息同时增强前景信息可以丰富行为特征的源信息，提高行为定位的准确性。

作为优选，所述S360中计算V_a的增强特征f_en的具体步骤为：

S361：计算V_a的通道注意力λ_channel，表达式如下：

out_max＝FC₂(ReLU(FC₁(MaxPook(f_u)))) (3-6)

out_avg＝FC₂(ReLU(FC₁(AvgPool(f_u)))) (3-7)

S362：计算V_a的增强特征f_en，具体表达式如下：

f_en＝f_u⊙λ_channel (3-9)

其中，λ_channel表示通道注意力。

通过学习通道的注意力，增强深层特征的语义信息，使模型分类更加准确。

作为优选，所述S370中利用V_a的增强特征f_en计算视频特征的时序对齐相似损失

和交叉熵损失

的具体步骤为：

S371：对V_a的增强特征f_en进行池化操作，具体计算过程如下：

out_a1＝AvgPool1d(f_en)

out_a2＝AvgPool1d(out_a1)

…

out_ak＝AvgPool1d(out_a(k-1)) (3-10)

其中，f_en∈R^T×2D，

表示池化输出特征，T_k表示第k个池化层输出特征的时间长度，也代表第k个池化层特征的时序尺度；

S372：将所有输出的池化特征进行合并，得到时序多尺度化的特征序列，该序列具体表达式如下：

f_multi-scal＝[out_a1，out_a2，…，out_ak] (3-11)

S373：选择行为类别为a的两个已剪切视频的嵌入特征

和

并进行自适应池化操作后得到的嵌入特征f_t1和嵌入特征f_t2具有相同的时间长度且值固定；

S374：将f_t1和f_t2进行复制，扩展为具有与同行为类别未剪切视频V_a同等的时间长度，具体表达式如下：

其中，

S375：将

和

分别与out_ak进行特征相似对齐，具体计算公式如下：

其中，

dis()表示距离度量函数，此处使用的是余弦相似距离；

S376：计算V_a所属时间尺度下的特征对齐损失

具体表达式如下：

其中，sim为1表示输入的两个向量相似，margin表示距离间隔；

S377：取该时间尺度下所有行为特征的对齐损失的平均值作为最终的时序对齐相似损失，计算表达式如下：

其中，

代表第j个行为类别的预测得分，

表示给定的真实类别标签对应的分类概率，gt表示真实的行为类别标签，n表示真实行为类别标签中行为类别的数量，y_i表示第i个标签。

作为优选，所述S480中计算{(s_i，e_i，c，p_i)}_i的置信度q_i的计算表达式为：

q_i＝m_inner-m_outer+γp_i (4-5)

其中，m_inner表示被激活行为部分的平均激活值，m_outer被视频行为周围边界部分的平均激活值，

表示类激活序列A中的第i个行为实例，l_i表示中间变量，γ表示权重变量。

这里基于这样的一个认知原理，一个好的定位框具有框内部的激活值应高于框外一部分的激活值这一属性。

作为优选，所述S500中使用非极大值抑制法处理定位框集合{(s_m，e_m，C_m，q_m)}_m得到最后的时序定位结果的具体步骤为：

S510：将S480计算得到的置信度q_i进行降序排列，得到每个置信度q_i相对应的定位框排序集合，表示为{B₁，B₂，...，B_n}；

S520：取最大置信度对应的定位框B₁，并计算B₁和其余所有定位框的交并比，交并比计算表达式如下：

S530：去除与B₁交并比大于阈值t的定位框并保留B₁，将除B₁以外的其余定位框作为新的定位框排序集合；

S540：重复S520-S530，依次对新的定位框排序集合进行筛除处理，直至筛除完所有的定位框，将最终保留下的定位框作为最终的时序定位结果。

相对于现有技术，本发明至少具有如下优点：

1.阐述了对于未剪切视频的背景信息抑制方法。本方法引入注意力机制来自适应增强未剪切视频的前景信息、抑制背景信息，更准确的提取视频的特征信息，提高了最终定位结果的准确率。

2.阐述了视频行为特征时序对齐方法。本方法设计了多视频中行为特征的时序对齐方法，来引导模型关注具有行为相关的帧信息，增强了模型对完整行为的表达能力，使得定位时所使用的源信息更加的丰富、清晰、准确。

3.建立多教师指导的教师学生网络模型。本方法新增一个教师分支，避免单教师指导下的学生网络对知识学习的偏差性，保证了教师学生网络模型所接收知识的一致性，提高了最终定位的准确性。

4.本方法在THUMOS14和ActivityNet13两个常用的公开数据集上进行了实验，结果表明了本文提出的在弱监督时序行为定位方法中使用多尺度时序特征对齐网络的有效性。

附图说明

图1为多教师指导的教师学生网络框架。

图2为已剪切视频的分类器工作流程。

图3位定位框边界置信度估计。

具体实施方式

下面对本发明作进一步详细说明。

本发明提出了一种基于知识蒸馏的弱监督视频时序行为定位方法。其核心思想是通过基于注意力机制的背景干扰抑制模块和基于时序多尺度化的特征对齐模块，以解决基于知识蒸馏的弱监督视频时序行为定位中存在的问题，因为不加约束地直接进行知识蒸馏容易传递出具有偏差的知识，此外，现有的基于知识蒸馏的弱监督视频时序行为定位算法缺乏对模型表达视频行为特征的完整性的探索。

本发明中对于给定的未剪切视频，陆续输入到由特征提取模块、背景干扰抑制模块、嵌入特征模块、通道注意力模块、片段注意力模块以及判别模块构成的模型中，得到类激活序列P_cls∈R^T×C和视频分类得分概率P_score∈R^C。然后筛除分类概率低于预定义阈值的行为类的激活序列，接着通过线性插值的方式沿时间维度对P_cls进行上采样得到新类激活序列A，对新激活序列进行膨胀操作得到行为实例的初始定位框；之后再计算定位框的置信度得到行为实例的正式定位框。在获得所有的正式定位框后，采用非极大值抑制法处理正式定位框集合得到最后的时序定位结果。

一种基于知识蒸馏的弱监督视频时序行为定位方法，其特征在于：包括如下步骤：

参见图1：

F_em＝Conv1d₁(ReLU(F)) (2-1)

其中，

D₁代表每一帧视频提取的特征维度；

S230：将嵌入特征集F_em作为判别模块的输入，该判别模块使用的判别算法为现有技术，计算每个已剪切视频中包含的每个视频片段的类激活序列P_cls，计算表达式如下：

P_cls＝Conv1d₂(ReLU(FC(F_em))) (2-2)

其中，P_cls∈R^B×T×C，C代表总的行为类别数量；

将嵌入特征集F_em作为片段注意力模块的输入，该片段注意力模块所使用的注意力机制算法为现有技术，计算每个已剪切视频中包含的每个视频片段对分类决策的重要程度W₀，计算表达式如下：

W₀＝Conv1d₃(ReLU(Softmax(FC(F_em)))) (2-3)

其中，W₀∈R^B×T×1；

P_score＝∑(P_cls⊙W₀) (2-4)

其中，P_score∈R^B×c；

所述S250中使用P_score计算交叉熵损失的具体步骤为：

计算交叉熵损失

计算表达式如下：

其中，

参见图2：

所述S320中利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对未剪切视频V_a进行视频特征提取并计算该未剪切视频V_a的视频嵌入特征X的具体步骤为：

X＝g(X_rgb·X_optical) (3-2)

S340：利用步骤S260中训练好的特征提取模块和训练好的嵌入模块分别对TV_a和TV_k进行特征提取并计算相对应的嵌入特征，并对得到的嵌入特征进行池化操作，得到TV_a的池化后嵌入特征f′_ta和TV_k的池化后嵌入特征f′_tk；

所述S340中得到TV_a的池化后嵌入特征f′_ta和TV_k的池化后嵌入特征f′_tk的具体步骤为：

S341：采用S320的方法计算TV_a的嵌入特征

和TV_k的嵌入特征

和V_a的进行背景干扰抑制后的特征f_u∈R^T×2D；

所述S350中计算V_a的前景注意力的稀疏损失

和V_a的进行背景干扰抑制后的特征f_u的具体步骤为：

S351：计算V_a的前景注意力λ，计算表达式如下：

λ＝Conv1d₄(Conv1d₅(Sigmoid(X))) (3-3)；

S352：计算V_a的前景注意力的稀疏损失

具体表达式如下：

f_u＝X⊙λ (3-5)。

S360：利用f_u计算V_a的增强特征f_en∈R^T×2D；

所述S360中计算V_a的增强特征f_en的具体步骤为：

S361：计算V_a的通道注意力λ_chann，表达式如下：

out_max＝FC₂(ReLU(FC₁(MaxPool(f_u)))) (3-6)

out_avg＝FC₂(ReLU(FC₁(AvgPool(f_u)))) (3-7)

S362：计算V_a的增强特征f_en，具体表达式如下：

f_en＝f_u⊙λ_channel (3-9)

其中，λ_channel表示通道注意力。

和交叉熵损失

所述S370中利用V_a的增强特征f_en计算视频特征的时序对齐相似损失

和交叉熵损失

的具体步骤为：

out_a1＝AvgPool1d(f_en)

out_a2＝AvgPool1d(out_a1)

…

out_ak＝AvgPool1d(out_a(k-1)) (3-10)

其中，f_en∈R^T×2D，

f_multi-scale＝[out_a1，out_a2，…，out_ak] (3-11)

S373：选择行为类别为a的两个已剪切视频的嵌入特征

和

其中，

S375：将

和

分别与out_ak进行特征相似对齐，具体计算公式如下：

其中，

dis()表示距离度量函数，此处使用的是余弦相似距离；

S376：计算V_a所属时间尺度下的特征对齐损失

具体表达式如下：

其中，sim为1表示输入的两个向量相似，为-1表示输入的两个向量不相似，因为本文在数据集中构造了和未剪切视频都同类的两个已剪切视频组成的集合，也构造了和未剪切视频有一个不同类的已剪切视频组成的集合；margin表示距离间隔；因为考虑到即使同类的已剪切视频的特征也存在一定的差异，那么用这种本就有差异的两个特征分别在未剪切视频特征上进行对齐，也可能存在差异，因此设定一个间隔来防止网络难以收敛或过拟合。

其中，

代表第j个行为类别的预测得分，

表示给定的groundtruth对应的分类概率，gt表示真实的行为类别标签，n表示真实行为类别标签中行为类别的数量，y_i表示第i个标签。

S380：计算V_a的总损失

的计算表达式如下：

其中，α、β是超参数，表示该损失所占的比重，本文α＝0.2，β＝0.6；

S390：当训练达到最大迭代次数时得到训练好的教师学生网络模型，并执行S400；否则返回步骤S320；教师学生网络的训练则迭代1000次，学习率设为0.0001；

S440：将s的每个视频片段的分类概率P_score与预设分类概率阈值P进行比较，筛除低于分类概率阈值P的视频片段对应的类激活序列，得到剩余行为类别组成的类激活序列P′_cls；本方法使用0.1作为阈值对分类概率低的行为类别的类激活序列进行移除；

A＝interp1d(n_frames，P′_cls) (4-1)

和算术平均值偏移量

类激活平均值上下偏移量设为0.025；

S470：利用

和

参见图3：

所述S480中计算{(s_i，e_i，c，p_i)}_i的置信度q_i的计算表达式为：

q_i＝m_inner-m_outer+γp_i (4-5)

表示类激活序列A中的第i个行为实例，l_i表示中间变量无实际意义，γ表示权重变量，γ在本文中设为0.6。

所述S500中使用非极大值抑制法处理定位框集合{(s_m，e_m，C_m，q_m)}_m得到最后的时序定位结果的具体步骤为：

S530：去除与B₁交并比大于阈值t的定位框并保留B₁，将除B₁以外的其余定位框作为新的定位框排序集合，非极大值抑制法的IoU阈值设为0.5；

实验验证

数据集

计算机视觉领域的视频时序行为定位任务常采用的数据集有THUMOS14、ActivityNet12以及ActivityNet13等。其中在全监督视频时序行为定位任务中常使用THUMOS14和ActivityNet12，因为这两个数据集主要包含的是未剪切视频数据以及其视频行为的时间边界注释和类别标签。对于基于知识蒸馏的弱监督视频时序行为定位，不仅需要未剪切视频数据，还需要已剪切视频数据的监督信息，因此在该任务上常采用THUMOS14和ActivityNet13，因为其类别空间与公开的已剪切视频数据集(如UCF101)的类别空间相交。本文的模型同样也在THUMOS14和ActivityNet13上进行了实验，下面对这两个数据集进行详细介绍。

THUMOS14数据集：THUMOS14是一个包含大量人类真实动作的开源视频数据集，主要由人类的日常活动和体育项目动作组成，例如“刷牙”、“吹头发”、“驾车”、“打高尔夫球”、“打篮球”等。该数据集可用于行为识别任务和时序行为检测任务(也即视频时序行为定位任务)。对于视频时序行为定位任务，其训练集是由UCF101动作数据集的20个子类的视频组成，共有2765个视频，均为已剪切视频；验证集是由和训练集同样的20个动作类的200个未剪切视频组成，还提供了每个未剪切视频中行为实例的视频级类别注释和时间边界注释；而测试集也提供了213个未剪切视频及其相应的标签。本文实验使用THUMOS14训练集来训练教师分类器；将训练集中的两个已剪切视频和验证集中的一个未剪切视频进行组合(未剪切视频至少和一个已剪切视频是同类的)，得到了4839个视频对，并按照8∶2的比例划分为本文的教师学生网络模型的训练样本集(约3871个样本)和验证样本集(约968个样本)；测试集的213个未剪切视频都用作本文模型的测试样本。

ActivityNet13数据集：ActivityNet13数据集是由大规模挑战竞赛ActivityNet提出，其涵盖了200多种人类的不同日常活动，如“遛狗”、“跳远”、“拖地”、“跳舞”等。该数据集也面向视频时序行为定位任务。其训练集有10024个未剪切视频；验证集含有4926个未剪切视频；其测试集含有5044个未剪切视频，但未提供标签信息。同样的本文使用UCF101动作数据集中与ActivityNet13类别空间相交的30个子类的已剪切视频(共3890个视频)来训练教师分类器。然后同样使用已剪切视频和训练集中的未剪切视频进行组合构成模型的训练样本集，使用验证集的未剪切视频作为测试集来评估模型性能，由于ActivityNet测试集未对本地提供标签，因此同其他相关工作类似，在验证集上测试后仅在验证集上比较结果。

评估指标

由于难以保证数据集中的各个行为类别的样本均衡，所以视频时序行为定位任务不采用准确率(Accuracy)这一指标，而是普遍采用mAP(mean AveragePrecision)这一指标。其计算方法如下：

对于行为类别c的一个未剪切视频示例c⁽ⁱ⁾进行预测时，得到所有的预测定位框数

若与真实的定位框的IoU大于等于预定阈值(如0.1)的有

个，那么对于该实例的查准率

对于类别c的平均查准率(AP，Average Precision)为：

其中N_c表示行为类别c所含有视频实例的个数。对于IoU＝0.1下的所有类别计算平均查准率后，再求平均即可得到mAP：

其中j＝0，1，...，N_class-1，N_class代表行为类别总数。

对不同IoU阈值计算mAP后取平均值又可得到AmAP。

为了同其他相关方法进行对比，本文在THUMOS14数据集上评估的IoU阈值为0.1到0.5的mAP值，而在ActivityNet13上评估IoU阈值为0.5、0.75、0.95的mAP值。

评估结果及分析

THUMOS14数据集：

表1展示了本文方法与其他相关工作在THUMOS14数据集测试集上的结果，并分别和全监督和弱监督两种监督类型的方法进行了对比(表中将IEEE Transactions期刊简写为Trans，Neurocomputing简写为Neuroc)，其中对比的弱监督方法均采用I3D模型作为特征提取模块。

从表中可以看到，在IoU阈值为0.1的条件下，本文模型的mAP值超过一些早期的全监督方法。对于弱监督方法，本文提出的方法在IoU＝0.1，0.2，0.3，0.4，0.5条件下均超过2019年之前的工作，并且在IoU阈值从0.1到0.4下超过CVPR2019会议中Liu等人的工作，在IoU阈值为0.5时落后2.3％。分析原因发现，2019年之后的弱监督视频时序行为定位方法都开始对未剪切视频的背景片段进行了建模，将背景作为一个行为类，因此2019后的方法性能提升较大，也对在高IoU阈值下的定位结果提升巨大。但总结目前的知识蒸馏定位方法，均未对背景信息进行语义建模，即将背景当做一个类别来优化分类器。其原因在于，背景信息是难以蒸馏的，因为将背景作为行为类，可以制作背景类的已剪切视频，但难以制作背景类的未剪切视频，或者可仍为所有未剪切视频都是背景类的正样本(未剪切视频都含有背景)，而缺乏相应的负样本，因此本文暂未引入背景类信息进行知识蒸馏。

在弱监督的知识蒸馏设置下，本文方法的结果超过了大部分的知识蒸馏方法。在IoU为0.3下甚至超过了ActionBytes模型的1.4％，但在高IoU值相对落后，平均AmAP超过较新方法的1.8％。分析发现，当教师分支的视频特征对向学生分支的视频特征对齐时，如果两个教师分支都出现了错误，容易导致学生分支关注与行为实例周围的特征，在预测时的行为边界产生偏移，因此预测的定位结果在低IoU值下保持不变，在高IoU值下偏低。

总之，在THUMOS14测试集上的实验结果表明了本文方法的有效性，但也存在提升空间。

表1在THUMOS14测试集上的结果

ActivityNet13数据集：

表2展示了本文方法与其他相关工作在ActivityNet13数据集的验证集上的测试结果，同样和全监督与弱监督方法进行了对比。由于大部分的方法都提供了IoU＝0.5，0.75，0.95的结果，因此本文也按照这3个IoU阈值进行对比。另外，由于弱监督视频时序定位都是按照200个类的视频进行对比，为公平比较结果，本文同现有知识蒸馏方法进行类似处理：在30个类的视频下训练好模型后，再进行微调到200个类的视频时序行为定位。并且由于一些方法仅在ActivityNet12上进行实验，并未在数据相对庞大的ActivityNet13上进行实验，因此本文并未加入这些方法的对比。从表中可以看到，本文方法的效果距全监督方法的结果仍有差距，对比近几年的弱监督方法(包含基于知识蒸馏的弱监督视频时序行为定位)，在高IoU阈值已经超过较新的方法，如在IoU阈值为0.75、0.95情况下分别提高了0.8％、0.5％的查准率，但在低IoU阈值下比较靠后，平均mAP落后较新方法的0.06％。分析其原因发现，这是由于本文提出的分类器在ActivityNet13数据集上分类效果相较与THUMOS14数据集而言欠佳导致的，而在低IoU下，分类器只要对视频采样的少部分片段分类准确就能提升低IoU阈值的查准率。

表2在ActivityNet13验证集上的结果

消融实验

为了分析提出的背景干扰抑制模块和特征对齐模块这两个模块的有效性，本文在THUMOS14数据集上进行了消融实验。

首先分别移除背景干扰抑制模块和特征对齐模块来进行对照实验。其结果如表3(迭代次数均为1000轮)所示，当仅移除了背景干扰抑制模块后，在IoU＝0.1下定位mAP值降低了1.3％，在IoU＝0.5的阈值下结果降低了1.1％，阈值从0.1到0.5平均下降了1.7％。又仅当移除特征对齐模块时，IoU＝0.1的阈值下定位结果降低了38.9％，在IoU＝0.5的阈值下结果降低了13.7％，阈值从0.1到0.5平均下降了27.9％，而在此基础上又移除背景干扰抑制模块，结果下降更多。这一方面说明，本文提出的背景干扰抑制模块和特征对齐模块都对模型性能有贡献，并且特征对齐模块的贡献远大于背景干扰抑制模块的贡献，两个模块的贡献是可叠加的；另一方面，仅去除背景干扰抑制模块后的网络仍是基于知识蒸馏的弱监督视频时序行为定位，而仅去除特征对齐模块后，模型实际上并没有利用到已剪切视频的信息，已经退化成了一般的弱监督视频时序行为定位，并且特征时序对齐模块深层的池化特征具有较长时序信息，参与相似度量有近似语义对齐的作用，所以移除后导致定位结果大幅度下降，这也印证了已剪切视频和未剪切视频组合作为额外的监督信息，是对模型性能有所增益的。

表3 THUMOS14测试集上的消融实验

另外为了验证本文对STPN中L1正则损失改进的有效性，本文使用两种前景注意力约束损失函数分别进行了实验，结果如表4所示。从表中发现STPN的

损失比去掉背景干扰抑制模块的测试结果还低。分析发现STPN的

损失简单地对视频中所有前景注意力求L1范数之和，那么长视频的损失会普遍偏大，短视频的损失会普遍较低。并且该损失只是简单地稀疏化前景注意力，使模型可能会忽略一部分行为信息较弱的行为实例，导致比不加该损失的效果还差。而本文提出的

对视频所有前景注意力计算平均值，因此对视频长度不敏感，并且改进后，前景注意力要么靠近0，要么靠近于1，引导了模型区分前背景信息，因此效果更优。

表4 STPN的前景注意力损失

和改进后本方法的损失

结果对比。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于知识蒸馏的弱监督视频时序行为定位方法，其特征在于：包括如下步骤：

F_em＝Conv1d₁(ReLU(F)) (2-1)

其中，

D₁代表每一帧视频提取的特征维度；

P_cls＝Conv1d₂(ReLU(FC(F_em))) (2-2)

其中，P_cls∈R^B×T×C，C代表总的行为类别数量；

W₀＝Conv1d₃(ReLU(Softmax(FC(F_em)))) (2-3)

其中，W₀∈R^B×T×1；

P_score＝∑(P_cls⊙W₀) (2-4)

其中，P_score∈R^B×C；

和V_a的进行背景干扰抑制后的特征f_u∈R^T×2D；

S360：利用f_u计算V_a的增强特征f_en∈R^T×2D；

和交叉熵损失

S380：计算V_a的总损失

的计算表达式如下：

其中，α、β是超参数，表示该损失所占的比重；

A＝interp1d(n_frames，P′_cls) (4-1)

和算术平均值偏移量

S470：利用

和

2.如权利要求1所述的一种基于知识蒸馏的弱监督视频时序行为定位方法，其特征在于：所述S250中使用P_score计算交叉熵损失的具体步骤为：

计算交叉熵损失

计算表达式如下：

其中，

代表第j个类别的预测得分，y_c表示标签化成one-hot向量y的第c个分量，g^t表示真实的标签。

3.如权利要求2所述的一种基于知识蒸馏的弱监督视频时序行为定位方法，其特征在于：所述S320中利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对未剪切视频V_a进行视频特征提取并计算该未剪切视频V_a的视频嵌入特征X的具体步骤为：

X＝g(X_rgb·X_optical) (3-2)

4.如权利要求3所述的一种基于知识蒸馏的弱监督视频时序行为定位方法，其特征在于：所述S340中得到TV_a的池化后嵌入特征f′_ta和TV_k的池化后嵌入特征f′_tk的具体步骤为：

S341：采用S320的方法计算TV_a的嵌入特征

和TV_k的嵌入特征

5.如权利要求4所述的一种基于知识蒸馏的弱监督视频时序行为定位方法，其特征在于：所述S350中计算V_a的前景注意力的稀疏损失

和V_a的进行背景干扰抑制后的特征f_u的具体步骤为：

S351：计算V_a的前景注意力λ，计算表达式如下：

λ＝Conv1d₄(Conv1d₅(Sigmoid(X))) (3-3)；

S352：计算V_a的前景注意力的稀疏损失

具体表达式如下：

f_u＝X⊙λ (3-5)。

6.如权利要求5所述的一种基于知识蒸馏的弱监督视频时序行为定位方法，其特征在于：所述S360中计算V_a的增强特征f_en的具体步骤为：

S361：计算V_a的通道注意力λ_channel，表达式如下：

out_max＝FC₂(ReLU(FC₁(MaxPool(f_u)))) (3-6)

out_avg＝FC₂(ReLU(FC₁(AvgPool(f_u)))) (3-7)

S362：计算V_a的增强特征f_en，具体表达式如下：

f_en＝f_u⊙λ_channel (3-9)

其中，λ_channel表示通道注意力。

7.如权利要求6所述的一种基于知识蒸馏的弱监督视频时序行为定位方法，其特征在于：所述S370中利用V_a的增强特征f_en计算视频特征的时序对齐相似损失

和交叉熵损失

的具体步骤为：

其中，f_en∈R^T×2D，

f_multi-scal＝[out_a1，out_a2，…，out_ak] (3-11)

S373：选择行为类别为a的两个已剪切视频的嵌入特征

和

其中，

S375：将

和

分别与out_ak进行特征相似对齐，具体计算公式如下：

其中，

dis()表示距离度量函数，此处使用的是余弦相似距离；

S376：计算V_a所属时间尺度下的特征对齐损失

具体表达式如下：

其中，sim为1表示输入的两个向量相似，margin表示距离间隔；

其中，

代表第j个行为类别的预测得分，

8.如权利要求7所述的一种基于知识蒸馏的弱监督视频时序行为定位方法，其特征在于：所述S480中计算{(s_i，e_i，c，p_i)}_i的置信度q_i的计算表达式为：

q_i＝m_inner-m_outer+γp_i (4-5)

表示类激活序列A中的第i个行为实例，l_i表示中间变量无实际意义，γ表示权重变量。

9.如权利要求8所述的一种基于知识蒸馏的弱监督视频时序行为定位方法，其特征在于：所述S500中使用非极大值抑制法处理定位框集合{(s_m，e_m，C_m，q_m)}_m得到最后的时序定位结果的具体步骤为：