CN113591731A - 一种基于知识蒸馏的弱监督视频时序行为定位方法 - Google Patents

一种基于知识蒸馏的弱监督视频时序行为定位方法 Download PDF

Info

Publication number
CN113591731A
CN113591731A CN202110887042.1A CN202110887042A CN113591731A CN 113591731 A CN113591731 A CN 113591731A CN 202110887042 A CN202110887042 A CN 202110887042A CN 113591731 A CN113591731 A CN 113591731A
Authority
CN
China
Prior art keywords
video
behavior
feature
module
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110887042.1A
Other languages
English (en)
Other versions
CN113591731B (zh
Inventor
葛永新
陈忠明
李自强
俞佳若
徐玲
黄晟
洪明坚
王洪星
杨梦宁
张小洪
杨丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202110887042.1A priority Critical patent/CN113591731B/zh
Publication of CN113591731A publication Critical patent/CN113591731A/zh
Application granted granted Critical
Publication of CN113591731B publication Critical patent/CN113591731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识蒸馏的弱监督视频时序行为定位方法。包括具体步骤如下:构建分类器模型,选定一个行为类别的已剪切视频,对该视频进行视频特征提取和嵌入特征计算;利用嵌入特征计算Pcls和W0,之后计算出Pscore;通过Pscore计算交叉熵损失来更新分类器模型中各个模块的相关参数。构建教师学生网络模型,选择一个该行为类别的未剪切视频,通过特征提取模块提取特征,通过嵌入特征模块计算该未剪切视频的嵌入特征,然后将该嵌入特征通过背景干扰抑制模块和特征对齐模块处理后得到其增强特征;将增强特征通过非极大值抑制法计算出最终的定位结果。通过本方法可以降低背景信息带来的干扰和提高行为信息表达的完整性,使最终的定位结果更加准确。

Description

一种基于知识蒸馏的弱监督视频时序行为定位方法
技术领域
本发明涉及时序行为定位技术领域,特别涉及一种基于知识蒸馏的弱监督视频时序行为定位方法。
背景技术
近几十年来,视频行为分析技术得到了飞速发展,目前科研人员在对已剪切视频进行行为分类的行为识别任务上已取得很好的研究成果。然而现实场景中采集的视频数据大多为未剪切视频,与已剪切视频不同的是,一个未剪切视频通常较长,并可能包含有多个同一动作类别或不同动作类别的行为实例,且常常还包含有与动作本身不相关的背景片段。因此未剪切视频相较于已剪切视频十分复杂,而采用人工来对未剪切视频进行剪辑以得到已剪切视频十分耗费人力资源,因此使用计算机技术自动完成未剪切视频中存在的行为实例定位与分类具有重要意义,视频时序行为定位任务也随之被提出并研究。
此外,关于背景信息易干扰到知识蒸馏。在以已剪切视频为源域、未剪切视频为目标域的设置下,由于目标域中未剪切视频相较于已剪切视频存在背景信息,直接进行知识蒸馏来快速训练目标域上的分类器是不可靠的,因为目标域分类器不具备对背景信息处理的能力,导致分类损失难以收敛,或者分类器将视频背景信息也误激活为各种行为信息。因此,为了保证源域向目标域传递可靠的分类知识,那么研究如何合理处理背景信息带来的干扰十分重要。而且,已有的基于知识蒸馏的弱监督视频时序行为定位算法通常都是从源域向目标域仅传递分类知识,其效果往往只是更高效地训练、优化分类器,使分类器能更好地对未剪切视频进行分类,然而分类器对行为的表达仍然局限于只关注判别性帧。这是由于视频级类别注释这种弱标签导致的,因此如何进一步挖掘源域和目标域上的潜在信息,合理设计网络向目标域传递额外的知识,来提高网络对视频行为特征表达的完整性是一个重大挑战。如此,合理处理背景信息干扰以及完整表达视频的行为特征是该类研究最主要的研究课题。
发明内容
针对现有技术存在的上述问题,本发明要解决的技术问题是:通过降低视频背景信息干扰带来的蒸馏知识偏差和提高行为表达信息的完整性,来进一步提高行为定位的准确性。
为解决上述技术问题,本发明采用如下技术方案:一种基于知识蒸馏的弱监督视频时序行为定位方法,包括如下步骤:
S100:选取公开的已剪切视频数据集A1,该已剪切视频数据集A1包括多个已剪切视频,该已剪切视频数据集A1包含C个行为类别;
S200:预设最大迭代次数,构建已剪切视频分类器模型,该已剪切视频分类器模型由特征提取模块、嵌入模块、判别模块和片段注意力模块构成;
S210:利用特征提取模块提取A1中每个已剪切视频的视频特征,得到视频特征集
Figure BDA0003194524540000021
其中,B代表批次训练的样本数量,D0代表每一帧视频提取的特征维度,T代表视频采样后的时间长度,R代表实数域;
S220:利用嵌入模块计算视频特征集F中每个视频的嵌入特征,得到嵌入特征集Fem,计算表达式如下:
Fem=Conv1d1(ReLU(F)) (2-1)
其中,
Figure BDA0003194524540000022
D1代表每一帧视频提取的特征维度;
S230:将嵌入特征集Fem作为判别模块的输入,计算每个已剪切视频中包含的每个视频片段的类激活序列Pcls,计算表达式如下:
Pcls=Conv1d2(ReLU(FC(Fem))) (2-2)
其中,Pcls∈RB×T×C,C代表总的行为类别数量;
将嵌入特征集Fem作为片段注意力模块的输入,计算每个已剪切视频中包含的每个视频片段对分类决策的重要程度W0,计算表达式如下:
W0=Conv1d3(ReLU(Softmax(FC(Fem)))) (2-3)
其中,W0∈RB×T×1
S240:利用每个已剪切视频中每个视频片段相对应的Pcls和W0计算该视频片段的哈达玛积并再求和,作为该已剪切视频对所有行为类别的分类概率Pscore,计算表达式如下:
Pscore=∑(Pcls⊙W0) (2-4)
其中,Pscore∈RB×C
S250:通过Pscore计算交叉熵损失,并利用梯度下降法更新已剪切视频分类器模型中各个模块的相关参数;
S260:当训练达到最大迭代次数时得到训练好的特征提取模块、训练好的判别模块、训练好的嵌入模块和训练好的片段注意力模块,并执行S300,否则返回S210;
S300:选择公开的未剪切视频数据集A2,该未剪切视频数据集A2包含多个未剪切视频,该未剪切视频数据集A2包含C个行为类别,随机选择其中一部分视频作为训练集;
S310:建立教师学生网络模型并预设训练最大迭代次数,该教师学生网络模型包括背景干扰抑制模块和特征时序对齐模块;
S320:从A2中选择一个行为类别为a的未剪切视频Va,利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对未剪切视频Va进行视频特征提取并计算该未剪切视频Va的视频嵌入特征X;
S330:从A1中随机选择一个行为类别为a的已剪切视频TVa和一个行为类别为k的已剪切视频TVk,a和k可以相同;
S340:利用步骤S260中训练好的特征提取模块和训练好的嵌入模块分别对TVa和TVk进行特征提取并计算相对应的嵌入特征,并对得到的嵌入特征进行池化操作,得到TVa的池化后嵌入特征
Figure BDA0003194524540000037
和TVk的池化后嵌入特征
Figure BDA0003194524540000038
S350:将步骤S320得到的Va的视频特征X作为背景干扰抑制模块的输入,计算Va的前景注意力的稀疏损失
Figure BDA0003194524540000031
和Va的进行背景干扰抑制后的特征fu∈RT×2D
S360:利用fu计算Va的增强特征fen∈RT×2D
S370:利用Va的增强特征fen计算视频特征X的时序对齐相似损失
Figure BDA0003194524540000032
和交叉熵损失
Figure BDA0003194524540000033
S380:计算Va的总损失
Figure BDA0003194524540000034
并利用梯度下降法更新教师学生网络模型中各个模块的相关参数,总损失
Figure BDA0003194524540000035
的计算表达式如下:
Figure BDA0003194524540000036
其中,α、β是超参数,表示该损失所占的比重;
S390:当训练达到最大迭代次数时得到训练好的教师学生网络模型,并执行S400;否则返回步骤S320;
S400:对任一未剪切待预测视频s,预设交并比阈值t和概率阈值P;
S410:利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对s进行视频特征提取并计算s的视频嵌入特征X′;
S420:利用步骤S390中训练好的教室学生网络模型对X′进行背景干扰抑制处理和特征时序对齐处理;
S430:将通过背景干扰抑制处理和特征时序对齐处理后的视频嵌入特征X′,利用步骤S260中训练好的判别模块和训练好的片段注意力模块计算得到s的视频片段的类激活序列Pcls和分类概率Pscore
S440:将s的每个视频片段的分类概率Pscore与预设分类概率阈值P进行比较,筛除低于分类概率阈值P的视频片段对应的类激活序列,得到剩余行为类别组成的类激活序列P′cls
S450:通过线性插值方式计算新类激活序列A,计算表达式如下:
A=interp1d(nframes,P′cls) (4-1)
其中interp1d表示插值函数,nframes表示视频原有的帧数,P′cls,A∈Rt×C′,t为经上采样后的视频帧数,C′为筛除后剩余行为类别构成的类别空间,P′cls表示剩余行为类别组成的类激活序列;
S460:设A中行为类别为c的激活序列记为Ac,Ac中包含N个行为实例,计算Ac的算术平均值
Figure BDA0003194524540000041
和算术平均值偏移量
Figure BDA0003194524540000042
S470:利用
Figure BDA0003194524540000043
Figure BDA0003194524540000044
进行多阈值划分以及膨胀操作,得到行为类别为c的行为实例的初始定位框{(si,ei,c,pi)}i,i∈N;
其中,si,ei分别为预测第i个行为实例的开始边界和结束边界,c表示该行为实例所属类别,pi表示该行为实例的预测分数;
S480:计算{(si,ei,c,pi)}i的置信度qi,得到{(si,ei,c,pi)}i的正式定位框{(si,ei,c,qi)}i,i∈N;
S490:重复S460-S480,计算A中所有行为类别中的所有行为实例的正式定位框,得到定位框集合{(sm,em,Cm,qm)}m,m∈M;其中,M属于整数域;
S500:预设交并比阈值t,使用非极大值抑制法处理定位框集合{(sm,em,Cm,qm)}m得到该未剪切待预测视频s最终的时序定位结果。
作为优选,所述S250中使用Pscore计算交叉熵损失的具体步骤为:
计算交叉熵损失
Figure BDA0003194524540000045
计算表达式如下:
Figure BDA0003194524540000046
其中,
Figure BDA0003194524540000047
代表第j个类别的预测得分,yc表示标签化成one-hot向量y的第c个分量,gt表示真实的标签。
作为优选,所述S320中利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对未剪切视频Va进行视频特征提取并计算该未剪切视频Va的视频嵌入特征X的具体步骤为:
S321:将未剪切视频Va划分为多组视频片段,每组视频片段包含相同数量的视频帧;
S322:从每组视频片段中随机采样一张RGB图像和一张光流图像;
S323:利用步骤S260中训练好的特征提取模块提取RGB图像的RGB特征Xrgb和光流图像的光流特征Xoptical,经过训练好的嵌入模块处理后将RGB特征Xrgb和光流特征Xoptical进行拼接,得到未剪切视频Va的视频嵌入特征X,计算表达式如下:
X=g(Xrgb·Xoptical) (3-2)
其中Xrgb,Xoptical∈RT×D,X∈RT×2D,T表示视频片段数,D表示每一个片段表达的特征维度,g(·)表示拼接操作。
通过这种方式可以将视频的RGB、光流两种模态信息结合在一起作为后续模块的输入,可以增强信息的完整性。
作为优选,所述S340中得到TVa的池化后嵌入特征f′ta和TVk的池化后嵌入特征f′tk的具体步骤为:
S341:采用S320的方法计算TVa的嵌入特征
Figure BDA0003194524540000051
和TVk的嵌入特征
Figure BDA0003194524540000052
S342:分别对嵌入特征fta和嵌入特征ftk进行相同时间大小的池化操作,得到池化后嵌入特征
Figure BDA0003194524540000053
作为优选,所述S350中计算Va的前景注意力的稀疏损失
Figure BDA0003194524540000054
和Va的进行背景干扰抑制后的特征fu的具体步骤为:
S351:计算Va的前景注意力λ,计算表达式如下:
λ=Conv1d4(Conv1d5(Sigmoid(X))) (3-3);
S352:计算Va的前景注意力的稀疏损失
Figure BDA0003194524540000055
具体表达式如下:
Figure BDA0003194524540000056
其中,nλ为前景注意力向量长度,λi为第i个未剪切视频片段的前景注意力;
S353:对Va的前景注意力λ与Va的视频嵌入特征X求哈达玛积,得到进行背景干扰抑制后的Va的特征fu,计算表达式如下:
fu=X⊙λ (3-5)。
通过这种注意力机制方式,来实现抑制视频中的背景信息,并且同时增强视频中的前景信息,抑制背景信息同时增强前景信息可以丰富行为特征的源信息,提高行为定位的准确性。
作为优选,所述S360中计算Va的增强特征fen的具体步骤为:
S361:计算Va的通道注意力λchannel,表达式如下:
outmax=FC2(ReLU(FC1(MaxPook(fu)))) (3-6)
outavg=FC2(ReLU(FC1(AvgPool(fu)))) (3-7)
Figure BDA0003194524540000057
S362:计算Va的增强特征fen,具体表达式如下:
fen=fu⊙λchannel (3-9)
其中,λchannel表示通道注意力。
通过学习通道的注意力,增强深层特征的语义信息,使模型分类更加准确。
作为优选,所述S370中利用Va的增强特征fen计算视频特征的时序对齐相似损失
Figure BDA0003194524540000061
和交叉熵损失
Figure BDA0003194524540000062
的具体步骤为:
S371:对Va的增强特征fen进行池化操作,具体计算过程如下:
outa1=AvgPool1d(fen)
outa2=AvgPool1d(outa1)
outak=AvgPool1d(outa(k-1)) (3-10)
其中,fen∈RT×2D
Figure BDA0003194524540000063
表示池化输出特征,Tk表示第k个池化层输出特征的时间长度,也代表第k个池化层特征的时序尺度;
S372:将所有输出的池化特征进行合并,得到时序多尺度化的特征序列,该序列具体表达式如下:
fmulti-scal=[outa1,outa2,…,outak] (3-11)
S373:选择行为类别为a的两个已剪切视频的嵌入特征
Figure BDA0003194524540000064
Figure BDA0003194524540000065
并进行自适应池化操作后得到的嵌入特征ft1和嵌入特征ft2具有相同的时间长度且值固定;
S374:将ft1和ft2进行复制,扩展为具有与同行为类别未剪切视频Va同等的时间长度,具体表达式如下:
Figure BDA0003194524540000066
Figure BDA0003194524540000067
其中,
Figure BDA0003194524540000068
S375:将
Figure BDA0003194524540000069
Figure BDA00031945245400000610
分别与outak进行特征相似对齐,具体计算公式如下:
Figure BDA00031945245400000611
Figure BDA00031945245400000612
其中,
Figure BDA00031945245400000613
dis()表示距离度量函数,此处使用的是余弦相似距离;
S376:计算Va所属时间尺度下的特征对齐损失
Figure BDA00031945245400000614
具体表达式如下:
Figure BDA00031945245400000615
Figure BDA0003194524540000071
其中,sim为1表示输入的两个向量相似,margin表示距离间隔;
S377:取该时间尺度下所有行为特征的对齐损失的平均值作为最终的时序对齐相似损失,计算表达式如下:
Figure BDA0003194524540000072
Figure BDA0003194524540000073
Figure BDA0003194524540000074
其中,
Figure BDA0003194524540000075
代表第j个行为类别的预测得分,
Figure BDA0003194524540000076
表示给定的真实类别标签对应的分类概率,gt表示真实的行为类别标签,n表示真实行为类别标签中行为类别的数量,yi表示第i个标签。
作为优选,所述S480中计算{(si,ei,c,pi)}i的置信度qi的计算表达式为:
Figure BDA00031945245400000711
Figure BDA0003194524540000077
Figure BDA0003194524540000078
qi=minner-mouter+γpi (4-5)
其中,minner表示被激活行为部分的平均激活值,mouter被视频行为周围边界部分的平均激活值,
Figure BDA0003194524540000079
表示类激活序列A中的第i个行为实例,li表示中间变量,γ表示权重变量。
这里基于这样的一个认知原理,一个好的定位框具有框内部的激活值应高于框外一部分的激活值这一属性。
作为优选,所述S500中使用非极大值抑制法处理定位框集合{(sm,em,Cm,qm)}m得到最后的时序定位结果的具体步骤为:
S510:将S480计算得到的置信度qi进行降序排列,得到每个置信度qi相对应的定位框排序集合,表示为{B1,B2,...,Bn};
S520:取最大置信度对应的定位框B1,并计算B1和其余所有定位框的交并比,交并比计算表达式如下:
Figure BDA00031945245400000710
S530:去除与B1交并比大于阈值t的定位框并保留B1,将除B1以外的其余定位框作为新的定位框排序集合;
S540:重复S520-S530,依次对新的定位框排序集合进行筛除处理,直至筛除完所有的定位框,将最终保留下的定位框作为最终的时序定位结果。
相对于现有技术,本发明至少具有如下优点:
1.阐述了对于未剪切视频的背景信息抑制方法。本方法引入注意力机制来自适应增强未剪切视频的前景信息、抑制背景信息,更准确的提取视频的特征信息,提高了最终定位结果的准确率。
2.阐述了视频行为特征时序对齐方法。本方法设计了多视频中行为特征的时序对齐方法,来引导模型关注具有行为相关的帧信息,增强了模型对完整行为的表达能力,使得定位时所使用的源信息更加的丰富、清晰、准确。
3.建立多教师指导的教师学生网络模型。本方法新增一个教师分支,避免单教师指导下的学生网络对知识学习的偏差性,保证了教师学生网络模型所接收知识的一致性,提高了最终定位的准确性。
4.本方法在THUMOS14和ActivityNet13两个常用的公开数据集上进行了实验,结果表明了本文提出的在弱监督时序行为定位方法中使用多尺度时序特征对齐网络的有效性。
附图说明
图1为多教师指导的教师学生网络框架。
图2为已剪切视频的分类器工作流程。
图3位定位框边界置信度估计。
具体实施方式
下面对本发明作进一步详细说明。
本发明提出了一种基于知识蒸馏的弱监督视频时序行为定位方法。其核心思想是通过基于注意力机制的背景干扰抑制模块和基于时序多尺度化的特征对齐模块,以解决基于知识蒸馏的弱监督视频时序行为定位中存在的问题,因为不加约束地直接进行知识蒸馏容易传递出具有偏差的知识,此外,现有的基于知识蒸馏的弱监督视频时序行为定位算法缺乏对模型表达视频行为特征的完整性的探索。
本发明中对于给定的未剪切视频,陆续输入到由特征提取模块、背景干扰抑制模块、嵌入特征模块、通道注意力模块、片段注意力模块以及判别模块构成的模型中,得到类激活序列Pcls∈RT×C和视频分类得分概率Pscore∈RC。然后筛除分类概率低于预定义阈值的行为类的激活序列,接着通过线性插值的方式沿时间维度对Pcls进行上采样得到新类激活序列A,对新激活序列进行膨胀操作得到行为实例的初始定位框;之后再计算定位框的置信度得到行为实例的正式定位框。在获得所有的正式定位框后,采用非极大值抑制法处理正式定位框集合得到最后的时序定位结果。
一种基于知识蒸馏的弱监督视频时序行为定位方法,其特征在于:包括如下步骤:
参见图1:
S100:选取公开的已剪切视频数据集A1,该已剪切视频数据集A1包括多个已剪切视频,该已剪切视频数据集A1包含C个行为类别;
S200:预设最大迭代次数,构建已剪切视频分类器模型,该已剪切视频分类器模型由特征提取模块、嵌入模块、判别模块和片段注意力模块构成;
S210:利用特征提取模块提取A1中每个已剪切视频的视频特征,得到视频特征集
Figure BDA0003194524540000091
其中,B代表批次训练的样本数量,D0代表每一帧视频提取的特征维度,T代表视频采样后的时间长度,R代表实数域;
S220:利用嵌入模块计算视频特征集F中每个视频的嵌入特征,得到嵌入特征集Fem,计算表达式如下:
Fem=Conv1d1(ReLU(F)) (2-1)
其中,
Figure BDA0003194524540000092
D1代表每一帧视频提取的特征维度;
S230:将嵌入特征集Fem作为判别模块的输入,该判别模块使用的判别算法为现有技术,计算每个已剪切视频中包含的每个视频片段的类激活序列Pcls,计算表达式如下:
Pcls=Conv1d2(ReLU(FC(Fem))) (2-2)
其中,Pcls∈RB×T×C,C代表总的行为类别数量;
将嵌入特征集Fem作为片段注意力模块的输入,该片段注意力模块所使用的注意力机制算法为现有技术,计算每个已剪切视频中包含的每个视频片段对分类决策的重要程度W0,计算表达式如下:
W0=Conv1d3(ReLU(Softmax(FC(Fem)))) (2-3)
其中,W0∈RB×T×1
S240:利用每个已剪切视频中每个视频片段相对应的Pcls和W0计算该视频片段的哈达玛积并再求和,作为该已剪切视频对所有行为类别的分类概率Pscore,计算表达式如下:
Pscore=∑(Pcls⊙W0) (2-4)
其中,Pscore∈RB×c
S250:通过Pscore计算交叉熵损失,并利用梯度下降法更新已剪切视频分类器模型中各个模块的相关参数;
所述S250中使用Pscore计算交叉熵损失的具体步骤为:
计算交叉熵损失
Figure BDA0003194524540000101
计算表达式如下:
Figure BDA0003194524540000102
其中,
Figure BDA0003194524540000103
代表第j个类别的预测得分,yc表示标签化成one-hot向量y的第c个分量,gt表示真实的标签。
S260:当训练达到最大迭代次数时得到训练好的特征提取模块、训练好的判别模块、训练好的嵌入模块和训练好的片段注意力模块,并执行S300,否则返回S210;
S300:选择公开的未剪切视频数据集A2,该未剪切视频数据集A2包含多个未剪切视频,该未剪切视频数据集A2包含C个行为类别,随机选择其中一部分视频作为训练集;
参见图2:
S310:建立教师学生网络模型并预设训练最大迭代次数,该教师学生网络模型包括背景干扰抑制模块和特征时序对齐模块;
S320:从A2中选择一个行为类别为a的未剪切视频Va,利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对未剪切视频Va进行视频特征提取并计算该未剪切视频Va的视频嵌入特征X;
所述S320中利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对未剪切视频Va进行视频特征提取并计算该未剪切视频Va的视频嵌入特征X的具体步骤为:
S321:将未剪切视频Va划分为多组视频片段,每组视频片段包含相同数量的视频帧;
S322:从每组视频片段中随机采样一张RGB图像和一张光流图像;
S323:利用步骤S260中训练好的特征提取模块提取RGB图像的RGB特征Xrgb和光流图像的光流特征Xoptical,经过训练好的嵌入模块处理后将RGB特征Xrgb和光流特征Xoptical进行拼接,得到未剪切视频Va的视频嵌入特征X,计算表达式如下:
X=g(Xrgb·Xoptical) (3-2)
其中Xrgb,Xoptical∈RT×D,X∈RT×2D,T表示视频片段数,D表示每一个片段表达的特征维度,g(·)表示拼接操作。
S330:从A1中随机选择一个行为类别为a的已剪切视频TVa和一个行为类别为k的已剪切视频TVk,a和k可以相同;
S340:利用步骤S260中训练好的特征提取模块和训练好的嵌入模块分别对TVa和TVk进行特征提取并计算相对应的嵌入特征,并对得到的嵌入特征进行池化操作,得到TVa的池化后嵌入特征f′ta和TVk的池化后嵌入特征f′tk
所述S340中得到TVa的池化后嵌入特征f′ta和TVk的池化后嵌入特征f′tk的具体步骤为:
S341:采用S320的方法计算TVa的嵌入特征
Figure BDA0003194524540000111
和TVk的嵌入特征
Figure BDA0003194524540000112
S342:分别对嵌入特征fta和嵌入特征ftk进行相同时间大小的池化操作,得到池化后嵌入特征
Figure BDA0003194524540000113
S350:将步骤S320得到的Va的视频特征X作为背景干扰抑制模块的输入,计算Va的前景注意力的稀疏损失
Figure BDA0003194524540000114
和Va的进行背景干扰抑制后的特征fu∈RT×2D
所述S350中计算Va的前景注意力的稀疏损失
Figure BDA0003194524540000115
和Va的进行背景干扰抑制后的特征fu的具体步骤为:
S351:计算Va的前景注意力λ,计算表达式如下:
λ=Conv1d4(Conv1d5(Sigmoid(X))) (3-3);
S352:计算Va的前景注意力的稀疏损失
Figure BDA0003194524540000116
具体表达式如下:
Figure BDA0003194524540000117
其中,nλ为前景注意力向量长度,λi为第i个未剪切视频片段的前景注意力;
S353:对Va的前景注意力λ与Va的视频嵌入特征X求哈达玛积,得到进行背景干扰抑制后的Va的特征fu,计算表达式如下:
fu=X⊙λ (3-5)。
S360:利用fu计算Va的增强特征fen∈RT×2D
所述S360中计算Va的增强特征fen的具体步骤为:
S361:计算Va的通道注意力λchann,表达式如下:
outmax=FC2(ReLU(FC1(MaxPool(fu)))) (3-6)
outavg=FC2(ReLU(FC1(AvgPool(fu)))) (3-7)
Figure BDA0003194524540000118
S362:计算Va的增强特征fen,具体表达式如下:
fen=fu⊙λchannel (3-9)
其中,λchannel表示通道注意力。
S370:利用Va的增强特征fen计算视频特征X的时序对齐相似损失
Figure BDA0003194524540000121
和交叉熵损失
Figure BDA0003194524540000122
所述S370中利用Va的增强特征fen计算视频特征的时序对齐相似损失
Figure BDA0003194524540000123
和交叉熵损失
Figure BDA0003194524540000124
的具体步骤为:
S371:对Va的增强特征fen进行池化操作,具体计算过程如下:
outa1=AvgPool1d(fen)
outa2=AvgPool1d(outa1)
outak=AvgPool1d(outa(k-1)) (3-10)
其中,fen∈RT×2D
Figure BDA0003194524540000125
表示池化输出特征,Tk表示第k个池化层输出特征的时间长度,也代表第k个池化层特征的时序尺度;
S372:将所有输出的池化特征进行合并,得到时序多尺度化的特征序列,该序列具体表达式如下:
fmulti-scale=[outa1,outa2,…,outak] (3-11)
S373:选择行为类别为a的两个已剪切视频的嵌入特征
Figure BDA0003194524540000126
Figure BDA0003194524540000127
并进行自适应池化操作后得到的嵌入特征ft1和嵌入特征ft2具有相同的时间长度且值固定;
S374:将ft1和ft2进行复制,扩展为具有与同行为类别未剪切视频Va同等的时间长度,具体表达式如下:
Figure BDA0003194524540000128
Figure BDA0003194524540000129
其中,
Figure BDA00031945245400001210
S375:将
Figure BDA00031945245400001211
Figure BDA00031945245400001212
分别与outak进行特征相似对齐,具体计算公式如下:
Figure BDA00031945245400001213
Figure BDA00031945245400001214
其中,
Figure BDA00031945245400001215
dis()表示距离度量函数,此处使用的是余弦相似距离;
S376:计算Va所属时间尺度下的特征对齐损失
Figure BDA00031945245400001216
具体表达式如下:
Figure BDA00031945245400001217
Figure BDA0003194524540000131
其中,sim为1表示输入的两个向量相似,为-1表示输入的两个向量不相似,因为本文在数据集中构造了和未剪切视频都同类的两个已剪切视频组成的集合,也构造了和未剪切视频有一个不同类的已剪切视频组成的集合;margin表示距离间隔;因为考虑到即使同类的已剪切视频的特征也存在一定的差异,那么用这种本就有差异的两个特征分别在未剪切视频特征上进行对齐,也可能存在差异,因此设定一个间隔来防止网络难以收敛或过拟合。
S377:取该时间尺度下所有行为特征的对齐损失的平均值作为最终的时序对齐相似损失,计算表达式如下:
Figure BDA0003194524540000132
Figure BDA0003194524540000133
Figure BDA0003194524540000134
其中,
Figure BDA0003194524540000135
代表第j个行为类别的预测得分,
Figure BDA0003194524540000136
表示给定的groundtruth对应的分类概率,gt表示真实的行为类别标签,n表示真实行为类别标签中行为类别的数量,yi表示第i个标签。
S380:计算Va的总损失
Figure BDA0003194524540000137
并利用梯度下降法更新教师学生网络模型中各个模块的相关参数,总损失
Figure BDA0003194524540000138
的计算表达式如下:
Figure BDA0003194524540000139
其中,α、β是超参数,表示该损失所占的比重,本文α=0.2,β=0.6;
S390:当训练达到最大迭代次数时得到训练好的教师学生网络模型,并执行S400;否则返回步骤S320;教师学生网络的训练则迭代1000次,学习率设为0.0001;
S400:对任一未剪切待预测视频s,预设交并比阈值t和概率阈值P;
S410:利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对s进行视频特征提取并计算s的视频嵌入特征X′;
S420:利用步骤S390中训练好的教室学生网络模型对X′进行背景干扰抑制处理和特征时序对齐处理;
S430:将通过背景干扰抑制处理和特征时序对齐处理后的视频嵌入特征X′,利用步骤S260中训练好的判别模块和训练好的片段注意力模块计算得到s的视频片段的类激活序列Pcls和分类概率Pscore
S440:将s的每个视频片段的分类概率Pscore与预设分类概率阈值P进行比较,筛除低于分类概率阈值P的视频片段对应的类激活序列,得到剩余行为类别组成的类激活序列P′cls;本方法使用0.1作为阈值对分类概率低的行为类别的类激活序列进行移除;
S450:通过线性插值方式计算新类激活序列A,计算表达式如下:
A=interp1d(nframes,P′cls) (4-1)
其中interp1d表示插值函数,nframes表示视频原有的帧数,P′cls,A∈Rt×C′,t为经上采样后的视频帧数,C′为筛除后剩余行为类别构成的类别空间,P′cls表示剩余行为类别组成的类激活序列;
S460:设A中行为类别为c的激活序列记为Ac,Ac中包含N个行为实例,计算Ac的算术平均值
Figure BDA0003194524540000141
和算术平均值偏移量
Figure BDA0003194524540000142
类激活平均值上下偏移量设为0.025;
S470:利用
Figure BDA0003194524540000143
Figure BDA0003194524540000144
进行多阈值划分以及膨胀操作,得到行为类别为c的行为实例的初始定位框{(si,ei,c,pi)}i,i∈N;
其中,si,ei分别为预测第i个行为实例的开始边界和结束边界,c表示该行为实例所属类别,pi表示该行为实例的预测分数;
参见图3:
S480:计算{(si,ei,c,pi)}i的置信度qi,得到{(si,ei,c,pi)}i的正式定位框{(si,ei,c,qi)}i,i∈N;
所述S480中计算{(si,ei,c,pi)}i的置信度qi的计算表达式为:
Figure BDA0003194524540000145
Figure BDA0003194524540000146
Figure BDA0003194524540000147
qi=minner-mouter+γpi (4-5)
其中,minner表示被激活行为部分的平均激活值,mouter被视频行为周围边界部分的平均激活值,
Figure BDA0003194524540000148
表示类激活序列A中的第i个行为实例,li表示中间变量无实际意义,γ表示权重变量,γ在本文中设为0.6。
S490:重复S460-S480,计算A中所有行为类别中的所有行为实例的正式定位框,得到定位框集合{(sm,em,Cm,qm)}m,m∈M;其中,M属于整数域;
S500:预设交并比阈值t,使用非极大值抑制法处理定位框集合{(sm,em,Cm,qm)}m得到该未剪切待预测视频s最终的时序定位结果。
所述S500中使用非极大值抑制法处理定位框集合{(sm,em,Cm,qm)}m得到最后的时序定位结果的具体步骤为:
S510:将S480计算得到的置信度qi进行降序排列,得到每个置信度qi相对应的定位框排序集合,表示为{B1,B2,...,Bn};
S520:取最大置信度对应的定位框B1,并计算B1和其余所有定位框的交并比,交并比计算表达式如下:
Figure BDA0003194524540000151
S530:去除与B1交并比大于阈值t的定位框并保留B1,将除B1以外的其余定位框作为新的定位框排序集合,非极大值抑制法的IoU阈值设为0.5;
S540:重复S520-S530,依次对新的定位框排序集合进行筛除处理,直至筛除完所有的定位框,将最终保留下的定位框作为最终的时序定位结果。
实验验证
数据集
计算机视觉领域的视频时序行为定位任务常采用的数据集有THUMOS14、ActivityNet12以及ActivityNet13等。其中在全监督视频时序行为定位任务中常使用THUMOS14和ActivityNet12,因为这两个数据集主要包含的是未剪切视频数据以及其视频行为的时间边界注释和类别标签。对于基于知识蒸馏的弱监督视频时序行为定位,不仅需要未剪切视频数据,还需要已剪切视频数据的监督信息,因此在该任务上常采用THUMOS14和ActivityNet13,因为其类别空间与公开的已剪切视频数据集(如UCF101)的类别空间相交。本文的模型同样也在THUMOS14和ActivityNet13上进行了实验,下面对这两个数据集进行详细介绍。
THUMOS14数据集:THUMOS14是一个包含大量人类真实动作的开源视频数据集,主要由人类的日常活动和体育项目动作组成,例如“刷牙”、“吹头发”、“驾车”、“打高尔夫球”、“打篮球”等。该数据集可用于行为识别任务和时序行为检测任务(也即视频时序行为定位任务)。对于视频时序行为定位任务,其训练集是由UCF101动作数据集的20个子类的视频组成,共有2765个视频,均为已剪切视频;验证集是由和训练集同样的20个动作类的200个未剪切视频组成,还提供了每个未剪切视频中行为实例的视频级类别注释和时间边界注释;而测试集也提供了213个未剪切视频及其相应的标签。本文实验使用THUMOS14训练集来训练教师分类器;将训练集中的两个已剪切视频和验证集中的一个未剪切视频进行组合(未剪切视频至少和一个已剪切视频是同类的),得到了4839个视频对,并按照8∶2的比例划分为本文的教师学生网络模型的训练样本集(约3871个样本)和验证样本集(约968个样本);测试集的213个未剪切视频都用作本文模型的测试样本。
ActivityNet13数据集:ActivityNet13数据集是由大规模挑战竞赛ActivityNet提出,其涵盖了200多种人类的不同日常活动,如“遛狗”、“跳远”、“拖地”、“跳舞”等。该数据集也面向视频时序行为定位任务。其训练集有10024个未剪切视频;验证集含有4926个未剪切视频;其测试集含有5044个未剪切视频,但未提供标签信息。同样的本文使用UCF101动作数据集中与ActivityNet13类别空间相交的30个子类的已剪切视频(共3890个视频)来训练教师分类器。然后同样使用已剪切视频和训练集中的未剪切视频进行组合构成模型的训练样本集,使用验证集的未剪切视频作为测试集来评估模型性能,由于ActivityNet测试集未对本地提供标签,因此同其他相关工作类似,在验证集上测试后仅在验证集上比较结果。
评估指标
由于难以保证数据集中的各个行为类别的样本均衡,所以视频时序行为定位任务不采用准确率(Accuracy)这一指标,而是普遍采用mAP(mean AveragePrecision)这一指标。其计算方法如下:
对于行为类别c的一个未剪切视频示例c(i)进行预测时,得到所有的预测定位框数
Figure BDA0003194524540000161
若与真实的定位框的IoU大于等于预定阈值(如0.1)的有
Figure BDA0003194524540000162
个,那么对于该实例的查准率
Figure BDA0003194524540000163
Figure BDA0003194524540000164
对于类别c的平均查准率(AP,Average Precision)为:
Figure BDA0003194524540000165
其中Nc表示行为类别c所含有视频实例的个数。对于IoU=0.1下的所有类别计算平均查准率后,再求平均即可得到mAP:
Figure BDA0003194524540000166
其中j=0,1,...,Nclass-1,Nclass代表行为类别总数。
对不同IoU阈值计算mAP后取平均值又可得到AmAP。
为了同其他相关方法进行对比,本文在THUMOS14数据集上评估的IoU阈值为0.1到0.5的mAP值,而在ActivityNet13上评估IoU阈值为0.5、0.75、0.95的mAP值。
评估结果及分析
THUMOS14数据集:
表1展示了本文方法与其他相关工作在THUMOS14数据集测试集上的结果,并分别和全监督和弱监督两种监督类型的方法进行了对比(表中将IEEE Transactions期刊简写为Trans,Neurocomputing简写为Neuroc),其中对比的弱监督方法均采用I3D模型作为特征提取模块。
从表中可以看到,在IoU阈值为0.1的条件下,本文模型的mAP值超过一些早期的全监督方法。对于弱监督方法,本文提出的方法在IoU=0.1,0.2,0.3,0.4,0.5条件下均超过2019年之前的工作,并且在IoU阈值从0.1到0.4下超过CVPR2019会议中Liu等人的工作,在IoU阈值为0.5时落后2.3%。分析原因发现,2019年之后的弱监督视频时序行为定位方法都开始对未剪切视频的背景片段进行了建模,将背景作为一个行为类,因此2019后的方法性能提升较大,也对在高IoU阈值下的定位结果提升巨大。但总结目前的知识蒸馏定位方法,均未对背景信息进行语义建模,即将背景当做一个类别来优化分类器。其原因在于,背景信息是难以蒸馏的,因为将背景作为行为类,可以制作背景类的已剪切视频,但难以制作背景类的未剪切视频,或者可仍为所有未剪切视频都是背景类的正样本(未剪切视频都含有背景),而缺乏相应的负样本,因此本文暂未引入背景类信息进行知识蒸馏。
在弱监督的知识蒸馏设置下,本文方法的结果超过了大部分的知识蒸馏方法。在IoU为0.3下甚至超过了ActionBytes模型的1.4%,但在高IoU值相对落后,平均AmAP超过较新方法的1.8%。分析发现,当教师分支的视频特征对向学生分支的视频特征对齐时,如果两个教师分支都出现了错误,容易导致学生分支关注与行为实例周围的特征,在预测时的行为边界产生偏移,因此预测的定位结果在低IoU值下保持不变,在高IoU值下偏低。
总之,在THUMOS14测试集上的实验结果表明了本文方法的有效性,但也存在提升空间。
表1在THUMOS14测试集上的结果
Figure BDA0003194524540000181
ActivityNet13数据集:
表2展示了本文方法与其他相关工作在ActivityNet13数据集的验证集上的测试结果,同样和全监督与弱监督方法进行了对比。由于大部分的方法都提供了IoU=0.5,0.75,0.95的结果,因此本文也按照这3个IoU阈值进行对比。另外,由于弱监督视频时序定位都是按照200个类的视频进行对比,为公平比较结果,本文同现有知识蒸馏方法进行类似处理:在30个类的视频下训练好模型后,再进行微调到200个类的视频时序行为定位。并且由于一些方法仅在ActivityNet12上进行实验,并未在数据相对庞大的ActivityNet13上进行实验,因此本文并未加入这些方法的对比。从表中可以看到,本文方法的效果距全监督方法的结果仍有差距,对比近几年的弱监督方法(包含基于知识蒸馏的弱监督视频时序行为定位),在高IoU阈值已经超过较新的方法,如在IoU阈值为0.75、0.95情况下分别提高了0.8%、0.5%的查准率,但在低IoU阈值下比较靠后,平均mAP落后较新方法的0.06%。分析其原因发现,这是由于本文提出的分类器在ActivityNet13数据集上分类效果相较与THUMOS14数据集而言欠佳导致的,而在低IoU下,分类器只要对视频采样的少部分片段分类准确就能提升低IoU阈值的查准率。
表2在ActivityNet13验证集上的结果
Figure BDA0003194524540000191
消融实验
为了分析提出的背景干扰抑制模块和特征对齐模块这两个模块的有效性,本文在THUMOS14数据集上进行了消融实验。
首先分别移除背景干扰抑制模块和特征对齐模块来进行对照实验。其结果如表3(迭代次数均为1000轮)所示,当仅移除了背景干扰抑制模块后,在IoU=0.1下定位mAP值降低了1.3%,在IoU=0.5的阈值下结果降低了1.1%,阈值从0.1到0.5平均下降了1.7%。又仅当移除特征对齐模块时,IoU=0.1的阈值下定位结果降低了38.9%,在IoU=0.5的阈值下结果降低了13.7%,阈值从0.1到0.5平均下降了27.9%,而在此基础上又移除背景干扰抑制模块,结果下降更多。这一方面说明,本文提出的背景干扰抑制模块和特征对齐模块都对模型性能有贡献,并且特征对齐模块的贡献远大于背景干扰抑制模块的贡献,两个模块的贡献是可叠加的;另一方面,仅去除背景干扰抑制模块后的网络仍是基于知识蒸馏的弱监督视频时序行为定位,而仅去除特征对齐模块后,模型实际上并没有利用到已剪切视频的信息,已经退化成了一般的弱监督视频时序行为定位,并且特征时序对齐模块深层的池化特征具有较长时序信息,参与相似度量有近似语义对齐的作用,所以移除后导致定位结果大幅度下降,这也印证了已剪切视频和未剪切视频组合作为额外的监督信息,是对模型性能有所增益的。
表3 THUMOS14测试集上的消融实验
Figure BDA0003194524540000192
另外为了验证本文对STPN中L1正则损失改进的有效性,本文使用两种前景注意力约束损失函数分别进行了实验,结果如表4所示。从表中发现STPN的
Figure BDA0003194524540000193
损失比去掉背景干扰抑制模块的测试结果还低。分析发现STPN的
Figure BDA0003194524540000201
损失简单地对视频中所有前景注意力求L1范数之和,那么长视频的损失会普遍偏大,短视频的损失会普遍较低。并且该损失只是简单地稀疏化前景注意力,使模型可能会忽略一部分行为信息较弱的行为实例,导致比不加该损失的效果还差。而本文提出的
Figure BDA0003194524540000202
对视频所有前景注意力计算平均值,因此对视频长度不敏感,并且改进后,前景注意力要么靠近0,要么靠近于1,引导了模型区分前背景信息,因此效果更优。
表4 STPN的前景注意力损失
Figure BDA0003194524540000203
和改进后本方法的损失
Figure BDA0003194524540000204
结果对比。
Figure BDA0003194524540000205
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于知识蒸馏的弱监督视频时序行为定位方法,其特征在于:包括如下步骤:
S100:选取公开的已剪切视频数据集A1,该已剪切视频数据集A1包括多个已剪切视频,该已剪切视频数据集A1包含C个行为类别;
S200:预设最大迭代次数,构建已剪切视频分类器模型,该已剪切视频分类器模型由特征提取模块、嵌入模块、判别模块和片段注意力模块构成;
S210:利用特征提取模块提取A1中每个已剪切视频的视频特征,得到视频特征集
Figure FDA0003194524530000011
其中,B代表批次训练的样本数量,D0代表每一帧视频提取的特征维度,T代表视频采样后的时间长度,R代表实数域;
S220:利用嵌入模块计算视频特征集F中每个视频的嵌入特征,得到嵌入特征集Fem,计算表达式如下:
Fem=Conv1d1(ReLU(F)) (2-1)
其中,
Figure FDA0003194524530000012
D1代表每一帧视频提取的特征维度;
S230:将嵌入特征集Fem作为判别模块的输入,计算每个已剪切视频中包含的每个视频片段的类激活序列Pcls,计算表达式如下:
Pcls=Conv1d2(ReLU(FC(Fem))) (2-2)
其中,Pcls∈RB×T×C,C代表总的行为类别数量;
将嵌入特征集Fem作为片段注意力模块的输入,计算每个已剪切视频中包含的每个视频片段对分类决策的重要程度W0,计算表达式如下:
W0=Conv1d3(ReLU(Softmax(FC(Fem)))) (2-3)
其中,W0∈RB×T×1
S240:利用每个已剪切视频中每个视频片段相对应的Pcls和W0计算该视频片段的哈达玛积并再求和,作为该已剪切视频对所有行为类别的分类概率Pscore,计算表达式如下:
Pscore=∑(Pcls⊙W0) (2-4)
其中,Pscore∈RB×C
S250:通过Pscore计算交叉熵损失,并利用梯度下降法更新已剪切视频分类器模型中各个模块的相关参数;
S260:当训练达到最大迭代次数时得到训练好的特征提取模块、训练好的判别模块、训练好的嵌入模块和训练好的片段注意力模块,并执行S300,否则返回S210;
S300:选择公开的未剪切视频数据集A2,该未剪切视频数据集A2包含多个未剪切视频,该未剪切视频数据集A2包含C个行为类别,随机选择其中一部分视频作为训练集;
S310:建立教师学生网络模型并预设训练最大迭代次数,该教师学生网络模型包括背景干扰抑制模块和特征时序对齐模块;
S320:从A2中选择一个行为类别为a的未剪切视频Va,利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对未剪切视频Va进行视频特征提取并计算该未剪切视频Va的视频嵌入特征X;
S330:从A1中随机选择一个行为类别为a的已剪切视频TVa和一个行为类别为k的已剪切视频TVk,a和k可以相同;
S340:利用步骤S260中训练好的特征提取模块和训练好的嵌入模块分别对TVa和TVk进行特征提取并计算相对应的嵌入特征,并对得到的嵌入特征进行池化操作,得到TVa的池化后嵌入特征f′ta和TVk的池化后嵌入特征f′tk
S350:将步骤S320得到的Va的视频特征X作为背景干扰抑制模块的输入,计算Va的前景注意力的稀疏损失
Figure FDA0003194524530000021
和Va的进行背景干扰抑制后的特征fu∈RT×2D
S360:利用fu计算Va的增强特征fen∈RT×2D
S370:利用Va的增强特征fen计算视频特征X的时序对齐相似损失
Figure FDA0003194524530000022
和交叉熵损失
Figure FDA0003194524530000023
S380:计算Va的总损失
Figure FDA0003194524530000024
并利用梯度下降法更新教师学生网络模型中各个模块的相关参数,总损失
Figure FDA0003194524530000025
的计算表达式如下:
Figure FDA0003194524530000026
其中,α、β是超参数,表示该损失所占的比重;
S390:当训练达到最大迭代次数时得到训练好的教师学生网络模型,并执行S400;否则返回步骤S320;
S400:对任一未剪切待预测视频s,预设交并比阈值t和概率阈值P;
S410:利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对s进行视频特征提取并计算s的视频嵌入特征X′;
S420:利用步骤S390中训练好的教室学生网络模型对X′进行背景干扰抑制处理和特征时序对齐处理;
S430:将通过背景干扰抑制处理和特征时序对齐处理后的视频嵌入特征X′,利用步骤S260中训练好的判别模块和训练好的片段注意力模块计算得到s的视频片段的类激活序列Pcls和分类概率Pscore
S440:将s的每个视频片段的分类概率Pscore与预设分类概率阈值P进行比较,筛除低于分类概率阈值P的视频片段对应的类激活序列,得到剩余行为类别组成的类激活序列P′cls
S450:通过线性插值方式计算新类激活序列A,计算表达式如下:
A=interp1d(nframes,P′cls) (4-1)
其中interp1d表示插值函数,nframes表示视频原有的帧数,P′cls,A∈Rt×C′,t为经上采样后的视频帧数,C′为筛除后剩余行为类别构成的类别空间,P′cls表示剩余行为类别组成的类激活序列;
S460:设A中行为类别为c的激活序列记为Ac,Ac中包含N个行为实例,计算Ac的算术平均值
Figure FDA0003194524530000031
和算术平均值偏移量
Figure FDA0003194524530000032
S470:利用
Figure FDA0003194524530000033
Figure FDA0003194524530000034
进行多阈值划分以及膨胀操作,得到行为类别为c的行为实例的初始定位框{(si,ei,c,pi)}i,i∈N;
其中,si,ei分别为预测第i个行为实例的开始边界和结束边界,c表示该行为实例所属类别,pi表示该行为实例的预测分数;
S480:计算{(si,ei,c,pi)}i的置信度qi,得到{(si,ei,c,pi)}i的正式定位框{(si,ei,c,qi)}i,i∈N;
S490:重复S460-S480,计算A中所有行为类别中的所有行为实例的正式定位框,得到定位框集合{(sm,em,Cm,qm)}m,m∈M;其中,M属于整数域;
S500:预设交并比阈值t,使用非极大值抑制法处理定位框集合{(sm,em,Cm,qm)}m得到该未剪切待预测视频s最终的时序定位结果。
2.如权利要求1所述的一种基于知识蒸馏的弱监督视频时序行为定位方法,其特征在于:所述S250中使用Pscore计算交叉熵损失的具体步骤为:
计算交叉熵损失
Figure FDA0003194524530000035
计算表达式如下:
Figure FDA0003194524530000036
其中,
Figure FDA0003194524530000037
代表第j个类别的预测得分,yc表示标签化成one-hot向量y的第c个分量,gt表示真实的标签。
3.如权利要求2所述的一种基于知识蒸馏的弱监督视频时序行为定位方法,其特征在于:所述S320中利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对未剪切视频Va进行视频特征提取并计算该未剪切视频Va的视频嵌入特征X的具体步骤为:
S321:将未剪切视频Va划分为多组视频片段,每组视频片段包含相同数量的视频帧;
S322:从每组视频片段中随机采样一张RGB图像和一张光流图像;
S323:利用步骤S260中训练好的特征提取模块提取RGB图像的RGB特征Xrgb和光流图像的光流特征Xoptical,经过训练好的嵌入模块处理后将RGB特征Xrgb和光流特征Xoptical进行拼接,得到未剪切视频Va的视频嵌入特征X,计算表达式如下:
X=g(Xrgb·Xoptical) (3-2)
其中Xrgb,Xoptical∈RT×D,X∈RT×2D,T表示视频片段数,D表示每一个片段表达的特征维度,g(·)表示拼接操作。
4.如权利要求3所述的一种基于知识蒸馏的弱监督视频时序行为定位方法,其特征在于:所述S340中得到TVa的池化后嵌入特征f′ta和TVk的池化后嵌入特征f′tk的具体步骤为:
S341:采用S320的方法计算TVa的嵌入特征
Figure FDA0003194524530000041
和TVk的嵌入特征
Figure FDA0003194524530000042
S342:分别对嵌入特征fta和嵌入特征ftk进行相同时间大小的池化操作,得到池化后嵌入特征
Figure FDA0003194524530000043
5.如权利要求4所述的一种基于知识蒸馏的弱监督视频时序行为定位方法,其特征在于:所述S350中计算Va的前景注意力的稀疏损失
Figure FDA0003194524530000044
和Va的进行背景干扰抑制后的特征fu的具体步骤为:
S351:计算Va的前景注意力λ,计算表达式如下:
λ=Conv1d4(Conv1d5(Sigmoid(X))) (3-3);
S352:计算Va的前景注意力的稀疏损失
Figure FDA0003194524530000045
具体表达式如下:
Figure FDA0003194524530000046
其中,nλ为前景注意力向量长度,λi为第i个未剪切视频片段的前景注意力;
S353:对Va的前景注意力λ与Va的视频嵌入特征X求哈达玛积,得到进行背景干扰抑制后的Va的特征fu,计算表达式如下:
fu=X⊙λ (3-5)。
6.如权利要求5所述的一种基于知识蒸馏的弱监督视频时序行为定位方法,其特征在于:所述S360中计算Va的增强特征fen的具体步骤为:
S361:计算Va的通道注意力λchannel,表达式如下:
outmax=FC2(ReLU(FC1(MaxPool(fu)))) (3-6)
outavg=FC2(ReLU(FC1(AvgPool(fu)))) (3-7)
Figure FDA0003194524530000051
S362:计算Va的增强特征fen,具体表达式如下:
fen=fu⊙λchannel (3-9)
其中,λchannel表示通道注意力。
7.如权利要求6所述的一种基于知识蒸馏的弱监督视频时序行为定位方法,其特征在于:所述S370中利用Va的增强特征fen计算视频特征的时序对齐相似损失
Figure FDA0003194524530000052
和交叉熵损失
Figure FDA0003194524530000053
的具体步骤为:
S371:对Va的增强特征fen进行池化操作,具体计算过程如下:
Figure FDA0003194524530000054
其中,fen∈RT×2D
Figure FDA0003194524530000055
表示池化输出特征,Tk表示第k个池化层输出特征的时间长度,也代表第k个池化层特征的时序尺度;
S372:将所有输出的池化特征进行合并,得到时序多尺度化的特征序列,该序列具体表达式如下:
fmulti-scal=[outa1,outa2,…,outak] (3-11)
S373:选择行为类别为a的两个已剪切视频的嵌入特征
Figure FDA0003194524530000056
Figure FDA0003194524530000057
并进行自适应池化操作后得到的嵌入特征ft1和嵌入特征ft2具有相同的时间长度且值固定;
S374:将ft1和ft2进行复制,扩展为具有与同行为类别未剪切视频Va同等的时间长度,具体表达式如下:
Figure FDA0003194524530000058
Figure FDA0003194524530000059
其中,
Figure FDA00031945245300000510
S375:将
Figure FDA00031945245300000511
Figure FDA00031945245300000512
分别与outak进行特征相似对齐,具体计算公式如下:
Figure FDA00031945245300000513
Figure FDA00031945245300000514
其中,
Figure FDA00031945245300000515
dis()表示距离度量函数,此处使用的是余弦相似距离;
S376:计算Va所属时间尺度下的特征对齐损失
Figure FDA0003194524530000061
具体表达式如下:
Figure FDA0003194524530000062
Figure FDA0003194524530000063
其中,sim为1表示输入的两个向量相似,margin表示距离间隔;
S377:取该时间尺度下所有行为特征的对齐损失的平均值作为最终的时序对齐相似损失,计算表达式如下:
Figure FDA0003194524530000064
Figure FDA0003194524530000065
Figure FDA0003194524530000066
其中,
Figure FDA0003194524530000067
代表第j个行为类别的预测得分,
Figure FDA0003194524530000068
表示给定的groundtruth对应的分类概率,gt表示真实的行为类别标签,n表示真实行为类别标签中行为类别的数量,yi表示第i个标签。
8.如权利要求7所述的一种基于知识蒸馏的弱监督视频时序行为定位方法,其特征在于:所述S480中计算{(si,ei,c,pi)}i的置信度qi的计算表达式为:
Figure FDA0003194524530000069
Figure FDA00031945245300000610
Figure FDA00031945245300000611
qi=minner-mouter+γpi (4-5)
其中,minner表示被激活行为部分的平均激活值,mouter被视频行为周围边界部分的平均激活值,
Figure FDA00031945245300000612
表示类激活序列A中的第i个行为实例,li表示中间变量无实际意义,γ表示权重变量。
9.如权利要求8所述的一种基于知识蒸馏的弱监督视频时序行为定位方法,其特征在于:所述S500中使用非极大值抑制法处理定位框集合{(sm,em,Cm,qm)}m得到最后的时序定位结果的具体步骤为:
S510:将S480计算得到的置信度qi进行降序排列,得到每个置信度qi相对应的定位框排序集合,表示为{B1,B2,...,Bn};
S520:取最大置信度对应的定位框B1,并计算B1和其余所有定位框的交并比,交并比计算表达式如下:
Figure FDA0003194524530000071
S530:去除与B1交并比大于阈值t的定位框并保留B1,将除B1以外的其余定位框作为新的定位框排序集合;
S540:重复S520-S530,依次对新的定位框排序集合进行筛除处理,直至筛除完所有的定位框,将最终保留下的定位框作为最终的时序定位结果。
CN202110887042.1A 2021-08-03 2021-08-03 一种基于知识蒸馏的弱监督视频时序行为定位方法 Active CN113591731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110887042.1A CN113591731B (zh) 2021-08-03 2021-08-03 一种基于知识蒸馏的弱监督视频时序行为定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110887042.1A CN113591731B (zh) 2021-08-03 2021-08-03 一种基于知识蒸馏的弱监督视频时序行为定位方法

Publications (2)

Publication Number Publication Date
CN113591731A true CN113591731A (zh) 2021-11-02
CN113591731B CN113591731B (zh) 2023-09-05

Family

ID=78254549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110887042.1A Active CN113591731B (zh) 2021-08-03 2021-08-03 一种基于知识蒸馏的弱监督视频时序行为定位方法

Country Status (1)

Country Link
CN (1) CN113591731B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009830A (zh) * 2023-10-07 2023-11-07 之江实验室 一种基于嵌入特征正则化的知识蒸馏方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110143811A1 (en) * 2009-08-17 2011-06-16 Rodriguez Tony F Methods and Systems for Content Processing
WO2018169708A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN109214330A (zh) * 2018-08-30 2019-01-15 北京影谱科技股份有限公司 基于视频时序信息的视频语义分析方法和装置
CN111914778A (zh) * 2020-08-07 2020-11-10 重庆大学 一种基于弱监督学习的视频行为定位方法
CN113111838A (zh) * 2021-04-25 2021-07-13 上海商汤智能科技有限公司 行为识别方法及装置、设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110143811A1 (en) * 2009-08-17 2011-06-16 Rodriguez Tony F Methods and Systems for Content Processing
WO2018169708A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN109214330A (zh) * 2018-08-30 2019-01-15 北京影谱科技股份有限公司 基于视频时序信息的视频语义分析方法和装置
CN111914778A (zh) * 2020-08-07 2020-11-10 重庆大学 一种基于弱监督学习的视频行为定位方法
CN113111838A (zh) * 2021-04-25 2021-07-13 上海商汤智能科技有限公司 行为识别方法及装置、设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009830A (zh) * 2023-10-07 2023-11-07 之江实验室 一种基于嵌入特征正则化的知识蒸馏方法和系统
CN117009830B (zh) * 2023-10-07 2024-02-13 之江实验室 一种基于嵌入特征正则化的知识蒸馏方法和系统

Also Published As

Publication number Publication date
CN113591731B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
Liang et al. Interpretable structure-evolving LSTM
CN107491432B (zh) 基于人工智能的低质量文章识别方法及装置、设备及介质
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及系统
US11640714B2 (en) Video panoptic segmentation
CN108765383B (zh) 基于深度迁移学习的视频描述方法
CN112560827B (zh) 模型训练方法、装置、预测方法、电子设备及介质
KR20200075114A (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
CN108804577B (zh) 一种资讯标签兴趣度的预估方法
CN110705490B (zh) 视觉情感识别方法
Wei et al. Semi-supervised multi-label image classification based on nearest neighbor editing
CN112148986B (zh) 一种基于众包的top-N服务再推荐方法及系统
Ertekin et al. Learning to predict the wisdom of crowds
CN110414005A (zh) 意图识别方法、电子设备及存储介质
CN112927266A (zh) 基于不确定性引导训练的弱监督时域动作定位方法及系统
Liu et al. Uncertain label correction via auxiliary action unit graphs for facial expression recognition
Baraka et al. Weakly-supervised temporal action localization: a survey
CN113591731A (zh) 一种基于知识蒸馏的弱监督视频时序行为定位方法
Xiao et al. Self-explanatory deep salient object detection
Sameki et al. ICORD: Intelligent Collection of Redundant Data-A Dynamic System for Crowdsourcing Cell Segmentations Accurately and Efficiently.
Zamzami et al. An accurate evaluation of msd log-likelihood and its application in human action recognition
Zhang et al. Multi-attention networks for temporal localization of video-level labels
CN115019342A (zh) 一种基于类关系推理的濒危动物目标检测方法
Huang et al. Deep learning for continuous multiple time series annotations
Zare et al. A Survey on Semi-Automated and Automated Approaches for Video Annotation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant