CN112446331A

CN112446331A - 基于知识蒸馏的时空双流分段网络行为识别方法及系统

Info

Publication number: CN112446331A
Application number: CN202011371587.9A
Authority: CN
Inventors: 刘允刚; 陈琳; 满永超; 李峰忠
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-05

Abstract

本发明公开了基于知识蒸馏的时空双流分段网络行为识别方法及系统，获取目标视频，将目标视频进行分段处理得到若干个视频段；对每个视频段进行采样处理，抽取出RGB图像和若干帧光流灰度图像；将RGB图像输入到训练后的空域学生网络中进行特征提取和特征分类，得到当前视频段的第一分类结果；得到所有视频段的第一分类结果；将所有的光流灰度图像输入到训练后的时域学生网络中进行特征提取和特征分类，得到第二分类结果；得到所有视频段的第二分类结果；将所有视频段的第一分类结果进行融合，得到空域融合结果；将所有视频段的第二分类结果进行融合，得到时域融合结果；将空域融合结果和时域融合结果进行再次融合，得到行为识别结果。

Description

基于知识蒸馏的时空双流分段网络行为识别方法及系统

技术领域

本申请涉及计算机视觉领域中视频行为识别技术领域，特别是涉及基于知识蒸馏的时空双流分段网络行为识别方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

近年来，随着人工智能的发展，计算机视觉领域的研究受到社会的普遍关注，尤其是基于视频的行为识别研究，已经成为计算机领域的重要研究方向，在智能家居、医疗看护、人机交互、无人驾驶以及公共安全监控等领域具有广泛的应用前景。随着计算机软、硬件技术的提升，深度学习尤其是卷积神经网络(CNN)得到快速发展，给行为识别领域提供了极大的创新空间。但在现今大数据时代，对复杂视频中的目标行为进行准确、快速的识别，仍然是一项具有挑战性的工作。

目前，随着行为识别模型精度越来越高，模型结构逐渐复杂，网络层数也变得越来越深，且大多数广泛应用的模型都需要大量的数据进行训练以达到良好的识别效果，这导致在识别过程中常常出现以下问题：

(1)大多数模型参数数以亿计，严重增加了模型在训练和推理过程中的时间，不能达到快速识别的效果；

(2)模型在运行过程中需要消耗大量的内存资源，导致多数实验只能在装配有多GPU的环境中进行，这很大程度上阻碍了模型在一些计算资源受限环境(如手机、无人机等移动设备)中的使用。例如，使用VGGNet、BN-Inception等网络处理一张图像需要超过500MB的内存和超过10¹⁰次的乘法运算，这无疑给这些预训练模型的普遍应用带来了困难。

发明内容

为了解决现有技术的不足，本申请提供了基于知识蒸馏的时空双流分段网络行为识别方法及系统；本发明采用时空双流分段网络作为模型架构，将视频平均分为多段，并对每段视频进行采样(其中随机采样RGB图像一帧，随机采样连续的光流图像五帧)，既能实现对视频数据的充分利用，又避免了因密集采样带来的信息冗余问题。同时，引入知识蒸馏机制，将结构复杂、性能优越的教师网络中的知识迁移到精简且复杂度低的学生网络中，再利用学生网络进行推理识别。本发明旨在解决现有行为识别模型中参数多、计算量大、内存占用多、训练推理时间长等问题，从而实现对目标行为快速、准确的识别。

第一方面，本申请提供了基于知识蒸馏的时空双流分段网络行为识别方法；

基于知识蒸馏的时空双流分段网络行为识别方法，包括：

获取目标视频，将目标视频进行分段处理得到若干个视频段；

对每个视频段进行采样处理，抽取出RGB图像和若干帧光流灰度图像；

将RGB图像输入到训练后的空域学生网络中进行特征提取和特征分类，得到当前视频段的第一分类结果；同样，得到所有视频段的第一分类结果；将所有的光流灰度图像输入到训练后的时域学生网络中进行特征提取和特征分类，得到第二分类结果；同样，得到所有视频段的第二分类结果；

将所有视频段的第一分类结果进行融合，得到空域融合结果；将所有视频段的第二分类结果进行融合，得到时域融合结果；将空域融合结果和时域融合结果进行再次融合，得到目标视频的行为识别结果。

第二方面，本申请提供了基于知识蒸馏的时空双流分段网络行为识别系统；

基于知识蒸馏的时空双流分段网络行为识别系统，包括：

获取模块，其被配置为：获取目标视频，将目标视频进行分段处理得到若干个视频段；

采样模块，其被配置为：对每个视频段进行采样处理，抽取出RGB图像和若干帧光流灰度图像；

分类模块，其被配置为：将RGB图像输入到训练后的空域学生网络中进行特征提取和特征分类，得到当前视频段的第一分类结果；同样，得到所有视频段的第一分类结果；将所有的光流灰度图像输入到训练后的时域学生网络中进行特征提取和特征分类，得到第二分类结果；同样，得到所有视频段的第二分类结果；

行为识别模块，其被配置为：将所有视频段的第一分类结果进行融合，得到空域融合结果；将所有视频段的第二分类结果进行融合，得到时域融合结果；将空域融合结果和时域融合结果进行再次融合，得到目标视频的行为识别结果。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本申请的有益效果是：

(1)本发明采用时空双流分段网络架构，将目标视频平均分成多个视频片段，对每个视频片段随机采样，获得能够表征各个视频片段的RGB图像和光流图像(随机采样RGB图像一帧，随机采样连续的光流图像五帧)，对图像进行预处理后，分别将两类图像输入空域和时域网络进行特征提取和行为预测，然后对所有片段预测结果进行融合得到最终识别结果。该方法通过对视频分段采样，既能实现对视频数据的充分利用，又能避免密集采样造成的信息冗余情况。

(2)本发明引入迁移学习和知识蒸馏方法，通过设计特定损失函数，联合训练集的真实标签和教师网络输出的概率分布向量，共同对轻量型的学生网络进行训练。实现了将知识从结构复杂但性能优越的教师网络迁移到精简且复杂度低的学生网络，解决了轻量型学生网络在大数据集上训练困难的问题，使学生网络学习到接近甚至超过教师网络的分辨能力和泛化能力。

(3)本发明在测试阶段将复杂繁重的教师网络替换为轻量精简的学生网络，在保证识别精度的基础上，降低了内存占用率，减小了网络计算复杂度，实现了对动作行为快速、准确的识别。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明的算法流程图；

图2为本发明的训练阶段双流网络中教师-学生网络结构图；

图3(a)和图3(b)为本发明的两种教师-学生网络知识蒸馏方式结构图；

图4为本发明K＝3时的整体网络结构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了基于知识蒸馏的时空双流分段网络行为识别方法；

基于知识蒸馏的时空双流分段网络行为识别方法，包括：

S101：获取目标视频，将目标视频进行分段处理得到若干个视频段；

S102：对每个视频段进行采样处理，抽取出RGB图像和若干帧光流灰度图像；

S103：将RGB图像输入到训练后的空域学生网络中进行特征提取和特征分类，得到当前视频段的第一分类结果；同样，得到所有视频段的第一分类结果；

将所有的光流灰度图像输入到训练后的时域学生网络中进行特征提取和特征分类，得到第二分类结果；同样，得到所有视频段的第二分类结果；

S104：将所有视频段的第一分类结果进行融合，得到空域融合结果；将所有视频段的第二分类结果进行融合，得到时域融合结果；将空域融合结果和时域融合结果进行再次融合，得到目标视频的行为识别结果。

作为一个或多个实施例，所述S101：获取目标视频，将目标视频进行分段处理得到若干个视频段；具体步骤包括：

获取目标视频，将目标视频进行平均分段处理得到若干个视频段。

作为一个或多个实施例，所述S102：对每个视频段进行采样处理，抽取出RGB图像和若干帧光流灰度图像；具体步骤包括：

对每个视频段随机采样出M帧RGB图像；M为正整数；

对每个视频段随机采样连续的N帧光流灰度图像；N为正整数。

优选的，M等于1，N等于5。

进一步地，所述光流灰度图像包括：水平方向光流灰度图像和垂直方向光流灰度图像。

作为一个或多个实施例，所述S102对每个视频段进行采样处理，抽取出RGB图像和若干帧光流灰度图像步骤之后，所述S103：将RGB图像输入到训练后的空域网络中进行特征提取和特征分类步骤之前，还包括：

S102-3：对RGB图像和若干帧光流灰度图像进行数据扩充预处理。

进一步地，所述S102-3：对RGB图像和若干帧光流灰度图像进行数据扩充预处理；具体包括：

对RGB图像和若干帧光流灰度图像，进行随机裁剪、水平翻转、角点裁剪和尺度抖动。

作为一个或多个实施例，所述S103：将RGB图像输入到训练后的空域学生网络中进行特征提取和特征分类，得到当前视频段的第一分类结果；具体步骤包括：

将RGB图像输入到训练后的空域学生网络中进行特征提取，提取出物体的外观特征，对物体的外观特征进行特征分类，得到当前视频段的第一分类结果。

进一步地，所述空域学生网络，网络结构具体为：RestNet18。

进一步地，所述训练后的空域学生网络；训练步骤包括：

构建并联的空域学生网络和空域教师网络；空域学生网络和空域教师网络的输入端均用于输入RGB图像，空域学生网络和空域教师网络的输出端均与空域学生网络的损失函数连接；所述空域学生网络为RestNet18；所述空域教师网络为RestNet50；所述空域教师网络为预先通过已知真实分类标签的RGB图像训练后的空域教师网络；

构建训练集，所述训练集为已知真实分类标签的RGB图像；

将训练集分别输入到空域教师网络和空域学生网络中，联合使用训练集的真实分类标签和空域教师网络输出的概率分布向量，对空域学生网络进行训练，通过知识蒸馏的方式将空域教师网络的知识迁移到空域学生网络，当空域学生网络的损失函数达到最小值(即模型达到收敛状态)时，停止训练，得到训练好的空域学生网络。

进一步地，所述空域学生网络的损失函数，等于第一损失函数值与第二损失函数值之和；其中，所述第一损失函数值为空域学生网络输出值与真实分类标签的损失函数值，所述第二损失函数值为空域学生网络输出值与空域教师网络输出值的损失函数值。

进一步地，所述第一损失函数值，是通过空域学生网络输出的概率分布矢量与动作行为的真实类别标签计算得到的。

进一步地，所述第二损失函数值，是通过空域学生网络输出的概率分布矢量和空域教师网络输出的概率分布矢量计算得到的。

作为一个或多个实施例，所述S103：将所有的光流灰度图像输入到训练后的时域学生网络中进行特征提取和特征分类，得到第二分类结果；具体步骤包括：

将所有的光流灰度图像输入到训练后的时域学生网络中进行特征提取，提取出物体的动态特征，对物体的动态特征进行特征分类，得到当前视频段的第二分类结果。

进一步地，所述时域学生网络，网络结构具体为：MobielNetV2网络。

进一步地，所述训练后的时域学生网络；训练步骤包括：

构建并联的时域学生网络和时域教师网络；时域学生网络和时域教师网络的输入端均用于输入光流灰度图像，时域学生网络和时域教师网络的输出端均与时域学生网络的损失函数连接；所述时域学生网络为MobielNetV2网络；所述时域教师网络为BN-Inception网络；所述时域教师网络为预先通过已知真实分类标签的光流灰度图像训练后的时域教师网络；

构建训练集，所述训练集为已知真实分类标签的光流灰度图像；

将训练集分别输入到时域教师网络和时域学生网络中，联合使用训练集的真实分类标签和时域教师网络的概率分布向量，对时域学生网络进行训练，通过知识蒸馏的方式将时域教师网络的知识迁移到时域学生网络，当时域学生网络的损失函数达到最小值(即模型达到收敛状态)时，停止训练，得到训练好的时域学生网络。

进一步地，所述时域学生网络的损失函数，等于第三损失函数值与第四损失函数值之和；其中，所述第三损失函数值为时域学生网络输出值与真实分类标签的损失函数值，所述第四损失函数值为时域学生网络输出值与时域教师网络输出值的损失函数值。

进一步地，所述第三损失函数值，是通过时域学生网络输出的概率分布矢量与动作行为的真实类别标签计算得到的。

进一步地，所述第四损失函数值，是通过时域学生网络输出的概率分布矢量和时域教师网络输出的概率分布矢量计算得到的。

作为一个或多个实施例，所述S104：将所有视频段的第一分类结果进行融合，得到空域融合结果；将所有视频段的第二分类结果进行融合，得到时域融合结果；将空域融合结果和时域融合结果进行再次融合，得到目标视频的行为识别结果；其中融合均采用加权求和的方式进行融合。

为了对本发明进行更好说明，下面以公开数据集HMDB51为例进行阐述。

本发明的整体算法流程如图1所示，包括以下步骤：

步骤1：获取数据集中所有视频每帧的RGB图像和光流灰度图像。本发明使用GPU编译的OpenCV和denseflow工具包，提取视频中所有帧的RGB图像和光流灰度图像(包括水平方向光流图像和垂直方向光流图像)。本发明使用的光流图像提取方法为TV-L¹算法，该算法可对稠密光流进行快速求解。

步骤2：在步骤1的基础上，对图像数据进行预处理。网络整体结构采用时空双流分段卷积网络架构，该架构包含空域和时域两类卷积神经网络，两类网络参数不共享且相互独立，且该网络将视频平均分成K个等长片段，并对每个片段进行随机采样，获得表征每个片段的RGB图像和光流图像，从而对这些图像进行预处理。

对图像预处理步骤分为训练阶段和测试阶段。在训练阶段，对空域和时域网络的输入图像(包括RGB图像和光流图像)采用随机裁剪、水平翻转、角点裁剪和尺度抖动四种数据扩充方法进行处理，以增加样本多样性，并缓解网络训练过程中的过拟合问题。尺度抖动方法指的是按抖动比率从图像中裁剪固定尺寸图像的方法，其中，空域网络的抖动比率设置为1、0.875、0.75和0.66，时域网络的抖动比率设置为1、0.875和0.75。然后，统一将所有经过裁剪和尺度抖动的图像尺寸设置为224×224的大小，用于网络训练过程。在测试阶段，采用中心裁剪的方式对图像进行裁剪，同样将图像尺寸统一设置为224×224，用于网络测试过程。

步骤3：在步骤1和步骤2操作的基础上，将训练集或测试集中处理好的图像数据输入空域或时域网络，进行训练或测试。

在训练阶段，引入迁移学习和知识蒸馏方法，对于空域网络，本发明采用在ImageNet数据集上预训练的ResNet50网络参数为例作为初始参数，在目标数据集上进行微调训练，将训练好的ResNet50网络作为教师网络，同时采用随机初始化的ResNet18网络为例作为学生网络，进行网络知识的迁移；对于时域网络，本发明采用在ImageNet数据集上预训练的BN-Inception网络参数为例作为初始参数，在目标数据集上进行微调训练，将训练好的BN-Inception网络作为教师网络，同时采用随机初始化的MobileNetV2网络为例作为学生网络，进行网络知识的迁移。图2为空域与时域网络中教师-学生网络教授知识结构图。其中，本发明设置的损失函数包括两部分，一部分为学生网络输出与真实类别标签之间的损失部分，用L_GT(P_S，Q)表示，采用交叉熵损失函数进行计算；另一部分为学生网络输出与教师网络输出之间的损失部分，用

表示，采用KL散度损失函数进行计算。表达式如下：

其中，

由于该网络为端到端结构，网络内部参数能够通过反向传播算法进行自动更新优化，在参数更新过程中，所有教师网络的参数都是固定的，只有学生网络的参数通过训练过程进行自动更新优化，这能够保证在训练阶段学生网络的性能逐渐向教师网络接近，而教师网络的性能不会受到训练过程的影响。

本发明设计了两种教师-学生网络知识蒸馏方式，图3(a)为单个教师网络教授单个学生网络进行学习的结构图；图3(b)为三个教师网络教授单个学生网络进行学习的结构图。分别用两种方式对学生网络进行训练，比较两种方式训练结果的差异，并且通过训练使学生网络获得优秀的分辨能力和泛化能力。

在测试阶段，利用在训练阶段训练好的学生网络进行测试操作，对预处理好的图像数据进行特征提取与行为测试。图4为本发明K＝3时的整体网络结构图，其中，3个空域学生网络分支中的参数共享，3个时域学生网络分支中的参数共享，空域和时域网络参数不共享且相互独立。具体地，首先利用3个并行的学生网络对输入图像进行特征提取和行为预测，接着分别对空域和时域网络中所有片段的输出结果进行融合，最后根据一定的集成比率，将空域和时域网络的识别结果进行加权融合，得到整个模型的识别结果。

若3个视频片段分别用S₁，S₂，S₃表示，且每个片段随机采样得到的图像用I₁，I₂，I₃表示，网络权重系数用W表示，每个片段的预测结果用P(I_i，W)表示，聚合函数用G(·)表示，网络的归一化指数函数(即softmax函数)用H(·)表示，则空域或时域网络结构的表达式如下：

Net(I₁，I₂，I₃)＝H(G(P(I₁；W)，P(I₂；W)，P(I₃；W)))

本发明中的聚合函数采用均值融合方式对3个网络分支进行融合。对于空域网络，上式中的I₁，I₂，I₃分别表示在3个视频片段中各采样得到的1帧RGB图像；对于时域网络，上式中的I₁，I₂，I₃分别表示在3个视频片段中各采样得到的连续的5帧光流图像(包含5帧水平方向光流图像和5帧垂直方向光流图像)。

步骤4：在上述步骤的基础上，空域和时域网络集成比率取1∶1.5，此外，还要初始化网络的超参数，具体包括：①批处理尺度，②学习速率，③学习策略，④动量，⑤步长，⑥迭代次数，⑦梯度裁剪参数等。网络性能最终在动作类数据集HMDB51上进行了验证。

HMDB51数据集在2011年提出，分为三个子数据集，即split1、split2和split3，每个子数据集中都包含训练集和测试集两部分，这些短视频剪辑主要来源于YouTube视频，分辨率为320×240。

为了展示引入知识蒸馏后网络的性能，并比较两种教师-学生网络知识蒸馏方式的训练效果，我们测试了三组基本实验，空域、时域网络中的教师网络分别采用ResNet50网络、BN-Inception网络架构为例，学生网络分别采用ResNet18网络、MobileNetV2网络框架为例，并在HMDB51数据集上进行了验证，如下所示，表1为三组实验在两个数据集上的识别准确率对比情况。

表1三组实验在HMDB51数据集上的识别准确率

采用“三个教师网络教授单个学生网络”的蒸馏方式和时空双流分段网络架构，在数据集HMDB51上进行验证，如下所示，表2为本发明方法在三个子数据集上的识别准确率。

表2在HMDB51数据集上的识别准确率

为了进一步验证本发明的网络性能，取本发明在HMDB51中三个子数据集实验结果的平均值作为最终准确率，与目前现有的先进方法进行对比，对比结果如表3所示。另外，为了展示本发明模型的精简轻量性，我们对比了几种方法的计算复杂度，如表4所示。由表3和表4可以看出，本发明在基本保证识别精度的基础上，降低了内存占用率，减小了网络计算复杂度。

表3多种方法的识别准确率对比

方法	HMDB51
		Two-stream	59.40
LTC<sub>Flow+RGB</sub>	64.80
		3D Resnext-101(RGB)	63.50
3D Resnext-101+64f(RGB)	70.20
		TSN(Inception-v3)	72.26
本发明方法(教师网络)	66.97
		本发明方法(学生网络)	64.08

表4多种方法的计算复杂度对比

方法	GFLOPs	Params(M)
			3D Resnext-101(RGB)	9.67	327.89
3D Resnext-101+64f(RGB)	38.67	327.89
			TSN(Inception-v3)	5.80	43.99
本发明方法(教师网络)	6.45	35.94
			本发明方法(学生网络)	2.14	15.19

在模型训练过程中，联合使用训练集的人工标注标签和教师网络输出的概率分布向量，共同对学生网络进行训练，通过知识蒸馏方法将性能优良的教师网络中的知识迁移到学生网络，使学生网络在优化自身网络过程中学习到教师网络优秀的分辨能力和泛化能力。

将训练好的轻量、精简的学生网络用于测试过程中，对动作行为进行推理识别，模型输出即为对动作行为的识别结果，最后利用目标数据集中的测试集进行验证，计算网络对测试集中视频的识别准确度。

对学生网络进行训练，本发明引入了迁移学习和知识蒸馏方法，解决了轻量型网络在大型数据集上训练困难的问题。具体地，本发明采用时空双流分段网络架构，该架构包含空域和时域两类卷积神经网络，两类网络参数不共享且相互独立，且该网络将视频平均分成K个等长片段，并对每个片段进行随机采样，获得表征每个片段的RGB图像和光流图像。对于空域网络，每个片段分别采样一帧RGB图像作为输入，提取物体外观特征信息；对于时域网络，每个片段分别采样连续的5帧光流图像(包含5帧水平方向光流图像和5帧垂直方向光流图像)作为输入，提取物体动态特征信息。在网络训练过程中，具体设置如下：

(1)引入迁移学习方法，在空域网络中，本发明采用在ImageNet数据集上预训练的ResNet50网络参数为例作为初始参数，在目标数据集上进行微调训练，将训练好的ResNet50网络作为教师网络，同时采用随机初始化的ResNet18为例作为学生网络；在时域网络中，采用在ImageNet数据集上预训练的BN-Inception网络参数为例作为初始参数，在目标数据集上进行微调训练，将训练好的BN-Inception网络作为教师网络，同时采用随机初始化的轻量型网络MobileNetV2为例作为学生网络。

(2)引入知识蒸馏机制，该模型的损失函数包括两部分，其总体表达式为：

其中，L_GT(P_S，Q)表示学生网络输出与真实类别标签之间的损失函数，

表示学生网络输出与教师网络输出之间的损失函数。P_S表示学生网络输出的概率分布矢量，Q表示动作行为的真实类别标签，

分别表示经过蒸馏处理的学生网络和教师网络的概率分布矢量，α为平衡两个损失函数的超参数，Temp表示蒸馏参数。

L_GT(P_S，Q)采用交叉熵(Cross-Entropy)损失函数进行计算，其表达式如下：

采用KL散度(Kullback-Leibler divergence)损失函数进行计算，其表达式如下：

其中，N为数据集中的总类别数，

分别表示经过蒸馏处理的学生网络和教师网络的概率分布矢量，即

Tcmp作为蒸馏参数，作用是平滑教师或学生网络的输出分布，且Temp值越大，教师或学生网络的输出分布越平滑均匀。

(3)在以上操作和设置的基础上，对学生网络进行训练，分别利用空域和时域神经网络对输入图像进行特征提取和动作识别，再分别对空域和时域网络中的所有片段的输出结果进行融合，从而得到空域或时域网络的对目标数据集的识别准确率。

若K个视频片段用S₁，S₂，S₃，...，S_k表示，从视频片段中随机采样得到的图像用I₁，I₂，I₃，...，I_k表示，网络权重系数用W表示，每个片段的预测结果用P(I_i，W)表示，聚合函数用G(·)表示，网络的归一化指数函数(即softmax函数)用H(·)表示，则空域或时域网络结构的表达式如下：

Net(I₁，I₂，I₃，...，I_k)＝H(G(P(I₁；W)，P(I₂；W)，P(I₃；W)，...，P(I_k；W)))

在模型训练过程中，本发明选用K＝3进行实验，并设计了两种教师-学生知识蒸馏方式：(a)单个教师网络教授单个学生网络进行学习；(b)三个教师网络教授单个学生网络进行学习。分别用此两种方式对学生网络进行训练，比较两种方式训练结果的差异，并且通过训练使学生网络获得接近甚至超越教师网络的优秀的分辨能力和泛化能力。

将训练得到的轻量型的、精简的学生网络用于测试阶段，同样在K＝3的情况下进行验证，在分别对空域和时域网络中的所有片段的输出结果进行融合后，将空域和时域网络输出按1∶1.5的比率集成，得到整个网络对测试集的识别准确度。本发明以动作类数据集HMDB51为例，进行了验证。

本发明提出一种基于知识蒸馏的时空双流分段网络方法用于目标行为识别。首先，本发明采用时空双流分段网络作为模型基本架构，该架构包含空域和时域两类网络，两类网络参数不共享且相互独立，其中，空域网络负责从RGB图像中提取物体外观特征，时域网络负责从光流图像中提取物体动态特征。该架构能够充分提取目标行为的空间信息和时间信息，进而对行为类型进行较为准确的分类。同时，在训练过程中引入迁移学习和数据扩充方法，增加样本多样性和数据规模，缓解网络过拟合问题。此外，本发明引入了知识蒸馏方法，通过在网络训练过程中联合训练集的人工标注标签和教师网络输出的概率分布向量，共同对学生网络进行训练。该方法能够将知识从结构复杂但性能优越的教师网络迁移到精简且复杂度低的学生网络，能够解决轻量型学生网络在大数据集上训练困难的问题，使学生网络学习到接近甚至超过教师网络的分辨能力和泛化能力，同时由于学生网络拥有更简单的结构、更少的参数，使得模型能够在保证精度的情况下，推理过程更轻量、更快速。

本发明提供一种基于知识蒸馏的时空双流分段网络行为识别方法，属于计算机视觉领域。目前行为识别模型结构复杂，模型参数数以亿计，严重影响模型在训练推理过程中的快速性，且模型运行需要消耗大量内存资源，难以在计算资源受限的环境中使用。针对该问题，本发明利用时空双流分段网络架构，将视频平均分为多段，并对每段随机采样，充分提取目标的空间和时间特征。同时，在网络训练过程中引入迁移学习和数据扩充方法，增加样本多样性和数据规模，缓解网络过拟合问题。此外，引入知识蒸馏方法，通过联合训练集的人工标注标签和教师网络输出的概率分布，对学生网络进行训练，得到精简且复杂度低的学生网络，在保证识别精度的基础上，使模型整体的推理过程更轻量、更快速。

本发明提供了一种基于知识蒸馏的时空双流分段网络行为识别方法，该方法采用时空双流分段网络作为模型架构，将视频平均分为多个等长片段，对每个片段进行随机采样，获得能够表征各视频片段的RGB图像和光流图像，实现对视频数据的充分利用；并引入知识蒸馏机制，将识别精度高、泛化能力强的教师网络中的知识蒸馏到精简、轻量的学生网络中，使学生网络获得接近甚至超过教师网络的性能，再利用训练好的学生网络进行推理识别，从而实现对目标行为快速、准确的分类。

实施例二

本实施例提供了基于知识蒸馏的时空双流分段网络行为识别系统；

基于知识蒸馏的时空双流分段网络行为识别系统，包括：

此处需要说明的是，上述获取模块、采样模块、分类模块和行为识别模块对应于实施例一中的步骤S101至S104，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于知识蒸馏的时空双流分段网络行为识别方法，其特征是，包括：

2.如权利要求1所述的基于知识蒸馏的时空双流分段网络行为识别方法，其特征是，将RGB图像输入到训练后的空域学生网络中进行特征提取和特征分类，得到当前视频段的第一分类结果；具体步骤包括：

3.如权利要求1所述的基于知识蒸馏的时空双流分段网络行为识别方法，其特征是，所述训练后的空域学生网络；训练步骤包括：

构建并联的空域学生网络和空域教师网络；空域学生网络和空域教师网络的输入端均用于输入RGB图像，空域学生网络和空域教师网络的输出端均与空域学生网络的损失函数连接；所述空域学生网络为RestNet18；所述空域教师网络为RestNet50；

构建训练集，所述训练集为已知真实分类标签的RGB图像；

将训练集分别输入到空域教师网络和空域学生网络中，对空域教师网络和空域学生网络同时进行训练，当空域学生网络的损失函数达到最小值时，停止训练，得到训练好的空域学生网络。

4.如权利要求1所述的基于知识蒸馏的时空双流分段网络行为识别方法，其特征是，所述空域学生网络的损失函数，等于第一损失函数值与第二损失函数值之和；其中，所述第一损失函数值为空域学生网络输出值与真实分类标签的损失函数值，所述第二损失函数值为空域学生网络输出值与空域教师网络输出值的损失函数值；

所述第一损失函数值，是通过空域学生网络输出的概率分布矢量与动作行为的真实类别标签计算得到的；

所述第二损失函数值，是通过空域学生网络输出的概率分布矢量和空域教师网络输出的概率分布矢量计算得到的。

5.如权利要求1所述的基于知识蒸馏的时空双流分段网络行为识别方法，其特征是，将所有的光流灰度图像输入到训练后的时域学生网络中进行特征提取和特征分类，得到第二分类结果；具体步骤包括：

6.如权利要求1所述的基于知识蒸馏的时空双流分段网络行为识别方法，其特征是，所述训练后的时域学生网络；训练步骤包括：

构建并联的时域学生网络和时域教师网络；时域学生网络和时域教师网络的输入端均用于输入光流灰度图像，时域学生网络和时域教师网络的输出端均与时域学生网络的损失函数连接；所述时域学生网络为MobielNetV2网络；所述时域教师网络为BN-Inception网络；

将训练集分别输入到时域教师网络和时域学生网络中，对时域教师网络和时域学生网络同时进行训练，当时域学生网络的损失函数达到最小值时，停止训练，得到训练好的时域学生网络。

7.如权利要求1所述的基于知识蒸馏的时空双流分段网络行为识别方法，其特征是，所述时域学生网络的损失函数，等于第三损失函数值与第四损失函数值之和；其中，所述第三损失函数值为时域学生网络输出值与真实分类标签的损失函数值，所述第四损失函数值为时域学生网络输出值与时域教师网络输出值的损失函数值；

所述第三损失函数值，是通过时域学生网络输出的概率分布矢量与动作行为的真实类别标签计算得到的；

所述第四损失函数值，是通过时域学生网络输出的概率分布矢量和时域教师网络输出的概率分布矢量计算得到的。

8.基于知识蒸馏的时空双流分段网络行为识别系统，其特征是，包括：

9.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。