CN110490136B

CN110490136B - 一种基于知识蒸馏的人体行为预测方法

Info

Publication number: CN110490136B
Application number: CN201910769040.5A
Authority: CN
Inventors: 程建; 高银星; 汪雯; 苏炎洲; 白海伟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2023-03-24
Anticipated expiration: 2039-08-20
Also published as: CN110490136A

Abstract

本发明公开了一种基于知识蒸馏的人体行为预测方法。属于人体行为预测领域，具体涉及一种基于知识蒸馏的人体行为预测方法。解决了现有技术中人体行为预测难度的增大，从而引起人体行为预测准确率低的问题。本发明的技术方案：对已知人体行为数据集中的视频逐个分成一段完整视频和一段部分视频，并分别对其进行提取视频图像帧的操作，再对得到的视频图像帧进行数据处理，并按照部分观测率的不同将视频分成完整视频图像帧以及部分视频图像帧集合，接着引入教师网络和学生网络，最后通过引入知识蒸馏以来对教师网络和学生网络进行学习，从而能对部分视频的行为进行识别和预测。本发明可以有效提高人体行为预测的准确率。

Description

一种基于知识蒸馏的人体行为预测方法

技术领域

本发明涉及人体行为预测领域，具体涉及一种基于知识蒸馏的人体行为预测方法。

背景技术

近些年来，随着计算机视觉的发展，人体行为识别成为了其中非常重要的研究课题，并在多个领域具有广泛应用，比如说，视频监控、视频理解、视频检索等等。简单来说，人体行为识别的目标是将给定视频中的某一个特定的行为片段来进行准确分类的过程。但在日常生活中，当发生交通事故或者是恐怖袭击等活动时，如果是等待行为执行完成后在去进行人体行为的识别，这无疑是毫无用处的。因此，在发生这些行为之前就必须立刻做出反应，例如，在交通事故发生之前预测出很大概率的酒驾可能造成的严重后果，或者恐怖袭击分子可能采取的各种恐怖行动等等，因此，人体行为预测应运而生。

目前，与人体行为识别不同的是，人体行为识别是指行为和行为已经完成，通过系统识别在视频中所表示的行为，是一种事后的分析，而人体行为预测是指在行为正在进行或者还未完成的时候，甚至是刚刚开始的时候，系统就要识别出整个人体的行为，这种操作即称为行为预测。随着越来越多的学者投入研究，这个领域也取得了一系列的发展，并使得一些应用成为现实，尤其是一些智能系统中，它能有效地预测从视频中观测到的行为或者事件预测行为或者即将发生的事情，比如说，在监控摄像头中，能够根据当前的人体行为来预测可能发生的潜在危险；在智能家居中，能够根据人们当前的行为来预测人们下一刻要采取的行为；在体育直播中，预测运动员所要做出的体育行为等应用都取得了一些不错的效果。

现有技术中，随着科技的发展以及人们生活水平及安全防范意识的提高，人体行为预测技术也越来越受到人们的关注，与此同时，人体行为预测技术也已经成为计算机视觉领域中的重要研究方向，而人体行为预测所遇到的问题也引起了广大科研人员的兴趣与研究。在人体行为数据集中，往往会遇到目标人体行为的图像分辨率低、人体行为的复杂程度、不同场景中的光照强度的变化及环境因素的干扰、尺度与视角的变化、人体行为模糊、监控摄像头设备的抖动等等都会导致人体行为预测难度的增大，这也使得人体行为预测技术遇到了巨大的挑战。

发明内容

针对现有技术中人体行为预测难度的增大，从而引起人体行为预测准确率低的问题，本发明提供一种基于知识蒸馏的人体行为预测方法，其目的在于：通过从完整的视频中识别行为的教师网络与从部分视频中预测行为的学生网络的相互结合，可以在一定程度上极大地减少了计算量，加快了运算速度，也可得到准确的实验结果。

本发明采用的技术方案如下：

一种基于知识蒸馏的人体行为预测方法，包含以下步骤：

步骤1：对已知人体行为数据集中的视频逐个分别分成一段完整视频和一段部分视频，并分别对其进行提取视频图像帧的操作，再对得到的视频图像帧进行数据处理，并按照部分观测率将视频分成完整视频图像帧和部分视频图像帧集合；

步骤2：从完整视频图像帧中的人体行为特征构造教师网络，从部分视频图像帧的人体行为特征构造学生网络；

步骤3：通过知识蒸馏让教师网络和学生网络进行学习和识别，定义知识蒸馏的损失函数L_AB(A_i，B_i)＝αL_local(A_i，B_i)+βL_global(A_i，B_i)，当损失函数在不过拟合的情况尽可能地达到最小值，此时对应的预测结果即为视频最终人体行为预测的结果，

其中，L_AB表示知识蒸馏的损失函数，A_i表示一个大小为D×N的矩阵，B_i表示一个大小为D×N的矩阵。

进一步的，所述的步骤1中，包括对人体行为数据集进行预处理，所述预处理包括分别对给每个视频进行帧提取的操作，并按照部分观测率的不同将视频分成完整视频图像帧以及部分视频图像帧集合。

进一步的，其特征在于，所述的步骤2中教师网络和学生网络的表达式如下所示：

其中，B_i表示教师网络，x_t表示在输入视频的t时刻，

表示在第i个完整视频当前时刻教师网络所提取出的特征，同理，A_i表示学生网络，x_t-τ表示在输入视频的t-τ时刻，/>

表示在第i个部分视频当前时刻学生网络所提取出的特征。

进一步的，所述步骤3中知识蒸馏的损失函数的定义表达式如下所示：

L_AB(A_i，B_i)＝αL_local(A_i，B_i)+βL_global(A_i，B_i)，

其中，L_AB表示知识蒸馏的损失函数，L_loca1表示局部损失函数，L_g1obal表示全局损失函数，α表示局部损失函数值对于整体知识蒸馏损失函数值的影响力程度，β表示全局损失函数值对于整体知识蒸馏损失函数值的影响力程度。

进一步的，所述步骤2中教师网络采用双向长短时间记忆网络建模，学生网络采用单向长短时间记忆网络建模。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明创新性的引入了教师网络模块和学生的网络模块，它主要是在不保证对结果产生影响的情况下，用来对深度学习网络进行压缩。因为往往深度学习下为了能够获得更高的准确率，训练出的网络结构通常比较复杂，而对于一些特殊的预测任务如人体行为预测来说，复杂的结构并不能达到这些任务的响应需求，通过引入教师网络模块和学生的网络模块，教师网络模块作为原始复杂的深的神经网络结构，学生网络模块作为一种轻量级的神经网络结构，因此，教师网络模块会有更高的预测准确率，它会作用于学生模块在简化网络参数之后达到最好的网络训练结果，通过从完整的视频中识别行为的教师网络与从部分视频中预测行为的学生网络的相互结合，这不仅可以在一定程度上极大地减少了计算量，加快了运算速度，也可得到准确的实验结果。

2.本发明摒弃了传统人体行为预测过程中通常会使用的统计学习算法和传统的机器学习方法，创新性的引入了知识蒸馏的思想，通过修改损失函数，让小网络在拟合训练数据的真值标签时，也要拟合大网络输出的概率分布。对于本发明中的教师网络，采用双向长短时间记忆网络(BiLSTM)建模，完成人体行为识别的任务；对于本发明中的学生网络，采用单向长短时间记忆网络(LSTM)，完成人体行为预测的任务。但是考虑到视频的特殊性，由于存在时间维度和空间维度信息，会涉及到比图像更多的信息，因此为了让网络的拟合结果更好，在设计蒸馏的时候通过定义一个知识蒸馏的损失函数L_AB(A_i，B_i)来更清晰的观测实验结果，它由一个L_local(A_i，B_i)局部损失函数对每个视频均有对应的损失来控制信息蒸馏和一个L_global(A_i，B_i)全局损失函数来控制两个网络之间的信息蒸馏，从而最终通过两个损失函数的相互作用来使得人体行为预测网络的效果有较大提升。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明的整体流程图。

图2是本发明分别从完整视频和部分视频提取人体行为特征的过程示意图。

图3是本发明人体行为预测中的知识蒸馏过程示意图。

图4是本发明人体行为预测方法的整体网络结构示意图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合图1-图4对本发明作详细说明。

本发明能够建立在公共场合中的监控摄像头以及交通道路上的电子眼监控系统等基础上，并实现应用。

一种基于知识蒸馏的人体行为预测方法，包含以下步骤：

图2教师网络和学生网络中，教师网络常常是比较复杂的神经网络，输入的是完整的视频图像帧序列，得到的是一个完整人体行为特征信息，而对于学生网络，通常是一种轻量型神经网络结构，输入的是部分的视频图像帧序列，得到的是一个局部人体行为特征信息。正如图2所示，相当于是将完整的人体行为特征信息通过知识蒸馏的方式作用于局部人体行为特征，令学生网络学习到教师网络的完整特征信息，从而提高预测行为的准确性。

图3示出了本发明中引入到人体行为预测中的知识蒸馏过程示意图。在本发明中，目标是希望能够学习到一个人体行为预测网络A：x_t→y_t+τ，相当于是预测当前视频x_t经过时间步长t+τ之后所属的人体行为类别。因此，根据这种思想，如图3所示，引入了知识蒸馏的想法，通过构建教师网络B：x_t+τ→y_t+τ，让小网络即学生网络跟着大网络即教师网络输出的概率分布去学习的话，这不仅相当于给出了人体行为类别之间的相似性信息，提供了额外的监督信号，而且学起来也更加简单，极大地减少计算量，提高预测准确率。这也即为本发明中引入知识蒸馏想法的原因。

从完整的视频中识别行为的教师网络的训练，来修正从部分视频中预测人体行为的学生网络的学习，进而当L_AB(A_i，B_i)在保证不发生过拟合的情况下，通过对网络的学习，当损失函数的值相对达到一个比较低的临界点的时候，此时人体行为预测结果的准确率也相对越高，此时对应的预测结果即为视频最终人体行为预测的结果。

作为另一种优选方案，所述的步骤1中，包括对人体行为数据集进行预处理，所述预处理包括分别对给每个视频进行帧提取的操作，并按照部分观测率的不同将视频分成完整视频图像帧以及部分视频图像帧集合。

作为另一种优选方案，所述的步骤2中教师网络和学生网络的表达式如下所示：

其中，B_i表示教师网络，x_t表示在输入视频的t时刻，

表示在第i个部分视频当前时刻学生网络所提取出的特征。

图1示出了本发明提出的一种基于知识蒸馏的人体行为预测方法的步骤流程，如图1所示，该方法包括：首先需要对已知人体行为数据集中的视频逐个分成一段完整视频和一段部分视频，并分别对其进行提取视频图像帧的操作，再对得到的视频图像帧进行数据处理，并分成完整视频图像帧以及部分视频图像帧集合。

然后，引入教师网络和学生网络，采用教师网络从完整的视频图像帧中提取完整人体行为特征，采用学生网络从局部视频图像帧中提取部分人体行为特征。关于教师网络的人体行为特征和学生网络的人体行为特征的表达式如下所示：

其中，B_i表示教师网络也即识别网络，x_t表示在输入视频的t时刻，B_i表示在第i个视频当前时刻教师网络所提取出的特征；同理，A_i表示学生网络也即预测网络，x_t-τ表示在输入视频的t-τ时刻，A表示在第i个视频当前时刻学生网络所提取出的特征。结合特征的表达形式，通过引入教师网络和学生网络，就可以从教师网络中提取完整的人体行为图像RGB三通道特征，从学生网络中提取部分人体行为就可以从教师网络中提取完整的人体行为图像RGB三通道特征。

作为另一种优选方案，所述步骤3中知识蒸馏的损失函数的定义表达式如下所示：

L_AB(A_i，B_i)＝αL_local(A_i，B_i)+βL_global(A_i，B_i)，

其中，L_AB表示知识蒸馏的损失函数，L_local表示局部损失函数，L_global表示全局损失函数，α表示局部损失函数值对于整体知识蒸馏损失函数值的影响力程度，β表示全局损失函数值对于整体知识蒸馏损失函数值的影响力程度。

引入知识蒸馏的局部损失和知识蒸馏的全局损失来对教师网络和学生网络进行学习和识别，从而能对部分视频的行为进行预测，其中提到的知识蒸馏按照部分观测率的大小分为全局蒸馏和局部蒸馏。其中局部蒸馏指的是部分观测率，相当对视频进行10％，20％，30％至90％的观测，当观测率达到100％的时候，也即为全局蒸馏，也即两个网络之间的信息蒸馏。

对于局部损失函数的定义表达式如下所示：

在上式中，

相当于计算一个均方误差，ω表示L_local损失函数的权重向量，⊙表示一个元素相乘的运算符，将A_i对应的每一列乘以相对应的权重元素ω。

对于全局损失函数的定义表达式如下所示：

其中，可以把L_global看作一个对称的全局损失函数，而

则表示不对称的全局损失函数。

对于

和/>

的具体表示方式如下所示：

φ(a_i，B)＝Bsoftmax(γB^Ta_i)

φ(a_i，A)＝Asoftmax(γA^Ta_i)

其中，φ(a_i，B)表示教师网络中向量的平均池化值，通过找到一个合适的γ值，使得φ(a_i，B)是教师网络向量B中最相似于学生网络中的a_i，同理，对于φ(a_i，A)也是这样的操作原理。这就相当于通过修改损失函数，让学生网络在拟合训练数据的真值标签时，也要拟合教师网络输出的概率分布，从而得到一个更优的实验结果。

作为另一种优选方案，所述步骤2中教师网络采用双向长短时间记忆网络建模，学生网络采用单向长短时间记忆网络建模。

图4示出了本发明中关于一种基于知识蒸馏的人体行为预测方法的整体网络结构示意图。其中，对于本发明中用到的教师网络，主要采用双向长短时间记忆网络(BiLSTM)来实现建模，通过输入完整视频来进行双向推导完成人体行为识别的任务；对于本发明中用到的学生网络，主要采用单项长短时间记忆网络(LSTM)来实现建模，但是由于部分视频，其对未来所发生的信息是未知的，因此只能进行单向推导，完成人体行为预测的任务，这是因为完整的视频可以进行双向推导，但是对于部分视频，未来的信息是不清楚的，因此只能进行单向操作，并且对于教师网络和学生网络来说，由于他们的任务不同，可以说是一个跨任务的信息蒸馏。

如图4所示，由于考虑到视频的特殊性，其存在时间维度和空间维度信息，会涉及到比图像更多的信息，因此为了让网络的拟合结果更好，在设计蒸馏的时候通过定义一个知识蒸馏的损失函数L_AB(A_i，B_i)来更清晰的观测实验结果，它由一个L_local(A_i，B_i)局部损失函数对每个视频均有对应的损失来控制信息蒸馏和一个L_global(A_i，B_i)全局损失函数来控制两个网络之间的信息蒸馏，从而最终通过两个损失函数的相互作用来使得人体行为预测网络的效果有较大提升。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。