CN110490136B - 一种基于知识蒸馏的人体行为预测方法 - Google Patents

一种基于知识蒸馏的人体行为预测方法 Download PDF

Info

Publication number
CN110490136B
CN110490136B CN201910769040.5A CN201910769040A CN110490136B CN 110490136 B CN110490136 B CN 110490136B CN 201910769040 A CN201910769040 A CN 201910769040A CN 110490136 B CN110490136 B CN 110490136B
Authority
CN
China
Prior art keywords
network
video
human behavior
loss function
video image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910769040.5A
Other languages
English (en)
Other versions
CN110490136A (zh
Inventor
程建
高银星
汪雯
苏炎洲
白海伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910769040.5A priority Critical patent/CN110490136B/zh
Publication of CN110490136A publication Critical patent/CN110490136A/zh
Application granted granted Critical
Publication of CN110490136B publication Critical patent/CN110490136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于知识蒸馏的人体行为预测方法。属于人体行为预测领域,具体涉及一种基于知识蒸馏的人体行为预测方法。解决了现有技术中人体行为预测难度的增大,从而引起人体行为预测准确率低的问题。本发明的技术方案:对已知人体行为数据集中的视频逐个分成一段完整视频和一段部分视频,并分别对其进行提取视频图像帧的操作,再对得到的视频图像帧进行数据处理,并按照部分观测率的不同将视频分成完整视频图像帧以及部分视频图像帧集合,接着引入教师网络和学生网络,最后通过引入知识蒸馏以来对教师网络和学生网络进行学习,从而能对部分视频的行为进行识别和预测。本发明可以有效提高人体行为预测的准确率。

Description

一种基于知识蒸馏的人体行为预测方法
技术领域
本发明涉及人体行为预测领域,具体涉及一种基于知识蒸馏的人体行为预测方法。
背景技术
近些年来,随着计算机视觉的发展,人体行为识别成为了其中非常重要的研究课题,并在多个领域具有广泛应用,比如说,视频监控、视频理解、视频检索等等。简单来说,人体行为识别的目标是将给定视频中的某一个特定的行为片段来进行准确分类的过程。但在日常生活中,当发生交通事故或者是恐怖袭击等活动时,如果是等待行为执行完成后在去进行人体行为的识别,这无疑是毫无用处的。因此,在发生这些行为之前就必须立刻做出反应,例如,在交通事故发生之前预测出很大概率的酒驾可能造成的严重后果,或者恐怖袭击分子可能采取的各种恐怖行动等等,因此,人体行为预测应运而生。
目前,与人体行为识别不同的是,人体行为识别是指行为和行为已经完成,通过系统识别在视频中所表示的行为,是一种事后的分析,而人体行为预测是指在行为正在进行或者还未完成的时候,甚至是刚刚开始的时候,系统就要识别出整个人体的行为,这种操作即称为行为预测。随着越来越多的学者投入研究,这个领域也取得了一系列的发展,并使得一些应用成为现实,尤其是一些智能系统中,它能有效地预测从视频中观测到的行为或者事件预测行为或者即将发生的事情,比如说,在监控摄像头中,能够根据当前的人体行为来预测可能发生的潜在危险;在智能家居中,能够根据人们当前的行为来预测人们下一刻要采取的行为;在体育直播中,预测运动员所要做出的体育行为等应用都取得了一些不错的效果。
现有技术中,随着科技的发展以及人们生活水平及安全防范意识的提高,人体行为预测技术也越来越受到人们的关注,与此同时,人体行为预测技术也已经成为计算机视觉领域中的重要研究方向,而人体行为预测所遇到的问题也引起了广大科研人员的兴趣与研究。在人体行为数据集中,往往会遇到目标人体行为的图像分辨率低、人体行为的复杂程度、不同场景中的光照强度的变化及环境因素的干扰、尺度与视角的变化、人体行为模糊、监控摄像头设备的抖动等等都会导致人体行为预测难度的增大,这也使得人体行为预测技术遇到了巨大的挑战。
发明内容
针对现有技术中人体行为预测难度的增大,从而引起人体行为预测准确率低的问题,本发明提供一种基于知识蒸馏的人体行为预测方法,其目的在于:通过从完整的视频中识别行为的教师网络与从部分视频中预测行为的学生网络的相互结合,可以在一定程度上极大地减少了计算量,加快了运算速度,也可得到准确的实验结果。
本发明采用的技术方案如下:
一种基于知识蒸馏的人体行为预测方法,包含以下步骤:
步骤1:对已知人体行为数据集中的视频逐个分别分成一段完整视频和一段部分视频,并分别对其进行提取视频图像帧的操作,再对得到的视频图像帧进行数据处理,并按照部分观测率将视频分成完整视频图像帧和部分视频图像帧集合;
步骤2:从完整视频图像帧中的人体行为特征构造教师网络,从部分视频图像帧的人体行为特征构造学生网络;
步骤3:通过知识蒸馏让教师网络和学生网络进行学习和识别,定义知识蒸馏的损失函数LAB(Ai,Bi)=αLlocal(Ai,Bi)+βLglobal(Ai,Bi),当损失函数在不过拟合的情况尽可能地达到最小值,此时对应的预测结果即为视频最终人体行为预测的结果,
其中,LAB表示知识蒸馏的损失函数,Ai表示一个大小为D×N的矩阵,Bi表示一个大小为D×N的矩阵。
进一步的,所述的步骤1中,包括对人体行为数据集进行预处理,所述预处理包括分别对给每个视频进行帧提取的操作,并按照部分观测率的不同将视频分成完整视频图像帧以及部分视频图像帧集合。
进一步的,其特征在于,所述的步骤2中教师网络和学生网络的表达式如下所示:
Figure BDA0002172961640000021
Figure BDA0002172961640000022
其中,Bi表示教师网络,xt表示在输入视频的t时刻,
Figure BDA0002172961640000023
表示在第i个完整视频当前时刻教师网络所提取出的特征,同理,Ai表示学生网络,xt-τ表示在输入视频的t-τ时刻,/>
Figure BDA0002172961640000024
表示在第i个部分视频当前时刻学生网络所提取出的特征。
进一步的,所述步骤3中知识蒸馏的损失函数的定义表达式如下所示:
LAB(Ai,Bi)=αLlocal(Ai,Bi)+βLglobal(Ai,Bi),
其中,LAB表示知识蒸馏的损失函数,Lloca1表示局部损失函数,Lg1obal表示全局损失函数,α表示局部损失函数值对于整体知识蒸馏损失函数值的影响力程度,β表示全局损失函数值对于整体知识蒸馏损失函数值的影响力程度。
进一步的,所述步骤2中教师网络采用双向长短时间记忆网络建模,学生网络采用单向长短时间记忆网络建模。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明创新性的引入了教师网络模块和学生的网络模块,它主要是在不保证对结果产生影响的情况下,用来对深度学习网络进行压缩。因为往往深度学习下为了能够获得更高的准确率,训练出的网络结构通常比较复杂,而对于一些特殊的预测任务如人体行为预测来说,复杂的结构并不能达到这些任务的响应需求,通过引入教师网络模块和学生的网络模块,教师网络模块作为原始复杂的深的神经网络结构,学生网络模块作为一种轻量级的神经网络结构,因此,教师网络模块会有更高的预测准确率,它会作用于学生模块在简化网络参数之后达到最好的网络训练结果,通过从完整的视频中识别行为的教师网络与从部分视频中预测行为的学生网络的相互结合,这不仅可以在一定程度上极大地减少了计算量,加快了运算速度,也可得到准确的实验结果。
2.本发明摒弃了传统人体行为预测过程中通常会使用的统计学习算法和传统的机器学习方法,创新性的引入了知识蒸馏的思想,通过修改损失函数,让小网络在拟合训练数据的真值标签时,也要拟合大网络输出的概率分布。对于本发明中的教师网络,采用双向长短时间记忆网络(BiLSTM)建模,完成人体行为识别的任务;对于本发明中的学生网络,采用单向长短时间记忆网络(LSTM),完成人体行为预测的任务。但是考虑到视频的特殊性,由于存在时间维度和空间维度信息,会涉及到比图像更多的信息,因此为了让网络的拟合结果更好,在设计蒸馏的时候通过定义一个知识蒸馏的损失函数LAB(Ai,Bi)来更清晰的观测实验结果,它由一个Llocal(Ai,Bi)局部损失函数对每个视频均有对应的损失来控制信息蒸馏和一个Lglobal(Ai,Bi)全局损失函数来控制两个网络之间的信息蒸馏,从而最终通过两个损失函数的相互作用来使得人体行为预测网络的效果有较大提升。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明的整体流程图。
图2是本发明分别从完整视频和部分视频提取人体行为特征的过程示意图。
图3是本发明人体行为预测中的知识蒸馏过程示意图。
图4是本发明人体行为预测方法的整体网络结构示意图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
下面结合图1-图4对本发明作详细说明。
本发明能够建立在公共场合中的监控摄像头以及交通道路上的电子眼监控系统等基础上,并实现应用。
一种基于知识蒸馏的人体行为预测方法,包含以下步骤:
步骤1:对已知人体行为数据集中的视频逐个分别分成一段完整视频和一段部分视频,并分别对其进行提取视频图像帧的操作,再对得到的视频图像帧进行数据处理,并按照部分观测率将视频分成完整视频图像帧和部分视频图像帧集合;
步骤2:从完整视频图像帧中的人体行为特征构造教师网络,从部分视频图像帧的人体行为特征构造学生网络;
步骤3:通过知识蒸馏让教师网络和学生网络进行学习和识别,定义知识蒸馏的损失函数LAB(Ai,Bi)=αLlocal(Ai,Bi)+βLglobal(Ai,Bi),当损失函数在不过拟合的情况尽可能地达到最小值,此时对应的预测结果即为视频最终人体行为预测的结果,
其中,LAB表示知识蒸馏的损失函数,Ai表示一个大小为D×N的矩阵,Bi表示一个大小为D×N的矩阵。
图2教师网络和学生网络中,教师网络常常是比较复杂的神经网络,输入的是完整的视频图像帧序列,得到的是一个完整人体行为特征信息,而对于学生网络,通常是一种轻量型神经网络结构,输入的是部分的视频图像帧序列,得到的是一个局部人体行为特征信息。正如图2所示,相当于是将完整的人体行为特征信息通过知识蒸馏的方式作用于局部人体行为特征,令学生网络学习到教师网络的完整特征信息,从而提高预测行为的准确性。
图3示出了本发明中引入到人体行为预测中的知识蒸馏过程示意图。在本发明中,目标是希望能够学习到一个人体行为预测网络A:xt→yt+τ,相当于是预测当前视频xt经过时间步长t+τ之后所属的人体行为类别。因此,根据这种思想,如图3所示,引入了知识蒸馏的想法,通过构建教师网络B:xt+τ→yt+τ,让小网络即学生网络跟着大网络即教师网络输出的概率分布去学习的话,这不仅相当于给出了人体行为类别之间的相似性信息,提供了额外的监督信号,而且学起来也更加简单,极大地减少计算量,提高预测准确率。这也即为本发明中引入知识蒸馏想法的原因。
从完整的视频中识别行为的教师网络的训练,来修正从部分视频中预测人体行为的学生网络的学习,进而当LAB(Ai,Bi)在保证不发生过拟合的情况下,通过对网络的学习,当损失函数的值相对达到一个比较低的临界点的时候,此时人体行为预测结果的准确率也相对越高,此时对应的预测结果即为视频最终人体行为预测的结果。
作为另一种优选方案,所述的步骤1中,包括对人体行为数据集进行预处理,所述预处理包括分别对给每个视频进行帧提取的操作,并按照部分观测率的不同将视频分成完整视频图像帧以及部分视频图像帧集合。
作为另一种优选方案,所述的步骤2中教师网络和学生网络的表达式如下所示:
Figure BDA0002172961640000051
Figure BDA0002172961640000052
其中,Bi表示教师网络,xt表示在输入视频的t时刻,
Figure BDA0002172961640000053
表示在第i个完整视频当前时刻教师网络所提取出的特征,同理,Ai表示学生网络,xt-τ表示在输入视频的t-τ时刻,/>
Figure BDA0002172961640000054
表示在第i个部分视频当前时刻学生网络所提取出的特征。
图1示出了本发明提出的一种基于知识蒸馏的人体行为预测方法的步骤流程,如图1所示,该方法包括:首先需要对已知人体行为数据集中的视频逐个分成一段完整视频和一段部分视频,并分别对其进行提取视频图像帧的操作,再对得到的视频图像帧进行数据处理,并分成完整视频图像帧以及部分视频图像帧集合。
然后,引入教师网络和学生网络,采用教师网络从完整的视频图像帧中提取完整人体行为特征,采用学生网络从局部视频图像帧中提取部分人体行为特征。关于教师网络的人体行为特征和学生网络的人体行为特征的表达式如下所示:
Figure BDA0002172961640000055
Figure BDA0002172961640000056
其中,Bi表示教师网络也即识别网络,xt表示在输入视频的t时刻,Bi表示在第i个视频当前时刻教师网络所提取出的特征;同理,Ai表示学生网络也即预测网络,xt-τ表示在输入视频的t-τ时刻,A表示在第i个视频当前时刻学生网络所提取出的特征。结合特征的表达形式,通过引入教师网络和学生网络,就可以从教师网络中提取完整的人体行为图像RGB三通道特征,从学生网络中提取部分人体行为就可以从教师网络中提取完整的人体行为图像RGB三通道特征。
作为另一种优选方案,所述步骤3中知识蒸馏的损失函数的定义表达式如下所示:
LAB(Ai,Bi)=αLlocal(Ai,Bi)+βLglobal(Ai,Bi),
其中,LAB表示知识蒸馏的损失函数,Llocal表示局部损失函数,Lglobal表示全局损失函数,α表示局部损失函数值对于整体知识蒸馏损失函数值的影响力程度,β表示全局损失函数值对于整体知识蒸馏损失函数值的影响力程度。
引入知识蒸馏的局部损失和知识蒸馏的全局损失来对教师网络和学生网络进行学习和识别,从而能对部分视频的行为进行预测,其中提到的知识蒸馏按照部分观测率的大小分为全局蒸馏和局部蒸馏。其中局部蒸馏指的是部分观测率,相当对视频进行10%,20%,30%至90%的观测,当观测率达到100%的时候,也即为全局蒸馏,也即两个网络之间的信息蒸馏。
对于局部损失函数的定义表达式如下所示:
Figure BDA0002172961640000061
在上式中,
Figure BDA0002172961640000062
相当于计算一个均方误差,ω表示Llocal损失函数的权重向量,⊙表示一个元素相乘的运算符,将Ai对应的每一列乘以相对应的权重元素ω。
对于全局损失函数的定义表达式如下所示:
Figure BDA0002172961640000063
其中,可以把Lglobal看作一个对称的全局损失函数,而
Figure BDA0002172961640000064
则表示不对称的全局损失函数。
对于
Figure BDA0002172961640000065
和/>
Figure BDA0002172961640000066
的具体表示方式如下所示:
Figure BDA0002172961640000067
Figure BDA0002172961640000068
φ(ai,B)=Bsoftmax(γBTai)
φ(ai,A)=Asoftmax(γATai)
其中,φ(ai,B)表示教师网络中向量的平均池化值,通过找到一个合适的γ值,使得φ(ai,B)是教师网络向量B中最相似于学生网络中的ai,同理,对于φ(ai,A)也是这样的操作原理。这就相当于通过修改损失函数,让学生网络在拟合训练数据的真值标签时,也要拟合教师网络输出的概率分布,从而得到一个更优的实验结果。
作为另一种优选方案,所述步骤2中教师网络采用双向长短时间记忆网络建模,学生网络采用单向长短时间记忆网络建模。
图4示出了本发明中关于一种基于知识蒸馏的人体行为预测方法的整体网络结构示意图。其中,对于本发明中用到的教师网络,主要采用双向长短时间记忆网络(BiLSTM)来实现建模,通过输入完整视频来进行双向推导完成人体行为识别的任务;对于本发明中用到的学生网络,主要采用单项长短时间记忆网络(LSTM)来实现建模,但是由于部分视频,其对未来所发生的信息是未知的,因此只能进行单向推导,完成人体行为预测的任务,这是因为完整的视频可以进行双向推导,但是对于部分视频,未来的信息是不清楚的,因此只能进行单向操作,并且对于教师网络和学生网络来说,由于他们的任务不同,可以说是一个跨任务的信息蒸馏。
如图4所示,由于考虑到视频的特殊性,其存在时间维度和空间维度信息,会涉及到比图像更多的信息,因此为了让网络的拟合结果更好,在设计蒸馏的时候通过定义一个知识蒸馏的损失函数LAB(Ai,Bi)来更清晰的观测实验结果,它由一个Llocal(Ai,Bi)局部损失函数对每个视频均有对应的损失来控制信息蒸馏和一个Lglobal(Ai,Bi)全局损失函数来控制两个网络之间的信息蒸馏,从而最终通过两个损失函数的相互作用来使得人体行为预测网络的效果有较大提升。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (3)

1.一种基于知识蒸馏的人体行为预测方法,其特征在于,包含以下步骤:
步骤1:对已知人体行为数据集中的视频逐个分别分成一段完整视频和一段部分视频,并分别对其进行提取视频图像帧的操作,再对得到的视频图像帧进行数据处理,并按照部分观测率将视频分成完整视频图像帧和部分视频图像帧集合;
步骤2:从完整视频图像帧中的人体行为特征构造教师网络,从部分视频图像帧的人体行为特征构造学生网络;
步骤3:通过知识蒸馏让教师网络和学生网络进行学习和识别,定义知识蒸馏的损失函数
Figure DEST_PATH_IMAGE002
,当损失函数在不过拟合的情况且尽可能地达到最小值时,对应的预测结果即为视频最终人体行为预测的结果,
其中,
Figure DEST_PATH_IMAGE004
表示知识蒸馏的损失函数,
Figure DEST_PATH_IMAGE006
表示一个大小为
Figure DEST_PATH_IMAGE008
的矩阵,
Figure DEST_PATH_IMAGE010
表示一个大小为
Figure 16506DEST_PATH_IMAGE008
的矩阵,
Figure DEST_PATH_IMAGE012
表示局部损失函数,
Figure DEST_PATH_IMAGE014
表示全局损失函数,
Figure DEST_PATH_IMAGE016
表示局部损失函数值对于整体知识蒸馏损失函数值的影响力程度,
Figure DEST_PATH_IMAGE018
表示全局损失函数值对于整体知识蒸馏损失函数值的影响力程度;
所述步骤2中教师网络采用双向长短时间记忆网络建模,学生网络采用单向长短时间记忆网络建模。
2.根据权利要求1所述一种基于知识蒸馏的人体行为预测方法,其特征在于,所述的步骤1中,包括对人体行为数据集进行预处理,所述预处理包括分别对给每个视频进行帧提取的操作,并按照部分观测率的不同将视频分成完整视频图像帧以及部分视频图像帧集合。
3.根据权利要求1所述一种基于知识蒸馏的人体行为预测方法,其特征在于,所述的步骤2中教师网络和学生网络的表达式如下所示:
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
其中,
Figure 372795DEST_PATH_IMAGE010
表示教师网络,
Figure DEST_PATH_IMAGE024
表示在输入视频的t时刻,
Figure DEST_PATH_IMAGE026
表示在第
Figure DEST_PATH_IMAGE028
个完整视频当前时刻教师网络所提取出的特征,同理,
Figure 607992DEST_PATH_IMAGE006
表示学生网络,
Figure DEST_PATH_IMAGE030
表示在输入视频的
Figure DEST_PATH_IMAGE032
时刻,
Figure DEST_PATH_IMAGE034
表示在第
Figure 970577DEST_PATH_IMAGE028
个部分视频当前时刻学生网络所提取出的特征。
CN201910769040.5A 2019-08-20 2019-08-20 一种基于知识蒸馏的人体行为预测方法 Active CN110490136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910769040.5A CN110490136B (zh) 2019-08-20 2019-08-20 一种基于知识蒸馏的人体行为预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910769040.5A CN110490136B (zh) 2019-08-20 2019-08-20 一种基于知识蒸馏的人体行为预测方法

Publications (2)

Publication Number Publication Date
CN110490136A CN110490136A (zh) 2019-11-22
CN110490136B true CN110490136B (zh) 2023-03-24

Family

ID=68552271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910769040.5A Active CN110490136B (zh) 2019-08-20 2019-08-20 一种基于知识蒸馏的人体行为预测方法

Country Status (1)

Country Link
CN (1) CN110490136B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104967B (zh) * 2019-12-02 2023-12-22 精锐视觉智能科技(上海)有限公司 图像识别网络训练方法、图像识别方法、装置及终端设备
CN111144417B (zh) * 2019-12-27 2023-08-01 创新奇智(重庆)科技有限公司 基于教师学生网络的智能货柜小目标检测方法及检测系统
CN111401406B (zh) * 2020-02-21 2023-07-18 华为技术有限公司 一种神经网络训练方法、视频帧处理方法以及相关设备
WO2022134104A1 (en) * 2020-12-25 2022-06-30 Alibaba Group Holding Limited Systems and methods for image-to-video re-identification
CN112989920B (zh) * 2020-12-28 2023-08-11 华东理工大学 一种基于帧级特征蒸馏神经网络的脑电情绪分类系统
CN113313314A (zh) * 2021-06-11 2021-08-27 北京沃东天骏信息技术有限公司 模型训练方法、装置、设备及存储介质
CN113936679A (zh) * 2021-09-23 2022-01-14 电子科技大学 一种基于信息蒸馏与聚合的低信噪比语音增强方法
CN115100235B (zh) * 2022-08-18 2022-12-20 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种目标跟踪方法、系统及存储介质
CN116844225A (zh) * 2023-06-01 2023-10-03 东北大学佛山研究生创新学院 一种基于知识蒸馏的个性化人体动作识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11195093B2 (en) * 2017-05-18 2021-12-07 Samsung Electronics Co., Ltd Apparatus and method for student-teacher transfer learning network using knowledge bridge
EP3602414A1 (en) * 2017-05-20 2020-02-05 Google LLC Application development platform and software development kits that provide comprehensive machine learning services
CN108921294A (zh) * 2018-07-11 2018-11-30 浙江大学 一种用于神经网络加速的渐进式块知识蒸馏方法
CN109299657B (zh) * 2018-08-14 2020-07-03 清华大学 基于语义注意力保留机制的群体行为识别方法及装置
CN109740419B (zh) * 2018-11-22 2021-03-02 东南大学 一种基于Attention-LSTM网络的视频行为识别方法
CN109543039B (zh) * 2018-11-23 2022-04-08 中山大学 一种基于深度网络的自然语言情感分析方法
CN109670576B (zh) * 2018-11-29 2022-09-13 中山大学 一种多尺度视觉关注图像描述方法
CN110135562B (zh) * 2019-04-30 2020-12-01 中国科学院自动化研究所 基于特征空间变化的蒸馏学习方法、系统、装置

Also Published As

Publication number Publication date
CN110490136A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110490136B (zh) 一种基于知识蒸馏的人体行为预测方法
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
Lai et al. Understanding more about human and machine attention in deep neural networks
CN110853074B (zh) 一种利用光流增强目标的视频目标检测网络系统
Daroya et al. Alphabet sign language image classification using deep learning
CN111582342B (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN112541529A (zh) 表情与姿态融合的双模态教学评价方法、设备及存储介质
CN110956158A (zh) 一种基于教师学生学习框架的遮挡行人再标识方法
CN112036276A (zh) 一种人工智能视频问答方法
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
Seidel et al. NAPC: A neural algorithm for automated passenger counting in public transport on a privacy-friendly dataset
Gao et al. An object point set inductive tracker for multi-object tracking and segmentation
CN110457523A (zh) 封面图片的选取方法、模型的训练方法、装置及介质
CN110909645B (zh) 一种基于半监督流形嵌入的人群计数方法
Rafiq et al. Real-time vision-based bangla sign language detection using convolutional neural network
CN111160124A (zh) 一种基于知识重组的深度模型定制方法
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN116070696A (zh) 一种跨域数据深度迁移方法、装置、设备及存储介质
CN115659221A (zh) 一种教学质量的评估方法、装置及计算机可读存储介质
CN113824989A (zh) 一种视频处理方法、装置和计算机可读存储介质
Katti et al. Character and Word Level Gesture Recognition of Indian Sign Language
CN112446233A (zh) 一种基于多时间尺度推理的动作识别方法及装置
Xu et al. Deep Neural Network-Based Sports Marketing Video Detection Research
CN115631530B (zh) 一种基于人脸动作单元的公平人脸表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant