CN109299657B - 基于语义注意力保留机制的群体行为识别方法及装置 - Google Patents

基于语义注意力保留机制的群体行为识别方法及装置 Download PDF

Info

Publication number
CN109299657B
CN109299657B CN201810922273.XA CN201810922273A CN109299657B CN 109299657 B CN109299657 B CN 109299657B CN 201810922273 A CN201810922273 A CN 201810922273A CN 109299657 B CN109299657 B CN 109299657B
Authority
CN
China
Prior art keywords
attention
network
person
semantic
student network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810922273.XA
Other languages
English (en)
Other versions
CN109299657A (zh
Inventor
鲁继文
周杰
唐彦嵩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810922273.XA priority Critical patent/CN109299657B/zh
Publication of CN109299657A publication Critical patent/CN109299657A/zh
Application granted granted Critical
Publication of CN109299657B publication Critical patent/CN109299657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Abstract

本发明公开了一种基于语义注意力保留机制的群体行为识别方法及装置,其中,方法包括以下步骤:步骤S1:搭建并训练教师网络;步骤S2:获取学生网络的输入特征;步骤S3:根据学生网络的输入特征搭建学生网络;步骤S4:训练学生网络。该方法通过挖掘语义空间与视觉空间的注意力信息,使得视觉空间的注意力与语义空间的注意力保持一致,从而充分利用语义空间的注意力信息,提高群体行为识别的性能。

Description

基于语义注意力保留机制的群体行为识别方法及装置
技术领域
本发明涉及计算机视觉及深度学习技术领域,特别涉及一种基于语义注意力保留机制的群体行为识别方法及装置。
背景技术
行为识别旨在区分出在一段给定视频中的行为类别,是计算机视觉中的一个重要研究方向。群体行为识别是人体行为识别中的一个子研究领域,它有着广泛的应用场景,如交通视频监控、体育视频分析等。相比传统的单人行为识别,群体行为识别还需要考虑人与人之间的高层关系。所以,设计一个高效的模型来融合不同个人之间的动态信息,以及挖掘它们之间的形状上下文关系,显得至关重要。以附图1为例,其底端展示了一张从拍球数据集提取的视频帧,其所对应的群体行为“右方扣球”。显然,那个朝左扣球的运动员对于识别“右方扣球”这个群体行为能提供十分重要的判别信息,而其他站立的运动员会对识别这个群体动作,起到误导的作用。
近年来,基于群体识别的研究开始引起学界的关注,其方法大体上可以分为两类:基于浅层学习的方法和基于深度学习的方法。早期的浅层学习方法大多对单人提取手工设计的特征,并通过概率图模型进行建模,代表方法有DLM(Discriminative latent models,判别潜在模型),And-or Graph(与或图模型)等。然而,手工特征需要大量的先验知识,并且对时域信息的刻画能力较差。近期的深度学习方法在大规模群体数据集上取得了较好的效果,例如HDTM(hierarchical deep temporal model,层次深层时域模型),CERN(confidence-energy recurrent network,置信能量递归网络)等,但是这些方法对高层语义信息的建模能力有限。附图2具体展示了几种基于深度神经网络的群体行为识别方法比较。(a)中所示的方法,在单人动作标签的监督下提取单人动作特征,通过最大池化或平均池化的方式进行特征融合。但这类方法未能刻画高层语义信息。(b)中所示方法,在单人动作标签的监督下生成描述词汇(一系列的单人动作标签),采用句子分类的方法进行分类得到最后群体行为标签。然而,句子分类对输入标签敏感,不好的输入标签会很大影响最终的识别效果。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于语义注意力保留机制的群体行为识别方法,该方法可以充分利用语义空间的注意力信息,提高群体行为识别的性能。
本发明的另一个目的在于提出一种基于语义注意力保留机制的群体行为识别装置。
为达到上述目的,本发明一方面实施例提出了一种基于语义注意力保留机制的群体行为识别方法,包括以下步骤:步骤S1:搭建并训练教师网络;步骤S2:获取学生网络的输入特征;步骤S3:根据所述学生网络的输入特征搭建学生网络;步骤S4:训练所述学生网络。
本发明实施例的基于语义注意力保留机制的群体行为识别方法,通过挖掘语义空间与视觉空间的注意力信息,使得视觉空间的注意力与语义空间的注意力保持一致,有效解决了群体行为识别技术中存在的低精度问题,从而更好的聚焦到群体行为中的关键人物,进行更加高效精准的群体行为识别,进而可以充分利用语义空间的注意力信息,来提高群体行为识别的性能。
另外,根据本发明上述实施例的基于语义注意力保留机制的群体行为识别方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述步骤S1进一步包括:将单人动作词汇编码生成向量,且通过第一非线性层将所述向量映射至隐层空间,并且引入注意力模型;采用所述第一非线性层得到每一个人的分数,并进行归一化处理;通过加权相加对所述单人动作词汇的特征进行融合,并将融合后的特征送入接着softmax激活函数的全连接层中,以得到最后的分类结果。
进一步地,在本发明的一个实施例中,所述步骤S2进一步包括:获取每一帧中每一个人的矩形块;通过深度卷积神经网络和深度递归神经网络对所述矩形块提取特征,以刻画每个人在每一个时刻的动态信息。
进一步地,在本发明的一个实施例中,所述步骤S3进一步包括:采用第二非线性层计算每一个人每一时刻特征的分数,并进行归一化处理;通过加权相加对每一时刻的单人特征进行融合,以得到每一时刻的群体特征;将所述每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别。
进一步地,在本发明的一个实施例中,在所述步骤S4中,在训练所述学生网络的过程中采用如下的损失函数:
Figure BDA0001764532500000031
其中,JCLS为分类损失,JSPA为语义注意力保留损失,JKD为知识蒸馏(KD,knowledgedistillation)损失,λ1与λ2为权重项,I为示性函数,L为标签类别总数,l为预测标签类别,Z为真值标签类别,N为总人数,n为单个人的索引,αn为语义空间的注意力信息,T为总帧数,t为帧数索引,
Figure BDA0001764532500000033
为视觉空间中第t帧所对应的注意力信息,pT为教师网络的softmax输出,pS为学生网络的softmax输出,
Figure BDA0001764532500000032
为学生网络softmax输出中第l类对应的值。
为达到上述目的,本发明另一方面实施例提出了一种基于语义注意力保留机制的群体行为识别装置,包括:第一搭建模块,用于搭建并训练教师网络;获取模块,用于获取学生网络的输入特征;第二搭建模块,用于根据所述学生网络的输入特征搭建学生网络;训练模块,用于训练所述学生网络。
本发明实施例的基于语义注意力保留机制的群体行为识别装置,通过挖掘语义空间与视觉空间的注意力信息,使得视觉空间的注意力与语义空间的注意力保持一致,有效解决了群体行为识别技术中存在的低精度问题,从而更好的聚焦到群体行为中的关键人物,进行更加高效精准的群体行为识别,进而可以充分利用语义空间的注意力信息,来提高群体行为识别的性能。
另外,根据本发明上述实施例的基于语义注意力保留机制的群体行为识别装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述第一搭建模块进一步用于将单人动作词汇编码生成向量,且通过第一非线性层将所述向量映射至隐层空间,并且引入注意力模型,并采用所述第一非线性层得到每一个人的分数,并进行归一化处理,通过加权相加对所述单人动作词汇的特征进行融合,并将融合后的特征送入接着softmax激活函数的全连接层中,以得到最后的分类结果。
进一步地,在本发明的一个实施例中,所述获取模块进一步用于获取每一帧中每一个人的矩形块,并通过深度卷积神经网络和深度递归神经网络对所述矩形块提取特征,以刻画每个人在每一个时刻的动态信息。
进一步地,在本发明的一个实施例中,所述第二搭建模块进一步用于采用第二非线性层计算每一个人每一时刻特征的分数,并进行归一化处理,并通过加权相加对每一时刻的单人特征进行融合,以得到每一时刻的群体特征,将所述每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别。
进一步地,在本发明的一个实施例中,在训练所述学生网络的过程中采用如下的损失函数:
Figure BDA0001764532500000041
其中,JCLS为分类损失,JSPA为语义注意力保留损失,JKD为知识蒸馏(KD,knowledgedistillation)损失,λ1与λ2为权重项,I为示性函数,L为标签类别总数,l为预测标签类别,Z为真值标签类别,N为总人数,n为单个人的索引,αn为语义空间的注意力信息,T为总帧数,t为帧数索引,
Figure BDA0001764532500000042
为视觉空间中第t帧所对应的注意力信息,pT为教师网络的softmax输出,pS为学生网络的softmax输出,
Figure BDA0001764532500000043
为学生网络softmax输出中第l类对应的值。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为相关技术的群体识别方法的示意图;
图2为相关技术的几种基于深度神经网络的群体行为识别方法比较示意图;
图3为根据本发明一个实施例的基于语义注意力保留机制的群体行为识别方法的流程图;
图4为根据本发明一个具体实施例的基于语义注意力保留机制的群体行为识别方法的流程图;
图5为根据本发明一个实施例的基于语义注意力保留机制的群体行为识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于语义注意力保留机制的群体行为识别方法及装置,首先将参照附图描述根据本发明实施例提出的基于语义注意力保留机制的群体行为识别方法。
图3是本发明一个实施例的基于语义注意力保留机制的群体行为识别方法的流程图。
如图3所示,该基于语义注意力保留机制的群体行为识别方法包括以下步骤:
步骤S1:搭建并训练教师网络。
在本发明的一个实施例中,步骤S1进一步包括:将单人动作词汇编码生成向量,且通过第一非线性层将向量映射至隐层空间,并且引入注意力模型;采用第一非线性层得到每一个人的分数,并进行归一化处理;通过加权相加对单人动作词汇的特征进行融合,并将融合后的特征送入接着softmax激活函数的全连接层中,以得到最后的分类结果。
可以理解的是,如图4所示首先训练一个教师网络,在语义空间进行词汇归类的过程中,找到决定“群体词汇”的关键“单人词汇”。具体地,本发明实施例利用语义空间的词汇信息,挖掘对于识别群体行为词汇来说,关键的个体行为词汇。
具体而言,教师网络的搭建与训练
教师网络的输入是一系列的“单人动作词汇”(如朝右扣球,朝左站立等),我们首先将其编码成一系列的“one-hot”向量
Figure BDA0001764532500000051
然后通过一个非线性层将其映射到一个隐层空间中:
fem,n=ReLU(W2*fn+b2),(1)
本发明实施例引入一个注意力模型。具体操作如下:
接下来,采用非线性层,计算每一个人的分数:
sn=tanh(W3*fem,n+b3),
(2)
然后,这些分数进行归一化:
Figure BDA0001764532500000052
最后,本发明实施例采用加权相加的方式,对单人词汇的特征进行融合:
Figure BDA0001764532500000053
得到了融合后的特征vagg之后,将其送入到一个接着softmax激活函数的全连接层中,得到最后的分类结果。
需要说明的是,注意力机制模型,受启发于原始视觉系统的注意力模块,旨在寻找出全局信息中最有效的部分。在过去的研究中,注意力模型被广泛的应用于自然语言处理领域(如,机器翻译)和计算机视觉领域(如,视频人脸分析、行人再识别、物体定位等),以及它们的交互领域(如图片描述,视频描述和视觉问答等)。对于人体行为识别,一种基于全局形状上下文的注意力长短时间递归网络(attention LSTM),用于挑选出基于骨骼视频中最关键的关节;一种时空注意力模型用于学习不同关节和不同帧之间的重要性。不同于这些工作,本发明实施例采用注意力模型,来给彩色视频中不同的人分配不同的权重。虽然有相关的工作对群体行为识别,采用注意力模型进行研究,但是上述方法只是应用了“自注意”模型,对于学出来的注意力,缺乏物理上的解释。不同于这些方法,本发明实施例的方法用语义领域的注意力信息,来指导视觉域的注意力信息,使得学习到的注意力更具有解释性。
步骤S2:获取学生网络的输入特征。
在本发明的一个实施例中,步骤S2进一步包括:获取每一帧中每一个人的矩形块;通过深度卷积神经网络和深度递归神经网络对矩形块提取特征,以刻画每个人在每一个时刻的动态信息。
具体而言,准备学生网络的输入特征
学生网络的输入是每一帧中每一个人的矩形块
Figure BDA0001764532500000061
这些矩形块,可以通过中的方法,经过预处理而得到。其中T代表视频的总帧数,N代表视频中的总人数。
接下来,首先采用中的方法,通过DCNN(Deep convolution neural network,深度卷积神经网络)和LSTM(Long Short-Term Memory,深度递归神经网络)对这些矩形块提取特征,来刻画每个人在每一个时刻的动态信,并将这一系列的特征记为
Figure BDA0001764532500000062
步骤S3:根据学生网络的输入特征搭建学生网络。
在本发明的一个实施例中,步骤S3进一步包括:采用第二非线性层计算每一个人每一时刻特征的分数,并进行归一化处理;通过加权相加对每一时刻的单人特征进行融合,以得到每一时刻的群体特征;将每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别。
具体而言,学生网络的搭建
类似于教师网络,本发明实施例在学生网络中也引入注意力模型。具体操作如下:
首先,本发明实施例采用非线性层,计算每一个人每一时刻特征的分数:
Figure BDA0001764532500000071
接着,本发明实施例这些分数进行归一化:
Figure BDA0001764532500000072
最后,本发明实施例采用加权相加的方式,对每一时刻的单人特征进行融合,得到每一时刻的群体特征:
Figure BDA0001764532500000073
得到每一时刻的群体特征之后,本发明实施例再将其送入最终的BLSTM(bidirectional long short-term memory,双向长短时记忆递归神经网络)中进行群体行为识别。
需要说明的是,关于群体行为识别的任务,比较主流的数据集有排球数据集、CAD数据集等。排球数据集是目前最大的数据集,4830段视频,8类群体动作,9类个体动作。在实验过程中,采用和原始数据集的训练/测试相同的划分方式。评价指标为分类准确率(MCA)和平均多类分类准确率(MPCA),即对每一类的分类准确率取平均。CAD数据集共有2420段视频,5类群体动作,6类个体动作。在实验过程中,采用和原始数据集的训练/测试相同的划分方式,评价指标为分类准确率平均多类分类准确率(MPCA)。
步骤S4:训练学生网络。
可以理解的是,如图4所示,本发明实施例希望训练一个学生网络,在视觉空间进行群体行为识别的过程中,通过注意力模型,找到视频中的发掘关键人物。同时,希望增加约束,让两个空间学到的注意力信息保持一致。也就说,挖掘视觉空间中的关键人物,并通过目标函数的约束,使得其与群体行为词汇的注意力信息保持一致。
进一步地,在本发明的一个实施例中,在步骤S4中,在训练学生网络的过程中采用如下的损失函数:
Figure BDA0001764532500000074
其中,JCLS为分类损失,JSPA为语义注意力保留损失,JKD为知识蒸馏(KD,knowledgedistillation)损失,λ1与λ2为权重项,I为示性函数,L为标签类别总数,l为预测标签类别,Z为真值标签类别,N为总人数,n为单个人的索引,αn为语义空间的注意力信息,T为总帧数,t为帧数索引,
Figure BDA0001764532500000083
为视觉空间中第t帧所对应的注意力信息,pT为教师网络的softmax输出,pS为学生网络的softmax输出,
Figure BDA0001764532500000081
为学生网络softmax输出中第l类对应的值。
具体而言,训练学生网络
为了让学生网络更好的学习教师网络的知识,本发明实施例在训练学生网络的过程中采用如下的损失函数:
Figure BDA0001764532500000082
损失函数的第一项为分类误差,本发明实施例计算预测结果和真实结果之间的交叉熵函数。第二项使得教师网络的注意力信息和学生网络的注意力信息保持一致,第三项使得他们的最后一层的分类得分尽可能相似。设计好损失函数后,通过时序反传算法对整体网络进行优化,进行群体行为识别。
例如,在训练的过程中,可以采用两块Nvidia GTX 1080Ti GPU进行网络训练,并将BLSTM的批量尺寸(batchsize)设置为16,初始学习率设置为0.00003,并采用Adam优化器对网络参数进行优化,权重参数λ1=λ2=1。
综上,首先,在语义空间中,通过引入注意力机制的方式,学习出对于识别“群体行为词汇”,每个“单人行为词汇”所贡献的权重(即注意力信息)。其次,在视觉空间中,学习出对于识别群体行为,每个“单人行为特征”所贡献的权重。通过目标函数的约束,使得这两个空间的注意力信息保持一致,从而充分利用语义空间的信息,提出了一种有效的面向群体行为识别的算法,并在一定程度上提高了性能。
根据本发明实施例提出的基于语义注意力保留机制的群体行为识别方法,通过挖掘语义空间与视觉空间的注意力信息,使得视觉空间的注意力与语义空间的注意力保持一致,有效解决了群体行为识别技术中存在的低精度问题,从而更好的聚焦到群体行为中的关键人物,进行更加高效精准的群体行为识别,进而可以充分利用语义空间的注意力信息,来提高群体行为识别的性能。
其次参照附图描述根据本发明实施例提出的基于语义注意力保留机制的群体行为识别装置。
图5是本发明一个实施例的基于语义注意力保留机制的群体行为识别装置的结构示意图。
如图5所示,该基于语义注意力保留机制的群体行为识别装置10包括:第一搭建模块100、获取模块200、第二搭建模块300和训练模块400。
其中,第一搭建模块100用于搭建并训练教师网络。获取模块200用于获取学生网络的输入特征。第二搭建模块300用于根据学生网络的输入特征搭建学生网络。训练模块400用于训练学生网络。本发明实施例的装置10通过挖掘语义空间与视觉空间的注意力信息,使得视觉空间的注意力与语义空间的注意力保持一致,从而可以充分利用语义空间的注意力信息,来提高群体行为识别的性能。
进一步地,在本发明的一个实施例中,第一搭建模块100进一步用于将单人动作词汇编码生成向量,且通过第一非线性层将向量映射至隐层空间,并且引入注意力模型,并采用第一非线性层得到每一个人的分数,并进行归一化处理,通过加权相加对单人动作词汇的特征进行融合,并将融合后的特征送入接着softmax激活函数的全连接层中,以得到最后的分类结果。
进一步地,在本发明的一个实施例中,获取模块200进一步用于获取每一帧中每一个人的矩形块,并通过深度卷积神经网络和深度递归神经网络对矩形块提取特征,以刻画每个人在每一个时刻的动态信息。
进一步地,在本发明的一个实施例中,第二搭建模块300进一步用于采用第二非线性层计算每一个人每一时刻特征的分数,并进行归一化处理,并通过加权相加对每一时刻的单人特征进行融合,以得到每一时刻的群体特征,将每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别。
进一步地,在本发明的一个实施例中,在训练学生网络的过程中采用如下的损失函数:
Figure BDA0001764532500000091
其中,JCLS为分类损失,JSPA为语义注意力保留损失,JKD为知识蒸馏(KD,knowledgedistillation)损失,λ1与λ2为权重项,I为示性函数,L为标签类别总数,l为预测标签类别,Z为真值标签类别,N为总人数,n为单个人的索引,αn为语义空间的注意力信息,T为总帧数,t为帧数索引,
Figure BDA0001764532500000102
为视觉空间中第t帧所对应的注意力信息,pT为教师网络的softmax输出,pS为学生网络的softmax输出,
Figure BDA0001764532500000101
为学生网络softmax输出中第l类对应的值。
需要说明的是,前述对基于语义注意力保留机制的群体行为识别方法实施例的解释说明也适用于该实施例的基于语义注意力保留机制的群体行为识别装置,此处不再赘述。
根据本发明实施例提出的基于语义注意力保留机制的群体行为识别装置,通过挖掘语义空间与视觉空间的注意力信息,使得视觉空间的注意力与语义空间的注意力保持一致,有效解决了群体行为识别技术中存在的低精度问题,从而更好的聚焦到群体行为中的关键人物,进行更加高效精准的群体行为识别,进而可以充分利用语义空间的注意力信息,来提高群体行为识别的性能。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (4)

1.一种基于语义注意力保留机制的群体行为识别方法,其特征在于,包括以下步骤:
步骤S1:搭建并训练教师网络;
所述步骤S1进一步包括:
将单人动作词汇编码生成向量,且通过第一非线性层将所述向量映射至隐层空间,并且引入注意力模型;
采用所述第一非线性层得到每一个人的分数,并进行归一化处理;
通过加权相加对所述单人动作词汇的特征进行融合,并将融合后的特征送入接着softmax激活函数的全连接层中,以得到最后的分类结果;
所述教师网络的输入为所述单人动作词汇,输出为所述分类结果的网络;
步骤S2:获取学生网络的输入特征;步骤S2进一步包括:
获取每一帧中每一个人的矩形块;
通过深度卷积神经网络和深度递归神经网络对所述矩形块提取特征,以刻画每个人在每一个时刻的动态信息;
步骤S3:根据所述学生网络的输入特征搭建学生网络;
所述步骤S3进一步包括:
采用第二非线性层计算每一个人每一时刻特征的分数,并进行归一化处理;
通过加权相加对每一时刻的单人特征进行融合,以得到每一时刻的群体特征;
将所述每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别;以及
步骤S4:训练所述学生网络。
2.根据权利要求1所述的基于语义注意力保留机制的群体行为识别方法,其特征在于,在所述步骤S4中,在训练所述学生网络的过程中采用如下的损失函数:
Figure FDA0002457362280000021
其中,JCLS为分类损失,JSPA为语义注意力保留损失,JKD为知识蒸馏损失,λ1与λ2为权重项,I为示性函数,L为标签类别总数,l为预测标签类别,Z为真值标签类别,N为总人数,n为单个人的索引,αn为语义空间的注意力信息,T为总帧数,t为帧数索引,
Figure FDA0002457362280000023
为视觉空间中第t帧所对应的注意力信息,pT为教师网络的softmax输出,pS为学生网络的softmax输出,
Figure FDA0002457362280000022
为学生网络softmax输出中第l类对应的值。
3.一种基于语义注意力保留机制的群体行为识别装置,其特征在于,包括:
第一搭建模块,用于搭建并训练教师网络;所述第一搭建模块进一步用于将单人动作词汇编码生成向量,且通过第一非线性层将所述向量映射至隐层空间,并且引入注意力模型,并采用所述第一非线性层得到每一个人的分数,并进行归一化处理,通过加权相加对所述单人动作词汇的特征进行融合,并将融合后的特征送入接着softmax激活函数的全连接层中,以得到最后的分类结果;
获取模块,用于获取学生网络的输入特征;所述获取模块进一步用于获取每一帧中每一个人的矩形块,并通过深度卷积神经网络和深度递归神经网络对所述矩形块提取特征,以刻画每个人在每一个时刻的动态信息;
第二搭建模块,用于根据所述学生网络的输入特征搭建学生网络;所述第二搭建模块进一步用于采用第二非线性层计算每一个人每一时刻特征的分数,并进行归一化处理,并通过加权相加对每一时刻的单人特征进行融合,以得到每一时刻的群体特征,将所述每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别;以及
训练模块,用于训练所述学生网络。
4.根据权利要求3所述的基于语义注意力保留机制的群体行为识别装置,其特征在于,在训练所述学生网络的过程中采用如下的损失函数:
Figure FDA0002457362280000031
其中,JCLS为分类损失,JSPA为语义注意力保留损失,JKD为知识蒸馏损失,λ1与λ2为权重项,I为示性函数,L为标签类别总数,l为预测标签类别,Z为真值标签类别,N为总人数,n为单个人的索引,αn为语义空间的注意力信息,T为总帧数,t为帧数索引,
Figure FDA0002457362280000033
为视觉空间中第t帧所对应的注意力信息,pT为教师网络的softmax输出,pS为学生网络的softmax输出,
Figure FDA0002457362280000032
为学生网络softmax输出中第l类对应的值。
CN201810922273.XA 2018-08-14 2018-08-14 基于语义注意力保留机制的群体行为识别方法及装置 Active CN109299657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810922273.XA CN109299657B (zh) 2018-08-14 2018-08-14 基于语义注意力保留机制的群体行为识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810922273.XA CN109299657B (zh) 2018-08-14 2018-08-14 基于语义注意力保留机制的群体行为识别方法及装置

Publications (2)

Publication Number Publication Date
CN109299657A CN109299657A (zh) 2019-02-01
CN109299657B true CN109299657B (zh) 2020-07-03

Family

ID=65172507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810922273.XA Active CN109299657B (zh) 2018-08-14 2018-08-14 基于语义注意力保留机制的群体行为识别方法及装置

Country Status (1)

Country Link
CN (1) CN109299657B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109887075B (zh) * 2019-02-20 2020-12-15 清华大学 用于三维模型构建的三维点云模型训练方法
CN109859772B (zh) * 2019-03-22 2023-03-28 平安科技(深圳)有限公司 情绪识别方法、装置及计算机可读存储介质
CN110135562B (zh) * 2019-04-30 2020-12-01 中国科学院自动化研究所 基于特征空间变化的蒸馏学习方法、系统、装置
CN110490136B (zh) * 2019-08-20 2023-03-24 电子科技大学 一种基于知识蒸馏的人体行为预测方法
CN112668366A (zh) * 2019-10-15 2021-04-16 华为技术有限公司 图像识别方法、装置、计算机可读存储介质及芯片
CN111783898B (zh) * 2020-07-09 2021-09-14 腾讯科技(深圳)有限公司 图像识别模型的训练、图像识别方法、装置及设备
CN111950411B (zh) * 2020-07-31 2021-12-28 上海商汤智能科技有限公司 模型确定方法及相关装置
CN112818948B (zh) * 2021-03-09 2022-03-29 东南大学 一种嵌入式系统下的基于视觉注意力的行为识别方法
CN113449610A (zh) * 2021-06-08 2021-09-28 杭州格像科技有限公司 一种基于知识蒸馏和注意力机制的手势识别方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105590099A (zh) * 2015-12-22 2016-05-18 中国石油大学(华东) 一种基于改进卷积神经网络的多人行为识别方法
CN106529467A (zh) * 2016-11-07 2017-03-22 南京邮电大学 基于多特征融合的群体行为识别方法
CN107480578A (zh) * 2016-06-08 2017-12-15 国家计算机网络与信息安全管理中心 一种利用人群行为分析的视频检测系统及方法
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105590099A (zh) * 2015-12-22 2016-05-18 中国石油大学(华东) 一种基于改进卷积神经网络的多人行为识别方法
CN107480578A (zh) * 2016-06-08 2017-12-15 国家计算机网络与信息安全管理中心 一种利用人群行为分析的视频检测系统及方法
CN106529467A (zh) * 2016-11-07 2017-03-22 南京邮电大学 基于多特征融合的群体行为识别方法
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Social Scene Understanding: End-to-End Multi-Person Action Localization and Collective Activity Recognition;Timur Bagautdinov,et al;《arXiv:1611.09078v1 [cs.CV]》;20161128;正文第1-9页 *

Also Published As

Publication number Publication date
CN109299657A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN109299657B (zh) 基于语义注意力保留机制的群体行为识别方法及装置
CN109299262B (zh) 一种融合多粒度信息的文本蕴含关系识别方法
CN107766447B (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN109034044B (zh) 一种基于融合卷积神经网络的行人再识别方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN105787458B (zh) 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法
CN103268495B (zh) 计算机系统中基于先验知识聚类的人体行为建模识别方法
CN110717431A (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
CN108776796B (zh) 一种基于全局时空注意力模型的动作识别方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN106778921A (zh) 基于深度学习编码模型的人员再识别方法
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN108491766B (zh) 一种端到端的基于深度决策森林的人群计数方法
CN112650886B (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN110826453A (zh) 一种通过提取人体关节点坐标的行为识别方法
CN109522961A (zh) 一种基于字典深度学习的半监督图像分类方法
CN113408852B (zh) 基于在线学习行为和深度神经网络的元认知能力评估模型
CN109145763B (zh) 基于自然语言描述的视频监控行人搜索图像文本融合方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN113204675B (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN115761900B (zh) 用于实训基地管理的物联网云平台
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN112949740A (zh) 一种基于多级度量的小样本图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant