CN109299657B

CN109299657B - 基于语义注意力保留机制的群体行为识别方法及装置

Info

Publication number: CN109299657B
Application number: CN201810922273.XA
Authority: CN
Inventors: 鲁继文; 周杰; 唐彦嵩
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2020-07-03
Anticipated expiration: 2038-08-14
Also published as: CN109299657A

Abstract

本发明公开了一种基于语义注意力保留机制的群体行为识别方法及装置，其中，方法包括以下步骤：步骤S1：搭建并训练教师网络；步骤S2：获取学生网络的输入特征；步骤S3：根据学生网络的输入特征搭建学生网络；步骤S4：训练学生网络。该方法通过挖掘语义空间与视觉空间的注意力信息，使得视觉空间的注意力与语义空间的注意力保持一致，从而充分利用语义空间的注意力信息，提高群体行为识别的性能。

Description

基于语义注意力保留机制的群体行为识别方法及装置

技术领域

本发明涉及计算机视觉及深度学习技术领域，特别涉及一种基于语义注意力保留机制的群体行为识别方法及装置。

背景技术

行为识别旨在区分出在一段给定视频中的行为类别，是计算机视觉中的一个重要研究方向。群体行为识别是人体行为识别中的一个子研究领域，它有着广泛的应用场景，如交通视频监控、体育视频分析等。相比传统的单人行为识别，群体行为识别还需要考虑人与人之间的高层关系。所以，设计一个高效的模型来融合不同个人之间的动态信息，以及挖掘它们之间的形状上下文关系，显得至关重要。以附图1为例，其底端展示了一张从拍球数据集提取的视频帧，其所对应的群体行为“右方扣球”。显然，那个朝左扣球的运动员对于识别“右方扣球”这个群体行为能提供十分重要的判别信息，而其他站立的运动员会对识别这个群体动作，起到误导的作用。

近年来，基于群体识别的研究开始引起学界的关注，其方法大体上可以分为两类：基于浅层学习的方法和基于深度学习的方法。早期的浅层学习方法大多对单人提取手工设计的特征，并通过概率图模型进行建模，代表方法有DLM(Discriminative latent models，判别潜在模型)，And-or Graph(与或图模型)等。然而，手工特征需要大量的先验知识，并且对时域信息的刻画能力较差。近期的深度学习方法在大规模群体数据集上取得了较好的效果，例如HDTM(hierarchical deep temporal model，层次深层时域模型)，CERN(confidence-energy recurrent network，置信能量递归网络)等，但是这些方法对高层语义信息的建模能力有限。附图2具体展示了几种基于深度神经网络的群体行为识别方法比较。(a)中所示的方法，在单人动作标签的监督下提取单人动作特征，通过最大池化或平均池化的方式进行特征融合。但这类方法未能刻画高层语义信息。(b)中所示方法，在单人动作标签的监督下生成描述词汇(一系列的单人动作标签)，采用句子分类的方法进行分类得到最后群体行为标签。然而，句子分类对输入标签敏感，不好的输入标签会很大影响最终的识别效果。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于语义注意力保留机制的群体行为识别方法，该方法可以充分利用语义空间的注意力信息，提高群体行为识别的性能。

本发明的另一个目的在于提出一种基于语义注意力保留机制的群体行为识别装置。

为达到上述目的，本发明一方面实施例提出了一种基于语义注意力保留机制的群体行为识别方法，包括以下步骤：步骤S1：搭建并训练教师网络；步骤S2：获取学生网络的输入特征；步骤S3：根据所述学生网络的输入特征搭建学生网络；步骤S4：训练所述学生网络。

本发明实施例的基于语义注意力保留机制的群体行为识别方法，通过挖掘语义空间与视觉空间的注意力信息，使得视觉空间的注意力与语义空间的注意力保持一致，有效解决了群体行为识别技术中存在的低精度问题，从而更好的聚焦到群体行为中的关键人物，进行更加高效精准的群体行为识别，进而可以充分利用语义空间的注意力信息，来提高群体行为识别的性能。

另外，根据本发明上述实施例的基于语义注意力保留机制的群体行为识别方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述步骤S1进一步包括：将单人动作词汇编码生成向量，且通过第一非线性层将所述向量映射至隐层空间，并且引入注意力模型；采用所述第一非线性层得到每一个人的分数，并进行归一化处理；通过加权相加对所述单人动作词汇的特征进行融合，并将融合后的特征送入接着softmax激活函数的全连接层中，以得到最后的分类结果。

进一步地，在本发明的一个实施例中，所述步骤S2进一步包括：获取每一帧中每一个人的矩形块；通过深度卷积神经网络和深度递归神经网络对所述矩形块提取特征，以刻画每个人在每一个时刻的动态信息。

进一步地，在本发明的一个实施例中，所述步骤S3进一步包括：采用第二非线性层计算每一个人每一时刻特征的分数，并进行归一化处理；通过加权相加对每一时刻的单人特征进行融合，以得到每一时刻的群体特征；将所述每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别。

进一步地，在本发明的一个实施例中，在所述步骤S4中，在训练所述学生网络的过程中采用如下的损失函数：

其中，J_CLS为分类损失，J_SPA为语义注意力保留损失，J_KD为知识蒸馏(KD，knowledgedistillation)损失，λ₁与λ₂为权重项，I为示性函数，L为标签类别总数，l为预测标签类别，Z为真值标签类别，N为总人数，n为单个人的索引，α_n为语义空间的注意力信息，T为总帧数，t为帧数索引，

为视觉空间中第t帧所对应的注意力信息，p_T为教师网络的softmax输出，p_S为学生网络的softmax输出，

为学生网络softmax输出中第l类对应的值。

为达到上述目的，本发明另一方面实施例提出了一种基于语义注意力保留机制的群体行为识别装置，包括：第一搭建模块，用于搭建并训练教师网络；获取模块，用于获取学生网络的输入特征；第二搭建模块，用于根据所述学生网络的输入特征搭建学生网络；训练模块，用于训练所述学生网络。

本发明实施例的基于语义注意力保留机制的群体行为识别装置，通过挖掘语义空间与视觉空间的注意力信息，使得视觉空间的注意力与语义空间的注意力保持一致，有效解决了群体行为识别技术中存在的低精度问题，从而更好的聚焦到群体行为中的关键人物，进行更加高效精准的群体行为识别，进而可以充分利用语义空间的注意力信息，来提高群体行为识别的性能。

另外，根据本发明上述实施例的基于语义注意力保留机制的群体行为识别装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述第一搭建模块进一步用于将单人动作词汇编码生成向量，且通过第一非线性层将所述向量映射至隐层空间，并且引入注意力模型，并采用所述第一非线性层得到每一个人的分数，并进行归一化处理，通过加权相加对所述单人动作词汇的特征进行融合，并将融合后的特征送入接着softmax激活函数的全连接层中，以得到最后的分类结果。

进一步地，在本发明的一个实施例中，所述获取模块进一步用于获取每一帧中每一个人的矩形块，并通过深度卷积神经网络和深度递归神经网络对所述矩形块提取特征，以刻画每个人在每一个时刻的动态信息。

进一步地，在本发明的一个实施例中，所述第二搭建模块进一步用于采用第二非线性层计算每一个人每一时刻特征的分数，并进行归一化处理，并通过加权相加对每一时刻的单人特征进行融合，以得到每一时刻的群体特征，将所述每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别。

进一步地，在本发明的一个实施例中，在训练所述学生网络的过程中采用如下的损失函数：

为学生网络softmax输出中第l类对应的值。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为相关技术的群体识别方法的示意图；

图2为相关技术的几种基于深度神经网络的群体行为识别方法比较示意图；

图3为根据本发明一个实施例的基于语义注意力保留机制的群体行为识别方法的流程图；

图4为根据本发明一个具体实施例的基于语义注意力保留机制的群体行为识别方法的流程图；

图5为根据本发明一个实施例的基于语义注意力保留机制的群体行为识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于语义注意力保留机制的群体行为识别方法及装置，首先将参照附图描述根据本发明实施例提出的基于语义注意力保留机制的群体行为识别方法。

图3是本发明一个实施例的基于语义注意力保留机制的群体行为识别方法的流程图。

如图3所示，该基于语义注意力保留机制的群体行为识别方法包括以下步骤：

步骤S1：搭建并训练教师网络。

在本发明的一个实施例中，步骤S1进一步包括：将单人动作词汇编码生成向量，且通过第一非线性层将向量映射至隐层空间，并且引入注意力模型；采用第一非线性层得到每一个人的分数，并进行归一化处理；通过加权相加对单人动作词汇的特征进行融合，并将融合后的特征送入接着softmax激活函数的全连接层中，以得到最后的分类结果。

可以理解的是，如图4所示首先训练一个教师网络，在语义空间进行词汇归类的过程中，找到决定“群体词汇”的关键“单人词汇”。具体地，本发明实施例利用语义空间的词汇信息，挖掘对于识别群体行为词汇来说，关键的个体行为词汇。

具体而言，教师网络的搭建与训练

教师网络的输入是一系列的“单人动作词汇”(如朝右扣球，朝左站立等)，我们首先将其编码成一系列的“one-hot”向量

然后通过一个非线性层将其映射到一个隐层空间中：

f_em，n＝ReLU(W₂*f_n+b₂)，(1)

本发明实施例引入一个注意力模型。具体操作如下：

接下来，采用非线性层，计算每一个人的分数：

s_n＝tanh(W₃*fem，n+b₃)，

(2)

然后，这些分数进行归一化：

最后，本发明实施例采用加权相加的方式，对单人词汇的特征进行融合：

得到了融合后的特征v_agg之后，将其送入到一个接着softmax激活函数的全连接层中，得到最后的分类结果。

需要说明的是，注意力机制模型，受启发于原始视觉系统的注意力模块，旨在寻找出全局信息中最有效的部分。在过去的研究中，注意力模型被广泛的应用于自然语言处理领域(如，机器翻译)和计算机视觉领域(如，视频人脸分析、行人再识别、物体定位等)，以及它们的交互领域(如图片描述，视频描述和视觉问答等)。对于人体行为识别，一种基于全局形状上下文的注意力长短时间递归网络(attention LSTM)，用于挑选出基于骨骼视频中最关键的关节；一种时空注意力模型用于学习不同关节和不同帧之间的重要性。不同于这些工作，本发明实施例采用注意力模型，来给彩色视频中不同的人分配不同的权重。虽然有相关的工作对群体行为识别，采用注意力模型进行研究，但是上述方法只是应用了“自注意”模型，对于学出来的注意力，缺乏物理上的解释。不同于这些方法，本发明实施例的方法用语义领域的注意力信息，来指导视觉域的注意力信息，使得学习到的注意力更具有解释性。

步骤S2：获取学生网络的输入特征。

在本发明的一个实施例中，步骤S2进一步包括：获取每一帧中每一个人的矩形块；通过深度卷积神经网络和深度递归神经网络对矩形块提取特征，以刻画每个人在每一个时刻的动态信息。

具体而言，准备学生网络的输入特征

学生网络的输入是每一帧中每一个人的矩形块

这些矩形块，可以通过中的方法，经过预处理而得到。其中T代表视频的总帧数，N代表视频中的总人数。

接下来，首先采用中的方法，通过DCNN(Deep convolution neural network，深度卷积神经网络)和LSTM(Long Short-Term Memory，深度递归神经网络)对这些矩形块提取特征，来刻画每个人在每一个时刻的动态信，并将这一系列的特征记为

步骤S3：根据学生网络的输入特征搭建学生网络。

在本发明的一个实施例中，步骤S3进一步包括：采用第二非线性层计算每一个人每一时刻特征的分数，并进行归一化处理；通过加权相加对每一时刻的单人特征进行融合，以得到每一时刻的群体特征；将每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别。

具体而言，学生网络的搭建

类似于教师网络，本发明实施例在学生网络中也引入注意力模型。具体操作如下：

首先，本发明实施例采用非线性层，计算每一个人每一时刻特征的分数：

接着，本发明实施例这些分数进行归一化：

最后，本发明实施例采用加权相加的方式，对每一时刻的单人特征进行融合，得到每一时刻的群体特征：

得到每一时刻的群体特征之后，本发明实施例再将其送入最终的BLSTM(bidirectional long short-term memory，双向长短时记忆递归神经网络)中进行群体行为识别。

需要说明的是，关于群体行为识别的任务，比较主流的数据集有排球数据集、CAD数据集等。排球数据集是目前最大的数据集，4830段视频，8类群体动作，9类个体动作。在实验过程中，采用和原始数据集的训练/测试相同的划分方式。评价指标为分类准确率(MCA)和平均多类分类准确率(MPCA)，即对每一类的分类准确率取平均。CAD数据集共有2420段视频，5类群体动作，6类个体动作。在实验过程中，采用和原始数据集的训练/测试相同的划分方式，评价指标为分类准确率平均多类分类准确率(MPCA)。

步骤S4：训练学生网络。

可以理解的是，如图4所示，本发明实施例希望训练一个学生网络，在视觉空间进行群体行为识别的过程中，通过注意力模型，找到视频中的发掘关键人物。同时，希望增加约束，让两个空间学到的注意力信息保持一致。也就说，挖掘视觉空间中的关键人物，并通过目标函数的约束，使得其与群体行为词汇的注意力信息保持一致。

进一步地，在本发明的一个实施例中，在步骤S4中，在训练学生网络的过程中采用如下的损失函数：

为学生网络softmax输出中第l类对应的值。

具体而言，训练学生网络

为了让学生网络更好的学习教师网络的知识，本发明实施例在训练学生网络的过程中采用如下的损失函数：

损失函数的第一项为分类误差，本发明实施例计算预测结果和真实结果之间的交叉熵函数。第二项使得教师网络的注意力信息和学生网络的注意力信息保持一致，第三项使得他们的最后一层的分类得分尽可能相似。设计好损失函数后，通过时序反传算法对整体网络进行优化，进行群体行为识别。

例如，在训练的过程中，可以采用两块Nvidia GTX 1080Ti GPU进行网络训练，并将BLSTM的批量尺寸(batchsize)设置为16，初始学习率设置为0.00003，并采用Adam优化器对网络参数进行优化，权重参数λ₁＝λ₂＝1。

综上，首先，在语义空间中，通过引入注意力机制的方式，学习出对于识别“群体行为词汇”，每个“单人行为词汇”所贡献的权重(即注意力信息)。其次，在视觉空间中，学习出对于识别群体行为，每个“单人行为特征”所贡献的权重。通过目标函数的约束，使得这两个空间的注意力信息保持一致，从而充分利用语义空间的信息，提出了一种有效的面向群体行为识别的算法，并在一定程度上提高了性能。

根据本发明实施例提出的基于语义注意力保留机制的群体行为识别方法，通过挖掘语义空间与视觉空间的注意力信息，使得视觉空间的注意力与语义空间的注意力保持一致，有效解决了群体行为识别技术中存在的低精度问题，从而更好的聚焦到群体行为中的关键人物，进行更加高效精准的群体行为识别，进而可以充分利用语义空间的注意力信息，来提高群体行为识别的性能。

其次参照附图描述根据本发明实施例提出的基于语义注意力保留机制的群体行为识别装置。

图5是本发明一个实施例的基于语义注意力保留机制的群体行为识别装置的结构示意图。

如图5所示，该基于语义注意力保留机制的群体行为识别装置10包括：第一搭建模块100、获取模块200、第二搭建模块300和训练模块400。

其中，第一搭建模块100用于搭建并训练教师网络。获取模块200用于获取学生网络的输入特征。第二搭建模块300用于根据学生网络的输入特征搭建学生网络。训练模块400用于训练学生网络。本发明实施例的装置10通过挖掘语义空间与视觉空间的注意力信息，使得视觉空间的注意力与语义空间的注意力保持一致，从而可以充分利用语义空间的注意力信息，来提高群体行为识别的性能。

进一步地，在本发明的一个实施例中，第一搭建模块100进一步用于将单人动作词汇编码生成向量，且通过第一非线性层将向量映射至隐层空间，并且引入注意力模型，并采用第一非线性层得到每一个人的分数，并进行归一化处理，通过加权相加对单人动作词汇的特征进行融合，并将融合后的特征送入接着softmax激活函数的全连接层中，以得到最后的分类结果。

进一步地，在本发明的一个实施例中，获取模块200进一步用于获取每一帧中每一个人的矩形块，并通过深度卷积神经网络和深度递归神经网络对矩形块提取特征，以刻画每个人在每一个时刻的动态信息。

进一步地，在本发明的一个实施例中，第二搭建模块300进一步用于采用第二非线性层计算每一个人每一时刻特征的分数，并进行归一化处理，并通过加权相加对每一时刻的单人特征进行融合，以得到每一时刻的群体特征，将每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别。

进一步地，在本发明的一个实施例中，在训练学生网络的过程中采用如下的损失函数：

为学生网络softmax输出中第l类对应的值。

需要说明的是，前述对基于语义注意力保留机制的群体行为识别方法实施例的解释说明也适用于该实施例的基于语义注意力保留机制的群体行为识别装置，此处不再赘述。

根据本发明实施例提出的基于语义注意力保留机制的群体行为识别装置，通过挖掘语义空间与视觉空间的注意力信息，使得视觉空间的注意力与语义空间的注意力保持一致，有效解决了群体行为识别技术中存在的低精度问题，从而更好的聚焦到群体行为中的关键人物，进行更加高效精准的群体行为识别，进而可以充分利用语义空间的注意力信息，来提高群体行为识别的性能。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于语义注意力保留机制的群体行为识别方法，其特征在于，包括以下步骤：

步骤S1：搭建并训练教师网络；

所述步骤S1进一步包括：

将单人动作词汇编码生成向量，且通过第一非线性层将所述向量映射至隐层空间，并且引入注意力模型；

采用所述第一非线性层得到每一个人的分数，并进行归一化处理；

通过加权相加对所述单人动作词汇的特征进行融合，并将融合后的特征送入接着softmax激活函数的全连接层中，以得到最后的分类结果；

所述教师网络的输入为所述单人动作词汇，输出为所述分类结果的网络；

步骤S2：获取学生网络的输入特征；步骤S2进一步包括：

获取每一帧中每一个人的矩形块；

通过深度卷积神经网络和深度递归神经网络对所述矩形块提取特征，以刻画每个人在每一个时刻的动态信息；

步骤S3：根据所述学生网络的输入特征搭建学生网络；

所述步骤S3进一步包括：

采用第二非线性层计算每一个人每一时刻特征的分数，并进行归一化处理；

通过加权相加对每一时刻的单人特征进行融合，以得到每一时刻的群体特征；

将所述每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别；以及

步骤S4：训练所述学生网络。

2.根据权利要求1所述的基于语义注意力保留机制的群体行为识别方法，其特征在于，在所述步骤S4中，在训练所述学生网络的过程中采用如下的损失函数：

其中，J_CLS为分类损失，J_SPA为语义注意力保留损失，J_KD为知识蒸馏损失，λ₁与λ₂为权重项，I为示性函数，L为标签类别总数，l为预测标签类别，Z为真值标签类别，N为总人数，n为单个人的索引，α_n为语义空间的注意力信息，T为总帧数，t为帧数索引，

为学生网络softmax输出中第l类对应的值。

3.一种基于语义注意力保留机制的群体行为识别装置，其特征在于，包括：

第一搭建模块，用于搭建并训练教师网络；所述第一搭建模块进一步用于将单人动作词汇编码生成向量，且通过第一非线性层将所述向量映射至隐层空间，并且引入注意力模型，并采用所述第一非线性层得到每一个人的分数，并进行归一化处理，通过加权相加对所述单人动作词汇的特征进行融合，并将融合后的特征送入接着softmax激活函数的全连接层中，以得到最后的分类结果；

获取模块，用于获取学生网络的输入特征；所述获取模块进一步用于获取每一帧中每一个人的矩形块，并通过深度卷积神经网络和深度递归神经网络对所述矩形块提取特征，以刻画每个人在每一个时刻的动态信息；

第二搭建模块，用于根据所述学生网络的输入特征搭建学生网络；所述第二搭建模块进一步用于采用第二非线性层计算每一个人每一时刻特征的分数，并进行归一化处理，并通过加权相加对每一时刻的单人特征进行融合，以得到每一时刻的群体特征，将所述每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别；以及

训练模块，用于训练所述学生网络。

4.根据权利要求3所述的基于语义注意力保留机制的群体行为识别装置，其特征在于，在训练所述学生网络的过程中采用如下的损失函数：

为学生网络softmax输出中第l类对应的值。