CN109241829A

CN109241829A - 基于时空注意卷积神经网络的行为识别方法及装置

Info

Publication number: CN109241829A
Application number: CN201810824370.5A
Authority: CN
Inventors: 胡卫明; 杨浩; 原春锋
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2019-01-18
Anticipated expiration: 2038-07-25
Also published as: CN109241829B

Abstract

本发明属于计算机视觉技术领域，具体涉及一种基于时空注意卷积神经网络的行为识别方法及装置，旨在解决如何准确识别视频中目标行为的技术问题。本发明提供的行为识别方法包括：将待测视频等间隔地分割为多个视频段；基于预先构建的空间注意网络提取每个视频段的光流特征，根据每个视频段的光流特征获取每个视频段的运动显著区域并且根据运动显著区域生成空间运动显著性映射图；基于预先构建的视频分类网络并且根据多个预设的行为类别、每个视频段以及相应的空间运动显著性映射图预测每个视频段对应的行为类别；按可信度降序选取前N个视频段的预测结果的加权平均值作为待测视频的行为识别结果。本发明能够有效提升行为识别的效果。

Description

基于时空注意卷积神经网络的行为识别方法及装置

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于时空注意卷积神经网络的行为识别方法及装置。

背景技术

人体行为识别技术广泛应用于人机智能交互、虚拟实现和视频监控等领域，其能够对人在不同场景下面的行为进行区分和判断。近年来人体行为识别得到了广泛的研究，提出了大量的算法，基于卷积神经网络的方法主要包括两大类，一类在RGB视频帧和光流帧中分别训练一个深度卷积网络，接着融合两个网络的预测结果能有效提升单个神经网络的识别精度；另一类是利用人体关节点坐标或者人体边界框提取人体部位的表观特征，再利用该表观特征进行行为分类预测。

在真实场景中有效的人体行为识别仍然非常困难，主要的挑战来自于视频数据的复杂性、类内散度大、背景运动和相机运动等。视频中不同时间片段及不同空间区域对分类贡献差别很大，传统的行为识别算法同等对待不同时间片段及不同空间区域信息，这将会引入干扰信息到分类模型中。为了定位视频中的显著区域，通常在行为识别中引入视觉注意机制，然而以往的基于视觉注意机制的行为识别方法仅包含空域的视觉注意机制，而没有涉及时域的视觉注意机制，并且计算复杂度高，实验效果并不理想。在利用人体关节点坐标或者人体边界框提取人体部位的表观特征的方法中，需要手工标注人体关节点坐标和人体边界框，这将至少带来以下两个缺点：1)人体关节点坐标和边界框的标注依赖设备并需要大量人力和时间；2)在行为识别中，不是所有的人体部位都具有判别性。参阅附图5，图5示例性示出的是行为识别任务中视频段及对应的空间运动显著区域的对比图，第一行示出的视频图片，第二行为对应于第一行视频图片的空间运动显著区域。从左向右数第一列图片可以看出人体具有判别性的区域在眼睛周围，从左向右数第二列图片中可以看出人体的关键部位是嘴巴，这两列图片的背景和运动都非常相似，但这两个视频分别属于不同的人体行为。相反，从左向右数第三列和第四列对应的图片属于相同的人体行为，但视频中的场景差别很大。

发明内容

为了解决现有技术中的上述问题，即为了解决如何准确识别视频中目标行为的技术问题，本发明的第一方面，提供了一种基于时空注意卷积神经网络的行为识别方法，包括：

将待测视频等间隔地分割为多个视频段；

基于预先构建的空间注意网络提取每个所述视频段的光流特征，根据每个所述视频段的光流特征获取每个所述视频段的运动显著区域并且根据所述运动显著区域生成空间运动显著性映射图；

基于预先构建的视频分类网络并且根据多个预设的行为类别、每个所述视频段以及相应的空间运动显著性映射图预测所述每个视频段对应的行为类别；

计算每个所述视频段的预测结果的可信度，并且按所述可信度降序选取前N个视频段的预测结果，以所述前N个视频段的预测结果的加权平均值作为所述待测视频的行为识别结果；

其中，所述空间注意网络和视频分类网络均是基于预设的视频样本并且利用机器学习算法所构建的深度卷积神经网络；所述空间运动显著性映射图包括所述运动显著区域的位置坐标和每个所述位置坐标对应的显著性权值。

进一步地，本发明提供的一个优选技术方案为：

所述空间注意网络还包括空间运动显著性映射图生成器和第一卷积处理单元，所述第一卷积处理单元包括多个顺次连接的卷积层，所述空间运动显著性映射图生成器包括卷积层；

所述空间运动显著性映射图生成器按照下式所示的方法获取所述运动显著区域中每个位置坐标对应的显著性权值：

其中，所述M(x,y)为所述运动显著区域中位置坐标为(x,y)处的显著性权值，所述w_k为所述空间运动显著性映射图生成器的卷积层中第k个卷积单元的权值，所述为所述第一卷积处理单元最后一层卷积层中第k个卷积单元在位置坐标(x,y)输出的光流特征，所述S_n为第n个输送至所述空间注意网络的视频段，所述θ为预设的空间注意网络的卷积参数。

进一步地，本发明提供的一个优选技术方案为：

所述空间注意网络还包括全局平均池化层和辅助损失层；所述全局平均池化层的输入端连接所述第一卷积处理单元的输出端；所述辅助损失层的输入端连接所述全局平均池化层的输出端；

所述全局平均池化层，配置为对所述第一卷积处理单元输出的光流特征进行平均池化处理；

所述辅助损失层，配置为基于预设的特征样本和所述全局平均池化层处理后的光流特征计算所述全局平均池化层处理后的光流特征的损失函数。

进一步地，本发明提供的一个优选技术方案为：

所述视频分类网络包括顺次连接的第二卷积处理单元、空间池化层、全连接层和分类函数层；所述第二卷积处理单元包括多个顺次连接的卷积处理子单元并且每个所述卷积处理子单元均包括顺次连接的卷积层和批量归一化层；所述空间池化层还与所述空间注意网络中空间运动显著性映射图生成器的输出侧连接；

所述空间池化层按照下式所示的方法获取每个所述视频段的时空特征：

其中，所述K为所述时空特征f的空间维度，所述M(x，y)为所述显著性权值，所述F(x,y)为所述第二卷积处理单元输出的特征映射图中位置坐标为(x,y)处对应的特征向量。

进一步地，本发明提供的一个优选技术方案为：

所述空间池化层进一步配置为执行如下操作：

对所述第二卷积处理单元输出的特征映射图F进行分割，得到K²个D维的特征向量F(x,y)；

其中，所述特征映射图F∈R^D×K×K，所述K表示所述特征映射图F的空间维度，所述D表示所述第二卷积处理单元中卷积层的通道数，所述特征向量F(x,y)∈R^D，所述R表示实数。

进一步地，本发明提供的一个优选技术方案为：

按照下式所示的方法计算每个所述视频段的预测结果的可信度：

其中，所述p_j(s_n)为第n个视频段S_n属于第j个行为类别的概率，所述C为行为类别的数量，所述α_n为第n个视频段S_n对应的可信度。

进一步地，本发明提供的一个优选技术方案为：

按照下式所示的方法计算所述前N个视频段的预测结果的加权平均值：

其中，所述β_n＝1[[α_n∈top_N(α₁,...,α_K)]]为所述前N个视频段所对应的可信度的标志变量，所述α_n为第n个视频段的可信度，所述α_K为第K个视频段的可信度，所述p(s_n)为视频段S_n属于预设行为类别的概率。

进一步地，本发明提供的一个优选技术方案为：

在“基于预先构建的空间注意网络提取每个所述视频段的光流特征，根据每个所述视频段的光流特征获取每个所述视频段的运动显著区域并且根据所述运动显著区域生成空间运动显著性映射图”的步骤之前，所述方法还包括：按照下式所示的损失函数对所述空间注意网络和视频分类网络进行网络训练：

其中，所述l(s_im；θ)为子视频段S_im对应的损失值，所述S_im为经预处理后的视频样本中第i个视频段中第m个子视频段，所述预处理为将所述视频样本等时间间隔地分割为I个视频段,从每个所述视频段中均匀随机选取出M个子视频段；所述θ为预设的空间注意网络和视频分类网络的卷积参数，所述β_im＝1[[α_im＝＝max(α_i1,...,α_iM)]]为第i个视频段中可信度最高的子视频段所对应的可信度的标志变量，所述α_iM为第i个视频段中第M个子视频段所对应的可信度，所述B为视频样本的数量。

本发明的第二方面，还提供了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于时空注意卷积神经网络的行为识别方法。

本发明的第三方面，还提供了一种控制装置，包括：

处理器，适于执行各条程序；

存储设备，适于存储多条程序；

所述程序适于由处理器加载并执行以实现上述的基于时空注意卷积神经网络的行为识别方法。

与最接近的现有技术相比，上述技术方案至少具有如下有益效果：

本发明中的基于时空注意卷积神经网络的行为识别方法主要包括如下步骤：将待测视频等间隔地分割为多个视频段；基于空间注意网络并且根据每个视频段的光流特征获取每个视频段的运动显著区域并且根据运动显著区域生成空间运动显著性映射图；基于视频分类网络并且根据多个预设的行为类别、每个视频段以及相应的空间运动显著性映射图预测每个视频段对应的行为类别；计算每个视频段的预测结果的可信度，并且按可信度降序选取前N个视频段的预测结果，以前N个视频段的预测结果的加权平均值作为待测视频的行为识别结果。基于上述方法，利用视频段的光流信息定位视频图像中的运动显著区域，从而生成空间运动显著性映射图；并利用该空间运动显著性映射图指导学习视频段中有效的时空特征，用于行为类别的预测；利用各视频段预测结果的可信度从长时复杂视频中自动挖掘具有辨识性的视频段，从而确定待测视频中的目标行为，基于本发明的行为识别方法可以有效提升人体行为识别的精度。

附图说明

图1是本发明实施例中基于时空注意卷积神经网络的行为识别方法的主要步骤示意图；

图2是本发明实施例中行为识别任务中待测视频段及对应可信度的示意图；

图3是本发明实施例中空间注意网络和视频分类网络的主要结构示意图；

图4是本发明实施例中获取时空特征的主要步骤示意图；

图5是本发明实施例中行为识别任务中视频段及空间运动显著区域的示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明提供了一种基于时空注意卷积神经网络的行为识别方法，该方法基于预设的空间注意网络能定位视频帧中的空间显著区域，利用这些运动显著区域定位信息指导视频分类网络从输入视频中提取有效的时空特征并用于分类。

下面结合附图，对本发明提供的基于时空注意卷积神经网络的行为识别方法进行说明。

参阅附图1，图1示例性示出了本发明实施例中基于时空注意卷积神经网络的行为识别方法的主要步骤，如图1所示，本实施例中的基于时空注意卷积神经网络的行为识别方法可以包括下述内容：

步骤S101：将待测视频等间隔地分割为多个视频段。

参阅附图2，图2示例性示出了行为识别任务中待测视频段及对应可信度示意图，如图2所示，从上往下数第一个虚线方框中第一行示出的运动员骑自行车的连续视频帧，第二行示出的是对应于第一行视频帧的可信度；从上往下数第二个虚线方框中第一行示出的田径运动员赛跑的连续视频帧，第二行示出的是对应于第一行视频帧的可信度。在真实场景下的行为识别任务中，输入视频往往包含噪音或者行为无关片段，这些噪音或者无关片段将会在行为分类器中引入干扰信息，如图2的从上往下数第一个虚线方框中第一行展示的视频段，自行车运动员没有出现在开始的两个视频帧中，如果分类时将前面的两个片段与其他片段的预测结果取均值，将会影响分类器识别目标行为。为了消除视频中的无关片段，传统的做法是对这些视频进行预处理，即通过手工剪切的方式将无关的视频片段删除。但是这种方法需要花费大量的人力和时间。在本实施例中提出的行为识别方法中，既不需要人为的预处理也不需要额外的监督信号，能从长时复杂视频中自动地挖掘出最具判别力的视频片段从而排除无关片段的干扰，为此目的，首先需要对测视频等间隔地分割为多个视频段，本实施从测试集中随机选取一个待测视频，并且将该待测视频等间隔地分成M个视频段，每一个视频段中包含T个视频帧。待测视频表示为基于该待测视频分割后的视频段表示为s_n＝[i₁,i₂,...,i_T],n＝1,2,...,T，在本实施例中，M设置为25，并且只需要连续的两帧视频计算光流特征，所以T＝2。

步骤S102：基于预先构建的空间注意网络提取每个视频段的光流特征，根据每个视频段的光流特征获取每个视频段的运动显著区域并且根据运动显著区域生成空间运动显著性映射图。

具体地，空间注意网络是基于预设的视频样本并且利用机器学习算法构建的深度卷积神经网络，该网络从视频段的视频帧间提取光流特征，利用光流特征定为视频帧中的运动显著区域，并生成空间运动显著性映射图。空间运动显著性映射图包括运动显著区域的位置坐标和每个位置坐标对应的显著性权值。利用该空间运动显著性映射图指导视频分类网络学习有效的时空特征并用于行为分类。

参阅附图3，图3示例性示出了空间注意网络和视频分类网络的主要结构。其中，“FlowNet Convs”表示第一卷积处理单元，“GAP”表示全局平均池化层，“AL”表示辅助损失层，“MSM”表示空间运动显著性映射图生成器，“Convs”表示第二卷积处理单元，“WSP”表示空间池化层，“FC”表示全连接层，“Softmax”表示分类函数层。如图3所示空间注意网络可以包括空间运动显著性映射图生成器(Motion Saliency Map)和第一卷积处理单元(FlowNetConvs)，第一卷积处理单元包括多个顺次连接的卷积层，空间运动显著性映射图生成器包括卷积层。本实施例中，第一卷积处理单元包括十层的卷积层，其参数设置与光流预测网络(FlowNet)的收缩部分相同，首先在光流预测数据集(Flying Chairs)上预训练一个与本发明的空间注意网络结构相同的光流预测网络，使得该光流预测网络能有效预测输入图像对的光流场，再用训练好的光流预测网络初始化本发明的空间注意网络的卷积层，使其能从输入的连续视频帧中提取光流特征。空间运动显著性映射图生成器其为一个1×1的卷积层，利用第一卷积处理单元输出的光流特征获取运动显著区域中每个位置坐标对应的显著性权值，按公式(1)所示的方法获取显著性权值：

其中，M(x,y)为运动显著区域中位置坐标为(x,y)处的显著性权值，w_k为空间运动显著性映射图生成器的卷积层中第k个卷积单元的权值，为第一卷积处理单元最后一层卷积层中第k个卷积单元在位置坐标(x,y)输出的光流特征，S_n为第n个输送至空间注意网络的视频段，θ为预设的空间注意网络的卷积参数。M(x,y)对应于空间位置(x,y)对待测视频中目标行为的显著性或者判别性，用于指导视频分类网络提取有效的时空特征。

继续参阅附图3，本实施例中的空间注意网络还可以包括全局平均池化层(GlobalAverage Pooling)、辅助损失层(Auxiliary Loss)。全局平均池化层的输入端连接第一卷积处理单元的输出端，辅助损失层的输入端连接全局平均池化层的输出端。全局平均池化层配置为对第一卷积处理单元输出的光流特征进行平均池化处理。引入全局平均池化层而不是传统的全连接池化层，可以有效保持第一卷积处理单元中的运动区域定位信息。辅助损失层配置为基于预设的特征样本和全局平均池化层处理后的光流特征计算全局平均池化层处理后的光流特征的损失函数，辅助损失层包括一个全连接层，一个softmax层和交叉熵损失层，其中全连接层将全局平均池化处理后的特征降维成C维的特征向量(C为行为类别数目)，softmax层对该C维的特征向量进行归一化，并且输入到交叉熵损失层计算损失函数。在引入全局平均池化层的同时加入辅助损失层可以使网络关注到具有辨识性的运动显著区域。

步骤S103：基于预先构建的视频分类网络并且根据多个预设的行为类别、每个视频段以及相应的空间运动显著性映射图预测每个视频段对应的行为类别。

具体地，视频分类网络是基于预设的视频样本并且利用机器学习算法所构建的深度卷积神经网络，视频分类网络包括顺次连接的第二卷积处理单元、空间池化层、全连接层和分类函数层；第二卷积处理单元包括多个顺次连接的卷积处理子单元并且每个卷积处理子单元均包括顺次连接的卷积层和批量归一化层；空间池化层还与空间注意网络中空间运动显著性映射图生成器的输出侧连接。

继续参阅附图3，如图3所示本实施中的视频分类网络包括第二卷积处理单元(Conv Layers)、空间池化层(Weighted Spatial Pooling)、全连接层(full connection)和分类函数层(Softmax)。其中，第二卷积处理单元中在每一层卷积层之后新增了一层块归一化(Batch Normalization)；空间池化层为一个加权的空间池化层，其利用空间注意网络生成的运动显著性映射图对第二卷积处理单元提取的卷积特征进行加权池化。需要说明的是，视频分类网络可以先在图像分类数据库(ImageNet)上预训练，使其在图像分类测试集上达到95％以上的准确率，从而具有更好的图像分类效果，节约网络的训练时间。

参阅附图4，图4实施例示出了获取的时空特征的主要步骤，如图4所示，在视频分类网络中第二卷积处理单元的最后一层卷积层输出对应视频的特征映射图F∈R^D×K×K，其中，D表示第二卷积处理单元中卷积层的通道数，K表示特征映射图的空间维度，R表示实数；空间池化层对第二卷积处理单元输出的特征映射图F进行分割，得到K²个D维的特征向量F(x,y)。在空间注意网络的运动显著性映射图生成器输出对应输入视频中空间显著区域的显著性权值M(x,y)。空间池化层按照公式(2)所示的方法获取每个视频段的时空特征

其中，K为时空特征f的空间维度，M(x,y)为显著性权值，F(x,y)为第二卷积处理单元输出的特征映射图中位置坐标为(x,y)处对应的特征向量。

最后，将该时空特征输入到后面的全连接层、softmax层以及交叉熵损失层进行行为类别分类。

空间注意网络和视频分类网络对应的是一种弱监督的空间注意机制。该注意机制能定位视频帧中的空间显著区域。深度卷积网络的卷积单元能够定位图像中的语义目标，而训练时不需要提供目标的定位信息。

步骤S104：计算每个视频段的预测结果的可信度，并且按可信度降序选取前N个视频段的预测结果，以前N个视频段的预测结果的加权平均值作为待测视频的行为识别结果。

具体地，步骤S104是一种无监督的时间注意机制，既不需要人为的预处理也不需要额外的监督信号。该时间注意机制能从长时复杂视频中自动地挖掘出最具判别力的视频片段从而排除无关片段的干扰，提高的对目标行为的识别效果。

本实施中按照公式(3)所示的方法计算每个视频段的预测结果的可信度：

其中，p_j(s_n)为第n个视频段S_n属于第j个行为类别的概率，C为行为类别的数量，α_n为第n个视频段S_n对应的可信度。

在得到每个输入视频段的可信度之后，按照公式(4)所示的方法计算前N个视频段的预测结果的加权平均值：

其中，β_n＝1[[α_n∈top_N(α₁,...,α_K)]]为前N个视频段对应的可信度的标志变量，α_n为第n个视频段的可信度，α_K为第K个视频段的可信度，p(s_n)为视频段S_n属于预设行为类别的概率。本实施例中是将待测视频划分为25个视频段，top_N设置为10，所以从这25个视频段中按可信度降序选取前10个视频段所对应的可信度的加权平均值p(v)作为行为识别结果。

本实施例中，基于时空注意卷积神经网络的行为识别方法还可以包括对空间注意网络和视频分类网络训练的方法，具体的步骤如下：

步骤S201：从训练集中随机选取视频块B。将视频块中的每个视频等间隔分成I个视频段，然后分别从每个视频段中均匀随机选取M个子视频段；本实施例中I设置为3，子视频段表示为为子视频段的编号。

步骤S202：分别将子视频段输入到空间注意网络和视频分类网络。空间注意网络从输入的子视频段中学习光流特征及运动部位的定位信息，生成空间运动显著性映射图，利用该映射图指导视频分类网络从输入片段中学习有效的时空特征，并利用该时空特征对视频中目标行为进行类别预测，得到第i个视频段中第m个子视频段属于第j个行为类别的概率p_j(s_im),j＝1,2,...,C，其中C为行为类别数目。需要说明的是空间注意网络和视频分类网络对输入的子视频段的处理过程如步骤S102和步骤S103中的描述，这里不再赘述。

步骤S203：根据公式(5)分别计算每个子视频的预测结果的可信度：

其中，α_im表示第i个视频段中第m个子视频段对应的可信度；当某个预测结果p(s_im)比较可靠时，该概率分布中只有很少位置的值比较大，其他位置的值都比较小或接近0，该分布对应信息熵会比较小。相反，当预测p(s_in)不可靠时，它的所有元素都比较接近，而该概率分布对应的信息熵就会很大。

步骤S204：从每个视频段中选取出可信度最高的子视频段，并且更换选取的子视频段所对应的可信度的标志变量。本实施例中第i视频段中第m子视频段所对应的可信度表示为α_im,m＝1,...,M，选出最可靠的视频片段，更新其标志变量为β_im＝1[[α_im＝＝max(α_i1,...,α_iM)]]。

步骤S205：空间注意网络和视频分类网络的损失值是各个子视频段损失值的加权和，而权值即是步骤S204中更新的标志变量β_im，本实施例中以公式(6)所示的损失函数计算空间注意网络和视频分类网络的损失值：

其中，l(s_im；θ)为子视频段S_im对应的损失值，θ为预设的空间注意网络和视频分类网络的卷积参数，β_im＝1[[α_im＝＝max(α_i1,...,α_iM)]]为第i个视频段中可信度最高的子视频段所对应的可信度的标志变量，α_iM为第i个视频段中第M个子视频段所对应的可信度，B为视频样本的数量。

步骤S206：利用步骤S205得到的损失值，并且利用反向传播法和梯段下降法调整空间注意网络和视频分类网络的网路参数。梯度下降算法表示为：其中，表示损失函数对参数的导数，η表示预设的学习率，λ表示预设的冲量。

进一步地，基于上述基于时空注意卷积神经网络的行为识别方法实施例，本发明还提供了一种存储装置，该存储装置中可以存储有多条程序，程序适于由处理器加载并执行如上述的基于时空注意卷积神经网络的行为识别方法。

再进一步地，基于上述基于时空注意卷积神经网络的行为识别方法实施例，本发明还提供了一种控制装置，该控制装置可以包括处理器、存储设备；处理器，适于执行各条程序；存储设备，适于存储多条程序；程序适于由处理器加载并执行如上述的基于时空注意卷积神经网络的行为识别方法。

所属技术领域的技术人员可以清楚地了解到，为了描述的方便和简洁，本发明实施例的装置的具体工作过程以及相关说明，可以参考前述实施例方法中的对应过程，且与上述方法具有相同的有益效果，在此不再赘述。

需要说明的是，本发明的行为识别方法具体运行的硬件和编程语言并不受限制，可以使用任何语言编写实现本发明的行为识别方法，在本实施例中采用一台含有4个TitanX显卡的服务器，利用Caffe深度学习开源平台实现基于时空注意卷积神经网络的行为识别方法。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤及装置，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于时空注意卷积神经网络的行为识别方法，其特征在于包括：

将待测视频等间隔地分割为多个视频段；

2.根据权利要求1所述的基于时空注意卷积神经网络的行为识别方法，其特征在于，所述空间注意网络还包括空间运动显著性映射图生成器和第一卷积处理单元，所述第一卷积处理单元包括多个顺次连接的卷积层，所述空间运动显著性映射图生成器包括卷积层；

3.根据权利要求2中所述的基于时空注意卷积神经网络的行为识别方法，其特征在于，所述空间注意网络还包括全局平均池化层和辅助损失层；所述全局平均池化层的输入端连接所述第一卷积处理单元的输出端；所述辅助损失层的输入端连接所述全局平均池化层的输出端；

4.根据权利要求2所述的基于时空注意卷积神经网络的行为识别方法，其特征在于，所述视频分类网络包括顺次连接的第二卷积处理单元、空间池化层、全连接层和分类函数层；所述第二卷积处理单元包括多个顺次连接的卷积处理子单元并且每个所述卷积处理子单元均包括顺次连接的卷积层和批量归一化层；所述空间池化层还与所述空间注意网络中空间运动显著性映射图生成器的输出侧连接；

其中，所述K为所述时空特征f的空间维度，所述M(x,y)为所述显著性权值，所述F(x,y)为所述第二卷积处理单元输出的特征映射图中位置坐标为(x,y)处对应的特征向量。

5.根据权利要求4所述的基于时空注意卷积神经网络的行为识别方法，其特征在于，所述空间池化层进一步配置为执行如下操作：

6.根据权利要求1所述的基于时空注意卷积神经网络的行为识别方法，其特征在于，

7.根据权利要求6所述的基于时空注意卷积神经网络的行为识别方法，其特征在于，

其中，所述β_n＝1[[α_n∈top_N(α₁，...，α_K)]]为所述前N个视频段所对应的可信度的标志变量，所述α_n为第n个视频段的可信度，所述α_K为第K个视频段的可信度，所述p(s_n)为视频段S_n属于预设行为类别的概率。

8.根据权利要求1所述的基于时空注意卷积神经网络的行为识别方法，其特征在于，在“基于预先构建的空间注意网络提取每个所述视频段的光流特征，根据每个所述视频段的光流特征获取每个所述视频段的运动显著区域并且根据所述运动显著区域生成空间运动显著性映射图”的步骤之前，所述方法还包括：按照下式所示的损失函数对所述空间注意网络和视频分类网络进行网络训练：

其中，所述l(s_im；θ)为子视频段S_im对应的损失值，所述S_im为经预处理后的视频样本中第i个视频段中第m个子视频段，所述预处理为将所述视频样本等时间间隔地分割为I个视频段,从每个所述视频段中均匀随机选取出M个子视频段；所述θ为预设的空间注意网络和视频分类网络的卷积参数，所述β_im＝1[[α_im＝＝max(α_i1，...，α_iM)]]为第i个视频段中可信度最高的子视频段所对应的可信度的标志变量，所述α_iM为第i个视频段中第M个子视频段所对应的可信度，所述B为视频样本的数量。

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-8中任一项所述的基于时空注意卷积神经网络的行为识别方法。

10.一种控制装置，包括：

处理器，适于执行各条程序；

存储设备，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-8中任一项所述的基于时空注意卷积神经网络的行为识别方法。