CN109241829B - 基于时空注意卷积神经网络的行为识别方法及装置 - Google Patents
基于时空注意卷积神经网络的行为识别方法及装置 Download PDFInfo
- Publication number
- CN109241829B CN109241829B CN201810824370.5A CN201810824370A CN109241829B CN 109241829 B CN109241829 B CN 109241829B CN 201810824370 A CN201810824370 A CN 201810824370A CN 109241829 B CN109241829 B CN 109241829B
- Authority
- CN
- China
- Prior art keywords
- video
- video segment
- spatial
- network
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 31
- 230000006399 behavior Effects 0.000 claims abstract description 88
- 230000033001 locomotion Effects 0.000 claims abstract description 74
- 230000003287 optical effect Effects 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims description 48
- 238000011176 pooling Methods 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉技术领域,具体涉及一种基于时空注意卷积神经网络的行为识别方法及装置,旨在解决如何准确识别视频中目标行为的技术问题。本发明提供的行为识别方法包括:将待测视频等间隔地分割为多个视频段;基于预先构建的空间注意网络提取每个视频段的光流特征,根据每个视频段的光流特征获取每个视频段的运动显著区域并且根据运动显著区域生成空间运动显著性映射图;基于预先构建的视频分类网络并且根据多个预设的行为类别、每个视频段以及相应的空间运动显著性映射图预测每个视频段对应的行为类别;按可信度降序选取前N个视频段的预测结果的加权平均值作为待测视频的行为识别结果。本发明能够有效提升行为识别的效果。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于时空注意卷积神经网络的行为识别方法及装置。
背景技术
人体行为识别技术广泛应用于人机智能交互、虚拟实现和视频监控等领域,其能够对人在不同场景下面的行为进行区分和判断。近年来人体行为识别得到了广泛的研究,提出了大量的算法,基于卷积神经网络的方法主要包括两大类,一类在RGB视频帧和光流帧中分别训练一个深度卷积网络,接着融合两个网络的预测结果能有效提升单个神经网络的识别精度;另一类是利用人体关节点坐标或者人体边界框提取人体部位的表观特征,再利用该表观特征进行行为分类预测。
在真实场景中有效的人体行为识别仍然非常困难,主要的挑战来自于视频数据的复杂性、类内散度大、背景运动和相机运动等。视频中不同时间片段及不同空间区域对分类贡献差别很大,传统的行为识别算法同等对待不同时间片段及不同空间区域信息,这将会引入干扰信息到分类模型中。为了定位视频中的显著区域,通常在行为识别中引入视觉注意机制,然而以往的基于视觉注意机制的行为识别方法仅包含空域的视觉注意机制,而没有涉及时域的视觉注意机制,并且计算复杂度高,实验效果并不理想。在利用人体关节点坐标或者人体边界框提取人体部位的表观特征的方法中,需要手工标注人体关节点坐标和人体边界框,这将至少带来以下两个缺点:1)人体关节点坐标和边界框的标注依赖设备并需要大量人力和时间;2)在行为识别中,不是所有的人体部位都具有判别性。参阅附图5,图5示例性示出的是行为识别任务中视频段及对应的空间运动显著区域的对比图,第一行示出的视频图片,第二行为对应于第一行视频图片的空间运动显著区域。从左向右数第一列图片可以看出人体具有判别性的区域在眼睛周围,从左向右数第二列图片中可以看出人体的关键部位是嘴巴,这两列图片的背景和运动都非常相似,但这两个视频分别属于不同的人体行为。相反,从左向右数第三列和第四列对应的图片属于相同的人体行为,但视频中的场景差别很大。
发明内容
为了解决现有技术中的上述问题,即为了解决如何准确识别视频中目标行为的技术问题,本发明的第一方面,提供了一种基于时空注意卷积神经网络的行为识别方法,包括:
将待测视频等间隔地分割为多个视频段;
基于预先构建的空间注意网络提取每个所述视频段的光流特征,根据每个所述视频段的光流特征获取每个所述视频段的运动显著区域并且根据所述运动显著区域生成空间运动显著性映射图;
基于预先构建的视频分类网络并且根据多个预设的行为类别、每个所述视频段以及相应的空间运动显著性映射图预测所述每个视频段对应的行为类别;
计算每个所述视频段的预测结果的可信度,并且按所述可信度降序选取前N个视频段的预测结果,以所述前N个视频段的预测结果的加权平均值作为所述待测视频的行为识别结果;
其中,所述空间注意网络和视频分类网络均是基于预设的视频样本并且利用机器学习算法所构建的深度卷积神经网络;所述空间运动显著性映射图包括所述运动显著区域的位置坐标和每个所述位置坐标对应的显著性权值。
进一步地,本发明提供的一个优选技术方案为:
所述空间注意网络还包括空间运动显著性映射图生成器和第一卷积处理单元,所述第一卷积处理单元包括多个顺次连接的卷积层,所述空间运动显著性映射图生成器包括卷积层;
所述空间运动显著性映射图生成器按照下式所示的方法获取所述运动显著区域中每个位置坐标对应的显著性权值:
其中,所述M(x,y)为所述运动显著区域中位置坐标为(x,y)处的显著性权值,所述wk为所述空间运动显著性映射图生成器的卷积层中第k个卷积单元的权值,所述为所述第一卷积处理单元最后一层卷积层中第k个卷积单元在位置坐标(x,y)输出的光流特征,所述Sn为第n个输送至所述空间注意网络的视频段,所述θ为预设的空间注意网络的卷积参数。
进一步地,本发明提供的一个优选技术方案为:
所述空间注意网络还包括全局平均池化层和辅助损失层;所述全局平均池化层的输入端连接所述第一卷积处理单元的输出端;所述辅助损失层的输入端连接所述全局平均池化层的输出端;
所述全局平均池化层,配置为对所述第一卷积处理单元输出的光流特征进行平均池化处理;
所述辅助损失层,配置为基于预设的特征样本和所述全局平均池化层处理后的光流特征计算所述全局平均池化层处理后的光流特征的损失函数。
进一步地,本发明提供的一个优选技术方案为:
所述视频分类网络包括顺次连接的第二卷积处理单元、空间池化层、全连接层和分类函数层;所述第二卷积处理单元包括多个顺次连接的卷积处理子单元并且每个所述卷积处理子单元均包括顺次连接的卷积层和批量归一化层;所述空间池化层还与所述空间注意网络中空间运动显著性映射图生成器的输出侧连接;
所述空间池化层按照下式所示的方法获取每个所述视频段的时空特征:
其中,所述K为所述时空特征f的空间维度,所述M(x,y)为所述显著性权值,所述F(x,y)为所述第二卷积处理单元输出的特征映射图中位置坐标为(x,y)处对应的特征向量。
进一步地,本发明提供的一个优选技术方案为:
所述空间池化层进一步配置为执行如下操作:
对所述第二卷积处理单元输出的特征映射图F进行分割,得到K2个D维的特征向量F(x,y);
其中,所述特征映射图F∈RD×K×K,所述K表示所述特征映射图F的空间维度,所述D表示所述第二卷积处理单元中卷积层的通道数,所述特征向量F(x,y)∈RD,所述R表示实数。
进一步地,本发明提供的一个优选技术方案为:
按照下式所示的方法计算每个所述视频段的预测结果的可信度:
其中,所述pj(sn)为第n个视频段Sn属于第j个行为类别的概率,所述C为行为类别的数量,所述αn为第n个视频段Sn对应的可信度。
进一步地,本发明提供的一个优选技术方案为:
按照下式所示的方法计算所述前N个视频段的预测结果的加权平均值:
其中,所述βn=1[[αn∈top_N(α1,...,αK)]]为所述前N个视频段所对应的可信度的标志变量,所述αn为第n个视频段的可信度,所述αK为第K个视频段的可信度,所述p(sn)为视频段Sn属于预设行为类别的概率。
进一步地,本发明提供的一个优选技术方案为:
在“基于预先构建的空间注意网络提取每个所述视频段的光流特征,根据每个所述视频段的光流特征获取每个所述视频段的运动显著区域并且根据所述运动显著区域生成空间运动显著性映射图”的步骤之前,所述方法还包括:按照下式所示的损失函数对所述空间注意网络和视频分类网络进行网络训练:
其中,所述l(sim;θ)为子视频段Sim对应的损失值,所述Sim为经预处理后的视频样本中第i个视频段中第m个子视频段,所述预处理为将所述视频样本等时间间隔地分割为I个视频段,从每个所述视频段中均匀随机选取出M个子视频段;所述θ为预设的空间注意网络和视频分类网络的卷积参数,所述βim=1[[αim==max(αi1,...,αiM)]]为第i个视频段中可信度最高的子视频段所对应的可信度的标志变量,所述αiM为第i个视频段中第M个子视频段所对应的可信度,所述B为视频样本的数量。
本发明的第二方面,还提供了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于时空注意卷积神经网络的行为识别方法。
本发明的第三方面,还提供了一种控制装置,包括:
处理器,适于执行各条程序;
存储设备,适于存储多条程序;
所述程序适于由处理器加载并执行以实现上述的基于时空注意卷积神经网络的行为识别方法。
与最接近的现有技术相比,上述技术方案至少具有如下有益效果:
本发明中的基于时空注意卷积神经网络的行为识别方法主要包括如下步骤:将待测视频等间隔地分割为多个视频段;基于空间注意网络并且根据每个视频段的光流特征获取每个视频段的运动显著区域并且根据运动显著区域生成空间运动显著性映射图;基于视频分类网络并且根据多个预设的行为类别、每个视频段以及相应的空间运动显著性映射图预测每个视频段对应的行为类别;计算每个视频段的预测结果的可信度,并且按可信度降序选取前N个视频段的预测结果,以前N个视频段的预测结果的加权平均值作为待测视频的行为识别结果。基于上述方法,利用视频段的光流信息定位视频图像中的运动显著区域,从而生成空间运动显著性映射图;并利用该空间运动显著性映射图指导学习视频段中有效的时空特征,用于行为类别的预测;利用各视频段预测结果的可信度从长时复杂视频中自动挖掘具有辨识性的视频段,从而确定待测视频中的目标行为,基于本发明的行为识别方法可以有效提升人体行为识别的精度。
附图说明
图1是本发明实施例中基于时空注意卷积神经网络的行为识别方法的主要步骤示意图;
图2是本发明实施例中行为识别任务中待测视频段及对应可信度的示意图;
图3是本发明实施例中空间注意网络和视频分类网络的主要结构示意图;
图4是本发明实施例中获取时空特征的主要步骤示意图;
图5是本发明实施例中行为识别任务中视频段及空间运动显著区域的示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明提供了一种基于时空注意卷积神经网络的行为识别方法,该方法基于预设的空间注意网络能定位视频帧中的空间显著区域,利用这些运动显著区域定位信息指导视频分类网络从输入视频中提取有效的时空特征并用于分类。
下面结合附图,对本发明提供的基于时空注意卷积神经网络的行为识别方法进行说明。
参阅附图1,图1示例性示出了本发明实施例中基于时空注意卷积神经网络的行为识别方法的主要步骤,如图1所示,本实施例中的基于时空注意卷积神经网络的行为识别方法可以包括下述内容:
步骤S101:将待测视频等间隔地分割为多个视频段。
参阅附图2,图2示例性示出了行为识别任务中待测视频段及对应可信度示意图,如图2所示,从上往下数第一个虚线方框中第一行示出的运动员骑自行车的连续视频帧,第二行示出的是对应于第一行视频帧的可信度;从上往下数第二个虚线方框中第一行示出的田径运动员赛跑的连续视频帧,第二行示出的是对应于第一行视频帧的可信度。在真实场景下的行为识别任务中,输入视频往往包含噪音或者行为无关片段,这些噪音或者无关片段将会在行为分类器中引入干扰信息,如图2的从上往下数第一个虚线方框中第一行展示的视频段,自行车运动员没有出现在开始的两个视频帧中,如果分类时将前面的两个片段与其他片段的预测结果取均值,将会影响分类器识别目标行为。为了消除视频中的无关片段,传统的做法是对这些视频进行预处理,即通过手工剪切的方式将无关的视频片段删除。但是这种方法需要花费大量的人力和时间。在本实施例中提出的行为识别方法中,既不需要人为的预处理也不需要额外的监督信号,能从长时复杂视频中自动地挖掘出最具判别力的视频片段从而排除无关片段的干扰,为此目的,首先需要对测视频等间隔地分割为多个视频段,本实施从测试集中随机选取一个待测视频,并且将该待测视频等间隔地分成M个视频段,每一个视频段中包含T个视频帧。待测视频表示为基于该待测视频分割后的视频段表示为sn=[i1,i2,...,iT],n=1,2,...,T,在本实施例中,M设置为25,并且只需要连续的两帧视频计算光流特征,所以T=2。
步骤S102:基于预先构建的空间注意网络提取每个视频段的光流特征,根据每个视频段的光流特征获取每个视频段的运动显著区域并且根据运动显著区域生成空间运动显著性映射图。
具体地,空间注意网络是基于预设的视频样本并且利用机器学习算法构建的深度卷积神经网络,该网络从视频段的视频帧间提取光流特征,利用光流特征定为视频帧中的运动显著区域,并生成空间运动显著性映射图。空间运动显著性映射图包括运动显著区域的位置坐标和每个位置坐标对应的显著性权值。利用该空间运动显著性映射图指导视频分类网络学习有效的时空特征并用于行为分类。
参阅附图3,图3示例性示出了空间注意网络和视频分类网络的主要结构。其中,“FlowNet Convs”表示第一卷积处理单元,“GAP”表示全局平均池化层,“AL”表示辅助损失层,“MSM”表示空间运动显著性映射图生成器,“Convs”表示第二卷积处理单元,“WSP”表示空间池化层,“FC”表示全连接层,“Softmax”表示分类函数层。如图3所示空间注意网络可以包括空间运动显著性映射图生成器(Motion Saliency Map)和第一卷积处理单元(FlowNetConvs),第一卷积处理单元包括多个顺次连接的卷积层,空间运动显著性映射图生成器包括卷积层。本实施例中,第一卷积处理单元包括十层的卷积层,其参数设置与光流预测网络(FlowNet)的收缩部分相同,首先在光流预测数据集(Flying Chairs)上预训练一个与本发明的空间注意网络结构相同的光流预测网络,使得该光流预测网络能有效预测输入图像对的光流场,再用训练好的光流预测网络初始化本发明的空间注意网络的卷积层,使其能从输入的连续视频帧中提取光流特征。空间运动显著性映射图生成器其为一个1×1的卷积层,利用第一卷积处理单元输出的光流特征获取运动显著区域中每个位置坐标对应的显著性权值,按公式(1)所示的方法获取显著性权值:
其中,M(x,y)为运动显著区域中位置坐标为(x,y)处的显著性权值,wk为空间运动显著性映射图生成器的卷积层中第k个卷积单元的权值,为第一卷积处理单元最后一层卷积层中第k个卷积单元在位置坐标(x,y)输出的光流特征,Sn为第n个输送至空间注意网络的视频段,θ为预设的空间注意网络的卷积参数。M(x,y)对应于空间位置(x,y)对待测视频中目标行为的显著性或者判别性,用于指导视频分类网络提取有效的时空特征。
继续参阅附图3,本实施例中的空间注意网络还可以包括全局平均池化层(GlobalAverage Pooling)、辅助损失层(Auxiliary Loss)。全局平均池化层的输入端连接第一卷积处理单元的输出端,辅助损失层的输入端连接全局平均池化层的输出端。全局平均池化层配置为对第一卷积处理单元输出的光流特征进行平均池化处理。引入全局平均池化层而不是传统的全连接池化层,可以有效保持第一卷积处理单元中的运动区域定位信息。辅助损失层配置为基于预设的特征样本和全局平均池化层处理后的光流特征计算全局平均池化层处理后的光流特征的损失函数,辅助损失层包括一个全连接层,一个softmax层和交叉熵损失层,其中全连接层将全局平均池化处理后的特征降维成C维的特征向量(C为行为类别数目),softmax层对该C维的特征向量进行归一化,并且输入到交叉熵损失层计算损失函数。在引入全局平均池化层的同时加入辅助损失层可以使网络关注到具有辨识性的运动显著区域。
步骤S103:基于预先构建的视频分类网络并且根据多个预设的行为类别、每个视频段以及相应的空间运动显著性映射图预测每个视频段对应的行为类别。
具体地,视频分类网络是基于预设的视频样本并且利用机器学习算法所构建的深度卷积神经网络,视频分类网络包括顺次连接的第二卷积处理单元、空间池化层、全连接层和分类函数层;第二卷积处理单元包括多个顺次连接的卷积处理子单元并且每个卷积处理子单元均包括顺次连接的卷积层和批量归一化层;空间池化层还与空间注意网络中空间运动显著性映射图生成器的输出侧连接。
继续参阅附图3,如图3所示本实施中的视频分类网络包括第二卷积处理单元(Conv Layers)、空间池化层(Weighted Spatial Pooling)、全连接层(full connection)和分类函数层(Softmax)。其中,第二卷积处理单元中在每一层卷积层之后新增了一层块归一化(Batch Normalization);空间池化层为一个加权的空间池化层,其利用空间注意网络生成的运动显著性映射图对第二卷积处理单元提取的卷积特征进行加权池化。需要说明的是,视频分类网络可以先在图像分类数据库(ImageNet)上预训练,使其在图像分类测试集上达到95%以上的准确率,从而具有更好的图像分类效果,节约网络的训练时间。
参阅附图4,图4实施例示出了获取的时空特征的主要步骤,如图4所示,在视频分类网络中第二卷积处理单元的最后一层卷积层输出对应视频的特征映射图F∈RD×K×K,其中,D表示第二卷积处理单元中卷积层的通道数,K表示特征映射图的空间维度,R表示实数;空间池化层对第二卷积处理单元输出的特征映射图F进行分割,得到K2个D维的特征向量F(x,y)。在空间注意网络的运动显著性映射图生成器输出对应输入视频中空间显著区域的显著性权值M(x,y)。空间池化层按照公式(2)所示的方法获取每个视频段的时空特征
其中,K为时空特征f的空间维度,M(x,y)为显著性权值,F(x,y)为第二卷积处理单元输出的特征映射图中位置坐标为(x,y)处对应的特征向量。
最后,将该时空特征输入到后面的全连接层、softmax层以及交叉熵损失层进行行为类别分类。
空间注意网络和视频分类网络对应的是一种弱监督的空间注意机制。该注意机制能定位视频帧中的空间显著区域。深度卷积网络的卷积单元能够定位图像中的语义目标,而训练时不需要提供目标的定位信息。
步骤S104:计算每个视频段的预测结果的可信度,并且按可信度降序选取前N个视频段的预测结果,以前N个视频段的预测结果的加权平均值作为待测视频的行为识别结果。
具体地,步骤S104是一种无监督的时间注意机制,既不需要人为的预处理也不需要额外的监督信号。该时间注意机制能从长时复杂视频中自动地挖掘出最具判别力的视频片段从而排除无关片段的干扰,提高的对目标行为的识别效果。
本实施中按照公式(3)所示的方法计算每个视频段的预测结果的可信度:
其中,pj(sn)为第n个视频段Sn属于第j个行为类别的概率,C为行为类别的数量,αn为第n个视频段Sn对应的可信度。
在得到每个输入视频段的可信度之后,按照公式(4)所示的方法计算前N个视频段的预测结果的加权平均值:
其中,βn=1[[αn∈top_N(α1,...,αK)]]为前N个视频段对应的可信度的标志变量,αn为第n个视频段的可信度,αK为第K个视频段的可信度,p(sn)为视频段Sn属于预设行为类别的概率。本实施例中是将待测视频划分为25个视频段,top_N设置为10,所以从这25个视频段中按可信度降序选取前10个视频段所对应的可信度的加权平均值p(v)作为行为识别结果。
本实施例中,基于时空注意卷积神经网络的行为识别方法还可以包括对空间注意网络和视频分类网络训练的方法,具体的步骤如下:
步骤S202:分别将子视频段输入到空间注意网络和视频分类网络。空间注意网络从输入的子视频段中学习光流特征及运动部位的定位信息,生成空间运动显著性映射图,利用该映射图指导视频分类网络从输入片段中学习有效的时空特征,并利用该时空特征对视频中目标行为进行类别预测,得到第i个视频段中第m个子视频段属于第j个行为类别的概率pj(sim),j=1,2,...,C,其中C为行为类别数目。需要说明的是空间注意网络和视频分类网络对输入的子视频段的处理过程如步骤S102和步骤S103中的描述,这里不再赘述。
步骤S203:根据公式(5)分别计算每个子视频的预测结果的可信度:
其中,αim表示第i个视频段中第m个子视频段对应的可信度;当某个预测结果p(sim)比较可靠时,该概率分布中只有很少位置的值比较大,其他位置的值都比较小或接近0,该分布对应信息熵会比较小。相反,当预测p(sin)不可靠时,它的所有元素都比较接近,而该概率分布对应的信息熵就会很大。
步骤S204:从每个视频段中选取出可信度最高的子视频段,并且更换选取的子视频段所对应的可信度的标志变量。本实施例中第i视频段中第m子视频段所对应的可信度表示为αim,m=1,...,M,选出最可靠的视频片段,更新其标志变量为βim=1[[αim==max(αi1,...,αiM)]]。
步骤S205:空间注意网络和视频分类网络的损失值是各个子视频段损失值的加权和,而权值即是步骤S204中更新的标志变量βim,本实施例中以公式(6)所示的损失函数计算空间注意网络和视频分类网络的损失值:
其中,l(sim;θ)为子视频段Sim对应的损失值,θ为预设的空间注意网络和视频分类网络的卷积参数,βim=1[[αim==max(αi1,...,αiM)]]为第i个视频段中可信度最高的子视频段所对应的可信度的标志变量,αiM为第i个视频段中第M个子视频段所对应的可信度,B为视频样本的数量。
步骤S206:利用步骤S205得到的损失值,并且利用反向传播法和梯段下降法调整空间注意网络和视频分类网络的网路参数。梯度下降算法表示为:其中,表示损失函数对参数的导数,η表示预设的学习率,λ表示预设的冲量。
进一步地,基于上述基于时空注意卷积神经网络的行为识别方法实施例,本发明还提供了一种存储装置,该存储装置中可以存储有多条程序,程序适于由处理器加载并执行如上述的基于时空注意卷积神经网络的行为识别方法。
再进一步地,基于上述基于时空注意卷积神经网络的行为识别方法实施例,本发明还提供了一种控制装置,该控制装置可以包括处理器、存储设备;处理器,适于执行各条程序;存储设备,适于存储多条程序;程序适于由处理器加载并执行如上述的基于时空注意卷积神经网络的行为识别方法。
所属技术领域的技术人员可以清楚地了解到,为了描述的方便和简洁,本发明实施例的装置的具体工作过程以及相关说明,可以参考前述实施例方法中的对应过程,且与上述方法具有相同的有益效果,在此不再赘述。
需要说明的是,本发明的行为识别方法具体运行的硬件和编程语言并不受限制,可以使用任何语言编写实现本发明的行为识别方法,在本实施例中采用一台含有4个TitanX显卡的服务器,利用Caffe深度学习开源平台实现基于时空注意卷积神经网络的行为识别方法。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤及装置,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (9)
1.一种基于时空注意卷积神经网络的行为识别方法,其特征在于包括:
将待测视频等间隔地分割为多个视频段;
基于预先构建的空间注意网络提取每个所述视频段的光流特征,根据每个所述视频段的光流特征获取每个所述视频段的运动显著区域并且根据所述运动显著区域生成空间运动显著性映射图;
基于预先构建的视频分类网络并且根据多个预设的行为类别、每个所述视频段以及相应的空间运动显著性映射图预测所述每个视频段对应的行为类别;
计算每个所述视频段的预测结果的可信度,并且按所述可信度降序选取前N个视频段的预测结果,以所述前N个视频段的预测结果的加权平均值作为所述待测视频的行为识别结果;
其中,所述空间注意网络和视频分类网络均是基于预设的视频样本并且利用机器学习算法所构建的深度卷积神经网络;所述空间运动显著性映射图包括所述运动显著区域的位置坐标和每个所述位置坐标对应的显著性权值;
所述空间注意网络还包括空间运动显著性映射图生成器和第一卷积处理单元,所述第一卷积处理单元包括多个顺次连接的卷积层,所述空间运动显著性映射图生成器包括卷积层;
所述空间运动显著性映射图生成器按照下式所示的方法获取所述运动显著区域中每个位置坐标对应的显著性权值:
2.根据权利要求1中所述的基于时空注意卷积神经网络的行为识别方法,其特征在于,所述空间注意网络还包括全局平均池化层和辅助损失层;所述全局平均池化层的输入端连接所述第一卷积处理单元的输出端;所述辅助损失层的输入端连接所述全局平均池化层的输出端;
所述全局平均池化层,配置为对所述第一卷积处理单元输出的光流特征进行平均池化处理;
所述辅助损失层,配置为基于预设的特征样本和所述全局平均池化层处理后的光流特征计算所述全局平均池化层处理后的光流特征的损失函数。
4.根据权利要求3所述的基于时空注意卷积神经网络的行为识别方法,其特征在于,所述空间池化层进一步配置为执行如下操作:
对所述第二卷积处理单元输出的特征映射图F进行分割,得到K2个D维的特征向量F(x,y);
其中,所述特征映射图F∈RD×K×K,所述K表示所述特征映射图F的空间维度,所述D表示所述第二卷积处理单元中卷积层的通道数,所述特征向量F(x,y)∈RD,所述R表示实数。
7.根据权利要求1所述的基于时空注意卷积神经网络的行为识别方法,其特征在于,在“基于预先构建的空间注意网络提取每个所述视频段的光流特征,根据每个所述视频段的光流特征获取每个所述视频段的运动显著区域并且根据所述运动显著区域生成空间运动显著性映射图”的步骤之前,所述方法还包括:按照下式所示的损失函数对所述空间注意网络和视频分类网络进行网络训练:
其中,所述l(sim;θ)为子视频段Sim对应的损失值,所述Sim为经预处理后的视频样本中第i个视频段中第m个子视频段,所述预处理为将所述视频样本等时间间隔地分割为I个视频段,从每个所述视频段中均匀随机选取出M个子视频段;所述θ为预设的空间注意网络和视频分类网络的卷积参数,所述βim=1[[αim==max[αi1,...,αiM)]]为第i个视频段中可信度最高的子视频段所对应的可信度的标志变量,所述αiM为第i个视频段中第M个子视频段所对应的可信度,所述B为视频样本的数量。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-7中任一项所述的基于时空注意卷积神经网络的行为识别方法。
9.一种控制装置,包括:
处理器,适于执行各条程序;
存储设备,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-7中任一项所述的基于时空注意卷积神经网络的行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810824370.5A CN109241829B (zh) | 2018-07-25 | 2018-07-25 | 基于时空注意卷积神经网络的行为识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810824370.5A CN109241829B (zh) | 2018-07-25 | 2018-07-25 | 基于时空注意卷积神经网络的行为识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109241829A CN109241829A (zh) | 2019-01-18 |
CN109241829B true CN109241829B (zh) | 2020-12-04 |
Family
ID=65072279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810824370.5A Active CN109241829B (zh) | 2018-07-25 | 2018-07-25 | 基于时空注意卷积神经网络的行为识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241829B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886986B (zh) * | 2019-01-23 | 2020-09-08 | 北京航空航天大学 | 一种基于多分支卷积神经网络的皮肤镜图像分割方法 |
CN111832351A (zh) * | 2019-04-18 | 2020-10-27 | 杭州海康威视数字技术股份有限公司 | 一种事件检测方法、装置和计算机设备 |
CN110110651B (zh) * | 2019-04-29 | 2023-06-13 | 齐鲁工业大学 | 基于时空重要性和3d cnn的视频中行为识别方法 |
CN110097568B (zh) * | 2019-05-13 | 2023-06-09 | 中国石油大学(华东) | 一种基于时空双分支网络的视频对象检测与分割方法 |
CN110263638B (zh) * | 2019-05-16 | 2023-04-18 | 山东大学 | 一种基于显著信息的视频分类方法 |
CN112115746B (zh) * | 2019-06-21 | 2024-06-18 | 富士通株式会社 | 人体动作识别装置及方法、电子设备 |
CN110766651B (zh) * | 2019-09-05 | 2022-07-12 | 无锡祥生医疗科技股份有限公司 | 超声设备 |
CN112668364B (zh) * | 2019-10-15 | 2023-08-08 | 杭州海康威视数字技术股份有限公司 | 一种基于视频的行为预测方法及装置 |
CN110852295B (zh) * | 2019-10-15 | 2023-08-25 | 深圳龙岗智能视听研究院 | 一种基于多任务监督学习的视频行为识别方法 |
CN111382679B (zh) * | 2020-02-25 | 2022-08-02 | 上海交通大学 | 帕金森病步态运动障碍严重程度的评估方法、系统及设备 |
CN111488489B (zh) * | 2020-03-26 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 视频文件的分类方法、装置、介质及电子设备 |
CN113255570B (zh) * | 2021-06-15 | 2021-09-24 | 成都考拉悠然科技有限公司 | 一种感知视频片段关系的时序动作检测方法 |
CN113657155A (zh) * | 2021-07-09 | 2021-11-16 | 浙江大华技术股份有限公司 | 一种行为检测方法、装置、计算机设备和存储介质 |
CN115851332B (zh) * | 2022-12-26 | 2023-07-04 | 新疆凯龙清洁能源股份有限公司 | 从合成氨驰放气膜提氢尾气中制取天然气的方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709461A (zh) * | 2016-12-28 | 2017-05-24 | 中国科学院深圳先进技术研究院 | 基于视频的行为识别方法及装置 |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
WO2018089221A1 (en) * | 2016-11-09 | 2018-05-17 | Microsoft Technology Licensing, Llc | Neural network-based action detection |
-
2018
- 2018-07-25 CN CN201810824370.5A patent/CN109241829B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018089221A1 (en) * | 2016-11-09 | 2018-05-17 | Microsoft Technology Licensing, Llc | Neural network-based action detection |
CN106709461A (zh) * | 2016-12-28 | 2017-05-24 | 中国科学院深圳先进技术研究院 | 基于视频的行为识别方法及装置 |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
Non-Patent Citations (3)
Title |
---|
Action Recognition with Spatio-Temporal Visual Attention on Skeleton Image Sequences;Zhengyuan Yang et al.;《https://arxiv.org/pdf/1801.10304.pdf》;20180412;第1-10页 * |
基于深度学习的人体行为识别分析研究;傅梦雨;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215;第2018年卷(第2期);正文第44-50页 * |
融合双重时空网络流和attention机制的人体行为识别;谯庆伟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215;第2018年卷(第2期);正文第16-45页,图3.1,5.1 * |
Also Published As
Publication number | Publication date |
---|---|
CN109241829A (zh) | 2019-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241829B (zh) | 基于时空注意卷积神经网络的行为识别方法及装置 | |
Jain et al. | Hybrid deep neural networks for face emotion recognition | |
CN110472554B (zh) | 基于姿态分割和关键点特征的乒乓球动作识别方法及系统 | |
CN110909651B (zh) | 视频主体人物的识别方法、装置、设备及可读存储介质 | |
CN106897738B (zh) | 一种基于半监督学习的行人检测方法 | |
US10140508B2 (en) | Method and apparatus for annotating a video stream comprising a sequence of frames | |
CN107180226A (zh) | 一种基于组合神经网络的动态手势识别方法 | |
US8050453B2 (en) | Robust object tracking system | |
US9798923B2 (en) | System and method for tracking and recognizing people | |
CN111161315B (zh) | 一种基于图神经网络的多目标跟踪方法和系统 | |
Redondo-Cabrera et al. | Learning to exploit the prior network knowledge for weakly supervised semantic segmentation | |
Hou et al. | Distilling knowledge from object classification to aesthetics assessment | |
CN114821014B (zh) | 基于多模态与对抗学习的多任务目标检测识别方法及装置 | |
CN109325440A (zh) | 人体动作识别方法及系统 | |
Gollapudi et al. | Deep learning for computer vision | |
CN115578770A (zh) | 基于自监督的小样本面部表情识别方法及系统 | |
CN108985385A (zh) | 基于生成对抗学习的快速弱监督目标检测方法 | |
CN117877085A (zh) | 一种基于微表情识别的心理分析方法 | |
EP3923192A1 (en) | Device and method for training and testing a classifier | |
CN117765432A (zh) | 一种基于动作边界预测的中学理化生实验动作检测方法 | |
Nikpour et al. | Deep reinforcement learning in human activity recognition: A survey | |
CN115661890A (zh) | 模型训练方法、人脸识别方法、装置、设备及介质 | |
CN113762149A (zh) | 基于分割注意力的特征融合人体行为识别系统及方法 | |
Perochon et al. | Unsupervised Action Segmentation of Untrimmed Egocentric Videos | |
Deng et al. | Wild Mammal Behavior Recognition Based on Gated Transformer Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |