CN111931602A - 基于注意力机制的多流分段网络人体动作识别方法及系统 - Google Patents

基于注意力机制的多流分段网络人体动作识别方法及系统 Download PDF

Info

Publication number
CN111931602A
CN111931602A CN202010710145.6A CN202010710145A CN111931602A CN 111931602 A CN111931602 A CN 111931602A CN 202010710145 A CN202010710145 A CN 202010710145A CN 111931602 A CN111931602 A CN 111931602A
Authority
CN
China
Prior art keywords
segment
feature
network
attention
prediction result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010710145.6A
Other languages
English (en)
Other versions
CN111931602B (zh
Inventor
叶青
谭泽贤
张永梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Priority to CN202010710145.6A priority Critical patent/CN111931602B/zh
Publication of CN111931602A publication Critical patent/CN111931602A/zh
Application granted granted Critical
Publication of CN111931602B publication Critical patent/CN111931602B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于注意力机制的多流分段网络人体动作识别方法及系统,其方法包括以下步骤:将长视频分割为多段,对每段进行采样得到一个片段;将每个片段送入基于注意力机制的多流分段网络中,由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络分别对RGB图像和光流图进行特征提取,得到空间流和时间流输出;由基于OpenPose的关节点估计网络对RGB图像进行关节点估计,得到姿态估计输出;然后通过分段一致性函数分别对三路输出中的每一路产生段共识,获得空间流一致性预测结果、时间流一致性预测结果和姿态估计一致性预测结果;最后,将段共识产生的分类分数进行分数融合后再由softmax函数分类,得到全局分类识别,从而完成人体动作的识别。

Description

基于注意力机制的多流分段网络人体动作识别方法及系统
技术领域
本发明涉及图像处理领域,具体涉及人体动作识别的分析研究,更具体地涉及一种基于注意力机制的多流分段网络的人体动作识别方法及系统。
背景技术
随着人工智能领域的快速发展,极大地方便了人们的日常生活。计算机视觉作为其中重要的部分在交通、医疗、支付等领域有着更富创造性发展。传统的动作识别方法是将视频或者图片处理后,输入简单卷积网络进行特征的提取,再进行分类。传统方法在处理的角度上通常是二维的,处理的多为静态的特征信息,这使得特征提取不够精准,没有更好的利用视频的动态特征,导致识别准确率很低。而一些深度学习的方法如GoogLeNet(GoogleInception Net)和VGGNet,作为CNN卷积网络的进化,在使用中也存在着一定的问题。对于VGGNet来说,其使用的参数数量太多,若训练数据集有限,容易过拟合,且网络越大其计算复杂度越大,网络越深其梯度越往后传越容易消失,难以优化模型及应用。对于GoogLeNet来说,虽然在不同深度处增加了两个损失函数来保证梯度回传消失的现象,但依旧没有解决网络尺寸的增加及参数的增加,所导致的网络更加容易过拟合的问题。对于循环神经网络RNN的经典网络-长短期记忆网络(Long Short-Term Memory,LSTM)来说,它不仅克服了普通的循环神经网络RNN很难训练的缺点,并且在一定程度上解决了梯度消失的问题,但在处理序列的量级上还是不够,它可以处理100个量级的序列,而对于1000个量级或者更长的序列,则依然会显得很棘手,其计算耗时较多,由于每一个LSTM的cell单元里面都有4个全连接层(MLP),如果LSTM的时间跨度很大,并且网络又很深,整个计算量会很大,耗时很多。因此,对于时间较长的动作视频,以上三种网络均不能够抓住动作的关键特征,反而会引入干扰特征。
人体动作识别方法随着特征提取网络的不断更新有了更高的识别率,作为现有识别准确率较高的稠密卷积神经网络(Densely Connected Convolutional Networks,DenseNet),它采用以前馈地方式将每个层与其它层连接,缓解了消失梯度问题,加强了特征传播,鼓励了特征的重用,并大大减少了参数的数量,但其网络却无法无限变深、变宽。而注意力机制的提出,拓宽了以往只能通过增加网络深度和宽度来提高准确率的思想,尤其是卷积注意力机制模块(Convolutional Block Attention Module,CBAM)的出现,它提出了通道注意力机制(channel attention)以及空间注意力机制(spatial attention)来增强特征表达,提升了现存网络的识别准确率。因此,提出一种精确对长视频中人体动作进行特征提取,确保关键特征不会被遗漏,并减少过拟合或者梯度消失发生的识别方法,是现在亟待解决的一项技术问题。
发明内容
为了解决现有技术存在的不足,本发明提供一种基于注意力机制的多流分段网络的人体动作识别方法,通过将长视频分为多个片段,分别送入多流分段网络进行特征提取和产生段共识,以解决无法处理长视频的问题,基于稠密卷积神经网络(DenseNet)和卷积注意力机制模块(CBAM)结合的特征提取网络使得动作的关键特征不会被遗漏,提升了准确度,并减少过拟合或者梯度消失的发生,通过基于OpenPose的关节点估计来弥补三维特征信息的缺失,以实现精确识别长视频中人体动作的目的。
为达到上述目的,本发明提供了一种基于注意力机制的多流分段网络的人体动作识别方法,其包括以下步骤:
S1.将输入的长视频分割为多段,对每段进行采样得到一个片段,每个片段包含一帧RGB图像和两个光流特征图;
S2.将S1中每个片段的RGB图像输入由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,并进行特征提取,得到空间流上的特征片段序列;
S3.将S1中每个片段的光流特征图输入由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,并进行特征提取,得到时间流上的特征片段序列;
S4.将S1中每个片段的RGB图像输入基于OpenPose的关节点估计网络,采用部分亲和力场,对每个片段的RGB图像进行自下而上的人体姿态估计,得到姿态估计上的特征片段序列;
S5.对所述空间流上的特征片段序列、所述时间流上的特征片段序列和所述姿态估计上的特征片段序列特征分类分数,通过分段一致性函数分别产生三路中的每一路的段共识,获得空间流一致性预测结果、时间流一致性预测结果和姿态估计一致性预测结果;
S6.对所述空间流一致性预测结果、所述时间流一致性预测结果和所述姿态估计一致性预测结果默认采用加权求均值的合并方式进行分数融合,其中空间流一致性预测结果:时间流一致性预测结果:姿态估计一致性预测结果的权重比值为1:1.5:1;
S7.将分数融合的结果通过softmax函数分类,得到输入视频的全局分类识别。
本发明一实施例中,其中S2或S3中所述由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络进行特征提取的具体步骤为:
S21.卷积注意力机制模块从通道和空间两个维度计算特征图的注意力图,然后将注意力图与特征图相乘进行自适应学习,整个过程如下:
对于一个中间层的特征图F∈RC*H*W,CBAM将顺序推出一维的通道注意力图MC∈RC *1*1,以及二维的空间注意力图MS∈R1*H*W
其中C表示通道,H表示高度,W表示宽度;
S22.然后将一维通道注意力图与所述特征图相乘得到F':
Figure BDA0002596252620000041
S23将F'与所述二维空间注意力图相乘得到最终的输出F”:
Figure BDA0002596252620000042
式中,
Figure BDA0002596252620000043
表示元素相乘。
在本发明一实施例中,其中S4所述OpenPose进行的关节点估计为采用部分亲和力场来进行自下而上的人体姿态估计,其具体过程为:
S41.将一张图片输入以VGG19的前10层为主干的网络,生成一组特征图;
S42.将S41生成的特征图分别输入两个卷积网络,分别得到预测的关键点置信度图和关键点亲和度向量;
S43.通过二分图匹配将预测的所述关键点置信度图和所述关键点亲和度向量进行关键点聚类;
S44.将S43的结果进行骨架组装得到输入图片的人体姿态估计。
在本发明一实施例中,其中S5中所述段共识的产生为:通过分段一致性函数产生每一路的段共识,表示为:
G=g(F(T1;W),F(T2;W),…,F(TK;W)) (10)
式中,(T1,T2,……,TK)为任一路特征片段序列,F(TK;W)函数表示特征分类分数,其中W表示转换网络,W对TK进行操作,并为所有类生成类分数;g为均值函数。
本发明还公开了一种基于注意力机制的多流分段网络人体动作识别系统,其包括:
长视频输入部分;
视频输入分割部分,将输入的所述长视频分割为多段,对每段进行采样得到一个片段,每个片段包含一帧RGB图像和两个光流特征图;
特征提取部分,连接所述视频输入分割部分,分别对每个片段的RGB图像和光流特征图进行特征提取;
段共识产生部分,连接所述特征提取部分,对所述特征提取部分的输出产生段共识;
特征融合分类部分,连接所述段共识产生部分,融合所述段共识并进行全局分类识别;
其中,所述特征提取部分包括基于注意力机制的特征提取网络的多路分段网络的三路,分别为:
由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,对每个片段的RGB图像进行特征提取;
由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,对每个片段的光流特征图进行特征提取;以及
基于OpenPose的关节点估计网络,对每个片段的RGB图像进行人体姿态估计。
在本发明一实施例中,其中,所述稠密卷积神经网络由所述稠密连接模块和过渡层组成:在稠密连接模块中,各个层的特征图大小一致并在通道维度上连接,且稠密连接模块中的非线性组合函数采用的是BN、ReLU和3x3卷积层连接的结构;过渡层连接两个相邻的稠密连接模块,并且降低了特征图大小,其结构为BN、ReLU、1x1卷积层和2x2均值池化。
在本发明一实施例中,其中,所述由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络为:在所述稠密卷积神经网络的稠密连接模块中加入所述卷积注意力机制模块。
在本发明一实施例中,其中,卷积注意力机制模块是一个轻量的通用模块,其依次应用通道和空间模块分别在通道和空间维度上学习。
本发明提供的基于注意力机制的多流分段网络的人体动作识别方法,通过DenseNet和CBAM注意力机制模块结合的特征提取网络对分段视频进行特征提取,确保关键特征不会被遗漏,并减少过拟合或者梯度消失发生,并通过基于OpenPose的关节点估计网络,对RGB图像进行关节点估计,来弥补原有二维动作识别在三维特征信息上的缺失,相比于现有技术有较高的识别准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明的人体动作识别方法框图;
图2为ResNet网络的连接机制;
图3为DenseNet的密集连接机制;
图4为DenseNet的网络结构图;
图5为DenseBlock结构图;
图6为CBAM模块示意图;
图7为基于注意力机制的稠密卷积神经网络示意图;
图8为关节点估计过程;
图9为同时检测和关联网络示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1为本发明的人体动作识别方法框图,如图1所示,首先将输入的长视频分割为多段,对每段进行采样得到一个片段,将每个片段送入基于注意力机制的多流分段网络中,该网络分三路对输入进行特征提取:由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络分别对每个片段的RGB图像和光流特征图进行特征提取,分别得到空间流和时间流上的两路输出;基于OpenPose的关节点估计网络对RGB图像进行姿态估计,弥补三维特征信息的缺失,得到姿态估计上的输出;然后通过分段一致性函数分别对三路输出中的每一路产生段共识,分别获得空间流一致性预测结果、时间流一致性预测结果和姿态估计一致性预测结果;最后,将段共识产生的分类分数进行分数融合再通过softmax函数分类,得到输入视频的全局分类识别,从而完成人体动作的识别。
下面通过具体实施例说明本发明提供的基于注意力机制的多流分段网络的人体动作识别方法。
本发明提供的基于注意力机制的多流分段网络的人体动作识别方法,如图1所示,包括以下步骤:
S1.将输入的长视频分割为多段,对每段进行采样得到一个片段,每个片段包含一帧RGB图像和两个光流特征图;
其中,采用时间段网络(Temporal Segment Networks,TSN)思想架构,用V表示输入的长视频,一个长视频V经输入后被分割为k段,用(S1,S2,…,Sk)表示,对每段Sk进行随机采样得到一个片段(snippet)Tk,每个片段包含一帧RGB图像和两个光流特征图,将每个片段送入多流分段网络就完成了对长视频的处理。这样处理过后的视频既不会丢失整个长视频的信息,也不会对过多的无用信息进行后续的特征提取,提高了对动作识别的关键帧的定位,减少了计算量。
S2.将S1中每个片段的RGB图像输入由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,并进行特征提取,得到空间流上的特征片段序列;
S3.将S1中每个片段的光流特征图输入由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,并进行特征提取,得到时间流上的特征片段序列;
其中,本发明实施例中所采用的稠密卷积神经网络(DenseNet)是由残差网络(Residual Network,ResNet)改进而来,对比图2和图3可知,ResNet是每个层与前面的某层(一般是2~3层)短路连接在一起,如图2所示,连接方式是通过元素级相加;而在DenseNet中,每个层都会与前面所有层在通道维度上连接在一起,如图3所示,并作为下一层的输入。对于一个L层的网络,DenseNet共包含L(L+1)/2个连接,相比ResNet,DenseNet是一种密集连接网络,并且DenseNet直接连接来自不同层的特征图,这可以实现特征重用,提升效率。
其中,在本发明实施例中,如图4所示,DenseNet网络结构主要由稠密连接模块(DenseBlock)和过渡层(Transition)组成,过渡层包含卷积层(convolution)和池化层(Pooling)。在DenseBlock中,如图5所示,各个层的特征图大小一致并在通道维度上连接,且DenseBlock中的非线性组合函数H(·)(图5中以h5为例)采用的是BN、ReLU和3x3卷积层(Conv)连接的结构,所有DenseBlock中各个层卷积之后均输出k个特征图,即得到的特征图的通道数为k,假定输入层的特征图的通道数为k0,那么L层输入的通道数为k0+k(L-1),因此随着层数增加,尽管k设定得较小,DenseBlock的输入也会非常多,这是由于特征重用所造成的,因此每个层仅有k个特征是自己独有的;过渡层连接两个相邻的DenseBlock,并且降低特征图大小,过渡层包括一个1x1的卷积层和2x2的均值池化(AvgPooling),其结构为BN、ReLU、1x1卷积层(Conv)和2x2均值池化(AvgPooling),过渡层可以起到压缩模型的作用。
其中,卷积注意力机制模块(CBAM)是一个轻量的通用模块,其依次应用通道和空间模块分别在通道和空间维度上学习。CBAM是一种为卷积神将网络设计的,简单有效的注意力模块(Attention Module),在本发明实施例中,S2或S3中所述由稠密卷积神经网络(DenseNet)和卷积注意力机制模块(CBAM)结合的特征提取网络对DenseNet中生成的特征图,CBAM从通道和空间两个维度计算特征图的注意力图,如图6所示,将注意力图与所述的特征图相乘来进行特征的自适应学习。
其中,由稠密卷积神经网络(DenseNet)和卷积注意力机制模块(CBAM)结合的特征提取网络进行特征提取的过程,如图7所示,其具体步骤为:
S21.卷积注意力机制模块从通道和空间两个维度计算特征图的注意力图,然后将注意力图与特征图相乘进行自适应学习,整个过程如下:
对于一个中间层的特征图F∈RC*H*W,CBAM将顺序推出一维的通道注意力图MC∈RC *1*1,以及二维的空间注意力图MS∈R1*H*W
其中C表示通道,H表示高度,W表示宽度;
S22.然后将一维通道注意力图与所述特征图相乘得到F':
Figure BDA0002596252620000091
S23将F'与所述二维空间注意力图相乘得到最终的输出F”:
Figure BDA0002596252620000092
式中,
Figure BDA0002596252620000093
表示元素相乘。
S4.将S1中每个片段的RGB图像输入基于OpenPose的关节点估计网络,采用部分亲和力场,对每个片段的RGB图像进行自下而上的人体姿态估计,得到姿态估计上的特征片段序列;
其中,S4所述OpenPose进行的关节点估计为采用部分亲和力场PAF(PartAffinity Fieilds)来进行自下而上的人体姿态估计,结合图8和图9所示,其具体过程为:
S41.将一张图片(图8(1))输入以VGG19的前10层为主干的网络,生成一组特征图F(图9中F);
S42.将S41生成的特征图F分别输入两个卷积网络CNN(图9中Branch1和Branch2),分别得到预测的关键点置信度图(图8(2)中左手的中间轴点以及右肩膀的位置)和关键点亲和度向量(图8(3)),其中,第一阶段网络产生一组检测置信度图为:
S1=ρ1(F) (3)
和一组亲和度向量为:
Figure BDA0002596252620000094
式中,ρ1和φ1为第一阶段推理的CNN结构,之后的每一个层级的输入都来自前一个层级的预测结果和原始特征图F,如图9所示,用以产生更精确的预测结果,以ρt和φt代表第t层级的CNN结构,其输出为:
Figure BDA0002596252620000101
Figure BDA0002596252620000102
由此计算每个层级t对应两个损失函数为:
Figure BDA0002596252620000103
Figure BDA0002596252620000104
其中,
Figure BDA0002596252620000105
代表真实的置信度图,
Figure BDA0002596252620000106
代表真实的身体关节联系向量,W表示二值化mask矩阵,W(p)=0就表示当前点p缺失,用来避免训练时错误惩罚,且在训练时,增加中间级监督,防止梯度消失,由此得到损失函数整体为:
Figure BDA0002596252620000107
式中,j代表关键点,C代表肢体(例如脖子、手臂等肢体部分),一个肢体对应两个关键点。由于采用多级(stage)级联方法,每级之后,在训练过程中都会进行损失监督(中间监督),T为层级总数,t为当前层级。
S43.通过二分图匹配将预测的关键点置信度图和关键点亲和度向量进行关键点聚类(图8(4));
S44.将S43的结果进行骨架组装得到输入图片的人体姿态估计(图8(5))。
由此可以看出,关节点估计的引入可以弥补二维图像上三维特征信息的缺失,提高动作识别的准确性。
S5.对所述空间流上的特征片段序列、所述时间流上的特征片段序列和所述姿态估计上的特征片段序列特征分类分数,通过分段一致性函数分别产生三路中的每一路的段共识,分别获得空间流一致性预测结果(Spatial stream consensus)、时间流一致性预测结果(Temporal stream consensus)和姿态估计一致性预测结果(Pose Estimationconsensus);
其中,S5中所述段共识的产生为通过分段一致性函数产生每一路的段共识,即采用均值函数对每一路所有特征片段序列属于同一类别的得分做均值,表示为:
G=g(F(T1;W),F(T2;W),…,F(TK;W)) (10)
式中,(T1,T2,……,TK)为任一路特征片段序列,F(TK;W)函数表示特征分类分数,其中W表示转换网络,W对TK进行操作,并为所有类生成类分数;g为均值函数,在式(10)中作为分段一致性函数,其对所述特征片段序列中的所有片段属于同一类别的得分做均值,从而得到该路的段共识,其最终损失函数为:
Figure BDA0002596252620000111
其中,N是行为总类别数,yi是类别i的真值(groundtruth)。
S6.对所述空间流一致性预测结果、所述时间流一致性预测结果和所述姿态估计一致性预测结果默认采用加权求均值的合并方式进行分数融合,其中空间流一致性预测结果:时间流一致性预测结果:姿态估计一致性预测结果的权重比值为1:1.5:1;
S7.将分数融合的结果通过softmax函数分类,得到输入视频的全局分类识别。
其中,用以下公式说明全局分类与softmax函数H的关系,式中MSN为本发明所述的基于注意力机制的多流分段网络(Multi Segmented Network,MSN):
MSN(T1,T2,...,TK)=H(g(F(T1;W),F(T2;W),...,F(TK;W))) (12)
式中,(T1,T2,……,TK)为分数融合后的片段序列,F(TK;W)函数表示片段TK对应的分类分数,W表示转换网络,g为均值函数。
其中,softmax函数适用于处理多分类问题,在softmax的分类模型中,对于训练集{(x(1),y(1)),...,(x(m),y(m))},有k个分类y(i)∈{1,2,3,...,k},每个输入x都会有一一对应的每个类的概率p(y=j|x),j=(1,2,…,k),那么假设函数hθ(x)将要输出一个k维的向量(向量元素的和为1)来表示这k个估计的概率值,因此假设函数形式为:
Figure BDA0002596252620000121
式中,
Figure BDA0002596252620000122
模型的参数。
另一方面,本发明提供的一种基于注意力机制的多流分段网络人体动作识别系统,再如图1所示,其包括:
长视频输入部分;
视频输入分割部分,将输入的长视频分割为多段,对每段进行采样得到一个片段,每个片段包含一帧RGB图像和两个光流特征图;
特征提取部分,连接所述视频输入分割部分,分别对所述RGB图像和所述光流特征图进行特征提取;
段共识产生部分,连接所述特征提取部分,对所述特征提取部分的输出产生段共识;
特征融合分类部分,连接所述段共识产生部分,融合所述段共识并进行全局分类识别;
其中,所述特征提取部分包括基于注意力机制的特征提取网络的多路分段网络的三路,分别为:
由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,对每个片段的RGB图像进行特征提取;
由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,对每个片段的光流特征图进行特征提取;以及
基于OpenPose的关节点估计网络,对每个片段的RGB图像进行人体姿态估计。
本发明提供的基于注意力机制的多流分段网络的人体动作识别方法,通过DenseNet和CBAM注意力机制模块结合的特征提取网络对分段视频进行特征提取,确保关键特征不会被遗漏,并减少过拟合或者梯度消失发生,并通过基于OpenPose的关节点估计网络,对RGB图像进行关节点估计,来弥补原有二维动作识别在三维特征信息上的缺失,相比于现有技术有较高的识别准确率。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (8)

1.一种基于注意力机制的多流分段网络人体动作识别方法,其特征在于,包括以下步骤:
S1.将输入的长视频分割为多段,对每段进行采样得到一个片段,每个片段包含一帧RGB图像和两个光流特征图;
S2.将S1中每个片段的RGB图像输入由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,并进行特征提取,得到空间流上的特征片段序列;
S3.将S1中每个片段的光流特征图输入由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,并进行特征提取,得到时间流上的特征片段序列;
S4.将S1中每个片段的RGB图像输入基于OpenPose的关节点估计网络,采用部分亲和力场,对每个片段的RGB图像进行自下而上的人体姿态估计,得到姿态估计上的特征片段序列;
S5.对所述空间流上的特征片段序列、所述时间流上的特征片段序列和所述姿态估计上的特征片段序列的特征分类分数,通过分段一致性函数分别产生三路中的每一路的段共识,获得空间流一致性预测结果、时间流一致性预测结果和姿态估计一致性预测结果;
S6.对所述空间流一致性预测结果、所述时间流一致性预测结果和所述姿态估计一致性预测结果默认采用加权求均值的合并方式进行分数融合,其中空间流一致性预测结果:时间流一致性预测结果:姿态估计一致性预测结果的权重比值为1:1.5:1;
S7.将分数融合的结果通过softmax函数分类,得到输入视频的全局分类识别。
2.根据权利要求1所述的方法,其特征在于,S2或S3所述由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络进行特征提取的具体步骤为:
S21.卷积注意力机制模块从通道和空间两个维度计算特征图的注意力图,然后将注意力图与特征图相乘进行自适应学习,整个过程如下:
对于一个中间层的特征图F∈RC*H*W,CBAM将顺序推出一维的通道注意力图MC∈RC*1*1,以及二维的空间注意力图MS∈R1*H*W
其中C表示通道,H表示高度,W表示宽度;
S22.然后将一维通道注意力图与所述特征图相乘得到F':
Figure FDA0002596252610000021
S23将F'与所述二维空间注意力图相乘得到最终的输出F”:
Figure FDA0002596252610000022
式中,
Figure FDA0002596252610000023
表示元素相乘。
3.根据权利要求1所述的方法,其特征在于,S4所述OpenPose进行的关节点估计为采用部分亲和力场进行自下而上的人体姿态估计,其具体步骤为:
S41.将一张图片输入以VGG19的前10层为主干的网络,生成一组特征图;
S42.将S41生成的特征图分别输入两个卷积网络,分别得到预测的关键点置信度图和关键点亲和度向量;
S43.通过二分图匹配将预测的所述关键点的置信度图和所述关键点亲和度向量进行关键点聚类;
S44.将所述关键点聚类的结果进行骨架组装,得到输入图片的人体姿态估计。
4.根据权利要求1所述的方法,其特征在于,S5中所述段共识的产生为:通过分段一致性函数产生每一路的段共识,表示为:
G=g(F(T1;W),F(T2;W),…,F(TK;W)) (10)
式中,(T1,T2,……,TK)为任一路特征片段序列,F(TK;W)函数表示特征分类分数,其中W表示转换网络,W对TK进行操作,并为所有类生成类分数;g为均值函数。
5.一种包括权利要求1~4的方法的基于注意力机制的多流分段网络人体动作识别系统,其特征在于,包括:
长视频输入部分;
视频输入分割部分,将输入的所述长视频分割为多段,对每段进行采样得到一个片段,每个片段包含一帧RGB图像和两个光流特征图;
特征提取部分,连接所述视频输入分割部分,分别对每个片段的RGB图像和光流特征图进行特征提取;
段共识产生部分,连接所述特征提取部分,对所述特征提取部分的输出产生段共识;
特征融合分类部分,连接所述段共识产生部分,融合所述段共识并进行全局分类识别;
其中,所述特征提取部分包括基于注意力机制的特征提取网络的多路分段网络的三路,分别为:
由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,对每个片段的RGB图像进行特征提取;
由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络,对每个片段的光流特征图进行特征提取;以及
基于OpenPose的关节点估计网络,对每个片段的RGB图像进行人体姿态估计。
6.根据权利要求5所述的系统,其特征在于,所述稠密卷积神经网络由所述稠密连接模块和过渡层组成:在稠密连接模块中,各层的特征图大小一致并在通道维度上连接,且稠密连接模块中的非线性组合函数采用的是BN、ReLU和3x3卷积层连接的结构;过渡层连接两个相邻的稠密连接模块,并且降低特征图大小,其结构为BN、ReLU、1x1卷积层和2x2均值池化。
7.根据权利要求5所述的系统,其特征在于,所述由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络具体为:在所述稠密卷积神经网络的稠密连接模块中加入所述卷积注意力机制模块。
8.根据权利要求5所述的系统,其特征在于,卷积注意力机制模块是一个轻量的通用模块,其依次应用通道和空间模块分别在通道和空间维度上学习。
CN202010710145.6A 2020-07-22 2020-07-22 基于注意力机制的多流分段网络人体动作识别方法及系统 Active CN111931602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010710145.6A CN111931602B (zh) 2020-07-22 2020-07-22 基于注意力机制的多流分段网络人体动作识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010710145.6A CN111931602B (zh) 2020-07-22 2020-07-22 基于注意力机制的多流分段网络人体动作识别方法及系统

Publications (2)

Publication Number Publication Date
CN111931602A true CN111931602A (zh) 2020-11-13
CN111931602B CN111931602B (zh) 2023-08-08

Family

ID=73315152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010710145.6A Active CN111931602B (zh) 2020-07-22 2020-07-22 基于注意力机制的多流分段网络人体动作识别方法及系统

Country Status (1)

Country Link
CN (1) CN111931602B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507920A (zh) * 2020-12-16 2021-03-16 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法
CN112633261A (zh) * 2021-03-09 2021-04-09 北京世纪好未来教育科技有限公司 图像检测方法、装置、设备及存储介质
CN112863081A (zh) * 2021-01-04 2021-05-28 西安建筑科技大学 一种蔬菜水果自动称重分类结算的装置及方法
CN113111828A (zh) * 2021-04-23 2021-07-13 中国科学院宁波材料技术与工程研究所 一种轴承三维缺陷检测方法及系统
CN113255570A (zh) * 2021-06-15 2021-08-13 成都考拉悠然科技有限公司 一种感知视频片段关系的时序动作检测方法
CN113283529A (zh) * 2021-06-08 2021-08-20 南通大学 一种面向多模态图像能见度检测的神经网络构建方法
CN113326748A (zh) * 2021-05-17 2021-08-31 厦门大学 一种采用多维相关注意力模型的神经网络行为识别方法
CN113609889A (zh) * 2021-05-18 2021-11-05 武汉大学 基于敏感特征聚焦感知的高分辨遥感影像植被提取方法
TWI832627B (zh) * 2022-08-16 2024-02-11 大陸商中國銀聯股份有限公司 一種生物特徵提取方法及裝置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018000871A (ja) * 2016-07-08 2018-01-11 国立大学法人岩手大学 生体の動作識別システム及び生体の動作識別方法
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109460707A (zh) * 2018-10-08 2019-03-12 华南理工大学 一种基于深度神经网络的多模态动作识别方法
CN109948475A (zh) * 2019-03-06 2019-06-28 武汉大学 一种基于骨架特征和深度学习的人体动作识别方法
CN110222556A (zh) * 2019-04-22 2019-09-10 北方工业大学 一种人体动作识别系统及方法
CN110633645A (zh) * 2019-08-19 2019-12-31 同济大学 一种基于增强型三流式架构的视频行为检测方法
WO2020037965A1 (zh) * 2018-08-21 2020-02-27 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
CN111178319A (zh) * 2020-01-06 2020-05-19 山西大学 基于压缩奖惩机制的视频行为识别方法
CN111259795A (zh) * 2020-01-16 2020-06-09 河南职业技术学院 基于多流深度学习的人体行为识别方法
CN111325155A (zh) * 2020-02-21 2020-06-23 重庆邮电大学 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018000871A (ja) * 2016-07-08 2018-01-11 国立大学法人岩手大学 生体の動作識別システム及び生体の動作識別方法
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
WO2020037965A1 (zh) * 2018-08-21 2020-02-27 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109460707A (zh) * 2018-10-08 2019-03-12 华南理工大学 一种基于深度神经网络的多模态动作识别方法
CN109948475A (zh) * 2019-03-06 2019-06-28 武汉大学 一种基于骨架特征和深度学习的人体动作识别方法
CN110222556A (zh) * 2019-04-22 2019-09-10 北方工业大学 一种人体动作识别系统及方法
CN110633645A (zh) * 2019-08-19 2019-12-31 同济大学 一种基于增强型三流式架构的视频行为检测方法
CN111178319A (zh) * 2020-01-06 2020-05-19 山西大学 基于压缩奖惩机制的视频行为识别方法
CN111259795A (zh) * 2020-01-16 2020-06-09 河南职业技术学院 基于多流深度学习的人体行为识别方法
CN111325155A (zh) * 2020-02-21 2020-06-23 重庆邮电大学 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YE QING等: "Human Action Recognition based on Human skeleton Hu invariant moments combined with human geometrical characteristics", 5TH INTERNATIONAL CONFERENCE ON FRONTIERS OF MANUFACTURING SCIENCE AND MEASURING TECHNOLOGY, pages 1628 - 1632 *
YINGHUI KONG等: "Attention module-based spatial-temporal graph convolutional networks for skeleton-based action recognition", JOURNAL OF ELECTRONIC IMAGING, vol. 28, no. 4, pages 1 - 11 *
渠畅: "视频监控中人体动作识别关键技术研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 7, pages 136 - 381 *
王云峰: "基于深度学习的视频人体动作识别", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 1, pages 138 - 2392 *
胡正平;刁鹏成;张瑞雪;李淑芳;赵梦瑶;: "3D多支路聚合轻量网络视频行为识别算法研究", 电子学报, no. 07, pages 20 - 27 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507920A (zh) * 2020-12-16 2021-03-16 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法
CN112863081A (zh) * 2021-01-04 2021-05-28 西安建筑科技大学 一种蔬菜水果自动称重分类结算的装置及方法
CN112633261A (zh) * 2021-03-09 2021-04-09 北京世纪好未来教育科技有限公司 图像检测方法、装置、设备及存储介质
CN113111828B (zh) * 2021-04-23 2022-03-18 中国科学院宁波材料技术与工程研究所 一种轴承三维缺陷检测方法及系统
CN113111828A (zh) * 2021-04-23 2021-07-13 中国科学院宁波材料技术与工程研究所 一种轴承三维缺陷检测方法及系统
CN113326748A (zh) * 2021-05-17 2021-08-31 厦门大学 一种采用多维相关注意力模型的神经网络行为识别方法
CN113326748B (zh) * 2021-05-17 2022-06-14 厦门大学 一种采用多维相关注意力模型的神经网络行为识别方法
CN113609889A (zh) * 2021-05-18 2021-11-05 武汉大学 基于敏感特征聚焦感知的高分辨遥感影像植被提取方法
CN113609889B (zh) * 2021-05-18 2024-02-13 武汉大学 基于敏感特征聚焦感知的高分辨遥感影像植被提取方法
CN113283529A (zh) * 2021-06-08 2021-08-20 南通大学 一种面向多模态图像能见度检测的神经网络构建方法
CN113255570A (zh) * 2021-06-15 2021-08-13 成都考拉悠然科技有限公司 一种感知视频片段关系的时序动作检测方法
CN113255570B (zh) * 2021-06-15 2021-09-24 成都考拉悠然科技有限公司 一种感知视频片段关系的时序动作检测方法
TWI832627B (zh) * 2022-08-16 2024-02-11 大陸商中國銀聯股份有限公司 一種生物特徵提取方法及裝置

Also Published As

Publication number Publication date
CN111931602B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN111931602A (zh) 基于注意力机制的多流分段网络人体动作识别方法及系统
CN110458844B (zh) 一种低光照场景的语义分割方法
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN109829427B (zh) 一种基于纯度检测和空间注意力网络的人脸聚类方法
CN109740419A (zh) 一种基于Attention-LSTM网络的视频行为识别方法
CN112052886A (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN111814719A (zh) 一种基于3d时空图卷积的骨架行为识别方法
CN112597883A (zh) 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN112560865B (zh) 一种室外大场景下点云的语义分割方法
CN111639719A (zh) 基于时空运动和特征融合的足迹图像检索方法
CN113128424A (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN114220154A (zh) 一种基于深度学习的微表情特征提取与识别方法
CN112927266A (zh) 基于不确定性引导训练的弱监督时域动作定位方法及系统
CN108009512A (zh) 一种基于卷积神经网络特征学习的人物再识别方法
Vs et al. Mixture of teacher experts for source-free domain adaptive object detection
CN114626598A (zh) 一种基于语义环境建模的多模态轨迹预测方法
CN111160327B (zh) 一种基于轻量化卷积神经网络的表情识别方法
CN113989612A (zh) 基于注意力及生成对抗网络的遥感影像目标检测方法
CN117373116A (zh) 基于图神经网络的轻量级特征保留的人体动作检测方法
CN113763417A (zh) 一种基于孪生网络和残差结构的目标跟踪方法
Xiao et al. Lightweight sea cucumber recognition network using improved YOLOv5
Chiu et al. Real-time monocular depth estimation with extremely light-weight neural network
Sekmen et al. Unsupervised deep learning for subspace clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant