CN112307982A - 基于交错增强注意力网络的人体行为识别方法 - Google Patents

基于交错增强注意力网络的人体行为识别方法 Download PDF

Info

Publication number
CN112307982A
CN112307982A CN202011201381.1A CN202011201381A CN112307982A CN 112307982 A CN112307982 A CN 112307982A CN 202011201381 A CN202011201381 A CN 202011201381A CN 112307982 A CN112307982 A CN 112307982A
Authority
CN
China
Prior art keywords
layer
attention
module
convolution
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011201381.1A
Other languages
English (en)
Other versions
CN112307982B (zh
Inventor
同鸣
金磊
边放
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202011201381.1A priority Critical patent/CN112307982B/zh
Publication of CN112307982A publication Critical patent/CN112307982A/zh
Application granted granted Critical
Publication of CN112307982B publication Critical patent/CN112307982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于交错增强注意力网络的人体行为识别方法,解决现有技术忽略了局部信息,容易被视频中存在的大量冗余的背景信息和与行为无关的信息干扰,对行为的识别能力不足的问题。本发明的实现步骤为:(1)生成训练集;(2)获得低层特征图和高层特征图;(3)构建层次互补注意力模块;(4)构建局部增强注意力模块;(5)搭建分类网络;(6)搭建交错增强注意力网络;(7)构建交错增强注意力网络的损失函数;(8)训练交错增强注意力网络;(9)识别视频图像中的行为。本发明构建了交错增强注意力网络和其损失函数,可以提高行为识别的准确率。

Description

基于交错增强注意力网络的人体行为识别方法
技术领域
本发明属于视频处理技术领域,更进一步涉及计算机视觉技术领域中的一种基于交错增强注意力网络的人体行为识别方法。本发明可用于从视频中识别出人体的行为类别。
背景技术
近年来,随着人工智能和计算机视觉的发展,基于视频的人体行为识别已被广泛应用于智能视频监控、人机交互、无人驾驶等技术领域。人体行为识别主要目标是判断一个视频中人体行为的类别。所以人体行为识别也可以看作是输入为视频,输出为行为类别的分类问题。目前,卷积神经网络由于其强大的图像表征能力,成为了人体行为识别中的主流方法。
西安交通大学在其申请的专利文献“基于时空注意力的人体行为识别方法”(专利申请号2019102507757,申请公开号CN110059587A)中公开了一种人体行为识别方法。该方法的具体步骤为:1.将输入的视频拆分成图像帧;2.均匀抽取一定数量的图片,并使用卷积神经网络对每帧图片进行特征提取,将网络的高层特征作为每帧图片对应的特征向量;3.使用前向感知机计算每帧图片对应的空间注意力权重,并使用这些权重对每帧图片的特征向量进行加权;4.将加权特征向量输入到长短期记忆网络中,输出类别概率向量;5.使用特征向量和长短期记忆网络隐藏层的输出计算相应的时间注意力权重,并对类别概率向量加权求和,得到新的类别概率向量;6.对模型进行训练,取类别概率向量中的最大值对应的类别作为最终的类别并输出,作为模型参数;7.将保存的模型和参数相结合,得到人体行为识别模型。该方法存在的不足之处是,仅使用卷积神经网络的高层特征获取注意力以及进行识别,而网络的低层特征包含了视频帧中的局部细节信息,这些信息的忽略会导致行为识别的失败。
天津大学在其申请的专利文献“一种基于注意力机制的视频行为识别方法”(专利申请号2019105583023,申请公开号CN110287879 A)中公开了一种视频行为识别方法。该方法的具体步骤为:1.采样视频帧,将每一帧图像输入卷积神经网络,将网络的高层输出作为每一个视频帧的帧级特征;2.对帧级特征进行空域全局平均处理,融合特征中的空域信息,获取不同帧的通道级特征表达,并计算通道级时域注意力得分;3.将所获得的注意力得分作为权重系数,使用加权求和,将帧级特征表达融合为视频级特征表达。该方法存在的不足之处是,由于该方法是同等地看待视频帧中的各个空间位置,然而视频中的每个帧的不同空间位置对行为识别通常有不同程度的重要性,这使得该方法容易被视频中存在的大量冗余的背景信息和与行为无关的信息干扰,从而导致行为识别的结果产生错误。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出了一种基于交错增强注意力网络的人体行为识别方法,用于解决由于现有技术忽略视频帧中的局部细节信息,容易被视频中存在的大量冗余的背景信息和与行为无关的信息干扰,导致的对行为的识别能力不足的问题。
为实现上述目的,本发明的思路是,先构建局部增强注意力模块和层次互补注意力模块,并基于此构建交错增强注意力网络,交错增强注意力网络的输入为从Inception-v3中获得的视频帧的低层特征图和高层特征图,使得本网络能够充分利用视频帧中的局部细节信息;利用构建的新的损失函数训练交错增强注意力网络,使得网络能够聚焦于视频帧中具有鉴别性的信息。
为实现上述目的,本发明的实现的具体步骤如下:
(1)生成训练集:
(1a)选取视频数据集中包含N个行为类别的RGB视频,其中N>50,每个类别包含至少100个视频,每个视频均有一个确定的行为类别;
(1b)将每个视频分成3个等长片段,在每个片段中随机选择1帧RGB图像,将RGB图像尺寸固定为256×340个像素后依次通过角点裁剪、随机水平翻转、尺度抖动进行预处理,得到10帧尺寸为224×224个像素的RGB图像;
(1c)将预处理后的RGB图像组成训练集;
(2)获得低层特征图和高层特征图:
将训练集中的每帧RGB图像依次输入到Inception-v3中,Inception-v3中的第一个Inception-A模块和第二个Inception-C模块分别输出该帧RGB图像的低层特征图
Figure BDA0002755390980000021
和高层特征图
Figure BDA0002755390980000022
其中,
Figure BDA0002755390980000023
表示第t帧RGB图像的低层特征图,其尺寸为26×26×288;
Figure BDA0002755390980000024
表示第t帧RGB图像的高层特征图,其尺寸为6×6×288;
(3)构建层次互补注意力模块:
(3a)搭建层次互补注意力模块的第一个子模块,其结构依次为:第一卷积层,第一池化层,第二卷积层,第二池化层,通道平均池化层,第三卷积层,softmax激活层,加权层;
各层参数设置如下:第一至第三卷积层的卷积核个数依次为768,1280和1,卷积核大小分别设置为5×5,3×3和3×3,第一和第二池化层均采用最大池化方式,池化核大小均设置为2×2,池化步长均设置为2,加权层使用softmax激活层的输出对第一卷积层的输出进行加权;
(3b)搭建层次互补注意力模块的第二个子模块,其结构依次为:通道平均池化层,卷积层,softmax激活层,加权层;
各层参数设置如下:卷积层的卷积核的个数为1,卷积核大小为3×3,加权层使用softmax激活层的输出对通道平均池化层的输出进行加权;
(3c)搭建层次互补注意力模块的第三个子模块,第三个子模块将第一个子模块和第二个子模块的输出作为输入,其结构依次为:concat层,第一卷积层,第二卷积层;
各层参数设置如下:concat层的拼接维度设置为1280,两个卷积层的卷积核个数均为1280,卷积核大小分别设置为1×1和6×6;
(3d)将层次互补注意力模块的第一个和第二个子模块并联后再与第三个子模块串联,组成层次互补注意力模块;
(4)构建局部增强注意力模块:
(4a)搭建局部增强注意力模块的第一个子模块,其结构依次为:第一卷积层,第一池化层,第二卷积层,第二池化层,全局平均池化层,第三卷积层,ReLU激活层,第四卷积层,softmax激活层;
各层参数设置如下:第一至第四个卷积层的卷积核个数依次为768,1280,1280,1280,卷积核大小依次设置为5×5,3×3,1×1和1×1,第一和第二池化层均采用最大池化方式,池化核大小均设置为2×2,池化步长均设置为2;
(4b)搭建局部增强注意力模块的第二个子模块,其结构依次为:全局平均池化层,第一卷积层,ReLU激活层,第二卷积层,softmax激活层;
各层参数设置如下:第一和第二卷积层的卷积核个数均为1280,卷积核大小均设置为1×1;
(4c)搭建局部增强注意力模块的第三个子模块,其结构依次为:第一Add层,卷积层,softmax激活层,加权层,第二Add层,全局平均池化层;
各层参数设置如下:第一Add层的输出维数为1280,卷积层的个数为1280,卷积核大小设置为1×1,加权层使用softmax激活层的输出对第一个子模块的第二个池化层的输出加权,第二Add层的输入为加权层的输出和第二个子模块的全局平均池化层的输入,输出维数为1280;
(4d)将局部增强注意力模块的第一个和第二个子模块并联后再与第三个子模块串联,组成局部增强注意力模块;
(5)搭建分类网络:
搭建一个五层的分类网络,其结构依次为:concat层,卷积层,第一全连接层,第二全连接层,softmax激活层;
网络的每层参数如下:concat层的拼接维度设置为1280,卷积层的卷积核个数为1000,卷积核大小设置为1×1,两个全连接层的输出神经元个数分别为1000和N;
(6)搭建交错增强注意力网络:
将层次互补注意力模块和局部增强注意力模块并联后再与分类网络串联,组成交错增强注意力网络;
(7)构建交错增强注意力网络的损失函数:
(7a)构建相似性度量函数
Figure BDA0002755390980000041
如下:
Figure BDA0002755390980000042
其中,
Figure BDA0002755390980000043
Figure BDA0002755390980000044
分别表示训练集中第t帧RGB图像输入后层次互补注意力模块的第一个子模块和第二个子模块的softmax激活层输出的注意力矩阵,其维度均为6×6,∑表示求和操作,n表示应用第一预设规则将
Figure BDA0002755390980000045
Figure BDA0002755390980000046
分别依次排列成向量后,该向量中元素的序号,
Figure BDA0002755390980000047
表示应用所述第一预设规则将
Figure BDA0002755390980000048
依次排列成向量后,该向量中的第n个元素,
Figure BDA0002755390980000049
表示应用所述第一预设规则将
Figure BDA00027553909800000410
依次排列成向量后,该向量中的第n个元素,其中,所述第一预设规则为以行的顺序为最高优先级,以列的顺序为次一级优先级将矩阵依次排列成向量;
(7b)构建交错增强注意力网络的损失函数Loss如下:
Figure BDA00027553909800000411
其中,Lc表示基本交叉熵函数,ξ1和ξ2表示正则化参数,e表示以自然常数为底的指数操作,At表示训练集中第t帧RGB图像输入后局部增强注意力模块的第三个子模块的softmax激活层输出的通道注意力向量,其维数为1280,m表示At中的元素的序号,am表示At中的第m个元素,
Figure BDA0002755390980000051
max{·}表示取最大值操作,||·||2表示二范数操作,γ表示调节因子;
(8)训练交错增强注意力网络:
将训练集中的所有图像对应的低层特征图和高层特征图输入到所述交错增强注意力网络中,利用反向传播梯度下降法更新所述交错增强注意力网络的各层参数,直到交错增强注意力网络的损失值接近于0.25时,得到训练好的交错增强注意力网络;
(9)识别视频图像中的行为:
对每个待识别的行为视频均匀采样25帧RGB图像,得到待识别图像,将所述待识别图像的尺寸固定为224×224个像素后,输入到Inception-v3中提取低层特征图和高层特征图,再将低层特征图和高层特征图输入到所述交错增强注意力网络中,得到所述待识别图像的分类概率,将所述待识别图像的分类概率取平均值,得到行为视频的识别结果。
本发明与现有技术相比较,具有以下优点:
第一,由于本发明构建了层次互补注意力模块和局部增强注意力模块,其输入为Inception-v3提取的低层特征图和高层特征图,克服了现有技术仅使用卷积神经网络的高层特征图获取注意力以及进行识别,而网络的低层特征包含了人体的局部细节信息,这些信息的忽略会导致行为识别的失败的问题,使得本发明提出的技术能够充分利用视频帧中的细节信息,提高了行为识别的准确率。
第二,由于本发明构建了一个新的损失函数,使得交错增强注意力网络能够自动聚焦于视频帧中的重要区域,同时抑制噪声,克服了现有技术同等地看待视频帧中的各个空间位置,然而视频中的每个帧的不同空间位置对行为识别通常有不同程度的重要性,这使得现有技术容易被视频中存在的大量冗余的背景信息和与行为无关的信息干扰,从而导致行为识别的结果产生错误的问题,使得本发明提出的技术能够关注到视频帧中具有鉴别性的信息,获取更具有表达能力的特征。
附图说明
图1为本发明的流程图;
图2为本发明层次互补注意力模块的结构示意图;
图3为本发明局部增强注意力模块的结构示意图。
具体实施方式
下面结合附图对本发明做进一步的描述。
参照图1,对本发明的具体步骤做进一步的描述。
步骤1.生成训练集。
选取视频数据集中包含N个行为类别的RGB视频,其中N>50,每个类别包含至少100个视频,每个视频均有一个确定的行为类别。
将每个视频分成3个等长片段,在每个片段中随机选择1帧RGB图像,将RGB图像尺寸固定为256×340个像素后依次通过角点裁剪、随机水平翻转、尺度抖动进行预处理,得到10帧尺寸为224×224个像素的RGB图像。角点裁剪是指在图像的中心和四角选取一定大小的区域进行裁剪,随机水平翻转是指对图片的水平方向进行随机翻转,尺度抖动是指按一定抖动比例决定裁剪区域的大小。以公开的UCF101数据集为例,固定从视频中提取的RGB图像的尺寸为256×340,在图像的四个角和中心裁剪,裁剪区域的宽和高从{256,224,192,168}中随机选取,然后将裁剪后的区域调整为224×224,并进行随机水平翻转。
将预处理后的所有RGB图像组成训练集。
步骤2.获得低层特征图和高层特征图。
使用Inception-v3作为提取特征的卷积神经网络,将训练集中的每帧RGB图像依次输入到Inception-v3中,Inception-v3中的第一个Inception-A模块和第二个Inception-C模块分别输出该帧RGB图像的低层特征图
Figure BDA0002755390980000061
和高层特征图
Figure BDA0002755390980000062
其中,
Figure BDA0002755390980000063
表示第t帧RGB图像的低层特征图,其尺寸为26×26×288;
Figure BDA0002755390980000064
表示第t帧RGB图像的高层特征图,其尺寸为6×6×288;
步骤3.构建层次互补注意力模块。
参照附图2,对本发明构建的层次互补注意力模块的结构做进一步的描述。
搭建层次互补注意力模块的第一个子模块,其结构依次为:第一卷积层,第一池化层,第二卷积层,第二池化层,通道平均池化层,第三卷积层,softmax激活层,加权层,第一个子模块的输入为
Figure BDA0002755390980000065
各层参数设置如下:第一至第三卷积层的卷积核个数依次为768,1280和1,卷积核大小分别设置为5×5,3×3和3×3,第一和第二池化层均采用最大池化方式,池化核大小均设置为2×2,池化步长均设置为2,加权层使用softmax激活层的输出对第一卷积层的输出进行加权。
搭建层次互补注意力模块的第二个子模块,其结构依次为:通道平均池化层,卷积层,softmax激活层,加权层,第二个子模块的输入为
Figure BDA0002755390980000071
各层参数设置如下:卷积层的卷积核的个数为1,卷积核大小为3×3,加权层使用softmax激活层的输出对通道平均池化层的输出进行加权。
搭建层次互补注意力模块的第三个子模块,第三个子模块将第一个子模块和第二个子模块的输出作为输入,其结构依次为:concat层,第一卷积层,第二卷积层。
各层参数设置如下:concat层的拼接维度设置为1280,两个卷积层的卷积核个数均为1280,卷积核大小分别设置为1×1和6×6。
将层次互补注意力模块的第一个和第二个子模块并联后再与第三个子模块串联,组成层次互补注意力模块,层次互补注意力模块的输出为层次互补特征。
步骤4.构建局部增强注意力模块
参照附图3,对本发明构建的局部增强注意力模块的结构做进一步的描述。
搭建局部增强注意力模块的第一个子模块,其结构依次为:第一卷积层,第一池化层,第二卷积层,第二池化层,全局平均池化层,第三卷积层,ReLU激活层,第四卷积层,softmax激活层,第一个子模块的输入为
Figure BDA0002755390980000072
各层参数设置如下:第一至第四个卷积层的卷积核个数依次为768,1280,1280,1280,卷积核大小依次设置为5×5,3×3,1×1和1×1,第一和第二池化层均采用最大池化方式,池化核大小均设置为2×2,池化步长均设置为2。
搭建局部增强注意力模块的第二个子模块,其结构依次为:全局平均池化层,第一卷积层,ReLU激活层,第二卷积层,softmax激活层,第二个子模块的输入为
Figure BDA0002755390980000073
各层参数设置如下:第一和第二卷积层的卷积核个数均为1280,卷积核大小均设置为1×1。
搭建局部增强注意力模块的第三个子模块,其结构依次为:第一Add层,卷积层,softmax激活层,加权层,第二Add层,全局平均池化层。
各层参数设置如下:第一Add层的输出维数为1280,卷积层的个数为1280,卷积核大小设置为1×1,加权层使用softmax激活层的输出对第一个子模块的第二个池化层的输出加权,第二Add层的输入为加权层的输出和第二个子模块的全局平均池化层的输入,输出维数为1280。
将局部增强注意力模块的第一个和第二个子模块并联后再与第三个子模块串联,组成局部增强注意力模块,局部增强注意力模块的输出为局部增强特征。
步骤5.搭建分类网络。
搭建一个五层的分类网络,其结构依次为:concat层,卷积层,第一全连接层,第二全连接层,softmax激活层。
网络的每层参数如下:concat层的拼接维度设置为1280,卷积层的卷积核个数为1000,卷积核大小设置为1×1,两个全连接层的输出神经元个数分别为1000和N。
步骤6.搭建交错增强注意力网络。
将层次互补注意力模块和局部增强注意力模块并联后再与分类网络串联,组成交错增强注意力网络。
步骤7.构建交错增强注意力网络的损失函数。
构建相似性度量函数
Figure BDA0002755390980000081
如下:
Figure BDA0002755390980000082
其中,
Figure BDA0002755390980000083
Figure BDA0002755390980000084
分别表示训练集中第t帧RGB图像输入后层次互补注意力模块的第一个子模块和第二个子模块的softmax激活层输出的注意力矩阵,其维度均为6×6,∑表示求和操作,n表示应用第一预设规则将
Figure BDA0002755390980000085
Figure BDA0002755390980000086
分别依次排列成向量后,该向量中元素的序号,
Figure BDA0002755390980000087
表示应用所述第一预设规则将
Figure BDA0002755390980000088
依次排列成向量后,该向量中的第n个元素,
Figure BDA0002755390980000089
表示应用所述第一预设规则将
Figure BDA00027553909800000810
依次排列成向量后,该向量中的第n个元素,其中,所述第一预设规则为以行的顺序为最高优先级,以列的顺序为次一级优先级将矩阵依次排列成向量。具体地,在第一预设规则中,行的顺序的优先级高于列的顺序的优先级,排列规则可以先将矩阵中每一行元素按照列的顺序展开成列向量,再将得到的列向量按照排列之前行的顺序的前后进行首尾拼接。
构建交错增强注意力网络的损失函数Loss如下:
Figure BDA00027553909800000811
其中,Lc表示基本交叉熵函数,ξ1和ξ2表示正则化参数,e表示以自然常数为底的指数操作,At表示训练集中第t帧RGB图像输入后局部增强注意力模块的第三个子模块的softmax激活层输出的通道注意力向量,其维数为1280,m表示At中的元素的序号,am表示At中的第m个元素,
Figure BDA0002755390980000091
max{·}表示取最大值操作,||·||2表示二范数操作,γ表示调节因子。
损失函数Loss中的第二项能够鼓励层次互补注意力模块中的第一个子模块和第二个子模块聚焦于给定图像的不同区域,Loss中的第三项能够增强与特定任务有关的局部增强注意力模块得到的通道注意力的权重,因而Loss能够强调出鉴别性的语义特征,更加精确地聚焦于细粒度信息而不受前景和背景比例的影响。
步骤8.训练交错增强注意力网络。
将训练集中的所有图像对应的低层特征图和高层特征图输入到所述交错增强注意力网络中,利用反向传播梯度下降法更新所述交错增强注意力网络的各层参数,直到交错增强注意力网络的损失值接近于0.25时,得到训练好的交错增强注意力网络。
步骤9.识别视频图像中的行为。
对每个待识别的行为视频均匀采样25帧RGB图像,得到待识别图像,将所述待识别图像的尺寸固定为224×224个像素后,输入到Inception-v3中提取低层特征图和高层特征图,再将低层特征图和高层特征图输入到所述交错增强注意力网络中,得到所述待识别图像的分类概率,将所述待识别图像的分类概率取平均值,得到行为视频的识别结果。

Claims (5)

1.一种基于交错增强注意力网络的人体行为识别方法,其特征在于,构建由层次互补注意力模块,局部增强注意力模块和分类网络组成的交错增强注意力网络,利用构建的损失函数Loss训练交错增强注意力网络,该方法的具体步骤包括如下:
(1)生成训练集:
(1a)选取视频数据集中包含N个行为类别的RGB视频,其中N>50,每个类别包含至少100个视频,每个视频均有一个确定的行为类别;
(1b)将每个视频分成3个等长片段,在每个片段中随机选择1帧RGB图像,将RGB图像尺寸固定为256×340个像素后依次通过角点裁剪、随机水平翻转、尺度抖动进行预处理,得到10帧尺寸为224×224个像素的RGB图像;
(1c)将预处理后的所有RGB图像组成训练集;
(2)获得低层特征图和高层特征图:
将训练集中的每帧RGB图像依次输入到Inception-v3中,Inception-v3中的第一个Inception-A模块和第二个Inception-C模块分别输出该帧RGB图像的低层特征图
Figure FDA0002755390970000011
和高层特征图
Figure FDA0002755390970000012
其中,
Figure FDA0002755390970000013
表示第t帧RGB图像的低层特征图,其尺寸为26×26×288;
Figure FDA0002755390970000014
表示第t帧RGB图像的高层特征图,其尺寸为6×6×288;
(3)构建层次互补注意力模块:
(3a)搭建层次互补注意力模块的第一个子模块,其结构依次为:第一卷积层,第一池化层,第二卷积层,第二池化层,通道平均池化层,第三卷积层,softmax激活层,加权层;
各层参数设置如下:第一至第三卷积层的卷积核个数依次为768,1280和1,卷积核大小分别设置为5×5,3×3和3×3,第一和第二池化层均采用最大池化方式,池化核大小均设置为2×2,池化步长均设置为2,加权层使用softmax激活层的输出对第一卷积层的输出进行加权;
(3b)搭建层次互补注意力模块的第二个子模块,其结构依次为:通道平均池化层,卷积层,softmax激活层,加权层;
各层参数设置如下:卷积层的卷积核的个数为1,卷积核大小为3×3,加权层使用softmax激活层的输出对通道平均池化层的输出进行加权;
(3c)搭建层次互补注意力模块的第三个子模块,第三个子模块将第一个子模块和第二个子模块的输出作为输入,其结构依次为:concat层,第一卷积层,第二卷积层;
各层参数设置如下:concat层的拼接维度设置为1280,两个卷积层的卷积核个数均为1280,卷积核大小分别设置为1×1和6×6;
(3d)将层次互补注意力模块的第一个和第二个子模块并联后再与第三个子模块串联,组成层次互补注意力模块;
(4)构建局部增强注意力模块:
(4a)搭建局部增强注意力模块的第一个子模块,其结构依次为:第一卷积层,第一池化层,第二卷积层,第二池化层,全局平均池化层,第三卷积层,ReLU激活层,第四卷积层,softmax激活层;
各层参数设置如下:第一至第四个卷积层的卷积核个数依次为768,1280,1280,1280,卷积核大小依次设置为5×5,3×3,1×1和1×1,第一和第二池化层均采用最大池化方式,池化核大小均设置为2×2,池化步长均设置为2;
(4b)搭建局部增强注意力模块的第二个子模块,其结构依次为:全局平均池化层,第一卷积层,ReLU激活层,第二卷积层,softmax激活层;
各层参数设置如下:第一和第二卷积层的卷积核个数均为1280,卷积核大小均设置为1×1;
(4c)搭建局部增强注意力模块的第三个子模块,其结构依次为:第一Add层,卷积层,softmax激活层,加权层,第二Add层,全局平均池化层;
各层参数设置如下:第一Add层的输出维数为1280,卷积层的个数为1280,卷积核大小设置为1×1,加权层使用softmax激活层的输出对第一个子模块的第二个池化层的输出加权,第二Add层的输入为加权层的输出和第二个子模块的全局平均池化层的输入,输出维数为1280;
(4d)将局部增强注意力模块的第一个和第二个子模块并联后再与第三个子模块串联,组成局部增强注意力模块;
(5)搭建分类网络:
搭建一个五层的分类网络,其结构依次为:concat层,卷积层,第一全连接层,第二全连接层,softmax激活层;
网络的每层参数如下:concat层的拼接维度设置为1280,卷积层的卷积核个数为1000,卷积核大小设置为1×1,两个全连接层的输出神经元个数分别为1000和N;
(6)搭建交错增强注意力网络:
将层次互补注意力模块和局部增强注意力模块并联后再与分类网络串联,组成交错增强注意力网络;
(7)构建交错增强注意力网络的损失函数:
(7a)构建相似性度量函数
Figure FDA0002755390970000031
如下:
Figure FDA0002755390970000032
其中,
Figure FDA0002755390970000033
Figure FDA0002755390970000034
分别表示训练集中第t帧RGB图像输入后层次互补注意力模块的第一个子模块和第二个子模块的softmax激活层输出的注意力矩阵,其维度均为6×6,∑表示求和操作,n表示应用第一预设规则将
Figure FDA0002755390970000035
Figure FDA0002755390970000036
分别依次排列成向量后,该向量中元素的序号,
Figure FDA0002755390970000037
表示应用所述第一预设规则将
Figure FDA0002755390970000038
依次排列成向量后,该向量中的第n个元素,
Figure FDA0002755390970000039
表示应用所述第一预设规则将
Figure FDA00027553909700000310
依次排列成向量后,该向量中的第n个元素,其中,所述第一预设规则为以行的顺序为最高优先级,以列的顺序为次一级优先级将矩阵依次排列成向量;
(7b)构建交错增强注意力网络的损失函数Loss如下:
Figure FDA00027553909700000311
其中,Lc表示基本交叉熵函数,ξ1和ξ2表示正则化参数,e表示以自然常数为底的指数操作,At表示训练集中第t帧RGB图像输入后局部增强注意力模块的第三个子模块的softmax激活层输出的通道注意力向量,其维数为1280,m表示At中的元素的序号,am表示At中的第m个元素,
Figure FDA00027553909700000312
max{·}表示取最大值操作,||·||2表示二范数操作,γ表示调节因子;
(8)训练交错增强注意力网络:
将训练集中的所有图像对应的低层特征图和高层特征图输入到所述交错增强注意力网络中,利用反向传播梯度下降法更新所述交错增强注意力网络的各层参数,直到交错增强注意力网络的损失值接近于0.25时,得到训练好的交错增强注意力网络;
(9)识别视频图像中的行为:
对每个待识别的行为视频均匀采样25帧RGB图像,得到待识别图像,将所述待识别图像的尺寸固定为224×224个像素后,输入到Inception-v3中提取低层特征图和高层特征图,再将低层特征图和高层特征图输入到所述交错增强注意力网络中,得到所述待识别图像的分类概率,将所述待识别图像的分类概率取平均值,得到行为视频的识别结果。
2.根据权利要求1所述的基于交错增强注意力网络的人体行为识别方法,其特征在于,步骤(3a)中所述的层次互补注意力模块的第一个子模块的输入为低层特征图
Figure FDA0002755390970000041
3.根据权利要求1所述的基于交错增强注意力网络的人体行为识别方法,其特征在于,步骤(3b)中所述的层次互补注意力模块的第二个子模块的输入为高层特征图
Figure FDA0002755390970000042
4.根据权利要求1所述的基于交错增强注意力网络的人体行为识别方法,其特征在于,步骤(4a)中所述的局部增强注意力模块的第一个子模块的输入为低层特征图
Figure FDA0002755390970000043
5.根据权利要求1所述的基于交错增强注意力网络的人体行为识别方法,其特征在于,步骤(4b)中所述的局部增强注意力模块的第二个子模块的输入为高层特征图
Figure FDA0002755390970000044
CN202011201381.1A 2020-11-02 2020-11-02 基于交错增强注意力网络的人体行为识别方法 Active CN112307982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011201381.1A CN112307982B (zh) 2020-11-02 2020-11-02 基于交错增强注意力网络的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011201381.1A CN112307982B (zh) 2020-11-02 2020-11-02 基于交错增强注意力网络的人体行为识别方法

Publications (2)

Publication Number Publication Date
CN112307982A true CN112307982A (zh) 2021-02-02
CN112307982B CN112307982B (zh) 2023-07-28

Family

ID=74334206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011201381.1A Active CN112307982B (zh) 2020-11-02 2020-11-02 基于交错增强注意力网络的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN112307982B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801283A (zh) * 2021-03-29 2021-05-14 哈尔滨工业大学(深圳) 一种神经网络模型、动作识别方法、装置及存储介质
CN112820412A (zh) * 2021-02-03 2021-05-18 东软集团股份有限公司 用户信息的处理方法、装置、存储介质和电子设备
CN113486898A (zh) * 2021-07-08 2021-10-08 西安电子科技大学 一种基于改进ShuffleNet的雷达信号RD图像干扰辨识方法及系统
CN113516028A (zh) * 2021-04-28 2021-10-19 南通大学 一种基于混合注意力机制的人体异常行为识别方法及系统
CN113837047A (zh) * 2021-09-16 2021-12-24 广州大学 一种视频质量评估方法、系统、计算机设备及存储介质
WO2023287070A1 (en) * 2021-07-14 2023-01-19 Samsung Electronics Co., Ltd. Method and system for extracting sentiments or mood from art images
CN116704305A (zh) * 2023-06-20 2023-09-05 华中科技大学同济医学院附属协和医院 基于深度学习算法的超声心动图多模态多切面分类方法
CN113486898B (zh) * 2021-07-08 2024-05-31 西安电子科技大学 一种基于改进ShuffleNet的雷达信号RD图像干扰辨识方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197580A (zh) * 2018-01-09 2018-06-22 吉林大学 一种基于3d卷积神经网络的手势识别方法
CN110084794A (zh) * 2019-04-22 2019-08-02 华南理工大学 一种基于注意力卷积神经网络的皮肤癌图片识别方法
CN110728224A (zh) * 2019-10-08 2020-01-24 西安电子科技大学 一种基于注意力机制深度Contourlet网络的遥感图像分类方法
WO2020177217A1 (zh) * 2019-03-04 2020-09-10 东南大学 基于变尺度多特征融合卷积网络的路侧图像行人分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197580A (zh) * 2018-01-09 2018-06-22 吉林大学 一种基于3d卷积神经网络的手势识别方法
WO2020177217A1 (zh) * 2019-03-04 2020-09-10 东南大学 基于变尺度多特征融合卷积网络的路侧图像行人分割方法
CN110084794A (zh) * 2019-04-22 2019-08-02 华南理工大学 一种基于注意力卷积神经网络的皮肤癌图片识别方法
CN110728224A (zh) * 2019-10-08 2020-01-24 西安电子科技大学 一种基于注意力机制深度Contourlet网络的遥感图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
解怀奇;乐红兵;: "基于通道注意力机制的视频人体行为识别", 电子技术与软件工程, no. 04 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820412A (zh) * 2021-02-03 2021-05-18 东软集团股份有限公司 用户信息的处理方法、装置、存储介质和电子设备
CN112820412B (zh) * 2021-02-03 2024-03-08 东软集团股份有限公司 用户信息的处理方法、装置、存储介质和电子设备
CN112801283A (zh) * 2021-03-29 2021-05-14 哈尔滨工业大学(深圳) 一种神经网络模型、动作识别方法、装置及存储介质
CN112801283B (zh) * 2021-03-29 2023-06-16 哈尔滨工业大学(深圳) 一种神经网络模型、动作识别方法、装置及存储介质
CN113516028A (zh) * 2021-04-28 2021-10-19 南通大学 一种基于混合注意力机制的人体异常行为识别方法及系统
CN113516028B (zh) * 2021-04-28 2024-01-19 南通大学 一种基于混合注意力机制的人体异常行为识别方法及系统
CN113486898A (zh) * 2021-07-08 2021-10-08 西安电子科技大学 一种基于改进ShuffleNet的雷达信号RD图像干扰辨识方法及系统
CN113486898B (zh) * 2021-07-08 2024-05-31 西安电子科技大学 一种基于改进ShuffleNet的雷达信号RD图像干扰辨识方法及系统
WO2023287070A1 (en) * 2021-07-14 2023-01-19 Samsung Electronics Co., Ltd. Method and system for extracting sentiments or mood from art images
CN113837047A (zh) * 2021-09-16 2021-12-24 广州大学 一种视频质量评估方法、系统、计算机设备及存储介质
CN116704305A (zh) * 2023-06-20 2023-09-05 华中科技大学同济医学院附属协和医院 基于深度学习算法的超声心动图多模态多切面分类方法

Also Published As

Publication number Publication date
CN112307982B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN112307982A (zh) 基于交错增强注意力网络的人体行为识别方法
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN112507898B (zh) 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
CN110119703B (zh) 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
US20220215227A1 (en) Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium
CN111783705B (zh) 一种基于注意力机制的文字识别方法及系统
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
US20180114071A1 (en) Method for analysing media content
WO2022252272A1 (zh) 一种基于迁移学习的改进vgg16网络猪的身份识别方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN113240580A (zh) 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法
EP3923233A1 (en) Image denoising method and apparatus
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN112926396A (zh) 一种基于双流卷积注意力的动作识别方法
CN112070044B (zh) 一种视频物体分类方法及装置
CN109817276A (zh) 一种基于深度神经网络的蛋白质二级结构预测方法
JP2005352900A (ja) 情報処理装置、情報処理方法、パターン認識装置、及びパターン認識方法
US20220215558A1 (en) Method and apparatus for three-dimensional edge detection, storage medium, and computer device
CN112861718A (zh) 一种轻量级特征融合人群计数方法及系统
CN115311504B (zh) 一种基于注意力重定位的弱监督定位方法和装置
CN114549913A (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN113205103A (zh) 一种轻量级的文身检测方法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN113807214B (zh) 基于deit附属网络知识蒸馏的小目标人脸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant