CN113705345B - 一种基于sta-tsn的人类行为识别方法及系统 - Google Patents

一种基于sta-tsn的人类行为识别方法及系统 Download PDF

Info

Publication number
CN113705345B
CN113705345B CN202110827413.7A CN202110827413A CN113705345B CN 113705345 B CN113705345 B CN 113705345B CN 202110827413 A CN202110827413 A CN 202110827413A CN 113705345 B CN113705345 B CN 113705345B
Authority
CN
China
Prior art keywords
video
frame
segment
attention
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110827413.7A
Other languages
English (en)
Other versions
CN113705345A (zh
Inventor
杨国安
杨勇
陆正之
杨竣杰
刘德阳
周传波
樊子恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110827413.7A priority Critical patent/CN113705345B/zh
Publication of CN113705345A publication Critical patent/CN113705345A/zh
Application granted granted Critical
Publication of CN113705345B publication Critical patent/CN113705345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种基于STA‑TSN的人类行为识别方法及系统,包括以下步骤:将视频分为N段,从每一段中提取k帧;根据多尺度空间焦点特征增强策略在原有特征的基础上融合空间焦点特征;在TSN中建立关键帧探索模块探索在每一段视频中的关键帧;增加正则项引导关键帧探索模块进行有目的性的探索关键帧。本发明不仅具备了捕捉视频中长期信息的能力,同时还引入了注意力机制,使模型具有了空间和时间上聚焦的能力,极大地提高了行为识别的精度。

Description

一种基于STA-TSN的人类行为识别方法及系统
技术领域
本发明属于视频识别技术领域,特别涉及一种基于STA-TSN的人类行为识别方法及系统。
背景技术
随着多媒体的发展和移动设备的普及,视频逐渐成为了最为广泛的传播媒介之一。这种趋势也推动了计算机视觉领域对视频理解技术的发展。人类行为识别就是在这一领域的重要分支。人类行为识别任务是给一个视频片段分类,类别通常为各类人的动作。这项技术被广泛应用在视频检索、人机交互、安防监控等领域[1]。相较于图片,视频虽然包含了更多的信息,但视频中摄像机的动作、人物动作尺度和姿态的不同、光照条件的突变等同样也大大增大了行为识别的难度[2]。同时,一段视频中往往还包含一些对行为识别贡献不大的背景信息和视频帧,这些无用的信息往往也会对识别过程造成较大的干扰[3]。因此寻求一种空间上能聚焦于人的行为动作,时间上能聚焦于较为关键的帧一直以来都是行为识别领域的一个热门问题。
最初,研究者采用手工提取特征的方式来进行行为识别,这些方法主要依赖于视频帧的中低层特征,利用这些特征可以对一些区分度较大的行为具有较好的效果,但对一些复杂行为或相似度较高的行为,分类器很难利用它们的中低层特征进行正确地分类。深度学习的快速发展让提取视频帧中的深层特征成为可能,相关的方法主要依赖于卷积神经网络(CNN)提取RGB图像和堆叠的光流图像的深层特征或采用长短期记忆神经网络LSTM[6]提取连续多帧的深层特征序列的动态特征。
Wang等人提出的时间切割网络(TSN)是基于卷积神经网络提取深层特征的方法中的典型代表,已经在人类行为识别上取得了较好的效果,其将一段视频分成若干段,然后在每一段中抽取一帧用卷积神经网络进行识别,最后融合每段的识别结果得到最终的识别结果。这种结构让模型具有捕捉视频长期信息的能力,并在行为识别的精度上具有明显的提升,但是TSN中采用的卷积神经网络如ResNet、BN-Inception等都是最后通过一个的全局平均池化层(GAP)来获取全局特征表示,然而这样做使网络对空间中各个位置的特征的关注程度相同,与此同时,在每一段中随机抽取视频帧的方式也无法保证所抽取的视频帧都是对行为识别有贡献的帧。这些缺点都会对行为识别造成较大的干扰。
发明内容
本发明的目的在于提供一种基于STA-TSN的人类行为识别方法及系统,以解决上述问题。
为实现上述目的,本发明采用以下技术方案:
一种基于STA-TSN的人类行为识别方法,包括以下步骤:
将视频分为N段,从每一段中提取k帧;
根据多尺度空间焦点特征增强策略在原有特征的基础上融合空间焦点特征;
在TSN中建立关键帧探索模块探索在每一段视频中的关键帧;
增加正则项引导关键帧探索模块进行有目的性的探索关键帧。
进一步的,使用空间金字塔池化SPP去探索多尺度空间焦点特征:
对于第n段第t帧图像,从CNN的最后一层卷积层中获得维度为H×H×C的特征图An,t,其中H×H为一个特征图中的像素个数,C为特征图的通道数;将An,t复制了三份,分别命名为A1 n,t,
对于A1 n,t,用来获得多尺度空间注意力权重αn,t
接着,通过求αn,t之间的内积来获得多尺度空间焦点特征/>
最后,将与原始特征的副本/>相加并通过一个GAP层来获得一个多尺度空间焦点特征增强的全局特征表示Fn,t
进一步的,获得多尺度空间注意力权重αn,t具体的处理过程如下:首先,让A1 n,t通过一个池化层分别为1×1、3×3、5×5和7×7的空间金字塔层来获得多尺度空间特征;然后,采用软注意力机制的形式,利用一个被softmax函数激活的1×1卷积层从多尺度空间特征中获取多尺度空间注意力权重αn,t
其中,W,b和分别为1×1卷积层的权重,偏置和输出;SPP(·)含义为SPP层的输出。
进一步的,在TSN中建立基于LSTM的关键帧探索模块:
利用LSTM提取的时间动态特征来探索关键帧,具体的,在第n段视频,首先用这一段中的所有采样帧的全局特征表示Fn,1,Fn,2,…,Fn,k作为LSTM的输入;然后,采用软注意力机制的形式将LSTM所有时间步的输出hn,1,hn,2,…,hn,k通过一个被softmax激活的1×1大小的1-D卷积层来得到时间注意力权重βn
接着,利用获得的时间注意力权重融合第n段中所有采样帧的特征表示来作为该段最终的特征表示Fn
接着,利用一个全连接层来获得所有类别的得分;同时,对于所有的段,LSTM,卷积层,全连接层都贡献参数;
最终,利用一个平均池化融合所有段的得分来作为视频的最终得分。
进一步的,时间注意力权重βn
βn={βn,1n,2,…,βn,t,…,βn,k}
其中,W,b和分别为1×1的1-D卷积层的权重,偏置和输出;βn,t为第n段中第t帧对该段的贡献程度。
进一步的,正则项为时间注意力正则化:
在训练时间注意力模块之前首先用一个双流结构来训练CNN;利用经过预训练的CNN中得到的卷积特征图来训练与类别个数相同的二分类器,这些二分类器用来判断从视频中抽取的某一帧是否属于这个视频对应的类别;如果被二分类器判为false,认为这一帧不是视频中的关键帧,对于被判定为false的帧,计算它对应的时间注意力权重βn,m与0的均方误差lMSE作为交叉熵损失函数lCE的正则项。
进一步的,最终的损失函数写为:
lfinal=lCE+lMSE
其中,M是被二分类器判为false的帧的个数;y是二分类器的结果,βn,m是第n段第m帧对应的时间注意力权重,是βn,m的一个函数;基于这个时间注意力正则化,时间注意力模块能更有目的性地实现关键帧的探索。
进一步的,一种基于STA-TSN的人类行为识别系统,包括:
视频分段模块,用于将视频分为N段,从每一段中提取k帧;
融合空间焦点特征模块,用于根据多尺度空间焦点特征增强策略在原有特征的基础上融合空间焦点特征;
关键帧探索模块,用于在TSN中建立关键帧探索模块探索在每一段视频中的关键帧;增加正则项引导关键帧探索模块进行有目的性的探索关键帧。
与现有技术相比,本发明有以下技术效果:
首先,本发明改变了典型的CNN中直接通过GAP层来获取全局特征的方式,提出了一种多尺度空间焦点特征增强策略,具体来说,将CNN得到的原始特征图复制三份,它们的作用分别是:
1.利用空间金字塔池化方法融合原始特征图中多尺度的特征信息,再利用软注意力机制将其映射为一个与原特征图大小相同的权重矩阵。该权重矩阵中不同位置值的大小就反映了特征图中相应位置的重要程度。
2.将原始特征图与1中得到的权重矩阵做內积,从而将原始特征图中的信息以软注意力机制的形式进行滤波,最终的结果即可作为多尺度空间焦点特征图。
3.将原始特征图与2中结果进行融合作为最终的特征表示,实现了在原特征图的基础上对2中得到的多尺度空间焦点特征进行增强,从而让最终的特征表示既能突出关键特征,也不会损失过多的对行为识别有用的信息。
其次,在TSN中设计了一个关键帧探索模块,克服了TSN网络中无法保证所抽取的帧是否为对行为识别有用的帧的问题。具体来说,TSN网络在提取视频帧时只是将视频等分为若干段落然后再从中随机抽取一帧,这样可能会出现抽取的帧并不是对行为识别有用的帧。在此基础之上再从分割的每一段落中等间隔地抽取若干帧并对这些帧的重要程度进行判断,其中主要是利用软注意力机制将各个帧的特征表示映射为一个0到1之间的时间注意力权重,该权重的大小就代表了该视频帧的重要程度。其次,在各个视频段中利用时间注意力权重对该段落中抽取帧的特征表示进行加权平均,然后将结果来作为该段落最终的特征表示,从而使得每一段落中的特征表示成为一个突出关键帧的特征表示。
最后,为了让时间注意力模块更有目的性地探索时间注意力,设计了一种时间注意力正则化方法。它是通过在原有的交叉熵损失函数上加上一个与时间注意力权重相关的正则项作为最终的误差,使得在误差反向传播过程中,可以引导的时间注意力模块朝着误差减小的方向靠近。
因此,本发明不仅具备了TSN网络所具有的捕捉视频中、长期信息的能力,同时还引入了注意力机制,使得的模型具有了空间和时间上聚焦的能力,从而极大地提高了人类行为识别的精度。
附图说明
图1为本发明提出的STA-TSN整体的框架。
图2为本发明提出的多尺度空间焦点特征增强策略的模型图。
图3为本发明提出的关键帧探索模块的模型图。
图4为本发明提出的STA-TSN在投篮这一行为视频中的时空注意力可视化。
具体实施方式
以下结合附图对本发明进一步说明:应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
首先,将视频分为N段:
{S1,S2,…,Sn,…,SN}。
与TSN不同,采用全局采样从每一段中提取k帧:
{T11,T12,…,T1k,…,Tn1,…,Tnt,…,Tnk,…,TN1,TN2,…,TNk}。
然后,设计了一种多尺度空间焦点特征增强策略在原有特征的基础上融合空间焦点特征。接着,为TSN设计了一个关键帧探索模块去探索在每一段中的关键帧。最后,为最后的交叉熵损失函数增加了一个正则项去引导的关键帧探索模块更好地探索关键帧。整体的模型结构如图1所示。
(1)多尺度空间焦点特征增强策略:
Li等人最近的工作[8]中指出采用全局特征进行行为识别会从空间中不相关的区域中引入噪
声。因此他们设计了一种空间注意力模块来提取视频帧中的空间注意力特征。然而这种方式又很难确保空间注意力模块可以提取到所有的有用特征。因此提出一种名为多尺度空间焦点特征增强的折中策略,在原有特征的基础上融合空间焦点特征。与此同时,为了得到更丰富的特征信息,使用了一个空间金字塔池化(SPP)去探索多尺度空间焦点特征。
如图2所示,对于第n段第t帧图像,从CNN的最后一层卷积层中获得维度为H×H×C的特征图An,t,其中H×H为一个特征图中的像素个数,C为特征图的通道数。为了能更清楚地描述的模型,将An,t复制了三份,分别命名为A1 n,t,
对于A1 n,t,用它来获得多尺度空间注意力权重。具体的处理过程如下:首先,让A1 n,t通过一个池化层分别为1×1、3×3、5×5和7×7的空间金字塔层来获得多尺度空间特征。然后,采用软注意力机制的形式,利用一个被softmax函数激活的1×1卷积层从多尺度空间特征中获取多尺度空间注意力权重αn,t
其中,W,b和分别为1×1卷积层的权重,偏置和输出。SPP(·)含义为SPP层的输出。接着,通过求αn,t和/>之间的内积来获得多尺度空间焦点特征/>
最后,将与原始特征的副本/>相加并通过一个GAP层来获得一个多尺度空间焦点特征增强的全局特征表示Fn,t
(2)在TSN中的关键帧探索
在采样过程中,TSN随机从每一段中抽取一帧来作为这一段的特征表示。然而采用这种采样策略经常会抽取到与行为识别不相关的帧。受到Zhu等人[9]利用深度学习来探索关键帧的启发,在TSN中设计了一个基于LSTM的关键帧探索模块。
众所周知,LSTM在提取时间动态特征方面具有卓越的能力。然而,大多数方法都直接利用LSTM提取的时间动态特征来进行行为识别。不同于这些方法,利用LSTM提取的时间动态特征来探索关键帧。具体来说,如图3所示,例如在第n段,首先用这一段中的所有采样帧的全局特征表示Fn,1,Fn,2,…,Fn,k作为LSTM的输入。然后,同样采用软注意力机制的形式将LSTM所有时间步的输出hn,1,hn,2,…,hn,k通过一个被softmax激活的1×1大小的1-D卷积层来得到时间注意力权重βn
βn={βn,1n,2,…,βn,t,…,βn,k}
其中,W,b和分别为1×1的1-D卷积层的权重,偏置和输出。βn,t为第n段中第t帧对该段的贡献程度。接着,利用获得的时间注意力权重融合第n段中所有采样帧的特征表示来作为该段最终的特征表示Fn
接着,利用一个全连接层来获得所有类别的得分。同时,对于所有的段,LSTM,卷积层,全连接层都贡献参数。最终,利用一个平均池化融合所有段的得分来作为视频的最终得分。
(3)时间注意力正则化
与此同时,为了能让的时间注意力模块更好地探索关键帧。为交叉熵损失函数lCE设计了一个时间注意力正则化。然而,如果要引导的模块去实现关键帧的探索,就必须预先知道哪一帧是关键帧,但无法提前知道哪一帧是关键帧。不过,幸运的是,在训练阶段,在训练时间注意力模块之前首先用一个双流结构来训练的CNN。所以,如图1所示,可以利用经过预训练的CNN中得到的卷积特征图来训练与类别个数相同的二分类器,这些二分类器可以用来判断从视频中抽取的某一帧是否属于这个视频对应的类别。如果被二分类器判为false,就认为这一帧不是视频中的关键帧。对于被判定为false的帧,计算它对应的时间注意力权重βn,m与0的均方误差lMSE作为交叉熵损失函数lCE的正则项,则最终的损失函数可以写为:
lfinal=lCE+lMSE
其中,M是被二分类器判为false的帧的个数。y是二分类器的结果,βn,m是第n段第m帧对应的时间注意力权重,是βn,m的一个函数。基于这个时间注意力正则化,的时间注意力模块能更有目的性地实现关键帧的探索。
举实例如下:
图4以“投篮”这一动作为例,可视化地展示了的STA-TSN在空间注意力和时间注意力上的结果。将视频分成三段,每一段中等间隔地抽取十帧。图中每一段的第一行表示经过中心裁剪成大小为224×224的RGB图像,第二行为空间注意力权重经过上采样成224×224大小后与原图进行叠加后的结果,其中,图片中各区域的明亮程度代表该区域在空间上的重要程度。第三行为每一段中采样帧在该段的重要程度。
从图中可以发现在空间上,当人物还没有做投篮动作时,的模型更关注篮筐区域,当人物开始做投篮动作时,的模型将注意力转移到人投篮的姿态上,而这也与用肉眼在观察这一动作时关注的区域类似。因此,的模块可以准确地定位图像中的空间焦点区域。
在时间注意力方面,segment1中,随着人物在的出现,的模型输出的时间注意力权重总体上也在不断上升,segment2中,29-37帧是整个投篮动作中最核心的部分,的模型同样在这一段时间内有着更高的注意力,segment3中由于投篮动作已经结束,这一部分的帧对应的注意力权重基本趋于平稳。因此,的模型能有效地在TSN中实现关键帧的探索。

Claims (5)

1.一种基于STA-TSN的人类行为识别方法,其特征在于,包括以下步骤:
将视频分为N段,从每一段中提取k帧;
根据多尺度空间焦点特征增强策略在原有特征的基础上融合空间焦点特征;
在TSN中建立关键帧探索模块探索在每一段视频中的关键帧;
增加正则项引导关键帧探索模块进行有目的性的探索关键帧;
使用空间金字塔池化SPP去探索多尺度空间焦点特征:
对于第n段第t帧图像,从CNN的最后一层卷积层中获得维度为H×H×C的特征图An,t,其中H×H为一个特征图中的像素个数,C为特征图的通道数;将An,t复制了三份,分别命名为
对于用来获得多尺度空间注意力权重αn,t
接着,通过求αn,t之间的内积来获得多尺度空间焦点特征/>
最后,将与原始特征的副本/>相加并通过一个GAP层来获得一个多尺度空间焦点特征增强的全局特征表示Fn,t
在TSN中建立基于LSTM的关键帧探索模块:
利用LSTM提取的时间动态特征来探索关键帧,具体的,在第n段视频,首先用这一段中的所有采样帧的全局特征表示Fn,1,Fn,2,…,Fn,k作为LSTM的输入;然后,采用软注意力机制的形式将LSTM所有时间步的输出hn,1,hn,2,…,hn,k通过一个被softmax激活的1×1大小的1-D卷积层来得到时间注意力权重βn
接着,利用获得的时间注意力权重融合第n段中所有采样帧的特征表示来作为该段最终的特征表示Fn
接着,利用一个全连接层来获得所有类别的得分;同时,对于所有的段,LSTM,卷积层,全连接层都贡献参数;
最终,利用一个平均池化融合所有段的得分来作为视频的最终得分;
正则项为时间注意力正则化:
在训练时间注意力模块之前首先用一个双流结构来训练CNN;利用经过预训练的CNN中得到的卷积特征图来训练与类别个数相同的二分类器,这些二分类器用来判断从视频中抽取的某一帧是否属于这个视频对应的类别;如果被二分类器判为false,认为这一帧不是视频中的关键帧,对于被判定为false的帧,计算它对应的时间注意力权重βn,m与0的均方误差lMSE作为交叉熵损失函数lCE的正则项。
2.根据权利要求1所述的一种基于STA-TSN的人类行为识别方法,其特征在于,获得多尺度空间注意力权重αn,t具体的处理过程如下:首先,让A1 n,t通过一个池化层分别为1×1、3×3、5×5和7×7的空间金字塔层来获得多尺度空间特征;然后,采用软注意力机制的形式,利用一个被softmax函数激活的1×1卷积层从多尺度空间特征中获取多尺度空间注意力权重αn,t
其中,W,b和分别为1×1卷积层的权重,偏置和输出;SPP(·)含义为SPP层的输出。
3.根据权利要求1所述的一种基于STA-TSN的人类行为识别方法,其特征在于,时间注意力权重βn
βn={βn,1,βn,2,…,βn,t,…,βn,k}
其中,W,b和分别为1×1的1-D卷积层的权重,偏置和输出;βn,t为第n段中第t帧对该段的贡献程度。
4.根据权利要求1所述的一种基于STA-TSN的人类行为识别方法,其特征在于,最终的损失函数写为:
lfinal=lCE+lMSE
其中,M是被二分类器判为false的帧的个数;y是二分类器的结果,βn,m是第n段第m帧对应的时间注意力权重,是βn,m的一个函数;基于这个时间注意力正则化,时间注意力模块能更有目的性地实现关键帧的探索。
5.一种基于STA-TSN的人类行为识别系统,其特征在于,包括:
视频分段模块,用于将视频分为N段,从每一段中提取k帧;
融合空间焦点特征模块,用于根据多尺度空间焦点特征增强策略在原有特征的基础上融合空间焦点特征;
关键帧探索模块,用于在TSN中建立关键帧探索模块探索在每一段视频中的关键帧;增加正则项引导关键帧探索模块进行有目的性的探索关键帧;
对于第n段第t帧图像,从CNN的最后一层卷积层中获得维度为H×H×C的特征图An,t,其中H×H为一个特征图中的像素个数,C为特征图的通道数;将An,t复制了三份,分别命名为
对于A1 n,t,用来获得多尺度空间注意力权重αn,t
接着,通过求αn,t之间的内积来获得多尺度空间焦点特征/>
最后,将与原始特征的副本/>相加并通过一个GAP层来获得一个多尺度空间焦点特征增强的全局特征表示Fn,t
在TSN中建立基于LSTM的关键帧探索模块:
利用LSTM提取的时间动态特征来探索关键帧,具体的,在第n段视频,首先用这一段中的所有采样帧的全局特征表示Fn,1,Fn,2,…,Fn,k作为LSTM的输入;然后,采用软注意力机制的形式将LSTM所有时间步的输出hn,1,hn,2,…,hn,k通过一个被softmax激活的1×1大小的1-D卷积层来得到时间注意力权重βn
接着,利用获得的时间注意力权重融合第n段中所有采样帧的特征表示来作为该段最终的特征表示Fn
接着,利用一个全连接层来获得所有类别的得分;同时,对于所有的段,LSTM,卷积层,全连接层都贡献参数;
最终,利用一个平均池化融合所有段的得分来作为视频的最终得分;
正则项为时间注意力正则化:
在训练时间注意力模块之前首先用一个双流结构来训练CNN;利用经过预训练的CNN中得到的卷积特征图来训练与类别个数相同的二分类器,这些二分类器用来判断从视频中抽取的某一帧是否属于这个视频对应的类别;如果被二分类器判为false,认为这一帧不是视频中的关键帧,对于被判定为false的帧,计算它对应的时间注意力权重βn,m与0的均方误差lMSE作为交叉熵损失函数lCE的正则项。
CN202110827413.7A 2021-07-21 2021-07-21 一种基于sta-tsn的人类行为识别方法及系统 Active CN113705345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110827413.7A CN113705345B (zh) 2021-07-21 2021-07-21 一种基于sta-tsn的人类行为识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110827413.7A CN113705345B (zh) 2021-07-21 2021-07-21 一种基于sta-tsn的人类行为识别方法及系统

Publications (2)

Publication Number Publication Date
CN113705345A CN113705345A (zh) 2021-11-26
CN113705345B true CN113705345B (zh) 2023-09-12

Family

ID=78650225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110827413.7A Active CN113705345B (zh) 2021-07-21 2021-07-21 一种基于sta-tsn的人类行为识别方法及系统

Country Status (1)

Country Link
CN (1) CN113705345B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
WO2020077858A1 (zh) * 2018-10-15 2020-04-23 平安科技(深圳)有限公司 基于神经网络的视频描述生成方法、介质、终端及装置
CN111563409A (zh) * 2020-03-10 2020-08-21 浙江工业大学 一种基于骨架自相似性的跨视角动作识别方法
CN111627052A (zh) * 2020-04-30 2020-09-04 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法
WO2021069945A1 (en) * 2019-10-09 2021-04-15 Toyota Motor Europe Method for recognizing activities using separate spatial and temporal attention weights

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
WO2020077858A1 (zh) * 2018-10-15 2020-04-23 平安科技(深圳)有限公司 基于神经网络的视频描述生成方法、介质、终端及装置
WO2021069945A1 (en) * 2019-10-09 2021-04-15 Toyota Motor Europe Method for recognizing activities using separate spatial and temporal attention weights
CN111563409A (zh) * 2020-03-10 2020-08-21 浙江工业大学 一种基于骨架自相似性的跨视角动作识别方法
CN111627052A (zh) * 2020-04-30 2020-09-04 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张聪聪 ; 何宁 ; .基于关键帧的双流卷积网络的人体动作识别方法.南京信息工程大学学报(自然科学版).2019,(第06期),全文. *

Also Published As

Publication number Publication date
CN113705345A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN108334848B (zh) 一种基于生成对抗网络的微小人脸识别方法
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109344701B (zh) 一种基于Kinect的动态手势识别方法
De Geest et al. Online action detection
Recasens et al. Following gaze in video
CN103052960B (zh) 失焦状况下的对象检测和识别
Chu et al. Manga facenet: Face detection in manga based on deep neural network
CN110569773B (zh) 基于时空显著性行为注意力的双流网络行为识别方法
CN104504362A (zh) 基于卷积神经网络的人脸检测方法
Shen et al. Emotion recognition based on multi-view body gestures
CN114998210B (zh) 一种基于深度学习目标检测的早产儿视网膜病变检测系统
CN112906631B (zh) 一种基于视频的危险驾驶行为检测方法和检测系统
Saqib et al. Person head detection in multiple scales using deep convolutional neural networks
CN112001394A (zh) 基于ai视觉下的听写交互方法、系统、装置
CN108416780A (zh) 一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
Gammulle et al. Coupled generative adversarial network for continuous fine-grained action segmentation
Wechsler et al. Automatic video-based person authentication using the RBF network
Maruyama et al. Word-level sign language recognition with multi-stream neural networks focusing on local regions
CN113378675A (zh) 一种同时检测和特征提取的人脸识别方法
CN113297956A (zh) 一种基于视觉的手势识别方法及系统
Su et al. Progressive cross-stream cooperation in spatial and temporal domain for action localization
Wang et al. Yolov5 enhanced learning behavior recognition and analysis in smart classroom with multiple students
CN113361466B (zh) 一种基于多模态交叉指导学习的多光谱目标检测方法
CN111881803B (zh) 一种基于改进YOLOv3的畜脸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant