CN116434343A - 基于高低频双支路的视频动作识别方法 - Google Patents

基于高低频双支路的视频动作识别方法 Download PDF

Info

Publication number
CN116434343A
CN116434343A CN202310452019.9A CN202310452019A CN116434343A CN 116434343 A CN116434343 A CN 116434343A CN 202310452019 A CN202310452019 A CN 202310452019A CN 116434343 A CN116434343 A CN 116434343A
Authority
CN
China
Prior art keywords
frequency
low
video
branch
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310452019.9A
Other languages
English (en)
Other versions
CN116434343B (zh
Inventor
杨敬钰
邢博浩
刘鑫
岳焕景
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202310452019.9A priority Critical patent/CN116434343B/zh
Publication of CN116434343A publication Critical patent/CN116434343A/zh
Application granted granted Critical
Publication of CN116434343B publication Critical patent/CN116434343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于高低频双支路的视频动作识别方法,属于视频理解方法技术领域;本发明不同于使用窗口注意力或仅对键值降采样的方法,打破了现有技术中等价考虑时间和空间的思维。通过利用视频中的时空信息冗余在时间和空间上的特异性,构建了高效处理低频信息的自注意力机制。本发明还并利用人类注意力机制,构建了由低频支路引导的高频支路,并考虑时空信息在时间和空间上的特异性和整体性与局部性,高效利用高频与低频分支,从而解决基于视频的动作识别的问题。

Description

基于高低频双支路的视频动作识别方法
技术领域
本发明涉及视频理解方法技术领域,特别是涉及基于高低频双支路的视频动作识别方法。
背景技术
基于视频的动作识别是识别人类活动的任务,来源于静态图像或视频序列。基于视觉的人类动作识别是计算机视觉领域中一个古老的领域,现有方法采用了不同的数据模态进行识别,包括RGB图像、深度图像、骨骼、红外、点云等,其中前三种模态主要用于人类动作识别。RGB数据更有助于提供场景的细节(包括形状、颜色和纹理),有助于描述动作的语义。
在过去的几年中,人类动作识别方法主要是通过深度神经网络(DNN)建立的。这主要是因为卷积神经网络(CNN)在对图像的空间信息编码并进行目标和识别时编码图像的成功。各种研究发现了CNN从图像中自动提取有用且有区别性特征的能力,这些特征非常通用。编码时间信息在识别不同子活动中至关重要。每个活动被划分为不同的子活动。这些子活动的顺序在不同的活动之间有所差别。然而,时间维度通常使行动识别变得具有挑战性。基于CNN的的深层架构通常仅以有限的解决方案编码时间信息(如三维卷积神经网络(3DCNN)、循环神经网络(RNN)和长期和短期记忆(LSTM)),这些模型通常在同时获取时间特征的局部和全局变化方面受到限制。
随后,大量基于Transformer的方法被提出,广泛应用于视频的动作识别。Transformer是一种新的编码器-解码器(Encoder-Decoder)架构,使用注意机制差异地加权输入数据的每个部分。由于注意机制可以有效建模长依赖关系,因此此类方法在时空关系建模上相对于CNN的方法有着明显的优势。这样就可以学习更有效的时空特征,从而获得更好的识别性能,但相应得有着更大得计算代价。
目前,在基于视频的动作识别方面已经有了大量的研究工作被提出,并取得了良好的效果。Transformer借助自注意力机制建模长依赖关系,取得了显著的性能。然而,自注意力机制的计算复杂度随着输入Token数量的平方级增加,视频输入会大大增加Token数量,带来极大的训练和推断负担。
为了解决上述问题,本发明提出了一种基于高低频双支路的视频动作识别方法。
发明内容
本发明的目的在于提出一种基于高低频双支路的视频动作识别方法以解决现有技术中存在的如下问题:
(1)将时间和空间作为等价维度处理,缺乏对整体时空特征的关注;
(2)对局部时空特征的过度依赖;
(3)缺乏对时间信息的直接观察。
为了实现上述目的,本发明采用了如下技术方案:
基于高低频双支路的视频动作识别方法,利用人类视觉系统,考虑时空信息在时间和空间上的特异性和整体性与局部性,高效利用高频与低频分支,实现视频动作识别,具体包括以下内容:
步骤1、对视频数据进行预处理,通过密集采样或均匀采样对视频数据进行帧抽取,得到一个帧的数量确定的帧序列;
步骤2、对采样后的帧序列进行数据增广,提高模型的泛化能力;
步骤3、将步骤2中增广后的帧序列分别输入到块(Patch)编码器,将得到的每个Patch作为Token的编码;
步骤4、将步骤3中所得的Token进行隐式位置编码;
步骤5、将进行位置编码后的Token输入到低频支路和高频支路中,提取相对应支路下每个样本的特征向量,将低频支路和高频支路的特征向量融合;将融合后的特征向量输入到多层感知机(MLP)模块得到整个双路Transformer模块的输出;
步骤6、将低频支路和高频支路融合后的特征向量输入到Patch融合模块以及隐式位置编码模块,实现特征向量的空间维度下采样和隐式位置编码;
步骤7、重复步骤5-6,得到最终的特征向量;
步骤8、将步骤7中获得的特征向量输入到动作分类模块,得到分类损失函数;
步骤9、对步骤8中所得的分类损失函数进行反向传播训练,完成视频动作识别训练工作。
优选地,步骤1所述的密集采样具体包括以下内容:对于一个给定帧数T’的原始视频序列
Figure SMS_1
,若采样间隔为/>
Figure SMS_2
,需要采样的帧数为T,那么密集采样的帧序列对应的原视频序列索引为/>
Figure SMS_3
;这种采样方式的优点是能够保证在原始视频序列中的绝对位置信息;
所述均匀采样具体包括以下内容:对于一个给定帧数T’的原始视频序列
Figure SMS_4
,通过指定抽帧数目T可以计算出采样分割段/>
Figure SMS_5
,对应每个分割点索引为
Figure SMS_6
;然后在每个分割区间/>
Figure SMS_7
中随机抽取一帧/>
Figure SMS_8
;在每个分割区间内都抽取一帧,一共抽取T帧;这种采样方式的优点是能够保证在原始视频序列中的相对位置信息,可以看到整个视频段的信息。
优选地,步骤2所述的数据增广的方法包括图像缩放、图像缩减和图像翻转。
优选地,步骤3所述的块(Patch)编码器由堆叠的3维卷积神经层构建;所述3维卷积神经网络层包含3层,其具体计算公式如下:
y=Wx+b
其中,W表示3维卷积核权重;b表示加性偏置;x表示输入视频序列或者特征。
优选地,所述步骤4具体包括以下内容:
使用跨步为1并带补丁的3D卷积层实现对特征向量的时空位置信息隐式编码,将每一帧图像中每个像素的信息映射到一个向量表示;所述编码允许网络捕捉特征向量中对象在特征向量中的时空位置关系,从而提高识别精度。
优选地,步骤5中所述低频支路采取自注意力机制动态提取每个样本的整体低频特征,首先上一层的输入特征向量Z l-1进行仅空间维度上的降采样,并进行自注意力机制计算,并将V
Figure SMS_9
上采样后相加得到低频支路的特征向量输出,具体计算公式如下:
Figure SMS_10
其中,SR、UR代表空间下/上采样操作,实现在空间分辨率的下采样或下采样;s代表对应的比例;W Q W K W V 代表获得QKV的线性映射权重;d代表自注意力层中的隐藏特征维度。
所述高频支路在低频引导的引带下提取每个样本的局部高频特征,首先将低频支路获得Token相似性矩阵转化为卷积核调制系数,用其调制2维卷积核和3维卷积核。并用调制后的卷积核对输入特征向量Z l-1提取特征,最后将两个支路的特征向量相加,并输入到多层感知机模块得到整个双路transformer模块的输出,,具体计算公式如下:
Figure SMS_11
Figure SMS_12
其中,A代表低频支路中获得的注意力矩阵;
Figure SMS_13
为所需要学习的2D和3D卷积核参数;π2d 、π3d 为通过A学到的调制系数,Attention(·)为学习所用注意力机制。
优选地,步骤6中所述的Patch融合模块由3D卷积层实现;所述隐式位置编码模块与步骤4中的相同。
优选地,步骤8中所述的分类损失函数为交叉熵损失函数,其用于度量输出结果与真实标签间的差距,评估模型预测的准确性,具体计算公式为:
Figure SMS_14
其中,L表示交叉熵损失函数;y'表示真实标签的概率分布;y表示预测标签的概率分布。
与现有技术相比,本发明提供了基于高低频双支路的视频动作识别方法,具备以下有益效果:
(1)本发明区别于以往的基于Tansformer的视频动作识别方法,打破了视频序列中时间和空间的等价性,利用人类视觉系统,构建了基于高低频双支路的视频动作方法。相较于以往的研究,本发明是一种对数据利用效率更高,识别效果更好的方法。
(2)本发明通过降采样空间维度的自注意力机制,探索了视频序列中时间和空间的差异性。解决了以往基于窗口注意力的方法面临的缺乏对时空信息直接观察的问题。并相较于以往的解决自注意力机制计算消耗问题的方法更加轻量高效。
(3)本发明还通过低频分支的引导,来调制高频分支的卷积核,挖掘特定于样本的局部时空信息。相较于其他的方法而言,不仅补充了自注意力机制缺失的高频信息,而且计算复杂性低。
附图说明
图1为本发明提出的基于高低频双支路的视频动作识别方法的整体框架流程图;
图2为本发明实施例1中密集采样方法示意图;
图3为本发明实施例1中均匀采样方法示意图;
图4为本发明实施例1中使用的带有重叠卷积的示意图;
图5为本发明实施例1中所使用的隐式位置编码示意图;
图6为本发明实施例1中双路Transformer模块对示意图:包括低频支路和高频支路。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明提出一种基于高低频双支路的视频动作识别方法,受到“国家自然科学基金-基于自监督学习的人体微姿态识别和情感分析62171309”的资助,其主要目的在于解决现有基于Tansformer的视频动作识别方法存在的以下问题:
现有方法集中于将时空多头自注意力(MSA)或编码器分解为空间和时间域,这些方法存在着一些不容忽视的局限性:
1)将时间和空间作为等价维度的处理:通过将时空信息等价地分开处理,解耦注意力方法可能缺乏对整体时空特征的关注。
2)对局部时空特征的过度依赖:窗口注意力方法可能过于依赖局部时空特征,从而导致缺乏全局时空特征的准确提取。
3)缺乏对时间信息的直接观察:通过在时空域中分开计算,窗口注意力方法可能缺乏对时间信息的直接观察,导致需要更多迭代才能观察到感兴趣的对象在空间时间中的移动。
综上,目前尚未提出能够有效建模时间和空间关系的基于视频的动作识别的高效处理算法。
针对上述问题,本发明不同于使用窗口注意力或仅对键值降采样的方法,打破了这种这种等价考虑时间和空间的思维。利用视频中时空冗余信息在时间和空间上的特异性,构建了高效处理低频信息的自注意力机制。并利用人类注意力机制,构建了由低频支路引导的高频支路。利用人类视觉系统,考虑空冗余信息在时间和空间上的特异性和整体性与局部性,高效利用高频与低频分支,从而解决基于视频的动作识别的问题。
基于上述描述,本发明所提出的基于高低频双支路的视频动作识别方法具体包括如下内容:
实施例1:
本发明提出一种基于高低频双支路的视频动作识别方法。整体设计流程如图1所示,整体流程可以分为4个Stage,每个Stage由若干个重复的双路Transformer模块堆叠而成。
针对每一模块中的细节部分,详细介绍具体实施步骤如下:
步骤1:对视频数据进行预处理,通过密集采样或均匀采样对视频数据进行帧抽取,最后得到一个帧的数量确定的帧序列。
其中,密集采样具体指:如图2所示,对于一个给定帧数T’的原始视频序列
Figure SMS_15
,若采样间隔为/>
Figure SMS_16
,需要采样的帧数为T,那么密集采样的帧序列对应的原视频序列索引为
Figure SMS_17
;这种采样方式的优点是能够保证在原始视频序列中的绝对位置信息。
均匀采样具体指:如图3所示,对于一个给定帧数T’的原始视频序列
Figure SMS_18
,通过指定抽帧数目T可以计算出采样分割段/>
Figure SMS_19
,对应每个分割点索引为
Figure SMS_20
;然后在每个分割区间/>
Figure SMS_21
中随机抽取一帧/>
Figure SMS_22
;在每个分割区间内都抽取一帧,一共抽取T帧;这种采样方式的优点是能够保证在原始视频序列中的相对位置信息,可以看到整个视频段的信息。
步骤2:对采样后的帧序列通过图像缩放、图像裁剪、图像饭庄等方法进行数据增广,以提高模型的泛化能力。
图像缩放是图像处理中的一种常见操作,在视频任务中,一般沿时间维度使用相同的缩放比例进行缩放。缩放使用的算法一般有最邻近插值,双线性插值和双立方插值算法。图像裁剪是图像处理中常见的操作,指的是随机选择图像中的一个矩形区域并删除其他不需要的部分。通过裁剪可以缩小图像的大小,但不会影响图像的分辨率。图像翻转是指将图像在水平、垂直或对角方向上翻转,改变其方向改变。
步骤3:如图4所示,我们使用了带重叠的卷积实现块编码。对于形状为(C in DHW)的输入。我们进行卷积运算:
Figure SMS_23
我们通过控制Padding和Stride来简介控制输出特征向量的大小。
步骤4:请参阅图5,步骤4中实现的操作同样基于3D卷积层,但是Stride为1,因此分辨率不会受到影响。卷积的公式与步骤3中的一致。
步骤5:高频支路和低频支路相关细节如图6所示,此模块可以分别处理低频信息和高频信息,从而有效减少计算消耗和保证信息有效提取。
如图6上部分所示,对于低频分支我们采用仅空间降采样的自注意力机制,首先将上一级的输入Z l-1进行空间下采样操作,然后通过查询、键、值编码器来获得查询、键、值特征向量进行自注意力操作。最后将V
Figure SMS_24
上采样后相加得到低频支路的特征向量输出:
Figure SMS_25
其中,SR、UR代表空间下/上采样操作,实现在空间分辨率的下采样或下采样;s代表对应的比例;W Q W K W V 代表获得QKV的线性映射权重;d代表自注意力层中的隐藏特征维度。
如图6下部分所示,对于高频分支我们采用由低频分支引导的卷积实现。首先将低频支路获得Token相似性矩阵转化为卷积核调制系数,用其调制2维卷积核和3维卷积核。并用调制后的卷积核对输入特征向量Z l-1提取特征:
Figure SMS_26
其中,A代表低频支路中获得的注意力矩阵;
Figure SMS_27
为所需要学习的2D和3D卷积核参数;π2d 、π3d 为通过A学到的调制系数,Attention(·)为学习所用注意力机制。
最后将两个支路的特征向量相加并经过MLP,并输入到多层感知机模块得到整个双路transformer模块的输出,:
Figure SMS_28
步骤6与7:对于步骤6与步骤7的迭代如图1所示。没经过一定数量的双路Transformer迭代后,会经过Patch融合模块和隐式位置编码模块。
步骤8:在步骤8中使用的损失函数为交叉熵损失函数(Cross-EntropyLossFunction)。它可以度量输出结果与真实标签间的差距,用于评估模型预测的准确性:
Figure SMS_29
其中,L是交叉熵损失函数,y'表示真实标签的概率分布;y表示预测标签的概率分布。使用最终的到的特征向量,经过分类模块得到预测标签即可计算损失并反向传播训练。
以上,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.基于高低频双支路的视频动作识别方法,其特征在于,利用人类视觉系统,考虑时空信息在时间和空间上的特异性和整体性与局部性,高效利用高频与低频分支,实现视频动作识别,具体包括以下内容:
步骤1、对视频数据进行预处理,通过密集采样或均匀采样对视频数据进行帧抽取,得到一个帧的数量确定的帧序列;
步骤2、对采样后的帧序列进行数据增广,提高模型的泛化能力;
步骤3、将步骤2中增广后的帧序列分别输入到块编码器,将得到的每个Patch作为Token的编码;
步骤4、将步骤3中所得的Token进行隐式位置编码;
步骤5、将进行位置编码后的Token输入到低频支路和高频支路中,提取相对应支路下每个样本的特征向量,将低频支路和高频支路的特征向量融合;将融合后的特征向量输入到多层感知机模块得到整个双路Transformer模块的输出;
步骤6、将低频支路和高频支路融合后的特征向量输入到Patch融合模块以及隐式位置编码模块,实现特征向量的空间维度下采样和隐式位置编码;
步骤7、重复步骤5-6,得到最终的特征向量;
步骤8、将步骤7中获得的特征向量输入到动作分类模块,得到分类损失;
步骤9、对步骤8中所得的分类损失函数进行反向传播训练,完成视频动作识别训练工作。
2.根据权利要求1所述的基于高低频双支路的视频动作识别方法,其特征在于,步骤1所述的密集采样具体包括以下内容:对于一个给定帧数T’的原始视频序列
Figure QLYQS_1
,若采样间隔为/>
Figure QLYQS_2
,需要采样的帧数为T,那么密集采样的帧序列对应的原视频序列索引为
Figure QLYQS_3
所述均匀采样具体包括以下内容:对于一个给定帧数T’的原始视频序列
Figure QLYQS_4
,通过指定抽帧数目T可以计算出采样分割段/>
Figure QLYQS_5
,对应每个分割点索引为
Figure QLYQS_6
;然后在每个分割区间/>
Figure QLYQS_7
中随机抽取一帧/>
Figure QLYQS_8
;在每个分割区间内都抽取一帧,一共抽取T帧。
3.根据权利要求1所述的基于高低频双支路的视频动作识别方法,其特征在于,步骤2所述的数据增广的方法包括图像缩放、图像缩减和图像翻转。
4.根据权利要求1所述的基于高低频双支路的视频动作识别方法,其特征在于,步骤3所述的块(Patch)编码器由堆叠的3维卷积神经层构建;所述3维卷积神经网络层包含3层,其具体计算公式如下:
y=Wx+b
其中,W表示3维卷积核权重;b表示加性偏置;x表示输入视频序列或者特征。
5.根据权利要求1所述的基于高低频双支路的视频动作识别方法,其特征在于,所述步骤4具体包括以下内容:
使用跨步为1并带补丁的3D卷积层实现对特征向量的时空位置信息隐式编码,将每一帧图像中每个像素的信息映射到一个向量表示;所述编码允许网络捕捉特征向量中对象在特征向量中的时空位置关系。
6.根据权利要求1所述的基于高低频双支路的视频动作识别方法,其特征在于,步骤5中所述低频支路采取自注意力机制动态提取每个样本的整体低频特征,首先上一层的输入特征向量Z l-1进行仅空间维度上的降采样,并进行自注意力机制计算,并将V
Figure QLYQS_9
上采样后相加得到低频支路的特征向量输出,具体计算公式如下:
Figure QLYQS_10
其中,SR、UR代表空间下/上采样操作,实现在空间分辨率的下采样或下采样;s代表对应的比例;W Q W K W V 代表获得QKV的线性映射权重;d代表自注意力层中的隐藏特征维度;
所述高频支路在低频引导的引带下提取每个样本的局部高频特征,首先将低频支路获得Token相似性矩阵转化为卷积核调制系数,用其调制2维卷积核和3维卷积核。并用调制后的卷积核对输入特征向量Z l-1提取特征,最后将两个支路的特征向量相加,并输入到多层感知机模块得到整个双路transformer模块的输出,,具体计算公式如下:
Figure QLYQS_11
Figure QLYQS_12
其中,A代表低频支路中获得的注意力矩阵;
Figure QLYQS_13
为所需要学习的2D和3D卷积核参数;π2d 、π3d 为通过A学到的调制系数,Attention(·)为学习所用注意力机制。
7.根据权利要求1所述的基于高低频双支路的视频动作识别方法,其特征在于,步骤6中所述的Patch融合模块由3D卷积层实现;所述隐式位置编码模块与步骤4中的相同。
8.根据权利要求1所述的基于高低频双支路的视频动作识别方法,其特征在于,步骤8中所述的分类损失函数为交叉熵损失函数,其用于度量输出结果与真实标签间的差距,评估模型预测的准确性,具体计算公式为:
Figure QLYQS_14
其中,L表示交叉熵损失函数;y'表示真实标签的概率分布;y表示预测标签的概率分布。
CN202310452019.9A 2023-04-25 2023-04-25 基于高低频双支路的视频动作识别方法 Active CN116434343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310452019.9A CN116434343B (zh) 2023-04-25 2023-04-25 基于高低频双支路的视频动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310452019.9A CN116434343B (zh) 2023-04-25 2023-04-25 基于高低频双支路的视频动作识别方法

Publications (2)

Publication Number Publication Date
CN116434343A true CN116434343A (zh) 2023-07-14
CN116434343B CN116434343B (zh) 2023-09-19

Family

ID=87092580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310452019.9A Active CN116434343B (zh) 2023-04-25 2023-04-25 基于高低频双支路的视频动作识别方法

Country Status (1)

Country Link
CN (1) CN116434343B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116634209A (zh) * 2023-07-24 2023-08-22 武汉能钠智能装备技术股份有限公司 一种基于热插拔的断点视频恢复系统及方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN112800894A (zh) * 2021-01-18 2021-05-14 南京邮电大学 一种基于时空流间注意力机制的动态表情识别方法及系统
CN112926396A (zh) * 2021-01-28 2021-06-08 杭州电子科技大学 一种基于双流卷积注意力的动作识别方法
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof
CN113397572A (zh) * 2021-07-23 2021-09-17 中国科学技术大学 基于Transformer模型的表面肌电信号分类方法及系统
CN113936339A (zh) * 2021-12-16 2022-01-14 之江实验室 基于双通道交叉注意力机制的打架识别方法和装置
CN114596520A (zh) * 2022-02-09 2022-06-07 天津大学 一种第一视角视频动作识别方法及装置
US20220197246A1 (en) * 2020-12-18 2022-06-23 Strong Force Vcn Portfolio 2019, Llc Digital-Twin-Assisted Additive Manufacturing for Value Chain Networks
GB202207295D0 (en) * 2021-05-25 2022-06-29 Samsung Electronics Co Ltd Method and apparatus for video recognition
CN114898432A (zh) * 2022-05-17 2022-08-12 中南大学 基于多特征融合的伪造人脸视频检测方法及系统
CN115588116A (zh) * 2022-10-14 2023-01-10 成都图必优科技有限公司 基于双通道注意力机制的行人动作识别方法
CN115797827A (zh) * 2022-11-18 2023-03-14 南京航空航天大学 一种基于双流网络架构的ViT的人体行为识别方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof
US20220197246A1 (en) * 2020-12-18 2022-06-23 Strong Force Vcn Portfolio 2019, Llc Digital-Twin-Assisted Additive Manufacturing for Value Chain Networks
CN112800894A (zh) * 2021-01-18 2021-05-14 南京邮电大学 一种基于时空流间注意力机制的动态表情识别方法及系统
CN112926396A (zh) * 2021-01-28 2021-06-08 杭州电子科技大学 一种基于双流卷积注意力的动作识别方法
GB202207295D0 (en) * 2021-05-25 2022-06-29 Samsung Electronics Co Ltd Method and apparatus for video recognition
CN113397572A (zh) * 2021-07-23 2021-09-17 中国科学技术大学 基于Transformer模型的表面肌电信号分类方法及系统
CN113936339A (zh) * 2021-12-16 2022-01-14 之江实验室 基于双通道交叉注意力机制的打架识别方法和装置
CN114596520A (zh) * 2022-02-09 2022-06-07 天津大学 一种第一视角视频动作识别方法及装置
CN114898432A (zh) * 2022-05-17 2022-08-12 中南大学 基于多特征融合的伪造人脸视频检测方法及系统
CN115588116A (zh) * 2022-10-14 2023-01-10 成都图必优科技有限公司 基于双通道注意力机制的行人动作识别方法
CN115797827A (zh) * 2022-11-18 2023-03-14 南京航空航天大学 一种基于双流网络架构的ViT的人体行为识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHUO CHEN 等: "Deformable graph convolutional transformer for skeleton-based action recognition", 《SPRINGER》, pages 15390 - 15406 *
叶升: "基于加性角惩罚焦点损失的多模态语音情感识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 01, pages 136 - 528 *
张文超: "基于图神经网络的人体姿态识别关键技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 01, pages 138 - 2357 *
耿甜甜: "基于时空关系图网络的视频动作识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 01, pages 138 - 2475 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116634209A (zh) * 2023-07-24 2023-08-22 武汉能钠智能装备技术股份有限公司 一种基于热插拔的断点视频恢复系统及方法
CN116634209B (zh) * 2023-07-24 2023-11-17 武汉能钠智能装备技术股份有限公司 一种基于热插拔的断点视频恢复系统及方法

Also Published As

Publication number Publication date
CN116434343B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
Zhang et al. Transformer and CNN hybrid deep neural network for semantic segmentation of very-high-resolution remote sensing imagery
Croitoru et al. Diffusion models in vision: A survey
Zhao et al. Learning to forecast and refine residual motion for image-to-video generation
CN111627019B (zh) 一种基于卷积神经网络的肝脏肿瘤分割方法及系统
Zhou et al. View synthesis by appearance flow
Chen et al. The face image super-resolution algorithm based on combined representation learning
de Queiroz Mendes et al. On deep learning techniques to boost monocular depth estimation for autonomous navigation
CN109903292A (zh) 一种基于全卷积神经网络的三维图像分割方法及系统
Zhu et al. Stacked U-shape networks with channel-wise attention for image super-resolution
Chen et al. A multi-task framework for infrared small target detection and segmentation
CN116434343B (zh) 基于高低频双支路的视频动作识别方法
Kang et al. Context pyramidal network for stereo matching regularized by disparity gradients
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN115861616A (zh) 面向医学图像序列的语义分割系统
JP2022552663A (ja) 三次元エッジ検出方法、装置、コンピュータプログラム及びコンピュータ機器
CN114429555A (zh) 由粗到细的图像稠密匹配方法、系统、设备及存储介质
CN116823850A (zh) 基于U-Net和Transformer融合改进的心脏MRI分割方法及系统
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
Zhang et al. Dense haze removal based on dynamic collaborative inference learning for remote sensing images
CN116128898A (zh) 一种基于Transformer双分支模型的皮肤病变图像分割方法
Suzuki et al. Residual learning of video frame interpolation using convolutional LSTM
Zhou et al. A superior image inpainting scheme using Transformer-based self-supervised attention GAN model
Zhang et al. Embarrassingly simple binarization for deep single imagery super-resolution networks
Ye et al. Unsupervised object transfiguration with attention
CN116630387A (zh) 基于注意力机制的单目图像深度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant