CN112613356A - 一种基于深度注意力融合网络的动作检测方法及装置 - Google Patents

一种基于深度注意力融合网络的动作检测方法及装置 Download PDF

Info

Publication number
CN112613356A
CN112613356A CN202011417147.2A CN202011417147A CN112613356A CN 112613356 A CN112613356 A CN 112613356A CN 202011417147 A CN202011417147 A CN 202011417147A CN 112613356 A CN112613356 A CN 112613356A
Authority
CN
China
Prior art keywords
attention
features
channel
space
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011417147.2A
Other languages
English (en)
Other versions
CN112613356B (zh
Inventor
甘明刚
何玉轩
刘洁玺
陈杰
窦丽华
陈文颉
陈晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202011417147.2A priority Critical patent/CN112613356B/zh
Publication of CN112613356A publication Critical patent/CN112613356A/zh
Application granted granted Critical
Publication of CN112613356B publication Critical patent/CN112613356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Social Psychology (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于深度注意力融合网络的动作检测方法及装置,所述方法包括获取待检测视频;提取一个帧序列的初始特征;将所述初始特征输入残差通道‑空间注意力模块;所述初始特征经所述残差通道‑空间注意力模块处理,输出注意力机制调制后的特征;对所述注意力机制调制后的特征进行分层融合和迭代融合,得到融合特征;将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理,获得若干帧级检测窗口;基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道。根据本发明的方案,从通道和空间两个维度增强提取的初始特征,输出的特征不仅具有高级语义信息,也保留了低层次的空间信息。

Description

一种基于深度注意力融合网络的动作检测方法及装置
技术领域
本发明涉及动作检测领域,尤其涉及一种基于深度注意力融合网络的动作检测方法及装置。
背景技术
目前,动作检测是计算机视觉的一个重要研究领域。大多数现有的动作检测方法使用标准卷积神经网络从输入视频帧中提取特征。然而,标准卷积神经网络输出的特征不能很好地表示动作的空间信息和语义信息。为了获得更丰富的信息,现有技术中常采用加深或拓宽网络的方法,但加深或拓宽网络的方法将导致网络模型参数数量和计算成本的大幅增加。
发明内容
为解决上述技术问题,本发明提出了一种基于深度注意力融合网络的动作检测方法及装置,所述方法及装置,用以解决现有技术中获得更丰富的信息,现有技术中常采用加深或拓宽网络的方法,但加深或拓宽网络的方法将导致网络模型参数数量和计算成本的大幅增加的技术问题。
根据本发明的第一方面,提供一种基于深度注意力融合网络的动作检测方法,所述方法包括以下步骤:
步骤S101:获取一个帧序列作为输入,将所述帧序列输入到基础层,提取初始特征;
步骤S102:将所述初始特征输入残差通道-空间注意力模块;所述残差通道-空间注意力模块包括通道维度上的注意力模块和空间维度上的注意力模块;所述初始特征经所述残差通道-空间注意力模块处理,计算调制特征,输出注意力机制调制后的特征;
步骤S103:对所述注意力机制调制后的特征进行分层融合和迭代融合,得到融合特征;
步骤S104:将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理,获得若干帧级检测窗口;
步骤S105:基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道。
根据本发明第二方面,提供一种基于深度注意力融合网络的动作检测装置,所述装置包括:
初始特征获取模块:配置为获取一个帧序列作为输入,将所述帧序列输入到基础层,提取初始特征;
调制模块:配置为将所述初始特征输入残差通道-空间注意力模块;所述残差通道-空间注意力模块包括通道维度上的注意力模块和空间维度上的注意力模块;所述初始特征经所述残差通道-空间注意力模块处理,计算调制特征,输出注意力机制调制后的特征;
特征融合模块:配置为对所述注意力机制调制后的特征进行分层融合和迭代融合,得到融合特征;
检测窗口获取模块:配置为将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理,获得若干帧级检测窗口;
连接模块:配置为基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道。
根据本发明第三方面,提供一种基于深度注意力融合网络的动作检测系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的基于深度注意力融合网络的动作检测方法。
根据本发明第四方面,提供一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的基于深度注意力融合网络的动作检测方法。
根据本发明的上述方案,构造了一个残差通道-空间注意力模块,对特征提取网络提取的初始特征执行残差通道-空间注意力调制,将注意力机制应用到特征提取网络中,从通道和空间两个维度上增强提取的初始特征。该方案中的注意力机制,是与深度融合网络相结合的注意力机制。深度融合网络遵循深度网络和广度网络的思想。通过迭代深度融合和分层深度融合,输出的特征不仅具有高级语义信息,也保留了低层次的空间信息,这可以提供丰富的特征表示。本方案使用注意力机制来衡量特征的重要性。注意力机制能够生成一个注意力掩膜来加权信息,在增强有用特征信息的同时抑制无用信息。通过使用轻量级的注意力模块,本方案在参数数量略有增加的情况下,显著提高了网络的性能。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明提供如下附图进行说明。在附图中:
图1为本发明一个实施方式的基于深度注意力融合网络的动作检测方法流程图;
图2为本发明一个实施方式的基于深度注意力融合网络的结构示意图;
图3A-3C为本发明残差通道-空间注意力模块结构示意图;
图4为本发明一个实施方式的基于深度注意力融合网络的动作检测装置结构框图。
具体实施方式
首先结合图1说明本发明一个实施方式的基于深度注意力融合网络的动作检测方法流程;图2为本发明一个实施方式的基于深度注意力融合网络的结构。如图1-2所示,所述方法包括以下步骤:
步骤S101:获取一个帧序列作为输入,将所述帧序列输入到基础层,提取初始特征;
步骤S102:将所述初始特征输入残差通道-空间注意力模块;所述残差通道-空间注意力模块包括通道维度上的注意力模块和空间维度上的注意力模块;所述初始特征经所述残差通道-空间注意力模块处理,计算调制特征,输出注意力机制调制后的特征;
步骤S103:对所述注意力机制调制后的特征进行分层融合和迭代融合,得到融合特征;
步骤S104:将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理,获得若干帧级检测窗口;
步骤S105:基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道。
所述步骤S101:获取一个帧序列作为输入,将所述帧序列输入到基础层,提取初始特征,其中:
本实施例中,使用动作检测器基于已有的网络结构提取初始特征,例如,使用DLA结构作为特征提取器,提取初始特征。
所述步骤S102:将所述初始特征输入残差通道-空间注意力模块;所述残差通道-空间注意力模块包括通道维度上的注意力模块和空间维度上的注意力模块;所述初始特征经所述残差通道-空间注意力模块处理,计算调制特征,输出注意力机制调制后的特征,其中:
输入的初始特征输入残差通道-空间注意力模块,计算调制特征,计算调制特征的方式有以下三种,如图3A-图3C所示:
(1)输入的初始特征通过通道维度上的注意力模块和空间维度上的注意力模块,分别得到通道维度上的注意力掩模和空间维度上的注意力掩模,然后将这通道维度上的注意力掩模和空间维度上的注意力掩模合并,得到调制特征FE'cs
FE'cs=α*Ms(F)+β*Mc(F)
其中,FE'cs表示调制特征,其本身是特征图,Mc是通道维度上的注意力模块,Ms是空间维度上的注意力模块,F是输入的初始特征,也是特征图,α和β是可以学习的权重参数。
所述通道维度上的注意力模块和空间维度上的注意力模块按顺序串联放置或并行放置。
(2)所述通道维度上的注意力模块和空间维度上的注意力模块按顺序串联放置,初始特征先通过通道维度上的注意力模块,得到通道注意力增强的特征,再通过空间维度上的注意力模块,得到通道-空间注意力增强的特征,作为调制特征FE'cs
FE'cs=F'sc=Ms(Mc(F))
(3)所述通道维度上的注意力模块和空间维度上的注意力模块按顺序串联放置,初始特征先通过空间维度上的注意力模块,得到空间注意力增强的特征,再通过通道维度上的注意力模块,得到空间-通道注意力增强的特征,作为调制特征FE'cs
FE'cs=F'cs=Mc(Ms(F))
本实施例中,以上三种方式计算出的调制特征FE'cs并不相同,但都可以用于后续的计算。
本实施例中,所述初始特征经所述残差通道-空间注意力模块处理,输出注意力机制调制后的特征为:
F”cs=F+γ*FE'cs
其中,F”cs是残差通道-空间注意力模块的输出,即注意力机制调制后的特征,F是残差通道-空间注意力模块输入的初始特征,γ是可学习参数。这样,通过这个残差连接,保留了输入的初始特征F的原始信息。
所述通道维度上的注意力模块利用最大池化和平均池化来压缩输入的特征的空间维度,输入的特征由生成的通道维度上的注意力掩模调制,
F'c=Wc⊙F=σ(Gc(SGAP(F),SGMP(F)))⊙F
其中,σ是sigmoid激活函数,Gc是卷积操作,SGAP是平均池化,SGMP是最大池化,F是输入的特征图。⊙是通道间乘法,Wc为通道维度上的注意力掩膜。
所述空间维度上的注意力模块遵循自注意力机制的思想,使用自注意力的方法来捕捉空间位置之间的长距离依赖性。
标准卷积层对于输入信息的响应如下:
Figure BDA0002820483930000061
其中,j是i的邻域位置
本实施例中,对卷积层对输入信息的响应进行了改进,改进如下:
Figure BDA0002820483930000062
其中i是空间位置,j是全局任意位置,x为卷积层的输入,xi为位置i的输入信息,xj为位置j的输入信息;s'(xi)是输出信息,N是标准化因子,c(xi,xj)是i和j的关系,g(xj)是计算位置j的输入响应。这样可以更好的捕捉输入视觉信息中空间维度的长距离依赖性。
给定K帧长的视频的特征
Figure BDA0002820483930000063
F为特征图,使用全局空间信息建模空间相关性:
Figure BDA0002820483930000064
其中,
Figure BDA0002820483930000065
为实数域,C为特征层数,H为特征图的高度,W为特征图的宽度,HW为H乘以W得到的值,scale是一个能够调整的比例值,
Figure BDA0002820483930000066
为Fr的转置。
Figure BDA0002820483930000067
所述空间维度上的注意力模块具有查询分支、键分支和值分支。
首先在空间维度上对输入的特征图进行整形,得到特征图
Figure BDA0002820483930000068
在第一次乘以一个比例值后,使用softmax函数在空间维度对Fr正则化,作为查询;然后再用Fr作为键和值;在查询和键相乘之后,使用softmax函数来调整空间维度,以获得空间维度上的注意力掩模;然后,将空间维度上的注意力掩模乘以Fr,并整形为C×H×W大小,得到空间注意力调制的特征图。
所述步骤S104:将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理,获得若干帧级检测窗口,其中:
中心检测分支从关键帧的特征图中定位动作实例的中心点,并预测其动作类别。位移检测分支的预测管道中心点在相邻帧上沿时间维的运动。框检测分支根据每一帧上检测到的中心点返回每一帧上动作实例的边界框。
本实施例是一种使用注意力增强的动作检测方法。该动作检测方法利用注意力机制来对从输入视频中提取的特征编码并输出时空动作管道。本实施例提出的残差通道-空间注意力模块,将通道维度上的注意力和空间维度上的注意力应用于特征提取器。遵循迭代深度融合(IDA)和分层深度融合(HDA)的思想来融合深度卷积网络的浅层特征和深层特征。提取特征后,采用一种无锚管道检测器(MOC)作为动作管道检测器,并采用一种链接算法(ACT)将得到的检测窗口连接成动作管。
进一步地,获得注意力机制调制后的特征后,进一步将通道-空间注意力与深度融合结构相结合,从系统的底层到顶层,使用注意力掩膜逐层增强特征。将残差通道-空间注意力模块应用于融合节点的每一级,使得注意力调制特征可以通过HDA逐步融合,并通过IDA迭代改进,同时以学习的方式关注有利的特征通道和空间位置。
本实施例的方法有着更好的检测效果,验证了该方法的有效性。
本发明实施例进一步给出一种基于深度注意力融合网络的动作检测装置,如图4所示,所述装置包括:
初始特征获取模块:配置为获取一个帧序列作为输入,将所述帧序列输入到基础层,提取初始特征;
调制模块:配置为将所述初始特征输入残差通道-空间注意力模块;所述残差通道-空间注意力模块包括通道维度上的注意力模块和空间维度上的注意力模块;所述初始特征经所述残差通道-空间注意力模块处理,计算调制特征,输出注意力机制调制后的特征;
特征融合模块:配置为对所述注意力机制调制后的特征进行分层融合和迭代融合,得到融合特征;
检测窗口获取模块:配置为将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理,获得若干帧级检测窗口;
连接模块:配置为基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道。
本发明实施例进一步给出一种基于深度注意力融合网络的动作检测系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的基于深度注意力融合网络的动作检测方法。
本发明实施例进一步给出一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的基于深度注意力融合网络的动作检测方法。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,实体机服务器,或者网络云服务器等,需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种基于深度注意力融合网络的动作检测方法,其特征在于,包括以下步骤:
步骤S101:获取一个帧序列作为输入,将所述帧序列输入到基础层,提取初始特征;
步骤S102:将所述初始特征输入残差通道-空间注意力模块;所述残差通道-空间注意力模块包括通道维度上的注意力模块和空间维度上的注意力模块;所述初始特征经所述残差通道-空间注意力模块处理,计算调制特征,输出注意力机制调制后的特征;
步骤S103:对所述注意力机制调制后的特征进行分层融合和迭代融合,得到融合特征;
步骤S104:将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理,获得若干帧级检测窗口;
步骤S105:基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道。
2.如权利要求1所述的基于深度注意力融合网络的动作检测方法,其特征在于,输入的初始特征输入残差通道-空间注意力模块,计算调制特征,输出注意力机制调制后的特征,包括:
输入的初始特征通过通道维度上的注意力模块和空间维度上的注意力模块,分别得到通道维度上的注意力掩模和空间维度上的注意力掩模,然后将这通道维度上的注意力掩模和空间维度上的注意力掩模合并,得到调制特征FE′cs
FE′cs=α*Ms(F)+β*Mc(F)
其中,FE′cs表示调制特征,其本身是特征图,Mc是通道维度上的注意力模块,Ms是空间维度上的注意力模块,F是输入的初始特征,也是特征图,α和β是可以学习的权重参数。
3.如权利要求1所述的基于深度注意力融合网络的动作检测方法,其特征在于,输入的初始特征输入残差通道-空间注意力模块,计算调制特征,输出注意力机制调制后的特征,包括:
所述通道维度上的注意力模块和空间维度上的注意力模块按顺序串联放置,初始特征先通过通道维度上的注意力模块,得到通道注意力增强的特征,再通过空间维度上的注意力模块,得到通道-空间注意力增强的特征,作为调制特征FE′cs
FE′cs=Ms(Mc(F))。
4.如权利要求1所述的基于深度注意力融合网络的动作检测方法,其特征在于,输入的初始特征输入残差通道-空间注意力模块,计算调制特征,输出注意力机制调制后的特征,包括:
所述通道维度上的注意力模块和空间维度上的注意力模块按顺序串联放置,初始特征先通过空间维度上的注意力模块,得到空间注意力增强的特征,再通过通道维度上的注意力模块,得到空间-通道注意力增强的特征,作为调制特征FE′cs
FE′cs=Mc(Ms(F))
其中,FE′cs表示调制特征,其本身是特征图,Mc是通道方向注意模块,Ms是空间方向注意模块,F是输入的初始特征。
5.如权利要求2-4中任一项所述的基于深度注意力融合网络的动作检测方法,其特征在于,所述初始特征经所述残差通道-空间注意力模块处理,输出注意力机制调制后的特征为:
F″cs=F+γ*FE′cs
其中,F″cs是残差通道-空间注意力模块的输出,即注意力机制调制后的特征,F是残差通道-空间注意力模块输入的初始特征,γ是能够学习的参数。
6.如权利要求1所述的基于深度注意力融合网络的动作检测方法,其特征在于,所述通道维度上的注意力模块利用最大池化和平均池化来压缩输入的特征的空间维度,输入的特征由生成的通道维度上的注意力掩模调制,
F′c=Wc⊙F=σ(Gc(SGAP(F),SGMP(F)))⊙F
其中,σ是sigmoid激活函数,Gc是卷积操作,SGAP是平均池化,SGMP是最大池化,F是输入的特征图。⊙是通道间乘法,Wc为通道维度上的注意力掩膜。
7.如权利要求1所述的基于深度注意力融合网络的动作检测方法,其特征在于,所述空间方向注意模块,卷积层对输入信息的响应进行改进:
Figure FDA0002820483920000031
其中,i是空间位置,j是全局任意位置,x为卷积层的输入,xi为位置i的输入信息,xj为位置j的输入信息;s'(xi)是输出信息,N是标准化因子,c(xi,xj)是i和j的关系,g(xj)是计算位置j的输入响应。
8.一种基于深度注意力融合网络的动作检测装置,其特征在于,所述装置包括:
初始特征获取模块:配置为获取一个帧序列作为输入,将所述帧序列输入到基础层,提取初始特征;
调制模块:配置为将所述初始特征输入残差通道-空间注意力模块;所述残差通道-空间注意力模块包括通道维度上的注意力模块和空间维度上的注意力模块;所述初始特征经所述残差通道-空间注意力模块处理,计算调制特征,输出注意力机制调制后的特征;
特征融合模块:配置为对所述注意力机制调制后的特征进行分层融合和迭代融合,得到融合特征;
检测窗口获取模块:配置为将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理,获得若干帧级检测窗口;
连接模块:配置为基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道。
9.一种基于深度注意力融合网络的动作检测系统,其特征在于,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如权利要求1-7之任一项所述的基于深度注意力融合网络的动作检测方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1-7之任一项所述的基于深度注意力融合网络的动作检测方法。
CN202011417147.2A 2020-12-07 2020-12-07 一种基于深度注意力融合网络的动作检测方法及装置 Active CN112613356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011417147.2A CN112613356B (zh) 2020-12-07 2020-12-07 一种基于深度注意力融合网络的动作检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011417147.2A CN112613356B (zh) 2020-12-07 2020-12-07 一种基于深度注意力融合网络的动作检测方法及装置

Publications (2)

Publication Number Publication Date
CN112613356A true CN112613356A (zh) 2021-04-06
CN112613356B CN112613356B (zh) 2023-01-10

Family

ID=75229112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011417147.2A Active CN112613356B (zh) 2020-12-07 2020-12-07 一种基于深度注意力融合网络的动作检测方法及装置

Country Status (1)

Country Link
CN (1) CN112613356B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313669A (zh) * 2021-04-23 2021-08-27 石家庄铁道大学 一种地铁隧道表面病害图像顶层语义特征增强方法
CN113507607A (zh) * 2021-06-11 2021-10-15 电子科技大学 一种无需运动补偿的压缩视频多帧质量增强方法
CN114067442A (zh) * 2022-01-18 2022-02-18 深圳市海清视讯科技有限公司 洗手动作检测方法、模型训练方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019153908A1 (zh) * 2018-02-11 2019-08-15 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和系统
CN111523410A (zh) * 2020-04-09 2020-08-11 哈尔滨工业大学 一种基于注意力机制的视频显著性目标检测方法
CN111582201A (zh) * 2020-05-12 2020-08-25 重庆理工大学 一种基于几何注意力感知的车道线检测系统
CN111680176A (zh) * 2020-04-20 2020-09-18 武汉大学 基于注意力与双向特征融合的遥感图像检索方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019153908A1 (zh) * 2018-02-11 2019-08-15 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和系统
CN111523410A (zh) * 2020-04-09 2020-08-11 哈尔滨工业大学 一种基于注意力机制的视频显著性目标检测方法
CN111680176A (zh) * 2020-04-20 2020-09-18 武汉大学 基于注意力与双向特征融合的遥感图像检索方法及系统
CN111582201A (zh) * 2020-05-12 2020-08-25 重庆理工大学 一种基于几何注意力感知的车道线检测系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AILING QI, ET AL: "Research on Deep Learning Expression Recognition Algorithm Based on Multi-Model Fusion", 《2019 INTERNATIONAL CONFERENCE ON MACHINE LEARNING, BIG DATA AND BUSINESS INTELLIGENCE》 *
严娟等: "结合混合域注意力与空洞卷积的3维目标检测", 《中国图象图形学报》 *
张盼盼等: "基于轻量级分组注意力模块的图像分类算法", 《计算机应用》 *
陈乔松等: "基于自适应特征卷积网络的行人检测方法", 《计算机应用研究》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313669A (zh) * 2021-04-23 2021-08-27 石家庄铁道大学 一种地铁隧道表面病害图像顶层语义特征增强方法
CN113507607A (zh) * 2021-06-11 2021-10-15 电子科技大学 一种无需运动补偿的压缩视频多帧质量增强方法
CN113507607B (zh) * 2021-06-11 2023-05-26 电子科技大学 一种无需运动补偿的压缩视频多帧质量增强方法
CN114067442A (zh) * 2022-01-18 2022-02-18 深圳市海清视讯科技有限公司 洗手动作检测方法、模型训练方法、装置及电子设备
CN114067442B (zh) * 2022-01-18 2022-04-19 深圳市海清视讯科技有限公司 洗手动作检测方法、模型训练方法、装置及电子设备

Also Published As

Publication number Publication date
CN112613356B (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
CN112613356B (zh) 一种基于深度注意力融合网络的动作检测方法及装置
CN113240580B (zh) 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法
US11200424B2 (en) Space-time memory network for locating target object in video content
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
Arietta et al. City forensics: Using visual elements to predict non-visual city attributes
EP3757905A1 (en) Deep neural network training method and apparatus
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN113780149A (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN111680176A (zh) 基于注意力与双向特征融合的遥感图像检索方法及系统
CN109829353B (zh) 一种基于空间约束的人脸图像风格化方法
CN112052837A (zh) 基于人工智能的目标检测方法以及装置
CN111860233B (zh) 基于选择注意力网络的sar图像复杂建筑物提取方法及系统
CN113298815A (zh) 一种半监督遥感图像语义分割方法、装置和计算机设备
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN113592007B (zh) 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质
CN115345866B (zh) 一种遥感影像中建筑物提取方法、电子设备及存储介质
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN113850135A (zh) 一种基于时间移位框架的动态手势识别方法及系统
CN114943937A (zh) 行人重识别方法、装置、存储介质及电子设备
CN115115744A (zh) 图像处理方法、装置、设备、存储介质和程序产品
CN106407932A (zh) 基于分数阶微积分与广义逆神经网络的手写数字识别方法
CN116975347A (zh) 图像生成模型训练方法及相关装置
CN113222016B (zh) 一种基于高层和低层特征交叉增强的变化检测方法及装置
CN113052156B (zh) 光学字符识别方法、装置、电子设备和存储介质
CN115063352A (zh) 一种基于多图神经网络协同学习架构的显著性物体检测装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant