CN111627052B - 一种基于双流时空注意力机制的动作识别方法t-stam - Google Patents
一种基于双流时空注意力机制的动作识别方法t-stam Download PDFInfo
- Publication number
- CN111627052B CN111627052B CN202010360993.9A CN202010360993A CN111627052B CN 111627052 B CN111627052 B CN 111627052B CN 202010360993 A CN202010360993 A CN 202010360993A CN 111627052 B CN111627052 B CN 111627052B
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- features
- feature
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双流时空注意力机制的动作识别方法T‑STAM,包括如下步骤:S1:对视频进行处理获取RGB帧的光流图;S2:将通道注意力网络SE‑Net融入到双流基础网络BN‑Inception中得到SE‑BN‑Inception;S3:将选取的RGB帧及光流场信息输入到SE‑BN‑Inception中,对特征中不同通道的依赖关系进行建模得到视频的特征向量X;S4:将特征X输入到基于CNN的时间注意力网络来计算每帧对应的时间注意力得分;S5:将特征X输入到多空间注意力网络,提取帧的多个运动空间显著区域;S6:融合时空特征进一步增强视频的特征表达,按不同权重融合两流输出得到动作识别结果。
Description
技术领域
本发明涉及计算机视觉、视频分类等领域,特别提供了一种基于双流时空注意力机制的动作识别方法T-STAM。
背景技术
近年来,随着深度学习的兴起,基于卷积神经网络的方法在视频动作识别研究领域应用广泛。其中双流法将RGB输入到CNN中来获取外观信息,将多帧的光流场输入到CNN中来获取运动信息,能有效结合视频中的时空信息,在性能上相对较优。但双流法在提取视频特征时忽略了不同通道信息的联系。此外,它平等的处理视频中采样的帧,未对帧的不同位置的信息加以区分,无法重点利用视频中关键的时空信息。
基于注意力机制的动作识别方法可以突出视频中的关键信息。基于时空注意力的人体行为识别方法(专利申请号:CN201910250775.7,专利公开号:CN110059587A)的发明使用LSTM设计的时空注意力网络来提取视频中关键的时空信息。该方法存在以下不足:
(1)在提取运动显著空间区域信息时,仅使用一个空间注意力网络关注帧的多个显著区域,造成提取的部分区域不准确;
(2)使用LSTM设计的时间注意力网络结构复杂且必须按照时间的先后顺序来处理视频的帧,识别效率低。
针对以上不足,本发明提出一种基于双流时空注意力机制的动作识别方法T-STAM。通过引入通道注意力机制对通道特征进行重新校准,来增强特征的表达能力。设计的时空注意力网络结构简便且能将注意力集中在辨识度高的帧的多个运动显著区域上,进一步增强视频特征表达能力。
发明内容
本发明的主要目的是提供一种基于双流时空注意力机制的动作识别方法T-STAM,该方法能对通道特征进行重新校准,来增强特征的表达能力,设计基于CNN的时间注意力网络,使用较少的参数学习每帧的注意力得分,重点关注运动幅度明显的帧。提出一种多空间注意力网络,从不同角度计算每帧中各个位置的注意力得分,提取多个运动显著区域,结合时空特征能进一步增强视频的特征表示,提高动作识别准确率。
本发明提供的技术方案是:一种基于双流时空注意力机制的动作识别方法T-STAM,包括以下步骤。
S1:将视频等分成N段,每段中随机选取一帧,共选取N帧。从选取的RGB帧中提取光流数据,每个帧可提取到两个光流场图像,分别是沿x轴的光流图像,和沿y轴的光流图像。通过线性变换将光流场离散到从[0,255],这使得光流场的范围和RGB图像相同。
S2:引入通道注意力网络SE-Net到双流基础网络BN-Inception中,得到能对通道特征进行建模的SE-BN-Inception。过程如下:BN-inception包含9个Inception操作,在每个Inception后加入SE-Net。由于全连接层的输出对空间和位置不够敏感,经过卷积层的输出在一定程度上保留了图像的空间结构,因此将BN-Inception保留至最后一个卷积层。
S3:将选取的RGB帧和光流场信息输入到SE-BN-Inception中,通过建模特征不同通道的关系,增强特征的表达能力。其中RGB帧输入到外观流提取物体外观信息,多帧光流场输入到运动流提取视频的运动信息。经过SE-BN-Inception得到视频的特征向量X,具体步骤如下:
S31:将经过卷积层之后的特征沿着通道维度执行全局平均池化的压缩操作;
S32:将压缩后的特征通过两个全连接层来建模不同通道间的依赖关系。其中第一个全连接层将输入通道维度降低为原来的1/16以减少计算量,之后通过ReLu激活函数增加非线性,第二个全连接层将通道降回原来的维度。再通过一个Sigmoid函数获得归一化的权重;
S33:通过特征重定向操作将权重加权到每个通道的特征上,得到视频级特征X。
X∈RN×D(D=256);
其中ft∈R1×D,它考虑到了视频中每个选取帧的重要程度。
S5:将特征向量X输入到多空间注意力网络从不同角度提取帧的不同运动显著区域,进而得到视频的空间特征,包含步骤如下:
S51:从SE-BN-Inception之后获取的特征为X=(x1...xi...xN),X∈RN×C×W×H,对于第j个空间注意力网络,先将X经过一个1×1的卷积层和tanh激活函数把特征维度降至N×F×W×H(F=256)以减少计算代价。然后经过第二个卷积层得到的特征为计算如下:
S6:融合时空特征进一步增强视频的特征表达,将融合的特征送入到分类网络,提高了动作识别的准确率。步骤如下:
S62:将这l个特征连接起来得到视频的时空特征F计算如下:
F=concate(F1,F2...Fl)
其中concate表示连接操作;
S63:将F送入到由FC层和softmax层组成的分类网络对视频分类,按不同权重融合两流的输出结果得到最后分类结果。
附图说明:
图1本发明算法流程图;
图2本发明整体模型图
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明。
本发明设计了一种基于双流时空注意力机制的动作识别方法T-STAM,参见图1,该方法包括以下步骤。
S1:对视频进行处理选择RGB帧,并获取选取的RGB帧的光流图;
S2:通道注意力机制能学习到每个特征通道的重要程度,按照重要程度提升对当前识别有用的通道特征,同时抑制识别力弱的通道特征得到结构。因此本发明引入通道注意力网络SE-Net到双流基础网络BN-Inception得到能对通道特征进行建模的SE-BN-Inception。引入通道注意力网络SE-Net到双流基础网络BN-Inception中,得到结构SE-BN-Inception。选择BN-Inception的原因:BN-Inception是GoogLeNet的升级版,它在准确率和效率之间有着较好的平衡。其中加入了批归一化操作,使得网络中每一层的数据分布更加稳定,能够加快训练过程,起到正则化的作用。具体融入过程如下:BN-inception包含9个Inception操作,在每个Inception后加入SE-Net。由于全连接层的输出对空间和位置不够敏感,经过卷积层的输出在一定程度上保留了图像的空间结构,因此将BN-Inception保留至最后一个卷积层。
S3:将选取的RGB帧和光流场信息输入到SE-BN-Inception中,通过建模特征不同通道的关系,增强特征的表达能力。其中RGB帧输入到外观流提取物体外观信息,多帧光流场输入到运动流提取视频的运动信息。经过SE-BN-Inception得到视频的特征向量X,具体步骤如下:
S31:将输入特征沿着通道维度进行全局平均池压缩特征;
S32:将压缩后的特征通过两个全连接层来建模不同通道间的依赖关系。其中第一个全连接层将输入通道维度降低为原来的1/16以减少计算量,之后通过ReLu激活函数增加非线性,第二个全连接层将通道降回原来的维度。再通过一个Sigmoid函数获得归一化的权重;
S33:通过特征重定向操作将权重加权到每个通道的特征上,得到视频级特征X。
S4:视频中不同的帧对动作识别贡献程度不同。本发明提出一种基于CNN的时间注意力的特征增强网络。该网络结构简单、参数较少、计算代价小且能并行的处理多帧。先将视频级特征X输入到基于CNN的时间注意力网络来计算每个选取帧对应的时间注意力得分以注意力得分判断视频中每一帧相对于动作识别的重要性,选择性的关注重点帧,进而得到视频的时间特征ft,包含如下步骤:
其中ft∈R1×D,它考虑到了视频中每个选取帧的重要程度。
S5:将特征向量X输入到多空间注意力网络从不同角度提取帧的不同运动显著区域,进而得到视频的空间特征,包含步骤如下:
S51:从SE-BN-Inception之后获取的特征为X=(x1...xi...xN),X∈RN×C×W×H,将X经过空间注意力网络。本发明设计多个空间注意力网络,从不同的角度提取帧的空间信息,计算各个位置的注意力得分,从而关注帧中与动作相关的多个运动显著区域,从空间上进一步增强特征表示。每个空间注意力网络包括两个卷积层和一个softmax层。具体如下:对于第j个空间注意力网络,先将X经过一个1×1的卷积层和tanh激活函数把特征维度降至N×F×W×H(F=256)以减少计算代价。然后经过第二个卷积层得到的特征为计算如下:
其中w2、w3、b2、b3是网络中可学习的参数。第二个卷积层的卷积核尺寸为5×5,卷积步长为1。l表示空间注意力网络数。其中BN表示批归一化操作,引入批归一化操作可以解决协方差偏移问题,使训练更加稳定;
S6:融合时空特征进一步增强视频的特征表达,将融合的特征送入到分类网络,提高了动作识别的准确率。步骤如下:
S62:将这l个特征连接起来得到视频的时空特征F如下:
F=concate(F1,F2...Fl)
其中concate表示连接操作。将外观流得到的特征表示为Frgb,运动流得到的特征表示为Fflow;
S63:将Frgb和Fflow分别送入到由一个FC层和softmax层组成的分类网络后得到两流的分类结果分别为Ss和St,按照不同权重融合(得分融合)两流的输出得到最终动作识别结果如图2。
Claims (10)
1.一种基于双流时空注意力机制的动作识别方法,其特征在于:包括如下步骤:
S1:对视频进行处理选择RGB帧,方法为将视频等分成N段,每段中随机选取一帧,共选取N帧,并获取选取的RGB帧的光流图;
S2:将通道注意力网络SE-Net填加到双流基础网络BN-Inception中,得到能对通道特征进行建模的SE-BN-Inception;
S3:将选取的RGB帧以及光流场信息输入到SE-BN-Inception中,对特征的不同通道信息进行建模,能增强特征的表达力,得到视频的特征向量X,具体步骤如下:
S31:将经过卷积层之后的特征沿着通道维度执行全局平均池化的压缩操作;
S32:将压缩后的特征通过两个全连接层来建模不同通道间的依赖关系,再通过一个Sigmoid函数获得归一化的权重;
S33:通过特征重定向操作将权重加权到每个通道的特征上,得到视频级特征X;
S4:将视频级特征X输入到基于CNN的时间注意力网络来计算每帧对应的时间注意力权重,重点关注运动幅度明显的帧,获取时间特征,步骤如下:
S5:将特征向量X输入到多空间注意力网络从不同角度计算帧的各个位置的注意力得分,提取帧的不同运动显著区域,获取空间特征,步骤如下:
S51:共设计l个空间注意力网络,对于第j j∈(1,l)个空间注意力网络,先将X经过一个1×1的卷积层和tanh激活函数把特征维度降至N×F×W×H(F=256)以减少计算代价,然后经过第二个卷积层得到的特征为计算如下:
S6:融合时空特征进一步增强视频的特征表达,将融合的特征送入到分类网络,步骤如下:
S62:将这l个特征连接起来得到视频的时空特征F;
S63:将F送入到由FC层和softmax层组成的分类网络对视频分类,按不同权重融合两流的输出结果得到最后分类结果。
2.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于,S1中,每个帧可提取到两个光流场图像,分别是沿x方向的光流图像,沿y方向的光流图像,通过线性变换将光流场离散到从[0,255],这使得光流场的范围和RGB图像相同。
3.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于,S2中,将SE-Net融入到BN-Inception过程如下:BN-inception包含9个Inception操作,在每个Inception后加入SE-Net,由于全连接层的输出对空间和位置不够敏感,经过卷积层的输出保留了图像的空间结构,因此将BN-Inception保留至最后一个卷积层。
4.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于,S3中,其中RGB帧输入到外观流提取物体外观信息,多帧光流场输入到运动流提取视频的运动信息。
5.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于,S31,其中第一个全连接层将输入通道维度降低为原来的1/16以减少计算量,之后通过ReLu激活函数增加非线性,第二个全连接层将通道回到原来的维度。
10.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于,S62,这l个特征连接起来得到视频的时空特征F如下:
F=concate(F1,F2...Fl)
其中concate表示连接操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010360993.9A CN111627052B (zh) | 2020-04-30 | 2020-04-30 | 一种基于双流时空注意力机制的动作识别方法t-stam |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010360993.9A CN111627052B (zh) | 2020-04-30 | 2020-04-30 | 一种基于双流时空注意力机制的动作识别方法t-stam |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111627052A CN111627052A (zh) | 2020-09-04 |
CN111627052B true CN111627052B (zh) | 2023-05-23 |
Family
ID=72272997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010360993.9A Active CN111627052B (zh) | 2020-04-30 | 2020-04-30 | 一种基于双流时空注意力机制的动作识别方法t-stam |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627052B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364757B (zh) * | 2020-11-09 | 2022-10-21 | 大连理工大学 | 一种基于时空注意力机制的人体动作识别方法 |
CN112489092B (zh) * | 2020-12-09 | 2023-10-31 | 浙江中控技术股份有限公司 | 细粒度工业运动模态分类方法、存储介质、设备和装置 |
CN112507920B (zh) * | 2020-12-16 | 2023-01-24 | 重庆交通大学 | 一种基于时间位移和注意力机制的考试异常行为识别方法 |
CN112651320A (zh) * | 2020-12-21 | 2021-04-13 | 南京掘物网络信息技术有限公司 | 用于智能化纺织车间的吸尘器的功率智能控制方法 |
CN112766177B (zh) * | 2021-01-22 | 2022-12-02 | 西安电子科技大学 | 基于特征映射和多层时间交互注意力的行为识别方法 |
CN112926396B (zh) * | 2021-01-28 | 2022-05-13 | 杭州电子科技大学 | 一种基于双流卷积注意力的动作识别方法 |
CN112818843B (zh) * | 2021-01-29 | 2022-08-26 | 山东大学 | 基于通道注意力导向时间建模的视频行为识别方法及系统 |
CN113066022B (zh) * | 2021-03-17 | 2022-08-16 | 天津大学 | 一种基于高效时空信息融合的视频比特增强方法 |
CN112990116B (zh) * | 2021-04-21 | 2021-08-06 | 四川翼飞视科技有限公司 | 基于多注意力机制融合的行为识别装置、方法和存储介质 |
CN113139467B (zh) * | 2021-04-23 | 2023-04-25 | 西安交通大学 | 基于分级式结构的细粒度视频动作识别方法 |
CN113283298B (zh) * | 2021-04-26 | 2023-01-03 | 西安交通大学 | 基于时间注意力机制和双流网络的实时行为识别方法 |
CN113326748B (zh) * | 2021-05-17 | 2022-06-14 | 厦门大学 | 一种采用多维相关注意力模型的神经网络行为识别方法 |
CN113361417B (zh) * | 2021-06-09 | 2023-10-31 | 陕西理工大学 | 一种基于可变时序的人体行为识别方法 |
CN113420703B (zh) * | 2021-07-03 | 2023-04-18 | 西北工业大学 | 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法 |
CN113705345B (zh) * | 2021-07-21 | 2023-09-12 | 西安交通大学 | 一种基于sta-tsn的人类行为识别方法及系统 |
CN115131710A (zh) * | 2022-07-05 | 2022-09-30 | 福州大学 | 基于多尺度特征融合注意力的实时动作检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN109508684A (zh) * | 2018-11-21 | 2019-03-22 | 中山大学 | 一种视频中人体行为识别的方法 |
CN110287825A (zh) * | 2019-06-11 | 2019-09-27 | 沈阳航空航天大学 | 一种基于关键骨骼点轨迹分析的摔倒动作检测方法 |
CN110569773A (zh) * | 2019-08-30 | 2019-12-13 | 江南大学 | 基于时空显著性行为注意力的双流网络行为识别方法 |
CN110826447A (zh) * | 2019-10-29 | 2020-02-21 | 北京工商大学 | 一种基于注意力机制的餐厅后厨人员行为识别方法 |
CN110992401A (zh) * | 2019-11-25 | 2020-04-10 | 上海眼控科技股份有限公司 | 目标跟踪方法、装置、计算机设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7006881B1 (en) * | 1991-12-23 | 2006-02-28 | Steven Hoffberg | Media recording device with remote graphic user interface |
US10489639B2 (en) * | 2018-02-12 | 2019-11-26 | Avodah Labs, Inc. | Automated sign language translation and communication using multiple input and output modalities |
-
2020
- 2020-04-30 CN CN202010360993.9A patent/CN111627052B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN109508684A (zh) * | 2018-11-21 | 2019-03-22 | 中山大学 | 一种视频中人体行为识别的方法 |
CN110287825A (zh) * | 2019-06-11 | 2019-09-27 | 沈阳航空航天大学 | 一种基于关键骨骼点轨迹分析的摔倒动作检测方法 |
CN110569773A (zh) * | 2019-08-30 | 2019-12-13 | 江南大学 | 基于时空显著性行为注意力的双流网络行为识别方法 |
CN110826447A (zh) * | 2019-10-29 | 2020-02-21 | 北京工商大学 | 一种基于注意力机制的餐厅后厨人员行为识别方法 |
CN110992401A (zh) * | 2019-11-25 | 2020-04-10 | 上海眼控科技股份有限公司 | 目标跟踪方法、装置、计算机设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
Dual Stream Spatio-Temporal Motion Fusion With Self-Attention For Action Recognition;Md Asif Jalal;《2019 22th International Conference on Information Fusion (FUSION)》;全文 * |
人体动作行为识别研究综述;李瑞峰;《模式识别与人工智能》;第27卷(第1期);第35页-44页 * |
基于递归神经网络的视频行为建模和识别方法研究;杜文斌;《中国博士学位论文全文数据库 信息科技辑》;I138-120 * |
Also Published As
Publication number | Publication date |
---|---|
CN111627052A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111627052B (zh) | 一种基于双流时空注意力机制的动作识别方法t-stam | |
Song et al. | Constructing stronger and faster baselines for skeleton-based action recognition | |
CN107341452B (zh) | 基于四元数时空卷积神经网络的人体行为识别方法 | |
CN112150493B (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN111639544A (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
CN112949622B (zh) | 融合文本与图像的双模态性格分类方法及装置 | |
CN112131959B (zh) | 一种基于多尺度特征强化的2d人体姿态估计方法 | |
CN112434608B (zh) | 一种基于双流结合网络的人体行为识别方法及系统 | |
CN112348036A (zh) | 基于轻量化残差学习和反卷积级联的自适应目标检测方法 | |
CN110781736A (zh) | 基于双流网络将姿态和注意力相结合的行人重识别方法 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN113392766A (zh) | 一种基于注意力机制的人脸表情识别方法 | |
CN112288772B (zh) | 基于在线多特征选择的通道注意力目标跟踪方法 | |
CN116563355A (zh) | 一种基于时空交互注意力机制的目标跟踪方法 | |
Al-Amaren et al. | RHN: A residual holistic neural network for edge detection | |
Gao et al. | Context-patch representation learning with adaptive neighbor embedding for robust face image super-resolution | |
Srivastava et al. | Aga-gan: Attribute guided attention generative adversarial network with u-net for face hallucination | |
Li et al. | SGML: A symmetric graph metric learning framework for efficient hyperspectral image classification | |
CN112668543B (zh) | 一种手模型感知的孤立词手语识别方法 | |
Tang et al. | FTCM: Frequency-temporal collaborative module for efficient 3D human pose estimation in video | |
CN112686326A (zh) | 一种智能排序候选框的目标跟踪方法及系统 | |
Zeng et al. | Combining CNN and transformers for full-reference and no-reference image quality assessment | |
CN116071427A (zh) | 一种轻量级视频人体姿态识别系统 | |
CN116797799A (zh) | 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |