CN112418164A - 一种多任务学习网络对警犬动作进行动态识别的方法 - Google Patents
一种多任务学习网络对警犬动作进行动态识别的方法 Download PDFInfo
- Publication number
- CN112418164A CN112418164A CN202011429866.6A CN202011429866A CN112418164A CN 112418164 A CN112418164 A CN 112418164A CN 202011429866 A CN202011429866 A CN 202011429866A CN 112418164 A CN112418164 A CN 112418164A
- Authority
- CN
- China
- Prior art keywords
- cnn
- sequence
- frame
- police dog
- actions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 25
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 14
- 239000012634 fragment Substances 0.000 claims abstract description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 101001132883 Homo sapiens Mitoregulin Proteins 0.000 claims 1
- 102100033799 Mitoregulin Human genes 0.000 claims 1
- 230000006399 behavior Effects 0.000 abstract description 3
- 230000002123 temporal effect Effects 0.000 description 16
- 241000282472 Canis lupus familiaris Species 0.000 description 12
- 230000007774 longterm Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多任务学习网络对警犬动作进行动态识别的方法,属于警犬训练领域,所述的多任务学习网络对警犬动作进行动态识别的方法包括以下步骤,步骤1.对生成骨架序列的片段;步骤2.模型训练;步骤3.利用深度CNN从生成的每一帧剪辑图片中提取一个紧凑的表示数据,步骤4.对提取的剪辑图片预先训练好的VGG19模型提取每一帧的CNN特征,警犬的关节时间序列可用于探索骨骼序列的空间结构和时间结构,用于动作识别。为了识别警犬的实时动作,需要利用序列的识别信息来理解警犬的动态行为。
Description
技术领域
本发明属于警犬训练领域,更具体的说涉及一种多任务学习网络对警犬动作进行动态识别的方法。
背景技术
3D骨骼数据记录着生命体骨骼关节的轨迹,其中,对警犬的动作进行动态识别,可以实时捕捉行为信息,对训练及公安部们具有重要意义。随着人工智能技术的普及,基于3D骨骼序列的动态识别,越来越受到关注。在本研究中,我们的主要内容是基于警犬的动作识别。
警犬的关节时间序列可用于具有长-短记忆(LSTM)神经元的递归神经网络(RNNs),探索骨骼序列的空间结构和时间结构,用于动作识别。为了识别警犬的实时动作,需要利用序列的识别信息来理解警犬的动态行为。然而,常规技术对关节的序列识别存在着以下问题:
虽然LSTM网络的设计是为了探索长期的时间依赖性问题,但LSTM仍然很难记住具有多个时间步长的整个序列的信息。
此外,构造深层LSTM来提取高级特征也很困难。
卷积神经网络(CNNs)在图像分类方面取得了巨大的成功,但是对于视频动作的识别,它缺乏对整个视频的长期时间依赖性建模的能力。
发明内容
本文提出利用多任务学习网络(MTLN)利用不同特征向量之间的内在联系进行动作识别。提出将每个骨架序列转换成一个新的表示,即三个剪辑,通过使用深层CNN从帧图像中学习层次特征,允许骨架序列的全局长期时序建模。引入一个MTLN来处理生成的片段中所有帧的CNN特征,从而学习骨架序列的空间结构和时间信息。MTLN通过利用生成片段的不同帧之间的内在关系来提高性能。实验结果表明,MTLN比连接或池化帧的特征要好。该方法在三个骨架数据集(包括大型NTU RGB+D数据集)上达到了最先进的性能。
为了实现上述目的,本发明是通过以下技术方案实现的:所述的多任务学习网络对警犬动作进行动态识别的方法包括以下步骤,步骤1.对生成骨架序列的片段;步骤2.模型训练;步骤3.利用深度CNN从生成的每一帧剪辑图片中提取一个紧凑的表示数据,步骤4.对提取的剪辑图片预先训练好的VGG19模型提取每一帧的CNN特征。
优选的,所述的步骤1.对生成骨架序列的片段,其中,将一个任意长度的骨架序列被转换成三个剪辑,每个剪辑由几个灰度图像组成,将生成的剪辑输入到深度CNN模型中提取CNN特征,用于MTLN的动作识别,将原始骨架序列转换为一组包含多幅图像的视频剪辑,从而实现深度神经网络的时空特征学习,直观地将骨架序列中每一帧的内容表示为图像,生成视频。
优选的,所述的步骤2.模型训练将每个特征向量的分类视为一个单独的任务,由一个特征向量联合学习多个分类器,输出多个预测,每个预测对应一个任务,同一骨架序列的所有特征向量具有与骨架序列相同的标签,在训练过程中,每个任务的损失值都是用自己的分数单独计算出来的,然后对所有任务的损耗值进行求和,定义网络的总损耗,并以此来学习网络参数。
优选的,步骤3.利用深度CNN从生成的每一帧剪辑图片中提取一个紧凑的表示数据,首先使用一个深度的CNN来提取每一帧剪辑的紧凑表示,由于每一帧都描述了骨骼序列的时间动态,因此每一帧的CNN空间不变特征可以代表骨骼序列的鲁棒时间信息。
优选的,使用步骤2中预先训练好的VGG19模型提取每一帧的CNN特征,预训练的VGG19模型包含5组卷积层conv1,conv2,…,conv5,每个集合包括一个由2或4个卷积层组成的堆栈,具有相同的卷积核大小,该网络共有16个卷积层和3个全连接层,使用ImageNet预训练的模型提取的CNN特征非常强大,因此可以将预训练的CNN模型用作特征提取器。
本发明有益效果:
本文提出利用多任务学习网络(MTLN)利用不同特征向量之间的内在联系进行动作识别。提出将每个骨架序列转换成一个新的表示,即三个剪辑,通过使用深层CNN从帧图像中学习层次特征,允许骨架序列的全局长期时序建模。引入一个MTLN来处理生成的片段中所有帧的CNN特征,从而学习骨架序列的空间结构和时间信息。MTLN通过利用生成片段的不同帧之间的内在关系来提高性能。实验结果表明,MTLN比连接或池化帧的特征要好。该方法在三个骨架数据集(包括大型NTU RGB+D数据集)上达到了最先进的性能。
附图说明
图1为用于视频分类的残留网络体系结构。
图中、(a)R2D是2D ResNet;(b)MCx是具有混合卷积的ResNet(此图中显示了MC3);(c)rMCx使用反向混合卷积(此处显示rMC3);(d)R3D是3D ResNet;(e)R(2+1)D是具有(2+1)D卷积的ResNet。
具体实施方式
为了便于本领域一般技术人员理解和实现本发明,现结合附图及具体实施例进一步描述本发明的技术方案。
所述的多任务学习网络对警犬动作进行动态识别的方法包括以下步骤,步骤1.对生成骨架序列的片段;步骤2.模型训练;步骤3.利用深度CNN从生成的每一帧剪辑图片中提取一个紧凑的表示数据,步骤4.对提取的剪辑图片预先训练好的VGG19模型提取每一帧的CNN特征。
一个任意长度的骨架序列被转换成三个剪辑,每个剪辑由几个灰度图像组成。然后将生成的剪辑输入到深度CNN模型中提取CNN特征,用于MTLN的动作识别。将原始骨架序列转换为一组包含多幅图像的视频剪辑,从而实现深度神经网络的时空特征学习。直观地将骨架序列中每一帧的内容表示为图像,生成视频。我们提出在一帧图像中表示骨骼序列的时间动态,然后使用多帧来包含关节之间的不同空间关系。所生成的片段的每一帧描述了骨架序列的所有帧和一帧的时间动态.特定的空间关系的骨骼关节在一个通道的柱坐标。生成的视频片段的不同帧描述了不同的空间关系,它们之间存在着内在的关系。
其次利用深度CNN从生成的每一帧剪辑中提取一个紧凑的表示,以利用骨骼序列的长期时间信息。为了学习生成的剪辑的特征,首先使用一个深度的CNN来提取每一帧剪辑的紧凑表示。由于每一帧都描述了骨骼序列的时间动态,因此每一帧的CNN空间不变特征可以代表骨骼序列的鲁棒时间信息。对于生成的剪辑,使用预先训练好的VGG19模型提取每一帧的CNN特征。预训练的VGG19模型包含5组卷积层conv1,conv2,…,conv5。每个集合包括一个由2或4个卷积层组成的堆栈,具有相同的卷积核大小。该网络共有16个卷积层和3个全连接层。使用ImageNet预训练的模型提取的CNN特征非常强大,因此可以将预训练的CNN模型用作特征提取器。
所述的步骤2.模型训练多任务学习旨在通过联合训练多个相关任务并利用它们之间的内在关系来提高泛化性能。该方法将每个特征向量的分类视为一个单独的任务,由一个特征向量联合学习多个分类器,输出多个预测,每个预测对应一个任务。同一骨架序列的所有特征向量具有与骨架序列相同的标签。在训练过程中,每个任务的损失值都是用自己的分数单独计算出来的。然后对所有任务的损耗值进行求和,定义网络的总损耗,并以此来学习网络参数。在测试过程中,对所有任务的分数进行平均,形成对action类的最终预测。多任务学习通过权值共享同时解决多个任务,可以提高单个任务的性能。
基于LSTM网络以及卷积神经网络建构的模型不足以满足我们的需求,在本文中,我们首先将骨架序列表示为仅有的几帧剪辑,而不是直接从骨架序列中提取长期的时间信息。对于生成的剪辑,利用深度神经网络对生成的剪辑帧图像进行处理,可以有效地学习警犬骨骼序列的长期时间结构。此外,警犬骨骼的空间结构信息可以从整个片段中挖掘出来。
更具体地说,对于每个骨架序列,我们生成三个剪辑对应于骨架序列柱坐标的三个通道。每个剪辑由四帧组成,通过计算关节与四个参考关节的相对位置来生成。片段的每一帧描述了整个骨骼序列的时间信息,并包含了关节之间的一个特定的空间关系。不同时间特征向量代表不同的空间关系,它们之间有内在的联系。
使用步骤2中预先训练好的VGG19模型提取每一帧的CNN特征,预训练的VGG19模型包含5组卷积层conv1,conv2,…,conv5,每个集合包括一个由2或4个卷积层组成的堆栈,具有相同的卷积核大小,该网络共有16个卷积层和3个全连接层,使用ImageNet预训练的模型提取的CNN特征非常强大,因此可以将预训练的CNN模型用作特征提取器。
如图1所示,3D卷积是一种能够获取时空特征的直观手段,能够有效应用于有关video的任务领域,例如action location,action recognition,action detection,videodetection,video tracking等领域。对于用3D卷积构建的网络,要避免在前几层用2D卷积和2D池化的方式构建,应该选用3D卷积搭建。网络的输入c×l×h×w(通道×帧数×高×宽),视频序列被压缩到128×171,帧数设为16,因为是从头训练,数据增强很重要。利用2D识别的经验,大多数卷积大小为3×3,因此需要确定时间维度的大小,作者做了两种实验,一个是所有卷积都是一样的,有相同的temporal depth。二个是变化temporal depth。通过对比实验,得出3×3×3卷积核效果最好。网络有8个卷积层(filter:3×3×3,stride:1×1×1),5个池化层(filter:2×2×2,stride:2×2×2,除了第一个filter:1×2×2,stride:1×2×2),2个全链接层(4096),和1个softmax分类层。3d卷积被解耦为2d空间卷积和1d时间卷积,得益于分解,可以将其放置在resnet的残差block中,设计多种P3D模块。这样做的话,2d空间卷积可以利用imagenet上预训练模型做迁移学习。作者依据空间卷积与时间卷积操作先后和如何对output的影响这两点,主要设计P3D-A,P3D-B,P3D-C三种block。P3D-A:采用级联的方式,时间卷积作用于空间卷积之后。时间卷积的输出作为最终输出。P3D-B:采用并联的方式,时间卷积和空间卷积分别对输入操作,然后加和作为最终输出。P3D-C:采用混合的方式,融合上述两种模块。该模块认为3D卷积可以利用2D卷积和1D卷积来逼近,但要保证参数相同,因此作者设计了2d卷积和1d卷积filter个数的匹配公式。相比于R3D,虽然参数没变,但由于R(2+1)D添加更多Relu激活层,模型的表达能力应该更强,同时也更容易训练优化。相比于P3D,R(2+1)D更接近P3D-A,把R(2+1)D都设计为相同的block,但P3D的第一层使用的是2d卷积。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (5)
1.一种多任务学习网络对警犬动作进行动态识别的方法,其特征在于:所述的多任务学习网络对警犬动作进行动态识别的方法包括以下步骤,步骤1.对生成骨架序列的片段;步骤2.模型训练;步骤3.利用深度CNN从生成的每一帧剪辑图片中提取一个紧凑的表示数据,步骤4.对提取的剪辑图片预先训练好的VGG19模型提取每一帧的CNN特征。
2.根据权利要求1所述的一种多任务学习网络对警犬动作进行动态识别的方法,其特征在于:所述的步骤1.对生成骨架序列的片段,其中,将一个任意长度的骨架序列被转换成三个剪辑,每个剪辑由几个灰度图像组成,将生成的剪辑输入到深度CNN模型中提取CNN特征,用于MTLN的动作识别,将原始骨架序列转换为一组包含多幅图像的视频剪辑,从而实现深度神经网络的时空特征学习,直观地将骨架序列中每一帧的内容表示为图像,生成视频。
3.根据权利要求2所述的一种多任务学习网络对警犬动作进行动态识别的方法,其特征在于:所述的步骤2.模型训练将每个特征向量的分类视为一个单独的任务,由一个特征向量联合学习多个分类器,输出多个预测,每个预测对应一个任务,同一骨架序列的所有特征向量具有与骨架序列相同的标签,在训练过程中,每个任务的损失值都是用自己的分数单独计算出来的,然后对所有任务的损耗值进行求和,定义网络的总损耗,并以此来学习网络参数。
4.根据权利要求3所述的一种多任务学习网络对警犬动作进行动态识别的方法,其特征在于:步骤3.利用深度CNN从生成的每一帧剪辑图片中提取一个紧凑的表示数据,首先使用一个深度的CNN来提取每一帧剪辑的紧凑表示,由于每一帧都描述了骨骼序列的时间动态,因此每一帧的CNN空间不变特征可以代表骨骼序列的鲁棒时间信息。
5.根据以上任意一条权利要求所述的一种多任务学习网络对警犬动作进行动态识别的方法,其特征在于:使用步骤2中预先训练好的VGG19模型提取每一帧的CNN特征,预训练的VGG19模型包含5组卷积层conv1,conv2,…,conv5,每个集合包括一个由2或4个卷积层组成的堆栈,具有相同的卷积核大小,该网络共有16个卷积层和3个全连接层,使用ImageNet预训练的模型提取的CNN特征非常强大,因此可以将预训练的CNN模型用作特征提取器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011429866.6A CN112418164A (zh) | 2020-12-07 | 2020-12-07 | 一种多任务学习网络对警犬动作进行动态识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011429866.6A CN112418164A (zh) | 2020-12-07 | 2020-12-07 | 一种多任务学习网络对警犬动作进行动态识别的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112418164A true CN112418164A (zh) | 2021-02-26 |
Family
ID=74775003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011429866.6A Pending CN112418164A (zh) | 2020-12-07 | 2020-12-07 | 一种多任务学习网络对警犬动作进行动态识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418164A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343760A (zh) * | 2021-04-29 | 2021-09-03 | 暖屋信息科技(苏州)有限公司 | 一种基于多尺度特征神经网络的人体行为识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866860A (zh) * | 2015-03-20 | 2015-08-26 | 武汉工程大学 | 一种室内人体行为识别方法 |
WO2018171109A1 (zh) * | 2017-03-23 | 2018-09-27 | 北京大学深圳研究生院 | 基于卷积神经网络的视频动作检测方法 |
CN109948475A (zh) * | 2019-03-06 | 2019-06-28 | 武汉大学 | 一种基于骨架特征和深度学习的人体动作识别方法 |
CN111931549A (zh) * | 2020-05-20 | 2020-11-13 | 浙江大学 | 一种基于多任务非自回归解码的人体骨架的动作预测方法 |
-
2020
- 2020-12-07 CN CN202011429866.6A patent/CN112418164A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866860A (zh) * | 2015-03-20 | 2015-08-26 | 武汉工程大学 | 一种室内人体行为识别方法 |
WO2018171109A1 (zh) * | 2017-03-23 | 2018-09-27 | 北京大学深圳研究生院 | 基于卷积神经网络的视频动作检测方法 |
CN109948475A (zh) * | 2019-03-06 | 2019-06-28 | 武汉大学 | 一种基于骨架特征和深度学习的人体动作识别方法 |
CN111931549A (zh) * | 2020-05-20 | 2020-11-13 | 浙江大学 | 一种基于多任务非自回归解码的人体骨架的动作预测方法 |
Non-Patent Citations (4)
Title |
---|
QIUHONG KE等: "A New Representation of Skeleton Sequences for 3D Action Recognition", A NEW REPRESENTATION OF SKELETON SEQUENCES FOR 3D ACTION RECOGNITION, pages 1 - 10 * |
胡建芳;王熊辉;郑伟诗;赖剑煌: "RGB-D行为识别研究进展及展望", 自动化学, vol. 45, no. 5, pages 830 - 840 * |
胡建芳;王熊辉;郑伟诗;赖剑煌;: "RGB-D行为识别研究进展及展望", 自动化学报, no. 05, pages 830 - 840 * |
裴晓敏;范慧杰;唐延东;: "时空特征融合深度学习网络人体行为识别方法", 红外与激光工程, no. 02 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343760A (zh) * | 2021-04-29 | 2021-09-03 | 暖屋信息科技(苏州)有限公司 | 一种基于多尺度特征神经网络的人体行为识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | DC-SPP-YOLO: Dense connection and spatial pyramid pooling based YOLO for object detection | |
Chen et al. | Softmax regression based deep sparse autoencoder network for facial emotion recognition in human-robot interaction | |
Alshazly et al. | Deep convolutional neural networks for unconstrained ear recognition | |
CN112307995B (zh) | 一种基于特征解耦学习的半监督行人重识别方法 | |
CN110796166B (zh) | 一种基于注意力机制的多任务图像处理方法 | |
Liu et al. | Ktan: knowledge transfer adversarial network | |
Wang et al. | Describe and attend to track: Learning natural language guided structural representation and visual attention for object tracking | |
Chen et al. | APANet: Adaptive prototypes alignment network for few-shot semantic segmentation | |
CN113159067A (zh) | 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置 | |
Wang et al. | Consistency regularization for deep face anti-spoofing | |
Gao et al. | Background subtraction via 3D convolutional neural networks | |
KR20210018600A (ko) | 얼굴 표정 인식 시스템 | |
Zaghbani et al. | Multi-task CNN for multi-cue affects recognition using upper-body gestures and facial expressions | |
CN112418164A (zh) | 一种多任务学习网络对警犬动作进行动态识别的方法 | |
Bayoudh et al. | An attention-based hybrid 2D/3D CNN-LSTM for human action recognition | |
Zhang et al. | Accurate and efficient event-based semantic segmentation using adaptive spiking encoder-decoder network | |
Robert | The Role of Deep Learning in Computer Vision | |
Jiang et al. | Cross-level reinforced attention network for person re-identification | |
Zheng et al. | Multi-level recurrent residual networks for action recognition | |
CN116503753A (zh) | 一种基于多模态空域变换网络的遥感图像场景分类方法 | |
Zhang et al. | Skeleton-based action recognition with attention and temporal graph convolutional network | |
CN113159007B (zh) | 一种基于自适应图卷积的步态情感识别方法 | |
Roder et al. | From actions to events: A transfer learning approach using improved deep belief networks | |
Chaturvedi et al. | Constrained manifold learning for videos | |
Mandal et al. | Deep learning model with GA-based visual feature selection and context integration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |