CN107273800B - 一种基于注意机制的卷积递归神经网络的动作识别方法 - Google Patents
一种基于注意机制的卷积递归神经网络的动作识别方法 Download PDFInfo
- Publication number
- CN107273800B CN107273800B CN201710337015.0A CN201710337015A CN107273800B CN 107273800 B CN107273800 B CN 107273800B CN 201710337015 A CN201710337015 A CN 201710337015A CN 107273800 B CN107273800 B CN 107273800B
- Authority
- CN
- China
- Prior art keywords
- neural network
- recurrent neural
- convolutional
- video
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 38
- 230000007246 mechanism Effects 0.000 title claims abstract description 31
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000009471 action Effects 0.000 claims abstract description 29
- 230000009466 transformation Effects 0.000 claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 230000015654 memory Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 230000000007 visual effect Effects 0.000 abstract description 2
- 239000000284 extract Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 125000001495 ethyl group Chemical group [H]C([H])([H])C([H])([H])* 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉动作识别领域,提出了一种基于注意机制的的卷积递归神经网络的动作识别方法,用以解决在动作识别中无法有效的提取显著性区域的问题,提高了分类的准确性。本方法首先利用卷积神经网络自动地对动作视频进行特征提取;然后利用空间转换网络在特征图的基础上实现了注意机制,利用注意机制操作提取特征图中的显著区域,生成目标特征图;最后将目标特征图输入卷积递归神经网络中,产生最后的动作识别结果。实验证明所提方法在UCF‑11和HMDB‑51等基准动作视频测试集上取得了很好的效果,提高了动作识别的准确性。
Description
技术领域
本发明属于计算机视觉动作识别领域,涉及一种基于注意机制的卷积递归神经网络的动作识别方法。
背景技术
随着互联网的发展,视频已经成为了今天大数据中不可缺少的一部分,这促进了在视频分类方面的研究,产生了大量新颖的技术。视频与图像相比较来说拥有更为丰富且前后相关联的大量信息,这就需要能够建立好的模型去捕获其中包含的特征。当前,视频内容的理解已经成为视频处理中需要解决的问题。而深度学习的方法颠覆了传统算法在语音识别、图像分类、文本理解等众多领域的设计思路,渐渐形成了一种从训练数据出发,经过一个端到端(end-to-end)的模型,最后输出结果的新模式。这不仅让视频分类变得更加简单,而且可以大大提高了分类的准确率。这是由于深度学习能够产生更好的特征表示,而这些特征表示是通过各层之间的相互合作来实现的。在视频分类中,深度学习模型可以分为两类:基于卷积神经网络的模型和基于递归神经网络的模型。
基于卷积神经网络的模型是鉴于卷积神经网络(CNN)在图像中的成功提出来的。当前有很多的工作将CNN模型应用于视频领域中,学习视频中隐藏的时空模式。(Ji S,YangM,Yu K.3D convolutional neural networks for human action recognition[J].IEEETransactions on Pattern Analysis&Machine Intelligence,2013,35(1):221-231.)将传统的CNN的2D结构拓展到3D结构上,利用3DCNN学习视频中的时空特征,捕获多个相邻帧中编码的运动信息。(Karpathy A,Toderici G,Shetty S,et al.Large-Scale VideoClassification with Convolutional Neural Networks[C]//IEEE Conference onComputer Vision and Pattern Recognition.IEEE Computer Society,2014:1725-1732)研究了几种能够拓展CNN模型时间连通性的方法,如单帧融合、早期融合、晚期融合,同时提出了CNN的混合分辨率的架构,由低分辨率的上下文和高分辨率的流组成。这种架构可以加快训练的速度。(Annane D,Chevrolet J C,Chevret S,et al.Two-Stream ConvolutionalNetworks for ActionRecognition in Videos[J].Advances in Neural InformationProcessing Systems,2014,1(4):568-576)提出了一个双流方法,以原始的RGB帧和光流图像分别作为两个CNN的输入,利用这两个CNN模型分别提取视频中的空间特征和时间特征。
基于递归神经网络的模型能够更好的探索中视频帧序列中的时间信息。(DonahueJ,Hendricks L A,Rohrbach M,et al.Long-term Recurrent Convolutional Networksfor Visual Recognition and Description.[M]//AB initto calculation of thestructures and properties of molecules/.Elsevier,2014:85-91)提出了两个两层LSTM网络框架,用于动作识别。他们利用了来自双流方法的特征作为输入,原始的RGB图像和光流图像。(Wu Z,Wang X,Jiang Y G,et al.Modeling Spatial-Temporal Clues in aHybrid Deep Learning Framework for Video Classification[J].2015:461-470)将LSTM模型与CNN模型进行了结合,提出了一个混合深度学习框架来进行视频分类,这个模型能够对视频中的静态空间信息,短期运动以及长期的时间线索进行建模。(Ng Y H,Hausknecht M,Vijayanarasimhan S,et al.Beyond short snippets:Deep networks forvideo classification[J].2015,16(4):4694-4702)提出和评估几种深层神经网络架构,与之前的方法比较,这些网络架构能够整合视频中更长时间段的图像信息。这些网络架构可以分为两类,第一类是在卷积神经网络中分别采用几种不同时间特征池化方法,如ConvPooling,Late Pooling:,Slow Pooling等;第二类方法是通过利用递归卷积神经网络对视频的时间特征进行建模,在这类方法上训练了5层的LSTM模型。
传统的深度学习方法往往没有区别地对待视频帧中的显著性区域跟非显著性区域,而是同等的考虑视频帧的所有空间位置,然而视频帧中非显著区域可能会影响到最终的分类结果,降低分类的准确率。注意机制的提出可以很好的解决这个问题,它能够有效提取视频中显著性的区域,同时减少非显著性区域对分类的影响。
注意机制模型是最近被提出用于动作识别中的,视频在动作识别上还有很大的研究空间。(Sharma S,Kiros R,Salakhutdinov R.Action Recognition using VisualAttention[J].Computer Science,2016)提出了第一个注意机制的LSTM的动作识别模型。这是一种基于软注意力的模型,用于视频中的动作识别任务。他们使用具有长短期记忆(LSTM)单元的多层递归神经网络进行建模。(Jaderberg M,Simonyan K,Zisserman A,etal.Spatial Transformer Networks[J].Computer Science,2015)在图像分类中提出了空间转换网络实现图像转换,他们将这个模型加入到卷积神经网络中,消除池化操作局部感受和固定大小带来的影响。这个模型是可微的,同时可以根据输入特征图的不同进行不同的空间转换。(S K,C K,L,et al.Recurrent SpatialTransformer Networks[J].Computer Science,2015)将传统的空间转换网络模型改变为递归空间转换网络,这个模型主要是考虑到图像中有多个目标,他们将图像重复多次形成序列,利用递归空间转换网络对图像序列进行分类,每一步产生一个类别,最后产生图像的多个类别。(Kuen J,Wang Z,Wang G.Recurrent Attentional Networks for SaliencyDetection[J].2016:3668-3677)利用空间转换网络实现了递归注意机制的卷积-反卷积网络(RACDNN),他们将这一模型应用于图像的显著性检测上,消除了传统的卷积-反卷积网络不能很好的处理多规模目标的问题。传统的注意机制就是在特征图上进行加权操作,可以分为软注意机制和硬注意机制;软注意机制模型需要考虑到视频特征图中的所有部分,特征图中的每个位置都有一个权重,显著性区域的权重较大,而那些非显著区域的权重比较小,这种机制无法有效的消除非显著性区域的影响;硬注意机制比软注意机制更加严格,然而如果视频帧中显著性区域比较大,这种机制只提取了显著性区域的局部信息,就会造成了有用信息的丢失。空间转换网络实现的注意机制是属于这两者之间,它是一种采样操作,能够完整的提取到显著区域的信息,并有效的降低非显著性区域的影响。本发明基于空间转换网络提出一种基于注意机制的卷积递归神经网络模型用于动作识别,这种模型主要是在动作识别的过程中利用空间转换网络实现注意机制,提取出视频中对于分类显著的那部分区域,同时降低非显著部分的影响,解决了在动作识别中无法有效的提取显著性区域的问题。
发明内容
针对动作识别过程中无法有效的提取显著性区域的问题,本发明提出了一种基于注意机制的卷积递归神经网络的动作识别方法,它充分考虑了在动作识别的过程中显著性区域对于分类的重要性和非显著性区域对于分类的不利影响。首先利用GoogleNet神经网络自动地对视频帧图像进行特征提取,自动地提取该网络最后一个卷积层的特征图。然后利用空间转换网络(SpatialTransformerNetworks)对提取到的特征图进行转换,提取其中显著部分。最后利用卷积递归神经网络对转换后的特征图进行类别预测,得到最终动作的类别。
本发明的具体技术方案为:一种基于注意机制的卷积递归神经网络的动作识别方法,包括如下步骤:
步骤1:对原始视频帧图像进行均值规整化处理,同时裁剪为统一的大小;利用卷积神经网络自动地对视频帧图像进行特征提取,提取最后一个卷积层的特征图U作为后续操作的输入;
步骤2:利用空间转换网络对视频的特征图进行转换处理;
1)对步骤1产生的输入特征图U进行池化操作,得到1维的特征向量;将多帧特征向量输入到递归神经网络中,产生后续所需要的转换参数θ;
2)对步骤1产生的输入特征图U的空间坐标位置进行归一化,同时限定输出特征图的空间坐标位置也在[-1,1]之间,利用1)中产生的转换参数θ构建可微分的空间变换Tθ,利用空间变换Tθ和输出特征图V的坐标产生在输入特征图U中的采样点的坐标,如下式所示:
3)利用采样内核在2)中提取到的采样点坐标上进行采样操作,得到输出特征图V中每一个坐标位置的值,产生输出特征图V;采样操作如下:
对输入特征图的每个通道进行相同的采样,继而每个通道以相同的方式进行转换,保持了通道之间的空间一致性;
步骤3:将步骤2中产生的输出特征图V输入到卷积递归神经网络中,卷积递归神经网络是一种循环的结构,每一次循环产生一个对于当前帧的类别预测,最后得到所有帧的预测结果;卷积递归神经网络的操作如下:
其中“*”表示卷积运算符和“ο”表示Hadamard积,Wx~和Wh~表示的是卷积核,输入门i(t),忘记门f(t),输出门o(t),记忆单元c(t)和c(t-1),隐藏状态h(t)和h(t-1)都是3D张量;
步骤4:统计步骤3中所有时刻得到的关于帧类别的预测,利用这些预测进行动作的分类;对视频的所有帧的类别进行投票,然后把投票得分最多的类别作为该视频最后的分类结果。
本发明的有益效果为,提供了一种基于注意机制的卷积递归神经网络的动作识别方法,该方法能够有效的将视频帧中有利于分类的那部分区域提取出来,解决了动作识别中无法有效提取显著性区域的问题,提高动作识别的准确率,
附图说明
附图1是基于注意机制的卷积递归神经网络的动作识别方法示意图;
附图2是利用GoogleNet神经网络进行特征提取示意图;
附图3是空间转换网络模型示意图;
附图4是递归定位网络模型示意图;
附图5是利用卷积递归神经网络进行特征图序列建模示意图;
附图6是基于注意机制的卷积递归神经网络的动作识别算法流程图。
具体实施方式
本发明实施例提供一种基于注意机制的动作识别方法。所论述的具体实施例仅用于说明本发明的实现方式,而不限制本发明的范围。下面结合附图对本发明的实施方式进行详细说明,具体包括以下步骤:
1数据的预处理。原始的视频帧的RGB图像的大小是不统一的,不适合后续的处理,本发明对原始的图像进行裁剪,使其大小能够相统一。同时为了加快后续处理的速度,本发明对图像进行进行了规整化处理。
2特征的提取。鉴于GoogleNet神经网络在图像特征表示方面取得的成功,本发明将视频看作是多个帧组成的图像集合,然后利用卷积神经网络进行帧特征的提取。本发明选取GoogleNet作为提取特征的模型,首先在ImageNet数据集上对GoogleNet进行预训练,然后将训练好的模型用于视频帧特征的提取。本发明提取来自GoogleNet模型最后一个卷积层的特征。图2给出了一个利用GoogleNet提取视频特征图的例子。
3利用注意机制处理特征向量。本发明利用空间转换网络(SpatialTransformerNetwork)来实现注意机制。空间转换网络是一个可微的模块,在前向传播的过程中对视频特征图进行空间变换操作,根据不同的输入进行不同的变换操作。空间转换网络空间转换(SpatialTransformer)可以分为定位网络,网格生成器和采样器三部分,图3给出了空间转换网络的模型结构图。
(1)定位网络
本发明利用递归神经网络实现定位网络,如图4所示。基于第2步所生成的特征图U∈RH×W×C,H,W和C分别表示特征图的高度,宽度和通道,这是从GoogleNet最后一个卷积层提取到的。本发明利用定位网络对特征图进行处理得到转换参数,θ=floc(U),θ为转换参数。首先对输入的特征图进行平均池化操作(Mean Pooling),使其变为1维的特征向量;然后将多帧的特征向量输入长短期记忆模型(LSTM)中,最后通过一个带有线性激活函数的全连接层(FC)生成每一帧对应的转换参数θ。
(2)网格生成器
本发明利用2D仿射变换Aθ来实现网格生成器,如公式所示:
其中是输出特征图中规则网格的目标坐标,是输入特征图中采样点的坐标,Aθ是仿射变换矩阵。本发明首先对高度和宽度进行归一化处理,这样使得然后基于定位网络生成的转换参数θ,加上目标坐标值生成采样器所需要的采样坐标。
(3)采样器进行采样
本发明采用双线性内核对网格生成器产生的采样点进行采样,双线性内核如下:
H,W和C分别表示输入特征图的高度,宽度和通道。是输入特征图在通道c中坐标位置(n,m)的值,Vi c是输出特征图在通道c中坐标位置处的像素值。本发明对输入特征图的每个通道进行相同的采样,因此每个通道以相同的方式进行转换,保持了通道之间的空间一致性。这个采样内核是可微的,可以简单的通过反向传播进行优化。
(4)对视频特征序列进行建模。如图5所示,本发明采用卷积递归神经网络(ConvLSTM)对序列进行建模,这种网络模型利用卷积操作替换原有的全连接操作,在输入到状态和状态到状态之间的转换中都采用卷积结构,通过堆叠多个ConvLSTM层并形成序列分类结构。ConvLSTM的关键方程如下式所示,其中“*”表示卷积运算符和“ο”表示Hadamard积:
Wx~和Wh~表示的是卷积核,输入门i(t),忘记门f(t),输出门o(t),记忆单元c(t)和c(t -1),隐藏状态h(t)和h(t-1)都是3D张量。
卷积操作会导致状态的大小跟输入不一致,本发明在应用卷积运算之前对ConvLSTM的状态进行填充,使得ConvLSTM的状态与输入有相同的大小。本发明利用卷积递归神经网络产生视频中每一帧的类别。
(5)动作分类。本发明在第(4)步可以得到关于视频帧的类别预测,本发明利用这些预测进行动作的分类。对于一个动作视频,本发明统计这个视频的所有帧中最多的那个类别,然后把这个类别作为该视频最后的分类结果。图6为本发明实施例提供的基于注意机制的卷积递归神经网络的动作识别算法流程图。
Claims (3)
1.一种基于注意机制的卷积递归神经网络的动作识别方法,其特征在于,包括如下步骤:
步骤1:利用卷积神经网络自动地对视频帧图像进行特征提取,提取最后一个卷积层的特征图U作为后续操作的输入;
步骤2:利用空间转换网络对视频的特征图进行转换处理;
1)对步骤1产生的输入特征图U进行池化操作,得到1维的特征向量;将多帧特征向量输入到递归神经网络中,产生后续所需要的转换参数θ;
2)对步骤1产生的输入特征图U的空间坐标位置进行归一化,同时限定输出特征图的空间坐标位置也在[-1,1]之间,利用1)中产生的转换参数θ构建可微分的空间变换Tθ,利用空间变换Tθ和输出特征图V的坐标产生在输入特征图U中的采样点的坐标,如下式所示:
3)利用采样内核在2)中提取到的采样点坐标上进行采样操作,得到输出特征图V中每一个坐标位置的值,产生输出特征图V;采样操作如下:
对输入特征图的每个通道进行相同的采样,继而每个通道以相同的方式进行转换,保持了通道之间的空间一致性;
步骤3:将步骤2中产生的输出特征图V输入到卷积递归神经网络中,卷积递归神经网络是一种循环的结构,每一次循环产生一个对于当前帧的类别预测,最后得到所有帧的预测结果;卷积递归神经网络的操作如下:
其中“*”表示卷积运算符和表示Hadamard积,Wx~和Wh~表示的是卷积核,输入门i(t),忘记门f(t),输出门o(t),记忆单元c(t)和c(t-1),隐藏状态h(t)和h(t-1)都是3D张量;
步骤4:统计步骤3中所有时刻得到的关于帧类别的预测,利用这些预测进行动作的分类;对视频的所有帧的类别进行投票,然后把投票得分最多的类别作为该视频最后的分类结果。
2.根据权利要求1所述的一种基于注意机制的卷积递归神经网络的动作识别方法,其特征在于,步骤1所述的卷积神经网络包括GoogleNet神经网络、VGGNet神经网络、ResNet神经网络。
3.根据权利要求1或2所述的一种基于注意机制的卷积递归神经网络的动作识别方法,其特征在于,步骤2中3)所述的采样内核包括整数采样内核、双线性采样内核。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710337015.0A CN107273800B (zh) | 2017-05-17 | 2017-05-17 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710337015.0A CN107273800B (zh) | 2017-05-17 | 2017-05-17 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107273800A CN107273800A (zh) | 2017-10-20 |
CN107273800B true CN107273800B (zh) | 2020-08-14 |
Family
ID=60073751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710337015.0A Expired - Fee Related CN107273800B (zh) | 2017-05-17 | 2017-05-17 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107273800B (zh) |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679522B (zh) * | 2017-10-31 | 2020-10-13 | 内江师范学院 | 基于多流lstm的动作识别方法 |
CN107944409B (zh) * | 2017-11-30 | 2020-05-08 | 清华大学 | 能够区分关键动作的视频分析方法及装置 |
CN108009493B (zh) * | 2017-11-30 | 2021-07-06 | 电子科技大学 | 基于动作增强的人脸防欺骗识别方法 |
CN108009518A (zh) * | 2017-12-19 | 2018-05-08 | 大连理工大学 | 一种基于快速二分卷积神经网络的层次化交通标识识别方法 |
CN108171134A (zh) * | 2017-12-20 | 2018-06-15 | 中车工业研究院有限公司 | 一种操作动作辨识方法及装置 |
CN108182260B (zh) * | 2018-01-03 | 2021-06-08 | 华南理工大学 | 一种基于语义选择的多变量时间序列分类方法 |
CN108182470A (zh) * | 2018-01-17 | 2018-06-19 | 深圳市唯特视科技有限公司 | 一种基于注意模块的递归神经网络的用户识别方法 |
CN108460481B (zh) * | 2018-01-30 | 2021-11-19 | 中国航天电子技术研究院 | 基于循环神经网络的无人机侦察目标演变规律预测方法 |
CN108460343B (zh) * | 2018-02-06 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 图像处理方法、系统及服务器 |
CN108364023A (zh) * | 2018-02-11 | 2018-08-03 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN108388879B (zh) * | 2018-03-15 | 2022-04-15 | 斑马网络技术有限公司 | 目标的检测方法、装置和存储介质 |
EP3547211B1 (en) * | 2018-03-30 | 2021-11-17 | Naver Corporation | Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn |
CN108875611B (zh) * | 2018-06-05 | 2021-05-25 | 北京字节跳动网络技术有限公司 | 视频动作识别方法和装置 |
CN110659641B (zh) * | 2018-06-28 | 2023-05-26 | 杭州海康威视数字技术股份有限公司 | 一种文字识别的方法、装置及电子设备 |
CN108985443B (zh) * | 2018-07-04 | 2022-03-29 | 北京旷视科技有限公司 | 动作识别方法及其神经网络生成方法、装置和电子设备 |
CN108960143B (zh) * | 2018-07-04 | 2021-02-23 | 北京航空航天大学 | 一种高分辨率可见光遥感图像中的舰船检测深度学习方法 |
CN108985223B (zh) * | 2018-07-12 | 2024-05-07 | 天津艾思科尔科技有限公司 | 一种人体动作识别方法 |
CN109086869B (zh) * | 2018-07-16 | 2021-08-10 | 北京理工大学 | 一种基于注意力机制的人体动作预测方法 |
CN109034376B (zh) * | 2018-07-18 | 2020-07-28 | 东北大学 | 一种基于lstm的无人机飞行状态预测方法及系统 |
CN109101896B (zh) * | 2018-07-19 | 2022-03-25 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN108960189B (zh) * | 2018-07-20 | 2020-11-24 | 南京旷云科技有限公司 | 图像再识别方法、装置及电子设备 |
CN110163052B (zh) * | 2018-08-01 | 2022-09-09 | 腾讯科技(深圳)有限公司 | 视频动作识别方法、装置和机器设备 |
CN109325435B (zh) * | 2018-09-15 | 2022-04-19 | 天津大学 | 基于级联神经网络的视频动作识别及定位方法 |
CN109389055B (zh) * | 2018-09-21 | 2021-07-20 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN109614896A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于递归卷积神经网络的视频内容语义理解的方法 |
CN111126107A (zh) * | 2018-10-31 | 2020-05-08 | 杭州海康威视数字技术股份有限公司 | 一种信息确定方法、装置及电子设备 |
CN109446328A (zh) * | 2018-11-02 | 2019-03-08 | 成都四方伟业软件股份有限公司 | 一种文本识别方法、装置及其存储介质 |
EP3654248A1 (en) * | 2018-11-19 | 2020-05-20 | Siemens Aktiengesellschaft | Verification of classification decisions in convolutional neural networks |
EP3884426B1 (en) * | 2018-11-20 | 2024-01-03 | DeepMind Technologies Limited | Action classification in video clips using attention-based neural networks |
CN110188239B (zh) * | 2018-12-26 | 2021-06-22 | 北京大学 | 一种基于跨模态注意力机制的双流视频分类方法和装置 |
CN109829893B (zh) * | 2019-01-03 | 2021-05-25 | 武汉精测电子集团股份有限公司 | 一种基于注意力机制的缺陷目标检测方法 |
CN109993269B (zh) * | 2019-03-13 | 2022-03-29 | 华南理工大学 | 基于注意力机制的单张图像人群计数方法 |
CN110148296A (zh) * | 2019-04-16 | 2019-08-20 | 南京航空航天大学 | 一种基于深度迁移学习的跨城市交通流量联合预测方法 |
CN110263916B (zh) * | 2019-05-31 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、存储介质及电子装置 |
CN110210429B (zh) * | 2019-06-06 | 2022-11-29 | 山东大学 | 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法 |
CN110246171B (zh) * | 2019-06-10 | 2022-07-19 | 西北工业大学 | 一种实时单目视频深度估计方法 |
CN110288597B (zh) * | 2019-07-01 | 2021-04-02 | 哈尔滨工业大学 | 基于注意力机制的无线胶囊内窥镜视频显著性检测方法 |
CN110334654A (zh) * | 2019-07-08 | 2019-10-15 | 北京地平线机器人技术研发有限公司 | 视频预测方法和装置、视频预测模型的训练方法及车辆 |
CN110334718A (zh) * | 2019-07-09 | 2019-10-15 | 方玉明 | 一种基于长短期记忆的二维视频显著性检测方法 |
CN112241673B (zh) * | 2019-07-19 | 2022-11-22 | 浙江商汤科技开发有限公司 | 视频处理方法及装置、电子设备和存储介质 |
CN110472726B (zh) * | 2019-07-25 | 2022-08-02 | 南京信息工程大学 | 基于输出变化微分的灵敏长短期记忆方法 |
CN110751021A (zh) * | 2019-09-03 | 2020-02-04 | 北京迈格威科技有限公司 | 图像处理方法、装置、电子设备和计算机可读介质 |
CN110796143A (zh) * | 2019-10-31 | 2020-02-14 | 天津大学 | 一种基于人机协同的场景文本识别方法 |
CN111083477B (zh) * | 2019-12-11 | 2020-11-10 | 北京航空航天大学 | 基于视觉显著性的hevc优化算法 |
CN111028859A (zh) * | 2019-12-15 | 2020-04-17 | 中北大学 | 一种基于音频特征融合的杂交神经网络车型识别方法 |
CN111414876B (zh) * | 2020-03-26 | 2022-04-22 | 西安交通大学 | 一种基于时序引导空间注意力的暴力行为识别方法 |
CN114268846A (zh) * | 2020-09-16 | 2022-04-01 | 镇江多游网络科技有限公司 | 一种基于注意机制的视频描述生成模型 |
CN112329738B (zh) * | 2020-12-01 | 2024-08-16 | 厦门大学 | 基于显著片段采样的长视频动作识别方法 |
CN112783327B (zh) * | 2021-01-29 | 2022-08-30 | 中国科学院计算技术研究所 | 基于表面肌电信号进行手势识别的方法及系统 |
CN113408385B (zh) * | 2021-06-10 | 2022-06-14 | 华南理工大学 | 一种音视频多模态情感分类方法及系统 |
CN114529761B (zh) * | 2022-01-29 | 2024-10-15 | 腾讯科技(深圳)有限公司 | 基于分类模型的视频分类方法、装置、设备、介质及产品 |
CN114819149B (zh) * | 2022-06-28 | 2022-09-13 | 深圳比特微电子科技有限公司 | 基于变换神经网络的数据处理方法、装置和介质 |
CN118097795B (zh) * | 2024-04-28 | 2024-07-19 | 常熟理工学院 | 基于深度学习的人体异常行为识别方法、系统及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100306848B1 (ko) * | 1999-06-19 | 2001-09-24 | 윤덕용 | 신경회로망을 이용한 선택적 주의집중 방법 |
CN104463191A (zh) * | 2014-10-30 | 2015-03-25 | 华南理工大学 | 一种基于注意机制的机器人视觉处理方法 |
CN106354710A (zh) * | 2016-08-18 | 2017-01-25 | 清华大学 | 一种神经网络关系抽取方法 |
-
2017
- 2017-05-17 CN CN201710337015.0A patent/CN107273800B/zh not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
"Spatial Transformer Networks";Max Jaderberg et al.;《Computer Science》;20160204;第1-15页 * |
"基于训练图CNN特征的视频人体动作识别算法";曹晋其 等;《计算机工程》;20170222;第234-238页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107273800A (zh) | 2017-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273800B (zh) | 一种基于注意机制的卷积递归神经网络的动作识别方法 | |
Zhou et al. | Contextual ensemble network for semantic segmentation | |
Sun et al. | Lattice long short-term memory for human action recognition | |
CN112307995B (zh) | 一种基于特征解耦学习的半监督行人重识别方法 | |
Yan et al. | Combining the best of convolutional layers and recurrent layers: A hybrid network for semantic segmentation | |
CN110826389B (zh) | 基于注意力3d频率卷积神经网络的步态识别方法 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
Chavan et al. | Convolutional neural network hand gesture recognition for American sign language | |
Xu et al. | Multi-scale skeleton adaptive weighted GCN for skeleton-based human action recognition in IoT | |
Wang et al. | Learning spatiotemporal and motion features in a unified 2d network for action recognition | |
Zhang et al. | A small target detection method based on deep learning with considerate feature and effectively expanded sample size | |
Jin et al. | Cvt-assd: convolutional vision-transformer based attentive single shot multibox detector | |
Das et al. | AttentionBuildNet for building extraction from aerial imagery | |
Zhang et al. | A parallel and serial denoising network | |
Lv et al. | Review of vision transformer models for remote sensing image scene classification | |
Robert | The Role of Deep Learning in Computer Vision | |
Huang et al. | ICMiF: Interactive cascade microformers for cross-domain person re-identification | |
CN112132253B (zh) | 3d动作识别方法、装置、计算机可读存储介质及设备 | |
An et al. | Squeeze-and-excitation on spatial and temporal deep feature space for action recognition | |
Liu et al. | Dsma: Reference-based image super-resolution method based on dual-view supervised learning and multi-attention mechanism | |
Zhao et al. | Research on human behavior recognition in video based on 3DCCA | |
CN111325149A (zh) | 一种基于投票的时序关联模型的视频动作识别方法 | |
Qiu | Convolutional neural network based age estimation from facial image and depth prediction from single image | |
Lai et al. | Underwater target tracking via 3D convolutional networks | |
Wang et al. | [Retracted] Rethinking Separable Convolutional Encoders for End‐to‐End Semantic Image Segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200814 |