CN108280436A - 一种基于堆叠递归单元的多级残差网络的动作识别方法 - Google Patents
一种基于堆叠递归单元的多级残差网络的动作识别方法 Download PDFInfo
- Publication number
- CN108280436A CN108280436A CN201810081796.6A CN201810081796A CN108280436A CN 108280436 A CN108280436 A CN 108280436A CN 201810081796 A CN201810081796 A CN 201810081796A CN 108280436 A CN108280436 A CN 108280436A
- Authority
- CN
- China
- Prior art keywords
- sru
- action
- network
- resnet
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明中提出的一种基于堆叠递归单元的多级残差网络的动作识别方法,其主要内容包括:残差网络、堆叠递归单元、数据集,其过程为,利用残差网络表示所需的残差映射,针对每个构建块的堆叠层描述另一映射,选择最后三组残差块的输出激活作为低中高级三个表示,将这些外观表示推入堆叠递归单元中以获得时间和深度上的视频表示,接着平均激活张量,使用不同方法来融合每个时间步骤的所有预测,采用平均池和最大池进行最终的动作预测,最后把网络中的不同层次的信息结合起来,并计算出最终的预测结果。本发明提出的基于堆叠递归单元的多级残差网络,减少了快速移动、光照变化、遮挡和视点变化对动作识别的影响,提高了识别的准确性和整体效率。
Description
技术领域
本发明涉及动作识别领域,尤其是涉及了一种基于堆叠递归单元的多级残差网络的动作识别方法。
背景技术
人体动作识别作为当前计算机视觉领域的研究热点,涉及了图像处理、模式识别、人工智能等多个学科。基于视频和图像的人体动作识别技术包括人体区域检测、动作和姿态分割、基于动作识别的目标分析和行为理解等。对人体动作进行自动识别和分析将会带来一种全新的交互方式,在高级人机交互、视频监控分析、体育运动分析、基于内容的检索等方面都具有广阔的应用前景。具体地,在高级人机交互领域,计算机通过视频采集设备收集人体动作视频信息,通过动作识别技术来分析和理解人体动作所表达的内容,从而达到人与机器顺利交互的目的。在视频监控分析中,通过对公共场合的人群进行动作识别,可以在一定程度上保障公共安全。在体育运动分析中,通过对体育运动进行客观和量化的分析、统计运动数据,可以作为一种科学直观的辅助识别手段,用于创建个性化的体育训练和分析系统,如指导运动员进行科学有效的训练,也可以辅助赛事直播评论员进行评论和讲解。在基于内容的检索中,通过对视频和图像中的人体运动和动作信息进行识别,可以对不同类型的视频和图像进行标识,帮助人们在海量的视频和图像信息数据中快速找到所需内容,从而实现高效地管理和查询视频或图像数据库。然而,现有的动作识别技术主要受快速移动、光照变化、遮挡和视点变化的影响,特别是如何充分利用时域信息一直是亟待解决的问题。
本发明提出了一种基于堆叠递归单元的多级残差网络的动作识别方法,利用残差网络表示所需的残差映射,针对每个构建块的堆叠层描述另一映射,选择最后三组残差块的输出激活作为低中高级三个表示,将这些外观表示推入堆叠递归单元中以获得时间和深度上的视频表示,接着平均激活张量,使用不同方法来融合每个时间步骤的所有预测,采用平均池和最大池进行最终的动作预测,最后把网络中的不同层次的信息结合起来,并计算出最终的预测结果。本发明提出的基于堆叠递归单元的多级残差网络,减少了快速移动、光照变化、遮挡和视点变化对动作识别的影响,提高了识别的准确性和整体效率。
发明内容
针对受快速移动、光照变化、遮挡和视点变化影响的问题,本发明的目的在于提供一种基于堆叠递归单元的多级残差网络的动作识别方法,利用残差网络表示所需的残差映射,针对每个构建块的堆叠层描述另一映射,选择最后三组残差块的输出激活作为低中高级三个表示,将这些外观表示推入堆叠递归单元中以获得时间和深度上的视频表示,接着平均激活张量,使用不同方法来融合每个时间步骤的所有预测,采用平均池和最大池进行最终的动作预测,最后把网络中的不同层次的信息结合起来,并计算出最终的预测结果。
为解决上述问题,本发明提供一种基于堆叠递归单元的多级残差网络的动作识别方法,其主要内容包括:
(一)残差网络;
(二)堆叠递归单元;
(三)数据集。
其中,所述的残差网络,残差网络(ResNet)将所需的残差映射表示为Φ(x),并且针对每个被称为构建块的堆叠层描述F(x)=Φ(x)-x的另一映射;每个块根据深度的要求包含两层或三层,其中两层为3×3和3×3卷积核,三层分别为1×1,3×3和1×1的卷积核;修正线性单元(ReLU)激活层之间用于引入非线性;采用1×1卷积核的目的是在保持相似时间复杂度的同时降低计算复杂度;通过参照层的输入,学习残差函数可以解决随深度增加而引起的退化问题,且易于优化;一般情况下,ResNet由多个残留块组成,每个块从下到上执行短连接,其信息从浅层流向深层;使用ResNet-34来构建不同级别的表示。
进一步地,所述的ResNet-34,选择最后三组残差块的输出激活作为Al,Am,Ah的低、中、高级表示,并分别命名ResNet-34的不同层的低、中、高级;然后将这些外观表示推入堆叠递归单元(SRU)中以获得时间和深度上的视频表示;
考虑ResNet-34层,输出激活张量A∈RC×H×W可以表示为:
Alevel=[Al1,Al2,…,AlN],Al,i∈RC (1)
其中,level∈[低,中,高],N=H×W;特别地,Al∈R128×28×28,Am∈R256×14×14,Al∈R512 ×7×7;平均这些激活张量A∈RC×H×W,并产生描述符xfeature∈RC,馈入SRU。
其中,所述的堆叠递归单元,递归过程中门状态的计算依赖于前一个时间隐藏状态ht-1,这大大缓解了计算速度;门状态的计算如下所示:
Statei,t=σ(Wxixt+Whiht-1+bi) (2)
其中,在时刻t,Statei,t表示输入门状态、隐藏门状态和忘记门状态;显然,最后一步的隐藏ht-1被用于确定门状态;基于此,使用SRU来处理帧的时间信息;SRU架构如下所示:
ft=σ(Wfxt+bf) (4)
rt=σ(Wrxt+br) (5)
ht=rt⊙g(ct)+(1-rt)⊙xt (7)
其中,ft和rt是S型函数门,称为遗忘门和复位门;g(·)是双曲正切函数;SRU通过在递归过程中舍弃ht-1,简化状态计算;内部状态ct的更新仍然取决于之前的状态ct-1;输入向量xt被传递到SRU模块,ft,Rt可以同时计算出来;公式(6)和公式(7)的操作是元素级别的;之后进行平均激活张量。
进一步地,所述的平均激活张量,如公式(1),平均激活张量如下式所示:
作为framet的定长矢量表示,并在时间步t将其放入SRU中;使用不同方法来融合每个时间步骤的所有预测,采用平均池和最大池来进行最终的动作预测。
进一步地,所述的动作预测,模型由两部分组成,将属于视频的N个连续视频帧编码为向量序列Xt=(xt1,…,xtN),其中xti∈RC,C∈[128,256,512],在SRU中,每个动作类别的概率分布由下式计算:
其中,Wjt表示在时间t到动作j的映射SRU输出向量的权重参数;公式(9)和公式(10)分别表示均值预测和最大流量预测;最后,用下式把网络中的不同层次的信息结合起来,并计算出最终的预测结果。
进一步地,所述的预测结果,得出的预测结果如下式所示:
Pfinal=a×PH+b×PM+c×PL (11)
其中,P(·)参考不同层次模型的预测,Pfinal是组合模型产生的最终预测;其中,a=0.7,b=0.2,c=0.1。
其中,所述的数据集,对UCF-101数据集和HMDB-51数据集进行大量的评估;UCF-101数据集有从YouTuBe收集的13320个视频,共101个动作类别;每种动作都是由25人进行的,每个人都做过一次以上;动作类别可以分为五类:人物交互、肢体动作、人与人交互、演奏乐器和体育;
HMDB数据集从各种来源收集,大部分来自电影;该数据集包含3570个训练剪辑和1530个测试剪辑,属于51个不同的类别;使用HMDB-51数据集来确定SRU和两个数据集的更好的超参数设置,接着进行训练。
进一步地,所述的训练,SRU的输入单元数量与ResNet产生的激活张量的形状一致;对于低、中、高级帧表示,SRU的输入大小分别为128、256和512个单元;将HMDB-51数据集的隐藏状态数量设置为256、512、1024个单元;相似的,堆叠SRU的层数设置为3、4、5层;反复计算中的线性变换是S形激活函数,但是在每个时间步长的预测中,在叠加的SRU上添加双曲正切激活层;最大池和平均池在每个时间步输出执行;在ImageNet数据集上预训练的原始ResNet-34被用作特征表示提取器,并且没有调整ResNet-34中的任何细节;使用正交权重初始化SRU并从头开始训练。
进一步地,所述的正交权重初始化SRU,Adam优化算法和交叉熵损失函数被用于在整个数据集上优化所有具有小批量大小28的网络的12个时期;初始学习率在前八个时期设定为10-5,其余时间则变为10-6;初步尝试设置学习速率10-4;在SRU中采用线性变换的归一化比率为0.5,递归神经网络(RNN)层间连接为0,提高了该模型的泛化能力;重新训练ResNet-34网络,整个网络都是端到端的训练。
附图说明
图1是本发明一种基于堆叠递归单元的多级残差网络的动作识别方法的系统框架图。
图2是本发明一种基于堆叠递归单元的多级残差网络的动作识别方法的流程示意图。
图3是本发明一种基于堆叠递归单元的多级残差网络的动作识别方法的动作预测。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于堆叠递归单元的多级残差网络的动作识别方法的系统框架图。主要包括残差网络,堆叠递归单元和数据集。
残差网络(ResNet)将所需的残差映射表示为Φ(x),并且针对每个被称为构建块的堆叠层描述F(x)=Φ(x)-x的另一映射;每个块根据深度的要求包含两层或三层,其中两层为3×3和3×3卷积核,三层分别为1×1,3×3和1×1的卷积核;修正线性单元(ReLU)激活层之间用于引入非线性;采用1×1卷积核的目的是在保持相似时间复杂度的同时降低计算复杂度;通过参照层的输入,学习残差函数可以解决随深度增加而引起的退化问题,且易于优化;一般情况下,ResNet由多个残留块组成,每个块从下到上执行短连接,其信息从浅层流向深层;使用ResNet-34来构建不同级别的表示。
选择最后三组残差块的输出激活作为Al,Am,Ah的低、中、高级表示,并分别命名ResNet-34的不同层的低、中、高级;然后将这些外观表示推入堆叠递归单元(SRU)中以获得时间和深度上的视频表示;
考虑ResNet-34层,输出激活张量A∈RC×H×W可以表示为:
Alevel=[Al1,Al2,…,AlN],Al,i∈RC (1)
其中,level∈[低,中,高],N=H×W;特别地,Al∈R128×28×28,Am∈R256×14×14,Al∈R512 ×7×7;平均这些激活张量A∈RC×H×W,并产生描述符xfeature∈RC,馈入SRU。
堆叠递归单元,递归过程中门状态的计算依赖于前一个时间隐藏状态ht-1,这大大缓解了计算速度;门状态的计算如下所示:
Statei,t=σ(Wxixt+Whiht-1+bi) (2)
其中,在时刻t,Statei,t表示输入门状态、隐藏门状态和忘记门状态;显然,最后一步的隐藏ht-1被用于确定门状态;基于此,使用SRU来处理帧的时间信息;SRU架构如下所示:
ft=σ(Wfxt+bf) (4)
rt=σ(Wrxt+br) (5)
ht=rt⊙g(ct)+(1-rt)⊙xt (7)
其中,ft和rt是S型函数门,称为遗忘门和复位门;g(·)是双曲正切函数;SRU通过在递归过程中舍弃ht-1,简化状态计算;内部状态ct的更新仍然取决于之前的状态ct-1;输入向量xt被传递到SRU模块,ft,Rt可以同时计算出来;公式(6)和公式(7)的操作是元素级别的;之后进行平均激活张量。
如公式(1),平均激活张量如下式所示:
作为framet的定长矢量表示,并在时间步t将其放入SRU中;使用不同方法来融合每个时间步骤的所有预测,采用平均池和最大池来进行最终的动作预测。
数据集,对UCF-101数据集和HMDB-51数据集进行大量的评估;UCF-101数据集有从YouTuBe收集的13320个视频,共101个动作类别;每种动作都是由25人进行的,每个人都做过一次以上;动作类别可以分为五类:人物交互、肢体动作、人与人交互、演奏乐器和体育;
HMDB数据集从各种来源收集,大部分来自电影;该数据集包含3570个训练剪辑和1530个测试剪辑,属于51个不同的类别;使用HMDB-51数据集来确定SRU和两个数据集的更好的超参数设置,接着进行训练。
SRU的输入单元数量与ResNet产生的激活张量的形状一致;对于低、中、高级帧表示,SRU的输入大小分别为128、256和512个单元;将HMDB-51数据集的隐藏状态数量设置为256、512、1024个单元;相似的,堆叠SRU的层数设置为3、4、5层;反复计算中的线性变换是S形激活函数,但是在每个时间步长的预测中,在叠加的SRU上添加双曲正切激活层;最大池和平均池在每个时间步输出执行;在ImageNet数据集上预训练的原始ResNet-34被用作特征表示提取器,并且没有调整ResNet-34中的任何细节;使用正交权重初始化SRU并从头开始训练。
Adam优化算法和交叉熵损失函数被用于在整个数据集上优化所有具有小批量大小28的网络的12个时期;初始学习率在前八个时期设定为10-5,其余时间则变为10-6;初步尝试设置学习速率10-4;在SRU中采用线性变换的归一化比率为0.5,递归神经网络(RNN)层间连接为0,提高了该模型的泛化能力;重新训练ResNet-34网络,整个网络都是端到端的训练。
图2是本发明一种基于堆叠递归单元的多级残差网络的动作识别方法的流程示意图。利用残差网络表示所需的残差映射,针对每个构建块的堆叠层描述另一映射,选择最后三组残差块的输出激活作为低中高级三个表示,将这些外观表示推入堆叠递归单元中以获得时间和深度上的视频表示,接着平均激活张量,使用不同方法来融合每个时间步骤的所有预测,采用平均池和最大池进行最终的动作预测,最后把网络中的不同层次的信息结合起来,并计算出最终的预测结果。
图3是本发明一种基于堆叠递归单元的多级残差网络的动作识别方法的动作预测。模型由两部分组成,将属于视频的N个连续视频帧编码为向量序列Xt=(xt1,…,xtN),其中xti∈RC,C∈[128,256,512],在SRU中,每个动作类别的概率分布由下式计算:
其中,Wjt表示在时间t到动作j的映射SRU输出向量的权重参数;公式(9)和公式(10)分别表示均值预测和最大流量预测;最后,用下式把网络中的不同层次的信息结合起来,并计算出最终的预测结果。
得出的预测结果如下式所示:
Pfinal=a×PH+b×PM+c×PL (11)
其中,P(·)参考不同层次模型的预测,Pfinal是组合模型产生的最终预测;其中,a=0.7,b=0.2,c=0.1。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于堆叠递归单元的多级残差网络的动作识别方法,其特征在于,主要包括残差网络(一);堆叠递归单元(二);数据集(三)。
2.基于权利要求书1所述的残差网络(一),其特征在于,残差网络(ResNet)将所需的残差映射表示为Φ(x),并且针对每个被称为构建块的堆叠层描述F(x)=Φ(x)-x的另一映射;每个块根据深度的要求包含两层或三层,其中两层为3×3和3×3卷积核,三层分别为1×1,3×3和1×1的卷积核;修正线性单元(ReLU)激活层之间用于引入非线性;采用1×1卷积核的目的是在保持相似时间复杂度的同时降低计算复杂度;通过参照层的输入,学习残差函数可以解决随深度增加而引起的退化问题,且易于优化;一般情况下,ResNet由多个残留块组成,每个块从下到上执行短连接,其信息从浅层流向深层;使用ResNet-34来构建不同级别的表示。
3.基于权利要求书2所述的ResNet-34,其特征在于,选择最后三组残差块的输出激活作为Al,Am,Ah的低、中、高级表示,并分别命名ResNet-34的不同层的低、中、高级;然后将这些外观表示推入堆叠递归单元(SRU)中以获得时间和深度上的视频表示;
考虑ResNet-34层,输出激活张量A∈RC×H×W可以表示为:
Alevel=[Al1,Al2,…,AtN],Al,i∈RC (1)
其中,level∈[低,中,高],N=H×W;特别地,Al∈R128×28×28,Am∈R256×14×14,Al∈R512×7×7;平均这些激活张量A∈RC×H×W,并产生描述符xfeature∈RC,馈入SRU。
4.基于权利要求书1所述的堆叠递归单元(二),其特征在于,递归过程中门状态的计算依赖于前一个时间隐藏状态ht-1,这大大缓解了计算速度;门状态的计算如下所示:
Statei,t=σ(Wxixt+Whiht-1+bi) (2)
其中,在时刻t,Statei,t表示输入门状态、隐藏门状态和忘记门状态;显然,最后一步的隐藏ht-1被用于确定门状态;基于此,使用SRU来处理帧的时间信息;SRU架构如下所示:
ft=σ(Wfxt+bf) (4)
rt=σ(Wrxt+br) (5)
其中,ft和rt是S型函数门,称为遗忘门和复位门;g(·)是双曲正切函数;SRU通过在递归过程中舍弃ht-1,简化状态计算;内部状态ct的更新仍然取决于之前的状态ct-1;输入向量xt被传递到SRU模块,ft,Rt可以同时计算出来;公式(6)和公式(7)的操作是元素级别的;之后进行平均激活张量。
5.基于权利要求书4所述的平均激活张量,其特征在于,如公式(1),平均激活张量如下式所示:
作为framet的定长矢量表示,并在时间步t将其放入SRU中;使用不同方法来融合每个时间步骤的所有预测,采用平均池和最大池来进行最终的动作预测。
6.基于权利要求书5所述的动作预测,其特征在于,模型由两部分组成,将属于视频的N个连续视频帧编码为向量序列Xt=(xt1,…,xtN),其中xti∈RC,C∈[128,256,512],在SRU中,每个动作类别的概率分布由下式计算:
其中,Wjt表示在时间t到动作j的映射SRU输出向量的权重参数;公式(9)和公式(10)分别表示均值预测和最大流量预测;最后,用下式把网络中的不同层次的信息结合起来,并计算出最终的预测结果。
7.基于权利要求书6所述的预测结果,其特征在于,得出的预测结果如下式所示:
Pfinal=a×PH+b×PM+c×PL (11)
其中,P(·)参考不同层次模型的预测,Pfinal是组合模型产生的最终预测;其中,a=0.7,b=0.2,c=0.1。
8.基于权利要求书1所述的数据集(三),其特征在于,对UCF-101数据集和HMDB-51数据集进行大量的评估;UCF-101数据集有从YouTuBe收集的13320个视频,共101个动作类别;每种动作都是由25人进行的,每个人都做过一次以上;动作类别可以分为五类:人物交互、肢体动作、人与人交互、演奏乐器和体育;
HMDB数据集从各种来源收集,大部分来自电影;该数据集包含3570个训练剪辑和1530个测试剪辑,属于51个不同的类别;使用HMDB-51数据集来确定SRU和两个数据集的更好的超参数设置,接着进行训练。
9.基于权利要求书8所述的训练,其特征在于,SRU的输入单元数量与ResNet产生的激活张量的形状一致;对于低、中、高级帧表示,SRU的输入大小分别为128、256和512个单元;将HMDB-51数据集的隐藏状态数量设置为256、512、1024个单元;相似的,堆叠SRU的层数设置为3、4、5层;反复计算中的线性变换是S形激活函数,但是在每个时间步长的预测中,在叠加的SRU上添加双曲正切激活层;最大池和平均池在每个时间步输出执行;在ImageNet数据集上预训练的原始ResNet-34被用作特征表示提取器,并且没有调整ResNet-34中的任何细节;使用正交权重初始化SRU并从头开始训练。
10.基于权利要求书9所述的正交权重初始化SRU,其特征在于,Adam优化算法和交叉熵损失函数被用于在整个数据集上优化所有具有小批量大小28的网络的12个时期;初始学习率在前八个时期设定为10-5,其余时间则变为10-6;初步尝试设置学习速率10-4;在SRU中采用线性变换的归一化比率为0.5,递归神经网络(RNN)层间连接为0,提高了该模型的泛化能力;重新训练ResNet-34网络,整个网络都是端到端的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810081796.6A CN108280436A (zh) | 2018-01-29 | 2018-01-29 | 一种基于堆叠递归单元的多级残差网络的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810081796.6A CN108280436A (zh) | 2018-01-29 | 2018-01-29 | 一种基于堆叠递归单元的多级残差网络的动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108280436A true CN108280436A (zh) | 2018-07-13 |
Family
ID=62805462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810081796.6A Withdrawn CN108280436A (zh) | 2018-01-29 | 2018-01-29 | 一种基于堆叠递归单元的多级残差网络的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108280436A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070041A (zh) * | 2019-04-23 | 2019-07-30 | 江西理工大学 | 一种时空压缩激励残差乘法网络的视频动作识别方法 |
CN110110648A (zh) * | 2019-04-30 | 2019-08-09 | 北京航空航天大学 | 基于视觉感知与人工智能的动作提名方法 |
CN110263723A (zh) * | 2019-06-21 | 2019-09-20 | 王森 | 室内空间的姿态识别方法、系统、介质、设备 |
CN110335248A (zh) * | 2019-05-31 | 2019-10-15 | 上海联影智能医疗科技有限公司 | 医学图像病灶检测方法、装置、计算机设备和存储介质 |
CN110390315A (zh) * | 2019-07-29 | 2019-10-29 | 深兰科技(上海)有限公司 | 一种图像处理方法及装置 |
CN111353519A (zh) * | 2018-12-24 | 2020-06-30 | 北京三星通信技术研究有限公司 | 用户行为识别方法和系统、具有ar功能的设备及其控制方法 |
CN112435177A (zh) * | 2020-11-10 | 2021-03-02 | 西安电子科技大学 | 基于sru与残差网络的递归红外图像非均匀校正方法 |
CN112507920A (zh) * | 2020-12-16 | 2021-03-16 | 重庆交通大学 | 一种基于时间位移和注意力机制的考试异常行为识别方法 |
CN112818869A (zh) * | 2021-02-03 | 2021-05-18 | 三峡大学 | 基于残差双向sru网络的跌倒检测方法 |
CN113850028A (zh) * | 2021-11-30 | 2021-12-28 | 中南大学 | 基于堆叠异构残差网络的换流阀冷却方式分类方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919897A (zh) * | 2016-12-30 | 2017-07-04 | 华北电力大学(保定) | 一种基于三级残差网络的人脸图像年龄估计方法 |
CN107437096A (zh) * | 2017-07-28 | 2017-12-05 | 北京大学 | 基于参数高效的深度残差网络模型的图像分类方法 |
-
2018
- 2018-01-29 CN CN201810081796.6A patent/CN108280436A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919897A (zh) * | 2016-12-30 | 2017-07-04 | 华北电力大学(保定) | 一种基于三级残差网络的人脸图像年龄估计方法 |
CN107437096A (zh) * | 2017-07-28 | 2017-12-05 | 北京大学 | 基于参数高效的深度残差网络模型的图像分类方法 |
Non-Patent Citations (1)
Title |
---|
ZHENXING ZHENG ET AL: ""Multi-Level ResNets with Stacked SRUs for Action Recognition"", 《HTTPS://ARXIV.ORG/ABS/1711.08238V1》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353519A (zh) * | 2018-12-24 | 2020-06-30 | 北京三星通信技术研究有限公司 | 用户行为识别方法和系统、具有ar功能的设备及其控制方法 |
CN110070041A (zh) * | 2019-04-23 | 2019-07-30 | 江西理工大学 | 一种时空压缩激励残差乘法网络的视频动作识别方法 |
CN110110648B (zh) * | 2019-04-30 | 2020-03-17 | 北京航空航天大学 | 基于视觉感知与人工智能的动作提名方法 |
CN110110648A (zh) * | 2019-04-30 | 2019-08-09 | 北京航空航天大学 | 基于视觉感知与人工智能的动作提名方法 |
CN110335248A (zh) * | 2019-05-31 | 2019-10-15 | 上海联影智能医疗科技有限公司 | 医学图像病灶检测方法、装置、计算机设备和存储介质 |
CN110335248B (zh) * | 2019-05-31 | 2021-08-17 | 上海联影智能医疗科技有限公司 | 医学图像病灶检测方法、装置、计算机设备和存储介质 |
CN110263723A (zh) * | 2019-06-21 | 2019-09-20 | 王森 | 室内空间的姿态识别方法、系统、介质、设备 |
CN110390315A (zh) * | 2019-07-29 | 2019-10-29 | 深兰科技(上海)有限公司 | 一种图像处理方法及装置 |
CN112435177A (zh) * | 2020-11-10 | 2021-03-02 | 西安电子科技大学 | 基于sru与残差网络的递归红外图像非均匀校正方法 |
CN112435177B (zh) * | 2020-11-10 | 2023-12-08 | 西安电子科技大学 | 基于sru与残差网络的递归红外图像非均匀校正方法 |
CN112507920A (zh) * | 2020-12-16 | 2021-03-16 | 重庆交通大学 | 一种基于时间位移和注意力机制的考试异常行为识别方法 |
CN112818869A (zh) * | 2021-02-03 | 2021-05-18 | 三峡大学 | 基于残差双向sru网络的跌倒检测方法 |
CN113850028A (zh) * | 2021-11-30 | 2021-12-28 | 中南大学 | 基于堆叠异构残差网络的换流阀冷却方式分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280436A (zh) | 一种基于堆叠递归单元的多级残差网络的动作识别方法 | |
Ehsanpour et al. | Joint learning of social groups, individuals action and sub-group activities in videos | |
Özyer et al. | Human action recognition approaches with video datasets—A survey | |
Ebrahimi Kahou et al. | Recurrent neural networks for emotion recognition in video | |
CN107609460B (zh) | 一种融合时空双重网络流和attention机制的人体行为识别方法 | |
Wang et al. | Deep appearance and motion learning for egocentric activity recognition | |
Nguyen et al. | Dual-layer kernel extreme learning machine for action recognition | |
Yan et al. | Age estimation based on convolutional neural network | |
Gammulle et al. | Multi-level sequence GAN for group activity recognition | |
CN107169117A (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN109815920A (zh) | 基于卷积神经网络和对抗卷积神经网络的手势识别方法 | |
Jiang et al. | An efficient attention module for 3d convolutional neural networks in action recognition | |
Li et al. | Realistic human action recognition by Fast HOG3D and self-organization feature map | |
Wu et al. | Exploiting target data to learn deep convolutional networks for scene-adapted human detection | |
Ramya et al. | Human action recognition using distance transform and entropy based features | |
Ahmad et al. | SDIGRU: spatial and deep features integration using multilayer gated recurrent unit for human activity recognition | |
Wang et al. | A deep clustering via automatic feature embedded learning for human activity recognition | |
Zhang et al. | Hybrid handcrafted and learned feature framework for human action recognition | |
Wang et al. | Pose-based two-stream relational networks for action recognition in videos | |
Orozco et al. | Human action recognition in videos using a robust CNN LSTM approach | |
Gong et al. | Human interaction recognition based on deep learning and HMM | |
Li et al. | Recognition of ongoing complex activities by sequence prediction over a hierarchical label space | |
Xie et al. | A pyramidal deep learning architecture for human action recognition | |
Ahmed et al. | Two person interaction recognition based on effective hybrid learning | |
Li et al. | FSRM-STS: Cross-dataset pedestrian retrieval based on a four-stage retrieval model with Selection–Translation–Selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180713 |
|
WW01 | Invention patent application withdrawn after publication |