CN110765854A - 一种视频动作识别方法 - Google Patents
一种视频动作识别方法 Download PDFInfo
- Publication number
- CN110765854A CN110765854A CN201910861249.4A CN201910861249A CN110765854A CN 110765854 A CN110765854 A CN 110765854A CN 201910861249 A CN201910861249 A CN 201910861249A CN 110765854 A CN110765854 A CN 110765854A
- Authority
- CN
- China
- Prior art keywords
- hypergraph
- local
- video
- global
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000009471 action Effects 0.000 claims abstract description 33
- 230000002776 aggregation Effects 0.000 claims abstract description 11
- 238000004220 aggregation Methods 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 230000008447 perception Effects 0.000 claims abstract description 5
- 238000001514 detection method Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 21
- 239000012634 fragment Substances 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims 2
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种视频动作识别方法,该视频中的动作识别方法包括以下步骤:构建超图片段,将连续N帧图像构建为一张超图得到由T张超图构成的一个片段;局部全局时空建模,使用目标检测模型提取超图中的目标对象作为局部信息和全局信息,采用2D卷积对这些局部信息进行局部和全局时空关系建模,分别命名为模型a(局部)和模型b(全局);局部全局感知聚合,对模型a和模型b引入分层注意力机制来找出动作执行的主体目标;动作识别判别器,对视频局部信息的片段级预测,对视频全局信息进行视频级预测,然后对这两种模式的预测融合产生最终的预测结果。本发明具有高度智能化,识别准确的优点。
Description
技术领域
本发明属于计算机视觉动作识别技术领域,特别涉及一种视频中的动作识别方法。
背景技术
录像设备的普及,视频类软件与日俱增,网络速度的提升等因素,造成了大量的视频在网上传播并且呈指数级增加。这些视频信息种类繁多,数量巨大,远远超出了人类手工处理的能力。因此,发明适合于视频推荐、人类行为分析、视频监控等多种应用的视频中的动作识别方法是十分必要的。在视频动作识别中,有两个重要且互补的方面:表象和动态。识别系统的性能在很大程度上取决于它能否从视频中提取和利用相关信息。然而,由于一些复杂性,如尺度变化、视角变化和相机运动,提取这些信息存在一定难度。近年来,深度卷积神经网络对图像中的目标,场景和其他复杂对象的识别上取得了很大的成功。展示了深度卷积神经网络具有强大的建模能力,证明了其能够在大规模监督数据集的帮助下从原始视觉数据中学习到目标的可识别表示。然而,主流卷积神经网络框架通常注重表象和短期运动,缺乏纳入长期时间结构的能力。也有部分研究者针对这个问题提出了一些方法,但这些方法主要依赖于具有预定义采样间隔的密集时间采样,当应用于较长的视频序列时,这种方法会产生过多的计算开销,限制了在现实中的应用,并且对于超过最大序列长度的视频,会有丢失重要信息的风险。其次,在实践中,训练深度神经网络需要大量的训练样本才能达到最优性能。但是,由于数据收集和注释的困难,公开可用的动作识别数据集(如:UCF101、HMDB51) 在大小和多样性上仍然有限。因此,非常深的神经网络在图像分类方面取得了显著的成功,但也面临着过度拟合的风险。本发明提出的方法流程能够利用有限训练样本学习到高效准确的深度卷积神经网络模型,并且对长时间的视频片段有较高较快的动作识别能力。
发明内容
本发明的目的是为了克服现有技术和动作识别方法的不足,提出了一种视频中的动作识别方法。
本发明的目的是通过以下技术方案来实现的:一种视频中的动作识别方法,其特征在于:所述的动作识别方法包括以下步骤:
步骤1):构建超图片段,对于给定的视频V,超图片段的构建通过对K个时间段进行采样,每个时间段由N个连续的RGB帧组成,而不是单个帧。这N 帧叠加在通道维数中形成一个超图像,所以每张超图的输入是一个张量大小为 T×3N×H×W,由超图组成的超图片段定义为T。动作识别函数如下:
VL(T)=VL(T1,T2,…,TK) (3)
式(1)中VL是引入注意力机制的感知聚合函数,用来计算每个超图片段 T的类别得分和全部超图片段得分。是段共识函数,通过融合每个超图片段的得分和所有超图片段的VL(T)的得分产生段共识。代表参数为W的二维卷积函数。
步骤2)局部时空建模,使用ImageNet数据集上预训练的目标检测模型提取超图中的目标对象作为局部信息,采用2D卷积对这些局部信息进行局部时空关系建模,命名为模型a;
步骤3)全局时空建模,采用2D卷积对超图片段进行全局时空关系建模,命名为模型b;
局部时空建模和全局时空建模为同样的网络结构,均由时间卷积网络和空间卷积网络构成,这两种网络都是基于BN-Inception网络框架上搭建的。其中时间卷积网络输入超图片段的RGB特征,空间卷积网络输入超图片段的光流特征。局部时空网络根据输入视频信息动态调整自身权重参数,从而使网络结构提取出最佳视频动作语义信息。本发明采用基于梯度优化的方法动态调整网络参数。具体公式如下:
步骤4)局部全局感知聚合,通过设计了两个可学习的VLAD模型来学习局部时空模型处理后的局部超图序列和全局时空模型处理后的全局超图序列的时空相关性。即是将超图的局部目标区域特征和超图的全局特征集合成可以判别的 VLAD表示。这里的VLAD是一种融入了注意力机制的特征编码方法。利用卷积门控递归单元C-GRU对信息上下文的短期记忆的特点从而使模型能够重点关注视频中的主体运动目标细节,实现注意力机制。VLAD具体编码形式如下:
式(5)中表示局部VLAD编码,式(6)中表示全局VLAD编码,其中aN和aK表示卷积门控递归单元C-GRU的当前状态,表示当前超图的局部特征表示,表示超图片段的全局特征表示,ck表示局部特征和全局特征上一次的特征映射*表示元素级相乘,⊙表示卷积计算,Ua表示2D卷积核,rK/N表示局部目标区域或全局区域。
步骤5)动作识别判别器,对不同类别片段找出的动作执行主体目标的得分采用段共识函数进行融合产生段共识,从而实现对视频局部信息的片段级 (snippet)预测,利用得分函数对视频全局信息进行视频级预测,然后对这两种模式的预测融合产生最终的预测结果。
本发明与现有技术相比,具有的有益效果是:本发明将N个连续的视频帧叠加成一个具有3N个信道的超图,超图不仅包含由单个帧表示的空间外观信息,而且还包含这些连续视频帧之间的时间依赖性,为了对其中的时空关系进行联合建模,节省模型权值和计算成本,本发明利用二维卷积(其输入通道大小为3N) 对由T个超图组成的超图片段(snippet)进行卷积。本发明对长时间的视频建模,结合了稀疏时间采样策略来保证对整段视频的表示学习更加高效和有效。不同于现存方法仅仅利用全局信息,本发明利用超图的局部和全局信息,通过感知聚合来学习局部超图序列和全局超图序列的时空相关性,从而能够更好的利用视频信息来识别出准确的视频动作。本发明具有高度智能化,适用范围广,识别准确的优点。
附图说明
图1是本发明一种视频中的动作识别方法的模式流程图。
具体实施方式
下面结合附图对本发明做进一步的说明。
实施例
如图1所示,一种视频中的动作识别方法,所述的视频中的动作识别方法包括以下步骤:
步骤1):构建超图片段,对于给定的视频V,超图片段的构建通过对K个时间段进行采样,每个时间段由N个连续的RGB帧组成,而不是单个帧。这N 帧叠加在通道维数中形成一个超图像,所以每张超图的输入是一个张量大小为T×3N×H×W,由超图组成的超图片段定义为T。动作识别函数如下:
VL(T)=VL(T1,T2,…,TK) (10)
式(1)中VL是引入注意力机制的感知聚合函数,用来计算每个超图片段 T的类别得分和全部超图片段得分。是段共识函数,通过融合每个超图片段的得分和所有超图片段的VL(T)的得分产生段共识。代表参数为W的二维卷积函数。
步骤2)局部时空建模,使用ImageNet数据集上预训练的目标检测模型提取超图中的目标对象作为局部信息,采用2D卷积对这些局部信息进行局部时空关系建模,命名为模型a;
步骤3)全局时空建模,采用2D卷积对超图片段进行全局时空关系建模,命名为模型b;
局部时空建模和全局时空建模为同样的网络结构,均由时间卷积网络和空间卷积网络构成,这两种网络都是基于BN-Inception网络框架上搭建的。其中时间卷积网络输入超图片段的RGB特征,空间卷积网络输入超图片段的光流特征。局部时空网络根据输入视频信息动态调整自身权重参数,从而使网络结构提取出最佳视频动作语义信息。本发明采用基于梯度优化的方法动态调整网络参数。具体公式如下:
步骤4)局部全局感知聚合,通过设计了两个可学习的VLAD模型来学习局部时空模型处理后的局部超图序列和全局时空模型处理后的全局超图序列的时空相关性。即是将超图的局部目标区域特征和超图的全局特征集合成可以判别的 VLAD表示。这里的VLAD是一种融入了注意力机制的特征编码方法。利用卷积门控递归单元C-GRU对信息上下文的短期记忆的特点从而使模型能够重点关注视频中的主体运动目标细节,实现注意力机制。VLAD具体编码形式如下:
式(5)中表示局部VLAD编码,式(6)中表示全局VLAD编码,其中aN和aK表示卷积门控递归单元C-GRU的当前状态,表示当前超图的局部特征表示,表示超图片段的全局特征表示,ck表示局部特征和全局特征上一次的特征映射*表示元素级相乘,⊙表示卷积计算,Ua表示2D卷积核,rK/N表示局部目标区域或全局区域。
步骤5)动作识别判别器,对不同类别片段找出的动作执行主体目标的得分采用段共识函数进行融合产生段共识,从而实现对视频局部信息的片段级 (snippet)预测,利用得分函数对视频全局信息进行视频级预测,然后对这两种模式的预测融合产生最终的预测结果。
本发明将N个连续的视频帧叠加成一个具有3N个信道的超图,超图不仅包含由单个帧表示的空间外观信息,而且还包含这些连续视频帧之间的时间依赖性,为了对其中的时空关系进行联合建模,节省模型权值和计算成本,本发明利用二维卷积(其输入通道大小为3N)对由T个超图组成的超图片段(snippet)进行卷积。本发明对长时间的视频建模,结合了稀疏时间采样策略来保证对整段视频的表示学习更加高效和有效。不同于现存方法仅仅利用全局信息,本发明利用超图的局部和全局信息,通过感知聚合来学习局部超图序列和全局超图序列的时空相关性,从而能够更好的利用视频信息来识别出准确的视频动作。本发明具有高度智能化,适用范围广,识别准确的优点。
仿真实验
主要的仿真参数为:使用Kinetics400数据集训练视频动作识别判别器,该数据集包含400个动作类别,每个类别视频数量不少于400个,视频总量246535 个。在视频检索国际权威评测TRECVID比赛数据集上验证本发明一种视频中的动作识别方法的视频动作分类效果。本发明从TRECVID数据集中的440000个视频中按照hold_baby,hold_money,crying,drinking,kissing,laughing, holding_paper,hold_hands,smoking,hold_glass,eating,hugging, go_up_down_stairs,holding_cloth,holding_phone15个类随机抽选出各100 个动作视频并计算各类别的均值平均精度MAP(精度取值范围为0到1,0代表全错,1代表全对)。仿真实验结果显示本发明一种视频中的动作识别方法,能够较为准确地识别视频中的动作类别。
附表一:
各种行为识别结果。
本发明与现有技术相比,具有的有益效果是:本发明将N个连续的视频帧叠加成一个具有3N个信道的超图,超图不仅包含由单个帧表示的空间外观信息,而且还包含这些连续视频帧之间的时间依赖性,为了对其中的时空关系进行联合建模,节省模型权值和计算成本,本发明利用二维卷积(其输入通道大小为3N) 对由T个超图组成的超图片段(snippet)进行卷积。本发明对长时间的视频建模,结合了稀疏时间采样策略来保证对整段视频的表示学习更加高效和有效。不同于现存方法仅仅利用全局信息,本发明利用超图的局部和全局信息,通过感知聚合来学习局部超图序列和全局超图序列的时空相关性,从而能够更好的利用视频信息来识别出准确的视频动作。本发明具有高度智能化,适用范围广,识别准确的优点。
上述仿真实验用来解释本发明,从而使本发明的目的、技术方案和优点更加清楚,而不是对本发明的限制,在本发明的精神和权利要求的保护范围内,任何对本发明所作的修改和改变,都将落入本发明的保护范围内。
Claims (8)
1.一种视频中的动作识别方法,其特征在于:所述的视频中的动作识别方法包括以下步骤:
步骤1):构建超图片段,将输入的一个视频分为K段(segment),从对应的各段(segment)中随机采样连续帧并将连续N帧图像构建为一张超图得到由T张超图构成的一个片段(snippet);
步骤2)局部时空建模,使用ImageNet数据集上预训练的目标检测模型提取超图中的目标对象作为局部信息,采用2D卷积对这些局部信息进行局部时空关系建模,命名为模型a;
步骤3)全局时空建模,采用2D卷积对超图片段进行全局时空关系建模,命名为模型b;
步骤4)局部全局感知聚合,对模型a和模型b引入分层注意力机制来区分不同目标对象的贡献,从而找出动作执行的主体目标;
步骤5)动作识别判别器,对不同类别片段找出的动作执行主体目标的得分采用段共识函数进行融合产生段共识,从而实现对视频局部信息的片段级(snippet)预测,利用得分函数对视频全局信息进行视频级预测,然后对这两种模式的预测融合产生最终的预测结果。
2.根据权利要求1所述的一种视频中的动作识别方法,其特征在于:所述的动作识别方法包括以下硬件设备:
操作系统,Linux version 4.4.0-148-generic(buildd@lgw01-amd64-031)(gccversion 5.4.0 20160609(Ubuntu 5.4.0-6ubuntu1~16.04.10);
处理器,NVIDIA GTX1080 Ti 12GB;
数据线,数据线为四芯网线加两芯电源线的网络综合线,数据线连接摄像头和处理器;
存储器,存储器支持SCIS与SAS接口,大小2T,转速5400转每秒,存储器连接处理器。
5.根据权利要求1所述的一种视频中的动作识别方法,其特征在于:所述的感知聚合通过设计了两个可学习的VLAD模型来学习局部时空模型处理后的局部超图序列和全局时空模型处理后的全局超图序列的时空相关性。即是将超图的局部目标区域特征和超图的全局特征集合成可以判别的VLAD表示。这里的VLAD是一种融入了注意力机制的特征编码方法。利用卷积门控递归单元C-GRU对信息上下文的短期记忆的特点从而使模型能够重点关注视频中的主体运动目标细节,实现注意力机制。VLAD具体编码形式如下:
6.根据权利要求1所述的一种视频中的动作识别方法,其特征在于:所述的动作识别判别器是一种使用VLAD编码后的视频特征表示在基于ResNet50骨架网络上训练出的视频动作分类器。对于输入目标视频,该动作识别判别器输出视频所述动作类别。
7.根据权利要求1所述的一种视频中的动作识别方法,其特征在于:训练动作识别判别器的数据集每种类别不少于200个视频,每个视频时长大于10秒。视频格式为MP4,AVI,WMV,MKV等常见格式。
8.根据权利要求1所述的一种视频中的动作识别方法,其特征在于:该动作识别方法识别动作类别的种类由训练数据集类别数决定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910861249.4A CN110765854B (zh) | 2019-09-12 | 2019-09-12 | 一种视频动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910861249.4A CN110765854B (zh) | 2019-09-12 | 2019-09-12 | 一种视频动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765854A true CN110765854A (zh) | 2020-02-07 |
CN110765854B CN110765854B (zh) | 2022-12-02 |
Family
ID=69329454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910861249.4A Active CN110765854B (zh) | 2019-09-12 | 2019-09-12 | 一种视频动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765854B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967362A (zh) * | 2020-08-09 | 2020-11-20 | 电子科技大学 | 面向可穿戴设备的超图特征融合和集成学习的人体行为识别方法 |
CN112597921A (zh) * | 2020-12-28 | 2021-04-02 | 杭州电子科技大学 | 一种基于注意力机制gru深度学习的人体行为识别方法 |
CN113204674A (zh) * | 2021-07-05 | 2021-08-03 | 杭州一知智能科技有限公司 | 基于局部-整体图推理网络的视频-段落检索方法及系统 |
CN113255570A (zh) * | 2021-06-15 | 2021-08-13 | 成都考拉悠然科技有限公司 | 一种感知视频片段关系的时序动作检测方法 |
CN113283400A (zh) * | 2021-07-19 | 2021-08-20 | 成都考拉悠然科技有限公司 | 一种基于选择性超图卷积网络的骨架动作识别方法 |
CN113515998A (zh) * | 2020-12-28 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 一种视频数据处理方法、设备以及可读存储介质 |
CN113851184A (zh) * | 2021-09-29 | 2021-12-28 | 湖南工商大学 | 一种基于人工智能的粪大肠杆菌群数的预测方法及装置 |
CN114663980A (zh) * | 2022-04-01 | 2022-06-24 | 北京百度网讯科技有限公司 | 行为识别方法、深度学习模型的训练方法及装置 |
WO2022152104A1 (zh) * | 2021-01-15 | 2022-07-21 | 百果园技术(新加坡)有限公司 | 动作识别模型的训练方法及装置、动作识别方法及装置 |
CN114882403A (zh) * | 2022-05-05 | 2022-08-09 | 杭州电子科技大学 | 基于渐进注意力超图的视频时空动作定位方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243139A (zh) * | 2015-10-10 | 2016-01-13 | 天津大学 | 一种基于深度学习的三维模型检索方法及其检索装置 |
CN106845371A (zh) * | 2016-12-31 | 2017-06-13 | 中国科学技术大学 | 一种城市路网机动车尾气排放遥感监控系统 |
WO2017152403A1 (zh) * | 2016-03-10 | 2017-09-14 | 北京大学深圳研究生院 | 一种基于mcmc框架下的子超图匹配方法和装置 |
CN109446923A (zh) * | 2018-10-10 | 2019-03-08 | 北京理工大学 | 基于训练特征融合的深度监督卷积神经网络行为识别方法 |
CN109492691A (zh) * | 2018-11-07 | 2019-03-19 | 南京信息工程大学 | 一种超图卷积网络模型及其半监督分类方法 |
US20190147335A1 (en) * | 2017-11-15 | 2019-05-16 | Uber Technologies, Inc. | Continuous Convolution and Fusion in Neural Networks |
US20190206066A1 (en) * | 2017-12-29 | 2019-07-04 | RetailNext, Inc. | Human Analytics Using Fusion Of Image & Depth Modalities |
CN110097000A (zh) * | 2019-04-29 | 2019-08-06 | 东南大学 | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 |
CN110175580A (zh) * | 2019-05-29 | 2019-08-27 | 复旦大学 | 一种基于时序因果卷积网络的视频行为识别方法 |
-
2019
- 2019-09-12 CN CN201910861249.4A patent/CN110765854B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243139A (zh) * | 2015-10-10 | 2016-01-13 | 天津大学 | 一种基于深度学习的三维模型检索方法及其检索装置 |
WO2017152403A1 (zh) * | 2016-03-10 | 2017-09-14 | 北京大学深圳研究生院 | 一种基于mcmc框架下的子超图匹配方法和装置 |
CN106845371A (zh) * | 2016-12-31 | 2017-06-13 | 中国科学技术大学 | 一种城市路网机动车尾气排放遥感监控系统 |
US20190147335A1 (en) * | 2017-11-15 | 2019-05-16 | Uber Technologies, Inc. | Continuous Convolution and Fusion in Neural Networks |
US20190206066A1 (en) * | 2017-12-29 | 2019-07-04 | RetailNext, Inc. | Human Analytics Using Fusion Of Image & Depth Modalities |
CN109446923A (zh) * | 2018-10-10 | 2019-03-08 | 北京理工大学 | 基于训练特征融合的深度监督卷积神经网络行为识别方法 |
CN109492691A (zh) * | 2018-11-07 | 2019-03-19 | 南京信息工程大学 | 一种超图卷积网络模型及其半监督分类方法 |
CN110097000A (zh) * | 2019-04-29 | 2019-08-06 | 东南大学 | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 |
CN110175580A (zh) * | 2019-05-29 | 2019-08-27 | 复旦大学 | 一种基于时序因果卷积网络的视频行为识别方法 |
Non-Patent Citations (5)
Title |
---|
YI-FAN ZHANG等: "Naming faces in films using hypergraph matching", 《2009 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO》 * |
代东锋等: "基于时序概率超图模型的视频多语义标注", 《计算机工程与应用》 * |
刘会珍等: "多运动目标检测的研究", 《科技广场》 * |
曾奇勋: "基于行人部件、群组相似性与数据增强的行人重识别研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
法羚玲: "基于深度学习的第一视角视频动作识别技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967362A (zh) * | 2020-08-09 | 2020-11-20 | 电子科技大学 | 面向可穿戴设备的超图特征融合和集成学习的人体行为识别方法 |
CN111967362B (zh) * | 2020-08-09 | 2022-03-15 | 电子科技大学 | 面向可穿戴设备的超图特征融合和集成学习的人体行为识别方法 |
CN113515998A (zh) * | 2020-12-28 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 一种视频数据处理方法、设备以及可读存储介质 |
CN112597921A (zh) * | 2020-12-28 | 2021-04-02 | 杭州电子科技大学 | 一种基于注意力机制gru深度学习的人体行为识别方法 |
CN112597921B (zh) * | 2020-12-28 | 2024-02-02 | 杭州电子科技大学 | 一种基于注意力机制gru深度学习的人体行为识别方法 |
WO2022152104A1 (zh) * | 2021-01-15 | 2022-07-21 | 百果园技术(新加坡)有限公司 | 动作识别模型的训练方法及装置、动作识别方法及装置 |
CN113255570A (zh) * | 2021-06-15 | 2021-08-13 | 成都考拉悠然科技有限公司 | 一种感知视频片段关系的时序动作检测方法 |
CN113255570B (zh) * | 2021-06-15 | 2021-09-24 | 成都考拉悠然科技有限公司 | 一种感知视频片段关系的时序动作检测方法 |
CN113204674A (zh) * | 2021-07-05 | 2021-08-03 | 杭州一知智能科技有限公司 | 基于局部-整体图推理网络的视频-段落检索方法及系统 |
CN113283400A (zh) * | 2021-07-19 | 2021-08-20 | 成都考拉悠然科技有限公司 | 一种基于选择性超图卷积网络的骨架动作识别方法 |
CN113851184A (zh) * | 2021-09-29 | 2021-12-28 | 湖南工商大学 | 一种基于人工智能的粪大肠杆菌群数的预测方法及装置 |
CN114663980A (zh) * | 2022-04-01 | 2022-06-24 | 北京百度网讯科技有限公司 | 行为识别方法、深度学习模型的训练方法及装置 |
CN114882403A (zh) * | 2022-05-05 | 2022-08-09 | 杭州电子科技大学 | 基于渐进注意力超图的视频时空动作定位方法 |
CN114882403B (zh) * | 2022-05-05 | 2022-12-02 | 杭州电子科技大学 | 基于渐进注意力超图的视频时空动作定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110765854B (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765854B (zh) | 一种视频动作识别方法 | |
WO2021093468A1 (zh) | 视频分类方法、模型训练方法、装置、设备及存储介质 | |
WO2021164326A1 (zh) | 一种视频处理方法、装置、设备及计算机可读存储介质 | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
WO2021057186A1 (zh) | 训练神经网络的方法、数据处理方法和相关装置 | |
CN104573706A (zh) | 一种物体图像识别方法及其系统 | |
Chen et al. | DA-Net: Dual-attention network for multivariate time series classification | |
CN112541529A (zh) | 表情与姿态融合的双模态教学评价方法、设备及存储介质 | |
CN115695950B (zh) | 一种基于内容感知的视频摘要生成方法 | |
CN114037945A (zh) | 一种基于多粒度特征交互的跨模态检索方法 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN116975776A (zh) | 一种基于张量和互信息的多模态数据融合方法和设备 | |
CN117036834B (zh) | 基于人工智能的数据分类方法、装置及电子设备 | |
CN114399661A (zh) | 一种实例感知主干网络训练方法 | |
Wang et al. | Spiking emotions: Dynamic vision emotion recognition using spiking neural networks | |
CN116994320A (zh) | 一种列车司机在途疲劳驾驶检测方法、系统及设备 | |
CN116958740A (zh) | 基于语义感知和自适应对比学习的零样本目标检测方法 | |
Guo | Analysis of artificial intelligence technology and its application in improving the effectiveness of physical education teaching | |
WO2023173552A1 (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
Miao | Emotion Analysis and Opinion Monitoring of Social Network Users Under Deep Convolutional Neural Network | |
Wu et al. | Self-learning and explainable deep learning network toward the security of artificial intelligence of things | |
Zhong | A convolutional neural network based online teaching method using edge-cloud computing platform | |
CN115471771A (zh) | 一种基于语义级时序关联建模的视频时序动作定位方法 | |
Yan et al. | Dance Action Recognition Model Using Deep Learning Network in Streaming Media Environment | |
Pei et al. | FGO-Net: Feature and Gaussian Optimization Network for visual saliency prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |