CN108319905A - 一种基于长时程深度时空网络的行为识别方法 - Google Patents

一种基于长时程深度时空网络的行为识别方法 Download PDF

Info

Publication number
CN108319905A
CN108319905A CN201810071442.3A CN201810071442A CN108319905A CN 108319905 A CN108319905 A CN 108319905A CN 201810071442 A CN201810071442 A CN 201810071442A CN 108319905 A CN108319905 A CN 108319905A
Authority
CN
China
Prior art keywords
video
layer
space
time characteristic
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810071442.3A
Other languages
English (en)
Inventor
孙宁
宦睿智
李晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201810071442.3A priority Critical patent/CN108319905A/zh
Publication of CN108319905A publication Critical patent/CN108319905A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于长时程深度时空网络的行为识别方法,包括如下步骤:构建多通道特征拼接网络模型;选取视频行为数据集,提取视频行为数据集中每个视频的彩色图像序列数据集和光流图像序列数据集;将彩色图像序列数据集和光流图像序列数据集按照连续多帧分为若干片段,片段输入多通道特征拼接网络模型,先经过低层提取每个片段连续帧的时空特征,再由中层拼接生成每个视频片段的整体时空特征,并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征,然后在高层融合视频的整体时空特征,最后通过softmax层输出该视频行为的分类结果。本发明通过提取长时程多帧图像序列中的时空特征来识别视频中的复杂行为,提高了视频复杂行为的识别率和鲁棒性。

Description

一种基于长时程深度时空网络的行为识别方法
技术领域
本发明属于图像识别技术领域,具体涉及一种基于长时程深度时空网络的行为识别方法。
背景技术
基于视频的行为识别广泛应用于安全和行为分析等许多领域。在行为识别领域,有两个关键和互补的方面:外观和动态。识别系统的性能在很大程度上取决于能否从中提取和利用相关信息。然而,由于诸如尺度变化,视点变化和相机运动等许多复杂性,提取此类信息是较为困难的。因此,设计能够应对这些挑战的有效特征,同时保留行为类别的分类信息变得至关重要。最近,卷积网络(ConvNets)在分类物体,场景和复杂事件的图像方面取得了巨大的成功。ConvNets也被用来解决视频行为识别问题。Deep ConvNets具有很强的建模能力,能够借助大规模的监督数据集,从原始视觉数据中学习特征表示。然而,与图像分类不同的是,深度网络仍然无法比基于视频的动作识别的传统手工特性获得显着的优势。
ConvNet在视频行动识别中的应用受到两大障碍的阻碍。首先,长时时间结构在理解动作视频中的动态过程中起着重要的作用。然而,主流的ConvNet框架通常集中在外观和短期动作上,因此缺乏融合长时程时间结构的能力。其次,在实践中,深度训练需要大量训练样本才能达到最佳性能。但是,由于数据收集和注释的困难,公众可用的动作识别数据集(例如UCF101,HMDB51)在大小和多样性方面仍然有限。
发明内容
本发明的目的在于:提供一种基于长时程深度时空网络的行为识别方法,通过提取长时程多帧图像序列中的时空特征来识别视频中的复杂行为,提高了视频复杂行为的识别率和鲁棒性。
为了达到以上目的,提供一种基于长时程深度时空网络的行为识别方法,包括如下步骤:
S1、构建多通道特征拼接网络模型;
S2、选取视频行为数据集,提取视频行为数据集中每个视频的视频帧和光流帧,将视频帧的集合作为彩色图像序列数据集,光流帧的集合作为光流图像序列数据集;
S3、将彩色图像序列数据集和光流图像序列数据集按照连续多帧分为若干片段,片段输入多通道特征拼接网络模型,先经过低层卷积层提取每个片段连续帧的时空特征,再由中层拼接生成每个视频片段的整体时空特征,并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征,然后在高层融合视频的整体时空特征,最后通过softmax层输出该视频行为的分类结果。
本发明的优选方案是:优选地,还包括S4、训练多通道特征拼接网络模型,采用预训练参数加快每路卷积神经网络收敛速度,进行迁移学习。
优选地,多通道特征拼接网络模型包括3个通道输入、90层网络和1个输出,3个通道输入分别为原始视频帧图像输入、X方向光流特征图像输入和Y方向光流特征图像输入,90层网络的前87层为分别对应3个通道输入的三路并行卷积神经网络,每路卷积神经网络均为29层且结构相同,90层网络的第88、89、90层为全连接层,输出为softmax层。
更优选地,每路卷积神经网络的前29层依次为2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、特征拼接层、片段特征串接层、3层卷积层、1层池化层、特征拼接层、3层卷积层、1层池化层、3层卷积层和1层池化层;卷积层的卷积核为3×3,池化层为最大池化,其池化核为2×2;特征拼接层以2×2方形的形式拼接。
优选地,步骤S3中彩色图像序列数据集和光流图像序列数据集中每连续16帧划分为一个片段,在三路并行卷积神经网络的低层通过卷积层和池化层分别提取视频连续帧的时空特征;对卷积神经网络输入彩色图像序列数据集片段提取视频空间变化特征,对卷积神经网络输入光流图像序列数据集片段提取视频变化特征。
优选地,步骤S3中由中层拼接生成每个视频片段的整体时空特征,并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征的具体方法为:
将卷积神经网络的低层获取的连续16帧片段的时空特征以每4帧作为一个单位,每个单位的4帧图像以2×2形式拼接为小块的整体时空特征;
每个小块的整体时空特征是三维的,保持第三维深度不变,将第一维长度和第二维宽度拼接,使连续16帧片段的时空特征转化为4个小块的整体时空特征;
4个小块的整体时空特征的第三维深度不变,将第一维长度和第二位宽度扩大一倍,再经过卷积池化后,将4个小块的整体时空特征以2×2形式拼接为片段的整体时空特征;
将各片段的整体时空特征按片段顺序串接,最终形成整个视频的整体时空特征。
优选地,步骤S3中在多通道特征拼接网络模型的高层融合视频的整体时空特征后,通过全连接层融合三路并行卷积神经网络内的视频特征。
优选地,融合视频的整体时空特征的融合方式为串接融合、加权融合和平均融合中的一种。
本发明有益效果为:本发明构建多通道特征拼接网络模型,在模型低层通过卷积层和池化层提取每帧图像的特征,再在中层将这些连续帧的图像特征按序拼接,得到视频片段的特征,然后将视频片段的特征按顺序串接,获取属于这个视频级别的特征,最终融合视频级别特征,通过softmax层输出该视频行为的分类结果。该方法利用时空维度的转化增加网络处理多帧图像的能力,并进一步体现动作行为视频中的时空关联性,提高复杂行为的识别率和鲁棒性。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明的流程示意图。
图2为本发明的多通道特征拼接网络模型结构示意图。
具体实施方式
实施例一
请参阅图1,一种基于长时程深度时空网络的行为识别方法,包括如下步骤:
S1、构建多通道特征拼接网络MCFCN(Multi-Chunnel Feature Connected Network)模型;
S2、选取视频行为数据集,提取视频行为数据集中每个视频的视频帧和光流帧,将视频帧的集合作为彩色图像序列数据集Irgb,光流帧的集合作为光流图像序列数据集Iflowx、Iflowy
S3、将彩色图像序列数据集Irgb和光流图像序列数据集Iflowx、Iflowy按照连续多帧分为若干片段,片段输入多通道特征拼接网络模型,先经过低层卷积层提取每个片段连续帧的时空特征,再由中层拼接生成每个视频片段的整体时空特征,并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征,然后在高层融合视频的整体时空特征,最后通过softmax层输出该视频行为的分类结果。
还包括S4、训练多通道特征拼接网络模型,采用预训练参数加快每路卷积神经网络收敛速度,进行迁移学习。
以下将对上述步骤S1-S4的操作规则、方式等进行详细说明。
请参阅图2,多通道特征拼接网络模型包括3个通道输入、90层网络和1个输出,3个通道输入分别为原始视频帧图像输入、X方向光流特征图像输入和Y方向光流特征图像输入,90层网络的前87层为分别对应3个通道输入的三路并行卷积神经网络,每路卷积神经网络均为29层且结构相同,90层网络的第88、89、90层为全连接层,输出为softmax层。
每路卷积神经网络的前29层依次为2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、特征拼接层、片段特征串接层、3层卷积层、1层池化层、特征拼接层、3层卷积层、1层池化层、3层卷积层和1层池化层;卷积层的卷积核为3×3,池化层为最大池化,其池化核为2×2;特征拼接层以2×2方形的形式拼接。
步骤S3中彩色图像序列数据集Irgb和光流图像序列数据集Iflowx、Iflowy中每连续16帧划分为一个片段,在三路并行卷积神经网络的低层通过卷积层和池化层分别提取视频连续帧的时空特征;对卷积神经网络输入彩色图像序列数据集片段提取视频空间变化特征,对卷积神经网络输入光流图像序列数据集片段提取视频变化特征。
步骤S3中由中层拼接生成每个视频片段的整体时空特征,并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征的具体方法为:
将卷积神经网络的低层获取的连续16帧片段的时空特征以每4帧作为一个单位,每个单位的4帧图像以2×2形式拼接为小块的整体时空特征;
每个小块的整体时空特征是三维的,保持第三维深度不变,将第一维长度和第二维宽度拼接,使连续16帧片段的时空特征转化为4个小块的整体时空特征;
4个小块的整体时空特征的第三维深度不变,将第一维长度和第二位宽度扩大一倍,再经过卷积池化后,将4个小块的整体时空特征以2×2形式拼接为片段的整体时空特征;
将各片段的整体时空特征按片段顺序串接,最终形成整个视频的整体时空特征。
步骤S3中在多通道特征拼接网络模型的高层融合视频的整体时空特征后,通过全连接层融合三路并行卷积神经网络内的视频特征。
融合视频的整体时空特征的融合方式为串接融合、加权融合和平均融合中的一种。
步骤5用测试视频测试,具体为:首先,对空间网络输入多帧彩色图像序列用来提取视频的空间变化特性,对时间网络输入彩色图像序列对应的光流图像用来提取视频的时间变化特征,将处理好的视频序列的连续多帧图像按照每16帧一个片段划分为若干片段;然后将每个视频的若干视频片段作为输入,输入到迁移学习完成之后的MCFCN模型中,从而得到最后对视频序列行为的预测。
本发明构建多通道特征拼接网络模型,在模型低层通过卷积层和池化层提取每帧图像的特征,再在中层将这些连续帧的图像特征按序拼接,得到视频片段的特征,然后将视频片段的特征按顺序串接,获取属于这个视频级别的特征,最终融合视频级别特征,通过softmax层输出该视频行为的分类结果。该方法利用时空维度的转化增加网络处理多帧图像的能力,并进一步体现动作行为视频中的时空关联性,提高对复杂行为的识别率和鲁棒性。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (8)

1.一种基于长时程深度时空网络的行为识别方法,其特征在于,包括如下步骤:S1、构建多通道特征拼接网络模型;
S2、选取视频行为数据集,提取视频行为数据集中每个视频的视频帧和光流帧,将视频帧的集合作为彩色图像序列数据集,光流帧的集合作为光流图像序列数据集;
S3、将彩色图像序列数据集和光流图像序列数据集按照连续多帧分为若干片段,片段输入多通道特征拼接网络模型,先经过低层卷积层提取每个片段连续帧的时空特征,再由中层拼接生成每个视频片段的整体时空特征,并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征,然后在高层融合视频的整体时空特征,最后通过softmax层输出该视频行为的分类结果。
2.根据权利要求1所述的一种基于长时程深度时空网络的行为识别方法,其特征在于,还包括S4、训练多通道特征拼接网络模型,采用预训练参数加快每路卷积神经网络收敛速度,进行迁移学习。
3.根据权利要求1所述的一种基于长时程深度时空网络的行为识别方法,其特征在于,所述多通道特征拼接网络模型包括3个通道输入、90层网络和1个输出,所述3个通道输入分别为原始视频帧图像输入、X方向光流特征图像输入和Y方向光流特征图像输入,所述90层网络的前87层为分别对应3个通道输入的三路并行卷积神经网络,每路卷积神经网络均为29层且结构相同,所述90层网络的第88、89、90层为全连接层,所述输出为softmax层。
4.根据权利要求3所述的一种基于长时程深度时空网络的行为识别方法,其特征在于,所述每路卷积神经网络的前29层依次为2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、特征拼接层、片段特征串接层、3层卷积层、1层池化层、特征拼接层、3层卷积层、1层池化层、3层卷积层和1层池化层;所述卷积层的卷积核为3×3,所述池化层为最大池化,其池化核为2×2;所述特征拼接层以2×2方形的形式拼接。
5.根据权利要求1所述的一种基于长时程深度时空网络的行为识别方法,其特征在于,所述步骤S3中彩色图像序列数据集和光流图像序列数据集中每连续16帧划分为一个片段,在三路并行卷积神经网络的低层通过卷积层和池化层分别提取视频连续帧的时空特征;对卷积神经网络输入彩色图像序列数据集片段提取视频空间变化特征,对卷积神经网络输入光流图像序列数据集片段提取视频变化特征。
6.根据权利要求1所述的一种基于长时程深度时空网络的行为识别方法,其特征在于,所述步骤S3中由中层拼接生成每个视频片段的整体时空特征,并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征的具体方法为:
将卷积神经网络的低层获取的连续16帧片段的时空特征以每4帧作为一个单位,每个单位的4帧图像以2×2形式拼接为小块的整体时空特征;
每个小块的整体时空特征是三维的,保持第三维深度不变,将第一维长度和第二维宽度拼接,使连续16帧片段的时空特征转化为4个小块的整体时空特征;
4个小块的整体时空特征的第三维深度不变,将第一维长度和第二位宽度扩大一倍,再经过卷积池化后,将4个小块的整体时空特征以2×2形式拼接为片段的整体时空特征;
将各片段的整体时空特征按片段顺序串接,最终形成整个视频的整体时空特征。
7.根据权利要求1所述的一种基于长时程深度时空网络的行为识别方法,其特征在于,所述步骤S3中在多通道特征拼接网络模型的高层融合视频的整体时空特征后,通过全连接层融合三路并行卷积神经网络内的视频特征。
8.根据权利要求1所述的一种基于长时程深度时空网络的行为识别方法,其特征在于,所述融合视频的整体时空特征的融合方式为串接融合、加权融合和平均融合中的一种。
CN201810071442.3A 2018-01-25 2018-01-25 一种基于长时程深度时空网络的行为识别方法 Pending CN108319905A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810071442.3A CN108319905A (zh) 2018-01-25 2018-01-25 一种基于长时程深度时空网络的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810071442.3A CN108319905A (zh) 2018-01-25 2018-01-25 一种基于长时程深度时空网络的行为识别方法

Publications (1)

Publication Number Publication Date
CN108319905A true CN108319905A (zh) 2018-07-24

Family

ID=62887782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810071442.3A Pending CN108319905A (zh) 2018-01-25 2018-01-25 一种基于长时程深度时空网络的行为识别方法

Country Status (1)

Country Link
CN (1) CN108319905A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359545A (zh) * 2018-09-19 2019-02-19 北京航空航天大学 复杂低空环境下一种协同监视方法与装置
CN109376683A (zh) * 2018-11-09 2019-02-22 中国科学院计算技术研究所 一种基于稠密图的视频分类方法和系统
CN109657546A (zh) * 2018-11-12 2019-04-19 平安科技(深圳)有限公司 基于神经网络的视频行为识别方法及终端设备
CN109711380A (zh) * 2019-01-03 2019-05-03 电子科技大学 一种基于全局上下文信息的时序行为片段生成系统及方法
CN110070002A (zh) * 2019-03-29 2019-07-30 上海理工大学 一种基于3d卷积神经网络的行为识别方法
CN110084141A (zh) * 2019-04-08 2019-08-02 南京邮电大学 一种基于私有信息的跨领域场景识别方法
CN110399789A (zh) * 2019-06-14 2019-11-01 佳都新太科技股份有限公司 行人重识别方法、模型构建方法、装置、设备和存储介质
CN110969066A (zh) * 2018-09-30 2020-04-07 北京金山云网络技术有限公司 直播视频的识别方法、装置及电子设备
CN111563488A (zh) * 2020-07-14 2020-08-21 成都市映潮科技股份有限公司 一种视频主题内容识别方法、系统及存储介质
CN111753574A (zh) * 2019-03-26 2020-10-09 顺丰科技有限公司 抛扔区域定位方法、装置、设备及存储介质
CN112241665A (zh) * 2019-07-18 2021-01-19 顺丰科技有限公司 一种暴力分拣识别方法、装置、设备及存储介质
CN113015022A (zh) * 2021-02-05 2021-06-22 深圳市优必选科技股份有限公司 行为识别方法、装置、终端设备及计算机可读存储介质
WO2021139307A1 (zh) * 2020-01-08 2021-07-15 腾讯科技(深圳)有限公司 视频内容识别方法、装置、存储介质、以及计算机设备
CN113496156A (zh) * 2020-03-20 2021-10-12 阿里巴巴集团控股有限公司 一种情感预测方法及其设备
CN114842554A (zh) * 2022-04-22 2022-08-02 北京昭衍新药研究中心股份有限公司 一种基于局部和全局时空特征的群体猴子动作识别方法
CN115119014A (zh) * 2022-06-15 2022-09-27 马上消费金融股份有限公司 视频处理方法、插帧数量模型的训练方法及装置
CN114842554B (zh) * 2022-04-22 2024-05-14 北京昭衍新药研究中心股份有限公司 一种基于局部和全局时空特征的群体猴子动作识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218608A (zh) * 2013-04-19 2013-07-24 中国科学院自动化研究所 一种网络暴力视频的识别方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218608A (zh) * 2013-04-19 2013-07-24 中国科学院自动化研究所 一种网络暴力视频的识别方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359545A (zh) * 2018-09-19 2019-02-19 北京航空航天大学 复杂低空环境下一种协同监视方法与装置
CN109359545B (zh) * 2018-09-19 2020-07-21 北京航空航天大学 复杂低空环境下一种协同监视方法与装置
CN110969066B (zh) * 2018-09-30 2023-10-10 北京金山云网络技术有限公司 直播视频的识别方法、装置及电子设备
CN110969066A (zh) * 2018-09-30 2020-04-07 北京金山云网络技术有限公司 直播视频的识别方法、装置及电子设备
CN109376683A (zh) * 2018-11-09 2019-02-22 中国科学院计算技术研究所 一种基于稠密图的视频分类方法和系统
CN109657546A (zh) * 2018-11-12 2019-04-19 平安科技(深圳)有限公司 基于神经网络的视频行为识别方法及终端设备
CN109711380A (zh) * 2019-01-03 2019-05-03 电子科技大学 一种基于全局上下文信息的时序行为片段生成系统及方法
CN109711380B (zh) * 2019-01-03 2022-09-16 电子科技大学 一种基于全局上下文信息的时序行为片段生成系统及方法
CN111753574A (zh) * 2019-03-26 2020-10-09 顺丰科技有限公司 抛扔区域定位方法、装置、设备及存储介质
CN110070002A (zh) * 2019-03-29 2019-07-30 上海理工大学 一种基于3d卷积神经网络的行为识别方法
CN110084141A (zh) * 2019-04-08 2019-08-02 南京邮电大学 一种基于私有信息的跨领域场景识别方法
CN110399789A (zh) * 2019-06-14 2019-11-01 佳都新太科技股份有限公司 行人重识别方法、模型构建方法、装置、设备和存储介质
CN112241665A (zh) * 2019-07-18 2021-01-19 顺丰科技有限公司 一种暴力分拣识别方法、装置、设备及存储介质
WO2021139307A1 (zh) * 2020-01-08 2021-07-15 腾讯科技(深圳)有限公司 视频内容识别方法、装置、存储介质、以及计算机设备
US11983926B2 (en) 2020-01-08 2024-05-14 Tencent Technology (Shenzhen) Company Limited Video content recognition method and apparatus, storage medium, and computer device
CN113496156A (zh) * 2020-03-20 2021-10-12 阿里巴巴集团控股有限公司 一种情感预测方法及其设备
CN113496156B (zh) * 2020-03-20 2023-12-19 阿里巴巴集团控股有限公司 一种情感预测方法及其设备
CN111563488A (zh) * 2020-07-14 2020-08-21 成都市映潮科技股份有限公司 一种视频主题内容识别方法、系统及存储介质
CN113015022A (zh) * 2021-02-05 2021-06-22 深圳市优必选科技股份有限公司 行为识别方法、装置、终端设备及计算机可读存储介质
CN114842554A (zh) * 2022-04-22 2022-08-02 北京昭衍新药研究中心股份有限公司 一种基于局部和全局时空特征的群体猴子动作识别方法
CN114842554B (zh) * 2022-04-22 2024-05-14 北京昭衍新药研究中心股份有限公司 一种基于局部和全局时空特征的群体猴子动作识别方法
CN115119014A (zh) * 2022-06-15 2022-09-27 马上消费金融股份有限公司 视频处理方法、插帧数量模型的训练方法及装置
CN115119014B (zh) * 2022-06-15 2024-01-30 马上消费金融股份有限公司 视频处理方法、插帧数量模型的训练方法及装置

Similar Documents

Publication Publication Date Title
CN108319905A (zh) 一种基于长时程深度时空网络的行为识别方法
CN110765854B (zh) 一种视频动作识别方法
CN109993269B (zh) 基于注意力机制的单张图像人群计数方法
CN108509880A (zh) 一种视频人物行为语义识别方法
CN112597985B (zh) 一种基于多尺度特征融合的人群计数方法
CN109255284B (zh) 一种基于运动轨迹的3d卷积神经网络的行为识别方法
CN113158723B (zh) 一种端到端的视频动作检测定位系统
CN110188708A (zh) 一种基于卷积神经网络的人脸表情识别方法
CN108921942B (zh) 对图像进行2d转制3d的方法及装置
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN112183240B (zh) 一种基于3d时间流和并行空间流的双流卷积行为识别方法
CN110458085A (zh) 基于注意力增强三维时空表征学习的视频行为识别方法
CN110852295B (zh) 一种基于多任务监督学习的视频行为识别方法
CN106845329A (zh) 一种基于深度卷积特征多通道金字塔池化的动作识别方法
CN111539290A (zh) 视频动作识别方法、装置、电子设备及存储介质
CN111291647A (zh) 基于多尺度卷积核和超事件模块的单阶段动作定位方法
CN113963170A (zh) 一种基于交互式特征融合的rgbd图像显著性检测方法
CN112651360B (zh) 一种小样本下骨架动作识别方法
CN114332573A (zh) 基于注意力机制的多模态信息融合识别方法及系统
CN108805036A (zh) 一种新的非监督的视频语义提取方法
CN111860116A (zh) 一种基于深度学习和特权信息的场景识别方法
CN111242068A (zh) 基于视频的行为识别方法、装置、电子设备和存储介质
CN112633100B (zh) 行为识别方法、装置、电子设备和存储介质
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
Zhou et al. Depth-guided saliency detection via boundary information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180724

RJ01 Rejection of invention patent application after publication