CN110852295A - 一种基于多任务监督学习的视频行为识别方法 - Google Patents

一种基于多任务监督学习的视频行为识别方法 Download PDF

Info

Publication number
CN110852295A
CN110852295A CN201911132142.2A CN201911132142A CN110852295A CN 110852295 A CN110852295 A CN 110852295A CN 201911132142 A CN201911132142 A CN 201911132142A CN 110852295 A CN110852295 A CN 110852295A
Authority
CN
China
Prior art keywords
video
layer
convolution
classification
significance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911132142.2A
Other languages
English (en)
Other versions
CN110852295B (zh
Inventor
李楠楠
张世雄
赵翼飞
李若尘
李革
安欣赏
张伟民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Longgang Intelligent Audiovisual Research Institute
Original Assignee
Shenzhen Longgang Intelligent Audiovisual Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Longgang Intelligent Audiovisual Research Institute filed Critical Shenzhen Longgang Intelligent Audiovisual Research Institute
Publication of CN110852295A publication Critical patent/CN110852295A/zh
Application granted granted Critical
Publication of CN110852295B publication Critical patent/CN110852295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种基于多任务监督学习的视频行为识别方法,包括:步骤1)将输入视频划分成多个视频序列,每个视频序列包含若干帧图像;以及步骤2)设计3D卷积神经网络对视频序列提取时间和空间联合特征,实现显著性区域检测和视频行为分类。其中,这两个任务共享特征提取模块,显著性特征图用于指导行为识别特征的提取,使得神经网络更加关注于行为发生的区域,有利于网络学习到对运动分类敏感的特征,从而提高了行为识别的检测精度。同时,相比于单任务检测模型,显著性区域检测加快了视频行为分类任务的训练速度。在当前公布的测试数据集上,本发明提出的方法取得了领先的检测水平。

Description

一种基于多任务监督学习的视频行为识别方法
技术领域
本发明涉及机器学习方法和视频行为分析技术领域,具体涉及到一种基于多任务监督学习的视频行为识别方法。
背景技术
近年来,随着自媒体的兴起,互联网上存在着巨量的由用户上传的视频,且这个数量每日都被不断地进行刷新。如何智能地对这些视频进行分析,减少人工干预,提升管理效率是众多视频平台提供商关注的问题。利用计算机视觉技术进行智能视频分析是一种可行的解决方案,其中视频行为识别是高层次视频理解(例如视频推断、视频摘要等)的基础。目前普遍流行的视频行为识别方法都是基于单一任务的,即:利用标注数据训练一个神经网络模型,该模型只用于视频行为分类。例如,有些方法使用RGB图像和光流信息训练一个双通道神经网络实现行为分类。然而,机器学习的理论和实践都证实知识在相关的机器学习任务间可以传递和共享,联合学习多个任务比单独学习各个任务能获得更好的性能。
发明内容
本发明的目的是提供一种基于多任务监督学习的视频行为识别方法,给定一段视频序列作为输入,设计深度卷积网络模型提取特征,并产生两个相关联的任务输出:显著性区域检测和视频行为分类。由于共用特征提取网络,知识在这两个任务间传递和共享,因而使得两个关联任务相互促进,提升了视频行为分类的准确性。
本发明提供的技术方案如下:
根据本发明的一个方面,提供了一种基于多任务监督学习的视频行为识别方法,包括:步骤1)将输入视频划分成多个视频序列,每个视频序列包含若干帧图像;以及步骤2)设计3D卷积神经网络对视频序列提取时间和空间联合特征,实现显著性区域检测和视频行为分类。
优选地,在上述基于多任务监督学习的视频行为识别方法中,在步骤1)中:对于给定一段输入视频,把它均匀划分成若干段,每段包含27帧图像,称之为视频序列。
优选地,在上述基于多任务监督学习的视频行为识别方法中,步骤2)中,设计3D卷积深度神经网络对输入的视频序列提取时间和空间联合特征,并产生两个任务输出:图像显著性区域检测和视频行为分类。
优选地,在上述基于多任务监督学习的视频行为识别方法中,3D卷积神经网络上路分支:3D卷积和池化单元的输出信号fa送入全局均匀池化层,对视频行为分类特征进行降维,得到输入视频时空表述特征,再经过一个全连接层得到视频行为分类结果;以及3D卷积神经网络下路分支:特征图堆叠层接收显著性单元输出特征图
Figure BDA0002278615600000021
进行堆叠,得到特征fs经过2D卷积层a得到多通道融合显著性特征fb,fb输入到显著性图生成层,得到显著性区域检测结果。
根据本发明的另一方面,提供了一种基于多任务监督学习的视频行为识别系统,包括:视频特征提取模块,用于对划分输入视频得到的视频序列提取与分类任务相关的特征,其中与分类任务相关的特征为时间和空间联合特征;以及任务分类模块,用于实现根据视频序列的特征进行图像显著性区域检测和视频行为分类。
优选地,在上述基于多任务监督学习的视频行为识别系统中,视频特征提取模块包括:3D卷积和池化单元和显著性模板生成单元,其中,3D卷积和池化单元共有4组,前后串连;显著性模板生成单元共有3组,每个3D卷积和池化单元后都会连接一个显著性模板生成单元,用来生成显著性模板
Figure BDA0002278615600000022
和显著性特征图
Figure BDA0002278615600000023
其中,3D卷积和池化单元输出信号和显著性模板
Figure BDA0002278615600000024
进行点乘和相加得到混叠信号后,送入下一个3D卷积和池化单元作为输入。
优选地,在上述基于多任务监督学习的视频行为识别系统中,每组3D卷积和池化单元包括卷积层和池化层;以及每组显著性模板生成单元由3D均匀池化层、3D卷积层、第二2D卷积层、空域显著性激活层和2D上采样反卷积层组成,其中,输入信号经过处理,产生两路输出:一支经过3D均匀池化层、3D卷积层、第二2D卷积层和空域显著性激活层处理后输出图像显著性模板
Figure BDA0002278615600000025
另外一支经过3D均匀池化层、3D卷积层、第二2D卷积层和2D上采样反卷积层后输出显著性特征图
优选地,在上述基于多任务监督学习的视频行为识别系统中,3D卷积层的尺寸设置为3×3×3,第二2D卷积层的尺寸设置为1×1,空域显著性激活函数采用sigmoid函数,显著性模板
Figure BDA0002278615600000027
通过对显著性特征图
Figure BDA0002278615600000028
进行softmax运算得到,如下式所示:
训练阶段,行为分类损失函数Lact显著性区域检测损失函数Lact都采用交叉熵函数,最后整体的损失函数为两者之和,如下式所示:
Lall=Lact+Lsal
优选地,在上述基于多任务监督学习的视频行为识别系统中,任务分类模块包括:全连接层,用于视频行为分类;显著性图生成层,用于生成显著性区域检测结果;全局均匀池化层,用于对视频行为分类特征进行降维;以及第一2D卷积层,用于得到多通道融合显著性特征fb
与现有技术相比,本发明的有益效果是:
利用本发明提供的技术方案,在对视频中存在的行为进行识别时,采用了一种基于多任务监督学习的方式。相比于传统的单一任务模型的视频行为识别方法,多个关联任务共同学习由于存在知识的传递和共享,可以促进单个任务的学习,有效地提升了视频行为分类的准确率;同时,使用本发明提出的模板点乘单元,可以利用显著性区域检测图指导视频行为分类特征提取过程,提升了视频行为分类器训练的收敛速度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明的基于多任务监督学习的视频行为识别方法的流程图。
图2为本发明的基于多任务监督学习的视频行为识别方法的神经网络结构示意图。
图3为本发明的神经网络结构的3D卷积和池化单元的结构示意图。
图4为本发明的神经网络结构的的显著性模板生成单元的结构示意图。
具体实施方式
本发明提供的基于多任务监督学习的视频行为识别方法不同于以往的单任务学习模式的视频行为识别方法,在本发明中,设计了一个多分支深度神经网络模型来实现多个相关的学习任务,以此促进各个子任务的学习。具体地说,给定一段视频作为输入,神经网络模型的输出包括两项:行为分类和显著性区域检测。这是两个相关联的任务,检测到图像中的显著性区域,基于此进行行为分类将会更加准确。因为在包含运动的视频序列中,显著性区域往往就是运动发生的区域。如果神经网络在进行行为推断时,更加关注于来自于显著性区域的特征,则行为分类的准确性将得到提升。
本发明方法采用深度学习模型架构,设计一种端到端多任务分支的深度神经网络模型,使得多个相关任务之间的知识可以传递和共享,以此来提升视频行为分类的准确性。
本发明方法的原理是:1.)根据多个关联任务可以相互促进学习的理论,给定一段输入视频序列,设计深度神经网络提取共用特征,给出两种不同的预测输出,来提升视频行为分类的准确率;2.)由视频运动区域和视频显著性区域相重合为依据,利用显著性区域检测图来指导视频行为分类特征提取,加快了视频行为分类的训练过程。
一种基于多任务监督学习的视频行为识别方法,设计3D卷积神经网络提取时空联合表述特征,产生两个任务输出。具体地,此过程可分解为视频特征提取模块和任务分类模块。其中,视频特征提取模块,用于对均匀分割得到的视频序列提取与分类任务相关的特征;任务分类模块,用于实现根据视频序列特征进行行为分类和显著性区域检测。具体地,本发明提出的基于多任务监督学习的视频行为识别方法包括两个步骤:对输入视频进行划分,得到多个视频序列,每个视频序列包含若干帧图像;设计3D卷积深度神经网络模型产生两种不同的任务输出:图像显著性区域检测和视频行为分类,其中这两个任务共享特征提取网络模块,具有不同的分类器模块构造。具体地说,基于多任务监督学习的视频行为识别方法包括以下两个步骤:
1.)将输入视频划分成多个视频序列,每个视频序列包含若干帧图像;
2.)设计3D卷积深度神经网络模型对输入视频序列提取时间和空间联合特征,并产生两个任务输出:图像显著性区域检测和视频行为分类。
相比于以前的单一任务的视频行为识别方法,本发明提出的技术方案具有下列特性:1.对于一段的视频输入,存在两项相关联的任务输出:行为分类和显著性区域检测,其中显著性区域检测可以促进行为分类的准确率提升;2.两个任务共享特征提取网络,对显著性区域检测任务的训练将提升行为分类任务训练的收敛速度。
本发明提出的方法与现有的方法相比有两点主要的改进:1.)本发明提出的方法是基于多任务监督学习,相比于以往的基于单一任务训练模型的方法,输入一段视频,产生两个任务输出,这两个相关联的任务相互促进;2.)设计模板点乘(Mask Dot-multiplication)算子,用显著性区域检测结果指导行为分类器特征提取过程,使得在行为类型推断时可以更多关注与行为运动相关联的区域。
本发明还提供了一种基于多任务监督学习的视频行为识别系统,包括:视频特征提取模块,用于对划分输入视频得到的视频序列提取与分类任务相关的特征,其中与分类任务相关的特征为时间和空间联合特征;以及任务分类模块,用于实现根据视频序列的特征进行图像显著性区域检测和视频行为分类。
设计3D卷积神经网络提取时间和空间联合表述特征,完成两个相关任务:视频行为分类和显著性区域检测。这两个任务共享特征提取网络模块,分别具有分类或者检测任务网络模块。具体的即为,由3D卷积和池化单元生成时间和空间联合特征,用于视频行为分类任务;由显著性特征图生成显著性模板,显著性模板与3D卷积和池化单元输出信号进行混叠,指导时间和空间联合特征的提取。行为分类损失和显著性区域检测损失相加作为3D卷积神经网络的训练损失。
图1为本发明的基于多任务监督学习的视频行为识别方法的流程图,包括步骤s1-s2。一种基于多任务监督学习的视频行为识别方法,整体操作流程现从开始到结束分述如下:
s1:将输入视频划分成多个视频序列,每个视频序列包含若干帧图像。具体地,给定一段视频,把它均匀划分成若干段,每段包含27帧图像,称之为视频序列。
s2:设计3D卷积神经网络对视频序列提取时间和空间联合特征,产生两个任务输出。具体地,设计3D卷积深度神经网络对输入视频序列提取时间和空间联合特征,并产生两个任务输出:图像显著性区域检测和视频行为分类。图2为本发明设计的3D卷积神经网络结构示意图。将步骤1)所得的视频序列输入至图2所示的3D卷积神经网络进行行为分类和显著性区域检测。这两个任务共享特征提取层,特征提取层主要由3D卷积和池化单元1和显著性模板生成单元4构成。3D卷积和池化单元1共有4组,前后串连;显著性模板生成单元4共有3组,每个3D卷积和池化单元1后都会连接一个显著性模板生成单元4,用来生成显著性模板
Figure BDA0002278615600000051
和显著性特征图
Figure BDA0002278615600000052
3D卷积和池化单元1输出信号fo在模板点乘算子中进行点乘操作产生显著性信息加权信号fw,fo与fw相加得到混叠信号fw作为下一个3D卷积和池化单元1的输入。
图2中3D卷积神经网络上路分支:3D卷积和池化单元1的输出信号fa送入全局均匀池化层2,对视频行为分类特征进行降维,得到输入视频时空表述特征,再经过一个全连接层3得到行为分类结果,例如,交谈、步行、跑等行为,输出概率最大的为相对应的行为检测结果(图2中交谈为对应的行为,其后用对勾√标明);3D卷积神经网络下路分支:特征图堆叠层5接收显著性模块生成单元输出特征图
Figure BDA0002278615600000054
进行堆叠,得到特征fs(即,多个阶段的显著性特征通过堆叠的方式构成显著性特征堆叠图fs;),经过第一2D卷积层6得到多通道融合显著性特征fb。fb输入到显著性图生成层7,得到显著性区域检测结果。
如图3所示,3D卷积和池化单元1包括卷积层8和池化层9。卷积层8卷积核设置为3×3×3,池化层9采用极大值池化方式,尺寸设置为3×3×3。
图4为本发明的神经网络结构的的显著性模板生成单元的结构示意图。如图4所示,显著性模板生成单元4由3D均匀池化层10、3D卷积层11、第二2D卷积层12、空域显著性激活层13和2D上采样反卷积层14组成。输入信号经过处理,产生两路输出:一支经过3D均匀池化层10、3D卷积层11、第二2D卷积层12和空域显著性激活层13处理后输出图像显著性模板
Figure BDA0002278615600000061
另外一支经过3D均匀池化层10、3D卷积层11、第二2D卷积层12和2D上采样反卷积层14后输出显著性特征图
Figure BDA0002278615600000062
其中,3D卷积层11的尺寸设置为3×3×3,第二2D卷积层12的尺寸设置为1×1。空域显著性激活函数采用sigmoid函数。显著性模板
Figure BDA0002278615600000063
通过对显著性特征图
Figure BDA0002278615600000064
进行softmax运算得到,如式1所示:
训练阶段,行为分类损失函数Lact显著性区域检测损失函数Lact都采用交叉熵函数,最后整体的损失函数为两者之和,如式2所示:
Lall=Lact+Lsal (2)
以上即为本发明提出的一种基于多任务监督学习的视频行为识别方法的具体实施方案。此实施方案是在HMDB-51(Hildegard Kuehne,Hueihan Jhuang,Est′1balizGarrote,Tomaso Poggio,and Thomas Serre.Hmdb:a large video database for humanmotion recognition.In Proc.IEEE Int.Conf.on Computer Vision(ICCV),2011.)数据集上进行验证的,并用公认的评价标准平均准确率(Average Accuracy)对实验结果进行了评估。在与当前使用3D卷积的单一任务模型的比较中,本发明提出的方法取得了领先的检测精度,具体比较结果如下表所示。在表1中,平均准确率越高对应的模型越好。由表1结果可知,目前使用3D卷积单一任务模型检测结果的平均准确率为51.6%、56.4%和61.0%,与此相比,本发明的平均准确率达到了62.7,取得了领先的检测水平。
Figure BDA0002278615600000066
Figure BDA0002278615600000071
表1.与目前使用3D卷积单一任务模型检测结果比较
比较参考文献:
[1]Du Tran,Lubomir Bourdev,Rob Fergus,Lorenzo Torresani,and ManoharPaluri.Learning spatiotemporal features with 3d convolutional networks.InProc.IEEE Int.Conf.on Computer Vision(ICCV),2015.
[2]Kensho Hara,Hirokatsu Kataoka,and Yutaka Satoh.Can spatiotemporal3d cnns retrace the history of 2d cnns and imagenet.In Proc.IEEE Conf.onComputer Vision and Pattern Recognition(CVPR),2018.

Claims (9)

1.一种基于多任务监督学习的视频行为识别方法,其特征在于,包括:
步骤1)将输入视频划分成多个视频序列,每个视频序列包含若干帧图像;以及
步骤2)设计3D卷积神经网络对视频序列提取时间和空间联合特征,实现显著性区域检测和视频行为分类。
2.根据权利要求1所述的基于多任务监督学习的视频行为识别方法,其特征在于,在步骤1)中:对于给定一段输入视频,把它均匀划分成若干段,每段包含27帧图像,称之为视频序列。
3.根据权利要求1所述的基于多任务监督学习的视频行为识别方法,其特征在于,步骤2)中,设计3D卷积深度神经网络对输入的视频序列提取时间和空间联合特征,并产生两个任务输出:图像显著性区域检测和视频行为分类。
4.根据权利要求1所述的基于多任务监督学习的视频行为识别方法,其特征在于,其中,所述3D卷积神经网络上路分支:3D卷积和池化单元的输出信号fa送入全局均匀池化层,对视频行为分类特征进行降维,得到输入视频时空表述特征,再经过一个全连接层得到视频行为分类结果;以及所述3D卷积神经网络下路分支:特征图堆叠层接收显著性单元输出特征图进行堆叠,得到特征fs经过2D卷积层a得到多通道融合显著性特征fb,fb输入到显著性图生成层,得到显著性区域检测结果。
5.一种基于多任务监督学习的视频行为识别系统,其特征在于,包括:
视频特征提取模块,用于对划分输入视频得到的视频序列提取与分类任务相关的特征,其中所述与分类任务相关的特征为时间和空间联合特征;以及
任务分类模块,用于实现根据所述视频序列的特征进行图像显著性区域检测和视频行为分类。
6.根据权利要求5所述的基于多任务监督学习的视频行为识别系统,其特征在于,所述视频特征提取模块包括:3D卷积和池化单元和显著性模板生成单元,其中,所述3D卷积和池化单元共有4组,前后串连;所述显著性模板生成单元共有3组,每个所述3D卷积和池化单元后都会连接一个所述显著性模板生成单元,用来生成显著性模板
Figure FDA0002278615590000012
和显著性特征图
Figure FDA0002278615590000021
其中,3D卷积和池化单元输出信号和显著性模板进行点乘和相加得到混叠信号后,送入下一个3D卷积和池化单元作为输入。
7.根据权利要求6所述的基于多任务监督学习的视频行为识别系统,其特征在于,
每组所述3D卷积和池化单元包括卷积层和池化层;以及
每组所述显著性模板生成单元由3D均匀池化层、3D卷积层、第二2D卷积层、空域显著性激活层和2D上采样反卷积层组成,其中,输入信号经过处理,产生两路输出:一支经过3D均匀池化层、3D卷积层、第二2D卷积层和空域显著性激活层处理后输出图像显著性模板
Figure FDA0002278615590000023
另外一支经过3D均匀池化层、3D卷积层、第二2D卷积层和2D上采样反卷积层后输出显著性特征图
8.根据权利要求7所述的基于多任务监督学习的视频行为识别系统,其特征在于,
所述3D卷积层的尺寸设置为3×3×3,所述第二2D卷积层的尺寸设置为1×1,空域显著性激活函数采用sigmoid函数,显著性模板
Figure FDA0002278615590000025
通过对显著性特征图
Figure FDA0002278615590000026
进行softmax运算得到,如下式所示:
Figure FDA0002278615590000027
训练阶段,行为分类损失函数Lact显著性区域检测损失函数Lact都采用交叉熵函数,最后整体的损失函数为两者之和,如下式所示:
Lall=Lact+Lsal
9.根据权利要求5所述的基于多任务监督学习的视频行为识别系统,其特征在于,所述任务分类模块包括:
全连接层,用于视频行为分类;
显著性图生成层,用于生成显著性区域检测结果;
全局均匀池化层,用于对视频行为分类特征进行降维;以及
第一2D卷积层,用于得到多通道融合显著性特征fb
CN201911132142.2A 2019-10-15 2019-11-19 一种基于多任务监督学习的视频行为识别方法 Active CN110852295B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910976763 2019-10-15
CN2019109767632 2019-10-15

Publications (2)

Publication Number Publication Date
CN110852295A true CN110852295A (zh) 2020-02-28
CN110852295B CN110852295B (zh) 2023-08-25

Family

ID=69602501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911132142.2A Active CN110852295B (zh) 2019-10-15 2019-11-19 一种基于多任务监督学习的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN110852295B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488805A (zh) * 2020-03-24 2020-08-04 广州大学 一种基于显著性特征提取的视频行为识别方法
CN112686305A (zh) * 2020-12-29 2021-04-20 深圳龙岗智能视听研究院 一种自监督学习辅助下的半监督学习方法及系统
CN112926549A (zh) * 2021-04-15 2021-06-08 华中科技大学 基于时间域-空间域特征联合增强的步态识别方法与系统
CN113469142A (zh) * 2021-03-12 2021-10-01 山西长河科技股份有限公司 一种监控视频时空信息融合的分类方法、装置及终端

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100111396A1 (en) * 2008-11-06 2010-05-06 Los Alamos National Security Object and spatial level quantitative image analysis
CN102348101A (zh) * 2010-07-30 2012-02-08 深圳市先进智能技术研究所 一种考场智能监控系统和方法
WO2016168869A1 (en) * 2015-04-16 2016-10-20 California Institute Of Technology Systems and methods for behavior detection using 3d tracking and machine learning
CN106127170A (zh) * 2016-07-01 2016-11-16 重庆中科云丛科技有限公司 一种融合关键特征点的训练方法、识别方法及系统
CN106686377A (zh) * 2016-12-30 2017-05-17 佳都新太科技股份有限公司 一种基于深层神经网络的视频重点区域确定算法
CN106909924A (zh) * 2017-02-18 2017-06-30 北京工业大学 一种基于深度显著性的遥感影像快速检索方法
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN109241829A (zh) * 2018-07-25 2019-01-18 中国科学院自动化研究所 基于时空注意卷积神经网络的行为识别方法及装置
CN109325526A (zh) * 2018-09-05 2019-02-12 福州大学 一种采用卷积深度置信网络的配电网故障分类方法
CN109784150A (zh) * 2018-12-06 2019-05-21 东南大学 基于多任务时空卷积神经网络的视频驾驶员行为识别方法
CN110175580A (zh) * 2019-05-29 2019-08-27 复旦大学 一种基于时序因果卷积网络的视频行为识别方法
CN110287938A (zh) * 2019-07-02 2019-09-27 齐鲁工业大学 基于关键片段检测的事件识别方法、系统、设备及介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100111396A1 (en) * 2008-11-06 2010-05-06 Los Alamos National Security Object and spatial level quantitative image analysis
CN102348101A (zh) * 2010-07-30 2012-02-08 深圳市先进智能技术研究所 一种考场智能监控系统和方法
WO2016168869A1 (en) * 2015-04-16 2016-10-20 California Institute Of Technology Systems and methods for behavior detection using 3d tracking and machine learning
CN106127170A (zh) * 2016-07-01 2016-11-16 重庆中科云丛科技有限公司 一种融合关键特征点的训练方法、识别方法及系统
CN106686377A (zh) * 2016-12-30 2017-05-17 佳都新太科技股份有限公司 一种基于深层神经网络的视频重点区域确定算法
CN106909924A (zh) * 2017-02-18 2017-06-30 北京工业大学 一种基于深度显著性的遥感影像快速检索方法
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN109241829A (zh) * 2018-07-25 2019-01-18 中国科学院自动化研究所 基于时空注意卷积神经网络的行为识别方法及装置
CN109325526A (zh) * 2018-09-05 2019-02-12 福州大学 一种采用卷积深度置信网络的配电网故障分类方法
CN109784150A (zh) * 2018-12-06 2019-05-21 东南大学 基于多任务时空卷积神经网络的视频驾驶员行为识别方法
CN110175580A (zh) * 2019-05-29 2019-08-27 复旦大学 一种基于时序因果卷积网络的视频行为识别方法
CN110287938A (zh) * 2019-07-02 2019-09-27 齐鲁工业大学 基于关键片段检测的事件识别方法、系统、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
夏利民、时晓亭: "基于关键帧的复杂人体行为识别", vol. 29, no. 2, pages 154 - 162 *
杨斌: "基于深度学习的视频行为识别方法研究", 《中国优秀硕士论文电子期刊网》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488805A (zh) * 2020-03-24 2020-08-04 广州大学 一种基于显著性特征提取的视频行为识别方法
CN111488805B (zh) * 2020-03-24 2023-04-25 广州大学 一种基于显著性特征提取的视频行为识别方法
CN112686305A (zh) * 2020-12-29 2021-04-20 深圳龙岗智能视听研究院 一种自监督学习辅助下的半监督学习方法及系统
CN113469142A (zh) * 2021-03-12 2021-10-01 山西长河科技股份有限公司 一种监控视频时空信息融合的分类方法、装置及终端
CN113469142B (zh) * 2021-03-12 2022-01-14 山西长河科技股份有限公司 一种监控视频时空信息融合的分类方法、装置及终端
CN112926549A (zh) * 2021-04-15 2021-06-08 华中科技大学 基于时间域-空间域特征联合增强的步态识别方法与系统
CN112926549B (zh) * 2021-04-15 2022-06-24 华中科技大学 基于时间域-空间域特征联合增强的步态识别方法与系统

Also Published As

Publication number Publication date
CN110852295B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN110852295A (zh) 一种基于多任务监督学习的视频行为识别方法
CN107679462B (zh) 一种基于小波的深度多特征融合分类方法
US11900646B2 (en) Methods for generating a deep neural net and for localising an object in an input image, deep neural net, computer program product, and computer-readable storage medium
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
WO2023185494A1 (zh) 一种点云数据识别方法、装置、电子设备及存储介质
CN112749666B (zh) 一种动作识别模型的训练及动作识别方法与相关装置
CN112818951A (zh) 一种票证识别的方法
CN111932577B (zh) 文本检测方法、电子设备及计算机可读介质
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN112163447B (zh) 基于Attention和SqueezeNet的多任务实时手势检测和识别方法
CN111160356A (zh) 一种图像分割分类方法和装置
CN110827265A (zh) 基于深度学习的图片异常检测方法
CN112183649A (zh) 一种用于对金字塔特征图进行预测的算法
US20240161531A1 (en) Transformer-based multi-scale pedestrian re-identification method
CN114494981A (zh) 一种基于多层次运动建模的动作视频分类方法及系统
Petrovai et al. Multi-task network for panoptic segmentation in automated driving
Li et al. Deep reasoning with multi-scale context for salient object detection
Niu et al. Boundary-aware RGBD salient object detection with cross-modal feature sampling
CN114882011A (zh) 一种基于改进Scaled-YOLOv4模型的织物瑕疵检测方法
CN114996495A (zh) 一种基于多原型和迭代增强的单样本图像分割方法及装置
CN105956604B (zh) 一种基于两层时空邻域特征的动作识别方法
CN113822134A (zh) 一种基于视频的实例跟踪方法、装置、设备及存储介质
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant