CN111353394A - 一种基于三维交替更新网络的视频行为识别方法 - Google Patents

一种基于三维交替更新网络的视频行为识别方法 Download PDF

Info

Publication number
CN111353394A
CN111353394A CN202010105277.6A CN202010105277A CN111353394A CN 111353394 A CN111353394 A CN 111353394A CN 202010105277 A CN202010105277 A CN 202010105277A CN 111353394 A CN111353394 A CN 111353394A
Authority
CN
China
Prior art keywords
network
video
training
data
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010105277.6A
Other languages
English (en)
Other versions
CN111353394B (zh
Inventor
胡建国
蔡佳辉
王金鹏
陈嘉敏
林佳玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Intelligent City Development Institute
Sun Yat Sen University
Original Assignee
Guangzhou Intelligent City Development Institute
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Intelligent City Development Institute, Sun Yat Sen University filed Critical Guangzhou Intelligent City Development Institute
Priority to CN202010105277.6A priority Critical patent/CN111353394B/zh
Publication of CN111353394A publication Critical patent/CN111353394A/zh
Application granted granted Critical
Publication of CN111353394B publication Critical patent/CN111353394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于三维交替更新网络的视频行为识别方法,涉及计算机视觉领域。该视频行为识别方法包括步骤:S1、将视频分为连续的帧,对数据集进行预处理;S2、对参与训练的视频片段执行数据增强操作;S3、将执行数据增强操作后的训练数据放入3D CliqueNet架构中进行训练,获得网络的预训练模型;S4、输入测试数据得到测试数据集的行为分类结果,对经过训练的网络进行测试。本发明的方法使用3D CliquNet来提取时空信息,该网络能最大化提升深度网络中的信息流的流动,可以减少训练困难以及更有效的利用参数。通过在Kinetics数据集上进行预训练,该方法具有较高的行为识别表现以及对于复杂环境具有更好的鲁棒性。

Description

一种基于三维交替更新网络的视频行为识别方法
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于三维交替更新网络的视频行为识别方法。
背景技术
人类行为识别是一项基本但具有挑战性的任务,已经进行了数十年的研究。受到卷积神经网络(ConvolutionalNeural Networks,CNNs)在图像域中取得了较大的成功所获得的启发,人们将卷积神经网络应用到行为识别中,引入深度模型用于视频域的行为识别以取代传统的手工识别方法,取得了较好的效果。
视频可以看成是由一系列具有时域关系的静态图片堆叠而成,它是三维时空信号。不同于静态图像识别只需要获取图片的空间信息,视频中的行为识别需要捕获视频的三维时空信息,包括每一帧图片所包含的空间信息以及多帧图片之间的时域信息。
行为识别中经典的识别方法包括两流卷积神经网络(two-stream)和三维卷积神经网络(3D ConvolutionalNeural Networks,3D CNNs)。两流卷积神经网络采用两个深度网络分别对视频的rgb图像和光流图像进行训练,三维卷积神经网络则利用三维卷积操作去提取视频的时间和空间特征。
两流卷积神经网络的三个主要缺点:1、两个网络的融合操作只是在最后分类评分上使用平均法或SVM执行,因此不能学习时域和空域之间像素的对应关系;2、在时间尺度上受限,空间卷积神经网络(ConvNet)仅在单个帧上操作,而时间ConvNet仅在L个时域相邻光流帧(例如L=10)的堆叠上操作,不能很好地建模视频帧之间的时域关系;3、这种方法需要提前计算光流,因此网络不能实现端到端的训练,而且计算光流需要付出昂贵的代价。
3D卷积神经网络使用3D卷积和3D池化操作直接从堆叠的视频帧中学习时空特征,但3D卷积神经网络包含过多的参数,随着层数的增加,优化难度急剧增大,因此是3D卷积神经网络的识别表现一直不如两流卷积神经网络。同时卷积神经网络(2D卷积和3D卷积)一直以来都存在一个问题,随着网络层数的增加,会遇到梯度消失和梯度爆炸的问题,即数据在多层传播后很可能会逐渐消失。残差网络(ResNet)通过“捷径连接(skip connection)”将上一层的数据直接传送到下一层或下面几层,该结构一定程度上在促进了数据在层间的流通,但接近输出的网络层还是没有充分获得网络前面的特征图。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于三维交替更新网络的视频行为识别方法。
一种基于三维交替更新网络的视频行为识别方法,其包括以下步骤:
S1、将视频分为连续的帧,对数据集进行预处理;
S2、对参与训练的视频片段执行数据增强操作;
S3、将执行数据增强操作后的训练数据放入3D CliqueNet架构中进行训练,获得网络的预训练模型;
S4、输入测试数据得到测试数据集的行为分类结果,对经过训练的网络进行测试。
优选地,在上述的基于三维交替更新网络的视频行为识别方法中,所述步骤S1的具体步骤包括:提取Kinetics数据集上每个视频的RGB帧并保存为.jpg格式的图片,然后对需要训练的视频帧通过统一采样选择一个时域位置,围绕该时域位置获得一个包含16帧的视频片段。
优选地,在上述的基于三维交替更新网络的视频行为识别方法中,如果视频片段的长度短于16帧,则循环视频多次,直到选择的视频片段达到16帧。
优选地,在上述的基于三维交替更新网络的视频行为识别方法中,在所述步骤S2中,所述的数据增强包括随机裁剪、亮度与对比度调整,随机裁剪每一帧图片到224像素×224像素,以50%的概率水平翻转训练的帧,亮度与对比度调整同样应用到每一帧。
优选地,在上述的基于三维交替更新网络的视频行为识别方法中,所述3DCliqueNet架构架构由多个3D Clique Block块构成,每一层的信息来自于之前的层,且仅限于单向流向之后的层。
优选地,在上述的基于三维交替更新网络的视频行为识别方法中,3D CliqueBlock块中的每一层网络均为双向连接,任意一层网络既为其它层的输入,也是其他层的输出。
优选地,在上述的基于三维交替更新网络的视频行为识别方法中,3D CliqueNet架构的每一个块中的网络层参数更新分为两个阶段,第一阶段中第1层的输出为:xl=Hl([x0,x1,…,xl-1]),其中,[x0,x1,…,xl-1]表示前1层输出特征图的串联连接。
优选地,在上述的基于三维交替更新网络的视频行为识别方法中,在第二阶段,各层开始交替更新,将其它所有层串联起来更新,每一层都会从其他层中收到反馈信息流,第k(k>=2)中的第i(i>=1)层表示如下:
Figure BDA0002388332380000031
Figure BDA0002388332380000032
其中,*表示卷积操作,W表示参数且Wij在不同阶段保持重用,g表示一个非线性激活函数。
优选地,在上述的基于三维交替更新网络的视频行为识别方法中,在所述步骤S3中,采用随机梯度下降法训练网络,设定初始学习速率为0.1,在验证损失饱和之后将其除以10继续训练,网络训练共迭代45次。
优选地,在上述的基于三维交替更新网络的视频行为识别方法中,网络的具体训练步骤包括:
S31、搭建3D CliqueNet架构用于行为识别,并对网络进行初始化;
S32、对视频流进行预处理获得视频片段,并进行数据增强操作,所述预处理包括视频帧分割、裁剪;
S33、设置训练网络的超参数,包括迭代次数、批次大小、动量设定;
S34、传入一批次数据进行训练,并计算得到训练损失值,若一次迭代的最后一批次包含的数据大小小于设定的批次大小,则把将剩下的数据当成一个批次数据输入;
S35、回传损失值,使用BP算法调整网络参数;
S36、如果达到迭代次数,则停止训练,否则,继续步骤S34。
优选地,在上述的基于三维交替更新网络的视频行为识别方法中,在所述步骤S32中,对视频流进行的预处理包括视频帧分割、裁剪,在所述步骤S33中,设置训练网络的超参包括迭代次数、批次大小、动量设定。
本发明的有益效果:本发明的方法使用3D CliquNet来提取时空信息,该网络能最大化提升深度网络中的信息流的流动,可以减少训练困难以及更有效的利用参数。通过在Kinetics数据集上进行预训练,该方法具有较高的行为识别表现以及对于复杂环境具有更好的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一实施例的流程示意图;
图2为本发明一实施例的流程示意图;
图3为含有5个卷积层的CliqueNet块结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明的实施例提出的一种基于三维交替更新网络的视频行为识别方法,其包括以下步骤:
S1、将视频分为连续的帧,对数据集进行预处理;
S2、对参与训练的视频片段执行数据增强操作;
S3、将执行数据增强操作后的训练数据放入3D CliqueNet架构中进行训练,获得网络的预训练模型;
S4、输入测试数据得到测试数据集的行为分类结果,对经过训练的网络进行测试。
具体地,在本发明的优选实施例中,步骤S1的具体步骤包括:提取Kinetics数据集上每个视频的RGB帧并保存为.jpg格式的图片,然后对需要训练的视频帧通过统一采样选择一个时域位置,围绕该时域位置获得一个包含16帧的视频片段。如果视频片段的长度短于16帧,则循环视频多次,直到选择的视频片段达到16帧。
进一步地,在步骤S2中,所述的数据增强包括随机裁剪、亮度与对比度调整,随机裁剪每一帧图片到224像素×224像素,以50%的概率水平翻转训练的帧,亮度与对比度调整同样应用到每一帧。通过数据增强操作,可以提高识别系统的鲁棒性。
进一步地,在本发明的优选实施例中,3D CliqueNet架构架构由多个3D CliqueBlock块构成,每一层的信息来自于之前的层,且仅限于单向流向之后的层。3D CliqueBlock块中的每一层网络均为双向连接,任意一层网络既为其它层的输入,也是其他层的输出。3D CliqueNet架构的每一个块中的网络层连接类似于一个环形结构,如3图所示,直观的展示了一个含有5个卷积层的CliqueNet块结构示意图。从图中可以看出,块中的每一层网络均是双向连接,任意一层网络既是其它层的输入也是其他层的输出,网络不仅有前传的部分,同时还能根据后面层级的输出对前面层级的特征图做优化,即连接几个先前的层以更新下一层,之后连接新更新的层用来重新更新前一层,通过此种设计结构,卷积输出的特征图可重复使用,从而可以最大化网络中传输的信息流和反馈机制。
进一步地,在本发明的优选实施例中,3D CliqueNet架构的每一个块中的网络层参数更新分为两个阶段,第一个阶段如同密集卷积神经网络(Dense ConvolutionalNetwork,DenseNet)的前向传播一样,网络每一层的输入都是前面所有层输出的并集,而该层所学习的特征图也会被直接传给其后面所有层作为输入。
其中,第一阶段中第1层的输出为:xl=Hl([x0,x1,…,xl-1]),[x0,x1,…,xl-1]表示前1层输出特征图的串联连接。
在第二阶段,各层开始交替更新,将其它所有层串联起来更新,每一层都会从其他层中收到反馈信息流。第k(k>=2)中的第i(i>=1)层表示如下:
Figure BDA0002388332380000061
其中,*表示卷积操作,W表示参数且Wij在不同阶段保持重用,g表示一个非线性激活函数。
具有5个卷积层的3D CliqueNet块的传播如下表1所示:
表1
Figure BDA0002388332380000071
表中Wij是从Xi到Xj参数的权重,并保持重用,{}表示串联操作。网络中的信息流传播可以分为两个阶段。在第一阶段,类似于普通网络的传播过程,输入层X0通过单方向连接初始化所有的层,每一个更新的层通过串联去更新下一层,除了要更新的顶层之外,所有的层都串联连接作为底层。
进一步地,在本发明的优选实施例中,在步骤S3中,采用随机梯度下降法训练网络,设定初始学习速率为0.1,在验证损失饱和之后将其除以10继续训练,网络训练共迭代45次。
进一步地,如图2所示,在本发明的优选实施例中,网络的具体训练步骤包括:
S31、搭建3D CliqueNet架构用于行为识别,并对网络进行初始化;
S32、对视频流进行预处理获得视频片段,并进行数据增强操作;
S33、设置训练网络的超参数;
S34、传入一批次数据进行训练,并计算得到训练损失值,若一次迭代的最后一批次包含的数据大小小于设定的批次大小,则把将剩下的数据当成一个批次数据输入;
S35、回传损失值,使用BP算法调整网络参数;
S36、如果达到迭代次数,则停止训练,否则,继续步骤S34。
具体地,在步骤S32中,对视频流进行的预处理包括视频帧分割、裁剪,在步骤S33中,设置训练网络的超参数包括迭代次数、批次大小、动量。
本发明使用Kinetics视频数据集中的训练集对网络进行训练,Kinetics视频数据集涵盖多种多样的人类行为,包含超过300000视频片段,共400个类。每个视频片段大约10秒钟,且经过多轮人工标注,是一个高质量的大型视频数据集。
在Kinetics数据集上的四种网络结构如下表2所示:
表2
Figure BDA0002388332380000081
表2中每一个块中的第一个数字表示每一个卷积层中的滤波器,第二个数字表示该块所包含的卷积层数量。网络架构中的过渡层由卷积层和池化层组成,通过卷积和池化来改变特征图大小,使得前一个块的输出特征图大小和后一个块的输入特征图大小保持一致。
在对经过训练的网络进行测试时,本发明使用步骤S3中的训练模型来进行行为识别。在测试过程中,使用滑动窗口的方式产生输入视频片段,每一个视频分离为非重叠的16帧。通过训练模型得到该视频片段在每一个类上的评分,分数最高的即认为是该类别。基于三维交替更新网络
综上所述,本发明提出的带自动更新功能的三维卷积神经网络(3D CliqueNet)架构的视频行为识别方法,其工作流程为:首先,将数据库中的视频进行预处理,将视频分为连续的帧,并对预处理后的图片进行数据增强以增加系统的鲁棒性。然后,将处理后的训练数据放入3D CliqueNet架构中进行训练,获得网络的预训练模型,通过3D CliqueNet架构用于视频的特征提取,该网络架构可以改善网络中信息的流动、减少训练的困难以及更有效的利用参数。使得在提升训练速度的情况下可得到较高的识别率。最后,输入测试数据得到测试数据集的行为分类结果,对经过训练的网络进行测试。该方法通过引入一种新的带自动更新功能的三维卷积神经网络架构,不仅能实现实时识别视频中人类行为,还能提高系统的识别率和鲁棒性。
以上对本发明实施例所提供的一种基于三维交替更新网络的视频行为识别方法进行了详细介绍,具体实时方式中采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于三维交替更新网络的视频行为识别方法,其特征在于,包括以下步骤:
S1、将视频分为连续的帧,对数据集进行预处理;
S2、对参与训练的视频片段执行数据增强操作;
S3、将执行数据增强操作后的训练数据放入3D CliqueNet架构中进行训练,获得网络的预训练模型;
S4、输入测试数据得到测试数据集的行为分类结果,对经过训练的网络进行测试。
2.根据权利要求1所述的基于三维交替更新网络的视频行为识别方法,其特征在于,所述步骤S1的具体步骤包括:提取Kinetics数据集上每个视频的RGB帧并保存为.jpg格式的图片,然后对需要训练的视频帧通过统一采样选择一个时域位置,围绕该时域位置获得一个包含16帧的视频片段。
3.根据权利要求2所述的基于三维交替更新网络的视频行为识别方法,其特征在于,如果视频片段的长度短于16帧,则循环视频多次,直到选择的视频片段达到16帧。
4.根据权利要求1或2所述的基于三维交替更新网络的视频行为识别方法,其特征在于,在所述步骤S2中,所述的数据增强包括随机裁剪、亮度与对比度调整,随机裁剪每一帧图片到224像素×224像素,以50%的概率水平翻转训练的帧,亮度与对比度调整同样应用到每一帧。
5.根据权利要求1所述的基于三维交替更新网络的视频行为识别方法,其特征在于,所述3D CliqueNet架构架构由多个3D Clique Block块构成,每一层的信息来自于之前的层,且仅限于单向流向之后的层。
6.根据权利要求5所述的基于三维交替更新网络的视频行为识别方法,其特征在于,3DClique Block块中的每一层网络均为双向连接,任意一层网络既为其它层的输入,也是其他层的输出。
7.根据权利要求1所述的基于三维交替更新网络的视频行为识别方法,其特征在于,3DCliqueNet架构的每一个块中的网络层参数更新分为两个阶段,第一阶段中第1层的输出为:xl=Hl([x0,x1,…,xl-1]),其中,[x0,x1,…,xl-1]表示前1层输出特征图的串联连接。
8.根据权利要求7所述的基于三维交替更新网络的视频行为识别方法,其特征在于,在第二阶段,各层开始交替更新,将其它所有层串联起来更新,每一层都会从其他层中收到反馈信息流,第k(k>=2)中的第i(i>=1)层表示如下:
Figure FDA0002388332370000021
其中,*表示卷积操作,W表示参数且Wij在不同阶段保持重用,g表示一个非线性激活函数。
9.根据权利要求1所述的基于三维交替更新网络的视频行为识别方法,其特征在于,在所述步骤S3中,采用随机梯度下降法训练网络,设定初始学习速率为0.1,在验证损失饱和之后将其除以10继续训练,网络训练共迭代45次。
10.根据权利要求9所述的基于三维交替更新网络的视频行为识别方法,其特征在于,网络的具体训练步骤包括:
S31、搭建3D CliqueNet架构用于行为识别,并对网络进行初始化;
S32、对视频流进行预处理获得视频片段,并进行数据增强操作,所述预处理包括视频帧分割、裁剪;
S33、设置训练网络的超参数,包括迭代次数、批次大小、动量设定;
S34、传入一批次数据进行训练,并计算得到训练损失值,若一次迭代的最后一批次包含的数据大小小于设定的批次大小,则把将剩下的数据当成一个批次数据输入;
S35、回传损失值,使用BP算法调整网络参数;
S36、如果达到迭代次数,则停止训练,否则,继续步骤S34。
CN202010105277.6A 2020-02-20 2020-02-20 一种基于三维交替更新网络的视频行为识别方法 Active CN111353394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010105277.6A CN111353394B (zh) 2020-02-20 2020-02-20 一种基于三维交替更新网络的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010105277.6A CN111353394B (zh) 2020-02-20 2020-02-20 一种基于三维交替更新网络的视频行为识别方法

Publications (2)

Publication Number Publication Date
CN111353394A true CN111353394A (zh) 2020-06-30
CN111353394B CN111353394B (zh) 2023-05-23

Family

ID=71192399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010105277.6A Active CN111353394B (zh) 2020-02-20 2020-02-20 一种基于三维交替更新网络的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN111353394B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232242A (zh) * 2020-10-21 2021-01-15 黄河水利委员会黄河水利科学研究院 基于人工智能的涉水识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709511A (zh) * 2016-12-08 2017-05-24 华中师范大学 基于深度学习的城市轨道交通全景监控视频故障检测方法
CN108830252A (zh) * 2018-06-26 2018-11-16 哈尔滨工业大学 一种融合全局时空特征的卷积神经网络人体动作识别方法
WO2019237567A1 (zh) * 2018-06-14 2019-12-19 江南大学 基于卷积神经网络的跌倒检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709511A (zh) * 2016-12-08 2017-05-24 华中师范大学 基于深度学习的城市轨道交通全景监控视频故障检测方法
WO2019237567A1 (zh) * 2018-06-14 2019-12-19 江南大学 基于卷积神经网络的跌倒检测方法
CN108830252A (zh) * 2018-06-26 2018-11-16 哈尔滨工业大学 一种融合全局时空特征的卷积神经网络人体动作识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232242A (zh) * 2020-10-21 2021-01-15 黄河水利委员会黄河水利科学研究院 基于人工智能的涉水识别方法及装置

Also Published As

Publication number Publication date
CN111353394B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN111062872B (zh) 一种基于边缘检测的图像超分辨率重建方法及系统
CN109615582B (zh) 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
CN110555434B (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN108830252A (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN112149459B (zh) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
JP2022548712A (ja) フィーチャーピラミッドを融合した敵対的生成ネットワークによる画像ヘイズ除去方法
CN106096568A (zh) 一种基于cnn和卷积lstm网络的行人再识别方法
CN107689034A (zh) 一种神经网络的训练方法、去噪方法及装置
CN107862376A (zh) 一种基于双流神经网络的人体图像动作识别方法
CN109583340A (zh) 一种基于深度学习的视频目标检测方法
CN108932693A (zh) 基于人脸几何信息的人脸编辑补全方法及装置
CN108111860B (zh) 基于深度残差网络的视频序列丢失帧预测恢复方法
CN110443173A (zh) 一种基于帧间关系的视频实例分割方法及系统
CN109325915A (zh) 一种用于低分辨率监控视频的超分辨率重建方法
CN109801232A (zh) 一种基于深度学习的单幅图像去雾方法
CN109948721A (zh) 一种基于视频描述的视频场景分类方法
CN109583334B (zh) 一种基于时空关联神经网络的动作识别方法及其系统
CN109063609A (zh) 一种基于光流特征与全卷积语义分割特征结合的异常行为检测方法
CN108399454A (zh) 一种全新的分段卷积神经网络目标识别方法
CN110335222A (zh) 基于神经网络的自修正弱监督双目视差提取方法及装置
CN115439936A (zh) 一种基于多视角的行为识别方法及其应用
CN117391938B (zh) 一种红外图像超分辨率重建方法、系统、设备及终端
CN111353394A (zh) 一种基于三维交替更新网络的视频行为识别方法
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN113283372A (zh) 用于处理人物图像的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant