CN112488014A - 基于门控循环单元的视频预测方法 - Google Patents

基于门控循环单元的视频预测方法 Download PDF

Info

Publication number
CN112488014A
CN112488014A CN202011417210.2A CN202011417210A CN112488014A CN 112488014 A CN112488014 A CN 112488014A CN 202011417210 A CN202011417210 A CN 202011417210A CN 112488014 A CN112488014 A CN 112488014A
Authority
CN
China
Prior art keywords
video
network
gru
model
video frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011417210.2A
Other languages
English (en)
Other versions
CN112488014B (zh
Inventor
陈龙
邱林坤
陈函
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011417210.2A priority Critical patent/CN112488014B/zh
Publication of CN112488014A publication Critical patent/CN112488014A/zh
Application granted granted Critical
Publication of CN112488014B publication Critical patent/CN112488014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于门控循环单元的视频预测方法,属于计算机领域。该方法包括以下步骤:1)数据处理。对收集的视频进行视频帧的提取;2)构建视频帧特征提取模型,该特征提取模型包括卷积神经网络、自动编码模块;3)搭建视频帧预测模型,输入待提取特征的视频,通过卷积神经网络和自动编码网络提取作为条件的连续视频帧的特征;4)将提取到的连续视频帧特征输入门控循环单元网络中进行后续连续视频帧的预测;5)以原始的视频帧和预测的视频帧进行损失计算,并对视频预测网络模型进行训练。与现有技术相比,本发明具有网络模型可以记住连续视频帧的时序特征和减少网络模型计算复杂度以及可以将帧解耦为前景和背景等优点。

Description

基于门控循环单元的视频预测方法
技术领域
本发明属于计算机领域,涉及基于门控循环单元的视频预测方法。
背景技术
视频预测是视觉智能中的高级任务,要求模型利用海量无标注自然数据去学习视频的内在表征。该任务通过机器学习模型,在视频质量改善、电影制作、视频监控、机器人决策、无人驾驶、视频理解等领域都有广泛的应用前景,因此近两年来得到快速发展,引起了国内外众多学者的研究兴趣。
目前,大部分学者主要使用深度学习方法来实现视频预测任务,最基本的模型框架是使用卷积神经网络(CNN)来提取图片或视频的特征,再将视频特征送入预测对抗网络或自动编码网络去预测后续的视频帧。对于GAN,计算复杂度高,需要对预测器和鉴别器进行分别训练,同时GAN虽然可以预测清晰的内容,但是预测的内容于目标的相似度有很大的不同。对于AutoEncoder,可以预测和目标相近的内容,但是清晰度却比不上GAN。使用GRU可以减少计算复杂度,同时它可以解决长期记忆和反向传播中的梯度消失等问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于门控循环单元的视频预测方法。
为达到上述目的,本发明提供如下技术方案:
基于门控循环单元的视频预测方法,该方法包括以下步骤:
S1、数据处理阶段。使用构建视频数据处理模块,该模块将输入的各种格式视频根据输入的参数进行视频帧的提取;
S2、搭建视频特征提取模型,该视频特征提取模型使用卷积神经网络和视频特征自动编码网络。将待提取的视频输入视频特征提取模块,通过卷积神经网络和自动编码网络提取原始视频帧的相关特征;
S3、使用门控循环单元网络搭建视频预测模型。将提取的视频特征和原始的视频输入视频预测模型中,并对模型进行训练,让视频预测模型预测后续的视频帧;
S4、损失和参数优化。将预测的视频帧和对应的原始帧通过定义的损失函数进行损失计算,在通过反向传播进行参数和损失优化。直到优化到一定程度即损失值到达预期要求且不在继续下降时即可停止模型训练。
S5、可视化。将记录的损失函数通过画图来更直观的显示损失值的变化过程。将预测的视频帧也进行可视化,从视觉上来判断预测的视频帧是否到达预测要求。
可选的,所述的步骤S1具体包括:
S11、数据处理阶段需要借助多媒体处理工具FFMPEG,循环数据集中的每一个视频根据参数集ρ=(I,R,F,S,O)进行视频帧的提取。其中I是视频所在路径,R表示每秒提取多少帧,F表示视频帧输出的格式,S表示视频帧输出的尺寸,O表示视频帧输出的路径。
S12、对提取到的视频帧数据集进行清洗,去除空帧、不清晰的帧等。再将数据进行加载,并对数据集进行打包和打乱等进一步操作。
可选的,所述的步骤S2具体包括:
S21、特征提取模块使用的是在提取特征和降维方面性能良好且不会发生权重爆炸的卷积AutoEncoder模型。在提取前景时使用的是VGG网络结构,该网络结构主要是由尺寸为3*3的卷积核的卷积神经网络和尺寸为2*2的池化核的最大池化层堆叠组成。背景提取使用的是残差网络结构,该网络有很多版本,特征提取中使用的是resnet50的残差网络。
S21、特征提取主要是提取可以表示输入视频的数字向量,特征提取模块使用卷积神经网络将输入的视频进行特征映射到特征值矩阵。特征值矩阵有两种,分别是128维的前景特征矩阵和10维的背景特征矩阵。
可选的,所述的步骤S3具体包括:
S31、使用循环神经网络中的门控循环单元网络来搭建视频预测网络,门控循环神经网络可以很好的解决网络反向传播中的梯度消失问题,所以GRU可以长期记忆输入数据的时序特征。对于GRU,是通过两个门控系统-重置门和更新门来对隐藏状态和输入数据进行控制。对于第一个GRU,在第i步时间,其第一GRU的隐藏层
Figure BDA0002819006760000021
的计算式为:
Figure BDA0002819006760000022
Figure BDA0002819006760000023
其中,xi为第i时间步视频特征序列中的元素,
Figure BDA0002819006760000024
为第一GRU的第i-1时间步的隐藏层,GRU1(*)表示第一门控循环控制单元。
根据权利一所述的一种基于门控循环单元的视频预测方法,其特征在于,所述的预测模块包括依次连接的第二个GRU对于第二个GRU和全连接网络。对于第二个GRU,其计算式为:
Figure BDA0002819006760000025
Figure BDA0002819006760000026
其中
Figure BDA0002819006760000031
为上一GRU在时间步i的输出信息,
Figure BDA0002819006760000032
为第二GRU的i-1时间步的隐藏层,
Figure BDA0002819006760000033
为第二个GRU的初始隐藏层,GRU2(*)为第二个门控循环单元网络。
对于全连接层,其计算式为:
O=tanh(Wf.h)
其中Wf为全连接层的权重矩阵,h为GRU的最终输出,tanh(*)是一种激活函数,将输入的值映射在[-1,1]之间。
可选的,所述的步骤S4具体包括:
S41、初始化模型的学习率,并使每轮训练的学习率递减,使用均方差损失函数对视频预测模型进行M轮优化;
S42、使用峰值信噪比和结构相似性度量方法来评估模型,其中PSNR的计算式为:
Figure BDA0002819006760000034
其中,MSE是生成帧和原始帧的均方差,MAX为生成帧的像素灰度值的最大值。
SSIM的计算式为:
Figure BDA0002819006760000035
其中,μR、μG分别为R和G的像素灰度值均值,σR、σG分别为R和G的像素灰度值的标准差,σRG表示R和G像素灰度值协方差,C1、C2为超参数,为了防止除数为0。
本发明的有益效果在于:
(1)设计出基于循环神经网络的视频预测方法,能够有效的保持视频的时序关系;
(2)设计出基于GRU的视频预测方法可以减少计算复杂度,节省网络计算时间;
(3)设计出基于GRU的视频预测方法可以很好的解决模型在训练过程中反向传播的梯度消失问题。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为基于门控循环单元的顺序执行图;
图2为门控循环单元的内部结构图;
图3为门控循环单元模型结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1~3所示,为基于门控循环单元的视频预测方法。
实施实例1
本实例中的数据集是Moving MNIST数据集,该数据集一共包含60000个训练样本和10000的测试样本。将视频中的前十帧输入到卷积Auto Encoder模型中,训练好的Encoder对视频进行特征提取,输出128维的前景特征矩阵和10维的背景特征矩阵。将提取的前景和背景特征进行拼接之后按X=[x1,x2,...,xk]的时间顺序输入第一个GRU(GRU1)中。在时间i步,隐藏层
Figure BDA0002819006760000043
的计算式为:
Figure BDA0002819006760000041
Figure BDA0002819006760000042
其中,RGU内部的时间方式为:
rt=δ(Wirxt+bir+Whrht-1+bhr)
zt=δ(Wizxt+biz+Whzht-1+bhz)
nt=tanh(Winxt+bin+rt*(Whnht-1+bhn))
ht=(1-zt)*nt+zt*ht-1
其中rt表示GRU的重置门,zt表示GRU的更新门。
生成模块依次连接的第二个GRU(GRU2)、全连接网络。生成时间步i时的视频帧时,包括步骤:
Figure BDA0002819006760000051
Figure BDA0002819006760000052
将输出输入全连接层:
O=tanh(Wf.h)
本实例中使用均方差损失函数对视频预测模型进行M轮训练,学习率lr初始化为5e-4。均方差损失函数具体表示为:
Figure BDA0002819006760000053
使用峰值信噪比和结构相似性度量方法来评估模型,其中PSNR的计算式为:
Figure BDA0002819006760000054
其中,MSE是生成帧和原始帧的均方差,MAX为生成帧的像素灰度值的最大值。
SSIM的计算式为:
Figure BDA0002819006760000055
实施实例2
本实例中使用的是KTH视频数据集,其中包含拳击、拍手、挥手、慢跑、跑、走路等六种动作。使用多媒体处理工具FFMPEG对KTH视频数据集进行按25帧/秒提取大小为128*128的视频帧,再将处理得到的视频数据划分为训练集、测试集。
特征提取。使用训练好的卷积Auto Encoder模型的中Encoder进行视频的特征提取主,特征提取模块将输出128维的前景特征矩阵和10维的背景特征矩阵。
将提取的视频特征和原始的视频输入视频预测模型中,并对模型进行训练,让视频预测模型预测后续的视频帧;
损失和参数优化。将预测的视频帧和对应的原始帧通过定义的损失函数进行损失计算,在通过反向传播进行参数和损失优化。直到优化到一定程度即损失值到达预期要求且不在继续下降时即可停止模型训练。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.基于门控循环单元的视频预测方法,其特征在于:该方法包括以下步骤:
S1、数据处理阶段;使用构建视频数据处理模块,该模块将输入的各种格式视频根据输入的参数进行视频帧的提取;
S2、搭建视频特征提取模型,该视频特征提取模型使用卷积神经网络和视频特征自动编码网络;将待提取的视频输入视频特征提取模块,通过卷积神经网络和自动编码网络提取原始视频帧的相关特征;
S3、使用门控循环单元网络搭建视频预测模型;将提取的视频特征和原始的视频输入视频预测模型中,并对模型进行训练,让视频预测模型预测后续的视频帧;
S4、损失和参数优化;将预测的视频帧和对应的原始帧通过定义的损失函数进行损失计算,在通过反向传播进行参数和损失优化;直到优化到一定程度即损失值到达预期要求且不在继续下降时即停止模型训练;
S5、可视化;将记录的损失函数通过画图来更直观的显示损失值的变化过程;将预测的视频帧也进行可视化,从视觉上来判断预测的视频帧是否到达预测要求。
2.根据权利要求1所述的基于门控循环单元的视频预测方法,其特征在于:所述的步骤S1具体包括:
S11、数据处理阶段需要借助多媒体处理工具FFMPEG,循环数据集中的每一个视频根据参数集ρ=(I,R,F,S,O)进行视频帧的提取;其中I是视频所在路径,R表示每秒提取多少帧,F表示视频帧输出的格式,S表示视频帧输出的尺寸,O表示视频帧输出的路径;
S12、对提取到的视频帧数据集进行清洗,去除空帧和不清晰的帧;再将数据进行加载,并对数据集进行打包和打乱进一步操作。
3.根据权利要求1所述的基于门控循环单元的视频预测方法,其特征在于:所述的步骤S2具体包括:
S21、特征提取模块使用的是在提取特征和降维方面性能良好且不会发生权重爆炸的卷积Auto Encoder模型;在提取前景时使用的是VGG网络结构,该网络结构由尺寸为3*3的卷积核的卷积神经网络和尺寸为2*2的池化核的最大池化层堆叠组成;背景提取使用的是残差网络结构,该网络有很多版本,特征提取中使用的是resnet50的残差网络;
S21、特征提取提取表示输入视频的数字向量,特征提取模块使用卷积神经网络将输入的视频进行特征映射到特征值矩阵;特征值矩阵有两种,分别是128维的前景特征矩阵和10维的背景特征矩阵。
4.根据权利要求1所述的基于门控循环单元的视频预测方法,其特征在于:所述的步骤S3具体包括:
S31、使用循环神经网络中的门控循环单元网络来搭建视频预测网络,对于GRU,是通过两个门控系统-重置门和更新门来对隐藏状态和输入数据进行控制;对于第一个GRU,在第i步时间,其第一GRU的隐藏层
Figure FDA0002819006750000021
的计算式为:
Figure FDA0002819006750000022
Figure FDA0002819006750000023
其中,xi为第i时间步视频特征序列中的元素,
Figure FDA0002819006750000024
为第一GRU的第i-1时间步的隐藏层,GRU1(*)表示第一门控循环控制单元;
根据权利一所述的一种基于门控循环单元的视频预测方法,其特征在于,所述的预测模块包括依次连接的第二个GRU对于第二个GRU和全连接网络;对于第二个GRU,其计算式为:
Figure FDA0002819006750000025
Figure FDA0002819006750000026
其中
Figure FDA0002819006750000027
为上一GRU在时间步i的输出信息,
Figure FDA0002819006750000028
为第二GRU的i-1时间步的隐藏层,
Figure FDA0002819006750000029
为第二个GRU的初始隐藏层,GRU2(*)为第二个门控循环单元网络;
对于全连接层,其计算式为:
O=tanh(Wf.h)
其中Wf为全连接层的权重矩阵,h为GRU的最终输出,tanh(*)是一种激活函数,将输入的值映射在[-1,1]之间。
5.根据权利要求1所述的基于门控循环单元的视频预测方法,其特征在于:所述的步骤S4具体包括:
S41、初始化模型的学习率,并使每轮训练的学习率递减,使用均方差损失函数对视频预测模型进行M轮优化;
S42、使用峰值信噪比和结构相似性度量方法来评估模型,其中PSNR的计算式为:
Figure FDA00028190067500000210
其中,MSE是生成帧和原始帧的均方差,MAX为生成帧的像素灰度值的最大值;
SSIM的计算式为:
Figure FDA00028190067500000211
其中,μR、μG分别为R和G的像素灰度值均值,σR、σG分别为R和G的像素灰度值的标准差,σRG表示R和G像素灰度值协方差,C1、C2为超参数,为了防止除数为0。
CN202011417210.2A 2020-12-04 2020-12-04 基于门控循环单元的视频预测方法 Active CN112488014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011417210.2A CN112488014B (zh) 2020-12-04 2020-12-04 基于门控循环单元的视频预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011417210.2A CN112488014B (zh) 2020-12-04 2020-12-04 基于门控循环单元的视频预测方法

Publications (2)

Publication Number Publication Date
CN112488014A true CN112488014A (zh) 2021-03-12
CN112488014B CN112488014B (zh) 2022-06-10

Family

ID=74939923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011417210.2A Active CN112488014B (zh) 2020-12-04 2020-12-04 基于门控循环单元的视频预测方法

Country Status (1)

Country Link
CN (1) CN112488014B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113467740A (zh) * 2021-07-15 2021-10-01 青岛博天数通信息科技有限公司 一种基于联合编码的视频监控阵列显示优化方法和装置
CN114511813A (zh) * 2022-04-20 2022-05-17 天津市城市规划设计研究总院有限公司 视频语义描述方法及装置
CN117984006A (zh) * 2024-04-03 2024-05-07 国网山东省电力公司潍坊供电公司 基于焊接红外视频生成的焊接质量预测方法、装置及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508642A (zh) * 2018-10-17 2019-03-22 杭州电子科技大学 基于双向gru和注意力机制的船舶监控视频关键帧提取方法
CN109961034A (zh) * 2019-03-18 2019-07-02 西安电子科技大学 基于卷积门控循环神经单元的视频目标检测方法
CN110070067A (zh) * 2019-04-29 2019-07-30 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN110321833A (zh) * 2019-06-28 2019-10-11 南京邮电大学 基于卷积神经网络和循环神经网络的人体行为识别方法
US20200118007A1 (en) * 2018-10-15 2020-04-16 University-Industry Cooperation Group Of Kyung-Hee University Prediction model training management system, method of the same, master apparatus and slave apparatus for the same
CN111079655A (zh) * 2019-12-18 2020-04-28 航天物联网技术有限公司 一种基于融合神经网络的视频中人体行为识别方法
CN111275085A (zh) * 2020-01-15 2020-06-12 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200118007A1 (en) * 2018-10-15 2020-04-16 University-Industry Cooperation Group Of Kyung-Hee University Prediction model training management system, method of the same, master apparatus and slave apparatus for the same
CN109508642A (zh) * 2018-10-17 2019-03-22 杭州电子科技大学 基于双向gru和注意力机制的船舶监控视频关键帧提取方法
CN109961034A (zh) * 2019-03-18 2019-07-02 西安电子科技大学 基于卷积门控循环神经单元的视频目标检测方法
CN110070067A (zh) * 2019-04-29 2019-07-30 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN110321833A (zh) * 2019-06-28 2019-10-11 南京邮电大学 基于卷积神经网络和循环神经网络的人体行为识别方法
CN111079655A (zh) * 2019-12-18 2020-04-28 航天物联网技术有限公司 一种基于融合神经网络的视频中人体行为识别方法
CN111275085A (zh) * 2020-01-15 2020-06-12 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MARC OLIU,等: "Folded Recurrent Neural Networks for Future Video Prediction", 《PROCEEDINGS OF THE EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV)》 *
张德正,等: "基于深度卷积长短时神经网络的视频帧预测", 《计算机应用》 *
莫凌飞等: "基于深度学习的视频预测研究综述", 《智能系统学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113467740A (zh) * 2021-07-15 2021-10-01 青岛博天数通信息科技有限公司 一种基于联合编码的视频监控阵列显示优化方法和装置
CN113467740B (zh) * 2021-07-15 2024-02-02 青岛博天数通信息科技有限公司 一种基于联合编码的视频监控阵列显示优化方法和装置
CN114511813A (zh) * 2022-04-20 2022-05-17 天津市城市规划设计研究总院有限公司 视频语义描述方法及装置
CN117984006A (zh) * 2024-04-03 2024-05-07 国网山东省电力公司潍坊供电公司 基于焊接红外视频生成的焊接质量预测方法、装置及介质

Also Published As

Publication number Publication date
CN112488014B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN109064507B (zh) 一种用于视频预测的多运动流深度卷积网络模型方法
CN107330410B (zh) 复杂环境下基于深度学习的异常检测方法
CN110555881A (zh) 一种基于卷积神经网络的视觉slam测试方法
Makantasis et al. Deep learning based human behavior recognition in industrial workflows
CN112488014B (zh) 基于门控循环单元的视频预测方法
KR20230104738A (ko) 비디오 행동 인식을 위한 시간적 병목 어텐션 아키텍처
CN109508686B (zh) 一种基于层次化特征子空间学习的人体行为识别方法
Rothfuss et al. Deep episodic memory: Encoding, recalling, and predicting episodic experiences for robot action execution
CN110795990A (zh) 一种面向水下设备的手势识别方法
CN112001308B (zh) 一种采用视频压缩技术和骨架特征的轻量级行为识别方法
CN110991340A (zh) 一种基于图像压缩的人体动作分析方法
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN110827265A (zh) 基于深度学习的图片异常检测方法
CN112418032A (zh) 一种人体行为识别方法、装置、电子设备及存储介质
CN114708297A (zh) 一种视频目标跟踪方法及装置
CN113033276A (zh) 一种基于转换模块的行为识别方法
CN113033283B (zh) 一种改进的视频分类系统
CN109871790B (zh) 一种基于混合神经网络模型的视频去色方法
CN113489958A (zh) 一种基于视频编码数据多特征融合的动态手势识别方法及系统
CN112949501B (zh) 一种从示教视频学习物体的可供性方法
CN111401209B (zh) 一种基于深度学习的动作识别方法
CN112579824A (zh) 视频数据分类方法、装置、电子设备及存储介质
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN116311349A (zh) 一种基于轻量神经网络的人体关键点检测方法
CN115187633A (zh) 一种六自由度视觉反馈实时运动跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant