CN109168003B - 一种生成用于视频预测的神经网络模型的方法 - Google Patents

一种生成用于视频预测的神经网络模型的方法 Download PDF

Info

Publication number
CN109168003B
CN109168003B CN201811024913.1A CN201811024913A CN109168003B CN 109168003 B CN109168003 B CN 109168003B CN 201811024913 A CN201811024913 A CN 201811024913A CN 109168003 B CN109168003 B CN 109168003B
Authority
CN
China
Prior art keywords
model
neural network
encoder
frame
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811024913.1A
Other languages
English (en)
Other versions
CN109168003A (zh
Inventor
金贝贝
胡瑜
曾一鸣
唐乾坤
刘世策
叶靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201811024913.1A priority Critical patent/CN109168003B/zh
Publication of CN109168003A publication Critical patent/CN109168003A/zh
Application granted granted Critical
Publication of CN109168003B publication Critical patent/CN109168003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供一种训练用于视频预测的生成器模型G的方法,使得使用该模型可以以较少的计算量获得更好的、长时间的视频预测效果。所述生成器模型G中包括采用神经网络模型结构的编码器与解码器,所述编码器与所述解码器之间采用跳变连接,用于生成预测的帧间差ΔX,所述预测的帧间差ΔX与训练样本求和的结果为预测帧
Figure DDA0001788276700000011
所述方法,包括:1)选择连续的视频帧作为训练样本,并提取训练样本的帧间差;2)将所述帧间差作为生成器模型G中编码器的输入,基于第一损失函数训练获得所述编码器与所述解码器的神经网络权值:
Figure DDA0001788276700000012
其中,ΔXi‑1为与第i个帧间差相关的值,Xi为训练样本中的第i帧,
Figure DDA0001788276700000013
为第i个预测帧,Xi
Figure DDA0001788276700000014
与所述编码器与所述解码器的神经网络权值相关。

Description

一种生成用于视频预测的神经网络模型的方法
技术领域
本发明涉及视频图像处理,尤其涉及通过训练神经网络模型以对视频帧进行无监督预测。
背景技术
随着信息技术的发展,各种应用产生的视频数据量急剧地增长,这使得传统的视频分析技术难以满足上述应用对图像处理的需求。一方面,传统的视频分析技术通常基于人工来选择图像特征,然而随着数据集的增大,这种方式会消耗相当高的时间和人力成本。另一方面,传统视频分析所使用的图像特征往往是技术人员基于其假设而对数据集在某一层面上进行表征,并且对数据样本的选择也通常是依靠技术人员的经验,这使得难以保证获得具有稳定质量的图像处理结果。还有一些视频分析技术采用了诸如支持向量机、和逻辑回归的浅层机器学习模型,尽管浅层模型可以在一定规模的数据集下发挥较强的表达能力,然而由于其拟合规则受限,因而对于海量数据的处理并不理想。
随着人工智能技术(深度学习或预测学习或无监督学习)的发展,针对视频图像处理领域的无监督视频预测应运而生。无监督视频预测是一种采用深度学习模型根据已观测到的视频帧序列对未来的视频帧序列进行预测的技术。相较于浅层模型,深度学习模型具有更复杂的层次结构,能够表征更抽象的特征,其正好符合视频拍摄中自然场景的复杂性和多变性,并且这些特征通过自主学习而产生,无需人工挑选。这使得无监督视频预测相较于传统视频分析技术而言具有非常明显的优势。
最早期的无监督视频预测技术,试图利用高层语义信息(例如人体动作、或者事件集合)进行预测。然而,这类技术所获的预测结果依赖于预定的语义,只能提供对未来的部分描述,因而只能适用于某些特定的场景中。并且,在深度学习模型的训练初期,需要人工标注训练集中图像的语义信息,非常耗费人力,极大地限制了这类技术的应用。
近期一些研究提出利用像素级的技术直接预测视频帧,而不借助于外部语义信息。像素级的预测技术利用神经网络来建模像素值随时间的演化规律,直接输出要预测的视频帧,这类技术无需要人工标注信息。但是,由于视频所拍摄的场景往往复杂多变,这类技术所生成的视频画面通常相对模糊,从而影响了视频预测的效果,尤其是难以实现对运动物体以及微小物体的预测。并且,其对于长时间的预测效果也不理想。
还有一些研究针对上述利用像素级的技术进行了改进。例如,Sudheendra等人在2017年发表于arxiv上的文章《SfM-Net:Learning of Structure and Motion fromVideo》,提出结合光流信息利用单分支神经网络或者双分支神经网络显式建模像素级运动,然而由于光流对于遮挡、快速移动、光照或者非线性结构的变化比较敏感,因而该技术的预测效果并不理想。又例如,Liu等人在2017年发表于ICCV上的文章《Video FrameSynthesis using Deep Voxel Flow》所提出的利用全卷积编解码器进行视频插帧和扩展,以及Lotter等人于2017年在ICLR上发表的文章《Deep Predictive Coding Networks forVideo Prediction and Unsupervised Learning》中所提出的PredNet网络结构,以及Villegas等人于2017年在ICLR上发表的文章《Decomposing Motion and Content forNatural Video Sequence Prediction》中所提出的将视频输入分解成运动部分和内容部分分别进行编码的方法,尽管这些方法在一定程度上提升了预测效果,但是仍然存在预测模糊,预测时间有限的问题。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种训练用于视频预测的生成器模型G的方法,其中,所述生成器模型G中包括采用神经网络模型结构的编码器与解码器,所述编码器与所述解码器之间采用跳变连接,用于生成预测的帧间差ΔX,所述预测的帧间差ΔX与训练样本求和的结果为预测帧
Figure GDA0002570265450000021
所述方法,包括:
1)选择连续的视频帧作为训练样本,并提取训练样本的帧间差;
2)将所述帧间差作为生成器模型G中编码器的输入,基于第一损失函数训练获得所述编码器与所述解码器的神经网络权值:
Figure GDA0002570265450000031
其中,ΔXi-1为与第i-1个帧间差相关的值,Xi为训练样本中的第i帧,
Figure GDA0002570265450000032
为第i个预测帧,Xi
Figure GDA0002570265450000033
与所述编码器与所述解码器的神经网络权值相关。
优选地,根据所述方法,其中步骤2)包括:求解使得所述第一损失函数值最小时的
Figure GDA00025702654500000311
并根据所述Xi
Figure GDA00025702654500000312
求解所述编码器与所述解码器的神经网络权值。
优选地,根据所述方法,其中采用神经网络模型结构的判别器模型D以所述预测帧
Figure GDA00025702654500000313
和所述训练样本为输入,用于判别其输入为真实视频帧的真值;并且,所述步骤2)包括:
2-1)随机生成相应的数值,以用作所述编码器的神经网络权值、以及所述解码器的神经网络权值;
2-2)将所述帧间差作为生成器模型G中编码器的输入,基于第二损失函数训练获得所述判别器模型D的神经网络权值:
Figure GDA0002570265450000034
其中,函数
Figure GDA0002570265450000035
D为所述判别器模型D对所述训练样本的判别结果,
Figure GDA0002570265450000036
为所述判别器模型D对所述预测帧
Figure GDA0002570265450000037
的判别结果;
2-3)在所述判别器模型D采用通过步骤2-2)获得的神经网络权值的情况下,基于所述第一损失函数以及第三损失函数训练获得所述第一损失函数值与所述第三损失函数值之和最小时的
Figure GDA0002570265450000038
并根据所述Xi和所述
Figure GDA0002570265450000039
求解所述编码器与所述解码器的神经网络权值;
所述第三损失函数为:
Figure GDA00025702654500000310
优选地,根据所述方法,其中ΔXi-1为第i-1个帧间差。
优选地,根据所述方法,其中ΔXi-1为针对第i-1个帧间差相较于当前训练样本的全部帧间差的归一化值。
优选地,根据所述方法,其中所述编码器的神经网络模型结构包括:卷积层、池化层、长短时记忆层。
优选地,根据所述方法,其中所述解码器的神经网络模型结构包括:上采样层、反卷积层、tanh函数层。
优选地,根据所述方法,其中所述判别器模型D的神经网络模型结构包括:卷积层、ReLu函数层、归一化层、线性化层、sigmoid函数层。
以及,一种基于上述任意一项方法训练获得的生成器模型G进行视频预测的方法,包括:将需要进行视频预测的视频序列输入到所述生成器模型G中,将所述生成器模型G输出的预测帧
Figure GDA0002570265450000041
作为视频预测的结果。
以及,一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序在被执行时用于实现上述任意一项所述的方法。
与现有技术相比,本发明的优点在于:
提供了一种训练用于无监督视频预测的生成器模型的方法,通过构建生成网络编码提取输入视频序列的帧间差信息并解码生成预测的视频序列,在训练该模型时以加权的方式统计损失的总和。并且,进一步地在训练时加入判别网络进行对抗训练以提升所获得的生成器模型的预测效果,并且使得训练更加高效。在采用该生成器模型进行视频预测时,生成器模型通过对输入的视频序列提取帧间差信息进行视频预测,其相比传统的视频预测方法具有更少的计算量以及更好的效果。
实验证明,本发明可以充分地利用能够反映像素变化的帧间差来进行视频预测,能够促进网络模型更好的提取视频中物体的运动规律,同时本发明中利用帧间差对损失的重加权能够赋予变化大的像素位置较大的权重损失,而变化较小的像素位置被赋予较低的权重损失,这样使得网络更好的关注到运动变化明显的像素位置,有指导地更新网络,得到更好的长时预测效果。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1a是根据本发明的一个实施例的生成器模型G的结构示意图;
图1b为针对图1a的生成器模型G中编码器的一个具体的神经网络模型网络层结构的示例;
图1c为针对图1a的生成器模型G中解码器的一个具体的神经网络模型的网络层结构的示例;
图1d为针对生成器模型G进行对抗训练所使用的判别器模型D的一个具体的神经网络模型的网络层结构的示例;
图2是根据本发明的一个实施例直接训练如图1a中所示出的生成器模型G的方法流程图;
图3是根据本发明的一个实施例通过建立对抗训练模型M来训练生成器模型G的示意图;
图4是根据本发明的一个实施例通过对抗训练的方式来训练如图1a中所示出的生成器模型G的方法流程图。
图5是采用现有技术和本发明进行视频预测的测试结果的对比图,其中(a)行是现有技术对未来10帧的预测结果,(b)行是本发明对未来10帧的预测结果,(c)行是实际的视频序列。
具体实施方式
发明人通过研究现有技术后发现,当前的像素级视频预测技术均是采用逐帧预测的方式,这样的技术无论是在建立视频预测模型还是在使用该模型进行预测时的计算量都非常大,尤其是采用训练神经网络来建立上述模型。对此,发明人提出可以利用视频文件中连续的多帧之间的差异来进行视频预测,通过提取视频样本的帧间差,并建立生成器模型G进行编解码。生成器模型G中包括采用神经网络模型结构的编码器与解码器,编码器以视频样本的帧间差为输入,并且在编码器与解码器之间采用跳变连接,用于生成预测的帧间差ΔX,所述预测的帧间差ΔX与训练样本求和的结果为预测帧
Figure GDA0002570265450000051
并且,在训练生成器模型G时,将利用生成器模型G生成的预测的帧间差ΔX作为预测帧
Figure GDA0002570265450000052
相较于真实帧X的损失的权重,以加权的方式统计针对当前训练样本的全部序列的损失的总和,并将最小化该损失的总和为目标,求解生成器模型G。
此外,为了进一步地提高所训练的生成器模型G的预测效果,本发明还提出采用对抗训练的方式来训练模型G。在训练该模型G时,建立与之相连的、采用神经网络模型实现的判别器模型D,以将模型G输出的预测结果与真实的训练样本进行比较,若是判别器模型D无法区分这两者中哪个为真实的训练样本,则认为生成器模型G的预测结果非常接近真实的视频帧。
下面结合附图和具体实施方式对本发明作详细说明。
图1a示出了根据本发明的一个实施例的生成器模型G的结构示意图。可以看到,在该模型中设置有一个帧间差提取单元、一个编码器、一个解码器、一个求和单元。其中,帧间差提取单元以输入帧为输入,用于对连续的输入帧之间作差,以计算帧间差图。帧间差图被用作编码器的输入,编码器和解码器之间采用跳变连接,以通过编码器和解码器的处理获得预测的帧间差。预测的帧间差、以及输入帧被共同接入到求和单元,以计算预测帧。
预测帧与真实帧之间的差异被称作为损失。
图2示出了根据本发明的一个实施例,直接训练如图1a中所示出的生成器模型G的方法,包括:
步骤11.选择连续的视频帧作为训练样本,并提取训练样本的帧间差。
提取帧间差的过程可以被看作是对两个连续视频帧作差,针对例如n个连续的输入帧,可以计算获得n-1个帧间差图。在步骤11中,对训练样本没有特殊的要求,只要输入的视频样本的序列清晰、连续即可。
步骤12.将通过步骤11提取的帧间差作为生成器模型G中编码器的输入,基于损失函数(1)采用反向传播的方式对编码器和解码器的神经网络进行训练,并计算获得使得损失函数(1)取值最小时的编码器与所述解码器的神经网络权值。
这里的损失函数(1)是将由解码器输出的预测的帧间差ΔX作为预测帧
Figure GDA0002570265450000068
相较于真实帧X的损失的权重,以加权的方式统计针对当前训练样本的全部序列的损失的总和,表示为:
Figure GDA0002570265450000061
其中,ΔXi-1为与第i-1个帧间差相关的值,Xi为训练样本中的第i帧,
Figure GDA0002570265450000062
为第i个预测帧,Xi
Figure GDA0002570265450000063
与所述编码器与所述解码器的神经网络权值相关。根据所采用的针对编码器与所述解码器的具体神经网络结构,可以建立各个网络层的权值与Xi
Figure GDA0002570265450000064
之间的对应关系,因而可以根据求解使得上述损失函数(1)取值最小时的
Figure GDA0002570265450000065
并由Xi
Figure GDA0002570265450000066
计算获得相应的神经网络权值。
基于损失函数(1),针对第i帧的损失
Figure GDA0002570265450000067
与与其对应的帧间差ΔXi-1相乘,将帧间差ΔXi-1作为针对该损失的权重,使得在计算损失的总和时,针对损失大的帧提供了较大的权重,更有利于计算出合理的损失。
优选地,还可以采用归一化的值来作为(1)中的ΔXi-1。例如,将第i个帧间差与当前训练样本的全部帧间差的总和之间的比值作为ΔXi-1
在本发明中,并不限定针对生成器模型G中编码器和解码器所具体采用的神经网络模型,在实际使用中可以根据需要选择具体的神经网络模型。
图1b和图1c中分别提供了针对编码器和解码器的两种具体的神经网络模型的网层结构,以供参考。
其中,图1b为针对图1a的生成器模型G中编码器的一个神经网络模型网络层结构的示例。其中,Conv为卷积层,下标3x3表示该卷积层所采用的卷积核尺寸,下标64表示该卷积层的输出特征图的数量,Maxpool为最大值池化层,LSTM为长短时记忆层。每个网络层均具有一个与其对应的神经网络模型的权值。
上述编码器的神经网络模型是基于一种典型的VGG16神经网络模型的设计。这里的VGG16是业界广泛采用的一种神经网络模型,图1b中采用的模型是针对VGG16网络去掉全连接层之后的结构,并在其后增加了LSTM层。在本发明中优选地,在编码器中设置LSTM,以由LSTM负责记忆视频内在的时序变化信息,从而增加网络学习并保存长期信息的能力。
图1c为针对图1a的生成器模型G中解码器的一个神经网络模型的网络层结构的示例。其中,upsample为上采样层,deconv为反卷积层,下标3x3表示该反卷积层所采用的卷积核尺寸,下标512表示该反卷积层的输出特征图的数量,tanh为tanh函数计算。与编码器类似地,解码器中的每个网络层也具有一个对应的神经网络模型的权值。
解码器所选择的结构可以与编码器的网络结构相对应,其中反卷积层对应于编码器中的卷积层,上采样层对应于编码器中的池化层。另外,在图1c中增加了激活函数层以引入非线性,使得网络模型学习到更复杂的表示能力。
如前文中所述,为了进一步提升该模型的预测效果,在训练生成器模型G时,还可以建立与之相连的判别器模型D并且建立采用对抗训练的方式来训练模型G。这里将执行对抗训练时构建的模型称作为对抗训练模型M。
图3示出了根据本发明的一个实施例的对抗训练模型M的结构示意图。如图3所示,生成器模型G输出的预测帧被当作是生成样本、与由训练集提供的真实样本一并输入到判别器模型D中,由判别器模型D判断其输入为真实视频帧的真值,例如由生成器模型G输出的预测帧是否是真实样本。若判别器模型D不能区分出预测帧并非真实样本,则认为生成器模型G具有非常良好的预测能力。
与前文中所述编码器和解码器类似地,判别器模型D可以选择任意恰当的神经网络模型。图1d提供了针对判别器模型D的一个示例,其中ReLu为ReLU函数层,BN为归一化层,Linear为线性化层、sigmoid为sigmoid函数层。这些层是神经网络中常用的网络层,具有较好的实验效果。
图4示出了根据本发明的一个实施例,采用图3所提供的对抗训练的方式来训练如图1a中所示出的生成器模型G的方法,包括:
步骤21.选择连续的视频帧作为训练样本,并提取训练样本的帧间差。这里对训练样本的要求与步骤11保持一致。
步骤22.随机生成相应的数值,以用作生成器模型G中编码器的初始神经网络权值、以及解码器的初始神经网络权值。
在此实施例中,需要首先训练判别器模型D,再根据训练好的判别器模型D训练生成器模型G中的编码器和解码器。因此,在步骤22中需要预先为生成器模型G中编码器和解码器提供相应的神经网络权值,在此实施例中采用随机生成的方式以作为编码器和解码器的初始神经网络权值。
步骤23.将所述帧间差作为生成器模型G中编码器的输入,基于损失函数(2)采用反向传播的方式对编码器和解码器的神经网络进行训练,以确定使得损失函数(2)的取值最小时所述判别器模型D的神经网络权值。
这里的损失函数(2)表示为:
Figure GDA0002570265450000081
其中,函数
Figure GDA0002570265450000082
D为所述判别器模型D对所述训练样本的判别结果,
Figure GDA0002570265450000083
为所述判别器模型D对所述预测帧
Figure GDA0002570265450000084
的判别结果。
步骤24.在所述判别器模型D采用通过步骤23获得的神经网络权值的情况下,基于所述损失函数(1)以及损失函数(3)训练获得生成器模型G中编码器与解码器的神经网络权值。
与前一实施例中对应地,损失函数(1)用于统计针对当前训练样本的全部序列的损失的总和,然而考虑到训练生成器模型G时引入了判别器模型D,因而还需要将判别器模型D所引入的损失考虑在内。损失函数(3)提供了判别器模型D所引入的损失,表示为:
Figure GDA0002570265450000091
在步骤24中,可以求解使得损失函数(1)与损失函数(3)之和最小时的Xi
Figure GDA0002570265450000092
并根据所述Xi
Figure GDA0002570265450000093
求解所述编码器与解码器的神经网络权值。由此,获得用于视频预测的生成器模型G。
通过上述图3和图4,提供了训练生成器模型G的方法。在具体的进行视频预测时,可以采用通过上述方法训练获得的生成器模型G来进行视频预测,包括:将需要进行视频预测的视频序列输入到所述生成器模型G中,将所述生成器模型G输出的预测帧
Figure GDA0002570265450000094
作为视频预测的结果。
为了检验基于本发明的方案执行视频预测的效果,发明人进行了测试,并与Michael等人在论文Deep multi-scale video prediction beyond mean square error中所采用的现有技术进行了比较。在测试时,将一个人向前行进的视频中的前一部分的视频序列作为模型的输入,分别由根据本发明的生成器模型G和上述现有技术的模型来预测该视频未来的10帧。
图5示出了测试的结果,其中(a)、(b)、(c)分别为现有技术的预测结果、本发明的预测结果、所述视频中后一部分的实际视频序列。可以看出,现有技术对相对较长时间的预测结果并不理想,并且预测的视频图像中存在模糊、以及一定程度的变型。相比之下,本发明的预测结果获得了较大程度的改善,在连续的10帧中,无论是人体的轮廓、还是预测的步伐姿态都非常接近于(c)中真实的视频序列。
综上,本发明提供了一种训练用于无监督视频预测的生成器模型的方法,通过构建生成网络编码提取输入视频序列的帧间差信息并解码生成预测的视频序列,在训练该模型时以加权的方式统计损失的总和。并且,进一步地在训练时加入判别网络进行对抗训练以提升所获得的生成器模型的预测效果,并且使得训练更加高效。在采用该生成器模型进行视频预测时,生成器模型通过对输入的视频序列提取帧间差信息进行视频预测,其相比传统的视频预测方法具有更少的计算量以及更好的效果。并且,实验证明了本发明在对未来较长一段时间的视频帧进行预测时可以获得非常良好的结果。
需要说明的是,上述实施例中介绍的各个步骤并非都是必须的,本领域技术人员可以根据实际需要进行适当的取舍、替换、修改等。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种训练用于视频预测的生成器模型G的方法,其中,所述生成器模型G中包括采用神经网络模型结构的编码器与解码器,所述编码器与所述解码器之间采用跳变连接,用于生成预测的帧间差ΔX,所述预测的帧间差ΔX与训练样本求和的结果为预测帧
Figure FDA0002570265440000011
所述方法,包括:
1)选择连续的视频帧作为训练样本,并提取训练样本的帧间差;
2)将所述帧间差作为生成器模型G中编码器的输入,基于第一损失函数训练获得所述编码器与所述解码器的神经网络权值:
Figure FDA0002570265440000012
其中,ΔXi-1为与第i-1个帧间差相关的值,Xi为训练样本中的第i帧,
Figure FDA0002570265440000013
为第i个预测帧,Xi
Figure FDA0002570265440000014
与所述编码器与所述解码器的神经网络权值相关。
2.根据权利要求1所述的方法,其中步骤2)包括:求解使得所述第一损失函数值最小时的
Figure FDA0002570265440000015
并根据所述Xi
Figure FDA0002570265440000016
求解所述编码器与所述解码器的神经网络权值。
3.根据权利要求1所述的方法,其中采用神经网络模型结构的判别器模型D以所述预测帧
Figure FDA0002570265440000017
和所述训练样本为输入,用于判别其输入为真实视频帧的真值;并且,所述步骤2)包括:
2-1)随机生成相应的数值,以用作所述编码器的神经网络权值、以及所述解码器的神经网络权值;
2-2)将所述帧间差作为生成器模型G中编码器的输入,基于第二损失函数训练获得所述判别器模型D的神经网络权值:
Figure FDA0002570265440000018
其中,函数
Figure FDA0002570265440000019
D为所述判别器模型D对所述训练样本的判别结果,
Figure FDA00025702654400000110
为所述判别器模型D对所述预测帧
Figure FDA00025702654400000111
的判别结果;
2-3)在所述判别器模型D采用通过步骤2-2)获得的神经网络权值的情况下,基于所述第一损失函数以及第三损失函数训练获得所述第一损失函数值与所述第三损失函数值之和最小时的
Figure FDA0002570265440000021
并根据所述Xi和所述
Figure FDA0002570265440000022
求解所述编码器与所述解码器的神经网络权值;
所述第三损失函数为:
Figure FDA0002570265440000023
4.根据权利要求1所述的方法,其中ΔXi-1为第i-1个帧间差。
5.根据权利要求1所述的方法,其中ΔXi-1为针对第i-1个帧间差相较于当前训练样本的全部帧间差的归一化值。
6.根据权利要求1-5中任意一项所述的方法,其中所述编码器的神经网络模型结构包括:卷积层、池化层、长短时记忆层。
7.根据权利要求1-5中任意一项所述的方法,其中所述解码器的神经网络模型结构包括:上采样层、反卷积层、tanh函数层。
8.根据权利要求3-5中任意一项所述的方法,其中所述判别器模型D的神经网络模型结构包括:卷积层、ReLu函数层、归一化层、线性化层、sigmoid函数层。
9.一种基于权利要求1-8中任意一项方法训练获得的生成器模型G进行视频预测的方法,包括:将需要进行视频预测的视频序列输入到所述生成器模型G中,将所述生成器模型G输出的预测帧
Figure FDA0002570265440000024
作为视频预测的结果。
10.一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序在被执行时用于实现如权利要求1-9中任意一项所述的方法。
CN201811024913.1A 2018-09-04 2018-09-04 一种生成用于视频预测的神经网络模型的方法 Active CN109168003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811024913.1A CN109168003B (zh) 2018-09-04 2018-09-04 一种生成用于视频预测的神经网络模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811024913.1A CN109168003B (zh) 2018-09-04 2018-09-04 一种生成用于视频预测的神经网络模型的方法

Publications (2)

Publication Number Publication Date
CN109168003A CN109168003A (zh) 2019-01-08
CN109168003B true CN109168003B (zh) 2020-11-03

Family

ID=64894069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811024913.1A Active CN109168003B (zh) 2018-09-04 2018-09-04 一种生成用于视频预测的神经网络模型的方法

Country Status (1)

Country Link
CN (1) CN109168003B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414631B (zh) * 2019-01-29 2022-02-01 腾讯科技(深圳)有限公司 基于医学图像的病灶检测方法、模型训练的方法及装置
CN109919032B (zh) * 2019-01-31 2021-03-30 华南理工大学 一种基于动作预测的视频异常行为检测方法
CN111208818B (zh) * 2020-01-07 2023-03-07 电子科技大学 基于视觉时空特征的智能车预测控制方法
CN113343580A (zh) * 2021-06-24 2021-09-03 大连理工大学 一种基于人工智能技术的实时拓扑优化生成设计方法
CN113869493A (zh) * 2021-09-27 2021-12-31 上海眼控科技股份有限公司 视频预测方法、训练方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563510A (zh) * 2017-08-14 2018-01-09 华南理工大学 一种基于深度卷积神经网络的wgan模型方法
CN107820085A (zh) * 2017-10-31 2018-03-20 杭州电子科技大学 一种基于深度学习的提高视频压缩编码效率的方法
CN108021979A (zh) * 2017-11-14 2018-05-11 华南理工大学 一种基于原始生成对抗网络模型的特征重标定卷积方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11593632B2 (en) * 2016-12-15 2023-02-28 WaveOne Inc. Deep learning based on image encoding and decoding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563510A (zh) * 2017-08-14 2018-01-09 华南理工大学 一种基于深度卷积神经网络的wgan模型方法
CN107820085A (zh) * 2017-10-31 2018-03-20 杭州电子科技大学 一种基于深度学习的提高视频压缩编码效率的方法
CN108021979A (zh) * 2017-11-14 2018-05-11 华南理工大学 一种基于原始生成对抗网络模型的特征重标定卷积方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEEP MULTI-SCALE VIDEO PREDICTION BEYOND MEAN SQUARE ERROR;Michael Mathieu等;《ICLR 2016》;20160226;全文 *
基于深度学习的视频预测研究综述;莫凌飞等;《智能系统学报》;20180228;第13卷(第1期);全文 *

Also Published As

Publication number Publication date
CN109168003A (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
CN109168003B (zh) 一种生成用于视频预测的神经网络模型的方法
US11176381B2 (en) Video object segmentation by reference-guided mask propagation
CN109891897B (zh) 用于分析媒体内容的方法
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN112990078B (zh) 一种基于生成式对抗网络的人脸表情生成方法
CN111079601A (zh) 基于多模态注意力机制的视频内容描述方法、系统、装置
US10334202B1 (en) Ambient audio generation based on visual information
KR102093577B1 (ko) 학습네트워크를 이용한 예측 영상 생성 방법 및 예측 영상 생성 장치
KR20200052453A (ko) 딥러닝 모델 학습 장치 및 방법
WO2022205416A1 (zh) 一种基于生成式对抗网络的人脸表情生成方法
CN114021524B (zh) 一种情感识别方法、装置、设备及可读存储介质
CN113920170A (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN116050496A (zh) 图片描述信息生成模型的确定方法及装置、介质、设备
CN113936235A (zh) 一种基于质量评估的视频显著性目标检测方法
CN118230081B (zh) 图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN114359592A (zh) 模型训练及图像处理方法、装置、设备、存储介质
CN114245230A (zh) 视频的生成方法、装置、电子设备及存储介质
CN117980915A (zh) 用于端到端自监督预训练的对比学习和掩蔽建模
CN117764038A (zh) 训练迁移模型,文本风格迁移的方法和装置
CN117708698A (zh) 一种类别确定方法、装置、设备及存储介质
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN112131429A (zh) 一种基于深度预测编码网络的视频分类方法及系统
CN113408721A (zh) 神经网络结构搜索方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant