CN115633216A - 时域运动一致性视频生成模型的训练方法和视频生成方法 - Google Patents

时域运动一致性视频生成模型的训练方法和视频生成方法 Download PDF

Info

Publication number
CN115633216A
CN115633216A CN202211094961.4A CN202211094961A CN115633216A CN 115633216 A CN115633216 A CN 115633216A CN 202211094961 A CN202211094961 A CN 202211094961A CN 115633216 A CN115633216 A CN 115633216A
Authority
CN
China
Prior art keywords
frame image
video generation
motion vector
original frame
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211094961.4A
Other languages
English (en)
Other versions
CN115633216B (zh
Inventor
史业民
黄文灏
舒彧
董思维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyuan Artificial Intelligence Research Institute
Original Assignee
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Beijing Zhiyuan Artificial Intelligence Research Institute
Priority to CN202211094961.4A priority Critical patent/CN115633216B/zh
Publication of CN115633216A publication Critical patent/CN115633216A/zh
Application granted granted Critical
Publication of CN115633216B publication Critical patent/CN115633216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了时域运动一致性视频生成模型的训练方法和视频生成方法,属于视频生成技术领域。训练方法包括:获取当前训练样本对应的全局运动向量;基于各个原始帧图像、全局运动向量以及各个原始帧图像上一帧分别对应的反向传递的预测帧图像特征,训练预设的视频生成网络,输出当前训练样本对应的预测帧图像;应用预测帧图像及各个参考帧图像求解目标损失函数,以将视频生成网络训练为对应的时域运动一致性视频生成模型。通过引入多个原始帧图像,在训练阶段强制模型学习时域关联;通过设置多个参考帧图像,强制模型更加关注运动信息;通过使用时域一致性损失函数,驱动模型学习时间关联特征;通过采用特征反向前递,有效保证连续帧的变化一致性。

Description

时域运动一致性视频生成模型的训练方法和视频生成方法
技术领域
本发明涉及视频生成技术领域,尤其涉及一种时域运动一致性视频生成模型的训练方法和视频生成方法。
背景技术
目前,视频生成技术主要采用单个原始帧图像配合单个参考帧图像作为输入,显式或隐式提取两帧的关键点特征,通过计算两帧关键点的运动变换驱动模型训练,从而学习从原始帧到参考帧的映射。这种方法的主要问题在于:1.输入仅包含单帧图像,从而将视频生成任务简化为图片生成任务,而推理阶段则需要生成视频,导致训练与推理过程不一致;2.损失函数主要考虑单个视频帧的重构,而不关心时域多个视频帧的变化,从而无法提取时域特征,忽略了视频的时域连续性和依赖关系;3.视频帧生成过程仅依赖参考帧和当前帧信息,忽略了时间维的信息传递和依赖。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明第一方面提供了一种时域运动一致性视频生成模型的训练方法,包括:
获取当前训练样本对应的全局运动向量,其中,所述训练样本包括:多个参考帧图像和连续的多个原始帧图像;
基于各个所述原始帧图像、所述全局运动向量以及各个所述原始帧图像上一帧分别对应的反向传递的预测帧图像特征,训练预设的视频生成网络,以使该视频生成网络输出当前训练样本对应的预测帧图像;
应用所述预测帧图像及各个所述参考帧图像,求解用于优化当前视频生成网络的具有时域运动一致性特征的目标损失函数,以将该视频生成网络训练为对应的时域运动一致性视频生成模型。
优选地,所述视频生成网络包括:编码器、解码器和反向传递单元;
所述编码器用于对输入其中的当前帧的原始帧图像和所述反向传递单元回传的上一帧对应的预测帧图像特征进行特征提取及融合,并输出当前帧对应的融合特征和分辨率特征;
所述解码器用于根据输入其中的当前帧的所述融合特征、分辨率特征以及所述全局运动向量进行特征重组,并输出当前帧对应的预测帧图像特征及对应的预测帧图像;
所述反向传递单元用于将所述解码器输出的当前帧的所述预测帧图像特征回传至所述编码器,以使该编码器在对下一帧的原始帧图像进行特征提取及融合时应用该预测帧图像特征。
优选地,所述目标损失函数包括:帧重构损失函数和时域运动一致性损失函数之和;
其中,所述帧重构损失函数和所述时域运动一致性损失函数分别预先基于当前帧的预测帧图像特征和所述参考帧构建而得。
优选地,在所述获取当前训练样本对应的全局运动向量之前,还包括:
获取包括各个训练样本的训练数据,每个所述训练样本均包括多个原始帧图像和多个参考帧图像;
其中,所述原始帧图像包含有目标体的外观信息;所述参考帧图像包含有目标体在视频中的待执行动作信息。
优选地,所述获取当前训练样本对应的全局运动向量,包括:
分别检测得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点;
将各个所述原始帧图像对应的关键点分别与所有参考帧图像对应的关键点进行比较,分别得到各个所述原始帧图像上每个关键点的运动向量,并基于各个所述原始帧图像上每个关键点及其运动向量获取各个所述原始帧图像上每个关键点的局部运动向量;
根据所述局部运动向量和所述原始帧图像,获取当前训练样本对应的全局运动向量。
优选地,所述分别检测得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点,包括:
基于姿态估计网络对各个所述原始帧图像和各个所述参考帧图像进行关键点检测,分别得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点。
优选地,所述基于各个所述原始帧图像上每个关键点及其运动向量获取各个所述原始帧图像上每个关键点的局部运动向量包括:
基于各个所述原始帧图像上每个关键点及各个所述关键点的运动向量,构建局部高斯分布,以获取各个所述原始帧图像上每个关键点的局部运动向量。
优选地,所述根据所述局部运动向量和所述原始帧图像,获取当前训练样本对应的全局运动向量,包括:
将所述局部运动向量和所述原始帧图像输入运动估计网络中,预测得到当前训练样本对应的全局运动向量。
本发明第二方面提供了一种时域运动一致性视频生成方法,包括:
获取目标样本对应的全局运动向量,其中,所述目标样本包括:参考帧图像和原始帧图像;
将所述参考帧图像、原始帧图像和所述原始帧图像上一帧对应的反向传递的预测帧图像特征,输入时域运动一致性视频生成模型,使得该时域运动一致性视频生成模型输出对应的预测帧图像,以基于所述原始帧图像和所述预测帧图像生成具有时域运动一致性特性的视频;
其中,所述时域运动一致性视频生成模型预先基于第一方面所述的时域运动一致性视频生成模型的训练方法训练得到。
本发明第三方面提供了一种时域运动一致性视频生成模型的训练装置,包括:
全局运动向量获取模块,用于获取当前训练样本对应的全局运动向量,其中,所述训练样本包括:多个参考帧图像和连续的多个原始帧图像;
第一模型训练模块,用于基于各个所述原始帧图像、所述全局运动向量以及各个所述原始帧图像上一帧分别对应的反向传递的预测帧图像特征,训练预设的视频生成网络,以使该视频生成网络输出当前训练样本对应的预测帧图像;
第二模型训练模块,用于应用所述预测帧图像及各个所述参考帧图像,求解用于优化当前视频生成网络的具有时域运动一致性特征的目标损失函数,以将该视频生成网络训练为对应的时域运动一致性视频生成模型。
本发明第四方面提供了一种存储器,存储有多条指令,所述指令用于实现如第一方面所述的时域运动一致性视频生成模型的训练方法,或,实现如第二方面所述的时域运动一致性视频生成方法。
本发明第五方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的时域运动一致性视频生成模型的训练方法,或,实现如第二方面所述的时域运动一致性视频生成方法。
本发明的有益效果是:本发明提供的时域运动一致性视频生成模型的训练方法和视频生成方法,通过引入多个原始帧图像输入,可以在训练阶段强制模型学习时域关联;通过设置多个参考帧图像,使得每个原始帧图像都可以对应多张目标图像,从而强制模型更加关注运动信息;通过使用时域一致性损失函数,驱动模型学习时间关联的特征;通过采用特征反向前递,有效保证连续帧的变化一致性。
附图说明
图1为本发明所述时域运动一致性视频生成模型的训练方法流程示意图;
图2为本发明所述时域运动一致性视频生成方法流程示意图;
图3为本发明所述时域运动一致性视频生成模型的训练装置的功能结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
如图1所示,本发明实施例提供了一种时域运动一致性视频生成模型的训练方法,包括:
S101,获取当前训练样本对应的全局运动向量,其中,所述训练样本包括:多个参考帧图像和连续的多个原始帧图像;
S102,基于各个所述原始帧图像、所述全局运动向量以及各个所述原始帧图像上一帧分别对应的反向传递的预测帧图像特征,训练预设的视频生成网络,以使该视频生成网络输出当前训练样本对应的预测帧图像;
S103,应用所述预测帧图像及各个所述参考帧图像,求解用于优化当前视频生成网络的具有时域运动一致性特征的目标损失函数,以将该视频生成网络训练为对应的时域运动一致性视频生成模型。
可以理解的是,所述时域运动一致性视频生成模型是指:用于生成与输入其中的原始帧图像之间具备时域运动一致性的预测帧图像的视频生成模型。
在本申请的一个或多个实施例中,原始帧图像、参考帧图像及预测帧图像等均是指视频帧图像的不同状态或用途,其中,参考帧图像可以从原始帧图像中选取,预测帧图像用于作为预测得到的原始帧图像的后续视频帧图像,与原始帧图像构成对应的视频。
本发明以生成高质量连续视频帧为主要目的,其主要改进点在于引入多个原始帧图像输入,设置多个参考帧图像,并通过损失函数引入时域信息,同时采用时间维特征前递来实现时间维平滑。相对于现有技术方案,本发明主要优势在于能够预测复杂的时空运动特征,从而避免仅通过关键点运动控制带来的运动难以精细的问题。同时,由于引入了训练阶段的多帧图像的关联,可以使训练阶段与应用阶段流程一致,提高预测效果。通过引入多帧参考帧,本方法还可以充分利用每组随机数据的信息,提高数据利用率。通过引入时间维特征前递,提高连续帧的连续变化一致性,降低波动。
在本发明的一个优选实施例中,在所述获取当前训练样本对应的全局运动向量之前,还包括:
获取包括各个训练样本的训练数据,每个所述训练样本均包括多个原始帧图像和多个参考帧图像;
其中,所述原始帧图像包含有目标体的外观信息;所述参考帧图像包含有目标体在视频中的待执行动作信息。
可以理解的是,所述目标体是指期望在后续应用时域运动一致性视频生成模型预测生成的视频中动作的物体或生命体。在一种优选方式中,该目标体可以为人体,相对应的,该目标体的外观信息包含有用于生成视频的人像,其主要为目标视频提供纹理、任务、穿着等外观信息。所述参考帧图像包含有希望目标体在视频中进行的动作信息,即在生成的视频中,目标人物应以参考帧中的动作呈现。
因此,基于包含有目标体的外观信息的原始帧图像以及包含有目标体在视频中的待执行动作信息的所述参考帧图像,能够使得所述时域运动一致性视频生成模型输出的视频可以为:所述目标体以所述外观信息及所述目标动作呈现的视频。
在步骤S101中,所述获取当前训练样本对应的全局运动向量,包括:
分别检测得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点;
将各个所述原始帧图像对应的关键点分别与所有参考帧图像对应的关键点进行比较,分别得到各个所述原始帧图像上每个关键点的运动向量,并基于各个所述原始帧图像上每个关键点及其运动向量获取各个所述原始帧图像上每个关键点的局部运动向量;
根据所述局部运动向量和所述原始帧图像,获取当前训练样本对应的全局运动向量。
其中,所述分别检测得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点,可以采用如下方式进行实施:
基于姿态估计网络对各个所述原始帧图像和各个所述参考帧图像进行关键点检测,分别得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点。
在一个具体实施例中,姿态估计网络可以是已完成训练的网络,将其主干部分保留,并通过寻找最大值位置作为各关键点的位置。姿态估计网络需要应用在原始帧图像和参考帧图像,得到与之对应的两组关键点分别为ps和pr,每个关键点可表示为(x,y)。
获得关键点后,可以通过比较各个原始帧图像与所有参考帧图像的对应关键点位移,获得各个原始帧图像上每个关键点的运动向量,其计算过程可以表示为:
vs=ps-pr
其中,vs为原始帧图像上每个关键点的运动向量;ps为原始帧图像上的关键点;pr为参考帧图像上的关键点。
进一步地,所述基于各个所述原始帧图像上每个关键点及其运动向量获取各个所述原始帧图像上每个关键点的局部运动向量包括:
基于各个所述原始帧图像上每个关键点及各个所述关键点的运动向量,构建局部高斯分布,以获取各个所述原始帧图像上每个关键点的局部运动向量。采用该方法,可以降低关键点检测误差及运动向量误差。具体的,可以以原始帧图像上的关键点ps为中心,以原始帧图像上每个关键点的运动向量vs为参数,构建局部高斯分布,以获取各个所述原始帧图像上每个关键点的局部运动向量。其计算过程可以为:
di=‖pi-ps2
Figure BDA0003832183320000091
其中,i为距离原始帧图像上每个关键点距离小于阈值的所有点的索引,vs为原始帧图像上每个关键点的运动向量;ps为原始帧图像上的关键点;pi为距离ps小于阈值的第i个点,di为pi至ps的欧氏距离,vi为pi对应位置的局部高斯值。
在本发明的一个优选实施例中,所述根据所述局部运动向量和所述原始帧图像,获取当前训练样本对应的全局运动向量可以包括:
将所述局部运动向量和所述原始帧图像输入运动估计网络中,预测得到当前训练样本对应的全局运动向量。
由于局部运动向量仅能表示单个点附近的运动,无法反应其他部分的运动,本发明实施例进一步引入基于运动估计网络的全局运动向量预测技术。其关键结构采用自动编码器架构,使用预训练光流网络作为初始化参数,以局部运动向量和原始帧图像作为输入,输出为光流矩阵,即全局运动向量。
在步骤S102中,所述视频生成网络包括:编码器、解码器和反向传递单元;
所述编码器用于对输入其中的当前帧的原始帧图像和所述反向传递单元回传的上一帧对应的预测帧图像特征进行特征提取及融合,并输出当前帧对应的融合特征和分辨率特征;
所述解码器用于根据输入其中的当前帧的所述融合特征、分辨率特征以及所述全局运动向量进行特征重组,并输出当前帧对应的预测帧图像特征及对应的预测帧图像;
所述反向传递单元用于将所述解码器输出的当前帧的所述预测帧图像特征回传至所述编码器,以使该编码器在对下一帧的原始帧图像进行特征提取及融合时应用该预测帧图像特征。
其中,编码器可以由3层以上卷积层构成,通过下采样或卷积补偿实现降分辨率。为了降低训练难度,可采用其他预训练的主干网络,如ResNet、VGG等,保留其卷积部分,最后一层分辨率一般可以采用7x7或13x13。
解码器可以由多层反卷积层构成,并通过反池化实现分辨率提升。为了实现下一帧的预测,解码器在每次升分辨率后,同时以当前帧的所述融合特征、分辨率特征以及所述全局运动向量作为输入,从而通过多分辨率特征实现更精确的图像生成。
反向传递单元主要功能是实现特征图在时间维的传递。具体来说,在每一帧生成过程中,都以前一帧的最后一层解码器特征作为额外输入,与原始帧进行通道维拼接,输入编码器进行特征提取。在第一帧生成时,由于没有前一帧,则使用相同分辨率的全零矩阵作为传递的特征。
在步骤S103中,所述目标损失函数包括:帧重构损失函数和时域运动一致性损失函数之和;
其中,所述帧重构损失函数和所述时域运动一致性损失函数分别预先基于当前帧的预测帧图像特征和所述参考帧构建而得。
帧重构损失函数可表示为:
Figure BDA0003832183320000111
时域运动一致性损失函数可表示为:
Figure BDA0003832183320000112
目标损失函数可表示为:
L=Lr+Lt
其中,
Figure BDA0003832183320000113
为当前帧的预测帧,fr为参考帧,j表示当前为第j帧,Lr为帧重构损失函数,Lt为时域运动一致性损失函数,L为目标损失函数,K表示第j帧对应的所有预测结果的总数,p表示第j帧的第p个预测。
实施例二
如图2所示,本发明实施例提供了一种时域运动一致性视频生成方法,包括:
S201,获取目标样本对应的全局运动向量,其中,所述目标样本包括:参考帧图像和原始帧图像;
S202,将所述参考帧图像、原始帧图像和所述原始帧图像上一帧对应的反向传递的预测帧图像特征,输入时域运动一致性视频生成模型,使得该时域运动一致性视频生成模型输出对应的预测帧图像,以基于所述原始帧图像和所述预测帧图像生成具有时域运动一致性特性的视频;
其中,所述时域运动一致性视频生成模型预先基于实施例一所述的时域运动一致性视频生成模型的训练方法训练得到。
实施例三
如图3所示,本发明实施例提供了一种时域运动一致性视频生成模型的训练装置,包括:
全局运动向量获取模块301,用于获取当前训练样本对应的全局运动向量,其中,所述训练样本包括:多个参考帧图像和连续的多个原始帧图像;
第一模型训练模块302,用于基于各个所述原始帧图像、所述全局运动向量以及各个所述原始帧图像上一帧分别对应的反向传递的预测帧图像特征,训练预设的视频生成网络,以使该视频生成网络输出当前训练样本对应的预测帧图像;
第二模型训练模块303,用于应用所述预测帧图像及各个所述参考帧图像,求解用于优化当前视频生成网络的具有时域运动一致性特征的目标损失函数,以将该视频生成网络训练为对应的时域运动一致性视频生成模型。
其中,所述视频生成网络包括:编码器、解码器和反向传递单元;
所述编码器用于对输入其中的当前帧的原始帧图像和所述反向传递单元回传的上一帧对应的预测帧图像特征进行特征提取及融合,并输出当前帧对应的融合特征和分辨率特征;
所述解码器用于根据输入其中的当前帧的所述融合特征、分辨率特征以及所述全局运动向量进行特征重组,并输出当前帧对应的预测帧图像特征及对应的预测帧图像;
所述反向传递单元用于将所述解码器输出的当前帧的所述预测帧图像特征回传至所述编码器,以使该编码器在对下一帧的原始帧图像进行特征提取及融合时应用该预测帧图像特征。
所述目标损失函数包括:帧重构损失函数和时域运动一致性损失函数之和;
其中,所述帧重构损失函数和所述时域运动一致性损失函数分别预先基于当前帧的预测帧图像特征和所述参考帧构建而得。
进一步地,在所述获取当前训练样本对应的全局运动向量之前,还包括:
获取包括各个训练样本的训练数据,每个所述训练样本均包括多个原始帧图像和多个参考帧图像;
其中,所述原始帧图像包含有目标体的外观信息;所述参考帧图像包含有目标体在视频中的待执行动作信息。
具体地,所述获取当前训练样本对应的全局运动向量,包括:
分别检测得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点;
将各个所述原始帧图像对应的关键点分别与所有参考帧图像对应的关键点进行比较,分别得到各个所述原始帧图像上每个关键点的运动向量,并基于各个所述原始帧图像上每个关键点及其运动向量获取各个所述原始帧图像上每个关键点的局部运动向量;
根据所述局部运动向量和所述原始帧图像,获取当前训练样本对应的全局运动向量。
进一步地,所述分别检测得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点,包括:
基于姿态估计网络对各个所述原始帧图像和各个所述参考帧图像进行关键点检测,分别得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点。
进一步地,所述基于各个所述原始帧图像上每个关键点及其运动向量获取各个所述原始帧图像上每个关键点的局部运动向量包括:
基于各个所述原始帧图像上每个关键点及各个所述关键点的运动向量,构建局部高斯分布,以获取各个所述原始帧图像上每个关键点的局部运动向量。
进一步地,所述根据所述局部运动向量和所述原始帧图像,获取当前训练样本对应的全局运动向量,包括:
将所述局部运动向量和所述原始帧图像输入运动估计网络中,预测得到当前训练样本对应的全局运动向量。
该装置可通过上述实施例一提供的时域运动一致性视频生成模型的训练方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的时域运动一致性视频生成模型的训练方法,或,实现如实施例二所述的时域运动一致性视频生成方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的时域运动一致性视频生成模型的训练方法,或,实现如实施例二所述的时域运动一致性视频生成方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种时域运动一致性视频生成模型的训练方法,其特征在于,包括:
获取当前训练样本对应的全局运动向量,其中,所述训练样本包括:多个参考帧图像和连续的多个原始帧图像;
基于各个所述原始帧图像、所述全局运动向量以及各个所述原始帧图像上一帧分别对应的反向传递的预测帧图像特征,训练预设的视频生成网络,以使该视频生成网络输出当前训练样本对应的预测帧图像;
应用所述预测帧图像及各个所述参考帧图像,求解用于优化当前视频生成网络的具有时域运动一致性特征的目标损失函数,以将该视频生成网络训练为对应的时域运动一致性视频生成模型。
2.如权利要求1所述的时域运动一致性视频生成模型的训练方法,其特征在于,所述视频生成网络包括:编码器、解码器和反向传递单元;
所述编码器用于对输入其中的当前帧的原始帧图像和所述反向传递单元回传的上一帧对应的预测帧图像特征进行特征提取及融合,并输出当前帧对应的融合特征和分辨率特征;
所述解码器用于根据输入其中的当前帧的所述融合特征、分辨率特征以及所述全局运动向量进行特征重组,并输出当前帧对应的预测帧图像特征及对应的预测帧图像;
所述反向传递单元用于将所述解码器输出的当前帧的所述预测帧图像特征回传至所述编码器,以使该编码器在对下一帧的原始帧图像进行特征提取及融合时应用该预测帧图像特征。
3.如权利要2所述的时域运动一致性视频生成模型的训练方法,其特征在于,所述目标损失函数包括:帧重构损失函数和时域运动一致性损失函数之和;
其中,所述帧重构损失函数和所述时域运动一致性损失函数分别预先基于当前帧的预测帧图像特征和所述参考帧构建而得。
4.如权利要求1所述的时域运动一致性视频生成模型的训练方法,其特征在于,在所述获取当前训练样本对应的全局运动向量之前,还包括:
获取包括各个训练样本的训练数据,每个所述训练样本均包括多个原始帧图像和多个参考帧图像;
其中,所述原始帧图像包含有目标体的外观信息;所述参考帧图像包含有目标体在视频中的待执行动作信息。
5.如权利要求1所述的时域运动一致性视频生成模型的训练方法,其特征在于,所述获取当前训练样本对应的全局运动向量,包括:
分别检测得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点;
将各个所述原始帧图像对应的关键点分别与所有参考帧图像对应的关键点进行比较,分别得到各个所述原始帧图像上每个关键点的运动向量,并基于各个所述原始帧图像上每个关键点及其运动向量获取各个所述原始帧图像上每个关键点的局部运动向量;
根据所述局部运动向量和所述原始帧图像,获取当前训练样本对应的全局运动向量。
6.如权利要求5所述的时域运动一致性视频生成模型的训练方法,其特征在于,所述分别检测得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点,包括:
基于姿态估计网络对各个所述原始帧图像和各个所述参考帧图像进行关键点检测,分别得到各个所述原始帧图像对应的关键点和各个所述参考帧图像对应的关键点。
7.如权利要求5所述的时域运动一致性视频生成模型的训练方法,其特征在于,所述基于各个所述原始帧图像上每个关键点及其运动向量获取各个所述原始帧图像上每个关键点的局部运动向量包括:
基于各个所述原始帧图像上每个关键点及各个所述关键点的运动向量,构建局部高斯分布,以获取各个所述原始帧图像上每个关键点的局部运动向量。
8.如权利要求5所述的时域运动一致性视频生成模型的训练方法,其特征在于,所述根据所述局部运动向量和所述原始帧图像,获取当前训练样本对应的全局运动向量,包括:
将所述局部运动向量和所述原始帧图像输入运动估计网络中,预测得到当前训练样本对应的全局运动向量。
9.一种时域运动一致性视频生成方法,其特征在于,包括:
获取目标样本对应的全局运动向量,其中,所述目标样本包括:参考帧图像和原始帧图像;
将所述参考帧图像、原始帧图像和所述原始帧图像上一帧对应的反向传递的预测帧图像特征,输入时域运动一致性视频生成模型,使得该时域运动一致性视频生成模型输出对应的预测帧图像,以基于所述原始帧图像和所述预测帧图像生成具有时域运动一致性特性的视频;
其中,所述时域运动一致性视频生成模型预先基于权利要求1至8任一项所述的时域运动一致性视频生成模型的训练方法训练得到。
10.一种时域运动一致性视频生成模型的训练装置,其特征在于,包括:
全局运动向量获取模块,用于获取当前训练样本对应的全局运动向量,其中,所述训练样本包括:多个参考帧图像和连续的多个原始帧图像;
第一模型训练模块,用于基于各个所述原始帧图像、所述全局运动向量以及各个所述原始帧图像上一帧分别对应的反向传递的预测帧图像特征,训练预设的视频生成网络,以使该视频生成网络输出当前训练样本对应的预测帧图像;
第二模型训练模块,用于应用所述预测帧图像及各个所述参考帧图像,求解用于优化当前视频生成网络的具有时域运动一致性特征的目标损失函数,以将该视频生成网络训练为对应的时域运动一致性视频生成模型。
11.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-8任一项所述的时域运动一致性视频生成模型的训练方法,或,实现如权利要求9所述的时域运动一致性视频生成方法。
12.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-8任一项所述的时域运动一致性视频生成模型的训练方法,或,实现如权利要求9所述的时域运动一致性视频生成方法。
CN202211094961.4A 2022-09-05 2022-09-05 时域运动一致性视频生成模型的训练方法和视频生成方法 Active CN115633216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211094961.4A CN115633216B (zh) 2022-09-05 2022-09-05 时域运动一致性视频生成模型的训练方法和视频生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211094961.4A CN115633216B (zh) 2022-09-05 2022-09-05 时域运动一致性视频生成模型的训练方法和视频生成方法

Publications (2)

Publication Number Publication Date
CN115633216A true CN115633216A (zh) 2023-01-20
CN115633216B CN115633216B (zh) 2024-05-28

Family

ID=84902072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211094961.4A Active CN115633216B (zh) 2022-09-05 2022-09-05 时域运动一致性视频生成模型的训练方法和视频生成方法

Country Status (1)

Country Link
CN (1) CN115633216B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152610A (zh) * 2023-04-04 2023-05-23 北京智源人工智能研究院 智能心脏超声探头位姿预估模型训练方法及位姿预估方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1943244A (zh) * 2004-04-14 2007-04-04 三星电子株式会社 视频编码中的帧间预测方法、视频编码器、视频解码方法和视频解码器
EP1672926B1 (en) * 2003-09-12 2013-05-22 Institute of Computing Technology Chinese Academy of Sciences Bi-directional predicting method for video coding/decoding
CN104159098A (zh) * 2014-08-29 2014-11-19 杭州道玄影视科技有限公司 一种视频的时域一致性半透明边缘提取方法
CN106534871A (zh) * 2016-12-06 2017-03-22 北京大学 视频编解码器的编码方法和解码方法
CN108259916A (zh) * 2018-01-22 2018-07-06 南京邮电大学 一种分布式视频压缩感知中帧内最佳匹配插值重构方法
CN110175951A (zh) * 2019-05-16 2019-08-27 西安电子科技大学 基于时域一致性约束的视频风格迁移方法
CN111357290A (zh) * 2019-01-03 2020-06-30 北京大学 视频图像处理方法与装置
WO2020177582A1 (zh) * 2019-03-06 2020-09-10 腾讯科技(深圳)有限公司 视频合成的方法、模型训练的方法、设备及存储介质
CN113706414A (zh) * 2021-08-26 2021-11-26 荣耀终端有限公司 视频优化模型的训练方法和电子设备
CN114339219A (zh) * 2021-12-31 2022-04-12 浙江大华技术股份有限公司 帧间预测方法、装置、编解码方法、编解码器及电子设备
US20220156944A1 (en) * 2020-11-13 2022-05-19 Samsung Electronics Co., Ltd. Apparatus and method with video processing
CN114676761A (zh) * 2022-03-10 2022-06-28 北京智源人工智能研究院 预训练模型训练处理方法、装置、电子设备及存储介质
CN114821086A (zh) * 2022-04-07 2022-07-29 中国科学院微电子研究所 一种视频预测方法和系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1672926B1 (en) * 2003-09-12 2013-05-22 Institute of Computing Technology Chinese Academy of Sciences Bi-directional predicting method for video coding/decoding
CN1943244A (zh) * 2004-04-14 2007-04-04 三星电子株式会社 视频编码中的帧间预测方法、视频编码器、视频解码方法和视频解码器
CN104159098A (zh) * 2014-08-29 2014-11-19 杭州道玄影视科技有限公司 一种视频的时域一致性半透明边缘提取方法
CN106534871A (zh) * 2016-12-06 2017-03-22 北京大学 视频编解码器的编码方法和解码方法
CN108259916A (zh) * 2018-01-22 2018-07-06 南京邮电大学 一种分布式视频压缩感知中帧内最佳匹配插值重构方法
CN111357290A (zh) * 2019-01-03 2020-06-30 北京大学 视频图像处理方法与装置
US20210021858A1 (en) * 2019-01-03 2021-01-21 SZ DJI Technology Co., Ltd. Video image processing method and device
WO2020177582A1 (zh) * 2019-03-06 2020-09-10 腾讯科技(深圳)有限公司 视频合成的方法、模型训练的方法、设备及存储介质
CN110175951A (zh) * 2019-05-16 2019-08-27 西安电子科技大学 基于时域一致性约束的视频风格迁移方法
US20220156944A1 (en) * 2020-11-13 2022-05-19 Samsung Electronics Co., Ltd. Apparatus and method with video processing
CN113706414A (zh) * 2021-08-26 2021-11-26 荣耀终端有限公司 视频优化模型的训练方法和电子设备
CN114339219A (zh) * 2021-12-31 2022-04-12 浙江大华技术股份有限公司 帧间预测方法、装置、编解码方法、编解码器及电子设备
CN114676761A (zh) * 2022-03-10 2022-06-28 北京智源人工智能研究院 预训练模型训练处理方法、装置、电子设备及存储介质
CN114821086A (zh) * 2022-04-07 2022-07-29 中国科学院微电子研究所 一种视频预测方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊成鑫;郭丹;刘学亮;: "时域候选优化的时序动作检测", 中国图象图形学报, no. 07, 16 July 2020 (2020-07-16) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152610A (zh) * 2023-04-04 2023-05-23 北京智源人工智能研究院 智能心脏超声探头位姿预估模型训练方法及位姿预估方法
CN116152610B (zh) * 2023-04-04 2023-06-23 北京智源人工智能研究院 智能心脏超声探头位姿预估模型训练方法及位姿预估方法

Also Published As

Publication number Publication date
CN115633216B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN112104830B (zh) 视频插帧方法、模型训练方法及对应装置
Song et al. Learning to sketch with shortcut cycle consistency
CN113034380B (zh) 基于改进可变形卷积校正的视频时空超分辨率方法和装置
CN110678899B (zh) 成像系统和图像处理方法
US20240062343A1 (en) Image Restoration Method and Apparatus, Image Restoration Device and Storage Medium
CN115633216B (zh) 时域运动一致性视频生成模型的训练方法和视频生成方法
CN110378250A (zh) 用于场景认知的神经网络的训练方法、装置及终端设备
CN110874575A (zh) 一种脸部图像处理方法及相关设备
CN114863214A (zh) 图像生成模型训练、图像生成方法、装置、介质及设备
CN116703454A (zh) 目标推荐方法及装置
CN110826563B (zh) 基于神经网络和概率图模型的手指静脉分割方法及装置
CN113053406A (zh) 声音信号识别方法及装置
CN117094365A (zh) 图文生成模型的训练方法、装置、电子设备及介质
CN112308950A (zh) 视频生成方法及装置
CN114004750A (zh) 图像处理方法、装置和系统
CN115410133A (zh) 视频密集预测方法及其装置
CN111798385B (zh) 图像处理方法及装置、计算机可读介质和电子设备
CN113643218A (zh) 基于神经网络的图像重建方法、装置、电子设备及介质
CN114565624A (zh) 基于多期立体图元生成器的肝脏病灶分割的图像处理方法
CN113486978A (zh) 文本分类模型的训练方法、装置、电子设备及存储介质
CN116503517B (zh) 长文本生成图像的方法及系统
CN115439388B (zh) 基于多层神经表面表达的自由视点图像合成方法
Zhu et al. Fused network for view synthesis
CN111429350B (zh) 一种手机拍照快速超分辨处理方法
CN115761565B (zh) 视频生成方法、装置、设备与计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant