CN117336527A - 视频编辑的方法和装置 - Google Patents

视频编辑的方法和装置 Download PDF

Info

Publication number
CN117336527A
CN117336527A CN202311296076.9A CN202311296076A CN117336527A CN 117336527 A CN117336527 A CN 117336527A CN 202311296076 A CN202311296076 A CN 202311296076A CN 117336527 A CN117336527 A CN 117336527A
Authority
CN
China
Prior art keywords
video
feature vector
video editing
image
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311296076.9A
Other languages
English (en)
Inventor
李亘杰
邱慎杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN202311296076.9A priority Critical patent/CN117336527A/zh
Publication of CN117336527A publication Critical patent/CN117336527A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请实施例提供了一种视频编辑的方法和装置,包括:通过预置的视频编辑模型,对待编辑视频中的每一帧图像进行向量化处理得到每一帧图像对应的3D特征向量;对所有帧图像对应的3D特征向量进行转化得到目标特征向量;其中,所述目标特征向量包含每一帧图像在整个视频的时间尺度上的关系信息,和每一帧图像在宽度和高度上的像素信息;根据所述目标特征向量进行扩散操作得到目标视频。通过基于3D特征向量转化得到的目标特征向量进行扩散操作,由于该目标特征向量考虑了视频帧的时序前后信息来生成目标视频,基本不会发生视频抖动的情况,且视频的画质因为有了时序性也得到了比较大的提高。

Description

视频编辑的方法和装置
技术领域
本申请实施例涉及互联网技术领域,尤其涉及一种视频编辑的方法、装置、计算机设备及计算机可读存储介质。
背景技术
现有技术中,基于扩散模型的文本生成图像和视频生成视频的技术,具有很高的应用价值,被广泛用于艺术创作、游戏开发、虚拟现实等领域。例如,这种技术可以被用于游戏中的场景生成、角色生成等方面,也可以被用于虚拟现实中的图像生成和视频生成等。此外,这种技术也可以被用于艺术创作中,帮助艺术家们创造出更加独特的艺术作品。
但是,由于扩散模型本身的特点,生成的图像和视频的画质往往不能与真实拍摄的画质相媲美,尽管近年来不断有新的算法被提出来用于提高图像和视频的质量,但是目前还没有一种算法能够完全解决这个问题。此外,由于扩散模型是一种基于随机游走的算法,因此生成的图像和视频的稳定性较差,在生成过程中,往往会出现一些未知的随机因素,导致生成的图像和视频出现一些不稳定的现象,例如图像抖动、视频卡顿等。
发明内容
本申请实施例的目的是提供一种视频编辑的方法、装置、计算机设备及计算机可读存储介质,用于解决以下问题:基于扩散模型生成的图像和视频的画质较差,而且不稳定,容易导致图像抖动、视频卡顿等问题。
本申请实施例的一个方面提供了一种视频编辑的方法,包括:
通过预置的视频编辑模型,对待编辑视频中的每一帧图像进行向量化处理得到每一帧图像对应的3D特征向量;
对所有帧图像对应的3D特征向量进行转化得到目标特征向量;其中,所述目标特征向量包含每一帧图像在整个视频的时间尺度上的关系信息,和每一帧图像在宽度和高度上的像素信息;
根据所述目标特征向量进行扩散操作得到目标视频。
可选地,所述对所有帧图像对应的3D特征向量进行转化得到目标特征向量,包括:
按照每一帧图像在所述待编辑视频中的时间顺序,对所有帧图像对应的3D特征向量进行排序得到基于时间序列的3D特征向量;
对所述基于时间序列的3D特征向量进行转化得到目标特征向量。
可选地,所述预置的视频编辑模型包含多个映射网络,所述对所述基于时间序列的3D特征向量进行转化得到目标特征向量,包括:
通过所述多个映射网络,分别从多个不同维度对所述基于时间序列的3D特征向量进行转化得到目标特征向量。
可选地,所述预置的视频编辑模型还包含扩散网络,所述根据所述目标特征向量进行扩散操作得到目标视频,包括:
将所述目标特征向量输入到所述扩散网络中进行扩散操作,以得到目标视频。
可选地,所述3D特征向量为三维向量,包含:当前帧图像的宽度W,当前帧图像的高度H,当前帧图像在所述待编辑视频中所处的帧数S。
可选地,所述预置的视频编辑模型通过如下步骤训练生成:
获取多组样本数据和初始视频编辑模型;
对所述多组样本数据中的每一帧图像进行向量化处理,得到每一帧图像对应的3D特征向量;
根据所述每一帧图像对应的3D特征向量对所述初始视频编辑模型进行训练,直到所述初始视频编辑模型的收敛效果达到预期,则输出所述预置的视频编辑模型。
可选地,所述初始视频编辑模型包含多个映射网络和扩散网络;
所述根据所述每一帧图像对应的3D特征向量对所述初始视频编辑模型进行训练,直到所述初始视频编辑模型的收敛效果达到预期,则输出所述预置的视频编辑模型,包括:
按照每一帧图像在所述待编辑视频中的时间顺序,对所有帧图像对应的3D特征向量进行排序得到基于时间序列的3D特征向量;
根据所述基于时间序列的3D特征向量对所述多个映射网络进行训练,并根据所述多个映射网络输出的向量对所述扩散网络进行训练,直到所述多个映射网络和扩散网络的收敛效果达到预期,则输出所述预置的视频编辑模型。
本申请实施例的一个方面又提供了一种视频编辑的装置,包括:
向量化处理模块,用于通过预置的视频编辑模型,对待编辑视频中的每一帧图像进行向量化处理得到每一帧图像对应的3D特征向量;
向量转化模块,用于对所有帧图像对应的3D特征向量进行转化得到目标特征向量;其中,所述目标特征向量包含每一帧图像在整个视频的时间尺度上的关系信息,和每一帧图像在宽度和高度上的像素信息;
扩散模块,用于根据所述目标特征向量进行扩散操作得到目标视频。
本申请实施例的一个方面又提供了一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的视频编辑的方法的步骤。
本申请实施例的一个方面又提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行所述计算机程序时实现如上述的视频编辑的方法的步骤。
本申请实施例提供的视频编辑的方法、装置、设备及计算机可读存储介质,通过基于3D特征向量转化得到的目标特征向量进行扩散操作,由于该目标特征向量考虑了视频帧的时序前后信息来生成目标视频,基本不会发生视频抖动的情况,且视频的画质因为有了时序性也得到了比较大的提高,如在某一帧的图像很模糊但在其他帧图像中比较清楚的情况,在生成的时候能参考视频中前后序列的帧图像进行处理,因此生成视频的画质得到提升和加强。而且,基于3D特征向量转化生成的2D隐空间向量(也即目标特征向量)和3D-conv一样考虑到时间一致性,因为和图像格式一样,因此在使用扩散模型的时候可以无感替代以往的隐空间向量进行扩散加噪过程和去噪采样过程,只需要经过一次扩散操作就能够输出目标视频,能够大幅降低计算量。
附图说明
图1示意性示出了根据本申请实施例的视频编辑的方法的应用环境图;
图2示意性示出了根据本申请实施例一的视频编辑的方法的流程图;
图3示意性示出了一种预置的视频编辑模型的框架结构的示意图;
图4示意性示出了一种预置的视频编辑模型中扩散网络的框架结构的示意图;
图5示意性示出了根据本申请实施例二的视频编辑的装置的框图;及
图6示意性示出了根据本申请实施例三的适于实现视频编辑的方法的计算机设备的硬件架构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
基于扩散模型的文本生成图像(text2video)和视频生成视频(video2video),是指利用扩散模型算法来生成图像和视频的技术。扩散模型算法是一种基于随机游走的图像处理技术,通过在图像中随机游走来实现图像去噪、图像增强、图像分割等任务。在文本生成图像和视频生成视频的应用中,扩散模型算法被用来生成图像和视频的过程中的噪声和细节。在文本生成图像的应用中,扩散模型算法被用来生成图像中的噪声和细节。具体地说,这种技术首先将文本转化为向量,然后使用扩散模型算法对这些向量进行处理,生成一张图像。这种技术可以用来生成具有某种主题的图像,例如根据一段描述生成一张风景图或人物肖像。
在视频生成视频的应用中,扩散模型算法被用来生成视频中的细节。具体地说,这种技术首先将一张图像转化为向量,然后使用扩散模型算法对这些向量进行处理,生成一段视频。这种技术可以用来生成动态的图像、视频或动画,例如根据一段描述生成一个运动场景或动物的行为。
基于扩散模型的文本生成图像和视频生成视频的技术,具有很高的应用价值,被广泛用于艺术创作、游戏开发、虚拟现实等领域。例如,这种技术可以被用于游戏中的场景生成、角色生成等方面,也可以被用于虚拟现实中的图像生成和视频生成。此外,这种技术也可以被用于艺术创作中,帮助艺术家们创造出更加独特的艺术作品。
但是,由于扩散算法本身的特点,生成的图像和视频的画质往往不能与真实拍摄的画质相媲美。尽管近年来不断有新的算法被提出来用于提高图像和视频的质量,但是目前还没有一种算法能够完全解决这个问题。
由于扩散算法(diffusion算法)是一种基于随机游走的算法,因此生成的图像和视频的稳定性较差。在生成过程中,往往会出现一些未知的随机因素,导致生成的图像和视频出现一些不稳定的现象,例如图像抖动、视频卡顿等。
有鉴于此,本申请旨在提出一种视频编辑的方法,通过预置的视频编辑模型,对待编辑视频中的每一帧图像进行向量化处理得到每一帧图像对应的3D特征向量;对所有帧图像对应的3D特征向量进行转化得到目标特征向量;其中,所述目标特征向量包含每一帧图像在整个视频的时间尺度上的关系信息,和每一帧图像在宽度和高度上的像素信息;根据所述目标特征向量进行扩散操作得到目标视频。基于3D特征向量转化得到的目标特征向量进行扩散操作,由于该目标特征向量考虑了视频帧的时序前后信息来生成目标视频,基本不会发生视频抖动的情况,且视频的画质因为有了时序性也得到了比较大的提高,如在某一帧的图像很模糊但在其他帧清楚的情况,在生成的时候能参考视频中前后序列的帧图像进行处理,因此生成视频的画质得到提升和加强。
而且,本申请可以避免以往video2video使用的3D卷积,虽然能够考虑到时间一致性,但是在视频层面应用会导致过高的计算量和资源成本,本申请利用全新设计的2D类图像隐空间变分编码器提取更有效的信息,生成的2D隐空间向量(也即目标特征向量)和3D-conv一样考虑到时间一致性,只需要经过一次扩散操作就能够输出目标视频,不仅能大幅降低计算量,同时在视频的画质和帧间稳定性都能有较大的提升。
生成的2D隐空间向量(也即目标特征向量)因为和图像格式和一样,因此在使用扩散模型的时候可以无感替代以往的隐空间向量进行扩散加噪过程和去噪采样过程,和传统方案不同的是,传统方案的隐空间的向量是视频每一帧的z_conditional,不包含视频时序上的信息,且每一帧都要重复进入扩散模型进行计算,这导致了没有时序信息生成的视频时序上的稳定性差,表现为画面和像素的抖动,同时因为没有前后帧的参考,单帧生成的画质也比较差,但是本申请只需要经过一次扩散操作就能够输出目标视频,不仅能大幅降低计算量,同时在视频的画质和帧间稳定性都能有较大的提升。
本申请提供了多个实施例进一步介绍视频编辑的方案,具体参照下文。
在本申请的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本申请及区别每一步骤,因此不能理解为对本申请的限制。
以下为本申请的术语解释:
video2video生成:用于将输入的视频序列转换成具有相同或不同特征的输出视频序列。这个技术通常使用深度学习模型来实现,会在输入数据和输出数据之间建立一种条件关系。例如,在将一个人的肢体动作转换成另一个人的肢体动作时,输入数据可以是一个人的视频序列,输出数据可以是另一个人的视频序列。模型将学习如何将输入数据转换成输出数据,并且尽可能地保留输入数据的关键特征。
画面抖动:生成模型在生成图像时,可能会出现画面抖动的问题。因为生成模型通常是基于随机噪声生成新数据的。噪声的变化可能会导致生成的图像出现明显的视觉差异,从而导致画面抖动。此外,生成模型的训练过程也会对模型的性能产生影响。如果训练数据集的规模不足或者训练过程中出现过拟合等问题,都可能导致生成的图像质量不佳,出现画面抖动的问题。
隐空间(latent space):也即潜在空间,是指一个高维空间,其中包含了用于表示一组数据的低维向量表示。这些向量通常被称为“潜在变量”,因为它们不是直接观察到的数据本身,而是通过对原始数据进行编码或者压缩而得到的。隐空间特征可以用于训练模型,进行分类、聚类、降维或者生成新的数据。潜在空间的一个主要优势是能够将数据转换为更简洁、更易于处理的形式,同时保留数据的关键特征,从而提高了许多机器学习任务的效率和准确性。
自监督学习:自监督学习是机器学习中的一种学习方式,它不需要人工标注的标签数据,而是利用无标注数据自行生成对应的训练数据,然后通过这些自动生成的“伪标签”进行训练,进而实现模型的学习和预测。自监督学习广泛应用于计算机视觉、自然语言处理和语音识别等领域。
图1示意性示出了根据本申请实施例的环境应用示意图。如图1所示:
计算机设备10000可以通过网络20000连接客户端30000。
计算机设备10000可以提供服务,如进行网络调试,或返回视频编辑的结果数据给客户端30000等。
计算机设备10000可以位于诸如单个场所之类的数据中心,或者分布在不同的地理位置(例如,在多个场所)中。计算机设备10000可以经由一个或多个网络20000提供服务。网络20000包括各种网络设备,例如路由器,交换机,多路复用器,集线器,调制解调器,网桥,中继器,防火墙,代理设备和/或类似。网络20000可以包括物理链路,例如同轴电缆链路,双绞线电缆链路,光纤链路,其组合等。网络20000可以包括无线链路,诸如蜂窝链路,卫星链路,Wi-Fi链路等。
计算机设备10000可以由一个或多个计算节点实现。一个或多个计算节点可以包括虚拟化的计算实例。虚拟化的计算实例可以包括虚拟机,例如计算机系统,操作系统,服务器等的仿真。计算节点可以基于虚拟映像和/或定义用于仿真的特定软件(例如,操作系统,专用应用程序,服务器)的其他数据,由计算节点加载虚拟机。随着对不同类型的处理服务的需求改变,可以在一个或多个计算节点上加载和/或终止不同的虚拟机。可以实现管理程序来管理同一计算节点上不同虚拟机的使用。
客户端30000可以被配置为访问计算机设备10000的内容和服务。客户端30000可以包括任何类型的电子设备,诸如移动设备、平板设备、膝上型计算机、工作站、虚拟现实设备,游戏设备、机顶盒、数字流媒体设备、车辆终端、智能电视、机顶盒等。
客户端30000可以将视频编辑的结果数据等输出(例如,显示、渲染、呈现)给用户。
以下将通过多个实施例介绍网络调试方案。该方案可以通过计算机设备10000实施。
实施例一
图2示意性示出了根据本申请实施例一的视频编辑的方法的流程图。包括步骤S202-S208,其中,
步骤S202,通过预置的视频编辑模型,对待编辑视频中的每一帧图像进行向量化处理得到每一帧图像对应的3D特征向量;
其中,预置的图像编辑模型是预先训练完成的神经网络模型,用于对视频进行编辑并输出相应的视频,如对视频的修复,超分,风格化等各种操作。待编辑视频为当前需要编辑的视频数据。
在本实施例中,通过将待编辑视频输入到预置的视频编辑模型,通过预置的视频编辑模型,对待编辑视频中的每一帧图像进行向量化处理,以提取帧图像中的特征得到每一帧图像对应的3D特征向量,具体的,预置的视频编辑模型中可以包含视频编码器网络,通过视频编码器网络对。其中,3D特征向量为三维向量,包含:当前帧图像的宽度W,当前帧图像的高度H,当前帧图像在所述待编辑视频中所处的帧数S。
步骤S204,对所有帧图像对应的3D特征向量进行转化得到目标特征向量;其中,所述目标特征向量包含每一帧图像在整个视频的时间尺度上的关系信息,和每一帧图像在宽度和高度上的像素信息;
由于传视频自动编码器主要依赖于逐帧2D卷积网络或3D卷积网络来压缩给定的视频的3D特征向量,尽管这些方法对于将3D特征向量摊销相当有效低维潜在向量,但是将图片编码为3D的潜在向量,忽略了时间一致性并需要后面的扩散模型架构来处理每一帧的3D向量,导致计算开销线性增长。
在本实施例中,通过对所有帧图像对应的3D特征向量进行转化得到目标特征向量,其中,目标特征向量为隐空间的向量,该目标特征向量包含每一帧图像在整个视频的时间尺度上的关系信息,和每一帧图像在宽度和高度上的像素信息。由于目标特征向量和图像格式和一样,因此,在后续进行扩散操作时可以无感替代以往的隐空间的向量进行扩散加噪过程和去噪采样过程,即和图像一样处理目标特征向量。
步骤S206,根据所述目标特征向量进行扩散操作得到目标视频。
具体的,预置的图像编辑模型中可以包含扩散网络,通过将生成的目标特征向量输入到扩散网络中,利用扩散网络进行扩散操作并输出目标视频,由于目标特征向量包含了每一帧图像在整个视频的时间尺度上的关系信息和每一帧图像在宽度和高度上的像素信息,因此扩散操作时可以参考视频时序前后信息,生成的目标视频基本不会有抖动,且画质因为有了时序性也得到了比较大的提高。
以下提供几个可选地实施例,以进行优化所述视频编辑的方法,具体如下:
在本申请的一种优选实施例中,所述对所有帧图像对应的3D特征向量进行转化得到目标特征向量,包括:
按照每一帧图像在所述待编辑视频中的时间顺序,对所有帧图像对应的3D特征向量进行排序得到基于时间序列的3D特征向量;对所述基于时间序列的3D特征向量进行转化得到目标特征向量。
在本实施例中,在转化3D特征向量时,通过按照每一帧图像在待编辑视频中的时间顺序,对所有帧图像对应的3D特征向量进行排序得到基于时间序列的3D特征向量,然后对基于时间序列的3D特征向量进行转化得到目标特征向量。
在本申请的一种优选实施例中,所述预置的视频编辑模型包含多个映射网络,所述对所述基于时间序列的3D特征向量进行转化得到目标特征向量,包括:
通过所述多个映射网络,分别从多个不同维度对所述基于时间序列的3D特征向量进行转化得到目标特征向量。
具体的,每一帧视频对应的3D特征向量可以包含当前帧图像的宽度W,当前帧图像的高度H,当前帧图像在所述待编辑视频中所处的帧数S,在转化时,可以分别从W,H和S三个维度对基于时间序列的3D特征向量进行转化得到目标特征向量。
作为示例,如图3示出了一种预置的视频编辑模型的框架结构的示意图,其中,预置的视频编辑模型中包含三个映射网络,这些映射网络可以为2D-latentent映射网络,通过三个映射网络分别从3D特征向量x的三个维度取数据,然后输入各自映射网络f得到隐空间的向量z(也即目标特征向量),z可以包含zs,zh,zw,记为:
Z:=[zs,zh,zw],zs∈RC×H′×W′,zh∈RC×S×W′,zw∈RC×S×H′
其中,H′=H/d,W′=W/d,d是原3D-vector的维度,为了正则化数据的尺度,因此,将H,W除以d进行scale标准化操作,得到的三个向量zs,zh,zw的concat连接操作。
在本实施例中,设计zs来捕捉在3D特征向量x中跨时间的共同内容以保持时间一致性,以及后两个潜在向量zh和zw,通过学习来编码3D特征向量x中的宽度和高度上的像素信息。
假设是w,h,s各自尺度上的映射网络,则在各尺度上映射网络的计算如下:
经过上述三个映射网络计算后得到Z:=[zs,zh,zw],z包含了每一帧图像在整个视频的时间尺度上的关系信息,和每一帧图像在宽度和高度上的像素信息,但是z的结构和图像一致包含h,w,c三个维度,因此在后续的扩散处理中可以做到无感,即和图像一样处理z。
在本申请的一种优选实施例中,所述预置的视频编辑模型还包含扩散网络,所述根据所述目标特征向量进行扩散操作得到目标视频,包括:
将所述目标特征向量输入到所述扩散网络中进行扩散操作,以得到目标视频。
扩散网络是一种基于随机游走的图像处理技术,通过在图像中随机游走来实现视频的修复,超分,风格化等各种操作,然后输出视频帧序列。在本实施例中,在转化得到隐空间的目标特征向量之后,可以将目标特征向量输入到扩散网络,通过扩散网络进行扩散操作以得到目标视频。
作为示例,如图4示出了一种预置的视频编辑模型中扩散网络的框架结构的示意图,扩散网络主要包含上采样层,下采样层和Attention层,通过将视频输入到编码器中提取特征向量并转化为隐空间的目标特征向量后,将目标特征向量输入到扩散网络中,经过上采样层,下采样层和Attention层进行扩散操作,最后经过视频解码器进行解码输出目标视频。
在本申请的一种优选实施例中,所述预置的视频编辑模型通过如下步骤训练生成:
获取多组样本数据和初始视频编辑模型;对所述多组样本数据中的每一帧图像进行向量化处理,得到每一帧图像对应的3D特征向量;根据所述每一帧图像对应的3D特征向量对所述初始视频编辑模型进行训练,直到所述初始视频编辑模型的收敛效果达到预期,则输出所述预置的视频编辑模型。
在本实施例中,样本数据可以为视频pair对数据集。在深度学习中,训练数据pair通常是指输入数据与目标数据之间的一组对应关系,也被称为输入-目标对(Input-TargetPair)。在监督学习中,训练数据pair通常包括一个输入数据和一个目标数据的对应关系。在本实施例中,需要训练一个预置的视频编辑模型,输入的每一组样本数据可以包含原视频和处理后的目标视频,对视频的处理过程可以是修复,超分,风格化等各种操作。
在训练模型时,通过获取多组样本数据和初始视频编辑模型,对所述多组样本数据中的每一帧图像进行向量化处理,得到每一帧图像对应的3D特征向量;根据所述每一帧图像对应的3D特征向量对所述初始视频编辑模型进行训练,直到所述初始视频编辑模型的收敛效果达到预期,则输出所述预置的视频编辑模型。
在本申请的一种优选实施例中,所述初始视频编辑模型包含多个映射网络和扩散网络;
所述根据所述每一帧图像对应的3D特征向量对所述初始视频编辑模型进行训练,直到所述初始视频编辑模型的收敛效果达到预期,则输出所述预置的视频编辑模型,包括:
按照每一帧图像在所述待编辑视频中的时间顺序,对所有帧图像对应的3D特征向量进行排序得到基于时间序列的3D特征向量;
根据所述基于时间序列的3D特征向量对所述多个映射网络进行训练,并根据所述多个映射网络输出的向量对所述扩散网络进行训练,直到所述多个映射网络和扩散网络的收敛效果达到预期,则输出所述预置的视频编辑模型。
具体的,在本实施例中,初始视频编辑模型包含三个映射网络和扩散网络,在训练模型时,通过按照每一帧图像在所述待编辑视频中的时间顺序,对所有帧图像对应的3D特征向量进行排序得到基于时间序列的3D特征向量;
根据所述基于时间序列的3D特征向量对所述多个映射网络进行训练,并根据所述多个映射网络输出的向量对所述扩散网络进行训练,直到所述多个映射网络和扩散网络的收敛效果达到预期,则输出预置的视频编辑模型。
本实施例训练得到的预置的视频编辑模型,可以避免使用通常用于处理视频的计算量巨大的3D卷积神经网络架构进行编辑,通过利用一种新颖的基于隐空间的向量进行扩散操作的扩散网络的框架来编辑视频,由于将3D特征向量转化生成了可以投影在2D类图片的隐空间向量(也即目标特征向量),能够大幅降低计算量,同时在视频的画质和帧间稳定性都能有较大的提升。
实施例二
图5示意性示出了根据本申请实施例二的视频编辑的装置的框图,该视频编辑的装置可以被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,以下描述将具体介绍本申请实施例中各程序模块的功能。
如图5所示,该视频编辑的装置500可以包括如下模块:
向量化处理模块510,用于通过预置的视频编辑模型,对待编辑视频中的每一帧图像进行向量化处理得到每一帧图像对应的3D特征向量;
向量转化模块520,用于对所有帧图像对应的3D特征向量进行转化得到目标特征向量;其中,所述目标特征向量包含每一帧图像在整个视频的时间尺度上的关系信息,和每一帧图像在宽度和高度上的像素信息;
扩散模块530,用于根据所述目标特征向量进行扩散操作得到目标视频。
在本申请的一种优选实施例中,所述向量转化模块520,包括:
排序子模块,用于按照每一帧图像在所述待编辑视频中的时间顺序,对所有帧图像对应的3D特征向量进行排序得到基于时间序列的3D特征向量;
向量转化子模块,用于对所述基于时间序列的3D特征向量进行转化得到目标特征向量。
在本申请的一种优选实施例中,所述预置的视频编辑模型包含多个映射网络,所述向量转化子模块,包括:
向量转化单元,用于通过所述多个映射网络,分别从多个不同维度对所述基于时间序列的3D特征向量进行转化得到目标特征向量。
在本申请的一种优选实施例中,所述预置的视频编辑模型还包含扩散网络,所述扩散模块530,包括:
扩散操作子模块,用于将所述目标特征向量输入到所述扩散网络中进行扩散操作,以得到目标视频。
在本申请的一种优选实施例中,所述3D特征向量为三维向量,包含:当前帧图像的宽度W,当前帧图像的高度H,当前帧图像在所述待编辑视频中所处的帧数S。
在本申请的一种优选实施例中,所述预置的视频编辑模型通过如下步骤训练生成:
获取多组样本数据和初始视频编辑模型;
对所述多组样本数据中的每一帧图像进行向量化处理,得到每一帧图像对应的3D特征向量;
根据所述每一帧图像对应的3D特征向量对所述初始视频编辑模型进行训练,直到所述初始视频编辑模型的收敛效果达到预期,则输出所述预置的视频编辑模型。
在本申请的一种优选实施例中,所述初始视频编辑模型包含多个映射网络和扩散网络;
所述根据所述每一帧图像对应的3D特征向量对所述初始视频编辑模型进行训练,直到所述初始视频编辑模型的收敛效果达到预期,则输出所述预置的视频编辑模型,包括:
按照每一帧图像在所述待编辑视频中的时间顺序,对所有帧图像对应的3D特征向量进行排序得到基于时间序列的3D特征向量;
根据所述基于时间序列的3D特征向量对所述多个映射网络进行训练,并根据所述多个映射网络输出的向量对所述扩散网络进行训练,直到所述多个映射网络和扩散网络的收敛效果达到预期,则输出所述预置的视频编辑模型。
实施例三
图6示意性示出了根据本申请实施例三的适于实现视频编辑的方法的计算机设备10000的硬件架构示意图。本实施例中,计算机设备10000是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括FEN独立的服务器,或者多个服务器所组成的服务器集群)等。如图6所示,计算机设备10000至少包括但不限于:可通过系统总线相互通信链接存储器10010、处理器10020、网络接口10030。其中:
存储器10010至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器10010可以是计算机设备10000的内部存储模块,例如该计算机设备10000的硬盘或内存。在另一些实施例中,存储器10010也可以是计算机设备10000的外部存储设备,例如该计算机设备10000上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,存储器10010还可以既包括计算机设备10000的内部存储模块也包括其外部存储设备。本实施例中,存储器10010通常用于存储安装于计算机设备10000的操作系统和各类应用软件,例如视频编辑的方法的程序代码等。此外,存储器10010还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器10020在一些实施例中可以是中央处理器(Central Processing Unit,简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器10020通常用于控制计算机设备10000的总体操作,例如执行与计算机设备10000进行数据交互或者通信相关的控制和处理等。本实施例中,处理器10020用于运行存储器10010中存储的程序代码或者处理数据。
网络接口10030可包括无线网络接口或有线网络接口,该网络接口10030通常用于在计算机设备10000与其他计算机设备之间建立通信链接。例如,网络接口10030用于通过网络将计算机设备10000与外部终端相连,在计算机设备10000与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,简称为GSM)、宽带码分多址(Wideband Code Division Multiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图6仅示出了具有部件10010-10030的计算机设备,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器10010中的视频编辑的方法还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器10020)所执行,以完成本申请实施例。
实施例四
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现实施例中的视频编辑的方法的步骤。
本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中视频编辑的方法的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
显然,本领域的技术人员应该明白,上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请实施例不限制于任何特定的硬件和软件结合。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种视频编辑的方法,其特征在于,包括:
通过预置的视频编辑模型,对待编辑视频中的每一帧图像进行向量化处理得到每一帧图像对应的3D特征向量;
对所有帧图像对应的3D特征向量进行转化得到目标特征向量;其中,所述目标特征向量包含每一帧图像在整个视频的时间尺度上的关系信息,和每一帧图像在宽度和高度上的像素信息;
根据所述目标特征向量进行扩散操作得到目标视频。
2.根据权利要求1所述的视频编辑的方法,其特征在于,所述对所有帧图像对应的3D特征向量进行转化得到目标特征向量,包括:
按照每一帧图像在所述待编辑视频中的时间顺序,对所有帧图像对应的3D特征向量进行排序得到基于时间序列的3D特征向量;
对所述基于时间序列的3D特征向量进行转化得到目标特征向量。
3.根据权利要求2所述的视频编辑的方法,其特征在于,所述预置的视频编辑模型包含多个映射网络,所述对所述基于时间序列的3D特征向量进行转化得到目标特征向量,包括:
通过所述多个映射网络,分别从多个不同维度对所述基于时间序列的3D特征向量进行转化得到目标特征向量。
4.根据权利要求3所述的视频编辑的方法,其特征在于,所述预置的视频编辑模型还包含扩散网络,所述根据所述目标特征向量进行扩散操作得到目标视频,包括:
将所述目标特征向量输入到所述扩散网络中进行扩散操作,以得到目标视频。
5.根据权利要求1所述的视频编辑的方法,其特征在于,所述3D特征向量为三维向量,包含:当前帧图像的宽度W,当前帧图像的高度H,当前帧图像在所述待编辑视频中所处的帧数S。
6.根据权利要求1所述的视频编辑的方法,其特征在于,所述预置的视频编辑模型通过如下步骤训练生成:
获取多组样本数据和初始视频编辑模型;
对所述多组样本数据中的每一帧图像进行向量化处理,得到每一帧图像对应的3D特征向量;
根据所述每一帧图像对应的3D特征向量对所述初始视频编辑模型进行训练,直到所述初始视频编辑模型的收敛效果达到预期,则输出所述预置的视频编辑模型。
7.根据权利要求6所述的视频编辑的方法,其特征在于,所述初始视频编辑模型包含多个映射网络和扩散网络;
所述根据所述每一帧图像对应的3D特征向量对所述初始视频编辑模型进行训练,直到所述初始视频编辑模型的收敛效果达到预期,则输出所述预置的视频编辑模型,包括:
按照每一帧图像在所述待编辑视频中的时间顺序,对所有帧图像对应的3D特征向量进行排序得到基于时间序列的3D特征向量;
根据所述基于时间序列的3D特征向量对所述多个映射网络进行训练,并根据所述多个映射网络输出的向量对所述扩散网络进行训练,直到所述多个映射网络和扩散网络的收敛效果达到预期,则输出所述预置的视频编辑模型。
8.一种视频编辑的装置,其特征在于,包括:
向量化处理模块,用于通过预置的视频编辑模型,对待编辑视频中的每一帧图像进行向量化处理得到每一帧图像对应的3D特征向量;
向量转化模块,用于对所有帧图像对应的3D特征向量进行转化得到目标特征向量;其中,所述目标特征向量包含每一帧图像在整个视频的时间尺度上的关系信息,和每一帧图像在宽度和高度上的像素信息;
扩散模块,用于根据所述目标特征向量进行扩散操作得到目标视频。
9.一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时用于实现权利要求1至7中任意一项所述的视频编辑的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行权利要求1至7中任意一项所述的视频编辑的方法的步骤。
CN202311296076.9A 2023-10-08 2023-10-08 视频编辑的方法和装置 Pending CN117336527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311296076.9A CN117336527A (zh) 2023-10-08 2023-10-08 视频编辑的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311296076.9A CN117336527A (zh) 2023-10-08 2023-10-08 视频编辑的方法和装置

Publications (1)

Publication Number Publication Date
CN117336527A true CN117336527A (zh) 2024-01-02

Family

ID=89294852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311296076.9A Pending CN117336527A (zh) 2023-10-08 2023-10-08 视频编辑的方法和装置

Country Status (1)

Country Link
CN (1) CN117336527A (zh)

Similar Documents

Publication Publication Date Title
CN109389661B (zh) 一种动画文件转化方法及装置
CN108235116B (zh) 特征传播方法和装置、电子设备和介质
CN111681177B (zh) 视频处理方法及装置、计算机可读存储介质、电子设备
US20220156987A1 (en) Adaptive convolutions in neural networks
CN117095019B (zh) 一种图像分割方法及相关装置
CN113688907A (zh) 模型训练、视频处理方法,装置,设备以及存储介质
CN115861131A (zh) 基于图像生成视频、模型的训练方法、装置及电子设备
CN114529574A (zh) 基于图像分割的图像抠图方法、装置、计算机设备及介质
CN114187165A (zh) 图像处理方法和装置
CN114723760A (zh) 人像分割模型的训练方法、装置及人像分割方法、装置
CN113724136A (zh) 一种视频修复方法、设备及介质
US20230237713A1 (en) Method, device, and computer program product for generating virtual image
CN112669431B (zh) 图像处理方法、装置、设备、存储介质以及程序产品
CN113177483B (zh) 视频目标分割方法、装置、设备以及存储介质
US11928855B2 (en) Method, device, and computer program product for video processing
CN116156218A (zh) 视频插帧模型的确定方法及装置、视频插帧方法及装置
CN117336527A (zh) 视频编辑的方法和装置
WO2022178975A1 (zh) 基于噪声场的图像降噪方法、装置、设备及存储介质
CN113706572B (zh) 一种基于查询向量的端到端的全景图像分割方法
CN112069877B (zh) 一种基于边缘信息和注意力机制的人脸信息识别方法
CN114140488A (zh) 视频目标分割方法及装置、视频目标分割模型的训练方法
CN114140363B (zh) 视频去模糊方法及装置、视频去模糊模型训练方法及装置
CN117635784B (zh) 三维数字人脸部动画自动生成系统
CN116228895B (zh) 视频生成方法、深度学习模型训练方法、装置以及设备
US20240005574A1 (en) Applying object-aware style transfer to digital images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination