CN108881952A - 视频生成方法及装置、电子设备和存储介质 - Google Patents

视频生成方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
CN108881952A
CN108881952A CN201810708738.1A CN201810708738A CN108881952A CN 108881952 A CN108881952 A CN 108881952A CN 201810708738 A CN201810708738 A CN 201810708738A CN 108881952 A CN108881952 A CN 108881952A
Authority
CN
China
Prior art keywords
training
image
model
light stream
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810708738.1A
Other languages
English (en)
Other versions
CN108881952B (zh
Inventor
郭家明
盛律
邵婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Priority to CN201810708738.1A priority Critical patent/CN108881952B/zh
Publication of CN108881952A publication Critical patent/CN108881952A/zh
Application granted granted Critical
Publication of CN108881952B publication Critical patent/CN108881952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开涉及一种视频生成方法及装置、电子设备和存储介质,所述方法包括:将待处理图像输入编码模型进行处理,获得待处理图像的编码;对编码进行高斯分布采样,获得待处理图像的随机噪声;将随机噪声和编码输入光流生成模型,获得待处理图像的后向光流;根据后向光流和待处理图像,生成以待处理图像为首个视频帧的视频流。根据本公开的实施例的视频生成方法,通过对待处理图像的编码进行采样,并将采样获得的随机噪声以及待处理图像的编码进行处理,产生待处理图像的后向光流,可基于后向光流来获得待处理图像的后续视频帧。能够通过一帧待处理图像来生成动态图或短视频。

Description

视频生成方法及装置、电子设备和存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种视频生成方法及装置、电子设备和存储介质。
背景技术
在相关技术中,可根据多帧图像来预测图像中的目标的运动轨迹,进而生成这些图像的后续视频帧,使图像中展示的画面具有连续性。在一帧图像中,图像中的目标的运动轨迹通常具有较大的随机性,因此,目标的运动轨迹难以预测,仅通过一帧图像来生成多个连续的视频帧难以实现。
发明内容
针对上述问题,本公开提出了一种视频生成方法及装置、电子设备和存储介质。
根据本公开的一方面,提供了一种视频生成方法,包括:
将待处理图像输入编码模型进行处理,获得所述待处理图像的编码;
对所述编码进行高斯分布采样,获得所述待处理图像的随机噪声;
将所述随机噪声和所述编码输入光流生成模型进行处理,获得所述待处理图像的后向光流;
根据所述后向光流和所述待处理图像,生成以待处理图像为首个视频帧的视频流,其中,所述视频流包括所述待处理图像与所述待处理图像的后续视频帧。
在一种可能的实现方式中,所述编码模型的训练过程包括:
将训练视频流的第一训练图像输入初始编码模型进行处理,获得所述第一训练图像的编码,其中,所述训练视频流由第一训练图像和第一训练图像的第一后续视频帧组成,所述第一训练图像为训练视频流的首个视频帧;
对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声;
将所述第一训练图像的编码和所述第一训练图像的随机噪声输入初始光流生成模型,获得训练光流;
根据训练光流和训练视频流,确定所述初始编码模型和所述初始光流生成模型的综合模型损失;
根据所述综合模型损失调整所述初始编码模型,获得调整后的编码模型;
当满足训练条件时,将调整后的编码模型作为所述编码模型。
在一种可能的实现方式中,所述光流生成模型的训练过程包括:
将训练视频流的第一训练图像输入初始编码模型进行处理,获得所述第一训练图像的编码,其中,所述训练视频流由第一训练图像和第一训练图像的第一后续视频帧组成,所述第一训练图像为训练视频流的首个视频帧;
对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声;
将所述第一训练图像的编码和所述第一训练图像的随机噪声输入初始光流生成模型,获得训练光流;
根据训练光流和训练视频流,确定所述初始编码模型和所述初始光流生成模型的综合模型损失;
根据所述综合模型损失调整所述初始光流生成模型,获得调整后的光流生成模型;
当满足训练条件时,将调整后的光流生成模型作为所述光流生成模型。
在一种可能的实现方式中,对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声,包括:
将所述训练视频流输入运动识别模型,获得用于高斯分布采样的均值和方差;
根据所述均值和方差,对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声。
在一种可能的实现方式中,所述训练光流包括前向训练光流和后向训练光流,
其中,根据训练光流和训练视频流,确定所述初始编码模型和所述初始光流生成模型的综合模型损失,包括:
根据后向训练光流和所述第一训练图像,生成第二后续视频帧;
根据前向训练光流和第一后续视频帧,生成所述第一后续视频帧的第二训练图像,其中,所述第二训练图像是所述第一后续视频帧之前的视频帧;
根据所述训练光流、第一训练图像、第二训练图像、第一后续视频帧和第二后续视频帧,确定所述初始编码模型和所述初始光流生成模型的综合模型损失。
在一种可能的实现方式中,根据前向训练光流和第一后续视频帧,生成所述第一后续视频帧的第二训练图像,包括:
根据各第一后续视频帧以及分别与各第一后续视频帧对应的前向训练光流,分别生成与各第一后续视频帧对应的初始第二训练图像;
将各初始第二训练图像中的像素点的位置向量进行双线性插值,获得所述第二训练图像。
在一种可能的实现方式中,所述后向光流为所述待处理图像的各像素点的位移向量组成的位移场,
其中,根据所述后向光流和所述待处理图像,生成以待处理图像为首个视频帧的视频流,包括:
根据所述后向光流,确定所述待处理图像的各像素点在各后续视频帧中的位置;
根据各像素点在各后续视频帧中的位置,生成所述视频流中的各后续视频帧。
根据本公开的一方面,提供了一种视频生成装置,包括:
第一编码获得模块,用于将待处理图像输入编码模型进行处理,获得所述待处理图像的编码;
第一随机噪声获得模块,用于对所述编码进行高斯分布采样,获得所述待处理图像的随机噪声;
后向光流获取模块,用于将所述随机噪声和所述编码输入光流生成模型进行处理,获得所述待处理图像的后向光流;
视频流生成模块,用于根据所述后向光流和所述待处理图像,生成以待处理图像为首个视频帧的视频流,其中,所述视频流包括所述待处理图像与所述待处理图像的后续视频帧。
在一种可能的实现方式中,所述装置还包括:
第二编码获得模块,用于将训练视频流的第一训练图像输入初始编码模型进行处理,获得所述第一训练图像的编码,其中,所述训练视频流由第一训练图像和第一训练图像的第一后续视频帧组成,所述第一训练图像为训练视频流的首个视频帧;
第二随机噪声获得模块,用于对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声;
训练光流获得模块,用于将所述第一训练图像的编码和所述第一训练图像的随机噪声输入初始光流生成模型,获得训练光流;
综合模型损失确定模块,用于根据训练光流和训练视频流,确定所述初始编码模型和所述初始光流生成模型的综合模型损失;
第一调整模块,用于根据所述综合模型损失调整所述初始编码模型,获得调整后的编码模型;
编码模型确定模块,用于当满足训练条件时,将调整后的编码模型作为所述编码模型。
在一种可能的实现方式中,所述装置还包括:
第二编码获得模块,用于将训练视频流的第一训练图像输入初始编码模型进行处理,获得所述第一训练图像的编码,其中,所述训练视频流由第一训练图像和第一训练图像的第一后续视频帧组成,所述第一训练图像为训练视频流的首个视频帧;
第二随机噪声获得模块,用于对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声;
训练光流获得模块,用于将所述第一训练图像的编码和所述第一训练图像的随机噪声输入初始光流生成模型,获得训练光流;
综合模型损失确定模块,用于根据训练光流和训练视频流,确定所述初始编码模型和所述初始光流生成模型的综合模型损失;
第二调整模块,用于根据所述综合模型损失调整所述初始光流生成模型,获得调整后的光流生成模型;
光流生成模型确定模块,用于当满足训练条件时,将调整后的光流生成模型作为所述光流生成模型。
在一种可能的实现方式中,所述第二随机噪声获得模块包括:
均值和方差获得子模块,用于将所述训练视频流输入运动识别模型,获得用于高斯分布采样的均值和方差;
随机噪声获得子模块,用于根据所述均值和方差,对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声。
在一种可能的实现方式中,所述训练光流包括前向训练光流和后向训练光流,
其中,第一综合模型损失确定模块包括:
视频帧生成子模块,用于根据后向训练光流和所述第一训练图像,生成第二后续视频帧;
图像生成子模块,用于根据前向训练光流和第一后续视频帧,生成所述第一后续视频帧的第二训练图像,其中,所述第二训练图像是所述第一后续视频帧之前的视频帧;
综合模型损失确定子模块,用于根据所述训练光流、第一训练图像、第二训练图像、第一后续视频帧和第二后续视频帧,确定所述初始编码模型和所述初始光流生成模型的综合模型损失。
在一种可能的实现方式中,所述图像生成子模块用于:
根据各第一后续视频帧以及分别与各第一后续视频帧对应的前向训练光流,分别生成与各第一后续视频帧对应的初始第二训练图像;
将各初始第二训练图像中的像素点的位置向量进行双线性插值,获得所述第二训练图像。
在一种可能的实现方式中,所述后向光流为所述待处理图像的各像素点的位移向量组成的位移场,
其中,所述视频流生成模块包括:
位置确定子模块,用于根据所述后向光流,确定所述待处理图像的各像素点在各后续视频帧中的位置;
后续视频帧生成子模块,用于根据各像素点在各后续视频帧中的位置,生成所述视频流中的各后续视频帧。
根据本公开的一方面,提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行上述视频生成方法。
根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述视频生成方法。
根据本公开的实施例的视频生成方法及装置、电子设备和存储介质,通过对待处理图像的编码进行采样,并将采样获得的随机噪声以及待处理图像的编码进行处理,产生待处理图像的后向光流,可基于后向光流来获得待处理图像的后续视频帧。能够通过一帧待处理图像来生成动态图或短视频,并且基于后向光流来生成动态图或短视频,避免了待处理图像中的像素点运动的随机性,提高了生成的动态图或短视频的清晰度。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开的实施例的视频生成方法的流程图;
图2示出根据本公开的实施例的视频生成方法的步骤S14的流程图;
图3示出根据本公开的实施例的视频生成方法的流程图;
图4示出根据本公开的实施例的视频生成方法的步骤S42的流程图;
图5示出根据本公开的实施例的视频生成方法的步骤S44的流程图;
图6示出根据本公开的实施例的视频生成方法的流程图;
图7示出根据本公开的实施例的视频生成方法的应用示意图;
图8示出根据本公开的实施例的视频生成装置的框图;
图9示出根据本公开的实施例的视频生成装置的框图;
图10是根据一示例性实施例示出的一种电子设备的框图;
图11是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出根据本公开的实施例的视频生成方法的流程图。如图1所示,所述方法包括:
在步骤S11中,将待处理图像输入编码模型进行处理,获得所述待处理图像的编码;
在步骤S12中,对所述编码进行高斯分布采样,获得所述待处理图像的随机噪声;
在步骤S13中,将所述随机噪声和所述编码输入光流生成模型进行处理,获得所述待处理图像的后向光流;
在步骤S14中,根据所述后向光流和所述待处理图像,生成以待处理图像为首个视频帧的视频流,其中,所述视频流包括所述待处理图像与所述待处理图像的后续视频帧。
根据本公开的实施例的视频生成方法,通过对待处理图像的编码进行采样,并将采样获得的随机噪声以及待处理图像的编码进行处理,产生待处理图像的后向光流,可基于后向光流来获得待处理图像的后续视频帧。能够通过一帧待处理图像来生成动态图或短视频,并且基于后向光流来生成动态图或短视频,避免了待处理图像中的像素点运动的随机性,提高了生成的动态图或短视频的清晰度。
在一种可能的实现方式中,在步骤S11中,所述编码模型可包括2D卷积神经网络模型和3D卷积神经网络模型等神经网络模型。所述待处理图像的编码可包括待处理图像的信息,例如,可包括待处理图像中的像素点的信息等。
在一种可能的实现方式中,在步骤S12中,可对所述待处理图像的编码进行高斯分布采样,以获取所述待处理图像的随机噪声,所述随机噪声可具有待处理图像中的像素点的运动信息,即,待处理图像中的像素点可能出现的位移。
在一种可能的实现方式中,在对待处理图像的编码进行高斯分布采样的过程中,高斯分布的均值为0且方差为1,即,对待处理图像的编码进行标准正态分布采样。
通过这种方式,对待处理图像的编码进行均值为0且方差为1的高斯分布采样,可使采样生成的随机噪声符合正态分布,使信息损失最小化。
在一种可能的实现方式中,在步骤S13中,所述光流生成模型可包括2D卷积神经网络模型和3D卷积神经网络模型等神经网络模型。所述后向光流为所述待处理图像的各像素点的位移向量组成的位移场,光流生成模型可根据随机噪声和待处理图像的编码,确定待处理图像的后向光流。
在一种可能的实现方式中,在步骤S14中,所述光流可表示待处理图像的像素点从其在待处理图像中的位置移动到该像素点在后续视频帧中的位置的位移向量。
图2示出根据本公开的实施例的视频生成方法的步骤S14的流程图。如图2所示,步骤S14可包括:
在步骤S141中,根据所述后向光流,确定所述待处理图像的各像素点在各后续视频帧中的位置;
在步骤S142中,根据各像素点在各后续视频帧中的位置,生成所述视频流中的各后续视频帧。
在一种可能的实现方式中,在步骤S141中,可根据后向光流确定待处理图像中的各像素点在后续视频帧中的位置。在示例中,后续视频帧可包括4个视频帧,待处理图像中的第一像素点的位置为(300,300),根据所述后向光流,第一像素点在待处理图像和第1个后续视频帧之间的位移向量为(10,20),因此,第一像素点在第1个后续视频帧中的位置为(310,320);第一像素点在待处理图像和第2个后续视频帧之间的位移向量为(20,30),因此,第一像素点在第2个后续视频帧中的位置为(320,330);第一像素点在待处理图像和第3个后续视频帧之间的位移向量为(30,40),因此,第一像素点在第3个后续视频帧中的位置为(330,340);第一像素点在待处理图像和第4个后续视频帧之间的位移向量为(30,50),因此,第一像素点在第4个后续视频帧中的位置为(330,350)。
在示例中,后向光流还可表示相邻视频帧的像素点的位移向量组成的位移向量,例如,第1个后续视频帧的像素点从其在第1个后续视频帧中的位置移动到第2个后续视频帧中的位置的位移向量。例如,待处理图像中的第一像素点的位置为(300,300),根据所述后向光流,第一像素点在待处理图像和第1个后续视频帧之间的位移向量为(10,20),因此,第一像素点在第1个后续视频帧中的位置为(310,320);第1个后续视频帧和第2个后续视频帧之间的位移向量为(10,10),第一像素点在第2个后续视频帧中的位置为(320,330);第2个后续视频帧和第3个后续视频帧之间的位移向量为(10,10),第一像素点在第3个后续视频帧中的位置为(330,340);第3个后续视频帧和第4个后续视频帧之间的位移向量为(0,10),第一像素点在第3个后续视频帧中的位置为(330,350)。
在示例中,待处理图像中可包括不发生位移的像素点,即,该像素点的位移向量为(0,0),例如,待处理图像中的第二像素点的位置为(100,100),根据后向光流,第二像素点在待处理图像和4个后续视频帧之间的位移向量均为(0,0),即第二像素点在4个后续视频帧中的位置均为(100,100)。
在一种可能的实现方式中,在步骤S142中,可根据待处理图像中的所有像素点分别在各后续视频帧中的位置,来确定各后续视频帧中的所有像素点的位置,从而生成各后续视频帧。在示例中,可根据后向光流,确定待处理图像中的所有像素点分别在4个后续视频帧中的位置,即,可分别确定4个后续视频帧中的所有像素点的位置,从而可生成4个后续视频帧。
通过这种方式,可通过后向光流来确定待处理图像中每个像素点的位移向量,并确定各像素点在后续视频帧中的位置,继而生成后续视频帧,可每个像素点在后续视频帧中的位置均是确定的,因此可产生清晰的视频帧。避免像素点运动的随机性,从而避免了图像模糊的现象。
在一种可能的实现方式中,在使用一帧待处理图像来生成后续视频帧之前,可对所述编码模型和所述光流生成模型进行训练。
图3示出根据本公开的实施例的视频生成方法的流程图。如图3所示,所述编码模型的训练过程包括:
在步骤S41中,将训练视频流的第一训练图像输入初始编码模型进行处理,获得所述第一训练图像的编码,其中,所述训练视频流由第一训练图像和第一训练图像的第一后续视频帧组成,所述第一训练图像为训练视频流的首个视频帧;
在步骤S42中,对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声;
在步骤S43中,将所述第一训练图像的编码和所述第一训练图像的随机噪声输入初始光流生成模型,获得训练光流;
在步骤S44中,根据所述训练光流和训练视频流,确定所述初始编码模型和所述初始光流生成模型的综合模型损失;
在步骤S45中,根据所述综合模型损失调整所述初始编码模型,获得调整后的编码模型;
在步骤S46中,当满足训练条件时,将调整后的编码模型作为所述编码模型。
在一种可能的实现方式中,在步骤S41中,训练视频流可以是任意一段视频流,训练视频流可包括多个视频帧,其中,第一训练图像为训练视频流的首个视频帧。在示例中,训练视频流可包括5个视频帧,即,训练视频流可包括第一训练图像和4帧第一后续视频帧。可将第一训练图像输入初始编码模型进行处理,获得第一训练图像的编码。
在一种可能的实现方式中,在步骤S42中,可对第一训练图像的编码进行高斯分布采样。在示例中,可使用运动识别模型来对训练视频流进行处理。运动识别模型可以是卷积神经网络模型,并输出高斯分布采样的均值和方差。所述均值和方差可用于在对第一训练图像的编码进行高斯分布采样时,获取具有第一训练图像中像素点的运动信息的随机噪声,所述随机噪声可具第一训练图像中的像素点从其在第一训练图像中的位置运动到第一后续视频帧中的位置的运动信息。
图4示出根据本公开的实施例的视频生成方法的步骤S42的流程图。如图4所示,步骤S42可包括:
在步骤S421中,将所述训练视频流输入运动识别模型,获得用于高斯分布采样的均值和方差;
在步骤S422中,根据所述均值和方差,对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声。
在一种可能的实现方式中,在步骤S421中,可将训练视频流输入所述运动识别模型,所述运动识别模型可识别训练视频流中的运动信息,并确定用于高斯分布采样的均值和方差。所述运动识别模型可以是2D卷积神经网络模型和3D卷积神经网络模型等神经网络模型,本公开对运动识别模型的类型不做限制。
在一种可能的实现方式中,在步骤S422中,可根据在步骤S421中由运动识别模型确定的均值和方差对第一训练图像的编码进行高斯分布采样,以获得第一训练图像的随机噪声,即,在对第一训练图像进行高斯分布采样的过程中,高斯分布的均值为所述运动识别模型确定的均值,高斯分布的方差为所述运动识别模型确定的方差。
通过这种方式,通过运动识别模型来获取从第一训练图像到第一后续视频帧的运动信息,从而产生可用于对第一训练图像进行高斯分布采样的均值和方差,并且,使用运动识别模型产生的均值和方差进行高斯分布采样并获取的随机噪声为根据训练视频流的实际运动信息产生的随机噪声,可为初始光流生成模型的训练提供准确的训练样本,且所述实际运动信息对所述光流生成模型的训练无约束,可提高光流生成模型的准确率。
在一种可能的实现方式中,在步骤S43中,可将第一训练图像的编码和第一训练图像的随机噪声输入初始光流生成模型进行处理,以获得训练光流。
在一种可能的实现方式中,在步骤S44中,可根据训练光流和训练视频流,确定所述初始编码模型和所述初始光流生成模型的综合模型损失。在示例中,所述综合模型损失可用于对初始编码模型和初始光流生成模型同时进行参数调整,例如,可对初始编码模型和初始光流生成模型同时进行参数调整,使所述综合模型损失降低。
图5示出根据本公开的实施例的视频生成方法的步骤S44的流程图。如图5所示,所述训练光流包括前向训练光流和后向训练光流,步骤S44可包括:
在步骤S441中,根据后向训练光流和所述第一训练图像,生成第二后续视频帧;
在步骤S442中,根据前向训练光流和第一后续视频帧,生成所述第一后续视频帧的第二训练图像,其中,所述第二训练图像是所述第一后续视频帧之前的视频帧;
在步骤S443中,根据所述训练光流、第一训练图像、第二训练图像、第一后续视频帧和第二后续视频帧,确定所述初始编码模型和所述初始光流生成模型的综合模型损失。
在一种可能的实现方式中,在步骤S441中,所述后向光流可表示第一训练图像的像素点从其在第一训练图像中的位置移动到该像素点在第一训练图像的第二后续视频帧中的位置的位移向量。在示例中,根据所述后向训练光流,可确定第一训练图像中的各像素点在各第二后续视频帧中的位置,并根据各像素点在各第二后续视频帧中的位置,生成各第二后续视频帧。在示例中,可生成4帧第二后续视频帧,初始光流生成模型可生成第一训练图像到第1个第二后续视频帧的后向训练光流、第一训练图像到第2个第二后续视频帧的后向训练光流、第一训练图像到第3个第二后续视频帧的后向训练光流以及第一训练图像到第4个第二后续视频帧的后向训练光流,并根据上述4个后向训练光流生成4帧第二后续视频帧。在示例中,初始光流生成模型还可生成第一训练图像到第1个第二后续视频帧的后向训练光流、第1个第二后续视频帧到第2个第二后续视频帧的后向训练光流、第2个第二后续视频帧到第3个第二后续视频帧的后向训练光流以及第3个第二后续视频帧到第4个第二后续视频帧的后向训练光流,并根据上述4个后向训练光流生成4帧第二后续视频帧。
在一种可能的实现方式中,在步骤S442中,所述前向光流可表示第一后续视频帧的像素点从其在第一后续视频帧中的位置移动到该像素点在第二训练图像中的位置的位移向量。在示例中,根据所述前向训练光流,可确定第一后续视频帧中的各像素点在第二训练图像中的位置,并根据各像素点在第二训练图像中的位置,生成第二训练图像。
在一种可能的实现方式中,可根据各第一后续视频帧以及分别与各第一后续视频帧对应的前向训练光流,分别生成与各第一后续视频帧对应的初始第二训练图像。在示例中,第一后续视频帧可包括4个视频帧,根据第1个第一后续视频帧以及与该第一后续视频帧对应的前向训练光流,可获得一个初始第二训练图像,根据第2个第一后续视频帧与该第一后续视频帧对应的前向训练光流,可获得一个初始第二训练图像,根据第3个第一后续视频帧与该第一后续视频帧对应的前向训练光流,可获得一个初始第二训练图像,根据第4个第一后续视频帧与该第一后续视频帧对应的前向训练光流,可获得一个初始第二训练图像,因此,可获得4个初始第二训练图像。可将所述4个第二训练图像合成为一个最终的第二训练图像。在示例中,可将各初始第二训练图像中的像素点的位置向量进行双线性插值,获得所述第二训练图像,例如,所述第二训练图像中的像素点的位置向量可通过将上述4个第二训练图像中的像素点的位置向量进行双线性插值来获得,并根据各像素点的位置向量,获得所述第二训练图像。
在一种可能的实现方式中,在步骤S443中,所述综合模型损失可包括前向光流和后向光流的一致性、KL散度、重构误差和光流空间相干性。
其中,前向光流和后向光流的一致性可根据所述训练光流来确定,即,可根据前向训练光流和后向训练光流来确定,例如,可通过以下公式(1)来表示:
其中,Lcc表示前向光流和后向光流的一致性,T表示训练视频流中的视频帧的帧数,x表示像素点,Wt f(x)表示第t个视频帧到第一训练图像的前向光流,Wt b(x)表示第一训练图像到第t个视频帧的后向光流。||Wt f(x)+Wt b(Wt f(x)+x)||1表示Wt f(x)+Wt b(Wt f(x)+x)的1范数,||Wt b(x)+Wt f(Wt b(x)+x)||1表示Wt b(x)+Wt f(Wt b(x)+x)的1范数。
其中,重构误差可根据所述训练光流、第一训练图像、第二训练图像、第一后续视频帧和第二后续视频帧来确定,例如,通过以下公式(2)来表示:
其中,Lbi-vc表示重构误差,It(x)表示第t个第一后续视频帧中的像素点的位置向量,IO(x)表示第一训练图像中的像素点的位置向量,IO(Wt b(x)+x)表示第一训练图像中的像素点在第t个第二后续视频帧中的位置向量,||It(x)+IO(Wt b(x)+x)||1表示It(x)+IO(Wt b(x)+x)的1范数,It(Wt f(x)+x)表示第t个第一后续视频帧中的像素点在第二训练图像中的位置向量,||IO(x)+It(Wt f(x)+x)||1表示IO(x)+It(Wt f(x)+x)的1范数。
其中,光流空间相干性可根据所述训练光流和所述训练视频流来确定,例如,可通过以下公式(3)来表示:
其中,Lsc可表示光流空间相干性,Wt,i b(x)表示第一训练图像到第t个视频帧的后向光流的水平分量或竖直分量,当i=u时,Wt,i b(x)表示第一训练图像到第t个视频帧的后向光流的水平分量,当i=v时,Wt,i b(x)表示第一训练图像到第t个视频帧的后向光流的竖直分量,Wt,i f(x)表示第t个视频帧到第一训练图像的前向光流的水平分量或竖直分量,当i=u时,Wt,i f(x)表示第t个视频帧到第一训练图像的前向光流的水平分量,当i=v时,Wt,i f(x)表示第t个视频帧到第一训练图像的前向光流的竖直分量, 表示哈密顿算子,It,u(x)表示第t个视频帧中的像素点的位置向量的水平分量,It,v(x)表示第t个视频帧中的像素点的位置向量的竖直分量,表示的转置,σ为高斯分布采样的方差,在示例中,表示的1范数,表示的1范数。
其中,综合模型损失的损失函数可用以下公式(4)来表示:
其中,为所述KL散度,表示使用运动识别模型产生的均值和方差对第一训练图像的编码进行高斯分布采样产生来拟合标准正态分布采样时产生的信息损耗,使用运动识别模型产生的均值和方差对第一训练图像的编码进行高斯分布采样使用的高斯分布为标准正态分布为表示前向光流和后向光流的一致性的权重,在示例中,λbi-vc的值可为1,λcc表示重构误差的权重,在示例中,λcc可为1,λsc表示光流空间相干性的权重,在示例中,λsc可为0.01。S为高斯分布采样产生的随机噪声的样本空间,Lbi-vc(z(s);Io,It)表示使用第s次采样产生的随机噪声来生成光流时的前向光流和后向光流的一致性,Lcc(z(s))表示使用第s次采样产生的随机噪声来生成光流时的重构误差,Lsc(z(s);Io,It)表示使用第s次采样产生的随机噪声来生成光流时的光流空间相干性,L(Io,It)表示初始编码模型和初始光流生成模型综合模型损失。
通过这种方式,使用训练光流、第一训练图像、第二训练图像、第一后续视频帧和第二后续视频帧来构造综合模型损失,将模型训练中的各种误差进行综合,并避免了模型过拟合。
在一种可能的实现方式中,在步骤S45中,可根据模型综合模型损失来调整初始编码模型。例如,可使用正则化的综合损失函数来确定综合模型损失,并按照使综合模型损失最小化的方向来调整初始编码模型的模型参数,使调整后的编码模型具有较高的拟合优度,同时避免过拟合。本公开对调整初始编码模型的方法不做限制。
在一种可能的实现方式中,步骤S41-步骤S45可循环执行。在示例中,可包括N个训练视频流(N>1),步骤S41-步骤S45可循环执行多次,并按照使综合模型损失降低或收敛的方式来逐次调整模型参数。在示例中,步骤S41-步骤S45可循环执行预定的次数,也可不限定循环次数,在综合模型损失降低到一定程度或收敛于一定阈值内时,停止循环。
通过这种方式,可根据训练光流和训练视频流来确定初始编码模型和初始光流生成模型的综合模型损失,并根据综合模型损失来调整初始编码模型,可根据训练视频流中的运动信息来训练编码模型,可使编码模型具备对待处理图像的运动信息的预测能力。
在一种可能的实现方式中,在步骤S46中,在满足训练条件时,可将调整后的编码模型作为所述编码模型。在示例中,可将循环调整预定次数后的编码模型作为所述编码模型,或者,可在综合模型损失降低到一定程度或收敛于一定阈值内时,将调整后的编码模型作为所述编码模型。
图6示出根据本公开的实施例的视频生成方法的流程图。如图6所示,所述光流生成模型的训练过程包括:
在步骤S41中,将训练视频流的第一训练图像输入初始编码模型进行处理,获得所述第一训练图像的编码,其中,所述训练视频流由第一训练图像和第一训练图像的第一后续视频帧组成,所述第一训练图像为训练视频流的首个视频帧;
在步骤S42中,对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声;
在步骤S43中,将所述第一训练图像的编码和所述第一训练图像的随机噪声输入初始光流生成模型,获得训练光流;
在步骤S44中,根据训练光流和训练视频流,确定所述初始编码模型和所述初始光流生成模型的综合模型损失;
在步骤S47中,根据所述综合模型损失调整所述初始光流生成模型,获得调整后的光流生成模型;
在步骤S48中,当满足训练条件时,将调整后的光流生成模型作为所述光流生成模型。
在一种可能的实现方式中,对编码模型和光流生成模型的训练过程可同时执行。即,在步骤S41-步骤S44中确定所述初始编码模型和所述初始光流生成模型的综合模型损失可同时用于训练编码模型和光流生成模型中。
在一种可能的实现方式中,在步骤S47中,可根据模型综合模型损失来调整初始光流生成模型。例如,可使用正则化的综合损失函数来确定综合模型损失,并按照使综合模型损失最小化的方向来调整初始光流生成模型的模型参数,使调整后的光流生成模型具有较高的拟合优度,同时避免过拟合。本公开对调整初始光流生成模型的方法不做限制。
在一种可能的实现方式中,步骤S41-步骤S44以及步骤S47可循环执行。在示例中,可包括N个训练视频流(N>1),步骤S41-步骤S44以及步骤S47可循环执行多次,并按照使综合模型损失降低或收敛的方式来逐次调整模型参数。在示例中,步骤S41-步骤S44以及步骤S47可循环执行预定的次数,也可不限定循环次数,在综合模型损失降低到一定程度或收敛于一定阈值内时,停止循环。
在一种可能的实现方式中,在步骤S48中,在满足训练条件时,可将调整后的光流生成模型作为所述光流生成模型。在示例中,可将循环调整预定次数后的光流生成模型作为所述光流生成模型,或者,可在综合模型损失降低到一定程度或收敛于一定阈值内时,将调整后的光流生成模型作为所述光流生成模型。
通过这种方式,可使用训练视频流同时训练编码模型和光流生成模型,并使用综合损失函数使编码模型和光流生成模型的误差最小化,能够准确预测第一训练图像中的像素点的运动信息,并生成第二后续视频帧。
在一种可能的实现方式中,在确定编码模型和光流生成模型后,可使用所述编码模型和所述光流生成模型执行步骤S11-步骤S14,以基于一帧待处理图像生成短视频或动态图。
根据本公开的实施例的视频生成方法,可通过运动识别模型识别训练视频流中的运动信息,确定用于高斯分布采样的均值和方差,以对初始编码模型生成的第一训练图像的编码进行采样,生成随机噪声,并将使用初始光流生成模型对随机噪声和第一训练图像的编码进行处理,以生成训练前向光流和训练后向光流,进一步地,可根据综合模型损失调整初始编码模型和初始光流生成模型,获得能够准确估计第一训练图像的运动信息的编码模型和光流生成模型。可对待处理图像的编码进行正态分布采样,以减小信息损失,并通过所述编码模型和光流生成模型对待处理图像进行处理,产生待处理图像的后向光流,从而能够通过一帧待处理图像来生成清晰的动态图或短视频,并且基于后向光流来生成动态图或短视频,避免了待处理图像中的像素点运动的随机性,提高了生成的动态图或短视频的清晰度。
图7示出根据本公开的实施例的视频生成方法的应用示意图。如图7所示,待处理图像为人的上半身,其左臂有向上抬的趋势。
在一种可能的实现方式中,可使用编码模型和光流生成模型来生成待处理图像的后向光流,从而生成后续视频帧。可在使用编码模型和光流生成模型之前,训练所述编码模型和光流生成模型。
在一种可能的实现方式中,可将训练视频流输入运动识别模型,运动识别模型可识别训练视频流中从第一训练图像到第一后续视频帧的运动信息,并用于高斯分布采样的均值和方差。并可将第一训练图像输入初始编码模型,以生成第一训练图像的编码。根据运动识别模型生成的均值和方差,对第一训练图像的编码进行高斯分布采样,可获得第一训练图像的随机噪声,该随机噪声具有第一训练图像到第一后续视频帧的运动信息。将所述随机噪声和第一训练图像的编码输入初始光流生成模型,可获得前向训练光流和后向训练光流。根据后向训练光流和第一训练图像可生成第二后续视频帧,根据前向训练光流和第一后续视频帧可生成第二训练图像。进一步地,可通过公式(4)来确定综合模型损失,并根据综合模型损失来逐次调整初始光流生成模型和初始编码模型的模型参数,在综合模型损失满足训练条件后,可获得编码模型和光流生成模型。
在一种可能的实现方式中,可将待处理图像输入编码模型,获得待处理图像的编码,待处理图像的编码中,具有待处理图像的像素点的信息。对待处理图像的编码进行均值为0且方差为1的高斯分布采样,可获得待处理图像的随机噪声,待处理图像的随机噪声可具有待处理图像的运动信息。可将待处理图像的编码和待处理图像随机噪声输出光流生成模型,可获得待处理图像的后向光流。所述后向光流为待处理图像的各像素点的位移向量组成的位移场,在示例中,待处理图像中的右臂将要抬起,右臂区域的像素点可向右上方移动,其他区域中的像素点的位移向量可为0。根据后向光流,可确定右臂区域的像素点在后续视频帧中的位置,并可生成后续视频帧。
在示例中,可生成4个后续视频帧。例如,右臂区域的某像素点的位置为(300,300),根据所述后向光流,第一像素点在待处理图像和第1个后续视频帧之间的位移向量为(10,20),因此,该像素点在第1个后续视频帧中的位置为(310,320);该像素点在待处理图像和第2个后续视频帧之间的位移向量为(20,30),因此,该像素点在第2个后续视频帧中的位置为(320,330);该像素点在待处理图像和第3个后续视频帧之间的位移向量为(30,40),因此,该像素点在第3个后续视频帧中的位置为(330,340);该像素点在待处理图像和第4个后续视频帧之间的位移向量为(30,50),因此,该像素点在第4个后续视频帧中的位置为(330,350)。类似地,可确定右臂区域中各像素点在后续视频帧中的位置,并生成4个后续视频帧。
图8示出根据本公开的实施例的视频生成装置的框图。如图8所示,所述视频生成装置包括:
第一编码获得模块11,用于将待处理图像输入编码模型进行处理,获得所述待处理图像的编码;
第一随机噪声获得模块12,用于对所述编码进行高斯分布采样,获得所述待处理图像的随机噪声;
后向光流获得模块13,用于将所述随机噪声和所述编码输入光流生成模型进行处理,获得所述待处理图像的后向光流;
视频流生成模块14,用于根据所述后向光流和所述待处理图像,生成以待处理图像为首个视频帧的视频流,其中,所述视频流包括所述待处理图像与所述待处理图像的后续视频帧。
图9示出根据本公开的实施例的视频生成装置的框图。如图9所示,所述后向光流为所述待处理图像的各像素点的位移向量组成的位移场,其中,所述视频流生成模块14包括:
位置确定子模块141,用于根据所述后向光流,确定所述待处理图像的各像素点在各后续视频帧中的位置;
后续视频帧生成子模块142,用于根据各像素点在各后续视频帧中的位置,生成所述视频流中的各后续视频帧。
在一种可能的实现方式中,所述装置还包括:
第二编码获得模块41,用于将训练视频流的第一训练图像输入初始编码模型进行处理,获得所述第一训练图像的编码,其中,所述训练视频流由第一训练图像和第一训练图像的第一后续视频帧组成,所述第一训练图像为训练视频流的首个视频帧;
第二随机噪声获得模块42,用于对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声;
训练光流获得模块43,用于将所述第一训练图像的编码和所述第一训练图像的随机噪声输入初始光流生成模型,获得训练光流;
综合模型损失确定模块44,用于根据训练光流和训练视频流,确定所述初始编码模型和所述初始光流生成模型的综合模型损失;
第一调整模块45,用于根据所述综合模型损失调整所述初始编码模型,获得调整后的编码模型;
编码模型确定模块46,用于当满足训练条件时,将调整后的编码模型作为所述编码模型。
在一种可能的实现方式中,第二随机噪声获得模块42可包括:
均值和方差获得子模块421,用于将所述训练视频流输入运动识别模型,获得用于高斯分布采样的均值和方差;
随机噪声获得子模块422,用于根据所述均值和方差,对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声。
在一种可能的实现方式中,第一综合模型损失确定模块44可包括:
视频帧生成子模块441,用于根据后向训练光流和所述第一训练图像,生成第二后续视频帧;
图像生成子模块442,用于根据前向训练光流和第一后续视频帧,生成所述第一后续视频帧的第二训练图像,其中,所述第二训练图像是所述第一后续视频帧之前的视频帧;
综合模型损失确定子模块443,用于根据所述训练光流、第一训练图像、第二训练图像、第一后续视频帧和第二后续视频帧,确定所述初始编码模型和所述初始光流生成模型的综合模型损失。
在一种可能的实现方式中,图像生成子模块442用于:
根据各第一后续视频帧以及分别与各第一后续视频帧对应的前向训练光流,分别生成与各第一后续视频帧对应的初始第二训练图像;
将各初始第二训练图像中的像素点的位置向量进行双线性插值,获得所述第二训练图像。
在一种可能的实现方式中,所述装置还包括:
第二编码获得模块41,用于将训练视频流的第一训练图像输入初始编码模型进行处理,获得所述第一训练图像的编码,其中,所述训练视频流由第一训练图像和第一训练图像的第一后续视频帧组成,所述第一训练图像为训练视频流的首个视频帧;
第二随机噪声获得模块42,用于对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声;
训练光流获得模块43,用于将所述第一训练图像的编码和所述第一训练图像的随机噪声输入初始光流生成模型,获得训练光流;
综合模型损失确定模块44,用于根据训练光流和训练视频流,确定所述初始编码模型和所述初始光流生成模型的综合模型损失;
第二调整模块47,用于根据所述综合模型损失调整所述初始光流生成模型,获得调整后的光流生成模型;
光流生成模型确定模块48,用于当满足训练条件时,将调整后的光流生成模型作为所述光流生成模型。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。
此外,本公开还提供了视频生成装置、电子设备、计算机可读存储介质、程序,上述均可用来实现本公开提供的任一种视频生成方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
本公开实施例还提出一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。
本公开实施例还提出一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为上述方法。
电子设备可以被提供为终端、服务器或其它形态的设备。
图10是根据一示例性实施例示出的一种电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等终端。
参照图10,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到电子设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器804,上述计算机程序指令可由电子设备800的处理器820执行以完成上述方法。
图11是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图11,电子设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理,一个有线或无线网络接口1950被配置为将电子设备1900连接到网络,和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种视频生成方法,其特征在于,所述方法包括:
将待处理图像输入编码模型进行处理,获得所述待处理图像的编码;
对所述编码进行高斯分布采样,获得所述待处理图像的随机噪声;
将所述随机噪声和所述编码输入光流生成模型进行处理,获得所述待处理图像的后向光流;
根据所述后向光流和所述待处理图像,生成以待处理图像为首个视频帧的视频流,其中,所述视频流包括所述待处理图像与所述待处理图像的后续视频帧。
2.根据权利要求1所述的方法,其特征在于,所述编码模型的训练过程包括:
将训练视频流的第一训练图像输入初始编码模型进行处理,获得所述第一训练图像的编码,其中,所述训练视频流由第一训练图像和第一训练图像的第一后续视频帧组成,所述第一训练图像为训练视频流的首个视频帧;
对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声;
将所述第一训练图像的编码和所述第一训练图像的随机噪声输入初始光流生成模型,获得训练光流;
根据训练光流和训练视频流,确定所述初始编码模型和所述初始光流生成模型的综合模型损失;
根据所述综合模型损失调整所述初始编码模型,获得调整后的编码模型;
当满足训练条件时,将调整后的编码模型作为所述编码模型。
3.根据权利要求1所述的方法,其特征在于,所述光流生成模型的训练过程包括:
将训练视频流的第一训练图像输入初始编码模型进行处理,获得所述第一训练图像的编码,其中,所述训练视频流由第一训练图像和第一训练图像的第一后续视频帧组成,所述第一训练图像为训练视频流的首个视频帧;
对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声;
将所述第一训练图像的编码和所述第一训练图像的随机噪声输入初始光流生成模型,获得训练光流;
根据训练光流和训练视频流,确定所述初始编码模型和所述初始光流生成模型的综合模型损失;
根据所述综合模型损失调整所述初始光流生成模型,获得调整后的光流生成模型;
当满足训练条件时,将调整后的光流生成模型作为所述光流生成模型。
4.根据权利要求2或3所述的方法,其特征在于,对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声,包括:
将所述训练视频流输入运动识别模型,获得用于高斯分布采样的均值和方差;
根据所述均值和方差,对所述第一训练图像的编码进行高斯分布采样,获得所述第一训练图像的随机噪声。
5.根据权利要求2或3所述的方法,其特征在于,所述训练光流包括前向训练光流和后向训练光流,
其中,根据训练光流和训练视频流,确定所述初始编码模型和所述初始光流生成模型的综合模型损失,包括:
根据后向训练光流和所述第一训练图像,生成第二后续视频帧;
根据前向训练光流和第一后续视频帧,生成所述第一后续视频帧的第二训练图像,其中,所述第二训练图像是所述第一后续视频帧之前的视频帧;
根据所述训练光流、第一训练图像、第二训练图像、第一后续视频帧和第二后续视频帧,确定所述初始编码模型和所述初始光流生成模型的综合模型损失。
6.根据权利要求5所述的方法,其特征在于,根据前向训练光流和第一后续视频帧,生成所述第一后续视频帧的第二训练图像,包括:
根据各第一后续视频帧以及分别与各第一后续视频帧对应的前向训练光流,分别生成与各第一后续视频帧对应的初始第二训练图像;
将各初始第二训练图像中的像素点的位置向量进行双线性插值,获得所述第二训练图像。
7.根据权利要求1所述的方法,其特征在于,所述后向光流为所述待处理图像的各像素点的位移向量组成的位移场,
其中,根据所述后向光流和所述待处理图像,生成以待处理图像为首个视频帧的视频流,包括:
根据所述后向光流,确定所述待处理图像的各像素点在各后续视频帧中的位置;
根据各像素点在各后续视频帧中的位置,生成所述视频流中的各后续视频帧。
8.一种视频生成装置,其特征在于,所述装置包括:
第一编码获得模块,用于将待处理图像输入编码模型进行处理,获得所述待处理图像的编码;
第一随机噪声获得模块,用于对所述编码进行高斯分布采样,获得所述待处理图像的随机噪声;
后向光流获得模块,用于将所述随机噪声和所述编码输入光流生成模型进行处理,获得所述待处理图像的后向光流;
视频流生成模块,用于根据所述后向光流和所述待处理图像,生成以待处理图像为首个视频帧的视频流,其中,所述视频流包括所述待处理图像与所述待处理图像的后续视频帧。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。
CN201810708738.1A 2018-07-02 2018-07-02 视频生成方法及装置、电子设备和存储介质 Active CN108881952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810708738.1A CN108881952B (zh) 2018-07-02 2018-07-02 视频生成方法及装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810708738.1A CN108881952B (zh) 2018-07-02 2018-07-02 视频生成方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN108881952A true CN108881952A (zh) 2018-11-23
CN108881952B CN108881952B (zh) 2021-09-14

Family

ID=64298024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810708738.1A Active CN108881952B (zh) 2018-07-02 2018-07-02 视频生成方法及装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN108881952B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109889849A (zh) * 2019-01-30 2019-06-14 北京市商汤科技开发有限公司 视频生成方法、装置、介质及设备
CN111031351A (zh) * 2020-03-11 2020-04-17 北京三快在线科技有限公司 一种预测目标物轨迹的方法及装置
CN111563838A (zh) * 2020-04-24 2020-08-21 维沃移动通信有限公司 图像处理方法及电子设备
CN111901598A (zh) * 2020-06-28 2020-11-06 华南理工大学 视频解码与编码的方法、装置、介质及电子设备
CN112927178A (zh) * 2019-11-21 2021-06-08 中移物联网有限公司 遮挡检测方法、装置、电子设备以及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101765022A (zh) * 2010-01-22 2010-06-30 浙江大学 一种基于光流与图像分割的深度表示方法
CN103854027A (zh) * 2013-10-23 2014-06-11 北京邮电大学 一种人群行为识别方法
CN104021525A (zh) * 2014-05-30 2014-09-03 西安交通大学 一种道路场景视频图像序列的背景修复方法
CN105847804A (zh) * 2016-05-18 2016-08-10 信阳师范学院 一种基于稀疏冗余表示模型的视频帧率上转换方法
CN105913008A (zh) * 2016-04-07 2016-08-31 杭州电子科技大学 基于假设检验的人群异常事件检测方法
CN106658023A (zh) * 2016-12-21 2017-05-10 山东大学 一种基于深度学习的端到端视觉里程计及方法
US20170186176A1 (en) * 2015-12-28 2017-06-29 Facebook, Inc. Systems and methods for determining optical flow
CN107292912A (zh) * 2017-05-26 2017-10-24 浙江大学 一种基于多尺度对应结构化学习的光流估计方法
CN107506734A (zh) * 2017-08-28 2017-12-22 中国民航大学 一种群体突发异常事件检测与定位方法
CN108234821A (zh) * 2017-03-07 2018-06-29 北京市商汤科技开发有限公司 检测视频中的动作的方法、装置和系统
CN108229282A (zh) * 2017-05-05 2018-06-29 商汤集团有限公司 关键点检测方法、装置、存储介质及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101765022A (zh) * 2010-01-22 2010-06-30 浙江大学 一种基于光流与图像分割的深度表示方法
CN103854027A (zh) * 2013-10-23 2014-06-11 北京邮电大学 一种人群行为识别方法
CN104021525A (zh) * 2014-05-30 2014-09-03 西安交通大学 一种道路场景视频图像序列的背景修复方法
US20170186176A1 (en) * 2015-12-28 2017-06-29 Facebook, Inc. Systems and methods for determining optical flow
CN105913008A (zh) * 2016-04-07 2016-08-31 杭州电子科技大学 基于假设检验的人群异常事件检测方法
CN105847804A (zh) * 2016-05-18 2016-08-10 信阳师范学院 一种基于稀疏冗余表示模型的视频帧率上转换方法
CN106658023A (zh) * 2016-12-21 2017-05-10 山东大学 一种基于深度学习的端到端视觉里程计及方法
CN108234821A (zh) * 2017-03-07 2018-06-29 北京市商汤科技开发有限公司 检测视频中的动作的方法、装置和系统
CN108229282A (zh) * 2017-05-05 2018-06-29 商汤集团有限公司 关键点检测方法、装置、存储介质及电子设备
CN107292912A (zh) * 2017-05-26 2017-10-24 浙江大学 一种基于多尺度对应结构化学习的光流估计方法
CN107506734A (zh) * 2017-08-28 2017-12-22 中国民航大学 一种群体突发异常事件检测与定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHI LIU; JIANWEN LUO: "《An optical flow method for elastography at large compression using three image frames》", 《2017 IEEE INTERNATIONAL ULTRASONICS SYMPOSIUM》 *
朱文杰等: "空时自适应混合高斯模型复杂背景运动目标检测", 《北京理工大学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109889849A (zh) * 2019-01-30 2019-06-14 北京市商汤科技开发有限公司 视频生成方法、装置、介质及设备
CN112927178A (zh) * 2019-11-21 2021-06-08 中移物联网有限公司 遮挡检测方法、装置、电子设备以及存储介质
CN112927178B (zh) * 2019-11-21 2023-04-07 中移物联网有限公司 遮挡检测方法、装置、电子设备以及存储介质
CN111031351A (zh) * 2020-03-11 2020-04-17 北京三快在线科技有限公司 一种预测目标物轨迹的方法及装置
CN111563838A (zh) * 2020-04-24 2020-08-21 维沃移动通信有限公司 图像处理方法及电子设备
CN111563838B (zh) * 2020-04-24 2023-05-26 维沃移动通信有限公司 图像处理方法及电子设备
CN111901598A (zh) * 2020-06-28 2020-11-06 华南理工大学 视频解码与编码的方法、装置、介质及电子设备
CN111901598B (zh) * 2020-06-28 2023-10-13 华南理工大学 视频解码与编码的方法、装置、介质及电子设备

Also Published As

Publication number Publication date
CN108881952B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN108881952A (zh) 视频生成方法及装置、电子设备和存储介质
CN109614876A (zh) 关键点检测方法及装置、电子设备和存储介质
CN110287874A (zh) 目标追踪方法及装置、电子设备和存储介质
CN109697734A (zh) 位姿估计方法及装置、电子设备和存储介质
CN109522910A (zh) 关键点检测方法及装置、电子设备和存储介质
CN109816611A (zh) 视频修复方法及装置、电子设备和存储介质
CN109922372A (zh) 视频数据处理方法及装置、电子设备和存储介质
CN109618184A (zh) 视频处理方法及装置、电子设备和存储介质
CN109087238A (zh) 图像处理方法和装置、电子设备以及计算机可读存储介质
CN109257645A (zh) 视频封面生成方法及装置
CN109977847A (zh) 图像生成方法及装置、电子设备和存储介质
CN109118430A (zh) 超分辨率图像重建方法及装置、电子设备及存储介质
CN110298310A (zh) 图像处理方法及装置、电子设备和存储介质
CN107944409A (zh) 视频分析方法及装置
CN109819229A (zh) 图像处理方法及装置、电子设备和存储介质
CN109801270A (zh) 锚点确定方法及装置、电子设备和存储介质
CN109829863A (zh) 图像处理方法及装置、电子设备和存储介质
CN108833939A (zh) 生成视频的海报的方法及装置
CN109446912A (zh) 人脸图像的处理方法及装置、电子设备和存储介质
CN109978891A (zh) 图像处理方法及装置、电子设备和存储介质
CN110458218A (zh) 图像分类方法及装置、分类网络训练方法及装置
CN110322532A (zh) 动态图像的生成方法及装置
CN109840917A (zh) 图像处理方法及装置、网络训练方法及装置
CN109040664A (zh) 视频流处理方法及装置、电子设备和存储介质
CN109920016A (zh) 图像生成方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant