CN119233046A - 视频生成方法、装置、计算机设备及存储介质 - Google Patents

视频生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN119233046A
CN119233046A CN202411354316.0A CN202411354316A CN119233046A CN 119233046 A CN119233046 A CN 119233046A CN 202411354316 A CN202411354316 A CN 202411354316A CN 119233046 A CN119233046 A CN 119233046A
Authority
CN
China
Prior art keywords
video frame
video
frame
extended
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202411354316.0A
Other languages
English (en)
Inventor
唐小初
余意
舒畅
陈又新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202411354316.0A priority Critical patent/CN119233046A/zh
Publication of CN119233046A publication Critical patent/CN119233046A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例属于图像处理领域,涉及一种视频生成方法、装置、计算机设备及存储介质,所述方法包括下述步骤:获取标准视频数据;根据预设分帧规则从所述标准视频数据中提取第一视频帧、第二视频帧、第三视频帧;基于预训练的扩散模型对所述第一视频帧进行视频扩散,生成第一扩展视频帧;根据所述第二视频帧和所述第一扩展视频帧生成第二扩展视频帧;根据所述第一扩展视频帧、所述第二扩展视频帧、所述第三视频帧生成第三扩展视频帧;将所述第一扩展视频帧、所述第二扩展视频帧、所述第三扩展视频帧进行组合,得到输出视频。本申请能够实现获取连续、内容一致的输出视频数据。

Description

视频生成方法、装置、计算机设备及存储介质
技术领域
本申请涉及图像处理技术领域,具体涉及数字医疗领域,尤其涉及一种视频生成方法、装置、计算机设备及存储介质。
背景技术
在保险行业的数字化转型浪潮中,视频营销作为一种直观、高效的传播方式,尤其在医疗保险领域展现出了巨大的潜力。医疗保险影像视频通过生动展示医疗服务场景、解析保险条款、普及健康知识等手段,能够显著提升消费者的认知度与购买意愿。然而,当前保险视频扩散技术面临着诸多挑战,其中最为显著的是扩散过程控制力的不足。
现有技术往往依赖于简单的视频编辑软件或平台自动化处理,这些方法在快速生成大量视频内容的同时,难以确保视频内容的一致性和准确性。由于缺乏精细化的控制机制,扩散生成的医疗保险影像视频很可能在主题、信息传达或视觉效果上与原始视频内容产生偏差,甚至误导消费者。例如,对医疗过程的夸大描述、保险条款的误读或视觉效果的失真,都可能损害视频的真实性和可信度,进而削弱消费者的信任度和购买意愿。
发明内容
本申请实施例的目的在于提出一种视频生成方法、装置、计算机设备及存储介质,以解决无法生成连续、内容一致的输出视频数据的问题。
为了解决上述技术问题,本申请实施例提供一种视频生成方法,采用了如下所述的技术方案:
获取标准视频数据;
根据预设分帧规则从所述标准视频数据中提取第一视频帧、第二视频帧、第三视频帧;
基于预训练的扩散模型对所述第一视频帧进行视频扩散,生成第一扩展视频帧;
根据所述第二视频帧和所述第一扩展视频帧生成第二扩展视频帧;
根据所述第一扩展视频帧、所述第二扩展视频帧、所述第三视频帧生成第三扩展视频帧;
将所述第一扩展视频帧、所述第二扩展视频帧、所述第三扩展视频帧进行组合,得到输出视频。
进一步的,所述获取标准视频数据的步骤,具体包括:
获取视频提取标识;
根据所述视频提取标识从数据库中提取初始视频数据;
对所述初始视频数据进行预处理,得到所述标准视频数据。
进一步的,所述根据预设分帧规则从所述标准视频数据中提取第一视频帧、第二视频帧、第三视频帧的步骤,具体包括:
获取预设分帧规则,对所述预设分帧规则进行解析,得到第一视频帧提取规则、第二视频帧提取规则、第三视频帧提取规则;
根据所述第一视频帧提取规则对所述标准视频数据的第一帧进行提取,并将所述标准视频数据的第一帧作为所述第一视频帧;
根据所述第二视频帧提取规则将提取所述第一视频帧后的标准视频数据分为若干个视频图片组,并将所述视频图片组的最后一帧提取作为所述第二视频帧;
根据所述第三视频帧提取规则将提取所述第二视频帧后的视频图片组中的所有帧作为所述第三视频帧。
进一步的,所述基于预训练的扩散模型对所述第一视频帧进行视频扩散,生成第一扩展视频帧的步骤,具体包括:
获取预训练的扩散模型;
对所述第一视频帧进行条件信息提取,得到视频帧条件信息;
将所述第一视频帧输入至所述预训练的扩散模型,并根据预设神经网络结构和所述视频帧条件信息进行条件控制,生成所述第一扩展视频帧。
进一步的,所述根据所述第二视频帧和所述第一扩展视频帧生成第二扩展视频帧的步骤,具体包括:
将所述第一扩展视频帧作为第一参考帧;
对所述标准视频数据进行光流信息提取,得到视频光流信息;
根据所述第一参考帧和所述视频光流信息对所述第二视频帧进行运动指导,生成所述第二扩展视频帧。
进一步的,所述根据所述第一扩展视频帧、所述第二扩展视频帧、所述第三视频帧生成第三扩展视频帧的步骤,具体包括:
将所述第一扩展视频帧和所述第二扩展视频帧作为第二参考帧;
根据光流估计算法计算所述第二参考帧和所述第三视频帧之间的光流运动信息;
根据所述光流运动信息对所述第二参考帧进行反向扭曲和正向扭曲,得到第一扭曲参考帧和第二扭曲参考帧;
计算所述第三视频帧和所述第一扭曲参考帧、所述第二扭曲参考帧的残差值,并根据所述残差值构建第一残差图和第二残差图;
根据所述光流运动信息对预设基准图进行前向传播和反向传播,得到第一遮挡图和第二遮挡图;
根据所述第一扭曲参考帧、所述第二扭曲参考帧、所述第一残差图、所述第二残差图、所述第一遮挡图、所述第二遮挡图进行计算,得到所述第三扩展视频帧。
进一步的,所述根据所述第一扭曲参考帧、所述第二扭曲参考帧、所述第一残差图、所述第二残差图、所述第一遮挡图、所述第二遮挡图进行计算,得到所述第三扩展视频帧的步骤,具体包括:
根据所述第一残差图、所述第二残差图、所述第一遮挡图、所述第二遮挡图计算第一中间分数和第二中间分数;
根据所述第一中间分数和所述第二中间分数计算第一匹配分数和第二匹配分数;
根据所述第一匹配分数、所述第二匹配分数、所述扭曲参考帧进行加权计算,得到所述第三扩展视频帧。
为了解决上述技术问题,本申请实施例还提供一种视频生成装置,采用了如下所述的技术方案:
数据获取模块,用于获取标准视频数据;
数据提取模块,用于根据预设分帧规则从所述标准视频数据中提取第一视频帧、第二视频帧、第三视频帧;
第一视频获取模块,用于基于预训练的扩散模型对所述第一视频帧进行视频扩散,生成第一扩展视频帧;
第二视频获取模块,用于根据所述第二视频帧和所述第一扩展视频帧生成第二扩展视频帧;
第三视频获取模块,用于根据所述第一扩展视频帧、所述第二扩展视频帧、所述第三视频帧生成第三扩展视频帧;
视频输出模块,用于将所述第一扩展视频帧、所述第二扩展视频帧、所述第三扩展视频帧进行组合,得到输出视频。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如以上任一项所述的视频生成方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如以上任一项所述的视频生成方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:本实施例通过获取标准视频数据;根据预设分帧规则从所述标准视频数据中提取第一视频帧、第二视频帧、第三视频帧;基于预训练的扩散模型对所述第一视频帧进行视频扩散,生成第一扩展视频帧;根据所述第二视频帧和所述第一扩展视频帧生成第二扩展视频帧;根据所述第一扩展视频帧、所述第二扩展视频帧、所述第三视频帧生成第三扩展视频帧;将所述第一扩展视频帧、所述第二扩展视频帧、所述第三扩展视频帧进行组合,得到输出视频。从而有效实现获取连续、内容一致的输出视频数据。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2根据本申请的视频生成方法的一个实施例的流程图;
图3是图2中步骤S10的一种具体实施方式的流程图;
图4是图2中步骤S20的一种具体实施方式的流程图;
图5是图2中步骤S30的一种具体实施方式的流程图;
图6是图2中步骤S40的一种具体实施方式的流程图;
图7是图2中步骤S50的一种具体实施方式的流程图;
图8是图7中步骤S506的一种具体实施方式的流程图;
图9是根据本申请的视频生成装置的一个实施例的结构示意图;
图10是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的非相关的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、网络102和服务器103,终端设备101可以是笔记本电脑1011、平板电脑1012或手机1013。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101可以是具有显示屏并且支持网页浏览的各种电子设备,除了笔记本电脑1011、平板电脑1012或手机1013以外,终端设备101还可以是电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面III)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面IV)播放器、膝上型便携计算机和台式计算机等。
服务器103可以是提供各种服务的服务器,例如对终端设备101上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的视频生成方法一般由服务器/终端设备执行,相应地,视频生成装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的视频生成的方法的一个实施例的流程图。所述的视频生成方法,包括以下步骤:
步骤S10,获取标准视频数据;
在本实施例中,标准视频数据是初始视频数据经过预处理后得到的符合处理要求的数据信息,初始视频数据指的是通过设备采集的原始视频数据,该初始视频数据可以是医学视频数据,医学视频数据包括手术演示视频、疾病诊断视频、医疗技术展示视频、患者教育视频、学术研究视频、教学案例视频、远程医疗视频等。
步骤S20,根据预设分帧规则从所述标准视频数据中提取第一视频帧、第二视频帧、第三视频帧;
在本实施例中,第一视频帧、第二视频帧、第三视频帧分别是从标准视频数据中有效提取的视频帧数据。预设分帧规则是指示如何从标准视频数据中进行第一视频帧、第二视频帧、第三视频帧分别提取的规则信息,预设分帧规则可以保存在配置文件或数据库中,通过查询的方式进行获取。
步骤S30,基于预训练的扩散模型对所述第一视频帧进行视频扩散,生成第一扩展视频帧;
在本实施例中,预训练的扩散模型可以采用Transformer模型,预训练的扩散模型的训练步骤包括:获取样本视频数据;选择Transformer架构,包括编码器(Encoder)和解码器(Decoder)的设计;将扩散过程融入到Transformer模型中,扩散过程包括在模型的输入或输出部分添加噪声,并在训练过程中逐步减少噪声以模拟数据的生成过程;根据任务需求定义损失函数并添加条件信息损失;将样本视频数据输入至Transformer模型进行训练,得到初始扩散模型;对初始扩散模型进行模型评估,并根据评估结果进行模型调整和优化,得到预训练的扩散模型。
步骤S40,根据所述第二视频帧和所述第一扩展视频帧生成第二扩展视频帧;
在本实施例中,根据第一扩展视频帧和视频帧数据的光流信息来对第二视频帧进行运动指导,以生成第二扩展视频帧,光流信息是指描述在连续帧图像中,像素点随时间的运动轨迹和速度的二维矢量场,用于捕捉图像中物体的运动和相邻帧之间的位移信息,运动指导则是指利用光流信息来指导第二视频帧中像素的运动和排列,以生成与第一扩展视频帧相匹配的连续视频帧,该连续视频帧即为第二扩展视频帧。
步骤S50,根据所述第一扩展视频帧、所述第二扩展视频帧、所述第三视频帧生成第三扩展视频帧;
在本实施例中,第三扩展视频帧的生成基于反向扭曲、残差图构建、遮挡图生成来实现,其中,反向扭曲是根据已知的运动信息对视频帧进行逆向调整的一种处理方法,残差图是指原始视频帧与经过处理(如预测、编码等)后的视频帧之间的差异图,遮挡图是用于表示视频帧中遮挡区域的图像。通过反向扭曲、残差图构建、遮挡图生成等操作,从而有效生成第三扩展视频帧。
步骤S60,将所述第一扩展视频帧、所述第二扩展视频帧、所述第三扩展视频帧进行组合,得到输出视频。
在本实施例中,对第一扩展视频帧、第二扩展视频帧、第三扩展视频帧的组合包括:将第一扩展视频帧、第二扩展视频帧、第三扩展视频帧按照正确的顺序进行序列排序;检查第一扩展视频帧、第二扩展视频帧、第三扩展视频帧的帧速率是否匹配,若不匹配,则调整各扩展视频帧的速率匹配;对检查后的第一扩展视频帧、第二扩展视频帧、第三扩展视频帧的相邻帧进行过渡处理,以平滑连接各个扩展视频帧;将连接后的扩展视频帧序列进行编码和压缩,以生成输出视频。
在本实施例中,上述方法可以应用于医疗服务系统中,在医疗服务系统中通过医疗原始视频来进行扩散,从而生成对应的医疗扩散视频。具体地,本实施例中医疗服务系统可以为医疗保险系统、疾病保险系统中的一种或者多种,标准视频数据是通过设备采集的医学视频数据,标准视频数据、预设分帧规则、预训练的扩散模型均保存在医疗保险系统、疾病保险系统中并由上述系统的数据库中进行获取,输出视频由上述系统经过本实施例方法处理生成,并存储在系统数据库中进行保存。
本实施例通过获取标准视频数据;根据预设分帧规则从所述标准视频数据中提取第一视频帧、第二视频帧、第三视频帧;基于预训练的扩散模型对所述第一视频帧进行视频扩散,生成第一扩展视频帧;根据所述第二视频帧和所述第一扩展视频帧生成第二扩展视频帧;根据所述第一扩展视频帧、所述第二扩展视频帧、所述第三视频帧生成第三扩展视频帧;将所述第一扩展视频帧、所述第二扩展视频帧、所述第三扩展视频帧进行组合,得到输出视频。从而有效实现获取连续、内容一致的输出视频数据。
本实施例可应用于农作物的种植风险预警,通过生成风险预警信息进行实时预警,以有效对农作物的种植风险进行对比,减少农作物种植的经济损失。
参考图3,在本实施例的一些可选的实现方式中,步骤S10包括以下步骤:
步骤S101,获取视频提取标识;
在本实施例中,视频提取标识是与初始视频数据对应的唯一标识信息,该视频提取标识可以是数据ID或是UUID。
步骤S102,根据所述视频提取标识从数据库中提取初始视频数据;
在本实施例中,通过视频提取标识在数据库中进行匹配查询,并将匹配到的初始视频数据提取出来,从而得到初始视频数据。
步骤S103,对所述初始视频数据进行预处理,得到所述标准视频数据。
在本实施例中,预处理包括将初始视频数据从其原始编码格式中解码出来,得到解码视频数据;将解码视频数据转换为统一的格式和编码标准,以便于后续处理和分析;将解码视频数据拆分为单独的帧;去除视频帧中的噪声,包括图像噪声和由摄像机运动、光线变化等引起的噪声;对去除噪声后的视频帧进行数据增强、标准化处理,得到标注视频数据。
本实施例通过获取视频提取标识;根据所述视频提取标识从数据库中提取初始视频数据;对所述初始视频数据进行预处理,从而得到标准、有效的标准视频数据,以为后续处理提供可靠的数据支持。
参考图4,在本实施例的一些可选的实现方式中,步骤S20包括以下步骤:
步骤S201,获取预设分帧规则,对所述预设分帧规则进行解析,得到第一视频帧提取规则、第二视频帧提取规则、第三视频帧提取规则;
在本实施例中,对预设分帧规则的解析包括读取预设分帧规则,对预设分帧规则进行语法解析,得到分帧规则项,识别分帧规则项的对应信息,以获取第一视频帧提取规则、第二视频帧提取规则、第三视频帧提取规则。
步骤S202,根据所述第一视频帧提取规则对所述标准视频数据的第一帧进行提取,并将所述标准视频数据的第一帧作为所述第一视频帧;
在本实施例中,可以通过获取标准视频帧数据中每一帧的时间顺序信息,再根据该时间顺序信息来确定第一帧,从而进行准确提取。
步骤S203,根据所述第二视频帧提取规则将提取所述第一视频帧后的标准视频数据分为若干个视频图片组,并将所述视频图片组的最后一帧提取作为所述第二视频帧;
在本实施例中,根据第二视频帧提取规则中定义的分段依据(如时间间隔、帧数间隔等),将提取第一视频帧后的标准视频数据分割成若干个视频图片组,可以使用视频处理软件或库(如OpenCV、FFmpeg等)来执行实际的分割操作,其中,每个视频图片组中均包括若干个视频帧图片。然后,遍历每个视频图片组,从每个视频图片组的帧列表中提取时间顺序在最后的单个视频帧,从而得到每个视频图片组的最后一帧,并根据该最后一帧生成视频帧集合,该视频帧集合即为第二视频帧。
步骤S204,根据所述第三视频帧提取规则将提取所述第二视频帧后的视频图片组中的所有帧作为所述第三视频帧。
在本实施例中,通过将提取第二视频帧后的视频图片组中剩余的视频帧提取出来,并将提取得到的视频帧作为第三视频帧保存,从而有效获取第三视频帧。
本实施例通过获取预设分帧规则,对所述预设分帧规则进行解析,得到第一视频帧提取规则、第二视频帧提取规则、第三视频帧提取规则;根据所述第一视频帧提取规则对所述标准视频数据的第一帧进行提取,并将所述标准视频数据的第一帧作为所述第一视频帧;根据所述第二视频帧提取规则将提取所述第一视频帧后的标准视频数据分为若干个视频图片组,并将所述视频图片组的最后一帧提取作为所述第二视频帧;根据所述第三视频帧提取规则将提取所述第二视频帧后的视频图片组中的所有帧作为所述第三视频帧。从而有效根据不同的视频帧提取规则来从标准视频数据中提取第一视频帧、第二视频帧、第三视频帧,以方便后续进行第一扩展视频帧、第二扩展视频帧、第三扩展视频帧的生成。
参考图5,在本实施例的一些可选的实现方式中,步骤S30包括以下步骤:
步骤S301,获取预训练的扩散模型;
在本实施例中,预训练的扩散模型可以通过模型提取标识信息在模型数据库中进行匹配查询以获取,模型提取标识信息是与预训练的扩散模型相对应的唯一标识信息,该模型提取标识可以通过事件生成,该事件的触发条件可以为获取第一视频帧。
步骤S302,对所述第一视频帧进行条件信息提取,得到视频帧条件信息;
在本实施例中,视频帧条件信息可以为从第一视频帧提取的深度图,深度图是一种图像,其中每个像素的值代表第一视频帧场景中对应点在三维空间中的深度(或距离)信息,本实施例中,深度图的提取可以通过视觉处理工具采用深度估计法(如通过机器学习模型预测深度)对第一视频帧进行处理实现,对第一视频帧的处理包括图像处理、特征提取、匹配和深度计算等步骤,最后根据深度估计算法的输出,从而有效生成第一视频帧的深度图。
步骤S303,将所述第一视频帧输入至所述预训练的扩散模型,并根据预设神经网络结构和所述视频帧条件信息进行条件控制,生成所述第一扩展视频帧。
在本实施例中,预设神经网络结构采用ControlNet,通过配置ControlNet作为神经网络结构,以为预训练的扩散模型添加条件控制功能,通过锁定预训练的扩散模型的参数并创建一个可训练的编码层副本来实现条件控制。根据预设神经网络结构和所述视频帧条件信息进行条件控制,生成所述第一扩展视频帧的步骤包括:将提取的条件信息(如深度图)通过适当的预处理步骤(如缩放、归一化等),使其与ControlNet的要求相匹配,将预处理后的条件信息和第一视频帧(或其潜在表示)一起输入到ControlNet中;ControlNet将利用这些信息来指导扩散模型的生成过程,在ControlNet的引导下,预训练的扩散模型根据输入的视频帧条件信息来生成图像,通过多次迭代或连续应用扩散过程,生成与第一视频帧相关但包含更多细节和符合深度信息条件的第一扩展视频帧。
本实施例通过获取预训练的扩散模型;对所述第一视频帧进行条件信息提取,得到视频帧条件信息;将所述第一视频帧输入至所述预训练的扩散模型,并根据预设神经网络结构和所述视频帧条件信息进行条件控制,生成所述第一扩展视频帧。从而有效根据第一视频帧进行扩散,生成内容与第一视频帧的信息相符的第一扩展视频帧,以方便后续进行视频帧组合操作。
继续参考图6,本实施例的一些可选的实现方式中,步骤S40包括以下步骤:
步骤S401,将所述第一扩展视频帧作为第一参考帧;
在本实施例中,第一参考帧是第二扩展视频帧的生成处理所参考的基准帧,通过在第二扩展视频帧处理流程的初始阶段,来将第一扩展视频帧设置为第一参考帧,从而实现对第一参考帧的获取。
步骤S402,对所述标准视频数据进行光流信息提取,得到视频光流信息;
在本实施例中,光流信息提取的步骤包括:将视频帧数据的帧图像转换为适合光流计算的格式(将图像转换为灰度图);选择适合的光流算法进行计算,常用的光流算法包括Lucas-Kanade方法、Horn-Schunck方法(HS光流法)、Farneback光流法以及基于深度学习的光流估计算法(如FlowNet、RAFT等),本实施例中,采用HS光流法;使用光流算法对帧图像的连续帧之间的像素运动进行估计,得到光流场,其中,光流场描述了图像中每个像素点在连续帧之间的运动矢量;对计算得到的光流场进行滤波、插值等方法处理,以去除噪声、填补缺失值等;将光流场转换为可视化的光流图像,其中,光流图像以彩色编码的方式表示光流矢量,颜色和亮度可以表示矢量的方向和大小,最后得到的光流图像即为视频光流信息。
步骤S403,根据所述第一参考帧和所述视频光流信息对所述第二视频帧进行运动指导,生成所述第二扩展视频帧。
在本实施例中,运动指导的步骤包括:将视频光流信息中的运动向量映射到第二视频帧上,可以通过将光流信息中的像素或特征点位置与第二视频帧中的相应位置进行匹配,以确定第二视频帧中对应部分的运动情况;基于第一参考帧和第二视频帧之间的时间间隔以及光流信息,对第二视频帧中的像素或特征点进行运动预测,可以通过线性插值、多项式拟合或其他预测模型来实现,从而有效估计这些像素或特征点在第二扩展视频帧中的位置;根据预测结果,将第二视频帧中的像素或特征点按照预测的运动轨迹进行合成,可以通过对像素值的重新排列和插值,从而生成符合运动规律的第二扩展视频帧。
本实施例通过将所述第一扩展视频帧作为第一参考帧;对所述标准视频数据进行光流信息提取,得到视频光流信息;根据所述第一参考帧和所述视频光流信息对所述第二视频帧进行运动指导,生成所述第二扩展视频帧。从而有效获取与视频帧数据的光流运动相符合的第二扩展视频帧,以方便后续进行视频帧组合操作。
继续参考图7,在本实施例的一些可选的实现方式中,步骤S50包括以下步骤:
步骤S501,将所述第一扩展视频帧和所述第二扩展视频帧作为第二参考帧;
在本实施例中,第二参考帧是第三扩展视频帧的生成处理所参考的基准帧,通过在第三扩展视频帧处理流程的初始阶段,将第一扩展视频帧和第二扩展视频帧设置为第二参考帧,从而实现对第二参考帧的获取。
步骤S502,根据光流估计算法计算所述第二参考帧和所述第三视频帧之间的光流运动信息;
在本实施例中,光流估计算法采用Horn-Schunck方法(HS光流法),在计算第二参考帧和第三参考帧之间的光流运动信息之前,可以对第二参考帧和第三参考帧进行灰度处理和噪声处理等预处理,以得到标准的第二参考帧和第三参考帧,再对处理后的第二参考帧和第三参考帧进行特征点检测和特征描述,以生成对应的特征描述符。计算第二参考帧和第三参考帧之间的光流运动信息包括:利用图像灰度的时空梯度来计算像素的运动速度,可以通过对灰度图像进行时间和空间上的微分操作,并求解光流方程来实现,当计算得到像素的运动速度后,根据该像素的运动速度来生成对应的光流场,从而得到光流运动信息。
步骤S503,根据所述光流运动信息对所述第二参考帧进行反向扭曲和正向扭曲,得到第一扭曲参考帧和第二扭曲参考帧;
在本实施例中,反向扭曲的步骤包括计算逆向映射:根据光流运动信息,计算第二参考帧中每个像素点在相邻帧(通常是前一帧)中的对应位置,该对应位置通常是一个非整数值,表示像素点在相邻帧中的“浮动”位置;插值计算:使用插值方法(如双线性插值、三线性插值等)计算第二参考帧中每个像素点在相邻帧中对应位置的像素值;生成第一扭曲参考帧:将插值计算得到的像素值赋值给第二参考帧中相应的像素位置,从而生成第一扭曲参考帧。正向扭曲的步骤包括计算正向映射:将相邻帧中的像素点映射到第二参考帧中,可以通过先对光流信息进行反转或调整,再执行像素点映射步骤实现;处理映射关系:根据调整后的光流信息,计算相邻帧中每个像素点在第二参考帧中的对应位置;插值或重采样:使用插值方法或重采样技术来计算第二参考帧中对应位置的像素值,从而生成第二扭曲参考帧。
步骤S504,计算所述第三视频帧和所述第一扭曲参考帧、所述第二扭曲参考帧的残差值,并根据所述残差值构建第一残差图和第二残差图;
在本实施例中,通过遍历第三视频帧和第一扭曲参考帧、第三视频帧和第二扭曲参考帧的每一个像素点,并比较它们在同一位置上的像素值差异,该像素值差异就是该像素点的残差值,其中,残差值可以是像素值之间的直接差值,也可以是经过某种变换(如归一化、取绝对值等)后的差值。残差图的构建包括以下步骤:确定残差图的表示方式,残差图可以以灰度图的形式呈现,其中每个像素点的灰度值代表该点的残差值大小,灰度值越高(或越低),表示残差值越大(或小),也可以选择彩色图来表示残差图,通过不同的颜色来区分残差值的大小和正负;根据选定的表示方式,将计算得到的残差值映射到相应的颜色或灰度值上,可以通过映射函数或查找表来进行映射,从而将残差值转换为颜色或灰度值;使用映射后的颜色或灰度值来生成第一残差图和第二残差图,可以通过图像处理库来实现。
步骤S505,根据所述光流运动信息对预设基准图进行前向传播和反向传播,得到第一遮挡图和第二遮挡图;
在本实施例中,预设基准图是以其作为基准进行遮挡图生成的预设图像,前向传播的步骤包括:创建一个与基准图相同尺寸的遮挡图,并将所有像素值初始化为非遮挡状态(例如,使用特定的颜色或值表示);对于基准图中的每个像素(或选定的特征点),使用光流运动信息对应的光流速度矢量进行前向传播;在前向传播过程中,检查每个像素的预期位置是否位于图像边界内或与其他像素发生了重叠,如果像素的预期位置超出了图像边界,或者该位置已被其他像素占据(即发生了遮挡),则将该像素标记为遮挡状态,遮挡检测方法包括边界检查:检查像素的预期位置坐标是否超出了图像的边界范围,像素覆盖检查:在遮挡图中检查预期位置是否已被其他像素标记为遮挡或已有有效像素值;根据遮挡检测结果,更新遮挡图中相应像素的状态,其中,被标记为遮挡的像素可以用特定的颜色或值来表示,以生成第一遮挡图。反向传播的步骤包括:对光流运动信息进行转换或反转,以便从下一帧或目标帧映射回当前帧或基准帧;使用反转后的光流信息,将下一帧或目标帧中的像素点映射回基准图的位置;比较基准图和经过逆向映射后“重建”的基准图,通过差异来间接推断遮挡信息,并根据该遮挡信息生成第二遮挡图。
步骤S506,根据所述第一扭曲参考帧、所述第二扭曲参考帧、所述第一残差图、所述第二残差图、所述第一遮挡图、所述第二遮挡图进行计算,得到所述第三扩展视频帧。
在本实施例中,根据残差图、遮挡图、扭曲参考帧进行的计算对应第一计算公式、第二计算公式、第三计算公式,该第一计算公式、第二计算公式、第三计算公式保存在第三扩展视频帧的生成处理信息中,该生成处理信息可以从数据库中进行提取。
本实施例通过将所述第一扩展视频帧和所述第二扩展视频帧作为第二参考帧;根据光流估计算法计算所述第二参考帧和所述第三视频帧之间的光流运动信息;根据所述光流运动信息对所述第二参考帧进行反向扭曲和正向扭曲,得到第一扭曲参考帧和第二扭曲参考帧;计算所述第三视频帧和所述第一扭曲参考帧、所述第二扭曲参考帧的残差值,并根据所述残差值构建第一残差图和第二残差图;根据所述光流运动信息对预设基准图进行前向传播和反向传播,得到第一遮挡图和第二遮挡图;根据所述第一扭曲参考帧、所述第二扭曲参考帧、所述第一残差图、所述第二残差图、所述第一遮挡图、所述第二遮挡图进行计算,得到所述第三扩展视频帧。从而有效获取根据光流运动信息和残差值进行运动预测的第三扩展视频帧,以方便后续进行视频帧组合操作。
继续参考图8,在本实施例的一些可选的实现方式中,步骤S506包括以下步骤:
步骤S5061,根据所述第一残差图、所述第二残差图、所述第一遮挡图、所述第二遮挡图计算第一中间分数和第二中间分数;
在本实施例中,根据第一计算公式来计算第一中间分数和第二中间分数,第一计算公式为:
其中,为第一中间分数,为第二中间分数,为第一遮挡图的遮挡值,为第二遮挡图的遮挡值,为第一残差图的残差值,为第二残差图的残差值,β为预设权重,初始值设置为1,可以根据实际情况进行对应调整。
步骤S5062,根据所述第一中间分数和所述第二中间分数计算第一匹配分数和第二匹配分数;
在本实施例中,根据第二计算公式来计算第一匹配分数和第二匹配分数,第二计算公式为:
其中,为第一匹配分数,为第二匹配分数,为第一中间分数,为第二中间分数,τ为时间常数。
步骤S5063,根据所述第一匹配分数、所述第二匹配分数、所述扭曲参考帧进行加权计算,得到所述第三扩展视频帧。
在本实施例中,根据第三计算公式来进行加权计算,以得到第三扩展视频帧,第三计算公式为:
其中,为第三扩展视频帧,为第一匹配分数,为第二匹配分数,为第一匹配分数对应的第一匹配权重,为第二匹配分数对应的第二匹配权重,该第一匹配权重和第二匹配权重为预设值,其中,第一匹配权重初始设置为0.5,第二匹配权重初始设置为0.5,可以根据实际情况进行对应调整。
本实施例通过根据所述第一残差图、所述第二残差图、所述第一遮挡图、所述第二遮挡图计算第一中间分数和第二中间分数;根据所述第一中间分数和所述第二中间分数计算第一匹配分数和第二匹配分数;根据所述第一匹配分数、所述第二匹配分数、所述扭曲参考帧进行加权计算,从而有效根据残差图、遮挡图、扭曲参考帧进行计算,以得到基于残差图、遮挡图、扭曲参考帧生成的第三扩展视频帧,方便后续进行视频帧组合操作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图9,作为对上述图1所示方法的实现,本申请提供了一种视频生成装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图9所示,本实施例所述的视频生成装置700包括:数据获取模块701、数据提取模块702、第一视频获取模块703、第二视频获取模块704、第三视频获取模块705、视频输出模块706。其中:
数据获取模块701,用于获取标准视频数据;
数据提取模块702,用于根据预设分帧规则从所述标准视频数据中提取第一视频帧、第二视频帧、第三视频帧;
第一视频获取模块703,用于基于预训练的扩散模型对所述第一视频帧进行视频扩散,生成第一扩展视频帧;
第二视频获取模块704,用于根据所述第二视频帧和所述第一扩展视频帧生成第二扩展视频帧;
第三视频获取模块705,用于根据所述第一扩展视频帧、所述第二扩展视频帧、所述第三视频帧生成第三扩展视频帧;
视频输出模块706,用于将所述第一扩展视频帧、所述第二扩展视频帧、所述第三扩展视频帧进行组合,得到输出视频。
本实施例通过采用上述视频生成装置,能够获取标准视频数据;根据预设分帧规则从所述标准视频数据中提取第一视频帧、第二视频帧、第三视频帧;基于预训练的扩散模型对所述第一视频帧进行视频扩散,生成第一扩展视频帧;根据所述第二视频帧和所述第一扩展视频帧生成第二扩展视频帧;根据所述第一扩展视频帧、所述第二扩展视频帧、所述第三视频帧生成第三扩展视频帧;将所述第一扩展视频帧、所述第二扩展视频帧、所述第三扩展视频帧进行组合,得到输出视频。从而有效实现获取连续、内容一致的输出视频数据。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图10,图10为本实施例计算机设备基本结构框图。
所述计算机设备8包括通过系统总线相互通信连接存储器81、处理器82、网络接口83。需要指出的是,图中仅示出了具有组件81-83的计算机设备8,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器81至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器81可以是所述计算机设备8的内部存储单元,例如该计算机设备8的硬盘或内存。在另一些实施例中,所述存储器81也可以是所述计算机设备8的外部存储设备,例如该计算机设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器81还可以既包括所述计算机设备8的内部存储单元也包括其外部存储设备。本实施例中,所述存储器81通常用于存储安装于所述计算机设备8的操作系统和各类应用软件,例如视频生成方法的计算机可读指令等。此外,所述存储器81还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器82在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器82通常用于控制所述计算机设备8的总体操作。本实施例中,所述处理器82用于运行所述存储器81中存储的计算机可读指令或者处理数据,例如运行所述视频生成方法的计算机可读指令。
所述网络接口83可包括无线网络接口或有线网络接口,该网络接口83通常用于在所述计算机设备8与其他电子设备之间建立通信连接。
本实施例通过采用上述计算机设备,能够获取标准视频数据;根据预设分帧规则从所述标准视频数据中提取第一视频帧、第二视频帧、第三视频帧;基于预训练的扩散模型对所述第一视频帧进行视频扩散,生成第一扩展视频帧;根据所述第二视频帧和所述第一扩展视频帧生成第二扩展视频帧;根据所述第一扩展视频帧、所述第二扩展视频帧、所述第三视频帧生成第三扩展视频帧;将所述第一扩展视频帧、所述第二扩展视频帧、所述第三扩展视频帧进行组合,得到输出视频。从而有效实现获取连续、内容一致的输出视频数据。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的视频生成方法的步骤。
本实施例通过采用上述计算机可读存储介质,能够获取标准视频数据;根据预设分帧规则从所述标准视频数据中提取第一视频帧、第二视频帧、第三视频帧;基于预训练的扩散模型对所述第一视频帧进行视频扩散,生成第一扩展视频帧;根据所述第二视频帧和所述第一扩展视频帧生成第二扩展视频帧;根据所述第一扩展视频帧、所述第二扩展视频帧、所述第三视频帧生成第三扩展视频帧;将所述第一扩展视频帧、所述第二扩展视频帧、所述第三扩展视频帧进行组合,得到输出视频。从而有效实现获取连续、内容一致的输出视频数据。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
本申请实施例中出现的非本公司软件工具或组件,仅仅是举例介绍,不代表实际使用。

Claims (10)

1.一种视频生成方法,其特征在于,包括下述步骤:
获取标准视频数据;
根据预设分帧规则从所述标准视频数据中提取第一视频帧、第二视频帧、第三视频帧;
基于预训练的扩散模型对所述第一视频帧进行视频扩散,生成第一扩展视频帧;
根据所述第二视频帧和所述第一扩展视频帧生成第二扩展视频帧;
根据所述第一扩展视频帧、所述第二扩展视频帧、所述第三视频帧生成第三扩展视频帧;
将所述第一扩展视频帧、所述第二扩展视频帧、所述第三扩展视频帧进行组合,得到输出视频。
2.根据权利要求1所述的视频生成方法,其特征在于,所述获取标准视频数据的步骤,具体包括:
获取视频提取标识;
根据所述视频提取标识从数据库中提取初始视频数据;
对所述初始视频数据进行预处理,得到所述标准视频数据。
3.根据权利要求1所述的视频生成方法,其特征在于,所述根据预设分帧规则从所述标准视频数据中提取第一视频帧、第二视频帧、第三视频帧的步骤,具体包括:
获取预设分帧规则,对所述预设分帧规则进行解析,得到第一视频帧提取规则、第二视频帧提取规则、第三视频帧提取规则;
根据所述第一视频帧提取规则对所述标准视频数据的第一帧进行提取,并将所述标准视频数据的第一帧作为所述第一视频帧;
根据所述第二视频帧提取规则将提取所述第一视频帧后的标准视频数据分为若干个视频图片组,并将所述视频图片组的最后一帧提取作为所述第二视频帧;
根据所述第三视频帧提取规则将提取所述第二视频帧后的视频图片组中的所有帧作为所述第三视频帧。
4.根据权利要求1所述的视频生成方法,其特征在于,所述基于预训练的扩散模型对所述第一视频帧进行视频扩散,生成第一扩展视频帧的步骤,具体包括:
获取预训练的扩散模型;
对所述第一视频帧进行条件信息提取,得到视频帧条件信息;
将所述第一视频帧输入至所述预训练的扩散模型,并根据预设神经网络结构和所述视频帧条件信息进行条件控制,生成所述第一扩展视频帧。
5.根据权利要求1所述的视频生成方法,其特征在于,所述根据所述第二视频帧和所述第一扩展视频帧生成第二扩展视频帧的步骤,具体包括:
将所述第一扩展视频帧作为第一参考帧;
对所述标准视频数据进行光流信息提取,得到视频光流信息;
根据所述第一参考帧和所述视频光流信息对所述第二视频帧进行运动指导,生成所述第二扩展视频帧。
6.根据权利要求1所述的视频生成方法,其特征在于,所述根据所述第一扩展视频帧、所述第二扩展视频帧、所述第三视频帧生成第三扩展视频帧的步骤,具体包括:
将所述第一扩展视频帧和所述第二扩展视频帧作为第二参考帧;
根据光流估计算法计算所述第二参考帧和所述第三视频帧之间的光流运动信息;
根据所述光流运动信息对所述第二参考帧进行反向扭曲和正向扭曲,得到第一扭曲参考帧和第二扭曲参考帧;
计算所述第三视频帧和所述第一扭曲参考帧、所述第二扭曲参考帧的残差值,并根据所述残差值构建第一残差图和第二残差图;
根据所述光流运动信息对预设基准图进行前向传播和反向传播,得到第一遮挡图和第二遮挡图;
根据所述第一扭曲参考帧、所述第二扭曲参考帧、所述第一残差图、所述第二残差图、所述第一遮挡图、所述第二遮挡图进行计算,得到所述第三扩展视频帧。
7.根据权利要求6所述的视频生成方法,其特征在于,所述根据所述第一扭曲参考帧、所述第二扭曲参考帧、所述第一残差图、所述第二残差图、所述第一遮挡图、所述第二遮挡图进行计算,得到所述第三扩展视频帧的步骤,具体包括:
根据所述第一残差图、所述第二残差图、所述第一遮挡图、所述第二遮挡图计算第一中间分数和第二中间分数;
根据所述第一中间分数和所述第二中间分数计算第一匹配分数和第二匹配分数;
根据所述第一匹配分数、所述第二匹配分数、所述扭曲参考帧进行加权计算,得到所述第三扩展视频帧。
8.一种视频生成装置,其特征在于,包括:
数据获取模块,用于获取标准视频数据;
数据提取模块,用于根据预设分帧规则从所述标准视频数据中提取第一视频帧、第二视频帧、第三视频帧;
第一视频获取模块,用于基于预训练的扩散模型对所述第一视频帧进行视频扩散,生成第一扩展视频帧;
第二视频获取模块,用于根据所述第二视频帧和所述第一扩展视频帧生成第二扩展视频帧;
第三视频获取模块,用于根据所述第一扩展视频帧、所述第二扩展视频帧、所述第三视频帧生成第三扩展视频帧;
视频输出模块,用于将所述第一扩展视频帧、所述第二扩展视频帧、所述第三扩展视频帧进行组合,得到输出视频。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的视频生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的视频生成方法的步骤。
CN202411354316.0A 2024-09-26 2024-09-26 视频生成方法、装置、计算机设备及存储介质 Pending CN119233046A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411354316.0A CN119233046A (zh) 2024-09-26 2024-09-26 视频生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411354316.0A CN119233046A (zh) 2024-09-26 2024-09-26 视频生成方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN119233046A true CN119233046A (zh) 2024-12-31

Family

ID=94066725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411354316.0A Pending CN119233046A (zh) 2024-09-26 2024-09-26 视频生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN119233046A (zh)

Similar Documents

Publication Publication Date Title
CN109508681B (zh) 生成人体关键点检测模型的方法和装置
CN111754541B (zh) 目标跟踪方法、装置、设备及可读存储介质
CN109858333B (zh) 图像处理方法、装置、电子设备及计算机可读介质
CN113763249B (zh) 文本图像超分辨率重建方法及其相关设备
CN112991274B (zh) 一种人群计数方法、装置、计算机设备及存储介质
CN114529574A (zh) 基于图像分割的图像抠图方法、装置、计算机设备及介质
CN109325996B (zh) 用于生成信息的方法和装置
US20240320807A1 (en) Image processing method and apparatus, device, and storage medium
CN111259841A (zh) 一种图像处理方法及相关设备
CN113516697B (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质
CN117456062A (zh) 数字人生成模型的生成器训练方法、数字人生成方法及装置
CN117011137A (zh) 基于rgb相似度特征匹配的图像拼接方法、装置及设备
CN111292333A (zh) 用于分割图像的方法和装置
CN112950501A (zh) 基于噪声场的图像降噪方法、装置、设备及存储介质
CN112381118B (zh) 一种大学舞蹈考试测评方法及装置
CN119672729A (zh) 图像检测方法、装置、计算机设备及存储介质
CN119228991A (zh) 基于人工智能的人脸三维重建方法、装置、设备及介质
KR20240138037A (ko) 3차원 인간 자세와 형상 추정을 위한 시공간 보존 트랜스포머 제공 방법 및 그 시스템
CN119233046A (zh) 视频生成方法、装置、计算机设备及存储介质
CN113808151B (zh) 直播图像的弱语义轮廓检测方法、装置、设备及存储介质
CN116774973A (zh) 数据渲染方法、装置、计算机设备及存储介质
CN113362249A (zh) 文字图像合成方法、装置、计算机设备及存储介质
CN112309181A (zh) 一种舞蹈教学辅助方法及装置
CN111582208A (zh) 用于生成生物体姿态关键点信息的方法和装置
CN118229519B (zh) 基于多模态融合光流估计的卫星序列图像插值方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination