CN117274446A - 一种场景视频处理方法、装置、设备及存储介质 - Google Patents

一种场景视频处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117274446A
CN117274446A CN202311278279.5A CN202311278279A CN117274446A CN 117274446 A CN117274446 A CN 117274446A CN 202311278279 A CN202311278279 A CN 202311278279A CN 117274446 A CN117274446 A CN 117274446A
Authority
CN
China
Prior art keywords
motion field
video
local
dimensional
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311278279.5A
Other languages
English (en)
Inventor
卢丽华
赵雅倩
李茹杨
魏辉
张晓辉
李仁刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN202311278279.5A priority Critical patent/CN117274446A/zh
Publication of CN117274446A publication Critical patent/CN117274446A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明涉及视频处理技术领域,具体公开了一种场景视频处理方法、装置、设备及存储介质,在基于神经辐射场进行三维动态场景的重建渲染的过程中,利用通过局部‑全局优化的运动场来同时考虑相邻帧之间的局部运动约束和基于关键帧的全局运动约束,提高运动场的准确性,从而对输入视频的场景动态变化进行更准确的表达,结合全局优化约束运动场对应的运动损失函数和颜色损失函数,对动态神经辐射场进行损失优化,无需建立四维动态辐射场,能够高效、高质量地得到输入视频对应的场景视频处理网络,并用于更加准确地显示新视角图像、视频。

Description

一种场景视频处理方法、装置、设备及存储介质
技术领域
本发明涉及视频处理技术领域,特别是涉及一种场景视频处理方法、装置、设备及存储介质。
背景技术
基于视频进行三维动态场景的重建和渲染技术可以为虚拟现实、增强现实等应用领域提供技术支撑。由于三维动态场景中存在物体运动或变形,需要对三维动态场景的时空信息进行处理。受启发于基于神经辐射场的三维静态场景的重建与渲染研究,近期已有工作将神经辐射场用于三维动态场景的重建与渲染。
然而,目前基于神经辐射场进行三维动态场景的重建与渲染的方案,还无法实现在提高效率的同时不损失重建与渲染质量。
如何在基于输入视频进行三维动态场景重建与渲染时高效、高质量的处理场景的视频,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的是提供一种场景视频处理方法、装置、设备及存储介质,用于在基于输入视频进行三维动态场景重建与渲染时高效、高质量的处理场景的视频。
为解决上述技术问题,本发明提供一种场景视频处理方法,包括:
对输入视频进行预处理,得到所述输入视频的视频帧的初始时空特征;
基于所述初始时空特征,构建相邻的所述视频帧之间的局部运动场以及自输入的所述视频帧中抽取的多个关键帧之间的全局运动场,并根据所述局部运动场和所述全局运动场构建与所述输入视频对应的用于预测所述输入视频的场景动态变化的全局优化约束运动场;
根据所述初始时空特征构建所述输入视频对应的动态神经辐射场;
根据所述全局优化约束运动场构建运动损失函数;
对所述输入视频进行体渲染以构建颜色损失函数;
利用所述运动损失函数和所述颜色损失函数进行所述动态神经辐射场的损失优化,得到所述输入视频对应的场景视频处理网络;
将视角信息输入所述场景视频处理网络,输出所述视角信息对应的显示数据。
在一些实施中,构建相邻的所述视频帧之间的局部运动场,包括:
对所述视频帧,以前一帧为参考帧,学习相邻的所述视频帧之间的局部稠密运动场;
以所述局部稠密运动场为所述局部运动场。
在一些实施中,构建相邻的所述视频帧之间的局部运动场,包括:
对所述视频帧,以前一帧为参考帧,学习相邻的所述视频帧之间的局部稠密运动场;
将所述局部稠密运动场稀疏化,得到相邻的所述视频帧之间的局部稀疏运动场;
以所述局部稀疏运动场为所述局部运动场。
在一些实施中,构建相邻的所述视频帧之间的局部运动场,包括:
对所述视频帧,以前一帧为参考帧,学习相邻的所述视频帧之间的局部稠密运动场;
将所述局部稠密运动场稀疏化,得到相邻的所述视频帧之间的局部稀疏运动场;
在所述局部稀疏运动场的基础上构建局部光流损失学习得到相邻的所述视频帧之间的局部剩余运动场;
将所述局部稀疏运动场和所述局部剩余运动场叠加得到所述局部运动场。
在一些实施中,构建相邻的所述视频帧之间的局部运动场,包括:
利用预训练的神经辐射场网络学习得到相邻的所述视频帧之间的所述局部运动场。
在一些实施中,构建自输入的所述视频帧中抽取的多个关键帧之间的全局运动场,包括:
对所述视频帧均匀采样得到多个所述关键帧;
以首个所述关键帧为参考帧,学习其余所述关键帧相较于所述参考帧的全局稠密运动场;
以所述全局稠密运动场为所述全局运动场。
在一些实施中,构建自输入的所述视频帧中抽取的多个关键帧之间的全局运动场,包括:
对所述视频帧均匀采样得到多个所述关键帧;
以首个所述关键帧为参考帧,学习其余所述关键帧相较于所述参考帧的全局稠密运动场;
将所述全局稠密运动场稀疏化,得到其余所述关键帧相较于所述参考帧的全局稀疏运动场;
以所述全局稀疏运动场为所述全局运动场。
在一些实施中,构建自输入的所述视频帧中抽取的多个关键帧之间的全局运动场,包括:
利用预训练的神经辐射场网络学习得到所述关键帧之间的所述全局运动场。
在一些实施中,构建相邻的所述视频帧之间的局部运动场,包括:
利用预训练的可变形体素辐射场网络学习得到相邻的所述视频帧之间的所述局部运动场;
构建自输入的所述视频帧中抽取的多个关键帧之间的全局运动场,包括:
利用预训练的可变形体素辐射场网络学习得到所述关键帧之间的所述全局运动场;
所述根据所述局部运动场和所述全局运动场构建与所述输入视频对应的用于预测所述输入视频的场景动态变化的全局优化约束运动场,包括:
根据所述局部运动场预测所述全局运动场,得到运动场预测值;
以所述全局运动场为真值,对所述运动场预测值进行运动约束,得到所述全局优化约束运动场。
在一些实施中,构建相邻的所述视频帧之间的局部运动场,包括:
对所述视频帧,以前一帧为参考帧,利用预训练的可变形体素辐射场网络学习相邻的所述视频帧之间的局部稠密运动场;
将所述局部稠密运动场稀疏化,得到相邻的所述视频帧之间的局部稀疏运动场;
在所述局部稀疏运动场的基础上构建局部光流损失学习得到相邻的所述视频帧之间的局部剩余运动场;
将所述局部稀疏运动场和所述局部剩余运动场叠加得到所述局部运动场;
构建自输入的所述视频帧中抽取的多个关键帧之间的全局运动场,包括:
对所述视频帧均匀采样得到多个所述关键帧;
以首个所述关键帧为参考帧,利用预训练的可变形体素辐射场网络学习其余所述关键帧相较于所述参考帧的全局稠密运动场;
将所述全局稠密运动场稀疏化,得到其余所述关键帧相较于所述参考帧的全局稀疏运动场;
以所述全局稀疏运动场为所述全局运动场;
所述根据所述局部运动场和所述全局运动场构建与所述输入视频对应的用于预测所述输入视频的场景动态变化的全局优化约束运动场,包括:
根据所述局部运动场预测所述全局运动场,得到运动场预测值;
以所述全局运动场为真值,对所述运动场预测值进行运动约束,得到所述全局优化约束运动场。
在一些实施中,所述根据所述初始时空特征构建所述输入视频对应的动态神经辐射场,包括:
根据所述初始时空特征,利用显式网络表示所述输入视频对应的三维动态场景;
获取所述三维动态场景中多个三维点的时空特征;
利用各所述三维点的时空特征对所述三维动态场景进行隐式重建,得到所述动态神经辐射场。
在一些实施中,所述根据所述初始时空特征,利用显式网络表示所述输入视频对应的三维动态场景,包括:
构建所述三维动态场景中的三维网格体;
根据所述输入视频对应的投影矩阵,将各所述三维网格体投影至对应的所述视频帧的像素位置,索引对应的所述视频帧的像素位置的所述初始时空特征为所述三维网格体的网格体初始时空特征;
以全部所述三维网格体的所述网格体初始时空特征表示所述三维动态场景。
在一些实施中,所述根据所述初始时空特征,利用显式网络表示所述输入视频对应的三维动态场景,包括:
构建所述三维动态场景中的三维网格体;
根据所述输入视频对应的投影矩阵,将各所述三维网格体投影至对应的所述视频帧的像素位置,索引对应的所述视频帧的像素位置的所述初始时空特征为所述三维网格体的网格体初始时空特征;
对应各所述视频帧,将当前所述视频帧中所述三维网格体的网格体初始时空特征与在前的相邻的所述视频帧中所述三维网格体的网格体初始时空特征进行融合处理,得到当前所述视频帧中所述三维网格体的网格体增强时空特征;
以全部所述三维网格体的所述网格体增强时空特征表示所述三维动态场景。
在一些实施中,所述对应各所述视频帧,将当前所述视频帧中所述三维网格体的网格体初始时空特征与在前的相邻的所述视频帧中所述三维网格体的网格体初始时空特征进行融合,得到当前所述视频帧中所述三维网格体的网格体增强时空特征,包括:
对应各所述视频帧,将当前所述视频帧中所述三维网格体的网格体初始时空特征与上一所述视频帧的网格体增强时空特征进行融合处理,得到当前所述视频帧中所述三维网格体的网格体增强时空特征。
在一些实施中,所述获取所述三维动态场景中多个三维点的时空特征,包括:
结合所述三维点的空间位置和所述三维点相邻的所述三维网格体的时空特征进行插值,得到所述三维点的时空特征。
在一些实施中,所述获取所述三维动态场景中多个三维点的时空特征,包括:
获取各所述视频帧中自所述输入视频的相机角度发射光线对所述三维动态场景进行采样得到的所述三维点。
在一些实施中,所述利用各所述三维点的时空特征对所述三维动态场景进行隐式重建,得到所述动态神经辐射场,包括:
以所述三维点的空间位置、所述三维点的时空特征、所述三维点对应的光线方向为输入,构建用于预测任意所述三维点的颜色信息和任意所述三维点的透明度信息的所述动态神经辐射场。
在一些实施中,所述对所述输入视频进行体渲染以构建颜色损失函数,包括:
获取各所述视频帧中渲染得到的彩色图中任一像素的颜色真值;
利用所述颜色真值与所述动态神经辐射场预测得到对应三维点的颜色值构建所述颜色损失函数。
在一些实施中,所述根据所述全局优化约束运动场构建运动损失函数,包括:
构建所述局部运动场的光流损失函数和所述局部运动场的剩余运动场的稀疏约束损失函数;
将所述全局优化约束运动场对应的全局运动损失函数、所述局部运动场的光流损失函数和所述剩余运动场的稀疏约束损失函数叠加,得到所述运动损失函数。
在一些实施中,所述对输入视频进行预处理,得到所述输入视频的视频帧的初始时空特征,包括:
将所述视频帧输入空间特征提取网络,得到初始空间特征;
将所述视频帧和所述初始空间特征输入时间特征提取网络,得到与所述初始空间特征对应的初始时间特征;
根据所述初始空间特征和所述初始时间特征,生成所述视频帧的初始时空特征向量。
在一些实施中,所述空间特征提取网络为预训练的残差神经网络,所述时间特征提取网络为多层感知机网络。
为解决上述技术问题,本发明还提供一种场景视频处理装置,包括:
预处理单元,用于对输入视频进行预处理,得到所述输入视频的视频帧的初始时空特征;
运动场构建单元,用于基于所述初始时空特征,构建相邻的所述视频帧之间的局部运动场以及自输入的所述视频帧中抽取的多个关键帧之间的全局运动场,并根据所述局部运动场和所述全局运动场构建与所述输入视频对应的用于预测所述输入视频的场景动态变化的全局优化约束运动场;
辐射场构建单元,用于根据所述初始时空特征构建所述输入视频对应的动态神经辐射场;
运动损失构建单元,用于根据所述全局优化约束运动场构建运动损失函数;
颜色损失构建单元,用于对所述输入视频进行体渲染以构建颜色损失函数;
训练单元,用于利用所述运动损失函数和所述颜色损失函数进行所述动态神经辐射场的损失优化,得到所述输入视频对应的场景视频处理网络;
计算单元,用于将视角信息输入所述场景视频处理网络,输出所述视角信息对应的显示数据。
为解决上述技术问题,本发明还提供一种场景视频处理设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如上述任意一项所述场景视频处理方法的步骤。
为解决上述技术问题,本发明还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述场景视频处理方法的步骤。
本发明所提供的场景视频处理方法,在基于神经辐射场进行三维动态场景的重建渲染的过程中,利用通过局部-全局优化的运动场来同时考虑相邻帧之间的局部运动约束和基于关键帧的全局运动约束,提高运动场的准确性,从而对输入视频的场景动态变化进行更准确的表达,结合全局优化约束运动场对应的运动损失函数和颜色损失函数,对动态神经辐射场进行损失优化,无需建立四维动态辐射场,能够高效、高质量地得到输入视频对应的场景视频处理网络,并用于显示更加准确的新视角图像、视频。
本发明还提供一种场景视频处理装置、设备及存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种场景视频处理方法的流程图;
图2为本发明实施例提供的一种场景视频处理装置的结构示意图;
图3为本发明实施例提供的一种场景视频处理设备的结构示意图。
具体实施方式
本发明的核心是提供一种场景视频处理方法、装置、设备及存储介质,用于在基于输入视频进行三维动态场景重建与渲染时高效、高质量的处理场景的视频。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面对本发明实施例一进行说明。
为便于理解,首先对本发明适用的应用场景进行介绍。本发明实施例提供的具体实施方式可以适用于基于单目视频的三维动态场景重建渲染差场合和基于多目视频的三维动态场景重建渲染场合,通过对输入视频进行处理,可以在虚拟现实(Virtual Reality,VR)产品的动态场景,三维建模,三维内容生成领域得到广泛的应用。
由此,本发明实施例提供的场景视频处理方法可以应用于场景视频处理设备、虚拟现实设备,包括但不限于云平台、异构平台、分布式系统等架构,可以涉及到计算设备、处理单元或服务器机架中的刀片、虚拟机、物理机等设备中用于运行虚拟现实服务的一个或多个部分。
在上述应用场景的基础上,下面结合附图对本发明实施例提供的场景视频处理方法进行说明。
下面对本发明实施例二进行说明。
图1为本发明实施例提供的一种场景视频处理方法的流程图。
基于神经辐射场进行三维动态场景的重建与渲染涉及到对输入视频进行三维动态场景中的时间信息和空间信息的学习,以构建出与输入视频对应的真实三维动态场景对应的动态神经辐射场,从而基于任意视角再观看该重建后的三维动态场景时,都可以基于训练好的动态神经辐射场得到观察真实三维动态场景时所得到的图像或视频。
基于神经辐射场进行三维动态场景的重建与渲染,最简单的方案是对输入单目视频的每一帧都建立一个独立的辐射场,但这种方案缺少对时间信息的处理,不具有时间一致性,重建模型和渲染新视角图片存在时间扭曲。为解决时间扭曲的问题,相关技术提出将时间作为直接输入,建立基于三维位置和时间的四维动态辐射场,但此类方法依赖于复杂的约束与神经网络,重建和渲染效率低。可以看到,目前基于神经辐射场进行三维动态场景的重建与渲染的方案,还无法实现在提高效率的同时不损失重建与渲染质量。为解决基于输入视频进行三维动态场景的高效、高质量重建与渲染的问题,本发明实施例提供的场景视频处理方法提出一种基于局部-全局优化的运动场描述输入视频的场景动态变化的方案,相较于建立四维动态辐射场的方案显著减少了计算量,提高了构建效率,而对于对输入视频对应的三维动态场景进行高质量的重建与渲染的问题,通过同时考虑全局与局部运动约束,提高运动场表达的准确性,从而在提高效率的同时不损失重建与渲染质量。
如图1所示,本发明实施例提供的一种场景视频处理方法包括:
S101:对输入视频进行预处理,得到输入视频的视频帧的初始时空特征。
S102:基于初始时空特征,构建相邻的视频帧之间的局部运动场以及自输入的视频帧中抽取的多个关键帧之间的全局运动场,并根据局部运动场和全局运动场构建与输入视频对应的用于预测输入视频的场景动态变化的全局优化约束运动场。
S103:根据初始时空特征构建输入视频对应的动态神经辐射场。
S104:根据全局优化约束运动场构建运动损失函数。
S105:对输入视频进行体渲染以构建颜色损失函数。
S106:利用运动损失函数和颜色损失函数进行动态神经辐射场的损失优化,得到输入视频对应的场景视频处理网络。
S107:将视角信息输入场景视频处理网络,输出视角信息对应的显示数据。
需要说明的是,在本发明实施例中,输入视频可以为单目视频,也可以为多目视频。单目视频可以理解为采用单目摄像头取得的视频,仅有单个视角对应的视频场景信息。而多目视频可以理解为多目摄像头取得的视频,具有多个视角对应的视频场景信息,多目视频输出时其每个视频帧已将多个视角的视频场景信息进行叠加。由于缺乏足够的多视角信息,基于单目视频的场景视频处理工作的场景重建相较于多目视频更具有歧义性,也更不容易渲染生成高质量的新视角图片或视频。
在具体实施中,对于S101,首先要要对输入视频进行预处理,得到每个视频帧的初始时空特征。S101:对输入视频进行预处理,得到输入视频的视频帧的初始时空特征,可以包括:
将视频帧输入空间特征提取网络,得到初始空间特征;
将视频帧和初始空间特征输入时间特征提取网络,得到与初始空间特征对应的初始时间特征;
根据初始空间特征和初始时间特征,生成视频帧的初始时空特征向量。
其中,空间特征提取网络可以采用但不限于预训练的残差神经网络(ResNet),时间特征提取网络可以采用但不限于多层感知机(Multilayer Perceptron,MLP)网络。
在实际应用中,针对第t个视频帧It,利用视频特征提取模块提取该视频帧的时空特征特征向量其中,H×W表示特征空间大小,C为特征维度。具体地,将视频帧It输入空间特征提取网络,得到初始空间特征/>将初始空间特征和时间编码/>输入时间特征提取网络,得到视频帧It的初始时空特征
对于S102来说,相较于将时间作为直接输入,建立基于三维位置和时间的四维动态辐射场的方式,在相邻帧之间建立形变场,学习相邻帧之间的运动变化,渐进式重建动态场景可以有效减少计算量,但是这种方式会造成形变场误差的累积。为解决局部运动场的误差累积问题,本发明实施例提供一种局部-全局优化的运动场,利用关键帧之间的全局运动场来对相邻帧之间的局部运动场的误差进行优化。
具体来说,对于输入视频以前一视频帧为参考帧,可以通过训练神经辐射场网络来学习相邻帧之间的局部运动场。为提高场景视频处理的效率,S102中构建相邻的视频帧之间的局部运动场,可以包括:利用预训练的神经辐射场网络学习得到相邻的视频帧之间的局部运动场。
为提高局部运动场的准确性,同时构建自输入的视频帧中抽取的多个关键帧之间的全局运动场。具体来说,在包含N帧的输入视频中,可以均匀采样得到K个关键帧可以以第一关键帧I1为参考帧,通过训练神经辐射场网络来学习其他关键帧Ik相对于参考帧的全局运动场。为提高场景视频处理的效率,S102中构建自输入的视频帧中抽取的多个关键帧之间的全局运动场,可以包括:利用预训练的神经辐射场网络学习得到关键帧之间的全局运动场。
为保证对局部运动场和全局运动场的学习质量,预训练的神经辐射场网络可以采用可变形体素辐射场(Deformable Voxel Radiance Fields,DeVRF)网络。则S102中构建相邻的视频帧之间的局部运动场,可以包括:
利用预训练的可变形体素辐射场网络学习得到相邻的视频帧之间的局部运动场;
S102中构建自输入的视频帧中抽取的多个关键帧之间的全局运动场,包括:
利用预训练的可变形体素辐射场网络学习得到关键帧之间的全局运动场;
S102中根据局部运动场和全局运动场构建与输入视频对应的用于预测输入视频的场景动态变化的全局优化约束运动场,可以包括:
根据局部运动场预测全局运动场,得到运动场预测值;
以全局运动场为真值,对运动场预测值进行运动约束,得到全局优化约束运动场。
对于S103,将输入视频的各视频帧的初始时空特征输入动态神经辐射场,使动态神经辐射场具有输入视频对应的三维动态场景中各三维位置在不同视频帧对应的时刻的信息,此时需要训练该动态神经辐射场预测三维动态场景中某时刻某三维位置的颜色信息,如颜色和透明度。
对于S104,根据全局优化约束运动场构建运动损失函数以准确描述输入视频的场景动态变化。
对于S105,对输入视频进行体渲染以构建颜色损失函数,可以包括:
获取各视频帧中渲染得到的彩色图中任一像素的颜色真值;
利用颜色真值与动态神经辐射场预测得到对应三维点的颜色值构建颜色损失函数。
具体来说,针对第t帧渲染得到的颜色图(可以采用RGB图)中任意像素的颜色值,为沿光线采样到的一系列三维点颜色值的加权和,计算如下:
其中,Nr为光线r上采样得到的三维点个数,为预测的三维点颜色值,/>为步长,cbg为预先设定的背景颜色。
构建颜色损失,根据已知的颜色图,约束生成新视角的图像颜色损失。颜色损失计算如下:
其中,C(r)为预测的颜色值,为颜色真值,/>为一次训练中所有的光线,N为帧数。
对于S106,根据S104得到动态神经辐射场的运动损失函数和S105得到动态神经辐射场的颜色损失函数,对动态神经辐射场进行损失优化,当网络训练误差达到损失阈值(指定的较小值)或者迭代次数达到迭代结束阈值(指定的最大值)时,训练结束,输出的网络模型为输入视频对应的场景视频处理网络,该场景视频处理网络用于实现与输入视频对应的三维动态场景的重建与渲染。
对于S107,针对某时刻或某时间段,将视角信息输入场景视频处理网络,基于体渲染得到该视角信息下的各帧二维图像,输出在该视角对应的图片或视频。
需要说明的是,在本发明实施例提供的场景视频处理方法中,S101、S102、S103可以同时执行,对输入视频的处理过程是按逐帧处理的,则对于各视频帧,先后执行S101、S102、S103即可,直至将全部视频帧的时空特征输入动态神经辐射场。S104和S105之间无执行顺序。
本发明实施例提供的场景视频处理方法,在基于神经辐射场进行三维动态场景的重建渲染的过程中,利用通过局部-全局优化的运动场来同时考虑相邻帧之间的局部运动约束和基于关键帧的全局运动约束,提高运动场的准确性,从而对输入视频的场景动态变化进行更准确的表达,结合全局优化约束运动场对应的运动损失函数和颜色损失函数,对动态神经辐射场进行损失优化,无需建立四维动态辐射场,能够高效、高质量地得到输入视频对应的场景视频处理网络,并用于显示更加准确的新视角图像、视频。
下面对本发明实施例三进行说明。
在上述实施例的基础上,本发明实施例进一步对局部-全局优化的运动场的构建方式进行说明。
在本发明实施例提供的场景视频处理方法中,S102中构建相邻的视频帧之间的局部运动场,可以包括:
对视频帧,以前一帧为参考帧,学习相邻的视频帧之间的局部稠密运动场;
以局部稠密运动场为局部运动场。
具体地,对输入视频以前一视频帧为参考帧,可以通过预训练的可变形体素辐射场来学习相邻帧之间的局部稠密运动场/>以显式网格表示。
为进一步提高运动场的构建效率,在另一些实施中,S102中构建相邻的视频帧之间的局部运动场,可以包括:
对视频帧,以前一帧为参考帧,学习相邻的视频帧之间的局部稠密运动场;
将局部稠密运动场稀疏化,得到相邻的视频帧之间的局部稀疏运动场;
以局部稀疏运动场为局部运动场。
具体来说,在通过预训练的可变形体素辐射场来学习相邻帧之间的局部稠密运动场以显式网格表示后,将局部稠密运动场/>稀疏化。例如,可以将局部稠密运动场/>分解为更稀疏的网络,分解后的网格包含原来8×8×8个网格体,将8×8×8个网格体中的局部稠密运动场计算平均,得到局部稀疏运动场为此时,局部稀疏运动场为原来的1/512,不仅节约了存储空间,还显著提升了训练及推理效率。
可以理解的是,局部稀疏运动场虽然节约了存储空间、提升了效率,但其具有更少的时空特征可能导致对局部运动场表达不准确。为了提高局部稀疏运动场的准确性,在另一些实施中,S102中构建相邻的视频帧之间的局部运动场,可以包括:
对视频帧,以前一帧为参考帧,学习相邻的视频帧之间的局部稠密运动场;
将局部稠密运动场稀疏化,得到相邻的视频帧之间的局部稀疏运动场;
在局部稀疏运动场的基础上构建局部光流损失学习得到相邻的视频帧之间的局部剩余运动场;
将局部稀疏运动场和局部剩余运动场叠加得到局部运动场。
具体地,可以设置可学习的局部剩余运动场最终获取相邻视频帧之间的局部运动场/>其中Mt=Dt+Rt。局部剩余运动场可以表示相邻视频帧之间的运动修正以及新运动。通过构建光流损失,在训练过程中,固定局部稀疏运动场Dt,学习得到局部剩余运动场Rt
S102中构建自输入的视频帧中抽取的多个关键帧之间的全局运动场,可以包括:
对视频帧均匀采样得到多个关键帧;
以首个关键帧为参考帧,学习其余关键帧相较于参考帧的全局稠密运动场;
以全局稠密运动场为全局运动场。
具体地,在包含N帧的输入视频中,可以均匀采样得到K个关键帧可以以第一关键帧I1为参考帧,通过训练神经辐射场网络来学习其他关键帧Ik相对于参考帧的全局稠密运动场。若采用全局稠密运动场可以更好地表达相邻视频帧之间的局部运动场,但数据量较大。为提高运动场的构建效率,在另一些实施中,S102中构建自输入的视频帧中抽取的多个关键帧之间的全局运动场,可以包括:
对视频帧均匀采样得到多个关键帧;
以首个关键帧为参考帧,学习其余关键帧相较于参考帧的全局稠密运动场;
将全局稠密运动场稀疏化,得到其余关键帧相较于参考帧的全局稀疏运动场;
以全局稀疏运动场为全局运动场。
具体来说,在通过预训练的可变形体素辐射场来学习其他关键帧Ik相对于参考帧的全局稠密运动场后,可以同样将全局稠密运动场稀疏化为全局稀疏运动场
由于可变形体素辐射场的全局优化效果较好,可以采用可变形体素辐射场得到的全局稠密运动场稀疏化后的全局稀疏运动场为真值,构建运动场的全局优化约束。则在另一些实施中,S102中构建相邻的视频帧之间的局部运动场,可以包括:
对视频帧,以前一帧为参考帧,利用预训练的可变形体素辐射场网络学习相邻的视频帧之间的局部稠密运动场;
将局部稠密运动场稀疏化,得到相邻的视频帧之间的局部稀疏运动场;
在局部稀疏运动场的基础上构建局部光流损失学习得到相邻的视频帧之间的局部剩余运动场;
将局部稀疏运动场和局部剩余运动场叠加得到局部运动场;
S102中构建自输入的视频帧中抽取的多个关键帧之间的全局运动场,包括:
对视频帧均匀采样得到多个关键帧;
以首个关键帧为参考帧,利用预训练的可变形体素辐射场网络学习其余关键帧相较于参考帧的全局稠密运动场;
将全局稠密运动场稀疏化,得到其余关键帧相较于参考帧的全局稀疏运动场;
以全局稀疏运动场为全局运动场;
S102中根据局部运动场和全局运动场构建与输入视频对应的用于预测输入视频的场景动态变化的全局优化约束运动场,包括:
根据局部运动场预测全局运动场,得到运动场预测值;
以全局运动场为真值,对运动场预测值进行运动约束,得到全局优化约束运动场。
根据局部运动场预测全局运动场,如下式所示:构造运动场的全局优化约束:
其中,和Gk,i分别为第k个关键帧相对于第一关键帧的全局稀疏运动场预测值和真值。应用本发明实施例提供的局部-全局优化的运动场,运动约束在粗糙尺度上构建,在提高效率的同时,可以保持运动的平滑和紧凑。
下面对本发明实施例四进行说明。
在上述实施例的基础上,本发明实施例进一步对构建动态神经辐射场的方式进行说明。
三维空间是由无数个三维点组成的,输入视频对应的三维动态场景则是无数个三维点对应的时空特征组成的,为了实现对三维动态场景的重建和渲染,还需要加入这些三维点的颜色信息,由此对应的全量数据是巨大的。故在本发明实施例中,提供一种显隐式表示相结合的神经辐射场,以在保证重建渲染效率的前提下提高效率。
在本发明实施例提供的场景视频处理方法中,S103:根据初始时空特征构建输入视频对应的动态神经辐射场,可以包括:
根据初始时空特征,利用显式网络表示输入视频对应的三维动态场景;
获取三维动态场景中多个三维点的时空特征;
利用各三维点的时空特征对三维动态场景进行隐式重建,得到动态神经辐射场。
需要说明的是,显式网络即用体素(三维网格体)表示的三维空间,隐式网络则为整个三维空间进行学习。由于若要表示整个三维空间内所有三维点的时空信息,会导致神经辐射场的网络结构异常复杂,故在本发明实施例中,先对三维空间划分为网格立方体,即上述三维立方体,每个三维立方体作为一个体素,根据需要可以划分得稠密或稀疏,而不对三维点进行建模,可以减少工作量。在利用神经辐射场预测颜色时,也先以三维立方体为单位去预测颜色。但由于显式网络将三维场景的时空信息稀疏掉了,导致得到的网络表达能力变差,故在显示网络的基础上,本发明实施例再获取三维动态场景中任意三维点的时空特征,将各三维点的时空特征输入神经辐射场中,对三维动态场景进行隐式重建,提高神经辐射场预测三维点的颜色信息的准确性。
在观看三维动态场景时,实际观看到的是所在视角面向三维动态场景时看到的二维图像,该二维图像是由二维平面的像素点构成,故在对输入视频进行预处理时,得到的是各视频帧的各像素点的初始时空特征,在渲染三维动态场景时,渲染的是观看视角下对应的二维场景的时空特征,即都是由对应时间下三维动态场景中的物体在视平面上的投影,在视频上则表现为在视频帧上的投影。则在本发明实施例中,根据初始时空特征,利用显式网络表示输入视频对应的三维动态场景,可以包括:
构建三维动态场景中的三维网格体;
根据输入视频对应的投影矩阵,将各三维网格体投影至对应的视频帧的像素位置,索引对应的视频帧的像素位置的初始时空特征为三维网格体的网格体初始时空特征;
以全部三维网格体的网格体初始时空特征表示三维动态场景。
具体来说,构建第t帧表示三维动态场景的三维网格体,大小为Nx×Ny×Nz,针对三维网格体中任意三维网格体根据输入的对应投影矩阵πt(p,t),将其投影到相应视频帧像素位置/>索引其对应视频帧上的特征/>以此作为网格初始时空特征,最终得到整个三维网格体的初始时空特征/>则在利用显式网络表示三维动态场景时,是利用各三维网格体的初始时空特征表示三维动态场景的,此时先不将初始时空特征输入神经辐射场。
在显示网络的基础上,本发明实施例再获取三维动态场景中任意三维点的时空特征,将各三维点的时空特征输入神经辐射场中,对三维动态场景进行隐式重建。获取三维动态场景中多个三维点的时空特征可以为自三维动态场景中均匀采样或随机抽取。一种可选的方式是,获取三维动态场景中多个三维点的时空特征,包括:获取各视频帧中自输入视频的相机角度发射光线对三维动态场景进行采样得到的三维点。
基于显式网络中各三维网格体的初始时空特征得到采样得到的三维点的时空特征。获取三维动态场景中多个三维点的时空特征,可以包括:结合三维点的空间位置和三维点相邻的三维网格体的时空特征进行插值,得到三维点的时空特征。针对任意三维点对其相邻的三维网格体的时空特征进行插值获取三维点的时空特征插值算法可以采用二次插值算法:也可以采用其他类型的插值算法。
基于此,利用各三维点的时空特征对三维动态场景进行隐式重建,得到动态神经辐射场,可以包括:
以三维点的空间位置、三维点的时空特征、三维点对应的光线方向为输入,构建用于预测任意三维点的颜色信息和任意三维点的透明度信息的动态神经辐射场。
动态神经辐射场的结构为多层感知机网络,可以预测任意三维点的颜色和透明度。在第t帧,从输入视频的相机到任意像素发射光线r,对三维空间进行采样,得到Nr个三维点,将采样得到三维点的空间位置时空特征/>光线方向作为输入,经过动态神经辐射场网络,预测任意三维点的颜色ct,透明度σt。所有视频帧共用一个动态神经辐射场网络。具体计算如下:
其中,为第t帧第i个三维点的光线方向。
应用本发明实施例提供的场景视频处理方法,通过构建显隐式表示相结合的神经辐射场,基于显式网络学习运动场,提高效率,通过基于显式网络进行隐式重建,得到动态神经辐射场,保证对输入视频对应的三维动态场景的重建和渲染质量,从而更准确地显示新视角图像、视频。
下面对实施例五进行说明。
可以理解的是,基于输入视频去进行三维动态场景的重建渲染时,往往无法避免的是对三维动态场景中的时空特征存在表达歧义。尤其是在输入视频为单目视频时,由于缺乏多视角信息,导致歧义性更强。故在上述实施例的基础上,在本发明实施例提供的场景视频处理方法中,为加强获取场景的时空特征,根据初始时空特征,利用显式网络表示输入视频对应的三维动态场景,可以包括:
构建三维动态场景中的三维网格体;
根据输入视频对应的投影矩阵,将各三维网格体投影至对应的视频帧的像素位置,索引对应的视频帧的像素位置的初始时空特征为三维网格体的网格体初始时空特征;
对应各视频帧,将当前视频帧中三维网格体的网格体初始时空特征与在前的相邻的视频帧中三维网格体的网格体初始时空特征进行融合处理,得到当前视频帧中三维网格体的网格体增强时空特征;
以全部三维网格体的网格体增强时空特征表示三维动态场景。
在具体实施中,对于第t帧的三维网格体的时空特征,可以融合第t帧前相邻的视频帧的初始时空特征作为第t帧中该三维网格体的网格体增强时空特征,以达到多视角时空特征的效果。
在进行融合时,可以进一步采用多层感知机对融合后的初始时空特征进行优化。
如将当前视频帧中三维网格体的网格体初始时空特征与上一视频帧中三维网格体的网格体初始时空特征融合,针对三维网格体中任意三维网格体i的在第t帧位置信息其网格体增强时空特征为第t-1帧的网格体初始时空特征与第t帧的网格体初始时空特征融合,并经过多层感知机优化得到,具体计算如下:具体计算如下:
其中,为三维网格体i在第t帧的网格体增强时空特征,/>为三维网格体i在第t-1帧的网格体初始时空特征,/>为三维网格体i在第t-1帧的位置信息,Vt′为三维网格体i在第t帧的网格体初始时空特征,/>为三维网格体i在第t帧的位置信息,MLP()为多层感知机优化函数。
或者,对应各视频帧,将当前视频帧中三维网格体的网格体初始时空特征与在前的相邻的视频帧中三维网格体的网格体初始时空特征进行融合,得到当前视频帧中三维网格体的网格体增强时空特征,可以为:对应各视频帧,将当前视频帧中三维网格体的网格体初始时空特征与上一视频帧的网格体增强时空特征进行融合处理,得到当前视频帧中三维网格体的网格体增强时空特征。
通过将当前视频帧中三维网格体的网格体初始时空特征与上一视频帧的网格体增强时空特征进行融合处理,达到每个视频帧中三维网格体的网格体增强时空特征都包含在前所有视频帧对应三维网格体的网格体初始时空特征。则对于针对三维网格体中任意三维网格体i的在第t帧位置信息其增强时空特征为第t-1帧的网格体增强时空特征与第t帧的网格体初始时空特征融合,并经过多层感知机优化得到,具体计算如下:具体计算如下:
其中,为三维网格体i在第t-1帧的网格体增强时空特征。
此外,可以根据需要调整当前帧中三维网格体的网格体增强时空特征所包含在前的相邻视频帧的三维网格体的网格体初始时空特征的数量。
根据本发明实施例二、三提供的全局优化约束运动场
最终,得到第t帧全部三维网格体的网格体增强特征
则在本发明实施例中,获取三维动态场景中多个三维点的时空特征,包括:结合三维点的空间位置和三维点相邻的三维网格体的时空特征进行插值,得到三维点的时空特征,具体可以为结合三维点的空间位置和三维点相邻的三维网格体的网格体加强时空特征进行插值,得到三维点的时空特征。
应用本发明实施例提供的场景视频处理方法,通过基于运动场的增强时空特征的提取算法,根据学习到的相邻视频帧之间的运动场,融合多个视角时空信息,获取场景相关的增强时空特征,提高特征的鲁棒性与泛化性,用以预测更加准确的新视角图像。而通过增强时空特征,使得用较小的多层感知机网络就可以建立神经辐射场,用以隐式重建动态场景,高效完成渲染,从而更高效地显示新视角图像、视频。
下面对本发明实施例六进行说明。
基于上述实施例,本发明实施例提供一种整体的场景视频处理网络,该场景视频处理网络可以包括视频特征提取模块、基于局部-全局约束的运动场学习模块、基于运动场的增强时空特征提取模块和动态神经辐射场生成模块。各模块具体结构如上述实施例所述。
在S106中利用运动损失函数和颜色损失函数进行动态神经辐射场的损失优化,则对该整体的场景视频处理网络进行联合优化,具体可以将运动损失函数和颜色损失函数叠加后作为总体损失函数进行端到端的训练优化。
基于上述实施例介绍的基于局部-全局约束的运动场,总体损失函数中还可以加入局部损失函数,以进一步提高运动场的准确性。
局部损失函数可以利用光流构建。则S104:根据全局优化约束运动场构建运动损失函数,可以包括:
构建局部运动场的光流损失函数和局部运动场的剩余运动场的稀疏约束损失函数;
将全局优化约束运动场对应的全局运动损失函数、局部运动场的光流损失函数和剩余运动场的稀疏约束损失函数叠加,得到运动损失函数。
在具体实施中,输入包含N帧的视频以及视频帧对应的相机位姿πt。针对每一个视频帧It,利用预训练好的光流估计算法计算光流ft
针对任意三维点在获取的局部运动场上进行二次插值获取其运动偏移值,进而得到其在第t帧的三维位置p+Δp。
根据对应的投影矩阵πt(p,t),将其投影到相应视频帧像素位置根据相邻帧像素位置计算光流,构建光流损失/>优化局部运动场,学习剩余运动场Rt
其中,Nr为一条光线上采样的三维点的个数,表示一次训练中所有的光线。/>为像素位置/>处的光流真值,/>可由/>得到。
同时,为了提高效率,还利用L1损失构建剩余运动场的稀疏约束:
其中,Rt为本发明实施例三中介绍的可学习的剩余运动场。
则在本发明实施例中,S104中构建的运动损失函数可以为光流损失函数全局运动损失函数/>剩余运动场的稀疏约束损失函数/>的叠加,即运动损失函数为/>/>
多损失联合训练网络,优化运动场、增强特征提取网络、辐射场生成网络。其中整体的场景视频处理网络的总体损失函数为 为S105构建的颜色损失函数。利用梯度下降最小化损失/>端对端地网络。当整体的场景视频处理网络的训练误差达到损失阈值(指定的较小值)或者迭代次数达到迭代结束阈值(指定的最大值)时,训练结束,输出的网络模型为输入视频对应的场景视频处理网络。保存训练好的场景视频处理网络以及网络参数,用以测试。
在测试阶段,依次在时间t上,基于体渲染得到新视角的颜色图像,合成新视点视频,完成三维动态场景新视角渲染视频的生成,用于显示新视角视频。
上文详述了场景视频处理方法对应的各个实施例,在此基础上,本发明还公开了与上述方法对应的场景视频处理装置、设备及存储介质。
下面对本发明实施例七进行说明。
图2为本发明实施例提供的一种场景视频处理装置的结构示意图。
如图2所示,本发明实施例提供的场景视频处理装置包括:
预处理单元201,用于对输入视频进行预处理,得到输入视频的视频帧的初始时空特征;
运动场构建单元202,用于基于初始时空特征,构建相邻的视频帧之间的局部运动场以及自输入的视频帧中抽取的多个关键帧之间的全局运动场,并根据局部运动场和全局运动场构建与输入视频对应的用于预测输入视频的场景动态变化的全局优化约束运动场;
辐射场构建单元203,用于根据初始时空特征构建输入视频对应的动态神经辐射场;
运动损失构建单元204,用于根据全局优化约束运动场构建运动损失函数;
颜色损失构建单元205,用于对输入视频进行体渲染以构建颜色损失函数;
训练单元206,用于利用运动损失函数和颜色损失函数进行动态神经辐射场的损失优化,得到输入视频对应的场景视频处理网络;
计算单元207,用于将视角信息输入场景视频处理网络,输出视角信息对应的显示数据。
在一些实施中,运动场构建单元202构建相邻的视频帧之间的局部运动场,可以包括:
对视频帧,以前一帧为参考帧,学习相邻的视频帧之间的局部稠密运动场;
以局部稠密运动场为局部运动场。
在一些实施中,运动场构建单元202构建相邻的视频帧之间的局部运动场,可以包括:
对视频帧,以前一帧为参考帧,学习相邻的视频帧之间的局部稠密运动场;
将局部稠密运动场稀疏化,得到相邻的视频帧之间的局部稀疏运动场;
以局部稀疏运动场为局部运动场。
在一些实施中,运动场构建单元202构建相邻的视频帧之间的局部运动场,可以包括:
对视频帧,以前一帧为参考帧,学习相邻的视频帧之间的局部稠密运动场;
将局部稠密运动场稀疏化,得到相邻的视频帧之间的局部稀疏运动场;
在局部稀疏运动场的基础上构建局部光流损失学习得到相邻的视频帧之间的局部剩余运动场;
将局部稀疏运动场和局部剩余运动场叠加得到局部运动场。
在一些实施中,运动场构建单元202构建相邻的视频帧之间的局部运动场,可以包括:
利用预训练的神经辐射场网络学习得到相邻的视频帧之间的局部运动场。
在一些实施中,运动场构建单元202构建自输入的视频帧中抽取的多个关键帧之间的全局运动场,可以包括:
对视频帧均匀采样得到多个关键帧;
以首个关键帧为参考帧,学习其余关键帧相较于参考帧的全局稠密运动场;
以全局稠密运动场为全局运动场。
在一些实施中,运动场构建单元202构建自输入的视频帧中抽取的多个关键帧之间的全局运动场,可以包括:
对视频帧均匀采样得到多个关键帧;
以首个关键帧为参考帧,学习其余关键帧相较于参考帧的全局稠密运动场;
将全局稠密运动场稀疏化,得到其余关键帧相较于参考帧的全局稀疏运动场;
以全局稀疏运动场为全局运动场。
在一些实施中,运动场构建单元202构建自输入的视频帧中抽取的多个关键帧之间的全局运动场,可以包括:
利用预训练的神经辐射场网络学习得到关键帧之间的全局运动场。
在一些实施中,运动场构建单元202构建相邻的视频帧之间的局部运动场,可以包括:
利用预训练的可变形体素辐射场网络学习得到相邻的视频帧之间的局部运动场;
构建自输入的视频帧中抽取的多个关键帧之间的全局运动场,包括:
利用预训练的可变形体素辐射场网络学习得到关键帧之间的全局运动场;
根据局部运动场和全局运动场构建与输入视频对应的用于预测输入视频的场景动态变化的全局优化约束运动场,包括:
根据局部运动场预测全局运动场,得到运动场预测值;
以全局运动场为真值,对运动场预测值进行运动约束,得到全局优化约束运动场。
在一些实施中,运动场构建单元202构建相邻的视频帧之间的局部运动场,包括:
对视频帧,以前一帧为参考帧,利用预训练的可变形体素辐射场网络学习相邻的视频帧之间的局部稠密运动场;
将局部稠密运动场稀疏化,得到相邻的视频帧之间的局部稀疏运动场;
在局部稀疏运动场的基础上构建局部光流损失学习得到相邻的视频帧之间的局部剩余运动场;
将局部稀疏运动场和局部剩余运动场叠加得到局部运动场;
构建自输入的视频帧中抽取的多个关键帧之间的全局运动场,包括:
对视频帧均匀采样得到多个关键帧;
以首个关键帧为参考帧,利用预训练的可变形体素辐射场网络学习其余关键帧相较于参考帧的全局稠密运动场;
将全局稠密运动场稀疏化,得到其余关键帧相较于参考帧的全局稀疏运动场;
以全局稀疏运动场为全局运动场;
根据局部运动场和全局运动场构建与输入视频对应的用于预测输入视频的场景动态变化的全局优化约束运动场,包括:
根据局部运动场预测全局运动场,得到运动场预测值;
以全局运动场为真值,对运动场预测值进行运动约束,得到全局优化约束运动场。
在一些实施中,辐射场构建单元203根据初始时空特征构建输入视频对应的动态神经辐射场,可以包括:
根据初始时空特征,利用显式网络表示输入视频对应的三维动态场景;
获取三维动态场景中多个三维点的时空特征;
利用各三维点的时空特征对三维动态场景进行隐式重建,得到动态神经辐射场。
在一些实施中,辐射场构建单元203根据初始时空特征,利用显式网络表示输入视频对应的三维动态场景,可以包括:
构建三维动态场景中的三维网格体;
根据输入视频对应的投影矩阵,将各三维网格体投影至对应的视频帧的像素位置,索引对应的视频帧的像素位置的初始时空特征为三维网格体的网格体初始时空特征;
以全部三维网格体的网格体初始时空特征表示三维动态场景。
在一些实施中,根辐射场构建单元203据初始时空特征,利用显式网络表示输入视频对应的三维动态场景,可以包括:
构建三维动态场景中的三维网格体;
根据输入视频对应的投影矩阵,将各三维网格体投影至对应的视频帧的像素位置,索引对应的视频帧的像素位置的初始时空特征为三维网格体的网格体初始时空特征;
对应各视频帧,将当前视频帧中三维网格体的网格体初始时空特征与在前的相邻的视频帧中三维网格体的网格体初始时空特征进行融合处理,得到当前视频帧中三维网格体的网格体增强时空特征;
以全部三维网格体的网格体增强时空特征表示三维动态场景。
在一些实施中,对应各视频帧,将当前视频帧中三维网格体的网格体初始时空特征与在前的相邻的视频帧中三维网格体的网格体初始时空特征进行融合,得到当前视频帧中三维网格体的网格体增强时空特征,包括:
对应各视频帧,将当前视频帧中三维网格体的网格体初始时空特征与上一视频帧的网格体增强时空特征进行融合处理,得到当前视频帧中三维网格体的网格体增强时空特征。
在一些实施中,辐射场构建单元203获取三维动态场景中多个三维点的时空特征,可以包括:
结合三维点的空间位置和三维点相邻的三维网格体的时空特征进行插值,得到三维点的时空特征。
在一些实施中,辐射场构建单元203获取三维动态场景中多个三维点的时空特征,可以包括:
获取各时刻自输入视频的相机角度发射光线对三维动态场景进行采样得到的三维点。
在一些实施中,辐射场构建单元203利用各三维点的时空特征对三维动态场景进行隐式重建,得到动态神经辐射场,可以包括:
以三维点的空间位置、三维点的时空特征、三维点对应的光线方向为输入,构建用于预测任意三维点的颜色信息和任意三维点的透明度信息的动态神经辐射场。
在一些实施中,颜色损失构建单元205对输入视频进行体渲染以构建颜色损失函数,可以包括:
获取各时刻渲染得到的彩色图中任一像素的颜色真值;
利用颜色真值与动态神经辐射场预测得到对应三维点的颜色值构建颜色损失函数。
在一些实施中,运动损失构建单元204根据全局优化约束运动场构建运动损失函数,可以包括:
构建局部运动场的光流损失函数和局部运动场的剩余运动场的稀疏约束损失函数;
将全局优化约束运动场对应的全局运动损失函数、局部运动场的光流损失函数和剩余运动场的稀疏约束损失函数叠加,得到运动损失函数。
在一些实施中,预处理单元201对输入视频进行预处理,得到输入视频的视频帧的初始时空特征,可以包括:
将视频帧输入空间特征提取网络,得到初始空间特征;
将视频帧和初始空间特征输入时间特征提取网络,得到与初始空间特征对应的初始时间特征;
根据初始空间特征和初始时间特征,生成视频帧的初始时空特征向量。
其中,空间特征提取网络可以为预训练的残差神经网络,时间特征提取网络可以为多层感知机网络。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
下面对本发明实施例八进行说明。
图3为本发明实施例提供的一种场景视频处理设备的结构示意图。
如图3所示,本发明实施例提供的场景视频处理设备包括:
存储器310,用于存储计算机程序311;
处理器320,用于执行计算机程序311,该计算机程序311被处理器320执行时实现如上述任意一项实施例所述场景视频处理方法的步骤。
其中,处理器320可以包括一个或多个处理核心,比如3核心处理器、8核心处理器等。处理器320可以采用数字信号处理DSP(Digital Signal Processing)、现场可编程门阵列FPGA(Field-Programmable Gate Array)、可编程逻辑阵列PLA(Programmable LogicArray)中的至少一种硬件形式来实现。处理器320也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器CPU(CentralProcessing Unit);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器320可以集成有图像处理器GPU(Graphics Processing Unit),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器320还可以包括人工智能AI(Artificial Intelligence)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器310可以包括一个或多个存储介质,该存储介质可以是非暂态的。存储器310还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器310至少用于存储以下计算机程序311,其中,该计算机程序311被处理器320加载并执行之后,能够实现前述任一实施例公开的场景视频处理方法中的相关步骤。另外,存储器310所存储的资源还可以包括操作系统312和数据313等,存储方式可以是短暂存储或者永久存储。其中,操作系统312可以为Windows。数据313可以包括但不限于上述方法所涉及到的数据。
在一些实施例中,场景视频处理设备还可包括有显示屏330、电源340、通信接口350、输入输出接口360、传感器370以及通信总线380。
本领域技术人员可以理解,图3中示出的结构并不构成对场景视频处理设备的限定,可以包括比图示更多或更少的组件。
本发明实施例提供的场景视频处理设备,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如上所述的场景视频处理方法,效果同上。
下面对本发明实施例九进行说明。
需要说明的是,以上所描述的装置、设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例所述方法的全部或部分步骤。
为此,本发明实施例还提供一种存储介质,该存储介质上存储有计算机程序,计算机程序被处理器执行时实现如场景视频处理方法的步骤。
该存储介质可以包括:U盘、移动硬盘、只读存储器ROM(Read-Only Memory)、随机存取存储器RAM(Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例中提供的存储介质所包含的计算机程序能够在被处理器执行时实现如上所述的场景视频处理方法的步骤,效果同上。
以上对本发明所提供的一种场景视频处理方法、装置、设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (24)

1.一种场景视频处理方法,其特征在于,包括:
对输入视频进行预处理,得到所述输入视频的视频帧的初始时空特征;
基于所述初始时空特征,构建相邻的所述视频帧之间的局部运动场以及自输入的所述视频帧中抽取的多个关键帧之间的全局运动场,并根据所述局部运动场和所述全局运动场构建与所述输入视频对应的用于预测所述输入视频的场景动态变化的全局优化约束运动场;
根据所述初始时空特征构建所述输入视频对应的动态神经辐射场;
根据所述全局优化约束运动场构建运动损失函数;
对所述输入视频进行体渲染以构建颜色损失函数;
利用所述运动损失函数和所述颜色损失函数进行所述动态神经辐射场的损失优化,得到所述输入视频对应的场景视频处理网络;
将视角信息输入所述场景视频处理网络,输出所述视角信息对应的显示数据。
2.根据权利要求1所述的场景视频处理方法,其特征在于,构建相邻的所述视频帧之间的局部运动场,包括:
对所述视频帧,以前一帧为参考帧,学习相邻的所述视频帧之间的局部稠密运动场;
以所述局部稠密运动场为所述局部运动场。
3.根据权利要求1所述的场景视频处理方法,其特征在于,构建相邻的所述视频帧之间的局部运动场,包括:
对所述视频帧,以前一帧为参考帧,学习相邻的所述视频帧之间的局部稠密运动场;
将所述局部稠密运动场稀疏化,得到相邻的所述视频帧之间的局部稀疏运动场;
以所述局部稀疏运动场为所述局部运动场。
4.根据权利要求1所述的场景视频处理方法,其特征在于,构建相邻的所述视频帧之间的局部运动场,包括:
对所述视频帧,以前一帧为参考帧,学习相邻的所述视频帧之间的局部稠密运动场;
将所述局部稠密运动场稀疏化,得到相邻的所述视频帧之间的局部稀疏运动场;
在所述局部稀疏运动场的基础上构建局部光流损失学习得到相邻的所述视频帧之间的局部剩余运动场;
将所述局部稀疏运动场和所述局部剩余运动场叠加得到所述局部运动场。
5.根据权利要求1所述的场景视频处理方法,其特征在于,构建相邻的所述视频帧之间的局部运动场,包括:
利用预训练的神经辐射场网络学习得到相邻的所述视频帧之间的所述局部运动场。
6.根据权利要求1所述的场景视频处理方法,其特征在于,构建自输入的所述视频帧中抽取的多个关键帧之间的全局运动场,包括:
对所述视频帧均匀采样得到多个所述关键帧;
以首个所述关键帧为参考帧,学习其余所述关键帧相较于所述参考帧的全局稠密运动场;
以所述全局稠密运动场为所述全局运动场。
7.根据权利要求1所述的场景视频处理方法,其特征在于,构建自输入的所述视频帧中抽取的多个关键帧之间的全局运动场,包括:
对所述视频帧均匀采样得到多个所述关键帧;
以首个所述关键帧为参考帧,学习其余所述关键帧相较于所述参考帧的全局稠密运动场;
将所述全局稠密运动场稀疏化,得到其余所述关键帧相较于所述参考帧的全局稀疏运动场;
以所述全局稀疏运动场为所述全局运动场。
8.根据权利要求1所述的场景视频处理方法,其特征在于,构建自输入的所述视频帧中抽取的多个关键帧之间的全局运动场,包括:
利用预训练的神经辐射场网络学习得到所述关键帧之间的所述全局运动场。
9.根据权利要求1所述的场景视频处理方法,其特征在于,构建相邻的所述视频帧之间的局部运动场,包括:
利用预训练的可变形体素辐射场网络学习得到相邻的所述视频帧之间的所述局部运动场;
构建自输入的所述视频帧中抽取的多个关键帧之间的全局运动场,包括:
利用预训练的可变形体素辐射场网络学习得到所述关键帧之间的所述全局运动场;
所述根据所述局部运动场和所述全局运动场构建与所述输入视频对应的用于预测所述输入视频的场景动态变化的全局优化约束运动场,包括:
根据所述局部运动场预测所述全局运动场,得到运动场预测值;
以所述全局运动场为真值,对所述运动场预测值进行运动约束,得到所述全局优化约束运动场。
10.根据权利要求1所述的场景视频处理方法,其特征在于,构建相邻的所述视频帧之间的局部运动场,包括:
对所述视频帧,以前一帧为参考帧,利用预训练的可变形体素辐射场网络学习相邻的所述视频帧之间的局部稠密运动场;
将所述局部稠密运动场稀疏化,得到相邻的所述视频帧之间的局部稀疏运动场;
在所述局部稀疏运动场的基础上构建局部光流损失学习得到相邻的所述视频帧之间的局部剩余运动场;
将所述局部稀疏运动场和所述局部剩余运动场叠加得到所述局部运动场;
构建自输入的所述视频帧中抽取的多个关键帧之间的全局运动场,包括:
对所述视频帧均匀采样得到多个所述关键帧;
以首个所述关键帧为参考帧,利用预训练的可变形体素辐射场网络学习其余所述关键帧相较于所述参考帧的全局稠密运动场;
将所述全局稠密运动场稀疏化,得到其余所述关键帧相较于所述参考帧的全局稀疏运动场;
以所述全局稀疏运动场为所述全局运动场;
所述根据所述局部运动场和所述全局运动场构建与所述输入视频对应的用于预测所述输入视频的场景动态变化的全局优化约束运动场,包括:
根据所述局部运动场预测所述全局运动场,得到运动场预测值;
以所述全局运动场为真值,对所述运动场预测值进行运动约束,得到所述全局优化约束运动场。
11.根据权利要求1所述的场景视频处理方法,其特征在于,所述根据所述初始时空特征构建所述输入视频对应的动态神经辐射场,包括:
根据所述初始时空特征,利用显式网络表示所述输入视频对应的三维动态场景;
获取所述三维动态场景中多个三维点的时空特征;
利用各所述三维点的时空特征对所述三维动态场景进行隐式重建,得到所述动态神经辐射场。
12.根据权利要求11所述的场景视频处理方法,其特征在于,所述根据所述初始时空特征,利用显式网络表示所述输入视频对应的三维动态场景,包括:
构建所述三维动态场景中的三维网格体;
根据所述输入视频对应的投影矩阵,将各所述三维网格体投影至对应的所述视频帧的像素位置,索引对应的所述视频帧的像素位置的所述初始时空特征为所述三维网格体的网格体初始时空特征;
以全部所述三维网格体的所述网格体初始时空特征表示所述三维动态场景。
13.根据权利要求12所述的场景视频处理方法,其特征在于,所述根据所述初始时空特征,利用显式网络表示所述输入视频对应的三维动态场景,包括:
构建所述三维动态场景中的三维网格体;
根据所述输入视频对应的投影矩阵,将各所述三维网格体投影至对应的所述视频帧的像素位置,索引对应的所述视频帧的像素位置的所述初始时空特征为所述三维网格体的网格体初始时空特征;
对应各所述视频帧,将当前所述视频帧中所述三维网格体的网格体初始时空特征与在前的相邻的所述视频帧中所述三维网格体的网格体初始时空特征进行融合处理,得到当前所述视频帧中所述三维网格体的网格体增强时空特征;
以全部所述三维网格体的所述网格体增强时空特征表示所述三维动态场景。
14.根据权利要求13所述的场景视频处理方法,其特征在于,所述对应各所述视频帧,将当前所述视频帧中所述三维网格体的网格体初始时空特征与在前的相邻的所述视频帧中所述三维网格体的网格体初始时空特征进行融合,得到当前所述视频帧中所述三维网格体的网格体增强时空特征,包括:
对应各所述视频帧,将当前所述视频帧中所述三维网格体的网格体初始时空特征与上一所述视频帧的网格体增强时空特征进行融合处理,得到当前所述视频帧中所述三维网格体的网格体增强时空特征。
15.根据权利要求12至14任意一项所述的场景视频处理方法,其特征在于,所述获取所述三维动态场景中多个三维点的时空特征,包括:
结合所述三维点的空间位置和所述三维点相邻的所述三维网格体的时空特征进行插值,得到所述三维点的时空特征。
16.根据权利要求11所述的场景视频处理方法,其特征在于,所述获取所述三维动态场景中多个三维点的时空特征,包括:
获取各所述视频帧中自所述输入视频的相机角度发射光线对所述三维动态场景进行采样得到的所述三维点。
17.根据权利要求16所述的场景视频处理方法,其特征在于,所述利用各所述三维点的时空特征对所述三维动态场景进行隐式重建,得到所述动态神经辐射场,包括:
以所述三维点的空间位置、所述三维点的时空特征、所述三维点对应的光线方向为输入,构建用于预测任意所述三维点的颜色信息和任意所述三维点的透明度信息的所述动态神经辐射场。
18.根据权利要求1所述的场景视频处理方法,其特征在于,所述对所述输入视频进行体渲染以构建颜色损失函数,包括:
获取各所述视频帧中渲染得到的彩色图中任一像素的颜色真值;
利用所述颜色真值与所述动态神经辐射场预测得到对应三维点的颜色值构建所述颜色损失函数。
19.根据权利要求1所述的场景视频处理方法,其特征在于,所述根据所述全局优化约束运动场构建运动损失函数,包括:
构建所述局部运动场的光流损失函数和所述局部运动场的剩余运动场的稀疏约束损失函数;
将所述全局优化约束运动场对应的全局运动损失函数、所述局部运动场的光流损失函数和所述剩余运动场的稀疏约束损失函数叠加,得到所述运动损失函数。
20.根据权利要求1所述的场景视频处理方法,其特征在于,所述对输入视频进行预处理,得到所述输入视频的视频帧的初始时空特征,包括:
将所述视频帧输入空间特征提取网络,得到初始空间特征;
将所述视频帧和所述初始空间特征输入时间特征提取网络,得到与所述初始空间特征对应的初始时间特征;
根据所述初始空间特征和所述初始时间特征,生成所述视频帧的初始时空特征向量。
21.根据权利要求20所述的场景视频处理方法,其特征在于,所述空间特征提取网络为预训练的残差神经网络,所述时间特征提取网络为多层感知机网络。
22.一种场景视频处理装置,其特征在于,包括:
预处理单元,用于对输入视频进行预处理,得到所述输入视频的视频帧的初始时空特征;
运动场构建单元,用于基于所述初始时空特征,构建相邻的所述视频帧之间的局部运动场以及自输入的所述视频帧中抽取的多个关键帧之间的全局运动场,并根据所述局部运动场和所述全局运动场构建与所述输入视频对应的用于预测所述输入视频的场景动态变化的全局优化约束运动场;
辐射场构建单元,用于根据所述初始时空特征构建所述输入视频对应的动态神经辐射场;
运动损失构建单元,用于根据所述全局优化约束运动场构建运动损失函数;
颜色损失构建单元,用于对所述输入视频进行体渲染以构建颜色损失函数;
训练单元,用于利用所述运动损失函数和所述颜色损失函数进行所述动态神经辐射场的损失优化,得到所述输入视频对应的场景视频处理网络;
计算单元,用于将视角信息输入所述场景视频处理网络,输出所述视角信息对应的显示数据。
23.一种场景视频处理设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至21任意一项所述场景视频处理方法的步骤。
24.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至21任意一项所述场景视频处理方法的步骤。
CN202311278279.5A 2023-09-28 2023-09-28 一种场景视频处理方法、装置、设备及存储介质 Pending CN117274446A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311278279.5A CN117274446A (zh) 2023-09-28 2023-09-28 一种场景视频处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311278279.5A CN117274446A (zh) 2023-09-28 2023-09-28 一种场景视频处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117274446A true CN117274446A (zh) 2023-12-22

Family

ID=89217446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311278279.5A Pending CN117274446A (zh) 2023-09-28 2023-09-28 一种场景视频处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117274446A (zh)

Similar Documents

Publication Publication Date Title
Shivakumar et al. Dfusenet: Deep fusion of rgb and sparse depth information for image guided dense depth completion
CN110443842B (zh) 基于视角融合的深度图预测方法
Kim et al. Deep monocular depth estimation via integration of global and local predictions
Insafutdinov et al. Unsupervised learning of shape and pose with differentiable point clouds
CN111598998B (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
US11017586B2 (en) 3D motion effect from a 2D image
Sevilla-Lara et al. Optical flow with semantic segmentation and localized layers
Patwardhan et al. Video inpainting under constrained camera motion
Meuleman et al. Progressively optimized local radiance fields for robust view synthesis
CN115082639A (zh) 图像生成方法、装置、电子设备和存储介质
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
CN114511662A (zh) 渲染图像的方法、装置、电子设备及存储介质
CN113689539A (zh) 基于隐式光流场的动态场景实时三维重建方法与装置
WO2021228183A1 (en) Facial re-enactment
Wang et al. Depth estimation of video sequences with perceptual losses
CN113850900A (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
CN115428027A (zh) 神经不透明点云
Qiu et al. World from blur
Habtegebrial et al. Fast view synthesis with deep stereo vision
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
Wang et al. Joint framework for single image reconstruction and super-resolution with an event camera
Rabby et al. Beyondpixels: A comprehensive review of the evolution of neural radiance fields
CA3177593A1 (en) Transformer-based shape models
CN115565039A (zh) 基于自注意力机制的单目输入动态场景新视图合成方法
CN115035173A (zh) 基于帧间相关性的单目深度估计方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination