CN114677477A - 一种虚拟视点合成方法、系统、介质、设备及终端 - Google Patents

一种虚拟视点合成方法、系统、介质、设备及终端 Download PDF

Info

Publication number
CN114677477A
CN114677477A CN202210332563.5A CN202210332563A CN114677477A CN 114677477 A CN114677477 A CN 114677477A CN 202210332563 A CN202210332563 A CN 202210332563A CN 114677477 A CN114677477 A CN 114677477A
Authority
CN
China
Prior art keywords
image
convolution
layer
virtual
virtual viewpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210332563.5A
Other languages
English (en)
Inventor
魏敏
张应驰
朱烨
文武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202210332563.5A priority Critical patent/CN114677477A/zh
Publication of CN114677477A publication Critical patent/CN114677477A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Image Processing (AREA)

Abstract

本发明属于三维显示技术领域,公开了一种虚拟视点合成方法、系统、介质、设备及终端,通过参考色彩图及深度图经3D‑Warping合成虚拟视图;将带有空洞、伪影和重叠的虚拟视图经空洞填补模块空洞填补;将填补空洞后的图像经图像优化模块进行图像质量的整体优化,输出虚拟视图。本发明虚拟视点修复模型的第一阶段是在单尺度部分卷积的基础上提出了多尺度融合的部分卷积,更好地联系了上下文信息,增强了模型细节修复能力,降低资源传输成本。本发明在空洞填补后由于部分卷积自身的局限会残留局部色差,使用第二阶段图像质量优化网络去除图像重叠和伪影问题的同时,还可以有效解决部分卷积带来的局部色差,使优化后的图像整体质量提高。

Description

一种虚拟视点合成方法、系统、介质、设备及终端
技术领域
本发明属于三维显示技术领域,尤其涉及一种虚拟视点合成方法、系统、介质、设备及终端。
背景技术
目前,随着三维显示技术的不断进步,普通的2D视频逐渐向3D视频发展。作为三维显示的关键技术,基于深度图像的虚拟视点绘制技术(Depth Image Based Rendering,DIBR)具有绘制速度快、传输数据量小、存储空间少等优点。另外,由于深度图的质量以及物体间的遮挡,绘制后的图像仍然存在空洞、重叠、伪影等问题,导致虚拟视点图像质量整体下降。为此,人们提出了许多改进的DIBR算法进行虚拟视点合成,包括在DIBR前对深度图进行预处理减少空洞数量,DIBR后利用图像信息填补空洞,将深度信息引入到图像融合减少伪影和重叠。但是这些方法的往往需要复杂的处理手段,而且模型处理速度极慢。
随着硬件性能和深度学习技术的发展,深度学习技术在对图像高层语义表现出了强悍的理解力和感知力,很多基于深度学习的方法也被应用于虚拟视图合成。但是直接使用现有的深度学习进行空洞填补会导致修复后图像出现局部色差和模糊现象。
因此,为了提高虚拟视点图像的质量并针对传统和深度学习方法存在的问题,亟需设计一种虚拟视点合成方法、系统。
通过上述分析,现有技术存在的问题及缺陷为:(1)现有的传统空洞填补算法缺少对图像细节的语义感知。(2)使用现有的部分卷积网络进行空洞填补会导致修复后图像出现局部色差和模糊现象。(3)现有的重叠、伪影去除方法一方面会消耗较多的存储资源,另一方面存在一定局限性,具体实施起来相对复杂。
发明内容
针对现有技术存在的问题,本发明提供了一种虚拟视点合成方法、系统、介质、设备及终端,尤其涉及一种基于两阶段修复模型的虚拟视点合成方法、系统、介质、设备及终端。
本发明是这样实现的,一种虚拟视点合成方法,所述虚拟视点合成方法包括两个相互独立的阶段:
第一阶段由空洞填补模块多尺度融合部分卷积组成,用于对不规则空洞进行修复;第二阶段由图像优化模块组成,用于去除虚拟视图中的重叠、伪影和部分卷积带来的局部色差。
进一步,所述虚拟视点合成方法包括以下步骤:
步骤一,通过参考色彩图及深度图经3D-Warping合成虚拟视图;
步骤二,将带有空洞、伪影和重叠的虚拟视图经空洞填补模块空洞填补;
步骤三,将填补空洞后的图像经图像优化模块进行图像质量的整体优化,输出虚拟视图。
进一步,所述步骤一中的虚拟视图合成包括:
虚拟视图的生成的核心是三维图像变换3D-Warping,包括反向投影和重投影,利用已知参考视图的深度信息将色彩图像逆投影到3D世界坐标系中,并将世界坐标中的点重投影到虚拟视点平面。
3D-Warping的方程表示如以下公式所示:
Pw=(KrRr)-1(drpr+Krtr);
dvpv=KvRvPw-Kvtv
其中,Pw=(Xw,Yw,Zw)T表示3D世界坐标中像素点的坐标;pr=(ur,vr)和pv=(uv,vv)分别表示参考视点平面和虚拟视点平面的坐标;Kr、Rr、tr和Kv、Rv、tv分别表示参考视点对应摄像机和虚拟视点对应摄像机)的内参矩阵、旋转矩阵和平移矩阵。dr和dv分别代表参考视点和虚拟视点在pr和pv坐标对应的深度值。
进一步,所述步骤二中的空洞填补网络模块包括编码、解码器和多尺度融合两个部分。
编码、解码器使用类U-Net的网络结构并以PConv作为网络中的卷积方式,PConv的运算表示如下式所示:
Figure BDA0003575768950000031
其中,W是卷积的权重,b是卷积的偏差,X是当前卷积窗口的特征值,M是当前的二进制掩码,1是大小与M相同,元素全为1的矩阵。
每次PConv的输出值均取决于输入的有效像素值,掩码在每次PConv操作后更新,掩码自动更新机制如下式所示:
Figure BDA0003575768950000032
其中,编码器共采用7层部分卷积层,除第一层使用多尺度部分卷积外,均采用基本PConv,基本PConv的内核大小分别为5、5、3、3、3、3,通道数分别为128,256,512,512,512,512,步长大小均为2;解码器共含有7个上采样层,每层的扩张系数为2,解码器中PConv的内核大小均为3,通道数分别为512,512,512,256,128,64,3,步长大小均为1;编码器和解码器分别使用ReLU和Leaky ReLU作为激活函数,除去编码器的第一层和解码器的最后一层外,每个PConv和激活函数之间使用批量归一化层BN;同时在对应深度的编码器和解码器间加入跳跃连接以定位上采样的特征。
利用多尺度卷积融合提取和表示多尺度特征,多尺度融合是将浅层的低级特征信息与编码器的深层信息融合,编码器的第一个卷积由卷积核大小分别为3、5、7的多尺度卷积构成;将多个卷积核卷积得到的特征图拼接形成包含更多特征信息的特征图后,通过与深层特征连接将浅层细节信息传输到网络深层。
进一步,所述步骤三中的图像优化模块基于残差,包括编码、解码器和残差连接两部分。
其中,编码、解码器采用类U-Net的网络结构,编码器有5层特征提取层,每个特征提取层由3个内核大小为3、步长为1的卷积组成,并且每个特征提取层中卷积通道数相同,分别为32、64、128、256、512,编码器中除最后一个特征提取层外,每层采用内核大小为2的最大池化操作进行下采样;解码器含有5层卷积块,前4层同样由3个内核大小为3、步长为1的卷积组成,最后一层图像重构层由单卷积组成,各层卷积的通道数相同分别为256、128、64、32、3;编码器和解码器的激活函数均为Leaky ReLU,并且每个卷积和激活函数之间使用BN进行归一化处理,并将输入的特征图通过残差连接与最后一层网络相连。
进一步,所述虚拟视点合成方法还包括根据空洞填补和图像优化任务目的各设计损失函数。
(1)空洞填补模块的加权损失函数定义如下式所示,由感知损失、风格损失、像素重建损失和总变差作为平滑惩罚项。
Figure BDA0003575768950000041
其中,在定义感知损失和风格损失时,引入在ImageNet上预训练的VGG-16网络的pool-1、pool-2和pool-3层来提取特征。
感知损失的定义如下式所示:
Figure BDA0003575768950000042
其中,Iout为修复结果图像;Igt为真实图像;Icomp表示非空洞区域的真实图像加上空洞区域的修复图像;p表示从VGG-16中选择的层数,层数取3;Icomp表示给定图像在VGG-16的第p层的激活值;
Figure BDA0003575768950000043
表示的是
Figure BDA0003575768950000044
元素的个数,用作归一化因子。
风格损失使用VGG-16提取特征,定义如以下公式所示:
Figure BDA0003575768950000045
其中Kp表示第p层的归一化因子,值通常为1/CpHpWp,(Cp,Hp,Wp)表示
Figure BDA0003575768950000051
的尺寸。
像素重建损失由空洞区域损失和非空洞区域损失组成,定义分别如下:
Figure BDA0003575768950000052
Figure BDA0003575768950000053
其中,
Figure BDA0003575768950000054
表示真实图像中元素的个数,M为二进制掩码。
最后一项为总变差损失,用于保证图像的平滑性,定义如下式所示:
Figure BDA0003575768950000055
其中,R为空洞区域,i和j表示空洞区域的坐标位置。
(2)图像优化模块用于在保证去除图像中重叠、伪影和部分卷积带来的局部色差合理性的同时,最大化保留图像整体的真实性;使用MSE损失作为损失函数,定义如下式所示:
Figure BDA0003575768950000056
其中,N表示每个batch训练的样本总数,
Figure BDA0003575768950000057
Figure BDA0003575768950000058
分别表示该批次第i个优化后图像和真实图像。
本发明的另一目的在于提供一种应用所述的虚拟视点合成方法的虚拟视点合成系统,所述虚拟视点合成系统包括:
虚拟视图合成模块,用于通过参考色彩图及深度图经3D-Warping合成虚拟视图;
空洞填补模块,用于将带有空洞、伪影和重叠的虚拟视图进行空洞填补;
图像优化模块,用于将填补空洞后的图像进行图像质量的整体优化,输出虚拟视图。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
通过参考色彩图及深度图经3D-Warping合成虚拟视图;将带有空洞、伪影和重叠的虚拟视图经空洞填补模块空洞填补;将填补空洞后的图像经图像优化模块进行图像质量的整体优化,输出虚拟视图。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
通过参考色彩图及深度图经3D-Warping合成虚拟视图;将带有空洞、伪影和重叠的虚拟视图经空洞填补模块空洞填补;将填补空洞后的图像经图像优化模块进行图像质量的整体优化,输出虚拟视图。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的虚拟视点合成系统。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
本发明提出了基于两阶段修复的虚拟视点修复方法,由两个相互独立的网络模块组成;首先第一阶段由空洞填补模块多尺度融合部分卷积组成,用于对不规则空洞进行修复;其次第二阶段由图像优化模块组成,用于去除虚拟视图中的重叠、伪影和部分卷积带来的局部色差。
针对虚拟视点合成后图像存在的空洞、重叠和伪影等问题,本发明提出了一种基于空洞填补和质量优化两阶段的虚拟视点修复模型。本发明模型的第一阶段是在单尺度部分卷积的基础上提出了多尺度融合的部分卷积,更好地联系了上下文信息,增强了模型细节修复能力。同时,本发明在空洞填补后由于部分卷积自身的局限会残留局部色差,使用第二阶段图像质量优化网络去除图像重叠和伪影问题的同时,也可以有效解决部分卷积带来的局部色差,使优化后的图像整体质量提高。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
与现有经典虚拟视点合成修复算法Criminisi技术相比,本发明修复后的虚拟视点图像在保证原有纹理信息的前提下,能准确地处理图像中的空洞、重叠、伪影等问题,用于三维视频显示可以大大降低资源传输成本。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
本发明的技术方案填补了国内外业内技术空白:
1)提出了基于深度学习的两阶段虚拟视点修复模型,一阶段使用部分卷积可以有效地处理带有不规则空洞的虚拟视点图像;相较于现有的重叠和伪影去除方式,二阶段使用端到端的图像优化模块实现了更为快捷、简便、高效地重叠和伪影去除;同时,二阶段可以优化阶段一中部分卷积产生的局部色差,两个网络相互协作,提高了修复后图像的视觉效果。
2)改进了部分卷积网络结构,通过多尺度特征融合的方式学习不同感受野的图像纹理特征,加强了语义特征的传播,使得浅层信息与深层信息更好融合,生成的图像更具有语义合理性;改进了图像优化模块,通过残差连接减少网络训练梯度消失问题,使得训练时更加稳定高效。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的虚拟视点合成方法流程图;
图2是本发明实施例提供的虚拟视点合成方法原理图;
图3是本发明实施例提供的虚拟视点合成系统结构框图;
图4是本发明实施例提供的虚拟视图合成方法原理图;
图5(a)是本发明实施例提供的空洞填补网络模块示意图;
图5(b)是本发明实施例提供的多尺度融合结构示意图;
图6是本发明实施例提供的图像优化模块网络框架示意图;
图7是本发明实施例提供的实验主观对比结果1示意图;
图8是本发明实施例提供的实验主观对比结果2示意图;
图9是本发明实施例提供的实验主观对比结果3示意图;
图中:1、虚拟视图合成模块;2、空洞填补模块;3、图像优化模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种虚拟视点合成方法、系统、介质、设备及终端,下面结合附图对本发明作详细的描述。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
为了提高虚拟视点图像的质量并针对传统和深度学习方法存在的问题,本发明提出了基于两阶段修复的虚拟视点修复方法,由两个相互独立的网络模块组成。首先第一阶段由空洞填补模块多尺度融合部分卷积组成,用于对不规则空洞进行修复。其次第二阶段由图像优化模块组成,用于去除虚拟视图中的重叠、伪影和部分卷积带来的局部色差。
如图1所示,本发明实施例提供的虚拟视点合成方法包括以下步骤:
S101,通过参考色彩图及深度图经3D-Warping合成虚拟视图;
S102,将带有空洞、伪影和重叠的虚拟视图经空洞填补模块空洞填补;
S103,将填补空洞后的图像经图像优化模块进行图像质量的整体优化,输出虚拟视图。
本发明实施例提供的虚拟视点合成方法原理图如图2所示。
如图3所示,本发明实施例提供的虚拟视点合成系统包括:
虚拟视图合成模块1,用于通过参考色彩图及深度图经3D-Warping合成虚拟视图;
空洞填补模块2,用于将带有空洞、伪影和重叠的虚拟视图进行空洞填补;
图像优化模块3,用于将填补空洞后的图像进行图像质量的整体优化,输出虚拟视图。
1、发明概述
本发明所提及的虚拟视点合成及修复流程如图2所示,共包括三个过程:(1)通过参考色彩图及其深度图经3D-Warping合成虚拟视图;(2)带有空洞、伪影和重叠的虚拟视图经空洞填补模块空洞填补;(3)将填补空洞后的图像经图像优化模块进行图像质量的整体优化,输出虚拟视图。
2、发明内容
2.1虚拟视图合成
虚拟视图的生成的主要步骤是三维图像变换(3D Image Warping,3D-Warping),其原理如图4所示,主要包含两个步骤:反向投影和重投影。先利用已知参考视图的深度信息将色彩图像逆投影到3D世界坐标系中,然后将世界坐标中的点重投影到虚拟视点平面。
3D-Warping的方程表示如公式(1)、(2)所示:
Pw=(KrRr)-1(drpr+Krtr) (1)
dvpv=KvRvPw-Kvtv (2)
其中,Pw=(Xw,Yw,Zw)T表示3D世界坐标中像素点的坐标;pr=(ur,vr)和pv=(uv,vv)分别表示参考视点平面和虚拟视点平面的坐标;Kr、Rr、tr和Kv、Rv、tv分别表示参考视点对应摄像机和虚拟视点对应摄像机)的内参矩阵、旋转矩阵和平移矩阵。dr和dv分别代表参考视点和虚拟视点在pr和pv坐标对应的深度值。
2.2空洞填补模块
本发明提出的空洞填补网络模块如图5(a)所示,包含编码、解码器和多尺度融合两个部分。
编码、解码器使用了类U-Net的网络结构并以Liu等人提出的PConv作为网络中的卷积方式,PConv的运算表示如式(3)所示:
Figure BDA0003575768950000101
其中,W是卷积的权重,b是卷积的偏差,X是当前卷积(滑动)窗口的特征值(像素值),M是当前的二进制掩码,1是大小与M相同,元素全为1的矩阵。由式(1)可知,每次PConv的输出值均取决于输入的有效像素值,掩码在每次PConv操作后更新,掩码自动更新机制如式(4)所示:
Figure BDA0003575768950000102
编码器共采用7层部分卷积层,除第一层使用多尺度部分卷积外,均采用基本PConv,其中基本PConv的内核大小分别为5、5、3、3、3、3,通道数分别为128,256,512,512,512,512,步长大小均为2。解码器共含有7个上采样层,每层的扩张系数为2,解码器中PConv的内核大小均为3,通道数分别为512,512,512,256,128,64,3,步长大小均为1。编码器和解码器分别使用ReLU和Leaky ReLU作为激活函数,除去编码器的第一层和解码器的最后一层外,每个PConv和激活函数之间使用批量归一化层(BatchNormalization,BN)。同时,在对应深度的编码器和解码器间加入跳跃连接以定位上采样的特征。
尽管PConv可以有效地填补不规则空洞,但是现有的PConv采用的单尺度卷积在处理虚拟视图中的空洞时无法精准的提取多尺度对象的特征。这是因为空洞出现的位置往往是前景边缘和背景交汇时纹理复杂的区域,因此使用多尺度卷积融合对于提取和表示这些多尺度特征至关重要。
多尺度融合结构如图5(b)所示,其核心思想是将浅层的低级特征信息与编码器的深层信息融合,其中编码器的第一个卷积由卷积核大小分别为3、5、7的多尺度卷积构成,然后将多个卷积核卷积得到的特征图拼接起来,形成包含更多特征信息的特征图,最后通过与深层特征连接,将浅层细节信息传输到网络深层。
2.3图像优化模块
在经过空洞填补后图像仍存在重叠、伪影等问题,为了进一步优化图像质量,本发明提出基于残差的图像优化模块,其结构如图6所示,包括编码、解码器和残差连接两部分。
编码、解码器采用了类U-Net的网络结构,其中编码器有5层特征提取层,每个特征提取层由3个内核大小为3、步长为1的卷积组成,并且每个特征提取层中卷积通道数相同,分别为32、64、128、256、512,编码器中除最后一个特征提取层外,每层采用内核大小为2的最大池化操作进行下采样。解码器含有5层卷积块,前4层同样由3个内核大小为3、步长为1的卷积组成,最后一层图像重构层由单卷积组成,各层卷积的通道数相同分别为256、128、64、32、3。编码器和解码器的激活函数均为Leaky ReLU,并且每个卷积和激活函数之间使用BN进行归一化处理。
在深度学习中,随着网络深度的增加,伴随着更多的参数,往往会出现梯度消失、梯度爆炸甚至网络退化的问题,为了解决这些问题,He等通过使用残差网络(ResNet)将底层网络的信息传递给高层网络来缓解网络退化等问题。本发明也借鉴了这种方法,对于图像优化任务来说,网络浅层的特征信息尤为重要,为了充分利用浅层信息,将输入的特征图通过残差连接与最后一层网络相连,一方面可以解决网络退化等问题,另一方也保留了更多图像细节,提升网络效果。
2.4损失函数
对于深度学习而言,损失函数的设计取决于任务的目标,因此本发明根据空洞填补和图像优化任务目的各设计了一种损失函数。
2.4.1空洞填补模块
空洞填补模块的目的是:更好地恢复空洞内容以及保持预测内容与周围信息的一致性和连续性。空洞填补模块的加权损失函数定义如式(5)所示,由感知损失、风格损失、像素重建损失和总变差作为平滑惩罚项。
Figure BDA0003575768950000121
其中为了更好的获取高级特征,在定义感知损失和风格损失时,引入在ImageNet上预训练的VGG-16网络的pool-1、pool-2和pool-3层来提取特征。
感知损失的定义如式(6)所示:
Figure BDA0003575768950000122
式中Iout为修复结果图像,Igt为真实图像,Icomp表示非空洞区域的真实图像加上空洞区域的修复图像,p表示从VGG-16中选择的层数,这里取3,
Figure BDA0003575768950000123
表示给定图像I*在VGG-16的第p层的激活值,
Figure BDA0003575768950000124
表示的是
Figure BDA0003575768950000125
元素的个数,用作归一化因子。
风格损失与感知损失类似,也使用VGG-16来提取特征,其定义如公式(7)所示:
Figure BDA0003575768950000126
表式中Kp表示第p层的归一化因子,其值通常为1/CpHpWp,(Cp,Hp,Wp)表示
Figure BDA0003575768950000127
的尺寸。
像素重建损失由空洞区域损失和非空洞区域损失组成,其定义分别如式(8)、(9)所示:
Figure BDA0003575768950000131
Figure BDA0003575768950000132
式中
Figure BDA0003575768950000133
表示真实图像中元素的个数,M为二进制掩码。
最后一项为总变差损失,使用该损失函数的目的是为了保证图像的平滑性,其定义如式(10)所示:
Figure BDA0003575768950000134
其中R为空洞区域,i和j表示该空洞区域的坐标位置。
2.4.2图像优化模块
图像优化模块的目的是:在保证去除图像中重叠、伪影和部分卷积带来的局部色差合理性的同时,最大化保留图像整体的真实性。使用MSE损失作为损失函数,其定义如式(11)所示:
Figure BDA0003575768950000135
式中N表示每个训练批次的样本总数,
Figure BDA0003575768950000136
Figure BDA0003575768950000137
分别表示该批次第i个优化后图像和真实图像。
3、总结
本发明针对虚拟视点合成后图像存在的空洞、重叠和伪影等问题,提出一种基于空洞填补和质量优化两阶段的虚拟视点修复模型。该模型的第一阶段是在单尺度部分卷积的基础上提出了多尺度融合的部分卷积,更好地联系了上下文信息,增强了模型细节修复能力。在空洞填补后由于部分卷积自身的局限会残留局部色差,使用第二阶段图像质量优化网络去除图像重叠和伪影问题的同时,也可以有效解决部分卷积带来的局部色差,使优化后的图像整体质量提高。
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用的应用实施例。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
1.实验过程
实验分为两个阶段:首先,使用公式(5)的损失函数训练空洞填补网络,batch_size设置为8,以0.0002的学习率迭代100轮,共183800次。然后将合成的虚拟视图经训练好的空洞填补网络修复。最后,将空洞填补后的图像作为输入,图像原图作为标签,使用公式(11)的损失函数训练图像优化网络,batch_size设置为16,以0.0002的学习率迭代100轮,共114400次。
2.实验分析
2.1主观比较
为了验证实验在虚拟视点合成修复上的有效性,本发明选取经典的Criminisi算法和Liu等人提出的PConv方法进行分析比较,二者均是对虚拟视点修复流行且有效的方法。
下列图7~图9中,(a)表示生成虚拟视图的局部放大图,(b)、(c)、(d)表示经Criminisi算法、PConv方法和本发明提出的空洞填补网络处理后得到的图像,(e)表示经图像优化网络处理得到的图像,(f)表示为原始图像。
由图7(a)看出,图像存在手臂下方的背景空洞和手臂右方的参考视图手臂伪影。Criminisi算法修复空洞部分后产生了明显误匹配,导致修复结果视觉上的不自然,这是因为Criminisi算法未对缺失部分的信息进行具体分析,误把手臂像素计算优先级高于背景像素所致的纹理错误延伸。PConv方法的修复结果整体相对合理,但和本发明提出的空洞填补网络修复结果相比在手臂边缘仍存在边缘模糊的现象,而本发明提出的空洞填补算法在修复后能够保持边缘平滑。另外,图像在经过图像优化网络后手臂右方的伪影也得到有效去除。
由图8(a)看出,图像存在空洞以及人物手臂和服装上的背景重叠,本发明的空洞修复网络相较于PCon方法进一步细化了纹理细节,但修复后手臂边缘带有轻微的模糊现象以及背景存有局部色差现象。在经过本发明的图像优化网络后,模糊和局部色差现象得到了明显改善,如图8(e)所示,同时手掌边缘的重叠现象也被合理去除,大幅度增强了图像的整体质量。
由图9(a)可以看出,因为像素点在投影后的位置并非都为整数,所以导致合成的图像在纹理边缘会出现“锯齿”现象,这种在现象在图9(a)只有单一线条纹理的窗帘表现尤为明显。在经过本发明的图像优化网络后,“锯齿”现象得到了优化,人体及围栏边缘更平滑、清晰,窗帘线条更连续,与真实视点图像更加接近。
2.2客观比较
为了正确的给出本发明算法的客观评价,本发明采用结构相似性(structuralsimilarity,SSIM)和峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)来分别评估修复图像与参考图像整体结构相似度和像素级差异,二者越大表示相似度越高、差异越小。
如表1所示,本发明选取cam6摄像机的100张图像作为参考图像,再合成对应的虚视视图后通过Criminisi,PConv和本发明提出的空洞填补和质量优化网络分别进行修复,最后计算修复后图像与参考图像的SSIM和PSNR平均值。ΔSSIM和ΔPSNR分别表示其他算法与本发明算法最终输出的SSIM和PSNR的差值。
对比表1实验结果可知,本发明提出空洞填补网络和质量优化网络在SSIM和PSNR指标上均优于对比算法,表明使用多尺度部分卷积可以有效改善网络空洞填补能力,质量优化网络的使用也进一步的增强图像质量。
表1不同算法的平均SSIM和PSNR对比
Figure BDA0003575768950000161
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种虚拟视点合成方法,其特征在于,所述虚拟视点合成方法包括两个相互独立的阶段:
第一阶段由空洞填补模块多尺度融合部分卷积组成,用于对不规则空洞进行修复;第二阶段由图像优化模块组成,用于去除虚拟视图中的重叠、伪影和部分卷积带来的局部色差。
2.如权利要求1所述的虚拟视点合成方法,其特征在于,所述虚拟视点合成方法包括以下步骤:
步骤一,通过参考色彩图及深度图经3D-Warping合成虚拟视图;
步骤二,将带有空洞、伪影和重叠的虚拟视图经空洞填补模块空洞填补;
步骤三,将填补空洞后的图像经图像优化模块进行图像质量的整体优化,输出虚拟视图。
3.如权利要求2所述的虚拟视点合成方法,其特征在于,所述步骤一中的虚拟视图合成包括:
虚拟视图的生成的核心是三维图像变换3D-Warping,包括反向投影和重投影,利用已知参考视图的深度信息将色彩图像逆投影到3D世界坐标系中,并将世界坐标中的点重投影到虚拟视点平面;
3D-Warping的方程表示如以下公式所示:
Pw=(KrRr)-1(drpr+Krtr);
dvpv=KvRvPw-Kvtv
其中,Pw=(Xw,Yw,Zw)T表示3D世界坐标中像素点的坐标;pr=(ur,vr)和pv=(uv,vv)分别表示参考视点平面和虚拟视点平面的坐标;Kr、Rr、tr和Kv、Rv、tv分别表示参考视点对应摄像机和虚拟视点对应摄像机)的内参矩阵、旋转矩阵和平移矩阵。dr和dv分别代表参考视点和虚拟视点在pr和pv坐标对应的深度值。
4.如权利要求2所述的虚拟视点合成方法,其特征在于,所述步骤二中的空洞填补网络模块包括编码、解码器和多尺度融合两个部分;
编码、解码器使用类U-Net的网络结构并以PConv作为网络中的卷积方式,PConv的运算表示如下式所示:
Figure FDA0003575768940000021
其中,W是卷积的权重,b是卷积的偏差,X是当前卷积窗口的特征值,M是当前的二进制掩码,1是大小与M相同,元素全为1的矩阵;
每次PConv的输出值均取决于输入的有效像素值,掩码在每次PConv操作后更新,掩码自动更新机制如下式所示:
Figure FDA0003575768940000022
其中,编码器共采用7层部分卷积层,除第一层使用多尺度部分卷积外,均采用基本PConv,基本PConv的内核大小分别为5、5、3、3、3、3,通道数分别为128,256,512,512,512,512,步长大小均为2;解码器共含有7个上采样层,每层的扩张系数为2,解码器中PConv的内核大小均为3,通道数分别为512,512,512,256,128,64,3,步长大小均为1;编码器和解码器分别使用ReLU和Leaky ReLU作为激活函数,除去编码器的第一层和解码器的最后一层外,每个PConv和激活函数之间使用批量归一化层BN;同时在对应深度的编码器和解码器间加入跳跃连接以定位上采样的特征;
利用多尺度卷积融合提取和表示多尺度特征,多尺度融合是将浅层的低级特征信息与编码器的深层信息融合,编码器的第一个卷积由卷积核大小分别为3、5、7的多尺度卷积构成;将多个卷积核卷积得到的特征图拼接形成包含更多特征信息的特征图后,通过与深层特征连接将浅层细节信息传输到网络深层。
5.如权利要求2所述的虚拟视点合成方法,其特征在于,所述步骤三中的图像优化模块基于残差,包括编码、解码器和残差连接两部分;
其中,编码、解码器采用类U-Net的网络结构,编码器有5层特征提取层,每个特征提取层由3个内核大小为3、步长为1的卷积组成,并且每个特征提取层中卷积通道数相同,分别为32、64、128、256、512,编码器中除最后一个特征提取层外,每层采用内核大小为2的最大池化操作进行下采样;解码器含有5层卷积块,前4层同样由3个内核大小为3、步长为1的卷积组成,最后一层图像重构层由单卷积组成,各层卷积的通道数相同分别为256、128、64、32、3;编码器和解码器的激活函数均为Leaky ReLU,并且每个卷积和激活函数之间使用BN进行归一化处理,并将输入的特征图通过残差连接与最后一层网络相连。
6.如权利要求1所述的虚拟视点合成方法,其特征在于,所述虚拟视点合成方法还包括根据空洞填补和图像优化任务目的各设计损失函数;
(1)空洞填补模块的加权损失函数定义如下式所示,由感知损失、风格损失、像素重建损失和总变差作为平滑惩罚项;
Figure FDA0003575768940000031
其中,在定义感知损失和风格损失时,引入在ImageNet上预训练的VGG-16网络的pool-1、pool-2和pool-3层来提取特征;
感知损失的定义如下式所示:
Figure FDA0003575768940000032
式中Iout为修复结果图像,Igt为真实图像,Icomp表示非空洞区域的真实图像加上空洞区域的修复图像,p表示从VGG-16中选择的层数,这里取3,
Figure FDA0003575768940000033
表示给定图像I*在VGG-16的第p层的激活值,
Figure FDA0003575768940000034
表示的是
Figure FDA0003575768940000035
元素的个数,用作归一化因子;
风格损失使用VGG-16提取特征,定义如以下公式所示:
Figure FDA0003575768940000036
表式中Kp表示第p层的归一化因子,其值通常为1/CpHpWp,(Cp,Hp,Wp)表示
Figure FDA0003575768940000037
的尺寸;
像素重建损失由空洞区域损失和非空洞区域损失组成,定义分别如下:
Figure FDA0003575768940000041
Figure FDA0003575768940000042
其中,
Figure FDA0003575768940000043
表示真实图像中元素的个数,M为二进制掩码;
最后一项为总变差损失,用于保证图像的平滑性,定义如下式所示:
Figure FDA0003575768940000044
其中,R为空洞区域,i和j表示空洞区域的坐标位置;
(2)图像优化模块用于在保证去除图像中重叠、伪影和部分卷积带来的局部色差合理性的同时,最大化保留图像整体的真实性;使用MSE损失作为损失函数,定义如下式所示:
Figure FDA0003575768940000045
其中,式中N表示每个训练批次的样本总数,
Figure FDA0003575768940000046
Figure FDA0003575768940000047
分别表示该批次第i个优化后图像和真实图像。
7.一种应用如权利要求1~6任意一项所述的虚拟视点合成方法的虚拟视点合成系统,其特征在于,所述虚拟视点合成系统包括:
虚拟视图合成模块,用于通过参考色彩图及深度图经3D-Warping合成虚拟视图;
空洞填补模块,用于将带有空洞、伪影和重叠的虚拟视图进行空洞填补;
图像优化模块,用于将填补空洞后的图像进行图像质量的整体优化,输出虚拟视图。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
通过参考色彩图及深度图经3D-Warping合成虚拟视图;将带有空洞、伪影和重叠的虚拟视图经空洞填补模块空洞填补;将填补空洞后的图像经图像优化模块进行图像质量的整体优化,输出虚拟视图。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
通过参考色彩图及深度图经3D-Warping合成虚拟视图;将带有空洞、伪影和重叠的虚拟视图经空洞填补模块空洞填补;将填补空洞后的图像经图像优化模块进行图像质量的整体优化,输出虚拟视图。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述的虚拟视点合成系统。
CN202210332563.5A 2022-03-31 2022-03-31 一种虚拟视点合成方法、系统、介质、设备及终端 Pending CN114677477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210332563.5A CN114677477A (zh) 2022-03-31 2022-03-31 一种虚拟视点合成方法、系统、介质、设备及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210332563.5A CN114677477A (zh) 2022-03-31 2022-03-31 一种虚拟视点合成方法、系统、介质、设备及终端

Publications (1)

Publication Number Publication Date
CN114677477A true CN114677477A (zh) 2022-06-28

Family

ID=82075231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210332563.5A Pending CN114677477A (zh) 2022-03-31 2022-03-31 一种虚拟视点合成方法、系统、介质、设备及终端

Country Status (1)

Country Link
CN (1) CN114677477A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115131409A (zh) * 2022-08-26 2022-09-30 深圳深知未来智能有限公司 一种基于深度学习的亲密矩阵视点合成方法、应用及系统
CN115297316A (zh) * 2022-08-11 2022-11-04 杭州电子科技大学 语境特征融合的虚拟视点合成图像空洞填充方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115297316A (zh) * 2022-08-11 2022-11-04 杭州电子科技大学 语境特征融合的虚拟视点合成图像空洞填充方法
CN115131409A (zh) * 2022-08-26 2022-09-30 深圳深知未来智能有限公司 一种基于深度学习的亲密矩阵视点合成方法、应用及系统

Similar Documents

Publication Publication Date Title
Zheng et al. Ultra-high-definition image dehazing via multi-guided bilateral learning
CN110197229B (zh) 图像处理模型的训练方法、装置及存储介质
CN109462747B (zh) 基于生成对抗网络的dibr系统空洞填充方法
CN111754438B (zh) 基于多分支门控融合的水下图像复原模型及其复原方法
CN108305271B (zh) 一种视频帧图像处理方法和装置
CN114677477A (zh) 一种虚拟视点合成方法、系统、介质、设备及终端
CN112543317B (zh) 高分辨率单目2d视频到双目3d视频的转制方法
Zhao et al. Guided image inpainting: Replacing an image region by pulling content from another image
CN113542651B (zh) 模型训练方法、视频插帧方法及对应装置
CN114463209B (zh) 一种基于深度多特征协同学习的图像修复方法
CN112084859B (zh) 一种基于稠密边界块和注意力机制的建筑物分割方法
US20230177652A1 (en) Image restoration method and apparatus, and electronic device
KR102311796B1 (ko) 지역적 신체영역 정보를 이용한 휴먼 모션 디블러링 방법 및 장치
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
CN111681177A (zh) 视频处理方法及装置、计算机可读存储介质、电子设备
CN112184585A (zh) 一种基于语义边缘融合的图像补全方法及系统
CN112767418A (zh) 基于深度感知的镜子图像分割方法
CN110689495A (zh) 一种深度学习的图像修复方法
CN108537753A (zh) 一种基于上下文特征空间约束的图像修复方法
KR102628115B1 (ko) 영상 처리 방법, 장치, 기록 매체 및 전자 장치
CN112184587A (zh) 一种边缘数据增强模型、以及基于所述模型的高效边缘数据增强方法及系统
CN111681195A (zh) 红外图像和可见光图像的融合方法、装置及可读存储介质
CN116797768A (zh) 全景图像减少现实的方法和装置
CN114881879A (zh) 一种基于亮度补偿残差网络的水下图像增强方法
CN111260585A (zh) 基于类凸集投影算法的图像恢复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination