CN114401391B

CN114401391B - 虚拟视点生成方法及装置

Info

Publication number: CN114401391B
Application number: CN202111501866.7A
Authority: CN
Inventors: 桑新柱; 叶晓倩; 王华春; 齐帅; 郭潇; 徐炜; 张子强; 王葵如; 颜玢玢
Original assignee: Bandu Technology Shenzhen Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Bandu Technology Shenzhen Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2023-01-06
Anticipated expiration: 2041-12-09
Also published as: CN114401391A

Abstract

本申请提供一种虚拟视点生成方法及装置。所述方法包括：根据由各双目相机拍摄的各棋盘格图像确定的单应矩阵，对由各双目相机采集到的多视点目标图像进行单应变换，获取水平多视点图像；将水平多视点图像输入训练好的视差估计模型中，获取视差图像；根据不同位置对应的控制因子对视差图像进行加权，以根据加权后的视差图像和水平多视点图像进行前向映射，生成虚拟视点图像；其中，视差估计模型由各虚拟图像以及密集的真实视差输入全卷积网络进行训练后确定。本申请实施例提供的虚拟视点生成方法可以提高虚拟视点的生成效率。

Description

虚拟视点生成方法及装置

技术领域

本申请涉及图像处理技术领域，具体涉及一种虚拟视点生成方法及装置。

背景技术

真实世界是三维的，但目前主流显示设备依然是二维的。三维显示，特别是裸眼三维显示，收到越来越多的关注。裸眼三维显示需要密集视点图像，而采用双目相机阵列进行密集视点采集存在许多困难，如双目相机阵列间的同步调整，双目相机标定和姿态求解，以及数据存储和传输等。因此，在实际应用中，通常使用少量真实双目相机采集稀疏视点，并通过虚拟视点生成方法生成密集视点。

虚拟视点生成是推动三维显示内容发展的关键。相关技术中，可采用DIBR(DepthImage Based Rendering，基于深度图像的虚拟视点渲染)来生成虚拟视点，从而形成密集视点。

然而，由于在生成真实场景的虚拟视点时，需先通过双目相机阵列采集多视点图像，以及获得视差图像，而DIBR在采集多视点图像时，需要对双目相机进行费时的标定和姿态求解来对多视点图像进行极线校正，且DIBR获得视差图像的速度较慢，无法保证实时性，从而导致虚拟视点的生成效率低。

发明内容

本申请实施例提供一种虚拟视点生成方法及装置，提高虚拟视点的生成效率。

第一方面，本申请实施例提供一虚拟视点生成方法，包括：

根据由各双目相机拍摄的各棋盘格图像确定的单应矩阵，对由各双目相机采集到的多视点目标图像进行单应变换，获取水平多视点图像；

将所述水平多视点图像输入训练好的视差估计模型中，获取视差图像；

根据不同位置对应的控制因子对所述视差图像进行加权，以根据加权后的所述视差图像和所述水平多视点图像进行前向映射，生成虚拟视点图像；

其中，所述视差估计模型由各虚拟图像以及密集的真实视差输入全卷积网络进行训练后确定。

在一个实施例中，在根据由各双目相机拍摄的各棋盘格图像确定的单应矩阵，对由各双目相机采集到的多视点目标图像进行单应变换，获取水平多视点图像之前，还包括：

对各双目相机拍摄的各所述棋盘格图像进行角点检测，获取各初始角点像素坐标；

根据各所述初始角点像素坐标中各纵坐标的平均值，对各所述双目相机进行水平校正后，从各所述棋盘格图像中获取水平校正后的各双目相机对应的各矫正角点像素坐标；

根据各所述初始角点像素坐标以及各所述矫正角点像素坐标，确定单应矩阵。

在一个实施例中，所述多视点目标图像由各所述双目相机采集到的各初始视点图像根据各双目相机的畸变参数进行畸变校正后得到。

在一实施例中，所述视差估计模型由各虚拟训练图像以及密集的真实视差输入全卷积网络进行预训练，获取初始视差估计模型后，将带有稀疏视差标注的各真实图像输入初始视差估计模型进行二次训练后确定。

在一实施例中，根据不同位置对应的控制因子对所述视差图像进行加权，以根据加权后的所述视差图像和所述水平多视点图像进行前向映射，生成虚拟视点图像，包括：

根据不同位置对应的控制因子对所述视差图像进行加权，以根据加权后的所述视差图像进行前向映射，获取初始虚拟视点图像；

对所述初始虚拟视点图像进行空洞填充，生成虚拟视点图像。

在一实施例中，所述对所述初始虚拟视点图像进行空洞填充，生成虚拟视点图像，包括：

获取所述初始虚拟视点图像的左图和右图中空洞面积大于预设面积的第一空洞位置；

根据左图的第一空洞位置，从所述右图中获取与所述左图的空洞位置对应的像素填充至所述左图的第一空洞位置，生成所述虚拟视点图像。

在一实施例中，还包括：

对所述初始虚拟视点图像中面积小于或等于所述预设面积的第二空洞位置通过闭操作进行空洞填充。

第二方面，本申请实施例提供一种虚拟视点生成装置，包括：

多视点图像获取模块，用于根据由各双目相机拍摄的各棋盘格图像确定的单应矩阵，对由各双目相机采集到的多视点目标图像进行单应变换，获取水平多视点图像；

视差图像获取模块，用于将所述水平多视点图像输入训练好的视差估计模型中，获取视差图像；

虚拟视点图像生成模块，用于根据不同位置对应的控制因子对所述视差图像进行加权，以根据加权后的所述视差图像和所述水平多视点图像进行前向映射，生成虚拟视点图像；

第三方面，本申请实施例提供一种电子设备，包括处理器和存储有计算机程序的存储器，所述处理器执行所述程序时实现第一方面所述的虚拟视点生成方法的步骤。

第四方面，本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现第一方面所述的虚拟视点生成方法的步骤。

本申请实施例提供的虚拟视点生成方法及装置，通过各双目相机拍摄的各棋盘格图像确定的单应矩阵，对多视点目标图像进行单应变换，并将水平多视点图像输入训练好的视差估计模型中，获取视差图像后，基于不同位置的控制因子对视差图像进行加权后，将视差图像进行前向映射以生成虚拟视点图像，从而可借助由棋盘格图像确定的单应矩阵来进行多视点图像的水平校正，无需通过复杂的双目相机标定和姿态求解来进行极线校正以实现多视点图像的水平校正，且可通过训练好的视差估计模型快速准确地获取视差图像，从而根据获取到的视差图像生成虚拟视点图像，从而提高虚拟视点生成的实时性和质量，进而提高虚拟视点的生成效率。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的虚拟视点生成方法的流程示意图；

图2是本申请实施例提供的棋盘格示意图；

图3是本申请实施例提供的虚拟视点生成装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图；

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了更好地理解方案，对本发明实施例涉及的专业术语进行解释。

视差，是场景中3D点在双目相机拍摄的两张双目图像中，左右图像上投影位置的像素级差距；

立体匹配，是根据校准后的双目相机拍摄的两张双目图像，计算表示参考图像(通常为左图)每个像素对应视差值的过程；

前向映射，是一种虚拟视点生成技术，它使用一幅参考图像和其相对的视差图像生成目标图像，该技术生成的图像在遮挡区域容易出现空洞；

视点，是3D场景在某一双目相机姿态下捕获的2D图像；

虚拟视点，不通过双目相机采集获得，具体可以是在真实世界中放置虚拟双目相机采集的视点图像。

下面结合附图对本申请实施例进行详细的阐述。

参见图1，是本发明实施例提供的虚拟视点生成方法的流程示意图之一，该方法应用于服务器中，用于生成虚拟视点。如图1所示，本实施例提供的一种虚拟视点生成方法包括：

步骤101，根据由各双目相机拍摄的各棋盘格图像确定的单应矩阵，对由各双目相机采集到的多视点目标图像进行单应变换，获取水平多视点图像；

步骤102，将所述水平多视点图像输入训练好的视差估计模型中，获取视差图像；

步骤103，根据不同位置对应的控制因子对所述视差图像进行加权，以根据加权后的所述视差图像和所述水平多视点图像进行前向映射，生成虚拟视点图像；

通过各双目相机拍摄的各棋盘格图像确定的单应矩阵，对多视点目标图像进行单应变换，并将水平多视点图像输入训练好的视差估计模型中，获取视差图像后，基于不同位置的控制因子对视差图像进行加权后，将视差图像进行前向映射以生成虚拟视点图像，从而可借助由棋盘格图像确定的单应矩阵来进行多视点图像的水平校正，无需通过复杂的双目相机标定和姿态求解来进行极线校正以实现多视点图像的水平校正，且可通过训练好的视差估计模型快速准确地获取视差图像，从而根据获取到的视差图像生成虚拟视点图像，从而提高虚拟视点生成的实时性和质量，进而提高虚拟视点的生成效率。

在步骤101中，可通过检测各棋盘格图像的初始角点像素坐标，然后根据初始角点像素坐标对多个双目相机进行水平校正，得到各棋盘格图像的矫正角点像素坐标，从而根据初始角点像素坐标和矫正角点像素坐标，构建方程组，得到单应矩阵。

具体的，对各双目相机拍摄的各所述棋盘格图像进行角点检测，获取各初始角点像素坐标；

在一实施例中，对双目相机阵列中每个双目相机拍摄的棋盘格图像进行角点检测，角点检测时可仅检测最外侧4个角点的像素位置C_LT(X_LT，Y_LT)，C_LD(X_LD，Y_LD)，C_RT(X_RT，Y_RT)，C_RD(X_RD，Y_RD)，得到4个初始角点像素坐标，如图2所示。然后对4个初始角点像素坐标中的每个初始角点像素坐标，获取各初始角点像素坐标的纵坐标，即Y坐标求平均值，得到4个Y坐标的平均值

从而根据4个Y坐标的平均值

对多个双目相机进行水平校正，使Y坐标一致。水平校正后，每个双目相机的棋盘格图像对应的4个角点像素坐标位置为：

从而得到X轴坐标保持不变，Y坐标为4个初始角点像素坐标的Y坐标的平均值的4个矫正角点像素坐标。

在得到各初始角点像素坐标和各矫正角点像素坐标后，可以用opencv库中的getPerspectiveTransform函数直接求解单应矩阵H。

在一实施例中，在得到单应矩阵后，根据单应矩阵，对多视点目标图像进行单应变换，使得校正后的多视点图像极线保持在同一水平线上，从而得到水平多视点图像。

通过获取各双目相机的棋盘格图像的初始角点像素坐标后，计算初始角点像素坐标中各纵坐标的平均值，然后根据各纵坐标的平均值和初始角点像素坐标中的横坐标，形成对应的各矫正角点像素坐标，以根据各初始角点像素坐标和各矫正角点像素坐标来确定单应矩阵，从而无需对双目相机进行复杂的内外参数标定即可快速确定单应矩阵，进而提高后续获得水平多视点图像的效率。

为使获取到的水平多视点图像更为准确，在一实施例中，所述多视点目标图像由各所述双目相机采集到的各初始视点图像根据各双目相机的畸变参数进行畸变校正后得到。

在一实施例中，在根据单应矩阵对多视点目标图像进行单应变换之前，可预先将双目相机阵列中的每个双目相机，基于该双目相机采集的棋盘格图像，利用opencv库进行对应的畸变参数求解，得到于各双目相机一一对应的各畸变参数。其中，畸变参数包括径向畸变和切向畸变，畸变公式如下所示：

径向畸变：

x_d＝x(1+k₁r²+k₂r⁴+k₃r⁶) (1)

y_d＝y(1+k₁r²+k₂r⁴+k₃r⁶) (2)

切向畸变：

x_d＝x+(2p₁xy+p₂(r²+2x²)) (3)

y_d＝y+(2p₂xy+p₂(r²+2y²)) (4)

其中，(x_d，y_d)为双目相机拍摄到的初始视点图像上的畸变点，(x，y)是畸变矫正后新的位置，r²＝x²+y²。(k₁，k₂，p₁，p₂，k₃)为求得的畸变参数。通过上述畸变公式，可以双目相机的畸变参数，从而根据该双目相机的畸变参数，对该双目相机拍摄到的初始视点图像进行畸变校正。在将所有双目相机的初始视点图像根据对应的畸变参数进行畸变校正后，即可得到多视点目标图像。

通过对各双目相机拍摄到的初始视点图像进行畸变校正，得到多视点目标图像，从而避免后续将多视点目标图像进行单应变换时，由于多视点目标图像存在畸变导致得到的水平多视点图像的质量差，消除水平多视点图像可能存在的畸变，进而提高水平多视点图像的质量，以提高后续根据水平多视点图像生成的虚拟视点图像的准确度。

在步骤102中，在获取水平多视点图像后，将水平多视点图像输入由虚拟数据集训练后得到的视差估计模型中进行立体匹配，以得到视差图像。其中，虚拟数据集包括大量虚拟训练图像以及密集的真实视差。

通过大量虚拟图像以及密集的真实视差来进行视差估计模型的训练，可以防止网络过拟合。

在一实施例中，视差估计模型可以是由虚拟数据集输入全卷积网络后训练得到。为了提高视差估计的泛化性，可采用超像素引导视差优化网络进行视差估计，从而在一定程度提高真实场景下视差估计的泛化性。

具体的，所述视差估计模型由各虚拟训练图像以及密集的真实视差输入全卷积网络进行预训练，获取初始视差估计模型后，将带有稀疏视差标注的各真实图像输入初始视差估计模型进行二次训练后确定。

示例性的，对于视差估计模型的训练，可先将虚拟数据集中大量的虚拟训练图像以及密集的真实视差输入全卷积网络进行预训练，获取初始视差估计模型。而由于虚拟数据集缺少真实场景的光照变化等，因此为提高视差估计的泛化性，可使用KITTI、ETH3D、和MiddleburyV3三个真实数据集对初始视差估计模型进行微调，即将真实数据集中带有稀疏视差标注的各真实图像输入初始视差估计模型进行二次训练，从而得到视差估计模型。其中，各真实图像可以是少量的真实图像。

在一实施例中，在完成视差估计模型的训练后，即可将水平多视点图像输入到训练好的视差估计模型中进行立体匹配，从而进行相邻视点的视差估计，得到视差图像。其中，视差估计可以在GPU上进行，以加速视差图像的预测过程。

在步骤103中，在得到视差图像后，即可通过不同位置的控制因子加权视差图像，并将加权后的视差图像与水平多视点图像进行前向映射，得到不同位置的虚拟视点图像。其中，前向映射过程如下公式所示：

I_l→v＝f(I_l，α·D_l) (5)

其中，α为位置控制因子，取[0，1]；I_l为水平多视点图像，D_l为视差图像f为前向映射过程。通过设置不同α值，可以生成不同位置的虚拟视点。其中，前向映射可以通过多线程进一步加速。

由于遮挡，前向映射得到的虚拟视点图像通常存在空洞，此时为提高虚拟视点图像的质量，可对面积较大的空洞采用双向融合进行填充。具体的，所述对所述初始虚拟视点图像进行空洞填充，生成虚拟视点图像，包括：

在一实施例中，由于在进行前向映射时，参考图像会包括双目相机拍摄的两张双目图像的左图和右图，因此前向映射后得到的初始虚拟视点图像同样包括左图V_l和右图V_r，由于V_l和V_r分别由参考图像中的左图和右图平移得到，空洞方向不一致，因此当存在面积较大的空洞位置时，可以用V_r中对应的像素填充V_l上的空洞位置后，将填充后的V_l作为虚拟视点图像。

在一实施例中，还包括：

在一实施例中，对于初始虚拟视点图像左图中细小的空洞，可通过闭操作直接填充，从而得到虚拟视点图像。

下面对本申请实施例提供的虚拟视点生成装置进行描述，下文描述的虚拟视点生成装置与上文描述的虚拟视点生成方法可相互对应参照。

在一实施例中，如图3所示，提供了一种虚拟视点生成装置，包括：

多视点图像获取模块210，用于根据由各双目相机拍摄的各棋盘格图像确定的单应矩阵，对由各双目相机采集到的多视点目标图像进行单应变换，获取水平多视点图像；

视差图像获取模块220，用于将所述水平多视点图像输入训练好的视差估计模型中，获取视差图像；

虚拟视点图像生成模块230，用于根据不同位置对应的控制因子对所述视差图像进行加权，以根据加权后的所述视差图像和所述水平多视点图像进行前向映射，生成虚拟视点图像；

在一实施例中，多视点图像获取模块210还用于：

在一实施例中，所述多视点目标图像由各所述双目相机采集到的各初始视点图像根据各双目相机的畸变参数进行畸变校正后得到。

在一实施例中，虚拟视点图像生成模块230具体用于：

在一实施例中，虚拟视点图像生成模块230还用于：

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)810、通信接口(Communication Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的计算机程序，以执行虚拟视点生成方法的步骤，例如包括：

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例所提供的虚拟视点生成方法的步骤，例如包括：

另一方面，本申请实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行上述各实施例提供的方法的步骤，例如包括：

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种虚拟视点生成方法，其特征在于，包括：

其中，所述视差估计模型由各虚拟图像以及密集的真实视差输入全卷积网络进行训练后确定；

在根据由各双目相机拍摄的各棋盘格图像确定的单应矩阵，对由各双目相机采集到的多视点目标图像进行单应变换，获取水平多视点图像之前，还包括：

根据各所述初始角点像素坐标以及各所述矫正角点像素坐标，确定单应矩阵；

根据不同位置对应的控制因子对所述视差图像进行加权，以根据加权后的所述视差图像和所述水平多视点图像进行前向映射，生成虚拟视点图像，包括：

根据不同位置对应的控制因子对所述视差图像进行加权，以根据加权后的所述视差图像和所述水平多视点图像进行前向映射，获取初始虚拟视点图像；

对所述初始虚拟视点图像进行空洞填充，生成虚拟视点图像；

所述对所述初始虚拟视点图像进行空洞填充，生成虚拟视点图像，包括：

根据左图的第一空洞位置，从所述右图中获取与所述左图的空洞位置对应的像素填充至所述左图的第一空洞位置，生成所述虚拟视点图像；

2.根据权利要求1所述的虚拟视点生成方法，其特征在于，所述多视点目标图像由各所述双目相机采集到的各初始视点图像根据各双目相机的畸变参数进行畸变校正后得到。

3.根据权利要求1所述的虚拟视点生成方法，其特征在于，所述视差估计模型由各虚拟训练图像以及密集的真实视差输入全卷积网络进行预训练，获取初始视差估计模型后，将带有稀疏视差标注的各真实图像输入初始视差估计模型进行二次训练后确定。

4.一种虚拟视点生成装置，其特征在于，包括：

5.一种电子设备，包括处理器和存储有计算机程序的存储器，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3任一项所述的虚拟视点生成方法的步骤。