CN107392881A

CN107392881A - 一种基于混合成像系统进行光场视频捕捉的方法

Info

Publication number: CN107392881A
Application number: CN201710631897.1A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2017-11-24

Abstract

一种基于混合成像系统进行光场视频捕捉的方法，本发明提出了一种基于机器学习算法进行图像分析的方法，其主要内容包括混合成像系统、时空光流估计网络、外观估计网络。其过程为使用混合成像系统来捕捉光场视频，由一个时空光流卷积神经网络和外观卷积神经网络组成。时空光流卷积网络将时间信息从光场帧传播到二维帧，并将所有图像翘曲到目标视图。外观卷积神经网络接收这些图像生成最终图像。本发明提出一种新型算法，增加一台摄像机来捕获时间信息，通过卷积神经网络将二维视频和稀疏光场序列生成一个全光场视频，为安防监控以及视频拍摄领域的创新解决方案做了进一步贡献。

Description

一种基于混合成像系统进行光场视频捕捉的方法

技术领域

本发明涉及图像捕捉领域，尤其是涉及了一种基于混合成像系统进行光场视频捕捉的方法。

背景技术

光场视频捕捉常用于安防监控、视频拍摄、合成光场描绘、合成孔径成像、多视点立体显示等领域。采用基于图像渲染技术，在不需要图像的深度信息或相关性的条件下，通过预先拍摄的一组场景照片，建立该场景的光场数据库，然后对于任意给定的新视点，经过采样和线性插值运算，得到该视点的视图，实现对整个场景的漫游。具体地，在安防监控领域，运用光场相机捕捉视频，根据需要可以对视频调整焦距，查看视频资料。在视频拍摄领域，拍摄电影的时，可以在视频被捕获之后，尝试在视频不同部分改变焦点。与传统视频拍摄相比，光场视频拍摄允许用户在拍照后更改图像设置，但是在光场相机带宽范围较小的情况下，要捕获大量视频数据，尚且存在一定的挑战。

本发明提出一种基于混合成像系统进行光场视频捕捉的方法，通过使用混合成像系统来捕捉光场视频，由一个时空光流卷积神经网络和外观卷积神经网络组成。时空光流卷积网络将时间信息从光场帧传播到二维帧，并将所有图像翘曲到目标视图。外观卷积神经网络然后接收这些图像并生成最终图像。时空卷积神经网络把输入的二维视频和光场图像翘曲到目标角度视图，外观卷积神经网络结合所有已翘曲的图像，生成新图像，本发明提出一种新型算法，使用混合成像系统来捕捉光场视频，增加一台摄像机来捕获时间信息，通过卷积神经网络将二维视频和稀疏光场序列生成一个全光场视频，为安防监控以及视频拍摄领域的创新解决方案做了进一步贡献。

发明内容

针对图像捕捉，提出一种新型算法，使用混合成像系统来捕捉光场视频，增加一台二维摄像机来捕获时间信息，通过卷积神经网络将二维视频和稀疏光场序列生成一个全光场视频，为安防监控以及视频拍摄领域的创新解决方案做了进一步贡献。

为解决上述问题，本发明提供一种基于混合成像系统进行光场视频捕捉的方法，其主要内容包括：混合成像系统(一)；时空光流估计网络(二)；外观估计网络(三)。

(一)混合成像系统；

(二)时空光流估计网络；

(三)外观估计网络。

其中，所述的混合成像系统，提出一种新型算法，通过使用混合成像系统来捕捉光场视频，由时空光流卷积神经网络和外观卷积神经网络组成，给定一个以30帧每秒为标准的二维视频和一个低速光场视频，生成一个全光场视频，由于二维帧中部分关键帧具有对应的光场，部分则不存在光场，故将这种多视图信息从这些关键帧传播到中间帧，时空卷积神经网络把输入的二维视频和光场图像翘曲到目标角度视图，外观卷积神经网络结合所有已翘曲的图像，生成新图像，用I^t表示二维视频帧，L^t表示光场视频序列，其中t＝1，2，3…是帧索引，令L⁰和L^T为两个相邻的关键帧，通过给定的(L⁰，L^T)以及{I⁰,I¹,…,I^T-1,I^T}，估算{L¹,…,L^T-1}，只计算两个相邻关键帧(L⁰,L^T)之间的帧，然后结合所有插值结果产生完整的视频。

进一步地，所述的时空光流估计网络，包括视差估计，时间光流估计和翘曲光流估计三部分，第一部分估计关键帧的视差，第二部分计算如何在二维帧之间传播信息，第三部分利用前两部分的结果将视差传播到所有二维帧，首先对每个部分进行独立训练，然后再端到端进行训练。

其中，所述的端到端进行训练，训练模型包含两个帧之间所有的图像，并输出一个完整的光场序列，在两个光场(L⁰,L^T)中输入一个二维帧{I¹,…,I^T-1}，输出{L¹,…,L^T-1}，在训练过程存储器不可能适应整个光场序列，故每个训练样本仅从光场中抽取部分视图和二维序列中抽取一帧进行采样。

其中，所述的采样，除了两个关键帧0和T中使用所有角度视图之外，在中心视图u₀的基础上，每次都随机抽取4个视图u₁,u₂,u₃,u₄，然后将这五个视图输入视差估计网络，生成关键帧视差，在每个训练样本中，仅输入一个帧t,代替所有帧之间的中心视图，然后使用时间流网络来估计关键帧和帧t之间的流；在帧t处随机抽取一个角度视图u，用翘曲光流网络在两个关键帧中提取视图u和u₀，以及二维帧I^t,并对它们进行翘曲，最后色彩估计网络采用这些翘曲图像，生成最后的输出图像。

其中，所述的视差估计，给定一帧光场视图，首先在中心视图中估计这一帧的视差，对于每个视差等级，首先按照相应数量位移所有的视图，视图重叠后，其平均值为一个图像焦点，方差为零，位移视图的平均值和方差形成一个h×w×2的特征图，其中(h,w)是图像尺寸，重复这个过程直至出现n个不同的视差等级，连接所有特征图形成一个尺寸为h×w×2n的特征图，然后将该特征输入一个4层完全卷积网络生成深度图，共对64个视图进行位移，并采用位移视图的平均值和方差，将这些移位图像放入卷积神经网络，输出关键帧的视差d(x,y)，为了训练这个网络，通常使输出视差和实际情况之间的差距最小化，由于实际深度很难获得，故使用输出深度将其他视图转换为中央视图，使损失达到最小化，假设一个朗伯面，中心视图L(x,y，0，0)与其他视图L(x，y，u，v)之间的关系建模为:

其中x＝(x，y)是空间坐标，u＝(u，υ)是角坐标，通过欧几里德距离测量公式(1)两边的差异重建，最小化损失为：

通过这种方式计算损失函数，虽然没有实际深度图，但仍然能够对功能性深度图进行优化，有利于图像合成。

进一步地，所述的时间光流估计，通过估计视频中每对相邻帧之间的光流来进行时间光流估计，并且级联光流以获得关键帧和其他帧之间的光流，在不存在损失的情况下，考虑I⁰和I^t两个帧之间的直接流，把这两个帧输入网络，通过时空光流卷积神经网络翘曲，输出f^0→t，与视差估计不同的是，时间流估计更加困难，由于差距是一维问题，而光流一般是二维的，其次时间流中的像素位移通常比光场中的大，故采用分层法，对于输入帧I⁰和I^t，为每个输入帧构建一个高斯金字塔，在基础层次估计光流，并传播到较低的层次，重复这个过程，直到获得最佳层次的优质光流，与视差估计相同，通过使用输出流对翘曲图像进行优化，I⁰和I^t之间的关系为：

I^t(x)＝I⁰(x+f^0→t(x)) (3)

E_f(x)＝||I^t(x)-I⁰(x+f^0→t(x)) (4)

欧几里得里距离计算两边的最小化损失E_f(x)通过上式获得。

其中，所述的翘曲光流估计，其特征在于，选取5个翘曲图像，其中目标图像缺帧，这5个图像分别为：二维帧I^t，二维帧I⁰和I^L，目标视图和位于目标帧上；通常I^t更接近最终输出，由于角度运动小于时间运动，为生成翘曲流，将这些图像翘曲到目标视图，首先估计目标视图u在当前帧t处的视差利用关键帧0和T获得的视差来生成中心视差d^t,为了利用关键帧0的视差，可以先“借用”它的视差,就像借用颜色像素一样：

d^t(x)＝d⁰(x+f^0→t(x)) (5)

同理，借用关键帧T的视差：

d^t(x)＝d^T(x+f^T→t(x)) (6)

当靠近帧0时，当前视差更接近于d⁰，其权重更高，反之亦然，因此，将时间位置λ输入卷积神经网络：

λ＝t/T (7)

把两个借用的视差和λ输入卷积神经网络，生成最后的视差，其中网络的输出的视差满足要求以下等式：

损失函数就是这两个图像之间的欧几里得距离：

其中，所述的翘曲图像，其特征在于，通过级联光流将所有相邻的图像翘曲到缺失目标视图中，令由等式(3)可以推算出I^t(y)＝I⁰(y+f^0→1(y))，故等式(8)为：

将二维视频中的帧0翘曲为当前目标视图，用表示已翘曲的图像，其中波浪符号表示翘曲，翘曲另外的4个输入图像，生成5个翘曲图像和把这五个图像输入外观估计神经网络用来估计L^t(x,u)。

进一步地，所述的外观估计网络，其特征在于，将所有图像翘曲到目标视图之后，需要训练另一个网络来合并图像，将五个翘曲图像以及所估计的视差和光流叠加，目标视图位置为u，时间位置λ，将它们输入网络生成最终图像，角度和时间位置指示出混合系统翘曲图像时哪些图像应该占更多的权重，网络输出最终目标图像网络损失为：

其中L^t(x,u)适用于受训练的数据集，并在每个目标视图和每个时间帧中执行相同的程序，生成相应图像。

附图说明

图1是本发明一种基于混合成像系统进行光场视频捕捉的方法的系统流程图。

图2是本发明一种基于混合成像系统进行光场视频捕捉的方法的系统构成图。

图3是本发明一种基于混合成像系统进行光场视频捕捉的方法的成像系统图。

图4是本发明一种基于混合成像系统进行光场视频捕捉的方法的光流网络图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明

图1是本发明一种基于混合成像系统进行光场视频捕捉的方法的系统流程图。主要包括混合成像系统、时空光流估计网络、外观估计网络。

其中，所述的混合成像系统，提出一种新型算法，通过使用混合成像系统来捕捉光场视频，由时空光流卷积神经网络和外观卷积神经网络组成，给定一个以30帧每秒为标准的二维视频和一个低速光场视频，生成一个全光场视频，由于二维帧中部分关键帧具有对应的光场，部分则不存在光场，故将这种多视图信息从这些关键帧传播到中间帧，时空卷积神经网络把输入的二维视频和光场图像翘曲到目标角度视图，外观卷积神经网络结合所有已翘曲的图像，生成新图像，用I^t表示二维视频帧，L^t表示光场视频序列，其中t＝1,2,3…是帧索引，令L⁰和L^T为两个相邻的关键帧，通过给定的(L⁰,L^T)以及{I⁰,I¹,…,I^T-1,I^T}，估算{L¹,…,L^T-1}，只计算两个相邻关键帧(L⁰,L^T)之间的帧，然后结合所有插值结果产生完整的视频。

图2是本发明一种基于混合成像系统进行光场视频捕捉的方法的系统构成图。其中，所述的时空光流估计网络，包括视差估计，时间光流估计和翘曲光流估计三部分，第一部分估计关键帧的视差，第二部分计算如何在二维帧之间传播信息，第三部分利用前两部分的结果将视差传播到所有二维帧，首先对每个部分进行独立训练，然后再端到端进行训练。

其中，所述的视差估计，给定一帧光场视图，首先在中心视图中估计这一帧的视差，对于每个视差等级，首先按照相应数量位移所有的视图，视图重叠后，其平均值为一个图像焦点，方差为零，位移视图的平均值和方差形成一个h×w×2的特征图，其中(h,w)是图像尺寸，重复这个过程直至出现n个不同的视差等级，连接所有特征图形成一个尺寸为h×w×2n的特征图，然后将该特征输入一个4层完全卷积网络生成深度图，共对64个视图进行位移，并采用位移视图的平均值和方差，将这些移位图像放入卷积神经网络，输出关键帧的视差d(x,y)，为了训练这个网络，通常使输出视差和实际情况之间的差距最小化，由于实际深度很难获得，故使用输出深度将其他视图转换为中央视图，使损失达到最小化，假设一个朗伯面，中心视图L(x，y，0，0)与其他视图L(x，y，u，v)之间的关系建模为：

其中x＝(x，y)是空间坐标，u＝(u，v)是角坐标，通过欧几里德距离测量公式(1)两边的差异重建，最小化损失为：

图3是本发明一种基于混合成像系统进行光场视频捕捉的方法的成像系统图。其中，所述的时间光流估计，通过估计视频中每对相邻帧之间的光流来进行时间光流估计，并且级联光流以获得关键帧和其他帧之间的光流，在不存在损失的情况下，考虑I⁰和I^t两个帧之间的直接流，把这两个帧输入网络，通过时空光流卷积神经网络翘曲，输出f^0→t，与视差估计不同的是，时间流估计更加困难，由于差距是一维问题，而光流一般是二维的，其次时间流中的像素位移通常比光场中的大，故采用分层法，对于输入帧I⁰和I^t，为每个输入帧构建一个高斯金字塔，在基础层次估计光流，并传播到较低的层次，重复这个过程，直到获得最佳层次的优质光流，与视差估计相同，通过使用输出流对翘曲图像进行优化，I⁰和I^t之间的关系为：

I^t(x)＝I⁰(x+f^0→t(x)) (3)

E_f(x)＝||I^t(x)-I⁰(x+f^0→t(x)) (4)

欧几里得里距离计算两边的最小化损失E_f(x)通过上式获得。

图4是本发明一种基于混合成像系统进行光场视频捕捉的方法的光流网络图。其中，所述的翘曲光流估计，其特征在于，选取5个翘曲图像，其中目标图像缺帧，这5个图像分别为：二维帧I^t，二维帧I⁰和I^L，目标视图和位于目标帧上；通常I^t更接近最终输出，由于角度运动小于时间运动，为生成翘曲流，将这些图像翘曲到目标视图，首先估计目标视图u在当前帧t处的视差利用关键帧0和T获得的视差来生成中心视差d^t，为了利用关键帧0的视差，可以先“借用”它的视差，就像借用颜色像素一样：

d^t(x)＝d⁰(x+f^0→t(x)) (5)

同理，借用关键帧T的视差：

d^t(x)＝d^T(x+f^T→t(x)) (6)

λ＝t/T (7)

损失函数就是这两个图像之间的欧几里得距离：

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于混合成像系统进行光场视频捕捉的方法，其特征在于，主要包括混合成像系统(一)；时空光流估计网络(二)；外观估计网络(三)。

2.基于权利要求书1所述的混合成像系统(一)，其特征在于，提出一种新型算法，通过使用混合成像系统来捕捉光场视频，由时空光流卷积神经网络和外观卷积神经网络组成，给定一个以30帧每秒为标准的二维视频和一个低速光场视频，生成一个全光场视频，由于二维帧中部分关键帧具有对应的光场，部分则不存在光场，故将这种多视图信息从这些关键帧传播到中间帧，时空卷积神经网络把输入的二维视频和光场图像翘曲到目标角度视图，外观卷积神经网络结合所有已翘曲的图像，生成新图像，用I^t表示二维视频帧，L^t表示光场视频序列，其中t＝1,2,3…是帧索引，令L⁰和L^T为两个相邻的关键帧，通过给定的(L⁰,L^T)以及{I⁰,I¹,…,I^T-1,I^T}，估算{L¹,…,L^T-1}，只计算两个相邻关键帧(L⁰,L^T)之间的帧，然后结合所有插值结果产生完整的视频。

3.基于权利要求书1所述的时空光流估计网络(一)，其特征在于，时空光流估计网络包括视差估计，时间光流估计和翘曲光流估计三部分，第一部分估计关键帧的视差，第二部分计算如何在二维帧之间传播信息，第三部分利用前两部分的结果将视差传播到所有二维帧，首先对每个部分进行独立训练，然后再端到端进行训练。

4.基于权利要求书3所述的端到端进行训练，其特征在于，训练模型包含两个帧之间所有的图像，并输出一个完整的光场序列，在两个光场(L⁰,L^T)中输入一个二维帧{I¹,…,I^T ^-1}，输出{L¹,…,L^T-1}，在训练过程存储器不可能适应整个光场序列，故每个训练样本仅从光场中抽取部分视图和二维序列中抽取一帧进行采样。

5.基于权利要求书4所述的采样，其特征在于，除了两个关键帧0和T中使用所有角度视图之外，在中心视图u₀的基础上，每次都随机抽取4个视图u₁,u₂,u₃,u₄，然后将这五个视图输入视差估计网络，生成关键帧视差，在每个训练样本中，仅输入一个帧t,代替所有帧之间的中心视图，然后使用时间流网络来估计关键帧和帧t之间的流；在帧t处随机抽取一个角度视图u，用翘曲光流网络在两个关键帧中提取视图u和u₀，以及二维帧I^t,并对它们进行翘曲，最后色彩估计网络采用这些翘曲图像，生成最后的输出图像。

6.基于权利要求书3所述的视差估计，其特征在于，给定一帧光场视图，首先在中心视图中估计这一帧的视差，对于每个视差等级，首先按照相应数量位移所有的视图，视图重叠后，其平均值为一个图像焦点，方差为零，位移视图的平均值和方差形成一个h×w×2的特征图，其中(h,w)是图像尺寸，重复这个过程直至出现n个不同的视差等级，连接所有特征图形成一个尺寸为h×w×2n的特征图，然后将该特征输入一个4层完全卷积网络生成深度图，共对64个视图进行位移，并采用位移视图的平均值和方差，将这些移位图像放入卷积神经网络，输出关键帧的视差d(x,y)，为了训练这个网络，通常使输出视差和实际情况之间的差距最小化，由于实际深度很难获得，故使用输出深度将其他视图转换为中央视图，使损失达到最小化，假设一个朗伯面，中心视图L(x,y,0,0)与其他视图L(x,y,u,υ)之间的关系建模为:

<mrow> <mtable> <mtr> <mtd> <mrow> <msup> <mi>L</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mn>0</mn> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>L</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>u</mi> <mo>&CenterDot;</mo> <msup> <mi>d</mi> <mn>0</mn> </msup> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>&upsi;</mi> <mo>&CenterDot;</mo> <msup> <mi>d</mi> <mn>0</mn> </msup> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>,</mo> <mi>u</mi> <mo>,</mo> <mi>&upsi;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <msup> <mi>L</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>u</mi> <mo>&CenterDot;</mo> <msup> <mi>d</mi> <mn>0</mn> </msup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中x＝(x,y)是空间坐标，u＝(u,υ)是角坐标，通过欧几里德距离测量公式(1)两边的差异重建，最小化损失为：

<mrow> <msub> <mi>E</mi> <mi>d</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>u</mi> </munder> <mo>|</mo> <mo>|</mo> <msup> <mi>L</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>-</mo> <msup> <mi>L</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>u</mi> <mo>&CenterDot;</mo> <msup> <mi>d</mi> <mn>0</mn> </msup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

7.基于权利要求书3所述的时间光流估计，其特征在于，通过估计视频中每对相邻帧之间的光流来进行时间光流估计，并且级联光流以获得关键帧和其他帧之间的光流，在不存在损失的情况下，考虑I⁰和I^t两个帧之间的直接流，把这两个帧输入网络，通过时空光流卷积神经网络翘曲，输出f^0→t，与视差估计不同的是，时间流估计更加困难，由于差距是一维问题，而光流一般是二维的，其次时间流中的像素位移通常比光场中的大，故采用分层法，对于输入帧I⁰和I^t，为每个输入帧构建一个高斯金字塔，在基础层次估计光流，并传播到较低的层次，重复这个过程，直到获得最佳层次的优质光流，与视差估计相同，通过使用输出流对翘曲图像进行优化，I⁰和I^t之间的关系为：

I^t(x)＝I⁰(x+f^0→t(x)) (3)

E_f(x)＝||I^t(x)-I⁰(x+f^0→t(x)) (4)

欧几里得里距离计算两边的最小化损失E_f(x)通过上式获得。

8.基于权利要求书3所述的翘曲光流估计，其特征在于，选取5个翘曲图像，其中目标图像缺帧，这5个图像分别为：二维帧I^t，二维帧I⁰和I^L，目标视图和位于目标帧上；通常I^t更接近最终输出，由于角度运动小于时间运动，为生成翘曲流，将这些图像翘曲到目标视图，首先估计目标视图u在当前帧t处的视差利用关键帧0和T获得的视差来生成中心视差d^t,为了利用关键帧0的视差，可以先“借用”它的视差,就像借用颜色像素一样：

d^t(x)＝d⁰(x+f^0→t(x)) (5)

同理，借用关键帧T的视差：

d^t(x)＝d^T(x+f^T→t(x)) (6)

λ＝t/T (7)

<mrow> <msup> <mi>L</mi> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>I</mi> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mi>u</mi> <mo>&CenterDot;</mo> <msubsup> <mi>d</mi> <mi>u</mi> <mi>t</mi> </msubsup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

损失函数就是这两个图像之间的欧几里得距离：

<mrow> <msub> <mi>E</mi> <mi>w</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>|</mo> <msup> <mi>L</mi> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>-</mo> <msup> <mi>I</mi> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mi>u</mi> <mo>&CenterDot;</mo> <msubsup> <mi>d</mi> <mi>u</mi> <mi>t</mi> </msubsup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

其中L^t(x,u)仅适用于受训练的数据集。

9.基于权利要求书8所述的翘曲图像，其特征在于，通过级联光流将所有相邻的图像翘曲到缺失目标视图中，令由等式(3)可以推算出I^t(y)＝I⁰(y+f^0→1(y))，故等式(8)为：

<mrow> <mtable> <mtr> <mtd> <mrow> <msup> <mi>L</mi> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>I</mi> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>I</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mi>y</mi> <mo>+</mo> <msup> <mi>f</mi> <mrow> <mn>0</mn> <mo>&RightArrow;</mo> <mi>t</mi> </mrow> </msup> <mo>(</mo> <mi>y</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <msup> <mi>I</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <mi>x</mi> <mo>-</mo> <mi>u</mi> </mrow> <mo>)</mo> <mo>&CenterDot;</mo> <msubsup> <mi>d</mi> <mi>u</mi> <mi>t</mi> </msubsup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>+</mo> <msup> <mi>f</mi> <mrow> <mn>0</mn> <mo>-</mo> <mi>t</mi> </mrow> </msup> <mo>(</mo> <mrow> <mi>x</mi> <mo>-</mo> <mi>u</mi> <mo>&CenterDot;</mo> <msubsup> <mi>d</mi> <mi>u</mi> <mi>t</mi> </msubsup> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

10.基于权利要求书1所述的外观估计网络，其特征在于，将所有图像翘曲到目标视图之后，需要训练另一个网络来合并图像，将五个翘曲图像以及所估计的视差和光流叠加，目标视图位置为u，时间位置λ，将它们输入网络生成最终图像，角度和时间位置指示出混合系统翘曲图像时哪些图像应该占更多的权重，网络输出最终目标图像网络损失为：

<mrow> <msub> <mi>E</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>|</mo> <msup> <mover> <mi>L</mi> <mo>&OverBar;</mo> </mover> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>-</mo> <msup> <mi>L</mi> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

其中L^t(x，u)适用于受训练的数据集，并在每个目标视图和每个时间帧中执行相同的程序，生成相应图像。