CN107392881A - 一种基于混合成像系统进行光场视频捕捉的方法 - Google Patents

一种基于混合成像系统进行光场视频捕捉的方法 Download PDF

Info

Publication number
CN107392881A
CN107392881A CN201710631897.1A CN201710631897A CN107392881A CN 107392881 A CN107392881 A CN 107392881A CN 201710631897 A CN201710631897 A CN 201710631897A CN 107392881 A CN107392881 A CN 107392881A
Authority
CN
China
Prior art keywords
mrow
msup
frame
parallax
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710631897.1A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710631897.1A priority Critical patent/CN107392881A/zh
Publication of CN107392881A publication Critical patent/CN107392881A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于混合成像系统进行光场视频捕捉的方法,本发明提出了一种基于机器学习算法进行图像分析的方法,其主要内容包括混合成像系统、时空光流估计网络、外观估计网络。其过程为使用混合成像系统来捕捉光场视频,由一个时空光流卷积神经网络和外观卷积神经网络组成。时空光流卷积网络将时间信息从光场帧传播到二维帧,并将所有图像翘曲到目标视图。外观卷积神经网络接收这些图像生成最终图像。本发明提出一种新型算法,增加一台摄像机来捕获时间信息,通过卷积神经网络将二维视频和稀疏光场序列生成一个全光场视频,为安防监控以及视频拍摄领域的创新解决方案做了进一步贡献。

Description

一种基于混合成像系统进行光场视频捕捉的方法
技术领域
本发明涉及图像捕捉领域,尤其是涉及了一种基于混合成像系统进行光场视频捕捉的方法。
背景技术
光场视频捕捉常用于安防监控、视频拍摄、合成光场描绘、合成孔径成像、多视点立体显示等领域。采用基于图像渲染技术,在不需要图像的深度信息或相关性的条件下,通过预先拍摄的一组场景照片,建立该场景的光场数据库,然后对于任意给定的新视点,经过采样和线性插值运算,得到该视点的视图,实现对整个场景的漫游。具体地,在安防监控领域,运用光场相机捕捉视频,根据需要可以对视频调整焦距,查看视频资料。在视频拍摄领域,拍摄电影的时,可以在视频被捕获之后,尝试在视频不同部分改变焦点。与传统视频拍摄相比,光场视频拍摄允许用户在拍照后更改图像设置,但是在光场相机带宽范围较小的情况下,要捕获大量视频数据,尚且存在一定的挑战。
本发明提出一种基于混合成像系统进行光场视频捕捉的方法,通过使用混合成像系统来捕捉光场视频,由一个时空光流卷积神经网络和外观卷积神经网络组成。时空光流卷积网络将时间信息从光场帧传播到二维帧,并将所有图像翘曲到目标视图。外观卷积神经网络然后接收这些图像并生成最终图像。时空卷积神经网络把输入的二维视频和光场图像翘曲到目标角度视图,外观卷积神经网络结合所有已翘曲的图像,生成新图像,本发明提出一种新型算法,使用混合成像系统来捕捉光场视频,增加一台摄像机来捕获时间信息,通过卷积神经网络将二维视频和稀疏光场序列生成一个全光场视频,为安防监控以及视频拍摄领域的创新解决方案做了进一步贡献。
发明内容
针对图像捕捉,提出一种新型算法,使用混合成像系统来捕捉光场视频,增加一台二维摄像机来捕获时间信息,通过卷积神经网络将二维视频和稀疏光场序列生成一个全光场视频,为安防监控以及视频拍摄领域的创新解决方案做了进一步贡献。
为解决上述问题,本发明提供一种基于混合成像系统进行光场视频捕捉的方法,其主要内容包括:混合成像系统(一);时空光流估计网络(二);外观估计网络(三)。
(一)混合成像系统;
(二)时空光流估计网络;
(三)外观估计网络。
其中,所述的混合成像系统,提出一种新型算法,通过使用混合成像系统来捕捉光场视频,由时空光流卷积神经网络和外观卷积神经网络组成,给定一个以30帧每秒为标准的二维视频和一个低速光场视频,生成一个全光场视频,由于二维帧中部分关键帧具有对应的光场,部分则不存在光场,故将这种多视图信息从这些关键帧传播到中间帧,时空卷积神经网络把输入的二维视频和光场图像翘曲到目标角度视图,外观卷积神经网络结合所有已翘曲的图像,生成新图像,用It表示二维视频帧,Lt表示光场视频序列,其中t=1,2,3…是帧索引,令L0和LT为两个相邻的关键帧,通过给定的(L0,LT)以及{I0,I1,…,IT-1,IT},估算{L1,…,LT-1},只计算两个相邻关键帧(L0,LT)之间的帧,然后结合所有插值结果产生完整的视频。
进一步地,所述的时空光流估计网络,包括视差估计,时间光流估计和翘曲光流估计三部分,第一部分估计关键帧的视差,第二部分计算如何在二维帧之间传播信息,第三部分利用前两部分的结果将视差传播到所有二维帧,首先对每个部分进行独立训练,然后再端到端进行训练。
其中,所述的端到端进行训练,训练模型包含两个帧之间所有的图像,并输出一个完整的光场序列,在两个光场(L0,LT)中输入一个二维帧{I1,…,IT-1},输出{L1,…,LT-1},在训练过程存储器不可能适应整个光场序列,故每个训练样本仅从光场中抽取部分视图和二维序列中抽取一帧进行采样。
其中,所述的采样,除了两个关键帧0和T中使用所有角度视图之外,在中心视图u0的基础上,每次都随机抽取4个视图u1,u2,u3,u4,然后将这五个视图输入视差估计网络,生成关键帧视差,在每个训练样本中,仅输入一个帧t,代替所有帧之间的中心视图,然后使用时间流网络来估计关键帧和帧t之间的流;在帧t处随机抽取一个角度视图u,用翘曲光流网络在两个关键帧中提取视图u和u0,以及二维帧It,并对它们进行翘曲,最后色彩估计网络采用这些翘曲图像,生成最后的输出图像。
其中,所述的视差估计,给定一帧光场视图,首先在中心视图中估计这一帧的视差,对于每个视差等级,首先按照相应数量位移所有的视图,视图重叠后,其平均值为一个图像焦点,方差为零,位移视图的平均值和方差形成一个h×w×2的特征图,其中(h,w)是图像尺寸,重复这个过程直至出现n个不同的视差等级,连接所有特征图形成一个尺寸为h×w×2n的特征图,然后将该特征输入一个4层完全卷积网络生成深度图,共对64个视图进行位移,并采用位移视图的平均值和方差,将这些移位图像放入卷积神经网络,输出关键帧的视差d(x,y),为了训练这个网络,通常使输出视差和实际情况之间的差距最小化,由于实际深度很难获得,故使用输出深度将其他视图转换为中央视图,使损失达到最小化,假设一个朗伯面,中心视图L(x,y,0,0)与其他视图L(x,y,u,v)之间的关系建模为:
其中x=(x,y)是空间坐标,u=(u,υ)是角坐标,通过欧几里德距离测量公式(1)两边的差异重建,最小化损失为:
通过这种方式计算损失函数,虽然没有实际深度图,但仍然能够对功能性深度图进行优化,有利于图像合成。
进一步地,所述的时间光流估计,通过估计视频中每对相邻帧之间的光流来进行时间光流估计,并且级联光流以获得关键帧和其他帧之间的光流,在不存在损失的情况下,考虑I0和It两个帧之间的直接流,把这两个帧输入网络,通过时空光流卷积神经网络翘曲,输出f0→t,与视差估计不同的是,时间流估计更加困难,由于差距是一维问题,而光流一般是二维的,其次时间流中的像素位移通常比光场中的大,故采用分层法,对于输入帧I0和It,为每个输入帧构建一个高斯金字塔,在基础层次估计光流,并传播到较低的层次,重复这个过程,直到获得最佳层次的优质光流,与视差估计相同,通过使用输出流对翘曲图像进行优化,I0和It之间的关系为:
It(x)=I0(x+f0→t(x)) (3)
Ef(x)=||It(x)-I0(x+f0→t(x)) (4)
欧几里得里距离计算两边的最小化损失Ef(x)通过上式获得。
其中,所述的翘曲光流估计,其特征在于,选取5个翘曲图像,其中目标图像缺帧,这5个图像分别为:二维帧It,二维帧I0和IL,目标视图位于目标帧上;通常It更接近最终输出,由于角度运动小于时间运动,为生成翘曲流,将这些图像翘曲到目标视图,首先估计目标视图u在当前帧t处的视差利用关键帧0和T获得的视差来生成中心视差dt,为了利用关键帧0的视差,可以先“借用”它的视差,就像借用颜色像素一样:
dt(x)=d0(x+f0→t(x)) (5)
同理,借用关键帧T的视差:
dt(x)=dT(x+fT→t(x)) (6)
当靠近帧0时,当前视差更接近于d0,其权重更高,反之亦然,因此,将时间位置λ输入卷积神经网络:
λ=t/T (7)
把两个借用的视差和λ输入卷积神经网络,生成最后的视差,其中网络的输出的视差满足要求以下等式:
损失函数就是这两个图像之间的欧几里得距离:
其中,所述的翘曲图像,其特征在于,通过级联光流将所有相邻的图像翘曲到缺失目标视图中,令由等式(3)可以推算出It(y)=I0(y+f0→1(y)),故等式(8)为:
将二维视频中的帧0翘曲为当前目标视图,用表示已翘曲的图像,其中波浪符号表示翘曲,翘曲另外的4个输入图像,生成5个翘曲图像把这五个图像输入外观估计神经网络用来估计Lt(x,u)。
进一步地,所述的外观估计网络,其特征在于,将所有图像翘曲到目标视图之后,需要训练另一个网络来合并图像,将五个翘曲图像以及所估计的视差和光流叠加,目标视图位置为u,时间位置λ,将它们输入网络生成最终图像,角度和时间位置指示出混合系统翘曲图像时哪些图像应该占更多的权重,网络输出最终目标图像网络损失为:
其中Lt(x,u)适用于受训练的数据集,并在每个目标视图和每个时间帧中执行相同的程序,生成相应图像。
附图说明
图1是本发明一种基于混合成像系统进行光场视频捕捉的方法的系统流程图。
图2是本发明一种基于混合成像系统进行光场视频捕捉的方法的系统构成图。
图3是本发明一种基于混合成像系统进行光场视频捕捉的方法的成像系统图。
图4是本发明一种基于混合成像系统进行光场视频捕捉的方法的光流网络图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明
图1是本发明一种基于混合成像系统进行光场视频捕捉的方法的系统流程图。主要包括混合成像系统、时空光流估计网络、外观估计网络。
其中,所述的混合成像系统,提出一种新型算法,通过使用混合成像系统来捕捉光场视频,由时空光流卷积神经网络和外观卷积神经网络组成,给定一个以30帧每秒为标准的二维视频和一个低速光场视频,生成一个全光场视频,由于二维帧中部分关键帧具有对应的光场,部分则不存在光场,故将这种多视图信息从这些关键帧传播到中间帧,时空卷积神经网络把输入的二维视频和光场图像翘曲到目标角度视图,外观卷积神经网络结合所有已翘曲的图像,生成新图像,用It表示二维视频帧,Lt表示光场视频序列,其中t=1,2,3…是帧索引,令L0和LT为两个相邻的关键帧,通过给定的(L0,LT)以及{I0,I1,…,IT-1,IT},估算{L1,…,LT-1},只计算两个相邻关键帧(L0,LT)之间的帧,然后结合所有插值结果产生完整的视频。
图2是本发明一种基于混合成像系统进行光场视频捕捉的方法的系统构成图。其中,所述的时空光流估计网络,包括视差估计,时间光流估计和翘曲光流估计三部分,第一部分估计关键帧的视差,第二部分计算如何在二维帧之间传播信息,第三部分利用前两部分的结果将视差传播到所有二维帧,首先对每个部分进行独立训练,然后再端到端进行训练。
其中,所述的端到端进行训练,训练模型包含两个帧之间所有的图像,并输出一个完整的光场序列,在两个光场(L0,LT)中输入一个二维帧{I1,…,IT-1},输出{L1,…,LT-1},在训练过程存储器不可能适应整个光场序列,故每个训练样本仅从光场中抽取部分视图和二维序列中抽取一帧进行采样。
其中,所述的采样,除了两个关键帧0和T中使用所有角度视图之外,在中心视图u0的基础上,每次都随机抽取4个视图u1,u2,u3,u4,然后将这五个视图输入视差估计网络,生成关键帧视差,在每个训练样本中,仅输入一个帧t,代替所有帧之间的中心视图,然后使用时间流网络来估计关键帧和帧t之间的流;在帧t处随机抽取一个角度视图u,用翘曲光流网络在两个关键帧中提取视图u和u0,以及二维帧It,并对它们进行翘曲,最后色彩估计网络采用这些翘曲图像,生成最后的输出图像。
其中,所述的视差估计,给定一帧光场视图,首先在中心视图中估计这一帧的视差,对于每个视差等级,首先按照相应数量位移所有的视图,视图重叠后,其平均值为一个图像焦点,方差为零,位移视图的平均值和方差形成一个h×w×2的特征图,其中(h,w)是图像尺寸,重复这个过程直至出现n个不同的视差等级,连接所有特征图形成一个尺寸为h×w×2n的特征图,然后将该特征输入一个4层完全卷积网络生成深度图,共对64个视图进行位移,并采用位移视图的平均值和方差,将这些移位图像放入卷积神经网络,输出关键帧的视差d(x,y),为了训练这个网络,通常使输出视差和实际情况之间的差距最小化,由于实际深度很难获得,故使用输出深度将其他视图转换为中央视图,使损失达到最小化,假设一个朗伯面,中心视图L(x,y,0,0)与其他视图L(x,y,u,v)之间的关系建模为:
其中x=(x,y)是空间坐标,u=(u,v)是角坐标,通过欧几里德距离测量公式(1)两边的差异重建,最小化损失为:
通过这种方式计算损失函数,虽然没有实际深度图,但仍然能够对功能性深度图进行优化,有利于图像合成。
图3是本发明一种基于混合成像系统进行光场视频捕捉的方法的成像系统图。其中,所述的时间光流估计,通过估计视频中每对相邻帧之间的光流来进行时间光流估计,并且级联光流以获得关键帧和其他帧之间的光流,在不存在损失的情况下,考虑I0和It两个帧之间的直接流,把这两个帧输入网络,通过时空光流卷积神经网络翘曲,输出f0→t,与视差估计不同的是,时间流估计更加困难,由于差距是一维问题,而光流一般是二维的,其次时间流中的像素位移通常比光场中的大,故采用分层法,对于输入帧I0和It,为每个输入帧构建一个高斯金字塔,在基础层次估计光流,并传播到较低的层次,重复这个过程,直到获得最佳层次的优质光流,与视差估计相同,通过使用输出流对翘曲图像进行优化,I0和It之间的关系为:
It(x)=I0(x+f0→t(x)) (3)
Ef(x)=||It(x)-I0(x+f0→t(x)) (4)
欧几里得里距离计算两边的最小化损失Ef(x)通过上式获得。
图4是本发明一种基于混合成像系统进行光场视频捕捉的方法的光流网络图。其中,所述的翘曲光流估计,其特征在于,选取5个翘曲图像,其中目标图像缺帧,这5个图像分别为:二维帧It,二维帧I0和IL,目标视图位于目标帧上;通常It更接近最终输出,由于角度运动小于时间运动,为生成翘曲流,将这些图像翘曲到目标视图,首先估计目标视图u在当前帧t处的视差利用关键帧0和T获得的视差来生成中心视差dt,为了利用关键帧0的视差,可以先“借用”它的视差,就像借用颜色像素一样:
dt(x)=d0(x+f0→t(x)) (5)
同理,借用关键帧T的视差:
dt(x)=dT(x+fT→t(x)) (6)
当靠近帧0时,当前视差更接近于d0,其权重更高,反之亦然,因此,将时间位置λ输入卷积神经网络:
λ=t/T (7)
把两个借用的视差和λ输入卷积神经网络,生成最后的视差,其中网络的输出的视差满足要求以下等式:
损失函数就是这两个图像之间的欧几里得距离:
其中,所述的翘曲图像,其特征在于,通过级联光流将所有相邻的图像翘曲到缺失目标视图中,令由等式(3)可以推算出It(y)=I0(y+f0→1(y)),故等式(8)为:
将二维视频中的帧0翘曲为当前目标视图,用表示已翘曲的图像,其中波浪符号表示翘曲,翘曲另外的4个输入图像,生成5个翘曲图像把这五个图像输入外观估计神经网络用来估计Lt(x,u)。
进一步地,所述的外观估计网络,其特征在于,将所有图像翘曲到目标视图之后,需要训练另一个网络来合并图像,将五个翘曲图像以及所估计的视差和光流叠加,目标视图位置为u,时间位置λ,将它们输入网络生成最终图像,角度和时间位置指示出混合系统翘曲图像时哪些图像应该占更多的权重,网络输出最终目标图像网络损失为:
其中Lt(x,u)适用于受训练的数据集,并在每个目标视图和每个时间帧中执行相同的程序,生成相应图像。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于混合成像系统进行光场视频捕捉的方法,其特征在于,主要包括混合成像系统(一);时空光流估计网络(二);外观估计网络(三)。
2.基于权利要求书1所述的混合成像系统(一),其特征在于,提出一种新型算法,通过使用混合成像系统来捕捉光场视频,由时空光流卷积神经网络和外观卷积神经网络组成,给定一个以30帧每秒为标准的二维视频和一个低速光场视频,生成一个全光场视频,由于二维帧中部分关键帧具有对应的光场,部分则不存在光场,故将这种多视图信息从这些关键帧传播到中间帧,时空卷积神经网络把输入的二维视频和光场图像翘曲到目标角度视图,外观卷积神经网络结合所有已翘曲的图像,生成新图像,用It表示二维视频帧,Lt表示光场视频序列,其中t=1,2,3…是帧索引,令L0和LT为两个相邻的关键帧,通过给定的(L0,LT)以及{I0,I1,…,IT-1,IT},估算{L1,…,LT-1},只计算两个相邻关键帧(L0,LT)之间的帧,然后结合所有插值结果产生完整的视频。
3.基于权利要求书1所述的时空光流估计网络(一),其特征在于,时空光流估计网络包括视差估计,时间光流估计和翘曲光流估计三部分,第一部分估计关键帧的视差,第二部分计算如何在二维帧之间传播信息,第三部分利用前两部分的结果将视差传播到所有二维帧,首先对每个部分进行独立训练,然后再端到端进行训练。
4.基于权利要求书3所述的端到端进行训练,其特征在于,训练模型包含两个帧之间所有的图像,并输出一个完整的光场序列,在两个光场(L0,LT)中输入一个二维帧{I1,…,IT -1},输出{L1,…,LT-1},在训练过程存储器不可能适应整个光场序列,故每个训练样本仅从光场中抽取部分视图和二维序列中抽取一帧进行采样。
5.基于权利要求书4所述的采样,其特征在于,除了两个关键帧0和T中使用所有角度视图之外,在中心视图u0的基础上,每次都随机抽取4个视图u1,u2,u3,u4,然后将这五个视图输入视差估计网络,生成关键帧视差,在每个训练样本中,仅输入一个帧t,代替所有帧之间的中心视图,然后使用时间流网络来估计关键帧和帧t之间的流;在帧t处随机抽取一个角度视图u,用翘曲光流网络在两个关键帧中提取视图u和u0,以及二维帧It,并对它们进行翘曲,最后色彩估计网络采用这些翘曲图像,生成最后的输出图像。
6.基于权利要求书3所述的视差估计,其特征在于,给定一帧光场视图,首先在中心视图中估计这一帧的视差,对于每个视差等级,首先按照相应数量位移所有的视图,视图重叠后,其平均值为一个图像焦点,方差为零,位移视图的平均值和方差形成一个h×w×2的特征图,其中(h,w)是图像尺寸,重复这个过程直至出现n个不同的视差等级,连接所有特征图形成一个尺寸为h×w×2n的特征图,然后将该特征输入一个4层完全卷积网络生成深度图,共对64个视图进行位移,并采用位移视图的平均值和方差,将这些移位图像放入卷积神经网络,输出关键帧的视差d(x,y),为了训练这个网络,通常使输出视差和实际情况之间的差距最小化,由于实际深度很难获得,故使用输出深度将其他视图转换为中央视图,使损失达到最小化,假设一个朗伯面,中心视图L(x,y,0,0)与其他视图L(x,y,u,υ)之间的关系建模为:
<mrow> <mtable> <mtr> <mtd> <mrow> <msup> <mi>L</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mn>0</mn> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>L</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>u</mi> <mo>&amp;CenterDot;</mo> <msup> <mi>d</mi> <mn>0</mn> </msup> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>&amp;upsi;</mi> <mo>&amp;CenterDot;</mo> <msup> <mi>d</mi> <mn>0</mn> </msup> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>,</mo> <mi>u</mi> <mo>,</mo> <mi>&amp;upsi;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <msup> <mi>L</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>u</mi> <mo>&amp;CenterDot;</mo> <msup> <mi>d</mi> <mn>0</mn> </msup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中x=(x,y)是空间坐标,u=(u,υ)是角坐标,通过欧几里德距离测量公式(1)两边的差异重建,最小化损失为:
<mrow> <msub> <mi>E</mi> <mi>d</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>u</mi> </munder> <mo>|</mo> <mo>|</mo> <msup> <mi>L</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>-</mo> <msup> <mi>L</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>u</mi> <mo>&amp;CenterDot;</mo> <msup> <mi>d</mi> <mn>0</mn> </msup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
通过这种方式计算损失函数,虽然没有实际深度图,但仍然能够对功能性深度图进行优化,有利于图像合成。
7.基于权利要求书3所述的时间光流估计,其特征在于,通过估计视频中每对相邻帧之间的光流来进行时间光流估计,并且级联光流以获得关键帧和其他帧之间的光流,在不存在损失的情况下,考虑I0和It两个帧之间的直接流,把这两个帧输入网络,通过时空光流卷积神经网络翘曲,输出f0→t,与视差估计不同的是,时间流估计更加困难,由于差距是一维问题,而光流一般是二维的,其次时间流中的像素位移通常比光场中的大,故采用分层法,对于输入帧I0和It,为每个输入帧构建一个高斯金字塔,在基础层次估计光流,并传播到较低的层次,重复这个过程,直到获得最佳层次的优质光流,与视差估计相同,通过使用输出流对翘曲图像进行优化,I0和It之间的关系为:
It(x)=I0(x+f0→t(x)) (3)
Ef(x)=||It(x)-I0(x+f0→t(x)) (4)
欧几里得里距离计算两边的最小化损失Ef(x)通过上式获得。
8.基于权利要求书3所述的翘曲光流估计,其特征在于,选取5个翘曲图像,其中目标图像缺帧,这5个图像分别为:二维帧It,二维帧I0和IL,目标视图位于目标帧上;通常It更接近最终输出,由于角度运动小于时间运动,为生成翘曲流,将这些图像翘曲到目标视图,首先估计目标视图u在当前帧t处的视差利用关键帧0和T获得的视差来生成中心视差dt,为了利用关键帧0的视差,可以先“借用”它的视差,就像借用颜色像素一样:
dt(x)=d0(x+f0→t(x)) (5)
同理,借用关键帧T的视差:
dt(x)=dT(x+fT→t(x)) (6)
当靠近帧0时,当前视差更接近于d0,其权重更高,反之亦然,因此,将时间位置λ输入卷积神经网络:
λ=t/T (7)
把两个借用的视差和λ输入卷积神经网络,生成最后的视差,其中网络的输出的视差满足要求以下等式:
<mrow> <msup> <mi>L</mi> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>I</mi> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mi>u</mi> <mo>&amp;CenterDot;</mo> <msubsup> <mi>d</mi> <mi>u</mi> <mi>t</mi> </msubsup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>
损失函数就是这两个图像之间的欧几里得距离:
<mrow> <msub> <mi>E</mi> <mi>w</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>|</mo> <msup> <mi>L</mi> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>-</mo> <msup> <mi>I</mi> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mi>u</mi> <mo>&amp;CenterDot;</mo> <msubsup> <mi>d</mi> <mi>u</mi> <mi>t</mi> </msubsup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>
其中Lt(x,u)仅适用于受训练的数据集。
9.基于权利要求书8所述的翘曲图像,其特征在于,通过级联光流将所有相邻的图像翘曲到缺失目标视图中,令由等式(3)可以推算出It(y)=I0(y+f0→1(y)),故等式(8)为:
<mrow> <mtable> <mtr> <mtd> <mrow> <msup> <mi>L</mi> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>I</mi> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>I</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mi>y</mi> <mo>+</mo> <msup> <mi>f</mi> <mrow> <mn>0</mn> <mo>&amp;RightArrow;</mo> <mi>t</mi> </mrow> </msup> <mo>(</mo> <mi>y</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <msup> <mi>I</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <mi>x</mi> <mo>-</mo> <mi>u</mi> </mrow> <mo>)</mo> <mo>&amp;CenterDot;</mo> <msubsup> <mi>d</mi> <mi>u</mi> <mi>t</mi> </msubsup> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>+</mo> <msup> <mi>f</mi> <mrow> <mn>0</mn> <mo>-</mo> <mi>t</mi> </mrow> </msup> <mo>(</mo> <mrow> <mi>x</mi> <mo>-</mo> <mi>u</mi> <mo>&amp;CenterDot;</mo> <msubsup> <mi>d</mi> <mi>u</mi> <mi>t</mi> </msubsup> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>
将二维视频中的帧0翘曲为当前目标视图,用表示已翘曲的图像,其中波浪符号表示翘曲,翘曲另外的4个输入图像,生成5个翘曲图像把这五个图像输入外观估计神经网络用来估计Lt(x,u)。
10.基于权利要求书1所述的外观估计网络,其特征在于,将所有图像翘曲到目标视图之后,需要训练另一个网络来合并图像,将五个翘曲图像以及所估计的视差和光流叠加,目标视图位置为u,时间位置λ,将它们输入网络生成最终图像,角度和时间位置指示出混合系统翘曲图像时哪些图像应该占更多的权重,网络输出最终目标图像网络损失为:
<mrow> <msub> <mi>E</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>|</mo> <msup> <mover> <mi>L</mi> <mo>&amp;OverBar;</mo> </mover> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>-</mo> <msup> <mi>L</mi> <mi>t</mi> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>
其中Lt(x,u)适用于受训练的数据集,并在每个目标视图和每个时间帧中执行相同的程序,生成相应图像。
CN201710631897.1A 2017-07-28 2017-07-28 一种基于混合成像系统进行光场视频捕捉的方法 Withdrawn CN107392881A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710631897.1A CN107392881A (zh) 2017-07-28 2017-07-28 一种基于混合成像系统进行光场视频捕捉的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710631897.1A CN107392881A (zh) 2017-07-28 2017-07-28 一种基于混合成像系统进行光场视频捕捉的方法

Publications (1)

Publication Number Publication Date
CN107392881A true CN107392881A (zh) 2017-11-24

Family

ID=60342504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710631897.1A Withdrawn CN107392881A (zh) 2017-07-28 2017-07-28 一种基于混合成像系统进行光场视频捕捉的方法

Country Status (1)

Country Link
CN (1) CN107392881A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108242062A (zh) * 2017-12-27 2018-07-03 北京纵目安驰智能科技有限公司 基于深度特征流的目标跟踪方法、系统、终端及介质
CN110830802A (zh) * 2018-08-10 2020-02-21 迪斯尼企业公司 基于机器学习的视频压缩
CN111177460A (zh) * 2019-12-20 2020-05-19 腾讯科技(深圳)有限公司 提取关键帧的方法及装置
CN113077505A (zh) * 2021-04-19 2021-07-06 大连理工大学人工智能大连研究院 一种基于对比学习的单目深度估计网络的优化方法
CN116070687A (zh) * 2023-03-06 2023-05-05 浙江优众新材料科技有限公司 一种基于全局光线空间仿射变换的神经网络光场表示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TING-CHUN WANG等: "light field video capture using a learning-based hybrid imaging system", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1705.02997》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108242062A (zh) * 2017-12-27 2018-07-03 北京纵目安驰智能科技有限公司 基于深度特征流的目标跟踪方法、系统、终端及介质
CN108242062B (zh) * 2017-12-27 2023-06-30 北京纵目安驰智能科技有限公司 基于深度特征流的目标跟踪方法、系统、终端及介质
CN110830802A (zh) * 2018-08-10 2020-02-21 迪斯尼企业公司 基于机器学习的视频压缩
CN110830802B (zh) * 2018-08-10 2023-08-22 迪斯尼企业公司 基于机器学习的视频压缩
CN111177460A (zh) * 2019-12-20 2020-05-19 腾讯科技(深圳)有限公司 提取关键帧的方法及装置
CN111177460B (zh) * 2019-12-20 2023-04-18 腾讯科技(深圳)有限公司 提取关键帧的方法及装置
CN113077505A (zh) * 2021-04-19 2021-07-06 大连理工大学人工智能大连研究院 一种基于对比学习的单目深度估计网络的优化方法
CN113077505B (zh) * 2021-04-19 2023-11-17 大连理工大学人工智能大连研究院 一种基于对比学习的单目深度估计网络的优化方法
CN116070687A (zh) * 2023-03-06 2023-05-05 浙江优众新材料科技有限公司 一种基于全局光线空间仿射变换的神经网络光场表示方法

Similar Documents

Publication Publication Date Title
CN107392881A (zh) 一种基于混合成像系统进行光场视频捕捉的方法
CN101271578B (zh) 一种平面视频转立体视频技术中的深度序列生成方法
Guttmann et al. Semi-automatic stereo extraction from video footage
Song et al. Stereoscopic image super-resolution with stereo consistent feature
CN101822067B (zh) 深度相关信息传播方法和设备
Tam et al. 3D-TV content generation: 2D-to-3D conversion
CN101605209B (zh) 摄像装置及图像再生装置
US8897545B2 (en) Apparatus and method for determining a confidence value of a disparity estimate
TWI475515B (zh) 產生立體影片之深度圖的方法
CN102726037B (zh) 图像处理装置、摄像装置和图像处理方法
CN107580186B (zh) 一种基于缝合线时空优化的双摄像机全景视频拼接方法
WO2020220516A1 (zh) 图像生成网络的训练及图像处理方法、装置、电子设备、介质
CN103310421B (zh) 针对高清图像对的快速立体匹配方法及视差图获取方法
CN102741884A (zh) 移动体检测装置及移动体检测方法
CN110084757A (zh) 一种基于生成对抗网络的红外深度图像增强方法
CN111901532B (zh) 基于循环神经网络迭代策略的视频稳定方法
CN105122793A (zh) 图像处理装置、摄像装置及图像处理程序
JP2012079251A (ja) 画像処理装置及び画像処理システム
Zhang et al. Multi-frame pyramid refinement network for video frame interpolation
CN104159098B (zh) 一种视频的时域一致性半透明边缘提取方法
CN106412560B (zh) 一种基于深度图的立体图像生成方法
Kowalczuk et al. Real-time temporal stereo matching using iterative adaptive support weights
CN108090920A (zh) 一种新的光场图像深度流估计方法
Akimov et al. Single-image depth map estimation using blur information
Sourimant A simple and efficient way to compute depth maps for multi-view videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20171124

WW01 Invention patent application withdrawn after publication