CN111480183A

CN111480183A - 用于产生透视效果的光场图像渲染方法和系统

Info

Publication number: CN111480183A
Application number: CN201880079397.4A
Authority: CN
Inventors: 张迎梁; 张谷力; 石志儒
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2017-11-20
Filing date: 2018-11-19
Publication date: 2020-07-31
Anticipated expiration: 2038-11-19
Also published as: US20200279387A1; US11615547B2; WO2019096310A1; CN111480183B

Abstract

公开一种光场图像处理方法，该方法用于通过区分处于不同景深处的对象以及分属不同类别的对象而去除遮挡前景并将非关注对象模糊化，从而产生透视效果。该图像处理方法可将指定关注对象后方的背景物模糊化。该图像处理方法还可从渲染图像中至少部分去除可阻挡观看者观看所述关注对象的任何遮挡物。该图像处理方法还可将渲染图像中表示所述关注对象之外的光场内其他对象的区域模糊化。该方法包括如下步骤：构建含有深度分量和语义分量的光场权重函数，其中，该权重函数向所述光场内的光线分配权重；以及以所述权重函数进行光场渲染。

Description

用于产生透视效果的光场图像渲染方法和系统

相关申请的交叉引用

本申请基于申请号为PCT/CN2017/111911，申请日为2017年11月20日的在《专利合作条约》下的国际申请，要求该申请的优先权，并将其全部内容通过引用并入本文。

技术领域

本发明涉及图像处理，尤其涉及产生语义透视效果的光场图像渲染。

背景技术

光场图像处理理论和算法的概念和最新发展为这一新技术提供了越来越多在众多领域中获得创新性新用途的机会。另一方面，新的高性能硬件元器件，尤其能够捕获和处理大量图像数据的高性能图形处理单元(GPU)和数码相机对这些新的机会颇有贡献。在这些硬件元器件当中，多种元器件近来变得越来越容易获得，且价格越来越能够承受。另一方面，计算机视觉和图形识别技术的飞速发展与人工智能和深度学习算法方面的进展相辅相成，使得这些新的计算资源能够得到充分且成熟的应用，从而引领光场成像时代勃发的各种机会在商业上走向成功的前景。

上述新领域之一为光场图像渲染，其目的在于在渲染图像中产生透视效果。传统中，这一效果通过重新聚焦技术实现，该技术仅基于光场深度，其存在严重的限制和不足。在这一方面，当前可用技术无法使本领域最新技术进展所赋予的能力得到充分利用。

举例而言，在安保监控领域，透过遮挡物看到关注对象的能力有时极为重要。然而，当单单使用重新聚焦技术时，往往无法将遮挡物充分地去除或模糊化，因此不能全方位地充分识别和/或认出被遮挡物。在某些情况下，这一点可能决定着能否实现对嫌疑恐怖分子或高危险性罪犯的识别。

因此，光场图像渲染领域需要能够产生更为有效的透视效果的改进方法和系统。

发明内容

本发明提供图像处理方法和系统等，尤其提供通过去除光场中的遮挡前景并使非关注对象模糊化而在渲染图像中产生透视效果的光场图像渲染方法和系统。

总体而言，所述光场图像渲染方法和系统的实施方式可在光场图像渲染过程中区分位于不同光场场深处的对象以及属于不同类别的对象。例如，在光场图像渲染过程中，可以区分关注对象及其背景或前景，并且区分属于不同类别的汽车和行人。

在各种实施方式中，所述图像处理方法可将特定关注对象后方的背景物模糊化。该图像处理方法还可从渲染图像中至少部分去除任何可能阻挡观看者观看关注对象的遮挡物。此外，该图像处理方法还可将渲染图像中表示关注对象之外的光场中的其他对象的区域模糊化。

例如，当被识别为关注对象的汽车位于作为其背景的建筑物与因行走于该车之前且将其部分遮挡的行人之间时，除了将背景建筑物模糊化之外，渲染图像还可将所述行人至少部分模糊化和/或去除。

本发明实施方式通过根据每一光场光线的深度值向其分配深度导向权重、根据每一光场光线的标记分配结果向其分配标记导向权重、按照加权方案渲染光线等操作实现上述目的。每条光线的深度值和标记分配结果分别通过两种复杂神经网络计算。在一些实施方式中，通过深度信息，对初始类别标记分配结果进行进一步完善。在一些实施方式中，标记导向权重还进一步根据每一标记的关联深度值进行分配。

对于本领域技术人员而言，根据以下“具体实施方式”、“附图说明”及“权利要求书”，上述及其他方面、特征和优点将变得显而易见。

附图说明

本专利或申请文件包含至少一张彩色附图。当需要配有彩色附图的本专利或本专利申请公开文本的副本时，可从专利局付费申请获得。

通过结合说明性附图参考以下具体描述，可以更加全面地理解本发明。附图中，类似附图标注指代类似要素或动作。

图1示出了现有光场渲染方法和根据本发明实施方式的图像渲染方法所渲染的图像之间的比较。

图2示出了现有深度变形方法中存在的深度变形问题。

图3为根据本发明实施方式的语义光场渲染法的概略流程图。

图4示出了根据本发明实施方式的图像处理方法概略过程。

图5为根据本发明实施方式的图像处理方法流程图。

图6为根据本发明实施方式生成渲染图像的流程图。

图7为根据本发明实施方式生成渲染图像视差图的流程图。

图8为根据本发明实施方式向每条光线分配类别标记的流程图。

图9为根据本发明实施方式的类别标记分配结果重新计算流程图。

图10所示为本发明实施方式中使用的称作金字塔场景解析网络(PSPNet)的神经网络。

图11a-11g所示为根据本发明实施方式的图9重新计算过程的示例。

图12所示为根据本发明实施方式的类别标记分配结果比较示例。

图13所示为根据本发明实施方式按照加权方案对多条光线进行渲染的概况和示例。

图14a-14d、图15a-15c、图16a-16d、图17a-17c所示为根据本发明实施方式的不同光场渲染示例。

附图中的要素或动作的图示方式出于简单性考虑，并不一定按照任何特定顺序或实施方式呈现。

具体实施方式

为了使本发明的各个方面能被彻底理解，下文中将出于说明目的，给出各种细节。然而，相关领域技术人员可理解的是，即使不具备这些细节，本发明仍可实施。此外，为了避免使本发明晦涩难懂，已知结构和装置将描述得更为概略。在许多情形下，对操作，尤其在软件中实施的操作的描述将足以使人能够实施本发明的各种形式。需要注意的是，本文公开的发明还可应用于多种不同的替代构造、替代装置和替代技术。本发明的完整范围不限于以下描述的示例。

本公开内容描述一种在目标的焦深和光线语义标记两方面在光场中呈现大孔径重新聚焦效果的新语义透视技术。该技术主要具有如下所述的三项关键贡献。

首先，我们提出一种可实现高质量透视效果的新语义光场重新聚焦技术。与传统光场渲染法不同，我们的技术在进行光场渲染时，有效地利用了光线和景深处理之间的语义差异。由于任何三维位置仅能由单个对象唯一占据，因此我们的技术能够避免光场渲染时通常发生的分属于不同层的对象之间的互混。就我们所知，这是光场渲染领域中直接采用语义分析的首项工作。

语义光场渲染的概略流程图示于图3。

其次，为了稳健地实现每条光线的权重分配，我们在之前已实施多项实验，并最终设计出有效的加权函数。该函数可以容忍轻微的深度误差及语义标记误差。该函数由两部分组成。

其中的一部分为深度导向权重：

其中，

为光线深度，d_f为待渲染焦平面深度。根据高斯函数的作用与性质，光线深度越接近d_f，光线所分配的权重越大。

另一部分为语义权重：

其中，

为标记为

的光线的最小深度，

为其最大深度。该函数基于每一对象的权重符合二次分布这一点。

如果以此类权重进行光场渲染，则可以获得如图1所示的强大透视能力。图1所示为采用本发明语义光场渲染(顶部各图)与采用现有方法渲染(底部各图)的三个光场渲染结果之间的比较。

再次，本发明语义光场渲染法需要每条光线的深度信息。目前，已存在多种深度恢复方法，但是所有这些方法均仅恢复中心视角的深度。因此，在本文中，我们先通过其他人的方法获得中心视角深度，然后再通过我们自己的语义一致性深度变形法将中心视角的深度扩展至其余视角。

我们的语义一致性深度变形法能够解决现有深度变形法中始终存在的错误深度变形和未知的深度变形问题。以下，通过图2，对此类问题进行说明。

为了解决上述第一项问题，当给定中心视角视差图(等效于深度图)M_d_sr_tr时，利用下式将映射至视角C(s，t)的图进行变形：

M_d(s，t，u，v)＝min{M_d(s_r，t_r，r_r，v_r)|u_r+M_d(s_r，t_r，u_r，v_r)×(s_r--)＝u，v_r+M_d(s_r，t_r，u_r，v_r)×(v_r-v)＝v}

随后，通过应用我们的深度变形方法，使得自基准视角变形得到的像素点具有颜色和标记两种外观信息。为了标记的一致性，我们开发了一种基于标记的平滑方法。我们假设每个对象均出现于基准视角下。此时，仍然保有粗略传播深度图。

对于给定的粗略传播深度图M_d(s，t)及其相应的标记图M_l(s，t)，设Ω_i ^k为标记为i类的具有明确深度值的像素组，Ω_i ^u为具有未知深度值的像素组。对于任何属于Ω_i ^u的p(u，v)，均引入中心位于坐标p(u，v)处的n×n窗口。如果发现该窗口内的像素组Ω_i ^u为Ω_i ^k的一部分且具有多于N_thr个元素，则p(u，v)的深度值取像素组Ω_i ⁿ的平均深度值。否则，递归式地使所述窗口的高度和宽度加倍，直至能够找到满意的Ω_i ⁿ，或者直至所述窗口的宽度或高度超出M_d(s，t)的大小。最后，将p(u，v)的深度值设为像素组Ω_i ⁿ的平均深度值。如此，可以摆脱上述现有深度变形法的第二项问题。

我们的语义光场渲染法还需要深度图。深度信息可通过Kinect等某些装置获得。此外，也可通过光场立体匹配算法获得深度。虽然可以通过任何可行方法获得深度，但与真实值(精确到毫米)比较，深度图的误差一般优选在5％以内。

类似地，语义分割图也可通过不同方法获得，但语义分割图一般优选使得已标记对象的至少90％的区域为真。

图4a至图4c所示为根据本发明实施方式的图像处理方法的概略过程。该图像处理方法也可称为语义透视光场渲染法。图4a-4c旨在无需具体条件和公式而在极高层面上展现本发明实施方式的背景和某些要素。

图4a为作为成像处理方法输入物，其为一组图像402，称为“光场图像”。在光场中，桌上放置作为关注对象的小猫模型以及对该小猫模型形成遮挡的母鸡模型。光场的数学模型和表示形式见下文中图4a说明部分的后文。

图4b包含通过深度学习获得且分配至光场图像各个像素的初始类别标记404。图4b还包含深度图406(由于概念相近，因此有时在文献中也称视差图)。在图4b中，所分配的类别标记为两种，其中一种针对母鸡模型，另一种针对母鸡模型后方的小猫模型。深度图指示出视场中每一像素到相机的距离。

图4c为该成像处理方法对图4a中光场图像的渲染结果408。在图4c中，对小猫模型形成遮挡的母鸡模型的大部分像素已被去除或模糊化，从而在光场的渲染图像中产生透视效果。

通常，光场可由五维全光函数表示，该函数可表示从三维空间内任意位置和方向上观察到的光(也称光线)的强度。当为了实现高效性和/或简单性而需要做出某些限制或假设时，也可减少维数。

一种常见的简化方式为通过假设光场测量空间为光线辐照度沿直线保持恒定的自由空间而以四维函数表示光场。随后，该四维光场表示形式可通过光线与置于任意位置的两个平面的交点的坐标，对光线进行参数化。第一平面的坐标系表示为(u,v)，该坐标系表示相应相机的像素坐标。第二平面的坐标系表示为(s,t)，该平面表示相机位置，也称为焦平面和相机平面。该坐标系统所定义的具有一定取向的光线首先在坐标(u,v)处与uv平面相交，然后在坐标(s,t)处与st平面相交，因此表示为L(u,v,s,t)。如此，描述光场的全光函数便从五维减少至四维，并由四个坐标(u,v,s,t)参数化。类似地，每条光线由其与st和uv两个平行平面的交点参数化为四元组r＝[u,v,s,t]。

通过以上表示方式，二维图像成为四维光场的二维切片，而根据一组图像创建光场这一操作对应于在四维光场表示形式中插入所有的二维切片。类似地，新视角的生成对应于对切片的提取和重新采样。

关于光场表示形式和模型的更多细节可参考M.Levoy等人在Proc SIGGRAPH(1996年)上发表的“Light Field Rendering”(“光场渲染”)一文，其全部内容通过引用并入本文。

在光场渲染当中，光场独特的渲染能力在于捕获后重新聚焦。对于给定的虚拟焦平面z＝d_f，可以确证的一点是，形成光场的光线与从如下焦平面发出的光线相仿：

其中，E(u′，v′)为本来应该呈现于合成膜平面上的辐照度图像值，而A(s，t)表示控制光线聚集角度范围的虚拟孔径(如孔内为1，孔外为0)。

根据上式实施光场渲染时一般涉及通过不同方法对其中的积分进行数值逼近。如R.Ng等人在Computer Science Technical Report(CSTR)(2005年02期)上发表的“LightField Photography with a Hand-held Plenoptic Camera”(“手持式全光相机的光场摄影”)一文所述，频率空间内可加速完成重新聚焦过程。最新的方法进一步通过深度导向光线插值法最大程度地减少叠影(如Y.Yang等人在Proc IS&T International Symposium onElectronic Imaging(2016年)上发表的“Virtual DSLR:High Quality Dynamic Depth-of-Field Synthesis on Mobile Platforms”(虚拟DSLR：移动平台上的高质量动态景深合成)一文)、渗色(如J.Fiss等人在Proc IEEE Comput Soc Conf Comput Vis PatternRecognit(2015年6月，623～631页)上发表的“Light Field Layer Matting”(光场图层抠图)一文)等视觉伪影，其中，深度图既可通过主动三维感测法(如R.A.Newcombe等人在ProcIEEE Int Sym Mix Augment(2011年10月，127～136页)上发表的“Real-time densesurface mapping and tracking”(KinectFusion：实时致密表面映射和跟踪)一文)获得，也可通过被动光场立体匹配法(如H.Jeon等人在Proc IEEE Comput Soc Conf Comput VisPattern Recognit(2015年6月，1547～1555页)上发表的“Accurate Depth MapEstimation from a Lenslet Light Field Camera”(微透镜光场相机的精确深度图计算法)一文以及S.Wanner等人在Proc IEEE Comput Soc Conf Comput Vis PatternRecognit(2012年6月，41～48页)上发表的“Globally consistent depth labeling of 4Dlight fields”(四维光场的全局一致性深度标记法)一文)获得。以上参考文献的全部内容通过引用并入本文。

通过将所述孔径设得非常大(例如，通过光场相机阵列)，重新聚焦效果还可进一步模拟虚拟透视效果，并可将前景部分去除。然而，当仅使用重新聚焦时，即使在全孔径(即对相机阵列内的所有相机加以使用)下，渲染后仍有严重的前景残留。

本公开内容总体上描述一种根据本发明实施方式的图像处理方法。如上所述，该图像处理方法尤其为光场图像渲染方法，用于通过去除遮挡前景并将光场中的非关注对象模糊化而在渲染图像中产生透视效果。

总体而言，在光场图像渲染过程中，所述光场图像渲染方法和系统的实施方式可区分光场中处于不同景深处的对象，以及区分属于不同类别的对象。例如，在光场图像渲染过程中，可将关注对象及其背景区分开来，以及将汽车和行人等不同类别区别开来。

根据本发明实施方式，一种图像处理方法可提供表示光场的信息。此类表示方式的一例为如上所述假设光场测量空间为光线辐照度沿直线保持恒定的自由空间的四维函数。该四维函数既可由函数L(u,v,s,t)表示，也可由足够数量的具有参数r＝[u,v,s,t]的光线样本表示。本领域技术人员可以理解的是，本发明实施方式不以任何方式限制于任何用于实现本发明任何构思的具体表示形式。总体而言，只要光场的某种表示形式能够用于生成单独或共同表示该光场的一幅或多幅图像时，其便足以实现达成或使用本发明的目的。

根据本发明实施方式，所述图像处理方法可指定用于渲染的待聚焦光场内关注对象或焦深。在指定用于渲染的待聚焦光场内的关注对象时，通常只需提供该关注对象的类别或标记名称即可，如汽车、桥梁、办公楼。在指定用于渲染的待聚焦焦深时，该方法可选择用于渲染的焦深值或特定焦深数值范围。

根据本发明实施方式，所述图像处理方法可根据光场表示形式，生成光场渲染图像。以下，将对根据光场表示形式生成光场渲染图像的过程进行详细描述。需要理解的有用一点是，该图像处理方法，更具体而言，所述渲染图像生成过程通过区分位于不同景深处的光场内对象以及区分属于不同类别的光场内对象而聚焦关注对象，并产生透视效果。如以下各例所示，所述区分可采用各种形式。

在一些实施方式中，所述图像处理方法可将关注对象后方的背景物模糊化。该图像处理方法还可从渲染图像中至少部分去除可能阻挡渲染图像观看者观看所述关注对象的遮挡物。在一些实施方式中，该图像处理方法可进一步将渲染图像中表示关注对象之外的光场内其他对象的区域模糊化。

举例而言，图4c渲染图像中已将小猫模型后方的背景墙模糊化。此外，阻挡观看者观看所关注的小猫模型(可以看出，在图4a中被部分遮挡)的母鸡模型已被大部分去除。如图所示，在作为关注对象的小猫模型之外的某些其他区域，如小猫模型前方的部分桌面也被模糊化。

在一些实施方式中，光场可由如上所述的四维函数表示，该四维函数可有效地确定光场内所有具有一定取向的光线。各光线可先在坐标(u,v)处与第一平面uv(即焦平面)相交，然后在坐标(s,t)处与第二平面st相交，从而可由其与st和uv两平行平面的交点参数化为四元组r＝[u,v,s,t]。也就是说，每条光线可由其与焦平面和相机平面的相交部分位置确定。在一些实施方式中，每条光线可对应于渲染图像中的像素。在本说明书中，在不产生任何歧义之处，“光线”一词与其相应像素可互换使用。

渲染图像中的像素可通过对与该像素相对应的光线重新取样的方式进行渲染。在一些实施方式中，所述重新取样过程可通过以待渲染像素附近的像素样本对表示所述光场的函数进行插值的方式进行逼近。渲染和重新取样过程的总体描述见上述Levoy参考文献。

图5示出了根据本发明实施方式的光场渲染流程500。流程500可包括步骤502：构建含深度分量和语义分量的光场权重函数，其中，该权重函数向光场内的光线分配权重。流程500可包括以所述权重函数进行光场渲染的步骤504。

在一种实施方式中，所述权重函数的深度分量和语义分量向光线分别分配深度导向权重和标记导向权重，而且通过将所述深度导向权重和标记导向权重相乘的方式计算所述光线的联合权重。在一种实施方式中，分配至光线的标记导向权重进一步取决于用于渲染的焦深，其中，当所述焦深小于最小深度值或大于最大深度值时，向所述标记导向权重分配最小权重。

图6示出了根据本发明实施方式的渲染图像生成流程600。简而言之，渲染图像生成流程600按如下加权方案实施：在渲染过程中，向不同类别的对象发出的光线分配不同权重，并向不同深度处的对象发出的光线分配不同权重。

流程600可包括计算每条光线深度值的步骤602。该深度值表示渲染图像中相应像素的景深。

流程600可包括向每条光线分配类别标记的可选步骤604。每一类别标记可对应于先前已知并用于对神经网络进行训练的不同类别当中的一者。训练后的神经网络随后用于对光场内的不同对象进行处理和分类。在一些实施方式中，与关注对象的对应光线分配有相同类别标记的光线的渲染权重高于分配有不同类别标记的光线的渲染权重。

流程600可包括按照加权方案对多条光线进行渲染的步骤606。步骤606中的加权方案将区分不同景深处的光场内对象。更具体而言，该加权方案按照如下方式操作：与关注对象像素的对应光线具有相同或相近深度值的光线所分配的渲染权重高于任何具有截然不同深度值的光线所分配的渲染权重。

具体而言，步骤606可通过如下方式实施：向每条光线分配深度导向权重和标记导向权重；并通过将所述深度导向权重和标记导向权重相乘而计算联合权重。所述深度导向权重的分配方式使得：光线深度离关注对象的景深越远，该光线所分配的深度导向权重值越小。所分配的标记导向权重取决于每条光线所分配的类别标记。

在一种实施方式中，对于每一像素，将与该像素相对应的所有光线与其相应联合权重相乘，并将相乘后的光线相互融合。相应地，每一像素均根据与该像素相对应的融合光线进行渲染。

通过参考图4a至图4b，流程600可更加易于理解。图4b中视图406的深度图为步骤602的一例。图4a-4c中并未示出步骤604中关于神经网络的训练或利用训练后的神经网络对不同光场内对象进行分类方面的细节。步骤604中对不同对象的例示分类结果示于视图404，其中，母鸡模型和小猫模型分配有不同标记。另外，图4c所示为渲染过程中如何对具有不同标记的光线以不同方式进行加权的一例。在图4c中，由于母鸡模型的光线在渲染时分配的权重极低，因此母鸡模型几乎从渲染图像中完全去除；而由于小猫模型的光线在渲染时分配的权重较高，因此小猫模型以基本上无阻挡的方式显现而出。

图7示出了根据本发明实施方式计算每条光线深度值的流程700(即步骤602)，该流程包括生成渲染图像的视差图，这一操作对应于步骤702～706。视差图表示渲染图像中每一像素的视差信息，而该信息表示不同位置的相机所拍摄的一对图像之间的差异。

视差图为由图像中每一像素的视差信息构成的图。对于由不同水平位置处的相机拍摄的两幅图像而言，视差是指对象在左右图像中的水平位置差异。左图位置(x,y)处的对象在右图中的位置为(x–d,y)。当对象的视差已知时，该对象的深度z可计算为z＝fB/d，其中，f为相机焦距，B为相机中心之间的距离，也称基线。以下，参考步骤702～706，详细描述视差图生成步骤的细节。

流程700可包括以含成对类似图像和成对非类似图像的数据集训练卷积神经网络的步骤702。

流程700可包括通过以训练后的卷积神经网络处理成对图像的每一图块而获得该每一图块的初始匹配代价的步骤704。

流程700可包括以立体方法完善所述每一图块的匹配代价并确定该每一图块视差值的步骤706。

流程700可包括根据视差图和相机中心间距离确定每条光线深度值的步骤708。

具体而言，在一种实施方式中，首先通过基于学习的卷积神经网络进行成对视差图估算。所述卷积神经网络称为MC-CNN，其描述见J

等人在J Mach Learn Res(2016年17期，1～32页)上发表的“Stereo matching by training a convolutionalneural network to compare image patches”(卷积神经网络训练图块比较法实现的立体匹配)一文，该文的全部内容通过引用并入本文。MC-CNN通过卷积神经网络进行立体匹配代价的初始化：

C(p，d)＝-s(P^L(p)，P^R(p-d)) (2)

其中，P^L(p)为左图图块，d为所关注的视差，P^R(p-d)为右图图块。s(P^L(p)，P^R(p-d))为该神经网络的输出，表示两图块之间的相似性。

MC-CNN在支持区域内对平均匹配代价迭代式地进行基于十字的代价聚合。MC-CNN与在固定窗口内进行平均操作的算法的区别在于，支持区域内的像素属于同一物理对象。随后，通过在两个水平方向和两个垂直方向上将以下能量函数最小化，实现视差图像的平滑化：

其中，1(·)为指示函数，P₁和P₂为平滑度惩罚项。

在亚像素增强之后，MC-CNN通过引入5×5的中值滤波器和以下双边滤波器而对视差图进行最终完善：

其中，g(x)为标准正态分布，∈_I为强度模糊化阈值，M为归一化常数。

成对图像所生成的视差图，尤其左图的左边缘和右图的右边缘处可能含有孔洞。如果光场由多幅校正后成对图像组成，则视差图的数量足以允许通过对单幅视差图进行变形和插值处理而修复所述孔洞。

设D^R表示用于修复孔洞的基准视差图，

表示基准视差图左侧的两幅视差图，由于D^R中不正确的视差像素表示D^R和D^L之间存在不一致性，因此可以通过对D^R和D^L实施以下不一致性校验而对D^R中的每一视差d进行标记：

对于标记为“遮挡”的位置p，可以在

中实施线性右向搜索，直至找到满足

的“正确”位置p’。如果该搜索不成功，则可以在

中继续搜索，直至找到满足

的正确位置p″。对于标记为“不匹配”的位置，可以先找出16个不同方向上最接近的正确像素，然后以其视差的中值进行插值。每一左视角视图的左边缘也视为“遮挡”，并按照上述方式实施线性搜索。

图8为根据本发明实施方式向每条光线分配类别标记的流程图800(即步骤604)。由于类别标记通常已知，因此所述类别标记分配过程为机器学习领域中典型的分类问题。此类操作在文献及本说明书(有时)中也称为场景解析、语义分割、语义标记等。

流程800可包括以卷积神经网络计算渲染图像每一像素的概率分布的步骤802。每一像素的概率分布包含该像素分别属于不同类别当中每一类别的概率。针对某一类别标记的概率越高，则将这一类别标记分配给所述像素的可能性便高于概率较低的另一类别标记。在一种实施方式中，用于计算概率分布的所述卷积神经网络为称作“金字塔式场景解析网络”的神经网络。如下所述，根据报告，该神经网络可实现良好的结果。

流程800可包括计算每一像素概率分布置信度的步骤804。置信度的计算目的在于将计算出的置信度与阈值相比较，以判断像素的概率分布是否具有足够高的置信度，或该像素的类别标记预测结果是否为应该丢弃的不可靠结果。

流程800可包括步骤806：当计算出的像素概率分布置信度低于阈值时，判断像素的概率分布不可靠，并将与该像素相对应的任何光线指定为“未标记”。阈值的选择为精度与标记类别查全率之间平衡的结果，以下将对此进行进一步详细描述。在一种实施方式中，对于指定为“未标记”的光线，根据这些光线的深度值，重新进行类别标记分配计算。在一种实施方式中，对于与分布于不同景深处的不同对象相对应的光线，同样根据这些光线的深度值，重新进行类别标记分配计算。

流程800可包括步骤808：对于概率分布未确定为不可靠分布的每一其余像素，向该每一其余像素的所有对应光线分配概率为所述概率分布当中最高者的类别标记。

在一种实施方式中，用于计算渲染图像每一像素概率分布的所述卷积神经网络称为金字塔式场景解析网络(PSPNet)，其描述见H.Zhao等人发表于Proc IEEE Comput SocConf Comput Vis Pattern Recognit(2017年7月，6230～6239页)上的“Pyramid SceneParsing Network”(金字塔式场景解析网络)一文，该文的全部内容通过引用并入本文。

PSPNet首先根据称作“残差网络(ResNet)”的深度神经网络计算卷积特征图。为了实现空间语境信息的编码，该网络采用金字塔式特征池化策略生成表示全局和分区语境的四级特征图，然后对池化获得的语境特征图进行上采样，并将其与原始特征图联结后，作为每一像素多类别标记分布预测处理的输入值。此外，还通过获取整个图像概率最高的标记方式，生成最终语义标记。

该模型的构造示于图10，该图为本发明实施方式中应用的PSPNet的概略图1000。对于来自光场图像1001的给定输入图像1002，PSPNet首先通过卷积神经网络(CNN)1003获得该CNN最终卷积层的特征图1004。随后，通过金字塔式解析模块1005获取不同分区的表示形式，然后通过上采样层1006和联结层1007形成同时具有所述金字塔式解析模块的局部和全局语境信息的最终特征表示形式。最后，将所述表示形式提供给卷积层1008，以获得每一像素的最终预测结果。相应地，可以获得每幅光场图像的语义(即类别)标记1010。

在一种实施方式中，类别标记空间一般表示为C＝{1,···,C}，其中，C为语义类别数目。对于每一与虚拟光线[u,v,s,t]对应的像素x_i，PSPNet均计算标记分布p(y_i)，其中，y_i∈C。通过以y_i ^*＝arg max p(yⁱ)作为MAP估算值，可以生成每一像素的标记。

在一种实施方式中，获得PSPNet输出后的下一步骤为估算每一像素标记预测结果的置信度。据观察，边缘标记分布p(y_i)趋向于在对象边界附近等复杂区域处更加发散，而在对象区域内更加集中。因此，可根据下式计算标记分布熵意义上的高置信度语义图：

当每一标记值具有相同概率时，每一像素的标记分布达到最大熵，而当其采取概率为1的单个标记值时，达到最小熵。熵越大，表示标记概率的种类越多，因此像素的置信度越低。

在一种实施方式中，在获得高置信度语义图后，利用简单的阈值策略，将标记预测结果为不可靠结果的像素滤除。具体而言，当初始语义标记预测结果y_i ^*满足以下条件时，视为可信结果：

其中，∈_H为控制精度与其余像素标记查全率之间平衡的模型参数。一般情况下，∈_H越大，精度越低，覆盖率越大；反之亦然。因此，通过调节∈_H的选择结果，可以实现精度与覆盖率之间的平衡。通过应用基于置信度的阈值规则，可以去除大量的不可靠类别标记预测结果，从而改善类别标记分配结果。

在一种实施方式中，在参数∈_H的估算过程中，根据符合上述条件的标记预测结果的质量，引入评分函数。其中，将其余像素的集合记为S_∈，并以语义标记图

估算其精度

(消除背景标记)及覆盖率

(消除背景标记)，其中，TP表示“真阳性”，FP表示“假阳性”，FN表示“假阴性”(在计算Acc和Cvg时，需要对一个视角进行手动标记)。如上所述，通常情况下，∈_H较大，精度越低，但覆盖率越大；反之亦然。为了实现精度与覆盖率之间的平衡，通过使如下评分函数最大化的方式估算∈_H：

Score＝Acc^m·Cvg (8)

其中，m为超参数，表示精度相对于覆盖率的重要性。m值越大，输出语义图的精度一般越高。在一种实施方式中，m选择为等于4。

流程800可包括可选步骤810：对于与处于不同景深处的对象所对应的光线和指定为“未标记”的光线，根据这些光线的深度值，重新进行类别标记分配计算。步骤810的细节见以下图9流程图900。

图9为本发明实施方式中根据深度值重新进行类别标记分配计算的流程图900(即步骤810)。

如步骤810中所述，类别标记分配重新计算针对两部分的光线。第一部分为分配为“未标记”的光线。如步骤804和806中所述，针对每一像素，均先计算其概率分布置信度，当判断概率分布的可靠性不够高时，则将所有与该像素对应的光线分配为“未标记”。第二部分为与具有不同深度值的两种不同对象对应的光线。如图12所示(行1204中视图(b)所示第二例)，两种遮挡物错误地分配了同一标记。由于与所述两种遮挡物像素对应的光线具有不同深度值，因此可以利用这些光线的额外深度信息，对其进行正确标记。

现在参考图11a至图11g，该图所示为重新计算通过深度信息完善的和导向的类别标记分配结果的例示过程。图11a为放置于桌上不同位置处的三个不同对象的说明性输入图1102。这三个对象由近及远分别为玩具马，自行车模型及摩托车模型，而且在观看者视角下处于不同景深处。

图11b所示为分别作为上述步骤602，604和流程图700，800，900的例示处理结果的深度图1104和标记1106(也称高置信度语义图)。具体而言，图11b的顶图为作为流程图700处理结果的深度图1104，其中，像素的深度值越小，像素在该深度图中越淡。图11b的底图为类别标记1106，也称高置信度语义图。可以看出，大部分像素为灰色，表示其分配为“未标记”。其原因在于，在所述高置信度语义图中，这些区域的像素的概率分布置信度(在步骤804中计算)相对较低。需要注意的是，由于所述自行车模型和摩托车模型分别由所述玩具马和自行车模型部分遮挡，因此其像素可能具有较低的置信度，从而使得其大部分在步骤806中被分配为“未标记”。

针对所述深度图和高置信度语义图，如图11c所示，所述重新计算过程首先对每一标记的深度值分布进行建模。在图11c中，对于分别表示所述玩具马、自行车模型及摩托车模型(1108)的标记A，B，C当中的每一标记，通过以分配有相应类别标记的像素的深度值进行正态分布拟合而进行概率分布建模。具体而言，标记为紫色1110的所述玩具马的像素具有0～20的深度分布，标记为绿色1112的所述自行车模型的像素具有20～40的深度分布，标记为青色1114的所述摩托车模型的像素具有50～70的深度分布，

随后，针对每一未标记像素，对于给定的其深度值，所有类别标记的正态分布用于分别查询该像素属于各个类别标记的概率，并将相应分布具有最高概率的一种标记确定为该像素的最优标记。

举例而言，如图11d的标记/深度图所示，本应在真实类别标记图中标记为自行车模型的像素在高置信度语义图1116中未标记。由于其深度值已知，因此通过以该深度值在分别与所述玩具马、自行车模型及摩托车模型相对应的拟合概率分布中进行查询，可以极其容易地确定(如1118所示)其属于所述自行车。

图11e所示为所有未标记像素的类别标记重新计算结果。如图所示，深度值处于各类别标记深度值范围内的所有像素均分配有相应的类别标记。尤其值得注意的是，与图11b所示高置信度语义图的结果相比，所述自行车模型的几乎所有像素均已分配了正确的类别标记。此外，所述摩托车模型像素的类别标记分配结果也获得了大幅改善。

需要注意的是，在图11e中，与对象具有相同深度值的地面部分也被分配了与该对象相同的类别标记。例如，由于桌面的底部条形区域像素的深度值落入玩具马标记的深度值分布范围内，因此该底部条形区域获得与玩具马相同的标记。类似地，桌面中部条形区域获得与自行车模型相同的标记，桌面底部获得与摩托车模型相同的标记。

图11f所示为正态校正过程，该过程通过向属于地面的像素分配“未标记”结果而去除正态比较过程中地面导致的上述异常值(即桌面的各条形区域)。图11g所示为最终的类别标记分配结果。

再次参考图9，流程900可包括步骤902：对于不是因置信度不够高而未标记的像素的其他像素所分配的每一类别标记，为该类别标记创建概率分布函数。如以上参考图11c所述，这一点通过以已分配所述每一各类别标记的所有光线的深度值进行正态分布拟合而实现。图11c所示为以分别标记为玩具马、自行车模型及摩托车模型的像素/光线的深度值进行拟合后获得的所有三种正态分布。

流程900和类别标记分配重新计算步骤810还可用于分离彼此靠近但处于不同景深处的两种遮挡物。由于此两种遮挡物可能极大程度上呈现为同一对象，因此所述分类过程有时无法正确地将其区分标记。由于所述重新计算基于深度值，因此流程800可以对此类错误进行校正。以下，将参考图12，对此进行说明。

流程900可包括步骤904：对于每一与未标记光线相对应的像素以及每一其余像素，确定类别标记当中相对于该每一像素深度值的概率分布函数值最高的类别标记。如图11d所示，当未标记像素的深度值给定为输入值时，可以通过图11c所示各拟合正态分布计算该未标记像素分别属于玩具马标记、自行车模型标记及摩托车模型标记的概率，并可确定其中具有最高概率的类别标记。

在确定具有最高概率的类别后，流程900可包括将该类别标记分配给与所述每一像素对应的光线的步骤906。

如以上参考图11f所述，流程900可包括步骤908：向属于地面的像素分配“未标记”结果，其中，该地面与对象具有相同深度值的部分已被分配了与该对象相同的类别标记。

图12所示为根据本发明实施方式的类别标记分配结果的比较当中的三例。每一例(即每一行1202，1204，1206)均包括由示于列(a)～(c)中的三幅图像组成的一组图像。列(a)中的图像为待渲染的光场图像。列(b)中的图像为步骤802～808的初始类别标记分配结果。列(c)中的图像是作为步骤810/流程图900结果的依深度完善/重新计算的类别标记分配。

上文中，已参考图11a、图11b、图11g，对由行1202中的三幅图像组成的一组图像所示的第一例进行了描述和说明。图12的重点在于，在第一例中，当所述自行车模型和摩托车模型被其他对象遮挡后，所述高置信度语义图(即步骤802-808的处理结果)无法充分或准确地对其进行标记。通过在流程图900中以每条光线/像素的深度信息进行完善后，1202(c)中的类别标记分配结果得到显著改善。

由行1204中的三幅图像组成的一组图像所示的第二例展示了流程900如何对呈现为彼此靠近但位于不同景深处的两种遮挡物进行正确标记。在行1204的图(a)中，渲染过程中待聚焦的小猫模型位于母鸡模型后方且被其遮挡。如图(b)所示，步骤802～808处理后所述两模型呈现为同一对象，因此这些步骤无法正确地区别标记此两模型。如图(c)所示，步骤810/流程图900利用位于不同景深处的所述两对象的深度信息，成功地将小猫模型的像素正确标记为黄色，并将母鸡模型的像素正确标记为红色。

由行1206中的三幅图像组成的一组图像所示的第三例为展示流程900如何改善位于不同景深处的遮挡物类别标记分配结果的另一例。在行1206的图(a)中，一名男士坐在位于茂叶丛后方的沙发上，而该茂叶丛对所述男士形成严重遮挡。此外，在男士左侧，沙发上还放有两个枕头。如图(b)所示，对于呈现为与坐于后方的男士接近且对该男士构成遮挡的所述茂叶丛的大部分像素而言，步骤802～808均无法对其进行标记。如图(c)所示，步骤810/流程图900显著地改善了所述茂叶丛的标记结果，主要原因在于其利用了位于不同景深处的所述男士和茂叶丛的深度信息。

图13所示为在本发明实施方式中根据加权方案对多条光线进行渲染的概况和示例。输入光场图像(1302)、深度图(1304)以及类别标记(1306)的分图已在上文中分别参考图4a、图11b和图11g进行了图示和/或描述。简言之，图13所示为利用步骤602/流程图700生成的深度图1304以及步骤604/流程图800/900生成的类别标记1306实施步骤606所述按照加权方案渲染光线的步骤。

具体而言，图13所示为按照加权方案在三个焦平面上进行的光场渲染，各焦平面分别为：聚焦于所述摩托车模型的远侧平面(1308)；聚焦于所述自行车模型的中间平面(1310)；以及聚焦于所述玩具马的近侧平面(1312)。对于每一焦平面，图示渲染效果中渲染光线所分配的权重分别采用深度导向加权(1314)，标记导向加权(1316)以及融合了深度导向加权和标记导向加权的联合加权(1318)(在一种实施方式中，通过将所述两权重相乘而实现融合)。

再次参考图6，尤其步骤606，在一种实施方式中，光线的深度导向权重按照下式分配：

其中，

为光线的深度值，d_f为焦深，σ_d为控制对渲染有影响的光线数目的标准差，C₁为取值处于0和1之间的第一渐消因子。

在上述实施方式中，深度导向权重的分配方式如下：当光线深度与焦平面重合时，即

该光线聚焦，并分配完整的深度导向权重；当光线深度偏离焦平面，该光线离焦，并分配较小的深度导向权重，而且该权重取决于光线深度与焦平面的偏离程度。

渐消因子C₁的导入目的在于使得光线的深度导向权重范围为C₁和1之间，而并非0和1之间。C₁越小，偏离焦深的对象所产生的影响越大。通过设置不同的C₁值，该渲染方法能够实现不同的透视效果。此外，C₁的目的还在于避免发生

的情形，在该情形下，光线深度与焦平面的偏离程度极大，所分配的深度导向权重小至接近于零，从而产生使得某些对象变得几乎不可见的不良渲染效果。通过设置渐消因子C1，偏离焦平面的光线所分配的深度导向权重将始终大于C1，从而不会接近于零。

在一种实施方式中，标记导向权重依照下式计算：

其中，

表示光线r_st的类别标记，

d_f为焦深，

为分配有类别标记

的所有光线深度当中的最小深度，

为分配有类别标记

的所有光线深度当中的最大深度，C₂为取值介于0和1且决定最小权重的第二渐消因子。

根据一种实施方式，上述用于分配标记导向权重的式(11)和式(12)可按下述方式理解。总而言之，分配给光线的标记导向权重进一步取决于指定的渲染焦深。当该焦深小于最小深度值或大于最大深度值时，标记导向权重分配为最小权重，其为所述第二渐消因子C₂。与C₁相似，通过引入最小权重阈值C₂，当焦平面深度处于光线深度范围之外时，光线不会变暗。所述最小深度值和最大深度值定义了所有具有相同标记r_st的光线的深度范围。具体而言，根据式(12)，最小深度值为分配有相应类别标记的所有光线深度当中的最小深度，而最大深度值为分配有相应类别标记的所有光线深度当中的最大深度。

也就是说，光线的标记导向权重取决于焦平面相对于与所关注光线分配有相同类别标记的所有光线的深度范围的位置。当焦平面处于上述深度范围之外(即小于上述最小深度值，或大于上述最大深度值)时，将光线的标记导向权重设定为最小权重C₂。否则根据焦平面在所有分配为相同类别标记的光线的深度范围内的相对位置，将光线的标记导向权重设定为大于C₂和小于1的值。

在向光场内的每条光线分配标记和深度值后，可通过将深度导向权重和标记导向权重相乘而计算所述每条光线的联合权重：

随后，可通过将上述联合权重以st归一化而计算归一化联合权重：

最后，可按照上述式(1)，通过将所述归一化加权函数与现有光场渲染公式相加而进行步骤606所述的光场图像加权渲染：

其中，

W_norm(s_r，d_r，d_f)为以上描述且定义的光线r的类别标记S_r和深度d_r的归一化加权函数。

完整算法如下：

算法：实时语义光场渲染

Require：光场L(u，v，s，t)；深度图D(s，t)；类别标记图S(s，t)。

图14a至图14d、图15a至图15c、图16a至图16d、图17a至图17c所示为根据本发明实施方式的不同光场渲染示例。

图14a至图14d已在以上图13中用于说明按加权方案进行光线渲染的概况。其中，图14a至图14d所示为不同焦平面上的语义透视渲染效果。图14a为含有放于桌上的玩具马、自行车及摩托车的输入图。图14b所示为以近侧平面为焦平面(即聚焦于所述玩具马)的语义透视渲染效果。图14c为以中间平面为焦平面(即聚焦于所述自行车模型)的语义透视渲染效果。图14d为以远侧平面为焦平面(即聚焦于所述摩托车模型)的语义透视渲染效果。

图15a至图15c为本语义透视渲染法与常规重新聚焦法对上述光场示例之一的渲染效果示意图和比较图。图15a为含有放于桌上的母鸡模型和小猫模型的输入图，其中，母鸡模型位于小猫模型前方，并对小猫模型形成遮挡。图15b为聚焦于小猫模型的语义透视渲染效果，其中，遮挡在前方的母鸡模型已几乎完全去除或模糊化。图15c所示为以小猫模型为重新聚焦平面的常规重新聚焦法的渲染效果。虽然该重新聚焦法的渲染效果非常成功地将遮挡在前方的母鸡模型模糊化，但是该母鸡模型的残余部分仍然非常明显，严重地影响了作为关注对象的小猫模型的观看。

图16a至图16d为本语义透视渲染法与常规重新聚焦法对另一光场的渲染效果示意图和比较图。该光场称作斯坦福“茂叶后的玩具悍马和士兵”光场。图16a和图16b为该光场内的两图。如图16c示出的语义透视渲染法显著增强了透视能力。然而，如图16d所示，常规重新聚焦法存在大量的前景残留。

图17a至图17c为本语义透视渲染法与常规重新聚焦法对另外三个光场的渲染效果示意图和比较图。对于每一光场，均给出并比较三个焦平面(平面A、平面B、平面C)的渲染效果。本语义透视渲染法标为“SST”，而常规重新聚焦法标为“常规”。在所有的三项比较中，与常规重新聚焦法相比，本语义透视渲染法均显著地减小了重影效果，并使被遮挡物能够被更加清晰地看到。

图17a的光场与图12光场(1206的第三例)相同，有时称为“茂叶丛”光场。坐于枝叶茂盛的该茂叶丛后沙发上的男士被该茂叶丛严重遮挡。传统重新聚焦由于未考虑环境的标记信息，因此在脸部和身体部位造成明显的重影类伪影。与此相对，本语义透视渲染法利用深度和标记向每条光线分配不同权重，从而当聚焦于所述男士身上时，从而几乎完全去除了作为前景的茂叶丛。如背景技术部分中所述，透视遮挡物是安保监控领域中至关重要的一点。

在图17a中，平面A的聚焦于作为前景的茂叶丛，平面B聚焦于所述男士，平面C聚焦于背景墙。

图17b所示为第二光场，有时称为“行人”光场。其中，一名男士行走于白色汽车的前方。当针对平面A聚焦于所述汽车上时，本语义透视渲染法降低了行人的影响，使得所述汽车呈现得更为清晰。当针对平面C聚焦于后方的所述建筑物上时，现有方法在建筑物表面上呈现出混杂颜色，而本语义透视渲染法能够呈现正确的颜色。

图17c所示为第三光场，有时称为斯坦福“CD盒与海报”光场。对于所有的三个焦平面，本语义透视渲染均实现了优越的透视效果。在图17c中，平面A聚焦于作为前景的花朵，平面B聚焦于CD，平面C聚焦于背景海报。

在一种实施方式中，一种用于通过去除遮挡前景并将非关注对象模糊化而在光场的渲染图像中产生透视效果的图像处理方法包括：提供表示光场的信息，该光场表示形式能够用于生成该光场的一幅或多幅图像；指定用于渲染的待聚焦光场内关注对象或焦深；以及根据所述光场表示形式，生成所述光场的渲染图像，其中，该图像处理方法在渲染时通过区分位于不同景深处的光场内对象以及分属不同类别的光场内对象而聚焦关注对象并产生透视效果。

在一种实施方式中，一种图像处理方法用于将关注对象后方的背景物模糊化以及从渲染图像中至少部分去除渲染图像中的可阻挡观看者观看所述关注对象的遮挡物。

在一种实施方式中，一种图像处理方法用于将渲染图像中表示关注对象以外的光场中的其他对象的区域模糊化。

在一种实施方式中，所述光场表示形式含有多条光线，每条光线均对应于渲染图像中的像素。

在一种实施方式中，所述光场包括焦平面和相机平面，其中，每条光线均由其与所述焦平面和相机平面的交点位置确定，渲染图像的像素通过对像素的对应光线进行重新取样的方式渲染。在一种实施方式中，所述重新取样过程通过对以待渲染像素附近的像素样本对表示所述光场的函数进行插值的方式进行近似处理。

在一种实施方式中，渲染图像的生成包括：向每条光线分配类别标记。所述每一类别标记均与不同类别当中的一者相对应。与关注对象的对应光线分配有相同类别标记的光线的渲染权重高于分配有不同类别标记的光线的渲染权重。

在一种实施方式中，光线所分配的标记导向权重进一步取决于指定的渲染焦深，其中，当所述焦深小于最小深度值或大于最大深度值时，向所述标记导向权重分配最小权重，所述最小深度值为分配有所述类别标记的所有光线的深度当中的最小深度，所述最大深度值为分配有所述类别标记的所有光线的深度当中的最大深度。

上述各种模块、单元和元器件可实施为：专用集成电路(ASIC)；电子电路；组合逻辑电路；现场可编程门阵列(FPGA)；执行代码的处理器(共享、专用或成组)；或者提供上述功能的其他合适硬件部件。所述处理器可以为Intel公司的微处理器，或者为IBM公司的大型计算机。

需要注意的是，上述功能当中的一项或多项可由软件或固件实施，该软件或固件存储于存储器内并由处理器执行，或者存储于程序存储器内并由处理器执行。此外，该软件或固件可存储和/或传输于任何计算机可读介质之内，以供指令执行系统、装置或设备使用或与其连接，该指令执行系统、装置或设备例如为基于计算机的系统、含处理器的系统或者其他可从所述指令执行系统、装置或设备中获取指令并对其加以执行的系统。在本文语境中，“计算机可读介质”可以为任何可含有或存储供所述指令执行系统、装置或设备使用或用于与其结合使用的程序的介质。该计算机可读介质可包括，但不限于，电子、磁性、光学、电磁、红外或半导体系统、装置或设备，便携式计算机磁盘(磁性)，随机存取存储器(RAM)(磁性)，只读存储器(ROM)(磁性)，可擦除可编程只读存储器(EPROM)(磁性)，CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW等便携式光盘，或袖珍闪存卡、安全数字卡、USB存储装置、记忆棒等闪存。

上述各种本发明实施方式仅为优选实施方式，并不旨在限制本发明的范围，而且本发明范围涵盖不脱离本发明精神和原则的任何修饰方案、等同方案及改进方案。