CN111382753B - 光场语义分割方法、系统、电子终端及存储介质 - Google Patents

光场语义分割方法、系统、电子终端及存储介质 Download PDF

Info

Publication number
CN111382753B
CN111382753B CN201811611298.4A CN201811611298A CN111382753B CN 111382753 B CN111382753 B CN 111382753B CN 201811611298 A CN201811611298 A CN 201811611298A CN 111382753 B CN111382753 B CN 111382753B
Authority
CN
China
Prior art keywords
pixel
super
superpixel
semantic
light field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811611298.4A
Other languages
English (en)
Other versions
CN111382753A (zh
Inventor
刘睿洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yaoke Intelligent Technology Shanghai Co ltd
Original Assignee
Yaoke Intelligent Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yaoke Intelligent Technology Shanghai Co ltd filed Critical Yaoke Intelligent Technology Shanghai Co ltd
Priority to CN201811611298.4A priority Critical patent/CN111382753B/zh
Publication of CN111382753A publication Critical patent/CN111382753A/zh
Application granted granted Critical
Publication of CN111382753B publication Critical patent/CN111382753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供光场语义分割方法、系统、电子终端及存储介质,所述方法包括:在相机平面中选取一参考视角进行光场采样;基于超像素分割算法计算该参考视角的超像素集合,并对该参考视角的超像素集合进行重投影,以获得该参考视角所对应的其它各视角的超像素集合;对焦栈中的重对焦深度不同的多个图像进行焦距融合并对像素所属超像素集合进行投票;基于神经网络算法对所述焦栈中的图像进行语义分析,以获得每个超像素集合的语义分类;汇总所述焦栈中所有超像素集合的语义分类并进行投票,以确定每个超像素集合所对应的唯一的语义类别编号。本发明不再受限于投影变换导致的深度信息缺失,有效识别遮挡从而对被遮挡物体的像素点做出正确的类别预测。

Description

光场语义分割方法、系统、电子终端及存储介质
技术领域
本发明涉及光场技术领域,特别是涉及光场语义分割方法、系统、电子终端及存储介质。
背景技术
光场是计算机摄影中常用的光线表示方式,是指光在每一个方向通过每一个点的光量。语义分割是计算机视觉中的基础任务之一,该任务以二维图像为输入,通过视觉算法分割出图像中的对象区域,并识别其中的内容,也即,在保证图像域连续性的同时为图片的每个像素点确定所属语义类别。
光场语义分割则是指在光场的设定下对场景中的每条光线赋予语义分类,其目标是场景中的每一条光线,借助光场的重对焦特性,可动态确定成像平面,对不同深度的二维图像进行语义分割,通过统一优化框架将二维分割融合到光线表示中,以实现对光场中每一条光线的语义分割。
但是,传统二维图片域的分割算法往往受限于投影变换导致的深度信息缺失,多数现实场景中存在复杂的遮挡情况,而算法并不能有效识别遮挡,从而无法对被遮挡物体的像素点做出正确的类别预测。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供光场语义分割方法、系统、电子终端及存储介质,用于解决传统二维图片域的分割算法往往受限于投影变换导致的深度信息缺失,多数现实场景中存在复杂的遮挡情况,而算法并不能有效识别遮挡,从而无法对被遮挡物体的像素点做出正确的类别预测的技术问题。
为实现上述目的及其他相关目的,本发明的第一方面提供一种光场语义分割方法,所述方法包括:在相机平面中选取一参考视角进行光场采样;基于超像素分割算法计算该参考视角的超像素集合,并对该参考视角的超像素集合进行重投影,以获得该参考视角所对应的其它各视角的超像素集合;对焦栈中的重对焦深度不同的多个图像进行焦距融合并对像素所属超像素集合进行投票;基于神经网络算法对所述焦栈中的图像进行语义分析,以获得每个超像素集合的语义分类;汇总所述焦栈中所有超像素集合的语义分类并进行投票,以确定每个超像素集合所对应的唯一的语义类别编号。
于本发明第一方面的一些实施方式中,所述基于超像素分割算法计算该参考视角的超像素集合并对该参考视角的超像素集合进行重投影,以获得对应于该参考视角的其它各视角的超像素集合的步骤,具体包括:以相机平面的中心视角作为参考视角,并基于SLIC算法计算中心视角的超像素集合;基于最小化光场连续性能量函数确定其它各视角最优的超像素集合,以使基于中心视角的超像素分割与三维空间的分割相匹配。
于本发明第一方面的一些实施方式中,所述最小化光场连续性能量函数包括:
Figure BDA0001924809120000021
其中,λcEcolorpEpos为超像素分割中的基础能量函数,用于表示像素与超像素中心之间的颜色及和位置差异;λsEcon表示像素与超像素中心之间的视差一致性;λγErepj表示像素与超像素中心之间的重投影误差;λc、λp、λs、λγ分别为常数。
于本发明第一方面的一些实施方式中,令中心视角的超像素集合为S(u0,v0),超像素所在平面为πsj(α,β,γ,),其超像素中心点为πsj,超像素平面法向量为
Figure BDA0001924809120000022
对于像素点p∈sj,设该像素点距其超像素中心πsj的偏移为(xj,yj),以投影距离
Figure BDA0001924809120000023
表示视角V(ui,vi)下p与超像素中心πsj的距离,以中心视角为参考视角,距离一致性表示为:
Figure BDA0001924809120000024
Figure BDA0001924809120000025
其中,
Figure BDA0001924809120000026
于本发明第一方面的一些实施方式中,所述重投影误差表示为:Erepj=||Piαi,j0,j||2;其中,αi,j表示视角
Figure BDA0001924809120000027
图像中超像素
Figure BDA0001924809120000028
的像素中心,Pi表示从视角
Figure BDA0001924809120000029
到视角
Figure BDA00019248091200000210
的映射。
于本发明第一方面的一些实施方式中,所述对焦栈中的对焦深度不同的多个图像进行焦距融合并对像素所属超像素集合进行投票的步骤,具体包括:在焦距融合过程中将各视角颜色信息进行融合;其中,对像素所属超像素集合进行投票包括:
Figure BDA00019248091200000211
Figure BDA00019248091200000212
其中,Cx,y,d,Sx,y,d表示重对焦深度d下面的重对焦图像中的像素点px,y的颜色及语义分类,
Figure BDA00019248091200000213
表示光场视角Vi的采样中对应的像素点px,y的颜色及语义分类,MiM0 -1表示重投影矩阵。
于本发明第一方面的一些实施方式中,所述确定每个超像素集合唯一的语义类别编号的步骤,具体包括:
Figure BDA00019248091200000214
其中,
Figure BDA00019248091200000215
表示视角Vi下超像素sj的语义分类,
Figure BDA00019248091200000216
表示对焦栈中,对焦深度为d的图像中超像素sj的语义分类。
为实现上述目的及其他相关目的,本发明的第二方面提供一种光场语义分割系统,所述系统包括:光场采样模块,用于在相机平面中选取一参考视角进行光场采样;超像素分割模块,用于基于超像素分割算法计算该参考视角的超像素集合并对该参考视角的超像素集合进行重投影,以获得对应于该参考视角的其它各视角的超像素集合;投票模块,用于对焦栈中的重对焦深度不同的多个图像进行焦距融合并对像素所属超像素集合进行投票;语义分析模块,用于基于神经网络算法对所述焦栈中的图像进行语义分析,以获得每个超像素集合的语义分类;语义类别确定模块,用于汇总所述焦栈中所有超像素集合的语义分类并进行投票,以确定每个超像素集合所对应的唯一的语义类别编号。
为实现上述目的及其他相关目的,本发明的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述光场语义分割方法。
为实现上述目的及其他相关目的,本发明的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述光场语义分割方法。
如上所述,本发明的光场语义分割方法、系统、电子终端及存储介质,具有以下有益效果:本发明利用光场的重对焦特性,实现动态确定成像平面,对不同深度的二维图像进行语义分割,通过统一优化框架将二维分割融合到光线表示中,以实现对光场中的每条光线赋予语义类别。本发明解决了传统二维图片域的分割算法所存在的种种问题,不再受限于投影变换导致的深度信息缺失,有效识别遮挡从而对被遮挡物体的像素点做出正确的类别预测。
附图说明
图1显示为本发明一实施例中的光场语义分割方法的流程示意图。
图2a显示为本发明一实施例中的理想情况下的光场图像示意图。
图2b显示为本发明一实施例中的失焦情况下的光场图像示意图。
图2c显示为本发明一实施例中的遮挡情况下的光场图像示意图。
图3显示为本发明一实施例中的光场语义分割系统的结构示意图。
图4显示为本发明一实施例中的电子终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
光场是计算机摄影中常用的光线表示方式,可采用全光函数的标识方式来表示光场,具体以7维向量标识采样场中任意一点向任意方向传播的光线的强度,即L(x,y,z,θ,φ,λ,t),其中以[x,y,z]表示光线原点位置,极坐标[θ,φ]表示光线传播方向,λ为波长,t为时间。
实际应用中,以RGB颜色信息表示波长,帧数表示时间,从而将7维全光函数降为5维。考虑到多数成像系统中,光线只在有限光路中传播,从而可定义2个有限的相机平面Pu,v,即镜头中心平面,以及成像平面Px,y,即传感器所在平面,从而得到四维光场表示方式L(u,v,x,y)。根据需求对四维光场采样,可得到二维图像表示,从而可应用传统视觉分析算法,例如,在相机平面Pu,v采样[u0,v0],可得到相应的二维图片I(u0,v0,x,y)。
语义分割是计算机视觉中的基础任务之一,该任务以二维图像为输入,通过视觉算法分割出图像中的对象区域,并识别其中的内容,也即,在保证图像域连续性的同时为图片的每个像素点确定所属语义类别。传统分割方法多基于条件随机场、随机森林等统计学方法构建分类器,深度学习之后,运用卷积神经网络实现高效图片分类的同时,在分割问题上也取得了重大进展。
同时,随着多视几何的发展,越来越多的研究者将立体视觉信息融合到传统单目视觉算法流程中,往往能够取得更好的算法表现,但多帧采集难以达到实时效果,而多相机系统又存在同步等复杂的系统设定问题。而光场作为多视几何的一种特殊情况,将多视几何与单目算法的优点相结合,实现在一次曝光中收集多视角信息。
光场语义分割是指在光场的设定下对场景中的每条光线赋予语义分类。传统二维图片域的分割算法往往受限于投影变换导致的深度信息缺失,多数现实场景中存在复杂的遮挡情况,而算法并不能有效识别遮挡,从而无法对被遮挡物体的像素点做出正确的类别预测。光场语义分割的目标是场景中的每一条光线,借助光场的重对焦特性,可动态确定成像平面,对不同深度的二维图像进行语义分割,通过统一优化框架将二维分割融合到光线表示中,以实现对光场中每一条光线的语义分割。
鉴于上述存在于现有技术中的种种技术问题,本申请提供光场语义分割方法、系统、电子终端及存储介质,来有效解决该些问题,下文将结合具体的实施例来解释说明本申请的技术方案。
如图1所示,展示本申请一实施例中光场语义分割方法的流程示意图。于本实施例中,所述光场语义分割方法具体包括步骤S11、步骤S12、步骤S13、步骤S14以及步骤S15。
需要说明的是,在一些实施方式中,所述光场语义分割方法可应用于包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备,以及外部端口等组件的计算机设备。所述计算机设备包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑。在另一些实施方式中,所述光场语义分割方法也可应用于服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成,本申请对此不作限定。
在步骤S11中,在相机平面中选取一参考视角进行光场采样。
优选的,本实施例以相机平面的中心视角作为参考视角。针对焦距为f0,聚焦深度为d0的光场L(u,v,x,y),作为参考视角的中心视角表示为L(u0,v0,x,y)。
在步骤S12中,基于超像素分割算法计算该参考视角的超像素集合并对该参考视角的超像素集合进行重投影,以获得对应于该参考视角的其它各视角的超像素集合。
超像素分割算法,是指将具有相似纹理、颜色、亮度等特征的相邻像素构成有一定视觉意义的不规则像素块。它利用像素之间特征的相似性将像素分组,用少量的超像素代替大量的像素来表达图片特征,很大程度上降低了图像后处理的复杂度,所以通常作为分隔算法的预处理步骤。
具体的,所述超像素分割算法例如为SLIC(Simple Linear IterativeClustering)算法,即限行迭代聚类算法。SLIC算法将彩色图像转化为CIELAB颜色空间和XY坐标下的5维特征向量,然后对5维特征向量构造距离度量标准,对图像像素进行局部聚类。SLIC算法能够生成紧凑、近似均匀的超像素,在运算速度、物体轮廓保持、超像素形状方面具有非常优越的性能,更为符合人们期望的图像分割效果。
由于中心视角的图像并不全都是理想的,还存在失焦、遮挡等不理想的情况,导致重投影方式获得的各个视角分割置信度比较低。为方便本领域技术人员理解,现结合图2a、2b、2c分别就理想情况下、失焦情况下、以及遮挡情况下的光场图像示意图。其中,位于图中间名为“Main Lens”的部件为相机透镜,位于图左侧名为“Sensor”的平面为传感器所在平面,位于图右侧名为“Object”则为被拍摄对象物。
如图2a所示,在理想情况下,中心视角的像素点与空间中的三维坐标一一对应,因此中心视角下图像的超像素分割可代表三维空间的分割。由于各个视角的对焦深度一致,故经过重投影就可以确定各视角的超像素分割。如图2b所示和图2c所示,在失焦和遮挡这些非理想情况下,中心视角像素点颜色是由空间中多个点色彩叠加所得,而且由于遮挡,中心视角像素点只代表该视角下深度优先级较高的空间点,当视角发生改变时,深度优先级也会相应改变,使得投影过程不可逆,也即无法通过重投影确定剩余视角的超像素分割。
在一优选的实施方式中,所述基于超像素分割算法计算该参考视角的超像素集合并对该参考视角的超像素集合进行重投影,以获得对应于该参考视角的其它各视角的超像素集合的步骤,具体包括:以相机平面的中心视角作为参考视角,并基于SLIC算法计算中心视角的超像素集合;基于最小化光场连续性能量函数确定其它各视角最优的超像素集合,以使基于中心视角的超像素分割与三维空间的分割相匹配。由此,来解决失焦、遮挡等原因导致的投影过程不可逆,无法通过重投影确定剩余视角的超像素分割等问题。
具体而言,假设初始中心视角的超像素集合为
Figure BDA0001924809120000061
经过重投影后获得的其它各视角的超像素集合为
Figure BDA0001924809120000062
通过迭代优化,最小化光场连续性能量函数,确定每个视角V(ui,vi)的最优超像素集合
Figure BDA0001924809120000063
其中,最小化光场连续性能量函数表示为:
Figure BDA0001924809120000071
其中,λcEcolorpEpos为超像素分割中的基础能量函数,用于表示像素与超像素中心之间的颜色及和位置差异;λsEcon表示像素与超像素中心之间的视差一致性;λγErepj表示像素与超像素中心之间的重投影误差;λc、λp、λs、λγ分别为常数,通常取λc=1,λp∈[1,50],λs=λr=5。
令中心视角的超像素集合为S(u0,v0),超像素所在平面为πsj(α,β,γ),其超像素中心点为πsj,超像素平面法向量为
Figure BDA0001924809120000072
对于像素点p∈sj,设该像素点距其超像素中心πsj,的偏移为(xj,yj),以投影距离
Figure BDA00019248091200000712
表示视角V(ui,vi)下p与超像素中心πsj的距离,以中心视角为参考视角,距离一致性表示为:
Figure BDA0001924809120000073
用于确保投影之后三维空间的距离仍是相等的。其中,
Figure BDA0001924809120000074
所述重投影误差表示为:Erepj=||Piαi,j0,j||2;其中,αi,j表示视角
Figure BDA0001924809120000075
图像中超像素
Figure BDA0001924809120000076
的像素中心,Pi表示从视角
Figure BDA0001924809120000077
到视角
Figure BDA0001924809120000078
的映射,在理想情况下α0,j=Piαi,j
在步骤S13中,对焦栈中的重对焦深度不同的多个图像进行焦距融合并对像素所属超像素集合进行投票。
完成各视角超像素分割后,可得到各视角的超像素集合
Figure BDA0001924809120000079
即图像中的每个像素点有唯一所属的超像素集合,记该类超像素类别编号为Sj。对于给定焦栈中的重对焦深度为dk的图像进行焦距融合,其中,k∈[0,N],N表示焦栈中全部图像的数量。
于本实施例中,在焦距融合过程中,将各视角颜色信息进行融合,滨勾兑像素所属超像素集合进行投票。具体表示为:
Figure BDA00019248091200000710
其中,Cx,y,d,Sx,y,d表示重对焦深度d下面的重对焦图像中的像素点px,y的颜色及语义分类,
Figure BDA00019248091200000711
表示光场视角Vi的采样中对应的px,y的颜色及语义分类,MiM0 -1表示重投影矩阵。
在步骤S14中,基于神经网络算法对所述焦栈中的图像进行语义分析,以获得每个超像素集合的语义分类。
对于焦栈中的任意图像,可认为该图像中的物像均处于同一深度,从而消除场景遮挡所带来的语义分割错误。借助神经网络对焦栈中的图片进行语义分析,得到每个超像素的语义分类。所述神经网络例如为CNN卷积神经网络,分别通过输入层,卷积层,激活函数层,池化层,全连接层等多层神经网络实现图像处理。
在步骤S15中,汇总所述焦栈中所有超像素集合的语义分类并进行投票,以确定每个超像素集合所对应的唯一的语义类别编号,即
Figure BDA0001924809120000081
其中,
Figure BDA0001924809120000082
表示视角Vi下超像素sj的语义分类,
Figure BDA0001924809120000083
表示对焦栈中,对焦深度为d的图像中超像素sj的语义分类。
Figure BDA0001924809120000084
表示取众数。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
如图3所示,展示本申请一实施例中光场语义分割系统的结构示意图。所述光场语义分割系统包括:光场采样模块31、超像素分割模块32、投票模块33、语义分析模块34、以及语义类别确定模块35。
所述光场采样模块31用于在相机平面中选取一参考视角进行光场采样;超像素分割模块32用于基于超像素分割算法计算该参考视角的超像素集合并对该参考视角的超像素集合进行重投影,以获得对应于该参考视角的其它各视角的超像素集合;投票模块33用于对焦栈中的重对焦深度不同的多个图像进行焦距融合并对像素所属超像素集合进行投票;语义分析模块34用于基于神经网络算法对所述焦栈中的图像进行语义分析,以获得每个超像素集合的语义分类;语义类别确定模块35用于汇总所述焦栈中所有超像素集合的语义分类并进行投票,以确定每个超像素集合所对应的唯一的语义类别编号。
需要说明的是,本申请提供的光场语义分割系统的实施方式与上文中的光场语义分割方法的实施方式类似,故不再赘述。另外,本领域技术人员应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,超像素分割模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上超像素分割模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
如图4所示,展示本申请一实施例提供的再一种电子终端的结构示意图。本实例提供的电子终端,包括:处理器41、存储器42、收发器43、通信接口44和系统总线45;存储器42和通信接口44通过系统总线45与处理器41和收发器43连接并完成相互间的通信,存储器41用于存储计算机程序,通信接口44和收发器43用于和其他设备进行通信,处理器41用于运行计算机程序,使电子终端执行如上光场语义分割方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明提供的光场语义分割方法、系统、电子终端及存储介质,利用光场的重对焦特性,实现动态确定成像平面,对不同深度的二维图像进行语义分割,通过统一优化框架将二维分割融合到光线表示中,以实现对光场中的每条光线赋予语义类别。本发明解决了传统二维图片域的分割算法所存在的种种问题,不再受限于投影变换导致的深度信息缺失,有效识别遮挡从而对被遮挡物体的像素点做出正确的类别预测。因此,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (6)

1.一种光场语义分割方法,其特征在于,包括:
在相机平面中选取一参考视角进行光场采样;
基于超像素分割算法计算该参考视角的超像素集合,并对该参考视角的超像素集合进行重投影,以获得该参考视角所对应的其它各视角的超像素集合;
对焦栈中的重对焦深度不同的多个图像进行焦距融合并对像素所属超像素集合进行投票;
基于神经网络算法对所述焦栈中的图像进行语义分析,以获得每个超像素集合的语义分类;
汇总所述焦栈中所有超像素集合的语义分类并进行投票,以确定每个超像素集合所对应的唯一的语义类别编号;
其中,所述基于超像素分割算法计算该参考视角的超像素集合并对该参考视角的超像素集合进行重投影,以获得对应于该参考视角的其它各视角的超像素集合的步骤,具体包括:以相机平面的中心视角作为参考视角,并基于SLIC算法计算中心视角的超像素集合;基于最小化光场连续性能量函数确定其它各视角最优的超像素集合,以使基于中心视角的超像素分割与三维空间的分割相匹配;
所述最小化光场连续性能量函数包括:
Figure FDA0004133495620000011
其中:λcEcolorpEpos为超像素分割中的基础能量函数,用于表示像素与超像素中心之间的颜色及和位置差异;λsEcon表示像素与超像素中心之间的距离一致性,用于保持多视角下三维空间距离的不变性;λγErepj表示像素与超像素中心之间的重投影误差;λc、λp、λs、λγ分别为常数;
令中心视角的超像素集合为S(u0,v0),超像素所在平面为πsj(α,β,γ),其超像素中心点为πsj,超像素平面法向量为
Figure FDA0004133495620000012
对于像素点p∈sj,设该像素点距其超像素中心πsj的偏移为(xj,yj),以投影距离
Figure FDA0004133495620000013
表示视角V(ui,vi)下p与超像素中心πsj的距离,以中心视角为参考视角,距离一致性表示为:
Figure FDA0004133495620000014
其中,
Figure FDA0004133495620000015
所述对焦栈中的对焦深度不同的多个图像进行焦距融合并对像素所属超像素集合进行投票的步骤,包括:在焦距融合过程中将各视角颜色信息进行融合;其中,对像素所属超像素集合进行投票包括:
Figure FDA0004133495620000016
其中,Cx,y,d,Sx,y,d表示重对焦深度d下面的重对焦图像中的像素点px,y的颜色及语义分类,
Figure FDA0004133495620000021
表示光场视角Vi的采样中对应的像素点px,y的颜色及语义分类,MiM0 -1表示重投影矩阵。
2.根据权利要求1所述的光场语义分割方法,其特征在于,所述重投影误差表示为:
Erepj=||Piαi,j0,j||2;其中,αi,j表示视角
Figure FDA0004133495620000022
图像中超像素
Figure FDA0004133495620000023
的像素中心,Pi表示从视角
Figure FDA0004133495620000024
到视角
Figure FDA0004133495620000025
的映射。
3.根据权利要求1所述的光场语义分割方法,其特征在于,所述确定每个超像素集合唯一的语义类别编号的步骤,具体包括:
Figure FDA0004133495620000026
其中,
Figure FDA0004133495620000027
表示视角Vi下超像素sj的语义分类,
Figure FDA0004133495620000028
表示对焦栈中,对焦深度为d的图像中超像素sj的语义分类,
Figure FDA0004133495620000029
表示取众数。
4.一种光场语义分割系统,其特征在于,包括:
光场采样模块,用于在相机平面中选取一参考视角进行光场采样;
超像素分割模块,用于基于超像素分割算法计算该参考视角的超像素集合并对该参考视角的超像素集合进行重投影,以获得对应于该参考视角的其它各视角的超像素集合;
投票模块,用于对焦栈中的重对焦深度不同的多个图像进行焦距融合并对像素所属超像素集合进行投票;
语义分析模块,用于基于神经网络算法对所述焦栈中的图像进行语义分析,以获得每个超像素集合的语义分类;
语义类别确定模块,用于汇总所述焦栈中所有超像素集合的语义分类并进行投票,以确定每个超像素集合所对应的唯一的语义类别编号;
其中,所述超像素分割模块以相机平面的中心视角作为参考视角,并基于SLIC算法计算中心视角的超像素集合;基于最小化光场连续性能量函数确定其它各视角最优的超像素集合,以使基于中心视角的超像素分割与三维空间的分割相匹配;所述最小化光场连续性能量函数包括:
Figure FDA00041334956200000210
其中:λcEcolorpEpos为超像素分割中的基础能量函数,用于表示像素与超像素中心之间的颜色及和位置差异;λsEcon表示像素与超像素中心之间的距离一致性,用于保持多视角下三维空间距离的不变性;λγErepj表示像素与超像素中心之间的重投影误差;λc、λp、λs、λγ分别为常数;令中心视角的超像素集合为S(u0,v0),超像素所在平面为πsj(α,β,γ),其超像素中心点为πsj,超像素平面法向量为
Figure FDA0004133495620000031
对于像素点p∈sj,设该像素点距其超像素中心πsj的偏移为(xj,yj),以投影距离
Figure FDA0004133495620000032
表示视角V(ui,vi)下p与超像素中心πsj的距离,以中心视角为参考视角,距离一致性表示为:
Figure FDA0004133495620000033
其中,
Figure FDA0004133495620000034
所述语义类别确定模块在焦距融合过程中将各视角颜色信息进行融合;其中,对像素所属超像素集合进行投票包括:
Figure FDA0004133495620000035
其中,Cx,y,d,Sx,y,d表示重对焦深度d下面的重对焦图像中的像素点px,y的颜色及语义分类,
Figure FDA0004133495620000036
Figure FDA0004133495620000037
表示光场视角Vi的采样中对应的像素点px,y的颜色及语义分类,MiM0 -1表示重投影矩阵。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的光场语义分割方法。
6.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至3中任一项所述的光场语义分割方法。
CN201811611298.4A 2018-12-27 2018-12-27 光场语义分割方法、系统、电子终端及存储介质 Active CN111382753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811611298.4A CN111382753B (zh) 2018-12-27 2018-12-27 光场语义分割方法、系统、电子终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811611298.4A CN111382753B (zh) 2018-12-27 2018-12-27 光场语义分割方法、系统、电子终端及存储介质

Publications (2)

Publication Number Publication Date
CN111382753A CN111382753A (zh) 2020-07-07
CN111382753B true CN111382753B (zh) 2023-05-12

Family

ID=71214475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811611298.4A Active CN111382753B (zh) 2018-12-27 2018-12-27 光场语义分割方法、系统、电子终端及存储介质

Country Status (1)

Country Link
CN (1) CN111382753B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766168A (zh) * 2021-01-20 2021-05-07 北京华科德科技有限公司 一种人员摔倒检测方法、装置及电子设备
CN112837321B (zh) * 2021-02-09 2022-10-11 北京航空航天大学 一种基于光场的场景语义分割系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377376A (zh) * 2012-04-13 2013-10-30 阿里巴巴集团控股有限公司 图像分类的方法和系统、图像检索的方法和系统
WO2015074718A1 (en) * 2013-11-22 2015-05-28 Vidinoti Sa A light field processing method
CN106489169A (zh) * 2014-07-10 2017-03-08 汤姆逊许可公司 用于放大图像的方法和装置
CN107862698A (zh) * 2017-11-29 2018-03-30 首都师范大学 基于k均值聚类的光场前景分割方法及装置
CN108986136A (zh) * 2018-07-23 2018-12-11 南昌航空大学 一种基于语义分割的双目场景流确定方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019657B2 (en) * 2015-05-28 2018-07-10 Adobe Systems Incorporated Joint depth estimation and semantic segmentation from a single image
EP3098778A1 (en) * 2015-05-29 2016-11-30 Thomson Licensing Method for obtaining a refocused image from 4d raw light field data
CN106875406B (zh) * 2017-01-24 2020-04-14 北京航空航天大学 图像引导的视频语义对象分割方法及装置
EP3392798A1 (en) * 2017-04-21 2018-10-24 Delphi Technologies, Inc. A method for the semantic segmentation of an image

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377376A (zh) * 2012-04-13 2013-10-30 阿里巴巴集团控股有限公司 图像分类的方法和系统、图像检索的方法和系统
WO2015074718A1 (en) * 2013-11-22 2015-05-28 Vidinoti Sa A light field processing method
CN106489169A (zh) * 2014-07-10 2017-03-08 汤姆逊许可公司 用于放大图像的方法和装置
CN107862698A (zh) * 2017-11-29 2018-03-30 首都师范大学 基于k均值聚类的光场前景分割方法及装置
CN108986136A (zh) * 2018-07-23 2018-12-11 南昌航空大学 一种基于语义分割的双目场景流确定方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
蒋应锋 ; 张桦 ; 薛彦兵 ; 周冕 ; 徐光平 ; 高赞 ; .一种新的多尺度深度学习图像语义理解方法研究.光电子・激光.2016,(02),全文. *
郭呈呈 ; 于凤芹 ; 陈莹 ; .基于卷积神经网络特征和改进超像素匹配的图像语义分割.激光与光电子学进展.2018,(08),全文. *

Also Published As

Publication number Publication date
CN111382753A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
US10867430B2 (en) Method and system of 3D reconstruction with volume-based filtering for image processing
US9727775B2 (en) Method and system of curved object recognition using image matching for image processing
WO2021169404A1 (zh) 深度图像生成方法、装置及存储介质
CN115205489A (zh) 一种大场景下的三维重建方法、系统及装置
CN112750133A (zh) 计算机视觉训练系统和用于训练计算机视觉系统的方法
CN111753698A (zh) 一种多模态三维点云分割系统和方法
Liu et al. Image de-hazing from the perspective of noise filtering
US11636665B2 (en) Streaming image semantic segmentation method, logical integrated circuit system and electronic device
Qu et al. Light field image quality assessment with auxiliary learning based on depthwise and anglewise separable convolutions
Werner et al. Hardware implementation of a full HD real-time disparity estimation algorithm
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN108665415B (zh) 基于深度学习的图像质量提升方法及其装置
US20230362347A1 (en) Real-Time Novel View Synthesis With Forward Warping And Depth
CN111382753B (zh) 光场语义分割方法、系统、电子终端及存储介质
GB2543779A (en) Systems and methods for processing images of objects
KR20220052359A (ko) 듀얼 카메라 및 듀얼 픽셀을 통한 조인트 깊이 예측
CN111627119A (zh) 纹理贴图方法及装置、设备、存储介质
Liu et al. Content-aware unsupervised deep homography estimation and its extensions
CN111914938A (zh) 一种基于全卷积二分支网络的图像属性分类识别方法
Pan et al. Multi-stage feature pyramid stereo network-based disparity estimation approach for two to three-dimensional video conversion
Yang et al. Development of a fast transmission method for 3D point cloud
CN113506305B (zh) 三维点云数据的图像增强方法、语义分割方法及装置
CN117730530A (zh) 图像处理方法及装置、设备、存储介质
Cheng et al. Stereoscopic visual saliency prediction based on stereo contrast and stereo focus
Wang et al. Superpixel-based color–depth restoration and dynamic environment modeling for Kinect-assisted image-based rendering systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant