CN116229247A - 室内场景语义分割方法、装置、设备和介质 - Google Patents

室内场景语义分割方法、装置、设备和介质 Download PDF

Info

Publication number
CN116229247A
CN116229247A CN202310237080.1A CN202310237080A CN116229247A CN 116229247 A CN116229247 A CN 116229247A CN 202310237080 A CN202310237080 A CN 202310237080A CN 116229247 A CN116229247 A CN 116229247A
Authority
CN
China
Prior art keywords
image
scene
feature map
indoor scene
fusion feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310237080.1A
Other languages
English (en)
Inventor
张子慧
赖坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jindi Digital Technology Co ltd
Original Assignee
Shenzhen Jindi Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jindi Digital Technology Co ltd filed Critical Shenzhen Jindi Digital Technology Co ltd
Priority to CN202310237080.1A priority Critical patent/CN116229247A/zh
Publication of CN116229247A publication Critical patent/CN116229247A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请提供了室内场景语义分割方法、装置、设备和介质,其中该方法包括:获取给定室内场景的场景图像;将所述场景图像中的三通道彩色图像和深度图像进行多模态特征融合,获得融合特征图;将所述融合特征图进行位置编码后输入语义分割神经辐射场网络,获得室内场景信息;对所述室内场景信息进行上采样处理,且通过渲染获得室内场景语义分割图。本申请提出的方法能够有效融合三通道彩色图像和深度图像,利用少量语义标签信息获得更密集准确的语义分割效果。

Description

室内场景语义分割方法、装置、设备和介质
技术领域
本申请涉及计算机视觉领域,具体涉及一种室内场景语义分割方法、装置、设备和介质。
背景技术
语义分割是图像分割中的重要领域,目前广泛应用于自动驾驶、精准农业以及地质检测以及其它各种不同的领域。在自动驾驶领域,语义分割提供有关道路上自由空间的信息,以及检测车道标记和交通标志等信息;在精准农业领域,作物和杂草的语义分割可以帮助实现除草行为的实时触发,减少需要在田间喷洒的除草剂的数量;地质检测,识别卫星图像上每个像素的土地覆盖类型(例如,城市、农业、水等区域)。
即便语义分割在众多领域都有着不同的应用。但是在将语义分割应用于室内场景之下的目前在对室内场景进行语义分割时,现有的大多数工作只是简单地假设深度测量是准确的,且与场景图像像素能够良好地对齐,由此将该问题建模为交叉模式特征融合以获得更好的特征表示从而实现更准确的分割。但是,由于其场景内部的空间复杂度高、环境变化多样,通常传感器无法获得令人满意的精准的深度结果,实际的深度数据往往比较嘈杂,这可能会随着网络的深入而降低对室内场景分割的准确性。若是想要获取室内场景精准的语义分割效果,则需要依托于室内场景数据集中的大量语义标签,而这些语义标签一般通过人工标注或半监督的方法获得,导致需要耗费高额的训练成本。
发明内容
本申请的一个目的在于通过利用少量语义标签获得准确的语义分割效果,解决需要大量语义标签且耗费高额训练成本的技术问题。
根据本申请实施例的一方面,本申请公开了一种室内场景语义分割方法,包括:
获取给定室内场景的场景图像;
将所述场景图像中的三通道彩色图像和深度图像进行多模态特征融合,获得融合特征图;
将所述融合特征图进行位置编码后输入语义分割神经辐射场网络,获得室内场景信息;
对所述室内场景信息进行上采样处理,且通过渲染获得室内场景语义分割图。
根据本申请实施例的一方面,所述获取给定室内场景的场景图像,包括:
通过深度传感器摄像机拍摄室内场景,获取室内场景的场景图像。
根据本申请实施例的一方面,所述将所述场景图像中的三通道彩色图像和深度图像进行多模态特征融合,获得融合特征图,包括:
串联场景图像中的三通道彩色图像和深度图像,获得初步融合特征图;
通过卷积学习所述初步融合特征图中三通道融合的权重分布,获得学习的权重;
通过阈值函数将所述学习的权重映射于权重向量范围,获得映射后的权重向量值;
将所述初步融合特征图和所述映射后的权重向量值进行点乘,获得融合特征图。
根据本申请实施例的一方面,所述将所述融合特征图进行位置编码后输入语义分割神经辐射场网络,获得室内场景信息,包括:
对所述融合特征图进行位置编码,获得融合特征图的向量坐标和观察方向;
将所述融合特征图的向量坐标和观察方向输入多层神经网络获得室内场景信息。
根据本申请实施例的一方面,本申请了一种室内场景语义分割装置,包括:
场景图像获取模块,用于获取给定室内场景的场景图像;
特征融合模块,用于将所述场景图像中的三通道彩色图像和深度图像进行多模态特征融合,获得融合特征图;
场景信息获取模块,用于将所述融合特征图进行位置编码后输入语义分割神经辐射场网络,获得室内场景信息;
语义分割图获取模块,用于对所述室内场景信息进行上采样处理,且通过渲染获得室内场景语义分割图。
根据本申请实施例的一方面,所述场景图像获取模块,包括:
场景图像获取单元,用于通过深度传感器摄像机拍摄室内场景,获取室内场景的场景图像。
根据本申请实施例的一方面,所述特征融合模块,包括:
初步融合特征图获取单元,用于串联场景图像中的三通道彩色图像和深度图像,获得初步融合特征图;
权重学习单元,用于通过卷积学习所述初步融合特征图中三通道融合的权重分布,获得学习的权重;
权重映射单元,用于通过阈值函数将所述学习的权重映射于权重向量范围,获得映射后的权重向量值;
融合特征图获取单元,用于将所述初步融合特征图和所述映射后的权重向量值进行点乘,获得融合特征图。
根据本申请实施例的一方面,所述场景信息获取模块,包括:
位置编码单元,用于对所述融合特征图进行位置编码,获得融合特征图的向量坐标和观察方向;
多层神经网络输入单元:用于将所述融合特征图的向量坐标和观察方向输入多层神经网络获得室内场景信息。
根据本申请实施例的一方面,本申请了一种室内场景语义分割设备,包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行如上所述的方法。
根据本申请实施例的一方面,本申请了一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的方法。
本申请实施例中,获取需要进行语义分割的室内场景的场景图像,将场景图像中包含有的三通道彩色图像和深度图像进行多模态特征融合,获得包含三通道彩色信息和深度信息的融合特征图,将融合特征图进行位置编码得到坐标信息后输入语义分割神经辐射场,获得室内场景信息,对获得的室内场景信息进行上采样处理,并且通过渲染获得室内场景语义分割图,由此有效地融合了三通道彩色图像和深度图像,从而减少语义标签使用同时降低了训练成本。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
通过参照附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。
图1示出了根据本申请一个实施例的室内场景语义分割方法的流程图。
图2示出了根据本申请另一个实施例的室内场景语义分割方法的流程图。
图3示出了根据本申请另一个实施例的室内场景语义分割方法的流程图。
图4示出了根据本申请一个实施例的室内场景语义分割设备的框图。
图5示出了根据本申请一个实施例的特征融合模块的框图。
图6示出了根据本申请一个实施例的场景信息获取模块的框图。
图7示出了根据本申请一个实施例的室内场景语义分割装置的硬件结构图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本申请的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对本申请的示例实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本申请的各方面变得模糊。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
请参阅图1,图1示出了根据本申请一个实施例的室内场景语义分割方法的流程图,室内场景语义分割方法包括:
步骤S110,获取给定室内场景的场景图像;
步骤S120,将场景图像中的三通道彩色图像和深度图像进行多模态特征融合,获得融合特征图;
步骤S130,将融合特征图进行位置编码后输入语义分割神经辐射场网络,获得室内场景信息;
步骤S140,对室内场景信息进行上采样处理,且通过渲染获得室内场景语义分割图。
下面对这4个步骤进行详细描述。
在步骤S110中,室内场景是指人们所居住与活动的房屋建筑、交通工具的内部空间,例如,室内场景可以包括商超、博物馆、酒店等设施内部。任意一室内场景都能够成为当前步骤所发起执行语义分割的的给定室内场景,即,对该给定室内场景获取场景图像。
在一个示例性实施例中,获取给定室内场景的场景图像的步骤S110,包括:
通过深度传感器摄像机拍摄室内场景,获取室内场景的场景图像。
进一步说明的,能够通过深度传感器摄像机对给定的室内场景进行拍摄,在深度传感器摄像机的作用下对拍摄到的目标(比如博物馆里的展品、商超里的游客等)连续发送光脉冲,深度传感器摄像机将接收到从目标返回的光,进而通过探测光脉冲的飞行(往返)时间来得到目标距离,将此距离(深度)值作为深度图像的像素值,生成室内场景的场景图像。
在步骤S120中,获取的室内场景深度图像中包含有三通道彩色图像以及深度图像。三通道色彩图像用于在通过红、绿、蓝三个通道的颜色描述给定室内场景中不同物体的颜色。深度图像将基于投影关系、配准关系为三通道色彩图像准确配置深度,为三维通道色彩图像进行给定室内场景深度方向上的描述。在三通道彩色图像和深度图像进行多模态特征融合之前,首先需要先对两幅图像分别进行图像预处理,图像预处理的主要目的是消除图像中无关的信息,恢复有用的真实信息,从而优化图像融合的效果。图像预处理主要包括图像去噪和图像配准。图像去噪可采用均值滤波器去除图象中的颗粒噪声,也可以采用中值滤波器把图像中一点的值用该点的一个领域的中值代换,从而可以消除孤立的噪声点。图像配准需要分别对三通道彩色图像和深度图像进行特征检测,检测的特征包括闭合边界区域,边缘,轮廓,交线,角点等,然后将检测所得的特征进行匹配和叠加达到特征融合的目的。
在对三通道彩色图像和深度图像分别进行图像预处理后,即可进行图像多模态特征融合,也称为特征层图像融合。特征层图像融合是从三通道彩色图像和深度图像中提取特征信息,提取的特征信息可包括图像的边缘、形状、轮廓、角、纹理、相似亮度区域等,然后将提取的不同模态特征信息进行拼接融合获得融合特征图。多模态特征融合相比于简单的像素层图像融合,可以有效融合多模态特征,进而实现信息压缩,便于实时处理。
请参阅图2,图2示出了根据本申请另一个实施例的室内场景语义分割方法的流程图。本申请实施例中,所将所述场景图像中的三通道彩色图像和深度图像进行多模态特征融合,获得融合特征图的步骤S120,包括:
步骤S121,串联场景图像中的三通道彩色图像和深度图像,获得初步融合特征图;
步骤S122,通过卷积学习初步融合特征图中三通道融合的权重分布,获得学习的权重;
步骤S123,通过阈值函数将学习的权重映射于权重向量范围,获得映射后的权重向量值;
步骤S124,将初步融合特征图和映射后的权重向量值进行点乘,获得融合特征图。
下面对这4个步骤进行详细描述。
在步骤S121中,将场景图像中的三通道彩色图像和深度图像通过串联匹配进行图像拼接,得到组合特征图,组合特征图是同时包含颜色特征和距离特征的图像。随后通过对组合特征图执行卷积操作来加强组合特征图中颜色特征与距离特征之间的联系,获得初步融合特征图。
在步骤S122中,初步融合特征图中的三通道是指红(R)、绿(G)、蓝(B)三个颜色通道,权重分布是指在对红、绿、蓝三个不同颜色通道进行重要性评价的过程中,对不同颜色通道给予不同重要程度大小的分布。
示例性的,如果红颜色通道的权重占比大,则说明红颜色在特征图中的重要程度越高,反之如果该颜色通道的权重占比小,则说明该颜色在特征图中的重要程度越低。在具体执行过程中,可加入若干个1*1卷积层学习三通道融合的权重分布,示例性的,1*1卷积层的数目可为2个,从而获得学习的权重。
在步骤S123中,权重向量又称权向量,权向量中的权系数大小代表着该颜色通道在三通道中的重要程度,将三通道权重映射到权重向量范围,则可以将红、绿、蓝三个不同颜色通道的重要程度限定在一定范围之内。阈值函数主要起到筛选和判断的作用,通过设定一个条件,筛选初步融合特征图中待处理的满足该条件的部分,从而进一步进行处理,比如去除背景等。阈值函数中包含的值域范围即权重向量范围,能够将学习的权重映射到此权重向量范围之内。
示例性的,采用Sigmoid激活函数作为阈值函数,Sigmoid激活函数的值域范围为0-1,因此权重向量范围也是0-1。具体的,通过阈值函数将学习所得的权重进行映射可用公式表示如下:
S=σ(F(y))
其中σ表示Sigmoid激活函数,σ(F(y))表示映射后的权重向量值,F(y)为学习所得的权重
在步骤S124中,将初步融合特征图与映射后的权重向量值进行点乘,通过点乘能够将映射后的权重向量值作用于初步融合特征图,从而获得包含三通道彩色图像和深度图进行深度融合的融合特征图。可用公式表示如下:
z=y·σ(F(y))
其中z表示融合特征图,y表示初步融合的特征图,σ(F(y))表示映射后的权重向量值。
在步骤S130中,通过对融合特征图进行位置编码可以获得融合特征图中每个像素点所处的位置即向量坐标,向量坐标可用三维坐标X(x,y,z)表示,同时还能获得融合特征图中像素点与像素点之间的相对位置关系即观察方向。
神经辐射场网络(Nerf)是面向三维隐式空间建模的深度学习模型,这种深度学习模型又称全连接神经网络(又称多层感知机),在基于神经辐射场网络的表示方法下,三维空间被表示为一组可学习且连续的辐射场。将融合特征图中的向量坐标和观察方向输入语义分割神经辐射场网络,分别预测融合特征图中像素点的密度和颜色,由此获得包含密度信息和色彩信息的室内场景信息。
请参阅图3,图3示出了根据本申请另一个实施例的室内场景语义分割方法的流程图。所述将所述融合特征图进行位置编码后输入语义分割神经辐射场网络,获得室内场景信息的步骤S130,包括:
步骤S131,对融合特征图进行位置编码,获得融合特征图的向量坐标和观察方向;
步骤S132,将融合特征图的向量坐标和观察方向输入多层神经网络获得室内场景信息。
下面对这2个步骤进行详细描述。
在步骤S131中,位置编码是为了获取融合特征图中各元素的绝对位置关系,比如融合特征图中的商品位于哪个位置,以及融合特征图中元素与元素之间的相对位置关系,比如融合特征图中商品位于货架的哪个具体位置,是在货架的左上角、中间还是其他位置。融合特征图的向量坐标包括了图中各个元素所处的具体位置,融合特征图的观察方向包括了图中元素与元素之间的相对位置关系。
在步骤S132中,多层神经网络属于语义分割神经辐射场网络中的一种,多层神经网络可以被看做是一个有向图,γX由多个节点层组成,每一层全连接到下一层。室内场景信息包括场景的密度函数α(x)和语义分割函数S(x)以及颜色c(r,g,b),语义分割函数S(x)和颜色c(x)表示公式如下:
S(x)=Fθ(X),c(x)=Fθd(d),γX(x))
其中c(x)表示室内场景位于X所处的颜色,Fθ表示MLP网络,S(x)代表语义输出结果,γd和γX分别代表观察方向和空间位置的位置编码函数。
在步骤S140中,连续对获得的室内场景信息进行上采样处理,将语义分割神经辐射场网络产生的室内场景信息利用体绘制技术进行渲染获得室内场景语义分割图。体绘制是利用三维室内场景信息产生屏幕上二维场景语义分割图的技术,其中室内场景信息包括室内的特征信息、室内的场景密度和室内的颜色分布,室内的颜色即从光线r的方向看去,室内场景里的粒子经过反射呈现出的颜色。上采样处理是沿着光线r对室内场景进行密集采样的执行过程,在完成此过程之后即可渲染出场景中三维位置对应的二维像素点的颜色,获得室内场景语义分割图,上采样的过程可以用公式表示如下:
Figure BDA0004122793660000091
其中,
Figure BDA0004122793660000092
α(x)=1-exp(-x),δk=tk+1-tk,k表示随机采样点的数量,tk表示某一时刻的某个采样点,/>
Figure BDA0004122793660000093
表示沿着光线r上采样得到的语义分割函数,d(tk)表示关于观察方向的函数,δk代表两个正交采样点之间距离的函数。
渲染工作需先将像素点的三维坐标转化为二维坐标,随后将二维坐标转化为实际有颜色的像素点。其具体执行过程可包括以下六个阶段:第一阶段,收集一系列顶点的集合;第二阶段,将所有的像素点装配成指定图元的形状;第三阶段,使用几何着色器将产生新顶点构造出新的(或是其它的)图元来生成其他形状;第四阶段,把图元映射为最终屏幕上相应的像素,生成片段,片段是指渲染一个像素所需要的所有数据;第五阶段,会对生成的片段进行裁切,以丢弃超出视图以外的所有像素,用来提升执行效率;第六阶段,检测片段的对应的深度值(z坐标),判断这个像素位于其它像素的前面还是后面,决定是否应该丢弃,此外,还会检查alpha值(alpha值定义了一个像素的透明度),从而对像素颜色进行混合,可用公式进行计算得出最后的颜色:R=S+D×(1-Sa)
示例性的,假设有两个像素S(source)和D(destination),S在z轴方向相对靠前(在上面),D在z轴方向相对靠后(在下面),那么最终的颜色值R就是S(上面像素)的颜色+D(下面像素)的颜色*(1-S(上面像素)颜色的透明度)。
下面以博物馆为例,来说明对室内场景进行语义分割的过程。
首先通过深度传感器摄像机对博物馆内的展品进行拍摄,将深度值作为深度图像的像素值,以此获得博物馆的深度图像,通过彩色相机对博物馆内的展品进行拍摄可以获得博物馆的三通道彩色图像,基于针孔相机模型将深度图像上的点投影至三通道彩色图像上,进行深度图像与彩色图像的配准,获得配准后的博物馆图像。
对博物馆的三通道彩色图像和深度图像分别进行图像预处理,消除图像中无关的信息,简化图像数据。随后对预处理后的三通道彩色图像和深度图像分别进行特征提取,将提取的特征信息融合获得博物馆的融合特征图。
对博物馆的融合特征图进行位置编码,获得展品与展品之间的相对位置关系即观察方向,以及各个展品的绝对位置关系即向量坐标。将向量坐标和观察方向均输入语义神经辐射场网络进行预测,获得博物馆的融合特征图中所包含的博物馆信息。
对博物馆信息进行上采样处理,将语义分割神经辐射场网络产生的博物馆信息利用体绘制技术进行渲染,获得对博物馆场景的语义分割图。
请参阅图4,根据本申请的一个实施例,如图4提供了一种室内场景语义分割装置,其中,包括:
场景图像获取模块S110,用于获取给定室内场景的场景图像。
特征融合模块S120,用于将场景图像中的三通道彩色图像和深度图像进行多模态特征融合,获得融合特征图。
场景信息获取模块S130,用于将融合特征图进行位置编码后输入语义分割神经辐射场网络,获得室内场景信息。
语义分割图获取模块S140,用于对室内场景信息进行上采样处理,且通过渲染获得室内场景语义分割图。
请参阅图5,根据本申请的一个实施例,如图5提供了特征融合模块S120,其中,包括:
初步融合特征图获取单元S121,用于串联场景图像中的三通道彩色图像和深度图像,获得初步融合特征图。
权重学习单元S122,用于通过卷积学习初步融合特征图中三通道融合的权重分布,获得学习的权重。
权重映射单元S123,用于通过阈值函数将学习的权重映射于权重向量范围,获得映射后的权重向量值。
融合特征图获取单元S124,用于将初步融合特征图和映射后的权重向量值进行点乘,获得融合特征图。
请参阅图6,根据本申请的一个实施例,如图6提供了场景信息获取模块S130,其中,包括:
位置编码单元S131,用于对融合特征图进行位置编码,获得融合特征图的向量坐标和观察方向。
多层神经网络输入单元S132,用于将融合特征图的向量坐标和观察方向输入多层神经网络获得室内场景信息。
根据本申请实施例的室内场景语义分割方法可以由图7的室内场景语义分割设备来实现。下面参照图7来描述根据本申请实施例的室内场景语义分割设备。图7显示的室内场景语义分割设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,室内场景语义分割设备以通用计算设备的形式表现。室内场景语义分割设备的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图1中所示的各个步骤。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
室内场景语义分割设备也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该室内场景语义分割设备交互的设备通信,和/或与使得该室内场景语义分割设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,室内场景语义分割设备还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与室内场景语义分割设备的其它模块通信。应当明白,尽管图中未示出,可以结合室内场景语义分割设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
在本申请的示例性实施例中,还提供了一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述方法实施例部分描述的方法。
根据本申请的一个实施例,还提供了一种用于实现上述方法实施例中的方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由所附的权利要求指出。

Claims (10)

1.一种室内场景语义分割方法,其特征在于,所述方法包括:
获取给定室内场景的场景图像;
将所述场景图像中的三通道彩色图像和深度图像进行多模态特征融合,获得融合特征图;
将所述融合特征图进行位置编码后输入语义分割神经辐射场网络,获得室内场景信息;
对所述室内场景信息进行上采样处理,且通过渲染获得室内场景语义分割图。
2.根据权利要求1所述的方法,其特征在于,所述获取给定室内场景的场景图像,包括:
通过深度传感器摄像机拍摄室内场景,获取室内场景的场景图像。
3.根据权利要求1所述的方法,其特征在于,所述将所述场景图像中的三通道彩色图像和深度图像进行多模态特征融合,获得融合特征图,包括:
串联场景图像中的三通道彩色图像和深度图像,获得初步融合特征图;
通过卷积学习所述初步融合特征图中三通道融合的权重分布,获得学习的权重;
通过阈值函数将所述学习的权重映射于权重向量范围,获得映射后的权重向量值;
将所述初步融合特征图和所述映射后的权重向量值进行点乘,获得融合特征图。
4.根据权利要求1所述的方法,其特征在于,所述将所述融合特征图进行位置编码后输入语义分割神经辐射场网络,获得室内场景信息,包括:
对所述融合特征图进行位置编码,获得融合特征图的向量坐标和观察方向;
将所述融合特征图的向量坐标和观察方向输入多层神经网络获得室内场景信息。
5.一种室内场景语义分割装置,其特征在于,所述装置包括:
场景图像获取模块,用于获取给定室内场景的场景图像;
特征融合模块,用于将所述场景图像中的三通道彩色图像和深度图像进行多模态特征融合,获得融合特征图;
场景信息获取模块,用于将所述融合特征图进行位置编码后输入语义分割神经辐射场网络,获得室内场景信息;
语义分割图获取模块,用于对所述室内场景信息进行上采样处理,且通过渲染获得室内场景语义分割图。
6.根据权利要求5所述的装置,其特征在于,所述场景图像获取模块,包括:
场景图像获取单元,用于通过深度传感器摄像机拍摄室内场景,获取室内场景的场景图像。
7.根据权利要求5所述的装置,其特征在于,所述特征融合模块,包括:
初步融合特征图获取单元,用于串联场景图像中的三通道彩色图像和深度图像,获得初步融合特征图;
权重学习单元,用于通过卷积学习所述初步融合特征图中三通道融合的权重分布,获得学习的权重;
权重映射单元,用于通过阈值函数将所述学习的权重映射于权重向量范围,获得映射后的权重向量值;
融合特征图获取单元,用于将所述初步融合特征图和所述映射后的权重向量值进行点乘,获得融合特征图。
8.根据权利要求5所述的装置,其特征在于,所述场景信息获取模块,包括:
位置编码单元,用于对所述融合特征图进行位置编码,获得融合特征图的向量坐标和观察方向;
多层神经网络输入单元:用于将所述融合特征图的向量坐标和观察方向输入多层神经网络获得室内场景信息。
9.一种室内场景语义分割设备,其特征在于,包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行权利要求1-4中的任意一个所述的方法。
10.一种计算机程序介质,其上存储有计算机可读指令,其特征在于,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-4中的任一项所述的方法。
CN202310237080.1A 2023-03-02 2023-03-02 室内场景语义分割方法、装置、设备和介质 Pending CN116229247A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310237080.1A CN116229247A (zh) 2023-03-02 2023-03-02 室内场景语义分割方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310237080.1A CN116229247A (zh) 2023-03-02 2023-03-02 室内场景语义分割方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN116229247A true CN116229247A (zh) 2023-06-06

Family

ID=86569405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310237080.1A Pending CN116229247A (zh) 2023-03-02 2023-03-02 室内场景语义分割方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN116229247A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524195A (zh) * 2023-06-20 2023-08-01 中国科学院深圳先进技术研究院 语义分割方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524195A (zh) * 2023-06-20 2023-08-01 中国科学院深圳先进技术研究院 语义分割方法、装置、电子设备及存储介质
CN116524195B (zh) * 2023-06-20 2023-12-01 中国科学院深圳先进技术研究院 语义分割方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110622213B (zh) 利用3d语义地图进行深度定位和分段的系统和方法
CN109682381B (zh) 基于全向视觉的大视场场景感知方法、系统、介质及设备
Gruen et al. Automatic extraction of man-made objects from aerial and space images (II)
US20200364509A1 (en) System and method for training a neural network for visual localization based upon learning objects-of-interest dense match regression
CN110956651A (zh) 一种基于视觉和振动触觉融合的地形语义感知方法
CN109084746A (zh) 用于具有辅助传感器的自主平台引导系统的单目模式
CN114758337B (zh) 一种语义实例重建方法、装置、设备及介质
US20230281913A1 (en) Radiance Fields for Three-Dimensional Reconstruction and Novel View Synthesis in Large-Scale Environments
Shan et al. Toward a unified theoretical framework for photogrammetry
CN115861601A (zh) 一种多传感器融合感知方法及装置
CN110033483A (zh) 基于dcnn深度图生成方法及系统
CN116229247A (zh) 室内场景语义分割方法、装置、设备和介质
Guan et al. Detecting visually salient scene areas and deriving their relative spatial relations from continuous street-view panoramas
Grammatikopoulos et al. Camera calibration using multiple unordered coplanar chessboards
CN116642490A (zh) 基于混合地图的视觉定位导航方法、机器人及存储介质
Singh et al. Multi-sensor data fusion for accurate surface modeling
Hazarika et al. Multi-camera 3D object detection for autonomous driving using deep learning and self-attention mechanism
Chougule et al. AGD-Net: Attention-Guided Dense Inception U-Net for Single-Image Dehazing
Tian Effective image enhancement and fast object detection for improved UAV applications
Al-Habashna et al. Building height estimation from street-view imagery using deep learning, image processing and automated geospatial analysis
McQuat Feature extraction workflows for urban mobile-terrestrial LIDAR data
Yang et al. Bridging the Gap Between Indoor Depth Completion and Masked Autoencoders
Hummel On synthetic datasets for development of computer vision algorithms in airborne reconnaissance applications
Karatsiolis et al. Focusing on Shadows for Predicting Heightmaps from Single Remotely Sensed RGB Images with Deep Learning
Jiang Sensors and Data: Representation to Semantics to Deep Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination