CN116935052A - 智能座舱环境下的语义分割方法及相关设备 - Google Patents
智能座舱环境下的语义分割方法及相关设备 Download PDFInfo
- Publication number
- CN116935052A CN116935052A CN202310905658.6A CN202310905658A CN116935052A CN 116935052 A CN116935052 A CN 116935052A CN 202310905658 A CN202310905658 A CN 202310905658A CN 116935052 A CN116935052 A CN 116935052A
- Authority
- CN
- China
- Prior art keywords
- feature
- level
- rgb
- depth
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000004927 fusion Effects 0.000 claims abstract description 195
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000011176 pooling Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种智能座舱环境下的语义分割方法及相关设备,该方法包括:先获取智能座舱环境中预设目标区域的RGB图像和深度图像,然后基于预设编码器对RGB图像和深度图像进行特征提取,获取多个融合特征,最后基于预设解码器对各融合特征进行解码,得到语义分割结果,通过预设编码器分别对RGB图像和深度图像进行特征提取和特征融合,并通过预设解码器对融合特征进行解码,实现结合两种不同模态的数据特征进行语义分割,从而提高了智能座舱环境下语义分割的准确度。
Description
技术领域
本申请涉及智能座舱技术领域,更具体地,涉及一种智能座舱环境下的语义分割方法及相关设备。
背景技术
智能座舱旨在集成多种IT和人工智能技术,打造全新的车内一体化数字平台,为驾驶员提供智能体验,促进行车安全。图像语义分割是人工智能和计算机视觉领域的基本任务之一,其目的是根据图像内容识别出图像中每一个像素点的语义类别。
智能座舱环境的语义分割对于司乘人员的状态理解,司机驾驶安全等方面至关重要。在当前的智能座舱环境语义分割中,大部分技术采用RGB图像语义分割技术,通过采集智能座舱环境的RGB图像信息,然后预先对图像中的不同实体进行手动分割标注,最后通过视觉算法对智能座舱环境图像进行分割,以实现的智能座舱的语义理解。然而,由于不同时间段或不同环境下座舱内的光线有很大的差别,座舱内光线不足时,RGB图像的可辨识度较低,这种情况下的语义分割准确度会下降。
因此,如何提高智能座舱环境下语义分割的准确度,是目前有待解决的技术问题。
发明内容
本申请实施例提出了一种智能座舱环境下的语义分割方法及相关设备,通过预设编码器分别对RGB图像和深度图像进行特征提取和特征融合,并通过预设解码器对融合特征进行解码,结合两种不同模态的数据特征进行语义分割,以提高智能座舱环境下语义分割的准确度。
第一方面,提供一种智能座舱环境下的语义分割方法,所述方法包括:获取智能座舱环境中预设目标区域的RGB图像和深度图像;基于预设编码器对所述RGB图像和所述深度图像进行特征提取,获取多个融合特征;基于预设解码器对各所述融合特征进行解码,得到语义分割结果;其中,所述预设编码器包括N级融合模块、符合预设下采样结构的N级第一下采样层和N级第二下采样层,各级第一下采样层用于对所述RGB图像或上一级RGB融合特征进行特征提取并输出本级RGB特征,各级第二下采样层用于对所述深度图像或上一级深度融合特征进行特征提取并输出本级深度特征,各级融合模块用于,将本级RGB特征和本级深度特征进行特征融合,并将得到的本级RGB融合特征和本级深度融合特征分别输出到下一级第一下采样层和下一级第二下采样层,以及将得到的本级融合特征输出到所述预设解码器,或,仅将本级融合特征输出到所述预设解码器,N为大于1的整数。
第二方面,提供一种智能座舱环境下的语义分割装置,所述装置包括:获取模块,用于获取智能座舱环境中预设目标区域的RGB图像和深度图像;编码模块,用于基于预设编码器对所述RGB图像和所述深度图像进行特征提取,获取多个融合特征;解码模块,用于基于预设解码器对各所述融合特征进行解码,得到语义分割结果;其中,所述预设编码器包括N级融合模块、符合预设下采样结构的N级第一下采样层和N级第二下采样层,各级第一下采样层用于对所述RGB图像或上一级RGB融合特征进行特征提取并输出本级RGB特征,各级第二下采样层用于对所述深度图像或上一级深度融合特征进行特征提取并输出本级深度特征,各级融合模块用于,将本级RGB特征和本级深度特征进行特征融合,并将得到的本级RGB融合特征和本级深度融合特征分别输出到下一级第一下采样层和下一级第二下采样层,以及将得到的本级融合特征输出到所述预设解码器,或,仅将本级融合特征输出到所述预设解码器,N为大于1的整数。
第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的智能座舱环境下的语义分割方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的智能座舱环境下的语义分割方法。
通过应用以上技术方案,先获取智能座舱环境中预设目标区域的RGB图像和深度图像,然后基于预设编码器对RGB图像和深度图像进行特征提取,获取多个融合特征,最后基于预设解码器对各融合特征进行解码,得到语义分割结果,通过预设编码器分别对RGB图像和深度图像进行特征提取和特征融合,并通过预设解码器对融合特征进行解码,实现结合两种不同模态的数据特征进行语义分割,从而提高了智能座舱环境下语义分割的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提出的一种智能座舱环境下的语义分割方法的流程示意图;
图2示出了本发明实施例提出的一种智能座舱环境下的语义分割方法的原理示意图;
图3示出了本发明实施例中融合模块的原理示意图;
图4示出了本发明实施例中预设自注意力模块的原理示意图;
图5示出了本发明实施例提出的一种智能座舱环境下的语义分割装置的结构示意图;
图6示出了本发明实施例提出的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求部分指出。
应当理解的是,本申请并不局限于下面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请实施例提供一种智能座舱环境下的语义分割方法,通过预设编码器分别对RGB图像和深度图像进行特征提取和特征融合,并通过预设解码器对融合特征进行解码,实现结合两种不同模态的数据特征进行语义分割,从而提高了智能座舱环境下语义分割的准确度。
如图1所示,该方法包括以下步骤:
步骤S101,获取智能座舱环境中预设目标区域的RGB图像和深度图像。
本实施例中,RGB图像是指用RGB颜色模式来显示的图像,RGB即是代表红、绿、蓝三个通道的颜色。深度图像也被称为距离影像,是指将图像采集器采集到的场景中各点的距离(深度)值作为像素值的图像,它直接反映了对象可见表面的几何形状。预设目标区域可以为司机所在区域、或乘客所在区域,或同时包括司机和乘客的区域。可在智能座舱环境中设置深度相机,通过深度相机对预设目标区域进行拍摄,获取相应的RGB图像和深度图像,还可以通过RGB摄像头对预设目标区域进行拍摄,获取RGB图像,并通过三维相机对预设目标区域进行拍摄,获取深度图像。
在本申请一些实施例中,在获取RGB图像和深度图像后,对RGB图像和深度图像进行归一化操作,例如,保持RGB图像的值域为0-255,并将深度图像等比例缩放到0-255的值域。并在HSV空间中通过随机调整色调、亮度和饱和度对RGB图像进行增强处理,从而可更加高效的对RGB图像和深度图像进行特征提取。
步骤S102,基于预设编码器对所述RGB图像和所述深度图像进行特征提取,获取多个融合特征。
本实施例中,预先训练出基于神经网络的预设编码器和预设解码器,在获取RGB图像和深度图像后,将RGB图像和深度图像输入预设编码器进行编码,以提取RGB图像和深度图像的特征,预设编码器输出多个融合特征到预设解码器。
其中,预设编码器包括N级融合模块、符合预设下采样结构的N级第一下采样层和N级第二下采样层,各级第一下采样层用于对RGB图像或上一级RGB融合特征进行特征提取并输出本级RGB特征,各级第二下采样层用于对深度图像或上一级深度融合特征进行特征提取并输出本级深度特征,各级融合模块用于,将本级RGB特征和本级深度特征进行特征融合,并将得到的本级RGB融合特征和本级深度融合特征分别输出到下一级第一下采样层和下一级第二下采样层,以及将得到的本级融合特征输出到预设解码器,或,仅将本级融合特征输出到预设解码器,N为大于1的整数。
具体的,N级第一下采样层和N级第二下采样层采用相同的预设下采样结构,将RGB图像输入第1级第一下采样层,第1级第一下采样层对RGB图像进行特征提取,输出第1级RGB特征到第1级融合模块,同时,将深度图像输入第1级第二下采样层,第1级第二下采样层对深度图像进行特征提取,输出第1级深度特征到第1级融合模块,第1级融合模块对第1级RGB特征和第1级深度特征进行特征融合,得到第1级RGB融合特征、第1级深度融合特征和第1级融合特征,并将第1级RGB融合特征输出到第2级第一下采样层,将第1级深度融合特征输出到第2级第二下采样层,以及将第1级融合特征输出到预设解码器,后续依此类推,直至第N级融合模块得到本级RGB融合特征、本级深度融合特征和本级融合特征,其中,由于第N级融合模块的输出端没有连接相应的下采样层,第N级融合模块仅将本级融合特征输出到预设解码器。
在本申请一些实施例中,如图2所示,N=4,从第1级到第4级,4个第一下采样层依次为Layer1、Layer2、Layer3、Layer4,4个第二下采样层依次为Layer1-D、Layer2-D、Layer3-D、Layer4-D,4个融合模块依次为融合模块1、融合模块2、融合模块3、融合模块4,各第一下采样层和第二下采样层对应的下采样倍数依次为1/4、1/8、1/16、1/32。
可选的,各第一下采样层和各第二下采样层采用深度可分离卷积神经网络,从而可降低预设编码器的开销。
本领域技术人员可以理解到的是,部分实施例中所提及到的下一级、上一级,其概念相对于某一级别而言。示例性地,如若当前级别为第3级,则对于该级别而言的下一级为第4级、上一级为第2级。
步骤S103,基于预设解码器对各所述融合特征进行解码,得到语义分割结果。
将各级融合特征输入预设编码器进行解码,根据解码结果得到语义分割结果。
在本申请一些实施例中,所述预设解码器包括N级与所述预设下采样结构对应的上采样层,各级上采样层的输入为最后一级融合特征或上一级拼接特征,最后一级上采样层的输出为所述语义分割结果,其中,所述上一级拼接特征由上一级上采样层的输出和目标融合特征拼接生成,所述目标融合特征为各级融合特征中与上一级上采样层的上采样倍数对应的融合特征。
本实施例中,预设编码器通过N级上采样层进行解码,各上采样层的结构与预设下采样结构对应,例如,若N=4,各第一下采样层和第二下采样层对应得下采样倍数依次为1/4、1/8、1/16、1/32,则各上采样层对应的上采样倍数为1/16、1/8、1/4、1/1。第N级上采样层的输入为第N级融合特征,其他上采样层的输入为上一级拼接特征,上一级拼接特征由上一级上采样层的输出和目标融合特征拼接生成,目标融合特征为各级融合特征中与上一级上采样层的上采样倍数对应的融合特征,例如,若各级融合特征对应的下采样倍数为1/4、1/8、1/16、1/32,上一级上采样层的上采样倍数1/16,则将1/16对应的融合特征作为目标融合特征。
在本申请一些实施例中,如图2所示,N=4,从第1级到第4级,各上采样层依次为UP1、UP2、UP3、UP4,对应的上采样倍数依次为1/16、1/8、1/4、1/1。
在本申请一些实施例中,各上采样层采用反卷积神经网络,从而可更加高效的进行解码。
本申请实施例中的智能座舱环境下的语义分割方法,先获取智能座舱环境中预设目标区域的RGB图像和深度图像,然后基于预设编码器对RGB图像和深度图像进行特征提取,获取多个融合特征,最后基于预设解码器对各融合特征进行解码,得到语义分割结果,通过预设编码器分别对RGB图像和深度图像进行特征提取和特征融合,并通过预设解码器对融合特征进行解码,实现结合两种不同模态的数据特征进行语义分割,从而提高了智能座舱环境下语义分割的准确度,进而可提高对司乘状态的理解能力,更加准确的监测司乘人员的状态。
在本申请一些实施例中,各级融合模块将本级RGB特征和本级深度特征进行特征融合,包括:
将本级RGB特征分别进行平均池化处理和最大池化处理,获取第一RGB特征和第二RGB特征;
将本级深度特征分别进行平均池化处理和最大池化处理,获取第一深度特征和第二深度特征;
将所述第一RGB特征、所述第二RGB特征、所述第一深度特征和所述第二深度特征进行拼接,并通过MLP操作获取全局特征;
根据所述全局特征、本级RGB特征和本级深度特征生成本级RGB融合特征和本级深度融合特征;
将本级RGB融合特征和本级深度融合特征输入预设自注意力模块进行特征融合,生成本级融合特征。
本实施例中,在融合模块中,先对本级RGB特征进行平均池化处理,得到第一RGB特征;对本级RGB特征进行最大池化处理,得到第二RGB特征;对本级深度特征进行平均池化处理,得到第一深度特征;对本级深度特征进行最大池化处理,得到第二深度特征。然后将第一RGB特征、第二RGB特征、第一深度特征和第二深度特征进行拼接,并通过MLP(MultilayerPerceptron,多层感知器)操作获取全局特征,再根据全局特征、本级RGB特征和本级深度特征生成本级RGB融合特征和本级深度融合特征,最后将本级RGB融合特征和本级深度融合特征输入预设自注意力模块进行特征融合,生成本级融合特征,从而使融合模块更加准确的进行特征融合。
需要说明的是,以上实施例的方案仅为本申请所提出的一种具体实现方案,本领域技术人员可采用其他融合方式使融合模块进行特征融合,不同的方式均属于本申请保护的范围。
在本申请一些实施例中,所述根据所述全局特征、本级RGB特征和本级深度特征生成本级RGB融合特征和本级深度融合特征,包括:
将所述全局特征与本级RGB特征相乘,并将相乘结果与本级RGB特征相加,生成本级RGB融合特征;
将所述全局特征与本级深度特征相乘,并将相乘结果与本级深度特征相加,生成本级深度融合特征。
本实施例中,在获取全局特征后,将全局特征与本级RGB特征相乘,并将相乘结果与本级RGB特征相加,生成本级RGB融合特征,将全局特征与本级深度特征相乘,并将相乘结果与本级深度特征相加,生成本级深度融合特征,从而提高了本级RGB融合特征和本级深度融合特征的准确性。
举例来说,如图3所示,在融合模块中,先对本级RGB特征和本级深度特征分别进行平均池化处理和最大池化处理,然后将得到的第一RGB特征、第二RGB特征、第一深度特征和第二深度特征进行拼接,并通过MLP操作获取全局特征,再将全局特征与本级RGB特征相乘,并将相乘结果与本级RGB特征相加,生成本级RGB融合特征,将全局特征与本级深度特征相乘,并将相乘结果与本级深度特征相加,生成本级深度融合特征,然后基于预设自注意力模块(Attention Module)进行特征融合,生成本级融合特征,后续可将本级RGB融合特征和本级深度融合特征分别输出到下一级第一下采样层和下一级第二下采样层,将本级融合特征输出到预设解码器。
需要说明的是,以上实施例的方案仅为本申请所提出的一种具体实现方案,本领域技术人员可采用其他方式生成本级RGB融合特征和本级深度融合特征,例如将本级RGB融合特征和本级深度融合特征,仅与全局特征相乘或相加,或先相加再相乘等,不同的方式均不影响本申请保护的范围。
在本申请一些实施例中,所述将本级RGB融合特征和本级深度融合特征输入预设自注意力模块进行特征融合,生成本级融合特征,包括:
基于Channel Embedding操作将本级RGB融合特征由大小转换为/>大小,并通过线性层生成大小为/>的第一Q向量、以及与第一Q向量对应的第一K向量和第一V向量;
基于Channel Embedding操作将本级深度融合特征由大小转换为/>大小,并通过线性层生成大小为/>的第二Q向量、以及与第二Q向量对应的第二K向量和第二V向量;
根据所述第一Q向量、所述第一K向量、所述第一V向量、所述第二Q向量、所述第二K向量和所述第二V向量确定RGB注意力结果和深度注意力结果;
将所述RGB注意力结果和深度注意力结果进行拼接并进行MLP操作,生成本级融合特征;
其中,N=H×W。
本实施例中,如图4所示,在预设自注意力模块中,基于Channel Embedding操作将本级RGB融合特征由大小转换为/>大小,并通过线性层生成大小为/>的第一Q向量、以及与第一Q向量对应的第一K向量和第一V向量,同时,基于Channel Embedding操作将本级深度融合特征由/>大小转换为/>大小,并通过线性层生成大小为/>的第二Q向量、以及与第二Q向量对应的第二K向量和第二V向量,然后根据第一Q向量、第一K向量、第一V向量、第二Q向量、第二K向量和第二V向量确定RGB注意力结果和深度注意力结果,最后将RGB注意力结果和深度注意力结果进行拼接并进行MLP操作,生成本级融合特征,从而提高了本级融合特征的准确性。
在本申请一些实施例中,所述根据所述第一Q向量、所述第一K向量、所述第一V向量、所述第二Q向量、所述第二K向量和所述第二V向量确定RGB注意力结果和深度注意力结果,包括:
根据公式一确定RGB全局上下文特征向量Grgb和深度全局上下文特征向量Gdepth,所述公式一为:
根据公式二确定RGB注意力结果Urgb和深度注意力结果Udepth,所述公式二为:
Urgb=qrgbSoftmax(Gdepth)
Udepth=QdepthSoftmax(Grgb);
其中,为所述第一K向量的转置,Vrgb为所述第一v向量,/>为所述第二K向量的转置,Vdepth为所述第二V向量,Qrgb为所述第一Q向量,Qdepth为所述第二Q向量。
本实施例中,先根据公式一确定RGB全局上下文特征向量和深度全局上下文特征向量,然后将第一Q向量、第二Q向量、RGB全局上下文特征向量和深度全局上下文特征向量代入公式二,得到RGB注意力结果和深度注意力结果,从而提高了RGB注意力结果和深度注意力结果的准确性。
在本申请一些实施例中,在基于预设编码器对所述RGB图像和所述深度图像进行特征提取,获取多个融合特征之前,所述方法还包括:
在所述智能座舱环境中采集预设数量的RGB样本图像和深度样本图像,并对所述RGB样本图像和所述深度样本图像进行人工标注,获取数据集;
基于所述数据集对预设初始编码器和预设初始解码器进行训练,在满足预设训练完成条件时,获取所述预设编码器和所述预设解码器。
本实施例中,在智能座舱环境中采集预设数量的RGB样本图像和深度样本图像,并对RGB样本图像和深度样本图像进行人工标注,以获取数据集,其中,在采集图像时,可通过改变智能座舱环境的光照强度或使车辆处于不同的外部环境,并可对RGB样本图像和深度样本图像进行随机缩放、裁剪和翻转,以提高数据集中样本的获取效率。然后,按与预设编码器和预设解码器相应的结构构建预设初始编码器和预设初始解码器,利用数据集对预设初始编码器和预设初始解码器进行训练,在满足预设训练完成条件时,获取预设编码器和预设解码器,训练完成条件可以为损失值小于预设阈值或达到预设迭代次数,从而提高了预设编码器和预设解码器的准确性。
本申请实施例还提出了一种智能座舱环境下的语义分割装置,如图5所示,所述装置包括:获取模块501,用于获取智能座舱环境中预设目标区域的RGB图像和深度图像;编码模块502,用于基于预设编码器对所述RGB图像和所述深度图像进行特征提取,获取多个融合特征;解码模块503,用于基于预设解码器对各所述融合特征进行解码,得到语义分割结果;其中,所述预设编码器包括N级融合模块、符合预设下采样结构的N级第一下采样层和N级第二下采样层,各级第一下采样层用于对所述RGB图像或上一级RGB融合特征进行特征提取并输出本级RGB特征,各级第二下采样层用于对所述深度图像或上一级深度融合特征进行特征提取并输出本级深度特征,各级融合模块用于,将本级RGB特征和本级深度特征进行特征融合,并将得到的本级RGB融合特征和本级深度融合特征分别输出到下一级第一下采样层和下一级第二下采样层,以及将得到的本级融合特征输出到所述预设解码器,或,仅将本级融合特征输出到所述预设解码器,N为大于1的整数。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存储处理器的可执行指令;
处理器601,被配置为经由执行所述可执行指令来执行:
获取智能座舱环境中预设目标区域的RGB图像和深度图像;基于预设编码器对所述RGB图像和所述深度图像进行特征提取,获取多个融合特征;基于预设解码器对各所述融合特征进行解码,得到语义分割结果;其中,所述预设编码器包括N级融合模块、符合预设下采样结构的N级第一下采样层和N级第二下采样层,各级第一下采样层用于对所述RGB图像或上一级RGB融合特征进行特征提取并输出本级RGB特征,各级第二下采样层用于对所述深度图像或上一级深度融合特征进行特征提取并输出本级深度特征,各级融合模块用于,将本级RGB特征和本级深度特征进行特征融合,并将得到的本级RGB融合特征和本级深度融合特征分别输出到下一级第一下采样层和下一级第二下采样层,以及将得到的本级融合特征输出到所述预设解码器,或,仅将本级融合特征输出到所述预设解码器,N为大于1的整数。
上述通信总线可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括非易失性存储器,例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的智能座舱环境下的语义分割方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上所述的智能座舱环境下的语义分割方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种智能座舱环境下的语义分割方法,其特征在于,所述方法包括:
获取智能座舱环境中预设目标区域的RGB图像和深度图像;
基于预设编码器对所述RGB图像和所述深度图像进行特征提取,获取多个融合特征;
基于预设解码器对各所述融合特征进行解码,得到语义分割结果;
其中,所述预设编码器包括N级融合模块、符合预设下采样结构的N级第一下采样层和N级第二下采样层,各级第一下采样层用于对所述RGB图像或上一级RGB融合特征进行特征提取并输出本级RGB特征,各级第二下采样层用于对所述深度图像或上一级深度融合特征进行特征提取并输出本级深度特征,各级融合模块用于,将本级RGB特征和本级深度特征进行特征融合,并将得到的本级RGB融合特征和本级深度融合特征分别输出到下一级第一下采样层和下一级第二下采样层,以及将得到的本级融合特征输出到所述预设解码器,或,仅将本级融合特征输出到所述预设解码器,N为大于1的整数。
2.如权利要求1所述的方法,其特征在于,所述预设解码器包括N级与所述预设下采样结构对应的上采样层,各级上采样层的输入为最后一级融合特征或上一级拼接特征,最后一级上采样层的输出为所述语义分割结果,其中,所述上一级拼接特征由上一级上采样层的输出和目标融合特征拼接生成,所述目标融合特征为各级融合特征中与上一级上采样层的上采样倍数对应的融合特征。
3.如权利要求1所述的方法,其特征在于,各级融合模块将本级RGB特征和本级深度特征进行特征融合,包括:
将本级RGB特征分别进行平均池化处理和最大池化处理,获取第一RGB特征和第二RGB特征;
将本级深度特征分别进行平均池化处理和最大池化处理,获取第一深度特征和第二深度特征;
将所述第一RGB特征、所述第二RGB特征、所述第一深度特征和所述第二深度特征进行拼接,并通过MLP操作获取全局特征;
根据所述全局特征、本级RGB特征和本级深度特征生成本级RGB融合特征和本级深度融合特征;
将本级RGB融合特征和本级深度融合特征输入预设自注意力模块进行特征融合,生成本级融合特征。
4.如权利要求3所述的方法,其特征在于,所述根据所述全局特征、本级RGB特征和本级深度特征生成本级RGB融合特征和本级深度融合特征,包括:
将所述全局特征与本级RGB特征相乘,并将相乘结果与本级RGB特征相加,生成本级RGB融合特征;
将所述全局特征与本级深度特征相乘,并将相乘结果与本级深度特征相加,生成本级深度融合特征。
5.如权利要求3所述的方法,其特征在于,所述将本级RGB融合特征和本级深度融合特征输入预设自注意力模块进行特征融合,生成本级融合特征,包括:
基于Channel Embedding操作将本级RGB融合特征由大小转换为/>大小,并通过线性层生成大小为/>的第一Q向量、以及与第一Q向量对应的第一K向量和第一V向量;
基于Channel Embedding操作将本级深度融合特征由大小转换为/>大小,并通过线性层生成大小为/>的第二Q向量、以及与第二Q向量对应的第二K向量和第二V向量;
根据所述第一Q向量、所述第一K向量、所述第一V向量、所述第二Q向量、所述第二K向量和所述第二V向量确定RGB注意力结果和深度注意力结果;
将所述RGB注意力结果和深度注意力结果进行拼接并进行MLP操作,生成本级融合特征;
其中,N=H×W。
6.如权利要求5所述的方法,其特征在于,所述根据所述第一Q向量、所述第一K向量、所述第一V向量、所述第二Q向量、所述第二K向量和所述第二V向量确定RGB注意力结果和深度注意力结果,包括:
根据公式一确定RGB全局上下文特征向量Grgb和深度全局上下文特征向量Gdepth,所述公式一为:
根据公式二确定RGB注意力结果Urgb和深度注意力结果Udepth,所述公式二为:
Urgb=QrgbSoftmax(Gdepth)
Udepth=QdepthSoftmax(Grgb);
其中,为所述第一K向量的转置,Vrgb为所述第一V向量,/>为所述第二K向量的转置,Vdepth为所述第二V向量,Qrgb为所述第一Q向量,Qdepth为所述第二Q向量。
7.如权利要求1所述的方法,其特征在于,在基于预设编码器对所述RGB图像和所述深度图像进行特征提取,获取多个融合特征之前,所述方法还包括:
在所述智能座舱环境中采集预设数量的RGB样本图像和深度样本图像,并对所述RGB样本图像和所述深度样本图像进行人工标注,获取数据集;
基于所述数据集对预设初始编码器和预设初始解码器进行训练,在满足预设训练完成条件时,获取所述预设编码器和所述预设解码器。
8.一种智能座舱环境下的语义分割装置,其特征在于,所述装置包括:
获取模块,用于获取智能座舱环境中预设目标区域的RGB图像和深度图像;
编码模块,用于基于预设编码器对所述RGB图像和所述深度图像进行特征提取,获取多个融合特征;
解码模块,用于基于预设解码器对各所述融合特征进行解码,得到语义分割结果;
其中,所述预设编码器包括N级融合模块、符合预设下采样结构的N级第一下采样层和N级第二下采样层,各级第一下采样层用于对所述RGB图像或上一级RGB融合特征进行特征提取并输出本级RGB特征,各级第二下采样层用于对所述深度图像或上一级深度融合特征进行特征提取并输出本级深度特征,各级融合模块用于,将本级RGB特征和本级深度特征进行特征融合,并将得到的本级RGB融合特征和本级深度融合特征分别输出到下一级第一下采样层和下一级第二下采样层,以及将得到的本级融合特征输出到所述预设解码器,或,仅将本级融合特征输出到所述预设解码器,N为大于1的整数。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所述的智能座舱环境下的语义分割方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的智能座舱环境下的语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310905658.6A CN116935052B (zh) | 2023-07-24 | 2023-07-24 | 智能座舱环境下的语义分割方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310905658.6A CN116935052B (zh) | 2023-07-24 | 2023-07-24 | 智能座舱环境下的语义分割方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116935052A true CN116935052A (zh) | 2023-10-24 |
CN116935052B CN116935052B (zh) | 2024-03-01 |
Family
ID=88393820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310905658.6A Active CN116935052B (zh) | 2023-07-24 | 2023-07-24 | 智能座舱环境下的语义分割方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116935052B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113888557A (zh) * | 2021-09-22 | 2022-01-04 | 山东师范大学 | 一种基于rgb-d特征融合的场景语义分割方法及系统 |
CN114372986A (zh) * | 2021-12-30 | 2022-04-19 | 深圳大学 | 注意力引导多模态特征融合的图像语义分割方法及装置 |
CN114549439A (zh) * | 2022-02-11 | 2022-05-27 | 中北大学 | 一种基于多模态特征融合的rgb-d图像语义分割方法 |
CN114693929A (zh) * | 2022-03-31 | 2022-07-01 | 西南科技大学 | 一种rgb-d双模态特征融合的语义分割方法 |
CN114723951A (zh) * | 2022-06-08 | 2022-07-08 | 成都信息工程大学 | 一种用于rgb-d图像分割的方法 |
CN114842216A (zh) * | 2022-04-28 | 2022-08-02 | 贵州大学 | 一种基于小波变换的室内rgb-d图像语义分割方法 |
CN116206133A (zh) * | 2023-04-25 | 2023-06-02 | 山东科技大学 | 一种rgb-d显著性目标检测方法 |
CN116433904A (zh) * | 2023-03-31 | 2023-07-14 | 安徽理工大学 | 一种基于形状感知和像素卷积的跨模态rgb-d语义分割方法 |
-
2023
- 2023-07-24 CN CN202310905658.6A patent/CN116935052B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113888557A (zh) * | 2021-09-22 | 2022-01-04 | 山东师范大学 | 一种基于rgb-d特征融合的场景语义分割方法及系统 |
CN114372986A (zh) * | 2021-12-30 | 2022-04-19 | 深圳大学 | 注意力引导多模态特征融合的图像语义分割方法及装置 |
CN114549439A (zh) * | 2022-02-11 | 2022-05-27 | 中北大学 | 一种基于多模态特征融合的rgb-d图像语义分割方法 |
CN114693929A (zh) * | 2022-03-31 | 2022-07-01 | 西南科技大学 | 一种rgb-d双模态特征融合的语义分割方法 |
CN114842216A (zh) * | 2022-04-28 | 2022-08-02 | 贵州大学 | 一种基于小波变换的室内rgb-d图像语义分割方法 |
CN114723951A (zh) * | 2022-06-08 | 2022-07-08 | 成都信息工程大学 | 一种用于rgb-d图像分割的方法 |
CN116433904A (zh) * | 2023-03-31 | 2023-07-14 | 安徽理工大学 | 一种基于形状感知和像素卷积的跨模态rgb-d语义分割方法 |
CN116206133A (zh) * | 2023-04-25 | 2023-06-02 | 山东科技大学 | 一种rgb-d显著性目标检测方法 |
Non-Patent Citations (2)
Title |
---|
JIAMING ZHANG等: "CMX Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers v3", 《ARXIV》, pages 1 - 18 * |
QIANKUN ZHAO等: "Cross-modal attention fusion network for RGB-D semantic segmentation", 《NEUROCOMPUTING》, pages 1 - 13 * |
Also Published As
Publication number | Publication date |
---|---|
CN116935052B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106934397B (zh) | 图像处理方法、装置及电子设备 | |
CN111832570A (zh) | 一种图像语义分割模型训练方法及系统 | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN113901909B (zh) | 基于视频的目标检测方法、装置、电子设备和存储介质 | |
CN115147598A (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
CN114821488B (zh) | 基于多模态网络的人群计数方法、系统及计算机设备 | |
CN115861380A (zh) | 雾天低照度场景下端到端无人机视觉目标跟踪方法及装置 | |
CN111507262A (zh) | 用于检测活体的方法和装置 | |
CN112053338A (zh) | 图像分解方法和相关装置、设备 | |
CN116363538B (zh) | 一种基于无人机的桥梁检测方法及系统 | |
CN113436107A (zh) | 图像增强方法、智能设备、计算机存储介质 | |
CN116935052B (zh) | 智能座舱环境下的语义分割方法及相关设备 | |
CN117078574A (zh) | 一种图像去雨方法及装置 | |
CN116258756B (zh) | 一种自监督单目深度估计方法及系统 | |
CN117036436A (zh) | 一种基于双编码器-解码器的单目深度估计方法及系统 | |
CN116993987A (zh) | 一种基于轻量级神经网络模型的图像语义分割方法及系统 | |
CN111898544A (zh) | 文字图像匹配方法、装置和设备及计算机存储介质 | |
CN115760607A (zh) | 图像修复方法、装置、可读介质以及电子设备 | |
CN116091765A (zh) | 一种rgb-t图像语义分割方法和装置 | |
CN115115836A (zh) | 图像识别方法、装置、存储介质以及电子设备 | |
CN111311722B (zh) | 信息处理方法及装置、电子设备和存储介质 | |
CN111339367B (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
CN113902933A (zh) | 一种地面分割网络模型的训练方法、装置、设备和介质 | |
CN113298102A (zh) | 一种目标分类模型的训练方法及装置 | |
Yuan et al. | [Retracted] Marine Underwater Landscape Image Design Based on Bright Color Compensation and GAN Model Generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |