CN116524195B

CN116524195B - 语义分割方法、装置、电子设备及存储介质

Info

Publication number: CN116524195B
Application number: CN202310728601.3A
Authority: CN
Inventors: 秦文健; 熊兵; 彭月
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-12-01
Anticipated expiration: 2043-06-20
Also published as: CN116524195A

Abstract

本申请提供了一种基于深度图的语义分割方法、装置、电子设备及存储介质，涉及图像处理技术领域。其中，该语义分割方法包括：获取目标场景下的深度图像；调用预训练模型对所述深度图像进行模态转换，得到自然图像；所述预训练模型是经过训练、且具有在所述深度图像与所述自然图像之间进行模态转换的能力的机器学习模型；将所述深度图像和所述自然图像进行模态融合，以利用所述自然图像对所述深度图像进行额外图像信息的补充；针对模态融合后的图像进行语义分割，得到语义分割结果。本申请解决了相关技术中语义分割的精度和功耗难以平衡的问题。

Description

语义分割方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，本申请涉及一种基于深度图的语义分割方法、装置、电子设备及存储介质。

背景技术

到2050年，世界盲人数量预计会达到7.03亿。“为盲人导盲”一直是一个热点研究问题，尤其是针对盲人生活场景中占用较多的室内场景。可以理解，室内场景往往包含较多物体，例如，物体可以是家电、家具等，该些物体在室内场景中不仅容易相互遮挡，而且容易出现纹理相近的现象，这都会影响语义分割的精度，从而增加为盲人导盲的难度。

目前，为了提高语义分割的精度，语义分割的对象主要有RGB图像和RGBD图像，但是采集RGB图像和RGBD图像对图像采集设备所造成的芯片功耗是十分巨大的，并利于降低语义分割的成本；若是基于深度图进行语义分割，在芯片功耗方面具有比较明显的优势，但是深度图的图像质量要低于RGB图像、RGBD图像，这会影响语义分割的精度。

由上可知，如何平衡语义分割的精度和功耗仍有待解决。

发明内容

本申请各提供了一种基于深度图的语义分割方法、装置、电子设备及存储介质，可以解决相关技术中存在的语义分割的精度和功耗难以平衡的问题。所述技术方案如下：

根据本申请的一个方面，一种基于深度图的语义分割方法，包括：获取目标场景下的深度图像；调用预训练模型对所述深度图像进行模态转换，得到自然图像；所述预训练模型是经过训练、且具有在所述深度图像与所述自然图像之间进行模态转换的能力的机器学习模型；将所述深度图像和所述自然图像进行模态融合，以利用所述自然图像对所述深度图像进行额外图像信息的补充；针对模态融合后的图像进行语义分割，得到语义分割结果。

根据本申请的一个方面，一种基于深度图的语义分割装置，包括：图像获取模块，用于获取目标场景下的深度图像；模态转换模块，用于调用预训练模型对所述深度图像进行模态转换，得到自然图像；所述预训练模型是经过训练、且具有在所述深度图像与所述自然图像之间进行模态转换的能力的机器学习模型；模态融合模块，用于将所述深度图像和所述自然图像进行模态融合，以利用所述自然图像对所述深度图像进行额外图像信息的补充；语义分割模块，用于针对模态融合后的图像进行语义分割，得到语义分割结果。

在一示例性实施例中，所述预训练模型包括第一图像扩散模型分支和第二图像扩散模型分支；其中，所述第一图像扩散模型分支用于学习所述深度图像；所述第二图像扩散模型分支用于在提示信息的控制下学习所述深度图像；所述提示信息用于描述所述目标场景中的至少一个目标。

在一示例性实施例中，所述第一图像扩散模型分支包括第一编码器和第一解码器；所述第一编码器和所述第一解码器分别对应的权重保持不变；所述装置还包括第一学习模块，用于所述第一图像扩散模型分支的学习过程；其中，所述第一图像扩散模型分支的学习过程包括：将所述深度图像输入所述第一编码器进行编码，得到所述深度图像的第一图像特征；利用所述第一解码器，对所述深度图像的第一图像特征进行解码，以实现对所述深度图像的学习，得到所述自然图像。

在一示例性实施例中，所述第二图像扩散模型分支包括条件编码器、第二编码器和第三编码器；所述第二编码器和所述第三编码器分别对应的权重能够调整；所述装置还包括第二学习模块，用于所述第二图像扩散模型分支的学习过程；其中，所述第二图像扩散模型分支的学习过程，包括：将所述深度图像和所述提示信息输入所述条件编码器进行融合编码，得到所述提示信息和所述深度图像的融合特征；利用所述第二编码器，对所述提示信息和所述深度图像的融合特征进行编码，得到所述深度图像在所述提示信息控制下的文本图像特征；利用所述第三编码器，对所述深度图像在所述提示信息控制下的文本图像特征进行编码，得到所述深度图像的第二图像特征，以实现对所述深度图像在所述提示信息控制下的学习；在所述提示信息更新的情况下，更新所述第二编码器和所述第三编码器分别对应的权重，使得所述深度图像在更新的所述提示信息的控制下继续学习所述深度图像。

在一示例性实施例中，所述第一学习模块，还用于将所述深度图像的第一图像特征和第二图像特征输入所述第一解码器，通过所述第一解码器中的解码过程对所述深度图像进行模态转换，得到所述自然图像。

在一示例性实施例中，所述装置还包括标准化处理模块，用于对所述深度图像进行图像标准化处理，使得调用所述预训练模型进行模态转换的是处理后的所述深度图像。

在一示例性实施例中，所述目标场景是指室内场景；所述语义分割模块，还用于将模态融合后的图像输入语义分割模型进行特征提取，得到对应的图像特征；所述语义分割模型是经过训练、且具有对所述室内场景中的目标进行识别的能力的机器学习模型；根据所述图像特征对所述室内场景中的目标进行基于图像像素级的识别，得到所述语义分割结果，所述语义分割结果用于指示所述目标在所述室内场景中的位置，和/或，所述目标的类别。根据本申请的一个方面，一种电子设备，包括至少一个处理器以及至少一个存储器，其中，所述存储器上存储有计算机可读指令；所述计算机可读指令被一个或多个所述处理器执行，使得电子设备实现如上所述的基于深度图的语义分割方法。

根据本申请的一个方面，一种存储介质，其上存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行，以实现如上所述的基于深度图的语义分割方法。

根据本申请的一个方面，一种计算机程序产品，计算机程序产品包括计算机可读指令，计算机可读指令存储在存储介质中，电子设备的一个或多个处理器从存储介质读取计算机可读指令，加载并执行该计算机可读指令，使得电子设备实现如上所述的基于深度图的语义分割方法。

本申请提供的技术方案带来的有益效果是：

在上述技术方案中，基于目标场景下的深度图像，调用预训练模型进行模态转换得到自然图像，将该自然图像和深度图像进行模态融合，并针对模态融合后的图像进行语义分割得到语义分割结果，由此可见，语义分割的对象不再是RGB图像或RGBD图像等自然图像而是深度图像，以此来降低图像采集对图像采集设备所造成的巨大的芯片功耗，同时，利用经过训练、且具有在深度图像和自然图像之间进行模态转换的预训练模型来对深度图像进行模态转换，以利用模态转换得到的自然图像对深度图像进行额外图像信息的补充，使得语义分割能够获取足够丰富且有效的信息量，进而有利于提高语义分割的精度，从而能够有效地解决相关技术中存在的语义分割难以平衡精度和功耗的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种基于深度图的语义分割方法的流程图；

图3是图2对应实施例中步骤370在一个实施例的流程图；

图4是根据一示例性实施例示出的语义分割网络架构的具体实现示意图；

图5是图2对应实施例中步骤330在一个实施例的流程图；

图6是根据一示例性实施例示出的一种基于深度图的语义分割装置的结构框图；

图7是根据一示例性实施例示出的一种电子设备的硬件结构图；

图8是根据一示例性实施例示出的一种电子设备的结构框图。

实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本公开的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

下面是对本申请涉及的几个名词进行的介绍和解释：

AIGC，英文全称为AI-Generated Content，中文含义为人工智能内容生成。

RGB，也认为是RGB色彩模式，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色，相应地，RGB图像也认为是彩色图像、自然图像，是通过RGB色彩模式进行显示的图像。

RGBD，在RGB色彩模式的基础上，引入深度（Depth）的概念。

深度图像，类似于灰度图像，只是它的每个像素值表示传感器/摄像头模组等距离物体的实际距离。

如前所述，针对盲人生活场景中占用较多的室内场景而言，由于具有物体相互遮挡、存在纹理相近难以区分的物体等特点，导致语义分割的精度受到影响。

为此，相关技术中往往采用RGB图像或RGBD图像进行语义分割，例如，以RGB彩色摄像头等摄像头作为图像采集设备进行图像拍摄和采集，并通过RGB或RGBD语义分割对室内场景中的物体加以识别，但是对于图像采集设备来说，一方面，采集RGB图像或RGBD图像的芯片功耗十分巨大，不利于图像采集设备降低硬件成本、增加续航时间、延长寿命等；另一方面，若是将RGB图像或RGBD图像传输至云端进行语义分割，虽然可以避免图像采集设备使用高功耗的图像采集芯片，但无法避免会使得语义分割的处理效率受到网络传输延时的影响，进而影响用户实时体验，比如为盲人导盲因存在延迟而无法令盲人有效地避障。

此外，就RGB彩色图像而言，在室内场景的大部分情况下能够保证语义分割的精度，即室内场景中的目标能够得到很好地识别，但是对于纹理相近的物体或者光照情况有变化的室内场景，语义分割的精度依然不高，进而导致对室内场景中的目标识别效果不佳。

基于深度图像的图像采集设备在芯片功耗方面虽然相较于上述图像采集设备具有明显优势，但是由于深度图像只应用了单模态，对物体识别摆脱了光照强度的影响，造成深度图像的图像质量不如RGB图像或RGBD图像，无法为语义分割提供足够有效的信息量，导致难以保证语义分割的精度，这往往从另一方面要求图像采集设备具有较高的精度，仍然无法有效地降低语义分割的成本。

由上可知，相关技术中仍存在难以平衡语义分割的精度和功耗的缺陷，从而增加了为盲人导盲的难度。

为此，本申请提供的基于深度图的语义分割方法，能够有效地提升基于深度图的语义分割的精度，同时有利于降低图像采集设备的功耗，相应地，该基于深度图的语义分割方法适用于基于深度图的语义分割装置，该基于深度图的语义分割装置可部署于电子设备，该电子设备可以是具有拍摄和采集图像功能的电子设备，例如，电子设备可以是辅助盲人的导盲设备，比如导盲眼镜。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1为一种基于深度图的语义分割方法所涉及的一种实施环境的示意图。需要说明的是，该种实施环境只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。

该实施环境包括目标场景100、以及存在于目标场景四周或内部的采集端110。

其中，采集端110，也可以认为是图像采集设备，包括但不限于摄像头、相机、摄录机等具有拍摄和采集图像功能的电子设备。采集端110具体是指用于拍摄和采集目标场景下的深度图像的图像采集设备。

如图1所示，若目标场景100是室内场景，该室内场景中部署有沙发121、台灯122、茶几123等，则采集端110可以是配置摄像头模组的导盲眼镜，那么，在盲人佩戴该导盲眼镜观察目标场景100时，便能够通过该导盲眼镜实现目标场景100下的深度图像拍摄和采集。

对于采集端110而言，在获取到目标场景100下的深度图像后，便可以调用经过训练的预训练模型，在深度图像与自然图像之间进行模态转换，进而将模态转换得到的自然图像与深度图像进行模态融合，以利用自然图像对深度图像进行额外图像信息的补充，并最终针对模态融合后的图像进行语义分割，得到语义分割结果。

以前述盲人生活场景中占用较多的室内场景为例，在得到语义分割结果后，便可以进一步确定目标在室内场景中的位置及其类别，从而辅助盲人在室内场景中有效地避障，以此改善盲人的生活质量。

请参阅图2，本申请实施例提供了一种基于深度图的语义分割方法，该方法适用于电子设备，该电子设备可以是图1所示出实施环境中的采集端110。

在下述方法实施例中，为了便于描述，以该方法各步骤的执行主体为电子设备为例进行说明，但是并非对此构成具体限定。

如图2所示，该方法可以包括以下步骤：

步骤310，获取目标场景下的深度图像。

首先说明的是，深度图像，也可以认为是深度图，是通过图像采集设备对目标场景进行拍摄和采集得到的。其中，图像采集设备可以是具备拍摄和采集深度图像功能的电子设备，例如，搭载了深度图像采集芯片的摄像头等等。图像采集设备可以存在于目标场景的四周或内部，例如，若目标场景为室内场景，则图像采集设备可以是客厅中盲人所佩戴的导盲眼镜；若目标场景为户外场景，则图像采集设备可以部署在公路边的灯柱或者建筑物外墙上。

补充说明的是，目标场景是指一个或多个相同或不同目标所在的环境，该目标是指环境中存在/出现的物体对象，该目标可以是指室内场景中部署的家电、家具等静止物体，也可以是指户外场景中出现的车辆、行人等运动物体。目标场景不同，语义分割的应用场景也将有所区别。例如，若目标场景为室内场景，则语义分割的应用场景可以是辅助盲人在室内场景中进行有效地避障，以此改善盲人的生活质量；或者，若目标场景为户外场景，则语义分割的应用场景可以是监控车辆/行人是否违反交通规则，以此确保路面交通安全。

可以理解，拍摄可以是单次拍摄，还可以是连续性拍摄，那么，针对同一个目标场景，对于连续性拍摄而言，可以得到一段视频，则深度图像可以是该视频中的任意一帧画面，而就多次拍摄来说，可以得到多张照片，则深度图像可以是该多张照片中的任意一张照片。换而言之，本实施例中的深度图像可以来自于动态图像中的一帧静态图像，例如一段视频中的一帧画面，还可以来自于多帧静态图像中的一帧静态图像，例如多张照片中的任意一张照片，相应地，本实施例中的语义分割是以帧为单位进行的。

其次，关于深度图像的获取，深度图像可以来源于图像采集设备实时拍摄并采集的深度图像，也可以是来自预先存储于电子设备的一历史时间段由图像采集设备拍摄并采集的深度图像。那么，对于电子设备而言，在图像采集设备拍摄并采集得到深度图像之后，可以实时处理深度图像，还可以预先存储了再处理，例如，根据工作人员的指示处理深度图像。由此，本实施例中的语义分割可以针对实时获取到的深度图像，也可以针对历史时间段获取到的深度图像，在此并未进行具体限定。

步骤330，调用预训练模型对深度图像进行模态转换，得到自然图像。

其中，预训练模型是经过训练、且具有在深度图像与自然图像之间进行模态转换的能力的机器学习模型。也就是说，对深度图像进行模态转换的预训练模型，是根据训练集中的训练样本对机器学习模型进行了预训练生成的。应当说明的是，训练样本指的是利用图像采集设备对训练场景进行了拍摄和采集的深度图像，此处的训练场景可以是我国居民常见的生活场景，比如图1所示出的室内场景，此种方式下，不仅能够使得由深度图像转换得到的自然图像更加地真实可用，而且通过大量训练样本进行的训练能够实现深度图像至自然图像的无损转换，将深度图像与目标场景进行良好匹配。

在一种可能的实现方式，预训练模型包括用于学习深度图像的第一图像扩散模型分支、以及用于在提示信息的控制下学习深度图像的第二图像扩散模型分支。其中，提示信息用于描述目标场景中的至少一个目标。在此说明的是，提示信息所描述的目标场景中目标的数量可以是一个，也可以是多个，并且随着目标场景的不同，提示信息的生成方式也可以有所差异，此处并未加以限定。例如，若目标场景为室内场景，提示信息可以由深度图像解析的室内图得到，该提示信息描述了该室内图中的任意多个目标。

在一种可能的实现方式，第一图像扩散模型分支由Stable Diffusion网络实现。在一种可能的实现方式，第二图像扩散模型分支由Stable Diffusion网络实现。在此说明的是，在预训练完成后，第一图像扩散模型分支的模型参数保持不变，第二图像扩散模型分支的模型参数能够根据目标场景中目标的不同（比如用于描述该目标的提示信息不同）进行微调。此种方式下，在微调第二图像扩散模型分支的模型参数时，保持模型参数不变的第一图像扩散模型分支仍然可以保留着从预训练过程中学习到的通用知识，以便于为模态转换提供更好的初始状态。

步骤350，将深度图像和自然图像进行模态融合，以利用自然图像对深度图像进行额外图像信息的补充。

其中，模态融合是指在深度图像的基础上补充由自然图像提供的额外图像信息。其中，额外图像信息是指使得深度图像能够达到接近自然图像的显示效果的数据，该额外图像信息包括但不限于：纹理信息、空间结构信息等。

此种方式下，模态融合后的图像不仅充分利用了深度图像对纹理相近物体区分的优势，还充分利用了自然图像在处理相关目标场景（比如复杂的室内场景）所对应图像的优势，从而能够为后续的语义分割提供更高质量的额外信息，进而有利于提升后续语义分割的精度。

在一种可能的实现方式，模态融合可以采用异型卷积等算法实现。

步骤370，针对模态融合后的图像进行语义分割，得到语义分割结果。

其中，语义分割结果用于指示目标在目标场景中的位置，和/或，目标的类别。换而言之，语义分割至少包括定位任务和分类任务，该定位任务用于定位目标在目标场景中的位置，分类任务则用于对目标所属的类别进行区分。

在一种可能的实现方式，语义分割通过调用语义分割模型实现。语义分割模型是经过训练、且具有对目标场景中的目标进行识别的能力的机器学习模型。该机器学习模型包括但不限于：归一化切割Normalized-cut、结构化随机森林、支持向量机SVM、深度学习网络等等，此处并未加限定。

以室内场景为例，如图3所示，步骤370可以包括以下步骤：步骤371，将模态融合后的目标图像输入语义分割模型进行特征提取，得到目标图像对应的图像特征；步骤373，根据目标图像对应的图像特征对室内场景中的目标进行基于图像像素级的识别，得到语义分割结果。其中，目标图像是指由深度图像和自然图像进行了模态融合后的图像。

在此说明的是，语义分割区别于目标检测/目标识别，目标检测/目标识别是针对图像中的目标进行定位和分类，即首先通过检测框标记图像中目标所在位置，然后通过置信度表示检测框所标记目标的类别；而语义分割是针对图像中的目标进行逐像素定位和分类，即对表示目标的每一个像素进行位置和类别的标记。换而言之，目标检测/目标识别是基于目标级别的，而语义分割是基于图像像素级别的。

在一种可能的实现方式，语义分割模型可以是RGBD语义分割模型。

通过上述过程，语义分割的对象不再是RGB图像或RGBD图像等自然图像而是深度图像，以此来降低图像采集对图像采集设备所造成的巨大的芯片功耗，同时，利用经过训练、且具有在深度图像和自然图像之间进行模态转换的预训练模型来对深度图像进行模态转换，以利用模态转换得到的自然图像对深度图像进行额外图像信息的补充，使得语义分割能够获取足够丰富且有效的信息量，进而有利于提高语义分割的精度，从而能够有效地解决相关技术中存在的语义分割难以平衡精度和功耗的问题。

在一应用场景中，将基于深度图的语义分割方法应用于导盲设备（比如导盲眼镜），并在该导盲设备中部署深度图像采集芯片、以及RGB或RGBD语义分割处理芯片，不仅能够精准地对室内场景中的目标进行识别，例如，精准地识别与衣服纹理相近的桌子、或者强白光照射影响下的白色沙发等，而且有效地降低了导盲设备的功耗，降低了导盲设备的硬件成本，同时提高了导盲设备的整体设计效率。

在一示例性实施例中，预训练模型包括第一图像扩散模型分支和第二图像扩散模型分支。其中，第一图像扩散模型分支用于学习深度图像；第二图像扩散模型分支用于在提示信息的控制下学习深度图像。该提示信息用于描述目标场景中的至少一个目标。

图4展示了语义分割网络架构在一个实施例中的具体实现示意图。如图4所示，该语义分割网络架构包括图像采集模块41、预训练模块43、语义分割模块42。其中，图像采集模块41用于通过图像采集设备对目标场景中的目标进行拍摄和采集得到待检测的深度图像。预训练模块43用于调用预训练模型在深度图像与自然图像之间进行模态转换。语义分割模块42用于对深度图像和自然图像进行模态融合，并用于输出模态融合后的图像进行语义分割得到的语义分割结果。

继续参阅图4，在图4中，预训练模块43包括图像标准化处理单元431和预训练模型，该预训练模型包括第一图像扩散模型分支和第二图像扩散模型分支。其中，第一图像扩散模型分支包括第一编码器432和第一解码器433，该第一编码器432和第一解码器433分别对应的权重保持不变。第二图像扩散模型分支包括条件编码器434、第二编码器435和第三编码器436；第二编码器435和第三编码器436分别对应的权重能够调整。在此说明的是，上述编码器和解码器分别对应的权重也可以理解为是上述图像扩散模型分支的模型参数。

以前述图4中预训练模型的模型结构为例，对深度图像与自然图像之间进行的模态转换过程进行以下详细地说明：

请参阅图5，在一示例性实施例中，模态转换过程可以包括以下步骤：

步骤410，利用图像标准化处理单元431对深度图像进行图像标准化处理。

其中，图像标准化处理包括但不限于：去噪、归一化、缩放、图像增强等，此处并未加以限定。

步骤420，将处理后的深度图像输入第一编码器432进行编码，得到深度图像的第一图像特征。

其中，第一图像特征是基于模型参数不变的第一图像扩散模型分支学习到的深度图像的图像特征。可以理解，该第一图像特征保留着从预训练过程中学习到的通用知识，能够为后续的模态转换提供更好的初始状态。

步骤430，将深度图像和提示信息输入条件编码器434进行融合编码，得到提示信息和深度图像的融合特征。

步骤440，利用第二编码器435，对提示信息和深度图像的融合特征进行编码，得到深度图像在提示信息控制下的文本图像特征。

其中，文本图像特征是基于模型参数可调整的第二图像扩散模型分支学习到的融合了深度图像和提示信息的特征。可以理解，随着目标场景中一个或多个目标发生变化，提示信息将适应性地更新，第二图像扩散模型分支的模型参数微调，文本图像特征也相应地微调而区别于第一图像特征。

步骤450，利用第三编码器436，对深度图像在提示信息控制下的文本图像特征进行编码，得到深度图像的第二图像特征，以实现对深度图像在提示信息控制下的学习。

其中，第二图像特征是基于模型参数可调整的第二图像扩散模型分支学习到的深度图像的图像特征。第二图像特征区别于第一图像特征，在提示信息的引导下，能够更加准确地对目标场景中的目标进行描述，有利于后续模态转换得到的自然图像能够更好地与目标场景匹配，进而有利于提升后续语义分割的精度。

在一种可能的实现方式，第三编码器和第二编码器分别对应的权重可以调整，具体是指，在提示信息更新的情况下，更新第二编码器和第三编码器分别对应的权重，使得深度图像在更新的提示信息的控制下继续学习深度图像。

此种方式下，基于不同质量的深度图像，便可以得到不同的提示信息，使得第二图像扩散模型分支中的第二编码器和第三编码器微调权重，以便于对不同质量的深度图像补充不同的额外图像信息，进而有利于解决深度图像只应用单模态而导致语义分割精度低和鲁棒性差的问题。

步骤460，将深度图像的第一图像特征和第二图像特征输入第一解码器433，通过第一解码器433中的解码过程对深度图像进行模态转换，得到自然图像。

在上述实施例的作用下，实现了基于深度图像的模态转换，能够为低质量的深度图像补充更多纹理上、空间结构上的信息，达到生成接近自然图像的新效果，从而有利于解决深度图像无法为语义分割提供充足信息量的问题。

下述为本申请装置实施例，可以用于执行本申请所涉及的基于深度图的语义分割方法。对于本申请装置实施例中未披露的细节，请参照本申请所涉及的基于深度图的语义分割方法的方法实施例。

请参阅图6，本申请实施例中提供了一种基于深度图的语义分割装置900，包括但不限于：图像获取模块910、模态转换模块930、模态融合模块950以及语义分割模块970。

其中，图像获取模块910，用于获取目标场景下的深度图像。

模态转换模块930，用于调用预训练模型对深度图像进行模态转换，得到自然图像；预训练模型是经过训练、且具有在深度图像与自然图像之间进行模态转换的能力的机器学习模型。

模态融合模块950，用于将深度图像和自然图像进行模态融合，以利用自然图像对深度图像进行额外图像信息的补充。

语义分割模块970，用于针对模态融合后的图像进行语义分割，得到语义分割结果。

在一示例性实施例中，预训练模型包括第一图像扩散模型分支和第二图像扩散模型分支；其中，第一图像扩散模型分支用于学习深度图像；第二图像扩散模型分支用于在提示信息的控制下学习深度图像；提示信息用于描述目标场景中的至少一个目标。

在一示例性实施例中，第一图像扩散模型分支包括第一编码器和第一解码器；第一编码器和第一解码器分别对应的权重保持不变；装置还包括第一学习模块，用于第一图像扩散模型分支的学习过程；其中，第一图像扩散模型分支的学习过程包括：将深度图像输入第一编码器进行编码，得到深度图像的第一图像特征；利用第一解码器，对深度图像的第一图像特征进行解码，以实现对深度图像的学习，得到自然图像。

在一示例性实施例中，第二图像扩散模型分支包括条件编码器、第二编码器和第三编码器；第二编码器和第三编码器分别对应的权重能够调整；装置还包括第二学习模块，用于第二图像扩散模型分支的学习过程；其中，第二图像扩散模型分支的学习过程，包括：将深度图像和提示信息输入条件编码器进行融合编码，得到提示信息和深度图像的融合特征；利用第二编码器，对提示信息和深度图像的融合特征进行编码，得到深度图像在提示信息控制下的文本图像特征；利用第三编码器，对深度图像在提示信息控制下的文本图像特征进行编码，得到深度图像的第二图像特征，以实现对深度图像在提示信息控制下的学习；在提示信息更新的情况下，更新第二编码器和第三编码器分别对应的权重，使得深度图像在更新的提示信息的控制下继续学习深度图像。

在一示例性实施例中，第一学习模块，还用于将深度图像的第一图像特征和第二图像特征输入第一解码器，通过第一解码器中的解码过程对深度图像进行模态转换，得到自然图像。

在一示例性实施例中，装置还包括：标准化处理模块，用于对深度图像进行图像标准化处理，使得调用预训练模型进行模态转换的是处理后的深度图像。

在一示例性实施例中，目标场景是指室内场景；语义分割模块，还用于将模态融合后的图像输入语义分割模型进行特征提取，得到对应的图像特征；语义分割模型是经过训练、且具有对室内场景中的目标进行识别的能力的机器学习模型；根据图像特征对室内场景中的目标进行基于图像像素级的识别，得到语义分割结果，语义分割结果用于指示目标在室内场景中的位置，和/或，目标的类别。

需要说明的是，上述实施例所提供的基于深度图的语义分割装置在进行语义分割时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即基于深度图的语义分割装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的基于深度图的语义分割装置与基于深度图的语义分割方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

图7根据一示例性实施例示出的一种电子设备的结构示意。该电子设备适用于图1所示出实施环境中的采集端110。

需要说明的是，该电子设备只是一个适配于本申请的示例，不能认为是提供了对本申请的使用范围的任何限制。该电子设备也不能解释为需要依赖于或者必须具有图7示出的示例性的电子设备2000中的一个或者多个组件。

电子设备2000的硬件结构可因配置或者性能的不同而产生较大的差异，如图7所示，电子设备2000包括：电源210、接口230、至少一存储器250、以及至少一中央处理器（CPU,Central Processing Units）270。

具体地，电源210用于为电子设备2000上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口231，用于与外部设备交互。

当然，在其余本申请适配的示例中，接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，如图7所示，在此并非对此构成具体限定。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。

其中，操作系统251用于管理与控制电子设备2000上的各硬件设备以及应用程序253，以实现中央处理器270对存储器250中海量数据255的运算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。

应用程序253是基于操作系统251之上完成至少一项特定工作的计算机可读指令，其可以包括至少一模块（图7未示出），每个模块都可以分别包含有对电子设备2000的计算机可读指令。例如，基于深度图的语义分割装置可视为部署于电子设备2000的应用程序253。

数据255可以是存储于磁盘中的照片、图片等，还可以是目标场景下的深度图像、预训练模型、自然图像等等，存储于存储器250中。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过至少一通信总线与存储器250通信，以读取存储器250中存储的计算机可读指令，进而实现对存储器250中海量数据255的运算与处理。例如，通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成基于深度图的语义分割方法。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本申请，因此，实现本申请并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图8，本申请实施例中提供了一种电子设备4000，该电子设备400可以包括：配置摄像头模组的导盲眼镜等导盲设备。

在图8中，该电子设备4000包括至少一个处理器4001以及至少一个存储器4003。

其中，处理器4001和存储器4003之间的数据交互，可以通过至少一个通信总线4002实现。该通信总线4002可包括一通路，用于在处理器4001和存储器4003之间传输数据。通信总线4002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（Extended Industry Standard Architecture，扩展工业标准结构）总线等。通信总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

存储器4003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序指令或代码并能够由电子设备400存取的任何其他介质，但不限于此。

存储器4003上存储有计算机可读指令，处理器4001可以通过通信总线4002读取存储器4003中存储的计算机可读指令。

该计算机可读指令被一个或多个处理器4001执行以实现上述各实施例中的基于深度图的语义分割方法。

此外，本申请实施例中提供了一种存储介质，该存储介质上存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行，以实现如上所述的基于深度图的语义分割方法。

本申请实施例中提供了一种计算机程序产品，计算机程序产品包括计算机可读指令，计算机可读指令存储在存储介质中，电子设备的一个或多个处理器从存储介质读取计算机可读指令，加载并执行该计算机可读指令，使得电子设备实现如上所述的基于深度图的语义分割方法。

与相关技术相比，一方面，引入预训练模型对深度图像预处理，以生成自然图像，便于为模态融合提供额外图像信息；另一方面，基于深度图像实现的语义分割，不仅解决了现阶段因RGB/RGBD图像采集芯片功耗高而阻碍导盲设备续航设计的难题，而且能够有效地提升语义分割的精准度，从而为盲人导盲提供丰富资料，有效地改善盲人生活质量。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于深度图的语义分割方法，其特征在于，所述方法包括：

获取目标场景下的深度图像；

调用预训练模型对所述深度图像进行模态转换，得到自然图像；所述预训练模型是经过训练、且具有在所述深度图像与所述自然图像之间进行模态转换的能力的机器学习模型；所述预训练模型包括第一图像扩散模型分支和第二图像扩散模型分支；其中，所述第一图像扩散模型分支用于学习所述深度图像；所述第二图像扩散模型分支用于在提示信息的控制下学习所述深度图像；所述提示信息用于描述所述目标场景中的至少一个目标；所述第一图像扩散模型分支包括第一编码器和第一解码器；所述第一编码器和所述第一解码器分别对应的权重保持不变；所述第二图像扩散模型分支包括条件编码器、第二编码器和第三编码器；所述第二编码器和所述第三编码器分别对应的权重能够调整；

将所述深度图像和所述自然图像进行模态融合，以利用所述自然图像对所述深度图像进行额外图像信息的补充；

针对模态融合后的图像进行语义分割，得到语义分割结果。

2.如权利要求1所述的方法，其特征在于，所述第一图像扩散模型分支的学习过程，包括：

将所述深度图像输入所述第一编码器进行编码，得到所述深度图像的第一图像特征；

利用所述第一解码器，对所述深度图像的第一图像特征进行解码，以实现对所述深度图像的学习，得到所述自然图像。

3.如权利要求2所述的方法，其特征在于，所述第二图像扩散模型分支的学习过程，包括：

将所述深度图像和所述提示信息输入所述条件编码器进行融合编码，得到所述提示信息和所述深度图像的融合特征；

利用所述第二编码器，对所述提示信息和所述深度图像的融合特征进行编码，得到所述深度图像在所述提示信息控制下的文本图像特征；

利用所述第三编码器，对所述深度图像在所述提示信息控制下的文本图像特征进行编码，得到所述深度图像的第二图像特征，以实现对所述深度图像在所述提示信息控制下的学习；

在所述提示信息更新的情况下，更新所述第二编码器和所述第三编码器分别对应的权重，使得所述深度图像在更新的所述提示信息的控制下继续学习所述深度图像。

4.如权利要求3所述的方法，其特征在于，所述利用所述第一解码器，对所述深度图像的第一图像特征进行解码，以实现对所述深度图像的学习，得到所述自然图像，包括：

将所述深度图像的第一图像特征和第二图像特征输入所述第一解码器，通过所述第一解码器中的解码过程对所述深度图像进行模态转换，得到所述自然图像。

5.如权利要求1所述的方法，其特征在于，所述调用预训练模型对所述深度图像进行模态转换，得到自然图像之前，所述方法还包括：

对所述深度图像进行图像标准化处理，使得调用所述预训练模型进行模态转换的是处理后的所述深度图像。

6.如权利要求1至5任一项所述的方法，其特征在于，所述目标场景是指室内场景；

所述针对模态融合后的图像进行语义分割，得到语义分割结果，包括：

将模态融合后的图像输入语义分割模型进行特征提取，得到对应的图像特征；所述语义分割模型是经过训练、且具有对所述室内场景中的目标进行识别的能力的机器学习模型；

根据所述图像特征对所述室内场景中的目标进行基于图像像素级的识别，得到所述语义分割结果，所述语义分割结果用于指示所述目标在所述室内场景中的位置，和/或，所述目标的类别。

7.一种基于深度图的语义分割装置，其特征在于，所述装置包括：

图像获取模块，用于获取目标场景下的深度图像；

模态转换模块，用于调用预训练模型对所述深度图像进行模态转换，得到自然图像；所述预训练模型是经过训练、且具有在所述深度图像与所述自然图像之间进行模态转换的能力的机器学习模型；所述预训练模型包括第一图像扩散模型分支和第二图像扩散模型分支；其中，所述第一图像扩散模型分支用于学习所述深度图像；所述第二图像扩散模型分支用于在提示信息的控制下学习所述深度图像；所述提示信息用于描述所述目标场景中的至少一个目标；所述第一图像扩散模型分支包括第一编码器和第一解码器；所述第一编码器和所述第一解码器分别对应的权重保持不变；所述第二图像扩散模型分支包括条件编码器、第二编码器和第三编码器；所述第二编码器和所述第三编码器分别对应的权重能够调整；

模态融合模块，用于将所述深度图像和所述自然图像进行模态融合，以利用所述自然图像对所述深度图像进行额外图像信息的补充；

语义分割模块，用于针对模态融合后的图像进行语义分割，得到语义分割结果。

8.一种电子设备，其特征在于，包括：至少一个处理器以及至少一个存储器，其中，所述存储器上存储有计算机可读指令；

所述计算机可读指令被一个或多个所述处理器执行，使得电子设备实现如权利要求1至6中任一项所述的基于深度图的语义分割方法。

9.一种存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被一个或多个处理器执行，以实现如权利要求1至6中任一项所述的基于深度图的语义分割方法。