CN109002837A

CN109002837A - 一种图像语义分类方法、介质、装置和计算设备

Info

Publication number: CN109002837A
Application number: CN201810643817.9A
Authority: CN
Inventors: 王加芳; 刘海伟; 丛林
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Hangzhou Yixian Advanced Technology Co Ltd
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2018-12-14

Abstract

本发明的实施方式提供了一种图像语义分类方法、介质、装置和计算设备。该方法包括：对待识别图像进行语义分割生成第一语义标签，第一语义标签用于指示待识别图像中至少一个像素的语义分类；将第一语义标签存储到三维空间的至少一个体素中，至少一个像素与至少一个体素一一对应；以及将至少一个体素的第一有效距离场值存储到至少一个体素中。通过本发明的方法使得在不同时间(或不同视角)下待识别图像构建出的三维空间中同一物体的语义分类保持一致，提高了图像语义分类的准确性，简化了图像语义分类的过程，从而实现了动态变化场景中的语义分类。

Description

一种图像语义分类方法、介质、装置和计算设备

技术领域

本发明的实施方式涉及软件技术领域，更具体地，本发明的实施方式涉及一种图像语义分类方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

图像语义分类，即语义分类，是图像识别的基础，通常可以用于自动驾驶系统(例如街景识别与理解)、无人机系统(例如无人机着陆点的判断)以及穿戴式设备等场景中。图像语义分类主要包括2D图像语义分类和3D场景语义分类。2D图像语义分类是指对单帧图像中的每个像素进行语义分割。3D场景语义分类是指对三维重建后的物体模型进行语义分类。

目前，现有的2D图像语义分类的技术方案通常仅对单帧图像进行预测，这使得这种技术方案并不能保证所预测的图像的时间连续性和空间连续性，进而难以保证在不同时间或不同视角下同一物体的语义分类结果保持一致。因此现有的2D图像语义分类的技术方案并不适用于机器人、自动驾驶等动态变化场景。

现有的3D场景语义分类的技术方案主要分为实时在线的3D场景语义分类和离线的3D点云语义分类。现有的离线的3D点云语义分类通常需要先完成离线的语义分析过程得到语义分析结果，再上传该语义分析结果，这使得3D点云语义分类过程复杂、耗时长，难以保证在动态变化场景中3D场景语义分类的实时性，因此这种技术方案并不适用于动态变化场景。而现有的实时在线的3D场景语义分类通常使用预测概率图来描述语义分类，并基于预测概率图来判定语义分类的准确性以及传输更新语义分析结果。虽然这种方案可以实时在线进行3D场景语义分类，但由于预测概率图需要占用极大的显存空间，且预测概率图生成过程繁琐、耗时长，导致这种语义分类的技术方案存在计算量大，实现复杂度高、传输更新难度大等问题，在动态变化场景中的实现效果较差，因此这种技术方案也无法满足机器人、自动驾驶等动态变化场景对图像语义分类的要求。

综上，现有的图像语义分类技术均不能较好地实现动态变化场景中的语义分类。

发明内容

出于现有的2D图像语义分类的技术方案由于仅能够对单帧图像进行预测，因而其难以保证在不同时间或不同视角下同一物体的语义分类结果的一致性。而现有的3D场景语义分类的技术方案存在实现复杂度高、语义分析结果的传输更新难度大、难以保证实时运行等问题。因此现有的图像语义分类技术均不能较好地实现动态变化场景中的语义分类。

为此，非常需要一种改进的图像语义分类的技术方案，以实现动态变化场景中的语义分类。

在本上下文中，本发明的实施方式期望提供一种图像语义分类的方法、装置、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种图像语义分类方法，包括：对待识别图像进行语义分割生成第一语义标签，第一语义标签用于指示待识别图像中至少一个像素点像素的语义分类；将第一语义标签存储到三维空间的至少一个体素中，体素是待识别图像构建的三维空间中用于承载数据的基本单位，至少一个像素点像素与至少一个体素一一对应；以及将至少一个体素的第一有效距离场值存储到至少一个体素中，第一有效距离场值用于指示至少一个体素在三维空间中的位置。

在本发明的一个实施例中，该图像语义分类方法还包括：将第一语义标签存储到三维空间的至少一个体素中之前，根据第一语义标签设置语义标签置信度，语义标签置信度用于指示至少一个体素对应的像素的语义分类的准确程度。

在本发明的一个实施例中，至少一个体素中存储有至少一个第二语义标签，第二语义标签为时间早于待识别图像的至少一帧图像中对应的至少一个像素的语义分类。

在本发明的一个实施例中，根据第一语义标签设置语义标签置信度，包括：判断第一语义标签和第二语义标签是否一致；根据判断结果，对至少一个体素中存储的语义标签置信度进行调整。

在本发明的一个实施例中，将第一语义标签存储到至少一个体素中，包括：确定至少一个像素点对应的至少一个体素；将第一语义标签与第二语义标签进行融合并存储到至少一个像素点对应的至少一个体素中。

在本发明的一个实施例中，将第一语义标签与第二语义标签进行融合并存储到至少一个像素点对应的至少一个体素中，包括：若语义标签置信度满足预设门限，则将至少一个像素对应的至少一个体素中存储的第二语义标签替换为第一语义标签；或者若语义标签置信度未满足预设门限，则继续在至少一个像素对应的至少一个体素中存储第二语义标签。

在本发明的一个实施例中，对待识别图像进行语义分割生成第一语义标签，包括：输入待识别图像；利用神经网络对待识别图像进行语义分割输出第一语义标签。

在本发明的一个实施例中，神经网络为全卷积神经网络，和/或，神经网络所采用的损失函数为交叉熵函数。

在本发明的一个实施例中，通过如下方法对神经网络进行训练，还包括：输入用于训练的图像和用于训练的图像对应的真值语义，真值语义用于指示用于训练的图像中每个像素的实际语义分类；利用神经网络对用于训练的图像进行语义分割得到第四语义标签，第四语义标签用于指示基于用于训练的图像进行语义分割得到的每个像素的语义分类；对比真值语义和第四语义标签；基于真值语义和第四语义标签的对比结果，对该神经网络进行训练。

在本发明的一个实施例中，将至少一个体素的第一有效距离场值存储到至少一个体素中之前，还包括：获取相机位姿和待识别图像中至少一个像素的深度信息，其中，相机位姿是指采集设备对待识别图像进行采集时的位置和姿态，深度信息为采集设备与待识别图像中至少一个像素对应的三维空间中的物体之间的距离；根据相机位姿和深度信息计算第一有效距离场值，并确定至少一个体素的标识，至少一个体素的标识与至少一个体素一一对应。

在本发明的一个实施例中，将至少一个体素的第一有效距离场值存储到至少一个体素中，包括：针对至少一个体素，根据至少一个体素的标识查找该至少一个体素中存储的第二有效距离场值，第二有效距离场值为时间早于待识别图像的至少一帧图像构建的三维空间中的物体表面与该至少一个体素之间的距离；将该至少一个体素的第一有效距离场值与第二有效距离场值进行融合并存储到该至少一个体素中。可选的，将该至少一个体素的第一有效距离场值与第二有效距离场值进行融合的实现方式可以为加权平均。

在本发明实施方式的第二方面中，提供了一种图像语义分类装置，包括：生成单元，用于对待识别图像进行语义分割生成第一语义标签，第一语义标签用于指示待识别图像中至少一个像素的语义分类；

存储单元，用于将第一语义标签存储到三维空间的至少一个体素中，体素是待识别图像构建的三维空间中用于承载数据的基本单位，至少一个像素与至少一个体素一一对应；将至少一个体素的第一有效距离场值存储到至少一个体素中，第一有效距离场值用于指示至少一个体素在三维空间中的位置。

在本发明的一个实施例中，还包括：语义标签设置单元，用于在存储单元将第一语义标签存储到三维空间的至少一个体素中之前，根据第一语义标签设置语义标签置信度，该语义标签置信度用于指示至少一个体素对应的像素的语义分类的准确程度。

在本发明的一个实施例中，语义标签设置单元根据第一语义标签设置语义标签置信度时，具体用于：判断第一语义标签和第二语义标签是否一致；根据判断结果，对至少一个体素中存储的语义标签置信度进行调整。

在本发明的一个实施例中，存储单元将第一语义标签存储到至少一个体素中时，具体用于：确定至少一个像素点对应的至少一个体素；将第一语义标签与第二语义标签进行融合并存储到至少一个像素点对应的至少一个体素中。

在本发明的一个实施例中，存储单元将第一语义标签与第二语义标签进行融合并存储到至少一个像素点对应的至少一个体素中时，具体用于：若语义标签置信度满足预设门限，则将至少一个像素对应的至少一个体素中存储的第二语义标签替换为第一语义标签；或者若语义标签置信度未满足预设门限，则继续在至少一个像素对应的至少一个体素中存储第二语义标签。

在本发明的一个实施例中，生成单元在对待识别图像进行语义分割生成第一语义标签时，具体用于：输入待识别图像；利用神经网络对待识别图像进行语义分割输出第一语义标签。

在本发明的一个实施例中，还包括：训练单元，用于输入用于训练的图像和用于训练的图像对应的真值语义，真值语义用于指示用于训练的图像中每个像素的实际语义分类；利用神经网络对用于训练的图像进行语义分割得到第四语义标签，第四语义标签用于指示基于用于训练的图像进行语义分割得到的每个像素的语义分类；对比真值语义和第四语义标签；基于真值语义和第四语义标签的对比结果，对神经网络进行训练。

在本发明的一个实施例中，还包括：计算单元，用于在存储单元将至少一个体素的第一有效距离场值存储到至少一个体素中之前，获取相机位姿和待识别图像中至少一个像素的深度信息，其中，相机位姿是指采集设备对待识别图像进行采集时的位置和姿态，深度信息为采集设备与待识别图像中至少一个像素对应的三维空间中的物体之间的距离；根据相机位姿和深度信息计算至少一个体素的第一有效距离场值，并确定至少一个体素的标识，至少一个体素的标识与至少一个体素一一对应。

在本发明的一个实施例中，存储单元在将至少一个体素的第一有效距离场值存储到至少一个体素中时，具体用于：针对至少一个体素，根据该至少一个体素的标识查找该至少一个体素中存储的第二有效距离场值，第二有效距离场值为时间早于待识别图像的至少一帧图像构建的三维空间中的物体表面与该至少一个体素之间的距离；将该至少一个体素的第一有效距离场值与第二有效距离场值进行融合并存储到该至少一个体素中。

在本发明实施方式的第三方面中，提供了一种介质，该介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行第一方面中任一实施例的方法。

在本发明实施方式的第四方面中，提供了一种计算设备，包括处理器、存储器以及收发机；存储器，用于存储处理器执行的程序；处理器，用于根据存储器存储的程序，执行第一方面中任一实施例的方法；收发机，用于在处理器的控制下接收或发送数据。

通过本发明提供的技术方案，通过将第一语义标签和第一有效距离场值从待识别图像投影至该待识别图像构建的三维空间的至少一个体素中进行存储，使得由同一场景在不同时间(或不同视角)下的待识别图像构建出的三维空间中同一物体的语义分类保持一致，提高了图像语义分类的准确性，简化了图像语义分类的过程，从而实现了动态变化场景中的语义分类，尤其是在三维场景下实时在线的图像语义分类。此外，由于语义标签和有效距离场值所占用的存储空间远小于预测概率图，因此本发明的方法还显著地降低了计算机显存空间的占用率，减小了传输和更新语义分析结果的难度，为用户带来了更好的体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施例涉及的一种图像语义分类方法的流程示意图；

图2a示意性地示出了根据本发明实施例涉及的一种RGB图像的示意图；

图2b示意性地示出了根据本发明实施例涉及的一种神经网络预测结果的示意图；

图2c示意性地示出了根据本发明实施例涉及的一种3D语义分类结果的示意图；

图3a示意性地示出了根据本发明实施例涉及的另一种RGB图像的示意图；

图3b示意性地示出了根据本发明实施例涉及的一种真值语义图像的示意图；

图3c示意性地示出了根据本发明实施例涉及的一种神经网络预测结果的示意图；

图4示意性地示出了根据本发明实施例涉及的一种3D语义分类方法的流程示意图；

图5示意性地示出了根据本发明实施例涉及的一种图像语义分类装置的结构示意图；

图6示意性地示出了根据本发明实施例涉及的一种介质的结构示意图；

图7示意性地示出了根据本发明实施例涉及的一种计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种图像语义分类的系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种图像语义分类的方法、介质、装置和计算设备。

在本文中，需要理解的是，几个概念的含义分别为：

图像语义分类，下文简称语义分类，主要包括2D图像语义分类和3D 场景语义分类。2D图像语义分类是指对单帧图像中的每个像素进行语义分割；3D场景语义分类是指对三维重建后的物体模型进行语义分类。

体素(Voxel)，是指待识别图像构建的三维空间中用于承载数据的基本单位。例如，将三维空间分割成多个单位体积的立方体，这种立方体即为体素。

有效距离场(Signed Distance Field，SDF)值，是指体素到待识别图像构建的三维空间中的物体表面(即重建表面)的距离，可以用于隐式的模拟物体表面。当有效距离场值大于零时，表示该体素在该物体之前；当有效距离场小于零时，表示该体素在该物体后；当有效距离场值等于零时，表示该体素位于该物体表面。

相机位姿是指采集设备对待识别图像进行采集时的位置和姿态。位姿是指三维空间中该采集设备相对于基准平面的欧拉角，或是三维空间中该采集设备相对于基准平面的四元数(例如俯仰角等)。

深度信息，是指三维空间中的物体到深度采集设备之间的距离，此处的三维空间是真实世界的三维空间，物体是真实世界中的物体。由于深度信息仅与三维空间中的物体到深度采集设备之间的距离有关，而与采集时的环境、光线、方向等因素无关，因此深度信息能够较为真实准确地体现三维空间的几何信息。通常，深度信息可以用深度图来表示。深度图又被称为距离图像，深度图中的像素存储有该像素对应的三维空间中的物体表面到深度图采集设备之间的距离(深度信息)。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

图像语义分类，主要包括2D图像语义分类和3D场景语义分类。发明人发现，现有的2D图像语义分类的技术方案由于仅能够对单帧图像进行预测，因而其难以保证在不同时间或不同视角下同一物体的语义分类结果的一致性。而现有的3D场景语义分类的技术方案存在实现复杂度高、语义分析结果的传输更新难度大、难以保证实时运行等问题。因此现有的图像语义分类技术均不能较好地实现动态变化场景中的语义分类。

针对上述问题，本发明提供了一种图像语义分类的方法、装置、介质和计算设备。该方法包括：对待识别图像进行语义分割生成第一语义标签，该第一语义标签用于指示待识别图像中至少一个像素的语义分类，然后将该第一语义标签和第一有效距离场值存储到三维空间的至少一个体素中，此处的体素是待识别图像构建的三维空间中用于承载数据的基本单位，至少一个像素与至少一个体素一一对应，该第一有效距离场值用于表示待识别图像构建的三维空间中的物体表面与体素之间的距离。

本发明的方法通过将第一有效距离场值和第一语义标签从待识别图像投影到该待识别图像构建的三维空间的至少一个体素中进行存储，使得由同一场景在不同时间(或不同视角)下的待识别图像构建出的三维空间中同一物体的语义分类保持一致，提高了图像语义分类的准确性，简化了图像语义分类的过程，从而实现了动态变化场景中的语义分类，尤其是在三维场景下实时在线的图像语义分类。此外，由于语义标签和有效距离场值所占用的存储空间远小于预测概率图，本发明的方法还降低了计算机显存空间的占用率，减小了传输和更新语义分析结果的难度。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

本发明实施例可以应用于各种图像识别场景中的图像语义识别，尤其是3D图像语义识别。例如自动驾驶、机器人视觉系统、工业视觉系统等动态变化场景中的3D图像语义识别。这些动态变化场景对图像识别的实时性、以及在不同时间或不同视角下同一物体的语义分类的一致性的要求较高。需要说明的是，除了动态变化场景之外，本发明实施例也可以应用于静态场景，例如建筑物的三维重建等。

示例性方法

参考图1来描述根据本发明示例性实施方式的用于图像语义分类的方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

本发明实施例提供了一种图像语义分类的方法，如图1所示，该方法包括：

S101、对待识别图像进行语义分割生成第一语义标签，第一语义标签用于指示待识别图像中至少一个像素的语义分类；

S102、将第一语义标签存储到三维空间的至少一个体素中，体素是待识别图像构建的三维空间中用于承载数据的基本单位，至少一个像素与至少一个体素一一对应；

S103、将至少一个体素的第一有效距离场值存储到至少一个体素中，第一有效距离场值用于表示待识别图像构建的三维空间中的物体表面与体素之间的距离。

需要说明的是，S102可以与S103同时执行，S102也可以在S103之前执行，S102还可以在S103之后执行。本发明实施例并不限定执行S102 和S103这两个步骤的先后顺序。

由于待识别图像的至少一个像素与该待识别图像构建出的三维空间中的至少一个体素一一对应，该方法通过将第一有效距离场值和第一语义标签投影到该待识别图像构建的三维空间的至少一个体素中进行存储，使得由不同时间的待识别图像(或不同视角的待识别图像)构建出的三维空间中同一物体的语义分类保持一致，实现了动态变化场景中的语义分类，尤其是在三维场景下实时在线的图像语义分类，简化了图像语义分类的过程，提高了图像语义分类的准确性。同时，由于语义标签和有效距离场值所占用的存储空间远小于预测概率图，该方法还降低了计算机显存空间的占用率，减小了传输和更新语义分析结果的难度。

下面对该方法的各个步骤进行详细说明。

本发明实施例中，第一语义标签用于指示待识别图像中至少一个像素的语义分类。第一语义标签可以是数值序列，例如000、001、010；第一语义标签也可以是字符，例如car、man、book；第一语义标签还可以是用于表示语义分类的其他形式，本实施例中并不限定。

S101中生成该第一语义标签的实现方式包括但不限于以下这种实现方式：

步骤一：输入待识别图像。

其中，待识别图像是由至少一个像素(Pixel)组成的，该待识别图像可以是2D图像，例如该待识别图像可以是彩色RGB图像。可选的，待识别图像可以包括单帧图像或多帧图像，这多帧图像中至少有两帧图像中存在至少一个对应同一体素的像素。

步骤二：利用神经网络对该待识别图像进行语义分割输出第一语义标签。

步骤二所利用的神经网络可以是全卷积神经网络(Fully ConvolutionalNetworks，FCN)。可选的，步骤二中的神经网络所采用的损失函数为交叉熵函数。需要说明的是，除了全卷积神经网络之外，步骤二所利用的神经网络还可以是例如扩张卷积函数(Dilated Convolutions Networks)等具有语义分割的其他神经网络，此处并不限定。

语义分割，即图像语义分割(Semantic Segmentation)，可以理解为根据图像语义来对图像进行进行分组(Grouping)或分割(Segmentation)。语义分割通常可以应用于自动驾驶系统、无人机系统以及穿戴式设备等场景中。

步骤二中，通过神经网络将待识别图像分割为多个区域，并识别出这多个区域的语义分类，这多个区域与多个语义分类一一对应。针对这多个区域中的每一区域，将每一区域的语义分类输出为该区域内的像素的第一语义标签。

以待识别图像为图2a所示的室内场景为例，图2a为一张单帧RGB 图像，将图2a输入神经网络，通过神经网络对图2a进行语义分割得到图 2b所示的神经网络预测结果的示意图，图2b中包括不同灰度的多个区域，并识别出这不同灰度的多个区域的语义分类，这不同灰度的多个区域的语义分类分别为桌子、洗衣机、柜台、地面、窗帘、墙面、天花板等，同一灰度区域内的像素的图像语义相同。针对这多个区域中的每一区域，将每一区域的语义分类作为为该区域内的像素的2D语义标签(即上文中的第一语义标签)，以便后续在S102中可以将多帧图像得到的2D语义标签进行融合。

可选的，当待识别图像中的一个像素处于多个不同区域内，并且这多个不同区域对应多个语义分类时，根据在该像素点中这多个不同区域所占的比重来输出该像素的第一语义标签。此外，在这种情况下，还可以通过其他方式输出该像素的第一语义标签，例如其他方式可以是：随机选择这多个语义分类中的一个，并将该语义分类输出为该像素的第一语义标签。

可选的，通过如下方法对S101中的神经网络进行训练：

步骤301：输入用于训练的图像和用于训练的图像对应的真值语义，该真值语义用于指示用于训练的图像中每个像素的实际语义分类。

步骤302：利用神经网络对用于训练的图像进行语义分割得到第四语义标签，该第四语义标签用于指示基于用于训练的图像进行语义分割得到的每个像素的语义分类。

具体的，在S301中输入用于训练的图像之后，步骤302中通过神经网络对用于训练的图像进行迭代学习，经过迭代学习之后输出该用于训练的图像中每个像素的第四语义标签。

需要注意的是，步骤302中的神经网络与上文步骤二所利用的神经网络类似，可参见上文步骤二所利用的神经网络的相关描述，此处不再赘述。

步骤303：对比真值语义和第四语义标签。

步骤304：基于真值语义和第四语义标签的对比结果，对神经网络进行训练。若真值语义和第四语义标签的对比结果为第四语义标签与真值语义不一致，则根据第四语义标签与真值语义的偏差来调整该神经网络中各层权值参数。

以图3a至图3c为例来说明步骤301至步骤304，假设图3a所示的 RGB图像为用于训练的图像，图3b所示的真值语义图像中标记有该RGB 图像对应的真值语义。如图3b中的图例所示，不同灰度的区域分别表示不同语义，这些语义分别为床、椅子、台灯、天花板、电扇、壁画、窗户。步骤301至步骤304的执行过程如下：输入RGB图像(图3a)和该RGB 图像对应的真值语义图像(图3b)，通过神经网络对该RGB图像进行语义分割得到图3c所示的预测图像，该预测图像中标记有该RGB图像对应的第四语义标签，然后将该预测图像和真值语义图像进行对比，基于真值语义图像和该预测图像之间的偏差来对该神经网络中各层的权值参数进行调整。对该神经网络的调整结束后，再次执行上述步骤以便对该神经网络进行进一步优化。经过多次优化后，预测图像中标记的第四语义标签与真值语义图像中标记的真值语义之间的偏差逐渐减小，从而实现对神经网络的训练过程。

S102中将第一语义标签存储到至少一个体素中，体素是待识别图像构建的三维空间中用于承载数据的基本单位，待识别图像中的至少一个像素与该待识别图像构建的三维空间中的至少一个体素一一对应。仍以待识别图像为图2a所示的室内场景为例，通过多次执行S101得到了多帧RGB 图像中每一像素的2D语义标签。针对这多帧RGB图像中每一像素，在 S102中查找到该像素对应的体素，将该像素的2D语义标签存储到该体素中，从而得到图2c所示的3D语义分类结果的示意图。图2c中包括不同灰度的多个区域，这不同灰度的多个区域的3D语义分类分别为桌子、洗衣机、柜台、地面、窗帘、墙面、天花板等，同一灰度区域内的体素的3D 图像语义相同。S102中通过在体素中存储语义标签，使得后续针对同一个场景在不同视角(或不同时刻)下的待识别图像，可以通过这些待识别图像构建出三维空间，并实现在同一物体对应的体素在不同视角(或不同时刻)存储相同的语义标签，保证了由不同视角(或不同时刻)的待识别图像构建出的三维空间中同一物体的语义分类保持一致。

可选的，在S102中将第一语义标签存储到三维空间的至少一个体素中之前，根据第一语义标签设置语义标签置信度，该语义标签置信度用于指示至少一个体素对应的像素的语义分类的准确程度。通过在至少一个体素中为第一语义标签设置语义标签置信度，以便及时更新准确性较低的语义标签，进一步提高了体素中存储的语义标签的准确性，保证了由不同时刻的待识别图像构建出的三维空间中同一物体的语义分类的一致性。设置语义标签置信度的方法包括多种，本实施例中并不限定。

本发明实施例中，可选的，至少一个体素中还存储有至少一个第二语义标签，该第二语义标签用于指示时间早于待识别图像的至少一帧图像中对应的至少一个像素的语义分类。

相应地，根据第一语义标签设置语义标签置信度的多种方法中的一种可以为：判断第一语义标签和第二语义标签是否一致，然后根据该判断结果，对至少一个体素中存储的语义标签置信度进行调整。即针对至少一个体素，判断该至少一个体素的第一语义标签和该至少一个体素存储的第二语义标签是否一致；如果该至少一个体素的第一语义标签和该至少一个体素中存储的第二语义标签一致，则提高该至少一个体素中存储的语义标签置信度；如果该至少一个体素的第一语义标签和该至少一个体素中存储的第二语义标签不一致，则降低该至少一个体素中存储的语义标签置信度。

举例说明一

下面将这种设置语义标签置信度的方法进行举例说明：假设待识别图像包括一个像素P(u，v)，该像素P的第一语义标签为A，与像素P对应的三维空间中的体素为V(x，y，z)，体素V中存储的第二语义标签为B，体素V的语义标签置信度为confB。根据A设置confB的具体过程如下：

步骤1：判断判断A与B是否一致；

步骤2：根据判断结果，分为几种情况设置confB：

情况a：若A与B一致，并且confB小于maxConf，则confB的值增加1。其中，maxConf为语义标签的最大值，maxConf为预先设置的，maxConf大于1。

情况b：若A与B一致，并且confB不小于maxConf，则将confB的值设置为maxConf。

情况c：若A不等于B，并且confB大于0，则confB的值减1。

这样，通过上述方法可以实现对语义标签置信度的设置，以便可以根据语义标签置信度来将第一语义标签存储到至少一个体素中。

S102中将第一语义标签存储到至少一个体素中的方法有多种，本发明实施例中并不限定。下面将对其中一种方法的具体步骤进行详细说明：

步骤a：确定至少一个像素对应的至少一个体素。

对于待识别图像的至少一个像素中的每一像素，确定该像素与该待识别图像构建的三维空间中的一个体素之间的对应关系。例如，根据相机位姿和该待识别图像构建出的三维空间中的至少一个体素的深度信息，对于待识别图像的至少一个像素中的每一像素，将该像素投影至三维空间的一个体素中。可选的，若待识别图像为单帧图像，则三维空间中的任一体素仅对应这单帧图像中的一个像素。若待识别图像为多帧图像，则三维空间中的任一体素可以对应这多帧图像中的一个像素，也可以对应这多帧图像中的多个像素。

步骤b：将第一语义标签与第二语义标签进行融合并存储到至少一个像素对应的至少一个体素中。具体的，步骤b可以分为以下几种情况：

情况一：若语义标签置信度满足预设门限，则将至少一个像素对应的至少一个体素中存储的第二语义标签替换为第一语义标签。即在此情况下，在至少一个像素对应的至少一个体素中仅存储第一语义标签。

情况二：若语义标签置信度未满足预设门限，则继续在至少一个像素对应的至少一个体素中存储第二语义标签。即在此情况下，在至少一个像素对应的至少一个体素中仅存储第二语义标签。

举例说明二

下面将结合语义标签置信度的设置过程，对上文所述的步骤a和步骤 b进行举例说明：假设待识别图像包括一个像素P(u，v)，该像素P的第一语义标签为A，与像素P对应的三维空间中的体素为V(x，y，z)，体素V中存储的第二语义标签为B，体素V的语义标签置信度为confB，预设门限为0。根据A设置confB的具体过程(即步骤1和步骤2)与举例说明一中的步骤1和步骤2类似，可参见举例说明一中的步骤1和步骤 2，此处不再赘述。

步骤3：完成对confB的设置后，根据步骤2中设置完成的confB，将A和B融合并存储到V中，具体为：若confB小于0，则在V中存储A；若confB不小于0，则在V中继续存储B。

通过上述这些方法即可在至少一个体素中存储语义标签，使得后续在不同时刻或不同视角下同一物体对应的体素中存储相同的语义标签，从而保证了由不同时刻或不同视角的待识别图像构建出的三维空间中同一物体的语义分类保持一致。

可选的，在S103之前，获取至少一个体素的第一有效距离场值和标识。其中，第一有效距离场值用于指示至少一个体素在三维空间中的位置，标识可以用于后续查找到至少一个体素。具体方法为：获取相机位姿和待识别图像中至少一个像素的深度信息，该相机位姿是指采集设备对待识别图像进行采集时的位置和姿态，该深度信息为待识别图像中至少一个像素的对应的至少一个体素与采集设备之间的距离。根据该相机位姿和该深度信息计算出至少一个像素对应的至少一个体素的第一有效距离场值，并确定至少一个体素的标识，至少一个体素的标识与至少一个体素一一对应。

S103中，将至少一个体素的第一有效距离场值(Signed Distance Field， SDF)存储到至少一个体素中，这些第一有效距离场值用于指示至少一个体素在三维空间中的位置，即这些第一有效距离场值可以用于表示待识别图像构建的三维空间中的物体表面与体素之间的距离。

S103的实现方式有多种，本发明实施例中并不限定。这多种实现方式中的一种可以为：针对至少一个体素，根据该至少一个体素的标识查找该至少一个体素中存储的第二有效距离场值，该第二有效距离场值为时间早于待识别图像的至少一帧图像构建的三维空间中的物体表面与该至少一个体素之间的距离；再将该至少一个体素的第一有效距离场值与该至少一个体素的第二有效距离场值进行融合并存储到该体素中，例如可以将该至少一个体素的第一有效距离场值与该至少一个体素的第二有效距离场值进行加权平均，并将加权平均后得到的值存储到该至少一个体素中。

通过上述方法即可在体素中存储有效距离场值，使得后续针对同一个场景在不同视角下的待识别图像，可以通过体素中存储的有效距离场值来确定这些待识别图像构建出的三维空间中同一物体对应的相同体素，而相同体素中又存储有相同语义标签，这样就保证了由不同视角的待识别图像构建出的三维空间中同一物体的语义分类的一致性。

举例说明三

参见图4所示的3D图像语义分类的流程示意图，对上文中图像语义分类方法的具体步骤进行举例说明。假设待识别图像为RGB图像，第一语义标签为2D语义标签，则

步骤401、利用神经网络预测RGB图像中至少一个像素的2D语义标签。即利用神经网络对该待识别图像进行语义分割并该待识别图像中每个像素的语义分类，输出每个像素的2D语义标签。需说明的是，此处的神经网络与S101中描述的神经网络类似，参见S101中对神经网络的详细描述，此处不再赘述。

步骤402、根据RGB图像和深度图来计算相机位姿和至少一个像素的深度信息，再根据该相机位姿和深度信息来计算第一有效距离场值和至少一个像素对应的体素的标识。

步骤402中相机位姿、深度信息以及基于这两个信息计算的计算方法与现有技术类似，此处不再赘述。此处的深度图为该RGB图像对应的深度图。

步骤402中针对至少一个像素中的每个像素，根据相机位姿和该像素的深度信息来计算第一有效距离场值，并确定该像素对应的体素的标识。

步骤403、将该第一有效距离场值和第二有效距离场值进行融合并存储到该标识对应的体素中。

步骤403中针对至少一个像素中的每个像素，根据体素的标识查找到该像素对应的体素，获取该体素中存储的第二有效距离场值，再将该第一有效距离场值和第二有效距离场值进行融合并重新存储到该体素中。

需要注意的是，402和403这两个步骤的实现方式与上文S103中的相关描述类似，相似之处可相互参见，此处不再赘述。

步骤404、对2D语义标签和3D语义标签进行融合并存储到该体素中，更新该体素中的语义标签置信度。

其中，针对至少一个像素中的每个像素，此处2D语义标签是步骤401 中得到的该像素的2D语义标签，此处的3D语义标签即是上文中的所述体素中存储的第二语义标签。

步骤404中，获取该像素对应的体素中存储的3D语义标签，将该像素的2D语义标签与获取的3D语义标签进行融合并重新存储到该体素中，然后根据重新存储的3D语义标签来设置该体素中的语义标签置信度。

需要注意的是，步骤404的实现方式与上文S102中的相关描述类似，相似之处可相互参见，此处不再赘述。

步骤405、输出体素中存储的3D语义标签。

本发明提供了一种图像语义分类方法，对待识别图像进行语义分割生成第一语义标签，该第一语义标签用于指示待识别图像中至少一个像素的语义分类，然后将该第一语义标签和第一有效距离场值存储到三维空间的至少一个体素中。本发明的方法通过将第一语义标签和第一有效距离场值从待识别图像投影至该待识别图像构建的三维空间的至少一个体素中进行存储，使得由同一场景在不同时间(或不同视角)下的待识别图像构建出的三维空间中同一物体的语义分类保持一致，提高了图像语义分类的准确性，简化了图像语义分类的过程，从而实现了动态变化场景中的语义分类，尤其是在三维场景下实时在线的图像语义分类。此外，由于语义标签和有效距离场值所占用的存储空间远小于预测概率图，本发明的方法还显著地降低了计算机显存空间的占用率，减小了传输和更新语义分析结果的难度。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，介绍本发明提供了示例性实施的装置。

参考图5，本发明提供了一种图像语义分类装置，该图像语义分类装置可以实现图1对应的对本发明示例性实施方式中的方法。参阅图5所示，该装置包括：生成单元和存储单元，其中，

生成单元，用于对待识别图像进行语义分割生成第一语义标签，第一语义标签用于指示待识别图像中至少一个像素的语义分类；

可选的，该图像语义分类装置还包括语义标签设置单元，用于在存储单元将第一语义标签存储到三维空间的至少一个体素中之前，根据第一语义标签设置语义标签置信度，语义标签置信度用于指示至少一个体素对应的像素的语义分类的准确程度。

可选的，至少一个体素中存储有至少一个第二语义标签，第二语义标签为时间早于待识别图像的至少一帧图像中对应的至少一个像素的语义分类。

可选的，语义标签设置单元根据第一语义标签设置语义标签置信度时，具体用于：判断第一语义标签和第二语义标签是否一致；根据判断结果，对至少一个体素中存储的语义标签置信度进行调整。

可选的，存储单元将第一语义标签存储到至少一个体素中时，具体用于：确定至少一个像素点对应的至少一个体素；将第一语义标签与第二语义标签进行融合并存储到至少一个像素点对应的至少一个体素中。

可选的，存储单元将第一语义标签与第二语义标签进行融合并存储到至少一个像素点对应的至少一个体素中时，具体用于：若语义标签置信度满足预设门限，则将至少一个像素对应的至少一个体素中存储的第二语义标签替换为第一语义标签；或者若语义标签置信度未满足预设门限，则继续在至少一个像素对应的至少一个体素中存储第二语义标签。

可选的，生成单元在对待识别图像进行语义分割生成第一语义标签时，具体用于：输入待识别图像；利用神经网络对待识别图像进行语义分割输出第一语义标签。

可选的，神经网络为全卷积神经网络，和/或，神经网络所采用的损失函数为交叉熵函数。

可选的，该图像语义分类装置还包括训练单元，用于输入用于训练的图像和用于训练的图像对应的真值语义，真值语义用于指示用于训练的图像中每个像素的实际语义分类；利用神经网络对用于训练的图像进行语义分割得到第四语义标签，第四语义标签用于指示基于用于训练的图像进行语义分割得到的每个像素的语义分类；对比真值语义和第四语义标签；基于真值语义和第四语义标签的对比结果，对神经网络进行训练。

可选的，该图像语义分类装置还包括计算单元，用于在存储单元将至少一个体素的第一有效距离场值存储到至少一个体素中之前，获取相机位姿和待识别图像中至少一个像素的深度信息，其中，相机位姿是指采集设备对待识别图像进行采集时的位置和姿态，深度信息为采集设备与待识别图像中至少一个像素对应的三维空间中的物体之间的距离；根据相机位姿和深度信息计算至少一个体素的第一有效距离场值，并确定至少一个体素的标识，至少一个体素的标识与至少一个体素一一对应。

可选的，存储单元在将至少一个体素的第一有效距离场值存储到至少一个体素中时，具体用于：针对至少一个体素，根据该至少一个体素的标识查找该至少一个体素中存储的第二有效距离场值，第二有效距离场值为时间早于待识别图像的至少一帧图像构建的三维空间中的物体表面与该至少一个体素之间的距离；将该至少一个体素的第一有效距离场值与第二有效距离场值进行融合并存储到该至少一个体素中。

示例性介质

在介绍了本发明示例性实施方式的方法和装置之后，接下来，参考图 6，本发明提供了一种示例性介质，该介质存储有计算机可执行指令，该计算机可执行指令可用于使所述计算机执行图1对应的本发明示例性实施方式中任一项所述的方法。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图7，介绍本发明提供的一种示例性计算设备，该设备包括处理器、存储器以及收发机，其中该存储器，用于存储处理器执行的程序；该处理器，用于根据该存储器存储的程序，执行图1对应的本发明示例性实施方式中任一项所述的方法；该收发机，用于在该处理器的控制下接收或发送数据。

应当注意，尽管在上文详细描述中提及了图像语义分类装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种图像语义分类方法，其特征在于，包括：

对待识别图像进行语义分割生成第一语义标签，所述第一语义标签用于指示所述待识别图像中至少一个像素的语义分类；

将所述第一语义标签存储到三维空间的至少一个体素中，体素是所述待识别图像构建的所述三维空间中用于承载数据的基本单位，所述至少一个像素与所述至少一个体素一一对应；以及

将所述至少一个体素的第一有效距离场值存储到所述至少一个体素中，所述第一有效距离场值用于指示所述至少一个体素在所述三维空间中的位置。

2.如权利要求1所述的方法，其特征在于，所述将所述第一语义标签存储到三维空间的至少一个体素中之前，还包括：

根据所述第一语义标签设置语义标签置信度，所述语义标签置信度用于指示所述至少一个体素对应的像素的语义分类的准确程度。

3.如权利要求2所述的方法，其特征在于，所述至少一个体素中存储有至少一个第二语义标签，所述第二语义标签为时间早于所述待识别图像的至少一帧图像中对应的所述至少一个像素的语义分类。

4.如权利要求3所述的方法，其特征在于，所述根据所述第一语义标签设置语义标签置信度，包括：

判断所述第一语义标签和所述第二语义标签是否一致；

根据判断结果，对所述至少一个体素中存储的所述语义标签置信度进行调整。

5.如权利要求3或4所述的方法，其特征在于，所述将所述第一语义标签存储到至少一个体素中，包括：

确定所述至少一个像素点对应的所述至少一个体素；

将所述第一语义标签与所述第二语义标签进行融合并存储到所述至少一个像素点对应的所述至少一个体素中。

6.如权利要求5所述的方法，其特征在于，所述将所述第一语义标签与所述第二语义标签进行融合并存储到所述至少一个像素点对应的所述至少一个体素中，包括：

若所述语义标签置信度满足预设门限，则将所述至少一个像素对应的所述至少一个体素中存储的所述第二语义标签替换为所述第一语义标签；或者

若所述语义标签置信度未满足所述预设门限，则继续在所述至少一个像素对应的所述至少一个体素中存储所述第二语义标签。

7.如权利要求1至9任一所述的方法，其特征在于，所述将所述至少一个体素的第一有效距离场值存储到所述至少一个体素中之前，还包括：

获取相机位姿和所述待识别图像中至少一个像素的深度信息，其中，所述相机位姿是指采集设备对所述待识别图像进行采集时的位置和姿态，所述深度信息为所述采集设备与所述待识别图像中至少一个像素对应的三维空间中的物体之间的距离；

根据所述相机位姿和所述深度信息计算所述至少一个体素的第一有效距离场值，并确定所述至少一个体素的标识，所述至少一个体素的标识与所述至少一个体素一一对应。

8.一种图像语义分类装置，其特征在于，包括：

生成单元，用于对待识别图像进行语义分割生成第一语义标签，所述第一语义标签用于指示所述待识别图像中至少一个像素的语义分类；

存储单元，用于将所述第一语义标签存储到三维空间的至少一个体素中，体素是所述待识别图像构建的所述三维空间中用于承载数据的基本单位，所述至少一个像素与所述至少一个体素一一对应；将所述至少一个体素的第一有效距离场值存储到所述至少一个体素中，所述第一有效距离场值用于指示所述至少一个体素在所述三维空间中的位置。

9.一种计算设备，其特征在于，包括处理器、存储器以及收发机；

所述存储器，用于存储所述处理器执行的程序；

所述处理器，用于根据所述存储器存储的程序，执行权利要求1至7任一项所述的方法；

所述收发机，用于在所述处理器的控制下接收或发送数据。

10.一种介质，其特征在于，所述介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行权利要求1至7任一项所述的方法。