CN111832587B

CN111832587B - 图像语义标注方法、设备和存储介质

Info

Publication number: CN111832587B
Application number: CN201910311979.7A
Authority: CN
Inventors: 张鹏飞
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2023-11-14
Anticipated expiration: 2039-04-18
Also published as: CN111832587A

Abstract

本发明提供一种图像语义标注方法、设备和存储介质，该方法包括：将待标注图像进行分层处理，获取待标注图像对应的N层子待标注图像；根据N层子待标注图像，以及预设的像素块与预设的像素块属于每个预设对象的概率的对应关系，获取每层子待标注图像中每个像素块属于每层子待标注图像对应的预设对象的第一概率；根据每层子待标注图像对应的多个第一概率，获取每层子待标注图像对应的三元图；对每层子待标注图像对应的三元图进行标注，获取待标注图像的标注结果。本发明根据多层子待标注图像中每个像素块属于预设对象的概率，获取待标注图像的标注结果，使得待标注图像中的标注结果更为准确，避免了通过人工进行修改的问题。

Description

图像语义标注方法、设备和存储介质

技术领域

本发明涉及图像语义标注技术领域，尤其涉及一种图像语义标注方法、设备和存储介质。

背景技术

图像语义标注可以说是图像理解的基石性技术，在自动驾驶、无人机应用以及穿戴式设备应用中举足轻重。图像是由多个像素块(Pixel)组成，而语义标注顾名思义就是将像素块按照图像中表达语义含义的不同进行识别标注。

现有技术中，通常采用公开的图像标注数据训练一个深度神经网络模型，然后用此模型预测新图像的标注，人工地在标注后的图像上做修改调整，生成输入图像的语义标注结果。

但现有技术中的深度神经网络模型输出的标注结果需要人工进一步进行修改，且待标注的图像中存在大量的目标(轮廓)边界，受限于图像分辨率和显示器的分辨率，边界往往模糊，导致人工修改量大，且错误率高。

发明内容

本发明提供一种图像语义标注方法、设备和存储介质，使得待标注图像中的标注结果更为准确，避免了通过人工进行修改的问题。

本发明的第一方面提供一种图像语义标注方法，包括：

将待标注图像进行分层处理，获取所述待标注图像对应的N层子待标注图像，N为大于1的整数；

根据N层所述子待标注图像，以及，预设的像素块与所述预设的像素块属于每个预设对象的概率的对应关系，获取每层子待标注图像中每个像素块属于所述每层子待标注图像对应的预设对象的第一概率，每层所述子待标注图像对应不同的预设对象；

根据每层所述子待标注图像对应的多个所述第一概率，获取每层所述子待标注图像对应的三元图；

对每层所述子待标注图像对应的三元图进行标注，获取所述待标注图像的标注结果。

本发明的第二方面提供一种图像语义标注设备，包括：处理模块；

所述处理模块，用于将待标注图像进行分层处理，获取所述待标注图像对应的N层子待标注图像，N为大于1的整数；根据N层所述子待标注图像，以及，预设的像素块与所述预设的像素块属于每个预设对象的概率的对应关系，获取每层子待标注图像中每个像素块属于所述每层子待标注图像对应的预设对象的第一概率，每层所述子待标注图像对应不同的预设对象；根据每层所述子待标注图像对应的多个所述第一概率，获取每层所述子待标注图像对应的三元图；对每层所述子待标注图像对应的三元图进行标注，获取所述待标注图像的标注结果。

本发明的第三方面提供一种图像语义标注设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述图像语义标注设备执行上述图像语义标注方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现上述图像语义标注方法。

本发明提供一种图像语义标注方法、设备和存储介质，该方法包括：将待标注图像进行分层处理，获取待标注图像对应的N层子待标注图像；根据N层子待标注图像，以及预设的像素块与预设的像素块属于每个预设对象的概率的对应关系，获取每层子待标注图像中每个像素块属于每层子待标注图像对应的预设对象的第一概率；根据每层子待标注图像对应的多个第一概率，获取每层子待标注图像对应的三元图；对每层子待标注图像对应的三元图进行标注，获取待标注图像的标注结果。本发明根据多层子待标注图像中每个像素块属于预设对象的概率，获取待标注图像的标注结果，使得待标注图像中的标注结果更为准确，避免了通过人工进行修改的问题

附图说明

图1为本发明提供的图像语义标注方法的实施例一的流程示意图；

图2为本发明提供的图像语义标注方法的实施例二的流程示意图；

图3为本发明提供的图像语义标注方法应用的示例图；

图4为本发明提供的图像语义标注方法的实施例三的流程示意图；

图5为本发明提供的图像语义标注设备的实施例一的结构示意图；

图6为本发明提供的图像语义标注设备的实施例二的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图像语义标注可以应用在各个领域，如自动驾驶、无人机应用以及穿戴式设备。示例性的，如在自动驾驶领域，对自动驾驶车辆采集的图像进行语义标注，如标注行人、其他车辆、车道线等，进而获取自动驾驶车辆周围的环境情况，使得自动驾驶车辆顺利行驶。

图像是由多个像素块组成；现有技术中，根据大量的图像标注数据，获取神经网络模型，将待标注图像输入至该模型中，能够获取待标注图像中每个像素块的标注结果；具体的，图像标注数据包括大量的图像中每个像素块的标注结果，如一图像中部分像素块标注结果为树木，部分像素块标注为草地；将每个图像中的每个像素块的像素特征和标注结果作为训练样本，可以获取该神经网络模型。

现有技术中通常神经网络模型输出的结果为神经网络模型末层的结果，即待标注图像中的每个像素块的标注结果，即每个像素块是否属于标注对象的结果；示例性的，现有技术中的神经网络模型输出的结果为A像素块属于树木，即A像素块的标注结果为树木，或者，神经网络模型输出的结果为A像素块不属于树木，即对A像素块不进行标注。

而这种深度神经网络模型输出的结果为图像中的像素块是否属于目标对象，如输出结果为A像素块100％属于目标对象，或者A像素块100％不属于目标对象，该种深度神经网络模型的输出结果比较粗糙。需要人工进一步进行修改，且待标注的图像中存在大量的目标(轮廓)边界，受限于图像分辨率和显示器的分辨率，边界往往模糊，导致人工修改量大，且错误率高。

为了解决现有技术采用的神经网络模型标注结果粗糙，且需要人工进一步修正的问题，本发明提供了一种图像语义标注方法。图1为本发明提供的图像语义标注方法的实施例一的流程示意图，图1所示方法流程的执行主体可以为图像语义标注设备，该图像语义标注设备可由任意的软件和/或硬件实现。如图1所示，本实施例提供的图像语义标注方法可以包括：

S101，将待标注图像进行分层处理，获取待标注图像对应的N层子待标注图像，N为大于1的整数。

本实施例中若采用现有技术中训练获取的神经网络模型，由于神经网络模型输出的末层的结果直接为待标注图像中的每个像素块的标注结果，可能会导致某些像素块原属于标注对象，却未进行标注的情况。

为了使得获取的图像标注结果更为准确，本实施例中将待标注图像输入至神经网络模型中，获取该神经网络模型的次末层的概率矩阵；具体的，该次末层的概率矩阵为三维矩阵，该三维矩阵的维度分别为[H，W，N]，其中，H、W、N分别表示该待标注图像的高、待标注图像的宽和待标注图像中对象类别数目。具体的，本实施例采用分层处理技术，将该三维矩阵拆分成N个二维矩阵，该二维矩阵中的元素表示每个像素属于预设对象的概率，该N个二维矩阵即为待标注图像对应的分层处理后获取N层子待标注图像，其中，N为大于1的整数。值得注意的是，每层子待标注图像与待标注图像的长度和宽度相同。

具体的，图像语义标注设备中存储有N个预设对象；其中，图像语义标注设备根据预设对象的个数将待标注图像对应的三维矩阵拆分成N个二维矩阵，该二维矩阵的个数与预设对象的个数相等，且每层子待标注图像对应有不同的预设对象。

示例性的，在图像语义标注设备将待标注图像输入至神经网络模型中，获取待标注图像对应的次末层的三维矩阵后，将将待标注图像对应的三维矩阵进行拆分处理，即将待标注图像进行分层处理，获取待标注图像对应的3层子待标注图像；图像语义标注设备中存储有3个预设对象，分别为：行人、车辆和车道线，且预设第一层子待标注图像对应的预设对象为行人、第二层子待标注图像对应的预设对象为车辆、第三层子待标注图像对应的预设对象为车道线。

S102，根据N层子待标注图像，以及，预设的像素块与预设的像素块属于每个预设对象的概率的对应关系，获取每层子待标注图像中每个像素块属于每层子待标注图像对应的预设对象的第一概率，每层子待标注图像对应不同的预设对象。

本实施例中，图像语义标注设备中对于每层子待标注图像预先设置有对应的预设对象，且每层子待标注图像对应的预设对象不同。

在图像语义标注设备获取N层子待标注图像后，需要获取每层子待标注图像中每个像素块是否属于该层子待标注图像对应的预设对象的结果，进而对于每层子待标注图像中的像素块进行标注。

具体的，图像语义标注设备中存储有预设的像素块与预设的像素块属于每个预设对象的概率的对应关系；其中，该对应关系可以根据大量的图像标注数据基于深度学习获取。示例性的，采用深度学习的方式，将每个图像中的每个像素块的像素特征，以及每个像素块属于预设对象的概率作为训练样本，通过有监督或者无监督的深度学习的方式，获取预设的像素块与预设的像素块属于每个预设对象的概率的对应关系。

可以想到的是，神经网络模型中次末层概率矩阵在经过拆分后获取的二维矩阵中的每个元素，即对应该层在待标注图像中每个像素块对应的第一概率，本实施例中直接可以采用神经网络模型中的预设的像素块与预设的像素块属于每个预设对象的概率的对应关系。

示例性的，如一图像中A像素块属于数目的概率为0.8，属于行人的该率为0.3，根据大量的图像标注数据，获取预设的像素块与预设的像素块属于每个预设对象的概率的对应关系。

本实施例中，图像语义标注设备中预设了每层子待标注图像对应的预设对象，可以根据预设的像素块与预设的像素块属于每个预设对象的概率的对应关系，获取每层子待标注图像中每个像素块属于每层子待标注图像对应的预设对象的第一概率。

示例性的，如图像语义标注设备预设第一层子待标注图像对应的预设对象为行人、第二层子待标注图像对应的预设对象为车辆、第三层子待标注图像对应的预设对象为车道线；在图像语义标注设备获取待标注图像的3层子待标注图像后，获取待标注图像中第一层中每个像素块属于行人的第一概率、第二层中每个像素块属于车辆的第一概率，以及第三层中每个像素块属于车道线的第一概率。

S103，根据每层子待标注图像对应的多个第一概率，获取每层子待标注图像对应的三元图。

本实施例中，图像语义标注设备可以存储有预设的概率阈值，具体的，每层子待标注图像的预设的概率阈值可以不同，也可以相同。在获取每层子待标注图像对应的多个第一概率后，可以根据每层子待标注图像每个像素块对应的第一概率，即每层子待标注图像对应的多个第一概率，分别与每层子待标注图像的预设的概率阈值比较，获取每层子待标注图像对应的三元图。

其中，三元图包括前景区域、背景区域和模糊区域。概率阈值可以包括第二概率阈值和第三概率阈值，其中，第二概率阈值小于第三概率阈值。本实施例中可以将每层子待标注图像对应的多个第一概率中大于第三概率阈值的像素块确定为前景区域，可以将每层子待标注图像对应的多个第一概率中小于第二概率阈值的像素块确定为背景区域，可以将每层子待标注图像对应的多个第一概率中介于第二概率阈值和第三概率阈值之间的像素块作为模糊区域。

S104，对每层子待标注图像对应的三元图进行标注，获取待标注图像的标注结果。

本实施例中对每层子待标注图像对应的三元图进行标注，可以为将属于前景区域的像素块标注为：该层子待标注图像对应的预设对象。

示例性的，如图像语义标注设备获取待标注图像中第一层中每个像素块属于行人的第一概率、第二层中每个像素块属于车辆的第一概率，以及第三层中每个像素块属于车道线的第一概率，根据每层子待标注图像对应的三元图，将每层子待标注图像中属于前景区域的像素块标注为该层子待标注图像对应的预设对象。如将第一层中属于前景区域的像素块标注为行人、将第二层中属于前景区域的像素块标注为车辆，以及将第三层中属于前景区域的像素块标注为车道线。

可选的，在对子待标注图像对应的三元图进行标注后，可以将该多层子待标注图像进行融合，即按照原先分层处理的顺序，对多层子待标注图像合并成待标注图像。其中，融合后的待标注图像具有每层子待标注图像中具有像素块的标注结果。

示例性的，第一层中标注为行人的像素块分别为A像素块、B像素块，第二层中标注为车辆的像素块分别为C像素块、D像素块，第三层中标注为车道线的像素块分别为E像素块、F像素块；本实施例中可以获取A像素块、B像素块在第一层子待标注图像中的位置，C像素块、D像素块在第二层子待标注图像中的位置，以及E像素块、F像素块在第三层子待标注图像中的位置，将合并后待标注图像对应的A像素块、B像素块对应的位置标注为行人，C像素块、D像素块对应的位置标注为车辆，E像素块、F像素块对应的位置标注为车道线，据此获取待标注图像的标注结果。

本实施例提供一种图像语义标注方法，该方法包括：将待标注图像进行分层处理，获取待标注图像对应的N层子待标注图像；根据N层子待标注图像，以及预设的像素块与预设的像素块属于每个预设对象的概率的对应关系，获取每层子待标注图像中每个像素块属于每层子待标注图像对应的预设对象的第一概率；根据每层子待标注图像对应的多个第一概率，获取每层子待标注图像对应的三元图；对每层子待标注图像对应的三元图进行标注，获取待标注图像的标注结果。本实施例根据多层子待标注图像中每个像素块属于预设对象的概率，获取待标注图像的标注结果，使得待标注图像中的标注结果更为准确，避免了通过人工进行修改的问题。

为了使得获取的图像语义标注结果更为准确，下述实施例中可以根据每层子待标注图像的第一概率，获取每层子待标注图像对应的第二概率阈值和第三概率阈值，使得获取的三元图更为准确，进而提高了标注结果的准确性。下面结合图2对本发明提供的图像语义标注方法中对每层子待标注图像中的像素块的标注过程进行详细说明，图2为本发明提供的图像语义标注方法的实施例二的流程示意图，如图2所示，本实施例提供的图像语义标注方法可以包括：

S201，将待标注图像进行分层处理，获取待标注图像对应的N层子待标注图像。

S202，根据N层子待标注图像，以及，预设的像素块与预设的像素块属于每个预设对象的概率的对应关系，获取每层子待标注图像中每个像素块属于每层子待标注图像对应的预设对象的第一概率。

本实施例中，图像语义标注设备中存储有概率模型，该概率模型用于表示预设的像素块与预设的像素块属于每个预设对象的概率的对应关系；其中，该概率模型可以为神经网络模型中次末层对应的输出模型。

具体的，该概率模型的获取方式可以为：将预设的像素块和预设的像素块属于每个预设对象的概率作为训练样本，其中，预设的像素块可以是已有的大量的标注图像中的像素块。

S203，在每层子待标注图像对应的第一概率中，获取每层子待标注图像的最大第一概率；若第M层子待标注图像对应的最大第一概率小于第一概率阈值，则删除第M层子待标注图像，M为小于或等于N的整数。

本实施例中，图像语义标注设备中存储有第一概率阈值，在获取每层子待标注图像中的每个像素块属于预设对象的第一概率后，在每层子待标注图像对应的第一概率中，获取每层子待标注图像的第一概率中的最大值，并比较每层子待标注图像中的最大第一概率与该第一概率阈值的大小关系。进而能够获取最大第一概率小于第一概率阈值的第M层子待标注图像。第M层子待标注图像中的最大第一概率小于第一概率阈值，即表明该第M层子待标注图像中的每个像素块均不属于该第M层子待标注图像对应的预设图像。则删除第M层子待标注图像，结合剩余的子待标注图像实现对待标注图像的标注，其中，M为小于或等于N的整数。

值得注意的是，本实施例中的第一概率阈值可以由下式公式一获取：

其中，T为第一概率阈值，N为子待标注图像的层数，β为经验值，具体可以取值为1.2-1.7。

示例性的，如图像语义标注设备获取待标注图像中第一层中每个像素块属于行人的第一概率中的最大值小于第一概率阈值，表明第一层中每个像素块均不属于预设对象行人，便将该第一层子待标注图像删除，结合剩余的子待标注图像实现对待标注图像的标注。

S204，在每层子待标注图像中，获取具有相同第一概率的像素块的个数。

本实施例中，在将最大第一概率小于第一概率阈值的第M层子待标注图像删除后，结合剩余的子待标注图像进行图像标注，其中，最大第一概率小于第一概率阈值的子待标注图像可以为多层。

进一步的，在剩余的子待标注图像中，在每层子待标注图像中，获取具有相同第一概率的像素块的个数。示例性的，统计每层子待标注图像中的具有相同第一概率的像素块的个数，例如，第一概率为0.1的像素块的个数为10个、第一概率为0.2的像素块的个数为20个等。

S205，根据具有相同第一概率的像素块的个数，获取每层子待标注图像中的第二概率阈值和第三概率阈值。

本实施例中，在对每层子待标注图像中具有相同第一概率对应的像素块的个数进行统计后，获取每层子待标注图像中的第二概率阈值和第三概率阈值。第二概率阈值和第三概率阈值分别为：以第一概率为横坐标，以具有相同第一概率的像素块的个数为纵坐标形成的曲线中两个转折点对应的第一概率，其中，第二概率阈值小于第三概率阈值。

具体的，以第一概率为横坐标，以相同第一概率对应的像素块的个数为纵坐标形成的曲线中，获取两个对应的转折点对应的第一概率的具体方式可以为：将左侧曲线与右侧曲线的变化趋势不同的点作为转折点；如转折点左侧曲线的变化趋势是逐渐减小，右侧曲线的变化趋势是逐渐增大。

对应的，本实施例中还可以将每层子待标注图像的每个像素块的第一概率进行缩放。例如，可以将每个像素块的第一概率乘以255，以实现第一概率与灰度值的转换，进一步根据与上述获取第二概率阈值和第三概率阈值的相同的方法获取第二概率阈值和第三概率阈值，不同的是，横坐标变化为第一概率乘以255后的灰度值，纵坐标为具有相同灰度值的像素块的个数。但由于第一概率和灰度值的转换具有对应关系，根据该两种方式获取的第二概率阈值和第三概率阈值的数值虽然不同，但对于每层子待标注图像来说，获取相同的三元图是相同的。

示例性的，图3为本发明提供的图像语义标注方法应用的示例图，图3中以自动驾驶车辆在自动驾驶过程获取的图像作为示例说明，图3中的a为自动驾驶车辆获取的待标注图像，在采用上述S201-S205的方式获取每层子待标注图像中具有相同第一概率对应的像素块的个数后，可以将第一概率为横坐标，具有相同第一概率的像素块的个数为纵坐标。

本实施例中以子待标注图像对应的预设对象为车辆作为示例说明，且进一步的以直方图代替曲线图、以灰度值代替第一概率确定第二概率阈值和第三概率阈值进行说明。获取的第一概率为横坐标，具有相同第一概率的像素块的个数为纵坐标对应的直方图可如图3中的b所示。

其中，根据直方图中的梯度变化趋势获取两个转折点分别为110、160，因此对应的第二概率阈值和第三概率阈值分别为110、160。

S206，根据每层子待标注图像中每个像素块对应的第一概率、第二概率阈值和第三概率阈值，获取每层子待标注图像对应的三元图。

可选的，本实施例中将在每层子待标注图像中，将第一概率小于第二概率阈值的像素块的第一概率替换为0，其中，即第一概率小于第二概率阈值的像素块确定为该子待标注图像中的背景区域；将第一概率大于第三概率阈值的像素块的第一概率替换为1，即第一概率大于第三概率阈值的像素块确定为该子待标注图像中的前景区域；且将第一概率介于第二概率阈值和第三概率阈值之间的像素块的第一概率替换为0.5，即第一概率介于第二概率阈值和第三概率阈值之间的像素块确定为该子待标注图像中的模糊区域，获取每层子待标注图像对应的三元图。模糊区域为指的是该区域中的像素块不确定的属于前景区域或背景区域。

相应的，若是对每层子待标注图像的每个像素块的第一概率进行缩放后获取的第二概率阈值和第三概率阈值，则在每层子待标注图像中，将缩放后的第一概率小于第二概率阈值的像素块对应的灰度值替换为0，将缩放后的第一概率大于第三概率阈值的像素块的第一概率对应的灰度值替换为255，将缩放后的第一概率介于第二概率阈值和第三概率阈值之间的像素块对应的灰度值替换为128，获取每层子待标注图像对应的三元图。可选的，可以将灰度值为255的像素块为子待标注图像中的前景区域、灰度值为128的像素块为子待标注图像中的模糊区域，以及灰度值为0的像素块为子待标注图像中背景区域。本实施例中的概率替换值0、0.5和1，以及灰度替换值0、128和255仅作为示例说明，也可采用其它数值进行替换。

示例性的，根据每层子待标注图像中的每个像素块的第二概率、第二概率阈值和第三概率阈值，以及预设的概率与灰度值的对应规则，可以获取图3中a对应的三元图。如图3中的c所示，前景区域为标注为图像中的白色部分，模糊区域为标注为图像中的灰色部分，背景区域为标注为图像中的黑色部分。

S207，对每层子待标注图像对应的三元图进行标注，获取待标注图像的标注结果。

将每层子待标注图像中的每个像素块的三元图中的前景区域标注为：该层子待标注图像对应的预设对象。示例性的，如图3中的c所示，前景区域为标注为图像中的白色部分，而该层子待标注图像对应的预设对象为车辆，因此将该层子待标注图像的前景区域标注为车辆。

本实施例中，若第M层子待标注图像对应的最大第一概率小于第一概率阈值，则删除第M层子待标注图像，且在每层子待标注图像中，获取具有相同第一概率的像素块的个数；根据具有相同第一概率的像素块的个数，获取每层子待标注图像中的第二概率阈值和第三概率阈值，每层子待标注图像中，将第一概率小于第二概率阈值的像素块确定为背景区域，将第一概率大于第三概率阈值的像素块确定为前景区域，将第一概率介于第二概率阈值和第三概率阈值之间的像素块确定为模糊区域，获取每层子待标注图像对应的三元图，对每层子待标注图像的前景区域标注为该层子待标注图像对应的预设对象。本实施例中删除了图像中不包括预设对象的子待标注图像，且获取删除后的子待标注图像的三元图，根据三元图对像素块的第一概率，获取每层子待标注图像的第二概率阈值和第三概率阈值，提高了获取的三元图的准确性，使得待标注图像中的标注结果更为准确。

进一步的，每层子待标注图像对应的三元图中包含有模糊区域，该模糊区域具体属于前景区域或者背景区域是不确定的。下面结合图4对本发明提供的图像语义标注方法中对模糊区域进行确定的过程进行说明，图4为本发明提供的图像语义标注方法的实施例三的流程示意图，如图4所示，本实施例提供的图像语义标注方法可以包括：

S401，将待标注图像进行分层处理，获取待标注图像对应的N层子待标注图像。

S402，根据N层子待标注图像，以及，预设的像素块与预设的像素块属于每个预设对象的概率的对应关系，获取每层子待标注图像中每个像素块属于每层子待标注图像对应的预设对象的第一概率。

S403，在每层子待标注图像对应的第一概率中，获取每层子待标注图像的最大第一概率，若第M层子待标注图像对应的最大第一概率小于第一概率阈值，则删除第M层子待标注图像。

S404，在每层子待标注图像中，获取具有相同第一概率的像素块的个数。

S405，根据具有相同第一概率的像素块的个数，获取每层子待标注图像中的第二概率阈值和第三概率阈值。

S406，据每层子待标注图像中每个像素块对应的第一概率、第二概率阈值和第三概率阈值，获取每层子待标注图像对应的三元图。

S407，判断每层子待标注图像对应的三元图中的前景区域的形状是否为预设形状；若是，执行S408，若否，执行S409。

本实施例中，图像语义标注设备中存储有预设形状，该预设形状为规则形状，如车辆、交通指示牌、车道线等的形状。对比每层子待标注图像对应的三元图中的前景区域的形状是否为预设形状，具体的，对比每层子待标注图像对应的三元图中的前景区域的形状与预设形状是否相同，来确定每层子待标注图像对应的三元图中的前景区域的形状是否为预设形状。

S408，根据第一预设膨胀因子对前景区域进行膨胀处理。

若每层子待标注图像对应的三元图中的前景区域的形状为预设形状时，根据预设的第一预设膨胀因子对前景区域进行膨胀处理，该膨胀处理的目的是为了扩大原前景区域。

其中，预设形状为规则形状，如车辆，交通指示牌的形状，对应的第一预设膨胀因子MG可以为3-5。

S409，根据第二预设膨胀因子对模糊区域进行膨胀处理。

若每层子待标注图像对应的三元图中的前景区域的形状不为预设形状时，根据预设的第二预设膨胀因子对模糊区域进行膨胀处理，该膨胀处理的目的是为了更进一步的扩大原前景区域。

其中，预设形状为不规则形状，如自行车，三轮车的形状，对应的第二预设膨胀因子MG可以为1-3。本实施例中的膨胀处理方式具体可参照现有技术中的膨胀处理方式，在此不做赘述。

S410，对膨胀处理处理后的每层子待标注图像对应的三元图进行标注，获取待标注图像的标注结果。

本实施例中，根据膨胀处理后的每层子待标注图像对应的三元图，实现对每层子待标注图像中的像素块的标注，具体的实施方式如下：

按照连通域规则，将膨胀处理后的每层子待标注图像对应的三元图进行区域划分，获取多个子区域。示例性的，如图3中的c所示，前景区域中的车辆A与车辆B属于同一个连通域，将车辆A与车辆B对应的区域作为该层子待标注图像中的一个子区域。

根据每个子区域中包含的模糊区域，以及预设的模糊区域与预设的模糊区域属于前景区域的概率的对应关系，获取每个子区域中包含的模糊区域属于前景区域的第二概率。

具体的，本实施例中的图像语义标注设备中存储有预设的模糊区域与预设的模糊区域属于前景区域的概率的对应关系，根据每个子区域中包含的模糊区域，以及该对应关系，可以获取每个子区域中包含的模糊区域属于前景区域的第二概率。具体的，该对应关系可以是根据大量的三元图标注数据进行训练获取的。

在每个子区域中，将第二概率大于第四概率阈值的像素块确定为前景区域，将第二概率小于第四概率阈值的像素块确定为背景区域，获取每个子区域对应的二值图。

例如，可以将大于第四概率阈值的第二概率替换为1，将小于第四概率阈值的第二概率替换为0，获取每个子区域对应的二值图。例如，第四概率阈值可以为0.7，将根据上述预设的模糊区域与预设的模糊区域属于前景区域的概率的对应关系获取的每个子区域中包含的模糊区域的第二概率，将大于第四概率阈值的第二概率替换为1，将小于第四概率阈值的第二概率替换为0，获取每个子区域对应的二值图。具体的，本实施例中的二值图中将模糊区域进行属于前景区域或者背景区域的划分，使得子待标注图像的二值图中仅包括前景区域和背景区域，便于获取每层子待标注图像的标注结果。

进一步的，本实施例中，在获取每层子待标注图像对应的多个子区域的二值图后，将每层子待标注图像对应的多个子区域进行拼接，获取每层子待标注图像对应的二值图。根据每层子待标注图像对应的二值图，对每层子待标注图像中的每个像素块进行标注。

具体的，将每层子待标注图像对应的二值图中属于前景区域的像素块，标注为每层子待标注图像对应的预设对象。例如，将每层子待标注图像对应的二值图中概率为1对应的像素块，标注为每层子待标注图像对应的预设对象。

可选的，本实施例中在获取每层子待标注图像的标注结果后，可以根据上述实施例中S207中的相关描述获取待标注图像的标注结果，在此不做赘述。

可选的，本实施例中还可以将待标注图像的标注结果作为上述神经网络模型的训练样本，继续对该神经网络模型进行训练，对该神经网络模型进行优化。

本实施例中的S401-S406中的实施方式具体可参照上述实施例中S201-S206中的相关描述，在此不做赘述。

本实施例中，根据每层子待标注图像对应的三元图中的前景区域的形状是否为预设形状，对每层子待标注图像进行膨胀处理；且根据每层子待标注图像中包含的模糊区域，以及预设的模糊区域与预设的模糊区域属于前景区域的概率的对应关系，获取每个子区域中包含的模糊区域属于前景区域的第二概率；将第二概率大于第四概率阈值的像素块确定为前景区域，将第二概率小于第四概率阈值的像素块确定为背景区域，获取每个子区域对应的二值图；将每层子待标注图像对应的多个子区域进行拼接，获取每层子待标注图像对应的二值图；将每层子待标注图像对应的二值图中属于前景区域的像素块，标注为每层子待标注图像对应的预设对象。本实施例中对每层子待标注图像中的模糊区域进行进一步处理，确定模糊区域到底是属于前景区域或者背景区域，进一步提高了图像中标注结果的准确性。

可选的，本实施例还提供一种图像语义标注设备，该设备可以是一种图像语义标注装置，也可以是一个包含该装置的实体硬件产品。图5为本发明提供的图像语义标注设备的实施例一的结构示意图，该图像语义标注设备可以包括：处理模块501。

处理模块501，用于将待标注图像进行分层处理，获取待标注图像对应的N层子待标注图像，N为大于1的整数；根据N层子待标注图像，以及，预设的像素块与预设的像素块属于每个预设对象的概率的对应关系，获取每层子待标注图像中每个像素块属于每层子待标注图像对应的预设对象的第一概率，每层子待标注图像对应不同的预设对象；根据每层子待标注图像对应的多个第一概率，获取每层子待标注图像对应的三元图；对每层子待标注图像对应的三元图进行标注，获取待标注图像的标注结果。

本实施例提供的图像语义标注设备与上述图像语义标注方法实现的原理和技术效果类似，在此不作赘述。

可选的，处理模块501，还用于在每层子待标注图像对应的第一概率中，获取每层子待标注图像的最大第一概率；若第M层子待标注图像对应的最大第一概率小于第一概率阈值，则删除第M层子待标注图像，M为小于或等于N的整数。

可选的，处理模块501，具体用于在每层子待标注图像中，获取具有相同第一概率的像素块的个数；根据具有相同第一概率的像素块的个数，获取每层子待标注图像中的第二概率阈值和第三概率阈值，第二概率阈值和第三概率阈值分别为：以第一概率为横坐标，以具有相同第一概率对应的像素块的个数为纵坐标形成的曲线中两个转折点对应的第一概率，第二概率阈值小于第三概率阈值，根据每层子待标注图像中每个像素块对应的第一概率、第二概率阈值和第二概率阈值，获取每层子待标注图像对应的三元图。

可选的，处理模块501，具体用于将第一概率小于第二概率阈值的像素块确定为背景区域，将第一概率大于第二概率阈值的像素块确定为前景区域，将第一概率介于第二概率阈值和第二概率阈值之间的像素块确定为模糊区域，获取每层子待标注图像对应的三元图。

可选的，处理模块501，还用于判断每层子待标注图像对应的三元图中的前景区域的形状是否为预设形状；若是，根据第一预设膨胀因子对前景区域进行膨胀处理；若否，根据第二预设膨胀因子对模糊区域进行膨胀处理。

可选的，处理模块501，具体用于对膨胀处理处理后的每层子待标注图像对应的三元图进行标注。

可选的，处理模块501，还用于将预设的像素块和预设的像素块属于每个预设对象的概率作为训练样本，获取概率模型，概率模型用于表示预设的像素块与预设的像素块属于每个预设对象的概率的对应关系。

可选的，处理模块501，具体用于按照连通域规则，将膨胀处理后的每层子待标注图像对应的三元图进行区域划分，获取多个子区域；根据每个子区域中包含的模糊区域，以及预设的模糊区域与预设的模糊区域属于前景区域的概率的对应关系，获取每个子区域中包含的模糊区域属于前景区域的第二概率；在每个子区域中，将第二概率大于第四概率阈值的像素块确定为前景区域，将第二概率小于第四概率阈值的像素块确定为背景区域，获取每个子区域对应的二值图；将每层子待标注图像对应的多个子区域对应的二值图进行拼接，获取每层子待标注图像对应的二值图；将每层子待标注图像对应的二值图中属于前景区域的像素块，标注为每层子待标注图像对应的预设对象。

可选的，图像语义标注设备还可以包括存储模块502。其中，存储模块502可能为高速随机存取存储器(random-access memory，RAM)，也可能为非易失性存储器(non-volatile memory，NVM)，例如至少一个磁盘存储器，存储模块502中可以存储各种指令，以用于完成上述各种处理功能以及实现本发明的方法步骤。

图6为本发明提供的图像语义标注设备的实施例二的结构示意图，该图像语义标注设备例如可以是终端设备，比如智能手机、平板电脑、计算机等。如图6所示，该图像语义标注设备600包括：存储器601和至少一个处理器602。

存储器601，用于存储程序指令。

处理器602，用于在程序指令被执行时实现本实施例中的图像语义标注方法，具体实现原理可参见上述实施例，本实施例此处不再赘述。

该图像语义标注设备600还可以包括及输入/输出接口603。

输入/输出接口603可以包括独立的输出接口和输入接口，也可以为集成输入和输出的集成接口。其中，输出接口用于输出数据，输入接口用于获取输入的数据。

本发明还提供一种可读存储介质，可读存储介质中存储有执行指令，当图像语义标注设备的至少一个处理器执行该执行指令时，当计算机执行指令被处理器执行时，实现上述实施例中的图像语义标注方法。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。图像语义标注设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得图像语义标注设备实施上述的各种实施方式提供的图像语义标注方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述网络设备或者终端设备的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：ApplicationSpecific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种图像语义标注方法，其特征在于，包括：

根据N层所述子待标注图像，以及，预设的像素块与所述预设的像素块属于每个预设对象的概率的对应关系，获取每层所述子待标注图像中每个像素块属于所述每层子待标注图像对应的预设对象的第一概率，所述每层子待标注图像对应不同的预设对象；

2.根据权利要求1所述的方法，其特征在于，所述获取每层所述子待标注图像中每个像素块属于所述每层子待标注图像对应的预设对象的第一概率之后，还包括：

在每层所述子待标注图像对应的第一概率中，获取每层所述子待标注图像的最大第一概率；

若第M层所述子待标注图像的最大第一概率小于第一概率阈值，则删除第M层所述子待标注图像，M为小于或等于N的整数。

3.根据权利要求1或2所述的方法，其特征在于，所述根据每层所述子待标注图像对应的多个所述第一概率，获取每层所述子待标注图像对应的三元图，包括：

在每层所述子待标注图像中，获取具有相同第一概率的像素块的个数；

根据具有相同第一概率的像素块的个数，获取每层所述子待标注图像中的第二概率阈值和第三概率阈值，所述第二概率阈值和所述第三概率阈值分别为：以所述第一概率为横坐标，以具有相同第一概率的像素块的个数为纵坐标形成的曲线中两个转折点对应的第一概率，所述第二概率阈值小于所述第三概率阈值；

根据每层所述子待标注图像中每个像素块对应的第一概率、所述第二概率阈值和所述第三概率阈值，获取每层所述子待标注图像对应的三元图。

4.根据权利要求3所述的方法，其特征在于，所述获取每层所述子待标注图像对应的三元图，包括：

在每层所述子待标注图像中，将第一概率小于所述第二概率阈值的像素块确定为背景区域，将第一概率大于所述第三概率阈值的像素块确定为前景区域，将第一概率介于所述第二概率阈值和所述第三概率阈值之间的像素块确定为模糊区域，获取每层所述子待标注图像对应的三元图。

5.根据权利要求4所述的方法，其特征在于，所述获取每层所述子待标注图像对应的三元图之后，还包括：

判断每层子待标注图像对应的三元图中的前景区域的形状是否为预设形状；

若是，根据第一预设膨胀因子对所述前景区域进行膨胀处理；

若否，根据第二预设膨胀因子对所述模糊区域进行膨胀处理；

所述对每层所述子待标注图像对应的三元图进行标注，包括：

对膨胀处理处理后的每层所述子待标注图像对应的三元图进行标注。

6.根据权利要求5所述的方法，其特征在于，所述对膨胀处理处理后的每层所述子待标注图像对应的三元图进行标注，包括：

按照连通域规则，将膨胀处理后的每层所述子待标注图像对应的三元图进行区域划分，获取多个子区域；

根据每个所述子区域中包含的模糊区域，以及预设的模糊区域与所述预设的模糊区域属于前景区域的概率的对应关系，获取每个所述子区域中包含的模糊区域属于前景区域的第二概率；

在每个所述子区域中，将第二概率大于第四概率阈值的像素块确定为前景区域，将第二概率小于所述第四概率阈值的像素块确定为背景区域，获取每个所述子区域对应的二值图；

将每层所述子待标注图像对应的多个所述子区域对应的二值图进行拼接，获取每层所述子待标注图像对应的二值图；

将每层所述子待标注图像对应的二值图中属于前景区域的像素块，标注为每层所述子待标注图像对应的预设对象。

7.根据权利要求1所述的方法，其特征在于，所述获取每层所述子待标注图像中每个像素块属于所述每层子待标注图像对应的预设对象的第一概率之前，还包括：

将所述预设的像素块和所述预设的像素块属于每个预设对象的概率作为训练样本，获取概率模型，所述概率模型用于表示预设的像素块与所述预设的像素块属于每个预设对象的概率的对应关系。

8.一种图像语义标注设备，其特征在于，包括：处理模块；

9.一种图像语义标注设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述图像语义标注设备执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现权利要求1-7任一项所述的方法。