CN108319985B

CN108319985B - 图像语义标注的方法和装置

Info

Publication number: CN108319985B
Application number: CN201810124143.1A
Authority: CN
Inventors: 李甲; 张立石; 付程晗; 赵沁平
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2022-05-17
Anticipated expiration: 2038-02-07
Also published as: CN108319985A

Abstract

本发明提供一种图像语义标注的方法和装置，该方法包括：对第一待标注图像进行似物性采样处理，得到多个区域以及每个区域的似物性采样特征；对第一待标注图像进行超像素分割，得到与多个区域对应的多个第一超像素块；根据第一待标注图像的强弱字典和每个区域的似物性采样特征，获取各区域为目标对象的概率值；根据每个区域对应的第一超像素块及每个区域属于目标对象的概率值，获取第一待标注图像中每个第一超像素块属于目标对象的概率值；根据每个第一超像素块属于目标对象的概率值以及第一语义标签，对第一超像素块进行语义标注。本发明实现了图像的像素级自动化语义标注，提高了图像语义标注的效率。

Description

图像语义标注的方法和装置

技术领域

本发明涉及计算机视觉和图像处理领域，尤其涉及一种图像语义标注的方法和装置。

背景技术

图像语义标注是图像语义研究的基础，是计算机视觉领域的重要工具和研究目标。

研究者们相继公布了很多针对图像语义标注的数据集，极大地促进了计算机视觉技术的发展，但这些图像语义标注的数据集仅适用于研究者的研究目标，并且是通过大量的人工标注形成的。随着大数据时代的到来以及图像数量的剧增，为了实现与现实世界的交互，需要对图像语义进行像素级别的标注。而采用人工标注的方法，标注过程往往充满乏味性和低效性，增加了人工标注的工作量。

发明内容

本发明提供一种图像语义标注的方法和装置，利用已标注图像中的特征构建强弱字典，对已标注图像进行像素级别的标注，实现了图像的像素级自动化语义标注，提高了图像语义标注的效率。

本发明的第一方面提供一种图像语义标注的方法，包括：

对第一待标注图像进行似物性采样处理，得到多个区域以及每个所述区域的似物性采样特征；

对所述第一待标注图像进行超像素分割，得到与多个所述区域对应的多个第一超像素块；

根据所述第一待标注图像的强弱字典和每个所述区域的似物性采样特征，获取各所述区域为目标对象的概率值；所述强弱字典中包含有用于指示所述第一待标注图像的像素级特征集和图像级特征集；

根据每个所述区域对应的所述第一超像素块以及每个所述区域属于目标对象的概率值，获取所述第一待标注图像中每个所述第一超像素块属于目标对象的概率值；

根据每个所述第一超像素块属于目标对象的概率值以及第一语义标签，对所述第一超像素块进行语义标注，得到所述第一待标注图像的第一语义标注结果，所述第一语义标签为所述第一待标注图像中的图像级语义标签。

可选的，所述第一待标注图像为待标注图像集中的一张图像，所述待标注图像集中的各待标注图像具有相同的语义标签，在所述根据所述第一待标注图像的强弱字典和每个所述区域的似物性采样特征，获取各所述区域为目标对象的概率值之前，所述方法还包括：

根据所述待标注图像集中的各待标注图像的所述第一语义标签和已标注图像集中的各已标注图像的第二语义标签，获取所述待标注图像集和所述已标注图像集之间的第一语义相似性，所述已标注图像集为像素级标注的图像集；

根据所述各待标注图像的第一图像级深度特征和各所述已标注图像中的第二图像级深度特征，获取所述待标注图像集和所述已标注图像集之间的第一视觉相似性；

根据所述待标注图像集与所述已标注图像集之间的第一语义相似性和第一视觉相似性，获取所述待标注图像集与所述已标注图像集之间的第一整体相似性；

针对所述已标注图像集中的多个所述已标注图像，在多个所述第一整体相似性中，选择大于预设相似性的第一整体相似性所对应的多个第一已标注图像；

根据多个所述第一已标注图像所对应的多个第一像素级特征，获取所述像素级特征集；

根据所述像素级特征集，获取所述第一待标注图像的强字典。

可选的，在所述根据所述第一待标注图像的强弱字典和每个所述区域的似物性采样特征，获取各所述区域为目标对象的概率值之前，所述方法还包括：

根据所述第一待标注图像的所述第一语义标签和所述待标注图像集中各第二待标注图像中的第三语义标签，获取所述第一待标注图像和各所述第二待标注图像之间的第二语义相似性；所述第二待标注图像为所述待标注图像集中除所述第一待标注图像之外的待标注图像；

根据所述第一待标注图像中的第一图像级深度特征和各所述第二待标注图像中的第三图像级深度特征，获取所述第一待标注图像和各所述第二待标注图像之间的第二视觉相似性；

根据所述第一待标注图像与所述第二待标注图像之间的第二语义相似性和第二视觉相似性，获取所述第一待标注图像和所述第二待标注图像之间的第二整体相似性；

针对多个所述第二待标注图像，在多个所述第二整体相似性中，选择大于预设相似性的第二整体相似性所对应的多个第三待标注图像；

根据多个所述第三待标注图像所对应的多个图像级特征，获取所述图像级特征集；

根据所述图像级特征集，获取所述第一待标注图像的弱字典。

可选的，根据所述第一待标注图像的强弱字典和每个所述区域的似物性采样特征，获取各所述区域为目标对象的概率值，包括：

根据所述像素级特征集和每个所述区域的似物性采样特征，获取每个所述区域的多个第一似物性相似度；

根据所述图像级特征集和每个所述区域的似物性采样特征，获取每个所述区域的多个第二似物性相似度；

在每个所述区域对应的多个所述第一似物性采样相似度和多个所述第二似物性采样相似度中选择最小值，作为每个所述区域的第三似物性相似度；

根据多个所述第三似物性相似度，获取各所述区域属于目标对象的概率值。

可选的，根据每个所述第一超像素块属于目标对象的概率值以及第一语义标签，对所述第一超像素块进行语义标注，包括：

将概率值大于第一阈值的所述第一超像素块标注为所述第一语义标签中的语义。

可选的，在所述得到所述第一待标注图像的第一语义标注结果之后，所述方法还包括：

获取用户输入的修正指令，所述修正指令用于指示将所述第一待标注图像中原属于前景部分，被标注为背景部分的第二超像素块进行反转处理，所述第二超像素块为所述第一超像素块的子集；

根据所述修正指令，将所述第一待标注图像中原属于前景部分，被标注为背景部分的所述第二超像素块进行反转标注，得到所述第一待标注图像的第二语义标注结果。

可选的，所述获取用户输入的修正指令之后，所述方法还包括：

根据所述第二超像素块构建反转字典；

在所述反转字典中的所述第二超像素块的个数达到第二阈值时，对所述第二待标注图像中的第三超像素块进行反转处理；

所述第三超像素块的第三像素级特征与所述第二超像素块的第二像素级特征的像素级相似度大于预设像素级相似度。本发明的第二方面提供一种图像语义标注的装置，包括：

似物性采样模块，用于对第一待标注图像进行似物性采样处理，得到多个区域以及每个所述区域的似物性采样特征；

超像素分割模块，用于对所述第一待标注图像进行超像素分割，得到与多个所述区域对应的多个第一超像素块；

第一获取模块，用于根据所述第一待标注图像的强弱字典和每个所述区域的似物性采样特征，获取各所述区域为目标对象的概率值；所述强弱字典中包含有用于指示所述第一待标注图像的像素级特征集和图像级特征集；

第二获取模块，用于根据每个所述区域对应的所述第一超像素块以及每个所述区域属于目标对象的概率值，获取所述第一待标注图像中每个所述第一超像素块属于目标对象的概率值；

第一语义标注模块，用于根据每个所述第一超像素块属于目标对象的概率值以及第一语义标签，对所述第一超像素块进行语义标注，得到所述第一待标注图像的第一语义标注结果，所述第一语义标签为所述第一待标注图像中的图像级语义标签。

本发明的第三方面提供一种图像语义标注的装置，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述图像语义标注的装置执行上述图像语义标注的方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现上述图像语义标注的方法。

附图说明

图1为本发明提供的图像语义标注的方法的流程示意图一；

图2为本发明提供的获取第一待标注图像的强字典的方法的流程示意图；

图3为本发明提供的获取第一语义标注结果的示例流程图；

图4为本发明提供的获取第一待标注图像的弱字典的方法的流程示意图；

图5为本发明提供的获取各区域为目标对象的概率值的流程示意图；

图6为本发明提供的图像语义标注的方法的流程示意图二；

图7为本发明提供的获取第二语义标注结果的示例流程图；

图8为本发明提供的图像语义标注的装置的结构示意图一；

图9为本发明提供的图像语义标注的装置的结构示意图二；

图10为本发明提供的图像语义标注的装置的结构示意图三；

图11为本发明提供的图像语义标注的装置的结构示意图四。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的图像语义标注的方法的流程示意图一；图1所示方法流程的执行主体可以为图像语义标注的装置，该图像语义标注的装置可由任意的软件和/或硬件实现。如图1所示，本实施例提供的图像语义标注的方法可以包括：

S101，对第一待标注图像进行似物性采样处理，得到多个区域以及每个区域的似物性采样特征。

本实施例中第一待标注图像为图像级别标注的图像，且第一待标注图像具有图像级别的语义标签。本实施例中可采用量化共轭梯度(Scaled Conjugate Gradient，SCG)算法对第一待标注图像进行似物性采样处理，即将第一待标注图像中进行图像似物性分割，生成多个区域，并得到每个区域的得分，即该区域属于待标注对象的概率。在获得多个区域后，对每个区域进行深度特征提取，即为似物性采样特征。

S102，对第一待标注图像进行超像素分割，得到与多个区域对应的多个第一超像素块。

本实施例中可采用非迭代集群(Simple Non-Iterative Clustering，SNIC)算法提取第一待标注图像的超像素，并以超像素为单位，提取第一待标注图像的粗粒度超像素块，如：可将第一待标注图像划分为100个粗粒度的超像素块，本实施例中对于如何将超像素划分成超像素块的具体方式不做限制；

上述S101中将第一待标注图像分割成多个区域，S102中将第一待标注图像分割成多个超像素块，根据第一待标注图像的位置关系，得到第一待标注图像中与多个区域对应的多个第一超像素块。

S103，根据第一待标注图像的强弱字典和每个区域的似物性采样特征，获取各区域为目标对象的概率值；强弱字典中包含有用于指示第一待标注图像的像素级特征集和图像级特征集。

为了更加准确的对第一待标注图像中目标对象进行标注，需要知道在第一待标注图像中哪些超像素块属于目标对象部分，因此，需要对第一待标注图像中的每个超像素块进行属于目标对象的概率值的计算。

第一待标注图像的像素级特征集可以是在像素级已标注图像集中提取出来的、用于指示第一待标注图像的像素级特征集，其中，像素级特征集中的像素级特征是指对整张图像先提取出目标区域，再在提取出来的目标区域中提取的像素级特征；已标注图像集为像素级语义标注图像集，即已标注图像中每一个像素都具有语义标签。

第一待标注图像的图像级特征集可以是在图像级已标注图像集中提取出来的、用于指示第一待标注图像的图像级特征集，其中，图像级特征集中的图像级特征是指对整张图像提取图像级特征。

在获得像素级特征集和图像级特征集后，可以像素级特征集中的多个像素级特征与每个区域似物性采样特征之间的相似性和/或和图像级特征集中的多个图像集特征与似物性采样特征之间的相似性，可以根据每个区域像素级特征与每个区域似物性采样特征之间的相似性和/或和图像级特征集中的多个图像集特征的最值，或者二者的平均值，计算每个区域属于目标对象的概率值。

S104，根据每个区域对应的第一超像素块以及每个区域属于目标对象的概率值，获取第一待标注图像中每个第一超像素块属于目标对象的概率值。

由于每个区域包含有多个第一超像素块，在获得每个区域属于目标对象的概率值后，每个区域所对应的多个第一超像素块属于目标对象的概率值与该区域属于目标对象的概率值相同。

S105，根据每个第一超像素块属于目标对象的概率值以及第一语义标签，对第一超像素块进行语义标注，得到第一待标注图像的第一语义标注结果，第一语义标签为第一待标注图像中的图像级语义标签。

在获得每个第一超像素块属于目标对象的概率值后，根据第一待标注图像中的第一语义标签对第一超像素块进行语义标注。语义标注方式具体可以为：将概率值按照从大到小的排序，将排名为前预设个数值的第一超像素块标注为第一语义标签中的语义；也可以是将概率值大于预设值的第一超像素块标注为第一语义标签中的语义。本实施例对语义标注方式不做具体限制。

本实施例中通过对第一待标注图像进行似物性采样处理，得到多个区域以及每个区域的似物性采样特征；对第一待标注图像进行超像素分割，得到与多个区域对应的多个第一超像素块；根据第一待标注图像的强弱字典和每个区域的似物性采样特征，获取各区域为目标对象的概率值；根据每个区域对应的第一超像素块及每个区域属于目标对象的概率值，获取第一待标注图像中每个第一超像素块属于目标对象的概率值；根据每个第一超像素块属于目标对象的概率值以及第一语义标签，对第一超像素块进行语义标注。本发明实现了图像的像素级自动化语义标注，提高了图像语义标注的效率。本实施例获取像素级特征集和图像级特征集，针对性的对属于目标对象概率较大的区域进行概率值的计算，且通过区域与超像素块之间的对应关系，实现了第一待标注图像的像素级自动化语义标注，提高了图像语义标注的效率。

在上述实施例的基础上，本发明提供的图像语义标注的方法还包括：获取第一待标注图像的强弱字典。

下面结合图2-3对本发明提供的获取第一待标注图像的强字典的方法进行详细说明，图2为本发明提供的获取第一待标注图像的强字典的方法的流程示意图，图3为本发明提供的获取第一语义标注结果的示例流程图；如图2所示，本发明提供的获取第一待标注图像的强字典的方法可以包括：

S201，根据待标注图像集中的各待标注图像的第一语义标签和已标注图像集中的各已标注图像的第二语义标签，获取待标注图像集和已标注图像集之间的第一语义相似性，已标注图像集为像素级标注的图像集。

本实施例中，第一待标注图像为待标注图像集中的一张图像，待标注图像集中的各待标注图像具有相同的语义标签。

本实施例中提取的语义标签可以是中文或英文词语或其他能够表示图像中目标对象的符号、数字或代码等；对于第一语义标签与第二语义标签之间的第一语义相似性的获取，可以是两个语义标签之间的中文或英文的词向量间的相似性，或符号之间的相似性，或数字之间的差值等；本实施例对于如何获取第一语义标签和第二语义标签之间的第一语义相似性不做限制。

本实施例中以第一语义标签和第二语义标签之间的第一语义相似性为一个相似性矩阵作详细解释。

待标注图像集为图像级语义标注的图像集如Image Net，已标注图像集为像素级语义标注的图像集如MS COCO。

Image Net图像集中的第一语义标签与MS COCO图像集中的第二语义标签之间的第一语义相似性可由如下公式一所示：

其中，W_i表示Image Net图像集对应的第一语义标签集，W_j表示MS COCO图像集对应的第二语义标签集，S_l(W_i，W_j)表示Image Net图像集与MS COCO图像集之间的第一语义相似性，ω₁表示W_i中的任意一个第一语义标签，ω₂表示W_j中的任意一个第二语义标签，u₁表示在图像ω₁经word2vec模型在海量谷歌新闻数据集中训练得到的第一语义标签的词特征向量，u₂表示在图像ω₂经word2vec模型在海量谷歌新闻数据集中训练得到的第二语义标签的词特征向量。

S202，根据各待标注图像的第一图像级深度特征和各已标注图像中的第二图像级深度特征，获取待标注图像集和已标注图像集之间的第一视觉相似性。

本实施例中提取的图像级深度特征可以是一个具体的数值，也可以是一个矩阵；对于第一图像级深度特征与第二图像级深度特征之间的第一视觉相似性获取，可以是计算第一图像级深度特征与第二图像级深度特征之间的差值，也可以是第一图像级深度特征与第二图像级深度特征之间的矩阵具有相同元素的个数比例，本实施例对于获取第一图像级深度特征与第二图像级深度特征之间的视觉相似性的方式不做限制。

本实施例中以第二图像级深度特征与第一图像级深度特征之间的第一视觉相似性为一个相似性矩阵作详细解释。

由于图像集中一张图像中有多个对象类别，首先按照对象类别进行图像的划分，再按照图像的类别进行第二图像级深度特征的提取。本实施例中对于第一图像级深度特征与第二图像级深度特征的提取均采用DPN107模型提取图像中“flatten_output”层的2688维图像特征。则Image Net图像集中的第一图像级深度特征与MS COCO图像集中的第二图像级深度特征之间的第一视觉相似性可由如下公式二所示：

其中，Ⅱ_i表示Image Net图像集，Ⅱ_j表示MS COCO图像集，S_v(Ⅱ_i，Ⅱ_j)表示ImageNet图像集与MS COCO图像集之间的第一视觉相似性，τ₁表示Ⅱ_i中的任意一张图像，τ₂表示Ⅱ_j中的任意一张图像，v₁表示在图像τ₁中提取的第一图像级深度特征的特征向量，v₂表示在图像τ₂中提取的第二图像级深度特征的特征向量。

S203，根据待标注图像集与已标注图像集之间的第一语义相似性和第一视觉相似性，获取待标注图像集与已标注图像集之间的第一整体相似性。

为了进一步提高获取像素级特征集和待标注图像集之间的相似性，根据第一语义相似性和第一视觉相似性，将第一语义相似性和第一视觉相似性进行调和平均计算获取每个已标注图像的第一整体相似性，本领域技术人员可以想到的是可以将每个已标注的图像对应的第一语义相似性和第一视觉相似性中的最大值或最小值作为整体相似性，本实施例对与整体相似性的获取方式不做限制。

在上述实施例的基础上，第一整体相似性的计算方式可如下公式三所示：

其中，S(Ⅱ_i，Ⅱ_j)表示Image Net图像集与MS COCO图像集之间的第一整体相似性。

S204，针对已标注图像集中的多个已标注图像，在多个第一整体相似性中，选择大于预设相似性的第一整体相似性所对应的多个第一已标注图像。

本实施例中，可以预先设置整体相似性阈值，在获取第一整体相似性后，根据大于该阈值的整体相似性对应的多个第一已标注图像。

S205，根据多个第一已标注图像所对应的多个第一像素级特征，获取像素级特征集。

其中，像素级特征集的概念及具体获取方式可与上述实施例中的像素级特征集相同，在此不做限制。

S206，根据像素级特征集，获取第一待标注图像的强字典。

像素级特征集即为本实施例中获取的第一待标注图像的强字典，具体的，该强字典也可用于待标注图像集中除第一待标注图像之外的其他待标注图像的像素级语义标注。

如图3所示，待标注图像集可以是Image Net图像集中第一语义标签是“猫”的图像集，根据该第一语义标签与MS COCO图像集中多个第二语义标签，采用上述S201中的方法获取Image Net图像集和MS COCO图像集的第一语义相似性。根据该“猫”的第一图像级深度特征与MS COCO图像集中多个第二图像级深度特征，采用上述S202中的方法获取Image Net图像集和MS COCO图像集的第一视觉相似性。采用上述S203中的方法获取语义相似性和视觉相似性的第一整体相似性。选择大于预设相似性的第一整体相似性所对应的多个第一已标注图像。

提取多个第一已标注图像中的像素集特征，获取像素级特征集，该像素级特征集为仅有目标对象的像素级特征，该像素级的语义特征集的语义标签可能包含有“波斯猫”、“美国短尾猫”、“西伯利亚猫”等。

下面结合图3-4对本发明提供的获取第一待标注图像的弱字典的方法进行详细说明，图4为本发明提供的获取第一待标注图像的弱字典的方法的流程示意图；如图2所示，本发明提供的获取第一待标注图像的弱字典的方法可以包括：

S301，根据第一待标注图像中的第一语义标签和待标注图像集中各第二待标注图像中的第三语义标签，获取第一待标注图像和各第二待标注图像之间的第二语义相似性；第二待标注图像为待标注图像集中除第一待标注图像之外的待标注图像。

其中，各第二待标注图像为待标注图像集中除第一待标注图像之外的待标注图像，各第二待标注图像与第一待标注图像的语义标签相同。

第三语义标签的概念、第二语义相似性的获取方式与上述实施例中相同，具体可参照上述实施例中的描述，具体的，本实施例中各第二待标注图像与第一待标注图像均属于一个待标注图像集，其中，第三语义标签与第一语义标签相同，由此计算得出的第二语义相似性为1。

S302，根据第一待标注图像中的第一图像级深度特征和各第二待标注图像中的第三图像级深度特征，获取第一待标注图像和各第二待标注图像之间的第二视觉相似性。

第二视觉相似性的获取方式与上述实施例中相同，具体可参照上述实施例中的描述。

S303，根据第一待标注图像与第二待标注图像之间的第二语义相似性和第二视觉相似性，获取第一待标注图像和第二待标注图像之间的第二整体相似性。

其中，第二整体相似性的获取方式与上述实施例中相同，具体可参照上述实施例中的描述。具体的，该第二整体相似性的获取为待标注图像集与其自身的整体相似性的表征。

S304，针对多个第二待标注图像，在多个第二整体相似性中，选择大于预设相似性的第二整体相似性所对应的多个第三待标注图像。

本实施例中，可以预先设置整体相似性阈值，该整体相似性阈值可与上述实施例中的整体相似性阈值相同，在获取每个第二待标注图像的整体相似性后，根据大于该阈值的整体相似性对应的多个第三待标注图像。

S305，根据多个第三待标注图像所对应的多个图像级特征，获取图像级特征集。

其中，图像级特征集的概念及具体获取方式可与上述实施例中的图像级特征集相同，在此不做限制。

S306，根据图像级特征集，获取第一待标注图像的弱字典。

图像级特征集即为本实施例中获取的第一待标注图像的弱字典，具体的，该弱字典也可用于待标注图像集中除第一待标注图像之外的其他待标注图像的像素级语义标注。

如图3所示，该图像级特征集中的图像级特征可以为包含目标对象和背景的整张图像的图像级特征，该图像级特征集可能包含有“猫和树”、“猫和桌子”等。

本实施例中对于获取强、弱字典的先后顺序不做限制，二者可以同时进行。

下面结合图3、5对获取各区域为目标对象的概率值的具体方式做详细说明，图5为本发明提供的获取各区域为目标对象的概率值的流程示意图，如图5所示，获取各区域为目标对象的概率值的方式可以包括：

S1031，根据像素级特征集和每个区域的似物性采样特征，获取每个区域的多个第一似物性相似度。

针对一个区域，获取像素级特征集中每一个像素级特征与该区域似物性采样特征的第一似物性相似度，获取该区域的多个第一似物性相似度，其中，在上述实施例的基础上，可由如下公式四计算第一似物性相似度：

其中，

表示第一似物性相似度，t表示任意一个区域，α表示第一似物性相似度向量，X_t表示任意一个区域的似物性采样特征，

表示像素级特征集中任意一个像素级特征，ε表示预先设置的欧氏距离阈值。

表示，当任意一个区域的似物性采样特征X_t与任意一个像素级特征

之间的欧氏距离小于预设欧氏距离阈值时，求取第一似物性相似度向量α。第一似物性相似度即为第一似物性相似度向量α中元素不为0的个数，本实施例中第一似物性相似度为一个数值。

由于像素级特征集有多个像素级特征，因此，每个区域包含有多个第一似物性相似度。

S1032，根据图像级特征集和每个区域的似物性采样特征，获取每个区域的多个第二似物性相似度。

针对一个区域，获取图像级特征集中每一个图像集特征与该区域似物性采样特征的第二似物性相似度，获取该区域的多个第二似物性相似度，可由如下公式五计算第二似物性相似度：

其中，

表示第二似物性相似度，α1表示第二似物性相似度向量，

表示图像级特征集中任意一个图像集特征。

表示，当任意一个区域的似物性采样特征X_t与任意一个图像集特征

间的欧氏距离小于预设欧氏距离阈值时，求取第二似物性相似度向量α1。第二似物性相似度即为第二似物性相似度向量α1中元素不为0的个数，本实施例中第二似物性相似度为一个数值。本实施例中每个区域也可获取多个第二似物性相似度。

S1033，在每个区域对应的多个第一似物性采样相似度和多个第二似物性采样相似度中选择最小值，作为每个区域的第三似物性相似度。

针对每个区域，在多个第一似物性采样相似度和多个第二似物性采样相似度中选择最小值，其中，最小值第三似物性相似度为似物性相似度向量中不为0的个数，该个数越少，即似物性相似度的值越小，表示该区域的似物性采样特征与像素级的深度特征或像素级的语义特征之间的差别越小，越相似。

S1034，根据多个第三似物性相似度，获取各区域属于目标对象的概率值。

在获取每个区域对应的第三似物性相似度后，由于每个第一待标注图像由多个区域构成，则每个第一待标注图像包含有多个第三似物性相似度。

在获取每个区域属于目标对象的概率值时，选出第三似物性相似度中的最大值和最小值，根据该区域对应的第三似物性相似度，按照如下公式六求取该区域属于目标对象的概率值：

其中，θ表示第一待标注图像中的目标对象，c表示第一待标注图像中的任意一个区域，P(c∈θ)表示任意一个区域属于目标对象的概率值，max(L(c))表示多个第三似物性相似度中的最大值，多个第三似物性相似度中的最小值，L(c)表示任意一个区域对应的第三似物性相似度。

在获取第一待标注图像中的所有区域的第三似物性相似度后，该第三似物性表示该第一待标注图像中的似物性采样特征与像素级特征或图像集特征之间的差别，差别小的可以作为第一待标注图像的目标对象，如图4中的白色区域，差别大的作为第一待标注图像的背景，如图4中的黑色区域。

如图3所示，采用上述方法获取每个区域属于目标对象的概率值后，可以根据区域与第一超像素块之间的位置对应关系，对第一超像素块进行语义标注，如图3中将将概率值大于第一阈值的第一超像素块标注为“猫”的语义标签。

本实施例中，针对图像级深度特征和语义标签，获取第一待标注图像与已标注图像之间的语义相似性和视觉相似性，根据语义相似性和视觉相似性获取第一待标注图像和已标注图像之间的整体相似性，由整体相似性获取的第一待标注图像的强弱字典，与第一待标注图像具有更高的匹配度和相似性；获取每个区域多个第一似物性相似度和多个第二似物性相似度，并选择其中的最小值为该区域的第三似物性相似度，其中，第三似物性相似度为似物性相似度向量中不为0的个数，该个数越少，表示该区域的似物性采样特征与像素级的深度特征或像素级的语义特征之间的差别越小，越相似，进一步提高了该区域与强弱字典中特征的相似度，由此提高了获取的该区域属于目标对象的概率值，提高了像素级语义标注的准确性。

下面结合图6-7对本发明提供的图像语义标注的方法进一步说明，图6为本发明提供的图像语义标注的方法的流程示意图二，图7为本发明提供的获取第二语义标注结果的示例流程图；如图6所示，在上述实施例的基础上，本发明提供的图像语义标注的方法可以包括：

S401，对第一待标注图像进行似物性采样处理，得到多个区域以及每个区域的似物性采样特征。

S402，对第一待标注图像进行超像素分割，得到与多个区域对应的多个第一超像素块。

S403，根据第一待标注图像的强弱字典和每个区域的似物性采样特征，获取各区域为目标对象的概率值；强弱字典中包含有用于指示第一待标注图像的像素级特征集和图像级特征集。

S404，根据每个区域对应的第一超像素块以及每个区域属于目标对象的概率值，获取第一待标注图像中每个第一超像素块属于目标对象的概率值。

S405，根据每个第一超像素块属于目标对象的概率值以及第一语义标签，对第一超像素块进行语义标注，得到第一待标注图像的第一语义标注结果，第一语义标签为第一待标注图像中的图像级语义标签。

其中，本实施例中可预先设置第一阈值，将概率值大于第一阈值的第一超像素块标注为第一语义标签中的语义。

S401-S405具体实现过程可参照上述实施例中S101-S105的相关描述，此处不再赘述。

S406，获取用户输入的修正指令，修正指令用于指示将第一待标注图像中原属于前景部分，被标注为背景部分的第二超像素块进行反转处理，第二超像素块为第一超像素块的子集。

第一语义标注结果将概率值大于第一阈值的第一像素块标注为第一语义标签中的语义，但对于第一待标注图像目标对象与背景交界处，往往存在标注错误，其中，该标注错误的第二像素块为等于第一像素块的子集，如图7中猫尾处的第二超像素块。

由于语义标注时，是对粗粒度的第一像素块进行的语义标注，该粗粒度的第一像素块可能既包含有目标对象部分，又包含有背景部分，也存在标注错误，其中，该标注错误的第二像素块为第一像素块的真子集，如图7中猫背处的第二超像素块。

获取用户输入的修正指令，修正指令用于指示将第二超像素块进行反转处理。

S407，根据修正指令，将第一待标注图像中原属于前景部分，被标注为背景部分的第二超像素块进行反转标注，得到第一待标注图像的第二语义标注结果。

获取用户的修正指令，对于标注错误的第二像素块为等于第一像素块的子集的情况，直接对第二像素块进行反转标注，将该第二像素块标注为第一语义标签中的语义，如将猫尾处的第二超像素块进行反转标注为“猫”。

对于标注错误的第二像素块为第一像素块的真子集的情况，先将该第二像素块分裂成多个细粒度的超像素块，对多个细粒度的超像素块中原属于前景部分，被标注为背景部分的细粒度像素块进行反转标注，得到第一待标注图像的第二语义标注结果，如将猫背处的第二超像素块分裂成多个细粒度的超像素块，将原属于前景部分，被标注为背景部分的细粒度像素块反转标注为“猫”。

S408，根据第二超像素块构建反转字典。

根据修正指令，在对标注错误的粗粒度的第二超像素块进行反转标注时，把进行反转的第二超像素块提取出来，构建反转字典。

可选的，也可以将分裂处理成为粗粒度的第二超像素块提取出来，构建分裂字典。

S409，在反转字典中的第二超像素块的个数达到第二阈值时，对第二待标注图像中的第三超像素块进行反转处理；第三超像素块的第三像素级特征与第二超像素块的第二像素级特征的像素级相似度大于预设像素级相似度。

其中，反转字典中的第二超像素块的个数达到第二阈值，该第二阈值可以为第一待标注图像中图像级深度特征维度的7-8倍。其中，反转字典构建时，对目标对象做反转处理以降低维度，本实施例中维度由2688维降低至100维。

第二待标注图像为图像级语义标注的图像，在对第二待标注图像中的目标对象采用上述实施例中的方法获得第一语义标注结果后，在反转字典中的第二超像素块的个数达到第二阈值时，可用于对第二待标注图像中的第三超像素块进行反转处理，其中，第三超像素块的第三像素级特征与第二超像素块的第二像素级特征的像素级相似度大于预设像素级相似度。具体的，第三像素级特征与第四像素级特征的像素级相似度的获取方式可与上述实施例中第一似物性相似度或第二似物性相似度的获取方式相似，具体可如下公式七所示：

其中，

表示像素级相似度，t表示任意一个第三超像素块，α2表示像素级相似度向量，X_t1表示任意一个第三超像素块的像素级特征，

表示反转字典中任意一个第二超像素块的像素级特征，ε表示预先设置的欧氏距离阈值。

表示，当任意一个第三超像素块的像素级特征X_t1与任意一个第二超像素块的像素级特征

间的欧氏距离小于预设欧氏距离阈值时，求取像素级相似度向量α2。像素级相似度即为像素级相似度向量α2中元素不为0的个数，本实施例中像素级相似度为一个数值。当任意一个第三超像素块的像素级相似度大于预设像素级相似度时，将该第三超像素块进行反转处理，得到第一待标注图像的第三标注结果。

本实施例中对第一待标注图像的第一标注结果中标注错误的第二超像素块进行反转处理，进一步提高了像素级语义标注的正确率；且利用标注错误的第二超像素构建反转字典，利用反转字典对待标注图像集中除第一待标注图像中之外的第二待标注图像进行反转处理，进一步提高了像素级语义标注效率。

图8为本发明提供的图像语义标注的装置的结构示意图一，如图8所示，该图像语义标注的装置500包括：似物性采样模块501、超像素分割模块502、第一获取模块503、第二获取模块504、第一语义标注模块505。

似物性采样模块501，用于对第一待标注图像进行似物性采样处理，得到多个区域以及每个区域的似物性采样特征。

超像素分割模块502，用于对第一待标注图像进行超像素分割，得到与多个区域对应的多个第一超像素块；

第一获取模块503，用于根据第一待标注图像的强弱字典和每个区域的似物性采样特征，获取各区域为目标对象的概率值；强弱字典中包含有用于指示第一待标注图像的像素级特征集和图像级特征集；

第二获取模块504，用于根据每个区域对应的第一超像素块以及每个区域属于目标对象的概率值，获取第一待标注图像中每个第一超像素块属于目标对象的概率值；

第一语义标注模块505，用于根据每个第一超像素块属于目标对象的概率值以及第一语义标签，对第一超像素块进行语义标注，得到第一待标注图像的第一语义标注结果，第一语义标签为第一待标注图像中的图像级语义标签。

本实施例提供的图像语义标注的装置与上述图像语义标注的方法实现的原理和技术效果类似，在此不作赘述。

图9为本发明提供的图像语义标注的装置的结构示意图二，如图9所示，可选的，该图像语义标注的装置500还包括：第三获取模块506、第四获取模块507、第五获取模块508、第六获取模块509。

第三获取模块506，用于根据所述待标注图像集中的各待标注图像的所述第一语义标签和已标注图像集中的各已标注图像的第二语义标签，获取所述待标注图像集和所述已标注图像集之间的第一语义相似性，所述已标注图像集为像素级标注的图像集。

第四获取模块507，用于根据所述各待标注图像的第一图像级深度特征和各所述已标注图像中的第二图像级深度特征，获取所述待标注图像集和所述已标注图像集之间的第一视觉相似性。

第五获取模块508，根据所述待标注图像集与所述已标注图像集之间的第一语义相似性和第一视觉相似性，获取所述待标注图像集与所述已标注图像集之间的第一整体相似性。

第六获取模块509，用于针对所述已标注图像集中的多个所述已标注图像，在多个所述第一整体相似性中，选择大于预设相似性的第一整体相似性所对应的多个第一已标注图像；根据多个所述第一已标注图像所对应的多个第一像素级特征，获取所述像素级特征集；根据所述像素级特征集，获取所述第一待标注图像的强字典。

可选的，第一待标注图像为待标注图像集中的一张图像，待标注图像集中的各待标注图像具有相同的语义标签。

可选的，第三获取模块506，还用于根据第一待标注图像中的第一语义标签和待标注图像集中各第二待标注图像中的第三语义标签，获取第一待标注图像和各第二待标注图像之间的第二语义相似性；第二待标注图像为待标注图像集中除第一待标注图像之外的待标注图像。

可选的，第四获取模块507，还用于根据第一待标注图像中的第一图像级深度特征和各第二待标注图像中的第三图像级深度特征，获取第一待标注图像和各第二待标注图像之间的第二视觉相似性。

可选的，第五获取模块508，还用于根据第一待标注图像与第二待标注图像之间的第二语义相似性和第二视觉相似性，获取第一待标注图像和第二待标注图像之间的第二整体相似性。

可选的，第六获取模块509，还用于针对多个第二待标注图像，在多个第二整体相似性中，选择大于预设相似性的第二整体相似性所对应的多个第三待标注图像；根据多个第三待标注图像所对应的多个图像级特征，获取图像级特征集；根据图像级特征集，获取第一待标注图像的弱字典。

可选的，第一获取模块503，还用于根据像素级特征集和每个区域的似物性采样特征，获取每个区域的多个第一似物性相似度；根据图像级特征集和每个区域的似物性采样特征，获取每个区域的多个第二似物性相似度；在每个区域对应的多个第一似物性采样相似度和多个第二似物性采样相似度中选择最小值，作为每个区域的第三似物性相似度；根据多个第三似物性相似度，获取各区域属于目标对象的概率值。

可选的，第一语义标注模块505，还用于将概率值大于第一阈值的第一超像素块标注为第一语义标签中的语义。

图10为本发明提供的图像语义标注的装置的结构示意图三，如图10所示，可选的，该图像语义标注的装置500还包括：第一反转模块510、第二语义标注模块511、反转字典构建模块512和第二反转模块513。

第一反转模块510，获取用户输入的修正指令，修正指令用于指示将第一待标注图像中原属于前景部分，被标注为背景部分的第二超像素块进行反转处理，第二超像素块为第一超像素块的子集。

第二语义标注模块511，根据修正指令，将第一待标注图像中原属于前景部分，被标注为背景部分的第二超像素块进行反转标注，得到第一待标注图像的第二语义标注结果。

反转字典构建模块512，用于根据第二超像素块构建反转字典。

第二反转模块513，用于在反转字典中的第二超像素块的个数达到第二阈值时，对第二待标注图像中的第三超像素块进行反转处理；第三超像素块的第三像素级特征与第二超像素块的第二像素级特征的像素级相似度大于预设像素级相似度。

图11为本发明提供的图像语义标注的装置的结构示意图四，该图像语义标注的装置例如可以是终端设备，比如智能手机、平板电脑、计算机等。如图11所示，该图像语义标注的装置600包括：存储器601和至少一个处理器602。

存储器601，用于存储程序指令。

处理器602，用于在程序指令被执行时实现本实施例中的图像语义标注的方法，具体实现原理可参见上述实施例，本实施例此处不再赘述。

该图像语义标注的装置还可以包括及输入/输出接口603。

输入/输出接口603可以包括独立的输出接口和输入接口，也可以为集成输入和输出的集成接口。其中，输出接口用于输出数据，输入接口用于获取输入的数据，上述输出的数据为上述方法实施例中输出的统称，输入的数据为上述方法实施例中输入的统称。

本发明还提供一种可读存储介质，可读存储介质中存储有执行指令，当图像语义标注的装置的至少一个处理器执行该执行指令时，当计算机执行指令被处理器执行时，实现上述实施例中的图像语义标注的方法。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。图像语义标注的装置的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得图像语义标注的装置实施上述的各种实施方式提供的图像语义标注的方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述网络设备或者终端设备的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：ApplicationSpecific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种图像语义标注的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一待标注图像为待标注图像集中的一张图像，所述待标注图像集中的各待标注图像具有相同的语义标签，在所述根据所述第一待标注图像的强弱字典和每个所述区域的似物性采样特征，获取各所述区域为目标对象的概率值之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述第一待标注图像为待标注图像集中的一张图像，所述待标注图像集中的各待标注图像具有相同的语义标签；在所述根据所述第一待标注图像的强弱字典和每个所述区域的似物性采样特征，获取各所述区域为目标对象的概率值之前，所述方法还包括：

4.根据权利要求2或3所述的方法，其特征在于，根据所述第一待标注图像的强弱字典和每个所述区域的似物性采样特征，获取各所述区域为目标对象的概率值，包括：

5.根据权利要求4所述的方法，其特征在于，根据每个所述第一超像素块属于目标对象的概率值以及第一语义标签，对所述第一超像素块进行语义标注，包括：

6.根据权利要求1所述的方法，其特征在于，在所述得到所述第一待标注图像的第一语义标注结果之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述第一待标注图像为待标注图像集中的一张图像，第二待标注图像为所述待标注图像集中除所述第一待标注图像之外的待标注图像；所述获取用户输入的修正指令之后，所述方法还包括：

根据所述第二超像素块构建反转字典；

所述第三超像素块的第三像素级特征与所述第二超像素块的第二像素级特征的像素级相似度大于预设像素级相似度。

8.一种图像语义标注的装置，其特征在于，包括：

9.一种图像语义标注的装置，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述图像语义标注的装置执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现权利要求1-7任一项所述的方法。