CN112802034A

CN112802034A - 图像分割、识别方法、模型构建方法、装置及电子设备

Info

Publication number: CN112802034A
Application number: CN202110157914.9A
Authority: CN
Inventors: 朱晓宁; 员娇娇
Original assignee: Jingying Digital Technology Co Ltd
Current assignee: Jingying Digital Technology Co Ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-05-14
Anticipated expiration: 2041-02-04
Also published as: CN112802034B

Abstract

本申请提供的图像分割、识别方法、模型构建方法、装置及电子设备中，图像处理设备将各编码器输出的编码信息进行融合，以提高模型的特征表达能力，并且将各解码器输出的语义分割结果做进一步的融合，使得待分给图像最后的语义分割结果，不仅兼顾了各编码所提取的特征，而且兼顾了各解码器的分割结果，继而增强了整个语义分割模型的鲁棒性。

Description

图像分割、识别方法、模型构建方法、装置及电子设备

技术领域

本申请涉及图像处理领域，具体而言，涉及一种图像分割、识别方法、模型构建方法、装置及电子设备。

背景技术

语义分割模型，用于输入一张图像经编码器以及解码器处理后，输出一张表征语义分割结果的语义分割图像。该语义分割图像与输入的图像具有相同的尺寸，并且，语义分割图像携带有每个像素的分类结果。

因此，能够实现对输入图像中的每个像素值进行预测的同时，保留其在原图像中的空间位置信息。然而，目前的语义分割模型在一些场景的使用中，存在分割精度较为欠佳的问题。

发明内容

为了克服现有技术中的至少一个不足，第一方面，本申请实施例提供一种图像分割方法，应用于图像处理设备，所述图像处理设备配置有预训练的语义分割模型，其中，所述语义分割模型包括多个编码器以及多个解码器，所述方法包括：

获取待分割图像；

通过所述多个编码器分别对所述待分割图像进行编码，获得多组编码信息；

融合所述多组编码信息，获得融合信息；

通过所述解码器分别对所述融合信息进行解码，获得多组语义分割结果；

融合所述多组语义分割结果，获得所述待分割图像的语义分割结果。

第二方面，本申请实施例提供一种图像识别方法，应用于图像处理设备，所述方法包括：

获取待识别图像；

将所述待识别图像转换成不同尺度的待分割图像；

通过所述图像分割方法，获得各所述待分割图像的语义分割结果；

根据全部待分割图像的语义分割结果，获得所述待识别图像的语义分割结果；

根据所述待识别图像的语义分割结果，确定出所述待识别图像中的目标对象。

第三方面，本申请实施例提供一种模型构建方法，应用于模型训练设备，所述模型训练设备配置有待训练的语义分割模型，所述方法包括：

获取训练样本，其中，所述训练样本包括样本图像以及所述样本图像的参考分割结果；

通过所述训练样本对所述语义分割模型进行如下迭代，直到所述语义分割模型满足预设收敛条件：

通过所述语义分割模型获得所述样本图像的第一分割结果；

确定出目标对象在所述第一分割结果中的目标区域；

将预设文本向量与所述目标区域对应的特征向量进行融合，获得第二分割结果；

根据所述第二分割结果与所述参考分割结果，更新所述语义分割模型的参数。

第四方面，本申请实施例提供一种图像分割装置，应用于图像处理设备，所述图像处理设备配置有预训练的语义分割模型，其中，所述语义分割模型包括多个编码器以及多个解码器，所述图像分割装置包括：

第一获取模块，用于获取待分割图像；

编码信息模块，用于通过所述多个编码器分别对所述待分割图像进行编码，获得多组编码信息；

编码融合模块，用于融合所述多组编码信息，获得融合信息；

解码信息模块，用于通过所述解码器分别对所述融合信息进行解码，获得多组语义分割结果；

第一融合模块，融合所述多组语义分割结果，获得所述待分割图像的语义分割结果。

第五方面，本申请实施例提供一种图像识别装置，应用于图像处理设备，所述图像识别装置包括：

第二获取模块，用于获取待识别图像；

尺度转换模块，用于将所述待识别图像转换成不同尺度的待分割图像；

通过所述的图像分割装置，获得各所述待分割图像的语义分割结果；

第二融合模块，用于根据全部待分割图像的语义分割结果，获得所述待识别图像的语义分割结果；

对象识别模块，用于根据所述待识别图像的语义分割结果，确定出所述待识别图像中的目标对象。

第六方面，本申请实施例提供一种模型构建装置，应用于模型训练设备，所述模型训练设备配置有待训练的语义分割模型，所述模型构建装置包括：

样本获取模块，用于获取训练样本；

模型训练模块，用于通过所述训练样本对所述语义分割模型进行如下迭代，直到所述语义分割模型满足预设收敛条件：

通过所述语义分割模型获得所述训练样本的第一分割结果；

确定出目标对象在所述第一分割结果中的目标区域；

根据所述第二分割结果与所述训练样本对应的参考分割结果，更新所述语义分割模型的参数。

第七方面，本申请实施例提供一种电子设备，所述电子设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述的图像分割方法、图像识别方法或模型构建方法。

第八方面，本申请实施例提供一种存储介质，其特征字在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现所述的图像分割方法、图像识别方法或模型构建方法。

相对于现有技术而言，本申请具有以下有益效果：

本申请实施例提供的图像分割、识别方法、模型构建方法、装置及电子设备中，图像处理设备将各编码器输出的编码信息进行融合，以提高模型的特征表达能力，并且将各解码器输出的语义分割结果做进一步的融合，使得待分给图像最后的语义分割结果，不仅兼顾了各编码所提取的特征，而且兼顾了各解码器的分割结果，继而增强了整个语义分割模型的鲁棒性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的图像分割方法的步骤示意图；

图2为本申请实施例提供的分割方法的模型架构示意图；

图3为本申请实施例提供的图像识别方法的步骤示意图；

图4为本申请实施例提供的识别方法的模型架构示意图；

图5为本申请实施例提供的模型构建方法的步骤示意图；

图6为本申请实施例提供的注意力机制的原理示意图；

图7为本申请实施例提供的图像分割装置的结构示意图；

图8为本申请实施例提供的图像识别装置的结构示意图；

图9为本申请实施例提供的模型构建装置的结构示意图；

图10为本申请实施例提供的电子设备结构示意图。

图标：120-存储器；130-处理器；1101-第一获取模块；1102-编码信息模块；1103-编码融合模块；1104-解码信息模块；1105-第一融合模块；2101-第二获取模块；2102-尺度转换模块；2103-第二融合模块；2104-对象识别模块；3101-样本获取模块；3102-模型训练模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

语义分割模型能够实现对输入图像中的每个像素值进行预测的同时，保留其在原图像中的空间位置信息。然而，目前的语义分割模型在一些场景的使用中，存在分割精度较为欠佳的问题。

示例性的，为了提高煤矿生产过程中的自动化水平，通常采用计算机视觉方式对探杆进行自动检测，以统计探杆的探取煤矿的次数。

相关技术中，使用目标检测模型对探杆进行检测，截取图像中的矩形区域，检测该区域中是否有探杆。但是由于在实际使用场景中，探杆存在多种使用角度，并且探杆的颜色与煤矿的颜色较为接近，导致算法不能有效的将探杆从背景中很好的提取出来。

在其他相关技术中，可以使用语义分割模型从像素角度对探杆进行识别，继而克服探杆存在多种使用角度，对识别精度的影响。

然而，经过发明人研究发现，单个语义识别模型的精度容易受到使用环境的影响，在一些复杂场景中，识别精度较为欠佳。并且，在结合多个语义识别模型的语义分割结果方案中，多模型分割精度的鲁棒性较为欠佳。

鉴于此，本申请实施例提供一种图像分割方法，应用于图像处理设备，图像处理设备配置有预训练的语义分割模型，其中，语义分割模型包括多个编码器以及多个解码器。

下面结合图1所示的该图像分割方法一种可能的步骤示意图，进行详细阐述。如图1所示，该图像分割方法包括：

步骤S101A，获取待分割图像。

步骤S102A，通过多个编码器分别对待分割图像进行编码，获得多组编码信息。

其中，该编码器为语义分割模型中的特征提取模块，可以包括多个卷积层及与卷积层相对应的池化层。该图像处理设备可以通过编码器中的多个卷积层及与卷积层相对应的池化层提取出待分割图像中的特征信息。

步骤S103A，融合多组编码信息，获得融合信息。

值得说明的是，不同的编码器之间，由于编码器设计原理以及结构的不通过，导致各编码所提取图像特征存在一定的差异。

即使是同一编码器，针对不同的待分割图像，提取特征的能力存在一定的差异。因此，将各编码器输出的编码信息(即图像特征)进行融合，使得获取的融合信息中兼顾了各编码器的特征提取特点，以达到增强了整个语义分割模型的鲁棒性的目的。

在一种实施方式中，该图像处理设备可以将多组编码信息进行相加处，并求取求和结果的平均值，以达到融合多组编码信息的目的。

在另一种实施方式中，该图像处理设备针对每组编码信息，预先配置有对应的权值，计算多组编码信息的加权求和结果，以达到融合多组编码信息的目的。

示例性的，上述多个编码器可以是，但不限于VGG16、Resnet18、MobileNet等网络模型；多个解码器可以是，但不限于，SkipNet、UNet等网络模型。其中，编码器的数量以及解码器的数量可以根据需求进行适应适应性调整，并且，编码器的数量与解码器的数量可以相同，也可以不同。

步骤S104A，通过解码器分别对融合信息进行解码，获得多组语义分割结果。

步骤S105A，融合多组语义分割结果，获得待分割图像的语义分割结果。

应理解的是，由于该语义分割模型包括多个编码器，每个编码器均会输出语义分割结果(即语义分割图像)。该语义分割结果携带有每个像素的分类结果，其中，该分类结果为对应各预设对象的概率。

作为一种可能的实现方式，针对每组语义分割结果中的同一像素，在进行融合时，该图像处理设备可以选取概率最大的预设对象，作为该像素的最终分类结果。

示例性的，假定上述预设对象包括“人”、“探杆”、“背景”，并且有3组语义分割结果。同一个像素在第一组语义分割结果中的分类结果为：

“人(0.7)”、“探杆(0.23)”、“背景(0.07)”

其中，“人(0.7)”表示属于“人”的概率为0.7。同理，在第二组语义分割结果中的分类结果为：

“人(0.73)”、“探杆(0.15)”、“背景(0.22)”

在第三组语义分割结果中的分类结果为：

“人(0.34)”、“探杆(0.5)”、“背景(0.26)”

由于在所有分类结果中，“人(0.73)”最高，则将该像素归类到“人”。

作为另外一种可能的实现方式，针对每组语义分割结果中的同一像素，在进行融合时，该图像处理设备可以获取每组语义分割结果中概率最大的类别出现的频次，将出现频次最多的类别作为该像素的最终分类结果。

示例性的，同样以上述三组语义分割结果为例，在第一组语义分割结果中，属于“人”的概率最大；在第二组语义分割结果中，属于“人”概率最大；在第三组语义分割结果中，属于“探杆”的概率最大。因此，属于“人”出现了2次，频次最大，则将该像素归类到“人”。

当然，本领域技术人员还可以通过其他方式，将多组语义分割结果进行融合，本申请实施例不对其做具体的限定。

本申请实施例中，还提供一种上述语义分割模型的示例性结构。如图2所示，该语义分割模型的编码器分别为VGG16、Resnet18；解码器分别为UNet、SkipNet。图像处理设备将图2中的待分割图像分别输入至VGG16、Resnet18后，将VGG16输出的编码信息与Resnet18输出的编码信息融合，获得融合信息。

该图像处理设备将该融合信息分别输入至UNet、SkipNet，由UNet输出一组语义分割结果，由SkipNet输出一组语义分割结果；最后将两组语义分割结果融合获得该待分割图像的语义分割结果。

基于此，该图像处理设备将各编码器输出的编码信息进行融合，以提高模型的特征表达能力，并且将各解码器输出的语义分割结果做进一步的融合，使得待分给图像最后的语义分割结果，不仅兼顾了各编码所提取的特征，而且兼顾了各解码器的分割结果，继而增强了整个语义分割模型的鲁棒性。

基于上述图像分割方法，本申请实施例还提供一种应用于图像处理设备的图像识别方法，用于检测待识别图像中是否存在目标对象，并能适应图像尺度的变化。

示例性的，上述对煤矿中探杆的检测场景中，探杆的大小随探杆的种类而变化。因此，为了能够更好地适应物体尺度的变化，如图3所示，本申请实施例提供的图像识别方法包括如下步骤：

步骤S101B，获取待识别图像。

步骤S102B，将待识别图像转换成不同尺度的待分割图像。

示例性的，该图像处理设备可以通过图像金字塔网络，将待识别图像转换成不同尺度的待分割图像。

步骤S103B，通过图像分割方法，获得各待分割图像的语义分割结果。

步骤S104B，根据全部待分割图像的语义分割结果，获得待识别图像的语义分割结果。

本申请实施例中，可以针对不同尺度的待分割图像，提供相对应的语义分割模型，继而可以得到不同尺度的语义分割结果。

其中，不同尺度的语义分割结果之间，满足预设的比例关系，因此，在一种可能的实现方式中，该图像处理设备可将各语义分割结果按照上述比例关系，调整到相同的尺寸；然后针对每组语义分割结果中的同一像素，在进行融合时，选取概率最大的预设对象，作为该像素的最终分类结果。

步骤S105B，根据待识别图像的语义分割结果，确定出待识别图像中的目标对象。

其中，该语义分割结果携带有各像素对应的所属类别，图像处理设备可以将属于同一类别的像素归为一类，继而在待识别图像的语义分割结果中形成分割区域。图像处理设备检测所有的分割区域中，是否存在目标对象的分割区域，若存在，则确定出待识别图像中存在目标对象。因此，通过上述方式，提高了对图像尺度的适应能力，继而提高了目标对象的检测精度。

本申请实施例还提供一种用于实现上述图像识别方法的模型架构。如图4所示，该模型架构包括3个语义分割模型，分别用于处理不同尺度的待分割图像，其中，不同尺度的待分割图像基于待识别图像生成；最后根据各待分割图像的分割结果获得待识别图像的分割结果。基于该分割结果，确定出待识别图像中是否存在目标对象。

该图像处理设备通过上述步骤，将待识别图像转换成不同尺度的待分割图像，并通过上述图像分割方法获得不同尺度的语义分割结果；最后，结合不同尺度的语义分割结果获得待识别图像的语义分割结果。因此，能够从多个尺度对待识别图像进行识别，提高了对图像尺寸变化的适应能力。

本申请实施例还提供一种模型构建方法，应用于模型训练设备。该模型训练设备通过模型构建方法，对待训练的语义分割模型进行训练，使得训练获得的语义识别模型具有更好的分割精度。

下面结合图5所示的模型构建方法，进行详细阐述。如图5所示，该模型构建方法包括：

步骤S101C，获取训练样本。

其中，训练样本包括样本图像以及样本图像的参考分割结果。

步骤S102C，通过训练样本对语义分割模型进行如下迭代，直到语义分割模型满足预设收敛条件：

通过语义分割模型获得样本图像的第一分割结果；

确定出目标对象在第一分割结果中的目标区域；

将预设文本向量与目标区域对应的特征向量进行融合，获得第二分割结果；

根据第二分割结果与训练样本对应的参考分割结果，更新语义分割模型的参数。

其中，在对语义分割模型进行训练之前，可以通过相应的工具标记出样本图像中出现的预设对象，获得样本图像的参考分割结果。

该模型训练设备将上述预设文本向量与目标区域的特征向量进行融合，使得预设文本向量嵌入到特征向量中，用于为语义分割起到指示作用。

示例性的，在对探杆进行识别的场景中，获取探杆工作场景下的样本图像，将样本图像中的预设对象(例如，人、探杆、背景)进行标记，获得样本图像的参考分割结果。

模型训练设备由待训练的语义分割模型，得到样本图像的第一分割结果。由于在对探杆进行识别的场景中，该目标对象为探杆，因此，该模型训练设备需要通过“探杆”的文本向量对其进行指示，以提高语义分割的精度。

模型训练设备先确定出第一个分割结果中探杆的目标区域，再获取“探杆”的文本向量；然后，将两者进行融合，获得第二分割结果。

示例性的，模型训练设备可以通过词向量模型获得“探杆”的文本向量。其中，该词向量模型可以是，但不限于word2vec、glove等模型。本领域技术人员可以根据实际需求，进行选择。

由于在训练过程中，该第二分割结果与参考分割结果之间存在一定的差异，因此，模型训练设备可以根据该差异调整语义分割模型的参数，使得最终的差异达到预设收敛条件。

当然，上述待训练的语义分割模型还可以包括多个，模型训练设备可以通过多个语义分割模型，获得样本图像不同尺度的第二分割结果；并结合样本图像的参考分割结果，同时对多个语义分割模型进行迭代训练。

如图6所示，在本申请实施例中，待训练的语义分割模型包括有注意机制模块。模型训练设备通过该注意力机制模块从第一分割结果中确定出目标对象的目标区域；然后，将预设文本向量与目标区域中的特征向量进行融合，获得第二分割结果。

由于第一分割结果种包括多个分割区域，模型训练设备需要从中确定出目标对象对应的目标区域。在本申请提供实施方式中，该模型训练设备通过计算文本向量与图像区域之间的注意力权重，将注意权重作为筛选目标区域的标准。

示例性的，同样以上述对煤矿中探杆的检测场景为例，探杆工作场景对应的样本图像中，包括预设对象“人”、“探杆”、“背景”。模型训练设备获取“人”、“探杆”、“背景”的文本向量，以及第一分割结果中各区域的特征向量。

考虑到文本向量与特征向量的维度可能存在差异，模型训练设备通过该映射矩阵将文本向量与特征向量映射到相同的维度，并计算文本向量与特征向量之间的内积，其中，该内积表征文本向量与特征向量之间的相似度。对应的表达式为：

式中，V代表分割区域的特征向量，T代表文本向量。

分别是映射矩阵，A代表求得的相似度矩阵。

基于该相似度矩阵，通过如下表达式获得文本向量与图像区域之间的注意力权重：

式中，

为注意力权重，d_h表示经映射矩阵映射后的向量维度。模型训练设备选取与“探杆”的注意力权重最大的区域作为目标区域。

进一步地，考虑到在训练的过程中，由于该语义分割模型还未达到预设收敛条件，因此，目标区域中的每个像素并不完全属于探杆。为了加强语义分割模型的分割精度，需要在融合文本向量与特征向量时引入指示信息。

为了引入指示信息，本申请实施例中，该模型训练设备获取元素积，其中，元素积为文本向量与特征向量之间，位于同一序列位置的元素之积，表征同一序列位置的元素之间的相似度。

然后，该模型训练设备通过元素积对文本向量与特征向量之间的融合向量进行增益处理，获得第二分割结果，其中，第二分割结果携带有文本向量以及特征向量表征的特征信息。

在一种可能的实现方式中，通过如下方法对文本向量与特征向量进行融合，其中，该模型训练设备通过如下表达式获取元素积：

式中，将“探杆”的文本向量进行转置，然后将转置后的第i个元素

与目标区域对应的特征向量中第i个元素v_i进行元素级别地相乘，将获得的元素积经sigmoid激活函数σ进行映射之后，得到两者之间的相似度g_i。

基于上述相似度g_i，通过如下表达式获得第二分割结果中目标区域的特征向量：

式中，

代表元素级别的相加操作，⊙表示元素级别的乘积操作，F_v代表非线性激活函数，G_v表示所有相似度g_i的集合，V代表第一分割结果中目标区域的特征向量，

代表“探杆”的文本向量，

代表第二分割结果中目标区域的特征向量。

由此可见，模型训练设备将第一分割结果中目标区域的特征向量与“探杆”的文本向量相加，得到求和向量；然后将求和向量的每个元素，乘以对应的相似度。

其中，若目标区域对应的特征向量中第i个元素v_i属于探杆，则“探杆”的文本向量经转置后，第i个元素

与v_i的乘积(相似度)会增加，反之，则减小。

因此，模型训练设备将求和向量的每个元素，乘以对应的相似度，经非线性激活函数映射后得到增益向量。其中，该增益向量能够对目标区域中属于“探杆”的部分进行促进，对不属于“探杆”的部分进行抑制。其中的促进结果与抑制结果即为语义分割的指示信息，用于训练出高精度的语义分割模型。

本申请示例中，模型训练设备在达到预设收敛条件后，将注意力机制模块从待训练的语义分割模型中剔除，得到预训练的语义分割模型。

基于与上述图像分割方法相同的发明构思，本申请实施例还提供一种图像分割装置，应用于图像处理设备，图像处理设备配置有预训练的语义分割模型，其中，语义分割模型包括多个编码器以及多个解码器。请参照图7，从功能上述划分，图像分割装置包括：

第一获取模块1101，用于获取待分割图像。

在本申请实施例中，该第一获取模块1101对应的计算机可执行指令被处理器执行时，实现图1中的步骤S101A。关于第一获取模块1101的详细描述，可以参考步骤S101A的详细描述。

编码信息模块1102，用于通过多个编码器分别对待分割图像进行编码，获得多组编码信息。

在本申请实施例中，该编码信息模块1102对应的计算机可执行指令被处理器执行时，实现图1中的步骤S102A。关于编码信息模块1102的详细描述，可以参考步骤S102A的详细描述。

编码融合模块1103，用于融合多组编码信息，获得融合信息。

在本申请实施例中，该编码融合模块1103对应的计算机可执行指令被处理器执行时，实现图1中的步骤S103A。关于编码融合模块1103的详细描述，可以参考步骤S103A的详细描述。

解码信息模块1104，用于通过解码器分别对融合信息进行解码，获得多组语义分割结果。

在本申请实施例中，该解码信息模块1104对应的计算机可执行指令被处理器执行时，实现图1中的步骤S104A。关于解码信息模块1104的详细描述，可以参考步骤S104A的详细描述。

第一融合模块1105，融合多组语义分割结果，获得待分割图像的语义分割结果。

在本申请实施例中，该第一融合模块1105对应的计算机可执行指令被处理器执行时，实现图1中的步骤S105A。关于第一融合模块1105的详细描述，可以参考步骤S105A的详细描述。

当然，上述第一获取模块1101、编码信息模块1102、编码融合模块1103、解码信息模块1104以及第一融合模块1105还可以用于实现上述图像分割方法的其他步骤，或者子步骤，本申请实施例不做具体的限定。

基于与上述图像识别方法相同的发明构思，本申请实施例还提供一种图像识别装置，应用于图像处理设备。请参照图8，从功能上划分，图像识别装置包括：

第二获取模块2101，用于获取待识别图像。

在本申请实施例中，该第二获取模块2101对应的计算机可执行指令被处理器执行时，实现图3中的步骤S101B。关于第二获取模块2101的详细描述，可以参考步骤S101B的详细描述。

尺度转换模块2102，用于将待识别图像转换成不同尺度的待分割图像。

在本申请实施例中，该尺度转换模块2102对应的计算机可执行指令被处理器执行时，实现图3中的步骤S102B。关于尺度转换模块2102的详细描述，可以参考步骤S102B的详细描述。

通过图像分割装置，获得各待分割图像的语义分割结果。

第二融合模块2103，用于根据全部待分割图像的语义分割结果，获得待识别图像的语义分割结果。

在本申请实施例中，该第二融合模块2103对应的计算机可执行指令被处理器执行时，实现图3中的步骤S104B。关于第二融合模块2103的详细描述，可以参考步骤S104B的详细描述。

对象识别模块2104，用于根据待识别图像的语义分割结果，确定出待识别图像中的目标对象。

在本申请实施例中，该对象识别模块2104对应的计算机可执行指令被处理器执行时，实现图3中的步骤S105B。关于对象识别模块2104的详细描述，可以参考步骤S105B的详细描述。

当然，第二获取模块2101、尺度转换模块2102、第二融合模块2103、以及对象识别模块2104还可以用于实现上述图像识别方法的其他步骤，或者子步骤，本申请实施例不做具体的限定。

基于与上述模型构建方法相同的发明构思，本申请实施例还提供一种模型构建装置，应用于模型训练设备。请参照图9，从功能上划分，模型训练设备配置有待训练的语义分割模型，模型构建装置包括：

样本获取模块3101，用于获取训练样本。

在本申请实施例中，该样本获取模块3101对应的计算机可执行指令被处理器执行时，实现图5中的步骤S101C。关于样本获取模块3101的详细描述，可以参考步骤S101C的详细描述。

模型训练模块3102，用于通过训练样本对语义分割模型进行如下迭代，直到语义分割模型满足预设收敛条件：

通过语义分割模型获得训练样本的第一分割结果；

确定出目标对象在第一分割结果中的目标区域；

样本获取模块3101以及模型训练模块3102还可以用于实现上述模型构建方法的其他步骤，或者子步骤，本申请实施例不做具体的限定。

在本申请实施例中，该模型训练模块3102对应的计算机可执行指令被处理器执行时，实现图5中的步骤S102C。关于模型训练模块3102的详细描述，可以参考步骤S102C的详细描述。

本申请实施例还提供一种电子设备。如图10所示，电子设备包括处理器130以及存储器120，存储器120存储有计算机程序。

若该电子设备为上述图像处理设备，则计算机程序被处理器130执行时，实现上述图像分割方法或者图像识别方法。

若该电子设备为上述模型训练设备，则计算机程序被处理器130执行时，实现上述模型构建方法。

该存储器120、处理器130以及其他可能的各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，该存储器120可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器120用于存储程序，该处理器130在接收到执行指令后，执行该程序。

该处理器130可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例还提供一种存储介质，存储介质存储有计算机程序，计算机程序被处理器130执行时，实现上述图像分割方法、图像识别方法或者模型构建方法。

综上所述，本申请实施例提供的图像分割、识别方法、模型构建方法、装置及电子设备中，图像处理设备将各编码器输出的编码信息进行融合，以提高模型的特征表达能力，并且将各解码器输出的语义分割结果做进一步的融合，使得待分给图像最后的语义分割结果，不仅兼顾了各编码所提取的特征，而且兼顾了各解码器的分割结果，继而增强了整个语义分割模型的鲁棒性。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像分割方法，其特征在于，应用于图像处理设备，所述图像处理设备配置有预训练的语义分割模型，其中，所述语义分割模型包括多个编码器以及多个解码器，所述方法包括：

获取待分割图像；

融合所述多组编码信息，获得融合信息；

2.一种图像识别方法，其特征在于，应用于图像处理设备，所述方法包括：

获取待识别图像；

将所述待识别图像转换成不同尺度的待分割图像；

通过权利要求1所述的图像分割方法，获得各所述待分割图像的语义分割结果；

3.一种模型构建方法，其特征在于，应用于模型训练设备，所述模型训练设备配置有待训练的语义分割模型，所述方法包括：

通过所述语义分割模型获得所述样本图像的第一分割结果；

确定出目标对象在所述第一分割结果中的目标区域；

4.根据权利要求3所述的模型构建方法，其特征在于，所述将预设文本向量与所述目标区域对应的特征向量进行融合，获得第二分割结果，包括：

获取元素积，其中，所述元素积为所述文本向量与所述特征向量之间，位于同一序列位置的元素之积，表征同一序列位置的元素之间的相似度；

通过所述元素积对所述文本向量与所述特征向量之间的融合向量进行增益处理，获得所述第二分割结果，其中，所述第二分割结果携带有所述文本向量以及所述特征向量表征的特征信息。

5.根据权利要求3所述的模型构建方法，其特征在于，所述语义分割模型包括注意力机制模块，所述确定出目标对象在所述第一分割结果中的目标区域，包括：

通过所述意力机制模块确定出所述目标对象在所述第一分割结果中的目标区域。

6.一种图像分割装置，其特征在于，应用于图像处理设备，所述图像处理设备配置有预训练的语义分割模型，其中，所述语义分割模型包括多个编码器以及多个解码器，所述图像分割装置包括：

第一获取模块，用于获取待分割图像；

7.一种图像识别装置，其特征在于，应用于图像处理设备，所述图像识别装置包括：

第二获取模块，用于获取待识别图像；

通过权利要求6所述的图像分割装置，获得各所述待分割图像的语义分割结果；

8.一种模型构建装置，其特征在于，应用于模型训练设备，所述模型训练设备配置有待训练的语义分割模型，所述模型构建装置包括：

样本获取模块，用于获取训练样本；

通过所述语义分割模型获得所述训练样本的第一分割结果；

确定出目标对象在所述第一分割结果中的目标区域；

9.一种电子设备，其特征在于，所述电子设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1所述的图像分割方法、权利要求2所述的图像识别方法或者权利要求3-5任意一项所述的模型构建方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1所述的图像分割方法、权利要求2所述的图像识别方法或者权利要求3-5任意一项所述的模型构建方法。