CN112464943A

CN112464943A - 基于少样本的语义分割方法及装置、电子设备、存储介质

Info

Publication number: CN112464943A
Application number: CN202011342227.6A
Authority: CN
Inventors: 秦永强; 刘金露
Original assignee: Ainnovation Nanjing Technology Co ltd
Current assignee: Ainnovation Nanjing Technology Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-09
Anticipated expiration: 2040-11-25
Also published as: CN112464943B

Abstract

本申请提供一种基于少样本的语义分割方法及装置、电子设备、计算机可读存储介质，方法包括：将目标图像组合作为已训练的特征提取网络的输入，获得目标图像组合中每一图像的图像特征；基于每一支持图像的图像特征、前景掩膜、背景掩膜，计算出对应于待识别目标类别的初始类原型；基于查询图像的图像特征和初始类原型，确定查询图像的临时类原型；对初始类原型和临时类原型融合得到终态类原型；针对查询图像的图像特征，逐个像素与终态类原型计算余弦相似度，获得第一余弦相似度图；根据第一余弦相似度图确定对应于待识别目标类别的预测前景掩膜。本申请方案可以在待识别目标类别对应的样本图像数量较少的情况下，借助少量支持图像实现准确的语义分割。

Description

基于少样本的语义分割方法及装置、电子设备、存储介质

技术领域

本申请涉及零售管理技术领域，特别涉及一种基于少样本的语义分割方法及装置、电子设备、计算机可读存储介质。

背景技术

零售商品占比是指商品在分销渠道中所占比例。一般，可以用分销场景的图像上商品的面积占比作为该商品的零售商品占比。比如：某品牌冰淇淋在放满冰淇淋的冰柜中的陈列面积，与冰柜内总面积的比值，可以认为是该品牌冰淇淋的零售商品占比。

语义分割(semantic segmentation)是当前计算商品占比的一项通用技术，语义分割是一种像素级的分类，指的是将图片中的每一个像素点都划分到具体的类别中，常用的语义分割网络包括FCN(Fully Convolutional Networks for Semantic Segmentation，用于语义分割的全卷积网络)，PSPNet(Pyramid Scene Parsing Network，金字塔场景解析网络)等。在基于语义分割计算商品面积占比时，可以提取分销渠道的场景图像的特征(feature)，并基于特征计算得到某一类别商品在图像中的分割结果，进而依据该分割结果确定该类别商品在整个图像中的面积占比。

常用的语义分割网络需要大量样本图像进行训练。样本图像是分销渠道的场景图像，场景图像中每一像素都需要有对应的类标签，表示该像素所属的商品类别。为场景图像添加标签耗时耗力，需要大量人力成本。对于部分商品(比如：冷门商品、新品等)而言，可采集的包含商品的场景图像数量少。这导致对应于此类商品的样本图像较少，无法满足训练需求，使得语义分割网络的分割准确率不足。

发明内容

本申请实施例的目的在于提供一种基于少样本的语义分割方法及装置、电子设备、计算机可读存储介质，用于基于少量训练数据实现准确的语义分割结果。

一方面，本申请提供了一种少样本的语义分割方法，包括：

将目标图像组合作为已训练的特征提取网络的输入，获得所述目标图像组合中每一图像的图像特征；其中，所述目标图像组合包括待识别目标类别、若干支持图像和一个查询图像，所述支持图像携带与所述待识别目标类别对应的前景掩膜和背景掩膜；

基于每一支持图像的图像特征、所述前景掩膜和所述背景掩膜，计算出对应于所述待识别目标类别的初始类原型；

基于所述查询图像的图像特征和所述初始类原型，确定所述查询图像的临时类原型；

对所述初始类原型和所述临时类原型进行融合，获得终态类原型；

针对所述查询图像的图像特征，逐个像素与所述终态类原型计算余弦相似度，获得第一余弦相似度图；

根据所述第一余弦相似度图确定对应于所述待识别目标类别的预测前景掩膜。

在一实施例中，所述基于所述查询图像的图像特征和所述初始类原型，确定所述查询图像的临时类原型，包括：

针对所述查询图像的图像特征，逐个像素与所述初始类原型计算余弦相似度，获得第二余弦相似度图；

从所述第二余弦相似度图中筛选像素值大于预设像素值阈值的像素，将所述查询图像的图像特征中与筛选出的像素对应的像素作为第一指定像素；

对所述查询图像的图像特征中每一通道的第一指定像素计算像素值均值，获得所述查询图像的临时类原型。

在获得所述临时类原型后，将所述临时类原型作为过渡类原型与所述初始类原型进行融合，获得融合类原型；

基于所述查询图像的图像特征和所述融合类原型，确定所述查询图像的过渡类原型；

重复执行上述过程，当重复次数达到预设次数阈值时，将最后的所述过渡类原型作为所述临时类原型。

在一实施例中，所述基于所述查询图像的图像特征和所述融合类原型，确定所述查询图像的过渡类原型，包括：

针对所述查询图像的图像特征，逐个像素与所述融合类原型计算余弦相似度，获得第三余弦相似度图；

将所述第二余弦相似度图与所述第三余弦相似度图进行融合，获得融合余弦相似度图；

从所述融合余弦相似度图中筛选像素值大于预设像素值阈值的像素，将所述查询图像的图像特征中与筛选出的像素对应的像素作为第二指定像素；

对所述查询图像的图像特征中每一通道的第二指定像素计算像素值均值，获得所述查询图像的过渡类原型。

在一实施例中，所述目标图像组合中每一图像为分销渠道的场景图像，所述待识别目标类别为待识别商品类别；

在获得与所述待识别商品类别对应的预测前景掩膜后，所述方法还包括：

基于所述预测前景掩膜确定所述待识别商品类别在所述查询图像上的面积占比，将所述面积占比作为所述待识别商品类别对应的零售商品占比。

在一实施例中，所述特征提取网络通过如下方式训练得到：

将样本数据集中的样本图像组合作为深度神经网络的输入，获得所述样本图像组合中每一图像的图像特征；其中，所述样本图像组合包括指定目标类别、若干样本支持图像和若干样本查询图像，所述样本支持图像携带与所述指定目标类别对应的前景掩膜和背景掩膜，所述样本查询图像携带与所述指定目标类别对应的前景掩膜；

基于每一样本支持图像的图像特征、与所述指定目标类别对应的前景掩膜和背景掩膜，计算出对应于所述指定目标类别的样本初始类原型；

根据对应于所述指定目标类别的样本初始类原型、所述样本查询图像携带的与所述指定目标类别对应的前景掩膜，调整所述深度神经网络的网络参数；

重复上述过程，直至所述深度神经网络收敛，获得所述特征提取网络。

在一实施例中，所述根据对应于所述指定目标类别的样本初始类原型、所述样本查询图像携带的与所述指定目标类别对应的前景掩膜，调整所述深度神经网络的网络参数，包括：

基于每一样本查询图像的图像特征、与所述指定目标类别对应的样本初始类原型，确定与所述指定目标类别对应的第四余弦相似度图；

根据所述第四余弦相似度图、所述样本查询图像携带的与所述指定目标类别对应的前景掩膜，计算交叉熵损失；

根据所述交叉熵损失调整所述神经神经网络的网络参数。

另一方面，本申请还提供了一种少样本的语义分割装置，包括：

提取模块，用于将目标图像组合作为已训练的特征提取网络的输入，获得所述目标图像组合中每一图像的图像特征；其中，所述目标图像组合包括待识别目标类别、若干支持图像和一个查询图像，所述支持图像携带与所述待识别目标类别对应的前景掩膜和背景掩膜；

第一计算模块，用于基于每一支持图像的图像特征、所述前景掩膜和所述背景掩膜，计算出对应于所述待识别目标类别的初始类原型；

确定模块，用于基于所述查询图像的图像特征和所述初始类原型，确定所述查询图像的临时类原型；

融合模块，用于对所述初始类原型和所述临时类原型进行融合，获得终态类原型；

第二计算模块，用于针对所述查询图像的图像特征，逐个像素与所述终态类原型计算余弦相似度，获得第一余弦相似度图；

分割模块，用于根据所述第一余弦相似度图确定对应于所述待识别目标类别的预测前景掩膜。

进一步的，本申请还提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述少样本的语义分割方法。

另外，本申请还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述少样本的语义分割方法。

在本申请实施例中，从目标图像组合中提取每一图像的图像特征之后，可以依据支持图像的图像特征、前景掩膜和背景掩膜，计算出对应于待识别目标类别的初始类原型；根据查询图像的图像特征和初始类原型可确定出临时类原型，将临时类原型与初始类原型融合之后，获得终态类原型；对查询图像的图像特征与终态类原型进行余弦相似度计算，从而可以获得第一余弦相似度，并依据该第一余弦相似度确定对应于待识别目标类别的预测前景掩膜。在待识别目标类别对应的样本图像数量较少的情况下，本申请方案可以借助少量支持图像实现准确的语义分割。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请一实施例提供的基于少样本的语义分割方法的应用场景示意图；

图2为本申请一实施例提供的电子设备的结构示意图；

图3为本申请一实施例提供的基于少样本的语义分割方法的流程示意图；

图4为本申请一实施例提供的临时类原型的计算方法的流程示意图；

图5为本申请另一实施例提供的临时类原型的计算方法的流程示意图；

图6为本申请一实施例提供的过渡类原型的计算方法的流程示意图；

图7为本申请一实施例提供的语义分割的示意图；

图8为本申请一实施例提供的特征提取网络的训练方法的流程示意图；

图9为本申请一实施例提供的基于少样本的语义分割装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1为本申请实施例提供的基于少样本的语义分割方法的应用场景示意图。如图1所示，该应用场景包括服务端30和客户端20，客户端20可以是网络摄像机，或者与摄像机对接的主机，用于向服务端30发送需要进行语义分割的图像；服务端30可以是服务器、服务器集群或者云计算中心，服务端30可以对客户端20上传的图像执行语义分割。

如图2所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图2中以一个处理器11为例。处理器11和存储器12通过总线10连接，存储器12存储有可被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中，电子设备1可以是上述服务端30。

存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序可由处理器11执行以完成本申请提供的基于少样本的语义分割方法。

参见图3，为本申请一实施例提供的基于少样本的语义分割方法的流程示意图，如图3所示，该方法可以包括以下步骤310-步骤360。

步骤310：将目标图像组合作为已训练的特征提取网络的输入，获得目标图像组合中每一图像的图像特征；其中，目标图像组合包括待识别目标类别、若干支持图像和一个查询图像，支持图像携带与待识别目标类别对应的前景掩膜和背景掩膜。

特征提取网络用于提取目标图像组合中每一图像的图像特征，图像特征可以是特征图(feature map)。特征提取网络可以由GoogleNet，ResNet(Residual Neural Network，残差神经网络),VGG(Visual Geometry Group Network，视觉几何群网络)，Wide ResNet(Wide Residual Network，宽残差网络)等深度神经网络训练得到。

目标图像组合可以包括待识别目标类别(class)、若干支持图像(support image)和一个查询图像(query image)。待识别目标类别是需要被执行语义分割的目标的类别。查询图像是接受语义分割的图像，通常，查询图像中存在待识别目标类别对应的目标。支持图像中存在待识别目标类别对应的目标。通过借助支持图像的信息，可以对查询图像执行语义分割。

与待识别目标类别对应的前景掩膜，指示待识别目标类别对应的目标在支持图像中所占的区域；背景掩膜表示除该目标以外的区域。示例性的，前景掩膜和背景掩膜都可以是与支持图像具有相同高度和宽度的二值图。

二值图中的像素与支持图像中同位置的像素一一对应。当前景掩膜中任一像素的像素值为1，说明在支持图像中与该像素对应的像素属于前景，换而言之，属于目标；当前景掩膜中任一像素的像素值为0，说明在支持图像中与该像素对应的像素属于背景。当背景掩膜中任一像素的像素值为1，说明在支持图像中与该像素对应的像素属于背景；当背景掩膜中任一像素的像素值为0，说明在支持图像中与该像素对应的像素属于前景。

目标图像组合可记为<N-class K-supprot 1-query>，表示存在N种待识别目标类别、K个支持图像和1个查询图像。当存在至少两种待识别目标类别时，每一支持图像携带对应于每一种待识别目标类别的前景掩膜和背景掩膜。

示例性的，服务端在为卧式冰柜的场景图像执行针对甲品牌冰淇淋的语义分割时，可以根据预配置的包含甲品牌冰淇淋的支持图像、甲品牌冰淇淋对应的待识别目标类别、获取到的包含甲品牌冰淇淋且需接受语义分割的场景图像，构建目标图像组合。

服务端可以通过上述特征提取网络对目标图像组合中每一图像提取图像特征。

步骤320：基于每一支持图像的图像特征、前景掩膜和背景掩膜，计算出对应于待识别目标类别的初始类原型。

其中，类原型(class prototype)是表征一种类别目标的典型向量。初始类原型是根据支持图像的图像特征、前景掩膜和背景掩膜计算出的类原型。初始类原型可以包括前景初始类原型和背景初始类原型。

针对每一待识别目标类别，服务端可以根据每一支持图像的图像特征，以及与该待识别目标类别对应的前景掩膜，计算出待识别目标类别的前景初始类原型；服务端可以根据每一支持图像的图像特征，以及与该待识别目标类别对应的背景掩膜，计算出待识别目标类别的背景初始类原型。示例性的，目标图像组合中存在两种待识别目标类别，分别为甲品牌冰淇淋和乙品牌冰淇淋，服务端可以基于每一待识别目标类别对应前景掩膜和背景掩膜，计算得到两种前景初始类原型和两种背景类原型。

服务端在计算前景初始类原型时，可以将每一支持图像的图像特征与前景掩膜相乘。图像特征可能有多个通道，在相乘时，针对每一通道的图像特征，服务端可以逐个像素将像素值与前景掩膜上对应的像素值相乘。前景掩膜上目标所在区域的像素值为1，背景区域的像素值为0，相乘之后，每一通道的图像特征只保留目标所在区域的像素值。此处默认图像特征与支持图像具有相同的高度和宽度；如果图像特征与支持图像的高度或宽度不同，可以通过上采样、下采样、双线性差值等手段将图像特征调整至与支持图像的高度和宽度相同，使得图像特征的每一像素在掩膜上具有对应的像素。

在将图像特征与前景掩膜相乘之后，服务端可以针对每一通道的图像特征，计算像素值的平均值，从而获得单一支持图像的前景初始类原型。示例性的，支持图像的尺寸以“宽度*高度*通道数”的方式表示为512*512*3，对应的图像特征的尺寸为512*512*1024，在与前景掩膜相乘并对每一通道图像特征求均值后，获得单一支持图像的尺寸为1*1*1024的前景初始类原型。

当目标图像组合中包含至少两个支持图像时，服务端可以对所有支持图像的前景初始类原型进行均值化处理，从而获得支持图像唯一的前景初始类原型。示例性的，目标图像组合中存在5个支持图像，服务端从每一支持图像中计算出尺寸为1*1*1024的前景初始类原型，在对每一通道继续计算均值后，可以获得唯一的尺寸为1*1*1024的前景初始类原型。

服务端在计算背景初始类原型时，可以将每一支持图像的图像特征与背景掩膜相乘。图像特征可能有多个通道，在相乘时，针对每一通道的图像特征，服务端可以逐个像素将像素值与背景掩膜上对应的像素值相乘。背景掩膜上目标所在区域的像素值为0，背景区域的像素值为1，相乘之后，每一通道的图像特征只保留背景区域的像素值。此处默认图像特征与支持图像具有相同的高度和宽度；如果图像特征与支持图像的高度或宽度不同，可以通过上采样、下采样、双线性差值等手段将图像特征调整至与支持图像的高度和宽度相同，使得图像特征的每一像素在掩膜上具有对应的像素。

在将图像特征与背景掩膜相乘之后，服务端可以针对每一通道的图像特征，计算像素值的平均值，从而获得单一支持图像的背景初始类原型。

当目标图像组合中包含至少两个支持图像时，服务端可以对所有支持图像的背景初始类原型进行均值化处理，从而获得支持图像唯一的背景初始类原型。

步骤330：基于查询图像的图像特征和初始类原型，确定查询图像的临时类原型。

其中，临时类原型是根据查询图像的图像特征和初始类原型计算出的类原型。临时类原型可以包括前景临时类原型和背景临时类原型。

在计算出上述初始类原型之后，服务端可以根据查询图像的图像特征和前景初始类原型，计算出前景临时类原型；服务端可以根据查询图像的图像特征和背景初始类原型，计算出背景临时类原型。

步骤340：对初始类原型和临时类原型进行融合，获得终态类原型。

其中，终态类原型是根据初始类原型和临时类原型融合得到的类原型。终态类原型可以包括前景终态类原型和背景终态类原型。

服务端可以根据预设权重对初始类原型和临时类原型每一维度的元素进行加权求和，从而获得终态类原型。示例性的，初始类原型和临时类原型的权重均为0.5，初始类原型和临时类原型的尺寸均为1*1*1024，服务端可以对前景初始类原型和前景临时类原型中相同维度的元素加权求和，从而获得前景终态类原型；服务端可以对背景初始类原型和背景临时类原型中相同维度的元素加权求和，从而获得背景终态类原型。

步骤350：针对查询图像的图像特征，逐个像素与终态类原型计算余弦相似度，获得第一余弦相似度图。

其中，第一余弦相似度图是依据终态类原型计算出的余弦相似度图(cosinesimilarity map)。第一余弦相似度图包括第一前景余弦相似度图和第一背景余弦相似度图。

服务端可以针对查询图像的图像特征中每一像素在多个通道图像特征上的像素值，构建对应于该像素的多维向量，并计算该多维向量与前景终态类原型之间的余弦相似度，从而获得对应于前景的第一前景余弦相似度图。示例性的，图像特征的尺寸以“宽度*高度*通道数”的形式可以表示为512*512*1024，以每一像素在1024个通道的图像特征的像素值，可以构建512*512个尺寸为1*1*1024的多维向量，逐个与前景终态类原型计算预先相似度后，可以获得尺寸为512*512*1的第一前景余弦相似度图。

服务端可以针对查询图像的图像特征中每一像素在多个通道图像特征上的像素值，构建对应于该像素的多维向量，并计算该多维向量与背景终态类原型之间的余弦相似度，从而获得对应于背景的第一背景余弦相似度图。

步骤360：根据第一余弦相似度图确定对应于待识别目标类别的预测前景掩膜。

服务端可以基于第一前景余弦相似度图和第一背景余弦相似度图，确定预测前景掩膜。服务端可以逐个像素检查第一前景余弦相似度图和第一背景余弦相似度图同位置的像素值的大小，如果第一前景余弦相似度图中任一像素的像素值大于第一背景余弦相似度图中同位置像素的像素值，可以确定预测前景掩膜中与该像素同位置像素的像素值为1，表示该像素属于前景；如果第一前景余弦相似度图中任一像素的像素值不大于第一背景余弦相似度图中同位置的像素值，可以确定预测前景掩膜中与该像素同位置像素的像素值为0。

在一实施例中，如果图像特征与查询图像的宽度或高度不同，在计算第一前景余弦相似度图和第一背景余弦相似度图之前，可以通过上采样、下采样、双线性差值等手段将图像特征调整至与查询图像具有相同的高度和宽度，从而可以获得与查询图像尺寸相同的第一前景余弦相似度图和第一背景余弦相似度图。通过该措施，可使后续方便地确定出与查询图像尺寸相同的预测前景掩膜。

在一实施例中，目标图像组合中每一图像为分销渠道的场景图像，待识别目标类别为待识别商品类别。服务端在获得与待识别商品类别对应的预测前景掩膜后，可以基于预测前景掩膜确定待识别商品类别在查询图像上的面积占比，从而将该面积占比作为待识别商品类别对应的零售商品占比。

示例性的，待识别商品类别为甲品牌冰淇淋，查询图像和支持图像均为卧式冰柜的商品陈列区域的图像。服务端通过语义分割获得甲品牌冰淇淋对应的预测前景掩膜后，可以确定甲品牌冰淇淋在商品陈列区域的面积占比，从而可以确定甲品牌冰淇淋在卧式冰柜的零售商品占比。

在一实施例中，参见图4，为本申请一实施例提供的临时类原型的计算方法的流程示意图，服务端在确定临时类原型时，可以执行以下步骤331-步骤333。

步骤331：针对查询图像的图像特征，逐个像素与初始类原型计算余弦相似度，获得第二余弦相似度图。

其中，第二余弦相似度图是依据初始类原型计算出的余弦相似度图。第二余弦相似度图包括第二前景余弦相似度图和第二背景余弦相似度图。

服务端可以针对查询图像的图像特征中每一像素在多个通道图像特征上的像素值，构建对应于该像素的多维向量，并计算该多维向量与前景初始类原型之间的余弦相似度，从而获得对应于前景的第二前景余弦相似度图。

服务端可以针对查询图像的图像特征中每一像素在多个通道图像特征上的像素值，构建对应于该像素的多维向量，并计算该多维向量与背景初始类原型之间的余弦相似度，从而获得对应于背景的第二背景余弦相似度图。

步骤332：从第二余弦相似度图中筛选像素值大于预设像素值阈值的像素，将查询图像的图像特征中与筛选出的像素对应的像素作为第一指定像素。

其中，像素值阈值可以是经验值，用于筛选属于前景或背景的像素。

服务端可以从第二前景余弦相似度图中筛选像素值大于像素值阈值的像素，并将查询图像的图像特征中与筛选出的像素对应的像素作为第一指定像素，该第一指定像素可认为是属于前景的像素。示例性的，图像特征的尺寸以“宽度*高度*通道数”的形式可以表示为512*512*1024，第二前景余弦相似度图的尺寸为512*512*1。当第二前景余弦相似度图中第7行第8列像素的像素值大于像素值阈值时，可以将图像特征中第7行第8列的像素作为第一指定像素。

服务端可以从第二背景余弦相似度图中筛选像素值大于像素值阈值的像素，并将查询图像的图像特征中与筛选出的像素对应的像素作为第一指定像素，该第一指定像素可认为是属于背景的像素。

步骤333：对查询图像的图像特征中每一通道的第一指定像素计算像素值均值，获得查询图像的临时类原型。

针对查询图像的图像特征中对应于前景的第一指定像素，服务端计算每一通道上第一指定像素的像素值的平均值，从而获得对应于前景的前景临时类原型。示例性的，图像特征的尺寸以“宽度*高度*通道数”的形式可以表示为512*512*1024，属于前景的第一指定像素有60000个，服务端对每一通道上60000个第一指定像素计算像素值均值后，可以获得尺寸为1*1*1024的临时类原型。

针对查询图像的图像特征中对应于背景的第一指定像素，服务端可以计算每一通道上第一指定像素的像素值的平均值，从而获得对应于背景的背景临时类原型。

在一实施例中，参见图5，为本申请另一实施例提供的临时类原型的计算方法的流程示意图，服务端在确定临时类原型时，还可以执行以下步骤331-步骤336。

服务端执行步骤331至步骤333的过程可参见前文，在此不再赘述。

步骤334：在获得临时类原型后，将临时类原型作为过渡类原型与初始类原型进行融合，获得融合类原型。

其中，过渡类原型用于与初始类原型进行融合。过渡类原型包括前景过渡类原型和背景过渡类原型。融合类原型是由过渡类原型和初始类原型融合得到的类原型，融合类原型包括由前景过渡类原型和前景初始类原型融合得到的前景融合类原型、由背景过渡类原型和背景初始类原型融合得到的背景融合类原型。

当服务端获得临时类原型后，为进一步获取查询图像中表征前景或背景的信息，可以继续对临时类原型进行处理。

服务端可以将前景临时类原型作为前景过渡类原型，与前景初始类原型进行融合，获得前景融合类原型。服务端可以根据预设权重对前景过渡类原型和前景初始类原型每一维度的元素进行加权求和，从而获得前景融合类原型。示例性的，前景过渡类原型和前景初始类原型的权重均为0.5，前景过渡类原型和前景初始类原型的尺寸均为1*1*1024，服务端可以对前景过渡类原型和前景初始类原型中相同维度的元素加权求和，从而获得尺寸为1*1*1024的前景融合类原型。

服务端可以将背景临时类原型作为背景过渡类原型，与背景初始类原型进行融合，获得背景融合类原型。服务端可以根据预设权重对背景过渡类原型和背景初始类原型每一维度的元素进行加权求和，从而获得背景融合类原型。

步骤335：基于查询图像的图像特征和融合类原型，确定查询图像的过渡类原型。

步骤336：重复执行上述过程，当重复次数达到预设次数阈值时，将最后的过渡类原型作为临时类原型。

在获得前景融合类原型和背景融合类原型后，服务端可以依据查询图像的图像特征和前景融合类原型，重新计算出前景过渡类原型；服务端可以依据查询图像的图像特征和背景融合类原型，重新计算出背景过渡类原型。

在获得新的前景过渡类原型和背景过渡类原型之后，服务端可以重新执行步骤334至步骤335。这一过程重复多次，直到重复次数达到次数阈值。次数阈值可以是经验值，示例性的，次数阈值可是3。在重复次数达到次数阈值后，服务端可以将最后计算得到的过渡类原型作为临时类原型，从而可将最后获得的临时类原型用于执行步骤340。

在一实施例中，参见图6，为本申请一实施例提供的过渡类原型的计算方法的流程示意图，如图6所示，服务端在执行步骤335时，可以执行以下步骤335A-步骤335D。

步骤335A：针对查询图像的图像特征，逐个像素与融合类原型计算余弦相似度，获得第三余弦相似度图。

其中，第三余弦相似度图是依据融合类原型计算出的余弦相似度图。第三余弦相似度图包括第三前景余弦相似度图和第三背景余弦相似度图。

服务端可以针对查询图像的图像特征中每一像素在多个通道图像特征上的像素值，构建对应于该像素的多维向量，并计算该多维向量与前景融合类原型之间的余弦相似度，从而获得对应于前景的第三前景余弦相似度图。

服务端可以针对查询图像的图像特征中每一像素在多个通道图像特征上的像素值，构建对应于该像素的多维向量，并计算该多维向量与背景融合类原型之间的余弦相似度，从而获得对应于背景的第三背景余弦相似度图。

步骤335B：将第二余弦相似度图与第三余弦相似度图进行融合，获得融合余弦相似度图。

其中，融合余弦相似度图包括前景融合余弦相似度图和背景融合余弦相似度图，前景融合余弦相似度图由第二前景余弦相似度图和第三前景余弦相似度图融合得到，背景融合余弦相似度图由第二背景余弦相似度图和第三背景余弦相似度图融合得到。

针对第二前景余弦相似度图和第三前景余弦相似度图中相同位置像素的像素值，服务端可以根据预设权重进行加权求和，从而获得前景融合余弦相似度图。示例性的，第二前景余弦相似度图和第三前景余弦相似度图的尺寸以“宽度*高度*通道数”的形式可以表示为512*512*1，在对同位置像素的像素值进行加权求和后，可以获得尺寸为512*512*1的前景融合余弦相似度图。

针对第二背景余弦相似度图和第三背景余弦相似度图中相同位置像素的像素值，服务端可以根据预设权重信息加权求和，从而获得背景融合余弦相似度图。

步骤335C：从融合余弦相似度图中筛选像素值大于预设像素值阈值的像素，将查询图像的图像特征中与筛选出的像素对应的像素作为第二指定像素。

服务端可以从前景融合余弦相似度图中筛选像素值大于像素值阈值的像素，并将查询图像的图像特征中与筛选出的像素对应的像素作为第二指定像素，该第二指定像素可认为是属于前景的像素。

服务端可以从背景融合余弦相似度图中筛选像素值大于像素值阈值的像素，并将查询图像的图像特征中与筛选出的像素对应的像素作为第二指定像素，该第二指定像素可认为是属于背景的像素。

步骤335D：对查询图像的图像特征中每一通道的第二指定像素计算像素值均值，获得查询图像的过渡类原型。

针对查询图像的图像特征中对应于前景的第二指定像素，服务端可以计算每一通道上第二指定像素的像素值的平均值，从而获得对应于前景的前景过渡类原型。

针对查询图像的图像特征中对应于背景的第二指定像素，服务端可以计算每一通道上第二指定像素的像素值的平均值，从而获得对应于背景的背景过渡类原型。

参见图7，为本申请一实施例提供的语义分割的示意图，如图7所示，语义分割的处理流程如下：

如图7-1所示，服务端可以将包括支持图像(图7-1中的“Support Image”)和查询图像(图7-1中的“Query Image”)的目标图像组合输入特征提取网络，从而获得特征提取网络输出的每一图像的图像特征。在图7-1中，图像特征A为支持图像的图像特征，图像特征B为查询图像的图像特征。该目标图像组合中的待识别目标类别为牛。

如图7-2所示，服务端可以基于支持图像的图像特征和掩膜(图7-2中的“SupportMask”，实际上存在前景掩膜和背景掩膜)，计算出对应于待识别目标类别的初始类原型(图7-2中的“Support Prototype”，虚线的表示前景初始类原型，实线的表示背景初始类原型)。

如图7-3所示，服务端可以基于查询图像的图像特征和初始类原型，计算出第二余弦相似度图(图7-3中的“Similarity Map1”，第一个为第二前景余弦相似度图，第二个为第二背景余弦相似度图)，进一步地，依据第二余弦相似度图中的像素值，从查询图像的图像特征中筛选出属于背景的像素和属于前景的像素，并依据筛选出的像素确定查询图像的临时类原型(图7-3中的“Query Prototype1”，虚线的表示前景临时类原型，实线的表示背景临时类原型)。

如图7-4所示，服务端可以对初始类原型和临时类原型进行融合，获得终态类原型(图7-4中的“Fused Prototype”，虚线的表示前景终态类原型，实线的表示背景终态类原型)。

如图7-5所示，服务端可以针对查询图像的图像特征，逐个像素与终态类原型计算余弦相似度，获得第一余弦相似度图(图7-5中的“Similarity Map2”，第一个为第一前景余弦相似度图，第二个为第一背景余弦相似度图)，并依据该第一余弦相似度图确定对应于待识别目标类别的预测前景掩膜(图7-5中的“Predicted Query Mask”)。

在一实施例中，参见图8，为本申请一实施例提供的特征提取网络的训练方法的流程示意图，如图8所示，在执行上述语义分割方法之前，可以执行以下步骤301-步骤304。

步骤301：将样本数据集中的样本图像组合作为深度神经网络的输入，获得样本图像组合中每一图像的图像特征；其中，样本图像组合包括指定目标类别、若干样本支持图像和若干样本查询图像，样本支持图像携带与指定目标类别对应的前景掩膜和背景掩膜，样本查询图像携带与指定目标类别对应的前景掩膜。

指定目标类别是样本支持图像和样本查询图像上添加标注的目标类别。训练阶段的指定目标类别与应用阶段的待识别目标类别，可以不同。示例性的，训练阶段以包括多种类别的动物的样本图像对深度神经网络进行训练，得到特征提取网络。特征提取网络在应用过程中可以依据包含新类别的动物的支持图像，对查询图像中新类别的动物执行语义分割。

服务端可以将样本图像构建出多个样本图像组合，样本图像组合可以记为<N-class K-supprot Q-query>，表示一个样本图像组合中存在N中指定目标类别、K个样本支持图像和Q个样本查询图像。

服务端将大量样本图像组合输入深度神经网络后，可以获得深度神经网络从每一样本支持图像和每一样本查询图像中提取得到的图像特征。

步骤302：基于每一样本支持图像的图像特征、与指定目标类别对应的前景掩膜和背景掩膜，计算出对应于指定目标类别的样本初始类原型。

样本初始类原型是根据样本支持图像的图像特征、前景掩膜和背景掩膜计算出的类原型。样本初始类原型包括样本前景初始类原型和样本背景初始类原型。

针对每一指定目标类别，服务端可以根据每一样本支持图像的图像特征、以及与该指定目标类别对应的前景掩膜，计算出指定目标类别的样本前景初始类原型；服务端可以根据每一样本支持图像的图像特征、以及与该指定目标类别对应的背景掩膜，计算出指定目标类别的样本背景初始类原型。

服务端在计算样本前景初始类原型时，可以将每一样本支持图像的图像特征与前景掩膜相乘。图像特征可能跟有多个通道，在相乘时，针对每一通道的图像特征，服务端可以逐个像素将像素值与前景掩膜上对应的像素值相乘。前景掩膜上目标所在区域的像素值为1，背景区域的像素值为0，相乘之后，每一通道的图像特征只保留目标所在区域的像素值。

在将图像特征与前景掩膜相乘之后，服务端可以针对每一通道的图像特征，计算像素值的平均值，从而获得单一样本支持图像的样本前景初始类原型。当样本图像组合中包含至少两个样本支持图像时，服务端可以对所有样本支持图像的样本前景初始类原型进行均值化处理，从而获得样本支持图像唯一的样本前景初始类原型。

服务端在计算样本背景初始类原型时，可以将每一样本支持图像的图像特征与背景掩膜相乘。图像特征可能有多个通道，在相乘时，针对每一通道的图像特征，服务端可以逐个像素将像素值与背景掩膜上对应的像素值相乘。背景掩膜上目标所在区域的像素值为0，背景区域的像素值为1，相乘之后，每一通道的图像特征只保留背景区域的像素值。

在将图像特征与背景掩膜相乘之后，服务端可以针对每一通道的图像特征，计算像素值的平均值，从而获得单一样本支持图像的样本背景初始类原型。当样本图像组合中包含至少两个样本支持图像时，服务端可以对所有样本支持图像的样本背景初始类原型进行均值化处理，从而获得样本支持图像唯一的样本背景初始类原型。

步骤303：根据对应于指定目标类别的样本初始类原型、样本查询图像携带的与指定目标类别对应的前景掩膜，调整深度神经网络的网络参数。

步骤304：重复上述过程，直至深度神经网络收敛，获得特征提取网络。

服务端可以基于每一样本查询图像的图像特征、与指定目标类别对应的样本初始类原型，确定与指定目标类别对应的第四余弦相似度图。这里，第四余弦相似度图是依据样本初始类原型计算出的余弦相似度图。第四余弦相似度图包括第四前景余弦相似度图和第四背景余弦相似度图。

服务端可以针对样本查询图像的图像特征中每一像素在多个通道图像特征上的像素值，构建对应于该像素的多维向量，并计算该多维向量与样本前景初始类原型之间的余弦相似度，从而获得对应于前景的第四前景余弦相似度图。服务端可以针对样本查询图像的图像特征中每一像素在多个通道图像特征上的像素值，构建对应于该像素的多维向量，并计算该多维向量与样本背景初始类原型之间的余弦相似度，从而获得对应于背景的第四背景余弦相似度图。

服务端可以根据第四余弦相似度图、样本查询图像携带的与指定目标类别对应的前景掩膜，计算交叉熵损失。服务端可以根据第四前景余弦相似度图和第四背景余弦相似度图，确定样本查询图像上每一像素属于指定目标类别对应的前景的概率。服务端可以以如下公式(1)计算这个概率：

其中，i表示前景或背景的序号，score_i表示像素在前景余弦相似度图或背景余弦相似度图上的像素值，e为自然底数。

根据公式(1)的算法，对于样本查询图像上第m行第n列的像素，其在第四前景余弦相似度图上对应的像素值为score₁，其在第四背景余弦相似度图上对应的像素值为score₂，e^score1除以e^score1与e^score2的和，可以得到该像素属于前景的概率。

服务端可以基于样本查询图像上与指定目标类别对应的前景掩膜，计算交叉熵损失。服务端可以依据交叉熵损失评估深度神经网络的预测效果，并相应地调整深度神经网络的网络参数。经过反复迭代，直至交叉熵损失趋于稳定，或者，交叉熵损失小于预设损失阈值，此时得到特征提取网络。

参见图9，为本申请一实施例提供的基于少样本的语义分割装置的框图，如图9所示，该装置可以包括：

提取模块910，用于将目标图像组合作为已训练的特征提取网络的输入，获得所述目标图像组合中每一图像的图像特征；其中，所述目标图像组合包括待识别目标类别、若干支持图像和一个查询图像，所述支持图像携带与所述待识别目标类别对应的前景掩膜和背景掩膜；

第一计算模块920，用于基于每一支持图像的图像特征、所述前景掩膜和所述背景掩膜，计算出对应于所述待识别目标类别的初始类原型；

确定模块930，用于基于所述查询图像的图像特征和所述初始类原型，确定所述查询图像的临时类原型；

融合模块940，用于对所述初始类原型和所述临时类原型进行融合，获得终态类原型；

第二计算模块950，用于针对所述查询图像的图像特征，逐个像素与所述终态类原型计算余弦相似度，获得第一余弦相似度图；

分割模块960，用于根据所述第一余弦相似度图确定对应于所述待识别目标类别的预测前景掩膜。

上述装置中各个模块的功能和作用的实现过程具体详见上述少样本的语义分割方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种少样本的语义分割方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述查询图像的图像特征和所述初始类原型，确定所述查询图像的临时类原型，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述查询图像的图像特征和所述初始类原型，确定所述查询图像的临时类原型，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述查询图像的图像特征和所述融合类原型，确定所述查询图像的过渡类原型，包括：

5.根据权利要求1所述的方法，其特征在于，所述目标图像组合中每一图像为分销渠道的场景图像，所述待识别目标类别为待识别商品类别；

6.根据权利要求1所述的方法，其特征在于，所述特征提取网络通过如下方式训练得到：

7.根据权利要求6所述的方法，其特征在于，所述根据对应于所述指定目标类别的样本初始类原型、所述样本查询图像携带的与所述指定目标类别对应的前景掩膜，调整所述深度神经网络的网络参数，包括：

根据所述交叉熵损失调整所述深度神经网络的网络参数。

8.一种少样本的语义分割装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7任意一项所述的少样本的语义分割方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的少样本的语义分割方法。