CN115937516B

CN115937516B - 一种图像语义分割方法、装置、存储介质及终端

Info

Publication number: CN115937516B
Application number: CN202211458456.3A
Authority: CN
Inventors: 马占宇; 郑一啸; 梁孔明; 黄秋梅; 徐大川
Original assignee: Beijing University of Technology; Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Technology; Beijing University of Posts and Telecommunications
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-10-03
Anticipated expiration: 2042-11-21
Also published as: CN115937516A

Abstract

本发明公开了一种图像语义分割方法、装置、存储介质及终端，方法包括：获取并预处理待处理手绘草图数据，生成手绘草图数据的图结构表示；将手绘草图数据的图结构表示输入预先训练的图像语义分割模型中；预先训练的图像语义分割模型是通过根据模型训练样本生成的特征向量训练的，特征向量是将时序信息中所含的序列信息编码到初始特征向量中生成，时序信息和初始特征向量是基于模型训练样本生成；根据预先训练的图像语义分割模型计算并输出待处理手绘草图数据的语义分割结果。本申请在模型训练的过程中可以引导模型关注图像时序信息并将其中蕴含的序列信息编码进提取到的特征向量中，进而强化了模型对图像的特征提取能力，从而提升了语义分割精度。

Description

一种图像语义分割方法、装置、存储介质及终端

技术领域

本发明涉及机器学习技术领域，特别涉及一种图像语义分割方法、装置、存储介质及终端。

背景技术

图神经网络是一种常用的图像特征提取和语义分割方法。以手绘草图为例，手绘草图(Sketch)是人类抒发感情、传达意图和标识记录的一种重要的表达方式，在教育、辅助设计、商品检索等领域发挥着重要的作用。由于手绘草图具有“点成线，线成画”的组成特点，可以使用由点和边构成的图结构(Graph)表示手绘草图。对于由图结构表示的手绘草图，研究人员往往使用图神经网络(Graph Neural Network，简称为GNN)从手绘草图提取用于语义分割任务的特征向量。在图像建模和特征提取的过程中，一种高效且完善的图神经网络架构有助于从图像提取有判别力的特征，从而更好地进行图像语义分割任务。

图神经网络是一种常用的图像特征提取和语义分割方法。以手绘草图为例，由于手绘草图是通过画笔的移动形成的，因此手绘草图既具有图像数据的特点，也具有序列数据的特点。除笔画结构信息外，手绘草图的绘画顺序中还携带着序列信息。在对手绘草图进行建模和特征提取的过程中，现有的基于图神经网络的方法一般按照手绘草图的笔画结构构建表示手绘草图的图结构，然后使用图神经网络进行特征提取。然而，这些仅根据手绘草图的笔画结构对其进行建模和提取特征的现有方法，往往忽略了手绘草图的绘画顺序及其中蕴含的序列信息。对序列信息的忽略会影响所提取到的特征向量的质量，进而影响手绘草图语义分割任务的表现。

发明内容

本申请实施例提供了一种图像语义分割方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种图像语义分割方法，方法包括：

获取并预处理待处理手绘草图数据，生成手绘草图数据的图结构表示；

将手绘草图数据的图结构表示输入预先训练的图像语义分割模型中；其中，

预先训练的图像语义分割模型是通过根据模型训练样本生成的特征向量训练的，特征向量是将时序信息中所含的序列信息编码到初始特征向量中生成，时序信息和初始特征向量是基于模型训练样本生成的；

根据预先训练的图像语义分割模型计算并输出待处理手绘草图数据对应的语义分割结果。

可选的，获取并预处理待处理手绘草图数据之前，还包括：

采集手绘草图训练数据，并根据预设预处理参数对手绘草图训练数据进行预处理，得到模型训练样本；

创建图像语义分割模型，并将模型训练样本输入图像语义分割模型中进行训练，输出模型损失值；

当模型损失值未到达预设模型优化参数时，将模型损失值进行反向传播，以更新图像语义分割模型的网络参数；

继续执行将模型训练样本输入图像语义分割模型中进行训练的步骤，直到模型损失值到达预设模型优化参数时，生成预先训练的图像语义分割模型。

可选的，根据预设预处理参数对手绘草图训练数据进行预处理，得到模型训练样本，包括：

采用Ramer-Douglas-Peucker算法，并结合预设预处理参数对手绘草图训练数据中每个手绘草图进行采样，得到每个手绘草图的N个采样点；

将N个采样点作为图结构的节点，并根据手绘草图的笔画连接N个采样点作为图结构的边，生成每个手绘草图的图结构表示；

将每个手绘草图的图结构表示确定为模型训练样本。

可选的，图像语义分割模型包括编码器模块、任务模块和解码器模块；

将模型训练样本输入图像语义分割模型中进行训练，输出模型损失值，包括：

将模型训练样本输入编码器模块中，以确定模型训练样本中每个手绘草图的图结构的时序信息，并提取模型训练样本中每个手绘草图的图结构表示的N个采样点的初始特征向量，以及将时序信息中所含的序列信息编码到N个采样点的初始特征向量中，得到N个采样点的特征向量；

将N个采样点的特征向量输入任务模块中，以根据N个采样点的特征向量计算目标语义分割结果；

根据目标语义分割结果和与其对应的真实标签计算交叉熵损失值；

将N个采样点的特征向量输入解码器模块中，以对N个采样点的坐标进行重建，得到重建坐标；

根据重建坐标和N个采样点的原始坐标计算均方差损失值；

将交叉熵损失值与均方差损失值确定为模型损失值。

可选的，对N个采样点的坐标进行重建，得到重建坐标，包括：

对N个采样点的特征向量的每一维特征计算均值和最大值，并将均值和最大值进行拼接，得到每个采样点的拼接向量；

根据每个采样点的拼接向量计算解码器模块中循环神经网络的初始隐状态和初始细胞态；

根据初始隐状态、初始细胞态和N个采样点的特征向量对N个采样点的坐标进行重建，得到重建坐标。

可选的，根据模型损失值对图像语义分割模型进行反向传播，以更新图像语义分割模型的网络参数，包括：

将均方差损失值进行反向传播，并使用梯度下降法优化更新解码器模块的参数；

将交叉熵损失值和均方差损失值进行加权求和，得到加权和；

将加权和进行反向传播，并使用梯度下降法优化更新编码器模块和任务模块的参数。

可选的，预先训练的图像语义分割模型至少包括训练优化的编码器模块、训练优化的任务模块；

根据预先训练的图像语义分割模型计算并输出待处理手绘草图数据对应的语义分割结果，包括：

将手绘草图数据的图结构表示输入训练优化的编码器模块，以提取待处理手绘草图数据的N个采样点的目标特征向量；

将N个采样点的目标特征向量输入训练优化的任务模块，以根据N个采样点的目标特征向量计算N个采样点的语义分割结果；

根据最近邻原则将N个采样点的语义分割结果映射到待处理手绘草图数据对应的原图上进行输出。

第二方面，本申请实施例提供了一种图像语义分割装置，装置包括：

图结构表示生成模块，用于获取并预处理待处理手绘草图数据，生成手绘草图数据的图结构表示；

图结构表示输入模块，用于将手绘草图数据的图结构表示输入预先训练的图像语义分割模型中；其中，

语义分割结果输出模块，用于根据预先训练的图像语义分割模型计算并输出待处理手绘草图数据对应的语义分割结果。

第三方面，本申请实施例提供一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种终端，可包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行上述的方法步骤。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，图像语义分割装置首先获取并预处理待处理手绘草图数据，生成手绘草图数据的图结构表示，然后将手绘草图数据的图结构表示输入预先训练的图像语义分割模型中；其中预先训练的图像语义分割模型是通过根据模型训练样本生成的特征向量训练的，特征向量是将时序信息中所含的序列信息编码到初始特征向量中生成，时序信息和初始特征向量是基于模型训练样本生成的，最后根据预先训练的图像语义分割模型计算并输出待处理手绘草图数据对应的语义分割结果。由于本申请在模型训练的过程中可以引导模型关注图像时序信息并将其中蕴含的序列信息编码进提取到的特征向量中，进一步强化了模型对图像的特征提取能力，从而提升了语义分割精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种图像语义分割方法的流程示意图；

图2是本申请实施例提供的一种手绘草图预处理流程示意图；

图3是本申请实施例提供的一种手绘草图数据的图结构表示的示意图；

图4是本申请实施例提供的一种语义分割结果的流程示意图；

图5是本申请实施例提供的一种语义分割结果映射到原图后输出的结果示意图；

图6是本申请实施例提供的一种图像语义分割模型的模型训练方法的流程示意图；

图7是本申请实施例提供的一种反向传播更新模型参数的流程示意图；

图8是本申请实施例提供的一种模型训练过程和模型应用过程的总体流程示意图；

图9是本申请实施例提供的一种图像语义分割装置的结构示意图；

图10是本申请实施例提供的一种终端的结构示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请提供了一种图像语义分割方法、装置、存储介质及终端，以解决上述相关技术问题中存在的问题。本申请提供的技术方案中，由于本申请在模型训练的过程中可以引导模型关注图像时序信息并将其中蕴含的序列信息编码进提取到的特征向量中，进一步强化了模型对图像的特征提取能力，从而提升了语义分割精度，下面采用示例性的实施例进行详细说明。

下面将结合附图1-附图8，对本申请实施例提供的图像语义分割方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的图像语义分割装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

请参见图1，为本申请实施例提供了一种图像语义分割方法的流程示意图。

如图1所示，本申请实施例的方法可以包括以下步骤：

S101，获取并预处理待处理手绘草图数据，生成手绘草图数据的图结构表示；

其中，手绘草图数据(Sketch)是人类抒发感情、传达意图和标识记录的一种重要的表达方式，在教育、辅助设计、商品检索等领域发挥着重要的作用。手绘草图数据是用户通过触摸平板进行描绘的，也可以是提前描绘好保存的。

在本申请实施例中，在获取并预处理待处理手绘草图数据时，首先获取待处理手绘草图数据，然后采用Ramer-Douglas-Peucker算法对待处理手绘草图数据进行采样，得到待处理手绘草图数据的多个采样点，将多个采样点作为图结构的节点，并根据手绘草图的笔画连接多个采样点作为图结构的边，得到手绘草图数据的图结构表示。

例如图2所示，图2是先将输入的手绘草图数据采样成N个关键点，然后根据N个关键点可将输入的手绘草图数据表示成由节点和边组成的图结构。其中，节点为组成手绘草图的N个关键点，根据手绘草图的笔画连接关键点形成边，例如图3所示。

在一种可能的实现方式中，在进行图像语义分割时，首先获取并预处理待处理手绘草图数据，生成手绘草图数据的图结构表示。

S102，将手绘草图数据的图结构表示输入预先训练的图像语义分割模型中；

其中，预先训练的图像语义分割模型是通过根据模型训练样本生成的特征向量训练的，特征向量是将时序信息中所含的序列信息编码到初始特征向量中生成，时序信息和初始特征向量是基于模型训练样本生成的；

在本申请实施例中，在生成预先训练的图像语义分割模型时，首先采集手绘草图训练数据，并根据预设预处理参数对手绘草图训练数据进行预处理，得到模型训练样本，然后创建图像语义分割模型，并将模型训练样本输入图像语义分割模型中进行训练，输出模型损失值，其次当模型损失值未到达预设模型优化参数时，将模型损失值进行反向传播，以更新图像语义分割模型的网络参数，并继续执行将模型训练样本输入图像语义分割模型中进行训练的步骤，直到模型损失值到达预设模型优化参数时，生成预先训练的图像语义分割模型。

在一种可能的实现方式中，在得到手绘草图数据的图结构表示后，可将手绘草图数据的图结构表示输入预先训练的图像语义分割模型中进行处理。

S103，根据预先训练的图像语义分割模型计算并输出待处理手绘草图数据对应的语义分割结果。

其中，预先训练的图像语义分割模型至少包括训练优化的编码器模块、训练优化的任务模块。

在本申请实施例中，在根据预先训练的图像语义分割模型计算并输出待处理手绘草图数据对应的语义分割结果时，首先将手绘草图数据的图结构表示输入训练优化的编码器模块，以提取待处理手绘草图数据的N个采样点的目标特征向量，然后将N个采样点的目标特征向量输入训练优化的任务模块，以根据N个采样点的目标特征向量计算N个采样点的语义分割结果，最后根据最近邻原则将N个采样点的语义分割结果映射到待处理手绘草图数据对应的原图上进行输出。

在一种可能的实现方式中，例如图4所示，首先使用训练优化的编码器模块提取待处理手绘草图的N个采样点的特征向量，然后使用训练优化的任务模块根据N个采样点的特征向量计算语义分割结果，最后根据最近邻原则将N个采样点的语义分割结果映射到原图并输出，得到最终的图像例如图5所示，不同的粗细的线条代表目标对象的不同组成部分。

请参见图6，为本申请实施例提供了一种图像语义分割模型的模型训练方法的流程示意图。如图6所示，本申请实施例的方法可以包括以下步骤：

S201，采集手绘草图训练数据，并根据预设预处理参数对手绘草图训练数据进行预处理，得到模型训练样本；

在本申请实施例中，在根据预设预处理参数对手绘草图训练数据进行预处理，得到模型训练样本时，首先采用Ramer-Douglas-Peucker算法，并结合预设预处理参数对手绘草图训练数据中每个手绘草图进行采样，得到每个手绘草图的N个采样点，然后将N个采样点作为图结构的节点，并根据手绘草图的笔画连接N个采样点作为图结构的边，生成每个手绘草图的图结构表示，最后将每个手绘草图的图结构表示确定为模型训练样本。

S202，创建图像语义分割模型，并将模型训练样本输入图像语义分割模型中进行训练，输出模型损失值；

通常，图像语义分割模型包括编码器模块、任务模块和解码器模块。

在本申请实施例中，在创建图像语义分割模型时，首先采用图神经网络构建编码器模块，图神经网络可选用Sketch GNN、Edge GNN等多种图神经网络；然后采用多层感知机构建任务模块，最后采用循环神经网络(Recurrent Neural Network，简称为RNN)和多层感知机(Multi-layer Perceptron，简称为MLP，也可成为全连接层(fully-connectedlayer))构建解码器模块，循环神经网络可由常用的长短期记忆网络(Long Short-TermMemory，简称LSTM)或门控循环单元(Gate Recurrent Unit，简称GRU)构成。

进一步地，设置预处理模块的预处理参数(包括但不限于手绘草图的采样点数)；随机初始化编码器模块、任务模块和解码器模块的参数(统称为模型参数)；设置模型训练的优化参数(包括但不限于训练迭代次数、优化器的选择、学习率η等)。

在本申请实施例中，在将模型训练样本输入图像语义分割模型中进行训练，输出模型损失值时，首先将模型训练样本输入编码器模块中，以确定模型训练样本中每个手绘草图的图结构的时序信息，并提取模型训练样本中每个手绘草图的图结构表示的N个采样点的初始特征向量，以及将时序信息中所含的序列信息编码到N个采样点的初始特征向量中，得到N个采样点的特征向量，然后将N个采样点的特征向量输入任务模块中，以根据N个采样点的特征向量计算目标语义分割结果，再根据目标语义分割结果和与其对应的真实标签计算交叉熵损失值，其次将N个采样点的特征向量输入解码器模块中，以对N个采样点的坐标进行重建，得到重建坐标，再根据重建坐标和N个采样点的原始坐标计算均方差损失值，最后将交叉熵损失值与均方差损失值确定为模型损失值。

具体的，在对N个采样点的坐标进行重建，得到重建坐标时，首先对N个采样点的特征向量的每一维特征计算均值和最大值，并将均值和最大值进行拼接，得到每个采样点的拼接向量，然后根据每个采样点的拼接向量计算解码器模块中循环神经网络的初始隐状态和初始细胞态，最后根据所述初始隐状态、初始细胞态和N个采样点的特征向量对N个采样点的坐标进行重建，得到重建坐标。

在一种可能的实现方式中，例如图7所示，由图神经网络构成的编码器模块从输入的手绘草图的图结构(Graph)表示中提取N个采样点的特征向量。具体为，设图神经网络构成的编码器模块为F(·；θ)，其中θ为图神经网络的参数。设输入的手绘草图由图结构表示为X＝<G,E>，其中为N个采样点的二维坐标，E表示边集，记录每个采样点属于哪个笔画。图神经网络提取N个采样点的特征向量的过程可表示为：f＝F(X；θ),其中，/> 即为从N个采样点提取到的特征向量,C为特征向量的维数。

由多层感知机构成的任务模块根据编码器模块提取到的N个采样点的特征向量计算语义分割结果。具体为，设由多层感知机构成的任务模块为H(·；ω),其中ω为多层感知机的参数。任务模块根据采样点的特征向量计算语义分割结果的过程可表示为：其中，/>即为N个采样点分别属于M个类别的预测概率，对每个采样点取预测概率最大的类别作为其预测结果，得到语义分割结果。

根据任务模块输出的语义分割结果和真实标签计算交叉熵损失值(Cross-entropy Loss，简称L_CE损失)；

将编码器模块提取到的N个采样点的特征向量逐个输入由循环神经网络和多层感知机构成的解码器模块，解码器模块逐点重建出N个采样点的原始坐标。具体为，以长短期记忆网络LSTM为例，设解码器模块中的循环神经网络为长短期记忆网络LSTM，解码器模块中的LSTM网络和多层感知机分别表示为和K(·；δ)，其中/>和δ分别表示解码器模块中的LSTM网络和多层感知机的参数。解码器模块逐点重建出N个采样点的原始坐标的过程为：

①计算LSTM网络的初始隐状态(hidden state)h₀和初始细胞态(cell state)c₀：

其中，GAP(·)和GMP(·)为全局平均池化和全局最大池化操作，即对N个采样点的特征向量的每一维特征计算均值(/>)和最大值()。Concat(·)为向量拼接操作，即对GAP(·)和GMP(·)在特征维度上进行拼接，得到/>tanh(·)为双曲正切激活函数，W_h,b_h,W_c和b_c为单层感知机的可学习参数。

解码器模块逐点重建出N个采样点的原始坐标：

根据解码器模块重建的坐标和真实的原始坐标计算均方差损失值(Mean SquareError，简称L_MSE损失)，可表示为：

最后，将交叉熵损失值L_CE损失和均方差损失值L_MSE损失值确定为模型损失值。

S203，当模型损失值未到达预设模型优化参数时，将模型损失值进行反向传播，以更新图像语义分割模型的网络参数；

在一种可能的实现方式中，当模型损失值到达预设模型优化参数时，生成预先训练的图像语义分割模型。

在另一种可能的实现方式中，当模型损失值未到达预设模型优化参数时，首先将均方差损失值进行反向传播，并使用梯度下降法优化更新解码器模块的参数，然后将交叉熵损失值和均方差损失值进行加权求和，得到加权和，最后将加权和进行反向传播，并使用梯度下降法优化更新编码器模块和任务模块的参数。例如图7所示，在得到交叉熵损失值L_CE损失和均方差损失值L_MSE损失后，反向传播均方差损失并使用梯度下降法优化更新解码器模块的参数，可表示为：

其中，η为学习率；

反向传播交叉熵损失和均方差损失的加权和并使用梯度下降法优化更新编码器模块和任务模块的参数，可表示为：

其中，λ为权重值。

S204，继续执行将模型训练样本输入图像语义分割模型中进行训练的步骤，直到模型损失值到达预设模型优化参数时，生成预先训练的图像语义分割模型。

在一种可能的实现方式中，在将模型损失值进行反向传播，以更新图像语义分割模型的网络参数后，可继续执行将模型训练样本输入图像语义分割模型中进行训练的步骤，直到模型损失值到达预设模型优化参数时，生成预先训练的图像语义分割模型。

例如图8所示，图8是本申请提供的一种模型训练过程和模型应用过程的总体示意图，步骤如下：

其中，网络模型训练过程的处理流程为：

(1)设置预处理模块的预处理参数(包括但不限于手绘草图的采样点数)；

(2)使用预处理模块对手绘草图训练数据进行预处理；

(3)随机初始化编码器模块、任务模块和解码器模块的参数(统称为模型参数)；

(4)设置模型训练的优化参数(包括但不限于训练迭代次数、优化器的选择、学习率η等)；

(5)向编码器-解码器网络输入供模型训练的手绘草图数据并计算模型处理结果和损失函数；

(6)通过损失函数计算结果的反向传播优化更新模型参数；

(7)重复步骤(5)和(6)直到达到步骤(4)设置的训练迭代次数或已取得所需的性能效果。

网络模型测试/应用过程的处理流程为：

(1)输入待处理的手绘草图数据；

(2)使用预处理模块对待处理的手绘草图数据进行预处理；

(3)使用经过训练过程后得到的经过优化更新的编码器模块和任务模块计算待处理手绘草图数据的语义分割结果；

(4)输出待处理手绘草图数据的语义分割结果。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参见图9，其示出了本发明一个示例性实施例提供的图像语义分割装置的结构示意图。该图像语义分割装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括图结构表示生成模块10、图结构表示输入模块20、语义分割结果输出模块30。

图结构表示生成模块10，用于获取并预处理待处理手绘草图数据，生成手绘草图数据的图结构表示；

图结构表示输入模块20，用于将手绘草图数据的图结构表示输入预先训练的图像语义分割模型中；其中，

语义分割结果输出模块30，用于根据预先训练的图像语义分割模型计算并输出待处理手绘草图数据对应的语义分割结果。

需要说明的是，上述实施例提供的图像语义分割装置在执行图像语义分割方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像语义分割装置与图像语义分割方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本发明还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的图像语义分割方法。

本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例的图像语义分割方法。

请参见图10，为本申请实施例提供了一种终端的结构示意图。如图10所示，终端1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及图像语义分割应用程序。

在图10所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的图像语义分割应用程序，并具体执行以下操作：

在一个实施例中，处理器1001在执行获取并预处理待处理手绘草图数据之前时，还执行以下操作：

在一个实施例中，处理器1001在执行根据预设预处理参数对手绘草图训练数据进行预处理，得到模型训练样本时，具体执行以下操作：

将每个手绘草图的图结构表示确定为模型训练样本。

在一个实施例中，处理器1001在执行将模型训练样本输入图像语义分割模型中进行训练，输出模型损失值时，具体执行以下操作：

根据重建坐标和N个采样点的原始坐标计算均方差损失值；

将交叉熵损失值与均方差损失值确定为模型损失值。

在一个实施例中，处理器1001在执行对N个采样点的坐标进行重建，得到重建坐标时，具体执行以下操作：

根据所述初始隐状态、初始细胞态和N个采样点的特征向量对N个采样点的坐标进行重建，得到重建坐标。

在一个实施例中，处理器1001在执行根据模型损失值对图像语义分割模型进行反向传播，以更新图像语义分割模型的网络参数时，具体执行以下操作：

在一个实施例中，处理器1001在执行根据预先训练的图像语义分割模型计算并输出待处理手绘草图数据对应的语义分割结果时，具体执行以下操作：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，图像语义分割的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种图像语义分割方法，其特征在于，所述方法包括：

所述预先训练的图像语义分割模型是通过根据模型训练样本生成的特征向量训练的，所述特征向量是将时序信息中所含的序列信息编码到初始特征向量中生成，所述时序信息和初始特征向量是基于所述模型训练样本生成的；

根据预先训练的图像语义分割模型计算并输出所述待处理手绘草图数据对应的语义分割结果；其中，

所述获取并预处理待处理手绘草图数据之前，还包括：

创建图像语义分割模型，并将所述模型训练样本输入所述图像语义分割模型中进行训练，输出模型损失值；

当所述模型损失值未到达预设模型优化参数时，将所述模型损失值进行反向传播，以更新所述图像语义分割模型的网络参数；

继续执行所述将所述模型训练样本输入所述图像语义分割模型中进行训练的步骤，直到所述模型损失值到达预设模型优化参数时，生成预先训练的图像语义分割模型；其中，

所述图像语义分割模型包括编码器模块、任务模块和解码器模块；

所述将所述模型训练样本输入所述图像语义分割模型中进行训练，输出模型损失值，包括：

将所述模型训练样本输入所述编码器模块中，以确定所述模型训练样本中每个手绘草图的图结构的时序信息，并提取所述模型训练样本中每个手绘草图的图结构表示的N个采样点的初始特征向量，以及将所述时序信息中所含的序列信息编码到所述N个采样点的初始特征向量中，得到N个采样点的特征向量；

将N个采样点的特征向量输入所述任务模块中，以根据N个采样点的特征向量计算目标语义分割结果；

根据所述目标语义分割结果和与其对应的真实标签计算交叉熵损失值；

将N个采样点的特征向量输入所述解码器模块中，以对N个采样点的坐标进行重建，得到重建坐标；

根据所述重建坐标和N个采样点的原始坐标计算均方差损失值；

将所述交叉熵损失值与所述均方差损失值确定为模型损失值。

2.根据权利要求1所述的方法，其特征在于，所述根据预设预处理参数对手绘草图训练数据进行预处理，得到模型训练样本，包括：

采用Ramer-Douglas-Peucker算法，并结合预设预处理参数对所述手绘草图训练数据中每个手绘草图进行采样，得到每个手绘草图的N个采样点；

将所述N个采样点作为图结构的节点，并根据所述手绘草图的笔画连接所述N个采样点作为图结构的边，生成每个手绘草图的图结构表示；

将每个手绘草图的图结构表示确定为模型训练样本。

3.根据权利要求1所述的方法，其特征在于，所述对N个采样点的坐标进行重建，得到重建坐标，包括：

对N个采样点的特征向量的每一维特征计算均值和最大值，并将所述均值和最大值进行拼接，得到每个采样点的拼接向量；

根据每个采样点的拼接向量计算所述解码器模块中循环神经网络的初始隐状态和初始细胞态；

4.根据权利要求1所述的方法，其特征在于，所述根据所述模型损失值对所述图像语义分割模型进行反向传播，以更新所述图像语义分割模型的网络参数，包括：

将所述均方差损失值进行反向传播，并使用梯度下降法优化更新所述解码器模块的参数；

将所述交叉熵损失值和所述均方差损失值进行加权求和，得到加权和；

将所述加权和进行反向传播，并使用梯度下降法优化更新所述编码器模块和任务模块的参数。

5.根据权利要求1所述的方法，其特征在于，所述预先训练的图像语义分割模型至少包括训练优化的编码器模块、训练优化的任务模块；

所述根据预先训练的图像语义分割模型计算并输出所述待处理手绘草图数据对应的语义分割结果，包括：

将手绘草图数据的图结构表示输入训练优化的编码器模块，以提取所述待处理手绘草图数据的N个采样点的目标特征向量；

根据最近邻原则将N个采样点的语义分割结果映射到所述待处理手绘草图数据对应的原图上进行输出。

6.一种图像语义分割装置，其特征在于，所述装置包括：

语义分割结果输出模块，用于根据预先训练的图像语义分割模型计算并输出所述待处理手绘草图数据对应的语义分割结果；其中，

所述装置还具体用于：

7.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-5任意一项的方法步骤。

8.一种终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1-5任意一项的方法步骤。