CN110188765B

CN110188765B - 图像语义分割模型生成方法、装置、设备及存储介质

Info

Publication number: CN110188765B
Application number: CN201910489560.0A
Authority: CN
Inventors: 王婷婷
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2021-04-06
Anticipated expiration: 2039-06-05
Also published as: US11244196B2; WO2020244108A1; US20210406582A1; CN110188765A

Abstract

本申请公开了图像语义分割模型生成方法、装置、设备及存储介质。该方法包括：获取图像样本集；利用图像样本集训练图像语义分割模型，图像语义分割模型包括特征图提取部分和特征图分析部分，特征图提取部分包括多个级联的空洞卷积处理的残差模块，特征图分析部分是基于注意力机制、像素相关性机制以及多尺度信息来构建的。根据本申请实施例的技术方案，有效地利用注意力机制学习空间位置和通道维度上的依赖关系，增强特征表达能力，并利用像素相关性机制使得分割结果更加准确，同时还利用多个尺度特征信息学习全局场景，以提高像素点分类的准确性。

Description

图像语义分割模型生成方法、装置、设备及存储介质

技术领域

本申请一般涉及数据处理技术领域，尤其涉及图像语义分割模型生成方法、装置、设备及存储介质。

背景技术

图像语义分割是图像理解的基础技术，其在自动驾驶系统、无人机以及穿戴式设备中的应用举足轻重。通常图像是由许多像素(Pixel)组成，而“语义分割”就是将像素按照图像中表达语义含义的不同进行分组(Grouping)/分割(Segmentation)。

深度学习在计算机视觉、图像视频分析领域的应用取得了巨大成功。使用深度学习进行图像分割，可以理解为对图像中每个像素进行分类，即对输入图像中出现的物体进行分类并定位不同的类别的物体的位置。但是，基于深度学习进行图像分割仍然存在匹配关系错误、模糊分类、无视小目标物体等缺点。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种图像语义分割模型生成方法、装置、设备及存储介质，来提升图像分割的准确率。

第一方面，本申请实施例提供了一种图像语义分割模型生成方法，该方法包括：

获取图像样本集；

利用图像样本集训练图像语义分割模型，图像语义分割模型包括特征图提取部分和特征图分析部分，特征图提取部分包括多个级联的残差模块和至少一个空洞卷积模块，特征图分析部分是基于注意力机制、像素相关性机制以及多尺度信息来构建的。

第二方面，本申请实施例提供了一种图像语义分割模型生成装置，该装置包括：

获取单元，用于获取图像样本集；

训练单元，用于利用图像样本集训练图像语义分割模型，图像语义分割模型包括特征图提取部分和特征图分析部分，特征图提取部分包括多个级联的残差模块和至少一个空洞卷积模块，特征图分析部分是基于注意力机制、像素相关性机制以及多尺度信息来构建的。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如本申请实施例描述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序用于：

该计算机程序被处理器执行时实现如本申请实施例描述的方法。

本申请实施例提供的图像语义分割模型生成方案，通过结合特征图提取部分和特征图分析部分来构建图像语义分割模型，其中特征提取部分包括多个级联的空洞卷积处理的残差模块，可以在不损失信息的情况下增大感受野，特征图分析部分基于注意力机制、像素相关性机制以及多尺度信息来构建，有效地利用注意力机制学习空间位置和通道维度上的依赖关系，增强特征表达能力，并利用像素相关性机制使得分割结果更加准确。

进一步地，通过并行地利用双重注意力子模型和金字塔池化子模型以及与之分别级联的条件随机场子模型构建的图像语义分割模型，可以利用不同尺度上下文信息学习全局场景的特征。

进一步地，通过并行地利用双重注意力子模型和金字塔池化子模型以及与之分别级联的第一条件随机场子模型和第二条件随机场子模型，以及将特征图提取部分的局部信息输入到第三条件随机场子模型，然后将预测结果进行全局融合，从而提高分割准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了本申请实施例提供的图像语义分割模型生成方法的流程示意图；

图2示出了本申请又一实施例提供的图像语义分割模型生成方法的流程示意图；

图3示出了本申请又一实施例提供的图像语义分割模型生成方法的流程示意图；

图4示出了本申请实施例提供的图像语义分割模型示意图；

图5示出了本申请实施例提供双重注意力子模型402结构示意图；

图6示出了本申请又一实施例提供的图像语义分割模型示意图；

图7示出了根据本申请一个实施例的图像语义分割模型生成装置600的示例性结构框图；

图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关公开，而非对该公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与公开相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，图1示出了本申请实施例提供的图像语义分割模型生成方法的流程示意图。

如图1所示，该方法包括：

步骤101，获取图像样本集。

步骤102，利用图像样本集训练图像语义分割模型，该图像语义分割模型包括特征图提取部分和特征图分析部分。该特征图提取部分包括多个级联的空洞卷积处理的残差模块。该特征图分析部分是基于注意力机制、像素相关性机制以及多尺度信息来构建的。

本申请实施例中可以通过专业图数据库或者其他方式获取大量的图像样本，或者对数量有限的图像样本进行增强处理以获得训练要求的图像样本。

按照一定比例将图像样本集进行划分，例如7：3，8：2，9：1等比例，不限定划分比例，仅作为示例描述。

利用图像样本集进行深度学习，深度学习训练过程可以是先逐层构建单层处理结构，例如神经元、卷积单元。在所有层训练完成之后，使用相关的调优算法对构建的模型进行参数优化。

本申请实施例中利用图像样本集训练图像语义分割模型包括以下步骤：

将图像样本集划分为训练集和验证集；

构建损失函数；其中，损失函数是基于归一化交叉熵形式来表征图像语义分割模型的输出结果；

迭代地利用训练集对图像语义分割模型进行训练学习，使得损失函数值趋于最小值；

利用验证集对经过训练学习的图像语义分割模型进行评估。

例如，可以将图像样本集划分训练集和验证集，当采用图像样本集逐层地训练处理结构，例如特征图提取部分的多个处理结构可以包括多个级联的空洞卷积处理的残差模块。例如，可以是ResNet101网络，并对ResNet101网络中的每个残差模块进行空洞卷积处理。利用训练集逐层训练特征图提取部分后，再依次训练特征图像分析部分的处理结构，图像分析处理部分的处理结构可以包括多个卷积模块。

本申请实施例中特征图像分析部分可以采用基于注意力机制和像素相关性机制的算法来构建。可以采用至少两种特征图分析子模型的组合来构建特征图分析部分。其中，特征图分析子模型包括双重注意力子模型、金字塔池化子模型、条件随机场子模型、。

例如，可以采用双重注意力子模型和第一条件随机场子模型的级联来提升图像分割结果的精度。

也可以采用双重注意力子模型之后级联第一条件随机场子模型，并行地在金字塔池化子模型之后级联第二条件随机场子模型，通过双重注意力子模型学习空间位置和通道维度上的依赖关系的同时，利用不同尺度上下文信息学习全局场景的特征，以提高像素点分类的准确性。

还可以采用双重注意力子模型后级联第一条件随机场子模型，并行地在金字塔池化子模型之后级联第二条件随机场子模型，以及将特征图提取部分的倒数第二个残差模块的输出结果输入到第三条件随机场子模型，其可以利用多尺度信息来提升图像分割的准确性。

本申请实施例，通过引入空洞卷积处理的残差模块在不损失图像信息的情况下增大图像的感受野，并通过基于注意力机制、像素相关性机制以及多尺度信息构建的特征图分析部分来对精准地分割图像，提高图像分割的准确率。

请参考图2，图2示出了本申请又一实施例提供的图像语义分割模型生成方法的流程示意图。如图2所示，该方法包括：

步骤201，获取图像样本集：

步骤202，利用图像样本集训练特征图提取部分。。

本步骤中，特征图提取部分如图4所示的401部分，图4示出了本申请实施例提供的图像语义分割模型示意图。其中401部分包括5个级联的残差模块，其中每个残差模块都采用空洞卷积进行处理。图像数据输入到第1个残差模块后依次经过第2-5个残差模块。空洞卷积层是在不降低空间维度的前提下增大相应的感受野。其中，401部分可以为ResNet101网络。

步骤203，将特征图提取部分的最后一个残差模块输出的特征图，分别输入到双重注意力子模型和金字塔池化子模型。

步骤204，将双重注意力子模型输出的特征图经过反卷积操作后，输入到第一条件随机场子模型。其中，第一条件随机场子模型输出的图像样本集中每个图像样本中每个像素的第一预测值。

步骤205，将金字塔池化子模型输出的特征图经过反卷积操作后，输入到第二条件随机场子模型。其中，第二条件随机场子模型输出的图像样本集中每个图像样本中每个像素的第二预测值。

步骤206，分别计算第一预测值和第二预测值对应的第一损失值和第二损失值，并将第一损失值和第二损失值按照权重系数求和作为图像语义分割模型的损失函数。

本申请实施例中，如图4所示，将401部分输出的特征图分别输入到双重注意力子模型402和金字塔池化子模型403。其中，双重注意力子模型参见图5。图5示出了本申请实施例提供双重注意力子模型402结构示意图。双重注意力子模型可以包括位置注意力模块和通道注意力模块。401部分输出的特征图为7*7*2048，分别经过卷积模块501-1和501-2输出至位置注意力模块502和通道注意力模块503，其中卷积模块501-1和501-2的卷积核为3*3*2048，输出通道数为512。经过位置注意力模块502输出的特征图输入到卷积模块504-1，经过通道注意力模块503输出的特征图输入到卷积模块504-2，其中卷积模块504-1和504-2的卷积核为3*3*512，输出通道数为512。然后，将卷积模块504-1和504-2输出的结果相加融合，得到最终的特征用于像素点分类。最后，输入到卷积模块505，其卷积和为1*1*512，输出通道为N，N为类别数+1。

金字塔池化子模型403将空洞卷积模块输出的特征图分别进行池化，池化核大小分别为1*1，2*2，3*3，6*6。通过卷积层将每个池化后的结果的通道数进行缩减。例如，特征图提取部分输出的特征图的通道数为2048，则经过池化后，每个池化核对应的卷积的输出通道数为512。再使用上采样获得与特征图提取部分输出的特征图的大小一致的特征图，将上采样输出的特征图与空洞卷积模块输出的特征图进行合并，得到新的特征图，将新的特征图经过卷积和反卷积操作，尺寸恢复到原图像的大小，通道数与类别数目也相同。

如图4所示，将双重注意力子模型402输出的特征图经过反卷积操作后，输入到第一条件随机场子模型404。

将金字塔池化子模型403输出的特征图经过反卷积操作后，输入到第二条件随机场子模型405。第一条件随机场子模型404和第二条件随机场子模型405目的是获得最优条件概率密度函数。将双重注意力子模型输出的结果输入到第一条件随机场子模型404得到第一预测值。将金字塔池化子模型405输出的结果输入到第二条件随机场子模型405得到第二预测值。

其中，损失值计算公式为：

其中，y_i为第i个像素的标签值，N为类别总数，，f(z_k)为预测概率，z_k为相应的条件随机场子模型的卷积处理后的输出结果。

例如，双重注意力子模型402的输出经过反卷积输出的结果，输入到第一条件随机场子模型404，第一条件随机场子模型404输出的结果为z_k，对该预测值按照上面的公式计算第一损失值Loss1。

金字塔池化子模型403的输出经过反卷积输出的结果，输入到第二条件随机场子模型405，第二条件随机场子模型输出的结果为z_k，对该预测值按照上面的公式计算第二损失值Loss2。

将第一损失值和第二损失值按照权重系数求和作为图像语义分割模型的损失函数，即

Loss＝Loss1+λ₁Loss2

请参考图3，图3示出了本申请又一实施例提供的图像语义分割模型生成方法的流程示意图。如图3所示，该方法包括：

步骤301，获取图像样本集：

步骤302，利用图像样本集训练特征图提取部分。其中，该特征图提取部分如图6所示的401，其中401部分的最后一个残差模块输出第一特征图。该特征图提取部分401中第四个残差模块输出第二特征图。第一特征图与第二特征图的大小不同。第一特征图的大小可以7*7*2048，第二特征图的大小为14*14*1024。但是，第一特征图与第二特征图的输出通道数相同。

步骤303，将特征图提取部分的最后一个残差模块输出的第一特征图，分别输入到双重注意力子模型和金字塔池化子模型；

步骤304，将双重注意力子模型输出的第一特征图经过反卷积操作后，输入到第一条件随机场子模型。其中，第一条件随机场子模型输出的图像样本集中每个图像样本中每个像素的第一预测值。

步骤305，将金字塔池化子模型输出的第一特征图经过反卷积操作后，输入到第二条件随机场子模型。第二条件随机场子模型输出的图像样本集中每个图像样本中每个像素的第二预测值。

步骤306，将特征图提取部分的倒数第二个的残差模块输出的第二特征图经过反卷积操作后，输入到第三条件随机场子模型。第三条件随机场子模型输出的图像样本集中每个图像样本中每个像素的第三预测值。

步骤307，分别计算第一预测值、第二预测值和第三预测值对应的第一损失值、第二损失值和第三损失值，并将第一损失值、第二损失值和第三损失值按照权重系数求和作为图像语义分割模型的损失函数。

本申请实施例中，特征图提取部分如图6所示的401部分。图6示出了本申请又一实施例提供的图像语义分割模型示意图。其中401部分包括5个级联的残差模块，其中每个残差模块都按照空洞卷积进行处理。图像数据输入到第1个残差模块后依次经过第2-5个残差模块。。空洞卷积层是在不降低空间维度的前提下增大相应的感受野。

将401部分最后一个残差模块输出的第一特征图分别输入到双重注意力子模型402和金字塔池化子模型403。将401部分的第四个残差模块输出的第二特征图经过反卷积操作后，输入到第三条件随机场子模型406。

第四个残差模块输出通道数为1024，可以看作是局部信息，将第二特征图输入到级联的3个卷积模块，第1个卷积模块的卷积核为1*1，输出通道数为512，第2个卷积模块的卷积核为3*3，输出通道数为512，第3个卷积模块的卷积核1*1，输出通道为N+1，N为类别数，第二特征图经过反卷积操作，尺寸恢复到原图像大小，通道数与类别数据一致，经过条件随机场精细分割，同样使用归一化交叉熵计算损失值。

其中，双重注意力子模型402可以参见图5示出的双重注意力子模型结构示意图。金字塔池化子模型403也可以与图4中金字塔池化子模型的处理结构相同。

如图6所示，将双重注意力子模型402输出的特征图经过反卷积操作后，输入到第一条件随机场子模型405。

将金字塔池化子模型403输出的特征图经过反卷积操作后，输入到第二条件随机场子模型406。将双重注意力子模型输出的结果输入到第一条件随机场子模型得到第一预测值。将金字塔池化子模型输出的结果输入到第二条件随机场子模型得到第二预测值。将401部分的第四个残差模块输出的特征图经过反卷积操作后，输入到第三条件随机场子模型得到第三预测值。

分别计算第一预测值、第二预测值和第三预测值对应的第一损失值、第二损失值和第三损失值：

例如，第一条件随机场子模型404输出的结果为z_k1，对该预测值按照上面的公式计算第一损失值Loss1；

第二条件随机场子模型405输出的结果为z_k2，对该预测值按照上面的公式计算第一损失值Loss2；

第三条件随机场子模型404输出的结果为z_k3，对该预测值按照上面的公式计算第一损失值Loss3。

将第一损失值、第二损失值和第三损失值按照权重系数求和作为图像语义分割模型的损失函数。

训练时，使用的总的损失函数可以表示为：

loss＝Loss1+λ₁Loss2+λ₂Loss3

λ₁，λ₂为权衡参数，用于权衡Loss1、Loss2和Loss3比重。其中，第一损失值Loss1用于表示第一条件随机场输出的特征图的所有像素的交叉熵，第二损失值Loss2用于表示第二条件随机场输出的特征图的所有像素的交叉熵，第三损失值Loss3用于表示第三条件随机场输出的特征图的所有像素的交叉熵。

应当注意，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

参考图7，图7示出了根据本申请一个实施例的图像语义分割模型生成装置600的示例性结构框图。如图7所示，该装置600包括：

获取单元601，用于获取图像样本集。

训练单元602，用于利用图像样本集训练图像语义分割模型，该图像语义分割模型包括特征图提取部分和特征图分析部分。该特征图提取部分包括多个级联的空洞卷积处理的残差模块。该特征图分析部分是基于注意力机制和像素相关性机制算法构建的。

训练单元还用于：

利用图像样本集训练所述特征图提取部分；

将特征图提取部分的最后一个残差模块输出的特征图，分别输入到双重注意力子模型和金字塔池化子模型；

将双重注意力子模型输出的特征图经过反卷积操作后，输入到第一条件随机场子模型。第一条件随机场子模型输出的图像样本集中每个图像样本中每个像素的第一预测值。

将金字塔池化子模型输出的特征图经过反卷积操作后，输入到第二条件随机场子模型。第二条件随机场子模型输出的图像样本集中每个图像样本中每个像素的第二预测值。

分别计算第一预测值和第二预测值对应的第一损失值和第二损失值，并将第一损失值和第二损失值按照权重系数求和作为图像语义分割模型的损失函数。

训练单元还用于：

利用图像样本集训练所述特征图提取部分；

将特征图提取部分的最后一个残差模块输出的第一特征图，分别输入到待训练的双重注意力子模型和金字塔池化子模型；

将双重注意力子模型输出的第一特征图经过反卷积操作后，输入到第一条件随机场子模型，第一条件随机场子模型输出的图像样本中每个图像样本的每个像素的第一预测值；

将金字塔池化子模型输出的第一特征图经过反卷积操作后，输入到第二条件随机场子模型。第二条件随机场子模型输出的图像样本集中每个图像样本的每个像素的第二预测值；

并将特征图提取部分中倒数第二个残差模块输出的第二特征图经过反卷积操作后，输入到第三条件随机场子模型。第三条件随机场子模型输出的图像样本集的每个图像样本中每个像素的第三预测值；

分别计算第一预测值、第二预测值和第三预测值对应的第一损失值、第二损失值和第三损失值，并将第一损失值、第二损失值和第三损失值按照权重系数求和作为图像语义分割模型的损失函数。

应当理解，装置600中记载的诸单元或模块与参考图1描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置600及其中包含的单元，在此不再赘述。装置600可以预先实现在电子设备的浏览器或其他安全应用中，也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。装置600中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。

在上文详细描述中提及的若干模块或者单元，这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

下面参考图8，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统700的结构示意图。

如图8所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图图1-3描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在机器可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、训练单元。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，获取单元还可以被描述为“用于获取图像样本集的单元”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序，当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的图像语义分割模型生成方法。以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种图像语义分割模型生成方法，其特征在于，该方法包括：

获取图像样本集；

利用所述图像样本集训练图像语义分割模型，所述图像语义分割模型包括特征图提取部分和特征图分析部分，所述特征图提取部分包括多个级联的空洞卷积处理的残差模块，所述特征图分析部分是基于注意力机制、像素相关性机制以及多尺度信息来构建的；

其中，所述特征图分析部分包括双重注意力子模型、第一条件随机场子模型、金字塔池化子模型和第二条件随机场子模型，则利用所述图像样本集训练图像语义分割模型包括以下步骤：

利用所述图像样本集训练所述特征图提取部分；

将所述特征图提取部分的最后一个残差模块输出的特征图，分别输入到待训练的所述双重注意力子模型和所述金字塔池化子模型；

将所述双重注意力子模型输出的特征图经过反卷积操作后，输入到所述第一条件随机场子模型，所述第一条件随机场子模型输出的所述图像样本集中每个图像样本的每个像素的第一预测值；

将所述金字塔池化子模型输出的特征图经过反卷积操作后，输入到所述第二条件随机场子模型，所述第二条件随机场子模型输出的所述图像样本集中每个图像样本的每个像素的第二预测值；

分别计算所述第一预测值和所述第二预测值对应的第一损失值和第二损失值，并将所述第一损失值和所述第二损失值按照权重系数求和作为所述图像语义分割模型的损失函数。

2.根据权利要求1所述的图像语义分割模型生成方法，其特征在于，利用所述图像样本集训练图像语义分割模型包括以下步骤：

将所述图像样本集划分为训练集和验证集；

构建损失函数，所述损失函数是基于归一化交叉熵形式来表征所述图像语义分割模型的输出结果；

迭代地利用所述训练集对所述图像语义分割模型进行训练学习，使得所述损失函数值趋于最小值；

利用所述验证集对经过训练学习的所述图像语义分割模型进行评估。

3.根据权利要求1所述的图像语义分割模型生成方法，其特征在于，所述特征图分析部分还包括：双重注意力子模型、第一条件随机场子模型、金字塔池化子模型、第二条件随机场子模型和第三条件随机场子模型，则利用所述图像样本集训练图像语义分割模型包括以下步骤：

利用所述图像样本集训练所述特征图提取部分；

将所述特征图提取部分的最后一个残差模块输出的第一特征图，分别输入到待训练的所述双重注意力子模型和所述金字塔池化子模型；

将所述双重注意力子模型输出的第一特征图经过反卷积操作后，输入到所述第一条件随机场子模型，所述第一条件随机场子模型输出的所述图像样本中每个图像样本的每个像素的第一预测值；

将所述金字塔池化子模型输出的第一特征图经过反卷积操作后，输入到所述第二条件随机场子模型，所述第二条件随机场子模型输出的所述图像样本集中每个图像样本的每个像素的第二预测值；

并将所述特征图提取部分中倒数第二个残差模块输出的第二特征图经过反卷积操作后，输入到所述第三条件随机场子模型，所述第三条件随机场子模型输出的所述图像样本集的每个图像样本中每个像素的第三预测值；

分别计算所述第一预测值、所述第二预测值和所述第三预测值对应的第一损失值、第二损失值和第三损失值，并将所述第一损失值、所述第二损失值和所述第三损失值按照权重系数求和作为所述图像语义分割模型的损失函数。

4.根据权利要求3所述的图像语义分割模型生成方法，将所述第一损失值、所述第二损失值和第三损失值按照权重系数求和作为所述图像语义分割模型的损失函数，包括以下步骤：

对所述第一条件随机场子模型输出的第一预测值按照归一化交叉熵计算得到所述第一损失值；

对所述第二条件随机场子模型输出的第二预测值按照归一化交叉熵计算得到所述第二损失值；

对所述第三条件随机场子模型输出的第三预测值按照归一化交叉熵计算得到所述第三损失值；

所述损失函数是对所述第一损失值、所述第二损失值与第一权重值的乘积、所述第三损失值与第二权重值的乘积的求和结果。

5.一种图像语义分割模型生成装置，其特征在于，该装置包括:

获取单元，用于获取图像样本集；

训练单元，用于利用所述图像样本集训练图像语义分割模型，所述图像语义分割模型包括特征图提取部分和特征图分析部分，所述特征图提取部分包括多个级联的空洞卷积处理的残差模块，所述特征图分析部分是特征图分析部分是基于注意力机制、像素相关性机制以及多尺度信息来构建的；

所述特征图分析部分包括双重注意力子模型、第一条件随机场子模型、和金字塔池化子模型和第二条件随机场子模型，则所述训练单元还用于：

利用所述图像样本集训练所述特征图提取部分；

将所述特征图提取部分的最后一个残差模块输出的特征图，分别输入到所述双重注意力子模型和所述金字塔池化子模型；

将所述双重注意力子模型输出的特征图经过反卷积操作后，输入到所述第一条件随机场子模型，所述第一条件随机场子模型输出的所述图像样本集中每个图像样本中每个像素的第一预测值；

将所述金字塔池化子模型输出的特征图经过反卷积操作后，输入到所述第二条件随机场子模型，所述第二条件随机场子模型输出的所述图像样本集中每个图像样本中每个像素的第二预测值；

6.根据权利要求5所述的图像语义分割模型生成装置，其特征在于，所述特征图分析部分还包括：双重注意力子模型、第一条件随机场子模型、金字塔池化子模型、第二条件随机场子模型和第三条件随机场子模型，则所述训练单元还用于：

利用所述图像样本集训练所述特征图提取部分；

将所述特征图提取部分的最后一个残差模块输出的第一特征图，分别输入所述双重注意力子模型和所述金字塔池化子模型；

将所述双重注意力子模型输出的第一特征图经过反卷积操作后，输入到所述第一条件随机场子模型，所述第一条件随机场子模型输出的所述图像样本中每个图像样本中每个像素的第一预测值；

将所述金字塔池化子模型输出的第一特征图经过反卷积操作后，输入到所述第二条件随机场子模型，所述第二条件随机场子模型输出的所述图像样本集中每个图像样本中每个像素的第二预测值；

并将所述特征图提取部分中倒数第二个残差模块输出的第二特征图经过反卷积操作后，输入到所述第三条件随机场子模型，所述第三条件随机场子模型输出的所述图像样本集中每个图像样本中每个像素的第三预测值；

分别计算所述第一预测值、所述第二预测值和所述第三预测值对应的第一损失值、第二损失值和第三损失值，并将所述第一损失值、所述第二损失值和第三损失值按照权重系数求和作为所述图像语义分割模型的损失函数。

7.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。