CN111104962A

CN111104962A - 图像的语义分割方法、装置、电子设备及可读存储介质

Info

Publication number: CN111104962A
Application number: CN201911073016.4A
Authority: CN
Inventors: 梁晓辉; 卢杨; 王平平; 于洋; 冷芝莹
Original assignee: Beihang University Qingdao Research Institute
Current assignee: Beihang University Qingdao Research Institute
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-05-05
Anticipated expiration: 2039-11-05
Also published as: CN111104962B

Abstract

本发明公开了一种图像的语义分割方法、装置及电子设备。该方法通过包括特征提取模块、特征聚合模块以及特征融合模块的语义分割模型实施，包括：通过特征提取模块，提取目标图像的浅层特征和深层特征，并根据深层特征构建目标图像的特征金字塔；特征金字塔包括对应图像在不同尺度上的深层特征；通过特征聚合模块，对目标图像的特征金字塔中每个不同尺度的深层特征进行聚合处理，得到聚合特征图；通过特征融合模块，融合目标图像的浅层特征以及聚合特征图，得到融合特征图，以根据融合特征图获取对应的语义分割结果。

Description

图像的语义分割方法、装置、电子设备及可读存储介质

技术领域

本发明涉及图像处理技术领域，更具体地，涉及一种图像的语义分割方法、装置、电子设备及可读存储介质。

背景技术

图像的语义分割又称为图像的语义标注，是指根据图像的语义信息，为图像中的每个像素单元(像素单元可以是一个或者预设个数的像素点)归类一个类别标签，根据与语义信息对应的类别标签，将图像分割为分别对应不同语义信息的图像区域。图像的语义分割在自动驾驶、场景理解、机器人视觉、医学图像分析等领域具有广泛的应用前景。

虽然，随着深度卷积神经网络的出现，图像的语义分割这类计算机视觉处理任务得到突破性的发展，但是，由于图像的语义分割实施的复杂性，仍然存在较多问题，例如，对于图像中包括不同尺度的对象(例如建筑、景物、人物等)，通过目前主流的图像的语义分割方法(例如，强监督的方法)，无法精准分割，图像的语义分割的精度较低。

发明内容

本发明的一个目的是提供一种用于图像的语义分割的新技术方案。

根据本发明的第一方面，提供了一种像的语义分割方法，通过语义分割模型实施，所述语义分割模型包括特征提取模块、特征聚合模块以及特征融合模块，所述方法包括：

通过所述特征提取模块，提取目标图像的浅层特征和深层特征，并根据所述深层特征构建所述目标图像的特征金字塔；所述特征金字塔包括对应图像在不同尺度上的所述深层特征；

通过所述特征聚合模块，对所述目标图像的特征金字塔中每个不同尺度的所述深层特征进行聚合处理，得到聚合特征图；

通过所述特征融合模块，融合所述目标图像的浅层特征以及所述聚合特征图，得到融合特征图，以根据所述融合特征图获取对应的语义分割结果。

根据本发明的第二方面，提供一种图像的语义分割装置，包括：

特征提取模块，用于提取所述目标图像的浅层特征和深层特征，并根据所述深层特征构建目标图像的特征金字塔；所述特征金字塔包括对应图像在不同尺度上的所述深层特征；

特征聚合模块，用于对所述目标图像的特征金字塔中每个不同尺度的所述深层特征进行聚合处理，得到聚合特征图；

特征融合模块，用于融合所述目标图像的浅层特征以及所述聚合特征图，得到融合特征图，以根据所述融合特征图获取对应的语义分割结果。

根据本发明的第三方面，提供一种电子设备，包括：

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的指令，运行所述电子设备，执行如本发明的第一方面所述的图像的语义分割方法。

根据本发明的第四方面，提供一种可读存储介质，存储有可被计算机读取执行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行如本发明第一方面所述的图像的语义分割方法。

根据本发明的一个实施例，以上已经结合附图和例子说明本实施例中提供的图像的语义分割方法，通过提取目标图像的浅层特征和深层特征，并根据深层特征构建目标图像的特征金字塔，对特征金字塔中每个不同尺度的深层特征进行聚合处理得到聚合特征图，再将聚合特征图与浅层特征融合得到融合特征图，根据融合特征图获取对应的语义分割结果，可以利用多尺度特征获取更加全局化的图像信息，有利于对图像中多个尺度的对象进行判别，有效提高图像的语义分割的精度。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是显示可用于实现本发明的实施例的电子设备1000的硬件配置的例子的框图。

图2示出了本发明的实施例的图像的语义分割方法的流程图。

图3示出了本发明的实施例的语义分割模型的例子的示意图。

图4示出了本发明的实施例的残差上采样模块的例子的示意图。

图5示出了本发明的实施例的特征融合模块的例子的示意图。

图6示出了本发明的实施例的设置不同各类别平衡因子得到的权重曲线的例子的示意图。

图7示出了本发明的实施例的图像的语义分割方法的例子的示意图。

图8示出了本发明的实施例的图像的语义分割装置3000的框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<硬件配置>

图1是示出可以实现本发明的实施例的电子设备1000的硬件配置的框图。

电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑等。如图1所示，电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中，处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信，具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。

图1所示的电子设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中，电子设备1000的所述存储器1200用于存储指令，所述指令用于控制所述处理器1100进行操作以执行本发明实施例提供的任意一项图像的语义分割方法。本领域技术人员应当理解，尽管在图1中对电子设备1000示出了多个装置，但是，本发明可以仅涉及其中的部分装置，例如，电子设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

<实施例>

在本实施例中，提供一种图像的语义分割方法。该图像的语义分割方法通过训练获取的语义分割模型实施。语义分割模型包括特征提取模块、特征聚合模块以及特征融合模块。

如图2所示，包括：步骤2100-2300。

步骤2100，通过特征提取模块，提取目标图像的浅层特征和深层特征，并根据深层特征构建所述目标图像的特征金字塔。

在本实施例中，目标图像的图像特征包括浅层特征和深层特征。浅层特征通常与图像的表象信息对应，表象信息包括图像的纹理、尺寸等。深层特征通常与图像的深层信息对象，深层信息包括图像的内容、图像的语义等。图像的深层特征通常包括图像的语义信息。

在一个例子中，通过特征提取模块，提取目标图像的浅层特征和深层特征，并根据深层特征构建所述目标图像的特征金字塔，包括：步骤2110-步骤2120。

步骤2110，通过基于空洞卷积的深度卷积神经网络，提取浅层特征以及深层特征。

在本例中，基于空洞卷积的深度卷积神经网络，是对指定阶段不做池化处理，并且使用预设空洞率的空洞卷积代替对应卷积核尺寸的普通卷积的深度神经网络。

在基于空洞卷积的深度卷积神经网络中，对指定阶段不做池化处理，使用预设空洞率的空洞卷积代替对应卷积核尺寸的普通卷积，可以避免指定阶段做池化处理导致信息丢失，影响提取特征的特征分辨率。该指定阶段、预设空洞率，可以根据具体的应用场景或者应用需求设置。

例如，如图3所示，特征提取模块使用包括5个阶段的深度神经卷积网络，在最后两个阶段不做池化处理(去掉池化层)，不会影响通过该该网络的第二阶段提取尺度为1/4的浅层特征，并且使用空洞率为2和4的空洞卷积代替普通的3*3卷积(空洞卷积过程在图中未示出)，来提取尺度为1/8的深层特征，在保证特征分辨率的同时，可以提高感受野的范围。

步骤2120，通过不同的预设卷积参数的深度可分离卷积，对深层特征进行处理，构建特征金字塔。

预设卷积参数至少包括卷积核尺寸以及步长，可以具体的应用场景或者应用需求设置。

通过不同的预设卷积参数的深度可分离卷积，而不使用现有技术常用的平均池化来构建特征金字塔，可以在每个尺度上通过特征学习的方式保留更多的有效信息。

例如，如图3所示，基于尺度是1/8的深度特征，通过深度可分离卷积，通过卷积核尺寸2*2和步长为2的深度可分离卷积，构建尺度是1/16的深度特征，通过卷积核尺寸4*4和步长为4的深度可分离卷积，构建尺度是1/32的深度特征，以此类推，最后可以构建得到尺度为1/8、1/16、1/32、1/64的深度特征组合而成的特征金字塔，可以在每个尺度上通过特征学习的方式保留更多的有效信息。

步骤2200，通过特征聚合模块，对目标图像的特征金字塔中每个不同尺度的深层特征进行聚合处理，得到聚合特征图。

对目标图像的特征金字塔中每个不同尺度的深层特征进行聚合处理。可以利用多尺度特征获取更加全局化的图像信息，有利于对图像中多个尺度的对象进行判别，有效提高图像的语义分割的精度。

在一个例子中，特征聚合模块还包括残差上采样模块。残差上采样模块用于对输入的特征进行上采样处理，输出对应的上采样结果。通过特征聚合模块，对目标图像的特征金字塔中每个不同尺度的深层特征进行聚合处理，得到聚合特征图，可以包括：步骤2210-2230。

步骤2210，以最小尺度的深层特征作为输入特征，通过残差上采样模块对输入特征进行上采样处理得到对应的上采样结果，将上采样结果，与尺度升序排序次序在输入特征之后的下一尺度的深层特征进行逐像素相加，获取下一尺度聚合后的深层特征。

在特征金字塔中包括多个不同尺度的深层特征。最小尺度的深层特征是特征金字塔中包括的深层特征中尺度最小的特征。例如，如图3所示的特征金字塔中，尺度最小的深层特征是尺度为1/64的深层特征。

通过以最小尺度的深层特征作为输入特征，通过残差上采样模块对输入特征进行上采样处理得到对应的上采样结果，将上采样结果，与尺度升序排序次序在输入特征之后的下一尺度的深层特征进行逐像素相加，获取下一尺度聚合后的深层特征，可以完成两个尺度特征的聚合。

在本例中，还可以将最小尺度的深层特征，通过第一卷积核尺寸的卷积处理后，作为残差上采样模块的输入特征，如此可以融合对应尺度的深层特征周围更多的图像信息，进一步提高图像的语义分割的精度。第一卷积核尺寸可以根据具体的应用场景或者应用需求设置，例如，如图3所示，设置为3*3。

在本例中，残差上采样模块可以包括双线性插值模块、亚像素卷积模块以及全局池化模块，例如，如图4所示。通过残差上采样模块对输入特征进行上采样处理得到对应的上采样结果，可以包括：步骤2201-2204。

步骤2201，通过全局池化模块对输入特征，进行全局的平均池化处理，得到全局特征向量。

例如，如图4所示，通过对输入特征进行全局池化处理(Global Pool)、1*1卷积处理、批归一化处理(Batch Norm)、Sigmoid函数来处理后，得到一个全局向量。Sigmoid函数的取值范围为(0,1)，可以将一个实数映射到(0,1)的区间，用来做二分类。

步骤2202，通过亚像素卷积模块，对输入特征进行亚像素卷积处理，得到对应的亚像素卷积结果。

亚像素卷积可以将输入特征的不同通道的值按照一定的顺序重新排列，来恢复特征图的尺寸。例如，如图4所示，通过亚像素卷积模块，对输入特征进行1*1卷积处理、像素重组处理(Pixel Shuffle)、批归一化处理(Batch Norm)、修正线性单元处理(RectifiedLinear Unit,ReLu)、1*1卷积处理、批归一化处理(Batch Norm)后，得到亚像素卷积结果。

步骤2203，通过双线性插值模块，对输入特征进行双线性插值处理，得到对应的残差结果。

双线性插值是基于空间的上采样方式，可以利用周围的像素信息线性的恢复图像所丢失的信息，但是，双线性插值并不改变图像原有的像素值，因此，在本例中，引入残差思想，将双线性插值的结果作为残差结果。

例如，如图4所示，通过双线性插值模块，对输入特征进行上采样处理、1*1卷积处理、批归一化处理(Batch Norm)后，得到残差结果。

步骤2204，将全局特征向量与亚像素卷积结果进行逐像素相乘后得到的结果，与残差结果进行逐像素相加，得到残差上采样模块输出的上采样结果。

将全局特征向量作为融合权重，与亚像素卷积结果进行逐像素相乘得到的结果，再与残差结果进行逐像素相加，可以将亚像素卷积结果和双线性插值得到的残差结果相融合，恢复更多图像的细节特征，有利于对于图像中的多尺度图像的辨别，进一步提高图像的语义分割的精度。

步骤2220，继续以下一尺度聚合后的深层特征作为输入特征，执行上采样处理、逐像素相加，得到尺度升序排序次序在输入特征之后的下一尺度的聚合后的深层特征，再作为下一个输入特征重复执行前述步骤，直至完成每个不同尺度的深层特征的聚合，得到最大尺度的聚合后的深层特征。

在步骤2220中，以下一尺度聚合后的深层特征作为输入特征，执行上采样处理、逐像素相加，得到尺度升序排序次序在输入特征之后的下一尺度的聚合后的深层特征，具体实施可以如步骤2210中所述，这样重复执行，可以最终将特征金字塔中每个不同尺度的深度特征聚合，得到最大尺度的聚合后的深层特征。

例如，如图3所示，特征金字塔中深层特征的最大尺度是1/8,通过特征聚合模块，将尺度为1/64的深度特征经过残差上采样模块进行上采样处理后，与尺度为1/32的深度特征进行逐像素相加，得到尺度为1/32的聚合后的深度特征；再将尺度为1/32的深度特征经过残差上采样模块进行上采样处理后，与尺度为1/16的深度特征进行逐像素相加，得到尺度为1/16的聚合后的深度特征；以此类推，最终得到尺度为1/8聚合后的深度特征。

在本例中，对最大尺度之外其他尺度的深层特征，还可以通过第一卷积核尺寸的卷积处理后，再作为输入特征，输入残差上采样模块，如此可以融合对应尺度的深层特征周围更多的图像信息，进一步提高图像的语义分割的精度。第一卷积核尺寸可以根据具体的应用场景或者应用需求设置，例如，如图3所示，设置为3*3，即对尺度为1/8之外的其他尺度(1/16、1/32、1/64)，采用3*3卷积处理后(或者进一步的逐像素相加处理后)，才作为输入残差上采样模块的输入特征。

步骤2230，将最大尺度的聚合后的深层特征作为输入特征，通过残差上采样模块对输入特征进行上采样处理，得到聚合特征图。

将最大尺度的聚合后的深层特征作为输入特征，通过残差上采样模块对输入特征进行上采样处理，得到聚合特征图是聚合后的最大尺度的深层特征在两倍上采样之后的特征图，例如，如图3所示，特征金字塔中特征的最大尺度为1/8，在尺度1/8的聚合后的深层特征，通过残差上采样模块进行上采样处理，可以得到尺度1/4的聚合特征图。残差上采样模块可以如图4所示，在此不再赘述。

通过上述方式来聚合多尺度特征获取的聚合特征图中，包括更加全局化的图像信息，有利于对具有歧义的像素进行精准的判别，可以进一步提高图像的语义分割的精度。

在获取聚合特征图之后，进入：

步骤2300，通过特征融合模块，融合目标图像的浅层特征以及聚合特征图，得到融合特征图，以根据融合特征图获取对应的语义分割结果。

通过将聚合目标图像的多尺度特征的聚合特征图与目标图像的浅层特征，可以恢复目标图像更多的空间信息，有利于提高图像的语义分割的精度。

浅层特征是与图像的表层信息对应的特征，可以通过深度卷积神经网络来提取，例如，如图3所示，通过基于空洞卷积的深度卷积神经网络的第二阶段提取的特征作为浅层特征，并且，还可以对第二阶段提取的特征进行1*1卷积后，作为输入特征融合模块的浅层特征。

在一个例子中，特征融合模块还包括通道融合权重模块和空间融合权重模块。例如，特征融合模块可以如图5所示。通过特征融合模块，融合目标图像的浅层特征以及聚合特征图，得到融合特征图，包括：步骤2310-2330。

步骤2310，通过通道融合权重模块，对聚合特征图依次进行全局池化处理、第二卷积核尺寸的卷积处理、批归一化处理以及逻辑回归处理，得到通道融合权重。

第二卷积核尺寸可以根据具体的应用场景或者应用需求设置，例如，如图5所示，可以设置为1*1,即在全局池化处理后，进行1*1卷积处理。

逻辑回归处理可以通过Sigmoid函数处理实现，如图5所示。Sigmoid函数的取值范围为(0,1)，可以将一个实数映射到(0,1)的区间，用来做二分类。

如图5所示，假设输入的聚合特征图是四维参数(B，H，W，C)，其中B是批大小，H是聚合特征图的高度，W是聚合特征图的宽度，C是聚合特征图的通道数目(例如，RGB模式下通道数就是3)，通过通道融合权重模块处理，得到的通道融合权重就是(B，1,1，C)。

步骤2320，通过空间融合权重模块，对聚合特征图依次进行第二卷积核尺寸的卷积处理、批归一化处理以及逻辑回归处理，得到空间融合权重。

第二卷积核尺寸、逻辑回归处理可以如步骤2310所述，在此不再赘述。

如图5所示，假设聚合特征图的输入是四维参数(B，H，W，C)，其中B是批大小，H是聚合特征图的高度，W是聚合特征图的宽度，C是聚合特征图的通道数目(例如，RGB模式下通道数就是3)，通过空间融合权重模块处理，得到的空间融合权重就是(B，H,W，1)。

步骤2330，将通过通道融合权重和空间融合权重处理后的浅层特征，与聚合特征图进行逐像素相加，得到融合特征图。

通过对聚合特征图分别进行空间融合权重模块、通道融合权重模块进行处理，得到对应的空间融合权重、通道融合权重来处理浅层特征，再与聚合特征图进行逐像素相加，可以结合空间、通道两个角度来融合聚合特征图与浅层特征，尽可能恢复图像的空间信息，得到包含更多空间信息的融合特征图，有利于提高图像的语义分割的精度。

在另一个例子中，语义分割模型还可以包括残差上采样模块。残差上采样模块用于对输入的特征进行上采样处理，输出对应的上采样结果。例如，残差上采样模块可以如图4所示。根据融合特征图获取对应的语义分割结果，可以包括：步骤2301-2302。

步骤2301，通过残差上采样模块，对融合特征图进行上采样处理，得到与目标图像的尺寸相同的上采样特征图。

步骤2302，对上采样特征图依次进行第三卷积核尺寸的卷积处理、归一化指数处理后，得到语义分割结果。

第三卷积核尺寸可以根据具体的应用场景或者应用需求设置。例如，第三卷积核尺寸可以设置为1*1，即进行1*1卷积处理。

归一指数化处理，可以通过Softmax函数处理实现。Softmax函数又称归一化指数函数，是逻辑函数的一种推广，能将一个含任意实数的K维向量“压缩”到另一个K维实向量中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。

例如，如图3所示，对融合特征图通过残差上采样模块处理后，再经过图中未示出的1*1卷积处理、Softmax函数处理，可以得到对应的语义分割结果。

以上已经结合附图和例子说明通过语义分割模型实施的针对图像的语义分割方法。在本实施例中，所提供的图像的语义分割方法，还可以包括训练语义分割模型，包括：步骤2410-S2430。

步骤2410，获取用于训练语义分割模型的图像样本集。

图像样本集可以采用PASCAL VOC、Cityscapes、Microsoft COCO等计算机视觉标准数据集。

在一个例子中，获取用于训练所述语义分割模型的图像样本集，可以包括：

对所获取的原始样本集，进行预设的数据增强处理，生成图像样本集。

数据增强处理是对原始样本集进行处理以扩大样本数目的处理方式。数据增强处理至少包括随机翻转处理、随机缩放处理、随机亮度变化处理其中之一。随机翻转处理是指对样本图像进行随机翻转处理，变换样本图像的角度等，得到更多的样本图像。随机缩放处理是指对样本图像进行随机缩放处理，变换样本图像的尺寸等，得到更多的样本图像。随机亮度变化处理是指对样本图像进行随机亮度变化处理，变换样本图像的亮度等，得到更多的样本图像。

在本例中，原始样本集包括多张样本图像，可以是PASCAL VOC、Cityscapes、Microsoft COCO等计算机视觉标准数据集。

通过对原始样本集，进行至少包括随机翻转处理、随机缩放处理、随机亮度变化处理其中之一的数据增强处理，对原始样本集合处理，可以得到更丰富的图像样本集来训练语义分割模型，获取更具有泛化能力的语义分割模型，提高基于语义分割模型实施图像的语义分割的精度。

步骤2420，根据类别平衡因子、难易样本平衡因子以及不同的特征类别在图像中所占的像素比例，构建目标函数。

通过引入类别平衡因子、难易样本平衡因子以及不同的特征类别在图像中所占的像素比例，来构建目标函数训练语义分割模型，可以在模型训练过程中，自适应地调整不同特征类别的权重，能有效识别分割图像中不同尺度的对象，尤其是提升对小尺度对象的分割精度，对应地提升对图像的语义分割的精度。

具体地，可以构建目标函数如下述Loss函数。

其中：

以及，N代表图像中的N个像素点，C代表类别数量，α为类别平衡因子，r_j代表第j个特征类别在图像中所占的像素比例，t_j代表第j个特征类别的像素数量，

表示在样本图像中标注的实际标签中第i个像素是第j个特征类别的概率，p_ij表示预测的结果中第i个像素属于第j个特征类别的概率，γ为难易样本的平衡因子。

如图6所示，r_j的取值范围为[0,1]，因此

的取值范围为

在图6中示出通过调节α的取值，产生不同

取值的下产生对应的权重曲线，对应的，在图像中像素比例越大的类别拥有更小的权重。

而在(1-p_ij)^γ中，简单样本的概率值p_ij更接近于1，拥有的权重更小，而困难样本的权重反而更大，通过调节γ可以放大难易样本的差异。

由此构建的上述目标函数，可以更好地平衡不同特征类别的像素在图像所占权重以及调节样本难易的差异，基于该目标函数来训练语义分割模型，可以能有效识别分割图像中不同尺度的对象，尤其是提升对小尺度对象的分割精度，对应地提升对图像的语义分割的精度。

图7示出了通过上述目标函数来训练得到的语义分割模型实施的本实施例的语义分割方法得到的结果的示例图。其中，可见相对于目标图像的通过人工标注得到的验证样本图，本实施例的语义分割方法得到的语义分割结果，具有较高的语义分割精度。

针对相同的CamVid数据集(剑桥大学提供的公开的图像数据集)，采用现有技术中FCN8s、SegNet、Dilation8、BiSegNet等常用的图像的语义分割方法，以及通过上述目标函数来训练得到的语义分割模型实施的本实施例的图像的语义分割方法，得到的用于衡量语义分割精度的MeanIoU(预测的图像集合与实际的样本集合的平均交集，与预测的图像集合与实际的样本集合的并集的比率)如下：

表1方法比较结果

方法	Mean IoU(％)
		FCN8s	57.0
SegNet	55.6
		Dilation8	65.2
BiSegNet	65.6
		本实施例	74.5

可见，本实施例的图像的语义分割方法，可以较现有技术，取得更高的语义分割精度。

<例子>

以下将结合图3-5所示，进一步说明本实施例中提供的图像的语义分割方法。

在本例中，语义分割模型可以根据如上述步骤2410-S2430进行训练。如图3所示，语义分割模型中包括特征提取模块、特征聚合模块、特征融合模块以及残差上采样模块。特征聚合模块还包括残差上采样模块。残差上采样模块可以如图4所示，包括双线性插值模块、亚像素卷积模块以及全局池化模块。特征融合模块可以如图5所示，还包括通道融合权重模块和空间融合权重模块。

在本例中，针对图像的语义分割方法，包括：步骤201-208。

步骤201，提供目标图像作为语义分割模型的输入。

具体的目标图像如图3所示。

步骤202，通过特征提取模块，利用基于空洞卷积的深度卷积的神经网络，提取目标图像的浅层特征和深层特征。

如图3所示，特征提取模块使用包括5个阶段的深度神经卷积网络，在最后两个阶段不做池化处理(去掉池化层)，不会影响通过该该网络的第二阶段提取浅层特征，并且使用空洞率为2和4的空洞卷积代替普通的3*3卷积(空洞卷积过程在图中未示出)，来提取尺度为1/8的深层特征，在保证特征分辨率的同时，可以提高感受野的范围。

步骤203，通过特征提取模块，利用不同的预设卷积参数的深度可分离卷积，对深层特征进行处理，构建特征金字塔。

图3所示，基于尺度是1/8的深度特征，通过深度可分离卷积，通过卷积核尺寸2*2和步长为2的深度可分离卷积，构建尺度是1/16的深度特征，通过卷积核尺寸4*4和步长为4的深度可分离卷积，构建尺度是1/32的深度特征，以此类推，最后可以构建得到尺度为1/8、1/16、1/32、1/64的深度特征组合而成的特征金字塔，可以在每个尺度上通过特征学习的方式保留更多的有效信息。

步骤204，通过特征聚合模块，对特征金字塔中每个尺度的深度特征进行聚合处理，从最小尺度的深度特征开始，先做3*3卷积处理，再通过残差上采样模块进行上采样处理，采样到下一尺度的上采样结果与对应尺度的深层特征做逐像素相加后，继续输入残差上采样模块，重复执行，直至最终得到最大尺度的聚合后的深度特征。

如图3所示的特征金字塔中，尺度最小的深层特征是尺度为1/64的深层特征，深层特征的最大尺度是1/8，通过特征聚合模块，将尺度为1/64的深度特征经过残差上采样模块进行上采样处理后，与尺度为1/32的深度特征进行逐像素相加，得到尺度为1/32的聚合后的深度特征；再将尺度为1/32的深度特征经过残差上采样模块进行上采样处理后，与尺度为1/16的深度特征进行逐像素相加，得到尺度为1/16的聚合后的深度特征；以此类推，最终得到尺度为1/8聚合后的深度特征。

并且，如图3所示，对尺度为1/8之外的其他尺度(1/16、1/32、1/64)，采用3*3卷积处理后(或者进一步的逐像素相加处理后)，才作为输入残差上采样模块的输入特征。

在本例中，可以残差上采样模块可以如图4所示，通过全局池化模块对输入特征，通过对输入特征进行全局池化处理(Global Pool)、1*1卷积处理、批归一化处理(BatchNorm)、Sigmoid函数来处理后，得到一个全局向量；

通过亚像素卷积模块，对输入特征进行进行1*1卷积处理、像素重组处理(PixelShuffle)、批归一化处理(Batch Norm)、修正线性单元处理(Rectified Linear Unit,ReLu)、1*1卷积处理、批归一化处理(Batch Norm)后，得到亚像素卷积结果；

通过双线性插值模块，对输入特征进行上采样处理、1*1卷积处理、批归一化处理(Batch Norm)后，得到残差结果；

再将全局特征向量作为融合权重，与亚像素卷积结果进行逐像素相乘得到的结果，再与残差结果进行逐像素相加，可以将亚像素卷积结果和双线性插值得到的残差结果相融合，恢复更多图像的细节特征，有利于对于图像中的多尺度图像的辨别，进一步提高图像的语义分割的精度。

步骤205，将最大尺度的聚合后的深层特征作为输入特征，通过残差上采样模块对输入特征进行上采样处理，得到聚合特征图。

如图3所示，特征金字塔中特征的最大尺度为1/8，在尺度1/8的聚合后的深层特征，通过残差上采样模块进行上采样处理，可以得到尺度1/4的聚合特征图。

步骤206，通过特征融合模块，融合目标图像的浅层特征以及聚合特征图，得到融合特征图，以根据融合特征图获取对应的语义分割结果。

在本例中，如图3所示，通过基于空洞卷积的深度卷积神经网络的第二阶段提取的特征作为浅层特征，并且，还可以对第二阶段提取的特征进行1*1卷积后，作为输入特征融合模块的浅层特征。

特征融合模块可以如图5所示，包括通道融合权重模块和空间融合权重模块。

如图5所示，假设聚合特征图的输入是四维参数(B，H，W，C)，其中B是批大小，H是聚合特征图的高度，W是聚合特征图的宽度，C是聚合特征图的通道数目(例如，RGB模式下通道数就是3)，通过通道融合权重模块，依次进行全局池化处理、1*1卷积处理、批归一化处理以及Sigmoid函数处理，得到的通道融合权重就是(B，1,1，C)，通过空间融合权重模块，依次进行1*1卷积处理、批归一化处理以及Sigmoid函数处理得到的空间融合权重就是(B，H,W，1)；再将输入的浅层特征(B1，H1,W1，C1)依次与道融合权重(B，1,1，C)、空间融合权重(B，H,W，1)相乘后，再与输入的聚合特征图(B，H，W，C)逐像素相加，得到融合特征图。

步骤207，通过残差上采样模块，对融合特征图进行上采样处理，得到与目标图像的尺寸相同的上采样特征图。

残差上采样模块如图4所示，在此不再赘述。

步骤208，对上采样特征图依次进行1*1卷积处理、Softmax函数处理后，得到语义分割结果。

在本例中，得到的语义分割结果如图3所示。

通过本例中的图像的语义分割方法，基于通过平衡不同特征类别所占图像比例的目标函数来训练的语义分割模型，提取目标图像的浅层特征和深层特征，并根据深层特征构建目标图像的特征金字塔，对目标图像的特征金字塔中每个不同尺度的深层特征通过残差上采样方式进行上采样来逐个尺度进行聚合，得到聚合特征图，与浅层特征从空间、通道两个角度进行融合得到融合特征图，以根据融合特征图获取目标图像的语义分割结果，可以基于能提供更全局化的图像信息的多尺度特征，恢复更多空间信息，提高对图像中多个尺度的对象的分割精度，相应提高图像的语义分割精度。

<图像的语义分割装置>

在本实施例中，还提供一种图像的语义分割装置3000，如图8所示，包括：特征提取模块3100、特征聚合模块3200以及特征融合模块3300，用于实施本实施例中提供的任意一项图像的语义分割方法，在此不再赘述。

特征提取模块3100，用于提取所述目标图像的浅层特征和深层特征，并根据所述深层特征构建目标图像的特征金字塔；所述特征金字塔包括对应图像在不同尺度上的所述深层特征。

可选地，特征提取模块3100还用于：

通过基于空洞卷积的深度卷积神经网络，提取所述浅层特征以及所述深层特征；所述基于空洞卷积的深度卷积神经网络，是对指定阶段不做池化处理，并且使用预设空洞率的空洞卷积代替对应卷积核尺寸的普通卷积的深度神经网络；

通过不同的预设卷积参数的深度可分离卷积，对所述深层特征进行处理，构建所述特征金字塔；所述预设卷积参数至少包括卷积核尺寸以及步长。

特征聚合模块3200，用于对所述目标图像的特征金字塔中每个不同尺度的所述深层特征进行聚合处理，得到聚合特征图。

可选地，所述特征聚合模块3200还包括残差上采样模块；所述特征聚合模块3200还用于：

以最小尺度的所述深层特征作为输入特征，通过所述残差上采样模块对所述输入特征进行上采样处理得到对应的上采样结果，将所述上采样结果，与尺度升序排序次序在所述输入特征之后的下一尺度的所述深层特征进行逐像素相加，获取所述下一尺度聚合后的所述深层特征；

继续以所述下一尺度聚合后的所述深层特征作为所述输入特征，执行所述上采样处理、逐像素相加，得到尺度升序排序次序在所述输入特征之后的下一尺度的聚合后的所述深层特征，再作为下一个所述输入特征重复执行前述步骤，直至完成每个不同尺度的所述深层特征的聚合，得到最大尺度的聚合后的所述深层特征；

将所述最大尺度的聚合后的所述深层特征作为所述输入特征，通过所述残差上采样模块对所述输入特征进行上采样处理，得到所述聚合特征图。

可选地，所述残差上采样模块包括双线性插值模块、亚像素卷积模块以及全局池化模块；所述残差上采样模块还用于：

通过所述全局池化模块对所述输入特征，进行全局池化处理，得到全局特征向量；

通过所述亚像素卷积模块，对所述输入特征进行亚像素卷积处理，得到对应的亚像素卷积结果；

通过所述双线性插值模块，对所述输入特征进行双线性插值处理，得到对应的残差结果；

将所述全局特征向量与所述亚像素卷积结果进行逐像素相乘后得到的结果，与所述残差结果进行逐像素相加，得到所述残差上采样模块输出的所述上采样结果；

和/或，

所述特征聚合模块3200还用于：

对最大尺度之外其他尺度的所述深层特征，通过第一卷积核尺寸的卷积处理后，作为所述输入特征。

特征融合模块3300，用于融合所述目标图像的浅层特征以及所述聚合特征图，得到融合特征图，以根据所述融合特征图获取对应的语义分割结果。

可选地，所述特征融合模块3300还包括通道融合权重模块和空间融合权重模块。所述特征融合模块3300还用于：

通过所述通道融合权重模块，对所述聚合特征图依次进行全局池化处理、第二卷积核尺寸的卷积处理、批归一化处理以及逻辑回归处理，得到通道融合权重；

通过所述空间融合权重模块，对所述聚合特征图依次进行第二卷积核尺寸的卷积处理、批归一化处理以及逻辑回归处理，得到空间融合权重；

将通过所述通道融合权重和空间融合权重处理后的所述浅层特征，与所述聚合特征图进行逐像素相加，得到所述融合特征图。

可选地，所述图像的语义分割装置3000还包括残差上采样模块；图像的语义分割装置3000还用于：

通过所述残差上采样模块，对所述融合特征图进行上采样处理，得到与所述目标图像的尺寸相同的上采样特征图；

对所述上采样特征图依次进行第三卷积核尺寸的卷积处理、归一化指数处理后，得到所述语义分割结果。

可选地，所述图像的语义分割装置3000还包括训练所述图像的语义分割装置3000的装置，用于：

获取用于训练所述语义分割模型的图像样本集；

根据类别平衡因子、难易样本平衡因子以及不同的特征类别在图像中所占的像素比例，构建目标函数；

基于所述图像样本集，根据所述目标函数进行模型训练，获取所述语义分割模型。

可选地，所述训练所述图像的语义分割装置3000的装置还用于：

对所获取的原始样本集，进行预设的数据增强处理，生成所述图像样本集；所述数据增强处理至少包括随机翻转处理、随机缩放处理、随机亮度变化处理其中之一。

本领域技术人员应当明白，可以通过各种方式来实现图像的语义分割装置3000。例如，可以通过指令配置处理器来实现图像的语义分割装置3000。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现图像的语义分割装置3000。例如，可以将图像的语义分割装置3000固化到专用器件(例如ASIC)中。可以将图像的语义分割装置3000分成相互独立的单元，或者可以将它们合并在一起实现。图像的语义分割装置3000可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

在本实施例中，图像的语义分割装置3000可以是任意的实施图像的语义分割的软件模块或者应用程序，例如，可以是封装成软件开发工具包形式(SDK)，供任意具有图像的语义分割需求的其他用户或者模块调用。

<电子设备>

在本实施例中，还提供一种电子设备4000，包括：

存储器4100，用于存储可执行的指令；

处理器4200，用于根据所述可执行的指令的控制，运行所述电子设备4000执行如本实施例中提供的图像的语义分割方法。

在本实施例中，电子设备4000可以是手机、掌上电脑、平板电脑、台式电脑、大型计算机等。电子设备4000还可以包括其他装置，例如，如图1所示，还可以包括显示装置等。

<可读存储介质>

在本实施例中，还提供一种可读存储介质，可读存储介质存储有可被计算机读取并运行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行如本实施例所述的图像语义分割方法。

可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

以上已经结合附图和例子说明本实施例中提供的图像的语义分割方法，通过提取目标图像的浅层特征和深层特征，并根据深层特征构建目标图像的特征金字塔，对特征金字塔中每个不同尺度的深层特征进行聚合处理得到聚合特征图，再将聚合特征图与浅层特征融合得到融合特征图，根据融合特征图获取对应的语义分割结果，可以利用多尺度特征获取更加全局化的图像信息，有利于对图像中多个尺度的对象进行判别，有效提高图像的语义分割的精度。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种图像的语义分割方法，其特征在于，通过语义分割模型实施，所述语义分割模型包括特征提取模块、特征聚合模块以及特征融合模块；所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括训练所述语义分割模型，包括：

获取用于训练所述语义分割模型的图像样本集；

3.根据权利要求1所述的方法，其特征在于，所述特征聚合模块还包括残差上采样模块；所述通过所述特征聚合模块，对所述目标图像的特征金字塔中每个不同尺度的所述深层特征进行聚合处理，得到聚合特征图，包括：

4.根据权利要求3所述的方法，其特征在于，所述残差上采样模块包括双线性插值模块、亚像素卷积模块以及全局池化模块；通过所述残差上采样模块对所述输入特征进行上采样处理得到对应的上采样结果，包括：

和/或，

所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述特征融合模块还包括通道融合权重模块和空间融合权重模块；所述通过所述特征融合模块，融合所述目标图像的浅层特征以及所述聚合特征图，得到融合特征图，包括：

6.根据权利要求1所述的方法，其特征在于，

所述通过所述特征提取模块，提取目标图像的浅层特征和深层特征，并根据所述深层特征构建所述目标图像的特征金字塔，包括：

7.根据权利要求2所述的方法，其特征在于，所述获取用于训练所述语义分割模型的图像样本集，包括：

8.根据权利要求1所述的方法，其特征在于，所述语义分割模型还包括残差上采样模块；所述根据所述融合特征图获取对应的语义分割结果，包括：

9.一种图像的语义分割装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的指令，运行所述电子设备，执行如权利要求1-8所述的图像的语义分割方法。

11.一种可读存储介质，其特征在于，所述可读存储介质存储有可被计算机读取执行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行如权利要求1-8所述的图像的语义分割方法。