CN117456191B

CN117456191B - 一种基于三分支网络结构的复杂环境下语义分割方法

Info

Publication number: CN117456191B
Application number: CN202311734012.2A
Authority: CN
Inventors: 余锋; 周鑫磊; 姜明华; 刘莉; 周昌龙; 宋坤芳
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-03-08
Anticipated expiration: 2043-12-15
Also published as: CN117456191A

Abstract

本发明公开了一种基于三分支网络结构的复杂环境下语义分割方法，包括如下步骤：S1.设计分割复杂环境下目标物体的基于三分支结构的语义分割网络模型；所述语义分割网络模型包括编码器和解码器，所述编码器包括第一三分支网络结构和图像特征提取模块，所述解码器包括第二三分支网络结构和图像特征重建模块；S2.设计损失函数，并利用损失函数训练设计好的语义分割网络模型；S3.使用训练好的语义分割网络模型解析复杂环境下的目标物体，生成像素级的二进制图像。本发明通过改进模型网络结构和设计有针对性的损失函数，可以明显提高复杂环境下目标物体语义分割的准确性和鲁棒性，以适应各种多样化、复杂性高的场景。

Description

一种基于三分支网络结构的复杂环境下语义分割方法

技术领域

本发明涉及图像分割领域，并且更具体地，涉及一种基于三分支网络结构的复杂环境下语义分割方法。

背景技术

在复杂环境下进行语义分割是一个挑战性的任务，因为复杂环境中通常存在多样化的物体、不同尺度的对象、光照变化、遮挡等因素，这些因素使得单一模型难以准确地捕获和分割各种对象，因此，研究如何精准分割出复杂环境下的目标物体就显得尤为重要。复杂环境下语义分割的应用领域十分广泛，如：自动驾驶与智能交通、医学图像分割、农业与农业机器人、城市规划与环境监测、工业与智能制造、环境保护与资源管理、无人机与航拍影像分析等。现有三分支网络结构使用普通卷积堆叠的方式进行特征提取，这就使得网络参数冗余且庞大复杂，导致需要较长的训练时间和更多的训练数据才能达到较好的性能；在编码阶段的每一个分支采用串行结构进行特征提取，这种串行的结构限制了信息在网络中的流动和传递，导致网络无法充分利用从图像中提取到的特征；在解码阶段由于特征重建能力低使得细节信息丢失，导致预测出的图像整体分割效果较差，边界模糊不清。对于复杂环境下语义分割，常规损失函数难以准确地表达不同尺度和对象的重要性，需要一种更具针对性的损失函数来参与网络模型的训练。在复杂环境下进行语义分割需要更精细化的语义信息，现有三分支网络结构难以确保对各种对象的精准分割。

公开号为CN110136141A的中国专利公开了“一种面向复杂环境的图像语义分割方法及装置”，使用VGG16卷积神经网络作为基础神经网络，其可以解决现有方法在复杂环境下分割边界模糊的缺点，产生高分辨率的预测图像。但是，VGG16是一个用于图像分类的卷积神经网络，对于复杂环境下的语义分割任务，使用VGG16使得整个方法实现流程变得复杂，模型变得臃肿。

因此，亟待设计一种高效、准确的语义分割方法应用于复杂环境下的语义分割，解决上述现有技术存在的问题。

发明内容

针对现有技术的以上缺陷以及改进需求，本发明提供了一种基于三分支网络结构的复杂环境下语义分割方法，其目的在于使用三个不同的分支网络处理不同尺度、不同层级的特征，提高对复杂环境下目标物体分割的准确度。

为实现上述目的，本发明采用了如下技术方案：

一种基于三分支网络结构的复杂环境下语义分割方法，包括以下步骤：

S1.设计分割复杂环境下目标物体的基于三分支结构的语义分割网络模型；

所述语义分割网络模型包括编码器和解码器，所述编码器包括第一三分支网络结构和图像特征提取模块，所述解码器包括第二三分支网络结构和图像特征重建模块；

S2.设计损失函数，并利用损失函数训练设计好的语义分割网络模型；

S3.使用训练好的语义分割网络模型解析复杂环境下的目标物体，生成像素级的二进制图像。

进一步的，所述步骤S1中的第一三分支网络结构位于编码器的头部，第一三分支网络结构包括第一细节分支、第一上下文分支和第一边界分支，每个分支同时并行；

所述第一细节分支的具体操作是：将图像送入两个步距为1的卷积块进行特征提取，再进行三次卷积操作；

所述第一上下文分支的具体操作是：将图像送入两个步距为2的卷积块进行特征提取，再进行两次卷积操作，最后进行一次步距为2的/>卷积操作；

所述第一边界分支的具体操作是：将图像送入一个步距为1的卷积块进行特征提取，接着进行一次卷积操作，然后再送入一个步距为1的卷积块进行特征提取，最后进行两次/>卷积操作。

进一步的，所述步距为1的卷积块依次由两次卷积操作和一次ReLU操作组成；所述步距为2的卷积块依次由两次/>卷积操作、一次步距为2的/>卷积操作和一次ReLU操作组成。

进一步的，所述步骤S1中的图像特征提取模块位于编码器的尾部，图像特征提取模块由双分支结构组成，图像特征提取模块的具体操作如下：

输入经过第一三分支网络结构处理后得到的特征图；

第一分支将特征图依次经过一次卷积操作、一次深度可分离卷积操作和三次/>卷积操作；

第二分支将特征图依次经过两次深度可分离卷积操作、一次卷积操作、一次深度可分卷积操作和一次/>卷积操作后，再与经过第一三分支网络结构处理后得到的特征图进行相加融合操作；

将第一分支和第二分支处理后得到的特征图进行相加融合，得到经过图像特征提取模块处理后的特征图。

进一步的，所述步骤S1中的图像特征重建模块位于解码器的头部，图像特征重建模块用于处理经过图像特征提取模块处理后的特征图，图像特征重建模块的具体操作如下：

首先将特征图依次进行一次卷积操作、归一化操作和ReLU操作；

然后将经过ReLU操作后的特征图依次进行一次全局平均池化操作、一次卷积操作和一次Sigmoid操作；

最后将经过Sigmoid操作后的特征图和经过ReLU操作后的特征图进行相乘，得到经过图像特征重建模块处理后的特征图。

进一步的，所述步骤S1中的第二三分支网络结构位于解码器的尾部，第二三分支网络结构用于处理经过图像特征重建模块处理后的特征图，将经过图像特征重建模块处理后的特征图分别送入第二三分支网络结构的三个分支中进行进一步的特征恢复，第二三分支网络结构包括第二细节分支、第二上下文分支和第二边界分支，每个分支同时并行：

所述第二细节分支的具体操作是：将特征图进行一次卷积操作，再进行归一化操作，然后进行ReLU操作；

所述第二上下文分支的具体操作是：将特征图进行一次步距为2的卷积操作，再进行归一化操作，然后进行ReLU操作；

所述第二边界分支的具体操作是：将特征图进行一次卷积操作，再进行归一化操作，然后进行ReLU操作。

进一步的，所述步骤S2中的损失函数由细节损失函数、上下文损失函数和边界损失函数组成；

所述细节损失函数表示为：

；

其中，为每个训练批次中的图像数量，/>为当前训练图片的索引，/>为类别数量，/>为类别索引，/>为第/>个图片的第/>个类别的实际标签值，/>为第/>个图片的第/>个类别的预测概率值。

细节损失通过计算细节分支的输出与真实图像之间的差异指导网络优化，细节分支的输出用第个图片的第/>个类别的预测概率值/>表示，真实图像用第/>个图片的第/>个类别的实际标签值/>表示。在公式最前面加上负号的目的是使细节损失朝着最小化的方向进行参数更新。细节损失的值越小，说明细节分支提取的语义信息与真实图像之间的差异越小，从而使得模型能够更好的重建出输入图像中的细节信息。

进一步的，所述上下文损失函数表示为：

；

其中，为每个训练批次中的图像数量，/>为当前训练图片的索引，/>为类别数量，/>为类别索引，/>为第/>个图片的第/>个类别的预测概率值，/>为第/>个图片的第/>个类别的真实标签，/>是一个很小的常数，用于避免分母为零的情况。

进一步的，所述边界损失函数表示为：

；

其中，为每个训练批次中的图像数量，/>为当前训练图片的索引，/>为类别数量，/>为类别索引，/>为第/>个图片的第/>个类别的实际标签值，/>为第/>个图片的第/>个类别的预测概率值，/>的取值为0或1，用于动态调整模型对边界信息的提取强度，/>计算公式具体如下：

；

其中，为第/>个图片的第/>个类别的预测概率值，/>为预定义阈值，/>的范围为/>。

与现有技术相比，本发明的有益效果是：

（1）通过在语义分割网络模型的编码器尾部设置图像特征提取模块，图像特征提取模块采用双分支并行结构处理特征图，可使模型在编码阶段更加充分地提取到来自图像的语义信息，深度可分离卷积的应用可以大大减少模型的计算成本和参数数量，在第一分支和第二分支中均采用“卷积层→深度可分离卷积→卷积层”结构，将此结构应用于图像特征提取模块中可以增强模型对语义信息的提取能力，进而更好地保留和传递重要的语义信息。

（2）通过在语义分割网络模型的解码器头部设置图像特征重建模块，在解码阶段增强网络特征重建能力，有效提高网络对目标物体的整体分割精度，图像特征重建模块用于从经过图像特征提取模块处理后的特征图中恢复图像信息，其使用“全局平均池化→卷积层→Sigmoid”结构，可通过学习特征通道之间的相关性和重要性，自动调整特征通道的权重分配，这样可以使得模型专注于关注对于待分割物体而言较为重要的特征通道，同时抑制或忽略不重要的通道，从而提升模型最终分割效果。

（3）通过对三分支网络结构的细节分支、上下文分支和边界分支分别设计有针对性的损失函数，即细节损失函数、上下文损失函数和边界损失函数，其中细节损失函数可有效提升网络对图像细节特征的提取能力；上下文损失函数可使得网络具有更加丰富的语义信息；边界损失函数可用于协调细节损失和上下文损失，从而更好地优化整个网络，准确地表达不同尺度和对象的重要性。

（4）通过将复杂背景图像输入模型中生成高质量的标注图片，大大节省了人工成本，通过在编码器和解码器中分别设置三分支网络结构，可提高语义分割的准确性和鲁棒性，以适应各种多样化、复杂性高的场景。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1 示出了本发明实施例基于三分支网络结构的复杂环境下语义分割方法的流程图；

图2示出了本发明实施例基于三分支网络结构的复杂环境下语义分割方法的语义分割网络模型示意图；

图3示出了本发明实施例基于三分支网络结构的复杂环境下语义分割方法的图像特征提取模块示意图；

图4示出了本发明实施例基于三分支网络结构的复杂环境下语义分割方法的图像特征重建模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例提出了一种基于三分支网络结构的复杂环境下语义分割方法的实现方案，如图1所示，所述基于三分支网络结构的复杂环境下语义分割方法包括以下步骤：

如图2所示，所述步骤S1中的第一三分支网络结构位于编码器的头部，第一三分支网络结构包括第一细节分支、第一上下文分支和第一边界分支，每个分支同时并行；

所述步距为1的卷积块依次由两次卷积操作和一次ReLU操作组成；所述步距为2的卷积块依次由两次/>卷积操作、一次步距为2的/>卷积操作和一次ReLU操作组成。

如图3所示，所述步骤S1中的图像特征提取模块位于编码器的尾部，图像特征提取模块由双分支结构组成，图像特征提取模块的具体操作如下：

输入经过第一三分支网络结构处理后得到的特征图；

图像特征提取模块使用双分支结构对经过第一三分支网络结构处理后得到的特征图进行进一步的特征提取，将第一分支和第二分支处理后得到的特征图进行相加融合，从而使得模型可以在编码阶段从图像中提取更为丰富的语义信息。其中，将深度可分离卷积应用于图像特征提取模块中可以减少计算成本和参数数量，从而降低模型推理时间；在第一分支和第二分支中均采用“卷积层→深度可分离卷积→卷积层”结构，将此结构应用于图像特征提取模块中可以增强模型对语义信息的提取能力，进而更好地保留和传递重要的语义信息。

如图4所示，所述步骤S1中的图像特征重建模块位于解码器的头部，图像特征重建模块用于处理经过图像特征提取模块处理后的特征图，图像特征重建模块的具体操作如下：

图像特征重建模块用于从经过编码器处理的特征图中恢复图像信息。使用“全局平均池化→卷积层→Sigmoid”结构，可通过学习特征通道之间的相关性和重要性，自动调整特征通道的权重分配，这样可以使得模型专注于关注对于待分割物体而言较为重要的特征通道，同时抑制或忽略不重要的通道，从而提升模型最终分割效果。

如图2所示，所述步骤S1中的第二三分支网络结构位于解码器的尾部，第二三分支网络结构用于处理经过图像特征重建模块处理后的特征图，将经过图像特征重建模块处理后的特征图分别送入第二三分支网络结构的三个分支中进行进一步的特征恢复，第二三分支网络结构包括第二细节分支、第二上下文分支和第二边界分支，每个分支独立并行：

所述步骤S2中的损失函数由细节损失函数、上下文损失函数和边界损失函数组成；

所述细节损失函数表示为：

；

所述上下文损失函数表示为：

；

预测概率值的取值范围为/>，预测概率值中的正样本代表的是预测概率值大于等于0.5的预测结果，真实标签/>的取值为0或1，真实标签的值为1时代表的是正样本。

表示预测概率值和真实标签的交集的总和，用于计算模型预测正确的像素数量，/>表示预测概率值中所有正样本的总和，/>表示真实标签中所有正样本的总和。

上下文损失通过计算上下文分支的输出与真实图像之间的差异指导网络优化，其取值范围为，上下文分支的输出用第/>个图片的第/>个类别的预测概率值/>表示，真实图像用第/>个图片的第/>个类别的实际标签值/>表示。计算结果越接近于0说明上下文分支预测的语义信息越接近真实图像，那么这个语义信息将很大程度上被保留并用于下次的特征提取中。

所述边界损失函数表示为：

；

其中，为第/>个图片的第/>个类别的预测概率值，/>为预定义阈值，/>的范围为/>。即当/>大于/>时，/>取值为1，当/>小于/>时，/>取值为0。

物体边界的语义信息通常对比较为强烈，通过预定义阈值动态调整模型对边界信息的提取强度，从而达到更好的分割结果。当图像中物体边界色彩对比不明显时，将设为一个较大的值，掩盖预测结果，使模型更加倾向于实际标签所对应的语义信息，从而提高模型对于边界分割的性能。

通过对三分支网络结构的细节分支、上下文分支和边界分支分别设计有针对性的损失函数，即细节损失函数、上下文损失函数和边界损失函数，其中细节损失函数可有效提升网络对图像细节特征的提取能力；上下文损失函数可使得网络具有更加丰富的语义信息；边界损失函数可用于协调细节损失和上下文损失，从而更好地优化整个网络，准确地表达不同尺度和对象的重要性。

通过将复杂背景图像输入模型中生成高质量的标注图片，大大节省了人工成本，通过在编码器和解码器中分别设置三分支网络结构，可提高语义分割的准确性和鲁棒性，以适应各种多样化、复杂性高的场景。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于三分支网络结构的复杂环境下语义分割方法，其特征在于，包括以下步骤：

所述第一三分支网络结构位于编码器的头部，第一三分支网络结构包括第一细节分支、第一上下文分支和第一边界分支，每个分支同时并行；

所述第一边界分支的具体操作是：将图像送入一个步距为1的卷积块进行特征提取，接着进行一次卷积操作，然后再送入一个步距为1的卷积块进行特征提取，最后进行两次/>卷积操作；

所述图像特征提取模块位于编码器的尾部，图像特征提取模块由双分支结构组成，图像特征提取模块的具体操作如下：

输入经过第一三分支网络结构处理后得到的特征图；

第一分支将特征图依次经过一次卷积操作、一次深度可分离卷积操作和三次卷积操作；

将第一分支和第二分支处理后得到的特征图进行相加融合，得到经过图像特征提取模块处理后的特征图；

所述图像特征重建模块位于解码器的头部，图像特征重建模块用于处理经过图像特征提取模块处理后的特征图，图像特征重建模块的具体操作如下：

最后将经过Sigmoid操作后的特征图和经过ReLU操作后的特征图进行相乘，得到经过图像特征重建模块处理后的特征图；

所述第二三分支网络结构位于解码器的尾部，第二三分支网络结构用于处理经过图像特征重建模块处理后的特征图，将经过图像特征重建模块处理后的特征图分别送入第二三分支网络结构的三个分支中进行进一步的特征恢复，第二三分支网络结构包括第二细节分支、第二上下文分支和第二边界分支，每个分支同时并行：

所述第二边界分支的具体操作是：将特征图进行一次卷积操作，再进行归一化操作，然后进行ReLU操作；

2.如权利要求1所述的基于三分支网络结构的复杂环境下语义分割方法，其特征在于，所述步距为1的卷积块依次由两次卷积操作和一次ReLU操作组成；所述步距为2的卷积块依次由两次/>卷积操作、一次步距为2的/>卷积操作和一次ReLU操作组成。

3.如权利要求1所述的基于三分支网络结构的复杂环境下语义分割方法，其特征在于，所述步骤S2中的损失函数由细节损失函数、上下文损失函数和边界损失函数组成；

所述细节损失函数表示为：

；

4.如权利要求3所述的基于三分支网络结构的复杂环境下语义分割方法，其特征在于，所述上下文损失函数表示为：

；

5.如权利要求4所述的基于三分支网络结构的复杂环境下语义分割方法，其特征在于，所述边界损失函数表示为：

；