CN117765264A

CN117765264A - 基于频率自适应膨胀卷积的图像语义分割方法及系统

Info

Publication number: CN117765264A
Application number: CN202410195602.0A
Authority: CN
Inventors: 付莹; 陈林蔚; 刘乾坤; 边丽蘅
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2024-02-22
Filing date: 2024-02-22
Publication date: 2024-03-26
Anticipated expiration: 2044-02-22
Also published as: CN117765264B

Abstract

本发明公开了基于频率自适应膨胀卷积的图像语义分割方法及系统，该方法包括，构建基于频率自适应膨胀卷积的语义分割网络模型；将输入特征图样本输入至语义分割网络模型中进行模型训练，以利用特征频率选择卷积对输入特征图样本的频率进行空间自适应加权得到特征加权结果，并利用自适应膨胀率卷积和自适应核模块分别根据特征加权结果预测膨胀率控制卷积核采样位置以及调制卷积核参数中高低频的比例以得到模型输出结果，得到训练好的语义分割网络模型；将实时输入特征图输入至训练好的语义分割网络模型进行图像语义分割以输出得到图像语义分割结果。本发明可以大幅度提高语义分割模型在特征过程中保留高频细节信息的能力。

Description

基于频率自适应膨胀卷积的图像语义分割方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别是涉及基于频率自适应膨胀卷积的图像语义分割方法及系统。

背景技术

语义分割，是将预定义的感兴趣类别与图片的每个像素关联的一种计算机视觉任务。它需要计算机理解图像内容的语义信息，并密集地判定图像中每个像素是否属于某个感兴趣类别，可用来精确识别构成感兴趣目标的像素集合，例如，自动驾驶汽车场景中需要识别的车辆、行人和交通信号，遥感图像中的森林、河流和山地。由于需要对图像进行密集预测，提取和保留图像中的细节内容以及高频信息对最终精度尤为重要。

膨胀卷积（Dilated Convolution）是一种卷积神经网络（Convolutional NeuralNetwork，CNN）中的卷积操作变种。与传统的卷积操作不同，膨胀卷积引入了一个可调整的膨胀率（或称为空洞率，Dilation Rate）。膨胀率是指在卷积核中插入空洞（值为0间隔）的大小。在传统卷积中，卷积核的每个元素都直接与输入图像的相应元素进行相乘并求和。而在膨胀卷积中，通过在卷积核元素之间插入零值，使得卷积核可以跳过一些位置，从而扩大了感受野（Receptive Field），即卷积核能够看到的输入图像区域。膨胀卷积的优势在于它能够在不增加参数的情况下，增加卷积层的接受信息的范围，从而更好地捕捉输入数据中的全局信息。这对于许多计算机视觉任务，如语义分割和目标检测，特别有益，因为这些任务通常需要模型具有更大的上下文理解能力。总的来说，膨胀卷积是一种有助于提高网络感受野的有效工具，可用于改善卷积神经网络在处理大尺寸输入数据时的性能。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明从现有图像智能识别需求出发，针对现有语义分割方法中所使用的固定膨胀率的膨胀卷积容易导致重要区域细节信息丢失的问题。提出了一种基于频率自适应膨胀卷积的图像语义分割方法。

本发明的另一个目的在于提出一种基于频率自适应膨胀卷积的图像语义分割系统。

为达上述目的，本发明一方面提出一种基于频率自适应膨胀卷积的图像语义分割方法，包括：

获取输入特征图样本；

构建基于频率自适应膨胀卷积的语义分割网络模型；其中，所述频率自适应膨胀卷积，包括特征频率选择卷积、自适应膨胀率卷积以及自适应核模块；

将所述输入特征图样本输入至所述语义分割网络模型中进行模型训练，以利用所述特征频率选择卷积对输入特征图样本的频率进行空间自适应加权得到特征加权结果，并利用所述自适应膨胀率卷积和自适应核模块分别根据所述特征加权结果预测膨胀率控制卷积核采样位置以及调制卷积核参数中高低频的比例以得到模型输出结果，并根据所述模型输出结果得到训练好的语义分割网络模型；

将实时输入特征图输入至所述训练好的语义分割网络模型进行图像语义分割以输出得到图像语义分割结果。

本发明实施例的基于频率自适应膨胀卷积的图像语义分割方法还可以具有以下附加技术特征：

在本发明的一个实施例中，用所述特征频率选择卷积对输入特征图样本的频率进行空间自适应加权得到特征加权结果，包括：

将所述输入特征图样本输入至所述特征频率选择卷积进行频率解耦得到多个解耦特征，并对所述输入特征图样本进行卷积操作以输出得到多个频率选择图；

对每个解耦特征和每个频率选择图进行逐元素相乘操作，并对操作后的每个特征进行逐元素相加操作得到加权特征图；以及，

利用特征频率选择卷积对所述输入特征图样本进行全局池化操作以得到全局特征。

在本发明的一个实施例中，利用自适应核模块根据所述特征加权结果调制卷积核参数中高低频的比例，包括：

对静态核进行平均操作得到低频核；

通过静态核与所述低频核进行逐元素相减操作得到高频核；

利用所述全局特征调制卷积核参数中所述低频核和所述高频核的比例以得到自适应核。

在本发明的一个实施例中，利用所述自适应膨胀率卷积和自适应核模块分别根据所述特征加权结果预测膨胀率控制卷积核采样位置以及调制卷积核参数中高低频的比例以得到模型输出结果，包括：

利用所述自适应膨胀率卷积对所述加权特征图进行卷积操作得到膨胀率图；

基于所述膨胀率图预测不同的膨胀率控制卷积核在所述加权特征图的采样位置以采样得到采样特征图；

基于所述自适应核对所述采样特征图进行卷积运算以得到最终输出特征。

在本发明的一个实施例中，根据所述模型输出结果得到训练好的语义分割网络模型，包括：利用语义分割任务损失函数对语义分割网络模型进行训练，并基于所述最终输出特征以得到所述训练好的语义分割网络模型。

为达上述目的，本发明另一方面提出一种基于频率自适应膨胀卷积的图像语义分割系统，包括：

样本特征获取模块，用于获取输入特征图样本；

网络模型构建模块，用于构建基于频率自适应膨胀卷积的语义分割网络模型；其中，所述频率自适应膨胀卷积，包括特征频率选择卷积、自适应膨胀率卷积以及自适应核模块；

网络模型训练模块，用于将所述输入特征图样本输入至所述语义分割网络模型中进行模型训练，以利用所述特征频率选择卷积对输入特征图样本的频率进行空间自适应加权得到特征加权结果，并利用所述自适应膨胀率卷积和自适应核模块分别根据所述特征加权结果预测膨胀率控制卷积核采样位置以及调制卷积核参数中高低频的比例以得到模型输出结果，并根据所述模型输出结果得到训练好的语义分割网络模型；

语义分割输出模块，用于将实时输入特征图输入至所述训练好的语义分割网络模型进行图像语义分割以输出得到图像语义分割结果。

本发明实施例的基于频率自适应膨胀卷积的图像语义分割方法和系统，可以在神经网络中，自适应地调整膨胀卷积的膨胀率，对细节丰富的高频区域使用采样密集的小膨胀率卷积，对平滑的低频区域使用采样稀疏的大膨胀率卷积。从而在极小的额外计算量下，大幅度提高语义分割模型在特征过程中保留高频细节信息的能力，并大大增加膨胀卷积的感受野充分利用多尺度、大范围的上下文信息，实现高精度低复杂度的语义分割。

本发明的有益效果为：

1）本发明可以大幅度提高语义分割深度神经网络下采样过程中保留重要区域细节信息的能力。

2）本发明可以充分提高卷积神经网络的感受野，充分利用大范围的上下文信息来优化特征提取过程，从而提升语义分割的准确率。

3）本发明额外计算量开销极低，并且实现简单、性能高、鲁棒性强。有利于实现低延迟，高速度的语义分割。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的基于频率自适应膨胀卷积的图像语义分割方法的架构图；

图2是根据本发明实施例的频率自适应膨胀卷积语义分割网络结构示意图；

图3是根据本发明实施例的基于频率自适应膨胀卷积的图像语义分割系统的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面参照附图描述根据本发明实施例提出的基于频率自适应膨胀卷积的图像语义分割方法和系统。

图1是本发明实施例的基于频率自适应膨胀卷积的图像语义分割方法的流程图。

如图1所示，该方法包括但不限于以下步骤：

S1，获取输入特征图样本；

S2，构建基于频率自适应膨胀卷积的语义分割网络模型；其中，频率自适应膨胀卷积，包括特征频率选择卷积、自适应膨胀率卷积以及自适应核模块；

S3，将输入特征图样本输入至语义分割网络模型中进行模型训练，以利用特征频率选择卷积对输入特征图样本的频率进行空间自适应加权得到特征加权结果，并利用所述自适应膨胀率卷积和自适应核模块分别根据所述特征加权结果预测膨胀率控制卷积核采样位置以及调制卷积核参数中高低频的比例以得到模型输出结果，并根据模型输出结果得到训练好的语义分割网络模型；

S4，将实时输入特征图输入至训练好的语义分割网络模型进行图像语义分割以输出得到图像语义分割结果。

可以理解的是，本发明先获取样本图像，利用获取的样本图像对本发明实施例的语义分割网络模型进行训练，最终得到能够有效分割图像语义的网络模型。

可以理解的是，语义分割作为一种密集预测任务，感受野的大小以及深度神经网络特征图保留的高频细节信息对预测准确率尤为关键。语义分割网络常使用全局固定的膨胀率的膨胀卷积来提高感受野，但传统膨胀卷积其稀疏采样的特性会导致重要区域的细节丢失。

优选地，本发明则通过将传统膨胀卷积替换为频率自适应膨胀卷积来大幅度保留重要区域的关键细节信息，通过将普通语义分割深度神经网络中全局固定膨胀率的膨胀卷积替换成频率自适应膨胀卷积来构建频率自适应膨胀卷积的语义分割网络。

具体地，本发明实施例的频率自适应膨胀卷积结构如图2所示，包括特征频率选择、自适应膨胀率以及自适应核三个部分。通过这几个部分可以对输入特征进行处理，即输入特征、卷积采样位置、以及卷积核参数的自适应调整。

在本发明的一个实施例中，特征频率选择如图2所示，将输入特征图样本输入至特征频率选择卷积进行频率解耦得到多个解耦特征，并对输入特征图样本进行卷积操作以输出得到多个频率选择图；对每个解耦特征和每个频率选择图进行逐元素相乘操作，并对操作后的每个特征进行逐元素相加操作得到加权特征图；以及，利用特征频率选择卷积对所述输入特征图样本进行全局池化操作以得到全局特征。

具体地，对输入特征图样本的输入特征各个频段的信息预测一个权重进行空间自适应加权：

（1）

其中为空间自适应加权值，可以由核大小为3的卷积核输出得到，其形状大小为，/>为频段数，默认为4，也可以自行调整。/>、/>分别为输入特征的高和宽。/>表示二维坐标，/>为经过特征频率选择后的值。/>为输入特征图在频率段/>的信息，具体为：

（2）

其中为输入特征/>经过傅里叶变换后的结果：

（3）

为横向纵向的频率大小，/>同样为输入特征图的高、宽大小，e为自然底数，/>为虚数。/>为频率掩膜，如果/>，/>，其它情况下则。/>，/>的取值从预定义的频段中选取/>。/>为逆傅里叶变换。

在本发明的一个实施例中，利用自适应膨胀率卷积对加权特征图进行卷积操作得到膨胀率图；基于膨胀率图预测不同的膨胀率控制卷积核在加权特征图的采样位置以采样得到采样特征图；基于自适应核对采样特征图进行卷积运算以得到最终输出特征。

具体地，自适应膨胀率如图2所示，与传统膨胀卷积不同，自适应膨胀率对输入特征每个位置赋予一个自适应的膨胀率：

（4）

其中为/>大小的卷积核于核位置/>的权重，/>为输入特征图/>中的/>位置的值，卷积核每个点的偏移量/>从集合{/>中取值。表示自适应膨胀率对每个位置赋予的膨胀率大小，可由一个大小为3的卷积核输出得到。/>为使用自适应膨胀率卷积后的输出特征。

在本发明的一个实施例中，对静态核进行平均操作得到低频核，通过静态核与低频核进行逐元素相减操作得到高频核，利用全局特征调制卷积核参数中低频核和高频核的比例以得到自适应核。

具体地，自适应核如图2所示，传统膨胀卷积使用静态卷积核一旦训练好则不再改变，而自适应核会将静态卷积核分解和低频核以及高频核两个部分，并根据输入的特征自适应地调整：

（5）

其中为传统静态核，/>为从静态核/>中得到的低频核，通过对静态核做平均得到：

（6）

而则为高频核，可通过静态核减去低频核得到：

（7）

动态加权参数，/>可以使用全局特征经过两个卷积后使用sigmoid激活函数得到。

进一步地，可以使用语义分割任务损失函数，对语义分割深度卷积网络进行训练。具体地，语义分割任务的损失函数通常表示为像素级别的损失，用于衡量模型的预测与实际标签之间的差异。一个常见的语义分割损失函数是交叉熵损失函数（Cross-EntropyLoss），也称为像素分类交叉熵（Pixel-wise Cross-Entropy Loss）：

（8）

其中是图像中像素的总数，/>是类别数，P是预测结果，/>是真值。语义分割网络可通过上述损失函数端到端地训练优化完成。

本发明实施例的基于频率自适应膨胀卷积的图像语义分割方法，对细节丰富的高频区域使用采样密集的小膨胀率卷积，对平滑的低频区域使用采样稀疏的大膨胀率卷积。从而在极小的额外计算量下，大幅度提高语义分割模型在特征过程中保留高频细节信息的能力，并大大增加膨胀卷积的感受野充分利用多尺度、大范围的上下文信息，实现高精度低复杂度的语义分割。

为了实现上述实施例，如图3所示，本实施例中还提供了基于频率自适应膨胀卷积的图像语义分割系统10，该系统10包括，样本特征获取模块100、网络模型构建模块200、网络模型训练模块300和语义分割输出模块400；

样本特征获取模块100，用于获取输入特征图样本；

网络模型构建模块200，用于构建基于频率自适应膨胀卷积的语义分割网络模型；其中，频率自适应膨胀卷积，包括特征频率选择卷积、自适应膨胀率卷积以及自适应核模块；

网络模型训练模块300，用于将输入特征图样本输入至语义分割网络模型中进行模型训练，以利用特征频率选择卷积对输入特征图样本的频率进行空间自适应加权得到特征加权结果，并利用自适应膨胀率卷积和自适应核模块分别根据特征加权结果预测膨胀率控制卷积核采样位置以及调制卷积核参数中高低频的比例以得到模型输出结果，并根据模型输出结果得到训练好的语义分割网络模型；

语义分割输出模块400，用于将实时输入特征图输入至训练好的语义分割网络模型进行图像语义分割以输出得到图像语义分割结果。

进一步地，上述网络模型训练模块300，还用于：

将输入特征图样本输入至特征频率选择卷积进行频率解耦得到多个解耦特征，并对输入特征图样本进行卷积操作以输出得到多个频率选择图；

利用特征频率选择卷积对输入特征图样本进行全局池化操作以得到全局特征。

进一步地，上述网络模型训练模块300，还用于：

对静态核进行平均操作得到低频核；

通过静态核与所述低频核进行逐元素相减操作得到高频核；

进一步地，上述网络模型训练模块300，还用于：

进一步地，上述网络模型训练模块300，还用于：利用语义分割任务损失函数对语义分割网络模型进行训练，并基于所述最终输出特征以得到所述训练好的语义分割网络模型。

本发明实施例的基于频率自适应膨胀卷积的图像语义分割系统，对细节丰富的高频区域使用采样密集的小膨胀率卷积，对平滑的低频区域使用采样稀疏的大膨胀率卷积。从而在极小的额外计算量下，大幅度提高语义分割模型在特征过程中保留高频细节信息的能力，并大大增加膨胀卷积的感受野充分利用多尺度、大范围的上下文信息，实现高精度低复杂度的语义分割。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

Claims

1.一种基于频率自适应膨胀卷积的图像语义分割方法，其特征在于，包括：

获取输入特征图样本；

2.根据权利要求1所述的方法，其特征在于，利用所述特征频率选择卷积对输入特征图样本的频率进行空间自适应加权得到特征加权结果，包括：

3.根据权利要求2所述的方法，其特征在于，利用自适应核模块根据所述特征加权结果调制卷积核参数中高低频的比例，包括：

对静态核进行平均操作得到低频核；

通过静态核与所述低频核进行逐元素相减操作得到高频核；

4.根据权利要求3所述的方法，其特征在于，利用所述自适应膨胀率卷积和自适应核模块分别根据所述特征加权结果预测膨胀率控制卷积核采样位置以及调制卷积核参数中高低频的比例以得到模型输出结果，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述模型输出结果得到训练好的语义分割网络模型，包括：利用语义分割任务损失函数对语义分割网络模型进行训练，并基于所述最终输出特征以得到所述训练好的语义分割网络模型。

6.一种基于频率自适应膨胀卷积的图像语义分割系统，其特征在于，包括：

样本特征获取模块，用于获取输入特征图样本；

7.根据权利要求6所述的系统，其特征在于，所述网络模型训练模块，还用于：

8.根据权利要求7所述的系统，其特征在于，所述网络模型训练模块，还用于：

对静态核进行平均操作得到低频核；

通过静态核与所述低频核进行逐元素相加操作得到高频核；

9.根据权利要求8所述的系统，其特征在于，所述网络模型训练模块，还用于：

10.根据权利要求9所述的系统，其特征在于，所述网络模型训练模块，还用于：利用语义分割任务损失函数对语义分割网络模型进行训练，并基于所述最终输出特征以得到所述训练好的语义分割网络模型。