CN117649666B

CN117649666B - 一种基于动态多尺度信息查询的图像语义分割方法及系统

Info

Publication number: CN117649666B
Application number: CN202410122219.2A
Authority: CN
Inventors: 魏志强; 王庆; 黄磊
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-04-26
Anticipated expiration: 2044-01-30
Also published as: CN117649666A

Abstract

本发明公开了一种基于动态多尺度信息查询的图像语义分割方法及系统，属于图像处理技术领域。本发明充分考虑了复杂交通场景下不同类别目标特征与多尺度全局特征的相关性，利用类别嵌入建立复杂交通场景的目标查询，与模型提取的多尺度全局特征交互实现不同类别的目标在各个尺度下特征的提取。之后，确定不同类别的目标在各个尺度下的特征的n维权重向量，动态分配多尺度权重后克服复杂交通场景下各类别多尺度特征差异的问题。从而有效提高复杂交通场景图像中不同尺度对象的分割精度，提升复杂交通场景的图像语义分割效果。解决现有方案不能准确获取各类目标相对重要的多尺度信息，导致图像语义分割效果差的技术问题。

Description

一种基于动态多尺度信息查询的图像语义分割方法及系统

技术领域

本发明涉及图像处理技术领域，并且更具体地，涉及一种基于动态多尺度信息查询的图像语义分割方法及系统。

背景技术

图像语义分割旨在将图像中的每个像素分配到预定义的语义类别中，从而实现对图像内容的深层次理解。多尺度序列交互在图像语义分割领域是一项关键的研究方向，该方法通过在不同尺度上对图像进行分析，并在不同层次上进行信息交互，从而提高模型对多尺度目标的感知能力，实现对复杂场景和对象的更准确、更全面理解的需求。Transformer模型作为一种基于注意力机制的深度学习模型，已经在计算机视觉中取得了显著的成功。基于Transformer模型的图像语义分割研究成为了计算机视觉中重要的研究热点，并在复杂交通场景的分析方面具有广泛的应用。例如发明申请CN115482382A，公开了一种基于Transformer架构的图像语义分割方法，将图像块输入到基于Transformer的编码器-解码器架构中，其中移动窗口机制的设计使得特征包含信息更全面，UNet++模型中嵌套和密集的跳跃连接能够充分提取上下文特征，使得特征融合更充分。

由于复杂交通场景存在不同类别目标尺度差异大、背景和场景复杂的特点，对复杂交通场景图像语义分割中的关键——各类别目标多尺度表征学习，带来了极大挑战。现有的多尺度序列交互的图像语义分割模型应用于复杂交通场景时，其分割性能会受到场景特征影响，不能解决各类别目标的多尺度特征差异问题。它们往往借助金字塔型网络或者输入多尺度图像独立编码的方式保留粗粒度和细粒度的多尺度特征，再使用交叉注意进行信息交互，这些方法提取各目标信息时默认所有尺度特征的重要程度相同，但是精细的细节通常在较大的尺度上能被最好地预测，在较小的尺度上，网络能够更好地理解场景。不同类别的目标的精细程度不同，所以提取各目标信息时不同尺度特征重要程度是不同的。

因此，现有的图像语义分割方法不能准确获取各类目标相对重要的多尺度信息，导致图像语义分割效果差。

发明内容

为了解决上述背景技术所述的至少一个问题，本发明提供一种基于动态多尺度信息查询的图像语义分割方法及系统。

根据本发明的一个方面，提供了一种基于动态多尺度信息查询的图像语义分割方法，包括：

按照预设的规则，对输入图像进行预处理，得到数据序列X_input；

利用Vision Transformer模型对数据序列X_input进行全局关联特征的提取，得到特征序列F；

定义待预测的类别嵌入F_embedding，利用类别嵌入F_embedding建立目标查询，在不同尺度的高阶表征中提取特征序列F的各类别信息，得到n个与类别嵌入F_ei形状相同的特征，并将n个与类别嵌入F_ei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征F_multiscale；其中，类别嵌入F_embedding的个数为N_class，N_class表示待预测的类别数，每个类别嵌入F_embedding的序列长度均为特征序列F通道数的n倍；

确定不同类别的目标在各个尺度下的特征F_multiscale的n维权重向量，对每个类别的特征F_multiscale使用对应的权重向量进行加权求和，得到特征F_dynamic；其中，每个权重向量中n个不同维度的值表示该类别n个不同尺度下的特征的重要程度；

将特征F_dynamic与特征序列F相乘，将相乘得到的特征的分辨率调整至预设值，得到类掩码F_final，用Softmax分类器逐像素预测类掩码F_final的语义类别，得到输入图像的分割结果图。

可选地，所述按照预设的规则，对输入图像进行预处理，得到数据序列X_input，包括：

对输入图像进行剪裁或缩放，生成大小为H×W的预处理图像；其中，H表示预处理图像的高度，W表示预处理图像的宽度；

将预处理图像进行交叠切分，形成一系列图像块，并通过在通道维度上对图像块执行展平操作，得到最终的数据序列X_input。

可选地，所述利用类别嵌入F_embedding建立目标查询，在不同尺度的高阶表征中提取特征序列F的各类别信息，得到n个与类别嵌入F_ei形状相同的特征，并将n个与类别嵌入F_ei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征F_multiscale，包括：

将特征序列F映射成n个不同尺度但通道数相同的特征F_i；其中，i∈[1，n]；

将类别嵌入F_embedding在通道方向等分为n份，得到类别嵌入F_ei；其中，i∈[1，n]；

将类别嵌入F_ei作为第i个Transformer模块的输入张量Q_i，将特征F_i作为第i个Transformer模块的输入张量K_i和输入张量V_i，通过n个并行的Transformer模块分别交互实现从不同尺度的高阶表征中提取特征序列F的各类别信息，得到n个与类别嵌入F_ei形状相同的特征；

将n个与类别嵌入F_ei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征F_multiscale。

可选地，所述确定不同类别的目标在各个尺度下的特征F_multiscale的n维权重向量，对每个类别的特征F_multiscale使用对应的权重向量进行加权求和，得到特征F_dynamic，包括：

对特征F_multiscale先使用一个全连接层在类别方向进行特征融合，再进行全局平均池化，随后使用N_class个全连接层映射出N_class个维度为n的向量；

每个向量再经过一个softmax层，共得到N_class个n维权重向量，其中每个权重向量中n个不同维度的值表示该类别n个不同尺度特征的重要程度；

将特征F_multiscale在通道维度等分成n份，对每个类别的特征F_multiscale使用对应的权重向量进行加权求和，得到特征F_dynamic。

根据本发明的一个方面，提供了一种基于动态多尺度信息查询的图像语义分割系统，包括：数据预处理模块、编码器、动态多尺度类别信息查询解码器和预测输出模块，动态多尺度类别信息查询解码器包括多尺度特征查询模块和动态分配模块；其中

数据预处理模块用于按照预设的规则，对输入图像进行预处理，得到数据序列X_input；

编码器用于利用Vision Transformer模型对数据序列X_input进行全局关联特征的提取，得到特征序列F；

多尺度特征查询模块用于定义待预测的类别嵌入F_embedding，利用类别嵌入F_embedding建立目标查询，在不同尺度的高阶表征中提取特征序列F的各类别信息，得到n个与类别嵌入F_ei形状相同的特征，并将n个与类别嵌入F_ei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征F_multiscale；其中，类别嵌入F_embedding的个数为N_class，N_class表示待预测的类别数，每个类别嵌入F_embedding的序列长度均为特征序列F通道数的n倍；

动态分配模块用于确定不同类别的目标在各个尺度下的特征F_multiscale的n维权重向量，对每个类别的特征F_multiscale使用对应的权重向量进行加权求和，得到特征F_dynamic；其中，每个权重向量中n个不同维度的值表示该类别n个不同尺度下的特征的重要程度；

预测输出模块用于将特征F_dynamic与特征序列F相乘，将相乘得到的特征的分辨率调整至预设值，得到类掩码F_final，用Softmax分类器逐像素预测类掩码F_final的语义类别，得到输入图像的分割结果图。

根据本发明的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本发明上述任一方面所述的方法。

根据本发明的又一个方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本发明上述任一方面所述的方法。

本发明通过Vision Transformer模型提取输入图像的多尺度全局特征，利用可学习的类别嵌入建立复杂交通场景的目标查询，然后与提取的多尺度全局特征交互实现对不同尺度下各类别目标信息的提取，得到不同类别的目标在各个尺度下的特征F_multiscale。之后，针对每个类别目标建模其不同尺度特征的重要性，确定不同类别的目标在各个尺度下的特征F_multiscale的n维权重向量，对每个类别的特征F_multiscale使用对应的权重向量进行加权求和，得到特征F_dynamic，克服了复杂交通场景下各类别多尺度特征差异的问题。最后，将特征F_dynamic与特征序列F相乘，将相乘得到的特征的分辨率调整至预设值，得到类掩码F_final，用Softmax分类器逐像素预测类掩码F_final的语义类别，得到输入图像的分割结果图。本发明提出的图像语义分割方法充分考虑了复杂交通场景下不同类别目标特征与多尺度全局特征的相关性，以及同类别目标下多尺度特征间的重要性差异，提升复杂交通场景图像分割效果，可以有效提高复杂交通场景图像中不同尺度对象的分割精度。从而解决现有的图像语义分割方法不能准确获取各类目标相对重要的多尺度信息，导致图像语义分割效果差的技术问题。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1是本发明一示例性实施例提供的基于动态多尺度信息查询的图像语义分割方法的一个流程示意图；

图2是本发明一示例性实施例提供的基于动态多尺度信息查询的图像语义分割方法的整体流程示意图；

图3是本发明一示例性实施例提供的基于动态多尺度信息查询的图像语义分割系统的结构示意图；

图4是本发明一示例性实施例提供的电子设备的结构。

具体实施方式

下面，将参考附图详细地描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

图1示出了本发明所提供的基于动态多尺度信息查询的图像语义分割方法的流程示意图。如图1所示，基于动态多尺度信息查询的图像语义分割方法，包括：

步骤S101：按照预设的规则，对输入图像进行预处理，得到数据序列X_input；

可选地，所述按照预设的规则，对输入图像进行预处理，得到数据序列X_input，包括：对输入图像进行剪裁或缩放，生成大小为H×W的预处理图像；其中，H表示预处理图像的高度，W表示预处理图像的宽度；将预处理图像进行交叠切分，形成一系列图像块，并通过在通道维度上对图像块执行展平操作，得到最终的数据序列X_input。

在本发明实施例中，如图2所示，获取输入图像后，需要对输入图像进行数据预处理，具体为：对输入图像进行剪裁或缩放，生成大小为H×W的预处理图像。随后，该模块将预处理图像进行交叠切分，形成一系列图像块，并通过在通道维度上执行展平操作，得到最终的数据序列X_input。其中，H表示预处理图像的高度，W表示预处理图像的宽度。

步骤S102：利用Vision Transformer模型对数据序列X_input进行全局关联特征的提取，得到特征序列F；

在本发明实施例中，将预处理得到的数据序列X_input作为Vision Transformer模型（对应于图2中的Vision Transformer编码器）的三个输入张量，经过Vision Transformer编码器提取全局关联特征，得到特征序列F。

步骤S103：定义待预测的类别嵌入F_embedding，利用类别嵌入F_embedding建立目标查询，在不同尺度的高阶表征中提取特征序列F的各类别信息，得到n个与类别嵌入F_ei形状相同的特征，并将n个与类别嵌入F_ei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征F_multiscale；其中，类别嵌入F_embedding的个数为N_class，N_class表示待预测的类别数，每个类别嵌入F_embedding的序列长度均为特征序列F通道数的n倍；

可选地，所述利用类别嵌入F_embedding建立目标查询，在不同尺度的高阶表征中提取特征序列F的各类别信息，得到n个与类别嵌入F_ei形状相同的特征，并将n个与类别嵌入F_ei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征F_multiscale，包括：将特征序列F映射成n个不同尺度但通道数相同的特征F_i；其中，i∈[1，n]；将类别嵌入F_embedding在通道方向等分为n份，得到类别嵌入F_ei；其中，i∈[1，n]；将类别嵌入F_ei作为第i个Transformer模块的输入张量Q_i，将特征F_i作为第i个Transformer模块的输入张量K_i和输入张量V_i，通过n个并行的Transformer模块分别交互实现从不同尺度的高阶表征中提取特征序列F的各类别信息，得到n个与类别嵌入F_ei形状相同的特征；将n个与类别嵌入F_ei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征F_multiscale。

步骤S104：确定不同类别的目标在各个尺度下的特征F_multiscale的n维权重向量，对每个类别的特征F_multiscale使用对应的权重向量进行加权求和，得到特征F_dynamic；其中，每个权重向量中n个不同维度的值表示该类别n个不同尺度下的特征的重要程度；

可选地，所述确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量，对每个类别的特征F_multiscale使用对应的权重向量进行加权求和，得到特征F_dynamic，包括：对特征F_multiscale先使用一个全连接层在类别方向进行特征融合，再进行全局平均池化，随后使用N_class个全连接层映射出N_class个维度为n的向量；每个向量再经过一个softmax层，共得到N_class个n维权重向量，其中每个权重向量中n个不同维度的值表示该类别n个不同尺度特征的重要程度；将特征F_multiscale在通道维度等分成n份，对每个类别的特征F_multiscale使用对应的权重向量进行加权求和，得到特征F_dynamic。

在本发明实施例中，通过动态多尺度类别信息查询解码器实现步骤S103和S104的流程步骤。动态多尺度类别信息查询解码器由基于类别的多尺度特征查询模块和动态分配模块构成，基于类别的多尺度特征查询模块由一层线性映射层，n个Transformer模块和一个拼接模块构成，动态分配模块主要由1+N_class个全连接层，一个池化层和N_class个softmax层构成。基于类别的多尺度特征查询模块的作用是利用类别嵌入建立目标查询，在不同尺度的高阶表征中提取各类别信息，动态分配模块的作用是通过对查询到的不同类别物体在各个尺度下的特征计算每个通道得分，表示这个类别该尺度特征的重要程度，针对每个类别目标建模不同尺度特征的重要性，实现动态多尺度查询。

具体地，基于类别的多尺度特征查询模块以随机初始化的方式定义待预测的类别嵌入，记为F_embedding，其中F_embedding的个数为N_class表示待预测的类别数，每个序列长度都为特征序列F通道数的n倍。将编码器输出特征F用一个线性映射层映射成n个不同尺度但通道数相同的特征F₁，F₂，F₃，...，F_n，同时将类别嵌入F_embedding在通道方向等分为n份得到类别嵌入F_e1，F_e2，F_e3，...，F_en。随后将F_ei作为第i个Transformer模块的输入张量Q_i，F_i作为输入张量K_i和输入张量V_i，其中i∈[1,n]，通过n个并行的Transformer模块分别交互实现从不同尺度的高阶表征中提取各类别信息，得到n个与类别嵌入F_e1形状相同的特征，将其按类别在通道方向拼接得到不同类别目标在各个尺度下的特征F_multiscale。

动态分配模块对前一模块查询到的特征F_multiscale先使用一个全连接层在类别方向进行特征融合，再进行全局平均池化，随后使用N_class个全连接层映射出N_class个维度为n的向量。每个向量再经过一个softmax层，共得到N_class个n维权重向量，其中每个权重向量中n个不同维度的值表示该类别n个不同尺度特征的重要程度。接下来将特征F_multiscale在通道维度等分成n份，在每个类别维度使用权重向量进行加权求和，动态分配多尺度权重后得到特征F_dynamic，实现了各类别目标的动态多尺度信息查询。

步骤S105：将特征F_dynamic与特征序列F相乘，将相乘得到的特征的分辨率调整至预设值，得到类掩码F_final，用Softmax分类器逐像素预测类掩码F_final的语义类别，得到输入图像的分割结果图。

在本发明实施例中，通过预测输出模块实现步骤S105的流程步骤。预测输出模块由上采样模块和Softmax分类器构成，将动态多尺度信息查询解码器输出的特征F_dynamic与编码器输出的特征F相乘，采用上采样模块将分辨率调整至预处理图像的分辨率H×W，得到类掩码F_final。再用Softmax分类器逐像素预测语义类别，得到最终的分割结果图。

综上所述，本发明通过Vision Transformer模型提取输入图像的多尺度全局特征，利用可学习的类别嵌入建立复杂交通场景的目标查询，然后与提取的多尺度全局特征交互实现对不同尺度下各类别目标信息的提取，得到不同类别的目标在各个尺度下的特征F_multiscale。之后，针对每个类别目标建模其不同尺度特征的重要性，确定不同类别的目标在各个尺度下的特征F_multiscale的n维权重向量，对每个类别的特征F_multiscale使用对应的权重向量进行加权求和，得到特征F_dynamic，克服了复杂交通场景下各类别多尺度特征差异的问题。最后，将特征F_dynamic与特征序列F相乘，将相乘得到的特征的分辨率调整至预设值，得到类掩码F_final，用Softmax分类器逐像素预测类掩码F_final的语义类别，得到输入图像的分割结果图。本发明提出的图像语义分割方法充分考虑了复杂交通场景下不同类别目标特征与多尺度全局特征的相关性，以及同类别目标下多尺度特征间的重要性差异，提升复杂交通场景图像分割效果，可以有效提高复杂交通场景图像中不同尺度对象的分割精度。从而解决现有的图像语义分割方法不能准确获取各类目标相对重要的多尺度信息，导致图像语义分割效果差的技术问题。

示例性系统

图3是本发明一示例性实施例提供的基于动态多尺度信息查询的图像语义分割系统的结构示意图。如图3所示，系统包括：

数据预处理模块310、编码器320、动态多尺度类别信息查询解码器330和预测输出模块340，动态多尺度类别信息查询解码器330包括多尺度特征查询模块和动态分配模块；其中

数据预处理模块310用于按照预设的规则，对输入图像进行预处理，得到数据序列X_input；

编码器320用于利用Vision Transformer模型对数据序列X_input进行全局关联特征的提取，得到特征序列F；

预测输出模块340用于将特征F_dynamic与特征序列F相乘，将相乘得到的特征的分辨率调整至预设值，得到类掩码F_final，用Softmax分类器逐像素预测类掩码F_final的语义类别，得到输入图像的分割结果图。

本发明的实施例的基于动态多尺度信息查询的图像语义分割系统与本发明的另一个实施例的基于动态多尺度信息查询的图像语义分割方法相对应，在此不再赘述。

示例性电子设备

图4是本发明一示例性实施例提供的电子设备的结构。如图4所示，电子设备40包括一个或多个处理器41和存储器42。

处理器41可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器42可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器41可以运行所述程序指令，以实现上文所述的本发明的各个实施例的软件程序的对历史变更记录进行信息挖掘的方法以及/或者其他期望的功能。在一个示例中，电子设备还可以包括：输入装置43和输出装置44，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

此外，该输入装置43还可以包括例如键盘、鼠标等等。

该输出装置44可以向外部输出各种信息。该输出装置44可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图4中仅示出了该电子设备中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本发明的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本发明的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的对历史变更记录进行信息挖掘的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明中涉及的器件、系统、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、系统、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

还需要指出的是，在本发明的系统、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于动态多尺度信息查询的图像语义分割方法，其特征在于，包括：

将特征F_dynamic与特征序列F相乘，将相乘得到的特征的分辨率调整至预设值，得到类掩码F_final，用Softmax分类器逐像素预测类掩码F_final的语义类别，得到输入图像的分割结果图；

所述按照预设的规则，对输入图像进行预处理，得到数据序列X_input，包括：

将预处理图像进行交叠切分，形成一系列图像块，并通过在通道维度上对图像块执行展平操作，得到最终的数据序列X_input；

所述利用类别嵌入F_embedding建立目标查询，在不同尺度的高阶表征中提取特征序列F的各类别信息，得到n个与类别嵌入F_ei形状相同的特征，并将n个与类别嵌入F_ei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征F_multiscale，包括：

将n个与类别嵌入F_ei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征F_multiscale；

所述确定不同类别的目标在各个尺度下的特征F_multiscale的n维权重向量，对每个类别的特征F_multiscale使用对应的权重向量进行加权求和，得到特征F_dynamic，包括：

2.一种基于动态多尺度信息查询的图像语义分割系统，其特征在于，包括：数据预处理模块、编码器、动态多尺度类别信息查询解码器和预测输出模块，动态多尺度类别信息查询解码器包括多尺度特征查询模块和动态分配模块；其中

预测输出模块用于将特征F_dynamic与特征序列F相乘，将相乘得到的特征的分辨率调整至预设值，得到类掩码F_final，用Softmax分类器逐像素预测类掩码F_final的语义类别，得到输入图像的分割结果图；