CN116977746A

CN116977746A - 毫米波图像目标分类方法、装置、设备和存储介质

Info

Publication number: CN116977746A
Application number: CN202311010911.8A
Authority: CN
Inventors: 高杰; 高崇亮; 曹亚军; 江益; 姚曙; 韩超
Original assignee: China Building Decoration Co ltd; China Construction Decoration Green Innovation Technology Wuhan Co ltd; China Construction Shenzhen Decoration Co Ltd
Current assignee: China Building Decoration Co ltd; China Construction Decoration Green Innovation Technology Wuhan Co ltd; China Construction Shenzhen Decoration Co Ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-10-31

Abstract

本公开涉及一种毫米波图像目标分类方法。该方法包括：获取第一毫米波图像；将所述第一毫米波图像，输入到预先经过训练的分类识别网络中，进行分类识别，得到分类识别结果；所述分类识别网络包括：多个组合特征提取模块、最大池化层、全连接层和输出层；其中，组合特征提取模块包括：重叠特征块合并模块和Mix‑Transformer模块；重叠特征块合并模块，用于对任意的两个相邻的图像的重叠部分进行合并处理；Mix‑Transformer模块，用于对经过处理的两个相邻的图像进行特征提取处理。Mix‑Transformer模块中，采用缩放系数缩减key和value矩阵的维度，以降低注意力机制的复杂性。本申请可以实现对于毫米波图像的分类识别，并且，可以提高输入特征的连续性，提高分类识别的效率和准确性。

Description

毫米波图像目标分类方法、装置、设备和存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种毫米波图像目标分类方法、装置、设备和存储介质。

背景技术

相关技术中，可以实现对毫米波图像中的物体进行检测，但对于检测出来的物体没有办法进行分类，得不到分类的结果，导致在一些场景中，导致应用不方便。

发明内容

为克服相关技术中存在的问题，本公开提供一种毫米波图像目标分类方法、装置、设备和存储介质。

根据本公开实施例的第一方面，提供一种毫米波图像目标分类方法，包括：

获取第一毫米波图像；

将所述第一毫米波图像，输入到预先经过训练的分类识别网络中，进行分类识别，得到分类识别结果；

所述分类识别网络包括：多个组合特征提取模块、最大池化层、全连接层和输出层；

其中，所述组合特征提取模块包括：重叠特征块合并模块和Mix-Transformer模块；

所述重叠特征块合并模块，用于对任意的两个相邻的图像进行去重处理，使得所述两个相邻的图像不重叠，并且连续；

所述Mix-Transformer模块，用于对经过去重处理的所述两个相邻的图像进行特征提取处理；

所述Mix-Transformer模块中，采用缩放系数缩减所述Mix-Transformer模块中的key和value矩阵的维度，以降低注意力机制的复杂性。

在一种实施方式中，采用缩放系数缩减所述Mix-Transformer模块中的key和value矩阵的维度，以降低注意力机制的复杂性，包括：

采用深度可分离卷积网络分别对所述key和value矩阵进行卷积处理，以降低所述key和value矩阵的维度，所述深度可分离卷积网络的卷积核为

其中，S为所述卷积核的步长，所述缩放系数为S²。

在一种实施方式中，所述Mix-Transformer模块的输出可表示为：

x_out＝Linear(GELU(DWConv(x_atten)))+x_atten；

其中，Linear(·)表示全连接层，GELU(·)表示激活函数，x_atten表示自注意力层的输出结果：

x_atten＝Attention(Q,K,V)+x_in；

其中，x_in表示所述输入Mix-Transformer模块的特征图；

M^q，为第一学习权重矩阵；

M^k，为第二学习权重矩阵；

M^v，为第三学习权重矩阵。

第二方面，本申请提出了一种毫米波图像目标分类装置，包括：

图像获取单元，用于获取第一毫米波图像；

处理单元，用于将所述第一毫米波图像，输入到预先经过训练的分类识别网络中，进行分类识别，得到分类识别结果；

根据本公开实施例的第三方面，提供一种毫米波图像目标分类设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为运行所述可执行指令以实现上述方法的步骤。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现上述方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本申请的技术方案，将获取到的第一毫米波图像，输入到预先经过训练的分类识别网络中，进行分类识别，得到分类识别结果；所述分类识别网络包括：多个组合特征提取模块、最大池化层、全连接层和输出层；所述重叠特征块合并模块，用于对任意的两个相邻的图像进行去重处理，使得所述两个相邻的图像不重叠，并且连续；所述Mix-Transformer模块中，采用缩放系数缩减所述Mix-Transformer模块中的key和value矩阵的维度，以降低注意力机制的复杂性。本申请的技术方案，可以实现对于毫米波图像的分类识别，并且，可以提高输入特征的连续性，提高分类识别的效率和准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种毫米波图像目标分类方法的流程图；

图2是根据一示例性实施例示出的一种一种分类识别网络结构的示意图；

图3是根据一示例性实施例示出的一种两个相邻的图像的重叠示意图；

图4是根据一示例性实施例示出的Mix-Transformer模块自注意力层的示意图；

图5是根据一示例性实施例示出的一种毫米波图像目标分类装置的框图；

图6是根据一示例性实施例示出的一种毫米波图像目标分类设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

位于红外与微波之间波段的毫米波，除具有红外和微波共同特征外还有其特有的性能。与微波相比，毫米波的指向性好、抗干扰能力强、探测性能好、能很好地穿透等离子体；与红外相比毫米波受气象影响较小，能很好地区别金属目标和周围环境。因此，毫米波辐射探测设备在恶劣天气或战场烟尘条件下比光电探测器更为有效，它具有全天候工作能力，最重要的是，毫米波具有非电离性，对人体不会造成伤害，因此，毫米波辐射探测技术在许多领域发挥着重要作用。目前，在民用领域毫米波成像系统多用于人体安检与幕墙构建检测。

在人体安检中，毫米波成像不仅可以穿透普通衣服检测出隐藏的金属违禁品，还可以检测出非金属违禁品，同时也不会对人体产生伤害；在幕墙构建检测中，幕墙通常由石材面板和支承结构，比如，横梁立柱、钢结构、连接件等组成，是不承担主体结构荷载与作用的建筑围护结构。毫米波成像可以穿透石材面板检测其支撑结构的完整性，方便工作人员及时更换受损的幕墙，防止意外的发生。

相关技术中，可以实现对毫米波图像中的物体进行检测，可以有效检测毫米波图像中可能存在的物体，但不能够对检测出来的物体进行归类。

然而，在某些特定场景，需要对毫米波图像中的物体进行分类，相关技术中，难以达到该要求，需要改进。

本公开提出了一种毫米波图像目标分类方法，参见附图1所示的一种毫米波图像目标分类方法的流程图；该方法包括以下的步骤：

步骤S101中，获取第一毫米波图像。

在本实施例中，步骤S101之前，可以预先收集相关的毫米波图像，并将毫米波图像分为训练集与测试集。具体的，可以采用训练集对分类识别网络进行训练，采用测试集对经过训练的分类识别网络进行测试。当分类识别网络的损失函数值小于预定阈值时，停止训练，得到经过训练的分类识别网络模型。

步骤S102中，将所述第一毫米波图像，输入到预先经过训练的分类识别网络中，进行分类识别，得到分类识别结果。

参见附图2所示的一种分类识别网络的结构示意图。该网络结构中，输入端输入毫米波图像，输出端输出分类识别结果。

所述重叠特征块合并模块，用于对任意的两个相邻的图像进行去重处理，使得所述两个相邻的图像不重叠，并且连续。

所述Mix-Transformer模块，用于对经过去重处理的所述两个相邻的图像进行特征提取处理。

在本实施例中，上述的Mix-Transformer模块可以采用改进的Swin Transformer模块实现。上述的Mix-Transformer模块，简化了上述的Swin Transformer模块的计算复杂度，该Mix-Transformer模块中的重叠特征块合并模块可以提高输入特征的连续性，提高分类识别的效率和准确性。

在一些实施例中，结合附图2说明上述的分类识别网络的处理过程。

首先，将分辨率为H×W，通道数为3的图片输入第一组合特征提取模块，该第一组合特征提取模块包括串联的第一重叠特征块合并模块和第一Mix-Transformer组合模块；所述第一Mix-Transformer组合模块包括两个串联的Mix-Transformer模块。卷积通道数为32。

上述图片，首先经过上述的第一重叠特征块合并模块，该第一重叠特征块合并模块将特征图切块合并成序列并输入到上述的第一Mix-Transformer组合模块，获得原始图像分辨率的1/4的第一级特征图，分辨率为H/4×W/4。

将上述的第一级特征图输入到第二组合特征提取模块，第二组合特征提取模块包括串联的第二重叠特征块合并模块和第二Mix-Transformer组合模块；上述的第二Mix-Transformer组合模块，包括两个Mix-Transformer模块；卷积通道数为64。

第二重叠特征块合并模块，用于实现特征图的下采样和Mix-Transformer模块输入序列的转换；

再经过第二Mix-Transformer组合模块处理，得到第二级特征图，第二级特征图的分辨率为原始图像分辨率的1/8，分辨率为，H/8×W/8。

将上述的第二级特征图输入到第三组合特征提取模块，第三组合特征提取模块包括串联的第三重叠特征块合并模块和第三Mix-Transformer组合模块；上述的第三Mix-Transformer组合模块，包括串联的六个Mix-Transformer模块；卷积通道数为160。

第三重叠特征块合并模块，用于实现特征图的下采样和Mix-Transformer模块输入序列的转换；

再经过第三Mix-Transformer组合模块处理，得到第三级特征图，第三级特征图的分辨率为原始图像分辨率的1/16，分辨率为，H/16×W/16。

将上述的第三级特征图输入到第四组合特征提取模块，第四组合特征提取模块包括串联的第四重叠特征块合并模块和第四Mix-Transformer组合模块；上述的第四Mix-Transformer组合模块，包括串联的两个Mix-Transformer模块；卷积通道数为256。

第四重叠特征块合并模块，用于实现特征图的下采样和Mix-Transformer模块输入序列的转换；

再经过第四Mix-Transformer组合模块处理，得到第四级特征图，第四级特征图的分辨率为原始图像分辨率的1/32，分辨率为，H/32×W/32。

参见附图3所示的一种两个相邻的图像的重叠示意图，通过重叠特征块合并模块的处理，可以去除重叠部分，并且可以保持两个相邻的图像连续。

在本实施例中，特征图的下采样均在重叠特征块合并模块执行。不同于SwinTransformer Tiny网络，所有相邻的特征切块均存在重叠部分，并通过深度可分离卷积来执行重叠特征块合并去重，以产生与非重叠过程具有相同大小的特征。

具体的，可以使用卷积核大小为7×7，步距为4，填充数为3的卷积层来确定第一级特征图的维度，使用卷积核大小为3×3，步距为2，填充数为1的卷积层分别确定第二、三、四级特征图的维度。这种重叠特征块合并去重的操作能够有效保证特征块之间的连续性，提高了目标的分类准确性。

在一些实施例中，采用缩放系数缩减所述Mix-Transformer模块中的key和value矩阵的维度，以降低注意力机制的复杂性，可以包括以下的步骤：

其中，S为所述卷积核的步长，所述缩放系数为S²。

在本实施例中，参见附图4，所述Mix-Transformer模块，该模块在自注意力层后接深度可分离卷积层增强局部特征的关联。可以将Swin Transformer模块中的W-MSA结构和SW-MSA结构相结合，简化了参数和计算量。

在一些实施例中，Mix-Transformer模块通过对自注意力层中key和value矩阵维度的缩减来降低自注意力机制的计算量。在原本的自注意力机制每个头query(Q)、key(K)和value(V)矩阵都具有相同的维度(N×C)，其中N＝H×W，自注意力机制的计算公式如下：

它的计算复杂度会随着输入图像分辨率的增大而呈指数型增加。因此，通过缩放系数S来缩减K和V矩阵的维度。先将K和V矩阵的维度转换成(H×W×C)，采用深度可分离卷积来缩减矩阵维度，以K矩阵为例：

K^′＝DWConv(K)；

卷积层的卷积核大小为S×S，步距为S，将特征图划分到一个个窗口，这些窗口互不重叠，每个窗口的维度都为S，总共得到(H/S×W/S)个窗口，得到的K^′矩阵的维度为(H/S×W/S×C)，再转换成V矩阵也经过同样的操作得到V^′。得到的新的注意力机制的公式为：

因此，自注意力机制的复杂性从O(N²)降低为

同样考虑到窗口与窗口之间不重叠，在自注意力层后加入深度可分离卷积保持局部信息的连续性，该卷积层的卷积核大小为3×3，步距为1，填充数为1，不改变特征图的维度大小。该做法将Swin Transformer模块中的窗自注意力结构和偏移窗自注意力结构整合，形成一个Mix-Transformer模块，Mix-Transformer的输出可表示为：

x_out＝Linear(GELU(DWConv(x_atten)))+x_atten；

其中Linear(·)表示全连接层，GELU(·)表示激活函数，x_atten表示自注意力层的输出结果。

x_atten＝Attention(Q,K,V)+x_in；

其中，x_in表示所述输入Mix-Transformer模块的特征图；

M^q，为第一学习权重矩阵；

M^k，为第二学习权重矩阵；

M^v，为第三学习权重矩阵。

在一些实施例中，为了验证递归融合模块的有效性，在幕墙金属构件毫米波图像的数据集上进行实验，与Swin Transformer Tiny网络进行对比。所有模型均通过单尺度推断进行评估，输入图像分辨率为224×224。测试网络性能的参数为平均准确率(mPrecision)、平均召回率(mRecall)、参数量(Parameters)和浮点运算量(FLOPs)。mPrecision表示每一类预测为正样本中实际为正样本的概率的平均。mRecall表示每一类实际为正样本中预测为正样本的概率的平均。Parameters表示在训练过程中需要学习的参数数量。FLOPs表示在推理过程中进行的浮点运算的数量。

Mix-Transformer模型的mPrecision值、mRecall值比Swin Transformer Tiny模型分别提升了8.05％、8.1％。Mix-Transformer模块与Swin Transformer模块相比大幅降低了模型的参数和FLOPs，并提高了毫米波图像分类的准确度，参见表1：

网络模型	mRecall	mPrecision	Parameters(M)	FLOP(G)
					Swin Transformer Tiny	84.48％	84.54％	28.265	8.744
Mix-Transformer	92.58％	92.59％	4.384	1.226

基于同一个发明构思，第二方面，本申请提出了一种毫米波图像目标分类装置，参见附图5，包括：

图像获取单51，用于获取第一毫米波图像；

处理单元52，用于将所述第一毫米波图像，输入到预先经过训练的分类识别网络中，进行分类识别，得到分类识别结果；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本申请的第三方面，提供了一种电子设备；参见附图6，该电子设备包括至少一个处理器61和至少一个存储器62；所述存储器62用于存储一个或多个程序指令；所述处理器61，用于运行一个或多个程序指令，用以执行上述任一项的方法。

第四方面，本申请还提出了一种计算机可读存储介质，计算机可读存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行上述任一项所述的方法。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种毫米波图像目标分类方法，其特征在于，包括：

获取第一毫米波图像；

2.根据权利要求1所述的毫米波图像目标分类方法，其特征在于，

采用缩放系数缩减所述Mix-Transformer模块中的key和value矩阵的维度，以降低注意力机制的复杂性，包括：

采用深度可分离卷积网络分别对所述key和value矩阵进行卷积处理，以降低所述key和value矩阵的维度，所述深度可分离卷积网络的卷积核为其中，S为所述卷积核的步长，所述缩放系数为S²。

3.根据权利要求1所述的毫米波图像目标分类方法，其特征在于，

所述Mix-Transformer模块的输出可表示为：

x_out＝Linear(GELU(DWConv(x_atten)))+x_atten；

x_atten＝Attention(Q,K,V)+x_in；

其中，x_in表示所述输入Mix-Transformer模块的特征图；

M^q，为第一学习权重矩阵；

M^k，为第二学习权重矩阵；

M^v，为第三学习权重矩阵。

4.一种毫米波图像目标分类装置，其特征在于，包括：

图像获取单元，用于获取第一毫米波图像；

5.一种毫米波图像目标分类设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为运行所述可执行指令以实现权利要求1至3中任一项所述的方法。

6.一种非临时性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。