CN117115583A

CN117115583A - 基于交叉融合注意力机制的危险品检测方法及装置

Info

Publication number: CN117115583A
Application number: CN202310995063.4A
Authority: CN
Inventors: 吴衡; 曾泽凯; 罗劭娟; 赵艮平
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-11-24
Anticipated expiration: 2043-08-09
Also published as: CN117115583B

Abstract

本发明公开了一种基于交叉融合注意力机制的危险品检测方法，包括：获取太赫兹图像，所述太赫兹图像包括：训练图像和测试图像；构建深度学习网络模型，所述深度学习网络模型包括：backbone特征提取网络、neck特征提取网路、高效融合模块、交叉融合自注意力和YoloHead检测头；基于所述训练图像训练所述深度学习网络模型，得到训练好的深度学习网络模型将所述测试图像输入至训练好的深度学习网络模型中，输出危险品检测结果。本发明引入了高效融合模块和交叉融合自注意力，能够有效利用太赫兹图像中的特征信息，提高危险品目标的检测准确性和鲁棒性，同时轻量化原始检测网络，降低网络的复杂度，提高计算效率。

Description

基于交叉融合注意力机制的危险品检测方法及装置

技术领域

本发明属于危险品检测技术领域，尤其涉及一种基于交叉融合注意力机制的危险品检测方法及装置。

背景技术

太赫兹波检测技术作为一种新兴的无损、无辐射的检测手段，具有在危险品检测领域广泛应用的潜力。太赫兹波能够穿透多种物质，使得在复杂背景下进行危险品检测成为可能；太赫兹成像技术对生物组织和环境没有伤害，适用于敏感场所的安检。

近年来，深度学习技术的快速发展为图像识别和检测提供了强大的工具。然而，传统的目标检测器在太赫兹图像危险品检测中存在一定的局限性，同时传统的目标检测器在速度和轻量化方面不够理想，无法满足实时或移动设备等边缘设备上的应用需求，并且太赫兹图像中的危险品目标通常具有多样的尺寸和复杂的形状，传统的检测方法在准确性和鲁棒性方面存在挑战。

发明内容

本发明提出了一种基于交叉融合注意力机制的危险品检测方法及装置，以解决上述现有技术中存在的技术问题。

为实现上述目的，本发明提供了一种基于交叉融合注意力机制的危险品检测方法及装置，包括：

获取太赫兹图像，所述太赫兹图像包括：训练图像和测试图像；

构建深度学习网络模型，所述深度学习网络模型包括：backbone特征提取网络、neck特征提取网路、高效融合模块、交叉融合自注意力和YoloHead检测头；

基于所述训练图像训练所述深度学习网络模型，得到训练好的深度学习网络模型；

将所述测试图像输入至训练好的深度学习网络模型中，输出危险品检测结果。

优选地，训练所述深度学习网络模型的过程包括：

基于所述高效融合模块，将backbone特征提取网络、neck特征提取网路各自输出的特征图进行跨空间、跨通道融合，得到第一输出特征图。

优选地，跨空间融合的过程包括：

获取输入特征图，通过卷积层扩大所述输入特征图的通道维数，并分割得到第一特征图，将所述第一特征图分别通过本地特征提取块、全局特征提取块，得到重要信息和全局上下文信息，将所述重要信息、所述全局上下文信息进行相加，得到第一注意力权重。

优选地，第一注意力权重的计算公式：

s₁,w＝Π_chunk(f_c(F)_1×1)

其中表示sigmoid函数，local-conv(·)表示本地特征提取块，global-conv(·)表示全局特征提取块，f_c(·)_1×1卷积核为1的卷积，F∈R^C×H×W为输入特征图，s₁,w∈R^C×H×W为第一特征图，w₁为第一注意力权重。

优选地，跨通道融合的过程包括：

将所述输入特征图分别进行平均池化和最大池化后拼接，得到拼接通道特征，基于本地特征提取块将所述拼接通道特征进行转换并分割，得到第一通道注意力特征图和第二通道注意力特征图；

获取输入特征图经过卷积层后的原始加权特征，将所述第一通道注意力特征图与所述原始加权特征相乘，得到加权特征；

将第二通道注意力特征图通过全局特征提取块、本地特征提取块和sigmoid函数，得到第二注意力权重；

基于所述原始加权特征、所述加权特征和所述第二注意力权重，得到第一输出特征图。

优选地，所述第一输出特征图的计算公式：

s₂＝x₁*s^*

F_out＝s₁*w₁+x₁*(1-w₁)+s₂*w₂+x₁*(1-w₂)

其中F_out∈R^C×H×W表示高效融合模块的第一输出特征图，s^*为第一通道注意力特征图，w^*为第二通道注意力特征图，w₂为第二注意力权重，s₂为加权特征，x₁∈R^C×H×W为原始加权特征，s₁为第一特征图权重。

优选地，训练所述深度学习网络模型的过程还包括：

基于所述交叉融合自注意力，将neck特征提取网路输出的特征图进行融合，得到第二输出特征图。

优选地，得到第二输出特征图的过程包括：

对所述输入特征图进行reshape和卷积操作，得到第一输入序列和第二输入序列，分别将所述第一输入序列、第二输入序列进行映射，得到第一映射参数和第二映射参数，基于所述第一映射参数和第二映射参数，计算得到第二输出特征图。

优选地，第二输出特征图的计算公式：

X₁＝Concat(head₁,...,head_h)W_o

其中，head_i∈R^HW×C/8是第i个注意力头的输出，W_o∈R^C×C为加权矩阵，分别表示查询向量、键向量和值向量；

F_out′＝Conv(concate(X₁,Conv(reshape(F₂))_1×1)₁)_1×1

其中，concate(·,·)₁表示在维度1对特征图进行拼接，F_out′∈R^C×H×W表示交叉融合自注意力模块的第二输出特征图。

本发明还公开了一种基于交叉融合注意力机制的危险品检测装置，包括：计算机、太赫兹成像设备和扫描式太赫兹收发装置；所述计算机依次与所述扫描式太赫兹收发装置、所述太赫兹成像设备连接。

与现有技术相比，本发明具有如下优点和技术效果：

本发明提供了一种交叉融合注意力机制的太赫兹危险品检测方法及装置，深度学习网络模型中引入了高效融合模块和交叉融合自注意力，能够有效利用太赫兹图像中的特征信息，提高危险品目标的检测准确性和鲁棒性。同时，轻量化原始yolov8网络，降低网络的复杂度，提高计算效率。随着太赫兹成像技术的不断发展和广泛应用，结合深度学习的危险品检测算法可广泛应用于安检、边境检查、反恐等领域，提升公共安全水平。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例的太赫兹危险品检测装置的组成示意图；

图2为本发明实施例的检测网络整体架构示意图；

图3为本发明实施例的高效融合模块网络架构示意图；

图4为本发明实施例的本地特征提取块和全局特征提取块网络示意图；

图5为本发明实施例的交叉融合自注意力模块网络架构示意图；

其中，101-计算机、102-太赫兹成像设备、103-扫描式太赫兹收发装置、104-被检人员。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1所示，本实施例中提供一种基于交叉融合注意力机制的危险品检测装置，包括：计算机101、太赫兹成像设备102、扫描式太赫兹收发装置103、被检人员104；计算机101与太赫兹成像设备102连接，同时连接扫描式太赫兹收发装置103。

扫描式太赫兹收发装置103通过发送太赫兹信号，对被检人员104进行扫描或测量，从被检测人员104反射或散射的太赫兹信号传回扫描式太赫兹收发装置103；太赫兹成像设备102对接收到的太赫兹信号进行处理和分析，生成太赫兹图像；计算机101通过深度学习图像检测算法获取被检人员104的太赫兹图像并进行危险品检测。

实施例二

本实施例中提供一种基于交叉融合注意力机制的危险品检测方法，包括以下步骤：

步骤1：由太赫兹成像设备102拍摄被检人员104图像，构建太赫兹图数据集I_h＝[I_h1，I_h2，...I_hK]，其中，数据集I_h中元素总数为K＝3000，图像尺寸大小为3×640×640。图像标注使用开源工具labelImg，标注内容为危险品类别和缺陷目标的左上角右下角坐标。标注后的信息文件格式为xml。

步骤2.1：搭建如图2所示网络模型，所述深度学习网络模型包括backbone特征提取网络、neck特征提取网路、高效融合模块、交叉融合自注意力和YoloHead检测头结构。

使用尺寸为3×640×640的RGB图像作为输入进入网络模型的backbone，分别通过卷积、C2F层和SPPF层，并输出三个尺度不同的特征图I_b1，I_b2和I_b3，尺度分别为128×80×80，256×40×40和512×20×20。C2F层的个数设置为3，3，3，3。通过减少了原始C2F模块的数量，以降低参数量。特征图I_b1，I_b2经过高效融合模块来连接backbone中的C2F层与neck层的特征传递。利用该模块实现了特征图之间的跨通道和跨空间的信息融合。高效融合模块输出和输入特征尺度保持一致。

在网络模型的neck中，为实现特征图的高效融合的精细调整和进一步减低参数量。在neck的整体结构中。首先，利用卷积核大小为1的卷积来替换2个C2F模块，降低网络的复杂度，提高计算效率。neck输出三个尺度不同的特征图I_n1，I_n2和I_n3。尺度分别为128×80×80，256×40×40和512×20×20。设计了交叉融合自注意力，对neck输出到检测头的特征图进行两两融合。实现跨特征图的信息交互与融合，从而提高目标检测性能。

步骤2.2：高效融合模块如图3所示，假设给定输入特征图F∈R^C×H×W。对于空间注意力部分，首先通过卷积层f_c(·)_1×1将通道维数扩大两倍，在维度1对特征图进行分割，得到特征图s₁,w∈R^C×H×W。将特征图w并行的通过结构不同的两个卷积块。如图4所示，本地特征提取块通过卷积对特征图通道数进行压缩和恢复，选择重要信息、重新提取丢失的特征、减少过拟合等。如图4所示，全局特征提取块通过自适应平均池化操作将特征图降低为1x1的尺寸，然后经过卷积层对通道数进行压缩和恢复。目的是将特征图进行全局池化，以获取全局上下文信息。最后对上述两个卷积块的输出进行相加，并使用sigmoid函数得到注意力权重w₁。该过程可以描述为：

s₁,w＝∏_chunk(f_c(F)_1×1)

其中表示sigmoid函数。local-conv(·)表示本地特征提取块。global-conv(·)表示全局特征提取块。f_c(·)_1×1卷积核为1的卷积。

对于通道注意力部分，特别的，这部分也使用了空间注意力的思想来调整权重。将输入特征图F∈R^C×H×W分别进行平均池化和最大池化，并将其输出在维度1进行拼接。再使用本地特征提取块将拼接后的通道信息进行特征转换，在维度1对特征图进行分割，得到两个通道注意力特征图s^*,w^*∈R^C×H×W。此外，将输入特征图F通过卷积层f_c(·)_1×1，得到原始加权特征x₁∈R^C×H×W来调整空间和通道特征。将特征图x₁与特征图s^*相乘得到加权特征s₂。将特征图w^*通过全局特征提取块、本地特征提取块和sigmoid函数，得到注意力权重w₂。最总，将上述权重与特征图进行计算，得到最终输出特征。上述过程可表述为：

s₂＝x₁*s^*

F_out＝s₁*w₁+x₁*(1-w₁)+s₂*w₂+x₁*(1-w₂)

上式中F_out∈R^C×H×W表示高效融合模块最终输出特征。

步骤2.3：交叉融合自注意力模块如图5所示，首先，给定输入特征F₁∈R^C×H×W,F₂∈R^2C×H/2×W/2，对输入特征进行reshape和卷积操作，得到的两个分支的输出，分别表示为F₁′∈R^C×HW和F₂′∈R^C×HW/4。将这两个分支作为交叉自注意力的输入特征。该过程可表示为：

F₁′＝reshape(F₁)

F₂′＝reshape(Conv(F₂)_1×1)

其中，reshape(·)表示对特征图进行维度的变换，Conv(·)_1×1表示卷积核为1的卷积操作，并将通道数压缩为原来的一半。为了有效地增强了特征图之间的交互和信息流动，我们在特征融合上做了关键改进。我们将输入序列F₁′映射为和/>将F₂′映射为和/>我们将计算得到的键k和值v进行拼接操作，以增强不同层次的表征能力。

其中，表示线性变换的权重参数。concate(·，·)₂表示在维度2对特征进行拼接。将/>和/>作为输入，注意力函数将每个查询转换为值的加权和。可以用以下矩阵形式表示：

上式中引入比例因子来避免权重集中和梯度消失。因此，融合了不同键和值的交叉注意力可以表示为：

X₁＝Concat(head₁,...,head_h)W_o

其中，head_i∈R^HW×C/8是第i个注意力头的输出。利用加权矩阵W_o∈R^C×C的线性变换来构成所有注意力头。随后，将输入F₂进行卷积核上采样操作，调整特征图通道数核特征维度。进一步与交叉注意力输出结果X₁进行融合，再用卷积调整通道数，得到交叉融合自注意力模块最终输出。上述过程可以表述为：

F_out′＝Conv(concate(X₁,Conv(reshape(F₂))_1×1)₁)_1×1

上式中concate(·,·)₁表示在维度1对特征图进行拼接，F_out′∈R^C×H×W表示交叉融合自注意力模块最终输出特征。

步骤3：训练方法包括先冻结骨架特征提取网络部分的权重，训练20个epoch，然后解冻所有权重，训练80个epoch；所使用的损失函数和原始yolov8中的损失函数一致。设置网络训练参数：学习率lr＝0.01、batchsize＝64、训练集验证集划分为0.9：0.1、优化器使用SGD和训练周期为100轮。

步骤4：使用训练好的网络进行预测，输入测试图像，输出太赫兹图像目标预测目标框。首先将待测图片I_t输入到网络中，图像大小为3×640×640，经过网络推理，得到Yolohead的输出。输出的特征图尺度为80×80、40×40和20×20的三个特征图。将分类和回归预测结果从不同尺度的特征图中提取出来，并进行拼接和维度变换操作。为了方便处理，将原先的通道维度置换到最后，得到类别预测分支和bbox预测分支的形状分别为(1,8400,80)和(1,8400,4)。将所有目标以目标是否存在置信度(conf＝0.001)降序排列，然后从高到低逐一计算与其他预测的IOU大小，剔除IOU大于某个阈值(iou＝0.6)的预测。随后，根据前面的预处理过程，将剩余的检测框还原到网络输出之前的原始图像尺度，并进行非极大值抑制，以去除冗余的检测框。最终输出的检测框数量不超过预设的最大检测数(max_per_img＝300)。

获得所描述检测框的自身坐标位置(x,y,w,h)所对应的归一化位置坐标(X,Y,W,H)，并将其绘制在测试图像中。若待检测图像输出了检测框，则代表被检人员携带了危险品，反之，代表被检人员没有携带危险品。

与现有技术相比，本实施例的有益效果及优点：

本实施例提供了一种基于交叉融合注意力机制的太赫兹危险品检测方法及装置。一般来说检测算法难以兼顾检测速度和准确性，本实施例通过引入交叉融合注意力机制，有效捕捉太赫兹图像中危险品目标的细节特征，从而提升检测的准确性和鲁棒性。同时，设计的高效融合块实现了特征图之间的跨通道和跨空间的信息融合，能够降低网络的复杂度，提高计算效率。该方法具有快速、轻量化和准确性的优势，适用于太赫兹图像危险品检测的实时应用和各类场景。在工业安全、安检、边境防控等领域具有广阔的应用前景。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于交叉融合注意力机制的危险品检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于交叉融合注意力机制的危险品检测方法，其特征在于，训练所述深度学习网络模型的过程包括：

3.根据权利要求2所述的基于交叉融合注意力机制的危险品检测方法，其特征在于，跨空间融合的过程包括：

4.根据权利要求3所述的基于交叉融合注意力机制的危险品检测方法，其特征在于，第一注意力权重的计算公式：

s₁,w＝П_chunk(f_c(F)_1×1)

其中表示sigmoid函数，local-conv(·)表示本地特征提取块，global-conv(·)表示全局特征提取块，f_c(·)_1×1卷积核为1的卷积，F∈R^C×H×W为输入特征图，s₁,w∈R^C ^×H×W为第一特征图，w₁为第一注意力权重。

5.根据权利要求3所述的基于交叉融合注意力机制的危险品检测方法，其特征在于，跨通道融合的过程包括：

6.根据权利要求5所述的基于交叉融合注意力机制的危险品检测方法，其特征在于，所述第一输出特征图的计算公式：

s₂＝x₁*s^*

F_out＝s₁*w₁+x₁*(1-w₁)+s₂*w₂+x₁*(1-w₂)

7.根据权利要求1所述的基于交叉融合注意力机制的危险品检测方法，其特征在于，训练所述深度学习网络模型的过程还包括：

8.根据权利要求7所述的基于交叉融合注意力机制的危险品检测方法，其特征在于，得到第二输出特征图的过程包括：

9.根据权利要求8所述的基于交叉融合注意力机制的危险品检测方法，其特征在于，第二输出特征图的计算公式：

X₁＝Concat(head₁,...,head_h)W_o

F_out′＝Conv(concate(X₁,Conv(reshape(F₂))_1×1)₁)_1×1

10.一种基于交叉融合注意力机制的危险品检测装置，其特征在于，包括：计算机、太赫兹成像设备和扫描式太赫兹收发装置；所述计算机依次与所述扫描式太赫兹收发装置、所述太赫兹成像设备连接。