CN117115583A - 基于交叉融合注意力机制的危险品检测方法及装置 - Google Patents
基于交叉融合注意力机制的危险品检测方法及装置 Download PDFInfo
- Publication number
- CN117115583A CN117115583A CN202310995063.4A CN202310995063A CN117115583A CN 117115583 A CN117115583 A CN 117115583A CN 202310995063 A CN202310995063 A CN 202310995063A CN 117115583 A CN117115583 A CN 117115583A
- Authority
- CN
- China
- Prior art keywords
- attention
- cross
- fusion
- feature
- dangerous goods
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 48
- 230000004927 fusion Effects 0.000 title claims abstract description 41
- 230000007246 mechanism Effects 0.000 title claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000013135 deep learning Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000003384 imaging method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000010257 thawing Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于交叉融合注意力机制的危险品检测方法,包括:获取太赫兹图像,所述太赫兹图像包括:训练图像和测试图像;构建深度学习网络模型,所述深度学习网络模型包括:backbone特征提取网络、neck特征提取网路、高效融合模块、交叉融合自注意力和YoloHead检测头;基于所述训练图像训练所述深度学习网络模型,得到训练好的深度学习网络模型将所述测试图像输入至训练好的深度学习网络模型中,输出危险品检测结果。本发明引入了高效融合模块和交叉融合自注意力,能够有效利用太赫兹图像中的特征信息,提高危险品目标的检测准确性和鲁棒性,同时轻量化原始检测网络,降低网络的复杂度,提高计算效率。
Description
技术领域
本发明属于危险品检测技术领域,尤其涉及一种基于交叉融合注意力机制的危险品检测方法及装置。
背景技术
太赫兹波检测技术作为一种新兴的无损、无辐射的检测手段,具有在危险品检测领域广泛应用的潜力。太赫兹波能够穿透多种物质,使得在复杂背景下进行危险品检测成为可能;太赫兹成像技术对生物组织和环境没有伤害,适用于敏感场所的安检。
近年来,深度学习技术的快速发展为图像识别和检测提供了强大的工具。然而,传统的目标检测器在太赫兹图像危险品检测中存在一定的局限性,同时传统的目标检测器在速度和轻量化方面不够理想,无法满足实时或移动设备等边缘设备上的应用需求,并且太赫兹图像中的危险品目标通常具有多样的尺寸和复杂的形状,传统的检测方法在准确性和鲁棒性方面存在挑战。
发明内容
本发明提出了一种基于交叉融合注意力机制的危险品检测方法及装置,以解决上述现有技术中存在的技术问题。
为实现上述目的,本发明提供了一种基于交叉融合注意力机制的危险品检测方法及装置,包括:
获取太赫兹图像,所述太赫兹图像包括:训练图像和测试图像;
构建深度学习网络模型,所述深度学习网络模型包括:backbone特征提取网络、neck特征提取网路、高效融合模块、交叉融合自注意力和YoloHead检测头;
基于所述训练图像训练所述深度学习网络模型,得到训练好的深度学习网络模型;
将所述测试图像输入至训练好的深度学习网络模型中,输出危险品检测结果。
优选地,训练所述深度学习网络模型的过程包括:
基于所述高效融合模块,将backbone特征提取网络、neck特征提取网路各自输出的特征图进行跨空间、跨通道融合,得到第一输出特征图。
优选地,跨空间融合的过程包括:
获取输入特征图,通过卷积层扩大所述输入特征图的通道维数,并分割得到第一特征图,将所述第一特征图分别通过本地特征提取块、全局特征提取块,得到重要信息和全局上下文信息,将所述重要信息、所述全局上下文信息进行相加,得到第一注意力权重。
优选地,第一注意力权重的计算公式:
s1,w=Πchunk(fc(F)1×1)
其中表示sigmoid函数,local-conv(·)表示本地特征提取块,global-conv(·)表示全局特征提取块,fc(·)1×1卷积核为1的卷积,F∈RC×H×W为输入特征图,s1,w∈RC×H×W为第一特征图,w1为第一注意力权重。
优选地,跨通道融合的过程包括:
将所述输入特征图分别进行平均池化和最大池化后拼接,得到拼接通道特征,基于本地特征提取块将所述拼接通道特征进行转换并分割,得到第一通道注意力特征图和第二通道注意力特征图;
获取输入特征图经过卷积层后的原始加权特征,将所述第一通道注意力特征图与所述原始加权特征相乘,得到加权特征;
将第二通道注意力特征图通过全局特征提取块、本地特征提取块和sigmoid函数,得到第二注意力权重;
基于所述原始加权特征、所述加权特征和所述第二注意力权重,得到第一输出特征图。
优选地,所述第一输出特征图的计算公式:
s2=x1*s*
Fout=s1*w1+x1*(1-w1)+s2*w2+x1*(1-w2)
其中Fout∈RC×H×W表示高效融合模块的第一输出特征图,s*为第一通道注意力特征图,w*为第二通道注意力特征图,w2为第二注意力权重,s2为加权特征,x1∈RC×H×W为原始加权特征,s1为第一特征图权重。
优选地,训练所述深度学习网络模型的过程还包括:
基于所述交叉融合自注意力,将neck特征提取网路输出的特征图进行融合,得到第二输出特征图。
优选地,得到第二输出特征图的过程包括:
对所述输入特征图进行reshape和卷积操作,得到第一输入序列和第二输入序列,分别将所述第一输入序列、第二输入序列进行映射,得到第一映射参数和第二映射参数,基于所述第一映射参数和第二映射参数,计算得到第二输出特征图。
优选地,第二输出特征图的计算公式:
X1=Concat(head1,...,headh)Wo
其中,headi∈RHW×C/8是第i个注意力头的输出,Wo∈RC×C为加权矩阵,分别表示查询向量、键向量和值向量;
Fout′=Conv(concate(X1,Conv(reshape(F2))1×1)1)1×1
其中,concate(·,·)1表示在维度1对特征图进行拼接,Fout′∈RC×H×W表示交叉融合自注意力模块的第二输出特征图。
本发明还公开了一种基于交叉融合注意力机制的危险品检测装置,包括:计算机、太赫兹成像设备和扫描式太赫兹收发装置;所述计算机依次与所述扫描式太赫兹收发装置、所述太赫兹成像设备连接。
与现有技术相比,本发明具有如下优点和技术效果:
本发明提供了一种交叉融合注意力机制的太赫兹危险品检测方法及装置,深度学习网络模型中引入了高效融合模块和交叉融合自注意力,能够有效利用太赫兹图像中的特征信息,提高危险品目标的检测准确性和鲁棒性。同时,轻量化原始yolov8网络,降低网络的复杂度,提高计算效率。随着太赫兹成像技术的不断发展和广泛应用,结合深度学习的危险品检测算法可广泛应用于安检、边境检查、反恐等领域,提升公共安全水平。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的太赫兹危险品检测装置的组成示意图;
图2为本发明实施例的检测网络整体架构示意图;
图3为本发明实施例的高效融合模块网络架构示意图;
图4为本发明实施例的本地特征提取块和全局特征提取块网络示意图;
图5为本发明实施例的交叉融合自注意力模块网络架构示意图;
其中,101-计算机、102-太赫兹成像设备、103-扫描式太赫兹收发装置、104-被检人员。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1所示,本实施例中提供一种基于交叉融合注意力机制的危险品检测装置,包括:计算机101、太赫兹成像设备102、扫描式太赫兹收发装置103、被检人员104;计算机101与太赫兹成像设备102连接,同时连接扫描式太赫兹收发装置103。
扫描式太赫兹收发装置103通过发送太赫兹信号,对被检人员104进行扫描或测量,从被检测人员104反射或散射的太赫兹信号传回扫描式太赫兹收发装置103;太赫兹成像设备102对接收到的太赫兹信号进行处理和分析,生成太赫兹图像;计算机101通过深度学习图像检测算法获取被检人员104的太赫兹图像并进行危险品检测。
实施例二
本实施例中提供一种基于交叉融合注意力机制的危险品检测方法,包括以下步骤:
步骤1:由太赫兹成像设备102拍摄被检人员104图像,构建太赫兹图数据集Ih=[Ih1,Ih2,...IhK],其中,数据集Ih中元素总数为K=3000,图像尺寸大小为3×640×640。图像标注使用开源工具labelImg,标注内容为危险品类别和缺陷目标的左上角右下角坐标。标注后的信息文件格式为xml。
步骤2.1:搭建如图2所示网络模型,所述深度学习网络模型包括backbone特征提取网络、neck特征提取网路、高效融合模块、交叉融合自注意力和YoloHead检测头结构。
使用尺寸为3×640×640的RGB图像作为输入进入网络模型的backbone,分别通过卷积、C2F层和SPPF层,并输出三个尺度不同的特征图Ib1,Ib2和Ib3,尺度分别为128×80×80,256×40×40和512×20×20。C2F层的个数设置为3,3,3,3。通过减少了原始C2F模块的数量,以降低参数量。特征图Ib1,Ib2经过高效融合模块来连接backbone中的C2F层与neck层的特征传递。利用该模块实现了特征图之间的跨通道和跨空间的信息融合。高效融合模块输出和输入特征尺度保持一致。
在网络模型的neck中,为实现特征图的高效融合的精细调整和进一步减低参数量。在neck的整体结构中。首先,利用卷积核大小为1的卷积来替换2个C2F模块,降低网络的复杂度,提高计算效率。neck输出三个尺度不同的特征图In1,In2和In3。尺度分别为128×80×80,256×40×40和512×20×20。设计了交叉融合自注意力,对neck输出到检测头的特征图进行两两融合。实现跨特征图的信息交互与融合,从而提高目标检测性能。
步骤2.2:高效融合模块如图3所示,假设给定输入特征图F∈RC×H×W。对于空间注意力部分,首先通过卷积层fc(·)1×1将通道维数扩大两倍,在维度1对特征图进行分割,得到特征图s1,w∈RC×H×W。将特征图w并行的通过结构不同的两个卷积块。如图4所示,本地特征提取块通过卷积对特征图通道数进行压缩和恢复,选择重要信息、重新提取丢失的特征、减少过拟合等。如图4所示,全局特征提取块通过自适应平均池化操作将特征图降低为1x1的尺寸,然后经过卷积层对通道数进行压缩和恢复。目的是将特征图进行全局池化,以获取全局上下文信息。最后对上述两个卷积块的输出进行相加,并使用sigmoid函数得到注意力权重w1。该过程可以描述为:
s1,w=∏chunk(fc(F)1×1)
其中表示sigmoid函数。local-conv(·)表示本地特征提取块。global-conv(·)表示全局特征提取块。fc(·)1×1卷积核为1的卷积。
对于通道注意力部分,特别的,这部分也使用了空间注意力的思想来调整权重。将输入特征图F∈RC×H×W分别进行平均池化和最大池化,并将其输出在维度1进行拼接。再使用本地特征提取块将拼接后的通道信息进行特征转换,在维度1对特征图进行分割,得到两个通道注意力特征图s*,w*∈RC×H×W。此外,将输入特征图F通过卷积层fc(·)1×1,得到原始加权特征x1∈RC×H×W来调整空间和通道特征。将特征图x1与特征图s*相乘得到加权特征s2。将特征图w*通过全局特征提取块、本地特征提取块和sigmoid函数,得到注意力权重w2。最总,将上述权重与特征图进行计算,得到最终输出特征。上述过程可表述为:
s2=x1*s*
Fout=s1*w1+x1*(1-w1)+s2*w2+x1*(1-w2)
上式中Fout∈RC×H×W表示高效融合模块最终输出特征。
步骤2.3:交叉融合自注意力模块如图5所示,首先,给定输入特征F1∈RC×H×W,F2∈R2C×H/2×W/2,对输入特征进行reshape和卷积操作,得到的两个分支的输出,分别表示为F1′∈RC×HW和F2′∈RC×HW/4。将这两个分支作为交叉自注意力的输入特征。该过程可表示为:
F1′=reshape(F1)
F2′=reshape(Conv(F2)1×1)
其中,reshape(·)表示对特征图进行维度的变换,Conv(·)1×1表示卷积核为1的卷积操作,并将通道数压缩为原来的一半。为了有效地增强了特征图之间的交互和信息流动,我们在特征融合上做了关键改进。我们将输入序列F1′映射为 和/>将F2′映射为和/>我们将计算得到的键k和值v进行拼接操作,以增强不同层次的表征能力。
其中,表示线性变换的权重参数。concate(·,·)2表示在维度2对特征进行拼接。将/>和/>作为输入,注意力函数将每个查询转换为值的加权和。可以用以下矩阵形式表示:
上式中引入比例因子来避免权重集中和梯度消失。因此,融合了不同键和值的交叉注意力可以表示为:
X1=Concat(head1,...,headh)Wo
其中,headi∈RHW×C/8是第i个注意力头的输出。利用加权矩阵Wo∈RC×C的线性变换来构成所有注意力头。随后,将输入F2进行卷积核上采样操作,调整特征图通道数核特征维度。进一步与交叉注意力输出结果X1进行融合,再用卷积调整通道数,得到交叉融合自注意力模块最终输出。上述过程可以表述为:
Fout′=Conv(concate(X1,Conv(reshape(F2))1×1)1)1×1
上式中concate(·,·)1表示在维度1对特征图进行拼接,Fout′∈RC×H×W表示交叉融合自注意力模块最终输出特征。
步骤3:训练方法包括先冻结骨架特征提取网络部分的权重,训练20个epoch,然后解冻所有权重,训练80个epoch;所使用的损失函数和原始yolov8中的损失函数一致。设置网络训练参数:学习率lr=0.01、batchsize=64、训练集验证集划分为0.9:0.1、优化器使用SGD和训练周期为100轮。
步骤4:使用训练好的网络进行预测,输入测试图像,输出太赫兹图像目标预测目标框。首先将待测图片It输入到网络中,图像大小为3×640×640,经过网络推理,得到Yolohead的输出。输出的特征图尺度为80×80、40×40和20×20的三个特征图。将分类和回归预测结果从不同尺度的特征图中提取出来,并进行拼接和维度变换操作。为了方便处理,将原先的通道维度置换到最后,得到类别预测分支和bbox预测分支的形状分别为(1,8400,80)和(1,8400,4)。将所有目标以目标是否存在置信度(conf=0.001)降序排列,然后从高到低逐一计算与其他预测的IOU大小,剔除IOU大于某个阈值(iou=0.6)的预测。随后,根据前面的预处理过程,将剩余的检测框还原到网络输出之前的原始图像尺度,并进行非极大值抑制,以去除冗余的检测框。最终输出的检测框数量不超过预设的最大检测数(max_per_img=300)。
获得所描述检测框的自身坐标位置(x,y,w,h)所对应的归一化位置坐标(X,Y,W,H),并将其绘制在测试图像中。若待检测图像输出了检测框,则代表被检人员携带了危险品,反之,代表被检人员没有携带危险品。
与现有技术相比,本实施例的有益效果及优点:
本实施例提供了一种基于交叉融合注意力机制的太赫兹危险品检测方法及装置。一般来说检测算法难以兼顾检测速度和准确性,本实施例通过引入交叉融合注意力机制,有效捕捉太赫兹图像中危险品目标的细节特征,从而提升检测的准确性和鲁棒性。同时,设计的高效融合块实现了特征图之间的跨通道和跨空间的信息融合,能够降低网络的复杂度,提高计算效率。该方法具有快速、轻量化和准确性的优势,适用于太赫兹图像危险品检测的实时应用和各类场景。在工业安全、安检、边境防控等领域具有广阔的应用前景。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种基于交叉融合注意力机制的危险品检测方法,其特征在于,包括以下步骤:
获取太赫兹图像,所述太赫兹图像包括:训练图像和测试图像;
构建深度学习网络模型,所述深度学习网络模型包括:backbone特征提取网络、neck特征提取网路、高效融合模块、交叉融合自注意力和YoloHead检测头;
基于所述训练图像训练所述深度学习网络模型,得到训练好的深度学习网络模型;
将所述测试图像输入至训练好的深度学习网络模型中,输出危险品检测结果。
2.根据权利要求1所述的基于交叉融合注意力机制的危险品检测方法,其特征在于,训练所述深度学习网络模型的过程包括:
基于所述高效融合模块,将backbone特征提取网络、neck特征提取网路各自输出的特征图进行跨空间、跨通道融合,得到第一输出特征图。
3.根据权利要求2所述的基于交叉融合注意力机制的危险品检测方法,其特征在于,跨空间融合的过程包括:
获取输入特征图,通过卷积层扩大所述输入特征图的通道维数,并分割得到第一特征图,将所述第一特征图分别通过本地特征提取块、全局特征提取块,得到重要信息和全局上下文信息,将所述重要信息、所述全局上下文信息进行相加,得到第一注意力权重。
4.根据权利要求3所述的基于交叉融合注意力机制的危险品检测方法,其特征在于,第一注意力权重的计算公式:
s1,w=Пchunk(fc(F)1×1)
其中表示sigmoid函数,local-conv(·)表示本地特征提取块,global-conv(·)表示全局特征提取块,fc(·)1×1卷积核为1的卷积,F∈RC×H×W为输入特征图,s1,w∈RC ×H×W为第一特征图,w1为第一注意力权重。
5.根据权利要求3所述的基于交叉融合注意力机制的危险品检测方法,其特征在于,跨通道融合的过程包括:
将所述输入特征图分别进行平均池化和最大池化后拼接,得到拼接通道特征,基于本地特征提取块将所述拼接通道特征进行转换并分割,得到第一通道注意力特征图和第二通道注意力特征图;
获取输入特征图经过卷积层后的原始加权特征,将所述第一通道注意力特征图与所述原始加权特征相乘,得到加权特征;
将第二通道注意力特征图通过全局特征提取块、本地特征提取块和sigmoid函数,得到第二注意力权重;
基于所述原始加权特征、所述加权特征和所述第二注意力权重,得到第一输出特征图。
6.根据权利要求5所述的基于交叉融合注意力机制的危险品检测方法,其特征在于,所述第一输出特征图的计算公式:
s2=x1*s*
Fout=s1*w1+x1*(1-w1)+s2*w2+x1*(1-w2)
其中Fout∈RC×H×W表示高效融合模块的第一输出特征图,s*为第一通道注意力特征图,w*为第二通道注意力特征图,w2为第二注意力权重,s2为加权特征,x1∈RC×H×W为原始加权特征,s1为第一特征图权重。
7.根据权利要求1所述的基于交叉融合注意力机制的危险品检测方法,其特征在于,训练所述深度学习网络模型的过程还包括:
基于所述交叉融合自注意力,将neck特征提取网路输出的特征图进行融合,得到第二输出特征图。
8.根据权利要求7所述的基于交叉融合注意力机制的危险品检测方法,其特征在于,得到第二输出特征图的过程包括:
对所述输入特征图进行reshape和卷积操作,得到第一输入序列和第二输入序列,分别将所述第一输入序列、第二输入序列进行映射,得到第一映射参数和第二映射参数,基于所述第一映射参数和第二映射参数,计算得到第二输出特征图。
9.根据权利要求8所述的基于交叉融合注意力机制的危险品检测方法,其特征在于,第二输出特征图的计算公式:
X1=Concat(head1,...,headh)Wo
其中,headi∈RHW×C/8是第i个注意力头的输出,Wo∈RC×C为加权矩阵,分别表示查询向量、键向量和值向量;
Fout′=Conv(concate(X1,Conv(reshape(F2))1×1)1)1×1
其中,concate(·,·)1表示在维度1对特征图进行拼接,Fout′∈RC×H×W表示交叉融合自注意力模块的第二输出特征图。
10.一种基于交叉融合注意力机制的危险品检测装置,其特征在于,包括:计算机、太赫兹成像设备和扫描式太赫兹收发装置;所述计算机依次与所述扫描式太赫兹收发装置、所述太赫兹成像设备连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310995063.4A CN117115583B (zh) | 2023-08-09 | 2023-08-09 | 基于交叉融合注意力机制的危险品检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310995063.4A CN117115583B (zh) | 2023-08-09 | 2023-08-09 | 基于交叉融合注意力机制的危险品检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117115583A true CN117115583A (zh) | 2023-11-24 |
CN117115583B CN117115583B (zh) | 2024-04-02 |
Family
ID=88810316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310995063.4A Active CN117115583B (zh) | 2023-08-09 | 2023-08-09 | 基于交叉融合注意力机制的危险品检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117115583B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210012165A1 (en) * | 2018-03-29 | 2021-01-14 | Shanghai Zttvision Technologies Co.Ltd | Data processing method and device based on multi-sensor fusion, and multi-sensor fusion method |
CN114445633A (zh) * | 2022-01-25 | 2022-05-06 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置和计算机可读存储介质 |
CN114565579A (zh) * | 2022-03-02 | 2022-05-31 | 南京航空航天大学 | 一种基于深度学习的飞机蒙皮表面损伤检测方法及系统 |
CN114862837A (zh) * | 2022-06-02 | 2022-08-05 | 西京学院 | 基于改进YOLOv5s的人体安检图像检测方法及系统 |
CN115035361A (zh) * | 2022-05-11 | 2022-09-09 | 中国科学院声学研究所南海研究站 | 基于注意力机制和特征交叉融合的目标检测方法及系统 |
CN115187842A (zh) * | 2022-07-13 | 2022-10-14 | 南京大学 | 基于模态转换的被动式太赫兹安检图像的目标检测方法 |
US20220415027A1 (en) * | 2021-06-29 | 2022-12-29 | Shandong Jianzhu University | Method for re-recognizing object image based on multi-feature information capture and correlation analysis |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
CN115690522A (zh) * | 2022-12-29 | 2023-02-03 | 湖北工业大学 | 一种基于多池化融合通道注意力的目标检测方法及其应用 |
US20230130006A1 (en) * | 2022-03-22 | 2023-04-27 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method of processing video, method of quering video, and method of training model |
CN116310683A (zh) * | 2023-03-15 | 2023-06-23 | 河北建筑工程学院 | 一种基于注意力机制的特征融合目标跟踪方法 |
-
2023
- 2023-08-09 CN CN202310995063.4A patent/CN117115583B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210012165A1 (en) * | 2018-03-29 | 2021-01-14 | Shanghai Zttvision Technologies Co.Ltd | Data processing method and device based on multi-sensor fusion, and multi-sensor fusion method |
US20220415027A1 (en) * | 2021-06-29 | 2022-12-29 | Shandong Jianzhu University | Method for re-recognizing object image based on multi-feature information capture and correlation analysis |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
CN114445633A (zh) * | 2022-01-25 | 2022-05-06 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置和计算机可读存储介质 |
CN114565579A (zh) * | 2022-03-02 | 2022-05-31 | 南京航空航天大学 | 一种基于深度学习的飞机蒙皮表面损伤检测方法及系统 |
US20230130006A1 (en) * | 2022-03-22 | 2023-04-27 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method of processing video, method of quering video, and method of training model |
CN115035361A (zh) * | 2022-05-11 | 2022-09-09 | 中国科学院声学研究所南海研究站 | 基于注意力机制和特征交叉融合的目标检测方法及系统 |
CN114862837A (zh) * | 2022-06-02 | 2022-08-05 | 西京学院 | 基于改进YOLOv5s的人体安检图像检测方法及系统 |
CN115187842A (zh) * | 2022-07-13 | 2022-10-14 | 南京大学 | 基于模态转换的被动式太赫兹安检图像的目标检测方法 |
CN115690522A (zh) * | 2022-12-29 | 2023-02-03 | 湖北工业大学 | 一种基于多池化融合通道注意力的目标检测方法及其应用 |
CN116310683A (zh) * | 2023-03-15 | 2023-06-23 | 河北建筑工程学院 | 一种基于注意力机制的特征融合目标跟踪方法 |
Non-Patent Citations (5)
Title |
---|
NUOMAN TIAN, ET.AL: "Deep Learning Enabled Hidden Target Detection in Terahertz Images", 2022 INTERNATIONAL CONFERENCE ON SENSING, MEASUREMENT & DATA ANALYTICS IN THE ERA OF ARTIFICIAL INTELLIGENCE(ICSMD), 30 November 2022 (2022-11-30), pages 1 - 6, XP034306678, DOI: 10.1109/ICSMD57530.2022.10058229 * |
YIMIAN DAI, ET.AL: "Attentional Feature Fusion", 2021 IEEE WINTER CONFERENCE ON APPLICATION OF COMPUTER VISION(WACV), 8 January 2021 (2021-01-08), pages 3560 - 3569 * |
刘振华,等: "基于多尺度特征交叉融合注意力的滚动轴承故障诊断方法", 轴承, 29 May 2023 (2023-05-29), pages 1 - 9 * |
吴衡,等: "基于小波系数图和卷积神经网络的太赫兹光谱物质识别", 光谱学与光谱分析, vol. 41, no. 12, 8 December 2021 (2021-12-08), pages 3665 - 3670 * |
宋欢,等: "融合多尺度注意力的太赫兹图像目标检测研究", 小型微型计算机系统, vol. 43, no. 3, 19 March 2022 (2022-03-19), pages 621 - 625 * |
Also Published As
Publication number | Publication date |
---|---|
CN117115583B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111127412B (zh) | 一种基于生成对抗网络的病理图像识别装置 | |
CN101189641B (zh) | 编码数字图像的像素或体素的方法及处理数字图像的方法 | |
CN113159120A (zh) | 一种基于多尺度跨图像弱监督学习的违禁物检测方法 | |
Liu et al. | A night pavement crack detection method based on image‐to‐image translation | |
CN112597815A (zh) | 一种基于Group-G0模型的合成孔径雷达图像舰船检测方法 | |
CN109544563A (zh) | 一种面向违禁物安检的被动毫米波图像人体目标分割方法 | |
CN114862837A (zh) | 基于改进YOLOv5s的人体安检图像检测方法及系统 | |
CN115457428A (zh) | 融入可调节坐标残差注意力的改进YOLOv5火灾检测方法及装置 | |
CN116579616B (zh) | 一种基于深度学习的风险识别方法 | |
CN116468714A (zh) | 绝缘子缺陷检测方法、系统和计算机可读存储介质 | |
CN116343077A (zh) | 一种基于注意力机制与多尺度特征的火灾检测预警方法 | |
CN114463759A (zh) | 一种基于无锚框算法的轻量化文字检测方法及装置 | |
CN112766223A (zh) | 基于样本挖掘与背景重构的高光谱图像目标检测方法 | |
Özer et al. | SiameseFuse: A computationally efficient and a not-so-deep network to fuse visible and infrared images | |
CN116310634A (zh) | 面向多源遥感数据的融合图像模型训练方法、生成方法及装置 | |
Chen et al. | Space-based infrared aerial target detection method via interframe registration and spatial local contrast | |
CN115527098A (zh) | 基于全局均值对比度空间注意力的红外小目标检测方法 | |
Wei et al. | Artificial intelligence for defect detection in infrared images of solid oxide fuel cells | |
CN117115583B (zh) | 基于交叉融合注意力机制的危险品检测方法及装置 | |
Zheng et al. | Wind turbine blades surface crack-detection algorithm based on improved YOLO-v5 model | |
Wei et al. | A real-time Threat Image Projection (TIP) model base on deep learning for X-ray baggage inspection | |
CN116863271A (zh) | 一种基于改进yolo v5的轻量级红外火焰检测方法 | |
CN117095158A (zh) | 一种基于多尺度分解卷积的太赫兹图像危险品检测方法 | |
CN116502899A (zh) | 基于人工智能的风险评级模型生成方法、装置及存储介质 | |
CN116189160A (zh) | 一种基于局部对比度机制的红外弱小目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |