CN117197632A - 一种基于Transformer的电镜花粉图像目标检测方法 - Google Patents

一种基于Transformer的电镜花粉图像目标检测方法 Download PDF

Info

Publication number
CN117197632A
CN117197632A CN202310965901.3A CN202310965901A CN117197632A CN 117197632 A CN117197632 A CN 117197632A CN 202310965901 A CN202310965901 A CN 202310965901A CN 117197632 A CN117197632 A CN 117197632A
Authority
CN
China
Prior art keywords
layer
module
pollen
convolution
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310965901.3A
Other languages
English (en)
Inventor
石宝
郭星
杨德志
武文红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202310965901.3A priority Critical patent/CN117197632A/zh
Publication of CN117197632A publication Critical patent/CN117197632A/zh
Pending legal-status Critical Current

Links

Abstract

一种基于Transformer的电镜花粉图像目标检测方法,构建基于Swin Transformer的端到端花粉检测模型;模型包括编码器、解码器和检测头;以可变形卷积层替代编码器中的卷积层;在模型中引入基于CBAM的Object Query初始化模块和基于GRU的循环更新算子,该初始化模块包括空间通道注意力模块、位置编码模块和Object Query模块;采集构建花粉检测数据集,训练模型;利用训练后的模型,进行花粉图像检测。本发明在对花粉目标检测时,对图像的局部注意力有所提高,通过增加通道空间注意力初始快模块使模型的收敛加快,利用基于GRU的循环更新算子细化边界框使检测模型的出框精度大大提高。

Description

一种基于Transformer的电镜花粉图像目标检测方法
技术领域
本发明属于人工智能技术领域,涉及花粉目标检测,特别涉及一种基于Transformer的电镜花粉图像目标检测方法。
背景技术
伴随着城市化进程的发展,花粉过敏人群日益增多。花粉症已经成为季节性流行病。准确及时的花粉播报可以为花粉过敏患者的正常生活提供更好的保障。花粉检测是花粉播报的基础技术,其目的是在采集的花粉样本图片中准确地识别花粉颗粒。起初花粉检测任务需要依靠有专业经验的研究人员手工标注花粉颗粒,这种费时费力的方式,无法满足花粉播报的要求。随着目标检测领域的快速发展,目前主流的目标检测算法YOLO系列与R-CNN系列在精度上都有着很大的提升。但这些算法在检测中需要很多的人工干预、先验知识、NMS,使整个检测框架非常复杂,难调参难优化,并且部署困难。为了满足花粉播报准确性和实时性的要求,花粉检测算法需要在检测精度和检测效率之间取得良好的平衡。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于Transformer的电镜花粉图像目标检测方法,以期在不影响效率的情况下提高花粉的检测精度,满足花粉播报准确性和实时性的要求。
为了实现上述目的,本发明采用的技术方案是:
一种基于Transformer的电镜花粉图像目标检测方法,包括如下步骤:
步骤1,构建基于Swin Transformer的端到端花粉检测模型;模型包括编码器、解码器和检测头;所述编码器包括若干Swin Transformer块,每个Swin Transformer块包括局部窗口注意力和跨窗口注意力两个子模块;所述解码器由若干解码层组成,每个解码层包括上采样层、卷积层和注意力机制;
步骤2,以可变形卷积层替代编码器中的卷积层,从而在模型中引入可变形卷积;
步骤3,在模型中引入基于CBAM的Object Query初始化模块,所述基于CBAM的Object Query初始化模块包括空间通道注意力模块、位置编码模块和Object Query模块;原始的输入图像经空间通道注意力模块添加注意力,经位置编码模块加入位置编码,之后相加输入作为Object Query模块的初始化值,Object Query模块作用于解码层,指导解码器生成与花粉目标相关的特征;
步骤4,在模型中引入基于GRU的循环更新算子;所述基于GRU的循环更新算子在相邻解码层之间进行梯度回传,实现每个解码层根据上一解码层的预测来细化边界框;
步骤5,采集构建花粉检测数据集,训练模型;
步骤6,利用训练后的模型,进行花粉图像检测。
与现有技术相比,本发明在对花粉目标检测时,对图像的局部注意力有所提高,通过增加通道空间注意力初始快模块使模型的收敛加快,利用基于GRU的循环更新算子细化边界框使检测模型的出框精度大大提高。
附图说明
图1是本发明流程示意图。
图2是本发明可变形卷积原理示意图。
图3是本发明基于CBAM的Object Query初始化模块原理示意图。
图4是本发明对一种花粉目标检测的预测结果。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
伴随着城市化进程的发展,花粉过敏人群日益增多,为了满足花粉播报准确性和实时性的要求,花粉检测算法需要在检测精度和检测效率之间取得良好的平衡。本发明提出一种基于Transformer的电镜花粉图像目标检测方法,通过融合可变形卷积和SwinTransformer的全局建模能力,以提高花粉的局部建模能力的同时减少模型计算复杂度。同时,引入基于CBAM的Object Query初始化模块,提高解码器的初始化效率。此外,通过引入基于GRU的循环更新算子,实现在解码层与层之间细化边界框,提高花粉检测精度。
如图1所示,本发明具体包括如下步骤:
步骤1,构建基于Swin Transformer的端到端花粉检测模型。
该模型系本发明所构建的基础模型,主要包括编码器、解码器和检测头。其中编码器包括若干Swin Transformer块,每个Swin Transformer块包括局部窗口注意力和跨窗口注意力两个子模块,通过这两种注意力机制的层次化组合,Swin Transformer可以有效地建模图像中的全局和局部信息。解码器主要由若干解码层组成,每个解码层包括上采样层、卷积层和注意力机制模块。
在功能上,编码器主要是利用卷积层提取输入图像的初始特征,并将得到的初始特征图通过层级分割、深度和宽度变化,提取高级图像特征,此处提取的高级图像特征,包含了全局和局部的上下文信息。解码器则主要用于对编码器输出的高级图像特征进行解码和重建。
检测头基于解码器的输出特征进行花粉检测任务,具体地,检测头主要包括全局池化层、全连接层、激活函数、边界框回归层和分类层。在进行目标检测时,全局池化层先对编码器输出的特征图进行全局池化(如全局平均池化或全局最大池化),将特征图的高宽维度缩减为1,并保留通道维度。全局池化可以将特征图中的空间信息进行整合,从而得到整体特征表示。之后,全连接层将全局池化后得到的特征向量映射到目标检测所需的输出空间,如预测目标的类别和边界框信息。这些全连接层通常包含一定数量的神经元,用于学习目标检测任务的复杂特征表示。激活函数通常插入在全连接层之间,如ReLU(修正线性单元),用于引入非线性性,从而增加模型的表达能力,使其能够学习更加复杂的特征。边界框回归层用于输出目标的坐标和尺寸等边界框信息,而分类层则将最后的输出转换为概率值,得到预测目标的类别概率分布,通常使用softmax激活函数来将输出转换为概率值。
步骤2,以可变形卷积层替代编码器中的卷积层,从而在模型中引入可变形卷积。
为了提高局部注意力,本发明在Swin Transformer中引入可变形卷积。SwinTransformer可以通过滑动窗口实现窗口与窗口之间的注意力计算,但这会导致窗口内的局部注意力没有得到更有效地关注,使用可变形卷积模块可以对窗口内的每个像素点,只关注其周围的一部分关键采样点,通过可学习的offset进行注意力的偏移,从而对局部可以稀疏且有效的关注。在初始化时,Swin Transformer注意力模块在每个窗口中对所有像素施加几乎一致的注意力权重,大大增加了计算量。融合可变形卷积良好的稀疏空间采样能力与Swin Transformer的全局建模能力可以减少计算量的同时更好的关注到局部信息。
本发明可变形卷积层是在卷积层标准卷积规则的网状采样位置上添加2D位移,使得采样网格能够自由变形,此处位移需要通过另外的卷积层从前层特征中学习,因此变形以局部、密集且自适应的方式以输入特征为条件。并且,该可变形卷积是轻量级的,将会引入少量参数用于位移学习,可以容易地替换掉现有CNN中对应的卷积层或标准卷积模块,并且可通过标准的反向传播轻松进行网络的端到端学习,最终所得网络具有内在的转换参数,而且这些参数是直接从数据中学到的。
如图2所示,本发明可变形卷积实现过程:对于m×m卷积核的卷积,输出y(p0),R是卷积核的采样点相对于输入x(p0)中的m×m个位置,如此,标准卷积的卷积结果是卷积核与输入特征之间的“加权求和”操作,即:
为了卷积操作可以提取到更符合目标形状的特征,可变形卷积为卷积核的采样点学习位移量Δpn,卷积过程如下:
其中pn是对R中所列位置的枚举,w(pn)是pn的可学习权重。Δpn可以是小数,所以实现过程中通过双线性插值确定采样位置。
引入可变形卷积操作不需要关注窗口内的所有像素点,只需要关注当前像素点周围几个稀疏的关键点,并通过可学习的offset来得出更需要关注的关键点位置,可以通过很少的计算量来关注到更加有用的信息,提高了模型的局部建模能力,能够更加关注到小目标。
同时,使用可变形卷积来替代标准的卷积操作,可改进编码器的特征提取能力。在编码器中,输入图像通过卷积层提取特征,并在可变形卷积层中引入了空间上的可变形操作。这允许卷积核在感受野内对特征图进行微小的偏移,从而更好地适应目标的形状和位置变化。因此,引入可变形卷积能够增强编码器的特征提取能力,通过在编码器层中引入可变形操作,模型可以更好地适应目标的形状和位置变化,从而提高目标检测的准确性。
步骤3,在模型中引入基于CBAM的Object Query初始化模块。
为了使模型加速收敛,使用一个CBAM模块对特征图进行通道和空间进行关注,并将输出特征作为decoder层中Object Query的初始化。该注意力机制模块利用卷积层后特征图的全局信息动态地对通道和空间的依赖性进行建模,以提升网络的特征学习能力。该模块沿着通道和空间2个独立的维度,使网络学习到重要特征的同时,压缩不必要的特征,让网络依照特征的重要程度有选择性地进行优化。该注意力机制模块可以传递给ObjectQuery更有效地初始化参数,提高了模型的收敛速度。
如图3所示,本发明基于CBAM的Object Query初始化模块包括空间通道注意力模块、位置编码模块和Object Query模块。原始的输入图像经空间通道注意力模块添加注意力,经位置编码模块加入位置编码,之后相加输入作为Object Query模块的初始化值,Object Query模块作用于解码层,指导解码器生成与花粉目标相关的特征。
本发明的空间通道注意力模块(Convolutional Block Attention Module,CBAM)是轻量级的卷积注意力模块,它结合了通道和空间的注意力机制模块,包括通道注意力模块(Channel Attention Module,CAM)和空间注意力模块(Spartial Attention Module,SAM)两个子模块,分别进行通道和空间上的Attention。这样不只能够节约参数和计算力,并且保证了其能够做为即插即用的模块集成到现有的网络架构中去。输入图像经过通道注意力模块进行一维卷积,将卷积结果与输入图像相乘,然后经过空间注意力模块进行二维卷积,再将输出结果与输入图像相乘。在图3中,左边是局部窗口注意力,右边是跨窗口(即移动窗口)注意力。W-MSA是原本计算局部窗口注意力的模块,SW-MSA是原本计算跨窗口(移动窗口)注意力的模块。这两个模块计算注意力时都需要用到普通卷积操作,使用可变形卷积替代原来的普通卷积,即变成W-DMSA与SW-DMSA。
具体地,输入图像经过空间通道注意力模块得到的输出特征图中,包含了原始的输入图像的空间和通道信息,与原图像具有很强的关联性。
通道注意力模块:通道维度不变,压缩空间维度。该模块关注输入图像中有意义的信息(分类任务关注因为何种特征分成了不同类别)。将输入的feature map经过两个并行的MaxPool层和AvgPool层,将特征图从C*H*W变为C*1*1的大小,然后经过Share MLP模块,在该模块中,它先将通道数压缩为原来的1/r倍,再扩张到原通道数,经过ReLU激活函数得到两个激活后的结果。将这两个输出结果进行逐元素相加,再通过一个sigmoid激活函数得到Channel Attention的输出结果,再将这个输出结果乘原图,变回C*H*W的大小。
空间注意力模块:空间维度不变,压缩通道维度。该模块关注的是目标的位置信息。将Channel Attention的输出结果通过最大池化和平均池化得到两个1*H*W的特征图,然后经过Concat操作对两个特征图进行拼接,通过7*7卷积变为1通道的特征图,再经过一个sigmoid得到Spatial Attention的特征图,最后将输出结果乘原图变回C*H*W大小。
本发明的Object Query模块:
用于建模目标之间的相对位置关系,并在解码层之间传递信息;
被添加到注意力机制中,以考虑目标之间的相对位置信息;
通过反向传播优化所述初始化值,使其适应不同的目标布局和相对位置关系。
本发明Object Query模块被用于如下两个任务:
注意力权重查询:在每个解码层中,Object Query模块用来查询注意力权重,所述注意力权重被应用于编码器输出的特征图,以聚焦于与每个Object Query模块相关的特定区域。这有助于模型将注意力集中在与每个查询对象相关的信息上,从而更好地理解每个对象的语义和空间信息。
检测预测:在每个解码层中,Object Query模块用于生成检测预测。通过将ObjectQuery模块与解码器的特征进行结合,预测每个查询对象的类别和边界框信息。如此,模型就可以对每个对象进行检测,并输出最终的检测结果。
注意力权重查询(Attention Query)和检测预测(Detection Prediction)这两部分是在解码器的每个层级中同时进行的,而且彼此之间是相互关联的。通过在不同层级上进行这些操作,可以逐步地聚焦于不同对象的特征,并进行目标的检测和预测。
本步骤引入空间通道注意力模块对特征图进行学习,得到原图像的通道和空间信息。学习到的特征图信息将与预测的边界框具有很强的相关性,将这部分信息与位置编码进行相加操作作为对象查询的初始化值,会减少解码器部分的冗余运算,这也加速了训练收敛。
步骤4,在模型中引入基于GRU的循环更新算子。
为了提高检测模型的出框精度,本发明使用基于GRU的循环更新算子应用于解码层,GRU是一种可处理序列数据的模型,是循环神经网络的一种,同时它也是LSTM的一种变体,GRU能够更好地捕捉时间序列中时间步距离较大的依赖关系。它通过可以学习的门来控制信息的流动。transformer可以在时间序列预测中得到很好的应用,可以很自然地将GRU扩展到每个解码层之间,每个解码层根据上一层的预测来细化边界框,经过多次迭代后得到更加准确的边界框预测。
本发明基于GRU的循环更新算子在相邻解码层之间进行梯度回传,实现每个解码层根据上一解码层的预测来细化边界框。
门控循环神经网络(gated recurrent neural network)的提出,是为了更好地捕捉时间序列中时间步距离较大的依赖关系。它通过可以学习的门来控制信息的流动。其中,门控循环单元(gated recurrent unit,GRU)是一种常用的门控循环神经网络。它引入了重置门(reset gate)和更新门(update gate)的概念,从而修改了循环神经网络中隐藏状态的计算方式。
GRU的输入输出结构与普通的RNN是一样的。本发明中,循环更新算子的输入为:t时刻的输入xt和t-1时刻的隐藏层状态Ht-1,隐藏层状态包含了之前节点的相关信息。循环更新算子的输出为:t时刻隐藏节点的输出yt和传递给下一个节点的隐藏层状态Ht
通过上一个传输下来的状态Ht-1和当前节点的输入xt获取两个门控状态:
重置门:rt=σ(xtWxr+Ht-1Whr+br)
更新门:zt=σ(xtWxz+Ht-1Whz+bz)
σ为sigmoid函数,通过该函数将数据变为0-1范围的数值,W和b是可学习的权重矩阵,Wxr为重置门t时刻的权重矩阵、Whr为重置门t-1时刻的权重矩阵、br为重置门的偏置矩阵、Wxz为更新门t时刻的权重矩阵、Whz为更新门t-1时刻的权重矩阵、bz为更新门的偏置矩阵,权重和偏置均可由反向传播算法自动优化。
本发明将循环更新算子引入解码层,方法如下:
初始化边界框:在第一个解码层中,通过全连接层和激活函数初始化预测的边界框,所述边界框是相对于输入图像的归一化坐标,表示为(center_x,center_y,height,width)。
GRU循环更新:在后续的解码层中,使用GRU循环更新算子逐步优化边界框的预测。具体来说,对于每个解码层,进行以下步骤:使用可变形卷积根据当前预测的边界框从特征图中采样得到新的特征图。将新的特征图与注意力机制生成的特征图进行融合,以得到更加关注目标的特征。将融合后的特征图和当前轮次得到的边界框输入到GRU循环更新算子中。GRU循环更新算子根据当前特征和边界框,输出新的边界框预测。
多轮迭代:解码器使用多轮迭代逐步优化边界框的预测,在每轮迭代中,边界框预测会被更新,同时注意力机制和可变形卷积帮助模型更好地利用上下文信息和局部特征,提高边界框预测的准确性和稳定性。
输出边界框预测:经过多轮迭代后,得到最终的边界框预测。这些预测将作为下一层解码器的输入,或者作为最终的检测结果。
本发明的GRU循环更新是指对于每个解码层,进行以下步骤:使用可变形卷积根据当前预测的边界框从特征图中采样得到新的特征图。将新的特征图与注意力机制生成的特征图进行融合,以得到更加关注目标的特征。将融合后的特征图和当前轮次得到的边界框输入到GRU循环更新算子中。GRU循环更新算子根据当前特征和边界框,输出新的边界框预测。
每个解码层基于来自前一层的预测细化预测框,假设有D个解码层,给定由第D-1个解码层预测的归一化边界盒,第D个解码层将边界框细化为
其中d∈{1,2,3…,D},在第d个解码层被预测,不同解码层的预测头不共享参数。初始框设置为:/>为了稳定训练,梯度仅通过/>反向传播,并在/>处被阻断。在循环更新算子中,对于第d个解码层,对从第d-1个解码层预测的框/>的关键元素进行采样。对于第d个解码层的交叉注意力模块,/>用作新的参考点。最终,使得采样位置与先前预测的框的中心和大小相关。
步骤5,采集构建花粉检测数据集,训练模型。
在本发明的实施例中,针对呼和浩特市一些主流的花粉通过电子显微镜采集构建花粉检测数据集训练所述端到端花粉检测模型,Swin Transformer使用层次化构建方法,使用W-MSA结构计算每个窗口内的自注意力,SW-MSA结构通过移动窗口的方式得到窗口与窗口之间的注意力。Swin Transformer对每个窗口内部进行自注意力不是一个高效的算法,本发明通过引入可变形卷积来只关注每个像素点周围的几个关键点,而不是对整个窗口所有的点计算注意力,增强了模型的局部建模能力。
步骤6,利用训练后的模型,进行花粉图像检测。
根据以上步骤,本发明的一个具体实验过程如下:
使用已经训练完成的基于Transformer的目标检测模型对预处理后的电镜花粉图像进行推理。推理过程中,模型将生成每个检测到的花粉目标的边界框和相应的类别预测。对于模型推理得到的目标检测结果,进行非极大值抑制操作,以去除重叠的边界框并得到最终的检测结果。
实验条件:在预测时,预测图像中的花粉类别不能超出训练数据集的花粉类别;在进行模型推理时,选择与训练时同样的的GPU,以便高效地进行推理计算。
实验效果说明:展示模型推理后对电镜花粉图像的检测结果。通过可视化方式展示检测到的花粉目标边界框,并标注预测的类别及概率,如图4所示,可以看出,其预测精度和准确度极高。
本发明还提供了相应的的装置,包括:
输入模块,运算模块,输出模块,通信模块。
本发明中,输入模块一般可为摄像头,例如电脑摄像头、智能手机摄像头,或是可穿戴设备配套的摄像头。运算模块显然可以搭载于各种类型的处理器,常见如智能手机的处理器,或者VR设备以及其它可穿戴设备的处理器。输出模块为显示器,用于展示图像,如计算机显示屏、智能手机显示屏,或一些VR设备的显示屏。
具体地,输入模块为电脑摄像头时,运算模块搭载于计算机处理器,输出模块为电脑显示屏。输入模块为智能手机摄像头时,运算模块搭载于述智能手机的处理器,输出模块为所述智能手机的显示屏。输入模块为可穿戴设备的摄像头时,运算模块可以搭载于为计算机、智能手机或智能VR设备的处理器,输出模块可以为所述计算机、智能手机或VR设备的显示屏。
在本发明测试过程中采用了13th Gen Intel(R)Core(TM)i9-13900HX 2.20GHz作为处理器,具有16GB内存,GPU:Nvidia Tesla P100*2,具有12GB显存,可能够满足计算要求。
综上,本发明通过融合可变形卷积和Swin Transformer的全局建模能力,提高花粉的局部建模能力的同时减少模型计算复杂度。同时,引入CBAM模块作为Object Query初始化模块,提高解码器的初始化效率。此外,通过引入基于GRU的循环更新算子,实现在解码层与层之间细化边界框,提高花粉检测精度。

Claims (10)

1.一种基于Transformer的电镜花粉图像目标检测方法,其特征在于,包括如下步骤:
步骤1,构建基于Swin Transformer的端到端花粉检测模型;模型包括编码器、解码器和检测头;所述编码器包括若干Swin Transformer块,每个Swin Transformer块包括局部窗口注意力和跨窗口注意力两个子模块;所述解码器由若干解码层组成,每个解码层包括上采样层、卷积层和注意力机制;
步骤2,以可变形卷积层替代编码器中的卷积层,从而在模型中引入可变形卷积;
步骤3,在模型中引入基于CBAM的Object Query初始化模块,所述基于CBAM的ObjectQuery初始化模块包括空间通道注意力模块、位置编码模块和Object Query模块;原始的输入图像经空间通道注意力模块添加注意力,经位置编码模块加入位置编码,之后相加输入作为Object Query模块的初始化值,Object Query模块作用于解码层,指导解码器生成与花粉目标相关的特征;
步骤4,在模型中引入基于GRU的循环更新算子;所述基于GRU的循环更新算子在相邻解码层之间进行梯度回传,实现每个解码层根据上一解码层的预测来细化边界框;
步骤5,采集构建花粉检测数据集,训练模型;
步骤6,利用训练后的模型,进行花粉图像检测。
2.根据权利要求1所述基于Transformer的电镜花粉图像目标检测方法,其特征在于,所述步骤1,端到端花粉检测模型中:
编码器,利用卷积层提取输入图像的初始特征,得到初始特征图,之后通过层级分割、深度和宽度变化,提取高级图像特征,高级图像特征包含了全局和局部的上下文信息;
解码器,对编码器输出的高级图像特征进行解码和重建;
检测头,基于解码器的输出特征进行花粉检测任务。
3.根据权利要求1或2所述基于Transformer的电镜花粉图像目标检测方法,其特征在于,所述检测头包括全局池化层、全连接层、激活函数、边界框回归层和分类层;
所述全局池化层,在进行目标检测时,先对编码器输出的特征图进行全局池化,将特征图的高宽维度缩减为1,并保留通道维度;
所述全连接层,将全局池化后得到的特征向量映射到目标检测所需的输出空间;
所述激活函数,插入在全连接层之间,引入非线性性;
所述边界框回归层,输出目标的坐标和尺寸信息;
所述分类层,将输出转换为概率值。
4.根据权利要求1所述基于Transformer的电镜花粉图像目标检测方法,其特征在于,所述步骤2,可变形卷积层是在卷积层标准卷积规则的网状采样位置上添加2D位移,使得采样网格能够自由变形;对于m×m卷积核的卷积,输出y(p0),R是卷积核的采样点相对于输入x(p0)中的m×m个位置,则:
可变形卷积为卷积核的采样点学习位移量Δpn,卷积过程如下:
其中pn是对R中所列位置的枚举,w(pn)是pn的可学习权重。
5.根据权利要求1所述基于Transformer的电镜花粉图像目标检测方法,其特征在于,所述步骤3,Object Query模块被用于如下两个任务:
注意力权重查询:在每个解码层中,Object Query模块用来查询注意力权重,所述注意力权重被应用于编码器输出的特征图,以聚焦于与每个Object Query模块相关的特定区域;
检测预测:在每个解码层中,Object Query模块用于生成检测预测;通过将ObjectQuery模块与解码器的特征进行结合,预测每个查询对象的类别和边界框信息。
6.根据权利要求1所述基于Transformer的电镜花粉图像目标检测方法,其特征在于,所述空间通道注意力模块是轻量级的卷积注意力模块,包括通道注意力模块和空间注意力模块,输入图像经过通道注意力模块进行一维卷积,将卷积结果与输入图像相乘,然后经过空间注意力模块进行二维卷积,再将输出结果与输入图像相乘。
7.根据权利要求1所述基于Transformer的电镜花粉图像目标检测方法,其特征在于,所述步骤4,循环更新算子的输入为:t时刻的输入xt和t-1时刻的隐藏层状态Ht-1,隐藏层状态包含了之前节点的相关信息;循环更新算子的输出为:t时刻隐藏节点的输出yt和传递给下一个节点的隐藏层状态Ht
通过上一个传输下来的状态Ht-1和当前节点的输入xt获取两个门控状态:
重置门:rt=σ(xtWxr+Ht-1Whr+br)
更新门:zt=σ(xtWxz+Ht-1Whz+bz)
σ为sigmoid函数,通过该函数将数据变为0-1范围的数值,Wxr为重置门t时刻的权重矩阵、Whr为重置门t-1时刻的权重矩阵、br为重置门的偏置矩阵、Wxz为更新门t时刻的权重矩阵、Whz为更新门t-1时刻的权重矩阵、bz为更新门的偏置矩阵。
8.根据权利要求7所述基于Transformer的电镜花粉图像目标检测方法,其特征在于,将所述循环更新算子引入解码层,方法如下:
初始化边界框:在第一个解码层中,通过全连接层和激活函数初始化预测的边界框,所述边界框是相对于输入图像的归一化坐标,表示为(center_x,center_y,height,width);
GRU循环更新:在后续的解码层中,使用GRU循环更新算子逐步优化边界框的预测;
多轮迭代:解码器使用多轮迭代逐步优化边界框的预测,在每轮迭代中,边界框预测会被更新,同时注意力机制和可变形卷积帮助模型更好地利用上下文信息和局部特征,提高边界框预测的准确性和稳定性;
输出边界框预测:经过多轮迭代后,得到最终的边界框预测。
9.根据权利要求8所述基于Transformer的电镜花粉图像目标检测方法,其特征在于,所述GRU循环更新,对于每个解码层,进行以下步骤:使用可变形卷积根据当前预测的边界框从特征图中采样得到新的特征图;将新的特征图与注意力机制生成的特征图进行融合,以得到更加关注目标的特征;将融合后的特征图和当前轮次得到的边界框输入到GRU循环更新算子中;GRU循环更新算子根据当前特征和边界框,输出新的边界框预测。
10.根据权利要求9所述基于Transformer的电镜花粉图像目标检测方法,其特征在于,每个解码层基于来自前一层的预测细化预测框,假设有D个解码层,给定由第D-1个解码层预测的归一化边界盒,第D个解码层将边界框细化为
其中d∈{1,2,3…,D},在第d个解码层被预测,不同解码层的预测头不共享参数;初始框设置为:/>为了稳定训练,梯度仅通过反向传播,并在/>处被阻断;在循环更新算子中,对于第d个解码层,对从第d-1个解码层预测的框/>的关键元素进行采样;对于第d个解码层的交叉注意力模块,用作新的参考点;最终,使得采样位置与先前预测的框的中心和大小相关。
CN202310965901.3A 2023-08-02 2023-08-02 一种基于Transformer的电镜花粉图像目标检测方法 Pending CN117197632A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310965901.3A CN117197632A (zh) 2023-08-02 2023-08-02 一种基于Transformer的电镜花粉图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310965901.3A CN117197632A (zh) 2023-08-02 2023-08-02 一种基于Transformer的电镜花粉图像目标检测方法

Publications (1)

Publication Number Publication Date
CN117197632A true CN117197632A (zh) 2023-12-08

Family

ID=89004226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310965901.3A Pending CN117197632A (zh) 2023-08-02 2023-08-02 一种基于Transformer的电镜花粉图像目标检测方法

Country Status (1)

Country Link
CN (1) CN117197632A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576379A (zh) * 2024-01-15 2024-02-20 南京航空航天大学 一种基于元学习组合注意力机制网络模型的目标检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576379A (zh) * 2024-01-15 2024-02-20 南京航空航天大学 一种基于元学习组合注意力机制网络模型的目标检测方法
CN117576379B (zh) * 2024-01-15 2024-03-29 南京航空航天大学 一种基于元学习组合注意力机制网络模型的目标检测方法

Similar Documents

Publication Publication Date Title
Wang et al. Deep learning for real-time crime forecasting and its ternarization
Gao et al. Dynamic zoom-in network for fast object detection in large images
CN113628249B (zh) 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN111291809B (zh) 一种处理装置、方法及存储介质
CN113780149B (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN110533041B (zh) 基于回归的多尺度场景文本检测方法
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN110222718B (zh) 图像处理的方法及装置
US20230215166A1 (en) Few-shot urban remote sensing image information extraction method based on meta learning and attention
CN116703980B (zh) 基于金字塔池化Transformer主干网络的目标跟踪方法与系统
CN111723660A (zh) 一种用于长形地面目标检测网络的检测方法
CN113592060A (zh) 一种神经网络优化方法以及装置
CN112883887B (zh) 一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
CN117197632A (zh) 一种基于Transformer的电镜花粉图像目标检测方法
CN114511785A (zh) 基于瓶颈注意力模块的遥感图像云检测方法及系统
CN114550014A (zh) 道路分割方法及计算机装置
CN113554653A (zh) 基于互信息校准点云数据长尾分布的语义分割方法
CN116824140A (zh) 面向测试场景无掩码监督的小样本分割方法
Qiao et al. Two-Stream Convolutional Neural Network for Video Action Recognition.
CN116148864A (zh) 一种基于DyConvGRU和Unet的预测细化结构的雷达回波外推方法
CN115294353A (zh) 基于多层属性引导的人群场景图像字幕描述方法
Shi et al. Building footprint extraction with graph convolutional network
CN115239765A (zh) 基于多尺度可形变注意力的红外图像目标跟踪系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination