CN114037678A

CN114037678A - 一种基于深度学习的尿液有形成分检测方法及装置

Info

Publication number: CN114037678A
Application number: CN202111307623.XA
Authority: CN
Inventors: 产思贤; 郑竞成; 吴炳辉; 白琮; 陶健; 王红强
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-11

Abstract

本发明公开了一种基于深度学习的尿液有形成分检测方法及装置，用检测速度更快的单阶段的目标检测算法，且使用参数更少的网络模型，并针对尿沉渣图像全局稀疏，局部稠密的特点提出了局部上下文注意力模块和全局背景抑制模块提升检测效果，使模型关注含有目标的区域，增强密集区域目标的区分能力，同时减少对背景的关注。本发明技术方案，对于尿沉渣图片，能够有效检测出图片中的尿液有形成分，并对检测局部密集分布的情况有极大改善。

Description

一种基于深度学习的尿液有形成分检测方法及装置

技术领域

本申请属于医学图像处理技术领域，尤其涉及一种基于深度学习的尿液有形成分检测方法及装置。

背景技术

目标检测是计算机视觉领域的重要研究方向之一，在自然图像、遥感图像、医学图像领域有广泛应用。近年来，许多学者在目标检测方面开展了大量工作，并取得了一定的进展。通用的检测算法是针对复杂的自然图像检测设计，为应对目标多样的特征和复杂的背景，这些检测算法的网络模型往往参数量很多。而尿沉渣图像不同于自然图像，尿沉渣图像是尿液样本在显微镜下拍摄所得，尿液样本图片的背景中几乎不包含信息。同时，样本中的尿液有形成分呈稀疏分布，局部偶尔有聚集的尿液有形成分，意味着图片中尿液有形成分的面积占比图片面积很小。另外，尿液有形成分的种类相比于自然图像中的目标种类少的多，自然图像如VOC数据集有20种类，COCO数据集有80种类，ImageNet有几百种，而尿液有形成分只有少数几种。且可供训练的尿液有形成分图片量相比自然图像数据集也要少地多。通用的目标检测算法网络模型较大，直接将通用的目标检测算法在尿液有形成分数据集上训练易过拟合。且网络模型越大，所需计算越多，会导致推理变慢，在实际中无法达到实时检测的要求。

发明内容

本申请的目的是提供一种基于深度学习的尿液有形成分检测方法及装置，以克服上述背景技术中所提出的技术问题。

为了实现上述目的，本申请技术方案如下：

一种基于深度学习的尿液有形成分检测方法，构建并训练深度学习模型，所述深度学习模型包括多尺度特征提取模块、局部上下文注意力模块、全局背景抑制模块和基于锚框的检测模块，所述基于深度学习的尿液有形成分检测方法，包括：

输入尿沉渣图片经多尺度特征提取模块提取特征，输出多尺度特征提取模块最后三层不同尺寸的特征图，按照尺寸由小到大排列分别为第三层特征图、第二层特征图和第一层特征图；

将提取的三层特征图输入局部上下文注意力模块，对第三层特征图进行添加带有位置编码信息的多头自注意力机制操作，输出对应的第三层注意力特征图，然后将第三层注意力特征图与第二层特征图进行融合，融合后再次进行添加带有位置编码信息的多头自注意力机制操作，输出对应的第二层注意力特征图，然后将第二层注意力特征图与第一层特征图进行融合，输出对应的第一层注意力特征图；

将局部上下文注意力模块输出的三层注意力特征图输入全局背景抑制模块，对每层注意力特征图进行全局背景抑制处理，得到对应的三层全局背景抑制后的特征图；

将三层全局背景抑制后的特征图输入基于锚框的检测模块进行检测，输出检测结果。

进一步的，所述添加带有位置编码信息的多头自注意力机制操作，包括：

将输入的特征图分别经过卷积编码为q、k、v三个投影，并根据输入特征图的宽高编码相对位置信息R_h、R_w；

将q、k做矩阵乘法得到特征图的上下文内容信息，将R_h、R_w逐元素相加得到特征图各点的相对位置编码后与q做矩阵乘法得到各点位置信息；

将上下文内容信息与各点位置信息相加并用softmax函数处理得到各点相关性程度信息，并与v做矩阵乘法得到注意力特征图。

进一步的，所述对每层注意力特征图进行全局背景抑制处理，得到对应的全局背景抑制后的特征图，包括：

将待处理的当前层注意力特征图作为目标特征图，将另外两层注意力特征图通过放缩处理至目标特征图一样大小；

将放缩处理后的三层特征图分别使用卷积压缩到1个通道，然后经softmax计算各层特征图空间中各点重要性权重；

将待处理的当前层注意力特征图输入通道注意力模块得到通道重要性权重；

将放缩处理后的三层特征图分别与对应层特征图空间中各点重要性权重逐元素相乘，并逐元素相加得到与目标特征图相同大小的特征图，最后乘以通道重要性权重，得到对应的全局背景抑制后的特征图。

进一步的，所述通道注意力模块，执行以下操作：

对输入特征图实用全局平均池化操作，全局平均池化操作得到的张量填充两端后再使用步长为1的1维卷积。

进一步的，所述深度学习模型的损失函数包括前后景损失、分类损失和边框回归损失，其中前后景损失和分类损失使用二元交叉熵损失函数，边框回归损失使用IoU损失。

本申请还提出了一种基于深度学习的尿液有形成分检测装置，包括处理器以及存储有若干计算机指令的存储器，所述计算机指令被处理器执行时实现所述基于深度学习的尿液有形成分检测方法的步骤。

本申请提出的一种基于深度学习的尿液有形成分检测方法及装置，用检测速度更快的单阶段的目标检测算法，且使用参数更少的网络模型，并针对尿沉渣图像全局稀疏，局部稠密的特点提出了局部上下文注意力模块和全局背景抑制模块提升检测效果，使模型关注含有目标的区域，增强密集区域目标的区分能力，同时减少对背景的关注。本申请技术方案，对于尿沉渣图片，能够有效检测出图片中的尿液有形成分，并对检测局部密集分布的情况有极大改善。

附图说明

图1为本申请基于深度学习的尿液有形成分检测方法流程图；

图2为本申请深度学习模型示意图；

图3为带相对位置信息的自注意力机制示意图；

图4为全局背景抑制模块示意图；

图5为通道注意力的网络示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于深度学习的尿液有形成分检测方法，包括：

步骤S1、输入尿沉渣图片经多尺度特征提取模块提取特征，输出多尺度特征提取模块最后三层不同尺寸的特征图，按照尺寸由小到大排列分别为第三层特征图、第二层特征图和第一层特征图。

本申请是基于锚框的单阶段的检测算法，如图2所示，整个深度学习模型包含以下四个部分：多尺度特征提取模块、局部上下文注意力模块、全局背景抑制模块和基于锚框的检测模块。

输入尿沉渣图片，从多尺度特征提取模块提取得到三层不同尺度的特征，多尺度特征提取模块使用的是单阶段目标检测网络YOLOv5。在局部上下文注意力模块中，整体结构遵循特征金字塔结构，在特征融合之前对特征图添加带有位置编码信息的多头自注意力机制，特征图中的每个点代表的从图片中提取到的一块区域，通过该机制使得模型关注特征图中相关性高的区域。接着，全局背景抑制模块中对特征图中各个点学习重要性权重，使模型更关注有目标的区域，减少对背景的关注，同时添加了一个通道注意力机制，学习不同通道的重要性权重。基于锚框的检测模块，对处理后的特征图各点预测前后景信息，位置信息，分类信息。最后，对于是前景的点，即包含目标，根据预设锚框的宽高与预测的位置信息，计算目标的中心位置和宽高，与置信度最高的分类信息一起可视化到图片中。

如图2所示，输入尿沉渣图片I^3×H×W经多尺度特征提取模块提取特征，多尺度特征提取模块采用的是YOLOv5网络，它的每一层是由不同数量的残差网络块构成，在增加网络深度的同时，避免了梯度消失。不同层之间由下采样分隔，下采样用卷积替代池化，在减小特征图张量尺度的同时增加通道数。每一层处理的特征图张量大小相同，根据特征图张量大小多尺度特征提取模块在整体上分为5层。

输出多尺度特征提取模块最后三层的特征图

各层特征图的宽高为原图的宽高的除以步长，最后三层的采样步长stride∈{8,16,32}。根据多尺度特征提取模块下采样的性质，得到的三层特征图的宽高为前一层的一半，通道数为前一层的一倍。

步骤S2、将提取的三层特征图输入局部上下文注意力模块，对第三层特征图进行添加带有位置编码信息的多头自注意力机制操作，输出对应的第三层注意力特征图，然后将第三层注意力特征图与第二层特征图进行融合，融合后再次进行添加带有位置编码信息的多头自注意力机制操作，输出对应的第二层注意力特征图，然后将第二层注意力特征图与第一层特征图进行融合，输出对应的第一层注意力特征图。

如图2所示，第三层特征图F₃先进行添加带有位置编码信息的多头自注意力机制(MHSA，Multi-head Self-Attention)操作，输出第三层注意力特征图F′₃；将特征图F′₃与第二层特征图F₂进行融合，融合后再次进行添加带有位置编码信息的多头自注意力机制操作，输出对应的第二层注意力特征图F′₂，然后将第二层注意力特征图F′₂与第一层特征图F₁进行融合，最后对应的第一层注意力特征图F′₁。在将相邻两个特征图两两进行融合时，融合的过程为对宽高较小的特征图，使用最邻近插值进行上采样，然后与目标层的特征图按通道堆叠，再卷积压缩通道数与目标层的特征图的通道数相同。

在特征图融合之前，为提高模型对特征图中相关性高的区域的辨别能力，使用如图3所示带有相对位置编码信息的多头自注意力机制(MHSA)，该机制使得模型关注特征图中相关性高的区域。由于稠密区域往往是同种类型的尿液有形成分，该操作能够相应地增强目标局部稠密区域的分辨能力。

在一个具体的实施例中，如图3所示为带有位置编码信息的多头自注意力机制的简要示意图，所述添加带有位置编码信息的多头自注意力机制操作，包括：

步骤S2.1、将输入的特征图分别经过卷积编码为q、k、v三个投影，并根据输入特征图的宽高编码相对位置信息R_h、R_w。

输入的特征图分别经1×1卷积编码为query,key,value三个投影记为q,k,v，大小与通道数同输入的特征图。另外，根据特征图的宽高编码相对位置信息R_h,R_w。

步骤S2.2、将q、k做矩阵乘法得到特征图的上下文内容信息，将R_h、R_w逐元素相加得到特征图各点的相对位置编码后与q做矩阵乘法得到各点位置信息。

根据得到的信息计算各点相关性，相关性的高低是根据各个位置点计算得到的，根据q,k做矩阵乘法得到特征图的上下文内容信息。R_h,R_w逐元素相加得到特征图各点的相对位置编码后与q做矩阵乘法得到各点位置信息。

步骤S2.3、将上下文内容信息与各点位置信息相加并用softmax函数处理得到各点相关性程度信息，并与v做矩阵乘法得到注意力特征图。

将上下文内容信息与各点位置信息相加并用softmax函数处理得到各点相关性程度信息，并与v做矩阵乘法得到自注意力加权后的特征图(注意力特征图)：

本步骤中，相比于低层特征图，高层特征感受野较大，能够包含整个目标，含有更多的语义信息有利于分类。

步骤S3、将局部上下文注意力模块输出的三层注意力特征图输入全局背景抑制模块，对每层注意力特征图进行全局背景抑制处理，得到对应的全局背景抑制后的特征图。

如图2，全局背景抑制模块在全局上下文注意力模块之后，用于对全局上下文注意力模块输出的各层特征图进行处理。

在一个具体的实施例中，如图4所示，本步骤全局背景抑制模块，对每层注意力特征图进行全局背景抑制处理，包括：

步骤S3.1、将待处理的当前层注意力特征图作为目标特征图，将另外两层注意力特征图通过放缩处理至目标特征图一样大小。

三个分支中的特征图的大小和通道数不同，需要分别处理将另外两层特征图的宽高与通道数通过卷积放缩到目标特征图一样大小。

特征图与目标特征图之间的边长比若为1/2进行1次放大操作，为1/4进行2次放大操作。对于放大操作，先通过1×1卷积步长为2压缩通道，再使用双线性插值缩放因子为2放大特征图。特征图与目标特征图之间的边长比为2进行一次缩小操作，为4进行2次缩小操作。对于缩小操作，使用3×3卷积步长为2进行下采样，缩小尺寸并增加通道数。

图4所示为特征图F₂分支在全局背景抑制模块中的示意图，对F₁，F₃分别进行了一次放大和缩小操作。

步骤S3.2、将放缩处理后的三层特征图分别使用卷积压缩到1个通道，然后经softmax计算各层特征图空间中各点重要性权重。

放缩处理后的三层特征图的宽高和通道数与目标特征图的相同，对这三层特征图分别使用卷积压缩到1个通道。其中进行了两次卷积，避免通道数一次减少过多导致信息损失。先使用一次3×3卷积步长为1得到压缩通道后的特征图信息，再使用一次一次3×3卷积步长为1的卷积。最后共得到三层1通道的特征图

其中H，W为目标特征图的宽高。

接着将三层张量经softmax计算各层的重要性权重记为α^t,β^t,γ^t。

经Softmax处理后各个点上三层特征图的权重和为1，t表示当前层注意力特征图的层数。

关系如下所示：

通过本步骤，得到特征图空间中各点重要性权重。

步骤S3.3、将待处理的当前层注意力特征图输入通道注意力模块得到通道重要性权重。

本步骤首先对待处理的当前层注意力特征图进行复制，避免处理时改变原来的特征图，特征图分别用于计算通道重要性权重和各层特征图空间中各点重要性权重。

经过步骤S3.2得到特征图空间中各点重要性权重，为得到通道重要性权重，添加了通道注意力，如图5所示是图4中通道注意力的详细示意图，根据目标层特征图学习一个通道重要性权重。

在一个具体实施例中，通道注意力模块，执行以下操作：

即首先对H×W×C特征图使用全局平均池化得到1×1×C大小的张量，对其两端填充0使其卷积后能够与原来保持一样大小，再使用步长为1的1维卷积，得到通道重要性权重CA(ChannelAttention)，其中填充0的数量与一维卷积的卷积核长度k有关，由于步长为1，此处两端填充0的个数可以记为(k-1)/2。

步骤S3.4、将放缩处理后的三层特征图分别与对应层特征图空间中各点重要性权重逐元素相乘，并逐元素相加得到与目标特征图相同大小的特征图，最后乘以通道重要性权重，得到对应的全局背景抑制后的特征图。

如图4右侧部分所示，将步骤S3.2中得到的三层权重分别与各层放缩后的特征图逐元素相乘，并逐元素相加得到与目标特征图相同大小的特征图，最后乘以步骤S3.3中的通道重要性权重，得到处理后的特征图。

需要说明的是，本申请中个网络卷积中的参数是可学习的，训练时，反向传递过程中会更新卷积核中的参数。由于尿沉渣图片的背景中几乎不含信息，在学习到背景的重要性权重很小，会极大地抑制背景区域，使网络模型关注于有信息的区域，即有目标的区域，从而提升检测出目标的性能。

步骤S4、将三层全局背景抑制后的特征图输入基于锚框的检测模块进行检测，输出检测结果。

具体的，包括如下步骤：

步骤S4.1、根据之前步骤得到加权后的特征图，通过卷积对特征图中的每个点进行预测，得到前后景置信度信息，尿液有形成分的中心偏移坐标cx,cy,以及宽高缩放比例h,w，以及分类信息共C个包含各个类的置信度，即图2最右侧所示H×W×(5+C)。其中前景为目标，后景为背景。中心坐标是相对于所在网格点左上角的位置偏移量，网格点左上角的坐标是根据网格点所在位置计算得到。网格横向和纵向上格子数量是由图片的宽高分别除以该层采样的步长{8,16,32}得到，从0开始计数。原始图片经过预处理填充能够保证被除尽，每个格子的边长等于步长，所以网格点左上角坐标是横向网格数×步长，纵向网格数×步长，即(grid_x×stride,grid_y×stride)。加上偏移后，相对于图片左上角中心点坐标为(grid_x×stride+2δ(cx)-0.5,grid_y×stride+2δ(cy)-0.5)，其中δ为Sigmoid函数，将cx,cy归一化到(0,1)之间，2δ(cy)-0.5的范围是(-0.5,1.5)使得预测框中心可以偏移到相邻的网格点。将预测的宽高缩放比例归一化得到(δ(h)+0.5,δ(w)+0.5)，范围是(0.5,1.5)，可以实现一定程度的缩放，再乘以预设锚框的宽高，得到预测锚框的宽高。预设锚框的宽高是相对于输入网络的图片大小预设的，对三个尺度的特征图各预设了三种比例的锚框，共9个预设锚框，以检测多尺度不同宽高比的尿液有形成分。根据上述，得到相对于所在网格左上角的中心点坐标转化为相对于图片左上角的中心点坐标，将预测的宽高缩放比例作用与对应尺度锚框得到预测目标的框的宽和高，每个点上共得到3个预测框。

S4.2根据4.1对各点预测得到了大量的预测框，但实际图片中没有这么多目标，大部分预测框是质量较低的，即没有很好地包围目标。需要对预测的结果进行后处理，筛选出置信度超过阈值的目标，训练时这个置信度是根据预测框与目标真实标注的框计算交并比(Intersection of Union,IoU)。最后对超过阈值的框，使用非极大值抑制(NMS)筛除去同类中交并比高且置信度相对低的框。这些交并比过高的预测框，预测的目标大概率会是同一个，所以要经过筛除留下质量最高的框。首先得到预测框的左上角点和右上角点坐标，根据之前计算得到的中心点坐标和宽高换算得到。两个预测框的两个角点的坐标分别记为(x₁,y₁,x₂,y₂)，(x′₁,y′₁,x′₂,y′₂)，IoU计算可用如下公式表示：

Intersection＝[min(x₂,x′₂)-max(x₁,x′₁)]·[min(y₂,y′₂)-max(y₁,y′₁)]

Union＝(x₂-x₁)·(y₂-y₁)+(x′₂-x′₁)·(y′₂-y′₁)-Intersection

容易理解的是，本申请整个深度学习模型包含多尺度特征提取模块、局部上下文注意力模块、全局背景抑制模块和基于锚框的检测模块，其中多尺度特征提取模块和基于锚框的检测模块都是目标检测网络YOLOv5，已经是比较成熟的技术，这里不再赘述。

整个深度学习模型需要进行训练后才能够进行实际的应用，训练过程如下：

S5.1、对训练数据集进行预处理，每个批次共16张数据，数据增强方式为从一个批次中选取4张进行随机放缩组合得到新的图片，并重新计算标签并组合。

S5.2、依次经过步骤S1-S4处理后，前后景损失L_Obj和分类损失L_Cls使用二元交叉熵损失函数，边框回归L_Box使用IoU损失。

其中L_Obj定义如下：

其中

表示是否为目标值取0或1，o为预测是否为目标的概率范围为(0,1)。

其中L_Cls定义如下：

其中

为真实类别，c为预测类别，N为总类别数。

L_Box为IOU损失函数定义如下：

L_Box＝1-IoU

此处IoU为预测框与真实框的交并比，交并比越高表示框质量越高，损失越小。

最后损失和按重要程度，乘以不同系数：

L＝λ_ObjL_Obj+λ_ClsL_Cls+λ_BoxL_Box

其中λ_Obj＝1，λ_Cls＝0.5，λ_Box＝0.05。

即本申请深度学习模型的损失函数包括前后景损失、分类损失和边框回归损失，其中前后景损失和分类损失使用二元交叉熵损失函数，边框回归损失使用IoU损失。

S5.4、训练过程中批处理大小为16，总批次数量为图片数除以批处理大小。将数据集中所有批次训练完一次记为一个epoch，总共训练50个epoch，学习率随epoch随从0.1下降到0.002，使用随机梯度下降算法(Stochastic Gradient Descent,SGD)迭代训练50个epoch并保存每次迭代结果。

本申请在实际的应用中，将图片输入多尺度特征提取模块进行特征提取，得到不同深度的三个尺度的特征图。在检测前，特征图经过局部上下文注意力模块与全局背景抑制模块处理。在局部上下文注意力模块中，使用特征金字塔网络对相邻的两个特征图进行特征融合，将高层的语义信息传递到低层。在特征融合前，使用带有相对位置信息的自注意力机制关注特征图中相关性高的区域，提升模型对图片中稠密区域的辨别能力。在全局背景抑制模块中，根据三个尺度的特征图的信息来学习到各个特征图中各个位置的权重信息。并有一个通道注意力机制，对各个通道的权重信息赋予权重，增强不同通道特征的表达力。检测时，模型预测特征图各位置是否是目标，中心点坐标以及宽高缩放比例，以及分类信息。最后模型将是目标的信息输出，目标的边框信息以及分类信息。

在检测过程中，将图片输入模型，提取特征处理后对图片中的各个区域预测，得到前后景信息，分类信息和回归信息，筛除置信度低的框，根据预测得到的信息计算出原图中的包围目标的矩形框信息，再筛除对同一目标预测重复的框，最后将剩下的高质量的矩形框以及分类信息可视化到图片中。

传统的尿沉渣显微图像的分析与检测方法是通过专业检测人员在显微镜下用肉眼对病人的送检样本进行的手工分析与计数。这种手工的方式工作强度大，对技术人员的专业水平也有很高的要求。通过计算机辅助检测可以有效减轻工作强度，并且得到准备的尿液有形成分数量，同时降低技术人员的专业水平要求。在该算法训练的模型检测下，可以自动快速地检测和准确识别尿沉渣图片，实现医学显微图像的处理系统的自动化和智能化。

可将该模型部署在服务器上，客户端通过上传图片到服务器进行检测，并返回检测结果。该模型使用的是参数最少的多尺度特征提取模块，结构简单复用性高，也可以部署到芯片上，进行离线检测。

在一个实施例中，本申请还提供了一种基于深度学习的尿液有形成分检测装置，包括处理器以及存储有若干计算机指令的存储器，所述计算机指令被处理器执行时实现所述基于深度学习的尿液有形成分检测方法的步骤。

关于基于深度学习的尿液有形成分检测装置的具体限定可以参见上文中对于基于深度学习的尿液有形成分检测方法的限定，在此不再赘述。上述基于深度学习的尿液有形成分检测装置可全部或部分通过软件、硬件及其组合来实现。可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序，所述处理器通过运行存储在存储器内的计算机程序，从而实现本发明实施例中的网络拓扑布局方法。

其中，所述存储器可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器用于存储程序，所述处理器在接收到执行指令后，执行所述程序。

所述处理器可能是一种集成电路芯片，具有数据的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的尿液有形成分检测方法，其特征在于，构建并训练深度学习模型，所述深度学习模型包括多尺度特征提取模块、局部上下文注意力模块、全局背景抑制模块和基于锚框的检测模块，所述基于深度学习的尿液有形成分检测方法，包括：

2.根据权利要求1所述的基于深度学习的尿液有形成分检测方法，其特征在于，所述添加带有位置编码信息的多头自注意力机制操作，包括：

3.根据权利要求1所述的基于深度学习的尿液有形成分检测方法，其特征在于，所述对每层注意力特征图进行全局背景抑制处理，得到对应的全局背景抑制后的特征图，包括：

4.根据权利要求3所述的基于深度学习的尿液有形成分检测方法，其特征在于，所述通道注意力模块，执行以下操作：

5.根据权利要求1所述的基于深度学习的尿液有形成分检测方法，其特征在于，所述深度学习模型的损失函数包括前后景损失、分类损失和边框回归损失，其中前后景损失和分类损失使用二元交叉熵损失函数，边框回归损失使用IoU损失。

6.一种基于深度学习的尿液有形成分检测装置，包括处理器以及存储有若干计算机指令的存储器，其特征在于，所述计算机指令被处理器执行时实现权利要求1至权利要求5中任意一项所述方法的步骤。