CN115578580A

CN115578580A - 一种基于卷积神经网络的尿沉渣细胞检测方法

Info

Publication number: CN115578580A
Application number: CN202211138511.0A
Authority: CN
Inventors: 产思贤; 俞敏明; 穆攀; 白琮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2023-01-06

Abstract

本发明公开了一种基于卷积神经网络的尿沉渣细胞检测方法，包括：取带标注的尿沉渣细胞图像作为样本图像，对样本图像进行数据增强预处理后形成训练数据集；利用训练数据集对细胞检测网络进行训练得到权重文件；加载预先训练保存的权重文件，利用训练好的网络针对待检测的尿沉渣细胞图像输出检测结果。本发明在原有YOLOX技术方案中改进得到了新的多尺度融合方式，同时设计了更优的边框回归损失函数AIoULoss，有效提升了尿沉渣中细胞检测精度。

Description

一种基于卷积神经网络的尿沉渣细胞检测方法

技术领域

本发明属于深度学习医学图像分析处理技术领域，具体涉及一种基于卷积神经网络的尿沉渣细胞检测方法。

背景技术

在计算机视觉中，目标检测是一项基本任务，随着深度学习技术的不断发展，诞生了许多高性能的检测器，这些检测器在人脸识别、车流量检测，自动驾驶和医学影像分析中都有着广泛的应用。目前的检测器对常规物体都能起到不错的检测效果，但是对于小型物体的检测精度还相对较低。尤其是应用在医学尿沉渣图像中，由于尿沉渣细胞普遍偏小，容易造成漏检的情况。

目前针对小目标检测策略有：复制粘贴的数据增强方法，或是通过GAN生成高分辨率图像，或者采用更优的多尺度的融合方法。通常还需要采用额外手段来提高对小型物体的检测精度，例如利用基于无锚方式来避免正负样本不平衡的情况，或者利用上下文提取信息来处理目标与周围信息的相关性，或者引入注意力机制增强特征的表征能力。但是引入各类策略或手段后其检测精度仍常常表现不够如意，而且还提高了检测成本。

发明内容

本发明的目的在于提供一种基于卷积神经网络的尿沉渣细胞检测方法，有效提升尿沉渣中细胞检测精度。

为实现上述目的，本发明所采取的技术方案为：

一种基于卷积神经网络的尿沉渣细胞检测方法，所述基于卷积神经网络的尿沉渣细胞检测方法，包括：

取带标注的尿沉渣细胞图像作为样本图像，对样本图像进行数据增强预处理后形成训练数据集；

将训练数据集中的样本图像输入到骨干网络CSPDarknet-53中，获取骨干网络CSPDarknet-53中dark3单元、dark4单元和dark5单元输出的三种不同尺度大小的特征图F₁、F₂、F₃；

将特征图F₁、F₂、F₃作为特征图

分别输入到特征融合网络NPANet中进行特征融合处理，得到检测头P₁、P₂、P₃；

取检测头P₁、P₂分别进行分类分支与回归分支的卷积后沿通道部分进行连接，再将连接得到的特征图拉伸为二维，得到拉伸后的特征图F₁₁、F₂₁，将拉伸后的特征图F₁₁、F₂₁进行连接，得到最终的特征图F，根据特征图F计算损失并进行反向传播更新梯度，同时更新网络参数，完成一次训练；

若未达到训练结束条件则继续利用训练数据集进行训练，否则保存最新的权重文件并结束训练；

加载预先训练保存的权重文件，利用训练好的网络针对待检测的尿沉渣细胞图像输出检测结果。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

作为优选，所述数据增强预处理包括Mosaic数据增强和MixUp数据增强。

作为优选，所述训练数据集中的样本图像先调整为640×640大小，再输入到骨干网络CSPDarknet-53中。

作为优选，所述训练数据集中的样本图像基于分批次原则输入到骨干网络CSPDarknet-53中。

作为优选，所述将特征图F₁、F₂、F₃作为特征图

分别输入到特征融合网络NPANet中进行特征融合处理，得到检测头P₁、P₂、P₃，包括：

将特征图F₁、F₂、F₃作为特征图

将

直接输入到特征融合网络NPANet中，首先是自顶向下，经过1×1卷积，上采样后与特征图

进行concat拼接得到特征图

继续将特征图

经过1×1卷积，上采样后与特征图

进行concat拼接得到特征图

将特征图

作为

直接输出得到检测头P₁；再做自下而上和跨尺度的融合，将底层的位置信息传递回浅层，将

经过3×3卷积后与之前的特征图

融合拼接输出

得到检测头P₂；将

经过3×3卷积后与之前的特征图

融合拼接得到检测头P₃。

作为优选，根据特征图F计算损失包括计算分类损失、目标得分损失和边框回归损失，所述分类损失和目标得分损失为BCELoss损失函数，边框回归损失为AIoULoss损失函数，所述AIoULoss损失函数的公式如下：

式中，IoU为真实框与预测框的交并比，A^c为真实框与预测框的最小外接矩形与真实框和预测框的差集的面积，Aⁱ为真实框与预测框的最小外接矩形的面积，w₁为真实框的长，h₁为真实框的宽，w₂为预测框的长，h₂为预测框的宽。

作为优选，所述利用训练好的网络针对待检测的尿沉渣细胞图像输出检测结果时，采用SimOTA正负样本分配策略筛选预测框。

本发明提供的基于卷积神经网络的尿沉渣细胞检测方法，在现有YOLOX技术方案中改进了多尺度融合方式，考虑到感受野较大的检测头会引入噪声干扰，不利于小目标检测，因此不将它进行分类与回归任务。同时，边框回归损失用AIoULoss来代替IoULoss，能自适应的去调整重叠面积与纵横比，能够有效提高尿沉渣中细胞检测的精度。

附图说明

图1为本发明的基于卷积神经网络的尿沉渣细胞检测方法的流程图；

图2为本发明的细胞检测网络的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本发明。

为了克服现有技术中针对小型物体检测精度不高的问题，本实施例提出一种基于卷积神经网络的尿沉渣细胞检测方法。本实施例的方法主要包含以下几个步骤：首先对标注后的尿沉渣图像进行数据增强预处理，随后分批开始训练，每个批次将图像通过骨干网络CSPDarknet-53提取特征得到特征图F₁、F₂、F₃，随后将得到的特征图作为

输入，通过NPANet进行特征融合得到预测头P₁、P₂、P₃，并只将预测头P₁、P₂进行分类和回归得到预测值，然后与图像的真实值进行损失计算，每批训练完后进行反向传播来更新梯度，同时更新网络参数，最终完成整个网络的训练。

在一个实施例中，如图1所示，提出了一种基于卷积神经网络的尿沉渣细胞检测方法，包括以下步骤：

步骤S1、取带标注的尿沉渣细胞图像作为样本图像，对样本图像进行数据增强预处理后形成训练数据集。

本实施例首先获取带有标注了尿沉渣细胞检测框的尿沉渣细胞图像作为样本图像，后对样本图像进行数据增强进行扩充。本实施例的数据增强包括Mosaic数据增强和MixUp数据增强。

本实施例对样本图像进行Mosaic数据增强和MixUp数据增强，其中Mosaic数据增强，即取出4张样本图像通过随机剪裁、随机缩放、随机排布的方式进行拼接，其优点是丰富了检测物体的背景和小目标，并且在计算的时候会一次性计算4张图片的数据，不需要很大的开销，一张GPU就可以达到比较好的效果。而对于MixUp数据增强，即将2张样本图像叠加到一起，这样可以减少对错误标签的记忆，以增强鲁棒性。

本实施例利用样本丰富性较高的训练数据集对细胞检测网络进行训练，如图2所示，细胞检测网络包括依次连接的骨干网络CSPDarknet-53、特征融合网络NPANet以及分类回归层Head，具体训练过程如步骤S2-S5所示。

步骤S2、将训练数据集中的样本图像输入到骨干网络CSPDarknet-53中，获取骨干网络CSPDarknet-53中dark3单元、dark4单元和dark5单元输出的三种不同尺度大小的特征图F₁、F₂、F₃。

本实施例采用CSPDarknet-53作为骨干网络，来进行特征提取，相比于传统的Resnet-50等网络，既保证了准确性又能保持轻量级。预先加载在MS COCO上训练好的权重，方便在训练过程中能更快更好的收敛，基于分批次原则进行训练，训练过程中批处理大小为16(即每个批次处理16张图片，批处理大小可调整)。总共训练50个epoch，其中包括前5个epoch的预热，最后15个epoch关闭数据增强。并且采取随机梯度下降(SGD)进行训练，使用学习率为lr×BatchSize/64，初始lr为0.01并采取余弦调度。重量衰减为0.0005，SGD动量为0.9。

由于原始图片尺寸为1920×1080，本实施例将原始图片进行缩放，根据长边等比例缩放到640×640，将缩放后的图片输入到骨干网络CSPDarknet-53中，在通过一系列卷积等操作提取完特征后，将dark3单元、dark4单元、dark5单元进行输出，先后输出256×80×80，512×40×40和1024×20×20的三种大小的特征图F₁、F₂、F₃。特征图的大小由骨干网络CSPDarknet-53决定，这里不再赘述。

步骤S3、将特征图F₁、F₂、F₃作为特征图

分别输入到特征融合网络NPANet中进行特征融合处理，得到检测头P₁、P₂、P₃。

本实施例将特征图F₃作为

直接输入到特征融合网络NPANet中，首先是自顶向下，经过1×1卷积，上采样后与特征图F₂作为输入的

做特征融合拼接得到特征图

继续将特征图

经过1×1卷积，上采样后与特征图F₃作为输入的

进行特征融合拼接得到特征图

将特征图

直接输出得到特征图

作为检测头P₁。再做自底向上的融合，将浅层的位置信息传递回深层。将

经过3×3卷积后变成与

相同尺寸，使其融合得到特征图

输出得到检测头P₂。同理，将

经过3×3卷积后变成与

相同尺寸，使其融合得到特征图

输出得到检测头P₃，但不将检测头P₃用于后续分类回归操作。

具体的，1024×20×20的特征图

直接输入到自顶向下的特征金字塔网络NPANet中，先通过1×1卷积使通道数变为512，然后经过上采样成为40×40的特征图后与特征图

(512×40×40)沿通道做特征融合拼接，其次再通过CSP模块将通道数变为512得到

(512×40×40)。继续将

(512×40×40)通过1×1卷积使通道数变为256，再上采样成为80×80的特征图后与特征图

做特征融合拼接，通过怕CSP模块得到

(256×80×80)。我们直接将

输出得到检测头P1。之后是自底向上的融合，将

通过3×3卷积直接将通道数与尺寸大小转化为与

一样的通道数与长宽大小，进行融合拼接后再通过CSP模块得到

将

输出得到检测头P₂。至此，我们就得到了两个检测头P₁与P₂，仅仅利用P₁与P₂来完成后续分类与回归任务。

需要说明的是，上面提到的CSP模块的作用是增强CNN的学习能力，加深网络的同时又能保持轻量化与准确性，在另一方面又能降低计算瓶颈。NPANet特征融合是在PANet双向融合的基础上去掉了感受野较大的检测头P₃，考虑到尿沉渣数据集中细胞普遍较小，P₃检测头反倒会引入噪声干扰，去掉检测头P3反倒能降低漏检率。

步骤S4、取检测头P₁、P₂分别进行分类分支与回归分支的卷积后沿通道部分进行连接，再将连接得到的特征图拉伸为二维，得到拉伸后的特征图F₁₁、F₂₁，将拉伸后的特征图F₁₁、F₂₁进行连接，得到最终的特征图F，根据特征图F计算损失并进行反向传播更新梯度，完成一次训练。

本实施例中的检测头P₁、P₂采用解耦头的方式，将分类分支与回归分支分开进行。首先在每一个检测头中用卷积将通道变为256，然后沿通道部分进行连接，再将连接得到的特征图拉伸为二维(沿W×H)，得到拉伸后的特征图F₁₁、F₂₁，然后将拉伸后的特征图F₁₁、F₂₁进行连接，得到最终的特征图F，计算各个部分损失并进行反向传播更新梯度，完成网络的训练。

本实施例中，经过检测头分类分支与回归分支的卷积后沿通道部分进行连接，产生的新特征图分别为两个{W×H×[(cls+reg+obj)]×N}大小的张量，其中W×H是特征图尺寸，cls是类别分类，reg是边框回归，包括预测得到的左上角点(x₁，y₁)和右下角点(x₂，y₂)，obj是目标性得分预测，N是预测锚框数量，本实施例中取1个。然后将W与H进行相乘，沿W×H将空间维度拉伸成二维，得到特征图F₁₁、F₂₁。然后把F₁₁、F₂₁进行连接得到最终的特征图F。最后再计算分类损失、目标得分损失和边框回归损失，进行反向传播来降低损失，同时更新网络参数，使网络达到最终收敛。

具体的，F₁₁、F₂₁分别进行分类分支与回归分支的卷积(分类器与回归器)后，每一个特征图都产生3个新的特征图F_cls∈{N×W×H×cls}、F_reg∈{N×W×H×4}、F_obj∈{N×W×H×1}，先沿通道部分进行连接，产生的新特征图分别为两个{N×W×H×[(cls+reg+obj)]}大小的张量，W、H∈{40，80}。然后把W与H进行相乘，把空间维度拉伸成二维得到两个{N×(cls+reg+obj)×(W×H)}大小的张量。然后沿W*H把F₁₁、F₂₁进行连接得到最终的特征图F∈{N×(cls+reg+obj)×8000}。

本实施例预测头采用解耦头的方式，考虑到分类任务与回归任务聚焦的区域不一致，因此将分类任务和回归任务分开做卷积操作，这样能起到更好的检测效果。并将每个位置的预测框数量从3个减少到1个，采用无锚框的方式，可以避免了正负样本不均衡的问题。

由于输出的特征值无法直接用于损失计算，需要先进行回归得到实际预测值。根据如下公式对特征图F做分类损失、目标得分损失和边框回归损失，分类损失和目标得分损失是BCELoss损失函数，边框回归损失采用新设计的AIoULoss损失函数，具体公式如下：

BCELoss＝-(ylog(p(x))+(1-y)log(1-p(x)))

需要说明的是，本实施例网格设置在最后得到的特征图上，是一种抽象概念，目的是方便边框回归计算，对于40*40和80*80的特征图，分别具有40×40和80×80个网格，关于将特征图划分为多个网格，是本领域比较成熟的技术，这里不再赘述。

1)计算分类损失和目标得分损失，使用二元交叉熵损失函数(Binary CrossEntropy Loss)计算：

BCELoss＝-(y log(p(x))+(1-y)log(1-p(x)))

其中y表示是否是目标，值是1或0，p(x)为预测目标性得分。

2)计算边框回归损失，其本质是比较预测框与真实框。本实施例的AIoULoss损失函数是在IoULoss损失函数的基础上进行改进的，IoU(Intersection of Union)为预测框与真实框的交并比，IoULoss的公式如下：

其中S1为真实框(ground-truth box)，S2为预测框(predicted box)，I(S1，S2)为真实框和预测框相交的面积，U(S1，S2)为真实框和预测框并的面积，IoULoss值越低表示预测越准确。

现有的IoULoss损失函数有一个弊端，即当真实框与预测框不相交时，无法衡量两者的相对位置。因此本实施例提出了AIoULoss损失函数，采用分段的形式来考虑问题。首先是当两者没有交集的时候，通过寻找真实框与预测框的最小外接矩形，Ac代表最小外接矩形与真实框、预测框差集的面积，Aⁱ代表最小外接矩形的面积。这样便可以克服无法衡量相对位置的缺陷。其次，当真实框与预测框两者相交后，我们考虑纵横比的因素，公式里的(w₁，h₁)，(w₂，h₂)分别代表真实框与预测框的长和宽，考虑纵横比的因素能实现更好的回归效果，让预测框回归更接近真实框。

由此得到预测值与真实值之间的损失，每个批次结束之前，进行反向传播来降低损失，同时更新网络参数。本实施例将步骤S2、S3和S4中的骨干网络CSPDarknet-53、特征融合网络NPANet、分类分支与回归分支作为一个整体称为细胞检测网络，在训练中不断更新细胞检测网络的网络参数，以便于在实际检测中得到精度较高的检测结果。

步骤S5、若未达到训练结束条件则继续利用训练数据集进行训练，否则保存最新的权重文件并结束训练。

本实施例在更新网络参数后开始下一批次的训练，直至所有批次的训练数据训练完毕，最后得到训练好的权重，并且所有更新的参数会保存在Outputs权重文件中。

步骤S6、在实际检测任务中，加载预先训练保存的权重文件，利用训练好的网络针对待检测的尿沉渣细胞图像输出检测结果。

本实施例将待检测图像同样放缩到640×640大小输入网络，通过CSPDarknet-53主干网络输出Dark3单元，Dark4单元，Dark5单元的特征图，将特征图F₁、F₂、F₃作为特征图

分别输入到特征融合网络NPANet中进行特征融合处理，得到检测头P₁、P₂、P₃；对检测头P₁、P₂进行分类回归后即得到预测值，包括类别cls，目标得分obj和边框回归reg，将三者结合绘制出相应的预测框，得到最终的一个预测结果。

本实施例在实际检测任务中还采用了SimOTA正负样本分配策略对预测框进行筛选。先初筛预测框，只保留那些预测框中心点在groundtruth内和在边长为5的正方形内。初筛完成后，再去计算预测框和groundtruth的边框Loss，用二分类交叉熵计算分类Loss，计算cost代价矩阵：

代表了每个真实框和每个特征点之间的代价关系。固定预测框与groundtruth损失最小的前k个作为正样本，其余作为负样本，这样避免了额外超参数。

本实施例的基于卷积神经网络的尿沉渣细胞检测方法，在原有YOLOX技术方案中改进得到了新的多尺度融合方式(NPANet)，同时设计了更优的边框回归损失函数AIoULoss，有效提升了尿沉渣中细胞检测精度。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于卷积神经网络的尿沉渣细胞检测方法，其特征在于，所述基于卷积神经网络的尿沉渣细胞检测方法，包括：

将特征图F₁、F₂、F₃作为特征图

2.如权利要求1所述的基于卷积神经网络的尿沉渣细胞检测方法，其特征在于，所述数据增强预处理包括Mosaic数据增强和MixUp数据增强。

3.如权利要求1所述的基于卷积神经网络的尿沉渣细胞检测方法，其特征在于，所述训练数据集中的样本图像先调整为640×640大小，再输入到骨干网络CSPDarknet-53中。

4.如权利要求1所述的基于卷积神经网络的尿沉渣细胞检测方法，其特征在于，所述训练数据集中的样本图像基于分批次原则输入到骨干网络CSPDarknet-53中。

5.如权利要求1所述的基于卷积神经网络的尿沉渣细胞检测方法，其特征在于，所述将特征图F₁、F₂、F₃作为特征图

将特征图F₁、F₂、F₃作为特征图

将

进行concat拼接得到特征图

继续将特征图

经过1×1卷积，上采样后与特征图

进行concat拼接得到特征图

将特征图

作为

经过3×3卷积后与之前的特征图

融合拼接输出

得到检测头P₂；将

经过3×3卷积后与之前的特征图

融合拼接得到检测头P₃。

6.如权利要求1所述的基于卷积神经网络的尿沉渣细胞检测方法，其特征在于，根据特征图F计算损失包括计算分类损失、目标得分损失和边框回归损失，所述分类损失和目标得分损失为BCELoss损失函数，边框回归损失为AIoULoss损失函数，所述AIoULoss损失函数的公式如下：

7.如权利要求1所述的基于卷积神经网络的尿沉渣细胞检测方法，其特征在于，所述利用训练好的网络针对待检测的尿沉渣细胞图像输出检测结果时，采用SimOTA正负样本分配策略筛选预测框。