CN114821189A

CN114821189A - 一种基于眼底图像的病灶图像分类与识别方法

Info

Publication number: CN114821189A
Application number: CN202210550803.9A
Authority: CN
Inventors: 周雨; 周贺凯; 袁慧; 郭恒睿; 刘姝杭; 曹恩苓
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-07-29

Abstract

本发明涉及一种基于眼底图像的病灶图像分类与识别方法，属于医学影像处理领域。该方法采用YOLOv5网络结构和目标框加权融合为框架，将采集得到的眼底图像经过Mosaic方法深化数据集，再结合深化后的图像数据集和损失函数训练，图像分类后进入目标框加权融合框架，最后根据分类概率输出不同眼底图像的二值图，分类输出病灶二值图。本发明采用提高了网络模型对病灶特征的提取能力。

Description

一种基于眼底图像的病灶图像分类与识别方法

技术领域

本发明属于医学影像处理领域，涉及一种基于眼底图像的病灶图像分类与识别方法。

背景技术

目前，眼底检查主要通过医生利用眼底检眼镜、眼底造影技术、眼底相机成像以及光的相互干涉技术等方式来进行人工检查。利用眼底相机能够清晰的采集到视网膜上主要组织结构。在眼底彩照图像中，血管在视网膜上分布最广且呈现为暗红色的网状结构，其和视觉神经纤维从视神经盘区域进入视网膜。视神经盘的特点是边界较为清晰、高亮的圆盘状结构。此外，如果眼底图像颜色较深可以被称为黄斑区，黄斑区呈椭圆形凹陷，其凹陷的部位称为中央凹。中央凹是人眼结构中最为敏感的区域，一旦该区域发生疾病，视力将受到较大影响。

现在的医疗环境下，产生了很多眼底图像检测方法和眼底图像血管分割技术。通过这些技术手段能得到很多精准且具备诊疗条件的眼底血管图像，从而进行更深入的病理分析。但是医生对眼底的检测可以不局限于人力本身，更需要智能识别算法进行辅助判断和治疗依据，通过这些血管图像以及相应的算法分析，能够获得较为准确的病灶判断，帮助医生确定病灶位置，分析病灶产生原因以及具体的病症判断。

在传统的病灶分析中，许多细小的病变组织不能被及时发现，尤其是在眼底检测的过程中。多数的眼底图像是以血管分割图像为基础，病灶往往藏在血管之中，此时仅考眼力发现是非常困难的。因此，亟需一种通过计算机图像视觉处理，以算法的形式，对产生的图像进行处理，能够较为精确的发现微小的病变区域。

发明内容

有鉴于此，本发明的目的在于提供一种基于眼底图像的病灶图像分类与识别方法，提升了网络模型对病灶的特殊部位以及微小变化区域的捕获能力。

为达到上述目的，本发明提供如下技术方案：

一种基于眼底图像的病灶图像分类与识别方法，包括以下步骤：

S1：采取Mosaic数据增强方法，对输入的四张眼底图像进行任意裁剪、缩放和排版组合；

S2：构建并训练YOLOv5网络，其中模块Backbone采用CSPDarknet作为图像中提取特征的主干，模块Neck使用路径集合网络生成特征金字塔网络对特征进行集合并传递给Head预测，模块Head生成用于对象检测的描框预测层；

S3：通过分类和回归后进入目标框加权融合(WBF)预测目标框，为每个预测边框设置不相同的权重，把每个设置的权重进行加权处理，作为融合的最终结果；

S4：根据分类概率输出不同眼底图像的二值图，分类输出病灶二值图。

进一步，步骤S1中，为了进一步加深数据集，提高网络训练速度，增强目标识别，采用在CutMix基础上改进为Mosaic数据增强方法，实现对4张图像进行任意剪切旋转缩放排版组合，其验证误差逐步下降，排除过度拟合情况，深化识别图像背景，缩短遍历图像时间。

进一步，步骤S2中，构建的YOLOv5网络，使用主层(Backbone)将输入进来的Mosaic数据增强图像进行提取特征信息，依靠跨阶段性部分网络(CSPNet)解决在Backbone中梯度信息重复的问题，且能够实现将梯度变化集成到特征图中，进而减少模块参数保证速度和精度；使用一串无序组合图像的网络层(Neck)，通过特征金字塔网络(FPN)对特征进行集合，有利于图像更简单得缩放比例；所述特征金字塔网络(FPN)采用路径集合网络(PANet)改进从下往上的路径，增加了对最底层的特征提取，提升了底层精确识别信号的利用率，从而提升图像识别的精度，并传递给预测层；使用预测层(Head)作为最终检测部分，根据数据集自适应得出适应的锚点框，将锚框应用于特征且产生特定的最终预测向量，即分类概率、置信度分数和边界框。

进一步，步骤S2中，YOLOv5网络中的损失函数包括边界框回归损失、分类损失和置信度损失函数；

边界框回归损失采用GIOU；GIOU计算公式如(1)，损失函数GIOU_loss公式如(2)

GIOU_loss＝1-GIOU (2)

其中，IOU为边界框回归损失交并比，A为预测框，B为目标图像框，C为A与B的最小闭合框；

分类损失和置信度损失采用二元交叉熵损失(BCE loss)，计算公式如(3)

公式(3)中等式右边第一项表示边界框回归损失，第二、三项表示置信度损失，第四项表示分类损失；

为判断第i个栅格第j个箱是否为这个图像目标，

为判断第i个栅格第j个箱是否不为这个图像目标，C_i为相对图像比例，p_i(c)为图像类别，B为目标图像框数，g(p_i(c))为该图像类别的边界框回归损失，s×s为损失参数。

进一步，步骤S3具体包括：通过得到的检测向量，分离对比分类概率进行对图像的分类，回归后进入目标框加权融合(WBF)预测目标框，目标框加权融合极大得杜绝保留得分大而舍弃得分小的预测边框问题，将模型的每个预测边框融入到一个单独列表(SL)中，按照获得到的置信度(C)由高到低进行排序，再分别定义两个空列表EL和ELF，空列表EL表示边界框簇，空列表ELF表示融入后的边界框，在EL里每一个表位可以包含一个边界框或一个框集合表示一个簇，ELF里每一个表位只能包含一个从EL中融入出来的边界框，查询单独列表

SL里的预测框，与ELF中的一个边界框与之匹配，并且将匹配的阈值(IOU)设置为0.5，在未

查找到的情况下，该SL内框将添加到EL和ELF中的末位；若是查找到的情况下，将EL和

ELF中的pos位与之对应，之后在所有的簇EL[pos]中的M个边界框重新计算ELF[pos]中边

界框的坐标和置信度值；当SL中所有的边界框都被处理完毕后，对ELF的置信度值再做一

次调整：当EL簇中边界框数目少时，则认为不多的边界框预测该融合框，也应该采取将融合框的置信度值降低。

本发明的有益效果在于：

(1)本发明将应用YOLOv5网络结构进行机器训练，并在训练前通过随机缩放、随机剪切、随机分部的方式进行合成以及拼接，对于小目标的检测效果提升是显著的。

(2)本发明使用加权融合算法通过得到的检测向量，分离对比分类概率进行对图像的分类，回归后进入目标框加权融合预测目标框，为每个预测边框设置不相同的权重，把每个设置的权重进行加权处理，作为融合的最终结果。这样的算法网络训练，得到的结果将更为准确，提升了网络模型对病灶的特殊部位以及微小变化区域的捕获能力。从而在临床上有非常广阔的应用前景。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于眼底图像的病灶图像分类与识别方法整体流程图；

图2为YOLOv5网络结构图；

图3为Mosaic数据增强方法示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图3，本发明提供的基于眼底图像的病灶图像分类与识别方法，第一步：将Mosaic数据增强的眼底图像输入YOLOv5网络进行训练，结合三类损失函数，训练模型进行对眼底图像分类；第二步：通过CSPNet提取特征信息，FPN和PAN对特征进行集合采取语义和定位特征，Head输出目标框应用于特征并产生最终的输出向量；第三步：使用目标框加权融合算法计算出最终融合结果，本发明总体流程见图1。

本发明所用的算法模型主要包括以下几个步骤：

S1：采取Mosaic数据增强方法，对输入的四张图任意裁剪、缩放和排版进行组合。

S2：通过YOLOv5网络结构进行训练，其模块Backbone采用CSPDarknet作为图像中提取特征的主干，模块Neck使用路径集合网络生成特征金字塔网络对特征进行集合并传递给Head预测，模块Head生成用于对象检测的描框预测层；

S4：根据分类概率输出不同眼底图像的二值图，分类出带有异样的二值图。

本发明的主要目标就是提升病灶识别的平均准确率。具体如下：

(1)Mosaic数据增强方法

YOLOv5中在训练阶段采用Mosaic数据增强方法。采用5折交叉验证策略对模型进行可靠评估。具体来说，首先将数据集随机划分成5个相同大小的子数据集，然后对象化5个相同的模型，每个模型依次在其中四个子数据集上训练，并在剩下的那个子数据集上进行评估。最后，平均值是通过5次结果的评估，得到算法总体性能。另外在每轮训练过程中，都统一采用Adam优化器对模型进行训练并加速反向传播过程，模型每次以20个批次进行训练，学习率设置为0.002。此方法进一步丰富了数据集，提高了网络训练速度。

Mosaic方法遍历每张图片后包含小目标的可能性增大，对小目标的识别增加。该算法是在CutMix的基础上改进而来的。当学习率较低时，没有CutMix，训练会出现过度拟合。CutMix对两张图片进行拼接，而Mosaic数据增强方法则对4张图任意缩放、裁剪和排版的方式组合，使得验证误差稳步下降，过度拟合显著减小。这种方法丰富了识别物体的背景，且在批量标准化计算的时候会一次性计算四张图片的数据，那么使用较少GPU即可达到较好的效果。由于任一张图都有不一样的比例缩小，即使一开始目标较大，但通过缩小后，在尺寸上将会更加接近小目标的大小，因此，该模型更有利于识别小目标。Mosaic方法利用随机缩放进行拼接，增加了小目标的数据，丰富了数据集，提高网络训练速度，具体效果如图3所示。

(2)YOLOv5模型训练

YOLOv5的模块Backbone主要作用是用于从输入图像中提取基本特征。CSPNet用于Backbone，从输入图像中提取特征丰富的信息。随着网络越来越深，处理时间大大增加。CSPNet解决了大规模骨干网络中梯度信息重复的问题，还把梯度变化集中体现在特征图中，进而减少了模型参数，保证了推理速度和精度。Neck通过特征金字塔网络对特征执行聚合，帮助模型更好地概括对象的缩放比例，特别是在识别具有不同尺寸和比例的相同物体时。Yolov5的Neck和Yolov4中一样，都采用FPN+PAN的结构。FNP自顶向下，向高层传输强语义特征，如此做整个金字塔得到增强，但是FNP仅增强语义的信息，不包括定位信息的传输。在FPN后面，新增了一个自底向上的金字塔被称为PAN，由于这一点的改进，对FPN补充，传递低层的强定位特征到高层，被称之为“双塔战术”。普通的卷积操作普遍应用于YOLOv4中的Neck结构，但是为了加强网络特征融合的能力，在YOLOv5中的Neck结构借鉴CSPnet设计的CSP2结构，将该能力增强。

YOLOv5的特征金字塔，使用PANet，它采用了一种新的特征金字塔网络结构，改进了自底向上的路径，增加了对底层特征的提取。PANet提高了低层精确识别信号的利用率，从而提高了物体识别的准确性。Head被用作最终检测部分。将锚框应用于特征并产生最终的输出向量，即分类概率、置信度分数和边界框。

在YOLOv5给出的四个版本中，改变卷积核的数量，实现不同网络深度和不同网络宽度之间的组合，达到精度与效率的平衡。随着卷积核数量在增多，网络深度及网络宽度不断增大，在训练后生成的权重文件也越来越大，这说明里面包含更多的参数，整个模型的精度也在进一步提高，当然识别速度随着模型的增大将变得越来越慢。

YOLOv5卷积神经网络的流程如图2。原眼底图像是大小为324×324像素的图片，为了更好地集成更多图像背景，在所述的S1中，采用Mosaic数据增强方法将四张图像经过随机缩放、裁剪和排版的方式任意组合在一起，换了一种方式提高底图规模，在进行底图规范化操作时同时也会对四张图像一并计算，从而提高YOLOv5训练效率，且在训练过程中避免非信息像素的出现，保留了区域突出的优势，能够集中关注在目标图像的非歧视性部分，通过要求从局部图像识别目标图像，对需裁剪区域加入了区别与本身的样品信息，对图像定位功能能力进一步提升，而不会出现图像拼接重叠现象的情况，突出分类的表现情况，保持训练时间上、训练结果上，代价不变的优势。

针对输入不同的眼底图像集，YOLOv5均会设置初始长宽的目标框，在YOLOv5网络训练中，初始的目标框会在基础上增添预测框，从而与现实框进行对比，反复计算二者间的误差再更新，迭代网络参数。在YOLOv5网络中，初始目标框的计算已经被集成到代码中，因此每当训练时，将自适应每次不同眼底图像集，并描绘最好的预测框，YOLOv5网络在进行图像目标检测时，将实现自适应图片缩放，减少信息繁杂而影响的推理速度。在YOLOv5的模块Backbone中，模块Backbone主要实现对输入的眼底图像进行基本特征提取，经过网络下采样(Focus结构)将原输入的眼底图像进行裁剪操作，转换一次特征图，然后通过单次32卷积核进行卷积操作，转换为特征度更高的特征图，在不丢失眼底图像信息的情况下，将宽度信息集(W)和高度信息集(H)集中到通道上，牺牲一部分计算时间来使特征提取完整，然后通过跨阶段局部网络(CSPNet)，把该网络的梯度信息变化全部综合到特征图上，减少模型参数，从而提高训练速度和精度；在YOLOv5的模块Neck中，模块Neck通过特征金字塔网络(FPN)对特征执行聚合，帮助眼底图像更好地概括目标的缩放比例在相同图像上的不同尺寸之间，再后面添加上从下到上的特征金字塔(PAN)，经过FPN和PAN的下采样和上采样，相互交换语义特征和定位特征，充分分割眼底图像的特征；在YOLOv5的模块Head中，模块Head即最终检测部分，将目标框应用于特征并产生最终的输出向量，分类概率、置信度分数和目标边界框，在YOLO底层(YOLO Layer)将生成3种不同特征图大小(18×18、36×36、72×72)用来实现多尺度预测，使网络能够处理小、中、大尺度图像。

在YOLOv5网络中的损失函数分别由边界框回归损失、分类损失和置信度损失三部分组成，边界框回归损失交并比IOU，IOU为交集面积和并集面积之比，公式如(1)：

其中，B_gt表示目标图像的实际框(GT)，B_p表示预测框，二者计算的IOU表示判断预测的目标图像框是否满足条件。

YOLOv5算法的边界框回归的损失函数采用GIOU而不是IOU，GIOU方式克服IOU在两个框无交集情况下梯度无响应和无训练的缺陷，GIOU计算公式如(2)，损失函数GIOU_loss公式如(3)

GIOU_loss＝1-GIOU (3)

其中，A为预测框，B为目标图像框，C为A与B的最小闭合框。

YOLOv5算法的分类损失和置信度损失采用二元交叉熵损失(BCE loss)。损失函数如下(4)，完整的损失函数有边界框回归损失(第一项)，置信度损失(第二、三项)和分类损失(第四项)三部分组成。

其中，

为判断第i个栅格第j个箱是否为这个图像目标，

为判断第i个栅格第j个箱是否不为这个图像目标，C_i为相对图像比例，p_i(c)为图像类别。

(3)目标框加权融合算法

目标框加权融合的主要理论是给每个预测的边界框设置不同的权重，然后将加权融合计算出的结果作为最终融合的结果。目标框加权融合大大的避免了非极大抑制仅就保留得分最大的预测边界框而丢弃得分小的预测边界框的问题。

目标框加权融合具体步骤如下：首先将模型的每个预测边界框加入到一个单独的列表SL中，按照置信度C从高到低进行排序。再分别声明空列表EL和ELF，列表EL代表边界框簇，列表ELF代表融合后的边界框。列表EL中的每个位置，可以包含一个边界框或者一个边界框集合，形成一个簇。列表ELF中每个位置只包含一个边界框，从相应的列表EL中的簇中融合出来的边界框。然后遍历列表SL中的预测框，尝试找到列表ELF中的一个匹配边界框，匹配的定义为一个边界框在IOU大于阈值的情况下存在很大的重叠，实验中阈值设置为0.5。

如果未找到匹配，则将其作为一个新的实体加入到列表EL和ELF的最后，继续对列表SL中下一个边界框进行处理；如果找到匹配，则将该框添加到列表EL中与列表ELF中匹配框对应的位置pos处。最后使用所有的在簇EL[pos]中的T个边界框重新计算ELF[pos]中边界框的坐标和置信度得分，置信度得分如公式(5)所示，边界框的坐标公式如(6)和(7)所示。

当SL中的所有边界框都被处理后，根据置信度得分会对ELF列表做一次调整：认为较少的边界框预测该融合框的情况是当簇中边界框数量较少的时候，即该融合框的置信度应该降低，如公式(8)所示。

(4)精确率和召回率

在眼底图像分类病灶识别领域，评判一个模型的好坏，需要一些性能度量指标，其中最常用的是精准率(Precision)和回召率(Recall)，精准率和回召率是对机器学习中用来衡量分类器精确程度的度量，精确率表示被测的正例样本中真正是正例样本的比例；回召率也称为查全率，表示被预测的正例样品中正确预测的占比。

精确率(Precision，P)与召回率(Recall，R)是一对机器学习中用来衡量分类器精确程度的度量。精确率表示被测的正例样本中真正是正例样本的比例，以及该所表示的公式如(9)所示。

召回率(查全率)表示被测为正例样品中测得正确的占所有实际为正样品比例，以及该所表示的公式如(10)所示。

其中，TP表示样品为正且预测也为正，FP表示样品为负但预测为正，TN表示样品为负且预测也为负，FN表示样品为正但预测为负。将分类正确且边界框回归损失交并比(IOU)大于阈值的样品记为TP，同理求出FP、FN、TN并根据所求TP、FP、FN、TN即可求出在该阈值下的精确率和召回率。在公式上精确率和召回率二者区别在于其分母·上的FN与FP区别。可以利用一个横、纵坐标分别为召回率和精确率的PR图来表示。

为了全面衡量算法的综合性能，以平均精度(MAP)作为算法的评价指标。MAP作为评价模型性能的指标，常被用于在目标检测领域，MAP一般是从0至1的一个范围小数；MAP是计算所有类型的PR曲线下的面积平均值，在所有类型中，AP是计算其中某一个类型的PR曲线下面积。目标检测一般会预设一个阈值(如0.3)，在设定的阈值下，求得所有预测框和现实框的IOU，并按IOU从大到小得排列所有的预测结果。改变阈值(如0.5)，再次执行上述的步骤，获取另外一组精确率和召回率，最后绘制出PR图，MAP即是PR曲线下方的面积。通常情况下，将0，0.1，0.2，…，0.9，1.0这11个值作为IOU预定义的阈值，求出每一个P和R，则得到MAP如式(11)所示。

MAP是AP的平均值，一般情况下，当眼底图像集有且仅有一类样品时，MAP与AP的含义相同；当眼底图像集含有多样品时，MAP即是每个样品AP的平均值。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于眼底图像的病灶图像分类与识别方法，其特征在于，该方法包括以下步骤：

S1：采取Mosaic数据增强方法，对输入的眼底图像进行任意裁剪、缩放和排版组合；

S3：通过分类和回归后进入目标框加权融合预测目标框，为每个预测边框设置不相同的权重，把每个设置的权重进行加权处理，作为融合的最终结果；

2.根据权利要求1所述的病灶图像分类与识别方法，其特征在于，步骤S2中，构建的YOLOv5网络，使用主层Backbone将输入进来的Mosaic数据增强图像进行提取特征信息，依靠跨阶段性部分网络CSPNet将梯度变化集成到特征图中；使用一串无序组合图像的网络层，通过特征金字塔网络对特征进行集合；所述特征金字塔网络FPN采用路径集合网络对最底层的特征提取，并传递给预测层；使用预测层Head作为最终检测部分，根据数据集自适应得出适应的锚点框，将锚框应用于特征且产生特定的最终预测向量，即分类概率、置信度分数和边界框。

3.根据权利要求2所述的病灶图像分类与识别方法，其特征在于，步骤S2中，YOLOv5网络中的损失函数包括边界框回归损失、分类损失和置信度损失函数；

边界框回归损失采用GIOU；GIOU计算公式如(1)，损失函数GIOU_loss公式如(2)：

GIOU_loss＝1-GIOU (2)

分类损失和置信度损失采用二元交叉熵损失，计算公式如(3)：

为判断第i个栅格第j个箱是否为这个图像目标，

为判断第i个栅格第j个箱是否不为这个图像目标，C_i为相对图像比例，p_i(c)为图像类别，B为目标图像框数，g(p_i(c))为图像类别的边界框回归损失，s×s为损失参数。

4.根据权利要求1所述的病灶图像分类与识别方法，其特征在于，步骤S3具体包括：通过得到的检测向量，分离对比分类概率进行对图像的分类，回归后进入目标框加权融合预测目标框，将模型的每个预测边框融入到一个单独列表SL中，按照获得到的置信度C由高到低进行排序，再分别定义两个空列表EL和ELF，空列表EL表示边界框簇，空列表ELF表示融入后的边界框，在EL里每一个表位能包含一个边界框或一个框集合表示一个簇，ELF里每一个表位只能包含一个从EL中融入出来的边界框，查询单独列表SL里的预测框，与ELF中的一个边界框与之匹配，并且设置匹配的阈值IOU，在未查找到的情况下，SL内框将添加到EL和ELF中的末位；若是查找到的情况下，将EL和ELF中的pos位与之对应，之后在所有的簇EL[pos]中的M个边界框重新计算ELF[pos]中边界框的坐标和置信度值；当SL中所有的边界框都被处理完毕后，对ELF的置信度值再做一次调整：当EL簇中边界框数目少时，则认为不多的边界框预测融合框，也应该采取将融合框的置信度值降低。