CN110786824A

CN110786824A - 基于边界框修正网络的粗标注眼底照出血病变检测方法及系统

Info

Publication number: CN110786824A
Application number: CN201911215462.4A
Authority: CN
Inventors: 唐晓颖; 林立; 黄义劲; 王凯; 袁进
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-02-14
Anticipated expiration: 2039-12-02
Also published as: CN110786824B

Abstract

本发明公开一种基于边界框修正网络的粗标注眼底照出血病变检测方法，其包括步骤：眼底照预处理，用于增强眼底照对比度和校正眼底照亮度使图片整体明暗均匀；边界框标注修正，采用能自动修正粗略边界框为更精确边界框的边界框修正网络；目标检测网络，采用带锚框指导机制(Guided Anchoring)和标签平滑机制(Label Smoothing)的Faster‑rcnn网络检测出血区域。本发明设计的边界框修正网络能有效的修正人工标注的粗略范围的边界框，可以显著地将目标检测网络与图片标注解耦，很大程度上减轻模型对标注质量(精确度)的要求，使得深度网络能在粗标注的基础上能学习得到一个好的目标检测模型，从而降低医生在数据标注上花费的时间和精力。

Description

基于边界框修正网络的粗标注眼底照出血病变检测方法及系统

技术领域

本发明涉及眼底照标注领域，更具体地，涉及一种基于边界框修正网络的粗标注眼底照出血病变检测方法及系统。

背景技术

随着社会的发展、人们生活水平的提高和饮食习惯的改变，糖尿病已经逐渐成为了全世界共同面对的一大健康问题。糖尿病往往伴随着多项并发症，糖尿病视网膜病变(Diabetic retinopathy，DR)是其主要的并发症之一，是目前全世界范围内成年人群致盲的主要原因，其患病率随患病时间和年龄的增长而升高，给人类健康和社会发展带来了沉重的负担，已经成为严重的全球性问题。如果能够得到及时准确的诊断，并加以治疗，就可以有效控制病情的发展。出血是DR的早期症状之一，多位于毛细血管静脉端、视网膜深层，呈红色或暗红色，为点状或不规则片状。对其进行准确检测，对于实现DR的早期诊断、自动筛查、有效评估和抑制病情发展等方面都具有重要意义。

糖尿病视网膜病变(DR)：糖尿病性微血管病变中最重要的表现，是一种具有特异性改变的眼底病变，是糖尿病的严重并发证之一。糖尿病视网膜病变的诊断手段之一为通过辨识眼底照中是否存在微动脉瘤、出血等病变区域。

眼底照：眼底照是眼科常用的检查手段之一。眼底照所检查的是整个视网膜的形态学改变。其原理就是用一种特制的照相机记录眼底镜下所看到的景象。眼底照能够观察到视网膜、视盘、黄斑区、视网膜血管的形态，以及视网膜上有无出血、渗出、血管瘤、视网膜变性区、视网膜裂孔、新生血管、萎缩斑、色素紊乱等改变。如图1即为一带多种病变的眼底照，眼底照通过眼底照相机拍摄得到。

眼底出血检测：即将眼底照上的出血区域检测出来，并采用边界框的形式将每一处病变框出。

边界框修正网络：其作用是能够对粗略范围的粗标注边界框进行修正，输出一个更加贴近病变外围的边界框，整体上是达到是边界框更加精准的作用。

粗标注边界框：指其内部包含病变但并不精准贴合病变范围的边界框。

现有技术中多采用基于模板的方法检测糖尿病视网膜病变；有多模板匹配法和自适应模板匹配法，这些方法通过出血区域的灰度及形状特性设计多个病变相似模板(如论文：Weiwei Gao,Jianxin Shen,Yuliang Wang,Chun Liang,and Jing Zuo,“Algorithm oflocally adaptive region growing based on multitemplate matching applied toautomated detection of hemorrhages,”Spectroscopy and Spectral Analysis,vol.33,no.2,pp.448–453,2013.)，而后采用匹配滤波的方法对图片进行卷积，取出卷积后数值较大的区域判断为出血区域，从而达到自动检测出血的目的。

自适应模板法则通过自适应匹配滤波的方法(如论文：Jang Pyo Bae,Kwang GiKim,Ho Chul Kang,Chang Bu Jeong,Kyu Hyung Park,and Jeong-Min Hwang,“A studyon hemorrhage detection using hybrid method in fundus images,”Journal ofdigital imaging,vol.24,no.3,pp.394–404,2011.)，自适应生成模板，有效缓解了人工设计模板的局限与不便。但由于出血区域的尺寸与形状往往多变且不规则，所以模板匹配的方法并不能完全匹配病变区域，在检测精度上有待提升。

基于特征提取与分类器的方法往往由两部分组成(参考论文：Muhammad NadeemAshraf,Zulfiqar Habib,and Muhammad Hussain,“Texture feature analysis ofdigital fundus images for early detection of diabetic retinopathy,”in201411th International Conference on Computer Graphics,Imaging andVisualization.IEEE,2014,pp.57–62.)，人工设计出血区域的多维特征(如形状特征、尺寸特征、颜色特征、灰度特征、纹理特征、频域特征等等)，而后通过机器学习算法(如支持向量机SVM、随机森林RF、XGBoost等)，这些方法性能往往好于基于模板的病变检测方法，但由于使用人为设计的特征，存在着一定程度的表达出血病变的局限，且其迁移能力和泛化性能较弱。

随着计算机算力的发展，深度学习的方法重新开始得到研究人员的重视并被广泛应用到计算机视觉的方方面面，深度学习的方法能够自动学习病变区域从而提取有效特征并自动进行检测，从而能够实现端到端的病变自动检测。在眼底出血方面，Grinsven等人(论文：Mark JJPVan Grinsven,Bram van Ginneken,Carel B Hoyng,Thomas Theelen,andClara I S′anchez,“Fast convolutional neural network training using selectivedata sampling:Application to hemorrhage detection in color fundus images,”IEEE transactions on medical imaging,vol.35,no.5,pp.1273–1284,2016.)设计了一个9层的卷积神经网络(CNN)对眼底照中的出血进行分割检测，他们利用的是公开数据集上筛选得到的高质量眼底照及其像素级分割标注(在公开数据集的粗标注基础上进一步精细化标注)。对于深度学习模型，数据的数量及标注的质量对其训练的效果起决定性作用。然而，医学图像由于其具有获取难度高、模态多样、标注难度高且耗时长等特点，且医学图像标注如眼底图像中的病变区域具有个体差异性(例如由于医生、专家等的精神状态、经验等差异)，标注质量高的医学图像往往数量较少。

发明内容

为了解决上述现有技术的不足，本发明首先提出一种基于边界框修正网络的粗标注眼底照出血病变检测方法，能有效解决数据标注精确度和深度学习模型训练效果之间的矛盾，使得医护人员可以采用相对简单且高效的形式进行数据标注，同时又不对深度学习模型的训练造成负面的影响，从而达到在粗标注的前提下尽可能精确地自动检测出血病变。

本发明还提出一种基于边界框修正网络的粗标注眼底照出血病变检测系统。

为了实现上述目的，本发明技术方案为：

一种基于边界框修正网络的粗标注眼底照出血病变检测方法，其特征在于，包括步骤：

S1、眼底照预处理，用于增强眼底照对比度和校正眼底照亮度使图片整体明暗均匀；

S2、边界框标注修正，采用能自动修正粗略边界框为更精确边界框的边界框修正网络；

S3、目标检测网络，采用带锚框指导机制(Guided Anchoring)和标签平滑机制(Label Smoothing)的Faster-rcnn网络检测出血区域。

优选的，所述方法使用的数据集包括IDRiD数据集和私有数据集，其中IDRiD数据集用于生成训练和测试边界框修正网络；私有数据集用于整体出血检测框架的训练与测试；所述私有数据集采用类似DiaretDB1的粗标注方式。

优选的，所述IDRiD数据集包括80张眼底照，是采用型号为Kowa VX-10alpha的眼底照相机拍摄，分辨率为4288×2828，后者则由TOPCON-50DX眼底照相机采集，分辨率为2880×2136，共590张。

优选的，所述预处理的方式为：用于训练边界框修正网络或者整体检测网络的眼底照都会首先经过CLAHE和AGCWD两种预处理，CLAHE预处理增强了眼底照对比度，突出病变区域与背景区域之间的差异，AGCWD预处理使眼底照整体亮度更为均匀，能有效校正一些过亮或者过暗的眼底照。

优选的，利用IDRiD数据集生成一个特定数据集S＝{(A_n,B_n),n＝1,…,N},其中A_n表示第n处出血区域的粗标注边界框，B_n表示对应的精确边界框；

已知IDRiD数据集的标注为每一个出血病变区域的掩模，因此根据每一处掩模得到精确边界框；然后根据每一个精确边界框，按照10％到50％的长度随机扩展其长或者宽并在一定范围内随机移动，且确保扩展和平移后的边界框范围内包含至少一处出血病变，用这种方式来模拟医生标注的粗略边界框。

优选的，每一个病变切片都按照缩放其长边到128像素并在空缺区域补零到切片最终尺寸为128×128的切片。

优选的，整个边界框修正网络的修正过程为：边界框网修正络由1个7×7卷积层和8个3×3卷积层组成，每个卷积层后依次是批归一化层、线性整流函数(ReLU)层，网络中的池化层使用最大池化，网络的最后几层为全局平均池化(GAP)层、全连接层和sigmoid层；边界框修正网络的输入是单一切片，输出是修正后的边界框，由四个值表示，边界框的中心坐标及框的长和宽；

第一个卷积层的卷积核数目是32，在每个最大池化层之后，卷积层的卷积核数目翻一倍；卷积层之间带有跳跃连接，使得深层卷积层能保留浅层所获得的浅层语义信息；

在网络中加入平均池化和1×1卷积以维持跳跃连接前后的特征图通道数目一致；训练完的边界框修正网络在整体出血检测框架中负责将每一个粗标注切片(根据私有数据集中的病变外围圆外接矩形切片)作为输入，输出的修正边界框标注作为下一环节检测网络的训练集标注。

优选的，在边界框修正网络中，使用了基于IoU改进的GIoUloss作为损失函数，其公式表示如下：

L_GIoU＝1-GIoU (2)

其中C是A和B两个边界框并集的最小外接框；

同时，还使用带有热启动机制(WarmUp)的Adam优化器以及余弦下降学习率，初始学习率为0.01且批数目(batch size)为64。

本发明还提出一种基于边界框修正网络的粗标注眼底照出血病变检测系统，包括：

眼底照预处理模块，用于增强眼底照对比度和校正眼底照亮度使图片整体明暗均匀；

边界框标注修正模块，采用能自动修正粗略边界框为更精确边界框的边界框修正网络；

目标检测网络模块，采用带锚框指导机制(Guided Anchoring)和标签平滑机制(Label Smoothing)的Faster-rcnn网络检测出血区域。

与现有技术相比，本发明的有益效果是：

本发明设计的检测方法是一种精确、新颖的从粗标注眼底照中自动检测出血病变的方法。所设计的边界框修正网络能有效的修正人工标注的粗略范围的边界框，可以显著地将目标检测网络与图片标注解耦，很大程度上减轻模型对标注质量(精确度)的要求，使得深度网络能在粗标注的基础上能学习得到一个好的目标检测模型，从而降低医生在数据标注上花费的时间和精力。此外，一些针对眼底照对比度及亮度上的增强语出理以及一些针对目标检测网络的提升机制在本发明的验证试验中得到验证并融合进本发明的整体框架当中。本发明的整体出血检测效果在中山眼科国家重点实验室提供的较为大型的私有数据集上得到验证，效果要优于很多目前先进的目标检测模型。

附图说明

图1为糖尿病视网膜病变的彩色眼底照，带各种病灶，如出血、微动脉瘤、硬性渗出、软性渗出示意图。

图2为本发明相关数据集(眼底照及对应的出血标注)图。

图3为本发明整体技术框架图；左半部分为边界框修正网络的训练流程，右半部分为对粗标注数据的出血区域检测过程。

图4为预处理效果典型例子图；4(a)为眼底照原图与经过CLAHE处理后的眼底照图，4(b)为眼底照原图与经过AGCWD处理后的眼底照图。

图5为边界框修正网络的结构及修正流程示意图。

图6为边界框修正网络修正效果典例示意图。

图7为本发明检测效果典例示意图。7(a)、7(b)分别为同一结构的Faster-rcnn网络在有、无边界框修正网络进行修正的情况下分别训练得到的模型在同一图片上的检测结果示意图，7(c)、7(d)分别为医生标注图和本发明的自动检测效果示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步描述。

如图2，目前含有眼底出血病变标注的公开眼底照数据集只有两个，一个是2018年发布的IDRiD数据集，对眼底的四种常见病变进行了像素级别的掩模(mask)标注，其中含有出血标注的图片仅有80张；另一个含有出血标注的眼底数据集是DiaretDB1，该数据集由四位眼科专家分别标注并进行标注区域的融合(越亮的区域表述越多位专家认为是病变区域且给予了较高的置信度)，其中含有出血的有52张。对比可知，IDRiD数据集的标注方式虽更为精确，但这种标注方式耗费的时间数倍于使用如DiaretDB1数据集的圈画大致病变区域的形式，对于眼科医生来说，第二种标注更为高效且实际。

本发明整体方法的训练及测试使用的是私有数据集(由中山眼科国家重点实验室提供，共有590张，采用类似DiaretDB1的粗标注方式)。本发明的初衷及目的就是解决数据标注精确度和深度学习模型训练效果之间的矛盾，使得医护人员可以采用相对简单且高效的形式进行数据标注，同时又不对深度学习模型的训练造成负面的影响，从而达到在粗标注的前提下尽可能精确地自动检测出血病变。

本发明的技术框架如图3。设计了一种从粗标注的糖尿病视网膜病变眼底照中自动检测出血区域的算法框架。主要包含三个步骤：眼底照预处理、边界框标注修正以及目标检测网络三部分。其中预处理部分采用了限制对比度自适应直方图均衡(CLAHE)和权重函数重分布的自适应伽马校正方法(ACGWD)，分别用于增强眼底照对比度和校正眼底照亮度使图片整体明暗均匀。边界框修正部分，本实施例设计了一个能自动修正粗略边界框为更精确边界框的边界框修正网络(Bounding Box Refining network,BBR-net)。目标检测网络部分我们采用带锚框指导机制(Guided Anchoring)和标签平滑机制(Label Smoothing)的Faster-rcnn网络，该网络能缓解标注中错标及漏标的情况并精确地检测出血区域。

数据集：IDRiD数据集在本发明中用于生成训练和测试边界框修正网络的数据集，私有数据集则用于整体出血检测框架的训练与测试。前者使用型号为Kowa VX-10alpha的眼底照相机拍摄，分辨率为4288×2828，后者则由TOPCON-50DX眼底照相机采集，分辨率为2880×2136。前者带出血病变的眼底照张数为80张，后者为590张。

预处理：用于训练边界框修正网络或者整体检测网络的眼底照都会首先经过CLAHE和AGCWD两种预处理，前者增强了眼底照对比度，突出病变区域与背景区域之间的差异，后者使眼底照整体亮度更为均匀，能有效校正一些过亮或者过暗的眼底照。其效果如下图4。

边界框修正网络：首先，本发明利用IDRiD数据集生成一个特定数据集S＝{(A_n,B_n),n＝1,…,N},其中A_n表示第n处出血区域的粗标注边界框，B_n表示对应的精确边界框。由图2可知，IDRiD数据集的标注为每一个出血病变区域的掩模，因此根据每一处掩模可以得到精确的边界框(取外接矩形)。然后根据每一个精确边界框，按照10％到50％的长度随机扩展其长或者宽并在一定范围内随机移动，并且确保扩展和平移后的边界框范围内包含至少一处出血病变，用这种方式来模拟医生标注的粗略边界框。对于每一个B_n，按照上述操作生成4对(A_n,B_n)粗标注边界框、精确边界框。由此，在IDRiD数据集的80张有效眼底照中总共生成了7600个边界框对，其中6164对作为训练集，1436对作为测试集。需要注意的一个细节是为了使得边界框修正网络的输入图片尺寸一致，每一个病变切片都按照缩放其长边到128像素并在空缺区域补零到切片最终尺寸为128×128的切片。图5是整个边界框修正网络的结构及修正流程。

边界框网修正络由1个7×7卷积层和8个3×3卷积层组成，每个卷积层后依次是批归一化层、线性整流函数(ReLU)层。网络中的池化层使用最大池化，网络的最后几层为全局平均池化(GAP)层、全连接层和sigmoid层。边界框修正网络的输入是单一切片，输出是修正后的边界框(四个值表示，边界框的中心坐标及框的长和宽)。第一个卷积层的卷积核数目是32，在每个最大池化层之后，卷积层的卷积核数目翻一倍。卷积层之间带有跳跃连接，使得深层卷积层能保留浅层所获得的位置信息等浅层语义信息。同时，在网络中加入平均池化和1×1卷积以维持跳跃连接前后的特征图通道数目一致。训练完的边界框修正网络在整体出血检测框架中负责将每一个粗标注切片(根据私有数据集中的病变外围圆外接矩形切片)作为输入，输出的修正边界框标注作为下一环节检测网络的训练集标注。

在目标检测中，常用的损失函数是IoU loss，但是使用IoU有两个局限：(1)当边界框之间没有相交重叠，反向传播时候将没有梯度值；(2)IoU无法区分边界框之间以何种方式相交重叠。因此，在边界框修正网络中，使用了基于IoU改进的GIoU loss作为损失函数。GIoU可以有效地解决IoU存在的问题，其公式表示如下：

L_GIoU＝1-GIoU (2)

其中C是A和B两个边界框并集的最小外接框。此外，使用带有热启动机制(WarmUp)的Adam优化器以及余弦下降学习率(Cosine learning rate decay)，初始学习率为0.01且批数目(batch size)为64。

目标检测网络：本发明使用的是带锚框指导机制(Guided Anchoring)和标签平滑机制(Label Smoothing)的Faster-rcnn网络，网络的主干使用的是ResNeXt101网络结构。同时，本实施例使用了迁移学习，将在COCO2017数据集上训练完成的模型迁移到本实施例的模型中作为初始化参数。优化器使用的是带0.9动量值的SGD优化器，且在损失函数上使用了0.0001的权值衰减(weight decay)。

其中，锚框指导机制利用语义特征来指导锚框(anchor)的生成，是一种新的anchor策略，可以预测任意形状anchor，且使用此机制可以有效减少候选anchor，提高召回率(recall)，从而达到提高目标检测网络精度的目的。

标签平滑机制则用于缓解数据集中难免存在的错误标注及漏标的情况，具体操作是将损失函数中的目标区域(出血)和背景区域的值分别从1减少到0.9和从0增加到0.1。

本发明技术方案带来的改进效果有：

(1)边界框修正网络的性能表现

如前所述，在边界框修正网络部分，有6164张出血区域切片作为训练集，1434张作为测试集。为了量化网络修正标签的能力，此部分使用IoU进行衡量，即网络修正后的边界框与由IDRiD数据集得到的精确边界框之间的重叠度。同时对比了使用MSE loss、IoU loss和GIoU loss作为边界框修正网络的损失函数的性能差异，结果如表1所示。显然，使用GIoUloss的效果要好于其余两种损失函数。图6展示了一些边界框修正网络的修正例子。

表1边界框修正网络性能实验结果(2)整体算法出血检测效果

在本部分使用的是私有数据集进行训练和测试验证，如前所述，私有数据集共有590张，将其分成500张的训练集及90张的测试集。需要注意的是，为了能在测试集上得到准确的性能测试结果，测试集的数据经过医生人工修正，使其带有更为精确的边界框标注(作为金标准)。在目标检测性能上，本实施例使用常用的平均查准率(mAP)作为衡量指标，做了两组实验进行验证，实验一中对比验证了本算法框架各个环节组件对整体框架的性能提升，本实验是在修正框网络修正完成的训练集上进行验证，结果如表2所示；实验二对比了不同检测方法直接在粗标注数据集上的性能差异，实验结果如表3所示，可以看出，本发明所设计的整体出血检测框架的性能表现最优，得益于其中的边界框修正网络能有效修正粗略边界框标注，使用了有效的预处理和一些增益的目标检测机制，使得整体框架检测性能有了很大的提升，甚至可以自动检测出一些易被眼科医生遗漏标注的微弱模糊的病变区域。一些整体检测效果及局部放大图如图7所示。

表2本发明各个环节步骤对整体检测性能提升的量化指标

表3不同检测算法在出血检测上的性能体现，其中mAP@.3、mAP@.4、mAP@.5值得是IoU阈值分别为0.3、0.4、0.5时候的mAP

以上所述的本发明的实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.一种基于边界框修正网络的粗标注眼底照出血病变检测方法，其特征在于，包括步骤：

S3、目标检测网络，采用带锚框指导机制(Guided Anchoring)和标签平滑机制(LabelSmoothing)的Faster-rcnn网络检测出血区域。

2.根据权利要求1所述的方法，其特征在于，所述方法使用的数据集包括IDRiD数据集和私有数据集，其中IDRiD数据集用于生成训练和测试边界框修正网络；私有数据集用于整体出血检测框架的训练与测试；所述私有数据集采用类似DiaretDB1的粗标注方式。

3.根据权利要求2所述的方法，其特征在于，所述IDRiD数据集包括80张眼底照，是采用型号为Kowa VX-10alpha的眼底照相机拍摄，分辨率为4288×2828，后者则由TOPCON-50DX眼底照相机采集，分辨率为2880×2136，共590张。

4.根据权利要求3所述的方法，其特征在于，所述预处理的方式为：用于训练边界框修正网络或者整体检测网络的眼底照都会首先经过CLAHE和AGCWD两种预处理，CLAHE预处理增强了眼底照对比度，突出病变区域与背景区域之间的差异，AGCWD预处理使眼底照整体亮度更为均匀，能有效校正一些过亮或者过暗的眼底照。

5.根据权利要求4所述的方法，其特征在于，利用IDRiD数据集生成一个特定数据集S＝{(A_n,B_n),n＝1,…,N},其中A_n表示第n处出血区域的粗标注边界框，B_n表示对应的精确边界框；

6.根据权利要求5所述的方法，其特征在于，每一个病变切片都按照缩放其长边到128像素并在空缺区域补零到切片最终尺寸为128×128的切片。

7.根据权利要求6所述的方法，其特征在于，整个边界框修正网络的修正过程为：边界框网修正络由1个7×7卷积层和8个3×3卷积层组成，每个卷积层后依次是批归一化层、线性整流函数(ReLU)层，网络中的池化层使用最大池化，网络的最后几层为全局平均池化(GAP)层、全连接层和sigmoid层；边界框修正网络的输入是单一切片，输出是修正后的边界框，由四个值表示，边界框的中心坐标及框的长和宽；

在网络中加入平均池化和1×1卷积以维持跳跃连接前后的特征图通道数目一致；训练完的边界框修正网络在整体出血检测框架中负责将每一个粗标注切片作为输入，输出的修正边界框标注作为下一环节检测网络的训练集标注。

8.根据权利要求7所述的方法，其特征在于，在边界框修正网络中，使用了基于IoU改进的GIoU loss作为损失函数，其公式表示如下：

L_GIoU＝1-GIoU (2)

其中C是A和B两个边界框并集的最小外接框；

9.一种基于边界框修正网络的粗标注眼底照出血病变检测系统，其特征在于，包括：

目标检测网络模块，采用带锚框指导机制(Guided Anchoring)和标签平滑机制(LabelSmoothing)的Faster-rcnn网络检测出血区域。