CN115601751B - 一种基于领域泛化的眼底图像语义分割方法 - Google Patents

一种基于领域泛化的眼底图像语义分割方法 Download PDF

Info

Publication number
CN115601751B
CN115601751B CN202211349791.XA CN202211349791A CN115601751B CN 115601751 B CN115601751 B CN 115601751B CN 202211349791 A CN202211349791 A CN 202211349791A CN 115601751 B CN115601751 B CN 115601751B
Authority
CN
China
Prior art keywords
feature
module
fundus image
matrix
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211349791.XA
Other languages
English (en)
Other versions
CN115601751A (zh
Inventor
陈微
罗馨
李晨
何玉麟
姚泽欢
汤明鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202211349791.XA priority Critical patent/CN115601751B/zh
Publication of CN115601751A publication Critical patent/CN115601751A/zh
Application granted granted Critical
Publication of CN115601751B publication Critical patent/CN115601751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Eye Examination Apparatus (AREA)

Abstract

本发明公开了一种基于领域泛化的眼底图像语义分割方法,技术方案是构建由输入内容增强模块、特征提取模块、特征风格随机化模块、特征解码模块、类别划分模块构成的眼底图像语义分割系统。先对眼底图像语义分割系统进行训练,输入内容增强模块对眼底图像增强并合成一张眼底图像;特征提取模块提取眼底图像的特征矩阵;特征风格随机化模块对特征矩阵进行特征风格随机化。特征解码模块对风格随机化的特征矩阵进行空间空洞卷积,得到预测矩阵;类别划分模块根据预测矩阵得到眼底图像语义分割结果。训练过程中进行验证。训练后的眼底图像语义分割系统对用户输入的眼底图像进行分割。本发明解决了眼底图像语义分割方法泛化性差、Dice数值低的问题。

Description

一种基于领域泛化的眼底图像语义分割方法
技术领域
本发明涉及计算机视觉和医学图像处理领域,特指一种基于领域泛化的眼底图像语义分割方法。
背景技术
医学图像语义分割,英文名称Medical Image Semantic Segmentation,是指对医学图像中的每一个像素进行类别指派,常见的医学图像语义分割包括器官分割、病变区域分割等。眼底图像语义分割,英文名称Fundus Image Semantic Segmentation,是一种常见的医学图像语义分割任务,该任务对采集的眼底图像(Fundus Image)进行处理和分析,将图像分割为视盘(OpticDisc)和视杯(OpticCup)。在临床诊断等应用场景下,医学图像语义分割结果的准确度与应用的任务执行效果直接相关,在眼底图像医学分割中,能否对视杯、视盘进行精确分割直接影响青光眼的诊断结果。
目前用于衡量眼底图像语义分割的标准主要是Dice系数。Dice系数是一种用来衡量两个样本相似度的度量值。Dice系数的定义如下:
Figure BDA0003919275730000011
(见文献“J.Bertls,T.Elebode,et al.Optimizing the Dice Score and Jaccard Index forMedical Image Segmentation:Theory&Practice[C],2019.”J.Bertls,T.Elebode等人的论文:用于医学图像语义分割的Dice系数和Jaccard指标:理论与实践),其中,Dicec表示第c个类别的Dice系数;TPc表示预测的眼底图像语义分割结果中预测为第c个类别且真实标签为第c个类别的像素数量(即预测正确的第c个类别正例数量);FPc表示预测的眼底图像语义分割结果中预测为第c个类别且真实标签不是第c个类别的像素数量(即预测错误的第c个类别负例数量);FNc表示预测的眼底图像语义分割结果中预测为非第c个类别且真实标签为第c个类别的像素数量(即预测错误的第c个类别正例数量)。对于包含多个类别的眼底图像语义分割问题,通常先计算每个类别的Dice系数,然后将所有类别的Dice系数平均值作为最终的衡量指标。
随着深度学习技术及相关算力资源的发展,基于深度学习的眼底图像语义分割方法已经达到最先进的Dice系数水平。BEAL方法(BEAL,Boundary and Entropy-drivenAdversarial Learning,详见文献“S.Wang,L.Yu,et al.Boundary and Entropy-drivenAdversarial Learning for Fundus Image Segmentation[C]2018”,S.Wang,L.Yu等人的论文:用于眼底图像语义分割的边缘和熵驱动的对抗学习)先利用神经网络提取眼底图像的特征表示,然后基于该特征表示预测最终的眼底图像语义分割结果。当训练数据和测试数据均来自RIM-ONE-r3数据集时,针对眼底图像视杯分割任务,BEAL方法达到0.856的Dice系数;针对眼底图像视盘分割任务,BEAL方法达到0.968的Dice系数。
已有方法大多需要大量有标注数据训练眼底图像语义分割模型,在采集数据过程中,需要对图像进行像素级标注,这通常需要标注者的专业知识、且需要极高的时间成本。由于小型医疗机构难以满足眼底图像语义分割模型对大量标注数据的需求,他们通常需要借助其他机构的眼底图像语义分割模型。但是,考虑到不同医疗机构具有不同规格的采集设备、操作人员的专业水平不一,不同医疗机构采集的眼底图像具有不同的数据分布,这种数据分布差异使得一个医疗机构训练的眼底图像语义分割模型难以在其他医疗机构中使用。例如:REFUGE和RIM-ONE-r3是两个不同机构采集的眼底图像语义分割数据集,在RIM-ONE-r3数据训练集上学习后,BEAL方法可以在RIM-ONE-r3数据测试集上达到较高的Dice系数(眼底视杯分割达到0.856,眼底视盘分割达到0.968);然而,对于同样的模型,在REFUGE数据集的训练集上训练后,在RIM-ONE-r3数据集的测试集上仅能达到0.744的眼底视杯分割Dice系数、0.779的眼底视盘分割Dice系数。在不同数据分布的数据集上表现出较差性能,说明该眼底图像语义分割模型的泛化能力较弱,因此,如何学习泛化能力较强的眼底图像语义分割模型,通过关注数据中和眼底图像语义分割直接相关、和数据分布无关的特征,提升眼底图像语义分割模型在应用到不同机构数据时的Dice系数,是本领域技术人员极为关注的技术难题。
一种有效提升模型泛化能力的方法是领域泛化(Domain Generalization,DG),它是深度学习方法中的一个研究方向,旨在减少不同数据之间的分布差异,使模型在学习过程中关注不同分布特性的数据具有的共同属性。基于这种共同属性,领域泛化使某一医疗机构得到的眼底图像语义分割模型可以在其他医疗机构中正常使用。目前将领域泛化应用于眼底图像语义分割的公开文献较少,一个典型工作是TASD(TASD为Test-timeAdaptation from Shape Dictionary的首字母缩写,详见文献“Q.Liu,C.Chen,etal.Single-domain Generalization in Medical Image Segmentation via Test-timeAdaptation from Shape Dictionary[C],2022”,Q.Liu,C.Chen等人的论文:基于测试时自适应和形状字典的领域泛化的医学图像语义分割)。TASD提升了眼底图像语义分割模型的泛化性能,但是,该方法在训练和测试过程中添加了额外的分支任务用于预测分割形状,在实际情况下,目标医疗机构不一定支持完成该分支任务,例如:在较小的医疗机构,受限的计算资源可能仅能支持基础的眼底图像语义分割任务,无法再完成额外的分割形状预测任务。因此,如何在不添加额外任务的情况下,提升眼底图像语义分割的泛化性能,是将领域泛化用于眼底图像语义分割需要解决的难题。
综上所述,如何基于领域泛化方法,充分利用某一医疗机构提供的数据集,在不添加辅助任务的情况下,提高眼底图像语义分割的准确率,使得使用该机构数据集学习得到的眼底图像语义分割模型能够在其他医疗机构中保持较高的Dice系数值,是本领域研究人员正在研究的热点问题。
发明内容
本发明要解决的技术问题是针对现有利用神经网络和深度学习的眼底图像语义分割方法在应用到不同医疗机构数据时分割的Dice数值低,且Dice数值区别大,提出一种基于领域泛化的眼底图像语义分割方法,基于现有的深度学习模型框架,利用领域泛化方法,使得眼底图像语义分割模型在作用到不同医疗机构的数据时,相比于背景技术所述的基于深度学习的眼底图像语义分割方法,眼底图像语义分割的Dice数值有所提升,泛化能力强,能适用于不同医疗机构。
为解决上述技术问题,本发明技术方案是:构建眼底图像语义分割系统。该系统由输入内容增强模块、特征提取模块、特征风格随机化模块、特征解码模块、类别划分模块构成。准备眼底图像语义分割系统所需的眼底图像数据集,其中:REFUGE数据集包含400张眼底图像,按照4∶1的比例划分为训练集和验证集;RIM-ONE-r3数据集包含159张眼底图像,按照BEAL中的设置选取其中60张眼底图像作为测试集。在基于领域泛化的眼底图像语义分割系统中,“领域泛化”指的是眼底图像语义分割系统仅在REFUGE数据集上进行训练、验证,完成训练后,直接泛化应用到RIM-ONE-r3数据集。
首先采用训练集对眼底图像语义分割系统进行训练,在训练的每一轮迭代中,输入内容增强模块接收眼底图像,利用四种不同的数据增强方法生成四张不同风格的眼底图像,从四张图像各选择一部分,合成一张眼底图像。将合成的眼底图像发送给特征提取模块,利用卷积神经网络提取合成的眼底图像的特征矩阵,发送到特征风格随机化模块。特征风格随机化模块接收合成的眼底图像的特征矩阵,先提取特征矩阵的通道级均值和标准差、对特征矩阵进行归一化(Normalization)处理;然后从高斯分布中随机采样新的通道级均值和标准差,对归一化的特征矩阵进行特征风格采样和标准化(Standardization)处理,得到风格随机化的特征矩阵,将风格随机化的发送到特征解码模块。特征解码模块先对风格随机化的特征矩阵进行空间空洞卷积操作,再通过一层卷积层网络将特征矩阵的维度降低到眼底图像语义分割的类别数2(视杯或视盘),并利用sigmoid函数(一种归一化函数,使得每个元素的范围都在[0,1]之间。例如输入向量[1,2,3,4],经过sigmoid函数处理后,输出向量变为[0.7311,0.8808,0.9526,0.9820])处理,输出通道数为2的预测矩阵,将大于阈值0.75的预测矩阵值设置为1,否则设置为0。由于眼底图像语义分割中,视杯区域位于视盘区域中,根据预测矩阵,将两个通道值均为1的像素分割为“视杯”类别;将只有第一个通道为1的像素分割为“视盘”类别;其余像素分割为“背景”类别。之后,将预测的眼底图像语义分割结果和实际的眼底图像语义标注之间的差距作为损失(loss)值,不断进行模型的训练与参数的更新。同时,在模型训练的过程中,使用验证集对模型进行验证,将性能优异的模型保存下来。最后,采用训练后的眼底图像语义分割系统对用户输入的眼底图像进行分割,得到眼底图像语义分割结果。
本发明包括以下步骤:
第一步:构建眼底图像语义分割系统。该系统由输入内容增强模块、特征提取模块、特征风格随机化模块、特征解码模块、类别划分模块构成。输入内容增强模块和特征风格随机化模块有助于提升训练数据的多样性,改进眼底图像语义分割系统在作用到不同分布眼底图像数据集时的泛化性能。
输入内容增强模块与特征提取模块相连,功能是预处理眼底图像,由四个图像增强层和一个空间混合层构成。输入内容增强模块以输入的眼底图像为基础,得到具有不同风格的增强态眼底图像,再利用空间混合层将四张语义内容相同但风格不同的增强态眼底图像组合为一张合成的眼底图像,发送给特征提取模块。输入内容增强模块主要作用于训练阶段,在验证和测试阶段,特征提取模块直接接收眼底图像作为输入。
四个图像增强层利用数字图像处理技术并行对输入的眼底图像进行变换,第一到第四图像增强层分别对应四种变换操作:亮度和对比度变换、模糊化、添加高斯噪声、添加椒盐噪声,四种图像变换操作模拟了不同机构采集的眼底图像。
空间混合层由随机空间掩码生成组件和图像混合层组成。随机空间掩码生成组件将一张眼底图像随机地划分为四个空间不相交的区域,得到四个不同的空间掩码(四个掩码两两不相交,且四个掩码的并集覆盖整张眼底图像对应的全部位置)。图像混合层将四个掩码与从四个图像增强层得到的增强态眼底图像组合随机对应,并根据掩码位置将四张增强态眼底图像组合成为一张合成的眼底图像,将合成的眼底图像输入特征提取模块。
特征提取模块是一个卷积神经网络,与输入内容增强模块和特征风格随机化模块相连。在训练阶段,特征提取模块从输入内容增强模块接收合成的眼底图像,为合成的眼底图像提取特征。在验证阶段或测试阶段,特征提取模块直接接收眼底图像,为眼底图像提取特征。特征提取模块由五个卷积模块构成,其中第一卷积模块由一个二维卷积(2DConvolution,Conv2D)层、一个批量归一化(Batch Normalization,BN)层、一个线性整流(Rectified Linear Unit,ReLU)、一个最大池化(Max Pooling)层组成;二维卷积层的输入通道数为3、输出通道数为32,卷积核大小为5×5、步长为1、填充为1;最大池化层的核大小为3×3,步长为2。第一卷积模块从合成的眼底图像(训练阶段)或眼底图像(测试阶段)提取浅层特征矩阵。第二至第五卷积模块均由一个残差块(ResidualBlock,ResBlock)(详见文献“K.He,X.Zhang,et al.Deep Residual Learning for Image Recognition[C],2016”K.He,X.Zhang等人的论文:用于图像识别的深度残差学习)组成,第二卷积模块从第一卷积模块接收浅层特征,经过残差卷积操作后得到残差特征,然后第三至第五卷积模块按顺序对残差特征进行残差卷积操作,最后,第五卷积模块输出通道数为2048的特征矩阵。在训练阶段,第五卷积模块将该特征矩阵发送给特征风格随机化模块;在验证阶段或测试阶段,第五卷积模块将该特征矩阵发送给特征解码模块。
特征风格随机化模块是一个前向网络,与特征提取模块和特征解码模块相连;特征风格随机化模块从特征提取模块接收特征矩阵,对特征矩阵进行风格化处理,得到风格随机化的特征矩阵。特征风格随机化模块由特征归一化层、特征风格采样层和特征标准化层组成。特征归一化层利用特征矩阵通道级的均值和标准差对特征矩阵进行归一化处理(见文献“S.Ioffe and C.Szegedy,Batch Normalization:Accelerating Deep NetworkTraining by Reducing Internal Covariate Shift[C],2015”S.Ioffe和C.Szegedy的论文:批量归一化:通过减小内部自变量偏移加速深度神经网络训练),得到归一化的特征矩阵。特征矩阵为四维矩阵,包括批量维度、通道维度、高度维度和宽度维度,特征风格采样层利用特征矩阵通道维度的均值建模均值高斯分布,从均值高斯分布中采样随机特征均值;同时,特征风格采样层利用特征矩阵通道维度的标准差建模标准差高斯分布,从标准差高斯分布中采样随机特征标准差。特征标准化层利用特征风格采样层得到的随机特征均值和随机特征标准差,对归一化的特征矩阵进行标准化处理,得到标准化的特征矩阵,将标准化的特征矩阵称为风格化随机化特征矩阵,并将风格随机化特征矩阵发送给特征解码模块。
特征解码模块是一个卷积神经网络,与特征风格随机化模块及特征提取模块相连。在训练阶段,特征解码模块从特征风格随机化模块接收风格随机化特征矩阵,对风格随机化特征矩阵进行特征解码,得到预测概率矩阵;在验证阶段或测试阶段,特征解码模块直接从特征提取模块接收特征矩阵,对特征矩阵进行特征解码。特征解码模块由一个空洞空间金字塔池化层(见文献“L.Chen,G.Papandreou,et al.DeepLab:Semantic ImageSegmentation with Deep Convolutional Nets,Atrous Convolution,and FullyConnected CRFs[J],2018”L.Chen,G.Papandreou等人的论文:DeepLab:基于深度卷积神经网络、空洞卷积和全连接条件随机场的图像语义分割模型)和一个特征解码卷积层构成。空洞空间金字塔池化层包括四个空洞卷积层和一个加法器,第一到第四空洞卷积层的输入通道数均为2048,输出通道数均为256,卷积核大小均为3×3,步长均为1,空洞率(也称扩张率)分别为1、12、24、36,填充分别为1、12、24、36。在训练阶段,第一到第四空洞卷积层并行地从特征解码模块接收风格随机化特征矩阵,并行地对风格随机化特征矩阵进行不同空洞率的卷积操作,提取得到4个不同分辨率的输出特征,提高深度网络的分割准确率。相似地,在验证阶段或测试阶段,第一到第四空洞卷积层并行地从特征提取模块接收特征矩阵,并行地对特征矩阵进行不同空洞率的卷积操作,提取得到4个不同分辨率的输出特征。加法器对4个不同分辨率的输出特征求和,得到汇聚了不同分辨率信息的特征,称为汇聚特征矩阵,通道数为256。特征解码卷积层对汇聚特征矩阵进行特征解码,将汇聚特征矩阵的通道数降低到眼底图像语义分割的类别数量2(即视盘和视杯),得到预测概率矩阵,发送给类别划分模块。
类别划分模块是一个无参数的前向传播模块,与特征解码模块相连,从特征解码模块接收预测概率矩阵,得到最终的眼底图像语义分割结果。首先,类别划分模块利用sigmoid函数处理预测概率矩阵,将大于阈值0.75的预测矩阵值设置为1,否则设置为0。然后,类别划分模块将眼底图像语义分割结果初始化为全零矩阵,将预测概率矩阵两个通道值均为1的像素分割为“视杯”类别,将对应的分割结果眼底图像语义分割结果设置为2;将只有第一个通道为1的像素分割为“视盘”类别,将对应的分割结果眼底图像语义分割结果设置为1;将其余像素分割为“背景”类别,将对应的分割结果眼底图像语义分割结果设置为0。
特征提取模块的卷积神经网络,特征风格随机化模块中的前向网络,特征解码模块的特征解码卷积层,一起构成眼底图像语义分割模型,是眼底图像语义分割系统中的网络结构,该网络结构统称为seg_net。
第二步:准备眼底图像数据集。REFUGE数据集(见文献“J.I.Orlando,H.Fu,etal.REFUGE Challenge:A Unified Framework for Evaluating Automated Methods forGlaucoma Assessment from Fundus Photographs[J]2020”J.I.Orlando,H.Fu等人的论文:REFUGE挑战:评估自动眼底图像青光眼诊断方法的统一框架)收集了1200张带有语义分割标注的眼底图像,是已有的最大的眼底图像语义分割数据集,从中选择包含400张眼底图像的子集(见文献“S.Wang,L.Yu,et al.Boundary and Entropy-driven AdversarialLearning for Fundus Image Segmentation[C]2018”,S.Wang,L.Yu等人的论文:用于眼底图像语义分割的边缘和熵驱动的对抗学习),按照4∶1的比例划分为训练集T和验证集D。RIM-ONE-r3数据集(见文献“F.Fumero,S.Alayon,et al.RIM-ONE:An Open Retinal ImageDatabase for Optic Nerve Evaluation[C],2011”F.Fumero,S.Alayon等人的论文:RIM-ONE:用于视神经诊断的开源视网膜图像数据库)包含159张眼底图像,按照BEAL中的设置(见文献“S.Wang,L.Yu,et al.Boundary and Entropy-driven Adversarial Learningfor Fundus Image Segmentation[C]2018”,S.Wang,L.Yu等人的论文:用于眼底图像语义分割的边缘和熵驱动的对抗学习)选取其中60张眼底图像作为测试集S。
第三步:使用随机梯度下降方法(SGD)对第一步眼底图像语义分割系统的网络结构进行训练,得到特征提取模块、特征风格随机化模块、特征解码模块中的网络的最佳权重参数。
方法是:
3.1初始化权重参数,将seg_net中的权重参数集合
Figure BDA0003919275730000061
中所有二维卷积层参数都初始化为[0,1]之间的随机数,所有批量归一化层中的均值参数初始化为0、标准差参数初始化为1。其中,
Figure BDA0003919275730000062
表示seg_net中特征提取模块包含的网络结构的权重参数,
Figure BDA0003919275730000063
表示seg_net中特征风格随机化模块包含的网络结构的权重参数,
Figure BDA0003919275730000064
表示seg_net中特征解码模块包含的网络结构的权重参数。
3.2设置网络训练参数,设定学习率(learning_rate)为2.5×10-4,批处理尺寸(batch_size)记为批量维度B,B表示当前第num_batch批包含B张眼底图像,令B=6,训练迭代轮数E为200,这样可以获得最好的眼底图像语义分割结果。
3.3初始化训练迭代参数为epoch=1,初始化批次迭代参数num_batch=1(表示当前批次是当前epoch内的第num_batch个批次),定义训练集T中的眼底图像数目为numT,则最大批次大小
Figure BDA0003919275730000065
表示对numT/batch_size向上取整,因此1≤num_batch≤max_batch)。初始化损失值无下降的累计迭代数numno-increase=0,初始化第0轮训练的损失值Losspre=0;
3.4训练眼底图像语义分割系统,方法是:将应用当前seg_net权重参数的眼底图像语义分割系统进行眼底图像语义分割得到的分割结果与实际分割结果之间的差距作为损失值,不断最小化损失值并更新seg_net的权重参数,直到满足迭代轮数E,或者出现训练终止条件(损失值<0.01),终止训练。每次训练的一个迭代结束后,使用验证集D的图像对当前seg_net权重参数下眼底图像语义分割系统进行验证,保存在验证集D上效果优异的seg_net的参数权重。具体方法如下:
3.4.1输入内容增强模块从训练集T中取出第num_batch批共batch_size张眼底图像。
3.4.2第num_batch批共包含B张眼底图像,将B张眼底眼底图像拼接得到四维矩阵I,I的形状为B×3×H×W,B为批量维度(表示当前第num_batch批包含B张眼底图像),3为通道维度(输入图像包含红、绿、蓝三个通道),H为眼底图像的高度,W为眼底图像的宽度。
3.4.3输入内容增强模块对I进行增强处理,得到具有不同风格的增强态眼底图像,再利用空间混合层将四张语义内容相同但风格不同的增强态眼底图像组合为一张合成的眼底图像IS,将IS发送给特征提取模块;具体方法如下:
3.4.3.1输入内容增强模块的第一到第四图像增强层分别对I进行数字图像处理,第一图像增强层对I进行亮度和对比度变换处理,得到变换处理后的眼底图像I1,第二图像增强层对I进行模糊化处理,得到模糊化处理后的眼底图像I2,第三图像增强层对I添加高斯噪声,得到添加了高斯噪声的眼底图像I3,第四图像增强层对I添加椒盐噪声,得到添加了椒盐噪声的眼底图像I4
3.4.3.2输入内容增强模块的随机空间掩码生成组件采用掩码采样方法随机地将I按照空间位置划分为四个不相交的子集,得到四个随机空间掩码,记为{M1,M2,M3,M4},随机空间掩码互不相交,且四个随机空间掩码的并集为I对应的全部空间位置。掩码采样方法是:
3.4.3.2.1从参数为α=1.0,β=1.0的伽马分布(详见网页https://baike.baidu.com/item/伽马分布/7245468)中随机采样高度比例rh(0≤rh≤1),计算随机高度位置random_h,
Figure BDA0003919275730000071
表示对x向上取整。
3.4.3.2.2从参数为α=1.0,β=1.0的伽马分布中随机采样宽度比例rw(0≤rw≤1),计算随机宽度位置random_w,
Figure BDA0003919275730000072
3.4.3.2.3在高度位置random_h处将I分为上下两个部分,再在宽度位置random_w处将两个部分各自进一步划分为左右两个部分,据此将I分为左上、左下、右上、右下四个部分,四个部分对应的空间位置掩码分别记为M1,M2,M3,M4,即为采样得到的随机空间掩码。
3.4.3.3根据随机空间掩码,输入内容增强模块中的图像混合层将I1,I2,I3,I4合成一张图像。合成方法是:
3.4.3.3.1选择I1中M1掩码对应的部分,作为合成图像的左上部分。
3.4.3.3.2选择I2中M2掩码对应的部分,作为合成图像的左下部分。
3.4.3.3.3选择I3中M3掩码对应的部分,作为合成图像的右上部分。
3.4.3.3.4选择I4中M4掩码对应的部分,作为合成图像的右下部分。
3.4.3.3.5将3.4.3.3.1-3.4.3.3.4得到的四个部分组合成新的图像,得到合成的眼底图像IS。将IS发送给特征提取模块。
3.4.4特征提取模块采用深度网络图像特征提取方法对IS进行像素级别的特征提取,得到特征矩阵F,提取过程是:
3.4.4.1第一卷积模块从输入内容增强模块接收IS,经过二维卷积、批量归一化、线性整流、最大池化得到浅层特征Flow。将Flow发送给第二卷积模块。
3.4.4.2第二卷积模块接收Flow,对Flow进行残差卷积,得到第一层残差特征Fres1。将Fres1发送给第三卷积模块。
3.4.4.3第三卷积模块接收Fres1,对Fres1进行残差卷积,得到第二层残差特征Fres2。将Fres2发送给第四卷积模块。
3.4.4.4第四卷积模块接收Fres2,对Fres2进行残差卷积,得到第三层残差特征Fres3。将Fres3发送给第五卷积模块。
3.4.4.5第五卷积模块接收Fres3,对Fres3进行残差卷积,得到第四层残差特征Fres4。将第四层残差特征Fres4作为特征矩阵F,F是四维特征矩阵(四个维度分别是:批量、通道、高度、宽度),将F发送给特征风格随机化模块。
3.4.5特征风格随机化模块接收特征矩阵F,通过调整F的统计量,改变F的分布特征,对F进行风格建模和风格随机化:风格建模得到F的归一化的特征矩阵Fn,建模得到均值为
Figure BDA0003919275730000081
标准差为
Figure BDA0003919275730000082
均值概率分布模型
Figure BDA0003919275730000083
和均值为
Figure BDA0003919275730000084
标准差为
Figure BDA0003919275730000085
均值概率分布模型
Figure BDA0003919275730000086
风格随机化得到风格随机化的特征矩阵FS;将FS发送给特征解码模块;具体方法是:
3.4.5.1计算F的通道级均值μF如公式(1)所示:
Figure BDA0003919275730000087
其中F(n,c,h,w)表示当F的批量维为n、通道维为c、高度维为h、宽度维为w时对应的特征值,公式(1)对F的批量、高度、宽度三个维度求平均,得到的μF是一个C通道的向量。
3.4.5.2计算F的通道级标准差σF,如公式(2)所示:
Figure BDA0003919275730000088
其中∈是为了避免数值计算不稳定的一个小常数(该常数取为1.0×10-6),公式(2)先对F批量、高度、宽度三个维度的方差求平均,然后开根号,得到的σF是一个C通道的向量。
3.4.5.3对F进行归一化处理,将F的每个通道数值变换到[0,1]之间,得到归一化的特征矩阵Fn,Fn=(F-μF)/σF
3.4.5.4建模特征的均值概率分布,建模方法是:
3.4.5.4.1计算μF的均值
Figure BDA00039192757300000917
Figure BDA0003919275730000091
其中
Figure BDA0003919275730000092
表示特征的第c个通道的均值,可从特征的通道级均值μF直接获取,1≤c≤C。
3.4.5.4.2计算μF的标准差
Figure BDA00039192757300000918
Figure BDA0003919275730000093
3.4.5.4.3将μF的均值概率分布表示为均值为
Figure BDA0003919275730000094
标准差为
Figure BDA0003919275730000095
的高斯分布,记为
Figure BDA0003919275730000096
为μF的概率分布模型。
3.4.5.5建模特征的标准差概率分布,建模方法是:
3.4.5.5.1计算σF的均值meanσF
Figure BDA0003919275730000097
其中
Figure BDA0003919275730000098
表示特征的第c个通道级的标准差,可从特征的通道级标准差σF直接获取。
3.4.5.5.2计算σF的均值stdσF
Figure BDA0003919275730000099
3.4.5.5.3将σF的标准差概率分布表示为均值为
Figure BDA00039192757300000910
标准差为
Figure BDA00039192757300000911
的高斯分布,记为:
Figure BDA00039192757300000912
为σF的概率分布模型。
3.4.5.6从
Figure BDA00039192757300000913
中随机采样新的特征均值μnew
3.4.5.7从
Figure BDA00039192757300000914
中随机采样新的特征标准差σnew
3.4.5.8调整F的统计量,改变F的分布特征,对F进行风格随机化,方法为:利用新的特征均值μnew和新的特征标准差σnew对归一化的特征矩阵Fn进行标准化处理,得到风格随机化的特征矩阵,记为FS,FS=Fn×σnewnew。将FS发送给特征解码模块。
3.4.6特征解码模块从特征风格随机化模块接收FS,对FS进行特征聚合,然后利用聚合后的特征预测眼底图像语义分割结果。方法是:
3.4.6.1特征解码模块的空洞空间金字塔池化层采用特征聚合方法对FS进行特征聚合,得到包含不同分辨率眼底图像信息的特征矩阵FASPP,方法是:
3.4.6.1.1第一空洞卷积层从特征风格随机化模块接收FS,经过空洞率为1的3×3空洞卷积得到感受野大小为3×3(即每个像素点汇聚该像素及其周围8个相邻像素的信息)、空间通道数为256的第一变换特征矩阵
Figure BDA00039192757300000915
3.4.6.1.2第二空洞卷积层从特征风格随机化模块接收FS,经过空洞率为12的3×3空洞卷积得到感受野大小为5×5(即每个像素点汇聚以该像素为中心的、大小为5×5的正方形区域覆盖的像素信息)、空间通道数为256的第二变换特征矩阵
Figure BDA00039192757300000916
3.4.6.1.3第三空洞卷积层从特征风格随机化模块接收FS,经过空洞率为24的3×3空洞卷积得到感受野大小为7×7(即每个像素点汇聚以该像素为中心的、大小为7×7的正方形区域覆盖的像素信息)、空间通道数为256的第三变换特征矩阵
Figure BDA0003919275730000101
3.4.6.1.4第四空洞卷积层从特征风格随机化模块接收FS,经过空洞率为36的3×3空洞卷积得到感受野大小为9×9(即每个像素点汇聚以该像素为中心的、大小为9×9的正方形区域覆盖的像素信息)、空间通道数为256的第四变换特征矩阵记为
Figure BDA0003919275730000102
3.4.6.1.5由于各空洞空间卷积处理得到的变换特征矩阵分辨率不一致,为便于聚合多个变换特征矩阵,将
Figure BDA0003919275730000103
利用双线性插值方法(详见文献“Smith,P.R.Bilinear interpolation of digital images[J],1981.”Smith,P.R.的论文:数字图像的双线性插值)放大至与FS相同的分辨率。
3.4.6.1.6将
Figure BDA0003919275730000104
聚合,得到空间金字塔池化的特征,记为包含不同分辨率眼底图像信息的特征矩阵FASPP,聚合方法为:
Figure BDA0003919275730000105
FASPP空间通道数为256。将FASPP发送给特征解码模块的特征解码卷积层。
3.4.6.2特征解码卷积层从空洞空间金字塔池化层接收FASPP,采用分割结果预测方法,根据FASPP进行眼底图像语义分割结果预测,得到归一化的预测概率矩阵P′:
3.4.6.2.1特征解码模块卷积层利用卷积核大小为1×1的二维卷积将FASPP进行线性映射,得到空间通道数为2的预测概率矩阵P。
3.4.6.2.2利用Sigmoid函数对P进行归一化处理,将P中的矩阵值缩放调整至[0,1]之间,得到归一化的预测概率矩阵P′。
3.4.7根据真实的眼底图像分割标签G计算眼底图像I分割结果的损失值LossI
Figure BDA0003919275730000106
其中,G(b,c,h,w)表示真实的眼底图像分割标签G的位置(b,c,h,w)处(b表示G的批量维度索引,1≤b≤B;c表示G的通道维度索引,1≤c≤C;h表示G的高度维度索引,1≤h≤H;w表示G的宽度维度索引,1≤w≤W)的真实的眼底图像分割标签值;P′(b,c,h,w)表示位置(b,c,h,w)处的预测概率值。将第num_batch批次的损失值
Figure BDA0003919275730000107
设置为LossI,即令
Figure BDA0003919275730000108
Figure BDA0003919275730000109
3.4.8使用随机梯度下降(SGD)优化算法(见文献“Robbins H,Monro S.AStochastic Approximation Method[J].Annals of Mathematical Statistics,1951.”Robbins H,Monro S的论文:一种随机近似法)对
Figure BDA00039192757300001010
最小化,然后以反向传播的方式更新网络权重参数。
3.4.9令num_batch=num_batch+1,若num_batch≤max_batch,转3.4.1继续下一个批次眼底图像的训练;若num_batch>max_batch,转3.4.10。
3.4.10汇总当前epoch下各个批次损失值,求和之后取平均值得到当前epoch的损失值Losscur
Figure BDA00039192757300001011
Figure BDA00039192757300001012
对比Losscur与Losspre:若Losscur>Losspre,转3.4.11;若Losscur≤Losspre,则转3.4.12。
3.4.11令损失值无下降的累计迭代数numno-increase=numno-increase+1,若numno-increase可被5整除,即(numno-increase%5)=0,说明在当前学习率下模型达到收敛状态,此时减小学习率继续进行学习:令learning_rate=learning_rate×0.9,令Losspre=Losscur,转3.4.12。若numno-increase不可被5整除,说明在当前学习率下模型仍未达到收敛状态,保持原学习率进行学习,令Losspre=Losscur,转3.4.12。
3.4.12令epoch=epoch+1,若epoch>E,或者Losscur≤0.01,说明眼底图像语义分割系统的网络结构seg_net达到预测精度要求,训练结束,转第四步;若epoch≤E且Losscur>0.01,说明当前网络结构还未收敛,继续进行训练,重新令num_batch=1,转3.4.13。
3.4.13对当前的网络结构seg_net权重参数进行眼底图像语义分割效果的验证,方法是:
3.4.13.1初始化验证集D中眼底图像计数参数numD=1,令验证集D中眼底图像计数总数为max_numD,将验证集D眼底图像“视盘”类别的Dice系数值
Figure BDA0003919275730000111
初始化为0,将验证集D眼底图像“视杯”类别的Dice系数值
Figure BDA0003919275730000112
初始化为0。
3.4.13.2特征提取模块从验证集D中提取第numD张眼底图像II及其对应的真实眼底图像语义分割标签GG,并采用3.4.4所述的深度网络图像特征提取方法对II进行像素级别的特征提取,得到特征矩阵FF,直接发送给特征解码模块。
3.4.13.3特征解码模块的空洞空间金字塔池化层采用3.4.6.1所述的特征聚合方法对FF进行特征聚合,得到II的包含不同分辨率眼底图像信息的特征矩阵FFASPP。将FFASPP发送给特征解码模块的特征解码卷积层。
3.4.13.4特征解码模块的特征解码卷积层从空洞空间金字塔池化层接收FFASPP,采用3.4.6.2所述的分割结果预测方法,根据FFASPP进行眼底图像语义分割结果预测,得到归一化的预测概率矩阵PP′。
3.4.13.5类别划分模块根据pP′的值判断眼底图像语义分割结果,得到预测的眼底图像语义分割结果PPafter,方法是:
3.4.13.5.1初始化预测二值矩阵P01=PP′,将预测的眼底图像语义分割结果PPafter初始化为全0矩阵。
3.4.13.5.2对P01进行二值化处理:将P01中大于0.75的矩阵值设置为1,否则设置为0。
3.4.13.5.3根据P01的值设置PPafter,具体设置方法是:若某一像素对应的P01矩阵两个通道值均为1,则该像素分割为“视杯”类别,该像素对应的PPafter矩阵值设为2;若某一像素对应的P01矩阵两个通道值中只有第一个通道为1,则该像素分割为“视盘”类别,该像素对应的PPafter矩阵值设为1;除了前述两种情况外的其余像素分割为“背景”类别,像素对应的PPafter矩阵值设为0。
3.4.13.5.4得到预测的眼底图像语义分割结果PPafter,转3.4.13.6。
3.4.13.6根据PPafter和GG计算第numD张眼底图像视杯分割及视盘分割的Dice系数,对眼底图像语义分割而言,分割结果包含2个类别,其中每个类别的Dice系数计算方式为:
Figure BDA0003919275730000121
(见文献“J.Bertls,T.Elebode,et al.Optimizing the DiceScore and Jaccard Index for Medical Image Segmentation:Theory&Practice[C],2019.”J.Bertls,T.Elebode等人的论文:用于医学图像语义分割的Dice系数和Jaccard指标:理论与实践),其中,Dicec表示第c个类别的Dice系数;TPc表示预测的眼底图像语义分割结果中预测为第c个类别且真实标签为第c个类别的像素数量(即预测正确的第c个类别正例数量);FPc表示预测的眼底图像语义分割结果中预测为第c个类别且真实标签不是第c个类别的像素数量(即预测错误的第c个类别负例数量);FNc表示预测的眼底图像语义分割结果中预测为非第c个类别且真实标签为第c个类别的像素数量(即预测错误的第c个类别正例数量)。
具体计算步骤包括:
3.4.13.6.1计算第numD张眼底图像“视盘”类别的TPc值,由于“视盘”类别为第1个类别,“视盘”类别的TPc值为满足PPafter=1且GG=1(预测的眼底图像语义分割结果中预测为第1个类别,且真实标签是第1个类别)的像素总数,记为TP1,即:
Figure BDA0003919275730000122
Figure BDA0003919275730000123
其中,
Figure BDA0003919275730000124
表示条件指示矩阵、初始化为全零矩阵,满足下标条件的条件指示矩阵值设置为1,否则设置为0。
3.4.13.6.2计算第numD张眼底图像“视盘”类别的FPc值,“视盘”类别的FPc值为满足PPafter=1且GG≠1(预测的眼底图像语义分割结果是第1个类别,但真实标签不是第1个类别)的像素数量,记为FP1,即:
Figure BDA0003919275730000125
3.4.13.6.3计算第numD张眼底图像“视盘”类别的FNc值,“视盘”类别的FNc值为满足PPafter≠1且GG=1(预测的眼底图像语义分割结果不是第1个类别,但真实标签是第1个类别)的像素数量,记为FN1,即:
Figure BDA0003919275730000126
3.4.13.6.4计算第numD张眼底图像“视盘”类别的Dice系数值,记为
Figure BDA0003919275730000127
Figure BDA0003919275730000128
3.4.13.6.5计算第numD张眼底图像“视杯”类别的TPc值,由于“视杯”类别为第2个类别,“视杯”类别的TPc值为满足PPafter=2且GG=2(预测的眼底图像语义分割结果是第2个类别,且真实标签是第2个类别)的像素数量,记为TP2,即:
Figure BDA0003919275730000129
Figure BDA00039192757300001210
3.4.13.6.6计算第numD张眼底图像“视杯”类别的FPc值,“视杯”类别的FPc值为满足PPafter=2且GG≠2(预测的眼底图像语义分割结果是第2个类别,但真实标签不是第2个类别)的像素数量,记为FP2,即:
Figure BDA00039192757300001211
3.4.13.6.7计算第numD张眼底图像“视杯”类别的FNc值,“视杯”类别的FNc值为满足PPafter≠2且GG=2(预测的眼底图像语义分割结果不是第2个类别,但真实标签是第2个类别)的像素数量,记为FN2,即:
Figure BDA00039192757300001212
3.4.13.6.8计算第numD张眼底图像“视杯”类别的Dice系数值,记为
Figure BDA0003919275730000131
Figure BDA0003919275730000132
3.4.13.6.9令
Figure BDA0003919275730000133
Figure BDA0003919275730000134
令numD=numD+1,若numD<max_numD,转3.4.13.2继续处理D中的下一张眼底图像;若numD≥max_numD,转3.4.13.7。
3.4.13.7令
Figure BDA0003919275730000135
Figure BDA0003919275730000136
计算得到
Figure BDA0003919275730000137
以及
Figure BDA0003919275730000138
计算两个Dice系数的平均值
Figure BDA0003919275730000139
Figure BDA00039192757300001310
3.4.13.8保存完成第epoch-1次训练后的seg_net的权重参数及其对应的Dice系数平均值
Figure BDA00039192757300001311
转3.4.1继续第epoch次训练。
第四步:从第三步中保存的多个seg_net的权重参数中选择
Figure BDA00039192757300001312
值最高的权重参数,加载到眼底图像语义分割系统的网络结构中,得到训练后的眼底图像语义分割系统。
第五步:训练后的眼底图像语义分割系统对用户输入的眼底图像进行预处理,并进行眼底图像语义分割,得到眼底图像的视盘及视杯分割结果,方法是:
5.1训练后的眼底图像语义分割系统接收用户输入的眼底图像Iuser,直接发送到特征提取模块。
5.2特征提取模块采用3.4.4所述的深度网络图像特征提取方法对Iuser进行像素级别的特征提取,得到特征矩阵Fuser
5.3特征解码模块的空洞空间金字塔池化层采用3.4.6.1所述的特征聚合方法对Fuser进行特征聚合,得到Iuser的包含不同分辨率眼底图像信息的特征矩阵UFASPP,将UFASPP发送给特征解码模块的特征解码卷积层。
5.4特征解码模块的特征解码卷积层从空洞空间金字塔池化层接收UFASPP,采用3.4.6.2步所述的分割结果预测方法,根据UFASPP进行眼底图像语义分割结果预测,得到归一化的预测概率矩阵UP′,发送给类别划分模块。
5.5类别划分模块采用3.4.13.5所述的结果划分方法,根据UP′的值判断眼底图像语义分割结果,得到预测的眼底图像语义分割结果PPuser。PPuser值为0表示将眼底图像划分为“背景”类别,PPuser值为1表示将眼底图像划分为“视盘”类别,PPuser值为2表示将眼底图像划分为“视杯”类别。
采用本发明可以达到以下技术效果:
如背景技术所述,典型的领域泛化眼底图像语义分割方法需要添加额外任务,本发明在第三步中利用输入内容增强模块和特征风格随机化模块增强眼底图像语义分割系统的泛化性和Dice系数值,两个模块协作实现领域泛化眼底图像语义分割,系统在有效提升眼底图像语义分割模型泛化性能的同时,避免了引入额外的学习任务,使得本发明甚至可以部署在计算资源十分受限的小型医疗机构。
1.本发明的输入内容增强模块随机组合不同增强形态的眼底图像,模拟了不同医疗机构的眼底图像,增加了训练集数据多样性。因此,本发明通过输入内容增强模块可以避免眼底图像语义分割模型对数量较少的训练集数据产生过拟合。
2.本发明的特征风格随机化模块对眼底图像的特征矩阵进行重新归一化和标准化处理,有效实现了风格随机化。
3.本发明的特征解码模块汇聚了不同分辨率的眼底图像的特征矩阵,能够整合不同范围的眼底图像信息。因此,本发明通过特征解码模块提升了眼底图像语义分割模型对不同分辨率的眼底图像的鲁棒性。
基于上述三个模块,本发明实现了不需要添加额外任务的领域泛化眼底图像语义分割方法,采用本发明可以达到0.8369的Dice系数值,显著改进了目前眼底图像语义分割方法的性能。
附图说明
图1为本发明第一步构建的眼底图像语义分割系统逻辑结构图。
图2为本发明总体流程图。
具体实施方式
如图2所示,本发明包括以下步骤:
第一步:构建眼底图像语义分割系统。该系统如图1所示,由输入内容增强模块、特征提取模块、特征风格随机化模块、特征解码模块、类别划分模块构成。输入内容增强模块和特征风格随机化模块有助于提升训练数据的多样性,改进眼底图像语义分割系统在作用到不同分布眼底图像数据集时的泛化性能。
输入内容增强模块与特征提取模块相连,功能是预处理眼底图像,由四个图像增强层和一个空间混合层构成。输入内容增强模块以输入的眼底图像为基础,得到具有不同风格的增强态眼底图像,再利用空间混合层将四张语义内容相同但风格不同的增强态眼底图像组合为一张合成的眼底图像,发送给特征提取模块。输入内容增强模块主要作用于训练阶段,在验证和测试阶段,特征提取模块直接接收眼底图像作为输入。
四个图像增强层利用数字图像处理技术并行对输入的眼底图像进行变换,第一到第四图像增强层分别对应四种变换操作:亮度和对比度变换、模糊化、添加高斯噪声、添加椒盐噪声,四种图像变换操作模拟了不同机构采集的眼底图像。
空间混合层由随机空间掩码生成组件和图像混合层组成。随机空间掩码生成组件将一张眼底图像随机地划分为四个空间不相交的区域,得到四个不同的空间掩码(四个掩码两两不相交,且四个掩码的并集覆盖整张眼底图像对应的全部位置)。图像混合层将四个掩码与从四个图像增强层得到的增强态眼底图像组合随机对应,并根据掩码位置将四张增强态眼底图像组合成为一张合成的眼底图像,将合成的眼底图像输入特征提取模块。
特征提取模块是一个卷积神经网络,与输入内容增强模块和特征风格随机化模块相连。在训练阶段,特征提取模块从输入内容增强模块接收合成的眼底图像,为合成的眼底图像提取特征。在验证阶段或测试阶段,特征提取模块直接接收眼底图像,为眼底图像提取特征。特征提取模块由五个卷积模块构成,其中第一卷积模块由一个二维卷积层、一个批量归一化层、一个线性整流、一个最大池化层组成;二维卷积层的输入通道数为3、输出通道数为32,卷积核大小为5×5、步长为1、填充为1;最大池化层的核大小为3×3,步长为2。第一卷积模块从合成的眼底图像(训练阶段)或眼底图像(测试阶段)提取浅层特征矩阵。第二至第五卷积模块均由一个残差块组成,第二卷积模块从第一卷积模块接收浅层特征,经过残差卷积操作后得到残差特征,然后第三至第五卷积模块按顺序对残差特征进行残差卷积操作,最后,第五卷积模块输出通道数为2048的特征矩阵。在训练阶段,第五卷积模块将该特征矩阵发送给特征风格随机化模块;在验证阶段或测试阶段,第五卷积模块将该特征矩阵发送给特征解码模块。
特征风格随机化模块是一个前向网络,与特征提取模块和特征解码模块相连;特征风格随机化模块从特征提取模块接收特征矩阵,对特征矩阵进行风格化处理,得到风格随机化的特征矩阵。特征风格随机化模块由特征归一化层、特征风格采样层和特征标准化层组成。特征归一化层利用特征矩阵通道级的均值和标准差对特征矩阵进行归一化处理,得到归一化的特征矩阵。特征矩阵为四维矩阵,包括批量维度、通道维度、高度维度和宽度维度,特征风格采样层利用特征矩阵通道维度的均值建模均值高斯分布,从均值高斯分布中采样随机特征均值;同时,特征风格采样层利用特征矩阵通道维度的标准差建模标准差高斯分布,从标准差高斯分布中采样随机特征标准差。特征标准化层利用特征风格采样层得到的随机特征均值和随机特征标准差,对归一化的特征矩阵进行标准化处理,得到标准化的特征矩阵,将标准化的特征矩阵称为风格化随机化特征矩阵,并将风格随机化特征矩阵发送给特征解码模块。
特征解码模块是一个卷积神经网络,与特征风格随机化模块及特征提取模块相连。在训练阶段,特征解码模块从特征风格随机化模块接收风格随机化特征矩阵,对风格随机化特征矩阵进行特征解码,得到预测概率矩阵;在验证阶段或测试阶段,特征解码模块直接从特征提取模块接收特征矩阵,对特征矩阵进行特征解码。特征解码模块由一个空洞空间金字塔池化层和一个特征解码卷积层构成。空洞空间金字塔池化层包括四个空洞卷积层和一个加法器,第一到第四空洞卷积层的输入通道数均为2048,输出通道数均为256,卷积核大小均为3×3,步长均为1,空洞率分别为1、12、24、36,填充分别为1、12、24、36。在训练阶段,第一到第四空洞卷积层并行地从特征解码模块接收风格随机化特征矩阵,并行地对风格随机化特征矩阵进行不同空洞率的卷积操作,提取得到4个不同分辨率的输出特征,提高深度网络的分割准确率。相似地,在验证阶段或测试阶段,第一到第四空洞卷积层并行地从特征提取模块接收特征矩阵,并行地对特征矩阵进行不同空洞率的卷积操作,提取得到4个不同分辨率的输出特征。加法器对4个不同分辨率的输出特征求和,得到汇聚了不同分辨率信息的特征,称为汇聚特征矩阵,通道数为256。特征解码卷积层对汇聚特征矩阵进行特征解码,将汇聚特征矩阵的通道数降低到眼底图像语义分割的类别数量2(即视盘和视杯),得到预测概率矩阵,发送给类别划分模块。
类别划分模块是一个无参数的前向传播模块,与特征解码模块相连,从特征解码模块接收预测概率矩阵,得到最终的眼底图像语义分割结果。
特征提取模块的卷积神经网络,特征风格随机化模块中的前向网络,特征解码模块的特征解码卷积层,一起构成眼底图像语义分割模型,是眼底图像语义分割系统中的网络结构,该网络结构统称为seg_net。
第二步:准备眼底图像数据集。REFUGE数据集收集了1200张带有语义分割标注的眼底图像,是已有的最大的眼底图像语义分割数据集,从中选择包含400张眼底图像的子集,按照4∶1的比例划分为训练集T和验证集D。RIM-ONE-r3数据集包含159张眼底图像,按照BEAL中的设置选取其中60张眼底图像作为测试集S。
第三步:使用随机梯度下降方法(SGD)对第一步眼底图像语义分割系统的网络结构进行训练,得到特征提取模块、特征风格随机化模块、特征解码模块中的网络的最佳权重参数。
方法是:
3.1初始化权重参数,将seg_net中的权重参数集合
Figure BDA0003919275730000161
中所有二维卷积层参数都初始化为[0,1]之间的随机数,所有批量归一化层中的均值参数初始化为0、标准差参数初始化为1。其中,
Figure BDA0003919275730000162
表示seg_net中特征提取模块包含的网络结构的权重参数,
Figure BDA0003919275730000163
表示seg_net中特征风格随机化模块包含的网络结构的权重参数,
Figure BDA0003919275730000164
表示seg_net中特征解码模块包含的网络结构的权重参数。
3.2设置网络训练参数,设定学习率(learning_rate)为2.5×10-4,批处理尺寸(batch_size)记为批量维度B,B表示当前第num_batch批包含B张眼底图像,令B=6,训练迭代轮数E为200,这样可以获得最好的眼底图像语义分割结果。
3.3初始化训练迭代参数为epoch=1,初始化批次迭代参数num_batch=1(表示当前批次是当前epoch内的第num_batch个批次),定义训练集T中的眼底图像数目为numT,则最大批次大小
Figure BDA0003919275730000165
表示对numT/batch_size向上取整,因此1≤num_batch≤max_batch)。初始化损失值无下降的累计迭代数numno-increase=0,初始化第0轮训练的损失值Losspre=0;
3.4训练眼底图像语义分割系统,方法是:将应用当前seg_net权重参数的眼底图像语义分割系统进行眼底图像语义分割得到的分割结果与实际分割结果之间的差距作为损失值,不断最小化损失值并更新seg_net的权重参数,直到满足迭代轮数E,或者出现训练终止条件(损失值<0.01),终止训练。每次训练的一个迭代结束后,使用验证集D的图像对当前seg_net权重参数下眼底图像语义分割系统进行验证,保存在验证集D上效果优异的seg_net的参数权重。具体方法如下:
3.4.1输入内容增强模块从训练集T中取出第num_batch批共batch_size张眼底图像。
3.4.2第num_batch批共包含B张眼底图像,将B张眼底眼底图像拼接得到四维矩阵I,I的形状为B×3×H×W,B为批量维度(表示当前第num_batch批包含B张眼底图像),3为通道维度(输入图像包含红、绿、蓝三个通道),H为眼底图像的高度,W为眼底图像的宽度。
3.4.3输入内容增强模块对I进行增强处理,得到具有不同风格的增强态眼底图像,再利用空间混合层将四张语义内容相同但风格不同的增强态眼底图像组合为一张合成的眼底图像IS,将IS发送给特征提取模块;具体方法如下:
3.4.3.1输入内容增强模块的第一到第四图像增强层分别对I进行数字图像处理,第一图像增强层对I进行亮度和对比度变换处理,得到变换处理后的眼底图像I1,第二图像增强层对I进行模糊化处理,得到模糊化处理后的眼底图像I2,第三图像增强层对I添加高斯噪声,得到添加了高斯噪声的眼底图像I3,第四图像增强层对I添加椒盐噪声,得到添加了椒盐噪声的眼底图像I4
3.4.3.2输入内容增强模块的随机空间掩码生成组件采用掩码采样方法随机地将I按照空间位置划分为四个不相交的子集,得到四个随机空间掩码,记为{M1,M2,M3,M4},随机空间掩码互不相交,且四个随机空间掩码的并集为I对应的全部空间位置。掩码采样方法是:
3.4.3.2.1从参数为α=1.0,β=1.0的伽马分布(详见网页https://baike.baidu.com/item/伽马分布/7245468)中随机采样高度比例rh(0≤rh≤1),计算随机高度位置random_h,
Figure BDA0003919275730000171
表示对x向上取整。
3.4.3.2.2从参数为α=1.0,β=1.0的伽马分布中随机采样宽度比例rw(0≤rw≤1),计算随机宽度位置random_w,
Figure BDA0003919275730000172
3.4.3.2.3在高度位置random_h处将I分为上下两个部分,再在宽度位置random_w处将两个部分各自进一步划分为左右两个部分,据此将I分为左上、左下、右上、右下四个部分,四个部分对应的空间位置掩码分别记为M1,M2,M3,M4,即为采样得到的随机空间掩码。
3.4.3.3根据随机空间掩码,输入内容增强模块中的图像混合层将I1,I2,I3,I4合成一张图像。合成方法是:
3.4.3.3.1选择I1中M1掩码对应的部分,作为合成图像的左上部分。
3.4.3.3.2选择I2中M2掩码对应的部分,作为合成图像的左下部分。
3.4.3.3.3选择I3中M3掩码对应的部分,作为合成图像的右上部分。
3.4.3.3.4选择I4中M4掩码对应的部分,作为合成图像的右下部分。
3.4.3.3.5将3.4.3.3.1-3.4.3.3.4得到的四个部分组合成新的图像,得到合成的眼底图像IS。将IS发送给特征提取模块。
3.4.4特征提取模块采用深度网络图像特征提取方法对IS进行像素级别的特征提取,得到特征矩阵F,提取过程是:
3.4.4.1第一卷积模块从输入内容增强模块接收IS,经过二维卷积、批量归一化、线性整流、最大池化得到浅层特征Flow。将Flow发送给第二卷积模块。
3.4.4.2第二卷积模块接收Flow,对Flow进行残差卷积,得到第一层残差特征Fres1。将Fres1发送给第三卷积模块。
3.4.4.3第三卷积模块接收Fres1,对Fres1进行残差卷积,得到第二层残差特征Fres2。将Fres2发送给第四卷积模块。
3.4.4.4第四卷积模块接收Fres2,对Fres2进行残差卷积,得到第三层残差特征Fres3。将Fres3发送给第五卷积模块。
3.4.4.5第五卷积模块接收Fres3,对Fres3进行残差卷积,得到第四层残差特征Fres4。将第四层残差特征Fres4作为特征矩阵F,F是四维特征矩阵(四个维度分别是:批量、通道、高度、宽度),将F发送给特征风格随机化模块。
3.4.5特征风格随机化模块接收特征矩阵F,通过调整F的统计量,改变F的分布特征,对F进行风格建模和风格随机化:风格建模得到F的归一化的特征矩阵Fn,建模得到均值为
Figure BDA0003919275730000181
标准差为
Figure BDA0003919275730000182
均值概率分布模型
Figure BDA0003919275730000183
和均值为
Figure BDA0003919275730000184
标准差为
Figure BDA0003919275730000185
均值概率分布模型
Figure BDA0003919275730000186
风格随机化得到风格随机化的特征矩阵FS;将FS发送给特征解码模块;具体方法是:
3.4.5.1计算F的通道级均值μF如公式(1)所示:
Figure BDA0003919275730000187
其中F(n,c,h,w)表示当F的批量维为n、通道维为c、高度维为h、宽度维为w时对应的特征值,公式(1)对F的批量、高度、宽度三个维度求平均,得到的μF是一个C通道的向量。
3.4.5.2计算F的通道级标准差σF,如公式(2)所示:
Figure BDA0003919275730000188
其中∈是为了避免数值计算不稳定的一个小常数(该常数取为1.0×10-6),公式(2)先对F批量、高度、宽度三个维度的方差求平均,然后开根号,得到的σF是一个C通道的向量。
3.4.5.3对F进行归一化处理,将F的每个通道数值变换到[0,1]之间,得到归一化的特征矩阵Fn,Fn=(F-μF)/σF
3.4.5.4建模特征的均值概率分布,建模方法是:
3.4.5.4.1计算μF的均值
Figure BDA0003919275730000191
其中
Figure BDA0003919275730000192
表示特征的第c个通道的均值,可从特征的通道级均值μF直接获取,1≤c≤C。
3.4.5.4.2计算μF的标准差
Figure BDA00039192757300001919
Figure BDA0003919275730000193
3.4.5.4.3将μF的均值概率分布表示为均值为
Figure BDA0003919275730000194
标准差为
Figure BDA0003919275730000195
的高斯分布,记为
Figure BDA0003919275730000196
为μF的概率分布模型。
3.4.5.5建模特征的标准差概率分布,建模方法是:
3.4.5.5.1计算σF的均值
Figure BDA0003919275730000197
其中
Figure BDA0003919275730000198
表示特征的第c个通道级的标准差,可从特征的通道级标准差σF直接获取。
3.4.5.5.2计算σF的均值
Figure BDA00039192757300001920
Figure BDA0003919275730000199
3.4.5.5.3将σF的标准差概率分布表示为均值为
Figure BDA00039192757300001910
标准差为
Figure BDA00039192757300001911
的高斯分布,记为:
Figure BDA00039192757300001912
为σF的概率分布模型。
3.4.5.6从
Figure BDA00039192757300001913
中随机采样新的特征均值μnew
3.4.5.7从
Figure BDA00039192757300001914
中随机采样新的特征标准差σnew
3.4.5.8调整F的统计量,改变F的分布特征,对F进行风格随机化,方法为:利用新的特征均值μnew和新的特征标准差σnew对归一化的特征矩阵Fn进行标准化处理,得到风格随机化的特征矩阵,记为FS,FS=Fn×σnewnew。将FS发送给特征解码模块。
3.4.6特征解码模块从特征风格随机化模块接收FS,对FS进行特征聚合,然后利用聚合后的特征预测眼底图像语义分割结果。方法是:
3.4.6.1特征解码模块的空洞空间金字塔池化层采用特征聚合方法对FS进行特征聚合,得到包含不同分辨率眼底图像信息的特征矩阵FASPP,方法是:
3.4.6.1.1第一空洞卷积层从特征风格随机化模块接收FS,经过空洞率为1的3×3空洞卷积得到感受野大小为3×3(即每个像素点汇聚该像素及其周围8个相邻像素的信息)、空间通道数为256的第一变换特征矩阵
Figure BDA00039192757300001915
3.4.6.1.2第二空洞卷积层从特征风格随机化模块接收FS,经过空洞率为12的3×3空洞卷积得到感受野大小为5×5(即每个像素点汇聚以该像素为中心的、大小为5×5的正方形区域覆盖的像素信息)、空间通道数为256的第二变换特征矩阵
Figure BDA00039192757300001916
3.4.6.1.3第三空洞卷积层从特征风格随机化模块接收FS,经过空洞率为24的3×3空洞卷积得到感受野大小为7×7(即每个像素点汇聚以该像素为中心的、大小为7×7的正方形区域覆盖的像素信息)、空间通道数为256的第三变换特征矩阵
Figure BDA00039192757300001917
3.4.6.1.4第四空洞卷积层从特征风格随机化模块接收FS,经过空洞率为36的3×3空洞卷积得到感受野大小为9×9(即每个像素点汇聚以该像素为中心的、大小为9×9的正方形区域覆盖的像素信息)、空间通道数为256的第四变换特征矩阵记为
Figure BDA00039192757300001918
3.4.6.1.5由于各空洞空间卷积处理得到的变换特征矩阵分辨率不一致,为便于聚合多个变换特征矩阵,将
Figure BDA0003919275730000201
利用双线性插值方法放大至与FS相同的分辨率。
3.4.6.1.6将
Figure BDA0003919275730000202
聚合,得到空间金字塔池化的特征,记为包含不同分辨率眼底图像信息的特征矩阵FASPP,聚合方法为:
Figure BDA0003919275730000203
FASPP空间通道数为256。将FASPP发送给特征解码模块的特征解码卷积层。
3.4.6.2特征解码卷积层从空洞空间金字塔池化层接收FASPP,采用分割结果预测方法,根据FASPP进行眼底图像语义分割结果预测,得到归一化的预测概率矩阵P′:
3.4.6.2.1特征解码模块卷积层利用卷积核大小为1×1的二维卷积将FASPP进行线性映射,得到空间通道数为2的预测概率矩阵P。
3.4.6.2.2利用Sigmoid函数对P进行归一化处理,将P中的矩阵值缩放调整至[0,1]之间,得到归一化的预测概率矩阵P′。
3.4.7根据真实的眼底图像分割标签G计算眼底图像I分割结果的损失值LossI
Figure BDA0003919275730000204
其中,G(b,c,h,w)表示真实的眼底图像分割标签G的位置(b,c,h,w)处(b表示G的批量维度索引,1≤b≤B;c表示G的通道维度索引,1≤c≤C;h表示G的高度维度索引,1≤h≤H;w表示G的宽度维度索引,1≤w≤W)的真实的眼底图像分割标签值;P′(b,c,h,w)表示位置(b,c,h,w)处的预测概率值。将第num_batch批次的损失值
Figure BDA0003919275730000205
设置为LossI,即令
Figure BDA0003919275730000206
Figure BDA0003919275730000207
3.4.8使用随机梯度下降(SGD)优化算法对
Figure BDA00039192757300002010
最小化,然后以反向传播的方式更新网络权重参数。
3.4.9令num_batch=num_batch+1,若num_batch≤max_batch,转3.4.1继续下一个批次眼底图像的训练;若num_batch>max_batch,转3.4.10。
3.4.10汇总当前epoch下各个批次损失值,求和之后取平均值得到当前epoch的损失值Losscur
Figure BDA0003919275730000208
Figure BDA0003919275730000209
对比Losscur与Losspre:若Losscur>Losspre,转3.4.11;若Losscur≤Losspre,则转3.4.12。
3.4.11令损失值无下降的累计迭代数numno-increase=numno-increase+1,若numno-increasc可被5整除,即(numno-increase%5)=0,说明在当前学习率下模型达到收敛状态,此时减小学习率继续进行学习:令learning_rate=learning_rate×0.9,令Losspre=Losscur,转3.4.12。若numno-increase不可被5整除,说明在当前学习率下模型仍未达到收敛状态,保持原学习率进行学习,令Losspre=Losscur,转3.4.12。
3.4.12令epoch=epoch+1,若epoch>E,或者Losscur≤0.01,说明眼底图像语义分割系统的网络结构seg_net达到预测精度要求,训练结束,转第四步;若epoch≤E且Losscur>0.01,说明当前网络结构还未收敛,继续进行训练,重新令num_batch=1,转3.4.13。
3.4.13对当前的网络结构seg_net权重参数进行眼底图像语义分割效果的验证,方法是:
3.4.13.1初始化验证集D中眼底图像计数参数numD=1,令验证集D中眼底图像计数总数为max_numD,将验证集D眼底图像“视盘”类别的Dice系数值
Figure BDA0003919275730000211
初始化为0,将验证集D眼底图像“视杯”类别的Dice系数值
Figure BDA0003919275730000212
初始化为0。
3.4.13.2特征提取模块从验证集D中提取第numD张眼底图像II及其对应的真实眼底图像语义分割标签GG,并采用3.4.4所述的深度网络图像特征提取方法对II进行像素级别的特征提取,得到特征矩阵FF,直接发送给特征解码模块。
3.4.13.3特征解码模块的空洞空间金字塔池化层采用3.4.6.1所述的特征聚合方法对FF进行特征聚合,得到II的包含不同分辨率眼底图像信息的特征矩阵FFASPP。将FFASPP发送给特征解码模块的特征解码卷积层。
3.4.13.4特征解码模块的特征解码卷积层从空洞空间金字塔池化层接收FFASPP,采用3.4.6.2所述的分割结果预测方法,根据FFASPP进行眼底图像语义分割结果预测,得到归一化的预测概率矩阵PP′。
3.4.13.5类别划分模块根据PP′的值判断眼底图像语义分割结果,得到预测的眼底图像语义分割结果PPafter,方法是:
3.4.13.5.1初始化预测二值矩阵P01=PP′,将预测的眼底图像语义分割结果PPafter初始化为全0矩阵。
3.4.13.5.2对P01进行二值化处理:将P01中大于0.75的矩阵值设置为1,否则设置为0。
3.4.13.5.3根据P01的值设置PPafter,具体设置方法是:若某一像素对应的P01矩阵两个通道值均为1,则该像素分割为“视杯”类别,该像素对应的PPafter矩阵值设为2;若某一像素对应的P01矩阵两个通道值中只有第一个通道为1,则该像素分割为“视盘”类别,该像素对应的PPafter矩阵值设为1;除了前述两种情况外的其余像素分割为“背景”类别,像素对应的PPafter矩阵值设为0。
3.4.13.5.4得到预测的眼底图像语义分割结果PPafter,转3.4.13.6。
3.4.13.6根据PPafter和GG计算第numD张眼底图像视杯分割及视盘分割的Dice系数,对眼底图像语义分割而言,分割结果包含2个类别,其中每个类别的Dice系数计算方式为:
Figure BDA0003919275730000213
(见文献“J.Bertls,T.Elebode,et al.Optimizing the DiceScore and Jaccard Index for Medical Image Segmentation:Theory&Practice[C],2019.”J.Bertls,T.Elebode等人的论文:用于医学图像语义分割的Dice系数和Jaccard指标:理论与实践),其中,Dicec表示第c个类别的Dice系数;TPc表示预测的眼底图像语义分割结果中预测为第c个类别且真实标签为第c个类别的像素数量(即预测正确的第c个类别正例数量);FPc表示预测的眼底图像语义分割结果中预测为第c个类别且真实标签不是第c个类别的像素数量(即预测错误的第c个类别负例数量);FNc表示预测的眼底图像语义分割结果中预测为非第c个类别且真实标签为第c个类别的像素数量(即预测错误的第c个类别正例数量)。
具体计算步骤包括:
3.4.13.6.1计算第numD张眼底图像“视盘”类别的TPc值,由于“视盘”类别为第1个类别,“视盘”类别的TPc值为满足PPafter=1且GG=1(预测的眼底图像语义分割结果中预测为第1个类别,且真实标签是第1个类别)的像素总数,记为TP1,即:TP1
Figure BDA0003919275730000221
其中,
Figure BDA0003919275730000222
表示条件指示矩阵、初始化为全零矩阵,满足下标条件的条件指示矩阵值设置为1,否则设置为0。
3.4.13.6.2计算第numD张眼底图像“视盘”类别的FPc值,“视盘”类别的FPc值为满足PPafter=1且GG≠1(预测的眼底图像语义分割结果是第1个类别,但真实标签不是第1个类别)的像素数量,记为FP1,即:
Figure BDA0003919275730000223
3.4.13.6.3计算第numD张眼底图像“视盘”类别的FNc值,“视盘”类别的FNc值为满足PPafter≠1且GG=1(预测的眼底图像语义分割结果不是第1个类别,但真实标签是第1个类别)的像素数量,记为FN1,即:
Figure BDA0003919275730000224
3.4.13.6.4计算第numD张眼底图像“视盘”类别的Dice系数值,记为
Figure BDA0003919275730000225
Figure BDA0003919275730000226
3.4.13.6.5计算第numD张眼底图像“视杯”类别的TPc值,由于“视杯”类别为第2个类别,“视杯”类别的TPc值为满足PPafter=2且GG=2(预测的眼底图像语义分割结果是第2个类别,且真实标签是第2个类别)的像素数量,记为TP2,即:
Figure BDA0003919275730000227
Figure BDA0003919275730000228
3.4.13.6.6计算第numD张眼底图像“视杯”类别的FPc值,“视杯”类别的FPc值为满足PPafter=2且GG≠2(预测的眼底图像语义分割结果是第2个类别,但真实标签不是第2个类别)的像素数量,记为FP2,即:
Figure BDA0003919275730000229
3.4.13.6.7计算第numD张眼底图像“视杯”类别的FNc值,“视杯”类别的FNc值为满足PPafter≠2且GG=2(预测的眼底图像语义分割结果不是第2个类别,但真实标签是第2个类别)的像素数量,记为FN2,即:
Figure BDA00039192757300002210
3.4.13.6.8计算第numD张眼底图像“视杯”类别的Dice系数值,记为
Figure BDA00039192757300002211
Figure BDA00039192757300002212
3.4.13.6.9令
Figure BDA00039192757300002213
Figure BDA00039192757300002214
令numD=numD+1,若numD<max_numD,转3.4.13.2继续处理D中的下一张眼底图像;若numD≥max_numD,转3.4.13.7。
3.4.13.7令
Figure BDA00039192757300002215
Figure BDA00039192757300002216
计算得到
Figure BDA00039192757300002217
以及
Figure BDA00039192757300002218
计算两个Dice系数的平均值
Figure BDA00039192757300002219
Figure BDA00039192757300002220
3.4.13.8保存完成第epoch-1次训练后的seg_net的权重参数及其对应的Dice系数平均值
Figure BDA0003919275730000231
转3.4.1继续第epoch次训练。
第四步:从第三步中保存的多个seg_net的权重参数中选择
Figure BDA0003919275730000232
值最高的权重参数,加载到眼底图像语义分割系统的网络结构中,得到训练后的眼底图像语义分割系统。
第五步:训练后的眼底图像语义分割系统对用户输入的眼底图像进行预处理,并进行眼底图像语义分割,得到眼底图像的视盘及视杯分割结果,方法是:
5.1训练后的眼底图像语义分割系统接收用户输入的眼底图像Iuser,直接发送到特征提取模块。
5.2特征提取模块采用3.4.4所述的深度网络图像特征提取方法对Iuser进行像素级别的特征提取,得到特征矩阵Fuser
5.3特征解码模块的空洞空间金字塔池化层采用3.4.6.1所述的特征聚合方法对Fuser进行特征聚合,得到Iuser的包含不同分辨率眼底图像信息的特征矩阵UFASPP,将UFASPP发送给特征解码模块的特征解码卷积层。
5.4特征解码模块的特征解码卷积层从空洞空间金字塔池化层接收UFASPP,采用3.4.6.2步所述的分割结果预测方法,根据UFASPP进行眼底图像语义分割结果预测,得到归一化的预测概率矩阵UP′,发送给类别划分模块。
5.5类别划分模块采用3.4.13.5所述的结果划分方法,根据UP′的值判断眼底图像语义分割结果,得到预测的眼底图像语义分割结果PPuser。PPuser值为0表示将眼底图像划分为“背景”类别,PPuser值为1表示将眼底图像划分为“视盘”类别,PPuser值为2表示将眼底图像划分为“视杯”类别。
为了测试本发明的眼底图像语义分割效果,选取眼底图像语义分割中测试集S的60张眼底图像作为最终的测试集数据,对本发明进行了眼底图像语义分割的Dice数值测试,实验的系统环境为实验的系统环境为乌班图20.04版本(即Ubuntu 20.04,Linux系统的一个版本),搭载英特尔E5-1620v4系列的中央处理器,处理频率为3.50GHz,另外配有一块英伟达GeForce RTX 3090图像处理器,CUDA核心数为10496,核心频率为210MHz,显存容量为24GB。实验时,3.2步的学习率(1earning_rate)为2.5×10-4,批处理尺寸(batch size)为6,训练迭代轮数E为200。测试方法包括以下步骤:
测试第一步,初始化测试集S中眼底图像计数参数numS=1,令测试集S中眼底图像计数总数为max_numS,将测试集S眼底图像“视盘”类别的Dice系数值初始化为
Figure BDA0003919275730000233
Figure BDA0003919275730000234
将测试集S眼底图像“视杯”类别的Dice系数值初始化为
Figure BDA0003919275730000235
测试第二步,特征提取模块从测试集S中提取第nums张眼底图像III及其对应的真实眼底图像语义分割标签GGG,并采用3.4.4所述的深度网络图像特征提取方法对III进行像素级别的特征提取,得到特征矩阵FFF,直接发送给特征解码模块。
测试第三步,特征解码模块的空洞空间金字塔池化层采用3.4.6.1所述的特征聚合方法对FFF进行特征聚合,得到III的包含不同分辨率眼底图像信息的特征矩阵FFFASPP。将FFFASPP发送给特征解码模块的特征解码卷积层。
测试第四步,特征解码模块的特征解码卷积层从空洞空间金字塔池化层接收FFFASPP,采用3.4.6.2所述的分割结果预测方法,根据FFFASPP进行眼底图像语义分割结果预测,得到归一化的预测概率矩阵PPP′,发送给类别划分模块。
测试第五步,类别划分模块采用3.4.13.5所述的结果划分方法,根据PPP′的值判断眼底图像语义分割结果,得到预测的眼底图像语义分割结果PPPafter。PPPafter值为0表示将眼底图像划分为“背景”类别,PPPafter值为1表示将眼底图像划分为“视盘”类别,PPPafter值为2表示将眼底图像划分为“视杯”类别。
测试第六步,按照3.4.13.6.1-3.4.13.6.8所述的计算方法得到第numS张眼底图像“视盘”、“视杯”类别的Dice系数值,分别记为
Figure BDA0003919275730000241
测试第七步,令
Figure BDA0003919275730000242
Figure BDA0003919275730000243
令numS=numS+1,若numS<max_numS,转4.2继续处理S中的下一张眼底图像;若numS≥max_numS,转4.8。
测试第八步,令
Figure BDA0003919275730000244
Figure BDA0003919275730000245
计算得到测试集S上的视盘分割Dice系数,即
Figure BDA0003919275730000246
以及测试集S上的视杯分割Dice系数,即
Figure BDA0003919275730000247
计算两个Dice系数的平均值,记为
Figure BDA0003919275730000248
经过测试,本发明利用来自REFUGE数据集的训练集T和验证集D训练眼底图像语义分割系统后,在来自RIM-ONE-r3数据集的测试集上达到的Dice系数值为
Figure BDA0003919275730000249
Figure BDA00039192757300002411
在本实验环境下,由表1可见,和背景技术所述的其他方法相比,本发明提出的基于领域泛化的眼底图像语义分割方法有效改进了眼底图像语义分割效果。表2对比了采用本发明中的输入内容增强模块和特征随机风格化模块后的眼底图像语义分割效果,表2表现出本发明在同时采用输入内容增强模块和特征随机风格化模块后分割效果的优越性。
表1
Figure BDA00039192757300002410
Figure BDA0003919275730000251
表2
Figure BDA0003919275730000252
本发明针对的场景是一种考虑不同医疗机构数据差异性的眼底图像语义分割方法,希望利用领域泛化技术,进一步增强单个医疗机构对自身眼底图像数据特征风格的利用,使其得到的眼底图像语义分割模型在作用到不同医疗机构时能保持较高的Dice系数值。
实验表明,本发明对作用到不同医疗机构的眼底图像语义分割模型具有一定的提升效果。综合表1和表2所示,可以发现三点:
1、在输入内容增强模块的作用下(见表2),眼底图像语义分割模型在作用到不同医疗机构时的Dice系数值有一定的提升,但是提升幅度不大。
2、在特征风格随机化模块的作用下(见表2),眼底图像语义分割模型在作用到不同医疗机构时的Dice系数值有提升,且提升幅度大于特征风格随机化模块。
3、与目前已有的眼底图像语义分割方法相比(见表1),本发明在Dice系数值上超过以往模型的最佳Dice系数值,即使与目前最好的模型(TASD方法)进行比较,本发明相比目前已有的眼底图像语义分割方法可以在Dice系数值上提升五个百分点左右。
随着神经网络的出现,众多模型的效果都有了质的飞跃,到达了一定的顶峰,模型效果的提升幅度也逐渐变得缓慢,往往一个有效的改进即使只能对模型的效果提升零点几个百分点,也会得到学术界的认可。同时,一些方法(如表1中的“基于测试时自适应和形状预测的眼底图像语义分割方法”)需要在系统中引入除了眼底图像语义分割任务之外的辅助任务,这些辅助任务的学习通常带来不可忽略的计算开销;与这类方法不同,和眼底图像语义分割模型的计算开销相比,本发明的输入内容增强模块和特征风格随机化模块引入的计算开销可以忽略不记。在此条件下,本发明仍然可以在目前最好模型的基础上,衡量指标数值有五个百分点的提升,证明了本发明的先进性。
因此本发明实现了利用领域泛化技术提高眼底图像语义分割的效果。
以上对本发明所提供的一种基于领域泛化的眼底图像语义分割方法进行了详细介绍。本文对本发明的原理及实施方式进行了阐述,以上说明用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通研究人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (8)

1.一种基于领域泛化的眼底图像语义分割方法,其特征在于包括以下步骤:
第一步:构建眼底图像语义分割系统,眼底图像语义分割系统由输入内容增强模块、特征提取模块、特征风格随机化模块、特征解码模块、类别划分模块构成;
输入内容增强模块与特征提取模块相连,功能是预处理输入的眼底图像,由四个图像增强层和一个空间混合层构成;输入内容增强模块以输入的眼底图像为基础,得到具有不同风格的增强态眼底图像,再利用空间混合层将四张语义内容相同但风格不同的增强态眼底图像组合为一张合成的眼底图像,发送给特征提取模块;
四个图像增强层利用数字图像处理技术并行对输入的眼底图像进行变换,第一到第四图像增强层分别对应四种变换操作:亮度和对比度变换、模糊化、添加高斯噪声、添加椒盐噪声;
空间混合层由随机空间掩码生成组件和图像混合层组成;随机空间掩码生成组件将一张眼底图像随机地划分为四个空间不相交的区域,得到四个不同的空间掩码,四个空间掩码两两不相交,且四个空间掩码的并集覆盖整张眼底图像对应的全部位置;图像混合层将四个空间掩码与从四个图像增强层得到的增强态眼底图像组合随机对应,并根据空间掩码位置将四张增强态眼底图像组合成为一张合成的眼底图像,将合成的眼底图像输入特征提取模块;
特征提取模块是一个卷积神经网络,与输入内容增强模块和特征风格随机化模块相连;在训练阶段,特征提取模块从输入内容增强模块接收合成的眼底图像,为合成的眼底图像提取特征;在验证阶段或测试阶段,特征提取模块直接接收眼底图像,为眼底图像提取特征;特征提取模块由五个卷积模块构成,其中第一卷积模块由一个二维卷积层、一个批量归一化层、一个线性整流、一个最大池化层组成;第一卷积模块从合成的眼底图像提取浅层特征矩阵;第二至第五卷积模块均由一个残差块组成,第二卷积模块从第一卷积模块接收浅层特征,经过残差卷积操作后得到残差特征,第三至第五卷积模块按顺序对残差特征进行残差卷积操作,第五卷积模块输出通道数为2048的特征矩阵;在训练阶段,第五卷积模块将该特征矩阵发送给特征风格随机化模块;在验证阶段或测试阶段,第五卷积模块将该特征矩阵发送给特征解码模块;
特征风格随机化模块是一个前向网络,与特征提取模块和特征解码模块相连;特征风格随机化模块从特征提取模块接收特征矩阵,对特征矩阵进行风格化处理,得到风格随机化的特征矩阵;特征风格随机化模块由特征归一化层、特征风格采样层和特征标准化层组成;特征归一化层利用特征矩阵通道级的均值和标准差对特征矩阵进行归一化处理,得到归一化的特征矩阵;特征矩阵为四维矩阵,包括批量维度、通道维度、高度维度和宽度维度;特征风格采样层利用特征矩阵通道维度的均值建模均值高斯分布,从均值高斯分布中采样随机特征均值;同时,特征风格采样层利用特征矩阵通道维度的标准差建模标准差高斯分布,从标准差高斯分布中采样随机特征标准差;特征标准化层利用特征风格采样层得到的随机特征均值和随机特征标准差,对归一化的特征矩阵进行标准化处理,得到标准化的特征矩阵,将标准化的特征矩阵称为风格化随机化特征矩阵,并将风格随机化特征矩阵发送给特征解码模块;
特征解码模块是一个卷积神经网络,与特征风格随机化模块及特征提取模块相连;在训练阶段,特征解码模块从特征风格随机化模块接收风格随机化特征矩阵,对风格随机化特征矩阵进行特征解码,得到预测概率矩阵;在验证阶段或测试阶段,特征解码模块直接从特征提取模块接收特征矩阵,对特征矩阵进行特征解码;特征解码模块由一个空洞空间金字塔池化层和一个特征解码卷积层构成;空洞空间金字塔池化层包括四个空洞卷积层和一个加法器;第一到第四空洞卷积层并行地从特征解码模块接收风格随机化特征矩阵,并行地对风格随机化特征矩阵进行不同空洞率的卷积操作,提取得到4个不同分辨率的输出特征;加法器对4个不同分辨率的输出特征求和,得到汇聚了不同分辨率信息的特征,称为汇聚特征矩阵,通道数为256;特征解码卷积层对汇聚特征矩阵进行特征解码,将汇聚特征矩阵的通道数降低到眼底图像语义分割的类别数量2,即视盘和视杯2类,得到预测概率矩阵,发送给类别划分模块;
类别划分模块是一个无参数的前向传播模块,与特征解码模块相连,从特征解码模块接收预测概率矩阵,得到最终的眼底图像语义分割结果;
特征提取模块的卷积神经网络,特征风格随机化模块中的前向网络,特征解码模块的特征解码卷积层,一起构成眼底图像语义分割模型,是眼底图像语义分割系统中的网络结构,该网络结构统称为seg_net;
第二步:准备眼底图像数据集;从REFUGE数据集选择包含400张眼底图像的子集,按照4∶1的比例划分为训练集T和验证集D;对RIM-ONE-r3数据集中的159张眼底图像进行随机排序,选取排序结果中最后60张眼底图像作为测试集S;
第三步:使用随机梯度下降方法对第一步眼底图像语义分割系统的网络结构进行训练,得到特征提取模块、特征风格随机化模块、特征解码模块中的网络的最佳权重参数;方法是:
3.1初始化权重参数,将seg_net中的权重参数集合
Figure FDA0004144522490000021
中所有二维卷积层参数都初始化为[0,1]之间的随机数,所有批量归一化层中的均值参数初始化为0、标准差参数初始化为1;其中,
Figure FDA0004144522490000022
表示seg_net中特征提取模块包含的网络结构的权重参数,
Figure FDA0004144522490000023
表示seg_net中特征风格随机化模块包含的网络结构的权重参数,
Figure FDA0004144522490000024
表示seg_net中特征解码模块的特征解码卷积层包含的网络结构的权重参数;
3.2设置网络训练参数,包括初始化学习率learning_rate和训练迭代轮数E,并将批处理尺寸batch_size记为批量维度B,B表示当前第num_batch批包含B张眼底图像;
3.3初始化训练迭代参数为epoch=1,初始化批次迭代参数num_batch=1,定义训练集T中的眼底图像数目为numT,最大批次大小
Figure FDA0004144522490000025
Figure FDA0004144522490000031
表示对numT/batch_size向上取整;初始化损失值无下降的累计迭代数numno-increase=0,初始化第0轮训练的损失值Losspre=0;
3.4训练眼底图像语义分割系统,方法是:将应用当前seg_net权重参数的眼底图像语义分割系统进行眼底图像语义分割得到的分割结果与实际分割结果之间的差距作为损失值,不断最小化损失值并更新seg_net的权重参数,直到满足迭代轮数E,或者出现训练终止条件,终止训练;每次训练的一个迭代结束后,使用验证集D的图像对当前seg_net权重参数下眼底图像语义分割系统进行验证,保存在验证集D上效果优异的seg_net的参数权重;具体方法如下:
3.4.1输入内容增强模块从训练集T中取出第num_batch批共batch_size张眼底图像;
3.4.2第num_batch批共包含B张眼底图像,将B张眼底图像拼接得到四维矩阵I,I的形状为B×3×H×W,3为通道维度,H为眼底图像的高度,W为眼底图像的宽度;
3.4.3输入内容增强模块对I进行增强处理,得到具有不同风格的增强态眼底图像,再利用空间混合层将四张语义内容相同但风格不同的增强态眼底图像组合为一张合成的眼底图像IS,将IS发送给特征提取模块;
3.4.4特征提取模块采用深度网络图像特征提取方法对IS进行像素级别的特征提取,得到特征矩阵F,F是四维特征矩阵,四个维度分别是:批量、通道、高度、宽度,将F发送给特征风格随机化模块;
3.4.5特征风格随机化模块接收特征矩阵F,通过调整F的统计量,改变F的分布特征,对F进行风格建模和风格随机化:风格建模得到F的归一化的特征矩阵Fn,建模得到均值为
Figure FDA0004144522490000038
标准差为
Figure FDA0004144522490000039
的均值概率分布模型
Figure FDA0004144522490000032
和均值为
Figure FDA00041445224900000311
标准差为
Figure FDA00041445224900000310
的均值概率分布模型
Figure FDA0004144522490000033
风格随机化得到风格随机化的特征矩阵FS;将FS发送给特征解码模块;
3.4.6特征解码模块从特征风格随机化模块接收FS,对FS进行特征聚合,然后利用聚合后的特征预测眼底图像语义分割结果,方法是:
3.4.6.1特征解码模块的空洞空间金字塔池化层采用特征聚合方法对FS进行特征聚合,得到包含不同分辨率眼底图像信息的特征矩阵FASPP,方法是:
3.4.6.1.1第一空洞卷积层从特征风格随机化模块接收FS,经过空洞率为1的3×3空洞卷积得到感受野大小为3×3、空间通道数为256的第一变换特征矩阵
Figure FDA0004144522490000034
3.4.6.1.2第二空洞卷积层从特征风格随机化模块接收FS,经过空洞率为12的3×3空洞卷积得到感受野大小为5×5、空间通道数为256的第二变换特征矩阵
Figure FDA0004144522490000035
3.4.6.1.3第三空洞卷积层从特征风格随机化模块接收FS,经过空洞率为24的3×3空洞卷积得到感受野大小为7×7、空间通道数为256的第三变换特征矩阵
Figure FDA0004144522490000036
3.4.6.1.4第四空洞卷积层从特征风格随机化模块接收FS,经过空洞率为36的3×3空洞卷积得到感受野大小为9×9、空间通道数为256的第四变换特征矩阵记为
Figure FDA0004144522490000037
3.4.6.1.5将
Figure FDA0004144522490000041
利用双线性插值方法放大至与FS相同的分辨率,分辨率放大后的
Figure FDA0004144522490000042
Figure FDA0004144522490000043
表示;
3.4.6.1.6将
Figure FDA0004144522490000044
聚合,得到空间金字塔池化的特征,记为包含不同分辨率眼底图像信息的特征矩阵FASPP,聚合方法为:
Figure FDA0004144522490000045
Figure FDA0004144522490000046
FASPP空间通道数为256;将FASPP发送给特征解码模块的特征解码卷积层;
3.4.6.2特征解码卷积层从空洞空间金字塔池化层接收FASPP,采用分割结果预测方法,根据FASPP进行眼底图像语义分割结果预测,得到归一化的预测概率矩阵P′:
3.4.6.2.1特征解码模块卷积层利用卷积核大小为1×1的二维卷积将FASPP进行线性映射,得到空间通道数为2的预测概率矩阵P;
3.4.6.2.2利用Sigmoid函数对P进行归一化处理,将P中的矩阵值缩放调整至[0,1]之间,得到归一化的预测概率矩阵P′;
3.4.7根据真实的眼底图像分割标签G计算眼底图像I分割结果的损失值LossI
Figure FDA0004144522490000047
其中,G(b,c,h,w)表示真实的眼底图像分割标签G的位置(b,c,h,w)处的真实的眼底图像分割标签值;P′(b,c,h,w)表示位置(b,c,h,w)处的预测概率值,b表示G的批量维度索引,1≤b≤B;c表示G的通道维度索引,1≤c≤C;h表示G的高度维度索引,1≤h≤H;w表示G的宽度维度索引,1≤w≤W;将第num_batch批次的损失值
Figure FDA0004144522490000048
设置为LossI,即令
Figure FDA0004144522490000049
3.4.8使用随机梯度下降优化算法对
Figure FDA00041445224900000410
最小化,然后以反向传播的方式更新网络权重参数;
3.4.9令num_batch=num_batch+1,若num_batch≤max_batch,转3.4.1继续下一个批次眼底图像的训练;若num_batch>max_batch,转3.4.10;
3.4.10汇总当前epoch下各个批次损失值,求和之后取平均值得到当前epoch的损失值Losscur
Figure FDA00041445224900000411
Figure FDA00041445224900000412
对比Losscur与Losspre:若Losscur>Losspre,转3.4.11;若Losscur≤Losspre,则转3.4.12;
3.4.11令损失值无下降的累计迭代数numno-increase=numno-increase+1,若numno-increase可被5整除,则减小学习率继续进行学习:令learning_rate=learning_rate×0.9,令Losspre=Losscur,转3.4.12;若numno-increase不可被5整除,令Losspre=Losscur,转3.4.12;
3.4.12令epoch=epoch+1,若epoch>E,或者满足训练终止条件即Losscur≤0.01,说明眼底图像语义分割系统的网络结构seg_net达到预测精度要求,训练结束,转第四步;若epoch≤E且Losscur>0.01,说明当前网络结构还未收敛,继续进行训练,重新令num_batch=1,转3.4.13;
3.4.13对当前的网络结构seg_net权重参数进行眼底图像语义分割效果的验证,方法是:
3.4.13.1初始化验证集D中眼底图像计数参数numD=1,令验证集D中眼底图像计数总数为max_numD,将验证集D眼底图像“视盘”类别的Dice系数值
Figure FDA0004144522490000051
初始化为0,将验证集D眼底图像“视杯”类别的Dice系数值
Figure FDA0004144522490000052
初始化为0;
3.4.13.2特征提取模块从验证集D中提取第numD张眼底图像II及其对应的真实眼底图像语义分割标签GG,并采用3.4.4所述的深度网络图像特征提取方法对II进行像素级别的特征提取,得到特征矩阵FF,直接发送给特征解码模块;
3.4.13.3特征解码模块的空洞空间金字塔池化层采用3.4.6.1所述的特征聚合方法对FF进行特征聚合,得到II的包含不同分辨率眼底图像信息的特征矩阵FFASPP;将FFASPP发送给特征解码模块的特征解码卷积层;
3.4.13.4特征解码模块的特征解码卷积层从空洞空间金字塔池化层接收FFASPP,采用3.4.6.2所述的分割结果预测方法,根据FFASPP进行眼底图像语义分割结果预测,得到归一化的预测概率矩阵PP′;
3.4.13.5类别划分模块采用结果划分方法根据PP′的值判断眼底图像语义分割结果,得到预测的眼底图像语义分割结果PPafter,方法是:
3.4.13.5.1初始化预测二值矩阵P01=PP′,将预测的眼底图像语义分割结果PPafter初始化为全0矩阵;
3.4.13.5.2对P01进行二值化处理:将P01中大于0.75的矩阵值设置为1,否则设置为0;
3.4.13.5.3根据P01的值设置PPafter方法是:若某一像素对应的P01矩阵两个通道值均为1,则该像素分割为“视杯”类别,该像素对应的PPafter矩阵值设为2;若某一像素对应的P01矩阵两个通道值中只有第一个通道为1,则该像素分割为“视盘”类别,该像素对应的PPafter矩阵值设为1;除了前述两种情况外的其余像素分割为“背景”类别,像素对应的PPafter矩阵值设为0;
3.4.13.5.4得到预测的眼底图像语义分割结果PPafter,转3.4.13.6;
3.4.13.6根据PPafter和GG计算第numD张眼底图像视杯分割及视盘分割的Dice系数,对眼底图像语义分割而言,分割结果包含2个类别,其中每个类别的Dice系数计算方式为:
Figure FDA0004144522490000053
其中,Dicec表示第c个类别的Dice系数;TPc表示预测的眼底图像语义分割结果中预测为第c个类别且真实标签为第c个类别的像素数量;FPc表示预测的眼底图像语义分割结果中预测为第c个类别且真实标签不是第c个类别的像素数量;FNc表示预测的眼底图像语义分割结果中预测为非第c个类别且真实标签为第c个类别的像素数量,具体步骤包括:
3.4.13.6.1计算第numD张眼底图像“视盘”类别的TPc值,“视盘”类别的TPc值为满足PPafter=1且GG=1的像素总数,记为TP1,即:
Figure FDA0004144522490000054
其中,
Figure FDA0004144522490000055
表示条件指示矩阵、初始化为全零矩阵,满足下标条件的条件指示矩阵值设置为1,否则设置为0;
3.4.13.6.2计算第numD张眼底图像“视盘”类别的FPc值,“视盘”类别的FPc值为满足PPafter=1且GG≠1的像素数量,记为FP1,即:
Figure FDA0004144522490000061
3.4.13.6.3计算第numD张眼底图像“视盘”类别的FNc值,“视盘”类别的FNc值为满足PPafter≠1且GG=1的像素数量,记为FN1,即:
Figure FDA0004144522490000062
3.4.13.6.4计算第numD张眼底图像“视盘”类别的Dice系数值,记为
Figure FDA0004144522490000063
Figure FDA0004144522490000064
3.4.13.6.5计算第numD张眼底图像“视杯”类别的TPc值,由于“视杯”类别为第2个类别,“视杯”类别的TPc值为满足PPafter=2且GG=2的像素数量,记为TP2,即:
Figure FDA0004144522490000065
3.4.13.6.6计算第numD张眼底图像“视杯”类别的FPc值,“视杯”类别的FPc值为满足PPafter=2且GG≠2的像素数量,记为FP2,即:
Figure FDA0004144522490000066
3.4.13.6.7计算第numD张眼底图像“视杯”类别的FNc值,“视杯”类别的FNc值为满足PPafter≠2且GG=2的像素数量,记为FN2,即:
Figure FDA0004144522490000067
3.4.13.6.8计算第numD张眼底图像“视杯”类别的Dice系数值,记为
Figure FDA0004144522490000068
Figure FDA0004144522490000069
3.4.13.6.9令
Figure FDA00041445224900000610
Figure FDA00041445224900000611
令numD=numD+1,若numD<max_numD,转3.4.13.2继续处理D中的下一张眼底图像;若numD≥max_numD,转3.4.13.7;
3.4.13.7令
Figure FDA00041445224900000612
Figure FDA00041445224900000613
计算得到
Figure FDA00041445224900000614
以及
Figure FDA00041445224900000615
计算两个Dice系数的平均值
Figure FDA00041445224900000616
Figure FDA00041445224900000617
3.4.13.8保存完成第epoch-1次训练后的seg_net的权重参数及其对应的Dice系数平均值
Figure FDA00041445224900000618
转3.4.1继续第epoch次训练;
第四步:从第三步中保存的多个seg_net的权重参数中选择
Figure FDA00041445224900000619
值最高的权重参数,加载到眼底图像语义分割系统的网络结构中,得到训练后的眼底图像语义分割系统;
第五步:训练后的眼底图像语义分割系统对用户输入的眼底图像进行预处理,并进行眼底图像语义分割,得到眼底图像的视盘及视杯分割结果,方法是:
5.1训练后的眼底图像语义分割系统的特征提取模块接收用户输入的眼底图像Iuser
5.2特征提取模块采用3.4.4所述的深度网络图像特征提取方法对Iuser进行像素级别的特征提取,得到特征矩阵Fuser
5.3特征解码模块的空洞空间金字塔池化层采用3.4.6.1所述的特征聚合方法对Fuser进行特征聚合,得到Iuser的包含不同分辨率眼底图像信息的特征矩阵UFASPP,将UFASPP发送给特征解码模块的特征解码卷积层;
5.4特征解码模块的特征解码卷积层从空洞空间金字塔池化层接收UFASPP,采用3.4.6.2步所述的分割结果预测方法,根据UFASPP进行眼底图像语义分割结果预测,得到归一化的预测概率矩阵UP′,发送给类别划分模块;
5.5类别划分模块采用3.4.13.5所述的结果划分方法,根据UP′的值判断眼底图像语义分割结果,得到预测的眼底图像语义分割结果PPuser;PPuser值为0表示将眼底图像划分为“背景”类别,PPuser值为1表示将眼底图像划分为“视盘”类别,PPuser值为2表示将眼底图像划分为“视杯”类别。
2.如权利要求1所述的一种基于领域泛化的眼底图像语义分割方法,其特征在于所述特征提取模块的第一卷积模块中的二维卷积层的输入通道数为3、输出通道数为32,卷积核大小为5×5、步长为1、填充为1,第一卷积模块中的最大池化层的核大小为3×3,步长为2;所述特征解码模块的空洞空间金字塔池化层中的第一到第四空洞卷积层的输入通道数均为2048,输出通道数均为256,卷积核大小均为3×3,步长均为1,空洞率分别为1、12、24、36,填充分别为1、12、24、36。
3.如权利要求1所述的一种基于领域泛化的眼底图像语义分割方法,其特征在于3.2步所述学习率learning_rate初始化为2.5×10-4,所述批量维度B=6,所述训练迭代轮数E初始化为200。
4.如权利要求1所述的一种基于领域泛化的眼底图像语义分割方法,其特征在于3.4.3步所述输入内容增强模块对I进行增强处理,得到合成的眼底图像IS的方法是:
3.4.3.1输入内容增强模块的第一到第四图像增强层分别对I进行数字图像处理,第一图像增强层对I进行亮度和对比度变换处理,得到变换处理后的眼底图像I1,第二图像增强层对I进行模糊化处理,得到模糊化处理后的眼底图像I2,第三图像增强层对I添加高斯噪声,得到添加了高斯噪声的眼底图像I3,第四图像增强层对I添加椒盐噪声,得到添加了椒盐噪声的眼底图像I4
3.4.3.2输入内容增强模块的随机空间掩码生成组件采用掩码采样方法随机地将I按照空间位置划分为四个不相交的子集,得到四个随机空间掩码,记为{M1,M2,M3,M4},随机空间掩码互不相交,且四个随机空间掩码的并集为I对应的全部空间位置;
3.4.3.3根据随机空间掩码,输入内容增强模块中的图像混合层将I1,I2,I3,I4合成一张图像;合成方法是:
3.4.3.3.1选择I1中M1掩码对应的部分,作为合成图像的左上部分;
3.4.3.3.2选择I2中M2掩码对应的部分,作为合成图像的左下部分;
3.4.3.3.3选择I3中M3掩码对应的部分,作为合成图像的右上部分;
3.4.3.3.4选择I4中M4掩码对应的部分,作为合成图像的右下部分;
3.4.3.3.5将3.4.3.3.1-3.4.3.3.4得到的四个部分组合成新的图像,得到合成的眼底图像IS
5.如权利要求4所述的一种基于领域泛化的眼底图像语义分割方法,其特征在于3.4.3.2步所述输入内容增强模块的随机空间掩码生成组件采用掩码采样方法随机地将I按照空间位置划分为四个不相交的子集,得到四个随机空间掩码的方法是:
3.4.3.2.1从参数为α=1.0,β=1.0的伽马分布中随机采样高度比例rh,0≤rh≤1,计算随机高度位置random_h,
Figure FDA0004144522490000081
Figure FDA0004144522490000082
表示对x向上取整;
3.4.3.2.2从参数为α=1.0,β=1.0的伽马分布中随机采样宽度比例rw,0≤rw≤1,计算随机宽度位置random_w,
Figure FDA0004144522490000083
3.4.3.2.3在高度位置random_h处将I分为上下两个部分,再在宽度位置random_w处将两个部分各自进一步划分为左右两个部分,据此将I分为左上、左下、右上、右下四个部分,四个部分对应的空间位置掩码分别记为M1,M2,M3,M4,即为采样得到的随机空间掩码。
6.如权利要求1所述的一种基于领域泛化的眼底图像语义分割方法,其特征在于3.4.4步所述特征提取模块采用深度网络图像特征提取方法对IS进行像素级别的特征提取,得到特征矩阵F的方法是:
3.4.4.1第一卷积模块从输入内容增强模块接收IS,经过二维卷积、批量归一化、线性整流、最大池化得到浅层特征Flow;将Flow发送给第二卷积模块;
3.4.4.2第二卷积模块接收Flow,对Flow进行残差卷积,得到第一层残差特征Fres1;将Fres1发送给第三卷积模块;
3.4.4.3第三卷积模块接收Fres1,对Fres1进行残差卷积,得到第二层残差特征Fres2;将Fres2发送给第四卷积模块;
3.4.4.4第四卷积模块接收Fres2,对Fres2进行残差卷积,得到第三层残差特征Fres3;将Fres3发送给第五卷积模块;
3.4.4.5第五卷积模块接收Fres3,对Fres3进行残差卷积,得到第四层残差特征Fres4;将第四层残差特征Fres4作为特征矩阵F。
7.如权利要求1所述的一种基于领域泛化的眼底图像语义分割方法,其特征在于3.4.5步所述特征风格随机化模块对F进行风格建模和风格随机化的方法是:
3.4.5.1计算F的通道级均值μF,如公式(1)所示:
Figure FDA0004144522490000084
其中F(n,c,h,w)表示当F的批量维为n、通道维为c、高度维为h、宽度维为w时对应的特征值,μF是一个C通道的向量;
3.4.5.2计算F的通道级标准差σF,如公式(2)所示:
Figure FDA0004144522490000085
其中ε是为了避免数值计算不稳定的一个常数,取为1.0×10-6,σF是一个C通道的向量;
3.4.5.3对F进行归一化处理,将F的每个通道数值变换到[0,1]之间,得到归一化的特征矩阵Fn,Fn=(F-μF)/σF
3.4.5.4建模特征的均值概率分布,建模方法是:
3.4.5.4.1计算μF的均值
Figure FDA0004144522490000091
其中
Figure FDA0004144522490000092
表示特征的第c个通道的均值,从特征的通道级均值μF直接获取,1≤c≤C;
3.4.5.4.2计算μF的均值
Figure FDA0004144522490000093
3.4.5.4.3将μF的概率分布表示为均值为
Figure FDA0004144522490000094
标准差为
Figure FDA0004144522490000095
的高斯分布,记为
Figure FDA0004144522490000096
为μF的概率分布模型;
3.4.5.5建模特征的标准差概率分布,建模方法是:
3.4.5.5.1计算σF的均值
Figure FDA0004144522490000097
其中
Figure FDA0004144522490000098
表示特征的第c个通道级的标准差,从特征的通道级标准差σF直接获取;
3.4.5.5.2计算σF的均值
Figure FDA0004144522490000099
3.4.5.5.3将σF的概率分布表示为均值为
Figure FDA00041445224900000910
标准差为
Figure FDA00041445224900000911
的高斯分布,记为:
Figure FDA00041445224900000912
为σF的概率分布模型;
3.4.5.6从
Figure FDA00041445224900000913
中随机采样新的特征均值μnew
3.4.5.7从
Figure FDA00041445224900000914
中随机采样新的特征标准差σnew
3.4.5.8调整F的统计量,改变F的分布特征,对F进行风格随机化,方法为:利用μnew和σnew对Fn进行标准化处理,得到风格随机化的特征矩阵FS,FS=Fn×σnewnew
8.如权利要求1所述的一种基于领域泛化的眼底图像语义分割方法,其特征在于3.4.13.6步所述根据PPafter和GG计算第numD张眼底图像视杯分割及视盘分割的Dice系数的方法是:
3.4.13.6.1计算第numD张眼底图像“视盘”类别的TPc值,“视盘”类别的TPc值为满足PPafter=1且GG=1的像素总数,记为TP1,即:
Figure FDA00041445224900000915
其中,
Figure FDA00041445224900000916
表示条件指示矩阵、初始化为全零矩阵,满足下标条件的条件指示矩阵值设置为1,否则设置为0;
3.4.13.6.2计算第numD张眼底图像“视盘”类别的FPc值,“视盘”类别的FPc值为满足PPafter=1且GG≠1的像素数量,记为FP1,即:
Figure FDA00041445224900000917
3.4.13.6.3计算第numD张眼底图像“视盘”类别的FNc值,“视盘”类别的FNc值为满足PPafter≠1且GG=1的像素数量,记为FN1,即:
Figure FDA00041445224900000918
3.4.13.6.4计算第numD张眼底图像“视盘”类别的Dice系数值,记为
Figure FDA00041445224900000919
Figure FDA00041445224900000920
3.4.13.6.5计算第numD张眼底图像“视杯”类别的TPc值,“视杯”类别的TPc值为满足PPafter=2且GG=2的像素数量,记为TP2,即:
Figure FDA0004144522490000101
3.4.13.6.6计算第numD张眼底图像“视杯”类别的FPc值,“视杯”类别的FPc值为满足PPafter=2且GG≠2的像素数量,记为FP2,即:
Figure FDA0004144522490000102
3.4.13.6.7计算第numD张眼底图像“视杯”类别的FNc值,“视杯”类别的FNc值为满足PPafter≠2且GG=2的像素数量,记为FN2,即:
Figure FDA0004144522490000103
3.4.13.6.8计算第numD张眼底图像“视杯”类别的Dice系数值,记为
Figure FDA0004144522490000104
Figure FDA0004144522490000105
CN202211349791.XA 2022-10-31 2022-10-31 一种基于领域泛化的眼底图像语义分割方法 Active CN115601751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211349791.XA CN115601751B (zh) 2022-10-31 2022-10-31 一种基于领域泛化的眼底图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211349791.XA CN115601751B (zh) 2022-10-31 2022-10-31 一种基于领域泛化的眼底图像语义分割方法

Publications (2)

Publication Number Publication Date
CN115601751A CN115601751A (zh) 2023-01-13
CN115601751B true CN115601751B (zh) 2023-04-28

Family

ID=84851167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211349791.XA Active CN115601751B (zh) 2022-10-31 2022-10-31 一种基于领域泛化的眼底图像语义分割方法

Country Status (1)

Country Link
CN (1) CN115601751B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363536B (zh) * 2023-05-31 2023-08-11 国网湖北省电力有限公司经济技术研究院 一种基于无人机巡查数据的电网基建设备缺陷归档方法
CN116934747B (zh) * 2023-09-15 2023-11-28 江西师范大学 眼底图像分割模型训练方法、设备和青光眼辅助诊断系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992382A (zh) * 2019-12-30 2020-04-10 四川大学 用于辅助青光眼筛查的眼底图像视杯视盘分割方法及系统
CN112288720A (zh) * 2020-10-29 2021-01-29 苏州体素信息科技有限公司 一种基于深度学习的彩色眼底图像青光眼筛查方法及系统
WO2021189848A1 (zh) * 2020-09-22 2021-09-30 平安科技(深圳)有限公司 模型训练方法、杯盘比确定方法、装置、设备及存储介质
CN114648806A (zh) * 2022-05-19 2022-06-21 山东科技大学 一种多机制自适应的眼底图像分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580646B2 (en) * 2021-03-26 2023-02-14 Nanjing University Of Posts And Telecommunications Medical image segmentation method based on U-Net

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992382A (zh) * 2019-12-30 2020-04-10 四川大学 用于辅助青光眼筛查的眼底图像视杯视盘分割方法及系统
WO2021189848A1 (zh) * 2020-09-22 2021-09-30 平安科技(深圳)有限公司 模型训练方法、杯盘比确定方法、装置、设备及存储介质
CN112288720A (zh) * 2020-10-29 2021-01-29 苏州体素信息科技有限公司 一种基于深度学习的彩色眼底图像青光眼筛查方法及系统
CN114648806A (zh) * 2022-05-19 2022-06-21 山东科技大学 一种多机制自适应的眼底图像分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李天培 ; 陈黎 ; .基于双注意力编码-解码器架构的视网膜血管分割.计算机科学.(05),全文. *

Also Published As

Publication number Publication date
CN115601751A (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN115601751B (zh) 一种基于领域泛化的眼底图像语义分割方法
Sori et al. DFD-Net: lung cancer detection from denoised CT scan image using deep learning
CN110276745B (zh) 一种基于生成对抗网络的病理图像检测算法
CN109544517A (zh) 基于深度学习的多模态超声组学分析方法及系统
CN109346159B (zh) 病例图像分类方法、装置、计算机设备及存储介质
CN106446942A (zh) 基于增量学习的农作物病害识别方法
CN110889853A (zh) 基于残差-注意力深度神经网络的肿瘤分割方法
CN112508864A (zh) 基于改进UNet++的视网膜血管图像分割方法
JP6945253B2 (ja) 分類装置、分類方法、プログラム、ならびに、情報記録媒体
CN110543916B (zh) 一种缺失多视图数据的分类方法及系统
CN110321968A (zh) 一种超声图像分类装置
WO2021027152A1 (zh) 基于条件生成对抗网络合成图像的方法及相关设备
CN110991254A (zh) 超声图像视频分类预测方法及系统
CN111046893B (zh) 图像相似性确定方法和装置、图像处理方法和装置
JP6345332B1 (ja) 分類装置、分類方法、プログラム、ならびに、情報記録媒体
CN116524253A (zh) 一种基于轻量级Transformer的甲状腺癌病理图像分类方法
CN118430790A (zh) 一种基于多模态图神经网络的乳腺肿瘤bi-rads分级方法
CN113486925B (zh) 模型训练方法、眼底图像生成方法、模型评估方法及装置
CN117058467B (zh) 一种胃肠道病变类型识别方法及系统
CN116843956A (zh) 一种宫颈病理图像异常细胞识别方法、系统及存储介质
CN116433679A (zh) 一种基于空间位置结构先验的内耳迷路多级标注伪标签生成与分割方法
CN114937288B (zh) 一种非典型类数据集平衡方法、装置、介质
Chen et al. Cardiac motion scoring based on CNN with attention mechanism
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质
CN115578400A (zh) 图像处理方法、图像分割网络的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant