CN112598683B - 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法 - Google Patents
一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法 Download PDFInfo
- Publication number
- CN112598683B CN112598683B CN202011571625.5A CN202011571625A CN112598683B CN 112598683 B CN112598683 B CN 112598683B CN 202011571625 A CN202011571625 A CN 202011571625A CN 112598683 B CN112598683 B CN 112598683B
- Authority
- CN
- China
- Prior art keywords
- mask
- stage
- segmentation
- network
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012014 optical coherence tomography Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000003709 image segmentation Methods 0.000 title claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims abstract description 70
- 230000001788 irregular Effects 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 26
- 210000004087 cornea Anatomy 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 9
- 210000000695 crystalline len Anatomy 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 210000001525 retina Anatomy 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012952 Resampling Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims description 2
- 238000012804 iterative process Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 3
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004323 axial length Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000000720 eyelash Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10101—Optical tomography; Optical coherence tomography [OCT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于扫频光学相干层析成像的扫频OCT人眼图像分割方法,属于医学图像分割领域。首先,在Mask R‑CNN网络采用调制可变形卷积替代规则卷积产生非规则感受野,提升网络对人眼OCT图像目标变化的适应能力;其次,结合关系模型(relation model,RM)模块,学习人眼OCT图像结构间的位置关系特征图,利用位置关系特征图增强网络特征;然后在此基础上构建multi‑stage mask结构,通过mask多步迭代修正人眼结构的分割误差。本发明考虑了人眼OCT图像特点,能够有效利用人眼结构特征和迭代分割网络等结构提高人眼OCT图像分割准确度。
Description
技术领域
本发明涉及一种扫频OCT人眼图像分割方法,属于医学图像分割领域,尤其涉及一种基于RM Multi-stage Mask R-CNN网络的扫频OCT人眼图像分割方法。
背景技术
基于扫频光学相干层析成像(optical coherence tomography,OCT)技术的人眼图像具有高分辨率、非侵入和实时成像的优点,已广泛应用于眼科视网膜和眼前节疾病诊断。人眼OCT图像结构与眼科疾病表征、人眼相关参数测量有着密切的联系,因此,对人眼OCT图像结构的准确分割,能够提高眼科疾病诊断、角膜曲率和眼轴长等人眼参数测量的准确度。
基于机器学习的OCT图像分割方法将图像分割问题转化为分类问题,实现不同类别像素的分割,对同一类目标的形变和不同目标间的形状差异都具有较强的适应能力。然而人工特征对目标信息的表达能力有限,无法准确分割目标和识别分辨外界干扰,制约了OCT图像分割的准确度。近年来,深度学习利用深层卷积神经网络(Convolutional NeuralNetworks,CNN)自主提取和学习目标的深层抽象特征,相比于人工构建的特征,深层抽象特征由网络自主学习构建,无需人工干扰,能够为网络提供丰富准确表征目标信息的特征,进而实现高精度、快速的目标分类、识别及分割。代表性的实例分割方法MaskR-CNN利用区域生成网络(Region Proposal Network,RPN)从高维特征图中提取含有目标的区域(Regionof Interest,ROI),对ROI内的目标进行识别分割,使得感受野和目标区域重合,充分利用了分割感受野,能够准确识别分割实例目标。然而,该方法应用于人眼OCT图像分割时,存在以下问题:(1)该方法中的常规卷积形式产生的常规感受野对人眼OCT图像中的非规则目标形状拟合度较低;(2)Mask分支的单次上采样形式无法修正分割误差,制约了目标分割的精度;(3)该方法将每一个ROI区域进行单独处理,无法有效利用人眼OCT图像中结构间的关系,存在误分割和漏分割,对外界干扰的鲁棒性较低。
本发明公开了一种基于RM Multi-stage Mask R-CNN网络的扫频OCT人眼图像分割方法,属于医学图像分割领域。首先,在MaskR-CNN网络采用调制可变形卷积替代规则卷积产生非规则感受野,提升网络对人眼OCT图像目标变化的适应能力;其次,结合关系模型(relation model,RM)模块,学习人眼OCT图像结构间的位置关系特征图,利用位置关系特征图增强网络特征;然后在此基础上构建multi-stage mask结构,通过mask多步迭代修正人眼结构的分割误差。本发明考虑了人眼OCT图像特点,能够有效利用人眼结构解决MaskR-CNN网络的问题,提高了人眼OCT图像分割准确度。
发明内容
本发明以提高扫频人眼OCT图像分割准确度为目的,提出了一种基于RM Multi-stage Mask R-CNN网络的扫频OCT人眼图像分割方法,包括以下步骤:
步骤一:通过图像翻转的数据增强方式对扫频OCT人眼图像训练样本进行预处理并构建训练数据集;
步骤二:构建RM Multi-stage Mask R-CNN目标分割网络模型,在主干网络中采用调制可变形卷积,产生非规则的感受野,提高感受野与人眼OCT图像非规则结构的拟合度;在特征图提取阶段结合RM,充分学习角膜、晶状体和视网膜固定的位置关系;利用迭代修正误差的思想,在mask分割阶段构建multi-stage mask,将前一迭代阶段的mask特征融合至下一阶段,修正分割误差,提高人眼OCT图像目标检测及分割准确度;
步骤三:为训练目标构建损失函数,网络损失函数为每阶段多任务损失函数以及RPN损失函数的加和,根据步骤一获得的训练数据集,训练步骤二所构建的RM Multi-stageMask R-CNN目标分割网络模型直至损失函数收敛;
步骤四:输入扫频OCT人眼图像,利用所训练的RM Multi-stage Mask R-CNN目标分割网络模型分割扫频OCT人眼图像中的角膜、晶状体和视网膜,输出图像中每个目标的边界框类别、位置、尺寸、分割结果。
所述步骤一,具体包括:
通过对扫频OCT人眼图像进行图像翻转的数据增强方式对训练样本进行预处理并构建训练数据集。其中翻转率为0.5,即每张图片有0.5的概率会进行翻转。
所述步骤二,具体包括:
网络结构包括四部分:主干网络、RPN、relation FC以及multi-work分支,详细结构如图1(a)所示。网络以ResNet50-FPN作为主干网络提取目标特征,其中ResNet50的stage3至stage 5中所有3×3卷积均采用3×3的调制可变形卷积,使得网络能够产生不规则的感受野,提升网络适应人眼OCT图像目标形变的能力,利用FPN融合高维和低维的特征图,增强特征提取能力;调制可变形卷积可写为如式所示。
式中,yd为卷积后的输出,x为该点的像素值,p0为采样网格中心点,pi为采样网格点,Δpi为偏置,常为分数,采用双线性插值获得采样值,如式所示,R为正方形采样位置的集合,当卷积核大小为3×3,膨胀率为1时,R={(-1,-1),(-1,0),...,(1,1)},调制权重Δmi∈[0,1],Δmi同样由额外卷积层获得,输入与Δpi相同,但由不同卷积核实现,通道数为N。
式中,p=p0+pi+Δpi,q枚举了特征图上所有整数位置,Gbil(·,·)为二维双线性插值核,可表示为如式所示。
Gbil(q,p)=g(qx,px)·g(qy,py)
式中,g(a,b)=max(0,1-|a-b|)。
将主干网络提取的特征图传入RPN产生ROIs,将ROIs传入multi-work分支,multi-work分支包括检测及分割分支,检测分支输出目标类别及回归框坐标,分割分支输出分割目标,每次迭代首先经过RoIAlign对ROIs进行池化和对齐,首级迭代结构采用relation FC结构,在cls和loc共享的两层FC每一层之后接入RM,利用RM获取特征图中目标的关系,并与特征图融合,提升目标识别和分割准确度,后两级迭代结构采用shared FC结构,relationFC的详细结构分别如图1(b)所示。
每一个ROI特征由几何特征(geometric feature)fG及外观特征(appearancefeature)fA表示,fG为4-D回归框坐标值,fA为网络上一层输出特征图。
对于N个目标第n个目标与目标集合的关系特征为
式中,WV为投影矩阵,为第m个输出特征图。WV对/>做线性变换,输出维度为/>原始维度的1/Nre,Nre为关系个数,re为关系特征提取重复次数,wmn代表目标m对目标n的影响,可由式表示。
式中,为外观权重,/>为几何权重,ktarget为影响目标n的目标总个数。/>可由式表示。
式中,为/>和/>点乘,WK和WQ为投影矩阵,/>为投影后特征维度。
由式表示。
式中,εG将及/>投影到高维空间,输出维度为dg,WG为投影矩阵,将变化后的高维特征转化为标量。
fG表示为
式中,x,y,w,h分别为几何特征的坐标及宽和高,fG的形式用以避免翻转和尺度变化影响。
最终目标n的输出特征为
人眼OCT图像分割的首要目标是提高目标结构的分割准确度,而Mask R-CNN的单次mask特征提取上采样反卷积方式无法对分割误差进行修正,制约了Mask分支的分割准确度。而采用特定交并比(intersection over union,IoU)阈值训练的bounding box(bbox)回归器倾向于产生IoU更高的bbox,因此,检测分支采用IoU阈值不断增加的一系列级联检测器,能够用于解决近似误报(close false positives)样本问题,进而提高检测和分割的准确度。bbox迭代如式所示。
式中,xfeature为主干网络提取的特征图,r为RPN输出的回归框坐标,T是迭代次数,每一阶段输出BT作为下一迭代阶段输入,相当于重采样,改变了假设的分布,每阶段具有不同的回归框归一化均值、方差,且对于特定阈值IoUt优化目标函数。
分割分支的迭代思想相同,每一阶段的mask特征通过网络提取特征图xfeature和预测边框rt获得,通过将反卷积层之前的特征进行1×1卷积,与原始mask特征相加,向下一阶段迭代。迭代过程如式到式所示。
式中,A为RoIAlign,负责分别生成7×7的特征和14×14的/>特征,Bt为bbox端(bbox head),Mt为mask端(mask head),F将上一阶段mask特征与本阶段/>结合,covt为1×1的卷积操作,/>为mask端反卷积层之前的输出。
所述步骤三,具体包括:
为了实现网络训练获取收敛的网络模型,需要构建网络损失函数实现网络训练。网络损失函数为每阶段多任务损失函数以及RPN损失函数的加和,Lloc为边框预测值与真实值之间smooth L1损失,Lcls为目标分类预测概率与真实类别之间的交叉熵,Lmask为目标预测掩码和真实掩码之间二进制交叉熵,LRPN为RPN模块损失函数。网络损失函数如式所示。
式中,ct为目标分类预测,为目标分类真实值,rt为边框预测值,/>为边框真实值,mt为目标预测掩码,/>为目标真实掩码;T为迭代分支的迭代次数,αt为每阶段优化目标之间权衡系数,λclc、λloc、λmask和λRPN为多任务之间权衡系数。训练深度卷积神经网络直至损失函数收敛,获得RM Multi-stage Mask R-CNN网络分割模型。
所述步骤四,具体包括:
输入测试样本,加载已训练好的RM Multi-stage Mask R-CNN模型进行人眼OCT图像识别分割。
本发明通过调制可变形卷积产生非规则感受野,提升了人眼OCT图像复杂形变的拟合度,引入关系模型充分学习人眼OCT图像中角膜、晶状体和视网膜之间的位置关系构建关系特征,利用关系特征提升了目标分割准确度,采用迭代mask结构分支有效的修正了分割误差,解决了人眼OCT图像识别和分割准确度较低,易受环境干扰的问题,能够有效实现人眼OCT图像中角膜、晶状体和视网膜的准确识别与分割,实现了眼轴长的准确测量。
附图说明
图1是RM Multi-stage Mask R-CNN网络结构示意图:(a)网络结构整体示意图(b)relationFC结构示意图;
图2是人眼OCT图像Ⅰ:无干扰结构分割结果(a)原图(b)K-means(c)U-net(d)FPN-deformable-Mask R-CNN(e)RM Multi-stage Mask R-CNN;
图3是人眼OCT图像Ⅱ:轻微干扰结构分割结果(a)原图(b)K-means(c)U-net(d)FPN-deformable-Mask R-CNN(e)RMMulti-stage Mask R-CNN;
图4是人眼OCT图像Ⅲ:严重干扰结构分割结果(a)原图(b)K-means(c)U-net(d)FPN-deformable-Mask R-CNN(e)RM Multi-stage Mask R-CNN。
图5是人眼OCT图像多目标分割指标结果箱型图(a)Dice指标结果(b)Jaccard指标结果(c)Precision指标结果(d)Recall指标结果(e)Specificity指标结果。
具体实施方式
下面结合实例及附图对本发明作进一步的描述,需要说明的是,实施例并不限定本发明要求保护的范围。
实施例
实施例采用扫频OCT人眼图像进行验证,扫频OCT人眼图像采集于温州医科大学眼视光医院杭州院区,采集设备为卡尔蔡司公司的IOL Master 700光学生物测量仪,此设备光源使用可调谐激光器,波长范围为1035nm-1080nm,眼轴长测量范围14mm-38mm,显示分辨率为0.01mm。数据采集时为了保证患者隐私性,并未透露患者性别年龄等信息,仅获取眼轴长度数据及人眼OCT图像。实验所用人眼OCT图像数据共996张,分别为:636张训练集图像数据,160张验证集图像数据,200张测试集图像数据。实施例的计算机配置为Linux系统,Ubantu 18.04,Python3.6,Pytorch框架,CPU为Intel Core i7-8700K,内存16GB,图形处理单元(Graphics Processing Units,GPU)为NVIDIA GTX 1080Ti,并采用NVIDA cuda(v8.0)和cudnn(v6.0)库。
将本发明应用到上述扫频人眼OCT图像的具体步骤如下:
步骤一:首先进行数据标注,将采集到的所有人眼OCT图像数据进行目标标注,标注过程由温州医科大学眼视光医院的专业人士指导。标注后将标注数据集格式按照COCO格式进行转换及分类,产生符合网络输入要求的训练集、验证集和测试集。利用生成的训练集和验证集对网络进行训练。测试集用于测试训练后的网络。而后,通过对训练集的扫频OCT人眼图像进行图像翻转的数据增强方式对训练样本进行预处理并构建训练数据集。
步骤二:数据增强后构建扫频OCT人眼图像训练数据集,利用训练数据集对RMMulti-stage Mask R-CNN模型进行训练。RM Multi-stage Mask R-CNN网络结构的主干网络采用pre-training方式进行了权重迁移,预训练权重为mmdetection提供的预训练权重,在进行迁移学习后利用人眼OCT图像数据对网络进行微调(fine turn)训练。优化方式采用随机梯度下降(stochastic gradient descent,SGD)方法,初始学习率(learning rate)为0.02,在第13和17个epoch处降低学习率,每次降低10倍。关系模型中超参数设置为dg=64,Nre=16,re=1;损失函数中超参数设置T=3,αt为每阶段优化目标之间权衡系数,α1,2,3=[1,0.5,0.25],λclc、λloc、λmask和λRPN为多任务之间权衡系数,均设置为1,超参数通过实验方式确定。当模型通过多次迭代收敛后,获得训练完成的Multi-stage Mask R-CNN模型。
步骤三:将扫频OCT人眼图像输入到训练完成的Multi-stage Mask R-CNN模型中。首先通过主干网络提取扫频OCT人眼图像的特征图,并且利用可变性卷积产生非规则的感受野,实现非规则目标的准确拟合;然后将特征图输入到RPN中,提取ROIs,并将ROIs输入至RM模块中,利用RM模块学习扫频OCT人眼图像中角膜、晶状体和视网膜之间的结构关系,构建关系特征图,并将关系特征图与原始特征图融合,将融合之后的特征图传入多任务网络,对前景进行再次分类并且对回归框进行二次回归,在mask分支中对目标进行分割,并且通过多次迭代,修正分割误差,提升分割准确度。Multi-stage Mask R-CNN网络的分割结果如图2-图4所示。
为了验证本发明所提方法的分割准确度,选取K-means、U-net和FPN-deformable-Mask R-CNN作为对比方法。并选取了5个图像分割领域具有代表性的评价指标,分别为Dice、Jaccard(也被称为IOU)、Precision、Specificity和Recall(也被称为Sensitivity)。分割结果指标如表1所示,多个目标的分割指标箱型图如图5所示。
表1人眼OCT图像分割结果指标
由表1可以得出,本发明所述方法在分割标准指标Dice和Jaccard中的指标均为最高,并且相比较其他几种方法均有较大提升。Precision与FPN-deformable-Mask R-CNN几乎持平。Recall指标与U-net相比低了0.02,但是Recall与Precision两个指标相互制约,在一个指标较高的同时另外一个指标会相对较低;因为本发明分割的目的是尽量提升分割准确度,因此本发明所述方法将代表准确度的Precision指标作为优先考虑,并且本发明所述方法在保持了Precision为0.8886的同时,将Recall指标提高到了0.8549;Specificity与K-means相比低了0.0031,因为K-means只进行了二分类,其对背景的判别相对较简单,因此该项指标较高,而本发明所述方法进行了四分类,对非特定目标分类判别较复杂,在此情况下,本发明所述方法Specificity提高到了0.9847。图5表示了每种方法对每一类目标分割得到的各个指标的箱型图。图中可以得出,本发明所述方法在Dice和Jaccard中具有较高的数值,而且在三类目标中均具有较高的分割准确度,由于三类目标的形变较大,而本发明所述方法均可以实现高准确度分割,证明本发明所述方法对于目标形变具有较强的适应性,能够同时实现大目标和小目标的精准分割,并且对低强度目标和外界干扰具有较强的鲁棒性,而其余几种方法在小目标分割和形变较大的目标分割方面能力不足。图2至图4也可以看出,本发明所述方法在多种情况下均没有出现误分割和漏分割,由图3可以看出,由于眼睫毛的影响,在图像中出现了一些干扰,而FPN-deformable-Mask R-CNN在干扰较少时出现了一个误分割,而U-net出现了多处漏分割区域;由图4可以看出,在干扰项较多时,FPN-deformable-Mask R-CNN出现多处的误分割,U-net依旧存在多处漏分割区域。而本发明所述方法在多种干扰情况下均未出现误分割和漏分割,并且能够准确分割目标,因为本发明所述方法首先对mask部分采用了迭代方式提高分割准确度,通过对mask多次迭代减小分割误差。并且由于人眼结构中的角膜、晶状体及视网膜位置固定,本发明引入了RM,RM可以学习目标间的相互关系,进而利用人眼结构中位置固定的特点,提高大目标和小目标识别及分割的准确度。
Claims (2)
1.一种基于扫频光学相干层析成像的扫频OCT人眼图像分割方法,其特征在于:该方法包括以下步骤:
步骤一:通过图像翻转的数据增强方式对扫频OCT人眼图像训练样本进行预处理并构建训练数据集;
步骤二:构建RM Multi-stage Mask R-CNN目标分割网络模型,在主干网络中采用调制可变形卷积,产生非规则的感受野,提高感受野与人眼OCT图像非规则结构的拟合度;在特征图提取阶段结合关系模型RM,充分学习角膜、晶状体和视网膜固定的位置关系;利用迭代修正误差的思想,在mask分割阶段构建Multi-stage mask,将前一迭代阶段的mask特征融合至下一阶段,以提高mask特征的提取能力,修正分割误差;构建基于RM Multi-stageMask R-CNN网络的扫频OCT人眼图像分割方法,提高人眼OCT图像目标检测及分割准确度;
步骤三:为训练Multi-stage MaskR-CNN网络构建损失函数,网络损失函数为每阶段多任务损失函数以及RPN损失函数的加和,根据步骤一获得的训练数据集,训练步骤二所构建的RM Multi-stage Mask R-CNN目标分割网络模型直至损失函数收敛;
步骤四:输入扫频OCT人眼图像,利用所训练的RM Multi-stage Mask R-CNN目标分割网络模型分割扫频OCT人眼图像中的角膜、晶状体和视网膜,输出图像中每个目标的边界框位置、尺寸、分割结果以及目标类别;
步骤二包括如下步骤,
RM Multi-stage Mask R-CNN目标分割网络模型包括四部分:主干网络、RPN、relationFC以及multi-work分支;网络以ResNet50-FPN作为主干网络提取目标特征,其中ResNet50的stage 3至stage 5中所有3×3卷积均采用3×3的调制可变形卷积,使得网络能够产生不规则的感受野,提升网络适应人眼OCT图像目标形变的能力,利用FPN融合高维和低维的特征图,增强特征提取能力;调制可变形卷积写为如式所示;
式中,yd为卷积后的输出,x为该点的像素值,p0为采样网格中心点,pi为采样网格点,Δpi为偏置,常为分数,采用双线性插值获得采样值,如式所示,R为正方形采样位置的集合,当卷积核大小为3×3,膨胀率为1时,R={(-1,-1),(-1,0),...,(1,1)},调制权重Δmi∈[0,1],Δmi同样由额外卷积层获得,输入与Δpi相同,但由不同卷积核实现,通道数为N;
式中,p=p0+pi+Δpi,q枚举了特征图上所有整数位置,Gbil(·,·)为二维双线性插值核,表示为如式所示;
Gbil(q,p)=g(qx,px)·g(qy,py)
式中,g(a,b)=max(0,1-|a-b|);
将主干网络提取的特征图传入RPN产生ROIs,将ROIs传入multi-work分支,multi-work分支包括检测及分割分支,检测分支输出目标类别及回归框坐标,分割分支输出分割目标,每次迭代首先经过RoIAlign对ROIs进行池化和对齐,首级迭代结构采用relationFC结构,在cls和loc共享的两层FC每一层之后接入RM,利用RM获取特征图中目标的关系,并与特征图融合,提升目标识别和分割准确度,后两级迭代结构采用sharedFC结构;
每一个ROI特征由几何特征fG及外观特征fA表示,fG为4-D回归框坐标值,fA为网络上一层输出特征图;
对于N个目标第n个目标与目标集合的关系特征为
式中,WV为投影矩阵,为第m个输出特征图;WV对/>做线性变换,输出维度为/>原始维度的1/Nre,Nre为关系个数,re为关系特征提取重复次数,wmn代表目标m对目标n的影响,由下式表示;
式中,为外观权重,/>为几何权重,ktarget为影响目标n的目标总个数;
则可由式表示;
式中,为/>和/>点乘,WK和WQ为投影矩阵,/>为投影后特征维度;
由式表示;
式中,εG将及/>投影到高维空间,输出维度为dg,WG为投影矩阵,将变化后的高维特征转化为标量;
fG表示为
式中,x,y,w,h分别为几何特征的坐标及宽和高,fG的形式用以避免翻转和尺度变化影响;
最终目标n的输出特征为
检测分支采用IoU阈值不断增加的一系列级联检测器,能够用于解决近似误报样本问题,提高检测和分割的准确度;bbox迭代如式所示;
式中,xfeature为主干网络提取的特征图,r为RPN输出的回归框坐标,T是迭代次数,每一阶段输出BT作为下一迭代阶段输入,相当于重采样,改变假设的分布,每阶段具有不同的回归框归一化均值、方差,且对于特定阈值IoUt优化目标函数;
分割分支的迭代思想相同,每一阶段的mask特征通过网络提取特征图xfeature和预测边框rt获得,通过将反卷积层之前的特征进行1×1卷积,与原始mask特征相加,向下一阶段迭代;迭代过程如式到式所示;
式中,A为RoIAlign,负责分别生成7×7的特征和14×14的/>特征,Bt为bbox端,Mt为mask端,F将上一阶段mask特征与本阶段/>结合,covt为1×1的卷积操作,/>为mask端反卷积层之前的输出。
2.根据权利要求1所述的一种基于扫频光学相干层析成像的扫频OCT人眼图像分割方法,其特征在于:步骤三包括如下步骤,
网络损失函数为每阶段多任务损失函数以及RPN损失函数的加和,Lloc为边框预测值与真实值之间smooth L1损失,Lcls为目标分类预测概率与真实类别之间的交叉熵,Lmask为目标预测掩码和真实掩码之间二进制交叉熵,LRPN为RPN模块损失函数;网络损失函数如式所示;
式中,ct为目标分类预测,为目标分类真实值,rt为边框预测值,/>为边框真实值,mt为目标预测掩码,/>为目标真实掩码;T为迭代分支的迭代次数,αt为每阶段优化目标之间权衡系数,λclc、λloc、λmask和λRPN为多任务之间权衡系数;训练深度卷积神经网络直至损失函数收敛,获得RM Multi-stage Mask R-CNN网络分割模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011571625.5A CN112598683B (zh) | 2020-12-27 | 2020-12-27 | 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011571625.5A CN112598683B (zh) | 2020-12-27 | 2020-12-27 | 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112598683A CN112598683A (zh) | 2021-04-02 |
CN112598683B true CN112598683B (zh) | 2024-04-02 |
Family
ID=75202830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011571625.5A Active CN112598683B (zh) | 2020-12-27 | 2020-12-27 | 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112598683B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255682B (zh) * | 2021-06-04 | 2021-11-16 | 浙江智慧视频安防创新中心有限公司 | 一种目标检测系统、方法、装置、设备及介质 |
CN113520317A (zh) * | 2021-07-05 | 2021-10-22 | 汤姆飞思(香港)有限公司 | 基于oct的子宫内膜检测分析方法、装置、设备及存储介质 |
CN114283260A (zh) * | 2021-11-16 | 2022-04-05 | 北京航空航天大学 | 一种基于实例分割网络的角膜移植缝合操作的ar导航方法及系统 |
CN114170484B (zh) * | 2022-02-11 | 2022-05-27 | 中科视语(北京)科技有限公司 | 图片属性预测方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019194865A1 (en) * | 2018-04-02 | 2019-10-10 | 12 Sigma Technologies | Enhanced convolutional neural network for image segmentation |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110599448A (zh) * | 2019-07-31 | 2019-12-20 | 浙江工业大学 | 基于MaskScoring R-CNN网络的迁移学习肺部病变组织检测系统 |
CN111292338A (zh) * | 2020-01-22 | 2020-06-16 | 苏州大学 | 一种从眼底oct图像中分割脉络膜新生血管的方法及系统 |
-
2020
- 2020-12-27 CN CN202011571625.5A patent/CN112598683B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019194865A1 (en) * | 2018-04-02 | 2019-10-10 | 12 Sigma Technologies | Enhanced convolutional neural network for image segmentation |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110599448A (zh) * | 2019-07-31 | 2019-12-20 | 浙江工业大学 | 基于MaskScoring R-CNN网络的迁移学习肺部病变组织检测系统 |
CN111292338A (zh) * | 2020-01-22 | 2020-06-16 | 苏州大学 | 一种从眼底oct图像中分割脉络膜新生血管的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112598683A (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112598683B (zh) | 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法 | |
Ghaderizadeh et al. | Hyperspectral image classification using a hybrid 3D-2D convolutional neural networks | |
CN109345538B (zh) | 一种基于卷积神经网络的视网膜血管分割方法 | |
CN108154192B (zh) | 基于多尺度卷积与特征融合的高分辨sar地物分类方法 | |
Shen et al. | Domain-invariant interpretable fundus image quality assessment | |
Ali et al. | Machine learning based automated segmentation and hybrid feature analysis for diabetic retinopathy classification using fundus image | |
CN107369160B (zh) | 一种oct图像中脉络膜新生血管分割算法 | |
Cherukuri et al. | Deep retinal image segmentation with regularization under geometric priors | |
US20220198230A1 (en) | Auxiliary detection method and image recognition method for rib fractures based on deep learning | |
Zhang et al. | Pseudo zernike moment and deep stacked sparse autoencoder for COVID-19 diagnosis | |
CN109029363A (zh) | 一种基于深度学习的目标测距方法 | |
Jin et al. | Construction of retinal vessel segmentation models based on convolutional neural network | |
CN110276763B (zh) | 一种基于可信度和深度学习的视网膜血管分割图生成方法 | |
CN113298780B (zh) | 一种基于深度学习的儿童骨龄评估方法及系统 | |
de Sales Carvalho et al. | Automatic method for glaucoma diagnosis using a three-dimensional convoluted neural network | |
CN115147600A (zh) | 基于分类器权重转换器的gbm多模态mr图像分割方法 | |
Wang | OCT image recognition of cardiovascular vulnerable plaque based on CNN | |
Nie et al. | Recent advances in diagnosis of skin lesions using dermoscopic images based on deep learning | |
CN116563932A (zh) | 基于多任务学习的眼部图像识别方法及相关设备 | |
Wang et al. | Optic disc detection based on fully convolutional neural network and structured matrix decomposition | |
CN116310876A (zh) | 一种田间结构遥感影像多分类识别方法 | |
CN115937590A (zh) | 一种并联融合CNN和Transformer的皮肤病图像分类方法 | |
Velte | Semantic image segmentation combining visible and near-infrared channels with depth information | |
Udayananda et al. | An ensemble methods based machine learning approach for rice plant disease diagnosing | |
CN113421270B (zh) | 基于单中心标定数据实现医学图像域自适应分割的方法、系统、装置、处理器及其存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |