CN116228671A - 基于双路径自监督的跨域视杯视盘自动分割方法及装置 - Google Patents
基于双路径自监督的跨域视杯视盘自动分割方法及装置 Download PDFInfo
- Publication number
- CN116228671A CN116228671A CN202310006507.7A CN202310006507A CN116228671A CN 116228671 A CN116228671 A CN 116228671A CN 202310006507 A CN202310006507 A CN 202310006507A CN 116228671 A CN116228671 A CN 116228671A
- Authority
- CN
- China
- Prior art keywords
- image
- domain
- segmentation
- dual
- target domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000004927 fusion Effects 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000003709 image segmentation Methods 0.000 claims abstract description 29
- 230000009466 transformation Effects 0.000 claims abstract description 18
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 32
- 238000001228 spectrum Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 description 15
- 230000006978 adaptation Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 208000010412 Glaucoma Diseases 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011151 fibre-reinforced plastic Substances 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- XMNIXWIUMCBBBL-UHFFFAOYSA-N 2-(2-phenylpropan-2-ylperoxy)propan-2-ylbenzene Chemical compound C=1C=CC=CC=1C(C)(C)OOC(C)(C)C1=CC=CC=C1 XMNIXWIUMCBBBL-UHFFFAOYSA-N 0.000 description 1
- 206010025421 Macule Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000010587 phase diagram Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Ophthalmology & Optometry (AREA)
- Human Computer Interaction (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于双路径自监督的跨域视杯视盘自动分割方法及装置,方法包括:利用源域‑目标域和目标域‑源域的双向眼底图像域变换,分别生成目标域风格的源域图像以及源域风格的目标域图像,所述源域图像为有分割标签,目标域图像为无分割标签;利用DeepLabV3+图像分割网络为框架,搭配MobileNetV2特征提取器,构建双路径眼底图像分割网络;将双路径网络输出的无监督图像的预测分割结果进行融合,得到融合伪标签,并利用融合伪标签指导无标签图像的进一步训练;利用一种跨域对比约束机制,优化域变换前后图像特征的相似性,使特征保留与图像结构相关的信息。装置包括:存储器和处理器。本发明提升了目标域图像预测分割结果的准确性。
Description
技术领域
本发明涉及医学图像处理、图像语义分割、跨领域学习、自监督学习、及计算机视觉领域,尤其涉及一种基于双路径自监督的跨域视杯视盘自动分割方法及装置。
背景技术
随着信息技术的不断革新,海量医学影像数据可供分析。医学图像是当今医学临床实践中重要的信息载体和诊断依据,拥有极高的研究价值。医学图像处理技术拥有广泛的应用前景,是计算机视觉技术的重要应用领域。随着“大健康”产业概念的提出,医学图像处理技术的发展越来越受关注。
眼底图像是重要的医学影像材料,是青光眼疾病的主要诊断依据。在眼底图像中,视盘是视网膜由黄斑位置向鼻侧方向约3mm处的淡红色圆盘结构,视杯是视盘中央的生理性凹陷。将视杯和视盘区域进行分割,其垂直径的比值(简称为杯盘比)是重要的医学指标,即诊断青光眼疾病的主要参考标准。一般认为,杯盘比值越高,患有青光眼的风险越高[1]。针对手工视杯、视盘分割工作对医疗资源产生大量消耗的问题,现有众多研究关注眼底图像视杯、视盘的自动分割功能。大多数研究方法[2,3,4]基于深度学习的原理,构建深度神经网络,通过微调与改进FCN[5]、U-Net[6]、DeepLab[7]等先进的主流图像语义分割网络,输出视杯、视盘分割结果。
然而,由于不同眼底图像数据集之间存在域偏移,大多数训练好的模型无法在新的无标签数据集中获得良好的分割结果,限制了方法的性能和泛化能力。眼底图像数据集的域偏移现象主要源于如下几点:1)不同医院用于拍摄眼底图像的设备不一致;2)拍摄现场的光照强度等条件不一致;3)摄像设备的参数设置,如图像分辨率等不一致。域偏移现象的存在使得视杯、视盘分割模型的应用范围仅局限在单一数据集中,不具备良好的泛化能力,缺乏临床应用性。
针对此种问题,可采用域适应方法克服域偏移,使训练模型适配目标域图像。域适应[8]是计算机视觉领域的重要研究方向,其主要研究目标为:利用来自不同域的数据执行相同的任务时,为克服数据间的域差异,使模型获得良好的泛化性能而进行针对性的迁移学习。经过域适应训练的模型,在训练时仅利用源域数据的标签信息进行监督,而能在目标域数据上展现良好性能,使模型具有良好的泛化能力。
近年来,一些研究工作关注跨域场景下的眼底图像视盘、视杯自动分割,已取得了一些成果。Wang等人[9]提出pOSAL网络,该网络基于图像提取的补丁进行分割,并利用一个对抗性域鉴别器混淆源域和目标域特征,使特征保留空间和结构性信息。Kadambi等人[10]提出了一种名为WGAN的网络,实现基于Wasserstein距离的域适应。Wang等人[11]提出一种名为BEAL的网络,针对分割结果的边界和熵图设计了两个预测分支,并在两个分支上分别施加对抗性网络,从而学习预测边界和预测熵的域不变性。Chen等人[12]提出一种输入空间与输出空间对齐的无监督域适应网络,利用对抗性训练,并结合了输入特征对齐与输出空间对齐两种方式来缓解域偏移。
上述现有研究大多基于对抗性域适应方式,在特征空间中缓解源域数据和目标域数据的分布差异。这些成果提供了足够的思路和参考方法,但仍存在一些不足。目前,该领域主要面临的问题有以下几点:
1、如何充分革除域风格相关特征的干扰,使提取的图像特征更加适配视杯、视盘分割任务;
2、如何在有限的有标签图像之外挖掘额外的监督信息,对无标签数据实现有效利用,提高模型潜能;
3、如何设计基于域适应的图像分割网络,使训练的模型在目标域图像上输出精确的视杯、视盘分割结果,且能推广到不同的目标域数据集中。
发明内容
本发明提供了一种基于双路径自监督的跨域视杯视盘自动分割方法及装置,本发明结合了双向域变换、双路径分割网络、伪标签融合以及跨域对比等模块,建立跨域场景下的视杯、视盘分割模型,提升目标域图像预测分割结果的准确性,详见下文描述:
第一方面,一种基于双路径自监督的跨域视杯视盘自动分割方法,所述方法包括:
利用源域-目标域和目标域-源域的双向眼底图像域变换,分别生成目标域风格的源域图像以及源域风格的目标域图像,所述源域图像为有分割标签,目标域图像为无分割标签;
利用DeepLabV3+图像分割网络为框架,搭配MobileNetV2特征提取器,构建双路径眼底图像分割网络;
将双路径网络输出的无监督图像的预测分割结果进行融合,得到融合伪标签,并利用融合伪标签指导无标签图像的进一步训练;
利用一种跨域对比约束机制,优化域变换前后图像特征的相似性,使特征保留与图像结构相关的信息。
其中,所述双路径为两个分割网络采用相同的图像分割框架,但不共享网络参数。
所述源域-目标域和目标域-源域的双向眼底图像域变换为:
将源域图像Xs和目标域图像Xt分别进行二维图像傅里叶变换,得到其各自的频谱As和At;
截取源域频谱As的振幅图中的一个中央矩形块,将其替换到目标域频谱At的对应位置上,生成新的频谱At→s,再将At→s进行傅里叶逆变换,生成源域风格的目标域图像Xt→s,其形状、位置、纹理等信息与原目标域图像Xt一致;
将目标域频谱At中的低频信息替换到源域频谱图As上,再将替换后的频谱图As→t进行傅里叶逆变换,得到目标域风格的源域图像Xs→t,其形状、位置、纹理等信息与原源域图像Xs一致。
其中,所述将双路径网络输出的无监督图像的预测分割结果进行融合,得到融合伪标签为:
将无监督图像Xt和Xt→s输入到双路径图像分割网络,输出的预测分割结果分别为Y′t和Y′t→s;
将Y′t→s和Y′融合,生成融合伪标签Y′mix,融合方式为:
对于Y′t中第c个通道图Y′t(c),其第i个像素点预测值为Y′t(c,i),利用下式计算置信度值St(i,c):
St(i,c)=1-exp(1-pmax/pmin)
pmax=max(Y′t(c,i),1-Y′t(c,i))
pmin=min(Y′t(c,i),1-Y′t(c,i))
其中,exp(·)为以自然常数e为底的指数函数,所有预测点的置信度值组成置信度图St(c);
将Y′t→s做相同处理,得置信度图St→s(c),将St(c)和St→s(c)连接,经softmax层,得到相对置信度图S′t(c)和S′t→s(c),将各通道的相对置信度图重组为置信度矩阵S′t和S′t→s;
利用S′t和S′t→s对Y′t和Y′t→s进行加权融合,得到融合伪标签Y′mix,如下式:
Y′mix=S′t·Y′t+S′t→s·Y′t→s
在进一步的训练中,使伪标签Y′mix作为无标签图像Xt和Xt→s的监督信息。
进一步地,所述跨域对比约束机制为:
将原图像Xs和副本图像Xs→t视为正样本,随机选取负样本,Xt和Xt→s同理;
利用对比损失函数Lc,拉近正样本的特征之间的距离,Lc的形式为:
其中,log(·)为以2为底的对数函数,F(·)表示图像的编码特征,d(·)表示欧氏距离,exp(d(·)/2σ2)表示高斯核函数,n表示一训练批次输入的图像数量;
对正样本图像Xs和Xs→t,以及Xt和Xt→s,分别施加对比损失函数Lc,强化编码特征中与分割任务相关的语义信息。
第二方面、一种基于双路径自监督的跨域视杯视盘自动分割装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
第三方面、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明采用了图像双向域变换,为所有图像生成域转换的副本,扩增了图像数量与可用数据信息;并利用双路径图像分割网络,分别输入源域风格与目标域风格图像进行训练,实现域解耦,在同一个图像分割网络中,有效排除了域相关特征对输入样本图像的预测分割结果的干扰,提升了特征有效性;
2、本发明设计了一种伪标签生成方法,将双路径中同源无标签图像的预测分割结果进行基于置信度加权的融合,生成融合伪标签,并利用融合伪标签进一步监督无标签图像,有效挖掘了额外的监督信息,增强了双路径分割网络的交互性,并通过自监督方式提升模型的分割性能;
3、本发明设计了一种跨域对比损失函数,强化图像特征中与分割任务相关的信息,进一步提升特征有效性,保障了双路径正样本图像分割结果的相似性,以及融合伪标签的可靠性,从而提升模型的分割性能。
附图说明
图1为一种基于双路径自监督的跨域视杯视盘自动分割方法的流程图;
图2为一种基于双路径自监督的跨域视杯视盘自动分割网络的示意图;
图3为实验效果图;
图4为一种基于双路径自监督的跨域视杯视盘自动分割装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于双路径自监督的跨域视杯视盘自动分割方法,参见图1和图2,该方法包括以下步骤:
101:利用源域-目标域和目标域-源域的双向眼底图像域变换,分别生成目标域风格的源域图像(有分割标签),以及源域风格的目标域图像(无分割标签);
102:利用DeepLabV3+图像分割网络为框架,搭配MobileNetV2(轻量型移动神经网络)特征提取器,构建双路径眼底图像分割网络。
其中,双路径为两个分割网络采用相同的图像分割框架(DeepLabV3+),但不共享网络参数。将所有原始图像和生成的副本图像按域风格进行划分,输入到两条路径中进行训练。
103:将双路径网络输出的无监督图像的预测分割结果进行融合,得到融合伪标签,并利用融合伪标签指导无标签图像的进一步训练,使监督信息更丰富;
104:利用一种跨域对比约束机制,优化域变换前后图像特征的相似性,使特征保留更多与图像结构相关的信息,提高图像特征在分割任务上的有效性。
综上所述,本发明实施例结合了双向域变换、双路径分割网络、伪标签融合以及跨域对比等模块,建立跨域场景下的视杯、视盘分割模型,提升目标域图像预测分割结果的准确性。
实施例2
下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
201:利用源域-目标域和目标域-源域的双向眼底图像域变换,分别生成目标域风格的源域图像(有分割标签),以及源域风格的目标域图像(无分割标签);
其中,上述步骤201主要包括:
1)对原始图像进行二维图像傅里叶变换:
本发明实施例对源域图像Xs和目标域图像Xt,利用快速傅里叶变换(Fast Fouriertransform,FFT)将其转换为频谱图,如下所示:
As=Fou(Xs) (1)
At=Fou(Xt) (2)
其中,Fou(·)表示快速傅里叶变换函数,As和At分别为Xs和Xt频域变换所得的频谱图,频谱图主要由振幅图和相位图两部分组成。将训练数据集中的所有源域、目标域图像进行相同的频域变换。
2)通过低频信息交换实现双向域变换:
本发明实施例对源域和目标域图像进行双向域变换,生成其各自的副本图像,其具体方式如下所示:
在频谱图As和At中,频率的高低值分布主要包含在振幅图中体现。在As振幅图的中央位置截取一个矩形αs,矩形αs的边长与振幅图总边长的比值为0.01。该矩形内部分即为图像Xs所包含的低频信息,包括:光照、整体色度等信息。在图像Xs中,低频信息主要和图像整体风格(域风格)有关;而高频信息主要对应纹理、细节等方面的信息。
将频谱图At作相同处理,截取矩形αt。将矩形αs替换到At的振幅图低频位置上,而矩形αt替换到频谱图As的振幅图低频位置上,即实现图像的低频信息交换,得到变换后的频谱图At→s和As→t。
将频谱图At→s和As→t进行傅里叶逆变换:
202:利用DeepLabV3+图像分割网络为框架,搭配MobileNetV2(轻量型移动神经网络)特征提取器,构建双路径眼底图像分割网络,将所有原始图像和生成的副本图像按域风格进行划分,输入到两条路径中训练;
其中,上述步骤202主要包括:
1)构建图像分割网络:
为实现图像分割功能,本发明实施例利用DeepLabV3+图像分割网络搭配MobileNetV2特征提取器,构建视盘、视杯分割网络。首先将图像经过MobileNetV2网络,利用“空洞”卷积,即采用不同稀疏度的卷积核,控制输出特征图的分辨率,得到不同层级和不同尺度的图像特征,并将其融合为包含图像整体信息的融合特征,实现多尺度的图像编码。编码后的图像特征通过图像解码器,DeepLabV3+的解码器采用反卷积方式进行上采样,恢复特征图的分辨率和空间维度。为优化输出图像的细节效果,DeepLabV3+使用中间层的特征图对输出图像进行放大。解码器的输出内容为视杯、视盘分割结果,其尺寸大小与原始图像相同,通道数为2,分别对应视杯和视盘的分割结果。
2)将图像输入双路径图像分割网络训练:
根据上述框架,建立两个结构完全一致的图像分割网络,但训练时不共享参数。双路经分割网络分别用Ms和Mt表示,Ms对源域风格图像进行训练,Mt对目标域风格图像进行训练。由于在单个分割网络中仅有单一域的数据输入,实现了源域和目标域数据的解耦,削弱了域风格相关的特征对跨域图像分割结果的影响。
在训练时,有标签图像Xs和Xs→t分别输入Ms和Mt中,其分割标签均为Ys。为训练图像分割目标,利用像素级交叉熵损失训练视杯、视盘分割目标,其具体形式为:
其中,h和w为图像的高和宽,c为通道数,i为每个像素点,Y′s(i)和Y′s→t(i)为分割网络Ms和Mt输出的有标签图像的预测分割结果。该损失函数能够拉近真实分割标签与预测分割结果的相似性,从而使图像分割网络能够输出视杯、视盘分割结果。
203:将双路径网络输出的无标签图像的预测分割结果进行融合,得到融合伪标签,并利用融合伪标签指导无标签图像的进一步训练,使监督信息更丰富;
其中,上述步骤203主要包括:
1)为无标签图像预测结果生成置信度矩阵:
对于无标签图像Xt和Xt→s,双路经分割网络Mt和Ms输出视杯、视盘预测分割结果,表示为Y′t和Y′t→s。理想情况下,Y′t和Y′t→s应当完全一致,对应图像的真实分割结果。本发明实施例设计了一种融合机制,在Y′t和Y′t→s的每个预测像素点上,分别计算相对置信度值,组成置信度矩阵S′t和S′t→s。具体步骤如下:
对于Y′t中第c个通道图Y′t(c),其第i个像素点预测值为Y′t(c,i),利用下式计算该预测点的置信度值St(i,c):
St(i,c)=1-exp(1-pmax/pmin) (6)
pmax=max(Y′t(c,i),1-Y′t(c,i)) (7)
pmin=min(Y′t(c,i),1-Y′t(c,i)) (8)
其中,exp(·)为以自然常数e为底的指数函数,max表示较大值,min表示最小值。所有预测点的置信度值组成置信度图St(c)。
将Y′t→s做相同处理,得置信度图St→s(c)。将St(c)和St→s(c)连接,经过softmax层,得到相对置信度图S′t(c)和S′t→s(c),再将其拆分。拆分后,将各通道的相对置信度图按来源重组为置信度矩阵S′t和S′t→s。
2)生成融合伪标签
上述步骤所得置信度矩阵S′t和S′t→s中,每个位置的值对应Y′t和Y′t→s对应预测点的置信度相对权值,且每个位置上S′t和S′→s的对应值之和均为1。利用置信度矩阵对预测分割结果Y′t和Y′t→s进行加权融合,即可得融合伪标签Y′mix,如下式所示:
Y′mix=S′t·Y′t+S′t→s·Y′t→s (9)
在进一步的训练中,使伪标签Y′mix作为无标签图像Xt和Xt→s的监督信息。使用像素级交叉熵损失函数对Xt和Xt→s进行自监督,用Lt表示,如下式所示:
本发明实施例所包含的伪标签生成方式,在双路径分割网络输出预测分割图的每个像素点上,为置信度更高的预测分割结果赋予更高的权重。如此,生成的伪标签既融合了双路径的预测分割结果,又能在像素点级别上偏向预测确定性更高的分割结果,从而使得融合伪标签具有较高的置信度。
3)最大平方损失约束
在眼底图像中,视盘区域包含视杯区域,且视盘区域轮廓更分明,使得视盘区域的预测比视杯区域的预测更容易,因此大多数分割网络对视盘类别产生更高的预测值,而对视杯类别产生相对较低的预测值,从而造成模型训练时对视盘预测性能提升的偏向。为防止上述情况发生,本发明实施例利用最大平方损失函数Lmax约束伪标签Y′mix(i),以适配类间预测概率不平衡的情境,削弱高置信度类别在训练中的主导作用,使各个类别的预测结果置信度均得到提升。具体形式如下:
其中,Y′mix(i)表示伪标签Y′mix中第i个像素值。最大平方损失函数能够引导融合伪标签的每个概率值更偏向0或1,使其更逼近真实标签的特点。此外,最大平方损失的梯度为线性的,在训练模型更新参数时,即使高置信度类别获得的梯度值更高,其他类别也能获得足够的梯度,从而削弱高置信度类别在训练中的主导作用,使融合伪标签在各个类别上的置信度均得到提高。
204:利用一种跨域对比约束机制,优化域变换前后图像特征的相似性,使特征保留更多与图像结构相关的信息,提高图像特征在分割任务上的有效性;
其中,上述步骤204主要包括:
图像的编码特征中所包含的语义信息应当最大程度地与视盘、视杯分割任务相关,而排除与分割任务无关的语义信息,使输出分割结果更加精确。
综上所述,本发明实施例结合了双向域变换、双路径分割网络、伪标签融合以及跨域对比等模块,建立跨域场景下的视杯、视盘分割模型,提升目标域图像预测分割结果的准确性。
实施例3
下面结合具体的算例,计算公式对实施例1和2中的方案进行可行性验证,详见下文描述:
在训练时,将原图像Xs和副本图像Xs→t视为正样本,随机选取负样本。Xt和Xt→s同理。正样本图像的输出分割结果理应一致,因此其特征也应当具有结构上的相似性。基于上述考虑,在本发明实施例中,利用对比损失函数Lc,拉近正样本的特征之间的距离,以强化特征中与分割任务相关的信息,使正样本的输出分割结果相靠近。Lc的具体形式为:
其中,log(·)为以2为底的对数函数,F(·)表示图像的编码特征,d(·)表示欧氏距离,exp(d(·)/2σ2)表示衡量两个特征之间相似性的高斯核函数,n表示一个训练批次输入的图像数量。对正样本图像Xs和Xs→t,以及Xt和Xt→s,分别施加对比损失函数Lc,强化编码特征中与分割任务相关的语义信息(主要是结构性信息),从而提升预测分割结果的准确性和正样本图像预测结果的一致性。
所采用的评估指标为骰子系数(Dice coefficients,DI),计算如下:
其中,Ntp、Nfp和Nfn分别表示预测的分割结果中真阳性、假阳性和假阴性的像素个数。越高的DI指标暗示越好的分割性能越好。DIdisc用来评测视盘的分割结果,而DIcup用来评测视杯的分割结果。
对于青光眼诊断,误差绝对值δ为预测分割结果的杯盘比CDRp与真实的杯盘比CDRg之间的误差,即δ=|CDRp-CDRg|。其中VDcup表示分割图的垂直视杯径,VDdisc表示分割图的垂直视盘径。这里越小的δ数值暗示越好的分割性能。
表1、2、3分别展示了所提出算法在Drishti-GS[13]、RIM-ONE-r3[14]和REFUGEValidation/Test[15]三个数据集上的实验结果。与前人工作的实验结果对比,所提出方法具有一定的优越性。部分分割的视觉结果如图3所示,所提出方法的分割结果与真实结果具有较高的一致性。
表1 Drishti-GS[13]数据集上的实验结果对比
表2 RIM-ONE-r3[14]数据集上的实验结果对比
表3 REFUGE Validation Test[15]数据集上的实验结果对比
实施例4
一种基于双路径自监督的跨域视杯视盘自动分割,参见图4,该装置包括:处理器和存储器,存储器中存储有程序指令,处理器调用存储器中存储的程序指令以使装置执行实施例1中的以下方法步骤:
其中,所述双路径为两个分割网络采用相同的图像分割框架,但不共享网络参数。
所述源域-目标域和目标域-源域的双向眼底图像域变换为:
将源域图像Xs和目标域图像Xt分别进行二维图像傅里叶变换,得到其各自的频谱As和At;
截取源域频谱As的振幅图中的一个中央矩形块,将其替换到目标域频谱At的对应位置上,生成新的频谱At→s,再将At→s进行傅里叶逆变换,生成源域风格的目标域图像Xt→s,其形状、位置、纹理等信息与原目标域图像Xt一致;
将目标域频谱At中的低频信息替换到源域频谱图As上,再将替换后的频谱图As→t进行傅里叶逆变换,得到目标域风格的源域图像Xs→t,其形状、位置、纹理等信息与原源域图像Xs一致。
其中,所述将双路径网络输出的无监督图像的预测分割结果进行融合,得到融合伪标签为:
将无监督图像Xt和Xt→s输入到双路径图像分割网络,输出的预测分割结果分别为Y′t和Y′t→s;
将Y′t→s和Y′t融合,生成融合伪标签Y′mix,融合方式为:
对于Y′t中第c个通道图Y′t(c),其第i个像素点预测值为Y′t(c,i),利用下式计算置信度值St(i,c):
St(i,c)=1-exp(1-pmax/pmin)
pmax=max(Y′t(c,i),1-Y′t(c,i))
pmin=min(Y′t(c,i),1-Y′t(c,i))
其中,exp(·)为以自然常数e为底的指数函数,所有预测点的置信度值组成置信度图St(c);
将Y′t→s做相同处理,得置信度图St→s(c),将St(c)和St→s(c)连接,经softmax层,得到相对置信度图S′t(c)和S′t→s(c),将各通道的相对置信度图重组为置信度矩阵S′t和S′t→s;
利用S′t和S′t→s对Y′t和Y′t→s进行加权融合,得到融合伪标签Y′mix,如下式:
Y′mix=S′t·Y′t+S′t→s·Y′t→s
在进一步的训练中,使伪标签Y′mix作为无标签图像Xt和Xt→s的监督信息。
进一步地,所述跨域对比约束机制为:
将原图像Xs和副本图像Xs→t视为正样本,随机选取负样本,Xt和Xt→s同理;
利用对比损失函数Lc,拉近正样本的特征之间的距离,Lc的形式为:
其中,log(·)为以2为底的对数函数,F(·)表示图像的编码特征,d(·)表示欧氏距离,exp(d(·)/2σ2)表示高斯核函数,n表示一训练批次输入的图像数量;
对正样本图像Xs和Xs→t,以及Xt和Xt→s,分别施加对比损失函数Lc,强化编码特征中与分割任务相关的语义信息。
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器2和处理器1之间通过总线3传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其它可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
本发明实施例对各器件的型号除做特殊说明的以外,其它器件的型号不做限制,只要能完成上述功能的器件均可。
参考文献:
[1]Zhang N,Wang J,Li Y,et al.Prevalence of primary open angleglaucoma in the last 20years:a meta-analysis and systematic review[J].Scientific Reports,2021,11(1):1–12.
[2]Fu Y,Chen J,Li J,et al.Optic disc segmentation by U-net andprobability bubble in abnormal fundus images[J].Pattern Recognition,2021,117:107971.
[3]Xiong H,Liu S,Sharan R V,et al.Weak label based Bayesian U-Net foroptic disc segmentation in fundus images[J].Artificial Intelligence inMedicine,2022,126:102261.
[4]Guo F,Li W,Kuang Z,et al.MES-Net:a new network for retinal imagesegmentation[J].Multimedia Tools and Applications,2021,80(10):14767–14788.
[5]Long J,Shelhamer E,Darrell T.Fully convolutional networks forsemantic segmentation[C].In Proceedings of the IEEE conference on computervision and pattern recognition,2015:3431–3440.
[6]Ronneberger O,Fischer P,Brox T.U-net:Convolutional networks forbiomedical imagesegmentation[C].In International Conference on Medical imagecomputing andcomputer-assisted intervention,2015:234–241.
[7]Chen L-C,Papandreou G,Kokkinos I,et al.Deeplab:Semantic imagesegmentation withdeep convolutional nets,atrous convolution,and fullyconnected crfs[J].IEEE transactions onpattern analysis and machineintelligence,2017,40(4):834–848.
[8]Liu X,Yoo C,Xing F,et al.Deep Unsupervised Domain Adaptation:AReview of RecentAdvances and Perspectives[J].APSIPA Transactions on Signaland Information Processing,2022.
[9]Wang S,Yu L,Yang X,et al.Patch-based output space adversariallearning for joint optic discand cup segmentation[J].IEEE transactions onmedical imaging,2019,38(11):2485–2495.
[10]Kadambi S,Wang Z,Xing E.WGAN domain adaptation for the jointoptic disc-and-cupsegmentation in fundus images[J].International Journal ofComputer Assisted Radiology andSurgery,2020,15(7):1205–1213.
[11]Wang S,Yu L,Li K,et al.Boundary and entropy-driven adversariallearning for fundusimage segmentation[C].In International Conference onMedical Image Computing andComputer-Assisted Intervention,2019:102–110.
[12]Chen C,Wang G.IOSUDA:an unsupervised domain adaptation with inputand output spacealignment for joint optic disc and cup segmentation[J].Applied Intelligence,2021,51(6):3880–3898.
[13]Sivaswamy J,Krishnadas S,Chakravarty A,et al.A comprehensiveretinal image dataset forthe assessment of glaucoma from the optic nerve headanalysis[J].JSM Biomedical ImagingData Papers,2015,2(1):1004.
[14]Fumero F,Alayón S,Sanchez J L,et al.RIM-ONE:An open retinal imagedatabase for opticnerve evaluation[C].In 2011 24th international symposium oncomputer-based medical systems(CBMS),2011:1–6.
[15]Orlando J I,Fu H,Breda J B,et al.Refuge challenge:A unifiedframework for evaluatingautomated methods for glaucoma assessment from fundusphotographs[J].Medical imageanalysis,2020,59:101570.
[16]Zhang Y,Miao S,Mansi T,et al.Task driven generative modeling forunsupervised domainadaptation:Application to x-ray image segmentation[C].InInternational Conference on Medical Image Computing and Computer-AssistedIntervention,2018:599–607.
[17]Hoffman J,Wang D,Yu F,et al.Fcns in the wild:Pixel-leveladversarial and constraint-based adaptation[J].arXiv preprint arXiv:1612.02649,2016.
[18]Javanmardi M,Tasdizen T.Domain adaptation for biomedical imagesegmentation using adversarial training[C].In 2018IEEE 15th InternationalSymposium on Biomedical Imaging(ISBI 2018),2018:554–558.
[19]Liu L,Zhang Z,Li S,et al.S-CUDA:Self-cleansing unsuperviseddomain adaptation for medical image segmentation[J].Medical Image Analysis,2021,74:102214.
[20]Liu P,Kong B,Li Z,et al.CFEA:collaborative feature ensemblingadaptation for domain adaptation in unsupervised optic disc and cupsegmentation[C].In International Conference on Medical Image Computing andComputer-Assisted Intervention,2019:521–529.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于双路径自监督的跨域视杯视盘自动分割方法,其特征在于,所述方法包括:
利用源域-目标域和目标域-源域的双向眼底图像域变换,分别生成目标域风格的源域图像以及源域风格的目标域图像,所述源域图像为有分割标签,目标域图像为无分割标签;
利用DeepLabV3+图像分割网络为框架,搭配MobileNetV2特征提取器,构建双路径眼底图像分割网络;
将双路径网络输出的无监督图像的预测分割结果进行融合,得到融合伪标签,并利用融合伪标签指导无标签图像的进一步训练;
利用一种跨域对比约束机制,优化域变换前后图像特征的相似性,使特征保留与图像结构相关的信息。
2.根据权利要求1所述的一种基于双路径自监督的跨域视杯视盘自动分割方法,其特征在于,所述双路径为两个分割网络采用相同的图像分割框架,但不共享网络参数。
3.根据权利要求1所述的一种基于双路径自监督的跨域视杯视盘自动分割方法,其特征在于,所述源域-目标域和目标域-源域的双向眼底图像域变换为:
将源域图像Xs和目标域图像Xt分别进行二维图像傅里叶变换,得到其各自的频谱As和At;
截取源域频谱As的振幅图中的一个中央矩形块,将其替换到目标域频谱At的对应位置上,生成新的频谱At→s,再将At→s进行傅里叶逆变换,生成源域风格的目标域图像Xt→s,其形状、位置、纹理等信息与原目标域图像Xt一致;
将目标域频谱At中的低频信息替换到源域频谱图As上,再将替换后的频谱图As→t进行傅里叶逆变换,得到目标域风格的源域图像Xs→t,其形状、位置、纹理等信息与原源域图像Xs一致。
4.根据权利要求1所述的一种基于双路径自监督的跨域视杯视盘自动分割方法,其特征在于,所述将双路径网络输出的无监督图像的预测分割结果进行融合,得到融合伪标签为:
将无监督图像Xt和Xt→s输入到双路径图像分割网络,输出的预测分割结果分别为Yt′和Y′t→s;
将Y′t→s和Yt′融合,生成融合伪标签Y′mix,融合方式为:
对于Yt′中第c个通道图Yt′(c),其第i个像素点预测值为Yt′(c,i),利用下式计算置信度值St(i,c):
St(i,c)=1-exp(1-pmax/pmin)
pmax=max(Yt′(c,i),1-Yt′(c,i))
pmin=min(Yt′(c,i),1-Yt′(c,i))
其中,exp(·)为以自然常数e为底的指数函数,所有预测点的置信度值组成置信度图St(c);
将Y′t→s做相同处理,得置信度图St→s(c),将St(c)和St→s(c)连接,经softmax层,得到相对置信度图S′t(c)和S′t→s(c),将各通道的相对置信度图重组为置信度矩阵St′和S′t→s;
利用St′和S′t→s对Yt′和Y′t→s进行加权融合,得到融合伪标签Y′mix,如下式:
Y′mix=S′t·Yt′+S′t→s·Y′t→s
在进一步的训练中,使伪标签Y′mix作为无标签图像Xt和Xt→s的监督信息。
6.一种基于双路径自监督的跨域视杯视盘自动分割装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-5中的任一项所述的方法步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-5中的任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310006507.7A CN116228671A (zh) | 2023-01-04 | 2023-01-04 | 基于双路径自监督的跨域视杯视盘自动分割方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310006507.7A CN116228671A (zh) | 2023-01-04 | 2023-01-04 | 基于双路径自监督的跨域视杯视盘自动分割方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116228671A true CN116228671A (zh) | 2023-06-06 |
Family
ID=86579789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310006507.7A Pending CN116228671A (zh) | 2023-01-04 | 2023-01-04 | 基于双路径自监督的跨域视杯视盘自动分割方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116228671A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116468744A (zh) * | 2023-06-19 | 2023-07-21 | 武汉大水云科技有限公司 | 一种面向水域场景的双分布匹配多域适应分割方法与系统 |
CN118334062A (zh) * | 2024-06-13 | 2024-07-12 | 江西师范大学 | 无源域自适应眼底图像分割方法和设备 |
-
2023
- 2023-01-04 CN CN202310006507.7A patent/CN116228671A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116468744A (zh) * | 2023-06-19 | 2023-07-21 | 武汉大水云科技有限公司 | 一种面向水域场景的双分布匹配多域适应分割方法与系统 |
CN116468744B (zh) * | 2023-06-19 | 2023-09-05 | 武汉大水云科技有限公司 | 一种面向水域场景的双分布匹配多域适应分割方法与系统 |
CN118334062A (zh) * | 2024-06-13 | 2024-07-12 | 江西师范大学 | 无源域自适应眼底图像分割方法和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Boundary and entropy-driven adversarial learning for fundus image segmentation | |
Altaf et al. | Going deep in medical image analysis: concepts, methods, challenges, and future directions | |
Han et al. | GAN-based synthetic brain MR image generation | |
Kamran et al. | RV-GAN: Segmenting retinal vascular structure in fundus photographs using a novel multi-scale generative adversarial network | |
CN110111313B (zh) | 基于深度学习的医学图像检测方法及相关设备 | |
Pavan Kumar et al. | Generative adversarial networks: a survey on applications and challenges | |
Fidon et al. | Generalized wasserstein dice score, distributionally robust deep learning, and ranger for brain tumor segmentation: BraTS 2020 challenge | |
Lyu et al. | AADG: Automatic augmentation for domain generalization on retinal image segmentation | |
CN116228671A (zh) | 基于双路径自监督的跨域视杯视盘自动分割方法及装置 | |
CN107997778A (zh) | 在计算机断层扫描血管造影术中基于深度学习的骨移除 | |
Liang et al. | TransConver: transformer and convolution parallel network for developing automatic brain tumor segmentation in MRI images | |
Abdi et al. | Quality assessment of echocardiographic cine using recurrent neural networks: Feasibility on five standard view planes | |
Chen et al. | TarGAN: target-aware generative adversarial networks for multi-modality medical image translation | |
Zhao et al. | Versatile framework for medical image processing and analysis with application to automatic bone age assessment | |
Beetz et al. | Generating subpopulation-specific biventricular anatomy models using conditional point cloud variational autoencoders | |
Pujitha et al. | Solution to overcome the sparsity issue of annotated data in medical domain | |
Yang et al. | A multiorgan segmentation model for CT volumes via full convolution‐deconvolution network | |
Solatidehkordi et al. | Survey on recent trends in medical image classification using semi-supervised learning | |
Duan et al. | Semi‐supervised classification of fundus images combined with CNN and GCN | |
Zhu et al. | OTRE: where optimal transport guided unpaired image-to-image translation meets regularization by enhancing | |
Fu et al. | Robust vascular segmentation for raw complex images of laser speckle contrast based on weakly supervised learning | |
Ying et al. | Blind video quality assessment for ultra-high-definition video based on super-resolution and deep reinforcement learning | |
Jiang et al. | Residual spatial and channel attention networks for single image dehazing | |
Yoon et al. | Domain generalization for medical image analysis: A survey | |
Man et al. | Transformer-based gan for new hairstyle generative networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |