CN116188435A - 一种基于模糊逻辑的医学图像深度分割方法 - Google Patents
一种基于模糊逻辑的医学图像深度分割方法 Download PDFInfo
- Publication number
- CN116188435A CN116188435A CN202310195481.5A CN202310195481A CN116188435A CN 116188435 A CN116188435 A CN 116188435A CN 202310195481 A CN202310195481 A CN 202310195481A CN 116188435 A CN116188435 A CN 116188435A
- Authority
- CN
- China
- Prior art keywords
- feature
- fuzzy
- features
- image
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000004927 fusion Effects 0.000 claims abstract description 38
- 210000004204 blood vessel Anatomy 0.000 claims abstract description 21
- 238000013136 deep learning model Methods 0.000 claims abstract description 11
- 238000013135 deep learning Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 47
- 238000013527 convolutional neural network Methods 0.000 claims description 37
- 230000004913 activation Effects 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000002093 peripheral effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 4
- 238000003709 image segmentation Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 208000030533 eye disease Diseases 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011369 optimal treatment Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000001210 retinal vessel Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Ophthalmology & Optometry (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于模糊逻辑的医学图像深度分割方法,属于医学图像智能处理技术领域。解决了医学图像数据集数据不足导致医学图像分割准确率低的问题。其技术方案为:包括如下步骤:S1、对眼底医学图像数据集进行扩充,将彩色眼底图像以中心点随机旋转生成新的图片;S2、使用CNN和Transformer模型分别提取眼底图像特征;S3、设计模糊融合模块将两个分支提取的特征进行结合;S4、构造模糊注意力融合模块逐步上采样与融合不同尺度特征图;S5、搭建基于模糊逻辑的深度学习网络FTransCNN。本发明有益效果为:使用模糊逻辑将两种深度学习模型特征进行融合,更自然、合理的表示眼底血管区域边缘的不准确信息。
Description
技术领域
本发明涉及医学图像智能处理技术领域,尤其涉及基于模糊逻辑的医学图像深度分割方法。
背景技术
眼底图像中保存着和眼科致盲疾病有重要联系的血管信息,眼底血管的健康状况对于医生及早诊断糖尿病心脑血管疾病及多种眼科疾病具有重要意义。但是由于眼底血管自身结构复杂,同时易受采集环境中光照因素的影响,使得临床上手动分割眼底血管不仅工作量巨大而且对医疗人员的经验和技能要求颇高。另外,不同的医疗人员对同一幅眼底图像的分割结果可能存在差异,手动分割已不能满足临床的需要。
随着计算机技术的不断发展,利用人工智能技术对眼底血管图像进行自动分割,以对眼科疾病进行辅助诊断和决策,成为了国内外学者关注的研究热点。深度学习凭借其在识别应用中超高的预测准确率,在图像处理领域获得了极大关注,深度学习中的卷积神经网络和Transformer模型在图像处理方面有着独特的优越性。经典的卷积神经网络U-Net,能够融合图像的低层和高层信息,在很少的图像上进行端到端的训练,用于解决具有挑战性的视网膜血管分割问题。但是,由于卷积中归纳偏置的局部性和权重共享,使用卷积操作不可避免地在建模远程依赖方面存在局限性。而Transformer擅长对全局上下文进行建模,但它在捕获细粒度细节方面还有很多缺陷,尤其针对医学图像的分割。
因此,为了能够有效利用不同深度学习模型所具有的优势,将CNN与Transformer相结合的方法被提出并逐渐得到应用。
发明内容
本发明提出了一种基于模糊逻辑的医学图像深度分割方法,考虑了医学图像的特征,使用模糊逻辑将两种深度学习模型特征进行融合,更自然、合理的表示眼底血管区域边缘的不准确信息,使得模型结果的精确性和可解释性得到加强,在数据规模有限的情况下也能收获较好的效果。
本发明的发明思想为:一种基于模糊逻辑的医学图像深度分割方法,可以准确分割出眼底图像中的血管轮廓,更精确地识别出血管末梢,通过模糊逻辑对两种深度学习模型融合使用,能够提高分割的准确度,有效提高了分割结果的可靠性,能够有效的帮助医生诊断眼底血管糖尿病变,让患者获得最佳的治疗时期。
本发明是通过如下措施实现的:一种基于模糊逻辑的医学图像深度分割方法,包括以下步骤:
S1:对眼底医学图像数据集进行扩充,数据集中包含N对彩色原图和眼底血管分割图,将每张图片以中心点顺时针旋转,每10°保存新的图片,扩充到36*N对原图和对应分割掩码;
S2:使用CNN和Transformer模型分别提取眼底图像特征,CNN模型逐渐增加感受野并将特征从局部编码到全局,Transformer模型从全局自注意力开始,最后恢复局部细节,利用不同深度学习模型,将两个模型在三个不同尺度的特征图保存下来,进行后续融合;
S3:设计模糊融合模块将两个分支提取的相同尺度特征进行结合,模糊融合模块中结合注意力机制和模糊测度与模糊积分,对CNN特征和Transformer特征分别使用空间注意力和通道注意力来增强特征表示,对最低尺度特征计算模糊测度并使用Choquet模糊积分消除特征中的异质性和不确定性;
S4:构造模糊注意力融合模块逐步上采样与融合不同尺度特征图,处理分割边界的不确定性,将融合的特征图恢复到输入大小,生成最终分割图像;
S5:搭建基于模糊逻辑的深度学习网络FTransCNN,用扩充后的图像数据对模型进行训练,准确分割出眼底血管以及末梢图像。
作为本发明提供的一种基于模糊逻辑的医学图像深度分割方法进一步优化方案,所述步骤S2的具体步骤如下:
步骤S2.1:针对CNN模型,将大小为x∈RH×W×C的图像输入到由ResNet50组成的CNN特征提取网络中,其中H、W、C分别表示输入图像的高度、宽度和通道数,实现图像数据从高分辨率图像到低分辨率图像的转化,构建有五个模块的ResNet模型,每个模块将特征图下采样两倍,将第4个块输出第3个块输出/>和第2个块输出/>的特征图保存下来,与Transformer模型相应大小的特征图进行后续融合;
步骤S2.2:针对Transformer模型,首先将图像划分为个Patch块,其中,S设置为16,其次将这些Patch块展平并拼接,用全连接层对拼接的向量降维,接着对输入图像特征加入位置编码得到输入特征x,然后将预处理特征x输入到Transformer的编码器进行特征提取,最后将提取的特征进行上采样,得到与CNN模型提取特征尺度相同的特征,Transformer特征提取过程如下:
headi=Attention(XiWi Q,XiWi K,XiWi V) (2)
MSA(Q,K,V)=Concat(head1,...,h...,headi)W0 (3)
MLP(X)=max(0,XW1+b1)W2+b2 (4)
其中,Q,K,V为将输入X经过线性变换后得到的矩阵,Q表示要查询的信息,K表示被查询的向量,V表示查询得到的值,dk表示查询矩阵或者键值矩阵的维度,softmax是激活函数,Wi Q、Wi K、Wi V分别表示第i个自注意力的线性变换矩阵,Concat表示拼接操作,W0表示线性变换矩阵,max为求最大值操作,W1、W2为权重,b1、b2是常数。
作为本发明提供的一种基于模糊逻辑的医学图像深度分割方法进一步优化方案,所述步骤S3的具体步骤如下:
步骤S3.1:对Transformer模型保存的特征使用通道注意力,首先利用全局平均池化操作对每个特征图进行压缩,使得多个特征图最终成为一维实数序列,计算过程如下所示:
其中,squeeze代表压缩操作,ti(x,y)表示步骤S2中保存的Transformer模型第i个尺度的特征,H、W为特征的尺度大小,然后使用扩张操作来利用压缩操作中聚合的信息,使用了一个带有sigmoid激活的门控机制,计算方式如下:
s=σ(W2·ReLU(W1·z)) (6)
步骤S3.2:针对CNN模型提取的特征,使用空间注意力作为空间滤波器,增强局部细节,抑制无关区域,第一步使用平均池化和最大池化来生成通道注意力图:
m=σ(MLP(AvgPool(ri)+MaxPool(ri))) (7)
其中,σ表示sigmoid激活函数,ri表示步骤S2中保存的CNN模型第i个尺度的特征,AvgPool和MaxPool分别表示平均池化和最大池化操作,第二步利用特征之间的空间关系生成空间注意力图,沿通道轴应用平均池化和最大池化操作,并将它们连接起来生成有效的特征描述符,接着使用标准卷积层进行连接和卷积操作以获得二维空间注意力图:
ri'=σ(f7×7([AvgPool(m);MaxPool(m)])) (8)
其中,σ表示sigmoid激活函数,f7×7表示卷积核为7×7的卷积层;
步骤S3.3:使用Hadamard乘积对来自两个分支的特征之间的细粒度交互进行建模,利用残差块计算连接起来的交互特征hi和注意力特征ti'、ri',最后对得到的最低尺度特征计算模糊测度并使用Choquet模糊积分消除特征中的异质性和不确定性,计算过程如下所示:
fi=C(g(Residual([ti',ri',hi]))) (10)
其中,W1和W2表示1×1的卷积层,ri和ti表示CNN和Transformer提取的特征,Conv是3×3的卷积层,Residual是残差连接,g表示模糊测度,C表示Choquet模糊积分。
作为本发明提供的一种基于模糊逻辑的医学图像深度分割方法进一步优化方案,所述步骤S4的具体步骤如下:
步骤S4.1:把步骤S3中融合两个不同分支但是尺度大小相同的特征图进行上采样,与上一级的特征图一起作为输入;
步骤S4.2:在模糊注意力融合模块中,假设输入的两个特征图分别用 表示,X是上采样过的融合特征,Y是上一层卷积输出特征图,感受野表示卷积神经网络某一层输出的特征图上的像素点映射回输入图像上的区域大小,因此上一层卷积输出Y具有更大的感受野,首先将特征图X和Y分别进行卷积和批规范化,使得其尺寸都为RH ×W×C,接着进行按元素求和,然后再次进行卷积和Sigmoid激活对通道进行缩减,最后把缩减通道后的特征图与特征图Y进行按元素乘法,将特征图尺寸恢复为RH×W×C;
步骤S4.3:对每个特征图采用一个模糊学习模块,假设Z为输入特征图,其大小为H×W×C,对于特定通道C,M个隶属函数被应用于该通道中的每个特征点,隶属函数个数M在特征图的每个通道上保持相同,并且在不同的输入特征图之间变化,每个隶属度函数为特征点分配一个模糊类标签,所有隶属度函数为高斯函数形式,计算方式如下:
其中,(x,y)是特征图通道C中的特征点,μk,c和σk,c是第k次高斯隶属函数的均值和标准差,Fx,y,k,c代表通道C中特征点(x,y)输出的第k次模糊类标签,将“与(AND)”模糊逻辑应用于特征点的所有隶属函数,通过以下方法获得输入特征图最终的模糊度Fx,y,c:
其中,Π代表求乘积操作。
作为本发明提供的一种基于模糊逻辑的医学图像深度分割方法进一步优化方案,所述步骤S5的具体步骤如下:
步骤S5.1:将眼底图像数据集以8:2的比例划分为训练集和测试集输入到训练网络中;
步骤S5.2:搭建步骤S2、S3、S4所述网络模型FTransCNN,该模型首先用CNN和Transformer两个模型提取眼底图像特征,然后对提取的相同尺度特征进行模糊融合,最后使用模糊注意力模块上采样恢复图像尺寸;
Dice相似系数是衡量两个集合相似度的指标,用于计算两个样本的相似度,取值范围是[0,1],值越大说明分割结果与真实值越接近,分割效果越好,DSC计算公式如下:
其中,|A|和|B|分别表示模型的预测图片和真实标签图像中的像素数目,|A∩B|表示两个图像中位置相同且标签相同的像素数目,最终的损失函数将BCE交叉熵和Dice相似系数相结合,各占据一半的权重,具体公式如下:
Loss=0.5*BCE+0.5*Dice (15)
其中,Loss表示损失值;
步骤S5.4:用随机梯度下降进行优化,以最小化损失函数和最大化预测准确率为目标,训练所搭建的模型。
与现有技术相比,本发明的有益效果为:
1、为了解决医学图像分割时边缘分割效果不明显,综合有效利用不同深度学习模型所具有的优势,本发明将两个深度学习模型进行融合,将CNN和Transformer模型相结合来提升分割性能;
2、为了解决多个模型提取的分割特征融合时存在异质性、不确定性,用融合特征进行分割效果并不明显等问题,本发明使用通道注意力和空间注意力进行特征融合,并通过Choquet模糊积分和FAFM模块来消除融合特征中的异质性以及特征的不确定性;
3、本发明引入模糊逻辑,消除不同深度学习模型提取的特征进行融合之后存在的不确定性,能够提升模型分割的准确率,大大提升医学图像分割效果。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,使本发明的技术方案及其有益效果显而易见。
图1所示为本发明一种基于模糊逻辑的医学图像深度分割方法的流程图;
图2所示为本发明对眼底图像进行数据扩充的示意图;
图3所示为本发明中对两个深度学习模型提取特征进行结合的模糊融合模块示意图;
图4所示为本发明中逐步上采样与融合不同尺度特征图的模糊注意力融合模块示意图;
图5所示为本发明一种基于模糊逻辑的医学图像深度分割方法整体框架图;
图6所示为本发明针对眼底图像数据集进行分割的结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。当然,通过参考附图描述的示例仅用于解释本发明,而不能解释为对本发明的限制。
实施例1
参见图1至6,本实施例提供了一种基于模糊逻辑的医学图像深度分割方法,包括以下步骤:
S1:对眼底医学图像数据集进行扩充,数据集中包含N对彩色原图和眼底血管分割图,将每张图片以中心点顺时针旋转,每10°保存新的图片,扩充到36*N对原图和对应分割掩码;
S2:使用CNN和Transformer模型分别提取眼底图像特征,CNN模型逐渐增加感受野并将特征从局部编码到全局,Transformer模型从全局自注意力开始,最后恢复局部细节,利用不同深度学习模型,将两个模型在三个不同尺度的特征图保存下来,进行后续融合;
S3:设计模糊融合模块将两个分支提取的相同尺度特征进行结合,模糊融合模块中结合注意力机制和模糊测度与模糊积分,对CNN特征和Transformer特征分别使用空间注意力和通道注意力来增强特征表示,对最低尺度特征计算模糊测度并使用Choquet模糊积分消除特征中的异质性和不确定性;
S4:构造模糊注意力融合模块逐步上采样与融合不同尺度特征图,处理分割边界的不确定性,将融合的特征图恢复到输入大小,生成最终分割图像;
S5:搭建基于模糊逻辑的深度学习网络FTransCNN,用扩充后的图像数据对模型进行训练,准确分割出眼底血管以及末梢图像。
具体地,所述步骤S2的具体步骤如下:
步骤S2.1:针对CNN模型,将大小为x∈RH×W×C的图像输入到由ResNet50组成的CNN特征提取网络中,其中H、W、C分别表示输入图像的高度、宽度和通道数,实现图像数据从高分辨率图像到低分辨率图像的转化,构建有五个模块的ResNet模型,每个模块将特征图下采样两倍,将第4个块输出第3个块输出/>和第2个块输出/>的特征图保存下来,与Transformer模型相应大小的特征图进行后续融合;
步骤S2.2:针对Transformer模型,首先将图像划分为个Patch块,其中,S设置为16,其次将这些Patch块展平并拼接,用全连接层对拼接的向量降维,接着对输入图像特征加入位置编码得到输入特征x,然后将预处理特征x输入到Transformer的编码器进行特征提取,最后将提取的特征进行上采样,得到与CNN模型提取特征尺度相同的特征,Transformer特征提取过程如下:
headi=Attention(XiWi Q,XiWi K,XiWi V) (2)
MSA(Q,K,V)=Concat(head1,…,headi)W0 (3)
MLP(X)=max(0,XW1+b1)W2+b2 (4)
其中,Q,K,V为将输入X经过线性变换后得到的矩阵,Q表示要查询的信息,K表示被查询的向量,V表示查询得到的值,dk表示查询矩阵或者键值矩阵的维度,softmax是激活函数,Wi Q、Wi K、Wi V分别表示第i个自注意力的线性变换矩阵,Concat表示拼接操作,W0表示线性变换矩阵,max为求最大值操作,W1、W2为权重,b1、b2是常数。
具体地,所述步骤S3的具体步骤如下:
步骤S3.1:对Transformer模型保存的特征使用通道注意力,首先利用全局平均池化操作对每个特征图进行压缩,使得多个特征图最终成为一维实数序列,计算过程如下所示:
其中,squeeze代表压缩操作,ti(x,y)表示步骤S2中保存的Transformer模型第i个尺度的特征,H、W为特征的尺度大小,然后使用扩张操作来利用压缩操作中聚合的信息,使用了一个带有sigmoid激活的门控机制,计算方式如下:
s=σ(W2·ReLU(W1·z)) (6)
步骤S3.2:针对CNN模型提取的特征,使用空间注意力作为空间滤波器,增强局部细节,抑制无关区域,第一步使用平均池化和最大池化来生成通道注意力图:
m=σ(MLP(AvgPool(ri)+MaxPool(ri))) (7)
其中,σ表示sigmoid激活函数,ri表示步骤S2中保存的CNN模型第i个尺度的特征,AvgPool和MaxPool分别表示平均池化和最大池化操作,第二步利用特征之间的空间关系生成空间注意力图,沿通道轴应用平均池化和最大池化操作,并将它们连接起来生成有效的特征描述符,接着使用标准卷积层进行连接和卷积操作以获得二维空间注意力图:
ri'=σ(f7×7([AvgPool(m);MaxPool(m)])) (8)
其中,σ表示sigmoid激活函数,f7×7表示卷积核为7×7的卷积层;
步骤S3.3:使用Hadamard乘积对来自两个分支的特征之间的细粒度交互进行建模,利用残差块计算连接起来的交互特征hi和注意力特征ti'、ri',最后对得到的最低尺度特征计算模糊测度并使用Choquet模糊积分消除特征中的异质性和不确定性,计算过程如下所示:
fi=C(g(Residual([ti',ri',hi]))) (10)
其中,W1和W2表示1×1的卷积层,ri和ti表示CNN和Transformer提取的特征,Conv是3×3的卷积层,Residual是残差连接,g表示模糊测度,C表示Choquet模糊积分。
具体地,所述步骤S4的具体步骤如下:
步骤S4.1:把步骤S3中融合两个不同分支但是尺度大小相同的特征图进行上采样,与上一级的特征图一起作为输入;
步骤S4.2:在模糊注意力融合模块中,假设输入的两个特征图分别用 表示,X是上采样过的融合特征,Y是上一层卷积输出特征图,感受野表示卷积神经网络某一层输出的特征图上的像素点映射回输入图像上的区域大小,因此上一层卷积输出Y具有更大的感受野,首先将特征图X和Y分别进行卷积和批规范化,使得其尺寸都为RH ×W×C,接着进行按元素求和,然后再次进行卷积和Sigmoid激活对通道进行缩减,最后把缩减通道后的特征图与特征图Y进行按元素乘法,将特征图尺寸恢复为RH×W×C;
步骤S4.3:对每个特征图采用一个模糊学习模块,假设Z为输入特征图,其大小为H×W×C,对于特定通道C,M个隶属函数被应用于该通道中的每个特征点,隶属函数个数M在特征图的每个通道上保持相同,并且在不同的输入特征图之间变化,每个隶属度函数为特征点分配一个模糊类标签,所有隶属度函数为高斯函数形式,计算方式如下:
其中,(x,y)是特征图通道C中的特征点,μk,c和σk,c是第k次高斯隶属函数的均值和标准差,Fx,y,k,c代表通道C中特征点(x,y)输出的第k次模糊类标签,将“与(AND)”模糊逻辑应用于特征点的所有隶属函数,通过以下方法获得输入特征图最终的模糊度Fx,y,c:
其中,Π代表求乘积操作。
具体地,所述步骤S5的具体步骤如下:
步骤S5.1:将眼底图像数据集以8:2的比例划分为训练集和测试集输入到训练网络中;
步骤S5.2:搭建步骤S2、S3、S4所述网络模型FTransCNN,该模型首先用CNN和Transformer两个模型提取眼底图像特征,然后对提取的相同尺度特征进行模糊融合,最后使用模糊注意力模块上采样恢复图像尺寸;
Dice相似系数是衡量两个集合相似度的指标,用于计算两个样本的相似度,取值范围是[0,1],值越大说明分割结果与真实值越接近,分割效果越好,DSC计算公式如下:
其中,|A|和|B|分别表示模型的预测图片和真实标签图像中的像素数目,|A∩B|表示两个图像中位置相同且标签相同的像素数目,最终的损失函数将BCE交叉熵和Dice相似系数相结合,各占据一半的权重,具体公式如下:
Loss=0.5*BCE+0.5*Dice (15)
其中,Loss表示损失值;
步骤S5.4:用随机梯度下降进行优化,以最小化损失函数和最大化预测准确率为目标,训练所搭建的模型。
用图像旋转的方法对眼底图像数据集进行扩充,如图2所示,左边为原始图像,右边为顺时针每旋转10°保存的新图像,同时将图像大小统一,设置为512×512像素;然后将数据集按8:2划分为训练集与验证集,同时输入到CNN和Transformer模型中进行特征提取,CNN采用ResNet网络进行特征提取,使用Transformer提取特征时,将输入图片划分为16个patch块,保存两个模型在三个尺度下的特征图用于特征融合,大小分别为 和/>如图5所示;在进行特征融合时,设计模糊融合模块,如图3所示,将空间注意力和通道注意力分别用于CNN特征和Transformer特征,并使用模糊积分消除融合特征中的不确定性;在上采样过程中,按照图4左边方式先将不同尺度特征图进行融合,再使用图4右边的模糊学习模块进行上采样;最终得到恢复至原图尺寸的眼底血管分割图。训练该模型时,采用小批量随机梯度下降方法来优化模型,每次试验进行100轮迭代,训练批次大小为4,学习率为7e-5,动量参数为0.9,在这100轮迭代训练完成后,用Dice相似系数、平均交并比和准确率三个分割指标来评价搭建的FTransCNN模型,得到模型在整个眼底图像数据集上的指标分别达到77.21%、70.68%和88.56%,用训练得到的最优模型对眼底图像进行分割,得到的部分分割结果如图6中所示。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于模糊逻辑的医学图像深度分割方法,其特征在于,包括以下步骤:
S1:对眼底医学图像数据集进行扩充,数据集中包含N对彩色原图和眼底血管分割图,将每张图片以中心点顺时针旋转,每10°保存新的图片,扩充到36*N对原图和对应分割掩码;
S2:使用CNN和Transformer模型分别提取眼底图像特征,CNN模型逐渐增加感受野并将特征从局部编码到全局,Transformer模型从全局自注意力开始,最后恢复局部细节,利用不同深度学习模型,将两个模型在三个不同尺度的特征图保存下来,进行后续融合;
S3:设计模糊融合模块将两个分支提取的相同尺度特征进行结合,模糊融合模块中结合注意力机制和模糊测度与模糊积分,对CNN特征和Transformer特征分别使用空间注意力和通道注意力来增强特征表示,对最低尺度特征计算模糊测度并使用Choquet模糊积分消除特征中的异质性和不确定性;
S4:构造模糊注意力融合模块逐步上采样与融合不同尺度特征图,处理分割边界的不确定性,将融合的特征图恢复到输入大小,生成最终分割图像;
S5:搭建基于模糊逻辑的深度学习网络FTransCNN,用扩充后的图像数据对模型进行训练,准确分割出眼底血管以及末梢图像。
2.根据权利要求1所述的基于模糊逻辑的医学图像深度分割方法,其特征在于,所述步骤S2的具体步骤如下:
步骤S2.1:针对CNN模型,将大小为x∈RH×W×C的图像输入到由ResNet50组成的CNN特征提取网络中,其中H、W、C分别表示输入图像的高度、宽度和通道数,实现图像数据从高分辨率图像到低分辨率图像的转化,构建有五个模块的ResNet模型,每个模块将特征图下采样两倍,将第4个块输出第3个块输出/>和第2个块输出/>的特征图保存下来,与Transformer模型相应大小的特征图进行后续融合;
步骤S2.2:针对Transformer模型,首先将图像划分为块,其中,S设置为16,其次将这些Patch块展平并拼接,用全连接层对拼接的向量降维,接着对输入图像特征加入位置编码得到输入特征x,然后将预处理特征x输入到Transformer的编码器进行特征提取,最后将提取的特征进行上采样,得到与CNN模型提取特征尺度相同的特征,Transformer特征提取过程如下:
headi=Attention(XiWi Q,XiWi K,XiWi V) (2)
MSA(Q,K,V)=Concat(head1,…,headi)W0 (3)
MLP(X)=max(0,XW1+b1)W2+b2 (4)
其中,Q,K,V为将输入X经过线性变换后得到的矩阵,Q表示要查询的信息,K表示被查询的向量,V表示查询得到的值,dk表示查询矩阵或者键值矩阵的维度,softmax是激活函数,Wi Q、Wi K、Wi V分别表示第i个自注意力的线性变换矩阵,经过学习得到,Concat表示拼接操作,W0表示线性变换矩阵,max为求最大值操作,W1、W2为权重,b1、b2是常数。
3.根据权利要求1所述的基于模糊逻辑的医学图像深度分割方法,其特征在于,所述步骤S3的具体步骤如下:
步骤S3.1:对Transformer模型保存的特征使用通道注意力,首先利用全局平均池化操作对每个特征图进行压缩,使得多个特征图最终成为一维实数序列,计算过程如下所示:
其中,squeeze代表压缩操作,ti(x,y)表示步骤S2中保存的Transformer模型第i个尺度的特征,H、W为特征的尺度大小,然后使用扩张操作来利用压缩操作中聚合的信息,使用了一个带有sigmoid激活的门控机制,计算方式如下:
s=σ(W2·ReLU(W1·z)) (6)
步骤S3.2:针对CNN模型提取的特征,使用空间注意力作为空间滤波器,增强局部细节,抑制无关区域,第一步使用平均池化和最大池化来生成通道注意力图:
m=σ(MLP(AvgPool(ri)+MaxPool(ri))) (7)
其中,σ表示sigmoid激活函数,ri表示步骤S2中保存的CNN模型第i个尺度的特征,AvgPool和MaxPool分别表示平均池化和最大池化操作,第二步利用特征之间的空间关系生成空间注意力图,沿通道轴应用平均池化和最大池化操作,并将它们连接起来生成有效的特征描述符,接着使用标准卷积层进行连接和卷积操作以获得二维空间注意力图:
ri'=σ(f7×7([AvgPool(m);MaxPool(m)])) (8)
其中,σ表示sigmoid激活函数,f7×7表示卷积核为7×7的卷积层;
步骤S3.3:使用Hadamard乘积对来自两个分支的特征之间的细粒度交互进行建模,利用残差块计算连接起来的交互特征hi和注意力特征t′i、r′i,最后对得到的最低尺度特征计算模糊测度并使用Choquet模糊积分消除特征中的异质性和不确定性,计算过程如下所示:
fi=C(g(Residual([t′i,r′i,hi]))) (10)
其中,W1和W2表示1×1的卷积层,ri和ti表示CNN和Transformer提取的特征,Conv是3×3的卷积层,Residual是残差连接,g表示模糊测度,C表示Choquet模糊积分。
4.根据权利要求1所述的基于模糊逻辑的医学图像深度分割方法,其特征在于,所述步骤S4的具体步骤如下:
步骤S4.1:把步骤S3中融合两个不同分支但是尺度大小相同的特征图进行上采样,与上一级的特征图一起作为输入;
步骤S4.2:在模糊注意力融合模块中,假设输入的两个特征图分别用 表示,X是上采样过的融合特征,Y是上一层卷积输出特征图,感受野表示卷积神经网络某一层输出的特征图上的像素点映射回输入图像上的区域大小,因此上一层卷积输出Y具有更大的感受野,首先将特征图X和Y分别进行卷积和批规范化,使得其尺寸都为RH ×W×C,接着进行按元素求和,然后再次进行卷积和Sigmoid激活对通道进行缩减,最后把缩减通道后的特征图与特征图Y进行按元素乘法,将特征图尺寸恢复为RH×W×C;
步骤S4.3:对每个特征图采用一个模糊学习模块,假设Z为输入特征图,其大小为H×W×C,对于特定通道C,M个隶属函数被应用于该通道中的每个特征点,隶属函数个数M在特征图的每个通道上保持相同,并且在不同的输入特征图之间变化,每个隶属度函数为特征点分配一个模糊类标签,所有隶属度函数为高斯函数形式,计算方式如下:
其中,(x,y)是特征图通道C中的特征点,μk,c和σk,c是第k次高斯隶属函数的均值和标准差,Fx,y,k,c代表通道C中特征点(x,y)输出的第k次模糊类标签,将“与(AND)”模糊逻辑应用于特征点的所有隶属函数,通过以下方法获得输入特征图最终的模糊度Fx,y,c:
其中,Π代表求乘积操作。
5.根据权利要求1所述的基于模糊逻辑的医学图像深度分割方法,其特征在于,所述步骤S5的具体步骤如下:
步骤S5.1:将眼底图像数据集以8:2的比例划分为训练集和测试集输入到训练网络中;
步骤S5.2:搭建步骤S2、步骤S3、步骤S4所述网络模型FTransCNN,该模型首先用CNN和Transformer两个模型提取眼底图像特征,然后对提取的相同尺度特征进行模糊融合,最后使用模糊注意力模块上采样恢复图像尺寸;
Dice相似系数是衡量两个集合相似度的指标,用于计算两个样本的相似度,取值范围是[0,1],DSC计算公式如下:
其中,|A|和|B|分别表示模型的预测图片和真实标签图像中的像素数目,|A∩B|表示两个图像中位置相同且标签相同的像素数目,最终的损失函数将BCE交叉熵和Dice相似系数相结合,各占据一半的权重,具体公式如下:
Loss=0.5*BCE+0.5*Dice (15)
其中,Loss表示损失值;
步骤S5.4:用随机梯度下降进行优化,以最小化损失函数和最大化预测准确率为目标,训练所搭建的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310195481.5A CN116188435B (zh) | 2023-03-02 | 2023-03-02 | 一种基于模糊逻辑的医学图像深度分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310195481.5A CN116188435B (zh) | 2023-03-02 | 2023-03-02 | 一种基于模糊逻辑的医学图像深度分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116188435A true CN116188435A (zh) | 2023-05-30 |
CN116188435B CN116188435B (zh) | 2023-11-07 |
Family
ID=86438167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310195481.5A Active CN116188435B (zh) | 2023-03-02 | 2023-03-02 | 一种基于模糊逻辑的医学图像深度分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116188435B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237740A (zh) * | 2023-11-07 | 2023-12-15 | 山东军地信息技术集团有限公司 | 一种基于CNN和Transformer的SAR图像分类方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080162389A1 (en) * | 2005-12-08 | 2008-07-03 | Northrop Grumman Corporation | Hybrid architecture for acquisition, recognition, and fusion |
CN101609549A (zh) * | 2009-07-24 | 2009-12-23 | 河海大学常州校区 | 视频模糊图像的多尺度几何分析超分辨处理方法 |
CN102991498A (zh) * | 2011-12-19 | 2013-03-27 | 王晓原 | 基于多源信息融合的驾驶员跟驰行为模型 |
CN114463341A (zh) * | 2022-01-11 | 2022-05-10 | 武汉大学 | 一种基于长短距离特征的医学图像分割方法 |
CN114494195A (zh) * | 2022-01-26 | 2022-05-13 | 南通大学 | 用于眼底图像分类的小样本注意力机制并行孪生方法 |
CN115018824A (zh) * | 2022-07-21 | 2022-09-06 | 湘潭大学 | 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法 |
CN115482241A (zh) * | 2022-10-21 | 2022-12-16 | 上海师范大学 | 一种跨模态双分支互补融合的图像分割方法及装置 |
-
2023
- 2023-03-02 CN CN202310195481.5A patent/CN116188435B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080162389A1 (en) * | 2005-12-08 | 2008-07-03 | Northrop Grumman Corporation | Hybrid architecture for acquisition, recognition, and fusion |
CN101609549A (zh) * | 2009-07-24 | 2009-12-23 | 河海大学常州校区 | 视频模糊图像的多尺度几何分析超分辨处理方法 |
CN102991498A (zh) * | 2011-12-19 | 2013-03-27 | 王晓原 | 基于多源信息融合的驾驶员跟驰行为模型 |
CN114463341A (zh) * | 2022-01-11 | 2022-05-10 | 武汉大学 | 一种基于长短距离特征的医学图像分割方法 |
CN114494195A (zh) * | 2022-01-26 | 2022-05-13 | 南通大学 | 用于眼底图像分类的小样本注意力机制并行孪生方法 |
CN115018824A (zh) * | 2022-07-21 | 2022-09-06 | 湘潭大学 | 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法 |
CN115482241A (zh) * | 2022-10-21 | 2022-12-16 | 上海师范大学 | 一种跨模态双分支互补融合的图像分割方法及装置 |
Non-Patent Citations (5)
Title |
---|
WEIPING DING 等: "FTransCNN: Fusing Transformer and a CNN based on fuzzy logic for uncertain medical image segmentation", 《INFORMATION FUSION》, pages 1 - 13 * |
YU CHEN 等: "CSU-Net: A CNN-Transformer Parallel Network for Multimodal Brain Tumour Segmentation", 《MDPI》, pages 1 - 12 * |
侯帅 等: "基于Sugeno模糊积分的多分类器融合 方法在多属性决策中的应用", 《信息工程大学学报》, vol. 11, no. 1, pages 124 - 128 * |
王海鹏 等: "FTransCNN:基于模糊融合的Transformer-CNN 不确定性医学图像分割模型", 《小型微型计算机系统》, pages 1 - 10 * |
王金祥 等: "基于CNN 与Transformer 的医学图像分割", 《计算机系统应用》, pages 141 - 148 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237740A (zh) * | 2023-11-07 | 2023-12-15 | 山东军地信息技术集团有限公司 | 一种基于CNN和Transformer的SAR图像分类方法 |
CN117237740B (zh) * | 2023-11-07 | 2024-03-01 | 山东军地信息技术集团有限公司 | 一种基于CNN和Transformer的SAR图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116188435B (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Adegun et al. | Deep learning techniques for skin lesion analysis and melanoma cancer detection: a survey of state-of-the-art | |
CN112418329B (zh) | 一种基于多尺度纹理特征融合宫颈oct图像分类方法及系统 | |
CN106874489B (zh) | 一种基于卷积神经网络的肺结节图像块检索方法及装置 | |
CN111259904B (zh) | 一种基于深度学习和聚类的语义图像分割方法及系统 | |
CN111951281B (zh) | 图像分割方法、装置、设备及存储介质 | |
CN114494195A (zh) | 用于眼底图像分类的小样本注意力机制并行孪生方法 | |
CN116129141B (zh) | 医学数据处理方法、装置、设备、介质和计算机程序产品 | |
CN115147600A (zh) | 基于分类器权重转换器的gbm多模态mr图像分割方法 | |
CN109840290A (zh) | 一种基于端到端深度哈希的皮肤镜图像检索方法 | |
CN116188435B (zh) | 一种基于模糊逻辑的医学图像深度分割方法 | |
CN115294075A (zh) | 一种基于注意力机制的octa图像视网膜血管分割方法 | |
CN115578589A (zh) | 一种无监督超声心动图切面识别方法 | |
CN118447244A (zh) | 基于多尺度卷积和Mamba结构的脑肿瘤图像分割方法 | |
CN117611599B (zh) | 融合中心线图和增强对比度网络的血管分割方法及其系统 | |
CN114093507A (zh) | 边缘计算网络中基于对比学习的皮肤病智能分类方法 | |
Sanghavi et al. | An efficient framework for optic disk segmentation and classification of Glaucoma on fundus images | |
CN117853547A (zh) | 一种多模态的医学图像配准方法 | |
CN116310335A (zh) | 一种基于Vision Transformer的翼状胬肉病灶区域的分割方法 | |
CN116630660A (zh) | 一种多尺度增强学习的跨模态图像匹配方法 | |
Peng et al. | A multi-task network for cardiac magnetic resonance image segmentation and classification | |
CN115937590A (zh) | 一种并联融合CNN和Transformer的皮肤病图像分类方法 | |
CN112396089B (zh) | 基于lfgc网络和压缩激励模块的图像匹配方法 | |
CN114332601A (zh) | 一种基于语义分割的采摘机器人非结构化道路识别方法 | |
CN114022521A (zh) | 一种非刚性多模医学图像的配准方法及系统 | |
KR20220023841A (ko) | 알츠하이머 병 분류를 위한 mr 이미지 분석 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |