CN116188436B - 基于局部特征和全局特征融合的膀胱镜图像分类方法 - Google Patents
基于局部特征和全局特征融合的膀胱镜图像分类方法 Download PDFInfo
- Publication number
- CN116188436B CN116188436B CN202310196084.XA CN202310196084A CN116188436B CN 116188436 B CN116188436 B CN 116188436B CN 202310196084 A CN202310196084 A CN 202310196084A CN 116188436 B CN116188436 B CN 116188436B
- Authority
- CN
- China
- Prior art keywords
- image
- module
- feature extraction
- local
- extraction module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 76
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 21
- 238000004821 distillation Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 238000012512 characterization method Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 125000003275 alpha amino acid group Chemical group 0.000 claims 1
- 150000001875 compounds Chemical class 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 abstract description 5
- 239000000284 extract Substances 0.000 abstract description 4
- 238000013140 knowledge distillation Methods 0.000 abstract description 2
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001574 biopsy Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000001839 endoscopy Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005824 bladder abnormality Effects 0.000 description 1
- 208000029162 bladder disease Diseases 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000026533 urinary bladder disease Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10068—Endoscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明提出了一种基于局部特征和全局特征融合的膀胱镜图像分类方法,包括:获取带有图像标签的膀胱镜图像;建立融合局部和全局特征的三分支网络模型;利用模型进行膀胱镜图像的分类。本发明利用局部特征提取模块对膀胱镜图像进行特征学习,提取图像局部空间的上下文特征,同时利用全局特征提取模块对膀胱镜图像进行特征学习,提取图像的全局语义信息;利用CNN和Transformer将膀胱镜图像局部上下文特征与全局语义信息进行整合,得到一组鉴别能力更强的膀胱镜图像特征信息,优于传统的卷积神经网络所提取到的特征;利用增强后的局部特征和全局特征进行知识蒸馏,反向优化局部特征提取模块和全局特征提取模块的性能,提高准确率。
Description
技术领域
本发明涉及计算机视觉领域,特别涉及图像分类技术,具体涉及一种基于局部特征和全局特征融合的膀胱镜图像分类方法。
背景技术
用于膀胱疾病诊断的传统临床方法是活检。医学专家使用显微镜分析这些活检样本,以检查任何癌细胞或异常细胞存在的可能性。这种方法的缺点是侵入性的,并且需要高度熟练的医生。相比之下,内窥镜成像是一种用于可视化膀胱的低侵入性技术。内窥镜成像技术帮助医生在初始阶段识别和诊断膀胱异常。因此,内窥镜检查对于显着降低医疗并发症,治疗成本和死亡率非常有益。
尽管内窥镜检查有许多优点,但它带来了特定的权衡取舍。例如,在膀胱筛选过程中产生的大量视频帧。这些帧中的大多数都是多余的,没有价值,只有少数图像可能有一些异常病变。此外,有时泌尿外科专家可能会根本没有注意到异常病变区域,这可能导致误诊。因此,这些医学专家要求自动化方案,可以通过分析整个内窥镜图像自动确定可能存在的恶性肿瘤,提高医生诊断的工作效率,避免出现误诊漏诊。
近年来,深度学习模型在计算机视觉各个领域中取得了显著的效果,一些研究人员已经将卷积神经网络应用于膀胱镜图像分类任务中,如残差网络(ResNet)、密集卷积网络(DenseNet),但它们仅仅利用神经网络提取单张图像的局部特征,忽略了膀胱镜图像的全局特征,从而难以较好地解决膀胱病变类内差异大和类间相似性高的问题。
发明内容
本发明为克服现有技术的不足之处,提出一种基于局部特征和全局特征融合的膀胱镜图像分类方法,以期能够融合膀胱镜图像的局部特征和全局特征,并降低局部特征与全局特征之间的差异性,从而提高对膀胱镜图像分类的准确率。
本发明通过以下技术方案来实现上述目的:
一种基于局部特征和全局特征融合的膀胱镜图像分类方法,包括以下步骤:
步骤1、获取带有图像标签的膀胱镜图像获得样本数据集,每张图像及其相应类别记为其中,Xi∈RC×H×W表示第i个膀胱镜图像,C表示图像通道数,H表示图像高度,W表示图像宽度,Yi表示第i个膀胱镜图像Xi对应的类别;i=1,2,...,N;N表示膀胱镜图像的数量;
步骤2、建立融合局部和全局特征的三分支网络,利用残差神经网络对所述膀胱镜图像的样本数据集进行处理后输出利用多尺度特征嵌入和Transformer网络对所述膀胱镜图像的样本数据集进行处理后输出/>
步骤3、将所述和/>输入至预先构建的局部全局特征融合模块中,进行维度转换处理后输出交叉升维特征/>和交叉特征/>
步骤4、基于所述和所述交叉升维特征/>获得局部特征提取模块输出的最终表征/>基于所述/>和所述交叉特征/>获得全局特征提取模块输出的最终表征/>通过对所述/>和所述/>进行线性变换后,获得所述局部特征提取模块和全局特征提取模块的分类结果;
步骤5、建立交叉熵损失函数,并将训练样本集输入所述三分支网络进行训练后,对总损失函数进行优化求解,以调整所述三分支网络模型的参数,并获得最优网络模型,将待分析膀胱镜图像输入到最优网络模型中以输出分类结果。
进一步的,所述步骤2具体包括:
步骤2.1、建立三分支网络,所述三分支网络包括:局部特征提取模块、全局特征提取模块、局部全局特征融合模块;
步骤2.2、构建局部特征提取模块:
步骤2.2.1、所述局部特征提取模块包含1个预处理模块和4个卷积块;
预处理模块包含1个卷积层1个最大池化层,第一卷积块包含2个残差块,第二卷积块包含2个残差块,第三卷积块包含6个残差块,第四卷积块包含2个残差块,每个残差块包含2个1×1的卷积核和1个3×3的卷积核;
步骤2.2.2、将第i个图像Xi输入所述局部特征提取模块中,首先利用式(1)得出预处理模块的输出,然后利用式(2)得出第k个残差块的输出
式(1),(2)中conv()代表卷积操作;maxpooling()代表最大池化操作;代表预处理模块的输出;/>代表第k-1个残差块的输出;
步骤2.3、构建全局特征提取模块
步骤2.3.1、所述全局特征提取模块包含图像块嵌入模块、4个编码器模块:
第一编码器模块包含2个Transformer模块,第二编码器模块包含2个Transformer模块,第三编码器模块包含6个Transformer模块,第四编码器模块包含2个Transformer模块,图像块嵌入模块将图像分为一个个图像块,每个Transformer模块包括:2个归一化层、1个多头注意力机制层以及1个多层感知层;
步骤2.3.2、图像块嵌入模块对第i个图像Xi进行分块处理,得到包含m个图像块的序列其中/>表示第i个图像Xi的第j个图像块;/>p×p表示每个图像块的维度,图像块的长为p个像素,宽为p个像素,且m=(H×W)/p2;
步骤2.3.3、设置两个可学习的分类标记xcls和蒸馏标记xdis,并利用式(3)得到m个图像块和分类标记xcls和蒸馏标记xdis的D维嵌入表示并作为第一个Transformer模块的输入;
为图像块序列/>是分类标记xcls和蒸馏标记xdis进行拼接的结果,式(3)中/>
步骤2.3.4、利用式(4)得到m个图像块以及分类标记xcls和蒸馏标记xdis在第k个Transformer模块的多头注意力机制层的输出
式(4)中,LN()表示归一化层的处理,MHSA表示多头注意力机制层的处理,表示第k-1个Transformer模块的输出。
进一步的,所述步骤3具体包括:
步骤3.1、所述局部全局特征融合模块包含1个Fall操作和1个Rise操作、2个交叉注意力模块,其中Fall操作代表降维,Rise操作代表升维;
步骤3.2、Fall操作利用式(5)将特征进行维度转换得到/>以便进行交叉注意力计算;
式(5)中flatten()代表展平操作;avgpooling9)代表平均池化操作;
步骤3.3、将特征和/>分别输入到局部全局特征融合模块中,设置两组可训练的参数矩阵/> 分别与/>和/>进行矩阵相乘得到(Ql,Kl,Vl),(Qg,Kg,Vg);/> Ql,Kl,Vl,Qg,Kg,Vg∈RD×(m+2);利用式(6),式(7)得到
式(6),(7)中softmax()表示归一化指数函数;(D为Ql,Kl,Vl,Qg,Kg,Vg∈RD×(m+2)的通道维度);
步骤3.4、Rise操作利用式(8)将特征进行维度转换得到交叉升维特征/>
式(8)中interpolate()代表插值操作;reshape()代表维数转换操作;
进一步的,所述步骤4具体包括:
步骤4.1、结合式(8)获得的第k个局部全局特征融合模块的交叉升维特征和步骤2.2.2输出的/>然后利用式(9)获得局部特征提取模块的最终表征/>
步骤4.2、结合式(7)获得第k个局部全局特征融合模块的交叉特征结合步骤2.3.4输出的/>然后利用式(10)经过第k个Transformer模块的多层感知机获得全局特征提取模块的最终表征/>
式(10)中MLP9)表示多层感机的处理;
步骤4.3、利用式(11)对局部特征提取模块的最终表征进行线性变换,得到局部特征提取模块的分类结果;
式(11)中表示样本Xi的预测类别,/>S代表膀胱镜数据集类别数;Linear9)代表线性分类函数,将特征/>的维数映射到S维;
步骤4.4、提取特征中classtoken对应的特征性向量xcls,利用式(12)对全局特征提取模块的最终表征/>的classtoken进行线性变换,得到全局特征提取模块的分类标记的分类结果;
式(12)中表示样本Xi的预测类别,/>
步骤4.5、提取特征中distoken对应的特征性向量xdis,利用式(13)对全局特征提取模块的最终表征/>的distoken进行线性变换,得到全局特征提取模块的蒸馏标记的分类结果;
式(13)中表示样本Xi的预测类别,/>
进一步的,所述步骤5中建立交叉熵损失函数具体为:
步骤5.1、利用式(14)计算出局部特征提取模块的分类交叉熵损失:
式(14)中Yi表示样本Xi的真实类别,N代表膀胱镜数据集图像总数;
步骤5.2、利用式(15)计算出全局特征提取模块的分类交叉熵损失:
式(15)中Yi表示样本Xi的真实类别;N代表胱镜镜数据集图像总数;
步骤5.3、利用式(16)计算出全局特征提取模块的蒸馏交叉熵损失:
式(16)中表示通过获取/>最大值对应的类别作为Xi的伪真实类别;
步骤5.4、利用式(17)建立总的损失函数;
Ltotal=αLl+βLg+γLdis(17)
式(17)中α,β,γ均为超参数,且α设为0.45,β设为0.45,γ设为0.1。本发明使用一种基于局部特征和全局特征融合的膀胱镜图像分类方法,构建了膀胱镜图像分类模型,有益效果如下:
1、本发明利用局部特征提取模块对膀胱镜图像进行特征学习,提取图像局部空间的上下文特征,同时利用全局特征提取模块对膀胱镜图像进行特征学习,提取图像的全局语义信息;
2、本发明利用CNN和Transformer将膀胱镜图像局部上下文特征与全局语义信息进行整合,得到了一组鉴别能力更强的膀胱镜图像特征信息,优于传统的卷积神经网络所提取到的特征;
3、本发明利用增强后的局部特征和增强后的全局特征进行知识蒸馏,反向优化局部特征提取模块和全局特征提取模块的性能,提高了分类的准确率。
附图说明
图1为本发明方法的流程图;
图2为本发明中局部特征和全局特征融合的三分支网络模型。
具体实施方式
下面结合附图对本申请作进一步详细描述,有必要在此指出的是,以下具体实施方式只用于对本申请进行进一步的说明,不能理解为对本申请保护范围的限制,该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。
本实施例中,一种基于局部特征和全局特征融合的膀胱镜图像分类方法,主要是利用残差神经网络(ResNet)和视觉转换器(Vision Transformer,ViT)分别提取图像的局部特征和全局特征,再利用交叉注意力方法对图像的局部特征和全局特征进行融合,实现膀胱镜图像的分类,如图1所示,具体步骤如下:
步骤1、获取带有图像标签的膀胱镜图像数据集,每张图像及其相应类别记为其中,Xi∈RC×H×W表示第i个膀胱镜图像,C、H和W分别表示图像的通道数、高度和宽度,Yi表示第i个膀胱镜图像Xi对应的类别;i=1,2,...,N;N表示膀胱镜图像的数量;
步骤2、建立融合局部和全局特征的三分支网络模型,所述三分支网络包括:局部特征提取模块,全局特征提取模块,局部全局特征融合模块,其中局部全局特征融合模块有两个特征输出,交叉升维特征以及交叉特征;
步骤2.1、构建局部特征提取模块;
步骤2.1.1、所述局部特征提取模块包含1个预处理模块,4个卷积块;
预处理模块包含1个卷积层1个最大池化层,第一卷积块包含2个残差块,第二卷积块包含2个残差块,第三卷积块包含6个残差块,第四卷积块包含2个残差块,每个残差块包含2个1×1的卷积核和1个3×3的卷积核;
步骤2.1.2、将第i个图像Xi输入所述局部特征提取模块中,首先利用式(1)得出预处理模块的输出,然后利用式(2)得出第k个残差块的输出
式(1),(2)中conv()代表卷积操作;maxpooling()代表最大池化操作;
代表预处理模块的输出;/>代表第k-1个残差块的输出;
步骤2.1.3、首先利用式(10)获得第k个局部全局特征融合模块的交叉升维特征然后利用式(3)获得局部特征提取模块的最终表征/>
步骤2.2、构建全局特征提取模块;
步骤2.2.1、所述全局特征提取模块包含图像块嵌入模块,4个编码器模块,第一编码器模块包含2个Transformer模块,第二编码器模块包含2个Transformer模块,第三编码器模块包含6个Transformer模块,第四编码器模块包含2个Transformer模块,图像块嵌入模块将图像分为一个个图像块,每个Transformer模块包括:2个归一化层,1个多头注意力机制层以及1个多层感知层;
步骤2.2.2、图像块嵌入模块对第i个图像Xi进行分块处理,得到包含m个图像块的序列其中/>表示第i个图像Xi的第j个图像块;/>p×p表示每个图像块的维度,图像块的长为p个像素,宽为p个像素,且m=(H×W)/p2;
步骤2.2.3、设置两个可学习的分类标记xcls和蒸馏标记xdis,并利用式(4)得到m个图像块和分类标记xcls和蒸馏标记xdis的D维嵌入表示并作为第一个Transformer模块的输入;
为图像块序列/>是分类标记xcls和蒸馏标记xdis进行拼接的结果,式(4)中/>
步骤2.2.4、利用式(5)得到m个图像块以及分类标记xcls和蒸馏标记xdis在第k个Transformer模块的多头注意力机制层的输出
式(5)中,LN()表示归一化层的处理;MHSA表示第k-1个Transformer模块的输出;
步骤2.2.5、首先利用式(9)获得第k个局部全局特征融合模块的交叉特征然后利用式(6)经过第k个Transformer模块的多层感知机获得全局特征提取模块的最终表征
式(6)中MLP()表示多层感机的处理;
步骤2.3、构建局部全局特征融合模块;
步骤2.3.1、所述局部全局特征融合模块包含1个Fall操作和1个Rise操作,2个交叉注意力模块,其中Fall操作代表降维,Rise操作代表升维;
步骤2.3.2、Fall操作利用式(7)将特征进行维度转换得到/>以便进行交叉注意力计算;
式(7)中flatten()代表展平操作;avgpooling()代表平均池化操作;
步骤2.3.3、将特征和/>分别输入到局部全局特征融合模块中,设置两组可训练的参数矩阵/> 分别与/>和/>进行矩阵相乘得到(Ql,Kl,Vl),(Qg,Kg,Vg);/> Ql,Kl,Vl,Qg,Kg,Vg∈RD×(m+2);利用式(8),式(9)得到
式(8),(9)中softmax()表示归一化指数函数;(D为Ql,Kl,Vl,Qg,Kg,Vg∈RD×(m+2)的通道维度);
步骤2.3.4、Rise操作利用式(10)将特征进行维度转换得到交叉升维特征/>输入到局部特征提取模块;
式(10)中interpolate()代表插值操作;reshape()代表维数转换操作;
步骤2.4、使用膀胱镜图像训练搭建的网络模型;
步骤2.4.1、利用式(11)对局部特征提取模块的最终表征进行线性变换,得到局部特征提取模块的分类结果;
式(11)中表示样本Xi的预测类别,/>S代表膀胱镜数据集类别数;Linear()代表线性分类函数,将特征/>的维数映射到S维;
步骤2.4.2、利用式(12)计算出模块的分类交叉熵损失
式(12)中Yi表示样本Xi的真实类别,N代表膀胱镜数据集图像总数;
步骤2.4.3、提取特征中class token对应的特征性向量xcls,利用式(13)对全局特征提取模块的最终表征/>的class token进行线性变换,得到全局特征提取模块的分类标记的分类结果;
式(13)中表示样本Xi的预测类别,/>
步骤2.4.4、利用式(14)计算出全局特征提取模块的分类交叉熵损失:
式(14)中Yi表示样本Xi的真实类别;N代表胱镜镜数据集图像总数;
步骤2.4.4、提取特征中dis token对应的特征性向量xdis,利用式(15)对全局特征提取模块的最终表征/>的dis token进行线性变换,得到全局特征提取模块的蒸馏标记的分类结果;
式(15)中表示样本Xi的预测类别,/>
步骤2.4.5、利用式(16)计算出全局特征提取模块的蒸馏交叉熵损失:
式(16)中表示通过获取/>最大值对应的类别作为Xi的伪真实类别;
步骤2.4.6、利用式(17)建立总的损失函数;
Ltotal=αLl+βLg+γLdis (17)
式(17)中α,β,γ均为超参数,且α设为0.45,β设为0.45,γ设为0.1;
将所述的训练数据集,输入所述的三分支网络模型进行训练,并采用Adam优化器对所述的总损失函数进行优化求解,从而调整所述三分支网络模型的参数,并得到最优的网络模型,用于对膀胱镜图像进行分析,以实现图像分类。
对于本领域技术人员而言,显然本发明实施例不限于上述示范性实施例的细节,而且在不背离本发明实施例的精神或基本特征的情况下,能够以其他的具体形式实现本发明实施例。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明实施例的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施方式仅用以说明本发明实施例的技术方案而非限制,尽管参照以上较佳实施方式对本发明实施例进行了详细说明,本领域的普通技术人员应当理解,可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。
Claims (3)
1.一种基于局部特征和全局特征融合的膀胱镜图像分类方法,其特征在于,包括以下步骤:
步骤1、获取带有图像标签的膀胱镜图像获得样本数据集,每张图像及其相应类别记为, 其中,/>表示第/>个膀胱镜图像,/>表示图像通道数,/>表示图像高度,/>表示图像宽度,/>表示第/>个膀胱镜图像/>对应的类别;/>;/>表示膀胱镜图像的数量;
步骤2、建立融合局部和全局特征的三分支网络,利用残差神经网络对所述膀胱镜图像的样本数据集进行处理后输出,利用多尺度特征嵌入和Transformer网络对所述膀胱镜图像的样本数据集进行处理后输出/>;具体如下:
步骤2.1、建立三分支网络,所述三分支网络包括:局部特征提取模块、全局特征提取模块、局部全局特征融合模块;
步骤2.2、构建局部特征提取模块:
步骤2.2.1、所述局部特征提取模块包含1个预处理模块和4个卷积块;
预处理模块包含1个卷积层1个最大池化层,第一卷积块包含2个残差块,第二卷积块包含2个残差块,第三卷积块包含6个残差块,第四卷积块包含2个残差块,每个残差块包含2个1×1的卷积核和1个3×3的卷积核;
步骤2.2.2、将第个图像/>输入所述局部特征提取模块中,首先利用式(1)得出预处理模块的输出,然后利用式(2)得出第/>个残差块的输出/>;
式(1), (2)中代表卷积操作;/>代表最大池化操作;/>代表预处理模块的输出;/>代表第/>残差块的输出;
步骤2.3、构建全局特征提取模块:
步骤2.3.1、所述全局特征提取模块包含图像块嵌入模块、4个编码器模块:
第一编码器模块包含2个模块,第二编码器模块包含2个模块,第三编码器模块包含6个/>模块,第四编码器模块包含2个/>模块,图像块嵌入模块将图像分为一个个图像块,每个模块包括:2个归一化层、1个多头注意力机制层以及1个多层感知层;
步骤2.3.2、图像块嵌入模块对第个图像/>进行分块处理,得到包含/>个图像块的序列/>,其中/>表示第/>个图像/>的第/>个图像块;/>表示每个图像块的维度,图像块的长为/>个像素,宽为/>个像素,且/>;
步骤2.3.3、设置两个可学习的分类标记和蒸馏标记/>,并利用式(3)得到/>个图像块和分类标记/>和蒸馏标记/>的/>维嵌入表示/>,并作为第一个模块的输入;
式(3)中;
步骤2.3.4、利用式(4)得到个图像块以及分类标记/>和蒸馏标记/>在第/>个模块的多头注意力机制层的输出/>;
式(4)中,表示归一化层的处理,/>表示多头注意力机制层的处理,/>表示第/>个/>模块的输出;
步骤3、将所述和/>输入至预先构建的局部全局特征融合模块中,进行维度转换处理后输出交叉升维特征/>和交叉特征/>;具体如下:
步骤3.1、所述局部全局特征融合模块包含1个操作和1个/>操作、2个交叉注意力模块,其中/>操作代表降维,/>操作代表升维;
步骤3.2、操作利用式(5)将特征/>行维度转换得到/>以便进行交叉注意力计算;
式(5)中代表展平操作;/>代表平均池化操作;;
步骤3.3、将特征和/>分别输入到局部全局特征融合模块中,设置两组可训练的参数矩阵/>分别与/>和/>进行矩阵相乘得到;利用式(6),式(7)得到/>;
式(6),(7)中表示归一化指数函数;
步骤3.4、操作利用式(8)将特征/>进行维度转换得到交叉升维特征/>;
式(8)中代表插值操作;/>代表维数转换操作;;
步骤4、基于所述和所述交叉升维特征/>获得局部特征提取模块输出的最终表征,基于所述/>和所述交叉特征/>获得全局特征提取模块输出的最终表征/>,通过对所述/>和所述/>进行线性变换后,获得所述局部特征提取模块和全局特征提取模块的分类结果;
步骤5、建立交叉熵损失函数,并将训练样本集输入所述三分支网络进行训练后,对总损失函数进行优化求解,以调整所述三分支网络模型的参数,并获得最优网络模型,将待分析膀胱镜图像输入到最优网络模型中以输出分类结果。
2.根据权利要求1所述的膀胱镜图像分类方法,其特征在于,所述步骤4具体包括:
步骤4.1、结合式(8)获得的第k个局部全局特征融合模块的交叉升维特征和步骤2.2.2输出的/>,然后利用式(9)获得局部特征提取模块的最终表征/>;
步骤4.2、结合式(7)获得第k个局部全局特征融合模块的交叉特征,结合步骤2.3.4输出的/>,然后利用式(10)经过第/>个/>模块的多层感知机获得全局特征提取模块的最终表征/>;
式(10)中表示多层感机的处理;
步骤4.3、利用式(11)对局部特征提取模块的最终表征进行线性变换,得到局部特征提取模块的分类结果;
式(11)中表示样本/>预测类别,/>代表膀胱镜数据集类别数;线性分类函数,将特征/>的维数映射到/>维;
步骤4.4、提取特征中/>对应的特征性向量/> ,利用式(12)对全局特征提取模块的最终表征/>的/>进行线性变换,得到全局特征提取模块的分类标记的分类结果;
式(12)中表示/>样本的预测类别,/>;
步骤4.5、提取特征中/>对应的特征性向量/>,利用式(13)对全局特征提取模块的最终表征/>的/>进行线性变换,得到全局特征提取模块的蒸馏标记的分类结果;
式(13)中 表示样本/>的预测类别,/>。
3.根据权利要求2所述的膀胱镜图像分类方法,其特征在于,所述步骤5中建立交叉熵损失函数具体为:
步骤5.1、利用式(14)计算出局部特征提取模块的分类交叉熵损失:
式(14)中表示样本/>的真实类别,N代表膀胱镜数据集图像总数;
步骤5.2、利用式(15)计算出全局特征提取模块的分类交叉熵损失:
式(15)中表示样本/>的真实类别;N代表膀胱镜数据集图像总数;
步骤5.3、利用式(16)计算出全局特征提取模块的蒸馏交叉熵损失:
式(16)中表示通过获取/>最大值对应的类别作为/>的伪真实类别;
步骤5.4、利用式(17)建立总的损失函数;
式(17)中均为超参数,且/>。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310196084.XA CN116188436B (zh) | 2023-03-03 | 2023-03-03 | 基于局部特征和全局特征融合的膀胱镜图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310196084.XA CN116188436B (zh) | 2023-03-03 | 2023-03-03 | 基于局部特征和全局特征融合的膀胱镜图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116188436A CN116188436A (zh) | 2023-05-30 |
CN116188436B true CN116188436B (zh) | 2023-11-10 |
Family
ID=86450487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310196084.XA Active CN116188436B (zh) | 2023-03-03 | 2023-03-03 | 基于局部特征和全局特征融合的膀胱镜图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116188436B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152575B (zh) * | 2023-10-26 | 2024-02-02 | 吉林大学 | 图像处理装置、电子设备和计算机可读存储介质 |
CN117275681B (zh) * | 2023-11-23 | 2024-02-09 | 太原理工大学 | 基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法及装置 |
CN117636064A (zh) * | 2023-12-21 | 2024-03-01 | 浙江大学 | 一种基于儿童病理切片的神经母细胞瘤智能分类系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
CN113378792A (zh) * | 2021-07-09 | 2021-09-10 | 合肥工业大学 | 融合全局和局部信息的弱监督宫颈细胞图像分析方法 |
CN113378791A (zh) * | 2021-07-09 | 2021-09-10 | 合肥工业大学 | 基于双注意力机制和多尺度特征融合的宫颈细胞分类方法 |
CN114764855A (zh) * | 2021-01-12 | 2022-07-19 | 张琦 | 基于深度学习的膀胱镜下肿瘤智能分割方法、装置及设备 |
CN114863179A (zh) * | 2022-05-18 | 2022-08-05 | 合肥工业大学 | 基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法 |
CN115035339A (zh) * | 2022-06-10 | 2022-09-09 | 华中科技大学同济医学院附属同济医院 | 一种基于人工智能的膀胱镜图像分类方法 |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
-
2023
- 2023-03-03 CN CN202310196084.XA patent/CN116188436B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
CN114764855A (zh) * | 2021-01-12 | 2022-07-19 | 张琦 | 基于深度学习的膀胱镜下肿瘤智能分割方法、装置及设备 |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
CN113378792A (zh) * | 2021-07-09 | 2021-09-10 | 合肥工业大学 | 融合全局和局部信息的弱监督宫颈细胞图像分析方法 |
CN113378791A (zh) * | 2021-07-09 | 2021-09-10 | 合肥工业大学 | 基于双注意力机制和多尺度特征融合的宫颈细胞分类方法 |
CN114863179A (zh) * | 2022-05-18 | 2022-08-05 | 合肥工业大学 | 基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法 |
CN115035339A (zh) * | 2022-06-10 | 2022-09-09 | 华中科技大学同济医学院附属同济医院 | 一种基于人工智能的膀胱镜图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116188436A (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116188436B (zh) | 基于局部特征和全局特征融合的膀胱镜图像分类方法 | |
Majid et al. | Classification of stomach infections: A paradigm of convolutional neural network along with classical features fusion and selection | |
CN111667489B (zh) | 基于双分支注意力深度学习的癌症高光谱图像分割方法及系统 | |
JP6998474B2 (ja) | 生体組織のコンピュータ分類 | |
Chan et al. | Texture-map-based branch-collaborative network for oral cancer detection | |
CN109544518B (zh) | 一种应用于骨骼成熟度评估的方法及其系统 | |
CN114266786A (zh) | 基于生成对抗网络的胃病变分割方法及系统 | |
US20230251199A1 (en) | Identifying auto-fluorescent artifacts in a multiplexed immunofluorescent image | |
CN113450305B (zh) | 医疗图像的处理方法、系统、设备及可读存储介质 | |
CN114202545A (zh) | 一种基于UNet++的低级别胶质瘤图像分割方法 | |
CN114372951A (zh) | 基于图像分割卷积神经网络的鼻咽癌定位分割方法和系统 | |
CN116664929A (zh) | 一种基于多模态信息融合的喉镜图像多属性分类方法 | |
CN114399465A (zh) | 良恶性溃疡识别方法及系统 | |
CN112734762B (zh) | 基于协方差自注意力机制的双路径UNet网络肿瘤分割方法 | |
CN117036288A (zh) | 一种面向全切片病理图像的肿瘤亚型诊断方法 | |
Obukhova et al. | Image analysis in clinical decision support system | |
CN117274147A (zh) | 一种基于混合Swin Transformer U-Net的肺部CT图像分割方法 | |
CN115409812A (zh) | 一种基于融合时间注意机制的ct图像自动分类方法 | |
CN115457061A (zh) | 一种基于选择性多分支空洞卷积的腺体细胞图像分割方法 | |
CN111798427B (zh) | 基于迁移学习的胃肠道间质瘤中核分裂象检测系统 | |
CN114022485A (zh) | 一种基于小样本学习的结直肠癌的计算机辅助诊断方法 | |
CN110334582B (zh) | 智能识别和记录内镜黏膜下剥离术摘除息肉视频的方法 | |
CN111768845A (zh) | 一种基于最优多尺度感知的肺结节辅助检测方法 | |
CN115274093B (zh) | 生成包含自动标注文件的基准病理数据集的方法及系统 | |
CN115908920B (zh) | 基于卷积神经网络的急性主动脉综合征ct图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |