CN116188436B

CN116188436B - 基于局部特征和全局特征融合的膀胱镜图像分类方法

Info

Publication number: CN116188436B
Application number: CN202310196084.XA
Authority: CN
Inventors: 史骏; 董钲琦; 孙建林; 李想; 汪逸飞; 杨皓程; 周泰然; 郑利平; 徐本柱
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-11-10
Anticipated expiration: 2043-03-03
Also published as: CN116188436A

Abstract

本发明提出了一种基于局部特征和全局特征融合的膀胱镜图像分类方法，包括：获取带有图像标签的膀胱镜图像；建立融合局部和全局特征的三分支网络模型；利用模型进行膀胱镜图像的分类。本发明利用局部特征提取模块对膀胱镜图像进行特征学习，提取图像局部空间的上下文特征，同时利用全局特征提取模块对膀胱镜图像进行特征学习，提取图像的全局语义信息；利用CNN和Transformer将膀胱镜图像局部上下文特征与全局语义信息进行整合，得到一组鉴别能力更强的膀胱镜图像特征信息，优于传统的卷积神经网络所提取到的特征；利用增强后的局部特征和全局特征进行知识蒸馏，反向优化局部特征提取模块和全局特征提取模块的性能，提高准确率。

Description

基于局部特征和全局特征融合的膀胱镜图像分类方法

技术领域

本发明涉及计算机视觉领域，特别涉及图像分类技术，具体涉及一种基于局部特征和全局特征融合的膀胱镜图像分类方法。

背景技术

用于膀胱疾病诊断的传统临床方法是活检。医学专家使用显微镜分析这些活检样本，以检查任何癌细胞或异常细胞存在的可能性。这种方法的缺点是侵入性的，并且需要高度熟练的医生。相比之下，内窥镜成像是一种用于可视化膀胱的低侵入性技术。内窥镜成像技术帮助医生在初始阶段识别和诊断膀胱异常。因此，内窥镜检查对于显着降低医疗并发症，治疗成本和死亡率非常有益。

尽管内窥镜检查有许多优点，但它带来了特定的权衡取舍。例如，在膀胱筛选过程中产生的大量视频帧。这些帧中的大多数都是多余的，没有价值，只有少数图像可能有一些异常病变。此外，有时泌尿外科专家可能会根本没有注意到异常病变区域，这可能导致误诊。因此，这些医学专家要求自动化方案，可以通过分析整个内窥镜图像自动确定可能存在的恶性肿瘤，提高医生诊断的工作效率，避免出现误诊漏诊。

近年来，深度学习模型在计算机视觉各个领域中取得了显著的效果，一些研究人员已经将卷积神经网络应用于膀胱镜图像分类任务中，如残差网络(ResNet)、密集卷积网络(DenseNet)，但它们仅仅利用神经网络提取单张图像的局部特征，忽略了膀胱镜图像的全局特征，从而难以较好地解决膀胱病变类内差异大和类间相似性高的问题。

发明内容

本发明为克服现有技术的不足之处，提出一种基于局部特征和全局特征融合的膀胱镜图像分类方法，以期能够融合膀胱镜图像的局部特征和全局特征，并降低局部特征与全局特征之间的差异性，从而提高对膀胱镜图像分类的准确率。

本发明通过以下技术方案来实现上述目的：

一种基于局部特征和全局特征融合的膀胱镜图像分类方法，包括以下步骤：

步骤1、获取带有图像标签的膀胱镜图像获得样本数据集，每张图像及其相应类别记为其中，X_i∈R^C×H×W表示第i个膀胱镜图像，C表示图像通道数，H表示图像高度，W表示图像宽度，Y_i表示第i个膀胱镜图像X_i对应的类别；i＝1,2,...,N；N表示膀胱镜图像的数量；

步骤2、建立融合局部和全局特征的三分支网络，利用残差神经网络对所述膀胱镜图像的样本数据集进行处理后输出利用多尺度特征嵌入和Transformer网络对所述膀胱镜图像的样本数据集进行处理后输出/>

步骤3、将所述和/>输入至预先构建的局部全局特征融合模块中，进行维度转换处理后输出交叉升维特征/>和交叉特征/>

步骤4、基于所述和所述交叉升维特征/>获得局部特征提取模块输出的最终表征/>基于所述/>和所述交叉特征/>获得全局特征提取模块输出的最终表征/>通过对所述/>和所述/>进行线性变换后，获得所述局部特征提取模块和全局特征提取模块的分类结果；

步骤5、建立交叉熵损失函数，并将训练样本集输入所述三分支网络进行训练后，对总损失函数进行优化求解，以调整所述三分支网络模型的参数，并获得最优网络模型，将待分析膀胱镜图像输入到最优网络模型中以输出分类结果。

进一步的，所述步骤2具体包括：

步骤2.1、建立三分支网络，所述三分支网络包括：局部特征提取模块、全局特征提取模块、局部全局特征融合模块；

步骤2.2、构建局部特征提取模块：

步骤2.2.1、所述局部特征提取模块包含1个预处理模块和4个卷积块；

预处理模块包含1个卷积层1个最大池化层，第一卷积块包含2个残差块，第二卷积块包含2个残差块，第三卷积块包含6个残差块，第四卷积块包含2个残差块，每个残差块包含2个1×1的卷积核和1个3×3的卷积核；

步骤2.2.2、将第i个图像X_i输入所述局部特征提取模块中，首先利用式(1)得出预处理模块的输出，然后利用式(2)得出第k个残差块的输出

式(1),(2)中conv()代表卷积操作；maxpooling()代表最大池化操作；代表预处理模块的输出；/>代表第k-1个残差块的输出；

步骤2.3、构建全局特征提取模块

步骤2.3.1、所述全局特征提取模块包含图像块嵌入模块、4个编码器模块：

第一编码器模块包含2个Transformer模块，第二编码器模块包含2个Transformer模块，第三编码器模块包含6个Transformer模块，第四编码器模块包含2个Transformer模块，图像块嵌入模块将图像分为一个个图像块，每个Transformer模块包括：2个归一化层、1个多头注意力机制层以及1个多层感知层；

步骤2.3.2、图像块嵌入模块对第i个图像X_i进行分块处理，得到包含m个图像块的序列其中/>表示第i个图像X_i的第j个图像块；/>p×p表示每个图像块的维度，图像块的长为p个像素，宽为p个像素，且m＝(H×W)/p²；

步骤2.3.3、设置两个可学习的分类标记x_cls和蒸馏标记x_dis,并利用式(3)得到m个图像块和分类标记x_cls和蒸馏标记x_dis的D维嵌入表示并作为第一个Transformer模块的输入；

为图像块序列/>是分类标记x_cls和蒸馏标记x_dis进行拼接的结果，式(3)中/>

步骤2.3.4、利用式(4)得到m个图像块以及分类标记x_cls和蒸馏标记x_dis在第k个Transformer模块的多头注意力机制层的输出

式(4)中，LN()表示归一化层的处理，MHSA表示多头注意力机制层的处理，表示第k-1个Transformer模块的输出。

进一步的，所述步骤3具体包括：

步骤3.1、所述局部全局特征融合模块包含1个Fall操作和1个Rise操作、2个交叉注意力模块，其中Fall操作代表降维，Rise操作代表升维；

步骤3.2、Fall操作利用式(5)将特征进行维度转换得到/>以便进行交叉注意力计算；

式(5)中flatten()代表展平操作；avgpooling9)代表平均池化操作；

步骤3.3、将特征和/>分别输入到局部全局特征融合模块中，设置两组可训练的参数矩阵/> 分别与/>和/>进行矩阵相乘得到(Q_l,K_l,V_l)，(Q_g,K_g,V_g)；/> Q_l,K_l,V_l,Q_g,K_g,V_g∈R^D×(m+2)；利用式(6),式(7)得到

式(6)，(7)中softmax()表示归一化指数函数；(D为Q_l,K_l,V_l,Q_g,K_g,V_g∈R^D×(m+2)的通道维度)；

步骤3.4、Rise操作利用式(8)将特征进行维度转换得到交叉升维特征/>

式(8)中interpolate()代表插值操作；reshape()代表维数转换操作；

进一步的，所述步骤4具体包括：

步骤4.1、结合式(8)获得的第k个局部全局特征融合模块的交叉升维特征和步骤2.2.2输出的/>然后利用式(9)获得局部特征提取模块的最终表征/>

步骤4.2、结合式(7)获得第k个局部全局特征融合模块的交叉特征结合步骤2.3.4输出的/>然后利用式(10)经过第k个Transformer模块的多层感知机获得全局特征提取模块的最终表征/>

式(10)中MLP9)表示多层感机的处理；

步骤4.3、利用式(11)对局部特征提取模块的最终表征进行线性变换，得到局部特征提取模块的分类结果；

式(11)中表示样本X_i的预测类别，/>S代表膀胱镜数据集类别数；Linear9)代表线性分类函数，将特征/>的维数映射到S维；

步骤4.4、提取特征中classtoken对应的特征性向量x_cls，利用式(12)对全局特征提取模块的最终表征/>的classtoken进行线性变换，得到全局特征提取模块的分类标记的分类结果；

式(12)中表示样本X_i的预测类别，/>

步骤4.5、提取特征中distoken对应的特征性向量x_dis，利用式(13)对全局特征提取模块的最终表征/>的distoken进行线性变换，得到全局特征提取模块的蒸馏标记的分类结果；

式(13)中表示样本X_i的预测类别，/>

进一步的，所述步骤5中建立交叉熵损失函数具体为：

步骤5.1、利用式(14)计算出局部特征提取模块的分类交叉熵损失：

式(14)中Y_i表示样本X_i的真实类别，N代表膀胱镜数据集图像总数；

步骤5.2、利用式(15)计算出全局特征提取模块的分类交叉熵损失：

式(15)中Y_i表示样本X_i的真实类别；N代表胱镜镜数据集图像总数；

步骤5.3、利用式(16)计算出全局特征提取模块的蒸馏交叉熵损失：

式(16)中表示通过获取/>最大值对应的类别作为X_i的伪真实类别；

步骤5.4、利用式(17)建立总的损失函数；

L_total＝αL_l+βL_g+γL_dis(17)

式(17)中α,β,γ均为超参数，且α设为0.45，β设为0.45，γ设为0.1。本发明使用一种基于局部特征和全局特征融合的膀胱镜图像分类方法，构建了膀胱镜图像分类模型，有益效果如下：

1、本发明利用局部特征提取模块对膀胱镜图像进行特征学习，提取图像局部空间的上下文特征，同时利用全局特征提取模块对膀胱镜图像进行特征学习，提取图像的全局语义信息；

2、本发明利用CNN和Transformer将膀胱镜图像局部上下文特征与全局语义信息进行整合，得到了一组鉴别能力更强的膀胱镜图像特征信息，优于传统的卷积神经网络所提取到的特征；

3、本发明利用增强后的局部特征和增强后的全局特征进行知识蒸馏，反向优化局部特征提取模块和全局特征提取模块的性能，提高了分类的准确率。

附图说明

图1为本发明方法的流程图；

图2为本发明中局部特征和全局特征融合的三分支网络模型。

具体实施方式

下面结合附图对本申请作进一步详细描述，有必要在此指出的是，以下具体实施方式只用于对本申请进行进一步的说明，不能理解为对本申请保护范围的限制，该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。

本实施例中，一种基于局部特征和全局特征融合的膀胱镜图像分类方法，主要是利用残差神经网络(ResNet)和视觉转换器(Vision Transformer,ViT)分别提取图像的局部特征和全局特征，再利用交叉注意力方法对图像的局部特征和全局特征进行融合，实现膀胱镜图像的分类，如图1所示，具体步骤如下：

步骤1、获取带有图像标签的膀胱镜图像数据集，每张图像及其相应类别记为其中，X_i∈R^C×H×W表示第i个膀胱镜图像，C、H和W分别表示图像的通道数、高度和宽度，Y_i表示第i个膀胱镜图像X_i对应的类别；i＝1,2,...,N；N表示膀胱镜图像的数量；

步骤2、建立融合局部和全局特征的三分支网络模型，所述三分支网络包括：局部特征提取模块，全局特征提取模块，局部全局特征融合模块，其中局部全局特征融合模块有两个特征输出，交叉升维特征以及交叉特征；

步骤2.1、构建局部特征提取模块；

步骤2.1.1、所述局部特征提取模块包含1个预处理模块，4个卷积块；

步骤2.1.2、将第i个图像X_i输入所述局部特征提取模块中，首先利用式(1)得出预处理模块的输出，然后利用式(2)得出第k个残差块的输出

式(1),(2)中conv()代表卷积操作；maxpooling()代表最大池化操作；

代表预处理模块的输出；/>代表第k-1个残差块的输出；

步骤2.1.3、首先利用式(10)获得第k个局部全局特征融合模块的交叉升维特征然后利用式(3)获得局部特征提取模块的最终表征/>

步骤2.2、构建全局特征提取模块；

步骤2.2.1、所述全局特征提取模块包含图像块嵌入模块，4个编码器模块，第一编码器模块包含2个Transformer模块，第二编码器模块包含2个Transformer模块，第三编码器模块包含6个Transformer模块，第四编码器模块包含2个Transformer模块，图像块嵌入模块将图像分为一个个图像块，每个Transformer模块包括：2个归一化层，1个多头注意力机制层以及1个多层感知层；

步骤2.2.2、图像块嵌入模块对第i个图像X_i进行分块处理，得到包含m个图像块的序列其中/>表示第i个图像X_i的第j个图像块；/>p×p表示每个图像块的维度，图像块的长为p个像素，宽为p个像素，且m＝(H×W)/p²；

步骤2.2.3、设置两个可学习的分类标记x_cls和蒸馏标记x_dis,并利用式(4)得到m个图像块和分类标记x_cls和蒸馏标记x_dis的D维嵌入表示并作为第一个Transformer模块的输入；

为图像块序列/>是分类标记x_cls和蒸馏标记x_dis进行拼接的结果，式(4)中/>

步骤2.2.4、利用式(5)得到m个图像块以及分类标记x_cls和蒸馏标记x_dis在第k个Transformer模块的多头注意力机制层的输出

式(5)中，LN()表示归一化层的处理；MHSA表示第k-1个Transformer模块的输出；

步骤2.2.5、首先利用式(9)获得第k个局部全局特征融合模块的交叉特征然后利用式(6)经过第k个Transformer模块的多层感知机获得全局特征提取模块的最终表征

式(6)中MLP()表示多层感机的处理；

步骤2.3、构建局部全局特征融合模块；

步骤2.3.1、所述局部全局特征融合模块包含1个Fall操作和1个Rise操作，2个交叉注意力模块，其中Fall操作代表降维，Rise操作代表升维；

步骤2.3.2、Fall操作利用式(7)将特征进行维度转换得到/>以便进行交叉注意力计算；

式(7)中flatten()代表展平操作；avgpooling()代表平均池化操作；

步骤2.3.3、将特征和/>分别输入到局部全局特征融合模块中，设置两组可训练的参数矩阵/> 分别与/>和/>进行矩阵相乘得到(Q_l,K_l,V_l)，(Q_g,K_g,V_g)；/> Q_l,K_l,V_l,Q_g,K_g,V_g∈R^D×(m+2)；利用式(8),式(9)得到

式(8)，(9)中softmax()表示归一化指数函数；(D为Q_l,K_l,V_l,Q_g,K_g,V_g∈R^D×(m+2)的通道维度)；

步骤2.3.4、Rise操作利用式(10)将特征进行维度转换得到交叉升维特征/>输入到局部特征提取模块；

式(10)中interpolate()代表插值操作；reshape()代表维数转换操作；

步骤2.4、使用膀胱镜图像训练搭建的网络模型；

步骤2.4.1、利用式(11)对局部特征提取模块的最终表征进行线性变换，得到局部特征提取模块的分类结果；

式(11)中表示样本X_i的预测类别，/>S代表膀胱镜数据集类别数；Linear()代表线性分类函数，将特征/>的维数映射到S维；

步骤2.4.2、利用式(12)计算出模块的分类交叉熵损失

式(12)中Y_i表示样本X_i的真实类别，N代表膀胱镜数据集图像总数；

步骤2.4.3、提取特征中class token对应的特征性向量x_cls，利用式(13)对全局特征提取模块的最终表征/>的class token进行线性变换，得到全局特征提取模块的分类标记的分类结果；

式(13)中表示样本X_i的预测类别，/>

步骤2.4.4、利用式(14)计算出全局特征提取模块的分类交叉熵损失：

式(14)中Y_i表示样本X_i的真实类别；N代表胱镜镜数据集图像总数；

步骤2.4.4、提取特征中dis token对应的特征性向量x_dis，利用式(15)对全局特征提取模块的最终表征/>的dis token进行线性变换，得到全局特征提取模块的蒸馏标记的分类结果；

式(15)中表示样本X_i的预测类别，/>

步骤2.4.5、利用式(16)计算出全局特征提取模块的蒸馏交叉熵损失：

步骤2.4.6、利用式(17)建立总的损失函数；

L_total＝αL_l+βL_g+γL_dis (17)

式(17)中α,β,γ均为超参数，且α设为0.45，β设为0.45，γ设为0.1；

将所述的训练数据集，输入所述的三分支网络模型进行训练，并采用Adam优化器对所述的总损失函数进行优化求解，从而调整所述三分支网络模型的参数，并得到最优的网络模型，用于对膀胱镜图像进行分析，以实现图像分类。

对于本领域技术人员而言，显然本发明实施例不限于上述示范性实施例的细节，而且在不背离本发明实施例的精神或基本特征的情况下，能够以其他的具体形式实现本发明实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施方式仅用以说明本发明实施例的技术方案而非限制，尽管参照以上较佳实施方式对本发明实施例进行了详细说明，本领域的普通技术人员应当理解，可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

Claims

1.一种基于局部特征和全局特征融合的膀胱镜图像分类方法，其特征在于，包括以下步骤：

步骤1、获取带有图像标签的膀胱镜图像获得样本数据集，每张图像及其相应类别记为, 其中，/>表示第/>个膀胱镜图像，/>表示图像通道数，/>表示图像高度，/>表示图像宽度，/>表示第/>个膀胱镜图像/>对应的类别；/>；/>表示膀胱镜图像的数量；

步骤2、建立融合局部和全局特征的三分支网络，利用残差神经网络对所述膀胱镜图像的样本数据集进行处理后输出，利用多尺度特征嵌入和Transformer网络对所述膀胱镜图像的样本数据集进行处理后输出/>；具体如下：

步骤2.2、构建局部特征提取模块：

步骤2.2.2、将第个图像/>输入所述局部特征提取模块中，首先利用式(1)得出预处理模块的输出，然后利用式(2)得出第/>个残差块的输出/>；

式(1), (2)中代表卷积操作；/>代表最大池化操作；/>代表预处理模块的输出；/>代表第/>残差块的输出；

步骤2.3、构建全局特征提取模块：

第一编码器模块包含2个模块，第二编码器模块包含2个模块，第三编码器模块包含6个/>模块，第四编码器模块包含2个/>模块，图像块嵌入模块将图像分为一个个图像块，每个模块包括：2个归一化层、1个多头注意力机制层以及1个多层感知层；

步骤2.3.2、图像块嵌入模块对第个图像/>进行分块处理，得到包含/>个图像块的序列/>,其中/>表示第/>个图像/>的第/>个图像块；/>表示每个图像块的维度，图像块的长为/>个像素，宽为/>个像素，且/>；

步骤2.3.3、设置两个可学习的分类标记和蒸馏标记/>,并利用式(3)得到/>个图像块和分类标记/>和蒸馏标记/>的/>维嵌入表示/>,并作为第一个模块的输入；

式（3）中；

步骤2.3.4、利用式(4)得到个图像块以及分类标记/>和蒸馏标记/>在第/>个模块的多头注意力机制层的输出/>；

式(4)中，表示归一化层的处理，/>表示多头注意力机制层的处理，/>表示第/>个/>模块的输出；

步骤3、将所述和/>输入至预先构建的局部全局特征融合模块中，进行维度转换处理后输出交叉升维特征/>和交叉特征/>；具体如下：

步骤3.1、所述局部全局特征融合模块包含1个操作和1个/>操作、2个交叉注意力模块，其中/>操作代表降维，/>操作代表升维；

步骤3.2、操作利用式(5)将特征/>行维度转换得到/>以便进行交叉注意力计算；

式(5)中代表展平操作；/>代表平均池化操作；；

步骤3.3、将特征和/>分别输入到局部全局特征融合模块中，设置两组可训练的参数矩阵/>分别与/>和/>进行矩阵相乘得到；利用式(6),式(7)得到/>；

式(6)，(7)中表示归一化指数函数；

步骤3.4、操作利用式(8)将特征/>进行维度转换得到交叉升维特征/>；

式(8)中代表插值操作；/>代表维数转换操作；；

步骤4、基于所述和所述交叉升维特征/>获得局部特征提取模块输出的最终表征，基于所述/>和所述交叉特征/>获得全局特征提取模块输出的最终表征/>，通过对所述/>和所述/>进行线性变换后，获得所述局部特征提取模块和全局特征提取模块的分类结果；

2.根据权利要求1所述的膀胱镜图像分类方法，其特征在于，所述步骤4具体包括：

步骤4.1、结合式(8)获得的第k个局部全局特征融合模块的交叉升维特征和步骤2.2.2输出的/>，然后利用式(9)获得局部特征提取模块的最终表征/>；

步骤4.2、结合式(7)获得第k个局部全局特征融合模块的交叉特征，结合步骤2.3.4输出的/>，然后利用式(10)经过第/>个/>模块的多层感知机获得全局特征提取模块的最终表征/>；

式(10)中表示多层感机的处理；

式(11)中表示样本/>预测类别，/>代表膀胱镜数据集类别数；线性分类函数，将特征/>的维数映射到/>维；

步骤4.4、提取特征中/>对应的特征性向量/> ，利用式(12)对全局特征提取模块的最终表征/>的/>进行线性变换，得到全局特征提取模块的分类标记的分类结果；

式(12)中表示/>样本的预测类别，/>；

步骤4.5、提取特征中/>对应的特征性向量/>，利用式(13)对全局特征提取模块的最终表征/>的/>进行线性变换，得到全局特征提取模块的蒸馏标记的分类结果；

式(13)中表示样本/>的预测类别，/>。

3.根据权利要求2所述的膀胱镜图像分类方法，其特征在于，所述步骤5中建立交叉熵损失函数具体为：

式(14)中表示样本/>的真实类别，N代表膀胱镜数据集图像总数；

式(15)中表示样本/>的真实类别；N代表膀胱镜数据集图像总数；

式(16)中表示通过获取/>最大值对应的类别作为/>的伪真实类别；

步骤5.4、利用式(17)建立总的损失函数；

式(17)中均为超参数，且/>。