CN116597223A

CN116597223A - 基于多维注意力的窄带喉镜图像分类方法

Info

Publication number: CN116597223A
Application number: CN202310607248.3A
Authority: CN
Inventors: 石争浩; 韩博涛; 尤珍臻
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-08-15

Abstract

本发明公开了一种基于多维注意力的窄带喉镜图像分类方法，具体包括如下步骤：步骤1，将原始的窄带喉镜图像进行预处理并建立数据集，划分为训练集和测试集；步骤2，构建基于多维注意力的窄带喉镜图像分类模型；步骤3，将步骤1中的训练集输入步骤2构建的模型中进行训练，得到用于窄带喉镜图像分类的深度学习模型。使用测试集对训练完的模型进行测试，得到模型在该测试集上的准确率。本发明实现了对窄带喉镜图像的准确分类。

Description

基于多维注意力的窄带喉镜图像分类方法

技术领域

本发明属于图像处理技术领域，涉及一种基于多维注意力的窄带喉镜图像分类方法。

背景技术

喉癌作为世界上第十一大癌症，是上呼吸道常见的肿瘤之一，严重的影响了人们的生命健康。喉癌发现的时期越早，越有利于治疗。因此，喉镜图像处理技术越来越受到人们的关注，人们期望对这项技术的研究可以减轻喉癌的危害。

传统窄带喉镜图像分类通常使用人工方法进行分类，这些方法依赖于富有经验的临床医师，这限制了窄带喉镜图像在临床环境中的应用，其次，人工方法存在一定的误诊可能。深度学习在当今医学图像处理领域获得了广泛的应用，取得了良好的效果，越来越多的人使用深度学习来处理医学领域的各种问题。如使用卷积神经网络对喉镜图像分类的技术，取得了90％的准确率。

由于窄带喉镜图像中的病理特征比较细微，拍摄时晃动和光线等因素会导致图像质量参差不齐，这对窄带喉镜图像的分类带来了一定的困难。当前的模型存在分类准确率较低的问题，并未彻底的挖掘窄带图像喉镜中所包含的细微信息，导致其分类准确率较低。

发明内容

本发明的目的是提供一种基于多维注意力的窄带喉镜图像分类方法，该方法实现了对窄带喉镜图像的准确分类。

本发明所采用的技术方案是，基于多维注意力的窄带喉镜图像分类方法，具体包括如下步骤：

步骤1，将原始的窄带喉镜图像进行预处理并建立数据集，划分为训练集和测试集；

步骤2，构建基于多维注意力的窄带喉镜图像分类模型；

步骤3，将步骤1中的训练集输入步骤2构建的模型中进行训练，得到用于窄带喉镜图像分类的深度学习模型。

本发明的特点还在于：

步骤1的具体过程为：

步骤1.1，从所有窄带喉镜图像中依据6:1的比例将图像分别划分为训练集和测试集；

步骤1.2，分别使用中心裁切、水平翻转、锐度调节、对比度调节、随机旋转和垂直翻转六种方法对训练集进行数据扩增。,

步骤1.3，将测试集和扩充后的训练集，使用双线性插值法统一至相同尺寸，然后进行归一化处理。

步骤2中，基于多维注意力的窄带喉镜图像分类模型包括卷积特征提取器、空间-通道注意力模块、Vision Transformer模块及分类器。

步骤3的具体过程为：

步骤3.1，将训练集的窄带喉镜图像输入卷积特征提取器进行特征提取；

步骤3.2，将步骤3.1的特征提取结果输入空间-通道注意力模块进行特征提取；

步骤3.3，将步骤3.2输出结果输入Vision Transformer模块进行全局的注意力建模；

步骤3.4，对步骤3.3输出结果使用分类器进行分类，并输出最终分类结果。

步骤3.1的具体过程为：

步骤3.3.1，将训练集图像作为输入图像输入卷积特征提取器中，将输入图像表示为首先进行卷积操作，卷积后得到特征图/>C₁、C₂分别表示卷积前后图像的通道数，W₁、W₂分别表示卷积前后图像的宽，H₁、H₂分别表示卷积前后图像的高；

步骤3.3.2，将卷积完成的特征图进行组归一化操作，如下公式所示，得到特征图/>

其中，S_i表示进行归一化的像素集合，m表示该集合的像素数量，μ_i表示S_i集合的均值，σ_i表示S_i集合的方差，x_i表示单个像素的具体值，表示x_i归一化之后的结果，∈表示常数；

步骤3.3.3，将特征图输入激活函数，得到特征图/>

步骤3.3.4，对特征图进行最大池化，得到特征图/>

步骤3.3.5，采用残差模块对输入特征图进行卷积操作，对应公式(4)中的/>得到卷积后的特征图，将卷积得到的特征图与输入相加后输出，对应公式(4)中的/>得到输出特征图/>完成残差模块的计算，残差模块如下公式(4)所示，将残差模块进行堆叠，特征图逐一通过这些堆叠的残差模块进行特征提取，得到最终输出特征图/>其中，C₃、W₄、H₄分别表示堆叠后图像的通道数、宽、高：

其中，表示参数为{W_i}的3×3卷积操作；

步骤3.3.6，将特征图通过卷积操作将该特征图的通道数量减少，计算公式如下：

其中，C4表示减少后的图像通道数；

步骤3.3.7，将特征图作为一个三维向量，通过拉伸操作改变该特征图的维度，得到特征图/>C₄xD₁表示维度。

本发明的有益效果是，本发明针对喉白斑疾病的病灶比较细微的特点，通过结合卷积神经网络与注意力机制，并引入空间-通道模块对特征图的细节进行加强，解决了传统的神经网络不能聚焦于细节的问题。本发明结合了卷积神经网络与注意力机制的优点，使得本模型具有较高的鲁棒性，对质量较低的窄带喉镜图像也有较高的诊断准确率。

附图说明

图1为本发明基于多维注意力的窄带喉镜图像分类方法的流程示意图；

图2为本发明基于多维注意力的窄带喉镜图像分类方法的数据扩增结果图；

图3为本发明基于多维注意力的窄带喉镜图像分类方法的残差卷积模块结构示意图；

图4为本发明基于多维注意力的窄带喉镜图像分类方法的空间-通道注意力模块结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

实施例1

本发明基于多维注意力的窄带喉镜图像分类方法，流程如图1所示，具体包括如下步骤：

步骤1，将原始的窄带喉镜图像进行预处理并建立数据集，划分为训练集和测试集。

步骤1.1，从所有窄带喉镜图像中依据6:1的比例将图像分别划分为训练集和测试集，将所有的图像的类别分为健康、炎症角化、轻度不典型增生、中度不典型增生、重度不典型增生、鳞状细胞癌6类。

步骤1.2，分别使用中心裁切、水平翻转、锐度调节、对比度调节、随机旋转和垂直翻转六种方法对训练集进行数据扩增。中心裁切，首先将原始图像通过双线性插值法调整至长1080像素、宽1080像素大小，再从调整后的图像的中心位置分别向上下左右取400像素长度，得到长800像素、宽800像素大小的裁切后图像，再将裁切后的图像扩充至训练集。水平翻转，将原始图像进行水平翻转，将翻转后的图像扩充至训练集。锐度调节，对原始图像统一调整锐度后扩充至训练集。对比度调节，将原始图像调整对比度后扩充至训练集。随机旋转，对原始图像从90°～-90°范围内随机选取角度并进行旋转，将旋转后的图像添加至训练集。垂直翻转，将图像进行垂直翻转，将翻转后的图像扩充至训练集。使用以上六种方法的扩充结果与原图对比如图2所示。

步骤1.3，将测试集和扩充后的训练集，使用双线性插值法进行尺寸调整，同图像尺寸统一调整至长224像素，宽224像素。然后进行归一化处理。

调整尺寸后的图像为彩色图像，由R、G、B分量构成，I_R(x,y)为像素(x,y)在R分量中的值，I_G(x,y)为像素(x,y)在G分量中的值，I_B(x,y)为像素(x,y)在B分量中的值，分别为图像I中像素(x,y)在R、G、B分量中的归一化值，范围为0-1。

步骤2，构建多维注意力的窄带喉镜图像分类模型，包括卷积特征提取器、空间-通道注意力模块、Vision Transformer模块及分类器。

步骤4，采用步骤1中的测试集对步骤3训练好的模型进行测试。

实施例2

步骤3的具体过程为：步骤3.1，将步骤1的测试集图像作为卷积特征提取器的输入，将图像输入到卷积特征提取器进行特征提取：

步骤3.1.1，将输入图像表示为C₁＝3表示图像的通道数，W₁＝224,H₁＝224分别表示图像的宽高，首先进行卷积操作，卷积核大小为7×7，卷积操作的步长为2。卷积后得到特征图/>其中通道数C₂＝64,宽W₂＝112，高H₂＝112。

步骤3.1.2，将卷积完成的特征图进行组归一化(Group Norm)操作，如下公式所示，得到特征图/>

其中，S_i表示特征图中要进行归一化的像素集合，m表示该集合的像素数量，μ_i表示S_i集合的均值，σ_i表示S_i集合的方差。x_i表示单个像素的具体值，/>表示x_i归一化之后的结果，输出特征图/>为/>的集合。∈表示一个很小的常数，用于防止除数为零。

步骤3.1.3，将特征图输入激活函数，得到特征图/>

步骤3.1.4，对特征图进行最大池化，池化窗口大小为2×2，在保留特征图特征的同时降低了输入图像的分辨率，得到特征图/>其中宽W₃＝56,高H₃＝56。

步骤3.1.5，输入的特征图该步骤对应的模型结构为堆叠的残差模块，残差模块的结构如图3所示，残差模块首先对输入特征图/>进行卷积操作，对应公式(4)中的/>得到卷积后的特征图，将卷积得到的特征图与输入相加后输出，对应公式(4)中的/>得到输出特征图便完成了残差模块的计算，残差模块的公式描述如下所示：

上式中，{W_i})表示参数为{W_i}的3×3卷积操作。

将上述残差模块堆叠16层，特征图逐一通过这些堆叠的残差模块进行特征提取，得到最终输出特征图其中通道数C₃＝1024，宽W₄＝14，高H₄＝14。

步骤3.1.6，该步骤的输入为特征图通过1×1卷积将该特征图的通道数量减少，计算公式如下：

表示1×1卷积的计算公式。输出特征图/>C₄＝768，C₄表示特征图通道数量。

步骤3.1.7，该步骤输入特征图为一个三维向量，通过拉伸操作改变该特征图的维度，将特征图维度从(768，14，14)改变至(768，196)，其中196＝14*14，得到特征图/>D₁＝196，D₁表示单个特征图的大小，即单个特征图为一个196维的一维向量。C₄×D₁表示维度。

步骤3.2，本步骤为空间-通道注意力模块的详细流程介绍。模块结构如图4所示，该模块的详细流程如下：

步骤3.2.2.特征图为该步骤的输入，使用函数改变特征图的维度，将特征图维度从(768，196)改变为(768，196，1)，得到特征图/>

对特征图中，C₄个大小为D₁×1的特征图计算注意力，计算公式如下：

Attention(X)

＝Concat(channel(X₁),...channel(X_j)…,channel(X_N)) (6)；

其中，和/>其中X_j表示输入特征图的X第j个通道的特征图，j∈N,N＝C₄。/>表示投影矩阵。Q(Query)、K(Key)、V(Value)代表三个矩阵；/>为得到Q_j，需要一个权重矩阵与X_j相乘，/>就是这个权重矩阵。/>与/>与上述/>相同。Q_j，K_j，V_j这三个表示特征图X_j通过权重矩阵/>和/>转换之后的矩阵，分别代表着查询矩阵，键值矩阵和值矩阵。channel(X_j)表示对第j个通道的特征图X_j计算注意力。公式中softmax()函数的作用是将数值映射到[0,1]之间。d_k表示缩放因子，最终输出特征图/>

最后使用降维函数将特征图尺寸从改变至/>并输出特征图

计算完注意力后对特征图进行层归一化，归一化公式如下：

公式中，x1为输入的特征图中的每一个像素点，E[x]表示特征图/>内的数学期望，Var[x]表示特征图/>内的方差，γ,β表示可学习的参数，ε为数值稳定的常数，y1为像素x1对应的归一化后的像素值，归一化完成得到输出特征图/>

步骤3.2.2，为前馈层，输入特征图首先经过两层全连接层，全连接层的计算公式如下：

表示输出特征图，W₁,W₂表示两层全连接层的权重，b₁,b₂表示两层全连接层的偏置项。再进行归一化处理，归一化公式如下：

公式中，x2为输入的特征图中的单个像素，E[x]表示特征图/>内的数学期望，Var[x]表示特征图/>内的方差，γ,β表示可学习的参数，ε为数值稳定的常数，y2为像素x2对应的归一化后的像素值，归一化完成得到输出特征图/>

步骤3.2.3，为通道注意力计算部分，该步骤输入为特征图该步骤的目的是为不同通道之间分配不同的权重，首先使用全连接层将特征图进行投影，公式如下：

其中，表示输入特征图，W₃表示全连接层的权重，b₃表示全连接层的偏置值。通过该全连接层得到特征图/>宽W₅＝32,高H₅＝32。

将投影结果输入两个卷积核大小为7×7，步长为2的卷积构成的卷积层，对应公式中/>输出/>其中高H₆＝4，宽W₆＝4，上述过程的计算公式如下：

将卷积层的输出结果输入到全连接层中得到每一个通道的权重。全连接层计算公式如下：

其中，表示输入特征图，W₄表示全连接层的权重，b₄表示全连接层的偏置值。通过全连接层得到权重/>将权重与特征图相乘得到输出特征图/>如下式所示：

步骤3.2.4，为前馈层，输入特征图首先经过两层全连接层，全连接层的计算公式如下：

表示输出特征图，W₅,W₆表示两层全连接层的权重，b₅,b₆表示两层全连接层的偏置项。在经过层归一化进行归一化处理，层归一化公式如下：

公式中x3为输入的特征图中的单个像素，y3为像素x3对应的归一化后的像素值，E[x]表示特征图/>内的所有像素值数学期望，Var[x]表示特征图/>内的方差，γ,β表示可学习的参数，ε为数值稳定的常数，归一化完成得到特征图/>

步骤3.3，为全局注意力计算模块，输入特征图为通过步骤4计算全局注意力。该步骤的计算公式如下：

MSA()为多头注意力计算公式，LN()为层归一化计算公式，MLP()为全连接层计算公式。该步骤方法来自于[1]，输出结果为特征图

步骤3.4，为分类器，输入特征图首先经过层归一化，计算公式如下：

公式中，x4为输入的特征图中的单个像素值，E[x]表示特征图/>内的数学期望，Var[x]表示特征图/>内的方差，γ,β表示可学习的参数，ε为数值稳定的常数，y4为像素x4对应的归一化后的像素值，归一化完成得到特征图/>

再使用全连接层投影，全连接层公式如下：

分别表示输入和输出，W₇表示全连接层的权重，b₇表示全连接层的偏置项。全连接层的输出结果/>输出/>为一维向量，C₅＝6。将该向量输入softmax()函数进行归一化，得到/>为包含六个元素的一维向量，这六个元素表示窄带喉镜图像对应的六个标签的置信度，其中最大值所对应的序号为模型所预测的结果。

实施例3

对模型进行进行训练时，使用交叉熵损失函数，学习率设置为0.0001。在训练500轮之后得到分类模型，在所有的测试集图像中，预测准确率为95.52％。该模型与其他深度学习模型的准确率对比如下表1所示：

表1

[1]A.Dosovitskiy等，《An Image is Worth 16x16 Words:Transformers forImage Recognition at Scale》，发表于International Conference on LearningRepresentations，4月2023.

[2]I.Radosavovic,R.P.Kosaraju，R.Girshick，K.He和P.Dollar，《DesigningNetwork Design Spaces》，发表于Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition，2020，页10428–10436.

[3]M.Tan和Q.Le，《EfficientNet:Rethinking Model Scaling forConvolutional Neural Networks》，收入Proceedings of the 36th InternationalConference on Machine Learning，PMLR，5月2019，页6105–6114.

[4]C.Szegedy，S.Ioffe，V.Vanhoucke和A.Alemi，《Inception-v4,Inception-ResNet and the Impact of Residual Connections on Learning》，Proceedings of theAAAI Conference on Artificial Intelligence,卷31，期1，Art.期1，2月2017，doi:10.1609/aaai.v31i1.11231.

[5]K.He，X.Zhang，S.Ren和J.Sun,《Deep Residual Learning for ImageRecognition》，收入2016 IEEE Conference on Computer Vision and PatternRecognition(CVPR)，6月2016，页770–778.doi:10.1109/CVPR.2016.90.

[6]Gao Huang，Z.Liu，L.van der Maaten和K.Q.Weinberger,《DenselyConnected Convolutional Networks》，发表于Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，2017，页4700–4708.

[7]A.Krizhevsky，I.Sutskever和G.E.Hinton,《ImageNet classification withdeep convolutional neural networks》，Commun.ACM，卷60，期6，页84–90，5月2017，doi:10.1145/3065386.

[8]Z.Liu等，《Swin Transformer:Hierarchical Vision Transformer UsingShifted Windows》，发表于Proceedings of the IEEE/CVF International Conferenceon Computer Vision，2021，页10012–10022。

Claims

1.基于多维注意力的窄带喉镜图像分类方法，其特征在于：具体包括如下步骤：

步骤2，构建基于多维注意力的窄带喉镜图像分类模型；

2.根据权利要求1所述的基于多维注意力的窄带喉镜图像分类方法，其特征在于：所述步骤1的具体过程为：

步骤1.2，分别使用中心裁切、水平翻转、锐度调节、对比度调节、随机旋转和垂直翻转六种方法对训练集进行数据扩增；

3.根据权利要求1所述的基于多维注意力的窄带喉镜图像分类方法，其特征在于：所述步骤2中，基于多维注意力的窄带喉镜图像分类模型包括卷积特征提取器、空间-通道注意力模块、Vision Transformer模块及分类器。

4.根据权利要求1所述的基于多维注意力的窄带喉镜图像分类方法，其特征在于：所述步骤3的具体过程为：

5.根据权利要求4所述的基于多维注意力的窄带喉镜图像分类方法，其特征在于：所述步骤3.1的具体过程为：

其中，S_i表示进行归一化的像素集合，m表示该集合的像素数量，μ_i表示S_i集合的均值，σ_i表示S_i集合的方差。x_i表示单个像素的具体值，表示x_i归一化之后的结果，∈表示常数；

步骤3.3.3，将特征图输入激活函数，得到特征图/>

步骤3.3.4，对特征图进行最大池化，得到特征图/>

步骤3.3.5，采用残差模块对输入特征图进行卷积操作，对应公式(4)中的得到卷积后的特征图，将卷积得到的特征图与输入相加后输出，对应公式(4)中的/>得到输出特征图/>完成残差模块的计算，残差模块如下公式(4)所示，将残差模块进行堆叠，特征图逐一通过这些堆叠的残差模块进行特征提取，得到最终输出特征图/>其中，C₃、W₄、H₄分别表示堆叠后图像的通道数、宽、高：

其中，表示参数为{W_i}的3×3卷积操作；

其中，C4表示减少后的图像通道数；