CN116597223A - 基于多维注意力的窄带喉镜图像分类方法 - Google Patents
基于多维注意力的窄带喉镜图像分类方法 Download PDFInfo
- Publication number
- CN116597223A CN116597223A CN202310607248.3A CN202310607248A CN116597223A CN 116597223 A CN116597223 A CN 116597223A CN 202310607248 A CN202310607248 A CN 202310607248A CN 116597223 A CN116597223 A CN 116597223A
- Authority
- CN
- China
- Prior art keywords
- band
- narrow
- convolution
- feature map
- laryngoscope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000013145 classification model Methods 0.000 claims abstract description 7
- 238000013136 deep learning model Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000010586 diagram Methods 0.000 claims description 41
- 238000010606 normalization Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 206010020718 hyperplasia Diseases 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 206010023825 Laryngeal cancer Diseases 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 206010013023 diphtheria Diseases 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 206010023841 laryngeal neoplasm Diseases 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 206010061218 Inflammation Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 230000003780 keratinization Effects 0.000 description 1
- 201000005264 laryngeal carcinoma Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 206010041823 squamous cell carcinoma Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于多维注意力的窄带喉镜图像分类方法,具体包括如下步骤:步骤1,将原始的窄带喉镜图像进行预处理并建立数据集,划分为训练集和测试集;步骤2,构建基于多维注意力的窄带喉镜图像分类模型;步骤3,将步骤1中的训练集输入步骤2构建的模型中进行训练,得到用于窄带喉镜图像分类的深度学习模型。使用测试集对训练完的模型进行测试,得到模型在该测试集上的准确率。本发明实现了对窄带喉镜图像的准确分类。
Description
技术领域
本发明属于图像处理技术领域,涉及一种基于多维注意力的窄带喉镜图像分类方法。
背景技术
喉癌作为世界上第十一大癌症,是上呼吸道常见的肿瘤之一,严重的影响了人们的生命健康。喉癌发现的时期越早,越有利于治疗。因此,喉镜图像处理技术越来越受到人们的关注,人们期望对这项技术的研究可以减轻喉癌的危害。
传统窄带喉镜图像分类通常使用人工方法进行分类,这些方法依赖于富有经验的临床医师,这限制了窄带喉镜图像在临床环境中的应用,其次,人工方法存在一定的误诊可能。深度学习在当今医学图像处理领域获得了广泛的应用,取得了良好的效果,越来越多的人使用深度学习来处理医学领域的各种问题。如使用卷积神经网络对喉镜图像分类的技术,取得了90%的准确率。
由于窄带喉镜图像中的病理特征比较细微,拍摄时晃动和光线等因素会导致图像质量参差不齐,这对窄带喉镜图像的分类带来了一定的困难。当前的模型存在分类准确率较低的问题,并未彻底的挖掘窄带图像喉镜中所包含的细微信息,导致其分类准确率较低。
发明内容
本发明的目的是提供一种基于多维注意力的窄带喉镜图像分类方法,该方法实现了对窄带喉镜图像的准确分类。
本发明所采用的技术方案是,基于多维注意力的窄带喉镜图像分类方法,具体包括如下步骤:
步骤1,将原始的窄带喉镜图像进行预处理并建立数据集,划分为训练集和测试集;
步骤2,构建基于多维注意力的窄带喉镜图像分类模型;
步骤3,将步骤1中的训练集输入步骤2构建的模型中进行训练,得到用于窄带喉镜图像分类的深度学习模型。
本发明的特点还在于:
步骤1的具体过程为:
步骤1.1,从所有窄带喉镜图像中依据6:1的比例将图像分别划分为训练集和测试集;
步骤1.2,分别使用中心裁切、水平翻转、锐度调节、对比度调节、随机旋转和垂直翻转六种方法对训练集进行数据扩增。,
步骤1.3,将测试集和扩充后的训练集,使用双线性插值法统一至相同尺寸,然后进行归一化处理。
步骤2中,基于多维注意力的窄带喉镜图像分类模型包括卷积特征提取器、空间-通道注意力模块、Vision Transformer模块及分类器。
步骤3的具体过程为:
步骤3.1,将训练集的窄带喉镜图像输入卷积特征提取器进行特征提取;
步骤3.2,将步骤3.1的特征提取结果输入空间-通道注意力模块进行特征提取;
步骤3.3,将步骤3.2输出结果输入Vision Transformer模块进行全局的注意力建模;
步骤3.4,对步骤3.3输出结果使用分类器进行分类,并输出最终分类结果。
步骤3.1的具体过程为:
步骤3.3.1,将训练集图像作为输入图像输入卷积特征提取器中,将输入图像表示为首先进行卷积操作,卷积后得到特征图/>C1、C2分别表示卷积前后图像的通道数,W1、W2分别表示卷积前后图像的宽,H1、H2分别表示卷积前后图像的高;
步骤3.3.2,将卷积完成的特征图进行组归一化操作,如下公式所示,得到特征图/>
其中,Si表示进行归一化的像素集合,m表示该集合的像素数量,μi表示Si集合的均值,σi表示Si集合的方差,xi表示单个像素的具体值,表示xi归一化之后的结果,∈表示常数;
步骤3.3.3,将特征图输入激活函数,得到特征图/>
步骤3.3.4,对特征图进行最大池化,得到特征图/>
步骤3.3.5,采用残差模块对输入特征图进行卷积操作,对应公式(4)中的/>得到卷积后的特征图,将卷积得到的特征图与输入相加后输出,对应公式(4)中的/>得到输出特征图/>完成残差模块的计算,残差模块如下公式(4)所示,将残差模块进行堆叠,特征图逐一通过这些堆叠的残差模块进行特征提取,得到最终输出特征图/>其中,C3、W4、H4分别表示堆叠后图像的通道数、宽、高:
其中,表示参数为{Wi}的3×3卷积操作;
步骤3.3.6,将特征图通过卷积操作将该特征图的通道数量减少,计算公式如下:
其中,C4表示减少后的图像通道数;
步骤3.3.7,将特征图作为一个三维向量,通过拉伸操作改变该特征图的维度,得到特征图/>C4xD1表示维度。
本发明的有益效果是,本发明针对喉白斑疾病的病灶比较细微的特点,通过结合卷积神经网络与注意力机制,并引入空间-通道模块对特征图的细节进行加强,解决了传统的神经网络不能聚焦于细节的问题。本发明结合了卷积神经网络与注意力机制的优点,使得本模型具有较高的鲁棒性,对质量较低的窄带喉镜图像也有较高的诊断准确率。
附图说明
图1为本发明基于多维注意力的窄带喉镜图像分类方法的流程示意图;
图2为本发明基于多维注意力的窄带喉镜图像分类方法的数据扩增结果图;
图3为本发明基于多维注意力的窄带喉镜图像分类方法的残差卷积模块结构示意图;
图4为本发明基于多维注意力的窄带喉镜图像分类方法的空间-通道注意力模块结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
实施例1
本发明基于多维注意力的窄带喉镜图像分类方法,流程如图1所示,具体包括如下步骤:
步骤1,将原始的窄带喉镜图像进行预处理并建立数据集,划分为训练集和测试集。
步骤1.1,从所有窄带喉镜图像中依据6:1的比例将图像分别划分为训练集和测试集,将所有的图像的类别分为健康、炎症角化、轻度不典型增生、中度不典型增生、重度不典型增生、鳞状细胞癌6类。
步骤1.2,分别使用中心裁切、水平翻转、锐度调节、对比度调节、随机旋转和垂直翻转六种方法对训练集进行数据扩增。中心裁切,首先将原始图像通过双线性插值法调整至长1080像素、宽1080像素大小,再从调整后的图像的中心位置分别向上下左右取400像素长度,得到长800像素、宽800像素大小的裁切后图像,再将裁切后的图像扩充至训练集。水平翻转,将原始图像进行水平翻转,将翻转后的图像扩充至训练集。锐度调节,对原始图像统一调整锐度后扩充至训练集。对比度调节,将原始图像调整对比度后扩充至训练集。随机旋转,对原始图像从90°~-90°范围内随机选取角度并进行旋转,将旋转后的图像添加至训练集。垂直翻转,将图像进行垂直翻转,将翻转后的图像扩充至训练集。使用以上六种方法的扩充结果与原图对比如图2所示。
步骤1.3,将测试集和扩充后的训练集,使用双线性插值法进行尺寸调整,同图像尺寸统一调整至长224像素,宽224像素。然后进行归一化处理。
调整尺寸后的图像为彩色图像,由R、G、B分量构成,IR(x,y)为像素(x,y)在R分量中的值,IG(x,y)为像素(x,y)在G分量中的值,IB(x,y)为像素(x,y)在B分量中的值,分别为图像I中像素(x,y)在R、G、B分量中的归一化值,范围为0-1。
步骤2,构建多维注意力的窄带喉镜图像分类模型,包括卷积特征提取器、空间-通道注意力模块、Vision Transformer模块及分类器。
步骤3,将步骤1中的训练集输入步骤2构建的模型中进行训练,得到用于窄带喉镜图像分类的深度学习模型。
步骤4,采用步骤1中的测试集对步骤3训练好的模型进行测试。
实施例2
步骤3的具体过程为:步骤3.1,将步骤1的测试集图像作为卷积特征提取器的输入,将图像输入到卷积特征提取器进行特征提取:
步骤3.1.1,将输入图像表示为C1=3表示图像的通道数,W1=224,H1=224分别表示图像的宽高,首先进行卷积操作,卷积核大小为7×7,卷积操作的步长为2。卷积后得到特征图/>其中通道数C2=64,宽W2=112,高H2=112。
步骤3.1.2,将卷积完成的特征图进行组归一化(Group Norm)操作,如下公式所示,得到特征图/>
其中,Si表示特征图中要进行归一化的像素集合,m表示该集合的像素数量,μi表示Si集合的均值,σi表示Si集合的方差。xi表示单个像素的具体值,/>表示xi归一化之后的结果,输出特征图/>为/>的集合。∈表示一个很小的常数,用于防止除数为零。
步骤3.1.3,将特征图输入激活函数,得到特征图/>
步骤3.1.4,对特征图进行最大池化,池化窗口大小为2×2,在保留特征图特征的同时降低了输入图像的分辨率,得到特征图/>其中宽W3=56,高H3=56。
步骤3.1.5,输入的特征图该步骤对应的模型结构为堆叠的残差模块,残差模块的结构如图3所示,残差模块首先对输入特征图/>进行卷积操作,对应公式(4)中的/>得到卷积后的特征图,将卷积得到的特征图与输入相加后输出,对应公式(4)中的/>得到输出特征图便完成了残差模块的计算,残差模块的公式描述如下所示:
上式中,{Wi})表示参数为{Wi}的3×3卷积操作。
将上述残差模块堆叠16层,特征图逐一通过这些堆叠的残差模块进行特征提取,得到最终输出特征图其中通道数C3=1024,宽W4=14,高H4=14。
步骤3.1.6,该步骤的输入为特征图通过1×1卷积将该特征图的通道数量减少,计算公式如下:
表示1×1卷积的计算公式。输出特征图/>C4=768,C4表示特征图通道数量。
步骤3.1.7,该步骤输入特征图为一个三维向量,通过拉伸操作改变该特征图的维度,将特征图维度从(768,14,14)改变至(768,196),其中196=14*14,得到特征图/>D1=196,D1表示单个特征图的大小,即单个特征图为一个196维的一维向量。C4×D1表示维度。
步骤3.2,本步骤为空间-通道注意力模块的详细流程介绍。模块结构如图4所示,该模块的详细流程如下:
步骤3.2.2.特征图为该步骤的输入,使用函数改变特征图的维度,将特征图维度从(768,196)改变为(768,196,1),得到特征图/>
对特征图中,C4个大小为D1×1的特征图计算注意力,计算公式如下:
Attention(X)
=Concat(channel(X1),...channel(Xj)…,channel(XN)) (6);
其中,和/>其中Xj表示输入特征图的X第j个通道的特征图,j∈N,N=C4。/>表示投影矩阵。Q(Query)、K(Key)、V(Value)代表三个矩阵;/>为得到Qj,需要一个权重矩阵与Xj相乘,/>就是这个权重矩阵。/>与/>与上述/>相同。Qj,Kj,Vj这三个表示特征图Xj通过权重矩阵/>和/>转换之后的矩阵,分别代表着查询矩阵,键值矩阵和值矩阵。channel(Xj)表示对第j个通道的特征图Xj计算注意力。公式中softmax()函数的作用是将数值映射到[0,1]之间。dk表示缩放因子,最终输出特征图/>
最后使用降维函数将特征图尺寸从改变至/>并输出特征图
计算完注意力后对特征图进行层归一化,归一化公式如下:
公式中,x1为输入的特征图中的每一个像素点,E[x]表示特征图/>内的数学期望,Var[x]表示特征图/>内的方差,γ,β表示可学习的参数,ε为数值稳定的常数,y1为像素x1对应的归一化后的像素值,归一化完成得到输出特征图/>
步骤3.2.2,为前馈层,输入特征图首先经过两层全连接层,全连接层的计算公式如下:
表示输出特征图,W1,W2表示两层全连接层的权重,b1,b2表示两层全连接层的偏置项。再进行归一化处理,归一化公式如下:
公式中,x2为输入的特征图中的单个像素,E[x]表示特征图/>内的数学期望,Var[x]表示特征图/>内的方差,γ,β表示可学习的参数,ε为数值稳定的常数,y2为像素x2对应的归一化后的像素值,归一化完成得到输出特征图/>
步骤3.2.3,为通道注意力计算部分,该步骤输入为特征图该步骤的目的是为不同通道之间分配不同的权重,首先使用全连接层将特征图进行投影,公式如下:
其中,表示输入特征图,W3表示全连接层的权重,b3表示全连接层的偏置值。通过该全连接层得到特征图/>宽W5=32,高H5=32。
将投影结果输入两个卷积核大小为7×7,步长为2的卷积构成的卷积层,对应公式中/>输出/>其中高H6=4,宽W6=4,上述过程的计算公式如下:
将卷积层的输出结果输入到全连接层中得到每一个通道的权重。全连接层计算公式如下:
其中,表示输入特征图,W4表示全连接层的权重,b4表示全连接层的偏置值。通过全连接层得到权重/>将权重与特征图相乘得到输出特征图/>如下式所示:
步骤3.2.4,为前馈层,输入特征图首先经过两层全连接层,全连接层的计算公式如下:
表示输出特征图,W5,W6表示两层全连接层的权重,b5,b6表示两层全连接层的偏置项。在经过层归一化进行归一化处理,层归一化公式如下:
公式中x3为输入的特征图中的单个像素,y3为像素x3对应的归一化后的像素值,E[x]表示特征图/>内的所有像素值数学期望,Var[x]表示特征图/>内的方差,γ,β表示可学习的参数,ε为数值稳定的常数,归一化完成得到特征图/>
步骤3.3,为全局注意力计算模块,输入特征图为通过步骤4计算全局注意力。该步骤的计算公式如下:
MSA()为多头注意力计算公式,LN()为层归一化计算公式,MLP()为全连接层计算公式。该步骤方法来自于[1],输出结果为特征图
步骤3.4,为分类器,输入特征图首先经过层归一化,计算公式如下:
公式中,x4为输入的特征图中的单个像素值,E[x]表示特征图/>内的数学期望,Var[x]表示特征图/>内的方差,γ,β表示可学习的参数,ε为数值稳定的常数,y4为像素x4对应的归一化后的像素值,归一化完成得到特征图/>
再使用全连接层投影,全连接层公式如下:
分别表示输入和输出,W7表示全连接层的权重,b7表示全连接层的偏置项。全连接层的输出结果/>输出/>为一维向量,C5=6。将该向量输入softmax()函数进行归一化,得到/>为包含六个元素的一维向量,这六个元素表示窄带喉镜图像对应的六个标签的置信度,其中最大值所对应的序号为模型所预测的结果。
实施例3
对模型进行进行训练时,使用交叉熵损失函数,学习率设置为0.0001。在训练500轮之后得到分类模型,在所有的测试集图像中,预测准确率为95.52%。该模型与其他深度学习模型的准确率对比如下表1所示:
表1
[1]A.Dosovitskiy等,《An Image is Worth 16x16 Words:Transformers forImage Recognition at Scale》,发表于International Conference on LearningRepresentations,4月2023.
[2]I.Radosavovic,R.P.Kosaraju,R.Girshick,K.He和P.Dollar,《DesigningNetwork Design Spaces》,发表于Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,页10428–10436.
[3]M.Tan和Q.Le,《EfficientNet:Rethinking Model Scaling forConvolutional Neural Networks》,收入Proceedings of the 36th InternationalConference on Machine Learning,PMLR,5月2019,页6105–6114.
[4]C.Szegedy,S.Ioffe,V.Vanhoucke和A.Alemi,《Inception-v4,Inception-ResNet and the Impact of Residual Connections on Learning》,Proceedings of theAAAI Conference on Artificial Intelligence,卷31,期1,Art.期1,2月2017,doi:10.1609/aaai.v31i1.11231.
[5]K.He,X.Zhang,S.Ren和J.Sun,《Deep Residual Learning for ImageRecognition》,收入2016 IEEE Conference on Computer Vision and PatternRecognition(CVPR),6月2016,页770–778.doi:10.1109/CVPR.2016.90.
[6]Gao Huang,Z.Liu,L.van der Maaten和K.Q.Weinberger,《DenselyConnected Convolutional Networks》,发表于Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2017,页4700–4708.
[7]A.Krizhevsky,I.Sutskever和G.E.Hinton,《ImageNet classification withdeep convolutional neural networks》,Commun.ACM,卷60,期6,页84–90,5月2017,doi:10.1145/3065386.
[8]Z.Liu等,《Swin Transformer:Hierarchical Vision Transformer UsingShifted Windows》,发表于Proceedings of the IEEE/CVF International Conferenceon Computer Vision,2021,页10012–10022。
Claims (5)
1.基于多维注意力的窄带喉镜图像分类方法,其特征在于:具体包括如下步骤:
步骤1,将原始的窄带喉镜图像进行预处理并建立数据集,划分为训练集和测试集;
步骤2,构建基于多维注意力的窄带喉镜图像分类模型;
步骤3,将步骤1中的训练集输入步骤2构建的模型中进行训练,得到用于窄带喉镜图像分类的深度学习模型。
2.根据权利要求1所述的基于多维注意力的窄带喉镜图像分类方法,其特征在于:所述步骤1的具体过程为:
步骤1.1,从所有窄带喉镜图像中依据6:1的比例将图像分别划分为训练集和测试集;
步骤1.2,分别使用中心裁切、水平翻转、锐度调节、对比度调节、随机旋转和垂直翻转六种方法对训练集进行数据扩增;
步骤1.3,将测试集和扩充后的训练集,使用双线性插值法统一至相同尺寸,然后进行归一化处理。
3.根据权利要求1所述的基于多维注意力的窄带喉镜图像分类方法,其特征在于:所述步骤2中,基于多维注意力的窄带喉镜图像分类模型包括卷积特征提取器、空间-通道注意力模块、Vision Transformer模块及分类器。
4.根据权利要求1所述的基于多维注意力的窄带喉镜图像分类方法,其特征在于:所述步骤3的具体过程为:
步骤3.1,将训练集的窄带喉镜图像输入卷积特征提取器进行特征提取;
步骤3.2,将步骤3.1的特征提取结果输入空间-通道注意力模块进行特征提取;
步骤3.3,将步骤3.2输出结果输入Vision Transformer模块进行全局的注意力建模;
步骤3.4,对步骤3.3输出结果使用分类器进行分类,并输出最终分类结果。
5.根据权利要求4所述的基于多维注意力的窄带喉镜图像分类方法,其特征在于:所述步骤3.1的具体过程为:
步骤3.3.1,将训练集图像作为输入图像输入卷积特征提取器中,将输入图像表示为首先进行卷积操作,卷积后得到特征图/>C1、C2分别表示卷积前后图像的通道数,W1、W2分别表示卷积前后图像的宽,H1、H2分别表示卷积前后图像的高;
步骤3.3.2,将卷积完成的特征图进行组归一化操作,如下公式所示,得到特征图/>
其中,Si表示进行归一化的像素集合,m表示该集合的像素数量,μi表示Si集合的均值,σi表示Si集合的方差。xi表示单个像素的具体值,表示xi归一化之后的结果,∈表示常数;
步骤3.3.3,将特征图输入激活函数,得到特征图/>
步骤3.3.4,对特征图进行最大池化,得到特征图/>
步骤3.3.5,采用残差模块对输入特征图进行卷积操作,对应公式(4)中的得到卷积后的特征图,将卷积得到的特征图与输入相加后输出,对应公式(4)中的/>得到输出特征图/>完成残差模块的计算,残差模块如下公式(4)所示,将残差模块进行堆叠,特征图逐一通过这些堆叠的残差模块进行特征提取,得到最终输出特征图/>其中,C3、W4、H4分别表示堆叠后图像的通道数、宽、高:
其中,表示参数为{Wi}的3×3卷积操作;
步骤3.3.6,将特征图通过卷积操作将该特征图的通道数量减少,计算公式如下:
其中,C4表示减少后的图像通道数;
步骤3.3.7,将特征图作为一个三维向量,通过拉伸操作改变该特征图的维度,得到特征图/>C4xD1表示维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310607248.3A CN116597223A (zh) | 2023-05-26 | 2023-05-26 | 基于多维注意力的窄带喉镜图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310607248.3A CN116597223A (zh) | 2023-05-26 | 2023-05-26 | 基于多维注意力的窄带喉镜图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116597223A true CN116597223A (zh) | 2023-08-15 |
Family
ID=87595383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310607248.3A Pending CN116597223A (zh) | 2023-05-26 | 2023-05-26 | 基于多维注意力的窄带喉镜图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116597223A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423020A (zh) * | 2023-12-19 | 2024-01-19 | 临沂大学 | 一种检测无人机小目标的动态特征和上下文增强方法 |
-
2023
- 2023-05-26 CN CN202310607248.3A patent/CN116597223A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423020A (zh) * | 2023-12-19 | 2024-01-19 | 临沂大学 | 一种检测无人机小目标的动态特征和上下文增强方法 |
CN117423020B (zh) * | 2023-12-19 | 2024-02-27 | 临沂大学 | 一种检测无人机小目标的动态特征和上下文增强方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | DRFN: Deep recurrent fusion network for single-image super-resolution with large factors | |
CN106683048B (zh) | 一种图像超分辨率方法及设备 | |
Lin et al. | Hyperspectral image denoising via matrix factorization and deep prior regularization | |
CN110570353A (zh) | 密集连接生成对抗网络单幅图像超分辨率重建方法 | |
CN110570377A (zh) | 一种基于组归一化的快速图像风格迁移方法 | |
CN111174912B (zh) | 一种快照型解色散模糊的高光谱成像方法 | |
CN113284051B (zh) | 一种基于频率分解多注意力机制的人脸超分辨方法 | |
CN113112592A (zh) | 一种可驱动的隐式三维人体表示方法 | |
CN112818764A (zh) | 一种基于特征重建模型的低分辨率图像人脸表情识别方法 | |
CN111861886B (zh) | 一种基于多尺度反馈网络的图像超分辨率重建方法 | |
CN116597223A (zh) | 基于多维注意力的窄带喉镜图像分类方法 | |
Yang et al. | Image super-resolution based on deep neural network of multiple attention mechanism | |
CN116612334B (zh) | 一种基于空谱联合注意力机制的医学高光谱图像分类方法 | |
CN112163998A (zh) | 一种匹配自然降质条件的单图像超分辨率分析方法 | |
CN111932452B (zh) | 基于可见光图像增强的红外图像卷积神经网络超分辨方法 | |
CN110097499B (zh) | 基于谱混合核高斯过程回归的单帧图像超分辨率重建方法 | |
Wu et al. | Hprn: Holistic prior-embedded relation network for spectral super-resolution | |
CN109409413B (zh) | X射线乳腺肿块影像自动分类方法 | |
Jiang et al. | From less to more: Spectral splitting and aggregation network for hyperspectral face super-resolution | |
Zhao et al. | Deep equilibrium models for snapshot compressive imaging | |
CN114626984A (zh) | 中文文本图像的超分辨率重建方法 | |
CN115861393B (zh) | 图像匹配方法、航天器着陆点定位方法及相关装置 | |
CN111915735A (zh) | 一种针对视频中三维结构轮廓的深度优化方法 | |
CN116681742A (zh) | 基于图神经网络的可见光与红外热成像图像配准方法 | |
Li | Image super-resolution algorithm based on RRDB model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |