CN116524253A - 一种基于轻量级Transformer的甲状腺癌病理图像分类方法 - Google Patents
一种基于轻量级Transformer的甲状腺癌病理图像分类方法 Download PDFInfo
- Publication number
- CN116524253A CN116524253A CN202310435901.2A CN202310435901A CN116524253A CN 116524253 A CN116524253 A CN 116524253A CN 202310435901 A CN202310435901 A CN 202310435901A CN 116524253 A CN116524253 A CN 116524253A
- Authority
- CN
- China
- Prior art keywords
- thyroid cancer
- image
- model
- pathological
- small
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001575 pathological effect Effects 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 66
- 208000024770 Thyroid neoplasm Diseases 0.000 title claims abstract description 56
- 201000002510 thyroid cancer Diseases 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 210000001685 thyroid gland Anatomy 0.000 claims abstract description 14
- 238000003745 diagnosis Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000010586 diagram Methods 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 18
- 230000006835 compression Effects 0.000 claims description 16
- 238000007906 compression Methods 0.000 claims description 16
- 230000005284 excitation Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 230000007170 pathology Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000006116 polymerization reaction Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000000379 polymerizing effect Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000010191 image analysis Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 201000010198 papillary carcinoma Diseases 0.000 description 6
- 230000003902 lesion Effects 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 208000030901 thyroid gland follicular carcinoma Diseases 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000003325 follicular Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000004463 Follicular Adenocarcinoma Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 206010033701 Papillary thyroid cancer Diseases 0.000 description 1
- 208000009453 Thyroid Nodule Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000004195 computer-aided diagnosis Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000030045 thyroid gland papillary carcinoma Diseases 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/032—Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像分析处理识别技术领域,尤其是一种基于轻量级Transformer的甲状腺癌病理图像分类方法,其步骤为:输入甲状腺癌病理切片图像;对甲状腺癌病理切片图像进行均匀切割,得到小块病理图像;将切割后的全部小块病理图像分为训练样本和测试样本;使用ImageNet数据集对提出的轻量级Transformer模型进行预训练;将训练样本用于预训练好模型的微调;将测试样本输入到微调之后的模型,获得小块病理图像的分类结果;采用最大值策略将小块病理图像的分类结果聚合成整张病理切片的结果,从而实现甲状腺病理切片诊断结果的输出,本发明不仅具有较低的计算复杂性,而且能够获得与其它深度学习模型相似的分类性能。
Description
技术领域
本发明涉及图像分析处理识别技术领域,具体领域为一种基于轻量级Transformer的甲状腺癌病理图像分类方法。
背景技术
甲状腺癌病理切片诊断是指从给定的全视野的甲状腺病理切片(whole slideimage,简称WSI)图像中分析检测出甲状腺组织的状态,进而给出病理学图像的分类,比如良性或恶性。该研究已经被广泛应用于计算机辅助诊断系统,人工智能等方面,是当前人工智能,医学信息处理等领域的热点课题。
对病理切片图像进行特征提取是自动病理图像分类的一个关键问题,因为特征的有效性直接决定着最终病理图像诊断性能的高低。现有的病理切片特征提取方法主要有几何特征提取方法,纹理特征提取方法等。这些手工特征提取方法的计算量通常比较大,并且大都需要靠经验知识进行手动操作才能完成。此外,这种人工特征提取的方法容易导致部分特征表述信息的丢失,使得所取得的识别性能不太令人满意,有待进一步提高。
深度学习作为一种新的机器学习理论,其动机在于建立、模拟人脑进行分析学习的神经网络。它模仿人脑的机制来解释图像、声音和文本等数据。深度学习的本质是通过组合低层特征自动形成更加抽象的高层表示属性特征,以发现数据的分布式特征表示。所以,深度学习也被称为表征学习。
目前,各种深度学习方法,如AlexNet,VGG、ResNet、DensenNet、Squeeze-and-Excitation Networks(SENet)等模型,被广泛用于各种视觉图像处理领域,尤其在典型的ImageNet数据集上取得了非常高的分类精度。如申请号2020112596213,一种基于深度学习的甲状腺癌病理图像分类方法中的技术内容;Chen等人采用不同的深度学习方法,如VGG、RestNet等CNN模型,提取小块级别(patch-level)图像的特征表示用于甲状腺癌病理图像的分类(见文献Chen P,Shi X,Liang Y,et al.Interactive thyroid whole slide imagediagnostic system using deep representation.Computer methods and programs inbiomedicine,2020,195:105630)。
近年来,基于自注意力机制的Transformer模型开始备受关注,并在自然语言处理领域取得了优异的性能(见文献Vaswani,A,et al.,Attention is all youneed.Advances in neural information processing systems 30,2017)。目前,Transformer已经成为一种新颖的代表性的深度学习技术,也被广泛应用于信号处理和计算机视觉等领域。特别是,新出现的视觉Transformer(Vision Transformer,ViT)在图像处理领域取得了巨大成功,备受研究者关注(见文献Dosovitskiy A,et al.,An image isworth 16x16words:Transformers for image recognition,CoRR abs/2010.11929,2020)。Sun等人提出一种结合ViT和对比学习的甲状腺节分类方法(见文献Sun J,etal.,Classification for thyroid nodule using ViT with contrastive learning inultrasound images.Computers in Biology and Medicine,2023,152:106444)。
虽然ViT在众多视觉领域中表现出了不俗的性能,但是其网络参数巨大,具有很高的计算复杂性,从而使得ViT模型很难用于甲状腺癌病理图像的快速诊断。为了降低ViT的计算复杂性,Li等人提出一种将深度可分离自注意力机制(depthwise separable self-attention mechanism)和ViT相结合的SepViT方法(见文献Li,W.et al.,Sepvit:Separable vision transformer.arXiv preprint arXiv:2203.15380,2022.)。然而,SepViT方法的计算复杂性仍然较高,直接应用于甲状腺癌病理图像的快速诊断是有难度的。此外,SepViT方法提取特征时没有充分考虑特征图(feature maps)通道之间的相互依赖关系。为此,非常有必要进一步减少SepViT参数,降低其计算复杂性,并且在提取特征时要考虑特征图通道之间的相互依赖关系,以便将其应用于甲状腺癌病理图像的快速诊断。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于轻量级Transformer的甲状腺癌病理图像分类方法,将SENet与SepViT相结合,通过在SepViT中嵌入压缩激励(SE)模块,以便学习出特征图通道之间的关系,并同时进一步降低SepViT的计算复杂度。本发明提出的SeSepViT方法能以很小的计算复杂性为代价获得与其它深度学习模型相近的性能。
为实现上述目的,本发明提供如下技术方案:一种基于轻量级Transformer的甲状腺癌病理图像分类方法,其步骤为:
步骤1:输入甲状腺癌病理切片图像;
步骤2:对甲状腺癌病理切片图像进行均匀切割,得到小块病理图像;
步骤3:将切割后的全部小块病理图像分为训练样本和测试样本;
步骤4:使用ImageNet数据集对提出的轻量级Transformer模型进行预训练;
步骤5:将训练样本用于预训练好模型的微调;
步骤6:将测试样本输入到微调之后的模型,获得小块病理图像的分类结果;
步骤7:采用最大值策略将小块病理图像的分类结果聚合成整张病理切片的结果,从而实现甲状腺病理切片诊断结果的输出。
在其中一些实施例中,根据步骤2,对甲状腺病理切片数据库中的每一幅WSI图像进行均匀切割,得到该WSI图像对应的尺寸大小的小块病理图像。
在其中一些实施例中,根据步骤4,采用包含多个类别的多张图片以典型ImageNet数据集完成模型的预训练,在预训练时,模型的权重使用随机初始化的手法,经过多轮训练,最后使模型收敛。
在其中一些实施例中,根据步骤5,采用甲状腺癌病理切片图像数据集对预训练好的模型进行微调,以便该模型能够有效学习到目标数据集的图像特征表示,其具体微调方式为:
把预训练好模型的最后一层全连接层的样本类别数目改成目标数据集的样本类别数目,然后采用已经预训练好的模型权重进行初始化,经过多轮训练,最后使该模型收敛。
在其中一些实施例中,步骤4的预训练方式为:
①将模块输入的特征图切割成若干个小块并铺平,然后在铺平后的向量后面加上一个窗口令牌;
②设模块输入特征图的尺寸大小为C×H×W,其中C表示通道数,H和W分别表示特征图的高度和宽度;
③特征图被切割并在后面加入Window Token之后,其尺寸大小会变成
④将单个向量进行维度调整和分组处理,维度调整就是将原来的通道数C改变成目标维度D,分组操作则是将特征图按照通道维度分组,从而按照不同组别分别对其计算自注意力;
⑤经过维度调整和分组处理处理之后,特征图的尺寸将会变成其中heads表示分组的三;
⑥采用多头自注意力机制对特征图进行特征提取,计算自注意力的三个输入,记为Q,K和V三个变量,三个变量的尺寸大小都为
⑦计算每个分组内的自注意力,沿着通道维度将Q和K中所有的分量相乘并累加得到注意力图Attn,并对其进行机器学习中常用的Softmax操作,其表达式为:
X=Softmax(Attn)V
其中X是注意力图,Q、K和V是上一步对特征图进行维度调整和分组之后,用于作为自注意力计算的输入参数,i,h,d,w分别表示四维张量Q从高到低维度上的索引号;
⑧计算完成之后,注意力图X的尺寸大小为
⑨将窗口令牌分离出来,将其作为自注意力机制中的Q和K,再将分离之后剩下的特征图作为V,再进行一次自注意力计算,其计算公式为:
Attn=Softmax(A)
其中Q和K是对分离出来的窗口令牌进行归一化和激活后得到的结果;
⑩特征图X中的特征向量的维度被调整成之前的维度,此时其尺寸会变回将会被还原回二维并组合,得到用于输出的特征图,其尺寸大小与输入一样,为C×H×W。
在其中一些实施例中,使用压缩激励模块对SepViT模块输出的特征图进行压缩激励操作,以使特征图不同通道的相互依赖信息获得不同的权重,从而实现通道注意力机制,其实现方式为:通过参数可训练的矩阵对特征图进行变换,得到长度为原特征图通道数的权重向量,然后使用这个权重向量对原特征图的通道进行加权,从而实现通道注意力机制的特征学习任务。
在其中一些实施例中,实现过程其表达式为F(X)=H(X)·X,
其中,X是压缩激励模块SE Block输入的特征图,H(X)表示对特征图进行转换,最后得到通道注意力加权之后的F(X)。
在其中一些实施例中,步骤(7)中实现过程为:使用最大值聚合法将小块病理图像的结果聚合成整张甲状腺病理切片的结果,用于评估模型的最终性能。
在其中一些实施例中,输入的小块病理图像经过模型的计算之后,输出的是预设三个分类的置信度,然后,模型根据该三个分类置信度值的大小,断定给定输入的类型是置信度值最大的分类。
在其中一些实施例中,采用的最大聚合法为,将从同一张WSI图像上切割下来的所有小块病理图像对应的三个分类的置信度取最大值。这样就得到了一张WSI对应三个分类的置信度,从而判断整张WSI的结果,其过程如下:
其中BN,PTC和FTC分别为WSI图像对应三个分类的置信度,max(·)表示取最大值,bn,ptc和ftc分别表示小块病理图像对应三个分类的置信度,N表示从WSI图像上切割下来的小块病理图像的数量。
与现有技术相比,本发明的有益效果是:
1.为了实现甲状腺癌病理切片的快速诊断,提出一种轻量级Transformer模型的自动特征学习方法,用于甲状腺病理切片图像的特征提取。本发明方法旨在通过学习出特征图通道之间的相互依赖关系来提高网络生成的特征表示的质量,并同时进一步降低现有Transformer模型的计算复杂度。
2.相对于其它典型的深度模型相比,本发明方法不仅计算复杂度较低,而且同时能够获得与其它深度模型相似的甲状腺癌病理图像分类性能。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂,通过本申请的实施例对本申请进行详尽说明和了解。
附图说明
图1为本发明的方法模型总体框图;
图2为本发明的压缩激励模块原理图;
图3为本发明的SepViT Block原理图;
图4为本发明的SeSepViT模型原理图;
图5为本发明的SeSepViT模型与其他深度学习模型的病理切片分类性能和模型尺寸大小比较图;
图6为本发明的SeSepViT模型分类病理切片的混淆矩阵。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于轻量级Transformer的甲状腺癌病理图像分类方法,所采用的技术方案是:
步骤1:输入甲状腺癌病理切片图像;
步骤2:对甲状腺癌病理切片图像进行均匀切割,得到小块病理图像;
步骤3:将切割后的全部小块病理图像分为训练样本和测试样本;
步骤4:使用ImageNet数据集对提出的轻量级Transformer模型进行预训练;
步骤5:将训练样本用于预训练好模型的微调;
步骤6:将测试样本输入到微调之后的模型,获得小块病理图像的分类结果;
步骤7:采用最大值策略将小块病理图像的分类结果聚合成整张病理切片的结果,从而实现甲状腺病理切片诊断结果的输出。
其中,
(1)甲状腺癌病理切片图像的均匀切割,包括:
对甲状腺病理切片数据库中的每一幅WSI图像进行均匀切割,得到该WSI图像对应的尺寸大小为304×304的小块病理图像。
(2)模型的预训练,包括:
因为现有甲状腺癌病理切片图像数据集的数据类别的种类通常不多,而且样本数量也不多,这对依赖于大数据驱动的深度模型的直接训练是不利的。为此,拟采用更多类别、更多样本的大数据集先进行预训练。为此,拟采用包含1000个类别的上百张图片的典型ImageNet数据集来完成模型的预训练。在预训练时,模型的权重使用随机初始化的手法,经过多轮训练,最后使模型收敛。
(3)模型的微调,包括:
采用甲状腺癌病理切片图像数据集对预训练好的模型进行微调,以便该模型能够有效学习到目标数据集的图像特征表示。模型的微调,通常是把预训练好模型的最后一层全连接层的样本类别数目改成目标数据集的样本类别数目,然后采用已经预训练好的模型权重进行初始化,经过多轮训练,最后是该模型收敛。
如图3所示,步骤4中SepViT模块的预训练采用可分离卷积的思路,即采用可分离自注意力机制,以便在更少的计算消耗的情况下,提取更加高级,更加有效的特征,从而提升模型的性能。
结合图3所示,下面详细描述该SepViT模块的工作过程:
①将模块输入的特征图切割成若干个小块并铺平,然后在铺平后的向量后面加上一个窗口令牌(Window Token)。窗口令牌是一个数字,用于计算不同通道之间的加权值。在图3中,模块输入的特征图被切割成了四个小块。假设模块输入特征图的尺寸大小为C×H×W,其中C表示通道数,H和W分别表示特征图(Feature Maps)的高度和宽度。特征图被切割并在后面加入窗口令牌之后,其尺寸大小会变成
②采用多头自注意力机制对特征图进行特征提取。但在计算特征向量的自注意力之前,需要将单个向量进行维度调整和分组操作。维度调整就是将原来的通道数C改变成目标维度D。分组操作则是将特征图按照通道维度分组,从而按照不同组别分别对其计算自注意力。经过维度调整和分组操作处理之后,特征图的尺寸将会变成其中heads表示分组的数量。多头自注意力的计算,需要输入三个参数,而现在给定的特征图只有一个。为此,需要将上述过程重复三次,得到用于计算自注意力的三个输入,记为Q,K和V。这三个变量的尺寸大小都为
③计算每个分组内的自注意力。首先沿着通道维度将Q和K中所有的分量相乘并累加得到注意力图Attn,并对其进行Softmax操作,如下所示:
X=Softmax(Attn)V (式2)
Attni,j,h,w=∑dQi,h,d,wKj,h,d,w (式3)
其中,X表示图3中所示的注意力图,Q,K和V是上一步对特征图进行维度调整和分组操作之后,用于作为自注意力计算的输入参数。式2表示对计算得到的特征图进行Softmax操作,得到最终的注意力图X。式3表示将Q和K的所有分量按维度D累加,得到注意力图Attn。对于Q,下标i,h,d,w分别表示四维张量Q从高到低维度上的索引号。Q的尺寸为故下标i,h,d,w分别代表维度长度为4,heads,D和/>的维度上的索引值。其他的张量,如Attn和K同理。计算完成之后,注意力图X的尺寸大小为
④将窗口令牌分离出来,将其作为自注意力机制中的Q和K,再将分离之后剩下的特征图作为V,再进行一次自注意力计算,其计算公式为:
Xi,h,d,w=∑jAttni,j,hXj,h,d,w (式4)
Attn=Softmax(A) (式5)
Ai,j,h=∑dQi,h,dKj,h,d (式6)
其中,Q和K是对分离出来的窗口令牌(尺寸大小为4×heads×D)进行归一化和激活后得到的结果。这里的归一化使用的是深度学习常用的层级归一化(LayerNormalization),而激活函数使用的是高斯误差线性单元激活函数GELU(Gaussian ErrorLinear Unit)。式6表示将Q和K的所有分量按照D维度相乘后累加得出特征图A。式4表示将特征图X跟注意力图Attn的所有分量按照最高维,也就是尺寸大小表示中4所在的维度,相乘并累加,从而完成整个可分离自注意力的计算。式5表示对特征图A(尺寸大小为/>进行Softmax操作后得到注意力图Attn。特征图X中的特征向量的维度被调整成之前的维度,此时其尺寸会变回 将会被还原回二维并组合,得到用于输出的特征图,其尺寸大小与输入一样为C×H×W。
结合图2所示,下面介绍压缩激励模块(SE Block)的工作过程:
压缩激励模块是通过参数可训练的矩阵对特征图进行变换,得到长度为原特征图通道数的权重向量,然后使用这个权重向量对原特征图的通道进行加权,从而实现通道注意力机制的特征学习任务。这一过程的数学公式表达如下:
F(X)=H(X)·X (式1)
其中,X是压缩激励模块(SE Block)输入的特征图,H(X)表示对特征图进行转换,最后得到通道注意力加权之后的F(X)。
为提升模型特征提取的质量,并进一步降低计算复杂度,本发明方法SeSepViT在SepViT模块的4个阶段中嵌入压缩激励模块,从而进一步捕捉特征图通道之间的相互依赖关系。SeSepViT模块总体上由四个阶段组成,这四个阶段所用的计算方法完全一致。每个阶段包含一个SeSep模块,由位置编码(Positional Encoding)、碎片融合(Patch Merging)、SepViT模块和压缩激励模块(SE Block)组成。
结合图4所示,下面以本发明方法SeSepViT四个阶段中的第一个阶段为例,其工作过程如下所示:
①SeSep模块接收到输入的小块病理图像后,先对其进行位置编码和碎片融合。其中,位置编码是原始的Transformer中非常重要的操作,其作用是对切割后图片的顺序进行建模,以便模型可以捕捉到顺序信息。而碎片融合是Swin Transformer(见文献Liu Z,LinY,Cao Y,et al.Swin Transformer:Hierarchical Vision Transformer using ShiftedWindows.ICCV,10012-10022,2021.)中提出的一种类似于池化(Pooling)的操作,它的作用是为模型引入非线性的计算,并降低计算量。
②SepViT模块将经过位置编码和碎片融合之后的特征图进行可分离自注意力的计算,如图3所示。在4个不同的阶段,特征图将会经过不同次数的可分离自注意力的计算。在本模型中,四个阶段对特征图计算可分离自注意力的次数分别为1,2,4,2。
③使用压缩激励模块(SE Block)对SepViT模块输出的特征图进行压缩激励操作,以使特征图不同通道的相互依赖信息获得不同的权重,从而实现通道注意力机制。使用了压缩激励模块施加通道注意力权重之后,得到第一个阶段的最终输出。
通过上述技术方案的实现细节,结合实例具体表述如下:
为了评价本发明方法的性能,拟收集一个包含183病例的甲状腺癌数字病理切片图像数据集。所有的病理切片都是使用专业的EasyScan切片扫描仪,在20倍缩放倍率下采集。该数据集收集了183张甲状腺癌数字病理切片WSI图像,其中每张切片图像像素平均为30000×30000。这183张病理切片图像被分成了3个甲状腺癌类别,分别为良性(BN,Benign),乳头状癌(PTC,Papillary Thyroid Carcinoma)和滤泡癌(FTC,FollicularThyroid Carcinoma)。因为三种类型的组织在病理结构上的差异,这三种切片图像对应的标注也不相同。其中,乳头状癌切片图像中会标注出病变的区域,因为乳头状癌的病变区域很小,而没有病变的组织区域跟正常的组织没有什么区别。良性和滤泡癌病理切片因为其变异范围很大,基本上整张切片图像都属于变异的组织。所以针对这两个类型,不需要在切片图像上标注出病变区域,而只给出其整张切片图像的病变类型即可。该数据集被分成固定的训练集和测试集两个部分,其中训练集用于训练模型,测试集用来测试模型的性能。由于甲状腺癌的发病人群主要在中老年女性,所以数据集中大部分病人的性别都为女性,且年龄普遍在40-70岁之间。
具体的训练及测试步骤如下:
步骤1:将超高像素的甲状腺癌全尺寸病理切片图像(WSI格式,像素一般在30000×30000左右)均匀切割成尺寸大小为304×304的小块病理图像。根据WSI的甲状腺癌的类别号,这些小块病理图像被分成良性,乳头状癌和滤泡癌三类。
步骤2:将切割后的全部甲状腺癌病理小块图像按照4:1的比例随机分为训练集和测试集两部分。训练集用于在训练阶段训练模型,使模型收敛。测试集用于测试在训练集上训练好的模型,以评价模型指标。
步骤3:使用ImageNet数据集对本发明方法SeSepViT进行预训练。因为自行构建的甲状腺癌病理切片图像数据库的数据多样性有限,所以需要在正式训练模型之前,先将模型在另外一个数据多样性更高的数据库上进行预训练,然后再使用预训练好的模型来提取甲状腺癌病理切片数据库中的特征。
步骤4:使用甲状腺癌病理切片数据集对已经预训练好的SeSepViT模型进行训练。训练时选取的优化器使梯度下降优化器(Stochastic Gradient Descent),优化器的学习率(Learning Rate)为0.001,动量(Momentum)为0.9,权重衰减(Weight Decay)为0.0005。
步骤5:将测试样本输入到微调之后的模型,获得小块病理图像的分类结果。测试集中的数据与训练集完全隔绝,以保证性能评价的公正性。
步骤6:使用最大值聚合法将小块病理图像的结果聚合成整张甲状腺病理切片的结果,用于评估模型的最终性能。输入的小块病理图像经过模型的计算之后,输出的是三种甲状腺癌分类的置信度。然后,模型根据这三种甲状腺癌分类置信度值的大小,判定给定输入的类型是置信度值最大的分类。而最大值聚合法,就是将从同一张WSI图像上切割下来的所有小块病理图像对应的三种类别分类的置信度取出最大值,作为整张WSI对应的分类结果,其过程如下:
其中BN,PTC和FTC分别为WSI图像对应三个分类的置信度,max(·)表示取最大值,bn,ptc和ftc分别表示小图片对应三个分类的置信度,N表示从WSI图像上切割下来的小图片的数量。
为了验证本发明方法SeSepViT在甲状腺癌病理图像分类方面的有效性,拟将本发明方法与其它典型的深度学习模型,如AlexNet、VGG、ResNet和SepViT,进行甲状腺癌病理图像分类性能的比较。其中,VGG采用典型的19层网络(VGG19),ResNet采用典型的50层网络(ResNet50)。SepViT和SeSepViT都使用了9层自注意力机制。值得指出的是,AlexNet、VGG19、ResNet50都是采用在ImageNet数据集已经预训练好的模型进行网络参数初始化。对于SepViT和本发明方法SeSepViT,拟采用ImageNet数据集进行预训练,以便获得网络参数的初始化。此外,为了评价各种方法的计算复杂性,采用典型的浮点运算次数(FLOPs)和参数量(Parameters)来度量。图5给出了各种方法在整张WSI图像上的分类结果。从图5来看,本发明方法SeSepViT取得了与其它深度学习方法非常相似的甲状腺癌病理图像分类性能,即准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1分数(F1-Score)分别达到了88.24%、86.11%、89.18%和86.82%。而且,本发明方法SeSepViT计算复杂性是最低的。特别是,与SepViT相比,SeSepViT取得的准确率(Accuracy)只低了1.07%,而精确度(Precision)高出了0.57%,但是取得了更低的计算复杂性。SeSepViT获得的每秒浮点数计算次数FLOPS(单位为G次)和参数量Params(单位为MB)分别为0.08G和0.51MB,而SepViT的每秒浮点数计算次数FLOPS和参数量Params达到了0.49G和3.49MB。由此可见,本发明方法SeSepViT是一种有效的轻量级Transformer方法,而且取得了与其它方法相近的甲状腺癌病理图像分类性能。
图6给出了本发明方法SeSepViT取得的识别结果的混淆矩阵。从图6可以看出,SeSepViT可以很好地分辨滤泡癌(FTC)样本,准确率达到了100%,而对良性(BN))和乳头状癌(PTC)的分类性能相对较低,准确率分别达到了83%和84%。这是因为乳头状癌切片图像中的非病变区域跟正常的组织相差不大,这是对于模型来说是非常严重的噪音,从而导致乳头状癌(PTC)和良性(BN)样本容易相互混淆。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于轻量级Transformer的甲状腺癌病理图像分类方法,其特征在于:其步骤为:
步骤1:输入甲状腺癌病理切片图像;
步骤2:对甲状腺癌病理切片图像进行均匀切割,得到小块病理图像;
步骤3:将切割后的全部小块病理图像分为训练样本和测试样本;
步骤4:使用ImageNet数据集对提出的轻量级Transformer模型进行预训练;
步骤5:将训练样本用于预训练好模型的微调;
步骤6:将测试样本输入到微调之后的模型,获得小块病理图像的分类结果;
步骤7:采用最大值策略将小块病理图像的分类结果聚合成整张病理切片的结果,从而实现甲状腺病理切片诊断结果的输出。
2.根据权利要求1所述的基于轻量级Transformer的甲状腺癌病理图像分类方法,其特征在于:根据步骤2,对甲状腺病理切片数据库中的每一幅WSI图像进行均匀切割,得到该WSI图像对应的尺寸大小的小块病理图像。
3.根据权利要求1所述的基于轻量级Transformer的甲状腺癌病理图像分类方法,其特征在于:根据步骤4,采用包含多个类别的多张图片以典型ImageNet数据集完成模型的预训练,在预训练时,模型的权重使用随机初始化的手法,经过多轮训练,最后使模型收敛。
4.根据权利要求1所述的基于轻量级Transformer的甲状腺癌病理图像分类方法,其特征在于:根据步骤5,采用甲状腺癌病理切片图像数据集对预训练好的模型进行微调,以便该模型能够有效学习到目标数据集的图像特征表示,其具体微调方式为:
把预训练好模型的最后一层全连接层的样本类别数目改成目标数据集的样本类别数目,然后采用已经预训练好的模型权重进行初始化,经过多轮训练,最后使该模型收敛。
5.根据权利要求3所述的基于轻量级Transformer的甲状腺癌病理图像分类方法,其特征在于:步骤(4)的预训练方式为:
①将模块输入的特征图切割成若干个小块并铺平,然后在铺平后的向量后面加上一个窗口令牌;
②设模块输入特征图的尺寸大小为C×H×W,其中C表示通道数,H和W分别表示特征图的高度和宽度;
③特征图被切割并在后面加入Window Token之后,其尺寸大小会变成
④将单个向量进行维度调整和分组处理,维度调整就是将原来的通道数C改变成目标维度D,分组操作则是将特征图按照通道维度分组,从而按照不同组别分别对其计算自注意力;
⑤经过维度调整和分组处理处理之后,特征图的尺寸将会变成其中heads表示分组的三;
⑥采用多头自注意力机制对特征图进行特征提取,计算自注意力的三个输入,记为Q,K和V三个变量,三个变量的尺寸大小都为
⑦计算每个分组内的自注意力,沿着通道维度将Q和K中所有的分量相乘并累加得到注意力图Attn,并对其进行机器学习中常用的Softmax操作,其表达式为:
X=Softmax(Attn)V
其中X是注意力图,Q、K和V是上一步对特征图进行维度调整和分组之后,用于作为自注意力计算的输入参数,i,h,d,w分别表示四维张量Q从高到低维度上的索引号;
⑧计算完成之后,注意力图X的尺寸大小为
⑨将窗口令牌分离出来,将其作为自注意力机制中的Q和K,再将分离之后剩下的特征图作为V,再进行一次自注意力计算,其计算公式为:
Attn=Softmax(A)
其中Q和K是对分离出来的窗口令牌进行归一化和激活后得到的结果;
⑩特征图X中的特征向量的维度被调整成之前的维度,此时其尺寸会变回将会被还原回二维并组合,得到用于输出的特征图,其尺寸大小与输入一样,为C×H×W。
6.根据权利要求5所述的基于轻量级Transformer的甲状腺癌病理图像分类方法,其特征在于:使用压缩激励模块对SepViT模块输出的特征图进行压缩激励操作,以使特征图不同通道的相互依赖信息获得不同的权重,从而实现通道注意力机制,其实现方式为:通过参数可训练的矩阵对特征图进行变换,得到长度为原特征图通道数的权重向量,然后使用这个权重向量对原特征图的通道进行加权,从而实现通道注意力机制的特征学习任务。
7.根据权利要求6所述的基于轻量级Transformer的甲状腺癌病理图像分类方法,其特征在于:实现过程其表达式为F(X)=H(X)·X,
其中,X是压缩激励模块SE Block输入的特征图,H(X)表示对特征图进行转换,最后得到通道注意力加权之后的F(X)。
8.根据权利要求1所述的基于轻量级Transformer的甲状腺癌病理图像分类方法,其特征在于:步骤(7)中实现过程为:使用最大值聚合法将小块病理图像的结果聚合成整张甲状腺病理切片的结果,用于评估模型的最终性能。
9.根据权利要求8所述的基于轻量级Transformer的甲状腺癌病理图像分类方法,其特征在于:输入的小块病理图像经过模型的计算之后,输出的是预设三个分类的置信度,然后,模型根据该三个分类置信度值的大小,断定给定输入的类型是置信度值最大的分类。
10.根据权利要求9所述的基于轻量级Transformer的甲状腺癌病理图像分类方法,其特征在于:采用的最大聚合法为,将从同一张WSI图像上切割下来的所有小块病理图像对应的三个分类的置信度取最大值。这样就得到了一张WSI对应三个分类的置信度,从而判断整张WSI的结果,其过程如下:
其中,BN,PTC和FTC分别为WSI图像对应三个分类的置信度,max(·)表示取最大值,bn,ptc和ftc分别表示小图片对应三个分类的置信度,N表示从WSI图像上切割下来的小图片的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310435901.2A CN116524253A (zh) | 2023-04-19 | 2023-04-19 | 一种基于轻量级Transformer的甲状腺癌病理图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310435901.2A CN116524253A (zh) | 2023-04-19 | 2023-04-19 | 一种基于轻量级Transformer的甲状腺癌病理图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524253A true CN116524253A (zh) | 2023-08-01 |
Family
ID=87389617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310435901.2A Pending CN116524253A (zh) | 2023-04-19 | 2023-04-19 | 一种基于轻量级Transformer的甲状腺癌病理图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524253A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116721302A (zh) * | 2023-08-10 | 2023-09-08 | 成都信息工程大学 | 一种基于轻量级网络的冰雪晶粒子图像分类方法 |
CN117314888A (zh) * | 2023-11-02 | 2023-12-29 | 中山大学附属第一医院 | 基于多示例学习和病理图像的克罗恩病检测方法 |
-
2023
- 2023-04-19 CN CN202310435901.2A patent/CN116524253A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116721302A (zh) * | 2023-08-10 | 2023-09-08 | 成都信息工程大学 | 一种基于轻量级网络的冰雪晶粒子图像分类方法 |
CN116721302B (zh) * | 2023-08-10 | 2024-01-12 | 成都信息工程大学 | 一种基于轻量级网络的冰雪晶粒子图像分类方法 |
CN117314888A (zh) * | 2023-11-02 | 2023-12-29 | 中山大学附属第一医院 | 基于多示例学习和病理图像的克罗恩病检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
Kumar et al. | Breast cancer classification of image using convolutional neural network | |
CN110889853B (zh) | 基于残差-注意力深度神经网络的肿瘤分割方法 | |
CN109711426B (zh) | 一种基于gan和迁移学习的病理图片分类装置及方法 | |
CN116524253A (zh) | 一种基于轻量级Transformer的甲状腺癌病理图像分类方法 | |
CN108491849A (zh) | 基于三维稠密连接卷积神经网络的高光谱图像分类方法 | |
CN109035267B (zh) | 一种基于深度学习的图像目标抠取方法 | |
Lameski et al. | Skin lesion segmentation with deep learning | |
CN110675411A (zh) | 基于深度学习的宫颈鳞状上皮内病变识别算法 | |
CN112699899A (zh) | 一种基于生成对抗网络的高光谱图像特征提取方法 | |
CN113782190B (zh) | 基于多级时空特征和混合注意力网络的图像处理方法 | |
CN104077742B (zh) | 基于Gabor特征的人脸素描合成方法及系统 | |
CN115170582A (zh) | 基于多尺度特征融合和网格注意力机制的肝脏影像分割方法 | |
CN109118487B (zh) | 基于非下采样轮廓波变换和卷积神经网络的骨龄评估方法 | |
CN117315381B (zh) | 一种基于二阶有偏随机游走的高光谱图像分类方法 | |
CN115601751B (zh) | 一种基于领域泛化的眼底图像语义分割方法 | |
CN109947960A (zh) | 基于深度卷积的人脸多属性联合估计模型构建方法 | |
CN116563285B (zh) | 一种基于全神经网络的病灶特征识别与分割方法及系统 | |
CN114065831A (zh) | 基于多尺度随机深度残差网络的高光谱图像分类方法 | |
CN116630964A (zh) | 一种基于离散小波注意力网络的食品图像分割方法 | |
CN116486156A (zh) | 融合多尺度特征上下文的全视野数字切片图像分类方法 | |
CN111860068A (zh) | 一种基于跨层精简双线性网络的细粒度鸟类识别方法 | |
CN115937590A (zh) | 一种并联融合CNN和Transformer的皮肤病图像分类方法 | |
CN113343770B (zh) | 一种基于特征筛选的人脸防伪方法 | |
CN116091763A (zh) | 苹果叶部病害图像语义分割系统及分割方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |