CN116486156A - 融合多尺度特征上下文的全视野数字切片图像分类方法 - Google Patents
融合多尺度特征上下文的全视野数字切片图像分类方法 Download PDFInfo
- Publication number
- CN116486156A CN116486156A CN202310453144.1A CN202310453144A CN116486156A CN 116486156 A CN116486156 A CN 116486156A CN 202310453144 A CN202310453144 A CN 202310453144A CN 116486156 A CN116486156 A CN 116486156A
- Authority
- CN
- China
- Prior art keywords
- tile
- image
- full
- wsi
- patch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000013145 classification model Methods 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 20
- 238000012795 verification Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 230000008520 organization Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000001502 supplementing effect Effects 0.000 claims description 6
- 238000007500 overflow downdraw method Methods 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 9
- 238000002679 ablation Methods 0.000 description 5
- 230000001575 pathological effect Effects 0.000 description 5
- 208000005718 Stomach Neoplasms Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 206010017758 gastric cancer Diseases 0.000 description 3
- 201000011549 stomach cancer Diseases 0.000 description 3
- INJRKJPEYSAMPD-UHFFFAOYSA-N aluminum;silicic acid;hydrate Chemical compound O.[Al].[Al].O[Si](O)(O)O INJRKJPEYSAMPD-UHFFFAOYSA-N 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000004043 dyeing Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000007490 hematoxylin and eosin (H&E) staining Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种融合多尺度特征上下文的全视野数字切片图像分类方法。针对全视野数字图像尺寸大、多级分辨率、特征提取困难导致的常规分类方法准确率欠佳等问题,本发明结合对比学习、多尺度特征,自注意力机制从而获得一个效果较好的全视野数字图像分类模型。首先将收集到的全视野数字图像进行不同分辨率下的切分,得到尺寸统一且信息含量低的切片。其次使用对比学习针对不同分辨率下获得的切片分别训练一个具有特征解耦能力的特征提取网络,进行特征提取。进一步融合获得的多尺度特征,并进行特征图重构,作为网络的输入。最后使用带有自注意力机制的网络,获得输入数据的上下文信息,从而提高特征的全局表示能力,使得预测结果更加准确。
Description
技术领域
本发明涉及计算机视觉领域、医疗数据分析挖掘领域,尤其涉及基于融合多尺度特征上下文的全视野数字切片图像分类方法。
背景技术
近年来,随着深度学习(deep learning,DL)技术的发展,各种模态的图像分类模型被接连提出。卷积神经网络、循环神经网络也已经被广泛引入医学图像分析领域,并且在常规医学图像,例如CT、MRI上等已经取得较好的效果。随着数字影像设备的发展,全视野数字切片技术开始取代传统的玻璃切片,成为获取组织病理图像的主流选择。数字病理切片具有以下特点:尺寸大、信息量高、含有多级分辨率,这些特点虽然为组织环境提供了详细、清楚的表示,但也给临床医生阅片带来了诸多不便,同时也为深度学习方法在全视野数字病理切片上的应用造成一定限制。例如,医生阅片效率低、阅片一致性差等,尺寸大、多级分辨率等导致难以像自然图像一样输入神经网络进行端到端的训练。因此通常将全视野数字切片切分为指定像素大小补丁图像tile,一张全视野数字切片图像通常可以获得数千张乃至数万张的补丁图像tile。但全视野数字切片图像的标签往往只有单一的临床诊断标签,没有逐像素标注的ROI勾画标签。所以,使用补丁图像进行全视野数字切片图像分类的问题通常被转换为基于多实例学习的弱监督问题。虽然多实例学习能够对全视野数字切片图像进行分类,但通常会忽略不同补丁图像tile之间的关系;并且没有利用多级分辨率的特征,因此训练过程存在一定信息冗余、特征融合困难,模型难以收敛;分类准确率并不理想;分类结果缺乏可解释性。
发明内容
针对现有技术的不足,本发明提供了一种融合多尺度特征上下文的全视野数字切片图像分类方法,以用于获取全视野数字切片图像的分类模型。
本发明的技术方案是:一种融合多尺度特征上下文的全视野数字切片图像分类方法,包括:
S1、收集一批原始全视野数字切片图像(whole slide image,WSI);
S2、对S1收集到的原始全视野数字切片图像WSI在不同放大倍率下分别进行滑动窗口切分处理,同时进行归一化处理,并根据设定的阈值确定是否保存该张补丁图像tile,最终获得每张全视野数字切片图像WSI对应的多组补丁图像tile;
S3、对S2获得的多组不同分辨率的补丁图像tile,分别使用自监督对比学习方法训练对应的补丁特征提取模型,所述提取模型对不同类别的补丁图像tile具有良好的特征解耦能力。
S4、对S2预处理后的补丁图像tile,按照分辨率分组,分别输入到S3获得的对应分辨率下的特征提取模型,提取所有补丁图像tile的特征,并进行存储。
S5、将S4提取到的不同分辨率下的多个特征使用金字塔特征融合方法进行特征融合,获得不同分辨率下补丁图像tile特征融合后的特征数据。
S6、以全视野数字切片图像为单位,对S5得到的tile特征数据进行数据集的划分。将全视野数字切片图像WSI进行随机划分,并将划分的结果进行保存,其训练集Dtrn用于分类模型的训练,验证集Dval用于模型效果的验证,训练集和验证集包含每个全视野数字切片图像WSI对应的所有补丁图像tile。
S7、在数据加载阶段,将S6中的补丁图像tile按照其在全视野数字切片图像WSI中的位置进行还原,获得新的图像表示WSI′,并对WSI′进行中心裁切、补充操作,进行尺寸归一化。
S8、将S7中获得的图像表示WSI′按照Dtrn和Dval的不同,分别输入到具有自注意力机制的模型中,通过自注意力机制获得输入WSI′在补丁图像tile层面上下文信息的权重。该权重会对模型的预测过程以及分类结果产生影响,从而获得最终的输出。其中Dtrn用于该模型的训练,Dval在每批次中验证模型的性能,并保存在Dval获得最佳性能的参数作为模型最终的参数。
所述S2中对每张全视野数字切片图像WSI进行滑动窗口切分处理,包括:
S2.1、获取原始全视野数字切片图像WSI在不同放大倍率下的图像尺寸w和h;其中,w和h分别为指定放大倍率下图像的宽度、长度;
S2.2、针对获取到的指定放大倍率下的图像尺寸,进行窗口滑动次数计算:
式(1.1)中,winw表示窗口宽度,Nw为窗口横向滑动次数,且做向下取整处理;
式(1.2)中,winh表示窗口长度,Nh为窗口纵向滑动次数,且做向下取整处理;
S2.3、针对S2.2计算得到的每个窗口,在滑动切分时判断窗口内组织是否达到保存补丁图像tile的阈值,达到则进行归一化处理并保存,否则丢弃。
所述S3中的补丁特征提取模型构建方法,包括:
S3.1、针对S3中所述的对比学习,其实现方式使用SimCLR框架。SimCLR框架首先对输入的补丁图像tile进行数据增强,然后将同一批次内的原始图像与增强数据作为输入数据,同时输入到SimCLR框架的Encoder中进行编码,获得原始图像与增强数据的特征表示hi,hj,而后通过两个Projection Head对hi,hj继续进行特征表示,得到zi,zj。
zi=g(hi)=W(2)σ(W(1)hi) (1.3)
式(1.4)中,hi是Encoder输出的特征表示,W(1)、W(2)分别两个可学习的参数层,σ为非线性激活函数ReLU,g()是Projection Head,zi是原始图像的最终特征表示。
S3.2、针对S3.1中所述的最终特征表示zi,zj,使用最大化相似度损失函数
式(1.5)中,zi是原始图像的最终特征表示,zj是增强图像的特征表示,zk是其他不相关图像的特征表示,τ是一个用来缩放输入的可调参数,N代表批次大小;i,j,k分别代表批次N中的第i个图像,通过图像i获得的增强图像j,以及批次中其他不相关图像k。
S3.3、针对S3.1中所述的数据增强方式的具体实现为使用pytorch深度学习框架中的torchvision深度学习包中的transforms.ColorJitter()方法【导入深度学习框架PyTorch中的torchvision包,使用该包中的transforms.ColorJitter()方法】随机改变图像的亮度,对比度,饱和度和色调;transforms.RandomGrayscale()方法按照指定的概率将图像进行灰度化;transforms.Resize()方法将图像缩放到网络输入需要的大小、GaussianBlur()方法对图像进行高斯模糊,transforms.RandomHorizontalFlip()方法将图像随机裁剪为网络输入需要的大小。
S3.4、针对S3.1中所述的Encoder使用去除分类器部分的EfficientNet V2 Small神经网络,以S3.2中损失函数的值作为该模型的评价指标,选在在验证集上损失最低的参数进行保存,并将该参数作为S4中的预训练权重进行加载,使用该权重提取补丁图像tile的特征。
针对S4中获得的不同分辨率下的补丁图像tile的特征,使用向量进行表示,向量的尺寸根据需要进行指定,记作dim。
针对S5中对不同分辨率下的所有补丁图像tile进行融合的具体方法为:根据低倍率补丁图像tile的位置编号来查询与其对应的高倍率下的所有补丁图像tile,通过内积运算获得权重,将低倍率的补丁图像tile与权重相乘,并将结果与对应高倍率补丁图像相加,获得新的特征表示new_tile。
new_tile=(<low_tile,high_tile>×low_tile)+high_tile (1.5)式(1.5)中,low_tile表示低倍分辨率下的补丁图像tile,high_tile表示高倍分辨率下的补丁图像tile,new_tile仍是以向量进行表示,其尺寸大小与high_tile的尺寸相同。
针对S7中的获得新图像表示WSI′、并进行中心裁剪、补充、尺寸归一化操作,包括:
S7.1、对于每个WSI进行特征融合之后的得到的补丁图像new_tile,逐个进行编号读取,获得其在20倍放大倍率全视野数字切片图像下的最大行编号max_r、列编号max_c。根据最大行列编号生成一个空张量WSI’,该张量的形状为(max_r,max_c,dim),将new_tile根据编号填充在WSI’的对应位置。
S7.2、对于S7中的尺寸归一化,其具体实现方法:将S7.1中获得的新的特征表示WSI′按照固定尺寸进行中心裁剪。依据选定尺寸大小进行,不足该尺寸的WSI’在外围进行填充,填充值为0,填充尺寸是实际尺寸与选定尺寸的差值,从而获得最终的特征表示WSI’。
高低倍率的放大范围在不同的数据上并不相同,但可以通过使用openslide包中的level_demensions方法获得所有缩放层级,以缩放层级的中位数为分界。一般来说本发明中放大倍率小于等于10倍时,认为是低倍率;大于10倍时是高倍率。
本发明的有益效果是:考虑到常规预测方法采用单一分辨率、补丁图像tile间无关联导致模型准确率低且泛化性不佳等问题,本发明首先采用自监督对比学习方法,针对无专家标注ROI区域的全视野数字切片图像WSI训练了一个补丁图像tile特征提取网络,对不同含有不同组织的补丁图像tile进行特征解耦。而后在不同尺度的放大倍率下应用该模型,获得具有差异化的tile级别特征。通过引入金字塔特征融合方法,结合特征图重构思想使获得的结果更具有解释性。使用自注意力机制,融合不同tile之间的上下文信息进行最终结果预测,以降低问题的复杂度,提高模型鲁棒性、可解释性和预测精度。
附图说明
图1是本发明中的流程图;
图2是针对对比学习的消融实验分类结果混淆矩阵图;
图3是针对特征融合的消融实验分类结果混淆矩阵图;
图4是针对上下文的消融实验分类结果混淆矩阵图;
图5是本发明的分类结果混淆矩阵图。
具体实施方式
下面结合附图和实施例,对发明做进一步的说明,但本发明的内容并不限于所述范围。
实施例1
一种基于上下文关联的全视野数字图像多尺度切片分类建模方法,包括:
S1、收集一批原始全视野数字切片图像(whole slide image,WSI);
S2、对S1收集到的原始全视野数字切片图像WSI在5倍和20倍分辨率下进行滑动窗口切分处理,同时进行归一化处理,并根据设定的阈值确定是否保存该张补丁图像tile,最终获得每张全视野数字切片图像WSI对应的两组补丁图像tile;
S3、对S2获得的两组不同分辨率的补丁图像tile,分别使用自监督对比学习方法训练对应的补丁特征提取模型,该模型对不同类别的补丁图像tile具有良好的特征解耦能力
S4、对S2预处理后的补丁图像tile,按照分辨率分组,分别输入到S3获得的对应分辨率下的特征提取模型,提取所有补丁图像tile的特征,并进行存储。
S5、将S4提取到的5倍分辨率下的特征和该特征对应的20倍分辨率下的多个特征使用金字塔特征融合方法进行特征融合,获得不同分辨率下补丁图像tile特征融合后的特征数据。
S6、以全视野数字切片图像为单位,对S5得到的tile特征数据进行数据集的划分。将全视野数字切片图像WSI进行随机划分,并将划分的结果进行保存,其训练集Dtrn用于分类模型的训练,验证集Dval用于模型效果的验证,训练集和验证集包含每个全视野数字切片图像WSI对应的所有补丁图像tile。
S7、在数据加载阶段,将S6中的补丁图像tile按照其在全视野数字切片图像WSI中的位置进行还原,获得新的图像表示WSI′,并对WSI′进行中心裁切、补充操作,进行尺寸归一化。
S8、将S7中获得的图像表示WSI′按照Dtrn和Dval的不同,分别输入到具有自注意力机制的模型中,通过自注意力机制获得输入WSI′在补丁图像tile层面上下文信息的权重。该权重会对模型的预测过程以及分类结果产生影响,从而获得最终的输出。其中Dtrn用于该模型的训练,Dval在每批次中验证模型的性能,并保存在Dval获得最佳性能的参数作为模型最终的参数。
可选地,所述S2中对每张全视野数字切片图像WSI进行滑动窗口切分处理,包括:
S2.1、使用openslide-python开源包对全视野数字切片图像进行处理,openslide-python包是openslide这个C语言库的python接口,该库能够实现对全视野数字切片的处理。使用该包中的DeepZoomGenerator生成全视野数字切片图像的对象,调用level_demensions方法,并在参数中传入指定的缩放层级获取对应的分辨率下的图像尺寸。本实例使用的全视野数字切片最大分辨率为40×,因此20×放大倍率、5×放大倍率下分别对应的层级为Lall-1,Lall-3。获得的图像尺寸以w和h进行返回,分别为指定放大倍率下图像的宽度、长度;
S2.2、针对获取到的指定放大倍率下的图像尺寸,进行窗口滑动次数计算:
式(1.1)中,winw表示窗口宽度,Nw为窗口横向滑动次数,且做向下取整处理;
式(1.2)中,winh表示窗口长度,Nh为窗口纵向滑动次数,且做向下取整处理;
S2.3、针对S2.2计算得到的每个窗口,在滑动切分时判断窗口内组织是否达到保存补丁图像tile的阈值,达到则进行归一化处理并保存为png格式的图片,否则丢弃。
可选地,所述S3中的补丁特征提取模型构建过程如下:
S3.1、针对S3中所述的对比学习,其实现方式使用SimCLR框架。首先将收集到的全视野数字切片图像按照8∶2划分为训练集Dcontra-train和验证集Dcontra-val。将划分后的数据集输入到SimCLR框架中,该框架首先对输入的补丁图像tile进行数据增强,然后将同一批次内的原始图像与增强数据作为输入数据,同时输入到SimCLR框架的Encoder中进行编码,获得原始图像与增强数据的特征表示hi,hj,而后通过两个Projection Head对hi,hj继续进行特征表示,得到zi,zj。
zi=g(hi)=W(2)σ(W(1)hi) (1.3)
式(1.3)中,hi是Encoder输出的特征表示,W(1)、W(2)分别两个可学习的参数层,σ为非线性激活函数ReLU,g()是Projection Head,zi是原始图像的最终特征表示;
S3.2、针对S3.1中所述的最终特征表示zi,zj,使用最大化相似度损失函数
式(1.4)中,zi是原始图像的最终特征表示,zj是增强图像的特征表示,zk是其他不相关图像的特征表示,τ是一个用来缩放输入的可调参数,N代表批次大小。
S3.3、针对S3.1中所述的数据增强方式的具体实现为使用pytorch深度学习框架中的torchvision深度学习包中的transforms.ColorJitter()方法随机改变图像的亮度,对比度,饱和度和色调;transforms.RandomGrayscale()方法随机将图像转换为概率为0.2的灰度;transforms.Resize()方法将图像缩放到224×224大小、GaussianBlur()方法对图像进行高斯模糊,transforms.RandomHorizontalFlip()方法将图像随机裁剪为224×224大小。
S3.4、针对S3.1中所述的Encoder使用去除分类器部分的EfficientNet V2 Small神经网络,以S3.2中损失函数的值作为该模型的评价指标,选在在验证集上损失最低的参数进行保存,并将该参数作为S4中的预训练权重进行加载,使用该权重提取补丁图像tile的特征。
可选地,所述S4中获得的不同分辨率下的补丁图像tile的特征,使用向量进行表示,向量的尺寸均为1×1280。
可选地,所述S5中对不同分辨率下的所有补丁图像tile进行融合的具体方法为:根据5倍分辨率下补丁图像tile的位置编号来查询与其对应的20倍分辨率下的所有补丁图像tile。通过内积运算获得权重,将5倍分辨率的补丁图像tile与权重相乘,并将结果与20倍补丁图像相加,获得新的特征表示new_tile。
new_tile=(<tile_5,tile_20>×tile_5)+tile_20 (1.5)
式(1.5)中,tile_5表示5倍分辨率下的补丁图像tile,tile_20表示20倍分辨率下的补丁图像tile。new_tile仍是以向量进行表示,其尺寸大小与tile_20的尺寸相同。所有操作均使用python的numpy包完成。
可选地,所述S7中的获得新图像表示WSI′、并进行中心裁剪、补充、尺寸归一化操作,包括:
S7.1、对于每个WSI进行特征融合之后的得到的补丁图像new_tile,逐个进行编号读取,使用str.split()对文件名进行分割,获得其在20倍放大倍率全视野数字切片图像下的最大行编号max_r、列编号max_c。根据最大行列编号生成一个空张量WSI′,该张量的形状为(max_r,max_c,1280),将new_tile根据编号填充在WSI′的对应位置。
S7.2、对于S7中的尺寸归一化,其具体实现方法:将S7.1中获得的新的特征表示WSI′按照固定尺寸进行中心裁剪。选定尺寸大小为48×48,不足该尺寸的WSI′在外围进行填充,填充值为0,填充尺寸是实际尺寸与选定尺寸的差值,从而获得最终的特征表示WSI′。
可选地,S8中所述的具有自注意力机制的模型结构参照Vision TransformerBase,在输入channel上进行更改,与WSI′进行匹配。
传统的基于多实例的学习方法,通常可以分为两类。一种是每轮只选取得分较高的实例参与训练,该方法的缺点在于每次参与训练的数据太少,故需要大量的训练数据才能获得较好的结果。另一种是认为每个实例是独立同分布的单独个体,虽然该方法相比第一种参与训练的数据大量增加,但是忽略了不同实例之间的相关性,没有将实例本身的全局空间信息考虑在内。自注意力机制虽然能够计算所有实例之间的相关性,但其首先被在自然语言处理中提出,并不能应用到计算机视觉领域。而Vision Transformer提出很好的解决了这个问题,Vision Transformer主要由三部分组成,分别是Patch+PositionEmbedding、Transformer Encoder,MLP Head。其中,输入图像首先被Linear Projectionof Flattened Patches切分,经过投射后成为嵌入向量token,便于添加位置编码。其次,通过Transformer Encoder模块,使用多头自注意力机制进行不同token之间的上下文信息权重计算。最后,通过一个简单的MLP,对含有上下文权重信息的特征进行计算,获得最终分类结果。
式(1.6)为Vision Transformer的整体流程。a式中的xclass是类别令牌,为输入图像P裁切出的第N个patch,E是线性层,Epos代表位置编码,z0代表当前网络的原始输入;b式中z′1是第l个transformer block中多头自注意力机制的输出;c式中z1是第l个transformer block中多层感知机的输出。d式中y是通过最后一个transformer block的输出中类别令牌的/>的预测结果。
式(1.7)中式(a)Attention(Q,K,V)为注意力查询,Q、K、V查询矩阵、键矩阵、值矩阵,是放缩值;式(b)为多头注意力机制,headh代表第h个头的输出,WO是变换矩阵;式(c)是对式b中每个head的补充说明,其中Q、K、V与式(a)中的含义不变,Wi Q,Wi K,Wi V分别是对应的变换矩阵。
在训练过程中,损失函数使用分类模型经典的交叉熵损失函数;优化器选择AdamW优化器,其实现简单,计算高效;在验证部分,保存分类准确率最高的模型。
所述分类准确率(accuracy,ACC):
式(1.8)中,TP表示正类预测为正类的样本数;TN负类预测为负类的样本数;FP表示负类预测为正类的样本数;FN表示正类预测为负类的样本数。
召回率(recall):分类正确的正样本,占所有正样本的比例。
特异度(specificity,SPE):分类正确的负样本,占所有负样本的比例。
实施例2:如图1所示,下面对本发明一种可选的具体方式进行详细说明。
第一步:收集肿瘤医院胃癌患者HE染色的全视野数字病理切片图像(Whole SlideImage,WSI),其格式为svs格式,每张大小在2GB到4GB不等;数据标签为临床诊断标签,没有逐像素的ROI勾画标签。
第二步:针对svs格式的WSI,利用Python的openslide软件包对每位患者的原始WSI进行滑动窗口切分处理,窗口为512x 512大小,窗口内组织阈值为15%,分别在5×、20×两级分辨率下进行,对符合要求的区域进行染色归一化等预处理,最终得到每张WSI对应的两组tile,并且5×分辨率下的每张tile又对应20×分辨率下的0~16张tile不等。
其中,利用Python中软件包openslide的DeepZoomGenerator方法获取原始全视野数字切片图像WSI的总金字塔层数、目标切分层的尺寸,而后根据设置的窗口大小计算窗口滑动次数,以切分所选目标切分层的全视野数字切片图像WSI;其中参与窗口滑动次数计算的winw、winh均设置为512;
第三步:针对第二步中采集的两种分辨率下的tile图像分别使用自监督对比学习框架SimCLR训练两个tile特征提取网络,保存在验证集上损失最低的权重文件,作为第四步提取tile特征的模型。
(1)其中,首先将所有的tile以全视野数字切片为单位按照8:2划分为训练集Dcontra_train、验证集Dcontra_val
(2)使用pytorch深度学习框架中的torchvision深度学习包中的transforms.ColorJitter()方法随机改变图像的亮度,对比度,饱和度和色调、transforms.RandomGrayscale()方法随机将图像转换为概率为0.2的灰度、transforms.Resize()方法将图像缩放到224×224大小、GaussianBlur()方法对图像进行高斯模糊,transforms.RandomHorizontalFlip()方法将图像随机裁剪为224×224大小;对于验证集Dval只进行transforms.Resize将图像尺寸统一到224x224。
(3)选择去除分类器部分的EfficientNet V2 Small作为SimCLR的Encoder。EfficientNetV2是EfficientNet系列的最新版本,其针对V1版本中存在的诸多问题提出了改进。采用渐进学习方法,该方法会根据训练图像的尺寸动态调节正则化方法,其训练速度更快、参数量更少,模型的准确率更高。并且使用了神经网络结构搜索NAS技术去搜索MBConv和Fused-MBConv的最佳组合,解决在浅层中使用深度可分离卷积过慢的问题。
(4)使用(3)中获得的针对20×、5×分辨率的EfficientNet V2 Small权重对20×、5×分辨率下的补丁图像tile进行特征提取,并将获得的特征分别进行保存。其中,EfficientNet V2 Small仅使用特征提取器部分,其提取到的补丁图像特征向量尺寸为4×1280。本实例对该特征向量进行降维,使用pytorch提供的自适应平均池化层进行池化,池化后的特征向量尺寸为1×1280,将该尺寸的特征向量进行保存,保存形式为字典。字典的键为保存的补丁图像的名称,值为从该名称对应补丁图像中提取到的1×1280特征向量的值。
第四步:读取第三步(4)中获得的所有特征向量,进行特征融合。将属于同一个全视野数字切片图像的不同分辨率下的特征进行记录,对于5×放大下的特征向量通过命名编号查找其对应的20×下的特征向量。将两组特征向量进行内积,计算相似度权重。再将该相似度权重与5×特征向量相乘,结果与20×特征向量进行相加,从而获得不同分辨率特征融合后的特征向量,并将该向量进行保存。具体公式如实施例2中的式(1.1)所示,
new_tile=(<tile_5,tile-20>×tile_5)+tile-20 (1.1)
其中,new_tile为进行特征融合之后的新特征,tile_5,tile_20分别是第四步在5×分辨率下与20×分辨率下保存的特征向量。
将保存的所有补丁图像特征向量,按照全视野数字切片图像WSI名称划分数据集,70%作为下游任务的训练集Dtrain,30%作为下游任务的验证集Dval。
第五步:在数据加载Dataset阶段,以全视野数字切片图像WSI为单位,将所有进行特征融合之后的特征向量进行特征图重建,以达到模拟自然图像进行输入的效果。具体操作为自定义数据加载类My_Dataset继承pytorch的torch.utils.data.dataset类,实现数据加载功能。对于每个WSI进行特征融合之后的得到的补丁图像new_tile,逐个进行编号读取,使用str.split()方法获得其在20倍放大倍率全视野数字切片图像下的最大行编号max_r、列编号max_c。根据最大行列编号生成一个空张量WSI′,该张量的形状为(max_r,max_c,1280),将new_tile根据编号填充在WSI′的对应位置。该张量,将作为新的特征图输入到下游模块中,实现分类结果的获得。
第六步:在模型训练和验证阶段,将第五步中获得数据按照训练集与验证集的不同分别输入到对应的模型中,获得模型预测输出。然后使用验证集Dval,验证每批次训练中模型的性能,选择出在Dval上性能最好的参数作为分类模型的参数,并且画出模型分类结果的混淆矩阵,并计算模型的ACC、SEN、SPE。
保存在验证集上准确率最佳结果的模型,从而获得融合多尺度特征上下文的全视野数字切片图像分类模型。其中,实验主要超参数设置为epoch=500,优化器选择AdamW优化器,学习率大小为2e-4,权重衰退为1e-4,不使用自动调整学习率策略。以训练集数据Dtrain为例,数据在Vision Transformer Base模型中的流动首先经过Linear ProjectionofFlattened Patches切分,此处切分patches大小为16×16。经过投射后成为便于添加位置编码的嵌入向量token,以及添加一个可学习的class token用于后续模块进行分类概率预测。其次,通过Transformer Encoder模块,使用多头自注意力机制进行不同token之间的上下文信息权重计算,多头自注意力机制的实现公式如式1.19所示。最后,通过一个简单的多层感知机,对含有上下文权重信息的特征进行计算,并根据class token进行预测,从而获得最终的分类预测结果。
上述方法适用于基于融合多尺度特征上下文的全视野数字切片图像分类方法的构建,本实施例结合某肿瘤医院胃癌患者HE染色的全视野数字病理切片图像验证本发明的有效性。该批数据共包含123张WSI原始图像,其中85个作为训练集,38个作为验证集,其格式均为svs格式,每张大小在2GB到4GB不等。
本发明实施案例采用准确率ACC、敏感度SEN、特异度SPE作为模型预测性能的评价指标,所述三个指标计算公式已在实施例1的公式(1.8)到(1.10)中给出,三个指标取值均在0-1之间,越接近1表示性能越好。
表1本方法消融实验的胃癌复发预测性能评价对比
根据表1可以看出,本发明提出的分类方法与自身进行消融实验后的方法相比,本发明提出的基于融合多尺度特征上下文的全视野数字切片图像分类方法性能更佳,且每个模块均对准确率的提升起到作用。不但通过对比学习对特征差异较小的补丁图像tile进行特征解耦,大大降低了训练的复杂度;还考虑到全视野数字切片图像的多尺度特征,模仿病理医生诊断过程,融合多尺度的特征加快了模型的收敛速度,提高了模型的准确率;并重构特征图,结合自注意力机制获取补丁图像tile之间的上下文信息,提高模型鲁棒性、可解释性和预测精度,本发明充分体现出了自身的优势。
如图2-图5所示,为本发明方法及其对比方法下获取的分类结果,从分类结果可知,本发明的预测准确率高于其它模型。
上述案例用来解释说明本发明的有效性和可行性,本发明的重点在于使用对比学习方法进行特征解耦,将多尺度特征融合后进行特征图重建。但对比学习的实现方法,Encoder编码器不限于实施案例中的固定网络结构。再使用自注意力机制建立上下文信息之间的关系。
引入自注意力机制的思想是为了解决了常规多实例学习问题不关注上下文信息而导致的模型性能不佳、缺乏可解释性,泛化性能差,而非针对某一个具体案例,更不是对本发明进行限制。在本发明的精神和权利要求保护范围内,未对本发明做出的任何修改或改进,都将受到本发明的保护范围限制。
Claims (7)
1.一种融合多尺度特征上下文的全视野数字切片图像分类方法,其特征在于,包括:
S1、收集一批原始全视野数字切片图像WSI;
S2、对S1收集到的原始全视野数字切片图像WSI在不同放大倍率下进行滑动窗口切分处理,同时进行归一化处理,并根据设定的阈值确定是否保存该张补丁图像tile,最终获得每张全视野数字切片图像WSI对应的多组补丁图像tile;
S3、对S2获得的多组不同分辨率的补丁图像tile,分别使用自监督对比学习方法训练对应的补丁特征提取模型,所述提取模型对不同类别的补丁图像tile具有良好的特征解耦能力;
S4、对S2预处理后的补丁图像tile,按照分辨率分组,分别输入到S3获得的对应分辨率下的特征提取模型,提取所有补丁图像tile的特征,并进行存储;
S5、将S4提取到的不同分辨率下的多个特征使用金字塔特征融合方法进行特征融合,获得不同分辨率下补丁图像tile特征融合后的特征数据;
S6、以全视野数字切片图像为单位,对S5得到的tile特征数据进行数据集的划分;将全视野数字切片图像WSI进行随机划分,并将划分的结果进行保存,其训练集Dtrn用于分类模型的训练,验证集Dval用于模型效果的验证,训练集和验证集包含每个全视野数字切片图像WSI对应的所有补丁图像tile;
S7、在数据加载阶段,将S6中的补丁图像tile按照其在全视野数字切片图像WSI中的位置进行还原,获得新的图像表示WSI',并对WSI’进行中心裁切、补充操作,进行尺寸归一化;
S8、将S7中获得的图像表示WSI'按照Dtrn和Dval的不同,分别输入到具有自注意力机制的模型中,通过自注意力机制获得输入WSI'在补丁图像tile层面上下文信息的权重;该权重会对模型的预测过程以及分类结果产生影响,从而获得最终的输出;其中Dtrn用于该模型的训练,Dval在每批次中验证模型的性能,并保存在Dval获得最佳性能的参数作为模型最终的参数。
2.根据权利要求1所述的基于融合多尺度特征上下文的全视野数字切片图像分类方法,其特征在于:所述S2中对每张全视野数字切片图像WSI进行滑动窗口切分处理,包括以下步骤:
S2.1、获取原始全视野数字切片图像WSI在不同放大倍率下的图像尺寸w和h;其中,w和h分别为指定放大倍率下图像的宽度和长度;
S2.2、针对获取到的指定放大倍率下的图像尺寸,进行窗口滑动次数计算:
式(1.1)中,winw表示窗口宽度,Nw为窗口横向滑动次数,且做向下取整处理;
式(1.2)中,winh表示窗口长度,Nh为窗口纵向滑动次数,且做向下取整处理;
S2.3、针对S2.2计算得到的每个窗口,在滑动切分时判断窗口内组织是否达到保存补丁图像tile的阈值,达到则进行归一化处理并保存,否则丢弃。
3.根据权利要求1所述的基于融合多尺度特征上下文的全视野数字切片图像分类方法,其特征在于:所述S3中的补丁特征提取模型构建方法,包括以下步骤:
S3.1、针对S3中所述的对比学习,其实现方式使用SimCLR框架;SimCLR框架首先对输入的补丁图像tile进行数据增强,然后将同一批次内的原始图像与增强数据作为输入数据,同时输入到SimCLR框架的Encoder中进行编码,获得原始图像与增强数据的特征表示hi,hj,而后通过两个Projection Head对hi,hj继续进行特征表示,得到zi,zj;
zi=g(hi)=W(2)σ(W(1)hi) (1.3)
式(1.3)中,hi是Encoder输出的特征表示,W(1)、W(2)分别两个可学习的参数层,σ为非线性激活函数ReLU,g()是Projection Head,zi是原始图像的最终特征表示;
S3.2、针对S3.1中所述的最终特征表示zi,zj,使用最大化相似度损失函数
式(1.5)中,zi是原始图像的最终特征表示,zj是增强图像的特征表示,zk是其他不相关图像的特征表示,τ是一个用来缩放输入的可调参数,N代表批次大小;i,j,k分别代表批次N中的第i个图像,通过图像i获得的增强图像j,以及批次中其他不相关图像k;
S3.3、针对S3.1中所述的数据增强方式的具体实现为:使用pytorch深度学习框架中的torchvision深度学习包中的transforms.ColorJitter()方法随机改变图像的亮度、对比度、饱和度和色调;transforms.RandomGrayscale()方法按照指定的概率将图像进行灰度化;transforms.Resize()方法将图像缩放到网络输入需要的大小;GaussianBlur()方法对图像进行高斯模糊;transforms.RandomHorizontalFlip()方法将图像随机裁剪到网络输入需要的大小;
S3.4、针对S3.1中所述的Encoder使用去除分类器部分的EfficientNet V2 Small神经网络,以S3.2中损失函数的值作为该模型的评价指标,选在在验证集上损失最低的参数进行保存,并将该参数作为S4中的预训练权重进行加载,使用该权重提取补丁图像tile的特征。
4.根据权利要求1中所述的基于融合多尺度特征上下文的全视野数字切片图像分类方法,其特征在于:针对S4中获得的不同分辨率下的补丁图像tile的特征,使用向量进行表示,向量的尺寸根据需要进行指定,记作dim。
5.根据权利要求1中所述的基于融合多尺度特征上下文的全视野数字切片图像分类方法,其特征在于:针对S5中对不同分辨率下的所有补丁图像tile进行融合的具体方法为:根据低倍率补丁图像tile的位置编号来查询与其对应的高倍率下的所有补丁图像tile,通过内积运算获得权重,将低倍率的补丁图像tile与权重相乘,并将结果与对应高倍率补丁图像相加,获得新的特征表示new_tile;
new_tile=(<low_tile,high_tile>×low_tile)+high_tile (1.5)
式(1.5)中,low_tile表示低倍分辨率下的补丁图像tile,high_tile表示高倍分辨率下的补丁图像tile,new_tile仍是以向量进行表示,其尺寸大小与high_tile的尺寸相同。
6.根据权利要求1中所述的基于融合多尺度特征上下文的全视野数字切片图像分类方法,其特征在于:针对S7中的获得新图像表示WSI'、并进行中心裁剪、补充、尺寸归一化操作,包括以下步骤:
S7.1、对于每个WSI进行特征融合之后的得到的补丁图像new_tile,逐个进行编号读取,获得其在高放大倍率全视野数字切片图像下的最大行编号max_r、列编号max_c;根据最大行列编号生成一个空张量WSI',该张量的形状为(max_r,max_c,dim),将new_tile根据编号填充在WSI'的对应位置;
S7.2、对于S7中的尺寸归一化,其具体实现方法:将S7.1中获得的新的特征表示WSI'按照固定尺寸进行中心裁剪;依据选定尺寸大小进行,不足该尺寸的WSI'在外围进行填充,填充值为0,填充尺寸是实际尺寸与选定尺寸的差值,从而获得最终的特征表示WSI'。
7.根据权利要求1中所述的基于融合多尺度特征上下文的全视野数字切片图像分类方法,其特征在于:采用准确率ACC、敏感度SEN、特异度SPE作为模型预测性能的评价指标,三个指标取值均在0-1之间,越接近1表示性能越好;
所述分类准确率ACC:
式(1.6)中,TP表示正类预测为正类的样本数;TN负类预测为负类的样本数;FP表示负类预测为正类的样本数;FN表示正类预测为负类的样本数;
召回率:分类正确的正样本,占所有正样本的比例;
特异度SPE:分类正确的负样本,占所有负样本的比例;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310453144.1A CN116486156A (zh) | 2023-04-25 | 2023-04-25 | 融合多尺度特征上下文的全视野数字切片图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310453144.1A CN116486156A (zh) | 2023-04-25 | 2023-04-25 | 融合多尺度特征上下文的全视野数字切片图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116486156A true CN116486156A (zh) | 2023-07-25 |
Family
ID=87226461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310453144.1A Pending CN116486156A (zh) | 2023-04-25 | 2023-04-25 | 融合多尺度特征上下文的全视野数字切片图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486156A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593557A (zh) * | 2023-09-27 | 2024-02-23 | 北京邮电大学 | 一种基于Transformer模型的细粒度生物图像分类方法 |
-
2023
- 2023-04-25 CN CN202310453144.1A patent/CN116486156A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593557A (zh) * | 2023-09-27 | 2024-02-23 | 北京邮电大学 | 一种基于Transformer模型的细粒度生物图像分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111784671B (zh) | 基于多尺度深度学习的病理图像病灶区域检测方法 | |
CN108268870B (zh) | 基于对抗学习的多尺度特征融合超声图像语义分割方法 | |
CN108629772A (zh) | 图像处理方法及装置、计算机设备和计算机存储介质 | |
CN113782190B (zh) | 基于多级时空特征和混合注意力网络的图像处理方法 | |
JP7427080B2 (ja) | 細胞検出およびセグメンテーションのための弱教師ありマルチタスク学習 | |
CN110991254B (zh) | 超声图像视频分类预测方法及系统 | |
CN114494296A (zh) | 一种基于Unet和Transformer相融合的脑部胶质瘤分割方法与系统 | |
CN114693933A (zh) | 基于生成对抗网络和多尺度特征融合的医学影像分割装置 | |
Wazir et al. | HistoSeg: Quick attention with multi-loss function for multi-structure segmentation in digital histology images | |
CN111444844A (zh) | 一种基于变分自编码器的液基细胞人工智能检测方法 | |
CN113393469A (zh) | 基于循环残差卷积神经网络的医学图像分割方法和装置 | |
CN114596317A (zh) | 一种基于深度学习的ct影像全心脏分割方法 | |
CN112381846A (zh) | 一种基于非对称网络的超声甲状腺结节分割方法 | |
CN114445356A (zh) | 基于多分辨率的全视野病理切片图像肿瘤快速定位方法 | |
CN116486156A (zh) | 融合多尺度特征上下文的全视野数字切片图像分类方法 | |
WO2023014789A1 (en) | System and method for pathology image analysis using a trained neural network and active learning framework | |
CN116664590B (zh) | 基于动态对比增强磁共振图像的自动分割方法及装置 | |
CN116958693A (zh) | 图像分析方法、装置、设备、存储介质和程序产品 | |
CN116433654A (zh) | 一种改进的U-Net网络实现脊柱整体分割方法 | |
CN116091763A (zh) | 苹果叶部病害图像语义分割系统及分割方法、设备和介质 | |
CN114565617A (zh) | 基于剪枝U-Net++的乳腺肿块图像分割方法及系统 | |
CN116563524B (zh) | 一种基于多视觉记忆单元的扫视路径预测方法 | |
CN114596319B (zh) | 基于Boosting-Unet分割网络的医学影像分割方法 | |
WO2024016691A1 (zh) | 一种图像检索方法、模型训练方法、装置及存储介质 | |
CN116309385B (zh) | 基于弱监督学习的腹部脂肪与肌肉组织测量方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |