CN116486156A

CN116486156A - 融合多尺度特征上下文的全视野数字切片图像分类方法

Info

Publication number: CN116486156A
Application number: CN202310453144.1A
Authority: CN
Inventors: 金怀平; 周泓宇; 陶海波; 李振辉; 王彬
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-07-25

Abstract

本发明公开了一种融合多尺度特征上下文的全视野数字切片图像分类方法。针对全视野数字图像尺寸大、多级分辨率、特征提取困难导致的常规分类方法准确率欠佳等问题，本发明结合对比学习、多尺度特征，自注意力机制从而获得一个效果较好的全视野数字图像分类模型。首先将收集到的全视野数字图像进行不同分辨率下的切分，得到尺寸统一且信息含量低的切片。其次使用对比学习针对不同分辨率下获得的切片分别训练一个具有特征解耦能力的特征提取网络，进行特征提取。进一步融合获得的多尺度特征，并进行特征图重构，作为网络的输入。最后使用带有自注意力机制的网络，获得输入数据的上下文信息，从而提高特征的全局表示能力，使得预测结果更加准确。

Description

融合多尺度特征上下文的全视野数字切片图像分类方法

技术领域

本发明涉及计算机视觉领域、医疗数据分析挖掘领域，尤其涉及基于融合多尺度特征上下文的全视野数字切片图像分类方法。

背景技术

近年来，随着深度学习(deep learning，DL)技术的发展，各种模态的图像分类模型被接连提出。卷积神经网络、循环神经网络也已经被广泛引入医学图像分析领域，并且在常规医学图像，例如CT、MRI上等已经取得较好的效果。随着数字影像设备的发展，全视野数字切片技术开始取代传统的玻璃切片，成为获取组织病理图像的主流选择。数字病理切片具有以下特点：尺寸大、信息量高、含有多级分辨率，这些特点虽然为组织环境提供了详细、清楚的表示，但也给临床医生阅片带来了诸多不便，同时也为深度学习方法在全视野数字病理切片上的应用造成一定限制。例如，医生阅片效率低、阅片一致性差等，尺寸大、多级分辨率等导致难以像自然图像一样输入神经网络进行端到端的训练。因此通常将全视野数字切片切分为指定像素大小补丁图像tile，一张全视野数字切片图像通常可以获得数千张乃至数万张的补丁图像tile。但全视野数字切片图像的标签往往只有单一的临床诊断标签，没有逐像素标注的ROI勾画标签。所以，使用补丁图像进行全视野数字切片图像分类的问题通常被转换为基于多实例学习的弱监督问题。虽然多实例学习能够对全视野数字切片图像进行分类，但通常会忽略不同补丁图像tile之间的关系；并且没有利用多级分辨率的特征，因此训练过程存在一定信息冗余、特征融合困难，模型难以收敛；分类准确率并不理想；分类结果缺乏可解释性。

发明内容

针对现有技术的不足，本发明提供了一种融合多尺度特征上下文的全视野数字切片图像分类方法，以用于获取全视野数字切片图像的分类模型。

本发明的技术方案是：一种融合多尺度特征上下文的全视野数字切片图像分类方法，包括：

S1、收集一批原始全视野数字切片图像(whole slide image，WSI)；

S2、对S1收集到的原始全视野数字切片图像WSI在不同放大倍率下分别进行滑动窗口切分处理，同时进行归一化处理，并根据设定的阈值确定是否保存该张补丁图像tile，最终获得每张全视野数字切片图像WSI对应的多组补丁图像tile；

S3、对S2获得的多组不同分辨率的补丁图像tile，分别使用自监督对比学习方法训练对应的补丁特征提取模型，所述提取模型对不同类别的补丁图像tile具有良好的特征解耦能力。

S4、对S2预处理后的补丁图像tile，按照分辨率分组，分别输入到S3获得的对应分辨率下的特征提取模型，提取所有补丁图像tile的特征，并进行存储。

S5、将S4提取到的不同分辨率下的多个特征使用金字塔特征融合方法进行特征融合，获得不同分辨率下补丁图像tile特征融合后的特征数据。

S6、以全视野数字切片图像为单位，对S5得到的tile特征数据进行数据集的划分。将全视野数字切片图像WSI进行随机划分，并将划分的结果进行保存，其训练集D_trn用于分类模型的训练，验证集D_val用于模型效果的验证，训练集和验证集包含每个全视野数字切片图像WSI对应的所有补丁图像tile。

S7、在数据加载阶段，将S6中的补丁图像tile按照其在全视野数字切片图像WSI中的位置进行还原，获得新的图像表示WSI′，并对WSI′进行中心裁切、补充操作，进行尺寸归一化。

S8、将S7中获得的图像表示WSI′按照D_trn和D_val的不同，分别输入到具有自注意力机制的模型中，通过自注意力机制获得输入WSI′在补丁图像tile层面上下文信息的权重。该权重会对模型的预测过程以及分类结果产生影响，从而获得最终的输出。其中D_trn用于该模型的训练，D_val在每批次中验证模型的性能，并保存在D_val获得最佳性能的参数作为模型最终的参数。

所述S2中对每张全视野数字切片图像WSI进行滑动窗口切分处理，包括：

S2.1、获取原始全视野数字切片图像WSI在不同放大倍率下的图像尺寸w和h；其中，w和h分别为指定放大倍率下图像的宽度、长度；

S2.2、针对获取到的指定放大倍率下的图像尺寸，进行窗口滑动次数计算：

式(1.1)中，win_w表示窗口宽度，N_w为窗口横向滑动次数，且做向下取整处理；

式(1.2)中，win_h表示窗口长度，N_h为窗口纵向滑动次数，且做向下取整处理；

S2.3、针对S2.2计算得到的每个窗口，在滑动切分时判断窗口内组织是否达到保存补丁图像tile的阈值，达到则进行归一化处理并保存，否则丢弃。

所述S3中的补丁特征提取模型构建方法，包括：

S3.1、针对S3中所述的对比学习，其实现方式使用SimCLR框架。SimCLR框架首先对输入的补丁图像tile进行数据增强，然后将同一批次内的原始图像与增强数据作为输入数据，同时输入到SimCLR框架的Encoder中进行编码，获得原始图像与增强数据的特征表示h_i，h_j，而后通过两个Projection Head对h_i，h_j继续进行特征表示，得到z_i，z_j。

z_i＝g(h_i)＝W⁽²⁾σ(W⁽¹⁾h_i) (1.3)

式(1.4)中，h_i是Encoder输出的特征表示，W⁽¹⁾、W⁽²⁾分别两个可学习的参数层，σ为非线性激活函数ReLU，g()是Projection Head，z_i是原始图像的最终特征表示。

S3.2、针对S3.1中所述的最终特征表示z_i，z_j，使用最大化相似度损失函数

式(1.5)中，z_i是原始图像的最终特征表示，z_j是增强图像的特征表示，z_k是其他不相关图像的特征表示，τ是一个用来缩放输入的可调参数，N代表批次大小；i，j，k分别代表批次N中的第i个图像，通过图像i获得的增强图像j，以及批次中其他不相关图像k。

S3.3、针对S3.1中所述的数据增强方式的具体实现为使用pytorch深度学习框架中的torchvision深度学习包中的transforms.ColorJitter()方法【导入深度学习框架PyTorch中的torchvision包，使用该包中的transforms.ColorJitter()方法】随机改变图像的亮度，对比度，饱和度和色调；transforms.RandomGrayscale()方法按照指定的概率将图像进行灰度化；transforms.Resize()方法将图像缩放到网络输入需要的大小、GaussianBlur()方法对图像进行高斯模糊，transforms.RandomHorizontalFlip()方法将图像随机裁剪为网络输入需要的大小。

S3.4、针对S3.1中所述的Encoder使用去除分类器部分的EfficientNet V2 Small神经网络，以S3.2中损失函数的值作为该模型的评价指标，选在在验证集上损失最低的参数进行保存，并将该参数作为S4中的预训练权重进行加载，使用该权重提取补丁图像tile的特征。

针对S4中获得的不同分辨率下的补丁图像tile的特征，使用向量进行表示，向量的尺寸根据需要进行指定，记作dim。

针对S5中对不同分辨率下的所有补丁图像tile进行融合的具体方法为：根据低倍率补丁图像tile的位置编号来查询与其对应的高倍率下的所有补丁图像tile，通过内积运算获得权重，将低倍率的补丁图像tile与权重相乘，并将结果与对应高倍率补丁图像相加，获得新的特征表示new_tile。

new_tile＝(<low_tile，high_tile>×low_tile)+high_tile (1.5)式(1.5)中，low_tile表示低倍分辨率下的补丁图像tile，high_tile表示高倍分辨率下的补丁图像tile，new_tile仍是以向量进行表示，其尺寸大小与high_tile的尺寸相同。

针对S7中的获得新图像表示WSI′、并进行中心裁剪、补充、尺寸归一化操作，包括：

S7.1、对于每个WSI进行特征融合之后的得到的补丁图像new_tile，逐个进行编号读取，获得其在20倍放大倍率全视野数字切片图像下的最大行编号max_r、列编号max_c。根据最大行列编号生成一个空张量WSI’，该张量的形状为(max_r，max_c，dim)，将new_tile根据编号填充在WSI’的对应位置。

S7.2、对于S7中的尺寸归一化，其具体实现方法：将S7.1中获得的新的特征表示WSI′按照固定尺寸进行中心裁剪。依据选定尺寸大小进行，不足该尺寸的WSI’在外围进行填充，填充值为0，填充尺寸是实际尺寸与选定尺寸的差值，从而获得最终的特征表示WSI’。

高低倍率的放大范围在不同的数据上并不相同，但可以通过使用openslide包中的level_demensions方法获得所有缩放层级，以缩放层级的中位数为分界。一般来说本发明中放大倍率小于等于10倍时，认为是低倍率；大于10倍时是高倍率。

本发明的有益效果是：考虑到常规预测方法采用单一分辨率、补丁图像tile间无关联导致模型准确率低且泛化性不佳等问题，本发明首先采用自监督对比学习方法，针对无专家标注ROI区域的全视野数字切片图像WSI训练了一个补丁图像tile特征提取网络，对不同含有不同组织的补丁图像tile进行特征解耦。而后在不同尺度的放大倍率下应用该模型，获得具有差异化的tile级别特征。通过引入金字塔特征融合方法，结合特征图重构思想使获得的结果更具有解释性。使用自注意力机制，融合不同tile之间的上下文信息进行最终结果预测，以降低问题的复杂度，提高模型鲁棒性、可解释性和预测精度。

附图说明

图1是本发明中的流程图；

图2是针对对比学习的消融实验分类结果混淆矩阵图；

图3是针对特征融合的消融实验分类结果混淆矩阵图；

图4是针对上下文的消融实验分类结果混淆矩阵图；

图5是本发明的分类结果混淆矩阵图。

具体实施方式

下面结合附图和实施例，对发明做进一步的说明，但本发明的内容并不限于所述范围。

实施例1

一种基于上下文关联的全视野数字图像多尺度切片分类建模方法，包括：

S1、收集一批原始全视野数字切片图像(whole slide image，WSI)；

S2、对S1收集到的原始全视野数字切片图像WSI在5倍和20倍分辨率下进行滑动窗口切分处理，同时进行归一化处理，并根据设定的阈值确定是否保存该张补丁图像tile，最终获得每张全视野数字切片图像WSI对应的两组补丁图像tile；

S3、对S2获得的两组不同分辨率的补丁图像tile，分别使用自监督对比学习方法训练对应的补丁特征提取模型，该模型对不同类别的补丁图像tile具有良好的特征解耦能力

S5、将S4提取到的5倍分辨率下的特征和该特征对应的20倍分辨率下的多个特征使用金字塔特征融合方法进行特征融合，获得不同分辨率下补丁图像tile特征融合后的特征数据。

可选地，所述S2中对每张全视野数字切片图像WSI进行滑动窗口切分处理，包括：

S2.1、使用openslide-python开源包对全视野数字切片图像进行处理，openslide-python包是openslide这个C语言库的python接口，该库能够实现对全视野数字切片的处理。使用该包中的DeepZoomGenerator生成全视野数字切片图像的对象，调用level_demensions方法，并在参数中传入指定的缩放层级获取对应的分辨率下的图像尺寸。本实例使用的全视野数字切片最大分辨率为40×，因此20×放大倍率、5×放大倍率下分别对应的层级为L_all-1，L_all-3。获得的图像尺寸以w和h进行返回，分别为指定放大倍率下图像的宽度、长度；

S2.3、针对S2.2计算得到的每个窗口，在滑动切分时判断窗口内组织是否达到保存补丁图像tile的阈值，达到则进行归一化处理并保存为png格式的图片，否则丢弃。

可选地，所述S3中的补丁特征提取模型构建过程如下：

S3.1、针对S3中所述的对比学习，其实现方式使用SimCLR框架。首先将收集到的全视野数字切片图像按照8∶2划分为训练集D_contra-train和验证集D_contra-val。将划分后的数据集输入到SimCLR框架中，该框架首先对输入的补丁图像tile进行数据增强，然后将同一批次内的原始图像与增强数据作为输入数据，同时输入到SimCLR框架的Encoder中进行编码，获得原始图像与增强数据的特征表示h_i，h_j，而后通过两个Projection Head对h_i，h_j继续进行特征表示，得到z_i，z_j。

z_i＝g(h_i)＝W⁽²⁾σ(W⁽¹⁾h_i) (1.3)

式(1.3)中，h_i是Encoder输出的特征表示，W⁽¹⁾、W⁽²⁾分别两个可学习的参数层，σ为非线性激活函数ReLU，g()是Projection Head，z_i是原始图像的最终特征表示；

式(1.4)中，z_i是原始图像的最终特征表示，z_j是增强图像的特征表示，z_k是其他不相关图像的特征表示，τ是一个用来缩放输入的可调参数，N代表批次大小。

S3.3、针对S3.1中所述的数据增强方式的具体实现为使用pytorch深度学习框架中的torchvision深度学习包中的transforms.ColorJitter()方法随机改变图像的亮度，对比度，饱和度和色调；transforms.RandomGrayscale()方法随机将图像转换为概率为0.2的灰度；transforms.Resize()方法将图像缩放到224×224大小、GaussianBlur()方法对图像进行高斯模糊，transforms.RandomHorizontalFlip()方法将图像随机裁剪为224×224大小。

可选地，所述S4中获得的不同分辨率下的补丁图像tile的特征，使用向量进行表示，向量的尺寸均为1×1280。

可选地，所述S5中对不同分辨率下的所有补丁图像tile进行融合的具体方法为：根据5倍分辨率下补丁图像tile的位置编号来查询与其对应的20倍分辨率下的所有补丁图像tile。通过内积运算获得权重，将5倍分辨率的补丁图像tile与权重相乘，并将结果与20倍补丁图像相加，获得新的特征表示new_tile。

new_tile＝(<tile_5，tile_20>×tile_5)+tile_20 (1.5)

式(1.5)中，tile_5表示5倍分辨率下的补丁图像tile，tile_20表示20倍分辨率下的补丁图像tile。new_tile仍是以向量进行表示，其尺寸大小与tile_20的尺寸相同。所有操作均使用python的numpy包完成。

可选地，所述S7中的获得新图像表示WSI′、并进行中心裁剪、补充、尺寸归一化操作，包括：

S7.1、对于每个WSI进行特征融合之后的得到的补丁图像new_tile，逐个进行编号读取，使用str.split()对文件名进行分割，获得其在20倍放大倍率全视野数字切片图像下的最大行编号max_r、列编号max_c。根据最大行列编号生成一个空张量WSI′，该张量的形状为(max_r，max_c，1280)，将new_tile根据编号填充在WSI′的对应位置。

S7.2、对于S7中的尺寸归一化，其具体实现方法：将S7.1中获得的新的特征表示WSI′按照固定尺寸进行中心裁剪。选定尺寸大小为48×48，不足该尺寸的WSI′在外围进行填充，填充值为0，填充尺寸是实际尺寸与选定尺寸的差值，从而获得最终的特征表示WSI′。

可选地，S8中所述的具有自注意力机制的模型结构参照Vision TransformerBase，在输入channel上进行更改，与WSI′进行匹配。

传统的基于多实例的学习方法，通常可以分为两类。一种是每轮只选取得分较高的实例参与训练，该方法的缺点在于每次参与训练的数据太少，故需要大量的训练数据才能获得较好的结果。另一种是认为每个实例是独立同分布的单独个体，虽然该方法相比第一种参与训练的数据大量增加，但是忽略了不同实例之间的相关性，没有将实例本身的全局空间信息考虑在内。自注意力机制虽然能够计算所有实例之间的相关性，但其首先被在自然语言处理中提出，并不能应用到计算机视觉领域。而Vision Transformer提出很好的解决了这个问题，Vision Transformer主要由三部分组成，分别是Patch+PositionEmbedding、Transformer Encoder，MLP Head。其中，输入图像首先被Linear Projectionof Flattened Patches切分，经过投射后成为嵌入向量token，便于添加位置编码。其次，通过Transformer Encoder模块，使用多头自注意力机制进行不同token之间的上下文信息权重计算。最后，通过一个简单的MLP，对含有上下文权重信息的特征进行计算，获得最终分类结果。

式(1.6)为Vision Transformer的整体流程。a式中的x_class是类别令牌，为输入图像P裁切出的第N个patch，E是线性层，E_pos代表位置编码，z₀代表当前网络的原始输入；b式中z′₁是第l个transformer block中多头自注意力机制的输出；c式中z₁是第l个transformer block中多层感知机的输出。d式中y是通过最后一个transformer block的输出中类别令牌的/>的预测结果。

式(1.7)中式(a)Attention(Q，K，V)为注意力查询，Q、K、V查询矩阵、键矩阵、值矩阵，是放缩值；式(b)为多头注意力机制，head_h代表第h个头的输出，W^O是变换矩阵；式(c)是对式b中每个head的补充说明，其中Q、K、V与式(a)中的含义不变，W_i ^Q，W_i ^K，W_i ^V分别是对应的变换矩阵。

在训练过程中，损失函数使用分类模型经典的交叉熵损失函数；优化器选择AdamW优化器，其实现简单，计算高效；在验证部分，保存分类准确率最高的模型。

所述分类准确率(accuracy，ACC)：

式(1.8)中，TP表示正类预测为正类的样本数；TN负类预测为负类的样本数；FP表示负类预测为正类的样本数；FN表示正类预测为负类的样本数。

召回率(recall)：分类正确的正样本，占所有正样本的比例。

特异度(specificity，SPE)：分类正确的负样本，占所有负样本的比例。

实施例2：如图1所示，下面对本发明一种可选的具体方式进行详细说明。

第一步：收集肿瘤医院胃癌患者HE染色的全视野数字病理切片图像(Whole SlideImage，WSI)，其格式为svs格式，每张大小在2GB到4GB不等；数据标签为临床诊断标签，没有逐像素的ROI勾画标签。

第二步：针对svs格式的WSI，利用Python的openslide软件包对每位患者的原始WSI进行滑动窗口切分处理，窗口为512x 512大小，窗口内组织阈值为15％，分别在5×、20×两级分辨率下进行，对符合要求的区域进行染色归一化等预处理，最终得到每张WSI对应的两组tile，并且5×分辨率下的每张tile又对应20×分辨率下的0～16张tile不等。

其中，利用Python中软件包openslide的DeepZoomGenerator方法获取原始全视野数字切片图像WSI的总金字塔层数、目标切分层的尺寸，而后根据设置的窗口大小计算窗口滑动次数，以切分所选目标切分层的全视野数字切片图像WSI；其中参与窗口滑动次数计算的win_w、win_h均设置为512；

第三步：针对第二步中采集的两种分辨率下的tile图像分别使用自监督对比学习框架SimCLR训练两个tile特征提取网络，保存在验证集上损失最低的权重文件，作为第四步提取tile特征的模型。

(1)其中，首先将所有的tile以全视野数字切片为单位按照8：2划分为训练集D_{contra_train}、验证集D_{contra_val}

(2)使用pytorch深度学习框架中的torchvision深度学习包中的transforms.ColorJitter()方法随机改变图像的亮度，对比度，饱和度和色调、transforms.RandomGrayscale()方法随机将图像转换为概率为0.2的灰度、transforms.Resize()方法将图像缩放到224×224大小、GaussianBlur()方法对图像进行高斯模糊，transforms.RandomHorizontalFlip()方法将图像随机裁剪为224×224大小；对于验证集D_val只进行transforms.Resize将图像尺寸统一到224x224。

(3)选择去除分类器部分的EfficientNet V2 Small作为SimCLR的Encoder。EfficientNetV2是EfficientNet系列的最新版本，其针对V1版本中存在的诸多问题提出了改进。采用渐进学习方法，该方法会根据训练图像的尺寸动态调节正则化方法，其训练速度更快、参数量更少，模型的准确率更高。并且使用了神经网络结构搜索NAS技术去搜索MBConv和Fused-MBConv的最佳组合，解决在浅层中使用深度可分离卷积过慢的问题。

(4)使用(3)中获得的针对20×、5×分辨率的EfficientNet V2 Small权重对20×、5×分辨率下的补丁图像tile进行特征提取，并将获得的特征分别进行保存。其中，EfficientNet V2 Small仅使用特征提取器部分，其提取到的补丁图像特征向量尺寸为4×1280。本实例对该特征向量进行降维，使用pytorch提供的自适应平均池化层进行池化，池化后的特征向量尺寸为1×1280，将该尺寸的特征向量进行保存，保存形式为字典。字典的键为保存的补丁图像的名称，值为从该名称对应补丁图像中提取到的1×1280特征向量的值。

第四步：读取第三步(4)中获得的所有特征向量，进行特征融合。将属于同一个全视野数字切片图像的不同分辨率下的特征进行记录，对于5×放大下的特征向量通过命名编号查找其对应的20×下的特征向量。将两组特征向量进行内积，计算相似度权重。再将该相似度权重与5×特征向量相乘，结果与20×特征向量进行相加，从而获得不同分辨率特征融合后的特征向量，并将该向量进行保存。具体公式如实施例2中的式(1.1)所示，

new_tile＝(<tile_5，tile-20>×tile_5)+tile-20 (1.1)

其中，new_tile为进行特征融合之后的新特征，tile_5，tile_20分别是第四步在5×分辨率下与20×分辨率下保存的特征向量。

将保存的所有补丁图像特征向量，按照全视野数字切片图像WSI名称划分数据集，70％作为下游任务的训练集D_train，30％作为下游任务的验证集D_val。

第五步：在数据加载Dataset阶段，以全视野数字切片图像WSI为单位，将所有进行特征融合之后的特征向量进行特征图重建，以达到模拟自然图像进行输入的效果。具体操作为自定义数据加载类My_Dataset继承pytorch的torch.utils.data.dataset类，实现数据加载功能。对于每个WSI进行特征融合之后的得到的补丁图像new_tile，逐个进行编号读取，使用str.split()方法获得其在20倍放大倍率全视野数字切片图像下的最大行编号max_r、列编号max_c。根据最大行列编号生成一个空张量WSI′，该张量的形状为(max_r，max_c，1280)，将new_tile根据编号填充在WSI′的对应位置。该张量，将作为新的特征图输入到下游模块中，实现分类结果的获得。

第六步：在模型训练和验证阶段，将第五步中获得数据按照训练集与验证集的不同分别输入到对应的模型中，获得模型预测输出。然后使用验证集D_val，验证每批次训练中模型的性能，选择出在D_val上性能最好的参数作为分类模型的参数，并且画出模型分类结果的混淆矩阵，并计算模型的ACC、SEN、SPE。

保存在验证集上准确率最佳结果的模型，从而获得融合多尺度特征上下文的全视野数字切片图像分类模型。其中，实验主要超参数设置为epoch＝500，优化器选择AdamW优化器，学习率大小为2e-4，权重衰退为1e-4，不使用自动调整学习率策略。以训练集数据D_train为例，数据在Vision Transformer Base模型中的流动首先经过Linear ProjectionofFlattened Patches切分，此处切分patches大小为16×16。经过投射后成为便于添加位置编码的嵌入向量token，以及添加一个可学习的class token用于后续模块进行分类概率预测。其次，通过Transformer Encoder模块，使用多头自注意力机制进行不同token之间的上下文信息权重计算，多头自注意力机制的实现公式如式1.19所示。最后，通过一个简单的多层感知机，对含有上下文权重信息的特征进行计算，并根据class token进行预测，从而获得最终的分类预测结果。

上述方法适用于基于融合多尺度特征上下文的全视野数字切片图像分类方法的构建，本实施例结合某肿瘤医院胃癌患者HE染色的全视野数字病理切片图像验证本发明的有效性。该批数据共包含123张WSI原始图像，其中85个作为训练集，38个作为验证集，其格式均为svs格式，每张大小在2GB到4GB不等。

本发明实施案例采用准确率ACC、敏感度SEN、特异度SPE作为模型预测性能的评价指标，所述三个指标计算公式已在实施例1的公式(1.8)到(1.10)中给出，三个指标取值均在0-1之间，越接近1表示性能越好。

表1本方法消融实验的胃癌复发预测性能评价对比

根据表1可以看出，本发明提出的分类方法与自身进行消融实验后的方法相比，本发明提出的基于融合多尺度特征上下文的全视野数字切片图像分类方法性能更佳，且每个模块均对准确率的提升起到作用。不但通过对比学习对特征差异较小的补丁图像tile进行特征解耦，大大降低了训练的复杂度；还考虑到全视野数字切片图像的多尺度特征，模仿病理医生诊断过程，融合多尺度的特征加快了模型的收敛速度，提高了模型的准确率；并重构特征图，结合自注意力机制获取补丁图像tile之间的上下文信息，提高模型鲁棒性、可解释性和预测精度，本发明充分体现出了自身的优势。

如图2-图5所示，为本发明方法及其对比方法下获取的分类结果，从分类结果可知，本发明的预测准确率高于其它模型。

上述案例用来解释说明本发明的有效性和可行性，本发明的重点在于使用对比学习方法进行特征解耦，将多尺度特征融合后进行特征图重建。但对比学习的实现方法，Encoder编码器不限于实施案例中的固定网络结构。再使用自注意力机制建立上下文信息之间的关系。

引入自注意力机制的思想是为了解决了常规多实例学习问题不关注上下文信息而导致的模型性能不佳、缺乏可解释性，泛化性能差，而非针对某一个具体案例，更不是对本发明进行限制。在本发明的精神和权利要求保护范围内，未对本发明做出的任何修改或改进，都将受到本发明的保护范围限制。

Claims

1.一种融合多尺度特征上下文的全视野数字切片图像分类方法，其特征在于，包括：

S1、收集一批原始全视野数字切片图像WSI；

S2、对S1收集到的原始全视野数字切片图像WSI在不同放大倍率下进行滑动窗口切分处理，同时进行归一化处理，并根据设定的阈值确定是否保存该张补丁图像tile，最终获得每张全视野数字切片图像WSI对应的多组补丁图像tile；

S3、对S2获得的多组不同分辨率的补丁图像tile，分别使用自监督对比学习方法训练对应的补丁特征提取模型，所述提取模型对不同类别的补丁图像tile具有良好的特征解耦能力；

S4、对S2预处理后的补丁图像tile，按照分辨率分组，分别输入到S3获得的对应分辨率下的特征提取模型，提取所有补丁图像tile的特征，并进行存储；

S5、将S4提取到的不同分辨率下的多个特征使用金字塔特征融合方法进行特征融合，获得不同分辨率下补丁图像tile特征融合后的特征数据；

S6、以全视野数字切片图像为单位，对S5得到的tile特征数据进行数据集的划分；将全视野数字切片图像WSI进行随机划分，并将划分的结果进行保存，其训练集D_trn用于分类模型的训练，验证集D_val用于模型效果的验证，训练集和验证集包含每个全视野数字切片图像WSI对应的所有补丁图像tile；

S7、在数据加载阶段，将S6中的补丁图像tile按照其在全视野数字切片图像WSI中的位置进行还原，获得新的图像表示WSI'，并对WSI’进行中心裁切、补充操作，进行尺寸归一化；

S8、将S7中获得的图像表示WSI'按照D_trn和D_val的不同，分别输入到具有自注意力机制的模型中，通过自注意力机制获得输入WSI'在补丁图像tile层面上下文信息的权重；该权重会对模型的预测过程以及分类结果产生影响，从而获得最终的输出；其中D_trn用于该模型的训练，D_val在每批次中验证模型的性能，并保存在D_val获得最佳性能的参数作为模型最终的参数。

2.根据权利要求1所述的基于融合多尺度特征上下文的全视野数字切片图像分类方法，其特征在于：所述S2中对每张全视野数字切片图像WSI进行滑动窗口切分处理，包括以下步骤：

S2.1、获取原始全视野数字切片图像WSI在不同放大倍率下的图像尺寸w和h；其中，w和h分别为指定放大倍率下图像的宽度和长度；

3.根据权利要求1所述的基于融合多尺度特征上下文的全视野数字切片图像分类方法，其特征在于：所述S3中的补丁特征提取模型构建方法，包括以下步骤：

S3.1、针对S3中所述的对比学习，其实现方式使用SimCLR框架；SimCLR框架首先对输入的补丁图像tile进行数据增强，然后将同一批次内的原始图像与增强数据作为输入数据，同时输入到SimCLR框架的Encoder中进行编码，获得原始图像与增强数据的特征表示h_i,h_j，而后通过两个Projection Head对h_i,h_j继续进行特征表示，得到z_i,z_j；

z_i＝g(h_i)＝W⁽²⁾σ(W⁽¹⁾h_i) (1.3)

S3.2、针对S3.1中所述的最终特征表示z_i,z_j，使用最大化相似度损失函数

式(1.5)中，z_i是原始图像的最终特征表示，z_j是增强图像的特征表示，z_k是其他不相关图像的特征表示，τ是一个用来缩放输入的可调参数，N代表批次大小；i,j,k分别代表批次N中的第i个图像，通过图像i获得的增强图像j，以及批次中其他不相关图像k；

S3.3、针对S3.1中所述的数据增强方式的具体实现为：使用pytorch深度学习框架中的torchvision深度学习包中的transforms.ColorJitter()方法随机改变图像的亮度、对比度、饱和度和色调；transforms.RandomGrayscale()方法按照指定的概率将图像进行灰度化；transforms.Resize()方法将图像缩放到网络输入需要的大小；GaussianBlur()方法对图像进行高斯模糊；transforms.RandomHorizontalFlip()方法将图像随机裁剪到网络输入需要的大小；

4.根据权利要求1中所述的基于融合多尺度特征上下文的全视野数字切片图像分类方法，其特征在于：针对S4中获得的不同分辨率下的补丁图像tile的特征，使用向量进行表示，向量的尺寸根据需要进行指定，记作dim。

5.根据权利要求1中所述的基于融合多尺度特征上下文的全视野数字切片图像分类方法，其特征在于：针对S5中对不同分辨率下的所有补丁图像tile进行融合的具体方法为：根据低倍率补丁图像tile的位置编号来查询与其对应的高倍率下的所有补丁图像tile，通过内积运算获得权重，将低倍率的补丁图像tile与权重相乘，并将结果与对应高倍率补丁图像相加，获得新的特征表示new_tile；

new_tile＝(＜low_tile,high_tile＞×low_tile)+high_tile (1.5)

式(1.5)中，low_tile表示低倍分辨率下的补丁图像tile，high_tile表示高倍分辨率下的补丁图像tile，new_tile仍是以向量进行表示，其尺寸大小与high_tile的尺寸相同。

6.根据权利要求1中所述的基于融合多尺度特征上下文的全视野数字切片图像分类方法，其特征在于：针对S7中的获得新图像表示WSI'、并进行中心裁剪、补充、尺寸归一化操作，包括以下步骤：

S7.1、对于每个WSI进行特征融合之后的得到的补丁图像new_tile，逐个进行编号读取，获得其在高放大倍率全视野数字切片图像下的最大行编号max_r、列编号max_c；根据最大行列编号生成一个空张量WSI'，该张量的形状为(max_r，max_c，dim)，将new_tile根据编号填充在WSI'的对应位置；

S7.2、对于S7中的尺寸归一化，其具体实现方法：将S7.1中获得的新的特征表示WSI'按照固定尺寸进行中心裁剪；依据选定尺寸大小进行，不足该尺寸的WSI'在外围进行填充，填充值为0，填充尺寸是实际尺寸与选定尺寸的差值，从而获得最终的特征表示WSI'。

7.根据权利要求1中所述的基于融合多尺度特征上下文的全视野数字切片图像分类方法，其特征在于：采用准确率ACC、敏感度SEN、特异度SPE作为模型预测性能的评价指标，三个指标取值均在0-1之间，越接近1表示性能越好；

所述分类准确率ACC：

式(1.6)中，TP表示正类预测为正类的样本数；TN负类预测为负类的样本数；FP表示负类预测为正类的样本数；FN表示正类预测为负类的样本数；

召回率：分类正确的正样本，占所有正样本的比例；

特异度SPE：分类正确的负样本，占所有负样本的比例；