CN117541844A

CN117541844A - 一种基于超图学习的弱监督组织病理学全切片图像分析方法

Info

Publication number: CN117541844A
Application number: CN202311255102.3A
Authority: CN
Inventors: 史骏; 束童; 孙东东; 丁须扬; 徐子豪; 夏思敏
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-02-09

Abstract

本发明属于组织病理学全切片图像分析技术领域，具体涉及一种基于超图学习的弱监督组织病理学全切片图像分析方法，其步骤包括：获取具有图像级别标签的组织病理学全切片图像数据集并进行分块预处理；训练基于自监督学习的分块图像编码器；建立全切片图像样本的超图模型；建立基于超图学习的深度网络模型；使用带弱标签的超图模型样本数据集离线训练网络模型；利用训练好的模型对组织病理学全切片图像进行预测，完成全切片图像的分类以及切片各区域的病变概率可视化。本发明能克服组织病理学全切片图像数据详细标注难以获取的不足，并使用弱监督方法有效完成切片图像级的分类以及局部组织区域的病变概率可视化。

Description

一种基于超图学习的弱监督组织病理学全切片图像分析方法

技术领域

本发明属于组织病理学全切片图像分析技术领域，具体涉及一种基于超图学习的弱监督组织病理学全切片图像分析方法。

背景技术

传统的组织病理学全切片图像分析为专业的病理医生在显微镜下查看全切片图像，找到一些感兴趣视野后，用病理学专业知识对视野下的组织形态进行分析，最终得出切片级别的病变诊断结论。此传统方法存在诸多问题，医院出于对诊断精度的考量，医生每天阅片的数量是有限的，而随着癌症筛查的推广，病理医生缺口正在增大，医生的阅片压力大；同时，病理学全切片分析的正确率和阅片医生的经验有很大关系，也会受到当时阅片医生的主观看法及身体疲劳状态的影响。而随着计算机技术的发展，结合计算机与人工智能方法辅助医生进行病理全切片的分析将成为趋势，将有助于缓解病理医生的工作压力，提高诊断质量，有着广阔的应用前景。

近年来，随着切片扫描仪技术、计算机硬件和人工智能算法的不断发展改进，深度学习在图像处理方面的发展，尤其是识别与分类上，越发高效，图卷积神经网络在图像处理方面的应用也越发广泛，同时由于其构图策略的灵活性以及高效性，它在病理图像分类中也展现出了强大的竞争力。使用基于图卷积神经网络的深度学习方法进行医学病理图像分类，不仅能减轻医学工作者的负担，也能提高诊断效率，提高广大人民的医疗健康水平。

然而，目前深度学习相关的病理图像分析的主流方法是基于完全监督的，需要专业的病理医生对海量的病理图像数据进行细粒度的标注，费时费力，同时样本的类别也极度不平衡，很大一部分的样本是阴性的，对于最终分析结果的贡献十分有限。

发明内容

本发明的目的就在于提供一种基于超图学习的弱监督组织病理学全切片图像分析方法，以期能快速准确的实现组织病理学全切片图像分类以及局部组织区域的病变概率可视化，并克服病理全切片图像详细标注信息的难获取等问题。

本发明通过以下技术方案来实现上述目的：

一种基于超图学习的弱监督组织病理学全切片图像分析方法，包括如下步骤：

步骤1、获取带有图像类别标签的组织病理学全切片图像数据集D并进行预处理得到分块后的全切片图像B_i，其中/>表示第i张全切片图像中的第j个分块图像，/>表示对应的第i张全切片图像中第j个分块图像所在位置的中心坐标，n表示第i张全切片图像中划分出的分块图像的总数；

步骤2、训练基于自监督学习的分块图像编码器f，并将所述全切片图像B_i输入分块图像编码器f中，为每个分块图像生成d维的特征向量并输出编码后的全切片图像/>

步骤3、根据所述编码后的全切片图像B_i建立超边并以此构建其对应的超图模型/> 其中，/>M表示超边的数量；

步骤4、建立深度网络模型，将所述超图模型作为样本输入深度网络模型中进行训练，最终生成切片级别的预测P_i和分块图像的预测p_i，根据网络模块启用程度的不同，生成掩码重建后的超图/>

步骤5、将所述所述P_i和所述p_i代入预先构建的损失函数中，分别计算节点重建的损失值、整体分类损失值和局部分类损失值，将所述损失值加权后反向传播训练所述深度网络模型，得到优化后基于超图学习的深度网络模型，将待分析全切片图像输入到基于超图学习的深度网络模型中，以输出全切片图像的分类以及局部组织区域的病变概率可视化。

作为本发明的进一步优化方案，步骤1中具体包括：

步骤1.1、获取带有图像类别标签的组织病理学图像数据集：

D＝{(B₁,Y₁),(B₂,Y₂),...,(B_i,Y_i),...,(B_N,Y_N)}，其中，B_i表示第i张组织病理学全切片样本图像，Y_i表示对应地第i张组织病理学全切片图像的类别标签，N表示数据集中图像样本的数目；

步骤1.2、将获取的全切片图像数据集按照不重叠滑窗法划分为若干固定尺寸的分块图像，并在去除没有组织出现的背景分块图像后得到分块后的全切片样本图像

作为本发明的进一步优化方案，超图模型中超边的建立分为三个子步骤：建立特征空间上的超边、建立几何空间相关的超边以及超边堆叠，最终表示为其中，M表示超边的数量。

作为本发明的进一步优化方案，步骤4中，所述深度网络模型由掩码模块、节点特征学习模块、训练时超图增强模块以及切片级别特征聚合模块组成。

作为本发明的进一步优化方案，所述掩码模块在网络训练时有p％概率启用，启用时随机对样本超图模型中的r_mask％的节点进行遮掩，使用一个可学习的参数向量替换被遮掩节点的属性，掩码后的样本超图模型表示为

作为本发明的进一步优化方案，所述节点特征学习模块由两个超图卷积层和两个线性层组成；样本超图模型作为节点特征学习模块的输入，输出包含两部分，分别作为训练时超图增强模块的输入/>和切片级别特征聚合模块的输入/>

作为本发明的进一步优化方案，所述训练时超图增强模块包含一个超图卷积层和一个线性层，训练时超图增强模块仅会在掩码模块启用时同步启用，对输入中被掩码节点的属性进行重建，得到/>

作为本发明的进一步优化方案，所述切片级别特征聚合模块包含一个层数可调节的多头注意力模块、一个层归一化模块还有两个线性层；

切片级别特征聚合模块的输入在处理前与参数向量T_cls进行拼接，再输入多头注意力模块进行节点属性之前长距离的信息交换,得到的输出中T_cls对应部分的特征向量作为切片级别的分类特征，而其余部分则用于判断切片局部区域病变概率的预测特征；

切片级别的分类特征和切片局部区域病变概率的预测特征输入全连接层组成的多层感知机分类器中分类，得到切片级别的预测P_i∈R^1×C和分块图像的预测p_i∈R^n×C，C为类别标签的总数。

作为本发明的进一步优化方案，步骤5中，将所述损失值加权所述超图模型后输入深度网络模型中进行训练，得到优化后基于超图学习的深度网络模型，包括：

利用式(1)、式(2)以及式(3)所示的损失函数分别得到掩码节点重建损失值全切片图像分类的损失值/>以及分块图像分类的损失值/>利用三个所述损失值加权后反向传播训练整个基于超图学习的深度网络模型；

其中运算符||·||表示矩阵范数，表示掩码节点的数量；

其中表示分块图像对应的标签。

本发明的有益效果在于：

(1)本发明能够使用切片级别的粗粒度标注信息实现组织病理学全切片图像分类以及细胞分类，不依赖细粒度的病变区域标注信息，提高了网络模型在实际应用场景中分析的高效性与有效性；

(2)本发明利用超图模型，实现对单张组织学病理全切片图像的有效建模，结合特征空间和几何空间等多个视角，解决了其他基于深度学习的全切片分析方法中尺度单一的问题，能够更好地表达全切片的特征表示，提高分类准确率；

(3)本发明设计了独特的训练时超图增强模块及其配套的掩码模块，能够在样本数量受限的情况下提升深度网络的学习能力，和超图卷积网络相结合后，可以提升方法的分类准确率和泛化能力；

(4)本发明利用自注意力(Self Attention)机制建立超图节点(即分块图像)之前的长距离信息通路，使得节点之间的交流更加高效，同时让网络模型可以自适应地关注病变区域，最终获得更具辨识度的全切片分类特征及分块图像预测特征，不仅能为医生提供全切片级别的类别预测结果，而且可以可视化地标识全切片中病变概率较高的局部组织区域，提高了临床应用价值。

附图说明

图1为本发明中分析方法的流程图；

图2为本发明的超图学习弱监督网络模型图；

图3为本发明的组织病理学全切片图像训练样本图。

具体实施方式

下面结合附图对本申请作进一步详细描述，有必要在此指出的是，以下具体实施方式只用于对本申请进行进一步的说明，不能理解为对本申请保护范围的限制，该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。

实施例1

如图1-3所示，本实施方式中提出一种基于超图学习的弱监督组织病理学全切片图像分析方法，主要利用超图结构建模全切片图像各分块图像之间的关系，结合超图卷积网络，构建图像间的信息通路，再结合使用自注意力机制进行超图节点间全局的信息融合，实现组织病理学全切片图像的分类和局部组织区域的病变概率可视化，包括如下步骤：

步骤1.1：获取带有图像类别标签的组织病理学图像数据集：

结合图3，本实施例中使用的数据针对肺癌中的非小细胞癌，其包含三类全切片图像：550张阴性(Neg)、467张肺腺癌(LUAD)、477张肺鳞癌(LUSC)，由全切片划分成的分块图像大小为256×256，所有数据的标签均有专业的病理医生确认，所有数据的70％作为训练集，30％数据用于测试。

步骤2、训练基于自监督学习的分块图像编码器f，并将所述全切片图像B_i输入分块图像编码器f中，为每个分块图像生成d维的特征向量并输出编码后的全切片图像/>本实施例中使用的自监督学习训练框架为DINO，分块图像编码器f选用ViT-S，编码得到的特征向量维数dim＝384，训练样本为训练集全切片图像中采样的分块图像。

建立全切片图像样本数据集的超图模型定义全切片图像中每一个分块图像为超图模型中的一个节点，节点属性定义为分块图像经过编码器f所得的特征向量e；超图模型中超边用关联矩阵/>表示，其中M表示超边的数量，关联矩阵中的1表示对应节点包含在对应超边中；超图模型中超边的建立分为三个子步骤：建立特征空间上的超边、建立几何空间相关的超边、超边堆叠。

步骤3.1、建立特征空间上的超边：对数据集D中所有全切片样本中所有的分块图像特征进行全局KMeans聚类，将特征空间分为K＝100个子空间，对每个全切片图像样本来说，所有落在同一个特征子空间内的分块节点视为由同一个超边连接，称此类超边为特征超边

步骤3.2、建立几何空间相关的超边：对每个全切片图像样本来说，首先基于以下公式计算每个分块节点相对于其他节点的基于分块所在位置的中心坐标的相似度，基于这个度量对每个分块节点进行分层聚类(Hierarchical clustering)，最终落在同一个聚类簇中分块节点视为由同一个超边相连，称此类超边为空间超边M_s对于每一个全切片样本都不相同，其具体数值可以由一个参与分层聚类的阈值超参数h_d＝0.8控制，h_d越大，每个空间超边中的节点越多，相应的空间超边的总数M_s越小；

k(I^a,I^b)＝exp(-λ_e||e^a-e^b||)exp(-λ_c||c^a-c^b||)

步骤3.3、超边堆叠：将上述建立的两类超边堆叠，结合超图节点的定义，共同组成了全切片图像样本的超图模型。

步骤4、建立深度网络模型，所述深度网络模型由掩码模块、节点特征学习模块、训练时超图增强模块、切片级别特征聚合模块共四个模块组成；将所述超图模型作为样本输入深度网络模型中进行训练，最终生成切片级别的预测P_i和分块图像的预测p_i，根据网络模块启用程度的不同，也会生成掩码重建后的超图/>其中/>参与后续计算节点特征重建损失；

步骤4.1、所述掩码模块在网络训练时有p％概率启用，启用时随机对样本超图模型中的r_mask％的节点进行遮掩，使用一个可学习的参数向量替换被遮掩节点的属性，掩码后的样本超图模型表示为

本实施例中p＝0.75，r_mask＝0.9。

步骤4.2、节点特征学习模块由两个超图卷积层和两个线性层组成；样本超图模型(掩码模块启用时为掩码后的超图模型/>)作为模块的输入，输出包含两部分，分别作为训练时超图增强模块的输入/>和切片级别特征聚合模块的输入/>本实施例中的超图卷积层不改变特征的维数，但超图卷积层后的线性层会将384维特征映射到512维，故/>

步骤4.3、训练时超图增强模块包含一个超图卷积层和一个线性层，训练时超图增强模块仅会在掩码模块启用时同步启用，对输入中被掩码节点的属性进行重建，得到在重建后的节点属性与掩码前的节点属性之间计算损失。本实施例中此模块不改变特征维数，即/>且损失计算只发生在掩码节点上，未掩码节点不参与损失的计算。

步骤4.4、切片级别特征聚合模块包含一个层数可调节的多头注意力模块、一个层归一化模块还有两个线性层；切片级别特征聚合模块的输入在处理前与参数向量T_cls进行拼接，再输入多头注意力模块进行节点属性之前长距离的信息交换,得到的输出中T_cls对应部分的特征向量作为切片级别的分类特征，而其余部分则用于判断切片局部区域病变概率的预测特征；两类特征输入全连接层组成的多层感知机分类器中分类，得到切片级别的预测P_i∈R^1×C和分块图像的预测p_i∈R^n×C，C为类别标签的总数。随后参与损失计算；本实施例中多头注意力模块的计算流程如下列公式所示：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W_O

Q＝XW_Q,K＝XW_K,V＝XW_V

X＝Concat(V”,T_cls)

其中W_Q、W_K、W_V、W_O均为可学习的权重矩阵，d为输入特征的维数512，h为头的个数8；层归一化模块不改变特征维数，即输入线性分类器前的特征维数仍为512，最终输出的预测结果中C取3。

步骤5中，将所述损失值加权所述超图模型后输入深度网络模型中进行训练，得到优化后基于超图学习的深度网络模型，包括：

利用式(1)、式(2)以及式(3)所示的损失函数分别得到掩码重建超图增强损失值全切片图像分类的损失值/>(对应整体分类损失)以及分块图像分类的损失值(对应局部分类损失)，利用三个损失值加权后反向传播训练整个基于超图学习的深度网络模型；

其中运算符||·||表示矩阵范数，表示掩码节点的数量；

其中表示分块图像对应的标签。

本实施例中，分块图像的伪标签沿用它所属的全切片标签，即y_i,j＝Y_i，j[1,n]。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于超图学习的弱监督组织病理学全切片图像分析方法，其特征在于，包括如下步骤：

步骤3、根据所述编码后的全切片图像B_i建立超边并以此构建其对应的超图模型其中，/>M表示超边的数量；

2.根据权利要求1所述的一种基于超图学习的弱监督组织病理学全切片图像分析方法，其特征在于：步骤1中具体包括：

步骤1.1、获取带有图像类别标签的组织病理学图像数据集：

3.根据权利要求1所述的一种基于超图学习的弱监督组织病理学全切片图像分析方法，其特征在于：超图模型中超边的建立分为三个子步骤：建立特征空间上的超边、建立几何空间相关的超边以及超边堆叠，最终表示为/>其中，M表示超边的数量。

4.根据权利要求1所述的一种基于超图学习的弱监督组织病理学全切片图像分析方法，其特征在于：步骤4中，所述深度网络模型由掩码模块、节点特征学习模块、训练时超图增强模块以及切片级别特征聚合模块组成。

5.根据权利要求4所述的一种基于超图学习的弱监督组织病理学全切片图像分析方法，其特征在于：所述掩码模块在网络训练时有p％概率启用，启用时随机对样本超图模型中的r_mask％的节点进行遮掩，使用一个可学习的参数向量替换被遮掩节点的属性，掩码后的样本超图模型表示为

6.根据权利要求5所述的一种基于超图学习的弱监督组织病理学全切片图像分析方法，其特征在于：所述节点特征学习模块由两个超图卷积层和两个线性层组成；样本超图模型作为节点特征学习模块的输入，输出包含两部分，分别作为训练时超图增强模块的输入/>和切片级别特征聚合模块的输入/>

7.根据权利要求6所述的一种基于超图学习的弱监督组织病理学全切片图像分析方法，其特征在于：所述训练时超图增强模块包含一个超图卷积层和一个线性层，训练时超图增强模块仅会在掩码模块启用时同步启用，对输入中被掩码节点的属性进行重建，得到

8.根据权利要求4所述的一种基于超图学习的弱监督组织病理学全切片图像分析方法，其特征在于：所述切片级别特征聚合模块包含一个层数可调节的多头注意力模块、一个层归一化模块还有两个线性层；

9.根据权利要求1所述的一种基于超图学习的弱监督组织病理学全切片图像分析方法，其特征在于：步骤5中，将所述损失值加权后反向传播训练深度网络模型，得到优化后基于超图学习的深度网络模型，包括：

其中运算符||·||表示矩阵范数，表示掩码节点的数量；

其中表示分块图像对应的标签。