CN114511523A

CN114511523A - 基于自监督学习的胃癌分子亚型分类方法及装置

Info

Publication number: CN114511523A
Application number: CN202210072251.5A
Authority: CN
Inventors: 王瑞轩; 张灏桓
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-05-17

Abstract

本发明公开了基于自监督学习的胃癌分子亚型分类方法及装置，方法包括下述步骤：获取胃癌病理图像测试集；对所述胃癌病理图像测试集中的胃癌测试病理图像分别进行预处理得到测试图像块集；将所述胃癌测试图像块根据放大倍数输入到对应的训练好的特征提取器中，得到初始测试特征向量集；对得到的胃癌测试图像块特征进行融合，输入到训练好的多层感知机分类模型中得到所述胃癌测试图像块集分类结果；对所述测试图像块集分类结果根据所属胃癌病理图像进行结合，得到所述胃癌病理图像测试集胃癌分子亚型分类结果。本发明能够充分利用病理图像的多尺度信息以及切割成图像块后图像块周围区域特征信息，同时利用其他大量无标签病理图像数据帮助提高模型性能。

Description

基于自监督学习的胃癌分子亚型分类方法及装置

技术领域

本发明涉及计算机视觉的技术领域，具体涉及一种基于自监督学习的胃癌病理图像分子亚型分类方法及装置。

背景技术

胃癌是全球癌症致死率第四高的肿瘤。肿瘤基因组图谱(TCGA)将胃癌分成4个亚型：EB病毒(EBV)阳性肿瘤、微卫星不稳定(MSI)肿瘤、基因组稳定(GS)肿瘤和染色体不稳定(CIN)肿瘤。其中对于不同类型的胃癌，使用对应的的不同治疗方法会有较好的预后，因此在临床上医生希望能够识别出具体肿瘤亚型，从而制定更好的治疗方案。全切片病理图像(WSI)中包含一些病理学家可以识别的形态学特征，如淋巴细胞的聚集、癌细胞的形态结构变化等。资深的病理学家通过观察全切片病理图像可以比较准确地对肿瘤进行分子分型。然而，一位有经验的病理学家的培养需要耗费大量的时间和金钱。因此，我们希望能够借助深度学习算法快速对肿瘤亚型进行分类，帮助病理学家提高视觉诊断的准确性。

目前的深度学习算法在医学图像领域得到了广泛的应用。然而，一个表现较好的深度学习模型往往需要对应任务下的大规模标注数据进行训练。而对于特定任务下数据不足的情况，通常可以借助自监督学习在一定程度上解决问题。自监督学习是指通过设计辅助任务的方式，从大量的无标签数据中挖掘数据中蕴含的信息，从而学习到对下游任务有用的表征。同时，由于现有计算资源的限制，深度学习模型对输入的图像大小有比较严格的限制。

现有的深度学习算法往往会导致病理图像部分特征信息和多尺度信息的丢失。通常情况下，病理图像的尺寸都比较大，且病理图像存储时会存储不同放大倍数下的图像。对此，常用的做法是在固定放大倍数下将病理图像裁剪成图像块后逐块输入到模型中。然而这样的处理会使得不同的图像块之间的连续性被破坏，导致了图像块的周围特征信息出现损失，也没有充分利用病理图像的多尺度信息。同时，目前公开的有标签胃癌数据集中病理图像数量较少，单独用这些数据训练得到的深度学习模型表现欠佳。现有的自监督学习算法都只能输入较小尺寸的图像，同样存在没有充分利用病理图像部分特征信息的问题。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于自监督学习的胃癌病理图像分子亚型分类方法及装置，本发明能够充分利用病理图像的多尺度信息以及切割成图像块后图像块周围区域特征信息，同时利用其他大量无标签病理图像数据帮助提高模型性能。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面提供了基于自监督学习的胃癌分子亚型分类方法，包括下述步骤：

获取胃癌病理图像测试集；所述胃癌病理图像测试集包括多张胃癌病理图像以及对应的癌症勾画区域；

对所述胃癌病理图像测试集中的胃癌测试病理图像分别进行预处理得到测试图像块集；所述预处理为在病理图像中按照一定的步长选取一系列的切割中心点，根据肿瘤勾画区域筛选出在肿瘤区域中的中心点，在多个不同放大倍数下分别以上述切割中心点将病理图像切割成指定大小的胃癌测试图像块；

将所述胃癌测试图像块根据放大倍数输入到对应的训练好的特征提取器中，得到初始测试特征向量集；所述特征提取器采用卷积神经网络；所述初始测试特征向量集由多个放大倍数下的图像块特征组成；

在所述初始测试特征向量集中，对不同放大倍数下有着相同切割中心点切割得到的胃癌测试图像块特征进行融合，输入到训练好的多层感知机分类模型中得到所述胃癌测试图像块集分类结果；

对所述测试图像块集分类结果根据所属胃癌病理图像进行结合，得到所述胃癌病理图像测试集胃癌分子亚型分类结果。

一种可能的实现方式中，所述训练好的特征提取器的构建方式为：

获取无标签病理图像数据集；所述无标签病理图像训练集由多张无标签病理图像组成；

对所述无标签病理图像数据集中的无标签病理图像分别进行预处理得到无标签图像块集；所述预处理为确定一个放大倍数，对每张无标签病理图像上按照一定的步长选取一系列的切割中心点，在所述放大倍数下分别以上述切割中心点将病理图像切割成指定大小的无标签小图像块；所述无标签小图像块中，剔除掉背景白色区域中的图像块，剩下的为无标签图像块集；所述步长与放大倍数成正比；

构建特征提取网络模型；所述特征提取网络模型由一个特征提取器和一个映射头部组成；所述特征提取器是卷积神经网络；所述映射头部是由多个全连接层组成的多层感知机；

将所述无标签病理图像数据集输进特征提取网络模型中，使用一种适用于病理图像的自监督方法进行训练，得到训练好的特征提取网络模型；

去除所述训练好的特征提取网络模型的映射头部，得到训练好的特征提取器；所述训练好的特征提取器为所述确定的放大倍数下的特征提取器，根据选取放大倍数的不同得到多个不同放大倍数下的特征提取器。

一种可能的实现方式中，所述使用一种适用于病理图像的自监督方法进行训练，具体为：

对于每个无标签病理图像块，根据其在原病理图像图中的位置，在所述无标签病理图像数据集选取其8邻域中随机一个图像块组成正样本对，分别对所述两个图像块各自做图像增后输入到提取网络训练模型得到两个特征向量，计算特征向量之间的距离，使用对比损失函数作为第一目标函数进行训练，得到训练好的特征提取网络模型；所述第一目标函数用于提升正样本对之间的相似度；

或者，假设在无标签病理图像预处理的过程中有肿瘤勾画区域，则可以根据图像块切割中心点是否在肿瘤勾画区域中将无标签图像块集分为无标签肿瘤图像块集以及无标签正常图像块数据集；由于我们更关注肿瘤的形态学特征，因此可以让肿瘤图像块的对比学习难度大于正常图像块；对于每个无标签肿瘤病理图像块，根据其在原病理图像图中的位置，在所述无标签病理图像数据集选取其8邻域中随机一个图像块组成正样本对；对于正常图像块，采取自身图像块组成正样本对；分别对所述两个图像块各自做图像增强后输入到提取网络训练模型得到两个特征向量，计算特征向量之间的距离，使用对比损失函数作为第一目标函数进行训练，得到训练好的特征提取网络模型；所述第一目标函数用于提升正样本对之间的相似度。

一种可能的实现方式中，所述训练好的多层感知机分类模型的构建方式为：

获取有标签胃癌病理图像训练集；所述有标签胃癌病理图像训练集包括多张有胃癌亚型标签的胃癌病理图像以及对应的癌症勾画区域；

对所述有标签胃癌病理图像训练集中的有标签胃癌病理图像分别进行预处理得到有标签胃癌训练图像块集；所述预处理为在病理图像中按照一定的步长选取一系列的切割中心点，根据肿瘤勾画区域筛选出在肿瘤区域中的中心点，在多个不同放大倍数下分别以上述切割中心点将病理图像切割成指定大小的有标签胃癌图像块；所述有标签胃癌图像块的标签为其对应胃癌病理图像的标签；

将所述有标签胃癌训练图像块根据放大倍数输入到对应的训练好的特征提取器中，得到初始训练特征向量集；所述初始训练特征向量集由多个放大倍数下的有标签胃癌图像块特征组成；

在所述初始训练特征向量集中，对不同放大倍数下有着相同切割中心点切割得到的图像块特征进行融合，得到融合训练特征向量集；

将所述融合训练特征向量集输入到多层感知机分类模型中得到所述有标签训练图像块集分类结果，计算所述融合训练特征向量集分类结果和所述有标签胃癌图像块的标签之间的交叉熵损失作为第二目标函数，根据第二目标函数训练得到训练好的多层感知机分类模型；第二目标函数用于提升所述有标签训练图像块集分类结果与所述有标签胃癌图像块的标签之间的相似度。

本发明另一方面提供了基于自监督学习的胃癌分子亚型分类装置，包括测试集获取单元、测试集预处理单元、测试图像块特征提取单元、测试图像块肿瘤亚型分类单元及病理图像肿瘤亚型分类单元；

所述测试集获取单元，用于获取胃癌病理图像测试集；所述胃癌病理图像测试集包括多张胃癌病理图像以及对应的癌症勾画区域；

所述测试集预处理单元，用于对所述胃癌病理图像测试集中的胃癌测试病理图像分别进行预处理得到测试图像块集；所述预处理为在病理图像中按照一定的步长选取一系列的切割中心点，根据肿瘤勾画区域筛选出在肿瘤区域中的中心点，在多个不同放大倍数下分别以上述切割中心点将病理图像切割成指定大小的胃癌测试图像块；

所述测试图像块特征提取单元，用于将所述胃癌测试图像块根据放大倍数输入到对应的训练好的特征提取器中，得到初始测试特征向量集；所述特征提取器采用卷积神经网络；所述初始测试特征向量集由多个放大倍数下的图像块特征组成；

所述测试图像块肿瘤亚型分类单元，用于在所述初始测试特征向量集中，对不同放大倍数下有着相同切割中心点切割得到的胃癌测试图像块特征进行融合，输入到训练好的多层感知机分类模型中得到所述胃癌测试图像块集分类结果；

所述病理图像肿瘤亚型分类单元，用于对所述测试图像块集分类结果根据所属胃癌病理图像进行结合，得到所述胃癌病理图像测试集胃癌分子亚型分类结果。

一种可能的实现方式中，所述装置还包括第一训练单元，用于确定所述训练好的特征提取器；所述第一训练单元具体包括：

第一训练集获取单元，用于获取无标签病理图像数据集；所述无标签病理图像训练集由多张无标签病理图像组成；

第一训练集预处理单元，用于对所述无标签病理图像数据集中的无标签病理图像分别进行预处理得到无标签图像块集；所述预处理为确定一个放大倍数，对每张无标签病理图像上按照一定的步长选取一系列的切割中心点，在所述放大倍数下分别以上述切割中心点将病理图像切割成指定大小的无标签小图像块；所述无标签小图像块中，剔除掉背景白色区域中的图像块，剩下的为无标签图像块集；所述步长与放大倍数成正比；

特征提取网络模型构建单元，用于构建特征提取网络模型；所述特征提取网络模型由一个特征提取器和一个映射头部组成；所述特征提取器是卷积神经网络；所述映射头部是由多个全连接层组成的多层感知机；

特征提取网络模型训练单元，用于将所述无标签病理图像数据集输进特征提取网络模型中，使用一种适用于病理图像的自监督方法进行训练，得到训练好的特征提取网络模型；

特征提取器确定单元，用于去除所述训练好的特征提取网络模型的映射头部，得到训练好的特征提取器；所述训练好的特征提取器为所述确定的放大倍数下的特征提取器，根据选取放大倍数的不同得到多个不同放大倍数下的特征提取器。

一种可能的实现方式中，所述特征提取网络模型训练单元的训练方法为：

或者，假设在第一训练集预处理单元处理的过程中有肿瘤勾画区域，则可以根据图像块切割中心点是否在肿瘤勾画区域中将无标签图像块集分为无标签肿瘤图像块集以及无标签正常图像块数据集；由于我们更关注肿瘤的形态学特征，因此可以让肿瘤图像块的对比学习难度大于无标签正常图像块；对于每个无标签肿瘤病理图像块，根据其在原病理图像图中的位置，在所述无标签病理图像数据集选取其8邻域中随机一个图像块组成正样本对；对于无标签正常图像块，采取自身图像块组成正样本对；分别对所述两个图像块各自做图像增强后输入到提取网络训练模型得到两个特征向量，计算特征向量之间的距离，使用对比损失函数作为第一目标函数进行训练，得到训练好的特征提取网络模型；所述第一目标函数用于提升正样本对之间的相似度。

一种可能的实现方式中，所述装置还包括第二训练单元，用于确定所述训练好的多层感知机分类模型；所述第二训练单元，具体包括：

第二训练集获取单元，用于获取有标签胃癌病理图像训练集；所述有标签胃癌病理图像训练集包括多张有胃癌亚型标签的胃癌病理图像以及对应的癌症勾画区域；

第二训练集预处理单元，用于对所述有标签胃癌病理图像训练集中的有标签胃癌病理图像分别进行预处理得到有标签胃癌训练图像块集；所述预处理为在病理图像中按照一定的步长选取一系列的切割中心点，根据肿瘤勾画区域筛选出在肿瘤区域中的中心点，在多个不同放大倍数下分别以上述切割中心点将病理图像切割成指定大小的有标签胃癌图像块；所述有标签胃癌图像块的标签为其对应胃癌病理图像的标签；

训练图像块特征提取单元，用于将所述有标签胃癌训练图像块根据放大倍数输入到对应的训练好的特征提取器中，得到初始训练特征向量集；所述初始训练特征向量集由多个放大倍数下的有标签胃癌图像块特征组成；

训练特征提取融合单元，用于在所述初始训练特征向量集中，对不同放大倍数下有着相同切割中心点切割得到的图像块特征进行融合，得到融合训练特征向量集；

多层感知机训练单元，用于将所述融合训练特征向量集输入到多层感知机分类模型中得到所述有标签训练图像块集分类结果，计算所述融合训练特征向量集分类结果和所述有标签胃癌图像块的标签之间的交叉熵损失作为第二目标函数，根据第二目标函数训练得到训练好的多层感知机分类模型；第二目标函数用于提升所述有标签训练图像块集分类结果与所述有标签胃癌图像块的标签之间的相似度。

本发明又一方面提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序

指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的基于自监督学习的胃癌分子亚型分类方法。

本发明再一方面提供了一种计算机可读存储介质，所述程序被处理器执行时，实现所述的基于自监督学习的胃癌分子亚型分类方法。

本发明与现有技术相比，具有如下优点和有益效果：

本发明提出了一种基于自监督学习的胃癌病理图像分子亚型分类方法及装置，使用大量无标签病理图像，通过一种适用于病理图像的自监督方法训练特征提取器，提高了提取后特征向量的表达能力；同时，由于提前训练好了特征提取器，在后续任务只需要训练多层感知机，可以显著的减少有监督训练的模型大小以及缩短训练时间；通过使用一种适用于病理图像的多尺度特征融合方法，利用病理图像尺寸大、多尺度的特性帮助训练多层感知机分类模型，提高胃癌病理图像分子亚型分类准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于自监督学习的胃癌病理图像分子亚型分类方法的流程图；

图2是本发明实施例提供的训练好的特征提取器的构建过程的示意图；

图3(a)本发明实施例其中一种适用于病理图像的自监督方法进行训练的示意图；

图3(b)本发明实施例另一种适用于病理图像的自监督方法进行训练的示意图；

图4是本发明实施例训练好的多层感知机分类模型的构建过程的示意图；

图5是本发明实施例适用于病理图像的多尺度特征融合方法示意图；

图6是本发明实施例基于自监督学习的胃癌病理图像分子亚型分类装置的结构图；

图7是本发明实施例电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请中的实施例及附图，对本发明的技术方案进行清楚、完整地描述，应当理解，附图仅用于示例性说明，不能理解为对本专利的限制。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

参见图1，本实施例提供一种基于自监督学习的胃癌病理图像分子亚型分类方法，包括下述步骤：

S1：获取胃癌病理图像测试集；所述胃癌病理图像测试集包括多张胃癌病理图像以及对应的癌症勾画区域。

在本实施例中，所述胃癌病理图像是使用苏木精—伊红染色法染色得到的胃部切片病理图像。由于本实施例关注的是胃癌亚型分类，不考虑正常胃部组织，因此每张测试病理图像均带有对应的癌症勾画区域，用于预处理得到胃部肿瘤图像块。

S2：对所述胃癌病理图像测试集中的胃癌测试病理图像分别进行预处理得到测试图像块集；所述预处理为在病理图像中按照一定的步长选取一系列的切割中心点，根据肿瘤勾画区域筛选出在肿瘤区域中的中心点，在多个不同放大倍数下分别以上述切割中心点将病理图像切割成指定大小的胃癌测试图像块。

在本实施例中，通过步骤S1得到的胃癌病理图像测试集中每张胃癌测试病理图像的尺寸都比较大，无法直接输入到深度学习模型中，因此需要对胃癌测试病理图像进行预处理。由于S3中需要用到多个放大倍数下的测试特征向量，因此所述预处理会在多个放大倍数下进行，比如10倍、5倍、2.5倍。为了保证在不同放大倍数下得到的测试图像块数量一致，其中预处理是根据病理图像的放大倍数选定一个对应的步长，选取一系列的切割中心点，比如放大倍数为10倍时，步长为256；放大倍数为5倍时，步长为128；放大倍数为2.5倍时，步长为64。根据病理学家提供的肿瘤勾画区域，筛选出在区域内的切割中心点分别切割固定大小的胃癌测试图像块，如256×256。通过预处理，可以得到多个放大倍数下的测试图像块集。需要说明的是，放大倍数的数量和倍数选择可根据具体情况而定，本实施例并不进行限定，比如可以是三个倍数，10倍、5倍、2.5倍，等。

S3：所述胃癌测试图像块根据放大倍数输入到对应的训练好的特征提取器中，得到初始测试特征向量集；所述特征提取器采用卷积神经网络；所述初始测试特征向量集由多个放大倍数下的图像块特征组成。

本实施例中将对所述训练好的特征提取器的构建过程进行介绍，如图2所示，该图展示了本实施例提供的训练好的特征提取器的构建过程的示意图，包括以下5个步骤201-步骤205：

步骤201：获取无标签病理图像数据集；所述无标签病理图像训练集由多张无标签病理图像组成。

在本实施例中，为了构建一个性能较好的特征提取器，需要准备大量的相关无标签病理图像作为训练样本。需要说明的是这里的相关无标签病理图像的获取方式和种类可根据具体情况而定，本实施例并不进行限定，比如可以从公开的数据集中获得或者与从相关医院病人数据获得，除了胃癌图像也可以选择加入其他肿瘤病理图像进行训练。

步骤202：对所述无标签病理图像数据集中的无标签病理图像分别进行预处理得到无标签图像块集；所述预处理为确定一个放大倍数，对每张无标签病理图像上按照一定的步长选取一系列的切割中心点，在所述放大倍数下分别以上述切割中心点将病理图像切割成指定大小的无标签小图像块；所述无标签小图像块中，剔除掉背景白色区域中的图像块，剩下的为无标签图像块集；所述步长与放大倍数成正比。

在本实施例中，通过步骤201得到的无标签病理图像数据集后，进一步需要将无标签病理图像进行处理才能继续执行后续的步骤。预处理首先根据需要确定放大倍数、步长、切割尺寸，对每张无标签病理图像上按照所选步长选取一系列的切割中心点，在所选放大倍数下分别以上述切割中心点将病理图像切割成指定大小的无标签小图像块。由于病理图像存在切片组织外的空白背景区域，因此需要设定一个颜色阈值，计算切割中心点周围区域的RGB平均值，并判断是否超过阈值进行背景区域图像块的剔除。需要说明的是这里的放大倍数、步长、切割尺寸、周围区域大小、颜色阈值的取值可根据具体情况而定，本实施例并不进行限定。

具体来讲，一种可选的实现方式是对每张无标签病理图像上按照步长256选取一系列的切割中心点，在10倍、5倍、2.5倍的放大倍数下分别以上述切割中心点将病理图像切割成256×256的无标签小图像块。对每个10倍放大倍数下的无标签小图像块，计算其256×256×3的RBG颜色均值，若大于220(纯白色为255)，则判定为背景区域，丢弃其及其切割中心点对应的5倍、2.5倍放大倍数下的图像块，剩余的图像块构成无标签图像块集。

步骤203：构建特征提取网络模型；所述特征提取网络模型由一个特征提取器和一个映射头部组成；所述特征提取器是卷积神经网络；所述映射头部是由多个全连接层组成的多层感知机。

在本实施例中，需要构建一个特征提取网络模型并利用步骤202得到的无标签图像块集进行训练。特征提取网络模型由一个特征提取器和一个映射头部组成，特征提取器是卷积神经网络，映射头部是由多个全连接层组成的多层感知机。需要说明的是这里的特征提取器和映射头部的结构可根据具体情况而定，本实施例并不进行限定。

具体来讲，一种可选的实现方式是使用ResNet-50作为特征提取器的网络模型，使用两层MLP模型作为映射头部，映射头部的输入维度为2048，输出维度为128。

步骤204：将所述无标签病理图像数据集输进特征提取网络模型中，使用一种适用于病理图像的自监督方法进行训练，得到训练好的特征提取网络模型。

需要说明的是，通过上述步骤202之后，一张完整的病理图像被切割成诸多小的图像块，这些图像块对应到原病理图像中有一定的位置关系，位置相邻的图像块具有更加相似的相同特征。为了充分利用一特点，本申请提出一种适用于病理图像的自监督方法进行训练。

具体的，本实施例一种可选择的实现方式是，本步骤204的具体实现过程为：

如图3(a)所示：对于每个无标签病理图像块，根据其在原病理图像图中的位置，在所述无标签病理图像数据集选取其8邻域中随机一个图像块(也可以选择自身图像块)组成正样本对，分别对所述两个图像块各自做图像增后输入到提取网络训练模型得到两个特征向量，计算特征向量之间的距离，使用对比损失函数作为第一目标函数进行训练，得到训练好的特征提取网络模型；所述第一目标函数用于提升正样本对之间的相似度。第一目标函数的具体计算公式如下：

其中i、j为互为正样本对的两个增强后的图像块；n为batch大小；z为模型输出的特征向量；T为可调节的温度超参数；exp为指数函数；cos为余弦距离函数。

进一步的，使用第一目标函数进行训练的每一轮训练过程为：将无标签图像块集随机打乱顺序；每一步从打乱后的无标签图像块集顺序采样n个图像块；对其中每个图像块，根据上述适用于病理图像的自监督方法取得n个对应的相邻图像块；对2n个图像块进行图像增强后输入特征提取网络模型，利用第一目标函数计算损失，更新模型参数提高模型提取特征的质量；所有图像块遍历一次后结束该轮训练。迭代一定轮数之后得到训练好的特征提取网络模型。对步骤202中所选放大倍数的无标签图像块集分别训练一遍，得到多个训练好的特征提取网络模型。需要说明的是这里每次采样的图像块个数、图像增强方式和迭代次数可根据具体情况而定，本实施例并不进行限定，比如采样图像块个数为128个，图像增强方式为水平翻转、垂直翻转、颜色增强、随机裁剪成224×224，迭代次数为100次等。对10倍、5倍、2.5倍放大倍数的无标签图像块集均训练一遍，得到3个训练好的特征提取网络模型。

本实施例另一种可选择的实现方式是，本步骤204的具体实现过程为：

如图3(b)所示：假设在步骤202处理的过程中有肿瘤勾画区域，则可以根据图像块切割中心点是否在肿瘤勾画区域中将无标签图像块集分为无标签肿瘤图像块集以及无标签正常图像块数据集；由于我们更关注肿瘤的形态学特征，因此可以让肿瘤图像块的对比学习难度大于无标签正常图像块；对于每个无标签肿瘤病理图像块，根据其在原病理图像图中的位置，在所述无标签病理图像数据集选取其8邻域中随机一个图像块(也可以选择自身图像块)组成正样本对；对于无标签正常图像块，采取自身图像块组成正样本对；分别对所述两个图像块各自做图像增强后输入到提取网络训练模型得到两个特征向量，计算特征向量之间的距离，使用对比损失函数作为第一目标函数进行训练，得到训练好的特征提取网络模型；所述第一目标函数用于提升正样本对之间的相似度。第一目标函数的具体计算公式如下：

进一步的，使用第一目标函数进行训练的每一轮训练过程为：将无标签图像块集随机打乱顺序；每一步从打乱后的无标签图像块集顺序采样n个图像块；对其中每个图像块，根据上述适用于病理图像的自监督方法取得n个对应的相邻图像块；对2n个图像块进行图像增强后输入特征提取网络模型，利用第一目标函数计算损失，更新模型参数提高模型提取特征的质量；所有图像块遍历一次后结束该轮训练。迭代一定轮数之后得到训练好的特征提取网络模型。对步骤202中所选放大倍数的无标签图像块集分别训练一遍，得到多个训练好的特征提取网络模型。另外，可以根据实际情况通过调整肿瘤图像块和无标签正常图像块的损失权重比，来达到更好的训练效果。需要说明的是这里每次采样的图像块个数、图像增强方式和迭代次数可根据具体情况而定，本实施例并不进行限定，比如采样图像块个数为128个，图像增强方式为水平翻转、垂直翻转、颜色增强、随机裁剪成224×224，迭代次数为100次等。对10倍、5倍、2.5倍放大倍数的无标签图像块集均训练一遍，得到3个训练好的特征提取网络模型。

步骤205：去除所述训练好的特征提取网络模型的映射头部，得到训练好的特征提取器；所述训练好的特征提取器为所述确定的放大倍数下的特征提取器，根据选取放大倍数的不同得到多个不同放大倍数下的特征提取器。

在本实施例中，去掉映射头部，我们可以得到多个放大倍数下的训练好的特征提取器。具体来讲，在此实现方式中得到3个输出为2048维的特征提取器，分别适用于10倍、5倍、2.5倍放大倍数的图像块。

S4：在所述初始测试特征向量集中，对不同放大倍数下有着相同切割中心点切割得到的胃癌测试图像块特征进行融合，输入到训练好的多层感知机分类模型中得到所述胃癌测试图像块集分类结果；

本实施例中将对所述训练好的多层感知机分类模型的构建过程进行介绍，如图4所示，该图展示了本实施例提供的训练好的多层感知机分类模型的构建过程的示意图，包括以下5个步骤401-405：

步骤401：获取有标签胃癌病理图像训练集；所述有标签胃癌病理图像训练集包括多张有胃癌亚型标签的胃癌病理图像以及对应的癌症勾画区域。

在本实施例中，通过S3得到了训练好的特征提取器，为了进一步对胃癌分子亚型进分类，需要准备大量的有标签胃癌病理图像作为分类模型的训练样本。需要说明的是这里的有标签胃癌病理图像的获取方式可根据具体情况而定，本实施例并不进行限定，比如可以从公开数据集TCGA获得等。

步骤402：对所述有标签胃癌病理图像训练集中的有标签胃癌病理图像分别进行预处理得到有标签胃癌训练图像块集；所述预处理为在病理图像中按照一定的步长选取一系列的切割中心点，根据肿瘤勾画区域筛选出在肿瘤区域中的中心点，在多个不同放大倍数下分别以上述切割中心点将病理图像切割成指定大小的有标签胃癌图像块；所述有标签胃癌图像块的标签为其对应胃癌病理图像的标签。

在本实施例中，通过步骤401得到的有标签胃癌病理图像训练集后，进一步需要将有标签胃癌病理图像进行处理才能继续执行后续的步骤。预处理首先根据需要确定放大倍数、步长、切割尺寸，对每张有标签胃癌病理图像上按照所选步长选取一系列在肿瘤勾画区域内的切割中心点，在所选放大倍数下分别以上述切割中心点将病理图像切割成指定大小的有标签胃癌训练图像块。需要说明的是这里的放大倍数、步长、切割尺寸的取值可根据具体情况而定，本实施例并不进行限定。

具体来讲，一种可选的实现方式是对每张有标签胃癌病理图像上按照步长256选取一系列在肿瘤勾画区域内的切割中心点，在10倍、5倍、2.5倍的放大倍数下分别以上述切割中心点将病理图像切割成256×256大小的有标签胃癌训练图像块。

步骤403：将所述有标签胃癌训练图像块根据放大倍数输入到对应的训练好的特征提取器中，得到初始训练特征向量集；所述初始训练特征向量集由多个放大倍数下的有标签胃癌图像块特征组成。

在本实施例中，所述训练好的特征提取器从S3获得，将有标签胃癌训练图像块根据放大倍数输入到对应的训练好的特征提取器中，输出即为初始训练特征向量集。具体的，在此实现方式中得到10倍、5倍、2.5倍放大倍数的图像块对应的初始训练特征向量集。

步骤404：在所述初始训练特征向量集中，对不同放大倍数下有着相同切割中心点切割得到的图像块特征进行融合；

需要说明的是，通过上述步骤403可以得到多个放大倍数下的初始训练特征向量集。为了充分利用病理图像多尺度的特点，本申请提出了一种适用于病理图像的多尺度特征融合方法。具体实现过程如图5所示：在所述初始训练特征向量集中，将根据一定的顺序对同一切割中心在不同放大倍数下的图像块特征向量进行拼接合并，得到融合向量。

具体来讲，一种可选的实现方式是使用有三个全连接层、两个激活层构成多层感知机分类模型，并且按照10倍、5倍、2.5倍的顺序进行特征向量拼接融合。

步骤405：将所述融合训练特征向量集输入到多层感知机分类模型中得到所述有标签训练图像块集分类结果，计算所述融合训练特征向量集分类结果和所述有标签胃癌图像块的标签之间的交叉熵损失作为第二目标函数，根据第二目标函数训练得到训练好的多层感知机分类模型；第二目标函数用于提升所述有标签训练图像块集分类结果与所述有标签胃癌图像块的标签之间的相似度。

在本实施例中，将步骤404得到的融合训练特征向量集输入到多层感知机分类模型中得到所述有标签训练图像块集分类结果。首先构建一个由多个全连接层和激活层构成的多层感知机分类模型，将所述融合训练特征向量集输入到多层感知机分类模型中得到所述有标签训练图像块集分类结果。对比有标签训练图像块集分类结果和通过步骤402得到的有标签胃癌图像块的标签，使用叉熵损失作为第二目标函数进行训练，得到训练好的多层感知机分类模型。第二目标函数的具体计算公式如下：

其中n是batch大小；m是类别总数；y为标签符号函数，当样本i的类别为c时取1，否则取0；p是模型输出的分类结果；log是对数函数。

进一步的，使用第二目标函数进行训练的每一轮训练过程为：将融合训练特征向量集随机打乱顺序；每一步从打乱后的融合训练特征向量集顺序采样n个融合训练特征向量，输入多层感知机分类模型，利用第二目标函数计算损失，更新模型参数，提高模型的分类准确率；所有融合训练特征向量遍历一次后结束该轮训练。迭代一定轮数之后得到训练好的多层感知机分类模型。需要说明的是这里的多层感知机分类模型的结构可根据具体情况而定，本实施例并不进行限定

具体来讲，一种可选的实现方式是，每一轮训练过程为：将融合训练特征向量集随机打乱顺序；每一步从打乱后的融合训练特征向量集顺序采样256个融合训练特征向量，输入多层感知机分类模型，利用第二目标函数计算损失，更新模型参数，提高模型的分类准确率；所有融合训练特征向量遍历一次后结束该轮训练。迭代100轮之后得到训练好的多层感知机分类模型。

S5：对所述测试图像块集分类结果根据所属胃癌病理图像进行结合，得到所述胃癌病理图像测试集胃癌分子亚型分类结果。

在本实施例中，由S4得到胃癌测试图像块集分类结果可以根据其所属的病理图像进行结合，进一步得到测病理图像的胃癌分子亚型结果。需要说明的是这里的结合方式可根据具体情况而定，本实施例并不进行限定。

具体来讲，一种可选的实现方式是使用求分类平均值的方法得到病理图像的胃癌分子亚型结果。

本实施例采用基于自监督学习的胃癌病理图像分子亚型分类方法，能够充分利用病理图像的多尺度信息以及切割成图像块后图像块周围区域特征信息，同时利用其他大量无标签病理图像数据帮助提高模型性能。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的基于自监督学习的胃癌分子亚型分类方法相同的思想，本发明还提供了基于自监督学习的胃癌分子亚型分类装置，该装置可用于执行上述基于自监督学习的胃癌分子亚型分类方法。为了便于说明，基于自监督学习的胃癌分子亚型分类装置实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

请参见图6，本申请另一个实施例提供了一种基于自监督学习的胃癌分子亚型分类装置，较为具体的内容可以参考上述方法实施例。该装置包括：

测试集获取单元601，用于获取胃癌病理图像测试集；所述胃癌病理图像测试集包括多张胃癌病理图像以及对应的癌症勾画区域；

测试集预处理单元602，用于对所述胃癌病理图像测试集中的胃癌测试病理图像分别进行预处理得到测试图像块集；所述预处理为在病理图像中按照一定的步长选取一系列的切割中心点，根据肿瘤勾画区域筛选出在肿瘤区域中的中心点，在多个不同放大倍数下分别以上述切割中心点将病理图像切割成指定大小的胃癌测试图像块；

测试图像块特征提取单元603，用于将所述胃癌测试图像块根据放大倍数输入到对应的训练好的特征提取器中，得到初始测试特征向量集；所述特征提取器采用卷积神经网络；所述初始测试特征向量集由多个放大倍数下的图像块特征组成；

测试图像块肿瘤亚型分类单元604，用于在所述初始测试特征向量集中，对不同放大倍数下有着相同切割中心点切割得到的胃癌测试图像块特征进行融合，输入到训练好的多层感知机分类模型中得到所述胃癌测试图像块集分类结果；

病理图像肿瘤亚型分类单元605，用于对所述测试图像块集分类结果根据所属胃癌病理图像进行结合，得到所述胃癌病理图像测试集胃癌分子亚型分类结果。

在本实施例的一种可能的实现方式中，所述装置还包括：第一训练单元，用于确定所述训练好的特征提取器；所述第一训练单元具体包括：

在本实施例的一种可能的实现方式中，所述特征提取网络模型训练单元具体包括：

提出一种适用于病理图像的自监督学习方法，训练方式为：对于每个无标签病理图像块，根据其在原病理图像图中的位置，在所述无标签病理图像数据集选取其8邻域中随机一个图像块(也可以选择自身图像块)组成正样本对，分别对所述两个图像块各自做图像增强后输入到提取网络训练模型得到两个特征向量，计算特征向量之间的距离，使用对比损失函数作为第一目标函数进行训练，得到训练好的特征提取网络模型；所述第一目标函数用于提升正样本对之间的相似度；

另一种可能的实现方式中，所述特征提取网络模型训练单元具体包括：

提出一种适用于病理图像的自监督学习方法，训练方式为：假设在第一训练集预处理单元处理的过程中有肿瘤勾画区域，则可以根据图像块切割中心点是否在肿瘤勾画区域中将无标签图像块集分为无标签肿瘤图像块集以及无标签正常图像块数据集；由于我们更关注肿瘤的形态学特征，因此可以让肿瘤图像块的对比学习难度大于无标签正常图像块；对于每个无标签肿瘤病理图像块，根据其在原病理图像图中的位置，在所述无标签病理图像数据集选取其8邻域中随机一个图像块(也可以选择自身图像块)组成正样本对；对于无标签正常图像块，采取自身图像块组成正样本对；分别对所述两个图像块各自做图像增强后输入到提取网络训练模型得到两个特征向量，计算特征向量之间的距离，使用对比损失函数作为第一目标函数进行训练，得到训练好的特征提取网络模型；所述第一目标函数用于提升正样本对之间的相似度。

在本实施例的一种可能的实现方式中，所述装置还包括第二训练单元，用于确定所述训练好的多层感知机分类模型；所述第二训练单元，具体包括：

需要说明的是，本发明的基于自监督学习的胃癌分子亚型分类装置与本发明的基于自监督学习的胃癌分子亚型分类方法一一对应，在上述基于自监督学习的胃癌分子亚型分类方法的实施例阐述的技术特征及其有益效果均适用于基于自监督学习的胃癌分子亚型分类装置的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的基于自监督学习的胃癌分子亚型分类装置的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述基于自监督学习的胃癌分子亚型分类装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

请参阅图7，在一个实施例中，提供了基于自监督学习的胃癌分子亚型分类方法的电子设备，所述电子设备700可以包括第一处理器701、第一存储器702和总线，还可以包括存储在所述第一存储器702中并可在所述第一处理器701上运行的计算机程序，如基于自监督学习的胃癌分子亚型分类程序703。

其中，所述第一存储器702至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器702在一些实施例中可以是电子设备700的内部存储单元，例如该电子设备700的移动硬盘。所述第一存储器702在另一些实施例中也可以是电子设备700的外部存储设备，例如电子设备700上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述第一存储器702还可以既包括电子设备700的内部存储单元也包括外部存储设备。所述第一存储器702不仅可以用于存储安装于电子设备700的应用软件及各类数据，例如基于自监督学习的胃癌分子亚型分类程序703的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述第一处理器701在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器701是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述第一存储器702内的程序或者模块(例如联邦学习防御程序等)，以及调用存储在所述第一存储器702内的数据，以执行电子设备700的各种功能和处理数据。

图7仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图7示出的结构并不构成对所述电子设备700的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

所述电子设备700中的所述第一存储器702存储的基于自监督学习的胃癌分子亚型分类程序703是多个指令的组合，在所述第一处理器701中运行时，可以实现：

进一步地，所述电子设备700集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于自监督学习的胃癌分子亚型分类方法，其特征在于，包括下述步骤：

2.根据权利要求1所述基于自监督学习的胃癌分子亚型分类方法，其特征在于，所述训练好的特征提取器的构建方式为：

3.根据权利要求2所述基于自监督学习的胃癌分子亚型分类方法，其特征在于，所述使用一种适用于病理图像的自监督方法进行训练，具体为：

4.根据权利要求1所述基于自监督学习的胃癌分子亚型分类方法，其特征在于，所述训练好的多层感知机分类模型的构建方式为：

5.基于自监督学习的胃癌分子亚型分类装置，其特征在于，包括测试集获取单元、测试集预处理单元、测试图像块特征提取单元、测试图像块肿瘤亚型分类单元及病理图像肿瘤亚型分类单元；

6.根据权利要求5所述基于自监督学习的胃癌分子亚型分类装置，其特征在于，所述装置还包括第一训练单元，用于确定所述训练好的特征提取器；所述第一训练单元具体包括：

7.根据权利要求6所述基于自监督学习的胃癌分子亚型分类装置，其特征在于，所述特征提取网络模型训练单元的训练方法为：

8.根据权利要求5所述基于自监督学习的胃癌分子亚型分类装置，其特征在于，所述装置还包括第二训练单元，用于确定所述训练好的多层感知机分类模型；所述第二训练单元，具体包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-4中任意一项所述的基于自监督学习的胃癌分子亚型分类方法。

10.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-4任一项所述的基于自监督学习的胃癌分子亚型分类方法。