CN110866893A

CN110866893A - 基于病理图像的tmb分类方法、系统及tmb分析装置

Info

Publication number: CN110866893A
Application number: CN201910942092.8A
Authority: CN
Inventors: 任菲; 罗坚诚; 刘志勇; 刘玉东; 张弘; 卜德超
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-03-06
Anticipated expiration: 2039-09-30
Also published as: US20220207726A1; WO2021062904A1; US11468565B2; CN110866893B

Abstract

本发明涉及一种基于病理图像的TMB分类方法，包括：对已知病理图像进行TMB分类标记和预处理，以构建训练集；通过该训练集对卷积神经网络进行训练，以构建分类模型；对目标病例的目标病理图像进行预处理，以获得多张目标图块；以该分类模型对该目标图块进行分类，以获取该目标病例的图块TMB分类结果；以所有该图块TMB分类结果，通过分类投票获取该目标病例的图像TMB分类结果。本发明还涉及一种基于病理图像的TMB分析装置。本发明的TMB分类方法，不依赖于除病理图像之外样本，具有准确、低成本、快速的优点，对肿瘤的研究具有重大价值。

Description

基于病理图像的TMB分类方法、系统及TMB分析装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种TMB的分析方法和系统。

背景技术

肿瘤突变负荷(TMB，TumorMutation Burden)是对肿瘤体细胞突变总量的一种评估手段，一般指落入外显子编码区域每兆碱基中非同义突变的数量。TMB是肿瘤免疫治疗时代重要的生物标志物，TMB的免疫治疗疗效预测能力并不局限于NSCLC、黑色素瘤等“热肿瘤”(有免疫源性的肿瘤，immunogenic tumor)，而是一个泛癌种的生物标志物，在包括肝癌在内的多种肿瘤中均具有预测能力。检测TMB是肿瘤免疫原性的重要评估手段，其检测的金标准方法是全外显子组测序。

全外显子组测序由于超高的价格和实验周期而无法被广泛应用，检测几百个基因(通常检测1～3M基因外显子编码区域，而人体所有编码基因区域大约为40M)的panel测序，是目前比较常用的一种方式。

然而panel测序由于没有检测所有的目标区域，所得到的TMB只是一个近似值。通过对FDA批准的两款panel测序(IMPACT和FM1)在癌症基因图谱计划(TCGA)中的肝癌数据集中发现，直接使用两款panel测序进行检测的基因，预测外显子TMB的准确性分别为77.8％和80.7％，即使经过各种方式的优化，准确性也仅仅达到90％左右。例如，中国国家发明“一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统”(申请号：201910338312.6提出一种基于Panel测序检测TMB的位点组合、处理流程及计算方法，提供了肿瘤突变负荷的检测方法，对目标检测区域中的具体位点进行了优化：排除了中国人群中肿瘤发生发展相关高频突变位点，纳入了同义突变，使得基于Panel和全外显子测序的TMB结果一致性得到了一定量的提高。

更进一步而言，即使panel测序，依旧面临检测成本过高、检测周期过高和组织样本依赖等问题。通常情况下，panel测序获得TMB所需要的费用是几千到一两万，这对TMB检测的普及应用形成了重大障碍。再者，获得TMB的检测周期一般是2-3周。最后，获得TMB需要足够数量和足够质量的肿瘤组织样本，而实际实践中，经常出现无法获得的情况。

现有的panel测序存在的缺陷，主要是由于技术路径依赖导致的。由于TMB的金标准方法是全外显子组测序，为了获得TMB的近似值，通过类似于抽样调查的方式减少检测区域进行预测，然而由于肿瘤基因体细胞突变分布的不均匀性等特点，这引入了大量误差，导致准确性降低。同时，该检测方法还由于沿用外显子测序既有的检测技术二代测序，进而带来了二代测序技术平台本身的费用高、周期长和组织样本依赖等缺点。所以，准确、低成本、快速、不依赖于除病理图像之外样本的TMB分类获取手段的发展对肿瘤的研究具有重大价值。

发明内容

本发明提出一种TMB分类方法，包括：对已知病理图像进行TMB分类标记和预处理，以构建训练集；通过该训练集对卷积神经网络进行训练，以构建分类模型；对目标病例的目标病理图像进行预处理，以获得多张目标图块；以该分类模型对该目标图块进行分类，以获取该目标病例的图块TMB分类结果；以所有该图块TMB分类结果，通过分类投票获取该目标病例的图像TMB分类结果。

本发明所述的TMB分类方法，其中对该目标病理图像进行预处理的步骤具体包括：标记出该目标病理图像的目标肿瘤细胞区域；根据该目标肿瘤细胞区域从该目标病理图像中切出目标局部图像；对该目标局部图像进行滑动窗口分割，并对分割获得的目标中间图块进行反色，以获得多张该目标图块。

本发明所述的TMB分类方法，其中构建该训练集的步骤具体包括：通过至少一个分类阈值将该已知病理图像按TMB分类为多个类型；标记出所有该已知病理图像的已知肿瘤细胞区域；根据该已知肿瘤细胞区域从该已知病理图像中切出已知局部图像；对该已知局部图像进行滑动窗口分割，并对分割获得的中间图块进行反色，以获得多张训练图块；对所有该训练图块进行随机划分以构建该训练集的训练子集和测试子集。

本发明所述的TMB分类方法，其中该卷积神经网络依次包括四对卷积层和最大池化层、一层第一全连接层，以及一层第二全连接层；所有该卷积层和该第一全连接层采用ReLU激活函数，该第二全连接层采用Sigmoid激活函数；通过改变该卷积神经网络各卷积层的卷积核的细粒度，获得多个预选感受野，并构建多个对应的预选分类模型，获取该预选分类模型的准确度和AUC值，以具有最大准确度和最大AUC值的预选分类模型为该分类模型，以该分类模型对应的预选感受野为最佳感受野。

本发明一种基于病理图像的TMB分类系统，包括：训练集构建模块，用于对已知病理图像进行TMB分类标记和预处理，以构建训练集；分类模型构建模块，用于通过该训练集对卷积神经网络进行训练，以构建分类模型；目标图像预处理模块，用于对目标病例的目标病理图像进行预处理，以获得多张目标图块；图块分类模块，用于以该分类模型对该目标图块进行分类，以获取该目标病例的图块TMB分类结果；图像分类模块，用于以所有该图块TMB分类结果，通过分类投票获取该目标病例的图像TMB分类结果。

本发明所述的TMB分类系统，其中该目标图像预处理模块具体包括：标记出该目标病理图像的目标肿瘤细胞区域；根据该目标肿瘤细胞区域从该目标病理图像中切出目标局部图像；对该目标局部图像进行滑动窗口分割，并对分割获得的目标中间图块进行反色，以获得多张该目标图块。

本发明所述的TMB分类方法，其中该训练集构建模块包括：TMB标记模块，用于通过至少一个分类阈值将该已知病理图像按TMB分类为多个类型；局部区域切出模块，用于标记出所有该已知病理图像的已知肿瘤细胞区域，根据该已知肿瘤细胞区域从该已知病理图像中切出已知局部图像；训练图块分割模块，用于对该已知局部图像进行滑动窗口分割，并对分割获得的中间图块进行反色，以获得多张训练图块；训练集划分模块，用于对所有该训练图块进行随机划分以构建该训练集的训练子集和测试子集。

本发明所述的TMB分类系统，其中该卷积神经网络依次包括四对卷积层和最大池化层、一层第一全连接层，以及一层第二全连接层；其中，所有该卷积层和该第一全连接层采用ReLU激活函数，该第二全连接层采用Sigmoid激活函数；通过改变该卷积神经网络各卷积层的卷积核的细粒度，获得多个预选感受野，并构建多个对应的预选分类模型，获取该预选分类模型的准确度和AUC值，以具有最大准确度和最大AUC值的预选分类模型为该分类模型，以该分类模型对应的预选感受野为最佳感受野。

本发明还提出一种可读存储介质，存储有可执行指令，该可执行指令用于执行基于病理图像的TMB分类方法。

本发明还涉及一种基于病理图像的TMB分析装置，包括处理器和可读存储介质，该处理器调取该可读存储介质中的可执行指令，以对目标病理图像进行分析，以获得该目标病理图像的目标分类结果。

附图说明

图1是本发明的病理图像分类方法流程图。

图2是本发明实施例的分类模型构建过程示意图。

图3是本发明实施例的已知病理图像TMB散点图。

图4是本发明实施例的图块分割示意图。

图5是本发明实施例的神经卷积网络结构示意图。

图6是本发明的基于病理图像的TMB分析装置结构示意图。

图7A、7B、7C是本发明的基于病理图像的TMB分析装置具体实施例的示意图。

图8是本发明实施例的分类模型与panel测序的分类准确度和AUC值对比示意图。

图9A是基于MSKCC IMPACT468 panel的生存分析示意图。

图9B是基于FM1 panel的生存分析示意图。

图9C是本发明的基于CNN模型预测的生存分析示意图。

图10是本发明实施例的分类模型感受野示意图。

其中，附图标记为：

1：目标图块 2-1、2-2、2-3、2-4：卷积层

3-1、3-2、3-3、3-4：最大池化层 4-1、4-2：全连接层

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

发明人基于对肿瘤生物学本质和基因组研究技术、医学图像处理等前沿技术的深刻理解，创新性的提出通过病理图像检测肿瘤突变负荷的全新技术路径，完全打破了现行TMB检测手段的技术路径依赖。基于对肿瘤生物学本质的深刻理解，本发明假设，肿瘤细胞与免疫细胞等多种细胞的空间结构定位，肿瘤细胞及其微环境相关细胞的形态等病理影像特征与肿瘤细胞的基因组内在特征一定具有普遍的内在联系，TMB作为肿瘤细胞与免疫细胞互相作用最关键的“抓手”新抗原的替代性标志物，是肿瘤细胞免疫原性，即肿瘤细胞面临的免疫系统的“危害程度”的重要评估指标，应该也在其病理图像中有所呈现。深度学习是端到端的学习，能够自动化进行特征提取。最新研究发现，深度学习不仅仅可以以较高的准确性从病理影像中预测出EGFR(epidermal growth factorreceptor)等驱动基因突变的信息，而且可以很好的预测肿瘤免疫相关的微卫星不稳定性(MSI，microsatelliteinstability)状态。在图片分类领域，卷积神经网络(CNN)及其派生模型的应用非常广泛。本发明实际开发过程中，经历了多种建模训练策略的尝试。发明人在尝试了AlexNet、VGG、ResNet等流行模型之后，发现过拟合的现象十分严重。经过分析，这些模型的提出是为了提取自然图像的特征而不是病理图像。相对来讲，它们更注重图像中的主体与其环境的联系，因此这些模型的特征尺度(感受野)十分巨大，最终得到的特征图中的每个特征都包含了广泛的信息，甚至是全局特征。但是，从病理图像预测TMB高或者低的问题，和自然图像分类问题的区别是很大的，因为病理图像分类比自然图像分类(如猫狗分类)更关注微小的细节。发明人通过缩小感受野的范围并简化模型，用局部特征的集合来作为分类的凭据，以适应病理图像的分类问题，同时缓解过拟合问题。

本发明的目的是解决TMB检测技术panel检测技术中准确性低、成本高、周期长和组织样本依赖等缺陷，提出了一种针对病理图像的分析方法，以对病理图像进行TMB分类，通过本发明的分析方法，对病理图像TMB分类的准确性高达99.7％。

(一)关于本发明的病理图像分类方法

图1是本发明的病理图像分类方法流程图。如图1所示，本发明的病理图像分类方法包括：

步骤S100，通过已知病理图像对CNN网络进行训练，以构建分类模型；具体包括：

步骤S110，选取已知病理图像；

本发明的分类模型是针对某一类型肿瘤的病理图像的分析工具，对所采用的训练数据也是采用该类型肿瘤的已知病例的病理图像，例如，针对肺癌病例的目标病理图像，采用已知的肺癌病理图像数据作为分类模型的训练数据，针对胃癌病例则采用已知的胃癌病理图像数据等。图2是本发明实施例的分类模型构建过程示意图。如图2所示，于本发明的实施例中，是针对肝癌病例的病理图像构建的分类模型，因此，发明人选取癌症基因组图谱(TCGA)项目肝癌项目的数据以构建训练集；

发明人对来自TCGA项目肝癌项目的数据进行了研究。TCGA由国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)于2006年联合发起，目前共研究36种癌症类型。TCGA采用基于大规模测序的基因组分析技术，通过广泛的合作，了解癌症的分子机制。TCGA的目的是提高对癌症分子基础的科学认识，提高诊断、治疗和预防癌症的能力，并最终完成所有癌症基因组变化的数据库。本实施例利用UCSC XENA浏览器从GDC-TCGA肝癌(LIHC)中枢中检索到体细胞突变(单核苷酸变异和小片段插入缺失)，并采用了362个样品的MUSE分析方法获得的突变结果。只有标记有pass filter标签的突变(位于外显子区域且非同义突变或位于剪切区域)才用于构建训练集。

步骤S120，对已知病理图像进行分类标记；

在对TMB进行分类之前，需要选择至少一个阈值来区分TMB的高低，以将TMB分类为两个或多个类型，而肝癌目前没有临床意义的TMB阈值。通常情况下，可以将已知病理图像按照TMB分为两个或三个类型，也可以根据研究需要将已知病理图像按照TMB分为三个以上的类型，本发明并不以此为限。以下的实施例中，如无特别指明，均采用将已知病理图像按照TMB分为两个类型(高TMB和低TMB)进行举例，进行三个或三个以上类型的TMB分类的方法与进行两个分类的方法相同，区别仅在于TMB阈值的数量，故不再赘述。

于本发明的实施例，采用分段回归或“断棒分析”通过找到一个拐点来找到阈值将已知病理图像按照TMB分为两个类型，具体包括：将362例TMB的得分按从大到小的顺序排序，绘制散点图，应用分段回归拟合两条直线的散点，最后求出曲线的拐点，以这个拐点对应的TMB作为区分高TMB和低TMB的分类阈值，并以这个阈值对362个病例进行TMB分类。图3是本发明实施例的已知病理图像TMB散点图。如图3所示，将所有已知病理图像对应的TMB进行分段回归，其中拐点对应的TMB约为3.66。水平虚线经过拐点，有32个点位于该线之上，表1为32例标记为高TMB病例的TMB表，表示对应的32个病例的TMB处于高水平(标识为高TMB病例)，其对应病理图像作为正例图像，其余330个病例对应的TMB处于低水平(标识为低TMB病例)，其对应病理图像作为负例图像。

序号	病例号	TMB
			1	TCGA-UB-A7MB-01A	35.472
2	TCGA-4R-AA8I-01A	22.667
			3	TCGA-CC-A7IH-01A	16.750
4	TCGA-DD-AAC8-01A	13.583
			5	TCGA-DD-A1EE-01A	10.778
6	TCGA-WQ-A9G7-01A	8.389
			7	TCGA-DD-AACI-01A	7.944
8	TCGA-DD-A3A9-01A	7.694
			9	TCGA-CC-A7IK-01A	7.333
10	TCGA-DD-AACL-01A	7.222
			11	TCGA-ED-A7PZ-01A	6.250
12	TCGA-MI-A75G-01A	5.222
			13	TCGA-DD-AADF-01A	5.167
14	TCGA-DD-AACQ-01A	5.111
			15	TCGA-DD-AAE7-01A	5.028
16	TCGA-G3-A3CK-01A	4.917
			17	TCGA-CC-A8HT-01A	4.583
18	TCGA-LG-A6GG-01A	4.583
			19	TCGA-DD-AADO-01A	4.583
20	TCGA-CC-A5UD-01A	4.528
			21	TCGA-DD-AACT-01A	4.500
22	TCGA-ED-A459-01A	4.306
			23	TCGA-RC-A6M6-01A	4.278
24	TCGA-DD-AAEA-01A	4.139
			25	TCGA-RC-A6M4-01A	4.139
26	TCGA-DD-AACZ-01A	4.083
			27	TCGA-G3-A7M5-01A	4.000
28	TCGA-BC-A10Z-01A	3.861
			29	TCGA-CC-A7IE-01A	3.806
30	TCGA-MI-A75I-01A	3.750
			31	TCGA-DD-AADM-01A	3.750
32	TCGA-G3-AAV0-01A	3.667

表1

步骤S130，已知病理图像的预处理；

用GDC工具从TCGA-LIHC项目下载362例肝癌患者的380张全切片图像，这些病例和上文提到的TMB数据的病例一一对应；

步骤S131，标记肿瘤细胞区域；

数据集中包含的最大扫描分辨率的图像至少是20×(物镜放大倍数)，且20×的视野是医生在镜下进行肿瘤良恶性判断的惯例，因此本发明从每张20×图像中切出数张大小为1712*961像素的局部图像，局部图像中只包含癌变区域(肿瘤细胞区域)。在切图过程中，排除了因图像质量较差的12个病例的12张切片图像。最后高TMB病例(正例图像)共切出470张局部图像，低TMB病例(负例图像)共切出5162张局部图像；

步骤S132，将所有局部图像进行分割，获得训练图块；

如果局部图像直接用于深度学习模型的训练，会面临分辨率过大和类别不均衡的问题，本发明通过灵活调整步长的方式将局部图像分割为多个图块，来降低分辨率及均衡类别。其中，分割图块可以采用多种方式，例如阈值分割、区域分割等，于本发明的实施例中，采用滑窗法进行训练图块分割。图4是本发明实施例的图块分割示意图。如图4所示，本发明的实施例采用的滑动窗口的大小为256×256像素，对于负例图像的局部图像，每张图片按照4行7列切出28个图块，虽然图块之间互相有少量重叠部分，但这已经是重叠面积最小的方案，在不遗漏每个像素的前提下。对于正例图像的局部图像，每张图片按照12行25列切出300个小图块，这样，所有正例图像的局部图像可以分割出141000张256×256像素的图块，负例图像的局部图像可以分割出144536张相同分辨率(256×256像素)的图块。两个类别的图块数近似相同，于是在数据增强的同时解决了类别不均衡问题。

步骤S133，对训练图块进行反色处理；

由于有一些图块位于肿瘤细胞组织边缘部分，可能会含有空白局域。白色在RGB体系下的色值较高，细胞(特别是细胞核)的颜色对应的色值较低。而当这些图块作为深度学习模型的输入时，没有分析意义的像素点对应的特征值接近于0，有分析意义的像素点对应更高的特征值，才更便于对分类模型的训练以及分析，因此本发明对所有图块进行了反色。

步骤S134，按4:1的比率随机划分出训练集与测试集。

步骤S140，以训练集和测试集对卷积神经网络进行训练；

卷积神经网络(CNN)及其衍生模型在图像分类领域有着广泛的应用。CNN是一个前馈神经网络，其历史可以追溯到1962年。生物学家Hubel和Wiesel发现猫视觉皮层中的细胞对部分视觉输入很敏感，因此提出了接受场的概念；1980年，Kunihiko提出了基于Hubel和Wiesel的局部接受场理论的新认知加速器。这是CNN网络模型最早的实现；感受野是卷积神经网络的一个基本概念。与特征都取决于整体输入的完全连接的网络不同，卷积层中的每个神经元只通过卷积核与上接收场中的神经元建立连接；这个区域是神经元的感受野。卷积神经网络吸收了局部感受野的思想，优点是权值共享和局部连接。在保证训练效果的同时，CNN可以有效地控制参数大小和计算量；

发明人在尝试了AlexNet、VGG、ResNet等流行模型之后，发现过拟合的现象十分严重。经过分析，这些模型的提出是为了提取自然图像的特征而不是病理图像。相对来讲，它们更注重图像中的主体与其环境的联系，因此这些模型的感受野十分巨大，最终得到的特征图中的每个特征都包含了广泛的信息，甚至是全局特征。比如AlexNet的pool5输出的特征图上的像素在输入图像上的感受野为195×195像素，VGG16的最大感受野为212×212像素，ResNet50的最大感受野甚至能达到483×483像素；

但是，从病理图像预测某一病例的TMB高或者低的问题，和自然图像分类问题的区别是很大的，因为病理图像分类比自然图像分类(如猫狗分类)更关注微小的细节。因此，本发明缩小感受野的范围并简化模型，用局部特征的集合来作为分类的凭据，以适应病理图像的分类问题，同时缓解过拟合问题；

CNN可以具有多种结构形式，但并非所有结构形式的CNN都能获得较佳的TMB分类效果。图5是本发明实施例的神经卷积网络结构示意图。如图5所示，经过对不同的超参数的测试，本发明最终选择采用4对卷积层2-1、2-2、2-3、2-4和最大池化层3-1、3-2、3-3、3-4，并依次连接一个包含256个神经元的全连接层4-1和一个仅包含1个神经元的全连接层4-2，其中卷积层2-1、2-2、2-3、2-4和全连接层4-1都采用ReLU激活函数，全连接层4-2使用Sigmoid作为激活函数，这样，对目标图块1处理分析后，以全连接层4-2的输出作为分类的标准。

本实施例是以从TCGA-LIHC项目中获取的确诊肝癌患者的已知病理图像对CNN进行训练的较佳实施例，在针对其他类型种类或采用其他训练数据进行训练时，可能会采用其他结构形式的CNN以获得较佳的分类效果，例如3对卷积层和最大池化层及一个全连接层，或5对卷积层和最大池化层及一个全连接层等，本发明并不以此为限。

步骤S150，确定分类模型的感受野大小

对CNN网络模型进行训练的过程中，可以用调整CNN模型深度和调整卷积核大小等方法来控制感受野大小。但是，随着模型深度的改变会导致模型参数数量的显著改变，极大地影响训练效果(可能产生过拟合或欠拟合效应)，因此本发明主要采用改变卷积核大小的方法来控制感受野；

表2

于本发明的实施例中，先进行了一系列实验，通过大幅度地改变感受野(从10×10像素到212×212像素)，将合适的感受野范围锁定在46×46像素到60×60像素之间。然后在卷积层数固定的情况下，在此区间内使用了不同的卷积核大小更加细粒度地控制感受野。通过将模型中前3个卷积层的卷积核抽取若干个从3×3改为5×5，设计出8种模型，如表2所示。

这8个模型用相同的数据集训练之后，各个模型的准确度和AUC(Area UnderCurve，受试者工作特征曲线(ROC)下的面积)值如表3所示。根据实验结果，效果最好的模型是RF48，最佳感受野是48×48像素。

表3

步骤S200，对目标病例的目标病理图像进行预处理，以获得目标图块；

对目标病理图像的预处理与构建训练集时对已知病理图像的预处理类似，包括：

步骤S210，标记出目标病理图像的肿瘤细胞区域；

步骤S220，根据肿瘤细胞区域，从目标病理图像中切出大小为1712×961像素的局部图像；

步骤S230，对切出的局部图像进行分割，例如，采用与构建训练集相同的方式进行分割，使用大小为256×256的滑动窗口，以12行×25列的方式对每张目标病例图像分割出300张图块；以可以采用其他方式进行切割，本发明并不以此为限；

步骤S240，对分割出的图块进行反色处理；

步骤S300，以分类模型对目标图块进行分析，获取目标病例的图块TMB分类结果；

对于每一张图块，通过分类模型对其进行分类，以获得目标病例相对于每一张图块的图块TMB分类结果，确定其TMB是属于高水平还是低水平；

步骤S400，根据所有图块TMB分类结果，得到目标病例的图像TMB分类结果；

当对所有图块通过分类模型进行分类后，即获得了目标病例相对于所有图块的图块TMB分类结果，再以所有图块TMB分类结果得到目标病例相对目标病理图像的图像TMB分类结果；于本发明的实施例中，通过投票法获得目标图像TMB分类结果，以图块TMB分类结果对目标病例相对于目标病理图像TMB水平进行投票，以具有最大票数的图块TMB分类结果最为目标病例的图像TMB分类结果。

应当理解的是，以上叙述中，局部图像的切割的大小、滑动窗口的大小并非限定于固定的像素，仅用于清楚解释本发明所提出的方法，也可以采用其他大小进行局部图像的切割或选取滑动窗口，本发明并不以此为限。

(二)关于本发明的基于病理图像的TMB分析装置

图6是本发明的基于病理图像的TMB分析装置结构示意图。如图6所示，本发明实施例还提供一种可读存储介质，以及一种数据处理装置。本发明的可读存储介质存储有可执行指令，可执行指令被数据处理装置的处理器执行时，实现上述基于病理图像的TMB分类方法。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、FPGA、ASIC等)完成，所述程序可以存储于可读存储介质中，如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。

图7A、7B、7C是本发明的基于病理图像的TMB分析装置具体实施例的示意图。本发明的数据处理装置可以有多种具体形式，以进行基于病理图像的TMB分类，例如，如图7A所示，于本发明的实施例，使用计算机作为TMB分析装置，TMB分析计算机的输入单元包括数码相机、数码摄像头、扫描仪、读卡器、光驱、USB接口等输入设备或接口的至少一种，可以将已知病理图像和目标病理图像转换为数据文件输入TMB分析计算机，或将已知病理图像和目标病理图像的数据文件直接输入TMB分析计算机；TMB分析计算机的存储单元中，存储有实现本发明的基于病理图像的TMB分类方法的计算机可执行指令，TMB分析计算机的处理器调用并执行上述计算机可执行指令，对输入的已知病理图像数据和/或目标病理图像数据进行处理，以生成分类模型或得到目标病理图像对应的TMB分类；当获得TMB分类结果后，通过TMB分析计算机的输出单元，例如是打印机或显示器，向用户输出基于目标病理图像的TMB分类结果。

本发明的TMB分析装置还可以基于已生成的分类模型，即TMB分析装置不再进行根据已知病理图像构建分类模型的工作，而是在TMB分析装置的存储单元中，除了存储有实现本发明的基于病理图像的TMB分类方法的计算机可执行指令外，还存储有已经构建好的分类模型，TMB分析装置的处理器调用并执行上述计算机可执行指令和分类模型，对输入的目标病理图像数据进行处理分析，以得到目标病理图像对应的TMB分类；当获得TMB分类结果后，通过TMB分析计算机的输出单元进行输出，如此一来，TMB分析装置可以降低对处理器的处理性能要求，大大简化TMB分析装置的复杂程度，或增加TMB分析装置的便携性，或扩展TMB分析装置的适用范围。如图7B所示，于本发明的另一实施例，使用平板电脑作为TMB分析装置，这样可以较为方便的对目标病理图像进行处理，也可以使用例如智能手机等的移动终端，本发明并不以此为限。如图7C所示，于本发明的又一实施例，使用网络服务器作为TMB分析装置，这样就可以搭建出一个网络平台，用户只需在网络终端输入目标病理图像数据，经由交换机/网关等网络设备，通过局域网或广域网上的网络服务器获得目标病理图像的TMB分类结果。

(三)关于本发明的病理图像分类方法的技术效果

可以看出，本发明的病理图像分类方法分别对病理图像分割出的图块以及病理图像本身进行了分类，实际使用中，在确定感受野并使用预处理好的数据集训练模型后，对于图块TMB分类，通过绘制准确度、损耗度和AUC曲线，使用第10个训练时期的结果，测试集的准确度为0.9486，AUC值为0.9488。而对于病理图像TMB分类，基于分类模型，对350例已知病例进行分类预测，将每例病理图像平均切割816块图块，在预测了一个病例的每一个图块的TMB水平后，使用多数投票法来计算当前病例的病理图像总体TMB水平，实验结束后，350例患者中只有一例预测错误，属于假阴性范畴，TMB患者级预测的分类准确度为0.9971。

由于在数据预处理过程中排除了病理图像的正常组织区域，故在训练模型的过程中没有正常组织区域分割出的图块加入训练集。为检测对病理图像中正常组织区域图块预测能力，本发明还使用正常组织局部图像进行了分类预测：将采集到的正常组织局部图像切成768块进行预测(标签统一为低TMB)，其结果为3块图块被误判为高TMB，准确度为0.9961。

(四)关于本发明的病理图像分类方法与现有技术的效果对比

由于大多数临床参考的TMB评分现在是通过基因panel获得的，用这种方式获得的TMB(panel TMB)是WES(WES TMB)获得的TMB的近似值。目前，FDA已经批准了MSKCCIMPACT468和FM1两个基因panel。我们从TCGA-LIHC项目中提取了这两个panel的基因，并计算了这些panel的TMB得分。

图8是本发明实施例的分类模型与panel测序的分类准确度和AUC值对比示意图。如图8所示，根据步骤S120中提到的WES-TMB拐点值确定的分类状态，比较训练后的CNN模型预测的和panel TMB预测的WES TMB分类精度，TMB的FM1 panel的分类准确度和AUC值分别为0.807和0.875。同样，用于TMB的MSKCC IMPACT468 panel的分类准确度和AUC值分别为0.778和0.875，远低于本发明的分类模型预测的相应得分。

以往的研究发现，肝癌中TMB含量高与预后不良有关，比较基于CNN模型TMB预测分类和基于panel TMB分类之间的生存预测能力。首先，利用分段回归方法，找出panel TMB对应分类的拐点。图9A是基于MSKCC IMPACT468 panel的生存分析示意图，图9B是基于FM1panel的生存分析示意图，图9C是本发明的基于CNN模型预测的生存分析示意图。如图9A、9B、9C所示，由于测试区域的限制，相邻患者之间的TMB过度拟合到相同的值，特别是在TMB较低的患者中，这直接反映了panel TMB精确度较低。生存曲线分析表明，基于CNN模型预测的高TMB组与低TMB组(mos＝357d vs 624d，p＝0.00095)的生存时间有显著性差异，但高TMB组与低TMB组无论使用FM1panel还是MSKCC IMPAT468 panel均无显著性差异。很明显，本发明的CNN模型表现良好，对患者的预后更为有利。

实验表明，本发明的分类模型能够很好地提取肝癌病理图像的特征，从而对肿瘤组织的高、低TMB水平进行分类。该模型对患者生存率的预测优于基于panel的TMB的估计方法。

(五)分类模型的相关病理解释

对于病理图像，不同的感受野可以获得不同特征尺度的信息，而小的感受野可以从病理图像中更好地获得局部信息。在20×视野下的HE玻片中，癌细胞的形态特征属于局部信息，因此较小的感受野可以用来获得更好的预测结果。图10是本发明实施例的分类模型感受野示意图。如图10所示，显示了一个示例区域，其中48×48像素接收字段投影到输入图像上。在一张20×的病理图像中，这个大小的感受野区包含大约2个细胞。这种感受野大小可以帮助模型充分识别肝癌细胞的异质性，同时避免病理图像中可能出现的间质组织的干扰。

正常细胞中基因突变的积累会导致肿瘤细胞的产生。TMB是反映肿瘤细胞内基因突变程度的一个指标，它可以从分子水平反映肿瘤的发病机制。肿瘤细胞及其微环境相关细胞的病理形态学特征与肿瘤细胞的基因组内在特征具有普遍的内在联系，从而可以通过病理图像特征预测TMB。镜下观察肝癌的HE病理切片，可以观察到癌细胞与正常细胞相比，大小和形状不一，内部结构异常，核质比增加，二者形态学特征对比如表4所示。

根据深度学习中的感受野理论，不同大小的感受野能够在不同尺度上获取信息，小的感受野会更好地获取局部信息。在20×视野下的HE切片中，癌细胞的形态特征就属于局部信息，所以采用较小的感受野可以获得更好的预测效果。

鉴别要点	正常细胞	肝癌细胞
			细胞大小	体积小	体积大
细胞形态	均一	大小不均，形态不一致，可出现瘤巨细胞
			核大小	小	体积增大
核形态	圆形或卵圆形	体积增大，形态不一致
			染色质特征	细颗粒状	分布不规则，呈粗颗粒状
核深染	罕见	常见
			核浆比	正常	增大
核仁	小，形态规则，数量有限	增大，形态不规则，数量增加
			核分裂象	罕见	多见，可出现不对称性，呈多极性

表4

虽然本发明已以实施例揭露如上，然其并非用以限定本发明，任何所属技术领域中的普通技术人员，在不脱离本发明的精神和范围内，可以做出若干变形和改进，故本发明的保护范围当视权利要求所界定的范围为准。

Claims

1.一种基于病理图像的TMB分类方法，其特征在于，包括：

对已知病理图像进行TMB分类标记和预处理，以构建训练集；

通过该训练集对卷积神经网络进行训练，以构建分类模型；

对目标病例的目标病理图像进行预处理，以获得多张目标图块；

以该分类模型对该目标图块进行分类，以获取该目标病例的图块TMB分类结果；

以所有该图块TMB分类结果，通过分类投票获取该目标病例的图像TMB分类结果。

2.如权利要求1所述的TMB分类方法，其特征在于，对该目标病理图像进行预处理的步骤具体包括：

标记出该目标病理图像的目标肿瘤细胞区域；

根据该目标肿瘤细胞区域从该目标病理图像中切出目标局部图像；

对该目标局部图像进行滑动窗口分割，并对分割获得的目标中间图块进行反色，以获得多张该目标图块。

3.如权利要求1所述的TMB分类方法，其特征在于，构建该训练集的步骤具体包括：

通过至少一个分类阈值将该已知病理图像按TMB分类为多个类型；

标记出所有该已知病理图像的已知肿瘤细胞区域；

根据该已知肿瘤细胞区域从该已知病理图像中切出已知局部图像；

对该已知局部图像进行滑动窗口分割，并对分割获得的中间图块进行反色，以获得多张训练图块；

对所有该训练图块进行随机划分以构建该训练集的训练子集和测试子集。

4.如权利要求1所述的TMB分类方法，其特征在于，该卷积神经网络依次包括四对卷积层和最大池化层、一层第一全连接层，以及一层第二全连接层；所有该卷积层和该第一全连接层采用ReLU激活函数，该第二全连接层采用Sigmoid激活函数；

通过改变该卷积神经网络各卷积层的卷积核的细粒度，获得多个预选感受野，并构建多个对应的预选分类模型，获取该预选分类模型的准确度和AUC值，以具有最大准确度和最大AUC值的预选分类模型为该分类模型，以该分类模型对应的预选感受野为最佳感受野。

5.一种基于病理图像的TMB分类系统，其特征在于，包括：

训练集构建模块，用于对已知病理图像进行TMB分类标记和预处理，以构建训练集；

分类模型构建模块，用于通过该训练集对卷积神经网络进行训练，以构建分类模型；

目标图像预处理模块，用于对目标病例的目标病理图像进行预处理，以获得多张目标图块；

图块分类模块，用于以该分类模型对该目标图块进行分类，以获取该目标病例的图块TMB分类结果；

图像分类模块，用于以所有该图块TMB分类结果，通过分类投票获取该目标病例的图像TMB分类结果。

6.如权利要求5所述的TMB分类系统，其特征在于，该目标图像预处理模块具体包括：

标记出该目标病理图像的目标肿瘤细胞区域；根据该目标肿瘤细胞区域从该目标病理图像中切出目标局部图像；对该目标局部图像进行滑动窗口分割，并对分割获得的目标中间图块进行反色，以获得多张该目标图块。

7.如权利要求5所述的TMB分类方法，其特征在于，该训练集构建模块包括：

TMB标记模块，用于通过至少一个分类阈值将该已知病理图像按TMB分类为多个类型；

局部区域切出模块，用于标记出所有该已知病理图像的已知肿瘤细胞区域，根据该已知肿瘤细胞区域从该已知病理图像中切出已知局部图像；

训练图块分割模块，用于对该已知局部图像进行滑动窗口分割，并对分割获得的中间图块进行反色，以获得多张训练图块；

训练集划分模块，用于对所有该训练图块进行随机划分以构建该训练集的训练子集和测试子集。

8.如权利要求5所述的TMB分类系统，其特征在于，该卷积神经网络依次包括四对卷积层和最大池化层、一层第一全连接层，以及一层第二全连接层；其中，所有该卷积层和该第一全连接层采用ReLU激活函数，该第二全连接层采用Sigmoid激活函数；

9.一种可读存储介质，存储有可执行指令，该可执行指令用于执行如权利要求1～4任一项所述的基于病理图像的TMB分类方法。

10.一种基于病理图像的TMB分析装置，包括处理器和如权利要求9所述的可读存储介质，该处理器调取该可读存储介质中的可执行指令，以对目标病理图像进行分析，以获得该目标病理图像的目标分类结果。