CN112101409B - 基于病理图像的肿瘤突变负荷(tmb)分类方法与系统 - Google Patents
基于病理图像的肿瘤突变负荷(tmb)分类方法与系统 Download PDFInfo
- Publication number
- CN112101409B CN112101409B CN202010772358.1A CN202010772358A CN112101409B CN 112101409 B CN112101409 B CN 112101409B CN 202010772358 A CN202010772358 A CN 202010772358A CN 112101409 B CN112101409 B CN 112101409B
- Authority
- CN
- China
- Prior art keywords
- tmb
- classification
- target
- image
- pathological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Image Analysis (AREA)
Abstract
一种基于病理图像的肿瘤突变负荷(TMB)分类方法,其包括以下步骤:根据至少一分类阈值将已知病理图像按照TMB分为多个类型;将所述已知病理图像切割为多张已知图块,再将所述多张已知图块重新拼接为所述已知病理图像,按照所述多个类型对所述多张已知图块进行标注,以构建初步训练集;采用多分类投票法对所述初步训练集进行清洗,以构建最终训练集;通过所述最终训练集对卷积神经网络进行训练,以构建分类模型;对目标病例的目标病理图像进行预处理,以获得多张目标图块;以及以所述分类模型对所述目标图块进行分类,以获取所述目标图块的TMB分类结果,并且根据所有所述目标图块的TMB分类结果,通过多数投票法获取所述目标病理图像的TMB分类结果。
Description
技术领域
本发明涉及图像处理技术领域,特别涉及一种基于病理图像的肿瘤突变负荷分类方法。
背景技术
在免疫治疗时代,肿瘤突变负荷(TMB)被定义为每百万碱基中被检测出的,体细胞基因编码错误、碱基替换、基因插入或缺失错误的总数,是一个重要的生物标志物。现有研究表明,由于PD-1、PD-L1、CTLA-4等免疫检查点抗体对患者生存的帮助而被FDA批准于NSCLC、黑色素瘤和肝癌等多种肿瘤的免疫治疗,TMB作为重要的泛癌种生物标志物可以使更多患者从免疫治疗中获益;基于临床试验CheckMate-227和CheckMate-026中TMB在免疫治疗的疗效预测能力的验证,TMB正式进入2019版NSCLC《NCCN》指南,成为临床诊疗常规的一部分。
测定TMB的原始数据主要通过全外显子测序(WES)等二代测序手段获取,然而这套流程在应用上有很多不便。首先,检测成本过高,通常情况下,测定TMB评分所需要的费用是病理诊断费用的几十到几百倍;其次,检测周期过长,TMB评分的平均测定时间为2至3周,特别是WES测试可能需要长达一个月的时间,这超出了美国病理学家学院推荐的治疗决策的窗口;再次,组织样本依赖性高,获得TMB评分需要足够数量和质量的组织样本,这个进一步限制患者获取TMB评分。以上不利条件严重限制了TMB的临床应用。此外,在临床试验实际操作过程中,获得TMB评分的失败率在CheckMate-227中为42%,在CheckMate-568中为34%。因此,低成本、快速、不依赖于额外样本的TMB评分测定方法具有重大的临床应用价值,基于病理图像的TMB分类方法就是其中一个具有潜力的方向。
发明内容
本发明提供一种基于病理图像的肿瘤突变负荷(TMB)分类方法,其包括以下步骤:步骤1、根据至少一分类阈值将已知病理图像按照TMB分为多个类型;步骤2、将所述已知病理图像切割为多张已知图块,再将所述多张已知图块重新拼接为所述已知病理图像,按照所述多个类型对所述多张已知图块进行标注,以构建初步训练集;步骤3、采用多分类投票法对所述初步训练集进行清洗,以构建最终训练集;步骤4、通过所述最终训练集对卷积神经网络进行训练,以构建分类模型;步骤5、对目标病例的目标病理图像进行预处理,以获得多张目标图块;以及步骤6、以所述分类模型对所述多张目标图块中的每一张进行分类,以获取所述多张目标图块中的每一张的TMB分类结果,并且根据所有所述目标图块的TMB分类结果,通过多数投票法获取所述目标病例的目标病理图像的TMB分类结果。
上述的基于病理图像的肿瘤突变负荷(TMB)分类方法,其中,所述步骤3具体包括以下步骤:步骤31、分割所述初步训练集,以构建初步训练子集和初步测试子集;步骤32、采用弱分类器对所述初步训练子集和所述初步测试子集进行训练;步骤33、采用一致性过滤原则过滤掉被所述分类器预测为假阳性样本的已知图块;以及步骤34、将过滤后的所述已知图块进行反色,并随机划分为所述最终训练集的最终训练子集和最终测试子集。
上述的基于病理图像的肿瘤突变负荷(TMB)分类方法,其中,所述步骤5具体包括:将所述目标病理图像切割为多张目标图块,并且对所述多张目标图块进行反色。
上述的基于病理图像的肿瘤突变负荷(TMB)分类方法,其中,所述分类模型依次包括四对卷积层和最大池化层、一层第一全连接层,以及一层第二全连接层;其中,所述四对卷积层和所述第一全连接层均采用ReLU激活函数,所述第二全连接层采用Sigmoid激活函数。
上述的基于病理图像的肿瘤突变负荷(TMB)分类方法,其中,所述分类模型的感受野介于46×46像素和60×60像素之间。
本发明还提供一种基于病理图像的肿瘤突变负荷(TMB)分类系统,其包括:TMB分类模块,用于根据至少一分类阈值将已知病理图像按照TMB分为多个类型;初步训练集构建模块,用于将所述已知病理图像切割为多张已知图块,再将所述多张已知图块重新拼接为所述已知病理图像,按照所述多个类型对所述多张已知图块进行标注,以构建初步训练集;图块清洗模块,用于采用多分类投票法对所述初步训练集进行清洗,以构建最终训练集;分类模型构建模块,用于通过所述最终训练集对卷积神经网络进行训练,以构建分类模型;目标图像预处理模块,用于对目标病例的目标病理图像进行预处理,以获得多张目标图块;以及目标图像分类模块,用于以所述分类模型对每一张所述目标图块进行分类,以获取每一张所述目标图块的TMB分类结果,并且根据所有所述目标图块的TMB分类结果,通过多数投票法获取所述目标病例的目标病理图像的TMB分类结果。
上述的基于病理图像的肿瘤突变负荷(TMB)分类系统,其中,所述图块清洗模块包括:初步训练集分割模块,用于分割所述初步训练集,以构建初步训练子集和初步测试子集;分类器训练预测模块,用于采用弱分类器对所述初步训练子集和所述初步测试子集进行训练;图块过滤模块,用于采用一致性过滤原则过滤掉被所述分类器预测为假阳性样本的已知图块;以及最终训练集构建模块,将过滤后的所述已知图块进行反色,并随机划分为所述最终训练集的最终训练子集和最终测试子集。
上述的基于病理图像的肿瘤突变负荷(TMB)分类系统,其中,所述目标图像预处理模块中的对目标病理图像进行预处理具体包括将所述目标病理图像切割为多张目标图块,并且对所述多张目标图块进行反色。
上述的基于病理图像的肿瘤突变负荷(TMB)分类系统,其中,所述分类模型依次包括四对卷积层和最大池化层、一层第一全连接层,以及一层第二全连接层;其中,所述四对卷积层和所述第一全连接层均采用ReLU激活函数,所述第二全连接层采用Sigmoid激活函数。
上述的基于病理图像的肿瘤突变负荷(TMB)分类系统,其中,所述分类模型的感受野介于46×46像素和60×60像素之间。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
附图说明
图1是本发明的基于病理图像的TMB分类方法流程图。
图2是本发明实施例的基于病理图像的TMB分类方法的工作流程图。
图3A、图3B分别是已知肺鳞癌、肺腺癌的TMB散点图。
图4是本发明实施例的已知病理图像的癌灶区域图块标注示意图。
图5是本发明实施例的已知病理图像的预处理过程示意图。
图6是本发明实施例的卷积神经网络分类模型的结构示意图。
附图标记
S1-S6:步骤
1:目标图块 2-1、2-2、2-3、2-4:卷积层
3-1、3-2、3-3、3-4:最大池化层 4-1、4-2:全连接层
具体实施方式
下面结合附图对本发明的结构原理和工作原理作具体的描述:
发明人注意到,病理图像被广泛应用于临床病理学的病理诊断和计算机辅助诊断(CAD),主要应用了形态学的观察方法。从肿瘤进化学、肿瘤生态学和中心法则的角度来看,肿瘤细胞与免疫细胞等多种细胞的空间结构,肿瘤细胞及其微环境相关细胞的形态等病理影像特征与肿瘤细胞的基因组内在特征一定具有普遍的内在联系,相关专家提出的肿瘤进化和肿瘤特征的分类框架为其奠定了理论基础。也就是说,病理图像的癌变组织部分的形态可能蕴含着TMB信息,尽管模式难以确定。而深度学习是端到端的学习,可以自动提取特征。在图像领域应用最广泛的卷积神经网络(CNN)尽管最早用于处理自然图像,但后来在遥感、医学等领域也大获成功。CNN也经常被用于病理图像分类和分割。虽然目前几乎还没有利用CNN从病理图像中提取TMB特征的工作,但是近两年的研究发现CNN可以从病理图像中提取某些其他基因特征。比如Nicolas等人发现InceptionV3可以以较高的准确性从NSCLC的病理影像中预测出EGFR等驱动基因突变的信息,而Jakob等人发现用ResNet18可以很好的预测微卫星不稳定性(MSI)状态。
综上,本发明提供的基于病理图像的肿瘤突变负荷分类方法与系统,在很大程度上能够缓解TMB传统测定方法的检测成本高、检测周期长和组织样本依赖性高的问题,用深度学习方法预测TMB具有很大的研究价值与应用前景。
图1是本发明的基于病理图像的TMB分类方法流程图,图2是本发明实施例的基于病理图像的TMB分类方法的工作流程图。请同时参照图1及图2。
本发明的分类模型是针对某一类型肿瘤的病理图像的分析工具,对所采用的训练数据也是采用该类型肿瘤的已知病例的病理图像,例如,针对肺癌病例的目标病理图像,采用已知的肺癌病理图像数据作为分类模型的训练数据,针对胃癌病例则采用已知的胃癌病理图像数据等。于本发明的实施例中,是针对肺癌病例的病理图像构建的分类模型,因此,发明人选取癌症基因组图谱(TCGA)项目中的肺鳞癌与肺腺癌项目的病例数据作为训练分类模型的数据集,具体的,于本实施例中,发明人使用UCSCXena浏览器从GDCTCGA肺鳞癌(LUSC)和肺腺癌(LUAD)中心检索体细胞突变(SNP和小INDEL),总共采用了1411个样本的MuSE变体聚集和掩蔽结果,其中包括490例肺鳞癌病例和559例肺腺癌病例。
如图1所示,本发明提供的基于病理图像的TMB分类方法包括以下步骤:
步骤S1、根据至少一分类阈值将已知病理图像按照TMB分为多个类型。
为了对TMB进行分类,需要选择至少一个分类阈值来区分TMB高低水平,并依据所述分类阈值将TMB划分为两个或者多个类型。以下的实施例中,如无特别指明,均采用将已知病理图像按照TMB分为两个类型(高TMB和低TMB)进行举例。
目前临床实践和研究中,TMB的突变类型主要限定为外显子组非同义突变。其计算公式为:
TMB=Nmut/Nmb
其中Nmut为一个区域内外显子组非同义突变的个数,Nmb为该区域的长度即megabase值。
于本实施例中,发明人过滤了原始数据中的变体类型,仅使用位于外显子区域的变体而不是同义突变效应变体或位于剪接区域的变体来计算TMB,并且删除了过滤器标签没有标记为PASS的变体。为了从实际数据中挖掘TMB的分类阈值,本发明使用了分段回归或“断枝分析”来通过找到一个拐点来确定所述分类阈值。具体的,对于上述的490例肺鳞癌病例和559例肺腺癌病例,分别以倒序对病例的TMB值进行排序,并且绘制成散点图,应用分段回归来拟合两条直线,最后确定曲线的拐点。根据上述拐点所对应的TMB值作为分类阈值,并依据此TMB值将已知病理图像划分为两种类型,即高TMB与低TMB。图3A、图3B分别是已知肺鳞癌、肺腺癌的TMB散点图。如图3A及图3B所示,上述的490例肺鳞癌病例和559例肺腺癌病例中的47例肺鳞癌病例和109例肺腺癌病例属于高TMB,其余的443例肺鳞癌病例和450例肺腺癌病例属于低TMB;具体的,图3A中肺鳞癌的拐点对应的y坐标值为10.77,图3B中肺腺癌的拐点对应的y坐标值为9.62,即肺鳞癌与肺腺癌的TMB的分类阈值分别是10.77、9.62。
非小细胞肺癌(例如肺鳞癌、肺腺癌)的癌灶区域包含的间质组织和杂质较多,癌细胞的分布较不集中,用人工截取癌灶区域图像的方法极其容易引入大量噪声影响实验结果,因此需要更严格的图像预处理方法。图4是本发明实施例的已知病理图像的预处理过程示意图,所述图像预处理方法具体包括步骤S2与步骤S3。
步骤S2、将已知病理图像切割为多张已知图块,再将多张已知图块重新拼接为已知病理图像,按照步骤S1中的类型对多张已知图块进行标注,以构建初步训练集。
于本实施例中,在上述的490例肺鳞癌病例和559例肺腺癌病例选择采用了60例肺鳞癌病例包含108张全切片病理图像(WSI),其中10例16张WSI的病例属于高TMB,60例肺腺癌病例包含110张WSI,其中10例15张WSI的病例属于高TMB。图5是本发明实施例的已知病理图像的癌灶区域图块标注示意图。如图5所示,于本实施例中,本发明提供一种图块标注方法,包括:首先在20X(物镜倍数)视野下的WSI被切割成多个图块,并选择以256px*256px作为图块大小;然后在20X视野中拼回原WSI图像,并作为待标注对象;最后对癌灶区域图块进行标注,例如标注为绿色。在所述图块标注方法中,能够通过RGB色值的方差大小来识别并过滤空白图块。通过与病理学家的合作,于本实施例中,对60例肺鳞癌病例的108张WSI共标注80485张癌灶区域图块和267138张非癌灶区域图块,对60例肺腺癌病例的110张WSI共标注86135张癌灶区域图块和253645张非癌灶区域图块。
步骤S3、采用多分类投票法对所述初步训练集进行清洗,以构建最终训练集。
于本实施例中,由于在图块级别进行了癌灶区域和非癌灶区域的标注,虽然提高了标注速度,但是图块也不可避免地存在噪音,成为影响最终实验结果的潜在不利因素。为了解决这个问题,本发明采用多分类器投票法用于对已标注图块的初步数据集的数据进行过滤与清洗。具体包括如下步骤:
步骤S31、将已标注的图块数据集(初步训练集)划分为5份,其中每4份作为训练集,用来过滤另1份的结果;
步骤S32、基于多分类器投票法的最佳实践,于本实施例中选用弱分类器,具体的,采用MobileNet、NASNetMobile两个轻量级分类器分别对已标注的图块进行5次训练和预测以实现对全集的预测,最后与原标注进行比较,预测不正确的数据即视为所述分类器认为的噪声数据;
步骤S33、采用一致性过滤原则,过滤掉被MobileNet、NASNetMobile两个分类器预测为假阳性样本的图块,经过实验,于本实施例中过滤掉了80485张肺鳞癌癌灶区域图块中的15622张和86135张肺腺癌癌灶区域图块中的28977张。
步骤S34、采用过滤后的癌灶区域图块(64863张肺鳞癌癌灶区域图快与57158张肺腺癌癌灶区域图快)作为预测TMB分类的图块数据(最终训练集),这些图块用TMB水平的groundtruth进行标注并进行数据增强后(将图块反色),在图块级别以4:1划分最终训练子集与最终测试子集。
步骤S4、以所述最终训练子集与最终测试子集对卷积神经网络(CNN)进行训练,并构建TMB分类模型;
由上述步骤S31-S34得到肺鳞癌和肺腺癌两种类型的最终训练集,因而可藉此训练两种分类模型,分别用于肺鳞癌和肺腺癌的TMB分类。
发明人尝试了AlexNet,VGG和ResNet等经典的基于CNN的图像分类模型后,发现肺鳞癌和肺腺癌数据的过拟合现象非常严重。经过分析,上述模型的提出主要是用来提取自然图像的特征而不是病理图像。相对而言,上述模型更注重图像中主体与环境之间的联系。因此,上述模型的感受野非常大,并且所得特征图中的每个特征包含广泛的信息,甚至是全局特征。例如,AlexNet的pool5层输出的特征图上的像素的感受野为195×195像素,VGG16的最大感受野为212×212像素,ResNet50的最大感受野可达到483×483像素。对于TMB分类任务,过大的感受野所引起的特征消失会使模型忽略癌灶区域细节的形态学信息,因此发明人选择了更小的感受野。
图6是本发明实施例的卷积神经网络分类模型的结构示意图。发明人在测试了不同的超参数后,最终将感受野限定在46×46像素和60×60像素之间。与此对应地,如图6所示,CNN分类模型包含4对卷积层2-1、2-2、2-3、2-4和最大池化层3-1、3-2、3-3、3-4,并依次连接一个包含256个神经元的全连接层4-1和一个仅包含1个神经元的全连接层4-2,其中卷积层2-1、2-2、2-3、2-4和全连接层4-1都采用ReLU激活函数,全连接层4-2使用Sigmoid作为激活函数,这样,对目标图块1处理分析后,以全连接层4-2的输出作为分类的标准。
在锁定了较小的感受野范围之后,为了更精细地控制感受野并设计精准的对比实验,发明人主要使用改变卷积核大小的方法来改变感受野。尽管感受野的大小可以通过调整CNN模型的深度和卷积核的大小,但是模型参数的数量会随着模型深度变化而发生显著变化,从而极大地影响实验效果,如发生过拟合或欠拟合问题。因此,本发明主要使用改变卷积核大小的方法来区分对比实验中的模型。
在卷积层数和感受野范围固定的前提下,通过提取属于前3个卷积层的3个卷积核中的若干个并将它们的大小从3×3改为5×5来设计8个模型。这些模型如表1所示。
模型ID | 卷积核1 | 卷积核2 | 卷积核3 | 卷积核4 | 感受野 |
RF46 | 3×3 | 3×3 | 3×3 | 3×3 | 46×46 |
RF48 | 5×5 | 3×3 | 3×3 | 3×3 | 48×48 |
RF50 | 3×3 | 5×5 | 3×3 | 3×3 | 50×50 |
RF52 | 5×5 | 5×5 | 3×3 | 3×3 | 52×52 |
RF54 | 3×3 | 3×3 | 5×5 | 3×3 | 54×54 |
RF56 | 5×5 | 3×3 | 5×5 | 3×3 | 56×56 |
RF58 | 3×3 | 5×5 | 5×5 | 3×3 | 58×58 |
RF60 | 5×5 | 5×5 | 5×5 | 3×3 | 60×60 |
表1
在用肺鳞癌和肺腺癌数据集训练表1中的8个模型之后,每个模型的准确度和AUC显示如表2所示。
模型ID | Acc(肺鳞癌) | AUC(肺鳞癌) | Acc(肺腺癌) | AUC(肺腺癌) |
RF46 | 0.8693 | 0.9118 | 0.9322 | 0.8355 |
RF48 | 0.8819 | 0.8830 | 0.9357 | 0.8357 |
RF50 | 0.8459 | 0.9110 | 0.9354 | 0.8480 |
RF52 | 0.8570 | 0.8565 | 0.8949 | 0.7976 |
RF54 | 0.8865 | 0.8986 | 0.9267 | 0.8526 |
RF56 | 0.8620 | 0.8334 | 0.9378 | 0.8502 |
RF58 | 0.8741 | 0.8815 | 0.9381 | 0.8407 |
RF60 | 0.8195 | 0.7957 | 0.9354 | 0.8349 |
表2
根据上述实验结果中的预测准确度和AUC值,于本实施例中,肺鳞癌的最佳感受野确定为54×54像素,对应在CNN分类模型上为第三个卷积层的卷积核大小为5×5,其他卷积层全为3×3;肺腺癌的最佳感受野确定为58×58像素,对应在CNN分类模型上为第二和第三个卷积层的卷积核大小为5×5,其他卷积层全为3×3。
步骤S5、对目标病例的目标病理图像进行预处理,以获得多张目标图块;
对目标病理图像的预处理与构建训练集时对已知病理图像的预处理类似,即在20X(物镜倍数)视野下的WSI被切割成多个图块,并选择以256px*256px作为图块大小,并且对切割后的目标图块进行反色。
步骤S6、以分类模型对多张目标图块中的每一张进行分类,以获取多张目标图块中的每一张的TMB分类结果,并且根据所有目标图块的TMB分类结果,通过多数投票法获取目标病例的目标病理图像的TMB分类结果;
于本实施例中,通过投票法获得目标病理图像的TMB分类结果,以图块TMB分类结果对目标病例相对于目标病理图像TMB水平进行投票,以具有最大票数的图块TMB分类结果最为目标病例的目标病理图像的TMB分类结果。
本发明的实施例根据不同癌种(肺鳞癌和肺腺癌)确定了感受野不同的CNN分类模型,将标注好的数据集放入训练之后,其预测的结果即为对应图块的TMB高低水平的分类结果,并将得到的所有癌灶区域图块输入到对应的CNN模型进行预测,对结果采用多数投票法,确定病例的TMB分类。
目前通常使用基因panel来获得大多数临床参考的TMB评分,但是以这种方式获得的TMB(panelTMB)是WES获得的TMB(WESTMB)的近似值。为了评估本发明提出的模型的有效性,本发明使用了目前FDA批准的两个panel:FM1和MSKCCIMPACT468来进行对照实验。首先,从TCGA-LUSC和TCGA-LUAD项目中提取了这两个panel中的基因,并计算了这些panel的TMB分数;其次,同样使用分段回归来找到panelTMB的拐点值作为分类阈值;最后,比较本发明实施例所训练的CNN分类模型预测的TMB分类精度和panel方法预测的TMB分类精度。
上述的对照实验结果如表3所示,用于估测TMB的panel方法的分类准确度和AUC值低于本发明实施例训练的CNN分类模型预测的相应分数。
FM1 | MSKCCIMPACT468 | CNN分类模型 | |
Acc(肺鳞癌) | 0.707 | 0.724 | 0.887 |
AUC(肺鳞癌) | 0.553 | 0.506 | 0.894 |
Acc(肺腺癌) | 0.709 | 0.691 | 0.938 |
AUC(肺腺癌) | 0.636 | 0.640 | 0.840 |
表3
综上所述,本发明提供的基于病理图像的肿瘤突变负荷分类方法与系统,建立了从数据预处理到TMB水平预测的一站式工作流程,其在测定时间周期、测定成本、样品获得难度等指标上均优于基于WES的TMB分数测定方法,并在准确率上优于基于Panel的TMB估测方法;采用的病理图像的标注方法可以显著提高癌灶区域标注效率,在标注速度和精度之间取得了良好的平衡;以及采用的病理图像的数据清洗方法同样基于深度学习,可以有效过滤噪声过多的癌灶区域图块,并提高最终的TMB分类效果。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种基于病理图像的肿瘤突变负荷(TMB)分类方法,其特征在于,包括:
步骤1、根据至少一分类阈值将已知病理图像按照TMB分为多个类型;
步骤2、将所述已知病理图像切割为多张已知图块,再将所述多张已知图块重新拼接为所述已知病理图像,按照所述多个类型对所述多张已知图块进行标注,以构建初步训练集;
步骤3、采用多分类投票法对所述初步训练集进行清洗,以构建最终训练集;
步骤4、通过所述最终训练集对卷积神经网络进行训练,以构建分类模型;
步骤5、对目标病例的目标病理图像进行预处理,以获得多张目标图块;以及
步骤6、以所述分类模型对所述多张目标图块中的每一张进行分类,以获取所述多张目标图块中的每一张的TMB分类结果,并且根据所有所述目标图块的TMB分类结果,通过多数投票法获取所述目标病例的目标病理图像的TMB分类结果。
2.如权利要求1所述的基于病理图像的肿瘤突变负荷(TMB)分类方法,其特征在于,所述步骤3具体包括:
步骤31、分割所述初步训练集,以构建初步训练子集和初步测试子集;
步骤32、采用弱分类器对所述初步训练子集和所述初步测试子集进行训练与预测;
步骤33、采用一致性过滤原则过滤掉被所述弱分类器预测为假阳性样本的已知图块;以及
步骤34、将过滤后的所述已知图块进行反色,并随机划分为所述最终训练集的最终训练子集和最终测试子集。
3.如权利要求1所述的基于病理图像的肿瘤突变负荷(TMB)分类方法,其特征在于,所述步骤5具体包括:
将所述目标病理图像切割为多张目标图块,并且对所述多张目标图块进行反色。
4.如权利要求1所述的基于病理图像的肿瘤突变负荷(TMB)分类方法,其特征在于,所述分类模型依次包括四对卷积层和最大池化层、一层第一全连接层,以及一层第二全连接层;其中,所述四对卷积层和所述第一全连接层均采用ReLU激活函数,所述第二全连接层采用Sigmoid激活函数。
5.如权利要求1所述的基于病理图像的肿瘤突变负荷(TMB)分类方法,其特征在于,所述分类模型的感受野介于46×46像素和60×60像素之间。
6.一种基于病理图像的肿瘤突变负荷(TMB)分类系统,其特征在于,包括:
TMB分类模块,用于根据至少一分类阈值将已知病理图像按照TMB分为多个类型;
初步训练集构建模块,用于将所述已知病理图像切割为多张已知图块,再将所述多张已知图块重新拼接为所述已知病理图像,按照所述多个类型对所述多张已知图块进行标注,以构建初步训练集;
图块清洗模块,用于采用多分类投票法对所述初步训练集进行清洗,以构建最终训练集;
分类模型构建模块,用于通过所述最终训练集对卷积神经网络进行训练,以构建分类模型;
目标图像预处理模块,用于对目标病例的目标病理图像进行预处理,以获得多张目标图块;以及
目标图像分类模块,用于以所述分类模型对每一张所述目标图块进行分类,以获取每一张所述目标图块的TMB分类结果,并且根据所有所述目标图块的TMB分类结果,通过多数投票法获取所述目标病例的目标病理图像的TMB分类结果。
7.如权利要求6所述的基于病理图像的肿瘤突变负荷(TMB)分类系统,其特征在于,所述图块清洗模块包括:
初步训练集分割模块,用于分割所述初步训练集,以构建初步训练子集和初步测试子集;
分类器训练预测模块,用于采用弱分类器对所述初步训练子集和所述初步测试子集进行训练与预测;
图块过滤模块,用于采用一致性过滤原则过滤掉被所述弱分类器预测为假阳性样本的已知图块;以及
最终训练集构建模块,用于将过滤后的所述已知图块进行反色,并随机划分为所述最终训练集的最终训练子集和最终测试子集。
8.如权利要求6所述的基于病理图像的肿瘤突变负荷(TMB)分类系统,其特征在于,所述目标图像预处理模块中的对目标病理图像进行预处理具体包括将所述目标病理图像切割为多张目标图块,并且对所述多张目标图块进行反色。
9.如权利要求6所述的基于病理图像的肿瘤突变负荷(TMB)分类系统,其特征在于,所述分类模型依次包括四对卷积层和最大池化层、一层第一全连接层,以及一层第二全连接层;其中,所述四对卷积层和所述第一全连接层均采用ReLU激活函数,所述第二全连接层采用Sigmoid激活函数。
10.如权利要求6所述的基于病理图像的肿瘤突变负荷(TMB)分类系统,其特征在于,所述分类模型的感受野介于46×46像素和60×60像素之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010772358.1A CN112101409B (zh) | 2020-08-04 | 2020-08-04 | 基于病理图像的肿瘤突变负荷(tmb)分类方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010772358.1A CN112101409B (zh) | 2020-08-04 | 2020-08-04 | 基于病理图像的肿瘤突变负荷(tmb)分类方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101409A CN112101409A (zh) | 2020-12-18 |
CN112101409B true CN112101409B (zh) | 2023-06-20 |
Family
ID=73749623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010772358.1A Active CN112101409B (zh) | 2020-08-04 | 2020-08-04 | 基于病理图像的肿瘤突变负荷(tmb)分类方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101409B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744251B (zh) * | 2021-09-07 | 2023-08-29 | 上海桐树生物科技有限公司 | 基于自注意力机制从病理图片预测微卫星不稳定性的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717554A (zh) * | 2018-05-22 | 2018-10-30 | 复旦大学附属肿瘤医院 | 一种甲状腺肿瘤病理组织切片图像分类方法及其装置 |
US10650520B1 (en) * | 2017-06-06 | 2020-05-12 | PathAI, Inc. | Systems and methods for training a statistical model to predict tissue characteristics for a pathology image |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866893B (zh) * | 2019-09-30 | 2021-04-06 | 中国科学院计算技术研究所 | 基于病理图像的tmb分类方法、系统及tmb分析装置 |
CN111370059A (zh) * | 2020-03-05 | 2020-07-03 | 上海市肺科医院(上海市职业病防治院) | 一种肿瘤突变负荷的预测系统及方法 |
-
2020
- 2020-08-04 CN CN202010772358.1A patent/CN112101409B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10650520B1 (en) * | 2017-06-06 | 2020-05-12 | PathAI, Inc. | Systems and methods for training a statistical model to predict tissue characteristics for a pathology image |
CN108717554A (zh) * | 2018-05-22 | 2018-10-30 | 复旦大学附属肿瘤医院 | 一种甲状腺肿瘤病理组织切片图像分类方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112101409A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866893B (zh) | 基于病理图像的tmb分类方法、系统及tmb分析装置 | |
Hao et al. | PAGE-Net: interpretable and integrative deep learning for survival analysis using histopathological images and genomic data | |
Pan et al. | Accurate segmentation of nuclei in pathological images via sparse reconstruction and deep convolutional networks | |
Zhu et al. | Wsisa: Making survival prediction from whole slide histopathological images | |
CN110245657B (zh) | 病理图像相似性检测方法及检测装置 | |
EP3938948A1 (en) | Multiple instance learner for prognostic tissue pattern identification | |
CN108564589A (zh) | 一种基于改进全卷积神经网络的植物叶片分割方法 | |
CN111079862A (zh) | 基于深度学习的甲状腺乳头状癌病理图像分类方法 | |
US20220237789A1 (en) | Weakly supervised multi-task learning for cell detection and segmentation | |
Xu et al. | Using transfer learning on whole slide images to predict tumor mutational burden in bladder cancer patients | |
Lee et al. | HiComet: a high-throughput comet analysis tool for large-scale DNA damage assessment | |
CN111860106A (zh) | 一种无监督的桥梁裂缝识别方法 | |
US11804029B2 (en) | Hierarchical constraint (HC)-based method and system for classifying fine-grained graptolite images | |
Lee et al. | Model architecture and tile size selection for convolutional neural network training for non-small cell lung cancer detection on whole slide images | |
Wen et al. | A methodology for texture feature-based quality assessment in nucleus segmentation of histopathology image | |
CN112101409B (zh) | 基于病理图像的肿瘤突变负荷(tmb)分类方法与系统 | |
Di Ruberto et al. | A feature learning framework for histology images classification | |
Teverovskiy et al. | Improved prediction of prostate cancer recurrence based on an automated tissue image analysis system | |
Belean et al. | Unsupervised image segmentation for microarray spots with irregular contours and inner holes | |
CN112419335B (zh) | 一种细胞核分割网络的形状损失计算方法 | |
Verschuuren et al. | Accurate detection of dysmorphic nuclei using dynamic programming and supervised classification | |
US20240029247A1 (en) | Systems and methods for quantitative phenotyping of biological fibrilar structures | |
CN109191452B (zh) | 一种基于主动学习的腹腔ct图像腹膜转移自动标记方法 | |
CN111709425A (zh) | 一种基于特征迁移的肺部ct图像分类方法 | |
Guo et al. | Automatic rock classification algorithm based on ensemble residual network and merged region extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |