CN114999571B - 一种诊断早期结肠癌的突变基因筛选方法及系统 - Google Patents

一种诊断早期结肠癌的突变基因筛选方法及系统 Download PDF

Info

Publication number
CN114999571B
CN114999571B CN202210627980.2A CN202210627980A CN114999571B CN 114999571 B CN114999571 B CN 114999571B CN 202210627980 A CN202210627980 A CN 202210627980A CN 114999571 B CN114999571 B CN 114999571B
Authority
CN
China
Prior art keywords
colon cancer
mutation
early
gene
colon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210627980.2A
Other languages
English (en)
Other versions
CN114999571A (zh
Inventor
张岩
吴琼
曽嘉琪
张梦燕
顾悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202210627980.2A priority Critical patent/CN114999571B/zh
Publication of CN114999571A publication Critical patent/CN114999571A/zh
Application granted granted Critical
Publication of CN114999571B publication Critical patent/CN114999571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种诊断早期结肠癌的突变基因筛选方法及系统,其中,该方法包括:整合TCGA的结肠癌突变数据和H&E染色的病理学图像数据,利用统计学方法以及随机森林模型筛选早期和进展期结肠癌间差异的特征突变基因十个特征突变基因;使病理学专家勾画出的肿瘤组织所在部位构建训练、验证集,以训练inception V3模型并对其参数进行优化,得到结肠肿瘤病理学图像特征,进而构建结肠腺瘤、早期、进展期结肠癌的三类图像分类模型,以识别不同阶段的结肠肿瘤图像;根据该图像和突变基因构建早期结肠癌病理学图像突变基因预测模型,以筛选出最佳诊断癌症突变基因。该方法全面分析结肠癌早期驱动突变的风险因素,促使在早期结肠癌能够被早期筛选处理。

Description

一种诊断早期结肠癌的突变基因筛选方法及系统
技术领域
本发明涉及结肠癌早期诊断技术领域,特别涉及一种诊断早期结肠癌的突变基因筛选方法及系统。
背景技术
在2020年,中国有超过55万人新患结直肠癌,占中国新确诊癌症人数的12.2%。目前结直肠癌的治疗决策依赖于TNM分期等病理指标,比如Ⅰ期不伴随着淋巴结转移和远端转移,Ⅱ/Ⅱ期患者有一定转移,Ⅳ期患者一定有转移。因此结肠癌AJCC指南第八版的结肠癌分期标准中指出,Ⅰ期患者可以界定为早期结肠癌,Ⅱ/Ⅱ期患者为进展期结肠癌,Ⅳ期患者为晚期结肠癌。对于转移性结肠癌患者术后的治疗方案较为容易制定,即采取根治性手术切除;对于Ⅰ期一般采取化疗的手段。处于早期结肠癌的的群体在治疗后仍然处于发展为结肠息肉和异时性结肠癌的高风险中。从概念上讲,这种早期疾病的诊断促使了结肠镜监测成为新兴管理方法。然而,精确的分期至关重要,不仅在评估辅助化疗的必要性方面,而且在选择患者进行持续监测方面也是如此。
在癌症中,大约90%的癌症基因发生体细胞突变,而20%的发生种系突变,有10%同时有体细胞和种系突变。体细胞突变是致癌过程中的关键,也是致癌过程的核心。不同类型的突变通常是由于暴露于不同类型的环境致癌物而引起的,识别体细胞突变使我们能够更多地了解结肠癌的发生和发展,但更重要的是,它有助于我们优化结肠癌患者的治疗方法,甚至找到新的治疗方法。在结肠癌的演变过程中,腺瘤性息肉病大肠杆菌(APC)基因突变是腺瘤形成的关键分子步骤,而从腺瘤到结肠癌的发展是一个多步骤过程,涉及k-ras和p53基因的突变以及DNA甲基化使DNA表达沉默等。许多环境因素可能会通过调节这些分子途径来增加患结肠癌的风险。处于晚期且无法治愈的阶段的结直肠癌通常可产生临床发现,而癌前腺瘤性息肉和早期可高度治愈的结直肠癌通常无症状。这种现象使腺瘤或早期癌症难以通过临床表现进行检测。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种诊断早期结肠癌的突变基因筛选方法。
本发明的第二个目的在于提出一种诊断早期结肠癌的突变基因筛选系统。
本发明的第三个目的在于提出一种诊断早期结肠癌的突变基因筛选计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达到上述目的,本发明第一方面实施例提出了诊断早期结肠癌的突变基因筛选方法,包括以下步骤:步骤S1,整合TCGA的结肠癌突变数据和H&E染色的病理学图像数据,利用统计学方法以及随机森林模型筛选早期和进展期结肠癌间差异的十个特征突变基因;步骤S2,基于结肠腺瘤和结肠癌的组织病理学图像,利用病理学专家勾画出的肿瘤组织所在部位,以构建出训练集和验证集;步骤S3,根据所述训练集训练inception V3模型以学会肿瘤区域和肿瘤旁区域的分类,并对其参数进行优化,得到结肠肿瘤病理学图像特征;步骤S4,利用所述结肠肿瘤病理学图像特征构建结肠腺瘤、早期结肠癌和进展期结肠癌不同阶段结肠肿瘤部位的三类图像分类模型,以识别不同阶段的结肠肿瘤图像;步骤S5,根据所述不同阶段的结肠肿瘤图像和所述十个特征突变基因构建早期结肠癌病理学图像突变基因预测模型,根据所述早期结肠癌病理学图像突变基因预测模型筛选出最佳诊断癌症突变基因。
本发明实施例的诊断早期结肠癌的突变基因筛选方法,将突变与病理学图像结合起来,即克服了早期结肠癌分化程度低而病理学特征不明显的障碍,又解决了突变筛选耗时耗力的困难,能提高早期结肠癌诊断的准确性,节约成本,适于推广应用,具有较好的应用前景。
另外,根据本发明上述实施例的诊断早期结肠癌的突变基因筛选方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述步骤S1具体包括:步骤S101,获取所述TCGA的结肠癌突变数据和所述H&E染色的病理学图像数据,根据基因突变的类别删除同义突变类型;步骤S102,按照基因是否发生突变,将删除后的突变数据整理为基于基因突变的0,1离散谱矩阵,其中,1为基因发生突变,0为基因没有发生突变;步骤S103,将所述0,1离散谱矩阵中样本按照Stage分期划分为结肠癌早期(I期)和结肠癌进展期(II期和III期),并利用欠采样方法对其进行均衡化,将均衡化后的样本7:3随机分为训练集和测试集;步骤S104,利用所述训练集建立结肠癌早期和进展期的随机森林分类模型,利用Gini指数计算特征的重要性并选取对分类效能贡献最大的基因作为最终特征选择的结果,并利用十倍交叉验证以及ROC曲线评估所述随机森林分类模型,筛选出所述十个特征突变基因。
进一步地,在本发明的一个实施例中,所述十个特征突变基因为RIMS1、FNDC1、RELN、HMCN1、DNAH10、ZNF469、TSHZ3、BRWD3、APOB和GRIA4。
进一步地,在本发明的一个实施例中,所述步骤S5具体包括:步骤S501,根据所述十个特征突变基因将每张早期结肠癌的肿瘤图像的标签设置为一个10维向量,每个关键基因突变分类作为二元分类;步骤S502,修改训练后的inception V3模型以执行多任务分类,用一个sigmoid层替换模型中的最后一个softmax层,以允许每个样本与几个二进制标签相关联,从而构建出所述早期结肠癌病理学图像突变基因预测模型;步骤S503,根据所述早期结肠癌病理学图像突变基因预测模型筛选出最佳诊断癌症突变基因。
为达到上述目的,本发明第二方面实施例提出了诊断早期结肠癌的突变基因筛选系统,包括:筛选模块,用于整合TCGA的结肠癌突变数据和H&E染色的病理学图像数据,利用统计学方法以及随机森林模型筛选早期和进展期结肠癌间差异的十个特征突变基因;勾画模块,用于基于结肠腺瘤和结肠癌的组织病理学图像,利用病理学专家勾画出的肿瘤组织所在部位,以构建出训练集和验证集;训练和优化模块,用于根据所述训练集训练inception V3模型以学会肿瘤区域和肿瘤旁区域的分类,并对其参数进行优化,得到结肠肿瘤病理学图像特征;分类模块构建模块,用于利用所述结肠肿瘤病理学图像特征构建结肠腺瘤、早期结肠癌和进展期结肠癌不同阶段结肠肿瘤部位的三类图像分类模型,以识别不同阶段的早期结肠癌的肿瘤图像;基因预测模块,用于根据所述不同阶段的早期结肠癌的肿瘤图像和所述十个特征突变基因构建早期结肠癌病理学图像突变基因预测模型,根据所述早期结肠癌病理学图像突变基因预测模型筛选出最佳诊断癌症突变基因。
本发明实施例的诊断早期结肠癌的突变基因筛选系统,将突变与病理学图像结合起来,即克服了早期结肠癌分化程度低而病理学特征不明显的障碍,又解决了突变筛选耗时耗力的困难,能提高早期结肠癌诊断的准确性,节约成本,适于推广应用,具有较好的应用前景。
另外,根据本发明上述实施例的诊断早期结肠癌的突变基因筛选系统还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述筛选模块具体包括:获取和删除单元,用于获取所述TCGA的结肠癌突变数据和所述H&E染色的病理学图像数据,根据基因突变的类别删除同义突变类型;整理单元,用于按照基因是否发生突变,将删除后的突变数据整理为基于基因突变的0,1离散谱矩阵,其中,1为基因发生突变,0为基因没有发生突变;划分样本单元,用于将所述0,1离散谱矩阵中样本按照Stage分期划分为结肠癌早期(I期)和结肠癌进展期(II期和III期),并利用欠采样方法对其进行均衡化,将均衡化后的样本7:3随机分为训练集和测试集;筛选单元,用于利用所述训练集建立结肠癌早期和进展期的随机森林分类模型,利用Gini指数计算特征的重要性并选取对分类效能贡献最大的基因作为最终特征选择的结果,并利用十倍交叉验证以及ROC曲线评估所述随机森林分类模型,筛选出所述十个特征突变基因。
进一步地,在本发明的一个实施例中,所述十个特征突变基因为RIMS1、FNDC1、RELN、HMCN1、DNAH10、ZNF469、TSHZ3、BRWD3、APOB和GRIA4。
进一步地,在本发明的一个实施例中,所述基因预测模块具体包括:二元分类单元,用于根据所述十个特征突变基因将每张早期结肠癌的肿瘤图像的标签设置为一个10维向量,每个关键基因突变分类作为二元分类;关联及构建单元,用于修改训练后的inception V3模型以执行多任务分类,用一个sigmoid层替换模型中的最后一个softmax层,以允许每个样本与几个二进制标签相关联,从而构建出所述早期结肠癌病理学图像突变基因预测模型;预测单元,用于根据所述早期结肠癌病理学图像突变基因预测模型筛选出最佳诊断癌症突变基因。
本发明又一方面实施例提供一种诊断早期结肠癌的突变基因筛选计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述实施例所述的一种诊断早期结肠癌的突变基因筛选方法。
本发明还一方面实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例所述的一种诊断早期结肠癌的突变基因筛选方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的诊断早期结肠癌的突变基因筛选方法的流程图;
图2是本发明一个实施例的诊断早期结肠癌的突变基因筛选系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
需要说明的是,结肠镜检查是最常用的技术,也是结肠癌筛查的金标准。它也是结肠癌早期诊断和预防的首选技术。组织病理学载玻片可以更全面地了解疾病及其对组织的影响,因为制备过程保留了潜在的组织结构。因此,某些疾病特征,例如癌症的淋巴细胞浸润,可以仅从组织病理学图像中推断出来。结肠镜检查的目的是发现和去除结肠癌的前体结肠息肉。这些息肉的形状、颜色和大小可能会有所不同。此外,染色图像的虚拟显微镜通常以20×至40倍的放大率获取,产生非常大的二维图像(在每个维度中10,000至100,000像素),非常详尽的在视觉上检查是具有挑战的。此外,准确的解释是很困难的,而且早期结肠癌Ⅰ期和进展期结肠癌Ⅱ/Ⅱ之间的区别并不总是很清楚,特别是低分化肿瘤。由于所有这些因素,难以检测的息肉以及结肠癌精确分期等问题可能会导致医疗专业人员有时会得到错误的结果。当然,这会降低转移性结肠癌患者的存活率。因此,作为计算机辅助设计应用的深度学习在早期结肠癌和息肉检测中占有重要地位。另外,癌症的形态与遗传驱动因素有关,例如E-钙粘蛋白(CDH1)的丢失会促进小叶而不是乳腺导管表型。组织病理学图像中显示的形态不仅是H&E染色的结果,也是潜在遗传驱动因素导致的结果,因此有研究者提出基因突变可以从H&E图像中预测出来,例如从前列腺癌H&E图像中预测SPOP突变的AUC约为0.71。
因此,本发明实施例通过呈现基于卷积神经网络(CNNS)的策略来证明在结肠癌诊断治疗中如何进一步从深度学习中受益,并且实现与病理学家相当的准确性。通过全面分析结肠癌早期驱动突变的风险因素,构建早期结肠癌病理学图像突变基因预测模型,促使结肠癌早期可以被更精确地评估;尤其是在早期结肠癌筛查方面,指导临床医生更好地帮助结肠癌患者精确诊断,达到更好的治疗效果。
下面参照附图描述根据本发明实施例提出的诊断早期结肠癌的突变基因筛选方法及系统,首先将参照附图描述根据本发明实施例提出的诊断早期结肠癌的突变基因筛选方法。
图1是本发明一个实施例的诊断早期结肠癌的突变基因筛选方法的流程图。
如图1所示,该诊断早期结肠癌的突变基因筛选方法包括以下步骤:
在步骤S1中,整合TCGA的结肠癌突变数据和H&E染色的病理学图像数据,利用统计学方法以及随机森林模型筛选早期和进展期结肠癌间差异的十个特征突变基因。
进一步地,在本发明的一个实施例中,步骤S1具体包括:
步骤S101,获取TCGA的结肠癌突变数据和H&E染色的病理学图像数据,根据基因突变的类别删除同义突变类型;
步骤S102,按照基因是否发生突变,将删除后的突变数据整理为基于基因突变的0,1离散谱矩阵,其中,1为基因发生突变,0为基因没有发生突变;
步骤S103,将0,1离散谱矩阵中样本按照Stage分期划分为结肠癌早期(I期)和结肠癌进展期(II期和III期),并利用欠采样方法对其进行均衡化,将均衡化后的样本7:3随机分为训练集和测试集;
步骤S104,利用训练集建立结肠癌早期和进展期的随机森林分类模型,利用Gini指数计算特征的重要性并选取对分类效能贡献最大的基因作为最终特征选择的结果,并利用十倍交叉验证以及ROC曲线评估随机森林分类模型,筛选出十个特征突变基因。
其中,十个特征突变基因为RIMS1、FNDC1、RELN、HMCN1、DNAH10、ZNF469、TSHZ3、BRWD3、APOB和GRIA4。
具体地,首先整合TCGA的结肠癌突变数据和对应的临床临床资料,根据基因突变的类别删除同义突变类型后,按照基因是否在结肠癌患者中发生突变,把突变数据整理为基于基因突变的0,1离散谱矩阵,基因发生了突变设置为1,没有发生突变设置为0。
其次将结肠癌患者根据AJCC第八版指南的分期标准分为结肠癌早期和结肠癌进展期;利用欠采样的方法对样本进行均衡化之后,将均衡化的样本7:3随机分为训练集和测试集,在训练集中建立结肠癌早期和进展期的随机森林分类模型,利用Gini指数计算特征的重要性并选取对分类效能贡献最大的基因作为最终特征选择的结果,并利用十倍交叉验证以及ROC曲线来评估模型的准确性。
需要说明的是,ROC曲线是反映敏感性(sensitivity,TPR)与特异性(specificity,FPR)之间关系的曲线,通过其趋势走向来衡量预测效能,并通过曲线下面积(AUC)量化准确性。ROC曲线是多个混淆矩阵的结果组合,利用预测每个样本结果的概率从高到低排序,将每次得到的概率值依次作为阈值划分类别,从而得到多个混淆矩阵。混淆矩阵包含四部分:(1)预测阳性类别与真实阳性类别一致的TP;(2)预测阳性而真实为阴性的FP;(3)真实为阳性但预测为阴性的FN;(4)真实和预测都是阴性的TN。
分类器预测的敏感性反映了对阳性样本的识别能力计算方式为:
分类器预测的特异性反映了对阴性样本的识别能力计算方式为:
对于每个混淆矩阵,依次计算FPR和TPR。将计算得到的TPR作为纵坐标,FPR作为横坐标就得到了ROC曲线,坐标轴的范围都在[0,1]之间。曲线下面积(AUC)是ROC曲线的曲线下面积,是用来度量分类模型好坏的一个标准,AUC=1代表了一个完美分类器,代表着所有样本都能正确分类,AUC越大预示着分类器性能越好。
最终揭示出一组共十个特征突变基因RIMS1、FNDC1、RELN、HMCN1、DNAH10、ZNF469、TSHZ3、BRWD3、APOB、GRIA4的突变状态能将结肠癌早期与进展期区分开(突变状态代表发生与不发生,AUC=90%),且十个基因在结肠癌早期中表现出低的突变频率而在结肠癌进展期表现为高的突变频率,这一点在测试集里也得到了验证(AUC=75%)
步骤S2中,基于结肠腺瘤和结肠癌的组织病理学图像,利用病理学专家勾画出的肿瘤组织所在部位,以构建出训练集和验证集。
在步骤S3中,根据训练集训练inception V3模型以学会肿瘤区域和肿瘤旁区域的分类,并对其参数进行优化,得到结肠肿瘤病理学图像特征。
具体地,基于结肠腺瘤和结肠癌的组织病理学图像,利用有经验的病理学专家在勾画出的肿瘤组织所在部位,在训练集上训练inception V3模型来对勾画内的肿瘤区域和勾画外的肿瘤旁区域分类,在验证集上验证模型的可靠性并对模型参数进行优化,最终得到结肠肿瘤病理学图像特征。
在步骤S4中,利用结肠肿瘤病理学图像特征构建结肠腺瘤、早期结肠癌和进展期结肠癌不同阶段结肠肿瘤部位的三类图像分类模型,以识别不同阶段的结肠肿瘤图像。
具体地,利用模型可以实现对结肠组织病理学图像肿瘤部位的准确识别,利用识别到的肿瘤组织部位图像(即结肠肿瘤病理学图像特征)再构建结肠腺瘤、早期结肠癌和进展期结肠癌不同阶段结肠肿瘤部位图像的三分类模型,进一步找到不同阶段肿瘤患者病理学图片的图像特征,指导临床更加精确的诊断和治疗。
在步骤S5中,根据不同阶段的结肠肿瘤图像和十个特征突变基因构建早期结肠癌病理学图像突变基因预测模型,根据早期结肠癌病理学图像突变基因预测模型筛选出最佳诊断癌症突变基因。
进一步地,在本发明的一个实施例中,步骤S5具体包括:
步骤S501,根据十个特征突变基因将每张早期结肠癌的肿瘤图像的标签设置为一个10维向量,每个关键基因突变分类作为二元分类;
步骤S502,修改训练后的inception V3模型以执行多任务分类,用一个sigmoid层替换模型中的最后一个softmax层,以允许每个样本与几个二进制标签相关联,从而构建出早期结肠癌病理学图像突变基因预测模型;
步骤S503,根据早期结肠癌病理学图像突变基因预测模型筛选出最佳诊断癌症突变基因。
具体地,利用三分类模型识别到的早期结肠癌的肿瘤图像结合上述随机森林筛选的十个特征突变基因来构建早期结肠癌病理学图像突变基因预测模型,主要方法如下:(1)根据10个关键突变基因的突变情况,将每张图像的标签设置为一个10维的向量,每个关键基因突变分类都被视为二元分类(突变与不突变);(2)本发明实施例修改了inception v3以执行多任务分类而不是单任务分类,用一个sigmoid层替换了网络的最后一个softmax层,以允许每个样本与几个二进制标签相关联,以构建出早期结肠癌病理学图像突变基因预测模型;(3)在训练集中训练早期结肠癌病理学图像突变基因预测模型,测试集里检验模型的预测性能。
需要说明的是,本发明实施例通过上述方法,结果显示在十个特征突变基因中发现有三个基因RELN、DNAH10、ZNF469的突变状态可以从早期病理学图像准确的预测,在不断迭代后AUC都趋于稳定,且都大于70%,其中DNAH10基因在测试集里显示AUC为78.26%,RELN基因在测试集里显示AUC为77.55%,ZNF469基因在测试集里显示AUC为74.02%,即在对早期结肠癌患者的病理学图像进行突变预测时,可成功地将DNAH10确定为最有可能发生突变的基因。
综上,根据本发明实施例提出的诊断早期结肠癌的突变基因筛选方法,将突变与病理学图像结合起来,即克服了早期结肠癌分化程度低而病理学特征不明显的障碍,又解决了突变筛选耗时耗力的困难,能提高早期结肠癌诊断的准确性,节约成本,适于推广应用,具有较好的应用前景。
其次参照附图描述根据本发明实施例提出的诊断早期结肠癌的突变基因筛选系统。
图2是本发明一个实施例的诊断早期结肠癌的突变基因筛选系统的结构示意图。
如图2所示,该系统10包括:筛选模块100、勾画模块200、训练和优化模块300、分类模块构建模块400和基因预测模块500。
其中,筛选模块100用于整合TCGA的结肠癌突变数据和H&E染色的病理学图像数据,利用统计学方法以及随机森林分类模型筛选早期和进展期结肠癌间差异的十个特征突变基因。勾画模块200用于基于结肠腺瘤和结肠癌的组织病理学图像,利用病理学专家勾画出的肿瘤组织所在部位,以构建出训练集和验证集。训练和优化模块300用于根据训练集训练inception V3模型以学会肿瘤区域和肿瘤旁区域的分类,并对其参数进行优化,得到结肠肿瘤病理学图像特征。分类模块构建模块400用于利用结肠肿瘤病理学图像特征构建结肠腺瘤、早期结肠癌和进展期结肠癌不同阶段结肠肿瘤部位的三类图像分类模型,以识别不同阶段的早期结肠癌的肿瘤图像。基因预测模块500用于根据不同阶段的早期结肠癌的肿瘤图像和十个特征突变基因构建早期结肠癌病理学图像突变基因预测模型,根据早期结肠癌病理学图像突变基因预测模型筛选出最佳诊断癌症突变基因。
进一步地,在本发明的一个实施例中,筛选模块具体包括:获取和删除单元,用于获取TCGA的结肠癌突变数据和H&E染色的病理学图像数据,根据基因突变的类别删除同义突变类型;整理单元,用于按照基因是否发生突变,将删除后的突变数据整理为基于基因突变的0,1离散谱矩阵,其中,1为基因发生突变,0为基因没有发生突变;划分样本单元,用于将0,1离散谱矩阵中样本按照Stage分期划分为结肠癌早期(I期)和结肠癌进展期(II期和III期),并利用欠采样方法对其进行均衡化,将均衡化后的样本7:3随机分为训练集和测试集;筛选单元,用于利用训练集建立结肠癌早期和进展期的随机森林分类模型,利用Gini指数计算特征的重要性并选取对分类效能贡献最大的基因作为最终特征选择的结果,并利用十倍交叉验证以及ROC曲线评估随机森林分类模型,筛选出十个特征突变基因。
进一步地,在本发明的一个实施例中,十个特征突变基因为RIMS1、FNDC1、RELN、HMCN1、DNAH10、ZNF469、TSHZ3、BRWD3、APOB和GRIA4。
进一步地,在本发明的一个实施例中,基因预测模块具体包括:二元分类单元,用于根据十个特征突变基因将每张早期结肠癌的肿瘤图像的标签设置为一个10维向量,每个关键基因突变分类作为二元分类;关联及构建单元,用于修改训练后的inception V3模型以执行多任务分类,用一个sigmoid层替换模型中的最后一个softmax层,以允许每个样本与几个二进制标签相关联,从而构建出早期结肠癌病理学图像突变基因预测模型;预测单元,用于根据早期结肠癌病理学图像突变基因预测模型筛选出最佳诊断癌症突变基因。
需要说明的是,前述对诊断早期结肠癌的突变基因筛选方法实施例的解释说明也适用于该实施例的系统,此处不再赘述。
根据本发明实施例提出的诊断早期结肠癌的突变基因筛选系统,将突变与病理学图像结合起来,即克服了早期结肠癌分化程度低而病理学特征不明显的障碍,又解决了突变筛选耗时耗力的困难,能提高早期结肠癌诊断的准确性,节约成本,适于推广应用,具有较好的应用前景。
为了实现上述实施例,本发明还提出了一种诊断早期结肠癌的突变基因筛选计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如前述实施例所述的诊断早期结肠癌的突变基因筛选方法。
为了实现上述实施例,本发明还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施例所述的诊断早期结肠癌的突变基因筛选方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种诊断早期结肠癌的突变基因筛选方法,其特征在于,包括以下步骤:
步骤S1,整合TCGA的结肠癌突变数据和H&E染色的病理学图像数据,利用统计学方法以及随机森林模型筛选早期和进展期结肠癌间差异的十个特征突变基因;
步骤S2,基于结肠腺瘤和结肠癌的组织病理学图像,利用病理学专家勾画出的肿瘤组织所在部位,以构建出训练集和验证集;
步骤S3,根据所述训练集训练inception V3模型以学会肿瘤区域和肿瘤旁区域的分类,并对其参数进行优化,得到结肠肿瘤病理学图像特征;
步骤S4,利用所述结肠肿瘤病理学图像特征构建结肠腺瘤、早期结肠癌和进展期结肠癌不同阶段结肠肿瘤部位的三类图像分类模型,以识别不同阶段的结肠肿瘤图像;
步骤S5,根据所述不同阶段的结肠肿瘤图像和所述十个特征突变基因构建早期结肠癌病理学图像突变基因预测模型,根据所述早期结肠癌病理学图像突变基因预测模型筛选出最佳诊断癌症突变基因。
2.根据权利要求1所述的一种诊断早期结肠癌的突变基因筛选方法,其特征在于,所述步骤S1具体包括:
步骤S101,获取所述TCGA的结肠癌突变数据和所述H&E染色的病理学图像数据,根据基因突变的类别删除同义突变类型;
步骤S102,按照基因是否发生突变,将删除后的突变数据整理为基于基因突变的0,1离散谱矩阵,其中,1为基因发生突变,0为基因没有发生突变;
步骤S103,将所述0,1离散谱矩阵中样本按照Stage分期划分为结肠癌早期和结肠癌进展期,并利用欠采样方法对其进行均衡化,将均衡化后的样本7:3随机分为训练集和测试集;
步骤S104,利用所述训练集建立结肠癌早期和进展期的随机森林分类模型,利用Gini指数计算特征的重要性并选取对分类效能贡献最大的基因作为最终特征选择的结果,并利用十倍交叉验证以及ROC曲线评估所述随机森林分类模型,筛选出所述十个特征突变基因。
3.根据权利要求2所述的一种诊断早期结肠癌的突变基因筛选方法,其特征在于,所述十个特征突变基因为RIMS1、FNDC1、RELN、HMCN1、DNAH10、ZNF469、TSHZ3、BRWD3、APOB和GRIA4。
4.根据权利要求1所述的一种诊断早期结肠癌的突变基因筛选方法,其特征在于,所述步骤S5具体包括:
步骤S501,根据所述十个特征突变基因将每张早期结肠癌的肿瘤图像的标签设置为一个10维向量,每个关键基因突变分类作为二元分类;
步骤S502,修改训练后的inception V3模型以执行多任务分类,用一个sigmoid层替换模型中的最后一个softmax层,以允许每个样本与几个二进制标签相关联,从而构建出所述早期结肠癌病理学图像突变基因预测模型;
步骤S503,根据所述早期结肠癌病理学图像突变基因预测模型筛选出最佳诊断癌症突变基因。
5.一种诊断早期结肠癌的突变基因筛选系统,其特征在于,包括:
筛选模块,用于整合TCGA的结肠癌突变数据和H&E染色的病理学图像数据,利用统计学方法以及随机森林模型筛选早期和进展期结肠癌间差异的十个特征突变基因;
勾画模块,用于基于结肠腺瘤和结肠癌的组织病理学图像,利用病理学专家勾画出的肿瘤组织所在部位,以构建出训练集和验证集;
训练和优化模块,用于根据所述训练集训练inception V3模型以学会肿瘤区域和肿瘤旁区域的分类,并对其参数进行优化,得到结肠肿瘤病理学图像特征;
分类模块构建模块,用于利用所述结肠肿瘤病理学图像特征构建结肠腺瘤、早期结肠癌和进展期结肠癌不同阶段结肠肿瘤部位的三类图像分类模型,以识别不同阶段的早期结肠癌的肿瘤图像;
基因预测模块,用于根据所述不同阶段的早期结肠癌的肿瘤图像和所述十个特征突变基因构建早期结肠癌病理学图像突变基因预测模型,根据所述早期结肠癌病理学图像突变基因预测模型筛选出最佳诊断癌症突变基因。
6.根据权利要求5所述的一种诊断早期结肠癌的突变基因筛选系统,其特征在于,所述筛选模块具体包括:
获取和删除单元,用于获取所述TCGA的结肠癌突变数据和所述H&E染色的病理学图像数据,根据基因突变的类别删除同义突变类型;
整理单元,用于按照基因是否发生突变,将删除后的突变数据整理为基于基因突变的0,1离散谱矩阵,其中,1为基因发生突变,0为基因没有发生突变;
划分样本单元,用于将所述0,1离散谱矩阵中样本按照Stage分期划分为结肠癌早期和结肠癌进展期,并利用欠采样方法对其进行均衡化,将均衡化后的样本7:3随机分为训练集和测试集;
筛选单元,用于利用所述训练集建立结肠癌早期和进展期的随机森林分类模型,利用Gini指数计算特征的重要性并选取对分类效能贡献最大的基因作为最终特征选择的结果,并利用十倍交叉验证以及ROC曲线评估所述随机森林分类模型,筛选出所述十个特征突变基因。
7.根据权利要求6所述的一种诊断早期结肠癌的突变基因筛选系统,其特征在于,所述十个特征突变基因为RIMS1、FNDC1、RELN、HMCN1、DNAH10、ZNF469、TSHZ3、BRWD3、APOB和GRIA4。
8.根据权利要求5所述的一种诊断早期结肠癌的突变基因筛选系统,其特征在于,所述基因预测模块具体包括:
二元分类单元,用于根据所述十个特征突变基因将每张早期结肠癌的肿瘤图像的标签设置为一个10维向量,每个关键基因突变分类作为二元分类;
关联及构建单元,用于修改训练后的inception V3模型以执行多任务分类,用一个sigmoid层替换模型中的最后一个softmax层,以允许每个样本与几个二进制标签相关联,从而构建出所述早期结肠癌病理学图像突变基因预测模型;
预测单元,用于根据所述早期结肠癌病理学图像突变基因预测模型筛选出最佳诊断癌症突变基因。
9.一种诊断早期结肠癌的突变基因筛选计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-4中任一所述的一种诊断早期结肠癌的突变基因筛选方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一所述的诊断早期结肠癌的突变基因筛选方法。
CN202210627980.2A 2022-06-06 2022-06-06 一种诊断早期结肠癌的突变基因筛选方法及系统 Active CN114999571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210627980.2A CN114999571B (zh) 2022-06-06 2022-06-06 一种诊断早期结肠癌的突变基因筛选方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210627980.2A CN114999571B (zh) 2022-06-06 2022-06-06 一种诊断早期结肠癌的突变基因筛选方法及系统

Publications (2)

Publication Number Publication Date
CN114999571A CN114999571A (zh) 2022-09-02
CN114999571B true CN114999571B (zh) 2024-03-29

Family

ID=83031017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210627980.2A Active CN114999571B (zh) 2022-06-06 2022-06-06 一种诊断早期结肠癌的突变基因筛选方法及系统

Country Status (1)

Country Link
CN (1) CN114999571B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457361A (zh) * 2022-09-19 2022-12-09 京东方科技集团股份有限公司 分类模型获取方法、表达类别确定方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110660055A (zh) * 2019-09-25 2020-01-07 北京青燕祥云科技有限公司 疾病数据预测方法、装置、可读存储介质及电子设备
CN111180011A (zh) * 2019-12-31 2020-05-19 上海依智医疗技术有限公司 一种病灶基因突变的检测方法及装置
CN111863250A (zh) * 2020-08-14 2020-10-30 中国科学院大学温州研究院(温州生物材料与工程研究所) 一种早期乳腺癌的联合诊断模型及系统
CN113035358A (zh) * 2021-04-08 2021-06-25 南京市第一医院 一种预测早期结肠癌患者预后风险的模型构建方法
CN113744801A (zh) * 2021-09-09 2021-12-03 首都医科大学附属北京天坛医院 肿瘤类别的确定方法、装置、系统、电子设备及存储介质
WO2022015819A1 (en) * 2020-07-15 2022-01-20 Genentech, Inc. Assessing heterogeneity of features in digital pathology images using machine learning techniques
US11321842B1 (en) * 2020-11-19 2022-05-03 Case Western Reserve University Spatial-and-context aware virtual biopsy radiogenomic maps to target tumor mutational status

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030215817A1 (en) * 2001-01-25 2003-11-20 Amedeo Leonardi Modulation of gene expression in formation of fatty atherosclerotic lesions
US11367180B2 (en) * 2018-12-11 2022-06-21 New York University Classification and mutation prediction from histopathology images using deep learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110660055A (zh) * 2019-09-25 2020-01-07 北京青燕祥云科技有限公司 疾病数据预测方法、装置、可读存储介质及电子设备
CN111180011A (zh) * 2019-12-31 2020-05-19 上海依智医疗技术有限公司 一种病灶基因突变的检测方法及装置
WO2022015819A1 (en) * 2020-07-15 2022-01-20 Genentech, Inc. Assessing heterogeneity of features in digital pathology images using machine learning techniques
CN111863250A (zh) * 2020-08-14 2020-10-30 中国科学院大学温州研究院(温州生物材料与工程研究所) 一种早期乳腺癌的联合诊断模型及系统
US11321842B1 (en) * 2020-11-19 2022-05-03 Case Western Reserve University Spatial-and-context aware virtual biopsy radiogenomic maps to target tumor mutational status
CN113035358A (zh) * 2021-04-08 2021-06-25 南京市第一医院 一种预测早期结肠癌患者预后风险的模型构建方法
CN113744801A (zh) * 2021-09-09 2021-12-03 首都医科大学附属北京天坛医院 肿瘤类别的确定方法、装置、系统、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DiseaseMeth version 3.0: a major expansion and update of the human disease methylation database;Jie Xing, at el.;Nucleic Acids Research;20220107;全文 *
基于深度学习和组织形态分析的肺癌基因突变预测;王荃;沈勤;张泽林;蔡程飞;鲁浩达;周晓军;徐军;;生物医学工程学杂志(第01期);全文 *

Also Published As

Publication number Publication date
CN114999571A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
Papanikolaou et al. How to develop a meaningful radiomic signature for clinical use in oncologic patients
Stenzinger et al. Artificial intelligence and pathology: from principles to practice and future applications in histomorphology and molecular profiling
Yue et al. Colorectal cancer outcome prediction from H&E whole slide images using machine learning and automatically inferred phenotype profiles
WO2020077232A1 (en) Methods and systems for nucleic acid variant detection and analysis
Tian et al. Automated clear cell renal carcinoma grade classification with prognostic significance
Linmans et al. Predictive uncertainty estimation for out-of-distribution detection in digital pathology
US9424460B2 (en) Tumor plus adjacent benign signature (TABS) for quantitative histomorphometry
Xu et al. Using transfer learning on whole slide images to predict tumor mutational burden in bladder cancer patients
US11544851B2 (en) Systems and methods for mesothelioma feature detection and enhanced prognosis or response to treatment
CN111862079B (zh) 基于影像组学的高级别浆液性卵巢癌复发风险预测系统
CN114999571B (zh) 一种诊断早期结肠癌的突变基因筛选方法及系统
WO2023096969A1 (en) Artificial intelligence-based methods for grading, segmenting, and/or analyzing lung adenocarcinoma pathology slides
Wen et al. Deep learning in digital pathology for personalized treatment plans of cancer patients
CN115938597A (zh) 癌症预后
Zhang et al. Deconvolution algorithms for inference of the cell-type composition of the spatial transcriptome
Bokhorst et al. Fully automated tumor bud assessment in hematoxylin and eosin-stained whole slide images of colorectal cancer
Ruan et al. A fast and effective detection framework for whole-slide histopathology image analysis
WO2022101672A2 (en) Method of assessing diseases using image classifiers
US20230282362A1 (en) Systems and methods for determining breast cancer prognosis and associated features
Chauhan et al. Exploring genetic-histologic relationships in breast cancer
CN116740386A (zh) 图像处理方法、装置、设备和计算机可读存储介质
US20220044762A1 (en) Methods of assessing breast cancer using machine learning systems
Hayward et al. Improving DCIS diagnosis and predictive outcome by applying artificial intelligence
CN115359040B (zh) 预测待测对象的组织样本属性的方法、设备和介质
Duenweg et al. Quantitative Histomorphometric Features of Prostate Cancer Predict Patients Who Biochemically Recur Following Prostatectomy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant