CN117153392A - 一种胃癌预后预测的标志物、评估模型及其构建方法 - Google Patents
一种胃癌预后预测的标志物、评估模型及其构建方法 Download PDFInfo
- Publication number
- CN117153392A CN117153392A CN202311085205.XA CN202311085205A CN117153392A CN 117153392 A CN117153392 A CN 117153392A CN 202311085205 A CN202311085205 A CN 202311085205A CN 117153392 A CN117153392 A CN 117153392A
- Authority
- CN
- China
- Prior art keywords
- model
- gastric cancer
- mutation
- gene
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010017758 gastric cancer Diseases 0.000 title claims abstract description 62
- 208000005718 Stomach Neoplasms Diseases 0.000 title claims abstract description 61
- 201000011549 stomach cancer Diseases 0.000 title claims abstract description 61
- 238000004393 prognosis Methods 0.000 title claims abstract description 29
- 239000003550 marker Substances 0.000 title claims abstract description 16
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 230000004083 survival effect Effects 0.000 claims abstract description 55
- 230000035772 mutation Effects 0.000 claims abstract description 50
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 49
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 238000013210 evaluation model Methods 0.000 claims abstract description 13
- 230000001186 cumulative effect Effects 0.000 claims abstract description 8
- 238000001228 spectrum Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000007637 random forest analysis Methods 0.000 claims description 10
- 230000007717 exclusion Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000013101 initial test Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 230000000392 somatic effect Effects 0.000 claims description 5
- 238000012070 whole genome sequencing analysis Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 201000011510 cancer Diseases 0.000 abstract description 14
- 238000011282 treatment Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000003745 diagnosis Methods 0.000 abstract description 2
- 230000000869 mutational effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 102000038594 Cdh1/Fizzy-related Human genes 0.000 description 4
- 108091007854 Cdh1/Fizzy-related Proteins 0.000 description 4
- 101000623901 Homo sapiens Mucin-16 Proteins 0.000 description 4
- 102100023123 Mucin-16 Human genes 0.000 description 3
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 101150040471 19 gene Proteins 0.000 description 2
- 101150020330 ATRX gene Proteins 0.000 description 2
- 102100034540 Adenomatous polyposis coli protein Human genes 0.000 description 2
- 102100040807 CUB and sushi domain-containing protein 3 Human genes 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 2
- 102100027755 Histone-lysine N-methyltransferase 2C Human genes 0.000 description 2
- 102100032742 Histone-lysine N-methyltransferase SETD2 Human genes 0.000 description 2
- 101000924577 Homo sapiens Adenomatous polyposis coli protein Proteins 0.000 description 2
- 101000892045 Homo sapiens CUB and sushi domain-containing protein 3 Proteins 0.000 description 2
- 101001008892 Homo sapiens Histone-lysine N-methyltransferase 2C Proteins 0.000 description 2
- 101000654725 Homo sapiens Histone-lysine N-methyltransferase SETD2 Proteins 0.000 description 2
- 101000979497 Homo sapiens Ninein Proteins 0.000 description 2
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 2
- 101000654718 Homo sapiens SET-binding protein Proteins 0.000 description 2
- 102100023121 Ninein Human genes 0.000 description 2
- 102000001756 Notch2 Receptor Human genes 0.000 description 2
- 108010029751 Notch2 Receptor Proteins 0.000 description 2
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 2
- 102100032741 SET-binding protein Human genes 0.000 description 2
- 102100037375 SLIT-ROBO Rho GTPase-activating protein 3 Human genes 0.000 description 2
- 101150083405 SRGAP3 gene Proteins 0.000 description 2
- 102000015098 Tumor Suppressor Protein p53 Human genes 0.000 description 2
- 102000056014 X-linked Nuclear Human genes 0.000 description 2
- 108700042462 X-linked Nuclear Proteins 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010353 genetic engineering Methods 0.000 description 2
- 230000033607 mismatch repair Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 101100504181 Arabidopsis thaliana GCS1 gene Proteins 0.000 description 1
- 102100024155 Cadherin-11 Human genes 0.000 description 1
- 102100032363 Choline dehydrogenase, mitochondrial Human genes 0.000 description 1
- 101710181272 Choline dehydrogenase, mitochondrial Proteins 0.000 description 1
- 101000764817 Chromohalobacter salexigens (strain ATCC BAA-138 / DSM 3043 / CIP 106854 / NCIMB 13768 / 1H11) Oxygen-dependent choline dehydrogenase 1 Proteins 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 101000762236 Homo sapiens Cadherin-11 Proteins 0.000 description 1
- 238000010824 Kaplan-Meier survival analysis Methods 0.000 description 1
- 101710173431 L-carnitine dehydrogenase Proteins 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 101710105116 Oxygen-dependent choline dehydrogenase Proteins 0.000 description 1
- 230000037429 base substitution Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 208000010749 gastric carcinoma Diseases 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 239000003642 reactive oxygen metabolite Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000037432 silent mutation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 201000000498 stomach carcinoma Diseases 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Pathology (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种胃癌预后预测的标志物、评估模型及其构建方法,包括:使用SBS44*和SBS18*作为基本变量的背景突变特征来构建个体FYSR预测的精确模型;定制一种人工智能算法,称为累积贡献丰度CCA,用于独立评估每个癌症样本中每个基因对每个特征的贡献概率,并减少样本间突变负载的干扰。CCA模型可以更好地反映基因与突变特征之间的关系,从而确保实现方便、快速、准确的个体FYSR预测的可能性。本发明以特定基因结合特征图谱预后因子的突变型为输入指标,构建相应的胃癌五年存活率预测模型,除了辅助胃癌的诊疗,也可以用于预防警示,指导个体调整治疗方案,利于推广普及,利于提高胃癌病人五年存活率的可能。
Description
技术领域
本发明属于生物信息与生物标志物技术领域,特别是涉及一种胃癌预后预测的标志物、评估模型及其构建方法。
背景技术
五年生存率(FYSR)是评价癌症患者外科治疗有效性的重要临床指标。这也是医生在病人出院时制定预后治疗计划的重要参考,包括放疗或化疗的频率、药物类型和身体复查的周期等。根据美国癌症协会的数据,世界范围内死亡率最高的四种恶性肿瘤(包括肺癌、肝癌、胃癌和结直肠癌)的FYSRs分别为17%、26%、32%和64%。为了提高预后存活率,他们的标准化治疗方案通常比其他肿瘤更复杂。因此,对FYSR的准确和合理的预测可以明确地控制关于肿瘤预后生物学的预测信息,并从本质上提高癌症患者的存活率。不幸的是,现实依然严峻。当前的FYSR通常使用肿瘤分期作为临床邻近点。由于肿瘤分期是根据癌症患者五年生存期的临床统计数据确定的,这种以平均数据为标准的经典统计方法缺乏个性(例如肿瘤异质性的影响),降低了癌症患者的生存率。因此,有必要根据更多的或者其他的生物指标构建一种胃癌预后预测的评估模型,比如基于个体特征如基因工程开发FYSR预测模型。
最近,人工智能(AI)驱动的基因工程为肿瘤的个体精确诊断和预后治疗提供了许多机会,并在上述领域取得了快速进展。在这些研究范式中,准确性是一个需要追求的重要参数,它取决于肿瘤基因突变的特征提取和算法模型。以癌症(GC)为例,许多研究表明,单碱基取代(SBS)18的特征作为一种与活性氧物种相关的突变特征,其CDH1引起的高突变负荷的特征可以作为准确预后和评估GC的潜在特征。SBS44是一种与DNA错配修复(MMR)缺陷相关的突变特征,在本发明中指出其是胃癌的另外一个特征图谱预后特征。在以往的技术实现中,均没有通过基因突变结合突变图谱特征这种预后因子一起进行预测五年存活率的案例。
发明内容
本发明的目的是提供一种胃癌预后预测的标志物、评估模型及其构建方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种胃癌预后预测的标志物、评估模型及其构建方法,包括:
获取若干个胃癌数据集进行预处理;对预处理后的若干个胃癌数据集进行特征图谱提取,同时对各个数据集进行单独的特征图谱分解;
通过RNMF方法包的相似性评估函数对分解的特征图谱与COSMIC数据库的特征图谱进行注释,标识出胃癌全部的分解的特征图谱;对胃癌全部的分解的特征图谱进行生存分析,提取与预后相关的SBS18与SBS44作为预后因子;
通过RNMF方法包的特征关联基因寻找函数分析各个特征潜在的显著性关联基因,并且采用DRP算法判断关联基因之间是否存在互斥关系;
基于显著性关联基因与互斥关系判断结果构建CCA算法模型;
基于预后因子的特征图谱与关联基因,通过CCA算法模型获得CCA矩阵数据,基于CCA矩阵数据构建五年生存率模型,采用随机森林算法作为核心算法获得五年生存率的标志物。
可选的,获取若干个胃癌数据集并进行预处理的过程包括:
检索与胃癌相关的文献,根据所述文献获得全基因组测序的体细胞单碱基突变数据以及对应样本的临床表型信息,形成若干个胃癌数据集;并对若干个胃癌数据集中的体细胞单碱基突变数据进行注释。
可选的,获取突变特征图谱的过程包括:采用RNMF方法包对处理后的若干个胃癌数据集进行非负定矩阵分解,提取对应的突变特征图谱。
可选的,所述CCA算法模型如下:
式中,C(s,g)表示肿瘤样本n中基因g在突变特征图谱s上的累计贡献度,θ(sg,mn)表示这个肿瘤样本n中基因g在突变特征图谱s上突变类型m的贡献,ρ(s,mn)则表示肿瘤样本n在突变进程中突变类型m的影响,P是突变特征矩阵,S是样本贡献度矩阵,PmkSkn代表肿瘤样本n中突变类型m对突变特征图谱k的影响,是基因g在肿瘤样本n中的突变类型m的影响因子。
可选的,
构建五年生存率模型的过程包括:
根据若干个胃癌测试集获得模型训练集与模型测试集,基于模型训练集与模型测试集,应用R-随机森林进行分析获得五年生存率预测模型。
可选的,
获取初始训练集与初始测试集的过程包括:
将若干个胃癌数据集根据生存时间与存活状态划分为四个组别,将满足生存时间与存活状态要求的数据进行二次分割,获得两个独立的数据集,分别作为初始训练集和初始测试集。
可选的,获得五年生存率预测模型的过程还包括:
在初始训练集中提取预设比例的数据进行合并后进行扩充,并过滤掉均值小于0.001的属性特征,获得第一训练集;
采用随机森林算法训练第一训练集,构建多组模型集合;
每组模型分别测试评估初始训练集与初始测试集,循环上述过程不低于预设次数后,选取符合第一阈值要求的参数模型组;
判断子训练集与初始训练集在对应模型下是否满足第二阈值要求,将符合要求的模型作为五年生存率预测模型。
本发明的技术效果为:
(1)本发明发现了两个与胃癌预后相关的预后因子,分别为SBS18和SBS44。同时基于这两个预后因子作为背景输入构建好的CCA模型,分析得到每个基因对于这两个预后因子的CCA概率模型,通过随机森林算法进行评估与筛选,最后筛选出了14个癌相关的基因,分别为:TP53、APC、CSMD3、KMT2C、MUC16、NOTCH2、ATRX、SETBP1、PIK3CA、NIN、CDH11、SRGAP3、SETD2和DCC。这些基因与两个预后因子结合的19个基因突变型(分别为TP53_SBS44,TP53_SBS18,MUC16_SBS18,APC_SBS44,CSMD3_SBS44,KMT2C_SBS44,MUC16_SBS44,NOTCH2_SBS44,ATRX_SBS44,SRGAP3_SBS44,SETBP1_SBS18,PIK3CA_SBS44,NIN_SBS44,SETD2_SBS44,CDH11_SBS18,SRGAP3_SBS18,SETD2_SBS18,DCC_SBS44和DCC_SBS18)可作为具有较高预测准确度的胃癌五年存活率评估的分子标记物。
(2)本发明基于这19个与胃癌五年生存率密切相关的突变基因型建立了预测胃癌五年存活率的风险评估模型,这19个基因突变型风险模型在预测胃癌患者五年生存率表现出良好的性能;同时,通过验证风险模型对独立的癌患者的预测准确性,发现此模型具有很好的普适性,可为胃癌患者五年存活率预后预测提供以一种有效的预测工具,为指导临床工作者制定个体化治疗方案提供新的思路,指导临床医师进行治疗决策。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的SBS18与SBS44生存分析结果示意图;
图2为本发明实施例中的特征关联基因寻找函数分析结果示意图;
图3为本发明实施例中的DRP算法分析结果示意图;
图4为本发明实施例中的模型技术路线示意图;
图5为本发明实施例中的五年生存率模型测试结果示意图;
图6为本发明实施例中的模型预测效果示意图;
图7为本发明实施例中的云端服务流程示意图;
图8为本发明实施例中的方法流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1-8所示,本实施例中提供一种胃癌预后预测的标志物、评估模型及其构建方法,包括:
1)数据集获取
从NCBI数据库PubMed文献库中检索与胃癌相关的文献,梳理文献附件内容,收集全基因组测序(WGS)的体细胞单碱基突变数据(Somatic SNVs)以及对应样本的临床表型信息,接着基于人类参考基因组(GRCH37版本)使用Oncotator软件对Somatic SNVs进行注释,并生成MAF格式的文件;
2)特征图谱的提取与生存分析
第一步:采用RNMF方法包对注释结果(MAF格式的文件)进行非负定矩阵分解,提取462个胃癌(GC)数据集的特征图谱,同时也对各个数据集进行单独的特征图谱分解,并通过RNMF方法包的相似性评估函数将分解的特征图谱与COSMIC数据库的特征图谱进行注释,标识出胃癌的所有分解的特征图谱,其中SBS18与SBS44是胃癌中两个常见的特征图谱。
第二步:生存分析寻找合适的预后因素,通过survival包进行Kaplan-Meier生存分析,对象是各个特征图谱。如图1所示,预后分析结果展现与预后相关的特征图谱预后因子是SBS18与SBS44,并且SBS18与预后差相关,而SBS44与预后好紧密关联。
3)寻找预后因子的互斥因子,其技术原理如下:
第一步:通过RNMF方法包的特征关联基因寻找函数分析各个特征潜在的关联因子,接着重点查看两个预后特征图谱的关联因子,我们证实了以往的报道中提到的CDH1与SBS18相关,同时,新发现了基因MUC16与SBS44密切关联,如图2所示。
第二步:探寻互斥因子,用以解析生物特征过程的异质性。通过DRP算法分析寻找与特征图谱预后因子相关的互斥的基因,如图3所示,CDH1与SBS44是相互互斥的基因,这证实了SBS44与SBS18具有不同的突变进程。
通过RNMF方法包的特征关联基因寻找函数分析各个特征潜在的显著性关联基因,并且采用DRP算法探索这些关联基因是否存在互斥关系。结果发现,特征图谱中的预后因子SBS18相关联的基因是CDH1,而与SBS44相关联的基因是MUC16,并且CDH1与MUC16是一对互斥的基因;
基于上面的发现,一些癌相关的基因与不同的特征图谱存在着关联,因此,我们将这些关联作为一种变量构建CCA算法模型。
4)为了给五年生存率模型提供规范的输入数据,我们将SBS44与SBS18两个不同的特征图谱作为背景,构建CCA算法模型,用于计算每个基因对特征图谱的累积贡献概率,这些贡献概率形成的矩阵是五年生存率模型的输入,具体算法模型如下:
其中,C(s,g)表示肿瘤样本n中基因g在突变特征图谱s上的累计贡献度,而θ(sg,mn)表示这个肿瘤样本n中基因g在突变特征图谱s上突变类型m的贡献。ρ(s,mn)则表示肿瘤样本n在突变进程中突变类型m的影响。P是突变特征矩阵,S是样本贡献度矩阵。这个单元PmkSkn代表肿瘤样本n中突变类型m对突变特征图谱k的影响。是基因g在肿瘤样本n中的突变类型m的影响因子。
为了计算肿瘤样本n的突变数量矩阵A可设计为所有基因在各种类型上的突变数量,即为
其中,G代表基因的数量,M代表突变特征图谱的数量,和N代表基因的数量。
本实施例收集了胃癌的SNV突变数据并进行了注释,注释后的结果文件是含有基因的信息的,上述内容中所指的每个基因为这个文件中发生了非沉默突变的基因。
5)通过CCA模型计算后,获得SBS44与SBS18的基因累计贡献概率,将这些基因的累积贡献概率形成一个矩阵,我们称为CCA矩阵数据,其中行为基因属性,列为样本属性,再结合样本的临床信息,构建五年生存率模型,该模型采用随机森林算法作为模型的核心算法进行寻找与五年存活率相关的一些标志物,其模型的技术路线如图4所示。
具体步骤如下:
首先,根据生存时间与存活状态将462个样本分为4个组别,分别为:G1表示生存率大于5年,一共38个样本;G2表示生存期小于5年且死亡的,一共115个样本;G3表示生存期小于5年且存活的,共135个样本;和G4表示无生存信息的174个样本。
接着,将数据(G1 and G2)进行分割成2个独立的数据集TrainA和TestB,同时,每个分组都含有GC168与ICGC123两个独立的数据集。
然后,应用R randomForest package(4.6-7)进行分析,具体步骤如下:
(1)确定训练集A,测试集合为B;
(2)从训练集A中的每个分组分别抽取一定比例的数据进行合并,合并后作为训练集SETA集合;
(3)为了扩大特征池,训练集SETA集合分别扩充一定的倍数,成为SETB集合,然后训练集SETB集合过滤掉均值小于0.001的属性特征;
(4)采用随机森林算法进行训练训练集SETB集合,构建多组备选模型集合;
(5)针对(4)中的模型集合,每组模型分别测试评估整个训练集A,同时测试数据集B;
(6)独立进行(2)到(5)的试验步骤过程至少100次,完成后选取所有试验中AUC波动小,下分位数大于等于0.7,中位数与均值大于等于0.8的参数预选模型集合;
(7)评估选取最后的优选预测模型,要求:SETB与A的AUC不小于0.9,B的AUC不小于0.85,同时当前参数下所有选择的biomarker在100次试验中出现频率不低于50%;
最后,为了验证优选预测模型的可靠程度,我们采用了进行了以下两步的测试,第一,利用A数据集分解得到的特征图谱进行分析,先获取CCA矩阵数据,然后基于(7)中的预测模型进行评估;第二,利用B数据集分解得到的特征图谱进行分析,先获取CCA矩阵数据,然后基于(7)中的预测模型进行评估。
五年生存率模型测试结果如图5所示。
结果显示,输入特征变量为19个特定标志物时候ROC-AUC值达到最优水平,其AUC值达到了0.9173,并且确定所述突变标志物是基因两个预后因子SBS18,SBS44*和14个癌相关基因TP53、APC、CSMD3、KMT2C、MUC16、NOTCH2、ATRX、SETBP1、PIK3CA、NIN、CDH11、SRGAP3、SETD2、DCC组合而成,其中包括TP53_SBS44,TP53_SBS18,MUC16_SBS18,APC_SBS44,CSMD3_SBS44,KMT2C_SBS44,MUC16_SBS44,NOTCH2_SBS44,ATRX_SBS44,SRGAP3_SBS44,SETBP1_SBS18,PIK3CA_SBS44,NIN_SBS44,SETD2_SBS44,CDH11_SBS18,SRGAP3_SBS18,SETD2_SBS18,DCC_SBS44,DCC_SBS18,这19种结合了CCA模型与预后因子的突变标志物具有最佳的灵敏度和特异性。
五年生存率模型可称之为FYSR预测模型。
6)模型的独立验证与预后评估系统建立
获取独立的验证数据集,数据集包括GC168项目的168个样本独立分析获得的特征图谱结果和ICGC123项目的123个样本独立分析获得的特征图谱结果,对这些结果进行CCA模型分析,后面将CCA结果导入FYSR预测模型构建ROC曲线图,预测效果如图6所示。
由图6可知,本发明发现了两个预后因子SBS18、SBS44,而且基于这两个预后因子,再结合癌相关的基因构建的FYSR预测模型对独立的测试数据集进行测试也获得良好的预测结果,结果发现AUC分别值为0.894和0.8153,也就是准确率高达89%和81%以上。同时,我们利用这个模型提供便利的云端和边缘端系统预测服务,如图7所示。
综上所述,本发明的胃癌五年存活率预测模型以特定基因结合特征图谱预后因子的突变型(19个)为输入指标,构建相应的胃癌五年存活率预测模型,可以用于预防警示,指导个体调整治疗方案,利于推广普及,利于提高胃癌病人五年存活率的可能。
方法整体流程图如图8所示。
本实施例使用SBS44*和SBS18*(SBS44&18)作为基本变量的背景突变特征来构建个体FYSR预测的精确模型;同时,我们还定制了一种人工智能算法,称为累积贡献丰度(CCA),它可以独立评估每个癌症样本中每个基因对每个特征的贡献概率,并减少样本间突变负载的干扰。与NTriPath等其他流行算法相比,CCA模型可以更好地反映基因与突变特征之间的关系,从而确保实现方便、快速、准确的个体FYSR预测的可能性。基于对462个胃癌肿瘤的CCA模型的数据分析,我们最终获得了个性化的GC FYSR(95%CI从0.84到1),并在三个独立状态下进行了验证。与临床肿瘤分期的统计数据相比,我们的预测准确率超过90%。据我们所知,这是首次使用CCA的AI算法预测GC的FYSR,并取得了良好的预测效果。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (7)
1.一种胃癌预后预测的标志物、评估模型及其构建方法,其特征在于,包括以下步骤:
获取若干个胃癌数据集进行预处理;对预处理后的若干个胃癌数据集进行特征图谱提取,同时对各个数据集进行单独的特征图谱分解;
通过RNMF方法包的相似性评估函数对分解的特征图谱与COSMIC数据库的特征图谱进行注释,标识出胃癌全部的分解的特征图谱;对胃癌全部的分解的特征图谱进行生存分析,提取与预后相关的SBS18与SBS44作为预后因子;
通过RNMF方法包的特征关联基因寻找函数分析各个特征潜在的显著性关联基因,并且采用DRP算法判断关联基因之间是否存在互斥关系;
基于显著性关联基因与互斥关系判断结果构建CCA算法模型;
基于预后因子的特征图谱与关联基因,通过CCA算法模型获得CCA矩阵数据,基于CCA矩阵数据构建五年生存率模型,采用随机森林算法作为核心算法获得五年生存率的标志物。
2.根据权利要求1所述的胃癌预后预测的标志物、评估模型及其构建方法,其特征在于,
获取若干个胃癌数据集并进行预处理的过程包括:
检索与胃癌相关的文献,根据所述文献获得全基因组测序的体细胞单碱基突变数据以及对应样本的临床表型信息,形成若干个胃癌数据集;并对若干个胃癌数据集中的体细胞单碱基突变数据进行注释。
3.根据权利要求1所述的胃癌预后预测的标志物、评估模型及其构建方法,其特征在于,
获取突变特征图谱的过程包括:采用RNMF方法包对处理后的若干个胃癌数据集进行非负定矩阵分解,提取对应的突变特征图谱。
4.根据权利要求1所述的胃癌预后预测的标志物、评估模型及其构建方法,其特征在于,
所述CCA算法模型如下:
式中,C(s,g)表示肿瘤样本n中基因g在突变特征图谱s上的累计贡献度,θ(sg,mn)表示这个肿瘤样本n中基因g在突变特征图谱s上突变类型m的贡献,ρ(s,mn)则表示肿瘤样本n在突变进程中突变类型m的影响,P是突变特征矩阵,S是样本贡献度矩阵,PmkSkn代表肿瘤样本n中突变类型m对突变特征图谱k的影响,是基因g在肿瘤样本n中的突变类型m的影响因子。
5.根据权利要求1所述的胃癌预后预测的标志物、评估模型及其构建方法,其特征在于,
构建五年生存率模型的过程包括:
根据若干个胃癌测试集获得模型训练集与模型测试集,基于模型训练集与模型测试集,应用R-随机森林进行分析获得五年生存率预测模型。
6.根据权利要求5所述的胃癌预后预测的标志物、评估模型及其构建方法,其特征在于,
获取初始训练集与初始测试集的过程包括:
将若干个胃癌数据集根据生存时间与存活状态划分为四个组别,将满足生存时间与存活状态要求的数据进行二次分割,获得两个独立的数据集,分别作为初始训练集和初始测试集。
7.根据权利要求6所述的胃癌预后预测的标志物、评估模型及其构建方法,其特征在于,
获得五年生存率预测模型的过程还包括:
在初始训练集中提取预设比例的数据进行合并后进行扩充,并过滤掉均值小于0.001的属性特征,获得第一训练集;
采用随机森林算法训练第一训练集,构建多组模型集合;
每组模型分别测试评估初始训练集与初始测试集,循环上述过程不低于预设次数后,选取符合第一阈值要求的参数模型组;
判断子训练集与初始训练集在对应模型下是否满足第二阈值要求,将符合要求的模型作为五年生存率预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311085205.XA CN117153392A (zh) | 2023-08-25 | 2023-08-25 | 一种胃癌预后预测的标志物、评估模型及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311085205.XA CN117153392A (zh) | 2023-08-25 | 2023-08-25 | 一种胃癌预后预测的标志物、评估模型及其构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117153392A true CN117153392A (zh) | 2023-12-01 |
Family
ID=88898069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311085205.XA Pending CN117153392A (zh) | 2023-08-25 | 2023-08-25 | 一种胃癌预后预测的标志物、评估模型及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117153392A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090197259A1 (en) * | 2007-03-22 | 2009-08-06 | Lan Guo | Gene signature for diagnosis and prognosis of breast cancer and ovarian cancer |
CN101586158A (zh) * | 2009-06-22 | 2009-11-25 | 常州生奥基因生物科技有限公司 | 一种鼻咽癌eb病毒特异性dna酶检测试剂盒及其制备方法 |
CN101939652A (zh) * | 2008-02-06 | 2011-01-05 | 味之素株式会社 | 胃癌的评价方法、以及胃癌评价装置、胃癌评价方法、胃癌评价系统、胃癌评价程序和记录介质 |
AU2018361834A1 (en) * | 2017-11-03 | 2020-06-18 | Cambridge Enterprise Limited | Computer-implemented method and system for determining a disease status of a subject from immune-receptor sequencing data |
CN112048559A (zh) * | 2020-09-10 | 2020-12-08 | 辽宁省肿瘤医院 | 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用 |
CN112908477A (zh) * | 2021-01-28 | 2021-06-04 | 黑龙江省医院 | 一种用于胃癌患者的预后风险评估系统 |
CN113035274A (zh) * | 2021-04-22 | 2021-06-25 | 广东技术师范大学 | 一种基于nmf的肿瘤基因点突变的特征图谱提取算法 |
-
2023
- 2023-08-25 CN CN202311085205.XA patent/CN117153392A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090197259A1 (en) * | 2007-03-22 | 2009-08-06 | Lan Guo | Gene signature for diagnosis and prognosis of breast cancer and ovarian cancer |
CN101939652A (zh) * | 2008-02-06 | 2011-01-05 | 味之素株式会社 | 胃癌的评价方法、以及胃癌评价装置、胃癌评价方法、胃癌评价系统、胃癌评价程序和记录介质 |
CN101586158A (zh) * | 2009-06-22 | 2009-11-25 | 常州生奥基因生物科技有限公司 | 一种鼻咽癌eb病毒特异性dna酶检测试剂盒及其制备方法 |
AU2018361834A1 (en) * | 2017-11-03 | 2020-06-18 | Cambridge Enterprise Limited | Computer-implemented method and system for determining a disease status of a subject from immune-receptor sequencing data |
CN112048559A (zh) * | 2020-09-10 | 2020-12-08 | 辽宁省肿瘤医院 | 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用 |
CN112908477A (zh) * | 2021-01-28 | 2021-06-04 | 黑龙江省医院 | 一种用于胃癌患者的预后风险评估系统 |
CN113035274A (zh) * | 2021-04-22 | 2021-06-25 | 广东技术师范大学 | 一种基于nmf的肿瘤基因点突变的特征图谱提取算法 |
Non-Patent Citations (3)
Title |
---|
MANDAL, A等: "Multiview Regularized Discriminant Canonical Correlation Analysis: Sequential Extraction of Relevant Features From Multiblock Data", 《IEEE TRANSACTIONS ON CYBERNETICS》, vol. 53, no. 9, 25 April 2022 (2022-04-25), pages 5497 - 5509 * |
刘文强;丁武斌;赵金东;: "具有遗传性疾病和性状的遗传位点分析", 数学的实践与认识, no. 14, 23 July 2017 (2017-07-23), pages 91 - 100 * |
杨倩;齐明明;董卫国;: "综合生物信息学分析预测胃癌预后关键基因的研究", 胃肠病学和肝病学杂志, no. 10, 20 October 2020 (2020-10-20), pages 16 - 23 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190316209A1 (en) | Multi-Assay Prediction Model for Cancer Detection | |
US11961589B2 (en) | Models for targeted sequencing | |
CN106909806A (zh) | 定点检测变异的方法和装置 | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
CN108021788B (zh) | 基于细胞游离dna的深度测序数据提取生物标记物的方法和装置 | |
US9020934B2 (en) | Method, an arrangement and a computer program product for analysing a biological or medical sample | |
CN113517073B (zh) | 肺癌手术后生存率预测模型构建方法和预测模型系统 | |
Tian et al. | ContrastRank: a new method for ranking putative cancer driver genes and classification of tumor samples | |
CN113270188A (zh) | 食管鳞癌根治术后患者预后预测模型构建方法及装置 | |
CN112289376A (zh) | 一种检测体细胞突变的方法及装置 | |
CN116200490A (zh) | 一种检测实体瘤微小残留病灶的方法 | |
Li et al. | Integrative analysis of histopathological images and genomic data in colon adenocarcinoma | |
KR101941011B1 (ko) | 유전자 발현 데이터를 통한 유방암 환자 예후 판단 방법 | |
CN116385441B (zh) | 一种基于mri对少突胶质细胞瘤进行风险分层的方法及系统 | |
CN111763738A (zh) | 一种特征mRNA表达谱组合及肝癌早期预测方法 | |
Vijayan et al. | Blood-based transcriptomic signature panel identification for cancer diagnosis: benchmarking of feature extraction methods | |
Sali et al. | Morphological diversity of cancer cells predicts prognosis across tumor types | |
Casey et al. | A machine learning approach to prostate cancer risk classification through use of RNA sequencing data | |
CN117153392A (zh) | 一种胃癌预后预测的标志物、评估模型及其构建方法 | |
TW201928797A (zh) | 針對標靶定序的定點雜訊模型 | |
US20180181705A1 (en) | Method, an arrangement and a computer program product for analysing a biological or medical sample | |
CN112382341B (zh) | 一种用于鉴定食管鳞癌预后相关的生物标志物的方法 | |
CN114242158B (zh) | ctDNA单核苷酸变异位点检测方法、装置、存储介质及设备 | |
Zhang et al. | nSEA: n-Node Subnetwork Enumeration Algorithm Identifies Lower Grade Glioma Subtypes with Altered Subnetworks and Distinct Prognostics | |
Chieruzzi | Identification of RAS co-occurrent mutations in colorectal cancer patients: workflow assessment and enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240102 Address after: Room 2301, No. 206 Fenghuang North Heng Road, Yongning Street, Zengcheng District, Guangzhou City, Guangdong Province, 511338 Applicant after: Jixiang Intelligent Manufacturing (Guangzhou) Intelligent Technology Co.,Ltd. Address before: Unit 4530, 2nd Floor, No. 33 Tangde West Road, Tianhe District, Guangzhou City, Guangdong Province, 510665 Applicant before: Yunji Intelligent Biotechnology (Guangzhou) Co.,Ltd. |
|
TA01 | Transfer of patent application right |