CN117035113A - 结肠癌预后风险模型构建方法、装置、设备及存储介质 - Google Patents
结肠癌预后风险模型构建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117035113A CN117035113A CN202310988816.9A CN202310988816A CN117035113A CN 117035113 A CN117035113 A CN 117035113A CN 202310988816 A CN202310988816 A CN 202310988816A CN 117035113 A CN117035113 A CN 117035113A
- Authority
- CN
- China
- Prior art keywords
- prognosis
- information
- risk
- list
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004393 prognosis Methods 0.000 title claims abstract description 166
- 206010009944 Colon cancer Diseases 0.000 title claims abstract description 49
- 208000029742 colonic neoplasm Diseases 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 42
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 145
- 230000014509 gene expression Effects 0.000 claims abstract description 71
- 238000000611 regression analysis Methods 0.000 claims abstract description 36
- 238000004458 analytical method Methods 0.000 claims abstract description 35
- 238000010276 construction Methods 0.000 claims abstract description 29
- 238000012795 verification Methods 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims description 29
- 238000007781 pre-processing Methods 0.000 claims description 15
- 230000004083 survival effect Effects 0.000 claims description 12
- 206010028980 Neoplasm Diseases 0.000 claims description 9
- 238000000556 factor analysis Methods 0.000 claims description 7
- 201000011510 cancer Diseases 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 7
- 239000007787 solid Substances 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 2
- -1 LINC00957 Proteins 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010195 expression analysis Methods 0.000 description 2
- 230000009545 invasion Effects 0.000 description 2
- 230000001926 lymphatic effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 208000014081 polyp of colon Diseases 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 108700026220 vif Genes Proteins 0.000 description 2
- 102100035080 BDNF/NT-3 growth factors receptor Human genes 0.000 description 1
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 description 1
- 108700023863 Gene Components Proteins 0.000 description 1
- 102100036534 Glutathione S-transferase Mu 1 Human genes 0.000 description 1
- 101000596896 Homo sapiens BDNF/NT-3 growth factors receptor Proteins 0.000 description 1
- 101001071694 Homo sapiens Glutathione S-transferase Mu 1 Proteins 0.000 description 1
- 101000994648 Homo sapiens Potassium voltage-gated channel subfamily KQT member 4 Proteins 0.000 description 1
- 238000003657 Likelihood-ratio test Methods 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 102100034363 Potassium voltage-gated channel subfamily KQT member 4 Human genes 0.000 description 1
- 101150104557 Ppargc1a gene Proteins 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000009274 differential gene expression Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- XOOUIPVCVHRTMJ-UHFFFAOYSA-L zinc stearate Chemical compound [Zn+2].CCCCCCCCCCCCCCCCCC([O-])=O.CCCCCCCCCCCCCCCCCC([O-])=O XOOUIPVCVHRTMJ-UHFFFAOYSA-L 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种结肠癌预后风险模型构建方法、装置、设备及存储介质,其中方法包括:利用结肠癌样品的转录组基因信息和表型信息构建基因表达列表,再对基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并构建预后风险模型,再根据目标基因的基因表达值和预后风险模型计算得到风险分数,再根据风险分数对样品进行预后风险高低分组,再利用多个预先指定的临床相关信息,并结合预后风险高低分组对目标基因进行独立预后因素验证,并当目标基因是独立的预后因素时,确认预后风险模型构建完成。本发明通过对预后风险模型包括的目标基因独立因素分析,以提高构建的预后风险模型的可靠性。
Description
技术领域
本申请涉及生物医药技术领域,特别是涉及一种结肠癌预后风险模型构建方法、装置、设备及存储介质。
背景技术
结肠癌是发病率及死亡率均较高的实体肿瘤之一,中期结肠癌患者5年生存率不足60%,晚期结肠癌患者5年生存率几乎为0。由于结肠癌早期无明显特异性的临床症状,且缺乏早期诊断的分子标志物,大部分患者确诊时已经进入中晚期阶段,随着诊断水平的提高和靶向治疗技术的进步,人们越来越关注指示效果显著的结肠癌分子靶标,目前常见的标志物为DNA,RNA等。
目前,虽然手术切除、化疗、放疗、靶向治疗等常规治疗降低了结直肠癌患者的死亡率,但转移仍是大多数结直肠癌患者死亡的主要原因。此外,由于个体的异质性,不同患者的临床结果差异很大,这限制了传统治疗方法的有效性。随着多元组学技术的迅速发展,基于基因表达的预后模型已经成为筛查具有不同临床病理风险癌症患者的重要生物标志物。但是,现有的预后模型并未进行独立因素分析,模型的可靠性较低。
发明内容
有鉴于此,本申请提供一种结肠癌预后风险模型构建方法、装置、设备及存储介质,以解决现有结肠癌预后模型可靠性低的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种结肠癌预后风险模型构建方法,其包括:从数据库中下载样品的转录组基因信息和表型信息;预处理转录组基因信息和表型信息以构建基因表达列表;对基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并以目标基因构建预后风险模型;从转录组基因信息提取每个样品的目标基因的基因表达值,并输入至预后风险模型计算得到每个样品的风险分数;确认风险分数的最佳截断值,并根据最佳截断值将所有样品进行预后风险高低分组;从表型信息中选取多个预先指定的临床相关信息,并结合预后风险高低分组对目标基因进行独立预后因素验证,并当目标基因是独立的预后因素时,确认预后风险模型构建完成。
作为本申请的进一步改进,预处理转录组基因信息和表型信息以构建基因表达列表,包括:将所有样品的样品名称和EnsembID注释信息拼接得到第一列表,并筛选第一列表中的重复基因,将重复基因的基因表达值的平均值作为重复基因的最终基因表达值;对第一列表进行log2逆转换,得到第二列表;从表型信息中获取预先指定的表型信息,并与第二列表拼接,生成第三列表,预先指定的表型信息包括癌组织和癌旁组织。
作为本申请的进一步改进,对基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并以目标基因构建预后风险模型,包括:对第三列表进行差异性分析,筛选得到在预先指定的表型信息之间存在显著差异性的第一基因组,并利用第一基因组构建第四列表;将第四列表进行log2转换,得到第五列表;从表型信息提取临床随访信息,并与第五列表拼接生成第六列表,临床随访信息包括总生存期和总生存时间;对第六列表进行单因素Cox回归分析,筛选得到与临床预后结果显著相关的第二基因组;对第二基因组和临床随访信息进行lasso分析,筛选得到第三基因组;对第三基因组进行多因素Cox回归分析,筛选得到目标基因和模型参数,并根据目标基因和模型参数构建预后风险模型。
作为本申请的进一步改进,确认风险分数的最佳截断值,并根据最佳截断值将所有样品进行预后风险高低分组,包括:利用R语言包中的maxstat计算风险分数的最佳截断值;将风险分数高于最佳截断值的样品标记为高风险,且将风险分数低于最佳截断值的样品标记为低风险,得到预后风险高低分组。
作为本申请的进一步改进,根据最佳截断值将所有样品进行预后风险高低分组之后,还包括:基于预后风险高低分组利用survivalROC对预后风险模型进行性能评估。
作为本申请的进一步改进,从表型信息中选取多个预先指定的临床相关信息,并结合预后风险高低分组对目标基因进行独立预后因素验证,包括:利用survival软件包中的coxph函数对多个预先指定的临床相关信息和预后风险高低分组进行独立预后因素验证,得到表征独立预后因素的P值,且当P值低于预设阈值时,目标基因为独立预后因素。
作为本申请的进一步改进,确认预后风险模型构建完成之后,还包括:获取患者的目标基因的当前基因表达值;将当前基因表达值输入至预后风险模型,得到当前风险分值;根据当前风险分值和最佳截断值确认患者得结肠癌的风险高低。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种结肠癌预后风险模型构建装置,其包括:数据下载模块,用于从数据库中下载样品的转录组基因信息和表型信息;预处理模块,用于预处理转录组基因信息和表型信息以构建基因表达列表;模型构建模块,用于对基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并以目标基因构建预后风险模型;计算模块,用于从转录组基因信息提取每个样品的目标基因的基因表达值,并输入至预后风险模型计算得到每个样品的风险分数;风险分组模块,用于确认风险分数的最佳截断值,并根据最佳截断值将所有样品进行预后风险高低分组;独立因素分析模块,用于从表型信息中选取多个预先指定的临床相关信息,并结合预后风险高低分组对目标基因进行独立预后因素验证,并当目标基因是独立的预后因素时,确认预后风险模型构建完成。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种计算机设备,所述计算机设备包括处理器、与所述处理器耦接的存储器,所述存储器中存储有程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行如上述任一项的结肠癌预后风险模型构建方法的步骤。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储介质,存储有能够实现上述任一项的结肠癌预后风险模型构建方法的程序指令。
本申请的有益效果是:本申请的结肠癌预后风险模型构建方法通过从数据库中下载的大量的样品的转录组基因信息和表型信息,再对转录组基因信息和表型信息进行数据预处理,得到样品的基因表达列表,再对基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析以筛选目标基因,并构建预后风险模型,再对将每个样品的目标基因的基因表达值所构成的矩阵输入至预后风险模型,得到每个样品的风险分数,根据风险分数和样品对应的临床相关信息进行独立预后因素验证,且当确认目标基因为独立的预后因素时,确认预后风险模型构建完成,其一方面利用大量的样品数据进行模型构建,样品数据充足,构建的预后风险模型预测效果更好,并且,在构建预后风险模型后,对预后风险模型包括的目标基因进行独立预后因素验证,确保目标基因是独立的预后因素,进而提高预后风险模型的可靠性。
附图说明
图1是本发明实施例的结肠癌预后风险模型构建方法的一流程示意图;
图2是本发明实施例的结肠癌预后风险模型构建方法的模型性能评估结果示意图;
图3是本发明实施例的结肠癌预后风险模型构建方法的独立性因素分析结果示意图;
图4是本发明实施例的结肠癌预后风险模型构建装置的功能模块示意图;
图5是本发明实施例的计算机设备的结构示意图;
图6是本发明实施例的存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明实施例的结肠癌预后风险模型构建方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该结肠癌预后风险模型构建方法包括步骤:
步骤S101:从数据库中下载样品的转录组基因信息和表型信息。
具体地,本实施例从网站UCSC Xena上下载结肠癌TCGA Colon Cancer(COAD)中的转录组基因信息(gene expression RNAseq)和表型信息(Phenotype),共下载512个样品和60483个基因,其中,表型信息包括Primary Tumor(癌组织)/Solid Tissue Normal(癌旁组织),age(年龄),history of colon polyps(结肠息肉病史),gender(性别),lymphaticinvasion(淋巴侵犯)等。
步骤S102:预处理转录组基因信息和表型信息以构建基因表达列表。
具体地,在获取到转录组基因信息和表型信息后,对转录组基因信息和表型信息进行预处理,得到基因表达列表。
进一步的,步骤S102具体包括:
1、将所有样品的样品名称和EnsembID注释信息拼接得到第一列表,并筛选第一列表中的重复基因,将重复基因的基因表达值的平均值作为重复基因的最终基因表达值。
具体地,该样品名称和EnsembID注释信息从数据库中下载转录组基因信息和表型信息时获取,在得到样品名称和EnsembID注释信息后,将样品名称和EnsembID注释信息拼接得到一个Samples/Gene的第一列表,具体如下表1所示。需要说明的是表1仅展示了部分基因信息以作为示例进行说明。
表1
其中,Samples表示样品,Gene表示基因。在得到第一列表后,再从第一列表中筛选出重复出现的基因,将重复出现的基因的多个基因表达值取平均值作为该重复出现的基因的最终的基因表达值,避免出现一个基因出现多个基因表达值的情况出现,影响预后风险模型的构建。通过上述筛选重复基因的操作,最终筛选出512个样品的58387个基因。
2、对第一列表进行log2逆转换,得到第二列表。
具体地,第二列表如下表2所示,需要说明的是表2仅展示了部分基因信息以作为示例进行说明。
表2
3、从表型信息中获取预先指定的表型信息,并与第二列表拼接,生成第三列表,预先指定的表型信息包括癌组织和癌旁组织。
具体地,本实施例中预先指定的表型信息具体包括Primary Tumor(癌组织)/Solid Tissue Normal(癌旁组织),该两个表型信息是结肠癌的强相关表征信息。在获取到预先指定的表型信息后,将预先指定的表型信息与第二列表进行拼接,生成第三列表,该第三列表即后续需要进行分析的基因表达列表,第三列表如下表3所示,需要说明的是表3仅展示了部分基因信息以作为示例进行说明。
表3
其中,group表示预先指定的表型信息。
步骤S103:对基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并以目标基因构建预后风险模型。
具体地,在得到基因表达列表之后,对基因表达列表进行Primary Tumor和SolidTissue Normal的差异表达分析,单因素&多因素Cox回归分析,lasso分析,通过多层的筛选与过滤最终得到可靠性较高的目标基因,并以目标基因为基础构建预后风险模型。
进一步的,步骤S103具体包括:
1、对第三列表进行差异性分析,筛选得到在预先指定的表型信息之间存在显著差异性的第一基因组,并利用第一基因组构建第四列表。
具体地,本实施例使用GDCRNATools工具中的edgeR算法对第三列表进行PrimaryTumor和Solid Tissue Normal的差异表达分析,设定阈值logFC=1,FDR=0.05,筛选得到在Primary Tumor和Solid Tissue Normal两种表型信息之间存在显著差异性的第一基因组,最终从512个样品的58387个基因中筛选出4695个基因,再根据第一基因组件第四列表,第四列表如下表4所示,需要说明的是表4仅展示了部分基因信息以作为示例进行说明。
表4
其中,logFC表示基因差异表达倍数;logCPM表示是每百万的对数计数,可以被理解为测量表达式水平;LR表示似然比检验统计值,似然比检验用于判断哪一种估计更有意义;PValue为统计差异显著的一个衡量值,一般以P<0.05为显著;FDR表示统计学中用来描述在进行多重假设检验时发现的假阳性数量与总阳性数量之间的比率,该比率常用于控制因多次检验而引入的假阳性错误率。
2、将第四列表进行log2转换,得到第五列表。
具体地,第五列表如下表5所示,需要说明的是表5仅展示了部分基因信息以作为示例进行说明。
表5
3、从表型信息提取临床随访信息,并与第五列表拼接生成第六列表,临床随访信息包括总生存期和总生存时间。
具体地,临床随访信息包括总生存期(OS)和总生存时间(OS.time),均可从表型信息中获取。在获取到临床随访信息后,将临床随访信息与第五列表拼接生成第六列表。第六列表如下表6所示,需要说明的是表6仅展示了部分基因信息以作为示例进行说明。
表6
4、对第六列表进行单因素Cox回归分析,筛选得到与临床预后结果显著相关的第二基因组。
具体地,使用Survival工具结合临床随访信息对第一基因组进行单因素Cox回归分析,筛选得到与临床预后结果显著相关的第二基因组,本实施例对4695个基因结合总生存期和总生存时间进行单因素Cox回归分析,共筛选出416个基因与患者的临床预后结果显著相关。
5、对第二基因组和临床随访信息进行lasso分析,筛选得到第三基因组。
具体地,使用glmnet工具对第七列表进行lasso分析,筛选得到第三基因组。本实施例将416个基因与临床随访信息进行相关性分析,最终共筛选过滤出17个基因。
6、对第三基因组进行多因素Cox回归分析,筛选得到目标基因和模型参数,并根据目标基因和模型参数构建预后风险模型。
具体地,使用多因素Cox回归分析联合第三基因组中的每个基因构建初始模型,同时使用逐步选择算法筛选最优模型,该最优模型即预后风险模型,并得到最优模型所包括的目标基因,最终筛选得到6个目标基因:NTRK2,LINC00957,GSTM1,PPARGC1A,ATOH1,KCNQ4。该预后风险模型的表达式表示为:
Risk score=∑βi×Expi;
其中,Risk score表示风险分数,βi表示第i个目标基因在模型中的回归系数,Expi表示第i个目标基因的基因表达值。
步骤S104:从转录组基因信息提取每个样品的目标基因的基因表达值,并输入至预后风险模型计算得到每个样品的风险分数。
具体地,在筛选得到目标基因和构建预后风险模型后,从转录组基因信息中提取每个样品的所有目标基因的基因表达值,再将每个样品的所有目标基因的基因表达值构成一个基因表达矩阵输入至预后风险模型中进行计算,从而得到每个样品的风险分数。
步骤S105:确认风险分数的最佳截断值,并根据最佳截断值将所有样品进行预后风险高低分组。
其中,步骤S105具体包括:利用R语言包中的maxstat计算风险分数的最佳截断值;将风险分数高于最佳截断值的样品标记为高风险,且将风险分数低于最佳截断值的样品标记为低风险,得到预后风险高低分组。
具体地,在得到每个样品的风险分数之后,利用R语言包中的maxstat根据所有风险分数确认一个最佳截断值,风险分数高于该最佳截断值则为高风险,风险分数低于该最佳截断值则为低风险。
进一步的,在步骤S105之后,还包括:基于预后风险高低分组利用survivalROC对预后风险模型进行性能评估。
进一步的,在得到预后风险高低分组后,基于survivalROC对预后风险模型进行评估,评估结果如图2所示,其中AUC值为0.691,表明该预后风险模型具有较高的准确性。
步骤S106:从表型信息中选取多个预先指定的临床相关信息,并结合预后风险高低分组对目标基因进行独立预后因素验证,并当目标基因是独立的预后因素时,确认预后风险模型构建完成。
具体地,为了进一步增强预后风险模型的可靠性,本实施例从表型信息中选取多个预先指定的临床相关信息,并结合预后风险高低分组对目标基因进行独立预后因素验证,该多个预先指定的临床相关信息包括:age(≥60,<60)、history of colon polyps(yes/no)、lymphatic invasion(yes/no)和gender(female/male),将该四个临床相关信息和预后风险高低分组结合,再使用多因素回归模型进行独立因素验证。
进一步的,步骤S106具体包括:利用survival软件包中的coxph函数对多个预先指定的临床相关信息和预后风险高低分组进行独立预后因素验证,得到表征独立预后因素的P值,且当P值低于预设阈值时,目标基因为独立预后因素。
具体地,本实施例使用survival软件包中的coxph函数进行验证,将多个预先指定的临床相关信息和预后风险高低分组输入至coxph函数,得到表征独立预后因素的P值,再根据P值进行与独立因素验证,当P值低于预设阈值时,确认目标基因为独立预后因素。本实施例对6个目标基因进行验证,验证结果如图3所示,结果显示P=0.0003,小于阈值0.05,表明目标基因为独立的预后因素。
进一步的,在步骤S106之后,还包括:
1、获取患者的目标基因的当前基因表达值。
2、将当前基因表达值输入至预后风险模型,得到当前风险分值。
3、根据当前风险分值和最佳截断值确认患者得结肠癌的风险高低。
具体地,在构建好预后风险模型之后,使用该预后风险模型时,首先获取患者的所有目标基因的基因表达值,再将所有基因的基因表达值输入至预后风险模型进行风险评估,得到当前风险分值,再根据当前风险分值和最佳截断值确认患者是高风险还是低风险。
本发明实施例的结肠癌预后风险模型构建方法通过从数据库中下载的大量的样品的转录组基因信息和表型信息,再对转录组基因信息和表型信息进行数据预处理,得到样品的基因表达列表,再对基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析以筛选目标基因,并构建预后风险模型,再对将每个样品的目标基因的基因表达值所构成的矩阵输入至预后风险模型,得到每个样品的风险分数,根据风险分数和样品对应的临床相关信息进行独立预后因素验证,且当确认目标基因为独立的预后因素时,确认预后风险模型构建完成,其一方面利用大量的样品数据进行模型构建,样品数据充足,构建的预后风险模型预测效果更好,并且,在构建预后风险模型后,对预后风险模型包括的目标基因进行独立预后因素验证,确保目标基因是独立的预后因素,进而提高预后风险模型的可靠性。
图4是本发明实施例的结肠癌预后风险模型构建装置的功能模块示意图。如图4所示,该结肠癌预后风险模型构建装置20包括数据下载模块21、预处理模块22、模型构建模块23、计算模块24、风险分组模块25和独立因素分析模块26。
数据下载模块21,用于从数据库中下载样品的转录组基因信息和表型信息;
预处理模块22,用于预处理转录组基因信息和表型信息以构建基因表达列表;
模型构建模块23,用于对基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并以目标基因构建预后风险模型;
计算模块24,用于从转录组基因信息提取每个样品的目标基因的基因表达值,并输入至预后风险模型计算得到每个样品的风险分数;
风险分组模块25,用于确认风险分数的最佳截断值,并根据最佳截断值将所有样品进行预后风险高低分组;
独立因素分析模块26,用于从表型信息中选取多个预先指定的临床相关信息,并结合预后风险高低分组对目标基因进行独立预后因素验证,并当目标基因是独立的预后因素时,确认预后风险模型构建完成。
可选地,预处理模块22执行预处理转录组基因信息和表型信息以构建基因表达列表的操作,具体包括:将所有样品的样品名称和EnsembID注释信息拼接得到第一列表,并筛选第一列表中的重复基因,将重复基因的基因表达值的平均值作为重复基因的最终基因表达值;对第一列表进行log2逆转换,得到第二列表;从表型信息中获取预先指定的表型信息,并与第二列表拼接,生成第三列表,预先指定的表型信息包括癌组织和癌旁组织。
可选地,模型构建模块23执行对基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并以目标基因构建预后风险模型的操作,具体包括:对第三列表进行差异性分析,筛选得到在预先指定的表型信息之间存在显著差异性的第一基因组,并利用第一基因组构建第四列表;将第四列表进行log2转换,得到第五列表;从表型信息提取临床随访信息,并与第五列表拼接生成第六列表,临床随访信息包括总生存期和总生存时间;对第六列表进行单因素Cox回归分析,筛选得到与临床预后结果显著相关的第二基因组;对第二基因组和临床随访信息进行lasso分析,筛选得到第三基因组;对第三基因组进行多因素Cox回归分析,筛选得到目标基因和模型参数,并根据目标基因和模型参数构建预后风险模型。
可选地,风险分组模块25执行确认风险分数的最佳截断值,并根据最佳截断值将所有样品进行预后风险高低分组的操作,具体包括:利用R语言包中的maxstat计算风险分数的最佳截断值;将风险分数高于最佳截断值的样品标记为高风险,且将风险分数低于最佳截断值的样品标记为低风险,得到预后风险高低分组。
可选地,风险分组模块25执行根据最佳截断值将所有样品进行预后风险高低分组的操作之后,还用于:基于预后风险高低分组利用survivalROC对预后风险模型进行性能评估。
可选地,独立因素分析模块26执行从表型信息中选取多个预先指定的临床相关信息,并结合预后风险高低分组对目标基因进行独立预后因素验证的操作,具体包括:利用survival软件包中的coxph函数对多个预先指定的临床相关信息和预后风险高低分组进行独立预后因素验证,得到表征独立预后因素的P值,且当P值低于预设阈值时,目标基因为独立预后因素。
可选地,该结肠癌预后风险模型构建装置还包括模型应用模块,在独立因素分析模块26执行确认预后风险模型构建完成的操作之后,模型应用模块用于:获取患者的目标基因的当前基因表达值;将当前基因表达值输入至预后风险模型,得到当前风险分值;根据当前风险分值和最佳截断值确认患者得结肠癌的风险高低。
关于上述实施例结肠癌预后风险模型构建装置中各模块实现技术方案的其他细节,可参见上述实施例中的结肠癌预后风险模型构建方法中的描述,此处不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
请参阅图5,图5为本发明实施例的计算机设备的结构示意图。如图5所示,该计算机设备30包括处理器31及和处理器31耦接的存储器32,存储器32中存储有程序指令,程序指令被处理器31执行时,使得处理器31执行上述任一实施例所述的结肠癌预后风险模型构建方法步骤。
其中,处理器31还可以称为CPU(Central Processing Unit,中央处理单元)。处理器31可能是一种集成电路芯片,具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图6,图6为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述结肠癌预后风险模型构建方法的程序指令41,其中,该程序指令41可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等计算机设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的计算机设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种结肠癌预后风险模型构建方法,其特征在于,其包括:
从数据库中下载样品的转录组基因信息和表型信息;
预处理所述转录组基因信息和表型信息以构建基因表达列表;
对所述基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并以所述目标基因构建预后风险模型;
从所述转录组基因信息提取每个样品的所述目标基因的基因表达值,并输入至所述预后风险模型计算得到每个样品的风险分数;
确认所述风险分数的最佳截断值,并根据所述最佳截断值将所有样品进行预后风险高低分组;
从所述表型信息中选取多个预先指定的临床相关信息,并结合所述预后风险高低分组对所述目标基因进行独立预后因素验证,并当所述目标基因是独立的预后因素时,确认所述预后风险模型构建完成。
2.根据权利要求1所述的结肠癌预后风险模型构建方法,其特征在于,所述预处理所述转录组基因信息和表型信息以构建基因表达列表,包括:
将所有样品的样品名称和EnsembID注释信息拼接得到第一列表,并筛选所述第一列表中的重复基因,将所述重复基因的基因表达值的平均值作为所述重复基因的最终基因表达值;
对所述第一列表进行log2逆转换,得到第二列表;
从所述表型信息中获取预先指定的表型信息,并与所述第二列表拼接,生成所述第三列表,所述预先指定的表型信息包括癌组织和癌旁组织。
3.根据权利要求2所述的结肠癌预后风险模型构建方法,其特征在于,所述对所述基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并以所述目标基因构建预后风险模型,包括:
对所述第三列表进行差异性分析,筛选得到在所述预先指定的表型信息之间存在显著差异性的第一基因组,并利用所述第一基因组构建第四列表;
将所述第四列表进行log2转换,得到第五列表;
从所述表型信息提取临床随访信息,并与所述第五列表拼接生成第六列表,所述临床随访信息包括总生存期和总生存时间;
对所述第六列表进行单因素Cox回归分析,筛选得到与临床预后结果显著相关的第二基因组;
对所述第二基因组和所述临床随访信息进行lasso分析,筛选得到第三基因组;
对所述第三基因组进行多因素Cox回归分析,筛选得到目标基因和模型参数,并根据目标基因和模型参数构建预后风险模型。
4.根据权利要求1所述的结肠癌预后风险模型构建方法,其特征在于,所述确认所述风险分数的最佳截断值,并根据所述最佳截断值将所有样品进行预后风险高低分组,包括:
利用R语言包中的maxstat计算所述风险分数的最佳截断值;
将所述风险分数高于所述最佳截断值的样品标记为高风险,且将所述风险分数低于所述最佳截断值的样品标记为低风险,得到所述预后风险高低分组。
5.根据权利要求1所述的结肠癌预后风险模型构建方法,其特征在于,所述根据所述最佳截断值将所有样品进行预后风险高低分组之后,还包括:
基于所述预后风险高低分组利用survivalROC对所述预后风险模型进行性能评估。
6.根据权利要求1所述的结肠癌预后风险模型构建方法,其特征在于,所述从所述表型信息中选取多个预先指定的临床相关信息,并结合所述预后风险高低分组对所述目标基因进行独立预后因素验证,包括:
利用survival软件包中的coxph函数对所述多个预先指定的临床相关信息和所述预后风险高低分组进行独立预后因素验证,得到表征独立预后因素的P值,且当所述P值低于预设阈值时,所述目标基因为独立预后因素。
7.根据权利要求1所述的结肠癌预后风险模型构建方法,其特征在于,所述确认所述预后风险模型构建完成之后,还包括:
获取患者的目标基因的当前基因表达值;
将所述当前基因表达值输入至所述预后风险模型,得到当前风险分值;
根据所述当前风险分值和所述最佳截断值确认所述患者得结肠癌的风险高低。
8.一种结肠癌预后风险模型构建装置,其特征在于,其包括:
数据下载模块,用于从数据库中下载样品的转录组基因信息和表型信息;
预处理模块,用于预处理所述转录组基因信息和表型信息以构建基因表达列表;
模型构建模块,用于对所述基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并以所述目标基因构建预后风险模型;
计算模块,用于从所述转录组基因信息提取每个样品的所述目标基因的基因表达值,并输入至所述预后风险模型计算得到每个样品的风险分数;
风险分组模块,用于确认所述风险分数的最佳截断值,并根据所述最佳截断值将所有样品进行预后风险高低分组;
独立因素分析模块,用于从所述表型信息中选取多个预先指定的临床相关信息,并结合所述预后风险高低分组对所述目标基因进行独立预后因素验证,并当所述目标基因是独立的预后因素时,确认所述预后风险模型构建完成。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、与所述处理器耦接的存储器,所述存储器中存储有程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行如权利要求1-7中任一项权利要求所述的结肠癌预后风险模型构建方法的步骤。
10.一种存储介质,其特征在于,存储有能够实现如权利要求1-7中任一项所述的结肠癌预后风险模型构建方法的程序指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310988816.9A CN117035113A (zh) | 2023-08-07 | 2023-08-07 | 结肠癌预后风险模型构建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310988816.9A CN117035113A (zh) | 2023-08-07 | 2023-08-07 | 结肠癌预后风险模型构建方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117035113A true CN117035113A (zh) | 2023-11-10 |
Family
ID=88629314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310988816.9A Pending CN117035113A (zh) | 2023-08-07 | 2023-08-07 | 结肠癌预后风险模型构建方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117035113A (zh) |
-
2023
- 2023-08-07 CN CN202310988816.9A patent/CN117035113A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhinder et al. | Artificial intelligence in cancer research and precision medicine | |
Degenhardt et al. | Evaluation of variable selection methods for random forests and omics data sets | |
CN113257350B (zh) | 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置 | |
CN112086129B (zh) | 预测肿瘤组织cfDNA的方法及系统 | |
CN112951418B (zh) | 基于液体活检的连锁区域甲基化评估方法和装置、终端设备及存储介质 | |
WO2023040102A1 (zh) | 判断肝细胞肝癌患者预后的基因模型、构建方法和应用 | |
EP3629904A1 (en) | Methods and systems for identifying or monitoring lung disease | |
CN115132274B (zh) | 循环无细胞dna转录因子结合位点的甲基化水平分析方法及装置 | |
CN109830264B (zh) | 肿瘤患者基于甲基化位点进行分类的方法 | |
US20020169730A1 (en) | Methods for classifying objects and identifying latent classes | |
US20200294624A1 (en) | Systems and methods for enriching for cancer-derived fragments using fragment size | |
US20240347131A1 (en) | Cancer detection model and construction method therefor, and reagent kit | |
KR20170000744A (ko) | 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치 | |
CN115938590B (zh) | 结直肠癌术后lars预测模型的构建方法及预测系统 | |
CN110010195B (zh) | 一种探测单核苷酸突变的方法及装置 | |
CN111916154A (zh) | 一种预测肠癌肝转移的诊断标志物及用途 | |
CN117438097B (zh) | 一种用于早期肝癌术后复发风险预测的方法及系统 | |
WO2018081465A1 (en) | Systems and methods for characterizing nucleic acid in a biological sample | |
CN112908405B (zh) | 肿瘤基因共表达网络构建方法、装置、设备和存储介质 | |
US12020777B1 (en) | Cancer diagnostic tool using cancer genomic signatures to determine cancer type | |
CN109754843B (zh) | 一种探测基因组小片段插入缺失的方法及装置 | |
WO2017220782A1 (en) | Screening method for endometrial cancer | |
AU2022218581B2 (en) | Sequencing data-based itd mutation ratio detecting apparatus and method | |
CN117035113A (zh) | 结肠癌预后风险模型构建方法、装置、设备及存储介质 | |
CN114694752B (zh) | 预测同源重组修复缺陷的方法、计算设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |