CN113724782B - 一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法 - Google Patents
一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法 Download PDFInfo
- Publication number
- CN113724782B CN113724782B CN202110955838.6A CN202110955838A CN113724782B CN 113724782 B CN113724782 B CN 113724782B CN 202110955838 A CN202110955838 A CN 202110955838A CN 113724782 B CN113724782 B CN 113724782B
- Authority
- CN
- China
- Prior art keywords
- prognosis
- apa
- gene
- screening
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004393 prognosis Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012216 screening Methods 0.000 title claims abstract description 33
- 201000010099 disease Diseases 0.000 title claims abstract description 21
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 21
- 230000008488 polyadenylation Effects 0.000 title claims abstract description 16
- 239000003550 marker Substances 0.000 title claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 108090000623 proteins and genes Proteins 0.000 claims description 53
- 230000014509 gene expression Effects 0.000 claims description 36
- 230000004083 survival effect Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000011002 quantification Methods 0.000 claims description 5
- 238000000611 regression analysis Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000012165 high-throughput sequencing Methods 0.000 claims description 4
- 108091036066 Three prime untranslated region Proteins 0.000 claims description 3
- 230000006154 adenylylation Effects 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 claims 1
- 239000000203 mixture Substances 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 abstract description 7
- 238000012795 verification Methods 0.000 abstract 1
- 230000033228 biological regulation Effects 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 5
- 102100022416 Aminoacyl tRNA synthase complex-interacting multifunctional protein 1 Human genes 0.000 description 4
- 101000964349 Homo sapiens Activator of basal transcription 1 Proteins 0.000 description 4
- 101000755762 Homo sapiens Aminoacyl tRNA synthase complex-interacting multifunctional protein 1 Proteins 0.000 description 4
- 101000572989 Homo sapiens POU domain, class 3, transcription factor 3 Proteins 0.000 description 4
- 101000718497 Homo sapiens Protein AF-10 Proteins 0.000 description 4
- 101000823407 Homo sapiens Protein FAM98B Proteins 0.000 description 4
- 101000783377 Homo sapiens Serine/threonine-protein phosphatase 2A 56 kDa regulatory subunit epsilon isoform Proteins 0.000 description 4
- 101000976581 Homo sapiens Zinc finger protein 134 Proteins 0.000 description 4
- 102100026456 POU domain, class 3, transcription factor 3 Human genes 0.000 description 4
- 102100026286 Protein AF-10 Human genes 0.000 description 4
- 102100022569 Protein FAM98B Human genes 0.000 description 4
- 102100036141 Serine/threonine-protein phosphatase 2A 56 kDa regulatory subunit epsilon isoform Human genes 0.000 description 4
- 102100023574 Zinc finger protein 134 Human genes 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013517 stratification Methods 0.000 description 4
- 102100040431 Activator of basal transcription 1 Human genes 0.000 description 3
- 102100025680 Complement decay-accelerating factor Human genes 0.000 description 3
- 102100027591 Copper-transporting ATPase 2 Human genes 0.000 description 3
- 101000856022 Homo sapiens Complement decay-accelerating factor Proteins 0.000 description 3
- 101000936280 Homo sapiens Copper-transporting ATPase 2 Proteins 0.000 description 3
- 101000595800 Homo sapiens Phospholipase A and acyltransferase 3 Proteins 0.000 description 3
- 101000991942 Homo sapiens U8 snoRNA-decapping enzyme Proteins 0.000 description 3
- 102100036066 Phospholipase A and acyltransferase 3 Human genes 0.000 description 3
- 208000003721 Triple Negative Breast Neoplasms Diseases 0.000 description 3
- 102100030662 U8 snoRNA-decapping enzyme Human genes 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 208000032839 leukemia Diseases 0.000 description 3
- 230000001124 posttranscriptional effect Effects 0.000 description 3
- 208000022679 triple-negative breast carcinoma Diseases 0.000 description 3
- 102100021445 Monocarboxylate transporter 11 Human genes 0.000 description 2
- -1 NHS Proteins 0.000 description 2
- 108091006609 SLC16A11 Proteins 0.000 description 2
- 230000007321 biological mechanism Effects 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- 238000012049 whole transcriptome sequencing Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 108020005345 3' Untranslated Regions Proteins 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108091092724 Noncoding DNA Proteins 0.000 description 1
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 1
- 101710124239 Poly(A) polymerase Proteins 0.000 description 1
- 241000932075 Priacanthus hamrur Species 0.000 description 1
- 108091034057 RNA (poly(A)) Proteins 0.000 description 1
- 102000044126 RNA-Binding Proteins Human genes 0.000 description 1
- 108700020471 RNA-Binding Proteins Proteins 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000001994 activation Methods 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000027455 binding Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 201000004101 esophageal cancer Diseases 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法。本发明主要基于逐步回归模型和最小最大凹惩罚的Cox回归模型,从转录组测序数据中识别预后相关APA特征,筛选稳定的预后风险相关标志基因组,提供预后风险得分计算公式,基于数据辅助预测临床患者预后。本发明提供了构建应用于临床患者分层指标的新思路,在已有数据的实施和验证中表现出较高的准确性,并可以简便的推广到任意数据集。
Description
技术领域
本发明涉及高通量测序、基因可变聚腺苷酸化位点识别和疾病预后风险基因筛选技术领域。具体涉及一种基于可变聚腺苷酸化表达数据的预后风险基因组筛选方法及其应用。
背景技术
可变聚腺苷酸化(Alternative poyadenylation,APA)是基因的一种主要转录后调节方式。APA位点常发生于基因的3’非编码区域,可产生不同3’非编码区末端的转录本,在poly(A)聚合酶的作用下生成不同位置和长度的poly(A)尾,影响RNA加工因子和RNA结合蛋白等调节分子与转录本的结合,进而影响mRNA的稳定性及不同转录本的表达。已有研究发现,APA具有显著的组织特异性,在细胞的增殖和分化中具有重要作用。
恶性肿瘤作为一种与细胞的异常分化和增殖密切相关的疾病,其细胞中一些基因的APA位置及转录本表达量与正常细胞存在显著差异。例如,在8号染色体和21号染色体易位白血病(t(8;21)AML)的细胞中,近端APA导致AML1-AE融合基因3’UTR区域的缩短并提高AE基因的稳定性,促进白血病细胞的增长,影响患者的治疗和预后。这提示APA差异基因具有作为肿瘤治疗靶点和患者预后预测指标的潜在可能性。在临床应用中,患者的预后分层在用药选择、疗效评估、复发监测等方面具有重要指导作用。
随着高通量测序技术的发展,全转录组测序越来越多的应用于复杂疾病的临床诊断和治疗中,产生的大量测序数据也为深入挖掘疾病生物机制提供了基础。由于组学数据具有小样本、高维度的特征,为了获得更加稳定、可解释的模型,从大量数据中筛选与问题密切相关的特征子集,是生物信息数据挖掘中的重要步骤。
逐步回归是一种常用的变量选择方法,其将变量逐个引入模型或逐个从模型中去除,基于赤池信息准则(Akaike information criterion,AIC)等模型评价准则比较引入或删除变量前后的模型性能,并保留使模型性能提高的变量,重复该过程直到不能再引入有效的新变量,得到与预测结果显著相关的变量集。逐步回归适用于特征较多的数据,搜索方法包括前进法、后退法和混合法。其中,前进法和后退法通常只能达到局部最优,混合法可能引入贡献较小的特征,存在过拟合问题。
近年来,许多惩罚回归模型也被提出以解决变量回归模型中的不稳定性、计算困难性等问题,这些模型将无关变量的系数收缩至零,将系数非零的变量作为筛选的子集。最常使用的惩罚回归模型是LASSO,其将L1惩罚和线性模型结合使部分子集权重为0,相应特征被忽略。相比于LASSO回归模型,Breheny和Huang提出的基于非凸的平滑削边绝对偏离(Smoothly Clipped Absolute Deviation,SCAD)惩罚和最小最大凹惩罚(MimimaxConcave Penalty,MCP)方法,构建了更加稳定的变量选择回归模型,并提供了实现算法的R语言ncvreg包。
发明内容
本发明的目的在于提供一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法,从转录组测序数据中识别转录后调节相关的APA特征,筛选预后相关标志基因组,提供预后风险得分计算公式,基于数据辅助预测临床疾病预后。
为了达到上述目的,本发明采用以下技术方案予以实现:
步骤一,从样本全转录组测序数据中识别3’非翻译区可APA位点,计算不同转录本的表达量,并过滤表达量过低的APA位点;
步骤二,对步骤一所述的APA位点,通过单因素Cox回归分析初步筛选可能与预后相关的APA位点,将同一基因上所有APA位点的表达量相加作为该基因的表达量;
步骤三,对步骤二所述的基因,基于逐步回归和最小最大凹惩罚的多因素Cox回归模型进行进一步的筛选,得到预后风险基因组及相应系数,得到预后风险得分计算公式;
步骤四,根据步骤三得到的预后风险得分计算公式预测样本预后为高危组或低危组。
优选地,步骤一中,APA位点识别及表达量计算使用APA定量算法(Quantificationof APA,QAPA)。
优选地,步骤二中,单因素Cox回归分析初步筛选设置纳入阈值为P值<0.01。
优选地,步骤三中,逐步回归使用R语言MASS包的stepAIC函数,搜索方法使用混合法(direction=“both”),基于最小最大凹惩罚的Cox回归模型使用R语言ncvreg包的cv.ncvsurv函数(penatly=“MCP”)。模型评价使用AIC指标。
优选地,步骤四中,使用R语言中plotROC包绘制ROC曲线,根据ROC曲线确定预后分层最佳阈值,将预后风险得分>最佳阈值设定为预后高危组,将预后风险的风≤最佳阈值设定为预后低危组,使用R语言survminer包中的ggsurvplot函数绘制Kaplan-Meier曲线比较两组间的生存差异。ROC曲线使用R语言中plotROC包的ggplot函数实现;生存分析使用R语言中的survival包实现。
通过高通量测序获得新纳入样本的筛选基因转录本表达量,计算预后风险得分,根据分类阈值预测样本属于预后高风险组或预后低风险组。
与现有技术相比,本发明具有以下有益效果:
目前仅基于高维度、小样本的传统基因表达数据,对复杂疾病的基因表达调控等生物机制的研究程度有限。本发明基于基因可变聚腺苷酸化表达数据,将基因的转录后调控情况作为标志与疾病发展相关联,为疾病的预后进行分层,为复杂疾病的临床干预提供指导信息。本发明基于大量已有临床数据构建稳定回归模型,可对新纳入样本选择标志基因进行测序,避免全转录组测序的高成本、高噪声、复杂分析等问题,便于临床的推广和应用。
附图说明
图1是基于基因可变聚腺苷酸化表达数据的预后风险基因组筛选方法的流程;
图2是根据预后风险得分对样本生存分析的ROC曲线;
图3是根据预后风险得分的预后分层Kaplan-Meier曲线。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
图1是基于基因可变聚腺苷酸化表达数据的预后风险基因组筛选方法的流程,主要包括基因可变据腺苷酸化位点的示意及表达数据的计算示意、单因素Cox回归进行预后相关基因的初步筛选、逐步回归和基于MCP的Cox回归的进一步基因筛选和疾病预后分层。
图2是根据预后风险得分的生存分析受试者工作特征曲线(Receiver OperatingCharacteristic curve,ROC),其横坐标为假阳性率,纵坐标为真阳性率,ROC曲线下面积(Area Under ROC Curve)越接近1表示模型分类性能越好。根据ROC曲线可获得最佳分类阈值。
图3是根据预后风险得分的预后分层Kaplan-Meier曲线,较平缓的曲线说明该组患者生存时间长,预后风险低,较陡峭的曲线说明该组患者生存时间短,预后风险高。
本实施例以中国三阴性乳腺癌人群病理组织RNA测序数据为样本,进行以下实验。
1、预后相关APA位点初步筛选
对352例中国三阴性乳腺癌患者转录组测序数据通过APA定量算法(Quantification of APA,QAPA)识别并注释基因3’非翻译区APA位点位置。对具有多个APA位点的基因,QAPA计算每个APA位点对应转录本的每百万碱基读段覆盖(Transcripts permillion,TPM)作为APA表达量。对于每个转录组测序样本,共注释34074个APA位点。对APA表达量进行对数变换,令,APA表达量=log2(TPM+1)。删除在所有样本中APA表达量平均值低于1的APA位点,剩余APA位点共20736个,位于12858个基因上。
将352个样本的生存时间和随访状态与基因可变聚腺苷酸化表达数据合并,使用Cox单因素回归分析对三阴性乳腺癌预后相关APA位点进行初步筛选,以P<0.005为纳入标准。将同一基因上APA位点的表达量求和计算基因的总表达量,得到初步筛选的预后风险相关基因共74个。
2、筛选预后风险基因组
筛选预后风险基因组包括逐步回归模型的构建和基于MCP的Cox回归模型构建两部分。使用步骤1中初步筛选获得的74个预后相关基因构建预后风险基因组筛选模块。在逐步回归模型的构建中,首先使用患者的预后信息和基因表达数据构建基于逐步回归的模型,使用混合法进行变量选择。在混合法中,模型从没有变量开始,使用前进法的方式添加提高模型性能的基因作为变量,使用后退法的方式删除不改善模型性能的基因变量。通过逐步回归模型,共保留预后相关基因49个。
使用逐步回归模型筛选获得的49个基因构建基于MCP的Cox回归模型。在Cox回归模型中,以对患者随访记录的生存时间和状态数据构建生存对象,以49个基因的表达量作为协变量。基于MCP的算法将部分基因的系数收缩到0,筛选得到与三阴性乳腺癌预后风险相关的标志基因集,其中包含基因13个,分别为ABT1,AIMP1,ATP7B,CD55,FAM98B,MLLT10,NHS,NUDT16,PLA2G16,POU3F3,PPP2R5E,SLC16A11和ZNF134。预后风险得分(PrognosisRisk Score,PRS)计算公式为:
PRS=-0.783*ABT1+1.700*AIMP1+0.789*ATP7B+0.161**CD55+1.538*FAM98B+0.558*MLLT10+0.843*NHS-0.987*NUDT16+0.517*PLA2G16-0.195*POU3F3+0.373*PPP2R5E+0.424*SLC16A11-1.223**ZNF134
其中,ABT1,AIMP1,ATP7B,CD55,FAM98B,MLLT10,NHS,NUDT16,PLA2G16,POU3F3,PPP2R5E,SLC16A11,ZNF134均表示对应基因基于可变聚腺苷酸化的总表达量。上述预后风险基因组及包含APA事件如表1所示。在筛选获得预后风险相关基因组中,基因ABT1和ZNF134与基因的转录、激活过程相关,FAM98B,MLLT10和POU3F3被报道分别与大肠癌、白血病、食道癌的发生发展相关,AIMP1,PLA2G16和PPP2R5E参与Ras、RET等重要信号转导通路,参与细胞凋亡、生长、分裂过程的调控。
表1
3、预后分层及生存分析
根据步骤2中的预后风险得分公式对根据基因表达量对每个样本计算相应的预后风险得分PRS,根据ROC曲线(图2)确定最佳分组阈值,按照最佳分组阈值将样本划分为预后高风险组和预后低风险组。按照预后分层和患者随访时间绘制Kaplan-Meier曲线如图3所示。按照PRS指标划分的预后高风险组和预后低风险组生存时间存在统计学差异(P值<0.0001)。
由上述实验可知,本发明能够筛选稳定的复杂疾病预后风险预测基因集,具有可重复性,并具有较好的临床应用性能,便于进行针对少量目标基因的测序及分析,可以降低临床检测成本,辅助临床患者预后的预测。本发明使用不同数据集可构建针对不同疾病的预后分层模型,具有可扩展性。
以上实施例仅用于解释说明本发明的技术方案,而非限制本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案的基础上做的修改或同等替换,均落入本发明权利要求书的保护范围内。
Claims (4)
1.一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法,其特征在于,包括以下步骤:
(1)基因可变据腺苷酸化位点识别及表达数据的计算,使用APA识别算法,提取基因3’非翻译区的APA位点,计算基因各转录本的TPM表达量;APA位点识别及表达量计算使用APA定量算法(Quantification of APA,QAPA);
(2)预后相关基因的初步筛选,对转录本TPM表达值进行对数转换并去掉表达量过低的APA位点,通过单因素Cox回归分析进行生存相关APA位点筛选,并计算基因不同转录本表达量总和作为基因的总表达量;单因素Cox回归分析初步筛选设置纳入阈值为P值<0.01;
(3)筛选预后风险基因组,通过逐步回归和基于最小最大凹惩罚的Cox回归模型,对基因进行进一步筛选,输出筛选获得的基因及相应系数,得到预后风险得分计算公式,预后风险得分PRS=a+b1*Exp(gene1)+b2*Exp(gene2)+…+bn*Exp(gen n),其中a为回归模型常数项,bn为回归系数,Exp(genen)为基因genen的总表达量;逐步回归通过R语言MASS包中的stepAIC函数实现,其中逐步回归使用混合法,模型评价使用AIC指标;基于最小最大凹惩罚的Cox回归模型通过R语言ncvreg包中的cv.ncvsurv函数实现;
(4)根据预后风险得分预测样本预后,使用预后风险得分构建生存模型,通过ROC曲线确定最佳分类阈值,设定预后风险分数>最佳分类阈值为预后高危组,预后风险分数≤最佳分类阈值为预后低危组。
2.根据权利要求1所述的一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法,其特征在于,步骤(4)中的ROC曲线使用R语言中plotROC包的ggplot函数实现;生存分析使用R语言中的survival包实现。
3.根据权利要求2所述的一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法,其特征在于,使用R语言中plotROC包绘制ROC曲线,根据ROC曲线确定疾病预后分层最佳阈值,将预后风险得分>最佳阈值设定为预后高危组,将预后风险得分≤最佳阈值设定为预后低危组,使用R语言survminer包中的ggsurvplot函数绘制Kaplan-Meier曲线比较两组间的预后差异。
4.根据权利要求1所述的一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法,其特征在于,通过高通量测序获得新纳入样本的筛选基因转录本表达量,计算预后风险得分,根据分类阈值预测样本的疾病预后风险。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110955838.6A CN113724782B (zh) | 2021-08-19 | 2021-08-19 | 一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110955838.6A CN113724782B (zh) | 2021-08-19 | 2021-08-19 | 一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113724782A CN113724782A (zh) | 2021-11-30 |
CN113724782B true CN113724782B (zh) | 2024-04-02 |
Family
ID=78676927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110955838.6A Active CN113724782B (zh) | 2021-08-19 | 2021-08-19 | 一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113724782B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3107649A1 (en) * | 2018-08-08 | 2020-02-13 | Deep Genomics Incorporated | Systems and methods for determining effects of therapies and genetic variation on polyadenylation site selection |
KR20200038660A (ko) * | 2018-10-04 | 2020-04-14 | 사회복지법인 삼성생명공익재단 | 바이오마커의 선별 방법 및 이를 이용한 암의 진단을 위한 정보제공방법 |
CN111961712A (zh) * | 2019-05-20 | 2020-11-20 | 复旦大学 | 一种注意力缺陷多动障碍综合征的诊断分子标记 |
CN112391470A (zh) * | 2020-11-11 | 2021-02-23 | 广东医科大学 | 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法 |
-
2021
- 2021-08-19 CN CN202110955838.6A patent/CN113724782B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3107649A1 (en) * | 2018-08-08 | 2020-02-13 | Deep Genomics Incorporated | Systems and methods for determining effects of therapies and genetic variation on polyadenylation site selection |
KR20200038660A (ko) * | 2018-10-04 | 2020-04-14 | 사회복지법인 삼성생명공익재단 | 바이오마커의 선별 방법 및 이를 이용한 암의 진단을 위한 정보제공방법 |
CN111961712A (zh) * | 2019-05-20 | 2020-11-20 | 复旦大学 | 一种注意力缺陷多动障碍综合征的诊断分子标记 |
CN112391470A (zh) * | 2020-11-11 | 2021-02-23 | 广东医科大学 | 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法 |
Non-Patent Citations (2)
Title |
---|
李鹏飞 ; 冯靖宇 ; 严滢滢 ; 符刚 ; 沈孝兵 ; .胃癌易感基因筛选及多基因危险度分析.环境与职业医学.2011,(09),全文. * |
赵亮 ; 章佳跃 ; 刘志远 ; 王宇 ; 赵鹏 ; .基于多个lncRNA表达量的风险模型预测胶质母细胞瘤患者预后的研究.临床神经外科杂志.2020,(02),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113724782A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109830264B (zh) | 肿瘤患者基于甲基化位点进行分类的方法 | |
Cappelli et al. | Combining DNA methylation and RNA sequencing data of cancer for supervised knowledge extraction | |
Wang et al. | Integrated TCGA analysis implicates lncRNA CTB-193M12. 5 as a prognostic factor in lung adenocarcinoma | |
Yu et al. | RNA-seq-based breast cancer subtypes classification using machine learning approaches | |
CN115527681A (zh) | 一种结直肠癌预后预测模型构建方法及装置 | |
Lopes-Ramos et al. | Regulatory network of PD1 signaling is associated with prognosis in glioblastoma multiforme | |
AU2020215312A1 (en) | Method of predicting survival rates for cancer patients | |
CN113444793B (zh) | 检测肺腺癌抗氧化应激通路相关基因突变的试剂盒 | |
Ren et al. | Identification of methylation signatures and rules for sarcoma subtypes by machine learning methods | |
CN113724782B (zh) | 一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法 | |
Dehghannasiri et al. | Unsupervised reference-free inference reveals unrecognized regulated transcriptomic complexity in human single cells | |
Qi et al. | Five EMT-related gene signatures predict acute myeloid leukemia patient outcome | |
EP3676846A1 (en) | Site-specific noise model for targeted sequencing | |
CN114703284A (zh) | 一种血液游离dna甲基化定量检测方法及其应用 | |
EP4169025A1 (en) | De novo characterization of cell-free dna fragmentation hotspots in healthy and early-stage cancers | |
CN114627970A (zh) | 结肠腺癌的焦亡相关lncRNA预后模型及其构建方法和应用 | |
WO2017190067A1 (en) | Methods of assessing and monitoring tumor load | |
CN109346181B (zh) | 均衡临床混杂因素的放疗敏感性标志基因筛选方法 | |
Du et al. | Construction of a Colorectal Cancer Prognostic Risk Model and Screening of Prognostic Risk Genes Using Machine-Learning Algorithms | |
Lee et al. | lncExplore: a database of pan-cancer analysis and systematic functional annotation for lncRNAs from RNA-sequencing data | |
KR101701168B1 (ko) | 유전자 패스웨이 활성지수의 세부적 정량화를 위한 유전자 프로파일 방법 | |
Lin et al. | LncRNA DIRC1 is a novel prognostic biomarker and correlated with immune infiltrates in stomach adenocarcinoma | |
Bhattacharyya et al. | Identifying significant microRNA–mRNA pairs associated with breast cancer subtypes | |
Sultan et al. | Machine Learning-based Prediction of the Likelihood of Colorectal Cancer Using miRNA Expression. | |
Taguchi et al. | Applications of PCA based unsupervised FE to bioinformatics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |