CN115841844B - Covid-19和肺癌标志物筛选及预后风险模型构建方法 - Google Patents
Covid-19和肺癌标志物筛选及预后风险模型构建方法 Download PDFInfo
- Publication number
- CN115841844B CN115841844B CN202211393618.XA CN202211393618A CN115841844B CN 115841844 B CN115841844 B CN 115841844B CN 202211393618 A CN202211393618 A CN 202211393618A CN 115841844 B CN115841844 B CN 115841844B
- Authority
- CN
- China
- Prior art keywords
- covid
- lung cancer
- prognosis
- gene
- genes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010058467 Lung neoplasm malignant Diseases 0.000 title claims abstract description 91
- 201000005202 lung cancer Diseases 0.000 title claims abstract description 91
- 208000020816 lung neoplasm Diseases 0.000 title claims abstract description 91
- 208000025721 COVID-19 Diseases 0.000 title claims abstract description 82
- 238000004393 prognosis Methods 0.000 title claims abstract description 59
- 238000012216 screening Methods 0.000 title claims abstract description 18
- 238000010276 construction Methods 0.000 title claims abstract description 8
- 239000000439 tumor marker Substances 0.000 title abstract description 3
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 99
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 29
- 210000001165 lymph node Anatomy 0.000 claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 239000003550 marker Substances 0.000 claims abstract description 17
- 238000000611 regression analysis Methods 0.000 claims abstract description 11
- 230000001575 pathological effect Effects 0.000 claims abstract description 10
- 230000004083 survival effect Effects 0.000 claims description 40
- 230000014509 gene expression Effects 0.000 claims description 37
- 101001073247 Homo sapiens Guanine nucleotide-binding protein G(I)/G(S)/G(O) subunit gamma-7 Proteins 0.000 claims description 20
- 102100035786 Guanine nucleotide-binding protein G(I)/G(S)/G(O) subunit gamma-7 Human genes 0.000 claims description 19
- 102100038460 CDK5 regulatory subunit-associated protein 3 Human genes 0.000 claims description 17
- 101000882982 Homo sapiens CDK5 regulatory subunit-associated protein 3 Proteins 0.000 claims description 17
- 101000995264 Homo sapiens Protein kinase C-binding protein NELL2 Proteins 0.000 claims description 15
- 102100034433 Protein kinase C-binding protein NELL2 Human genes 0.000 claims description 15
- 102100039289 Glial fibrillary acidic protein Human genes 0.000 claims description 14
- 101710193519 Glial fibrillary acidic protein Proteins 0.000 claims description 14
- 210000005046 glial fibrillary acidic protein Anatomy 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 14
- 101000841743 Homo sapiens Netrin receptor UNC5D Proteins 0.000 claims description 13
- 101000764872 Homo sapiens Transient receptor potential cation channel subfamily A member 1 Proteins 0.000 claims description 13
- 102100029515 Netrin receptor UNC5D Human genes 0.000 claims description 13
- 102100026186 Transient receptor potential cation channel subfamily A member 1 Human genes 0.000 claims description 13
- 239000003147 molecular marker Substances 0.000 claims description 12
- 206010027476 Metastases Diseases 0.000 claims description 10
- 230000009401 metastasis Effects 0.000 claims description 10
- 238000010837 poor prognosis Methods 0.000 claims description 6
- 230000036962 time dependent Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 210000001519 tissue Anatomy 0.000 claims description 4
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 238000010195 expression analysis Methods 0.000 claims description 3
- 101150044508 key gene Proteins 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims description 2
- 230000002596 correlated effect Effects 0.000 abstract description 3
- 230000035945 sensitivity Effects 0.000 abstract description 3
- 238000011282 treatment Methods 0.000 abstract description 3
- 238000009472 formulation Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 239000000203 mixture Substances 0.000 abstract description 2
- 238000012502 risk assessment Methods 0.000 abstract 1
- 241001678559 COVID-19 virus Species 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000013103 analytical ultracentrifugation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 102100030988 Angiotensin-converting enzyme Human genes 0.000 description 2
- 102100035765 Angiotensin-converting enzyme 2 Human genes 0.000 description 2
- 108090000975 Angiotensin-converting enzyme 2 Proteins 0.000 description 2
- 101150080867 Cdk5rap3 gene Proteins 0.000 description 2
- 101150034862 Gng7 gene Proteins 0.000 description 2
- 206010025067 Lung carcinoma cell type unspecified stage I Diseases 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013537 high throughput screening Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 101150101112 7 gene Proteins 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 101150072419 F12 gene Proteins 0.000 description 1
- 102100031507 Fc receptor-like protein 5 Human genes 0.000 description 1
- 101150032879 Fcrl5 gene Proteins 0.000 description 1
- 101001044887 Homo sapiens Interleukin-22 receptor subunit alpha-2 Proteins 0.000 description 1
- 101000877861 Homo sapiens Protein FAM83B Proteins 0.000 description 1
- 101000631760 Homo sapiens Sodium channel protein type 1 subunit alpha Proteins 0.000 description 1
- 101000638154 Homo sapiens Transmembrane protease serine 2 Proteins 0.000 description 1
- 101000976649 Homo sapiens Zinc finger protein ZIC 5 Proteins 0.000 description 1
- 206010062016 Immunosuppression Diseases 0.000 description 1
- 102100022703 Interleukin-22 receptor subunit alpha-2 Human genes 0.000 description 1
- 238000010824 Kaplan-Meier survival analysis Methods 0.000 description 1
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 1
- 101150090182 NELL2 gene Proteins 0.000 description 1
- 102100035443 Protein FAM83B Human genes 0.000 description 1
- 102100021280 Regulator of G-protein signaling 22 Human genes 0.000 description 1
- 101710148116 Regulator of G-protein signaling 22 Proteins 0.000 description 1
- 208000037847 SARS-CoV-2-infection Diseases 0.000 description 1
- 108091007642 SLC52A3 Proteins 0.000 description 1
- 102100028910 Sodium channel protein type 1 subunit alpha Human genes 0.000 description 1
- 102100036865 Solute carrier family 52, riboflavin transporter, member 3 Human genes 0.000 description 1
- 102100031989 Transmembrane protease serine 2 Human genes 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 102100023494 Zinc finger protein ZIC 5 Human genes 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000011319 anticancer therapy Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 201000005787 hematologic cancer Diseases 0.000 description 1
- 208000024200 hematopoietic and lymphoid system neoplasm Diseases 0.000 description 1
- 230000001506 immunosuppresive effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开一种COVID‑19和肺癌标志物筛选及预后风险模型构建方法:基于机器学习筛选出COVID‑19和肺癌相关联基因,进行单因素COX分析、LASSO回归分析、多因素COX分析,得到COVID‑19和肺癌共同预后标志物,并构建COVID‑19和肺癌预后风险模型;风险模型的预后效能及死亡风险评估显示,预后标志物具有高度特异性和敏感性,可用于COVID‑19和肺癌预后评估;预后标志物与患者肿瘤原发灶大小、淋巴结受累情况和肿瘤病理分期高度相关,可用于筛选高危群体,指导临床个体化治疗方案的制定。
Description
技术领域
本发明涉及生物医药技术领域,具体是一种COVID-19和肺癌共同分子标志物筛选以及预后风险模型的构建方法。
背景技术
COVID-19是由严重急性呼吸综合征冠状病毒2(SARS-CoV-2)引起的一种急性呼吸道疾病。研究显示,恶性肿瘤患者感染SARS-CoV-2的概率更高,且临床预后更差,尤其是肺癌和血液系统肿瘤患者。肺癌和COVID-19患者的合并死亡率高达25~42%,显著高于其他癌症患者的死亡率。ACE2作为SARS-CoV-2的重要结合位点,病毒可通过与ACE2结合进入宿主细胞。研究表明,血管紧张素转化酶2(ACE2)和跨膜丝氨酸蛋白酶2(TMPRSS2)在肺癌患者中表达显著增加,这些酶的表达增加可能是造成肺癌患者易感SARS-CoV-2病毒的主要原因之一。此外,肺癌患者整体健康状况不佳以及抗癌治疗引起的全身免疫抑制状态更容易受到SARS-CoV-2的感染。
疾病的预后模型是当前广泛应用的疾病高危人群评估工具。利用大量医学数据来构建疾病的预后模型是医学研究的热点方向。目前还没有广泛认可的方法来从一组候选预测变量中建立多变量预后模型。缺乏敏感、特异的预后分子标志物,无法开发特定的有效诊断和治疗方法。鉴于肺癌更易感染SARS-CoV-2且预后较差,识别并建立COVID-19和肺癌的预后模型,筛选特异、敏感的分子标志物,可应用于COVID-19和肺癌患者的预后判断和临床诊断治疗。
发明内容
本发明的目的在于提供一种COVID-19和肺癌共同分子标志物以及预后风险模型的构建方法,解决现有技术中COVID-19和肺癌患者预后模型欠缺的问题,本发明提供特异且敏感的COVID-19和肺癌患者预后标志物,提供所述预后标志物在预测COVID-19和肺癌患者生存率中的应用;提供所述预后标志物在预测原发灶肿瘤大小、区域淋巴结受累情况、远端转移和肿瘤病理分期中的应用。
本发明解决其技术问题所采用的技术方案是:
COVID-19和肺癌共同分子标志物以及预后风险模型的构建方法,包括以下步骤:
S1、获取肺癌患者和健康人基因表达数据,通过高通量筛选得到肺癌差异基因数据集;从患者数据库获取COVID-19相关基因,得到COVID-19相关基因数据集;COVID-19相关基因数据集和肺癌差异基因数据集的结果相交,得到COVID-19和肺癌相关联基因;
S2、对COVID-19和肺癌相关联基因进行单因素COX分析,得到与患者总生存率相关的关键基因;
S3、将S2的结果进行LASSO回归分析,得到与患者预后生存状态相关的基因;
S4、将S3的结果进行多因素COX分析,得到影响COVID-19和肺癌患者的预后独立因素基因,即COVID-19和肺癌共同预后标志物。
优选地,所述方法还包括以下步骤:
S5、将S4的结果进行相关性分析,得到预后标志物之间的关系;
S6、根据S4的结果计算风险分数,得到COVID-19和肺癌患者生存曲线;
S7、根据S4的结果,得到1、3和5年生存率的时间依赖性ROC曲线;
S8、将S4的结果进行临床分期应用,得到预后标志物与患者肿瘤原发灶的情况、区域淋巴结受累情况和肿瘤病理分期高度相关。
优选地,S1从患者数据库获取肺癌相关转录组数据,去除重复样本后,将数据导入Rstudio环境中,使用“edger”包对数据进行差异表达分析,差异基因的筛选标准为Pvalue<=0.05,|log2FC|>1,筛选出肺癌样本和正常样本的差异表达基因;
S1从患者数据库获取COVID-19相关基因,即为COVID-19相关基因数据集;COVID-19相关基因数据集和肺癌差异基因数据集的结果相交,得到COVID-19和肺癌相关联基因。
优选地,S2构建单因素COX比例风险回归模型,只纳入一种基因到COX比例回归模型中进行拟合,若模型显示该指标对患者总生存率相关的效应值有统计学显著性,该指标是一个与患者总生存率相关的影响因素,筛选条件为P<0.05。
优选地,S3的LASSO回归分析通过构造惩罚函数对自变量的回归系数进行压缩控制。
优选地,S4的多因素COX分析P<0.05为独立预后标志物,HR>1的预后标志物高表达与患者不良预后相关,HR<1的预后标志物的低表达与患者不良预后相关。
优选地,S5的使用“ggstatsplot包”和“BiocManager包”,分别计算每两个基因的pearson相关系数,去除基因的自相关;相关系数越接近1,则两个变量之间呈现高度正相关,相关系数越接近-1,则两个变量之间呈现高度负相关。
优选地,S6的风险分数公式为:
风险分数
公式中,βi代表每个基因的系数,Exp(Xi)代表每个基因的表达量;
即:风险分数=0.1079468*F12+(-0.157083442)*CDK5RAP3+(-1.633607556)*GFAP+(-0.155815416)*GNG7+0.442267436*TRPA1+(-0.104279259)*NELL2+0.140463651*UNC5D。
优选地,S7的使用“survivalROC”包绘制ROC曲线,计算1、3和5年ROC曲线的AUC值。
优选地,S8的TNM分期系统中:T指肿瘤原发灶的情况,随着肿瘤体积的增加和邻近组织受累范围的增加,依次用T1-T4来表示;N指区域淋巴结受累情况;淋巴结未受累时,用N0表示;随着淋巴结受累程度和范围的增加,依次用N1-N3表示;N1表示只有附近的少数淋巴结受到累及,N2介于N1和N3的状况之间的情况,N3表示远处的和/或更多的淋巴结受到累及;M指远处转移,没有远处转移者用M0表示,有远处转移者用M1表示;在此基础上,用TNM三个指标的组合划出特定的分期stage I、stage II、stage III和stage IV期。
本发明的有益效果是:
1.本发明基于单因素COX回归,LASSO回归、多因素COX回归构建COVID-19和肺癌预后模型,并且通过ROC曲线评估预测,表明该预后模型具有较好的预测效用,解决了COVID-19和肺癌预后风险模型欠缺的问题。
2.本发明通过建模,筛选出7个预后标志物F12、CDK5RAP3、GFAP、GNG7、TRPA1、NELL2和UNC5D;这7个预后标志物首次报道与COVID-19和肺癌患者预后显著相关,并且是COVID-19和肺癌患者生存预测的独立预后指标,是具有高预测准确度的COVID-19和肺癌预后分子标志物。
3.本发明结合肺癌临床指标分析预后标志物的特异性和敏感性;筛选所得预后标志物与患者肿瘤原发灶大小、区域淋巴结受累情况和肿瘤病理分期高度相关;可用于筛选高危群体,指导临床个体化治疗方案的制定。
附图说明
下面结合附图和实施例对本发明进一步说明:
图1是本发明的流程示意图;
图2是本发明肺癌差异基因火山图;
图3是本发明肺癌差异基因热图;
图4是本发明917个COVID-19和肺癌相关基因筛选的韦恩图;
图5是本发明LASSO回归系数图;
图6是本发明LASSO回归分析图;
图7是本发明基于多因素COX回归模型筛选与总生存率相关的预后基因森林图;
图8是本发明预后基因相关性热图;
图9是本发明基于风险分数的COVID-19和肺癌患者高、低风险组的Kaplan Meier生存曲线图;
图10是本发明COVID-19和肺癌患者1年生存率的时间依赖性ROC曲线图;
图11是本发明COVID-19和肺癌患者3年生存率的时间依赖性ROC曲线图;
图12是本发明COVID-19和肺癌患者5年生存率的时间依赖性ROC曲线图;
图13是本发明基于秩和检验F12基因在T1、T2、T3和T4肿瘤分期中的表达量差异箱线图;
图14是本发明基于秩和检验CDK5RAP3基因在N0、N1和N2肿瘤分期中的表达量差异箱线图;
图15是本发明基于秩和检验GNG7基因在N0、N1和N2肿瘤分期中的表达量差异箱线图;
图16是本发明基于秩和检验GNG7基因在stageⅠ、stageⅡ、stageⅢ和stageⅣ肿瘤病理分期中的表达量差异箱线图;
图17是本发明基于秩和检验NELL2基因在stageⅠ、stageⅡ、stageⅢ和stageⅣ肿瘤病理分期中的表达量差异箱线图;
图18是本发明基于秩和检验CDK5RAP3基因在stageⅠ、stageⅡ、stageⅢ和stageⅣ肿瘤病理分期中的表达量差异箱线图。
具体实施方式
实施例一基于机器学习的COVID-19和肺癌共同分子标志物以及预后风险模型的构建方法
如图1所示,本发明提供一种COVID-19和肺癌共同分子标志物以及预后风险模型的构建方法,包括以下步骤:
S1、获取肺癌患者和健康人基因表达数据,高通量筛选得到肺癌差异基因数据集;从患者数据库获取COVID-19相关基因,得到COVID-19相关基因数据集;COVID-19相关基因数据集和肺癌差异基因数据集的结果相交,得到COVID-19和肺癌相关联基因;
获取肺癌患者和健康人基因表达数据,去除重复样本后,样本数为对照样本:肺癌样本=59:539;将数据导入Rstudio环境中,使用“edger”包对数据进行差异表达分析,差异基因的筛选标准为Pvalue<=0.05,|log2FC|>1,肿瘤患者与健康人相比,筛选出肺癌样本和正常样本的差异表达基因,共计13285个,其中上调的差异表达基因有10610个,下调的差异表达基因有2675个,图2、图3所示;
如图4所示,从患者数据库获取COVID-19相关基因,共获得5060个基因,得到COVID-19相关基因数据集;COVID-19相关基因数据集和肺癌差异基因数据集的结果相交,得到COVID-19和肺癌相关联基因,共计917个基因;
S2、对COVID-19和肺癌相关联基因进行单因素COX分析,得到与患者总生存率相关的关键基因;
整理肺癌患者相关临床信息,获取患者的生存时间和生存状态,删除无生存状态的样本。共计纳入589名患者的生存信息。对于筛选出的COVID-19和肺癌的917个交集基因,采用单因素COX回归模型,分析与患者总生存率相关的关键基因;
在构建单因素COX比例风险回归模型时,只纳入一种基因到COX比例回归模型中进行拟合,若模型显示该指标对患者总生存率相关的效应值有统计学显著性,该指标是一个与患者总生存率相关的影响因素,筛选条件为P<0.05,共获得40个基因,见表1;表1中HR为风险系数,CI为置信区间;
表1单因素COX回归筛选与患者总生存率相关的关键基因结果表S3、将S2的结果进行LASSO回归分析,得到与患者预后生存状态相关的基因;
为避免多因素COX回归模型中的多重共线性和过度拟合,将单因素COX回归分析的结果使用“glmnet”包进行LASSO回归分析;
LASSO回归分析通过构造惩罚函数对自变量的回归系数进行压缩控制,具有良好的收缩特性,能将一些自变量的回归系数压缩至0,见图5;根据参数Lambda值得到一个由16个基因组成的最佳稀疏化模型,见图6;
通过LASSO回归分析,共筛选出16个基因与患者的预后生存状态相关,见表2;
Gene | Coeficient |
F12 | 0.000963309650611138 |
IL22RA2 | -0.0199679331718905 |
RGS22 | -0.00703477110356048 |
CDK5RAP3 | -0.0293347364286313 |
FCRL5 | -0.00276150737224748 |
SCN1A | -0.0107510031001869 |
GFAP | -0.0921661479110066 |
GNG7 | -0.0726925796922858 |
LINP1 | 0.0542934962774336 |
ZIC5 | 0.138174971595779 |
FAM83B | 0.0315590013235698 |
TRPA1 | 0.106685358285461 |
NELL2 | -0.0104892870886005 |
SLC52A3 | 0.0107219588370171 |
TH | 0.00439511507781052 |
UNC5D | 0.0897207776888365 |
表2LASSO回归模型筛选与患者预后生存状态相关的基因结果表S4、将S3的结果进行多因素COX分析,得到影响COVID-19和肺癌患者的预后独立因素基因,即COVID-19和肺癌共同预后标志物;
对LASSO回归模型分析中有意义的基因进一步进行多因素COX比例风险回归模型分析,结果发现F12、CDK5RAP3、GFAP、GNG7、TRPA1、NELL2和UNC5D依然影响着患者的生存预后(P<0.05),见表3;
gene | Coeficient | HR | lower 95%CI | upper 95%CI | pvalue |
F12 | 0.1079468 | 1.11398848 | 1.013654629 | 1.224253604 | 0.024987633 |
CDK5RAP3 | -0.157083442 | 0.854632743 | 0.766464986 | 0.952942586 | 0.004689725 |
GFAP | -1.633607556 | 0.195224021 | 0.055374819 | 0.688262629 | 0.011051231 |
GNG7 | -0.155815416 | 0.855717127 | 0.766960464 | 0.954745175 | 0.005289455 |
TRPA1 | 0.442267436 | 1.556231878 | 1.269364939 | 1.90792859 | 2.10E-05 |
NELL2 | -0.104279259 | 0.900973658 | 0.81264942 | 0.998897572 | 0.047600518 |
UNC5D | 0.140463651 | 1.150807248 | 1.088558642 | 1.216615506 | 7.40E-07 |
表3多因素COX回归模型筛选COVID-19和肺癌共同预后标志物结果表
风险比例分析结果显示F12、TRPA1和UNC5D的高表达与患者不良预后相关(HR>1),CDK5RAP3、GFAP、GNG7和NELL2的低表达与患者不良预后相关(HR<1),见图7;这些结果说明F12、CDK5RAP3、GFAP、GNG7、TRPA1、NELL2和UNC5D是影响COVID-19和肺癌患者的预后独立因素,且7个基因的表达水平对于病人预后生存时间上具有很好的区分能力,为有效的COVID-19和肺癌共同预后标志物;7个基因的描述参见表4。
表4 7个基因的名称,Gene ID,染色体位置及编码蛋白描述表
实施例二:预后风险模型的效能评估和死亡风险的预测
本发明还包括步骤:
S5、将S4的结果进行相关性分析,得到预后标志物之间的关系;
将7个基因预后标志物的表达量使用“ggstatsplot包”和“BiocManager包”,分别计算每两个基因的pearson相关系数,去除基因的自相关,见表5;
表5预后基因相关系数表
若相关系数越接近1,则说明这两个变量之间呈现高度正相关,相关系数越接近-1,则说明这两个变量之间呈现高度负相关;并计算相应P值,见表6;
表6预后基因相关性P值表
如图8所示,绘制预后基因相关性热图;结果表明,NELL2与GNG7呈现正相关,pearson相关系数为0.31,具有显著性意义,P值为6.05*10-15;UNC5D与TRPA1呈现正相关,pearson相关系数为0.14,具有显著性意义,P值为7.1*10-4;CDK5RAP3与TRPA1呈现正相关,pearson相关系数为0.08,具有显著性意义,P值为0.041;F12与UNC5D呈现正相关,pearson相关系数为0.09,具有显著性意义,P值为0.036;GFAP与CDK5RAP3呈现正相关,pearson相关系数为0.09,具有显著性意义,P值为0.026;GFAP与F12呈现正相关,pearson相关系数为0.23,具有显著性意义,P值为6.30*10-09;TRPA1与GNG7呈现负相关,pearson相关系数为-0.27,具有显著性意义,P值为1.58*10-11;UNC5D与GNG7呈现负相关,pearson相关系数为-0.11,具有显著性意义,P值为5.4*10-3;F12与GNG7呈现负相关,pearson相关系数为-0.28,具有显著性意义,P值为5.8*10-12;F12与NELL2呈现负相关,pearson相关系数为-0.25,具有显著性意义,P值为3.4*10-10;GFAP与GNG7呈现负相关,pearson相关系数为-0.15,具有显著性意义,P值为1.5*10-4;GFAP与NELL2呈现负相关,pearson相关系数为-0.17,具有显著性意义,P值为4.6*10-05;
生存分析
S6、根据S4的结果计算风险分数,得到COVID-19和肺癌患者生存曲线;
利用Kaplan Meier生存分析法分析高风险组和低风险组患者的总生存率差异,根据以下公式计算每个样本的风险分数:
风险分数
公式中,βi代表每个基因的系数,Exp(Xi)代表每个基因的表达量;
即:风险分数=0.1079468*F12+(-0.157083442)*CDK5RAP3+(-1.633607556)*GFAP+(-0.155815416)*GNG7+0.442267436*TRPA1+(-0.104279259)*NELL2+0.140463651*UNC5D;
根据风险分数的中位数,将所有样本分为高风险组与低风险组;使用“su rvival包”计算五年生存率,绘制Kaplan Meier(K M)曲线,见图9;生存分析结果表明,高风险组患者的生存时间明显短于低风险组(P<0.001),表明该模型能够有效预测COVID-19和肺癌患者的预后;
S7、根据S4的结果,得到1、3和5年生存率的时间依赖性ROC曲线;
为了评估由7个基因组成的预后模型在预测COVID-19和肺癌预后的特异性和敏感性,进行了1、3和5年受试者工作特征(ROC)曲线分析;
使用“survivalROC”包绘制ROC曲线,比较各自的AUC值;结果表明,1、3和5年的AUC分别是0.657、0.661和0.641。AUC值表明,由7个基因组成的预后模型对新COVID-19和肺癌患者的预后具有较好的区分性能,见图10、图11、图12。
实施例三 预后标志物与不同临床分期相关性评估
S8、将S4的结果进行临床分期应用,得到预后标志物与患者肿瘤原发灶的情况、区域淋巴结受累情况和肿瘤病理分期高度相关。
为了进一步探讨7个基因对临床预后的影响,分别对每个基因进行了肿瘤TNM分期和病理分期比较。TNM分期系统中:T指肿瘤原发灶的大小,随着肿瘤体积的增加和邻近组织受累范围的增加,依次用T1-T4来表示。N指区域淋巴结受累情况。淋巴结未受累时,用N0表示。随着淋巴结受累程度和范围的增加,依次用N1-N3表示。N1表示只有附近的少数淋巴结受到累及,N2介于N1和N3的状况之间的情况,N3表示远处的和/或更多的淋巴结受到累及。M指远处转移,没有远处转移者用M0表示,有远处转移者用M1表示。在此基础上,用TNM三个指标的组合划出特定的分期stage I、stage II、stage III和stage IV。
如图13所示,分析结果表明F12的表达与肿瘤体积大小和邻近组织受累范围程度有关,该基因在T2分期患者中的表达量显著高于T1分期患者,P value等于0.043,在T3分期患者的表达量显著高于T1分期患者,P value等于0.0078。CDK5RAP3、GNG7基因的表达与淋巴结区淋巴结转移和扩散的数量和范围有关。
如图14、图15所示,分析结果表明CDK5RAP3和GNG7的表达与区域淋巴结受累范围程度有关。CDK5RAP3在N0分期患者的表达量明显高于N1分期患者,P value等于0.021,且在N0分期患者的表达量明显高于N2分期患者,P value等于0.0018。GNG7在N0分期患者的表达量明显高于N2分期患者,P value等于0.022。
如图16、图17、图18所示,分析结果表明GNG7、NELL2和CDK5RAP3的表达与肿瘤病理分期有关。GNG7在肺癌I期患者的表达高于II期、III期和IV期患者;NELL2在肺癌I期患者的表达明显高于II期和III期患者;CDK5RAP3在肺癌I期患者的表达高于III期患者。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制;任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同替换、等效变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (10)
1.COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,包括以下步骤:
S1、获取肺癌患者和健康人基因表达数据,得到肺癌差异基因数据集;从患者数据库获取COVID-19相关基因,得到COVID-19相关基因数据集;COVID-19相关基因数据集和肺癌差异基因数据集的结果相交,得到COVID-19和肺癌相关联基因;
S2、对COVID-19和肺癌相关联基因进行单因素COX分析,得到与患者总生存率相关的关键基因;
S3、将S2的结果进行LASSO回归分析,得到与患者预后生存状态相关的基因;
S4、将S3的结果进行多因素COX分析,得到影响COVID-19和肺癌患者的预后独立因素基因,即COVID-19和肺癌共同预后标志物,所述共同预后标志物为F12、CDK5RAP3、GFAP、GNG7、TRPA1、NELL2和UNC5D。
2.根据权利要求1所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,所述方法还包括以下步骤:
S5、将S4的结果进行相关性分析,得到预后标志物之间的关系;
S6、根据S4的结果计算风险分数,得到COVID-19和肺癌患者生存曲线;
S7、根据S4的结果,得到1、3和5年生存率的时间依赖性ROC曲线;
S8、将S4的结果进行临床分期应用,得到预后标志物与患者肿瘤原发灶的大小、区域淋巴结受累情况和肿瘤病理分期显著相关。
3.根据权利要求1所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S1从数据库获取肺癌患者和健康人基因表达数据,去除重复样本后,将数据导入Rstudio环境中,使用“edger”包对数据进行差异表达分析,差异基因的筛选标准为Pvalue<=0.05,|log2FC|>1,筛选出肺癌样本和正常样本的差异表达基因;
S1从患者数据库获取COVID-19相关基因,即为COVID-19相关基因数据集;COVID-19相关基因数据集和肺癌差异基因数据集的结果相交,得到COVID-19和肺癌相关联基因。
4.根据权利要求1所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S2构建单因素COX比例风险回归模型,只纳入一种基因到COX比例回归模型中进行拟合,若模型显示该关键基因对患者总生存率相关的效应值有统计学显著性,该关键基因是一个与患者总生存率相关的影响因素,筛选条件为P<0.05。
5.根据权利要求1所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S3的LASSO回归分析通过构造惩罚函数对自变量的回归系数进行压缩控制。
6.根据权利要求1所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S4的多因素COX分析P<0.05为独立预后标志物,HR>1的预后标志物高表达与患者不良预后相关,HR<1的预后标志物的低表达与患者不良预后相关。
7.根据权利要求2所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S5的使用“ggstatsplot包”和“BiocManager包”,分别计算每两个基因的pearson相关系数,去除基因的自相关;相关系数越接近1,则两个变量之间呈现高度正相关,相关系数越接近-1,则两个变量之间呈现高度负相关。
8.根据权利要求2所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S6的风险分数公式为:
公式中,βi代表每个基因的系数,Exp(Xi)代表每个基因的表达量;
即:风险分数=0.1079468*F12+(-0.157083442)*CDK5RAP3+(-1.633607556)*GFAP+(-0.155815416)*GNG7+0.442267436*TRPA1+(-0.104279259)*NELL2+0.140463651*UNC5D。
9.根据权利要求2所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S7的使用“survivalROC”包绘制ROC曲线,计算1、3和5年ROC曲线的AUC值。
10.根据权利要求2所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S8的TNM分期系统中:T指肿瘤原发灶的大小,随着肿瘤体积的增加和邻近组织受累范围的增加,依次用T1-T4来表示;N指区域淋巴结受累情况;淋巴结未受累时,用N0表示;随着淋巴结受累程度和范围的增加,依次用N1-N3表示;N1表示只有附近的少数淋巴结受到累及,N2介于N1和N3的状况之间的情况,N3表示远处的和/或更多的淋巴结受到累及;M指远处转移,没有远处转移者用M0表示,有远处转移者用M1表示;在此基础上,用TNM三个指标的组合划出分期stage I、stage II、stage III和stage IV期。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211393618.XA CN115841844B (zh) | 2022-11-08 | 2022-11-08 | Covid-19和肺癌标志物筛选及预后风险模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211393618.XA CN115841844B (zh) | 2022-11-08 | 2022-11-08 | Covid-19和肺癌标志物筛选及预后风险模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115841844A CN115841844A (zh) | 2023-03-24 |
CN115841844B true CN115841844B (zh) | 2024-07-23 |
Family
ID=85577011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211393618.XA Active CN115841844B (zh) | 2022-11-08 | 2022-11-08 | Covid-19和肺癌标志物筛选及预后风险模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115841844B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735592A (zh) * | 2021-01-18 | 2021-04-30 | 中国医学科学院肿瘤医院 | 肺癌预后模型的构建方法及应用方法、电子设备 |
CN113096739A (zh) * | 2021-04-09 | 2021-07-09 | 东南大学 | 一种卵巢癌的免疫预后诊断标志物组合的分析方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120270233A1 (en) * | 2008-02-11 | 2012-10-25 | Historx, Inc. | Association of biomarkers with patient outcome |
CN113373219A (zh) * | 2020-03-09 | 2021-09-10 | 复旦大学附属华山医院 | 一种肿瘤干性细胞的检测方法及其用途 |
CN112391470A (zh) * | 2020-11-11 | 2021-02-23 | 广东医科大学 | 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法 |
CN113140258B (zh) * | 2021-04-28 | 2024-03-19 | 上海海事大学 | 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法 |
CN113450869A (zh) * | 2021-07-19 | 2021-09-28 | 辽宁省肿瘤医院 | 基于m6A相关的lncRNA网络结直肠癌预后模型的构建及其临床应用 |
-
2022
- 2022-11-08 CN CN202211393618.XA patent/CN115841844B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735592A (zh) * | 2021-01-18 | 2021-04-30 | 中国医学科学院肿瘤医院 | 肺癌预后模型的构建方法及应用方法、电子设备 |
CN113096739A (zh) * | 2021-04-09 | 2021-07-09 | 东南大学 | 一种卵巢癌的免疫预后诊断标志物组合的分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115841844A (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111128299B (zh) | 一种结直肠癌预后显著相关ceRNA调控网络的构建方法 | |
Yan et al. | A novel seven‐lncRNA signature for prognosis prediction in hepatocellular carcinoma | |
Milanez-Almeida et al. | Cancer prognosis with shallow tumor RNA sequencing | |
CN110577998A (zh) | 预测肝癌术后早期复发风险分子模型的构建及其应用评估 | |
CN109478231A (zh) | 帮助区别良性和恶性放射线照相明显肺结节的方法和组合物 | |
CN109055562B (zh) | 一种生物标志物、预测肾细胞癌的复发和死亡风险的方法 | |
CN111128385B (zh) | 一种用于食管鳞癌的预后预警系统及其应用 | |
CN111653314B (zh) | 一种分析识别淋巴管浸润的方法 | |
CN115588507A (zh) | 一种肺腺癌emt相关基因的预后模型及构建方法和应用 | |
CN113355419B (zh) | 一种乳腺癌预后风险预测标志组合物及应用 | |
CN109859796B (zh) | 一种关于胃癌的dna甲基化谱的降维分析方法 | |
CN113066585A (zh) | 一种基于免疫基因表达特征谱对ⅱ期结直肠癌患者预后进行高效快捷评估的方法 | |
CN114203256B (zh) | 基于微生物丰度的mibc分型及预后预测模型构建方法 | |
CN113061655B (zh) | 一组用于预测乳腺癌新辅助化疗敏感性的基因标签及应用 | |
CN112626218A (zh) | 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒 | |
Salinas et al. | A prediction model for preoperative risk assessment in endometrial cancer utilizing clinical and molecular variables | |
Keller et al. | Competitive learning suggests circulating miRNA profiles for cancers decades prior to diagnosis | |
Iuliano et al. | Cancer markers selection using network-based cox regression: a methodological and computational practice | |
CN113584175A (zh) | 一组评估肾乳头状细胞癌进展风险的分子标记及其筛选方法和应用 | |
Augugliaro et al. | dglars: an R package to estimate sparse generalized linear models | |
Saini et al. | Panoptic view of prognostic models for personalized breast cancer management | |
CN115841844B (zh) | Covid-19和肺癌标志物筛选及预后风险模型构建方法 | |
Wegscheider et al. | Altona prognostic index: a new prognostic index for ER-positive and Her2-negative breast cancer of no special type | |
CN116259360A (zh) | 肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用 | |
CN114678062A (zh) | 基于多组学特征的肝细胞癌预后预测系统及其预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |