CN115841844B - Covid-19和肺癌标志物筛选及预后风险模型构建方法 - Google Patents

Covid-19和肺癌标志物筛选及预后风险模型构建方法 Download PDF

Info

Publication number
CN115841844B
CN115841844B CN202211393618.XA CN202211393618A CN115841844B CN 115841844 B CN115841844 B CN 115841844B CN 202211393618 A CN202211393618 A CN 202211393618A CN 115841844 B CN115841844 B CN 115841844B
Authority
CN
China
Prior art keywords
covid
lung cancer
prognosis
gene
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211393618.XA
Other languages
English (en)
Other versions
CN115841844A (zh
Inventor
周经姣
刘雁萍
杨贵濮
晏晴
王仲怡
王毅
丰颖
杨文�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Science and Engineering WUSE
Original Assignee
Wuhan University of Science and Engineering WUSE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Science and Engineering WUSE filed Critical Wuhan University of Science and Engineering WUSE
Priority to CN202211393618.XA priority Critical patent/CN115841844B/zh
Publication of CN115841844A publication Critical patent/CN115841844A/zh
Application granted granted Critical
Publication of CN115841844B publication Critical patent/CN115841844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种COVID‑19和肺癌标志物筛选及预后风险模型构建方法:基于机器学习筛选出COVID‑19和肺癌相关联基因,进行单因素COX分析、LASSO回归分析、多因素COX分析,得到COVID‑19和肺癌共同预后标志物,并构建COVID‑19和肺癌预后风险模型;风险模型的预后效能及死亡风险评估显示,预后标志物具有高度特异性和敏感性,可用于COVID‑19和肺癌预后评估;预后标志物与患者肿瘤原发灶大小、淋巴结受累情况和肿瘤病理分期高度相关,可用于筛选高危群体,指导临床个体化治疗方案的制定。

Description

COVID-19和肺癌标志物筛选及预后风险模型构建方法
技术领域
本发明涉及生物医药技术领域,具体是一种COVID-19和肺癌共同分子标志物筛选以及预后风险模型的构建方法。
背景技术
COVID-19是由严重急性呼吸综合征冠状病毒2(SARS-CoV-2)引起的一种急性呼吸道疾病。研究显示,恶性肿瘤患者感染SARS-CoV-2的概率更高,且临床预后更差,尤其是肺癌和血液系统肿瘤患者。肺癌和COVID-19患者的合并死亡率高达25~42%,显著高于其他癌症患者的死亡率。ACE2作为SARS-CoV-2的重要结合位点,病毒可通过与ACE2结合进入宿主细胞。研究表明,血管紧张素转化酶2(ACE2)和跨膜丝氨酸蛋白酶2(TMPRSS2)在肺癌患者中表达显著增加,这些酶的表达增加可能是造成肺癌患者易感SARS-CoV-2病毒的主要原因之一。此外,肺癌患者整体健康状况不佳以及抗癌治疗引起的全身免疫抑制状态更容易受到SARS-CoV-2的感染。
疾病的预后模型是当前广泛应用的疾病高危人群评估工具。利用大量医学数据来构建疾病的预后模型是医学研究的热点方向。目前还没有广泛认可的方法来从一组候选预测变量中建立多变量预后模型。缺乏敏感、特异的预后分子标志物,无法开发特定的有效诊断和治疗方法。鉴于肺癌更易感染SARS-CoV-2且预后较差,识别并建立COVID-19和肺癌的预后模型,筛选特异、敏感的分子标志物,可应用于COVID-19和肺癌患者的预后判断和临床诊断治疗。
发明内容
本发明的目的在于提供一种COVID-19和肺癌共同分子标志物以及预后风险模型的构建方法,解决现有技术中COVID-19和肺癌患者预后模型欠缺的问题,本发明提供特异且敏感的COVID-19和肺癌患者预后标志物,提供所述预后标志物在预测COVID-19和肺癌患者生存率中的应用;提供所述预后标志物在预测原发灶肿瘤大小、区域淋巴结受累情况、远端转移和肿瘤病理分期中的应用。
本发明解决其技术问题所采用的技术方案是:
COVID-19和肺癌共同分子标志物以及预后风险模型的构建方法,包括以下步骤:
S1、获取肺癌患者和健康人基因表达数据,通过高通量筛选得到肺癌差异基因数据集;从患者数据库获取COVID-19相关基因,得到COVID-19相关基因数据集;COVID-19相关基因数据集和肺癌差异基因数据集的结果相交,得到COVID-19和肺癌相关联基因;
S2、对COVID-19和肺癌相关联基因进行单因素COX分析,得到与患者总生存率相关的关键基因;
S3、将S2的结果进行LASSO回归分析,得到与患者预后生存状态相关的基因;
S4、将S3的结果进行多因素COX分析,得到影响COVID-19和肺癌患者的预后独立因素基因,即COVID-19和肺癌共同预后标志物。
优选地,所述方法还包括以下步骤:
S5、将S4的结果进行相关性分析,得到预后标志物之间的关系;
S6、根据S4的结果计算风险分数,得到COVID-19和肺癌患者生存曲线;
S7、根据S4的结果,得到1、3和5年生存率的时间依赖性ROC曲线;
S8、将S4的结果进行临床分期应用,得到预后标志物与患者肿瘤原发灶的情况、区域淋巴结受累情况和肿瘤病理分期高度相关。
优选地,S1从患者数据库获取肺癌相关转录组数据,去除重复样本后,将数据导入Rstudio环境中,使用“edger”包对数据进行差异表达分析,差异基因的筛选标准为Pvalue<=0.05,|log2FC|>1,筛选出肺癌样本和正常样本的差异表达基因;
S1从患者数据库获取COVID-19相关基因,即为COVID-19相关基因数据集;COVID-19相关基因数据集和肺癌差异基因数据集的结果相交,得到COVID-19和肺癌相关联基因。
优选地,S2构建单因素COX比例风险回归模型,只纳入一种基因到COX比例回归模型中进行拟合,若模型显示该指标对患者总生存率相关的效应值有统计学显著性,该指标是一个与患者总生存率相关的影响因素,筛选条件为P<0.05。
优选地,S3的LASSO回归分析通过构造惩罚函数对自变量的回归系数进行压缩控制。
优选地,S4的多因素COX分析P<0.05为独立预后标志物,HR>1的预后标志物高表达与患者不良预后相关,HR<1的预后标志物的低表达与患者不良预后相关。
优选地,S5的使用“ggstatsplot包”和“BiocManager包”,分别计算每两个基因的pearson相关系数,去除基因的自相关;相关系数越接近1,则两个变量之间呈现高度正相关,相关系数越接近-1,则两个变量之间呈现高度负相关。
优选地,S6的风险分数公式为:
风险分数
公式中,βi代表每个基因的系数,Exp(Xi)代表每个基因的表达量;
即:风险分数=0.1079468*F12+(-0.157083442)*CDK5RAP3+(-1.633607556)*GFAP+(-0.155815416)*GNG7+0.442267436*TRPA1+(-0.104279259)*NELL2+0.140463651*UNC5D。
优选地,S7的使用“survivalROC”包绘制ROC曲线,计算1、3和5年ROC曲线的AUC值。
优选地,S8的TNM分期系统中:T指肿瘤原发灶的情况,随着肿瘤体积的增加和邻近组织受累范围的增加,依次用T1-T4来表示;N指区域淋巴结受累情况;淋巴结未受累时,用N0表示;随着淋巴结受累程度和范围的增加,依次用N1-N3表示;N1表示只有附近的少数淋巴结受到累及,N2介于N1和N3的状况之间的情况,N3表示远处的和/或更多的淋巴结受到累及;M指远处转移,没有远处转移者用M0表示,有远处转移者用M1表示;在此基础上,用TNM三个指标的组合划出特定的分期stage I、stage II、stage III和stage IV期。
本发明的有益效果是:
1.本发明基于单因素COX回归,LASSO回归、多因素COX回归构建COVID-19和肺癌预后模型,并且通过ROC曲线评估预测,表明该预后模型具有较好的预测效用,解决了COVID-19和肺癌预后风险模型欠缺的问题。
2.本发明通过建模,筛选出7个预后标志物F12、CDK5RAP3、GFAP、GNG7、TRPA1、NELL2和UNC5D;这7个预后标志物首次报道与COVID-19和肺癌患者预后显著相关,并且是COVID-19和肺癌患者生存预测的独立预后指标,是具有高预测准确度的COVID-19和肺癌预后分子标志物。
3.本发明结合肺癌临床指标分析预后标志物的特异性和敏感性;筛选所得预后标志物与患者肿瘤原发灶大小、区域淋巴结受累情况和肿瘤病理分期高度相关;可用于筛选高危群体,指导临床个体化治疗方案的制定。
附图说明
下面结合附图和实施例对本发明进一步说明:
图1是本发明的流程示意图;
图2是本发明肺癌差异基因火山图;
图3是本发明肺癌差异基因热图;
图4是本发明917个COVID-19和肺癌相关基因筛选的韦恩图;
图5是本发明LASSO回归系数图;
图6是本发明LASSO回归分析图;
图7是本发明基于多因素COX回归模型筛选与总生存率相关的预后基因森林图;
图8是本发明预后基因相关性热图;
图9是本发明基于风险分数的COVID-19和肺癌患者高、低风险组的Kaplan Meier生存曲线图;
图10是本发明COVID-19和肺癌患者1年生存率的时间依赖性ROC曲线图;
图11是本发明COVID-19和肺癌患者3年生存率的时间依赖性ROC曲线图;
图12是本发明COVID-19和肺癌患者5年生存率的时间依赖性ROC曲线图;
图13是本发明基于秩和检验F12基因在T1、T2、T3和T4肿瘤分期中的表达量差异箱线图;
图14是本发明基于秩和检验CDK5RAP3基因在N0、N1和N2肿瘤分期中的表达量差异箱线图;
图15是本发明基于秩和检验GNG7基因在N0、N1和N2肿瘤分期中的表达量差异箱线图;
图16是本发明基于秩和检验GNG7基因在stageⅠ、stageⅡ、stageⅢ和stageⅣ肿瘤病理分期中的表达量差异箱线图;
图17是本发明基于秩和检验NELL2基因在stageⅠ、stageⅡ、stageⅢ和stageⅣ肿瘤病理分期中的表达量差异箱线图;
图18是本发明基于秩和检验CDK5RAP3基因在stageⅠ、stageⅡ、stageⅢ和stageⅣ肿瘤病理分期中的表达量差异箱线图。
具体实施方式
实施例一基于机器学习的COVID-19和肺癌共同分子标志物以及预后风险模型的构建方法
如图1所示,本发明提供一种COVID-19和肺癌共同分子标志物以及预后风险模型的构建方法,包括以下步骤:
S1、获取肺癌患者和健康人基因表达数据,高通量筛选得到肺癌差异基因数据集;从患者数据库获取COVID-19相关基因,得到COVID-19相关基因数据集;COVID-19相关基因数据集和肺癌差异基因数据集的结果相交,得到COVID-19和肺癌相关联基因;
获取肺癌患者和健康人基因表达数据,去除重复样本后,样本数为对照样本:肺癌样本=59:539;将数据导入Rstudio环境中,使用“edger”包对数据进行差异表达分析,差异基因的筛选标准为Pvalue<=0.05,|log2FC|>1,肿瘤患者与健康人相比,筛选出肺癌样本和正常样本的差异表达基因,共计13285个,其中上调的差异表达基因有10610个,下调的差异表达基因有2675个,图2、图3所示;
如图4所示,从患者数据库获取COVID-19相关基因,共获得5060个基因,得到COVID-19相关基因数据集;COVID-19相关基因数据集和肺癌差异基因数据集的结果相交,得到COVID-19和肺癌相关联基因,共计917个基因;
S2、对COVID-19和肺癌相关联基因进行单因素COX分析,得到与患者总生存率相关的关键基因;
整理肺癌患者相关临床信息,获取患者的生存时间和生存状态,删除无生存状态的样本。共计纳入589名患者的生存信息。对于筛选出的COVID-19和肺癌的917个交集基因,采用单因素COX回归模型,分析与患者总生存率相关的关键基因;
在构建单因素COX比例风险回归模型时,只纳入一种基因到COX比例回归模型中进行拟合,若模型显示该指标对患者总生存率相关的效应值有统计学显著性,该指标是一个与患者总生存率相关的影响因素,筛选条件为P<0.05,共获得40个基因,见表1;表1中HR为风险系数,CI为置信区间;
表1单因素COX回归筛选与患者总生存率相关的关键基因结果表S3、将S2的结果进行LASSO回归分析,得到与患者预后生存状态相关的基因;
为避免多因素COX回归模型中的多重共线性和过度拟合,将单因素COX回归分析的结果使用“glmnet”包进行LASSO回归分析;
LASSO回归分析通过构造惩罚函数对自变量的回归系数进行压缩控制,具有良好的收缩特性,能将一些自变量的回归系数压缩至0,见图5;根据参数Lambda值得到一个由16个基因组成的最佳稀疏化模型,见图6;
通过LASSO回归分析,共筛选出16个基因与患者的预后生存状态相关,见表2;
Gene Coeficient
F12 0.000963309650611138
IL22RA2 -0.0199679331718905
RGS22 -0.00703477110356048
CDK5RAP3 -0.0293347364286313
FCRL5 -0.00276150737224748
SCN1A -0.0107510031001869
GFAP -0.0921661479110066
GNG7 -0.0726925796922858
LINP1 0.0542934962774336
ZIC5 0.138174971595779
FAM83B 0.0315590013235698
TRPA1 0.106685358285461
NELL2 -0.0104892870886005
SLC52A3 0.0107219588370171
TH 0.00439511507781052
UNC5D 0.0897207776888365
表2LASSO回归模型筛选与患者预后生存状态相关的基因结果表S4、将S3的结果进行多因素COX分析,得到影响COVID-19和肺癌患者的预后独立因素基因,即COVID-19和肺癌共同预后标志物;
对LASSO回归模型分析中有意义的基因进一步进行多因素COX比例风险回归模型分析,结果发现F12、CDK5RAP3、GFAP、GNG7、TRPA1、NELL2和UNC5D依然影响着患者的生存预后(P<0.05),见表3;
gene Coeficient HR lower 95%CI upper 95%CI pvalue
F12 0.1079468 1.11398848 1.013654629 1.224253604 0.024987633
CDK5RAP3 -0.157083442 0.854632743 0.766464986 0.952942586 0.004689725
GFAP -1.633607556 0.195224021 0.055374819 0.688262629 0.011051231
GNG7 -0.155815416 0.855717127 0.766960464 0.954745175 0.005289455
TRPA1 0.442267436 1.556231878 1.269364939 1.90792859 2.10E-05
NELL2 -0.104279259 0.900973658 0.81264942 0.998897572 0.047600518
UNC5D 0.140463651 1.150807248 1.088558642 1.216615506 7.40E-07
表3多因素COX回归模型筛选COVID-19和肺癌共同预后标志物结果表
风险比例分析结果显示F12、TRPA1和UNC5D的高表达与患者不良预后相关(HR>1),CDK5RAP3、GFAP、GNG7和NELL2的低表达与患者不良预后相关(HR<1),见图7;这些结果说明F12、CDK5RAP3、GFAP、GNG7、TRPA1、NELL2和UNC5D是影响COVID-19和肺癌患者的预后独立因素,且7个基因的表达水平对于病人预后生存时间上具有很好的区分能力,为有效的COVID-19和肺癌共同预后标志物;7个基因的描述参见表4。
表4 7个基因的名称,Gene ID,染色体位置及编码蛋白描述表
实施例二:预后风险模型的效能评估和死亡风险的预测
本发明还包括步骤:
S5、将S4的结果进行相关性分析,得到预后标志物之间的关系;
将7个基因预后标志物的表达量使用“ggstatsplot包”和“BiocManager包”,分别计算每两个基因的pearson相关系数,去除基因的自相关,见表5;
表5预后基因相关系数表
若相关系数越接近1,则说明这两个变量之间呈现高度正相关,相关系数越接近-1,则说明这两个变量之间呈现高度负相关;并计算相应P值,见表6;
表6预后基因相关性P值表
如图8所示,绘制预后基因相关性热图;结果表明,NELL2与GNG7呈现正相关,pearson相关系数为0.31,具有显著性意义,P值为6.05*10-15;UNC5D与TRPA1呈现正相关,pearson相关系数为0.14,具有显著性意义,P值为7.1*10-4;CDK5RAP3与TRPA1呈现正相关,pearson相关系数为0.08,具有显著性意义,P值为0.041;F12与UNC5D呈现正相关,pearson相关系数为0.09,具有显著性意义,P值为0.036;GFAP与CDK5RAP3呈现正相关,pearson相关系数为0.09,具有显著性意义,P值为0.026;GFAP与F12呈现正相关,pearson相关系数为0.23,具有显著性意义,P值为6.30*10-09;TRPA1与GNG7呈现负相关,pearson相关系数为-0.27,具有显著性意义,P值为1.58*10-11;UNC5D与GNG7呈现负相关,pearson相关系数为-0.11,具有显著性意义,P值为5.4*10-3;F12与GNG7呈现负相关,pearson相关系数为-0.28,具有显著性意义,P值为5.8*10-12;F12与NELL2呈现负相关,pearson相关系数为-0.25,具有显著性意义,P值为3.4*10-10;GFAP与GNG7呈现负相关,pearson相关系数为-0.15,具有显著性意义,P值为1.5*10-4;GFAP与NELL2呈现负相关,pearson相关系数为-0.17,具有显著性意义,P值为4.6*10-05
生存分析
S6、根据S4的结果计算风险分数,得到COVID-19和肺癌患者生存曲线;
利用Kaplan Meier生存分析法分析高风险组和低风险组患者的总生存率差异,根据以下公式计算每个样本的风险分数:
风险分数
公式中,βi代表每个基因的系数,Exp(Xi)代表每个基因的表达量;
即:风险分数=0.1079468*F12+(-0.157083442)*CDK5RAP3+(-1.633607556)*GFAP+(-0.155815416)*GNG7+0.442267436*TRPA1+(-0.104279259)*NELL2+0.140463651*UNC5D;
根据风险分数的中位数,将所有样本分为高风险组与低风险组;使用“su rvival包”计算五年生存率,绘制Kaplan Meier(K M)曲线,见图9;生存分析结果表明,高风险组患者的生存时间明显短于低风险组(P<0.001),表明该模型能够有效预测COVID-19和肺癌患者的预后;
S7、根据S4的结果,得到1、3和5年生存率的时间依赖性ROC曲线;
为了评估由7个基因组成的预后模型在预测COVID-19和肺癌预后的特异性和敏感性,进行了1、3和5年受试者工作特征(ROC)曲线分析;
使用“survivalROC”包绘制ROC曲线,比较各自的AUC值;结果表明,1、3和5年的AUC分别是0.657、0.661和0.641。AUC值表明,由7个基因组成的预后模型对新COVID-19和肺癌患者的预后具有较好的区分性能,见图10、图11、图12。
实施例三 预后标志物与不同临床分期相关性评估
S8、将S4的结果进行临床分期应用,得到预后标志物与患者肿瘤原发灶的情况、区域淋巴结受累情况和肿瘤病理分期高度相关。
为了进一步探讨7个基因对临床预后的影响,分别对每个基因进行了肿瘤TNM分期和病理分期比较。TNM分期系统中:T指肿瘤原发灶的大小,随着肿瘤体积的增加和邻近组织受累范围的增加,依次用T1-T4来表示。N指区域淋巴结受累情况。淋巴结未受累时,用N0表示。随着淋巴结受累程度和范围的增加,依次用N1-N3表示。N1表示只有附近的少数淋巴结受到累及,N2介于N1和N3的状况之间的情况,N3表示远处的和/或更多的淋巴结受到累及。M指远处转移,没有远处转移者用M0表示,有远处转移者用M1表示。在此基础上,用TNM三个指标的组合划出特定的分期stage I、stage II、stage III和stage IV。
如图13所示,分析结果表明F12的表达与肿瘤体积大小和邻近组织受累范围程度有关,该基因在T2分期患者中的表达量显著高于T1分期患者,P value等于0.043,在T3分期患者的表达量显著高于T1分期患者,P value等于0.0078。CDK5RAP3、GNG7基因的表达与淋巴结区淋巴结转移和扩散的数量和范围有关。
如图14、图15所示,分析结果表明CDK5RAP3和GNG7的表达与区域淋巴结受累范围程度有关。CDK5RAP3在N0分期患者的表达量明显高于N1分期患者,P value等于0.021,且在N0分期患者的表达量明显高于N2分期患者,P value等于0.0018。GNG7在N0分期患者的表达量明显高于N2分期患者,P value等于0.022。
如图16、图17、图18所示,分析结果表明GNG7、NELL2和CDK5RAP3的表达与肿瘤病理分期有关。GNG7在肺癌I期患者的表达高于II期、III期和IV期患者;NELL2在肺癌I期患者的表达明显高于II期和III期患者;CDK5RAP3在肺癌I期患者的表达高于III期患者。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制;任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同替换、等效变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,包括以下步骤:
S1、获取肺癌患者和健康人基因表达数据,得到肺癌差异基因数据集;从患者数据库获取COVID-19相关基因,得到COVID-19相关基因数据集;COVID-19相关基因数据集和肺癌差异基因数据集的结果相交,得到COVID-19和肺癌相关联基因;
S2、对COVID-19和肺癌相关联基因进行单因素COX分析,得到与患者总生存率相关的关键基因;
S3、将S2的结果进行LASSO回归分析,得到与患者预后生存状态相关的基因;
S4、将S3的结果进行多因素COX分析,得到影响COVID-19和肺癌患者的预后独立因素基因,即COVID-19和肺癌共同预后标志物,所述共同预后标志物为F12、CDK5RAP3、GFAP、GNG7、TRPA1、NELL2和UNC5D。
2.根据权利要求1所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,所述方法还包括以下步骤:
S5、将S4的结果进行相关性分析,得到预后标志物之间的关系;
S6、根据S4的结果计算风险分数,得到COVID-19和肺癌患者生存曲线;
S7、根据S4的结果,得到1、3和5年生存率的时间依赖性ROC曲线;
S8、将S4的结果进行临床分期应用,得到预后标志物与患者肿瘤原发灶的大小、区域淋巴结受累情况和肿瘤病理分期显著相关。
3.根据权利要求1所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S1从数据库获取肺癌患者和健康人基因表达数据,去除重复样本后,将数据导入Rstudio环境中,使用“edger”包对数据进行差异表达分析,差异基因的筛选标准为Pvalue<=0.05,|log2FC|>1,筛选出肺癌样本和正常样本的差异表达基因;
S1从患者数据库获取COVID-19相关基因,即为COVID-19相关基因数据集;COVID-19相关基因数据集和肺癌差异基因数据集的结果相交,得到COVID-19和肺癌相关联基因。
4.根据权利要求1所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S2构建单因素COX比例风险回归模型,只纳入一种基因到COX比例回归模型中进行拟合,若模型显示该关键基因对患者总生存率相关的效应值有统计学显著性,该关键基因是一个与患者总生存率相关的影响因素,筛选条件为P<0.05。
5.根据权利要求1所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S3的LASSO回归分析通过构造惩罚函数对自变量的回归系数进行压缩控制。
6.根据权利要求1所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S4的多因素COX分析P<0.05为独立预后标志物,HR>1的预后标志物高表达与患者不良预后相关,HR<1的预后标志物的低表达与患者不良预后相关。
7.根据权利要求2所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S5的使用“ggstatsplot包”和“BiocManager包”,分别计算每两个基因的pearson相关系数,去除基因的自相关;相关系数越接近1,则两个变量之间呈现高度正相关,相关系数越接近-1,则两个变量之间呈现高度负相关。
8.根据权利要求2所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S6的风险分数公式为:
公式中,βi代表每个基因的系数,Exp(Xi)代表每个基因的表达量;
即:风险分数=0.1079468*F12+(-0.157083442)*CDK5RAP3+(-1.633607556)*GFAP+(-0.155815416)*GNG7+0.442267436*TRPA1+(-0.104279259)*NELL2+0.140463651*UNC5D。
9.根据权利要求2所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S7的使用“survivalROC”包绘制ROC曲线,计算1、3和5年ROC曲线的AUC值。
10.根据权利要求2所述的COVID-19和肺癌共同分子标志物以及预后风险模型构建方法,其特征在于,S8的TNM分期系统中:T指肿瘤原发灶的大小,随着肿瘤体积的增加和邻近组织受累范围的增加,依次用T1-T4来表示;N指区域淋巴结受累情况;淋巴结未受累时,用N0表示;随着淋巴结受累程度和范围的增加,依次用N1-N3表示;N1表示只有附近的少数淋巴结受到累及,N2介于N1和N3的状况之间的情况,N3表示远处的和/或更多的淋巴结受到累及;M指远处转移,没有远处转移者用M0表示,有远处转移者用M1表示;在此基础上,用TNM三个指标的组合划出分期stage I、stage II、stage III和stage IV期。
CN202211393618.XA 2022-11-08 2022-11-08 Covid-19和肺癌标志物筛选及预后风险模型构建方法 Active CN115841844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211393618.XA CN115841844B (zh) 2022-11-08 2022-11-08 Covid-19和肺癌标志物筛选及预后风险模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211393618.XA CN115841844B (zh) 2022-11-08 2022-11-08 Covid-19和肺癌标志物筛选及预后风险模型构建方法

Publications (2)

Publication Number Publication Date
CN115841844A CN115841844A (zh) 2023-03-24
CN115841844B true CN115841844B (zh) 2024-07-23

Family

ID=85577011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211393618.XA Active CN115841844B (zh) 2022-11-08 2022-11-08 Covid-19和肺癌标志物筛选及预后风险模型构建方法

Country Status (1)

Country Link
CN (1) CN115841844B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735592A (zh) * 2021-01-18 2021-04-30 中国医学科学院肿瘤医院 肺癌预后模型的构建方法及应用方法、电子设备
CN113096739A (zh) * 2021-04-09 2021-07-09 东南大学 一种卵巢癌的免疫预后诊断标志物组合的分析方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120270233A1 (en) * 2008-02-11 2012-10-25 Historx, Inc. Association of biomarkers with patient outcome
CN113373219A (zh) * 2020-03-09 2021-09-10 复旦大学附属华山医院 一种肿瘤干性细胞的检测方法及其用途
CN112391470A (zh) * 2020-11-11 2021-02-23 广东医科大学 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法
CN113140258B (zh) * 2021-04-28 2024-03-19 上海海事大学 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法
CN113450869A (zh) * 2021-07-19 2021-09-28 辽宁省肿瘤医院 基于m6A相关的lncRNA网络结直肠癌预后模型的构建及其临床应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735592A (zh) * 2021-01-18 2021-04-30 中国医学科学院肿瘤医院 肺癌预后模型的构建方法及应用方法、电子设备
CN113096739A (zh) * 2021-04-09 2021-07-09 东南大学 一种卵巢癌的免疫预后诊断标志物组合的分析方法

Also Published As

Publication number Publication date
CN115841844A (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN111128299B (zh) 一种结直肠癌预后显著相关ceRNA调控网络的构建方法
Yan et al. A novel seven‐lncRNA signature for prognosis prediction in hepatocellular carcinoma
Milanez-Almeida et al. Cancer prognosis with shallow tumor RNA sequencing
CN110577998A (zh) 预测肝癌术后早期复发风险分子模型的构建及其应用评估
CN109478231A (zh) 帮助区别良性和恶性放射线照相明显肺结节的方法和组合物
CN109055562B (zh) 一种生物标志物、预测肾细胞癌的复发和死亡风险的方法
CN111128385B (zh) 一种用于食管鳞癌的预后预警系统及其应用
CN111653314B (zh) 一种分析识别淋巴管浸润的方法
CN115588507A (zh) 一种肺腺癌emt相关基因的预后模型及构建方法和应用
CN113355419B (zh) 一种乳腺癌预后风险预测标志组合物及应用
CN109859796B (zh) 一种关于胃癌的dna甲基化谱的降维分析方法
CN113066585A (zh) 一种基于免疫基因表达特征谱对ⅱ期结直肠癌患者预后进行高效快捷评估的方法
CN114203256B (zh) 基于微生物丰度的mibc分型及预后预测模型构建方法
CN113061655B (zh) 一组用于预测乳腺癌新辅助化疗敏感性的基因标签及应用
CN112626218A (zh) 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒
Salinas et al. A prediction model for preoperative risk assessment in endometrial cancer utilizing clinical and molecular variables
Keller et al. Competitive learning suggests circulating miRNA profiles for cancers decades prior to diagnosis
Iuliano et al. Cancer markers selection using network-based cox regression: a methodological and computational practice
CN113584175A (zh) 一组评估肾乳头状细胞癌进展风险的分子标记及其筛选方法和应用
Augugliaro et al. dglars: an R package to estimate sparse generalized linear models
Saini et al. Panoptic view of prognostic models for personalized breast cancer management
CN115841844B (zh) Covid-19和肺癌标志物筛选及预后风险模型构建方法
Wegscheider et al. Altona prognostic index: a new prognostic index for ER-positive and Her2-negative breast cancer of no special type
CN116259360A (zh) 肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用
CN114678062A (zh) 基于多组学特征的肝细胞癌预后预测系统及其预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant