CN117976060A - 基于外周血的基因风险评分模型构建方法 - Google Patents
基于外周血的基因风险评分模型构建方法 Download PDFInfo
- Publication number
- CN117976060A CN117976060A CN202311686482.6A CN202311686482A CN117976060A CN 117976060 A CN117976060 A CN 117976060A CN 202311686482 A CN202311686482 A CN 202311686482A CN 117976060 A CN117976060 A CN 117976060A
- Authority
- CN
- China
- Prior art keywords
- gene
- luad
- constructing
- expression
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 25
- 210000005259 peripheral blood Anatomy 0.000 title claims abstract description 24
- 239000011886 peripheral blood Substances 0.000 title claims abstract description 24
- 238000012163 sequencing technique Methods 0.000 claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 230000004186 co-expression Effects 0.000 claims abstract description 9
- 238000003745 diagnosis Methods 0.000 claims abstract description 9
- 238000010201 enrichment analysis Methods 0.000 claims abstract description 7
- 238000002955 isolation Methods 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 210000001616 monocyte Anatomy 0.000 claims abstract description 4
- 238000003012 network analysis Methods 0.000 claims abstract description 4
- 108020004999 messenger RNA Proteins 0.000 claims description 31
- 230000014509 gene expression Effects 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 23
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 210000004369 blood Anatomy 0.000 claims description 10
- 239000008280 blood Substances 0.000 claims description 10
- 238000004393 prognosis Methods 0.000 claims description 10
- 210000000265 leukocyte Anatomy 0.000 claims description 9
- 239000000523 sample Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000002068 genetic effect Effects 0.000 claims description 7
- 238000002156 mixing Methods 0.000 claims description 7
- 230000035772 mutation Effects 0.000 claims description 7
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims description 6
- 239000003153 chemical reaction reagent Substances 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000009169 immunotherapy Methods 0.000 claims description 6
- 210000004698 lymphocyte Anatomy 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 6
- 230000031018 biological processes and functions Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 239000012634 fragment Substances 0.000 claims description 5
- 239000007788 liquid Substances 0.000 claims description 5
- 208000002154 non-small cell lung carcinoma Diseases 0.000 claims description 5
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 claims description 5
- 238000003149 assay kit Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 239000002096 quantum dot Substances 0.000 claims description 4
- 239000012488 sample solution Substances 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 230000004083 survival effect Effects 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 4
- 206010028980 Neoplasm Diseases 0.000 claims description 3
- 238000003559 RNA-seq method Methods 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 108091008053 gene clusters Proteins 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 229910052757 nitrogen Inorganic materials 0.000 claims description 3
- 230000002093 peripheral effect Effects 0.000 claims description 3
- 206010069754 Acquired gene mutation Diseases 0.000 claims description 2
- 108010074708 B7-H1 Antigen Proteins 0.000 claims description 2
- 102000008096 B7-H1 Antigen Human genes 0.000 claims description 2
- 238000012313 Kruskal-Wallis test Methods 0.000 claims description 2
- 108010015302 Matrix metalloproteinase-9 Proteins 0.000 claims description 2
- 101150097337 S100A12 gene Proteins 0.000 claims description 2
- 101150060340 S100a8 gene Proteins 0.000 claims description 2
- 101150100898 Snx11 gene Proteins 0.000 claims description 2
- 238000001793 Wilcoxon signed-rank test Methods 0.000 claims description 2
- 230000004075 alteration Effects 0.000 claims description 2
- 238000011088 calibration curve Methods 0.000 claims description 2
- 238000000546 chi-square test Methods 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 230000003834 intracellular effect Effects 0.000 claims description 2
- 238000001325 log-rank test Methods 0.000 claims description 2
- 238000002493 microarray Methods 0.000 claims description 2
- 230000001575 pathological effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000000750 progressive effect Effects 0.000 claims description 2
- 238000010298 pulverizing process Methods 0.000 claims description 2
- 238000005086 pumping Methods 0.000 claims description 2
- 238000000611 regression analysis Methods 0.000 claims description 2
- 238000010008 shearing Methods 0.000 claims description 2
- 230000000392 somatic effect Effects 0.000 claims description 2
- 230000037439 somatic mutation Effects 0.000 claims description 2
- 238000007619 statistical method Methods 0.000 claims description 2
- 230000009897 systematic effect Effects 0.000 claims description 2
- 230000036962 time dependent Effects 0.000 claims description 2
- 238000012502 risk assessment Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract description 3
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 35
- 201000005249 lung adenocarcinoma Diseases 0.000 description 35
- 208000020816 lung neoplasm Diseases 0.000 description 10
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 8
- 201000005202 lung cancer Diseases 0.000 description 8
- 102100033793 ALK tyrosine kinase receptor Human genes 0.000 description 2
- 101710168331 ALK tyrosine kinase receptor Proteins 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 102000001301 EGF receptor Human genes 0.000 description 2
- 108060006698 EGF receptor Proteins 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004879 molecular function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- 206010059866 Drug resistance Diseases 0.000 description 1
- 229940076838 Immune checkpoint inhibitor Drugs 0.000 description 1
- 108091008026 Inhibitory immune checkpoint proteins Proteins 0.000 description 1
- 102000037984 Inhibitory immune checkpoint proteins Human genes 0.000 description 1
- 206010056342 Pulmonary mass Diseases 0.000 description 1
- 108091034057 RNA (poly(A)) Proteins 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 230000005773 cancer-related death Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 239000012274 immune-checkpoint protein inhibitor Substances 0.000 description 1
- 230000001024 immunotherapeutic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008606 intracellular interaction Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 108091070501 miRNA Proteins 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011242 molecular targeted therapy Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000004223 overdiagnosis Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000005195 poor health Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000008261 resistance mechanism Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Abstract
本发明提供一种基于外周血的基因风险评分模型构建方法,包括如下步骤:S1:进行取样的操作;S2:进行单核细胞分离的步骤;S3:进行转录组测序分析的步骤;S4:进行加权基因共表达网络分析的步骤;S5:进行模块和基因的识别的步骤;S6:进行功能富集分析的步骤;S7:进行诊断模型的构建和验证的步骤;本申请利用LUAD患者和健康对照者的外周血转录组测序,基于机器学习算法创建了基因风险评分模型。
Description
技术领域
本发明具体涉及一种基于外周血的基因风险评分模型构建方法。
背景技术
肺腺癌(LUAD)是肺癌的主要组织学亚型,很少有研究集中在精准和无创预测模型的开发。本研究旨在建立外周血诊断LUAD的风险评分模型,探讨该风险评分模型与患者预后、免疫治疗效果的相关性。
肺癌(LC)是全球癌症相关死亡的主要原因。非小细胞肺癌(NSCLC)占肺癌的85%,肺腺癌(LUAD)是非小细胞肺癌最常见的组织学亚型,占所有肺癌的50%左右。由于LUAD早期缺乏特异性症状,65%~70%的患者在确诊时已进入晚期。尽管靶向治疗的进步,但LUAD患者的预后仍然令人不满意。有研究表明,晚期LUAD患者的总体5年生存率低于15%。近十余年,免疫检查点抑制剂广泛用于驱动基因阴性的LUAD,却很少有生物标志物可以预测免疫治疗的疗效并对受益人群进行分层。
目前,组织病理检查是LC临床诊断的金标准,但其具有侵入性和出血风险,尤其不适用于健康状况不佳的患者和体积小的肺结节6。随着low dose computed tomography(LDCT)分辨率的提高,每年有数百万患者被诊断为“早期LC”。这些患者部分接受了非必要性的手术切除,严重影响患者的身心负担。因此,具有扫描辐射危险和较高假阳性率的LDCT增加了过度诊断的风险。肺癌分子标志物的研究虽然轰轰烈烈,但是这些研究多集中在分子靶向治疗方面,例如Epidermal Growth Factor Receptor(EGFR)、The anaplasticlymphoma kinase(ALK)等基因。往往是确诊LUAD后,利用肺癌变组织进行上述分子诊断标志物的突变位点的检测,用于患者的个体化治疗。
血液是最理想的检测基质,它是非侵入性和微创检测方法。这种无创便捷的预测模型作为新兴预测工具在LC的早期预警及辅助诊断、疗效实时监测、用药指导和耐药机制探索、预后判断等临床应用方面持续发挥重要作。近年来,血液补体片段,miRNA,循环肿瘤DNA和DNA甲基化等各种成分被用于LC的诊断预测虽然有一定的临床价值,但是灵敏度有限,在LUAD的特异性更差。随着高通量测序技术的迅速发展,基于转录组的生物信息数据挖掘是寻找疾病诊断标志物的重要研究手段。然而,基于外周血来源的转录组标志物的预测模型在LUAD的诊断和预后中依旧缺乏。
本申请利用LUAD患者和健康对照者的外周血转录组测序,基于机器学习算法创建了基因风险评分模型。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于外周血的基因风险评分模型构建方法,该基于外周血的基因风险评分模型构建方法可以很好地解决上述问题。
为达到上述要求,本发明采取的技术方案是:提供一种基于外周血的基因风险评分模型构建方法,该基于外周血的基因风险评分模型构建方法包括如下步骤:
S1:进行取样的操作;
S2:进行单核细胞分离的步骤;
将新鲜全血与等体积的PBS混合,倒置以达到彻底混合,加入淋巴细胞分离液在20℃以3000g离心30分钟分离淋巴细胞,已经沉淀下来的白细胞层被分离出来,将体积为白细胞20倍的Trizol试剂加入到白细胞中,混合物被抽吸和混合,直到整个样品溶液变得清晰、明亮和无粘性,溶液贮存在摄氏零下80度;
S3:进行转录组测序分析的步骤;
将步骤S2获取的样品溶液在液氮下粉碎,并使用TRIzolTM试剂提取总RNA,使用NanoDropTM光谱仪和Life Invitrogen Qubit RNA BR测定试剂盒评估RNA的完整性和纯度,使用磁带站系统进一步确认RNA完整性,对于mRNA测序文库制备,每个样品处理0.1-1μg总RNA,使用试剂盒分离mRNA,然后建库试剂盒构建mRNA文库,并测定文库浓度,之后检测文库片段分布,之后测定文库摩尔浓度,进行高通量转录组测序,最后计算Reads Count并获得样本的基因表达文件;
S4:进行加权基因共表达网络分析的步骤;
通过计算表达矩阵内的方差,鉴定基因在最高四分位数的方差随后的WGCNA分析,使用hclust函数来检测表达式矩阵中的任何潜在异常值,去除异常值以确保数据的完整性,在没有异常值的情况下,保留所有样本进行共表达网络构建,应用软阈值功能来确定软阈值即β值,使网络符合无尺度网络的特征,从而保留关键基因,共表达相关矩阵的构建由顺方向模块函数促进,利用拓扑重叠矩阵来衡量拓扑网络的相似性,然后将邻接矩阵转化为拓扑矩阵网络,通过1-TOM计算基因差异,利用拓扑重叠矩阵的不同之处,构建了层次聚类树,动态剪切树方法有助于合并相似的基因模块,揭示不同功能的基因聚类;
S5:进行模块和基因的识别的步骤;
通过使用基因显著性和模块成员对临床数据进行相关性分析,GS测量基因和临床信息之间关联而MM测量基因表达和模块特征基因之间具有相关性,通过评估基因模块与临床特征之间的相关系数,定位与LUAD最相关的模块并将这些与LUAD高度相关的模块称为重要模块;
S6:进行功能富集分析的步骤;
通过GO富集分析来确定与LUAD核心基因相关的潜在生物学过程,另一方面进行系统分析基因功能,将基因组信息与更高层次的功能见解联系起来,综合数据后将基因组中的一组基因与细胞内相互作用的分子网络联系起来;
S7:进行诊断模型的构建和验证的步骤;
采用最小绝对收缩选择算子方法构建基于mRNA的LUAD预测模型,通过鉴定具有非零回归系数的mRNA特征作为预测的最佳mRNA集合来实现的,利用LASSO分析得到的回归系数为每个样本生成一个分类器指数,使用以下公式将所选mRNA的表达值分解到风险评分计算:
其中:
“βi”表示从LASSO回归获得的第i mRNA的回归系数,并且“expi”表示第i基因的表达值;
n表示样本数量;
p表示特征数量;
yi表示风险指标的观测值;
xij表示第i个观测的第j个特征的值;
β0表示截距;
βj表示第j个特征的系数;
λ表示LASSO回归中的正则化参数,用于控制特征选择的强度。
通过敏感性、特异性、阳性预测值、阴性预测值和ROC曲线下面积评估特征的诊断效果,GSE20189数据集包含来自LUAD和健康对照的外周全血的测序数据,这些数据用作外部诊断验证集。
该基于外周血的基因风险评分模型构建方法具有的优点如下:
本申请利用LUAD患者和健康对照者的外周血转录组测序,基于机器学习算法创建了基因风险评分模型。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示意性地示出了根据本申请一个实施例的基于外周血的基因风险评分模型构建方法的流程示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。
在以下描述中,对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度,但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外,重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例,但并非必然指代相同的实施例。
为简单起见,以下描述中省略了本领域技术人员公知的某些技术特征。
根据本申请的一个实施例,提供一种基于外周血的基因风险评分模型构建方法具体描述如下:
步骤1:进行取样
通过病理组织诊断为LUAD的患者至少20例。另外选取至少10名健康人作为对照组,经体检确认。LUAD组男性占五分之二,女性占五分之三,平均年龄67.45±14.78岁,分期为I期至IV期。健康对照组男性占百分之三十,女性占百分之七十,平均年龄65.50±13.82岁。采用PAXgene血液RNA管采集30例LUAD患者和健康人的外周血样本。
步骤2:单核细胞分离
新鲜全血与等体积的PBS混合,倒置以达到彻底混合。加入淋巴细胞分离液在20℃以3000g离心30分钟分离淋巴细胞。已经沉淀下来的白细胞层被分离出来。将体积为白细胞20倍的Trizol试剂加入到白细胞中。混合物被反复抽吸和混合,直到整个溶液变得清晰、明亮和无粘性。溶液贮存在摄氏零下80度。
步骤3:转录组测序分析
在这项研究中,将步骤2获取的样品在液氮下粉碎,并使用TRIzolTM试剂(Invitrogen,Carlsbad,CA,USA)提取总RNA。使用NanoDropTM光谱仪(Thermo Scientific,Waltham,MA,USA)和Life Invitrogen Qubit RNA BR(Broad-Range)测定试剂盒评估RNA的完整性和纯度。使用安捷伦4200磁带站系统(Agilent,Santa Clara,CA,USA)进一步确认RNA完整性。对于mRNA测序文库制备,每个样品处理0.1-1μg总RNA。根据制造商的方案使用Poly(A)mRNA Magnetic Isolation Module试剂盒分离mRNA,然后用UltraTMII mRNA Library Prep Kit for/>建库试剂盒构建mRNA文库。使用QubitTM dsDNA HS Assay Kit测定文库浓度,然后使用D1000 Screen Tape检测文库片段分布,最后用KAPA Library Quant kit(illumina)universal qPCR Mix精准测定文库摩尔浓度。按照制造商的说明,在Illumina NovaSeq 6000平台上进行高通量转录组测序。最后,使用HTSeq计算Reads Count并获得样本的基因表达文件。
步骤4:加权基因共表达网络分析(WGCNA)
通过计算表达矩阵内的方差开始我们的分析,选择性地鉴定基因在最高四分位数的方差随后的WGCNA分析。使用hclust函数来检测表达式矩阵中的任何潜在异常值,去除它们以确保数据的完整性。在没有异常值的情况下,保留所有样本进行共表达网络构建。为了优化网络的稳健性,我们应用软阈值功能来确定一个合适的软阈值(β值),使网络符合无尺度网络的特征,从而保留关键基因。共表达相关矩阵的构建由顺方向模块函数促进,皮尔逊相关用于系数计算。随后,我们利用拓扑重叠矩阵(TOM)来衡量拓扑网络的相似性。然后将邻接矩阵转化为拓扑矩阵网络,通过1-TOM计算基因差异。利用拓扑重叠矩阵的不同之处,构建了层次聚类树,动态剪切树方法有助于合并相似的基因模块,揭示不同功能的基因聚类。
步骤5:模块和基因的识别
一旦基因模块被识别,通过使用基因显著性(GS)和模块成员(MM)对临床数据进行相关性分析是必不可少的。GS测量基因和临床信息之间的关联,而MM测量基因表达和模块特征基因(ME)之间的相关性,模块特征基因是代表模块表达概况的重要组成部分。通过评估基因模块与临床特征之间的相关系数,我们可以精确定位与LUAD最相关的模块。这些与LUAD高度相关的模块被称为重要模块。
步骤6:功能富集分析
基因本体(GO)将基因产物属性分为三个不同的分子生物学领域:细胞成分(CC),分子功能(MF)和生物过程(BP)。通过GO富集分析来确定与LUAD核心基因相关的潜在生物学过程。另一方面京都基因和基因组百科全书(KEGG)数据库旨在系统分析基因功能,将基因组信息与更高层次的功能见解联系起来。它综合了来自基因组学、计算机技术和系统功能组学的数据,这是一个将基因组中的一组基因与细胞内相互作用的分子网络联系起来的过程。这种方法有助于发现中枢基因所涉及的信号传导途径。
步骤7:诊断模型的构建和验证
采用最小绝对收缩选择算子(LASSO)方法构建基于mRNA的LUAD预测模型。这是通过鉴定具有非零回归系数的mRNA特征作为预测的最佳mRNA集合来实现的。利用LASSO分析得到的回归系数为每个样本生成一个分类器指数。将所选mRNA的表达值分解到风险评分计算的公式可以选用下面公式中的一个:
公式1:
其中:
“βi”表示从LASSO回归获得的第i mRNA的回归系数,并且“expi”表示第i基因的表达值;
n表示样本数量;
p表示特征数量;
yi表示风险指标的观测值;
xij表示第i个观测的第j个特征的值;
β0表示截距;
βj表示第j个特征的系数;
λ表示LASSO回归中的正则化参数,用于控制特征选择的强度。
公式2:
其中:
“βi”表示从LASSO回归获得的第i mRNA的回归系数,并且“expi”表示第i基因的表达值;
n表示样本数量;
p表示特征数量;
yi表示风险指标的观测值;
xij表示第i个观测的第j个特征的值;
β0表示截距;
βj表示第j个特征的系数;
λ表示LASSO回归中的正则化参数,用于控制特征选择的强度。
φ∈(βj)代表渐进平滑的Huber损失,且
其中∈>0,用于平滑Huber损失。
公式3:
“βi”表示从LASSO回归获得的第i mRNA的回归系数,并且“expi”表示第i基因的表达值;
n表示样本数量;
p表示特征数量;
yi表示风险指标的观测值;
xij表示第i个观测的第j个特征的值;
β0表示截距;
βj表示第j个特征的系数;
λ表示LASSO回归中的正则化参数,用于控制特征选择的强度;
其中∈>0,用于确保新的正则化项在零附近平滑。
通过敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)和ROC曲线下面积(ROCAUC)评估特征的诊断效果。GSE20189数据集包含来自LUAD和健康对照的外周全血的测序数据,这些数据被用作外部诊断验证集。
步骤8:验证风险评分的预后预测能力
来自TCGA-LUAD数据集的RNA测序数据(RNA-seq;每千碱基百万(FPKM)值的片段)以及从Gene Expression Omnibus数据库获得的另外两个数据集(GSE13213和GSE50081)。来自TCGA-LUAD数据集的FPKM值被转换成TPM(每千碱基百万转录本)以与微阵列结果一致。获得了LUAD患者的临床资料和预后数据。随后,使用指定的公式计算风险评分。使用X-tiles软件来确定最佳临界值,便于将患者分为高风险组和低风险组。多变量Cox回归分析,结合临床特征,用于辨别LUAD患者的独立预后因素。最后,构建一个基于独立预测风险因素的列线图,并使用时间依赖性ROC曲线和校准曲线分析评估其预测性能。
步骤9:风险评分与免疫治疗的关系
我们从TCGA数据库中获得患者突变数据,通过计数非同义突变来确定LUAD中的肿瘤突变负荷(TMB)。根据ICI评分评估HNSC驱动基因的体细胞改变。使用maftool鉴定了HNSC驱动基因,进一步分析集中在改变频率最高的前20个驱动基因上。GSE135222数据集包括来自接受抗PD-1/PD-L1治疗的27名晚期非小细胞肺癌患者的测序数据以及相应的免疫治疗功效记录。应用建立的公式,我们计算了该数据集中患者的风险评分。这使我们能够评估风险评分在预测免疫治疗反应中的预测潜力。
步骤10:统计分析统计分析
采用R软件(版本4.3.1)进行,使用Kruskal-Wallis检验,而Wilcoxon检验用于两组比较。使用Kaplan-Meier绘图仪生成每个数据集中亚组的生存曲线,并使用对数秩检验来评估统计学显著性。采用卡方检验分析风险评分亚组与体细胞突变频率之间的相关性,Spearman分析计算相关系数。显著性水平p<0.05被认为具有统计学意义。
根据本申请的一个实施例,用于LUAD患者预后评估的基因组合,包括如下4个基因:MMP-9基因,S100A8基因,S100A12基因及SNX11基因。
根据本申请的一个实施例,利用LASSO方法并进行10倍的交叉验证分析,表明4个具有非零回归系数的mRNA=。风险评分的具体计算公式如下:风险评分=2.245519082*MMP9+0.758036535*S100A12+0.006701188*S100A8-1.408605655*SNX11。在内部训练集中,诊断LUAD的风险评分达到了1的AUC,以及敏感性、特异性、PPV和NPV均符合。在数据库,找到与肺腺癌患者的诊断相关的外部验证集(GSE20189)中,诊断LUAD的AUC为0.737,灵敏度为68.5%,特异性为86.3%,PPV为78.0%,NPV为67.0%。
根据本申请的一个实施例,上述四基因风险评分模型预测肺腺癌患者的预后在数据库,找到与肺腺癌患者的预后相关的三个外部验证数据集,TCGA、GSE50081和GSE13213队列,通过上述四基因基因风险评分模型析后显示,患者的上述四基因风险评分越高,生存状态越低,预后显著更差。风险评分越高的患者比低风险评分的患者死亡风险越高。
以上所述实施例仅表示本发明的几种实施方式,其描述较为具体和详细,但并不能理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。
Claims (10)
1.一种基于外周血的基因风险评分模型构建方法,其特征在于,包括如下步骤:
S1:进行取样的操作;
S2:进行单核细胞分离的步骤;
将新鲜全血与等体积的PBS混合,倒置以达到彻底混合,加入淋巴细胞分离液在20℃以3000g离心30分钟分离淋巴细胞,已经沉淀下来的白细胞层被分离出来,将体积为白细胞20倍的Trizol试剂加入到白细胞中,混合物被抽吸和混合,直到整个样品溶液变得清晰、明亮和无粘性,溶液贮存在摄氏零下80度;
S3:进行转录组测序分析的步骤;
将步骤S2获取的样品溶液在液氮下粉碎,并使用TRIzolTM试剂提取总RNA,使用NanoDropTM光谱仪和Life Invitrogen Qubit RNABR测定试剂盒评估RNA的完整性和纯度,使用磁带站系统进一步确认RNA完整性,对于mRNA测序文库制备,每个样品处理0.1-1μg总RNA,使用试剂盒分离mRNA,然后建库试剂盒构建mRNA文库,并测定文库浓度,之后检测文库片段分布,之后测定文库摩尔浓度,进行高通量转录组测序,最后计算Reads Count并获得样本的基因表达文件;
S4:进行加权基因共表达网络分析的步骤;
S5:进行模块和基因的识别的步骤;
通过使用基因显著性和模块成员对临床数据进行相关性分析,GS测量基因和临床信息之间关联而MM测量基因表达和模块特征基因之间具有相关性,通过评估基因模块与临床特征之间的相关系数,定位与LUAD最相关的模块并将这些与LUAD高度相关的模块称为重要模块;
S6:进行功能富集分析的步骤;
通过GO富集分析来确定与LUAD核心基因相关的潜在生物学过程,另一方面进行系统分析基因功能,将基因组信息与更高层次的功能见解联系起来,综合数据后将基因组中的一组基因与细胞内相互作用的分子网络联系起来;
S7:进行诊断模型的构建和验证的步骤;
采用最小绝对收缩选择算子方法构建基于mRNA的LUAD预测模型,通过鉴定具有非零回归系数的mRNA特征作为预测的最佳mRNA集合来实现的,利用LASSO分析得到的回归系数为每个样本生成一个分类器指数,使用以下公式将所选mRNA的表达值分解到风险评分计算:
其中:
“βi”表示从LASSO回归获得的第i mRNA的回归系数,并且“expi”表示第i基因的表达值;
n表示样本数量;
p表示特征数量;
yi表示风险指标的观测值;
xij表示第i个观测的第j个特征的值;
β0表示截距;
βj表示第j个特征的系数;
λ表示LASSO回归中的正则化参数,用于控制特征选择的强度;
通过敏感性、特异性、阳性预测值、阴性预测值和ROC曲线下面积评估特征的诊断效果,GSE20189数据集包含来自LUAD和健康对照的外周全血的测序数据,这些数据用作外部诊断验证集。
2.根据权利要求1所述的基于外周血的基因风险评分模型构建方法,其特征在于,步骤S7中将所选mRNA的表达值分解到风险评分计算的公式为:
其中:
“βi”表示从LASSO回归获得的第i mRNA的回归系数,并且“expi”表示第i基因的表达值;
n表示样本数量;
p表示特征数量;
yi表示风险指标的观测值;
xij表示第i个观测的第j个特征的值;
β0表示截距;
βj表示第j个特征的系数;
λ表示LASSO回归中的正则化参数,用于控制特征选择的强度;
φ∈(βj)代表渐进平滑的Huber损失,且
其中∈>0,用于平滑Huber损失。
3.根据权利要求1所述的基于外周血的基因风险评分模型构建方法,其特征在于,步骤S7中将所选mRNA的表达值分解到风险评分计算的公式为:
“βi”表示从LASSO回归获得的第i mRNA的回归系数,并且“expi”表示第i基因的表达值;
n表示样本数量;
p表示特征数量;
yi表示风险指标的观测值;
xij表示第i个观测的第j个特征的值;
β0表示截距;
βj表示第j个特征的系数;
λ表示LASSO回归中的正则化参数,用于控制特征选择的强度;
其中∈>0,用于确保新的正则化项在零附近平滑。
4.根据权利要求1所述的基于外周血的基因风险评分模型构建方法,其特征在于,步骤S4的具体方式如下:
通过计算表达矩阵内的方差,鉴定基因在最高四分位数的方差随后的WGCNA 分析,使用hclust函数来检测表达式矩阵中的任何潜在异常值,去除异常值以确保数据的完整性,在没有异常值的情况下,保留所有样本进行共表达网络构建,应用软阈值功能来确定软阈值即β值,使网络符合无尺度网络的特征,从而保留关键基因,共表达相关矩阵的构建由顺方向模块函数促进,利用拓扑重叠矩阵来衡量拓扑网络的相似性,然后将邻接矩阵转化为拓扑矩阵网络,通过1-TOM计算基因差异,利用拓扑重叠矩阵的不同之处,构建了层次聚类树,动态剪切树方法有助于合并相似的基因模块,揭示不同功能的基因聚类。
5.根据权利要求1所述的基于外周血的基因风险评分模型构建方法,其特征在于,步骤S1进行取样的操作具体如下:
通过病理组织诊断为LUAD的患者至少20例,另外选取至少10名健康人作为对照组,LUAD组男性与女性的比例为2比3,平均年龄67.45±14.78岁并分期为I期至IV期;健康对照组男性与女性的比例为3比7,平均年龄65.50±13.82岁,采用PAXgene血液RNA管采,LUAD患者和健康人的外周血样本。
6.根据权利要求1所述的基于外周血的基因风险评分模型构建方法,其特征在于,步骤S7之后还包括如下步骤:
S8:进行验证风险评分的预后预测能力的步骤;
来自TCGA-LUAD数据集的RNA测序数据以及从Gene Expression Omnibus数据库获得的另外两个数据集,来自TCGA-LUAD数据集的FPKM值被转换成TPM以与微阵列结果一致,获得了LUAD患者的临床资料和预后数据,确定最佳临界值便于将患者分为高风险组和低风险组,多变量Cox回归分析,结合特征用于辨别LUAD患者的独立预后因素,最后,构建一个基于独立预测风险因素的列线图,并使用时间依赖性ROC曲线和校准曲线评估其预测性能。
7.根据权利要求6所述的基于外周血的基因风险评分模型构建方法,其特征在于,步骤S8之后还包括如下步骤:
S9,进行风险评分与免疫治疗之间关系的步骤;
从TCGA数据库中获得患者突变数据,通过计数非同义突变来确定LUAD中的肿瘤突变负荷,根据ICI评分评估HNSC驱动基因的体细胞改变,鉴定了HNSC驱动基因,进一步分析集中在改变频率最高的前20个驱动基因上,GSE135222数据集包括来自接受抗PD-1/PD-L1治疗的晚期非小细胞肺癌患者的测序数据以及相应的免疫治疗功效记录。
8.根据权利要求7所述的基于外周血的基因风险评分模型构建方法,其特征在于,步骤S9之后还包括如下步骤:
S10:进行统计分析的步骤;
使用Kruskal-Wallis检验,而Wilcoxon检验用于两组比较,使用绘图仪生成每个数据集中亚组的生存曲线,并使用对数秩检验来评估统计学显著性,采用卡方检验分析风险评分亚组与体细胞突变频率之间的相关性,Spearman分析计算相关系数,显著性水平p<0.05被认为具有统计学意义。
9.用于LUAD患者预后评估的基因组合,其特征在于,包括如下4个基因:MMP-9基因,S100A8基因,S100A12基因及SNX11基因。
10.根据权利要求9所述的用于LUAD患者预后评估的基因组合,其特征在于:进行风险评估的评分标准如下:
风险评分=2.245519082*MMP-9基因+0.758036535*S100A12基因+0.006701188*S100A8基因-1.408605655*SNX11基因。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311686482.6A CN117976060A (zh) | 2023-12-08 | 2023-12-08 | 基于外周血的基因风险评分模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311686482.6A CN117976060A (zh) | 2023-12-08 | 2023-12-08 | 基于外周血的基因风险评分模型构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117976060A true CN117976060A (zh) | 2024-05-03 |
Family
ID=90852073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311686482.6A Pending CN117976060A (zh) | 2023-12-08 | 2023-12-08 | 基于外周血的基因风险评分模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117976060A (zh) |
-
2023
- 2023-12-08 CN CN202311686482.6A patent/CN117976060A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7368483B2 (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
Zhou et al. | Relapse-related long non-coding RNA signature to improve prognosis prediction of lung adenocarcinoma | |
CN103299188B (zh) | 用于癌症的分子诊断试验 | |
US20210002728A1 (en) | Systems and methods for detection of residual disease | |
US11164655B2 (en) | Systems and methods for predicting homologous recombination deficiency status of a specimen | |
CN106103744A (zh) | 用于预测脓毒症发作的设备、试剂盒和方法 | |
US20200219587A1 (en) | Systems and methods for using fragment lengths as a predictor of cancer | |
US11869661B2 (en) | Systems and methods for determining whether a subject has a cancer condition using transfer learning | |
US20190018930A1 (en) | Method for building a database | |
Dong et al. | Identification of a pyroptosis-related gene signature for prediction of overall survival in lung adenocarcinoma | |
CN111833963A (zh) | 一种cfDNA分类方法、装置和用途 | |
Wang et al. | A novel four-gene prognostic signature as a risk biomarker in cervical cancer | |
CN112037863B (zh) | 一种早期nsclc预后预测系统 | |
US20210166813A1 (en) | Systems and methods for evaluating longitudinal biological feature data | |
CN106415563A (zh) | 用于预测个体的吸烟状况的系统和方法 | |
Zhao et al. | Construction of a prognosis-related gene signature by weighted gene coexpression network analysis in ewing sarcoma | |
Akter et al. | A data mining approach for biomarker discovery using transcriptomics in endometriosis | |
CN117976060A (zh) | 基于外周血的基因风险评分模型构建方法 | |
Xia et al. | Identifying TME signatures for cervical cancer prognosis based on GEO and TCGA databases | |
CN112382341A (zh) | 一种用于鉴定食管鳞癌预后相关的生物标志物的方法 | |
CN113241181A (zh) | 一种用于肝癌患者的预后风险评估模型及评估装置 | |
Kuznetsov et al. | Statistically weighted voting analysis of microarrays for molecular pattern selection and discovery cancer genotypes | |
Madjar | Survival models with selection of genomic covariates in heterogeneous cancer studies | |
Yi et al. | Identification of four novel prognostic biomarkers and construction of two nomograms in adrenocortical carcinoma: a multi-omics data study via bioinformatics and machine learning methods | |
EP2730922B1 (en) | Method and system for detecting lymphosarcoma in cats using biomarkers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication |