CN115527614B - 一种肺动脉高压的基因表达分类器 - Google Patents
一种肺动脉高压的基因表达分类器 Download PDFInfo
- Publication number
- CN115527614B CN115527614B CN202211161811.0A CN202211161811A CN115527614B CN 115527614 B CN115527614 B CN 115527614B CN 202211161811 A CN202211161811 A CN 202211161811A CN 115527614 B CN115527614 B CN 115527614B
- Authority
- CN
- China
- Prior art keywords
- gene
- analysis
- classifier
- genes
- arterial hypertension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010064911 Pulmonary arterial hypertension Diseases 0.000 title claims abstract description 44
- 230000014509 gene expression Effects 0.000 title claims abstract description 31
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 91
- 238000003745 diagnosis Methods 0.000 claims abstract description 18
- 210000001147 pulmonary artery Anatomy 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims description 24
- 238000012706 support-vector machine Methods 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 16
- 238000007637 random forest analysis Methods 0.000 claims description 13
- 239000008280 blood Substances 0.000 claims description 12
- 210000004369 blood Anatomy 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000010201 enrichment analysis Methods 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 9
- 238000005295 random walk Methods 0.000 claims description 6
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 238000003012 network analysis Methods 0.000 claims description 4
- 230000002685 pulmonary effect Effects 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000012482 interaction analysis Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010187 selection method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000010195 expression analysis Methods 0.000 claims description 2
- 238000000513 principal component analysis Methods 0.000 claims description 2
- 230000006916 protein interaction Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims 2
- 102100031788 E3 ubiquitin-protein ligase MYLIP Human genes 0.000 claims 1
- 102100031181 Glyceraldehyde-3-phosphate dehydrogenase Human genes 0.000 claims 1
- 101001128447 Homo sapiens E3 ubiquitin-protein ligase MYLIP Proteins 0.000 claims 1
- 101000968127 Homo sapiens Lipoyl synthase, mitochondrial Proteins 0.000 claims 1
- 101000958225 Homo sapiens LysM and putative peptidoglycan-binding domain-containing protein 2 Proteins 0.000 claims 1
- 101000955333 Homo sapiens Mediator of RNA polymerase II transcription subunit 10 Proteins 0.000 claims 1
- 101000969594 Homo sapiens Modulator of apoptosis 1 Proteins 0.000 claims 1
- 101000818546 Homo sapiens N-formyl peptide receptor 2 Proteins 0.000 claims 1
- 101000582320 Homo sapiens Neurogenic differentiation factor 6 Proteins 0.000 claims 1
- 101000764357 Homo sapiens Protein Tob1 Proteins 0.000 claims 1
- 101000742054 Homo sapiens Protein phosphatase 1D Proteins 0.000 claims 1
- 101000822540 Homo sapiens Sterile alpha motif domain-containing protein 9-like Proteins 0.000 claims 1
- 101000818563 Homo sapiens Zinc finger and BTB domain-containing protein 25 Proteins 0.000 claims 1
- 102100021174 Lipoyl synthase, mitochondrial Human genes 0.000 claims 1
- 102100038229 LysM and putative peptidoglycan-binding domain-containing protein 2 Human genes 0.000 claims 1
- 102100038976 Mediator of RNA polymerase II transcription subunit 10 Human genes 0.000 claims 1
- 102100021440 Modulator of apoptosis 1 Human genes 0.000 claims 1
- 102100021126 N-formyl peptide receptor 2 Human genes 0.000 claims 1
- 102100030589 Neurogenic differentiation factor 6 Human genes 0.000 claims 1
- 102100038675 Protein phosphatase 1D Human genes 0.000 claims 1
- 101150040974 Set gene Proteins 0.000 claims 1
- 102100022459 Sterile alpha motif domain-containing protein 9-like Human genes 0.000 claims 1
- 102000019347 Tob1 Human genes 0.000 claims 1
- 102100021127 Zinc finger and BTB domain-containing protein 25 Human genes 0.000 claims 1
- 230000002159 abnormal effect Effects 0.000 claims 1
- 108020004445 glyceraldehyde-3-phosphate dehydrogenase Proteins 0.000 claims 1
- 238000010276 construction Methods 0.000 abstract description 4
- 208000002815 pulmonary hypertension Diseases 0.000 description 13
- 238000011282 treatment Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 230000008827 biological function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000007792 addition Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 208000004248 Familial Primary Pulmonary Hypertension Diseases 0.000 description 3
- 208000021124 Heritable pulmonary arterial hypertension Diseases 0.000 description 3
- 208000020875 Idiopathic pulmonary arterial hypertension Diseases 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 206010008479 Chest Pain Diseases 0.000 description 2
- 230000008236 biological pathway Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000000004 hemodynamic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 102000001902 CC Chemokines Human genes 0.000 description 1
- 108010040471 CC Chemokines Proteins 0.000 description 1
- 229940127291 Calcium channel antagonist Drugs 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 102000002227 Interferon Type I Human genes 0.000 description 1
- 108010014726 Interferon Type I Proteins 0.000 description 1
- 101150112842 NB gene Proteins 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 230000010799 Receptor Interactions Effects 0.000 description 1
- 206010039163 Right ventricular failure Diseases 0.000 description 1
- 208000032023 Signs and Symptoms Diseases 0.000 description 1
- 102000004357 Transferases Human genes 0.000 description 1
- 108090000992 Transferases Proteins 0.000 description 1
- 239000003146 anticoagulant agent Substances 0.000 description 1
- 229940127219 anticoagulant drug Drugs 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000004872 arterial blood pressure Effects 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 239000000480 calcium channel blocker Substances 0.000 description 1
- 230000034196 cell chemotaxis Effects 0.000 description 1
- 230000036755 cellular response Effects 0.000 description 1
- 230000010252 chemokine signaling pathway Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000104 diagnostic biomarker Substances 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000012631 diagnostic technique Methods 0.000 description 1
- 239000002934 diuretic Substances 0.000 description 1
- 229940030606 diuretics Drugs 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010230 functional analysis Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003990 molecular pathway Effects 0.000 description 1
- YNCODRLFXWRMSN-YVLHZVERSA-N n-[(z)-(4-methoxyphenyl)methylideneamino]phthalazin-1-amine Chemical compound C1=CC(OC)=CC=C1\C=N/NC1=NN=CC2=CC=CC=C12 YNCODRLFXWRMSN-YVLHZVERSA-N 0.000 description 1
- 230000000422 nocturnal effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000001991 pathophysiological effect Effects 0.000 description 1
- 238000003068 pathway analysis Methods 0.000 description 1
- 230000010412 perfusion Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000002574 poison Substances 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 210000003492 pulmonary vein Anatomy 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 230000003319 supportive effect Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 206010042772 syncope Diseases 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000002255 vaccination Methods 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种肺动脉高压基因表达分类器及建立方法,包括主要能区分健康人和肺动脉高压的特征基因,本发明利用机器学习算法构建了肺动脉高压的基因表达分类器可以辅助诊断肺动脉高压患者,从而辅助临床医生为患者提供精准个性化治疗方案,进而避免肺动脉高压患者治疗费用大大增加的情况。同时,本发明提供了15个能够有效诊断肺动脉高压的诊断标志物,从而提高肺动脉高压辅助诊断效率。
Description
【技术领域】
本发明涉及生物医学技术领域,具体是一种肺动脉高压基因表达模型及建立方法。
【背景技术】
肺动脉高压(PH)是一种血流动力学和病理生理学疾病,定义为通过右心导管插入术评估,静息时平均肺动脉压(PAP)≥25mm Hg。肺动脉高压的临床症状有劳累性呼吸困难、胸闷、胸痛、晕厥、右心衰竭等症状和体征。据统计,全球每100万人中就有11-50人受到肺动脉高压的影响。常见的肺动脉高压类型有特发性肺动脉高压(idiopathic pulmonaryarterial hypertension,IPAH)、遗传性肺动脉高压(heritable pulmonary arterialhypertension,HPAH)、药物和毒物相关肺动脉高压、疾病相关的肺动脉高压、对钙通道阻滞剂长期有效的肺动脉高压、具有明显肺静脉/肺毛细血管受累的肺动脉高压以及新生儿持续性肺动脉高压。
目前,肺动脉高压的诊断主要通过多普勒超声心动图进行初步的筛查,接着利用血流动力学诊断将患者分类,最后通过肺通气/灌注显像、夜间血氧饱和度测定等手段进行病因诊断。对肺动脉高压患者进行治疗前通常需要进行危险分层以评估病情的严重程度,针对不同类型和严重程度的患者,采取的治疗措施通常是不同的。常见的治疗手段有一般措施(康复训练,接种疫苗,避孕等)、支持治疗(抗凝药、利尿剂等)和靶向4种肺动脉高压相关分子途径的特异性疗法,这些治疗只能减缓疾病的进展,并不能治愈肺动脉高压。随着诊断技术和治疗方法的进步,患者1年和3年生存率均有了明显的提高。然而,根据美国2001年到2012年间对肺动脉高压患者的调查显示,尽管患者住院人数有所减少,但是肺动脉高压患者的住院死亡率保持不变且治疗费用大大增加。因此,寻找高效经济的诊断方法有助于解决肺动脉高压患者目前所面临的问题,同时也有助于人们进一步了解肺动脉高压的发病机制。
机器学习是现代医学非常重要的研究手段,在生物信息学领域,机器学习主要用于疾病诊断标志物筛选和预后模型的构建。近年来,基于机器学习算法挖掘肺动脉高压的诊断生物标志物的研究较少,因此,通过机器学习的方法,将肺动脉高压患者中关键的mRNA用于肺动脉高压诊断是十分有前景的。
【发明内容】
本发明的目的是针对现有技术存在的不足,提供一种利用机器学习算法构建的肺动脉高压的基因诊断分类器,其特征在于包含特征基因筛选、模型构建和训练。本发明提供了多个肺动脉高压的诊断生物标志物,这些生物标志物可以有效对健康人和肺动脉高压患者进行分类,为肺动脉高压患者的临床诊断提供更加便捷的辅助方法。
一种利用机器学习算法构建的肺动脉高压基因诊断分类器,其具体步骤为:
Step1:识别能够区分肺动脉高压和健康人的特征基因
1)数据集下载:从GEO数据库中下载肺动脉高压患者和健康人的血液RNA-seq表达矩阵;
2)为建立行为特征与分类之间的联系:利用python包XGBoost建立XGBoost模型,根据特征重要性排序和递归消除确定关键特征;XGBoost是一种梯度推进决策树方法,是梯度提升决策树(Gradientboosting DecisionTree,GBDT)算法的高效实现,是一种基于决策树的集成机器学习算法,与其他分类器相比,此模型泛化能力强、拓展性高,且具有较快的运算速度,在机器学习领域中备受关注;其目标函数定义如式:
式中loss是训练损失(training loss),Ω(f)为树的复杂度,k为模型中树的个数;该模型可以通过最小化目标函数来优化;为此,采用加法训练法计算训练损失,并利用泰勒展开法快速优化第n轮加法训练的预测;
3)模型训练:由于样本不均衡,我们使用python包imblearn进行上采样的方法模型训练;
Step2:多种基因筛选模型建立,其具体步骤如下:
1)通过XGBoost确定了20个能够区分肺动脉高压和健康人的候选特征基因
2)基于20-候选特征基因利用python包sklearn分别构建K近邻(KNN)分类器,随机森林(RF)分类器,支持向量机(SVM)分类器,高斯朴素贝叶斯(NB)分类器
K-近邻分类器(K-Nearest Neighbor,KNN)是最经典和最简单的有监督学习算法之一;其原理为:当对测试样本进行分类时,首先通过扫描训练样本集,找到与该测试样本最相似的个训练样本,根据这个样本的类别进行投票确定测试样本的类别;也可以通过个样本与测试样本的相似程度进行加权投票;如果需要以测试样本对应每类的概率的形式输出,可以通过个样本中不同类别的样本数量分布来进行估计;
随机森林(Random Forests)基于分类器模型进行特征选择,要求分类器能计算特征的重要性或权重;RF算法的核心思想是利用权重对特征进行排序,从最重要的依次递减,RF删除权重排名最后的一个特征,迭代直到剩下想要留下的特征数目为止;
支持向量机(Support Vector Machine,SVM)是一种常用的分类模型,SVM核心思想是寻找最大间隔的划分超平面,从而可以更好地匹配样本数据,容忍随机扰动,提高模型的泛化能力,SVM做分类器时,它的参数取决于样本的数量而非特征的数量,与样本-特征的数量比值几乎无关,因此这样的模型可以很好地适应高维小样本数据;
高斯朴素贝叶斯(Gaussian Naive Bayes)是一种基于贝叶斯定理的概率方法,具有输入属性之间的朴素独立性假设;
3)利用增量特征选择的方法基于20-候选特征基因的十倍交叉验证的AUC值绘制IFS曲线,根据最优AUC值和截止值选择最优基因诊断模型;
Step3:诊断模型性能验证及特征基因功能分析
1)PCA降维分析和样本聚类分析:基于特征基因的表达数据,利用R包FactoMineR提取所选基因的第一和第二主成分;通过主成分降维分析,验证特征基因的分类诊断性能;并且利用pheatmap包对样本进行聚类验证模型分类效果;
2)差异分析:为了研究特征基因潜在的生物学功能,以健康人血液RNA表达数据为对照,利用R包limma对肺动脉高压患者血液和健康组RNA表达数据进行差异分析(|logFC|>0.585,adjp<0.05),识别在肺动脉高压样本中异常表达的基因;
3)PPI网络分析:利用STRING数据库,选择置信得分≥0.7的相互作用关系对肺动脉高压样本中的差异表达基因构建PPI网络,进行网络互作分析;
4)随机游走分析:以PPI网络中的标志基因为seed gene,利用R包dnet对PPI网络进行随机游走分析;
5)GO、KEGG富集分析:利用R包clusterProfiler对亲和系数前50的基因进行GO、KEGG富集分析,进行生物学功能分析。
与现有技术相比,本发明的有益效果为:本申请采用XGBoost特征选择、利用能够识别肺动脉高压的候选特征基因分别构建SVM、KNN、RF、NB分类器,利用增量特征选择基于基因数据的十倍交叉验证并根据最佳AUC值和截止值选择最优基因诊断模型。
本发明基于肺动脉高压患者的血液转录组数据,构建了不同的诊断分类器,并横向比较了不同分类器算法模型,SVM分类器在所有分类器模型中都表现出了比较大的优势。这表明SVM模型针对小样本高纬度的基因特征数据能表现出强大的分类能力,并且基于15-特征基因的表达数据对样本进行PCA降维分析,SVM分类器表现出强大的区分能力,也验证了生物信息分析的可靠性。
【附图说明】
图1为肺动脉高压诊断特征基因筛选;基于20-候选特征基因构建的KNN、RF、SVM、NB 4种基因分类器的IFS曲线,横坐标代表特征基因数,纵坐标代表AUC值;(B)15-特征基因KNN分类器的ROC曲线;
图2为15-特征基因诊断模型性能分析;(A)基于15-特征基因KNN分类器的样本PCA降维二维图,红色代表肺动脉高压患者,绿色代表健康人样本;(B)基于15-特征基因KNN分类器的样本聚类热图;
图3为PPI网络中关键基因GO、KEGG富集分析;(A)KNN分类器与肺动脉高压相关差异表达基因的维恩图;(B)50个关键基因的GO富集分析;(C)50个关键基因的KEGG富集分析。
【具体实施方式】
下面结合附图和实施例详细描述本发明,以下所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
实施例:一种基于机器学习算法构建的一种肺动脉高压的基因表达分类器一、材料与方法
1、数据集下载与预处理
从Gene Expression Omnibus database(GEO)数据库下载肺动脉高压患者和健康人的血液mRNA表达矩阵GSE33463(PH:72,normal:41);使用KNN算法填充缺失表达数据,并用limma进行归一化处理;
2、XGBoost特征选择
利用python包XGBoost建立XGBoost模型,根据特征重要性排序和递归消除确定关键特征,识别能够区分PH和健康人的候选特征基因;
3、模型训练
由于样本不均衡,我们使用python包imblearn进行上采样的方法进行模型训练;
4、基因分类器构建
基于筛选获得的候选特征基因建立基因分类器,利用python包sklearn分别构建K近邻(KNN)分类器,随机森林(RF)分类器,支持向量机(SVM)分类器,高斯朴素贝叶斯(NB)分类器;基于分类器中每个候选特征基因的十倍交叉验证AUC值比较模型,利用增量特征选择(IFS)的方法选择合适的基因数目截止值和AUC值确定最优的分类器即诊断分类器;
5、诊断分类器性能分析
确定最佳基因分类器后,我们试图直观地研究他们对PH和normal的分类效果;利用R包FactoMineR提取所选基因的第一和第二主成分;通过主成分分析降维,高维基因表达谱可以映射到PC1和PC2的二维上;2D-PCA图将给出每个样本彼此之间有多近的直观视图;并且利用pheatmap包对样本进行聚类分析;
6、差异表达分析
为了研究特征基因潜在的生物学功能,为了研究特征基因潜在的生物学功能,以健康人血液RNA表达数据为对照,利用R包limma对肺动脉高压患者血液和健康组RNA表达数据进行差异分析(|logFC|>0.585,adjp<0.05),识别在肺动脉高压样本中异常表达的基因;
7、PPI网络分析及随机游走分析
利用STRING数据库对肺动脉高压相关的差异表达基因进行蛋白互作分析,选择置信得分≥0.7的相互作用关系对构建PPI网络;将特征基因与肺动脉高压相关的差异表达基因取交集,将交集基因作为seed gene;利用利用R包dnet对上一步得到的PPI网络进行重启动随机游走(random walk with restart,RWR)分析设置重启概率(restart probablity)为0.85,采用laplacian法对网络图的邻接矩阵进行归一化;RWR分析后得到每个基因与seed之间的亲和系数(affinity score),我们选取亲和系数排名前50的节点基因做后续功能分析;
8、GO、KEGG富集分析
利用R包clusterProfiler对PPI网络中亲和系数排名前50的节点基因进行GO和KEGG富集分析,选择pvalue<0.05且qvalue<0.05作为显著性阈值。并利用R包enrichplot进行结果可视化。
二、结果
1、数据集预处理及特征选择
利用R包limma对肺动脉高压患者和健康人血液mRNA表达数据进行标准化处理,共得到19236个基因;利用XGBoost建立XGBoost模型,并进行特征选择,共计筛选出20个能够区别肺动脉高压及健康人样本的候选特征基因;
2、最优基因诊断分类器构建
利用ISF方法尝试了不同分类器及顶级基因的不同组合,并记录了基于这些基因构建的KNN,RF(RF.txt),SVM,NB分类器的性能,以直观地选择基因组合;结合发现SVM在前15个基因时分类器效果最好,10倍交叉验证结果显示AUC值最高(图1A);其中灵敏度为0.931,特异度为0.927,准确度为0.929,AUC值为0.985(图2B);
3、肺动脉高压SVM分类器性能验证
基于15-特征基因的表达数据对样本进行PCA降维分析以及样本聚类分析,结果显示这些基因可以很好的区分肺动脉高压患者和健康样本(图2A-B);
4、PPI网络分析和富集分析
以normal组为对照,对PH组和normal组进行差异分析,共计获得471个肺动脉高压相关的差异表达基因并构建了PPI网络;将PPI网络中235个节点基因与15-特征基因取交集获得4个基因并作为seed gene(图3A);随后对PPI网络进行RWR分析获得节点基因和seedgene的亲和系数,最终选取亲和系数前50基因进行GO、KEGG富集分析;
对PPI网络中亲和系数前50基因进行GO生物学功能和KEGG生物通路分析,GO结果显示这些基因主要富集在cellular response to type I interferon,cell chemotaxis,ubiquitin-protein transferase activity,C-C chemokine receptor activity等生物学功能上(图3B)。KEGG结果显示这些基因主要富集在等Chemokine signaling pathway,Cytokine-cytokine receptor interaction等生物学通路上(图3C)。
Claims (2)
1.一种肺动脉高压的基因表达分类器,其特征在于,包括数据特征选择和训练阶段;所述特征选择阶段使用xGboost的机器学习方法筛选识别健康人和肺动脉高压患者的特征基因,所述特征基因为NEX1、LYSMD2、FPR2、SAMD9L、TOB1、ZBTB25、MED10、MOAP1、MYLIP、TYR、ARHGEF25、GAPDH、LIAS、PPM1D、TRPMS,并采用python包imblearn对特征基因进行训练;所述训练阶段使用sklearn包分别建立随机森林分类器、支持向量机分类器、高斯朴素贝叶斯分类器,利用特征增量选择的方法和AUC值进行比较选择最优的肺动脉高压诊断分类器;
所述数据特征选择阶段通过使用xGboost算法进行排序,根据特征重要性和递归消除关系识别区分健康人和肺动脉高压患者的特征基因,由于样本不均匀,并采用python包imblearn上采样方法进行模型训练;具体步骤如下:
1)多种基因筛选模型建立
2)最佳分类器筛选
利用增量特征选择的方法基于20-候选特征基因的十倍交叉验证的AUC值绘制IFS曲线,根据最优AUC值和截止值选择最优基因诊断模型;
3)诊断模型性能验证
基于特征基因的表达数据,利用R包FactoMineR,提取所选基因的第一和第二主成分;通过主成分分析降维,高维基因表达谱映射到PC1和PC2的二维上;2D-PCA图将给出每个样本彼此之间有多近的直观视图,并且利用R包pheatmap包对样本进行聚类分析;
4)差异表达分析
以健康人血液RNA表达数据为对照,在|logFC|>0.585且adjp<0.05的条件下下利用R包limma对肺动脉高压患者血液组和健康组血液RNA表达数据进行差异分析,识别在肺动脉高压样本中异常表达的基因;
5)PPI网络分析以及GO、KEGG富集分析
利用STRING数据库对肺动脉高压相关的异常表达基因进行蛋白互作分析,选择置信得分≥0.7的相互作用关系对构建PPI网络;将特征基因与肺动脉高压相关的差异表达基因取交集,将交集基因作为seedgene;利用R包dnet对上一步得到的PPI网络进行重启动随机游走分析,设置重启概率为0.85,采用laplacian法对网络图的邻接矩阵进行归一化;RWR分析后得到每个基因与seed之间的亲和系数,选取亲和系数排名前50的节点基因利用R包clusterProfiler对PPI网络中亲和系数排名前50的节点基因进行GO和KEGG富集分析,选择pvalue<0.05且qvalue<0.05作为显著性阈值;
并利用R包enrichplot进行结果可视化。
2.根据权利要求1所述的肺动脉高压的基因表达分类器,其特征在于,特征基因检测样本为血液样本,检测产品包括基因芯片、试剂盒。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202220829221X | 2022-04-12 | ||
CN202220829221 | 2022-04-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115527614A CN115527614A (zh) | 2022-12-27 |
CN115527614B true CN115527614B (zh) | 2023-12-26 |
Family
ID=84699985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211161811.0A Active CN115527614B (zh) | 2022-04-12 | 2022-09-23 | 一种肺动脉高压的基因表达分类器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115527614B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014067965A1 (en) * | 2012-10-29 | 2014-05-08 | Institut National De La Sante Et De La Recherche Medicale (Inserm) | Methods of predicting or diagnosing a pulmonary arterial hypertension |
CN105389480A (zh) * | 2015-12-14 | 2016-03-09 | 深圳大学 | 多类不平衡基因组学数据迭代集成特征选择方法及系统 |
CN107292127A (zh) * | 2017-06-08 | 2017-10-24 | 南京高新生物医药公共服务平台有限公司 | 预测肺癌病人预后的基因表达分类器及其构建方法 |
ES2683921A1 (es) * | 2017-03-28 | 2018-09-28 | Universidade De Vigo | Método para la determinación del pronóstico en sujetos diagnosticados con hipertensión arterial pulmonar |
CN112626218A (zh) * | 2021-01-07 | 2021-04-09 | 浙江科技学院 | 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒 |
CN113832159A (zh) * | 2021-11-02 | 2021-12-24 | 百世诺(北京)医疗科技有限公司 | 突变的家族遗传性肺动脉高压致病基因bmpr2及其应用 |
CN114107482A (zh) * | 2021-11-29 | 2022-03-01 | 百世诺(北京)医学检验实验室有限公司 | 肺动脉高压突变基因及其应用 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060019272A1 (en) * | 2004-05-03 | 2006-01-26 | The Regents Of The University Of Colorado | Diagnosis of disease and monitoring of therapy using gene expression analysis of peripheral blood cells |
MX2017014859A (es) * | 2015-05-19 | 2018-07-06 | Wistar Inst | Metodos y composiciones para diagnosticar o detectar canceres de pulmon. |
-
2022
- 2022-09-23 CN CN202211161811.0A patent/CN115527614B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014067965A1 (en) * | 2012-10-29 | 2014-05-08 | Institut National De La Sante Et De La Recherche Medicale (Inserm) | Methods of predicting or diagnosing a pulmonary arterial hypertension |
CN105389480A (zh) * | 2015-12-14 | 2016-03-09 | 深圳大学 | 多类不平衡基因组学数据迭代集成特征选择方法及系统 |
ES2683921A1 (es) * | 2017-03-28 | 2018-09-28 | Universidade De Vigo | Método para la determinación del pronóstico en sujetos diagnosticados con hipertensión arterial pulmonar |
CN107292127A (zh) * | 2017-06-08 | 2017-10-24 | 南京高新生物医药公共服务平台有限公司 | 预测肺癌病人预后的基因表达分类器及其构建方法 |
CN112626218A (zh) * | 2021-01-07 | 2021-04-09 | 浙江科技学院 | 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒 |
CN113832159A (zh) * | 2021-11-02 | 2021-12-24 | 百世诺(北京)医疗科技有限公司 | 突变的家族遗传性肺动脉高压致病基因bmpr2及其应用 |
CN114107482A (zh) * | 2021-11-29 | 2022-03-01 | 百世诺(北京)医学检验实验室有限公司 | 肺动脉高压突变基因及其应用 |
Non-Patent Citations (3)
Title |
---|
A Scheme for Feature Selection from Gene Expression Data using Recursive Feature Elimination with Cross Validation and Unsupervised Deep Belief Network Classifier;Nimrita Koul et al;《IEEE》;第31-36页 * |
基于 SVM 的一种医疗数据分析模型;胡亮 等;《东 北 师 大 学 报 (自 然 科 学 版 )》;第47卷(第1期);第77-82页 * |
基于机器学习的自发性早产生物标记物发现;李苓玉 等;《南京大学学报(自然科学)》;第57卷(第5期);第767-774页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115527614A (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101047575B1 (ko) | 분류화의 발견적 방법 | |
KR102213670B1 (ko) | 약물-표적 상호 작용 예측을 위한 방법 | |
US20100312798A1 (en) | Retrieval of similar patient cases based on disease probability vectors | |
CN110853756B (zh) | 基于som神经网络和svm的食管癌风险预测方法 | |
CN113113130A (zh) | 一种肿瘤个体化诊疗方案推荐方法 | |
Golugula et al. | Evaluating feature selection strategies for high dimensional, small sample size datasets | |
CN113488104B (zh) | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 | |
CN110021341A (zh) | 一种基于异构网络的gpcr药物和靶向通路的预测方法 | |
CN112927757A (zh) | 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法 | |
Adi et al. | Stroke risk prediction model using machine learning | |
Gupta et al. | A web based framework for liver disease diagnosis using combined machine learning models | |
CN116864011A (zh) | 基于多组学数据的结直肠癌分子标志物识别方法及系统 | |
CN111986814A (zh) | 一种红斑狼疮患者的狼疮性肾炎预测模型的建模方法 | |
CN113707317B (zh) | 一种基于混合模型的疾病危险因素重要性分析方法 | |
KR20230122699A (ko) | 독거노인의 불안 장애 위험도 예측 장치, 불안 장애 위험도 예측 예측 방법 및 기록 매체에 저장된 프로그램 | |
CN115527614B (zh) | 一种肺动脉高压的基因表达分类器 | |
CN117637035A (zh) | 一种基于图神经网络的多组学可信整合的分类模型及方法 | |
CN111785319B (zh) | 基于差异表达数据的药物重定位方法 | |
KR20230064172A (ko) | 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법 | |
Muflikhah et al. | Drug Resistant Prediction Based on Plasmodium Falciparum DNA-Barcoding using Bidirectional Long Short Term Memory Method | |
Amaratunga et al. | Ensemble classifiers | |
Karpagam et al. | Predictive Models of Alzheimer's Disease Using Machine Learning Algorithms–An Analysis | |
Sivaramakrishnan et al. | Multi-Linear Regression Technique for Predicting the Liver Disease | |
US11526555B2 (en) | Method and system for determining user taste changes using a plurality of biological extraction data | |
CN118039157B (zh) | 一种基于图神经网络的ii型糖尿病并发症协同预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231028 Address after: No.88 Jiefang Road, Shangcheng District, Hangzhou, Zhejiang 310000 Applicant after: Chen Enguo Address before: 311200 5th floor, Building 4, No. 617, Jin'er Road, Xiaoshan Economic and Technological Development Zone, Hangzhou, Zhejiang Applicant before: Luoxi medical technology (Hangzhou) Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |