CN117497062A - 一种特发性肺纤维化浆细胞特征基因预后模型构建方法 - Google Patents
一种特发性肺纤维化浆细胞特征基因预后模型构建方法 Download PDFInfo
- Publication number
- CN117497062A CN117497062A CN202311520912.7A CN202311520912A CN117497062A CN 117497062 A CN117497062 A CN 117497062A CN 202311520912 A CN202311520912 A CN 202311520912A CN 117497062 A CN117497062 A CN 117497062A
- Authority
- CN
- China
- Prior art keywords
- model
- gene
- analysis
- genes
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 176
- 201000009794 Idiopathic Pulmonary Fibrosis Diseases 0.000 title claims abstract description 93
- 210000004180 plasmocyte Anatomy 0.000 title claims abstract description 88
- 208000036971 interstitial lung disease 2 Diseases 0.000 title claims abstract description 85
- 238000004393 prognosis Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000004458 analytical method Methods 0.000 claims abstract description 39
- 230000014509 gene expression Effects 0.000 claims abstract description 36
- 238000011156 evaluation Methods 0.000 claims abstract description 24
- 230000008595 infiltration Effects 0.000 claims abstract description 23
- 238000001764 infiltration Methods 0.000 claims abstract description 23
- 230000004186 co-expression Effects 0.000 claims abstract description 18
- 238000010201 enrichment analysis Methods 0.000 claims abstract description 14
- 230000037361 pathway Effects 0.000 claims abstract description 14
- 238000007405 data analysis Methods 0.000 claims abstract description 12
- 210000002865 immune cell Anatomy 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000010276 construction Methods 0.000 claims abstract description 10
- 238000003012 network analysis Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 50
- 210000004027 cell Anatomy 0.000 claims description 47
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 101150027068 DEGS1 gene Proteins 0.000 claims description 23
- 238000002790 cross-validation Methods 0.000 claims description 18
- 230000004083 survival effect Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 230000000694 effects Effects 0.000 claims description 12
- 210000001519 tissue Anatomy 0.000 claims description 10
- 238000010200 validation analysis Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000000513 principal component analysis Methods 0.000 claims description 8
- 238000000611 regression analysis Methods 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000003745 diagnosis Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000011088 calibration curve Methods 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000036962 time dependent Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000003559 RNA-seq method Methods 0.000 claims description 3
- 230000031018 biological processes and functions Effects 0.000 claims description 3
- 230000001413 cellular effect Effects 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 238000010199 gene set enrichment analysis Methods 0.000 claims description 3
- 238000010208 microarray analysis Methods 0.000 claims description 3
- 230000004879 molecular function Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000750 progressive effect Effects 0.000 claims description 3
- 108010002687 Survivin Proteins 0.000 claims 1
- 102000000763 Survivin Human genes 0.000 claims 1
- 230000008859 change Effects 0.000 claims 1
- 238000012937 correction Methods 0.000 claims 1
- 210000003470 mitochondria Anatomy 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 239000003596 drug target Substances 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000012827 research and development Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 210000003719 b-lymphocyte Anatomy 0.000 description 7
- 238000007475 c-index Methods 0.000 description 5
- 210000004072 lung Anatomy 0.000 description 4
- 238000010238 partial least squares regression Methods 0.000 description 4
- 102100022005 B-lymphocyte antigen CD20 Human genes 0.000 description 3
- 101000897405 Homo sapiens B-lymphocyte antigen CD20 Proteins 0.000 description 3
- 230000009798 acute exacerbation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 210000004443 dendritic cell Anatomy 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000028993 immune response Effects 0.000 description 3
- 210000002540 macrophage Anatomy 0.000 description 3
- 230000008506 pathogenesis Effects 0.000 description 3
- 239000000092 prognostic biomarker Substances 0.000 description 3
- 229960004641 rituximab Drugs 0.000 description 3
- 201000000596 systemic lupus erythematosus Diseases 0.000 description 3
- 102100024222 B-lymphocyte antigen CD19 Human genes 0.000 description 2
- 108010006654 Bleomycin Proteins 0.000 description 2
- 108090000835 CX3C Chemokine Receptor 1 Proteins 0.000 description 2
- 102100039196 CX3C chemokine receptor 1 Human genes 0.000 description 2
- 102100033601 Collagen alpha-1(I) chain Human genes 0.000 description 2
- 102100038009 High affinity immunoglobulin epsilon receptor subunit beta Human genes 0.000 description 2
- 101000980825 Homo sapiens B-lymphocyte antigen CD19 Proteins 0.000 description 2
- 101000851054 Homo sapiens Elastin Proteins 0.000 description 2
- 101000878594 Homo sapiens High affinity immunoglobulin epsilon receptor subunit beta Proteins 0.000 description 2
- 101001134216 Homo sapiens Macrophage scavenger receptor types I and II Proteins 0.000 description 2
- 101000934372 Homo sapiens Macrosialin Proteins 0.000 description 2
- 101000576802 Homo sapiens Mesothelin Proteins 0.000 description 2
- 101001126417 Homo sapiens Platelet-derived growth factor receptor alpha Proteins 0.000 description 2
- 101000687673 Homo sapiens Small integral membrane protein 6 Proteins 0.000 description 2
- 102100034184 Macrophage scavenger receptor types I and II Human genes 0.000 description 2
- 102100025136 Macrosialin Human genes 0.000 description 2
- 102100030612 Mast cell carboxypeptidase A Human genes 0.000 description 2
- 102100025096 Mesothelin Human genes 0.000 description 2
- 108091006676 Monovalent cation:proton antiporter-3 Proteins 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 2
- 102100030485 Platelet-derived growth factor receptor alpha Human genes 0.000 description 2
- 102100024806 Small integral membrane protein 6 Human genes 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 108010029483 alpha 1 Chain Collagen Type I Proteins 0.000 description 2
- 239000000427 antigen Substances 0.000 description 2
- 102000036639 antigens Human genes 0.000 description 2
- 108091007433 antigens Proteins 0.000 description 2
- 230000004900 autophagic degradation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 229960001561 bleomycin Drugs 0.000 description 2
- OYVAGSVQBOHSSS-UAPAGMARSA-O bleomycin A2 Chemical compound N([C@H](C(=O)N[C@H](C)[C@@H](O)[C@H](C)C(=O)N[C@@H]([C@H](O)C)C(=O)NCCC=1SC=C(N=1)C=1SC=C(N=1)C(=O)NCCC[S+](C)C)[C@@H](O[C@H]1[C@H]([C@@H](O)[C@H](O)[C@H](CO)O1)O[C@@H]1[C@H]([C@@H](OC(N)=O)[C@H](O)[C@@H](CO)O1)O)C=1N=CNC=1)C(=O)C1=NC([C@H](CC(N)=O)NC[C@H](N)C(N)=O)=NC(N)=C1C OYVAGSVQBOHSSS-UAPAGMARSA-O 0.000 description 2
- 229960001467 bortezomib Drugs 0.000 description 2
- GXJABQQUPOEUTA-RDJZCZTQSA-N bortezomib Chemical compound C([C@@H](C(=O)N[C@@H](CC(C)C)B(O)O)NC(=O)C=1N=CC=NC=1)C1=CC=CC=C1 GXJABQQUPOEUTA-RDJZCZTQSA-N 0.000 description 2
- 239000002771 cell marker Substances 0.000 description 2
- 238000002659 cell therapy Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 210000002919 epithelial cell Anatomy 0.000 description 2
- 230000007705 epithelial mesenchymal transition Effects 0.000 description 2
- 230000004129 fatty acid metabolism Effects 0.000 description 2
- 210000002950 fibroblast Anatomy 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 210000003630 histaminocyte Anatomy 0.000 description 2
- 210000000265 leukocyte Anatomy 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000001325 log-rank test Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 210000005033 mesothelial cell Anatomy 0.000 description 2
- 230000002438 mitochondrial effect Effects 0.000 description 2
- 208000005069 pulmonary fibrosis Diseases 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000019491 signal transduction Effects 0.000 description 2
- 208000011580 syndromic disease Diseases 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 101150112497 26 gene Proteins 0.000 description 1
- IGRCWJPBLWGNPX-UHFFFAOYSA-N 3-(2-chlorophenyl)-n-(4-chlorophenyl)-n,5-dimethyl-1,2-oxazole-4-carboxamide Chemical compound C=1C=C(Cl)C=CC=1N(C)C(=O)C1=C(C)ON=C1C1=CC=CC=C1Cl IGRCWJPBLWGNPX-UHFFFAOYSA-N 0.000 description 1
- 102100027205 B-cell antigen receptor complex-associated protein alpha chain Human genes 0.000 description 1
- 102100031658 C-X-C chemokine receptor type 5 Human genes 0.000 description 1
- 102100025277 C-X-C motif chemokine 13 Human genes 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 102000010834 Extracellular Matrix Proteins Human genes 0.000 description 1
- 108010037362 Extracellular Matrix Proteins Proteins 0.000 description 1
- 235000012571 Ficus glomerata Nutrition 0.000 description 1
- 244000153665 Ficus glomerata Species 0.000 description 1
- 102100041006 Forkhead box protein J1 Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000914489 Homo sapiens B-cell antigen receptor complex-associated protein alpha chain Proteins 0.000 description 1
- 101000922405 Homo sapiens C-X-C chemokine receptor type 5 Proteins 0.000 description 1
- 101000858064 Homo sapiens C-X-C motif chemokine 13 Proteins 0.000 description 1
- 101000892910 Homo sapiens Forkhead box protein J1 Proteins 0.000 description 1
- 101000946889 Homo sapiens Monocyte differentiation antigen CD14 Proteins 0.000 description 1
- 101001116302 Homo sapiens Platelet endothelial cell adhesion molecule Proteins 0.000 description 1
- 101001086862 Homo sapiens Pulmonary surfactant-associated protein B Proteins 0.000 description 1
- 101000612671 Homo sapiens Pulmonary surfactant-associated protein C Proteins 0.000 description 1
- 101000739178 Homo sapiens Secretoglobin family 3A member 2 Proteins 0.000 description 1
- 101000716124 Homo sapiens T-cell surface glycoprotein CD1c Proteins 0.000 description 1
- 101000763314 Homo sapiens Thrombomodulin Proteins 0.000 description 1
- 108060003951 Immunoglobulin Proteins 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 208000029523 Interstitial Lung disease Diseases 0.000 description 1
- 101000829705 Methanopyrus kandleri (strain AV19 / DSM 6324 / JCM 9639 / NBRC 100938) Thermosome subunit Proteins 0.000 description 1
- 102100035877 Monocyte differentiation antigen CD14 Human genes 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 101100346932 Mus musculus Muc1 gene Proteins 0.000 description 1
- 102100024616 Platelet endothelial cell adhesion molecule Human genes 0.000 description 1
- 229940079156 Proteasome inhibitor Drugs 0.000 description 1
- 102100032617 Pulmonary surfactant-associated protein B Human genes 0.000 description 1
- 102100040971 Pulmonary surfactant-associated protein C Human genes 0.000 description 1
- 102100037269 Secretoglobin family 3A member 2 Human genes 0.000 description 1
- 102100036014 T-cell surface glycoprotein CD1c Human genes 0.000 description 1
- 102100026966 Thrombomodulin Human genes 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001363 autoimmune Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 210000000254 ciliated cell Anatomy 0.000 description 1
- 239000013625 clathrin-independent carrier Substances 0.000 description 1
- 206010052015 cytokine release syndrome Diseases 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 210000002889 endothelial cell Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 208000037888 epithelial cell injury Diseases 0.000 description 1
- 210000002744 extracellular matrix Anatomy 0.000 description 1
- 230000003176 fibrotic effect Effects 0.000 description 1
- 230000003325 follicular Effects 0.000 description 1
- 210000002443 helper t lymphocyte Anatomy 0.000 description 1
- 239000012642 immune effector Substances 0.000 description 1
- 230000008076 immune mechanism Effects 0.000 description 1
- 208000026278 immune system disease Diseases 0.000 description 1
- 102000018358 immunoglobulin Human genes 0.000 description 1
- 229940121354 immunomodulator Drugs 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 210000002809 long lived plasma cell Anatomy 0.000 description 1
- 230000004199 lung function Effects 0.000 description 1
- 210000003563 lymphoid tissue Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000001616 monocyte Anatomy 0.000 description 1
- 210000000822 natural killer cell Anatomy 0.000 description 1
- 231100000189 neurotoxic Toxicity 0.000 description 1
- 230000002887 neurotoxic effect Effects 0.000 description 1
- 230000009437 off-target effect Effects 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 229960003073 pirfenidone Drugs 0.000 description 1
- ISWRGOKTTBVCFA-UHFFFAOYSA-N pirfenidone Chemical compound C1=C(C)C=CC(=O)N1C1=CC=CC=C1 ISWRGOKTTBVCFA-UHFFFAOYSA-N 0.000 description 1
- 210000003720 plasmablast Anatomy 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000003207 proteasome inhibitor Substances 0.000 description 1
- 230000020978 protein processing Effects 0.000 description 1
- 230000009325 pulmonary function Effects 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 229940126585 therapeutic drug Drugs 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种特发性肺纤维化浆细胞特征基因预后模型构建方法,包括:进行单细胞转录组数据分析,进行组织水平转录组数据差异表达基因分析,进行免疫细胞浸润分析,进行加权基因共表达网络分析,进行浆细胞相关候选基因的筛选,进行浆细胞相关候选基因的评分,进行浆细胞相关候选基因的功能通路富集分析,进行IPF预后模型的构建及内部评价,进行IPF预后模型的外部评价。本发明提供的特发性肺纤维化浆细胞特征基因预后模型构建方法,建立能够区分低风险组和高风险组患者的预后模型,可应用于特发性肺纤维化患者预后情况的辅助判断,有助于新型药物靶点的研发和新型监测方案的建立。
Description
技术领域
本发明涉及特发肺纤维化浆细胞特征基因技术领域,特别是涉及一种特发性肺纤维化浆细胞特征基因预后模型构建方法。
背景技术
特发性肺纤维化(IPF)是一种罕见的、慢性、侵袭性和纤维化性的间质性肺炎,其特征是呼吸困难和肺功能逐渐恶化,导致死亡。虽然IPF患者的自然病史各不相同,但诊断后的中位生存期仅为2-3年,5年生存率不超过40%,尤其是IPF急性加重的短期死亡率可能高达60%或更高。由于IPF发病机制的复杂性,目前仍缺乏有效的药物来预防IPF的进展或降低死亡率。因此,迫切需要探索与IPF相关的潜在预后特征并开发治疗靶点。
反复上皮细胞损伤、成纤维细胞活化和细胞外基质沉积是IPF最基本的病理机制。越来越多的证据表明,免疫功能失调在IPF的发病机制中起着不可或缺的作用,其中浆细胞的过度适应性免疫反应可能是促进和维持IPF肺中持续炎症的关键机制。几项研究表明,在IPF肺中观察到T、B细胞、树突状细胞、巨噬细胞等细胞群体浸润的异位淋巴结构,CXCL13的异常表达诱导CD4+CXCR5+T滤泡辅助细胞(Tfh细胞)和B细胞定位至淋巴组织。Tfh细胞被一些环境抗原和自身抗原进一步激活,促进B细胞分化为浆细胞,并驱动高亲和力自身抗体的产生。Cecilia团队提供的证据表明,在小鼠和人类中,CD20+B细胞和CD19+CD138+浆细胞在小鼠或人肺纤维化区域相邻的肺组织的突出病灶中聚集。与对照组相比,IPF患者的浆母细胞比例也更高。此外,在多达25%的IPF患者的血清、支气管肺泡灌洗液和肺实质中检测到许多具有不同亲和力的异常自身抗体,特别是正在经历或即将经历急性加重的患者。有趣的是,大多数自身抗体的浓度水平被证实与IPF的预后指标相关,包括急性加重的发展。尽管如此,浆细胞中分子事件的作用是否能预测IPF的结局仍有诸多不明。
目前IPF尚缺乏有效的治疗药物。美国FDA批准的两种药物吡非尼酮和尼达尼布虽然有报道能够阻止疾病进展或降低死亡率,但仍有部分患者对药物应答不明显。由于免疫反应被认为是IPF的重要发病机制,专门针对基本免疫机制的新型疗法逐渐出现。其中,靶向人抗CD20抗体的利妥昔单抗被用于治疗IPF恶化患者的临床试验,但其对肺功能的改善有限,这可能是由于利妥昔单抗仅降低了患者对某些抗原的召回反应而总免疫球蛋白水平保持不变。同时,浆细胞缺乏CD20受体的表达也使得无法被利妥昔单抗消除。因此有研究者对博来霉素治疗小鼠使用蛋白酶体抑制剂硼替佐米清除浆细胞,结果发现博来霉素诱导的肺纤维化得到显著抑制。然而,硼替佐米的毒性和靶外效应十分常见,需要进一步评估其用于IPF临床治疗的可行性。另外令人兴奋的是,近年来新兴的CD19 CAR-T细胞疗法能不仅有效地消除重症及难治性系统性红斑狼疮(SLE)患者的B细胞和浆细胞,还让SLE患者实现无治疗缓解和B细胞重建。考虑到自身免疫综合征和IPF之间的许多相似之处,IPF患者可能会从CD19CAR-T细胞治疗中获益,但需要评估细胞因子释放综合征和免疫效应细胞相关神经毒性综合征等常见副作用的危害,以及CD19低表达的长寿命浆细胞的潜在残留与致病能力的关系。总之,在探索与IPF预后密切的浆细胞相关基因基础上,再挖掘IPF的可替代性治疗方式是十分有意义的。
因此,借助人工智能技术设计的一种特发性肺纤维化浆细胞特征基因预后模型,这可能有助于优化IPF的精准治疗,进一步改善IPF患者的临床预后结果。
发明内容
本发明的目的是提供一种特发性肺纤维化浆细胞特征基因预后模型构建方法,建立能够区分低风险组和高风险组患者的预后模型,可应用于特发性肺纤维化患者预后情况的辅助判断,有助于新型药物靶点的研发和新型监测方案的建立。
一种特发性肺纤维化浆细胞特征基因预后模型构建方法,包括如下步骤:
步骤1:进行单细胞转录组数据分析;
步骤2:进行组织水平转录组数据差异表达基因分析;
步骤3:进行免疫细胞浸润分析;
步骤4:进行加权基因共表达网络分析;
步骤5:进行浆细胞相关候选基因的筛选;
步骤6:进行浆细胞相关候选基因的评分;
步骤7:进行浆细胞相关候选基因的功能通路富集分析;
步骤8:进行IPF预后模型的构建及内部评价;
步骤9:进行IPF预后模型的外部评价。
可选的,步骤1中,进行单细胞转录组数据分析,具体为:
在GEO数据库中检索数据集GSE132771,将每个样本的基因-细胞表达矩阵导入R包Seurat v4.3.0.1。首先将少于50个基因或多于5000个基因或线粒体表达比例超过10%的细胞剔除。接着,使用SCTransform函数对每个样本的矩阵进行归一化处理并识别出3000个高变异基因。使用FindIntegrationAnchors和IntegrateData函数进行典型相关性分析以整合所有样本的矩阵并去除批次效应。使用RunPCA函数进行主成分分析。对于细胞类群,在FindNeighbours函数中使用了前50个主成分,并使用FindClusters函数以0.6的分辨率进行聚类。使用RunUMAP函数的UMAP算法对前50个主成分降维至二维空间。使用R包SingleRv2.2.0对细胞类群注释后再进行人工校正。使用FindAllMarkers函数(关键参数:test.use=wilcox;min.pct=0.1;logfc.threshold=0.25)识别每种细胞类型的DEGs。使用FindConservedMarkers函数计算IPF组和对照组之间的各细胞簇特异性标记基因,纳入标准为平均log2FC>0.25且调整后的P值<0.05(初始P值使用Bonferroni算法校正)。使用ClusterGVis R软件包对每种细胞类型的前30个DEGs进行GO分析,并根据P值排名选择前五条注释。
可选的,步骤2中,进行组织水平转录组数据差异表达基因分析,具体为:
在GEO数据库中检索GSE150910和GSE70866数据集。对于GSE150910数据集的RNA测序数据分析,在R中使用DESeq2 v1.40.2包筛选IPF组和对照组之间的DEGs。所有样本的采集时间批次通过DESeqDataSetFromMatrix函数去除。采用Benjamini-Hochberg方法对初始P值进行调整。对于GSE70866数据集的RNA微阵列数据分析,使用Sangerbox网站进行DEG分析,具体而言使用鲁棒多阵列平均算法对原始数据进行归一化处理,并使用ComBat算法消除批次效应。使用limma v3.56.2R包筛选了GSE70866数据集中IPF组和对照组之间的DEGs。初始P值同样使用Benjamini-Hochberg方法进行调整。DEG的筛选标准为调整后的P值<0.05且|log2FC|>1。
可选的,步骤3中,进行免疫细胞浸润分析,具体为:
在GSE150910数据集中,基于LM22文件(一个白细胞特征基因矩阵)使用CIBERSORT算法并设置1000次置换来计算22种免疫细胞的浸润分数,最终从GSE150910数据集中选择每个样本的浆细胞浸润分数纳入后续分析。
可选的,步骤4中,进行加权基因共表达网络分析,具体为:
在Sangerbox网站上使用WGCNAv1.72-1R包生成GSE150910数据集的基因共表达网络。简言之,计算每个基因的中位数绝对偏差,并排除中位数绝对偏差最小的前50%的基因。为构建无向网络计算了合适的软阈值β值。然后,将加权邻接矩阵转化为拓扑重叠矩阵,以降低噪音并估计其互连性。此外,采用平均连锁层次聚类和动态树切割方法对基因模块进行检测。选择与IPF诊断和浆细胞浸润分数显著且最高正相关的基因模块纳入后续分析。在该模块中,当基因的模块成员数>0.7,基因显著性>0.2时,定义为枢纽基因。
可选的,步骤5中,进行浆细胞相关候选基因的筛选,具体为:
通过jvenn工具将浆细胞标记物分别与加权基因共表达网络分析的枢纽基因、GSE150910和GSE70866数据集的DEGs进行交集后取并集的基因作为候选基因。
可选的,步骤6中,进行浆细胞相关候选基因的评分,具体为:
在R中使用AUCell v1.22.0分析候选基因在浆细胞中是否活跃表达,基于基因集富集分析和根据候选基因的曲线下面积值构建每个细胞的基因表达排名。在基因集中表达较高比例候选基因的细胞具有较高的曲线下面积值。使用AUCell_exploreThresholds函数计算基于基因集区分激活细胞的阈值。随后,使用ggplot2 v3.4.3R包生成UMAP嵌入图,绘制每个细胞的曲线下面积值以可视化活跃的细胞簇。
可选的,步骤7中,进行浆细胞相关候选基因的功能通路富集分析,具体为:
在Sangerbox网站上通过clusterProfilerv3.14.3R包对候选基因进行GO分析,包括生物过程、分子功能和细胞成分,以及基于候选基因的京都基因和KEGG富集分析。根据P值排名选择前十个最显著的GOs和通路作为分析对象。
可选的,步骤8中,进行IPF预后模型的构建及内部评价,具体为:
将GSE70866数据集中的Freiburg队列和Siena队列合并为训练队列,并通过Sangerbox网站调整训练队列基因表达的批次效应,将Leuven队列作为独立验证队列。在训练队列中,对候选基因进行单变量Cox回归分析,以筛选具有IPF预后潜力的标志物,基于十折交叉验证框架和十种机器学习算法的101种组合,包括随机生存森林、弹性网络、套索回归、岭回归、逐步Cox、CoxBoost、偏最小二乘回归Cox、监督主成分分析、通用梯度回归模型和生存支持向量机。具体细节如下:(1)随机生存森林模型通过randomForestSRC v3.2.2R包实现。该模型的关键参数为ntree和mtry,其中ntree表示树的数量,mtry是用于在每个节点进行拆分的随机选择的变量数。ntree设置为1000,并对mtry使用网格搜索来寻找最佳节点大小。基于确定的节点大小,形成(ntree,mtry)的所有组合,并且具有最佳一致性指数的组合被识别为最优参数。(2)弹性网络、套索回归和岭回归通过glmnet v4.1-8R包实现。正则化参数λ通过10倍交叉验证确定,而L1-L2权衡参数α设置为0-1(间隔为0.1)。(3)逐步Cox模型通过survival v3.5-5R包实现。调用了基于Akaike信息准则的逐步选择算法,并将搜索步骤的方向模式分别设置为“同时”、“向后”和“向前”。(4)CoxBoost模型通过CoxBoostv1.5 R包实现。该模型用于通过逐个分量的基于似然的增强方法拟合Cox比例风险模型。对于CoxBoost模型,我们基于10倍交叉验证框架首先使用opticCoxBoostPenalty函数确定最佳惩罚参数(收缩量)。确定该参数后通过cv.CoxBoost函数来调整其他参数,即进行提升步骤的数量。最终通过CoxBoost函数来设置所选多变量Cox模型的维度。(5)plsRcox模型通过plsRcoxv1.7.7R包实现。使用cv.plsRcox函数来确定所需组件的数量,并使用plsRcox函数拟合偏最小二乘回归广义线性模型。(6)SuperPC模型通过SuperPC v1.12 R包实现。该模型是主成分分析的扩展,通过生成感兴趣的特征或变量的线性组合,捕捉数据集中最大变化的方向。superpc.cv函数基于十折交叉验证框架来估计监督主成分中的最优特征阈值。我们采用了“预验证”方法来避免将Cox模型拟合到小型验证集的问题。(7)GBM模型通过GBMv2.1.8.1R包实现。该模型基于十折交叉验证框架,通过cv.gbm函数选择具有最小交叉验证误差的树的索引。使用gbm函数来拟合广义提升回归模型。(8)生存支持向量机模型通过survivalsvm v0.0.5R包实现。回归方法在构建支持向量问题的不等式约束时考虑了截尾情况。所有模型都在验证队列中进行了评估,评价指标为Harrell一致性指数。选取一致性指数最大的模型(或模型组合)作为最优方案。对于内部评价,使用R包survminer v0.4.9计算低风险组和高风险组的最佳界值。使用R包survival v3.5-5构建Kaplan-Meier生存曲线,并用log-rank检验方法评价组间的预后差异。使用R包ggrisk v1.3计算风险评分、生存状态和基因表达水平之间的关系。
可选的,步骤9中,进行IPF预后模型的外部评价,具体为:
在Sangerbox网站上使用pROC v1.17.0.1计算最优模型的时间依赖性曲线下面积值。使用R包survival v3.5-5和forestplot v3.1.3将最优模型计算的风险评分与其他临床特征(包括年龄、性别和性别-年龄-生理学指标)进行独立和联合比较。使用R包pecv2023.04.12生成最优模型的校准曲线。为了进一步比较最优模型与基于其他预后生物标志物构建的预后模型的性能,我们收集了一系列与GSE70866数据集有关的已公开基因特征(涉及自噬、脂肪酸代谢、上皮-间充质转化免疫浸润和CX3CR1受体信号传导途径等),分别在训练和验证队列中将其表达水平代入文献记录的公式,计算各模型的一致性指数,最终与我们构建的最优模型输出的一致性指数进行比较。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的特发性肺纤维化浆细胞特征基因预后模型构建方法,该方法包括进行单细胞转录组数据分析,进行组织水平转录组数据差异表达基因分析,进行免疫细胞浸润分析,进行加权基因共表达网络分析,进行浆细胞相关候选基因的筛选,进行浆细胞相关候选基因的评分,进行浆细胞相关候选基因的功能通路富集分析,进行IPF预后模型的构建及内部评价,进行IPF预后模型的外部评价,该方法建立能够区分低风险组和高风险组患者的预后模型,可应用于特发性肺纤维化患者预后情况的辅助判断,有助于新型药物靶点的研发和新型监测方案的建立。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例特发性肺纤维化浆细胞特征基因预后模型构建方法流程示意图;
图2为本发明实施例浆细胞相关基因获取示意图;
图3为本发明实施例组织水平转录组数据差异表达基因可视化示意图;
图4为本发明实施例加权基因共表达网络分析枢纽基因获取示意图;
图5为本发明实施例浆细胞相关候选基因获取示意图;
图6为本发明实施例浆细胞相关候选基因评分示意图;
图7为本发明实施例浆细胞相关候选基因通路富集分析示意图;
图8为本发明实施例特发性肺纤维化浆细胞特征基因预后模型构建及内部评价示意图;
图9为本发明实施例特发性肺纤维化浆细胞特征基因预后模型外部评价示意图。
具体实施方式
本发明的目的是提供一种特发性肺纤维化浆细胞特征基因预后模型构建方法,建立能够区分低风险组和高风险组患者的预后模型,可应用于特发性肺纤维化患者预后情况的辅助判断,有助于新型药物靶点的研发和新型监测方案的建立。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
在本发明中,使用Seurat v4.3.0.1R包从GSE132771数据集中提取浆细胞标记基因。然后,利用DESeq2 v1.40.2R包筛选IPF组和对照组之间的DEGs。其次,利用CIBERSORT算法分析GSE150910数据集中所有样本的免疫浸润水平,探讨浆细胞与IPF之间的关系。再次,依据IPF诊断结果和浆细胞浸润水平,在Sangerbox网站上使用WGCNAv1.72-1R包生成GSE150910数据集的基因共表达网络并获得枢纽基因。接着,通过jvenn工具将浆细胞标记物分别与枢纽基因、GSE150910和GSE70866数据集的DEGs进行交集后取并集获取浆细胞相关候选基因,并进行细胞定位评分和功能通路富集分析。最后,对浆细胞相关候选基因在训练队列中使用单因素Cox回归分析以筛选具有IPF预后潜力的标志物,再基于十折交叉验证框架和十种机器学习算法的101种组合成功构建了基于IPF患者浆细胞相关特征基因的预后模型,并在内部和外部评价中显示出良好性能,可用于预测患者生存率的高低。
如图1所示,本发明实施例提供的特发性肺纤维化浆细胞特征基因预后模型构建方法,包括如下步骤:
步骤1:进行单细胞转录组数据分析;
步骤2:进行组织水平转录组数据差异表达基因分析;
步骤3:进行免疫细胞浸润分析;
步骤4:进行加权基因共表达网络分析;
步骤5:进行浆细胞相关候选基因的筛选;
步骤6:进行浆细胞相关候选基因的评分;
步骤7:进行浆细胞相关候选基因的功能通路富集分析;
步骤8:进行IPF预后模型的构建及内部评价;
步骤9:进行IPF预后模型的外部评价。
步骤1中,进行单细胞转录组数据分析,具体为:
在GEO数据库中检索数据集GSE132771,将每个样本的基因-细胞表达矩阵导入R包Seurat v4.3.0.1。首先将少于50个基因或多于5000个基因或线粒体表达比例超过10%的细胞剔除。接着,使用SCTransform函数对每个样本的矩阵进行归一化处理并识别出3000个高变异基因。使用FindIntegrationAnchors和IntegrateData函数进行典型相关性分析以整合所有样本的矩阵并去除批次效应。使用RunPCA函数进行主成分分析。对于细胞类群,在FindNeighbours函数中使用了前50个主成分,并使用FindClusters函数以0.6的分辨率进行聚类。使用RunUMAP函数的UMAP算法对前50个主成分降维至二维空间。使用R包SingleRv2.2.0对细胞类群注释后再进行人工校正。使用FindAllMarkers函数(关键参数:test.use=wilcox;min.pct=0.1;logfc.threshold=0.25)识别每种细胞类型的DEGs。使用FindConservedMarkers函数计算IPF组和对照组之间的各细胞簇特异性标记基因,纳入标准为平均log2FC>0.25且调整后的P值<0.05(初始P值使用Bonferroni算法校正)。使用ClusterGVis R软件包对每种细胞类型的前30个DEGs进行基因本体论(GO)分析,并根据P值排名选择前五条注释。
最终,共保留了25043个细胞,其中11973个细胞来自三名对照者,13070个细胞来自三名IPF患者。对于细胞类群,共有30个细胞簇中被鉴定,经过注释后获得17种细胞类型(图2A)。我们共鉴定出肺泡Ⅰ型上皮细胞(标记物为AGER和CLIC5)、肺泡Ⅱ型上皮细胞(标记物为SFTPC、SFTPB和MUC1)、B细胞(标记物为MS4A1、CD79A和CD79B)、纤毛细胞(标记物为FOXJ1和CCDC78)、俱乐部细胞(标记物为SCGB3A2和SCGB1A1)、树突状细胞(标记物为CD1C和THBD)、内皮细胞(标记物为PECAM1和VWF)、成纤维细胞(标记物为表达COL1A1、PDGFRA和ELN)、巨噬细胞(标记物为CD68、MSR1和MRC1)、肥大细胞(标记物为MS4A2、CPA3和TPSAB1)、间皮细胞(标记物为MSLN和UPK3B)、单核细胞(标记物为CD14和S100A8)、自然杀伤细胞(标记物为KLRD1和NKG7)、浆细胞样树突状细胞(标记物为LILRB4、IRF8和LILRA4),浆细胞(标记物为XBP1、CD27和SSR4)、平滑肌细胞(标记物为CNN1、ACTA2、TAGLN和RGS5)和T细胞(标记物为CD3E、CD8A和GZMK)(图2B)。然后,对每种细胞类型的前30个DEGs进行GO分析,结果表明经注释的细胞功能与既往报道一致(图2C),表明分析结果的准确性。最后,共有97个基因被确定为浆细胞标记基因。
步骤2中,进行组织水平转录组数据差异表达基因分析,具体为:
在GEO数据库中检索GSE150910和GSE70866数据集。对于GSE150910数据集的RNA测序数据分析,在R中使用DESeq2 v1.40.2包筛选IPF组和对照组之间的DEGs。所有样本的采集时间批次通过DESeqDataSetFromMatrix函数去除。采用Benjamini-Hochberg方法对初始P值进行调整。对于GSE70866数据集的RNA微阵列数据分析,使用Sangerbox网站进行DEG分析,具体而言使用鲁棒多阵列平均算法对原始数据进行归一化处理,并使用ComBat算法消除批次效应。使用limma v3.56.2R包筛选了GSE70866数据集中IPF组和对照组之间的DEGs。初始P值同样使用Benjamini-Hochberg方法进行调整。DEG的筛选标准为调整后的P值<0.05且|log2FC|>1。
最终,在GSE150910数据集中鉴定出1917个DEGs,其中1356个上调DEGs,561个下调DEGs;对于GSE70866数据集,筛选出378个DEGs,其中182个上调DEGs和196个下调DEGs(图3A-B)。
步骤3中,进行免疫细胞浸润分析,具体为:
在GSE150910数据集中,基于LM22文件(一个白细胞特征基因矩阵)使用CIBERSORT算法并设置1000次置换来计算22种免疫细胞的浸润分数,最终从GSE150910数据集中选择每个样本的浆细胞浸润分数纳入后续分析。
步骤4中,进行加权基因共表达网络分析,具体为:
在Sangerbox网站上使用WGCNAv1.72-1R包生成GSE150910数据集的基因共表达网络。简言之,计算每个基因的中位数绝对偏差,并排除中位数绝对偏差最小的前50%的基因。为构建无向网络计算了合适的软阈值β值。然后,将加权邻接矩阵转化为拓扑重叠矩阵,以降低噪音并估计其互连性。此外,采用平均连锁层次聚类和动态树切割方法对基因模块进行检测。选择与IPF诊断和浆细胞浸润分数显著且最高正相关的基因模块纳入后续分析。在该模块中,当基因的模块成员数>0.7,基因显著性>0.2时,定义为枢纽基因。
最终,加权基因共表达网络构建的β值设置为8(R2=0.85,平均连接性=29.04)(图4A-B)。根据动态混合切割方法构建分层聚类树,共获得了26个基因模块(图4C)。接着,计算了基因模块与个体性状之间的关系。如图4D所示,黄绿色模块显示出与IPF诊断与浆细胞浸润分数显著且最高正相关,GS和MM之间的相关系数为0.66,这表明了高质量的模块构建(图4E)。根据标准,44个基因被定义为枢纽基因。
步骤5中,进行浆细胞相关候选基因的筛选,具体为:
通过jvenn工具将浆细胞标记物分别与加权基因共表达网络分析的枢纽基因、GSE150910和GSE70866数据集的DEGs进行交集后取并集的基因作为候选基因。
最终根据图5,黄色标记区内共30个基因被鉴定为浆细胞相关候选基因。
步骤6中,进行浆细胞相关候选基因的评分,具体为:
在R中使用AUCell v1.22.0分析候选基因在浆细胞中是否活跃表达,基于基因集富集分析和根据候选基因的曲线下面积值构建每个细胞的基因表达排名。在基因集中表达较高比例候选基因的细胞具有较高的曲线下面积值。使用AUCell_exploreThresholds函数计算基于基因集区分激活细胞的阈值。随后,使用ggplot2 v3.4.3R包生成UMAP嵌入图,绘制每个细胞的曲线下面积值以可视化活跃的细胞簇。
最终,所有细胞簇的曲线下面积值的阈值为0.2(图6A)。可以看出,浆细胞对候选基因的表达表现出更高的曲线下面积值(图6B-C),说明候选基因定位分析的准确性。
步骤7中,进行浆细胞相关候选基因的功能通路富集分析,具体为:
在Sangerbox网站上通过clusterProfilerv3.14.3R包对候选基因进行GO分析,包括生物过程、分子功能和细胞成分,以及基于候选基因的京都基因和KEGG富集分析。根据P值排名选择前十个最显著的GOs和通路作为分析对象。
最终,由图7可见,候选基因涉及的生物学功能与浆细胞涉及的蛋白质加工和免疫反应密切相关,再次说明候选基因定位分析的准确性。
步骤8中,进行IPF预后模型的构建及内部评价,具体为:
将GSE70866数据集中的Freiburg队列和Siena队列合并为训练队列,并通过Sangerbox网站调整训练队列基因表达的批次效应,将Leuven队列作为独立验证队列。在训练队列中,对候选基因进行单变量Cox回归分析,以筛选具有IPF预后潜力的标志物,基于十折交叉验证框架和十种机器学习算法的101种组合,包括随机生存森林、弹性网络、套索回归、岭回归、逐步Cox、CoxBoost、偏最小二乘回归Cox、监督主成分分析、通用梯度回归模型和生存支持向量机。具体细节如下:(1)随机生存森林模型通过randomForestSRC v3.2.2R包实现。该模型的关键参数为ntree和mtry,其中ntree表示树的数量,mtry是用于在每个节点进行拆分的随机选择的变量数。ntree设置为1000,并对mtry使用网格搜索来寻找最佳节点大小。基于确定的节点大小,形成(ntree,mtry)的所有组合,并且具有最佳一致性指数的组合被识别为最优参数。(2)弹性网络、套索回归和岭回归通过glmnet v4.1-8R包实现。正则化参数λ通过10倍交叉验证确定,而L1-L2权衡参数α设置为0-1(间隔为0.1)。(3)逐步Cox模型通过survival v3.5-5R包实现。调用了基于Akaike信息准则的逐步选择算法,并将搜索步骤的方向模式分别设置为“同时”、“向后”和“向前”。(4)CoxBoost模型通过CoxBoostv1.5 R包实现。该模型用于通过逐个分量的基于似然的增强方法拟合Cox比例风险模型。对于CoxBoost模型,我们基于10倍交叉验证框架首先使用opticCoxBoostPenalty函数确定最佳惩罚参数(收缩量)。确定该参数后通过cv.CoxBoost函数来调整其他参数,即进行提升步骤的数量。最终通过CoxBoost函数来设置所选多变量Cox模型的维度。(5)plsRcox模型通过plsRcoxv1.7.7R包实现。使用cv.plsRcox函数来确定所需组件的数量,并使用plsRcox函数拟合偏最小二乘回归广义线性模型。(6)SuperPC模型通过SuperPC v1.12 R包实现。该模型是主成分分析的扩展,通过生成感兴趣的特征或变量的线性组合,捕捉数据集中最大变化的方向。superpc.cv函数基于十折交叉验证框架来估计监督主成分中的最优特征阈值。我们采用了“预验证”方法来避免将Cox模型拟合到小型验证集的问题。(7)GBM模型通过GBMv2.1.8.1R包实现。该模型基于十折交叉验证框架,通过cv.gbm函数选择具有最小交叉验证误差的树的索引。使用gbm函数来拟合广义提升回归模型。(8)生存支持向量机模型通过survivalsvm v0.0.5R包实现。回归方法在构建支持向量问题的不等式约束时考虑了截尾情况。所有模型都在验证队列中进行了评估,评价指标为Harrell一致性指数。选取一致性指数最大的模型(或模型组合)作为最优方案。对于内部评价,使用R包survminer v0.4.9计算低风险组和高风险组的最佳界值。使用R包survival v3.5-5构建Kaplan-Meier生存曲线,并用log-rank检验方法评价组间的预后差异。使用R包ggrisk v1.3计算风险评分、生存状态和基因表达水平之间的关系。
最终,基于临床表型和30个候选基因的表达谱,使用单变量Cox回归分析确定了8个预后基因。接着,在训练队列中,通过十折交叉验证框架将十种机器学习算法成对组合,并在验证队列中量化所有组合的一致性指数(图8A)。考虑到模型的简化性,基于CoxBoost和Enet(alpha=0.7)的模型组合具有最高一致性指数(0.711)和最小基因子集(命名为PCRGS)的最优方案。简言之,使用CoxBoost算法筛选出了在88个提升步骤中具有非零系数的七个有价值特征(图8B)。Enet(alpha=0.7)算法被进一步筛选为最佳模型(图8C)。基于PCRGS的表达水平,计算Enet(alpha=0.7)模型中的回归系数加权(图8D)。然后,在训练和验证队列中,与低风险组相比,高风险患者的总生存期显著降低(P<0.05)。因此,所建立的预后模型成功地将IPF患者分为低风险或高风险组(图8E-F)。此外,与低风险组相比,在高风险组中观察到五个高表达的特征基因和两个低表达的特征基因(图8G-H)。
步骤9中,进行IPF预后模型的外部评价,具体为:
在Sangerbox网站上使用pROC v1.17.0.1计算最优模型的时间依赖性曲线下面积值。使用R包survival v3.5-5和forestplot v3.1.3将最优模型计算的风险评分与其他临床特征(包括年龄、性别和性别-年龄-生理学指标)进行独立和联合比较。使用R包pecv2023.04.12生成最优模型的校准曲线。为了进一步比较最优模型与基于其他预后生物标志物构建的预后模型的性能,我们收集了一系列与GSE70866数据集有关的已公开基因特征(涉及自噬、脂肪酸代谢、上皮-间充质转化免疫浸润和CX3CR1受体信号传导途径等),分别在训练和验证队列中将其表达水平代入文献记录的公式,计算各模型的一致性指数,最终与我们构建的最优模型输出的一致性指数进行比较。
最终,基于PCRGS表达水平的风险评分升高的IPF患者的生存时间缩短。时间依赖性受试者操作特征曲线分析证实了PCRGS的预后能力,其中训练队列中的1、2、3、4和5年受试者操作特征曲线[95%置信区间]分别为0.72[0.62-0.82]、0.75[0.6-0.85]、0.76[0.65-0.88]、0.81[0.68-0.95]和0.87[0.73-1.00];验证队列中的1年、2年、3年和4年受试者操作特征曲线[95%置信区间]分别为0.75[0.62-0.88]、0.72[0.56-0.88]、0.72[0.55-0.89]和0.71[0.41-1.00](图9A-B)。此外,PCRGS的预后能力明显高于年龄、性别和性别-年龄-生理学指标,而风险评分联合上述临床特征的预后能力又优于所有独立特征(图9C),可进一步提高PCRGS的临床实用性。经过多变量Cox回归分析显示,在对上述临床特征进行调整后的PCRGS仍具有统计学意义(均P<0.05),表明PCRGS是总体生存期的独立预后因素(图9D-E)。校准曲线也证明了PCRGS的预后准确性(图9F-G)。最后,PCRGS在验证队列中还显示出较其他预后生物标志物更稳健的预后性能(图9H)。总的来说,基于PCRGS表达水平的特发性肺纤维化预后模型构建是成功的,且具有临床应用价值。
本发明提供的特发性肺纤维化浆细胞特征基因预后模型构建方法,该方法包括进行单细胞转录组数据分析,进行组织水平转录组数据差异表达基因分析,进行免疫细胞浸润分析,进行加权基因共表达网络分析,进行浆细胞相关候选基因的筛选,进行浆细胞相关候选基因的评分,进行浆细胞相关候选基因的功能通路富集分析,进行IPF预后模型的构建及内部评价,进行IPF预后模型的外部评价,该方法建立能够区分低风险组和高风险组患者的预后模型,可应用于特发性肺纤维化患者预后情况的辅助判断,有助于新型药物靶点的研发和新型监测方案的建立。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种特发性肺纤维化浆细胞特征基因预后模型构建方法,其特征在于,包括如下步骤:
步骤1:进行单细胞转录组数据分析;
步骤2:进行组织水平转录组数据差异表达基因分析;
步骤3:进行免疫细胞浸润分析;
步骤4:进行加权基因共表达网络分析;
步骤5:进行浆细胞相关候选基因的筛选;
步骤6:进行浆细胞相关候选基因的评分;
步骤7:进行浆细胞相关候选基因的功能通路富集分析;
步骤8:进行IPF预后模型的构建及内部评价;
步骤9:进行IPF预后模型的外部评价。
2.根据权利要求1所述的特发性肺纤维化浆细胞特征基因预后模型构建方法,其特征在于,步骤1中,进行单细胞转录组数据分析,具体为:
在GEO数据库中检索数据集GSE132771,将每个样本的基因-细胞表达矩阵导入R包Seurat v4.3.0.1,首先将少于50个基因或多于5000个基因或线粒体表达比例超过10%的细胞剔除,接着,使用SCTransform函数对每个样本的矩阵进行归一化处理并识别出3000个高变异基因,使用FindIntegrationAnchors和IntegrateData函数进行典型相关性分析以整合所有样本的矩阵并去除批次效应,使用RunPCA函数进行主成分分析,对于细胞类群,在FindNeighbours函数中使用了前50个主成分,并使用FindClusters函数以0.6的分辨率进行聚类,使用RunUMAP函数的均匀流形近似和投影算法对前50个主成分降维至二维空间,使用R包SingleR v2.2.0对细胞类群注释后再进行人工校正,使用FindAllMarkers函数,其中,关键参数:test.use=wilcox;min.pct=0.1,logfc.threshold=0.25,识别每种细胞类型的差异表达基因,使用FindConservedMarkers函数计算特发性肺纤维化组和对照组之间的各细胞簇特异性标记基因,纳入标准为平均log2fold change(FC)>0.25且调整后的P值<0.05,初始P值使用Bonferroni算法校正,使用ClusterGVis R软件包对每种细胞类型的前30个DEGs进行基因本体论分析,并根据P值排名选择前五条注释。
3.根据权利要求2所述的特发性肺纤维化浆细胞特征基因预后模型构建方法,其特征在于,步骤2中,进行组织水平转录组数据差异分析,具体为:
在GEO数据库中检索GSE150910和GSE70866数据集,对于GSE150910数据集的RNA测序数据分析,在R中使用DESeq2 v1.40.2包筛选IPF组和对照组之间的DEGs,所有样本的采集时间批次通过DESeqDataSetFromMatrix函数去除,采用Benjamini-Hochberg方法对初始P值进行调整,对于GSE70866数据集的RNA微阵列数据分析,使用Sangerbox网站进行DEG分析,具体而言使用鲁棒多阵列平均算法对原始数据进行归一化处理,并使用ComBat算法消除批次效应,使用limma v3.56.2R包筛选了GSE70866数据集中IPF组和对照组之间的DEGs,初始P值同样使用Benjamini-Hochberg方法进行调整,DEG的筛选标准为调整后的P值<0.05且|log2FC|>1。
4.根据权利要求3所述的特发性肺纤维化浆细胞特征基因预后模型构建方法,其特征在于,步骤3中,进行免疫细胞浸润分析,具体为:
在GSE150910数据集中,基于LM22文件使用CIBERSORT算法并设置1000次置换来计算22种免疫细胞的浸润分数,最终从GSE150910数据集中选择每个样本的浆细胞浸润分数纳入后续分析。
5.根据权利要求4所述的特发性肺纤维化浆细胞特征基因预后模型构建方法,其特征在于,步骤4中,进行加权基因共表达网络分析,具体为:
在Sangerbox网站上使用WGCNAv1.72-1R包生成GSE150910数据集的基因共表达网络,计算每个基因的中位数绝对偏差,并排除中位数绝对偏差最小的前50%的基因,将加权邻接矩阵转化为拓扑重叠矩阵,以降低噪音并估计其互连性,采用平均连锁层次聚类和动态树切割方法对基因模块进行检测,选择与IPF诊断和浆细胞浸润分数显著且最高正相关的基因模块纳入后续分析,在该模块中,当基因的模块成员数>0.7,基因显著性>0.2时,定义为枢纽基因。
6.根据权利要求5所述的特发性肺纤维化浆细胞特征基因预后模型构建方法,其特征在于,步骤5中,进行浆细胞相关候选基因的筛选,具体为:
通过jvenn工具将浆细胞标记物分别与加权基因共表达网络分析的枢纽基因、GSE150910和GSE70866数据集的DEGs进行交集后取并集的基因作为候选基因。
7.根据权利要求6所述的特发性肺纤维化浆细胞特征基因预后模型构建方法,其特征在于,步骤6中,进行浆细胞相关候选基因的评分,具体为:
在R中使用AUCell v1.22.0分析候选基因在浆细胞中是否活跃表达,基于基因集富集分析和根据候选基因的曲线下面积值构建每个细胞的基因表达排名,在基因集中表达较高比例候选基因的细胞具有较高的曲线下面积值,使用AUCell_exploreThresholds函数计算基于基因集区分激活细胞的阈值,使用ggplot2 v3.4.3 R包生成UMAP嵌入图,绘制每个细胞的曲线下面积值以可视化活跃的细胞簇。
8.根据权利要求7所述的特发性肺纤维化浆细胞特征基因预后模型构建方法,其特征在于,步骤7中,进行功能通路富集分析,具体为:
在Sangerbox网站上通过clusterProfiler v3.14.3 R包对候选基因进行GO分析,包括生物过程、分子功能和细胞成分,以及基于候选基因的京都基因和基因组百科全书富集分析,根据P值排名选择前十个最显著的GOs和通路作为分析对象。
9.根据权利要求8所述的特发性肺纤维化浆细胞特征基因预后模型构建方法,其特征在于,步骤8中,进行IPF预后模型的构建及内部评价,具体为:
将GSE70866数据集中的Freiburg队列和Siena队列合并为训练队列,并通过Sangerbox网站调整训练队列基因表达的批次效应,将Leuven队列作为独立验证队列,在训练队列中,对候选基因进行单变量Cox回归分析,以筛选具有IPF预后潜力的标志物,基于十折交叉验证框架和十种机器学习算法的101种组合,包括随机生存森林、弹性网络、套索回归、岭回归、逐步Cox、CoxBoost、偏最小二乘回归Cox、监督主成分分析、通用梯度回归模型和生存支持向量机,其中,随机生存森林模型通过randomForestSRC v3.2.2 R包实现,该模型的关键参数为ntree和mtry,其中ntree表示树的数量,mtry是用于在每个节点进行拆分的随机选择的变量数,ntree设置为1000,并对mtry使用网格搜索来寻找最佳节点大小,基于确定的节点大小,形成(ntree,mtry)的所有组合,并且具有最佳一致性指数的组合被识别为最优参数,弹性网络、套索回归和岭回归通过glmnet v4.1-8 R包实现,正则化参数λ通过10倍交叉验证确定,而L1-L2权衡参数α设置为0-1,间隔为0.1,逐步Cox模型通过survival v3.5-5R包实现,调用了基于Akaike信息准则的逐步选择算法,并将搜索步骤的方向模式分别设置为同时、向后和向前,CoxBoost模型通过CoxBoost v1.5 R包实现,用于通过逐个分量的基于似然的增强方法拟合Cox比例风险模型,基于10倍交叉验证框架首先使用opticCoxBoostPenalty函数确定最佳惩罚参数,确定该参数后通过cv.CoxBoost函数来调整其他参数,即进行提升步骤的数量,最终通过CoxBoost函数来设置所选多变量Cox模型的维度,plsRcox模型通过plsRcox v1.7.7R包实现,使用cv.plsRcox函数来确定所需组件的数量,并使用plsRcox函数拟合偏最小二乘回归广义线性模型,SuperPC模型通过SuperPCv1.12 R包实现,superpc.cv函数基于十折交叉验证框架来估计监督主成分中的最优特征阈值,GBM模型通过GBM v2.1.8.1R包实现,基于十折交叉验证框架,通过cv.gbm函数选择具有最小交叉验证误差的树的索引,生存支持向量机模型通过survivalsvm v0.0.5R包实现,对所有模型都在验证队列中进行评估,评价指标为Harrell一致性指数,选取一致性指数最大且最简约的模型或模型组合作为最优方案,对于内部评价,使用R包survminer v0.4.9计算低风险组和高风险组的最佳界值,使用R包survivalv3.5-5构建Kaplan-Meier生存曲线,并用log-rank检验方法评价组间的预后差异,使用R包ggrisk v1.3计算风险评分、生存状态和基因表达水平之间的关系。
10.根据权利要求9所述的特发性肺纤维化浆细胞特征基因预后模型构建方法,其特征在于,步骤9中,进行IPF预后模型的外部评价,具体为:
在Sangerbox网站上使用pROC v1.17.0.1计算最优模型的时间依赖性曲线下面积值,使用R包survivalv3.5-5和forestplot v3.1.3将最优模型计算的风险评分与其他临床特征进行独立和联合比较,使用R包pec v2023.04.12生成最优模型的校准曲线,收集与GSE70866数据集有关的已公开基因特征,分别在训练和验证队列中将其表达水平代入,计算各模型的一致性指数,与最优模型输出的一致性指数进行比较,实现外部评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311520912.7A CN117497062A (zh) | 2023-11-15 | 2023-11-15 | 一种特发性肺纤维化浆细胞特征基因预后模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311520912.7A CN117497062A (zh) | 2023-11-15 | 2023-11-15 | 一种特发性肺纤维化浆细胞特征基因预后模型构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117497062A true CN117497062A (zh) | 2024-02-02 |
Family
ID=89679771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311520912.7A Pending CN117497062A (zh) | 2023-11-15 | 2023-11-15 | 一种特发性肺纤维化浆细胞特征基因预后模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117497062A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117747093A (zh) * | 2024-02-20 | 2024-03-22 | 神州医疗科技股份有限公司 | 一种特发性肺纤维化诊断模型的构建方法及诊断系统 |
CN118248225A (zh) * | 2024-03-22 | 2024-06-25 | 苏州卫生职业技术学院 | 一种aml患者程序性细胞死亡相关预后模型构建方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114134227A (zh) * | 2021-07-23 | 2022-03-04 | 中国医学科学院血液病医院(中国医学科学院血液学研究所) | 多发性骨髓瘤预后不良生物标志物及筛选方法、预后分层模型和应用 |
CN115394445A (zh) * | 2022-05-25 | 2022-11-25 | 郑州金域临床检验中心有限公司 | 结肠癌预后标记基因及其筛选、预后预测及模型构建方法 |
CN115410713A (zh) * | 2022-08-31 | 2022-11-29 | 广西壮族自治区肿瘤防治研究所 | 一种基于免疫相关基因的肝细胞癌预后风险预测模型构建 |
CN116486902A (zh) * | 2023-05-10 | 2023-07-25 | 清华大学 | 一种基于基因调控网络识别驱动调控因子的方法 |
CN116486918A (zh) * | 2022-01-14 | 2023-07-25 | 天士力干细胞产业平台有限公司 | 一种干细胞质量评价方法 |
-
2023
- 2023-11-15 CN CN202311520912.7A patent/CN117497062A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114134227A (zh) * | 2021-07-23 | 2022-03-04 | 中国医学科学院血液病医院(中国医学科学院血液学研究所) | 多发性骨髓瘤预后不良生物标志物及筛选方法、预后分层模型和应用 |
CN116486918A (zh) * | 2022-01-14 | 2023-07-25 | 天士力干细胞产业平台有限公司 | 一种干细胞质量评价方法 |
CN115394445A (zh) * | 2022-05-25 | 2022-11-25 | 郑州金域临床检验中心有限公司 | 结肠癌预后标记基因及其筛选、预后预测及模型构建方法 |
CN115410713A (zh) * | 2022-08-31 | 2022-11-29 | 广西壮族自治区肿瘤防治研究所 | 一种基于免疫相关基因的肝细胞癌预后风险预测模型构建 |
CN116486902A (zh) * | 2023-05-10 | 2023-07-25 | 清华大学 | 一种基于基因调控网络识别驱动调控因子的方法 |
Non-Patent Citations (2)
Title |
---|
FANJIE LIN.ETC: ""Supplementary Material"", 《RESEARCH SQUARE》, 11 October 2023 (2023-10-11), pages 2 * |
FANJIE LIN.ETC: ""Machine Learning-Based Integration Identifies Plasma Cells-Related Gene Signature ST6GAL1 in Idiopathic Pulmonary Fibrosis and Its Pan-Cancer Analysis"", 《RESEARCH SQUARE》, 11 October 2023 (2023-10-11), pages 3 - 39 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117747093A (zh) * | 2024-02-20 | 2024-03-22 | 神州医疗科技股份有限公司 | 一种特发性肺纤维化诊断模型的构建方法及诊断系统 |
CN117747093B (zh) * | 2024-02-20 | 2024-06-07 | 神州医疗科技股份有限公司 | 一种特发性肺纤维化诊断模型的构建方法及诊断系统 |
CN118248225A (zh) * | 2024-03-22 | 2024-06-25 | 苏州卫生职业技术学院 | 一种aml患者程序性细胞死亡相关预后模型构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117497062A (zh) | 一种特发性肺纤维化浆细胞特征基因预后模型构建方法 | |
CN111785328B (zh) | 基于门控循环单元神经网络的冠状病毒序列识别方法 | |
WO2022170909A1 (zh) | 药物敏感预测方法、电子设备及计算机可读存储介质 | |
JP2023517903A (ja) | 細菌の表現型形質をそのゲノムから予測するための分子技術 | |
CN116052770A (zh) | 基于多基因突变的vte风险评估模型、构建方法及应用 | |
CN113362894A (zh) | 一种对协同致死的癌症驱动基因进行预测的方法 | |
CN112466402A (zh) | 一种使用血液标志物预测年龄的方法 | |
CN110331197A (zh) | lncRNA在制备预测头颈鳞状细胞癌预后的产品中的应用 | |
KR102042824B1 (ko) | 류마티스관절염 예후 예측용 snp 마커 세트 | |
CN116287204A (zh) | 检测特征基因的突变情况在制备静脉血栓栓塞症风险检测产品中的应用 | |
CN115662522A (zh) | 一种系统性红斑狼疮精准分型模型及其构建方法和应用 | |
Whitehouse et al. | Timesweeper: accurately identifying selective sweeps using population genomic time series | |
CN104573408B (zh) | 单一核苷酸多型性疾病发生率预测系统 | |
JP2023517904A (ja) | 細菌ゲノムにおいてゲノム配列を検出するための分子技術 | |
WO2022019331A1 (ja) | ウイルス変異予測装置、ウイルス変異予測方法、およびプログラム | |
CN105838720B (zh) | Ptprq基因突变体及其应用 | |
CN112102882B (zh) | 一种用于肿瘤样本ngs检测流程的质控系统和方法 | |
KR102042823B1 (ko) | 류마티스관절염 예후 예측용 snp 마커 세트 | |
Hua et al. | Combining protein-protein interactions information with support vector machine to identify chronic obstructive pulmonary disease related genes | |
Henzi et al. | on behalf of RISC-19-ICU Investigators for Switzerland (2021) Probabilistic analysis of COVID-19 patients’ individual length of stay in Swiss intensive care units | |
Burkett et al. | Using gene genealogies to detect rare variants associated with complex traits | |
Flores et al. | Characterizing Macrophages Diversity in COVID-19 Patients Using Deep Learning. Genes 2022, 13, 2264 | |
US20190164631A1 (en) | Biomarkers signature discovery and selection | |
US20220267865A1 (en) | In vitro method for the diagnosis of viral infections | |
CN112525804B (zh) | 全血细胞计数在预测SARS-CoV-2感染中的应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |