CN114438165A - 针对稳定型冠心病的急性冠脉综合征风险评估标志物及应用 - Google Patents
针对稳定型冠心病的急性冠脉综合征风险评估标志物及应用 Download PDFInfo
- Publication number
- CN114438165A CN114438165A CN202210116105.8A CN202210116105A CN114438165A CN 114438165 A CN114438165 A CN 114438165A CN 202210116105 A CN202210116105 A CN 202210116105A CN 114438165 A CN114438165 A CN 114438165A
- Authority
- CN
- China
- Prior art keywords
- data
- intestinal flora
- acute coronary
- coronary syndrome
- heart disease
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000004476 Acute Coronary Syndrome Diseases 0.000 title claims abstract description 156
- 208000029078 coronary artery disease Diseases 0.000 title claims abstract description 91
- 238000012502 risk assessment Methods 0.000 title claims abstract description 32
- 239000003550 marker Substances 0.000 title abstract description 5
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000000968 intestinal effect Effects 0.000 claims description 116
- 238000004458 analytical method Methods 0.000 claims description 69
- 241000894006 Bacteria Species 0.000 claims description 54
- 241000894007 species Species 0.000 claims description 34
- 238000001514 detection method Methods 0.000 claims description 30
- 238000012163 sequencing technique Methods 0.000 claims description 30
- 241001608472 Bifidobacterium longum Species 0.000 claims description 29
- 229940009291 bifidobacterium longum Drugs 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 26
- 230000002550 fecal effect Effects 0.000 claims description 25
- 241001135228 Bacteroides ovatus Species 0.000 claims description 23
- 241000194017 Streptococcus Species 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 19
- 241000194024 Streptococcus salivarius Species 0.000 claims description 18
- 241000606124 Bacteroides fragilis Species 0.000 claims description 17
- 241001464948 Coprococcus Species 0.000 claims description 15
- 241000186394 Eubacterium Species 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 15
- 239000011543 agarose gel Substances 0.000 claims description 14
- 241000222511 Coprinus Species 0.000 claims description 13
- 241000862470 Holdemania filiformis Species 0.000 claims description 13
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 claims description 12
- 241000605980 Faecalibacterium prausnitzii Species 0.000 claims description 11
- 238000007405 data analysis Methods 0.000 claims description 10
- 206010002383 Angina Pectoris Diseases 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 241000194008 Streptococcus anginosus Species 0.000 claims description 7
- 241000606125 Bacteroides Species 0.000 claims description 6
- 241001262170 Collinsella aerofaciens Species 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 241000203069 Archaea Species 0.000 claims description 5
- 241000206602 Eukaryota Species 0.000 claims description 5
- 241000700605 Viruses Species 0.000 claims description 5
- 239000003153 chemical reaction reagent Substances 0.000 claims description 5
- 241000949098 Coprococcus comes Species 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 4
- 241000186216 Corynebacterium Species 0.000 claims description 3
- 241000193403 Clostridium Species 0.000 claims description 2
- 241000588724 Escherichia coli Species 0.000 claims description 2
- 241001608234 Faecalibacterium Species 0.000 claims description 2
- 241000186000 Bifidobacterium Species 0.000 claims 1
- 229940023064 escherichia coli Drugs 0.000 claims 1
- 239000000523 sample Substances 0.000 description 37
- 239000000090 biomarker Substances 0.000 description 30
- 238000010801 machine learning Methods 0.000 description 20
- 238000012549 training Methods 0.000 description 19
- 238000013058 risk prediction model Methods 0.000 description 18
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 9
- 238000003908 quality control method Methods 0.000 description 8
- 210000001035 gastrointestinal tract Anatomy 0.000 description 7
- 208000010125 myocardial infarction Diseases 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000002757 inflammatory effect Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 208000037260 Atherosclerotic Plaque Diseases 0.000 description 4
- 101800004637 Communis Proteins 0.000 description 4
- 230000007717 exclusion Effects 0.000 description 4
- 230000004054 inflammatory process Effects 0.000 description 4
- 208000024172 Cardiovascular disease Diseases 0.000 description 3
- 206010061218 Inflammation Diseases 0.000 description 3
- 206010000891 acute myocardial infarction Diseases 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 3
- 235000020299 breve Nutrition 0.000 description 3
- 230000002503 metabolic effect Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 150000007523 nucleic acids Chemical class 0.000 description 3
- 102000039446 nucleic acids Human genes 0.000 description 3
- 108020004707 nucleic acids Proteins 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000379991 Anaerococcus Species 0.000 description 2
- 206010002388 Angina unstable Diseases 0.000 description 2
- 201000001320 Atherosclerosis Diseases 0.000 description 2
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 206010028851 Necrosis Diseases 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 206010049418 Sudden Cardiac Death Diseases 0.000 description 2
- 208000007536 Thrombosis Diseases 0.000 description 2
- 208000007814 Unstable Angina Diseases 0.000 description 2
- 241001531188 [Eubacterium] rectale Species 0.000 description 2
- 230000003143 atherosclerotic effect Effects 0.000 description 2
- 230000001580 bacterial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 235000011089 carbon dioxide Nutrition 0.000 description 2
- 208000026106 cerebrovascular disease Diseases 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000034994 death Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 208000019622 heart disease Diseases 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 210000004969 inflammatory cell Anatomy 0.000 description 2
- 208000027866 inflammatory disease Diseases 0.000 description 2
- 201000004332 intermediate coronary syndrome Diseases 0.000 description 2
- 150000002632 lipids Chemical class 0.000 description 2
- 208000030159 metabolic disease Diseases 0.000 description 2
- 230000002107 myocardial effect Effects 0.000 description 2
- 230000017074 necrotic cell death Effects 0.000 description 2
- 235000016709 nutrition Nutrition 0.000 description 2
- 230000035764 nutrition Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 210000000664 rectum Anatomy 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010008111 Cerebral haemorrhage Diseases 0.000 description 1
- 206010009900 Colitis ulcerative Diseases 0.000 description 1
- 201000000057 Coronary Stenosis Diseases 0.000 description 1
- 208000011231 Crohn disease Diseases 0.000 description 1
- 208000036649 Dysbacteriosis Diseases 0.000 description 1
- 208000027244 Dysbiosis Diseases 0.000 description 1
- 241000305071 Enterobacterales Species 0.000 description 1
- 206010019280 Heart failures Diseases 0.000 description 1
- 208000032843 Hemorrhage Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010022489 Insulin Resistance Diseases 0.000 description 1
- 241000588748 Klebsiella Species 0.000 description 1
- 208000000770 Non-ST Elevated Myocardial Infarction Diseases 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 102000005877 Peptide Initiation Factors Human genes 0.000 description 1
- 108010044843 Peptide Initiation Factors Proteins 0.000 description 1
- 208000025747 Rheumatic disease Diseases 0.000 description 1
- 208000006117 ST-elevation myocardial infarction Diseases 0.000 description 1
- 208000007718 Stable Angina Diseases 0.000 description 1
- 201000006704 Ulcerative Colitis Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 206010007625 cardiogenic shock Diseases 0.000 description 1
- 238000002680 cardiopulmonary resuscitation Methods 0.000 description 1
- 206010008118 cerebral infarction Diseases 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 208000020832 chronic kidney disease Diseases 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 210000004351 coronary vessel Anatomy 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000007140 dysbiosis Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 244000005709 gut microbiome Species 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000013632 homeostatic process Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003832 immune regulation Effects 0.000 description 1
- 208000026278 immune system disease Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000028709 inflammatory response Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 208000028774 intestinal disease Diseases 0.000 description 1
- 210000004347 intestinal mucosa Anatomy 0.000 description 1
- 230000000302 ischemic effect Effects 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 244000000010 microbial pathogen Species 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 210000003540 papillary muscle Anatomy 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000008289 pathophysiological mechanism Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000007505 plaque formation Effects 0.000 description 1
- 208000037821 progressive disease Diseases 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000026267 regulation of growth Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 230000000250 revascularization Effects 0.000 description 1
- 230000000552 rheumatic effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000014221 sudden cardiac arrest Diseases 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 1
- 210000000596 ventricular septum Anatomy 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/02—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
- C12Q1/04—Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
- C12Q1/14—Streptococcus; Staphylococcus
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/02—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
- C12Q1/04—Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
- C12Q1/06—Quantitative determination
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/689—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/32—Cardiovascular disorders
- G01N2800/324—Coronary artery diseases, e.g. angina pectoris, myocardial infarction
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/50—Determining the risk of developing a disease
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Biochemistry (AREA)
- Medical Informatics (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Toxicology (AREA)
- Public Health (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种针对稳定型冠心病的急性冠脉综合征风险评估标志物及应用,所述标志物包括肠道菌群长双歧杆菌、咽峡炎链球菌、陪伴粪球菌、产气柯林斯菌、普氏栖粪杆菌、卵形拟杆菌、厌氧棍状菌属、脆弱拟杆菌、霍尔德曼氏菌、直肠真杆菌以及唾液链球菌。本发明针对稳定型冠心病的急性冠脉综合征进行风险评估预测,可以提高预测准确率。
Description
技术领域
本发明涉及生物医学技术领域,尤其涉及针对稳定型冠心病的急性冠脉综合征风险评估标志物及其相关应用。
背景技术
心血管病主要指冠状动脉粥样硬化性心脏病,简称冠心病(coronary arterydisease,CAD)。心脏病突发(heart attack)即临床表现的急性冠状动脉综合征(acutecoronary syndrome,ACS),包括心源性猝死、心肌梗死和不稳定性心绞痛则是冠心病主要致死原因。ACS的病理生理机制已公认为冠状动脉粥样斑块炎症性进展至破裂,诱发了血栓形成急性堵塞冠状动脉所致。目前,主流观点认为:包括冠心病在内的心血管疾病是一类免疫代谢性疾病,也是一类全身性、进展性、炎症性疾病。主要病变是动脉粥样硬化斑块形成和炎症性进展,本质特征包括脂质沉积和炎症性细胞聚集所产生的非细菌性炎症反应,即被称为代谢性炎症。因为在粥样硬化斑块和进展过程中,从脂质条纹不断进展到粥样斑块,直至破裂,导致血栓形成的多个环节中,始终都有各种炎症细胞和大量炎症介质参与。由于冠心病的动态性和复杂性,炎性不稳定斑块的形成、进展、破裂的机制仍不清楚因此,若能阐明冠状动脉斑块炎症不稳定性的启动因素或原因,以及寻找源头干预炎症过程的有效方法,对于有效防范冠状动脉斑块炎症不稳定性的发生、进展和破裂以及ACS突发事件,大大降低心血管病的发病率和死亡率;对于保障人民的生命安全和身体健康均具有巨大而深远的社会意义和科学价值。
传统认为,总胆固醇(TC)、年龄等均是与针对稳定型冠心病的急性冠脉综合征有关联的风险因素,但这些因素因个体化差异较大,很难准确用于个体急性冠状动脉综合征的风险评估。
另一方面,肠道黏膜是机体最大的具有免疫活性的器官,肠道内寄存的几百亿细菌称为“肠道微生物群”,宿主为肠道菌群提供了适当的环境和必要的营养。反过来,肠道菌群又参与调节人体的各种功能,如向宿主提供代谢营养、参与促进生长和免疫调节、消除致病微生物、保持肠道屏障的完整性和正常的体内平衡。随着新近研究发现,肠道微生物菌群在人类免疫炎症性疾病和代谢性疾病中发挥着源头调节作用,并与存在代谢性炎症和胰岛素抵抗状、动脉粥样硬化、肥胖和糖尿病等疾病密切相关,以及肠道菌群作为冠心病发生和发展的源头调控影响因素也露出冰山一角。有研究指出,冠心病患者存在肠道菌群失调,表现为大肠杆菌,链球菌和幽门螺杆菌的比例增加。肠道菌群可通过代谢途径、炎性反应等多个途径促进动脉粥样硬化形成。
然而,现有技术中并没有通过研究肠道菌群特征性针对稳定型冠心病的急性冠脉综合征进行发病风险评估的研究报道。另外,随着宏基因组学等各种测序技术的飞快发展,海量的数据也应运而生。如何从庞杂冗余的生物数据中挖掘出能够对急性冠脉综合征进行风险预测的生物标志物并实现针对稳定型冠心病的急性冠脉综合征的准确风险预测十分重要。
发明内容
本发明的一个目的在于提供一组与急性冠脉综合征发病风险相关的标志物。
本发明的另一目的在于提供一种建立针对稳定型冠心病的急性冠脉综合征发病风险评估模型的方法。
本发明的另一目的在于提供一种针对稳定型冠心病的急性冠脉综合征发病风险评估模型。
本发明的另一目的在于提供一种针对稳定型冠心病的急性冠脉综合征发病风险评估装置。
本发明的另一目的在于提供一种针对稳定型冠心病的急性冠脉综合征发病风险评估方法。
本案发明人通过大量的研究与实际检测分析试验,确定了一组与稳定型冠心病的急性冠脉综合征发病风险相关的生物标志物,其包括多个肠道菌群,通过检测来自个体的样本中的这些肠道菌群的相关信息,可以良好地评估个体急性冠脉综合征发病风险。
具体而言,一方面,本发明提供了检测个体信息的试剂在制备针对稳定型冠心病的急性冠脉综合征风险评估装置(评估系统)中的应用,其中,所述个体信息包括肠道菌群信息,所述肠道菌群包括:
长双歧杆菌(Bifidobacterium longum),
咽峡炎链球菌(Streptococcus anginosus),
陪伴粪球菌(Coprococcus comes),
产气柯林斯菌(Collinsella aerofaciens),
普氏栖粪杆菌(Faecalibacterium prausnitzii),
卵形拟杆菌(Bacteroides ovatus),
厌氧棍状菌属(Anaerotruncus colihominis),
脆弱拟杆菌(Bacteroides fragilis),
霍尔德曼氏菌(Holdemania filiformis),
直肠真杆菌(Eubacterium rectale),以及
唾液链球菌(Streptococcus salivarius)。
根据本发明的具体实施方案,本发明的应用中,所述肠道菌群中各菌在评估针对稳定型冠心病的急性冠脉综合征风险时的特征重要度,长双歧杆菌(Bifidobacteriumlongum)﹥咽峡炎链球菌(Streptococcus anginosus)﹥陪伴粪球菌(Coprococcus comes)=产气柯林斯菌(Collinsella aerofaciens)﹥普氏栖粪杆菌(Faecalibacteriumprausnitzii)﹥卵形拟杆菌(Bacteroides ovatus)=厌氧棍状菌属(Anaerotruncuscolihominis)﹥脆弱拟杆菌(Bacteroides fragilis)﹥霍尔德曼氏菌(Holdemaniafiliformis)﹥直肠真杆菌(Eubacterium rectale)=唾液链球菌(Streptococcussalivarius)。
根据本发明的具体实施方案,本发明的应用中,所述肠道菌群中各菌在评估针对稳定型冠心病的急性冠脉综合征风险时,所述肠道菌群中各菌按照以下特征重要度数值确定权重,或者,所述肠道菌群中各菌的权重比值为:
长双歧杆菌(Bifidobacterium longum),13;
咽峡炎链球菌(Streptococcus anginosus),11;
陪伴粪球菌(Coprococcus comes),10;
产气柯林斯菌(Collinsella aerofaciens),10;
普氏栖粪杆菌(Faecalibacterium prausnitzii),9;
卵形拟杆菌(Bacteroides ovatus),8;
厌氧棍状菌属(Anaerotruncus colihominis),8;
脆弱拟杆菌(Bacteroides fragilis),7;
霍尔德曼氏菌(Holdemania filiformis),6;
直肠真杆菌(Eubacterium rectale),4;
唾液链球菌(Streptococcus salivarius),4。
根据本发明的具体实施方案,本发明的应用中,所述长双歧杆菌(Bifidobacterium longum)、咽峡炎链球菌(Streptococcus anginosus)、陪伴粪球菌(Coprococcus comes)、产气柯林斯菌(Collinsella aerofaciens)、普氏栖粪杆菌(Faecalibacterium prausnitzii)、卵形拟杆菌(Bacteroides ovatus)、厌氧棍状菌属(Anaerotruncus colihominis)、脆弱拟杆菌(Bacteroides fragilis)、霍尔德曼氏菌(Holdemania filiformis)、直肠真杆菌(Eubacterium rectale)、唾液链球菌(Streptococcus salivarius)均为针对稳定型冠心病的急性冠脉综合征发病风险因素。各风险因素的异常程度越高(各肠道菌菌相比于健康人的表达丰度差异越大),个体急性冠脉综合征发病风险越高。
根据本发明的一些优选具体实施方案,本发明的应用中,所述个体信息还可进一步包括总胆固醇水平、年龄中的一项或多项。
根据本发明的具体实施方案,本发明的技术特别适用于对来自东亚人群的个体进行急性冠脉综合征发病风险评估。
根据本发明的一些具体实施方案,本发明实施例提供一种建立针对稳定型冠心病的急性冠脉综合征风险预测(评估)模型的方法,以将所建立的模型用以对急性冠脉综合征进行风险预测,提高预测准确率,该方法包括:
获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据;
利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据;
将所述总量数据与总浓度数据与预设阈值进行比较,根据比较的结果对所述粪便样本DNA数据进行筛选;
对筛选出的粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息;
根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标志物,确定肠道菌群特征数据,所述急性冠脉综合征的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的;
将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到急性冠脉综合征风险预测模型。
根据本发明的一些具体实施方案,本发明还提供了利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测的方法。
本发明实施例提供一种用于建立针对稳定型冠心病的急性冠脉综合征风险预测模型的装置,以将所建立的模型用以对急性冠脉综合征进行风险预测,提高预测准确率,该装置包括:
DNA数据获得模块,用于获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据;
浓度数据确定模块,用于利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据;
DNA数据筛选模块,用于将所述总量数据与总浓度数据与预设阈值进行比较,根据比较的结果对所述粪便样本DNA数据进行筛选;
双端测序处理模块,用于对筛选出的粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
注释分析模块,用于对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息;
特征数据确定模块,用于根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标志物,确定肠道菌群特征数据,所述急性冠脉综合征的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的;
模型训练模块,用于将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到急性冠脉综合征风险预测模型。
本发明的另一些实施方案中,还提供了一种急性冠脉综合征的风险评估装置,其包括:风险预测模块,用于利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述针对稳定型冠心病的急性冠脉综合征风险预测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述针对稳定型冠心病的急性冠脉综合征风险预测方法的计算机程序。
另一方面,本发明还提供了另一种针对稳定型冠心病的急性冠脉综合征风险评估装置,其包括检测单元和数据分析单元,其中:
所述检测单元用于检测个体信息,获得检测结果;其中,所述个体信息同权利要求1或4中所述个体信息;
所述数据分析单元用于对检测单元的检测结果进行分析处理。
根据本发明的具体实施方案,本发明的针对稳定型冠心病的急性冠脉综合征风险评估装置中,所述检测单元包括可获得待测个体肠道菌群中各特征菌(长双歧杆菌、咽峡炎链球菌、陪伴粪球菌、产气柯林斯菌、普氏栖粪杆菌、卵形拟杆菌、厌氧棍状菌属、脆弱拟杆菌、霍尔德曼氏菌、直肠真杆菌以及唾液链球菌)信息的任何试剂材料,可以采用现有技术中任何可行的方法检测待测个体肠道菌群中各特征菌的信息。
根据本发明的具体实施方案,本发明的针对稳定型冠心病的急性冠脉综合征风险评估装置中,所述检测单元包括检测粪便样本DNA数据的试剂材料。
优选地,所述检测单元按照以下操作进行检测并获得检测结果:
检测粪便样本,获得DNA数据;
利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据。
优选地,所述数据分析单元用于对检测单元的检测结果进行分析处理的过程包括:
将所述总量数据与总浓度数据与预设阈值进行比较,根据比较的结果对所述粪便样本DNA数据进行筛选;
对筛选出的粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到肠道菌群中各菌的相对丰度信息;
根据所述相对丰度信息,确定肠道菌群特征数据。
更优选地,对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,包括:
下载肠道菌群数据库,所述肠道菌群数据库包括多个参考基因组,所述参考基因组包括:细菌,古菌,病毒和真核生物;
根据所述肠道菌群数据库,利用MetaPhIAn2软件对肠道菌群宏基因组数据进行物种注释分析,利用HUMAnN2软件对肠道菌群宏基因组数据进行功能注释分析。
根据本发明的一些具体实施方案,本发明的针对稳定型冠心病的急性冠脉综合征风险评估装置包括:
DNA数据获得模块,用于获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据;
浓度数据确定模块,用于利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据;
DNA数据筛选模块,用于将所述总量数据与总浓度数据与预设阈值进行比较,根据比较的结果对所述粪便样本DNA数据进行筛选;
双端测序处理模块,用于对筛选出的粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
注释分析模块,用于对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到肠道菌群中各菌的相对丰度信息;
特征数据确定模块,用于根据所述相对丰度信息确定肠道菌群特征数据。
根据本发明的具体实施方案,本发明的针对稳定型冠心病的急性冠脉综合征风险评估装置中,所述数据分析单元对检测单元的检测结果进行分析处理时,包括:将个体信息的检测结果配以权重系数,以计算所述待测个体的风险评估得分;
其中,所述肠道菌群中各菌的特征重要度,长双歧杆菌(Bifidobacteriumlongum)﹥咽峡炎链球菌(Streptococcus anginosus)﹥陪伴粪球菌(Coprococcus comes)=产气柯林斯菌(Collinsella aerofaciens)﹥普氏栖粪杆菌(Faecalibacteriumprausnitzii)﹥卵形拟杆菌(Bacteroides ovatus)=厌氧棍状菌属(Anaerotruncuscolihominis)﹥脆弱拟杆菌(Bacteroides fragilis)﹥霍尔德曼氏菌(Holdemaniafiliformis)﹥直肠真杆菌(Eubacterium rectale)=唾液链球菌(Streptococcussalivarius)。
根据本发明的一些具体实施方案,本发明的针对稳定型冠心病的急性冠脉综合征风险评估装置中,所述肠道菌群中各菌按照以下特征重要度数值确定权重,或者,所述肠道菌群中各菌的权重比值为:
长双歧杆菌(Bifidobacterium longum),13;
咽峡炎链球菌(Streptococcus anginosus),11;
陪伴粪球菌(Coprococcus comes),10;
产气柯林斯菌(Collinsella aerofaciens),10;
普氏栖粪杆菌(Faecalibacterium prausnitzii),9;
卵形拟杆菌(Bacteroides ovatus),8;
厌氧棍状菌属(Anaerotruncus colihominis),8;
脆弱拟杆菌(Bacteroides fragilis),7;
霍尔德曼氏菌(Holdemania filiformis),6;
直肠真杆菌(Eubacterium rectale),4;
唾液链球菌(Streptococcus salivarius),4。
另一方面,本发明还提供了另一种计算机设备,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现:基于待测个体信息获得个体针对稳定型冠心病的急性冠脉综合征风险评估结果;
其中,所述个体信息同本发明前述个体信息。
另一方面,本发明还提供了另一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现:基于待测个体信息获得个体针对稳定型冠心病的急性冠脉综合征风险评估结果;
其中,所述个体信息同本发明前述个体信息。
本发明实施例通过获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据;利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据;将所述总量数据与总浓度数据与预设阈值进行比较,根据比较的结果对所述粪便样本DNA数据进行筛选;对筛选出的粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息;根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标志物,确定肠道菌群特征数据,所述急性冠脉综合征的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的;将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到急性冠脉综合征风险预测模型;利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。本发明实施例充分考虑到急性冠脉综合征患者的肠道菌群特征,利用机器学习算法从复杂、繁冗的生物大数据中筛选可用于预测及监测急性冠脉综合征风险的、无创的生物标志物,提高预测准确率,弥补了急性冠脉综合征临床预警的空白。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中针对稳定型冠心病的急性冠脉综合征风险预测方法示意图;
图2为本发明实施例中训练集中的AUROC曲线图;
图3为本发明实施例中筛到的对模型起重要作用的急性冠脉综合征的生物标志物示意图;
图4为本发明实施例中针对稳定型冠心病的急性冠脉综合征风险预测装置结构图。
图5为本发明另一具体实施例的针对稳定型冠心病的急性冠脉综合征风险评估模型的AUROC曲线图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
如前所述,随着宏基因组学等各种测序技术的飞快发展,海量的数据也应运而生。如何从庞杂冗余的生物数据中挖掘有用的信息,用于疾病的评估预测、诊断指标,一直是一项极具挑战的事情。随着大数据时代的来临,科研人员开发了多种算法进行生命科学领域相关数据的挖掘,而对于标志物诊断模型而言,不得不提的就是机器学习算法。机器学习包含了多种方法:线性回归、随机森林等。不同的算法适用的情况和条件不同,易受到生物样本的个体差异,实验方法等影响。
为了对急性冠脉综合征进行风险评估预测,提高预测准确率,本发明实施例提供一种建立针对稳定型冠心病的急性冠脉综合征风险预测模型的方法,如图1所示,该方法可以包括:
步骤101、获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据;
步骤102、利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据;
步骤103、将所述总量数据与总浓度数据与预设阈值进行比较,根据比较的结果对所述粪便样本DNA数据进行筛选;
步骤104、对筛选出的粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
步骤105、对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息;
步骤106、根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标志物,确定肠道菌群特征数据,所述急性冠脉综合征的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的;
步骤107、将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到急性冠脉综合征风险预测模型。
进一步,本发明还提供了一种针对稳定型冠心病的急性冠脉综合征的风险评估的方法,该方法包括:
步骤108、利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。
由图1所示可以得知,本发明实施例通过获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据;利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据;将所述总量数据与总浓度数据与预设阈值进行比较,根据比较的结果对所述粪便样本DNA数据进行筛选;对筛选出的粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息;根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标志物,确定肠道菌群特征数据,所述急性冠脉综合征的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的;将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到急性冠脉综合征风险预测模型;利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。本发明实施例充分考虑到急性冠脉综合征患者的肠道菌群特征,利用机器学习算法从复杂、繁冗的生物大数据中筛选可用于预测及监测急性冠脉综合征风险的、无创的生物标志物,提高预测准确率,弥补了急性冠脉综合征临床预警的空白。
实施例中,获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据;利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据;将所述总量数据与总浓度数据与预设阈值进行比较,根据比较的结果对所述粪便样本DNA数据进行筛选;对筛选出的粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据。
本实施例中,得到肠道菌群宏基因组数据之后,利用Trimmomatic软件去除肠道菌群宏基因组数据中的接头,并根据预先设定的碱基质量值,对去除接头的肠道菌群宏基因组数据进行修剪;利用FastQC软件对修剪后的肠道菌群宏基因组数据进行质量评估;对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,包括:对质量评估合格的肠道菌群宏基因组数据进行物种注释分析和功能注释分析。
具体实施时,在患者接受项目检测后收集其粪便样本,并在30分钟内放入干冰保存,并尽快储存在-80℃冰箱中待测。提取DNA,对提取的核酸物质利用琼脂糖凝胶方法进行质量控制,要求DNA总量≥1μg,DNA总浓度≥20ng/μL,对质量合格的样本进行建库,然后对粪便样本DNA数据进行illumina hiseq4000双端测序,得到每一个样本的双端测序数据,以FASTQ文件存储。FASTQ是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式,它们都是以ASCII编码的,几乎是高通量测序的标准格式。
具体实施时,用Trimmomatic软件对数据进行质量控制,即修剪和去除原始数据中的接头(adapter)和低质量序列。Trimmomatic是一个广受欢迎的Illumina平台数据过滤工具,其支持多线程,处理数据速度快,主要用来去除Fastq序列中的接头,并根据碱基质量值对Fastq进行修剪。它包含双端测序和单端测序两种模式同时支持gzip和bzip2压缩文件,也支持phred-33和phred-64格式互相转化。FastQC是一款基于Java的软件,它可以快速地对测序数据进行质量评估。对过滤后的数据,用FastQC软件评价质控后的数据质量。根据FastQC的分析结果,可以判断FASTQ测序文件的质量。如果FASTQ测序文件质量合格,则进行后续的数据分析;否则,要重做调整参数,利用Trimmomatic软件对双端测序数据进行修剪。需要说明的是,测序出来的序列每个碱基都对应有一个质量值(用字母或符号表示,可转为ASCII值减去64来看),这个质量值代表测出的这个碱基的准确性,如果这条序列普遍质量值较低或平均质量值小于20,也或N很多也算低质量序列。
实施例中,对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息。
本实施例中,对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,包括:下载肠道菌群数据库,所述肠道菌群数据库包括多个参考基因组,所述参考基因组包括:细菌,古菌,病毒和真核生物;根据所述肠道菌群数据库,利用MetaPhIAn2软件对肠道菌群宏基因组数据进行物种注释分析,利用HUMAnN2软件对肠道菌群宏基因组数据进行功能注释分析。
本实施例中,对质控后的数据,采用MetaPhIAn2软件进行宏基因组物种注释分析。MetaPhIAn2整理了17000多个参考基因组,包括13500个细菌和古菌,3500个病毒和110种真核生物。下载对应的数据库后,采用该软件,可以实现精确的分类群分配以及准确的计算物种的相对丰度。其能达到种水平的精度,以及菌株水平的鉴定和追踪。对肠道菌群宏基因组数据进行物种注释和功能注释后,得到肠道菌群的物种丰度信息建立模型进行预测。
本实施例中,采用R软件包vegan分析物种多样性,输入文件为肠道菌群物种丰度数据。LEfSe(LDA Effect Size)有网页运行版本(http://huttenhower.sph.harvard.edu/galaxy/),准备好肠菌物种丰度数据,输入到网页运行版本中,按照默认流程运行,可得到结果,即组间的差异菌群。这里的冠心病肠道菌群特征数据,即从LEfSe分析得到的差异菌物种丰度数据。
实施例中,根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标志物,确定肠道菌群特征数据,所述急性冠脉综合征的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的。
本实施例中,所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的,包括:所述差异菌相对丰度历史信息是利用LDA Effect Size软件对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的。
本实施例中,所述预先筛选的急性冠脉综合征的生物标志物包括:长双歧杆菌Bifidobacterium longum,咽峡炎链球菌Streptococcus anginosus,产气柯林斯菌Collinsella aerofaciens,陪伴粪球菌Coprococcus comes,普氏栖粪杆菌Faecalibacterium prausnitzii,厌氧棍状菌属Anaerotruncus colihominis,卵形拟杆菌Bacteroides ovatus,脆弱拟杆菌Bacteroides fragilis,霍尔德曼氏菌Holdemaniafiliformis,直肠真杆菌Eubacterium rectale,唾液链球菌Streptococcus salivarius。
本实施例中,按如下方式对所述急性冠脉综合征的生物标志物进行预先筛选:利用Boruta特征选择包对差异菌相对丰度历史信息进行特征选择,确定急性冠脉综合征的生物标志物。
本实施例中,按如下方式利用Boruta特征选择包对所述差异菌相对丰度历史信息进行特征选择:根据差异菌相对丰度历史信息,创建阴影特征矩阵;根据所述阴影特征矩阵确定真实特征数据和阴影特征数据;根据所述真实特征数据和阴影特征数据,确定每个差异菌相对丰度历史信息对应的重要度标签;根据所述重要度标签,对差异菌相对丰度历史信息进行特征选择。
具体实施时,采用boruta算法进行特征选择。Boruta的目标就是选择出所有与因变量相关的特征集合,而不是针对特定模型选择出可以使得模型cost function最小的特征集合。Boruta算法的意义在于可以帮助本发明更全面的理解因变量的影响因素,从而更好、更高效地进行特征选择。Boruta是python中的一个特征选择包,安装该包后输入差异菌相对丰度历史信息,可以得到适合建模的重要特征。其具体算法步骤为:(1)创建阴影特征(shadow feature):对每个真实特征R,随机打乱顺序,得到阴影特征矩阵S,拼接到真实特征后面,构成新的特征矩阵N=[R,S];(2)用新的特征矩阵N作为输入,训练模型,得到真实特征和阴影特征;(3)取阴影特征的最大值,真实特征中大于该值的,记录一次命中;(4)用(3)中记录的真实特征累计命中,标记特征重要或不重要;(5)删除不重要的特征,重复1-4,直到所有特征都被标记。
实施例中,将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到急性冠脉综合征风险预测模型;利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。
本实施例中,将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,包括:将所述肠道菌群特征数据输入预先建立的LightGBM机器学习模型进行训练。利用GridSearchCV算法和Hyperopt算法对所述LightGBM机器学习模型进行参数调整;利用测试数据对参数调整后的LightGBM机器学习模型进行测试;根据测试的结果,利用AUROC指标对LightGBM机器学习模型进行性能评价。
本实施例中,GridSearchCV(网格搜索)调整参数,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数,这其实是一个循环和比较的过程。LightGBM是比Xgboost更强大、速度更快的模型,性能上有很大的提升,与传统算法相比具有的优点:更快的训练效率、低内存使用、更高的准确率、支持并行化学习、可处理大规模数据。采用Hyperopt对新模型进一步参数调优,Hyperopt是一种通过贝叶斯优化来调整参数的工具,该方法较快的速度,并有较好的效果。此外,Hyperopt结合MongoDB可以进行分布式调参,快速找到相对较优的参数。
本实施例中,采用的是python中的lightgbm包进行LightGBM机器学习构建模型。该模型主要包含两个算法:单边梯度采样(GOSS)和互斥特征绑定(EFB)。GOSS(从减少样本角度):排除大部分小梯度的样本,仅用剩下的样本计算信息增益。每个数据实例有不同的梯度,根据计算信息增益的定义,梯度大的实例对信息增益有更大的影响,因此在采样时,尽量保留梯度大的样本(预先设定阈值,或者最高百分位间),随机去掉梯度小的样本。此措施在相同的采样率下比随机采样获得更准确的结果,尤其是在信息增益范围较大时。EFB(从减少特征角度):捆绑互斥特征,也就是用一个合成特征代替,特别在稀疏特征空间上,许多特征几乎是互斥的(例如许多特征不会同时为非零值)。可以捆绑互斥的特征,将捆绑问题归约到图着色问题,通过贪心算法求得近似解。更具体地,相关参数可以设置如下:
params={'boosting_type':'gbdt','objective':'binary','metric':'auc','nthread':4,'learning_rate':0.1,'num_leaves':30,'max_depth':5,'subsample':0.8,'colsample_bytree':0.8,}
其中,gbdt即梯度提升树,nthread服务器运行的线程,learning_rate即每个弱学习器的权重缩减系数,num_leaves即每个基学习器输出one-hot向量(长度),max_depth即决策树最大深度,subsample即子采样比例,取值范围为(0,1],colsample_bytree即用来控制每颗树随机采样的列数的占比。
本实施例中,GridSearchCV和Hyperopt是python中给的包,本发明在python中安装这些包后,进行参数调优。GridSearchCV的名字其实可以拆分为两部分,GridSearch和CV,即网格搜索和交叉验证。网格搜索,搜索的是参数,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数,这其实是一个训练和比较的过程。Hyperopt是python中的一个用于"分布式异步算法组态/超参数优化"的类库。使用它本发明可以拜托繁杂的超参数优化过程,自动获取最佳的超参数。广泛意义上,可以将带有超参数的模型看作是一个必然的非凸函数,因此hyperopt几乎可以稳定的获取比手工更加合理的调参结果。尤其对于调参比较复杂的模型而言,其更是能以远快于人工调参的速度同样获得远远超过人工调参的最终性能。
本实施例中,AUROC的全称是“接受者操作特征曲线下面积”,往往作为一个评价模型预测能力的指标。在讨论AUROC曲线之前,本发明需要理解混淆矩阵(confusion matrix)的概念。一个二元预测可能有4个结果:本发明预测0,而真实类别是0:这被称为真阴性(TN,True Negative);本发明预测0,而真实类别是1:这被称为假阴性(FN,False Negative);本发明预测1,而真实类别是0:这被称为假阳性(FP,False Positive);本发明预测1,而真实类别是1:这被称为真阳性(TP,True Positive)。当比较两个不同模型的时候,使用单一指标常常比使用多个指标更方便,下面本发明基于混淆矩阵计算两个指标,之后本发明会将这两个指标组合成一个:
真阳性率(TPR),即,灵敏度、命中率、召回,定义为TP/(TP+FN)。这一指标对应被正确识别为阳性的阳性数据点占所有阳性数据点的比例。换句话说,TPR越高,本发明遗漏的阳性数据点就越少。
假阳性率(FPR),即,误检率,定义为FP/(FP+TN)。这一指标对应被误认为阳性的阴性数据点占所有阴性数据点的比例。换句话说,FPR越高,本发明错误分类的阴性数据点就越多。
为了将FPR和TPR组合成一个指标,本发明首先基于不同的阈值(例如:0.00;0.01,0.02,…,1.00)计算前两个指标的逻辑回归,接着将它们绘制为一个图像,其中FPR值为横轴,TPR值为纵轴。得到的曲线为ROC曲线,本发明考虑的指标是该曲线的AUC,称为AUROC。对角虚线为随机预测器的ROC曲线:AUROC为0.5。随机预测器通常用作基线,以检验模型是否有用。AUROC越高,说明模型的预测能力越好。
下面给出一个具体实施例,说明本发明针对稳定型冠心病的急性冠脉综合征风险预测方法的具体应用。
1、临床入组标准:
依据冠状动脉粥样硬化性心脏病的临床特点,将病人分为2组,包括:(1)ST段抬高急性心肌梗死(STEMI,不稳定斑块破裂组,心肌坏死);非ST段抬高急性心肌梗死(NSTEMI,不稳定斑块部分破裂组,心肌少量坏死)和不稳定心绞痛(UAP,斑块濒临破裂或破裂前不稳定组,心肌微量坏死),即ACS组,N=212;(2)稳定性CAD组(斑块稳定组),即stable CAD组,N=213。在临床信息收集的基础上,采集各组人群新鲜或妥善冷冻的粪便,进行肠道宏基因组测序。
研究人群入选标准:稳定性冠心病(陈旧心梗、PCI史、稳定性心绞痛或无临床缺血症状的“健康人”,同时冠脉CT/造影发现有冠脉狭窄病变>50%)。
排除标准:
1)根据国际通用心肌梗死定义诊断为2-5型心肌梗死;
2)严重心力衰竭/心源性休克(Killip>2级或NYHA>2级);
3)存在机械并发症(室间隔穿孔、游离壁破裂、乳头肌断裂等);
4)发病后曾发生心脏骤停和/或心肺复苏;
5)3月内口服或使用静脉任何抗生素≥1周;
6)3月内急性冠状动脉综合征(ACS)或冠状动脉血管重建(包括PCI和CABG);
7)3月内创伤或手术;
8)3月内脑血管病史(包括脑梗死或脑出血);
9)3月内上消化道或下消化道出血;
10)3月内明确感染(包括消化道、呼吸道、体表感染等);
11)慢性肠道疾病(如克劳恩病、溃疡性结肠炎等等);
12)任何肿瘤;
13)风湿免疫性疾病;
14)慢性肾脏疾病,包括肾脏移植术后。
研究对象入选及病例信息收集过程:
(1)知情同意书;
(2)入选/排除标准;
(3)患者生活方式问卷临床资料;
(4)在临床信息收集的基础上,采集各组人群的血液、新鲜或妥善冷冻的粪便,进行组学分析。
本临床研究遵守《世界医学大会赫尔辛基宣言》和国家相关法规的要求实施。本临床研究方案已获阜外医院的医学伦理委员会批准,所有参与实验的临床患者均已签署本项目《知情同意书》。
2、实施方法:
共有425名参与者在国家心血管病中心、中国医学科学院阜外医院参加了本次研究。根据诊断指南和排除标准将其分为以下两组:sCAD组(N=213),ACS组(N=212)。
在患者入院的第二天上午,空腹时间大于10小时的条件下采集病人的血液样本,由阜外医院完成相关临床常规生化指标检测,所有检测均按照国际标准方法进行。同时收集患者粪便样本,并在30分钟内放入干冰保存,并尽快储存在-80℃冰箱中待测。提取DNA,对提取的核酸物质利用琼脂糖凝胶方法进行质量控制。要求DNA总量≥1μg,DNA总浓度≥20ng/μL。对质量合格的样本进行建库,illumina hiseq4000双端测序。获取原始宏基因组双端测序数据后,用Trimmomatic软件对数据进行质量控制,去除低质量序列和接头。并用FastQC软件评价质控后的数据。对质控后的数据,采用MetaPhIAn2软件进行宏基因组物种注释分析。获取癌症患者与正常人肠道菌群的物种的丰度信息后,分析物种多样性,并采用LEfSe(LDA Effect Size)分析组间菌群差异,获得急性冠脉综合征患者肠道菌群的特征,在物种水平建立模型进行预测。采用LightGBM的机器学习方法建模及十乘十交叉验证的方法,将数据随机分成训练集和测试集。首先采用boruta算法进行特征选择。采用GridSearchCV(网格搜索)和Hyperopt不断调整参数,选择最优的参数。重新获取一批从未参与建模的外部数据,将构建好的模型用于预测这批数据,通过AUROC来判断预测模型的好坏。特征的重要性用其对模型的贡献度表示。所有的分析采用Python的scikit-learn包。图2为训练集中的AUROC曲线图,图3为筛到的对模型起重要作用的急性冠脉综合征的生物标志物。
基于同一发明构思,本发明实施例还提供了一种针对稳定型冠心病的急性冠脉综合征风险预测装置,如下面的实施例所述。由于这些解决问题的原理与针对稳定型冠心病的急性冠脉综合征风险预测方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
图4为本发明实施例中针对稳定型冠心病的急性冠脉综合征风险预测装置的结构图,如图4所示,该装置包括:
DNA数据获得模块401,用于获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据;
浓度数据确定模块402,用于利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据;
DNA数据筛选模块403,用于将所述总量数据与总浓度数据与预设阈值进行比较,根据比较的结果对所述粪便样本DNA数据进行筛选;
双端测序处理模块404,用于对筛选出的粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
注释分析模块405,用于对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息;
特征数据确定模块406,用于根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标志物,确定肠道菌群特征数据,所述急性冠脉综合征的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的;
模型训练模块407,用于将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到急性冠脉综合征风险预测模型;
风险预测模块408,用于利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。
一个实施例中,所述注释分析模块进一步用于:
下载肠道菌群数据库,所述肠道菌群数据库包括多个参考基因组,所述参考基因组包括:细菌,古菌,病毒和真核生物;
根据所述肠道菌群数据库,利用MetaPhIAn2软件对肠道菌群宏基因组数据进行物种注释分析,利用HUMAnN2软件对肠道菌群宏基因组数据进行功能注释分析。
一个实施例中,所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的,包括:
所述差异菌相对丰度历史信息是利用LDA Effect Size软件对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的。
一个实施例中,本发明的急性冠脉综合征的生物标志物包括:长双歧杆菌Bifidobacterium longum,咽峡炎链球菌Streptococcus anginosus,产气柯林斯菌Collinsella aerofaciens,陪伴粪球菌Coprococcus comes,普氏栖粪杆菌Faecalibacterium prausnitzii,厌氧棍状菌属Anaerotruncus colihominis,卵形拟杆菌Bacteroides ovatus,脆弱拟杆菌Bacteroides fragilis,霍尔德曼氏菌Holdemaniafiliformis,直肠真杆菌Eubacterium rectale,唾液链球菌Streptococcus salivarius。各生物标志物均为急性冠脉综合征发病风险因素,用于评估急性冠脉综合征发病风险时的特征重要度参见图3。如果某一项或多项生物标志物相比于健康人的表达丰度差异越大,则个体急性冠脉综合征发病风险越高。
图5显示了在本发明的肠道菌群特征因素的基础上,进一步整合传统认为与急性冠脉综合征风险密切相关的总胆固醇水平和年龄因素,所获得的用于对急性冠脉综合征发病风险进行评估的模型的AUROC曲线。将其与图2相比,可以看出,进一步整合总胆固醇水平和年龄因素后,与急性冠脉综合征发病风险的关联强度并没有特别显著地提升,可表明本发明的肠道菌群特征因素可独立于传统临床危险因素(总胆固醇水平和年龄)之外用于评估针对稳定型冠心病的急性冠脉综合征发病风险。
综上所述,本发明实施例通过获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据;利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据;将所述总量数据与总浓度数据与预设阈值进行比较,根据比较的结果对所述粪便样本DNA数据进行筛选;对筛选出的粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息;根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标志物,确定肠道菌群特征数据,所述急性冠脉综合征的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的;将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到急性冠脉综合征风险预测模型;利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。本发明实施例充分考虑到急性冠脉综合征患者的肠道菌群特征,利用机器学习算法从复杂、繁冗的生物大数据中筛选可用于预测及监测急性冠脉综合征风险的、无创的生物标志物,提高预测准确率,弥补了急性冠脉综合征临床预警的空白。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.检测个体信息的试剂在制备针对稳定型冠心病的急性冠脉综合征风险评估装置中的应用,其中,所述个体信息包括肠道菌群信息,所述肠道菌群包括:
长双歧杆菌(Bifidobacterium longum),
咽峡炎链球菌(Streptococcus anginosus),
陪伴粪球菌(Coprococcus comes),
产气柯林斯菌(Collinsella aerofaciens),
普氏栖粪杆菌(Faecalibacterium prausnitzii),
卵形拟杆菌(Bacteroides ovatus),
厌氧棍状菌属(Anaerotruncus colihominis),
脆弱拟杆菌(Bacteroides fragilis),
霍尔德曼氏菌(Holdemania filiformis),
直肠真杆菌(Eubacterium rectale),以及
唾液链球菌(Streptococcus salivarius)。
2.根据权利要求1所述的应用,其中,所述肠道菌群中各菌在评估针对稳定型冠心病的急性冠脉综合征风险时的特征重要度,长双歧杆菌(Bifidobacterium longum)﹥咽峡炎链球菌(Streptococcus anginosus)﹥陪伴粪球菌(Coprococcus comes)=产气柯林斯菌(Collinsella aerofaciens)﹥普氏栖粪杆菌(Faecalibacterium prausnitzii)﹥卵形拟杆菌(Bacteroides ovatus)=厌氧棍状菌属(Anaerotruncus colihominis)﹥脆弱拟杆菌(Bacteroides fragilis)﹥霍尔德曼氏菌(Holdemania filiformis)﹥直肠真杆菌(Eubacterium rectale)=唾液链球菌(Streptococcus salivarius)。
3.根据权利要求1所述的应用,其中,所述肠道菌群中各菌在评估针对稳定型冠心病的急性冠脉综合征风险时,所述肠道菌群中各菌按照以下特征重要度数值确定权重,或者,所述肠道菌群中各菌的权重比值为:
长双歧杆菌(Bifidobacterium longum),13;
咽峡炎链球菌(Streptococcus anginosus),11;
陪伴粪球菌(Coprococcus comes),10;
产气柯林斯菌(Collinsella aerofaciens),10;
普氏栖粪杆菌(Faecalibacterium prausnitzii),9;
卵形拟杆菌(Bacteroides ovatus),8;
厌氧棍状菌属(Anaerotruncus colihominis),8;
脆弱拟杆菌(Bacteroides fragilis),7;
霍尔德曼氏菌(Holdemania filiformis),6;
直肠真杆菌(Eubacterium rectale),4;
唾液链球菌(Streptococcus salivarius),4。
4.根据权利要求1所述的应用,其中,所述个体信息还包括总胆固醇水平、年龄中的一项或多项。
5.根据权利要求1-4任一项所述的应用,其中,所述个体来自东亚人群。
6.一种针对稳定型冠心病的急性冠脉综合征风险评估装置,其包括检测单元和数据分析单元,其中:
所述检测单元用于检测个体信息,获得检测结果;其中,所述个体信息同权利要求1或4中所述个体信息;
所述数据分析单元用于对检测单元的检测结果进行分析处理。
7.根据权利要求6所述的针对稳定型冠心病的急性冠脉综合征风险评估装置,其中,所述检测单元包括检测粪便样本DNA数据的试剂材料;
优选地,所述检测单元按照以下操作进行检测并获得检测结果:
检测粪便样本,获得DNA数据;
利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据;
优选地,所述数据分析单元用于对检测单元的检测结果进行分析处理的过程包括:
将所述总量数据与总浓度数据与预设阈值进行比较,根据比较的结果对所述粪便样本DNA数据进行筛选;
对筛选出的粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到肠道菌群中各菌的相对丰度信息;
根据所述相对丰度信息,确定肠道菌群特征数据;
更优选地,对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,包括:
下载肠道菌群数据库,所述肠道菌群数据库包括多个参考基因组,所述参考基因组包括:细菌,古菌,病毒和真核生物;
根据所述肠道菌群数据库,利用MetaPhIAn2软件对肠道菌群宏基因组数据进行物种注释分析,利用HUMAnN2软件对肠道菌群宏基因组数据进行功能注释分析。
8.根据权利要求6所述的针对稳定型冠心病的急性冠脉综合征风险评估装置,其中,该装置包括:
DNA数据获得模块,用于获得粪便样本DNA数据;
浓度数据确定模块,用于利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据;
DNA数据筛选模块,用于将所述总量数据与总浓度数据与预设阈值进行比较,根据比较的结果对所述粪便样本DNA数据进行筛选;
双端测序处理模块,用于对筛选出的粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
注释分析模块,用于对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到肠道菌群中各菌的相对丰度信息;
特征数据确定模块,用于根据所述相对丰度信息确定肠道菌群特征数据;
优选地,所述数据分析单元对检测单元的检测结果进行分析处理时,包括:将个体信息的检测结果配以权重系数,以计算所述待测个体的风险评估得分;
其中,所述肠道菌群中各菌的特征重要度,长双歧杆菌(Bifidobacterium longum)﹥咽峡炎链球菌(Streptococcus anginosus)﹥陪伴粪球菌(Coprococcus comes)=产气柯林斯菌(Collinsella aerofaciens)﹥普氏栖粪杆菌(Faecalibacterium prausnitzii)﹥卵形拟杆菌(Bacteroides ovatus)=厌氧棍状菌属(Anaerotruncus colihominis)﹥脆弱拟杆菌(Bacteroides fragilis)﹥霍尔德曼氏菌(Holdemania filiformis)﹥直肠真杆菌(Eubacterium rectale)=唾液链球菌(Streptococcus salivarius);
优选地,所述肠道菌群中各菌按照以下特征重要度数值确定权重,或者,所述肠道菌群中各菌的权重比值为:
长双歧杆菌(Bifidobacterium longum),13;
咽峡炎链球菌(Streptococcus anginosus),11;
陪伴粪球菌(Coprococcus comes),10;
产气柯林斯菌(Collinsella aerofaciens),10;
普氏栖粪杆菌(Faecalibacterium prausnitzii),9;
卵形拟杆菌(Bacteroides ovatus),8;
厌氧棍状菌属(Anaerotruncus colihominis),8;
脆弱拟杆菌(Bacteroides fragilis),7;
霍尔德曼氏菌(Holdemania filiformis),6;
直肠真杆菌(Eubacterium rectale),4;
唾液链球菌(Streptococcus salivarius),4。
9.一种计算机设备,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现:基于待测个体信息获得个体针对稳定型冠心病的急性冠脉综合征风险评估结果;
其中,所述个体信息同权利要求1至4中任一所述个体信息。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现:基于待测个体信息获得个体针对稳定型冠心病的急性冠脉综合征风险评估结果;
其中,所述个体信息同权利要求1-4中任一项所述个体信息。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110157590.9A CN112509635A (zh) | 2021-02-05 | 2021-02-05 | 针对稳定型冠心病的急性冠脉综合征风险预测方法及装置 |
CN2021101575909 | 2021-02-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114438165A true CN114438165A (zh) | 2022-05-06 |
CN114438165B CN114438165B (zh) | 2023-11-21 |
Family
ID=74952714
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110157590.9A Pending CN112509635A (zh) | 2021-02-05 | 2021-02-05 | 针对稳定型冠心病的急性冠脉综合征风险预测方法及装置 |
CN202210116105.8A Active CN114438165B (zh) | 2021-02-05 | 2022-01-30 | 针对稳定型冠心病的急性冠脉综合征风险评估标志物及应用 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110157590.9A Pending CN112509635A (zh) | 2021-02-05 | 2021-02-05 | 针对稳定型冠心病的急性冠脉综合征风险预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN112509635A (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022166934A1 (zh) * | 2021-02-05 | 2022-08-11 | 中国医学科学院阜外医院 | 心血管病发病风险评估肠道菌群标志物及其应用 |
CN112509635A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 针对稳定型冠心病的急性冠脉综合征风险预测方法及装置 |
CN113113131B (zh) * | 2021-03-24 | 2024-02-13 | 南京途博科技有限公司 | 死亡风险预测模型的生成方法、终端及计算机存储介质 |
CN114974581A (zh) * | 2022-04-26 | 2022-08-30 | 重庆市急救医疗中心(重庆市第四人民医院、重庆市急救医学研究所) | 高血糖危象长期死亡风险预测与评估方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111430027A (zh) * | 2020-03-18 | 2020-07-17 | 浙江大学 | 基于肠道微生物的双相情感障碍生物标志物及其筛选应用 |
CN111440884A (zh) * | 2020-04-22 | 2020-07-24 | 中国医学科学院北京协和医院 | 源于肠道的诊断肌少症的菌群及其用途 |
CN112509635A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 针对稳定型冠心病的急性冠脉综合征风险预测方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190371426A1 (en) * | 2016-12-28 | 2019-12-05 | Ascus Biosciences, Inc. | Methods, apparatuses, and systems for analyzing microorganism strains in complex heterogeneous communities, determining functional relationships and interactions thereof, and diagnostics and biostate management and biostate temporal forecasting based thereon |
CN111505288B (zh) * | 2020-05-15 | 2022-03-01 | 重庆医科大学 | 一种新的抑郁症生物标志物及其应用 |
-
2021
- 2021-02-05 CN CN202110157590.9A patent/CN112509635A/zh active Pending
-
2022
- 2022-01-30 CN CN202210116105.8A patent/CN114438165B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111430027A (zh) * | 2020-03-18 | 2020-07-17 | 浙江大学 | 基于肠道微生物的双相情感障碍生物标志物及其筛选应用 |
CN111440884A (zh) * | 2020-04-22 | 2020-07-24 | 中国医学科学院北京协和医院 | 源于肠道的诊断肌少症的菌群及其用途 |
CN112509635A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 针对稳定型冠心病的急性冠脉综合征风险预测方法及装置 |
Non-Patent Citations (1)
Title |
---|
韦智鑫: "基于扩增子测序数据的样本分类算法及其标志物发现研究", 中国优秀硕士学位论文全文数据库医药卫生科技辑 * |
Also Published As
Publication number | Publication date |
---|---|
CN114438165B (zh) | 2023-11-21 |
CN112509635A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114292931B (zh) | 急性冠脉综合征的风险评估标志物及其应用 | |
CN114438165A (zh) | 针对稳定型冠心病的急性冠脉综合征风险评估标志物及应用 | |
Blanco-Míguez et al. | Extending and improving metagenomic taxonomic profiling with uncharacterized species using MetaPhlAn 4 | |
CN114360726B (zh) | 稳定型冠心病发病风险评估标志物及其应用 | |
JP6681337B2 (ja) | 敗血症の発症を予測するための装置、キット及び方法 | |
CN105296590B (zh) | 大肠癌标志物及其应用 | |
US9238841B2 (en) | Multi-biomarker-based outcome risk stratification model for pediatric septic shock | |
CN111430027A (zh) | 基于肠道微生物的双相情感障碍生物标志物及其筛选应用 | |
CN105132518B (zh) | 大肠癌标志物及其应用 | |
JP2013513387A (ja) | 循環器疾患の診断と分類のためのバイオマーカーアッセイ | |
CN107075453B (zh) | 冠状动脉疾病的生物标记物 | |
CN111505288A (zh) | 一种新的抑郁症生物标志物及其应用 | |
CN110838365A (zh) | 肠易激综合症相关菌群标志物及其试剂盒 | |
WO2021163692A1 (en) | Rna sequencing to diagnose sepsis | |
Kayvanpour et al. | microRNA neural networks improve diagnosis of acute coronary syndrome (ACS) | |
de Gonzalo-Calvo et al. | Improved cardiovascular risk prediction in patients with end-stage renal disease on hemodialysis using machine learning modeling and circulating microribonucleic acids | |
CN115873956A (zh) | 用于预测受试者患有结直肠癌风险的试剂盒、系统、应用和预测模型的建模方法 | |
CN116913382A (zh) | 一种基于微生物组测序数据预测肠道年龄指数的人工智能模型和方法 | |
EP3746571B1 (en) | Use of cfdna fragments as biomarkers in patients after organ transplantation | |
WO2022166934A1 (zh) | 心血管病发病风险评估肠道菌群标志物及其应用 | |
US20240194294A1 (en) | Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same | |
Xu et al. | Identification of a novel peripheral blood signature diagnosing subclinical acute rejection after renal transplantation | |
CN105733988B (zh) | 组合物及应用 | |
CN110396538A (zh) | 偏头痛生物标志物及其用途 | |
CN114317725A (zh) | 克罗恩病生物标志物、试剂盒及生物标志物的筛选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |