CN116543899A - 一种慢性肾病微生物标志物的应用和风险预测模型及其构建方法 - Google Patents
一种慢性肾病微生物标志物的应用和风险预测模型及其构建方法 Download PDFInfo
- Publication number
- CN116543899A CN116543899A CN202310305184.1A CN202310305184A CN116543899A CN 116543899 A CN116543899 A CN 116543899A CN 202310305184 A CN202310305184 A CN 202310305184A CN 116543899 A CN116543899 A CN 116543899A
- Authority
- CN
- China
- Prior art keywords
- kidney disease
- chronic kidney
- model
- risk prediction
- ruminococcus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000020832 chronic kidney disease Diseases 0.000 title claims abstract description 88
- 238000013058 risk prediction model Methods 0.000 title claims abstract description 27
- 239000003550 marker Substances 0.000 title claims abstract description 23
- 244000005700 microbiome Species 0.000 title abstract description 11
- 238000010276 construction Methods 0.000 title abstract description 9
- 230000000813 microbial effect Effects 0.000 claims abstract description 40
- 238000012360 testing method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000010801 machine learning Methods 0.000 claims abstract description 12
- 238000003745 diagnosis Methods 0.000 claims abstract description 11
- 230000002550 fecal effect Effects 0.000 claims abstract description 7
- 238000009472 formulation Methods 0.000 claims abstract description 6
- 239000000203 mixture Substances 0.000 claims abstract description 6
- 238000007637 random forest analysis Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 15
- 238000012163 sequencing technique Methods 0.000 claims description 13
- 241000186394 Eubacterium Species 0.000 claims description 10
- 241000588769 Proteus <enterobacteria> Species 0.000 claims description 7
- 241000193403 Clostridium Species 0.000 claims description 6
- 241000318403 Houstonia Species 0.000 claims description 4
- 210000000664 rectum Anatomy 0.000 claims description 4
- 241000203751 Gordonia <actinomycete> Species 0.000 claims description 3
- 241000235395 Mucor Species 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- UBCKGWBNUIFUST-YHYXMXQVSA-N tetrachlorvinphos Chemical compound COP(=O)(OC)O\C(=C/Cl)C1=CC(Cl)=C(Cl)C=C1Cl UBCKGWBNUIFUST-YHYXMXQVSA-N 0.000 claims description 3
- 241000589562 Brucella Species 0.000 claims description 2
- 241000186216 Corynebacterium Species 0.000 claims description 2
- 241000043362 Megamonas Species 0.000 claims description 2
- 238000011529 RT qPCR Methods 0.000 claims description 2
- 241000192031 Ruminococcus Species 0.000 claims 7
- 241000590020 Achromobacter Species 0.000 claims 1
- 241001101265 Enteromonas Species 0.000 claims 1
- 241000186429 Propionibacterium Species 0.000 claims 1
- 241000606009 Ruminobacter Species 0.000 claims 1
- 241000243774 Trichinella Species 0.000 claims 1
- 241000196252 Ulva Species 0.000 claims 1
- 238000003556 assay Methods 0.000 claims 1
- 229910000366 copper(II) sulfate Inorganic materials 0.000 claims 1
- JZCCFEFSEZPSOG-UHFFFAOYSA-L copper(II) sulfate pentahydrate Chemical compound O.O.O.O.O.[Cu+2].[O-]S([O-])(=O)=O JZCCFEFSEZPSOG-UHFFFAOYSA-L 0.000 claims 1
- 230000000968 intestinal effect Effects 0.000 abstract description 30
- 230000035945 sensitivity Effects 0.000 abstract description 9
- 241001202853 Blautia Species 0.000 abstract description 4
- 239000000090 biomarker Substances 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 abstract description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 25
- 201000010099 disease Diseases 0.000 description 22
- 241000219053 Rumex Species 0.000 description 12
- 230000000694 effects Effects 0.000 description 9
- 241000894007 species Species 0.000 description 9
- 238000013103 analytical ultracentrifugation Methods 0.000 description 8
- 238000012216 screening Methods 0.000 description 8
- 241000894006 Bacteria Species 0.000 description 7
- 241001657508 Eggerthella lenta Species 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 208000017169 kidney disease Diseases 0.000 description 5
- 241001531192 Eubacterium ventriosum Species 0.000 description 4
- 241001486261 Gordonibacter pamelaeae Species 0.000 description 4
- 241001134642 Lachnospira pectinoschiza Species 0.000 description 4
- 241000096799 Megamonas funiformis Species 0.000 description 4
- 241000872831 Roseburia faecis Species 0.000 description 4
- 241000398180 Roseburia intestinalis Species 0.000 description 4
- 241000062639 Ruminococcus bicirculans Species 0.000 description 4
- 241000190045 Ruthenibacterium lactatiformans Species 0.000 description 4
- 241000193462 [Clostridium] innocuum Species 0.000 description 4
- 241001531188 [Eubacterium] rectale Species 0.000 description 4
- 241001464867 [Ruminococcus] gnavus Species 0.000 description 4
- 241001464870 [Ruminococcus] torques Species 0.000 description 4
- 230000001580 bacterial effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 241000605861 Prevotella Species 0.000 description 3
- 241000385060 Prevotella copri Species 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004393 prognosis Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 241000588914 Enterobacter Species 0.000 description 2
- 241000235649 Kluyveromyces Species 0.000 description 2
- 241000232299 Ralstonia Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 208000022831 chronic renal failure syndrome Diseases 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 208000035475 disorder Diseases 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000003907 kidney function Effects 0.000 description 2
- 230000004682 mucosal barrier function Effects 0.000 description 2
- 230000003449 preventive effect Effects 0.000 description 2
- 241000319947 Anaerotignum lactatifermentans Species 0.000 description 1
- 241000514947 Bacteroides galacturonicus Species 0.000 description 1
- 241001038648 Blautia wexlerae Species 0.000 description 1
- FERIUCNNQQJTOY-UHFFFAOYSA-M Butyrate Chemical compound CCCC([O-])=O FERIUCNNQQJTOY-UHFFFAOYSA-M 0.000 description 1
- FERIUCNNQQJTOY-UHFFFAOYSA-N Butyric acid Natural products CCCC(O)=O FERIUCNNQQJTOY-UHFFFAOYSA-N 0.000 description 1
- 241000193174 Butyrivibrio crossotus Species 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 241000131009 Copris Species 0.000 description 1
- 241000949098 Coprococcus comes Species 0.000 description 1
- 241001464949 Coprococcus eutactus Species 0.000 description 1
- 241001535083 Dialister Species 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 241001657509 Eggerthella Species 0.000 description 1
- 241000206227 Eisenbergiella massiliensis Species 0.000 description 1
- 241000186588 Erysipelatoclostridium ramosum Species 0.000 description 1
- 101100519138 Escherichia coli pcoA gene Proteins 0.000 description 1
- 241001531190 Eubacterium ramulus Species 0.000 description 1
- 241000605980 Faecalibacterium prausnitzii Species 0.000 description 1
- 241000164875 Firmicutes bacterium Species 0.000 description 1
- 241001134569 Flavonifractor plautii Species 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 241000605956 Fusobacterium mortiferum Species 0.000 description 1
- 206010019860 Hereditary angioedema Diseases 0.000 description 1
- 241001674997 Hungatella hathewayi Species 0.000 description 1
- 208000005016 Intestinal Neoplasms Diseases 0.000 description 1
- 206010024453 Ligament sprain Diseases 0.000 description 1
- 241000135617 Monoglobus pectinilyticus Species 0.000 description 1
- 206010029164 Nephrotic syndrome Diseases 0.000 description 1
- 241000566145 Otus Species 0.000 description 1
- 241000260425 Parasutterella excrementihominis Species 0.000 description 1
- 241001410206 Protella Species 0.000 description 1
- 241000605947 Roseburia Species 0.000 description 1
- 241000123754 Ruminococcus callidus Species 0.000 description 1
- 241001601862 Sellimonas intestinalis Species 0.000 description 1
- 208000010040 Sprains and Strains Diseases 0.000 description 1
- 241001147795 Tyzzerella nexilis Species 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 241001147796 [Clostridium] spiroforme Species 0.000 description 1
- 241001531273 [Eubacterium] eligens Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 244000052616 bacterial pathogen Species 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000007661 gastrointestinal function Effects 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 230000002757 inflammatory effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 201000002313 intestinal cancer Diseases 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 208000009928 nephrosis Diseases 0.000 description 1
- 231100001027 nephrosis Toxicity 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008855 peristalsis Effects 0.000 description 1
- 239000006041 probiotic Substances 0.000 description 1
- 235000018291 probiotics Nutrition 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 239000003053 toxin Substances 0.000 description 1
- 231100000765 toxin Toxicity 0.000 description 1
- 108700012359 toxins Proteins 0.000 description 1
- 239000002441 uremic toxin Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种慢性肾病微生物标志物的应用和风险预测模型及其构建方法,涉及微生物技术领域;一种检测微生物标志物制剂在制备检测慢性肾病产品中的应用,所述微生物标志物包括普氏菌属、粪罗斯氏菌属、迟缓埃格特菌属和布劳特氏属菌属。慢性肾病风险预测模型的构建方法,包括以下步骤:S1,分别获取健康个体和慢性肾病患者的粪便样本中所述的微生物标志物的丰度,构建样本集;S2,将所述样本集输入机器学习模型,训练模型并测试,存储得到慢性肾病风险预测模型。本发明通过检测微生物标志物的丰度可预测慢性肾病的阳性概率,其预测精确度高,灵敏性好,可作为慢性肾病的辅助诊断手段,并指导肠道菌群环境改善方向。
Description
技术领域
本发明属于微生物技术领域,具体涉及一种慢性肾病微生物标志物的应用和风险预测模型及其构建方法。
背景技术
新社会的发展带来人们的生活方式的变化,在快节奏的生活中使得人们容易忽视自身的健康,降低了对于一些早期“隐性”的慢性病警惕,比如慢性肾脏疾病(Chronickidney disease,CKD)。目前,CKD发病率在急剧增加,其致死率也会随着肾功能下降而增加,已然成为严重影响国人健康的重要公共卫生问题,急需有效并且可普及的预防治疗手段与技术。CKD往往不容易早期发现,甚至漏诊,其原因有三:一是CKD可以完全没有症状或症状不明显;二是,人们防未病的意识浅薄与部分医生缺乏足够的经验;三是目前检查肾功能的各种方法都存在一定局限性,缺乏早期敏感指标,不能更早期地对慢性肾病进行诊断。因此,迫切需要新的CKD诊断或筛查方法,以提高该人群的早期诊断率和预后效果。
近几年,大量的科研工作发现慢性肾功能衰竭患者容易出现胃肠功能和肠道微生态的紊乱;一方面,慢性肾功能衰竭患者常出现肠道蠕动功能下降,容易使蛋白质和氨基酸等营养物质在肠道内潴留;另一方面,慢性肾脏病患者结肠中的肠道菌群的数量、结构、功能均发生明显改变,表现为益生菌减少不能产生粘膜屏障保护因子,如产丁酸盐菌群(Faecalibacterium prausnitzii、Eubacterium等梭菌属)减少而致病菌增加产生了多种粘膜屏障损伤因子和致炎症因子。慢性肾脏病肠道菌群发生紊乱后,其代谢产物(尿毒症毒素)是疾病进展的重要因素。中国农业大学任发政院士及其团队发现并验证了肠道菌群对毒素累积和肾脏疾病表型的影响,揭示了患者肠道菌群失调与代谢紊乱和肾病临床表型之间的关系。鉴于CKD患者的肠道中的菌群含量在不同阶段(阶段1-5)表现的含量是不同的,肠道菌群的丰度变化可以作为判断是否患病的重要指标。这些指标或许可作为慢性肾病的微生物标志物,通过检测微生物标志物作为辅助诊断,以提高人群的早期诊断率和预后效果。
随着肠道菌群相关研究的增加,已产生了海量的微生物测序数据。随机森林算法作为机器学习的一大分支经常被用来构建疾病的分类模型与筛选核心的标志物,比如2020年《Advanced Science》上发表的一项研究就基于随机森林获得的5个OTU作为非侵入性标志物,模型很好地区分了患者与对照,但这项研究并没有具体到具体的物种水平。事实上菌种级别的16S片段的序列是非常接近的,会存在区分不清的情况,尽管属分类及以上的细分则较为准确,但是不精确的注释使大多数标志物适用于16S测序上,在宏基因组或者其他定量菌类丰度的方法上的通用性不强。同时,由于领域内的研究队列之间的独立性以及地域性,导致了当前一些疾病研究中存在着预测方法准确度低、模型算法单一以及模型适用性局限等问题。此外,CN109943636A公开了一种结直肠癌的微生物标志物,其成果展示了机器学习Xgboost算法在基于菌群丰度的疾病预测模型中的优越性;CN113736896A也应用了Xgboost算法,获得了遗传性血管性水肿疾病预测模型,其成果也展示了该方法在微生物丰度数据中的适用性、可行性。但在慢性肾病中,目前并没有基于物种丰度信息的Xgboost模型。综上所述,基于随机森林与XGBoost算法相结合构建一种特异性好、灵敏度高的混合机器学习模型,并能指示肠道细菌含量平衡状态、指导肠道菌群调节的慢性肾病微生物标志物具有重要意义。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种检测微生物标志物制剂在制备检测慢性肾病产品中的应用,通过检测微生物标志物的丰度可预测慢性肾病的阳性概率,其预测精确度高,灵敏性好,可作为慢性肾病的辅助诊断手段,并指导肠道菌群环境改善方向,适用于非侵入性的慢性肾病早期筛查与风险预警。
本发明的目的之二在于提供一种检测微生物标志物的制剂。
本发明的目的之三在于提供一种慢性肾病诊断的试剂盒。
本发明的目的之四在于提供一种慢性肾病风险预测模型的构建方法,采用微生物标志物的丰度数据构建慢性肾病风险预测模型,有助于协助诊断或预警慢性肾病的患病概率,可用于慢性肾病的早期筛查、辅助诊断和预后。
本发明的目的之五在于提供一种慢性肾病风险预测模型。
本发明的目的之一采用如下技术方案实现:
一种检测微生物标志物制剂在制备检测慢性肾病制剂中的应用,所述微生物标志物包括普氏菌属(Prevotella copri)、粪罗斯氏菌属(Roseburia faecis)、迟缓埃格特菌属(Eggerthella lenta)和布劳特氏属菌属(Blautia wexlerae)。
进一步地,所述微生物标志物还包括直肠真杆菌属(Eubacterium rectale)、凸腹真杆菌属(Eubacterium ventriosum)、裂果胶毛螺菌属(Lachnospira pectinoschiza)、二环瘤胃球菌属(Ruminococcus bicirculans)、哺乳型钌杆菌属(Ruthenibacteriumlactatiformans)、棒状戈登菌属(Gordonibacter pamelaeae)、无害梭状芽孢杆菌属(Clostridium innocuum)、活泼瘤胃球菌属(Ruminococcus gnavus)、肠道罗斯拜瑞氏菌属(Roseburia intestinalis)、单形巨单胞菌属(Megamonas funiformis)和扭链瘤胃球菌属(Ruminococcus torques)中的任一种或两种以上的组合。
进一步地,所述微生物标志物包括普氏菌属(Prevotella copri)、粪罗斯氏菌属(Roseburia faecis)、迟缓埃格特菌属(Eggerthella lenta)、布劳特氏属菌属(Blautiawexlerae)、直肠真杆菌属(Eubacterium rectale)、凸腹真杆菌属(Eubacteriumventriosum)、裂果胶毛螺菌属(Lachnospira pectinoschiza)、二环瘤胃球菌属(Ruminococcus bicirculans)、哺乳型钌杆菌属(Ruthenibacterium lactatiformans)、棒状戈登菌属(Gordonibacter pamelaeae)、无害梭状芽孢杆菌属(Clostridium innocuum)、活泼瘤胃球菌属(Ruminococcus gnavus)、肠道罗斯拜瑞氏菌属(Roseburiaintestinalis)、单形巨单胞菌属(Megamonas funiformis)和扭链瘤胃球菌属(Ruminococcus torques)。
本发明的目的之二采用如下技术方案实现:
一种检测微生物标志物的制剂,所述检测微生物标志物制剂用于检测粪便样本中所述的微生物标志物的丰度。
本发明的目的之三采用如下技术方案实现:
一种慢性肾病诊断的试剂盒,包括所述的检测微生物标志物的制剂。
本发明的目的之四采用如下技术方案实现:
一种慢性肾病风险预测模型的构建方法,包括以下步骤:
S1,分别获取健康个体和慢性肾病患者的粪便样本中所述应用中所述的微生物标志物的丰度,构建样本集;
S2,将所述样本集输入机器学习模型,训练模型并测试,存储得到慢性肾病风险预测模型。
进一步地,步骤S1中,所述丰度的测定方法包括宏基因组测序、16S测序、18S测序、ITS测序和qPCR定量检测中的任一种或两种以上的组合。
进一步地,步骤S2中,所述机器学习模型为随机森林模型和/或XGBoost模型。
进一步地,步骤S2中,具体操作为:
(1)将所述样本集按照(6-8):(2-4)的比例划分为训练集和测试集;
(2)将所述训练集和测试集输入随机森林模型中进行训练和预测,得到第一预测结果;
(3)将所述训练集和测试集输入XGBoost模型中进行训练和预测,得到第二预测结果;
(4)将所述第一预测结果和第二预测结果输入组合模型中,得到分类预测结果,构建出慢性肾病风险预测模型;所述组合模型的预测结果计算公式如下:
AUC=(AUC1*probability1+AUC2*probability2)/2
式中,AUC表示的是组合模型的AUC值,AUC1表示的是随机森林模型的内部测试AUC值,probability1则表示当前样本在随机森林模型中的预测概率值,AUC2表示的是XGBoost模型的内部测试AUC值,probability2则表示当前样本在XGBoost模型中的预测概率值。
本发明的目的之五采用如下技术方案实现:
一种慢性肾病风险预测模型,由所述的慢性肾病风险预测模型的构建方法构建而成。
相比现有技术,本发明的有益效果在于:
本发明的一种检测微生物标志物制剂在制备检测慢性肾病产品中的应用,采用所述普氏菌属、粪罗斯氏菌属、迟缓埃格特菌属和布劳特氏属菌属的组合作为微生物标志物,能有效预测预测慢性肾病的阳性概率,预测精确度高,灵敏性好,可作为慢性肾病的辅助诊断手段。此外,可通过微生物标志物指示肠道菌群的状况,指导肠道微生态的调整,提高慢性肾病的治疗疗效。
本发明的一种检测微生物标志物的制剂,可非侵入性地检测微生物标志物的丰度。
本发明的一种慢性肾病诊断的试剂盒,作为经济的、非侵入性的、高效的、准确的慢性肾病早期筛查和诊断产品。
本发明的一种慢性肾病风险预测模型的构建方法,采用微生物标志物的丰度数据构建慢性肾病风险预测模型,有助于协助诊断或预警慢性肾病的患病概率,可用于慢性肾病的早期筛查、辅助诊断和预后。
本发明的一种慢性肾病风险预测模型,可预测慢性肾病的患病风险,具有较高的特异性和灵敏度。
附图说明
图1是本发明的一种慢性肾病风险预测模型的研究方案示意图。
图2是本发明的实施例1中分组合理性评估图。
图3是本发明的实施例2中分类器模型框架图。
图4是本发明的实施例2中38个菌群样本集在XGBoost模型中得到的重要性分数图。
图5是本发明的实施例2中测试集的ROC-AUC值的走向图。
图6是本发明的实施例2中组合模型的预测结果图。
图7是本发明的实施例2中测试样本的概率分布图;其中,N为健康组人群,Y为疾病组人群。
图8是本发明的实施例3中组合模型的预测结果图。
图9是本发明的实施例3中测试样本的概率分布图,其中,N为健康组人群,Y为疾病组人群。
具体实施方式
下面,结合具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
实施例1
微生物标志物的筛选,具体的方法如下:
(1)从NCBI(National Center for Biotechnology Information)数据库获取样本集,其中包括了慢性肾病和健康人群的肠道菌群的宏基因组测序数据,如图1所示,样本集人数包括了233例慢性肾病患者和69例健康人群。
(2)对健康人群与肾病患者肠道粪便样本采集并且建库测序,获得肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,形成样本集。
(3)将健康组、慢性肾病组分别按照50%的比例拆分,然后拆分的健康组各自与拆分的慢性肾病组进行组合,成为两个数据集分组(记为A组和B组),每个分组均包含约50%的健康人群与慢性肾病人群,如A组包括117例慢性肾病患者,34例健康人群;B组包括116例慢性肾病患者,35例健康人群。
对上述的分组进行合理性评估:基于物种丰度进行主坐标分析(PrincipalCoordinate Analysis,PcoA),利用维度坐标分布特征进行PERMANOVA检验,得到分组信息合理性评估指标。
主坐标分析(Principal Coordinate Analysis,PcoA)是一种将多维数据进行降维以研究数据相似性或差异性的可视化方法,可以对分组样本之间的关系进行描述。如图2所示,PCoA的二维可视化图与PERMANOVA检验形象的展示了两组样本之间不存在显著的差异(p-value值大于0.05),这说明了本实施例的两组样本分配合理,不存在类似批次效应的影响。
(4)对步骤(3)得到的组别分别采用LEfSe进行分析,获取每个组别中与疾病存在关联的微生物物种。
LEfSe(Linear discriminant analysis Effect Size)通过将用于统计显着性的标准检验与编码生物一致性和效果相关性的检验相结合,确定最有可能解释类别之间差异的特征,从而找到组间在丰度上有显著差异的物种(即生物标志物)。基于LEfSe分析,本发明中共优选出38个潜在的有价值的细菌;分别为Bacteroides galacturonicus,Butyrivibrio crossotus,Coprococcus comes,Coprococcus eutactus,Dialister spCAG_357,Eubacterium eligens,Eubacterium ramulus,Eubacterium rectale,Eubacterium ventriosum,Lachnospira pectinoschiza,Megamonas funiformis,Parasutterella excrementihominis,Prevotella copri,Prevotella sp AM42_24,Prevotella sp CAG_279,Roseburia faecis,Roseburia intestinalis,Ruminococcusbicirculans,Ruminococcus callidus,Ruminococcus torques,Anaerotignumlactatifermentans,Blautia sp CAG_257,Blautia wexlerae,Clostridium innocuum,Clostridium spiroforme,Eggerthella lenta,Eisenbergiella massiliensis,Erysipelatoclostridium ramosum,Firmicutes bacterium CAG_145,Flavonifractorplautii,Fusobacterium mortiferum,Gordonibacter pamelaeae,Hungatellahathewayi,Monoglobus pectinilyticus,Ruminococcus gnavus,Ruthenibacteriumlactatiformans,Sellimonas intestinalis和Tyzzerella nexilis。
实施例2
微生物标志物的确定和模型的构建
本发明利用随机森林模型与XGBoost模型进行组合构建出一种机器学习组合模型,并运用机器学习挑选适配的预测模型,监督学习为通过一部分输入数据和输出数据之间的相应关系,生成函数,将输入映射到合适的输出,比如分类。本发明的样本数据都已在临床确诊,带有已分类好的标签,因此将在有监督的机器学习分类模型中进行探索选择。本实施例分别将所有样本的细菌丰度值作为输入数据,样本的诊断结果作为输出分类标签。具体根据以下步骤进行算法构建:
(1)如图1所示,将实施例1中样本集随机分成占样本集人数70%的训练集和占样本集人数30%的测试集;
(2)如图3所示,利用随机森林模型与XGBoost模型构建机器学习分类器模型;采用实施例1中所有具有潜在价值的微生物物种(38个)的丰度值作为输入数据;
(3)丰度数据表输入做了交叉验证处理的随机森林模型与XGBoost模型中进行训练与测试,获得最优的结果输出;
(4)上述步骤(3)中的XGBoost模型可以得到变量特征的重要性分数图,如图4所示,根据该分数的高低排序,逐步增加细菌变量个数;
(5)采用样本集中上述微生物物种的丰度重新作为输入数据,重复步骤(1)和步骤(3)操作200次,得到多个随机森林模型获得的第一预测结果和XGBoost模型获得的第二预测结果,构建受试者操作特性曲线(ROC曲线),第一预测结果和第二预测结果输入组合模型中,计算平均测试集的ROC曲线的曲线下方面积(AUC),得到分类预测结果;
其中曲线下方面积采用组合模型进行计算,计算公式如下:
AUC=(AUC1*probability1+AUC2*probabiriry2)/2
其中,AUC1表示的是随机森林模型的内部测试AUC值,probability1则表示当前样本在随机森林模型中的预测概率值,AUC2表示的是XGBoost模型的内部测试AUC值,probability2则表示当前样本在XGBoost模型中的预测概率值。
(6)特定细菌挑选;基于上述步骤(5)可以得到ROC-AUC最优所需要的变量,如图5所示,得到特征菌群的数目与ROC-AUC值的关系图;
结果显示,输入特征变量为4个以上特定种属的细菌丰度时ROC-AUC值处于较高的水平,结合图4中的菌属的重要性分数,确定所述微生物标志物包括普氏菌属(Prevotellacopri)、粪罗斯氏菌属(Roseburia faecis)、迟缓埃格特菌属(Eggerthella lenta)和布劳特氏属菌属(Blautia wexlerae)这4种或以上时,ROC-AUC值较高,分类器效果好,说明所述微生物标志物具有较高的灵敏度和特异性;
同时,从图5中可以看出,输入特征变量15个特定种属的细菌丰度时ROC-AUC值最大;并且由图4可知,输入变量的变化会产生不同的ROC-AUC,本发明优选出最适的输入变量与模型搭配,即采用本发明所述15种物种的丰度作为输入对象可以在较高预测准确度的条件下降低对微生物标志物检测方法的要求。
选定的15种物种作为微生物标志物,具体为普氏菌属(Prevotella copri)、粪罗斯氏菌属(Roseburia faecis)、迟缓埃格特菌属(Eggerthella lenta)、布劳特氏属菌属(Blautia wexlerae)、直肠真杆菌属(Eubacterium rectale)、凸腹真杆菌属(Eubacteriumventriosum)、裂果胶毛螺菌属(Lachnospira pectinoschiza)、二环瘤胃球菌属(Ruminococcus bicirculans)、哺乳型钌杆菌属(Ruthenibacterium lactatiformans)、棒状戈登菌属(Gordonibacter pamelaeae)、无害梭状芽孢杆菌属(Clostridium innocuum)、活泼瘤胃球菌属(Ruminococcus gnavus)、肠道罗斯拜瑞氏菌属(Roseburiaintestinalis)、单形巨单胞菌属(Megamonas funiformis)和扭链瘤胃球菌属(Ruminococcus torques),这15种菌属作为微生物标志物时具有最佳的灵敏度和特异性。
(7)存储组合模型;基于上述步骤(6)的15个特征菌属,选取ROC-AUC得分最好的组合模型。该组合模型的ROC曲线图和概率分布图分别如图6-7所示。
参照图6,选取的组合模型的AUC值高达1.000,检测的真实性极高,说明该组合模型用于后续测量数据的慢性肾病风险预测;参照图7,N(健康组)人群的风险值分别均小于0.4,0.4≤风险值<0.5的区间中N(健康组)和Y(疾病组)人群均有分布,Y(疾病组)人群的风险值分别均大于0.5,且在风险值为0.7处变化较明显。
因此,所述组合模型的输出值判定结果如下:
1)风险值<0.4,健康人群,无需调整肠道菌群;
2)0.4≤风险值<0.5,亚健康人群,需要调节肠道菌群;
3)0.5≤风险值<0.7,肾病低风险人群,需要长期调节肠道菌群,建议定期检测菌群是否得以改善;
4)风险值≥0.7,肾病高风险人群,建议进行临床诊断。
实施例3
临床验证:
(1)肠道微生物标志物相对丰度检测:
获取独立的外部验证数据集,数据集包括13例慢性肾病和24例健康人的粪便样本,对样品进行宏基因组测序,找到实施例2中15个菌属组成的微生物标志物的丰度含量,将测试数据输入模型构建ROC曲线图,预测效果如图8的所示。
(2)阳性风险值预测:
将上述外部验证数据集测序分析得到的测试数据输入实施例2中组合模型,得到在N(健康组)和Y(疾病组)之间的概率,结果如图9所示。
最终将Y(疾病组)概率值确认为风险值,小于0.4的判定为健康人,风险值介于0.4到0.5的判定为亚健康,建议进行一定的肠道菌群调整,风险值介于0.5到0.7的判定为慢性肾病低风险人群,建议进行长期合理调节肠道菌群结构,并定期进行菌群检测以确保菌群结构是否得以改善,以降低后续患上肠癌的风险,超过0.7的判定为慢性肾病的高风险人群,建议到医院门诊进行检查确诊,如无慢性肾病人群建议调整肠道菌,如患有慢性肾病,也可给临床医生一个肠道菌群情况,供其参考。37个受试者的真实患病情况和风险值见表1。
表1受试者的真实患病情况和风险值
由表1可知,本发明的慢性肾病微生物标志物可有效用于构建慢性肾病风险预测模型,且预测灵敏度高、特异性好。如图8与图9所示,采用外部验证数据集对本发明的慢性肾病风险预测模型进行验证,AUC值为0.962,即准确率达到96.2%;且能在多样本中有效区分阳性结果(健康人)和阴性结果(慢性肾病患者),为早期筛查、中晚期治疗提供有效数据,为疾病研究奠定基础。
综上所述,本发明的慢性肾病风险预测模型以特定细菌的丰度为输入指标,构建相应的慢性肾病风险预测模型,除了辅助诊断,可以通过医疗界入改善肠道菌群从而达到辅助治疗的效果,也可以用于预防警示,指导个体调整饮食等手段来调整肠道菌群结构,操作方便、经济且无创,利于推广普及,利于降低慢性肾病发病风险与缓解慢性肾病发生的可能。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。
Claims (10)
1.一种检测微生物标志物制剂在制备检测慢性肾病产品中的应用,其特征在于:所述微生物标志物包括普氏菌属、粪罗斯氏菌属、迟缓埃格特菌属和布劳特氏属菌属。
2.如权利要求1所述的应用,其特征在于:所述微生物标志物还包括直肠真杆菌属、凸腹真杆菌属、裂果胶毛螺菌属、二环瘤胃球菌属、哺乳型钌杆菌属、棒状戈登菌属、无害梭状芽孢杆菌属、活泼瘤胃球菌属、肠道罗斯拜瑞氏菌属、单形巨单胞菌属和扭链瘤胃球菌属中的任一种或两种以上的组合。
3.如权利要求2所述的应用,其特征在于:所述微生物标志物包括普氏菌属、粪罗斯氏菌属、迟缓埃格特菌属、布劳特氏属菌属、直肠真杆菌属、凸腹真杆菌属、裂果胶毛螺菌属、二环瘤胃球菌属、哺乳型钌杆菌属、棒状戈登菌属、无害梭状芽孢杆菌属、活泼瘤胃球菌属、肠道罗斯拜瑞氏菌属、单形巨单胞菌属和扭链瘤胃球菌属。
4.一种检测微生物标志物的制剂,其特征在于:所述检测微生物标志物制剂用于检测粪便样本中权利要求1-3任一项所述应用中所述的微生物标志物的丰度。
5.一种慢性肾病诊断的试剂盒,其特征在于:包括权利要求4所述的检测微生物标志物的制剂。
6.一种慢性肾病风险预测模型的构建方法,其特征在于,包括以下步骤:
S1,分别获取健康个体和慢性肾病患者的粪便样本中权利要求1-3任一项所述应用中所述的微生物标志物的丰度,构建样本集;
S2,将所述样本集输入机器学习模型,训练模型并测试,存储得到慢性肾病风险预测模型。
7.如权利要求6所述的慢性肾病风险预测模型的构建方法,其特征在于:步骤S1中,所述丰度的测定方法包括宏基因组测序、16S测序、18S测序、ITS测序和qPCR定量检测中的任一种或两种以上的组合。
8.如权利要求6所述的慢性肾病风险预测模型的构建方法,其特征在于:步骤S2中,所述机器学习模型为随机森林模型和/或XGBoost模型。
9.如权利要求6或8所述的慢性肾病风险预测模型的构建方法,其特征在于,步骤S2中,具体操作为:
(1)将所述样本集按照(6-8):(2-4)的比例划分为训练集和测试集;
(2)将所述训练集和测试集输入随机森林模型中进行训练和预测,得到第一预测结果;
(3)将所述训练集和测试集输入XGBoost模型中进行训练和预测,得到第二预测结果;
(4)将所述第一预测结果和第二预测结果输入组合模型中,得到分类预测结果,构建出慢性肾病风险预测模型;所述组合模型的预测结果计算公式如下:
AUC=(AUC1*probability1+AUC2*probability2)/2
式中,AUC表示的是组合模型的AUC值,AUC1表示的是随机森林模型的内部测试AUC值,probability1则表示当前样本在随机森林模型中的预测概率值,AUC2表示的是XGBoost模型的内部测试AUC值,probability2则表示当前样本在XGBoost模型中的预测概率值。
10.一种慢性肾病风险预测模型,其特征在于:由权利要求6-9任一项所述的慢性肾病风险预测模型的构建方法构建而成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310305184.1A CN116543899A (zh) | 2023-03-24 | 2023-03-24 | 一种慢性肾病微生物标志物的应用和风险预测模型及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310305184.1A CN116543899A (zh) | 2023-03-24 | 2023-03-24 | 一种慢性肾病微生物标志物的应用和风险预测模型及其构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116543899A true CN116543899A (zh) | 2023-08-04 |
Family
ID=87444278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310305184.1A Pending CN116543899A (zh) | 2023-03-24 | 2023-03-24 | 一种慢性肾病微生物标志物的应用和风险预测模型及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543899A (zh) |
-
2023
- 2023-03-24 CN CN202310305184.1A patent/CN116543899A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109943636B (zh) | 一种结直肠癌微生物标志物及其应用 | |
Macco et al. | Evaluation of scoring systems in predicting acute appendicitis in children | |
Li et al. | Implication of the gut microbiome composition of type 2 diabetic patients from northern China | |
Thomas-White et al. | Incontinence medication response relates to the female urinary microbiota | |
WO2021184412A1 (zh) | 基于肠道微生物的双相情感障碍生物标志物及其筛选应用 | |
Perdona et al. | Prostate cancer detection in the “grey area” of prostate-specific antigen below 10 ng/ml: head-to-head comparison of the updated PCPT calculator and Chun’s nomogram, two risk estimators incorporating prostate cancer antigen 3 | |
Sundin et al. | Evidence of altered mucosa-associated and fecal microbiota composition in patients with Irritable Bowel Syndrome | |
Ko et al. | Specialty differences in polyp detection, removal, and biopsy during colonoscopy | |
Wu et al. | Diagnostic values of a single serum biomarker at different time points compared with Alvarado score and imaging examinations in pediatric appendicitis | |
Ke et al. | Predictors of critical acute pancreatitis: a prospective cohort study | |
Zhang et al. | Diagnostic accuracy of routine blood examinations and CSF lactate level for post-neurosurgical bacterial meningitis | |
Chang et al. | A more diverse cervical microbiome associates with better clinical outcomes in patients with endometriosis: a pilot study | |
US20200194119A1 (en) | Methods and systems for predicting or diagnosing cancer | |
Strömbeck et al. | Fecal microbiota composition is linked to the postoperative disease course in patients with Crohn’s disease | |
Huang et al. | Meta-analysis reveals the vaginal microbiome is a better predictor of earlier than later preterm birth | |
Bukavina et al. | Global meta-analysis of urine microbiome: colonization of polycyclic aromatic hydrocarbon–degrading bacteria among bladder cancer patients | |
Kang et al. | Diagnosis of Crohn’s disease and ulcerative colitis using the microbiome | |
Yang et al. | Ecological change of the gut microbiota during pregnancy and progression to dyslipidemia | |
Barkin et al. | Superiority of the DNA amplification assay for the diagnosis of C. difficile infection: a clinical comparison of fecal tests | |
Zhao et al. | Improved diagnosis of colorectal cancer using combined biomarkers including Fusobacterium nucleatum, fecal occult blood, transferrin, CEA, CA19‐9, gender, and age | |
Sheele et al. | Prediction model for gonorrhea, chlamydia, and trichomoniasis in the emergency department | |
Wang et al. | A combination of faecal and intratumour microbial community profiling reveals novel diagnostic and prognostic biomarkers for pancreatic tumours | |
Liang et al. | Predictive value of procalcitonin and neutrophil-to-lymphocyte ratio variations for bloodstream infection with septic shock | |
CN116543899A (zh) | 一种慢性肾病微生物标志物的应用和风险预测模型及其构建方法 | |
Jiang et al. | Combination of the gut microbiota and clinical indicators as a potential index for differentiating idiopathic membranous nephropathy and minimal change disease |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |