CN114360726A - 稳定型冠心病发病风险评估标志物及其应用 - Google Patents

稳定型冠心病发病风险评估标志物及其应用 Download PDF

Info

Publication number
CN114360726A
CN114360726A CN202210114319.1A CN202210114319A CN114360726A CN 114360726 A CN114360726 A CN 114360726A CN 202210114319 A CN202210114319 A CN 202210114319A CN 114360726 A CN114360726 A CN 114360726A
Authority
CN
China
Prior art keywords
unclassified
heart disease
coronary heart
data
bacteroides
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210114319.1A
Other languages
English (en)
Other versions
CN114360726B (zh
Inventor
杨跃进
朱海波
杨进刚
董超然
许靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuwai Hospital of CAMS and PUMC
Original Assignee
Fuwai Hospital of CAMS and PUMC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuwai Hospital of CAMS and PUMC filed Critical Fuwai Hospital of CAMS and PUMC
Publication of CN114360726A publication Critical patent/CN114360726A/zh
Application granted granted Critical
Publication of CN114360726B publication Critical patent/CN114360726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种稳定型冠心病发病风险评估标志物及其应用,所述标志物包括马赛拟杆菌、未分类伊格尔兹氏菌、肺炎克雷伯菌、未分类梭状杆菌、未分类副雷沃菌、毛螺旋菌科_5_1_63FAA、粪厌氧棒状菌、未分类嗜胆汁菌、人罗斯拜瑞氏菌、腹真杆菌、人体普氏菌、肠巴氏杆菌、木茴香类杆菌、真杆菌、巨单胞菌未分类、胸膜类杆菌、副杆菌、大肠杆菌。本发明对稳定型冠心病进行发病风险预测,可提高预测准确率。

Description

稳定型冠心病发病风险评估标志物及其应用
技术领域
本发明涉及生物医学技术领域,尤其涉及稳定型冠心病发病风险评估标志物及其相关应用。
背景技术
心血管病主要指冠状动脉粥样硬化性心脏病,简称冠心病(coronary arterydisease,CAD)。目前,主流观点认为:包括冠心病在内的心血管疾病是一类免疫代谢性疾病,也是一类全身性、进展性、炎症性疾病。主要病变是动脉粥样硬化斑块形成和炎症性进展,本质特征包括脂质沉积和炎症性细胞聚集所产生的非细菌性炎症反应,即被称为代谢性炎症。因为在粥样硬化斑块和进展过程中,从脂质条纹不断进展到粥样斑块,直至破裂,导致血栓形成的多个环节中,始终都有各种炎症细胞和大量炎症介质参与。由于冠心病的动态性和复杂性,炎性不稳定斑块的形成、进展、破裂的机制仍不清楚因此,若能阐明冠状动脉斑块炎症不稳定性的启动因素或原因,以及寻找源头干预炎症过程的有效方法,对于有效防范冠状动脉斑块炎症不稳定性的发生、进展和破裂以及急性冠脉综合征突发事件,大大降低心血管病的发病率和死亡率;对于保障人民的生命安全和身体健康均具有巨大而深远的社会意义和科学价值。
传统认为,总胆固醇(TC)、糖尿病、年龄等均是与冠心病有关联的风险因素,但这些因素因个体化差异较大,很难准确用于个体冠心病的风险评估。
另一方面,肠道黏膜是机体最大的具有免疫活性的器官,肠道内寄存的几百亿细菌称为“肠道微生物群”,宿主为肠道菌群提供了适当的环境和必要的营养。反过来,肠道菌群又参与调节人体的各种功能,如向宿主提供代谢营养、参与促进生长和免疫调节、消除致病微生物、保持肠道屏障的完整性和正常的体内平衡。随着新近研究发现,肠道微生物菌群在人类免疫炎症性疾病和代谢性疾病中发挥着源头调节作用,并与存在代谢性炎症和胰岛素抵抗状、动脉粥样硬化、肥胖和糖尿病等疾病密切相关,以及肠道菌群作为冠心病发生和发展的源头调控影响因素也露出冰山一角。有研究指出,冠心病患者存在肠道菌群失调,表现为大肠杆菌,链球菌和幽门螺杆菌的比例增加。肠道菌群可通过代谢途径、炎性反应等多个途径促进动脉粥样硬化形成。
然而,现有技术中并没有通过研究肠道菌群特征性针对冠心病进行发病风险评估的研究报道。另外,随着宏基因组学等各种测序技术的飞快发展,海量的数据也应运而生。如何从庞杂冗余的生物数据中挖掘出能够对冠心病进行风险预测的生物标志物并实现冠心病的准确风险预测十分重要。
发明内容
本发明的一个目的在于提供一组与稳定型冠心病发病风险相关的标志物。
本发明的另一目的在于提供一种建立稳定型冠心病发病风险评估模型的方法。
本发明的另一目的在于提供一种稳定型冠心病发病风险评估模型。
本发明的另一目的在于提供一种稳定型冠心病发病风险评估装置。
本发明的另一目的在于提供一种稳定型冠心病发病风险评估方法。
本案发明人通过大量的研究与实际检测分析试验,确定了一组与稳定型冠心病发病风险相关的生物标志物,其包括多个肠道菌群,通过检测来自个体的样本中的这些肠道菌群的相关信息,可以良好地评估个体稳定型冠心病发病风险。
具体而言,一方面,本发明提供了检测个体信息的试剂在制备稳定型冠心病发病风险评估装置(评估系统)中的应用,其中,所述个体信息包括肠道菌群信息,所述肠道菌群包括:
马赛拟杆菌(Bacteroides massiliensis),
未分类伊格尔兹氏菌(Eggerthella unclassified),
肺炎克雷伯菌(Klebsiella pneumoniae),
未分类梭状杆菌(Oscillibacter unclassified),
未分类副雷沃菌(Paraprevotella unclassified),
毛螺旋菌科_5_1_63FAA(Lachnospiraceae bacterium_5_1_63FAA),
粪厌氧棒状菌(Anaerostipes hadrus),
未分类嗜胆汁菌(Bilophila unclassified),
人罗斯拜瑞氏菌(Roseburia hominis),
腹真杆菌(Eubacterium ventriosum),
人体普氏菌(Prevotella copri),
肠巴氏杆菌(Barnesiella intestinihominis),
木茴香类杆菌(Bacteroides xylanisolvens),
真杆菌(Eubacterium hallii),
巨单胞菌未分类(Megamonas unclassified),
胸膜类杆菌(Bacteroides plebeius),
副杆菌(Parabacteroides distasonis),
大肠杆菌(Escherichia coli)。
根据本发明的具体实施方案,本发明的应用中,所述肠道菌群中各菌在评估稳定型冠心病发病风险时的特征重要度,马赛拟杆菌(Bacteroides massiliensis)﹥未分类伊格尔兹氏菌(Eggerthella unclassified)﹥肺炎克雷伯菌(Klebsiella pneumoniae)﹥未分类梭状杆菌(Oscillibacter unclassified)=未分类副雷沃菌(Paraprevotellaunclassified)﹥毛螺旋菌科_5_1_63FAA(Lachnospiraceae bacterium_5_1_63FAA)﹥粪厌氧棒状菌(Anaerostipes hadrus)﹥未分类嗜胆汁菌(Bilophila unclassified)﹥人罗斯拜瑞氏菌(Roseburia hominis)=腹真杆菌(Eubacterium ventriosum)=人体普氏菌(Prevotella copri)﹥肠巴氏杆菌(Barnesiella intestinihominis)﹥木茴香类杆菌(Bacteroides xylanisolvens)=真杆菌(Eubacterium hallii)﹥巨单胞菌未分类(Megamonas unclassified)=胸膜类杆菌(Bacteroides plebeius)=副杆菌(Parabacteroides distasonis)﹥大肠杆菌(Escherichia coli)。
根据本发明的具体实施方案,本发明的应用中,所述肠道菌群中各菌在评估稳定型冠心病发病风险时,所述肠道菌群中各菌按照以下特征重要度数值确定权重,或者,所述肠道菌群中各菌的权重比值为:
马赛拟杆菌(Bacteroides massiliensis),23;
未分类伊格尔兹氏菌(Eggerthella unclassified),19;
肺炎克雷伯菌(Klebsiella pneumoniae),16;
未分类梭状杆菌(Oscillibacter unclassified),15;
未分类副雷沃菌(Paraprevotella unclassified),15;
毛螺旋菌科_5_1_63FAA(Lachnospiraceae bacterium_5_1_63FAA),13;
粪厌氧棒状菌(Anaerostipes hadrus),11;
未分类嗜胆汁菌(Bilophila unclassified),10;
人罗斯拜瑞氏菌(Roseburia hominis),8;
腹真杆菌(Eubacterium ventriosum),8;
人体普氏菌(Prevotella copri),8;
肠巴氏杆菌(Barnesiella intestinihominis),6;
木茴香类杆菌(Bacteroides xylanisolvens),5;
真杆菌(Eubacterium hallii),5;
巨单胞菌未分类(Megamonas unclassified),4;
胸膜类杆菌(Bacteroides plebeius),4;
副杆菌(Parabacteroides distasonis),4;
大肠杆菌(Escherichia coli),1。
根据本发明的具体实施方案,本发明的应用中,所述马赛拟杆菌(Bacteroidesmas siliensis)、未分类伊格尔兹氏菌(Eggerthella unclassified)、肺炎克雷伯菌(Klebsiell a pneumoniae)、未分类梭状杆菌(Oscillibacter unclassified)、未分类副雷沃菌(Par aprevotella unclassified)、毛螺旋菌科_5_1_63FAA(Lachnospiraceaebacterium_5_1_63FAA)、粪厌氧棒状菌(Anaerostipes hadrus)、未分类嗜胆汁菌(Bilophila unclassified)、人罗斯拜瑞氏菌(Roseburia hominis)、腹真杆菌(Eubacterium ventriosum)、人体普氏菌(Prevotella copri)、肠巴氏杆菌(Barnesiellaintestinihominis)、木茴香类杆菌(Bacteroides xylanisolvens)、真杆菌(Eubacteriumhallii)、巨单胞菌未分类(Megamonas unclassified)=胸膜类杆菌(Bacteroidesplebeius)、副杆菌(Parabacteroides distasonis)、大肠杆菌(Escherichia coli)均为针对稳定型冠心病的发病风险因素。各风险因素的异常程度越高(各肠道菌菌相比于健康人的表达丰度差异越大),个体稳定型冠心病发病风险越高。
根据本发明的一些优选具体实施方案,本发明的应用中,所述个体信息还可进一步包括总胆固醇水平、糖尿病、年龄中的一项或多项。
根据本发明的具体实施方案,本发明的技术特别适用于对来自东亚人群的个体进行稳定型冠心病发病风险评估。
根据本发明的一些具体实施方案,本发明实施例提供一种建立稳定型冠心病的发病风险预测(评估)模型的方法,以将所建立的模型用以对稳定型冠心病进行发病风险预测,提高预测准确率,该方法包括:
获得稳定型冠心病患者和健康人群的粪便样本DNA数据;
对所述粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到稳定型冠心病患者和健康人群的相对丰度信息;
根据所述相对丰度信息和预先筛选的稳定型冠心病的生物标志物,确定肠道菌群特征数据,所述稳定型冠心病的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对稳定型冠心病患者和健康人群的相对丰度历史信息进行差异分析得到的;
将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到稳定型冠心病风险预测模型。
根据本发明的具体实施方案,本发明实施例提供的建立稳定型冠心病的发病风险预测模型的方法还包括:
利用GridSearchCV算法和Hyperopt算法对所述机器学习模型进行参数调整;
利用测试数据对参数调整后的机器学习模型进行测试;
根据测试的结果,利用AUROC指标对机器学习模型进行性能评价。
根据本发明的一些具体实施方案,本发明还提供了利用性能评价合格的稳定型冠心病发病风险预测模型进行稳定型冠心病的发病风险预测的方法。
本发明实施例提供一种用于建立稳定型冠心病的发病风险预测模型的装置,用以对稳定型冠心病进行风险预测,以将所建立的模型提高预测准确率,该装置包括:
DNA数据获得模块,用于获得稳定型冠心病患者和健康人群的粪便样本DNA数据;
双端测序处理模块,用于对所述粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
注释分析模块,用于对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到稳定型冠心病患者和健康人群的相对丰度信息;
特征数据确定模块,用于根据所述相对丰度信息和预先筛选的稳定型冠心病的生物标志物,确定肠道菌群特征数据,所述稳定型冠心病的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对稳定型冠心病患者和健康人群的相对丰度历史信息进行差异分析得到的;
模型训练模块,用于将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到稳定型冠心病风险预测模型。
根据本发明的具体实施方案,本发明提供的用于建立稳定型冠心病的发病风险预测模型的装置还包括:
参数调整模块,用于利用GridSearchCV算法和Hyperopt算法对所述机器学习模型进行参数调整;
模型测试模块,用于利用测试数据对参数调整后的机器学习模型进行测试;
性能评价模块,用于根据测试的结果,利用AUROC指标对机器学习模型进行性能评价。
本发明的另一些实施方案中,还提供了一种稳定型冠心病发病风险评估装置,其包括:风险预测模块,用于利用性能评价合格的稳定型冠心病风险预测模型进行稳定型冠心病的风险预测。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述稳定型冠心病的风险预测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述稳定型冠心病的风险预测方法的计算机程序。
另一方面,本发明还提供了另一种稳定型冠心病发病风险评估装置,其包括检测单元和数据分析单元,其中:
所述检测单元用于检测个体信息,获得检测结果;其中,所述个体信息同权利要求1或4中所述个体信息;
所述数据分析单元用于对检测单元的检测结果进行分析处理。
根据本发明的具体实施方案,本发明的针对稳定型冠心病的急性冠脉综合征风险评估装置中,所述检测单元包括可获得待测个体肠道菌群中各特征菌(马赛拟杆菌、未分类伊格尔兹氏菌、肺炎克雷伯菌、未分类梭状杆菌、未分类副雷沃菌、毛螺旋菌科_5_1_63FAA、粪厌氧棒状菌、未分类嗜胆汁菌、人罗斯拜瑞氏菌、腹真杆菌、人体普氏菌、肠巴氏杆菌、木茴香类杆菌、真杆菌、巨单胞菌未分类、胸膜类杆菌、副杆菌、大肠杆菌)信息的任何试剂材料,可以采用现有技术中任何可行的方法检测待测个体肠道菌群中各特征菌的信息。
根据本发明的具体实施方案,本发明的稳定型冠心病发病风险评估装置中,所述检测单元包括检测粪便样本DNA数据的试剂材料。
优选地,所述检测单元按照以下操作进行检测并获得检测结果:
检测粪便样本,获得DNA数据。
优选地,所述数据分析单元用于对检测单元的检测结果进行分析处理的过程包括:
对所述粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到肠道菌群中各菌的相对丰度信息;
根据所述相对丰度信息,确定肠道菌群特征数据。
根据本发明的一些具体实施方案,本发明的稳定型冠心病发病风险评估装置,其包括:
DNA数据获得模块,用于获得粪便样本DNA数据;
双端测序处理模块,用于对所述粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
注释分析模块,用于对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到肠道菌群中各菌的相对丰度信息;
特征数据确定模块,用于根据所述相对丰度信息确定肠道菌群特征数据。
根据本发明的一些具体实施方案,本发明的稳定型冠心病发病风险评估装置中,所述数据分析单元对检测单元的检测结果进行分析处理时,包括:将个体信息的检测结果配以权重系数,以计算所述待测个体的风险评估得分;
其中,所述肠道菌群中各菌的特征重要度,马赛拟杆菌(Bacteroidesmassiliensis)﹥未分类伊格尔兹氏菌(Eggerthella unclassified)﹥肺炎克雷伯菌(Klebsiella pneumo niae)﹥未分类梭状杆菌(Oscillibacter unclassified)=未分类副雷沃菌(Paraprevotella unclassified)﹥毛螺旋菌科_5_1_63FAA(Lachnospiraceaebacterium_5_1_63FAA)﹥粪厌氧棒状菌(Anaerostipes hadrus)﹥未分类嗜胆汁菌(Bilophila unclassified)﹥人罗斯拜瑞氏菌(Roseburia hominis)=腹真杆菌(Eubacterium ventriosum)=人体普氏菌(Prevotella copri)﹥肠巴氏杆菌(Barnesiellaintestinihominis)﹥木茴香类杆菌(Bacteroides xylanisolvens)=真杆菌(Eubacteriumhallii)﹥巨单胞菌未分类(Megamonas unclassified)=胸膜类杆菌(Bacteroidesplebeius)=副杆菌(Parabacteroides distasonis)﹥大肠杆菌(Escherichia coli)。
根据本发明的一些具体实施方案,本发明的稳定型冠心病发病风险评估装置中,所述肠道菌群中各菌按照以下特征重要度数值确定权重,或者,所述肠道菌群中各菌的权重比值为:
马赛拟杆菌(Bacteroides massiliensis),23;
未分类伊格尔兹氏菌(Eggerthella unclassified),19;
肺炎克雷伯菌(Klebsiella pneumoniae),16;
未分类梭状杆菌(Oscillibacter unclassified),15;
未分类副雷沃菌(Paraprevotella unclassified),15;
毛螺旋菌科_5_1_63FAA(Lachnospiraceae bacterium_5_1_63FAA),13;
粪厌氧棒状菌(Anaerostipes hadrus),11;
未分类嗜胆汁菌(Bilophila unclassified),10;
人罗斯拜瑞氏菌(Roseburia hominis),8;
腹真杆菌(Eubacterium ventriosum),8;
人体普氏菌(Prevotella copri),8;
肠巴氏杆菌(Barnesiella intestinihominis),6;
木茴香类杆菌(Bacteroides xylanisolvens),5;
真杆菌(Eubacterium hallii),5;
巨单胞菌未分类(Megamonas unclassified),4;
胸膜类杆菌(Bacteroides plebeius),4;
副杆菌(Parabacteroides distasonis),4;
大肠杆菌(Escherichia coli),1。
另一方面,本发明还提供了另一种计算机设备,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现:基于待测个体信息获得个体稳定型冠心病发病风险评估结果;
其中,所述个体信息同本发明前述个体信息。
另一方面,本发明还提供了另一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现:基于待测个体信息获得个体稳定型冠心病发病风险评估结果;
其中,所述个体信息同本发明前述个体信息。
本发明实施例通过获得稳定型冠心病患者和健康人群的粪便样本DNA数据;对所述粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到稳定型冠心病患者和健康人群的相对丰度信息;根据所述相对丰度信息和预先筛选的稳定型冠心病的生物标志物,确定肠道菌群特征数据,所述稳定型冠心病的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对稳定型冠心病患者和健康人群的相对丰度历史信息进行差异分析得到的;将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到稳定型冠心病风险预测模型;利用GridSearchCV算法和Hyperopt算法对所述机器学习模型进行参数调整;利用测试数据对参数调整后的机器学习模型进行测试;根据测试的结果,利用AUROC指标对机器学习模型进行性能评价;利用性能评价合格的稳定型冠心病风险预测模型进行稳定型冠心病的风险预测。本发明实施例充分考虑到稳定型冠心病患者的肠道菌群特征,利用机器学习算法从复杂、繁冗的生物大数据中筛选可用于预测及监测稳定型冠心病风险的、无创的生物标志物,提高预测准确率,弥补了稳定型冠心病临床预警的空白。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中稳定型冠心病的风险预测方法示意图;
图2为本发明实施例中训练集中的AUROC曲线图;
图3为本发明实施例中筛到的对模型起重要作用的稳定型冠心病的生物标志物示意图;
图4为本发明实施例中稳定型冠心病的风险预测装置结构图。
图5为另一实施方案中的稳定型冠心病发病风险评估模型的AUROC曲线图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
如前所述,随着宏基因组学等各种测序技术的飞快发展,海量的数据也应运而生。如何从庞杂冗余的生物数据中挖掘有用的信息,用于疾病的评估预测、诊断指标,一直是一项极具挑战的事情。随着大数据时代的来临,科研人员开发了多种算法进行生命科学领域相关数据的挖掘,而对于标志物诊断模型而言,不得不提的就是机器学习算法。机器学习包含了多种方法:线性回归、随机森林等。不同的算法适用的情况和条件不同,易受到生物样本的个体差异,实验方法等影响。
为了对稳定型冠心病进行风险评估预测,提高预测准确率,本发明实施例提供一种建立稳定型冠心病的风险预测模型的方法,如图1所示,该方法可以包括:
步骤101、获得稳定型冠心病患者和健康人群的粪便样本DNA数据;
步骤102、对所述粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
步骤103、对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到稳定型冠心病患者和健康人群的相对丰度信息;
步骤104、根据所述相对丰度信息和预先筛选的稳定型冠心病的生物标志物,确定肠道菌群特征数据,所述稳定型冠心病的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对稳定型冠心病患者和健康人群的相对丰度历史信息进行差异分析得到的;
步骤105、将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到稳定型冠心病风险预测模型;
步骤106、利用GridSearchCV算法和Hyperopt算法对所述机器学习模型进行参数调整;
步骤107、利用测试数据对参数调整后的机器学习模型进行测试;
步骤108、根据测试的结果,利用AUROC指标对机器学习模型进行性能评价。
进一步,本发明还提供了一种稳定型冠心病发病风险评估方法,该方法包括:
步骤109、利用性能评价合格的稳定型冠心病风险预测模型进行稳定型冠心病的发病风险预测。
由图1所示可以得知,本发明实施例通过获得稳定型冠心病患者和健康人群的粪便样本DNA数据;对所述粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到稳定型冠心病患者和健康人群的相对丰度信息;根据所述相对丰度信息和预先筛选的稳定型冠心病的生物标志物,确定肠道菌群特征数据,所述稳定型冠心病的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对稳定型冠心病患者和健康人群的相对丰度历史信息进行差异分析得到的;将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到稳定型冠心病风险预测模型;利用GridSearchCV算法和Hyperopt算法对所述机器学习模型进行参数调整;利用测试数据对参数调整后的机器学习模型进行测试;根据测试的结果,利用AUROC指标对机器学习模型进行性能评价;利用性能评价合格的稳定型冠心病风险预测模型进行稳定型冠心病的风险预测。本发明实施例充分考虑到稳定型冠心病患者的肠道菌群特征,利用机器学习算法从复杂、繁冗的生物大数据中筛选可用于预测及监测稳定型冠心病风险的、无创的生物标志物,提高预测准确率,弥补了稳定型冠心病临床预警的空白。
实施例中,获得稳定型冠心病患者和健康人群的粪便样本DNA数据。
本实施例中,获得稳定型冠心病患者和健康人群的粪便样本DNA数据之后,利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据;将所述总量数据与总浓度数据与预设阈值进行比较;根据比较的结果对所述粪便样本DNA数据进行筛选。
实施例中,对所述粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据。
本实施例中,得到肠道菌群宏基因组数据之后,利用Trimmomatic软件去除肠道菌群宏基因组数据中的接头,并根据预先设定的碱基质量值,对去除接头的肠道菌群宏基因组数据进行修剪;利用FastQC软件对修剪后的肠道菌群宏基因组数据进行质量评估;对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,包括:对质量评估合格的肠道菌群宏基因组数据进行物种注释分析和功能注释分析。
具体实施时,在患者接受项目检测后收集其粪便样本,并在30分钟内放入干冰保存,并尽快储存在-80℃冰箱中待测。提取DNA,对提取的核酸物质利用琼脂糖凝胶方法进行质量控制,要求DNA总量≥1μg,DNA总浓度≥20ng/μL,对质量合格的样本进行建库,然后对粪便样本DNA数据进行illumina hiseq4000双端测序,得到每一个样本的双端测序数据,以FASTQ文件存储。FASTQ是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式,它们都是以ASCII编码的,几乎是高通量测序的标准格式。
具体实施时,用Trimmomatic软件对数据进行质量控制,即修剪和去除原始数据中的接头(adapter)和低质量序列。Trimmomatic是一个广受欢迎的Illumina平台数据过滤工具,其支持多线程,处理数据速度快,主要用来去除Fastq序列中的接头,并根据碱基质量值对Fastq进行修剪。它包含双端测序和单端测序两种模式同时支持gzip和bzip2压缩文件,也支持phred-33和phred-64格式互相转化。FastQC是一款基于Java的软件,它可以快速地对测序数据进行质量评估。对过滤后的数据,用FastQC软件评价质控后的数据质量。根据FastQC的分析结果,可以判断FASTQ测序文件的质量。如果FASTQ测序文件质量合格,则进行后续的数据分析;否则,要重做调整参数,利用Trimmomatic软件对双端测序数据进行修剪。需要说明的是,测序出来的序列每个碱基都对应有一个质量值(用字母或符号表示,可转为ASCII值减去64来看),这个质量值代表测出的这个碱基的准确性,如果这条序列普遍质量值较低或平均质量值小于20,也或N很多也算低质量序列。
实施例中,对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到稳定型冠心病患者和健康人群的相对丰度信息。
本实施例中,对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,包括:下载肠道菌群数据库,所述肠道菌群数据库包括多个参考基因组,所述参考基因组包括:细菌,古菌,病毒和真核生物;根据所述肠道菌群数据库,利用MetaPhIAn2软件对肠道菌群宏基因组数据进行物种注释分析,利用HUMAnN2软件对肠道菌群宏基因组数据进行功能注释分析。
本实施例中,对质控后的数据,采用MetaPhIAn2软件进行宏基因组物种注释分析。MetaPhIAn2整理了17000多个参考基因组,包括13500个细菌和古菌,3500个病毒和110种真核生物。下载对应的数据库后,采用该软件,可以实现精确的分类群分配以及准确的计算物种的相对丰度。其能达到种水平的精度,以及菌株水平的鉴定和追踪。对肠道菌群宏基因组数据进行物种注释和功能注释后,得到肠道菌群的物种丰度信息建立模型进行预测。
本实施例中,采用R软件包vegan分析物种多样性,输入文件为肠道菌群物种丰度数据。LEfSe(LDA Effect Size)有网页运行版本(http://huttenhower.sph.harvard.edu/galaxy/),准备好肠菌物种丰度数据,输入到网页运行版本中,按照默认流程运行,可得到结果,即组间的差异菌群。这里的冠心病肠道菌群特征数据,即从LEfSe分析得到的差异菌物种丰度数据。
实施例中,根据所述相对丰度信息和预先筛选的稳定型冠心病的生物标志物,确定肠道菌群特征数据,所述稳定型冠心病的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对稳定型冠心病患者和健康人群的相对丰度历史信息进行差异分析得到的。
本实施例中,按如下方式对所述稳定型冠心病的生物标志物进行预先筛选:利用Boruta特征选择包对差异菌相对丰度历史信息进行特征选择,确定稳定型冠心病的生物标志物。
本实施例中,按如下方式利用Boruta特征选择包对所述差异菌相对丰度历史信息进行特征选择:根据差异菌相对丰度历史信息,创建阴影特征矩阵;根据所述阴影特征矩阵确定真实特征数据和阴影特征数据;根据所述真实特征数据和阴影特征数据,确定每个差异菌相对丰度历史信息对应的重要度标签;根据所述重要度标签,对差异菌相对丰度历史信息进行特征选择。
本实施例中,所述预先筛选的稳定型冠心病的生物标志物包括:马赛拟杆菌Bacteroides massiliensis,未分类伊格尔兹氏菌Eggerthella unclassified,肺炎克雷伯菌Klebsiella pneumoniae,未分类梭状杆菌Oscillibacter unclassified,未分类副雷沃菌Paraprevotella unclassified,毛螺旋菌科_5_1_63FAALachnospiraceaebacterium_5_1_63FAA,粪厌氧棒状菌Anaerostipes hadrus,未分类嗜胆汁菌Bilophilaunclassified,腹真杆菌Eubacterium ventriosum,人体普氏菌Prevotella copri,人罗斯拜瑞氏菌Roseburia hominis,肠巴氏杆菌Barnesiella intestinihominis,木茴香类杆菌Bacteroides xylanisolvens,真杆菌Eubacterium hallii,胸膜类杆菌Bacteroidesplebeius,巨单胞菌未分类Megamonas unclassified,副杆菌Parabacteroidesdistasonis,大肠杆菌Escherichia coli。
本实施例中,所述差异菌相对丰度历史信息是对稳定型冠心病患者和健康人群的相对丰度历史信息进行差异分析得到的,包括:所述差异菌相对丰度历史信息是利用LDAEffect Size软件对稳定型冠心病患者和健康人群的相对丰度历史信息进行差异分析得到的。
具体实施时,采用boruta算法进行特征选择。Boruta的目标就是选择出所有与因变量相关的特征集合,而不是针对特定模型选择出可以使得模型cost function最小的特征集合。Boruta算法的意义在于可以帮助本发明更全面的理解因变量的影响因素,从而更好、更高效地进行特征选择。Boruta是python中的一个特征选择包,安装该包后输入差异菌相对丰度历史信息,可以得到适合建模的重要特征。其具体算法步骤为:(1)创建阴影特征(shadow feature):对每个真实特征R,随机打乱顺序,得到阴影特征矩阵S,拼接到真实特征后面,构成新的特征矩阵N=[R,S];(2)用新的特征矩阵N作为输入,训练模型,得到真实特征和阴影特征;(3)取阴影特征的最大值,真实特征中大于该值的,记录一次命中;(4)用(3)中记录的真实特征累计命中,标记特征重要或不重要;(5)删除不重要的特征,重复1-4,直到所有特征都被标记。
实施例中,将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到稳定型冠心病风险预测模型。利用GridSearchCV算法和Hyperopt算法对所述机器学习模型进行参数调整。利用测试数据对参数调整后的机器学习模型进行测试。根据测试的结果,利用AUROC指标对机器学习模型进行性能评价。利用性能评价合格的稳定型冠心病风险预测模型进行稳定型冠心病的风险预测。
本实施例中,将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,包括:将所述肠道菌群特征数据输入预先建立的LightGBM机器学习模型进行训练。利用GridSearchCV算法和Hyperopt算法对所述LightGBM机器学习模型进行参数调整;利用测试数据对参数调整后的LightGBM机器学习模型进行测试;根据测试的结果,利用AUROC指标对LightGBM机器学习模型进行性能评价。
本实施例中,GridSearchCV(网格搜索)调整参数,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数,这其实是一个循环和比较的过程。LightGBM是比Xgboost更强大、速度更快的模型,性能上有很大的提升,与传统算法相比具有的优点:更快的训练效率、低内存使用、更高的准确率、支持并行化学习、可处理大规模数据。采用Hyperopt对新模型进一步参数调优,Hyperopt是一种通过贝叶斯优化来调整参数的工具,该方法较快的速度,并有较好的效果。此外,Hyperopt结合MongoDB可以进行分布式调参,快速找到相对较优的参数。
本实施例中,采用的是python中的lightgbm包进行LightGBM机器学习构建模型。该模型主要包含两个算法:单边梯度采样(GOSS)和互斥特征绑定(EFB)。GOSS(从减少样本角度):排除大部分小梯度的样本,仅用剩下的样本计算信息增益。每个数据实例有不同的梯度,根据计算信息增益的定义,梯度大的实例对信息增益有更大的影响,因此在采样时,尽量保留梯度大的样本(预先设定阈值,或者最高百分位间),随机去掉梯度小的样本。此措施在相同的采样率下比随机采样获得更准确的结果,尤其是在信息增益范围较大时。EFB(从减少特征角度):捆绑互斥特征,也就是用一个合成特征代替,特别在稀疏特征空间上,许多特征几乎是互斥的(例如许多特征不会同时为非零值)。可以捆绑互斥的特征,将捆绑问题归约到图着色问题,通过贪心算法求得近似解。
更具体地,相关参数可以设置如下:
params={'boosting_type':'gbdt','objective':'binary','metric':'auc','nthread':4,'learning_rate':0.1,'num_leaves':30,'max_depth':5,'subsample':0.8,'colsample_bytree':0.8,}
其中,gbdt即梯度提升树,nthread服务器运行的线程,learning_rate即每个弱学习器的权重缩减系数,num_leaves即每个基学习器输出one-hot向量(长度),max_depth即决策树最大深度,subsample即子采样比例,取值范围为(0,1],colsample_bytree即用来控制每颗树随机采样的列数的占比。
本实施例中,GridSearchCV和Hyperopt是python中给的包,本发明在python中安装这些包后,进行参数调优。GridSearchCV的名字其实可以拆分为两部分,GridSearch和CV,即网格搜索和交叉验证。网格搜索,搜索的是参数,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数,这其实是一个训练和比较的过程。Hyperopt是python中的一个用于"分布式异步算法组态/超参数优化"的类库。使用它本发明可以拜托繁杂的超参数优化过程,自动获取最佳的超参数。广泛意义上,可以将带有超参数的模型看作是一个必然的非凸函数,因此hyperopt几乎可以稳定的获取比手工更加合理的调参结果。尤其对于调参比较复杂的模型而言,其更是能以远快于人工调参的速度同样获得远远超过人工调参的最终性能。
本实施例中,AUROC的全称是“接受者操作特征曲线下面积”,往往作为一个评价模型预测能力的指标。在讨论AUROC曲线之前,本发明需要理解混淆矩阵(confusionmatrix)的概念。一个二元预测可能有4个结果:本发明预测0,而真实类别是0:这被称为真阴性(TN,True Negative);本发明预测0,而真实类别是1:这被称为假阴性(FN,False Negative);本发明预测1,而真实类别是0:这被称为假阳性(FP,False Positive);本发明预测1,而真实类别是1:这被称为真阳性(TP,True Positive)。当比较两个不同模型的时候,使用单一指标常常比使用多个指标更方便,下面本发明基于混淆矩阵计算两个指标,之后本发明会将这两个指标组合成一个:
真阳性率(TPR),即,灵敏度、命中率、召回,定义为TP/(TP+FN)。这一指标对应被正确识别为阳性的阳性数据点占所有阳性数据点的比例。换句话说,TPR越高,本发明遗漏的阳性数据点就越少。
假阳性率(FPR),即,误检率,定义为FP/(FP+TN)。这一指标对应被误认为阳性的阴性数据点占所有阴性数据点的比例。换句话说,FPR越高,本发明错误分类的阴性数据点就越多。
为了将FPR和TPR组合成一个指标,本发明首先基于不同的阈值(例如:0.00;0.01,0.02,…,1.00)计算前两个指标的逻辑回归,接着将它们绘制为一个图像,其中FPR值为横轴,TPR值为纵轴。得到的曲线为ROC曲线,本发明考虑的指标是该曲线的AUC,称为AUROC。对角虚线为随机预测器的ROC曲线:AUROC为0.5。随机预测器通常用作基线,以检验模型是否有用。AUROC越高,说明模型的预测能力越好。
下面给出一个具体实施例,说明本发明稳定型冠心病的风险预测方法的具体应用。
1、临床入组标准:
依据冠状动脉粥样硬化性心脏病的临床特点,将病人分为2组,包括:(1)稳定性CAD组(斑块稳定组),即stable CAD组,sCAD,N=213;(2)无动脉粥样硬化斑块的正常对照组,即normal coronary artery组,NCA,N=175。在临床信息收集的基础上,采集各组人群的新鲜或妥善冷冻的粪便,进行肠道宏基因组测序。
研究人群入选标准:稳定性冠心病(陈旧心梗、PCI史、稳定性心绞痛或无临床缺血症状的“健康人”,同时冠脉CT/造影发现有冠脉狭窄病变>50%)。
排除标准:
1)根据国际通用心肌梗死定义诊断为2-5型心肌梗死;
2)严重心力衰竭/心源性休克(Killip>2级或NYHA>2级);
3)存在机械并发症(室间隔穿孔、游离壁破裂、乳头肌断裂等);
4)发病后曾发生心脏骤停和/或心肺复苏;
5)3月内口服或使用静脉任何抗生素≥1周;
6)3月内急性冠状动脉综合征(ACS)或冠状动脉血管重建(包括PCI和CABG);
7)3月内创伤或手术;
8)3月内脑血管病史(包括脑梗死或脑出血);
9)3月内上消化道或下消化道出血;
10)3月内明确感染(包括消化道、呼吸道、体表感染等);
11)慢性肠道疾病(如克劳恩病、溃疡性结肠炎等等);
12)任何肿瘤;
13)风湿免疫性疾病;
14)慢性肾脏疾病,包括肾脏移植术后。
研究对象入选及病例信息收集过程:
(1)知情同意书;
(2)入选/排除标准;
(3)患者生活方式问卷临床资料;
(4)在临床信息收集的基础上,采集各组人群的血液、新鲜或妥善冷冻的粪便,进行组学分析。
本临床研究遵守《世界医学大会赫尔辛基宣言》和国家相关法规的要求实施。本临床研究方案已获阜外医院的医学伦理委员会批准,所有参与实验的临床患者均已签署本项目《知情同意书》。
2、实施方法:
共有388名参与者在国家心血管病中心、中国医学科学院阜外医院参加了本次研究。根据诊断指南和排除标准将其分为以下两组:NCA组(N=175),sCAD组(N=213)。
在患者入院的第二天上午,空腹时间大于10小时的条件下采集病人的血液样本,由阜外医院完成相关临床常规生化指标检测,所有检测均按照国际标准方法进行。同时收集患者粪便样本,并在30分钟内放入干冰保存,并尽快储存在-80℃冰箱中待测。提取DNA,对提取的核酸物质利用琼脂糖凝胶方法进行质量控制。要求DNA总量≥1μg,DNA总浓度≥20ng/μL。对质量合格的样本进行建库,illumina hiseq4000双端测序。获取原始宏基因组双端测序数据后,用Trimmomatic软件对数据进行质量控制,去除低质量序列和接头。并用FastQC软件评价质控后的数据。对质控后的数据,采用MetaPhIAn2软件进行宏基因组物种注释分析。获取癌症患者与正常人肠道菌群的物种的丰度信息后,分析物种多样性,并采用LEfSe(LDAEffect Size)分析组间菌群差异,获得冠心病肠道菌群的特征,在物种水平建立模型进行预测。采用LightGBM的机器学习方法建模及十乘十交叉验证的方法,将数据随机分成训练集和测试集。首先采用boruta算法进行特征选择。采用GridSearchCV(网格搜索)和Hyperopt不断调整参数,选择最优的参数。重新获取一批从未参与建模的外部数据,将构建好的模型用于预测这批数据,通过AUROC来判断预测模型的好坏。特征的重要性用其对模型的贡献度表示。所有的分析采用Python的scikit-learn包。图2为训练集中的AUROC曲线图,图3为筛到的对模型起重要作用的稳定型冠心病的生物标志物。
基于同一发明构思,本发明实施例还提供了一种稳定型冠心病的风险预测装置,如下面的实施例所述。由于这些解决问题的原理与稳定型冠心病的风险预测方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
图4为本发明实施例中稳定型冠心病的风险预测装置的结构图,如图4所示,该装置包括:
DNA数据获得模块401,用于获得稳定型冠心病患者和健康人群的粪便样本DNA数据;
双端测序处理模块402,用于对所述粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
注释分析模块403,用于对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到稳定型冠心病患者和健康人群的相对丰度信息;
特征数据确定模块404,用于根据所述相对丰度信息和预先筛选的稳定型冠心病的生物标志物,确定肠道菌群特征数据,所述稳定型冠心病的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对稳定型冠心病患者和健康人群的相对丰度历史信息进行差异分析得到的;
模型训练模块405,用于将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到稳定型冠心病风险预测模型;
参数调整模块406,用于利用GridSearchCV算法和Hyperopt算法对所述机器学习模型进行参数调整;
模型测试模块407,用于利用测试数据对参数调整后的机器学习模型进行测试;
性能评价模块408,用于根据测试的结果,利用AUROC指标对机器学习模型进行性能评价;
风险预测模块409,用于利用性能评价合格的稳定型冠心病风险预测模型进行稳定型冠心病的风险预测。
一个实施例中,按如下方式对所述稳定型冠心病的生物标志物进行预先筛选:
利用Boruta特征选择包对差异菌相对丰度历史信息进行特征选择,确定稳定型冠心病的生物标志物。
一个实施例中,按如下方式利用Boruta特征选择包对所述差异菌相对丰度历史信息进行特征选择:
根据差异菌相对丰度历史信息,创建阴影特征矩阵;
根据所述阴影特征矩阵确定真实特征数据和阴影特征数据;
根据所述真实特征数据和阴影特征数据,确定每个差异菌相对丰度历史信息对应的重要度标签;
根据所述重要度标签,对差异菌相对丰度历史信息进行特征选择。
一个实施例中,本发明的稳定型冠心病的生物标志物包括:马赛拟杆菌Bacteroides massiliensis,未分类伊格尔兹氏菌Eggerthella unclassified,肺炎克雷伯菌Klebsiella pneumoniae,未分类梭状杆菌Oscillibacter unclassified,未分类副雷沃菌Paraprevotella unclassified,毛螺旋菌科_5_1_63FAA Lachnospiraceaebacterium_5_1_63FAA,粪厌氧棒状菌Anaerostipes hadrus,未分类嗜胆汁菌Bilophilaunclassified,腹真杆菌Eubacterium ventriosum,人体普氏菌Prevotella copri,人罗斯拜瑞氏菌Roseburia hominis,肠巴氏杆菌Barnesiella intestinihominis,木茴香类杆菌Bacteroides xylanisolvens,真杆菌Eubacterium hallii,胸膜类杆菌Bacteroidesplebeius,巨单胞菌未分类Megamonas unclassified,副杆菌Parabacteroidesdistasonis,大肠杆菌Escherichia coli。各生物标志物均为稳定型冠心病发病风险因素,用于评估稳定型冠心病发病风险时的特征重要度参见图3。如果某一项或多项生物标志物相比于健康人的表达丰度差异越大,则个体稳定型冠心病发病风险越高。
图5显示了在本发明的部分肠道菌群特征因素的基础上,进一步整合传统认为与稳定型冠心病密切相关的总胆固醇水平、糖尿病和年龄因素,所获得的用于对急性冠脉综合征发病风险进行评估的模型的AUROC曲线。可以看出,在部分肠道菌群特征因素的基础上整合总胆固醇水平、糖尿病和年龄因素后,与稳定型冠心病发病风险的关联强度并没有显著提升,可表明本发明的肠道菌群特征因素可独立于传统临床危险因素(总胆固醇水平、糖尿病和年龄)之外用于评估稳定型冠心病发病风险。
综上所述,本发明实施例通过获得稳定型冠心病患者和健康人群的粪便样本DNA数据;对所述粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到稳定型冠心病患者和健康人群的相对丰度信息;根据所述相对丰度信息和预先筛选的稳定型冠心病的生物标志物,确定肠道菌群特征数据,所述稳定型冠心病的生物标志物是根据差异菌相对丰度历史信息进行预先筛选的,所述差异菌相对丰度历史信息是对稳定型冠心病患者和健康人群的相对丰度历史信息进行差异分析得到的;将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练,得到稳定型冠心病风险预测模型;利用GridSearchCV算法和Hyperopt算法对所述机器学习模型进行参数调整;利用测试数据对参数调整后的机器学习模型进行测试;根据测试的结果,利用AUROC指标对机器学习模型进行性能评价;利用性能评价合格的稳定型冠心病风险预测模型进行稳定型冠心病的风险预测。本发明实施例充分考虑到稳定型冠心病患者的肠道菌群特征,利用机器学习算法从复杂、繁冗的生物大数据中筛选可用于预测及监测稳定型冠心病风险的、无创的生物标志物,提高预测准确率,弥补了稳定型冠心病临床预警的空白。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.检测个体信息的试剂在制备稳定型冠心病发病风险评估装置中的应用,其中,所述个体信息包括肠道菌群信息,所述肠道菌群包括:
马赛拟杆菌(Bacteroides massiliensis),
未分类伊格尔兹氏菌(Eggerthella unclassified),
肺炎克雷伯菌(Klebsiella pneumoniae),
未分类梭状杆菌(Oscillibacter unclassified),
未分类副雷沃菌(Paraprevotella unclassified),
毛螺旋菌科_5_1_63FAA(Lachnospiraceae bacterium_5_1_63FAA),
粪厌氧棒状菌(Anaerostipes hadrus),
未分类嗜胆汁菌(Bilophila unclassified),
人罗斯拜瑞氏菌(Roseburia hominis),
腹真杆菌(Eubacterium ventriosum),
人体普氏菌(Prevotella copri),
肠巴氏杆菌(Barnesiella intestinihominis),
木茴香类杆菌(Bacteroides xylanisolvens),
真杆菌(Eubacterium hallii),
巨单胞菌未分类(Megamonas unclassified),
胸膜类杆菌(Bacteroides plebeius),
副杆菌(Parabacteroides distasonis),
大肠杆菌(Escherichia coli)。
2.根据权利要求1所述的应用,其中,所述肠道菌群中各菌在评估稳定型冠心病发病风险时的特征重要度,马赛拟杆菌(Bacteroides massiliensis)﹥未分类伊格尔兹氏菌(Eggerthella unclassified)﹥肺炎克雷伯菌(Klebsiella pneumoniae)﹥未分类梭状杆菌(Oscillibacter unclassified)=未分类副雷沃菌(Paraprevotella unclassified)﹥毛螺旋菌科_5_1_63FAA(Lachnospiraceae bacterium_5_1_63FAA)﹥粪厌氧棒状菌(Anaerostipes hadrus)﹥未分类嗜胆汁菌(Bilophila unclassified)﹥人罗斯拜瑞氏菌(Roseburia hominis)=腹真杆菌(Eubacterium ventriosum)=人体普氏菌(Prevotellacopri)﹥肠巴氏杆菌(Barnesiella intestinihominis)﹥木茴香类杆菌(Bacteroidesxylanisolvens)=真杆菌(Eubacterium hallii)﹥巨单胞菌未分类(Megamonasunclassified)=胸膜类杆菌(Bacteroides plebeius)=副杆菌(Parabacteroidesdistasonis)﹥大肠杆菌(Escherichia coli)。
3.根据权利要求1所述的应用,其中,所述肠道菌群中各菌在评估稳定型冠心病发病风险时,所述肠道菌群中各菌按照以下特征重要度数值确定权重,或者,所述肠道菌群中各菌的权重比值为:
马赛拟杆菌(Bacteroides massiliensis),23;
未分类伊格尔兹氏菌(Eggerthella unclassified),19;
肺炎克雷伯菌(Klebsiella pneumoniae),16;
未分类梭状杆菌(Oscillibacter unclassified),15;
未分类副雷沃菌(Paraprevotella unclassified),15;
毛螺旋菌科_5_1_63FAA(Lachnospiraceae bacterium_5_1_63FAA),13;
粪厌氧棒状菌(Anaerostipes hadrus),11;
未分类嗜胆汁菌(Bilophila unclassified),10;
人罗斯拜瑞氏菌(Roseburia hominis),8;
腹真杆菌(Eubacterium ventriosum),8;
人体普氏菌(Prevotella copri),8;
肠巴氏杆菌(Barnesiella intestinihominis),6;
木茴香类杆菌(Bacteroides xylanisolvens),5;
真杆菌(Eubacterium hallii),5;
巨单胞菌未分类(Megamonas unclassified),4;
胸膜类杆菌(Bacteroides plebeius),4;
副杆菌(Parabacteroides distasonis),4;
大肠杆菌(Escherichia coli),1。
4.根据权利要求1所述的应用,其中,所述个体信息还包括总胆固醇水平、糖尿病、年龄中的一项或多项。
5.根据权利要求1-4任一项所述的应用,其中,所述个体来自东亚人群。
6.一种稳定型冠心病发病风险评估装置,其包括检测单元和数据分析单元,其中:
所述检测单元用于检测个体信息,获得检测结果;其中,所述个体信息同权利要求1或4中所述个体信息;
所述数据分析单元用于对检测单元的检测结果进行分析处理。
7.根据权利要求6所述的稳定型冠心病发病风险评估装置,其中,所述检测单元包括检测粪便样本DNA数据的试剂材料;
优选地,所述检测单元按照以下操作进行检测并获得检测结果:
检测粪便样本,获得DNA数据;
优选地,所述数据分析单元用于对检测单元的检测结果进行分析处理的过程包括:
对所述粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到肠道菌群中各菌的相对丰度信息;
根据所述相对丰度信息,确定肠道菌群特征数据。
8.一种稳定型冠心病发病风险评估装置,其包括:
DNA数据获得模块,用于获得粪便样本DNA数据;
双端测序处理模块,用于对所述粪便样本DNA数据进行双端测序处理,得到肠道菌群宏基因组数据;
注释分析模块,用于对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析,得到肠道菌群中各菌的相对丰度信息;
特征数据确定模块,用于根据所述相对丰度信息确定肠道菌群特征数据;优选地,所述数据分析单元对检测单元的检测结果进行分析处理时,包括:将个体信息的检测结果配以权重系数,以计算所述待测个体的风险评估得分;
其中,所述肠道菌群中各菌的特征重要度,马赛拟杆菌(Bacteroides massiliensis)﹥未分类伊格尔兹氏菌(Eggerthella unclassified)﹥肺炎克雷伯菌(Klebsiella pneumoniae)﹥未分类梭状杆菌(Oscillibacter unclassified)=未分类副雷沃菌(Paraprevotella unclassified)﹥毛螺旋菌科_5_1_63FAA(Lachnospiraceae bacterium_5_1_63FAA)﹥粪厌氧棒状菌(Anaerostipes hadrus)﹥未分类嗜胆汁菌(Bilophilaunclassified)﹥人罗斯拜瑞氏菌(Roseburia hominis)=腹真杆菌(Eubacteriumventriosum)=人体普氏菌(Prevotella copri)﹥肠巴氏杆菌(Barnesiellaintestinihominis)﹥木茴香类杆菌(Bacteroi des xylanisolvens)=真杆菌(Eubacterium hallii)﹥巨单胞菌未分类(Megamonas uncl assified)=胸膜类杆菌(Bacteroides plebeius)=副杆菌(Parabacteroides distasonis)﹥大肠杆菌(Escherichia coli);
优选地,所述肠道菌群中各菌按照以下特征重要度数值确定权重,或者,所述肠道菌群中各菌的权重比值为:
马赛拟杆菌(Bacteroides massiliensis),23;
未分类伊格尔兹氏菌(Eggerthella unclassified),19;
肺炎克雷伯菌(Klebsiella pneumoniae),16;
未分类梭状杆菌(Oscillibacter unclassified),15;
未分类副雷沃菌(Paraprevotella unclassified),15;
毛螺旋菌科_5_1_63FAA(Lachnospiraceae bacterium_5_1_63FAA),13;
粪厌氧棒状菌(Anaerostipes hadrus),11;
未分类嗜胆汁菌(Bilophila unclassified),10;
人罗斯拜瑞氏菌(Roseburia hominis),8;
腹真杆菌(Eubacterium ventriosum),8;
人体普氏菌(Prevotella copri),8;
肠巴氏杆菌(Barnesiella intestinihominis),6;
木茴香类杆菌(Bacteroides xylanisolvens),5;
真杆菌(Eubacterium hallii),5;
巨单胞菌未分类(Megamonas unclassified),4;
胸膜类杆菌(Bacteroides plebeius),4;
副杆菌(Parabacteroides distasonis),4;
大肠杆菌(Escherichia coli),1。
9.一种计算机设备,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现:基于待测个体信息获得个体稳定型冠心病发病风险评估结果;
其中,所述个体信息同权利要求1至4中任一所述个体信息。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现:基于待测个体信息获得个体稳定型冠心病发病风险评估结果;
其中,所述个体信息同权利要求1-4中任一项所述个体信息。
CN202210114319.1A 2021-02-05 2022-01-30 稳定型冠心病发病风险评估标志物及其应用 Active CN114360726B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021101576441 2021-02-05
CN202110157644.1A CN112509700A (zh) 2021-02-05 2021-02-05 稳定型冠心病的风险预测方法及装置

Publications (2)

Publication Number Publication Date
CN114360726A true CN114360726A (zh) 2022-04-15
CN114360726B CN114360726B (zh) 2023-05-12

Family

ID=74952773

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110157644.1A Pending CN112509700A (zh) 2021-02-05 2021-02-05 稳定型冠心病的风险预测方法及装置
CN202210114319.1A Active CN114360726B (zh) 2021-02-05 2022-01-30 稳定型冠心病发病风险评估标志物及其应用

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110157644.1A Pending CN112509700A (zh) 2021-02-05 2021-02-05 稳定型冠心病的风险预测方法及装置

Country Status (1)

Country Link
CN (2) CN112509700A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022166934A1 (zh) * 2021-02-05 2022-08-11 中国医学科学院阜外医院 心血管病发病风险评估肠道菌群标志物及其应用
CN114283890B (zh) * 2021-12-15 2023-04-07 南京医科大学 一种基于瘤胃球菌微生物群的疾病风险预测装置
TWI826332B (zh) * 2023-06-08 2023-12-11 宏碁股份有限公司 建立疾病預測模型的方法及系統

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107075563A (zh) * 2014-09-30 2017-08-18 深圳华大基因科技有限公司 用于冠状动脉疾病的生物标记物
CN107075453A (zh) * 2014-09-30 2017-08-18 深圳华大基因科技有限公司 冠状动脉疾病的生物标记物
CN108351342A (zh) * 2015-08-20 2018-07-31 深圳华大生命科学研究院 冠心病的生物标志物
CN110392741A (zh) * 2016-12-16 2019-10-29 Md保健株式会社 通过细菌宏基因组分析来诊断心脏病的方法
CN111157722A (zh) * 2019-11-25 2020-05-15 广州丹晨医疗科技有限公司 生物标志物的用途
CN111430027A (zh) * 2020-03-18 2020-07-17 浙江大学 基于肠道微生物的双相情感障碍生物标志物及其筛选应用
CN111440884A (zh) * 2020-04-22 2020-07-24 中国医学科学院北京协和医院 源于肠道的诊断肌少症的菌群及其用途
CN112111586A (zh) * 2020-08-11 2020-12-22 康美华大基因技术有限公司 一种克罗恩病相关微生物标志物集及其应用

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1887361A1 (en) * 2006-08-07 2008-02-13 Bio-Rad Pasteur Method for the prediction of vascular events
CA2783536A1 (en) * 2009-12-09 2011-06-16 Aviir, Inc. Biomarker assay for diagnosis and classification of cardiovascular disease
WO2016168336A1 (en) * 2015-04-14 2016-10-20 uBiome, Inc. Method and system for microbiome-derived characterization, diagnostics, and therapeutics for cardiovascular disease conditions
EP3404667B1 (en) * 2017-05-19 2024-02-28 Siemens Healthineers AG Learning based methods for personalized assessment, long-term prediction and management of atherosclerosis

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107075563A (zh) * 2014-09-30 2017-08-18 深圳华大基因科技有限公司 用于冠状动脉疾病的生物标记物
CN107075453A (zh) * 2014-09-30 2017-08-18 深圳华大基因科技有限公司 冠状动脉疾病的生物标记物
CN108351342A (zh) * 2015-08-20 2018-07-31 深圳华大生命科学研究院 冠心病的生物标志物
CN110392741A (zh) * 2016-12-16 2019-10-29 Md保健株式会社 通过细菌宏基因组分析来诊断心脏病的方法
CN111157722A (zh) * 2019-11-25 2020-05-15 广州丹晨医疗科技有限公司 生物标志物的用途
CN111430027A (zh) * 2020-03-18 2020-07-17 浙江大学 基于肠道微生物的双相情感障碍生物标志物及其筛选应用
CN111440884A (zh) * 2020-04-22 2020-07-24 中国医学科学院北京协和医院 源于肠道的诊断肌少症的菌群及其用途
CN112111586A (zh) * 2020-08-11 2020-12-22 康美华大基因技术有限公司 一种克罗恩病相关微生物标志物集及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DURGADEVI VELUSAMY: "Ensemble of heterogeneous classifiers for diagnosis and prediction of coronary artery disease with reduced feature subset", 《COMPUTER METHODS AND PROGRAMS IN BIOMEDICINE》 *
胡海兵: "肠道菌群与冠心病的宏基因组关联分析", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
CN112509700A (zh) 2021-03-16
CN114360726B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN114292931B (zh) 急性冠脉综合征的风险评估标志物及其应用
Blanco-Míguez et al. Extending and improving metagenomic taxonomic profiling with uncharacterized species using MetaPhlAn 4
CN114360726A (zh) 稳定型冠心病发病风险评估标志物及其应用
CN114438165B (zh) 针对稳定型冠心病的急性冠脉综合征风险评估标志物及应用
JP6681337B2 (ja) 敗血症の発症を予測するための装置、キット及び方法
CN105296590B (zh) 大肠癌标志物及其应用
CA3133639A1 (en) Systems and methods for deriving and optimizing classifiers from multiple datasets
CN111430027A (zh) 基于肠道微生物的双相情感障碍生物标志物及其筛选应用
CN105132518B (zh) 大肠癌标志物及其应用
WO2014091017A2 (en) Identification of a person having risk for developing type 2 diabetes
CN107075453B (zh) 冠状动脉疾病的生物标记物
WO2020244018A1 (zh) 一种精神分裂症的小规模生物标志物组合、其应用及metaphlan2筛选方法
JP2022527653A (ja) 疾患を診断する方法
CN110904213B (zh) 一种基于肠道菌群的溃疡性结肠炎生物标志物及其应用
CN111505288A (zh) 一种新的抑郁症生物标志物及其应用
CN110838365A (zh) 肠易激综合症相关菌群标志物及其试剂盒
CN111206079A (zh) 基于微生物组测序数据和机器学习算法的死亡时间推断方法
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
CN111020020A (zh) 一种精神分裂症的生物标志物组合、其应用及metaphlan2筛选方法
Li et al. Exploring postmortem succession of rat intestinal microbiome for PMI based on machine learning algorithms and potential use for humans
Kayvanpour et al. microRNA neural networks improve diagnosis of acute coronary syndrome (ACS)
WO2022166934A1 (zh) 心血管病发病风险评估肠道菌群标志物及其应用
CN115873956A (zh) 用于预测受试者患有结直肠癌风险的试剂盒、系统、应用和预测模型的建模方法
CN114317725A (zh) 克罗恩病生物标志物、试剂盒及生物标志物的筛选方法
CN111020021A (zh) 一种基于肠道菌群的小规模精神分裂症生物标志物组合、其应用及mOTU筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant