CN112509635A

CN112509635A - 针对稳定型冠心病的急性冠脉综合征风险预测方法及装置

Info

Publication number: CN112509635A
Application number: CN202110157590.9A
Authority: CN
Inventors: 杨跃进; 朱海波; 杨进刚; 董超然; 许靖
Original assignee: Fuwai Hospital of CAMS and PUMC
Current assignee: Fuwai Hospital of CAMS and PUMC
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-03-16
Also published as: CN114438165A; CN114438165B

Abstract

本发明公开了一种针对稳定型冠心病的急性冠脉综合征风险预测方法及装置，方法包括：获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据；利用琼脂糖凝胶方法确定粪便样本DNA数据的总量数据和总浓度数据；将总量数据与总浓度数据与预设阈值进行比较，对粪便样本DNA数据进行筛选；对筛选出的粪便样本DNA数据进行双端测序处理和进行物种注释分析和功能注释分析，得到相对丰度信息；根据相对丰度信息和预先筛选的急性冠脉综合征的生物标记物，确定肠道菌群特征数据；将肠道菌群特征数据输入预先建立的机器学习模型进行训练，得到急性冠脉综合征风险预测模型进行风险预测。本发明可以提高急性冠脉综合征风险预测准确率。

Description

针对稳定型冠心病的急性冠脉综合征风险预测方法及装置

技术领域

本发明涉及生物医学技术领域，尤其涉及针对稳定型冠心病的急性冠脉综合征风险预测方法及装置。

背景技术

根据最新报告，心血管病主要指冠状动脉粥样硬化性心脏病，简称冠心病（coronary artery disease, CAD），已成为我国城乡居民的头号杀手。而心脏病突发(heart attack)即临床表现的急性冠状动脉综合征(acute coronary syndrome，ACS)，包括心源性猝死、心肌梗死和不稳定性心绞痛则是冠心病主要致死原因。ACS的病理生理机制已公认为冠状动脉粥样斑块炎症性进展至破裂，诱发了血栓形成急性堵塞冠状动脉所致。目前，主流观点认为:包括冠心病在内的心血管疾病是一类免疫代谢性疾病，也是一类全身性、进展性、炎症性疾病。主要病变是动脉粥样硬化斑块形成和炎症性进展，本质特征包括脂质沉积和炎症性细胞聚集所产生的非细菌性炎症反应，即被称为代谢性炎症。因为在粥样硬化斑块和进展过程中，从脂质条纹不断进展到粥样斑块，直至破裂，导致血栓形成的多个环节中，始终都有各种炎症细胞和大量炎症介质参与。由于冠心病的动态性和复杂性，炎性不稳定斑块的形成、进展、破裂的机制仍不清楚因此，若能阐明冠状动脉斑块炎症不稳定性的启动因素或原因，以及寻找源头干预炎症过程的有效方法，对于有效防范冠状动脉斑块炎症不稳定性的发生、进展和破裂以及ACS突发事件，大大降低我国心血管病的发病率和死亡率；对于保障我国人民的生命安全和身体健康以及健康中国建设均具有巨大而深远的社会意义和科学价值。

肠道黏膜是机体最大的具有免疫活性的器官，肠道内寄存的几百亿细菌称为“肠道微生物群”，宿主为肠道菌群提供了适当的环境和必要的营养。反过来，肠道菌群又参与调节人体的各种功能，如向宿主提供代谢营养、参与促进生长和免疫调节、消除致病微生物、保持肠道屏障的完整性和正常的体内平衡。随着新近研究发现，肠道微生物菌群在人类免疫炎症性疾病和代谢性疾病中发挥着源头调节作用，并与存在代谢性炎症和胰岛素抵抗状、动脉粥样硬化、肥胖和糖尿病等疾病密切相关，以及肠道菌群作为冠心病发生和发展的源头调控影响因素也露出冰山一角。有研究指出，冠心病患者存在肠道菌群失调，表现为大肠杆菌，链球菌和幽门螺杆菌的比例增加。肠道菌群可通过代谢途径、炎性反应等多个途径促进动脉粥样硬化形成。因此，研究冠心病的肠道菌群特征性，有助于我们更好地了解冠心病的发病机制，并为其预测、治疗提供新思路。

随着宏基因组学等各种测序技术的飞快发展，海量的数据也应运而生。因而，如何从庞杂冗余的生物数据中挖掘出能够对急性冠脉综合征进行风险预测的生物标记物并实现急性冠脉综合征的准确风险预测十分重要。

发明内容

本发明实施例提供一种针对稳定型冠心病的急性冠脉综合征风险预测方法，用以对急性冠脉综合征进行风险预测，提高预测准确率，该方法包括：

获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据；

利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据；

将所述总量数据与总浓度数据与预设阈值进行比较，根据比较的结果对所述粪便样本DNA数据进行筛选；

对筛选出的粪便样本DNA数据进行双端测序处理，得到肠道菌群宏基因组数据；

对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析，得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息；

根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标记物，确定肠道菌群特征数据，所述急性冠脉综合征的生物标记物是根据差异菌相对丰度历史信息进行预先筛选的，所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的；

将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练，得到急性冠脉综合征风险预测模型；

利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。

本发明实施例提供一种针对稳定型冠心病的急性冠脉综合征风险预测装置，用以对急性冠脉综合征进行风险预测，提高预测准确率，该装置包括：

DNA数据获得模块，用于获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据；

浓度数据确定模块，用于利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据；

DNA数据筛选模块，用于将所述总量数据与总浓度数据与预设阈值进行比较，根据比较的结果对所述粪便样本DNA数据进行筛选；

双端测序处理模块，用于对筛选出的粪便样本DNA数据进行双端测序处理，得到肠道菌群宏基因组数据；

注释分析模块，用于对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析，得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息；

特征数据确定模块，用于根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标记物，确定肠道菌群特征数据，所述急性冠脉综合征的生物标记物是根据差异菌相对丰度历史信息进行预先筛选的，所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的；

模型训练模块，用于将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练，得到急性冠脉综合征风险预测模型；

风险预测模块，用于利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述针对稳定型冠心病的急性冠脉综合征风险预测方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述针对稳定型冠心病的急性冠脉综合征风险预测方法的计算机程序。

本发明实施例通过获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据；利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据；将所述总量数据与总浓度数据与预设阈值进行比较，根据比较的结果对所述粪便样本DNA数据进行筛选；对筛选出的粪便样本DNA数据进行双端测序处理，得到肠道菌群宏基因组数据；对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析，得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息；根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标记物，确定肠道菌群特征数据，所述急性冠脉综合征的生物标记物是根据差异菌相对丰度历史信息进行预先筛选的，所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的；将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练，得到急性冠脉综合征风险预测模型；利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。本发明实施例充分考虑到急性冠脉综合征患者的肠道菌群特征，利用机器学习算法从复杂、繁冗的生物大数据中筛选可用于预测及监测急性冠脉综合征风险的、无创的生物标志物，提高预测准确率，弥补了急性冠脉综合征临床预警的空白。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中针对稳定型冠心病的急性冠脉综合征风险预测方法示意图；

图2为本发明实施例中训练集中的AUROC曲线图；

图3为本发明实施例中筛到的对模型起重要作用的急性冠脉综合征的生物标记物示意图；

图4为本发明实施例中针对稳定型冠心病的急性冠脉综合征风险预测装置结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

如前所述，随着宏基因组学等各种测序技术的飞快发展，海量的数据也应运而生。如何从庞杂冗余的生物数据中挖掘有用的信息，用于疾病的预测、诊断指标，一直是一项极具挑战的事情。随着大数据时代的来临，科研人员开发了多种算法进行生命科学领域相关数据的挖掘，而对于标志物诊断模型而言，不得不提的就是机器学习算法。机器学习包含了多种方法：线性回归、随机森林等。不同的算法适用的情况和条件不同，易受到生物样本的个体差异，实验方法等影响。

为了对急性冠脉综合征进行风险预测，提高预测准确率，本发明实施例提供一种针对稳定型冠心病的急性冠脉综合征风险预测方法，如图1所示，该方法可以包括：

步骤101、获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据；

步骤102、利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据；

步骤103、将所述总量数据与总浓度数据与预设阈值进行比较，根据比较的结果对所述粪便样本DNA数据进行筛选；

步骤104、对筛选出的粪便样本DNA数据进行双端测序处理，得到肠道菌群宏基因组数据；

步骤105、对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析，得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息；

步骤106、根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标记物，确定肠道菌群特征数据，所述急性冠脉综合征的生物标记物是根据差异菌相对丰度历史信息进行预先筛选的，所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的；

步骤107、将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练，得到急性冠脉综合征风险预测模型；

步骤108、利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。

由图1所示可以得知，本发明实施例通过获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据；利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据；将所述总量数据与总浓度数据与预设阈值进行比较，根据比较的结果对所述粪便样本DNA数据进行筛选；对筛选出的粪便样本DNA数据进行双端测序处理，得到肠道菌群宏基因组数据；对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析，得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息；根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标记物，确定肠道菌群特征数据，所述急性冠脉综合征的生物标记物是根据差异菌相对丰度历史信息进行预先筛选的，所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的；将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练，得到急性冠脉综合征风险预测模型；利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。本发明实施例充分考虑到急性冠脉综合征患者的肠道菌群特征，利用机器学习算法从复杂、繁冗的生物大数据中筛选可用于预测及监测急性冠脉综合征风险的、无创的生物标志物，提高预测准确率，弥补了急性冠脉综合征临床预警的空白。

实施例中，获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据；利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据；将所述总量数据与总浓度数据与预设阈值进行比较，根据比较的结果对所述粪便样本DNA数据进行筛选；对筛选出的粪便样本DNA数据进行双端测序处理，得到肠道菌群宏基因组数据。

本实施例中，得到肠道菌群宏基因组数据之后，利用Trimmomatic软件去除肠道菌群宏基因组数据中的接头，并根据预先设定的碱基质量值，对去除接头的肠道菌群宏基因组数据进行修剪；利用FastQC软件对修剪后的肠道菌群宏基因组数据进行质量评估；对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析，包括：对质量评估合格的肠道菌群宏基因组数据进行物种注释分析和功能注释分析。

具体实施时，在患者接受项目检测后收集其粪便样本，并在30分钟内放入干冰保存，并尽快储存在-80℃冰箱中待测。提取DNA，对提取的核酸物质利用琼脂糖凝胶方法进行质量控制，要求DNA总量≥1μg，DNA总浓度≥20ng/μL，对质量合格的样本进行建库，然后对粪便样本DNA数据进行illumina hiseq4000双端测序，得到每一个样本的双端测序数据，以FASTQ文件存储。FASTQ是一种存储了生物序列（通常是核酸序列）以及相应的质量评价的文本格式，它们都是以ASCII编码的，几乎是高通量测序的标准格式。

具体实施时，用Trimmomatic软件对数据进行质量控制，即修剪和去除原始数据中的接头（adapter）和低质量序列。Trimmomatic是一个广受欢迎的Illumina平台数据过滤工具，其支持多线程，处理数据速度快，主要用来去除Fastq序列中的接头，并根据碱基质量值对Fastq进行修剪。它包含双端测序和单端测序两种模式同时支持gzip和 bzip2 压缩文件，也支持 phred-33 和 phred-64 格式互相转化。FastQC是一款基于Java的软件，它可以快速地对测序数据进行质量评估。对过滤后的数据，用FastQC软件评价质控后的数据质量。根据FastQC的分析结果，可以判断FASTQ测序文件的质量。如果FASTQ测序文件质量合格，则进行后续的数据分析；否则，要重做调整参数，利用Trimmomatic软件对双端测序数据进行修剪。需要说明的是，测序出来的序列每个碱基都对应有一个质量值（用字母或符号表示，可转为ASCII值减去64来看），这个质量值代表测出的这个碱基的准确性，如果这条序列普遍质量值较低或平均质量值小于20，也或N很多也算低质量序列。

实施例中，对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析，得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息。

本实施例中，对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析，包括：下载肠道菌群数据库，所述肠道菌群数据库包括多个参考基因组，所述参考基因组包括：细菌，古菌，病毒和真核生物；根据所述肠道菌群数据库，利用MetaPhIAn2软件对肠道菌群宏基因组数据进行物种注释分析，利用HUMAnN2软件对肠道菌群宏基因组数据进行功能注释分析。

本实施例中，对质控后的数据，采用MetaPhIAn2软件进行宏基因组物种注释分析。MetaPhIAn2 整理了17000多个参考基因组，包括13500个细菌和古菌，3500个病毒和110种真核生物。下载对应的数据库后，采用该软件，可以实现精确的分类群分配以及准确的计算物种的相对丰度。其能达到种水平的精度，以及菌株水平的鉴定和追踪。对肠道菌群宏基因组数据进行物种注释和功能注释后，得到肠道菌群的物种丰度信息建立模型进行预测。

本实施例中，采用R软件包vegan分析物种多样性，输入文件为肠道菌群物种丰度数据。LEfSe（LDA Effect Size）有网页运行版本（http://huttenhower.sph.harvard.edu/galaxy/），准备好肠菌物种丰度数据，输入到网页运行版本中，按照默认流程运行，可得到结果，即组间的差异菌群。这里的冠心病肠道菌群特征数据，即从LEfSe分析得到的差异菌物种丰度数据。

实施例中，根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标记物，确定肠道菌群特征数据，所述急性冠脉综合征的生物标记物是根据差异菌相对丰度历史信息进行预先筛选的，所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的。

本实施例中，所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的，包括：所述差异菌相对丰度历史信息是利用LDA Effect Size软件对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的。

本实施例中，所述预先筛选的急性冠脉综合征的生物标记物包括：长双歧杆菌Bifidobacteriumlongum，咽峡炎链球菌Streptococcus anginosus，产气柯林斯菌Collinsellaaerofaciens，陪伴粪球菌Coprococcus comes，普氏栖粪杆菌Faecalibacteriumprausnitzii，厌氧棍状菌属Anaerotruncuscolihominis，卵形拟杆菌Bacteroidesovatus，脆弱拟杆菌Bacteroidesfragilis，霍尔德曼氏菌Holdemaniafiliformis，直肠真杆菌Eubacteriumrectale，唾液链球菌Streptococcussalivarius。

本实施例中，按如下方式对所述急性冠脉综合征的生物标记物进行预先筛选：利用Boruta特征选择包对差异菌相对丰度历史信息进行特征选择，确定急性冠脉综合征的生物标记物。

本实施例中，按如下方式利用Boruta特征选择包对所述差异菌相对丰度历史信息进行特征选择：根据差异菌相对丰度历史信息，创建阴影特征矩阵；根据所述阴影特征矩阵确定真实特征数据和阴影特征数据；根据所述真实特征数据和阴影特征数据，确定每个差异菌相对丰度历史信息对应的重要度标签；根据所述重要度标签，对差异菌相对丰度历史信息进行特征选择。

具体实施时，采用boruta算法进行特征选择。Boruta的目标就是选择出所有与因变量相关的特征集合，而不是针对特定模型选择出可以使得模型cost function最小的特征集合。Boruta算法的意义在于可以帮助我们更全面的理解因变量的影响因素，从而更好、更高效地进行特征选择。Boruta是python中的一个特征选择包，安装该包后输入差异菌相对丰度历史信息，可以得到适合建模的重要特征。其具体算法步骤为：（1）创建阴影特征(shadow feature) : 对每个真实特征R，随机打乱顺序，得到阴影特征矩阵S，拼接到真实特征后面，构成新的特征矩阵N = [R, S]；（2）用新的特征矩阵N作为输入，训练模型，得到真实特征和阴影特征；（3）取阴影特征的最大值，真实特征中大于该值的，记录一次命中；（4）用(3)中记录的真实特征累计命中，标记特征重要或不重要；（5）删除不重要的特征，重复1-4，直到所有特征都被标记。

实施例中，将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练，得到急性冠脉综合征风险预测模型；利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。

本实施例中，将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练，包括：将所述肠道菌群特征数据输入预先建立的LightGBM机器学习模型进行训练。利用GridSearchCV算法和Hyperopt算法对所述LightGBM机器学习模型进行参数调整；利用测试数据对参数调整后的LightGBM机器学习模型进行测试；根据测试的结果，利用AUROC指标对LightGBM机器学习模型进行性能评价。

本实施例中，GridSearchCV（网格搜索）调整参数，即在指定的参数范围内，按步长依次调整参数，利用调整的参数训练学习器，从所有的参数中找到在验证集上精度最高的参数，这其实是一个循环和比较的过程。LightGBM是比Xgboost更强大、速度更快的模型，性能上有很大的提升，与传统算法相比具有的优点：更快的训练效率、低内存使用、更高的准确率、支持并行化学习、可处理大规模数据。采用Hyperopt对新模型进一步参数调优，Hyperopt是一种通过贝叶斯优化来调整参数的工具，该方法较快的速度，并有较好的效果。此外，Hyperopt结合MongoDB可以进行分布式调参，快速找到相对较优的参数。

本实施例中，采用的是python中的lightgbm包进行LightGBM机器学习构建模型。该模型主要包含两个算法：单边梯度采样（GOSS）和互斥特征绑定（EFB）。GOSS（从减少样本角度）：排除大部分小梯度的样本，仅用剩下的样本计算信息增益。每个数据实例有不同的梯度，根据计算信息增益的定义，梯度大的实例对信息增益有更大的影响，因此在采样时，尽量保留梯度大的样本（预先设定阈值，或者最高百分位间），随机去掉梯度小的样本。此措施在相同的采样率下比随机采样获得更准确的结果，尤其是在信息增益范围较大时。EFB（从减少特征角度）：捆绑互斥特征，也就是用一个合成特征代替，特别在稀疏特征空间上，许多特征几乎是互斥的（例如许多特征不会同时为非零值）。可以捆绑互斥的特征，将捆绑问题归约到图着色问题，通过贪心算法求得近似解。

本实施例中，GridSearchCV和Hyperopt是python中给的包，我们在python中安装这些包后，进行参数调优。GridSearchCV的名字其实可以拆分为两部分，GridSearch和CV，即网格搜索和交叉验证。网格搜索，搜索的是参数，即在指定的参数范围内，按步长依次调整参数，利用调整的参数训练学习器，从所有的参数中找到在验证集上精度最高的参数，这其实是一个训练和比较的过程。Hyperopt是python中的一个用于"分布式异步算法组态/超参数优化"的类库。使用它我们可以拜托繁杂的超参数优化过程，自动获取最佳的超参数。广泛意义上，可以将带有超参数的模型看作是一个必然的非凸函数，因此hyperopt几乎可以稳定的获取比手工更加合理的调参结果。尤其对于调参比较复杂的模型而言，其更是能以远快于人工调参的速度同样获得远远超过人工调参的最终性能。

本实施例中，AUROC的全称是“接受者操作特征曲线下面积”，往往作为一个评价模型预测能力的指标。在讨论AUROC曲线之前，我们需要理解混淆矩阵（confusion matrix）的概念。一个二元预测可能有4个结果：我们预测0，而真实类别是0：这被称为真阴性（TN，TrueNegative）；我们预测0，而真实类别是1：这被称为假阴性（FN, False Negative）；我们预测1，而真实类别是0：这被称为假阳性（FP，False Positive）；我们预测1，而真实类别是1：这被称为真阳性（TP，True Positive）。当比较两个不同模型的时候，使用单一指标常常比使用多个指标更方便，下面我们基于混淆矩阵计算两个指标，之后我们会将这两个指标组合成一个：

真阳性率（TPR），即，灵敏度、命中率、召回，定义为TP/(TP+FN)。这一指标对应被正确识别为阳性的阳性数据点占所有阳性数据点的比例。换句话说，TPR越高，我们遗漏的阳性数据点就越少。

假阳性率（FPR），即，误检率，定义为FP/(FP+TN)。这一指标对应被误认为阳性的阴性数据点占所有阴性数据点的比例。换句话说，FPR越高，我们错误分类的阴性数据点就越多。

为了将FPR和TPR组合成一个指标，我们首先基于不同的阈值（例如：0.00; 0.01,0.02, …, 1.00）计算前两个指标的逻辑回归，接着将它们绘制为一个图像，其中FPR值为横轴，TPR值为纵轴。得到的曲线为ROC曲线，我们考虑的指标是该曲线的AUC，称为AUROC。对角虚线为随机预测器的ROC曲线：AUROC为0.5。随机预测器通常用作基线，以检验模型是否有用。AUROC越高，说明模型的预测能力越好。

下面给出一个具体实施例，说明本发明针对稳定型冠心病的急性冠脉综合征风险预测方法的具体应用。

1、临床入组标准：

依据冠状动脉粥样硬化性心脏病的临床特点，将病人分为2组，包括: (1) ST 段抬高急性心肌梗死(STEMI，不稳定斑块破裂组，心肌坏死)；非ST段抬高急性心肌梗死(NSTEMI，不稳定斑块部分破裂组，心肌少量坏死) 和不稳定心绞痛(UAP，斑块濒临破裂或破裂前不稳定组，心肌微量坏死)，即ACS组，N=212; (2) 稳定性CAD组(斑块稳定组)，即stable CAD组，N=213。在临床信息收集的基础上，采集各组人群新鲜或妥善冷冻的粪便，进行肠道宏基因组测序。

研究人群入选标准：稳定性冠心病(陈旧心梗、PCI史、稳定性心绞痛或无临床缺血症状的“健康人”，同时冠脉CT/造影发现有冠脉狭窄病变>50%)。

排除标准：

1)根据国际通用心肌梗死定义诊断为2-5型心肌梗死；

2)严重心力衰竭/心源性休克(Killip>2级或NYHA>2级)；

3)存在机械并发症(室间隔穿孔、游离壁破裂、乳头肌断裂等)；

4)发病后曾发生心脏骤停和/或心肺复苏；

5)3月内口服或使用静脉任何抗生素≥1周；

6)3月内急性冠状动脉综合征(ACS)或冠状动脉血管重建(包括PCI和CABG)；

7)3月内创伤或手术；

8)3月内脑血管病史(包括脑梗死或脑出血)；

9)3月内上消化道或下消化道出血；

10) 3月内明确感染(包括消化道、呼吸道、体表感染等)；

11) 慢性肠道疾病(如克劳恩病、溃疡性结肠炎等等)；

12) 任何肿瘤；

13) 风湿免疫性疾病；

14) 慢性肾脏疾病，包括肾脏移植术后。

研究对象入选及病例信息收集过程：

(1)知情同意书；

(2)入选/排除标准；

(3)患者生活方式问卷临床资料；

(4)在临床信息收集的基础上，采集各组人群的血液、新鲜或妥善冷冻的粪便，进行组学分析。

本临床研究遵守《世界医学大会赫尔辛基宣言》和国家相关法规的要求实施。本临床研究方案已获阜外医院的医学伦理委员会批准，所有参与实验的临床患者均已签署本项目《知情同意书》。

2、实施方法：

共有425名参与者在国家心血管病中心、中国医学科学院阜外医院参加了本次研究。根据诊断指南和排除标准将其分为以下两组：sCAD组（N = 213），ACS组（N = 212）。

在患者入院的第二天上午，空腹时间大于10小时的条件下采集病人的血液样本，由阜外医院完成相关临床常规生化指标检测，所有检测均按照国际标准方法进行。同时收集患者粪便样本，并在30分钟内放入干冰保存，并尽快储存在-80℃冰箱中待测。提取DNA，对提取的核酸物质利用琼脂糖凝胶方法进行质量控制。要求DNA总量≥1μg，DNA总浓度≥20ng/μL。对质量合格的样本进行建库，illumina hiseq4000双端测序。获取原始宏基因组双端测序数据后，用Trimmomatic软件对数据进行质量控制，去除低质量序列和接头。并用FastQC软件评价质控后的数据。对质控后的数据，采用MetaPhIAn2软件进行宏基因组物种注释分析。获取癌症患者与正常人肠道菌群的物种的丰度信息后，分析物种多样性，并采用LEfSe（LDA Effect Size）分析组间菌群差异，获得急性冠脉综合征患者肠道菌群的特征，在物种水平建立模型进行预测。采用LightGBM的机器学习方法建模及十乘十交叉验证的方法，将数据随机分成训练集和测试集。首先采用boruta算法进行特征选择。采用GridSearchCV（网格搜索）和Hyperopt不断调整参数，选择最优的参数。重新获取一批从未参与建模的外部数据，将构建好的模型用于预测这批数据，通过AUROC来判断预测模型的好坏。特征的重要性用其对模型的贡献度表示。所有的分析采用Python的scikit-learn包。图2为训练集中的AUROC曲线图，图3为筛到的对模型起重要作用的急性冠脉综合征的生物标记物。

基于同一发明构思，本发明实施例还提供了一种针对稳定型冠心病的急性冠脉综合征风险预测装置，如下面的实施例所述。由于这些解决问题的原理与针对稳定型冠心病的急性冠脉综合征风险预测方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

图4为本发明实施例中针对稳定型冠心病的急性冠脉综合征风险预测装置的结构图，如图4所示，该装置包括：

DNA数据获得模块401，用于获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据；

浓度数据确定模块402，用于利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据；

DNA数据筛选模块403，用于将所述总量数据与总浓度数据与预设阈值进行比较，根据比较的结果对所述粪便样本DNA数据进行筛选；

双端测序处理模块404，用于对筛选出的粪便样本DNA数据进行双端测序处理，得到肠道菌群宏基因组数据；

注释分析模块405，用于对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析，得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息；

特征数据确定模块406，用于根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标记物，确定肠道菌群特征数据，所述急性冠脉综合征的生物标记物是根据差异菌相对丰度历史信息进行预先筛选的，所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的；

模型训练模块407，用于将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练，得到急性冠脉综合征风险预测模型；

风险预测模块408，用于利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。

一个实施例中，所述注释分析模块进一步用于：

下载肠道菌群数据库，所述肠道菌群数据库包括多个参考基因组，所述参考基因组包括：细菌，古菌，病毒和真核生物；

根据所述肠道菌群数据库，利用MetaPhIAn2软件对肠道菌群宏基因组数据进行物种注释分析，利用HUMAnN2软件对肠道菌群宏基因组数据进行功能注释分析。

一个实施例中，所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的，包括：

所述差异菌相对丰度历史信息是利用LDA Effect Size软件对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的。

一个实施例中，所述预先筛选的急性冠脉综合征的生物标记物包括：长双歧杆菌Bifidobacteriumlongum，咽峡炎链球菌Streptococcus anginosus，产气柯林斯菌Collinsellaaerofaciens，陪伴粪球菌Coprococcus comes，普氏栖粪杆菌Faecalibacteriumprausnitzii，厌氧棍状菌属Anaerotruncuscolihominis，卵形拟杆菌Bacteroidesovatus，脆弱拟杆菌Bacteroidesfragilis，霍尔德曼氏菌Holdemaniafiliformis，直肠真杆菌Eubacteriumrectale，唾液链球菌Streptococcussalivarius。

综上所述，本发明实施例通过获得急性冠脉综合征患者和稳定型冠心病患者的粪便样本DNA数据；利用琼脂糖凝胶方法确定所述粪便样本DNA数据的总量数据和总浓度数据；将所述总量数据与总浓度数据与预设阈值进行比较，根据比较的结果对所述粪便样本DNA数据进行筛选；对筛选出的粪便样本DNA数据进行双端测序处理，得到肠道菌群宏基因组数据；对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析，得到急性冠脉综合征患者和稳定型冠心病患者的相对丰度信息；根据所述相对丰度信息和预先筛选的急性冠脉综合征的生物标记物，确定肠道菌群特征数据，所述急性冠脉综合征的生物标记物是根据差异菌相对丰度历史信息进行预先筛选的，所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的；将所述肠道菌群特征数据输入预先建立的机器学习模型中进行训练，得到急性冠脉综合征风险预测模型；利用所述急性冠脉综合征风险预测模型进行针对稳定型冠心病的急性冠脉综合征风险预测。本发明实施例充分考虑到急性冠脉综合征患者的肠道菌群特征，利用机器学习算法从复杂、繁冗的生物大数据中筛选可用于预测及监测急性冠脉综合征风险的、无创的生物标志物，提高预测准确率，弥补了急性冠脉综合征临床预警的空白。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种针对稳定型冠心病的急性冠脉综合征风险预测方法，其特征在于，包括：

2.如权利要求1所述的针对稳定型冠心病的急性冠脉综合征风险预测方法，其特征在于，对所述肠道菌群宏基因组数据进行物种注释分析和功能注释分析，包括：

3.如权利要求1所述的针对稳定型冠心病的急性冠脉综合征风险预测方法，其特征在于，所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的，包括：

4.如权利要求1所述的针对稳定型冠心病的急性冠脉综合征风险预测方法，其特征在于，所述预先筛选的急性冠脉综合征的生物标记物包括：长双歧杆菌Bifidobacteriumlongum，咽峡炎链球菌Streptococcus anginosus，产气柯林斯菌Collinsellaaerofaciens，陪伴粪球菌Coprococcus comes，普氏栖粪杆菌Faecalibacteriumprausnitzii，厌氧棍状菌属Anaerotruncuscolihominis，卵形拟杆菌Bacteroidesovatus，脆弱拟杆菌Bacteroidesfragilis，霍尔德曼氏菌Holdemaniafiliformis，直肠真杆菌Eubacteriumrectale，唾液链球菌Streptococcussalivarius。

5.一种针对稳定型冠心病的急性冠脉综合征风险预测装置，其特征在于，包括：

6.如权利要求5所述的针对稳定型冠心病的急性冠脉综合征风险预测装置，其特征在于，所述注释分析模块进一步用于：

7.如权利要求5所述的针对稳定型冠心病的急性冠脉综合征风险预测装置，其特征在于，所述差异菌相对丰度历史信息是对急性冠脉综合征患者和稳定型冠心病患者的相对丰度历史信息进行差异分析得到的，包括：

8.如权利要求5所述的针对稳定型冠心病的急性冠脉综合征风险预测装置，其特征在于，所述预先筛选的急性冠脉综合征的生物标记物包括：长双歧杆菌Bifidobacteriumlongum，咽峡炎链球菌Streptococcus anginosus，产气柯林斯菌Collinsellaaerofaciens，陪伴粪球菌Coprococcus comes，普氏栖粪杆菌Faecalibacteriumprausnitzii，厌氧棍状菌属Anaerotruncuscolihominis，卵形拟杆菌Bacteroidesovatus，脆弱拟杆菌Bacteroidesfragilis，霍尔德曼氏菌Holdemaniafiliformis，直肠真杆菌Eubacteriumrectale，唾液链球菌Streptococcussalivarius。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至4任一所述方法的计算机程序。