CN107075453B

CN107075453B - 冠状动脉疾病的生物标记物

Info

Publication number: CN107075453B
Application number: CN201480082368.5A
Authority: CN
Inventors: 冯强; 揭著业; 夏慧华; 王俊
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2014-09-30
Filing date: 2014-09-30
Publication date: 2021-09-07
Anticipated expiration: 2034-09-30
Also published as: WO2016049918A1; CN107075453A

Abstract

提供了用于预测与微生物相关的疾病的风险的生物标记物和方法，特别是冠状动脉疾病(CAD)或相关心脏病。

Description

冠状动脉疾病的生物标记物

相关申请的交叉参考

无

技术领域

本发明涉及用于预测与微生物相关的疾病的风险的生物标记物和方法，特别是冠状动脉疾病(CAD)或相关的心脏病。

背景技术

冠状动脉疾病(CAD)是指干扰向心(即心脏)肌肉或其任何部分输送充足血液的冠状动脉的任何异常状态。通常，CAD由在动脉壁上斑块的积累(即动脉粥样硬化)引起，特别是在服务于心脏的大动脉和中等大小的动脉中。这些状态具有类似的病因、机制和疗法。CAD代表全球死亡和发病的主要病因。CAD的早期诊断不但会有助于预防死亡率，也降低手术干预的成本。

用于检测CAD的“金标准”是侵入性冠状动脉造影。然而，这是昂贵的，并且可能对患者造成风险。在血管造影之前，可以使用非侵入性诊断模式，例如心肌灌注成像(MPI)和CT-血管造影，然而这些具有包括辐射暴露、造影剂敏感性的并发症，并且仅适度地提高了阻塞性CAD识别。

目前的知识表明，遗传、环境因素及其相互作用协同诱导复杂的表型和许多疾病。冠状动脉疾病(CAD)作为最具影响力的复杂疾病之一，近年来已被GWAS越来越多地研究，并且揭示了46种常见变异的10.6％的固有原因(Ehret,G.B.等人，Genetic variants innovel pathways influence blood pressure and cardiovascular diseaserisk.Nature 478,103-109，通过引用并入本文中)。然而，我们对环境因素如肠道微生物的影响以及基因和微生物对疾病的贡献的知识仍需要进一步的研究。

我们的“遗忘器官”肠道微生物群在许多方面对我们的健康起着至关重要的作用，如从食物摄取能量、产生重要的代谢物、促进免疫系统的发育和成熟、以及保护宿主免受病原体感染等。最近的研究表明，菌群生态失调、慢性炎症和代谢异常存在于某些代谢性疾病如糖尿病和肥胖的肠道中。大多数冠状动脉疾病的特征是炎症，氧化和脂质代谢，其可能与肠道微生物及其代谢物潜在相关。最近的研究表明，肠道微生物可以将红肉成分(L-肉碱、磷脂酰胆碱、胆固醇)代谢成TMA，其将在肝脏中进一步氧化成TMAO，从而在血管中引起氧化反应，引起炎症和脂质沉积，最终导致动脉粥样硬化和冠心病。同时，与健康受试者相比，症状性动脉粥样硬化患者肠微生物群表现出明显的异常(Koeth，RA等人，Intestinalmicrobiota metabolism of L-carnitine,a nutrient in red meat,promotesatherosclerosis.Nature medicine 19,576-585，通过引用并入本文中)。这些研究表明肠道微生物的生态失调可能通过诱导人类代谢异常强烈影响冠状动脉疾病的发病机制。然而，动脉粥样硬化中肠道菌群失调的特征导致冠状动脉疾病患者的发病机制及其对代谢系统的影响仍然令人困惑。

发明内容

本公开的实施方案试图至少在某种程度上解决现有技术中存在的至少一个问题。

本发明基于本发明人的以下发现：

肠道微生物群的评估和表征已成为包括冠状动脉疾病(CAD)的人类疾病的主要研究领域。为了对CAD患者体内的肠道微生物内容物进行分析，本发明人进行了宏基因组关联研究(MGWAS)的方案(Qin,J.等人，A metagenome-wide association study of gutmicrobiota in type 2 diabetes.Nature 490,55–60(20122)，通过引用并入本文中)，其基于来自165个个体的肠道微生物DNA的深度鸟枪法测序。本发明人鉴别出并验证了65种CAD相关的肠道微生物和4种优化的肠道微生物。为了利用肠微生物群的CAD分类的潜在能力，本发明人基于65种CAD相关的肠道微生物和4种优化的肠道微生物的随机森林模型计算疾病的概率。本发明人的数据提供了对与CAD风险相关的肠道宏基因组的特征的洞察，用于未来研究肠道宏基因组在其他相关疾病中的病理生理学作用的范例，以及用于评估有风险患有此类病症的个体的基于肠道微生物群的方法的潜在有用性。

在本公开的一个方面，提供了一种用于预测受试者体内与微生物群相关的疾病的生物标记物组，其由以下构成：

肠道生物标记物，其包括嗜黏蛋白阿克曼氏菌(Akkermansia muciniphila)、脆弱类拟杆菌(Bacteroides fragilis)、鲍氏梭菌(Clostridium bolteae)、哈氏梭菌(Clostridium hathewayi)、系结梭菌(Clostridium nexile)、梭菌属HGF2(Clostridiumsp.HGF2)、螺状梭菌(Clostridium spiroforme)、共生梭菌(Clostridium symbiosum)、粪芽孢菌属3_3_56FAA(Coprobacillus sp.3_3_56FAA)、埃格特菌属HGA1(Eggerthellasp.HGA1)、粘液真杆菌(Eubacterium limosum)、血孪生球菌(Gemellasanguinis)、肺炎克雷伯杆菌(Klebsiella pneumoniae)、毛螺科菌9_1_43BFAA(Lachnospiraceae bacterium 9_1_43BFAA)、食淀粉乳杆菌(Lactobacillusamylovorus)、发酵乳杆菌(Lactobacillus fermentum)、唾液乳杆菌(Lactobacillussalivarius)、阴道乳杆菌(Lactobacillus vaginalis)、粘滑罗斯菌(Rothiamucilaginosa)、活泼瘤胃球菌(Ruminococcus gnavus)、卵瘤胃球菌(Ruminococcusobeum)、瘤胃球菌属5_1_39BFAA(Ruminococcus sp.5_1_39BFAA)、扭链瘤胃球菌(Ruminococcus torques)、咽峡炎链球菌(Streptococcus anginosus)、牛链球菌(Streptococcus infantarius)、婴儿链球菌(Streptococcus infantis)、缓症链球菌(Streptococcus mitis)、口腔链球菌(Streptococcus oralis)、副血链球菌(Streptococcus parasanguinis)、巴氏链球菌(Streptococcus pasteurianus)、唾液链球菌(Streptococcus salivarius)、血链球菌(Streptococcus sanguinis)、链球菌属2_1_36FAA(Streptococcus sp.2_1_36FAA)、前庭链球菌(Streptococcus vestibularis)、罕见小球菌属4_3_54A2FAA(Subdoligranulum sp.4_3_54A2FAA)、CVD 1218、CVD 1259、CVD1486、CVD 19194、CVD 19221、CVD 2015、CVD 2448、CVD 25206、CVD 461、CVD 547、CVD 659、CVD 8035、CVD 8194、CVD 8305、CVD 9620、CVD 977、解纤维拟杆菌(Bacteroidescellulosilyticus)、粪便拟杆菌(Bacteroides stercoris)、单形拟杆菌(Bacteroidesuniformis)、普通拟杆菌(Bacteroides vulgatus)、解木聚糖拟杆菌(Bacteroidesxylanisolvens)、沃氏嗜胆菌(Bilophila wadsworthia)、梭菌目属SS3/4(Clostridialessp.SS3/4)、吉氏副拟杆菌(Parabacteroides distasonis)、Con 14667、Con 14806、Con17745、Con 3602、Con 4962、Con 5544中的至少一种的肠道生物标记物，

优选口腔链球菌、血链球菌、缓症链球菌和婴儿链球菌中的至少一种。

根据本公开的实施方案，肠道生物标记物包括如表5-2中所述的SEQ ID NO：1至7293中至少一个的至少部分序列。

在本公开的另一方面，提供了用于预测受试者体内与微生物群相关的疾病的生物标记物组，其由以下构成：

包括SEQ ID NO：1至7293中至少一个的至少部分序列的肠道生物标记物。

根据本公开的实施方案，疾病为冠状动脉疾病或相关的心脏病。

在本公开的另一方面，提供了用于确定权利要求1至4中任一项所述的基因标记物组的试剂盒，其包括用于PCR扩增并根据如下所述的DNA序列设计的引物：

在本公开的另一方面，提供了用于确定上述基因标记物组的试剂盒，其包括一种以上根据如下所示的基因设计的探针：

在本公开的另一方面，提供了上述基因标记物组用于预测待测试的受试者体内冠状动脉疾病(CAD)或相关疾病的风险的用途，包括：

(1)从待测试的受试者收集样品；

(2)确定步骤(1)中获得的样品中上述的生物标记物组的每个生物标记物的相对丰度信息；

(3)通过采用多元统计模型将待测试的受试者的每个生物标记物的相对丰度信息与训练数据集进行比较来获得CAD的概率，

其中CAD的概率大于截止值表明待测试的受试者患有或有风险发展冠状动脉疾病(CAD)或相关疾病。

根据本公开的实施方案，训练数据集是采用多元统计模型基于多个患有CAD的受试者和多个正常受试者的每个生物标记物的相对丰度信息构建的，可选地多元统计模型为随机森林模型。

根据本公开的实施方案，训练数据集是矩阵，该矩阵中每行表示上述的生物标记物组的每个生物标记物，每列表示样品，每个单元表示样品中的生物标记物的相对丰度谱，样品疾病状态为矢量，其中1为CAD，0为对照。

根据本公开的实施方案，口腔链球菌、血链球菌、缓症链球菌和婴儿链球菌中每一种的相对丰度信息是基于SEQ ID NO：1至7293的相对丰度信息获得的。

根据本公开的实施方案，训练数据集为表9，并且CAD的概率为至少0.5指示待测试的受试者患有或有风险发展冠状动脉疾病(CAD)或相关疾病。

在本公开的另一方面，提供了上述基因标记物组在制备用于预测待测试的受试者体内冠状动脉疾病(CAD)或相关疾病的风险的试剂盒的用途，包括：

(1)从待测试的受试者收集样品；

在本公开的另一方面，提供了诊断受试者是否具有与微生物群有关的异常状态或有风险发展与微生物群有关的异常状态的方法，包括：

(1)从待测试的受试者收集样品；

根据本公开的实施方案，训练数据集是矩阵，该矩阵中每行表示根据上述的生物标记物组的每个生物标记物，每列表示样品，每个单元表示样品中的生物标记物的相对丰度谱，样品疾病状态为矢量，其中1为CAD，0为对照。

据认为，由于以下原因，65个CAD相关的肠道微生物和4个优化的肠道微生物对于在早期阶段增加CAD检测是有价值的。首先，本发明的标记物与常规标记物相比更特异和更敏感。第二，粪便分析保证准确性、安全性、可负担性和患者依从性。粪便样品是可运输的。因此，本发明涉及体外方法，其舒适且无创，因此人们将更容易参与给定的筛选程序。第三，本发明的标记物还可以用作对CAD患者进行治疗监测的工具，以检测对治疗的响应。

附图说明

通过结合附图的以下描述，本公开的这些和其它方面和优点将变得清楚和更容易理解，其中：

图1密度直方图示出了研究群组中鉴出的所有基因的P值分布。水平线表示零假设下P值的分布。

图2利用126种MLG标记物的随机森林模型中的65种最有判别性的MLG。棒长度表示变量(MLG物种)的重要性。

图3 65种MLG随机森林模型的性能。165个样品(病例88，对照77)为训练集，并且其他86个样品(病例29，对照57)为测试集用于验证，得到假阴性率2/29和假阳性率12/57。

图4肠道宏基因组中ACVD相关标记物的鉴别。65种MLG随机森林模型的性能，将165个样品(88个病例和77对照)作为训练集(AUC＝98.17％)。两个外部曲线之间的面积表示95％置信区间(CI)。

图5来自肠道宏基因组的ACVD相关标记物的鉴别。4种MLG随机森林模型的性能，将165个样品(88个病例和77个对照)作为训练集(AUC＝85.86％)。两个外部曲线之间的面积表示95％置信区间(CI)。

具体实施方式

本文使用的术语具有与本发明相关领域的普通技术人员通常理解的含义。诸如“一”，“一个”和“所述”的术语不旨在仅指单数实体，而是包括可以用于说明的特定示例的一般类别。本文中的术语用于描述本发明的具体实施方案，但是它们的用法不限制本发明，除非在权利要求中概述。

本发明在以下非限制性实施例中进一步举例说明。除非另有说明，份数和百分比以重量计，并且度数为摄氏度。对于本领域普通技术人员显而易见的是，这些实施例虽然指示本发明的优选实施方案，但仅以说明的方式给出，并且试剂可通过商业渠道获得。

实施例1.鉴别用于评估冠状动脉疾病风险的生物标记物

1.1样品收集

来自包括88名动脉粥样硬化性心血管疾病(ACVD)患者和77名对照受试者(训练集，表1)的165名南方中国受试者的粪便样品由广东省人民医院在2011年收集。ACVD患者根据病理特征(冠状动脉造影)诊断并分类。要求受试者在医院收集新鲜粪便样品。将收集的样品置于无菌管中，立即储存在-80℃直至进一步分析。

已经获得了完整的伦理批准，以及所有患者提供书面知情同意书。该研究由广东省人民医院伦理委员会批准。

表1动脉粥样硬化性心血管疾病(ACVD)病例和对照的基线特征。第四列报告了来自Wilcoxon秩和检验的结果。

参数	病例(n＝88)	对照(n＝77)	P值
				年龄	61	59	0.294
性别(男:女)	68:19	41:34	1.97E-05
				BMI	24.54	23.58	0.193

注意：对于性别的信息，88个患者中的一个是未知的，并且77个对照中的两个是未知的。

1.2 DNA提取

将粪便样品在冰上解冻，并使用Qiagen QIAamp DNA Stool Mini试剂盒(Qiagen公司)根据制造商的说明书进行DNA提取。提取物用不含DNA酶的RNase处理以消除RNA污染。使用NanoDrop分光光度计、Qubit荧光计(具有Quant-iTTMdsDNA BR测定试剂盒)和凝胶电泳测定DNA的量。

1.3粪便样品的DNA文库构建和测序

按照制造商的说明书(Illumina公司)进行DNA文库构建。本发明人采用与先前所述相同的工作流程来进行簇生成、模板杂交、等温扩增、线性化、封闭和变性，以及测序引物的杂交。本发明人为每个样品构建了具有插入片段大小为350bp的配对末端(PE)文库，随后进行高通量测序以获得长度为2x100bp的约3千万个PE读段。通过从Illumina原始读段过滤掉具有不明确的“N”碱基、接头污染和来自的人类DNA污染的低质量读段，以及通过同时剪切掉读段的低质量末端碱基来获得高质量读段。

发明人在Illumina HiSeq 2000平台上从165个样品(88个病例和77个对照)中总共输出每个样品约4.77Gb的粪便微生物群测序数据(高质量纯净数据)(表2)。

表2宏基因组数据总结。第四列报告了来自Wilcoxon秩和检验的结果。

参数	对照	病例	P值
				平均原始碱基(G)	4.85	4.92	0.831
去除低质量碱基后	4.76(98.14％)	4.79(97.36％)
				去除人类读段后	4.73(97.53％)	4.78(97.15％)	0.874

1.4宏基因组数据处理和分析

1.4.1基因目录构建

基因目录构建。采用与用于构建2型糖尿病基因目录相同的参数(Qin,J.等人，Ametagenome-wide association study of gut microbiota in type 2diabetes.Nature490,55–60(2012),通过引用并入本文中)，发明人分别采用SOAPdenovo v1.06(Li,R.等人，De novo assembly of human genomes with massively parallel short readsequencing.Genome Research 20,265-272,doi:10.1101/gr.097261.109(2009),通过引用并入本文中)和GeneMark v2.7(Zhu，W.，Lomsadze，A.&Borodovsky，M.Ab initio geneidentification metagenomic sequences.Nucleic acids research 38，e132，doi：10.1093/nar/gkq275(2010)，通过引用并入本文中)对165个样品的高质量读段进行了从头组装和基因预测。利用BLAT对所有预测的基因进行成对比对，其中超过其90％的长度可以以超过95％的同一性(不允许有洞)比对到另一个的基因作为冗余被去除，产生出的非冗余基因目录包括4,537,046个基因(4.5M基因目录)。

基因的分类分配。利用在公开的T2D论文(Qin等人，2012，同上)中描述的内部流程(pipeline)进行预测基因的分类学分配。

1.4.2数据配置文件构建

基因谱。将这些4,537,046个基因及其在165个样品中的相对丰度的相关测量值用于建立关联研究的基因谱(本发明人采用公开的T2D论文(Qin等人，2012，同上)中描述的相同方法计算相对基因丰度。

IMG物种和mOTU物种概况。以默认参数，将全部粪便纯净读段分别比对到来自IMGv400(Markowitz,V.M.等人，IMG:the integrated microbial genomes database andcomparative analysis system.Nucleic acids research 40,D115-D122(2012),通过引用并入本文中)的4,653个参考基因组和mOTU参考的79268个序列(unagawa,S.等人，Metagenomic species profiling using universal phylogenetic markergenes.Nature methods 10,1196-1199(2013)，通过引用并入本文中)。鉴别出1290个IMG物种(在至少10个受试者中共有的物种)和560个物种水平mOTU。

1.4.3影响肠道微生物群基因特征的因素分析。本发明人采用置换多元方差分析(PERMANOVA)对4.5M参考基因目录的基因谱评估25种不同特征，包括CAD状态、HDLC、CHOL、性别、FBG、高血压、APOB、年龄、CREA、LDLC、HbA1c、APOA、TP、糖尿病、ALB、TRIG、BMI、WHR、Lpa、HBDH、CKMB、AST、CK、ProBNP_E_、ALT。本发明人使用在R软件中的“vegan”包中实施的方法进行分析，并且通过10,000次置换获得置换的P值。本发明人还用Benjamini-Hochberg方法在R软件中采用“p.adjust”来校正多重测试，以获得每个测试的q值。PERMANOA鉴别出与肠道微生物相关的两个重要因素(基于基因谱)(q<0.05，表3)。分析表明，CAD和HDLC状态都是最强的相关标记物，证明疾病状态是影响肠道微生物群组成的主要决定因素。性别、年龄和一些CAD临床指标如CHOL、FGB、高血压和APOB也是重要因素。

表3基于基因谱的欧氏距离分析(euclidean distance analysis)的PERMANOVA。所述分析用于测试临床参数和ACVD状态是否对肠道微生物群有显著影响，其q值<0.05。

1.4.4鉴别ACVD相关标记物

鉴别ACVD相关基因。为了鉴别宏基因组模式和ACVD之间的关联，在2.1M高频基因(在所有165个样品中存在于少于10个样品中的基因被移除)谱中使用双尾Wilcoxon秩和检验。获得438,750个基因标记物(2.1M基因的20.48％)，其在病例或对照中富集，其P值<0.01，FDR＝2.23％(图1)。

估计错误发现率(FDR)。代替顺序P值拒绝方法，本发明人应用在先前研究中提出的“q值”方法来估计FDR(Storey,J.D.A direct approach to false discoveryrates.Journal of the Royal Statistical Society 64,479-498(2002)，通过引用并入本文中)。

受试者工作特性(ROC)分析。发明人应用ROC分析来评估基于宏基因组标记物的ACVD分类器的性能。然后，发明人使用R中的“pROC”包来绘制ROC曲线。

1.4.5 MLG的构建和ACVD相关MLG物种标记物的鉴别

基于438,750个ACVD相关标记物基因谱的126种MLG物种。本发明人使用438,750个基因标记物，采用在公开的T2D论文(Qin等人，2012，同上)中描述的相同方法构建宏基因组连锁群(MLG)。所有438,750个基因通过将这些基因比对到IMG v400中的4,653个参考基因组来注释。如果超过50％的组成基因注释到该基因组，则MLG被指定到该基因组，否则其被称为未分类。选择基因数>550的总共136个MLG基因组，将属于相同种类的这些MLG基因组分组以构建MLG物种，最终本发明人获得127种MLG物种。本发明人利用Benjamini-Hochberg调整对127种MLG物种进行了Wilcoxon秩和检验，并且选择出126种MLG作为ACVD相关MLG，其q<0.05。为了估计MLG物种的相对丰度，本发明人在去除5％最低和5％最高丰度基因后估计MLG物种的基因的平均丰度(Qin等人，2012，同上)。

总之，本发明人基于438,750个基因的分布和出现率(Qin等人，2012，同上)构建了136个宏基因组连锁群(MLG>550个基因)，94.8％的显著基因(P值<0.01)包括在MLG中。在NCBI数据库中注释136个MLG(每个>550个基因，>50％覆盖率并且q<0.05)，并且将来自相同种类的MLG分组以获得126种MLG物种。

65个MLG物种标记物鉴别。为了鉴别126个MLG物种标记物，发明人基于126个ACVD相关MLG物种在2.10版R软件中使用“随机森林4.5-36”包。首先，本发明人按照“随机森林”方法给出的重要性将所有126种MLG物种分类(Liaw,Andy&Wiener,Matthew.Classification and Regression by randomForest,R News(2002),Vol.2/3p.18，通过引用并入本文中)。通过创建排列靠前的MLG物种的递增子集来构建MLG标记物组，从5种MLG物种开始，并在所有126种MLG物种结束。对于每个MLG标记物组，发明人计算了我们的165个中国人群组中的假预测率。最后，选择出具有最低假预测率的65种MLG物种集作为MLG物种标记物(图2，表4和表5-1、5-2)，其中假阴性(FN)率为6.81％(6/88)和假阳性(FP)率3.89％(3/77)(图3，训练集)。此外，发明人基于所选择的MLG物种标记物利用来自随机森林模型的疾病的OOB(out of bag)预测概率绘制ROC曲线(表6-1、6-2、6-3、6-4、6-5)，并利用R软件包“pROC”计算ROC曲线下面积(AUC)为98.17％(95％CI：96.6％-99.74％)(图4)。

在65种MLG物种中，已知对照富集的MLG物种单形拟杆菌(q＝4.21E-11)、普通拟杆菌(q＝1.80E-09)和梭菌目属-SS3/4(q＝1.68E-08)是已知的产SCFA的细菌。大多数病例中富集的MLG物种(共51种)是来自链球菌(9/11MLG物种是口腔病原体)、梭菌目(6种MLG物种)、瘤胃球菌(4种MLG物种)和乳杆菌(4种MLG物种)的条件致病菌。粘滑罗斯菌自然地栖息在口腔和上呼吸道中，并且越来越多地被认为是与假体装置感染和心内膜炎相关的新兴的条件致病菌。鲍氏梭菌分离自人粪便材料、血液和腹腔内脓肿，是革兰氏阳性病原体，并且可产生一些包括神经毒素的毒素，它在人类临床显著感染中遇到，其在自闭症儿童的平均数是对照儿童的46倍(P值＝0.01)。血孪生球菌可以加强免疫缺陷患者的炎症。嗜粘蛋白阿克曼氏菌也在CAD患者中富集。

1.4.6鉴别ACVD相关的IMG物种和mOTU物种。IMG物种标记物和基于IMG物种和mOTU物种谱的mOTU物种标记物的鉴别，本发明人鉴别出q<0.05(Wilcoxon秩和检验与Benjamini-Hochberg调整)的ACVD相关的IMG物种和mOTU物种。随后，如在MLG物种标记物选择中一样，采用随机森林方法选择IMG物种标记物和mOTU物种标记物。

通过Wilcoxon秩和检验和随机森林选择，具有ROC 98.52％的65个IMG物种和具有ROC 96.16％的15个mOTU物种也将CAD患者与健康受试者明显分离(q<0.05；参见表7、8)。通过与65个MLG标记物重叠，发明人发现包括口腔链球菌、血链球菌、缓症链球菌和婴儿链球菌的口腔原病原体和嗜粘蛋白阿克曼氏菌在病例中显著分布。

本发明人基于来自链球菌属(口腔链球菌、血链球菌、缓症链球菌和婴儿链球菌)的4种微生物作为生物标记物利用来自随机森林模型的病例的OOB(out of bag)预测概率来绘制ROC曲线作为生物标记物(表9)，并且使用R软件包“pROC”计算ROC曲线下的面积为85.86％(95％CI：80.24％-91.48％)(图5)。假阴性(FN)率为28.40％(25/88)，并且假阳性(FP)率为20.77％(16/77)。

实施例2.在另外86个个体中验证生物标记物

为了验证生物标记物(即来自链球菌属的65个选定的MLG和4种微生物)的区分能力，本发明人使用另一个新的独立研究组，包括用作测试集的29个病例样品和57个对照样品(表10)，并且也在广东省人民医院收集。

表10.样品信息

组	病例	对照	总数
				测试集	29	57	86

对于每个样品，提取DNA并构建DNA文库，然后如实施例1所述进行高通量测序。发明人通过使用来自该MLG的基因的相对丰度值，估计所有样品中MLG的相对丰度(Qin等，2012，同上)。

关于随机森林模型，在2.10版本R软件中使用“randomForest 4.5-36”包，输入为训练数据集(即分别为表6-1、6-2、6-3、6-4、6-5或表9)，样品疾病状态(训练数据集为矩阵，每行代表MLG；每列代表样品；每个细胞代表样品中MLG的相对丰度分布；实施例1中训练样本的样品疾病状态为矢量，1为CAD，0为对照)和测试集(仅为测试集的MLG相对丰度分布)。然后，发明人使用R软件中的随机森林包的随机森林函数来构建分类，并且使用预测函数来预测测试集。输出为包含预测结果的矩阵(第一列“0”是健康概率；第二列“1”是CAD的概率；截止值是0.5，并且如果CAD的概率≥0.5，则受试者有风险患有CAD)。

发明人使用65个选定的MLG重新进行随机森林，然后计算疾病的概率(表11，图3测试集)。在测试集(n＝86，29个病例样品和57个对照样品)中测试模型并计算预测误差。假阴性(FN)率为6.89％(2/29)并且假阳性(FP)率为21.05％(12/57)，并且ROC曲线下面积为94.34％(95％CI：89.86％-98.83％)。

此外，发明人使用来自4种链球菌属(口腔链球菌、血链球菌、缓症链球菌和婴儿链球菌)的微生物作为生物标记物，以测试分离CAD患者和对照的能力(表11)，发现测试集中假阴性(FN)率为17.24％(5/29)并且假阳性(FP)率为35.08％(20/57)，并且ROC曲线下面积为81.94％(95％CI：72.98％-90.9％)。

表11 65种MLG和4种MLG的预测结果

因此，本发明人基于CAD相关基因标记物通过随机森林模型鉴别出并验证了65种CAD相关的肠道微生物和4种优化的肠道微生物。并且发明人已经构建了基于这65种CAD相关的肠道微生物和4种优化的肠道微生物来评估CAD疾病的风险的方法。

尽管已经示出和描述了示例性实施例，但是本领域技术人员应当理解，上述实施例不能被解释为限制本公开，并且可以在不脱离本公开的精神、原理和范围的情况下对实施例进行改变、替换和修改。

Claims

1.生物标记物组在制备用于预测待测试的受试者体内动脉粥样硬化性心血管疾病(ACVD)的风险的标志物的用途，所述生物标记物组包括表5-2中所示的SEQ ID NO：1至7293的序列。

2.一种用于预测受试者体内与微生物群相关的疾病的生物标记物组，其由以下构成：

包括表5-2中所示的SEQ ID NO：1至7293的肠道生物标记物。

3.根据权利要求2所述的生物标记物组，其中所述疾病是冠状动脉疾病或相关的心脏病。

4.一种用于确定权利要求1～3任一项所限定的生物标记物组的试剂盒，其包括用于PCR扩增并根据DNA序列设计的引物，所述DNA序列如权利要求1或2所限定的。

5.一种用于确定权利要求1～3任一项所限定的生物标记物组的试剂盒，其包括针对SEQ ID NO：1至7293基因设计的探针。

6.检测权利要求1～3任一项所限定的生物标记物组的试剂在制备用于预测待测试的受试者体内动脉粥样硬化性心血管疾病(ACVD)的风险的试剂盒的用途，其包括：

(1)从所述待测试的受试者收集样品；

(2)确定步骤(1)中获得的所述样品中根据权利要求1至3中任一项所限定的生物标记物组的每个生物标记物的相对丰度信息；

(3)通过采用多元统计模型将所述待测试的受试者的每个生物标记物的所述相对丰度信息与训练数据集进行比较来获得CAD的概率，

其中所述CAD的概率大于截止值表明所述待测试的受试者患有或有风险发展所述动脉粥样硬化性心血管疾病(ACVD)。

7.根据权利要求6所述的用途，其中所述训练数据集是采用多元统计模型基于多个患有ACVD的受试者和多个正常受试者的每个生物标记物的相对丰度信息构建的。

8.根据权利要求7所述的用途，其中所述多元统计模型为随机森林模型。

9.根据权利要求7所述的用途，其中所述训练数据集是矩阵，所述矩阵中每行表示根据权利要求1至3中任一项所限定的生物标记物组的每个生物标记物，每列表示样品，每个单元表示所述样品中的生物标记物的相对丰度谱，样品疾病状态为矢量，其中1为CAD，0为对照。

10.根据权利要求7所述的用途，其中每个生物标记物的相对丰度是基于SEQ ID NO：1至7293的相对丰度信息获得的。

11.根据权利要求7所述的用途，其中所述训练数据集为表9，并且所述ACVD的概率为至少0.5指示所述待测试的受试者患有或有风险发展动脉粥样硬化性心血管疾病(ACVD)。