发明内容
本公开的实施方式旨在至少在一定程度上解决现有技术中存在的问题的至少之一。
本发明是基于本发明人的以下发现:
肠道微生物的评估和表征已经成为包括类风湿性关节炎(RA)的人类疾病的主要研究领域。为了对RA患者的肠道微生物内容物进行分析,本发明人基于对来自212个个体的微生物DNA进行深度鸟枪法测序进行了宏基因组关联分析(Metagenome-Wide AssociationStudy,MGWAS)(Qin,J.等人.A metagenome-wide association study of gut microbiotain type2diabetes.Nature 490,55–60(2012),通过引用并入本文)的方案。本发明人基于RA-相关的基因标记物通过随机森林模型鉴定出并证实了肠道/牙齿/唾液标记物组(29个肠道MLG\28个牙齿MLG\19个唾液MLG)。为了基于这些29个肠道MLG\28个牙齿MLG\19个唾液MLG直观地评估RA疾病的风险,本发明人基于训练集中的MLG标记物的相对丰度谱通过随机森林模型分别计算了疾病的概率。本发明人的数据提供了对与RA风险相关的肠道/牙齿/唾液宏基因组的特征的深入理解,对将来研究肠道/牙齿/唾液宏基因组在其它相关疾病中的病理生理学作用提供了范例,以及提供了基于微生物群的用于评估个体有风险患有这种疾病的方法的潜在用途。
据认为,由于以下原因,RA-相关的肠道微生物群(29个肠道MLG\28个牙齿MLG\19个唾液MLG)对在早期阶段增加RA检测是有价值的。第一,本发明的标记物具有特异性和灵敏性。第二,粪便的分析保证准确性、安全性、可负担性和患者依从性。并且粪便的样本是可运输的。基于聚合酶链反应(PCR)的试验舒适且无创,所以人们会更容易参与给定的筛选程序。第三,本发明的标记物还可以用作用于对RA患者进行治疗监测的工具以检测对治疗的响应。
一方面,提供了用于预测受试者与微生物群有关的疾病的生物标记物组,且根据本公开的实施方式,该生物标记物组由肠道生物标记物、牙齿生物标记物、唾液生物标记物或具有包括SEQ ID NO:1至9319的至少部分序列的基因组DNA的微生物组成,其中
肠道生物标记物包括齿双歧杆菌(Bifidobacterium dentium)、RA-2633、肠球菌属(Enterococcus sp.)、RA-781、Gordonibacter pamelaeae、RA-3396、RA-6638、RA-2441、RA-527、梭状芽孢杆菌属(Clostridium sp.)、RA-2637、柠檬酸杆菌属(Citrobacter sp.)、真杆菌属(Eubacterium sp.)、柠檬酸杆菌属、RA-3215、Con-1722、Con-4360、Con-4212、Con-1261、两歧双歧杆菌(Bifidobacterium bifidum)、肺炎克雷伯菌(Klebsiellapneumoniae)、Con-1423、韦荣氏球菌属(Veillonella sp.)、Con-4095、Con-4103、Con-1735、Con-1710、Con-1832、Con-1170,
牙齿生物标记物包括RA-10848、RA-9842、RA-9941、RA-9938、RA-10684、RA-9998、Con-7913、Con-20702、Con-11、Con-8169、Con-1708、Con-7847、Con-5233、Con-791、Con-5566、Con-4455、Con-13169、Con-6088、Con-5554、Con-14781、Con-2466、Con-483、Con-2562、Con-4701、Con-4824、Con-5030、Con-757、Con-530,以及
唾液生物标记物包括RA-27683、RA-9651、RA-13621、RA-27616、Con-6908、Con-305、Con-1559、Con-1374、Con-6746、直肠弯曲杆菌(Campylobacter rectus)、Con-1141、Con-20、链球菌属(Streptococcus sp.)、Con-1238、Con-1073、Con-636、Con-1、牙龈卟啉单胞菌(Porphyromonas gingivalis)、乳球菌属(Lactococcus sp.),
或者基因组DNA包含SEQ ID NO:1至9319的至少部分序列的微生物。
可选地,生物标记物组由列于表2-2中的种属中的至少一种种属组成,优选地由至少10%、至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少100%的列于表2-2中的种属组成。
根据本公开的实施方式,肠道生物标记物包括如表5中所述的SEQ ID NO:1至9319的至少部分序列。
根据本公开的实施方式,肠道生物标记物包括齿双歧杆菌JCVIHMP022、普氏菌CB7(Prevotella copri CB7)、DSM 18205、屎肠球菌E980(Enterococcus faecium E980)、卵形瘤胃球菌A2-162(Ruminococcus obeum A2-162)、Gordonibacter pamelaeae 7-10-1-bT、DSM 19378、布氏瘤胃球菌L2-63(Ruminococcus bromii L2-63)、凸腹真杆菌ATCC 27560(Eubacterium ventriosum ATCC 27560)、产酸克雷伯菌KCTC 1686(Klebsiella oxytocaKCTC 1686)、Clostridium asparagiforme DSM 15981、普氏菌CB7(Prevotella copriCB7)、DSM 18205、弗氏柠檬酸杆菌4_7_47CFAA(Citrobacter freundii 4_7_47CFAA)、真杆菌属3_1_31(Eubacterium sp.3_1_31)、柠檬酸杆菌属30_2(Citrobacter sp.30_2)、梭状芽孢杆菌属7_2_43FAA(Clostridium sp.7_2_43FAA)、罗氏弧菌M50/1(Roseburiaintestinalis M50/1)、Dialister invisus DSM 15470、Bacteroides plebeius M12、DSM17135、两歧双歧杆菌S17(Bifidobacterium bifidum S17)、肺炎克雷伯菌NTUH-K2044(Klebsiella pneumoniae NTUH-K2044)、韦荣氏球菌属口腔分类群158F0412(Veillonellasp.oral taxon 158F0412)、睾丸酮丛毛单胞菌KF-1(Comamonas testosteroni KF-1)、肺炎克雷伯菌NTUH-K2044(Klebsiella pneumoniae NTUH-K2044)、非典型韦荣球菌ACS-134-V-Col7a(Veillonella atypica ACS-134-V-Col7a)、澳大利亚链球菌ATCC 700641(Streptococcus australis ATCC 700641)、Parabacteroides merdae ATCC 43184,
牙齿生物标记物包括放线菌属口腔分类群180F0310(Actinomyces sp.oraltaxon 180F0310)、粘滑罗斯菌DY-18(Rothia mucilaginosa DY-18)、Actinomycesgraevenitzii C83、龋齿放线菌ATCC 17982(Actinomyces odontolyticus ATCC 17982)、非典型韦荣球菌ACS-134-V-Col7a(Veillonella atypica ACS-134-V-Col7a)、放线菌属F0384(Actinomyces sp.F0384)、放线菌属口腔分类群848F0332(Actinomyces sp.oraltaxon 848F0332)、粘膜奈瑟菌M26(Neisseria mucosa M26)、ATCC 25996、放线菌属口腔分类群448F0400(Actinomyces sp.oral taxon 448F0400)、福赛斯坦纳菌ATCC 43037(Tannerella forsythensis ATCC 43037)、放线菌属口腔分类群448F0400(Actinomycessp.oral taxon 448F0400)、杆状奈瑟菌ATCC BAA-1200(Neisseria bacilliformis ATCCBAA-1200)、互养菌门细菌SGP1(Synergistetes bacterium SGP1)、奇异口动菌ATCC 51599(Lautropia mirabilis ATCC 51599)、牙龈二氧化碳嗜纤维菌ATCC 33624(Capnocytophaga gingivalis ATCC 33624)、人心杆菌ATCC 15826(Cardiobacteriumhominis ATCC 15826)、牙龈二氧化碳嗜纤维菌ATCC 33624(Capnocytophaga gingivalisATCC 33624)、奇异口动菌ATCC 51599(Lautropia mirabilis ATCC 51599)、懒惰约翰森菌ATCC 51276(Johnsonella ignava ATCC 51276)、费氏丙酸杆菌谢氏CIRM-BIA1(Propionibacterium freudenreichii shermanii CIRM-BIA1)、齿垢密螺旋体ATCC 35405(Treponema denticola ATCC 35405)、梭杆菌属口腔分类群370F0437(Fusobacteriumsp.oral taxon 370F0437)、奇异口动菌ATCC 51599(Lautropia mirabilis ATCC 51599)、侵蚀艾肯菌ATCC 23834(Eikenella corrodens ATCC 23834)、有害新月形单胞菌ATCC43541(Selenomonas noxia ATCC 43541)、利氏卟啉单胞菌DSM 23370(Porphyromonaslevii DSM 23370)、Bulleidia extructa W1219,
唾液生物标记物包括溶血孪生球菌ATCC 10379(Gemella haemolysans ATCC10379)、非典型韦荣球菌ACS-049-V-Sch6(Veillonella atypica ACS-049-V-Sch6)、龋齿放线菌ATCC 17982(Actinomyces odontolyticus ATCC 17982)、龋齿放线菌ATCC 17982(Actinomyces odontolyticus ATCC 17982)、齿垢密螺旋体ATCC 35405(Treponemadenticola ATCC 35405)、放线菌属口腔分类群448F0400(Actinomyces sp.oral taxon448F0400)、文氏密螺旋体ATCC 35580(Treponema vincentii ATCC 35580)、澳大利亚链球菌ATCC 700641(Streptococcus australis ATCC 700641)、直肠弯曲杆菌RM3267(Campylobacter rectus RM3267)、CCUG 20446、放线菌属口腔分类群171F0337(Actinomyces sp.oral taxon 171F0337)、齿垢密螺旋体ATCC 35405(Treponemadenticola ATCC 35405)、血链球菌VMC66(Streptococcus sanguinis VMC66)、放线菌属口腔分类群448F0400(Actinomyces sp.oral taxon 448F0400)、放线菌属口腔分类群448F0400(Actinomyces sp.oral taxon 448F0400)、杆状奈瑟菌ATCC BAA-1200(Neisseria bacilliformis ATCC BAA-1200)、鼻疽伯克霍尔德氏菌PRL-20(Burkholderiamallei PRL-20)、牙龈卟啉单胞菌TDC60(Porphyromonas gingivalis TDC60)、乳酸乳球菌乳亚种KF147(Lactococcus lactis lactis KF147)。
在本公开的另一方面,提供了用于预测受试者与微生物群有关的疾病的生物标记物组,根据本公开的实施方式,该生物标记物组由肠道生物标记物、牙齿生物标记物和唾液标记物组成,其中
肠道生物标记物包括SEQ ID NO:1至9319的至少部分序列。
根据本公开的实施方式,疾病为类风湿性关节炎或相关疾病。
在本公开的另一方面,提供了用于确定上述基因标记物组的试剂盒,包括用于PCR扩增和根据如下列出的DNA序列设计的引物:
肠道生物标记物包括SEQ ID NO:1至9319的至少部分序列。
在本公开的另一方面,提供了用于确定上述基因标记物组的试剂盒,包括一种以上根据如下所列出的基因设计的探针:肠道生物标记物包括SEQ ID NO:1至9319的至少部分序列。
在本公开的另一方面,提供了上述基因标记物组用于预测待测受试者类风湿性关节炎或相关疾病的风险的用途,包括:
(1)从待测受试者中采集样本;
(2)确定步骤(1)中获得的样本中根据权利要求1至5中任一项所述的生物标记物组的各个生物标记物的相对丰度信息;
(3)通过采用多元统计模型将待测受试者的各个生物标记物的相对丰度信息与训练数据集进行比较获得类风湿性关节炎的概率,
其中类风湿性关节炎的概率大于阈值表明待测受试者患有类风湿性关节炎或相关疾病或者有风险发展类风湿性关节炎或相关疾病。
根据本公开的实施方式,训练数据集是采用多元统计模型基于多个患有类风湿性关节炎的受试者和多个正常受试者的各个生物标记物的相对丰度信息构建的,可选地,多元统计模型为随机森林模型。
根据本公开的实施方式,训练数据集为矩阵,其中各行表示根据权利要求1至5中任一项所述的生物标记物组的各个生物标记物,各列表示样本,各个单元表示样本中的生物标记物的相对丰度谱,且样本疾病状态为向量,其中1表示类风湿性关节炎且0表示对照。
根据本公开的实施方式,齿双歧杆菌、RA-2633、肠球菌属、RA-781、Gordonibacterpamelaeae、RA-3396、RA-6638、RA-2441、RA-527、梭状芽孢杆菌属、RA-2637、柠檬酸杆菌属、真杆菌属、柠檬酸杆菌属、RA-3215、Con-1722、Con-4360、Con-4212、Con-1261、两歧双歧杆菌、肺炎克雷伯菌、Con-1423、韦荣氏球菌属、Con-4095、Con-4103、Con-1735、Con-1710、Con-1832和Con-1170中的每一个的相对丰度信息,例如齿双歧杆菌JCVIHMP022、普氏菌CB7、DSM 18205、屎肠球菌E980、卵形瘤胃球菌A2-162、Gordonibacter pamelaeae 7-10-1-bT、DSM 19378、布氏瘤胃球菌L2-63、凸腹真杆菌ATCC 27560、产酸克雷伯菌KCTC 1686、Clostridium asparagiforme DSM 15981、普氏菌CB7、DSM 18205、弗氏柠檬酸杆菌4_7_47CFAA、真杆菌属3_1_31、柠檬酸杆菌属30_2、梭状芽孢杆菌属7_2_43FAA、罗氏弧菌M50/1、Dialister invisus DSM 15470、Bacteroides plebeius M12、DSM 17135、两歧双歧杆菌S17、肺炎克雷伯菌NTUH-K2044、韦荣氏球菌属口腔分类群158F0412、睾丸酮丛毛单胞菌KF-1、肺炎克雷伯菌NTUH-K2044、非典型韦荣球菌ACS-134-V-Col7a、澳大利亚链球菌ATCC700641、Parabacteroides merdae ATCC 43184的相对丰度信息是根据SEQ ID NO:1至9319的相对丰度信息获得的。
根据本公开的实施方式,训练数据集为表8-1和表8-2的至少之一,且类风湿性关节炎的概率为至少0.5表明待测受试者患有类风湿性关节炎或相关疾病或者有风险发展类风湿性关节炎或相关疾病。
在本公开的另一方面,提供了上述基因标记物在制备用于预测待测受试者类风湿性关节炎或相关疾病的风险的试剂盒的用途,包括:
(1)从待测受试者中采集样本;
(2)确定步骤(1)中获得的样本中根据权利要求1至5中任一项所述的生物标记物组的各个生物标记物的相对丰度信息;
(3)通过采用多元统计模型将待测受试者的各个生物标记物的相对丰度信息与训练数据集进行比较获得类风湿性关节炎的概率,
其中类风湿性关节炎的概率大于阈值表明待测受试者患有类风湿性关节炎或相关疾病或者有风险发展类风湿性关节炎或相关疾病。
根据本公开的实施方式,训练数据集是采用多元统计模型基于多个患有类风湿性关节炎的受试者和多个正常受试者的各个生物标记物的相对丰度信息构建的,可选地,多元统计模型为随机森林模型。
根据本公开的实施方式,训练数据集为矩阵,其中各行表示根据权利要求1至5中任一项所述的生物标记物组的各个生物标记物,各列表示样本,各个单元表示样本中的生物标记物的相对丰度谱,且样本疾病状态为向量,其中1表示类风湿性关节炎且0表示对照。
根据本公开的实施方式,齿双歧杆菌、RA-2633、肠球菌属、RA-781、Gordonibacterpamelaeae、RA-3396、RA-6638、RA-2441、RA-527、梭状芽孢杆菌属、RA-2637、柠檬酸杆菌属、真杆菌属、柠檬酸杆菌属、RA-3215、Con-1722、Con-4360、Con-4212、Con-1261、两歧双歧杆菌、肺炎克雷伯菌、Con-1423、韦荣氏球菌属、Con-4095、Con-4103、Con-1735、Con-1710、Con-1832和Con-1170中的每一个的相对丰度信息,例如齿双歧杆菌JCVIHMP022、普氏菌CB7、DSM 18205、屎肠球菌E980、卵形瘤胃球菌A2-162、Gordonibacter pamelaeae 7-10-1-bT、DSM 19378、布氏瘤胃球菌L2-63、凸腹真杆菌ATCC 27560、产酸克雷伯菌KCTC 1686、Clostridium asparagiforme DSM 15981、普氏菌CB7、DSM 18205、弗氏柠檬酸杆菌4_7_47CFAA、真杆菌属3_1_31、柠檬酸杆菌属30_2、梭状芽孢杆菌属7_2_43FAA、罗氏弧菌M50/1、Dialister invisus DSM 15470、Bacteroides plebeius M12、DSM 17135、两歧双歧杆菌S17、肺炎克雷伯菌NTUH-K2044、韦荣氏球菌属口腔分类群158F0412、睾丸酮丛毛单胞菌KF-1、肺炎克雷伯菌NTUH-K2044、非典型韦荣球菌ACS-134-V-Col7a、澳大利亚链球菌ATCC700641、Parabacteroides merdae ATCC 43184的相对丰度信息是根据SEQ ID NO:1至9319的相对丰度信息获得的。
根据本公开的实施方式,训练数据集为表8-1和表8-2的至少之一,且类风湿性关节炎的概率为至少0.5表明待测受试者患有类风湿性关节炎或相关疾病或者有风险发展类风湿性关节炎或相关疾病。
在本公开的另一方面,提供了诊断受试者是否具有与微生物群有关的异常状态或者有风险发展与微生物群有关的异常状态的方法,包括:
确定来自受试者的样本中的上述生物标记物的相对丰度,和
基于该相对丰度确定受试者是否具有与微生物群有关的异常状态或者有风险发展与微生物群有关的异常状态。
根据本公开的实施方式,该方法包括:
(1)从待测受试者中采集样本;
(2)确定步骤(1)中获得的样本中根据权利要求1至5中任一项所述的生物标记物组的各个生物标记物的相对丰度信息;
(3)通过采用多元统计模型将待测受试者的各个生物标记物的相对丰度信息与训练数据集进行比较获得类风湿性关节炎的概率,
其中类风湿性关节炎的概率大于阈值表明待测受试者患有类风湿性关节炎或相关疾病或者有风险发展类风湿性关节炎或相关疾病。
根据本公开的实施方式,训练数据集是采用多元统计模型基于多个患有类风湿性关节炎的受试者和多个正常受试者的各个生物标记物的相对丰度信息构建的,可选地,多元统计模型为随机森林模型。
根据本公开的实施方式,训练数据集为矩阵,其中各行表示根据权利要求1至5中任一项所述的生物标记物组的各个生物标记物,各列表示样本,各个单元表示样本中的生物标记物的相对丰度谱,且样本疾病状态为向量,其中1表示类风湿性关节炎且0表示对照。
根据本公开的实施方式,齿双歧杆菌、RA-2633、肠球菌属、RA-781、Gordonibacterpamelaeae、RA-3396、RA-6638、RA-2441、RA-527、梭状芽孢杆菌属、RA-2637、柠檬酸杆菌属、真杆菌属、柠檬酸杆菌属、RA-3215、Con-1722、Con-4360、Con-4212、Con-1261、两歧双歧杆菌、肺炎克雷伯菌、Con-1423、韦荣氏球菌属、Con-4095、Con-4103、Con-1735、Con-1710、Con-1832和Con-1170中的每一个的相对丰度信息,例如齿双歧杆菌JCVIHMP022、普氏菌CB7、DSM 18205、屎肠球菌E980、卵形瘤胃球菌A2-162、Gordonibacter pamelaeae 7-10-1-bT、DSM 19378、布氏瘤胃球菌L2-63、凸腹真杆菌ATCC 27560、产酸克雷伯菌KCTC 1686、Clostridium asparagiforme DSM 15981、普氏菌CB7、DSM 18205、弗氏柠檬酸杆菌4_7_47CFAA、真杆菌属3_1_31、柠檬酸杆菌属30_2、梭状芽孢杆菌属7_2_43FAA、罗氏弧菌M50/1、Dialister invisus DSM 15470、Bacteroides plebeius M12、DSM17135、两歧双歧杆菌S17、肺炎克雷伯菌NTUH-K2044、韦荣氏球菌属口腔分类群158F0412、睾丸酮丛毛单胞菌KF-1、肺炎克雷伯菌NTUH-K2044、非典型韦荣球菌ACS-134-V-Col7a、澳大利亚链球菌ATCC700641、Parabacteroides merdae ATCC 43184的相对丰度信息是根据SEQ ID NO:1至9319的相对丰度信息获得的。
根据本公开的实施方式,训练数据集为表8-1和表8-2的至少之一,且类风湿性关节炎的概率为至少0.5表明待测受试者患有类风湿性关节炎或相关疾病或者有风险发展类风湿性关节炎或相关疾病。
具体实施方式
实施例
本文所使用的术语具有本发明相关领域的普通技术人员通常理解的含义。术语,如“一”、“一个”和“该”并非旨在仅指单数实体,而是包含采用具体实施方式来说明的一般类别。除了如在权利要求中概述的之外,本文中的术语用于描述本发明的具体实施方式,但是它们的用法不限制本发明。
实施方式
实施例1.鉴别和验证用于评估类风湿性关节炎风险的生物标记物
1.材料和方法
1.1样本采集和DNA提取
本发明人采集了一共212名个体的粪便样本(表1-1,粪便样本、牙菌斑样本和唾液样本),包含训练集(n=157,77未治疗的RA病例和80名健康对照)和测试集(对于相关病例-对照对,n=34,即8个有血缘关系的病例-对照对和9个不具有血缘关系的病例-对照对;对于DMARD-治疗的RA患者,n=21)。
粪便样本是在北京协和医院采集,冷冻运输并如前所述在BGI-深圳(深圳华大基因)进行提取(Qin,J.等人.A metagenome-wide association study of gut microbiotain type 2diabetes.Nature 490,55–60(2012),通过引用并入本文)。牙菌斑是用眼科镊子从牙齿表面刮取的直到具有3μl的体积。将样本转移至200μl含有10mM Tris、1mM EDTA、0.5%吐温20和200μg/ml蛋白酶K(Fermentas)的1×裂解缓冲液并在55℃下孵育2小时。在95℃下孵育10分钟终止裂解,并在运输前将样本冷冻在-80℃。按照针对粪便样本的方案进行DNA提取。对于唾液,将100μl唾液加入到100μl的2×裂解缓冲液中,擦拭后咽壁并加入到同一试管中,然后如牙齿样本一样对样品进行裂解和提取。
根据2010ACR/EULAR分类标准在北京协和医院对RA进行诊断。根据标准程序,在受试者到医院初诊时采集所有表型信息。招募18至65岁之间,疾病持续时间至少6周,至少1处关节肿胀和3处关节压痛的RA患者。如果患者具有慢性严重感染史、任何当前感染或任何类型的癌症,则将他们排除在外。将孕妇或哺乳期妇女排除在外。告知所有患者具有不孕的风险并将想要孩子的患者排除在外。尽管一些患者已经患RA多年,但他们是未用DMARD的,因为他们在就诊北京协和医院之前没有在当地医院被诊断患有RA,而且他们仅服用止痛药来缓解RA症状。
根据标准程序,在受试者到医院初诊时采集所有表型信息。212个用于肠道微生物基因目录构建的样本中仅有21个来自DMARD-治疗的患者的粪便样本且在这篇文章中没有进行分析。
这项研究得到了北京协和医院和深圳华大基因的机构审查委员会的批准。
表1-1.用于基因目录构建的样本
1.2宏基因组测序和组装
如前所述(Qin等人.2012,supra),在Illumina平台上进行双末端宏基因组测序(插入片段350bp,序列长度100bp),对测序读段进行质量控制并采用SOAPdenovo v2.04将测序读段重新组装成重叠群(Luo,R.等人.SOAPdenovo2:an empirically improvedmemory-efficient short-read de novo assembler.Gigascience 1,18(2012).,通过引用并入本文)。宿主污染的平均率对粪便样本来说为0.37%,对牙齿样本来说为5.55%,对唾液样本为40.85%。
1.3基因目录构建
利用GeneMark v2.7d对经过组装的重叠群的基因进行预测。采用BLAT(Kent,W.J.BLAT--the BLAST-like alignment tool.Genome Res.12,656–64(2002),通过引用并入本文)以90%重叠和95%同一性(不允许洞的存在)的阈值去除冗余基因,对于212个粪便样本(含有21个DMARD-治疗的样本)形成3,800,011个基因的非冗余基因目录,对于203个口腔样品(105个牙菌斑样本和98个唾液样本)形成3,234,997个基因的目录。利用BLAT(95%的同一性,90%重叠)将来自粪便样本的基因目录并入已有的包含430万个基因的肠道微生物参考目录中(Qin等人.2012,supra),形成包含590万个基因的最终目录。采用与出版的T2D论文(Qin等人,2012,同上)中相同的程序通过将高质量测序读段与肠道或口腔参考基因目录进行比对来确定基因的相对丰度。
1.4分类注释和丰度计算
利用先前详述的内部流程(pipeline)(Qin等人,2012,同上)根据IMG数据库(v400)对预测基因进行分类分配,70%重叠和65%同一性分配至门,85%同一性分配至属,95%同一性分配至种。从分类群基因的相对丰度计算分类群的相对丰度。
通过Wilcoxon秩和检验(其中p<0.05)确定患者和健康对照之间分类群的相对丰度的显著差异。
1.5宏基因组关联分析(MGWAS)
对于粪便微生物群的病例-对照比较,去除在少于6个样本(n=157)中检测到的基因导致具有3,110,085个基因的集。83,858个基因在对照和病例之间在相对丰度方面显示出差异(p<0.01,Wilcoxon秩和检验,FDR=0.3285)。根据这些标记物基因在所有样本中的丰度变化将它们聚类成MLG(Qin等人,2012,同上)。对于构建牙齿MLG,从2,247,835个基因(存在于至少6个样本中,n=105)中选择209820个标记物基因(p<0.01,Wilcoxon秩和检验,FDR=0.072)。对于唾液MLG,本发明人从2,404,726个基因(存在于至少6个样本中,n=98)中选择206399个标记物基因(p<0.01,Wilcoxon秩和检验,FDR=0.088)。
如先前所述(Qin等人,2012,同上),根据分类学和它们的组成基因的相对丰度进行分类分配和丰度分析。简言之,分配到种需要将MLG中的超过90%的基因与种的基因组比对时,具有超过95%的同一性,70%的查询重叠。将MLG分配至属要求其超过80%的基因与基因组比对,其中在DNA和蛋白序列中具有85%的同一性。示出与从所有基因计算的与基因组的平均同一性仅用于参考。根据MLG在所有样本中的丰度之间的Kendall相关性而不管病例-对照状态将MLG进一步聚类,并且同现网络通过Cytoscape 3.0.2可视化。
1.6基于MLG的分类器
利用训练群组(表1-2)的MLG丰度谱对随机森林模型(R.2.14,randomForest4.6-7软件包)(Liaw,Andy&Wiener,Matthew.Classification and Regression byrandomForest,R News(2002),第2/3期,第18页,通过引用并入本文)进行训练以选择MLG标记物的最佳集。在一个以上测试集上对该模型进行测试并计算预测误差。
关于随机森林模型,采用2.14版本的R中打包的“随机森林4.6-7软件包”,输入为训练数据集(即训练样本中选择的MLG的相对丰度谱)、样本疾病状态(训练样本的样本疾病状为向量,1代表RA,0代表对照)和测试集(只是测试集中选择的MLG的相对丰度谱)。然后本发明人采用来自R软件的随机森林软件包的随机森林函数构建分类,并采用预测函数来预测测试集。输出为预测结果(患病概率,阈值为0.5,且如果患病概率≥0.5,则受试者有风险患有RA)。
表1-2.训练集的样本信息(选自表1-1中的用于基因目录构建的样本)
2.结果
基于微生物群的RA患者的鉴定和验证
为了进一步说明RA相关的微生物群的诊断或预后价值,本发明人首先基于肠道MLG构建随机森林疾病分类器。采用来自对照和病例的85个肠道MLG标记物(至少100个基因)中的29个肠道MLG标记物的模型给出了训练集(n=157)(图1a、表2-1、表2-2、表5、表8-1、表8-2)中最低的预测误差和接受者操作特征(ROC)曲线下面积(AUC)为0.977。关于由具有血缘关系的病例-对照对和不具有血缘关系的病例-对照对(n=34,表1-3)组成的测试集,整体错误率为32%(图1b,表11)且AUC为0.706。因此,基于肠道MLG的模型对训练集和适用情况下对测试集的效能堪比或超过现有的基于RA血清标记物的分类器的效能(Van derHelm-van Mil,A.H.M.Risk estimation in rheumatoid arthritis-from bench tobedside.Nat.Rev.Rheumatol.(2014).doi:10.1038/nrrheum.2013.215,通过引用并入本文)。
类似地,选自171个牙齿MLG(至少100个基因)的28个MLG(表3-1,表3-2,表6,表9-1,表9-2)在训练集中给出0.864的AUC(图1d)。选自142个唾液MLG(至少100个基因)的19个MLG(表4-1,表4-2,表7,表10-1,表10-2)给出0.898的AUC(图1f)。这些结果表明粪便、牙齿和唾液微生物标记物对诊断RA都非常有用。
此外,对经DMARD治疗的患者样本(表1-3)测试肠道和牙齿MLG分类器仍然将它们中的大部分鉴定为RA患者,而具有低疾病活性的牙齿样本(DAS28)更常被归类为健康的(图1c,1e,表12),说明牙齿微生物群如实地表明了DMARD治疗的效果。此外,来自经DMARD治疗的患者的唾液样本通常被分类为对照,可能是由于DMARD对唾液微生物群的直接调节(图1g,表12)。总之,结果表明肠道和口腔MLG可以区分有效和无效治疗并且促进对治疗策略的评估。
表1-3测试集的样本信息
表5. 29个肠道最佳标记物的SEQ ID
MLG ID |
SEQ ID NO: |
基因数 |
mlg_id:2441 |
1~159 |
159 |
mlg_id:4103 |
160~304 |
145 |
mlg_id:4212 |
305~709 |
405 |
mlg_id:1047 |
710~856 |
147 |
mlg_id:1735 |
857~1536 |
680 |
mlg_id:4360 |
1537~1646 |
110 |
mlg_id:1796 |
1647~1798 |
152 |
mlg_id:3396 |
1799~2071 |
273 |
mlg_id:2472 |
2072~2309 |
238 |
mlg_id:1261 |
2310~2991 |
682 |
mlg_id:1832 |
2992~3093 |
102 |
mlg_id:6638 |
3094~3214 |
121 |
mlg_id:1722 |
3215~3353 |
139 |
mlg_id:1423 |
3354~3455 |
102 |
mlg_id:1170 |
3456~3558 |
103 |
mlg_id:3215 |
3559~3739 |
181 |
mlg_id:4095 |
3740~4381 |
642 |
mlg_id:2637 |
4382~4754 |
373 |
mlg_id:905 |
4755~4885 |
131 |
mlg_id:4111 |
4886~6743 |
1858 |
mlg_id:1710 |
6744~6862 |
119 |
mlg_id:2633 |
6863~7113 |
251 |
mlg_id:819 |
7114~7425 |
312 |
mlg_id:4158 |
7426~7736 |
311 |
mlg_id:527 |
7737~7854 |
118 |
mlg_id:784 |
7855~8048 |
194 |
mlg_id:2473 |
8049~8758 |
710 |
mlg_id:781 |
8759~8869 |
111 |
mlg_id:5 |
8870~9319 |
450 |
表6. 28个牙齿最佳标记物的SEQ ID
表7. 19个唾液最佳标记物的SEQ ID
MLG ID |
SEQ ID NO: |
基因数 |
mlg_id:1238 |
1~126 |
126 |
mlg_id:1559 |
127~231 |
105 |
mlg_id:6908 |
232~360 |
129 |
mlg_id:1141 |
361~519 |
159 |
mlg_id:6746 |
520~697 |
178 |
mlg_id:1 |
698~5680 |
4983 |
mlg_id:27683 |
5681~5851 |
171 |
mlg_id:1374 |
5852~6032 |
181 |
mlg_id:13 |
6033~8482 |
2450 |
mlg_id:1073 |
8483~9597 |
1115 |
mlg_id:29 |
9598~10469 |
872 |
mlg_id:636 |
10470~11246 |
777 |
mlg_id:9651 |
11247~11383 |
137 |
mlg_id:305 |
11384~11485 |
102 |
mlg_id:12 |
11486~14228 |
2743 |
mlg_id:20 |
14229~16239 |
2011 |
mlg_id:2831 |
16240~17605 |
1366 |
mlg_id:13621 |
17606~18115 |
510 |
mlg_id:27616 |
18116~9319 |
123 |
因此,本发明人给基于RA相关的基因标记物通过随机森林模型已经鉴别出并验证了标记物组(29个肠道MLG\28个牙齿MLG\19个唾液MLG)。并且本发明人已经构建出基于这些RA相关的肠道微生物群来评估RA疾病的风险的RA分类器。
尽管已经示出和描述了示例性实施例,但是本领域技术人员应当理解,上述实施例不能被解释为限制本公开,并且可以在不脱离本公开的精神、原理和范围的情况下对实施例进行改变、替换和修改。