CN108064272B

CN108064272B - 用于类风湿性关节炎的生物标记物及其用途

Info

Publication number: CN108064272B
Application number: CN201580053212.9A
Authority: CN
Inventors: 冯强; 张东亚; 贾慧珏; 王东辉; 王俊
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2014-09-30
Filing date: 2015-07-07
Publication date: 2021-07-09
Anticipated expiration: 2035-07-07
Also published as: EP3201317A1; CN108064263A; RU2017115001A3; CN108064272A; WO2016050111A1; CA2963013A1; EP3201317A4; WO2016050110A1; AU2015327511B2; HK1248753A1; US10883146B2; JP6485843B2; RU2017115001A; CN108064263B; CA2963013C; EP3201317B1; KR20170063879A; US20170226565A1; RU2691375C2; KR101986442B1

Abstract

描述了用于类风湿性关节炎(RA)的生物标记物。鉴别和验证了肠道和口腔微生物群中RA相关的宏基因组连锁群(MLG)。这些MLG在用于以下的系统、方法或产品中使用：鉴定患有RA或具有发展RA的风险的受试者，监测受试者RA治疗的效力，或者选择或改变用于RA患者的治疗。

Description

用于类风湿性关节炎的生物标记物及其用途

相关申请的交叉引用

本专利申请要求PCT专利申请No.PCT/CN2014/088068、PCT/CN2014/088069和PCT/CN2014/088060的优先权，其均于2014年9月30日提交，并且通过引用整体并入本文。

参考电子提交的序列表

本申请包括通过EFS-Web以电子方式提交的序列表。通过EFS-Web提交的序列表是说明书的一部分，并且通过引用整体并入本文。

领域

本发明涉及与类风湿性关节炎(rheumatoid arthritis，RA)相关的生物标记物，特别是与RA相关的宏基因组连锁群(metagenomic linkage group，MLG)，以及相关的方法、系统和产品。

背景

类风湿性关节炎(RA)是一种使人衰弱的自身免疫性疾病，其影响全世界数千万人，并增加患有心血管和其它系统性并发症的患者的死亡率。RA的病因仍然难以捉摸。传染因子(infectious agent)长期以来与RA有关。然而，RA相关因子的特征和致病性非常不清楚，而最近再确定人体是寄宿有万亿有益和有害微生物的超级生物体(super-organism)使得该问题更加复杂。尽管在使用疾病缓解性抗风湿药(disease-modifying antirheumaticdrug，DMARD)的许多RA患者成功控制或减轻RA病症，但是由于对引起或促进疾病的因素了解不足而阻碍了特异性和更有效的治疗的开发。

认为在关节炎症发作之前RA已经在一些其它身体部位发起并潜伏数年。肠道微生物群是人类健康的关键环境因素，在肥胖、糖尿病、结肠癌等中具有确定的作用。参见例如Qin,J.等人.A metagenome-wide association study of gut microbiota in type2diabetes.Nature 490,55–60(2012)。除了在营养和异生物质代谢中起作用外，末端肠道中的微生物与神经免疫内分泌系统和血流相互作用以影响整个人体。肠道微生物群与给定个体稳定相关，增加了其在个体化用药中的价值，因此在提供护理时考虑个体的具体特征。人群中肠道微生物组的异质性表明，疾病的治疗可以根据肠道微生物组个性化，其在药物活化或失活、免疫调节等中的作用仍然很不清楚。与肠道微生物组相比，口腔微生物组相对研究不足，人类微生物组计划(Human Microbiome Project，HMP)仅对约100个健康个体取样用于WGS(Human Microbiome Project Consortium.A framework for humanmicrobiome research.Nature 486,215–21(2012))。尽管牙齿和唾液样品在门诊中比粪便样品更容易获得，但是一直缺少口腔微生物组在疾病中的作用的宏基因组分析。还不知道口腔和肠道微生物疾病标记物在其特征或功能上可一致到什么程度。

需要改进方法来在早期和亚临床阶段鉴定出具有RA风险的患者，以及在治疗阶段检测和评估RA。

发明内容

在本发明中发现，肠道和口腔微生物群中的某些微生物标记物与类风湿性关节炎(RA)相关。特别地，已经鉴别出8个肠道宏基因连锁群(MLG)集、6个牙齿MLG集和2个唾液MLG集，并且成功地用于基于MLG标记的相对丰度谱(relative abundance profile)直观地评估RA疾病的风险。还鉴别出8个肠道MLG集和17个牙齿MLG集，并且成功地用于基于MLG标记物的相对丰度谱预测受试者RA治疗的效力。

这些新发现的特异性和灵敏的RA相关生物标记物为改善早期阶段的RA检测提供了有价值的工具。粪便、牙齿和/或唾液样品容易获得和运输。这样的样品的分析保证精确性、安全性、可负担性和患者依从性。这样的分析也是非侵入性的，其鼓励更多的人参与基于本发明的RA筛选程序。新发现的RA生物标记物也可用于方法中，例如用于监测RA治疗的效力或鉴定可用于治疗RA的治疗剂。

因此，在一个一般方面，本发明涉及一种系统，其包括：

处理器；和

存储介质，所述存储介质包含用于由所述处理器执行的程序指令，所述程序指令使所述处理器执行包括以下的步骤：

(a)接受代表生物样品中生物标记物的测量值的生物标记物数据，所述生物样品选自由所述受试者的粪便样品、牙齿样品和唾液样品组成的组；

(b)分析所述生物标记物数据以获得对应于所述生物样品的宏基因组连锁群(MLG)组的相对丰度谱；

(c)将所述相对丰度谱和参考相对丰度谱输入模型中；以及

(d)执行所述模型以将类风湿性关节炎的疾病概率或类风湿性关节炎的改善概率分配给所述受试者。

还提供了使用根据本发明实施方案的系统的方法，例如鉴定患有类风湿性关节炎或具有发展类风湿性关节炎的风险的受试者，监测受试者类风湿性关节炎的治疗，或者选择或改变用于治疗受试者的类风湿性关节炎的疗法，以及计算机程序产品，所述计算机程序产品包括其上存储有程序代码的计算机可读存储介质，其中所述程序代码可由所述处理器执行，并且包括使所述处理器执行上述步骤(a)至(d)的指令。

在一个优选实施方案中，本发明涉及用于为受试者分配类风湿性关节炎的疾病概率的系统。所述系统包括：

处理器；和

(b)分析所述生物标记物数据以获得对应于所述生物样品的宏基因组连锁群(MLG)集的相对丰度谱，其中所述MLG集选自由以下组成的组：

(i)对应于所述粪便样品的由MLG ID NO:5635、3869、3850、180、4602、2297、4183和5303组成的MLG集；

(ii)对应于所述牙齿样品的由MLG ID NO:8374、16124、15172、13815、6211和16306组成的MLG集；和

(iii)对应于唾液样品听由MLG ID NO:32522和14组成的MLG集，

(c)将所述相对丰度谱和参考相对丰度谱输入模型中；以及

(d)执行所述模型以将类风湿性关节炎的疾病概率分配给所述受试者。

本发明的另一个实施方案涉及用于鉴定患有类风湿性关节炎或具有发展类风湿性关节炎的风险的受试者的方法。所述方法包括：

(a)获得代表生物样品中生物标记物的测量值的生物标记物数据，所述生物样品选自由所述受试者的粪便样品、牙齿样品和唾液样品组成的组；

(i)对应于由MLG ID NO:5635、3869、3850、180、4602、2297、4183和5303组成的粪便样品的MLG集；

(ii)对应于由MLG ID NO:8374、16124、15172、13815、6211和16306组成的牙齿样品的MLG集；和

(iii)对应于由MLG ID NO:32522和14组成的唾液样品的MLG集，

(c)将所述相对丰度谱和参考相对丰度谱输入模型中；

(d)执行所述模型以将类风湿性关节炎的疾病概率分配给所述受试者；以及

(e)基于所述疾病概率鉴定患有类风湿性关节炎或具有发展类风湿性关节炎的风险的受试者。

本发明的另一个实施方案涉及用于为受试者分配类风湿性关节炎的疾病概率的计算机程序产品。所述计算机程序产品包括其上存储有程序代码的计算机可读存储介质，其中所述程序代码可由处理器执行，并且包括使所述处理器执行包括以下的步骤的指令：

(iii)对应于唾液样品的由MLG ID NO:32522和14组成的MLG集，

(c)将所述相对丰度谱和参考相对丰度谱输入模型中；以及

根据本发明的一个优选实施方案，重复步骤(a)至(d)以将至少两个疾病概率分配给受试者，所述至少两个疾病概率选自由分别基于对受试者的粪便样品、牙齿样品和唾液样品的分析的类风湿关节炎的第一疾病概率、第二疾病概率和第三疾病概率组成的组。在根据本发明的一个优选实施方案的方法中，将第一疾病概率、第二疾病概率和第三疾病概率中的至少两个一起使用以增加灵敏度和/或准确度。

在另一个优选实施方案中，本发明涉及用于预测用于受试者的类风湿性关节炎的治疗的效力的系统。所述系统包括：

处理器；和

(a)接受代表生物样品中生物标记物的测量值的生物标记物数据，所述生物样品选自由所述受试者的治疗前粪便样品和治疗前牙齿样品组成的组；

(i)对应于所述粪便样品的由MLG ID NO:3868、351、7851、693、3144、5250、5303和194组成的MLG集；和

(ii)对应于所述粪便样品的由MLG ID NO:15852、2、1749、1930、1689、1345、16032、16043、31490、652、1649、1815、1366、14778、1847、4016和16124组成的MLG集；以及

(c)将所述相对丰度谱和参考相对丰度谱输入模型中；以及

(d)执行所述模型以将所述治疗后类风湿性关节炎的改善概率分配给所述受试者。

还提供了用于选择用于受试者的类风湿性关节炎的治疗的方法。所述方法包括：

(a)获得代表生物样品中生物标记物的测量值的生物标记物数据，所述生物样品选自由所述受试者的治疗前粪便样品和治疗前牙齿样品组成的组；

(b)分析所述生物标记物数据以获得对应于所述生物样品的宏基因组连锁群(MLG)集的相对丰度谱，其中所述MLG集选自由以下组成的：

(ii)对应于所述牙齿样品的由MLG ID NO:15852、2、1749、1930、1689、1345、16032、16043、31490、652、1649、1815、1366、14778、1847、4016和16124组成的MLG集；以及

(c)将所述相对丰度谱和参考相对丰度谱输入模型中；

(d)执行所述模型以将治疗后类风湿性关节炎的改善概率分配给所述受试者，以及

(e)基于改善概率选择用于受试者的类风湿性关节炎的治疗。

本发明的另一个一般方面涉及用于预测用于受试者的类风湿性关节的治疗的效力的计算机程序产品。所述计算机程序产品包括其上存储有程序代码的计算机可读存储介质，其中所述程序代码可由处理器执行，并且包括使所述处理器执行包括以下的步骤的指令：

(c)将所述相对丰度谱和参考相对丰度谱输入模型中；以及

(d)执行所述模型以将治疗后类风湿性关节炎的改善概率分配给所述受试者。

根据本发明的一个优选实施方案，重复步骤(a)至(d)以将治疗后类风湿性关节炎的两个改善概率分配给所述受试者，所述两个改善概率分别基于所述受试者的治疗前粪便样品和治疗前牙齿样品的分析。将两个改善概率一起用于根据本发明优选实施方案的方法以提高灵敏度和/或精确度。

根据本发明的另一个优选实施方案，将多元统计模型，更优选随机森林模型(random forest model)用于基于所述相对丰度谱和参考相对丰度谱的输入向受试者分配类风湿性关节炎的疾病概率。

在本发明的另一个优选实施方案中，生物标记物数据获自对来自生物样品的微生物DNA的深度测序。

本发明的另一个一般方面涉及用于获得受试者的类风湿性关节炎的疾病概率或治疗后类风湿性关节炎的改善概率的生物标记物。所述生物标记物包含选自由以下组成的组的至少一组宏基因组连锁群(MLG)：

(ii)对应于所述牙齿样品的由MLG ID NO:8374、16124、15172、13815、6211和16306组成的MLG集；

(iii)对应于所述唾液样品的由MLG ID NO:32522和14组成的MLG集；

(iv)对应于所述粪便样品的由MLG ID NO:3868、351、7851、693、3144、5250、5303和194组成的MLG集；和

(v)对应于所述牙齿样品的由MLG ID NO:15852、2、1749、1930、1689、1345、16032、16043、31490、652、1649、1815、1366、14778、1847、4016和16124组成的MLG集。

在本发明的一些优选实施方案中，

MLG ID NO:3869由具有SEQ ID NO:1～297的多核苷酸序列的基因组成；

MLG ID NO:180由具有SEQ ID NO:298～531的多核苷酸序列的基因组成；

MLG ID NO:2297由具有SEQ ID NO:532～721的多核苷酸序列的基因组成；

MLG ID NO:5635由具有SEQ ID NO:722～989的多核苷酸序列的基因组成；

MLG ID NO:5303由具有SEQ ID NO:990～1120的多核苷酸序列的基因组成；

MLG ID NO:4183由具有SEQ ID NO:1121～2010的多核苷酸序列的基因组成；

MLG ID NO:3850由具有SEQ ID NO:2011～2148的多核苷酸序列的基因组成；

MLG ID NO:4602由具有SEQ ID NO:2149～2300的多核苷酸序列的基因组成；

MLG ID NO:8374由具有SEQ ID NO:2301～2623的多核苷酸序列的基因组成；

MLG ID NO:16124由具有SEQ ID NO:2624～2827的多核苷酸序列的基因组成；

MLG ID NO:15172由具有SEQ ID NO:2828～3144的多核苷酸序列的基因组成；

MLG ID NO:13815由具有SEQ ID NO:3145～3257的多核苷酸序列的基因组成；

MLG ID NO:6211由具有SEQ ID NO:3258～3386的多核苷酸序列的基因组成；

MLG ID NO:16306由具有SEQ ID NO:3387～3526的多核苷酸序列的基因组成；

MLG ID NO:32522由具有SEQ ID NO:3527～3651的多核苷酸序列的基因组成；

MLG ID NO:14由具有SEQ ID NO:3652～6117的多核苷酸序列的基因组成；

MLG ID NO:5250由具有SEQ ID NO:6118～7478的多核苷酸序列的基因组成；

MLG ID NO:693由具有SEQ ID NO:7479～9070的多核苷酸序列的基因组成；

MLG ID NO:7851由具有SEQ ID NO:9071～9223的多核苷酸序列的基因组成；

MLG ID NO:194由具有SEQ ID NO:9224～9347的多核苷酸序列的基因组成；

MLG ID NO:5303由具有SEQ ID NO:9348～9478的多核苷酸序列的基因组成；

MLG ID NO:351由具有SEQ ID NO:9479～9704的多核苷酸序列的基因组成；

MLG ID NO:3144由具有SEQ ID NO:9705～11190的多核苷酸序列的基因组成；

MLG ID NO:3868由具有SEQ ID NO:11191～12450的多核苷酸序列的基因组成；

MLG ID NO:1689由具有SEQ ID NO:12451～12568的多核苷酸序列的基因组成；

MLG ID NO:16032由具有SEQ ID NO:12569～13154的多核苷酸序列的基因组成；

MLG ID NO:2由具有SEQ ID NO:13155～15755的多核苷酸序列的基因组成；

MLG ID NO:31490由具有SEQ ID NO:15756～16031的多核苷酸序列的基因组成；

MLG ID NO:1345由具有SEQ ID NO:16032～16255的多核苷酸序列的基因组成；

MLG ID NO:14778由具有SEQ ID NO:16256～16413的多核苷酸序列的基因组成；

MLG ID NO:1847由具有SEQ ID NO:16414～16568的多核苷酸序列的基因组成；

MLG ID NO:1815由具有SEQ ID NO:16569～17830的多核苷酸序列的基因组成；

MLG ID NO:1930由具有SEQ ID NO:17831～18159的多核苷酸序列的基因组成；

MLG ID NO:15852由具有SEQ ID NO:18160～18358的多核苷酸序列的基因组成；

MLG ID NO:16124由具有SEQ ID NO:18359～18562的多核苷酸序列的基因组成；

MLG ID NO:16043由具有SEQ ID NO:18563～18733的多核苷酸序列的基因组成；

MLG ID NO:1749由具有SEQ ID NO:18734～20188的多核苷酸序列的基因组成；

MLG ID NO:652由具有SEQ ID NO:20189～23098的多核苷酸序列的基因组成；

MLG ID NO:4016由具有SEQ ID NO:23099～23223的多核苷酸序列的基因组成；

MLG ID NO:1649由具有SEQ ID NO:23224～24603的多核苷酸序列的基因组成；和

MLG ID NO:1366由具有SEQ ID NO:24604～24956的多核苷酸序列的基因组成。

附图简述

当结合附图阅读时，将更好地理解本发明的前述发明内容以及的发明详述。应当理解，本发明不限于附图中所示的明确的实施方案。

在附图中：

图1a-1c分别示出了基于肠道(图1a)、牙齿(图1b)和唾液(图1c)MLG的随机森林RA分类器的交叉验证误差。10倍交叉验证的5个试验的平均值显示为黑色曲线，垂直线标记了用于RA分类的MLG的最优数目；以及

图2a-2g说明根据本发明实施方案的肠道或口腔MLG允许对RA患者分类并将RA患者与健康对照区分开：

图2a、2d和2f分别是粪便、牙齿和唾液训练集的受试者工作特征(receiveroperating characteristic，ROC)曲线：每组包括未治疗

RA病例对照和无关对照(对于粪便、牙齿和唾液样品，分别为n＝157、100、94)；通过ROC曲线下面积(AUC)测量准确度，对于粪便、牙齿或唾液样品分别为0.9396、0.8702或0.8135；以及95％置信区间(CI)显示为阴影区域；

图2b示出了来自17个对照(白点)和17个RA病例(黑点)的粪便样品的分类，他们彼此是有血缘关系或无血缘关系的；

图2c、2e和2g分别示出了DMARD治疗后的粪便、牙齿和唾液RA样品的分类(对于粪便、牙齿和唾液样品，分别为n＝40、37、24)：基于改进版本的疾病活动性评分(diseaseactivity score，DAS)——DAS28的欧洲抗风湿病联盟(European League AgainstRheumatism，EULAR)应答用于评估治疗的效力，其中DAS28<2.6表示减轻(所有样品的分类结果分别列于表10、12中)。

图3示出了用于基于来自治疗前粪便样品的MLG的分析(表17、表19)来预测DMARD治疗后RA改善的ROC。进行5次随机森林分类器的10倍交叉验证，并选择8个MLG(表13-1、13-2、15)。灰色曲线，来自接受单独MTX或MTX+T2并且具有已知改善状态的患者的治疗前粪便样品(对于良好或中度改善，n＝33，对于无改善，n＝7，表19)，AUC＝0.849。95％CI显示为阴影区。

图4示出了用于基于来自治疗前牙齿样品的MLG的分析(表18-1、18-2、表19)来预测DMARD治疗后RA改善的ROC。进行5次随机森林分类器的10倍交叉验证，并选择17个MLG(表14-1、14-2、16)。灰色曲线，来自接受所有种类的治疗并且具有已知改善状态的患者的治疗前牙齿样品(对于良好或中度改善，n＝24，对于无改善，n＝7，表19)，AUC＝0.881。95％CI显示为阴影区域。

发明详述

在背景技术和整个说明书中引用或描述了多个出版物、文章和专利；这些参考文献各自通过引用以整体并入本文。对已经包括在本说明书中的文件、行为、材料、装置、物品等的讨论是为了提供本发明的背景。这种讨论不是承认任何或所有这些事项形成关于所公开或要求保护的任何发明的现有技术的一部分。

除非另有定义，本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员的通常理解相同的含义。否则，本文使用的某些术语具有说明书中所述的含义。本文引用的所有专利、公开的专利申请和出版物通过引用并入本文，如同在本文完全阐述一样。必须注意，如本文和所附权利要求中所使用的，单数形式的“一”、“一个”和“所述”包括复数指代物，除非上下文另有明确指示。

已经基于来自人生物样品(例如，粪便样品、牙齿样品和唾液样品)的微生物DNA的深度鸟枪法测序来进行宏基因组范围关联研究(metagenome-wide association study，MGWAS)。已经鉴别出并验证了RA相关生物标记物基因。这些生物标记物基因已经分组为MLG，其可在用于改进受试者RA检测的新系统、产品和方法中使用。

如本文所用，术语“受试者”是指将应用或已经应用根据本发明实施方案的方法的哺乳动物，最优选人。优选地，受试者是需要RA的治疗或预防的观察或实验的对象，或已经是RA的治疗或预防的观察或实验的对象。哺乳动物可以是人、非人灵长类动物、小鼠、大鼠、狗、猫、马或牛，但不限于这些实例。除人之外的哺乳动物可以有利地用作代表RA的动物模型的受试者。受试者可以是雄性或雌性。受试者可以是先前已被诊断或鉴定为患有RA并且任选地已经经历或正在经历RA的治疗性干预的受试者。受试者还可以是怀疑患有RA或具有发展RA的风险的受试者。

如本文所用，术语“生物标记物”是指受试者的生物状态或状况的可测量指标。“生物标记物”可以是从受试者测量的与受试者的特定生物学状态或状况(例如疾病或疾病风险)相关的任何指标。生物标记物的实例包括受试者体内的物质，例如核酸标记物(例如DNA或RNA)、蛋白质标记物、细胞因子标记物、趋化因子标记物、碳水化合物标记物、代谢物标记物、抗原标记物、抗体标记物或微生物物种或属标记物。生物标记物还可以是例如基因谱、KEGG直系同源物谱或eggNOG直系同源物组谱。通常测量和评估生物标记物以检查正常生物过程、病理过程或对治疗性干预的药理学反应，并且在许多科学领域中是有用的。

根据本发明的一些实施方案，生物标记物可以组织成一个或多个宏基因组连锁群(MLG)。每个MLG可以通过唯一的标识号来标识。多个MLG可以组合成集(set)。一个或多个MLG集可以用作受试者的生物状态或状况的指标，其具有提高的灵敏性和准确性。

如本文所用，术语“宏基因组连锁群”或“MLG”是指在宏基因组中(更可能不)物理连接的一组遗传物质。“MLG”有利于来自全基因组测序的宏基因组数据的分类描述。可以使用MLG标记物来代替物种标记物，以避免完全鉴别出或确定存在于宏基因组中的特定微生物物种的需要，特别是考虑到存在大量未知微生物群落并且在细菌之间存在频繁的侧向基因转移(LGT)(参见，Qin等人，2012，同上)。

根据本发明的实施方案，MLG中的基因在来自不同个体的样品之间共存，并且具有一致的丰度水平和分类学分配。因此，这些基因可能(但不一定)来自通常存在于来自不同个体的样品中的单一物种或属。优选地，MLG中至少80％的基因在DNA和蛋白质序列两者方面与基因组的基因具有至少85％的序列同一性。更优选地，MLG中至少90％的基因在DNA序列方面与基因组的基因具有至少95％的序列同一性。最优选地，MLG与微生物的种匹配。

可以根据本公开使用本领域已知方法将基因分组到MLG中。例如，使用计算机辅助方法可以从一组随机基因中鉴别出MLG，所述计算机辅助过程描述在例如Qin等人的补充信息(Qin等人Supplementary Information的2012，同上)中，其全部内容通过引用并入本文。

根据本发明的一个实施方案，将RA相关生物标记物基因的原始集作为基因的初始子群集(sub-cluster)。原始集内的每个基因连锁群被认为是一个子群集。应用诸如Chameleon算法的算法，基于子群集的互连性和接近度两者将原始子群集组合成半群集(semi-cluster)。如果两个或更多个半群集具有足够的相似性并且被分配至相同的分类学谱系，则将它们合并成MLG。可以实施额外的步骤或方法，以根据本公开使用本领域已知方法来改进MLG的鉴别。参见，例如，Qin等人的补充信息的第9-11页(2012)(同上)，其通过引用并入本文。

如本文所用，术语“相对丰度”具有本领域已知的常见含义，并且可以根据本公开使用本领域已知方法来计算。例如，通过首先计算样品中每种基因的拷贝数，然后计算样品中每种基因的相对丰度，可以确定或计算样品中每种标记物基因的相对丰度。参见Qin人等的补充信息第3页和第4页(2012)(同上)，其通过引用并入本文。样品中每种标记物基因的相对丰度还可以通过其它方法测定，例如定量PCR、与探针杂交、基因阵列等。

根据本发明的一个实施方案，MLG的相对丰度可以通过该MLG内基因的相对丰度值使用例如在Qin等人的补充信息(2012)(同上)的第11-12页描述的方法来确定，其通过引用并入本文。例如，首先计算MLG中每种基因的相对丰度。丢弃相对丰度最高和最低的5％中的基因，并且利用泊松分布拟合剩余的基因。将泊松分布的估计平均值用作MLG的相对丰度。

如本文所用，“MLG集的相对丰度谱”指的是包含所述MLG集中的每个MLG的相对丰度的谱。

生物标记物数据可以包含在机器可读介质中，例如但不限于磁带类似物，如可由VCR、CD-ROM、DVD-ROM、USB闪存介质等读取的那些。这样的机器可读介质还可以含有另外的测试结果，例如但不限于临床参数以及传统实验室风险因素的测量。可选地或额外地，机器可读介质还可以包括受试者的信息，例如病史和任何相关的家族史。机器可读介质还可以包含与其它RA风险算法和计算的索引相关的信息，例如本文所述的那些。因此，生物标记物数据也可以从预先存在的记录中检索。

如本文所用，术语“参考生物样品”是指从已知具有RA的受试者(也称为“病例”)或不具有RA的受试者(也称为“对照”)获得的生物样品。“参考生物样品”可以包含仅来自病例或对照或者病例和对照两者的生物样品。“参考生物样品”取自与获取测试生物样品的身体位置相对应的身体位置。

如本文所用，术语“参考生物标记物数据”是指代表参考生物样品中生物标记物的测量值的生物标记物数据。“参考生物标记物数据”可以用于“训练”和/或验证将用于分析测试生物标记物数据的模型。

如本文所用，术语“参考相对丰度谱”是指对应于参考生物样品的MLG集的相对丰度谱。

如本文所用，术语“公式”、“算法”和“模型”可互换地用于采用一个或多个连续或分类输入(在本文中也称为“参数”)并且计算输出值(有时候也称为“索引”或“索引值”)的任何数学方程、算法、分析或程序化方法或统计技术。

“模型”的非限制性实例包括和、比率和回归算子(regression operator)，例如系数或指数，生物标记物值转换和归一化(包括但不限于基于临床参数如性别、年龄或种族的那些归一化方案)，规则和指南，统计分类模型和对历史群体进行训练的神经网络。生物标记物的特别用途是线性和非线性方程式和统计分类分析以确定受试者样品中检测到的生物标记物水平与受试者RA风险之间的关系。使用模式识别特征的统计分类算法和风险指数构建方法包括但不限于：建立的技术，例如互相关、主成分分析(Principal ComponentsAnalysis，PCA)、因子循环、逻辑回归(LogReg)、线性判别分析(Linear DiscriminantAnalysis，LDA)、Eigengene线性判别分析(Eigengene Linear Discriminant Analysis，ELDA)、支持向量机(Support Vector Machines，SVM)、随机森林(Random Forest，RF)、递归分割树(Recursive Partitioning Tree，RPART)以及其他相关的决策树分类技术、ShrukenCentroids(SC)、StepAIC、Kth-最近邻(Kth-Nearest Neighbor)、增强(Boosting)、决策树(Decision Tree)、神经网络(Neural Network)、贝叶斯网络(Bayesian Network)、支持向量机和隐马尔可夫模型(Hidden Markov Model)、线性回归(Linear Regression)或分类算法、非线性回归(Nonlinear Regression)或分类算法、变量分析(ANOVA)、分层分析(hierarchical analysis)或集群算法(clustering algorithm)；使用决策树的分层算法；基于内核的机器算法(kernel based machine algorithm)，例如内核偏最小二乘法算法(kernel partial least squares algorithm)、内核匹配追踪算法(kernel matchingpursuit algorithm)、内核Fisher鉴别分析算法(kernel Fisher's discriminateanalysis algorithm)或内核主分量分析算法(kernel principal components analysisalgorithm)等。

“模型”可以与信息标准相结合，以便量化另外的生物标记物和模型改进之间的折衷。所得到的预测模型可以例如在其最初训练的研究中使用诸如Leave-One-Out(LOO)和10倍交叉验证(10-fold CV)的技术或在其它研究中验证。

在本发明的一个优选实施方案中，在使用来自样品的生物标记物数据作为输入数据并且基于MLG集中的每个MLG的相对丰度分配RA的疾病概率的模型中，使用多元统计模式，更优选随机森林模型。

根据本发明，术语“同一性”是指两个多肽之间或两个核酸之间的匹配度。当用于比较的两个序列在某位点具有相同的碱基或氨基酸单体亚单元(例如，两个DNA分子中的每一个在某位点具有腺嘌呤，或两个多肽中的每一个在某位点具有赖氨酸)时，认为两个分子在该位点是相同的。两个序列之间的百分比同一性是两个序列共享的相同位点的数目相对于用于比较的位点总数×100的函数。例如，如果两个序列的10个位点中有6个匹配，则这两个序列具有60％的同一性。例如，DNA序列CTGACT和CAGGTT具有50％的同一性(6个位点中的3个匹配)。通常，以产生最大同一性的方式进行两个序列的比较。这样的比对可以通使用计算机程序，例如基于Needleman等人的方法(J.Mol.Biol.48:443-453,1970)的如Align程序(DNAstar,Inc.)进行。

如本文所用，“系统”是指能够执行本发明的方法或方法的一个或多个步骤的任何系统，包括适于与本发明的方法或步骤一起使用的计算系统、环境和/或配置。这样的系统的实例包括但不限于个人计算机、服务器计算机、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机，包括任何上述系统或设备的分布式计算环境等。

如本文所用，“与微生物群相关的疾病”是指与受试者的微生物群的失衡或生态失调有关的疾病。例如，疾病可以由受试者的微生物群的失衡引起、诱导或加重。

现在在本发明中发现RA可能是与微生物群相关的疾病。在本发明中发现肠道微生物群和口腔微生物群的一些基因与RA相关。多种标记物基因可以基于其在不同个体样品之间的共存以及丰度水平和分类学分配的一致性而归入MLG。

例如，参考表5，MLG ID NO:3869含有从肠微生物群中鉴别出的至少297个RA相关基因。这些297个基因分别具有SEQ ID NO:1-297的多核苷酸序列。如本领域技术人员所理解的，MLG ID NO:3869可以含有除SEQ ID NO:1-297之外的其它基因。在本发明的一个实施方案中，MLG ID NO:3869的至少80％(例如至少80％、85％、90％、95％或100％)的基因与SEQ ID NO:1～297的多核苷酸序列具有至少85％(例如至少85％、90％、95％或100％)的序列同一性，并且编码与由SEQ ID NO:1～297编码的氨基酸序列具有至少85％(例如至少85％、90％、95％或100％)的序列同一性的多肽。在本发明的一个优选实施方案中，MLG IDNO:3869由具有SEQ ID NO:1-297的多核苷酸序列的基因组成。

本发明的实施方案涉及表5中的其它7种肠道最佳MLG标记物中的每一种，表6中的6种牙齿最佳MLG标记物中的每一种，以及表7中的2种唾液最佳MLG标记物中的每一种，以与上文对于MLG ID NO:3869描述的那些类似的方法。

本发明的实施方案还涉及表15中的8种肠道MLG标记物中的每一种以及表16中的17种牙齿MLG标记物中的每一种，其用于预测受试者RA的治疗的效力。

在本发明中还发现，虽然发现一些MLG(例如MLG ID NO:3869)在来自RA患者的样品中富集，发现另一些MLG(例如MLG ID NO:2297)在来自不具有RA的对照的样品中富集。对照富集的MLG可以在预防或抑制RA中起作用。因此，两种类型的MLG都与RA特异性相关。因此，包含两种类型MLG的MLG集可以一起用在本发明的系统、产品或方法中以增加灵敏度和/或再现性。

在本发明的一个优选实施方案中，从肠道微生物组鉴别出的或对应于可用于鉴定患有RA或具有发展RA的风险的受试者的粪便样品的MLG集由MLG ID NO:5635、3869、3850、180、4602、2297、4183和5303组成。参见例如表2-1和2-2。

在本发明的另一个优选实施方案中，从牙齿微生物组鉴别出的或对应于可用于鉴定患有RA或具有发展RA的风险的受试者的牙齿样品的MLG集由MLG ID NO:8374、16124、15172、13815、6211和16306组成。参见例如表3-1和3-2。

在本发明的另一个优选实施方案中，从唾液微生物组鉴别出的或对应于可用于鉴定患有RA或具有发展RA的风险的受试者的唾液样品的MLG集由MLG ID NO:32522和14组成。参见例如表4-1和4-2。

在本发明的另一个优选实施方案中，从肠道微生物组鉴别出的或对应于可用于预测受试者RA治疗的效力的粪便样品的MLG集由MLG ID NO:3868、351、7851、693、3144、5250、5303和194组成。参见例如表13-1和13-2。

在本发明的另一个优选实施方案中，从牙齿微生物组鉴别出的或对应于可用于预测受试者RA治疗的效力的牙齿样品的MLG集由MLG ID NO：15852、2、1749、1930、1689、1345、16032、16043、31490、652、1649、1815、1366、14778、1847、4016和16124组成。参见例如表14-1和14-2。

为了进一步增强检测方法的灵敏度和/或再现性，对应于从多个身体位置分离的样品的多组MLG可以一起用在本发明的系统、产品或方法中。

本发明的一个一般方面涉及用于鉴定患有类风湿性关节炎或具有发展类风湿性关节炎的风险的受试者或用于预测用于受试者类风湿性关节炎的治疗的效力的系统。所述系统包括处理器和包含由处理器执行的程序指令的存储介质。所述程序指令使处理器执行以下步骤：(1)接受代表生物样品中生物标记物的测量值的生物标记物数据，所述生物样品选自由所述受试者的粪便样品、牙齿样品和唾液样品组成的组；(2)分析生物标记物数据以获得对应于所述生物样品的宏基因组连锁群(MLG)集的相对丰度谱；(3)将所述相对丰度谱和参考相对丰度谱输入模型；以及(4)执行所述模型以将类风湿性关节的疾病概率或治疗后类风湿性关节炎的改善概率分配给所述受试者。

在一个优选实施方案中，MLG集可以是(i)对应于所述粪便样品的由MLG ID NO:5635、3869、3850、180、4602、2297、4183和5303组成的MLG集；(ii)对应于所述牙齿样品的由MLG ID NO:8374、16124、15172、13815、6211和16306组成的MLG集；或(iii)对应于所述唾液样品的由MLG ID NO:32522和14组成的MLG集。然后将所述相对丰度谱和参考相对丰度谱用作模型的输入，所述模型的执行将类风湿性关节炎的疾病概率分配给所述受试者。

在另一个优选实施方案中，MLG集可以是(i)对应于所述粪便样品的由MLG ID NO:3868、351、7851、693、3144、5250、5303和194组成的MLG集；或(ii)对应于所述牙齿样品的由MLG ID NO:15852、2、1749、1930、1689、1345、16032、16043、31490、652、1649、1815、1366、14778、1847、4016和16124组成的MLG集。然后将相对丰度谱和参考相对丰度谱用作模型的输入，所述模型的执行执行将治疗后类风湿性关节炎的改善概率分配给受试者。

代表生物标记物的测量值的生物标记物数据可以根据本公开通过本领域已知的任何方法获得。例如，通过方法测量或定量一种或多种生物标记物的水平或量可以获得数据，所述方法为例如实时PCR、定量Southern印迹；微阵列，基因芯片等。能够与特定核酸序列特异性退火或杂交的引物或探针可以用于促进这种测量。可以根据本公开使用本领域已知的方法制备用于特定序列(例如MLG中的基因或其特定片段)的这种引物或探针，参见例如J.Sambrook等人,Molecular Cloning:Laboratory Manual,第二版,Cold SpringHarbor Laboratory Press,1989；F.M.Ausubel等,Short Protocols in MolecularBiology,第三版,John Wiley&Sons,Inc.；以及许多论文，例如Buck等人(1999),Lowe等人(1990)等。

生物标记物数据还可以通过DNA测序获得，特别是利用新一代DNA测序方法，例如第二代测序方法或第三代测序方法。参见例如来自Roche/454、Illumina和ABI的用于第二代测序方法的产品，以及Eric E.Schadt等人,A window into third-generationsequencing,Human Molecular Genetics,2010,第19卷,Review Issue 2,R227-R240。与传统的测序方法不同，新一代DNA测序方法如Sanger测序方法成本低、产量高并且精度高。

在本发明的一个优选实施方案中，生物标记物数据可以通过对从生物样品分离的微生物DNA进行深度DNA测序，随后进行宏基因组范围关联研究(MGWAS)来获得。在深度DNA测序中，多次读取核苷酸，并且读段的总数比被研究序列的长度大许多倍。

根据本发明的一个优选实施方案，根据本公开使用本领域中的已知方法获得代表选自由受试者的粪便样品、牙齿样品和唾液样品组成的组中的至少两种生物样品中的生物标记物的测量值的生物标记物数据。根据本发明的一个实施方案的系统接受并分析生物标记物数据，从而为受试者分配选自由分别基于对受试者的粪便样品、牙齿样品和唾液样品的分析的类风湿性关节炎的第一疾病概率、第二疾病概率和第三疾病概率组成的组中的至少两种。然后将第一疾病概率、第二疾病概率和第三疾病概率中的至少两种一起用在根据本发明的优选实施方案的方法中以增加灵敏度和/或准确性。

本发明的一个实施方案涉及试剂盒，其包含用于测量代表本文所述生物标记物的生物标记物数据的试剂。在一些变型中，这些试剂被包装在一起。在一些变型中，试剂盒还包括用于从来自个体的至少一种生物样品的生物标记物组的测量值评估个体发展RA的风险的分析工具。

本发明的MLG标记物可用于改善受试者RA的检测。已经使用来自对照例如具有RA或不具有RA的受试者的生物标记物数据验证了这种检测方法的准确性和可重复性。根据本发明的一个实施方案，具有0.5或更高的疾病概率的受试者被鉴定为具有RA的风险。

本发明的MLG标记物还可用于监测用于RA患者的治疗，例如通过比较治疗之前和之后由本发明的系统分配的疾病概率。治疗后疾病概率的降低表明治疗是有效的。

本发明的MLG标记物也可用于选择或变更用于RA患者的治疗，其同样基于治疗对治疗后疾病概率的影响。

本发明的MLG标记物还可用于基于治疗对治疗后疾病概率的影响来鉴定用于RA的治疗剂。

本发明的实施方案还涉及根据本文所述的方法被鉴定为患有RA或具有RA风险的受试者的治疗性或预防性治疗。例如，治疗RA或预防RA的方法包括：根据本发明的方法获得RA的疾病概率，以及用治疗方案治疗被鉴定为患有RA或具有RA风险的受试者，以延迟或预防RA的发作。可使用用于RA的多种合适的治疗方案，例如DMARD。

本发明的另一方面是用于为受试者分配类风湿性关节炎的疾病概率的计算机可读介质，例如计算机程序产品。所述计算机可读介质包括：程序，例如程序代码，其存储在计算机可读介质上并适于由处理器执行以接受和/或存储来自受试者的生物标记物数据并且分析生物标记物数据来为受试者分配类风湿性关节炎的疾病概率。优选的生物标记物组，例如优选的MLG集如本文所述。生物标记物数据的优选分析或模型也如本文所述。

将在以下非限制性实施例中进一步举例说明本发明。除非另有说明，否则份数和百分比以重量计，度数为摄氏度。对于本领域普通技术人员显而易见的是，这些实施例虽然指示本发明的优选实施方案，但仅以说明的方式给出，并且试剂都是市售可得的。

实施例1.鉴别和验证用于评估类风湿性关节炎风险的生物标记物

为了研究RA患者体内的肠道微生物组，发明人对212个粪便样品(77个未治疗RA病例，80个不相关的健康对照；17个未治疗RA病例和17个相关健康对照；21个DMARD治疗病例)(表1-1，1-2，1-3)进行宏基因组鸟枪法测序。然后将数据整合到现有的肠道微生物参考基因目录中以获得一组590万个基因集(来自481个样品)，其允许测序读段的饱和比对(80.3±2.3％，平均值±sd)(Li,J.等人，An integrated catalog of reference genes in thehuman gut microbiome.Nat.Biotechnol.(2014),通过引用并入本文)。在RA肠道微生物组中证实了微生物失衡或生态失调。

为了研究生态失调在口腔微生物组中是否也是明显的，本发明人从未治疗RA患者和健康对照中对牙斑和唾液取样，并对105个牙齿样品和98个唾液样品(来自54/51个未治疗RA病例和51/47健康对照的牙齿/唾液样品；69位受试者具有全部的粪便、牙齿和唾液样品)(表1-1，1-2，1-3)进行宏基因组测序。这些序列的从头组装产生了320万个基因的基因目录，分别具有牙齿和唾液测序读段的76.6±1.8％和70.7±7.3％(平均值±标准差)比对。

1.1 研究群组

根据2010ACR/EULAR分类标准在北京协和医院诊断RA。根据标准程序，在受试者首次就诊时收集所有表型信息。用于肠道微生物基因目录构建的212个样品中，仅包括21个来自DMARD治疗的患者的粪便样品，并且在本实施例中没有进行分析。征募的RA患者年龄在18至65岁之间，疾病持续时间至少6周，至少1个肿胀关节和3个触痛性关节(tender joint)。如果患者具有慢性严重感染的病史、任何当前感染或任何类型的癌症，则将其排除。排除怀孕或哺乳期妇女。告知所有患者不育的风险，并排除希望要孩子的患者。尽管一些患者已经患有RA多年，但是他们是未用DMARD的，因为他们在北京协和医院就诊之前没有在当地医院被诊断为RA，并且仅仅使服用止痛药来缓解RA症状。

健康对照组必须符合以下入选标准：18-65岁；在肝肾功能、常规血液测试、红细胞沉降率、空腹血糖、血脂和血压的近期筛查中具有正常水平。如果受试者具有慢性严重感染的病史、任何当前感染、任何类型的癌症或自身免疫疾病，则将其排除。排除怀孕或哺乳期妇女。在参与本研究之前1个月内接受抗生素治疗的受试者也被排除。

使用基于甲氨蝶呤(MTX)的DMARD进行治疗。97％的患者仅接受MTX(最初7.5mg QW(每周一次)，从第四周起15mg(最大0.3mg/kg)QW；补充10mg QW叶酸)、仅接受T2(20mg TID)或接受MTX加T2。其余患者使用的其它药物包括来氟米特(LEF)、泼尼松龙(pred)、羟氯喹(HCQ)和依那西普，由于样本量较小，没有对其进行比较。基于治疗后DAS28-ESR的减少，根据EULAR反应标准将患者样品分为良好、中度和无改善。由于来自中国各地的患者都去北京协和医院就诊，并不是治疗后所有患者样品都可以获得。

该研究由北京协和医院和-深圳华大基因的机构审查委员会批准。

1.2 样品收集

在北京协和医院收集粪便样品，冷冻运输，并如前所述在深圳华大基因提取(Qin,J.等人,A metagenome-wide association study of gut microbiota in type2diabetes.Nature 490,55–60(2012)，通过引用整体并入本文)。使用眼科镊子从牙齿表面刮擦牙斑，直到有3μl体积。将样品转移到含有10mM Tris、1mM EDTA、0.5％吐温20和200μg/ml蛋白酶K(Fermentas)的200μl的1x裂解缓冲液中，并在55℃孵育2小时。在95℃孵育10分钟终止裂解，并将样品在-80℃冷冻直到运输。按照粪便样品的方案进行DNA提取。对于唾液，将100μl唾液加入到100μl的2x裂解缓冲液中，刮擦后咽壁并添加到同一管中，然后如牙齿样品那样将样品裂解和提取。

分析所有可用的样品(表1-1,1-2,1-3)。由于便秘或不适当的样品保存，排除了一些粪便样品；由于低浓度的微生物DNA，排除了一些口腔样品。

表1-1.用于基因目录构建的样品

表1-2.训练组的样品信息(选自表1-1中用于基因目录构建的样品)

表1-3.测试组的样品信息

1.3 宏基因组测序和组装

在Illumina平台(插入片段大小为350bp，读段长度为100bp)上进行双末端宏基因组测序，并且如之前所述(Qin等人，2012，同上)使用SOAPdenovo v2.04(Luo,R.等人.SOAPdenovo2:an empirically improved memory-efficient short-read de novoassembler.Gigascience 1,18(2012)，通过引用整体并入本文)对测序读段进行质量控制并且从头组装成重叠群。平均宿主污染率-粪便样品为0.37％，牙齿样品为5.55％，唾液样品为40.85％。

1.4 基因目录构建

使用GeneMark v2.7d对经过组装的重叠群的基因进行预测。使用BLAT(Kent,W.J.BLAT--the BLAST-like alignment tool.Genome Res.12,656–64(2002),通过引用整体并入本文)除去冗余基因，截断值为90％重叠和95％同一性(不允许缺口)，得到212个粪便样品(含有21个DMARD治疗的样品)的3,800,011个基因的非冗余基因目录，203个未治疗的口腔样品(105个牙斑样品和98个唾液样品)的3,234,997个基因的目录。使用BLAT(95％同一性，90％重叠)(Qin等人，2012，同上)将来自粪便样品的基因目录进一步整合到现有的包含430万个基因的肠微生物参考目录中，得到最终的590万个基因的目录。使用与出版的T2D论文(Qin等人，2012，同上)中相同的程序，通过将高质量测序读段与肠道或口腔参照基因目录进行比对来测定基因的相对丰度。

1.5 分类学注释和丰度计算

使用先前详述的内部流程(Qin等人，2012，同上)，根据IMG数据库(v400)进行预测基因的分类学分配，70％重叠和65％同一性分配至门，85％同一性分配至属，95％同一性分配至物种。从其基因的相对丰度计算分类群的相对丰度

通过Wilcoxon秩和检验p<0.05确定患者和健康对照之间分类群相对丰度的显著差异。

1.6 宏基因组范围关联研究(MGWAS)

对于粪便微生物组的病例-对照比较，去除在小于10％的样品中检测到的基因，得到一组2,007,643个基因，其中117,219个基因在对照和病例之间显示了相对丰度上的差异(Wilcoxon秩和检验，FDR<0.3)。然后根据它们在所有样品中的丰度变化将这些标记物基因聚类成MLG(Qin等人，2012，同上)。为了构建牙齿MLG，从1,900,774个基因中选择371,990个标记物基因(存在于至少10％的样品中)(Wilcoxon秩和检验，FDR<0.1)。对于唾液MLG，从2,030,636个基因中选择258,055个标记物基因(存在于至少10％的样品中)(Wilcoxon秩和检验，FDR<0.1)。

如之前所述(Qin等人，2012，同上)，根据其组成基因的分类学和相对丰度进行MLG的分类学分配和丰度分析。简单来说，分配至物种需要MLG中超过90％的基因与物种的基因组比对时具有超过95％的同一性、70％的查询重叠。将MLG分配至属需要其超过80％的基因与基因组比对时在DNA和蛋白质序列中具有85％同一性。

根据所有样品中其丰度之间的斯皮尔曼相关性(Spearman’s correlation)，将MLG进一步聚类，而不论病例-对照状态。

在具有粪便、牙齿和唾液样品的69个受试者(36个对照，33个未治疗病例)中以相同的方式分析来自不同身体部位的MLG的相关性。

1.7 典型对应分析(canonical correspondence analysis,CCA)

在对照和RA样品的MLG丰度谱上进行CCA，以评估来自所列各因子的影响(参见，例如Feng,Q.等人，Gut microbiome development along the colorectal adenomacarcinoma sequence.Nat.Commun.6,6528(2015),通过引用整体并入本文)。

为了精确描绘RA相关肠微生物群的特征，本发明人鉴定了在RA患者或对照中差异性富集的117,219个肠基因标记物(Wilcoxon秩和检验，FDR<0.3)并且基于样品中基因之间的丰度共变来计算宏基因组连锁群(MLG)(Qin等人，2012，同上)。根据其在典型坐标分析(canonical coordinate analysis，CCA)中的富集方向各自包含至少100个基因的88个MLG分离出来，证实其主要与RA状态相关。

同样地，根据其在CCA中的富集方向，分离了各自包含至少100个基因的171牙齿和142个唾液MLG，证实其与RA相关。

1.8 MLG与临床指标之间的关系

如之前所述(Karlsson，FH等人Gut metagenome in European women withnormal，impaired and diabetic glucose control.Nature 498,99-103(2013)，其通过引用整体并入本文)，在每个MLG的相对丰度和临床测量的连续变量之间进行斯皮尔曼相关性。

1.9 基于MLG的分类器(classifier)

使用对照和RA样品的MLG丰度谱在随机森林模型(R 3.0.1，randomForest 4.6-10package)上进行10倍交叉验证(Liaw,Andy&Wiener,Matthew.Classification andRegression by randomForest,R News(2002),卷2/3第18页，其通过引用整体并入本文)。对来自10倍交叉验证的5个试验的交叉验证误差曲线(10个测试组各自的平均值)取平均值，并将平均曲线中的最小误差加上该点的标准偏差用作截止值。列出误差小于截止值的所有MLG标记物组(≤50)，并且选择具有最小数目的MLG的组作为最佳组。该模型进一步应用于相关病例-对照对和DMARD治疗的样品。

以相同的方式进行DMARD后的临床指数和改善预测的回归。

使用R3.0.1版本中的“随机森林4.6-10软件包”进行随机森林模型分类和回归。输入包括训练数据集(即训练组样品中所选MLG的相对丰度谱)、样品疾病状态(训练样品的样品疾病状态是向量，RA为1，对照为0)和测试组(仅测试组中所选MLG的相对丰度谱)。然后，发明人使用R软件中的随机森林软件包的随机森林函数来构建分类，并使用预测函数来预测测试组。输出为预测结果(疾病概率；截止为0.5，并且如果疾病概率≥0.5，则受试者具有类风湿性关节炎的风险)

1.10 基于微生物组的RA患者鉴定

为了进一步说明RA相关微生物组的诊断或预后价值，本发明人首先构建基于肠道MLG的随机森林疾病分类器。在群组(n＝157)上进行10倍交叉验证5次，最终模型包含88个肠道MLG标记物中的8个，其被称为肠道最佳MLG标记物(图1a和2a，表2-1、2-2、5和8)。在8个肠道MLG中，发现5个MLG在来自具有RA的病例(1)的粪便样品中富集，而3个MLG在没有RA的对照(0)的粪便样品中富集(表2-1)。

该模型还用于对由有血缘关系和无血缘关系的病例-对照对(n＝34)组成的另外一组样品分类(图2b，表10)。该研究表明，基于根据本发明实施方案的肠道MLG标记物的这种随机森林模型的性能与基于RA血清标记物的现有分类器的性能相当或更好(Van derHelm-van Mil,A.H.M.Risk estimation in rheumatoid arthritis-from bench tobedside.Nat.Rev.Rheumatol.(2014)，通过引用整体并入本文)。

同样，也研究了基于牙齿MLG或唾液MLG的随机森林疾病分类器。在随机森林模型的10倍交叉验证的5次重复后，6个牙齿MLG和2个唾液MLG在群组中表现良好(图1b和1c，2d和2f，表3-1、3-2、4-1、4-2、6、7和9)，因此被鉴定为牙齿或唾液的最佳MLG标记物。两个唾液最佳MLG，即MLG ID NO:14(乳球菌属，Lactococcus sp.)和MLG ID NO:32522(RA-32522)在样品中是相互排斥的，即MLG ID NO:14几乎仅在来自无RA的对照(0)的唾液样品中发现，而MLG ID NO:32522在来自具有RA的病例(1)的唾液样品中富集。

当基于来自不同身体位置的两组或更多组MLG分类时，没有具有RA的测试病例被错误分类，仅有一个没有RA的测试对照(C126_S)被错误分类，突出了测试的准确性，特别是当使用来自多个部位的样品的生物标记物数据时(表11)。

1.11 DMARD治疗部分地改变了RA微生物组

为了检查通过DMARD的治疗是否恢复健康的微生物组，本发明人比较了治疗前和治疗后(3个月，除了6个样品)上述肠道和口腔MLG的相对丰度(表1-3)。

有趣的是，来自DMARD治疗的患者，大多数粪便样品在通过肠道MLG分类器测试时仍然具有高于0.5的疾病概率，由牙齿MLG分类器测试的牙齿样品的大部分具有小于0.5的疾病概率，而唾液MLG分类器测试的几乎所有唾液样品的疾病概率为0(图2c、e、g，表12)。这些结果表明，尽管粪便、牙齿和唾液微生物标记物对于RA的诊断和管理都非常有用，但是口腔微生物组可能比肠微生物组对DMARD治疗更敏感。

还发现，与来自没有改善或改善很小的患者相比，在DMARD治疗后通过DAS28测量的具有良好改善的患者的粪便、牙齿和唾液样品含有更多数量的毒力因子(根据毒力因子数据库)(Chen等人,VFDB 2012update:toward the genetic diversity and molecularevolution of bacterial virulence factors.Nucleic Acids Res.40,D641–5(2012))。牙齿和唾液对照样品具有比患者样品具有显著更多的毒力因子。在RA-对照比较中，Wilcoxon秩和检验得到对于粪便p＝0.0953，对于牙齿p＝1e-5，对于唾液样品p＝0.0124。在改善组之间的比较中，对于粪便p＝0.6338，对于牙齿p＝0.2804，对于唾液样品p＝0.3151(Kruskal-Wallis试验)。总之，DMARD治疗部分改变了RA相关的微生物组。分析治疗前后的MLG可有助于治疗效果的预测和评价。

大多数患者接受锚定药甲氨蝶呤(MTX)、传统中药组分雷公藤(Tripterygiumwilfordii)(thunder god vine)苷(T2)或两者(MTX+T2)作为DMARD(表1-3)。与用MTX或MTX+T2RA治疗相比，T2治疗后RA富集的肠道MLG如Holdemania filiformis和拟杆菌属物种(Bacteroides sp.)(具有类似于胶原蛋白XI和HLA-DR4/1的基序)减少得更多。类似地，与单独的T2或单独的MTX相比，包含中间普雷沃氏菌(Prevotella intermedia)的牙齿对照富集的MLG在用MTX+T2治疗的患者中最丰富。唾液RA富集的韦荣球菌属物种(Veillonellasp.)和RA-8489在用T2或MTX+T2治疗的患者中减少得更多。这些数据表明不同的DMARD不同地调节肠道和口腔微生物组。通过本发明的方法测量微生物组可以帮助选择、变更或优化用于有需要的患者的DMARD和/或辅助疗法。

实施例2：基于微生物组预测RA患者中DMARD治疗的效力

在DMARD治疗之前，从RA患者收集生物样品(治疗前样品)，并进行序列分析。在DMARD治疗后监测这些RA患者。如所预期的，不同的患者对治疗具有不同的反应，一些对治疗反应良好，并且RA显著改善，而另一些反应较差，并且没有或几乎没有RA改善。

以与1.9基于MLG的分类器下描述的相同的方式进行DMARD后临床指数和改善的预测的回归。

研究了基于治疗前生物样品中肠道或牙齿MLG的随机森林模型。在随机森林模型的10倍交叉验证的5次重复后，治疗前样品中的8个肠道MLG和17个牙齿MLG(表13-1、13-2、14-1、14-2、15、16)被鉴定为可用于可靠地预测DMARD治疗的效力(改善或未改善)的MLG标记物。这些MLG中的一些与上述RA MLG重叠。这些MLG全部可以区分在治疗后表现良好或中度改善的患者与DMARD治疗后没有表现出改善的患者(图3，图4，表17、18-1、18-2、19)，证明了微生物组在RA预后中的效用。基于对一个或多个预后MLG(例如表13-1、13-2、14-1、14-2、15和16中描述的8个肠道MLG和17个牙齿MLG)的分析，可以预测患者可能如何响应于诸如DMARD(T2、MTX、MTX+T2、T2+LEF和MTX+LEF)的治疗，从而为患者选择更有效的治疗。

表5.8种肠道最佳标记物的SEQ ID

MLG ID	SEQ ID NO:	基因数
			mlg_id:3869	1～297	297
mlg_id:180	298～531	234
			mlg_id:2297	532～721	190
mlg_id:5635	722～989	268
			mlg_id:5303	990～1120	131
mlg_id:4183	1121～2010	890
			mlg_id:3850	2011～2148	138
mlg_id:4602	2149～2300	152

表6.6种牙齿最佳标记物的SEQ ID

MLG ID	SEQ ID NO:	基因数
			mlg_id:8374	2301～2623	323
mlg_id:16124	2624～2827	204
			mlg_id:15172	2828～3144	317
mlg_id:13815	3145～3257	113
			mlg_id:6211	3258～3386	129
mlg_id:16306	3387～3526	140

表7.2种唾液最佳标记物的SEQ ID

MLG ID	SEQ ID NO:	基因数
			mlg_id:32522	3527～3651	125
mlg_id:14	3652～6117	2466

表8.157个样品中8个肠道MLG的相对丰度谱

表9.100个样品中6个牙齿MLG的相对丰度谱和94个样品中2个唾液MLG的相对丰度谱

表10.由17个对照和17个RA病例组成的粪便测试组的分类，他们彼此有血缘关系或无血缘关系

*具有S、R的样品分别代表无血缘关系、有血缘关系

表11.基于三个部位的分类

因此，发明人已经鉴别出和验证了与RA相关的标记物组，优选8个肠道MLG、6个牙齿MLG和/或2个唾液MLG。这些标记物组可以用于模型(优选随机森林模型)中以为受试者分配类风湿性关节炎的疾病概率。疾病概率可用于为受试者评估RA风险、评估治疗和/或选择/更改治疗。

尽管已经示出和描述了说明性实施方案，但是本领域技术人员应当理解，上述实施方案不能被解释为限制本公开，并且在不脱离本公开的精神、原理和范围的情况下，可以对实施方案进行改变、替换和修改。

Claims

1.一种系统，其包括：

处理器；和

(b)分析所述生物标记物数据以获得对应于所述生物样品的宏基因组连锁群(MLG)集的相对丰度谱；

(c)将所述相对丰度谱和参考相对丰度谱输入模型中；以及

(d)执行所述模型以将类风湿性关节炎的疾病概率或治疗后类风湿性关节炎的改善概率分配给所述受试者；

其中，所述宏基因组连锁群(MLG)集包括选自由以下组成的组至少之一：

(iii)对应于所述唾液样品的由MLG ID NO:32522和14组成的MLG集；

(iv)对应于撰述粪便样品的由MLG ID NO:3868、351、7851、693、3144、5250、5303和194组成的MLG集；和

(v)对应于所述牙齿样品的由MLG ID NO:15852、2、1749、1930、1689、1345、16032、16043、31490、652、1649、1815、1366、14778、1847、4016和16124组成的MLG集，

MLG ID NO:3869由具有SEQ ID NO:1～297的多核苷酸序列的基因组成；

MLG ID NO:1649由具有SEQ ID NO:23224～24603的多核苷酸序列的基因组成；以及

2.一种计算机程序产品，其包括其上存储有程序代码的计算机可读存储介质，其中所述程序代码可由处理器执行，并且包括使所述处理器执行权利要求1的步骤(a)至(d)的指令。

3.一种用于为受试者分配类风湿性关节炎的疾病概率的系统，其包括：

处理器；和

(iii)对应于所述唾液样品的由MLG ID NO:32522和14组成的MLG集，

(c)将所述相对丰度谱和参考相对丰度谱输入模型中；以及

(d)执行所述模型以将类风湿性关节炎的疾病概率分配给所述受试者；

其中：MLG ID NO:3869由具有SEQ ID NO:1～297的多核苷酸序列的基因组成；

MLG ID NO:32522由具有SEQ ID NO:3527～3651的多核苷酸序列的基因组成；以及

MLG ID NO:14由具有SEQ ID NO:3652～6117的多核苷酸序列的基因组成。

4.根据权利要求3所述的系统，其中所述相对丰度谱包括相应MLG集中每个MLG的相对丰度，MLG的相对丰度通过包括以下的方法获得：

确定所述MLG中每个基因的相对丰度；

丢弃所述MLG中相对丰度最高5％和最低5％的基因；

利用泊松分布拟合所述MLG中的剩余基因；以及

在所述泊松分布的估计平均值的基础上获得所述MLG的所述相对丰度。

5.根据权利要求3所述的系统，其中所述模型是多元统计模型。

6.根据权利要求3所述的系统，其中所述生物标记物数据由来自所述生物样品的微生物DNA的深度测序获得。

7.根据权利要求3所述的系统，其中重复步骤(a)至(d)以将至少两个疾病概率分配给所述受试者，所述至少两个疾病概率选自由分别基于对所述受试者的所述粪便样品、所述牙齿样品和所述唾液样品的分析得到的类风湿关节炎的第一疾病概率、第二疾病概率和第三疾病概率组成的组。

8.一种用于为受试者分配类风湿性关节炎的疾病概率的计算机程序产品，所述计算机程序产品包括其上存储有程序代码的计算机可读存储介质，其中所述程序代码可由处理器执行，并且包括使所述处理器执行权利要求3-7中任一项所述的步骤(a)至(d)的指令。

9.一种用于预测用于受试者的类风湿性关节炎的治疗的效力的系统，其包括：

处理器；和

(i)对应于所述粪便样品的由MLG ID NO:5250、693、7851、194、5303、351、3144和3868组成的MLG集；和

(ii)对应于所述牙齿样品的由MLG ID NO:1689、16032、2、31490、1345、14778、1847、1815、1930、15852、16124、16043、1749、652、4016、1649和1366组成的MLG集；以及

(c)将所述相对丰度谱和参考相对丰度谱输入模型中；以及

(d)执行所述模型以将所述治疗后类风湿性关节炎的改善概率分配给所述受试者；

其中，MLG ID NO:5250由具有SEQ ID NO:6118～7478的多核苷酸序列的基因组成；

10.根据权利要求9所述的系统，其中所述相对丰度谱包括相应MLG集中每个MLG的相对丰度，MLG的相对丰度通过包括以下的方法获得：

确定所述MLG中每个基因的相对丰度；

丢弃所述MLG中相对丰度最高的5％和最低的5％的基因；

利用泊松分布拟合所述MLG中的剩余基因；以及

11.根据权利要求10所述的系统，其中所述模型是多元统计模型。

12.根据权利要求11所述的系统，其中所述生物标记物数据由来自所述生物样品的微生物DNA的深度测序获得。

13.根据权利要求9所述的系统，其中重复步骤(a)至(d)以分别基于对所述受试者的所述治疗前粪便样品和所述治疗前牙齿样品的所述分析为所述受试者分配第一改善概率和第二改善概率。

14.一种用于预测用于受试者的类风湿性关节炎的治疗的效力的计算机程序产品，所述计算机程序产品包括其上存储有程序代码的计算机可读存储介质，其中所述程序代码可由处理器执行，并且包括使所述处理器执行权利要求9-13中任一项所述的步骤(a)至(d)的指令。

15.一种用于获得受试者的类风湿性关节炎的疾病概率或治疗后类风湿性关节炎的改善概率的生物标记物，其包括选自由以下组成的组的至少一组宏基因组连锁群(MLG)集：

(iii)对应于所述唾液样品的由MLG ID NO:32522和14组成的MLG集；

其中，

MLG ID NO:3869由具有SEQ ID NO:1～297的多核苷酸序列的基因组成；