CN112236831A

CN112236831A - 用于对ibs患者分层的方法

Info

Publication number: CN112236831A
Application number: CN201980037633.0A
Authority: CN
Inventors: 弗格斯·沙纳汉; 保罗·W·奥图尔; 伊恩·B·杰弗里
Original assignee: 4D Pharma PLC
Current assignee: 4D Pharma PLC
Priority date: 2018-06-07
Filing date: 2019-06-07
Publication date: 2021-01-15
Also published as: JP2021526684A; KR20210018823A; IL278982A; AU2019281024A1; WO2019234246A1; US20210327580A1; TW202016949A; CA3101541A1; EP3803901A1; SG11202012023QA

Abstract

一种用于对肠易激综合征(IBS)患者分层的计算机实现的方法。所述方法包括检测从所述患者获得的生物样品中多种细菌的存在、不存在或丰度以生成患者微生物组分布图；以及对所述患者微生物组分布图操作受训分类器以输出将所述肠易激综合征(IBS)患者分层至第一组或第二组中的信号。将所述患者分层至所述第一组中指示所述患者具有与未指示IBS的平均微生物组相比未显著改变的微生物组。将所述患者分层至所述第二组中指示所述患者具有与未指示IBS的平均微生物组相比改变的微生物组。

Description

用于对IBS患者分层的方法

技术领域

本公开涉及对肠易激综合征(IBS)患者分层的系统和方法以及用于生成对IBS患者分层的受训分类器的系统和方法。

背景技术

IBS为一种终身胃肠病症，通常始于青春期或成年早期，人们对此知的甚少。IBS的有效治疗代表着未得到满足的需求。可用的治疗为功效有限的补救方法，通常针对特定症状，而非治愈方法，而且药物试验长期失败。此外，对补救方法在IBS中的毒性的调控耐受性较低，并且对安全的非传统药物策略的兴趣越来越大，如用活的生物治疗剂(LBT)操纵微生物组(microbiome)。

肠易激综合征(IBS)为使人衰弱的慢性功能性胃肠病症，在欧洲估计群体患病率在10％与15％之间。其给卫生资源带来了巨大负担，IBS侵袭近12％的在儿科诊所寻求护理的患者，并且代表了胃肠病学诊所中最大的患者亚组。IBS的特征在于腹痛或不适，伴随大便形式或频率的改变。这些症状可使人衰弱，并导致生活质量显著下降，特别是在受侵袭更严重的群体中。IBS的确切病理生理学尚未完全阐明。然而，肠道微生物群的功能和组成的改变越来越视为潜在的致病或恶化因素。这种概念的一个最强指标为急性传染性胃肠炎发作后患IBS的风险增加。前瞻性研究已表明，多达三分的一的肠道感染导致新的持久性IBS症状。

若干条证据表明，至少一个患者子集的宿主-微生物相互作用受到干扰。由于IBS的异质性，需要诊断标记物，通过所述标记物可鉴定患者的子集，以为更合适的治疗策略提供信息并且增强对LBT疗法的未来治疗试验的设计或解释，从而增加成功实现症状的有效缓解的可能性。

仅基于患者报告的症状(如便秘、腹泻或症状改变)以及临床医生如何解释这些症状(如The language of medicine:words as servants and scoundrels.Quigley,E.M.,Shanahan,F.,(2009)‘Bad language in gastroenterology’.Clin.Med.2009:9:2 131-135中所论述)，在所谓的IBS患者的临床亚型中已鉴定其临床效用的不足。

对IBS患者的微生物组成的先前研究表明，一些具有正常样微生物群(即，微生物组成类似于未患IBS的人的微生物组成，但不同于IBS患者的微生物群)的患者显示较高的焦虑和抑郁得分。具有正常样微生物群的患者也可描述为具有不同于其他IBS患者的微生物组成，或者具有不同于IBS患者的微生物组成，所述IBS患者具有不同于未患IBS的人的微生物群。另一方面，微生物群发生改变/发育不良(即微生物群不同于未患IBS的人的微生物群，但类似于IBS患者的微生物群)的其他IBS患者具有平均焦虑和抑郁正常得分(参见Jeffery IB、O'Toole PW、Ohman L、Claesson MJ、Deane J、Quigley EM、Simren M.2012.“An irritable bowel syndrome subtype defined通过species-specific alterationsin faecal microbiota.”Gut 61:997-1006)。因此，研究建议将IBS患者分为两组：(i)以微生物群改变为特征的那些胃肠病症患者和(ii)微生物群正常(或‘健康样’)的那些胃肠病症患者。这些患者组将从不同的治疗计划中受益，因此针对当前临床分型的替代方法将为患者带来更合适的治疗策略和更好的结果。

鉴于上述情况，需要将IBS患者分为两类的方法：具有“改变的”微生物群的患者(即组(i)患者)和具有“正常样”微生物群的患者(即组(ii)患者)。常规计算机实现的方法和系统不能以可靠并准确的方式将患者分为具有正常样微生物组的IBS亚组。因此，需要计算机实现的方法和系统，所述方法和系统能够在鉴定这一特定患者组的IBS时实现这种可靠性和准确性。

US 2017/0270270 A1涉及微生物学领域中用于微生物组来源的诊断和治疗的方法及系统。所述方法可根据个体的微生物组组成对个体进行分类，包括在检测到源自微生物组组成的某些特征时将个体分类为患有IBS的个体。US 2017/0270270 A1没有公开将IBS患者分成两组的方法。根据微生物组，可将个体分类为患或未患IBS(以及许多其他诊断)。IBS患者根本没有分成任何额外的组，更不必说具有“改变的”和“正常样”微生物组分布图的患者组。

US 2017/0270270 A1中也论述了测试微生物组组成在预测患者的特征方面的功效，即微生物组组成用于诊断的功效。微生物组的某些特征随后可鉴定为与某一诊断(例如IBS)具有高度相关性。这将个体分类为患或不患IBS，而非将IBS患者分类为两个亚组。

WO 2014/188378 A1涉及帮助诊断个体的IBS的方法。所述方法将样品分类为IBS样品或非IBS样品。与US 2017/0270270 A1的方法一样，IBS样品并不根据“改变的”或“正常样”微生物组分布图分类成亚组。

鉴于上述情况，仍然需要将IBS患者分为两类的方法：具有“改变的”微生物群的患者(即组(i)患者)和具有“正常样”微生物群的患者(即组(ii)患者)。

发明内容

在一个方面中，提供了一种基于IBS患者的微生物组将所述患者分层至一类中的计算机实现的方法。所述方法包括：

-检测从所述患者获得的生物样品中多种细菌的存在、不存在或丰度以生成患者微生物组分布图；以及

-对所述患者微生物组分布图操作受训分类器以输出将所述肠易激综合征(IBS)患者分层至第一组或第二组中的信号；

其中将患者分层至第一组中指示患者具有与未指示IBS的微生物组相比改变的微生物组；并且

其中将患者分层至第二组中指示患者具有与未指示IBS的微生物组相比未显著改变的微生物组。

以前，将具有“健康”微生物组的IBS患者和具有“改变的”微生物组的IBS患者从一组患者中准确分层为一项挑战。换言之，需要将IBS患者分为两组：(i)与未患IBS的患者的平均(即典型或一般)微生物组相比具有改变的微生物组的IBS患者，和(ii)与未患IBS的人的平均(即典型或一般)微生物组相比具有未显著改变的微生物组的IBS患者。不属于组(i)和(ii)的个体可描述为未患IBS，或为“健康”个体。在一些实例中，作为任选的初始步骤，可使用Rome IV诊断问卷来鉴定这些健康个体。

组(i)中的患者可描述为具有与未患IBS的人(即“健康”个体)的微生物组不同、不相同、改变或实质上不同的微生物组(或“患者微生物组分布图”)。换言之，与未患IBS的人相比，组(i)中的IBS患者可描述为具有异常微生物组。例如，组(i)中患者的微生物组分布图与“健康”个体的微生物组分布图之间的差异可能高于预定阈值。也有可能一些具有真正微生态失调的人可能没有症状。

组(ii)中的患者可描述为具有与未患IBS的人(即“健康”个体)的微生物组相似、相同或实质上相同的微生物组(或“患者微生物组分布图”)。换言之，组(ii)中的IBS患者可描述为具有‘健康’、正常、正常样或接近正常的微生物组。例如，组(ⅱ)患者的微生物组分布图与“健康”人的平均微生物组之间的差异可能低于预定阈值。

组(ii)中IBS患者的正常样微生物组可描述为比组(i)中改变的微生物组的患者的微生物组更类似于健康人的平均(即一般或典型)微生物组。组(ii)患者的微生物组或微生物组分布图可称为“真生物样”。另一方面，组(i)患者的微生物组或微生物组分布图可称为“菌群失调”。

准确鉴定患有IBS的正常样微生物组患者为一项挑战。然而，已发现，通过对此类患者的微生物组分布图操作受训分类器，有可能以准确的方式对所述患者进行分类。这提供鉴定这些IBS患者的能力，即使使用常规方式很难将其微生物组与未患IBS的患者的微生物组区分开来。这可有助于减少漏诊或误诊的数量，进而可有助于为IBS患者提供正确的治疗计划以减轻其症状。

受训分类器能够区分组(i)和组(ii)中不同治疗计划可能适用的IBS患者。取决于IBS患者是属于组(i)还是组(ii)对其进行治疗可获得更有效的结果。

在另一方面中，提供一种用于基于IBS患者的微生物组生成将所述患者分层至一类中的受训分类器的计算机实现的方法。所述方法包括：

-获得各自对应于生物样品的多个微生物组分布图；

其中将多个微生物组分布图的第一子集基于所述第一子集中各微生物组分布图的微生物组数据分类为指示IBS的存在；

其中将多个微生物组分布图的第二子集基于所述第二子集中各微生物组分布图的微生物组数据分类为指示IBS的不存在；以及

-使用第一子集和第二子集的微生物组分布图来生成受训分类器以将肠易激综合征(IBS)患者分层至第一组或第二组中；

其中将所述患者分层至第一组中指示所述患者具有与未指示IBS的平均微生物组相比改变的微生物组；并且

其中将患者分层至第二组中指示患者具有与未指示IBS的平均微生物组相比未显著改变的微生物组。

已发现，通过使用分类为指示IBS的存在或指示IBS的不存在的微生物组分布图来生成受训分类器允许所得受训分类器准确鉴定与未患IBS的健康人的平均微生物组相比具有未显著改变的微生物组的IBS患者。已发现，下文所述的特征有助于改进受训分类器在鉴定这些患者方面的准确性。

优选地，所述方法包括基于所述微生物组分布图中每一者的微生物组数据鉴定多个微生物组分布图的第一子集和第二子集；将所述第一子集的各微生物组分布图分类为指示IBS的存在；以及将所述第二子集的各微生物组分布图分类为指示IBS的不存在。

优选地，鉴定所述第一子集和第二子集包括：对微生物组分布图执行主成分分析或主坐标分析(或另一排序技术)以生成各自对应于多个微生物组分布图中的一者的多个数据点；以及基于多个数据点中每一者之间的斯皮尔曼相关不同性度量(spearmancorrelation dissimilarity metric)(或其他不同性或距离度量)鉴定所述第一子集和第二子集。

优选地，使用第一子集和第二子集的微生物组分布图来生成受训分类器包括使用特征选择算法从所述第一子集和第二子集鉴定多个特征；以及使用所鉴定的多个特征生成受训分类器。

优选地，仅使用通过特征选择算法鉴定的特征来生成受训分类器。

优选地，特征选择算法包括回归分析方法。

优选地，回归分析方法包括最小绝对值收缩与选择算子(LASSO)方法或弹性网络算法或另一特征选择方法。

优选地，使用所鉴定的多个特征生成受训分类器包括使用随机森林机器学习分类器使用所鉴定的多个特征生成预测模型。

优选地，随机决策森林包括约1500个决策树。

(对于LASSO方法(或弹性网络算法))λ参数和(对于随机森林)树的数量经优化以增强灵敏度和特异性。这些参数的优化通常取决于数据集的大小和类型，并且使用对输入数据集的网格搜索来进行优化。发现LASSO和随机森林算法相互组合提供良好的预测性能。

优选地，使用交叉验证来执行回归分析。

优选地，通过交叉验证使用所鉴定的多个特征来生成受训分类器。

优选地，交叉验证为k折交叉验证。

优选地，交叉验证为10折交叉验证。对于LASSO和随机森林算法二者使用10折交叉验证避免模型过度拟合。

优选地，10折交叉验证在没有嵌套下执行和/或重复10次。

优选地，对多个微生物组分布图进行预处理以排除在少于5％的微生物组分布图中出现的操作分类单位(OTU)，由此生成微生物组特征的过滤集，在所述过滤集上生成受训分类器。

在另一方面中，提供基于IBS患者的微生物组将所述患者分层至一类中的计算机实现的方法。所述方法包括：

-获得各自对应于生物样品的多个微生物组分布图；

其中将所述多个微生物组分布图的第一子集基于所述第一子集中各微生物组分布图的微生物组数据分类为指示IBS的存在；

其中将所述多个微生物组分布图的第二子集基于所述第二子集中各微生物组分布图的微生物组数据分类为指示IBS的不存在；

-使用所述第一子集和第二子集的微生物组分布图来生成受训分类器以确定IBS的存在或不存在；

-对患者微生物组分布图操作受训分类器以将肠易激综合征(IBS)患者分层至第一组或第二组中；

其中将所述患者分层至第二组中指示所述患者具有与未指示IBS的平均微生物组相比未显著改变的微生物组。

在一个方面中，提供一种用于诊断患者的肠易激综合征(IBS)的计算机实现的方法。所述方法包括：

-对所述患者微生物组分布图操作受训分类器以输出指示所述患者中IBS的存在或不存在的信号。

在另一方面中，提供一种基于IBS患者的微生物组将所述患者分层至一类中的计算机实现的方法。所述方法包括：

检测从患者获得的生物样品中多种细菌的存在、不存在或丰度以生成患者微生物组分布图；

通过以下步骤基于包括多个微生物组分布图的训练数据集生成受训分类器：

使用最小绝对值收缩与选择算子(LASSO)方法来选择特征；以及

使用所选特征来训练随机决策森林；

对所述患者微生物组分布图操作受训分类器以输出指示患者具有以下微生物组的信号：与未指示IBS的平均微生物组相比未显著改变的微生物组或与未指示IBS的平均微生物组相比改变的微生物组。

在另一方面中，提供了一种(例如非暂时性)计算机可读介质，所述介质包括指令，所述指令在由计算机执行时使得计算机执行本文所述的一种或多种方法。

在另一方面中，提供一种包括处理器和存储器的系统，所述存储器包括指令，所述指令在由所述处理器执行时使得所述处理器执行本文所述的一种或多种方法。

在另一方面中，提供携带本文所述的计算机程序的(例如，非暂时性)数据载体信号。

附图说明

将参考以下附图通过实施方案的方式描述本发明的实施方案，其中：

图1示出用于生成对IBS患者分层的受训分类器的方法；

图2示出转换成主坐标分析排序的微生物组分布图；

图3以进一步细节示出用于生成受训分类器的方法；

图4示出用于对IBS患者分层的方法；

图5示出使用受训分类器鉴定具有与IBS不相关的平均微生物组相比未显著改变的微生物组的IBS患者的结果；

图6示出使用受训分类器诊断具有与IBS不相关的平均微生物组相比改变的微生物组的患者的IBS的结果；并且

图7示出用于执行本文所述的一种或多种方法的系统和电子装置的示意图。

具体实施方式

本文描述了能够将IBS患者从其微生物组准确分层的方法和系统，特别是在患者的微生物组与未患IBS的人的平均微生物组相似的情况下。以前，区分这一特定IBS患者亚组与微生物组改变的那些患者为一项挑战。

此外，从患者的微生物组诊断IBS可比从患者单独报告的症状诊断IBS得到更明智的诊断，其中后者可能导致可变和不准确的结果以及不适当的治疗策略。因此，能够从患者的微生物组诊断出患者的IBS为有利的。此外，本文描述了可用于生成用于执行IBS诊断的受训分类器的方法和系统。可储存受训分类器，供处理器使用测试样品的微生物组数据来执行，以便以准确的方式提供指示患者中IBS的存在或不存在的输出。

参考图1，提供计算机实现的方法100，用于生成用来鉴定具有与IBS不相关的平均微生物组相比未显著改变的微生物组的IBS患者的受训分类器。

在步骤101中，获得多个生物样品，每个样品来自各别患者。每一所述生物样品可使用取样试剂盒获得。下文将更详细地描述使用取样试剂盒获得生物样品的方法的具体实例。

在步骤102中，对每个生物样品进行微生物组数据分析，并且在步骤103中，输出每个样品的微生物组分布图。每个相应微生物组分布图指示生物样品中多种细菌的存在、不存在或丰度。下文将更详细地描述用于执行微生物组数据分析和输出微生物组分布图的方法的具体实例。

在步骤104中，对微生物组分布图执行主成分分析(PCA)、主坐标分析(PCoA)或另一排序技术，以便将微生物组分布图转换成主成分分析坐标系。图2示出转换成主成分分析或主坐标分析或其他排序系统的微生物组分布图的实例。

PCA或PCoA用作排序技术来鉴定微生物组中的趋势(特征向量)。所述趋势为样品空间中分类群丰度变化的汇总。一旦鉴定所述趋势，即可使用线性回归和0.05的P值，基于其区分健康患者与IBS患者的能力来过滤所述趋势。这一过程鉴定两个特征向量，第一个解释了大部分差异。这一特征向量用于剩余的分析。所鉴定的第二特征向量解释了较小的差异。

参考图2可看出，指示患者中存在IBS的微生物组分布图201与指示IBS不存在(即未患IBS的“健康”个体)的微生物组分布图203分开聚集在一起。此外，可看出，具有与健康患者(即正常样IBS患者)相似的微生物组的IBS患者的微生物组分布图202与健康个体的微生物组分布图203紧密聚集。图2示出正常样微生物组IBS患者的微生物组分布图202至少部分与健康个体的微生物组分布图203重叠。因此，仅使用主成分分析或主坐标分析很难从健康个体的相应微生物组鉴定正常样微生物群IBS亚组。

参考图2，沿着主轴的分离突出了健康对照样品与IBS群组之间的显著分离，并且因此用于使用ROC(接收者-操作者曲线)分析来鉴定最佳阈值，所述最佳阈值提供最大灵敏度和特异性。这提供基于最大灵敏度和特异性的最佳阈值(Youden’s J metric)，将IBS样品初步分层为改变的和正常样的微生物组IBS亚组。这种分层示于图2中。

在步骤105中，多个微生物组分布图的第一子集分类为指示IBS的存在，并且多个微生物组分布图的第二子集分类为指示IBS的不存在。基于主成分分析坐标系中每个微生物组分布图的数据点之间的斯皮尔曼距离来鉴定微生物组分布图的第一子集和第二子集。因此，PcoA或PCA和斯皮尔曼不同性度量为用于鉴定数据集的主要趋势的排序技术。可使用其他排序技术。

在步骤106中，使用微生物组分布图的第一子集和第二子集来训练分类器。在此步骤中，仅使用两组受试者的微生物组分布图。第一组由IBS患者的微生物组分布图组成，所述患者的微生物组也不同于(改变的)未患IBS的人(即组(i)患者)的平均微生物组。第二组由未患IBS的“健康”个体的微生物组分布图组成。不使用也具有与未患IBS的“健康”个体(组ii)的平均微生物组分布图相似的微生物组的IBS患者的微生物组分布图来训练分类器。将参考图3更详细地描述用于训练分类器的方法。

可对用于训练分类器的微生物组分布图进行预处理，以便过滤微生物组分布图的选择，使得分布图的选择不用于训练分类器。例如，可预处理多个微生物组分布图，以排除在少于5％的微生物组分布图中出现的操作分类单位(OTU)，从而生成微生物组分布图的过滤集，在所述过滤集上生成受训分类器。由于微生物组分布图可能在地理上不同的位置有所不同，因此可基于地理位置的群体对特征进行优化。

在此实例中，训练数据由来自未患IBS的“健康”个体的64个样品和来自组(i)的43个患者的样品组成。

在步骤107中，一旦已使用第一和第二子集训练了分类器，受训分类器可描述为已生成。一旦生成，将受训分类器存储在数据存储资源如存储器中，供以后在测试数据中使用。

参考图3，提供用于生成对IBS患者分层的受训分类器的计算机实现的方法300，其为上述步骤106的具体实例。

在步骤301中，使用最小绝对值收缩与选择算子(LASSO)方法来鉴定来自步骤105中鉴定的微生物组分布图的第一子集和第二子集的特征。在此实例中，LASSO算法用于通过有效地选择特征来提高模型的准确性和可解释性。然而，也可使用替代特征选择过程。这可为有监督或无监督的特征选择过程。

在替代实例中，可使用特征选择过程的非参数方法。例如，可使用威尔科克斯测试、克鲁斯卡尔-沃利斯测试或曼-惠特尼测试。可使用特征选择过程的参数方法，例如线性回归、t-统计或混合模型。结构化分析管线可用于特征选择，例如与线性模型的多元关联(MaAsLin)、线性判别分析效果大小(LefSe)或STAMP。可使用其他方法和统计模型，如来自接收者操作特征(ROC)的曲线下面积(AUC)分析、pROC分析、倍数变化分析、DESeq、DESeq2或metagenomeSeq。

LASSO为有监督的特征选择过程，其选择用于训练分类器的预测特征。在这一具体实例中，首先将样品分成训练集和测试集。如参考步骤105所述，所使用的训练集为第一子集和第二子集。所述过程遍历训练集中的每个数据点，并将其放入LASSO线性回归模型中。LASSO更详细描述于Journal of the Royal Statistical Society,Series B,58(1),1996,R.Tibshirani,“Regression Shrinkage and Selection via the Lasso”，第267-288页中。

在步骤302中，可使用k折交叉验证来执行特征选择过程，以便优化模型。在k折交叉验证中，将训练数据集(即第一子集和第二子集)随机分成多个大小相等的组。组的数量等于‘k’。k组中的每一者依次选为用于测试模型的验证组，并且其余组用作训练数据。这一过程重复k次，并且在所述过程的每次重复中，k组中的每一者均精确地用作验证数据一次。这输出k个结果，所述结果可平均化以产生平均结果。这一过程产生更准确的结果，这是由于所有k组都用于验证和训练，但k组中的每一者仅用于验证一次。在具体实例中，使用10折交叉验证来执行特征选择，已发现这提高了所得模型的准确性。因此，90％的数据用作训练集，并且10％用作测试集。将这重复十次，使所有样品都在测试集中一次。此外，10折交叉验证可重复10次和/或可在没有嵌套的情况下执行。在一个实例中，可通过使用网格搜索优化超参数来鉴定特征。

在步骤303中使用LASSO输出显示与样品标签高度相关的数据点(即IBS或“健康”)作为步骤304中的分类器训练的特征。换言之，在步骤303中输出由特征选择过程选择的最准确地预测测试样品为指示IBS或健康的特征(或特征组合)作为步骤304中用于训练分类器的选择特征。

在步骤304中，使用LASSO方法鉴定的特征用于生成随机决策森林(或“随机森林”)。所生成的随机森林可包括约或精确地1500棵树。已发现对于随机森林使用这一树数量可优化受训分类器的准确性。

在步骤305中，也可使用k折交叉验证来生成随机森林，以便优化模型。同样，使用k折交叉验证产生更准确的结果，这是由于所有训练数据以及在步骤301中鉴定的相应特征都用于验证和训练，但k组训练数据中的每一者仅用于验证一次。在具体实例中，使用10折交叉验证来生成随机森林，已发现这提高了所得模型的准确性，并且也有效地利用了处理资源。此外，10折交叉验证可重复10次和/或可在没有嵌套的情况下执行。

在测试集中以相同的顺序选择显示与样品标签高度相关的相同特征，以预测测试集中的类别标签。可通过比较预测的类别标签与实际类别标签来检查分类器性能。这种特征选择可应用于训练集，以避免过度拟合，并产生与仅基于正态分布特征的预测相似的结果。

其他分类器和机器学习算法可用于分析所选特征，以确定IBS的存在或不存在和/或将生物样品分类至IBS的子集。例如，支持向量机(SVM)、K均值聚类、I Bayes、NaiveBayes、梯度树提升、类间神经网络分析、冗余分析、线性判别分析和这些不同方法的混合可替代地用于对样品进行分类或对疾病群体进行分层。然而，已发现随机森林在IBS患者的微生物组与健康患者的微生物组相似时，可提高鉴定IBS患者的准确性。

上述方法可在没有交叉验证的情况下实施。或者，可使用基于引导数据集的“留一”交叉验证或交叉验证。

在图3的步骤107中，所述步骤为参考图1描述的相同步骤的具体实例，生成并存储随机森林，用于对IBS患者进行分层。这为上文提及的受训分类器的具体实例。一旦生成受训分类器，所选数据点(也称为特征)即用于使用受训分类器对样品进行分类，以指示IBS的存在或不存在，或基于微生物组来鉴定IBS的亚群。

在参考图3描述的方法中，所述方法在R软件中实施，并且将glmnet包用于LASSO。Glmnet经由最大惩罚似然拟合广义线性模型。对于LASSO方法(或弹性净罚分算法)，正则化路径计算为正则化参数λ(λ)的值的网格。所述算法速度极快，并且可利用输入矩阵X的稀疏性。预测可从拟合的模型进行。

Glmnet在反应明确时实施逻辑回归。如果存在两种可能的结果(例如IBS、健康)，则使用二项式分布，如果没有则使用多项式分布。

对于二项式模型，假设反应变量取值为G＝{1,2}。所述模型可用以下形式编写：

其为所谓的“逻辑”或对数优势转换。

惩罚逻辑回归的目标函数使用负二项式对数似然，并且为：

覆盖整个范围的λ值网格。弹性净罚分由α控制，并且桥接套索(α＝1，默认值)与脊(α＝0)之间的间隙。调谐参数λ控制罚分的整体强度。

当p>N时，逻辑回归经常受到退化的困扰，其中p为特征的数量，并且N为样品的数量，并且即使当N接近p时也展现野生行为。弹性净罚分减轻了这些问题，并且也正则化并选择变量。

对于λ的优化，glmnet算法使用循环坐标下降，其在每个参数上连续优化目标函数，而其他参数固定不变，并重复循环直至收缩。所述算法使用对数似然性的二次近似，然后对所得惩罚加权最小二乘问题进行坐标下降。这些构成外环和内环。优化的步骤阐述于Jerome Friedman,Trevor Hastie及Rob Tibshirani“Regularization Paths forGeneralized Linear Models via Coordinate Descent”Journal of StatisticalSoftware，第33卷(1)，2010年2月1日至22日，特别是第3节正则化逻辑回归，方程(15)至(18)中。

randomForest包用于生成随机森林模型。参数“ntree”表示森林中的树的数量，其原则上应尽可能大，以便每个潜在的模型特征都有足够的机会被选择。包randomForest中的默认值为ntree＝500。参数“mtry”表示在每次分割时随机选择为模型特征的特征数量。低值增加了选择具有小效应的特征的机会，这可能有助于在其被具有大效应的特征遮蔽的情况下提高预测性能。mtry的高值降低了仅具有非信息候选特征的风险。在包randomForest中，用于分类的默认值为√p，其中p为数据集的特征数量。参数“节点大小”代表终端节点的最小大小。设置这一数字越大，树长得越小。用于分类的默认值为1。Boulesteix,Anne-Laure等人“Overview of random forest methodology and practicalguidance with emphasis on computational biology and bioinformatics”(2012)提供随机森林算法内参数的更详细描述。

上述机器学习流水线使用网格搜索技术来优化参数(例如，ntree)。在网格搜索中，使用不同的树数量(例如，ntree＝500、1000、1500、2000)生成若干模型，其中mtry值不同(例如，mtry＝1、2、3、4、5、6、7、8、9、10)。节点大小参数保持在1，即分类值。然后使用灵敏度和特异性性能度量来选择最佳模型，并且具有优化的mtry和树数量参数。在这一实例中，发现最佳树数量为1500。

参考图4，提供计算机实现的方法400，用于将IBS患者鉴定为具有与IBS不相关的平均微生物组相比未显著改变的微生物组(即“正常样”微生物组)。

在步骤401中，以类似于参考步骤101所述的方式从患者获得生物测试样品，其将在下文更详细地讨论。

在步骤402中，对生物测试样品执行微生物组数据分析，并且在步骤403中，输出测试样品的微生物组数据测试分布图。微生物组数据测试分布图指示生物测试样品中多种细菌的存在、不存在或丰度。步骤402和403以类似于参考步骤102和103所述的方式实施，所述步骤将在下文更详细地讨论。

在步骤404中，将微生物组数据测试分布图输入至如参考图1至3所述生成的受训分类器。在这一步骤中，对微生物组测试分布图操作分类器，并输出将患者鉴定为组(i)患者或组(ii)患者的信号。在另一实例中，对微生物组数据测试分布图操作受训分类器，并输出指示患者中存在或不存在与微生物组数据测试分布图相对应的IBS的信号。

受训分类器可输出IBS存在或不存在的概率，例如0与1之间的概率。如果此概率满足预定的阈值概率，则这可输出IBS存在的指示，或者在另一实例中将患者分层至组(i)中。另一方面，如果此概率不满足预定的阈值概率，则这可输出IBS不存在的指示，或者在另一实例中将患者分层至组(ⅱ)中。概率可为可配置的以便可调谐输出的准确性。在一个实例中，概率为50％或0.5。因此，如果概率输出为0.5或更低，则这指示不存在IBS(或个体为“健康的”)，并且如果概率输出在0.5以上，则这指示个体患有IBS。

发现受训分类器能够诊断出具有与未患IBS的患者(即具有“正常样”微生物组的组(ii)患者)的平均微生物组相似的微生物组的患者的IBS。发现受训分类器诊断出所述患者的准确性在80％左右。这在图5中说明，其中显示组(ii)患者的35个样品。低于由虚线表示的优化阈值的样品分类为组(ii)样品，而高于阈值的样品分类为组(i)样品。优化阈值在0.5与0.6之间，并且在这一具体实例中，阈值为0.53，但阈值可调谐至不同值。

在35个样品中，28个正确分类为指示存在IBS，并且微生物组与未患IBS的人的微生物组(即组(ii)IBS患者的微生物组)实质上相同。此外，35个样品中仅有7个错误分类为指示微生物组与未患IBS的人的微生物组(即组(i)IBS患者的微生物组)实质上不同。

此外，发现受训分类器能够诊断微生物组不同于未患IBS的人的平均微生物组的患者的IBS，并且发现受训分类器能够诊断未患IBS的个体。发现受训分类器诊断所述个体的准确性在88％左右。这在图6中示出，其仅显示107个测试样品中的39个。黑条表示“健康”个体，并且白条表示IBS患者。如图6所示，仅有5个健康样品错误分类为患有IBS(即样品S0001、S0010、S0014、S0015和S0017)，并且仅有8个IBS样品错误分类为“健康的”(即样品S0039、S0032、S0031、S0030、S0028、S0024、S0023和S0021)。因此，107个样品中仅有13个样品错误分类，准确率为约88％。

获得步骤101和401中提及的生物样品的一个实例可涉及使用来自19300Germantown Road,Germantown,Maryland 20874 USA的Qiagen的“DNeasy Blood&Tissue试剂盒”来获得生物样品。这种试剂盒用于自0.2g从患者获得的145个冷冻粪便样品中的每一者中提取微生物DNA。

使用由Illumina Way,San Diego,CA 92122 USA的Illumina 5200开发的16S测序文库制备Nextera方案，对获得的样品进行16S rRNA基因扩增子制备和测序。在此过程中，使用PCR和靶向16S rRNA基因的V3-V4可变区的引物扩增50ng每种DNA粪便提取物。将产物纯化并通过第二轮适配PCR连接正向和反向条形码。将所得PCR产物纯化、定量，并且然后将等摩尔量的每个扩增子汇集在一起，然后送去测序。

如步骤102、103、402和403中所提及，实施微生物组数据分析以输出微生物组分布图的一个实例涉及首先对生物样品测序以生成原始扩增子序列数据。然后，使用众所周知的闪存方法合并且修剪返回的原始扩增子序列数据。这将从读数对生成单次读数，并且也过滤掉重叠区域中不含序列相似性的低质量读数。USEARCH管道方法(版本8.1.1861_i86_linux64)用于鉴定单线态并将其隐藏在OTU(操作分类单位)生成步骤中。这为了降低数据的复杂性并提高整体质量，这是由于所述读数有可能为低质量的，从而生成低品质OTU。通过在最终映射步骤中重新引入读数，使所述读数保留在整体分析内。

UPARSE算法用于将序列聚类至OTU中。这生成一个序列表，所述序列可能反映真正的分类变化。由于在16S数据集生成的湿实验室扩增步骤中生成嵌合序列，将UCHIME嵌合体去除算法与嵌合体层参考数据库一起用于去除嵌合序列。嵌合序列发生在两个序列由于16S序列退火而结合生成新序列时，所述序列共享高度相似性，即使所述序列的起源来自系统发育上不同的起源。然后，USEARCH全局比对算法用于将所有读数(包括单线态)映射至剩余OTU序列上。使用脚本使用USEARCH全局比对算法分类的读数分配生成OTU丰度信息。根据丰度和多样性，这将序列分组至OTU中生成微生物组组成信息。所述步骤允许估计每个样品中每个分类群相关序列的丰度。此外，由于原始序列映射至仅从高质量数据生成的OTU序列，因此可存在原始序列映射至生物来源的序列的高置信度。

图7示出包括示例性电子装置701的系统700，所述电子装置被配置为执行本文所述的一种或多种方法。电子装置701包括处理电路710(如微处理器)和存储器712。电子装置701也包括以下子系统中的一者或多者：电源714、显示器716、收发器720和输入726。

处理电路710可控制电子装置701和处理电路通信耦合的连接子系统的操作。存储器712可包括随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、闪存存储器、其他易失性存储器及其他非易失性存储器中的一者或多者。

显示器716可与处理电路710通信耦合，所述处理电路710可被配置为使显示器716输出指示诊断的图像或与诊断相关的数据，所述图像或数据由本文所述的一种或多种方法确定。

显示器716可包括触敏界面，例如触摸屏显示器。显示器716可用于与运行在电子装置701的处理器710上的软件相互作用。触敏界面允许使用者经由谨慎的触摸、触摸或一个或多个手势向处理电路710提供输入，用于控制处理电路的操作和本文所述的功能。应理解，出于相同的目的，可另外或替代地采用其他形式的输入界面，例如输入设备处可包括键盘或鼠标的输入726。输入726和/或显示器716可被配置为输入用于训练分类器的微生物组分布图，或者输入用于输出诊断的微生物组测试分布图。微生物组分布图和/或微生物组数据测试分布图可经由收发器720在电子装置701处接收。

收发器720可为一个或多个远程RF收发器，其被配置为根据通信标准如LTE、UMTS、3G、EDGE、GPRS、GSM以及Wi-Fi操作。例如，电子装置701可包括蜂窝收发器，所述蜂窝收发器被配置为经由蜂窝数据协议(如LTE、UMTS、3G、EDGE、GPRS或GS)与蜂窝塔703通信。电子装置701可包括Wi-Fi收发器，所述Wi-Fi收发器被配置为经由诸如802.11ac/n/g/b/a的Wi-Fi标准与无线接入点705通信。

电子装置701可被配置为经由收发器720与网络740通信。网络740可为广域网(如因特网)或者局域网。电子装置701可进一步配置为经由收发器720合网络740与一个或多个系统或装置通信。例如，微生物组分布图和/或微生物组数据测试分布图可在电子装置701处经由收发器720从网络740中的一个或多个系统或装置接收。

本文所述的方法可通过有形储存介质上的机器可读形式的软件来执行，例如以计算机程序的形式，所述计算机程序包括计算机程序代码构件，当程序在计算机上运行时，所述计算机程序代码构件适于执行本文所述的任一方法的所有步骤，并且其中所述计算机程序可体现在计算机可读介质上。有形(或非暂时性)存储介质的实例包括磁盘、拇指驱动器、记忆卡等且不包括传播信号。所述软件可适用于在并联处理器或串联处理器上执行，使得方法步骤可以任何合适的顺序或同时实施。其意图涵盖运行在或控制“哑”或标准硬件上的软件，以实施期望功能。其也意图涵盖“描述”或定义硬件配置的软件，如用于设计硅芯片或配置通用可程序化芯片以实施所需功能的HDL(硬件描述语言)软件。

本领域技术人员将认识到，用于存储程序指令的存储装置可分布在网络上。例如，远程计算机可存储描述为软件的过程的实例。本地计算机可访问远程计算机并下载部分或全部软件来运行程序。或者，本地计算机可根据需要下载多款软件，或者在本地终端执行一些软件指令，并在远程计算机(或计算机网络)执行一些软件指令。本领域技术人员也将认识到，通过利用本领域技术人员已知的常规技术，所有或部分软件指令可由专用电路来实施，如DSP、可程序化逻辑阵列或诸如此类。

本文所述方法的步骤可以任何合适的顺序实施，或者在合适的情况下同时实施。此外，可从任一方法中删除单个块。上述任一实例的方面可与所描述形成其他实例的任一其他实例的方面相结合，而不丧失所寻求的效果。

编号实施方案的列表

1.一种用于生成对肠易激综合征(IBS)患者分层的受训分类器的计算机实现的方法，所述方法包括：

获得各自对应于生物样品的多个微生物组分布图；

使用所述第一子集和第二子集的微生物组分布图来生成受训分类器以将肠易激综合征(IBS)患者分层至第一组或第二组中；

其中将患者分层至第一组中指示患者具有与未指示IBS的平均微生物组相比改变的微生物组；以及

2.如实施方案1的计算机实现的方法，所述方法包括：

基于各微生物组分布图的微生物组数据鉴定多个微生物组分布图的第一子集和第二子集；

将第一子集的各微生物组分布图分类为指示IBS的存在；以及

将第二子集的各微生物组分布图分类为指示IBS的不存在。

3.如实施方案2的计算机实现的方法，其中鉴定第一子集和第二子集包括：

对微生物组分布图执行主成分分析或主坐标分析以生成各自对应于多个微生物组分布图中的一者的多个数据点；以及

基于多个数据点中每一者之间的斯皮尔曼距离鉴定第一子集和第二子集。

4.如前述实施方案中任一项的计算机实现的方法，其中使用第一子集和第二子集的微生物组分布图来生成受训分类器包括：

使用特征选择算法从第一子集和第二子集鉴定多个特征；以及

使用所鉴定的多个特征生成受训分类器。

5.如实施方案4的计算机实现的方法，其中仅使用通过特征选择算法鉴定的特征来生成受训分类器。

6.如实施方案4或实施方案5的计算机实现的方法，其中特征选择算法包括回归分析方法。

7.如实施方案6的计算机实现的方法，其中回归分析方法包括最小绝对值收缩与选择算子(LASSO)方法。

8.如实施方案6或7的计算机实现的方法，其中使用交叉验证执行回归分析方法。

9.如实施方案8的计算机实现的方法，其中交叉验证为k折交叉验证。

10.如实施方案8或实施方案9的计算机实现的方法，其中交叉验证为10折交叉验证。

11.如实施方案10的计算机实现的方法，其中10折交叉验证重复10次。

12.如实施方案8-11中任一项的计算机实现的发明，其中在没有嵌套下执行交叉验证。

13.如实施方案4-12中任一项的计算机实现的方法，其中使用所鉴定的多个特征生成受训分类器包括：

使用所鉴定的多个特征生成随机决策森林。

14.如实施方案13的计算机实现的方法，其中随机决策森林包括约1500个决策树。

15.如实施方案4至14的计算机实现的方法，其中通过交叉验证使用所鉴定的多个特征生成受训分类器。

16.如实施方案15的计算机实现的方法，其中交叉验证为k折交叉验证。

17.如实施方案15或16的计算机实现的方法，其中交叉验证为10折交叉验证。

18.如实施方案17的计算机实现的方法，其中10折交叉验证重复10次。

19.如实施方案15-18中任一项的计算机实现的发明，其中在没有嵌套下执行交叉验证。

20.如前述实施方案中任一项的计算机实现的方法，其中布置受训分类器以诊断具有与未指示IBS的平均微生物组相比未显著改变的微生物组的个体中肠易激综合征(IBS)的存在或不存在。

21.如前述实施方案中任一项的计算机实现的方法，其中对多个微生物组分布图进行预处理以排除在少于5％的微生物组分布图中出现的操作分类单位(OTU)，由此生成微生物组分布图的过滤集，在所述过滤集上生成受训分类器。

22.如前述实施方案中任一项的计算机实现的方法，其中仅第一子集和第二子集的微生物组分布图来生成受训分类器以确定患者中IBS的存在或不存在。

23.如前述实施方案中任一项的计算机实现的方法，其中不使用具有与未指示IBS的平均微生物组相比未显著改变的微生物组的患者的微生物组分布图作为训练数据来生成受训分类器。

24.如实施方案23的计算机实现的方法，其中使用具有与未指示IBS的平均微生物组相比未显著改变的微生物组的患者的微生物组分布图作为仅用于受训分类器的验证数据。

25.一种用于对肠易激综合征(IBS)患者分层的计算机实现的方法，所述方法包括：

检测从患者获得的生物样品中多种细菌的存在、不存在或丰度以生成患者微生物组分布图；以及

对患者微生物组分布图操作受训分类器以输出将肠易激综合征(IBS)患者分层至第一组或第二组中的信号；

其中将患者分层至第一组中指示患者具有与未指示IBS的平均微生物组相比改变的微生物组；

其中将患者分层至第二组中指示患者具有与未指示IBS的平均微生物组相比未显著改变的微生物组；

其中受训分类器根据如前述实施方案中任一项的计算机实现的方法生成。

26.一种用于对肠易激综合征(IBS)患者分层的计算机实现的方法，所述方法包括：

通过以下步骤基于训练数据集生成包括多个微生物组分布图的受训分类器：

使用最小绝对值收缩与选择算子(LASSO)方法来选择特征；以及

使用所选特征来训练随机决策森林；

其中将患者分层至第一组中指示患者具有与未指示IBS的平均微生物组相比改变的微生物组；并且

27.一种用于诊断一组患者中肠易激综合征(IBS)的存在或不存在的计算机实现的方法，所述组患者包括具有与未指示IBS的平均微生物组相比未显著改变的微生物组的患者、具有改变的微生物组的患者以及具有未指示IBS的微生物组的患者，所述方法包括：

检测从至少一个患者获得的生物样品中多种细菌的存在或不存在以生成患者微生物组分布图；以及

对患者微生物组分布图操作受训分类器以输出指示患者中IBS的存在或不存在的信号。

28.一种计算机可读介质，所述计算机可读介质包括指令，所述指令在由计算机执行时使得计算机实施前述实施方案中任一项的方法。

29.一种系统，所述系统包括处理器和存储器，所述存储器包括指令，所述指令在由处理器执行时使得处理器执行实施方案1至28中任一项的方法。

Claims

获得各自对应于生物样品的多个微生物组分布图；

其中将所述多个微生物组分布图的第二子集基于所述第二子集中各微生物组分布图的微生物组数据分类为指示IBS的不存在；以及

使用所述第一子集和所述第二子集的所述微生物组分布图来生成受训分类器以将肠易激综合征(IBS)患者分层至第一组或第二组中；

其中将所述患者分层至所述第一组中指示所述患者具有与未指示IBS的平均微生物组相比改变的微生物组；并且

其中将所述患者分层至所述第二组中指示所述患者具有与未指示IBS的平均微生物组相比未显著改变的微生物组。

2.如权利要求1所述的计算机实现的方法，所述方法包括：

基于所述微生物组分布图中每一者的微生物组数据鉴定所述多个微生物组分布图的所述第一子集和所述第二子集；

将所述第一子集的各微生物组分布图分类为指示IBS的存在；以及

将所述第二子集的各微生物组分布图分类为指示IBS的不存在。

3.如权利要求2所述的计算机实现的方法，其中鉴定所述第一子集和所述第二子集包括：

对所述微生物组分布图执行主成分分析或主坐标分析以生成各自对应于所述多个微生物组分布图中的一者的多个数据点；以及

基于所述多个数据点中每一者之间的斯皮尔曼距离鉴定所述第一子集和所述第二子集。

4.如前述权利要求中任一项所述的计算机实现的方法，其中使用所述第一子集和所述第二子集的所述微生物组分布图来生成所述受训分类器包括：

使用特征选择算法来从所述第一子集和所述第二子集鉴定多个特征；以及

使用所鉴定的所述多个特征生成所述受训分类器，并且任选地，其中仅使用通过所述特征选择算法鉴定的所述特征来生成所述受训分类器。

5.如权利要求4所述的计算机实现的方法，其中所述特征选择算法包括回归分析方法，并且任选地，其中所述回归分析方法包括最小绝对值收缩与选择算子(LASSO)方法或弹性网络算法。

6.如权利要求5所述的计算机实现的方法，其中使用交叉验证来执行所述回归分析方法。

7.如权利要求4-6中任一项所述的计算机实现的方法，其中使用所鉴定的所述多个特征生成所述受训分类器包括：

使用所鉴定的所述多个特征生成随机决策森林。

8.如权利要求7所述的计算机实现的方法，其中所述随机决策森林包括约1500个决策树。

9.如权利要求4至8所述的计算机实现的方法，其中使用通过交叉验证鉴定的所述多个特征来生成所述受训分类器。

10.如权利要求6和/或权利要求9所述的计算机实现的方法，其中所述交叉验证为k折交叉验证，并且任选地，其中所述交叉验证为10折交叉验证，并且优选地，所述10折交叉验证重复10次。

11.如前述权利要求中任一项所述的计算机实现的方法，其中布置所述受训分类器以诊断具有与未指示IBS的平均微生物组相比未显著改变的微生物组的患者中肠易激综合征(IBS)的存在或不存在和/或其中对所述多个微生物组分布图进行预处理以排除在少于5％的所述微生物组分布图中出现的操作分类单位(OTU)，由此生成微生物组分布图的过滤集，在所述过滤集上生成所述受训分类器。

12.如前述权利要求中任一项所述的计算机实现的方法，其中仅使用所述第一子集和所述第二子集的所述微生物组分布图来生成所述受训分类器以确定患者中IBS的存在或不存在和/或其中不使用具有与未指示IBS的平均微生物组相比未显著改变的微生物组的患者的微生物组分布图作为训练数据来生成所述受训分类器，并且任选地，其中使用具有与未指示IBS的平均微生物组相比未显著改变的微生物组的患者的所述微生物组分布图作为仅用于所述受训分类器的验证数据。

13.一种用于对肠易激综合征(IBS)患者分层的计算机实现的方法，所述方法包括：

检测从所述患者获得的生物样品中多种细菌的存在或不存在以生成患者微生物组分布图；以及

对所述患者微生物组分布图操作受训分类器以输出将肠易激综合征(IBS)患者分层至第一组或第二组中的信号；

其中将所述患者分层至所述第一组中指示所述患者具有与未指示IBS的平均微生物组相比改变的微生物组；

其中将所述患者分层至所述第二组中指示所述患者具有与未指示IBS的平均微生物组相比未显著改变的微生物组；并且

其中根据前述权利要求中任一项所述的计算机实现的方法来生成所述受训分类器。

14.一种用于对肠易激综合征(IBS)患者分层的计算机实现的方法，所述方法包括：

对所述患者微生物组分布图操作受训分类器以输出将所述肠易激综合征(IBS)患者分层至第一组或第二组中的信号；

15.一种包括处理器和存储器的系统，所述存储器包括指令，所述指令在由所述处理器执行时使得所述处理器执行如权利要求1至14中任一项所述的方法。